JP2023128332A - 学習装置、その制御方法、プログラム - Google Patents
学習装置、その制御方法、プログラム Download PDFInfo
- Publication number
- JP2023128332A JP2023128332A JP2022032614A JP2022032614A JP2023128332A JP 2023128332 A JP2023128332 A JP 2023128332A JP 2022032614 A JP2022032614 A JP 2022032614A JP 2022032614 A JP2022032614 A JP 2022032614A JP 2023128332 A JP2023128332 A JP 2023128332A
- Authority
- JP
- Japan
- Prior art keywords
- observation
- difference
- learning
- observation period
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 16
- 230000002787 reinforcement Effects 0.000 claims abstract description 28
- 230000008859 change Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims 2
- 230000009471 action Effects 0.000 abstract description 30
- 238000012545 processing Methods 0.000 description 13
- 239000003795 chemical substances by application Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004519 grease Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Feedback Control In General (AREA)
Abstract
【課題】 制御動作を正しく学習するための観測周期を学習中に見つけることが難しい場合があった。
【解決手段】 一定の観測周期ごとに、制御対象の状態を観測する観測手段と、前記観測手段で観測したデータに応じた操作量を制御対象へ出力する推論手段と、前記推論手段が制御対象へ出力する操作量を強化学習する学習手段とを備え、現在までの少なくとも2つのタイミングにおける、前記推論手段が制御対象へ出力した操作量のタイミングの間の差分である操作量差分と、前記観測手段が観測した制御対象から出力される制御量のタイミングの間の差分である制御量差分、とを算出し、前記操作量差分と前記制御量差分の比率に応じて、観測周期を変更することを特徴とする。
【選択図】 図5
【解決手段】 一定の観測周期ごとに、制御対象の状態を観測する観測手段と、前記観測手段で観測したデータに応じた操作量を制御対象へ出力する推論手段と、前記推論手段が制御対象へ出力する操作量を強化学習する学習手段とを備え、現在までの少なくとも2つのタイミングにおける、前記推論手段が制御対象へ出力した操作量のタイミングの間の差分である操作量差分と、前記観測手段が観測した制御対象から出力される制御量のタイミングの間の差分である制御量差分、とを算出し、前記操作量差分と前記制御量差分の比率に応じて、観測周期を変更することを特徴とする。
【選択図】 図5
Description
本発明は、強化学習の学習を実行することができる学習装置に関する。
従来より、制御対象の時定数に応じて観測周期を定める技術が開示されている。例えば、特許文献1ではモータの制御時に目標トルクに応じて定まる電気的時定数に応じて電流制御周期を、交流電動機の回転速度に応じて電圧制御周期を、それぞれ設定する技術が開示されている。
強化学習においてエージェントと呼ばれる学習主体は、環境と呼ばれる学習対象の状態を観測し、その状態に応じた行動を環境に指示する。そして、その指示の結果観測周期後の環境の状態がどう変化したかを観測し報酬という指標を基に初めの状態で指示した行動が良かったか判断する。強化学習は初めの状態を観測してから次の状態を観測するまでを1観測周期間で行う。
強化学習を制御に応用する場合、エージェントは制御器、環境は制御対象となるが、環境の時定数によって、エージェントが環境に指示した行動に対して環境の状態の変化に違いがでる。時定数が大きい場合は、時定数が小さい時よりも環境の状態の変化量が小さくなる。そして時定数が大きい場合に観測周期が短いと行動の作用時間が短くなり、環境の状態変化量が極小となるためエージェントはどの行動を環境に指示することも正しいという誤った学習をしてしまう可能性がある。制御の観点では、制御対象の細かい変化に対応するために観測周期を短くしたいが、強化学習では、観測周期が短いと学習が収束しないというトレードオフ関係を解消することが課題となっている。
上述の特許文献1に開示された従来技術では、目標トルクと回転速度に応じた制御周期の適切化は行っているが、強化学習で誤った学習をしないための時定数に応じた観測周期の適切化はできない。
本発明の目的は、制御動作を正しく学習するための観測周期を学習中に見つけることを可能にすることである。
上記目的を達成するために、本発明における学習装置は、一定の観測周期ごとに、制御対象の状態を観測する観測手段と、前記観測手段で観測したデータに応じた操作量を制御対象へ出力する推論手段と、前記推論手段が制御対象へ出力する操作量を強化学習する学習手段とを備え、現在までの少なくとも2つのタイミングにおける、前記推論手段が制御対象へ出力した操作量のタイミングの間の差分である操作量差分と、前記観測手段が観測した制御対象から出力される制御量のタイミングの間の差分である制御量差分、とを算出し、前記操作量差分と前記制御量差分の比率に応じて、観測周期を変更することを特徴とする。
本発明によれば制御動作をより正しく学習するための観測周期を学習中に見つけることができる。
[第1の実施形態]
図1は、本発明の第1の実施形態にかかわる強化学習の概念図である。
図1は、本発明の第1の実施形態にかかわる強化学習の概念図である。
強化学習は学習主体をエージェント、学習対象と学習対象が影響を及ぼす系をまとめて環境と定義する。エージェントは実際に学習を行うディープニューラルネットワーク(DNN)と、学習中の経験を蓄積する経験データ記憶部で構成される。DNNへの入力は状態S、DNNの出力は行動Aで、状態Sは学習対象である環境の状態を十分に表現できる情報を設定する。強化学習は状態Sを観測し、DNNに入力することで行動Aを出力する。次に環境はDNNが出力した行動Aを実行し、状態Sが次の状態である状態Saに遷移する。環境はあらかじめ定められた報酬算出方法を参照し、状態Saを基に報酬Rを算出してエージェントへ渡す。強化学習では1回の観測周期で上記の処理を行い、得られた1回の観測周期での状態S、行動A、報酬R、次の状態Saを経験データ記憶部に蓄積し、あらかじめ定めた学習タイミングで蓄積した経験データを呼び出しDNNの学習を行う。
図2は、図1のディープニューラルネットワーク(DNN)の構造の一例を示したものである。丸はノードを、ノード間を繋ぐ矢印は重みを表し、各ノードでは重みと前層の出力の積と固定の値であるバイアスの総和を活性化関数と呼ばれる非線形関数に入力し、関数出力を次の層に出力する。図1の説明で示したように入力は状態Sである。出力はQ値と呼ばれる各行動の価値を表す値であり、図2中のQa~Qfが各行動のQ値を表す。DNNは入力された各状態Sにおける各行動の価値を予測し、最もQ値が大きい行動を選択する。学習時にはDNNの重みを更新し、より正しく各行動の価値を予測できるようにしていく。
図3は、本実施形態の強化学習装置300のハードウェア構成をブロック図で示したものである。通信部301は外部との通信を行い他のブロックに対してのやり取りを行う。入出力インターフェース302はユーザーが機械学習装置300に対しての入力を行うためのインターフェースである。DNN処理部303は強化学習に使用するディープニューラルネットワーク演算を行う。CPU304は通信部301を通したユーザーの指示の実施などを行う。ROM305にはCPU304が実施すべき処理内容が格納されているものとする。メモリ306は機械学習装置300の処理で必要なパラメータを格納するためのもので、行列演算の重み行列の値を格納する役割などを担う。
図4は、モータの速度制御を行った際のモータの応答の一例である。本実施形態では強化学習対象をモータとし、その一定速制御を学習する。一般的に、速度制御を行う場合、目標速度を超えるオーバーシュートと、オーバーシュートから目標速度を下回るアンダーシュートを繰り返しながら定常的に目標速度を出すように制御する。強化学習では図4よりもオーバーシュートとアンダーシュートを低減し、より早く定常速度を出すことを目標とする。
図5は、本実施形態において時定数と観測周期を説明する図であり、図6(a)は制御動作を強化学習で獲得する際のフローチャート、図6(b)は観測周期の変更を行う際のフローチャートである。以後、図6(a)のフローチャートの流れに沿って、本発明の第1の実施形態による、強化学習によるDCモータの速度制御動作の獲得について説明する。本実施形態では図1のエージェント101が強化学習器(DNN)で、環境104がDCモータとなる。図6(a)のS601では環境の状態Sを観測する。本実施形態では状態Sは目標速度と現時刻の回転速度との差分である速度偏差とする。一番初めの状態Sはモータの回転速度を0とするため速度偏差=目標速度となる。S602ではS601で観測した状態Sを図1のDNN103に入力し、DNN103は各行動のQ値を出力し最もQ値が大きい行動Aを操作量としてDCモータに入力する推論を行う。図2の出力Qa~Qfが各行動のQ値を示す。本実施形態での行動A(操作量)は、DCモータに入力する電圧であり、0Vから最大印可電圧までをあらかじめ定めた分解能で分割する。例えば、最大印可電圧が5.5Vで分解能を0.5Vとする場合、行動は0V、0.5V、1.0V、…、5.5Vで12パターンある。S603では、環境104であるDCモータがS602でDNN103が出力した電圧を印可され、制御量である回転速度が変化する。S602で出力された操作量を印可される時間は観測周期Tで定められ、時間T後の回転速度が新たな状態Saとなる。S604では、新たな状態Saに応じてあらかじめ定められた報酬算出方法に則り報酬Rを算出し、エージェント101に送る。本実施形態ではDCモータの速度制御を獲得するために、報酬算出方法は速度偏差が小さいほど高い報酬Rを与えるように設定し、図4のように速度偏差が0になる制御動作を獲得することをエージェント101が目指すように学習を行う。S605では、1回の観測周期Tでの状態S、行動A、新たな状態Sa、報酬Rを同じ観測周期Tでのデータとしてまとめて、エージェント101の経験データ記憶部102に保存する。ここまでの時間を強化学習ではステップという単位で表す。S606では所定のステップ数に到達しているかを判定する。所定のステップ数は環境の特性を鑑みて、定常的に目標速度を出力するのに十分なステップ数をあらかじめ定めておく。到達していた場合は、S608に移行し経験データ記憶部102に蓄積されているデータからランダムな複数のステップの状態S、行動A、新たな状態Sa、報酬Rを読み出し、DNN103の重みの更新を行う。
S608での重みの更新方法を説明する。強化学習は観測した状態Sに対して、その状態Sでの各行動の価値を表すQ値を出力する。そして最もQ値が大きい行動を環境に対して行うため、様々な状態における各行動のQ値を正しく出力するように重みを更新する。Q値は報酬を用いて(式1)で更新する。
γは将来の行動価値をどれぐらい考慮するかを制御する割引率と呼ばれるパラメータである。(式1)は状態Sの時に行動Aを行った結果貰った報酬R(S,A)と、行動Aにより遷移した新たな状態Saにおいて最も大きいQ値の和と、状態Sにおける行動Aの現在のQ値(Q(S,A))との差分で重みを更新することを表している。
S606で所定のステップ数に到達していなかった場合、S607でステップ数を1増やし、S602に戻りS603で遷移した新たな状態SaをDNN103に入力し、次の行動Aを出力する。
S609の処理内容を図6(b)のフローチャートで説明する。S612では観測周期の変更が完了しているか判定する。判定方法はS618の処理を終了しているかどうかで決定する。S613では制御量差分を算出する。制御量差分は図6(a)のS601で取得したDCモータの回転速度と、S603で遷移した新たな回転速度の差分で算出する。本実施形態の対象であるDCモータにおいては、制御量は回転速度、制御量差分は回転速度の変化量となる。S614では操作量差分を算出する。操作量差分は直前のS602で出力した操作量とその1ステップ前のS602で出力した操作量の差分で算出する。本実施形態の対象であるDCモータにおいては、操作量はモータへ印可する電圧値、操作量差分は電圧の変化量となる。S615ではS613で算出した制御量差分をS614で算出した操作量差分で割ることで2つの差分の比率を算出する。S616ではS615で算出した比率があらかじめ定めた閾値を超えているか判定する。比率が閾値を超えていなかった場合(定められた閾値以下である場合)、S617で観測周期の変更を行う。図6(a)の学習開始時の観測周期を単位周期長とし、S617では観測周期に単位周期長を加算する。図5の場合、単位周期長はt0~t1の長さであるT0である。図6(a)の1ステップ目の観測をt0からT0の時間行った結果、S616で閾値を超えていなかった場合、図6(b)のS617で観測周期は単位周期長T0を加算しT1となる。そのため、次のS602の処理から始まるステップは観測を時刻t1からT1の時間行う。同様に次のステップのS616で閾値を超えていなかった場合、S617で再び観測周期T1に単位周期長T0を加算し、観測周期はT2となり、時刻t3からT2の時間観測を行う。S616で比率が閾値を超えていた場合、S618で観測周期の変更は完了しそれ以降S612の判定はYesとなるため観測周期の変更を行わない。
図5の501と502は同じ一定値の操作量(電圧)を環境(DCモータ)に入力し続けた際の制御量である回転速度の例で、501は環境の時定数が小さい場合を、502は環境の時定数が大きい場合を表している。観測周期がT0だとすると、時刻t1での502の速度bは図6(b)のS615の閾値に対応した閾値aに対して非常に小さく、状態Sの変化はほとんどなく報酬も変化しない。そのためこの観測周期のまま学習を進めても、ある状態Sに対する各行動のQ値に違いが無くなり、どの行動も同じ価値を持つと学習する。このような場合でも、本実施形態の処理による観測周期の変更で適切な学習ができる観測周期を設定することができる。
S610では所定のエピソード数に到達しているかを判定する。エピソードとは、所定のステップ数到達回数を表す単位で、所定のステップ数到達後はエピソード数を1増やし、状態Sとステップ数を初期状態に戻す(リセットする)。S610で所定のエピソード数に到達していなかった場合、S611でエピソード数を1増やし、モータの回転速度を0に戻しステップ数を0にする。所定のエピソード数に到達していた場合、学習処理を終了する。
以上の処理により、環境の時定数が大きい場合でも何度も学習を繰り返して観測周期を設定することなく、学習中に自動で時定数に適した観測周期を設定することができる。
本実施形態では操作量差分と制御量差分を算出するための操作量と制御量の取得タイミングを現在ステップと前ステップとしたが、任意の複数ステップで取得して実施してもよい。
また本実施形態では比率を毎ステップ算出し毎ステップ観測周期を変更したが、毎エピソード終了時にエピソード間の比率を平均しその平均比率で閾値判定を行い、観測周期がエピソードを経るにつれて長くなるように変更してもよい。
また本実施形態では1エピソード中に毎ステップ観測周期の変更を行ったが、1エピソード中に制御量が目標速度を超えるまで、観測周期の変更を行うにつれて観測周期が長くなるように変更するとして実施してもよい。
また本実施形態では1エピソード中に毎ステップ観測周期の変更を行ったが、所定のステップ数よりも少ないあらかじめ定められたステップ数まで、観測周期の変更を行うにつれて観測周期が長くなるように変更するとして実施してもよい。
また本実施形態では観測周期の変更は算出した比率が閾値を超えるまでとしているが、あらかじめ定められたエピソードまで、観測周期の変更を行うにつれて観測周期が長くなるように変更するとして実施してもよい。
また本実施形態では初期状態におけるモータの回転速度を0としたが、任意の回転速度として実施してもよい。
また本実施形態では環境をDCモータとしたが、他のモータを使用してもよい。複数の操作量を持つモータを用いた場合、比率を算出するための操作量差分は各操作量の差分を各操作量の操作レンジで割った値の合計として実施してもよい。
[第2の実施形態]
以下、図を参照しながら、本発明の第2の実施形態における処理について説明する。
以下、図を参照しながら、本発明の第2の実施形態における処理について説明する。
第1の実施形態においては制御器の設計段階での学習時の観測周期の変更について説明した。これに対し本実施形態では、製品に搭載する制御器である場合ユーザーの元に渡ってから制御について強化学習を行う。これにより、モータの劣化やグリスの硬化等の経年劣化に合わせた制御を行うことができる。本実施形態では、実装置内で稼働中のDCモータを例にして説明する。
図7(a)はユーザーの元で学習を行う際のフローチャートである。図7(b)はユーザーの元で学習を行う際の観測周期の変更に関わる部分のフローチャートである。
図8は図7(b)における比率許容範囲と比率の関係を表す図である。
以後、図7(a)のフローチャートの流れに沿って、本発明の第2の実施形態によるユーザーの元での実装置内で稼働中のDCモータ制御の強化学習による獲得について説明する。
図7(a)のS701では最新日時の取得を行う。
S702では所定の日数が経過しているかをS701で取得した日時を用いて判定する。本実施形態でユーザーの元で学習を行う目的は、経年劣化による制御性の変化に対応するためであるため所定の日数ごとに強化学習を行い、最新の駆動系の状態に対応する。所定の日数は出荷前にあらかじめ定めておく。S703では所定の日数が経過していた場合に、学習を行ってよいかの確認をユーザーに行う。学習時はCPU負荷がかかるため他の操作ができなくなる。そのためユーザーにすぐに他の操作を行う予定がある場合は学習を行わない。S703でユーザーが「学習を開始して良い」を選択した場合、S704の学習処理を開始する。S704の処理内容は図6(a)のフローチャートと同様の処理内容であるため、詳細な説明は省略する。第1の実施形態と異なる点は、出荷前に新品状態に合わせた学習は行われておりすでに重みがある程度最適化されている点である。第1の実施形態と同様に、図6のS609では観測周期の変更を行う。
図7(b)のフローチャートを用いてS609の観測周期の変更について説明する。
S705~S708は第1の実施形態の図6(b)のフローチャート、S612~S615と同様であるため詳細説明は省略する。S709ではS708で算出した比率が、あらかじめ定められた比率許容範囲内に入っているかを判定する。比率許容範囲内に入っていた場合、S710で観測周期の変更を完了とし、それ以降S705での判定はYesとなり以後観測周期の変更は行わない。ただし、S710で完了とするのはS702で一度Yesと判定された際の学習中のみで、再度所定の日数経過した際の学習では観測周期の変更は完了していないとし、S705ではNoと判定する。S709で比率が比率許容範囲内に入っていなかった場合、S711で観測周期の変更を行う。S711では(式2)に従って、観測周期の増減を行う。
(式2)のαは比例定数で、モータ特性に合わせてあらかじめ定めておく。(式2)のAは比率許容範囲内にあらかじめ定めておく比率の基準値で、BはS708で算出した比率である。S711では元の観測周期に(式2)で算出したLを加算し、図8のように観測周期を変更する。図8について説明する。XステップのS709において比率が比率許容範囲内に入っていなかったため(式2)により観測周期を長くする。その結果、次のX+1ステップのS709で図8のように比率が許容範囲を超えていたため、(式2)により観測周期を短くする。次にX+2ステップにおいてS709で比率が許容範囲を下回ってしまったため再び(式2)により観測周期を長くする。その結果、次のX+3ステップのS709では比率が許容範囲内に入っていたためS710の処理を行い、以降はこの観測周期で学習を行う。
以上の処理により、ユーザーが実装置を使用していく中での経年劣化によるDCモータの制御性の低下を防ぐための学習を適切な観測周期でより正しく行うことができる。
本実施形態ではS701で最新日時を取得し、S702の判定に所定の日数を使用したが、これらは経時したことが分かればどのような値を用いてもよい。
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
Claims (15)
- 一定の観測周期ごとに、制御対象の状態を観測する観測手段と、
前記観測手段で観測したデータに応じた操作量を制御対象へ出力する推論手段と、
前記推論手段が制御対象へ出力する操作量を強化学習する学習手段とを備え、
現在までの少なくとも2つのタイミングにおける、前記推論手段が制御対象へ出力した操作量のタイミングの間の差分である操作量差分と、前記観測手段が観測した制御対象から出力される制御量のタイミングの間の差分である制御量差分、とを算出し、前記操作量差分と前記制御量差分の比率に応じて、観測周期を変更することを特徴とする学習装置。 - 前記操作量差分は、最新の観測周期の間に前記推論手段が制御対象へ出力する操作量と、その一つ前の観測周期の間に制御対象へ出力する操作量の差分で算出し、
前記制御量差分は、最新の観測周期の終了の時刻と、一つ前の観測周期の終了の時刻での制御対象が出力する制御量の差分で算出し、前記操作量差分と前記制御量差分の比率に応じて、前記観測周期を変更することを特徴とする請求項1に記載の学習装置。 - 前記学習手段は前記観測手段により観測が行われた回数があらかじめ定められた所定の数になるまで学習を行わず、
前記観測手段により観測が行われた回数があらかじめ定められた所定の数になった後に一度だけ学習を行い、
制御対象が初期状態から前記所定の観測周期の数と1回の学習を経るまでの処理である1エピソードが終了した後、制御対象の状態をあらかじめ定められた初期状態にリセットし、
前記観測手段により観測が行われた回数を0にしたのち次のエピソードを始めることを
特徴とする請求項1または2に記載の学習装置。 - 前記観測周期は、あらかじめ定められた長さから始めて、前記比率が定められた閾値以下であれば観測周期を長くすることを特徴とする請求項1乃至3のいずれか1項に記載の学習装置。
- 前記観測周期は、観測周期の変更を行うにつれて長くすることを特徴とする請求項4に記載の学習装置。
- 前記観測周期は、あらかじめ定められた長さから始めて、前記比率があらかじめ定められた許容範囲の外であれば許容範囲内に入るように前記観測周期を変更することを特徴とする請求項1乃至3のいずれか1項に記載の学習装置。
- 前記観測周期は、観測周期の変更を行うにつれて増減することを特徴とする請求項6に記載の学習装置。
- 前記観測周期は、前記許容範囲内にあらかじめ定められた前記比率の基準値と、前記比率の差分に応じた時間だけ増減することを特徴とする請求項6に記載の学習装置。
- 前記比率は前記制御量の差分を前記操作量差分で割って算出することを特徴とする請求項1乃至8のいずれか1項に記載の学習装置。
- 前記比率の観測は観測周期ごとに行い、比率の平均の値に応じて前記観測周期を変更することを特徴とする請求項1乃至9のいずれか1項に記載の学習装置。
- 前記比率の算出及び前記観測周期の変更は少なくとも、1エピソード中に制御対象が出力する制御量が制御の目標となる値を超えるまでとすることを特徴とする請求項1乃至10のいずれか1項に記載の学習装置。
- 前記比率の観測は少なくとも、所定の観測周期の数よりも少ない、あらかじめ定められた観測周期の数までとすることを特徴とする請求項1乃至11のいずれか1項に記載の学習装置。
- 前記観測周期の変更は少なくとも、学習開始からあらかじめ定められたエピソード数までとすることを特徴とする請求項1乃至12のいずれか1項に記載の学習装置。
- 一定の観測周期ごとに、制御対象の状態を観測する観測ステップと、
前記観測ステップで観測したデータに応じた操作量を制御対象へ出力する推論ステップと、
前記推論ステップで制御対象へ出力する操作量を強化学習する学習ステップとを備え、
現在までの少なくとも2つのタイミングにおける、前記推論手段が制御対象へ出力した操作量のタイミングの間の差分である操作量差分と、前記観測手段が観測した制御対象から出力される制御量のタイミングの間の差分である制御量差分、とを算出し、前記操作量差分と前記制御量差分の比率に応じて、観測周期を変更することを特徴とする学習装置の制御方法。 - コンピュータを請求項1乃至13のいずれか1項に記載の学習装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022032614A JP2023128332A (ja) | 2022-03-03 | 2022-03-03 | 学習装置、その制御方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022032614A JP2023128332A (ja) | 2022-03-03 | 2022-03-03 | 学習装置、その制御方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023128332A true JP2023128332A (ja) | 2023-09-14 |
Family
ID=87973152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022032614A Pending JP2023128332A (ja) | 2022-03-03 | 2022-03-03 | 学習装置、その制御方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023128332A (ja) |
-
2022
- 2022-03-03 JP JP2022032614A patent/JP2023128332A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI743986B (zh) | 馬達控制裝置及馬達控制方法 | |
JP6774637B2 (ja) | 制御装置及び制御方法 | |
CN108628355B (zh) | 伺服控制装置及系统、机器学习装置及方法 | |
JP6063013B1 (ja) | びびり或いは工具摩耗/破損の発生を抑制する加工条件調整機能を有する数値制御装置 | |
CN100524106C (zh) | 电动机控制装置的自动调整法及装置 | |
CN110297510B (zh) | 驱动装置以及机器学习装置 | |
JP6077617B1 (ja) | 最適な速度分布を生成する工作機械 | |
CN109100990B (zh) | 控制装置、记录媒体及控制系统 | |
US20190317472A1 (en) | Controller and control method | |
CN113296390B (zh) | 一种基于位置式pid的控制方法及终端 | |
CN113783962B (zh) | 基于边缘计算的数据采集系统及方法 | |
JP2023128332A (ja) | 学習装置、その制御方法、プログラム | |
CN115917444A (zh) | 控制辅助装置、控制装置及控制辅助方法 | |
JP2023163444A (ja) | 学習装置、学習装置の制御方法、プログラム | |
JP2004164426A (ja) | 出力制御方法、出力制御装置および出力制御プログラム | |
JP6645994B2 (ja) | ゲインの最適化を学習する機械学習装置及び機械学習装置を備えた電動機制御装置並びに機械学習方法 | |
JP2020064491A (ja) | 学習システム、学習方法、およびプログラム | |
JP7558456B1 (ja) | モータ制御装置およびモータ制御方法 | |
JP4036520B2 (ja) | 単純適応制御装置 | |
JP2775968B2 (ja) | プロセス制御装置 | |
WO2023166606A1 (ja) | 制御装置、dc/dc変換装置、および制御方法 | |
CN116954156B (zh) | 数控加工的工艺路线规划方法、装置、设备及介质 | |
JP2781886B2 (ja) | 制御装置及び制御方法 | |
CN112034715B (zh) | 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法 | |
WO2022219670A1 (ja) | 加工条件設定装置、加工条件設定方法、および放電加工装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20231213 |