JP7357537B2 - 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム - Google Patents
制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム Download PDFInfo
- Publication number
- JP7357537B2 JP7357537B2 JP2019233323A JP2019233323A JP7357537B2 JP 7357537 B2 JP7357537 B2 JP 7357537B2 JP 2019233323 A JP2019233323 A JP 2019233323A JP 2019233323 A JP2019233323 A JP 2019233323A JP 7357537 B2 JP7357537 B2 JP 7357537B2
- Authority
- JP
- Japan
- Prior art keywords
- vehicle
- event
- search
- reinforcement learning
- control device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 52
- 230000010365 information processing Effects 0.000 title claims description 19
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000012545 processing Methods 0.000 claims description 87
- 230000002787 reinforcement Effects 0.000 claims description 79
- 238000001514 detection method Methods 0.000 claims description 26
- 238000004519 manufacturing process Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 11
- 238000013480 data collection Methods 0.000 description 42
- 230000009471 action Effects 0.000 description 29
- 230000008569 process Effects 0.000 description 28
- 230000006399 behavior Effects 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 238000013016 damping Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229910001416 lithium ion Inorganic materials 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41875—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by quality surveillance of production
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60G—VEHICLE SUSPENSION ARRANGEMENTS
- B60G17/00—Resilient suspensions having means for adjusting the spring or vibration-damper characteristics, for regulating the distance between a supporting surface and a sprung part of vehicle or for locking suspension during use to meet varying vehicular or surface conditions, e.g. due to speed or load
- B60G17/015—Resilient suspensions having means for adjusting the spring or vibration-damper characteristics, for regulating the distance between a supporting surface and a sprung part of vehicle or for locking suspension during use to meet varying vehicular or surface conditions, e.g. due to speed or load the regulating means comprising electric or electronic elements
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C5/00—Registering or indicating the working of vehicles
- G07C5/008—Registering or indicating the working of vehicles communicating information to a remotely located station
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C5/00—Registering or indicating the working of vehicles
- G07C5/08—Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
- G07C5/0841—Registering performance data
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0043—Signal treatments, identification of variables or parameters, parameter estimation or state estimation
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/34—Director, elements to supervisory
- G05B2219/34082—Learning, online reinforcement learning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Automation & Control Theory (AREA)
- Mechanical Engineering (AREA)
- Manufacturing & Machinery (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Feedback Control In General (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Vehicle Body Suspensions (AREA)
Description
強化学習を用いて車両に対する所定の制御を行う制御装置であって、
前記車両のライフサイクルにおけるイベントを検知する検知手段と、
前記イベントが検知されたことに応じて、検知された前記イベントに応じて特定される探索パラメータを、前記強化学習における探索の割合を調整する値として設定する設定手段と、
設定された前記探索パラメータに従って前記強化学習を用いた前記所定の制御を実行する処理手段と、を有し、
前記設定手段は、前記車両の利用開始までの前記車両に対する手続きの完了、又は前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新に関する第1のイベントが検知された場合、前記第1のイベントの後である第1の期間に設定される探索の割合を、前記第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする前記探索パラメータを設定する、ことを特徴とする制御装置が提供される。
図1を参照して、本実施形態に係る車両制御システム10の概要について説明する。車両制御システム10は、所定システムの一例としての車両100、および情報処理サーバの一例としてのデータ収集サーバ110とを含む。本実施形態では、車両100が、強化学習を用いて車両の構成要素であるダンパを制御する場合を例に説明する。しかし、車両が強化学習を用いて、ダンパ制御以外の他の構成要素を制御(例えば走行時の操舵やアクセル制御)を行う場合にも適用可能である。また、以下で説明する実施形態では、車両が備える制御部が強化学習を用いたダンパ制御を行う場合を例に説明する。しかし、制御部による処理を、車両内に搭載された情報処理装置が行うようにしてもよい。すなわち、本実施形態は、情報処理装置が、車両からセンサ情報等を取得して、強化学習を用いたダンパ制御用の制御信号を車両に出力する構成によって実現されてもよい。なお、以下の説明では、車両が備える制御部或いは上記情報処理装置を制御装置という場合がある。
次に、図2を参照して、本実施形態に係る車両100の機能構成例について説明する。なお、以降の図を参照して説明する機能ブロックの各々は、統合されまたは分離されてもよく、また説明する機能が別のブロックで実現されてもよい。また、ハードウェアとして説明するものがソフトウェアで実現されてもよく、その逆であってもよい。
次に、図3を参照して、強化学習を用いたダンパ制御処理の概要について説明する。
更に、図4を参照して、モデル処理部214の構成例とダンパ制御処理におけるモデル処理部214の動作例について説明する。図4は、アクタークリティック手法を用いる場合のモデル処理部214の内部構成例と、モデル処理部214のニューラルネットワーク(NN)のネットワーク構成例を模式的に示している。
次に、図6を参照して、車両100のライフサイクルにおいて発生するイベントに応じてモデル処理部214に設定される探索パラメータの変化について説明する。
次に、車両におけるダンパ制御処理の一連の動作について、図7を参照して説明する。なお、本処理は、図3の説明において時刻tのフィードバックデータが得られた時点から開始される。なお、モデル処理部214の動作は、例えば5Hzの動作周波数で行われるものとする。また、本処理では、例えば、初期の探索パラメータがモデル処理部214に設定されている。更に、モデル処理部214およびアクター401などの制御部200内の構成による処理は、CPU210がROM212に格納されたプログラムをRAM211に展開、実行することにより実現される。
次に、車両における探索パラメータ設定処理の一連の動作について、図8を参照して説明する。なお、本処理は、図3の説明において時刻tのフィードバックデータが得られた時点から開始され、図7を参照して説明したダンパ制御処理と独立して並列に実行される。本処理は、CPU210がROM212に格納されたプログラムをRAM211に展開、実行することにより実現される。
次に、情報処理サーバの一例としてのデータ収集サーバの機能構成例について、図9を参照して説明する。なお、以降の図を参照して説明する機能ブロックの各々は、統合されまたは分離されてもよく、また説明する機能が別のブロックで実現されてもよい。また、ハードウェアとして説明するものがソフトウェアで実現されてもよく、その逆であってもよい。
次に、図10を参照して、データ収集サーバ110における探索パラメータ送信処理の一連の動作について説明する。なお、本処理は、制御部900のCPU910が、ROM912に記憶されたプログラムをRAM911に展開、実行することにより実現される。
上述の実施形態では、車両100の制御部200において、フィードバックデータを取得し、強化学習を用いて方策を算出したうえで探索の確率に応じた方策を選択し、制御変数を出力するようにした。しかしながら、当該制御部200の処理をデータ収集サーバ110側で行ってもよい。すなわち、車両がフィードバックデータをデータ送信サーバに送信する。データ収集サーバ110は、受信したフィードバックデータに対し強化学習を用いて方策を算出したうえで探索の確率に応じた方策を選択し、当該方策に応じた制御変数を車両100に対して出力する。この場合、図7を参照して説明した各ステップ、及び、図8を参照して説明した各ステップを、データ収集サーバ110の制御部900が実施すればよい。S803におけるイベント検出は、イベント検知に必要な情報を車両100から受信してもよい。例えば、データ収集サーバ110がイベントの検知部を備え、車両から製造完了や車両登録の情報を受信したり、車両からの学習データのデータ量をカウントしたり、所定の時点からの経過時間をカウントしてもよい。
1.上記実施形態の制御装置(例えば、200或いは100)は、
所定システムのライフサイクルにおけるイベントを検知する検知手段(例えば、217)と、
イベントが検知されたことに応じて、検出されたイベントに応じて特定される探索パラメータを、強化学習における探索の割合を調整する値として設定する設定手段(例えば、216)と、
設定された探索パラメータに従って強化学習を用いた所定システムに対する所定の制御を実行する処理手段(例えば、214)と、を有し、
設定手段は、第1のイベントが検知された場合、第1のイベントの後である第1の期間に設定される探索の割合を、第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする探索パラメータを設定する。
設定手段は、第1の期間に設定される探索の割合を非ゼロとする探索パラメータを設定する。
設定手段は、第1の期間に設定される探索の割合と、第2の期間に設定されていた探索の割合とが非連続となる探索パラメータを設定する。
イベントは、所定システムに対する手続きの完了、所定システムの特定の使用状態への到達、及び、所定システムを制御する構成要素の更新の少なくともいずれかを含む。
車両に対する手続きの完了は、所定システムの製造完了、及び、所定システムの登録完了の少なくともいずれかを含む。
所定システムの特定の使用状態への到達は、所定の時点からの所定日数の経過、所定の時点からの所定走行距離の走行の少なくともいずれかを含む。
所定システムを制御する構成要素の更新は、強化学習に用いられる学習モデルのバージョンの更新を含む。
検出されたイベントに応じて、前記探索パラメータを特定する特定手段を更に有する。
検出されたイベントを外部サーバに送信する送信手段(例えば、102)と、
イベントに応じて特定された探索パラメータを外部サーバから受信する受信手段(例えば、102)と、を更に有する。
探索パラメータは、所定システムごと、又は所定システムのモデルごとに異なる。
処理手段によって実行される強化学習のモデルに対する入力情報と出力情報とを、学習データとして外部サーバに提供する。
この実施形態によれば、外部サーバに、強化学習の学習に有用である利用可能なばらつきのあるデータを送信することができる。
Claims (16)
- 強化学習を用いて車両に対する所定の制御を行う制御装置であって、
前記車両のライフサイクルにおけるイベントを検知する検知手段と、
前記イベントが検知されたことに応じて、検知された前記イベントに応じて特定される探索パラメータを、前記強化学習における探索の割合を調整する値として設定する設定手段と、
設定された前記探索パラメータに従って前記強化学習を用いた前記所定の制御を実行する処理手段と、を有し、
前記設定手段は、前記車両の利用開始までの前記車両に対する手続きの完了、又は前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新に関する第1のイベントが検知された場合、前記第1のイベントの後である第1の期間に設定される探索の割合を、前記第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする前記探索パラメータを設定する、ことを特徴とする制御装置。 - 前記設定手段は、前記第1の期間に設定される探索の割合を非ゼロとする前記探索パラメータを設定する、ことを特徴とする請求項1に記載の制御装置。
- 前記設定手段は、前記第1の期間に設定される探索の割合と、前記第2の期間に設定されていた探索の割合とが非連続となる前記探索パラメータを設定する、ことを特徴とする請求項1または2に記載の制御装置。
- 前記第1のイベントは、更に、前記車両の特定の使用状態への到達を含む、ことを特徴とする請求項1から3のいずれか1項に記載の制御装置。
- 前記第1のイベントは、前記車両の利用開始までの前記車両に対する手続きの完了を含み、当該手続きの完了は、前記車両の製造完了、及び、前記車両の登録完了の少なくともいずれかを含む、ことを特徴とする請求項1に記載の制御装置。
- 前記車両の特定の使用状態への到達は、所定の時点からの所定日数の経過、所定の時点からの所定走行距離の走行の少なくともいずれかを含む、ことを特徴とする請求項4に記載の制御装置。
- 前記第1のイベントは、前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新を含む、ことを特徴とする請求項1に記載の制御装置。
- 検知された前記イベントに応じて、前記探索パラメータを特定する特定手段を更に有する、ことを特徴とする請求項1から7のいずれか1項に記載の制御装置。
- 検知された前記イベントを外部サーバに送信する送信手段と、
前記イベントに応じて特定された前記探索パラメータを前記外部サーバから受信する受信手段と、を更に有する、ことを特徴とする請求項1から7のいずれか1項に記載の制御装置。 - 前記探索パラメータは、車両ごと、又は車両のモデルごとに異なる、ことを特徴とする、請求項1から9のいずれか1項に記載の制御装置。
- 前記処理手段によって実行される前記強化学習のモデルに対する入力情報と出力情報とを、学習データとして外部サーバに提供する提供手段を更に有する、ことを特徴とする請求項1から10のいずれか1項に記載の制御装置。
- 強化学習を用いて車両に対する所定の制御を行う制御装置の制御方法であって、
検知手段が、前記車両のライフサイクルにおけるイベントを検知する検知工程と、
設定手段が、前記イベントが検知されたことに応じて、検知された前記イベントに応じて特定される探索パラメータを、前記強化学習における探索の割合を調整する値として設定する設定工程と、
処理手段が、設定された前記探索パラメータに従って前記強化学習を用いた前記所定の制御を実行する処理工程と、を有し、
前記設定工程では、前記車両の利用開始までの前記車両に対する手続きの完了、又は前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新に関する第1のイベントが検知された場合、前記第1のイベントの後である第1の期間に設定される探索の割合を、前記第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする前記探索パラメータを設定する、ことを特徴とする制御装置の制御方法。 - コンピュータを、請求項1から11のいずれか1項に記載の制御装置の各手段として機能させるためのプログラム。
- 強化学習を用いて車両に対する所定の制御を行う情報処理サーバであって、
前記車両のライフサイクルにおけるイベントを検知する検知手段と、
前記イベントが検知されたことに応じて、検知された前記イベントに応じて特定される探索パラメータを、前記強化学習における探索の割合を調整する値として設定する設定手段と、
設定された前記探索パラメータに従って前記強化学習を用いた前記所定の制御のための処理を実行する処理手段と、
前記処理手段による処理結果を前記車両に送信する送信手段と、を有し、
前記設定手段は、前記車両の利用開始までの前記車両に対する手続きの完了、又は前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新に関する第1のイベントが検知された場合、前記第1のイベントの後である第1の期間に設定される探索の割合を、前記第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする前記探索パラメータを設定する、ことを特徴とする情報処理サーバ。 - 情報処理サーバで実行される、強化学習を用いて車両に対する所定の制御を行う情報処理方法であって、
検知手段が、前記車両のライフサイクルにおけるイベントを検知する検知工程と、
設定手段が、前記イベントが検知されたことに応じて、検知された前記イベントに応じて特定される探索パラメータを、前記強化学習における探索の割合を調整する値として設定する設定工程と、
処理手段が、設定された前記探索パラメータに従って前記強化学習を用いた前記所定の制御のための処理を実行する処理工程と、
送信手段が、処理工程における処理結果を前記車両に送信する送信工程と、を有し、
前記設定工程では、前記車両の利用開始までの前記車両に対する手続きの完了、又は前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新に関する第1のイベントが検知された場合、前記第1のイベントの後である第1の期間に設定される探索の割合を、前記第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする前記探索パラメータを設定する、ことを特徴とする情報処理方法。 - 強化学習を用いて車両に対する所定の制御を行う制御装置と、情報処理サーバとを含む制御システムであって、
前記制御装置は、
前記車両のライフサイクルにおけるイベントを検知する検知手段と、
前記イベントが検知されたことに応じて、検知された前記イベントを前記情報処理サーバに送信する第1の送信手段と、
前記情報処理サーバから受信した、前記イベントに応じて特定された探索パラメータを、前記強化学習における探索の割合を調整する値として設定する設定手段と、
設定された前記探索パラメータに従って前記強化学習を用いた前記所定の制御を実行する処理手段と、を有し、
前記設定手段は、前記車両の利用開始までの前記車両に対する手続きの完了、又は前記車両を制御するための前記強化学習に用いられる学習モデルのバージョンの更新に関する第1のイベントが検知された場合、前記第1のイベントの後である第1の期間に設定される探索の割合を、前記第1のイベントが検知される前の第2の期間に設定されていた探索の割合より小さくする前記探索パラメータを設定する、制御装置と、
前記情報処理サーバは、
前記イベントに応じて、前記探索パラメータを特定する特定手段と、
特定した前記探索パラメータを前記車両に送信する第2の送信手段と、を有する、ことを特徴とする制御システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019233323A JP7357537B2 (ja) | 2019-12-24 | 2019-12-24 | 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム |
US17/106,458 US11934951B2 (en) | 2019-12-24 | 2020-11-30 | Control apparatus, control method for control apparatus, non-transitory computer readable storage medium, information processing server, information processing method, and control system for controlling system using reinforcement learning |
CN202011398791.XA CN113022582B (zh) | 2019-12-24 | 2020-12-02 | 控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019233323A JP7357537B2 (ja) | 2019-12-24 | 2019-12-24 | 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021103356A JP2021103356A (ja) | 2021-07-15 |
JP7357537B2 true JP7357537B2 (ja) | 2023-10-06 |
Family
ID=76437236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019233323A Active JP7357537B2 (ja) | 2019-12-24 | 2019-12-24 | 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11934951B2 (ja) |
JP (1) | JP7357537B2 (ja) |
CN (1) | CN113022582B (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017167866A (ja) | 2016-03-17 | 2017-09-21 | 株式会社ジェイテクト | 工作機械用管理システム |
US20180165602A1 (en) | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
JP2018152012A (ja) | 2017-03-15 | 2018-09-27 | ファナック株式会社 | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 |
JP2018151876A (ja) | 2017-03-13 | 2018-09-27 | 株式会社日立製作所 | 機械学習に使用される経験を格納する経験データベースを更新する方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10328980A (ja) * | 1997-05-27 | 1998-12-15 | Sony Corp | 工程管理装置及び方法 |
US6917925B2 (en) | 2001-03-30 | 2005-07-12 | Intelligent Inference Systems Corporation | Convergent actor critic-based fuzzy reinforcement learning apparatus and method |
DE102017105377A1 (de) | 2016-03-17 | 2017-09-21 | Jtekt Corporation | Steuerkonsole für Werkzeugmaschinen und Verwaltungssystem für Werkzeugmaschinen |
EP3485337B1 (en) * | 2016-09-23 | 2020-10-21 | Apple Inc. | Decision making for autonomous vehicle motion control |
US10296004B2 (en) * | 2017-06-21 | 2019-05-21 | Toyota Motor Engineering & Manufacturing North America, Inc. | Autonomous operation for an autonomous vehicle objective in a multi-vehicle environment |
US10235881B2 (en) * | 2017-07-28 | 2019-03-19 | Toyota Motor Engineering & Manufacturing North America, Inc. | Autonomous operation capability configuration for a vehicle |
WO2019088989A1 (en) * | 2017-10-31 | 2019-05-09 | Nissan North America, Inc. | Reinforcement and model learning for vehicle operation |
JP6845529B2 (ja) | 2017-11-08 | 2021-03-17 | 本田技研工業株式会社 | 行動決定システム及び自動運転制御装置 |
CN109960246B (zh) * | 2017-12-22 | 2021-03-30 | 华为技术有限公司 | 动作控制方法及装置 |
JP6748135B2 (ja) * | 2018-03-19 | 2020-08-26 | ファナック株式会社 | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 |
US11086317B2 (en) * | 2018-03-30 | 2021-08-10 | Intel Corporation | Emotional adaptive driving policies for automated driving vehicles |
US10990096B2 (en) | 2018-04-27 | 2021-04-27 | Honda Motor Co., Ltd. | Reinforcement learning on autonomous vehicles |
US11480972B2 (en) * | 2018-11-13 | 2022-10-25 | Qualcomm Incorporated | Hybrid reinforcement learning for autonomous driving |
-
2019
- 2019-12-24 JP JP2019233323A patent/JP7357537B2/ja active Active
-
2020
- 2020-11-30 US US17/106,458 patent/US11934951B2/en active Active
- 2020-12-02 CN CN202011398791.XA patent/CN113022582B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017167866A (ja) | 2016-03-17 | 2017-09-21 | 株式会社ジェイテクト | 工作機械用管理システム |
US20180165602A1 (en) | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
JP2018151876A (ja) | 2017-03-13 | 2018-09-27 | 株式会社日立製作所 | 機械学習に使用される経験を格納する経験データベースを更新する方法 |
JP2018152012A (ja) | 2017-03-15 | 2018-09-27 | ファナック株式会社 | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 |
Also Published As
Publication number | Publication date |
---|---|
US11934951B2 (en) | 2024-03-19 |
JP2021103356A (ja) | 2021-07-15 |
US20210192344A1 (en) | 2021-06-24 |
CN113022582A (zh) | 2021-06-25 |
CN113022582B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112805198B (zh) | 用于自主驾驶的个人驾驶风格学习 | |
US20210023905A1 (en) | Damper control system, vehicle, information processing apparatus and control method thereof, and storage medium | |
JP2005310114A (ja) | ソフト演算最適化装置を用いた自動二輪車のためのインテリジェントロバスト制御システム | |
KR102166811B1 (ko) | 심층강화학습과 운전자보조시스템을 이용한 자율주행차량의 제어 방법 및 장치 | |
US11579574B2 (en) | Control customization system, control customization method, and control customization program | |
CN113044037A (zh) | 智能汽车的控制方法、装置和控制系统 | |
Selvaraj et al. | An ML-aided reinforcement learning approach for challenging vehicle maneuvers | |
CN115257809A (zh) | 一种人在环的自动驾驶车辆交互学习控制方法及设备 | |
CN117719535A (zh) | 一种人类反馈的自动驾驶车辆交互式自适应决策控制方法 | |
JP7357537B2 (ja) | 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム | |
EP3640857B1 (en) | Method, vehicle, system, and storage medium for indicating anomalous vehicle scenario using encoder network and discriminator network intermediate layer activation | |
CN114148349A (zh) | 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法 | |
CN114756025B (zh) | 一种自主小车巡航控制方法及装置 | |
CN113264064A (zh) | 用于交叉路口场景的自动驾驶方法及相关设备 | |
CN117227754A (zh) | 一种针对环岛通行的自动驾驶决策模型构建方法 | |
CN115700626A (zh) | 用于车辆的奖励函数 | |
US20220036183A1 (en) | Method and device for the fusion of sensor signals using a neural network | |
KR20240152851A (ko) | 실시간으로 기술 시스템을 제어하기 위한 방법 및 장치 | |
CN114355883B (zh) | 自适应跟车方法及系统 | |
CN118387096A (zh) | 用于控制车辆的方法、装置 | |
WO2023107102A1 (en) | System and method for modifying vehicular steering geometry guided by intelligent tires | |
CN117454737A (zh) | 一种用于自动驾驶车辆学习性能力的评价方法及系统 | |
US20240017766A1 (en) | System and method for reinforcement learning of steering geometry | |
CN117148716A (zh) | 模型训练及基于神经网络模型的车辆控制的方法、装置 | |
CN117962921A (zh) | 车辆轨迹规划方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20210103 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210125 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230828 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230926 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7357537 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |