JP7200037B2 - 機械の自動運転制御方法、及びシステム - Google Patents
機械の自動運転制御方法、及びシステム Download PDFInfo
- Publication number
- JP7200037B2 JP7200037B2 JP2019078737A JP2019078737A JP7200037B2 JP 7200037 B2 JP7200037 B2 JP 7200037B2 JP 2019078737 A JP2019078737 A JP 2019078737A JP 2019078737 A JP2019078737 A JP 2019078737A JP 7200037 B2 JP7200037 B2 JP 7200037B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- learning
- reliability
- machine
- control system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM]
- G05B19/41885—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B17/00—Systems involving the use of models or simulators of said systems
- G05B17/02—Systems involving the use of models or simulators of said systems electric
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/18—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
- G05B19/406—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by monitoring or safety
- G05B19/4069—Simulating machining process on screen
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1671—Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40298—Manipulator on vehicle, wheels, mobile
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
Description
・一つ以上のI/O(Input/Output)インターフェースデバイス。I/O(Input/Output)インターフェースデバイスは、I/Oデバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するインターフェースデバイスである。表示用計算機に対するI/Oインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのI/Oデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
(A)「モデル印加処理」S603の以降に「報酬情報」211に格納された総和報酬RB1の平均が、S606で最後に計算された総和報酬RB0の平均よりも大きい。
(B)探索の確率で見積もられる回数よりも報酬関数の変動が多くある。なお、指標(B)の意義の一例は、次の通りである。強化学習は、学習がある程度進んだ場合でも、探索をする(これまでの知見(学習の結果)を使わずに新たな行動を取る)ことがあるため、その探索に失敗したときは報酬が大きく変動することがある。その探索が起きる確率に基づき見込まれる回数よりも多く報酬が変動することは、学習に用いるシミュレーション(モデル)が過学習をした状況のためである。故に、指標(B)は、過学習判断指標の一例となり得る。
(C)総和報酬の増減の幅が、重みτ1の合わせ込みモデルの印加前よりも大きい。指標(C)の一具体例は、次の通りである。エピソード数T=5000(T>α(1-τ)=4000とする)の報酬と、エピソード数T=5001の報酬との差が、合わせ込みモデル印加前(T<4000)のT=10の報酬とT=11の報酬との差(例えば、合わせ込みモデル印加前ではこの報酬差が一番大きかったとする)よりも大きい。
(D)印加直前のベースモデル使用時の報酬変動幅DRB0(総和報酬RB0の最大値と最小値の幅)を、更新ベースモデルの報酬変動幅DRB1(総和報酬RB1の最大値と最小値の幅)が超えている。例えば、報酬変動幅DRB1の最大値が報酬変動幅DRB0の最大値を上回っている、報酬変動幅DRB1の最小値が報酬変動幅DRB0の最小値を下回っている、及び、報酬変動幅DRB1が報酬変動幅DRB0よりも大きい、のうちの少なくとも一つが該当する。報酬変動幅DRB0及び報酬変動幅DRB1は、「報酬情報」211に格納される。指標(D)の一具体例は、次の通りである。T=4000までの間に得られた報酬の最大値と最小値(例えば、T=10での報酬が最大、T=1930での報酬が最小)との差が報酬変動幅DRB0とされ、モデル印加後に得られた報酬の最大値と最小値(例えば、T=5001での報酬が最小、T=6000での報酬が最大)との差が報酬変動幅DRB1とされ、DRB0とDRB1とが比較される。
・第2のモデルを用いた強化学習において得られた報酬に従う値が、第1のモデルを用いた強化学習において得られた報酬に従う値より大きい。
・第2のモデルを用いた強化学習において得られた報酬の変動幅が、第1のモデルを用いた強化学習において得られた報酬の変動幅を超えている。
Claims (13)
- 機械の自動運転を制御する自動運転制御システムであって、
数学的に記述される関数に基づき前記機械に入力される制御信号列と当該制御信号列に従い制御された前記機械から出力されるデータとの関係を示す第1のモデルを設定する問題設定部と、
前記機械の自動運転制御を学習することを含む学習処理を実行する学習実行部と、
前記学習処理の結果に従う制御信号列を前記機械に入力することで前記機械の自動運転を制御する運転制御部と
を備え、
前記学習実行部は、前記学習処理において、
第1の条件が満たされるまでは、前記第1のモデルを用いて学習を実行し、
前記第1の条件が満たされた以降、過学習を意味する第2の条件が満たされるか当該第2の条件が満たされること無しに学習が終了するまでは、前記第1のモデルを1回以上変化させた後のモデルである第2のモデルを用いて学習を実行する、
ことを特徴とする自動運転制御システム。 - 請求項1に記載の自動運転制御システムであって、
前記第2のモデルは、前記第1のモデルとは異なる数学的に記述される第3のモデルのうち所定割合の第3のモデルが前記第1のモデルに印加された結果としてのモデルである、
ことを特徴とする自動運転制御システム。 - 請求項2に記載の自動運転制御システムであって、
第1の制御信号列が入力された前記第1のモデルから出力された第1のシミュレーション結果データと、前記第1の制御信号列が入力された前記機械から出力された第1の実世界データとの第1の誤差に基づく第1の信頼度を算出する信頼度設定部、
を備え、
前記所定割合は、前記算出された第1の信頼度よりも小さな割合である、
ことを特徴とする自動運転制御システム。 - 請求項3に記載の自動運転制御システムであって、
前記第1の条件は、前記第1の信頼度と学習回数とに基づく条件である、
ことを特徴とする自動運転制御システム。 - 請求項3に記載の自動運転制御システムであって、
前記第1の誤差が許容誤差範囲に収まるよう前記第1のモデルが合せ込まれたモデルである前記第3のモデルを生成する印加モデル生成部、
を備えることを特徴とする自動運転制御システム。 - 請求項1に記載の自動運転制御システムであって、
前記学習実行部は、前記第2の条件が満たされた場合、前記学習処理を終了する、
ことを特徴とする自動運転制御システム。 - 請求項3に記載の自動運転制御システムであって、
前記信頼度設定部は、前記第1の誤差及び前記第1の信頼度のうちの少なくとも一つを表示し、
当該表示に対して学習処理の許可が受け付けられた場合に、前記学習実行部が前記学習処理を実行する、
ことを特徴とする自動運転制御システム。 - 請求項1に記載の自動運転制御システムであって、
前記第1のモデルを用いた学習と、前記第2のモデルを用いた学習とのいずれの学習も、強化学習であり、
前記第2の条件は、下記のうちの少なくとも一つである、
・前記第2のモデルを用いた強化学習において得られた報酬が、前記第1のモデルを用いた強化学習において得られた報酬より大きい、
・前記第2のモデルを用いた強化学習において得られた報酬の変動幅が、前記第1のモデルを用いた強化学習において得られた報酬の変動幅を超えている、
ことを特徴とする自動運転制御システム。 - 請求項3に記載の自動運転制御システムであって、
前記第2の条件が満たされること無しに前記学習処理が終了した場合の前記第2のモデルに第2の制御信号列が入力されることにより前記第2のモデルから出力された第2のシミュレーション結果データと、前記第2の制御信号列が入力された前記機械から出力された第2の実世界データとの第2の誤差に基づく第2の信頼度が、前記第1の信頼度を超えている場合、前記第2の信頼度を新たな第1の信頼度に更新することと、当該新たな第1の信頼度に基づく割合の第3のモデルが前記第1のモデルに印加された結果としてのモデルを新たな第1のモデルに更新することとを含む信頼度/第1モデル更新処理を実行する信頼度/第1モデル更新部、
を備え、
前記信頼度/第1モデル更新処理毎の前記学習処理では、前記新たな第1のモデルが用いられる、
ことを特徴とする自動運転制御システム。 - 請求項3に記載の自動運転制御システムであって、
前記第2の条件が満たされること無しに前記学習処理が終了した場合の前記第2のモデルに第2の制御信号列が入力されることにより前記第2のモデルから出力された第2のシミュレーション結果データと、前記第1の信頼度とのうちの少なくとも一つを表示し、当該表示に対して前記機械の実際の動作確認の許可を受け付けた場合に前記第2の制御信号列を前記機械に入力する評価部、
を備えることを特徴とする自動運転制御システム。 - 請求項10に記載の自動運転制御システムであって、
前記第2の制御信号列が入力された前記機械から出力された第2の実世界データと前記第2のシミュレーション結果データとの第2の誤差に基づく第2の信頼度が、前記第1の信頼度を超えている場合、前記第2の信頼度を新たな第1の信頼度に更新することと、当該新たな第1の信頼度に基づく割合の第3のモデルが前記第1のモデルに印加された結果としてのモデルを新たな第1のモデルに更新することとを含む信頼度/第1モデル更新処理を実行する信頼度/第1モデル更新部、
を備え、
前記信頼度/第1モデル更新処理毎の前記学習処理では、前記新たな第1のモデルが用いられる、
ことを特徴とする自動運転制御システム。 - 請求項1に記載の自動運転制御システムであって、
前記機械は、産業機械である、
ことを特徴とする自動運転制御システム。 - 機械の自動運転を制御する自動運転制御方法であって、
数学的に記述される関数に基づき前記機械に入力される制御信号列と当該制御信号列に従い制御された前記機械から出力されるデータとの関係を示す第1のモデルを設定し、
前記機械の自動運転制御を学習することを含む学習処理を実行し、
前記学習処理の結果に従う制御信号列を前記機械に入力することで前記機械の自動運転を制御し、
前記学習処理では、
第1の条件が満たされるまでは、前記第1のモデルを用いて学習を実行し、
前記第1の条件が満たされた以降、過学習を意味する第2の条件が満たされるか当該第2の条件が満たされること無しに学習が終了するまでは、前記第1のモデルを1回以上変化させた後のモデルである第2のモデルを用いて学習を実行する、
ことを特徴とする自動運転制御方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019078737A JP7200037B2 (ja) | 2019-04-17 | 2019-04-17 | 機械の自動運転制御方法、及びシステム |
CN202010248015.5A CN111830825B (zh) | 2019-04-17 | 2020-03-31 | 机械的自动驾驶控制方法以及系统 |
US16/845,522 US11619929B2 (en) | 2019-04-17 | 2020-04-10 | Automatic operation control method and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019078737A JP7200037B2 (ja) | 2019-04-17 | 2019-04-17 | 機械の自動運転制御方法、及びシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020177416A JP2020177416A (ja) | 2020-10-29 |
JP7200037B2 true JP7200037B2 (ja) | 2023-01-06 |
Family
ID=72832322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019078737A Active JP7200037B2 (ja) | 2019-04-17 | 2019-04-17 | 機械の自動運転制御方法、及びシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11619929B2 (ja) |
JP (1) | JP7200037B2 (ja) |
CN (1) | CN111830825B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7416015B2 (ja) * | 2021-05-28 | 2024-01-17 | 横河電機株式会社 | 情報処理装置、アラーム予測方法およびアラーム予測プログラム |
WO2023037504A1 (ja) * | 2021-09-10 | 2023-03-16 | 日本電気株式会社 | 強化学習システム、強化学習装置及び強化学習方法 |
WO2024090004A1 (ja) * | 2022-10-26 | 2024-05-02 | 株式会社日立製作所 | 設計支援方法、設計支援システム、及びプログラム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3760911B2 (ja) | 2002-11-27 | 2006-03-29 | トヨタ自動車株式会社 | モデル作成方法、モデル作成プログラム及びシミュレーション装置 |
JP2005059656A (ja) * | 2003-08-08 | 2005-03-10 | Fuji Heavy Ind Ltd | 飛行体の着陸制御装置および飛行体の着陸制御方法 |
JP4883272B2 (ja) | 2005-12-13 | 2012-02-22 | 株式会社Ihi | クレーンの振れ止め制御方法 |
JP5170698B2 (ja) * | 2009-04-27 | 2013-03-27 | 独立行政法人産業技術総合研究所 | 確率的推論装置 |
US9881428B2 (en) * | 2014-07-30 | 2018-01-30 | Verizon Patent And Licensing Inc. | Analysis of vehicle data to predict component failure |
US10197631B2 (en) * | 2015-06-01 | 2019-02-05 | Verizon Patent And Licensing Inc. | Systems and methods for determining vehicle battery health |
CN107943022B (zh) * | 2017-10-23 | 2021-07-16 | 清华大学 | 一种基于强化学习的pid机车自动驾驶优化控制方法 |
CN107798428A (zh) * | 2017-10-23 | 2018-03-13 | 清华大学 | 一种机车自动驾驶控制预测模型机器学习方法 |
US20200167834A1 (en) * | 2017-12-28 | 2020-05-28 | Google Llc | Intelligent identification and provisioning of devices and services for a smart home environment |
CN108803604A (zh) * | 2018-06-06 | 2018-11-13 | 深圳市易成自动驾驶技术有限公司 | 车辆自动驾驶方法、装置以及计算机可读存储介质 |
CN108657189B (zh) * | 2018-06-22 | 2024-02-23 | 南京航空航天大学 | 基于bp神经网络和安全距离移线工况自动驾驶转向系统及其控制方法 |
IT201800007377A1 (it) * | 2018-07-20 | 2020-01-20 | Rete neurale avente un numero ridotto di parametri | |
CN109358614A (zh) * | 2018-08-30 | 2019-02-19 | 深圳市易成自动驾驶技术有限公司 | 自动驾驶方法、系统、装置及可读存储介质 |
WO2020055759A1 (en) * | 2018-09-11 | 2020-03-19 | Nvidia Corporation | Future object trajectory predictions for autonomous machine applications |
CN115512173A (zh) * | 2018-10-11 | 2022-12-23 | 特斯拉公司 | 用于使用增广数据训练机器模型的系统和方法 |
CN109597317B (zh) * | 2018-12-26 | 2022-03-18 | 广州小鹏汽车科技有限公司 | 一种基于自学习的车辆自动驾驶方法、系统及电子设备 |
KR102206753B1 (ko) * | 2019-01-24 | 2021-01-22 | 주식회사 수아랩 | 결함 검사 장치 |
CN111347292B (zh) * | 2020-02-21 | 2023-04-11 | 青岛理工大学 | 数控机床刀具状态监测及控制系统与方法 |
-
2019
- 2019-04-17 JP JP2019078737A patent/JP7200037B2/ja active Active
-
2020
- 2020-03-31 CN CN202010248015.5A patent/CN111830825B/zh active Active
- 2020-04-10 US US16/845,522 patent/US11619929B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN111830825A (zh) | 2020-10-27 |
US20200333775A1 (en) | 2020-10-22 |
CN111830825B (zh) | 2022-09-20 |
JP2020177416A (ja) | 2020-10-29 |
US11619929B2 (en) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7200037B2 (ja) | 機械の自動運転制御方法、及びシステム | |
US20220363259A1 (en) | Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device | |
JP6513015B2 (ja) | 機械の動作を制御する方法、および機械の動作を反復的に制御する制御システム | |
CN108693832B (zh) | 机器学习装置及方法、伺服控制装置、伺服控制系统 | |
JP2019087096A (ja) | 行動決定システム及び自動運転制御装置 | |
CN113682318B (zh) | 车辆行驶控制方法及装置 | |
KR102531197B1 (ko) | 무인 비행체의 최적 경로 생성 방법 및 장치 | |
US20230139187A1 (en) | Method and apparatus for determining information, electronic device and storage medium | |
WO2016129078A1 (ja) | 経路選択装置及び経路選択プログラム | |
WO2021181913A1 (ja) | 制御システム及び制御方法 | |
Zhao et al. | Stable and Safe Reinforcement Learning via a Barrier-Lyapunov Actor-Critic Approach | |
WO2021186500A1 (ja) | 学習装置、学習方法、及び、記録媒体 | |
EP4168921A1 (en) | Heat-aware toolpath reordering for 3d printing of physical parts | |
CN116414094A (zh) | 一种焊接装配智能调度方法及系统 | |
JP2022136139A (ja) | 自動運転方法、自動運転装置、電子機器、記憶媒体、コンピュータプログラムおよび自動運転車両 | |
WO2018008391A1 (ja) | 線形パラメータ変動モデル推定システム、方法およびプログラム | |
JP7420236B2 (ja) | 学習装置、学習方法および学習プログラム | |
CN115943392A (zh) | 系统最优控制装置、系统最优控制方法及程序 | |
CN115330058A (zh) | 对象选择模型的训练方法、对象选择方法及装置 | |
JP2018116596A (ja) | 情報処理システム、制御パラメータの調整方法、および制御パラメータの調整プログラム | |
JP7179672B2 (ja) | 計算機システム及び機械学習方法 | |
JP2021082014A (ja) | 推定装置、訓練装置、推定方法、訓練方法、プログラム及び非一時的コンピュータ可読媒体 | |
JP2017033040A (ja) | Plcプログラムの最適化機能を備えた制御装置及び機械学習器 | |
WO2024089856A1 (ja) | 推定装置、学習装置、推定方法、学習方法、及びプログラム | |
KR102636029B1 (ko) | 강화학습 기반 컨테이너 장치 위치 추천 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7200037 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |