JP6940830B2 - パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラム - Google Patents
パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラム Download PDFInfo
- Publication number
- JP6940830B2 JP6940830B2 JP2019565102A JP2019565102A JP6940830B2 JP 6940830 B2 JP6940830 B2 JP 6940830B2 JP 2019565102 A JP2019565102 A JP 2019565102A JP 2019565102 A JP2019565102 A JP 2019565102A JP 6940830 B2 JP6940830 B2 JP 6940830B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- state
- parameter calculation
- symbol
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/043—Distributed expert systems; Blackboards
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/32—Operator till task planning
- G05B2219/32334—Use of reinforcement learning, agent acts, receives reward
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明の目的は、上述した課題を解決できるパラメタ算出装置を提供することにある。
本発明の理解を容易にするために、最初に関連技術について説明する。
本発明の実施形態について図面を参照して以下、詳細に説明する。
図3は、本発明の実施形態に係る記号接地を行う階層プランナを含む制御システムを含むブロック図である。図3に示すように、本実施形態に係る制御システムは、階層プランナ10Aと、環境50とを有する。尚、環境50は、制御対象や対象システムとも呼ばれる。
次に、図7のフローチャートを参照して、本実施形態の階層プランナ10Aを含む制御システム全体の動作について説明する。
次に、本実施形態の効果について説明する。
10、10A 階層プランナ
14、14A 第1の変換部
12、12A 上位プランナ
16、16A 第2の変換部
18 下位プランナ
20、20A パラメタ計算回路部
22A 特定部
24A パラメタ算出部
26A 第1の記号接地関数用パラメタ更新部
28A 第2の記号接地関数用パラメタ更新部
262A 事前知識に基づく第1の記号接地関数用パラメタ更新部
264A 相互作用履歴に基づく第1の記号接地関数用パラメタ更新部
266A パラメタ更新合成部
282A 事前知識に基づく第2の記号接地関数用パラメタ更新部
284A 相互作用履歴に基づく第2の記号接地関数用パラメタ更新部
286A パラメタ更新合成部
40 履歴記録媒体
60 知識記録媒体
30 パラメタ格納部
Claims (10)
- 対象システムに関する複数の状態と、前記複数の状態のうち2つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、該対象システムの状態を表すパラメタを含むモデル情報と、該パラメタに関する所与の範囲とに基づき、ある状態から目的状態までの中間状態と、該中間状態に関する報酬とを特定する特定手段と、
特定した報酬と、前記パラメタの値及び前記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出するパラメタ算出手段と、
を備えるパラメタ算出装置。 - 前記状態と、前記状態を表す数値情報との関連性を表す関連情報に基づき、前記中間状態又は前記中間状態を表す数値情報を算出する変換手段を含む、請求項1に記載のパラメタ算出装置。
- 前記中間状態を表す数値情報と、前記対象システムに関して観測された観測情報との差異に基づき、前記対象システムを制御する制御情報を作成する下位プランナを含む、請求項2に記載のパラメタ算出装置。
- 前記関連情報を、算出された前記パラメタの値に基づき更新する更新手段を含む、請求項1乃至3のいずれか1項に記載のパラメタ算出装置。
- 前記関連情報は、前記数値情報を前記状態に対応付ける第1の記号接地関数を含む、請求項2または請求項3に記載のパラメタ算出装置。
- 前記関連情報は、前記状態を前記数値情報に対応付ける第2の記号接地関数を含む、請求項2、請求項3、または、請求項5に記載のパラメタ算出装置。
- 情報処理装置によって、対象システムに関する複数の状態と、前記複数の状態のうち2つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、該対象システムの状態を表すパラメタを含むモデル情報と、該パラメタに関する所与の範囲とに基づき、ある状態から目的状態までの中間状態と、該中間状態に関する報酬とを特定し、
特定した報酬と、前記パラメタの値及び前記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出する、
パラメタ算出方法。 - 前記状態と、前記状態を表す数値情報との関連性を表す関連情報に基づき、前記中間状態又は前記中間状態を表す数値情報を算出する、請求項7に記載のパラメタ算出方法。
- 前記中間状態を表す数値情報と、前記対象システムに関して観測された観測情報との差異に基づき、前記対象システムを制御する制御情報を作成する、請求項8に記載のパラメタ算出方法。
- 対象システムに関する複数の状態と、前記複数の状態のうち2つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、該対象システムの状態を表すパラメタを含むモデル情報と、該パラメタに関する所与の範囲とに基づき、ある状態から目的状態までの中間状態と、該中間状態に関する報酬とを特定する特定手順と、
特定した報酬と、前記パラメタの値及び前記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出するパラメタ算出手順と、
をコンピュータに実行させるパラメタ算出プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/000261 WO2019138457A1 (ja) | 2018-01-10 | 2018-01-10 | パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラムが記録された記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019138457A1 JPWO2019138457A1 (ja) | 2020-12-03 |
JP6940830B2 true JP6940830B2 (ja) | 2021-09-29 |
Family
ID=67218234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019565102A Active JP6940830B2 (ja) | 2018-01-10 | 2018-01-10 | パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210065056A1 (ja) |
JP (1) | JP6940830B2 (ja) |
WO (1) | WO2019138457A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7507712B2 (ja) | 2021-03-18 | 2024-06-28 | 株式会社日本製鋼所 | 強化学習方法、コンピュータプログラム、強化学習装置及び成形機 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4853997B2 (ja) * | 2005-08-17 | 2012-01-11 | 株式会社国際電気通信基礎技術研究所 | エージェント学習装置、エージェント学習方法及びエージェント学習プログラム |
US9298172B2 (en) * | 2007-10-11 | 2016-03-29 | International Business Machines Corporation | Method and apparatus for improved reward-based learning using adaptive distance metrics |
CN108431549B (zh) * | 2016-01-05 | 2020-09-04 | 御眼视觉技术有限公司 | 具有施加的约束的经训练的系统 |
WO2018184666A1 (en) * | 2017-04-04 | 2018-10-11 | Telefonaktiebolaget Lm Ericsson (Publ) | Training a software agent to control a communication network |
US20190146469A1 (en) * | 2017-11-16 | 2019-05-16 | Palo Alto Research Center Incorporated | System and method for facilitating comprehensive control data for a device |
-
2018
- 2018-01-10 WO PCT/JP2018/000261 patent/WO2019138457A1/ja active Application Filing
- 2018-01-10 US US16/961,121 patent/US20210065056A1/en active Pending
- 2018-01-10 JP JP2019565102A patent/JP6940830B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JPWO2019138457A1 (ja) | 2020-12-03 |
US20210065056A1 (en) | 2021-03-04 |
WO2019138457A1 (ja) | 2019-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shin et al. | Reinforcement learning–overview of recent progress and implications for process control | |
Acı et al. | A modified dragonfly optimization algorithm for single‐and multiobjective problems using Brownian motion | |
Sugiyama | Statistical reinforcement learning: modern machine learning approaches | |
Papageorgiou et al. | Methods and algorithms for fuzzy cognitive map-based modeling | |
Faria | Machine learning safety: An overview | |
US20200311556A1 (en) | Process and System Including an Optimization Engine With Evolutionary Surrogate-Assisted Prescriptions | |
JP6963511B2 (ja) | 解探索処理装置および解探索処理方法 | |
Zhou et al. | Learning the Car‐following Behavior of Drivers Using Maximum Entropy Deep Inverse Reinforcement Learning | |
CN115066694A (zh) | 计算图优化 | |
US11900236B2 (en) | Interpretable neural network | |
Quesada et al. | Long-term forecasting of multivariate time series in industrial furnaces with dynamic Gaussian Bayesian networks | |
Wang et al. | A proactive decision support method based on deep reinforcement learning and state partition | |
CN113196308B (zh) | 用于控制移动平台的系统、方法和计算机程序产品 | |
CN116210010A (zh) | 用于评估工程系统的一致性的方法和系统 | |
JP6940830B2 (ja) | パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラム | |
Bastani et al. | Interpretable, verifiable, and robust reinforcement learning via program synthesis | |
US20210374612A1 (en) | Interpretable imitation learning via prototypical option discovery | |
Gregor et al. | Novelty detector for reinforcement learning based on forecasting | |
Boularias et al. | Apprenticeship learning with few examples | |
JP6912760B2 (ja) | 関連情報改善装置、関連情報改善方法、および関連情報改善プログラム | |
Lee et al. | Instant Inverse Modeling of Stochastic Driving Behavior With Deep Reinforcement Learning | |
Wei et al. | Tabu temporal difference learning for robot path planning in uncertain environments | |
Yu et al. | Deep Q‐Network with Predictive State Models in Partially Observable Domains | |
Hu | Monte Carlo Methods | |
Chen et al. | Building a Belief–Desire–Intention agent for modeling neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200617 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200617 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210817 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6940830 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |