JP6940831B2 - 決定装置、決定方法、及び、決定プログラム - Google Patents
決定装置、決定方法、及び、決定プログラム Download PDFInfo
- Publication number
- JP6940831B2 JP6940831B2 JP2019565103A JP2019565103A JP6940831B2 JP 6940831 B2 JP6940831 B2 JP 6940831B2 JP 2019565103 A JP2019565103 A JP 2019565103A JP 2019565103 A JP2019565103 A JP 2019565103A JP 6940831 B2 JP6940831 B2 JP 6940831B2
- Authority
- JP
- Japan
- Prior art keywords
- hypothesis
- state
- states
- procedure
- observation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 99
- 230000014509 gene expression Effects 0.000 claims description 52
- 238000011156 evaluation Methods 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 48
- 230000009471 action Effects 0.000 claims description 46
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 230000010365 information processing Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 description 71
- 239000003795 chemical substances by application Substances 0.000 description 56
- 238000005516 engineering process Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 235000013305 food Nutrition 0.000 description 8
- 239000003245 coal Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 240000002930 Alternanthera sessilis Species 0.000 description 6
- 235000015579 Alternanthera sessilis Nutrition 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 241000283973 Oryctolagus cuniculus Species 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 244000000626 Daucus carota Species 0.000 description 2
- 235000002767 Daucus carota Nutrition 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 235000013547 stew Nutrition 0.000 description 2
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002147 killing effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 235000012015 potatoes Nutrition 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/60—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
- A63F13/67—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/50—Controlling the output signals based on the game progress
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の目的の1つは、上述した課題を解決するような決定装置を提供することである。
本発明の理解を容易にするために、最初に関連技術について説明する。
次に、図面を参照して、本発明の全体像について説明する。図7は、本発明の全体像を示す、決定装置100を含む階層強化学習システムを示すブロック図である。図8は、図7に示した階層強化学習システムの動作を説明するためのフローチャートである。
[構成の説明]
図9を参照すると、本発明の第1の実施形態に係る決定装置100は、ローレベルプランナ110と、ハイレベルプランナ120とから成る。ハイレベルプランナ120は、観測論理式生成部122、仮説推論部124、およびサブゴール生成部126から成る。仮説推論部124は知識ベース140に接続されている。これら構成要素の全ては、図示はしないが、入出力装置、記憶装置、CPU(central processing unit)、およびRAM(random access memory)を中心に構成されたマイクロコンピュータが実行する処理によって実現される。
次に、図10、図11のフローチャートを参照して、本実施の形態の決定装置100全体の動作について詳細に説明する。
次に、本第1の実施形態の効果について説明する。
[構成の説明]
次に、本発明の第2の実施形態に係る決定装置100Aについて、図面を参照して詳細に説明する。
これらの手段は、それぞれ概略つぎのように動作する。
次に、本第2の実施形態の効果について説明する。
[構成の説明]
次に、本発明の第3の実施形態に係る決定装置100Bについて、図面を参照して詳細に説明する。
これらの手段は、それぞれ概略つぎのように動作する。
次に、本第3の実施形態の効果について説明する。
110 ローレベルプランナ(強化学習エージェント)
112 行動実行部
110A ローレベルプランナ
112A 状態取得部
114A ローレベルプランナ学習部
120 ハイレベルプランナ(仮説推論モデル)
122 観測論理式生成部
124 仮説推論部
126 サブゴール生成部
140 知識ベース(背景知識)
150 エージェント初期化部
160 現在状態取得部
Claims (10)
- 対象システムに関する複数の状態のうち、ある状態を表す第1情報と、該対象システムに関する目標状態を表す第2情報との間の関係性を表す複数の論理式を含む仮説を、所定の仮説作成手順に従い作成する仮説作成部と、
前記仮説に含まれる前記複数の論理式のうち、前記第1情報に関する論理式とは異なる論理式が表す中間状態を、所定の変換手順に従い求める変換部と、
前記ある状態から求めた前記中間状態までの行動を、前記複数の状態における状態に関する報酬に基づき決定するローレベルプランナと、
を備える決定装置。 - 前記仮説作成部は、
前記目標状態、及び、前記ある状態を、前記複数の論理式から選択された観測論理式に変換する観測論理式生成部と、
前記対象システムに関する事前知識である知識ベースと前記観測論理式とから、前記所定の仮説作成手順を規定する評価関数に基づき、前記仮説を推論する仮説推論部と、
を備える請求項1に記載の決定装置。 - 前記評価関数は、前記仮説の観測に対する説明としての良さを評価する第1の評価関数と、前記仮説のプランとしての良さを評価する第2の評価関数と、の組み合わせから成る、請求項2に記載の決定装置。
- 前記観測論理式は、一階述語論理式の連言から成り、
前記知識ベースは、前記対象システムに関する前記事前知識を一階述語論理式で表した推論ルールの集合から成る、
請求項2または3に記載の決定装置。 - 前記ローレベルプランナの状態を開始状態に初期化するエージェント初期化部と、
前記ローレベルプランナの現在状態を前記仮説作成部の入力として抽出する現在状態取得部と、
を更に備える、請求項1乃至4のいずれか1項に記載の決定装置。 - 前記ローレベルプランナは、前記変換部から提示された前記中間状態に従って、前記行動を決定および実行し、前記対象システムから前記報酬を受け取る行動実行部を含む、請求項1乃至5のいずれか1項に記載の決定装置。
- 前記ローレベルプランナは、
前記中間状態の列から隣接する2つの中間状態を取得する状態取得部と、
前記2つの中間状態間における前記ローレベルプランナの方策を並列的に学習するローレベルプランナ学習部と、
を備えたことを特徴とする請求項1乃至6のいずれか1項に記載の決定装置。 - 情報処理装置によって、対象システムに関する複数の状態のうち、ある状態を表す第1情報と、該対象システムに関する目標状態を表す第2情報との間の関係性を表す複数の論理式を含む仮説を、所定の仮説作成手順に従い作成し、
前記仮説に含まれる前記複数の論理式のうち、前記第1情報に関する論理式とは異なる論理式が表す中間状態を、所定の変換手順に従い求め、
前記ある状態から求めた前記中間状態までの行動を、前記複数の状態における状態に関する報酬に基づき決定する、
決定方法。 - 前記作成することは、前記情報処理装置によって、
前記目標状態、及び、前記ある状態を、前記複数の論理式から選択された観測論理式に変換し、
前記対象システムに関する事前知識である知識ベースと前記観測論理式とから、前記所定の仮説作成手順を規定する評価関数に基づき、前記仮説を推論する、
ことを含む請求項8に記載の決定方法。 - 対象システムに関する複数の状態のうち、ある状態を表す第1情報と、該対象システムに関する目標状態を表す第2情報との間の関係性を表す複数の論理式を含む仮説を、所定の仮説作成手順に従い作成する仮説作成手順と、
前記仮説に含まれる前記複数の論理式のうち、前記第1情報に関する論理式とは異なる論理式が表す中間状態を、所定の変換手順に従い求める変換手順と、
前記ある状態から求めた前記中間状態までの行動を、前記複数の状態における状態に関する報酬に基づき決定する決定手順と、
をコンピュータに実行させる決定プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/000262 WO2019138458A1 (ja) | 2018-01-10 | 2018-01-10 | 決定装置、決定方法、及び、決定プログラムが記録された記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019138458A1 JPWO2019138458A1 (ja) | 2020-12-17 |
JP6940831B2 true JP6940831B2 (ja) | 2021-09-29 |
Family
ID=67219451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019565103A Active JP6940831B2 (ja) | 2018-01-10 | 2018-01-10 | 決定装置、決定方法、及び、決定プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210065027A1 (ja) |
JP (1) | JP6940831B2 (ja) |
WO (1) | WO2019138458A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11616813B2 (en) * | 2018-08-31 | 2023-03-28 | Microsoft Technology Licensing, Llc | Secure exploration for reinforcement learning |
WO2021084733A1 (ja) * | 2019-11-01 | 2021-05-06 | 日本電気株式会社 | 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記録媒体 |
WO2021171558A1 (ja) * | 2020-02-28 | 2021-09-02 | 日本電気株式会社 | 制御装置、制御方法及び記録媒体 |
US20220164647A1 (en) * | 2020-11-24 | 2022-05-26 | International Business Machines Corporation | Action pruning by logical neural network |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6681383B1 (en) * | 2000-04-04 | 2004-01-20 | Sosy, Inc. | Automatic software production system |
US10671076B1 (en) * | 2017-03-01 | 2020-06-02 | Zoox, Inc. | Trajectory prediction of third-party objects using temporal logic and tree search |
-
2018
- 2018-01-10 US US16/961,108 patent/US20210065027A1/en not_active Abandoned
- 2018-01-10 JP JP2019565103A patent/JP6940831B2/ja active Active
- 2018-01-10 WO PCT/JP2018/000262 patent/WO2019138458A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2019138458A1 (ja) | 2019-07-18 |
JPWO2019138458A1 (ja) | 2020-12-17 |
US20210065027A1 (en) | 2021-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alharin et al. | Reinforcement learning interpretation methods: A survey | |
JP6940831B2 (ja) | 決定装置、決定方法、及び、決定プログラム | |
James et al. | A social spider algorithm for global optimization | |
Moriarty et al. | Evolutionary algorithms for reinforcement learning | |
Lang et al. | Planning with noisy probabilistic relational rules | |
CA3131688A1 (en) | Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions | |
Sun et al. | InterSim: Interactive traffic simulation via explicit relation modeling | |
Belzner et al. | Collective autonomic systems: towards engineering principles and their foundations | |
Lo Bianco et al. | Action-evolution petri nets: a framework for modeling and solving dynamic task assignment problems | |
Van Dyke Parunak | Learning actor preferences by evolution | |
Khurana et al. | Automating predictive modeling process using reinforcement learning | |
Araújo et al. | Cooperative observation of smart target agents | |
Hulianytskyi et al. | Development and analysis of genetic algorithm for time series forecasting problem | |
Budhraja et al. | Dataset selection for controlling swarms by visual demonstration | |
Banzhaf et al. | Fundamentals of Evolutionary Machine Learning | |
Omidvar et al. | A clustering approach by SSPCO optimization algorithm based on chaotic initial population | |
Henninger et al. | Modeling behavior | |
Romero et al. | A re-description based developmental approach to the generation of value functions for cognitive robots | |
Jones | Gaining Perspective with an Evolutionary Cognitive Architecture for Intelligent Agents | |
Junges et al. | Modeling agent behavior through online evolutionary and reinforcement learning | |
Baek et al. | DMQEA-FCM: An approach for preference-based decision support | |
Daruna | Using Multi-Relational Embeddings as Knowledge Graph Representations for Robotics Applications. | |
Wong | Learning internal state memory representations from observation | |
Balseca et al. | Design and simulation of a path decision algorithm for a labyrinth robot using neural networks | |
Ion et al. | Genetic decision mechanism for reasoning and behaviour generation in adaptive intelligent agents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200625 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210817 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6940831 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |