JP7016295B2 - 意思決定装置、無人システム、意思決定方法、及びプログラム - Google Patents

意思決定装置、無人システム、意思決定方法、及びプログラム Download PDF

Info

Publication number
JP7016295B2
JP7016295B2 JP2018123527A JP2018123527A JP7016295B2 JP 7016295 B2 JP7016295 B2 JP 7016295B2 JP 2018123527 A JP2018123527 A JP 2018123527A JP 2018123527 A JP2018123527 A JP 2018123527A JP 7016295 B2 JP7016295 B2 JP 7016295B2
Authority
JP
Japan
Prior art keywords
state
reward
action
decision
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018123527A
Other languages
English (en)
Other versions
JP2020004120A (ja
Inventor
祐介 筈井
泰郎 藤島
夏樹 松波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Heavy Industries Ltd
Original Assignee
Mitsubishi Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Heavy Industries Ltd filed Critical Mitsubishi Heavy Industries Ltd
Priority to JP2018123527A priority Critical patent/JP7016295B2/ja
Priority to PCT/JP2019/023869 priority patent/WO2020004103A1/ja
Priority to US17/046,492 priority patent/US20210133566A1/en
Priority to EP19827543.0A priority patent/EP3816876A4/en
Publication of JP2020004120A publication Critical patent/JP2020004120A/ja
Application granted granted Critical
Publication of JP7016295B2 publication Critical patent/JP7016295B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0674Disk device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2201/00UAVs characterised by their flight controls

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Robotics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Feedback Control In General (AREA)

Description

本開示は、意思決定装置、無人システム、意思決定方法、及びプログラムに関する。
近年では、計算機等の高性能化により、計算負荷の高いディープラーニングを用いた機械学習が普及しつつある。
例えば、ディープラーニングと強化学習とを組み合わせた技術として、制御対象(環境)のある状態において最適な行動を学習するDeep Q Network(DQN)という技術がある。DQNでは、学習主体であるエージェントは、環境がある状態のときに行った行動により、どのような状態に遷移したかを観測し、この状態遷移に対する報酬を獲得する。エージェントは、これら遷移前の状態、行動、遷移後の状態、及び報酬を関連付けた経験データを多数収集し、経験データに基づいてある状態における行動の価値を求める行動価値関数を多層ニュートラルネットワークで近似する。DQNでは、このように経験データに基づいて、様々な状態における最適な(最も多く報酬を獲得できると期待できる)行動を推定するための行動価値関数を学習して更新する。
なお、時系列に連続する経験データは強い相関を持つので、例えばエージェントが新しく記憶された経験データばかりを用いて学習を行うと、古い経験データに対する推定精度が低下して、行動価値関数の収束性が悪くなる可能性がある。このため、学習に用いるデータの偏りを抑制するために、過去に蓄積した経験データからランダムに学習データを選択して学習を行う体験再生(Experience Replay)という技術が考えられている。
Experience Replayにおいて蓄積された経験データは、記憶領域が上限に達すると、FIFO(First In First Out)で古い順に削除されるが、そうすると時系列に近い類似データが記憶領域に残されることとなる。
このような経験データの偏りを解消する方法として、例えば特許文献1には、蓄積された経験データそれぞれについて他の経験データとどの程度異なっているかを示すユニークネスパラメータを算出し、ユニークネスパラメータに基づいて他の経験データとの類似度が高い経験データを削除する方法が記載されている。
特開2018-005739号公報
しかしながら、従来の方法では、例えば行動回数に制限がある場合、ランダムに行動を選択したとしても、一部の行動が実行されない場合がある。そうすると、蓄積される経験データにも偏りが生じてしまう。また、経験データには多様なパラメータが含まれるので、適切なユニークネスパラメータを選定することが困難な場合がある。この結果、記憶領域に蓄積される経験データの偏りを十分に解消することができず、例えば経験データ数が少ない行動については学習の機会が少なくなり、学習の精度が低下する可能性がある。
本発明の少なくとも一実施形態は、このような課題に鑑みてなされたものであって、経験データの偏りを抑制することができる意思決定装置、無人システム、意思決定方法、及びプログラムを提供する。
上記課題を解決するため、本発明は以下の手段を採用している。
本発明の第1の態様によれば、意思決定装置は、第1の状態において取り得る複数の行動のうち何れか一つを選択して環境に実行させる行動選択部と、前記行動を実行した後の状態を示す第2の状態を取得する状態取得部と、前記第2の状態が望ましいものであるかを示す指標となる報酬を取得する報酬取得部と、前記第1の状態と、前記行動と、前記第2の状態と、前記報酬とを関連付けた経験データを、複数の記憶部のうち前記行動と関連付けられた記憶部に記憶する記憶処理部と、を備える。
このようにすることで、意思決定装置は、記憶部に記憶される経験データが、行動の選択頻度の多寡に応じて偏ってしまうことを抑制することができる。
本発明の第2の態様によれば、意思決定装置は、第1の状態において取り得る複数の行動のうち何れか一つを選択して環境に実行させる行動選択部と、前記行動を実行した後の状態を示す第2の状態を取得する状態取得部と、前記第2の状態が望ましいものであるかを示す指標となる報酬を取得する報酬取得部と、前記第1の状態と、前記行動と、前記第2の状態と、前記報酬とを関連付けた経験データを、複数の記憶部のうち前記報酬と関連付けられた記憶部に記憶する記憶処理部と、を備える。
通常、強化学習において高い報酬を得る機会は少なく設定されることが多く、高い報酬に関連付けられた経験データを蓄積しづらい。このため、従来の技術では、報酬の低い経験データばかりが偏って記憶されてしまう可能性がある。しかしながら、上述の態様に係る意思決定装置は、報酬別に異なる記憶部に経験データを記憶するので、記憶部における経験データの偏りを抑制することができる。
本発明の第3の態様によれば、上述の第2の態様に係る意思決定装置において、前記記憶処理部は、前記報酬の値別に関連付けられた前記記憶部に前記経験データを記憶する。
このようにすることで、例えば報酬の値が離散値である場合、記憶処理部は、報酬の値別に偏りなく経験データを記憶することができる。
本発明の第4の態様によれば、上述の第2の態様に係る意思決定装置において、前記報酬取得部は、前記報酬とともに当該報酬の演算に用いた演算式を取得し、前記記憶処理部は、前記報酬の演算式別に関連付けられた前記記憶部に前記経験データを記憶する。
このようにすることで、例えば報酬の演算時に、行動の結果として発生したイベント別に異なる演算式を用いる場合であっても、記憶処理部は、演算式別に経験データをサンプリングすることができる。これにより、発生頻度の低いイベント(即ち、使用頻度の少ない演算式)に関する経験データが、発生頻度の多いイベントに関する経験データにより上書きされることがないので、経験データの偏りを抑制することができる。
本発明の第5の態様によれば、上述の第2の態様に係る意思決定装置において、前記記憶処理部は、前記報酬の値帯別に関連付けられた前記記憶部に前記経験データを記憶する。
このようにすることで、例えば報酬の値が連続値であり、且つイベント別に異なる値が設定されている場合であっても、記憶処理部は、報酬の値帯別に偏りなく経験データを記憶することができる。これにより、記憶処理部は、発生頻度が低いものの重要なイベントがあった場合、このイベントに関する経験データをより確実に記憶することができる。
本発明の第6の態様によれば、上述の第1から第5の何れか一の態様に係る意思決定装置は、前記記憶部に記憶された前記経験データの量が上限値に達している場合、最も古い経験データを削除する削除処理部を更に備える。
このようにすることで、意思決定装置は、簡易なアルゴリズムで記憶部それぞれの経験データ量を調整することができる。
本発明の第7の態様によれば、上述の第1から第5の何れか一の態様に係る意思決定装置は、前記記憶部に記憶された前記経験データの量が上限値に達している場合、最も多く学習に使用された経験データを削除する削除処理部を更に備える。
このようにすることで、意思決定装置は、記憶部には学習の頻度が低い経験データを残すことができるので、学習に使用される経験データの偏りを抑制することができる。
本発明の第8の態様によれば、上述の第1から第7の何れか一の態様に係る意思決定装置は、複数の前記記憶部それぞれから所定数ずつ前記経験データをランダムに選択して学習データとして取り出し、当該学習データに基づいて前記第1の状態において最も価値の高い行動を推測するための学習モデルを更新する学習部を更に備える。
このようにすることで、学習部は、複数の行動又は報酬それぞれと関連付けられた経験データを偏りなく選択して学習することができる。
本発明の第9の態様によれば、上述の第8の態様に係る意思決定装置において、前記学習部は、複数の前記記憶部それぞれから同数ずつ前記経験データを選択して前記学習データとして取り出す。
このようにすることで、学習部は、複数の行動それぞれの実行回数、又は複数の報酬の取得回数の多寡にかかわらず、各行動又は各報酬と関連付けられた経験データを偏りなく選択して、全ての行動又は報酬を均等に学習することができる。
本発明の第10の態様によれば、上述の第8又は第9の態様に係る意思決定装置において、前記学習部は、前記記憶部に記憶されている前記経験データが前記所定数に満たない場合、全ての前記経験データを前記学習データとして取り出す。
このようにすることで、学習部は、例えば学習の初期においてある行動の実行回数、又はある報酬の取得回数が少ない場合であっても、当該行動又は報酬について学習することができる。
本発明の第11の態様によれば、無人システムは、上述の第1から第10の何れか一の態様に記載の意思決定装置を備える。
このようにすることで、無人システムは、自動的に最善の行動を学習し、実行することができる。
本発明の第12の態様によれば、意思決定方法は、第1の状態において取り得る複数の行動のうち何れか一つを選択して環境に実行させるステップと、前記行動を実行した後の状態を示す第2の状態を取得するステップと、前記第2の状態が望ましいものであるかを示す指標となる報酬を取得するステップと、前記第1の状態と、前記行動と、前記第2の状態と、前記報酬とを関連付けた経験データを、複数の記憶部のうち前記行動と関連付けられた記憶部に記憶するステップと、を有する。
本発明の第13の態様によれば、意思決定装置のコンピュータを機能させるプログラムは、前記コンピュータに、第1の状態において取り得る複数の行動のうち何れか一つを選択して環境に実行させるステップと、前記行動を実行した後の状態を示す第2の状態を取得するステップと、前記第2の状態が望ましいものであるかを示す指標となる報酬を取得するステップと、前記第1の状態と、前記行動と、前記第2の状態と、前記報酬とを関連付けた経験データを、複数の記憶部のうち前記行動と関連付けられた記憶部に記憶するステップと、を実行させる。
本発明の第14の態様によれば、意思決定方法は、第1の状態において取り得る複数の行動のうち何れか一つを選択して環境に実行させるステップと、前記行動を実行した後の状態を示す第2の状態を取得するステップと、前記第2の状態が望ましいものであるかを示す指標となる報酬を取得するステップと、前記第1の状態と、前記行動と、前記第2の状態と、前記報酬とを関連付けた経験データを、複数の記憶部のうち前記報酬と関連付けられた記憶部に記憶するステップと、を有する。
本発明の第15の態様によれば、意思決定装置のコンピュータを機能させるプログラムは、前記コンピュータに、第1の状態において取り得る複数の行動のうち何れか一つを選択して環境に実行させるステップと、前記行動を実行した後の状態を示す第2の状態を取得するステップと、前記第2の状態が望ましいものであるかを示す指標となる報酬を取得するステップと、前記第1の状態と、前記行動と、前記第2の状態と、前記報酬とを関連付けた経験データを、複数の記憶部のうち前記報酬と関連付けられた記憶部に記憶するステップと、を実行させる。
上述の少なくとも一の態様に係る意思決定装置、無人システム、意思決定方法、及びプログラムによれば、経験データの偏りを抑制することができる。
第1の実施形態に係る無人システムの機能構成を示す図である。 第1の実施形態に係る意思決定装置における学習処理の一例を示すフローチャートである。 第1の実施形態に係る意思決定装置における記憶処理の一例を示すフローチャートである。 第2の実施形態に係る意思決定装置における記憶処理の一例を示すフローチャートである。 第3の実施形態に係る意思決定装置における記憶処理の一例を示すフローチャートである。 第4の実施形態に係る無人システムの一例を示す図である。 第4の実施形態に係る無人システムの機能を説明するための図である。 少なくとも一つの実施形態に係る意思決定装置のハードウェア構成の一例を示す図である。
<第1の実施形態>
以下、本発明の第1の実施形態に係る無人システム1及び意思決定装置2について、図を参照しながら説明する。
(全体構成)
図1は、第1の実施形態に係る無人システムの機能構成を示す図である。
図1に示すように、本実施形態に係る無人システム1は、意思決定装置2と、機器3とを備えている。機器3は、例えば、自動運転車、無人航空機(AAV:Automated Aerial Vehicle)などの無人で動作する機器である。
本実施形態に係る意思決定装置2は、機器3の状態に応じた行動を決定する。また、意思決定装置2は、機器3が行動によりどのような状態に遷移したかを観測し、状態に応じて最適な行動を決定するように強化学習を行う「エージェント」として機能する。
機器3は、意思決定装置2が決定した行動を実現するように、アクチュエータ、ロータ等を制御する。機器3は、強化学習において状態の観測対象となる「環境」の一例である。
なお、図1の例では、意思決定装置2が機器3の外部に設けられている態様が示されているが、これに限られることはない。他の実施形態では、意思決定装置2は機器3に内蔵されていてもよい。
(機能構成)
図1に示すように、意思決定装置2は、CPU20と、複数の記憶部21(21_1~21_N)とを備えている。
CPU20は、意思決定装置2の動作全体を司るプロセッサであり、プログラムに従って動作することにより、行動選択部200、状態取得部201、報酬取得部202、記憶処理部203、削除処理部204、学習部205としての機能を発揮する。
行動選択部200は、第1の状態において取り得る複数の行動のうち何れか一つを選択して機器3に実行させる。
第1の状態とは、ある時間tにおける機器3の状態Sを示す。
状態取得部201は、機器3が行動を実行した後の状態を示す第2の状態を取得する。
第2の状態とは、機器3が第1の状態Sにおいてある行動aを行ったときの、次の時間t+1における機器3の状態St+1である。
報酬取得部202は、前記第2の状態St+1が望ましいものであるかを示す指標となる報酬rt+1を取得する。
記憶処理部203は、第1の状態Sと、行動aと、第2の状態St+1と、報酬rt+1とを関連付けた経験データ(S,a,St+1,t+1)を、複数の記憶部21のうち行動aと関連付けられた記憶部21に記憶する。
削除処理部204は、記憶部21に記憶された経験データの量が上限値に達している場合、最も古い経験データを削除する。
学習部205は、複数の記憶部21それぞれから所定数の経験データからランダムに選択した学習データに基づいて、各状態に対する最適な行動を推測するための学習モデルを更新する。
複数の記憶部21それぞれは、機器3が取り得る複数の行動それぞれに対して割り当てられる。即ち、機器3が取り得る行動の数がn個である場合、n個の記憶部21_1~21_Nが設けられる。
(処理フロー)
図2は、第1の実施形態に係る意思決定装置における学習処理の一例を示すフローチャートである。
図3は、第1の実施形態に係る意思決定装置における記憶処理の一例を示すフローチャートである。
以下、図2~図3を参照しながら、意思決定装置2における学習処理の一例について説明する。
図2に示すように、まず、意思決定装置2の行動選択部200は、現在の機器3の状態において取り得る各行動について、行動価値関数Q(S,a;θ)に基づいて行動価値を演算する(ステップS10)。
ここで、行動価値関数は、ある状態において最適な行動(最も価値が高い行動)を推測するための学習モデルの一例である。Sは、現在の時間tにおける機器3の状態を示す。aは、状態Stにおいて実行する行動を示す。θは、行動価値関数に入力するパラメータに対する重みであり、学習部205により随時学習、更新される。行動価値とは、状態Sにおいて行った行動aの結果として獲得できる報酬の期待値である。
次に、行動選択部200は、現在の意思決定装置2のモードが学習モードであるか否かを判断する(ステップS11)。
行動選択部200は、現在のモードが学習モードである場合(ステップS11:YES)、ステップS12~S19の処理を実行する。
一方、行動選択部200は、現在のモードが学習モードではない場合(ステップS11:NO)、ステップS20~S21の処理を実行する。
なお、意思決定装置2は、不図示の切替部が「学習モードON」に設定されたとき学習モードとなり、「学習モードOFF」のときは学習モード以外のモードになるとする。
まず、現在のモードが学習モードである(ステップS11:YES)場合について説明する。
このとき、行動選択部200は、現在の状態Sにおいて取り得る複数の行動のうち何れか一つの行動aを選択する(ステップS12)。
行動選択部200は、複数の行動からランダムで行動を選択してもよいし、行動価値が最も高い行動を選択してもよい。行動選択部200は、学習の進度に応じてランダムで行動を選択する割合と、行動価値が高い行動を選択する割合とを変更するようにしてもよい。この場合、例えば行動選択部200は、学習の進度が大きいほど、行動価値が高い行動を選択する割合を大きくする。
次に、状態取得部201は、行動aを実行した後(次の時間t+1)の機器3の状態St+1を取得する(ステップS13)。
次に、報酬取得部202は、ステップS13において取得した状態St+1が望ましいものであるかを示す指標となる報酬rt+1を機器3から取得する(ステップS14)。
報酬rt+1は、行動a実行後の時間t+1における状態St+1に対して設定される値である。報酬rt+1は、定性的には、例えば、望ましい状態St+1に対しては正の報酬が設定され、望ましくない状態St+1に対しては負の報酬が設定される。
次に、記憶処理部203及び削除処理部204は、状態Sと、報酬rt+1と、行動aと、次の状態St+1とを関連付けた経験データ(S,rt+1,a,St+1)の記憶処理を実行する(ステップS15)。
具体的な記憶処理(ステップS15)の流れについては、図3を参照しながら説明する。まず、記憶処理部203は、図3に示すように、実行した行動aに関連付けられた記憶部21に上限まで経験データが記憶されているか否かを判断する(ステップS150A)。
例えば、機器3が実行した行動aが複数の記憶部21のうち記憶部21_1と関連付けられている場合、記憶処理部203は、記憶部21_1に上限まで経験データが記憶されているか否かを判断する。
記憶部21_1に上限まで経験データが記憶されている場合(ステップS150A)、削除処理部204は、記憶部21_1に記憶されている経験データのうち、最も古い経験データを削除する(ステップS150B)。
そして、記憶処理部203は、新たな経験データ(S,rt+1,a,St+1)を記憶部21_1に記憶し(ステップS150C)、図2のフローチャートに戻る。
一方、記憶部21_1に上限まで経験データが記憶されていない場合(ステップS150A:NO)、記憶処理部203は、新たな経験データ(S,rt+1,a,St+1)を記憶部21_1に記憶し(ステップS150C)、図2のフローチャートに戻る。
次に、図2に示すように、学習部205は、複数の記憶部21それぞれから所定数ずつ経験データをランダムに選択して学習データとして取り出す。なお、所定数は記憶部21別に異なる値が設定されていてもよい。また、学習部205は、複数の記憶部21それぞれから同数ずつ学習データを選択してもよい。このとき、記憶部21に所定数の経験データが蓄積されていない場合は、全ての経験データを学習データとして取り出してもよい。
そして、学習部205は、取り出した学習データについて、以下の式(1)を用いてTD誤差を算出する(ステップS16)。
Figure 0007016295000001
式(1)の1項目は、ある時間tにおいて行った行動aに対し得られた報酬rt+1(行動a実行後の状態St+1に対する報酬rt+1)を示す。
式(1)の2項目は、次の時間t+1における複数の行動のうち、最も行動価値が高いものを示す。なお、γは割引率であり、0から1の間の任意の値が設定される(例えば0.9等)。例えば機器3が目標となる状態に達した時点における報酬が最大であり、この時点から過去に遡るほど価値が減衰するように割引率が設定される。
式(1)の3項目は、時間tにおいて行った行動aに対する行動価値である。
また、θは、ある時点において学習部205が設定した重みθの値で固定した値である。TD誤差はニューラルネットワークの重みθに依存し、収束が安定しない。このため、式(1)では、ある時点における重みθの値に固定されたθを使用し、一定周期毎にθを更新する。
次に、学習部205は、算出したTD誤差に基づいて、行動価値関数Q(S,a;θ)を更新する(ステップS17)。
本実施形態では、学習部205は、学習モードにおいて、行動選択部200が理想的な行動(行動価値が最大となる行動)を選択できるように、勾配降下法、Adam等の既存の技術を利用して行動価値関数Q(S,a;θ)の重みθを更新する。
次に、学習部205は、前回θを更新してから所定期間が経過したか判断する(ステップS18)。
例えば、学習部205は、前回θを更新してからn回以上学習(行動価値関数Qの更新)を実行した場合、所定期間を経過したと判断する。このとき、n回は問題設定に応じて、すなわち観測対象となる状態数や遷移数、行動の種類や数など、データとして得られる数値にどの程度バリエーションが存在するかという問題の難しさに応じて、任意の値が設定される。
学習部205は、前回θを更新してか所定期間が経過している場合(ステップS18:YES)、上述の式(1)で用いられる行動価値関数Q(S,a;θ)の重みθ-の値を、ステップS17で更新された重みθの値で更新する(ステップS19)。
一方、学習部205は、前回θを更新してか所定期間が経過していない場合(ステップS18:NO)、ステップS10に戻る。
また、現在のモードが学習モード以外である(ステップS11:NO)場合について説明する。
このとき、行動選択部200は、現在の状態Sにおいて取り得る複数の行動のうち、ステップS10において演算された行動価値が最大となる行動aを選択する(ステップS20)。
次に、状態取得部201は、行動aを実行した後(次の時間t+1)の機器3の状態St+1を取得し(ステップS21)、ステップS10に戻る。
(作用効果)
以上のように、本実施形態に係る意思決定装置2は、第1の状態Sにおいて取り得る複数の行動のうち何れか一つを選択して環境に実行させる行動選択部200と、行動aを実行した後の状態を示す第2の状態St+1を取得する状態取得部201と、第2の状態St+1が望ましいものであるかを示す指標となる報酬rt+1を取得する報酬取得部202と、第1の状態Sと、行動aと、第2の状態St+1と、報酬rt+1とを関連付けた経験データを、複数の記憶部21のうち行動aと関連付けられた記憶部21に記憶する記憶処理部203と、を備える。
従来の技術では、全ての行動に対する経験データが一つの記憶部にまとめて記憶されていた。このため、従来の技術では、実行回数の少ない行動の経験データが、実行回数の多い行動の経験データにより上書きされてしまう可能性がある。そうすると、記憶部には実行回数の多い行動の経験データばかりが偏って蓄積されてしまい、行動価値関数の学習精度が低下する。
しかしながら、本実施形態に係る意思決定装置2は、行動別に異なる記憶部21に経験データを記憶するので、実行回数の少ない行動の経験データが、実行回数の多い行動の経験データにより上書きされることがない。これにより、記憶部21に記憶される経験データが、行動の選択頻度の多寡に応じて偏ってしまうことを抑制することができる。
また、意思決定装置2は、記憶部21に記憶された経験データの量が上限値に達している場合、最も古い経験データを削除する削除処理部204を更に備える。
上述のように、意思決定装置2は、行動別に異なる記憶部21に経験データを記憶するので、FIFO方式でデータを削除したとしても、実行回数の少ない行動の経験データは上限値に達するまで削除されることはない。これにより、意思決定装置2は、簡易なアルゴリズムで記憶部21それぞれの経験データ量を調整することができる。
また、意思決定装置2は、複数の記憶部21それぞれから所定数ずつ経験データをランダムに選択して学習データとして取り出し、当該学習データに基づいて第1の状態Sにおいて最も価値の高い行動aを推測するための学習モデル(行動価値関数)を更新する学習部205を更に備える。
このようにすることで、学習部205は、複数の行動それぞれと関連付けられた経験データを偏りなく選択して学習することができる。
また、学習部205は、複数の記憶部21それぞれから同数ずつ経験データを選択して学習データとして取り出してもよい。
このようにすることで、学習部205は、複数の行動それぞれの実行回数の多寡にかかわらず、各行動と関連付けられた経験データを偏りなく選択して、全ての行動を均等に学習することができる。
また、学習部205は、記憶部21に記憶されている経験データが所定数に満たない場合、全ての経験データを学習データとして取り出してもよい。
このようにすることで、学習部205は、例えば学習の初期においてある行動の実行回数が少ない場合であっても、当該行動について学習することができる。
<第2の実施形態>
次に、本発明の第2の実施形態に係る無人システム1について説明する。
第1の実施形態と共通の構成要素には同一の符号を付して詳細説明を省略する。
なお、本実施形態では、記憶処理部203の機能が第1の実施形態とは異なっている。
本実施形態に係る記憶処理部203は第1の状態Sと、行動aと、第2の状態St+1と、報酬rt+1とを関連付けた経験データ(S,rt+1,a,St+1)を、複数の記憶部21のうち報酬rt+1と関連付けられた記憶部21に記憶する。
本実施形態では、報酬取得部202が機器3から取得する報酬は離散値(例えば値1又は値2)であるとする。この場合、記憶処理部203は、予め報酬の値別に記憶部21_1及び21_2それぞれを割り当てる。そして、記憶処理部203は、取得した報酬の値別に割り当てられた記憶部21に経験データを記憶する処理を行う。
具体的には、記憶処理部203は、図2のステップS15の記憶処理として、図3に示す処理に代えて、図4に示す処理を実行する。
(処理フロー)
図4は、第2の実施形態に係る意思決定装置における記憶処理の一例を示すフローチャートである。
図4に示すように、記憶処理部203は、図2のステップS14において取得した報酬rt+1に関連付けられた記憶部21に上限まで経験データが記憶されているか否かを判断する(ステップS151A)。
例えば、ステップS14において取得した報酬rt+1が「値1」であった場合、記憶処理部203は、報酬rt+1の値「値1」に関連付けられた記憶部21_1に上限まで経験データが記憶されているか否かを判断する。
記憶部21_1に上限まで経験データが記憶されている場合(ステップS151A)、削除処理部204は、記憶部21_1に記憶されている経験データのうち、最も古い経験データを削除する(ステップS151B)。
そして、記憶処理部203は、新たな経験データ(S,rt+1,a,St+1)を記憶部21_1に記憶し(ステップS151C)、図3のフローチャートに戻る。
一方、記憶部21_1に上限まで経験データが記憶されていない場合(ステップS151A:NO)、記憶処理部203は、新たな経験データ(S,rt+1,a,St+1)を記憶部21_1に記憶し(ステップS151C)、図3のフローチャートに戻る。
なお、上記説明において、報酬取得部202が取得する報酬が離散値であり、記憶処理部203が報酬の値別に一つの記憶部21を割り当てる態様を例として説明したが、これに限られることはない。
他の実施形態では、記憶処理部203は、一つの記憶部21に対し、複数の報酬の値を割り当てるようにしてもよい。例えば報酬の値が1~10の10段階である場合、記憶処理部203は、値1~5を第1の値帯(低報酬となる値の範囲)として記憶部21_1に割り当て、値6~10を第2の値帯(高報酬となる値の範囲)として記憶部21_2に割り当てるようにしてもよい。
更に他の実施形態では、報酬取得部202が機器3から取得する報酬は、所定の報酬演算式に基づく連続値であってもよい。この場合、記憶処理部203は、報酬の値帯別に割り当てられた記憶部21に経験データを記憶してもよい。具体的には、記憶処理部203は、例えば報酬の取り得る値が0~1であるとすると、報酬取得部202が取得した報酬rt+1の値が0.0以上0.1未満の場合は記憶部21_1に経験データを記憶し、0.1以上0.2未満の場合は記憶部21_2に経験データを記憶するようにしてもよい。このようにすることで、例えば報酬の値が連続値であり、且つイベント別に異なる値が設定されている場合であっても、記憶処理部203は、報酬の値帯別に偏りなく経験データを記憶することができる。これにより、記憶処理部203は、発生頻度が低いものの重要なイベント(例えば目的を達成したというイベント)があった場合、このイベントに関する経験データをより確実に記憶することができる。
また、機器3は状態S別、又は行動a別に異なる報酬演算式に基づいて報酬rt+1を演算し、報酬取得部202は、報酬rt+1とともに演算に用いた報酬演算式を機器3から取得するようにしてもよい。この場合、記憶処理部203は、報酬演算識別に割り当てられた記憶部21に経験データを記憶してもよいし、報酬の値帯別に割り当てられた記憶部21に経験データを記憶してもよい。記憶処理部203は、報酬演算式別に記憶部21を分けることにより、例えば行動の結果として発生したイベント別に異なる報酬演算式を用いた場合であっても、報酬演算式別に経験データをサンプリングすることができる。これにより、発生頻度の低いイベント(即ち、使用頻度の少ない演算式)に関する経験データが、発生頻度の多いイベントに関する経験データにより上書きされることがないので、経験データの偏りを抑制することができる。
(作用効果)
以上のように、本実施形態に係る記憶処理部203は、行動aと、第2の状態St+1と、報酬rt+1とを関連付けた経験データを、複数の記憶部21のうち報酬rt+1と関連付けられた記憶部21に記憶する。
通常、強化学習において高い報酬を得る機会は少なく設定されることが多く、高い報酬に関連付けられた経験データを蓄積しづらい。また、従来の技術では、高い報酬に関連付けられた経験データが、低い報酬に関連付けられた経験データにより上書きされてしまう可能性がある。このため、従来の技術では、低い報酬に関連付けられた経験データばかりが偏って記憶されてしまう可能性がある。
しかしながら、本実施形態に係る意思決定装置2は、報酬別に異なる記憶部21に経験データを記憶するので、高い報酬に関連付けられた経験データが、低い報酬に関連付けられた経験データにより上書きされることがない。これにより、高い報酬に関連付けられた経験データの獲得頻度が低い場合であっても、記憶部21に記憶される経験データが偏ってしまうことを抑制することができる。
また、記憶処理部203は、報酬の値別に関連付けられた記憶部21に経験データを記憶する。
このようにすることで、例えば報酬の値が離散値である場合、記憶処理部203は、報酬の値別に偏りなく経験データを記憶することができる。
また、報酬取得部202は、報酬とともに当該報酬の演算に用いた報酬演算式を取得し、記憶処理部203は、報酬演算式別に関連付けられた記憶部21に経験データを記憶する。
このようにすることで、例えば機器3において複数の報酬演算式を用いて報酬を演算している場合であっても、記憶処理部203は、報酬演算式別に経験データをサンプリングすることができる。
また、記憶処理部203は、報酬の値帯別に関連付けられた記憶部21に経験データを記憶する。
このようにすることで、例えば報酬の値が連続値である場合、記憶処理部203は、報酬の値帯別に偏りなく経験データを記憶することができる。
また、削除処理部204は、記憶部21に記憶された経験データの量が上限値に達している場合、最も古い経験データを削除する。
上述のように、意思決定装置2は、報酬別に異なる記憶部21に経験データを記憶するので、FIFO方式でデータを削除したとしても、高い報酬に関連付けられた経験データは上限値に達するまで削除されることはない。これにより、意思決定装置2は、簡易なアルゴリズムで記憶部21それぞれの経験データ量を調整することができる。
<第3の実施形態>
次に、本発明の第3の実施形態に係る無人システム1について説明する。
第1及び第2の実施形態と共通の構成要素には同一の符号を付して詳細説明を省略する。
なお、本実施形態では、削除処理部204の機能が第1及び第2の実施形態とは異なっている。
本実施形態に係る削除処理部204は、記憶部21に記憶された経験データの量が上限値に達している場合、最も多く学習に使用された経験データを削除する。
具体的には、削除処理部204は、図2のステップS15の記憶処理として、図3又は図4に示す処理に代えて、図5に示す処理を実行する。
(処理フロー)
図5は、第3の実施形態に係る意思決定装置における記憶処理の一例を示すフローチャートである。
図5に示すように、記憶処理部203は、記憶部21に上限まで経験データが記憶されているか否かを判断する(ステップS152A)。
なお、本実施形態に係る削除処理部204を第1の実施形態に適用した場合、ステップS152Aの処理は、図3のステップS150Aの処理と同様である。また、本実施形態に係る削除処理部204を第2の実施形態に適用した場合、ステップS152Aの処理は、図4のステップS151Aの処理と同様である。
なお、以下の例では、記憶処理の対象となる経験データが記憶部21_1に関連付けられているものとする。
記憶部21_1に上限まで経験データが記憶されている場合(ステップS152A)、削除処理部204は、記憶部21_1に記憶されている経験データのうち、最も使用回数の多い経験データを削除する(ステップS152B)。なお、学習部205は、図2のステップS16において経験データを学習データとして選択する度に、経験データの使用回数を記録しているものとする。
そして、記憶処理部203は、新たな経験データ(S,rt+1,a,St+1)を記憶部21_1に記憶し(ステップS152C)、図2のフローチャートに戻る。
一方、記憶部21_1に上限まで経験データが記憶されていない場合(ステップS152A:NO)、記憶処理部203は、新たな経験データ(S,rt+1,a,St+1)を記憶部21_1に記憶し(ステップS152C)、図2のフローチャートに戻る。
(作用効果)
以上のように、本実施形態に係る削除処理部204は、記憶部21に記憶された経験データの量が上限値に達している場合、最も多く学習に使用された経験データを削除する。
このようにすることで、意思決定装置2は、記憶部21には学習の頻度が低い経験データを残すことができるので、学習に使用される経験データの偏りを抑制することができる。
<第4の実施形態>
次に、第1~第3の実施形態で説明した意思決定装置2を無人航空機(AAV:Automated Aerial Vehicle)の自動運転に適用した具体例を示す。以下、第1の実施形態に係る意思決定装置2をAAV3´に適用した例について説明する。
図6は、第4の実施形態に係る無人システムの一例を示す図である。
図6に示すように、本実施形態に係る無人システム1は、AAV3´と、意思決定装置2とを備えている。本実施形態では、意思決定装置2はAAV3´に搭載されているものとする。
また、AAV3´には、AAV3´の状態を計測するためのセンサ30が設けられている。センサ30は、例えば、AAV3´の状態として位置情報(緯度、経度、高度)、姿勢を計測するGPS、ジャイロセンサ、加速度センサ等である。
図7は、第4の実施形態に係る無人システムの機能を説明するための図である。
以下、図2及び図7を参照しながら、AAV3´に適用された意思決定装置2における学習処理について説明する。
図2に示すように、まず、意思決定装置2の行動選択部200は、現在のAAV3´の状態において取り得る各行動について、行動価値関数Q(S,a;θ)に基づいて行動価値を演算する(ステップS10)。
図7に示すように、AAV3´は、例えば「a1(前進)」、「a2(左旋回)」、「a3(右旋回)」、「a4(急速左旋回)」、「a5(急速右旋回)」、「a6(離陸)」、及び「a7(着陸)」の7つの行動を実行可能であるとする。また、現在の時間tにおけるAAV3´の状態Stは図7の(a)に示す状態であるとする。この場合、行動選択部200は、状態Stにおいて取り得る全ての行動a1~a7に対する行動価値を演算する。
次に、行動選択部200は、現在の意思決定装置2のモードが学習モードであるか否かを判断する(ステップS11)。
行動選択部200は、現在のモードが学習モードである場合(ステップS11:YES)、ステップS12~S19の処理を実行する。
一方、行動選択部200は、現在のモードが学習モードではない場合(ステップS11:NO)、ステップS20~S21の処理を実行する。
まず、現在のモードが学習モードである(ステップS11:YES)場合について説明する。
このとき、行動選択部200は、現在の状態Sにおいて取り得る複数の行動のうち何れか一つの行動aを選択する(ステップS12)。
次に、状態取得部201は、行動aを実行した後(次の時間t+1)のAAV3´の状態St+1を取得する(ステップS13)。
例えば、状態Sにおいて、AAV3´が行動aとして行動a1(前進)を行った場合、図7の(b)に示す状態を、次の時間t+1におけるAAV3´の状態St+1(a1)として取得する。また、状態Sにおいて、AAV3´が行動aとして行動a7(着陸)を行った場合、図7の(c)に示す状態を、次の時間t+1におけるAAV3´の状態St+1(a7)として取得する。
次に、報酬取得部202は、ステップS13において取得した状態St+1が望ましいものであるかを示す指標となる報酬rt+1をAAV3´から取得する(ステップS14)。
例えば、AAV3´が指定された目的地に到達(着陸)することが目標である場合、報酬rt+1は、AAV3´が目的地に近づくと正の報酬が得られ、目的地から遠ざかる、目的地以外の場所に着陸した場合は負の報酬が得られるように設定される。
次に、記憶処理部203及び削除処理部204は、状態Sと、報酬rt+1と、行動aと、次の状態St+1とを関連付けた経験データ(S,rt+1,a,St+1)の記憶処理を実行する(ステップS15)。
例えば、図7の例のように、AAV3´が取り得る行動がa1~a7の7つである場合、意思決定装置2は行動a1~a7それぞれに関連付けられた複数の記憶部21_1~21_7を備えているものとする。そして、AAV3´が行動aとして行動a1(前進)を実行していた場合、記憶処理部203は、図3のステップS150A~S150Cの各処理を実行して、行動a1に関連付けられた記憶部21_1に経験データを記憶する。
なお、第2の実施形態に係る意思決定装置2をAAV3´に適用した場合、記憶処理部203は、図2のステップS15の記憶処理として、図4のステップS151A~S151Cの各処理を実行する。また、第3の実施形態に係る意思決定装置2をAAV3´に適用した場合、記憶処理部203は、図2のステップS15の記憶処理として、図5のステップS152A~S152Cの各処理を実行する。
次に、図2に示すように、学習部205は、複数の記憶部21それぞれから所定数ずつ経験データをランダムに選択して学習データとして取り出す。そして、学習部205は、取り出した学習データについて、上述の式(1)を用いてTD誤差を算出する(ステップS16)。
ここで、式(1)の2項目における割引率γは、例えばAAV3´が目的地に到達した時点における報酬が最大であり、この時点から過去に遡るほど価値が減衰するように割引率が設定される。
次に、学習部205は、算出したTD誤差に基づいて、行動価値関数Q(S,a;θ)を更新する(ステップS17)。
次に、学習部205は、前回θを更新してから所定期間が経過したか判断する(ステップS18)。
学習部205は、前回θを更新してか所定期間が経過している場合(ステップS18:YES)、上述の式(1)で用いられる行動価値関数Q(S,a;θ)の重みθ-の値を、ステップS17で更新された重みθの値で更新する(ステップS19)。
一方、学習部205は、前回θを更新してか所定期間が経過していない場合(ステップS18:NO)、ステップS10に戻る。
また、現在のモードが学習モード以外である(ステップS11:NO)場合について説明する。
このとき、行動選択部200は、現在の状態Sにおいて取り得る複数の行動a1~a7のうち、ステップS10において演算された行動価値が最大となる行動を行動aとして選択する(ステップS20)。
次に、状態取得部201は、行動aを実行した後(次の時間t+1)のAAV3´の状態St+1を取得し(ステップS21)、ステップS10に戻る。
(作用効果)
以上のように、本実施形態に係る意思決定装置2は、AAV3´に搭載される。
このようにすることで、AAV3´は、学習モードにおいては自動的に最善の行動を学習し、学習モード以外のモードにおいては、学習した学習モデル(行動価値関数)に基づいて、最善の行動を推定、選択して自動的に実行することができる。
(ハードウェア構成)
図8は、少なくとも一つの実施形態に係る意思決定装置のハードウェア構成の一例を示す図である。
以下、図8を参照して、意思決定装置2のハードウェア構成の一例について説明する。
図8に示すように、コンピュータ900は、CPU901、主記憶装置902、補助記憶装置903、インタフェース904を備える。
上述の意思決定装置2は、コンピュータ900に実装される。そして、上述した各処理部の動作は、プログラムの形式で補助記憶装置903に記憶されている。CPU901(CPU20)は、プログラムを補助記憶装置903から読み出して主記憶装置902に展開し、当該プログラムに従って上記処理を実行する。また、CPU901は、プログラムに従って、意思決定装置2が各種処理に用いる記憶領域を主記憶装置902に確保する。また、CPU901は、プログラムに従って、処理中のデータを記憶する記憶領域(記憶部21)を補助記憶装置903に確保する。
補助記憶装置903の例としては、HDD(Hard Disk Drive)、SSD(Solid State Drive)、磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read Only Memory)、DVD-ROM(Digital Versatile Disc Read Only Memory)、半導体メモリ等が挙げられる。補助記憶装置903は、コンピュータ900のバスに直接接続された内部メディアであってもよいし、インタフェース904又は通信回線を介してコンピュータ900に接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ900に配信される場合、配信を受けたコンピュータ900が当該プログラムを主記憶装置902に展開し、上記処理を実行してもよい。少なくとも1つの実施形態において、補助記憶装置903は、一時的でない有形の記憶媒体である。
また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。
更に、当該プログラムは、前述した機能を補助記憶装置903に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、本発明の実施形態について詳細に説明したが、本発明の技術的思想を逸脱しない限り、これらに限定されることはなく、多少の設計変更等も可能である。
例えば、上述の実施形態において、意思決定装置2をAAV3´に適用した態様について説明したが、これに限られることはない。例えば、他の実施形態では、意思決定装置2は、無人で動作する様々な機器に適用されてもよく、例えばロボットアーム、産業用ロボット、自動運転を行う自動車及び運搬車等に適用されてもよい。
また、上述の実施形態において、意思決定装置2の報酬取得部202が機器3(AAV3´)から報酬を取得する態様について説明したが、これに限られることはない。報酬取得部202は、観測対象となる機器3に応じた報酬演算式を予め記憶しておき、報酬演算式を用いて機器3の行動aに対する報酬を演算して取得するようにしてもよい。
1 無人システム
2 意思決定装置
20 CPU
21 記憶部
200 行動選択部
201 状態取得部
202 報酬取得部
203 記憶処理部
204 削除処理部
205 学習部
3 機器
3’ 無人航空機(AAV)
30 センサ

Claims (15)

  1. 第1の状態において取り得る複数の行動のうち何れか一つを選択して環境に実行させる行動選択部と、
    前記行動を実行した後の状態を示す第2の状態を取得する状態取得部と、
    前記第2の状態が望ましいものであるかを示す指標となる報酬を取得する報酬取得部と、
    前記第1の状態と、前記行動と、前記第2の状態と、前記報酬とを関連付けた経験データを、複数の記憶部のうち前記行動と関連付けられた記憶部に記憶する記憶処理部と、
    を備える意思決定装置。
  2. 第1の状態において取り得る複数の行動のうち何れか一つを選択して環境に実行させる行動選択部と、
    前記行動を実行した後の状態を示す第2の状態を取得する状態取得部と、
    前記第2の状態が望ましいものであるかを示す指標となる報酬を取得する報酬取得部と、
    前記第1の状態と、前記行動と、前記第2の状態と、前記報酬とを関連付けた経験データを、複数の記憶部のうち前記報酬と関連付けられた記憶部に記憶する記憶処理部と、
    を備える意思決定装置。
  3. 前記記憶処理部は、前記報酬の値別に関連付けられた前記記憶部に前記経験データを記憶する、
    請求項2に記載の意思決定装置。
  4. 前記報酬取得部は、前記報酬とともに当該報酬の演算に用いた演算式を取得し、
    前記記憶処理部は、前記報酬の演算式別に関連付けられた前記記憶部に前記経験データを記憶する、
    請求項2に記載の意思決定装置。
  5. 前記記憶処理部は、前記報酬の値帯別に関連付けられた前記記憶部に前記経験データを記憶する、
    請求項2に記載の意思決定装置。
  6. 前記記憶部に記憶された前記経験データの量が上限値に達している場合、最も古い経験データを削除する削除処理部を更に備える、
    請求項1から5の何れか一項に記載の意思決定装置。
  7. 前記記憶部に記憶された前記経験データの量が上限値に達している場合、最も多く学習に使用された経験データを削除する削除処理部を更に備える、
    請求項1から5の何れか一項に記載の意思決定装置。
  8. 複数の前記記憶部それぞれから所定数ずつ前記経験データをランダムに選択して学習データとして取り出し、当該学習データに基づいて前記第1の状態において最も価値の高い行動を推測するための学習モデルを更新する学習部を更に備える、
    請求項1から7の何れか一項に記載の意思決定装置。
  9. 前記学習部は、複数の前記記憶部それぞれから同数ずつ前記経験データを選択して前記学習データとして取り出す、
    請求項8に記載の意思決定装置。
  10. 前記学習部は、前記記憶部に記憶されている前記経験データが前記所定数に満たない場合、全ての前記経験データを前記学習データとして取り出す、
    請求項8又は9に記載の意思決定装置。
  11. 請求項1から10の何れか一項に記載の意思決定装置を備える無人システム。
  12. 第1の状態において取り得る複数の行動のうち何れか一つを選択して環境に実行させるステップと、
    前記行動を実行した後の状態を示す第2の状態を取得するステップと、
    前記第2の状態が望ましいものであるかを示す指標となる報酬を取得するステップと、
    前記第1の状態と、前記行動と、前記第2の状態と、前記報酬とを関連付けた経験データを、複数の記憶部のうち前記行動と関連付けられた記憶部に記憶するステップと、
    を有する意思決定方法。
  13. 意思決定装置のコンピュータを機能させるプログラムであって、前記コンピュータに、
    第1の状態において取り得る複数の行動のうち何れか一つを選択して環境に実行させるステップと、
    前記行動を実行した後の状態を示す第2の状態を取得するステップと、
    前記第2の状態が望ましいものであるかを示す指標となる報酬を取得するステップと、
    前記第1の状態と、前記行動と、前記第2の状態と、前記報酬とを関連付けた経験データを、複数の記憶部のうち前記行動と関連付けられた記憶部に記憶するステップと、
    を実行させるプログラム。
  14. 第1の状態において取り得る複数の行動のうち何れか一つを選択して環境に実行させるステップと、
    前記行動を実行した後の状態を示す第2の状態を取得するステップと、
    前記第2の状態が望ましいものであるかを示す指標となる報酬を取得するステップと、
    前記第1の状態と、前記行動と、前記第2の状態と、前記報酬とを関連付けた経験データを、複数の記憶部のうち前記報酬と関連付けられた記憶部に記憶するステップと、
    を有する意思決定方法。
  15. 意思決定装置のコンピュータを機能させるプログラムであって、前記コンピュータに、
    第1の状態において取り得る複数の行動のうち何れか一つを選択して環境に実行させるステップと、
    前記行動を実行した後の状態を示す第2の状態を取得するステップと、
    前記第2の状態が望ましいものであるかを示す指標となる報酬を取得するステップと、
    前記第1の状態と、前記行動と、前記第2の状態と、前記報酬とを関連付けた経験データを、複数の記憶部のうち前記報酬と関連付けられた記憶部に記憶するステップと、
    を実行させるプログラム。
JP2018123527A 2018-06-28 2018-06-28 意思決定装置、無人システム、意思決定方法、及びプログラム Active JP7016295B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018123527A JP7016295B2 (ja) 2018-06-28 2018-06-28 意思決定装置、無人システム、意思決定方法、及びプログラム
PCT/JP2019/023869 WO2020004103A1 (ja) 2018-06-28 2019-06-17 意思決定装置、無人システム、意思決定方法、及びプログラム
US17/046,492 US20210133566A1 (en) 2018-06-28 2019-06-17 Decision-making device, unmanned system, decision-making method, and program
EP19827543.0A EP3816876A4 (en) 2018-06-28 2019-06-17 DECISION MACHINE, UNMANNED SYSTEM, DECISION PROCESS AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018123527A JP7016295B2 (ja) 2018-06-28 2018-06-28 意思決定装置、無人システム、意思決定方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020004120A JP2020004120A (ja) 2020-01-09
JP7016295B2 true JP7016295B2 (ja) 2022-02-04

Family

ID=68986481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018123527A Active JP7016295B2 (ja) 2018-06-28 2018-06-28 意思決定装置、無人システム、意思決定方法、及びプログラム

Country Status (4)

Country Link
US (1) US20210133566A1 (ja)
EP (1) EP3816876A4 (ja)
JP (1) JP7016295B2 (ja)
WO (1) WO2020004103A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232445A1 (en) 2015-02-06 2016-08-11 Google Inc. Distributed training of reinforcement learning systems
JP2018005739A (ja) 2016-07-06 2018-01-11 株式会社デンソー ニューラルネットワークの強化学習方法及び強化学習装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9448887B1 (en) * 2015-08-22 2016-09-20 Weka.IO Ltd. Distributed erasure coded virtual file system
EP3360086A1 (en) * 2015-11-12 2018-08-15 Deepmind Technologies Limited Training neural networks using a prioritized experience memory
US10733531B2 (en) * 2016-01-27 2020-08-04 Bonsai AI, Inc. Artificial intelligence engine having an architect module
US10204097B2 (en) * 2016-08-16 2019-02-12 Microsoft Technology Licensing, Llc Efficient dialogue policy learning
JP6817832B2 (ja) 2017-01-31 2021-01-20 三協立山株式会社 機能ポール
US9754221B1 (en) * 2017-03-09 2017-09-05 Alphaics Corporation Processor for implementing reinforcement learning operations
WO2018211139A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Training action selection neural networks using a differentiable credit function
WO2019050952A1 (en) * 2017-09-05 2019-03-14 Brandeis University SYSTEMS, METHODS, AND MEDIA FOR DISTRIBUTING DATABASE INTERROGATIONS THROUGH A PAYING VIRTUAL NETWORK
CN111316295B (zh) * 2017-10-27 2023-09-22 渊慧科技有限公司 使用分布式优先化回放的强化学习
CN108108822B (zh) * 2018-01-16 2020-06-26 中国科学技术大学 并行训练的异策略深度强化学习方法
US20190310592A1 (en) * 2018-04-09 2019-10-10 Diveplane Corporation Computer based reasoning and artificial intelligence systems
US20190339087A1 (en) * 2018-05-03 2019-11-07 Didi Research America, Llc Deep reinforcement learning for optimizing carpooling policies

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232445A1 (en) 2015-02-06 2016-08-11 Google Inc. Distributed training of reinforcement learning systems
JP2018005739A (ja) 2016-07-06 2018-01-11 株式会社デンソー ニューラルネットワークの強化学習方法及び強化学習装置

Also Published As

Publication number Publication date
WO2020004103A1 (ja) 2020-01-02
EP3816876A1 (en) 2021-05-05
EP3816876A4 (en) 2022-03-23
JP2020004120A (ja) 2020-01-09
US20210133566A1 (en) 2021-05-06

Similar Documents

Publication Publication Date Title
US11886988B2 (en) Method for adaptive exploration to accelerate deep reinforcement learning
JP5171118B2 (ja) 演算処理装置及びその制御方法
EP3593292A1 (en) Training action selection neural networks
JP6309546B2 (ja) 操作のための残り時間の推定
JP2018005739A (ja) ニューラルネットワークの強化学習方法及び強化学習装置
JP5320985B2 (ja) 予測システム、予測方法および予測プログラム
JP6259428B2 (ja) 機械指令に応じたフィルタを学習する機械学習装置、機械学習装置を備えたモータ駆動装置及びモータ駆動システム並びに機械学習方法
KR102038703B1 (ko) 동적 전이 앙상블 모형을 통한 실시간 다변량 시계열 예측방법 및 그 시스템
JP7016295B2 (ja) 意思決定装置、無人システム、意思決定方法、及びプログラム
JP5220542B2 (ja) 制御器、制御方法及び制御プログラム
Lupton et al. Removing scale biases and ambiguity from 6DoF monocular SLAM using inertial
KR20220151257A (ko) 강화 학습 및 가우시안 프로세스 회귀 기반 하이퍼 파라미터 최적화
US11692846B2 (en) Map presentation device
JP6984597B2 (ja) 線形パラメータ変動モデル推定システム、方法およびプログラム
JP6222822B2 (ja) 劣化関数算出装置、劣化率推定システム、劣化関数算出方法、及びプログラム
JP2022172503A (ja) 衛星観測計画立案システム、衛星観測計画立案方法、および衛星観測計画立案プログラム
US10282707B2 (en) Scheduling business process
JP2017161420A (ja) 軌道計算装置及び軌道計算プログラム
JP3616029B2 (ja) 追尾装置
JP2019179486A5 (ja)
JP7428288B1 (ja) プラント応答推定装置、プラント応答推定方法、及びプログラム
JP6912760B2 (ja) 関連情報改善装置、関連情報改善方法、および関連情報改善プログラム
WO2021009852A1 (ja) 推定装置、制御システム、推定方法及びプログラム
WO2022049672A1 (ja) 学習装置、学習方法、制御システムおよび記録媒体
CN117268381B (zh) 一种航天器状态的判断方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220125