JP7331837B2 - 情報処理装置および情報処理方法 - Google Patents
情報処理装置および情報処理方法 Download PDFInfo
- Publication number
- JP7331837B2 JP7331837B2 JP2020509719A JP2020509719A JP7331837B2 JP 7331837 B2 JP7331837 B2 JP 7331837B2 JP 2020509719 A JP2020509719 A JP 2020509719A JP 2020509719 A JP2020509719 A JP 2020509719A JP 7331837 B2 JP7331837 B2 JP 7331837B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- action value
- unit
- information processing
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 129
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000004364 calculation method Methods 0.000 claims description 83
- 230000007812 deficiency Effects 0.000 claims description 22
- 239000000284 extract Substances 0.000 claims description 4
- 230000002950 deficient Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 33
- 230000006870 function Effects 0.000 description 29
- 230000000875 corresponding effect Effects 0.000 description 25
- 230000007613 environmental effect Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 20
- 230000003542 behavioural effect Effects 0.000 description 14
- 230000002787 reinforcement Effects 0.000 description 14
- 230000033001 locomotion Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000001276 controlling effect Effects 0.000 description 6
- 238000000034 method Methods 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/048—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/0098—Details of control systems ensuring comfort, safety or stability not otherwise provided for
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0015—Planning or execution of driving tasks specially adapted for safety
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0021—Planning or execution of driving tasks specially adapted for travel time
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0268—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
- G05D1/0274—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0022—Gains, weighting coefficients or weighting functions
- B60W2050/0024—Variable gains
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0062—Adapting control system settings
- B60W2050/0075—Automatic parameter input, automatic initialising or calibrating means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Remote Sensing (AREA)
- Transportation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Robotics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Manipulator (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
1.実施形態
1.1.概要
1.2.情報処理装置10の機能構成例
1.3.第2の行動価値の算出
1.4.第1の行動価値の過不足に係るフィードバック
2.ハードウェア構成例
3.まとめ
<<1.1.概要>>
まず、本開示の一実施形態の概要について述べる。上述したように、近年、強化学習により取得した行動価値に基づいて自律的動作を行う種々の動作体が開発されている。上記のような動作体は、学習時に定められた所定の目的を実現するための行動価値を学習し、当該行動価値に基づいて、種々の自律的動作を実現することが可能である。
次に、本実施形態に係る情報処理装置10の機能構成例について説明する。図2は、本実施形態に係る情報処理装置10の機能構成例を示すブロック図である。図2を参照すると、本実施形態に係る情報処理装置10は、強化学習部110、環境取得部120、比率計算部130、行動価値計算部140、動作部150、ログ保持部160、フィードバック部170、および出力部180を備える。
本実施形態に係る強化学習部110は、複数の目的(行動指標)に対応する複数の報酬に基づいて、複数の第1の行動価値を学習する機能を有する。本実施形態に係る強化学習部110は、学習した複数の第1の行動価値と、対応する行動指標とを比率計算部130および行動価値計算部140に出力する。
本実施形態に係る環境取得部120は、強化学習部110の学習結果の利用時に、情報処理装置10の動作に係る種々の環境を取得する機能を有する。また、本実施形態に係る環境取得部120は、目的が変化する要因である目的変化要因を取得する。環境取得部120は、取得した環境や目的変化要因に係る種々の環境パラメータを比率計算部130に出力する。本実施形態に係る環境取得部120が有する機能の詳細については別途後述する。
本実施形態に係る比率計算部130は、目的変化要因に基づいて、第2の行動価値の計算に用いられる比率を計算する機能を有する。具体的には、比率計算部130は、強化学習部110から入力された複数の第1の行動価値と、環境取得部120から入力された環境パラメータとに基づいて、複数の第1の行動価値のそれぞれに対する重みを計算する。比率計算部130は、計算した上記の重みを行動価値計算部140に出力する。
本実施形態に係る行動価値計算部140は、動作部150の振る舞いを決定する行動価値を計算する機能を有する。この際、本実施形態に係る行動価値計算部140は、異なる報酬に基づいて学習された複数の第1の行動価値と、取得された目的変化要因と、に基づいて、動作部150に入力する第2の行動価値を動的に計算すること、を特徴の一つとする。
本実施形態に係る動作部150は、行動価値計算部140が計算した第2の行動価値と、推定された動作環境とに基づいて、振る舞いを動的に変化させることを特徴の一つとする。なお、本実施形態に係る動作部150は、情報処理装置10の特性に応じた種々の動作を行うことができる。動作部150は、例えば、第2の行動価値に基づいて自動運転を制御してもよいし、ゲームにおける次のアクションを探索してもよい。
本実施形態に係るログ保持部160は、情報処理装置10の動作に係る各種のログを保持する機能を有する。本実施形態に係るログ保持部160は、例えば、環境パラメータや、第1の行動価値に設定された重み、計算された第2の行動価値、第2の行動価値に基づく動作部150の動作結果などを保持してよい。
本実施形態に係るフィードバック部170は、行動価値計算部140による第2の行動価値に係る計算結果に基づいて、複数の第1の行動価値に係る過不足を判定し、当該過不足に係る情報通知を制御する機能を有する。本実施形態に係るフィードバック部170が有する機能の詳細については別途後述する。
本実施形態に係る出力部180は、動作部150やフィードバック部170による制御に基づいて、種々の情報を出力する機能を有する。本実施形態に係る出力部180は、例えば、動作部150による制御に基づいて、目的変化要因と変化する振る舞いとに係る情報をユーザに対し通知する。また、出力部180は、例えば、フィードバック部170による制御に基づいて、第1の行動価値の過不足に係る情報を設計者などに通知する。
続いて、本実施形態に係る第2の行動価値の算出について詳細に説明する。上述したように、本実施形態に係る第2の行動価値とは、複数の報酬に基づいて学習された複数の第1の行動価値を足し合わせることで計算される行動価値である。
次に、本実施形態に係る第1の行動価値の過不足に係るフィードバックについて詳細に説明する。上述したように、本実施形態に係るフィードバック部170は、行動価値計算部140による第2の行動価値の計算結果に基づいて、第1の行動価値の過不足に係る情報通知を制御する機能を有する。
次に、本開示の一実施形態に係る情報処理装置10のハードウェア構成例について説明する。図16は、本開示の一実施形態に係る情報処理装置10のハードウェア構成例を示すブロック図である。図16を参照すると、情報処理装置10は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
以上説明したように、本開示の一実施形態に係る情報処理装置10は、動作部150の振る舞いを決定する行動価値を計算する行動価値計算部140を備える。また、行動価値計算部140は、異なる報酬に基づいて学習された複数の第1の行動価値と、取得された目的変化要因と、に基づいて、動作部150に入力する第2の行動価値を動的に計算することを特徴の一つとする。また、本開示の一実施形態に係る情報処理装置10は、異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部150の動作に関し、複数の上記行動価値に係る過不足を判定し、当該過不足に係る情報通知を制御するフィードバック部170を備える。係る構成によれば、目的の変更に追従した最適な動作を実現することが可能となる。
(1)
動作部の振る舞いを決定する行動価値を計算する行動価値計算部、
を備え、
前記行動価値計算部は、異なる報酬に基づいて学習された複数の第1の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第2の行動価値を動的に計算する、
情報処理装置。
(2)
前記行動価値計算部は、前記目的変化要因に基づいて決定された比率に基づいて、複数の前記第2の行動価値を動的に計算する、
前記(1)に記載の情報処理装置。
(3)
前記行動価値計算部は、前記目的変化要因に基づいて決定された複数の前記第1の行動価値ごとの重みに基づいて、複数の前記第1の行動価値を足し合わせることで前記第2の行動価値を動的に計算する、
前記(1)または(2)に記載の情報処理装置。
(4)
前記目的変化要因は、ユーザにより与えられる目的変更指示を含む、
前記(1)~(3)のいずれかに記載の情報処理装置。
(5)
前記目的変化要因は、前記動作部の動作環境の変化を含む、
前記(1)~(4)のいずれかに記載の情報処理装置。
(6)
前記目的変化要因は、コンテクストから推定される所定環境に前記動作環境が一致したこと、を含む、
前記(5)のいずれかに記載の情報処理装置。
(7)
前記目的変化要因は、ユーザが目的動作を設定した所定環境に前記動作環境が一致したこと、を含む、
前記(5)または(6)に記載の情報処理装置。
(8)
前記第2の行動価値と推定された動作環境とに基づいて振る舞いを動的に変化させる動作部、
をさらに含む、
前記(1)~(7)のいずれかに記載の情報処理装置。
(9)
前記動作部は、前記目的変化要因に基づいて前記第2の行動価値が変化した場合、前記目的変化要因と、前記第2の行動価値に基づいて変化する振る舞いとに係る情報をユーザに対し通知させる、
前記(8)に記載の情報処理装置。
(10)
取得された前記目的変化要因に基づいて、前記第2の行動価値の計算に用いられる比率を計算する比率計算部、
をさらに含む、
前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部の動作に関し、複数の前記行動価値に係る過不足を判定し、前記過不足に係る情報通知を制御するフィードバック部、
を備える、
情報処理装置。
(12)
前記動作部は、異なる報酬に基づいて学習された複数の第1の行動価値と、取得された環境に応じて決定された前記第1の行動価値ごとの重みと、に基づいて動的に計算された第2の行動価値に基づいて前記振る舞いを実行し、
前記フィードバック部は、前記第2の行動価値に係る計算結果に基づいて、複数の前記第1の行動価値に係る過不足を判定する、
前記(11)に記載の情報処理装置。
(13)
前記フィードバック部は、所定環境に対して設定された目的動作を実現する前記第2の行動価値が、複数の前記第1の行動価値から計算不能な場合、前記第1の行動価値の不足性に係る情報通知を実行させる、
前記(12)に記載の情報処理装置。
(14)
前記フィードバック部は、前記所定環境に対応する前記目的動作と、前記所定環境において計算された前記第2の行動価値との合致度を計算し、前記合致度が閾値を下回る場合、前記第1の行動価値の不足性に係る情報通知を実行させる、
前記(13)に記載の情報処理装置。
(15)
前記フィードバック部は、前記合致度が閾値を下回る前記所定環境に基づいて、不足する前記第1の行動価値を特定し、特定した前記第1の行動価値の不足性に係る情報通知を実行させる、
前記(14)に記載の情報処理装置。
(16)
前記フィードバック部は、前記合致度が閾値を下回る複数の前記所定環境に対応する複数の前記目的動作に共通する特徴を抽出し、前記特徴に基づいて不足する前記第1の行動価値を特定する、
前記(15)に記載の情報処理装置。
(17)
前記フィードバック部は、複数の別の前記第1の行動価値の組み合わせで表現可能な前記第1の行動価値を検出した場合、検出された前記第1の行動価値の過剰性に係る情報通知を実行させる、
前記(12)~(16)のいずれかに記載の情報処理装置。
(18)
前記フィードバック部は、複数の前記第1の行動価値と前記重みとに基づいて、複数の前記第1の行動価値の間の類似度を計算し、前記類似度が閾値を上回る前記第1の行動価値を検出した場合、検出された前記第1の行動価値の過剰性に係る情報通知を実行させる、
前記(17)に記載の情報処理装置。
(19)
プロセッサが、動作部の振る舞いを決定する行動価値を計算すること、
を含み、
前記計算することは、異なる報酬に基づいて学習された複数の第1の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第2の行動価値を動的に計算すること、
をさらに含む、
情報処理方法。
(20)
プロセッサが、異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部の動作結果に基づいて、複数の前記行動価値に係る過不足を判定し、前記過不足に係る情報通知を制御すること、
を含む、
情報処理方法。
110 強化学習部
120 環境取得部
130 比率計算部
140 行動価値計算部
150 動作部
160 ログ保持部
170 フィードバック部
180 出力部
Claims (20)
- 動作部の振る舞いを決定する行動価値を計算する行動価値計算部、
を備え、
前記行動価値計算部は、異なる報酬に基づいて学習された複数の第1の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第2の行動価値を動的に計算し、
前記目的変化要因は、ユーザにより与えられる目的変更指示を含む、
情報処理装置。 - 動作部の振る舞いを決定する行動価値を計算する行動価値計算部、
を備え、
前記行動価値計算部は、異なる報酬に基づいて学習された複数の第1の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第2の行動価値を動的に計算し、
前記目的変化要因は、前記動作部の動作環境の変化を含み、
前記目的変化要因は、ユーザが目的動作を設定した所定環境に前記動作環境が一致したこと、を含む、
情報処理装置。 - 動作部の振る舞いを決定する行動価値を計算する行動価値計算部、
を備え、
前記行動価値計算部は、異なる報酬に基づいて学習された複数の第1の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第2の行動価値を動的に計算し、
前記第2の行動価値と推定された動作環境とに基づいて振る舞いを動的に変化させる動作部、
をさらに含み、
前記動作部は、前記目的変化要因に基づいて前記第2の行動価値が変化した場合、前記目的変化要因と、前記第2の行動価値に基づいて変化する振る舞いとに係る情報をユーザに対し通知させる、
情報処理装置。 - 前記目的変化要因は、前記動作部の動作環境の変化を含み、
前記目的変化要因は、コンテクストから推定される所定環境に前記動作環境が一致したこと、を含む、
請求項1または3に記載の情報処理装置。 - 前記目的変化要因は、前記動作部の動作環境の変化を含み、
前記目的変化要因は、ユーザが目的動作を設定した所定環境に前記動作環境が一致したこと、を含む、
請求項1または3に記載の情報処理装置。 - 前記第2の行動価値と推定された動作環境とに基づいて振る舞いを動的に変化させる動作部、
をさらに含み、
前記動作部は、前記目的変化要因に基づいて前記第2の行動価値が変化した場合、前記目的変化要因と、前記第2の行動価値に基づいて変化する振る舞いとに係る情報をユーザに対し通知させる、
請求項1または2に記載の情報処理装置。 - 前記目的変化要因は、ユーザにより与えられる目的変更指示を含む、
請求項2または3に記載の情報処理装置。 - 前記行動価値計算部は、前記目的変化要因に基づいて決定された比率に基づいて、複数の前記第2の行動価値を動的に計算する、
請求項1から7のいずれか一項に記載の情報処理装置。 - 前記行動価値計算部は、前記目的変化要因に基づいて決定された複数の前記第1の行動価値ごとの重みに基づいて、複数の前記第1の行動価値を足し合わせることで前記第2の行動価値を動的に計算する、
請求項1から8のいずれか一項に記載の情報処理装置。 - 取得された前記目的変化要因に基づいて、前記第2の行動価値の計算に用いられる比率を計算する比率計算部、
をさらに含む、
請求項1から9のいずれか一項に記載の情報処理装置。 - 異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部の動作に関し、複数の前記行動価値に係る過不足を判定し、前記過不足に係る情報通知を制御するフィードバック部、
を備える、
情報処理装置。 - 前記動作部は、異なる報酬に基づいて学習された複数の第1の行動価値と、取得された環境に応じて決定された前記第1の行動価値ごとの重みと、に基づいて動的に計算された第2の行動価値に基づいて前記振る舞いを実行し、
前記フィードバック部は、前記第2の行動価値に係る計算結果に基づいて、複数の前記第1の行動価値に係る過不足を判定する、
請求項11に記載の情報処理装置。 - 前記フィードバック部は、所定環境に対して設定された目的動作を実現する前記第2の行動価値が、複数の前記第1の行動価値から計算不能な場合、前記第1の行動価値の不足性に係る情報通知を実行させる、
請求項12に記載の情報処理装置。 - 前記フィードバック部は、前記所定環境に対応する前記目的動作と、前記所定環境において計算された前記第2の行動価値との合致度を計算し、前記合致度が閾値を下回る場合、前記第1の行動価値の不足性に係る情報通知を実行させる、
請求項13に記載の情報処理装置。 - 前記フィードバック部は、前記合致度が閾値を下回る前記所定環境に基づいて、不足する前記第1の行動価値を特定し、特定した前記第1の行動価値の不足性に係る情報通知を実行させる、
請求項14に記載の情報処理装置。 - 前記フィードバック部は、前記合致度が閾値を下回る複数の前記所定環境に対応する複数の前記目的動作に共通する特徴を抽出し、前記特徴に基づいて不足する前記第1の行動価値を特定する、
請求項15に記載の情報処理装置。 - 前記フィードバック部は、複数の別の前記第1の行動価値の組み合わせで表現可能な前記第1の行動価値を検出した場合、検出された前記第1の行動価値の過剰性に係る情報通知を実行させる、
請求項12に記載の情報処理装置。 - 前記フィードバック部は、複数の前記第1の行動価値と前記重みとに基づいて、複数の前記第1の行動価値の間の類似度を計算し、前記類似度が閾値を上回る前記第1の行動価値を検出した場合、検出された前記第1の行動価値の過剰性に係る情報通知を実行させる、
請求項17に記載の情報処理装置。 - プロセッサが、動作部の振る舞いを決定する行動価値を計算すること、
を含み、
前記計算することは、異なる報酬に基づいて学習された複数の第1の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第2の行動価値を動的に計算すること、
をさらに含み、
前記目的変化要因は、ユーザにより与えられる目的変更指示を含む、
情報処理方法。 - プロセッサが、異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部の動作結果に基づいて、複数の前記行動価値に係る過不足を判定し、前記過不足に係る情報通知を制御すること、
を含む、
情報処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018057898 | 2018-03-26 | ||
JP2018057898 | 2018-03-26 | ||
PCT/JP2019/001989 WO2019187548A1 (ja) | 2018-03-26 | 2019-01-23 | 情報処理装置および情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019187548A1 JPWO2019187548A1 (ja) | 2021-05-13 |
JP7331837B2 true JP7331837B2 (ja) | 2023-08-23 |
Family
ID=68059013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020509719A Active JP7331837B2 (ja) | 2018-03-26 | 2019-01-23 | 情報処理装置および情報処理方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210018882A1 (ja) |
EP (1) | EP3779809A4 (ja) |
JP (1) | JP7331837B2 (ja) |
CN (1) | CN111868760A (ja) |
CA (1) | CA3094427A1 (ja) |
WO (1) | WO2019187548A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7048456B2 (ja) * | 2018-08-30 | 2022-04-05 | 本田技研工業株式会社 | 学習装置、学習方法、およびプログラム |
US11645498B2 (en) * | 2019-09-25 | 2023-05-09 | International Business Machines Corporation | Semi-supervised reinforcement learning |
US20230082326A1 (en) * | 2020-02-07 | 2023-03-16 | Deepmind Technologies Limited | Training multi-objective neural network reinforcement learning systems |
CN118192394B (zh) * | 2024-05-20 | 2024-09-03 | 贵州航天控制技术有限公司 | 一种测试系统指令中转定时方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000035956A (ja) | 1998-07-17 | 2000-02-02 | Japan Science & Technology Corp | エージェント学習装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6473851B1 (en) * | 1999-03-11 | 2002-10-29 | Mark E Plutowski | System for combining plurality of input control policies to provide a compositional output control policy |
-
2019
- 2019-01-23 EP EP19774557.3A patent/EP3779809A4/en not_active Withdrawn
- 2019-01-23 CA CA3094427A patent/CA3094427A1/en active Pending
- 2019-01-23 WO PCT/JP2019/001989 patent/WO2019187548A1/ja unknown
- 2019-01-23 JP JP2020509719A patent/JP7331837B2/ja active Active
- 2019-01-23 US US16/982,051 patent/US20210018882A1/en not_active Abandoned
- 2019-01-23 CN CN201980020131.7A patent/CN111868760A/zh not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000035956A (ja) | 1998-07-17 | 2000-02-02 | Japan Science & Technology Corp | エージェント学習装置 |
Non-Patent Citations (2)
Title |
---|
Jonas Karlsson,"Learning to Solve Multiple Goals",米国,University of Rochester,1997年,pp.34-46 |
上岡 拓未 ほか,「Max-Min Actor-Criticによる複数報酬課題の強化学習」,電子情報通信学会論文誌 D,社団法人電子情報通信学会,2007年,第J90-D巻, 第9号,pp.2510-2521,ISSN 1880-4535 |
Also Published As
Publication number | Publication date |
---|---|
EP3779809A4 (en) | 2021-09-08 |
US20210018882A1 (en) | 2021-01-21 |
WO2019187548A1 (ja) | 2019-10-03 |
JPWO2019187548A1 (ja) | 2021-05-13 |
CN111868760A (zh) | 2020-10-30 |
EP3779809A1 (en) | 2021-02-17 |
CA3094427A1 (en) | 2019-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7331837B2 (ja) | 情報処理装置および情報処理方法 | |
US10970527B2 (en) | Robot attention detection | |
JP7400923B2 (ja) | 情報処理装置および情報処理方法 | |
JP6844608B2 (ja) | 音声処理装置および音声処理方法 | |
JP7351383B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20200269421A1 (en) | Information processing device, information processing method, and program | |
JP7180139B2 (ja) | ロボット、ロボットの制御方法及びプログラム | |
KR102222911B1 (ko) | 로봇 상호작용 시스템 및 그를 위한 프로그램 | |
US11969876B2 (en) | Robot and control method of robot | |
KR20190114925A (ko) | 소리 신호 분류를 이용한 인공지능장치 및 그 방법 | |
JP2000099490A (ja) | 擬似的な精神情報に基づいて作動する装置 | |
CN111050266B (zh) | 一种基于耳机检测动作进行功能控制的方法及系统 | |
JP5983159B2 (ja) | 視線制御装置、視線制御方法及び視線制御プログラム並びに端末装置 | |
KR102519599B1 (ko) | 멀티모달 기반의 인터랙션 로봇, 및 그 제어 방법 | |
JPWO2019087490A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP4525712B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP7459791B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20220055223A1 (en) | Electronic device for providing reaction on basis of user state and operating method therefor | |
JP2007125621A (ja) | 行動計画装置、行動計画方法および行動計画プログラム | |
WO2024087522A1 (zh) | 自动驾驶决策规划及自动驾驶车辆 | |
KR102712459B1 (ko) | 전자 장치 및 그의 동작 방법 | |
WO2024161832A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2015191591A (ja) | 情報処理装置、行動タイミング検出方法、およびプログラム | |
JP2024135494A (ja) | 情報処理システム、情報処理装置、情報処理プログラムおよび情報処理方法 | |
CN117765952A (zh) | 人机交互的方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AA64 | Notification of invalidation of claim of internal priority (with term) |
Free format text: JAPANESE INTERMEDIATE CODE: A241764 Effective date: 20201222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210201 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230724 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7331837 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |