JP7284277B2 - 対話履歴グラフを使用したアクション選択 - Google Patents
対話履歴グラフを使用したアクション選択 Download PDFInfo
- Publication number
- JP7284277B2 JP7284277B2 JP2021542496A JP2021542496A JP7284277B2 JP 7284277 B2 JP7284277 B2 JP 7284277B2 JP 2021542496 A JP2021542496 A JP 2021542496A JP 2021542496 A JP2021542496 A JP 2021542496A JP 7284277 B2 JP7284277 B2 JP 7284277B2
- Authority
- JP
- Japan
- Prior art keywords
- graph
- environment
- node
- agent
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- User Interface Of Digital Computer (AREA)
Description
[fa(at-1), fg(Gt-1)] (1)
式中、fa(at-1)は、前の時間ステップで実行されたアクションの表現であり、fg(Gt-1)は、現在の対話履歴グラフ108の符号化表現112である。探査システム100は、たとえば、アクションのワンホット符号化、またはアクションを処理する埋め込みニューラルネットワークの出力など、前の時間ステップで実行されたアクションの表現を生成し得る。
ht=R(ht-1, fg(Gt-1)) (2)
式中、R()は、リカレントニューラルネットワーク、たとえば、長短期記憶(LSTM)ニューラルネットワーク(たとえば、図1には図示されていないが、グラフニューラルネットワーク110とアクション選択ニューラルネットワーク114との間の探査システム100に提供される)であり、ht-1は、前の時間ステップにおけるアクション選択ニューラルネットワークへの入力であり、fg(Gt-1)は、現在の対話履歴グラフ108の符号化表現112である。アクション選択ニューラルネットワークへの前の入力が存在しない第1の時間ステップでは、探査システム100は、アクション選択ニューラルネットワーク114への入力として、現在の対話履歴グラフ108の符号化表現112を提供し得る。環境の探査の履歴に基づいて現在の時間ステップで実行されるべきアクションを選択することは、すなわち、アクション選択ニューラルネットワークが、どのアクションが環境を新しい状態に移行させることになるかについてより効果的に推論することを可能にすることによって、より効率的な探査を可能にすることができる。
102 アクション
104 エージェント
106 環境
108 対話履歴グラフ
110 グラフニューラルネットワーク
112 符号化表現
114 アクション選択ニューラルネットワーク
116 アクション選択出力
118 トレーニングエンジン
120 新しい状態の数
302 ランダム探査
304 探査システム
400 プロセス
500 プロセス
Claims (25)
- 環境と対話するエージェントによって実行されるべきアクションを選択するために1つまたは複数のデータ処理装置によって実行される方法であって、
前記エージェントと前記環境との対話履歴を表すノードおよびエッジのグラフを取得するステップであり、
前記グラフ内の各ノードは、前記環境の状態を表し、
前記グラフ内の各エッジは、前記グラフ内のノードのそれぞれの対を接続し、
前記グラフ内のエッジは、前記環境の前記状態がノードの対の一方のノードから前記ノードの対の他方のノードに移行することができる場合にのみ、前記グラフ内の前記ノードの対を接続する、
取得するステップと、
前記エージェントと前記環境との前記対話履歴を表す前記グラフの符号化表現を生成するステップと、
アクション選択出力を生成するために、アクション選択ニューラルネットワークパラメータの現在の値に従って、アクション選択ニューラルネットワークを使用して、前記グラフの前記符号化表現に基づいて入力を処理するステップと、
前記アクション選択ニューラルネットワークによって生成された前記アクション選択出力を使用して、前記エージェントによって実行されるべき複数の可能なアクションから1つのアクションを選択するステップと
を含み、
前記環境がソフトウェア環境または現実世界環境であり、
前記ソフトウェア環境の各状態が、前記ソフトウェア環境のインターフェースのそれぞれの状態に対応し、前記エージェントによって実行されるように選択された前記アクションが、前記ソフトウェア環境の前記インターフェースとの特定の対話を定義し、
前記現実世界環境の各状態は、前記現実世界環境におけるそれぞれの空間位置に対応し、前記エージェントは、前記現実世界環境と対話するロボットエージェントであり、前記エージェントによって実行されるように選択された前記アクションは、前記エージェントを前記現実世界環境において移動させる物理的アクションを定義する、
方法。 - 前記インターフェースはユーザインターフェースである、請求項1に記載の方法。
- 前記環境の1つまたは複数の新しい状態を識別するステップであり、(i)前記エージェントが前記選択されたアクションを実行した結果として、前記環境の前記状態は、前記1つまたは複数の新しい状態に移行し、(ii)前記エージェントと前記環境との前記対話中に以前に選択されたアクションを前記エージェントが実行した結果として、前記環境の前記状態は、以前に前記新しい状態のいずれにも移行しなかった、識別するステップと、
前記環境の前記新しい状態に基づいて報酬を決定するステップと、
強化学習技法を使用して、前記報酬に基づいて前記アクション選択ニューラルネットワークパラメータの前記現在値を調整するステップと
をさらに含む請求項1または2に記載の方法。 - 前記環境の前記新しい状態に基づいて前記報酬を決定するステップは、
前記環境の新しい状態の数に基づいて前記報酬を決定するステップ
を含む、請求項3に記載の方法。 - 前記強化学習技法は、アクタークリティック強化学習技法である、請求項3または4に記載の方法。
- 前記エージェントと前記環境との前記対話履歴を表す前記グラフ内の各ノードは、前記エージェントと前記環境との前記対話中に以前に選択されたアクションを前記エージェントが実行した結果として、前記環境が以前に移行した前記環境の状態に対応する、請求項1から5のいずれか一項に記載の方法。
- 前記グラフ内の各エッジは、前記エージェントと前記環境との前記対話中に以前に選択されたアクションを前記エージェントが実行した結果として、前記環境の前記状態が、ノードの対の一方のノードから前記ノードの対の他方のノードに以前に移行した場合にのみ、前記グラフ内の前記ノードの対を接続する、請求項6に記載の方法。
- 前記エージェントと前記環境との前記対話履歴を表す前記グラフ内の前記ノードは、前記環境のあらゆる状態を表し、
前記グラフ内の各ノードは、前記エージェントと前記環境との前記対話中に以前に選択されたアクションを前記エージェントが実行した結果として、前記環境が前記ノードによって表される前記状態に以前に移行したかどうかを示すデータに関連付けられる、
請求項1または2に記載の方法。 - 前記エージェントと前記環境との前記対話履歴を表す前記グラフの符号化表現を生成するステップは、
前記グラフの前記符号化表現を生成するためにグラフニューラルネットワークを使用して前記グラフを処理するステップを含む、
請求項1から8のいずれか一項に記載の方法。 - 前記グラフの前記符号化表現を生成するためにグラフニューラルネットワークを使用して前記グラフを処理するステップは、
前記グラフの各ノードのそれぞれの符号化表現を生成するステップと、
前記グラフの前記符号化表現を生成するために、前記グラフの各ノードの前記それぞれの符号化表現を結合するステップと
を含む、請求項9に記載の方法。 - 前記グラフの各ノードの前記それぞれの符号化表現を結合するステップは、前記グラフの各ノードの前記それぞれの符号化表現を合計するステップを含む、請求項10に記載の方法。
- 前記グラフの各ノードの前記それぞれの符号化表現を合計するステップは、
前記グラフの各ノードの前記符号化表現に対するそれぞれの重み係数を決定するステップと、
前記グラフの各ノードの前記それぞれの符号化表現を合計する前に、前記対応する重み係数を使用して前記グラフの各ノードの前記符号化表現をスケーリングするステップと
を含む、請求項11に記載の方法。 - 前記グラフの各ノードのそれぞれの符号化表現を生成するステップは、
複数の反復の各々において前記グラフの各ノードの符号化表現を更新するステップであり、前記複数の反復の第1の反復の後の各反復において、
前記グラフの所与のノードごとに、グラフニューラルネットワークパラメータの値に従って、前の反復における前記グラフ内の前記所与のノードの隣接ノードのセットの前記符号化表現に基づいて、現在の反復における前記ノードの前記符号化表現を更新するステップを含み、
前記グラフ内の前記所与のノードの前記隣接ノードのセットは、(i)前記所与のノード、および(ii)前記グラフのエッジによって前記所与のノードに接続される前記グラフ内の他の各ノード、を含む、更新するステップと、
前記グラフの各ノードの前記符号化表現を、前記複数の反復の最後の反復の後の前記ノードの前記符号化表現として決定するステップと
を含む、請求項10から12のいずれか一項に記載の方法。 - 前記ノードによって表される前記環境の前記状態の特性に基づいて、前記複数の反復の前記第1の反復において前記グラフの各ノードの符号化表現を決定するステップ
をさらに含む請求項13に記載の方法。 - 前記グラフニューラルネットワークは、教師なしリンク予測目的を使用してトレーニングされる、請求項9から14のいずれか一項に記載の方法。
- 前記アクション選択ニューラルネットワークは、リカレントニューラルネットワークである、請求項1から15のいずれか一項に記載の方法。
- 前記アクション選択出力は、前記複数の可能なアクションの各アクションについてのそれぞれの値を定義する、請求項1から16のいずれか一項に記載の方法。
- 前記アクション選択出力を使用して前記エージェントによって実行されるべき前記アクションを選択するステップは、
前記アクション選択出力によって定義された前記アクションの前記それぞれの値である前記アクションの各々の確率に従って、前記アクションをサンプリングするステップ
を含む、請求項17に記載の方法。 - 前記アクション選択出力を使用して前記エージェントによって実行されるべき前記アクションを選択するステップは、
最も高い値を持つ前記アクションを選択するステップ
を含む、請求項17に記載の方法。 - 前記アクション選択ニューラルネットワークパラメータの前記現在の値は、前記エージェントと前の環境との対話中に決定され、前記エージェントと前記環境との前記対話中には調整されない、請求項1から19のいずれか一項に記載の方法。
- 前記アクション選択ニューラルネットワークへの前記入力は、(i)前記グラフの前記符号化表現、および(ii)1つまたは複数の以前のグラフの符号化表現、に基づき、各以前のグラフが、それぞれの以前の時間ステップの時点での前記エージェントと前記環境との対話履歴を表す、請求項1から20のいずれか一項に記載の方法。
- リカレントニューラルネットワーク出力を生成するために、(i)前記グラフの前記符号化表現、および(ii)前の時間ステップにおける前記リカレントニューラルネットワークの出力、を含む入力を処理するために、リカレントニューラルネットワークを使用するステップをさらに含み、
前記アクション選択ニューラルネットワークへの前記入力は、前記リカレントニューラルネットワーク出力を含む、
請求項21に記載の方法。 - 1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項1から22のいずれか一項に記載の前記方法の前記それぞれの動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを備えるシステム。
- 1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項1から22のいずれか一項に記載の前記方法の前記それぞれの動作を実行させる命令を記憶するコンピュータプログラム製品。
- 環境と対話するエージェントによって実行されるべきアクションを選択するために1つまたは複数のデータ処理装置によって実行される方法であって、
前記エージェントと前記環境との対話履歴を表すノードおよびエッジのグラフを取得するステップであり、
前記グラフ内の各ノードは、前記環境の状態を表し、
前記グラフ内の各エッジは、前記グラフ内のノードのそれぞれの対を接続し、
前記グラフ内のエッジは、前記環境の前記状態がノードの対の一方のノードから前記ノードの対の他方のノードに移行することができる場合にのみ、前記グラフ内の前記ノードの対を接続する、
取得するステップと、
前記エージェントと前記環境との前記対話履歴を表す前記グラフの符号化表現を生成するステップと、
アクション選択出力を生成するために、アクション選択ニューラルネットワークパラメータの現在の値に従って、アクション選択ニューラルネットワークを使用して、前記グラフの前記符号化表現に基づいて入力を処理するステップと、
前記アクション選択ニューラルネットワークによって生成された前記アクション選択出力を使用して、前記エージェントによって実行されるべき複数の可能なアクションから1つのアクションを選択するステップと
を含み、
前記エージェントと前記環境との前記対話履歴を表す前記グラフの符号化表現を生成するステップは、
前記グラフの前記符号化表現を生成するためにグラフニューラルネットワークを使用して前記グラフを処理するステップを含み、
前記グラフの前記符号化表現を生成するためにグラフニューラルネットワークを使用して前記グラフを処理するステップは、
前記グラフの各ノードのそれぞれの符号化表現を生成するステップと、
前記グラフの前記符号化表現を生成するために、前記グラフの各ノードの前記それぞれの符号化表現を結合するステップと
を含む、
方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962796025P | 2019-01-23 | 2019-01-23 | |
US62/796,025 | 2019-01-23 | ||
PCT/EP2020/051547 WO2020152233A1 (en) | 2019-01-23 | 2020-01-23 | Action selection using interaction history graphs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022523667A JP2022523667A (ja) | 2022-04-26 |
JP7284277B2 true JP7284277B2 (ja) | 2023-05-30 |
Family
ID=69192064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021542496A Active JP7284277B2 (ja) | 2019-01-23 | 2020-01-23 | 対話履歴グラフを使用したアクション選択 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11636347B2 (ja) |
EP (1) | EP3915052A1 (ja) |
JP (1) | JP7284277B2 (ja) |
WO (1) | WO2020152233A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210232913A1 (en) * | 2020-01-27 | 2021-07-29 | Honda Motor Co., Ltd. | Interpretable autonomous driving system and method thereof |
US11663039B2 (en) * | 2020-04-07 | 2023-05-30 | International Business Machines Corporation | Workload management using reinforcement learning |
CN111632379B (zh) * | 2020-04-28 | 2022-03-22 | 腾讯科技(深圳)有限公司 | 游戏角色行为控制方法、装置、存储介质及电子设备 |
CN112070422B (zh) * | 2020-11-05 | 2021-07-30 | 广州竞远安全技术股份有限公司 | 一种基于神经网络的安全测评师派工系统及方法 |
US12005922B2 (en) | 2020-12-31 | 2024-06-11 | Honda Motor Co., Ltd. | Toward simulation of driver behavior in driving automation |
CN113535904B (zh) * | 2021-07-23 | 2022-08-09 | 重庆邮电大学 | 一种基于图神经网络的方面级情感分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011505030A (ja) | 2007-10-31 | 2011-02-17 | シーメンス アクチエンゲゼルシヤフト | 技術システムの状態をコンピュータ支援のもとで探査する方法 |
JP2014044615A (ja) | 2012-08-28 | 2014-03-13 | Nippon Telegr & Teleph Corp <Ntt> | グラフィカルユーザインタフェースの網羅的な自動操作方法及び装置 |
US20150227121A1 (en) | 2012-09-17 | 2015-08-13 | Siemens Aktiegesellschaft | Method for controlling and/or regulating a technical system in a computer-assisted manner |
WO2018146770A1 (ja) | 2017-02-09 | 2018-08-16 | 三菱電機株式会社 | 位置制御装置及び位置制御方法 |
WO2018153807A1 (en) | 2017-02-24 | 2018-08-30 | Deepmind Technologies Limited | Action selection for reinforcement learning using neural networks |
JP2018525759A (ja) | 2015-07-24 | 2018-09-06 | ディープマインド テクノロジーズ リミテッド | ディープ強化学習による連続的制御 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3415310B2 (ja) * | 1994-01-26 | 2003-06-09 | 株式会社東芝 | テストケース作成装置 |
-
2020
- 2020-01-22 US US16/749,252 patent/US11636347B2/en active Active
- 2020-01-23 JP JP2021542496A patent/JP7284277B2/ja active Active
- 2020-01-23 WO PCT/EP2020/051547 patent/WO2020152233A1/en unknown
- 2020-01-23 EP EP20701973.8A patent/EP3915052A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011505030A (ja) | 2007-10-31 | 2011-02-17 | シーメンス アクチエンゲゼルシヤフト | 技術システムの状態をコンピュータ支援のもとで探査する方法 |
JP2014044615A (ja) | 2012-08-28 | 2014-03-13 | Nippon Telegr & Teleph Corp <Ntt> | グラフィカルユーザインタフェースの網羅的な自動操作方法及び装置 |
US20150227121A1 (en) | 2012-09-17 | 2015-08-13 | Siemens Aktiegesellschaft | Method for controlling and/or regulating a technical system in a computer-assisted manner |
JP2018525759A (ja) | 2015-07-24 | 2018-09-06 | ディープマインド テクノロジーズ リミテッド | ディープ強化学習による連続的制御 |
WO2018146770A1 (ja) | 2017-02-09 | 2018-08-16 | 三菱電機株式会社 | 位置制御装置及び位置制御方法 |
WO2018153807A1 (en) | 2017-02-24 | 2018-08-30 | Deepmind Technologies Limited | Action selection for reinforcement learning using neural networks |
Non-Patent Citations (3)
Title |
---|
WANG, T et al.,"NerveNet: Learning Structured Policy with Graph Neural Networks",ICLR 2018 Conference [online],2018年,pp. 1-26,[retrieved on 2022.09.26], Retrieved fromthe Internet: <URL: https://www.semanticscholar.org/paper/NerveNet%3A-Learning-Structured-Policy-with-Graph-Wang-Liao/249408527106d7595d45dd761dd53c83e5a02613> |
ZAMBALDI, V et al.,"Deep reinforcement learning with relational inductive biases",ICLR 2019 Conference [online],2018年,pp. 1-18,[retrieved on 2022.09.26], Retrieved fromthe Internet: <URL: https://www.deepmind.com/publications/deep-reinforcement-learning-with-relational-inductive-biases> |
中島功太 ほか,"深層強化学習を用いた無線LAN最適チャネル制御",電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2019年,第118巻, 第428号,pp. 13-18 |
Also Published As
Publication number | Publication date |
---|---|
US20200234145A1 (en) | 2020-07-23 |
EP3915052A1 (en) | 2021-12-01 |
JP2022523667A (ja) | 2022-04-26 |
WO2020152233A1 (en) | 2020-07-30 |
US11636347B2 (en) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7284277B2 (ja) | 対話履歴グラフを使用したアクション選択 | |
US11790238B2 (en) | Multi-task neural networks with task-specific paths | |
JP7157154B2 (ja) | 性能予測ニューラルネットワークを使用したニューラルアーキテクチャ探索 | |
EP3602409B1 (en) | Selecting actions using multi-modal inputs | |
US11842261B2 (en) | Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks | |
CN108027897B (zh) | 利用深度强化学习的连续控制 | |
CN110114784B (zh) | 递归环境预测器及其方法 | |
US10664725B2 (en) | Data-efficient reinforcement learning for continuous control tasks | |
JP7439151B2 (ja) | ニューラルアーキテクチャ検索 | |
US20210158162A1 (en) | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space | |
US10860895B2 (en) | Imagination-based agent neural networks | |
CN110770759A (zh) | 神经网络系统 | |
JP7354460B2 (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
CN115066694A (zh) | 计算图优化 | |
US11314987B2 (en) | Domain adaptation using simulation to simulation transfer | |
JP2022523484A (ja) | 観測値の尤度を使用して環境を探索するためのエージェントを制御すること | |
WO2023197910A1 (zh) | 一种用户行为预测方法及其相关设备 | |
KR102122232B1 (ko) | 멀티 태스크를 위한 신경망 자동 생성 장치 및 방법 | |
CN118043818A (zh) | 用于处理来自多个模态的网络指标的基于自注意力的神经网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210921 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230424 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230518 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7284277 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |