JP6854921B2 - タスク固有のポリシーおよび共有ポリシーをもつマルチタスクニューラルネットワークシステム - Google Patents
タスク固有のポリシーおよび共有ポリシーをもつマルチタスクニューラルネットワークシステム Download PDFInfo
- Publication number
- JP6854921B2 JP6854921B2 JP2019559288A JP2019559288A JP6854921B2 JP 6854921 B2 JP6854921 B2 JP 6854921B2 JP 2019559288 A JP2019559288 A JP 2019559288A JP 2019559288 A JP2019559288 A JP 2019559288A JP 6854921 B2 JP6854921 B2 JP 6854921B2
- Authority
- JP
- Japan
- Prior art keywords
- policy
- task
- multitasking
- training
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 73
- 230000009471 action Effects 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 60
- 238000012549 training Methods 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 36
- 238000009826 distribution Methods 0.000 claims description 30
- 230000002787 reinforcement Effects 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000001902 propagating effect Effects 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 description 28
- 238000004590 computer program Methods 0.000 description 14
- 230000008901 benefit Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004821 distillation Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 102100040653 Tryptophan 2,3-dioxygenase Human genes 0.000 description 1
- 101710136122 Tryptophan 2,3-dioxygenase Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/043—Distributed expert systems; Blackboards
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Description
本出願は、2017年5月19日に出願された米国仮特許出願第62/508,991号の非仮出願であり、これに基づく優先権を主張し、その内容全体が参照により本明細書に組み込まれる。
11 ワーカ
12 ワーカ
13 ワーカ
14 ワーカ
15 共有モジュール
20 環境
21 エージェント
22 エージェント
23 エージェント
24 エージェント
Claims (30)
- マルチタスクニューラルネットワークシステムを訓練する方法であって、前記ニューラルネットワークシステムが、共有ポリシーネットワークと組み合わせた訓練可能なワーカのセットを含み、前記方法が、
複数の異なるタスクでの、前記訓練可能なワーカおよび前記共有ポリシーネットワークの協調訓練を含み、各ワーカがそれぞれのタスクポリシーに従って前記タスクの対応する1つを行うことを学習し、前記共有ポリシーネットワークが前記タスクに対する共通の行動を表すマルチタスクポリシーを学習するようにし、
前記協調訓練が、前記共有ポリシーネットワークと前記訓練可能なワーカの両方を介して前記協調訓練からの誤差を伝播することを含む、方法。 - 前記協調訓練が、目的関数を最適化することによって行われ、前記目的関数が、タスクごとに、
前記タスクポリシーに従って前記タスクを行う際にワーカによって得られる期待報酬を示す報酬項と、
前記タスクポリシーの分布と前記マルチタスクポリシーの分布との差を測定して、前記タスクポリシーの前記分布を前記マルチタスクポリシーの前記分布に向かって正則化する、少なくとも第1のエントロピー項と
を含む、請求項1に記載の方法。 - 前記目的関数が、タスクごとに、探索を促進するために前記タスクポリシーの前記分布によって決まる第2の、探索エントロピー項をさらに含む、請求項2に記載の方法。
- 前記ニューラルネットワークシステムが、環境と対話するとき、前記ワーカの1つまたは複数によって行われるべきアクションを選択するために強化学習システムを含み、前記タスクが、状態に応じて各々行われるべき一連のアクションを含み、前記タスクポリシーの各々のそれぞれの分布および前記マルチタスクポリシーの分布が各々、状態-アクション分布を含む、請求項1、2、または3に記載の方法。
- 報酬項が、ある状態であるアクションをとることからの期待報酬によって決まる割り引かれた報酬項である、請求項2に従属する請求項4に記載の方法。
- 前記訓練可能なワーカを訓練するとき、前記訓練可能なワーカに対する前記タスクポリシーを決定する際に、前記共有ポリシーネットワークからの前記マルチタスクポリシーを使用するステップを含む、請求項1から5のいずれか一項に記載の方法。
- 前記協調訓練が、前記訓練可能なワーカの1つまたは複数を訓練することと、前記共有ポリシーネットワークを訓練することとを交互に行うことを含む、請求項1から6のいずれか一項に記載の方法。
- 前記協調訓練が、前記共有ポリシーネットワークの前記マルチタスクポリシーと、前記タスクポリシーの1つまたは複数とを一緒に最適化することを含む、請求項1から7のいずれか一項に記載の方法。
- 前記マルチタスクポリシーを使用して、前記タスクポリシーをパラメータ化するステップをさらに含む、請求項1から8のいずれか一項に記載の方法。
- 前記訓練可能なワーカが、1つまたは複数のニューラルネットワークを含み、前記協調訓練が、逆伝播により、前記1つまたは複数のニューラルネットワークおよび前記共有ポリシーネットワークを一緒に訓練することを含む、請求項1から9のいずれか一項に記載の方法。
- 前記逆伝播が、前記タスクポリシーからの前記マルチタスクポリシーを蒸留するために、前記タスクポリシーからの確率を、前記マルチタスクポリシーからの確率に一致させるための項を含む目的関数を使用する、請求項10に記載の方法。
- 適応マルチタスクコンピュータシステムを訓練する方法であって、前記コンピュータシステムが、訓練可能なワーカおよび共有モジュールのセットを含み、前記方法が、
複数の異なるタスクでの、前記訓練可能なワーカおよび前記共有モジュールの協調訓練を含み、各ワーカがそれぞれのタスクポリシーに従って前記タスクの対応する1つを行うことを学習し、共有ポリシーネットワークが前記タスクに対する共通の行動を表すマルチタスクポリシーを学習するようにし、
前記協調訓練が、目的関数を最適化することによって行われ、前記目的関数が、タスクごとに、
前記タスクを行う際にワーカによって得られる期待報酬を示す報酬項と、
前記タスクポリシーの分布と前記マルチタスクポリシーの分布との差を測定して、前記タスクポリシーの前記分布を前記マルチタスクポリシーの前記分布に向かって正則化する、少なくとも第1のエントロピー項と
を含む、方法。 - 前記目的関数が、タスクごとに、探索を促進するために前記タスクポリシーの前記分布によって決まる第2の、探索エントロピー項をさらに含む、請求項12に記載の方法。
- 前記コンピュータシステムが、環境と対話するとき、前記ワーカの1つまたは複数によって行われるべきアクションを選択するために強化学習システムを含み、前記タスクが、状態に応じて各々行われるべき一連のアクションを含み、前記タスクポリシーの各々のそれぞれの分布および前記マルチタスクポリシーの分布が各々、状態-アクション分布を含む、請求項12または13に記載の方法。
- 前記報酬項が、ある状態であるアクションをとることからの期待報酬によって決まる割り引かれた報酬項である、請求項14に記載の方法。
- 前記訓練可能なワーカを訓練するとき、前記訓練可能なワーカに対する前記タスクポリシーを決定する際に、前記マルチタスクポリシーを使用するステップを含む、請求項12から15のいずれか一項に記載の方法。
- 前記協調訓練が、前記訓練可能なワーカの1つまたは複数を訓練することと、前記共有モジュールを訓練することとを交互に行うことを含む、請求項12から16のいずれか一項に記載の方法。
- 前記協調訓練が、前記共有モジュールの前記マルチタスクポリシーと、前記タスクポリシーの1つまたは複数とを一緒に最適化することを含む、請求項12から17のいずれか一項に記載の方法。
- 前記マルチタスクポリシーを使用して、前記タスクポリシーをパラメータ化するステップをさらに含む、請求項12から18のいずれか一項に記載の方法。
- 前記訓練可能なワーカおよび前記共有モジュールが各々、1つまたは複数のニューラルネットワークを含み、前記協調訓練が、逆伝播により、前記1つまたは複数のニューラルネットワークを一緒に訓練することを含む、請求項12から19のいずれか一項に記載の方法。
- 行われるべき複数の学習されたタスクに関係する入力データを処理し、前記タスクの実行を制御するために出力データを提供するマルチタスクニューラルネットワークシステムであって、
前記入力データを受け取るための入力と、
前記入力に結合されたワーカのセットであって、各々が、それぞれの学習されたタスクポリシーに従ってアクションデータを出力することによって、前記複数の学習されたタスクのうちの関連する1つを実行するように構成され、各タスクが制御モジュールと関連付けられる、ワーカのセットと、
前記入力、および前記ワーカのセットの一方または両方に結合された、共有ポリシーネットワークであって、前記タスクに対する共通の行動を表す学習されたマルチタスクポリシーを定義する、共有ポリシーネットワークと
を含み、
マルチタスクニューラルネットワークシステムが、タスクごとに、それぞれのタスクポリシーを定義するために、前記関連する制御モジュールの出力を、前記学習されたマルチタスクポリシーと結合するように構成される、マルチタスクニューラルネットワークシステム。 - 前記制御モジュールの各々がニューラルネットワークモジュールである、請求項21に記載のマルチタスクニューラルネットワークシステム。
- 前記ニューラルネットワークモジュールが、ニューラルネットワーク層の少なくとも1つの列を定義し、前記共有ポリシーネットワークが、ニューラルネットワーク層の第2の列を定義する、複数列アーキテクチャを有する、請求項22に記載のマルチタスクニューラルネットワークシステム。
- 前記アクションデータが、行われるべきアクションの期待価値を定義するアクション価値データを含む、請求項21、22、または23に記載のマルチタスクニューラルネットワークシステム。
- 前記アクションデータが、前記ワーカによって行われ得る複数の考えられるアクションの各々に対する尤度を定義するデータを含む、請求項21から24のいずれか一項に記載のマルチタスクニューラルネットワークシステム。
- 前記制御モジュールが、互いとは実質的に無関係に動作する、請求項21から25のいずれか一項に記載のマルチタスクニューラルネットワークシステム。
- 前記ワーカが、共有される重みを含むニューラルネットワークを含む、請求項21から26のいずれか一項に記載のマルチタスクニューラルネットワークシステム。
- 1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行されると、請求項1から20のいずれか一項に記載のそれぞれの方法の動作を、前記1つまたは複数のコンピュータに行わせる命令を記憶する1つまたは複数のストレージデバイスとを備える、システム。
- 前記1つまたは複数のコンピュータによって実行されると、請求項1から20のいずれか一項に記載のそれぞれの方法の動作を、前記1つまたは複数のコンピュータに行わせる命令を記憶する1つまたは複数のコンピュータ記憶媒体。
- 1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに請求項21から27のいずれか一項に記載のシステムを実行させる命令を記憶する1つまたは複数のコンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762508991P | 2017-05-19 | 2017-05-19 | |
US62/508,991 | 2017-05-19 | ||
PCT/EP2018/063275 WO2018211138A1 (en) | 2017-05-19 | 2018-05-22 | Multitask neural network systems |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020521205A JP2020521205A (ja) | 2020-07-16 |
JP6854921B2 true JP6854921B2 (ja) | 2021-04-07 |
Family
ID=62217991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019559288A Active JP6854921B2 (ja) | 2017-05-19 | 2018-05-22 | タスク固有のポリシーおよび共有ポリシーをもつマルチタスクニューラルネットワークシステム |
Country Status (5)
Country | Link |
---|---|
US (2) | US11132609B2 (ja) |
EP (1) | EP3602412A1 (ja) |
JP (1) | JP6854921B2 (ja) |
CN (1) | CN110892418A (ja) |
WO (1) | WO2018211138A1 (ja) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11250327B2 (en) | 2016-10-26 | 2022-02-15 | Cognizant Technology Solutions U.S. Corporation | Evolution of deep neural network structures |
US11507844B2 (en) | 2017-03-07 | 2022-11-22 | Cognizant Technology Solutions U.S. Corporation | Asynchronous evaluation strategy for evolution of deep neural networks |
WO2018211138A1 (en) * | 2017-05-19 | 2018-11-22 | Deepmind Technologies Limited | Multitask neural network systems |
US11562287B2 (en) | 2017-10-27 | 2023-01-24 | Salesforce.Com, Inc. | Hierarchical and interpretable skill acquisition in multi-task reinforcement learning |
US10573295B2 (en) * | 2017-10-27 | 2020-02-25 | Salesforce.Com, Inc. | End-to-end speech recognition with policy learning |
WO2019118299A1 (en) | 2017-12-13 | 2019-06-20 | Sentient Technologies (Barbados) Limited | Evolving recurrent networks using genetic programming |
EP3724819A4 (en) | 2017-12-13 | 2022-06-22 | Cognizant Technology Solutions U.S. Corporation | SCALABLE ARCHITECTURES FOR THE EVOLUTION OF DEEP NEURAL NETWORKS |
US11527308B2 (en) | 2018-02-06 | 2022-12-13 | Cognizant Technology Solutions U.S. Corporation | Enhanced optimization with composite objectives and novelty-diversity selection |
WO2019241145A1 (en) | 2018-06-12 | 2019-12-19 | Intergraph Corporation | Artificial intelligence applications for computer-aided dispatch systems |
US11481639B2 (en) | 2019-02-26 | 2022-10-25 | Cognizant Technology Solutions U.S. Corporation | Enhanced optimization with composite objectives and novelty pulsation |
US11669716B2 (en) | 2019-03-13 | 2023-06-06 | Cognizant Technology Solutions U.S. Corp. | System and method for implementing modular universal reparameterization for deep multi-task learning across diverse domains |
CA3131688A1 (en) | 2019-03-27 | 2020-10-01 | Olivier Francon | Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions |
US20200327379A1 (en) * | 2019-04-09 | 2020-10-15 | GE Precision Healthcare LLC | Fastestimator healthcare ai framework |
US11699062B2 (en) * | 2019-09-06 | 2023-07-11 | Honda Motor Co., Ltd. | System and method for implementing reward based strategies for promoting exploration |
US11403668B2 (en) | 2019-10-30 | 2022-08-02 | Target Brands, Inc. | Multitask transfer learning for optimization of targeted promotional programs |
SG11202103113XA (en) * | 2020-04-02 | 2021-04-29 | Alipay Hangzhou Inf Tech Co Ltd | Determining action selection policies of an execution device |
CN111309893A (zh) * | 2020-05-15 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 基于源问题生成相似问题的方法和装置 |
US11775841B2 (en) | 2020-06-15 | 2023-10-03 | Cognizant Technology Solutions U.S. Corporation | Process and system including explainable prescriptions through surrogate-assisted evolution |
CN111708355B (zh) * | 2020-06-19 | 2023-04-18 | 中国人民解放军国防科技大学 | 基于强化学习的多无人机动作决策方法和装置 |
CN111783606B (zh) * | 2020-06-24 | 2024-02-20 | 北京百度网讯科技有限公司 | 一种人脸识别网络的训练方法、装置、设备及存储介质 |
CN111680934B (zh) * | 2020-06-30 | 2023-04-07 | 西安电子科技大学 | 基于群体熵和q学习的无人机任务分配方法 |
CN112001585B (zh) * | 2020-07-14 | 2023-09-22 | 北京百度网讯科技有限公司 | 多智能体决策方法、装置、电子设备及存储介质 |
WO2022025568A1 (ko) * | 2020-07-27 | 2022-02-03 | 옴니어스 주식회사 | 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체 |
CN114528469A (zh) * | 2020-11-23 | 2022-05-24 | 中兴通讯股份有限公司 | 推荐方法、装置、电子设备、存储介质 |
CN112784958B (zh) * | 2020-12-31 | 2023-05-23 | 中电海康集团有限公司 | 一种基于持续学习方法的家庭服务型机器人 |
CN112685318A (zh) * | 2021-01-07 | 2021-04-20 | 广州三星通信技术研究有限公司 | 产生测试脚本的方法和系统 |
CN112766493B (zh) * | 2021-01-19 | 2023-04-07 | 北京市商汤科技开发有限公司 | 多任务神经网络的训练方法、装置、电子设备及存储介质 |
CN113240796B (zh) * | 2021-05-14 | 2023-12-12 | Oppo广东移动通信有限公司 | 视觉任务处理方法及装置、计算机可读介质和电子设备 |
CN113556287B (zh) * | 2021-06-15 | 2022-10-14 | 南京理工大学 | 一种基于多智能体强化学习的软件定义网络路由方法 |
CN113485203B (zh) * | 2021-08-03 | 2022-05-31 | 上海德衡数据科技有限公司 | 一种智能控制网络资源共享的方法及系统 |
CN114968520B (zh) * | 2022-05-19 | 2023-11-24 | 北京百度网讯科技有限公司 | 任务搜索方法及装置、服务器和存储介质 |
CN114936783B (zh) * | 2022-06-02 | 2023-01-17 | 暨南大学 | 一种基于mmddpg算法的rgv小车调度方法及系统 |
WO2024056891A1 (en) * | 2022-09-15 | 2024-03-21 | Deepmind Technologies Limited | Data-efficient reinforcement learning with adaptive return computation schemes |
CN115545188A (zh) * | 2022-10-24 | 2022-12-30 | 上海人工智能创新中心 | 基于不确定性估计的多任务离线数据共享方法及系统 |
CN115496208B (zh) * | 2022-11-15 | 2023-04-18 | 清华大学 | 协同模式多样化导向的无监督多智能体强化学习方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4803212B2 (ja) * | 2008-05-28 | 2011-10-26 | ソニー株式会社 | データ処理装置、データ処理方法、及びプログラム |
JP5733166B2 (ja) * | 2011-11-14 | 2015-06-10 | 富士通株式会社 | パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法 |
US10977551B2 (en) * | 2016-12-14 | 2021-04-13 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
WO2018211138A1 (en) * | 2017-05-19 | 2018-11-22 | Deepmind Technologies Limited | Multitask neural network systems |
US20230376961A1 (en) * | 2022-05-19 | 2023-11-23 | Oracle Financial Services Software Limited | Reinforcement learning agent simulation to measure monitoring system strength |
-
2018
- 2018-05-22 WO PCT/EP2018/063275 patent/WO2018211138A1/en unknown
- 2018-05-22 CN CN201880028533.7A patent/CN110892418A/zh active Pending
- 2018-05-22 EP EP18726143.3A patent/EP3602412A1/en active Pending
- 2018-05-22 JP JP2019559288A patent/JP6854921B2/ja active Active
-
2019
- 2019-11-19 US US16/689,020 patent/US11132609B2/en active Active
-
2021
- 2021-09-27 US US17/486,842 patent/US11983634B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11983634B2 (en) | 2024-05-14 |
US11132609B2 (en) | 2021-09-28 |
US20200090048A1 (en) | 2020-03-19 |
EP3602412A1 (en) | 2020-02-05 |
CN110892418A (zh) | 2020-03-17 |
WO2018211138A8 (en) | 2019-12-26 |
US20220083869A1 (en) | 2022-03-17 |
JP2020521205A (ja) | 2020-07-16 |
WO2018211138A1 (en) | 2018-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6854921B2 (ja) | タスク固有のポリシーおよび共有ポリシーをもつマルチタスクニューラルネットワークシステム | |
KR102313472B1 (ko) | 훈련된 생성 모델을 사용하여 질의 변형들을 생성 | |
EP3711000B1 (en) | Regularized neural network architecture search | |
JP7017640B2 (ja) | データ拡張方策の学習 | |
EP3696737B1 (en) | Training action selection neural networks | |
JP7157154B2 (ja) | 性能予測ニューラルネットワークを使用したニューラルアーキテクチャ探索 | |
EP3459021B1 (en) | Training neural networks using synthetic gradients | |
US20230153617A1 (en) | Distributed training using actor-critic reinforcement learning with off-policy correction factors | |
CN110326004B (zh) | 使用路径一致性学习训练策略神经网络 | |
JP6901633B2 (ja) | カプセルニューラルネットワーク | |
KR102208989B1 (ko) | 강화 학습을 통한 디바이스 배치 최적화 | |
JP6722713B2 (ja) | ネットワークレーティング予測エンジン | |
JP2021185492A (ja) | 補助タスクを伴う強化学習 | |
WO2019099193A1 (en) | Learning neural network structure | |
US11922281B2 (en) | Training machine learning models using teacher annealing | |
CN110476173B (zh) | 利用强化学习的分层设备放置 | |
CN110770759A (zh) | 神经网络系统 | |
WO2019101836A1 (en) | Population based training of neural networks | |
US11755879B2 (en) | Low-pass recurrent neural network systems with memory | |
CN113302605A (zh) | 鲁棒且数据效率的黑盒优化 | |
CN113348472A (zh) | 具有软内核选择的卷积神经网络 | |
US11423300B1 (en) | Selecting actions by reverting to previous learned action selection policies | |
EP4383136A2 (en) | Population based training of neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6854921 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |