JP2022549670A - ゲート型アテンションニューラルネットワーク - Google Patents
ゲート型アテンションニューラルネットワーク Download PDFInfo
- Publication number
- JP2022549670A JP2022549670A JP2022519017A JP2022519017A JP2022549670A JP 2022549670 A JP2022549670 A JP 2022549670A JP 2022519017 A JP2022519017 A JP 2022519017A JP 2022519017 A JP2022519017 A JP 2022519017A JP 2022549670 A JP2022549670 A JP 2022549670A
- Authority
- JP
- Japan
- Prior art keywords
- attention
- output
- layer
- input
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 158
- 230000007246 mechanism Effects 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000010606 normalization Methods 0.000 claims description 40
- 230000009471 action Effects 0.000 claims description 34
- 230000004913 activation Effects 0.000 claims description 13
- 238000001994 activation Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 12
- 230000002123 temporal effect Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 238000000844 transformation Methods 0.000 claims description 7
- 239000003795 chemical substances by application Substances 0.000 description 35
- 238000012549 training Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 14
- 239000013598 vector Substances 0.000 description 14
- 230000002787 reinforcement Effects 0.000 description 10
- 238000004088 simulation Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 102000004169 proteins and genes Human genes 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000012707 chemical precursor Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000543 intermediate Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000012846 protein folding Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
Description
本出願は、その内容全体が参照により本明細書に組み込まれる、2019年9月25日に出願された米国仮特許出願第62/906,032号の非仮出願であり、その優先権を主張する。
2つの線形層が順に適用される経路を引き起こすので、本明細書に記載する新たなタイプのアテンションブロックでは、正規化線形ユニット(ReLU)活性化が、残差接続前に各サブモジュール出力に適用される。
最初に、t=0に対して、出力ベクトルはh0=0である。
最小ゲート型ユニットは、更新およびリセットゲートベクトルが忘却ゲートにマージされることを除いて、完全ゲート型ユニットと同様である。このことはまた、出力ベクトルについての式が変更されなければならないことを含意する。
102 入力シーケンス
104 アテンションブロック入力
106 第1の層正規化層
108 アテンションニューラルネットワーク層
110 アテンションニューラルネットワーク
112 ゲーティングニューラルネットワーク層
114 第2の層正規化層
116 フィードフォワードニューラルネットワーク層
118 第2のゲーティングニューラルネットワーク層
120 最終アテンションブロック出力
122 出力
124 アテンションブロック
200 アテンションブロック、トランスフォーマブロック
202 マルチヘッドアテンション(MHA)ニューラルネットワーク層、層
204 残差接続
206 層正規化
208 位置単位多層パーセプトロン(MLP)ネットワーク
210 残差接続
212 層正規化層
214 層正規化層
216 マルチヘッドアテンションニューラルネットワーク層
218 ゲーティングニューラルネットワーク層
220 層正規化層
222 位置単位MLPネットワーク
224 ゲーティングニューラルネットワーク層
250 アテンションブロック
Claims (12)
アテンションブロック入力から導出されるクエリ入力、キー入力、および値入力を受信するように構成されたアテンションブロックを備え、前記アテンションブロックは、
前記クエリ入力、前記キー入力、および前記値入力から導出されたアテンション層入力を受信することと、
前記アテンション層入力にアテンション機構を適用して、アテンションニューラルネットワーク層についてのアテンション層出力を生成することとを行うように構成されたアテンションニューラルネットワーク層と、
前記アテンションニューラルネットワーク層の前記アテンションブロック入力および前記アテンション層出力にゲーティング機構を適用して、ゲート型アテンション出力を生成するように構成されたゲーティングニューラルネットワーク層とを備える、システム。
前記アテンションブロック入力にシグモイド変調を適用して、第1のシグモイド変調出力を生成することと、
前記第1のシグモイド変調出力を前記アテンション層出力と結合して、前記ゲート型アテンション出力を生成することとを含む、請求項1または2のいずれか一項に記載のシステム。
前記アテンション層出力にシグモイド変調を適用して、第2のシグモイド変調出力を生成することと、
前記第2のシグモイド変調出力を前記アテンションブロック入力と結合して、前記ゲート型アテンション出力を生成することとを含む、請求項1または2のいずれか一項に記載のシステム。
前記アテンション層出力に対してシグモイドおよび双曲線正接活性化を適用して、シグモイド双曲線正接出力を生成することと、
前記シグモイド双曲線正接出力を前記アテンションブロック入力と結合して、前記ゲート型アテンション出力を生成することとを含む、請求項1または2のいずれか一項に記載のシステム。
前記アテンションブロック入力および前記アテンション層出力に対してゲート型回帰ユニットを適用することを含む、請求項1または2のいずれか一項に記載のシステム。
前記ゲート型アテンション出力に層正規化演算を適用して、正規化されたゲート型アテンション出力を生成するように構成された第2の層正規化層と、
前記正規化されたゲート型アテンション出力に1つまたは複数の変換を適用して、一時的アテンションブロック出力を生成するように構成された1つまたは複数のフィードフォワードニューラルネットワーク層と、
前記一時的アテンションブロック出力および前記ゲート型アテンション出力に第2のゲーティング機構を適用して、前記アテンションブロック用の最終アテンションブロック出力を生成するように構成された第2のゲーティングニューラルネットワーク層とをさらに備える、請求項1から7のいずれか一項に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962906032P | 2019-09-25 | 2019-09-25 | |
US62/906,032 | 2019-09-25 | ||
PCT/EP2020/074913 WO2021058270A1 (en) | 2019-09-25 | 2020-09-07 | Gated attention neural networks |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022549670A true JP2022549670A (ja) | 2022-11-28 |
JP7337265B2 JP7337265B2 (ja) | 2023-09-01 |
Family
ID=72432886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022519017A Active JP7337265B2 (ja) | 2019-09-25 | 2020-09-07 | ゲート型アテンションニューラルネットワーク |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP4007975A1 (ja) |
JP (1) | JP7337265B2 (ja) |
KR (1) | KR20220045215A (ja) |
CN (1) | CN114424208A (ja) |
WO (1) | WO2021058270A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4102405A1 (en) * | 2021-06-10 | 2022-12-14 | Naver Corporation | Demonstration-conditioned reinforcement learning for few-shot imitation |
WO2023229094A1 (ko) * | 2022-05-27 | 2023-11-30 | 주식회사 엔씨소프트 | 행동 예측 방법 및 장치 |
WO2023235308A1 (en) * | 2022-05-31 | 2023-12-07 | Visa International Service Association | Method, system, and computer program product for simplifying transformer for sequential recommendation |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018131259A1 (ja) * | 2017-01-11 | 2018-07-19 | パナソニックIpマネジメント株式会社 | 文章評価装置、及び文章評価方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11113598B2 (en) * | 2015-06-01 | 2021-09-07 | Salesforce.Com, Inc. | Dynamic memory network |
EP3688672B1 (en) * | 2017-10-27 | 2024-06-19 | Google LLC | Attention-based decoder-only sequence transduction neural networks |
-
2020
- 2020-09-07 KR KR1020227008374A patent/KR20220045215A/ko unknown
- 2020-09-07 CN CN202080065247.5A patent/CN114424208A/zh active Pending
- 2020-09-07 WO PCT/EP2020/074913 patent/WO2021058270A1/en unknown
- 2020-09-07 JP JP2022519017A patent/JP7337265B2/ja active Active
- 2020-09-07 EP EP20768551.2A patent/EP4007975A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018131259A1 (ja) * | 2017-01-11 | 2018-07-19 | パナソニックIpマネジメント株式会社 | 文章評価装置、及び文章評価方法 |
Non-Patent Citations (2)
Title |
---|
DAI ZIHANG ET AL.: "Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context", ARXIV[ONLINE], JPN6023029991, 2 June 2019 (2019-06-02), ISSN: 0005111913 * |
奥井 颯平 ほか: "PLSTMによるチャットボット対話の精度検証", 2019年度人工知能学会全国大会(第33回), JPN6023029994, 1 July 2019 (2019-07-01), ISSN: 0005111914 * |
Also Published As
Publication number | Publication date |
---|---|
US20220366218A1 (en) | 2022-11-17 |
CN114424208A (zh) | 2022-04-29 |
WO2021058270A1 (en) | 2021-04-01 |
KR20220045215A (ko) | 2022-04-12 |
JP7337265B2 (ja) | 2023-09-01 |
EP4007975A1 (en) | 2022-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6854921B2 (ja) | タスク固有のポリシーおよび共有ポリシーをもつマルチタスクニューラルネットワークシステム | |
JP7337265B2 (ja) | ゲート型アテンションニューラルネットワーク | |
CN109564505B (zh) | 人工智能引擎、系统及机器可读存储设备 | |
CN111897941B (zh) | 对话生成方法、网络训练方法、装置、存储介质及设备 | |
US20190362219A1 (en) | Methods and systems for neural and cognitive processing | |
US10664725B2 (en) | Data-efficient reinforcement learning for continuous control tasks | |
EP3459021B1 (en) | Training neural networks using synthetic gradients | |
US20210271968A1 (en) | Generative neural network systems for generating instruction sequences to control an agent performing a task | |
US10860927B2 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
US20210248450A1 (en) | Sorting attention neural networks | |
CN113795851A (zh) | 具有针对使用对抗训练的表示学习的推理的大规模生成神经网络模型 | |
KR20230119023A (ko) | 단기 기억 장치가 있는 어텐션 신경망 | |
Yu et al. | Hybrid attention-oriented experience replay for deep reinforcement learning and its application to a multi-robot cooperative hunting problem | |
Subha et al. | An optimal approach to enhance context aware description administration service for cloud robots in a deep learning environment | |
JP2023513529A (ja) | ブートストラップされた潜在性の予測を使用するエージェント制御のための学習環境表現 | |
Best et al. | SPA: verbal interactions between agents and avatars in shared virtual environments using propositional planning | |
WO2023170067A1 (en) | Processing network inputs using partitioned attention | |
Reforgiato Recupero et al. | A flexible and scalable architecture for human-robot interaction | |
US12033055B2 (en) | Gated attention neural networks | |
US20220383076A1 (en) | Machine learning models for behavior understanding | |
Briouya et al. | Overview of the progression of state-of-the-art language models | |
Löckelt | Action planning for virtual human performances | |
Yamada et al. | Dynamical linking of positive and negative sentences to goal-oriented robot behavior by hierarchical rnn | |
Vrečko | Združevanje večmodalne informacije in čezmodalno učenje v umetnih spoznavnih sistemih | |
Fonfara et al. | Imitating dialog strategies under uncertainty |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220517 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230724 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7337265 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |