JP7408788B2 - 過去の入力に選択的に注意を向けるための注意ベースのニューラルネットワークの拡張 - Google Patents
過去の入力に選択的に注意を向けるための注意ベースのニューラルネットワークの拡張 Download PDFInfo
- Publication number
- JP7408788B2 JP7408788B2 JP2022519300A JP2022519300A JP7408788B2 JP 7408788 B2 JP7408788 B2 JP 7408788B2 JP 2022519300 A JP2022519300 A JP 2022519300A JP 2022519300 A JP2022519300 A JP 2022519300A JP 7408788 B2 JP7408788 B2 JP 7408788B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- network
- layer
- attention
- hidden states
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 104
- 238000000034 method Methods 0.000 claims description 57
- 230000006835 compression Effects 0.000 claims description 54
- 238000007906 compression Methods 0.000 claims description 54
- 230000001073 episodic memory Effects 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 34
- 230000007246 mechanism Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 31
- 230000001667 episodic effect Effects 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 27
- 230000004913 activation Effects 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 8
- 238000003491 array Methods 0.000 claims description 6
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000001994 activation Methods 0.000 claims 6
- 230000015654 memory Effects 0.000 description 63
- 230000008569 process Effects 0.000 description 24
- 238000010801 machine learning Methods 0.000 description 23
- 238000004590 computer program Methods 0.000 description 18
- 230000009466 transformation Effects 0.000 description 15
- 230000009471 action Effects 0.000 description 13
- 239000013598 vector Substances 0.000 description 13
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000036541 health Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Robotics (AREA)
- Image Analysis (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Image Processing (AREA)
- Feedback Control In General (AREA)
Description
本出願は、2019年9月25日に出願された米国仮出願第62/906,078号の優先権を主張する。先行出願の開示は、本出願の開示の一部と見なされ、参照により本出願の開示に組み込まれる。
102 入力、入力シーケンス
104 入力シーケンス
110 注意ニューラルネットワーク
112 入力シーケンス
120 注意層
122 出力シーケンス
124 入力シーケンス
124 隠れ状態
128 隠れ状態
130 エピソード記憶
134 隠れ状態
138 隠れ状態
140 圧縮記憶
152 ネットワーク出力
160 圧縮エンジン
200 プロセス
300 プロセス
410 入力シーケンス
410 現在のシーケンス
420 エピソード記憶
430 圧縮記憶
Claims (18)
前記ニューラルネットワーク内の注意層ごとに、
前記シーケンス内の前記特定のネットワーク入力に先行する前のネットワーク入力の第1の部分について前記注意層によって処理されたそれぞれの隠れ状態を含む、対応するエピソード記憶データを維持するステップと、
前記シーケンス内の前のネットワーク入力の前記第1の部分に先行する前のネットワーク入力の第2の部分について前記注意層によって処理されたそれぞれの隠れ状態の圧縮表現を含む、対応する圧縮記憶データを維持するステップと、
前記ニューラルネットワークを使用した前記特定のネットワーク入力の処理中に、前記注意層によって処理される層入力を受信するステップと、
(i)前記注意層のための前記圧縮記憶データ内の前記圧縮表現と、(ii)前記注意層のための前記エピソード記憶データ内の前記隠れ状態と、(iii)前記層入力における入力位置ごとにそれぞれのアクティブ化を生成するための、前記特定のネットワーク入力における前記複数の入力位置の各々における前記それぞれの隠れ状態とに注意メカニズムを適用するステップと
を備える、方法。
前のネットワーク入力の前記第1の部分における最も初期のネットワーク入力の前記それぞれの隠れ状態の圧縮表現を含むように前記圧縮記憶データを更新するステップと
をさらに備える、請求項1に記載の方法。
圧縮率を決定するステップと、
圧縮表現を生成するために、前記圧縮率に従って、前記最も初期のネットワーク入力の前記それぞれの隠れ状態と、前のネットワーク入力の前記第2の部分について前記注意層によって処理された前記それぞれの隠れ状態を圧縮するステップと、
前記生成された圧縮表現を含むように前記圧縮記憶データを修正するステップと
を備える、請求項1または2に記載の方法。
前記最も初期のネットワーク入力の前記それぞれの隠れ状態と、前記圧縮率に等しいストライドで前のネットワーク入力の前記第2の部分について前記注意層によって処理された前記それぞれの隠れ状態とに最大プーリング関数を適用するステップを備える、請求項3または4に記載の方法。
前記最も初期のネットワーク入力の前記それぞれの隠れ状態と、前記圧縮率に等しいストライドで前のネットワーク入力の前記第2の部分について前記注意層によって処理された前記それぞれの隠れ状態とに平均プーリング関数を適用するステップを備える、請求項3または4に記載の方法。
前記最も初期のネットワーク入力および前のネットワーク入力の前記第2の部分における前記複数の入力位置に関連付けられるそれぞれのアクティブ化の重みの降順で、前記最も初期のネットワーク入力の前記それぞれの隠れ状態と、前のネットワーク入力の前記第2の部分について前記注意層によって処理された前記それぞれの隠れ状態とをソートするステップと、
前記最も初期のネットワーク入力における位置のそれぞれの隠れ状態と、最小のアクティブ化の重みに関連付けられる前のネットワーク入力の前記第2の部分について前記注意層によって処理された前記それぞれの隠れ状態を破棄するステップと
を備える、請求項3または4に記載の方法。
1D畳み込み関数のカーネルサイズを決定するステップと、
前記最も初期のネットワーク入力の前記それぞれの隠れ状態と、前記圧縮率に等しいストライドでおよび前記決定されたカーネルサイズに等しいカーネルサイズで前のネットワーク入力の前記第2の部分について前記注意層によって処理された前記それぞれの隠れ状態とに前記1D畳み込み関数を適用するステップと
を備える、請求項3または4に記載の方法。
前記最も初期のネットワーク入力の前記それぞれの隠れ状態と、前のネットワーク入力の前記第2の部分について前記注意層によって処理された前記それぞれの隠れ状態に、多層拡張1D畳み込み関数を適用するステップを備える、請求項3または4に記載の方法。
前記ニューラルネットワーク内の注意層ごとに、
前記以前のネットワーク入力に先行する前のネットワーク入力の前記注意層によって処理されるそれぞれの隠れ状態を含む、対応するエピソード記憶データを維持するステップと、
前記ニューラルネットワークを使用した前記以前のネットワーク入力の処理中に、前記注意層によって処理される層入力を受信するステップと、
(i)前記注意層のための前記エピソード記憶データにおける前記隠れ状態と、(ii)前記層入力における入力位置ごとにそれぞれのアクティブ化を生成するために、前記以前のネットワーク入力における前記複数の入力位置の各々における前記それぞれの隠れ状態に注意メカニズムを適用するステップと、
前記以前のネットワーク入力における入力位置ごとの前記それぞれの隠れ状態を含むように、エピソード記憶データを更新するステップと
をさらに備える、請求項10に記載の方法。
前記特定のネットワーク入力における入力位置ごとの前記それぞれの隠れ状態を含むように前記エピソード記憶データを更新するステップが、
前記多次元配列の同じ次元に沿って2つの前記多次元配列を連結するステップを備える、請求項1から12のいずれか一項に記載の方法。
2つの連続する更新ごとにトレーニングニューラルネットワーク入力の数を徐々に増加させる、請求項1から14のいずれか一項に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962906078P | 2019-09-25 | 2019-09-25 | |
US62/906,078 | 2019-09-25 | ||
PCT/EP2020/076759 WO2021058663A1 (en) | 2019-09-25 | 2020-09-24 | Augmenting attention-based neural networks to selectively attend to past inputs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022549893A JP2022549893A (ja) | 2022-11-29 |
JP7408788B2 true JP7408788B2 (ja) | 2024-01-05 |
Family
ID=72670693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022519300A Active JP7408788B2 (ja) | 2019-09-25 | 2020-09-24 | 過去の入力に選択的に注意を向けるための注意ベースのニューラルネットワークの拡張 |
Country Status (8)
Country | Link |
---|---|
US (2) | US11829884B2 (ja) |
EP (1) | EP4018384A1 (ja) |
JP (1) | JP7408788B2 (ja) |
CN (1) | CN114467096A (ja) |
AU (1) | AU2020352594B2 (ja) |
CA (1) | CA3155096A1 (ja) |
IL (1) | IL291346A (ja) |
WO (1) | WO2021058663A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3688672B1 (en) * | 2017-10-27 | 2024-06-19 | Google LLC | Attention-based decoder-only sequence transduction neural networks |
US20220207408A1 (en) * | 2020-12-28 | 2022-06-30 | Ati Technologies Ulc | Mapping machine learning activation data to a representative value palette |
WO2023059831A1 (en) * | 2021-10-06 | 2023-04-13 | Google Llc | Using memory to augment self-attention in neural networks |
CN114528989B (zh) * | 2022-04-24 | 2022-09-09 | 深圳比特微电子科技有限公司 | 注意力机制电路 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017201444A1 (en) | 2016-05-20 | 2017-11-23 | Google Llc | Classifying input examples using a comparison set |
WO2019081782A1 (en) | 2017-10-27 | 2019-05-02 | Deepmind Technologies Limited | AUTOMATIC LEARNING SYSTEMS WITH PARAMETER-BASED PARAMETER ADAPTATION FOR RAPID OR LOWER LEARNING |
JP2019075088A (ja) | 2017-10-16 | 2019-05-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 文章生成モデルのアップデート方法及び文章生成装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10664744B2 (en) * | 2015-10-13 | 2020-05-26 | Facebook, Inc. | End-to-end memory networks |
US10867595B2 (en) * | 2017-05-19 | 2020-12-15 | Baidu Usa Llc | Cold fusing sequence-to-sequence models with language models |
US11556778B2 (en) * | 2018-12-07 | 2023-01-17 | Microsoft Technology Licensing, Llc | Automated generation of machine learning models |
US20210089867A1 (en) * | 2019-09-24 | 2021-03-25 | Nvidia Corporation | Dual recurrent neural network architecture for modeling long-term dependencies in sequential data |
-
2020
- 2020-09-24 AU AU2020352594A patent/AU2020352594B2/en active Active
- 2020-09-24 CA CA3155096A patent/CA3155096A1/en active Pending
- 2020-09-24 EP EP20781464.1A patent/EP4018384A1/en active Pending
- 2020-09-24 WO PCT/EP2020/076759 patent/WO2021058663A1/en unknown
- 2020-09-24 JP JP2022519300A patent/JP7408788B2/ja active Active
- 2020-09-24 CN CN202080067175.8A patent/CN114467096A/zh active Pending
- 2020-09-25 US US17/033,396 patent/US11829884B2/en active Active
-
2022
- 2022-03-14 IL IL291346A patent/IL291346A/en unknown
-
2023
- 2023-10-12 US US18/486,060 patent/US20240046103A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017201444A1 (en) | 2016-05-20 | 2017-11-23 | Google Llc | Classifying input examples using a comparison set |
JP2019075088A (ja) | 2017-10-16 | 2019-05-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 文章生成モデルのアップデート方法及び文章生成装置 |
WO2019081782A1 (en) | 2017-10-27 | 2019-05-02 | Deepmind Technologies Limited | AUTOMATIC LEARNING SYSTEMS WITH PARAMETER-BASED PARAMETER ADAPTATION FOR RAPID OR LOWER LEARNING |
Non-Patent Citations (1)
Title |
---|
LI, Shiyang et al.,Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting,arXiv.org [online],2019年06月29日,pp. 1-13,[検索日 2023.07.10], インターネット:<URL:https://arxiv.org/pdf/1907.00235v1.pdf>,<DOI: 10.48550/arXiv.1907.00235> |
Also Published As
Publication number | Publication date |
---|---|
US20210089829A1 (en) | 2021-03-25 |
US11829884B2 (en) | 2023-11-28 |
IL291346A (en) | 2022-05-01 |
AU2020352594B2 (en) | 2023-09-21 |
CN114467096A (zh) | 2022-05-10 |
EP4018384A1 (en) | 2022-06-29 |
CA3155096A1 (en) | 2021-04-01 |
US20240046103A1 (en) | 2024-02-08 |
JP2022549893A (ja) | 2022-11-29 |
WO2021058663A1 (en) | 2021-04-01 |
AU2020352594A1 (en) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11869530B2 (en) | Generating audio using neural networks | |
JP7408788B2 (ja) | 過去の入力に選択的に注意を向けるための注意ベースのニューラルネットワークの拡張 | |
KR102486348B1 (ko) | 어텐션-기반의 시퀀스 변환 신경망 | |
US11948066B2 (en) | Processing sequences using convolutional neural networks | |
KR102392094B1 (ko) | 컨볼루션 신경망을 이용한 시퀀스 프로세싱 | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
CN111833849A (zh) | 语音识别和语音模型训练的方法及存储介质和电子设备 | |
CN117744793A (zh) | 多模态知识图谱训练和预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220524 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7408788 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |