JP2020506488A - バッチ再正規化層 - Google Patents
バッチ再正規化層 Download PDFInfo
- Publication number
- JP2020506488A JP2020506488A JP2019543328A JP2019543328A JP2020506488A JP 2020506488 A JP2020506488 A JP 2020506488A JP 2019543328 A JP2019543328 A JP 2019543328A JP 2019543328 A JP2019543328 A JP 2019543328A JP 2020506488 A JP2020506488 A JP 2020506488A
- Authority
- JP
- Japan
- Prior art keywords
- layer
- neural network
- component
- batch
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 237
- 238000012549 training Methods 0.000 claims abstract description 126
- 238000010606 normalization Methods 0.000 claims abstract description 43
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 41
- 230000009466 transformation Effects 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000003860 storage Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 19
- 230000001131 transforming effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 abstract description 14
- 238000012545 processing Methods 0.000 description 25
- 230000009471 action Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
Description
[-dmax, dmax]
の形式の範囲にあるように制限されてもよく、ここでdmaxは正の値である。アフィン変換のパラメータの値が、所定の範囲外にあると決定される場合、バッチ再正規化層は、パラメータ値が所定の範囲にあるようにするためにパラメータ値をクリッピングする。アフィン変換パラメータの許容値の所定の範囲は、トレーニング反復間で異なる場合がある。たとえば、アフィン変換パラメータの許容値の所定の範囲のサイズは、サイズが所定の最大値に達するまで、反復数につれて徐々に拡大してもよい。
μ←μ+α(μB-μ)
σ←σ+α(σB-σ)
の関係に従って、各トレーニング反復で成分ごとの移動正規化統計値を更新し、ここで←は代入演算を示し、σBはバッチの成分の標準偏差正規化統計値であり、σは成分の標準偏差移動正規化統計値であり、μBは成分のバッチの成分の平均正規化統計値であり、μは成分の平均移動正規化統計値である。
102 トレーニング例
104 ニューラルネットワーク層A
106 層A出力
108 バッチ再正規化層
110 バッチ再正規化層出力
112 ニューラルネットワーク層B
120 ニューラルネットワーク
Claims (27)
第1のニューラルネットワーク層と第2のニューラルネットワーク層との間のバッチ再正規化層であって、前記第1のニューラルネットワーク層が、複数の成分を有する第1の層出力を生成し、前記バッチ再正規化層が、トレーニング例の現在のバッチでの前記ニューラルネットワークのトレーニング中に、
トレーニング例の前のバッチでの前記ニューラルネットワークのトレーニング中に前記第1のニューラルネットワーク層によって生成された前の第1の層出力に基づく前記複数の成分の各々についてそれぞれの現在の移動正規化統計値を取得することと、
前記現在のバッチ中のトレーニング例ごとにそれぞれの第1の層出力を受け取ることと、
前記現在のバッチ中の前記トレーニング例について前記第1の層出力から前記複数の成分の各々についてそれぞれの現在のバッチ正規化統計値を計算することと、
前記現在の移動正規化統計値および前記現在のバッチ正規化統計値から前記複数の成分の各々についてアフィン変換のためのそれぞれのアフィン変換パラメータを決定することと
を行い、
前記現在のバッチ中の前記トレーニング例の各々に対する前記第1の層出力の各々について、
前記トレーニング例について正規化された層出力を生成するために、前記成分の前記現在のバッチ正規化統計値を使用して前記第1の層出力の各成分を正規化することと、
前記トレーニング例について再正規化された層出力を生成するために、前記成分の前記アフィン変換パラメータに従って前記正規化された層出力の各成分に前記アフィン変換を適用することと、
前記再正規化された層出力から前記トレーニング例についてバッチ再正規化層出力を生成することと、
前記第2のニューラルネットワーク層への入力として前記バッチ再正規化層出力を提供することと
を行うように構成される、バッチ再正規化層
を備える、システム。
前記成分の更新された移動正規化統計値を生成するために、前記成分の前記現在のバッチ正規化統計値を使用して成分ごとの前記現在の移動正規化統計値を更新する
ようにさらに構成される、請求項1に記載のシステム。
前記前の第1の層出力に対する前記成分の移動平均と、
前記第1の層出力の前記成分に対する移動近似標準偏差と
を含み、
前記第1の層出力に対する複数の現在のバッチ正規化統計値を計算することが、前記成分の各々について、
前記現在のバッチ中の前記第1の層出力について前記成分の平均を計算することと、
前記現在のバッチ中の前記第1の層出力の前記成分について近似標準偏差を計算することと
を含む、請求項1から5のいずれか一項に記載のシステム。
前記成分について前記計算された平均および計算された近似標準偏差を使用して前記第1の層出力の前記成分を正規化すること
を含む、請求項6に記載のシステム。
(i)前記成分についての前記平均と前記成分についての前記移動平均との差と、(ii)前記成分についての前記移動近似標準偏差との比率から、前記成分についての第1のパラメータを決定することと、
前記成分についての前記近似標準偏差と、前記成分についての前記移動近似標準偏差との比率から、前記成分についての第2のパラメータを決定することと
を含む、請求項6または7に記載のシステム。
積を生成するために、前記正規化された層出力の前記成分に、前記成分についての前記第2のパラメータを乗算することと、
前記再正規化された層出力の前記成分を生成するために、前記成分についての前記第1の変換を前記積に加算することと
を含む、請求項8に記載のシステム。
成分ごとに、前記成分の学習可能なパラメータのセットの現在値に従って、前記トレーニング例について前記再正規化された層出力の前記成分を変換すること
を含む、請求項1から11のいずれか一項に記載のシステム。
新しいニューラルネットワーク入力に対して前記第1のニューラルネットワーク層によって生成された新しい第1の層出力を受け取ることと、
新しい再正規化された層出力を生成するために、前記成分のそれぞれのあらかじめ計算された正規化統計値を使用して前記新しい第1の層出力の各成分を正規化することと、
成分ごとに、前記成分の学習可能なパラメータの前記セットの前記トレーニング値に従って前記新しい再正規化された層出力の前記成分を変換することによって、新しいバッチ再正規化層出力を生成することと、
前記バッチ再正規化層出力を新しい層入力として前記第2のニューラルネットワーク層に提供することと
を行うように構成される、請求項12に記載のシステム。
完了したトレーニング反復の数がトレーニング反復の所定のしきい値数未満である場合、前記スケールパラメータ値が1であり、前記バイアスパラメータ値がゼロであると決定すること
を含む、請求項1から15のいずれか一項に記載のシステム。
前記成分を所定の範囲にあるようにするために、前記再正規化された層出力の各成分をクリッピングすること
をさらに含む、請求項1から16のいずれか一項に記載のシステム。
前記ニューラルネットワークが、ニューラルネットワーク入力を受け取り、前記ニューラルネットワーク入力の各々についてそれぞれのニューラルネットワーク出力を生成するために前記ニューラルネットワークを処理するように構成され、
前記ニューラルネットワークが、請求項1から23のいずれか一項に記載のバッチ再正規化層を含む、
ニューラルネットワークを実装させる命令を記憶する1つまたは複数のストレージデバイスと
を備える、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762457649P | 2017-02-10 | 2017-02-10 | |
US62/457,649 | 2017-02-10 | ||
PCT/US2018/017597 WO2018148526A1 (en) | 2017-02-10 | 2018-02-09 | Batch renormalization layers |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020506488A true JP2020506488A (ja) | 2020-02-27 |
JP6876814B2 JP6876814B2 (ja) | 2021-05-26 |
Family
ID=61283320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019543328A Active JP6876814B2 (ja) | 2017-02-10 | 2018-02-09 | バッチ再正規化層 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10671922B2 (ja) |
EP (1) | EP3563306B1 (ja) |
JP (1) | JP6876814B2 (ja) |
KR (1) | KR102300614B1 (ja) |
CN (1) | CN110291540A (ja) |
WO (1) | WO2018148526A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022259566A1 (ja) * | 2021-06-09 | 2022-12-15 | コニカミノルタ株式会社 | ニューラル・ネットワーク・システム |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3563306B1 (en) | 2017-02-10 | 2023-12-06 | Google LLC | Batch renormalization layers |
US11934944B2 (en) | 2018-10-04 | 2024-03-19 | International Business Machines Corporation | Neural networks using intra-loop data augmentation during network training |
US20200134448A1 (en) * | 2018-10-31 | 2020-04-30 | Google Llc | Quantizing neural networks with batch normalization |
US10325185B1 (en) * | 2019-01-23 | 2019-06-18 | StradVision, Inc. | Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same |
US11562201B2 (en) * | 2019-02-25 | 2023-01-24 | Microsoft Technology Licensing, Llc | Neural network layer processing with normalization and transformation of data |
KR102046113B1 (ko) * | 2019-03-19 | 2019-11-18 | 주식회사 루닛 | 신경망 학습 방법 및 그 장치 |
CN110390394B (zh) * | 2019-07-19 | 2021-11-05 | 深圳市商汤科技有限公司 | 批归一化数据的处理方法及装置、电子设备和存储介质 |
CN112801287A (zh) * | 2021-01-26 | 2021-05-14 | 商汤集团有限公司 | 神经网络性能评估方法及装置、电子设备及存储介质 |
WO2023028908A1 (en) * | 2021-09-01 | 2023-03-09 | Intel Corporation | Dynamic temporal normalization for deep learning in video understanding applications |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018508879A (ja) * | 2015-01-28 | 2018-03-29 | グーグル エルエルシー | バッチ正規化レイヤ |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05346915A (ja) * | 1992-01-30 | 1993-12-27 | Ricoh Co Ltd | 学習機械並びにニューラルネットワークおよびデータ分析装置並びにデータ分析方法 |
WO2006000103A1 (en) * | 2004-06-29 | 2006-01-05 | Universite De Sherbrooke | Spiking neural network and use thereof |
JP2015215837A (ja) * | 2014-05-13 | 2015-12-03 | 株式会社デンソー | 演算処理装置 |
US10289962B2 (en) * | 2014-06-06 | 2019-05-14 | Google Llc | Training distilled machine learning models |
CN106127702B (zh) * | 2016-06-17 | 2018-08-14 | 兰州理工大学 | 一种基于深度学习的图像去雾方法 |
CN106326984A (zh) * | 2016-08-09 | 2017-01-11 | 北京京东尚科信息技术有限公司 | 用户意图识别方法和装置、自动应答系统 |
EP3563306B1 (en) | 2017-02-10 | 2023-12-06 | Google LLC | Batch renormalization layers |
-
2018
- 2018-02-09 EP EP18707480.2A patent/EP3563306B1/en active Active
- 2018-02-09 KR KR1020197026511A patent/KR102300614B1/ko active IP Right Grant
- 2018-02-09 JP JP2019543328A patent/JP6876814B2/ja active Active
- 2018-02-09 WO PCT/US2018/017597 patent/WO2018148526A1/en unknown
- 2018-02-09 CN CN201880011378.8A patent/CN110291540A/zh active Pending
-
2019
- 2019-07-01 US US16/459,057 patent/US10671922B2/en active Active
-
2020
- 2020-04-21 US US16/854,352 patent/US11887004B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018508879A (ja) * | 2015-01-28 | 2018-03-29 | グーグル エルエルシー | バッチ正規化レイヤ |
Non-Patent Citations (2)
Title |
---|
IOFFE, SERGEY ほか: "Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models", ARXIV[ONLINE], JPN6020044428, 10 February 2017 (2017-02-10), ISSN: 0004390396 * |
LIAO, QIANLI ほか: "Streaming Normalization: Towards Simpler and More Biologically-plausible Normalizations for Online a", ARXIV[ONLINE], JPN6020044427, 19 October 2016 (2016-10-19), ISSN: 0004390395 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022259566A1 (ja) * | 2021-06-09 | 2022-12-15 | コニカミノルタ株式会社 | ニューラル・ネットワーク・システム |
JP7211556B1 (ja) * | 2021-06-09 | 2023-01-24 | コニカミノルタ株式会社 | ニューラル・ネットワーク・システム |
Also Published As
Publication number | Publication date |
---|---|
US11887004B2 (en) | 2024-01-30 |
CN110291540A (zh) | 2019-09-27 |
KR20190113952A (ko) | 2019-10-08 |
EP3563306B1 (en) | 2023-12-06 |
WO2018148526A1 (en) | 2018-08-16 |
EP3563306A1 (en) | 2019-11-06 |
JP6876814B2 (ja) | 2021-05-26 |
US20190325315A1 (en) | 2019-10-24 |
KR102300614B1 (ko) | 2021-09-09 |
US20200250543A1 (en) | 2020-08-06 |
US10671922B2 (en) | 2020-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6876814B2 (ja) | バッチ再正規化層 | |
US11321542B2 (en) | Processing text sequences using neural networks | |
US20200293862A1 (en) | Training action selection neural networks using off-policy actor critic reinforcement learning | |
KR102448389B1 (ko) | 어텐션-기반의 시퀀스 변환 신경망 | |
US11928601B2 (en) | Neural network compression | |
US11922281B2 (en) | Training machine learning models using teacher annealing | |
US20210049298A1 (en) | Privacy preserving machine learning model training | |
WO2018153806A1 (en) | Training machine learning models | |
US20240127058A1 (en) | Training neural networks using priority queues | |
US20210034973A1 (en) | Training neural networks using learned adaptive learning rates | |
US10824946B2 (en) | Training neural networks using posterior sharpening | |
WO2021094513A1 (en) | Depth-parallel training of neural networks | |
US20230107247A1 (en) | Neural networks with transformed activation function layers | |
WO2022051548A1 (en) | Conditional output generation through data density gradient estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191007 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6876814 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE Ref document number: 6876814 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |