JP2020149719A - バッチ正規化レイヤ - Google Patents

バッチ正規化レイヤ Download PDF

Info

Publication number
JP2020149719A
JP2020149719A JP2020092300A JP2020092300A JP2020149719A JP 2020149719 A JP2020149719 A JP 2020149719A JP 2020092300 A JP2020092300 A JP 2020092300A JP 2020092300 A JP2020092300 A JP 2020092300A JP 2020149719 A JP2020149719 A JP 2020149719A
Authority
JP
Japan
Prior art keywords
layer
neural network
layer output
output
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020092300A
Other languages
English (en)
Other versions
JP6935542B2 (ja
Inventor
セルゲイ・ヨッフェ
Ioffe Sergey
コリーナ・コルテス
Cortes Corinna
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2020149719A publication Critical patent/JP2020149719A/ja
Priority to JP2021137180A priority Critical patent/JP7179935B2/ja
Application granted granted Critical
Publication of JP6935542B2 publication Critical patent/JP6935542B2/ja
Priority to JP2022183459A priority patent/JP2023029845A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Abstract

【課題】効率的にトレーニング可能なニューラル・ネットワークを提供する。【解決手段】本発明の一態様に係る、ニューラル・ネットワークのトレーニング方法は、トレーニングデータの複数のバッチでのトレーニング中に、各バッチについて、バッチ内の各トレーニング例に対する各第1のレイヤ出力を受信するステップと、各次元について、第1のレイヤ出力の成分の平均および標準偏差を計算するステップと、第1のレイヤ出力の各成分を正規化し、バッチ内の各トレーニング例に対する正規化されたレイヤ出力を生成するステップであって、各第1のレイヤ出力ごとに、かつ複数の成分の各々ごとに、成分に対応する次元に対する平均および標準偏差を用いて第1のレイヤ出力の成分を正規化するステップを含む、ステップと、正規化されたレイヤ出力から、トレーニング例の各々に対する各バッチ正規化レイヤ出力を生成し、第2のニューラル・ネットワーク・レイヤに提供するステップを含む。【選択図】図1

Description

本明細書は、出力を生成するためのニューラル・ネットワークのレイヤを通じて入力を処理することに関する。
ニューラル・ネットワークは、非線形ユニットの1つまたは複数のレイヤを用いて受信された入力に対する出力を予測する機械学習モデルである。幾つかのニューラル・ネットワークは、出力レイヤに加えて1つまたは複数の隠れたレイヤを含む。各隠れたレイヤの出力が、当該ネットワーク内の次のレイヤへ、即ち、次の隠れたレイヤまたは出力レイヤの入力として使用される。当該ネットワークの各レイヤは、各組のパラメータの現在の値に従って受信された入力から出力を生成する。
一般に、本明細書で説明する主題の1つの進歩的な態様を、第1のニューラル・ネットワーク・レイヤと第2のニューラル・ネットワーク・レイヤの間のバッチ正規化レイヤを備えた1つまたは複数のコンピュータにより実装されるニューラル・ネットワーク・システムであって、当該第1のニューラル・ネットワーク・レイヤは複数の成分を有する第1のレイヤ出力を生成し、当該バッチ正規化レイヤは、トレーニング例のバッチでの当該ニューラル・ネットワーク・システムのトレーニング中に、当該バッチ内のトレーニング例ごとにそれぞれの第1のレイヤ出力を受信し、当該第1のレイヤ出力からの当該バッチに対する複数の正規化統計値を計算し、当該正規化統計値を用いて各第1のレイヤ出力の各成分を正規化して、当該バッチ内のトレーニング例ごとにそれぞれの正規化されたレイヤ出力を生成し、当該正規化されたレイヤ出力からの当該トレーニング例の各々に対するそれぞれのバッチ正規化レイヤ出力を生成し、バッチ正規化レイヤ出力を入力として当該第2のニューラル・ネットワーク・レイヤに提供するように構成される、ニューラル・ネットワーク・システムで具体化することができる。
1つまたは複数のコンピュータのシステムが特定の動作またはアクションを実施するように構成されているとは、当該システムが、動作中に当該動作またはアクションを当該システムに実施させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せをインストールしていることを意味する。1つまたは複数のコンピュータ・プログラムが特定の動作またはアクションを実施するように構成されているとは、当該1つまたは複数のプログラムが、データ処理装置により実行されたとき、当該装置に当該動作またはアクションを実施させる命令を含むことを意味する。
本明細書で説明する主題の特定の実施形態を実装して、以下の利点の1つまたは複数を実現することができる。1つまたは複数のバッチ正規化レイヤを含むニューラル・ネットワーク・システムは、任意のバッチ正規化レイヤを含まない理想的なニューラル・ネットワークよりも迅速にトレーニングされることができる。例えば、1つまたは複数のバッチ正規化レイヤを当該ニューラル・ネットワーク・システムに含めることによって、トレーニング中に所与のレイヤの入力の配分が変化することにより生ずる問題を軽減することができる。これにより、より高い学習速度をトレーニング中に効果的に使用でき、どのようにパラメータが当該トレーニングプロセスで初期化されるかの影響を軽減することができる。さらに、トレーニング中に、バッチ正規化レイヤは正規化器として動作でき、トレーニング中に使用すべき他の正規化技術、例えば、ドロップアウトの必要性を削減することができる。トレーニングされると、或る正規化レイヤを含むニューラル・ネットワーク・システムは、理想的なニューラル・ネットワーク・システムにより生成されたニューラル・ネットワーク出力より正確でないとしても、それと同等に正確であるニューラル・ネットワーク出力を生成することができる。
本明細書の主題の1つまたは複数の実施形態の詳細を添付図面および下記の説明で説明する。当該主題の他の特徴、態様、および利点は当該説明、図面、および特許請求の範囲から明らかになろう。
例示的なニューラル・ネットワーク・システムを示す図である。 当該ニューラル・ネットワーク・システムのトレーニング中にバッチ正規化レイヤを用いて入力を処理するための例示的なプロセスの流れ図である。 当該ニューラル・ネットワーク・システムがトレーニングされた後にバッチ正規化を用いて入力を処理するための例示的なプロセスの流れ図である。
様々な図面における同じ参照番号および指定は同じ要素を示す。
本明細書は、バッチ正規化レイヤを含む1つまたは複数の位置における1つまたは複数のコンピュータ上のコンピュータ・プログラムとして実装されるニューラル・ネットワーク・システムを説明する。
図1は例示的なニューラル・ネットワーク・システム100を示す。ニューラル・ネットワーク・システム100は、後述のシステム、コンポーネント、および技術を実装できる1つまたは複数の位置における1つまたは複数のコンピュータ上のコンピュータ・プログラムとして実装されるシステムの1例である。
ニューラル・ネットワーク・システム100は、最下位のレイヤから最上位のレイヤへ順番に配置された複数のニューラル・ネットワーク・レイヤを含む。ニューラル・ネットワーク・システムは、当該シーケンス内のレイヤの各々を通じてニューラル・ネットワークの入力を処理することにより、ニューラル・ネットワークの出力をニューラル・ネットワークの入力から生成する。
ニューラル・ネットワーク・システム100を、任意の種類のデジタルデータ入力を受信し、当該入力に基づいて任意の種類のスコアまたは分類の出力を生成するように構成することができる。
例えば、ニューラル・ネットワーク・システム100への入力が画像から抽出されている画像または特徴である場合、所与の画像に対してニューラル・ネットワーク・システム100により生成された出力が1組のオブジェクト・カテゴリの各々に対するスコアであってもよく、各スコアは、当該画像が当該カテゴリに属するオブジェクトの画像を含む推定された尤度を表す。
別の例として、ニューラル・ネットワーク・システム100への入力がインターネットリソース(例えば、ウェブ・ページ)、ドキュメント、インターネットリソースから抽出されたドキュメントまたは特徴の一部、ドキュメント、またはドキュメントの部分である場合、所与のインターネットリソース、ドキュメント、またはドキュメントの部分に対するニューラル・ネットワーク・システム100により生成された出力は1組のトピックの各々に対するスコアであってもよい。各スコアは、インターネットリソース、ドキュメント、またはドキュメント部分が当該トピックに関するという推定された尤度を表す。
別の例として、ニューラル・ネットワーク・システム100への入力が特定の広告に対する印象文脈の特徴である場合、ニューラル・ネットワーク・システム100により生成された出力は、当該特定の広告がクリックされるであろうという推定された尤度を表すスコアであってもよい。
別の例として、ニューラル・ネットワーク・システム100への入力が、ユーザに対してパーソナライズされた推薦の特徴、例えば、当該推薦に対する文脈を特徴づける特徴、例えば、ユーザがとった過去のアクションを特徴づける特徴である場合、ニューラル・ネットワーク・システム100により生成された出力は1組のコンテンツ・アイテムの各々に対するスコアであってもよい。各スコアは、当該コンテンツ・アイテムが推薦されることに対してユーザが好んで応答するであろうという推定された尤度を表す。
別の例として、ニューラル・ネットワーク・システム100への入力が或る言語でのテキストである場合、ニューラル・ネットワーク・システム100により生成された出力は別の言語での1組のテキストの各々に対するスコアであってもよい。各スコアは、当該他の言語でのテキストが当該入力テキストの当該他の言語への正確な変換であるという推定された尤度を表す。
別の例として、ニューラル・ネットワーク・システム100への入力が発話、発話のシーケンス、またはこれら2つのうち1つから導出された特徴である場合、ニューラル・ネットワーク・システム100により生成された出力は1組のテキストの各々に対するスコアであってもよい。各スコアは、テキストが発声または発声のシーケンスに対する正確なトランスクリプトであるという推定された尤度を表す。
別の例として、ニューラル・ネットワーク・システム100は、自動入力システムの一部またはテキスト処理システムの一部であることができる。
別の例として、ニューラル・ネットワーク・システム100は、強化学習システムの一部であることができ、エージェントが環境と対話することにより実施されるアクションを選択するために使用される出力を生成することができる。
特に、ニューラル・ネットワークのレイヤの各々は、入力を受信して出力を当該入力から生成するように構成され、当該ニューラル・ネットワーク・レイヤは、ニューラル・ネットワーク・システム100により受信されたニューラル・ネットワーク入力を集合的に処理して、受信されたニューラル・ネットワーク入力ごとにそれぞれのニューラル・ネットワーク出力を生成する。当該シーケンス内のニューラル・ネットワーク・レイヤの一部または全部は当該ニューラル・ネットワーク・レイヤに対する1組のパラメータの現在の値に従って出力を入力から生成する。例えば、幾つかのレイヤは、出力を当該受信された入力から生成することの一部として、当該受信された入力に現在のパラメータ値の行列を乗じてもよい。
ニューラル・ネットワーク・システム100はまた、ニューラル・ネットワーク・レイヤのシーケンス内のニューラル・ネットワーク・レイヤA104とニューラル・ネットワーク・レイヤB112との間にバッチ正規化レイヤ108を含む。バッチ正規化レイヤ108は、ニューラル・ネットワーク・システム100のトレーニング中にニューラル・ネットワーク・レイヤA104から受信された入力に或る1組の動作を実施し、ニューラル・ネットワーク・システム100がトレーニングされた後にニューラル・ネットワーク・レイヤA104から受信された入力に別の1組の動作を実施するように構成される。
特に、ニューラル・ネットワーク・システム100は、当該ニューラル・ネットワーク・レイヤのパラメータのトレーニングされた値を決定するために、トレーニング例の複数のバッチ上でトレーニングされることができる。トレーニング例のバッチは1組の複数のトレーニング例である。例えば、トレーニング中に、ニューラル・ネットワーク・システム100は、トレーニング例のバッチ102を処理し、バッチ102内のトレーニング例ごとにそれぞれのニューラル・ネットワーク出力を生成することができる。当該ニューラル・ネットワーク出力を次いで、当該シーケンス内のニューラル・ネットワークのパラメータレイヤの値を、例えば、従来の勾配降下および誤差逆伝播ニューラル・ネットワークトレーニング技術を通じて調節するために使用することができる。
トレーニング例の所与のバッチ上のニューラル・ネットワーク・システム100のトレーニングの間に、バッチ正規化レイヤ108は、当該バッチ内のトレーニング例に対してニューラル・ネットワーク・レイヤA104により生成されたレイヤA出力106を受信し、レイヤA出力106を処理して、当該バッチ内のトレーニング例ごとにそれぞれのバッチ正規化レイヤ出力110を生成し、次いでバッチ正規化レイヤ出力110を入力としてニューラル・ネットワーク・レイヤB112に提供するように構成される。レイヤA出力106は、当該バッチ内のトレーニング例ごとにニューラル・ネットワーク・レイヤA104により生成されたそれぞれの出力を含む。同様に、バッチ正規化レイヤ出力110は、当該バッチ内のトレーニング例ごとにバッチ正規化レイヤ108により生成されたそれぞれの出力を含む。
一般に、バッチ正規化レイヤ108は、当該バッチに対する1組の正規化統計値をレイヤA出力106から計算し、レイヤA出力106を正規化して、当該バッチ内のトレーニング例ごとにそれぞれの正規化された出力を生成し、場合によっては、当該出力を入力としてニューラル・ネットワーク・レイヤB112に提供する前に当該正規化された出力の各々を変換する。
バッチ正規化レイヤ108により計算された正規化統計値およびバッチ正規化レイヤ108がトレーニング中にレイヤA出力106を正規化する方式は、レイヤA出力106を生成するニューラル・ネットワーク・レイヤA104の性質に依存する。
幾つかの場合、ニューラル・ネットワーク・レイヤA104は、次元によりインデックス化された複数の成分を含む出力を生成するレイヤである。例えば、ニューラル・ネットワーク・レイヤA104は完全に接続されたニューラル・ネットワーク・レイヤであってもよい。幾つかの他のケースでは、しかし、ニューラル・ネットワーク・レイヤA104は、特徴インデックスおよび空間的位置インデックスの両方によりそれぞれインデックス化された複数の成分を含む出力を生成する、畳みこみレイヤまたは他の種類のニューラル・ネットワーク・レイヤである。これらの2つのケースの各々において、ニューラル・ネットワーク・システム100のトレーニング中にバッチ正規化レイヤ出力を生成することを、図2を参照して以下でより詳細に説明する。
ニューラル・ネットワーク・システム100がトレーニングされると、ニューラル・ネットワーク・システム100は、処理のための新たなニューラル・ネットワーク入力を受信し、ニューラル・ネットワーク・レイヤを通じてニューラル・ネットワーク入力を処理して、ニューラル・ネットワーク・システム100の成分のパラメータのトレーニングされた値に従って当該入力に対する新たなニューラル・ネットワーク出力を生成してもよい。当該新たなニューラル・ネットワーク入力の処理中にバッチ正規化レイヤ108により実施される動作はまた、ニューラル・ネットワーク・レイヤA104の性質に依存する。ニューラル・ネットワーク・システム100がトレーニングされた後の新たなニューラル・ネットワーク入力の処理を、図3を参照して以下でより詳細に説明する。
バッチ正規化レイヤ108が、ニューラル・ネットワーク・レイヤのシーケンス内の様々な位置で含まれてもよく、幾つかの実装では、複数のバッチ正規化レイヤは当該シーケンスに含まれてもよい。
図1の例では、幾つかの実装では、ニューラル・ネットワーク・レイヤA104は、第1のニューラル・ネットワーク・レイヤに対する1組のパラメータの現在の値に従って当該レイヤへの入力を修正することによって、例えば、当該レイヤへの入力に当該現在のパラメータ値の行列を乗ずることによって、出力を生成する。これらの実装では、ニューラル・ネットワーク・レイヤB112は出力をバッチ正規化レイヤ108から受信し、非線形動作、即ち、非線形起動機能をバッチ正規化レイヤ出力に適用することによって出力を生成してもよい。したがって、これらの実装では、バッチ正規化レイヤ108は従来のニューラル・ネットワーク・レイヤ内部に挿入され、従来のニューラル・ネットワーク・レイヤの動作はニューラル・ネットワーク・レイヤA104とニューラル・ネットワーク・レイヤB112の間で分割される。
幾つかの他の実装では、ニューラル・ネットワーク・レイヤA104は、1組のパラメータの現在の値に従ってレイヤ入力を修正して修正された第1のレイヤ入力を生成し、次いで出力をバッチ正規化レイヤ108に提供する前に非線形動作を当該修正された第1のレイヤ入力に適用することによって、出力を生成する。したがって、これらの実装では、バッチ正規化レイヤ108は当該シーケンス内の従来のニューラル・ネットワーク・レイヤの後に挿入される。
図2は、トレーニング例のバッチに対するニューラル・ネットワークのトレーニング中にバッチ正規化レイヤ出力を生成するための例示的なプロセス200の流れ図である。便宜上、プロセス200を、1つまたは複数の位置に配置された1つまたは複数のコンピュータのシステムにより実施されるとして説明する。例えば、適切にプログラムされた、ニューラル・ネットワーク・システムに含まれたバッチ正規化レイヤ、例えば、図1のニューラル・ネットワーク・システム100に含まれるバッチ正規化レイヤ108はプロセス200を実施することができる。
バッチ正規化レイヤは、トレーニング例のバッチに対するより低いレイヤ出力を受信する(ステップ202)。このより低いレイヤ出力は、ニューラル・ネットワーク・レイヤのシーケンス内のバッチ正規化レイヤの下のレイヤによりバッチ内のトレーニング例ごとに生成されたそれぞれの出力を含む。
バッチ正規化レイヤは、バッチ内のトレーニング例ごとにそれぞれの正規化された出力を生成する(ステップ204)。即ち、バッチ正規化レイヤは、それぞれの正規化された出力を各受信されたより低いレイヤ出力から生成する。
幾つかの場合、バッチ正規化レイヤの下のレイヤは、次元によりインデックス化された複数の成分を含む出力を生成するレイヤである。
これらのケースでは、バッチ正規化レイヤは、次元ごとに、当該次元に対応するより低いレイヤ出力の成分の平均および標準偏差を計算する。バッチ正規化レイヤは次いで、当該平均および標準偏差を用いて当該より低いレベル出力の各々の各成分を正規化して、バッチ内のトレーニング例の各々に対するそれぞれの正規化された出力を生成する。特に、所与の出力の所与の成分に対して、バッチ正規化レイヤは、当該成分に対応する次元に対して計算された平均および標準偏差を用いて当該成分を正規化する。例えば、幾つかの実装では、バッチβからのi番目のより低いレイヤ出力のk番目の次元に対応する成分
Figure 2020149719
に対して、正規化された出力
Figure 2020149719
Figure 2020149719
を満たす。μBは、バッチβ内のより低いレイヤ出力のk番目の次元に対応する成分の平均であり、σBは、バッチβ内のより低いレイヤ出力のk番目の次元に対応する成分の標準偏差である。幾つかの実装では、当該標準偏差は
Figure 2020149719
に等しい数的に安定な標準偏差であり、εは定数値であり、
Figure 2020149719
は、バッチβ内のより低いレイヤ出力のk番目の次元に対応する成分の分散である。
幾つかの他のケースでは、しかし、バッチ正規化レイヤの下のニューラル・ネットワーク・レイヤは、特徴インデックスおよび空間的位置インデックスの両方によりそれぞれインデックス化された複数の成分を含む出力を生成する、畳みこみレイヤまたは他の種類のニューラル・ネットワーク・レイヤである。
これらのケースの幾つかでは、バッチ正規化レイヤは、可能な特徴インデックスおよび空間的位置インデックスの組合せごとに、特徴インデックスおよび空間的位置インデックスを有するより低いレイヤ出力の成分の平均および分散を計算する。バッチ正規化レイヤは次いで、特徴インデックスごとに、当該特徴インデックスおよび当該特徴インデックスを含む空間的位置インデックスの組合せに対する平均の算術平均を計算する。バッチ正規化レイヤはまた、特徴インデックスごとに、当該特徴インデックスおよび当該特徴インデックスを含む空間的位置インデックスの組合せに対する分散の算術平均を計算する。したがって、当該算術平均を計算した後に、バッチ正規化レイヤは、当該空間的位置の全てにわたる特徴ごとの平均統計と、当該空間的位置の全てにわたる特徴ごとの分散統計とを計算する。
バッチ正規化レイヤは次いで、平均値および算術平均分散を用いてより低いレベルの出力の各々の各成分を正規化して、バッチ内のトレーニング例の各々に対するそれぞれの正規化された出力を生成する。特に、所与の出力の所与の成分に対して、バッチ正規化レイヤは当該成分に対応する特徴インデックスに対する平均値および算術平均分散を用いて、例えば、バッチ正規化レイヤの下のレイヤが次元によりインデックス化された出力を生成するときに上述したのと同一の方式で、当該成分を正規化する。
これらのケースのその他では、バッチ正規化レイヤは、特徴インデックスごとに、当該特徴インデックスに対応する、即ち、当該特徴インデックスを有する、より低いレイヤ出力の成分の平均および分散を計算する。
バッチ正規化レイヤは次いで、特徴インデックスに対する平均および分散を用いてより低いレベル出力の各々の各成分を正規化して、バッチ内のトレーニング例の各々に対するそれぞれの正規化された出力を生成する。特に、所与の出力の所与の成分に対して、バッチ正規化レイヤは、当該成分に対応する特徴インデックスに対する平均および分散を用いて、例えば、バッチ正規化レイヤの下のレイヤが次元によりインデックス化された出力を生成するときに上述したのと同一の方式で、当該成分を正規化する。
場合によっては、バッチ正規化レイヤは各正規化された出力の各成分を変換する(ステップ206)。
バッチ正規化レイヤの下のレイヤが、次元によりインデックス化された複数の成分を含む出力を生成するレイヤであるケースでは、バッチ正規化レイヤは、次元ごとに、当該次元に対する1組のパラメータの現在の値に従って当該次元内の各正規化された出力の成分を変換する。即ち、バッチ正規化レイヤは、次元ごとにそれぞれの1組のパラメータを維持し、これらのパラメータを用いて、当該次元内の正規化された出力の成分に変換を適用する。当該1組のパラメータの値は、ニューラル・ネットワーク・システムのトレーニングの一部として調節される。例えば、幾つかの実装では、正規化された出力
Figure 2020149719
から生成された変換された正規化された出力
Figure 2020149719
Figure 2020149719
を満たす。
Figure 2020149719
は、k番目の次元に対するパラメータである。
バッチ正規化レイヤの下のレイヤが畳みこみレイヤであるケースでは、バッチ正規化レイヤは、正規化された出力の各々の成分ごとに、当該成分に対応する特徴インデックスに対する1組のパラメータの現在の値に従って当該成分を変換する。即ち、バッチ正規化レイヤは、特徴インデックスごとにそれぞれの1組のパラメータを維持し、これらのパラメータを使用して、例えば、バッチ正規化レイヤの下のレイヤを次元によりインデックス化された出力を生成するときに上述したのと同一の方式で、当該特徴インデックスを有する正規化された出力の成分に変換を適用する。当該1組のパラメータの値はニューラル・ネットワーク・システムのトレーニングの一部として調整される。
バッチ正規化レイヤは、正規化された出力または変換された正規化された出力を入力としてシーケンス内のバッチ正規化レイヤの上のレイヤに提供する(ステップ208)。
ニューラル・ネットワークがバッチ内のトレーニング例に対するニューラル・ネットワーク出力を生成した後、正規化された統計値が、当該ニューラル・ネットワークのパラメータの値を調節する一部として、即ち、誤差逆伝播トレーニング技術を実施する一部として、誤差逆伝播される。
図3は、ニューラル・ネットワークがトレーニングされた後に新たなニューラル・ネットワーク入力に対するバッチ正規化レイヤ出力を生成するための例示的なプロセス300の流れ図である。便宜上、プロセス300を、1つまたは複数の位置に位置する1つまたは複数のコンピュータのシステムにより実施されるとして説明する。例えば、適切にプログラムされた、ニューラル・ネットワーク・システムに含まれるバッチ正規化レイヤ、例えば、図1のニューラル・ネットワーク・システム100に含まれるバッチ正規化レイヤ108はプロセス300を実施することができる。
バッチ正規化レイヤは、新たなニューラル・ネットワーク入力に対するより低いレイヤ出力を受信する(ステップ302)。当該より低いレイヤ出力は、ニューラル・ネットワーク・レイヤのシーケンス内のバッチ正規化レイヤの下のレイヤにより当該新たなニューラル・ネットワーク入力に対して生成された出力である。
バッチ正規化レイヤは、当該新たなニューラル・ネットワーク入力に対する正規化された出力を生成する(ステップ304)。
バッチ正規化レイヤの下のレイヤにより生成された出力が次元によりインデックス化される場合、バッチ正規化レイヤは、当該次元の各々に対して予め計算された平均および標準偏差を用いて当該より低いレイヤ出力の各成分を正規化して、正規化された出力を生成する。幾つかの場合、所与の次元に対する平均および標準偏差は、ニューラル・ネットワーク・システムのトレーニング中にバッチ正規化レイヤの下のレイヤにより生成された出力の全ての次元内の成分から計算される。
幾つかの他のケースでは、しかし、所与の次元に対する平均および標準偏差は、トレーニング後にバッチ正規化レイヤの下のレイヤにより生成されたより低いレイヤ出力の次元内の成分から、例えば、指定の期間の直近の時間ウィンドウ内に生成されたより低いレイヤ出力から、またはバッチ正規化レイヤの下のレイヤにより直近に生成された指定数のより低いレイヤ出力から、計算される。
特に、幾つかの場合ネットワーク入力の配分、および、したがって、より低いレイヤ出力の配分は、例えば、新たなニューラル・ネットワーク入力がトレーニング例と異なる種類の入力である場合に、トレーニング中に使用されるトレーニング例とニューラル・ネットワーク・システムがトレーニングされた後に使用される新たなニューラル・ネットワーク入力との間で変化してもよい。例えば、ニューラル・ネットワーク・システムはユーザ画像上でトレーニングされていてもよく、ビデオ・フレームを処理するために使用されてもよい。ユーザ画像およびビデオ・フレームは、撮像されたクラス、画像のプロパティ、構成等の点で異なる配分を有する可能性がある。したがって、トレーニングからの統計値を用いてより低いレイヤ入力を正規化することでは、新たな入力に対して生成されているより低いレイヤ出力の統計値を正確に取得できないかもしれない。したがって、これらのケースでは、バッチ正規化レイヤは、トレーニング後にバッチ正規化レイヤの下のレイヤにより生成されたより低いレイヤ出力から計算された正規化統計値を使用することができる。
バッチ正規化レイヤの下のレイヤにより生成された出力が特徴インデックスおよび空間的位置インデックスによりインデックス化される場合、バッチ正規化レイヤは、当該特徴インデックスの各々に対して予め計算された平均値および平均分散を用いてより低いレイヤ出力の各成分を正規化して、正規化された出力を生成する。幾つかの場合、上述のように、所与の特徴インデックスに対する平均値および平均分散は、トレーニング中に使用されたトレーニング例の全部に対するバッチ正規化レイヤの下のレイヤにより生成された出力から計算される。幾つかの他のケースでは、上述のように、所与の特徴インデックスに対する平均および標準偏差は、トレーニング後にバッチ正規化レイヤの下のレイヤにより生成されたより低いレイヤ出力から計算される。
場合によっては、バッチ正規化レイヤが正規化された出力の各成分を変換する(ステップ306)。
バッチ正規化レイヤの下のレイヤにより生成された出力が次元によりインデックス化される場合、バッチ正規化レイヤは、次元ごとに、当該次元に対する1組のパラメータのトレーニングされた値に従って、当該次元内の正規化された出力の成分を変換する。バッチ正規化レイヤの下のレイヤにより生成された出力が特徴インデックスおよび空間的位置インデックスによりインデックス化される場合、バッチ正規化レイヤは、当該成分に対応する特徴インデックスに対する1組のパラメータのトレーニングされた値に従って、正規化された出力の各成分を変換する。バッチ正規化レイヤは、正規化された出力または変換された正規化された出力を、シーケンス内のバッチ正規化レイヤ上のレイヤへの入力として提供する(ステップ308)。
本明細書で説明した主題の実施形態および当該機能的動作を、デジタル電子回路で、有形に組み込まれたコンピュータソフトウェアまたはファームウェアで、本明細書で開示された構造およびそれらの構造的な均等物を含むコンピュータハードウェアで、またはそれらの1つまたは複数の組合せで実装することができる。本明細書で説明する主題の実施形態を、1つまたは複数のコンピュータ・プログラム、即ち、データ処理装置による実行のためのまたはデータ処理装置の動作を制御するための有形の非一時的プログラムキャリアで符号化されたコンピュータ・プログラム命令の1つまたは複数のモジュールとして実装することができる。あるいはまたはさらに、当該プログラム命令を、人工的に生成された伝播信号、例えば、データ処理装置による実行のために適切な受信器装置に送信するための情報を符号化するために生成された機械生成された電気、光、または電磁気信号上で符号羽化することができる。当該コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムまたはシリアル・アクセス・メモリデバイス、またはそれらの1つまたは複数の組合せであることができる。
「データ処理装置」という用語は、例によりプログラム可能プロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含む、データを処理するための全ての種類の装置、デバイス、および機械を包含する。当該装置は特殊目的ロジック回路、例えば、FPGA(フィールドプログラム可能ゲート・アレイ)またはASIC(特定用途向け集積回路)を含むことができる。当該装置は、また、ハードウェアに加えて、問題のコンピュータ・プログラムに対する実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティング・システム、またはそれらの1つまたは複数の組合せを構成するコードを含むことができる。
コンピュータ・プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードと称するかまたはそれらとして説明してもよい)を、コンパイル型言語またはインタプリタ言語、または宣言型または手続き型言語を含む任意の形態のプログラミング言語で書くことができ、スタンドアロン・プログラムとしてまたはモジュール、成分として、サブルーチン、またはコンピューティング環境での使用に適した他のユニットとしてを含めて、任意の形態で展開することができる。コンピュータ・プログラムがファイルシステム内のファイルに対応してもよいがその必要はない。プログラムを、他のプログラムまたはデータを保持するファイル部分、例えば、マークアップ言語ドキュメントに、問題のプログラムに専用の単一のファイルに、または複数の協調されたファイル、例えば、1つまたは複数のモジュール、サブプログラム、またはコード部分を格納するファイルに格納された1つまたは複数のスクリプトに格納することができる。コンピュータ・プログラムを、1か所に配置されるかまたは複数のサイトにわたって分散し通信ネットワークにより相互接続された1つのコンピュータ上または複数のコンピュータ上で実行されるように展開することができる。
本明細書で説明したプロセスおよびロジックフローを、1つまたは複数のコンピュータ・プログラムを実行する1つまたは複数のプログラム可能コンピュータを実施して、入力データで動作し出力を生成することによって機能を実施することができる。当該プロセスおよびロジックフローをまた、FPGA(フィールドプログラム可能ゲート・アレイ)またはASIC(特定用途向け集積回路)により実施でき、装置はまた、特殊目的ロジック回路、例えば、FPGA(フィールドプログラム可能ゲート・アレイ)またはASIC(特定用途向け集積回路)として実装されることができる。
コンピュータ・プログラムの実行に適したコンピュータは、汎用目的または特殊目的のマイクロプロセッサまたはその両方、または任意の他の種類の中央演算装置を含み、例えば、それらに基づくことができる。一般に、中央演算装置は読取り専用メモリまたはランダム・アクセス・メモリまたはその両方から命令およびデータを受信する。コンピュータの本質的な要素は、命令を実施または実行するための中央演算装置および命令およびデータを格納するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを格納するための1つまたは複数の大容量記憶デバイス、例えば、磁気、磁気光ディスク、または光ディスクを含むか、または、それらからデータを受信するかもしくはそれらにデータを送信するかもしくはその両方を行うために動作可能に接続される。しかし、コンピュータはかかるデバイスを有する必要はない。さらに、コンピュータを、別のデバイス、例えば、ほんの少し例を挙げれば、モバイル電話、携帯情報端末(PDA)、モバイルオーディオまたはビデオプレイヤ、ゲーム・コンソール、全地球測位システム(GPS)受信器、またはポータブル記憶デバイス、例えば、ユニバーサル・シリアル・バス(USB)フラッシュドライブに組み込むことができる。
コンピュータ・プログラム命令およびデータを格納するのに適したコンピュータ可読媒体は、例により半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハード・ディスクまたは取外し可能ディスク、磁気光ディスク、およびCDROMおよびDVD−ROMディスクを含む、あらゆる形態の不揮発性メモリ、媒体およびメモリデバイスを含む。当該プロセッサおよび当該メモリを、特殊目的ロジック回路により補完または特殊目的ロジック回路に組み込むことができる。
ユーザとの対話を提供するために、本明細書で説明する主題の実施形態を、情報をユーザに表示するためのディスプレイデバイス、例えば、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)モニタと、ユーザが入力を当該コンピュータに提供できるキーボードおよびポインティング・デバイス、例えば、マウスまたはトラックボールとを有するコンピュータ上で実装することができる。他種のデバイスを、ユーザとの対話を提供するために使用することができる。例えば、ユーザに提供されるフィードバックは任意の形態のセンサ・フィードバック、例えば、視覚フィードバック、可聴フィードバック、または触覚フィードバックであることができ、ユーザからの入力を音響、会話、または触覚入力を含む任意の形態で受信することができる。さらに、コンピュータは、ユーザにより使用されるデバイスにドキュメントを送受信することによって、例えば、当該ウェブ・ブラウザから受信した要求に応答してウェブ・ページをユーザのクライアントデバイス上のウェブ・ブラウザに送信することによって、ユーザと対話することができる。
本明細書で説明する主題の実施形態を、例えば、データサーバとしてのバック・エンド成分を含むコンピューティング・システムで、またはミドルウェア成分、例えば、アプリケーションサーバを含むコンピューティング・システムで、またはフロント・エンド成分、例えば、ユーザが本明細書で説明する主題の実装と対話できるグラフィカルユーザインタフェースまたはウェブ・ブラウザを有するクライアントコンピュータ、または1つまたは複数のかかるバック・エンド、ミドルウェア、またはフロント・エンド成分の任意の組合せを含むコンピューティング・システムで実装することができる。当該システムの当該成分を、任意の形態または媒体のデジタルデータ通信、例えば、通信ネットワークにより相互接続することができる。通信ネットワークの例はローカル領域ネットワーク(「LAN」)および広域ネットワーク(「WAN」)、例えば、インターネットを含む。
当該コンピューティング・システムはクライアントおよびサーバを含むことができる。クライアントおよびサーバは一般に互いから離れており、一般に通信ネットワークを通じて対話する。クライアントおよびサーバの関係は、当該それぞれのコンピュータ上で実行され互いに対するクライアント−サーバ関係を有するコンピュータ・プログラムにより生ずる。
本明細書は多くの特定の実装詳細を含むが、これらを任意の本発明の範囲またはクレームされうるものの範囲に対する限定と解釈すべきではなく、特定の発明の特定の実施形態に固有でありうる特徴の説明として解釈すべきである。別々の実施形態の文脈において本明細書で説明した特定の特徴をまた、単一の実施形態における組合せで実装することができる。反対に、単一の実施形態の文脈で説明された様々な特徴をまた、複数の実施形態で別々にまたは任意の適切な副次的組合せで実装することができる。さらに、特徴は特定の組合せで動作するとして上述されており、最初はそのようにクレームされているかもしれないが、クレームされた組合せからの1つまたは複数の特徴は、幾つかの場合は当該組合せから実施でき、当該クレームされた組合せは副次的組合せまたは副次的組合せの変形に関してもよい。
同様に、動作は図面において特定の順序で示されているが、これを、所望の結果を達成するために、かかる動作が示した特定の順序でまたは逐次的順序で実施されること、または、全ての図示された動作が実施されることを要求するものとして理解すべきではない。特定の状況では、マルチタスキングおよび並列処理は有利でありうる。さらに、上述の実施形態における様々なシステムモジュールおよび成分の分離は全ての実施形態においてかかる分離を要求するものとして理解されるべきではなく、当該説明したプログラム成分およびシステムを一般に単一のソフトウェア製品に統合するかまたは複数のソフトウェア製品にパッケージ化できることは理解されるべきである。
特定の当該主題の実施形態を説明した。他の実施形態は添付の特許請求の範囲内にある。例えば、特許請求の範囲に記載した動作を、異なる順序で実施して依然として所望の結果を実現することができる。1例として、添付図面に示したプロセスは、所望の結果を達成するために必ずしも示した特定の順序、または逐次的順序を必要としない。特定の実装では、マルチタスキングおよび並列処理は有利であるかもしれない。
100 ニューラル・ネットワーク・システム
102 トレーニング例のバッチ
104 ニューラル・ネットワーク・レイヤA
106 レイヤA出力
108 バッチ正規化レイヤ
110 バッチ正規化レイヤ出力
112 ニューラル・ネットワーク・レイヤB
114 ニューラル・ネットワーク出力

Claims (30)

  1. ニューラル・ネットワーク内の第1のニューラル・ネットワーク・レイヤと第2のニューラル・ネットワーク・レイヤとの間にバッチ正規化レイヤを有するニューラル・ネットワークをトレーニングするための方法であって、前記第1のニューラル・ネットワーク・レイヤは、次元によりインデックス化された複数の成分を有する第1のレイヤ出力を生成し、前記方法が、
    トレーニングデータの複数のバッチでの前記ニューラル・ネットワークのトレーニング中に、複数のトレーニング例を含む各バッチについて、
    前記バッチ内の前記複数のトレーニング例の各々に対する各第1のレイヤ出力を受信するステップと、
    前記次元の各々について、前記次元における前記第1のレイヤ出力の成分の平均を計算するステップと、
    前記次元の各々について、前記次元における前記第1のレイヤ出力の前記成分の標準偏差を計算するステップと、
    前記各第1のレイヤ出力の前記複数の成分の各々を正規化し、前記バッチ内の各トレーニング例に対する各正規化されたレイヤ出力を生成するステップであって、
    前記各第1のレイヤ出力ごとに、かつ前記複数の成分の各々ごとに、前記成分に対応する前記次元に対する前記計算された平均と前記成分に対応する前記次元に対する前記計算された標準偏差とを用いて前記第1のレイヤ出力の前記成分を正規化するステップを含む、前記正規化されたレイヤ出力を生成するステップと、
    前記正規化されたレイヤ出力から、前記トレーニング例の各々に対する各バッチ正規化レイヤ出力を生成するステップと、
    入力として前記バッチ正規化レイヤ出力を前記第2のニューラル・ネットワーク・レイヤに提供するステップと
    を含む、方法。
  2. 前記次元における前記第1のレイヤ出力の前記成分の前記標準偏差が、
    Figure 2020149719
    に等しい数的に安定な標準偏差であり、εは定数値であり、
    Figure 2020149719
    が、前記次元における前記第1のレイヤ出力の前記成分の分散である、請求項1に記載の方法。
  3. 前記正規化されたレイヤ出力からの前記トレーニング例の各々に対する各バッチレイヤ正規化出力を生成するステップが、
    前記トレーニング例の各々に対して、前記次元に対する1組のパラメータの現在の値に従って、前記次元における前記トレーニング例に対する前記正規化されたレイヤ出力の成分を各次元について変換するステップを含む、請求項1に記載の方法。
  4. 前記バッチ正規化レイヤは、
    前記ニューラル・ネットワークが、前記次元の各々に対する前記1組のパラメータのトレーニングされた値を決定するためにトレーニングされた後に、
    新しいニューラル・ネットワーク入力に対する、前記第1のニューラル・ネットワーク・レイヤによって生成される新たな第1のレイヤ出力を受信することと、
    前記次元に対する予め計算された平均および標準偏差の統計値を用いて前記新たな第1のレイヤ出力の各成分を正規化して、新たな正規化されたレイヤ出力を生成することと、
    前記次元に対する前記1組のパラメータのトレーニングされた値に従って、前記次元における前記トレーニング例について前記新たな正規化されたレイヤ出力の前記成分を各次元について変換することによって、新たなバッチ正規化レイヤ出力を生成することと、
    新たなレイヤ出力として前記バッチ正規化レイヤ出力を前記第2のニューラル・ネットワーク・レイヤに提供することと
    を行うように構成された、請求項3に記載の方法。
  5. 前記次元に対する前記予め計算された平均および標準偏差の統計値が、前記ニューラル・ネットワークのトレーニング中に前記第1のニューラル・ネットワーク・レイヤによって生成された第1のレイヤ出力から計算される、請求項4に記載の方法。
  6. 前記次元に対する前記予め計算された平均および標準偏差の統計値が、前記ニューラル・ネットワークがトレーニングされた後に前記第1のニューラル・ネットワーク・レイヤにより生成された新たな第1のレイヤ出力から計算される、請求項4に記載の方法。
  7. 前記ニューラル・ネットワーク・システムがトレーニングされた後に前記ニューラル・ネットワーク・システムによって処理される新たなニューラル・ネットワーク入力が、前記ニューラル・ネットワーク・システムをトレーニングするために用いられた前記トレーニング例とは異なるタイプの入力である、請求項6に記載の方法。
  8. 前記第1のニューラル・ネットワーク・レイヤは、前記第1のニューラル・ネットワーク・レイヤに対する1組のパラメータの現在の値に従って、前記第1のレイヤ出力を修正することによって前記第1のレイヤ出力を生成する、請求項1に記載の方法。
  9. 前記第2のニューラル・ネットワーク・レイヤが、非線形動作を前記バッチ正規化レイヤ出力に適用することによって第2のレイヤ出力を生成する、請求項8に記載の方法。
  10. 前記第1のニューラル・ネットワーク・レイヤは、1組のパラメータの現在の値に従って第1のレイヤ出力を修正し、修正された第1のレイヤ出力を生成し、その後に非線形動作を前記修正された第1のレイヤ入力に適用することによって、前記第1のレイヤ出力を生成する、請求項1に記載の方法。
  11. 前記ニューラル・ネットワークのトレーニング中に、前記ニューラル・ネットワークのパラメータの値を調整することとの一部として前記平均および前記標準偏差を誤差逆伝播するステップをさらに含む、請求項1に記載の方法。
  12. システムであって、
    1つまたは複数のコンピュータと、複数の命令を記録する1つまたは複数の記憶デバイスとを備え、
    前記複数の命令は、前記1つまたは複数のコンピュータによって実行されたときに、前記1つまたは複数のコンピュータに、ニューラル・ネットワーク内の第1のニューラル・ネットワーク・レイヤと第2のニューラル・ネットワーク・レイヤとの間にバッチ正規化レイヤを有するニューラル・ネットワークをトレーニングするための動作を行わせ、
    前記第1のニューラル・ネットワーク・レイヤは、次元によりインデックス化された複数の成分を有する第1のレイヤ出力を生成し、
    前記複数の動作が、トレーニングデータの複数のバッチでの前記ニューラル・ネットワークのトレーニング中に、複数のトレーニング例を含む各バッチについて、
    前記バッチ内の前記複数のトレーニング例の各々に対する各第1のレイヤ出力を受信する動作と、
    前記次元の各々について、前記次元における前記第1のレイヤ出力の成分の平均を計算する動作と、
    前記次元の各々について、前記次元における前記第1のレイヤ出力の前記成分の標準偏差を計算する動作と、
    前記各第1のレイヤ出力の前記複数の成分の各々を正規化し、前記バッチ内の各トレーニング例に対する各正規化されたレイヤ出力を生成する動作であって、
    前記各第1のレイヤ出力ごとに、かつ前記複数の成分の各々ごとに、前記成分に対応する前記次元に対する前記計算された平均と前記成分に対応する前記次元に対する前記計算された標準偏差とを用いて前記第1のレイヤ出力の前記成分を正規化する動作を含む、前記正規化されたレイヤ出力を生成する動作と、
    前記正規化されたレイヤ出力から、前記トレーニング例の各々に対する各バッチ正規化レイヤ出力を生成する動作と、
    入力として前記バッチ正規化レイヤ出力を前記第2のニューラル・ネットワーク・レイヤに提供する動作と
    を含む、システム。
  13. 前記次元における前記第1のレイヤ出力の前記成分の前記標準偏差が、
    Figure 2020149719
    に等しい数的に安定な標準偏差であり、εは定数値であり、
    Figure 2020149719
    が、前記次元における前記第1のレイヤ出力の前記成分の分散である、請求項12に記載のシステム。
  14. 前記正規化されたレイヤ出力からの前記トレーニング例の各々に対する各バッチレイヤ正規化出力を生成する動作が、
    前記トレーニング例の各々に対して、前記次元に対する1組のパラメータの現在の値に従って、前記次元における前記トレーニング例に対する前記正規化されたレイヤ出力の成分を各次元について変換する動作を含む、請求項12に記載のシステム。
  15. 前記バッチ正規化レイヤは、
    前記ニューラル・ネットワークが、前記次元の各々に対する前記1組のパラメータのトレーニングされた値を決定するためにトレーニングされた後に、
    新しいニューラル・ネットワーク入力に対する、前記第1のニューラル・ネットワーク・レイヤによって生成される新たな第1のレイヤ出力を受信することと、
    前記次元に対する予め計算された平均および標準偏差の統計値を用いて前記新たな第1のレイヤ出力の各成分を正規化して、新たな正規化されたレイヤ出力を生成することと、
    前記次元に対する前記1組のパラメータのトレーニングされた値に従って、前記次元における前記トレーニング例について前記新たな正規化されたレイヤ出力の前記成分を各次元について変換することによって、新たなバッチ正規化レイヤ出力を生成することと、
    新たなレイヤ出力として前記バッチ正規化レイヤ出力を前記第2のニューラル・ネットワーク・レイヤに提供することと
    を行うように構成された、請求項14に記載のシステム。
  16. 前記次元に対する前記予め計算された平均および標準偏差の統計値が、前記ニューラル・ネットワークのトレーニング中に前記第1のニューラル・ネットワーク・レイヤによって生成された第1のレイヤ出力から計算される、請求項15に記載のシステム。
  17. 前記次元に対する前記予め計算された平均および標準偏差の統計値が、前記ニューラル・ネットワークがトレーニングされた後に前記第1のニューラル・ネットワーク・レイヤにより生成された新たな第1のレイヤ出力から計算される、請求項15に記載のシステム。
  18. 前記ニューラル・ネットワーク・システムがトレーニングされた後に前記ニューラル・ネットワーク・システムによって処理される新たなニューラル・ネットワーク入力が、前記ニューラル・ネットワーク・システムをトレーニングするために用いられた前記トレーニング例とは異なるタイプの入力である、請求項17に記載のシステム。
  19. 前記第1のニューラル・ネットワーク・レイヤは、前記第1のニューラル・ネットワーク・レイヤに対する1組のパラメータの現在の値に従って、前記第1のレイヤ出力を修正することによって前記第1のレイヤ出力を生成する、請求項12に記載のシステム。
  20. 前記第2のニューラル・ネットワーク・レイヤが、非線形動作を前記バッチ正規化レイヤ出力に適用することによって第2のレイヤ出力を生成する、請求項19に記載のシステム。
  21. 前記第1のニューラル・ネットワーク・レイヤは、1組のパラメータの現在の値に従って第1のレイヤ出力を修正し、修正された第1のレイヤ出力を生成し、その後に非線形動作を前記修正された第1のレイヤ入力に適用することによって、前記第1のレイヤ出力を生成する、請求項12に記載のシステム。
  22. 前記複数の動作が、前記ニューラル・ネットワークのトレーニング中に、前記ニューラル・ネットワークのパラメータの値を調整することとの一部として前記平均および前記標準偏差を誤差逆伝播する動作をさらに含む、請求項12に記載のシステム。
  23. 複数の命令を記録した1つまたは複数の非一時的コンピュータ可読記録媒体であって、前記命令は、1つまたは複数のコンピュータによって実行されたときに、前記1つまたは複数のコンピュータに、ニューラル・ネットワーク内の第1のニューラル・ネットワーク・レイヤと第2のニューラル・ネットワーク・レイヤとの間にバッチ正規化レイヤを有するニューラル・ネットワークをトレーニングするための動作を行わせ、
    前記第1のニューラル・ネットワーク・レイヤは、次元によりインデックス化された複数の成分を有する第1のレイヤ出力を生成し、
    前記複数の動作が、トレーニングデータの複数のバッチでの前記ニューラル・ネットワークのトレーニング中に、複数のトレーニング例を含む各バッチについて、
    前記バッチ内の前記複数のトレーニング例の各々に対する各第1のレイヤ出力を受信する動作と、
    前記次元の各々について、前記次元における前記第1のレイヤ出力の成分の平均を計算する動作と、
    前記次元の各々について、前記次元における前記第1のレイヤ出力の前記成分の標準偏差を計算する動作と、
    前記各第1のレイヤ出力の前記複数の成分の各々を正規化し、前記バッチ内の各トレーニング例に対する各正規化されたレイヤ出力を生成する動作であって、
    前記各第1のレイヤ出力ごとに、かつ前記複数の成分の各々ごとに、前記成分に対応する前記次元に対する前記計算された平均と前記成分に対応する前記次元に対する前記計算された標準偏差とを用いて前記第1のレイヤ出力の前記成分を正規化する動作を含む、前記正規化されたレイヤ出力を生成する動作と、
    前記正規化されたレイヤ出力から、前記トレーニング例の各々に対する各バッチ正規化レイヤ出力を生成する動作と、
    入力として前記バッチ正規化レイヤ出力を前記第2のニューラル・ネットワーク・レイヤに提供する動作と
    を含む、非一時的コンピュータ可読記録媒体。
  24. 前記次元における前記第1のレイヤ出力の前記成分の前記標準偏差が、
    Figure 2020149719
    に等しい数的に安定な標準偏差であり、εは定数値であり、
    Figure 2020149719
    が、前記次元における前記第1のレイヤ出力の前記成分の分散である、請求項23に記載の非一時的コンピュータ可読記録媒体。
  25. 前記正規化されたレイヤ出力からの前記トレーニング例の各々に対する各バッチレイヤ正規化出力を生成する動作が、
    前記トレーニング例の各々に対して、前記次元に対する1組のパラメータの現在の値に従って、前記次元における前記トレーニング例に対する前記正規化されたレイヤ出力の成分を各次元について変換する動作を含む、請求項23に記載の非一時的コンピュータ可読記録媒体。
  26. 前記バッチ正規化レイヤは、
    前記ニューラル・ネットワークが、前記次元の各々に対する前記1組のパラメータのトレーニングされた値を決定するためにトレーニングされた後に、
    新しいニューラル・ネットワーク入力に対する、前記第1のニューラル・ネットワーク・レイヤによって生成される新たな第1のレイヤ出力を受信することと、
    前記次元に対する予め計算された平均および標準偏差の統計値を用いて前記新たな第1のレイヤ出力の各成分を正規化して、新たな正規化されたレイヤ出力を生成することと、
    前記次元に対する前記1組のパラメータのトレーニングされた値に従って、前記次元における前記トレーニング例について前記新たな正規化されたレイヤ出力の前記成分を各次元について変換することによって、新たなバッチ正規化レイヤ出力を生成することと、
    新たなレイヤ出力として前記バッチ正規化レイヤ出力を前記第2のニューラル・ネットワーク・レイヤに提供することと
    を行うように構成された、請求項25に記載の非一時的コンピュータ可読記録媒体。
  27. 前記第1のニューラル・ネットワーク・レイヤは、前記第1のニューラル・ネットワーク・レイヤに対する1組のパラメータの現在の値に従って、前記第1のレイヤ出力を修正することによって前記第1のレイヤ出力を生成する、請求項23に記載の非一時的コンピュータ可読記録媒体。
  28. 前記第2のニューラル・ネットワーク・レイヤが、非線形動作を前記バッチ正規化レイヤ出力に適用することによって第2のレイヤ出力を生成する、請求項27に記載の非一時的コンピュータ可読記録媒体。
  29. 前記第1のニューラル・ネットワーク・レイヤは、1組のパラメータの現在の値に従って第1のレイヤ出力を修正し、修正された第1のレイヤ出力を生成し、その後に非線形動作を前記修正された第1のレイヤ入力に適用することによって、前記第1のレイヤ出力を生成する、請求項23に記載の非一時的コンピュータ可読記録媒体。
  30. 前記複数の動作が、前記ニューラル・ネットワークのトレーニング中に、前記ニューラル・ネットワークのパラメータの値を調整することとの一部として前記平均および前記標準偏差を誤差逆伝播する動作をさらに含む、請求項23に記載の非一時的コンピュータ可読記録媒体。
JP2020092300A 2015-01-28 2020-05-27 バッチ正規化レイヤ Active JP6935542B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021137180A JP7179935B2 (ja) 2015-01-28 2021-08-25 バッチ正規化レイヤ
JP2022183459A JP2023029845A (ja) 2015-01-28 2022-11-16 バッチ正規化レイヤ

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562108984P 2015-01-28 2015-01-28
US62/108,984 2015-01-28
JP2018232445A JP6710745B2 (ja) 2015-01-28 2018-12-12 バッチ正規化レイヤ

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018232445A Division JP6710745B2 (ja) 2015-01-28 2018-12-12 バッチ正規化レイヤ

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021137180A Division JP7179935B2 (ja) 2015-01-28 2021-08-25 バッチ正規化レイヤ

Publications (2)

Publication Number Publication Date
JP2020149719A true JP2020149719A (ja) 2020-09-17
JP6935542B2 JP6935542B2 (ja) 2021-09-15

Family

ID=55349983

Family Applications (5)

Application Number Title Priority Date Filing Date
JP2017539561A Active JP6453477B2 (ja) 2015-01-28 2016-01-28 バッチ正規化レイヤ
JP2018232445A Active JP6710745B2 (ja) 2015-01-28 2018-12-12 バッチ正規化レイヤ
JP2020092300A Active JP6935542B2 (ja) 2015-01-28 2020-05-27 バッチ正規化レイヤ
JP2021137180A Active JP7179935B2 (ja) 2015-01-28 2021-08-25 バッチ正規化レイヤ
JP2022183459A Pending JP2023029845A (ja) 2015-01-28 2022-11-16 バッチ正規化レイヤ

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2017539561A Active JP6453477B2 (ja) 2015-01-28 2016-01-28 バッチ正規化レイヤ
JP2018232445A Active JP6710745B2 (ja) 2015-01-28 2018-12-12 バッチ正規化レイヤ

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2021137180A Active JP7179935B2 (ja) 2015-01-28 2021-08-25 バッチ正規化レイヤ
JP2022183459A Pending JP2023029845A (ja) 2015-01-28 2022-11-16 バッチ正規化レイヤ

Country Status (17)

Country Link
US (8) US10417562B2 (ja)
EP (3) EP3251059B1 (ja)
JP (5) JP6453477B2 (ja)
KR (2) KR102055355B1 (ja)
CN (1) CN107278310A (ja)
AU (5) AU2016211333B2 (ja)
CA (1) CA2975251C (ja)
DE (1) DE112016000509T5 (ja)
DK (1) DK3251059T3 (ja)
ES (1) ES2714152T3 (ja)
IL (1) IL253676A0 (ja)
MX (1) MX2017009879A (ja)
PL (1) PL3251059T3 (ja)
RU (1) RU2666308C1 (ja)
SG (1) SG11201706127RA (ja)
TR (1) TR201902908T4 (ja)
WO (1) WO2016123409A1 (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TR201902908T4 (tr) 2015-01-28 2019-03-21 Google Llc Yığın normalleştirme katmanları.
EP3329424B1 (en) * 2015-07-29 2023-07-12 Nokia Technologies Oy Object detection with neural network
CN114253400A (zh) 2016-08-22 2022-03-29 奇跃公司 具有深度学习传感器的增强现实显示装置
KR102300614B1 (ko) * 2017-02-10 2021-09-09 구글 엘엘씨 배치 재정규화 계층
US10255681B2 (en) * 2017-03-02 2019-04-09 Adobe Inc. Image matting using deep learning
EP3594858A4 (en) * 2017-03-06 2020-04-01 Sony Corporation INFORMATION PROCESSING DEVICE
US11308391B2 (en) * 2017-03-06 2022-04-19 Baidu Usa Llc Offline combination of convolutional/deconvolutional and batch-norm layers of convolutional neural network models for autonomous driving vehicles
EP3602419B1 (en) * 2017-04-28 2023-09-20 Google LLC Neural network optimizer search
CN109034384B (zh) * 2017-06-12 2021-06-22 浙江宇视科技有限公司 一种数据处理方法和装置
US10635813B2 (en) 2017-10-06 2020-04-28 Sophos Limited Methods and apparatus for using machine learning on multiple file fragments to identify malware
US11586905B2 (en) * 2017-10-11 2023-02-21 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for customizing kernel machines with deep neural networks
WO2019084556A1 (en) * 2017-10-27 2019-05-02 Google Llc INCREASING THE SECURITY OF NEURAL NETWORKS BY DISCRETEMENT OF NEURAL NETWORK ENTRANCES
WO2019123544A1 (ja) 2017-12-19 2019-06-27 オリンパス株式会社 データ処理方法およびデータ処理装置
CN108009634B (zh) * 2017-12-21 2021-05-25 美的集团股份有限公司 一种卷积神经网络的优化方法、装置及计算机存储介质
EP3511872A1 (en) 2018-01-12 2019-07-17 Sony Corporation Artificial neural network
US11003774B2 (en) 2018-01-26 2021-05-11 Sophos Limited Methods and apparatus for detection of malicious documents using machine learning
US11941491B2 (en) 2018-01-31 2024-03-26 Sophos Limited Methods and apparatus for identifying an impact of a portion of a file on machine learning classification of malicious content
WO2019149376A1 (en) 2018-02-02 2019-08-08 Toyota Motor Europe Method and system for processing input data using a neural network and normalizations
WO2019149375A1 (en) * 2018-02-02 2019-08-08 Toyota Motor Europe Method and system for processing input data and propagating variance in a neural network
US20190251429A1 (en) * 2018-02-12 2019-08-15 Kneron, Inc. Convolution operation device and method of scaling convolution input for convolution neural network
CN108875787B (zh) 2018-05-23 2020-07-14 北京市商汤科技开发有限公司 一种图像识别方法及装置、计算机设备和存储介质
CN108921283A (zh) * 2018-06-13 2018-11-30 深圳市商汤科技有限公司 深度神经网络的归一化方法和装置、设备、存储介质
US11869221B2 (en) * 2018-09-27 2024-01-09 Google Llc Data compression using integer neural networks
US11947668B2 (en) * 2018-10-12 2024-04-02 Sophos Limited Methods and apparatus for preserving information between layers within a neural network
KR20200051278A (ko) 2018-11-05 2020-05-13 삼성전자주식회사 인공 신경망에서의 작업 관리 방법 및 이를 포함하는 시스템
US11687761B2 (en) * 2018-12-11 2023-06-27 Amazon Technologies, Inc. Improper neural network input detection and handling
US10789510B2 (en) * 2019-01-11 2020-09-29 Google Llc Dynamic minibatch sizes
US10325185B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same
US11574052B2 (en) 2019-01-31 2023-02-07 Sophos Limited Methods and apparatus for using machine learning to detect potentially malicious obfuscated scripts
JP2020135011A (ja) 2019-02-13 2020-08-31 キオクシア株式会社 情報処理装置及び方法
CN109886392B (zh) * 2019-02-25 2021-04-27 深圳市商汤科技有限公司 数据处理方法和装置、电子设备和存储介质
KR102046113B1 (ko) 2019-03-19 2019-11-18 주식회사 루닛 신경망 학습 방법 및 그 장치
KR102046133B1 (ko) * 2019-03-20 2019-11-18 주식회사 루닛 특징 데이터 리캘리브레이션 방법 및 그 장치
DE102019204136A1 (de) * 2019-03-26 2020-10-01 Robert Bosch Gmbh Verfahren und Vorrichtung für Training und Herstellung eines künstlichen neuronalen Netzes
KR102037483B1 (ko) 2019-04-02 2019-11-15 주식회사 루닛 신경망 데이터 정규화 방법 및 그 장치
TWI706337B (zh) * 2019-05-02 2020-10-01 旺宏電子股份有限公司 記憶體裝置及其操作方法
US11361218B2 (en) * 2019-05-31 2022-06-14 International Business Machines Corporation Noise and signal management for RPU array
KR102461732B1 (ko) * 2019-07-16 2022-11-01 한국전자통신연구원 강화 학습 방법 및 장치
KR20190098106A (ko) * 2019-08-02 2019-08-21 엘지전자 주식회사 배치 정규화 레이어 트레이닝 방법
CN110598852A (zh) * 2019-08-29 2019-12-20 北京小米移动软件有限公司 子网络采样方法、构建超网络拓扑结构的方法及装置
DE102019213898A1 (de) * 2019-09-11 2021-03-11 Robert Bosch Gmbh Robustes und besser trainierbares künstliches neuronales Netzwerk
US11568259B2 (en) * 2019-10-15 2023-01-31 Zoox, Inc. Cross batch normalization
KR102127913B1 (ko) 2019-10-29 2020-06-29 주식회사 루닛 신경망 학습 방법 및 그 장치
US11868855B2 (en) * 2019-11-04 2024-01-09 Hewlett Packard Enterprise Development Lp Resiliency for machine learning workloads
KR102143191B1 (ko) * 2019-11-12 2020-08-10 주식회사 루닛 특징 데이터 리캘리브레이션 방법 및 그 장치
KR102143192B1 (ko) 2019-11-12 2020-08-10 주식회사 루닛 신경망 학습 방법 및 그 장치
CN111144556B (zh) * 2019-12-31 2023-07-07 中国人民解放军国防科技大学 面向深度神经网络训练和推理的范围批处理归一化算法的硬件电路
US11610303B2 (en) 2020-03-03 2023-03-21 The University Court Of The University Of Edinburgh Data processing apparatus and method
JP7297705B2 (ja) 2020-03-18 2023-06-26 株式会社東芝 処理装置、処理方法、学習装置およびプログラム
US11915419B1 (en) 2020-06-25 2024-02-27 Verily Life Sciences Llc Auto-normalization for machine learning
EP4193304A4 (en) * 2020-09-08 2023-07-26 Huawei Technologies Co., Ltd. NORMALIZATION IN DEEP CONVOLUTIONAL NEURAL NETWORKS
KR102441442B1 (ko) * 2021-01-11 2022-09-08 성균관대학교산학협력단 그래프 컨볼루션 네트워크 학습 방법 및 장치
WO2022259566A1 (ja) 2021-06-09 2022-12-15 コニカミノルタ株式会社 ニューラル・ネットワーク・システム
US20230119791A1 (en) * 2021-10-04 2023-04-20 Qualcomm Incorporated Relaxed instance frequency normalization for neural-network-based audio processing
WO2023085852A1 (ko) * 2021-11-11 2023-05-19 서울대학교산학협력단 통계 기반 정규화를 시행하는 딥 뉴럴 네트워크 학습 장치 및 그 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05346915A (ja) * 1992-01-30 1993-12-27 Ricoh Co Ltd 学習機械並びにニューラルネットワークおよびデータ分析装置並びにデータ分析方法
JP2013069132A (ja) * 2011-09-22 2013-04-18 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5875284A (en) 1990-03-12 1999-02-23 Fujitsu Limited Neuro-fuzzy-integrated data processing system
JPH0785280B2 (ja) * 1992-08-04 1995-09-13 タカタ株式会社 神経回路網による衝突予測判定システム
US5729662A (en) * 1995-06-07 1998-03-17 Rozmus; J. Michael Neural network for classification of patterns with improved method and apparatus for ordering vectors
US5790758A (en) * 1995-07-07 1998-08-04 The United States Of America As Represented By The Secretary Of The Navy Neural network architecture for gaussian components of a mixture density function
US6134537A (en) * 1995-09-29 2000-10-17 Ai Ware, Inc. Visualization and self organization of multidimensional data through equalized orthogonal mapping
US6539267B1 (en) * 1996-03-28 2003-03-25 Rosemount Inc. Device in a process system for determining statistical parameter
US6650779B2 (en) * 1999-03-26 2003-11-18 Georgia Tech Research Corp. Method and apparatus for analyzing an image to detect and identify patterns
US6418378B1 (en) * 2000-06-26 2002-07-09 Westerngeco, L.L.C. Neural net prediction of seismic streamer shape
AU2001215675A1 (en) * 2000-11-30 2002-06-11 Alexei Mikhailov Neural cortex
US7107207B2 (en) * 2002-06-19 2006-09-12 Microsoft Corporation Training machine learning by sequential conditional generalized iterative scaling
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
US7496546B2 (en) 2003-03-24 2009-02-24 Riken Interconnecting neural network system, interconnecting neural network structure construction method, self-organizing neural network structure construction method, and construction programs therefor
US7219085B2 (en) 2003-12-09 2007-05-15 Microsoft Corporation System and method for accelerating and optimizing the processing of machine learning techniques using a graphics processing unit
JP2005352900A (ja) 2004-06-11 2005-12-22 Canon Inc 情報処理装置、情報処理方法、パターン認識装置、及びパターン認識方法
US7747070B2 (en) * 2005-08-31 2010-06-29 Microsoft Corporation Training convolutional neural networks on graphics processing units
CN100367300C (zh) * 2006-07-07 2008-02-06 华中科技大学 一种基于人工神经网络的特征选择方法
US7606777B2 (en) 2006-09-01 2009-10-20 Massachusetts Institute Of Technology High-performance vision system exploiting key features of visual cortex
EP2345984B1 (en) 2010-01-19 2012-03-14 Honda Research Institute Europe GmbH Online learning of grounded categories using adaptive feature spaces
US10127475B1 (en) 2013-05-31 2018-11-13 Google Llc Classifying images
TWI648609B (zh) 2013-06-07 2019-01-21 美商科學設計股份有限公司 程序監控系統及方法
CN103824055B (zh) * 2014-02-17 2018-03-02 北京旷视科技有限公司 一种基于级联神经网络的人脸识别方法
US9058517B1 (en) 2014-04-16 2015-06-16 I.R.I.S. Pattern recognition system and method using Gabor functions
EP3029606A3 (en) 2014-11-14 2016-09-14 Thomson Licensing Method and apparatus for image classification with joint feature adaptation and classifier learning
TR201902908T4 (tr) 2015-01-28 2019-03-21 Google Llc Yığın normalleştirme katmanları.
US11151449B2 (en) * 2018-01-24 2021-10-19 International Business Machines Corporation Adaptation of a trained neural network
KR102046113B1 (ko) * 2019-03-19 2019-11-18 주식회사 루닛 신경망 학습 방법 및 그 장치
US11367163B2 (en) * 2019-05-31 2022-06-21 Apple Inc. Enhanced image processing techniques for deep neural networks
US11568259B2 (en) * 2019-10-15 2023-01-31 Zoox, Inc. Cross batch normalization
US20210150306A1 (en) * 2019-11-14 2021-05-20 Qualcomm Incorporated Phase selective convolution with dynamic weight selection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05346915A (ja) * 1992-01-30 1993-12-27 Ricoh Co Ltd 学習機械並びにニューラルネットワークおよびデータ分析装置並びにデータ分析方法
JP2013069132A (ja) * 2011-09-22 2013-04-18 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Also Published As

Publication number Publication date
AU2020250312B2 (en) 2021-12-16
US11853885B2 (en) 2023-12-26
AU2019200309A1 (en) 2019-02-07
US20200057924A1 (en) 2020-02-20
KR20190138712A (ko) 2019-12-13
EP3872716A1 (en) 2021-09-01
EP3251059B1 (en) 2018-12-05
KR20170108081A (ko) 2017-09-26
PL3251059T3 (pl) 2019-05-31
EP3483795B1 (en) 2021-03-10
US10417562B2 (en) 2019-09-17
US10902319B2 (en) 2021-01-26
CA2975251C (en) 2021-01-26
KR102055355B1 (ko) 2019-12-12
US20200012942A1 (en) 2020-01-09
US20210224653A1 (en) 2021-07-22
TR201902908T4 (tr) 2019-03-21
JP6935542B2 (ja) 2021-09-15
US11893485B2 (en) 2024-02-06
JP2018508879A (ja) 2018-03-29
AU2023285952A1 (en) 2024-01-25
EP3251059A1 (en) 2017-12-06
JP6710745B2 (ja) 2020-06-17
WO2016123409A1 (en) 2016-08-04
DK3251059T3 (en) 2019-04-01
AU2016211333B2 (en) 2018-11-15
DE112016000509T5 (de) 2018-03-22
EP3483795A1 (en) 2019-05-15
US20220237462A1 (en) 2022-07-28
JP7179935B2 (ja) 2022-11-29
AU2016211333A1 (en) 2017-08-17
ES2714152T3 (es) 2019-05-27
CN107278310A (zh) 2017-10-20
JP6453477B2 (ja) 2019-01-16
US20200234127A1 (en) 2020-07-23
MX2017009879A (es) 2018-05-28
BR112017016306A8 (pt) 2018-08-14
KR102204286B1 (ko) 2021-01-18
US11281973B2 (en) 2022-03-22
SG11201706127RA (en) 2017-08-30
AU2020250312A1 (en) 2020-11-12
AU2019200309B2 (en) 2020-07-09
US20160217368A1 (en) 2016-07-28
US20210357756A1 (en) 2021-11-18
JP2023029845A (ja) 2023-03-07
CA2975251A1 (en) 2016-08-04
RU2666308C1 (ru) 2018-09-06
US20210216870A1 (en) 2021-07-15
AU2022201819A1 (en) 2022-04-07
IL253676A0 (en) 2017-09-28
BR112017016306A2 (pt) 2018-07-10
JP2019071080A (ja) 2019-05-09
AU2022201819B2 (en) 2023-09-28
US10628710B2 (en) 2020-04-21
JP2021192251A (ja) 2021-12-16
US11308394B2 (en) 2022-04-19

Similar Documents

Publication Publication Date Title
JP6935542B2 (ja) バッチ正規化レイヤ
US11934956B2 (en) Regularizing machine learning models
EP3563306B1 (en) Batch renormalization layers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210825

R150 Certificate of patent or registration of utility model

Ref document number: 6935542

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150