JP2022549844A

JP2022549844A - 加重平均近傍埋め込みの学習

Info

Publication number: JP2022549844A
Application number: JP2022518841A
Authority: JP
Inventors: エリッククルース、; クリストファーマロン、; ビンギュアンリウ、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-09-24
Filing date: 2020-09-24
Publication date: 2022-11-29
Also published as: US20210089924A1; WO2021062052A1

Abstract

本開示の態様は、近傍保存層を介してニューラルネットワークのロバスト性を改善し、加重平均近傍埋め込みを学習することを記載する。ニューラルネットワークを訓練する方法は、入力ドメインエントリへの加重平均近傍層の勾配バックプロパゲーションを修正することを含む。本開示は、特定の多様体表現方法を、次元削減、解釈可能性、滑らかさを望むアプリケーションにおいてニューラルネットワークを訓練するための機械学習アプリケーションにおける使用を含む実用的な現実世界の有益性を有利に提供するオンライン設定に適応させることができ、敵対的攻撃に対する有益性を提供する正則化の形態として作動させる。

Description

本開示は、一般に、ニューラルネットワーク訓練に関し、より詳細には、加重平均近傍埋め込みの学習を使用する学習手法に関する。

当業者は、最近傍エッジが局所距離概念をサポートし、何らかの入力多様体内にある複雑な入力グラフに直面することが一般的であることを理解し、認識する。多くの場合、グラフノードは、距離（例えば、Ｌ２距離）を備えた真のベクトル空間内にあるが、他の入力グラフは、多様体をほぼ形成するだけである（すなわち、距離はすべての点の間で定義されないことがあるか、または三角不等式に違反することがある)。また、入力グラフ（またはベクトル空間内の点）が時間依存である状況も一般的である。例えば、生の観察が経時的に本質的に変化し得るか、または入力点が関数のパラメータが変化している関数出力（例えば、訓練中のニューラルネットワークの層出力）であり得る。

当業者がさらに理解するように、問題はこのような入力の埋め込みを低次元空間内に見出すことであり、ここで、入力多様体内の局所構造は、所望の滑らかさ保証を含む低次元空間内に反映され、入力は時間依存であってもよく、オンライン方式で提供されてもよい。

次元削減写像を構成するために、一般的な方法は、多数のネットワークパラメータによって特徴付けられるニューラルネットワーク層を使用する。しかしながら、そのような写像（例えば、全結合層または畳み込み層）は、敵対的攻撃を受けやすい非滑らかな関数を学習する傾向がある。

非滑らかさを部分的に軽減するために、問題特有の正則化および敵対的訓練がしばしば採用される。これらの層は、勾配バックプロパゲーションを介して容易に訓練され、一般に、時間依存またはオンライン入力について解くが、滑らかさについては解かない。

他の手法（ｔ－ＳＮＥ、ＵＭＡＰ、または他の最近傍ベースの平滑化など）は、次元削減が入力グラフの多様体構造を正確に反映する滑らかな写像を学習するように構成される。本発明者らが目標とする多様体表現（例えば、ＵＭＡＰ）は、入力空間と出力空間における点間の対応のリストから集められた、最近傍情報の特定の重み付けを使用する。特に、写像は、局所的な固有次元に局所的に適応する。しかしながら、それらの現在の性能は、既存のデータセットを埋め込むことに限定され、したがって、これらの埋め込み方法は訓練可能ではなく、オンラインではない。それらは、典型的には全ての入力例に対して１つの低次元点を決定するので、オンラインではない。

本開示の態様によれば、上記の問題を解決し、かつ、ある種の多様体表現手法を、次元削減、解釈可能性、滑らかさを望むアプリケーションにおいてニューラルネットワークを訓練するための機械学習アプリケーションにおける使用を含む実用的な現実世界の有益性を有利に提供するオンライン設定に適応させることによって、また、敵対的攻撃に対する有益性を提供する正則化の形態として作動させることによって、当技術分野の進歩がなされる。加えて、本開示の手法は、有利には、訓練処理中に他のネットワーク層と共に到来するデータに適応する本格的なパラメータ化されたネットワーク層として扱われるように、静的な次元削減を拡張する（すなわち、ネットワークが訓練された後に展開される）。

本開示の態様によれば、特に有用な多様体埋め込み手法（ＵＭＡＰ）を使用し、ニューラルネットワークと共に完全に訓練できることを実証する。有利には、これはニューラルネットワークにおける内部（非最終）層として配置され、訓練されることを可能にする。

さらに示し、説明するように、本発明のアプローチは、入力データの多様体に適応して、新しい入力データまたは変化する入力データを処理する最近傍ベースの次元削減を拡張する。１つの最も重要な追加は、そのような層への勾配バックプロパゲーションをサポートすることであり、有利には、上述の問題を解決し、既存の滑らかさ導入技術の代替または補助を提供する。

さらに、グラフ入力が変化すると、次の２つの方法で埋め込みを更新することができる。（ｉ）現在記憶されているノード埋め込みから遠い入力を追加することができる。（ｉｉ）既存の写像情報を更新することができるように勾配バックプロパゲーションを追加する。

当業者には理解されるように、本発明の方法は、生の入力に対して、または以前のネットワーク層の出力に対して動作することができるネットワーク層の作成を可能にする。

一実施形態では、ＵＭＡＰアルゴリズムを選択し、訓練された全結合層と比較した場合に、はるかに改善された敵対的ロバスト性を有する多様体再生ネットワーク層を構成し、訓練する方法を説明する。さらに、古いデータのための１つの写像、およびより最近見られたデータのための１つの写像など、２つの写像の間に結合動作を導入することによって、潜在的に無限の量の入力データを使用して、有界量のメモリ内でそのような写像を訓練することができる方法を説明する。

入力多様体および出力多様体を記述するオンライン対応の有限メモリ「クラウド」を維持するために、経時（age）要素と、計算の一部として多様体表現層を含むニューラルネットワークを訓練するなど、静的多様体表現を動的状態に拡張することを可能にする要約要素とを導入する。

本開示のより完全な理解は、添付の図面を参照することによって実現され得る。

本開示の態様による、既存の近傍ベースの埋め込みを示す概略図である。

本開示の態様による、既存の方法による新しい点の埋め込みを示す概略図である。

本開示の態様による、既存の方法による写像データを示す概略図である。

本開示の態様による、本発明の方法による、ニューラルネットワーク内の埋め込み層の訓練を示す概略図である。

本開示の態様による、埋め込み層の訓練を示す概略図である。

本開示の態様による、オンラインストリーミングデータ訓練を示す概略図である。

本開示の態様による、単体複体の一例を示す概略図である。

本開示の態様による、縮退単体の実施例を示す概略図である。

本開示の態様による、デルタのファンクタ画像としてのデルタ複体を示す概略図である。

本開示の態様による、重み付けされたＵＭＡＰプロットである。

本開示の態様による、重み付けされていないＵＭＡＰプロットである。

本開示の態様による、ＵＭＡＰを用いた例示的なネットワーク構造を示す概略図である。

本開示の態様による、１２点データプロットである。

本開示の態様による、１２点埋め込みプロットである。

本開示の態様による、例示的な定義済みＵＭＡＰ層を示す。

本開示の態様による、訓練後の２－Ｄ埋め込みの実現を示すプロットを示す。

本開示の態様による、訓練前の埋め込みを示すプロットを示す。

本開示の態様による、訓練後の埋め込みを示すプロットを示す。

本開示の態様による、事前訓練されたネットワークを用いた埋め込みの更新を示す概略図である。

本開示の態様による、訓練埋め込み（２０００）点を示すプロットである。本開示の態様による、テスト埋め込み（１０００）点を示すプロットである。

本開示の態様による、訓練埋め込み（新しいアーチ）のプロットを示す。

本開示の態様による、新しいネットワークアーキテクチャを示す概略図である。

本開示の態様による、低埋め込み（正則化なし）の比較を示すプロットであって、ネットワークを使用した訓練埋め込みを示す。本開示の態様による、低埋め込み（正則化なし）の比較を示すプロットであって、ＵＭＡＰを使用した訓練埋め込みを示す。

本開示の態様による、低埋め込み（正則化あり）の比較を示すプロットであって、ネットワークを使用した訓練埋め込みを示す。本開示の態様による、低埋め込み（正則化あり）の比較を示すプロットであって、ＵＭＡＰを使用した訓練埋め込みを示す。

本開示の態様による、バッチ学習結果（５０エポック）の比較を示すプロットであって、訓練セット埋め込みを示す。本開示の態様による、バッチ学習結果（５０エポック）の比較を示すプロットであって、テストセット埋め込みを示す。

本開示の態様による、より深層（５０エポック）を用いたバッチ学習の比較を示すプロットであって、訓練セット埋め込みを示す。本開示の態様による、より深層（５０エポック）を用いたバッチ学習の比較を示すプロットであって、テストセット埋め込みを示す。

本開示の態様による、敵対的攻撃フレームワークアーキテクチャを示す概略図である。

本開示の態様による、ＰＧＤ攻撃に対するテスト精度を示すプロットである。

例示的な実施形態は、図面および詳細な説明によってより完全に説明される。しかしながら、本開示による実施形態は、様々な形態で具現化されてもよく、図面および詳細な説明に記載された特定のまたは例示的な実施形態に限定されない。

以下は、単に本開示の原理を例示するものである。したがって、当業者は本明細書では明示的に説明または図示されていないが、本開示の原理を具体化し、その精神および範囲内に含まれる様々な構成を考案することができることを理解されたい。

さらに、本明細書に列挙されたすべての実施例および条件付き言語は、読者が本開示の原理およびその技術を促進するために本発明者によって与えられた概念を理解するのを助けるための教育目的のためだけのものであることが意図され、そのような具体的に列挙された実施例および条件に限定されないものとして解釈されるべきである。

さらに、本開示の原理、態様、および実施形態、ならびにその特定の例を列挙する本明細書のすべての記述は、その構造的および機能的同等物の両方を包含することが意図される。さらに、そのような均等物は現在知られている均等物と、将来開発される均等物、すなわち、構造にかかわらず、同じ機能を実行する開発された任意の要素との両方を含むことが意図される。

したがって、たとえば、本明細書の任意のブロック図が、本開示の原理を実施する例示的な回路の概念図を表すことが、当業者には理解されよう。

本明細書で特に明記しない限り、図面を構成する図は、一定の縮尺で描かれていない。

上述のように、上述の問題の解決に有利に寄与する本開示の態様による特に発明的な特徴は、以下を含む。

高次元入力空間内の点がどのように更新されるかを管理するための近傍整合損失関数（neighborhood matching loss function）からの勾配の誤差逆伝搬。

多様体表現手法が入力空間と出力空間との間の点をどのように写像し、最近傍情報をどのように維持するかを要約した動的有限メモリ写像を維持すること。

最近傍加重平均が入力空間と出力空間の両方でどのように計算されるかに影響を及ぼす経時要素が導入され、その結果、より新しい情報が、写像に関する履歴情報よりも重要になる。経時要素が低い／最も低いことのみに基づいて、点を削除することが可能である。

有限メモリで写像を表現することは、写像エントリの総数が有界のままになるように、１つ以上の写像集合からのエントリを１つに要約することを可能にする要約動作によっても助けられる。実際には、これは「より新しい」最近傍データ構造から「より古い」最近傍データ構造に知識を吸収する「結合（merge）」動作を使用する。要約重みも導入する。要約の後、最近傍加重平均は、経時に加えて、要約重みを反映し、要約重みの合計は、ｎ（２）個の近い写像がより少ない（１）個のエントリによって置き換えられるときは、いつでも保存される。メモリ境界を超えている場合は、写像要約を行う必要がある。より小さな問題は、要約することなく解決することが可能である。

本発明の手法は、多様体表現方法の近傍整合損失関数の勾配バックプロパゲーションと、最近傍情報をオンライン方式で効果的に維持する方法との組合せを含む。これらの構成要素により、次元削減多様体表現手法のパラメータを、ニューラルネットワークのより従来の周囲の層と共に最適化することができる。

図１は、本開示の態様による、既存の近傍ベースの埋め込みを示す概略図である。この図を参照すると、既存の近傍ベースの埋め込みアルゴリズムは、一般に、距離を有する固定サイズの入力データセットを入力として取り込み、エッジ距離を有するグローバル入力グラフとエッジ距離を有するグローバル出力グラフとが近傍整合損失を受ける埋め込み層出力ルックアップテーブルを生成することが観察され得る。訓練は、一般に、近傍整合損失の最小化を伴い、Ｎ個の点の固定入力テーブルから出力空間（典型的には１～５０次元）へのルックアップテーブルを決定する。したがって、出力は、距離関数を有する入力データセットを、出力ドメイン、典型的には低次元ベクトル空間に写像する。サイズＮの出力ルックアップテーブルは、その後、より小さいサイズＮ’＜Ｎに修正されてもよく、訓練されたルックアップテーブルは、新しい入力を埋め込むために使用されてもよい。全体として、新しい入力は近傍探索を受け、固定写像は、加重平均および出力空間埋め込みを生成する。

ここで、本明細書で使用する任意の用語を導入することは有用である。より具体的には、入力ドメインは、任意のノード属性、距離関数、好ましくは距離によって定義されるが、擬似距離であってもよい（例えば、三角形の不等式は常に成り立つとは限らない。）。欠けているエッジは、都合が良ければ、ゼロ重み（等価無限距離）を割り当てられてもよい。無限次元を含むベクトル入力に容易に適用できる。場合によっては、サンプル重み（点が結合された場合に使用する）またはサンプル経時（時間依存の入力分布で使用する）を含むようにノード属性を追加することに留意されたい。入力次元は高くても無限であってもよいが、ローカルおよびグローバル固有次元は、適用するローカル埋め込み概念のために制限されたままでなければならない。

出力ドメインは、低次元距離空間、理想的にはＯ固有次元である。それは、いくつかのアプリケーションにおいて追加の正則化項を含むことができる。

訓練は、典型的にはバックプロパゲーションによる確率的勾配降下（ＳＧＤ）であり、近傍整合損失は、典型的にはクロスエントロピーに基づく。

図２は、本開示の態様による既存の方法による新しい点の埋め込みを示す概略図である。その図に示すように、既存の方法によって新しい点を埋め込むことは、制限された更新方法を用いて固定ルックアップテーブルを使用してデータを写像すること含む。このように入力空間埋め込みは固定であり、出力空間埋め込みは固定である。このような方法は、出力空間に任意の入力を写像するために距離加重平均化を使用する。

図３は、本開示の態様による、既存の方法による写像データを示す概略図である。図示するように、既存の近傍ベースの次元削減は、距離加重平均化を用いた低Ｄ埋込みへの任意の高Ｄ入力が可能である。したがって、固定埋め込みエントリを使用する既存の写像データは、埋め込み層およびニューラルネットワークパラメータの両方のエンドツーエンド訓練を行うことができない。

図４は、本開示の態様による、本発明の方法による、ニューラルネットワーク内の埋め込み層の訓練を示す概略図である。この図に示されているのは、本発明の方法が入力ドメイン空間エントリの勾配を有利に誤差逆伝播することである。

図５は、本開示の態様による、埋め込み層の訓練を示す概略図である。図示のように、入力空間エントリの勾配を展開する。Ｂ、Ｃとして示される写像エントリは、ニューラルネットワークＡ、Ｄがそれらのタスク（例えば、分類）を学習することにつれて展開し得る。分類損失の最小化は、他のニューラルネットワーク要素Ａ、Ｄが訓練中に変化していることを意味する。埋め込みデータＢ、Ｃも訓練中に展開する。１つの例示的な訓練方法は、Ｃ、Ｄ［Ａ、Ｂ固定］、次いでＡ、Ｂ［Ｃ、Ｄ固定］の最小化を交互に行うことを伴う。したがって、本発明のニューラルネットワーク訓練タスクは、Ａから時間変化入力ストリームを生成する。本発明の追加の勾配バックプロパゲーション経路は、写像エントリＢおよびネットＡを適応させるように写像することを可能にする。

ここで、バックプロパゲーションに関して、入力ドメイン更新、すなわち様々な方法が試みられたことに再び留意されたい。より具体的には、正確な勾配、サンプル点、およびすべての入力空間近傍はすべて変化する。このようなアプローチは、埋め込み層およびニューラルネット層の両方に全損失誤差逆伝播を提供し、時には安定性の問題を有し、代替的なアプローチよりも遅かった。

勾配更新が適用された点の数が少ない場合（特に固定サイズのデータセットの場合）、近傍エントリは変更されずにミニバッチ自体の点のみが変更される。

ストリーミングデータ（既存の点のみの経時）について勾配更新なし。
新しいデータは、定期的に経時変化（aging）データ構造に結合される新しい近傍データ構造に継続的に追加される。

最後に、分類器と符号器の更新が分離されるので、交互最小化は訓練手順を安定化することに留意されたい。

図６は、本開示の態様によるオンラインストリーミングデータ訓練を示す概略図である。固定ルックアップテーブルを使用する古い方法とは対照的に、本発明の方法では、エントリが追加され、定期的に結合される。例として、２つの最近傍データ構造、１つは古いもの、１つは新しいものである。新しいものがフルの場合は、古いものと結合する。エントリの総数は、制限されたままである。さらに、この図に示されているように、本発明の新しい距離に基づく重みは、経時によって減衰する。ストリーミングされたデータは、入力空間分布の変化に適応する。

データ構造に関して、埋め込みエントリは、一般的に、（サンプル重み、サンプル経時、入力ドメインエントリ、出力空間ベクトル）＝（Ｓ，Ａ，Ｉ，Ｏ）である。入力ドメインエントリは、距離関数を計算するために必要な入力ドメイン属性のサブセットに制限することができる。埋め込みエントリは、サンプル重みおよび経時重みを含むように一般化される。実際には、経時重みおよびサンプル重みを組み合わせることができ、距離関数内で他のノード属性を使用することができ、通常の出力ドメインは距離空間であることに留意されたい。サンプル重みと経時重みは、距離ベースの重み付けで乗算的に演算し、最終的な重みが正規化されて、出力空間エントリの加重平均を形成する。追加（点）およびデル（点）を含む高速最近傍演算をサポートするデータ構造が好ましい。

本発明の方法は、２つの｛（Ｓ，Ａ，Ｉ，Ｏ）｝最近傍データ構造をとり、エントリの総数を削減する結合動作を追加する。トップダウン（最遠切望）アプローチまたはボトムアップ（クラスタリング）アプローチの両方であり、ここではクラスタリング方法もクラス認識（class-aware）であり、ラベル付けされていないデータを有利に扱うべきである。

ここで、ＵＭＡＰアルゴリズムを最大限に利用して、全結合層を有利に置き換え、ネットワークロバスト性を改善することができる新しい近傍保存層について説明する。

最初に、ＵＭＡＰの数学的直観を説明する。次に、ＵＭＡＰをオンライン方式にどのように適応させることができるかを説明する。次に、次元削減を達成するための層としてのＵＭＡＰ自体の導入について説明する。最後に、ＵＭＡＰまたは他の近傍グラフに基づく近傍保存層について説明する。このモデルは、効率的に訓練でき、ロバスト性を理論的および経験的に改善できることを示す。

ＵＭＡＰの動作内容

要するに、ＵＭＡＰは、全てのデータ点が埋め込みにおいて均一に分布されるような低次元埋め込みが存在し、局所ファジー集合を介して元の高次元空間及びその低次元埋め込みのトポロジー構造を抽出することができると仮定する。このようにして、２つの局所ファジー集合間の差を最小化する「最適化された」埋め込みを見つけることができる。言い換えれば、埋め込みは、オリジナルデータの情報の大部分を抽出する。

多様体およびＫＮＮ

多様体仮定から始める。統一仮定とＬｅｍｍａ１は、以下を示す。

ステートメント:正確にｋ個の最近傍を含む任意の点

を中心とする任意のボールＢは、

の選択にかかわらず、固定された体積を有するべきである。このステートメントは、ＫＮＮを使用して局所ファジー集合を構成する動機を与える。ｋ最近傍は、常に同じ量の情報を含むので、ＫＮＮから計算された距離からトポロジー構造を構成することは合理的である。重要な部分は、ＫＮＮ情報から局所ファジィ単体集合をどのように構成するかである。

単体複体と単体集合

ポロジーがどのようにデータパターンを抽出するのを助けるかを理解するために、図７に例示的に示す実施例を用いて、単体複体を見ることから始める。単に、それを「一緒に接着する」マルチ０、１、２、３、・・・単体と見なすことができる。

単体は、データ点間の接続性を一意的に決定する。しかしながら、単体複体は、頂点の正確な位置及びエッジの長さのような、トポロジーの態様における幾つかの冗長な情報を依然として記憶する。したがって、単体集合の定義を導入し、結合情報（すなわち、誰が誰に結合されているか）のみを搬送する。

以下に示すように、これは、カテゴリ理論を用いて形式的に定義することができる。カテゴリＤをオブジェクトと定義する場合、有限順序集合

であり、形態は順序保存写像によって与えられる。次に、単体集合をファンクタとして定義する。

定義1
単体集合は、集合のカテゴリである

集合からのファンクタである。Δにおいて、全ての単体の種類とその縮退バージョンを含む。例えば、｛０，１，２｝は、２単体（三角形）を表し、｛０，０，２｝はこの２単体の特定のエッジを表す（図８参照）。この縮退は、面写像（face maps）を介して達成することができ、定義されたファンクタは、これらの基本要素を関心のある単体複体に写像するのに役立つ。

図９は、縮退した単体を伴わない視覚化例を提供する。Δとファンクタ（単体集合はトポロジー情報を一意的に抽出する）において見ることができ、他のすべての情報を削除することができる。これは、トポロジーデータ構造の表現として使用することができる。

単体集合からファジィ単体集合へ

単体集合は、トポロジー構造の適切な表現である。しかし、本発明の場合には十分ではない。結合性がバイナリであるため、それを構成することによって、データ点間の距離に関する情報をあまりにも多く削除する可能性がある。これは、ファジィ単体集合を導入する動機である。「ファジィ」という用語は、単体複体のいずれのエッジについても、それに適切な重み（または、いわゆるメンバーシップ強度）を割り当てることを意味する。また、対応するファジィ単体集合を構築するために、単体集合の定義を僅かに適合させることができる。

定義２
ファジィ単体集合は、

集合からのファンクタである。

ここで、２つのカテゴリの積を使用し、

は単位区間

であり、メンバーシップ強度を反映するために使用される。本発明者らは結合性情報及び重み情報を有し、他の情報は、依然として除去される。

ファジィ集合を所定の位置において、このファジィ単体集合を実現し、単体集合の態様において何が良い埋め込みであるかを評価できるようにするために、ファジィ集合を高次元ユークリッド空間における本発明の距離（metric）と結合する必要がある。先行技術から、劣化加法性（subadditivity）、反射性、および半ゼロベクトル特性（half zero-vector property）を満足する拡張擬似距離空間

を有する場合、ファジィ単体

の現実化であるファンクＲｅａｌを構築することを示す。

このように、

についての距離は、

から単に受け継がれる。そして、この有限拡張擬似測度をＦｉｎＥＰＭｅｔと定義する。最後に、有限距離空間では、ＦｉｎＳｉｎｇを有限ファジィ特異集合ファンクタとして定義することができる。

また、ＵＭＡＰの定理１は、実現と規則的ファンクタの両方が適切なファンクタであることを示す。したがって、ＦｉｎＳｉｎｇは、ファジィ構造における距離情報を依然として保持しながら、トポロジー情報を抽出することができる。これは、ＦｉｎＥＰＭｅｔとｓＦｕｚｚとの間の自然変換が標準単体上のＦｉｎＲｅａｌ画像の要素と１対１で対応するように、距離空間内のすべての物体をファジィ単体集合に写像するために、ファンクタを常時使用できることを意味する。

妥当な擬似距離を構築する限り、それは１つの特定のファジー単体集合表現に対応する。したがって、実際には、良好なファンクタＦｉｎＳｉｎｇ（ＵＭＡＰでは、負の距離の指数に変換される）を擬似距離に基づいて見つけることができる限り、ファジィ表現（Ａ，μ）を推定することができる。ｘ_iとｘ_j間の結合を表現する注釈

を使用し、μは対応するメンバーシップ強度である。そして、すべてのデータ点にわたるファジィ集合表現の結合を取り、最終的なファジィ単体集合推定器を得る。

ファジィ集合間のクロスエントロピー

最後に、ＦｉｎＳｉｎｇファンクタにより、高次元空間と低次元空間の間の「ギャップ」を最小化することにより、低次元埋込みを最適化できる。ここでは、２つのファジー集合（Ａ、μ）および（Ａ、ν）のクロスエントロピーＣが適用される。

現在のＵＭＡＰ機構

ＵＭＡＰはグローバルトポロジー構造に基づくノンパラメトリックアプローチであるため、新しいデータを訓練に順次追加する方法は困難であり得る。現在のＵＭＡＰ実装は、これに対処するｕｍａｐ.ｔｒａｎｓｆｏｒｍ関数を提供する。この関数は、現在の既存のデータと共に、新しいテストデータの埋め込みを最適化する。違いは、前のデータの全ての埋め込みを固定することである。新しいデータを順番に追加したり、古いデータを忘れたりする場合には理想的ではない。毎回１つのデータを追加することを検討する。これは、この点と前のすべての点との間でＫＮＮ構成を検討する必要があることを意味する。また、現在のフレームワークはオンラインフレームワークをサポートしていない、すなわち、新しいデータを学習し続け、同時に古いデータを忘れ続ける。

ＵＭＡＰの逆変換も提案されている。逆変換アルゴリズムでは、三角形の最小角を最大にする三角形分割（triangulation）を生成するファジィＤｅｌａｕｎａｙ単体を抽出する。これは、高次元データにおける元の埋め込みを参照して、低次元データを元の高次元に写像し戻す。一態様では、埋め込みに近い点を主に模倣する。

オンライン学習によるＵＭＡＰ

ここで、オンライン学習フレームワーク、すなわち、連続的に来る新しいデータにＵＭＡＰを適応させるフレームワークを説明する。

オンライン学習

ここでは、２つのタイプのオンライン学習アプローチを検討する。第１のタイプでは、バッチで到来する新しいデータ点を順次考慮し、新しいデータ点のトポロジーを強調し、古い点を忘れるようにＵＭＡＰを段階的に更新したい。第２のタイプのアプローチでは、各反復において、すべてのデータ点の新しい高次元構造が与えられると考え、ＵＭＡＰ埋め込みを更新するためにそれらの情報を一緒に結合し、一方、より新しい反復をより多く使用し、より古い反復を徐々に忘れる。

順次更新される新しいデータ点

新しいデータを強調し、古いデータを忘れるために、直感的な方法は、点がどのくらい新しいかに基づいて点に「重み」を課すことである。一方では、最適化に含まれるデータ点が決定されると、重みはファジィ単体集合自体の上にあるべきではないことに言及する価値がある。ファジー集合はこれらの点がどれほど「密接に関連する」かによってのみ決定されるので、この情報はデータ点が新しいか古いかに関連しない。一方、高次元ファジィ集合とその低次元集合の間のエントロピーを適応させることができる。エントロピーは、

であることを想起されたい。

合計は重み付けされない。これは、各点がグラフにおいて等しい重みを有することを意味する。オンライン学習の場合、古いデータを忘れて新しいデータを受け入れたいので、真（true）である必要はない。新しいものにもっと多くの重みを割り当て、古いものにもっと少ない重みを割り当てたい。例えば、

と定義された重み関数

を用いた

を使用することができる。ここで、

はf(i)バッチに導入された第ｉ番目のデータ点を表し、αは忘却率を制御し、

は、

バッチより古いデータが完全に無視される境界を決定する。

アルゴリズムにおいて、

を最小化することを追求する。この重みは、各埋め込み最適化反復におけるサンプリングのステップにおいて適合させることができる。１－単体をサンプリングする場合、確率

を使用する代わりに、サンプリングにおいて

を使用する必要がある。ＵＭＡＰでは、負のサンプリングに近似均一分布を使用しする。本発明の設定では、定式化は頂点サンプリング分布を提供する。

均一分布の代わりに、その重みｗ_ijに合理的に近似することができる。

順次更新された新しいデータ写像

最初に、

として各反復に対して局所ファジィ集合を構成すると仮定する。ここで、

は最新の反復であり、

は第ｔ番目の以前の反復である。すべてのこれらの局所ファジー集合から情報を取得し、古いデータを忘れるように、ＵＭＡＰを徐々に更新する。このアイデアは以前のタイプに類似しており、本発明のＵＭＡＰ埋め込みは、これらすべての反復に類似しており、適切に割り当てられた重み

を用いる。ここで、

は、第ｋ番目の古い反復の重みを表す。数値アルゴリズムは、標準的なＵＭＡＰから直接的に前方適応させることができる。正及び負のサンプリングの両方において、最初に、このサンプリングのためのターゲットとして１つの反復

をサンプリングするだけでよく、そして、

を標準的なＵＭＡＰアルゴリズムにおける

として扱うだけでよい。

このアルゴリズムは、一般に、各反復において１つのファジー集合を構成する必要があるが、本質的には低次元埋め込みを訓練するのに多くの時間を費やさない。ニューラルネットの層を投影し、同時にＵＭＡＰを更新することを望む場合、ＵＭＡＰは、このようにして更新することができる。

ここでは、ＭＮＩＳＴデータセットのおもちゃの実施例を試す。２つの畳み込み層と２つの全結合層を有するニューラルネットワークを構築し、最新の更新または更新された方法でＵＭＡＰを実装するために、最初の全結合層後の特徴を抽出する。異なる数のエポックを有する対応するＵＭＡＰ写像を記録する。重み付けされたバージョンは写像変化においてより滑らかであり、重み付けされていないバージョンは、ジャンプする可能性がより高いことが分かる。ＵＭＡＰを訓練に含めることが望ましい。図１０は、重み付けされたＵＭＡＰの例示的なプロットである。図１１は、重み付けされていないＵＭＡＰの例示的なプロットである。

ネットワークにおける層としてＵＭＡＰを導入

本項では、ＵＭＡＰ（または一般的なノンパラメトリック次元削減技術）が層としてニューラルネットワークにどのように適用されるかというアイデアを論じる。ＣＮＮ／ＦＣ層の勾配は十分に定義されている。主な目標は、どのようにしてＵＭＡＰ層の勾配を適切に定義することができる、すなわち、

を定義する必要があり、ここで、ｙは低埋め込み層における値であり、ｚは中間層の層である。

ＵＭＡＰの近傍性質に基づいて、低埋込みは中間層のファジィ集合により決定され、これは全データ点間の距離に基づいて完全に構成される。そして、いかなる２つの点も近傍ではないことがわかっており、それらがお互いの位置に影響しないことがわかっている。これは第ｉ番目の観測の影響である勾配

を計算する動機となる。これを

のように近似することができる。ここで、ＮＮ（ｉ）は、点iのｋ最近傍を表す。ここで、最初に

を近似し、１つの近傍のみを変化させる場合を考察すると、

は、

の値を正確に模倣し、したがって、それらの変化は、互いに比例するはずである。また、ここでは、この項のより精細な近似を考察する。方程式

を考察する。導関数を取るときに式が成り立つ場合、

を得る。したがって、

を近似することができる。

この近似項は、

の場合、常に正であることが観察される。したがって、以前の「１に等しい」近似を調整した重みと見做すことができる。図１２は、ＵＭＡＰを用いたネットワーク構成を示す模式図である。

他の部分の明示的な勾配

を計算する。ここで、３つの項

を別々に計算できる。ここで、

は、ｄ_ik、ρ_iおよびσ_iの関数である。この目標を達成するために、勾配項

の導出を完了する。次に、チェーン規則を使用して、

を導出することができる。そして、バックプロパゲーションのためのすべてのピースを持っている。このノンパラメトリック層の直観は、その対応するＵＭＡＰ構造が損失関数（分類／回帰／オートエンコーダなど）上で良好な性能を持つような高次元埋込みを見つけたいということである。これは、ＵＭＡＰ更新手順にも相当する。それらの勾配変化に比例して誘引性力（attractive forces）を変化させるだけである。

ＵＭＡＰ層の勾配

最後のセクションでは、設計された勾配を用いてバックプロパゲーションを実施する。結果はまだ最適ではなく、高埋め込みxはジャンプし、妥当な埋め込みを伴う位置で安定ではないことが分かった。主な理由は、

の近似に由来する。それらの変化が互いに比例すると仮定する。しかしながら、これは１点の場合である。それが良好な近似でないかもしれない２つの内的な理由があり、この項は一般に扱いにくい。

第１に、μを計算する高次元空間において、均一多様体仮定を満たすようにρおよびσを推定する。それは重み制約（

）の和を持つ。しかし、これらの制約がないνのユークリッド空間を目標とする。

第２に、ＵＭＡＰアルゴリズムでは、局所ファジィ単体集合を構築するために、すべての位置情報を除去する。しかし、ｄ_y／ｄ_xに関して座標を更新したい。これは、νおよびμからのみ、部分勾配を導出するために必要な位置情報のすべてを実際に推論することはできないことを意味する。これは、μおよびνの関数であるだけでなく、位置ｙおよびｘに大きく依存する。しかし、それはチェーン規則を破る。したがって、ｄ_y／ｄ_xの良好な近似を得ることができるかどうかが中心的な問題である。

本発明の「近似」の性能を更に調べるために、ランダム正／負サンプリング無しで正確な確率的勾配降下ＵＭＡＰを実装した。以下に手順を示す。

低埋め込みを解くために、ＵＭＡＰクロスエントロピー損失に対してＳＧＤを達成する関数を書く。

δによってＸ_jの１つの座標を更新し、この時点では、

のみを更新し、現在の低埋め込みを初期化として、更新がスムーズに行われるように、ＵＭＡＰでＳＧＤを解決する。

数値勾配の定義により、以下の式

が得られる。

このようにして、数値勾配は、近似された勾配とは全く異なり、多くの場合、符号が誤っている。

正確な数値勾配を用いたバックプロパゲーションを更に考察し、

上のバックプロパゲーションが高次元構造を回復するのに十分であるかどうかについて公正なテストとなるはずである。依然として、１２点の実施例を考える。実点に近い点から出発すると、勾配は非常に妥当であり、それらはその現在のメンバーシップ強度に従って対角方向に向かって散乱したり集中したりする傾向があることが分かった。しかし、数回の更新の後、それは少しオフになり、ワイルドになる可能性がある。また、ランダムな初期化から開始する場合、点は依然として正しい方向を回復することができない。

１２点の実施例では、（１）良好なスケーリング点で、いくつかの観察を行う。その対応する埋め込みは、スケール変換まで非常に良好である。図１３は、１２点の実施例を示すプロットである。

また、勾配はかなり合理的であり、一つの他方の点に対する勾配ｗ．ｒ．ｔ、またはすべての点に対する勾配ｗ．ｒ．ｔの両方を考慮する場合を考える。1点の場合、勾配は、点を押し離す方向である。

ＵＭＡＰを層としてインポートする。

このセクションでは、標準的なニューラルネットワークフレームワークで使用することができる「ＵＭＡＰ」層を実装することを検討する。これは、自己定義の順方向および逆方向の関数を有するpytorch autogradクラスを定義することによって達成することができる。図１４は、１２点埋め込みを示すプロットである。

図１６は、訓練後の２－Ｄ埋め込みの例示的な実現を示すプロットである。この実施例では、いくつかの適応が行われている。これまで、本発明者らは、ＵＭＡＰを解決するために、自筆の厳密なＳＧＤを使用している。このようにして、本発明者らは、小さなデータセットにおけるランダム性によって導入されるバイアスを回避し、また、結果をより追跡可能にする。各順方向ステップにおいて、過度に多くない更新エポックを用いて、最後の反復からのＵＭＡＰの低次元埋め込みを更新する。このようにして、ＵＭＡＰ層の後のパラメータも着実に更新できるように、ＵＭＡＰをあまり変化させないように制御する。この場合、点の相対的な近傍を更新するために十分に大きな引力を必要とするので、比較的高い学習率がより良好に働くことが分かった。別の方法では、初期化された埋め込みの周囲に固着する。図１５は、例示的な定義済みＵＭＡＰ層である。

まず、１２点の実施例を試してみる。今回は、それらを４つのクラスとして扱い、負の尤度損失を課す。この実験では、ＵＭＡＰ層の前に１つの全結合層を有し、ＵＭＡＰ層の後に別の全結合層を有する。ほとんどの場合、損失関数はゼロに非常に近い何かに収束し、４つのクラスは十分に分離される。次に、ＭＮＩＳＴデータセットの研究に移る。最初に、本発明者らは、ＵＭＡＰを解くために本発明の厳密なＳＧＤアルゴリズムを依然として使用し、いかなる近似又はランダムサンプリング技術も使用しない。

現在の厳密なＳＧＤアルゴリズムでは、各反復ですべてのデータを使用する必要があるため、今のところミニバッチを使用することはできない。それは、次のステップで重要な仕事になる。現在は、グローバルＳＧＤでもＳＧＤアップデートが使用される。

ＭＮＩＳＴデータセット上の標準ＣＮＮフレームワークを使用し、全結合層をＵＭＡＰ層に置き換える（２０個のアウトチャネルとカーネルサイズ５×５とプール２×２を有する畳み込み層。５０個のアウトチャネルとカーネルサイズ５×５とプール２×２を有する畳み込み層。全結合層は、８００～５００および５００～１０である。１０次元から２次元に投影するＵＭＡＰ層。２～２次元、２～１０次元の全結合続層）。大きなサンプルサイズ（６００００）を考慮すると、ここでは、現在の小さな実験のために最初の１００サンプルを使用する。損失関数は一般に減少することが分かったが、更新が本質的な近傍情報に影響を及ぼす場合、損失値は飛び越えることができる。約２５００回の反復の後、低次元埋め込みは、図１６に以下のようにプロットされる。図１７は訓練前の埋め込みを示すプロットであり、図１８は訓練後の埋め込みを示すプロットである。

損失は０．９８付近で安定している。また、近傍情報が変更された場合、損失は時々上にジャンプすることができ、重みは新しい近傍に調整されていない。プロットから、一緒に集中する多くのクラスを有するが、近傍の更新は本当に困難であり、安定した液を得ることができないことが分かる。

ＵＭＡＰ層アイデアの問題

実際問題として、現在のネットワークアーキテクチャに２つの主要な問題があることを観察する（ＵＭＡＰ更新は不安定であり、通常、一緒に点を接着する。これは、ＵＭＡＰ更新に伴う損失関数の増加につながる。スケール項σは実際に高くなるように激増する傾向があり、これは、点間の構成が理想的ではないことを意味する。

これらの問題に対処するために、本発明者らは、いくつかのアプローチを検討する。ネットワークにおける重みを安定化するために、５０回の反復毎にＵＭＡＰ埋め込みを更新する。力σは、高い固有次元数を避けるために小さくする。安定性を向上させるために、バッチでＵＭＡＰ埋め込みを更新する。

しかしながら、これらのアプローチは、依然として、反復における収束損失関数につながる。主な問題は、依然として、方向勾配近似が十分ではないということである。

近傍保存層

議論されたように、主な問題は、バックプロパゲーション（back prop）が、本発明者らが期待する方法で低埋め込みを実際に変更するのに役立たないことである。このように、自然なアイデアが低埋め込み自体をバックプロパゲーション（back prop）に更新した場合に何が起こるかということである。そこで、本発明者らは、次のような実験を考え出した。

このフレームワークでは、本発明者らは、畳み込み層を事前訓練し、メンバーシップ強度行列μによるその埋込みを計算した。次に、μを参照するＵＭＡＰクロスエントロピー損失と分類負対数尤度損失の両方を構成するＵＭＡＰ埋め込みを更新する。モデルを訓練した後、全ての現在の埋め込みを参照して、ＵＭＡＰモジュールにおける変換関数を使用して新しいモデルを予測することができる。この場合、分類誤差率は非常に低く、訓練及びテストセットの低埋め込みは、以下の通りである。異なるクラスが非常に良好に分離されており、線形パターンは本発明のニューラルネットにおける１つの全結合層構造によるものであることが分かる。

重要なメッセージは。高埋め込み自体が妥当であれば、μが良好な低埋め込みを達成するのを助けるのに十分であるということである。それは、別の方法でバックプロパゲーション（back prop）について考える動機づけになる。本発明者らの勾配近似

を想起する。

最初の項と最後の項の正確な解を有するが、単に中間項の良好な近似を有していない。以前の実験に基づいて、実際には、ネットワークにμを導入することによって、この完全な項を計算することを回避することができる。本発明者らの以前の実験と比較すると、重要な違いは、μが現在ネットワーク内にあり、それが逆伝播によって更新されることであることを理解することができる。μ自体をネットワークに導入することによって、μに対する損失の勾配を計算するためにバックプロパゲーション（back prop）を使用することができる。上述したように、μ項の正確な勾配公式を有するので、「μを計算する」新しい層を定義することによって、畳み込み層に簡単にバックプロパゲーション（back prop）することができる。このようにして、高埋め込みから低埋め込みへの１対１写像を解決したが、ニューラルネットにＵＭＡＰクロスエントロピー損失を導入することによって、それらを共同で更新した。本発明者らの以前の構造と比較すると、μからνへの１対１写像を仮定し、これは近似するのが非常に困難であり、初期化が不良である場合、現在の位置に更新するのが非常に困難である。現在の構造は、低埋め込みからのメッセージが高埋め込みにも影響を及ぼすことを可能にし、したがって、高埋め込みにおける更新の方向を修正する。図１９は、事前訓練されたネットワークによる更新埋め込みを示す概略ブロック図である。

ＭＮＩＳＴデータセットでの実験では、損失関数はかなりよく収束し、σは非常に安定であり、異なるクラスは低埋め込みでよく分離する。１００サンプルの訓練埋め込み例が図１４（Ａ）および図１４（Ｂ）に示されている。図１４（Ａ）および図１４（Ｂ）は、それぞれ訓練（２０００点）およびテスト（１０００）のための固定された事前訓練畳み込み層を用いた埋め込みを示す。それらのパターンは、事前訓練されたものとかなり類似しており、１つのｒｅｌｕ－ｆｃ層での分類には理にかなっていることがわかる。この場合、分類損失は、０．１未満（標準ＣＮＮに匹敵する）に低下する。図２２は、本発明の新しいアーキテクチャによる訓練埋め込みを示すプロットである。

１つの懸念はμを計算する逆方向層が非常に遅いことであり、それは、かなりの数の行列乗算を必要とするからである。このバックプロパゲーション（back prop）ステップをどのようにスピードアップするかを探求する価値がある。

オートグラッド（Autograd）およびバッチ学習

オートグラッド（Autograd）

バックプロパゲーションを高速化するために、テンソル（高次元埋め込みＺからμまで)で自己定義層を書き込むことを考える。オートグラッド適用可能にするために、ここでは、勾配を

だけに結びつけ、ρおよびσの影響を無視する。これらのパラメータはＵＭＡＰ論文と同じアプローチを用いて計算し、それらの影響は小さく、無視できるので、グラフには含めない。図２１は、新しいネットワークアーキテクチャを示すブロック図である。

この適応を行うことにより、アルゴリズムは、バッチサイズ１０００～２０００を扱うのに十分に高速である。また、性能とロバスト性を改善するためにいくつかのことを論じることができることを見いだした。固有次元を制御するためにネットワーク上に

正則化を置く。比較は、図２３（Ａ）、図２３（Ｂ）、図２４（Ａ）、および図２４（Ｂ）にプロットで提供されている。畳み込み層と全結合層との間の代替的な更新比率。高い比率は各クラスの低埋め込みを線上により集中させ、低比率は分類損失を１ビット増加させ、各クラスの低埋め込みをより広げる。０および１に近いメンバーシップ強度に対処する方法。ここで、μ＝０．９８×μ＋０．０１を使用し、極端な値を避けるために（０．０１,０．９９）に線形に写像する。

これらのプロットから、正則化を課すと、異なるクラスがより分離され、テスト集合内での識別も容易になることが分かる。

バッチ学習

データセット全体でモデルを訓練することは現実的ではないことは明らかである。したがって、ここでは、バッチ学習手法についてさらに検討する。ＵＭＡＰは、データセットが低次元多様体上に一様に分布されると仮定している。したがって、データをランダムにサブサンプリングする場合、仮定は依然として成り立つ。そして、ネットワークを訓練するために、同じアプローチを依然として使用することができる。この事実は、本発明者らが訓練するネットワークにおいてバッチ学習手法を使用できることの正当性を示す。しかし、作らなければならない一つの重要な適応がある。低埋め込みを安定化するために、各バッチについて、他の点の低埋め込みを固定し、バッチ内の特定の点の低埋め込みのみを更新する必要がある。このように、本発明者らは、低い埋め込みがバッチごとに安定であることを保証する。ここでは、全訓練データセット（６００００点）と５つの数エポック後のテストデータセット（１００００点）とからの低次元埋め込みのプロットを提供した。図２５（Ａ）および図２５（Ｂ）は、バッチ学習結果（５０エポック）を示す。その結果から、異なるクラスが訓練データセットとテストデータセットの両方において十分に分離されていることが分かる。また、各クラスの線上の望ましくない集中も取り除かれる。また、テスト精度は～８２％である。本発明者らは、全ての訓練サンプルにわたり固有次元の尤度推定量を計算した。平均５．７６８で１．７４５～２９．２１１の範囲であった。それは一般に合理的に低い。

潜在的な改善／問題は、１つのＲｅｌｕ活性化を有する２つの全結合層が複雑な形状を有する１０のクラスを十分に分離するのに十分であるか、ということである。本発明者らは、いくつかのバッチの後、バッチの訓練分類損失が約０．４～０．５に集中することを観察するので、それはより小さくなるはずである。層を追加すると、訓練分類誤差が小さくなる傾向がある。また、テスト精度は～８７％に向上する。それらの埋め込みプロットも提示する。固有次元数を制御するための適切な正則化は何か？ここで、畳み込みネットワーク上で

正則化を使用する。最適なバッチ学習構造は何か？ここで、各バッチについて、計算の複雑さを低減するために、バッチ内のμおよびνのみを計算する。ここでは、グローバルグラフ情報は使用しない。それは最も理想的な方法ではないかもしれない。図２６（Ａ）および図２６（Ｂ）は、より深い層（５０エポック）でのバッチ学習のための訓練セット埋め込みおよびテストセット埋め込みを示すプロットである。

近傍保存層を持つネットワークの理論解析

最初に、本発明者らは、本発明者らの新しい点を予測する際に使用するのと全く同じ近傍加重平均アプローチを検討する。

ここで、

は、

の対応する低次元埋め込みである。ここでは、近傍更新頻度を制限するための別の仮定を導入する。これは、小さなＢ_rボール移動として変更された点の比率を表す。

仮定１。

は分布Ｐに従う。Ｐはほぼどこでも密度で一様に束縛されていると仮定する。

Ｌｅｍｍａ１。すべての点

に対して、

のようなＣ₃＞０が存在すると仮定する。
証明。いずれにせよ、二つの高次元ボールの交差の体積とそれらの対称差を計算することができる。（Ｌｉ２０１１）を参照すると、

を有する。ここで、Δは、

になるような対称差演算子である。

は正則化不完全ベータ関数

である。

として知られているので、十分小さなエプシロンの場合、

であるような任意の小さな定数

を見つけることができる。さらに、分布は、サンプル点

の場合に、

であるような、実現可能な領域Ｓ内の同じ体積Ａ、Ｂを有する任意の２つの領域に対して、α均一分布（α-even distribution）であると言う。

密度がほとんどすべての場所で一様に有界な分布は、それらの密度が上限と下限の両方であるため、α均一分布として表すことができる。また、α均一分布については、定義上、

を有する。したがって、仮定１のもとで、すべての分布に対して、対応するαと、望ましいＣ₃とをいつでも見つけることができる。

別の仮定は、

および

のすべての点が

正規化の観点で一様に結合が設定されることである。

仮定２。点

の場合に、任意の点

に対して、その埋め込み

が

を満たすと仮定する。

なぜなら、目標は、挙動する低次元埋め込みを得ることであるからである。したがって、このような正則化境界（regularization bound）は、本発明者らの設定において妥当である。また、必要な注釈を導入する。スカラー関数

の場合、

を使用して、ランダムベクトル

の各要素間の要素ごとの母共分散を表し、

の集合Ｓ内のランダムスカラー

は、集合Ｓで制約された分布に従う。

を有する同じ次元を持つ。さらに、データ点

に対して、

におけるその近傍は

であり、それらの埋め込みは

であると仮定する。それらの

までの距離は、ｉ＝１，...，ｎに対して

と表される。それらの重みは

と仮定する。

定理１。データは、空間

におけるＰに従うと仮定し、ＰからＮ点を一様にサンプリングする。点

に対して、第ｉ番目の最近傍の重みが

であると仮定する。ここで、

は非増加関数である。

および

である。Ｃ₃は変化点の一部の上限であり、

である。

であるような任意のδ＞０および任意の正規化方向

について、

であるような十分に大きいＮを見つけることができる。

注意１。定理から、近傍加重埋込みのリップシッツ境界が（Ｃ₁，Ｃ₂，Ｃ₃，Ｃ₄）により決定されることが分かる。また、定義により、半径rの選択によりＣ₁≦１であることが分かり、関数減衰が十分に高速である限り、Ｃ₂が下限である。例えば、

を選択すると、Ｃ₂≦１になる。Ｃ₃とＣ₄もpに依存しない小さな定数である。したがって、近傍埋め込み層のリプシッツ境界はより小さく、pと共に発散せず、

のスケールから解放される。

証明。証明は２つの部分に分けられる。最初に、近傍に更新がない場合の、

に対する導関数ｗ．ｒ．ｔを検討する。次に、近傍変化の場合について検討する。

第１に、近傍が変化しない場合、

のあらゆる可能な高次元埋め込みに対する導関数ｗ．ｒ．ｔを考慮することができる。

を示すと、

で、

となるような特定の方向の導関数を計算することができる。

ここで、

は、特定の方向における

の勾配である。したがって、

として、その

正規化を制限することができる。

ここでは、

で、

の方向にちょうどある場合、かつ、その場合に限り、等価が成り立つという事実を使用する。

次に、この期待値に対する経験的平均の収束について考察する。

および

として知られている。ｗ_iおよび１／ｗ_iは、すべて有限の２番目のモーメント値で境界が設定される。したがって、

のような、スルツキー（Slutsky）定理を適用することができる。

δ＞０であれば、ｎが十分に大きく、

を満足できるように、十分に大きなＮを選択できることを示す。

近傍の更新の検討に移行する。ｉ＝１，．．．，ｎ－ｋに対するｘ_iは、

と

の両方の点である。ｉ＝ｎ－ｋ＋１，．．．，ｎに対するｘ_iを、

ではなく、Ｂ_r（ｘ）の点として表す。また、ｉ＝１，．．．，ｋ⁰に対する

を、

ではなく、

の点として表す。

を考慮する場合はｗ_iを用いて重みを表し、

を考慮する場合にｗ_iを用いる。

次に、近傍を更新し、重みを更新する効果を統合すると、埋め込み変化は、

のように制限することができる。

（Ａ）部分は、以前の勾配境界によって境界が定められる。境界（Ｂ）部分に焦点を当てる。

として、

が（

または

の一方における）更新された近傍であり、

が

および

の両方における更新された近傍である場合、

および

となるので、すべての更新された近傍は、変更を残した近傍よりも最小の重みを持っていることがわかる。仮定１及びＬｅｍｍａ１からの結果と組み合わせて、十分に小さい大きいｎについて、本発明者らの場合では、

を有することが分かる。

を示す。

が分かっており、したがって、

が分かる。

さらに、（Ｃ）の境界を導出する。

したがって、

として、

を有する。同様に、

を設定することができる。

また、

に対する勾配境界も有する。したがって、

と結論する。

第２の不等式は、（Ｃ）および（Ｄ）の導出境界について言える。

近傍保存層のリップシッツ上限を導出した後、全結合層のリップシッツ境界と比較する。１つの層のみが考慮されるとき、

および

を与えると、最良の全結合層は、多重応答回帰問題と等価であることがわかる。

と表すと、

となる。

この重みの選択は、この特定層における

損失を最小限に抑えることができ、最良の非バイアス線形重みである。単一層を考慮する場合、これは使用すべき目標重みである。解析を進めるために、

と

に対する一組の規則性状態を導入する。

仮定３。ここでは、

は、ボール

で、中心０上で対称に、分布Ｑから独立にサンプリングされ、

は、

および

のようにＰから独立して分布すると仮定する。

仮定は、低次元埋込み

の分布がうまく振舞うことを必要とし、共分散行列は固有値上限を持つ。それは、

が制限されている限り、自然に保持される。さらに、それぞれの

と

は相関

を持つと仮定する。これらの仮定はすべて、近傍保存層によって容易に達成することもできる。

定理２。上記の仮定３が成り立つ場合、任意の定数δ＞０に対して、先に定義された重み

が

を満たすようになる。

さらに、この全結合層のリップシッツ定数は、

のように

の方向が存在することを満す。ここで、

は２つの標準偏差の積である。

注意:全結合層は

の特徴を抽出し、

に渡すように設計されているので、ｒ_iは大きくなければならない。

証明。すでに示したように、

が分かっている。したがって、

を得る。

共分散有界固有値の仮定により、

が分かっている。したがって、

のように十分に大きなｎを見つけることができる。

さらに、

と書いて、

を導出する。

また、

が分かっている。ここで、

である。以前の式に代入すると、δ＞０であれば、

であるような十分に大きなｎを見つけることができる。

最後に、リップシッツ定数は、

を満たす。

これまで、近傍保存層のリップシッツ上限

および全結合回帰層の下限

を導出した。

そして、すべてのｒ_iが

の場合、

であることが分かった。これは、本発明者らの近傍層は、概して、設計された全結合層のリップシッツ境界の

次数上にあることを意味する。

導出されたリップシッツ境界は、ネットワークのロバスト性、および勾配降下に基づく攻撃方法にも密接に関連している。リップシッツ定数が全体的に小さい場合、すべての方向からの摂動は、損失関数を著しく変化させることができず、したがって、勾配降下に基づく攻撃は無効になる。

この影響を説明するために、最初に、ロバスト性評価のためのよく知られた指標である「最小Ｌ_P歪み」を導入する必要がある。(Hein and Andriushchenko 2017)。

定義１。δ_pを

のように定義すると、ネットワークは点ｘで最小Ｌ_P歪みδ_pを有すると言える。ここで、δ_pは、この大きさより小さいすべての歪みが分類レベルを変更しないように許容される最大歪みＬ_P正規化である。この距離は、Ｃ＆Ｗ攻撃に対するネットワークの性能に密接に関連している。Ｃ＆Ｗ攻撃では、損失関数の差を最大にするように、ＳのＬ₂歪みを正確に探す。

推論１。定理1および2の条件が成立する場合、Hein and Andriushchenko.(2017)で導入された最小Ｌ₂歪み境界は、全結合層をＵＭＡＰ層で置き換えることによって、

倍改善される。

証明。次元削減層前のリップシッツ定数がＬ_aであり、次元削減層後のリップシッツ定数がＬ_bであると仮定する。次に、Szegedyら（２０１３）で解析したように、ＵＭＡＰ層を有するネットワーク全体のリップシッツ定数は、Ｌ＝Ｌ_aＬ_bＴ₁であり、全結合層を有するネットワークの場合は、Ｌ＝Ｌ_aＬ_bＴ₂である。次に、HeinおよびAndriushchenko.（２０１７）の定理２．１にリップシッツ境界をプラグし、ｐ＝ｑ＝２および十分大きくなるように半径を選択すると、

であることが分かる。したがって、最小Ｌ₂歪み境界

が得られる。

これまで、ＵＭＡＰ層がどのようにリップシッツ定数を縮小するのを助け、したがって最小歪み境界を改善するのを助けるかを分析した。Madry et al.(2017)は、鞍点問題を提案し、ネットワークのロバスト性の良好な尺度としてよく認識されている。

ここで、Ｓは半径の小さな歪みの実現可能領域である。

この場合、歪みは、

のように評価することができる。

ここでは、定理１からの影響を利用して、ロバスト性もこの距離の下で著しく改善されることを示す。

定理３。定理１のすべての条件が満たされる場合。また、分類のための損失関数が、負の対数尤度損失として選択される。ボトルネックを持つネットワークは、歪み期待値の上限

を持つ。ここで、

は、定義された特定の値のリップシッツ定数である。仮定１－３の下で、全結合層の歪み境界（distortion bound）は近傍保存層の

倍であることが分かる。

証明。最初に、負の対数尤度損失は、すべての層の最終値に対して加法的であることが分かっている。したがって、ここでは、各分類出力の境界を導き出すだけで、それらをｉ＝１，．．．，ｃに関して

と表記し、

層を関数の入力として扱う。また、

と表記して、次元削減層の前のすべての層を表す。

定義上、次のようになる。

ここで、

は、定義された特定の値のリップシッツ定数である。したがって、

項は変化する。この項は点ごとに異なり、異なる設定で指定することができるので、これ以上制限しない。しかし、上述したように、歪み境界は、そのリップシッツ定数境界に比例する。本発明の場合、それは

である。

鞍点問題の観点から、歪みはリップシッツ境界にも比例することが分かる。

サンプリングによる敵対的訓練

ここでは、フレームワークにおける敵対的訓練をどのように達成するかを検討する。各バッチにおいて、真のデータと生成された「敵対的バッチ」の両方の損失を計算する。敵対的バッチは、ＰＧＤ攻撃アルゴリズムを使用して生成される。敵対的訓練フレームワークは、図２７に要約することができる。図２７、本開示の態様による本発明の敵対的攻撃フレームワークを概説する概略ブロック図である。

以前のフレームワークでは、近傍と到来する未知点の低次元埋め込みとを計算するために、すべての訓練データ点の高次元埋め込みと低次元埋め込みとが必要であった。埋め込みを計算するためには多くのメモリを必要とし、各バッチ反復についてこの近傍グラフを計算することは現実的ではない。したがって、ここで、近傍加重平均層を計算するために、適切な重みを有する部分点（または標本）を使用することを検討する。

これまで、本発明者らは２つを開発した。第１に、（１）各バッチを単に標本自体として使用する。その高次元埋め込みを計算するだけでよく、バッチサイズが妥当であれば、実験でうまく機能し、テスト精度＞９７％を達成する。第２に、（２）高／低次元埋め込みと、それに対応する重みを、特定の数の点で割り当てる。これまで、各クラスに対して１００個のクラスタを有するＫ平均クラスタリングを使用することによって、それらを初期化した。ＭＮＩＳＴの場合、高次元と低次元でクラスタセンタｘ_iとｙ_iを有する１０００クラスタを有する。それぞれのクラスタは、クラスタの大きさである重みｗ_iを有する。本発明者らは、このアプローチが９５％の精度を維持することを見出した。

ロバスト攻撃実験

ネットワークの経験的ロバスト性を評価するために、本発明者らは、同じネットワーク層構造及びサイズを有する本発明の訓練されたネットワーク及び標準ＣＮＮネットワークに勾配降下に基づく攻撃を実施する。ＰＧＤ攻撃は、元のデータを最大勾配を有する方向に移動させると考えられる。

本発明者らの実験では、

はデータに対する

射影と考えられる。データが０から１の範囲になるようにデータを正規化する。したがって、

は約３ピクセルまでの変化を表し、

は約１５ピクセルまでの変化を表し、以下同様である。表において、「ＦＣ」は全結合ボトルネックネットワークを表し、「ＵＭＡＰ」は提案されたＵＭＡＰボトルネックネットワークを表し、「Ｒｅｆ」は全データセットの代わりに１０００個の基準点のみを有する提案されたＵＭＡＰボトルネックネットワークを表す。サブスクリプション番号は、層の次元を意味する。本発明者らは、異なるボトルネック層の下で

投影攻撃による表を提供する。

本発明者らは、また、図２８にその表を視覚化した。その結果から、全ての訓練データを基準点として使用するとき、異なるレベルの摂動に対して最高の精度を達成することが分かった。比較的少数の基準点を使用すると、性能は低下するが、依然として比較的にロバストであった。

ここまで、いくつかの特定の例を使用して本開示を提示したが、当業者は本教示がそのように限定されないことを認識するのであろう。特に、今後は、（１）基準点を訓練データセット全体に写像することなく効率的に更新する方法、および（２）ＶＧＧネットワークを用いてＣＩＦＡＲ１０データセットに本アプローチを適用する方法の２つの問題を考察する。したがって、この開示は、本明細書に添付される特許請求の範囲によってのみ限定されるべきである。

Claims

ニューラルネットワークを訓練する方法であって、
加重平均近傍層の勾配バックプロパゲーションが入力ドメインエントリに修正されることを特徴する方法。
事前入力プロセス（エンコーダ）が入力ドメインエントリと共に学習されることを特徴とする、請求項１に記載の方法。
固定サイズの埋め込み層が無制限の訓練データを有する入力領域分布に適応することを特徴とする、請求項２に記載の方法。
ニューラルネットワークのデータ拡張訓練または敵対的訓練を特徴とする、請求項３に記載の方法。
固定サイズの入力データセットのための黙示的に維持された入力空間エントリを特徴とする、請求項１に記載の方法。
ニューラルネットワークを訓練する方法であって、
時間依存入力分布に適応する経時割引近傍重みを特徴とする方法。
ストリーミングデータに適用される可変数の時間適応写像エントリを特徴とする、請求項６に記載の方法。
結合動作を介して結合されたメモリ使用を特徴とする、請求項７に記載の方法。
入力ドメインエントリに修正された加重平均近傍層の勾配バックプロパゲーションを特徴とする、請求項６に記載の方法。
時間依存の入力分布を有する入力のストリームが適用されるときに、近傍埋め込み層を学習することを特徴とする、請求項９に記載の方法。
ニューラルネットワークにおいて次元削減層を実現する方法であって、
前記次元削減層は、有限集合の入力（基準入力）と所望の低次元出力（基準出力）によってパラメータ化されることを特徴とする方法。
前記次元削減層を通って前のニューラルネットワーク層に誤差逆伝播することを特徴とする、請求項１１に記載の方法。
データ拡張または敵対的訓練により前記次元削減層を訓練することを特徴とする、請求項１２に記載の方法。
基準入力は、メモリに保持されず、ニューラルネットワークの先行する層が維持される前のプレイメージのみが保持されることを特徴とする、請求項１２に記載の方法。
前記次元削減層は誤差逆伝播され、それによって基準出力および基準入力の両方を更新することを特徴とする、請求項１１に記載の方法。
オンライン訓練プロセス中に、新しい基準入力と基準出力を追加し、定期的に結合して、基準入力の総数が制限されたままになるようにすることを特徴とする、請求項１１に記載の方法。
基準点の加重平均に使用される経時割引近傍加重を特徴とする、請求項１１に記載の方法。