JP2022549844A - 加重平均近傍埋め込みの学習 - Google Patents

加重平均近傍埋め込みの学習 Download PDF

Info

Publication number
JP2022549844A
JP2022549844A JP2022518841A JP2022518841A JP2022549844A JP 2022549844 A JP2022549844 A JP 2022549844A JP 2022518841 A JP2022518841 A JP 2022518841A JP 2022518841 A JP2022518841 A JP 2022518841A JP 2022549844 A JP2022549844 A JP 2022549844A
Authority
JP
Japan
Prior art keywords
training
layer
neighborhood
input
umap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022518841A
Other languages
English (en)
Inventor
エリック クルース、
クリストファー マロン、
ビンギュアン リウ、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2022549844A publication Critical patent/JP2022549844A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/043Architecture, e.g. interconnection topology based on fuzzy logic, fuzzy membership or fuzzy inference, e.g. adaptive neuro-fuzzy inference systems [ANFIS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Error Detection And Correction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本開示の態様は、近傍保存層を介してニューラルネットワークのロバスト性を改善し、加重平均近傍埋め込みを学習することを記載する。ニューラルネットワークを訓練する方法は、入力ドメインエントリへの加重平均近傍層の勾配バックプロパゲーションを修正することを含む。本開示は、特定の多様体表現方法を、次元削減、解釈可能性、滑らかさを望むアプリケーションにおいてニューラルネットワークを訓練するための機械学習アプリケーションにおける使用を含む実用的な現実世界の有益性を有利に提供するオンライン設定に適応させることができ、敵対的攻撃に対する有益性を提供する正則化の形態として作動させる。

Description

本開示は、一般に、ニューラルネットワーク訓練に関し、より詳細には、加重平均近傍埋め込みの学習を使用する学習手法に関する。
当業者は、最近傍エッジが局所距離概念をサポートし、何らかの入力多様体内にある複雑な入力グラフに直面することが一般的であることを理解し、認識する。多くの場合、グラフノードは、距離(例えば、L2距離)を備えた真のベクトル空間内にあるが、他の入力グラフは、多様体をほぼ形成するだけである(すなわち、距離はすべての点の間で定義されないことがあるか、または三角不等式に違反することがある)。また、入力グラフ(またはベクトル空間内の点)が時間依存である状況も一般的である。例えば、生の観察が経時的に本質的に変化し得るか、または入力点が関数のパラメータが変化している関数出力(例えば、訓練中のニューラルネットワークの層出力)であり得る。
当業者がさらに理解するように、問題はこのような入力の埋め込みを低次元空間内に見出すことであり、ここで、入力多様体内の局所構造は、所望の滑らかさ保証を含む低次元空間内に反映され、入力は時間依存であってもよく、オンライン方式で提供されてもよい。
次元削減写像を構成するために、一般的な方法は、多数のネットワークパラメータによって特徴付けられるニューラルネットワーク層を使用する。しかしながら、そのような写像(例えば、全結合層または畳み込み層)は、敵対的攻撃を受けやすい非滑らかな関数を学習する傾向がある。
非滑らかさを部分的に軽減するために、問題特有の正則化および敵対的訓練がしばしば採用される。これらの層は、勾配バックプロパゲーションを介して容易に訓練され、一般に、時間依存またはオンライン入力について解くが、滑らかさについては解かない。
他の手法(t-SNE、UMAP、または他の最近傍ベースの平滑化など)は、次元削減が入力グラフの多様体構造を正確に反映する滑らかな写像を学習するように構成される。本発明者らが目標とする多様体表現(例えば、UMAP)は、入力空間と出力空間における点間の対応のリストから集められた、最近傍情報の特定の重み付けを使用する。特に、写像は、局所的な固有次元に局所的に適応する。しかしながら、それらの現在の性能は、既存のデータセットを埋め込むことに限定され、したがって、これらの埋め込み方法は訓練可能ではなく、オンラインではない。それらは、典型的には全ての入力例に対して1つの低次元点を決定するので、オンラインではない。
本開示の態様によれば、上記の問題を解決し、かつ、ある種の多様体表現手法を、次元削減、解釈可能性、滑らかさを望むアプリケーションにおいてニューラルネットワークを訓練するための機械学習アプリケーションにおける使用を含む実用的な現実世界の有益性を有利に提供するオンライン設定に適応させることによって、また、敵対的攻撃に対する有益性を提供する正則化の形態として作動させることによって、当技術分野の進歩がなされる。加えて、本開示の手法は、有利には、訓練処理中に他のネットワーク層と共に到来するデータに適応する本格的なパラメータ化されたネットワーク層として扱われるように、静的な次元削減を拡張する(すなわち、ネットワークが訓練された後に展開される)。
本開示の態様によれば、特に有用な多様体埋め込み手法(UMAP)を使用し、ニューラルネットワークと共に完全に訓練できることを実証する。有利には、これはニューラルネットワークにおける内部(非最終)層として配置され、訓練されることを可能にする。
さらに示し、説明するように、本発明のアプローチは、入力データの多様体に適応して、新しい入力データまたは変化する入力データを処理する最近傍ベースの次元削減を拡張する。1つの最も重要な追加は、そのような層への勾配バックプロパゲーションをサポートすることであり、有利には、上述の問題を解決し、既存の滑らかさ導入技術の代替または補助を提供する。
さらに、グラフ入力が変化すると、次の2つの方法で埋め込みを更新することができる。(i)現在記憶されているノード埋め込みから遠い入力を追加することができる。(ii)既存の写像情報を更新することができるように勾配バックプロパゲーションを追加する。
当業者には理解されるように、本発明の方法は、生の入力に対して、または以前のネットワーク層の出力に対して動作することができるネットワーク層の作成を可能にする。
一実施形態では、UMAPアルゴリズムを選択し、訓練された全結合層と比較した場合に、はるかに改善された敵対的ロバスト性を有する多様体再生ネットワーク層を構成し、訓練する方法を説明する。さらに、古いデータのための1つの写像、およびより最近見られたデータのための1つの写像など、2つの写像の間に結合動作を導入することによって、潜在的に無限の量の入力データを使用して、有界量のメモリ内でそのような写像を訓練することができる方法を説明する。
入力多様体および出力多様体を記述するオンライン対応の有限メモリ「クラウド」を維持するために、経時(age)要素と、計算の一部として多様体表現層を含むニューラルネットワークを訓練するなど、静的多様体表現を動的状態に拡張することを可能にする要約要素とを導入する。
本開示のより完全な理解は、添付の図面を参照することによって実現され得る。
本開示の態様による、既存の近傍ベースの埋め込みを示す概略図である。
本開示の態様による、既存の方法による新しい点の埋め込みを示す概略図である。
本開示の態様による、既存の方法による写像データを示す概略図である。
本開示の態様による、本発明の方法による、ニューラルネットワーク内の埋め込み層の訓練を示す概略図である。
本開示の態様による、埋め込み層の訓練を示す概略図である。
本開示の態様による、オンラインストリーミングデータ訓練を示す概略図である。
本開示の態様による、単体複体の一例を示す概略図である。
本開示の態様による、縮退単体の実施例を示す概略図である。
本開示の態様による、デルタのファンクタ画像としてのデルタ複体を示す概略図である。
本開示の態様による、重み付けされたUMAPプロットである。
本開示の態様による、重み付けされていないUMAPプロットである。
本開示の態様による、UMAPを用いた例示的なネットワーク構造を示す概略図である。
本開示の態様による、12点データプロットである。
本開示の態様による、12点埋め込みプロットである。
本開示の態様による、例示的な定義済みUMAP層を示す。
本開示の態様による、訓練後の2-D埋め込みの実現を示すプロットを示す。
本開示の態様による、訓練前の埋め込みを示すプロットを示す。
本開示の態様による、訓練後の埋め込みを示すプロットを示す。
本開示の態様による、事前訓練されたネットワークを用いた埋め込みの更新を示す概略図である。
本開示の態様による、訓練埋め込み(2000)点を示すプロットである。 本開示の態様による、テスト埋め込み(1000)点を示すプロットである。
本開示の態様による、訓練埋め込み(新しいアーチ)のプロットを示す。
本開示の態様による、新しいネットワークアーキテクチャを示す概略図である。
本開示の態様による、低埋め込み(正則化なし)の比較を示すプロットであって、ネットワークを使用した訓練埋め込みを示す。 本開示の態様による、低埋め込み(正則化なし)の比較を示すプロットであって、UMAPを使用した訓練埋め込みを示す。
本開示の態様による、低埋め込み(正則化あり)の比較を示すプロットであって、ネットワークを使用した訓練埋め込みを示す。 本開示の態様による、低埋め込み(正則化あり)の比較を示すプロットであって、UMAPを使用した訓練埋め込みを示す。
本開示の態様による、バッチ学習結果(50エポック)の比較を示すプロットであって、訓練セット埋め込みを示す。 本開示の態様による、バッチ学習結果(50エポック)の比較を示すプロットであって、テストセット埋め込みを示す。
本開示の態様による、より深層(50エポック)を用いたバッチ学習の比較を示すプロットであって、訓練セット埋め込みを示す。 本開示の態様による、より深層(50エポック)を用いたバッチ学習の比較を示すプロットであって、テストセット埋め込みを示す。
本開示の態様による、敵対的攻撃フレームワークアーキテクチャを示す概略図である。
本開示の態様による、PGD攻撃に対するテスト精度を示すプロットである。
例示的な実施形態は、図面および詳細な説明によってより完全に説明される。しかしながら、本開示による実施形態は、様々な形態で具現化されてもよく、図面および詳細な説明に記載された特定のまたは例示的な実施形態に限定されない。
以下は、単に本開示の原理を例示するものである。したがって、当業者は本明細書では明示的に説明または図示されていないが、本開示の原理を具体化し、その精神および範囲内に含まれる様々な構成を考案することができることを理解されたい。
さらに、本明細書に列挙されたすべての実施例および条件付き言語は、読者が本開示の原理およびその技術を促進するために本発明者によって与えられた概念を理解するのを助けるための教育目的のためだけのものであることが意図され、そのような具体的に列挙された実施例および条件に限定されないものとして解釈されるべきである。
さらに、本開示の原理、態様、および実施形態、ならびにその特定の例を列挙する本明細書のすべての記述は、その構造的および機能的同等物の両方を包含することが意図される。さらに、そのような均等物は現在知られている均等物と、将来開発される均等物、すなわち、構造にかかわらず、同じ機能を実行する開発された任意の要素との両方を含むことが意図される。
したがって、たとえば、本明細書の任意のブロック図が、本開示の原理を実施する例示的な回路の概念図を表すことが、当業者には理解されよう。
本明細書で特に明記しない限り、図面を構成する図は、一定の縮尺で描かれていない。
上述のように、上述の問題の解決に有利に寄与する本開示の態様による特に発明的な特徴は、以下を含む。
高次元入力空間内の点がどのように更新されるかを管理するための近傍整合損失関数(neighborhood matching loss function)からの勾配の誤差逆伝搬。
多様体表現手法が入力空間と出力空間との間の点をどのように写像し、最近傍情報をどのように維持するかを要約した動的有限メモリ写像を維持すること。
最近傍加重平均が入力空間と出力空間の両方でどのように計算されるかに影響を及ぼす経時要素が導入され、その結果、より新しい情報が、写像に関する履歴情報よりも重要になる。経時要素が低い/最も低いことのみに基づいて、点を削除することが可能である。
有限メモリで写像を表現することは、写像エントリの総数が有界のままになるように、1つ以上の写像集合からのエントリを1つに要約することを可能にする要約動作によっても助けられる。実際には、これは「より新しい」最近傍データ構造から「より古い」最近傍データ構造に知識を吸収する「結合(merge)」動作を使用する。要約重みも導入する。要約の後、最近傍加重平均は、経時に加えて、要約重みを反映し、要約重みの合計は、n(2)個の近い写像がより少ない(1)個のエントリによって置き換えられるときは、いつでも保存される。メモリ境界を超えている場合は、写像要約を行う必要がある。より小さな問題は、要約することなく解決することが可能である。
本発明の手法は、多様体表現方法の近傍整合損失関数の勾配バックプロパゲーションと、最近傍情報をオンライン方式で効果的に維持する方法との組合せを含む。これらの構成要素により、次元削減多様体表現手法のパラメータを、ニューラルネットワークのより従来の周囲の層と共に最適化することができる。
図1は、本開示の態様による、既存の近傍ベースの埋め込みを示す概略図である。この図を参照すると、既存の近傍ベースの埋め込みアルゴリズムは、一般に、距離を有する固定サイズの入力データセットを入力として取り込み、エッジ距離を有するグローバル入力グラフとエッジ距離を有するグローバル出力グラフとが近傍整合損失を受ける埋め込み層出力ルックアップテーブルを生成することが観察され得る。訓練は、一般に、近傍整合損失の最小化を伴い、N個の点の固定入力テーブルから出力空間(典型的には1~50次元)へのルックアップテーブルを決定する。したがって、出力は、距離関数を有する入力データセットを、出力ドメイン、典型的には低次元ベクトル空間に写像する。サイズNの出力ルックアップテーブルは、その後、より小さいサイズN’<Nに修正されてもよく、訓練されたルックアップテーブルは、新しい入力を埋め込むために使用されてもよい。全体として、新しい入力は近傍探索を受け、固定写像は、加重平均および出力空間埋め込みを生成する。
ここで、本明細書で使用する任意の用語を導入することは有用である。より具体的には、入力ドメインは、任意のノード属性、距離関数、好ましくは距離によって定義されるが、擬似距離であってもよい(例えば、三角形の不等式は常に成り立つとは限らない。)。欠けているエッジは、都合が良ければ、ゼロ重み(等価無限距離)を割り当てられてもよい。無限次元を含むベクトル入力に容易に適用できる。場合によっては、サンプル重み(点が結合された場合に使用する)またはサンプル経時(時間依存の入力分布で使用する)を含むようにノード属性を追加することに留意されたい。入力次元は高くても無限であってもよいが、ローカルおよびグローバル固有次元は、適用するローカル埋め込み概念のために制限されたままでなければならない。
出力ドメインは、低次元距離空間、理想的にはO固有次元である。それは、いくつかのアプリケーションにおいて追加の正則化項を含むことができる。
訓練は、典型的にはバックプロパゲーションによる確率的勾配降下(SGD)であり、近傍整合損失は、典型的にはクロスエントロピーに基づく。
図2は、本開示の態様による既存の方法による新しい点の埋め込みを示す概略図である。その図に示すように、既存の方法によって新しい点を埋め込むことは、制限された更新方法を用いて固定ルックアップテーブルを使用してデータを写像すること含む。このように入力空間埋め込みは固定であり、出力空間埋め込みは固定である。このような方法は、出力空間に任意の入力を写像するために距離加重平均化を使用する。
図3は、本開示の態様による、既存の方法による写像データを示す概略図である。図示するように、既存の近傍ベースの次元削減は、距離加重平均化を用いた低D埋込みへの任意の高D入力が可能である。したがって、固定埋め込みエントリを使用する既存の写像データは、埋め込み層およびニューラルネットワークパラメータの両方のエンドツーエンド訓練を行うことができない。
図4は、本開示の態様による、本発明の方法による、ニューラルネットワーク内の埋め込み層の訓練を示す概略図である。この図に示されているのは、本発明の方法が入力ドメイン空間エントリの勾配を有利に誤差逆伝播することである。
図5は、本開示の態様による、埋め込み層の訓練を示す概略図である。図示のように、入力空間エントリの勾配を展開する。B、Cとして示される写像エントリは、ニューラルネットワークA、Dがそれらのタスク(例えば、分類)を学習することにつれて展開し得る。分類損失の最小化は、他のニューラルネットワーク要素A、Dが訓練中に変化していることを意味する。埋め込みデータB、Cも訓練中に展開する。1つの例示的な訓練方法は、C、D[A、B固定]、次いでA、B[C、D固定]の最小化を交互に行うことを伴う。したがって、本発明のニューラルネットワーク訓練タスクは、Aから時間変化入力ストリームを生成する。本発明の追加の勾配バックプロパゲーション経路は、写像エントリBおよびネットAを適応させるように写像することを可能にする。
ここで、バックプロパゲーションに関して、入力ドメイン更新、すなわち様々な方法が試みられたことに再び留意されたい。より具体的には、正確な勾配、サンプル点、およびすべての入力空間近傍はすべて変化する。このようなアプローチは、埋め込み層およびニューラルネット層の両方に全損失誤差逆伝播を提供し、時には安定性の問題を有し、代替的なアプローチよりも遅かった。
勾配更新が適用された点の数が少ない場合(特に固定サイズのデータセットの場合)、近傍エントリは変更されずにミニバッチ自体の点のみが変更される。
ストリーミングデータ(既存の点のみの経時)について勾配更新なし。
新しいデータは、定期的に経時変化(aging)データ構造に結合される新しい近傍データ構造に継続的に追加される。
最後に、分類器と符号器の更新が分離されるので、交互最小化は訓練手順を安定化することに留意されたい。
図6は、本開示の態様によるオンラインストリーミングデータ訓練を示す概略図である。固定ルックアップテーブルを使用する古い方法とは対照的に、本発明の方法では、エントリが追加され、定期的に結合される。例として、2つの最近傍データ構造、1つは古いもの、1つは新しいものである。新しいものがフルの場合は、古いものと結合する。エントリの総数は、制限されたままである。さらに、この図に示されているように、本発明の新しい距離に基づく重みは、経時によって減衰する。ストリーミングされたデータは、入力空間分布の変化に適応する。
データ構造に関して、埋め込みエントリは、一般的に、(サンプル重み、サンプル経時、入力ドメインエントリ、出力空間ベクトル)=(S,A,I,O)である。入力ドメインエントリは、距離関数を計算するために必要な入力ドメイン属性のサブセットに制限することができる。埋め込みエントリは、サンプル重みおよび経時重みを含むように一般化される。実際には、経時重みおよびサンプル重みを組み合わせることができ、距離関数内で他のノード属性を使用することができ、通常の出力ドメインは距離空間であることに留意されたい。サンプル重みと経時重みは、距離ベースの重み付けで乗算的に演算し、最終的な重みが正規化されて、出力空間エントリの加重平均を形成する。追加(点)およびデル(点)を含む高速最近傍演算をサポートするデータ構造が好ましい。
本発明の方法は、2つの{(S,A,I,O)}最近傍データ構造をとり、エントリの総数を削減する結合動作を追加する。トップダウン(最遠切望)アプローチまたはボトムアップ(クラスタリング)アプローチの両方であり、ここではクラスタリング方法もクラス認識(class-aware)であり、ラベル付けされていないデータを有利に扱うべきである。
ここで、UMAPアルゴリズムを最大限に利用して、全結合層を有利に置き換え、ネットワークロバスト性を改善することができる新しい近傍保存層について説明する。
最初に、UMAPの数学的直観を説明する。次に、UMAPをオンライン方式にどのように適応させることができるかを説明する。次に、次元削減を達成するための層としてのUMAP自体の導入について説明する。最後に、UMAPまたは他の近傍グラフに基づく近傍保存層について説明する。このモデルは、効率的に訓練でき、ロバスト性を理論的および経験的に改善できることを示す。
UMAPの動作内容
要するに、UMAPは、全てのデータ点が埋め込みにおいて均一に分布されるような低次元埋め込みが存在し、局所ファジー集合を介して元の高次元空間及びその低次元埋め込みのトポロジー構造を抽出することができると仮定する。このようにして、2つの局所ファジー集合間の差を最小化する「最適化された」埋め込みを見つけることができる。言い換えれば、埋め込みは、オリジナルデータの情報の大部分を抽出する。
多様体およびKNN
多様体仮定から始める。統一仮定とLemma1は、以下を示す。
ステートメント:正確にk個の最近傍を含む任意の点
Figure 2022549844000002
を中心とする任意のボールBは、
Figure 2022549844000003
の選択にかかわらず、固定された体積を有するべきである。このステートメントは、KNNを使用して局所ファジー集合を構成する動機を与える。k最近傍は、常に同じ量の情報を含むので、KNNから計算された距離からトポロジー構造を構成することは合理的である。重要な部分は、KNN情報から局所ファジィ単体集合をどのように構成するかである。
単体複体と単体集合
ポロジーがどのようにデータパターンを抽出するのを助けるかを理解するために、図7に例示的に示す実施例を用いて、単体複体を見ることから始める。単に、それを「一緒に接着する」マルチ0、1、2、3、・・・単体と見なすことができる。
単体は、データ点間の接続性を一意的に決定する。しかしながら、単体複体は、頂点の正確な位置及びエッジの長さのような、トポロジーの態様における幾つかの冗長な情報を依然として記憶する。したがって、単体集合の定義を導入し、結合情報(すなわち、誰が誰に結合されているか)のみを搬送する。
以下に示すように、これは、カテゴリ理論を用いて形式的に定義することができる。カテゴリDをオブジェクトと定義する場合、有限順序集合
Figure 2022549844000004
であり、形態は順序保存写像によって与えられる。次に、単体集合をファンクタとして定義する。
定義1
単体集合は、集合のカテゴリである
Figure 2022549844000005
集合からのファンクタである。Δにおいて、全ての単体の種類とその縮退バージョンを含む。例えば、{0,1,2}は、2単体(三角形)を表し、{0,0,2}はこの2単体の特定のエッジを表す(図8参照)。この縮退は、面写像(face maps)を介して達成することができ、定義されたファンクタは、これらの基本要素を関心のある単体複体に写像するのに役立つ。
図9は、縮退した単体を伴わない視覚化例を提供する。Δとファンクタ(単体集合はトポロジー情報を一意的に抽出する)において見ることができ、他のすべての情報を削除することができる。これは、トポロジーデータ構造の表現として使用することができる。
単体集合からファジィ単体集合へ
単体集合は、トポロジー構造の適切な表現である。しかし、本発明の場合には十分ではない。結合性がバイナリであるため、それを構成することによって、データ点間の距離に関する情報をあまりにも多く削除する可能性がある。これは、ファジィ単体集合を導入する動機である。「ファジィ」という用語は、単体複体のいずれのエッジについても、それに適切な重み(または、いわゆるメンバーシップ強度)を割り当てることを意味する。また、対応するファジィ単体集合を構築するために、単体集合の定義を僅かに適合させることができる。
定義2
ファジィ単体集合は、
Figure 2022549844000006
集合からのファンクタである。
ここで、2つのカテゴリの積を使用し、
Figure 2022549844000007
は単位区間
Figure 2022549844000008
であり、メンバーシップ強度を反映するために使用される。本発明者らは結合性情報及び重み情報を有し、他の情報は、依然として除去される。
ファジィ集合を所定の位置において、このファジィ単体集合を実現し、単体集合の態様において何が良い埋め込みであるかを評価できるようにするために、ファジィ集合を高次元ユークリッド空間における本発明の距離(metric)と結合する必要がある。先行技術から、劣化加法性(subadditivity)、反射性、および半ゼロベクトル特性(half zero-vector property)を満足する拡張擬似距離空間
Figure 2022549844000009
を有する場合、ファジィ単体
Figure 2022549844000010
の現実化であるファンクRealを構築することを示す。
Figure 2022549844000011
このように、
Figure 2022549844000012
についての距離は、
Figure 2022549844000013
から単に受け継がれる。そして、この有限拡張擬似測度をFinEPMetと定義する。最後に、有限距離空間では、FinSingを有限ファジィ特異集合ファンクタとして定義することができる。
Figure 2022549844000014
また、UMAPの定理1は、実現と規則的ファンクタの両方が適切なファンクタであることを示す。したがって、FinSingは、ファジィ構造における距離情報を依然として保持しながら、トポロジー情報を抽出することができる。これは、FinEPMetとsFuzzとの間の自然変換が標準単体上のFinReal画像の要素と1対1で対応するように、距離空間内のすべての物体をファジィ単体集合に写像するために、ファンクタを常時使用できることを意味する。
妥当な擬似距離を構築する限り、それは1つの特定のファジー単体集合表現に対応する。したがって、実際には、良好なファンクタFinSing(UMAPでは、負の距離の指数に変換される)を擬似距離に基づいて見つけることができる限り、ファジィ表現(A,μ)を推定することができる。xiとxj間の結合を表現する注釈
Figure 2022549844000015
を使用し、μは対応するメンバーシップ強度である。そして、すべてのデータ点にわたるファジィ集合表現の結合を取り、最終的なファジィ単体集合推定器を得る。
ファジィ集合間のクロスエントロピー
最後に、FinSingファンクタにより、高次元空間と低次元空間の間の「ギャップ」を最小化することにより、低次元埋込みを最適化できる。ここでは、2つのファジー集合(A、μ)および(A、ν)のクロスエントロピーCが適用される。
Figure 2022549844000016
現在のUMAP機構
UMAPはグローバルトポロジー構造に基づくノンパラメトリックアプローチであるため、新しいデータを訓練に順次追加する方法は困難であり得る。現在のUMAP実装は、これに対処するumap.transform関数を提供する。この関数は、現在の既存のデータと共に、新しいテストデータの埋め込みを最適化する。違いは、前のデータの全ての埋め込みを固定することである。新しいデータを順番に追加したり、古いデータを忘れたりする場合には理想的ではない。毎回1つのデータを追加することを検討する。これは、この点と前のすべての点との間でKNN構成を検討する必要があることを意味する。また、現在のフレームワークはオンラインフレームワークをサポートしていない、すなわち、新しいデータを学習し続け、同時に古いデータを忘れ続ける。
UMAPの逆変換も提案されている。逆変換アルゴリズムでは、三角形の最小角を最大にする三角形分割(triangulation)を生成するファジィDelaunay単体を抽出する。これは、高次元データにおける元の埋め込みを参照して、低次元データを元の高次元に写像し戻す。一態様では、埋め込みに近い点を主に模倣する。
オンライン学習によるUMAP
ここで、オンライン学習フレームワーク、すなわち、連続的に来る新しいデータにUMAPを適応させるフレームワークを説明する。
オンライン学習
ここでは、2つのタイプのオンライン学習アプローチを検討する。第1のタイプでは、バッチで到来する新しいデータ点を順次考慮し、新しいデータ点のトポロジーを強調し、古い点を忘れるようにUMAPを段階的に更新したい。第2のタイプのアプローチでは、各反復において、すべてのデータ点の新しい高次元構造が与えられると考え、UMAP埋め込みを更新するためにそれらの情報を一緒に結合し、一方、より新しい反復をより多く使用し、より古い反復を徐々に忘れる。
順次更新される新しいデータ点
新しいデータを強調し、古いデータを忘れるために、直感的な方法は、点がどのくらい新しいかに基づいて点に「重み」を課すことである。一方では、最適化に含まれるデータ点が決定されると、重みはファジィ単体集合自体の上にあるべきではないことに言及する価値がある。ファジー集合はこれらの点がどれほど「密接に関連する」かによってのみ決定されるので、この情報はデータ点が新しいか古いかに関連しない。一方、高次元ファジィ集合とその低次元集合の間のエントロピーを適応させることができる。エントロピーは、
Figure 2022549844000017
であることを想起されたい。
合計は重み付けされない。これは、各点がグラフにおいて等しい重みを有することを意味する。オンライン学習の場合、古いデータを忘れて新しいデータを受け入れたいので、真(true)である必要はない。新しいものにもっと多くの重みを割り当て、古いものにもっと少ない重みを割り当てたい。例えば、
Figure 2022549844000018
と定義された重み関数
Figure 2022549844000019
を用いた
Figure 2022549844000020
を使用することができる。ここで、
Figure 2022549844000021
はf(i)バッチに導入された第i番目のデータ点を表し、αは忘却率を制御し、
Figure 2022549844000022
は、
Figure 2022549844000023
バッチより古いデータが完全に無視される境界を決定する。
アルゴリズムにおいて、
Figure 2022549844000024
を最小化することを追求する。この重みは、各埋め込み最適化反復におけるサンプリングのステップにおいて適合させることができる。1-単体をサンプリングする場合、確率
Figure 2022549844000025
を使用する代わりに、サンプリングにおいて
Figure 2022549844000026
を使用する必要がある。UMAPでは、負のサンプリングに近似均一分布を使用しする。本発明の設定では、定式化は頂点サンプリング分布を提供する。
Figure 2022549844000027
均一分布の代わりに、その重みwijに合理的に近似することができる。
順次更新された新しいデータ写像
最初に、
Figure 2022549844000028
として各反復に対して局所ファジィ集合を構成すると仮定する。ここで、
Figure 2022549844000029
は最新の反復であり、
Figure 2022549844000030
は第t番目の以前の反復である。すべてのこれらの局所ファジー集合から情報を取得し、古いデータを忘れるように、UMAPを徐々に更新する。このアイデアは以前のタイプに類似しており、本発明のUMAP埋め込みは、これらすべての反復に類似しており、適切に割り当てられた重み
Figure 2022549844000031
を用いる。ここで、
Figure 2022549844000032
は、第k番目の古い反復の重みを表す。数値アルゴリズムは、標準的なUMAPから直接的に前方適応させることができる。正及び負のサンプリングの両方において、最初に、このサンプリングのためのターゲットとして1つの反復
Figure 2022549844000033
をサンプリングするだけでよく、そして、
Figure 2022549844000034
を標準的なUMAPアルゴリズムにおける
Figure 2022549844000035
として扱うだけでよい。
このアルゴリズムは、一般に、各反復において1つのファジー集合を構成する必要があるが、本質的には低次元埋め込みを訓練するのに多くの時間を費やさない。ニューラルネットの層を投影し、同時にUMAPを更新することを望む場合、UMAPは、このようにして更新することができる。
ここでは、MNISTデータセットのおもちゃの実施例を試す。2つの畳み込み層と2つの全結合層を有するニューラルネットワークを構築し、最新の更新または更新された方法でUMAPを実装するために、最初の全結合層後の特徴を抽出する。異なる数のエポックを有する対応するUMAP写像を記録する。重み付けされたバージョンは写像変化においてより滑らかであり、重み付けされていないバージョンは、ジャンプする可能性がより高いことが分かる。UMAPを訓練に含めることが望ましい。図10は、重み付けされたUMAPの例示的なプロットである。図11は、重み付けされていないUMAPの例示的なプロットである。
ネットワークにおける層としてUMAPを導入
本項では、UMAP(または一般的なノンパラメトリック次元削減技術)が層としてニューラルネットワークにどのように適用されるかというアイデアを論じる。CNN/FC層の勾配は十分に定義されている。主な目標は、どのようにしてUMAP層の勾配を適切に定義することができる、すなわち、
Figure 2022549844000036
を定義する必要があり、ここで、yは低埋め込み層における値であり、zは中間層の層である。
UMAPの近傍性質に基づいて、低埋込みは中間層のファジィ集合により決定され、これは全データ点間の距離に基づいて完全に構成される。そして、いかなる2つの点も近傍ではないことがわかっており、それらがお互いの位置に影響しないことがわかっている。これは第i番目の観測の影響である勾配
Figure 2022549844000037
を計算する動機となる。これを
Figure 2022549844000038
のように近似することができる。ここで、NN(i)は、点iのk最近傍を表す。ここで、最初に
Figure 2022549844000039
を近似し、1つの近傍のみを変化させる場合を考察すると、
Figure 2022549844000040
は、
Figure 2022549844000041
の値を正確に模倣し、したがって、それらの変化は、互いに比例するはずである。また、ここでは、この項のより精細な近似を考察する。方程式
Figure 2022549844000042
を考察する。導関数を取るときに式が成り立つ場合、
Figure 2022549844000043
を得る。したがって、
Figure 2022549844000044
を近似することができる。
この近似項は、
Figure 2022549844000045
の場合、常に正であることが観察される。したがって、以前の「1に等しい」近似を調整した重みと見做すことができる。図12は、UMAPを用いたネットワーク構成を示す模式図である。
他の部分の明示的な勾配
Figure 2022549844000046
を計算する。ここで、3つの項
Figure 2022549844000047
を別々に計算できる。ここで、
Figure 2022549844000048
は、dik、ρiおよびσiの関数である。この目標を達成するために、勾配項
Figure 2022549844000049
の導出を完了する。次に、チェーン規則を使用して、
Figure 2022549844000050
を導出することができる。そして、バックプロパゲーションのためのすべてのピースを持っている。このノンパラメトリック層の直観は、その対応するUMAP構造が損失関数(分類/回帰/オートエンコーダなど)上で良好な性能を持つような高次元埋込みを見つけたいということである。これは、UMAP更新手順にも相当する。それらの勾配変化に比例して誘引性力(attractive forces)を変化させるだけである。
UMAP層の勾配
最後のセクションでは、設計された勾配を用いてバックプロパゲーションを実施する。結果はまだ最適ではなく、高埋め込みxはジャンプし、妥当な埋め込みを伴う位置で安定ではないことが分かった。主な理由は、
Figure 2022549844000051
の近似に由来する。それらの変化が互いに比例すると仮定する。しかしながら、これは1点の場合である。それが良好な近似でないかもしれない2つの内的な理由があり、この項は一般に扱いにくい。
第1に、μを計算する高次元空間において、均一多様体仮定を満たすようにρおよびσを推定する。それは重み制約(
Figure 2022549844000052
)の和を持つ。しかし、これらの制約がないνのユークリッド空間を目標とする。
第2に、UMAPアルゴリズムでは、局所ファジィ単体集合を構築するために、すべての位置情報を除去する。しかし、dy/dxに関して座標を更新したい。これは、νおよびμからのみ、部分勾配を導出するために必要な位置情報のすべてを実際に推論することはできないことを意味する。これは、μおよびνの関数であるだけでなく、位置yおよびxに大きく依存する。しかし、それはチェーン規則を破る。したがって、dy/dxの良好な近似を得ることができるかどうかが中心的な問題である。
本発明の「近似」の性能を更に調べるために、ランダム正/負サンプリング無しで正確な確率的勾配降下UMAPを実装した。以下に手順を示す。
低埋め込みを解くために、UMAPクロスエントロピー損失に対してSGDを達成する関数を書く。
δによってXjの1つの座標を更新し、この時点では、
Figure 2022549844000053
のみを更新し、現在の低埋め込みを初期化として、更新がスムーズに行われるように、UMAPでSGDを解決する。
数値勾配の定義により、以下の式
Figure 2022549844000054
が得られる。
このようにして、数値勾配は、近似された勾配とは全く異なり、多くの場合、符号が誤っている。
正確な数値勾配を用いたバックプロパゲーションを更に考察し、
Figure 2022549844000055
上のバックプロパゲーションが高次元構造を回復するのに十分であるかどうかについて公正なテストとなるはずである。依然として、12点の実施例を考える。実点に近い点から出発すると、勾配は非常に妥当であり、それらはその現在のメンバーシップ強度に従って対角方向に向かって散乱したり集中したりする傾向があることが分かった。しかし、数回の更新の後、それは少しオフになり、ワイルドになる可能性がある。また、ランダムな初期化から開始する場合、点は依然として正しい方向を回復することができない。
12点の実施例では、(1)良好なスケーリング点で、いくつかの観察を行う。その対応する埋め込みは、スケール変換まで非常に良好である。図13は、12点の実施例を示すプロットである。
また、勾配はかなり合理的であり、一つの他方の点に対する勾配w.r.t、またはすべての点に対する勾配w.r.tの両方を考慮する場合を考える。1点の場合、勾配は、点を押し離す方向である。
UMAPを層としてインポートする。
このセクションでは、標準的なニューラルネットワークフレームワークで使用することができる「UMAP」層を実装することを検討する。これは、自己定義の順方向および逆方向の関数を有するpytorch autogradクラスを定義することによって達成することができる。図14は、12点埋め込みを示すプロットである。
図16は、訓練後の2-D埋め込みの例示的な実現を示すプロットである。この実施例では、いくつかの適応が行われている。これまで、本発明者らは、UMAPを解決するために、自筆の厳密なSGDを使用している。このようにして、本発明者らは、小さなデータセットにおけるランダム性によって導入されるバイアスを回避し、また、結果をより追跡可能にする。各順方向ステップにおいて、過度に多くない更新エポックを用いて、最後の反復からのUMAPの低次元埋め込みを更新する。このようにして、UMAP層の後のパラメータも着実に更新できるように、UMAPをあまり変化させないように制御する。この場合、点の相対的な近傍を更新するために十分に大きな引力を必要とするので、比較的高い学習率がより良好に働くことが分かった。別の方法では、初期化された埋め込みの周囲に固着する。図15は、例示的な定義済みUMAP層である。
まず、12点の実施例を試してみる。今回は、それらを4つのクラスとして扱い、負の尤度損失を課す。この実験では、UMAP層の前に1つの全結合層を有し、UMAP層の後に別の全結合層を有する。ほとんどの場合、損失関数はゼロに非常に近い何かに収束し、4つのクラスは十分に分離される。次に、MNISTデータセットの研究に移る。最初に、本発明者らは、UMAPを解くために本発明の厳密なSGDアルゴリズムを依然として使用し、いかなる近似又はランダムサンプリング技術も使用しない。
現在の厳密なSGDアルゴリズムでは、各反復ですべてのデータを使用する必要があるため、今のところミニバッチを使用することはできない。それは、次のステップで重要な仕事になる。現在は、グローバルSGDでもSGDアップデートが使用される。
MNISTデータセット上の標準CNNフレームワークを使用し、全結合層をUMAP層に置き換える(20個のアウトチャネルとカーネルサイズ5×5とプール2×2を有する畳み込み層。50個のアウトチャネルとカーネルサイズ5×5とプール2×2を有する畳み込み層。全結合層は、800~500および500~10である。10次元から2次元に投影するUMAP層。2~2次元、2~10次元の全結合続層)。大きなサンプルサイズ(60000)を考慮すると、ここでは、現在の小さな実験のために最初の100サンプルを使用する。損失関数は一般に減少することが分かったが、更新が本質的な近傍情報に影響を及ぼす場合、損失値は飛び越えることができる。約2500回の反復の後、低次元埋め込みは、図16に以下のようにプロットされる。図17は訓練前の埋め込みを示すプロットであり、図18は訓練後の埋め込みを示すプロットである。
損失は0.98付近で安定している。また、近傍情報が変更された場合、損失は時々上にジャンプすることができ、重みは新しい近傍に調整されていない。プロットから、一緒に集中する多くのクラスを有するが、近傍の更新は本当に困難であり、安定した液を得ることができないことが分かる。
UMAP層アイデアの問題
実際問題として、現在のネットワークアーキテクチャに2つの主要な問題があることを観察する(UMAP更新は不安定であり、通常、一緒に点を接着する。これは、UMAP更新に伴う損失関数の増加につながる。スケール項σは実際に高くなるように激増する傾向があり、これは、点間の構成が理想的ではないことを意味する。
これらの問題に対処するために、本発明者らは、いくつかのアプローチを検討する。ネットワークにおける重みを安定化するために、50回の反復毎にUMAP埋め込みを更新する。力σは、高い固有次元数を避けるために小さくする。安定性を向上させるために、バッチでUMAP埋め込みを更新する。
しかしながら、これらのアプローチは、依然として、反復における収束損失関数につながる。主な問題は、依然として、方向勾配近似が十分ではないということである。
近傍保存層
議論されたように、主な問題は、バックプロパゲーション(back prop)が、本発明者らが期待する方法で低埋め込みを実際に変更するのに役立たないことである。このように、自然なアイデアが低埋め込み自体をバックプロパゲーション(back prop)に更新した場合に何が起こるかということである。そこで、本発明者らは、次のような実験を考え出した。
このフレームワークでは、本発明者らは、畳み込み層を事前訓練し、メンバーシップ強度行列μによるその埋込みを計算した。次に、μを参照するUMAPクロスエントロピー損失と分類負対数尤度損失の両方を構成するUMAP埋め込みを更新する。モデルを訓練した後、全ての現在の埋め込みを参照して、UMAPモジュールにおける変換関数を使用して新しいモデルを予測することができる。この場合、分類誤差率は非常に低く、訓練及びテストセットの低埋め込みは、以下の通りである。異なるクラスが非常に良好に分離されており、線形パターンは本発明のニューラルネットにおける1つの全結合層構造によるものであることが分かる。
重要なメッセージは。高埋め込み自体が妥当であれば、μが良好な低埋め込みを達成するのを助けるのに十分であるということである。それは、別の方法でバックプロパゲーション(back prop)について考える動機づけになる。本発明者らの勾配近似
Figure 2022549844000056
を想起する。
最初の項と最後の項の正確な解を有するが、単に中間項の良好な近似を有していない。以前の実験に基づいて、実際には、ネットワークにμを導入することによって、この完全な項を計算することを回避することができる。本発明者らの以前の実験と比較すると、重要な違いは、μが現在ネットワーク内にあり、それが逆伝播によって更新されることであることを理解することができる。μ自体をネットワークに導入することによって、μに対する損失の勾配を計算するためにバックプロパゲーション(back prop)を使用することができる。上述したように、μ項の正確な勾配公式を有するので、「μを計算する」新しい層を定義することによって、畳み込み層に簡単にバックプロパゲーション(back prop)することができる。このようにして、高埋め込みから低埋め込みへの1対1写像を解決したが、ニューラルネットにUMAPクロスエントロピー損失を導入することによって、それらを共同で更新した。本発明者らの以前の構造と比較すると、μからνへの1対1写像を仮定し、これは近似するのが非常に困難であり、初期化が不良である場合、現在の位置に更新するのが非常に困難である。現在の構造は、低埋め込みからのメッセージが高埋め込みにも影響を及ぼすことを可能にし、したがって、高埋め込みにおける更新の方向を修正する。図19は、事前訓練されたネットワークによる更新埋め込みを示す概略ブロック図である。
MNISTデータセットでの実験では、損失関数はかなりよく収束し、σは非常に安定であり、異なるクラスは低埋め込みでよく分離する。100サンプルの訓練埋め込み例が図14(A)および図14(B)に示されている。図14(A)および図14(B)は、それぞれ訓練(2000点)およびテスト(1000)のための固定された事前訓練畳み込み層を用いた埋め込みを示す。それらのパターンは、事前訓練されたものとかなり類似しており、1つのrelu-fc層での分類には理にかなっていることがわかる。この場合、分類損失は、0.1未満(標準CNNに匹敵する)に低下する。図22は、本発明の新しいアーキテクチャによる訓練埋め込みを示すプロットである。
1つの懸念はμを計算する逆方向層が非常に遅いことであり、それは、かなりの数の行列乗算を必要とするからである。このバックプロパゲーション(back prop)ステップをどのようにスピードアップするかを探求する価値がある。
オートグラッド(Autograd)およびバッチ学習
オートグラッド(Autograd)
バックプロパゲーションを高速化するために、テンソル(高次元埋め込みZからμまで)で自己定義層を書き込むことを考える。オートグラッド適用可能にするために、ここでは、勾配を
Figure 2022549844000057
だけに結びつけ、ρおよびσの影響を無視する。これらのパラメータはUMAP論文と同じアプローチを用いて計算し、それらの影響は小さく、無視できるので、グラフには含めない。図21は、新しいネットワークアーキテクチャを示すブロック図である。
この適応を行うことにより、アルゴリズムは、バッチサイズ1000~2000を扱うのに十分に高速である。また、性能とロバスト性を改善するためにいくつかのことを論じることができることを見いだした。固有次元を制御するためにネットワーク上に
Figure 2022549844000058
正則化を置く。比較は、図23(A)、図23(B)、図24(A)、および図24(B)にプロットで提供されている。畳み込み層と全結合層との間の代替的な更新比率。高い比率は各クラスの低埋め込みを線上により集中させ、低比率は分類損失を1ビット増加させ、各クラスの低埋め込みをより広げる。0および1に近いメンバーシップ強度に対処する方法。ここで、μ=0.98×μ+0.01を使用し、極端な値を避けるために(0.01,0.99)に線形に写像する。
これらのプロットから、正則化を課すと、異なるクラスがより分離され、テスト集合内での識別も容易になることが分かる。
バッチ学習
データセット全体でモデルを訓練することは現実的ではないことは明らかである。したがって、ここでは、バッチ学習手法についてさらに検討する。UMAPは、データセットが低次元多様体上に一様に分布されると仮定している。したがって、データをランダムにサブサンプリングする場合、仮定は依然として成り立つ。そして、ネットワークを訓練するために、同じアプローチを依然として使用することができる。この事実は、本発明者らが訓練するネットワークにおいてバッチ学習手法を使用できることの正当性を示す。しかし、作らなければならない一つの重要な適応がある。低埋め込みを安定化するために、各バッチについて、他の点の低埋め込みを固定し、バッチ内の特定の点の低埋め込みのみを更新する必要がある。このように、本発明者らは、低い埋め込みがバッチごとに安定であることを保証する。ここでは、全訓練データセット(60000点)と5つの数エポック後のテストデータセット(10000点)とからの低次元埋め込みのプロットを提供した。図25(A)および図25(B)は、バッチ学習結果(50エポック)を示す。その結果から、異なるクラスが訓練データセットとテストデータセットの両方において十分に分離されていることが分かる。また、各クラスの線上の望ましくない集中も取り除かれる。また、テスト精度は~82%である。本発明者らは、全ての訓練サンプルにわたり固有次元の尤度推定量を計算した。平均5.768で1.745~29.211の範囲であった。それは一般に合理的に低い。
潜在的な改善/問題は、1つのRelu活性化を有する2つの全結合層が複雑な形状を有する10のクラスを十分に分離するのに十分であるか、ということである。本発明者らは、いくつかのバッチの後、バッチの訓練分類損失が約0.4~0.5に集中することを観察するので、それはより小さくなるはずである。層を追加すると、訓練分類誤差が小さくなる傾向がある。また、テスト精度は~87%に向上する。それらの埋め込みプロットも提示する。固有次元数を制御するための適切な正則化は何か?ここで、畳み込みネットワーク上で
Figure 2022549844000059
正則化を使用する。最適なバッチ学習構造は何か?ここで、各バッチについて、計算の複雑さを低減するために、バッチ内のμおよびνのみを計算する。ここでは、グローバルグラフ情報は使用しない。それは最も理想的な方法ではないかもしれない。図26(A)および図26(B)は、より深い層(50エポック)でのバッチ学習のための訓練セット埋め込みおよびテストセット埋め込みを示すプロットである。
近傍保存層を持つネットワークの理論解析
最初に、本発明者らは、本発明者らの新しい点を予測する際に使用するのと全く同じ近傍加重平均アプローチを検討する。
Figure 2022549844000060
ここで、
Figure 2022549844000061
は、
Figure 2022549844000062
の対応する低次元埋め込みである。ここでは、近傍更新頻度を制限するための別の仮定を導入する。これは、小さなBrボール移動として変更された点の比率を表す。
仮定1。
Figure 2022549844000063
は分布Pに従う。Pはほぼどこでも密度で一様に束縛されていると仮定する。
Lemma1。すべての点
Figure 2022549844000064
に対して、
Figure 2022549844000065
のようなC3>0が存在すると仮定する。
証明。いずれにせよ、二つの高次元ボールの交差の体積とそれらの対称差を計算することができる。(Li2011)を参照すると、
Figure 2022549844000066
を有する。ここで、Δは、
Figure 2022549844000067
になるような対称差演算子である。
Figure 2022549844000068
は正則化不完全ベータ関数
Figure 2022549844000069
である。
Figure 2022549844000070
として知られているので、十分小さなエプシロンの場合、
Figure 2022549844000071
であるような任意の小さな定数
Figure 2022549844000072
を見つけることができる。さらに、分布は、サンプル点
Figure 2022549844000073
の場合に、
Figure 2022549844000074
であるような、実現可能な領域S内の同じ体積A、Bを有する任意の2つの領域に対して、α均一分布(α-even distribution)であると言う。
密度がほとんどすべての場所で一様に有界な分布は、それらの密度が上限と下限の両方であるため、α均一分布として表すことができる。また、α均一分布については、定義上、
Figure 2022549844000075
を有する。したがって、仮定1のもとで、すべての分布に対して、対応するαと、望ましいC3とをいつでも見つけることができる。
別の仮定は、
Figure 2022549844000076
および
Figure 2022549844000077
のすべての点が
Figure 2022549844000078
正規化の観点で一様に結合が設定されることである。
仮定2。点
Figure 2022549844000079
の場合に、任意の点
Figure 2022549844000080
に対して、その埋め込み
Figure 2022549844000081

Figure 2022549844000082
を満たすと仮定する。
なぜなら、目標は、挙動する低次元埋め込みを得ることであるからである。したがって、このような正則化境界(regularization bound)は、本発明者らの設定において妥当である。また、必要な注釈を導入する。スカラー関数
Figure 2022549844000083
の場合、
Figure 2022549844000084
を使用して、ランダムベクトル
Figure 2022549844000085
の各要素間の要素ごとの母共分散を表し、
Figure 2022549844000086
の集合S内のランダムスカラー
Figure 2022549844000087
は、集合Sで制約された分布に従う。
Figure 2022549844000088
を有する同じ次元を持つ。さらに、データ点
Figure 2022549844000089
に対して、
Figure 2022549844000090
におけるその近傍は
Figure 2022549844000091
であり、それらの埋め込みは
Figure 2022549844000092
であると仮定する。それらの
Figure 2022549844000093
までの距離は、i=1,...,nに対して
Figure 2022549844000094
と表される。それらの重みは
Figure 2022549844000095
と仮定する。
定理1。データは、空間
Figure 2022549844000096
におけるPに従うと仮定し、PからN点を一様にサンプリングする。点
Figure 2022549844000097
に対して、第i番目の最近傍の重みが
Figure 2022549844000098
であると仮定する。ここで、
Figure 2022549844000099
は非増加関数である。
Figure 2022549844000100
および
Figure 2022549844000101
である。C3は変化点の一部の上限であり、
Figure 2022549844000102
である。
Figure 2022549844000103
であるような任意のδ>0および任意の正規化方向
Figure 2022549844000104
について、
Figure 2022549844000105
であるような十分に大きいNを見つけることができる。
注意1。定理から、近傍加重埋込みのリップシッツ境界が(C1,C2,C3,C4)により決定されることが分かる。また、定義により、半径rの選択によりC1≦1であることが分かり、関数減衰が十分に高速である限り、C2が下限である。例えば、
Figure 2022549844000106
を選択すると、C2≦1になる。C3とC4もpに依存しない小さな定数である。したがって、近傍埋め込み層のリプシッツ境界はより小さく、pと共に発散せず、
Figure 2022549844000107
のスケールから解放される。
証明。証明は2つの部分に分けられる。最初に、近傍に更新がない場合の、
Figure 2022549844000108
に対する導関数w.r.tを検討する。次に、近傍変化の場合について検討する。
第1に、近傍が変化しない場合、
Figure 2022549844000109
のあらゆる可能な高次元埋め込みに対する導関数w.r.tを考慮することができる。
Figure 2022549844000110
を示すと、
Figure 2022549844000111
で、
Figure 2022549844000112
となるような特定の方向の導関数を計算することができる。
ここで、
Figure 2022549844000113
は、特定の方向における
Figure 2022549844000114
の勾配である。したがって、
Figure 2022549844000115
として、その
Figure 2022549844000116
正規化を制限することができる。
ここでは、
Figure 2022549844000117
で、
Figure 2022549844000118
の方向にちょうどある場合、かつ、その場合に限り、等価が成り立つという事実を使用する。
次に、この期待値に対する経験的平均の収束について考察する。
Figure 2022549844000119
および
Figure 2022549844000120
として知られている。wiおよび1/wiは、すべて有限の2番目のモーメント値で境界が設定される。したがって、
Figure 2022549844000121
のような、スルツキー(Slutsky)定理を適用することができる。
δ>0であれば、nが十分に大きく、
Figure 2022549844000122
を満足できるように、十分に大きなNを選択できることを示す。
近傍の更新の検討に移行する。i=1,...,n-kに対するxiは、
Figure 2022549844000123

Figure 2022549844000124
の両方の点である。i=n-k+1,...,nに対するxiを、
Figure 2022549844000125
ではなく、Br(x)の点として表す。また、i=1,...,k0に対する
Figure 2022549844000126
を、
Figure 2022549844000127
ではなく、
Figure 2022549844000128
の点として表す。
Figure 2022549844000129
を考慮する場合はwiを用いて重みを表し、
Figure 2022549844000130
を考慮する場合にwiを用いる。
次に、近傍を更新し、重みを更新する効果を統合すると、埋め込み変化は、
Figure 2022549844000131
のように制限することができる。
(A)部分は、以前の勾配境界によって境界が定められる。境界(B)部分に焦点を当てる。
Figure 2022549844000132
Figure 2022549844000133
として、
Figure 2022549844000134
が(
Figure 2022549844000135
または
Figure 2022549844000136
の一方における)更新された近傍であり、
Figure 2022549844000137

Figure 2022549844000138
および
Figure 2022549844000139
の両方における更新された近傍である場合、
Figure 2022549844000140
および
Figure 2022549844000141
となるので、すべての更新された近傍は、変更を残した近傍よりも最小の重みを持っていることがわかる。仮定1及びLemma1からの結果と組み合わせて、十分に小さい大きいnについて、本発明者らの場合では、
Figure 2022549844000142
を有することが分かる。
Figure 2022549844000143
を示す。
Figure 2022549844000144
が分かっており、したがって、
Figure 2022549844000145
が分かる。
さらに、(C)の境界を導出する。
Figure 2022549844000146
したがって、
Figure 2022549844000147
として、
Figure 2022549844000148
を有する。同様に、
Figure 2022549844000149
を設定することができる。
Figure 2022549844000150
また、
Figure 2022549844000151
に対する勾配境界も有する。したがって、
Figure 2022549844000152
と結論する。
第2の不等式は、(C)および(D)の導出境界について言える。
近傍保存層のリップシッツ上限を導出した後、全結合層のリップシッツ境界と比較する。1つの層のみが考慮されるとき、
Figure 2022549844000153
および
Figure 2022549844000154
を与えると、最良の全結合層は、多重応答回帰問題と等価であることがわかる。
Figure 2022549844000155
と表すと、
Figure 2022549844000156
となる。
この重みの選択は、この特定層における
Figure 2022549844000157
損失を最小限に抑えることができ、最良の非バイアス線形重みである。単一層を考慮する場合、これは使用すべき目標重みである。解析を進めるために、
Figure 2022549844000158

Figure 2022549844000159
に対する一組の規則性状態を導入する。
仮定3。ここでは、
Figure 2022549844000160
は、ボール
Figure 2022549844000161
で、中心0上で対称に、分布Qから独立にサンプリングされ、
Figure 2022549844000162
は、
Figure 2022549844000163
および
Figure 2022549844000164
のようにPから独立して分布すると仮定する。
仮定は、低次元埋込み
Figure 2022549844000165
の分布がうまく振舞うことを必要とし、共分散行列は固有値上限を持つ。それは、
Figure 2022549844000166
が制限されている限り、自然に保持される。さらに、それぞれの
Figure 2022549844000167

Figure 2022549844000168
は相関
Figure 2022549844000169
を持つと仮定する。これらの仮定はすべて、近傍保存層によって容易に達成することもできる。
定理2。上記の仮定3が成り立つ場合、任意の定数δ>0に対して、先に定義された重み
Figure 2022549844000170

Figure 2022549844000171
を満たすようになる。
さらに、この全結合層のリップシッツ定数は、
Figure 2022549844000172
のように
Figure 2022549844000173
の方向が存在することを満す。ここで、
Figure 2022549844000174
は2つの標準偏差の積である。
注意:全結合層は
Figure 2022549844000175
の特徴を抽出し、
Figure 2022549844000176
に渡すように設計されているので、riは大きくなければならない。
証明。すでに示したように、
Figure 2022549844000177
が分かっている。したがって、
Figure 2022549844000178
を得る。
共分散有界固有値の仮定により、
Figure 2022549844000179
が分かっている。したがって、
Figure 2022549844000180
のように十分に大きなnを見つけることができる。
さらに、
Figure 2022549844000181
と書いて、
Figure 2022549844000182
を導出する。
また、
Figure 2022549844000183
が分かっている。ここで、
Figure 2022549844000184
である。以前の式に代入すると、δ>0であれば、
Figure 2022549844000185
であるような十分に大きなnを見つけることができる。
最後に、リップシッツ定数は、
Figure 2022549844000186
を満たす。
これまで、近傍保存層のリップシッツ上限
Figure 2022549844000187
および全結合回帰層の下限
Figure 2022549844000188
を導出した。
そして、すべてのri
Figure 2022549844000189
の場合、
Figure 2022549844000190
であることが分かった。これは、本発明者らの近傍層は、概して、設計された全結合層のリップシッツ境界の
Figure 2022549844000191
次数上にあることを意味する。
導出されたリップシッツ境界は、ネットワークのロバスト性、および勾配降下に基づく攻撃方法にも密接に関連している。リップシッツ定数が全体的に小さい場合、すべての方向からの摂動は、損失関数を著しく変化させることができず、したがって、勾配降下に基づく攻撃は無効になる。
この影響を説明するために、最初に、ロバスト性評価のためのよく知られた指標である「最小LP歪み」を導入する必要がある。(Hein and Andriushchenko 2017)。
定義1。δp
Figure 2022549844000192
のように定義すると、ネットワークは点xで最小LP歪みδpを有すると言える。ここで、δpは、この大きさより小さいすべての歪みが分類レベルを変更しないように許容される最大歪みLP正規化である。この距離は、C&W攻撃に対するネットワークの性能に密接に関連している。C&W攻撃では、損失関数の差を最大にするように、SのL2歪みを正確に探す。
推論1。定理1および2の条件が成立する場合、Hein and Andriushchenko.(2017)で導入された最小L2歪み境界は、全結合層をUMAP層で置き換えることによって、
Figure 2022549844000193
倍改善される。
証明。次元削減層前のリップシッツ定数がLaであり、次元削減層後のリップシッツ定数がLbであると仮定する。次に、Szegedyら(2013)で解析したように、UMAP層を有するネットワーク全体のリップシッツ定数は、L=Lab1であり、全結合層を有するネットワークの場合は、L=Lab2である。次に、HeinおよびAndriushchenko.(2017)の定理2.1にリップシッツ境界をプラグし、p=q=2および十分大きくなるように半径を選択すると、
Figure 2022549844000194
であることが分かる。したがって、最小L2歪み境界
Figure 2022549844000195
が得られる。
これまで、UMAP層がどのようにリップシッツ定数を縮小するのを助け、したがって最小歪み境界を改善するのを助けるかを分析した。Madry et al.(2017)は、鞍点問題を提案し、ネットワークのロバスト性の良好な尺度としてよく認識されている。
Figure 2022549844000196
ここで、Sは半径の小さな歪みの実現可能領域である。
この場合、歪みは、
Figure 2022549844000197
のように評価することができる。
ここでは、定理1からの影響を利用して、ロバスト性もこの距離の下で著しく改善されることを示す。
定理3。定理1のすべての条件が満たされる場合。また、分類のための損失関数が、負の対数尤度損失として選択される。ボトルネックを持つネットワークは、歪み期待値の上限
Figure 2022549844000198
を持つ。ここで、
Figure 2022549844000199
は、定義された特定の値のリップシッツ定数である。仮定1-3の下で、全結合層の歪み境界(distortion bound)は近傍保存層の
Figure 2022549844000200
倍であることが分かる。
証明。最初に、負の対数尤度損失は、すべての層の最終値に対して加法的であることが分かっている。したがって、ここでは、各分類出力の境界を導き出すだけで、それらをi=1,...,cに関して
Figure 2022549844000201
と表記し、
Figure 2022549844000202
層を関数の入力として扱う。また、
Figure 2022549844000203
と表記して、次元削減層の前のすべての層を表す。
定義上、次のようになる。
Figure 2022549844000204
ここで、
Figure 2022549844000205
は、定義された特定の値のリップシッツ定数である。したがって、
Figure 2022549844000206
項は変化する。この項は点ごとに異なり、異なる設定で指定することができるので、これ以上制限しない。しかし、上述したように、歪み境界は、そのリップシッツ定数境界に比例する。本発明の場合、それは
Figure 2022549844000207
である。
鞍点問題の観点から、歪みはリップシッツ境界にも比例することが分かる。
サンプリングによる敵対的訓練
ここでは、フレームワークにおける敵対的訓練をどのように達成するかを検討する。各バッチにおいて、真のデータと生成された「敵対的バッチ」の両方の損失を計算する。敵対的バッチは、PGD攻撃アルゴリズムを使用して生成される。敵対的訓練フレームワークは、図27に要約することができる。図27、本開示の態様による本発明の敵対的攻撃フレームワークを概説する概略ブロック図である。
以前のフレームワークでは、近傍と到来する未知点の低次元埋め込みとを計算するために、すべての訓練データ点の高次元埋め込みと低次元埋め込みとが必要であった。埋め込みを計算するためには多くのメモリを必要とし、各バッチ反復についてこの近傍グラフを計算することは現実的ではない。したがって、ここで、近傍加重平均層を計算するために、適切な重みを有する部分点(または標本)を使用することを検討する。
これまで、本発明者らは2つを開発した。第1に、(1)各バッチを単に標本自体として使用する。その高次元埋め込みを計算するだけでよく、バッチサイズが妥当であれば、実験でうまく機能し、テスト精度>97%を達成する。第2に、(2)高/低次元埋め込みと、それに対応する重みを、特定の数の点で割り当てる。これまで、各クラスに対して100個のクラスタを有するK平均クラスタリングを使用することによって、それらを初期化した。MNISTの場合、高次元と低次元でクラスタセンタxiとyiを有する1000クラスタを有する。それぞれのクラスタは、クラスタの大きさである重みwiを有する。本発明者らは、このアプローチが95%の精度を維持することを見出した。
ロバスト攻撃実験
ネットワークの経験的ロバスト性を評価するために、本発明者らは、同じネットワーク層構造及びサイズを有する本発明の訓練されたネットワーク及び標準CNNネットワークに勾配降下に基づく攻撃を実施する。PGD攻撃は、元のデータを最大勾配を有する方向に移動させると考えられる。
Figure 2022549844000208
本発明者らの実験では、
Figure 2022549844000209
はデータに対する
Figure 2022549844000210
射影と考えられる。データが0から1の範囲になるようにデータを正規化する。したがって、
Figure 2022549844000211
は約3ピクセルまでの変化を表し、
Figure 2022549844000212
は約15ピクセルまでの変化を表し、以下同様である。表において、「FC」は全結合ボトルネックネットワークを表し、「UMAP」は提案されたUMAPボトルネックネットワークを表し、「Ref」は全データセットの代わりに1000個の基準点のみを有する提案されたUMAPボトルネックネットワークを表す。サブスクリプション番号は、層の次元を意味する。本発明者らは、異なるボトルネック層の下で
Figure 2022549844000213
投影攻撃による表を提供する。
Figure 2022549844000214
本発明者らは、また、図28にその表を視覚化した。その結果から、全ての訓練データを基準点として使用するとき、異なるレベルの摂動に対して最高の精度を達成することが分かった。比較的少数の基準点を使用すると、性能は低下するが、依然として比較的にロバストであった。
ここまで、いくつかの特定の例を使用して本開示を提示したが、当業者は本教示がそのように限定されないことを認識するのであろう。特に、今後は、(1)基準点を訓練データセット全体に写像することなく効率的に更新する方法、および(2)VGGネットワークを用いてCIFAR10データセットに本アプローチを適用する方法の2つの問題を考察する。したがって、この開示は、本明細書に添付される特許請求の範囲によってのみ限定されるべきである。

Claims (17)

  1. ニューラルネットワークを訓練する方法であって、
    加重平均近傍層の勾配バックプロパゲーションが入力ドメインエントリに修正されることを特徴する方法。
  2. 事前入力プロセス(エンコーダ)が入力ドメインエントリと共に学習されることを特徴とする、請求項1に記載の方法。
  3. 固定サイズの埋め込み層が無制限の訓練データを有する入力領域分布に適応することを特徴とする、請求項2に記載の方法。
  4. ニューラルネットワークのデータ拡張訓練または敵対的訓練を特徴とする、請求項3に記載の方法。
  5. 固定サイズの入力データセットのための黙示的に維持された入力空間エントリを特徴とする、請求項1に記載の方法。
  6. ニューラルネットワークを訓練する方法であって、
    時間依存入力分布に適応する経時割引近傍重みを特徴とする方法。
  7. ストリーミングデータに適用される可変数の時間適応写像エントリを特徴とする、請求項6に記載の方法。
  8. 結合動作を介して結合されたメモリ使用を特徴とする、請求項7に記載の方法。
  9. 入力ドメインエントリに修正された加重平均近傍層の勾配バックプロパゲーションを特徴とする、請求項6に記載の方法。
  10. 時間依存の入力分布を有する入力のストリームが適用されるときに、近傍埋め込み層を学習することを特徴とする、請求項9に記載の方法。
  11. ニューラルネットワークにおいて次元削減層を実現する方法であって、
    前記次元削減層は、有限集合の入力(基準入力)と所望の低次元出力(基準出力)によってパラメータ化されることを特徴とする方法。
  12. 前記次元削減層を通って前のニューラルネットワーク層に誤差逆伝播することを特徴とする、請求項11に記載の方法。
  13. データ拡張または敵対的訓練により前記次元削減層を訓練することを特徴とする、請求項12に記載の方法。
  14. 基準入力は、メモリに保持されず、ニューラルネットワークの先行する層が維持される前のプレイメージのみが保持されることを特徴とする、請求項12に記載の方法。
  15. 前記次元削減層は誤差逆伝播され、それによって基準出力および基準入力の両方を更新することを特徴とする、請求項11に記載の方法。
  16. オンライン訓練プロセス中に、新しい基準入力と基準出力を追加し、定期的に結合して、基準入力の総数が制限されたままになるようにすることを特徴とする、請求項11に記載の方法。
  17. 基準点の加重平均に使用される経時割引近傍加重を特徴とする、請求項11に記載の方法。
JP2022518841A 2019-09-24 2020-09-24 加重平均近傍埋め込みの学習 Pending JP2022549844A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962904737P 2019-09-24 2019-09-24
US62/904,737 2019-09-24
US17/030,299 2020-09-23
US17/030,299 US20210089924A1 (en) 2019-09-24 2020-09-23 Learning weighted-average neighbor embeddings
PCT/US2020/052577 WO2021062052A1 (en) 2019-09-24 2020-09-24 Learning weighted-average neighbor embeddings

Publications (1)

Publication Number Publication Date
JP2022549844A true JP2022549844A (ja) 2022-11-29

Family

ID=74880996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022518841A Pending JP2022549844A (ja) 2019-09-24 2020-09-24 加重平均近傍埋め込みの学習

Country Status (3)

Country Link
US (1) US20210089924A1 (ja)
JP (1) JP2022549844A (ja)
WO (1) WO2021062052A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11785024B2 (en) * 2021-03-22 2023-10-10 University Of South Florida Deploying neural-trojan-resistant convolutional neural networks
US20220343179A1 (en) * 2021-04-26 2022-10-27 International Business Machines Corporation Localization-based test generation for individual fairness testing of artificial intelligence models
US20220358360A1 (en) * 2021-05-07 2022-11-10 Bentley Systems, Incorporated Classifying elements and predicting properties in an infrastructure model through prototype networks and weakly supervised learning
CN116658492B (zh) * 2023-07-28 2023-10-27 新疆塔林投资(集团)有限责任公司 智能动力猫道及其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009516246A (ja) * 2005-11-15 2009-04-16 ベルナデット ガーナー ニューラルネットワークのトレーニング方法
JP2012014617A (ja) * 2010-07-05 2012-01-19 Honda Motor Co Ltd ニューラルネットワーク学習装置
JP2012038240A (ja) * 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
CN108229479A (zh) * 2017-08-01 2018-06-29 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
US20180342050A1 (en) * 2016-04-28 2018-11-29 Yougetitback Limited System and method for detection of mobile device fault conditions

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9324022B2 (en) * 2014-03-04 2016-04-26 Signal/Sense, Inc. Classifying data with deep learning neural records incrementally refined through expert input
US20170091619A1 (en) * 2015-09-29 2017-03-30 Qualcomm Incorporated Selective backpropagation
US20170337682A1 (en) * 2016-05-18 2017-11-23 Siemens Healthcare Gmbh Method and System for Image Registration Using an Intelligent Artificial Agent
US11017761B2 (en) * 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009516246A (ja) * 2005-11-15 2009-04-16 ベルナデット ガーナー ニューラルネットワークのトレーニング方法
JP2012014617A (ja) * 2010-07-05 2012-01-19 Honda Motor Co Ltd ニューラルネットワーク学習装置
JP2012038240A (ja) * 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US20180342050A1 (en) * 2016-04-28 2018-11-29 Yougetitback Limited System and method for detection of mobile device fault conditions
CN108229479A (zh) * 2017-08-01 2018-06-29 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARILD NOKLAND: "IMPROVING BACK-PROPAGATION BY ADDING AN ADVERSARIAL GRADIENT", ARXIV, vol. arXiv:1510.04189v2, JPN6023014758, 6 April 2016 (2016-04-06), pages 1 - 8, XP055794859, ISSN: 0005039795 *
岩澤 有祐 ほか: "敵対的訓練を利用したドメイン不変な表現の学習", 一般社団法人 人工知能学会 第31回全国大会論文集DVD [DVD−ROM], vol. 1A2−OS−05b−3, JPN6023014757, 23 May 2017 (2017-05-23), JP, pages 1 - 4, ISSN: 0005039794 *

Also Published As

Publication number Publication date
US20210089924A1 (en) 2021-03-25
WO2021062052A1 (en) 2021-04-01

Similar Documents

Publication Publication Date Title
You et al. Graphrnn: Generating realistic graphs with deep auto-regressive models
Vahdat et al. Score-based generative modeling in latent space
Bottou et al. Optimization methods for large-scale machine learning
JP6989387B2 (ja) 古典的なプロセッサで量子類似計算をエミュレートするためのquanton表現
JP2022549844A (ja) 加重平均近傍埋め込みの学習
Gong et al. A multiobjective sparse feature learning model for deep neural networks
Magris et al. Bayesian learning for neural networks: an algorithmic survey
Carreira-Perpinán et al. Model compression as constrained optimization, with application to neural nets. Part II: Quantization
Gong et al. Multiobjective sparse non-negative matrix factorization
US11544571B2 (en) Optimizing unsupervised generative adversarial networks via latent space regularizations
CN115661550B (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
Manisha et al. Generative Adversarial Networks (GANs): What it can generate and What it cannot?
Tan et al. Knowledge transfer in evolutionary multi-task optimization: A survey
Geyer et al. Low-rank regularization and solution uniqueness in over-parameterized matrix sensing
Huynh et al. Quantum-inspired machine learning: a survey
Zhou et al. Communication-efficient and Byzantine-robust distributed learning with statistical guarantee
Wen et al. A structure-adaptive hybrid RBF-BP classifier with an optimized learning strategy
Dikkala et al. For manifold learning, deep neural networks can be locality sensitive hash functions
Chang Latent variable modeling for generative concept representations and deep generative models
Tang et al. Concrete subspace learning based interference elimination for multi-task model fusion
Li et al. Analogical Learning-Based Few-Shot Class-Incremental Learning
Hasanzadeh et al. Bayesian graph contrastive learning
Pooladzandi Fast Training of Generalizable Deep Neural Networks
Pezeshkpour Compact factorization of matrices using generalized round-rank
Chen et al. SNAP: Shaping neural architectures progressively via information density criterion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230621

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230912