JP2024500730A - 解きほぐされた学習を使用した解釈可能な深層学習モデルのトレーニング - Google Patents

解きほぐされた学習を使用した解釈可能な深層学習モデルのトレーニング Download PDF

Info

Publication number
JP2024500730A
JP2024500730A JP2023536561A JP2023536561A JP2024500730A JP 2024500730 A JP2024500730 A JP 2024500730A JP 2023536561 A JP2023536561 A JP 2023536561A JP 2023536561 A JP2023536561 A JP 2023536561A JP 2024500730 A JP2024500730 A JP 2024500730A
Authority
JP
Japan
Prior art keywords
data set
model
input data
task
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023536561A
Other languages
English (en)
Inventor
チャックラボーティ、スプリオ
カロ、セラフィン、バーナード
ウェン、ジアウェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2024500730A publication Critical patent/JP2024500730A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2024500730000001
解釈可能な深層学習モデルをトレーニングする方法およびシステムは、複雑であり得る入力データ・セットを受け取ることを含む。入力データ・セットは、特徴抽出のために深層学習モデルに提供される。例示的な実施形態では、深層学習モデルは、特徴抽出から特徴の解きほぐされた潜在空間を生成する。特徴はセマンティック的に意味のあるデータを含み得、これは次いで低複雑度の学習モデルに提供される。低複雑度の学習モデルは、指定されたタスク(たとえば、分類または回帰)に基づいて出力を生成する。低複雑度の学習モデルであることによって、深層学習モデルからのデータ出力が本質的に解釈可能であるという信頼性が提供される。

Description

本開示は一般にデータ処理に関し、より詳細には、解きほぐされた(disentangled)学習を使用して解釈可能な深層学習モデルをトレーニングするシステムおよび方法に関する。
ニューラル・ネットワークは一般的に、生体脳の動作を模倣する技術と考えられている。人工ネットワークは、指定されたタスクを実行するための意思決定の層を模擬する。タスクには、たとえば、特徴の識別および分類が含まれる。層は、入力層、出力層、およびその中間の少なくとも1つの隠れ層を含み得る。各層は、「特徴階層(feature hierarchy)」と呼ぶ者もいるプロセスにおける特定のタイプの並べ替えおよび順序付けを実行する。
本開示の特徴をよりよく理解するために、深層ニューラル・ネットワークに関して知られていることを議論することが役立ち得る。ラベルなしデータまたは非構造化データを処理する際に深層ニューラル・ネットワークが使用され得る。深層学習は、人工知能の特性を使用した技術により、単純な入力/出力プロトコルを超える方法で情報を分類および順序付けしようとする機械学習の一形態を表す。深層ニューラル・ネットワークは、人間が解釈するのが難しいまたは非常に時間がかかることが多いデータ表現を抽出する。複雑なデータ・セットからのデータの意味のある表現が、最小限のユーザの介入で提供され得る。
深層ニューラル・ネットワークがどのように動作するかの大部分は依然として不明であり、説明されていない。一般に、深層ニューラル・ネットワークには、タスクを実行する際に従うべきルールまたは条件が与えられない場合がある。深層学習は、最小限のユーザの介入で大規模なデータ・バッチを処理する際に提供されるパフォーマンスのために有用である。
現在、モデリングを改善できるようにするために、深層ニューラル・ネットワークがどのように振る舞うかをよりよく理解し、説明(解釈)するための業界の取り組みがある。解釈性(interpretability)(または説明性(explainability))は、実行されるタスクに関するものである。これが意味するのは、たとえば、「犬」として分類された入力画像について、モデルからの説明により、分類に最も関与した入力画像の特徴およびその理由が示されるということである。そのため、我々は分類(または回帰)モデルを説明することを試みている。
従来、モデルは特定のタスクのためにトレーニングされる。このモデルは、入力から必要な特徴を抽出し、出力を予測する。モデル・アーキテクチャが単純な場合、複雑な決定境界を学習することができず、難しいデータセットではパフォーマンスが損なわれる。代わりに、複雑な深層アーキテクチャが使用される場合、モデルは難しい決定境界を学習し、非常に良好なパフォーマンスを発揮することができる。しかしながら、単純なモデルは解釈可能であるが、複雑な深層モデルはそうではない。あるタイプのモデルを他のタイプよりも優先して選択することは、望ましくないトレードオフを必要とする。単純なモデルは解釈可能であるが、パフォーマンスが低く、深層モデルは解釈不可能であるが、優れたパフォーマンスを提供する。
いくつかの現在のアプローチは、たとえば、複雑な深層モデルの解釈性を提供するために説明器モジュールを使用する。説明器モジュールは、典型的には、深層学習モデルから切り離されている。たとえば、説明器モジュールは、データ・モデルおよび画像を見て、学習モデルから外部的に説明を生成する。説明は、存在(および不在)がモデルの決定に最も関与した入力特徴をハイライトし得る。しかしながら、説明は説明器による推測と考えられ、学習モデルがどのようにしてその出力に達したかについての真の説明であるとは限らない。
他のアプローチは、データ・ポイント周辺の局所的な説明を提供する代理モデル(surrogate model)を使用することを含み得る。しかしながら、代理モデルからの出力もまた推論に基づき得、必ずしも深層学習モデルの決定の正確な描写ではない。代理モデルは、元のニューラル・ネットワークとは異なる特徴を使用し、特定の例のみを説明する。さらに、代理モデルだけでは、大局的なモデルの説明に役立たない場合がある。代理モデルは通常、所与のテスト・データ・ポイントの近傍にある決定境界の小さな領域を説明することに制限されている。
上記から分かるように、深層学習モデルがそのトレーニングを改良および改善するためにどのように動作するかをよりよく説明する方法を見つけるには、まだ課題が残っている。
本開示の一実施形態によれば、機械学習システムのための解釈可能な深層学習モデルをトレーニングする方法が提供される。この方法は、入力データ・セットを受け取ることを含む。入力データ・セットは、深層ニューラル・ネットワーク・モデルに提供される。深層ニューラル・ネットワーク・モデルから特徴が抽出される。抽出された特徴を含むベクトルの潜在空間が生成される。ベクトルの潜在空間は、タスク固有のモデルに供給される。さらに、タスク固有のモデルから特徴次元の解釈可能な予測が生成される。
この方法の一実施形態では、エンコーダ・モジュールを使用して特徴が抽出される。
本開示の他の実施形態によれば、機械学習システムのための解釈可能な深層学習モデルをトレーニングするためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、1つまたは複数のコンピュータ可読記憶媒体と、1つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令と、を含む。プログラム命令は、入力データ・セットを受け取ることを含む。入力データ・セットは、深層ニューラル・ネットワーク・モデルに提供される。深層ニューラル・ネットワーク・モデルから特徴が抽出される。抽出された特徴を含むベクトルの潜在空間が生成される。ベクトルの潜在空間は、タスク固有のモデルに供給される。さらに、タスク固有のモデルから特徴次元の解釈可能な予測が生成される。
一実施形態によれば、ベクトルの潜在空間は、入力データ・セットの解きほぐされた表現である。
本開示の他の実施形態によれば、コンピュータ・サーバが開示される。コンピュータ・サーバは、ネットワーク接続と、1つまたは複数のコンピュータ可読記憶媒体と、ネットワーク接続に結合され、1つまたは複数のコンピュータ可読記憶媒体に結合されたプロセッサと、1つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令を含むコンピュータ・プログラム製品と、を含み、プログラム命令は、入力データ・セットを受け取ることを含む。入力データ・セットは、深層ニューラル・ネットワーク・モデルに提供される。深層ニューラル・ネットワーク・モデルから特徴が抽出される。抽出された特徴を含むベクトルの潜在空間が生成される。ベクトルの潜在空間は、タスク固有のモデルに供給される。さらに、タスク固有のモデルから特徴次元の解釈可能な予測が生成される。
一実施形態によれば、タスク固有のモデルは低複雑度の学習モデルである。
本開示の他の実施形態によれば、機械学習システムのための解釈可能な深層学習モデルをトレーニングする方法が提供される。この方法は、入力データ・セットを受け取ることを含む。入力データ・セットは、ベータ変分オートエンコーダに提供される。
ベータ変分オートエンコーダは、入力データ・セットの出力表現を生成する。出力表現は、低複雑度の学習モデルを使用して処理される。低複雑度の学習モデルは、タスク固有の出力データ・セットを決定する。さらに、タスク固有の出力データ・セットに基づいて入力データ・セットの解釈が提示される。
一実施形態では、ベータ変分オートエンコーダによって生成される入力データ・セットの出力表現は、意味関係を有する特徴によって編成された次元ベクトルの潜在空間である。
本開示の他の実施形態によれば、人工知能コンピューティング・システムのための解釈可能な深層学習モデルをトレーニングするためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、1つまたは複数のコンピュータ可読記憶媒体と、1つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令と、を含む。プログラム命令は、入力データ・セットを受け取ることを含む。入力データ・セットは、ベータ変分オートエンコーダに提供される。ベータ変分オートエンコーダは、入力データ・セットの出力表現を生成する。出力表現は、低複雑度の学習モデルを使用して処理される。低複雑度の学習モデルは、タスク固有の出力データ・セットを決定する。さらに、タスク固有の出力データ・セットに基づいて入力データ・セットの解釈が提示される。
一実施形態では、プログラム命令は、デコーダ・モジュールを使用して入力データ・セットを再構成することをさらに含む。入力データ・セットを再構成することから再構成誤差損失が決定される。タスク固有の出力データ・セットから分類損失または回帰損失が決定される。さらに、再構成誤差損失と分類損失または回帰損失との組み合わせを使用して、ベータ変分オートエンコーダ、デコーダ・モジュール、および低複雑度の学習モデルがトレーニングされる。
本明細書に記載の技術は、多くの方法で実装され得る。以下の図を参照して、例示的な実装を以下に提供する。
図面は、例示的な実施形態のものである。それらは全ての実施形態を示しているわけではない。加えて、または代わりに、他の実施形態が使用され得る。スペースを節約するために、またはより効果的な説明のために、明白または不要であり得る詳細は省略し得る。いくつかの実施形態は、追加のコンポーネントもしくはステップを使用して、または図示したコンポーネントもしくはステップの全てを使用せずに、あるいはその両方で、実施され得る。同じ数字が異なる図面に現れる場合、それは同一または同様のコンポーネントまたはステップを指す。
一実施形態による、データの解釈可能な深層学習のためのアーキテクチャのブロック図である。 一実施形態による、解釈可能な深層学習モデルをトレーニングするためのアーキテクチャのブロック図である。 一実施形態による、解釈可能な深層学習モデルをトレーニングするシステムのブロック図である。 いくつかの実施形態による、様々なレベルの教師の下での潜在次元のバッチの概略図である。 本開示の実施形態による、様々なレベルの教師の下での例示的なデータ・セットの結果の概略図である。 一実施形態による、解釈可能な深層学習モデルをトレーニングする方法のフローチャートである。 様々なネットワーク・コンポーネントと通信することができるコンピュータ・ハードウェア・プラットフォームの機能ブロック図である。 例示的な実施形態に従うクラウド・コンピューティング環境を示す図である。 例示的な実施形態に従う抽象化モデル・レイヤを示す図である。
以下の詳細な説明では、関連する教示の完全な理解を提供するために、多数の具体的な詳細を例として示している。しかしながら、本教示がそのような詳細なしに実施され得ることは明らかなはずである。他の例では、よく知られている方法、手順、コンポーネント、または回路、あるいはそれらの組み合わせについては、本教示の態様を不必要に不明瞭にすることを避けるために、詳細なしで比較的高いレベルで説明している。
本開示は、一般に、データの解釈可能な深層学習モデルをトレーニングするシステムおよび方法に関する。理解されるように、本開示の態様は、深層学習モデルからのデータの解釈性を改善する。一般に、実施形態は、機械学習アプリケーションの分野で実施され得る。
定義
深層ニューラル・ネットワークまたは深層学習モデル:3つ以上の層で構成されるニューラル・ネットワーク。
低複雑度モデル:低複雑度モデルは、パラメトリック・モデル(たとえば、線形モデル)、ノンパラメトリック・モデル(たとえば、K最近傍)、単純な決定木(たとえば、分類および回帰木(CART:classification and regression tree))、またはアンサンブル・モデル(たとえば、バギング法、ランダム・フォレスト、またはブースティング法、勾配ブースティング木)であり得る。
教師なし学習:データ・セット内のこれまで検出されていないパターンを、事前のラベルなしで、また、最小限の人間による教師を用いて探す機械学習プロセス。
教師あり学習:例示的な入力-出力ペアに基づいて入力を出力にマッピングする関数を学習する機械学習タスク。
概要
以下の本開示では、実施形態は、従来の深層学習モデルよりも本質的に解釈可能であり得る構造を有する深層学習モデル・システムを提案する。本開示の態様は、タスク固有のモデルから特徴抽出の負担を切り離すことによって、深層学習モデルのパフォーマンスと低複雑度モデルの解釈性との間のトレードオフを調整する。本開示は、比較的低複雑度のモデルを深層学習モデルからの出力と組み合わせるという従来にない特徴を使用して、深層学習出力の本質的な解釈性を提供することを理解されたい。例示的な実施形態では、特徴抽出器モデル(たとえば、エンコーダ)は非常に複雑になり得るが、タスク固有のモデルは低複雑度のタイプ(たとえば、線形モデル)であり得る。エンコーダは、解きほぐされた適切な潜在空間を抽出することに関わる全ての複雑性に対処し得る。解きほぐされた潜在空間が得られると、実施形態は、エンコーダによって抽出された潜在空間の特徴を処理するタスク固有のモデル用に使用する。理解されるように、タスク固有のモデルからの出力は、高い信頼性で、エンコーダによって抽出された特徴に関して説明可能であると考えられ得る。
理解されるように、本開示の態様は、エンコーダによって抽出された特徴を、それらが解釈不可能な場合でも正確に分類するという予想を超える能力を提供する。解きほぐされた学習を実施形態に含めることによって、システム(またはプロセス)は、エンコーダから解釈可能な特徴を生成し得、パフォーマンスも高い。エンコーダによって抽出されたこれらの特徴をセマンティック的に意味のある(semantically meaningful)概念に関連付けることができる場合、解釈可能であると既に想定されている低複雑度モデルは解釈可能のままであり、パフォーマンスも良好であり得る。セマンティック的に意味のあるデータの生成に関するさらなる議論は、図2および図6に関して以下で説明する。さらに理解されるように、これは説明器などの外部メカニズムを使用する場合に対する改善であり、その理由は、深層学習モデルと低複雑度のタスク固有のモデルとの組み合わせを通じて、本技術のモデルが本質的に説明可能になるためである。モデル全体を説明するための外部説明器は必要ない。
従来、教師なし学習システムの表現力をロバストに維持できるようにするために、教師なし学習システムの出力は外部システム(たとえば、説明器モジュール)を使用して評価される。非常に複雑なデータを処理する場合、抽出された特徴の高レベルの解きほぐしを提供する教師なし学習モデルを使用することが特に望ましい場合がある。本質的に、人間は高度に解きほぐされた出力を提供するシステムからのデータのグルーピングを認識できない場合があり、したがって、本明細書に記載のように適切に構成されたコンピューティング・デバイスが必要になる。高いレベルの表現力が望ましい場合があるが、出力が認識可能な精度(accuracy)を欠いている場合、人間のユーザが次元のバッチを観察したときに教師なしモデルによって使用されている基準を理解することが不可能な場合がある。さらに、説明器は全て、推定された推論に依存しているので、より複雑なデータからの結果の正確な説明を提供する外部説明器の能力は、より信頼性が低くなる。理解されるように、より集中的な解きほぐされた学習に対処するための深層学習モデルと、特定のタスクに対処するための低複雑度モデルとの組み合わせは、深層学習部分がその結果で高度な表現力を維持しつつ、低複雑度モデルがシステムの深層学習セクションからの出力の高度な説明性を提供できるようにすることで、バランスをとる。さらに、これらの結果、処理されたデータの精度の向上が提供され、これにより、いくつか例を挙げると、画像処理、特徴の識別、および創薬の技術が大幅に進歩し得る。
例示的なアーキテクチャ
図1は、データの解釈可能な深層学習のための例示的なアーキテクチャ100を示している。アーキテクチャ100は、様々なコンピューティング・デバイス102(1)~102(N)が互いに通信することを可能にするネットワーク106、ならびにトレーニング・データ入力ソース112、機械学習サーバ116、およびクラウド120などのネットワーク106に接続された他の要素を含む。
ネットワーク106は、ローカル・エリア・ネットワーク(「LAN」)、仮想プライベート・ネットワーク(「VPN」)、セルラー・ネットワーク、インターネット、またはそれらの組み合わせであり得るが、これらに限定されない。たとえば、ネットワーク106は、様々なアプリケーション・ストア、ライブラリ、およびインターネットとの通信などの様々な補助サービスを提供するイントラネットと呼ばれることもあるプライベート・ネットワークに通信可能に結合されたモバイル・ネットワークを含み得る。ネットワーク106は、機械学習サーバ116上で実行されるソフトウェア・プログラムである機械学習エンジン110が、トレーニング・データ入力ソース112、コンピューティング・デバイス102(1)~102(N)、およびクラウド120と通信してデータ処理を提供することを可能にする。トレーニング・データ入力ソース112は、本明細書に記載の1つまたは複数の技術の下で処理されるデータを提供し得る。データ処理は、たとえば、特徴の学習および分類を含む1つまたは複数のユーザ指定タスクであり得る。トレーニング・データ入力ソース112に入力されるデータは、たとえば、複雑な画像、テキスト・データ、数字、記号、遺伝子配列、または人間の直接的な分析では説明不可能であり得る他のデータであり得る。一実施形態では、データ処理は、クラウド120上で少なくとも部分的に実行される。
後の議論のために、選択されたタスクに応じて分析されるデータのソースとなり得るコンピューティング・デバイスのいくつかの例を表すために、いくつかのユーザ・デバイスを図面に示している。記号列データ(たとえば、103(1)および103(N))の態様が、ネットワーク106を介して、機械学習サーバ116の機械学習エンジン110に伝達され得る。現在、ユーザ・デバイスは、典型的には、ポータブル・ハンドセット、スマートフォン、タブレット・コンピュータ、パーソナル・デジタル・アシスタント(PDA)、およびスマート・ウォッチの形態を取っているが、コンシューマおよびビジネス用の電子デバイスを含む他のフォーム・ファクタで実装され得る。
たとえば、コンピューティング・デバイス(たとえば、102(N))は、コンピューティング・デバイス102(N)に記憶された入力データに存在する特徴を識別する要求103(N)を機械学習エンジン110に送信し得る。
トレーニング・データ入力ソース112および機械学習エンジン110は、例として異なるプラットフォーム上にあるように示しているが、様々な実施形態では、トレーニング・データ入力ソース112および機械学習サーバ116が結合され得ることは理解されよう。他の実施形態では、これらのコンピューティング・プラットフォームは、クラウド120でホストされる仮想マシンまたはソフトウェア・コンテナの形態の仮想コンピューティング・デバイスによって実装され、それによって処理およびストレージのための弾性的なアーキテクチャが提供され得る。
ここで、一実施形態による解釈可能な深層学習モデルをトレーニングするためのアーキテクチャ200である図2を参照する。実施形態は、深層学習モデルのパフォーマンス出力とモデルの解釈性との間のバランスを提供する。アーキテクチャ200は一般に、深層ニューラル・ネットワーク220を含み得る。深層ニューラル・ネットワーク220は、複雑な入力データを処理して特徴を抽出し得、特徴は、評価のために提示されたときに、システムの人間のユーザにとって本質的に解釈可能でない場合がある。深層ニューラル・ネットワーク220は、入力から抽出された特徴を処理して、特徴のセマンティック的に意味のある潜在空間240を生成する。本明細書で使用する場合、「セマンティック的に意味のある」という用語は、深層ニューラル・ネットワーク220によって識別された何らかの共有のまたは類似の特性またはシーケンスに従って特徴がグループ化され得るという意味を含む。理解されるように、深層ニューラル・ネットワーク220は、入力データを処理する際の労力の大部分を提供する。潜在空間240内のデータは低複雑度の浅層(shallow)モデル260に供給され得、これは一例では線形分類器であり得る。
低複雑度モデル260は、教師あり学習プロセスを使用し得る。低複雑度モデルは、潜在空間240における内容によって表現されている次元を識別するように構成され得る。一般に、低複雑度モデルは、潜在空間240におけるデータの局所的な境界を処理して、処理されている基準を決定し得る。その結果、低複雑度の浅層モデル260からの出力は、潜在空間240内のデータよりも説明可能になる。
ここで図3を参照すると、一実施形態による解釈可能な深層学習モデルをトレーニングするためのシステム300が示されている。例示的な実施形態では、深層学習セクションからのデータのより本質的な解釈性を提供するために、低複雑度モデル370が深層学習セクションに追加される。システム300の全体的な解釈可能なモデルは、次式のパラメータの下で動作し得る。
式1:L(θ,φ,w;x)=E(Qφ(z|x))[logPθ(x|z)]-βDKL(Qφ(z|x)|p(z))+λLoss(y,Fw(y|z))
システム300において、深層ニューラル・ネットワークは変分オートエンコーダ(VAE:variational autoencoder)を含み得る。例示的な実施形態では、オートエンコーダは、ベータ変分オートエンコーダ(β-VAE)であり得る。このコンテキストでは、データ・セット310からの入力は分布にマッピングされ得る。限定ではなく単なる説明用の例として、データ・セット310は、特徴のために処理される画像を表し得る。
(β-VAE)は教師なしであり、潜在空間330を学習するために使用され得る。エンコーダ・モジュール320を使用して、入力データ・セット310に基づいて潜在空間330が生成される。エンコーダ・モジュール320は、データ・セット310からの元の高次元入力を、潜在空間を含む潜在低次元データ特徴に変換し得る。β-VAEでは、所与の入力サンプルが(エンコーダ・モジュール320によって)潜在空間330上の分布として最初にエンコードされる。式1において、エンコーダ・モジュール320からのエンコーダ損失はDKL(Qφ(z|x)|p(z))によって与えられる。分布は混合ガウスとしてモデル化され得る。分布からサンプルが引き出され、デコーダ・モジュール340によってデコードされ得る。モジュール340からのデコーダ損失はE(Qφ(z|x))[logPθ(x|z)]によって与えられる。元のサンプルと再構成されたサンプルとの差を使用して、再構成損失が計算され得る。β値は、潜在空間330内の因子が適切に解きほぐされるようにするために使用され得る。理想的には、デコーダ・モジュール340からの再構成されたデータ350のバージョンは、入力データ・セットと一致する。損失は、エンコーダ・モジュール320への入力を最適化するために使用され得る。本開示では、β-VAEを教師なしモデルとしてトレーニングするために使用される従来のELBO損失に加えて、分類/回帰損失項が使用され得る。そのモデルでは、トレーニングが教師ありで行われる。
(λLoss(y,Fw(y|z))によって与えられる)分類または回帰損失により、解きほぐされた因子がタスクのパフォーマンスの向上にもつながるようになる。
損失項の組み合わせを使用してエンコーダ・モジュール320を最適化することによって、よりよい解きほぐされた潜在空間を生成する。
β-VAEにより潜在空間330が解きほぐされた因子空間へと分離されることは注目に値し得る。たとえば、混合ガウスが異なるファイルを含む場合、入力データが与えられると、システムはファイルを解きほぐされた因子に分解し得る。システムが1つの因子を変更した場合に、その他の因子が変更の影響を受けないように、解きほぐされた因子が相互に関連付けられ得る。このように、いくつかの実施形態では、提案した構造により、因子を隔離することが可能になる。各因子は入力データの意味的な特性(たとえば、目、髪など)を表すので、解きほぐされた空間の各次元は、解きほぐされた特徴を表す。例示のみを目的として、エンコーダ・モジュール320への入力は人間の顔のデータセットであると考えられ得る。解きほぐされた因子が、たとえば、肌の色合い、髪の色、顔の向きなどの意味的な特徴を表すことを想像することができる。本例では、ユーザは、潜在空間のどの次元が肌の色合いを表し、どれが髪の色または他の特徴を表すかがはっきりと分からない場合がある。潜在因子によって表される意味的な特性を識別するために、ユーザは潜在空間をトラバースするための何らかの支援またはヒント(intimation)を必要とし得る。理解されるように、システム300の追加の態様は、人間の専門家が潜在空間を調べ、潜在空間のトラバーサルを実行して、意味ラベルを潜在因子(または次元)に関連付けることを可能にする。
例示的な実施形態では、システム300は、エンコーダ・モジュール320の出力に結合された低複雑度モデル370を含む。低複雑度モデル370はタスク固有のモデルであり得、その出力380はユーザ指定タスク(たとえば、次元削減、分類、予測、異常検出など)を実行するために使用され得る。
いくつかの実施形態では、再構成およびタスク固有の出力からのノイズを使用して、モデル(エンコーダ、デコーダ、低複雑度)をトレーニングし得る。損失を使用して、潜在空間330の入力がトレーニングされ得る。システム300における教師あり損失(分類/回帰)は、λLoss(y,Fw(y|z))を含む式1の部分によって表され得る。λLoss(y,Fw(y|z))からの因子/特徴を使用して、精度を向上させるようにモデル全体をトレーニングし得る。いくつかの実施形態では、モデルにおける損失の量は、ユーザが調整可能であり得る。
データ適用例
図4を参照すると、3セットのバッチ・データ(セット410、420、および430)が示されており、損失係数の異なるラムダ値がデータ・セットに適用されている。最初の2行は、再構成されているデータを表す。最初の2行の下の各行は、200エポックのトレーニングを経た潜在次元のトラバーサルである。
セット410は、追加の損失係数をプロセスに追加せずに処理され、データの教師なしの解きほぐしを表す。4つの行が、何らかの識別可能な意味次元で何らかの再構成をもたらした。しかしながら、バッチ精度は6%の精度スコアしか有していない。再構成損失は149.4であった。
セット420は、教師ありの解きほぐしを使用して処理されたデータを表す。50のラムダ値を使用した。セット520では、7つの行が、何らかの識別可能な意味次元で何らかの再構成をもたらした。教師によりバッチ精度は99.1%に向上し、再構成損失は126.15に低下した。
セット430は、強化した教師ありの解きほぐしを使用して処理したデータを表す。データ・トレーニングに適用したラムダ値は100であり、これにより精度が99.5%に向上し、再構成損失はさらに125.27に減少した。
ここで図5を参照すると、例示的なデータセットでのガイド付きβ-VAE学習モデル・システムとガイドなしシステムとの間の比較が示されている。入力データセットは、6つのグラウンド・トゥルース非依存の潜在因子から手続き的に生成された2次元形状で構成される。例示的なデータセットの因子は、スプライトの色、形状、スケール、回転、「X」および「Y」位置である。これらの潜在因子の全ての可能な組み合わせが1回だけ存在し、合計でN=737280個の画像が生成される。出力セット510は、本技術のガイド付きβ-VAEによって、50のラムダ値を使用して処理した。出力セット520は、ガイドなしβ-VAEを使用して処理した。各セットの最初の2行は、再構成されているデータを表している。
セットの上から3行目、4行目、5行目を参照すると、セット510の方がセット520の同じ行よりも人間が本質的に解釈可能である結果を見ることができる。たとえば、セット510の行512では、処理されている潜在次元の基礎となる意味的な基準がスプライトの「X」位置(これはデカルト座標系における横方向位置または水平位置を表し得る)に基づいていたことを肉眼で認識することができる。セット520の同様の行では、同じ潜在次元であるが、解釈はあまり明確ではない。同様に、セット510の行514では、潜在次元が「Y」位置(これはデカルト座標系における垂直位置を表し得る)を表していることが分かる。セット510の行516では、ガイド付きβ-VAEは、潜在次元がスケール次元を表していることを認識できるように示している。
例示的な方法論
ここで図6を参照すると、一実施形態による解釈可能な深層学習モデルをトレーニングする方法600が示されている。方法600は、入力データ・セットを受け取ること610を含み得る。データは抽象的なデータの特徴を含み得る。ある適用例では、方法600は、たとえば、入力データに存在する特徴を分類する特定のタスクを実行するために使用され得る。入力データ・セットは、深層ニューラル・ネットワークに提供され得る620。深層ニューラル・ネットワークは、β-VAEを含み得る。エンコーダによって深層ニューラル・ネットワークから特徴が抽出され得る630。入力データから学習された、抽出された解きほぐされた特徴ベクトルを含むベクトルの潜在空間が、エンコーダによって生成され得る640。デコーダによってベクトルの潜在空間がデコードされ得る650。潜在空間からのデコードされたデータが再構成され得る660。再構成損失が決定され得670、これを使用して潜在空間で生成される出力がトレーニングされ得る。
さらに、解きほぐされたベクトルを使用して、上流の分類または回帰タスク用の教師ありモデルがトレーニングされ得る680。たとえば、ユーザは入力画像のラベルを予測したい場合がある。画像が与えられると、ユーザはそれが「犬」か「猫」かをモデルに予測させたい場合がある。再構成された入力(ブロック650におけるデコーダからの出力)と元の入力データとの間の誤差が再構成誤差である(これは教師なし損失である)。
教師ありモデルの出力(たとえば、分類または予測)をデータのラベルと比較して、分類/回帰損失を決定し得る690。これは教師あり損失である。たとえば、画像が「犬」であるとモデルが予測したが、グラウンド・トゥルース・ラベルは「猫」である。誤りを使用して、損失を計算し得る。
再構成損失と分類/回帰損失との組み合わせとを使用して、モデル(たとえば、エンコーダ、デコーダ、およびタスク・モデル(分類/回帰))をトレーニングし得る。
解きほぐされた空間が生成されると(ブロック640)、プロセスは、解きほぐされたベクトルの次元を入力内のセマンティック的に意味のある概念と関連付け得る。たとえば、人間の顔が入力である場合、おそらく5次元の解きほぐされたベクトルが存在し得る。例示的な関連付けでは、次元番号1は髪の色を表し得、次元番号2は肌の色合いを表し、次元番号3は顔の向きを表す、などである。セマンティック的に意味のあるデータを得るために、選択された次元にノイズが加えられ得る。いくつかの実施形態では、解きほぐされたベクトルの各次元は、適切に正規化されていると仮定され得る。ノイズが加えられるたびに、デコーダを使用して、このノイズのある潜在ベクトルを用いて入力が再構成され得る。このプロセスは、範囲[0,1]の様々なノイズの値に対して繰り返され得、都度、入力が再構成される。理想的には、再構成された入力のセットは、その次元によってどのような意味概念が表現されているかを示すはずである。
このプロセスは、第2の次元を考慮し、上記のステップを繰り返して意味概念を識別し、各次元に対して以下同様にし得る。いくつかの実施形態では、各次元に対する再構成された入力のセットを分析することにより、各次元をセマンティック的に意味のある概念に関連付けることが可能になる。
1つの次元にノイズを加えると、画像内の1つの概念のみが変化するのはなぜか?
これは、次元が解きほぐされているためである。そのため、このプロセスは、次元を順々に独立して変更し、入力画像へのそれらの影響を分析し得る。また、一方の変更が他方の変更と必ずしも相関しない。
例示的なコンピュータ・プラットフォーム
上記で論じたように、本開示の解釈可能なモデリングに関連する機能は、図1に示すように、無線または有線通信によるデータ通信のために接続された1つまたは複数のコンピューティング・デバイスを使用して実行することができる。図7は、トレーニング・データ入力ソース、クラウドなど、様々なネットワーク・コンポーネントと通信することができるコンピュータ・ハードウェア・プラットフォームの機能ブロック図である。具体的には、図7は、図1の機械学習サーバ116などのサーバを実装するために使用され得るネットワークまたはホスト・コンピュータ・プラットフォーム700を示している。
コンピュータ・プラットフォーム700は、中央処理装置(CPU)704、ハード・ディスク・ドライブ(HDD)706、ランダム・アクセス・メモリ(RAM)または読み取り専用メモリ(ROM)708あるいはその両方、キーボード710、マウス712、ディスプレイ714、および通信インターフェース716を含み得、これらはシステム・バス702に接続されている。
一実施形態では、HDD706は、機械学習エンジン740などの様々なプロセスを本明細書に記載の方法で実行することができるプログラムを記憶することを含む能力を有する。一般に、機械学習エンジン740は、上述の実施形態の下で深層ニューラル・ネットワークを動作させるように構成され得る。機械学習エンジン740は、異なる機能を実行するように構成される様々なモジュールを有し得る。いくつかの実施形態では、機械学習エンジン740は、オートエンコーダのプロセスの下で動作し得る。たとえば、入力データを解釈し、特徴抽出を提供するように動作するエンコーダ・モジュール742が存在し得る。エンコーダ・モジュール742は、特徴次元の潜在空間744を生成するように構成され得る。デコーダ・モジュール746は、潜在空間744内のデータを処理し、入力データの再構成を実行して、エンコーダ・モジュール742によって使用されるデータを最適化し得る。
いくつかの実施形態では、プラットフォーム700は、教師ありモデラ・モジュール748を含み得る。教師ありモデラ・モジュール748は、1つまたは複数の低複雑度のモデリング・タスクを実行するように動作する。教師あり学習プロセスの例には、分類器、線形回帰、ロジスティック回帰、サポート・ベクター・マシン(SVM)、K最近傍、決定木、およびランダム・フォレストが含まれ得る。
いくつかの実施形態では、データにノイズを加えていくつかの特徴をマスクし、基礎となる次元基準をより容易に明らかにするデノイザ(de-noiser)・モジュール750が含まれ得る。いくつかの実施形態では、デコーダ・モジュール746または教師ありモデラ・モジュール748あるいはその両方からの損失を使用して、ノイズを生成し得る。
一実施形態では、HDD706は、JVM(Java(R)(TM)仮想マシン)を実現するためのJava(R)(TM)ランタイム環境プログラム用のものなど、1つまたは複数のライブラリ・ソフトウェア・モジュールを含む実行中のアプリケーションを記憶することができる。
例示的なクラウド・プラットフォーム
上記で論じたように、深層学習モデルからの出力を説明するために低複雑度モデルを使用するデータ処理に関連する機能は、クラウド120を含み得る(図1を参照)。本開示はクラウド・コンピューティングに関する詳細な説明を含むが、本明細書に列挙した教示の実装形態はクラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本開示の実施形態は、現在知られているまたは今後開発される他の任意のタイプのコンピューティング環境と共に実装することが可能である。
クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとのやりとりによって迅速にプロビジョニングおよび解放することができる、設定可能なコンピューティング・リソース(たとえば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特徴と、少なくとも3つのサービス・モデルと、少なくとも4つのデプロイメント・モデルとを含み得る。
特徴は以下の通りである。
オンデマンド・セルフ・サービス:クラウド・コンシューマは、サービスのプロバイダとの人的な対話を必要とせずに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
ブロード・ネットワーク・アクセス:能力はネットワークを介して利用することができ、異種のシンまたはシック・クライアント・プラットフォーム(たとえば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを介してアクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースをプールして、様々な物理リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされるマルチ・テナント・モデルを使用して複数のコンシューマにサービス提供する。一般にコンシューマは、提供されるリソースの正確な位置に対して何もできず、知っているわけでもないが、より高い抽象化レベル(たとえば、国、州、またはデータセンターなど)では位置を特定可能であり得るという点で位置非依存の感覚がある。
迅速な弾力性:能力を迅速かつ弾力的に、場合によっては自動的にプロビジョニングして素早くスケール・アウトし、迅速に解放して素早くスケール・インすることができる。コンシューマにとって、プロビジョニング可能な能力は無制限であるように見えることが多く、任意の時間に任意の数量で購入することができる。
測定されるサービス:クラウド・システムは、サービスのタイプ(たとえば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント)に適したある抽象化レベルでの計量機能を活用して、リソースの使用を自動的に制御し、最適化する。リソース使用量を監視、管理、および報告して、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供することができる。
サービス・モデルは以下の通りである。
ソフトウェア・アズ・ア・サービス(SaaS):コンシューマに提供される能力は、クラウド・インフラストラクチャ上で動作するプロバイダのアプリケーションを使用することである。アプリケーションは、Webブラウザ(たとえば、Webベースの電子メール)などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定を可能性のある例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、さらには個々のアプリケーション機能を含む、基盤となるクラウド・インフラストラクチャを管理も制御もしない。
プラットフォーム・アズ・ア・サービス(PaaS):コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、コンシューマが作成または取得したアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を制御する。
インフラストラクチャ・アズ・ア・サービス(IaaS):コンシューマに提供される能力は、オペレーティング・システムおよびアプリケーションを含むことができる任意のソフトウェアをコンシューマがデプロイして動作させることが可能な、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションを制御し、場合によっては選択したネットワーキング・コンポーネント(たとえば、ホスト・ファイアウォール)を限定的に制御する。
デプロイメント・モデルは以下の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは組織専用に運用される。これは組織または第三者によって管理され得、構内または構外に存在し得る。
コミュニティ・クラウド:クラウド・インフラストラクチャはいくつかの組織によって共有され、共通の懸念(たとえば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項など)を有する特定のコミュニティをサポートする。これは組織または第三者によって管理され得、構内または構外に存在し得る。
パブリック・クラウド:クラウド・インフラストラクチャは、一般大衆または大規模な業界団体に対して利用可能にされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性を可能にする標準化技術または独自技術(たとえば、クラウド間の負荷分散のためのクラウド・バースティング)によって結合された2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)を合成したものである。
クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味論的相互運用性に重点を置いたサービス指向型である。クラウド・コンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。
ここで図8を参照すると、例示的なクラウド・コンピューティング環境800が示されている。図示のように、クラウド・コンピューティング環境800は1つまたは複数のクラウド・コンピューティング・ノード810を含み、これらを使用して、たとえば、パーソナル・デジタル・アシスタント(PDA)もしくは携帯電話854A、デスクトップ・コンピュータ854B、ラップトップ・コンピュータ854C、または自動車コンピュータ・システム854N、あるいはそれらの組み合わせなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信し得る。ノード810は相互に通信し得る。これらは、たとえば、上述のプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはそれらの組み合わせなどの1つまたは複数のネットワークにおいて、物理的または仮想的にグループ化され得る(図示せず)。これにより、クラウド・コンピューティング環境850は、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを維持する必要がない、インフラストラクチャ・アズ・ア・サービス、プラットフォーム・アズ・ア・サービス、またはソフトウェア・アズ・ア・サービス、あるいはそれらの組み合わせを提供することが可能になる。図8に示したコンピューティング・デバイス854A~Nのタイプは例示的なものにすぎないことを意図しており、コンピューティング・ノード810およびクラウド・コンピューティング環境850は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能接続(たとえば、Webブラウザを使用)あるいはその両方を介して任意のタイプのコンピュータ化デバイスと通信できることを理解されたい。
ここで図9を参照すると、クラウド・コンピューティング環境850(図8)によって提供される機能的抽象化レイヤのセットが示されている。図9に示したコンポーネント、レイヤ、および機能は例示的なものにすぎないことを意図しており、本開示の実施形態はこれらに限定されないことを事前に理解されたい。図示のように、以下のレイヤおよび対応する機能が提供される。
ハードウェアおよびソフトウェア・レイヤ960は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム961、RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ962、サーバ963、ブレード・サーバ964、ストレージ・デバイス965、ならびにネットワークおよびネットワーキング・コンポーネント966が含まれる。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア967およびデータベース・ソフトウェア968を含む。
仮想化レイヤ970は抽象化レイヤを提供し、抽象化レイヤから、仮想エンティティの以下の例、すなわち、仮想サーバ971、仮想ストレージ972、仮想プライベート・ネットワークを含む仮想ネットワーク973、仮想アプリケーションおよびオペレーティング・システム974、ならびに仮想クライアント975が提供され得る。
一例では、管理レイヤ980は、下記の機能を提供し得る。リソース・プロビジョニング981は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的調達を提供する。計量および価格決定982は、クラウド・コンピューティング環境内でリソースが利用されたときの費用追跡と、これらのリソースの消費に対する会計または請求とを提供する。一例では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、クラウド・コンシューマおよびタスクの同一性検証だけでなく、データおよび他のリソースに対する保護も提供する。ユーザ・ポータル983は、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理984は、要求されたサービス・レベルが満たされるような、クラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル合意(SLA)の計画および履行985は、SLAに従って将来要求されると予想されるクラウド・コンピューティング・リソースの事前手配および調達を提供する。
ワークロード・レイヤ990は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤから提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション991、ソフトウェア開発およびライフサイクル管理992、仮想教室教育配信993、データ分析処理994、取引処理995、ならびに本明細書で論じた解釈可能なモデリング996、を含む。
結び
本教示の様々な実施形態の説明を例示の目的で提示してきたが、網羅的であることも、開示した実施形態に限定されることも意図したものではない。記載した実施形態の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書で使用する用語は、実施形態の原理、実際の適用、もしくは市場で見られる技術に対する技術的改善を最もよく説明するために、または当業者が本明細書に開示した実施形態を理解できるようにするために選択している。
上記では最良の状態または他の例あるいはその両方であると考えられるものを説明したが、それらには様々な変更が加えられ得、本明細書に開示した主題が様々な形態および例で実装され得、本教示が多数の適用例で適用され得、そのうちのいくつかだけを本明細書に記載していることは理解される。以下の特許請求の範囲によって、本教示の真の範囲内に入るありとあらゆる適用例、修正、および変形を特許請求することを意図している。
本明細書で論じたコンポーネント、ステップ、特徴、目的、利益および利点は例示的なものにすぎない。それらのいずれも、それらに関連する議論も、保護の範囲を制限することを意図したものではない。本明細書では様々な利点について論じてきたが、必ずしも全ての実施形態が全ての利点を含むわけではないことを理解されたい。別段の記載がない限り、以下の特許請求の範囲を含めて、本明細書に記載している全ての測定値、値、レーティング、位置、大きさ、サイズ、および他の仕様は概算であり、正確ではない。それらは、それらが関係する機能、およびそれらが関連する技術分野での慣習と一致する合理的な範囲を有するものとする。
他の多数の実施形態も考えられる。これらには、より少ない、追加の、または異なる、あるいはそれらの組み合わせであるコンポーネント、ステップ、特徴、目的、利益および利点を有する実施形態が含まれる。これらには、コンポーネントまたはステップあるいはその両方が異なって配置または順序付けあるいはその両方が行われた実施形態も含まれる。
本開示の態様は、本開示の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のコール・フロー図またはブロック図あるいはその両方を参照して本明細書で説明している。フローチャート図またはブロック図あるいはその両方の各ステップ、およびコール・フロー図またはブロック図あるいはその両方におけるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装できることは理解されよう。
これらのコンピュータ可読プログラム命令を、コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供して、それらの命令がコンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行された場合に、コール・フロー・プロセスまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定された機能/行為を実装するための手段が生成されるようなマシンを生成し得る。また、これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定の方法で機能するように指示することが可能なコンピュータ可読記憶媒体に記憶して、命令が記憶されたコンピュータ可読記憶媒体が、コール・フローまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定された機能/行為の態様を実装する命令を含む製造品を構成するようにし得る。
また、コンピュータ可読プログラム命令をコンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードして、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させることによって、それらの命令がコンピュータ、他のプログラム可能装置、または他のデバイス上で実行された場合に、コール・フロー・プロセスまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定された機能/行為が実装されるようなコンピュータ実装処理を生成し得る。
図中のフローチャートおよびブロック図は、本開示の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、コール・フロー・プロセスまたはブロック図の各ブロックは、指定された論理的機能を実装するための1つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得る。たとえば、関与する機能に応じて、連続して示した2つのブロックは、実際には実質的に同時に実行され得、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはコール・フロー図あるいはその両方の各ブロック、およびブロック図またはコール・フロー図あるいはその両方におけるブロックの組み合わせは、指定された機能もしくは行為を実行するか、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。
上記は例示的な実施形態に関連して説明したが、「例示的な」という用語は、最良または最適というよりも、単に一例を意味していることは理解される。すぐ上に記載したものを除いて、特許請求の範囲における記載の有無に関わらず、コンポーネント、ステップ、特徴、目的、利益、利点、または均等物の公衆への提供を引き起こすことを意図しているかまたはそのように解釈されるべきである、記載または図示したものはない。
本明細書で使用している用語および表現は、特定の意味を本明細書に別途記載している場合を除き、それらに対応するそれぞれの調査および研究領域に関してそのような用語および表現に与えられる通常の意味を有することは理解されよう。第1および第2などの関係を表す用語は、あるエンティティまたはアクションを他のエンティティまたはアクションと区別するためにのみ使用し得、そのようなエンティティまたはアクション間の実際のそのような関係または順序を必ずしも必要とせず、示唆もしていない。「備える(comprises)」、「備える(comprising)」という用語、またはそれらの他の任意の変形は非排他的な包含をカバーするものとし、要素のリストを含むプロセス、方法、物品、または装置がそれらの要素のみを含むのではなく、明示的にリストしていない、あるいはそのようなプロセス、方法、物品、または装置に固有の他の要素を含み得る。「a」または「an」で始まる要素は、さらなる制約なしに、その要素を含むプロセス、方法、物品、または装置における追加の同一の要素の存在を排除しない。

Claims (25)

  1. 機械学習システムのための解釈可能な深層学習モデルをトレーニングする方法であって、
    入力データ・セットを受け取ることと、
    前記入力データ・セットを深層ニューラル・ネットワーク・モデルに提供することと、
    前記深層ニューラル・ネットワーク・モデルから特徴を抽出することと、
    前記抽出された特徴を含むベクトルの潜在空間を生成することと、
    前記ベクトルの潜在空間をタスク固有のモデルに供給することと、
    前記タスク固有のモデルから特徴次元の解釈可能な予測を生成することと、
    を含む、方法。
  2. 前記特徴は、エンコーダ・モジュールを使用して抽出される、請求項1に記載の方法。
  3. 前記ベクトルの潜在空間は、前記入力データ・セットの解きほぐされた表現である、請求項1に記載の方法。
  4. 前記深層ニューラル・ネットワークから前記特徴を抽出するためにベータ変分オートエンコーダを使用することをさらに含む、請求項1に記載の方法。
  5. 前記タスク固有のモデルは低複雑度の学習モデルである、請求項1に記載の方法。
  6. 前記潜在空間内の各ベクトルの特徴次元をセマンティック的に意味のある特性に関連付けることと、
    各ベクトルの前記セマンティック的に意味のある特性に基づいて前記特徴次元の解釈可能な予測を生成することと、
    をさらに含む、請求項1に記載の方法。
  7. 機械学習システムのための解釈可能な深層学習モデルをトレーニングするためのコンピュータ・プログラム製品であって、
    1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令と、
    を含み、前記プログラム命令は、
    入力データ・セットを受け取ることと、
    前記入力データ・セットを深層ニューラル・ネットワーク・モデルに提供することと、
    前記深層ニューラル・ネットワーク・モデルから特徴を抽出することと、
    前記抽出された特徴を含むベクトルの潜在空間を生成することと、
    前記ベクトルの潜在空間をタスク固有のモデルに供給することと、
    前記タスク固有のモデルから特徴次元の解釈可能な予測を生成することと、
    を含む、コンピュータ・プログラム製品。
  8. 前記特徴は、エンコーダ・モジュールを使用して抽出される、請求項7に記載のコンピュータ・プログラム製品。
  9. 前記ベクトルの潜在空間は、前記入力データ・セットの解きほぐされた表現である、請求項7に記載のコンピュータ・プログラム製品。
  10. 前記プログラム命令は、前記深層ニューラル・ネットワークから前記特徴を抽出するためにベータ変分オートエンコーダを使用することをさらに含む、請求項7に記載のコンピュータ・プログラム製品。
  11. 前記タスク固有のモデルは低複雑度の学習モデルである、請求項7に記載のコンピュータ・プログラム製品。
  12. 前記プログラム命令は、
    前記潜在空間内の各ベクトルの特徴次元をセマンティック的に意味のある特性に関連付けることと、
    各ベクトルの前記セマンティック的に意味のある特性に基づいて前記特徴次元の解釈可能な予測を生成することと、
    をさらに含む、請求項7に記載のコンピュータ・プログラム製品。
  13. ネットワーク接続と、
    1つまたは複数のコンピュータ可読記憶媒体と、
    前記ネットワーク接続に結合され、前記1つまたは複数のコンピュータ可読記憶媒体に結合されたプロセッサと、
    前記1つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令を含むコンピュータ・プログラム製品と、
    を備え、前記プログラム命令は、
    入力データ・セットを受け取ることと、
    前記入力データ・セットを深層ニューラル・ネットワーク・モデルに提供することと、
    前記深層ニューラル・ネットワーク・モデルから特徴を抽出することと、
    前記抽出された特徴を含むベクトルの潜在空間を生成することと、
    前記ベクトルの潜在空間をタスク固有のモデルに供給することと、
    前記タスク固有のモデルから特徴次元の解釈可能な予測を生成することと、
    を含む、コンピュータ・サーバ。
  14. 前記特徴は、エンコーダ・モジュールを使用して抽出される、請求項13に記載のコンピュータ・サーバ。
  15. 前記ベクトルの潜在空間は、前記入力データ・セットの解きほぐされた表現である、請求項13に記載のコンピュータ・サーバ。
  16. 前記プログラム命令は、前記深層ニューラル・ネットワークから前記特徴を抽出するためにベータ変分オートエンコーダを使用することをさらに含む、請求項13に記載のコンピュータ・サーバ。
  17. 前記タスク固有のモデルは低複雑度の学習モデルである、請求項13に記載のコンピュータ・サーバ。
  18. 前記プログラム命令は、
    前記潜在空間内の各ベクトルの特徴次元をセマンティック的に意味のある特性に関連付けることと、
    各ベクトルの前記セマンティック的に意味のある特性に基づいて前記特徴次元の解釈可能な予測を生成することと、
    をさらに含む、請求項13に記載のコンピュータ・サーバ。
  19. 機械学習システムのための解釈可能な深層学習モデルをトレーニングする方法であって、
    入力データ・セットを受け取ることと、
    前記入力データ・セットをベータ変分オートエンコーダに提供することと、
    前記ベータ変分オートエンコーダによって、前記入力データ・セットの出力表現を生成することと、
    低複雑度の学習モデルを使用して前記出力表現を処理することと、
    前記低複雑度の学習モデルによって、タスク固有の出力データ・セットを決定することと、
    前記タスク固有の出力データ・セットに基づいて前記入力データ・セットの解釈を提供することと、
    を含む、方法。
  20. 前記ベータ変分オートエンコーダによって生成される前記入力データ・セットの前記出力表現は、意味関係を有する特徴によって編成された次元ベクトルの潜在空間である、請求項19に記載の方法。
  21. デコーダ・モジュールを使用して前記入力データ・セットを再構成することと、
    前記入力データ・セットを再構成することから再構成誤差損失を決定することと、
    前記タスク固有の出力データ・セットから分類損失または回帰損失を決定することと、
    前記再構成誤差損失と前記分類損失または前記回帰損失との組み合わせを使用して、前記ベータ変分オートエンコーダ、前記デコーダ・モジュール、および前記低複雑度の学習モデルをトレーニングすることと、
    をさらに含む、請求項19に記載の方法。
  22. 前記低複雑度の学習モデルは、
    パラメトリック・モデル、ノンパラメトリック・モデル、決定木、回帰木、またはアンサンブル・モデル
    のうちの1つである、請求項19に記載の方法。
  23. 人工知能コンピューティング・システムのための解釈可能な深層学習モデルをトレーニングするためのコンピュータ・プログラム製品であって、
    1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令と、
    を含み、前記プログラム命令は、
    入力データ・セットを受け取ることと、
    前記入力データ・セットをベータ変分オートエンコーダに提供することと、
    前記ベータ変分オートエンコーダによって、前記入力データ・セットの出力表現を生成することと、
    低複雑度の学習モデルを使用して前記出力表現を処理することと、
    前記低複雑度の学習モデルによって、タスク固有の出力データ・セットを決定することと、
    前記タスク固有の出力データ・セットに基づいて前記入力データ・セットの解釈を提供することと、
    を含む、コンピュータ・プログラム製品。
  24. 前記プログラム命令は、
    デコーダ・モジュールを使用して前記入力データ・セットを再構成することと、
    前記入力データ・セットを再構成することから再構成誤差損失を決定することと、
    前記タスク固有の出力データ・セットから分類損失または回帰損失を決定することと、
    前記再構成誤差損失と前記分類損失または前記回帰損失との組み合わせを使用して、前記ベータ変分オートエンコーダ、前記デコーダ・モジュール、および前記低複雑度の学習モデルをトレーニングすることと、
    をさらに含む、請求項23に記載のコンピュータ・プログラム製品。
  25. 前記低複雑度の学習モデルは、パラメトリック・モデル、ノンパラメトリック・モデル、決定木、回帰木、またはアンサンブル・モデルのうちの1つである、請求項23に記載のコンピュータ・プログラム製品。
JP2023536561A 2020-12-23 2021-10-15 解きほぐされた学習を使用した解釈可能な深層学習モデルのトレーニング Pending JP2024500730A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/133,437 US20220198266A1 (en) 2020-12-23 2020-12-23 Using disentangled learning to train an interpretable deep learning model
US17/133,437 2020-12-23
PCT/EP2021/078605 WO2022135765A1 (en) 2020-12-23 2021-10-15 Using disentangled learning to train an interpretable deep learning model

Publications (1)

Publication Number Publication Date
JP2024500730A true JP2024500730A (ja) 2024-01-10

Family

ID=78212125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023536561A Pending JP2024500730A (ja) 2020-12-23 2021-10-15 解きほぐされた学習を使用した解釈可能な深層学習モデルのトレーニング

Country Status (4)

Country Link
US (1) US20220198266A1 (ja)
JP (1) JP2024500730A (ja)
CN (1) CN116685980A (ja)
WO (1) WO2022135765A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220122222A1 (en) 2020-10-16 2022-04-21 Adobe Inc. Multi-scale output techniques for generative adversarial networks
US11763086B1 (en) * 2021-03-29 2023-09-19 Amazon Technologies, Inc. Anomaly detection in text
US11900519B2 (en) * 2021-11-17 2024-02-13 Adobe Inc. Disentangling latent representations for image reenactment

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019200207A1 (en) * 2018-04-12 2019-10-17 Schlumberger Technology Corporation Disentanglement for inference on seismic data and generation of seismic data
US20200273541A1 (en) * 2019-02-27 2020-08-27 The Regents Of The University Of California Unsupervised protein sequence generation

Also Published As

Publication number Publication date
WO2022135765A1 (en) 2022-06-30
CN116685980A (zh) 2023-09-01
US20220198266A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
US11416772B2 (en) Integrated bottom-up segmentation for semi-supervised image segmentation
US20170140278A1 (en) Using machine learning to predict big data environment performance
US20220198266A1 (en) Using disentangled learning to train an interpretable deep learning model
Al-Janabi et al. Empirical rapid and accurate prediction model for data mining tasks in cloud computing environments
US20210256368A1 (en) Training a neural network to create an embedding for an unlabeled vertex in a hypergraph
US11373117B1 (en) Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors
US20210098074A1 (en) Designing and folding structural proteins from the primary amino acid sequence
WO2021224720A1 (en) Determining multivariate time series data dependencies
US20180330230A1 (en) Remote neural network processing for guideline identification
Kleftakis et al. Digital twin in healthcare through the eyes of the Vitruvian man
US11841977B2 (en) Training anonymized machine learning models via generalized data generated using received trained machine learning models
US20220044136A1 (en) Automated data table discovery for automated machine learning
US20230325568A1 (en) Quantum circuit valuation
US11314984B2 (en) Intelligent generation of image-like representations of ordered and heterogenous data to enable explainability of artificial intelligence results
US20230139437A1 (en) Classifier processing using multiple binary classifier stages
US20230169147A1 (en) Validation processing for candidate retraining data
US20230121812A1 (en) Data augmentation for training artificial intelligence model
US11675582B2 (en) Neural networks to identify source code
US11741099B2 (en) Supporting database queries using unsupervised vector embedding approaches over unseen data
US20220156304A1 (en) Relationship discovery and quantification
US20210326332A1 (en) Temporal directed cycle detection and pruning in transaction graphs
US20220012583A1 (en) Continual learning using cross connections
US20210357781A1 (en) Efficient techniques for determining the best data imputation algorithms
US20210319325A1 (en) Cooperative neural networks with spatial containment constraints
CN114386606A (zh) 识别并将重构划分优先级以改进微服务识别的方法和系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240319