JP2024500730A

JP2024500730A - 解きほぐされた学習を使用した解釈可能な深層学習モデルのトレーニング

Info

Publication number: JP2024500730A
Application number: JP2023536561A
Authority: JP
Inventors: チャックラボーティ、スプリオ; カロ、セラフィン、バーナード; ウェン、ジアウェイ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-12-23
Filing date: 2021-10-15
Publication date: 2024-01-10
Also published as: WO2022135765A1; CN116685980A; US20220198266A1

Abstract

解釈可能な深層学習モデルをトレーニングする方法およびシステムは、複雑であり得る入力データ・セットを受け取ることを含む。入力データ・セットは、特徴抽出のために深層学習モデルに提供される。例示的な実施形態では、深層学習モデルは、特徴抽出から特徴の解きほぐされた潜在空間を生成する。特徴はセマンティック的に意味のあるデータを含み得、これは次いで低複雑度の学習モデルに提供される。低複雑度の学習モデルは、指定されたタスク（たとえば、分類または回帰）に基づいて出力を生成する。低複雑度の学習モデルであることによって、深層学習モデルからのデータ出力が本質的に解釈可能であるという信頼性が提供される。

Description

本開示は一般にデータ処理に関し、より詳細には、解きほぐされた（disentangled）学習を使用して解釈可能な深層学習モデルをトレーニングするシステムおよび方法に関する。

ニューラル・ネットワークは一般的に、生体脳の動作を模倣する技術と考えられている。人工ネットワークは、指定されたタスクを実行するための意思決定の層を模擬する。タスクには、たとえば、特徴の識別および分類が含まれる。層は、入力層、出力層、およびその中間の少なくとも１つの隠れ層を含み得る。各層は、「特徴階層（feature hierarchy）」と呼ぶ者もいるプロセスにおける特定のタイプの並べ替えおよび順序付けを実行する。

本開示の特徴をよりよく理解するために、深層ニューラル・ネットワークに関して知られていることを議論することが役立ち得る。ラベルなしデータまたは非構造化データを処理する際に深層ニューラル・ネットワークが使用され得る。深層学習は、人工知能の特性を使用した技術により、単純な入力／出力プロトコルを超える方法で情報を分類および順序付けしようとする機械学習の一形態を表す。深層ニューラル・ネットワークは、人間が解釈するのが難しいまたは非常に時間がかかることが多いデータ表現を抽出する。複雑なデータ・セットからのデータの意味のある表現が、最小限のユーザの介入で提供され得る。

深層ニューラル・ネットワークがどのように動作するかの大部分は依然として不明であり、説明されていない。一般に、深層ニューラル・ネットワークには、タスクを実行する際に従うべきルールまたは条件が与えられない場合がある。深層学習は、最小限のユーザの介入で大規模なデータ・バッチを処理する際に提供されるパフォーマンスのために有用である。

現在、モデリングを改善できるようにするために、深層ニューラル・ネットワークがどのように振る舞うかをよりよく理解し、説明（解釈）するための業界の取り組みがある。解釈性（interpretability）（または説明性（explainability））は、実行されるタスクに関するものである。これが意味するのは、たとえば、「犬」として分類された入力画像について、モデルからの説明により、分類に最も関与した入力画像の特徴およびその理由が示されるということである。そのため、我々は分類（または回帰）モデルを説明することを試みている。

従来、モデルは特定のタスクのためにトレーニングされる。このモデルは、入力から必要な特徴を抽出し、出力を予測する。モデル・アーキテクチャが単純な場合、複雑な決定境界を学習することができず、難しいデータセットではパフォーマンスが損なわれる。代わりに、複雑な深層アーキテクチャが使用される場合、モデルは難しい決定境界を学習し、非常に良好なパフォーマンスを発揮することができる。しかしながら、単純なモデルは解釈可能であるが、複雑な深層モデルはそうではない。あるタイプのモデルを他のタイプよりも優先して選択することは、望ましくないトレードオフを必要とする。単純なモデルは解釈可能であるが、パフォーマンスが低く、深層モデルは解釈不可能であるが、優れたパフォーマンスを提供する。

いくつかの現在のアプローチは、たとえば、複雑な深層モデルの解釈性を提供するために説明器モジュールを使用する。説明器モジュールは、典型的には、深層学習モデルから切り離されている。たとえば、説明器モジュールは、データ・モデルおよび画像を見て、学習モデルから外部的に説明を生成する。説明は、存在（および不在）がモデルの決定に最も関与した入力特徴をハイライトし得る。しかしながら、説明は説明器による推測と考えられ、学習モデルがどのようにしてその出力に達したかについての真の説明であるとは限らない。

他のアプローチは、データ・ポイント周辺の局所的な説明を提供する代理モデル（surrogate model）を使用することを含み得る。しかしながら、代理モデルからの出力もまた推論に基づき得、必ずしも深層学習モデルの決定の正確な描写ではない。代理モデルは、元のニューラル・ネットワークとは異なる特徴を使用し、特定の例のみを説明する。さらに、代理モデルだけでは、大局的なモデルの説明に役立たない場合がある。代理モデルは通常、所与のテスト・データ・ポイントの近傍にある決定境界の小さな領域を説明することに制限されている。

上記から分かるように、深層学習モデルがそのトレーニングを改良および改善するためにどのように動作するかをよりよく説明する方法を見つけるには、まだ課題が残っている。

本開示の一実施形態によれば、機械学習システムのための解釈可能な深層学習モデルをトレーニングする方法が提供される。この方法は、入力データ・セットを受け取ることを含む。入力データ・セットは、深層ニューラル・ネットワーク・モデルに提供される。深層ニューラル・ネットワーク・モデルから特徴が抽出される。抽出された特徴を含むベクトルの潜在空間が生成される。ベクトルの潜在空間は、タスク固有のモデルに供給される。さらに、タスク固有のモデルから特徴次元の解釈可能な予測が生成される。

この方法の一実施形態では、エンコーダ・モジュールを使用して特徴が抽出される。

本開示の他の実施形態によれば、機械学習システムのための解釈可能な深層学習モデルをトレーニングするためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、１つまたは複数のコンピュータ可読記憶媒体と、１つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令と、を含む。プログラム命令は、入力データ・セットを受け取ることを含む。入力データ・セットは、深層ニューラル・ネットワーク・モデルに提供される。深層ニューラル・ネットワーク・モデルから特徴が抽出される。抽出された特徴を含むベクトルの潜在空間が生成される。ベクトルの潜在空間は、タスク固有のモデルに供給される。さらに、タスク固有のモデルから特徴次元の解釈可能な予測が生成される。

一実施形態によれば、ベクトルの潜在空間は、入力データ・セットの解きほぐされた表現である。

本開示の他の実施形態によれば、コンピュータ・サーバが開示される。コンピュータ・サーバは、ネットワーク接続と、１つまたは複数のコンピュータ可読記憶媒体と、ネットワーク接続に結合され、１つまたは複数のコンピュータ可読記憶媒体に結合されたプロセッサと、１つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令を含むコンピュータ・プログラム製品と、を含み、プログラム命令は、入力データ・セットを受け取ることを含む。入力データ・セットは、深層ニューラル・ネットワーク・モデルに提供される。深層ニューラル・ネットワーク・モデルから特徴が抽出される。抽出された特徴を含むベクトルの潜在空間が生成される。ベクトルの潜在空間は、タスク固有のモデルに供給される。さらに、タスク固有のモデルから特徴次元の解釈可能な予測が生成される。

一実施形態によれば、タスク固有のモデルは低複雑度の学習モデルである。

本開示の他の実施形態によれば、機械学習システムのための解釈可能な深層学習モデルをトレーニングする方法が提供される。この方法は、入力データ・セットを受け取ることを含む。入力データ・セットは、ベータ変分オートエンコーダに提供される。

ベータ変分オートエンコーダは、入力データ・セットの出力表現を生成する。出力表現は、低複雑度の学習モデルを使用して処理される。低複雑度の学習モデルは、タスク固有の出力データ・セットを決定する。さらに、タスク固有の出力データ・セットに基づいて入力データ・セットの解釈が提示される。

一実施形態では、ベータ変分オートエンコーダによって生成される入力データ・セットの出力表現は、意味関係を有する特徴によって編成された次元ベクトルの潜在空間である。

本開示の他の実施形態によれば、人工知能コンピューティング・システムのための解釈可能な深層学習モデルをトレーニングするためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、１つまたは複数のコンピュータ可読記憶媒体と、１つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令と、を含む。プログラム命令は、入力データ・セットを受け取ることを含む。入力データ・セットは、ベータ変分オートエンコーダに提供される。ベータ変分オートエンコーダは、入力データ・セットの出力表現を生成する。出力表現は、低複雑度の学習モデルを使用して処理される。低複雑度の学習モデルは、タスク固有の出力データ・セットを決定する。さらに、タスク固有の出力データ・セットに基づいて入力データ・セットの解釈が提示される。

一実施形態では、プログラム命令は、デコーダ・モジュールを使用して入力データ・セットを再構成することをさらに含む。入力データ・セットを再構成することから再構成誤差損失が決定される。タスク固有の出力データ・セットから分類損失または回帰損失が決定される。さらに、再構成誤差損失と分類損失または回帰損失との組み合わせを使用して、ベータ変分オートエンコーダ、デコーダ・モジュール、および低複雑度の学習モデルがトレーニングされる。

本明細書に記載の技術は、多くの方法で実装され得る。以下の図を参照して、例示的な実装を以下に提供する。

図面は、例示的な実施形態のものである。それらは全ての実施形態を示しているわけではない。加えて、または代わりに、他の実施形態が使用され得る。スペースを節約するために、またはより効果的な説明のために、明白または不要であり得る詳細は省略し得る。いくつかの実施形態は、追加のコンポーネントもしくはステップを使用して、または図示したコンポーネントもしくはステップの全てを使用せずに、あるいはその両方で、実施され得る。同じ数字が異なる図面に現れる場合、それは同一または同様のコンポーネントまたはステップを指す。

一実施形態による、データの解釈可能な深層学習のためのアーキテクチャのブロック図である。一実施形態による、解釈可能な深層学習モデルをトレーニングするためのアーキテクチャのブロック図である。一実施形態による、解釈可能な深層学習モデルをトレーニングするシステムのブロック図である。いくつかの実施形態による、様々なレベルの教師の下での潜在次元のバッチの概略図である。本開示の実施形態による、様々なレベルの教師の下での例示的なデータ・セットの結果の概略図である。一実施形態による、解釈可能な深層学習モデルをトレーニングする方法のフローチャートである。様々なネットワーク・コンポーネントと通信することができるコンピュータ・ハードウェア・プラットフォームの機能ブロック図である。例示的な実施形態に従うクラウド・コンピューティング環境を示す図である。例示的な実施形態に従う抽象化モデル・レイヤを示す図である。

以下の詳細な説明では、関連する教示の完全な理解を提供するために、多数の具体的な詳細を例として示している。しかしながら、本教示がそのような詳細なしに実施され得ることは明らかなはずである。他の例では、よく知られている方法、手順、コンポーネント、または回路、あるいはそれらの組み合わせについては、本教示の態様を不必要に不明瞭にすることを避けるために、詳細なしで比較的高いレベルで説明している。

本開示は、一般に、データの解釈可能な深層学習モデルをトレーニングするシステムおよび方法に関する。理解されるように、本開示の態様は、深層学習モデルからのデータの解釈性を改善する。一般に、実施形態は、機械学習アプリケーションの分野で実施され得る。

定義
深層ニューラル・ネットワークまたは深層学習モデル：３つ以上の層で構成されるニューラル・ネットワーク。

低複雑度モデル：低複雑度モデルは、パラメトリック・モデル（たとえば、線形モデル）、ノンパラメトリック・モデル（たとえば、Ｋ最近傍）、単純な決定木（たとえば、分類および回帰木（ＣＡＲＴ：classification and regression tree））、またはアンサンブル・モデル（たとえば、バギング法、ランダム・フォレスト、またはブースティング法、勾配ブースティング木）であり得る。

教師なし学習：データ・セット内のこれまで検出されていないパターンを、事前のラベルなしで、また、最小限の人間による教師を用いて探す機械学習プロセス。

教師あり学習：例示的な入力－出力ペアに基づいて入力を出力にマッピングする関数を学習する機械学習タスク。

概要
以下の本開示では、実施形態は、従来の深層学習モデルよりも本質的に解釈可能であり得る構造を有する深層学習モデル・システムを提案する。本開示の態様は、タスク固有のモデルから特徴抽出の負担を切り離すことによって、深層学習モデルのパフォーマンスと低複雑度モデルの解釈性との間のトレードオフを調整する。本開示は、比較的低複雑度のモデルを深層学習モデルからの出力と組み合わせるという従来にない特徴を使用して、深層学習出力の本質的な解釈性を提供することを理解されたい。例示的な実施形態では、特徴抽出器モデル（たとえば、エンコーダ）は非常に複雑になり得るが、タスク固有のモデルは低複雑度のタイプ（たとえば、線形モデル）であり得る。エンコーダは、解きほぐされた適切な潜在空間を抽出することに関わる全ての複雑性に対処し得る。解きほぐされた潜在空間が得られると、実施形態は、エンコーダによって抽出された潜在空間の特徴を処理するタスク固有のモデル用に使用する。理解されるように、タスク固有のモデルからの出力は、高い信頼性で、エンコーダによって抽出された特徴に関して説明可能であると考えられ得る。

理解されるように、本開示の態様は、エンコーダによって抽出された特徴を、それらが解釈不可能な場合でも正確に分類するという予想を超える能力を提供する。解きほぐされた学習を実施形態に含めることによって、システム（またはプロセス）は、エンコーダから解釈可能な特徴を生成し得、パフォーマンスも高い。エンコーダによって抽出されたこれらの特徴をセマンティック的に意味のある（semantically meaningful）概念に関連付けることができる場合、解釈可能であると既に想定されている低複雑度モデルは解釈可能のままであり、パフォーマンスも良好であり得る。セマンティック的に意味のあるデータの生成に関するさらなる議論は、図２および図６に関して以下で説明する。さらに理解されるように、これは説明器などの外部メカニズムを使用する場合に対する改善であり、その理由は、深層学習モデルと低複雑度のタスク固有のモデルとの組み合わせを通じて、本技術のモデルが本質的に説明可能になるためである。モデル全体を説明するための外部説明器は必要ない。

従来、教師なし学習システムの表現力をロバストに維持できるようにするために、教師なし学習システムの出力は外部システム（たとえば、説明器モジュール）を使用して評価される。非常に複雑なデータを処理する場合、抽出された特徴の高レベルの解きほぐしを提供する教師なし学習モデルを使用することが特に望ましい場合がある。本質的に、人間は高度に解きほぐされた出力を提供するシステムからのデータのグルーピングを認識できない場合があり、したがって、本明細書に記載のように適切に構成されたコンピューティング・デバイスが必要になる。高いレベルの表現力が望ましい場合があるが、出力が認識可能な精度（accuracy）を欠いている場合、人間のユーザが次元のバッチを観察したときに教師なしモデルによって使用されている基準を理解することが不可能な場合がある。さらに、説明器は全て、推定された推論に依存しているので、より複雑なデータからの結果の正確な説明を提供する外部説明器の能力は、より信頼性が低くなる。理解されるように、より集中的な解きほぐされた学習に対処するための深層学習モデルと、特定のタスクに対処するための低複雑度モデルとの組み合わせは、深層学習部分がその結果で高度な表現力を維持しつつ、低複雑度モデルがシステムの深層学習セクションからの出力の高度な説明性を提供できるようにすることで、バランスをとる。さらに、これらの結果、処理されたデータの精度の向上が提供され、これにより、いくつか例を挙げると、画像処理、特徴の識別、および創薬の技術が大幅に進歩し得る。

例示的なアーキテクチャ
図１は、データの解釈可能な深層学習のための例示的なアーキテクチャ１００を示している。アーキテクチャ１００は、様々なコンピューティング・デバイス１０２（１）～１０２（Ｎ）が互いに通信することを可能にするネットワーク１０６、ならびにトレーニング・データ入力ソース１１２、機械学習サーバ１１６、およびクラウド１２０などのネットワーク１０６に接続された他の要素を含む。

ネットワーク１０６は、ローカル・エリア・ネットワーク（「ＬＡＮ」）、仮想プライベート・ネットワーク（「ＶＰＮ」）、セルラー・ネットワーク、インターネット、またはそれらの組み合わせであり得るが、これらに限定されない。たとえば、ネットワーク１０６は、様々なアプリケーション・ストア、ライブラリ、およびインターネットとの通信などの様々な補助サービスを提供するイントラネットと呼ばれることもあるプライベート・ネットワークに通信可能に結合されたモバイル・ネットワークを含み得る。ネットワーク１０６は、機械学習サーバ１１６上で実行されるソフトウェア・プログラムである機械学習エンジン１１０が、トレーニング・データ入力ソース１１２、コンピューティング・デバイス１０２（１）～１０２（Ｎ）、およびクラウド１２０と通信してデータ処理を提供することを可能にする。トレーニング・データ入力ソース１１２は、本明細書に記載の１つまたは複数の技術の下で処理されるデータを提供し得る。データ処理は、たとえば、特徴の学習および分類を含む１つまたは複数のユーザ指定タスクであり得る。トレーニング・データ入力ソース１１２に入力されるデータは、たとえば、複雑な画像、テキスト・データ、数字、記号、遺伝子配列、または人間の直接的な分析では説明不可能であり得る他のデータであり得る。一実施形態では、データ処理は、クラウド１２０上で少なくとも部分的に実行される。

後の議論のために、選択されたタスクに応じて分析されるデータのソースとなり得るコンピューティング・デバイスのいくつかの例を表すために、いくつかのユーザ・デバイスを図面に示している。記号列データ（たとえば、１０３（１）および１０３（Ｎ））の態様が、ネットワーク１０６を介して、機械学習サーバ１１６の機械学習エンジン１１０に伝達され得る。現在、ユーザ・デバイスは、典型的には、ポータブル・ハンドセット、スマートフォン、タブレット・コンピュータ、パーソナル・デジタル・アシスタント（ＰＤＡ）、およびスマート・ウォッチの形態を取っているが、コンシューマおよびビジネス用の電子デバイスを含む他のフォーム・ファクタで実装され得る。

たとえば、コンピューティング・デバイス（たとえば、１０２（Ｎ））は、コンピューティング・デバイス１０２（Ｎ）に記憶された入力データに存在する特徴を識別する要求１０３（Ｎ）を機械学習エンジン１１０に送信し得る。

トレーニング・データ入力ソース１１２および機械学習エンジン１１０は、例として異なるプラットフォーム上にあるように示しているが、様々な実施形態では、トレーニング・データ入力ソース１１２および機械学習サーバ１１６が結合され得ることは理解されよう。他の実施形態では、これらのコンピューティング・プラットフォームは、クラウド１２０でホストされる仮想マシンまたはソフトウェア・コンテナの形態の仮想コンピューティング・デバイスによって実装され、それによって処理およびストレージのための弾性的なアーキテクチャが提供され得る。

ここで、一実施形態による解釈可能な深層学習モデルをトレーニングするためのアーキテクチャ２００である図２を参照する。実施形態は、深層学習モデルのパフォーマンス出力とモデルの解釈性との間のバランスを提供する。アーキテクチャ２００は一般に、深層ニューラル・ネットワーク２２０を含み得る。深層ニューラル・ネットワーク２２０は、複雑な入力データを処理して特徴を抽出し得、特徴は、評価のために提示されたときに、システムの人間のユーザにとって本質的に解釈可能でない場合がある。深層ニューラル・ネットワーク２２０は、入力から抽出された特徴を処理して、特徴のセマンティック的に意味のある潜在空間２４０を生成する。本明細書で使用する場合、「セマンティック的に意味のある」という用語は、深層ニューラル・ネットワーク２２０によって識別された何らかの共有のまたは類似の特性またはシーケンスに従って特徴がグループ化され得るという意味を含む。理解されるように、深層ニューラル・ネットワーク２２０は、入力データを処理する際の労力の大部分を提供する。潜在空間２４０内のデータは低複雑度の浅層（shallow）モデル２６０に供給され得、これは一例では線形分類器であり得る。

低複雑度モデル２６０は、教師あり学習プロセスを使用し得る。低複雑度モデルは、潜在空間２４０における内容によって表現されている次元を識別するように構成され得る。一般に、低複雑度モデルは、潜在空間２４０におけるデータの局所的な境界を処理して、処理されている基準を決定し得る。その結果、低複雑度の浅層モデル２６０からの出力は、潜在空間２４０内のデータよりも説明可能になる。

ここで図３を参照すると、一実施形態による解釈可能な深層学習モデルをトレーニングするためのシステム３００が示されている。例示的な実施形態では、深層学習セクションからのデータのより本質的な解釈性を提供するために、低複雑度モデル３７０が深層学習セクションに追加される。システム３００の全体的な解釈可能なモデルは、次式のパラメータの下で動作し得る。

式１：Ｌ（θ，φ，ｗ；ｘ）＝Ｅ（Ｑ_φ（ｚ｜ｘ））［ｌｏｇＰ_θ（ｘ｜ｚ）］－βＤ_ＫＬ（Ｑ_φ（ｚ｜ｘ）｜ｐ（ｚ））＋λＬｏｓｓ（ｙ，Ｆｗ（ｙ｜ｚ））

システム３００において、深層ニューラル・ネットワークは変分オートエンコーダ（ＶＡＥ：variational autoencoder）を含み得る。例示的な実施形態では、オートエンコーダは、ベータ変分オートエンコーダ（β－ＶＡＥ）であり得る。このコンテキストでは、データ・セット３１０からの入力は分布にマッピングされ得る。限定ではなく単なる説明用の例として、データ・セット３１０は、特徴のために処理される画像を表し得る。

（β－ＶＡＥ）は教師なしであり、潜在空間３３０を学習するために使用され得る。エンコーダ・モジュール３２０を使用して、入力データ・セット３１０に基づいて潜在空間３３０が生成される。エンコーダ・モジュール３２０は、データ・セット３１０からの元の高次元入力を、潜在空間を含む潜在低次元データ特徴に変換し得る。β－ＶＡＥでは、所与の入力サンプルが（エンコーダ・モジュール３２０によって）潜在空間３３０上の分布として最初にエンコードされる。式１において、エンコーダ・モジュール３２０からのエンコーダ損失はＤ_ＫＬ（Ｑ_φ（ｚ｜ｘ）｜ｐ（ｚ））によって与えられる。分布は混合ガウスとしてモデル化され得る。分布からサンプルが引き出され、デコーダ・モジュール３４０によってデコードされ得る。モジュール３４０からのデコーダ損失はＥ（Ｑ_φ（ｚ｜ｘ））［ｌｏｇＰ_θ（ｘ｜ｚ）］によって与えられる。元のサンプルと再構成されたサンプルとの差を使用して、再構成損失が計算され得る。β値は、潜在空間３３０内の因子が適切に解きほぐされるようにするために使用され得る。理想的には、デコーダ・モジュール３４０からの再構成されたデータ３５０のバージョンは、入力データ・セットと一致する。損失は、エンコーダ・モジュール３２０への入力を最適化するために使用され得る。本開示では、β－ＶＡＥを教師なしモデルとしてトレーニングするために使用される従来のＥＬＢＯ損失に加えて、分類／回帰損失項が使用され得る。そのモデルでは、トレーニングが教師ありで行われる。

（λＬｏｓｓ（ｙ，Ｆｗ（ｙ｜ｚ））によって与えられる）分類または回帰損失により、解きほぐされた因子がタスクのパフォーマンスの向上にもつながるようになる。

損失項の組み合わせを使用してエンコーダ・モジュール３２０を最適化することによって、よりよい解きほぐされた潜在空間を生成する。

β－ＶＡＥにより潜在空間３３０が解きほぐされた因子空間へと分離されることは注目に値し得る。たとえば、混合ガウスが異なるファイルを含む場合、入力データが与えられると、システムはファイルを解きほぐされた因子に分解し得る。システムが１つの因子を変更した場合に、その他の因子が変更の影響を受けないように、解きほぐされた因子が相互に関連付けられ得る。このように、いくつかの実施形態では、提案した構造により、因子を隔離することが可能になる。各因子は入力データの意味的な特性（たとえば、目、髪など）を表すので、解きほぐされた空間の各次元は、解きほぐされた特徴を表す。例示のみを目的として、エンコーダ・モジュール３２０への入力は人間の顔のデータセットであると考えられ得る。解きほぐされた因子が、たとえば、肌の色合い、髪の色、顔の向きなどの意味的な特徴を表すことを想像することができる。本例では、ユーザは、潜在空間のどの次元が肌の色合いを表し、どれが髪の色または他の特徴を表すかがはっきりと分からない場合がある。潜在因子によって表される意味的な特性を識別するために、ユーザは潜在空間をトラバースするための何らかの支援またはヒント（intimation）を必要とし得る。理解されるように、システム３００の追加の態様は、人間の専門家が潜在空間を調べ、潜在空間のトラバーサルを実行して、意味ラベルを潜在因子（または次元）に関連付けることを可能にする。

例示的な実施形態では、システム３００は、エンコーダ・モジュール３２０の出力に結合された低複雑度モデル３７０を含む。低複雑度モデル３７０はタスク固有のモデルであり得、その出力３８０はユーザ指定タスク（たとえば、次元削減、分類、予測、異常検出など）を実行するために使用され得る。

いくつかの実施形態では、再構成およびタスク固有の出力からのノイズを使用して、モデル（エンコーダ、デコーダ、低複雑度）をトレーニングし得る。損失を使用して、潜在空間３３０の入力がトレーニングされ得る。システム３００における教師あり損失（分類／回帰）は、λＬｏｓｓ（ｙ，Ｆｗ（ｙ｜ｚ））を含む式１の部分によって表され得る。λＬｏｓｓ（ｙ，Ｆｗ（ｙ｜ｚ））からの因子／特徴を使用して、精度を向上させるようにモデル全体をトレーニングし得る。いくつかの実施形態では、モデルにおける損失の量は、ユーザが調整可能であり得る。

データ適用例
図４を参照すると、３セットのバッチ・データ（セット４１０、４２０、および４３０）が示されており、損失係数の異なるラムダ値がデータ・セットに適用されている。最初の２行は、再構成されているデータを表す。最初の２行の下の各行は、２００エポックのトレーニングを経た潜在次元のトラバーサルである。

セット４１０は、追加の損失係数をプロセスに追加せずに処理され、データの教師なしの解きほぐしを表す。４つの行が、何らかの識別可能な意味次元で何らかの再構成をもたらした。しかしながら、バッチ精度は６％の精度スコアしか有していない。再構成損失は１４９．４であった。

セット４２０は、教師ありの解きほぐしを使用して処理されたデータを表す。５０のラムダ値を使用した。セット５２０では、７つの行が、何らかの識別可能な意味次元で何らかの再構成をもたらした。教師によりバッチ精度は９９．１％に向上し、再構成損失は１２６．１５に低下した。

セット４３０は、強化した教師ありの解きほぐしを使用して処理したデータを表す。データ・トレーニングに適用したラムダ値は１００であり、これにより精度が９９．５％に向上し、再構成損失はさらに１２５．２７に減少した。

ここで図５を参照すると、例示的なデータセットでのガイド付きβ－ＶＡＥ学習モデル・システムとガイドなしシステムとの間の比較が示されている。入力データセットは、６つのグラウンド・トゥルース非依存の潜在因子から手続き的に生成された２次元形状で構成される。例示的なデータセットの因子は、スプライトの色、形状、スケール、回転、「Ｘ」および「Ｙ」位置である。これらの潜在因子の全ての可能な組み合わせが１回だけ存在し、合計でＮ＝７３７２８０個の画像が生成される。出力セット５１０は、本技術のガイド付きβ－ＶＡＥによって、５０のラムダ値を使用して処理した。出力セット５２０は、ガイドなしβ－ＶＡＥを使用して処理した。各セットの最初の２行は、再構成されているデータを表している。

セットの上から３行目、４行目、５行目を参照すると、セット５１０の方がセット５２０の同じ行よりも人間が本質的に解釈可能である結果を見ることができる。たとえば、セット５１０の行５１２では、処理されている潜在次元の基礎となる意味的な基準がスプライトの「Ｘ」位置（これはデカルト座標系における横方向位置または水平位置を表し得る）に基づいていたことを肉眼で認識することができる。セット５２０の同様の行では、同じ潜在次元であるが、解釈はあまり明確ではない。同様に、セット５１０の行５１４では、潜在次元が「Ｙ」位置（これはデカルト座標系における垂直位置を表し得る）を表していることが分かる。セット５１０の行５１６では、ガイド付きβ－ＶＡＥは、潜在次元がスケール次元を表していることを認識できるように示している。

例示的な方法論
ここで図６を参照すると、一実施形態による解釈可能な深層学習モデルをトレーニングする方法６００が示されている。方法６００は、入力データ・セットを受け取ること６１０を含み得る。データは抽象的なデータの特徴を含み得る。ある適用例では、方法６００は、たとえば、入力データに存在する特徴を分類する特定のタスクを実行するために使用され得る。入力データ・セットは、深層ニューラル・ネットワークに提供され得る６２０。深層ニューラル・ネットワークは、β－ＶＡＥを含み得る。エンコーダによって深層ニューラル・ネットワークから特徴が抽出され得る６３０。入力データから学習された、抽出された解きほぐされた特徴ベクトルを含むベクトルの潜在空間が、エンコーダによって生成され得る６４０。デコーダによってベクトルの潜在空間がデコードされ得る６５０。潜在空間からのデコードされたデータが再構成され得る６６０。再構成損失が決定され得６７０、これを使用して潜在空間で生成される出力がトレーニングされ得る。

さらに、解きほぐされたベクトルを使用して、上流の分類または回帰タスク用の教師ありモデルがトレーニングされ得る６８０。たとえば、ユーザは入力画像のラベルを予測したい場合がある。画像が与えられると、ユーザはそれが「犬」か「猫」かをモデルに予測させたい場合がある。再構成された入力（ブロック６５０におけるデコーダからの出力）と元の入力データとの間の誤差が再構成誤差である（これは教師なし損失である）。

教師ありモデルの出力（たとえば、分類または予測）をデータのラベルと比較して、分類／回帰損失を決定し得る６９０。これは教師あり損失である。たとえば、画像が「犬」であるとモデルが予測したが、グラウンド・トゥルース・ラベルは「猫」である。誤りを使用して、損失を計算し得る。

再構成損失と分類／回帰損失との組み合わせとを使用して、モデル（たとえば、エンコーダ、デコーダ、およびタスク・モデル（分類／回帰））をトレーニングし得る。

解きほぐされた空間が生成されると（ブロック６４０）、プロセスは、解きほぐされたベクトルの次元を入力内のセマンティック的に意味のある概念と関連付け得る。たとえば、人間の顔が入力である場合、おそらく５次元の解きほぐされたベクトルが存在し得る。例示的な関連付けでは、次元番号１は髪の色を表し得、次元番号２は肌の色合いを表し、次元番号３は顔の向きを表す、などである。セマンティック的に意味のあるデータを得るために、選択された次元にノイズが加えられ得る。いくつかの実施形態では、解きほぐされたベクトルの各次元は、適切に正規化されていると仮定され得る。ノイズが加えられるたびに、デコーダを使用して、このノイズのある潜在ベクトルを用いて入力が再構成され得る。このプロセスは、範囲［０，１］の様々なノイズの値に対して繰り返され得、都度、入力が再構成される。理想的には、再構成された入力のセットは、その次元によってどのような意味概念が表現されているかを示すはずである。

このプロセスは、第２の次元を考慮し、上記のステップを繰り返して意味概念を識別し、各次元に対して以下同様にし得る。いくつかの実施形態では、各次元に対する再構成された入力のセットを分析することにより、各次元をセマンティック的に意味のある概念に関連付けることが可能になる。

１つの次元にノイズを加えると、画像内の１つの概念のみが変化するのはなぜか？
これは、次元が解きほぐされているためである。そのため、このプロセスは、次元を順々に独立して変更し、入力画像へのそれらの影響を分析し得る。また、一方の変更が他方の変更と必ずしも相関しない。

例示的なコンピュータ・プラットフォーム
上記で論じたように、本開示の解釈可能なモデリングに関連する機能は、図１に示すように、無線または有線通信によるデータ通信のために接続された１つまたは複数のコンピューティング・デバイスを使用して実行することができる。図７は、トレーニング・データ入力ソース、クラウドなど、様々なネットワーク・コンポーネントと通信することができるコンピュータ・ハードウェア・プラットフォームの機能ブロック図である。具体的には、図７は、図１の機械学習サーバ１１６などのサーバを実装するために使用され得るネットワークまたはホスト・コンピュータ・プラットフォーム７００を示している。

コンピュータ・プラットフォーム７００は、中央処理装置（ＣＰＵ）７０４、ハード・ディスク・ドライブ（ＨＤＤ）７０６、ランダム・アクセス・メモリ（ＲＡＭ）または読み取り専用メモリ（ＲＯＭ）７０８あるいはその両方、キーボード７１０、マウス７１２、ディスプレイ７１４、および通信インターフェース７１６を含み得、これらはシステム・バス７０２に接続されている。

一実施形態では、ＨＤＤ７０６は、機械学習エンジン７４０などの様々なプロセスを本明細書に記載の方法で実行することができるプログラムを記憶することを含む能力を有する。一般に、機械学習エンジン７４０は、上述の実施形態の下で深層ニューラル・ネットワークを動作させるように構成され得る。機械学習エンジン７４０は、異なる機能を実行するように構成される様々なモジュールを有し得る。いくつかの実施形態では、機械学習エンジン７４０は、オートエンコーダのプロセスの下で動作し得る。たとえば、入力データを解釈し、特徴抽出を提供するように動作するエンコーダ・モジュール７４２が存在し得る。エンコーダ・モジュール７４２は、特徴次元の潜在空間７４４を生成するように構成され得る。デコーダ・モジュール７４６は、潜在空間７４４内のデータを処理し、入力データの再構成を実行して、エンコーダ・モジュール７４２によって使用されるデータを最適化し得る。

いくつかの実施形態では、プラットフォーム７００は、教師ありモデラ・モジュール７４８を含み得る。教師ありモデラ・モジュール７４８は、１つまたは複数の低複雑度のモデリング・タスクを実行するように動作する。教師あり学習プロセスの例には、分類器、線形回帰、ロジスティック回帰、サポート・ベクター・マシン（ＳＶＭ）、Ｋ最近傍、決定木、およびランダム・フォレストが含まれ得る。

いくつかの実施形態では、データにノイズを加えていくつかの特徴をマスクし、基礎となる次元基準をより容易に明らかにするデノイザ（de-noiser）・モジュール７５０が含まれ得る。いくつかの実施形態では、デコーダ・モジュール７４６または教師ありモデラ・モジュール７４８あるいはその両方からの損失を使用して、ノイズを生成し得る。

一実施形態では、ＨＤＤ７０６は、ＪＶＭ（Ｊａｖａ（Ｒ）（ＴＭ）仮想マシン）を実現するためのＪａｖａ（Ｒ）（ＴＭ）ランタイム環境プログラム用のものなど、１つまたは複数のライブラリ・ソフトウェア・モジュールを含む実行中のアプリケーションを記憶することができる。

例示的なクラウド・プラットフォーム
上記で論じたように、深層学習モデルからの出力を説明するために低複雑度モデルを使用するデータ処理に関連する機能は、クラウド１２０を含み得る（図１を参照）。本開示はクラウド・コンピューティングに関する詳細な説明を含むが、本明細書に列挙した教示の実装形態はクラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本開示の実施形態は、現在知られているまたは今後開発される他の任意のタイプのコンピューティング環境と共に実装することが可能である。

クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとのやりとりによって迅速にプロビジョニングおよび解放することができる、設定可能なコンピューティング・リソース（たとえば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも５つの特徴と、少なくとも３つのサービス・モデルと、少なくとも４つのデプロイメント・モデルとを含み得る。

特徴は以下の通りである。
オンデマンド・セルフ・サービス：クラウド・コンシューマは、サービスのプロバイダとの人的な対話を必要とせずに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
ブロード・ネットワーク・アクセス：能力はネットワークを介して利用することができ、異種のシンまたはシック・クライアント・プラットフォーム（たとえば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準的なメカニズムを介してアクセスされる。
リソース・プーリング：プロバイダのコンピューティング・リソースをプールして、様々な物理リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされるマルチ・テナント・モデルを使用して複数のコンシューマにサービス提供する。一般にコンシューマは、提供されるリソースの正確な位置に対して何もできず、知っているわけでもないが、より高い抽象化レベル（たとえば、国、州、またはデータセンターなど）では位置を特定可能であり得るという点で位置非依存の感覚がある。
迅速な弾力性：能力を迅速かつ弾力的に、場合によっては自動的にプロビジョニングして素早くスケール・アウトし、迅速に解放して素早くスケール・インすることができる。コンシューマにとって、プロビジョニング可能な能力は無制限であるように見えることが多く、任意の時間に任意の数量で購入することができる。
測定されるサービス：クラウド・システムは、サービスのタイプ（たとえば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント）に適したある抽象化レベルでの計量機能を活用して、リソースの使用を自動的に制御し、最適化する。リソース使用量を監視、管理、および報告して、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供することができる。

サービス・モデルは以下の通りである。
ソフトウェア・アズ・ア・サービス（ＳａａＳ）：コンシューマに提供される能力は、クラウド・インフラストラクチャ上で動作するプロバイダのアプリケーションを使用することである。アプリケーションは、Ｗｅｂブラウザ（たとえば、Ｗｅｂベースの電子メール）などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定を可能性のある例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、さらには個々のアプリケーション機能を含む、基盤となるクラウド・インフラストラクチャを管理も制御もしない。
プラットフォーム・アズ・ア・サービス（ＰａａＳ）：コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、コンシューマが作成または取得したアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を制御する。
インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：コンシューマに提供される能力は、オペレーティング・システムおよびアプリケーションを含むことができる任意のソフトウェアをコンシューマがデプロイして動作させることが可能な、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションを制御し、場合によっては選択したネットワーキング・コンポーネント（たとえば、ホスト・ファイアウォール）を限定的に制御する。

デプロイメント・モデルは以下の通りである。
プライベート・クラウド：クラウド・インフラストラクチャは組織専用に運用される。これは組織または第三者によって管理され得、構内または構外に存在し得る。
コミュニティ・クラウド：クラウド・インフラストラクチャはいくつかの組織によって共有され、共通の懸念（たとえば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項など）を有する特定のコミュニティをサポートする。これは組織または第三者によって管理され得、構内または構外に存在し得る。
パブリック・クラウド：クラウド・インフラストラクチャは、一般大衆または大規模な業界団体に対して利用可能にされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド：クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性を可能にする標準化技術または独自技術（たとえば、クラウド間の負荷分散のためのクラウド・バースティング）によって結合された２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）を合成したものである。

クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味論的相互運用性に重点を置いたサービス指向型である。クラウド・コンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。

ここで図８を参照すると、例示的なクラウド・コンピューティング環境８００が示されている。図示のように、クラウド・コンピューティング環境８００は１つまたは複数のクラウド・コンピューティング・ノード８１０を含み、これらを使用して、たとえば、パーソナル・デジタル・アシスタント（ＰＤＡ）もしくは携帯電話８５４Ａ、デスクトップ・コンピュータ８５４Ｂ、ラップトップ・コンピュータ８５４Ｃ、または自動車コンピュータ・システム８５４Ｎ、あるいはそれらの組み合わせなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信し得る。ノード８１０は相互に通信し得る。これらは、たとえば、上述のプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはそれらの組み合わせなどの１つまたは複数のネットワークにおいて、物理的または仮想的にグループ化され得る（図示せず）。これにより、クラウド・コンピューティング環境８５０は、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを維持する必要がない、インフラストラクチャ・アズ・ア・サービス、プラットフォーム・アズ・ア・サービス、またはソフトウェア・アズ・ア・サービス、あるいはそれらの組み合わせを提供することが可能になる。図８に示したコンピューティング・デバイス８５４Ａ～Ｎのタイプは例示的なものにすぎないことを意図しており、コンピューティング・ノード８１０およびクラウド・コンピューティング環境８５０は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能接続（たとえば、Ｗｅｂブラウザを使用）あるいはその両方を介して任意のタイプのコンピュータ化デバイスと通信できることを理解されたい。

ここで図９を参照すると、クラウド・コンピューティング環境８５０（図８）によって提供される機能的抽象化レイヤのセットが示されている。図９に示したコンポーネント、レイヤ、および機能は例示的なものにすぎないことを意図しており、本開示の実施形態はこれらに限定されないことを事前に理解されたい。図示のように、以下のレイヤおよび対応する機能が提供される。

ハードウェアおよびソフトウェア・レイヤ９６０は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム９６１、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャ・ベースのサーバ９６２、サーバ９６３、ブレード・サーバ９６４、ストレージ・デバイス９６５、ならびにネットワークおよびネットワーキング・コンポーネント９６６が含まれる。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア９６７およびデータベース・ソフトウェア９６８を含む。

仮想化レイヤ９７０は抽象化レイヤを提供し、抽象化レイヤから、仮想エンティティの以下の例、すなわち、仮想サーバ９７１、仮想ストレージ９７２、仮想プライベート・ネットワークを含む仮想ネットワーク９７３、仮想アプリケーションおよびオペレーティング・システム９７４、ならびに仮想クライアント９７５が提供され得る。

一例では、管理レイヤ９８０は、下記の機能を提供し得る。リソース・プロビジョニング９８１は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的調達を提供する。計量および価格決定９８２は、クラウド・コンピューティング環境内でリソースが利用されたときの費用追跡と、これらのリソースの消費に対する会計または請求とを提供する。一例では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、クラウド・コンシューマおよびタスクの同一性検証だけでなく、データおよび他のリソースに対する保護も提供する。ユーザ・ポータル９８３は、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理９８４は、要求されたサービス・レベルが満たされるような、クラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル合意（ＳＬＡ）の計画および履行９８５は、ＳＬＡに従って将来要求されると予想されるクラウド・コンピューティング・リソースの事前手配および調達を提供する。

ワークロード・レイヤ９９０は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤから提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション９９１、ソフトウェア開発およびライフサイクル管理９９２、仮想教室教育配信９９３、データ分析処理９９４、取引処理９９５、ならびに本明細書で論じた解釈可能なモデリング９９６、を含む。

結び
本教示の様々な実施形態の説明を例示の目的で提示してきたが、網羅的であることも、開示した実施形態に限定されることも意図したものではない。記載した実施形態の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書で使用する用語は、実施形態の原理、実際の適用、もしくは市場で見られる技術に対する技術的改善を最もよく説明するために、または当業者が本明細書に開示した実施形態を理解できるようにするために選択している。

上記では最良の状態または他の例あるいはその両方であると考えられるものを説明したが、それらには様々な変更が加えられ得、本明細書に開示した主題が様々な形態および例で実装され得、本教示が多数の適用例で適用され得、そのうちのいくつかだけを本明細書に記載していることは理解される。以下の特許請求の範囲によって、本教示の真の範囲内に入るありとあらゆる適用例、修正、および変形を特許請求することを意図している。

本明細書で論じたコンポーネント、ステップ、特徴、目的、利益および利点は例示的なものにすぎない。それらのいずれも、それらに関連する議論も、保護の範囲を制限することを意図したものではない。本明細書では様々な利点について論じてきたが、必ずしも全ての実施形態が全ての利点を含むわけではないことを理解されたい。別段の記載がない限り、以下の特許請求の範囲を含めて、本明細書に記載している全ての測定値、値、レーティング、位置、大きさ、サイズ、および他の仕様は概算であり、正確ではない。それらは、それらが関係する機能、およびそれらが関連する技術分野での慣習と一致する合理的な範囲を有するものとする。

他の多数の実施形態も考えられる。これらには、より少ない、追加の、または異なる、あるいはそれらの組み合わせであるコンポーネント、ステップ、特徴、目的、利益および利点を有する実施形態が含まれる。これらには、コンポーネントまたはステップあるいはその両方が異なって配置または順序付けあるいはその両方が行われた実施形態も含まれる。

本開示の態様は、本開示の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のコール・フロー図またはブロック図あるいはその両方を参照して本明細書で説明している。フローチャート図またはブロック図あるいはその両方の各ステップ、およびコール・フロー図またはブロック図あるいはその両方におけるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装できることは理解されよう。

これらのコンピュータ可読プログラム命令を、コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供して、それらの命令がコンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行された場合に、コール・フロー・プロセスまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為を実装するための手段が生成されるようなマシンを生成し得る。また、これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定の方法で機能するように指示することが可能なコンピュータ可読記憶媒体に記憶して、命令が記憶されたコンピュータ可読記憶媒体が、コール・フローまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為の態様を実装する命令を含む製造品を構成するようにし得る。

また、コンピュータ可読プログラム命令をコンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードして、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させることによって、それらの命令がコンピュータ、他のプログラム可能装置、または他のデバイス上で実行された場合に、コール・フロー・プロセスまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為が実装されるようなコンピュータ実装処理を生成し得る。

図中のフローチャートおよびブロック図は、本開示の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、コール・フロー・プロセスまたはブロック図の各ブロックは、指定された論理的機能を実装するための１つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得る。たとえば、関与する機能に応じて、連続して示した２つのブロックは、実際には実質的に同時に実行され得、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはコール・フロー図あるいはその両方の各ブロック、およびブロック図またはコール・フロー図あるいはその両方におけるブロックの組み合わせは、指定された機能もしくは行為を実行するか、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。

上記は例示的な実施形態に関連して説明したが、「例示的な」という用語は、最良または最適というよりも、単に一例を意味していることは理解される。すぐ上に記載したものを除いて、特許請求の範囲における記載の有無に関わらず、コンポーネント、ステップ、特徴、目的、利益、利点、または均等物の公衆への提供を引き起こすことを意図しているかまたはそのように解釈されるべきである、記載または図示したものはない。

本明細書で使用している用語および表現は、特定の意味を本明細書に別途記載している場合を除き、それらに対応するそれぞれの調査および研究領域に関してそのような用語および表現に与えられる通常の意味を有することは理解されよう。第１および第２などの関係を表す用語は、あるエンティティまたはアクションを他のエンティティまたはアクションと区別するためにのみ使用し得、そのようなエンティティまたはアクション間の実際のそのような関係または順序を必ずしも必要とせず、示唆もしていない。「備える（comprises）」、「備える（comprising）」という用語、またはそれらの他の任意の変形は非排他的な包含をカバーするものとし、要素のリストを含むプロセス、方法、物品、または装置がそれらの要素のみを含むのではなく、明示的にリストしていない、あるいはそのようなプロセス、方法、物品、または装置に固有の他の要素を含み得る。「ａ」または「ａｎ」で始まる要素は、さらなる制約なしに、その要素を含むプロセス、方法、物品、または装置における追加の同一の要素の存在を排除しない。

Claims

機械学習システムのための解釈可能な深層学習モデルをトレーニングする方法であって、
入力データ・セットを受け取ることと、
前記入力データ・セットを深層ニューラル・ネットワーク・モデルに提供することと、
前記深層ニューラル・ネットワーク・モデルから特徴を抽出することと、
前記抽出された特徴を含むベクトルの潜在空間を生成することと、
前記ベクトルの潜在空間をタスク固有のモデルに供給することと、
前記タスク固有のモデルから特徴次元の解釈可能な予測を生成することと、
を含む、方法。
前記特徴は、エンコーダ・モジュールを使用して抽出される、請求項１に記載の方法。
前記ベクトルの潜在空間は、前記入力データ・セットの解きほぐされた表現である、請求項１に記載の方法。
前記深層ニューラル・ネットワークから前記特徴を抽出するためにベータ変分オートエンコーダを使用することをさらに含む、請求項１に記載の方法。
前記タスク固有のモデルは低複雑度の学習モデルである、請求項１に記載の方法。
前記潜在空間内の各ベクトルの特徴次元をセマンティック的に意味のある特性に関連付けることと、
各ベクトルの前記セマンティック的に意味のある特性に基づいて前記特徴次元の解釈可能な予測を生成することと、
をさらに含む、請求項１に記載の方法。
機械学習システムのための解釈可能な深層学習モデルをトレーニングするためのコンピュータ・プログラム製品であって、
１つまたは複数のコンピュータ可読記憶媒体と、前記１つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令と、
を含み、前記プログラム命令は、
入力データ・セットを受け取ることと、
前記入力データ・セットを深層ニューラル・ネットワーク・モデルに提供することと、
前記深層ニューラル・ネットワーク・モデルから特徴を抽出することと、
前記抽出された特徴を含むベクトルの潜在空間を生成することと、
前記ベクトルの潜在空間をタスク固有のモデルに供給することと、
前記タスク固有のモデルから特徴次元の解釈可能な予測を生成することと、
を含む、コンピュータ・プログラム製品。
前記特徴は、エンコーダ・モジュールを使用して抽出される、請求項７に記載のコンピュータ・プログラム製品。
前記ベクトルの潜在空間は、前記入力データ・セットの解きほぐされた表現である、請求項７に記載のコンピュータ・プログラム製品。
前記プログラム命令は、前記深層ニューラル・ネットワークから前記特徴を抽出するためにベータ変分オートエンコーダを使用することをさらに含む、請求項７に記載のコンピュータ・プログラム製品。
前記タスク固有のモデルは低複雑度の学習モデルである、請求項７に記載のコンピュータ・プログラム製品。
前記プログラム命令は、
前記潜在空間内の各ベクトルの特徴次元をセマンティック的に意味のある特性に関連付けることと、
各ベクトルの前記セマンティック的に意味のある特性に基づいて前記特徴次元の解釈可能な予測を生成することと、
をさらに含む、請求項７に記載のコンピュータ・プログラム製品。
ネットワーク接続と、
１つまたは複数のコンピュータ可読記憶媒体と、
前記ネットワーク接続に結合され、前記１つまたは複数のコンピュータ可読記憶媒体に結合されたプロセッサと、
前記１つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令を含むコンピュータ・プログラム製品と、
を備え、前記プログラム命令は、
入力データ・セットを受け取ることと、
前記入力データ・セットを深層ニューラル・ネットワーク・モデルに提供することと、
前記深層ニューラル・ネットワーク・モデルから特徴を抽出することと、
前記抽出された特徴を含むベクトルの潜在空間を生成することと、
前記ベクトルの潜在空間をタスク固有のモデルに供給することと、
前記タスク固有のモデルから特徴次元の解釈可能な予測を生成することと、
を含む、コンピュータ・サーバ。
前記特徴は、エンコーダ・モジュールを使用して抽出される、請求項１３に記載のコンピュータ・サーバ。
前記ベクトルの潜在空間は、前記入力データ・セットの解きほぐされた表現である、請求項１３に記載のコンピュータ・サーバ。
前記プログラム命令は、前記深層ニューラル・ネットワークから前記特徴を抽出するためにベータ変分オートエンコーダを使用することをさらに含む、請求項１３に記載のコンピュータ・サーバ。
前記タスク固有のモデルは低複雑度の学習モデルである、請求項１３に記載のコンピュータ・サーバ。
前記プログラム命令は、
前記潜在空間内の各ベクトルの特徴次元をセマンティック的に意味のある特性に関連付けることと、
各ベクトルの前記セマンティック的に意味のある特性に基づいて前記特徴次元の解釈可能な予測を生成することと、
をさらに含む、請求項１３に記載のコンピュータ・サーバ。
機械学習システムのための解釈可能な深層学習モデルをトレーニングする方法であって、
入力データ・セットを受け取ることと、
前記入力データ・セットをベータ変分オートエンコーダに提供することと、
前記ベータ変分オートエンコーダによって、前記入力データ・セットの出力表現を生成することと、
低複雑度の学習モデルを使用して前記出力表現を処理することと、
前記低複雑度の学習モデルによって、タスク固有の出力データ・セットを決定することと、
前記タスク固有の出力データ・セットに基づいて前記入力データ・セットの解釈を提供することと、
を含む、方法。
前記ベータ変分オートエンコーダによって生成される前記入力データ・セットの前記出力表現は、意味関係を有する特徴によって編成された次元ベクトルの潜在空間である、請求項１９に記載の方法。
デコーダ・モジュールを使用して前記入力データ・セットを再構成することと、
前記入力データ・セットを再構成することから再構成誤差損失を決定することと、
前記タスク固有の出力データ・セットから分類損失または回帰損失を決定することと、
前記再構成誤差損失と前記分類損失または前記回帰損失との組み合わせを使用して、前記ベータ変分オートエンコーダ、前記デコーダ・モジュール、および前記低複雑度の学習モデルをトレーニングすることと、
をさらに含む、請求項１９に記載の方法。
前記低複雑度の学習モデルは、
パラメトリック・モデル、ノンパラメトリック・モデル、決定木、回帰木、またはアンサンブル・モデル
のうちの１つである、請求項１９に記載の方法。
人工知能コンピューティング・システムのための解釈可能な深層学習モデルをトレーニングするためのコンピュータ・プログラム製品であって、
１つまたは複数のコンピュータ可読記憶媒体と、前記１つまたは複数のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令と、
を含み、前記プログラム命令は、
入力データ・セットを受け取ることと、
前記入力データ・セットをベータ変分オートエンコーダに提供することと、
前記ベータ変分オートエンコーダによって、前記入力データ・セットの出力表現を生成することと、
低複雑度の学習モデルを使用して前記出力表現を処理することと、
前記低複雑度の学習モデルによって、タスク固有の出力データ・セットを決定することと、
前記タスク固有の出力データ・セットに基づいて前記入力データ・セットの解釈を提供することと、
を含む、コンピュータ・プログラム製品。
前記プログラム命令は、
デコーダ・モジュールを使用して前記入力データ・セットを再構成することと、
前記入力データ・セットを再構成することから再構成誤差損失を決定することと、
前記タスク固有の出力データ・セットから分類損失または回帰損失を決定することと、
前記再構成誤差損失と前記分類損失または前記回帰損失との組み合わせを使用して、前記ベータ変分オートエンコーダ、前記デコーダ・モジュール、および前記低複雑度の学習モデルをトレーニングすることと、
をさらに含む、請求項２３に記載のコンピュータ・プログラム製品。
前記低複雑度の学習モデルは、パラメトリック・モデル、ノンパラメトリック・モデル、決定木、回帰木、またはアンサンブル・モデルのうちの１つである、請求項２３に記載のコンピュータ・プログラム製品。