JP2022549316A

JP2022549316A - 強化学習ベースの局所解釈可能モデル

Info

Publication number: JP2022549316A
Application number: JP2022518774A
Authority: JP
Inventors: アリク，セルジャン・オメール; ユン，ジンソン; フィスター，トマス・ジョン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-09-24
Filing date: 2020-09-23
Publication date: 2022-11-24
Anticipated expiration: 2040-09-23
Also published as: WO2021061861A2; WO2021061861A3; US20220327328A1; US11403490B2; US20210089828A1; JP7304488B2; KR20220054410A; CN114467095A; EP4035092A2

Abstract

局所解釈可能モデル（１９０）をトレーニングするための方法（３００）は、トレーニングサンプル（１３０）のセットを取得するステップと、トレーニングサンプルのセットを用いてブラックボックスモデル（１２０）をトレーニングするステップとを含む。当該方法はまた、トレーニングされたブラックボックスモデルおよびトレーニングサンプルのセットを用いて、補助トレーニングサンプル（１４０）のセットを生成するステップと、補助トレーニングサンプルのセットを用いてベースライン解釈可能モデル（１５０）をトレーニングするステップとを含む。当該方法はまた、補助トレーニングサンプルのセットおよびベースライン解釈可能モデルを用いて、インスタンスごとの重み推定器モデル（１６０）をトレーニングするステップ含む。当該方法はまた、各補助トレーニングサンプルごとに、トレーニングされたインスタンスごとの重み推定器モデルを用いて、補助トレーニングサンプルについての選択確率（１７０）を決定するステップを含む。当該方法はまた、選択確率に基づいて、補助トレーニングサンプル（１４０Ｓ）のサブセットを選択するステップと、補助トレーニングサンプルのサブセットを用いて局所解釈可能モデルをトレーニングするステップとを含む。

Description

本開示は、強化学習ベースの局所解釈可能モデルに関する。

背景
人工知能は急速なペースで進歩しており、特に、ディープニューラルネットワークおよびアンサンブル法が近年進歩している。この発展は、多くのパラメータ間の複雑で非線形の相互作用によって意思決定を制御している「ブラックボックス」機械学習モデルによって促進されてきた。この複雑な相互作用により、ユーザが理解および解釈するべき機械学習モデルの使用が困難になる。多くの現実世界で適用される場合、機械学習モデルは、十分に機能することが期待されているだけでなく、解釈可能であることも求められている。機械学習モデルの性能と解釈可能性とは両立し難しいことが多く、解釈可能性のレベルが高い機械学習モデルは性能の低下に見舞われている。

概要
本開示の一局面は、強化学習ベースの局所解釈可能モデルのための方法を提供する。当該方法は、データ処理ハードウェアにおいて、トレーニングサンプルのセットを取得するステップと、当該データ処理ハードウェアによって、当該トレーニングサンプルのセットを用いて、ブラックボックスモデルをトレーニングするステップとを含む。当該方法はまた、当該データ処理ハードウェアによって、当該トレーニングされたブラックボックスモデルおよび当該トレーニングサンプルのセットを用いて、補助トレーニングサンプルのセットを生成するステップを含む。当該方法はまた、当該データ処理ハードウェアによって、当該補助トレーニングサンプルのセットを用いて、ベースライン解釈可能モデルをトレーニングするステップと、当該データ処理ハードウェアによって、当該補助トレーニングサンプルのセットおよび当該ベースライン解釈可能モデルを用いて、インスタンスごとの重み推定器モデルをトレーニングするステップとを含む。当該方法はまた、当該補助トレーニングサンプルのセット内の各補助トレーニングサンプルごとに、当該データ処理ハードウェアによって、当該トレーニングされたインスタンスごとの重み推定器モデルを用いて、当該補助トレーニングサンプルについての選択確率を決定するステップを含む。当該方法はまた、当該データ処理ハードウェアによって、当該選択確率に基づいて、当該補助トレーニングサンプルのセットから補助トレーニングサンプルのサブセットを選択するステップと、当該データ処理ハードウェアによって、当該補助トレーニングサンプルのサブセットを用いて、当該局所解釈可能モデルをトレーニングするステップとを含む。

本開示の実現例は、以下のオプションの特徴のうち１つ以上を含み得る。いくつかの実現例では、当該インスタンスごとの重み推定器モデルをトレーニングするステップは、強化信号を決定するステップと、当該強化信号に基づいて当該インスタンスごとの重み推定器モデルを更新するステップとを含む。当該強化信号を決定するステップは、損失関数に基づいて当該局所解釈可能モデルについての第１の損失データを決定するステップと、損失関数に基づいて当該局所解釈可能モデルについての第２の損失データを決定するステップと、当該局所解釈可能モデルについての当該第１の損失データおよび当該ベースライン解釈可能モデルについての当該第２の損失データに基づいて当該強化信号を決定するステップとを含む。

当該補助トレーニングサンプルのセットから当該補助トレーニングサンプルのサブセットを選択するステップは、当該補助トレーニングサンプルのセット内の各補助トレーニングサンプルごとに、当該選択確率に基づいて、選択または選択なしを示す対応する選択値を決定するステップを含む。当該対応する選択値が選択を示す場合、当該補助トレーニングサンプルを当該補助トレーニングサンプルのサブセットに追加する。いくつかの例では、各補助トレーニングサンプルごとに、当該補助トレーニングサンプルについての当該選択確率を決定するステップは、当該インスタンスごとの重み推定器モデルにおいて、検証サンプルを受取るステップと、当該インスタンスごとの重み推定器モデルによって、当該検証サンプルに基づいて当該選択確率を決定するステップとを含む。

いくつかの実現例では、当該方法はさらに、当該インスタンスごとの重み推定器モデルをトレーニングした後、当該インスタンスごとの重み推定器モデルにおいて、検証サンプルを受取るステップと、当該インスタンスごとの重み推定器モデルによって、当該補助トレーニングサンプルのセット内の各補助トレーニングサンプルごとに当該選択確率を生成するステップとを含む。これらの実現例では、当該方法はまた、当該検証サンプルと、当該補助トレーニングサンプルのセット内の各補助トレーニングサンプルの当該選択確率とに基づいて、当該局所解釈可能モデルをトレーニングするステップを含む。任意には、当該ブラックボックスモデルをトレーニングするステップは、平均二乗誤差損失関数または交差エントロピー損失関数を最小化するステップを含み得る。

当該トレーニングサンプルのセット内の各トレーニングサンプルは、トレーニングデータおよび所与のラベルを含み得る。いくつかの例では、当該補助トレーニングサンプルのセットを生成するステップは、当該トレーニングサンプルのセット内の各トレーニングサンプルごとに、当該トレーニングサンプルの当該トレーニングデータを用いて、当該トレーニングされたブラックボックスモデルから、当該トレーニングデータについての予測ラベルを取得するステップと、当該トレーニングデータと当該予測ラベルとを組合わせて補助トレーニングサンプルにするステップと、当該補助トレーニングサンプルを当該補助トレーニングサンプルのセットに追加するステップとを含む。

いくつかの実現例では、当該インスタンスごとの重み推定器モデルをトレーニングするステップは、プローブトレーニングサンプルのセットを取得するステップと、当該プローブトレーニングサンプルのセット内の各プローブトレーニングサンプルごとに選択確率を決定するステップとを含む。これらの実現例では、各プローブトレーニングサンプルの当該選択確率に基づいて、インスタンスごとの選択ベクトルを決定するステップと、当該インスタンスごとの選択ベクトルに基づいて当該局所解釈可能モデルを最適化するステップと、当該最適化された局所解釈可能モデルからの損失データに基づいて、当該インスタンスごとの重み推定器モデルを更新するステップとを含む。

本開示の別の局面は、強化学習ベースの局所解釈可能モデルのためのシステムを提供する。当該システムは、データ処理ハードウェアと、当該データ処理ハードウェアと通信するメモリハードウェアとをむ。当該メモリハードウェアは、当該データ処理ハードウェア上で実行されると、当該データ処理ハードウェアに以下の動作を実行させる命令を格納している。当該以下の動作は、トレーニングサンプルのセットを取得する動作と、当該トレーニングサンプルのセットを用いて、ブラックボックスモデルをトレーニングする動作とを含む。当該以下の動作はまた、当該トレーニングされたブラックボックスモデルおよび当該トレーニングサンプルのセットを用いて、補助トレーニングサンプルのセットを生成する動作を含む。当該以下の動作はまた、当該補助トレーニングサンプルのセットを用いて、ベースライン解釈可能モデルをトレーニングする動作と、当該補助トレーニングサンプルのセットおよび当該ベースライン解釈可能モデルを用いて、インスタンスごとの重み推定器モデルをトレーニングする動作とを含む。当該以下の動作は、当該補助トレーニングサンプルのセット内の各補助トレーニングサンプルごとに、当該トレーニングされたインスタンスごとの重み推定器モデルを用いて、当該補助トレーニングサンプルについての選択確率を決定する動作を含む。当該以下の動作はまた、当該選択確率に基づいて、当該補助トレーニングサンプルのセットから補助トレーニングサンプルのサブセットを選択する動作と、当該補助トレーニングサンプルのサブセットを用いて、局所解釈可能モデルをトレーニングする動作とを含む。

この局面は、以下のオプションの特徴のうちの１つ以上を含み得る。いくつかの実現例では、当該インスタンスごとの重み推定器モデルをトレーニングする動作は、強化信号を決定する動作と、当該強化信号に基づいて当該インスタンスごとの重み推定器モデルを更新する動作とを含む。当該強化信号を決定する動作は、損失関数に基づいて当該局所解釈可能モデルについての第１の損失データを決定する動作と、当該損失関数に基づいて当該局所解釈可能モデルについての第２の損失データを決定する動作と、当該局所解釈可能モデルについての当該第１の損失データおよび当該ベースライン解釈可能モデルについての当該第２の損失データに基づいて当該強化信号を決定する動作とを含む。

当該補助トレーニングサンプルのセットから当該補助トレーニングサンプルのサブセットを選択する動作は、当該補助トレーニングサンプルのセット内の各補助トレーニングサンプルごとに、当該選択確率に基づいて、選択または選択なしを示す対応する選択値を決定する動作を含む。当該対応する選択値が選択を示す場合、当該補助トレーニングサンプルを当該補助トレーニングサンプルのサブセットに追加する。いくつかの例では、各補助トレーニングサンプルごとに、当該補助トレーニングサンプルについての当該選択確率を決定する動作は、当該インスタンスごとの重み推定器モデルにおいて、検証サンプルを受取る動作と、当該インスタンスごとの重み推定器モデルによって、当該検証サンプルに基づいて当該選択確率を決定する動作とを含む。

いくつかの実現例では、当該以下の動作はさらに、当該インスタンスごとの重み推定器モデルをトレーニングした後、当該インスタンスごとの重み推定器モデルにおいて、検証サンプルを受取る動作と、当該インスタンスごとの重み推定器モデルによって、当該補助トレーニングサンプルのセット内の各補助トレーニングサンプルごとに当該選択確率を生成する動作とを含む。これらの実現例では、当該以下の動作はまた、当該検証サンプルと当該補助トレーニングサンプルのセット内の各補助トレーニングサンプルの当該選択確率とに基づいて、当該局所解釈可能モデルをトレーニングする動作を含む。任意には、当該ブラックボックスモデルをトレーニングする動作は、平均二乗誤差損失関数または交差エントロピー損失関数を最小化する動作を含み得る。

当該トレーニングサンプルのセット内の各トレーニングサンプルは、トレーニングデータおよび所与のラベルを含み得る。いくつかの例では、当該補助トレーニングサンプルのセットを生成する動作は、当該トレーニングサンプルのセット内の各トレーニングサンプルごとに、当該トレーニングサンプルの当該トレーニングデータを用いて、当該トレーニングされたブラックボックスモデルから、当該トレーニングデータについての予測ラベルを取得する動作と、当該トレーニングデータと当該予測ラベルとを組合わせて補助トレーニングサンプルにする動作と、当該補助トレーニングサンプルを当該補助トレーニングサンプルのセットに追加する動作とを含む。

いくつかの実現例では、当該インスタンスごとの重み推定器モデルをトレーニングする動作は、プローブトレーニングサンプルのセットを取得する動作と、当該プローブトレーニングサンプルのセット内の各プローブトレーニングサンプルごとに、選択確率を決定する動作とを含む。これらの実現例では、各プローブトレーニングサンプルの当該選択確率に基づいて、インスタンスごとの選択ベクトルを決定する動作と、当該インスタンスごとの選択ベクトルに基づいて当該局所解釈可能モデルを最適化する動作と、当該最適化された局所解釈可能モデルからの損失データに基づいて、当該インスタンスごとの重み推定器モデルを更新する動作とを含む。

本開示の１つ以上の実現例の詳細を添付の図面および以下の説明に記載する。他の局面、特徴、および利点は、以下の説明および添付の図面、ならびに添付の特許請求の範囲から明らかになるだろう。

局所解釈可能モデルをトレーニングするための例示的なシステムを示す概略図である。局所解釈可能モデルをトレーニングするための図１のシステムの例示的な構成要素を示す概略図である。局所解釈可能モデルをトレーニングするための図１のシステムの例示的な構成要素を示す概略図である。局所解釈可能モデルをトレーニングするための図１のシステムの例示的な構成要素を示す概略図である。局所解釈可能モデルをトレーニングするための図１のシステムの例示的な構成要素を示す概略図である。局所解釈可能モデルをトレーニングするための図１のシステムの例示的な構成要素を示す概略図である。局所解釈可能モデルをトレーニングする方法についての動作の例示的な構成を示すフローチャートである。本明細書に記載のシステムおよび方法を実現するために用いられ得る例示的なコンピューティングデバイスを示す概略図である。

さまざまな図面における同様の参照符号は同様の要素を示す。
詳細な説明
多くの現実世界で適用される場合、人工知能（artificial intelligence：ＡＩ）システムは、十分に機能するだけではなく解釈可能であることも期待されている。たとえば、医師らは特定の治療が推奨される理由を理解する必要があり、金融機関は融資が拒否された理由を理解する必要がある。多くの場合、ＡＩシステムでは、システムの性能と解釈可能性とが両立し難しい。特に、全体解釈可能なモデルは、モデル挙動全体を説明しようと試みるものであるが、典型的には、性能がブラックボックスモデルよりも大幅に劣ったものとなる。しかしながら、全体解釈可能なモデルについての有利な代替案は局所解釈可能モデルを含み得る。

局所解釈可能モデルはモデル内の１つの予測を説明するものである一方で、全体解釈可能なモデルはモデル全体を説明しようと試みるものである。全体解釈可能なモデルは、固有に解釈可能な１つのモデルをトレーニングセット全体にフィットさせる一方で、局所解釈可能モデルは、高性能なブラックボックスモデルから知識を抽出することによって、固有に解釈可能なモデルを局所的にフィットさせることを目的としている。局所解釈可能モデルは、簡潔で人が行なうような説明をユーザに提供するのに有用であり得る。性能を最適化するために、局所解釈可能モデルは、（ｉ）全体的な予測性能および（ｉｉ）忠実度という２つの目的を最大化する必要がある。全体的な予測性能は、局所解釈可能モデルがグラウンドトゥルースラベルと比べてどれだけ十分に結果を予測するかを表わしている。忠実度は、局所解釈可能モデルがどれだけ十分にブラックボックスモデル予測に近似しているかを表わす。局所解釈可能モデルの１つの基本的な課題は抽出を適用している間の表現能力の差である。すなわち、ブラックボックス機械学習モデルは局所解釈可能モデルよりもはるかに高い表現能力を有する。局所解釈可能モデルの表現能力がより低い場合、結果として、従来の抽出技術ではアンダーフィットとなり、準最適な性能を招く可能性がある。

本明細書の実現例は、局所解釈可能モデル（locally interpretable model：ＲＬ－ＬＩＭ）をフィットさせるための強化学習ベースの方法を提供するモデルトレーナに向けられている。ＲＬ－ＬＩＭは、局所解釈可能モデルをフィットさせるのに貢献する最高値を提供する少数のサンプルでトレーニングすることによって、局所解釈可能モデルの低い表現能力を効率的に利用する。これらの最高値のサンプルまたはインスタンスを選択するために、モデルトレーナは、忠実度メトリックを定量化する強化信号を用いて、インスタンスごとの重み推定器をトレーニングする。高値のインスタンスを選択することにより、ブラックボックスモデル予測に厳密に類似した予測が報酬として得られる。高値のトレーニングインスタンスのみを選択することによって局所解釈可能モデルをトレーニングすることは、ブラックボックスモデルの性能にほぼ適合し、全体的な予測性能および忠実度メトリックの点では代替技術よりも大いに優れている。

ここで図１を参照すると、いくつかの実現例では、例示的なシステム１００は処理システム１０を含む。処理システム１０は、単一のコンピュータであってもよく、複数のコンピュータであってもよく、または、固定式もしくはスケーラブルな／融通性のあるコンピューティングリソース１２（たとえば、データ処理ハードウェア）および／もしくはストレージリソース１４（たとえば、メモリハードウェア）を有する分散システム（たとえば、クラウド環境）であってもよい。処理システム１０は局所解釈可能モデルトレーナ１１０を実行する。モデルトレーナ１１０はブラックボックスモデル１２０および局所解釈可能モデル１９０をトレーニングする。ブラックボックスモデル１２０は、以下に説明される任意の機械学習モデルを含み得る。たとえば、ブラックボックスモデル１２０は、ディープニューラルネットワークまたは決定木ベースのアンサンブル法であってもよい。局所解釈可能モデル１９０はブラックボックスモデル１２０の１つの予測を説明する。特に、局所解釈可能モデル１９０は、高性能ブラックボックスモデル１２０から知識を抽出して、ブラックボックスモデル１２０からの１つ以上の予測をユーザに対して説明する。

モデルトレーナ１１０は、トレーニングサンプル１３０、１３０ａ～１３０ｎのセットを取得し、当該セット内のトレーニングサンプル１３０のいくつかまたはすべてを用いてブラックボックスモデル１２０をトレーニングする。いくつかの例では、各トレーニングサンプル１３０は、トレーニングデータ２０２と、当該トレーニングデータ２０２についての所与のラベル２０４との両方を含む（図２Ａ）。所与のラベル２０４は、ブラックボックスモデル１２０が関連するトレーニングデータ２０２を用いて予測の精度を判断するための注釈または他の指示を含む。すなわち、ブラックボックスモデル１２０は、トレーニングサンプル１３０のトレーニングデータ２０２を用いて予測を行ない、当該予測を関連する所与のラベル２０４と比較して、予測の精度を判断する。いくつかの実現例では、トレーニングサンプル１３０は、対応する所与のラベル２０４なしでトレーニングデータ２０２だけ（すなわち、ラベルなしトレーニングサンプル）を含む。

モデルトレーナ１１０は、トレーニングされたブラックボックスモデル１２０とトレーニングサンプル１３０のセットとを用いて補助トレーニングサンプル１４０、１４０ａ～１４０ｎのセットを生成する。いくつかの例では、モデルトレーナは、補助トレーニングサンプル１４０を用いてブラックボックスモデル１２０の性能を評価して、メタ学習をガイドする。以下でより詳細に説明するように、補助トレーニングサンプル１４０は、ブラックボックスモデル１２０の予測に基づいた補助トレーニングデータおよび補助ラベルを含み得る。モデルトレーナ１１０は、補助トレーニングサンプル１４０のセットを用いて、ベースライン解釈可能モデル１５０をトレーニングする。ベースライン解釈可能モデル１５０は、ブラックボックスモデル１２０の予測を複製するように最適化された全体解釈可能なモデル（たとえば、線形モデルまたは浅い決定木）を含み得る。ベースライン解釈可能モデル１５０は、局所解釈可能モデル１９０をトレーニングする間ベンチマークとして機能し得る。

モデルトレーナ１１０は、補助トレーニングサンプル１４０のセットとベースライン解釈可能モデル１５０とを用いて、インスタンスごとの重み推定器モデル１６０（本明細書では単にインスタンスごとの重み推定器とも称される）をトレーニングする。インスタンスごとの重み推定器モデル１６０は、各補助トレーニングサンプル１４０ごとの価値を示す重み（すなわち、選択確率１７０）を決定する。重みが大きければ大きいほど、局所解釈可能モデル１９０をトレーニングするためにそれぞれの補助トレーニングサンプル１４０が有する価値がより大きくなる。いくつかの実現例では、補助トレーニングサンプル１４０のセット内の各補助トレーニングサンプル１４０ごとに、トレーニングされたインスタンスごとの重み推定器モデル１６０は、各補助トレーニングサンプル１４０についての選択確率１７０を決定する。選択確率１７０は、補助トレーニングサンプル１４０が局所解釈可能モデル１９０にとって有益なトレーニングサンプルであるかまたは問題のあるトレーニングサンプルであるか（すなわち、サンプル１４０がトレーニングを改善させる可能性があるかまたはトレーニングを悪化させる可能性があるか）を示す重みに対応する。

モデルトレーナ１１０はサンプラ１８０を含む。当該サンプラ１８０は、各補助トレーニングサンプル１４０の選択確率１７０を受取り、各補助トレーニングサンプル１４０に割当てられた選択確率１７０に基づいて補助トレーニングサンプル１４０Ｓ、１４０Ｓａ～Ｓｎのセットのサブセットを選択する。補助トレーニングサンプル１４０Ｓのサブセットは、補助トレーニングサンプル１４０よりも少ない量のトレーニングサンプルを含み得る。いくつかの実現例では、サンプラ１８０は、各補助トレーニングサンプル１４０の選択確率１７０が閾値を満たすかどうかを判断する。選択確率１７０が閾値を満たす場合、サンプラ１８０は、対応する補助トレーニングサンプル１４０を補助トレーニングサンプル１４０Ｓのサブセットに追加し得る。他の実現例では、サンプラ１８０は、予め定められた数の補助トレーニングサンプル１４０を選択する（たとえば、選択確率１７０が最も高い予め定められた数の補助トレーニングサンプル１４０を選択する）。

モデルトレーナ１１０は、補助トレーニングサンプル１４０Ｓのサブセットを用いて局所解釈可能モデル１９０をトレーニングする。局所解釈可能モデル１９０は、補助トレーニングサンプル１４０Ｓのサブセットに対するトレーニングの後、ブラックボックスモデル１２０の予測性能を厳密に複製する出力（すなわち、予測）を生成する。いくつかの例では、局所解釈可能モデル１９０は、トレーニングサンプル１３０のセットまたは補助トレーニングサンプル１４０のセット全体に関してトレーニングするのではなく、補助トレーニングサンプル１４０Ｓのサブセットのみに関してトレーニングする。すなわち、サンプラ１８０は、補助トレーニングサンプル１４０のセット全体から補助トレーニングサンプル１４０Ｓのサブセットを選択して、局所解釈可能モデル１９０をトレーニングする。補助トレーニングサンプル１４０Ｓのサブセットに関して局所解釈可能モデル１９０をトレーニングすることにより、局所解釈可能モデルは、補助トレーニングサンプル１４０のサブセットのみに関してトレーニングしている間、ブラックボックスモデル１２０の性能にほぼ適合する。

ここで図２Ａ～図２Ｅを参照すると、いくつかの実現例では、トレーニングサンプル１３０のセット内の各トレーニングサンプル１３０はトレーニングデータ２０２および所与のラベル２０４を含む。概略図２００ａ（図２Ａ）に示されるように、ブラックボックスモデル１２０のトレーニングは、トレーニングデータ２０２および所与のラベル２０４を含み得る。モデルトレーナ１１０はブラックボックスモデル１２０にトレーニングデータ２０２を提供し、ブラックボックスモデル１２０は当該トレーニングデータ２０２に基づいて予測２０８（本明細書では予測ラベル２０８とも称される）を生成する。モデルトレーナ１１０は、予測２０８を所与のラベル２０４と比較して、予測２０８の精度を判断する。

いくつかの例では、モデルトレーナ１１０は、損失関数２０６（たとえば、平均二乗誤差損失関数または交差エントロピー損失関数）を最小化することによってブラックボックスモデル１２０をトレーニングする。損失関数２０６は、トレーニングサンプル１３０からの所与のラベル２０４に対する、ブラックボックスモデル１２０によって決定された予測ラベル２０８の精度を示す。たとえば、損失関数２０６は平均絶対誤差の算出を含み、この場合、誤差が低いほど、最適な損失関数２０６を示す。損失関数２０６を最小化することによって、ブラックボックスモデル１２０は、所与のラベル２０４に厳密に適合するように予測ラベル２０８を正確に生成するためにトレーニングを受ける。いくつかの例では、ブラックボックスモデル１２０は、所与のラベル２０４なしでトレーニングを受ける（すなわち、教師なし学習）。ここで、ブラックボックスモデル１２０は、所与のラベル２０４と比較することなく予測ラベル２０８を生成する。損失関数２０６は予測ラベル２０８の忠実度を定量化する。損失関数２０６からの結果（すなわち、損失）は、ブラックボックスモデル１２０を最適化するためにブラックボックスモデル１２０に対するフィードバックとしての役割を果たす。

ブラックボックスモデル１２０は任意のタイプの学習モデルを含み得る。いくつかの例では、ブラックボックスモデル１２０は、予めトレーニングされるとともにメモリハードウェア１４に格納される。このシナリオでは、モデルトレーナ１１０は、ブラックボックスモデル１２０（図２Ａ）のトレーニングを迂回し得るとともに、代わりに、トレーニングされたブラックボックスモデル１２０をメモリハードウェア１４から取出し得る。

図２Ａを引続き参照すると、いくつかの実現例では、トレーニングデータ２０２および所与のラベル２０４は画像（たとえば、自転車などの物体の画像）を表わす。ブラックボックスモデル１２０は、トレーニングデータ２０２（たとえば、自転車の画像）を分析して予測ラベル２０８を生成する。モデルトレーナ１１０は、予測ラベル２０８を所与のラベル２０４と比較して損失関数２０６を算出する。いくつかの例では、ブラックボックスモデル１２０は予測ラベル２０８を正確に生成し（たとえば、所与のラベル２０４によって画像が自転車を含むことも示される場合に、ブラックボックスモデル１２０によって画像が自転車を含むと予測される）、損失関数２０６は低い平均絶対誤差を示す。いくつかの実現例では、ブラックボックスモデル１２０が予測ラベル２０８を不正確に生成する（たとえば、所与のラベル２０４によって入力画像が自転車を含んでいたことが示される場合に、予測ラベル２０８によって入力画像が車を含んでいたことが示される）場合、損失関数２０６は高い平均絶対誤差を示す。損失関数２０６からの結果（すなわち、算出された損失）は、ブラックボックスモデル１２０を最適化するように当該ブラックボックスモデル１２０にフィードバックされる。ブラックボックスモデル１２０のためのトレーニングデータ２０２に基づいて損失関数２０６を算出する反復プロセスは、損失が最適な閾値に達するまで繰返されてもよい。

概略図２００ｂ（図２Ｂ）に示されるように、トレーニングされたブラックボックスモデル１２０は補助トレーニングサンプル１４０を作成する。いくつかの実現例では、モデルトレーナ１１０は、それぞれのトレーニングサンプル１３０のトレーニングデータ２０２を用いて、トレーニングされたブラックボックスモデル１２０からそれぞれのトレーニングサンプル１３０についての関連する予測ラベル２０８を取得することによって、補助トレーニングサンプル１４０のセットを生成する。モデルトレーナ１１０は、それぞれのトレーニングサンプル１３０のトレーニングデータ２０２を予測ラベル２０８と組合わせて補助トレーニングサンプル１４０を形成する。モデルトレーナ１１０は、補助トレーニングサンプル１４０を補助トレーニングサンプル１４０のセットに追加する。モデルトレーナ１１０は、補助トレーニングサンプル１４０のセットを用いて、インスタンスごとの重み推定モデル１６０をトレーニングし、および／または、局所解釈可能モデル１９０をトレーニングする。補助トレーニングサンプル１４０は補助トレーニングデータおよび補助ラベルを含み得る。いくつかの実現例では、補助トレーニングサンプル１４０はプローブトレーニングサンプル２２２、２２２ａ～２２２ｎを含む。プローブトレーニングサンプル２２２は、ブラックボックスモデル１２０をトレーニングするのに用いられないトレーニングサンプル１３０のサブセットであり得る。他の例では、プローブトレーニングサンプル２２２は、トレーニングサンプル１３０のセットから独立したトレーニングサンプルの第２のセットであってもよい。言い換えれば、プローブトレーニングサンプル２２２は、インスタンスごとの重み推定器モデルまたはベースライン解釈可能モデル１５０をトレーニングする際に利用されないトレーニングデータを含み得る。

ここで図２Ｃを参照すると、概略図２００ｃはベースライン解釈可能モデル１５０を含む。モデルトレーナ１１０は、補助トレーニングサンプル１４０のセット（すなわち、トレーニングデータ２０２および予測ラベル２０８）を用いてベースライン解釈可能モデル１５０をトレーニングする。ベースライン解釈可能モデル１５０は、インスタンスごとの重み推定器モデル１６０をトレーニングする際の安定性を改善させる。モデルトレーナ１１０は、ブラックボックスモデル１２０の予測を複製するためにベースライン解釈可能モデル１５０を最適化する。ベースライン解釈可能モデル１５０は局所解釈可能モデル１９０についての性能のベンチマークとしての役割を果たす。

概略図２００ｄ（図２Ｄ）に示されるように、いくつかの実現例では、モデルトレーナ１１０は、インスタンスごとの重み推定器モデル１６０をトレーニングする際に、以下でより詳細に説明するように、強化信号２２６を決定し、当該強化信号２２６に基づいてインスタンスごとの重み推定器モデル１６０を更新する。インスタンスごとの重み推定器モデル１６０は、局所解釈可能モデル１９０をフィットさせるようにインスタンスごとの重み（すなわち、選択確率１７０）を出力する。いくつかの例では、インスタンスごとの重み推定器１６０は、複雑な機械学習モデル（たとえば、ディープニューラルネットワーク）を含む。インスタンスごとの重み推定器モデル１６０は、局所解釈可能モデル１９０をトレーニングするトレーニングインスタンスの選択確率１７０を推定する。

いくつかの実現例では、インスタンスごとの重み推定器モデル１６０をトレーニングするために、モデルトレーナ１１０はプローブトレーニングサンプル２２２のセットを取得する。プローブトレーニングサンプル２２２のセット内の各プローブトレーニングサンプル２２２ごとに、インスタンスごとの重み推定器モデル１６０は、関連する選択確率１７０を推定する。すなわち、インスタンスごとの重み推定器は、各プローブトレーニングサンプル入力２２２に基づいて予測（すなわち、選択確率１７０）を決定する。各選択確率１７０は、局所解釈可能モデル１９０をトレーニングするためのプローブトレーニングサンプル２２２の値を示す。たとえば、局所解釈可能モデル１９０をトレーニングするのに有益であるプローブトレーニングサンプル２２２は高い選択確率１７０を有する。他の例では、局所解釈可能モデル１９０をトレーニングするには品質が低いかまたは問題があるトレーニングサンプル１３０は低い選択確率１７０を有する。

いくつかの例では、モデルトレーナ１１０は、各プローブトレーニングサンプル２２２の選択確率１７０に基づいてインスタンスごとの選択ベクトル２２４を決定することによって、インスタンスごとの重み推定器モデル１６０をトレーニングする。特に、サンプラ１８０は、選択確率１７０から選択して選択ベクトル２２４を生成する。選択ベクトル２２４は、補助トレーニングサンプル１４０のセット内の各補助トレーニングサンプル１４０ごとの選択確率１７０を示す。いくつかの例では、サンプラ１８０は、選択ベクトル２２４内の選択された選択確率１７０に対応する補助トレーニングサンプル１４０を補助トレーニングサンプル１４０Ｓのサブセットに追加する。選択ベクトル２２４は、各対応する選択確率１７０ごとの選択値２４４を含み得る。モデルトレーナ１１０は、補助トレーニングサンプル１４０Ｓのサブセットを用いて局所解釈可能モデル１９０をトレーニングする。モデルトレーナ１１０は、インスタンスごとの選択ベクトル２２４に基づいて局所解釈可能モデル１９０を最適化し、最適化された局所解釈可能モデル１９０からの損失データ２２８に基づいてインスタンスごとの重み推定器モデル１６０を更新する。

いくつかの例では、モデルトレーナ１１０は、損失関数２０６に基づいて局所解釈可能モデル１９０についての第１の損失データ２２８ａを決定するとともに別の損失関数２０６に基づいてベースライン解釈可能モデル１５０についての第２の損失データ２２８ｂを決定することによって、強化信号２２６を決定する。モデルトレーナは、いくつかの実現例では、局所解釈可能モデル１９０についての第１の損失データ２２８ａおよびベースライン解釈可能モデル１５０についての第２の損失データ２２８ｂに基づいて強化信号２２６を決定する。局所解釈可能モデル１９０およびベースライン解釈可能モデル１５０の両方が、１つ以上の損失関数２０６に基づいて損失２２８ａ、２２０ｂを算出する。いくつかの実現例では、モデルトレーナ１１０は、局所解釈可能モデル１９０の第１の損失２２８ａをベースライン解釈可能モデル１５０の第２の損失２２８ｂと比較する。ベースライン解釈可能モデル１５０の出力はブラックボックスモデル１２０の出力を厳密に表わしているので、ローカル解釈可能モデル１９０の第１の損失２２８ａをベースライン解釈可能モデル１５０の損失２２８ｂと比較することにより、ブラックボックスモデル１２０に対するローカル解釈可能モデル１９０の忠実度が確立される。強化信号２２６は、第１の損失データ２２８ａおよび第２の損失データ２２８ｂに基づいて、局所解釈可能モデル１９０とベースライン解釈可能モデル１５０との間で同様の予測を与える。

いくつかの例では、インスタンスごとの重み推定器モデル１６０をトレーニングするための選択確率１７０は式（１）によって決定される。

式（１）において、

は、ｈ_Φを前提として、

についての確率質量関数を示す。ここで、ｈ_Φ（ｘ^ｐ,ｘ,ｆ^＊（ｘ））は、プローブデータｘ^ｐについての各トレーニングペア（ｘ,ｆ^＊（ｘ））についてのインスタンスごとの重みを表わす。バイナリベクトル

は、

についての局所解釈可能モデル１９０をトレーニングするために、

が選択されるような選択動作を表わす。
いくつかの実現例では、サンプラ１８０は、微分不可能な目標をもたらし、従来の勾配降下ベースの最適化を用いてもインスタンスごとの重み推定器１６０をトレーニングすることができない。代わりに、モデルトレーナ１１０は強化アルゴリズムを利用することで、その影響の成果によってサンプラ１８０の選択が与えられるようにする。いくつかの例では、損失関数２０６は、最適化された局所解釈可能モデル１９０からの損失データに基づいて、インスタンスごとの重み推定器モデル１６０を更新する。インスタンスごとの重み推定器１６０についての損失関数は以下のように表わされ得る。

強化アルゴリズムを適用するために、モデルトレーナ１１０は、インスタンスごとの重み推定器について損失関数の勾配を（たとえば、式（２）を用いて）計算する。損失関数の勾配を用いて、以下のステップは、インスタンスごとの重み推定器１６０のパラメータを更新するステップを反復的に採用する。ステップ１は、ミニバッチ内の各トレーニングおよびプローブインスタンスに関して、インスタンスごとの重み

およびインスタンスごとの選択ベクトル２２４

を推定するステップを含む。ステップ２は、各プローブインスタンス

ごとに選択ベクトル２２４で局所解釈可能モデル１９０を最適化するステップを含む。ステップ３は、インスタンスごとの重み推定モデル１６０のパラメータΦを更新するステップを含む。

式（４）において、αは学習率であり、

は性能改善についてのベンチマークに対するベースライン損失である。上述のステップは損失２２８ａ、損失２２８ｂが収束するまで繰返される。

インスタンスごとの重み推定器モデル１６０をトレーニングする場合、モデルトレーナ１１０は、強化信号２２６を決定し得るとともに、当該強化信号２２６に基づいてインスタンスごとの重み推定器モデル１６０を更新し得る。強化信号２２６は、局所解釈可能モデル１９０の予測がブラックボックスモデル１２０の予測にどれだけ正確に合致するかを表わす忠実度メトリックを定量化する。たとえば、第１の損失２２８ａおよび第２の損失２２８ｂが類似している場合、強化信号２２６は、類似の結果を与えてインスタンスごとの重み推定器１６０を更新する。

いくつかの実現例では、サンプラ１８０は、補助トレーニングサンプル１４０のセット内の各補助トレーニングサンプル１４０ごとに、選択確率１７０に基づいて、選択または選択なしのいずれかを示す対応する選択値２４４を決定することによって、補助トレーニングサンプル１４０のセットから補助トレーニングサンプル１４０Ｓのサブセットを選択する。対応する選択値２４４が選択を示す場合、サンプラ１８０は、補助トレーニングサンプル１４０を補助トレーニングサンプル１４０Ｓのサブセットに追加し得る。特に、サンプラ１８０は、選択確率１７０の閾値を満たす選択確率１７０を選択する。これら選択確率１７０は各々が補助トレーニングサンプル１４０に対応している。いくつかの実現例では、閾値を満たす選択確率１７０は選択を示す選択値２４４を受取り、サンプラ１８０は、選択された補助トレーニングサンプル１４０を補助トレーニングサンプル１４０Ｓのサブセットに追加する。対照的に、閾値を満たさない選択確率１７０は、選択なしを示す選択値２４４を受取り、サンプラ１８０は、補助トレーニングサンプル１４０Ｓのサブセット内に補助トレーニングサンプル１４０Ｓを含まない。

概略図２００（ｅ）（図２Ｅ）に示されるように、いくつかの実現例では、インスタンスごとの重み推定器モデル１６０をトレーニングした後、インスタンスごとの重み推定器モデル１６０は検証サンプル２４２を受取る。検証サンプル２４２はトレーニングデータ２０２および所与のラベル２０４を含み得る。インスタンスごとの重み推定器モデル１６０は、補助トレーニングサンプル１４０のセット内の各補助トレーニングサンプル１４０ごとに選択確率１７０を生成する。モデルトレーナ１１０は、選択確率１７０の重み付けされた最適化を局所解釈可能モデル１９０に送信する。モデルトレーナ１１０は、検証サンプル２４２と補助トレーニングサンプル１４０Ｓのセット内の各補助トレーニングサンプル１４０Ｓの選択確率１７０とに基づいて、局所解釈可能モデル１９０をトレーニングする。トレーニングされた解釈可能モデル１９０の出力は、インスタンスごとの予測および対応する説明である。たとえば、対応する説明は、フィッティングされた線形モデルの係数によって与えられる、検証サンプル２４２におけるブラックボックスモデル予測の局所力学を含み得る。

図３は、局所解釈可能モデルをトレーニングするための方法３００についての動作の例示的な構成を示すフローチャートである。動作３０２において、方法３００は、データ処理ハードウェア１２においてトレーニングサンプル１３０のセットを取得するステップを含む。各トレーニングサンプル１３０はトレーニングデータ２０２および所与のラベル２０４を含み得る。動作３０４において、方法３００は、データ処理ハードウェア１２によって、トレーニングサンプル１３０のセットを用いてブラックボックスモデル１２０をトレーニングするステップを含む。方法３００は、動作３０６において、データ処理ハードウェア１２によって、トレーニングされたブラックボックスモデル１２０およびトレーニングサンプル１３０のセットを用いて、補助トレーニングサンプル１４０のセットを生成するステップを含む。

方法３００は、動作３０８において、データ処理ハードウェア１２によって、補助トレーニングサンプル１４０のセットを用いて、ベースライン解釈可能モデル１５０をトレーニングするステップを含む。動作３１０において、方法３００は、データ処理ハードウェア１２によって、補助トレーニングサンプル１４０のセットおよびベースライン解釈可能モデル１５０を用いて、インスタンスごとの重み推定器モデル１６０をトレーニングするステップを含む。動作３１２において、方法３００は、補助トレーニングサンプル１４０のセット内の各補助トレーニングサンプル１４０ごとに、データ処理ハードウェア１２によって、トレーニングされたインスタンスごとの重み推定器モデル１６０を用いて、補助トレーニングサンプル１４０についての選択確率１７０を決定するステップを含む。動作３１４において、方法３００は、データ処理ハードウェア１２によって、選択確率１７０に基づいて、補助トレーニングサンプル１４０のセットから補助トレーニングサンプル１４０Ｓのサブセットを選択するステップを含む。動作３１６において、方法３００は、補助トレーニングサンプル１４０Ｓのサブセットを用いて、局所解釈可能モデル１９０をトレーニングするステップを含む。

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）とは、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは「アプリケーション」、「アプリ」、または「プログラム」とも称され得る。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーミングアプリケーションを含むが、それらに限定されない。

図４は、本明細書で説明するシステムおよび方法を実現するために使用され得る例示的なコンピューティングデバイス４００の概略図である。コンピューティングデバイス４００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの、さまざまな形態のデジタルコンピュータを表わすよう意図されている。ここに示すコンポーネント、それらの接続および関係、ならびにそれらの機能は単なる例示を意図したものであって、この文書で説明および／または主張される本発明の実現例を限定するよう意図したものではない。

コンピューティングデバイス４００は、プロセッサ４１０と、メモリ４２０と、ストレージデバイス４３０と、メモリ４２０および高速拡張ポート４５０に接続している高速インターフェイス／コントローラ４４０と、低速バス４７０およびストレージデバイス４３０に接続している低速インターフェイス／コントローラ４６０とを含む。コンポーネント４１０、４２０、４３０、４４０、４５０、および４６０の各々は、さまざまなバスを使用して相互接続されており、共通のマザーボード上にまたは他の態様で適宜搭載されてもよい。プロセッサ４１０は、コンピューティングデバイス４００内で実行される命令を処理可能であり、これらの命令は、グラフィカルユーザインターフェイス（graphical user interface：ＧＵＩ）のためのグラフィック情報を、高速インターフェイス４４０に結合されたディスプレイ４８０などの外部入出力デバイス上に表示するために、メモリ４２０内またはストレージデバイス４３０に格納された命令を含む。他の実現例では、複数のプロセッサおよび／または複数のバスが、複数のメモリおよび複数のタイプのメモリとともに適宜使用されてもよい。また、複数のコンピューティングデバイス４００が接続されてもよく、各デバイスは（たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な動作の部分を提供する。

メモリ４２０は、情報をコンピューティングデバイス４００内に非一時的に格納する。メモリ４２０は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ４２０は、プログラム（たとえば命令のシーケンス）またはデータ（たとえばプログラム状態情報）を、コンピューティングデバイス４００による使用のために一時的または永続的に格納するために使用される物理デバイスであってもよい。不揮発性メモリの例は、フラッシュメモリおよび読出専用メモリ（ＲＯＭ）／プログラマブル読出専用メモリ（ＰＲＯＭ）／消去可能プログラマブル読出専用メモリ（ＥＰＲＯＭ）／電子的消去可能プログラマブル読出専用メモリ（ＥＥＰＲＯＭ）（たとえば、典型的にはブートプログラムなどのファームウェアのために使用される）を含むが、それらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープを含むが、それらに限定されない。

ストレージデバイス４３０は、コンピューティングデバイス４００のための大容量ストレージを備えることができる。いくつかの実現例では、ストレージデバイス４３０はコンピュータ可読媒体である。さまざまな異なる実現例では、ストレージデバイス４３０は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、または、ストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであってもよい。追加の実現例では、コンピュータプログラム製品が情報担体において有形に具現化され得る。コンピュータプログラム製品は、実行されると上述のような１つ以上の方法を実行する命令を含む。情報担体は、メモリ４２０、ストレージデバイス４３０、またはプロセッサ４１０上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

高速コントローラ４４０はコンピューティングデバイス４００のための帯域幅集中型の動作を管理し、一方、低速コントローラ４６０はより低帯域幅集中型の動作を管理する。このような役務機能の割当ては例示に過ぎない。いくつかの実現例では、高速コントローラ４４０は、メモリ４２０、ディスプレイ４８０に（たとえば、グラフィックスプロセッサまたはアクセラレータを介して）結合されるとともに、さまざまな拡張カード（図示せず）を受付け得る高速拡張ポート４５０に結合される。いくつかの実現例では、低速コントローラ４６０は、ストレージデバイス４３０および低速拡張ポート４９０に結合される。さまざまな通信ポート（たとえば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット）を含み得る低速拡張ポート４９０は、キーボード、ポインティングデバイス、スキャナなどの１つ以上の入出力デバイスに、または、スイッチもしくはルータなどのネットワーキングデバイスに、たとえばネットワークアダプタを介して結合されてもよい。

コンピューティングデバイス４００は、図に示すように多くの異なる形態で実現されてもよい。たとえばそれは、標準サーバ４００ａとして、またはそのようなサーバ４００ａのグループにおいて複数回実現されてもよく、ラップトップコンピュータ４００ｂとして、またはラックサーバシステム４００ｃの一部として実現されてもよい。

ここに説明されるシステムおよび技術のさまざまな実現例は、デジタル電子および／または光学回路、集積回路、特別に設計された特定用途向け集積回路（application specific integrated circuit：ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せにおいて実現され得る。これらのさまざまな実現例は、データおよび命令をストレージシステムとの間で送受信するように結合された、専用または汎用であり得る少なくとも１つのプログラマブルプロセッサと、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスとを含むプログラマブルシステム上で実行可能および／または解釈可能である１つ以上のコンピュータプログラムにおける実現例を含み得る。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても公知である）は、プログラマブルプロセッサのための機械命令を含むとともに、高レベルの手続き型および／またはオブジェクト指向型プログラミング言語で、および／またはアセンブリ／機械語で実現され得る。本明細書中で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、機器および／またはデバイス（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ））を指し、機械命令を機械可読信号として受信する機械可読媒体を含む。「機械可読信号」という語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

この明細書で説明されるプロセスおよび論理フローは、データ処理ハードウェアとも称される１つ以上のプログラマブルプロセッサが、入力データに基づいて動作することおよび出力を生成することによって機能を実行するために１つ以上のコンピュータプログラムを実行することによって実行可能である。プロセスおよび論理フローはまた、たとえばフィールドプログラマブルゲートアレイ（field programmable gate array：ＦＰＧＡ）またはＡＳＩＣ（特定用途向け集積回路）といった専用論理回路によっても実行可能である。コンピュータプログラムの実行に適したプロセッサは、一例として、汎用および専用のマイクロプロセッサと、任意の種類のデジタルコンピュータの任意の１つ以上のプロセッサとを含む。一般に、プロセッサは、命令およびデータを、読出専用メモリまたはランダムアクセスメモリまたはそれら双方から受信するであろう。コンピュータの本質的要素は、命令を実行するためのプロセッサと、命令およびデータを格納するための１つ以上のメモリデバイスとである。一般に、コンピュータはまた、たとえば磁気ディスク、光磁気ディスクまたは光ディスクなどの、データを格納するための１つ以上の大容量ストレージデバイスを含むこととなるか、または、当該大容量ストレージデバイスからデータを受信するかまたは当該大容量ストレージデバイスにデータを転送するかまたはそれら双方を行なうように動作可能に結合されることとなるだろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含み、一例として、半導体メモリデバイス、たとえばＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス；磁気ディスク、たとえば内部ハードディスクまたはリムーバブルディスク；光磁気ディスク；ならびに、ＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む。プロセッサおよびメモリは、専用論理回路によって補完されてもよく、または専用論理回路に組込まれてもよい。

ユーザとの対話を提供するために、この開示の１つ以上の局面は、情報をユーザに表示するためのディスプレイデバイス、たとえば陰極線管（cathode ray tube：ＣＲＴ）、液晶ディスプレイ（liquid crystal display：ＬＣＤ）モニタ、またはタッチスクリーンと、任意には、ユーザによるコンピュータへの入力を可能にするキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールとを有するコンピュータ上で実現され得る。他の種類のデバイスも同様に、ユーザとの対話を提供するために使用され得る。たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであり得る。また、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受信され得る。加えて、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、当該デバイスから文書を受信することによって、たとえば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応答してウェブページを当該ウェブブラウザに送信することによって、ユーザと対話することができる。

いくつかの実現例を説明してきた。にもかかわらず、本開示の精神および範囲から逸脱することなく、さまざまな変更を行なわれ得ることが理解されるだろう。したがって、他の実現例は添付の特許請求の範囲内にある。

Claims

局所解釈可能モデル（１９０）をトレーニングするための方法（３００）であって、前記方法（３００）は、
データ処理ハードウェア（１２）において、トレーニングサンプル（１３０）のセットを取得するステップと、
前記データ処理ハードウェア（１２）によって、前記トレーニングサンプル（１３０）のセットを用いて、ブラックボックスモデル（１２０）をトレーニングするステップと、
前記データ処理ハードウェア（１２）によって、前記トレーニングされたブラックボックスモデル（１２０）および前記トレーニングサンプル（１３０）のセットを用いて、補助トレーニングサンプル（１４０）のセットを生成するステップと、
前記データ処理ハードウェア（１２）によって、前記補助トレーニングサンプル（１４０）のセットを用いて、ベースライン解釈可能モデル（１５０）をトレーニングするステップと、
前記データ処理ハードウェア（１２）によって、前記補助トレーニングサンプル（１４０）のセットおよび前記ベースライン解釈可能モデル（１５０）を用いて、インスタンスごとの重み推定器モデル（１６０）をトレーニングするステップと、
前記補助トレーニングサンプル（１４０）のセット内の各補助トレーニングサンプル（１４０）ごとに、前記データ処理ハードウェア（１２）によって、前記トレーニングされたインスタンスごとの重み推定器モデル（１６０）を用いて、前記補助トレーニングサンプル（１４０）についての選択確率（１７０）を決定するステップと、
前記データ処理ハードウェア（１２）によって、前記選択確率（１７０）に基づいて、前記補助トレーニングサンプル（１４０）のセットから補助トレーニングサンプル（１４０Ｓ）のサブセットを選択するステップと、
前記データ処理ハードウェア（１２）によって、前記補助トレーニングサンプル（１４０Ｓ）のサブセットを用いて、前記局所解釈可能モデル（１９０）をトレーニングするステップとを含む、方法（３００）。
前記インスタンスごとの重み推定器モデル（１６０）をトレーニングするステップは、
強化信号（２２６）を決定するステップと、
前記強化信号（２２６）に基づいて前記インスタンスごとの重み推定器モデル（１６０）を更新するステップとを含む、請求項１に記載の方法（３００）。
前記強化信号（２２６）を決定するステップは、
損失関数（２０６）に基づいて前記局所解釈可能モデル（１９０）についての第１の損失データ（２２８ａ）を決定するステップと、
前記損失関数（２０６）に基づいて前記ベースライン解釈可能モデル（１５０）についての第２の損失データ（２２８ｂ）を決定するステップと、
前記局所解釈可能モデル（１９０）についての前記第１の損失データ（２２８ａ）および前記ベースライン解釈可能モデル（１５０）についての前記第２の損失データ（２２８ｂ）に基づいて前記強化信号（２２６）を決定するステップとを含む、請求項１または２に記載の方法（３００）。
前記補助トレーニングサンプル（１４０）のセットから前記補助トレーニングサンプル（１４０Ｓ）のサブセットを選択するステップは、前記補助トレーニングサンプル（１４０）のセット内の各補助トレーニングサンプル（１４０）ごとに、
前記選択確率（１７０）に基づいて、選択または選択なしを示す対応する選択値（２４４）を決定するステップと、
前記対応する選択値（２４４）が選択を示す場合、前記補助トレーニングサンプル（１４０）を前記補助トレーニングサンプル（１４０Ｓ）のサブセットに追加するステップとを含む、請求項１から３のいずれか１項に記載の方法（３００）。
各補助トレーニングサンプル（１４０）ごとに、前記補助トレーニングサンプル（１４０）についての前記選択確率（１７０）を決定するステップは、
前記インスタンスごとの重み推定器モデル（１６０）において、検証サンプル（２４２）を受取るステップと、
前記インスタンスごとの重み推定器モデル（１６０）によって、前記検証サンプル（２４２）に基づいて前記選択確率（１７０）を決定するステップとを含む、請求項４に記載の方法（３００）。
前記インスタンスごとの重み推定器モデル（１６０）をトレーニングした後、
前記インスタンスごとの重み推定器モデル（１６０）において、検証サンプル（２４２）を受取るステップと、
前記インスタンスごとの重み推定器モデル（１６０）によって、前記補助トレーニングサンプル（１４０）のセット内の各補助トレーニングサンプル（１４０）ごとに前記選択確率（１７０）を生成するステップと、
前記検証サンプル（２４２）と、前記補助トレーニングサンプル（１４０）のセット内の各補助トレーニングサンプル（１４０）の前記選択確率（１７０）とに基づいて、前記局所解釈可能モデル（１９０）をトレーニングするステップとをさらに含む、請求項１から５のいずれか１項に記載の方法（３００）。
前記ブラックボックスモデル（１２０）をトレーニングするステップは、平均二乗誤差損失関数（２０６）または交差エントロピー損失関数（２０６）を最小化するステップを含む、請求項１から６のいずれか１項に記載の方法（３００）。
前記トレーニングサンプル（１３０）のセット内の各トレーニングサンプル（１３０）は、トレーニングデータ（２０２）および所与のラベル（２０４）を含む、請求項１から７のいずれか１項に記載の方法（３００）。
前記補助トレーニングサンプル（１４０）のセットを生成するステップは、前記トレーニングサンプル（１３０）のセット内の各トレーニングサンプル（１３０）ごとに、
前記トレーニングサンプル（１３０）の前記トレーニングデータ（２０２）を用いて、前記トレーニングされたブラックボックスモデル（１２０）から、前記トレーニングデータ（２０２）についての予測ラベル（２０８）を取得するステップと、
前記トレーニングデータ（２０２）と前記予測ラベル（２０８）とを組合わせて補助トレーニングサンプル（１４０）にするステップと、
前記補助トレーニングサンプル（１４０）を前記補助トレーニングサンプル（１４０）のセットに追加するステップとを含む、請求項８に記載の方法（３００）。
前記インスタンスごとの重み推定器モデル（１６０）をトレーニングするステップは、
プローブトレーニングサンプル（２２２）のセットを取得するステップと、
前記プローブトレーニングサンプル（２２２）のセット内の各プローブトレーニングサンプル（２２２）ごとに、選択確率（１７０）を決定するステップと、
各プローブトレーニングサンプル（２２２）の前記選択確率（１７０）に基づいて、インスタンスごとの選択ベクトル（２２４）を決定するステップと、
前記インスタンスごとの選択ベクトル（２２４）に基づいて前記局所解釈可能モデル（１９０）を最適化するステップと、
前記最適化された局所解釈可能モデル（１９０）からの損失データ（２２８ａ）に基づいて、前記インスタンスごとの重み推定器モデル（１６０）を更新するステップとを含む、請求項１から９のいずれか１項に記載の方法（３００）。
システム（１００）であって、
データ処理ハードウェア（１２）と、
前記データ処理ハードウェア（１２）と通信するメモリハードウェア（１４）とを含み、前記メモリハードウェア（１４）は、前記データ処理ハードウェア（１２）上で実行されると、前記データ処理ハードウェア（１２）に、以下の動作を実行させる命令を格納しており、前記以下の動作は、
トレーニングサンプル（１３０）のセットを取得する動作と、
前記トレーニングサンプル（１３０）のセットを用いて、ブラックボックスモデル（１２０）をトレーニングする動作と、
前記トレーニングされたブラックボックスモデル（１２０）および前記トレーニングサンプル（１３０）のセットを用いて、補助トレーニングサンプル（１４０）のセットを生成する動作と、
前記補助トレーニングサンプル（１４０）のセットを用いて、ベースライン解釈可能モデル（１５０）をトレーニングする動作と、
前記補助トレーニングサンプル（１４０）のセットおよび前記ベースライン解釈可能モデル（１５０）を用いて、インスタンスごとの重み推定器モデル（１６０）をトレーニングする動作と、
前記補助トレーニングサンプル（１４０）のセット内の各補助トレーニングサンプル（１４０）ごとに、前記トレーニングされたインスタンスごとの重み推定器モデル（１６０）を用いて、前記補助トレーニングサンプル（１４０）についての選択確率（１７０）を決定する動作と、
前記選択確率（１７０）に基づいて、前記補助トレーニングサンプル（１４０）のセットから補助トレーニングサンプル（１４０Ｓ）のサブセットを選択する動作と、
前記補助トレーニングサンプル（１４０Ｓ）のサブセットを用いて、局所解釈可能モデル（１９０）をトレーニングする動作とを含む、システム（１００）。
前記インスタンスごとの重み推定器モデル（１６０）をトレーニングする動作は、
強化信号（２２６）を決定する動作と、
前記強化信号（２２６）に基づいて前記インスタンスごとの重み推定器モデル（１６０）を更新する動作とを含む、請求項１１に記載のシステム（１００）。
前記強化信号（２２６）を決定する動作は、
損失関数（２０６）に基づいて前記局所解釈可能モデル（１９０）についての第１の損失データ（２２８ａ）を決定する動作と、
前記損失関数（２０６）に基づいて前記ベースライン解釈可能モデル（１５０）についての第２の損失データ（２２８ｂ）を決定する動作と、
前記局所解釈可能モデル（１９０）についての前記第１の損失データ（２２８ａ）および前記ベースライン解釈可能モデル（１５０）についての前記第２の損失データ（２２８ｂ）に基づいて前記強化信号（２２６）を決定する動作とを含む、請求項１１または１２に記載のシステム（１００）。
前記補助トレーニングサンプル（１４０）のセットから前記補助トレーニングサンプル（１４０Ｓ）のサブセットを選択する動作は、前記補助トレーニングサンプル（１４０）のセット内の各補助トレーニングサンプル（１４０）ごとに、
前記選択確率（１７０）に基づいて、選択または選択なしを示す対応する選択値（２４４）を決定する動作と、
前記対応する選択値（２４４）が選択を示す場合、前記補助トレーニングサンプル（１４０）を前記補助トレーニングサンプル（１４６）のサブセットに追加する動作とを含む、請求項１１から１３のいずれか１項に記載のシステム（１００）。
各補助トレーニングサンプル（１４０）ごとに、前記補助トレーニングサンプル（１４０）についての前記選択確率（１７０）を決定する動作は、
前記インスタンスごとの重み推定器モデル（１６０）において、検証サンプル（２４２）を受取る動作と、
前記インスタンスごとの重み推定器モデル（１６０）によって、前記検証サンプル（２４２）に基づいて前記選択確率（１７０）を決定する動作とを含む、請求項１４に記載のシステム（１００）。
前記以下の動作はさらに、前記インスタンスごとの重み推定器モデル（１６０）をトレーニングした後、
前記インスタンスごとの重み推定器モデル（１６０）において、検証サンプル（２４２）を受取る動作と、
前記インスタンスごとの重み推定器モデル（１６０）によって、前記補助トレーニングサンプル（１４０）のセット内の各補助トレーニングサンプル（１４０）ごとに前記選択確率（１７０）を生成する動作と、
前記検証サンプル（２４２）と前記補助トレーニングサンプル（１４０）のセット内の各補助トレーニングサンプル（１４０）の前記選択確率（１７０）とに基づいて、前記局所解釈可能モデル（１９０）をトレーニングする動作とをさらに含む、請求項１１から１５のいずれか１項に記載のシステム（１００）。
前記ブラックボックスモデル（１２０）をトレーニングする動作は、平均二乗誤差損失関数（２０６）または交差エントロピー損失関数（２０６）を最小化する動作を含む、請求項１１から１６のいずれか１項に記載のシステム（１００）。
前記トレーニングサンプル（１３０）のセット内の各トレーニングサンプル（１３０）は、トレーニングデータ（２０２）および所与のラベル（２０４）を含む、請求項１１から１７のいずれか１項に記載のシステム（１００）。
前記補助トレーニングサンプル（１４０）のセットを生成する動作は、前記トレーニングサンプル（１３０）のセット内の各トレーニングサンプル（１３０）ごとに、
前記トレーニングサンプル（１３０）の前記トレーニングデータ（２０２）を用いて、前記トレーニングされたブラックボックスモデル（１２０）から、前記トレーニングデータ（２０２）についての予測ラベル（２０８）を取得する動作と、
前記トレーニングデータ（２０２）と前記予測ラベル（２０８）とを組合わせて補助トレーニングサンプル（１４０）にする動作と、
前記補助トレーニングサンプル（１４０）を前記補助トレーニングサンプル（１４０）のセットに追加する動作とを含む、請求項１８に記載のシステム（１００）。
前記インスタンスごとの重み推定器モデル（１６０）をトレーニングする動作は、
プローブトレーニングサンプル（２２２）のセットを取得する動作と、
前記プローブトレーニングサンプル（２２２）のセット内の各プローブトレーニングサンプル（２２２）ごとに、選択確率（１７０）を決定する動作と、
各プローブトレーニングサンプル（２２２）の前記選択確率（１７０）に基づいて、インスタンスごとの選択ベクトル（２２４）を決定する動作と、
前記インスタンスごとの選択ベクトル（２２４）に基づいて前記局所解釈可能モデル（１９０）を最適化する動作と、
前記最適化された局所解釈可能モデル（１９０）からの損失データ（２２８ａ）に基づいて、前記インスタンスごとの重み推定器モデル（１６０）を更新する動作とを含む、請求項１１から１９のいずれか１項に記載のシステム（１００）。