JP2023520313A

JP2023520313A - 不確定区間を有する性能予測の生成

Info

Publication number: JP2023520313A
Application number: JP2022555680A
Authority: JP
Inventors: アーノルド、マシュー、リチャード; エルダー、ベンジャミン、タイラー; ナブラティル、ジリ; ヴェンカタラマン、ガネシュ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-04-07
Filing date: 2021-02-16
Publication date: 2023-05-17
Also published as: CA3170297A1; GB202216256D0; KR20220163362A; US11989626B2; AU2021251463A1; IL295764A; AU2021251463B2; GB2609160A; WO2021205244A1; CN115349129A; US20210312323A1

Abstract

不確定区間を有する性能予測の生成。不確定区間を有する機械学習モデルの性能予測を生成するための技術は、タスクを実行するように構成される第１のモデルおよび製造データセットを取得することを含む。製造データセット上でタスクを実行するとき、第１のモデルの性能を予測する少なくとも１つの測定基準は、第２のモデルを用いて生成される。第２のモデルは、第１のモデルに関連付けられたメタ・モデルである。製造データセット上でタスクを実行するとき、第１のモデルの性能を予測する少なくとも１つの測定基準の不確定性を予測する少なくとも１つの値は、第３のモデルを用いて生成される。第３のモデルは、第２のモデルに関連付けられたメタ・メタ・モデルである。第１のモデルの性能を予測する少なくとも１つの測定基準および少なくとも１つの測定基準の不確定性を予測する少なくとも１つの値の表示が提供される。

Description

本発明は、概して、機械学習に関するものであり、より詳しくは、不確定区間を有する機械学習（ＭＬ）モデルの性能予測を生成するための技術に関するものである。

近年、ＭＬモデルは、少し例を挙げれば、画像認識、音声処理、言語翻訳および物体分類を含むさまざまなタスクのためにますます使用されてきた。概して、これらのタスクのために用いられるＭＬモデルは、モデルを訓練し、維持するのに必要な計算資源および時間の観点から、ますます複雑で高価になった。さらに、各タスクの異なるゴールのために、１つのタスクまたはドメインのために訓練されるモデルは、モデルが密接に関連する場合であっても、典型的には他のドメインのために使用不可能であるように、モデル自体は劇的に互いと異なりうる。この可能性のため、所定のタスクのためのデータのセットにおけるモデルの性能を予測する試みが実行されてきた。しかしながら、性能予測は、不確定性の複数のソースの悪影響を被り、性能予測の精度に影響を与えうる。

本願明細書において提示される一実施形態は、機械学習（ＭＬ）モデルの性能予測を生成するためのコンピュータ実施方法を含む。コンピュータ実施方法は、概して、タスクを実行するように構成される第１のモデルおよびラベルなしのデータを含む製造データセットを取得するステップを含む。コンピュータ実施方法はまた、第２のモデルを用いて、製造データセット上でタスクを実行するとき、第１のモデルの性能を予測する少なくとも１つの測定基準を生成することを含む。第２のモデルは、第１のモデルに関連付けられたメタ・モデルである。コンピュータ実施方法は、１つまたは複数の第３のモデルを用いて、製造データセット上でタスクを実行するとき、第１のモデルの性能を予測する少なくとも１つの測定基準の不確定性を予測する少なくとも１つの値を生成するステップをさらに含む。１つまたは複数の第３のモデルの各々は、第２のモデルに関連付けられたメタ・メタ・モデルである。コンピュータ実施方法は、第１のモデルの性能を予測する少なくとも１つの測定基準および少なくとも１つの測定基準の不確定性を予測する少なくとも１つの値の表示を提供するステップをさらに含む。

他の実施形態としては、処理ユニットが開示された方法の１つまたは複数の態様を実施することを可能にするコンピュータ可読プログラム・コードを有する記憶媒体を含むコンピュータ・プログラム製品と、開示された方法の１つまたは複数を実施するように構成されるプロセッサ、メモリおよびアプリケーション・プログラムを有するシステムと、を含むが、これらに限定されるものではない。

一実施形態に従って、タスクにおけるモデルの性能およびタスクにおけるモデルの性能の不確定性を予測するのに用いられるネットワーク化されたシステムを示すブロック図である。一実施形態に従って、モデルの性能予測およびモデルの性能予測のための不確定区間を生成するためのスタックされたメタ・モデリング・ワークフローを示す。一実施形態に従って、モデルの性能予測およびモデルの性能予測のための不確定区間を生成するためのスタックされたメタ・モデリング・ワークフローを示す。一実施形態に従って、メタ・メタ・モデルを訓練するための１つまたは複数のデータセットを生成するための一例の手順を示す。一実施形態に従って、メタ・メタ・モデルを訓練するための特徴を生成する一例を示す。一実施形態に従って、タスクにおけるモデルの性能およびタスクにおけるモデルの性能のための不確定性を予測するための方法のフローチャートである。一実施形態に従って、モデルの性能予測およびモデルの性能予測のための不確定区間を生成するための、スタックされたメタ・モデル・ワークフローのメタ・モデルおよびメタ・メタ・モデルを訓練するための方法のフローチャートである。一実施形態に従って、メタ・メタ・モデルを訓練するための方法のフローチャートである。一実施形態に従って、性能予測および不確定区間の例のシミュレーションを示す。

ＭＬツールが、回帰および分類、最適化、予測などを含むがこれらに限定されないさまざまなタスクのためにますます用いられる。しかしながら、いくつかの場合には、タスクにおける所定のモデルの性能は、時間とともに変化しうる。例えば、正確に予測するモデルの能力は、どの程度基礎データがモデルの訓練データと異なるかに応じて、時間とともに悪化するかもしれない。現在では、多くの従来技術を用いて、所定のタスクにおけるモデルの性能を予測することができる。例えば、１つの従来技術は、基礎データの１つまたは複数の特徴の移動の量を検出することを含む。他の従来技術は、正確な予測（例えば、任意の階級が正確に予測された回数、受信者動作特性（ＲＯＣ）曲線の下の面積など）の比率を時間とともに測定することによって、モデルの精度をトラックすることを含む。しかしながら、これらの従来技術は、性能予測のためのみに用いられ、モデルの不確定性を捕捉しない。

加えて、多くの従来技術は、（例えば、基礎となる性能予測タスクを考慮せずに）不確定性のみを予測するために存在する。この種の技術の例は、信頼区間および確率（ｐ）値を含むが、これらに限定されるものではない。加えて、ベイジアン・モデリングにおいて、例えば、偶然的不確定性および認識論的不確定性を含む異なるタイプのモデル不確定性が存在する。偶然的不確定性は、データの固有の不確定性を捕捉し、それの例は、ノイズ、さまざまなデータの欠落、混乱などを含むことができる。認識論的不確定性は、（例えば、モデル・アーキテクチャ、モデル・パラメータ、モデル仮定、パラメータ評価、不十分な訓練などの）モデルに起因する不確定性を捕捉する。

上述した方法についての１つの問題は、選択がベース・モデルのアーキテクチャにわたり存在し、モデルの性能またはモデルの不確定性あるいはその両方の予測を可能にすると一般的に仮定するということである。この選択が存在しない場合、集合技術のようないくつかの方法は、不確定性を捕捉するために用いることができるが、これらの方法は、ベース・モデルがホワイト・ボックス（例えば、内部アーキテクチャおよびパラメータが見えるかまたは知られているモデル）であると仮定する。しかしながら、多くの状況において、顧客提供モデルが使用される場合、上述した仮定のいずれも受け入れられない。したがって、モデルの性能予測およびモデルの不確定性予測の両方を生成するための技術を提供することが望ましくなりうる。

本開示の実施形態は、基礎となるタスクにおけるＭＬモデルの性能を、ＭＬモデルの予測された性能のための不確定区間とともに予測するための技術を提供する。より詳しくは、訓練されたＭＬモデルおよび（ラベルなしの）製造データのセット（モデルの訓練データと大きく異なってもよいしまたは異ならなくてもよい）が与えられると、実施形態は、製造データのセットにおけるモデルの性能（例えば、精度または他の性能または品質関連の測定基準）および不確定区間（例えば、予測の周りのバンドまたはエラー・バー）を予測し、特定のテスト・インスタンスまたはテスト・インスタンスのバッチにおけるモデルに関連付けられた不確定性を説明することができる。

以下でさらに詳述する一実施形態において、スタックされたメタ・モデリング方法は、性能予測および不確定性予測を生成するために使用される。例えば、実施形態は、２つのレベルのメタ・モデル、すなわち、（１）ベース・モデルの性能を予測する第１のレベルのメタ・モデル（２）（例えば、ベース・モデルの性能のその予測に関して）第１のレベルのメタ・モデルの不確定性を予測する第２のレベルのメタ・メタ・モデルを生成する。スタックされたメタ・モデリング方法を使用することにより、実施形態は、任意のアーキテクチャのモデルを動作し（例えば、スタックされたメタ・モデリング方法は、モデル・アーキテクチャに不可知論者であり、モデルの内側パラメータのアクセスを有することに依存しない）、複数のタイプの不確定性（例えば、偶然的不確定性、認識論的不確定性など）を捕捉することができる。

本願明細書において、「メタ・モデル」は、概して、（より低いレベルの）モデルのモデルを意味し、「メタ・メタ・モデル」は、概して、メタ・モデルのモデルを意味する。メタ・モデルは、例えば、データと相互作用するより低いレベルのモデルに観察されるパターンを捕捉する。本開示のさまざまな実施形態において、視覚のタスク（例えば、動作認識、物体検出、顔認識、数字または文字分類などのための画像を処理すること）が、ＭＬモデルの機能を説明する例として用いられることに留意されたい。しかしながら、本開示の実施形態は、任意の入力（例えば、映像、音声、テキストなど）を用いて、任意の数のドメインに直ちに適用できる。さらに、本願明細書において用いられるように、モデルの「性能」は、ラベルなしのデータにおけるモデルの１つまたは複数の精度関連の測定基準を意味してもよい。同様に、「性能予測」は、ラベルなしのデータにおける基礎となるベース・モデルの１つもしくは複数の性能または品質関連の測定基準を予測するモデル・ベースの方法を意味してもよい。

本発明の各種実施形態の説明は、説明のために提示され、包括的であることを意図せず、開示される実施形態に限定されることも意図しない。多くの修正およびバリエーションは、記載されている実施形態の範囲および思想を逸脱することなく、当業者にとって明らかである。本願明細書において用いられる用語は、実施形態の原則、実用的な適用または市場で見つかる技術の上の技術的な改善を最も良く説明するために、または、当業者が本願明細書において開示される実施形態を理解することを可能にするために選択された。

以下、この開示において示される実施形態を参照する。しかしながら、本開示の範囲は、特定の記載されている実施形態に限定されるものではない。その代わりに、以下の特徴および要素の任意の組み合わせは、異なる実施形態に関するか否かにかかわらず、考察された実施形態を実施および実践するために考察される。さらに、本願明細書において開示される実施形態が他の可能な解決法または従来技術に勝る利点を達成することができるが、特定の利点が所定の実施形態によって達成されるか否かは、本開示の範囲の制限ではない。したがって、以下の態様、特徴、実施形態および利点は、請求項において明確に詳述される場合を除き、単に説明するのみであり、添付の請求の範囲の要素または制限とみなされない。同様に、「本発明」の参照は、請求項において明確に詳述される場合を除き、本願明細書において開示される任意の発明の主題の一般化として解釈されるべきではなく、添付の請求の範囲の要素または制限とみなされるべきではない。

図１は、一実施形態に従って、性能予測およびモデルの不確定性予測を生成するのに用いられるネットワーク化されたシステム１００を示すブロック図である。システム１００は、コンピューティング・システム１０２を含む。コンピューティング・システム１０２はまた、ネットワーク１４０を介して他のコンピュータに接続されてもよい。ネットワーク１４０は、さまざまなタイプの１つまたは複数のネットワークを含んでもよく、ローカル・エリアまたはローカル・エリア・ネットワーク（ＬＡＮ）、汎用ワイド・エリア・ネットワーク（ＷＡＮ）、電気通信または携帯電話網または公衆ネットワーク（例えば、インターネット）あるいはその組み合わせを含む。

コンピューティング・システム１０２は、概して、バス１５０を介してメモリ１０６に接続される１つまたは複数のプロセッサ１０４、ストレージ１０８、ネットワーク・インタフェース１１０、入力装置１５２および出力装置１５４を含む。コンピューティング・システム１０２は、概して、オペレーティング・システム（図示せず）の制御下にある。オペレーティング・システムの例は、ＵＮＩＸ（Ｒ）オペレーティング・システム、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（Ｒ）オペレーティング・システムのバージョンおよびＬｉｎｕｘ（Ｒ）オペレーティング・システムのディストリビューションを含む（ＵＮＩＸは、米国および他の国のＴｈｅＯｐｅｎＧｒｏｕｐの登録商標であり、ＭｉｃｒｏｓｏｆｔおよびＷｉｎｄｏｗｓは、米国、他の国または両方のＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎの商標であり、Ｌｉｎｕｘは、米国、他の国または両方のＬｉｎｕｓＴｏｒｖａｌｄｓの登録商標である）。さらに一般的にいえば、本願明細書において開示される機能をサポートする任意のオペレーティング・システムを用いてもよい。プロセッサ１０４は、単一のＣＰＵ、複数のＣＰＵ、複数の処理コアを有する単一のＣＰＵなどを表すように含まれる。

メモリ１０６は、性能または他の能力、すなわち、揮発性または不揮発性媒体あるいはその両方、取り外し可能および取り外し不可能な媒体あるいはその両方などのために選択されるさまざまなコンピュータ可読媒体を含んでもよい。メモリ１０６は、キャッシュ、ランダム・アクセス・メモリ（ＲＡＭ）などを含んでもよい。ストレージ１０８は、ディスク・ドライブまたはフラッシュ・ストレージ・デバイスでもよい。単一のユニットとして示されるが、ストレージ１０８は、固定または取り外し可能なストレージ・デバイスあるいはその両方、例えば、固定ディスク・ドライブ、ソリッド・ステート・ドライブ、取り外し可能なメモリ・カード、光記憶装置、ネットワーク接続ストレージ（ＮＡＳ）またはストレージ・エリア・ネットワーク（ＳＡＮ）の組み合わせでもよい。ネットワーク・インタフェース１１０は、コンピューティング・システム１０２がネットワーク１４０を介して他のコンピューティング・システムまたはデバイスと通信することができる任意のタイプのネットワーク通信装置でもよい。

入力装置１５２は、コンピューティング・システム１０２に対する入力を提供する。例えば、キーボードまたはマウスあるいはその両方を用いてもよい。出力装置１５４は、出力をコンピューティング・システム１０２のユーザに提供するための任意のデバイスでもよい。例えば、出力装置１５４は、任意の従来のディスプレイ・スクリーンでもよい。入力装置１５２とは別々に示されるが、出力装置１５４および入力装置１５２は結合されてもよい。例えば、一体化したタッチ・スクリーンを有するディスプレイ・スクリーンを用いてもよい。

ここで、ストレージ１０８は、製造データセット１３０、ベース・モデル１３２、テスト・データセット１３４、訓練データセット１３６ならびにオフライン・モデルおよびデータセット１３８を含む。ベース・モデル１３２は、特定のタスクを解析するために用いられるモデル（例えば、画像の分類のための顧客モデル）である。一般的に、任意の適切なタイプのモデルをベース・モデル１３２のために用いることができ、その例は、人工神経回路網、決定木、サポート・ベクター・マシン、回帰分析、ベイジアン・ネットワーク、遺伝的アルゴリズムなどを含むが、これらに限定されるものではない。ベース・モデル１３２は、ブラック・ボックス・モデル（例えば、アーキテクチャまたはパラメータあるいはその両方が知られていないモデル）またはホワイト・ボックス・モデル（例えば、アーキテクチャまたはパラメータあるいはその両方が知られているモデル）とすることができる。

ベース・モデル１３２は、特定の訓練データセット（例えば、訓練データセット１３６）において訓練／開発されてもよく、ラベル付きテスト・データセット（例えば、分類ラベルを含むテスト・データセット１３４）を用いて評価されてもよい。製造データセット１３０は、グラウンド・トゥルース（例えば、分類ラベル）が利用できないラベルなしのデータセットである。ベース・モデル１３２が展開された後、製造データセット１３０は、動作条件から収集されてもよい。オフラインのモデルまたはデータセットあるいはその両方１３８は、さまざまなモデルおよびデータセットを含み、そのいくつかは、ベース・モデル１３２の元のタスクに関連があってもよく、そのいくつかは、ベース・モデル１３２の元のタスクに関連がなくてもよい。オフラインのモデルまたはデータセットあるいはその両方１３８は、図２Ｂおよび図３に関して以下でさらに詳細に述べられる。

メモリ１０６は、予測エンジン１２０を含み、予測エンジン１２０は、性能予測およびモデルのための不確定区間を生成するために本願明細書において記載されている技術の１つまたは複数を実施するように構成される。予測エンジン１２０は、性能構成要素１２２および不確定性構成要素１２４を含み、これらの各々は、ソフトウェア、ハードウェアまたはそれらの組み合わせを含むことができる。予測エンジン１２０は、（性能構成要素１２２を介して）ベースＭＬモデル１３２の性能予測を生成（または性能を予測）し、（不確定性構成要素１２４を介して）例えば、スタックされたメタ・モデリング方法を用いて、性能予測の不確定区間を生成するように構成される。例えば、性能構成要素１２２は、（ベース・モデル１３２の）メタ・モデルを用いて、ラベルなしの製造データセット１３０におけるベース・モデル１３２の性能（例えば、１つまたは複数の精度関連の測定基準）を予測することができる。メタ・モデルは、ベース・モデル１３２、テスト・データセット１３４および訓練データセット１３６の１つまたは複数を用いて訓練されてもよい。

同様に、不確定性構成要素１２４は、（ベース・モデル１３２のメタ・モデルの）メタ・メタ・モデルを用いて、性能構成要素１２２のメタ・モデルの不確定性を予測することができる。メタ・メタ・モデルは、オフラインのモデル／データセット１３８、性能構成要素１２２のメタ・モデル、ベース・モデル１３２、製造データセット１３０、テスト・データセット１３４および訓練データセット１３６の収集の１つまたは複数を用いて訓練されてもよい。一実施形態において、不確定性構成要素１２４は、メタ・モデルの不確定性を表現する不確定区間（エラー・バーとしても知られている）を生成することができる。不確定区間は、性能構成要素１２２の出力（例えば、ベース・モデル１３２の予測された性能）の周りのバンド（または許容度）を詳細に描写する。予測の周りのこのバンド（または許容度）は、（例えば、製造データセット１３０の）特定のテスト・インスタンスにおけるベース・モデル１３２に関連付けられた不確定性を説明することができる。性能構成要素１２２および不確定性構成要素１２４は、図２Ａおよび図２Ｂに関して以下でさらに詳細に述べられる。

図１は、単に、モデルの不確定区間とともに性能予測を生成することができるシステム１００の１つの参考例のみを示し、システム１００のその他の構成はモデルの不確定区間とともに性能予測を生成するために適応されうることに留意されたい。例えば、いくつかの実施形態では、ストレージ１０８の１つまたは複数のコンテンツ（例えば、製造データセット１３０、ベース・モデル１３２、テスト・データセット１３４、訓練データセット１３６およびオフラインのモデル／データセット１３８）または１つもしくは複数のコンテンツ（例えば、性能構成要素１２２および不確定性構成要素１２４）あるいはその両方は、ネットワーク（例えば、クラウド・コンピューティング環境）において、１つまたは複数のコンピューティング・システム１０２にわたり分散されてもよい。この種の実施形態では、第１のコンピューティング・システム１０２は、１つまたは複数の第２のコンピューティング・システム１０２からベース・モデル１３２の性能予測を生成するために用いられるコンテンツの１つまたは複数を検索してもよい。同様に、第１のコンピューティング・システム１０２は、１つまたは複数の第２のコンピューティング・システム１０２からベース・モデル１３２の予測された性能のための不確定区間を生成するために用いられるコンテンツの１つまたは複数を検索してもよい。さらに他の実施形態では、性能予測または不確定区間あるいはその両方は、単一のコンピューティング・システム１０２または複数のコンピューティング・システム１０２によって生成可能である。

図２Ａから図２Ｂは、一実施形態に従って、ベース・モデル（例えば、ベース・モデル１３２）の性能予測およびベース・モデルの性能予測のための不確定区間を生成するためのスタックされたメタ・モデリング・ワークフロー２００を示す。ここで、スタックされたメタ・モデリング・ワークフロー２００は、訓練段階２１０および使用（または展開）段階２１２（図２Ａに示される）ならびに訓練段階２１４および使用段階２１６（図２Ｂに示される）を含む。

図２Ａに示すように、性能構成要素１２２は、メタ・モデル２０２を含み、メタ・モデル２０２は、概して、インスタンス・ベースによってインスタンス上のベース・モデル１３２の成功および失敗の確率を予測することを学習する。ワークフロー２００は、訓練段階２１０の間考慮可能な情報の多くの異なる部分を示す。描写された実施形態において、ベース・モデル１３２および（ラベル付きの）テスト・データセット１３４は、メタ・モデル２０２を訓練するための入力として処理され、用いられる。さらに示されるように、いくつかの実施形態では、訓練データセット１３６はまた、メタ・モデル２０２を訓練するための追加の入力として用いることもできる。

訓練段階２１０は、メタ・モデル２０２を訓練するための教師あり学習方法を描写する。訓練段階２１０は、（例えば、メタ・モデル２０２が、使用中でないかまたは展開されないとき）オフラインで実行可能であるか、または、（例えば、メタ・モデル２０２が、使用中であるかまたは展開されるとき）オンラインで実行可能である。しかしながら、さらに一般的にいえば、本願明細書において記載されている機能に整合する任意の適切な機械学習訓練メカニズムを用いることができる。ベース・モデル１３２、テスト・データセット１３４または訓練データセット１３６あるいはその組み合わせが訓練段階２１０の間、メタ・モデル２０２に直接入るとして示されるが、当業者は、任意の入力データがメタ・モデル２０２に供給される前に、この情報がさまざまな方法で処理可能であることを認識することにさらに留意されたい。

一旦メタ・モデル２０２が訓練されると、（ラベルなしの）製造データセット１３０（例えば、分類ラベルなし）は、入力としてメタ・モデル２０２に供給可能であり、メタ・モデル２０２は、（例えば、使用（展開）段階２１２の間）性能予測２０４を出力することができる。いくつかの場合には、ベース・モデル１３２の出力予測スコア（例えば、ｓｏｆｔｍａｘ、ロジット）またはベース・モデル１３２の元の入力特徴あるいはその両方はまた、入力としてメタ・モデル２０２に供給可能である。製造データセット１３０がメタ・モデル２０２に直接入るとして示されるが、当業者は、任意の入力データがメタ・モデル２０２に供給される前に、この情報がさまざまな方法で処理可能であることを認識することに留意されたい。

性能予測２０４は、ベース・モデル１３２が（ラベルなしの）製造データセット１３０におけるそのタスク（例えば、画像分類）でどの程度良く（または正確に）作動するかの予測された計測値である。例えば、ベース・モデル１３２が物体分類のモデルであると仮定すると、性能予測２０４は、製造データセット１３０から物体を分類する際のベース・モデル１３２の成功／失敗確率を示すパーセンテージ値（例えば、７４％）を含むことができる。さらに一般的にいえば、性能予測２０４は、製造データセット１３０におけるベース・モデル１３２の１つまたは複数の精度関連の測定基準を含むことができる。この種の精度関連の測定基準の例は、ＲＯＣスコアの下の面積、真陽性率（ＴＰＲ）、Ｆ１値、偽陽性率（ＦＰＲ）、Ｒ二乗スコア、精度スコア（例えば、モデルが正確になったという予測のパーセンテージ）などを含むことができるが、これらに限定されるものではない。

性能予測２０４は、バッチ精度予測または点的な精度予測とすることができる。いくつかの場合には、性能予測２０４は、ベース・モデル１３２の事前展開品質検査のために用いることができる（例えば、ベース・モデル１３２が展開されるべきかを決定する）。いくつかの場合には、性能予測２０４は、ベース・モデル１３２の実行時または展開の間、品質管理／検査（例えば、不正確な予測をフィルタリングする、生産の減少を識別するなど）のために用いることができる。しかしながら、上述したように、性能予測２０４は、精度関連の測定基準において捕捉されない不確定性（例えば、偶然的不確定性、認識論的不確定性など）の複数のソースの悪影響を被りうる。これに対処するために、実施形態は、不確定性構成要素１２４を用いて、性能予測２０４に関する不確定区間を予測する。

図２Ｂに示すように、不確定性構成要素１２４は、メタ・メタ・モデル２０６を含み、メタ・メタ・モデル２０６は、メタ・モデル２０２のエラーおよび実際の観察された性能（例えば、予測された精度マイナス実際の精度の絶対値）の機能を予測することを学習する。ワークフロー２００は、訓練段階２１４の間考慮可能な情報の多くの異なる部分を示す。描写された実施形態において、オフラインのモデル／データセット１３８およびメタ・モデル２０２は、メタ・メタ・モデル２０６を訓練するための入力として処理され、用いられる。さらに示されるように、いくつかの実施形態では、製造データセット１３０はまた、メタ・メタ・モデル２０６を訓練するための追加の入力または唯一の入力として用いることもできる。

訓練段階２１４は、メタ・メタ・モデル２０６を訓練するための教師あり学習方法を描写する。訓練段階２１４は、１つまたは複数の実行のためにオフラインで実行可能である。しかしながら、さらに一般的にいえば、本願明細書において記載されている機能に整合する任意の適切な機械学習訓練メカニズムを用いることができる。オフラインのモデル／データセット１３８、メタ・モデル２０２または製造データセット１３０あるいはその組み合わせがメタ・メタ・モデル２０６に直接入るとして示されるが、当業者は、任意の入力データがメタ・メタ・モデル２０６に供給される前に、この情報がさまざまな方法で処理可能であることを認識することにさらに留意されたい。

メタ・メタ・モデル２０６は、メタ・モデル２０２がいつ間違いそうであるか、および、どのくらい間違うかを、訓練段階２１４の１つまたは複数のオフラインの実行から学習するように構成される。一実施形態において、メタ・メタ・モデル２０６は、複数のバックグラウンドのオフラインのモデル／データセット１３８（製造データセット１３０を除外）において訓練され、メタ・モデル２０２の予想される不確定性を表す一般的特徴を学習することができる。他の実施形態では、メタ・メタ・モデル２０６は、製造データセット１３０（例えば、オフラインのモデル／データセット１３８なしで）において訓練可能である。さらに他の実施形態では、メタ・メタ・モデル２０６は、オフライン／モデル／データセット１３８および製造データセット１３０において訓練可能である。

オフラインのモデル／データセット１３８は、ベース・モデル１３２のタスクに関連があるラベル付きデータセット（例えば、物体分類）またはベース・モデル１３２のタスクに関連がないラベル付きデータセット（例えば、音声からテキスト変換）あるいはその両方を含んでもよい。いくつかの実施形態において、メタ・メタ・モデル２０６を訓練するために用いられるオフラインのモデル／データセット１３８の少なくとも１つの（第１の）データセットは、オフラインのモデル／データセット１３８における１つまたは複数の（第２の）データセットから動的に生成可能である。例えば、第１のデータセットは、第２のデータセットにおける１つまたは複数の特徴を再サンプリングすることに基づいて生成可能である。

図３は、一実施形態に従って、メタ・メタ・モデル２０６を訓練するための１つまたは複数のデータセットを生成する一例を示す。示すように、（オフラインのモデル／データセット１３８のうちの１つでもよい）（ベースの）ラベル付きデータセット３０２が与えられ、予測エンジン１２０は、メタ・メタ・モデル２０６を訓練するために、１つまたは複数の訓練／テスト・データセット３０４－１から３０４－６および１つまたは複数の製造データセット３０６－１から３０６－６を生成することができる。一実施形態において、予測エンジン１２０は、ラベル付きデータセット３０２の１つまたは複数の特徴に基づいて、（ベースの）ラベル付きデータセット３０２を再サンプリングすることによって、訓練／テスト・データセット３０４および製造データセット３０６を生成することができる。

一例において、訓練／テスト・データセット３０４および製造データセット３０６は、共変量シフトを導入するためのさまざまな特徴に基づいて、（ベースの）ラベル付きデータセット３０２を再サンプリングすることによって生成可能である。この例では、訓練／テスト・データセット３０４および製造データセット３０６の分布を再サンプリングするために用いられる（ベースの）ラベル付きデータセット３０２の特定の特徴は、（例えば、特徴重要性（feature importance）に基づいて）予測エンジン１２０によって動的に選択可能である。他の例では、訓練／テスト・データセット３０４および製造データセット３０６は、従来の確率シフトを導入するための実際の階級ラベルに基づいて、（ベースの）ラベル付きデータセット３０２を再サンプリングすることによって生成可能である。

図３に示すように、特徴が「特徴Ａ」（例えば「イヌ」）（または「特徴Ｂ」が例えば「ネコ」）と仮定すると、「特徴Ａ」（または「特徴Ｂ」）の比率は、訓練／テスト・データセット３０４－１から３０４－６および製造データセット３０６－１から３０６－６の各々において、（例えば、ラベル付きデータセット３０２における特徴を再サンプリングすることによって）変化しうる。ここで、例えば、訓練／テスト・データセット３０４－１は、「特徴Ａ」の１００％（または「特徴Ｂ」の０％）の統計的分布を含み、対応する製造データセット３０６－１は、「特徴Ａ」の０％（または「特徴Ｂ」の１００％）の統計的分布を含む。同様に、対向端では、訓練／テスト・データセット３０４－６は、「特徴Ａ」の０％（または「特徴Ｂ」の１００％）の統計的分布を含み、対応する製造データセット３０６－６は、「特徴Ａ」の１００％（または「特徴Ｂ」の０％）の統計的分布を含む。

図２Ｂに戻って参照すると、いくつかの実施形態では、（例えば、訓練段階２１４の間）メタ・メタ・モデル２０６を訓練することは、入力データセットについてのメタデータ（例えば、訓練／テスト・データセット３０４、製造データセット３０６などを含むことができるオフラインのモデル／データセット１３８）または入力データセットの他の分布特徴空間特性あるいはその両方に基づいて、１つまたは複数の特徴を生成することを含んでもよい。一実施形態において、１つまたは複数の特徴は、ベース・モデル１３２および（訓練および製造データセットを含む）オフラインのモデル／データセット１３８に基づくことができる。例えば、予測エンジン１２０は、テスト・データセットおよび製造データセットにおけるさまざまな分布を計算してもよく、さまざまな分布の間の距離を比較して、メタ・メタ・モデル２０６を訓練するのに用いられる１つまたは複数の特徴を作成してもよい。

図４に示すように、例えば、第１の分布（ヒストグラム４０２）は、テスト・データセット（例えば、テスト・データセット３０４）に基づいて計算可能であり、第２の分布（ヒストグラム４０４）は、製造データセット（例えば、製造データセット３０６）に基づいて計算可能である。分布の間の距離４０６（またはさらに一般的にいえば、相違）が計算され、特徴（特徴値とも呼ばれる）４０８として用いることができる。このようにメタ・メタ・モデル２０６を訓練するために特徴４０８を生成することは、メタ・モデル２０２からの平均出力が安定しているシナリオでは、著しく雑音が多い（例えば、閾値を上回る）性能予測を説明しうるが、サンプル式の不確定性がバッチ式のエラー・バーのためにあまりに大きいなどのシナリオでは、変化は高い（例えば、閾値を上回る）。

一実施形態において、一例の特徴４０８は、ベース・モデル１３２からの最高信頼スコアに基づいてもよい。例えば、ベース・モデル１３２を用いて、テスト・データセットおよび製造データセットにおけるサンプルをスコア付けすることができる。ベース・モデル１３２が（例えば、階級Ａと階級Ｂとの間の）物体分類のために用いられると仮定すると、ベース・モデル１３２を用いた出力予測スコアは、テスト・データセットにおける各サンプル（またはデータ点）および製造データセットにおける各サンプル（またはデータ点）のために取得可能である。一例として、テスト・データセットにおける第１のサンプルのために、ベース・モデル１３２は、９５％の階級Ａを出力してもよく、製造データセットにおける第１のサンプルのために、ベース・モデル１３２は９０％の階級Ａを出力してもよい。

テスト・データセットおよび製造データセットの各々におけるすべてのサンプルがスコア付けされた後、テスト・データセットおよび製造データセットの両方におけるスコア付けされたサンプルのサブセットは、ヒストグラムを作るために用いることができる。例えば、テスト・データセットにおけるスコア付けされたサンプルからの最高の信頼スコア（例えば、一定の閾値範囲の間、例えば、９０－９５％、９５－９８％、９８－１００％の間など）の（第１の）ヒストグラムを生成することができる。同様に、製造データセットのスコア付けされたサンプルからの最高の信頼スコア（例えば、一定の閾値範囲の間）の（第２の）ヒストグラムを生成することができる。次に、２つのヒストグラムは、ダイバージェンス機能（ｄｉｖｅｒｇｅｎｃｅｆｕｎｃｔｉｏｎ）（例えば、類似性測定基準、相違測定基準）と比較可能である。一実施形態において、２つのヒストグラムの間の距離４０６（例えば、へリンガー距離）は、計算可能であり、（例えば、［０、１］における）距離４０６の値は、メタ・メタ・モデル２０６のための特徴４０８として用いることができる。

一実施形態において、一例の特徴４０８は、シャドウ・モデルの最高信頼スコアに基づくことができる。ベース・モデルの最高信頼スコアと比較して、本実施形態において、他の（プロキシ）モデルは、ベース・モデル１３２を訓練するのに用いられる同一の訓練データセット（例えば、訓練データセット１３６）において訓練される。次に、テスト・データセットおよび製造データセットからの最高信頼スコアは、（例えば、ベース・モデル１３２と対照的に）プロキシ・モデルを用いて計算される。ヒストグラムは、最高信頼スコアに基づいて生成可能であり、ヒストグラムの間の距離は、メタ・メタ・モデル２０６のための特徴４０８として用いることができる。

一実施形態において、一例の特徴４０８は、階級度数距離に基づくことができる。本実施形態において、例えば、ベース・モデル１３２によって各階級であると予測されるテスト・データセットおよび製造データセットにおけるサンプルのパーセンテージのヒストグラムを作成することができる。ヒストグラムの間の距離４０６（例えば、へリンガー距離）は、計算可能であり、距離値は、メタ・メタ・モデル２０６のための特徴４０８として用いることができる。

一実施形態において、一例の特徴４０８は、最高特徴距離に基づくことができる。本実施形態において、例えば、シャドウ・ランダム・フォレスト・モデルは、訓練可能であり、（例えば、所定の条件を満たす）最高の特徴重要性を有するデータ特徴を識別するために用いることができる。一旦識別されると、テスト・データセットおよび製造データセットのヒストグラムは、この次元に投影可能である（例えば、圧縮された１次元の特徴空間）。ヒストグラムの間の距離４０６（例えば、へリンガー距離）は、計算可能であり、距離値は、メタ・メタ・モデル２０６のための特徴４０８として用いることができる。

一実施形態において、一例の特徴４０８は、メタ・モデル予測（例えば、性能予測２０４）に基づくことができる。本実施形態において、メタ・モデル２０２により予測されるようにテスト・データセットと製造データセットとの間のベース・モデルの精度の変化は、メタ・メタ・モデル２０６のための特徴４０８として用いることができる。一実施形態において、一例の特徴４０８は、（第１のデータセットの）第１の統計的分布と（第２のデータセットの）第２の統計的分布との間の統計的仮説検定に基づくことができる。

上記の特徴が、本願明細書において記載されている機能に整合する、その他の特徴または入力データセットのメタ・データに基づく特徴の任意の組み合わせを用いることができるメタ・メタ・モデル２０６を訓練するのに用いることができる特徴の単なる参考例として提供されることに留意されたい。いくつかの実施形態において、例えば、複数のメタ・メタ・モデルは、異なる特徴に基づいて生成／訓練可能である。これらの実施形態では、実行段階２１６の間用いられる特定のメタ・メタ・モデルは、データの特性（例えば、データセットについてのメタデータ、特徴の数、分布特徴空間特性など）に基づいて、実行時に動的に選択可能である。

一旦メタ・メタ・モデル２０６が訓練されると、ベース・モデル１３２、テスト・データセット１３４、訓練データセット１３６、メタ・モデル２０２、製造データセット１３０および性能予測２０４の１つまたは複数は、入力としてメタ・メタ・モデル２０６に供給可能であり、メタ・メタ・モデル２０６は、（例えば、使用（展開）段階２１６の間）不確定性予測２０８を出力することができる。不確定性予測２０８は、メタ・モデル２０２から出力される性能予測２０４の不確定性の予測された量である。例えば、ベース・モデル１３２が物体分類のためのモデルであると仮定すると、不確定性予測２０８は、性能予測２０４の不確定性の量を表現する区間（または許容度）（例えば、±４、±７、＋２）を示すことができる。いくつかの実施形態において、不確定性予測２０８は、ベース・モデル１３２の追加の事前展開品質検査のためにまたは実行時またはベース・モデル１３２の展開の間の品質管理／検査のためにあるいはその両方のために用いることができる。

図５は、一実施形態に従って、タスクにおけるモデルの性能およびタスクにおけるモデルの性能のための不確定性を予測するための方法５００のフローチャートである。方法５００は、コンピューティング・システムの予測エンジン（例えば、コンピューティング・システム１０２の予測エンジン１２０）によって実行されてもよい。

方法５００は、予測エンジンがベース・モデル（例えば、ベース・モデル１３２）および製造データのセット（例えば、製造データセット１３０）を取得するブロック５０２において開始してもよい。ブロック５０４において、予測エンジンは、メタ・モデル（例えば、メタ・モデル２０２）を用いて、製造データのセットにおいてベース・モデルの性能（例えば、性能予測２０４）を予測する。例えば、予測エンジンは、製造データのセットにおいてベース・モデルの１つまたは複数の精度関連の測定基準を生成してもよい。１つの特定の例において、精度関連の測定基準は、製造データのセットを用いて、そのタスクでのベース・モデルの成功／失敗確率（例えば、Ｘ％成功）を示してもよい。

ブロック５０６において、予測エンジンは、メタ・メタ・モデル（例えば、メタ・メタ・モデル２０６）を用いて、製造データのセットのためのメタ・モデルの性能の１つまたは複数の不確定区間（例えば、不確定性予測２０８）を予測する。例えば、予測エンジンは、製造データのセットを用いて、そのタスクでのベース・モデルの予測された性能の不確定性の量を示す許容度（またはエラー・バンド）（例えば、±Ｙ）を生成することができる。

一実施形態において、（ブロック５０６において予測される）不確定区間は非対称でもよい。例えば、予測エンジンは、予測された性能の不確定性を表現するエラーの符号付きの値（例えば、＋または－）を予測することができる。他の例では、第１の不確定区間は、予測された性能の周りの上側のバンド／範囲のために生成可能であり、第２の不確定区間は、予測された性能の周りの下側のバンド／範囲のために生成可能である。

いくつかの実施形態において、複数のメタ・メタ・モデルを用いて、複数の不確定区間（例えば、第１の（上側の）不確定区間のための第１のメタ・メタ・モデルおよび第２の（下側の）不確定区間のための第２のメタ・メタ・モデル）を生成することができる。いくつかの実施形態において、複数の不確定区間は、単一のメタ・メタ・モデルにより生成可能である。例えば、単一のメタ・メタ・モデルは、上側および下側の不確定区間を予測するための２つのサブモジュール（または構成要素）を含むことができる。

ブロック５０８において、予測エンジンは、ベース・モデルの性能および１つまたは複数の不確定区間の表示を提供する。一実施形態において、予測エンジンは、コンピューティング・デバイス（例えば、コンピューティング・システム１０２）のディスプレイのユーザ・インタフェース上の表示を提供することができる。一実施形態において、予測エンジンは、製造データのセットのためのベース・モデルの性能予測および不確定性予測の要求に応答して、表示を提供することができる。例えば、ユーザは、予測エンジンを用いて、（複数のベース・モデルのうち）どのベース・モデルを製造データのセットにおいて用いるべきか決定してもよい。他の例では、予測エンジンは、ベース・モデルの展開／実行時をモニタし、（例えば、１つまたは複数の所定の時間間隔で）表示をコンピューティング・デバイスに絶えず提供してもよい。次に、この表示を用いて、ベース・モデルがいつ改良されるべきかまたは置換されるべきかあるいはその両方がされるべきかを決定することができる。いくつかの場合には、予測エンジンは、メタ・モデルと同じ頻度で、メタ・メタ・モデルを実行してもよい。

図６は、一実施形態に従って、モデルの性能予測およびモデルの性能予測のための不確定区間を生成するための、スタックされたメタ・モデル・ワークフローのメタ・モデルおよびメタ・メタ・モデルを訓練するための方法６００のフローチャートである。方法６００は、コンピューティング・システムの予測エンジン（例えば、コンピューティング・システム１０２の予測エンジン１２０）によって実行されてもよい。

方法６００は、予測エンジンがベース・モデル（例えば、ベース・モデル１３２）、テスト・データセット（例えば、テスト・データセット１３４）および１つまたは複数の追加のデータセット（例えば、オフラインのモデル／データセット１３８）を検索するブロック６０２において開始してもよい。ブロック６０４において、予測エンジンは、ベース・モデルおよびテスト・データセットに基づいて、タスクにおけるベース・モデルの性能を予測するためにメタ・モデル（例えば、メタ・モデル２０２）を訓練する。ブロック６０６において、予測エンジンは、メタ・モデルおよび１つまたは複数の追加のデータセットに基づいて、そのタスクでのベース・モデルの性能の不確定性を予測するためにメタ・メタ・モデルを訓練する。

図７は、一実施形態に従って、メタ・メタ・モデルを訓練するための方法７００のフローチャートである。方法７００は、コンピューティング・システムの予測エンジン（例えば、コンピューティング・システム１０２の予測エンジン１２０）によって実行されてもよい。

方法７００は、予測エンジンがラベル付きデータセット（例えば、ラベル付きデータセット３０２）を取得するブロック７０２において開始してもよい。ブロック７０４において、予測エンジンは、ラベル付きデータセットに基づいて、１つまたは複数の追加のデータセット（例えば、訓練／テスト・データセット３０４、製造データセット３０６）を生成する。ブロック７０６において、予測エンジンは、１つまたは複数の追加のデータセットの評価に基づいて、１つまたは複数の特徴（例えば、特徴４０８）を決定（または計算）する。ブロック７０８において、予測エンジンは、１つまたは複数のメタ・メタ・モデル（例えば、メタ・メタ・モデル２０６）を訓練し、各々は、１つまたは複数の特徴に少なくとも部分的に基づいて、メタ・モデル（例えば、メタ・モデル２０２）の不確定区間を予測するように構成される。

図８は、一実施形態に従って、ベース・モデルの性能予測および性能予測のための不確定区間の例のシミュレーション８０２および８０４を示す。

より詳しくは、シミュレーション８０２は、異なるテスト／製造データセット１－Ｋにわたるベース・モデルの性能予測を描写する。示すように、ベース・モデル精度（例えば、ベース・モデルの実際の精度）は線８０８で表現され、ベース・モデルの予測された精度は線８１０で表現され、予測された精度のためのエラー・バーは８０６により表現される。各テスト／製造データセット１－Ｋは、特徴／ラベルの異なる統計的分布を有してもよい。例えば、テスト／製造データセット１は、テスト・データセットにおいて１００％の「特徴Ａ」および製造データセットにおいて０％の「特徴Ａ」の統計的分布を含んでもよい。同様に、対向端では、テスト／製造データセットＫは、テスト・データセットにおける０％の「特徴Ａ」および製造データセットにおける１００％の「特徴Ａ」の統計的分布を含んでもよい。

シミュレーション８０２に対応するシミュレーション８０４は、（８４０により表現される）メタ・モデル・エラー、固定のエラー・バー（または不確定性値）８２０およびメタ・モデル・エラーと実際のベース・モデル出力との間のデルタ８３０を示す。示すように、モデルの性能予測のための不確定区間を生成するためにスタックされたメタ・モデル・ワークフローを用いて、実施形態は、固定の不確定性値８２０を用いることと比較して、より正確な不確定区間を生成することができる。

上記では、この開示において示される実施形態を参照する。しかしながら、本開示の範囲は、特定の記載されている実施形態に限定されるものではない。その代わりに、特徴および要素の任意の組み合わせは、異なる実施形態に関するか否かにかかわらず、考察された実施形態を実施および実践するために考察される。さらに、本願明細書において開示される実施形態が他の可能な解決法または従来技術に勝る利点を達成することができるが、特定の利点が所定の実施形態によって達成されるか否かは、本開示の範囲の制限ではない。したがって、本願明細書において述べられる態様、特徴、実施形態および利点は、請求項において明確に詳述される場合を除き、単に説明するのみであり、添付の請求の範囲の要素または制限とみなされない。同様に、「本発明」の参照は、請求項において明確に詳述される場合を除き、本願明細書において開示される任意の発明の主題の一般化として解釈されるべきではなく、添付の請求の範囲の要素または制限とみなされるべきではない。

本発明の態様は、完全にハードウェアの実施形態、（ファームウェア、常駐ソフトウェア、マイクロ・コードなどを含む）完全にソフトウェアの実施形態または本願明細書において、「回路」、「モジュール」または「システム」と概して呼ばれてもよいソフトウェアおよびハードウェア態様を結合する実施形態の形をとってもよい。

本発明は、システム、方法またはコンピュータ・プログラム製品あるいはその組み合わせでもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含んでもよい。

コンピュータ可読記憶媒体は、命令実行装置が使用するための命令を保持し、記憶することができる有形の装置とすることができる。コンピュータ可読記憶媒体は、例えば、限定されることなく、電子記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または前述の任意の適切な組み合わせでもよい。コンピュータ可読記憶媒体のより具体的な例の包括的ではないリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、パンチ・カードまたは命令が記録された溝内の隆起構造などの機械的に符号化された装置および前述の任意の適切な組み合わせを含む。本願明細書で使用されるようなコンピュータ可読記憶媒体は、電波または他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通って伝播する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）またはワイヤを通して送信される電気信号などの、それ自体一過性の信号であると解釈されるべきではない。

本願明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理装置にあるいはネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークまたは無線ネットワークあるいはその組み合わせを介して外部コンピュータもしくは外部記憶装置にダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組み合わせを含んでもよい。各コンピューティング／処理装置のネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令をそれぞれのコンピューティング／処理装置内のコンピュータ可読記憶媒体に記憶するために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データまたはＳｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語および「Ｃ」プログラミング言語もしくは同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで記述されたソース・コードまたはオブジェクト・コードのいずれかでもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンド・アローンのソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でおよび部分的に遠隔コンピュータ上であるいは完全に遠隔コンピュータまたはサーバ上で実行されてもよい。後者のシナリオでは、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよくあるいは（例えばインターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに接続されてもよい。いくつかの実施形態では、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個人専用にすることによって、コンピュータ可読プログラム命令を実行することができる。

本発明の態様は、本発明の実施形態による方法、装置（システム）およびコンピュータ・プログラム製品のフローチャートまたはブロック図あるいはその両方を参照して本願明細書に記載されている。フローチャートまたはブロック図あるいはその両方の各ブロックならびにフローチャートまたはブロック図あるいはその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実施可能であることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方のブロックにおいて指定された機能／行為を実施するための手段を作成するように、汎用コンピュータ、専用コンピュータまたは他のプログラマブル・データ処理装置のプロセッサに提供され、機械を生成することができる。これらのコンピュータ可読プログラム命令は、内部に命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方のブロックで指定された機能／行為の態様を実施する命令を含む製品を含むように、コンピュータ、プログラマブル・データ処理装置または他の装置あるいはその組み合わせを特定のやり方で機能させるように指示することができるコンピュータ可読記憶媒体にも記憶することができる。

また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置または他の装置上で実行される命令が、フローチャートまたはブロック図あるいはその両方のブロックで指定された機能／行為を実施するように、コンピュータ、他のプログラマブル・データ処理装置または他の装置にロードされ、一連の動作ステップをコンピュータ、他のプログラマブル装置または他の装置上で実行させてコンピュータ実施プロセスを生成することができる。

図のフローチャートおよびブロック図は、本発明のさまざまな実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能命令を含む、モジュール、セグメントまたは命令の一部を表すことができる。いくつかの代替実施態様では、ブロックに記載された機能は、図に記載された順序とは異なって行われてもよい。例えば、連続して示されている２つのブロックは、実際には、実質的に同時に実行されてもよいし、または、ブロックは、関与する機能に応じて、時には逆の順序で実行されてもよい。ブロック図またはフローチャートあるいはその両方の各ブロックおよびブロック図またはフローチャートあるいはその両方のブロックの組み合わせは、指定された機能または行為を実行するあるいは専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用のハードウェア・ベースのシステムによって実施可能であることにも留意されよう。

本発明の実施形態は、クラウド・コンピューティング・インフラストラクチャを通してエンド・ユーザに提供されてもよい。クラウド・コンピューティングは、概して、ネットワーク上のサービスとして、拡張可能な計算資源の提供を意味する。より正式には、クラウド・コンピューティングは、計算資源とその基礎となる技術アーキテクチャ（例えば、サーバ、ストレージ、ネットワーク）との間の抽象概念を提供する計算能力として定義されてもよく、最小の管理作業またはサービス・プロバイダ相互作用によって高速に提供および解放することができる構成可能な計算資源の共有プールに対する便利なオンデマンドのネットワーク・アクセスを可能にする。したがって、計算資源を提供するのに用いられる基礎となる物理システム（またはそれらのシステムの位置）に関係なく、クラウド・コンピューティングによって、ユーザは、「クラウド」内の仮想計算資源（例えば、ストレージ、データ、アプリケーションおよび完全に仮想化されたコンピューティング・システムさえ）にアクセスすることができる。

典型的には、クラウド・コンピューティングの資源は、利用回数料金制でユーザに提供され、ユーザは、実際に用いられる計算資源（例えば、ユーザによって消費されるストレージ空間の量またはユーザによってインスタンス生成される仮想化システムの数）に対してのみ課金される。ユーザは、いつでも、そして、インターネット全体のどこからでもクラウド内の資源のいずれかにアクセスすることができる。本発明の文脈において、ユーザは、クラウド内の利用可能なアプリケーション（例えば、予測エンジン１２０）または関連データ（例えば、ベース・モデル１３２、テスト・データセット１３４、訓練データセット１３６、オフラインのモデル／データセット１３８、製造データセット１３０など）にアクセスすることができる。例えば、予測エンジン１２０は、クラウド内のコンピューティング・システム上で実行することができ、ベース・モデルの予測された性能のための不確定区間とともに、ベース・モデルの性能を予測することができる。この種の場合には、アプリケーションは、クラウド内のストレージ位置から性能予測または不確定性予測あるいはその両方を生成するのに用いられる入力情報の１つまたは複数を取り出し、クラウド内のストレージ位置に性能予測または不確定性予測あるいはその両方を格納することができる。

上記は、本発明の実施形態に向けられるが、その他および本発明のさらなる実施形態は、その基本的な範囲を逸脱しない範囲で考案されてもよく、その範囲は以下の請求項により決定される。

Claims

機械学習（ＭＬ）モデルの性能予測を生成するためのコンピュータ実施方法であって、
タスクを実行するように構成される第１のモデルおよびラベルなしのデータを含む製造データセットを取得することと、
第２のモデルを用いて、前記製造データセット上で前記タスクを実行するとき、前記第１のモデルの性能を予測する少なくとも１つの測定基準を生成することであって、前記第２のモデルは、前記第１のモデルに関連付けられたメタ・モデルである、前記生成することと、
１つまたは複数の第３のモデルを用いて、前記製造データセット上で前記タスクを実行するとき、前記第１のモデルの前記性能を予測する前記少なくとも１つの測定基準の不確定性を予測する少なくとも１つの値を生成することであって、前記１つまたは複数の第３のモデルの各々は、前記第２のモデルに関連付けられたメタ・メタ・モデルである、前記生成することと、
前記第１のモデルの前記性能を予測する前記少なくとも１つの測定基準および前記少なくとも１つの測定基準の前記不確定性を予測する前記少なくとも１つの値の表示を提供することと、
を含むコンピュータ実施方法。
前記第１のモデルは、ブラック・ボックス・モデルである、
請求項１に記載のコンピュータ実施方法。
前記第１のモデルは、ホワイト・ボックス・モデルである、
請求項１に記載のコンピュータ実施方法。
前記１つまたは複数の第３のモデルの少なくとも１つは、（ｉ）前記第１のモデルのための訓練データセットおよび（ｉｉ）前記第２のモデルにおいて訓練される、
請求項１に記載のコンピュータ実施方法。
前記１つまたは複数の第３のモデルの少なくとも１つは、（ｉ）前記第１のモデルのための訓練データセット、（ｉｉ）１つまたは複数の追加のデータセットおよび（ｉｉｉ）前記第２のモデルにおいて訓練される、
請求項１に記載のコンピュータ実施方法。
前記１つまたは複数の第３のモデルの少なくとも１つは、（ｉ）１つまたは複数の追加のデータセットおよび（ｉｉ）前記第２のモデルにおいて訓練される、
請求項１に記載のコンピュータ実施方法。
前記１つまたは複数の第３のモデルの前記少なくとも１つは、前記１つまたは複数の追加のデータセットおよび前記第２のモデルにおいてオフラインで訓練される、
請求項６に記載のコンピュータ実施方法。
前記１つまたは複数の追加のデータセットは、前記少なくとも１つのデータセットにおけるデータを分類するための第１のセットのラベルを含む少なくとも１つのデータセットを備え、
前記第１のセットのラベルは、前記第２のモデルを訓練するのに用いられるデータセットにおけるデータを分類するための第２のセットのラベルと異なる、
請求項６に記載のコンピュータ実施方法。
前記１つまたは複数の追加のデータセットは、少なくとも１つのラベル付きデータセットを備え、前記コンピュータ実施方法は、
前記ラベル付きデータセットに基づいて、複数のテスト・データセットおよび複数の製造データセットを生成することと、
前記複数のテスト・データセットおよび前記複数の製造データセットを前記１つまたは複数の追加のデータセットに含むことと、をさらに含む、
請求項６に記載のコンピュータ実施方法。
前記複数のテスト・データセットおよび前記複数の製造データセットを生成することは、各テスト・データセットおよび対応する製造データセットが前記ラベル付きデータセットに対して前記１つまたは複数の特徴の異なる比率を含むように、前記ラベル付きデータセットの１つまたは複数の特徴を再サンプリングすることを含む、
請求項９に記載のコンピュータ実施方法。
前記コンピュータ実施方法は、前記１つまたは複数の追加のデータセットにおける第１のデータセットの第１の統計的分布および前記１つまたは複数の追加のデータセットにおける第２のデータセットの第２の統計的分布に少なくとも部分的に基づいて、前記１つまたは複数の第３のモデルを訓練するための少なくとも１つの特徴値を生成することをさらに含み、前記１つまたは複数の第３のモデルの前記少なくとも１つは、前記１つまたは複数の特徴値によってさらに訓練される、
請求項６に記載のコンピュータ実施方法。
前記少なくとも１つの特徴値は、前記第１の統計的分布と前記第２の統計的分布との間のダイバージェンス機能に基づいてさらに生成される、
請求項１１に記載のコンピュータ実施方法。
前記少なくとも１つの特徴値は、前記第１の統計的分布と前記第２の統計的分布との間の統計的仮説検定に基づいてさらに生成される、
請求項１１に記載のコンピュータ実施方法。
前記１つまたは複数の第３のモデルは、複数の第３のモデルのサブセットであり、前記コンピュータ実施方法は、前記１つまたは複数の追加のデータセットの１つまたは複数の特徴に少なくとも部分的に基づいて、前記１つまたは複数の第３のモデルを前記複数の第３のモデルから選択することをさらに含む、
請求項１に記載のコンピュータ実施方法。
前記少なくとも１つの測定基準の前記不確定性を予測する前記少なくとも１つの値は、区間範囲を備える、
請求項１に記載のコンピュータ実施方法。
前記区間範囲は、第１の上側の範囲および第２の下側の範囲を備える非対称の区間範囲である、
請求項１５に記載のコンピュータ実施方法。
前記第１の上側の範囲および前記第２の下側の範囲は、前記１つまたは複数の第３のモデルの１つを介して生成される、
請求項１６に記載のコンピュータ実施方法。
前記１つまたは複数の第３のモデルは、複数の第３のモデルを備え、
前記第１の上側の範囲は、前記複数の第３のモデルの第１を介して生成され、
前記第２の下側の範囲は、前記複数の第３のモデルの第２を介して生成される、
請求項１６に記載のコンピュータ実施方法。
前記第１の上側の範囲は、前記１つまたは複数の第３のモデルの１つの第１の構成要素を介して生成され、
前記第２の下側の範囲は、前記１つまたは複数の第３のモデルの前記１つの第２の構成要素を介して生成される、
請求項１６に記載のコンピュータ実施方法。
システムであって、
１つまたは複数のコンピュータ・プロセッサと、
プログラムを含むメモリと、を備え、
前記プログラムは、前記１つまたは複数のコンピュータ・プロセッサによって実行されるとき、機械学習（ＭＬ）モデルの性能予測を生成するための動作を実行し、前記動作は、
タスクを実行するように構成される第１のモデルおよびラベルなしのデータを含む製造データセットを取得することと、
第２のモデルを用いて、前記製造データセット上で前記タスクを実行するとき、前記第１のモデルの性能を予測する少なくとも１つの測定基準を生成することであって、前記第２のモデルは、前記第１のモデルに関連付けられたメタ・モデルである、前記生成することと、
第３のモデルを用いて、前記製造データセット上で前記タスクを実行するとき、前記第１のモデルの前記性能を予測する前記少なくとも１つの測定基準の不確定性を予測する少なくとも１つの値を生成することであって、前記第３のモデルは、前記第２のモデルに関連付けられたメタ・メタ・モデルである、前記生成することと、
前記第１のモデルの前記性能を予測する前記少なくとも１つの測定基準および前記少なくとも１つの測定基準の前記不確定性を予測する前記少なくとも１つの値の表示を提供することと、
を含むシステム。
コンピュータ可読プログラム・コードが埋め込まれたコンピュータ可読記憶媒体であって、１つまたは複数のコンピュータ・プロセッサによって実行可能な前記コンピュータ可読プログラム・コードは、機械学習（ＭＬ）モデルの性能予測を生成するための動作を実行し、
タスクを実行するように構成される第１のモデルおよびラベルなしのデータを含む製造データセットを取得することと、
第２のモデルを用いて、前記製造データセット上で前記タスクを実行するとき、前記第１のモデルの性能を予測する少なくとも１つの測定基準を生成することであって、前記第２のモデルは、前記第１のモデルに関連付けられたメタ・モデルである、前記生成することと、
第３のモデルを用いて、前記製造データセット上で前記タスクを実行するとき、前記第１のモデルの前記性能を予測する前記少なくとも１つの測定基準の不確定性を予測する少なくとも１つの値を生成することであって、前記第３のモデルは、前記第２のモデルに関連付けられたメタ・メタ・モデルである、前記生成することと、
前記第１のモデルの前記性能を予測する前記少なくとも１つの測定基準および前記少なくとも１つの測定基準の前記不確定性を予測する前記少なくとも１つの値の表示を提供することと、
を含むコンピュータ可読記憶媒体。