JP7468675B2

JP7468675B2 - 機械学習モデル

Info

Publication number: JP7468675B2
Application number: JP2022549165A
Authority: JP
Inventors: 竜米谷
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2020-02-27
Filing date: 2021-02-12
Publication date: 2024-04-16
Anticipated expiration: 2041-02-12
Also published as: EP4111386A4; US20210272011A1; EP4111386A1; US11580453B2; CN115053238A; JP2023513613A; WO2021172058A1

Description

本発明は、適応共蒸留モデル（ａｄａｐｔｉｖｅｃｏ－ｄｉｓｔｉｌｌａｔｉｏｎｍｏｄｅｌ）に関する。

コンピュータモデルは、コンピュータシステムが特定の状況についてデータを分析し、そのデータに基づいて決定を下せるようにするために、さまざまな分野で使用されている。そのようなモデルは多種多様に開発されてきた。たとえば、エキスパートシステムやデシジョンツリーなどのシンボリックモデル、およびニューラルネットワークやサポートベクターマシンなどの非シンボリックモデルはよく知られている。機械学習では、モデルはデータセットで訓練されるが、シンボリックシステムでは、モデルは通常、ヒューリスティックに、つまり人の決定を使用して設計される。さまざまなエンティティでこのように多種多様なモデルが使用されているため、コラボレーションの機会が存在する。

分散型機械学習では、機械学習アルゴリズムは、複数のコンピューティングデバイス間で分散されたデータを使用して訓練される。これらのコンピューティングデバイスのそれぞれは、機械学習モデルをローカルで訓練するために使用される独自の訓練データのセットを格納し得る。これらの機械学習モデルは、集中型モデル（ｃｅｎｔｒａｌｉｚｅｄｍｏｄｅｌ）に組み合わせることができる。分散型機械学習は、たとえば、コンピューティングデバイスのユーザが中央サーバに送信したくないプライベートデータを使用して機械学習モデルを訓練する場合に使用できる。

しかしながら、本発明者らは、分散型機械学習の上記の方法の以下の技術的欠点を特定した。上記の分散型機械学習の方法では、すべてのクライアントの機械学習モデルが同じモデルアーキテクチャを持つ。したがって、アーキテクチャが異なる複数のクライアント機械学習モデルを組み合わせて中央の機械学習モデルにすることはできない。さらに、分散型クライアントコンピューティングデバイスのユーザは、プライバシー上の理由、競争上の優位性、ライセンス、またはその他の法的制約などのために、クライアントの機械学習モデルに使用する特定の機械学習モデルアーキテクチャをプライベートにすることを希望する場合がある。ただし、上記の分散型機械学習の方法は、分散型ユーザ間で同じモデルアーキテクチャを共有するため、クライアントモデルアーキテクチャをプライベートにすることはできない。したがって、独立した当事者によって開発された異なる人工知能モデルの学習の技術的統合を促進すると同時に、それらの異なる人工知能モデルのそれぞれが存在するデータのデータプライバシを維持する訓練された人工知能システムを提供するという技術的課題が存在する。

産業自動化の分野は、これらの欠点が特定の課題を提示する技術分野の一例である。さまざまなメーカが、ロボットアーム、コンベアなどの製造装置に、製造プロセス中に製造装置からパフォーマンスデータを収集するモーションセンサやカメラなどを装備している。このパフォーマンスデータは、将来の製造プロセス中に製造装置を操作するために使用される人工知能モデルを訓練するために、各メーカによって使用される。異なるアーキテクチャの人工知能モデルと、これらの異なる訓練されたモデルのデータセットのデータプライバシとの相互運用性の欠如に関する上述の課題は、そのような産業オートメーションシステムで使用される人工知能モデルの急速な成長と開発に対する潜在的な障壁を提示する。

本開示の一態様によれば、コンピューティングデバイスと共に使用する方法が提供される。方法は、第１のプライベートデータセットを用いて生成された第1のプライベート人工知能モデルと、第２のプライベートデータセットを用いて生成された第２のプライベート人工知能モデルとに入力データセットを入力することを含み得る。方法は、さらに、第１のプライベート人工知能モデルに入力データセットを適用させた結果として、第1のプライベート人工知能モデルか、ら第1の結果データセットを受信することを含み得る。方法は、さらに、第２のプライベート人工知能モデルに入力データセットを適用させた結果として、第２のプライベート人工知能モデルから、第２の結果データセットを受信することを含み得る。第1の訓練フェーズにおいて、方法は、さらに、入力データセットを入力とし、第１の結果データセットを第1の目標出力として、適応共蒸留モデルを訓練することを含み得る。第２の訓練フェーズにおいて、方法は、さらに、入力データセットを入力として、第２の結果データセットを第２の目標出力として、適応共蒸留モデルを訓練することを含み得る。適応共蒸留モデルは、第１のプライベートデータセットまたは第２のプライベートデータセットで訓練されない場合がある。

この要約は、詳細な説明でさらに後述される簡略化された形式で概念の選択を紹介するために提供される。この要約は、主張された主題の主要な特徴または本質的な特徴を特定することを意図しておらず、主張された主題の範囲を制限するために使用されることも意図されていない。さらに、請求された主題は、本開示のいずれかの部分に記載された不利な点のいずれかまたはすべてを解決する実装に限定されない。

図１は、一実施形態に係る、適応共蒸留モデルを訓練し得るコンピューティングシステムの一例を概略的に示す。図２は、図１の実施形態に係る、適応共蒸留モデルが深層ニューラルネットワークである適応共蒸留モデルの訓練の一例を示す。図３は、図１の実施形態に係る、組み合わせられた分類ラベルセットから分類ラベルを選択する適応共蒸留モデルを示す。図４は、図１の実施形態に係る、複数の一連の順序付けられた入力値を使用する適応共蒸留モデルの訓練を示す。図５は、図１の適応共蒸留モデルの訓練における重み付き損失関数の使用を示す概略図である。図６は、図５の重み付き損失関数で使用される重み係数の計算を示す概略図である。図７は、プライベートデータセットとパブリックデータセット内の2つのサンプル画像のそれぞれとの間の訓練データ距離の計算を示す。図８は、図１の実施形態のグラフィカルユーザインタフェースの適応共蒸留モデル生成インタフェースの一例を示す。図９は、図１の実施形態に係る、分類信頼値を編集するインタフェースの一例を示す。図１０は、図１の実施形態に係る、訓練データ距離を編集するインタフェースの一例を示す。図１１Ａは、図1の実施形態に係る、一連の所与のモデル入力についてのパブリックモデル出力とプライベートモデル出力との間の誤差、重み付けされていない損失、および重み付き損失を示すグラフの一例である。図１１Ｂは、図1の実施形態に係る、一連の所与のモデル入力について、パブリックモデル出力とプライベートモデル出力との間の誤差、およびパブリックモデル出力と重み付きプライベートモデル出力との間の損失を示すグラフの他の一例である。図１２は、図1の実施形態に係る、重み付きおよび重み付けされていない損失面を一次元で示すグラフである。図１３は、テンプレート機械学習モデルがサーバコンピューティングデバイスで訓練された場合の図1のコンピューティングシステムの一例を示す。図１４は、図１の実施形態に係る、テンプレート機械学習モデルが深層ニューラルネットワークであるテンプレート機械学習モデルの一例の訓練を示す。図１５Ａは、図１の実施形態に係る、適応共蒸留モデルを訓練する方法の一例のフローチャートを示す。図１５Ｂは、図１５Ａの方法を実行する場合にいくつかの実施形態において実行され得る追加のステップを示す。図１６は、図１のコンピューティングシステムが規定され得るコンピューティング環境の一例の概略図を示す。

上記の問題に対処するために、図1に示される一実施形態に係る、コンピューティングシステム1が提供される。概要として、コンピューティングシステム1は、プライベートデータセットを使用して生成された1つ以上のプライベート人工知能モデルの動作を模擬するように、パブリックまたは共有の人工知能モデルを訓練可能に構成される。これは、パブリックまたは共有データセットから各プライベート人工知能モデルにデータを入力し、プライベート人工知能モデルの出力を使用してパブリック人工知能モデルを訓練することによって達成される。以下で詳細に説明するように、重み付き損失関数を使用して、パブリックまたは共有データセット内の関連性の低いデータの訓練の効果を重視しないようにし得る。重み付き損失関数は、以下に説明するように、例えば、出力重み付き損失関数または入力重み付き損失関数であり得る。このようなシステムを使用することにより、各プライベートデータセット内のデータのプライバシーを維持しながら、各プライベート人工知能モデルの学習を共有できる。

図１の例では、コンピューティングシステム1は、サーバコンピューティングデバイス１０、第１のクライアントコンピューティングデバイス８０、および第２のクライアントコンピューティングデバイス９０を含む。サーバコンピューティングデバイス１０は、ネットワークを介して、第１のクライアントコンピューティングデバイス８０および第２のクライアントコンピューティングデバイス９０と通信するように構成され得る。図１の例では２つのクライアントコンピューティングデバイスのみが示されるが、いくつかの実施形態では、サーバコンピューティングデバイス１０は、２つ以上のクライアントコンピューティングデバイスと通信するように構成され得る。いくつかの実施形態では、サーバコンピューティングデバイス１０の機能は、通信可能に接続された複数の物理コンピューティングデバイスに分散され得る。

サーバコンピューティングデバイス１０は、プロセッサ１２を含み得る。さらに、サーバコンピューティングデバイス１０は、プロセッサ１２によって実行可能な命令を格納できるメモリ１４を含み得る。メモリ１４は、揮発性ストレージおよび／または不揮発性ストレージを含み得る。第1のクライアントコンピューティングデバイス８０および第２のクライアントコンピューティングデバイス９０は、また、それぞれのプロセッサ８２および９２ならびにメモリ８４および９４を含み得る。いくつかの実施形態では、サーバコンピューティングデバイス１０は、キーボード、マウス、タッチスクリーン、トラックパッド、マイク、光学センサー、加速度計、または他のタイプの入力デバイス１６などの1以上のそれぞれの入力デバイス１６を含み得る。サーバコンピューティングデバイス１０は、また、ディスプレイ、スピーカ、触覚フィードバックデバイス、または他のタイプの出力デバイス１８などの1以上のそれぞれの出力デバイス１８を含み得る。第１のクライアントコンピューティングデバイス８０および第２のクライアントコンピューティングデバイス９０は、また、1以上のそれぞれの入力デバイスおよび／または1以上のそれぞれの出力デバイスを含み得る。

サーバコンピューティングデバイス１０のプロセッサ１２は、入力データセット５０を第１のクライアントコンピューティングデバイス８０および第２のクライアントコンピューティングデバイス９０に送信するように構成され得る。入力データセット５０はサーバコンピューティングデバイス間で共有されるため、第1のコンピューティングデバイスおよび第１のコンピューティングデバイスのそれぞれが異なるエンティティに配置され得、入力データセット５０は、共有データセットと呼ばれることもあり、場合によっては、パブリックデータセットであり得る。入力データセット５０は、複数の入力データエントリ５２を含み得る。以下でさらに詳細に説明するように、入力データセット５０は、第1のクライアントコンピューティングデバイス８０で実行される第１のプライベート人工知能モデル３０および第２のクライアントコンピューティングデバイス９０で実行される第２のプライベート人工知能モデル４０の入力として使用され得、その結果、出力は、サーバコンピューティングデバイスで適応共蒸留モデル６０を訓練するために使用できるこれらのモデルによって生成され得る。入力データセット５０に含まれる入力データエントリ５２は、ラベル無しデータであり得る。ラベル無しデータには、通常、ラベル付きデータよりも簡単に利用できる利点がある。加えて、ラベル無しデータは、第１のプライベート人工知能モデル３０および第２のプライベート人工知能モデル４０によって入力データエントリ５２に割り当てられ得る分類ラベルを指定しない。他の実施形態では、入力データセット５０は、以下でさらに詳細に説明するように、入力データエントリ５２のサブセットがそれぞれの分類ラベルを有する部分的にラベル付けされたデータセットであり得る。入力データセット５０でラベル無しまたは部分的にラベル付けされたデータを使用することにより、プライベート人工知能モデルは、例えば、各プライベートモデルに既知であり、入力データセット５０に含まれていない分類に従って、入力データセット５０内のデータを自由に分類できる。

図１の例に示すように、第1のプライベート人工知能モデル３０は、第1のプライベートデータセット３２を使用して生成される。第1のプライベートデータセット３２は、複数の第1のプライベートエントリ３４を含み得、これは、複数の第1のプライベート人工知能モデル３０の入力例および対応する出力例を含み得る。第１のプライベート人工知能モデル３０は、訓練データセットとして第1のプライベートデータセット３２を使用して訓練される機械学習モデルであり得る。あるいは、第1のプライベート人工知能モデルは、機械学習技術を使用せずに、第1のプライベートデータセット３２に基づいてプログラムされる、シンボリック人工知能モデルなどのヒューリスティックモデルであり得る。いくつかの実施形態では、入力データセット５０が第1のプライベート人工知能モデル３０の実行時入力であるように、第1のプライベート人工知能モデル３０は、入力データセット５０を受信する前に生成され得る。第1のプライベート人工知能モデル３０は、第1のクライアントコンピューティングデバイス８０で生成されるので、第1のプライベートデータセット３２は、サーバコンピューティングデバイス１０に送信される必要はなく、プライベートデータセットとして保持され得る。

図1に一例が示されるように、第２のプライベート人工知能モデル４０は、第２のプライベートデータセット４２を使用して生成される。第２のプライベートデータセット４２は、複数の第２のプライベートエントリ４４を含み得、これは、第２のプライベート人工知能モデル４０のための複数の例示的な入力および対応する例示的な出力を含み得る。第２のプライベート人工知能モデル４０が機械学習モデルである実施形態では、第２のプライベート人工知能モデル４０は、訓練データセットとして第２のプライベートデータセット４２を使用して訓練され得る。あるいは、第２のプライベート人工知能モデル４０は、機械学習モデルト訓練技術を使用せずに、第２のプライベートデータセット４２に基づいてプログラムされるヒューリスティックモデルであり得る。第1のプライベート人工知能モデル３０と同様に、第２のプライベート人工知能モデル４０は、入力データセット５０を受信する前に、第２のプライベートデータセット４２を使用して生成され得る。

いくつかの実施形態では、第1のプライベート人工知能モデル３０は、第１のモデルアーキテクチャを有し得、第２のプライベート人工知能モデル４０は、第１のモデルアーキテクチャとは異なる第２のモデルアーキテクチャを有し得る。例えば、第1のプライベート人工知能モデル３０および第２のプライベート人工知能モデル４０のそれぞれは、深層ニューラルネットワーク、カーネルマシン、またはランダムフォレストであり得る。深層ニューラルネットワークが第1のプライベート人工知能モデル３０または第２のプライベート人工知能モデル４０のいずれかに使用される場合、深層ニューラルネットワークは、例えば、多層パーセプトロン、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、または他のタイプの深層ニューラルネットワークであり得る。必要に応じて、異なるタイプまたはアーキテクチャの深層ニューラルネットワークを各プライベート人工知能モデルで使用し得る。カーネルマシンが第１のプライベート人工知能モデル３０および／または第２のプライベート人工知能モデル４０に使用される場合、カーネルマシンは、サポートベクターマシンまたは他のタイプのカーネルマシンであり得る。第1のモデルアーキテクチャと第２のモデルアーキテクチャの違いは、使用する機械学習アルゴリズムのタイプの違いであり得、また、あるいは、同じタイプの機械学習アルゴリズムが使用される場合のニューロンの数または層の数などのパラメータの違いであり得る。

図２は、共に深層ニューラルネットワークである第１のプライベート人工知能モデル３０および第２のプライベート人工知能モデル４０を示す。第1のプライベート人工知能モデル３０は、そのニューロン間の接続の複数の第1のプライベートモデル重み３１を有する。さらに、第1のプライベート人工知能モデル３０は、各ニューロンに対してそれぞれの第1のプライベートモデルバイアス３３を有する。第1のプライベート人工知能モデル３０は、第１のプライベートデータセット３２に含まれる入力例および対応する出力例のペアを使用する確率的勾配降下を伴うバックプロパゲーションなどの第1の訓練アルゴリズム１００（図５に示す）を介して訓練され得る。そのような例では、第1のプライベートモデルは、重み付き損失関数を使用するコスト関数３６を使用し得る。重み付き損失関数は、図１１Ａに関連して示され、説明されるように、出力重み付き損失関数であり得、または、図１１Ｂに関連して示され、説明されるように、入力重み付き損失関数であり得る。コスト関数３６は、機械学習中のバックプロパゲーションに使用され、例えば、平均二乗誤差コスト関数であり得る。あるいは、以下に説明するように、クロスエントロピーコスト関数、指数コスト関数などの別の適切なコスト関数を使用し得る。あるいは、第1のプライベート人工知能モデル３０は、座標降下法または劣勾配降下法などの他の方法を使用して訓練され得る。

図２に示される第２のプライベート人工知能モデル４０は、そのニューロン間の接続の複数の第２のプライベートモデル重み４１を有する。さらに、第２のプライベート人工知能モデル４０は、各ニューロンに対してそれぞれの第２のプライベートモデルバイアス４３を有する。第1のプライベート人工知能モデル３０について上述された例のように、第２のプライベート人工知能モデル４０は、確率的勾配降下を伴うバックプロパゲーションを使用して、第２の訓練アルゴリズム１０２（図５に示す）を介して訓練され得る。バックプロパゲーションが使用される場合の第２のプライベートモデルコスト関数４６は、平均二乗誤差コスト関数、または交差エントロピーコスト関数、指数コスト関数などの他の適切なコスト関数であり得る。あるいは、座標降下法または劣勾配降下法（ｓｕｂｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）などの他の訓練方法を使用して、第２のプライベート人工知能モデル４０を訓練し得る。

図１に戻り、第１のクライアントコンピューティングデバイス８０は、第１のプライベート人工知能モデル３０を入力データセット５０に適用した結果として、第１の結果データセット２０を生成し得る。第１の結果データセット２０は、複数の第１の結果エントリ２２を含み得る。いくつかの実施形態では、第１の結果データセット２０は、第１の結果エントリ２２に関連する複数の第１の信頼値２３をさらに含み得る。例えば、第１の結果エントリ２２のそれぞれが事前定義された潜在的出力のリストから選択される場合、第１の結果データセット２２は、第１の信頼値２３としてそれらの潜在的出力のそれぞれの推定確率を含み得る。いくつかの実施形態では、第１の結果エントリ２２は、複数の第１の信頼値２３のベクトルであり得る。さらに、第１の結果データセット２０は、複数の第１のデータ距離２１を含み得、そのそれぞれは、第１のデータ類似度アルゴリズム３５によって計算された、例えば、入力データセット５０の対応する入力データエントリ５２および第１のプライベートデータセット３２間の訓練データ距離であり得る。第１のデータ距離２１は、例えば、図５に関連して以下に説明するように、重み付き損失関数を計算する際に使用され得る。データ類似度アルゴリズムの一例を、図６に関連して説明する。

図１に続いて、さらに、第２のクライアントコンピューティングデバイス９０は、第２のプライベート人工知能モデル４０を入力データセット５０に適用した結果として、第２の結果データセット２４を生成し得る。第２の結果データセット２４は、複数の第２の結果エントリ２６を含み得る。第２の結果データセット２４は、第２の結果エントリ２６にそれぞれ関連する複数の第２の信頼値２７をさらに含み得る。第１のクライアントコンピューティングデバイス８０のプロセッサ８２および第２のクライアントコンピューティングデバイス９０のプロセッサ９２は、それぞれ、第１の結果データセット２０および第２の結果データセット２４をサーバコンピューティングデバイス１０に送信するように構成され得る。さらに、第２の結果データセット２４は、複数の第２のデータ距離２５を含み得、そのそれぞれは、第２のデータ類似度アルゴリズム４５によって計算された、例えば、入力データセット５０内の対応する入力データエントリ５２と第２のプライベートデータセット４４との間の訓練データ距離であり得る。第１および第２のデータ類似度アルゴリズム３５、４５は、必要に応じて、同じまたは異なるアルゴリズムであり得ることが理解されよう。第２のデータ距離２５はまた、例えば、図５に関連して以下に説明されるように、重み付き損失関数を計算する際に使用され得る。

また図１において、サーバコンピューティングデバイス１０のプロセッサ１２は、さらに、入力として入力データセット５０、第１の目標出力として結果データセット２０（特に、第１のデータセット２０の第１のデータエントリ２２）を用いて、適応共蒸留モデル６０を訓練するように構成され得る。第１の信頼値２３は、また、適応共蒸留モデル６０の訓練中の第１の目標出力に含まれ得る。適応共蒸留モデル６０は、深層ニューラルネットワーク、カーネルマシン、またはランダムフォレストなどの機械学習モデル、または人によってヒューリスティックに設計されたアルゴリズムなどであり得る。図２の例では、適応共蒸留モデル６０は、そのニューロン間に複数の適応共蒸留モデル重み６１を有する深層ニューラルネットワークである。適応共蒸留モデル６０は、また、ニューロンのそれぞれについて、それぞれの適応共蒸留モデルバイアス６３を有し得る。第１の結果データセット２０を使用する訓練は、第１の訓練フェーズ６２の間に実行され得る。適応共蒸留モデル６０は、例えば、平均二乗誤差コスト関数などの適応共蒸留モデルコスト関数６６を用いた確率的勾配降下法を介して訓練され得る。あるいは、上記のように、他のコスト関数を使用し得る。いくつかの実施形態では、確率的勾配降下法の代わりに、座標降下法または劣勾配降下法など、適応共蒸留モデル６０を訓練するいくつかの他の方法を使用し得る。

第２の訓練フェーズ６４において、プロセッサ１２は、さらに、入力データセット５０を入力とし、第２の結果データセット２４を第２の目標出力として、適応共蒸留モデル６０を訓練するように構成され得る。第２の訓練フェーズ６４は、第１の訓練フェーズ６２に続いて実行され得る。確率的勾配降下を伴うバックプロパゲーションを使用して、入力データセット５０および第２の結果データセット２４を用いて、適応共蒸留モデル６０を訓練し得る。いくつかの実施形態では、第１の訓練フェーズ６２で使用される適応共蒸留モデルコスト関数６６は、第２の訓練フェーズ６４で再利用され得る。あるいは、上記のように、他のいくつかのコスト関数が使用され得る。以下で説明するように、コスト関数は重み付き損失関数を含み得、これにより、適応共蒸留モデルは、第１および第２のプライベート訓練データセット３２、４２のプライベート訓練データと同様の訓練データからより多くを学習することができる。

適応共蒸留モデル６０の訓練は、以下の例に従って象徴的に表し得る。入力データセット５０は、Ｄ_dist ＝（ｘ₁、ｘ₂、．．．。）として表わし得、ここで、ｘ_nは、入力データエントリ５２である。第１のプライベート人工知能モデル３０および第２のプライベート人工知能モデル４０は、それぞれ、サーバコンピューティングデバイス１０への各モデル出力値｛M_i（x_n）|x_n∈D_dist｝を出力し得、ここで、M_iはD_distの各入力値x_nのモデル出力値である。分類モデルの場合、出力値は種別であり得、モデルは、分類に加えて信頼値を出力するように構成し得る。適応共蒸留モデル６０が訓練される場合、サーバコンピューティングデバイス１０のプロセッサ１２は、以下の誤差表現を最小化するように構成され得る。

ここで、以下の語は以下を意味する
WeightedLoss：訓練中に最小化されるM_serverのコスト関数
M_server：共有モデルまたはパブリックモデル（例：適応共蒸留モデル６０）
M_i：プライベートモデル（例：第１と第２のプライベート人工知能モデル３０、４０）
損失：平均二乗誤差、平均平均誤差（ｍｅａｎａｖｅｒａｇｅｅｒｒｏｒ）、平均バイアス誤差、サポートベクターマシン損失、クロスエントロピー損失などの適切な損失関数
x_n：共有またはパブリックデータセットD_distの係数n（例：入力データセット５０）
w：重み係数

上記の式は、損失関数の出力が重み付けされ、また、以下で説明する入力重み付き損失関数と対比され得るため、出力重み付き損失関数と呼ばれ得る。重み係数は、パブリックまたは共有データセットD_distの各x_nを、M_iが生成されたプライベートデータセットD_iのすべての係数と比較するデータ類似度アルゴリズム３５、４５によって計算し得る。データ類似度アルゴリズム３５、４５は、入力データ係数ｘ_nとパブリックセットとの間のデータ距離に基づいて、それぞれの重み係数ｗ_i, _nをさらに出力し得る。データ類似度アルゴリズム３５、４５は、単一次元（すなわち、単一の独立変数の場合）または多次元（すなわち、複数の独立変数の場合）でデータ距離を計算し得る。このデータ距離に基づく重み係数ｗ_i, _nに代えて、または、加えて、例えば、重み係数ｗ_i, _nは、それぞれのプライベート人工知能モデル３０、４０からの信頼値、または、図８に関連して以下で説明する、人が指定した入力、などの別の評価、に基づき得る。データ類似度アルゴリズム３５、４５として使用できる適切なアルゴリズムには、例えば、ユークリッド距離、マンハッタン距離、ミンコフスキー距離、ｎ乗根の類似度、コサイン類似度、平方根、およびジャッカード距離が含まれ得る。データ類似度アルゴリズム３５、４５は、最初にデータ距離を計算し得、次に、例えば、データ距離を０から１の間の値に正規化することによって、データ距離に基づいて重み係数ｗ_i, _nを計算し得（１に近づくより高い距離）、次に、重み係数を１から正規化されたデータ距離値を引いた値として計算する。共有またはパブリックモデルM_server（たとえば、適応共蒸留モデル６０）の訓練に使用される訓練アルゴリズムは、より大きな損失からより多くを学習することによって重み付き損失を最小限に抑えようとするため、共有またはパブリックモデルM_server（たとえば、適応共蒸留モデル６０）は、各プライベートデータセットM_iのデータと同様のパブリックデータセットのデータからより多くを学習し、各プライベートデータセットのデータとは異なるパブリックデータセットのデータからはより多くを学習しない。上記の式は、以下の図９を参照してより詳細に説明される。

図１および２の一例では、適応共蒸留モデル６０は、第１のプライベートデータセット３２または第２のプライベートデータセット４２で直接訓練されておらず、それらを利用しない。サーバコンピューティングデバイス１０は、訓練のために第１のプライベートデータセット３２または第２のプライベートデータセット４２を受信する必要がないため、プライベートデータセットのプライバシーを保つことができる。さらに、プロセッサ１２は、第１のプライベート人工知能モデル３０および第２のプライベート人工知能モデル４０のパラメータではなく、第１の結果データセット２０および第２の結果データセット２４を受信するので、第１のクライアントコンピューティングデバイスの８０および第２のクライアントコンピューティングデバイス９０のそれぞれのユーザは、例えば、それぞれの会社の従業員またはそれぞれの研究エンティティの研究者であり得、また、それぞれの機械学習モデルのアーキテクチャをプライベートに保ち、それによってプライバシー、競争上の優位性、ライセンスまたはその他の法的制約などを助成することができる。適応共蒸留モデル６０を訓練するための第１の結果データセット２０および第２の結果データセット２４の使用は、また、異なるアーキテクチャを有するプライベート人工知能モデル用の適応共蒸留モデル６０の生成を実現する。これに対し、モデル間に共有レイヤを形成することによって分散機械学習モデルを組み合わせる既存の方法は、異なるアーキテクチャのモデルを組み合わせるのに使用できないことが頻繁にある。

いくつかの実施形態では、図１に示されるように、適応共蒸留モデル６０は、教師あり学習を介して少なくとも部分的に訓練され得る。そのような実施形態では、適応共蒸留モデル６０の訓練中に、プロセッサ１２は、さらに、適応共蒸留モデル６０によって生成された１以上の適応共蒸留モデル出力６８を１以上のサーバコンピューティングデバイス１０の出力デバイス１８を介してユーザに伝達するように構成され得る。プロセッサ１２は、さらに、１以上の入力デバイス１６を介して１以上の教師あり学習ユーザ入力５６を受信するように構成され得る。１以上の教師あり学習ユーザ入力５６は、１以上の複数の適応共蒸留モデル出力６８のそれぞれの評価を含み得る。例えば、教師あり学習ユーザ入力５６は、適応共蒸留モデル６０が、入力データセット５０に含まれる入力データエントリ５２に正確な分類ラベルを付与したか否かを示し得る。教師あり学習ユーザ入力５６に基づいて、プロセッサ１２は、さらに、適応共蒸留モデル６０の１以上のパラメータを更新するように構成され得る。例えば、適応共蒸留モデル６０が深層ニューラルネットワークである実施形態では、プロセッサ１２は、１以上の適応共蒸留モデルの重み６１および／または１以上の適応共蒸留モデルバイアス６３を更新し得る。

いくつかの実施形態では、図３に示されるように、適応共蒸留モデル６０は分類モデルであり得る。そのような実施形態では、第１の結果データセット２０および第２の結果データセット２４は、それぞれ、各複数の分類ラベルを含み得る。図３は、第１の結果データセット２０および第２の結果データセット２４にそれぞれ含まれる複数の第１の分類ラベル１２６および複数の第２の分類ラベル１２８を示す。図３の例の適応共蒸留モデル６０は、第１の分類ラベル１２６および第２の分類ラベル１２８のそれぞれを含む結合された分類ラベルセット１２０を含む。実行時に、適応共蒸留モデル６０は、１以上の実行時入力データエントリ１１２を含む実行時データセット１１０を受信し得る。実行時入力データセット１１０の受信に応答して、適応共蒸留モデルは、１以上の実行時入力データエントリ１１２に対応する１以上の実行時分類ラベル１４２を含む実行時出力データセット１４０を出力するように構成され得る。いくつかの実施形態では、複数の実行時分類ラベル１４２は、各実行時入力データエントリ１１２に一致させ得る。そのような実施形態では、適応共蒸留モデル６０は、さらに、実行時分類ラベル１４２のそれぞれについて、それぞれの出力信頼値１４４を出力するように構成され得る。したがって、適応共蒸留モデル６０は、第１のプライベートデータセット３２または第２のプライベートデータセット４２で訓練されていなくても、第１のプライベート人工知能モデル３０および第２のプライベート人工知能モデル４０の両方によって実行される分類タスクを実行するように構成され得る。

図３に示すように、適応共蒸留モデル６０が分類モデルである実施形態では、入力データセット５０は、部分的にラベル付けされたデータセットであり得る。そのような実施形態では、入力データセット５０は、それぞれの入力分類ラベル５４を有する入力データエントリ５２の第１のサブセットと、それぞれの入力分類ラベル５４を有しない入力データエントリ５２の第２のサブセットとを含み得る。そのような実施形態では、複数の入力分類ラベル５４が結合された分類ラベルセット１２０に含まれ得る。

あるいは、いくつかの実施形態では、適応共蒸留モデル６０は回帰モデルであり得る。そのような実施形態では、第１の結果データセット２０および第２の結果データセット２４はそれぞれ、それぞれの複数の数値を含み得る。第１のプライベート人工知能モデル３０および第２のプライベート人工知能モデル４０は両方とも、それぞれの入力を、1以上の数値を含む対応する第１の結果エントリ２２および第２の結果エントリ２６にマッピングするように構成され得る。例えば、第１のプライベート人工知能モデル３０および第２のプライベート人工知能モデル４０はそれぞれ、スカラー数値、数値のベクトル、または1以上の数値を含む何らかの他のデータ構造を出力し得る。適応共蒸留モデル６０は、そのような実施形態では、入力データエントリ５２の関数として、第1の結果エントリ２２および第２の結果エントリ２６に対して回帰を実行し得る。

他の実施形態では、図４の例に示されるように、適応共蒸留モデル６０は回帰型ニューラルネットワークであり得る。図４の例では、入力データセット２５０は、それぞれが複数の順序付けされた入力値２５４を含む複数の入力系列２５２を含む。各入力系列２５２に含まれる順序付けされた入力値２５４は、時間的に順序付けされ、空間的に順序付けされ、または何らかの他の変数に従って順序付けされ得る。適応共蒸留モデル６０が回帰型ニューラルネットワークである実施形態では、第１のプライベート人工知能モデル３０が訓練される第１のプライベートデータセット２３２は、複数の第１のプライベート系列２３５を含み得る。第１のプライベート系列２３４のそれぞれは、複数の第１のプライベート順序付けられた入力値２５６を含み得、それは、入力データセット２５０の入力系列２５２に含まれる順序付けられた入力値２５４と同じ変数に従って順序付けられ得る。第２のプライベートデータセット２４２は、複数の第２のプライベート系列２４４を含み得る。第２のプライベート系列２４４のそれぞれは、複数の第２のプライベート順序付けられた入力値２４６を含み得、入力データセット２５０の入力系列２５２に含まれる順序付けられた入力値２５４と同じ変数に従って順序付けられ得る。したがって、第１のプライベート人工知能モデル３０、第２のプライベート人工知能モデル４０、および適応共蒸留モデル６０はそれぞれ、系列データを使用して生成され得る。

いくつかの実施形態では、図１の第１の結果データセット２０または第２の結果データセット２４は、準同型に暗号化され得る。第１の結果データセット２０または第２の結果データセット２４が準同型に暗号化される場合、サーバコンピューティングデバイス１０のプロセッサ１２で第1の結果エントリ２２または第２の結果エントリ２６に対して1以上の計算を実行し得、これらのエントリの平文の値は秘密が保たれる。第1の結果データセット２０または第２の結果データセット２４は、部分的準同型（ｐａｒｔｉａｌｌｙｈｏｍｏｍｏｒｐｈｉｃ）、やや準同型（ｓｏｍｅｗｈａｔｈｏｍｏｍｏｒｐｈｉｃ）、ラベル付き完全準同型（ｌｅｖｅｌｅｄｆｕｌｌｙｈｏｍｏｍｏｒｐｈｉｃ）、または完全準同型（ｆｕｌｌｙｈｏｍｏｍｏｒｐｈｉｃ）の暗号化アルゴリズムを使用して暗号化し得る。例えば、部分的準同型スキームとして、Ｐａｉｌｌｉｅｒｃｒｙｐｔｏｓｙｓｔｅｍ、Ｒｉｖｅｓｔ－Ｓｈａｍｉｒ－Ａｄｌｅｍａｎ（ＲＳＡ）、ＥｌＧａｍａｌスキーム、またはＧｏｌｄｗａｓｓｅｒ－Ｍｉｃａｌｉスキームを使用し得、完全準同型スキームとして、Ｂｒａｋｅｒｓｋｉ－Ｇｅｎｔｒｙ－Ｖａｉｋｕｎｔａｎａｔｈａｎスキームまたはバリアントを使用し得る。第１の結果データセット２０または第２の結果データセット２４の暗号化は、それぞれ第１のクライアントコンピューティングデバイス８０または第２のクライアントコンピューティングデバイス９０で実行され得る。適応共蒸留モデル６０は、準同型に暗号化された第１の結果データセット２０または第２の結果データセット２４で訓練され得る。

図５乃至１２は、コンピュータシステム１が重み付き損失関数を利用可能にするコンピュータシステム１の態様を一般的に示す。図５に示すように、入力データセット５０（D_dist）の各係数x_nは、第１および第２のプライベート人工知能モデル３０、４０などの複数のプライベート人工知能モデルへの入力として、それらのそれぞれの後に提供され得、モデルは、第１および第２のプライベートデータセット３２、４２（Di）などのプライベートデータセットを使用して生成された。係数x_nがプライベートモデル３０、４０のそれぞれに入力されるとき、第１および第２のデータ類似度アルゴリズム３５、４５などのデータ類似度アルゴリズムは、係数x_nをプライベートデータセット３２、４０のデータD_iと比較する。データ類似度アルゴリズムは、例えば、ユークリッド距離、マンハッタン距離、ミンコフスキー距離、n乗根の類似度、コサイン類似度、平方根、ジャッカード距離などであり得る。プライベートモデル３０、４０はそれぞれ、モデル出力値（M_i）、モデル出力値の信頼値、および類似度アルゴリズムによって出力される訓練データ距離を含むそれぞれの結果データセット２０、２４を出力する。モデル入力値（x_n）は、結果データセット２０、２４で通過し得、また、サーバで入力データセット５０から直接取り戻し得る。プライベートモデル３０、４０によって出力される結果データセット２０、２４は、それぞれの訓練フェーズで使用され、第１および第２の訓練アルゴリズム１００、１２０によって適応共蒸留モデル６０（すなわち、共有またはパブリックモデル）を訓練する。適応共蒸留モデル６０は、各プライベートモデル３０、４０から、x_nを入力として使用し、M_iをその出力として訓練される。第１および第２の訓練アルゴリズム１００、１０２は、上述のように、勾配降下を伴うバックプロパゲーションなどの多種多様な訓練アルゴリズムから選択され得る。訓練アルゴリズム１００、１０２の各々は、訓練中に最小化を試みる関連する重み付き損失関数１０４、１０６を有する。重み付き損失関数は、以下でより詳細に説明するように、例えば、対応する類似度アルゴリズム３５、４５から出力されるそれぞれの訓練データ距離２１、２５、関連するプライベートモデル３０、４０から出力されるそれぞれの信頼値２３、２７、および／または、人により入力される。

図６は、第1のプライベートデータセットD_iと比較される入力データセット５０（すなわち、共有またはパブリックデータセット（D_dist））において、ロボットによって把持される卵の画像のx_nの具体例を示す。この例では、D_iは、場合によって、ゴルフボールがロボットによって把持されている、または把持されていない画像のタグ付きコレクションであり、タグは、画像でロボットがボールを適切に把持するか否かを示すグランドトゥルースタグである。特徴抽出アルゴリズム１０８は、係数x_nおよびプライベートデータセットD_iに適用され、それぞれのパラメータ化された表現１１０、１１２を生成する。一般的には、特徴はスケール不変の特徴であり、たとえば、畳み込みニューラルネットワークによって検出し得る。あるいは、他のタイプの特徴が抽出され得る。パラメータ化された表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ）１１０、１１２は、例えば、多次元特徴ベクトルであり得る。特徴ベクトルは、この例では、第1の類似度アルゴリズム３５に供給され、第1の訓練データ距離２１を計算し、次に、これを、係数x_nが、通常、０から１の間の値を有する適応共蒸留モデル６０（すなわち、共有またはパブリックモデルM_server）に及ぼす学習効果を重み付けするための重み係数１１４に変換する。訓練データ距離２１が増加すると、重み係数１１４は減少し、訓練データ距離２１が減少すると、重み係数は増加する。通常、両方の値の範囲は０から１の間である。

図７は、卵を把持するロボットと野球ボールを把持するロボットの2つの画像の一例を示し第1の類似度アルゴリズム３５によってプライベートデータセットD_iと比較し、訓練データ距離２１が、それぞれ、低い訓練データ距離と高い訓練データ距離を有することを示す。この違いは、プライベートデータセットD_iのゴルフボールに対する卵の形状の違い、およびプライベートデータセットD_iの画像の関心領域（ROI）におけるボールの形状のゴルフボールに対する類似度に起因し得る。したがって、類似度アルゴリズム３５は、卵のある画像に対して低く、野球のある画像に対して高い、それぞれの重み係数１１４を計算する。多数の変形が可能であるため、これは単なる一例であることが理解されるであろう。

図８は、適応共蒸留モデル６０を構成するグラフィカルユーザインタフェースGUI１１６のプライベートモデルの表示画面（owner view）を示す。図示するように、GUI１１６は、ユーザがパブリックモデル、パブリックデータセット、第１のプライベートデータセット、および第１のプライベートデータモデルへのパスを指定する複数の入力フィールド１１８を含む。必要に応じて、所有者が所有する追加のプライベートデータセットおよびプライベートモデルを追加するために、アフォーダンス１２０が提供される。異なるプライベートデータセットの他の所有者は、GUI１１６の異なる表示画面（view）を使用して追加のプライベートモデルでパブリックモデルを訓練することを理解されたい。GUI１１６は、また、訓練アルゴリズム選択ツール１２２を含み、それは、図示されるように、訓練アルゴリズムとして勾配降下を伴うバックプロパゲーションを選択するように設定される。GUI１１６は、また、第１の訓練アルゴリズム１００によって使用される1以上の重み係数１１４を指定するセレクタ１２４を含む。図示するように、重み係数セレクタ１２４は、複数の選択チェックボックスツールを含み、それによってユーザは訓練データの距離、モデル出力の信頼値、または、人が編集した信頼値、人が編集したデータ距離または人が作成したアルゴリズムなどの人が指定した係数の１以上の中から選択し得る。これらの人が指定した値を定義するリンク１２６、１２８、１３０が表示される。パラメータが入力されると、ユーザは、第１のプライベートデータモデル３０によるパブリックデータセット（例えば、入力データセット５０）の処理を開始する訓練モデルコマンドセレクタ１３２を選択し得、第１の結果データセット２０を出力し適応共蒸留モデル６０に入力され、その結果、適応共蒸留モデル６０が訓練される。

図９は、図９のリンク１２６の選択時に表示される、人が編集した信頼値ユーザインタフェース１３４を示す。図示されるように、人が編集した信頼値ユーザインタフェース１３４は、第１のプライベートモデル３０への入力としての入力データセット５０からの係数x_nと、第１の結果データセット２０の出力値（ボール把持の分類）および出力信頼値（０．８８）とを含む。インタフェース１３４のヒューマンオペレータインタフェースの部分を介して、人のオペレータは、たとえば「はい」を選択してボールが適切に把握されていることを示すことによって、第１のプライベートモデル３０の出力を変更するための入力を提供し得、人がこの分類が訓練のグラウンドトゥルースとして正しいと判断することで、分類信頼値として１．００を入力し得る。この値は、特定の値を入力することにより、さらに人が編集し得る。図示された一例では、プライベートモデルが、０．８８の信頼値を持つ「ボール把持」の分類を計算し、これを、インタフェースを介して人が１．００の信頼値に編集した。

図１０は、人が編集した訓練データ距離値を提供する人が編集した訓練データ距離ユーザインタフェース１３６を示し、これは、図９のリンク１２８をトラバース（ｔｒａｖｅｒｓｉｎｇ）することによってアクセスし得る。図示するように、ユーザインタフェース１３４は、入力データセット５０からの係数x_nを表示し、また、第１のプライベートデータセット３２（D_i）からの係数を表示する。通常、インタフェース１３６は、x_nをD_iの各係数と比較する人が編集した入力を受け取るために、Diの各係数を巡回する。表示される画像の各ペアに応答して、画像が類似しているかまたは類似していないことを確認するため、人のオペレータは、「はい」または「いいえ」のセレクタを選択し得る。「はい」を選択するとデフォルトで訓練データ距離が０．０１になり、「いいえ」を選択するとデフォルトで訓練データ距離が１．０になり、両方の値は、必要に応じてオペレータがさらに編集し得る。「送信」を選択すると、すべての画像ペアの訓練データの距離が人によって編集されるまで、次の画像ペアに巡回する。図示の例では、第１の類似度アルゴリズム３５は、人が０．０１に編集した画像対の間の０．１４の訓練データ距離を計算した。

図１１Ａは、パブリックモデルの訓練に使用される損失関数の出力を重み付けするために使用される、モデル入力、モデル出力、誤差、重み付けされていない損失、および重み付き損失の関係を示すアノテートされたグラフである。図の上部は、適応共蒸留モデル（パブリックモデル M_server）および第１のプライベート人工知能モデル３０（プライベートモデルM_i）のモデル入力（パブリックデータセット５０のx₁からx₅サンプル係数のそれぞれ）からモデル出力のグラフである。２つの出力の差は、誤差E = M_server - M_iである。誤差Eは、説明を簡単にするために１次元で示されるが、より一般的には、M_serverやM_iの出力のように多次元である。損失は通常、M_serverとM_iの出力値に基づく損失関数に従って計算される。平均二乗誤差など、誤差を二乗する損失関数を使用すると、損失に対する大きな誤差の影響が大きくなる。グラフにおいて、x₁、x₂、x₄、およびx₅は、第1の類似度アルゴリズム３５によって、第1のプライベートデータセット３２（D_i）に類似している、すなわち、この第1のプライベートデータセット３２（D_i）に対して低いデータ距離を有する、と決定された係数であり、図６に示す方法を用いて、x₃は、第1のプライベートデータセット３２（D_i）に対して高いデータ距離（すなわち、低い類似度）を有すると決定された。このため、破線の重み付けされていない損失（たとえば、MSE）ベクトルは、x₃の実線の誤差ベクトルよりも大きく示され、一方、破線の重み付けされていない損失ベクトルは、x₁、x₂、x₄、およびx₅の実線の誤差ベクトルとほぼ同じ長さで示される。重み付けがなければ、適応共蒸留モデル６０（すなわち、共有またはパブリックモデル）による学習に対するデータ係数x₃の効果は、データ係数x₁、x₂、x₄、およびx₅のいずれか1つの効果よりも大きいであろう。また、x₃からD_iまでの訓練データの距離が大きいため、このより大きな学習効果はメリットが無く、適応共蒸留モデル６９（すなわち、共有またはパブリックモデル）が誤った結果を生成する原因となる。この問題に対処するため、図６で説明したプロセスに従って、x₁、x₂、x₄、およびx₅よりも相対的に低いx₃の重み係数が計算され、データ係数の重み付き損失の計算に使用される。重み係数w_i,nは、図１１Ａのグラフの下に再現された式に入力され、式の第１の項は、重み係数の重み平均である。この重み平均は、損失関数の出力（前述の任意の適切な損失関数であり得る）で乗算され、その結果が重み付き損失である。図１１Ａの重み付き損失は、訓練データ距離によって重み付けされており、訓練データ重み付き損失とも呼ばれる。重み付き損失を示す破線ベクトルの相対的なサイズの違いで示されるように、D_iまでのデータ距離が大きいデータ係数x_iの重み付き損失は、グラフ内のD_iまでのデータ距離が小さい他のデータ係数の重み付き損失よりも小さいことに留意されたい。重み付けされていない損失ベクトルと重み付き損失ベクトルの相対的なサイズは、例示を目的としており、損失と誤差は、例示のみを目的として同じ軸上に示されていることを理解されたい。

上述の式に従って重み付き損失を計算する代わりに、代替の重み付けの式を使用して、プライベートデータセットとのデータ距離が大きいパブリックデータセット内のデータ係数の学習効果を最小限に抑えることができることを理解されたい。例えば、入力重み付き損失関数を使用し得る。図１１Ｂは、入力重み付き損失関数の次の式が代わりに使用される場合の、図１１Ａと同様のアノテートされたグラフを示す。

この式では、重み平均は、損失関数の出力ではなく、各モデル入力x_iのプライベートモデル出力値M_iに適用される。実際のM_i値に加えて、図１１Ｂは、損失関数の入力として使用される重み付きM_i値をさらに示す。図１１Ａの一例のように、この例における損失関数は、平均二乗誤差または任意の他の適切な損失関数であり得る。プライベートモデル出力値Miを損失関数に出力する前に重み付けすることにより、プロセッサ１２は、損失関数の計算値に伝播するプライベートモデル出力値M_iのノイズの量を低減し得、これにより、プライベートデータセットからのデータ距離が小さいデータ係数から学習されるよりも、プライベートデータセットからのデータ距離が大きいパブリックデータのデータセットのデータ係数からの学習を減らすことができる。

図１２は、２次元損失関数曲面の一例を曲線として示す。より一般的には損失関数は多次元であるため、この２次元表現は説明を容易にするためのものである。損失は、図１１Ａと同様のデータ係数のx₁からx₅のそれぞれについてグラフ化されて示される。重み付けされていない損失面は、図１１Ａに示されるデータ係数の大きな重み付けされていない損失のために、x₃にピークのある破線として示される。重み付き損失面は実線で示され、x₃にピークはない。損失面を重み付けすることで、x₃付近での重み付けされていない高い損失による不適切な学習効果を回避できる。このようにして、適応共蒸留モデルは、プライベートデータセットのデータとは異なる入力データセットのデータから学習しすぎることなく、入力データセット５０のデータから学習できる。

図１３は、テンプレート機械学習モデル７０が、サーバコンピューティングデバイス１０のプロセッサ１２で訓練されるときの、図1のコンピューティングシステム１を示す。図１３の一例に示すように、プロセッサ１２はさらに、第１のクライアントコンピューティングデバイス８０および第２のクライアントコンピューティングデバイス９０で、第１のプライベートデータセット３２および第２のプライベートデータセット４２を用いて第１のプライベート人工知能モデル３０および第２のプライベート人工知能モデル４０を訓練する前に、テンプレートデータセット７２でテンプレート機械学習モデル７０を訓練する。テンプレートデータセット７２は、それぞれの複数のテンプレート出力エントリ７８に関連付けられる、複数のテンプレート入力エントリ７４を含み得る。テンプレート入力エントリ７４のそれぞれは、入力データセット５０に含まれる入力データエントリ５２として、同じデータタイプを有し得る。加えて、テンプレート出力エントリ７８はそれぞれ、適応共蒸留モデル６０が生成するように後に訓練される適応共蒸留モデル出力６８と同じデータタイプを有し得る。

図１４は、テンプレート機械学習モデル７０が深層ニューラルネットワークである実施形態におけるテンプレート機械学習モデル７０をさらに詳細に示している。図１４の一例では、テンプレート機械学習モデルは、そのニューロン間の接続に関する複数のテンプレート重み７１を有する。さらに、テンプレート機械学習モデル７０は、ニューロンごとにそれぞれのテンプレートバイアス７３を有する。テンプレート機械学習モデル７０は、テンプレートコスト関数７６を使用し得る確率的な勾配降下法を用いたバックプロパゲーションによって訓練し得る。テンプレートコスト関数７６は、例えば、平均二乗誤差コスト関数であり得る。あるいは、上述のように、他の訓練方法および他のコスト関数を使用し得る。

テンプレート機械学習モデル７０が訓練された後、サーバコンピューティングデバイス１０のプロセッサ１２は、さらに、テンプレート機械学習モデル７０のコピーを第1のクライアントコンピューティングデバイス８０および第２のクライアントコンピューティングデバイス９０に送信するように構成され得る。図１４の一例では、テンプレート機械学習モデル７０の第１のコピー７５および第２のコピー７７が、それぞれ第１のクライアントコンピューティングデバイス８０および第２のクライアントコンピューティングデバイス９０に送信される。図１４の一例の第１のプライベート人工知能モデル３０は、第１のプライベートデータセット３２でさらに訓練された後のテンプレート機械学習モデル７０の第１のコピー７５である。同様に、第２のプライベート人工知能モデル４０は、第２のプライベートデータセット４２でさらに訓練された後のテンプレート機械学習モデル７０の第２のコピー７７である。したがって、テンプレート機械学習モデル７０は、第１のクライアントコンピューティングデバイス８０および第２のクライアントコンピューティングデバイス９０で、最初にテンプレートデータセット７２で訓練され、さらに第１のクライアントコンピューティングデバイス８０で訓練される、第１のプライベート人工知能モデル３０および第２のプライベート人工知能モデル４０のテンプレートとして使用し得る。図１３及び図１４に示す実施形態に示されるように、テンプレート機械学習モデル７０とプライベートデータセット３２、４２の両方に基づいて訓練された第１および第２のプライベート機械学習モデル３０、４０は、ラベル付けされていない、または部分的にラベル付けされた入力データセット５０を供給された後、図１の実施形態において前述した同様の方法で、適応共蒸留モデル６０の訓練に使用される、第１および第２の結果データセット２０、２４を生成することを理解されるであろう。

図１５Ａは、コンピューティングシステムで使用し得る方法３００の一例のフローチャートを示す。図１５Ａの方法３００は、図１の一例のコンピューティングシステム、または他のコンピューティングシステムと共に使用し得る。ステップ３０２で、方法３００は、第１のプライベートデータセットを使用して生成された第１のプライベート人工知能モデル、および第２のプライベートデータセットを使用して生成された第２のプライベート人工知能モデルに、入力データセットを入力することを含み得る。入力データセットは、複数の入力データエントリを含み得る。いくつかの実施形態では、第１のプライベート人工知能モデルおよび第２のプライベート人工知能モデルは、対応する第１のクライアントコンピューティングデバイスおよび第２のクライアントコンピューティングデバイスで実行され得る。そのような実施形態では、入力データセットは、サーバコンピューティングデバイスから、第１のクライアントコンピューティングデバイスおよび第２のクライアントコンピューティングデバイスに送信され得る。第１のプライベートデータセットは、第１のプライベート人工知能モデルが訓練される入力の一例および対応する出力の一例であり得る、複数の第１のプライベートエントリを含み得る。同様に、第２のプライベートデータセットは、第２のプライベート人工知能モデルが訓練される入力の一例および対応する出力の一例であり得る、複数の第２のプライベートエントリを含み得る。

ステップ３０４において、方法３００は、さらに、第１のプライベート人工知能モデルを入力データセットに適用した結果として、第１のプライベート人工知能モデルから第１の結果データセットを受信することを含み得る。第1の結果データセットは、複数の第1の結果エントリを含み得る。第１の結果データセットは、さらに、各第１の結果エントリに関連付けられた１以上の第１の信頼値を含み得る。さらに、ステップ３０６で、方法３００は、さらに、第２のプライベート人工知能モデルを入力データセットに適用した結果として、第２のプライベート人工知能モデルから第２の結果データセットを受信することを含み得る。第２の結果データセットは、複数の第２の結果エントリを含みうる。いくつかの実施形態では、第２の結果データセットは、各第２の結果エントリに関連付けられた１以上の第２の信頼値を含み得る。

いくつかの実施形態では、第１のプライベート人工知能モデルは第１のモデルアーキテクチャを有し得、第２のプライベート人工知能モデルは第１のモデルアーキテクチャとは異なる第２のモデルアーキテクチャを有し得る。例えば、第1のプライベート人工知能モデルおよび第２のプライベート人工知能モデルは、それぞれ、深層ニューラルネットワーク、カーネルマシン、またはランダムフォレストであり得る。第１のプライベート人工知能モデルに使用される機械学習アルゴリズムのタイプは、第２のプライベート人工知能モデルに使用される機械学習アルゴリズムのタイプとは異なり得る。あるいは、第１のプライベート人工知能モデルと第２のプライベート人工知能モデルの両方に同じタイプの機械学習モデルが使用される場合、ニューロンの数やレイヤの数などのパラメータが２つのモデル間で異なり得る。

ステップ３０８において、方法３００は、さらに、第1の訓練フェーズにおいて、入力データセットを入力として、第１の結果データセットを第1の目標出力として、適応共蒸留モデルを訓練することを含み得る。したがって、適応共蒸留モデルは、入力データセットが入力として与えられたときに、第1のプライベート人工知能モデルによって生成されたものと同じ結果データを生成するように訓練され得る。適応共蒸留モデルは、例えば、確率的な勾配降下によるバックプロパゲーションを使用して訓練し得る。バックプロパゲーションを使用して適応共蒸留モデルを訓練する場合、適応共蒸留モデルは適応共蒸留モデルのコスト関数を有し得る。

ステップ３１０において、方法３００は、さらに、第２の訓練フェーズにおいて、入力データセットを入力とし、第２の結果データセットを第２の目標出力として、適応共蒸留モデルをさらに訓練することを含み得る。第２の訓練フェーズは、第１の訓練フェーズに続いて実行され得る。第1の訓練フェーズにおける適応共蒸留モデルの訓練と同様に、第２のフェーズにおける適応共蒸留モデルの訓練は、バックプロパゲーションを介して実行され得る。適応共蒸留モデルが訓練される方法３００のステップでは、適応共蒸留モデルは、第1のプライベートデータセットまたは第２のプライベートデータセットでは訓練されない。したがって、第1のプライベートデータセットおよび第2のプライベートデータセットは、サーバコンピューティングデバイスからプライベートに保つことができる。さらに、適応共蒸留モデルは、第１のプライベート人工知能モデルおよび第２のプライベート人工知能モデルのモデルアーキテクチャを明示的に参照することなく、第１のプライベート人工知能モデルおよび第１のプライベート人工知能モデルによって生成された結果データセットを使用して訓練し得るため、プライベート人工知能モデル、第1のプライベート人工知能モデルおよび第２のプライベート人工知能モデルの構造もプライベートに保ち得る。

方法３００では、少なくとも３０８の第１の訓練フェーズ、および、また一般的に３１０の第２の訓練フェーズにおいて、適応共蒸留モデルは、上述したように重み付き損失関数を利用する訓練アルゴリズムを使用して訓練されることを理解されたい。重み付き損失関数は、上述の図８に示したように、適応共蒸留モデルの予測出力と、第１の結果データセットおよび第２の結果データセットの目標データ出力との間の損失を、（ａ）第１（または第２）の類似度アルゴリズムによって決定される、第１（または第２）の入力データセットと第１（または第２）のプライベートデータセットの係数との間の距離、（ｂ）第１または第２の人工知能モデルにより出力される第1の結果データセットの信頼値、および、人が指定した入力、のうちの1以上に基づく重み係数によって、重み付けする。

図１５Ｂは、図１５Ａの方法３００を実行する場合に、いくつかの実施形態で実行され得る追加のステップを示す。ステップ３１２で、方法３００は、さらに、テンプレートデータセットでテンプレート機械学習モデルを訓練することを含み得る。テンプレートデータセットは、複数のテンプレート入力エントリおよび複数のテンプレート出力エントリを含み得る。テンプレート機械学習モデルは、例えば、深層ニューラルネットワーク、カーネルマシン、またはランダムフォレストであり得る。いくつかの実施形態では、テンプレート機械学習モデルは、サーバコンピューティングデバイスで訓練され得る。ステップ３１４で、この方法は、さらに、テンプレート機械学習モデルの第１のコピーを第１のプライベートデータセットで訓練することを含み得る。同様に、ステップ３１６で、方法３００は、さらに、テンプレート機械学習モデルの第２のコピーを第２のプライベートデータセットで訓練することを含み得る。ステップ３１４およびステップ３１６は、第１のクライアントコンピューティングデバイスおよび第２のクライアントコンピューティングデバイスで実行され得、サーバコンピューティングデバイスのプロセッサは、テンプレート機械学習モデルのコピーを送信するように構成され得る。したがって、第１のプライベートデータセットおよび第２のプライベートデータセットを使用して、クライアントコンピューティングデバイスでテンプレート機械学習モデルのコピーをさらに訓練し得る。

ステップ３１８で、方法３００は、さらに、第１の結果データセットまたは第２の結果データセットを準同型に暗号化することを含み得る。第１の結果データセットまたは第２の結果データセットを準同型に暗号化するために使用される暗号化アルゴリズムは、部分的準同型、やや準同型、ラベル付き完全準同型、または完全準同型の暗号化アルゴリズムであり得る。第1の結果データセットまたは第2の結果データセットは、第１の結果データセットまたは第２の結果データセットをサーバコンピューティングデバイスに送信する前に、それぞれ第１のクライアントコンピューティングデバイスまたは第２のクライアントコンピューティングデバイスで準同型に暗号化され得る。したがって、第１の結果エントリおよび第２の結果エントリの平文バージョンは、プライベートに管理し得る。

上述のコンピューティングシステムおよび方法の一例は、第1のクライアントコンピューティングデバイス８０および第２のクライアントコンピューティングデバイス９０を参照して説明されるが、上述のシステムおよび方法は、３つ以上のクライアントコンピューティングデバイスで使用し得る。各クライアントコンピューティングデバイスは、プライベート人工知能モデルを訓練するために使用されるそれぞれのプライベートデータセットを有し得る。さらに、各クライアントコンピューティングデバイスは、それぞれの結果データセットをサーバコンピューティングデバイス１０に送信し得る。サーバコンピューティングデバイス１０のプロセッサ１２は、複数のクライアントコンピューティングデバイスのそれぞれから受信したそれぞれの結果データセットについて、適応共蒸留モデル６０を順次、訓練し得、訓練できる。いくつかの実施形態では、プロセッサ１２は、適応共蒸留モデル６０が同時に訓練される２以上の結果データセットを含む１以上のバッチを使用して、適応共蒸留モデル６０を訓練し得る。

ユースケースシナリオの一例では、第１のクライアントコンピューティングデバイスおよび第２のクライアントコンピューティングデバイスのユーザは、検査機などの電子デバイスを製造する産業メーカである。この一例では、回路コンポーネントをソートするときに、第１のクライアントコンピューティングデバイスは、サポートベクターマシンを実行し、画像内の抵抗とコンデンサを区別する。第２のクライアントコンピューティングデバイスは、畳み込みニューラルネットワークを実行し、無傷の電子コンポーネントと損傷した電子コンポーネントを区別する。適応共蒸留モデルは、サポートベクターマシンと畳み込みニューラルネットワークの両方の出力を使用して訓練される。実行時に、適応共蒸留モデルは、無傷の抵抗器、無傷のコンデンサ、損傷した抵抗器、および損傷したコンデンサの両方を区別する。この例のサポートベクターマシンも畳み込みニューラルネットワークも製造メーカ間で共有されておらず、それぞれの訓練に使用されるデータも製造メーカ毎にプライベートが保たれる。

この例では、畳み込みニューラルネットワークの代わりに、ヒューリスティックモデルを使用して無傷の電子部品と損傷した電子部品を区別し得る。例えば、ヒューリスティックモデルは、電子部品（抵抗またはコンデンサ）の外面にひびが入っているか否か判断するように構成されたエッジ検出器であってもよい。この例では、第２のプライベートデータセットは、訓練データセットではなく、テストデータセットとして使用し得る。ヒューリスティックエッジ検出器は機械学習モデルではないが、ヒューリスティックエッジ検出器の出力をサポートベクターマシンの出力と共に使用して、適応共蒸留モデルを訓練し得る。

別のユースケースシナリオの一例では、第１のプライベート人工知能モデルは、音声のテキストトランスクリプションを生成するように構成された回帰型ニューラルネットワークである。第２のプライベート人工知能モデルは、音声入力に音声が含まれている複数の人の音声を区別するように構成された他の回帰型ニューラルネットワークである。オーディオ入力の共有セットが与えられたときに、２つの回帰型ニューラルネットワークによって生成された出力を使用して、適応共蒸留モデルを訓練して、音声入力に含まれる音声のテキストトランスクリプションを生成し、トランスクリプション内の各発話に、誰が話したかの表示をタグ付けし得る。これは、個々の回帰型ニューラルネットワーク自体や、各回帰型ニューラルネットワークの訓練に使用されるデータを共有することなく実現される。

他のユースケースシナリオの一例では、第１のプライベート人工知能モデルは、ロボットアームの動きを制御して工場内のあるエリアから別のエリアに製造品目を渡すように構成された回帰型ニューラルネットワークである。第２のプライベート人工知能モデルは、ロボットが物理環境をナビゲートするときに、自律型ロボットが動くように構成された他の回帰型ニューラルネットワークである。第１のプライベート人工知能モデルと第２のプライベート人工知能モデルに与えられる共有入力データセットは、工場環境におけるオブジェクトのサイズ、形状、および位置を示すレイアウトデータを含む。第１のプライベート人工知能モデルと第２のプライベート人工知能モデルのそれぞれの出力を使用して、適応共蒸留モデルは、製造されたアイテムが工場環境の一の領域から工場環境の他の領域に移動する結合された移動経路を出力するように訓練される。結合された各移動経路では、製造された品目がロボットアームによって最初の場所から自律型ロボットに移動され、その後、自律型ロボットによって最終的な場所に移動される。適応共蒸留モデルは、ロボットアームのメーカと自律型ロボットのメーカが、適応共蒸留モデルを訓練するユーザにプライベート機械学習モデルへのアクセスを許可することなく、結合された移動経路を生成するように訓練される。

別のユースケースシナリオの一例では、医療環境で使用するために適応共蒸留モデルを訓練する。この一例では、第１のプライベート人工知能モデルは、X線画像に存在する骨を識別するように構成されたサポートベクターマシンである。第２のプライベート人工知能モデルは、X線画像の骨が骨折しているか否か判断するように構成された畳み込みニューラルネットワークである。複数のX線画像を含む入力データセットは、第１のプライベート人工知能モデルと第２のプライベート人工知能モデルの両方に入力され、プライベートモデルの出力は、適応共蒸留モデルの訓練に使用される。訓練された適応共蒸留モデルは、X線画像を受信し、X線画像に表示される骨折がある場合は、どの骨が骨折しているかを示すそれぞれのラベルを出力するように構成される。

別のユースケースシナリオの例では、トラフィックフロー分析を実行するように適応共蒸留モデルを訓練する。この一例では、第１のプライベート人工知能モデルは、ライブカメラによって供給されまたは保存されたビデオに描画された空間（駅など）を移動する人々のグループの流量を推定するように構成された回帰型ニューラルネットワークである。第１のプライベート人工知能モデルは、数値を出力するように構成された回帰モデルである。第２のプライベート人工知能モデルは、ビデオに示されている空間内の人々の密度を推定するように構成された別の回帰モデルである。第１のプライベート人工知能モデルおよび第２のプライベート人工知能モデルは両方とも、それぞれの複数の物理的環境を通って移動する人々の群衆の複数のビデオを含む入力データセットを受信する。第１のプライベート人工知能モデルおよび第２のプライベート人工知能モデルの出力に基づいて、適応共蒸留モデルは、物理的な領域を移動する複数の人々の交通渋滞のレベル（流量および密度の関数として定義される）を推定するように訓練される。適応共蒸留モデルは、ビデオ映像を入力として受け取り、交通渋滞レベルの数値推定を出力するように構成された回帰モデルである。

いくつかの実施形態では、本明細書に記載の方法およびプロセスは、1以上のコンピューティングデバイスのコンピューティングシステムに関連付け得る。特に、そのような方法およびプロセスは、コンピュータアプリケーションプログラムまたはサービス、アプリケーションプログラミングインターフェース（API）、ライブラリ、および／または他のコンピュータプログラムプロダクトとして実装され得る。

図１６は、上述の方法およびプロセスのうちの１以上を実施できるコンピューティングシステム４００の非限定的な実施形態を概略的に示す。コンピューティングシステム４００は、簡略化された形で示される。コンピューティングシステム４００は、上述し、図１に示したコンピューティングシステム１を具現化し得る。コンピューティングシステム４００は、１以上のパーソナルコンピュータ、サーバコンピュータ、タブレットコンピュータ、ホームエンターテイメントコンピュータ、ネットワークコンピューティングデバイス、ゲームデバイス、モバイルコンピューティングデバイス、モバイル通信デバイス（例えば、スマートフォン）、および／または、コンピューティングデバイス、また、スマートウォッチおよびヘッドマウント拡張現実デバイスなどのウェアラブルデバイスを採用し得る。

コンピューティングシステム４００は、論理プロセッサ４０２、揮発性メモリ４０４、および不揮発性記憶デバイス４０６を含む。コンピューティングシステム４００は、オプションで、表示サブシステム４０８、入力サブシステム４１０、通信サブシステム４１２、および／または、図1６で図示を省略する他のコンポーネントを含み得る。

論理プロセッサ４０２は、命令を実行するように構成された１以上の物理デバイスを含む。例えば、論理プロセッサは、１以上のアプリケーション、プログラム、ルーチン、ライブラリ、オブジェクト、コンポーネント、データ構造、または他の論理構造の一部である命令を実行するように構成され得る。このような命令は、タスクの実行、データ型の実装、１以上のコンポーネントの状態の変換、技術的な効果の達成、またはその他の方法で目的の結果への到達、のために実装され得る。

論理プロセッサは、ソフトウェア命令を実行するように構成された１以上の物理プロセッサ（ハードウェア）を含み得る。追加的または代替的に、論理プロセッサは、ハードウェア実装論理またはファームウェア命令を実行するように構成された1以上のハードウェア論理回路またはファームウェアデバイスを含み得る。論理プロセッサ４０２のプロセッサは、シングルコアまたはマルチコアであり得、そこで実行される命令は、順次、並列、および／または、分散処理のために構成され得る。論理プロセッサの個々の構成要素は、任意で、連携処理のために、遠隔に配置および／または構成され得る２つ以上の別個のデバイス間に分散され得る。論理プロセッサの側面は、クラウドコンピューティング構成で構成された、リモートでアクセス可能なネットワーク化されたコンピューティングデバイスによって仮想化および実行し得る。そのような場合、これらの仮想化された側面は、さまざまな異なるマシンの異なる物理論理プロセッサで実行されることが理解される。

不揮発性記憶デバイス４０６は、論理プロセッサによって実行可能な命令を保持して、本明細書に記載の方法およびプロセスを実装するように構成された１以上の物理デバイスを含む。そのような方法およびプロセスが実施される場合、不揮発性記憶デバイス４０６の状態は、例えば、異なるデータを保持するために変換され得る。

不揮発性記憶デバイス４０６は、取り外し可能および／または内蔵の物理デバイスを含み得る。不揮発性記憶デバイス４０６は、光メモリ（例えば、CD、DVD、HD-DVD、Blu-Rayディスクなど）、半導体メモリ（例えば、ROM、EPROM、EEPROM、フラッシュメモリなど）、および／または磁気メモリ（例えば、ハードディスクドライブ、フロッピーディスクドライブ、テープドライブ、MRAMなど）、または他の大容量記憶デバイス技術を含み得る。不揮発性記憶デバイス４０６は、不揮発性、動的、静的、読み取り／書き込み、読み取り専用、シーケンシャルアクセス、番地指定（location-addressable）、ファイル指定（file-addressable）および／またはコンテンツ指定（content-addressable）デバイスを含み得る。不揮発性記憶デバイス４０６は、不揮発性記憶デバイス４０６への電力が遮断された場合でも命令を保持するように構成されていることを理解されたい。

揮発性メモリ４０４は、ランダムアクセスメモリを含む物理デバイスを含み得る。揮発性メモリ４０４は、通常、ソフトウェア命令の処理中に情報を一時的に記憶するために論理プロセッサ４０２によって利用される。揮発性メモリ４０４は、通常、揮発性メモリ４０４への電力が遮断された場合、命令を格納し続けないことを理解されたい。

論理プロセッサ４０２、揮発性メモリ４０４、および不揮発性記憶デバイス４０６の態様は、1以上のハードウェア論理構成要素に共に統合され得る。このようなハードウェア論理構成要素は、フィールドプログラマブルゲートアレイ（FPGA）、プログラムおよびアプリケーション固有の集積回路（PASIC/ASIC）、プログラムおよびアプリケーション固有の標準製品（PSSP/ASSP）、システムオンアチップ（SOC）、複雑なプログラマブル論理デバイス（CPLD）などを含み得る。

「モジュール」、「プログラム」、および「エンジン」の用語は、揮発性メモリの一部を使用して特定の機能を実行するためにプロセッサによってソフトウェアで一般的に実装されるコンピューティングシステム４００の態様の説明に使用され得、その機能は、機能を実行するようにプロセッサを特別に構成する変換処理を必要とする。したがって、モジュール、プログラム、またはエンジンは、揮発性メモリ４０４の一部を使用して、不揮発性記憶デバイス４０６によって保持される命令を実行する論理プロセッサ４０２を介してインスタンスを生成し得る。同じアプリケーション、サービス、コードブロック、オブジェクト、ライブラリ、ルーチン、API、関数などから、異なるモジュール、プログラムおよび／またはエンジンが、インスタンスが生成され得ることが理解されるであろう。同様に、同じモジュール、プログラム、および／またはエンジンが、異なるアプリケーション、サービス、コードブロック、オブジェクト、ルーチン、API、関数などによってインスタンスが生成され得る。「モジュール」、「プログラム」、および「エンジン」の用語は、実行ファイル、データファイル、ライブラリ、ドライバ、スクリプト、データベースレコードなどの個々またはグループを包含し得る。

含まれる場合、表示サブシステム４０８は、不揮発性記憶デバイス４０６によって保持されるデータの視覚的表現を提示するために使用され得る。視覚的表現は、グラフィカルユーザインタフェース（GUI）の形態をとり得る。本明細書で説明する方法およびプロセスが、不揮発性記憶デバイスによって保持されるデータを変更し、したがって不揮発性記憶デバイスの状態を変換すると、同様に、表示サブシステム４０８の状態を変換し、基礎となるデータの変化を視覚的に表し得る。表示サブシステム４０８は、事実上あらゆるタイプの技術を利用する1以上の表示装置を含み得る。そのような表示装置は、共有筐体内の論理プロセッサ４０２、揮発性メモリ４０４、および／または不揮発性記憶デバイス４０６と組み合わせ得、またはそのような表示装置は周辺機器の表示装置とし得る。

含まれる場合、入力サブシステム４１０は、キーボード、マウス、タッチスクリーン、またはゲームコントローラなどの１以上のユーザ入力デバイスを含み得、または、それらとインタフェースで連結し得る。いくつかの実施形態では、入力サブシステムは、選択された自然ユーザ入力（NUI）コンポーネントを含み得、または、それとインタフェースで連結し得る。このようなコンポーネントは、統合または周辺機器であり得、入力動作の変換および／または処理は、オンボードまたはオフボードで処理し得る。NUI構成部分の一例は、スピーチおよび／または音声認識のためのマイクロフォン；マシンビジョンおよび／またはジェスチャ認識のための赤外線、カラー、立体、および／または深度のカメラ；動き検出および／または意図認識のための、ヘッドトラッカ、アイトラッカ、加速度計および／またはジャイロスコープ；同様に、脳活動を評価するための電場センシングコンポーネント；および／またはその他の適切なセンサを含み得る。

含まれる場合、通信サブシステム４１２は、本明細書で説明される様々なコンピューティングデバイスを互いに、および他のデバイスと通信可能に接続するように構成され得る。通信サブシステム４１２は、1以上の異なる通信プロトコルと互換性のある有線および／または無線の通信デバイスを含み得る。非限定的な例として、通信サブシステムは、無線電話ネットワーク、またはHDMIからＷｉ－Ｆｉ接続までなどの有線または無線のローカルまたは広域ネットワークを介した通信のために構成され得る。いくつかの実施形態では、通信サブシステムは、コンピューティングシステム４００が、インターネットなどのネットワークを介して他のデバイスとの間でメッセージを送信および／または受信を可能とし得る。

本開示の一態様によれば、コンピューティングデバイスと共に使用する方法が開示される。方法は、入力データセットを、第1のプライベートデータセットを使用して生成された第１のプライベート人工知能モデルおよび第２のプライベートデータセットを使用して生成された第２のプライベート人工知能モデルに入力することを含み得る。方法は、第１のプライベート人工知能モデルを入力データセットに適用した結果として、第1のプライベート人工知能モデルから第１の結果データセットを受信することをさらに含み得る。方法は、第２のプライベート人工知能モデルを入力データセットに適用した結果として、第２のプライベート人工知能モデルから第２の結果データセットを受信することをさらに含み得る。第1の訓練フェーズにおいて、方法は、さらに、入力データセットを入力とし、第1の結果データセットを第１の目標出力として適応共蒸留モデルを訓練することを含み得る。第２の訓練フェーズにおいて、方法は、さらに、入力データセットを入力とし、第２の結果データセットを第２の目標出力として、適応共蒸留モデルをさらに訓練することを含み得る。適応共蒸留モデルは、第１のプライベートデータセットまたは第２のプライベートデータセットで訓練されない場合がある。

この態様によれば、第1のプライベート人工知能モデルは第1のモデルアーキテクチャを有し、第2のプライベート人工知能モデルは第１のモデルアーキテクチャとは異なる第２のモデルアーキテクチャを有し得る。

この態様によれば、第１のプライベート人工知能モデルおよび第２のプライベート人工知能モデルのそれぞれは、深層ニューラルネットワーク、カーネルマシン、またはランダムフォレストである。

この態様によれば、適応共蒸留モデルは分類モデルであってもよい。第１の結果データセットおよび第２結果データセットはそれぞれ、それぞれの複数の分類ラベルを含み得る。

この態様によれば、入力データセットは、それぞれの入力分類ラベルを有する入力データエントリの第１のサブセットと、それぞれの入力分類ラベルを持たない入力データエントリの第２のサブセットとを含む部分的にラベル付けされたデータセットであり得る。

この態様によれば、適応共蒸留モデルは回帰モデルである。第１の結果データセットおよび第２の結果データセットはそれぞれ、それぞれ複数の数値を含み得る。

この態様によれば、適応共蒸留モデルは、回帰型ニューラルネットワークであり得る。入力データセットは、それぞれが複数の順序付けられた入力値を含む複数の入力系列を含み得る。

この態様によれば、少なくとも第1の訓練フェーズおいて、適応共蒸留モデルは、重み付き損失関数を利用する訓練アルゴリズムを使用して訓練され得る。

この態様によれば、重み付き損失関数は、適応共蒸留モデルの予測出力と、第１の結果データセットの目標データ出力との間の損失を、第１の類似度アルゴリズムによって決定される入力データセット内の係数と第１のプライベートセットとの間のデータ距離、第１の結果データセットにおける信頼値、および、人が指定した入力のうちの１以上のデータ距離に基づく重み係数によって重み付けし得る。

この態様によれば、第１の結果データセットまたは第２の結果データセットは、準同型に暗号化され得る。

この態様によれば、適応共蒸留モデルは、教師あり学習を介して少なくとも部分的に訓練され得る。

本開示の別の態様によれば、プロセッサを有するサーバコンピューティングデバイスを含むコンピューティングシステムが開示される。プロセッサは、第1のプライベートデータセットを使用して生成された第1のプライベート人工知能モデルを実行する第1のクライアントコンピューティングデバイスに入力データセットを送信するように構成され得る。プロセッサは、さらに、第２のプライベートデータセットを使用して生成された第２のプライベート人工知能モデルを実行する第２のクライアントコンピューティングデバイスに入力データセットを送信するように構成され得る。プロセッサは、さらに、第1のプライベート人工知能モデルを入力データセットに適用した結果として、第1のクライアントコンピューティングデバイスで実行された第1のプライベート人工知能モデルから、第1の結果データセットを受信するように構成され得る。プロセッサは、さらに、第２のプライベート人工知能モデルを入力データセットに適用した結果として、第２のクライアントコンピューティングデバイスで実行された第２のプライベート人工知能モデルから、第２の結果データセットを受信するように構成され得る。第1の訓練フェーズでは、プロセッサは、さらに、入力データセットを入力とし、第1の結果データセットを第1の目標出力として、適応共蒸留モデルを訓練するように構成され得る。第２の訓練フェーズでは、プロセッサは、さらに、入力データセットを入力として、第２の結果データセットを第２の目標出力として、適応共蒸留モデルを訓練するように構成され得る。適応共蒸留モデルは、第１のプライベートデータセットまたは第２のプライベートデータセットで訓練されない場合があり得る。

この態様によれば、第１のプライベート人工知能モデルは第1のモデルアーキテクチャを有し得、第２のプライベート人工知能モデルは第１のモデルアーキテクチャとは異なる第２のモデルアーキテクチャを有し得る。

この態様によれば、第１のプライベート人工知能モデルおよび第２のプライベート人工知能モデルのそれぞれは、深層ニューラルネットワーク、カーネルマシン、またはランダムフォレストであり得る。

この態様によれば、適応共蒸留モデルは分類モデルであり得る。第１の結果データセットおよび第２の結果データセットはそれぞれ、それぞれの複数の分類ラベルを含み得る。

この態様によれば、適応共蒸留モデルは回帰モデルであり得る。第１の結果データセットおよび第２の結果データセットはそれぞれ、それぞれ複数の数値を含み得る。

この態様によれば、プロセッサは、さらに、テンプレートデータセットでテンプレート機械学習モデルを訓練するように構成され得る。プロセッサは、さらに、テンプレート機械学習モデルを第１のクライアントコンピューティングデバイスおよび第２のクライアントコンピューティングデバイスに送信するように構成され得る。第１のプライベート人工知能モデルは、第１のプライベートデータセットでさらに訓練されたテンプレート機械学習モデルの第１のコピーであり得る。第２のプライベート人工知能モデルは、第２のプライベートデータセットでさらに訓練されたテンプレート機械学習モデルの第２のコピーであり得る。

本開示の別の態様によれば、コンピューティングデバイスを用いて使用する方法が開示される。方法は、入力データセットを、第１のプライベートデータセットを使用して生成された第１のプライベート人工知能モデルおよび第２のプライベートデータセットを使用して生成された第２のプライベート人工知能モデルに入力することを含み得る。方法は、さらに、第１のプライベート人工知能モデルを入力データセットに適用した結果として、第１のプライベート人工知能モデルから第１の結果データセットを受信することを含み得る。第１の結果データセットは、複数の第１の分類ラベルを含み得る。方法は、さらに、入力データセットに第２のプライベート人工知能モデルを適用した結果として、第２のプライベート人工知能モデルから第２の結果データセットを受信することを含み得る。第２の結果データセットは、複数の第２の分類ラベルを含み得る。第１の訓練フェーズにおいて、方法は、さらに、入力データセットを入力とし、第１の結果データセットを第１の目標出力として、適応共蒸留モデルを訓練することを含み得る。第２の訓練フェーズにおいて、方法は、さらに、入力データセットを入力とし、第２の結果データセットを第２の目標出力として、適応共蒸留モデルをさらに訓練することを含み得る。適応共蒸留モデルは、第１のプライベートデータセットまたは第２のプライベートデータセットで訓練されない場合があり得る。方法は、さらに、複数の実行時入力データエントリを含む実行時データセットを受信することを含み得る。複数の実行時入力データエントリのそれぞれについて、方法は、さらに、複数の第１の分類ラベルおよび複数の第２の分類ラベルを含む組み合せた分類ラベルセットから選択された実行時分類ラベルを出力することを含み得る。

ここで開示された構成および／またはアプローチは本質的に例示的であり、多数のバリエーションが可能であり、これらの特定の実施形態または例は、限定的な意味で考慮されるべきではないことが理解されるであろう。ここで開示される特定のルーチンまたは方法は、任意の数の処理方法のうちの1以上を表し得る。したがって、図示および／または説明される様々な動作は、図示および／または説明される順序で、他の順序で、並行して、または省略されて実行され得る。同様に、上記の処理の順序は変更され得る。

本開示の主題は、ここで開示される様々なプロセス、システムおよび構成、および他の特徴、機能、動作、および／または特性のすべての新規かつ非自明な組み合わせおよびサブコンビネーション、同様にあらゆる全ての等価物を含む。

Claims

コンピューティングデバイスで利用される方法であって、
第１のプライベートデータセットを用いて生成された第１のプライベート人工知能モデルと、第２のプライベートデータセットを用いて生成された第２のプライベート人工知能モデルとに、入力データセットを入力し、
前記第１のプライベート人工知能モデルに前記入力データセットを適用させた結果として、前記第１のプライベート人工知能モデルから、第１の結果データセットを受信し、
前記第２のプライベート人工知能モデルに前記入力データセットを適用させた結果として、前記第２のプライベート人工知能モデルから、第２の結果データセットを受信し、
第１の訓練フェーズにおいて、前記入力データセットを入力とし、前記第１の結果データセットを目標出力として、機械学習モデルを訓練し、
第２の訓練フェーズにおいて、前記入力データセットを入力とし、前記第２の結果データセットを目標出力として、機械学習モデルを訓練する
方法であって、
前記機械学習モデルは、前記第１のプライベートデータセットまたは前記第２のプライベートデータセットで訓練されていない
方法。
前記第１のプライベート人工知能モデルは、第１のモデルアーキテクチャを有し、
前記第２のプライベート人工知能モデルは、前記第１のモデルアーキテクチャとは異なる第２のモデルアーキテクチャを有する
請求項１に記載の方法。
前記第１のプライベート人工知能モデルおよび前記第２のプライベート人工知能モデルのそれぞれは、深層ニューラルネットワーク、カーネルマシンまたはランダムフォレストである
請求項２に記載の方法。
前記機械学習モデルは、分類モデルであって、
前記第１の結果データセットおよび第２の結果データセットのそれぞれは、それぞれの複数の分類ラベルを含む
請求項１に記載の方法。
前記入力データセットは、それぞれの入力分類ラベルを含む入力データエントリの第１のサブセットおよびそれぞれの入力分類ラベルを含む入力データエントリの第２のサブセットを含む複数のラベル付きデータセットである
請求項４に記載の方法。
前記機械学習モデルは、回帰モデルであって、
前記第１の結果データセットおよび前記第２の結果データセットは、それぞれ、それぞれの複数の数値を含む
請求項１に記載の方法。
前記機械学習モデルは、回帰型ニューラルネットワークであって、
前記入力データセットは、複数の順序付けされた数値を有する複数の入力系列を含む
請求項１に記載の方法。
少なくとも前記第１の訓練フェーズにおいて、前記機械学習モデルは、重み付き損失関数を利用する訓練アルゴリズムを用いて訓練される
請求項１に記載の方法。
前記重み付き損失関数は、前記機械学習モデルの予測出力と前記第１の結果データセットの目標データ出力との間の損失を、第１の類似度アルゴリズムによって決定される前記入力データセット内の係数と前記第１のプライベートデータセットとの間のデータ距離、前記第１の結果データセットにおける信頼値、および人が指定した入力のうちの１つ以上に基づく重み係数によって重み付けする、
請求項８に記載の方法。
前記第１の結果データセットまたは前記第２の結果データセットは、準同型に暗号化される
請求項１に記載の方法。
前記機械学習モデルは、少なくとも、教師あり学習によって一部が訓練される
請求項１に記載の方法。
コンピューティングシステムであって、
プロセッサを有するサーバコンピューティングデバイスを含み、
前記プロセッサは、
第１のプライベートデータセットによって生成された第１のプライベート人工知能モデルを実行する第１のクライアントコンピューティングデバイスと、第２のプライベートデータセットによって生成された第２のプライベート人工知能モデルを実行する第２のクライアントコンピューティングデバイスとに、入力データセットを送信し、
前記第１のプライベート人工知能モデルに前記入力データセットを適用させた結果として、前記第１のクライアントコンピューティングデバイスにおいて実行された前記第１のプライベート人工知能モデルから、第１の結果データセットを受信し、
前記第２のプライベート人工知能モデルに前記入力データセットを適用させて結果として、前記第２のクライアントコンピューティングデバイスにおいて実行された前記第２のプライベート人工知能モデルから、第２の結果データセットを受信し、
第１の訓練フェーズにおいて、前記入力データセットを入力とし、前記第１の結果データセットを第１の目標出力として、機械学習モデルを訓練し、
第２の訓練フェーズにおいて、さらに、前記入力データセットを前記入力とし、前記第２の結果データセットを第２の目標出力として、前記機械学習モデルを訓練する、
ように構成され、
前記機械学習モデルは、前記第１のプライベートデータセットおよび第２のプライベートデータセットによって訓練されていない
コンピューティングシステム。
前記第１のプライベート人工知能モデルは、第１のモデルアーキテクチャを有し、
前記第２のプライベート人工知能モデルは、前記第１のモデルアーキテクチャとは異なる第２のモデルアーキテクチャを有する
請求項１２に記載のコンピューティングシステム。
前記第１のプライベート人工知能モデルおよび前記第２のプライベート人工知能モデルのそれぞれは、深層ニューラルネットワーク、カーネルマシンまたはランダムフォレストである
請求項１３に記載のコンピューティングシステム。
前記機械学習モデルは、分類モデルであって、
前記第１の結果データセットおよび第２の結果データセットのそれぞれは、それぞれの分類ラベルを含む
請求項１２に記載のコンピューティングシステム。
前記機械学習モデルは、回帰モデルであって、
前記第１の結果データセットおよび前記第２の結果データセットは、それぞれ、それぞれの複数の数値を含む
請求項１２に記載のコンピューティングシステム。
前記機械学習モデルは、回帰型ニューラルネットワークであって、
前記入力データセットは、複数の順序付けされた数値を有する複数の入力系列を含む
請求項１２に記載のコンピューティングシステム。
前記プロセッサはさらに、
テンプレートデータセットによりテンプレート機械学習モデルを訓練し、
前記テンプレート機械学習モデルを前記第１のクライアントコンピューティングデバイスおよび前記第２のクライアントコンピューティングデバイスに送信する
ように構成され、
前記第１のプライベート人工知能モデルは、さらに、前記第１のプライベートデータセットによって訓練された、前記テンプレート機械学習モデルの第１のコピーであって、
前記第２のプライベート人工知能モデルは、さらに、前記第２のプライベートデータセットによって訓練された、前記テンプレート機械学習モデルの第２のコピーである
請求項１２に記載のコンピューティングシステム。
前記機械学習モデルは、重み付き損失関数を利用する訓練アルゴリズムを用いて訓練される
請求項１２に記載のコンピューティングシステム。
コンピューティングデバイスを用いる方法であって、
前記方法は、
第１のプライベートデータセットを用いて生成された第１のプライベート人工知能モデルと、第２のプライベートデータセットを用いて生成された第２のプライベート人工知能モデルとに、入力データセットを入力し、
前記第１のプライベート人工知能モデルに前記入力データセットを適用させた結果として、前記第１のプライベート人工知能モデルから、複数の第１の分類ラベルを含む第１の結果データセットを受信し、
前記第２のプライベート人工知能モデルに前記入力データセットを適用させて結果として、前記第２のプライベート人工知能モデルから、複数の第２の分類ラベルを含む第２の結果データセットを受信し、
第１の訓練フェーズにおいて、前記入力データセットを入力とし、前記第１の結果データセットを第１の目標出力として、機械学習モデルを訓練し、
第２の訓練フェーズにおいて、さらに、前記入力データセットを前記入力とし、前記第２の結果データセットを第２の目標出力として、前記機械学習モデルを訓練し、
複数の実行時入力データエントリを含む実行時データセットを受信し、
各複数の実行時入力データエントリに対し、複数の第１の分類ラベルおよび複数の第２の分類ラベルセットを含む合わせられた分類ラベルセットから選択された実行時分類ラベルを出力する
方法。