JP7492088B2

JP7492088B2 - 重み付き知識移転装置、方法、及びシステム

Info

Publication number: JP7492088B2
Application number: JP2023540680A
Authority: JP
Inventors: ジョージチャルキディス; 俊太郎由井; 渉竹内
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2024-05-28
Anticipated expiration: 2041-03-11
Also published as: EP4305562A1; JP2024502081A; US20240320507A1; WO2022190319A1; EP4305562A4

Description

本開示は、一般に、機械学習技術に関し、より詳細には、プライバシーを保護する機械学習モデルを生成するための重み付き知識移転技術に関する。

近年、パターンを認識し、それにより有益な情報及び識見を抽出することを可能とする、データ分析のための機械学習アプローチが広く探究されている。機械学習技術は、既知の結果を有するトレーニングデータに基づいて、一般化を行うようトレーニングされることができるアルゴリズムを含む。いったんトレーニングされると、これらの機械学習アルゴリズムは、未知の結果を有するケースについて、結果を予測することに適用可能となる。ニューラルネットワーク、隠れマルコフモデル、信念ネットワーク、サポートベクターマシンなどを含む機械学習アプローチは、大量のデータの存在、ノイズのあるパターン及び一般原理の欠如によって特徴づけられる領域に観念的に適しており、ヘルスケア、財務及び保険を含む、様々な分野に適用されてきた。

いくつかの機械学習の適用は、例えば臨床治験における患者の治療歴といった、機密にあたるトレーニングデータの使用を含む。そのようなトレーニングデータに基づいてトレーニング済みの機械学習モデルは、不注意にかつ黙示的に、当該機密情報のいくつかを保持することがあり、トレーニング済みのモデルを慎重に分析することにより、機密情報が権限のない行為者によって取得されるプライバシーリスクにつながる可能性がある。

従って、そのような問題に鑑みて、トレーニングデータのプライバシーを保護するための方法が提案されてきた。例えば、Ｐａｐｅｒｎｏｔｅｔａｌ．（非特許文献１）は「この問題に対処するため、我々は、トレーニングデータのための強力なプライバシー保証を提供するための、一般的に適用可能なアプローチ：教師アンサンブルによるプライベート集合体（ＰＡＴＥ）を示す。このアプローチは、ブラックボックス方式で、例えば異なるユーザサブセットからの記録といった、分解されたデータセットによってトレーニング済みの複数のモデルを組み合わせる。それらは直接機密データに依拠することから、これらのモデルは公表されず、代わりに「生徒」モデルのための「教師」として使用される。生徒は、全ての教師の中からノイズのある投票によって選ばれた出力を予測するよう学習し、個別の教師や根本のデータやパラメータに直接アクセスできない。生徒のプライバシー特性は、（生徒のトレーニングを規定する単一の教師および単一のデータセットはないことから）直感的に、及び差分プライバシーの観点から形式的に、理解可能である。競争相手が、生徒に問うだけでなくその内部作業を調べることができたとしても、これらの特性は保持される。従来の作業に比べて、当該アプローチは、どのように教師がトレーニングされたかについて、弱い仮説を立てるのみである。それは、ＤＮＮなどの非凸状モデルを含む、どのようなモデルにも当てはまる。我々は、向上されたプライバシー分析及び準教師付き学習のおかげで、ＭＮＩＳＴ及びＳＶＨＮにおける最新のプライバシー／実用性トレードオフを達成する。」と開示する。

「プライベートトレーニングデータから深層学習を行う準教師付き知識移転」Ｐａｐｅｒｎｏｔｅｔａｌ．、表現学習国際学会２０１７、２０１７

非特許文献１は、直接機密トレーニングデータによらず、代わりに、それぞれが機密トレーニングデータの一部によってトレーニングされた複数の「教師」モデルによってトレーニングされる、「生徒」機械学習モデルの技術を開示する。これらの教師モデルは公開されず、生徒モデルは単一の生徒モデルや単一のデータセットに依拠しないことから、権限のない行為者によって教師モデルから機密トレーニングデータに関する情報が抽出されることはない。このように、機密トレーニングデータのプライバシーは促進される。

しかしながら、非特許文献１に開示された技術は、プライベートモデルのトレーニングに使用されるプライベートデータセットと公開モデルのトレーニングに使用される公開データセットとの間に大きなばらつきがある場合、プライベートモデルから公開モデルへ知識を移転する能力を欠く。例えば、非特許文献１は、プライバシーを保護する機械学習モデルを作り出すのに使用可能な知識移転データセットを生成する技術を開示するものではない。結果として、非特許文献１は、プライバシーを保護する機械学習モデルを作り出すのに使用可能な、プライベートデータセットにおける特性の特徴を伝達する技術を提供しない。

従って、本開示の目的は、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行う装置、方法、及びシステムを提供することである。

本開示の一つの代表的な例は、公開データセットとプライベートデータセットとの類似度計算に基づき、プライベートデータセットに関して類似度閾値を達成する公開データセットのサブセット、及び公開データセットのサブセットに含まれる公開特性のセットの重みを示す類似度重みベクトルを生成するように構成されたデータ選択部と、プライベートデータセットに基づいてトレーニングされた機械学習モデルのセットによって公開データセットのサブセットを処理することにより、公開特性のセットのラベルを示す公開ラベルベクトルを生成するように構成された機械学習モデル管理部と、重みベクトル、公開データセットのサブセット、及び公開ラベルベクトルに基づいて、公開機械学習モデルを生成するように構成された知識移転部と、を含む重み付き知識移転装置に関する。

本開示によると、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行う装置、方法、及びシステムを提供することが可能となる。

上述した以外の課題、構成及び効果は、発明の実施形態に係る以下の説明によって明らかとなる。

図１は、本開示の実施形態を実施するためのコンピューティングアーキテクチャ例を示す。図２は、実施形態に係る重み付き知識移転システムの構成例を示す。図３は、実施形態に係る重み付き知識移転装置の論理構成例を示す。図４は、実施形態に係る、プライバシーを保護する公開機械学習モデルを作成するのに使用されるターゲット特性のセットを選択する例を示す。図５は、実施形態に係る、プライバシーを保護する公開機械学習モデルを作成するための、重み付き知識移転部の論理構成例を示す。図６は、実施形態に係る知識移転データセット作成工程のフローチャートを示す。図７は、実施形態に係る類似度重み付け工程のフローチャートを示す。図８は、実施形態に係る重み付き知識移転工程のフローチャートを示す。図９は、本開示の第二実施形態に係る重み付き知識移転装置の論理構成例を示す。図１０は、本開示の第二実施形態に係る、プライベートデータセットのパーティショニングを行い、機械学習モデルのセットを生成する、パーティショニング最適化部の論理構成例を示す。図１１は、本開示の第二実施形態に係る、トレーニング済みの機械学習モデル生成工程のフローチャーを示す。図１２は、データ選択及び重み付き知識移転の最適化のための、第二実施形態に係る重み付き知識移転装置の論理構成を示す。図１３は、本開示の第二実施形態に係る、データ閾値処理最適化工程のフローチャートを示す。

以下、添付の図面を引用しながら本発明の実施形態を説明する。ここに説明される実施形態は、請求項に係る発明を制限する意図を有さず、実施形態に係る説明における各構成要素及びそのみ合わせは、本発明の実施に厳密に必要とは限らないことに留意されたい。

様々な態様が、以下の説明及び添付図面に開示される。本開示の範囲を逸脱することなく、別の態様も考案可能である。加えて、本開示の既知の要素は、本開示に関連する詳細な説明を妨げないため、その詳細は説明されず、または省略される。

「例示的な」及びまたは「例」の語は、ここでは、「例、事例、または例示としての役割を果たす」という意味として使われる。「例示的な」及びまたは「例」としてここの説明されるすべての態様は、必ずしも他の態様より好ましいまたは有利であるということを意味しない。同様に、「開示の態様」は、全ての開示の態様が言及された特性、有利点、または作動形態を含む必要はない。

さらに、例えば、多くの態様が計算装置の構成要素によって実施される動作シーケンスとして説明される。ここに説明される様々な動作は、（例えばカスタムチップ（ＡＳＩＣ）といった）特定の回路によって、一つ以上のプロセッサによって実行されるプログラム命令によって、またはそれらの組み合わせによって、実施可能であることが認識される。加えて、ここに説明される動作のシーケンスは、実行される際に関連プロセッサによってここに説明された機能性を実施させる、対応するコンピュータ命令のセットをその中に保存する、あらゆる形態のコンピュータ読取可能な記録媒体の中に全体的に具現化されるものと認識されてもよい。従って、様々な開示の態様が多種の形状に具現化され、そのすべてが請求項に記載の主題の範囲に含まれると考えられる。

例えばヘルスケア、財務及び保険といった領域において、個人データのプライバシーを保護することが非常に重要である。意図されない情報漏洩は、その情報を保持する企業と、その情報が回収された個人の両者にとって有害な結果をもたらす可能性がある。機械学習サービス（個人的健康予測、経済的リスク予測）を提供する企業の数が増えるにつれ、個人データのプライバシーを保護する必要もまた増加する。

いくつかのケースにおいて、機械学習の適用は、例えば臨床治験における患者の治療歴といった、機密であるトレーニングデータを使用することを伴う可能性がある。機械学習モデルのトレーニングに使用するために個人データを供与する個人は、善意で供与するのであり、第三者からアクセス可能な機械学習モデルは自分の個人情報を曝すものではないと信じている。

しかしながら、悪意のある行為者は機械学習モデルをハックし、その機械学習モデルのトレーニングに使用されたプライベートデータを供与した個人の個人情報を得ることが可能である。

このような問題に鑑みて、機械学習モデルを通じて悪意のある行為者にプライベートデータが漏洩されることを防ぐため、プライバシー保護構成を具備することが可能である。しかしながら、ヘルスケアデータを例に取ると、プライベートと公開されたデータソースとの異なる本質によって、プライベートデータに基づいて直接トレーニング済みの機械学習モデルの予測性能に似た予測性能を達成するプライバシーを保護する機械学習モデルを作成するのは難しい。

例えば、プライベート機械学習モデルに匹敵する性能を達成する、ユーザフレンドリーなプライバシーを保護する公開機械学習モデルを作成するためには、プライベートモデルから公開モデルへと知識が移転されることが必要である。しかしながら、従来の方法も、プライベートモデルのトレーニングに使用されるプライベートデータセットと公開モデルのトレーニングに使用される公開データセットとの間に大きなばらつきがある場合、プライベートモデルから公開モデルへ知識を移転する能力を欠く。例えば、従来の方法は、プライバシーを保護する機械学習モデルを作成するために使用可能な、知識移転データセットを生成する技術を開示しない。結果として、従来の方法は、プライバシーを保護する機械学習モデルを作り出すのに使用可能な、プライベートデータセットにおける特性の特徴を伝達する技術を提供しない。

従って、本開示の態様は、プライベートデータセットに似せた公開データセットを生成し、知識移転データセットを作成するためにプライベートデータセットと公開データセットとの間のターゲット特性のセットを選択し、知識移転データセットを介してプライベートデータセットにおいて見いだされた特徴を伝達するために重みを割り当て、知識移転データセットと割り当てられた重みとに基づいて、プライベートから公開モデルへの重み付き知識移転を実施することにより、上記の問題に取り組むものである。
追加的な開示の態様は、知識移転性能を最適化するため、公開データのパーティショニングの仕組み及び機械学習モデルのセットのパラメータ構成を決定することに関する。追加的な開示の態様は、公開知識移転データセットから公開トレーニングデータのセットを選択するための閾値のセットを決定し、選択された公開データサブセットによって複数の機械学習モデルのトレーニングを行い、公開モデルの知識移転能力及び性能を最適化するため閾値及びパラメータ構成を選択することに関する。

このように、本開示によると、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行う装置、方法、及びシステムを提供することが可能となる。

添付図面を参照すると、図１は、実施形態に係る、本開示の様々な実施形態を実施するための、コンピュータシステム３００のハイレベルブロック図を示す。ここに示される様々な実施形態における機構や装置は、あらゆる適切な計算システムに等しく適用される。コンピュータシステム３００の主な構成要素は、一つ以上のプロセッサ３０２、メモリ３０４、端末インタフェース３１２、ストレージインタフェース３１４、Ｉ／Ｏ（入力／出力）装置インタフェース３１６、及びネットワークインタフェース３１８を含み、それらすべては、メモリバス３０６、Ｉ／Ｏバス３０８、バスインタフェース部３０９、及びＩ／Ｏバスインタフェース部３１０を介したコンポーネント間通信のために、直接または間接的に通信可能に連結される。

コンピュータシステム３００は、ここではまとめてプロセッサ３０２と呼ぶ、一つ以上の汎用プログラム可能中央処理装置（ＣＰＵ）３０２Ａ及び３０２Ｂを含んでもよい。実施形態において、コンピュータシステム３００は複数のプロセッサを含んでもよい。しかしながら、ある実施形態においては、コンピュータシステム３００は、代替的に、単一のＣＰＵシステムであってよい。各プロセッサ３０２はメモリ３０４に保存された命令を実施し、一つ以上のオンボードキャッシュのレベルを含んでもよい。

実施形態において、メモリ３０４は、データやプログラムを保存や符号化するためのランダムアクセス半導体メモリ、ストレージ装置、または（揮発性または不揮発性の）記憶媒体を含んでもよい。ある実施形態においては、メモリ３０４はコンピュータシステム３００の仮想メモリ全体を表し、さらにコンピュータシステム３００に連結されたまたはネットワークを介して接続された他のコンピュータシステムの仮想メモリを含んでもよい。メモリ３０４は単一の一体的な実態として概念的に考えられもよいが、別の実施形態においては、メモリ３０４は例えばキャッシュや他のメモリ装置の階層といった、より複雑な構成を有する。例えば、メモリはキャッシュの複数のレベルに存在してもよく、これらのキャッシュはさらに機能によって分けられてもよく、それによって一つのキャッシュは命令を保持し、別のキャッシュは非命令データを保持し、それらはプロセッサや複数のプロセッサによって使われる。メモリはさらに、様々ないわゆる不均等メモリアクセス（ＮＵＭＡ）コンピュータアーキテクチャとして知られるように、分配されて異なるＣＰＵやＣＰＵのセットに関連付けられることができる。

メモリ３０４は、ここに論じられたようにデータ移転処理を行うため、様々なプログラム、モジュール及びデータ構造の全部または一部を保持してもよい。例えば、メモリ３０４は、重み付き知識移転アプリケーション３５０を保持することができる。実施形態において、重み付き知識移転アプリケーション３５０は、さらに以下に説明するような他の機能を実施するため、プロセッサ３０２において実施される命令やステートメント、またはプロセッサ３０２において実施される命令やステートメントによって解釈される命令やステートメントを含んでもよい。
ある実施形態において、重み付き知識移転アプリケーション３５０は、プロセッサベースシステムに代わる、またはそれに追加される、半導体装置、チップ、論理ゲート、回路、回路カード、及びまたは他の物理ハードウェア装置を介して、ハードウェアに実装される。実施形態において、重み付き知識移転アプリケーション３５０は、命令またはステートメントに加えて、データを含んでもよい。ある実施形態において、バスインタフェース部３０９、プロセッサ３０２、またはコンピュータシステム３００の他のハードウェアと直接通信するカメラ、センサ、または他のデータ入力装置（図示せず）を有してもよい。そのような構成において、プロセッサ３０２がメモリ３０４及び潜在要因特定アプリケーションにアクセスする必要は低減される。

コンピュータシステム３００は、プロセッサ３０２、メモリ３０４、ディスプレイシステム３２４、及びＩ／Ｏバスインタフェース部３１０の間の通信を扱うバスインタフェース部３０９を含んでもよい。Ｉ／Ｏバスインタフェース部３１０は、様々なＩ／Ｏ部との間でデータを移転するため、Ｉ／Ｏバス３０８と連結されてもよい。Ｉ／Ｏバスインタフェース部３１０は、Ｉ／Ｏプロセッサ（ＩＯＰｓ）やＩ／Ｏアダプタ（ＩＯＡｓ）としても知られる複数のＩ／Ｏインタフェースユニット３１２、３１４、３１６及び３１８と、Ｉ／Ｏバス３０８を介して通信する。ディスプレイシステム３２４は、ディスプレイコントローラ、ディスプレイメモリ、またはその両者を含んでもよい。ディスプレイコントローラは、ビデオ、オーディオ、または両方のタイプのデータをディスプレイ装置３２６に提供してもよい。さらに、コンピュータシステム３００は、データを収集してプロセッサ３０２に提供するように構成された一つ以上のセンサまたは他の装置を含んでもよい。
例として、コンピュータシステム３００は（例えば心拍データやストレスレベルデータを収集するための）生体認証センサ、（例えば湿度データ、気温データ、圧力データを収集するための）環境センサ、（例えば加速度データ、動作データを収集するための）モーションセンサ、などを含んでもよい。他のタイプのセンサも可能である。ディスプレイメモリはビデオデータをバッファするための専用メモリであってよい。ディスプレイシステム３２４は、例えばスタンドアロン型ディスプレイ画面、コンピュータモニタ、テレビ、またはタブレットまたは携帯用の装置ディスプレイといった、ディスプレイ装置３２６と連結されてもよい。
一つの実施形態において、ディスプレイ装置３２６はオーディオを出力するための一つ以上のスピーカを含んでもよい。代替的に、オーディオを出力するための一つ以上のスピーカはＩ／Ｏインタフェース部と連結されてもよい。別の実施形態において、ディスプレイシステム３２４によって提供される一つ以上の機能は、プロセッサ３０２も含んだ集積回路上にあってもよい。加えて、バスインタフェース部３０９によって提供される一つ以上の機能は、プロセッサ３０２も含んだ集積回路上にあってもよい。

Ｉ／Ｏインタフェース部は、様々なストレージやＩ／Ｏ装置との通信を支える。例として、端末インタフェース部３１２は、（ビデオディスプレイ装置、スピーカ、及びまたはテレビセットといった）ユーザ出力装置及び（キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、または他のポインティング装置といった）ユーザ入力装置を含んでもよい、一つ以上のユーザＩ／Ｏ装置３２０の接続を支える。ユーザは、ユーザＩ／Ｏ装置３２０及びコンピュータシステム３００に対して入力データとコマンドを提供するために、ユーザインタフェースを用いてユーザ入力装置を操作することができ、またユーザ出力装置を介して出力データを受け取ることができる。例として、ユーザインタフェースは、ディスプレイ装置に表示されたり、スピーカで再生されたり、プリンタで印刷されたりすることによって、ユーザＩ／Ｏ装置３２０を介して提示されてもよい。

ストレージインタフェース３１４は、一つ以上のディスクドライブまたは直接アクセスストレージ装置３２２（これらは典型的には回転磁気ディスクドライブ型ストレージ装置であるが、代替的に、ホストコンピュータから単一の大型ストレージ装置とみなされるように構成されたディスクドライブアレイ、またはフラッシュメモリといったソリッドステートドライブを含む、他のストレージ装置であってよい）の取り付けを支える。いくつかの実施形態において、ストレージ装置３２２は、あらゆるタイプの補助ストレージ装置を介して実装されてもよい。メモリ３０４、またはそのあらゆる部分の内容は、ストレージ装置３２２に保存され、必要に応じて取り出し可能である。Ｉ／Ｏ装置インタフェース３１６はあらゆる多種のＩ／Ｏ装置またはプリンタやファックスといった他のタイプの装置に対してインタフェースを提供する。ネットワークインタフェース３１８は、コンピュータシステム３００から他のデジタル装置やコンピュータシステムに対する一つ以上の通信路を提供する。これらの通信路は、例えば、一つ以上のネットワーク３３０を含んでもよい。

図１に示すコンピュータシステム３００は、プロセッサ３０２、メモリ３０４、バスインタフェース３０９、ディスプレイシステム３２４、及びＩ／Ｏバスインタフェース部３１０の間の直接通信路を提供する特定のバス構造を図示するものの、別の実施形態において、コンピュータシステム３００は、例えば階層、スターまたはウェブ構造における二地点間リンク、複数の階層的バス、パラレル及び冗長経路、またはその他の適切なタイプの構造といった、あらゆる形に配置可能な異なるバスや通信路を含んでもよい。さらに、Ｉ／Ｏバスインタフェース部３１０及びＩ／Ｏバス３０８が単一のユニットとして示されるものの、コンピュータシステム３００は、実際、複数のＩ／Ｏバスインタフェースユニット３１０及びまたは複数のＩ／Ｏバス３０８を含んでもよい。Ｉ／Ｏバス３０８と様々なＩ／Ｏ装置に通じる様々な通信経路とを分ける複数のＩ／Ｏインタフェース部が示されるものの、他の実施形態において、いくつかのまたはすべてのＩ／Ｏ装置は一つ以上のシステムＩ／Ｏバスに直接接続される。

様々な実施形態において、コンピュータシステム３００はマルチユーザメインフレームコンピュータシステム、シングルユーザシステム、または直接のユーザインタフェースをほとんどまたは全く有しないものの、他のコンピュータシステム（クライアント）からのリクエストを受けるサーバコンピュータまたは類似装置である。他の実施形態において、コンピュータシステム３００は、デスクトップコンピュータ、ポータブルコンピュータ、ラップトップまたはノートブックコンピュータ、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、またはその他の適したタイプの電子装置に実装されてもよい。

次に、本開示の実施形態に係る重み付き知識移転システムの構造例について、図２を参照しつつ説明する。

図２は、実施形態に係る、重み付き知識移転システム１００の構成例を示す。図２に示す通り、重み付き知識移転システム１００は、主として、プライベート装置１０１、重み付き知識移転装置１０４、及び公開装置１０６を含む。プライベート装置１０１、重み付き知識移転装置１０４、及び公開装置１０６は、ローカルエリアネットワーク（ＬＡＮ）やインターネットなどの通信ネットワークを介して、通信可能に接続可能である。

プライベート装置１０１は、プライベートデータセット１０２と、プライベートデータセット１０２においてトレーニングされたプライベート機械学習モデル１０３とを保存するように構成されたストレージ装置である。例として、プライベート装置１０１は、プライベートデータセット１０２とプライベート機械学習モデル１０３とを保持するように構成されたハードディスクドライブ、ソリッドステートドライブ、またはクラウドベースストレージレポジトリの集合を含んでもよい。

プライベートデータセット１０２は秘密情報を含むデータの集合を含んでもよい。例えば、プライベートデータセット１０２は、一人以上の個人、ビジネス、または他の組織の医療記録、金融取引、または個人データ（氏名、住所、パスワード、銀行口座情報）を含んでもよい。

プライベート機械学習モデル１０３は、プライベートデータセット１０２を用いてトレーニングされた機械学習モデルを含んでもよい。例えば、機械学習モデルは、プライベートデータセット１０２に基づいて患者の健康リスクを予測するようにトレーニングされたニューラルネットワークであってもよい。

プライベート装置１０１は、個人、ビジネス、または他の組織のプライベートネットワークにおいて維持されてもよい。例えば、プライベート装置１０１は病院に属してもよい。実施形態において、プライベート装置１０１はインタフェース１１０を介して重み付き知識移転装置１０４に接続されてもよい。プライベート装置１０１は、重み付き知識移転装置１０４によって公開装置１０６から遮断されてもよい（つまり、プライベート装置１０１は公開装置１０６からアクセス不能であってもよい）。従って、公開機械学習モデル１０７は公開データセット１０８のみを使用してトレーニングされたため、公開装置１０６のインタフェース部１０９を通じて公開機械学習モデル１０７にアクセスするユーザ１１３は、悪意のある行為（例えばハッキング）を通じてプライベートデータセット１０２を得ることはできない、

公開装置１０６は、公開データセット１０８及び公開データセット１０２に基づいてトレーニングされた公開機械学習モデル１０７を保持するように構成されたストレージ装置である。例えば、公開装置１０６はプライベートデータセット１０８と公開機械学習モデル１０７とを保持するように構成されたハードディスクドライブ、ソリッドステートドライブ、またはクラウドベースストレージレポジトリのコレクションを含んでもよい。

公開データセット１０８は公開情報を含むデータ集合を含んでもよい。例えば、公開データセット１０８は特定の個人または実体に関連づけられない医療記録や金融取引に係る情報を含んでもよい。

公開機械学習モデル１０７は、公開データセット１０８及びプライベートデータセット１０２に基づいて重み付き知識移転部１０５を使用して作成された機械学習モデルを含んでもよい。例えば、機械学習モデルは、公開データセット１０８に含まれる特定の健康因子の存在に基づく健康リスクの発生を予測するようトレーニング済みのニューラルネットワークであってよい。

実施形態において、公開機械学習モデル１０７はインタフェース部１０９を介してユーザ１１３からアクセス可能であってよい。例えば、インタフェース部１０９は、サービスとして（例えばサブスクリプションベースのソフトウェアアプリケーションを介して）公開機械学習モデル１０７に対するアクセスを提供するように構成されたサーバモジュールを含んでもよい。ユーザは公開機械学習モデル１０７によって提供される識見を得るために、インタフェース部１０９を介して公開機械学習モデル１０７にアクセスすることができる。

重み付き知識移転装置１０４は、本開示に係る重み付き知識移転工程を行うために使用される一つ以上の機能ユニットを保持するように構成されたストレージ装置である。図２に示されるように、重み付き知識移転装置１０４は重み付き知識移転部１０５を含んでもよい。重み付き知識移転部１０５は、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデル１０３から公開機械学習モデル１０７に重み付き知識移転を実施するように構成された、機能ユニットである。
図２は、重み付き知識移転システム１００の簡略化された構成を示すものであり、重み付き知識移転システム１００は、図２に示された構成に限定されるものではないことを注記する。例えば、重み付き知識移転部１０５に加えて、重み付き知識移転装置１０４も、図３、図４、及び図５に示される通り、特性判定部、データ選択部、パーティション部、及びランダムノイズ発生器を含んでもよい。

重み付き知識移転部１０５はインタフェース１１０を通じてプライベートデータセット１０２にアクセスしてもよく、インタフェース１１１を通じて公開機械学習モデル１０７を作成するためにインタフェース１１２を通じて公開データセット１０８にアクセスしてよい。重み付き知識移転部１０５についての詳細は後述するため、ここではその説明は省略する。

本開示に係る重み付き知識移転システム１００は多種の領域に適用されてもよい。以下に、重み付き知識移転システム１００がヘルスケア領域に適用される例を検討する。

実施形態において、プライベート装置１０１はヘルスケア施設（例えば、医療保険の携行性と責任に関する法律に係る実体）によって管理されるプライベートネットワーク上に展開されるサーバであってよい。プライベートデータセット１０２は、ヘルスケア施設においてケアを受ける患者の電子健康管理記録を含んでもよい。これらの電子健康管理記録は、権限のない実体からアクセスされ、または患者の同意なしに共有されてはならない、個人情報を含んでもよい。プライベート機械学習モデル１０３はプライベートデータセット１０２に基づいて、再入院リスクまたは死亡リスクといったリスクを予測するようトレーニングすることができる。プライベート機械学習モデル１０３によって行われた予測は、患者の健康状態を向上するための適切な動作を取るために、ヘルスケアプロフェショナルによって使用されてもよい。

この場合、重み付き知識移転装置１０４に保持される重み付き知識移転部１０５は、インタフェース１１０を介して電子健康管理記録を含むプライベートデータセット１０２にアクセスし、インタフェース１１２を介して一般に公開されたヘルスケア情報（例えば集中治療データセットのための医療情報マート）を含む公開データセット１０８にアクセスしてもよい。後述する通り、重み付き知識移転部１０５は公開機械学習モデル１０７を生成するために公開データセット１０８とプライベートデータセット１０２とを使用する。ここに説明する通り、公開機械学習モデル１０７はプライベート機械学習モデル１０３に匹敵する性能を有するが、公開データセット１０８によってトレーニングされるため、プライベートデータセット１０２に存在する機密情報は、サイバーアタックが行われたとしても、権限のないユーザからアクセスすることはできない。

図２に示される重み付き知識移転システム１００は、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行うことを可能とする。重み付き知識移転システム１００は、データプライバシー及び機械学習モデル性能に関連する利益を提供してもよい。

次に、重み付き知識移転装置の論理構成例について、図３を参照しつつ説明する。

図３は、実施形態に係る、重み付き知識移転装置１０４の論理構成例を示す。重み付き知識移転装置１０４は、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行うことにより、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために使用してもよい。

まず、特性判定部２０３はプライベートデータセット１０２と公開データセット１０８を分析し、ターゲット特性のセットを決定する。ターゲット特性のセットは、プライベートデータセット１０２と公開データセット１０８との間で共有される特性の集合を含んでもよい。実施形態において、特性判定部２０３は、プライベートデータセット１０２と公開データセット１０８との間で共有される特性を確認するために、プライベートデータに関して一つ以上の様々な統計的分析技術を用いてターゲット特性のセットを決定してもよい。実施形態において、特性判定部２０３は自然言語処理に基づく方法を使用して、ターゲット特性のセットを決定してもよい。
その後、特性判定部２０３は、ターゲット特性のセットを両者とも含むプライベート知識移転データセット２０４と公開知識移転データセット２０５とを出力してもよい。プライベート知識移転データセット２０４と公開知識移転データセット２０５は、それぞれ、プライベートデータセット１０２と公開データセット１０８のサブセットであり、両者とも、特性判定部によって決定されたターゲット特性のセットを含む。

次に、データ選択部２０６はプライベート知識移転データセット２０４と公開知識移転データセット２０５を入力し、プライベート知識移転データセット２０４と公開知識移転データセット２０５との類似度計算に基づき、プライベート知識移転データセット２０４に関する類似度閾値を達成する公開知識移転データセット２０５のサブセットである公開トレーニングデータセット２０７と、公開トレーニングデータセット２０７に含まれる公開特性のセットの重みを表す類似度重みベクトル２０８とを生成する。

効率的な知識移転のため、公開知識移転データセット２０５の特徴空間カバレッジが実質的にプライベート知識移転データセット２０４の特徴空間と等しいことが望ましい。従って、プライベート知識移転データセット２０４と公開知識移転データセット２０５それぞれの特徴空間Ａ’とＢ’として、データ選択部２０６は、プライベート知識移転データセット２０４の特徴空間カバレッジに近い公開トレーニングデータセット２０７を生成する。

ここに示した通り、実施形態において、データ選択部２０６はプライベート知識移転データセット２０４と公開知識移転データセット２０５との類似度計算に基づいて、公開トレーニングデータセット２０７と類似度重みベクトル２０８を生成してもよい。例えば、データ選択部２０６はプライベート知識移転データセット２０４における各特性に関して公開知識移転データセット２０５における各特性の類似度を計算してもよい。ここで、類似度は、ユークリッド、マンハッタン、チェビチェフ、またはマハラノビスメソッドを含む距離計算を用いて計算されてもよい。公開知識移転データセット２０５における各特性は、０から１の間の範囲に入るように正規化することができる計算された類似度スコアによって注釈付けられてもよい。これらのスコアはその後、公開知識移転データセット２０５の各特性に関連付けられ、重みベクトル２０８として出力される。ユーザによって設定された、または重み付き知識移転部２０９からのフィードバックループによって決定された、閾値に基づいて、公開トレーニングデータセット２０７に含まれる特性のセット（例えば、公開特性のセット）が決定されてもよい。

実施形態において、プライベート知識移転データセット２０４と公開知識移転データセット２０５との間の類似度は、傾向スコアマッチング法といった統計手法やｋ平均法といったクラスタリング手法によって決定されてもよい。さらに、実施形態において、プライベート知識移転データセット２０４と公開知識移転データセット２０５との間の類似度は、カルバック・ライブラー情報量法といった情報理論法や様々なエントロピー手法によって決定されてもよい。

実施形態において、プライベート知識移転データセット２０４と公開知識移転データセット２０５との間の類似度は、機械学習モデルに基づく類似度を用いて決定されてもよい。例として、プライベート知識移転部２０４を用いて新しいプライベート機械学習モデルを作成してよい。この新しく作成された機械学習モデルを用いて特定の予測タスク（例えば、患者を様々なリスクグループに分類する）を実施してよい。機械学習モデルは、プライベート知識移転データセット２０４からのデータに基づいて特定の特性のセット（例えば患者）の確率を計算し、複数のグループのそれぞれに属する特性のセットの確率を割り当て、統計的意思決定法に基づいて最終のグループラベルを選択する。
プライベート知識移転データセット２０４を用いて作成された、トレーニング済みのプライベート機械学習モデルは、例えばニューラルネットワークの内部重みや決定木モデルのノードパラメータといった、モデル構造内に符号化されたプライベート知識移転データセット２０４に係る知識を黙示的に含む。この知識は、トレーニング済みのプライベート機械学習モデルにそれらの特性を用いて予測を行うよう指示することにより、公開知識移転データセット２０５における特性の類似度を測定するのに使用される。公開知識移転データセット２０５における各特性セットに対して、グループのセットにおける各グループに属する確率を割り当てることができる。これらの出力された確率に基づき、公開知識移転データセット２０５内のサンプルのプライベート知識移転データセット２０４に対する類似度が、出力確率分布のエントロピーを測定し、低エントロピーサンプルをプライベート知識移転データセット２０４に類似であるとカテゴライズし、高エントロピーサンプルをプライベート知識移転データセット２０４に非類似であるとカテゴライズするなどの統計的意思決定方法によって、推測可能である。ここに説明される通り、エントロピー法は、０から１の範囲に正規化され、データ選択部２０６によって出力された重みベクトル２０８に変換されることができる。

実施形態において、プライベート知識移転データセット２０４と公開知識移転データセット２０５との間の類似度は、プライベート知識移転データセット２０４における特性のセットをプライベート知識移転データセット２０４に属するものとしてラベリングし、公開知識移転データセット２０５における特性のセットを公開知識移転データセット２０５に属するものとしてラベリングすることにより決定されてもよい。その後、プライベート知識移転データセット２０４と公開知識移転データセット２０５とは単一のデータセットに併合され、識別子モデルを、特定の特性のセットがプライベート知識移転データセット２０４と公開知識移転データセット２０５のどちらに属するかの尤度を計算することによりデータを識別するのに使用されてもよい。
識別子モデルがトレーニングされると、トレーニング済みの識別子モデルを使用して公開知識移転データセット２０５を処理し、各特性のセットについて、プライベート知識移転データセット２０４に属する当該特性のセットの確率を出力してもよい。確率閾値を達成する確率を有する特性のセットを、公開トレーニングデータセット２０７に含まれるよう選択してもよい。計算された確率は、データ選択部２０６によって重みベクトル２０８として出力されてもよい。ここで、確率閾値は、ユーザによって設定されるか、または重み付き知識移転部２０９からフィードバックループとして決定されることが可能である。

さらに実施形態において、データ選択部２０６は、敵対的生成ネットワークといった技術を用いて、公開トレーニングデータセット２０７と類似度重みベクトル２０８とを生成してもよい。生成ネットワークは、プライベート知識移転データセット２０４の特性に似た生成された特性のセットを生成するようトレーニングしてもよい。識別ネットワークは、生成された特性のセットとプライベート知識移転データセット２０４（例えば、リアル特性）に含まれるプライベート特性のセットとを識別するようにトレーニングしてもよい。トレーニング後、識別ネットワークは、トレーニング済みの生成ネットワークによって生成された生成特性のセットを評価して、プライベート知識移転データセット２０４に属する生成された特性のセットの確率を計算するのに使用してもよい。その後、識別ネットワークは、公開トレーニングデータセット２０７として、第一確率閾値を超えたプライベート知識移転データセット２０４に属する確率と関連付けられた、生成された特性のセットのサブセットを選択してもよい。計算された確率は、データ選択部２０６によって重みベクトル２０８として出力されてもよい。

重み付き知識移転部１０５は公開機械学習モデル１０７を作成するために、プライベート知識移転データセット２０４、公開知識移転データセット２０５、公開トレーニングデータセット２０７、及び重みベクトル２０８を使用してもよい。ここに記載される通り、公開機械学習モデル１０７へのアクセスはインタフェース部１０９を介してユーザ１１３に提供されてもよい。重み付き知識移転部１０５についての詳細は後述されるため、ここでの説明は省略する。

次に、プライバシーを保護する公開機械学習モデルの作成に使用されるターゲット特性のセットを選択する例について、図４を参照しつつ説明する。

図４は、実施形態に係る、プライバシーを保護する公開機械学習モデルの作成に使用されるターゲット特性のセットを選択する例を示す。ここに記載される通り、本開示に係る特性判定部２０３は、プライベートデータセット１０２と公開データセット１０８とを分析して、プライベートデータセット１０２と公開データセット１０８との間で共有されるターゲット特性のセットを決定する。その後、特性判定部２０３は、ともにターゲット特性のセットを含むプライベート知識移転データセット２０４と公開知識移転データセット２０５とを出力してもよい。
以下に、プライベート知識移転データセット２０４と公開知識移転データセット２０５とを出力するためにターゲット特性のセットを決定する例について、ヘルスケアアプリケーションのコンテキストにおいて説明する。

実施形態において、図４に示される通り、プライベートデータセット１０２はプライベート特性のセット４０２とそのそれぞれの測定単位４０３（例えば、ヘルスケアシステムの電子健康管理記録から入手できる情報））とをリストした説明テーブルを含んでもよい。同様に、公開データセット１０８は公開特性のセット４０８とそれぞれの測定単位４０９とをリストした説明テーブルを含んでもよい。実施形態において、特性抽出部２０３は、特性判定を容易にするため、プライベートデータセット１０２と公開データセット１０８のそれぞれに含まれる非構造化データからこれらの説明テーブルを生成するように構成されてもよい。

プライベートデータセット１０２のデータ説明テーブルにあるプライベート特性のセット４０２の各特性について、特性判定部２０３は公開データセット１０８の説明テーブルにある公開特性のセット４０８における当該特性の有無を確認するため、問い合わせ４０５を送信し、その後、公開データセット１０８の説明テーブルにある公開特性のセット４０８における当該特性の有無を示す応答４０６を受信してもよい。ここで、プライベート特性のセット４０２と公開特性のセット４０８との間の比較は、特定の特性間の意味的または統語的類似度を解析する自然言語処理部を用いて実施されてもよい。
図４に示す例において、例えば、プライベート特性のセット４０２は「ｇ／ｄＬ」単位で測定される「アルブミン」の特性を含んでもよい。特性判定部２０３は応答４０６に基づいて、「アルブミン」の特性は公開特性のセット４０８において入手できると決定することができるが、記録によって「ｇ／ｄＬ」と「ｍｇ／ｄＬ」の異なる測定単位で計測されている。実施形態において、特性判定部２０３は、公開特性のセット４０８における「ｇ／ｄＬ」単位で測定される「アルブミン」の特性は、プライベート特性のセット４０２における「ｇ／ｄＬ」単位で測定される「アルブミン」の特性に対して高い類似度を達成すると決定し、この「ｇ／ｄＬ」単位で測定される「アルブミン」の特性を知識移転工程において使用されるターゲット特性と決定してもよい。

データ説明テーブルに保持された特性について測定単位が見つからない場合、プライベートデータセット１０２及び公開データセット１０８の両方において入手できる特性を知識移転工程に使用できるかを、距離または類似度手法に基づく統計手法を用いて決定してもよい。例として、特性判定部２０３は、公開データセット１０８とプライベートデータセット１０２にある測定頻度カウントに基づき、特定の特性（例えば、「アルブミン」）の確率密度係数４１０を取得してもよい。
その後、特性判定部２０３は、例えば、特定の特性がプライベートデータセット１０２と公開データセット１０８の両方で同じスケールで測定されたかを決定するため、カルバック・ライブラー情報量に基づく判定閾値を使用してもよい。例えば、グラフ４１１に示される通り、分布が判定閾値を満足しない場合、特性判定部２０３は、特定の特性がプライベートデータセット１０２と公開データセット１０８との間で異な測定単位で測定されたと決定し、ターゲット特性から除外してもよい。これに対して、グラフ４１２に示される通り、分布が判定閾値を満足した場合、特性判定部２０３は、特定の特性がプライベートデータセット１０２と公開データセット１０８との間で同じ測定単位で測定されたと決定し、ターゲット特性に含んでもよい。特定の実施形態において、特性判定部２０３はプライベート特性のセット４０２と公開特性のセット４０８との比較を容易にするため、特定の特性に対して単位変換を行うように構成されてもよい。

このようにして、プライバシーを保護する公開機械学習モデルの作成に使用するターゲット特性のセットを決定することができる。

次に、プライバシーを保護する公開機械学習モデルを生成するための重み付き知識移転部の論理構成例を、図５を引用しつつ説明する。

図５は、実施形態に係る、プライバシーを保護する公開機械学習モデルを生成するための重み付き知識移転部の論理構成例を示す。ここに記載される通り、重み付き知識移転部はプライベート知識移転データセット２０４、公開トレーニングデータセット２０７及び重みベクトル２０８を入力として使用し、ユーザ１１３がインタフェース部１０９を介してアクセス可能なプライバシーを保護する公開機械学習モデル１０７を生成する。

パーティション部５０２はプライベート知識移転データセット２０４を複数のパーティション５０３に分ける。ここで、パーティションは、複数のパーティション５０３のうちの他のパーティションに対して相互排他的なプライベート特性のセットを含む、プライベート知識移転データセットの部分を指す。このようにして、一つの特性のセット（例えば、ヘルスケアコンテキストにおける一人の患者）に対応するデータは複数のパーティション間に分配されず、ランダムに一つのパーティションに割り当てられ、排他的に保持される。

次に、機械学習モデル管理部５０４は、トレーニング済みのプライベート機械学習モデルのセット５０７を生成するために、複数のパーティション５０３を用いて機械学習モデルのセットのトレーニングを行う。実施形態において、機械学習モデル管理部５０４は複数のパーティション５０３の別の部分に基づいて各機械学習モデルのセットのトレーニングを行い、他のパーティションからのデータは使用されない。このようにして、各機械学習モデルの性能は、複数のパーティション５０３のうち一つのパーティションに含まれるデータのみを使用して最適化される。

次に、機械学習モデル管理部５０４は、公開トレーニングデータセット２０７をトレーニング済みのプライベート機械学習モデルのセット５０７によって処理することにより、公開トレーニングデータセット２０７に含まれる公開特性のセットのラベルを示す公開ラベルベクトル５１１を生成する。より詳細には、機械学習モデル管理部５０４は公開知識移転データセット２０７を入力として受け取り、公開トレーニングデータセット２０７における各特性のセットに機械学習タスク（例えば予測タスク、分類タスク、検出タスク）を実施するために、トレーニング済みのプライベート機械学習モデルのセット５０７を使用する。例として、ヘルスケアのコンテキストにおいて、機械学習モデル管理部５０４は、公開トレーニングデータセット２０７に含まれる各特性のセット（例えば、患者）のためのリスクグループラベルを予測するためにトレーニングされたプライベート機械学習モデルのセット５０７を使用してもよい。可能性のある各出力ラベルのセットに関して、各トレーニング済みのプライベート機械学習モデルのセット５０７は、公開トレーニングデータセット２０７の各特性のセットの各ラベルに確率を割り当てる。次に、最大尤度といった統計的意思決定方法を使用して、各トレーニング済みの機械学習モデルは各特性のセットにラベルを割り当てる。

公開トレーニングデータセット２０７における特性のセットのそれぞれがトレーニング済みのプライベート機械学習モデルのセット５０７の各トレーニング済みの機械学習モデルによって処理されるため、各特性のセットは複数のラベル５０８を割り当てられる。従って、機械学習モデル管理部５０４は、各特性のセットのラベルカウントを集約し、ランダムノイズ発生器５１０からランダムノイズを加える。次に、機械学習モデル管理部５０４は、大多数のカウントを有するラベルを、公開トレーニングデータセット２０７の当該特性のセットの最終出力ラベルとして選択する。ランダムノイズを追加することにより、同じカウント数を有する複数の候補ラベルが並ぶ可能性が低減する。しかしながら、複数の候補ラベルが同じカウント数で並んだ場合、一つのラベルをランダムに最終出力ラベルとして選択してもよい。公開トレーニングデータセット２０７における各特性のセットにラベルを付ける工程を実施することにより、機械学習モデル管理部５０４は、公開トレーニングデータセット２０７に含まれる各公開特性のセットに対するラベルを示す公開ラベルベクトル５１１を生成することができる。

次に、機械学習部５１２は、公開トレーニングデータセット２０７、類似度重みベクトル２０８、及び公開ラベルベクトル５１１を使用して公開機械学習モデル１０７を作成しトレーニングする。ここに説明する通り、公開機械学習モデル１０７は、プライベートデータセットでトレーニングされたプライベート機械学習モデルに匹敵する性能を有するが、公開トレーニングデータセット２０７によってトレーニングされているため、プライベートデータセットに存在する機密情報は、サイバーアタックが行われたとしても、権限のないユーザからアクセスすることはできない。

実施形態において、機械学習部５１２は、類似度重みベクトル２０８におけるそれぞれの対応重みに基づいて、公開トレーニングデータセット２０７における特性のセットの優先度を調整するマッピング機能を利用してもよい。例えば、機械学習部５１２においてトレーニング済みの公開機械学習モデル１０７は、公開トレーニングデータセット２０７における特性のセットを入力として使用し、公開ラベルベクトル５１１のラベルを予測ターゲットとして使用する。公開機械学習モデル１０７の性能は、損失係数を最小化することにより、最適化される。さらに、トレーニング工程の一部として、類似度重みベクトル２０８における公開トレーニングデータセット２０７の特性のセットの重みは、機械学習部５１２とデータ選択部２０６との間のフィードバックループを通じて調整されてもよい。
トレーニング工程が完了すると、機械学習部５１２によって作成された公開機械学習モデル１０７は、サービスとして、インタフェース部１０９を介してユーザ１１３に対してアクセス可能なように公開されてもよい。

図５に示された重み付き知識移転部構成は、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行うことを可能とする。図５に示された重み付き知識移転構成は、データプライバシーと機械学習モデル性能とに関する利益を提供されてもよい。

次に、本開示に係る知識移転データセット作成工程について、図６を参照しつつ説明する。

図６は、実施形態に係る知識移転データセット作成工程６００のフローチャートを示す。知識移転データセット作成工程６００は、本開示に係る知識移転データセット（例えば、図３に示すプライベート知識移転データセット２０４と公開知識移転データセット２０５）を生成する工程であり、特性判定部（例として、図３に示す特性判定部２０３）によって実施されてもよい。

始めに、ステップＳ６０１において、特性判定部はプライベートデータセットと公開データセットとを取得する。実施形態において、特性判定部は、重み付き知識移転装置と（例えば、病院、ビジネス、個人、またはその他の組織によって所有された）プライベート装置との間の信頼できる通信路を介してそれら装置へのアクセスをリクエストすることにより、プライベートデータセットを取得することができる。実施形態において、特性判定部は公開データレポジトリにアクセスすることにより、公開データセットを取得することができる。特定の実施形態において、プライベートデータセットと公開データセットとは、重み付き知識移転装置の管理者によって選択することができる。

次に、ステップＳ６０２において、特性判定部はプライベートデータセットと公開データセットとを分析することにより、ターゲット特性のセットを決定する。ここに記載される通り、ターゲット特性のセットはプライベートデータセットと公開データセットとの間に共有される特性の集合を含んでもよい。実施形態において、特性判定部は、プライベートデータセットと公開データセットとの間に共有される特性を確認するため、プライベートデータに関する一つ以上の種類の統計的分析技術を使用してターゲット特性のセットを決定してもよい。さらに、実施形態において、特性判定部２０３は、自然言語処理に基づく方法を使用して、ターゲット特性のセットを決定してもよい。

次に、ステップＳ６０３において、特性判定部がターゲット特性のセットを決定することができた（例えば、共有される特性のセットが公開データセットとプライベートデータセットの両方に存在する）場合、知識移転データセット作成工程６００はステップＳ６０４に進む。これに対して、特性判定部がターゲット特性のセットを決定することができなかった（例えば、共有される特性のセットが公開データセットとプライベートデータセットの両方に存在しない）場合、知識移転データセット作成工程６００はステップＳ６０１に戻り、異なるまたは追加的なプライベート及び公開データを取得する。

次に、ステップＳ６０４において、特性判定部はターゲット特性のセットをともに含むプライベート知識移転データセットと公開知識移転データセットとを作成してもよい。例えば、特性判定部は、公開知識移転データセットとして公開データセットから公開特性のセットを抽出し、プライベート知識移転データセットとして公開データセットからプライベート特性のセットを抽出することができ、公開特性のセットとプライベート特性のセットとは実質的に対応する。

ここに記載される通り、図６を参照して説明される知識移転データセット作成工程６００により、重み付き知識移転工程に使用される知識移転データセットの作成を可能とする。

次に、本開示に係る類似度重み付け工程を、図７を参照しつつ説明する。

図７は、実施形態に係る類似度重み付け工程７００のフローチャートを示す。類似度重み付け工程７００は、公開トレーニングデータセットに含まれる公開特性のセットのための類似度重み付けベクトル（例えば、図３に示す類似度重み付けベクトル２０８）を生成する工程であり、データ選択部（例えば、図３に示すデータ選択部２０６）によって実施されてよい。

始めに、ステップＳ７０１において、データ選択部はプライベート知識移転データセットと公開知識移転データセットとを受け取る。ここでデータ選択部は、特性抽出部からプライベート知識移転データセットと公開知識移転データセットとの送信を受け取ってもよく、またはプライベート知識移転データセットと公開知識移転データセットとが保持された指定ストレージアドレスにアクセスしてもよい。

次に、ステップＳ７０２において、データ選択部は公開知識移転データセットとプライベート知識移転データセットとの間の類似度を計算するための類似度計算方法を決定する。ここに記載される通り、類似度計算は、ユークリッド、マンハッタン、チェビシェフ、またはマハラノビス距離計算法、傾向スコアマッチング方法といった統計手法、ｋ平均法クラスタリング機械学習といったクラスタリング手法、モデルに基づく類似度、識別ネットワーク、敵対的生成ネットワーク、等を含む多種の類似度計算技術から選択されてもよい。実施形態において、データ選択部は、公開知識移転データセットとプライベート知識移転データセットとの性質に関して最高の精度を達する可能性の高い類似度計算技術が多数の技術のうちどれであるかを予測するようトレーニング済みの機械学習モデルを使用することによって、類似度計算方法を決定することができる。実施形態において、データ選択部は、公開知識移転データセットとプライベート知識移転データセットとの性質に基づいて複数の所定の類似度計算技術のそれぞれの性質をランク付けする探索表を使用して類似度計算方法を決定してもよい。

次に、ステップＳ７０３において、データ選択部はステップＳ７０２において決定された類似度計算方法を利用して、プライベート知識移転データセットにおける各特性に対して公開知識移転データセットにおける各特性の類似度を計算する。実施形態において、計算された類似度は０から１の間の類似度重み値として表現されることができ、より大きい値はより高い類似度を示す。

次に、ステップＳ７０４において、データ選択部はステップＳ７０３において計算された類似度重み値を公開知識移転データセットにおいて対応する特性に結び付ける。

次に、ステップＳ７０５において、データ選択部は、公開機械学習モデルをトレーニングするフィードバックループの一部として、機械学習部から類似度変更リクエストを受け取ったか否かを確認してもよい。類似度変更リクエストは、例えば、機械学習部からの公開知識移転データセットにおける公開特性のセットの特定の特性または特性タイプの類似度重みを増やすまたは減らすリクエストであってよい。類似度変更リクエストを受け取った場合、類似度重み付け工程７００はステップＳ７０２に戻ってもよい。類似度変更リクエストを受け取っていない場合、類似度重み付け工程７００はステップＳ７０６に進んでもよい。

次に、ステップＳ７０６において、データ選択部は、公開機械学習モデルをトレーニングするフィードバックループの一部として、機械学習部からフィルタリクエストを受け取ったか否かを確認してもよい。フィルタリクエストは、例えば、機械学習部からの公開知識移転データセットの公開特性のセットから特定の特性または特性タイプを削除または除外するリクエストであってよい。フィルタリクエストを受け取った場合、類似度重み付け工程７００はステップＳ７０７に進むことができる。フィルタ変更リクエストを受け取っていない場合、類似度重み付け工程７００はステップＳ７０９に進んでもよい。

次に、ステップＳ７０７において、データ選択部は、ステップＳ７０６において受け取ったフィルタリクエストに基づき、公開知識移転データセットに含まれる公開特性のセットにフィルタをかけてもよい。例えば、データ選択部は、ステップＳ７０６において受け取ったフィルタリクエストにおいて特定された特性を、公開特性のセットから削除してもよい。

次に、ステップＳ７０８において、データ選択部は、公開知識移転データセットに含まれる公開特性のセットから、類似度閾値を超えた類似度重みと関連付けられた公開特性を、公開トレーニングデータセットとして選択してもよい。ここで、類似度閾値はユーザによって設定されるか、または重み付き知識移転部からのフィードバックループにおいて決定されることが可能である。

次に、ステップＳ７０９において、データ選択部は、ステップＳ７０８で選択された公開トレーニングデータセットを、公開トレーニングデータセットに含まれる公開特性のセットの重みを示した類似度重みベクトルと共に出力してもよい。実施形態において、データ選択部は公開トレーニングデータセットと類似度重みベクトルとを重み付き知識移転部（例えば、図３に示される重み付き知識移転部１０５）に出力してもよい。ここに記載される通り、重み付き知識移転部は、プライベート知識移転データセット、公開知識移転データセット、公開トレーニングデータセット、及び重みベクトルを用いて公開機械学習モデルを作成してもよい。

ここに記載される通り、図７を参照して上に説明された類似度重み付け工程７００は、公開機械学習モデルを作成するのに使用する公開トレーニングデータセットと及び重みベクトルとを作成することを許可する。

次に、本開示に係る重み付き知識移転工程について、図８を参照しつつ説明する。

図８は、実施形態に係る重み付き知識移転工程８００のフローチャートを示す。重み付き知識移転工程８００は、プライベート機械学習モデルに匹敵する性能を達成する公開機械学習モデル（例えば、図３に示される公開機械学習モデル１０７）をトレーニングする工程であり、重み付き知識移転部（例えば、図３に示される重み付き知識移転部１０５）によって実施されてもよい。

始めに、ステップＳ８０１において、重み付き知識移転部はプライベート知識移転データセットと公開知識移転データセットとを取得する。ここで、重み付き知識移転部は、特性抽出部からプライベート知識移転データセットと公開知識移転データセットとの送信を受け取ってもよく、またはプライベート知識移転データセットと公開知識移転データセットとが保持された指定ストレージアドレスにアクセスしてもよい。

次に、ステップＳ８０２において、重み付き知識移転部はプライベート知識移転データセットを複数のパーティションに分けてもよい。ここで説明される通り、パーティションとは、複数のパーティション５０３のうちの他のパーティションに対して相互排他的なプライベート特性のセットを含む、プライベート知識移転データセットの部分を指す。このようにして、一つの特性のセット（例えば、ヘルスケアコンテキストにおける一人の患者）に対応するデータは複数のパーティション間に分配されず、ランダムに一つのパーティションに割り当てられ、排他的に保持される。

次に、ステップＳ８０３において、重み付き知識移転部は、トレーニング済みのプライベート機械学習モデルのセットを生成するために、複数のパーティションを用いて機械学習モデルのセットのトレーニングを行う。実施形態において、重み付き知識移転部は複数のパーティションの別の部分に基づいて各機械学習モデルのセットのトレーニングを行い、他のパーティションからのデータは使用されない。このようにして、各機械学習モデルの性能は、複数のパーティションのうち一つのパーティションに含まれるデータのみを使用して最適化される。

次に、ステップＳ８０４において、重み付き知識移転部は、ステップＳ８０３においてトレーニング済みのプライベート機械学習モデルのセットによって公開トレーニングデータセット知識移転データセットを処理することにより、公開トレーニングデータセットに含まれる公開特性のセットのラベルのセットを生成する。

次に、ステップＳ８０５において、重み付き知識移転部は、各特性のセットについてステップＳ８０４において生成されたラベルのセットを集約すし、ランダムノイズ発生器からランダムノイズを加え、公開トレーニングデータセットの特性のセットのそれぞれに対して最終出力ラベルとして大多数のカウントを有するラベルを選択することにより、公開ラベルベクトルを生成する。

次に、ステップＳ８０６において、重み付き知識移転部は、公開トレーニングデータセット、類似度重みベクトル、及びステップＳ８０５で生成された公開ラベルベクトルを使用して、公開機械学習モデルを作成しトレーニングする。ここに説明する通り、公開機械学習モデルは、プライベートデータセットでトレーニングされたプライベート機械学習モデルに匹敵する性能を有するが、公開トレーニングデータセットによってトレーニングされているため、プライベートデータセットに存在する機密情報は、サイバーアタックが行われたとしても、権限のないユーザからアクセスすることはできない。

次に、ステップＳ８０７において、重み付き知識移転部は、重み付き知識移転のさらなる最適化リクエストの有無を確認する。例えば、重み付き知識移転部は現在の重み付き知識移転のさらなる最適化に使用することができる、先に実施された重み付き知識移転工程からのフィードバックの有無を確かめてもよい。別の例として、重み付き知識移転部は、重み付き知識移転のさらなる最適化に使用することができる追加の命令またはデータについてユーザを促してもよい。さらなる最適化が可能であると重み付き知識移転部が決定した場合、重み付き知識移転工程８００はステップＳ８０１に戻る。さらなる最適化が可能ではないと重み付き知識移転部が決定した場合、重み付き知識移転工程８００はステップＳ８０８に進む。

次に、ステップＳ８０８において、重み付き知識移転部はステップＳ８０６においてトレーニング済みの公開機械学習モデルに対するアクセスを提供してもよい。例えば、ここに記載される通り、重み付き知識移転部は、ユーザからアクセスされる公開機械学習モデルを、インタフェース部を介したネットワークベースのサービス（例えば、ソフトウェアアプリケーション）として構成してもよい。

図８に示される重み付き知識移転工程８００は、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行うことを可能とする。図８に示される重み付き知識移転工程８００は、データプライバシー及び機械学習モデルの性能に関して利益を提供することができる。

次に、本開示の第二実施形態に係る、重み付き知識移転部の論理構成例を、図９を参照しつつ説明する。

図９は、本開示の第二実施形態に係る重み付き知識移転装置９００の論理構成例を示す。本開示の第二実施形態に係る重み付き知識移転装置９００は、知識移転能力を最適化することにより、プライベート機械学習モデルから公開機械学習モデルへの重み付き知識移転を実施することに関する。図９に示される通り、本開示の第二実施形態に係る重み付き知識移転装置９００は、主として、パーティショニング最適化部９２５、データ選択部９５０、制御部９７５、及び機械学習部９８０を含む。第二実施形態に係る重み付き知識移転装置９００は先に説明された実施形態の構成と類似のシステム構成を使用して実装されてもよい。
以下に、先に説明された実施形態の態様とは異なる重み付き知識移転装置９００の態様を主として説明し、重複する要素の説明は省略する。

始めに、重み付き知識移転装置９００はプライベートデータセット９１０と公開データセット９２０とを取得する。ここで、プライベートデータセット９１０は、秘密情報を含むデータのコレクションを含んでもよい。例えば、プライベートデータセット９１０は、一つ以上の個人、ビジネス、またはその他の組織（例えば、プライベートデータセット９１０は先の実施形態のプライベートデータセット１０２に対応してもよい）のための医療記録、金融取引、または個人情報（氏名、住所、パスワード、銀行口座情報）に関する情報を含んでもよい。

公開データセット９２０は、公開情報を含むデータのコレクションを含んでもよい。例えば、公開データセット９２０は、あらゆる特定の個人または実体（例えば、公開データセット９２０は先の実施形態の公開データセット１０８に対応してもよい）と関連付けられない医療記録または金融取引に関する情報を含んでもよい。他の実施形態において、プライベートデータセット９１０と公開データセット９２０とは、先に説明された実施形態のプライベート知識移転データセット２０４と公開知識移転データセット２０５とに対応してもよい。

次に、パーティショニング最適化部９２５において、パーティション部９３０はプライベートデータセット９１０を複数のパーティション９３２（例えば、第一の複数のパーティション）に分割する。次に、モデル最適化部９３５は、複数のパーティション９３２を用いてプライベート機械学習モデルのセットをトレーニングして最適化し、トレーニング済みのプライベート機械学習モデルのセット９３７を生成する。モデル最適化部９３５は、種々のモデルパラメータ構成のために複数のパーティション９３２の各パーティションに関して各トレーニング済みのプライベート機械学習モデルのセット９３７の性能を評価し、その結果を構成データベース９４０に保持する。

構成選択部９４５はその後、所定の性能メトリック、例えば、受信側操作特性曲線下面積（ＡＵＲＯＣ）、精密性、リコールなど、を最大化するパーティション構成とモデルパラメータのセットとを決定する。構成選択部９４５によって選択されたモデルパラメータのセットは、トレーニング済みのプライベート機械学習モデルのセット９３７に適用されてもよい。トレーニング済みのプライベート機械学習モデルのセット９３７は、その後、データ選択部９５０に通信される。
パーティショニング最適化部９２５の論理構成については後に詳細に説明するため、その説明はここでは省略する。

データ選択部９５０は公開データセット９２０を受け取り、トレーニング済みのプライベート機械学習モデルのセット９３７を用いて公開データセット９２０を処理することにより、ラベルのグループと重みを公開データセット９２０に結び付ける。集約部９６０はラベルのグループと重みとを処理された公開データセット９７０として集約する。実施形態において、処理された公開データセット９７０は、結びつけられた重みのためのフィルタリング閾値を調整することによって選択されてもよい。一つの例として、処理された公開データ９７０は、公開データセット９２０を重み閾値（例えば、ラベルのグループ及び重みに基づいて決定された閾値）に基づいて別個のパーティションに割り当て、複数の公開機械学習モデルをトレーニングし、評価メトリックに関して最適な閾値及びモデルパラメータを選択することにより、決定されてもよい。

機械学習部９８０は処理された公開データセット９７０を用いて公開機械学習モデル９８５のトレーニングを行う。この処理は、公開機械学習モデル９８５からパーティショニング最適化部９２５及びデータ選択部９５０にフィードバックループを設定することにより重み付き知識移転の移転能力を最適化する制御部９７５により制御されてもよい。公開機械学習モデル９８５はインタフェース部９９０を通じてユーザ９９５に対して様々な機械学習に基づくサービスを提供するために使用されてもよい。

このようにして、重み付き知識移転装置９００は知識移転能力を最適化することにより、プライベート機械学習モデルから公開機械学習モデルへの重み付き知識移転を実施することを可能にする。

次に、プライベートデータセットのパーティショニングを行い機械学習モデルのセットを生成するためのパーティショニング最適化部の論理構成例について、図１０を参照して説明する。

図１０は、本開示の第二実施形態に係る、プライベートデータセット９１０のパーティショニングを行い機械学習モデル９３７のセットを生成するパーティショニング最適化部９２５の論理構成例を示す。

ここに記載される通り、本開示の態様は、トレーニング済みのプライベート機械学習モデルのセット９３７を生成するために、プライベートデータセット９１０を複数のパーティション９３２に分割し、複数のパーティション９３２を用いて機械学習モデルのセットをトレーニングすることに関する。ここで、パーティションとは、複数のパーティション９３２のうちの他のパーティションに対して相互排他的なプライベート特性のセットを含む、プライベートデータセット９１０の部分を指す。このようにして、一つの特性のセット（例えば、ヘルスケアコンテキストにおける一人の患者）に対応するデータは複数のパーティション間に分配されず、ランダムに一つのパーティションに割り当てられ、排他的に保持される。

図１０に示される通り、始めに、プライベートデータセット９１０はパーティショニング最適化部９２５に入力される。パーティショニング最適化部９２５において、パーティション部９３０はパーティション制約条件のセットに基づき、プライベートデータセット９１０を複数のパーティション９３２（例えば、第一の複数のパーティション）に分割する。ここで、パーティション制約条件のセットは、どのようにプライベートデータセット９１０が分配されるかを定義する制限、制約、または条件を含んでもよい。例として、パーティション制約条件のセットは、特性の一つのセット（例えば、ヘルスケアのコンテキストにおける一人の患者）に対応するデータは、複数のパーティション間で分割されるのではなく、一つのパーティションに割り当てられなければならないということを示してもよい。さらにパーティション部９３０は、外部テストデータ１００３のセットを生成する。外部テストデータ１００３のセットは、トレーニング済みのプライベート機械学習モデルのセット９３７の性能を評価するのに使用されてもよい。

次に、モデル最適化部９３５は、トレーニング済みのプライベート機械学習モデルのセット９３７を生成するために、複数のパーティション９３２を用いて機械学習モデルのセットのトレーニングを行う。実施形態において、モデル最適化部９３５は複数のパーティションの別の部分に基づいて各機械学習モデルのセットのトレーニングを行い、他のパーティションからのデータは使用されない。このようにして、各機械学習モデルの性能は、複数のパーティションのうち一つのパーティションに含まれるデータのみを使用して最適化される。さらに、モデル最適化部９３５は、複数のパーティション９３２の他のパーティションに含まれるデータに対して、各トレーニング済みのプライベート機械学習モデル９３７の性能を評価してもよい（例えば、各トレーニング済みのプライベート機械学習モデル９３７は、自身がトレーニングされたパーティション以外のパーティションに含まれるデータに関して評価される）。

次に、評価部１００７は、モデル構成パラメータと、モデル最適化部９３５によって実施されたトレーニング済みのプライベート機械学習モデル９３７の評価の性能結果を受け取ってもよく、さらに、外部テストデータ１００３に関してトレーニング済みのプライベート機械学習モデル９３７を評価してもよい。性能評価の結果は、構成データベース９４０に保持されてもよい。次に、構成選択部９４５は、例えば受信側操作特性曲線下面積（ＡＵＲＯＣ）などのいくつかの評価メトリックを用いて、最も高い性能を達成するパーティション構成及び関連するモデルパラメータを選択し、それぞれ、複数のパーティション９３２とトレーニング済みのプライベート機械学習モデルのセット９３７とに適用する。
このようにして、重み付き知識移転工程において使用されるトレーニング済みのプライベート機械学習モデル９３７は生成可能である。

次に、トレーニング済みの機械学習モデル生成工程のフローチャートを、図１１を参照して説明する。

図１１は、本開示の第二実施形態に係る、トレーニング済みの機械学習モデル生成工程１１００のフローチャートを示す。トレーニング済みの機械学習モデル生成工程１１００は、複数のパーティションを使用してトレーニング済みのプライベート機械学習モデル（例えば、図９及び図１０に図示されるトレーニング済みのプライベート機械学習モデル９３７）を生成する工程であり、本開示の第二実施形態に係る重み付き知識移転装置の様々な機能部によって実施することができる。

始めに、ステップＳ１１０２において、パーティション部（例えば、図９及び図１０に示されるパーティション部９３０）はプライベートデータセット（例えば、図９及び図１０に示されるプライベート知識移転データセット９１０）を分割するパーティション数を決定する。実施形態において、パーティション数はユーザ入力に基づいて決定されてもよい。実施形態において、パーティション数はプライベート知識移転データセットの性質（例えば、サイズ、特性セットの数など）に基づいて自動的に決定されてもよい。

次に、ステップＳ１１０３において、パーティション部は、トレーニング済みのプライベート機械学習モデルのセットの性能を評価するのに使用するための外部テストデータのセットを作成するか否かを決定する。実施形態において、外部テストデータのセットを作成するか否かの決定は、ユーザから受け取られる命令、またはプリセットされた性能目標クライテリアに基づいて実行されてもよい。
外部テストデータのセットを作成することが決定された場合、トレーニング済みの機械学習モデル生成工程１１００はステップＳ１１０４に進む。外部テストデータのセットを作成しないことが決定された場合、トレーニング済みの機械学習モデル生成工程１１００はステップＳ１１０５に進む。

ステップＳ１１０４において、パーティション部は、プライベートデータセットのサブセットを外部テストデータとして割り当てる。実施形態において、パーティション部は外部テストデータとして使用されるプライベートデータセットのサブセットをランダムに選択し、それを別個の外部パーティションと指定してもよい。

次に、ステップＳ１１０５において、パーティション部はパーティショニング制約条件のセットに基づいてプライベートデータセットをランダムにシャッフルする。ここに記載される通り、パーティション制約条件のセットは、プライベートデータセットがどのように分配されるかを定義する制限、制約、または条件を含む。例として、パーティション制約条件のセットは、特性の一つのセット（例えば、ヘルスケアのコンテキストにおける一人の患者）に対応するデータが複数のパーティションにわたって分割されることはなく、一つのパーティションに割り当てられなければならないと示してもよい。従って、ここにおいて、パーティション部はパーティショニング制約条件のセットを満足させつつプライベートデータセットをランダムにシャッフルしてもよい。

次に、ステップＳ１１０６において、パーティション部は、ステップＳ１００６でシャッフルされたプライベートデータセットを別個のパーティションに割り当てる。

次に、ステップＳ１１０７において、モデル最適化部（例えば、図９及び図１０に示されるモデル最適化部９３５）は、トレーニング済みのプライベート機械学習モデルのセットを生成するために、複数のパーティションを用いて機械学習モデルのセットのトレーニングを行う。実施形態において、モデル最適化部は複数のパーティションの別の部分に基づいて各機械学習モデルのセットのトレーニングを行い、他のパーティションからのデータは使用されない。このようにして、各機械学習モデルの性能は、複数のパーティションのうち一つのパーティションに含まれるデータのみを使用して最適化される。

次に、ステップＳ１１０８において、モデル最適化部は、複数のパーティションのうちの他のパーティションに含まれるデータに関して、各トレーニング済みのプライベート機械学習モデルの性能を評価する。つまり、各トレーニング済みのプライベート機械学習モデルは、自身がトレーニングされたパーティション以外のパーティションに含まれるデータに関して評価される。

次に、ステップＳ１１０９において、評価部（例えば、図１０に示される評価部１００７）は、各トレーニング済みのプライベート機械学習モデルの性能を決定する。実施形態において、評価部は、ステップＳ１１０４及びＳ１１０５において作成された外部テストデータに関してトレーニング済みの機械学習モデルを評価し、外部テストデータに関する評価とモデル最適化部によって実施されたトレーニング済みのプライベート機械学習モデルの評価の性能結果に基づいて各トレーニング済みのプライベート機械学習モデルの性能を決定してもよい。

次に、ステップＳ１１１０において、評価部はステップＳ１１１０において決定された性能評価の結果を構成データベース（例えば、図９及び図１０に示される構成データベース９４０）に保持する。

次に、ステップＳ１１１１において、評価部は、データを制約条件によって再シャッフルして複数のパーティションに再分配することにより別の評価サイクルを実行すべきかを決定する。実施形態において、この決定は決められた数の評価サイクルの評価を明示するユーザ入力に基づいて実行可能である。別の実施形態において、評価部は、現在の性能結果を構成データベース内のデータと比較し、統計的意思決定を用いて次の評価サイクルループを開始すべきか否かを決定する、停止条件を自動的に決定してもよい。

次に、ステップＳ１１１２において、構成選択部（例えば、図９及び図１０に示される構成選択部９４５）は構成データベースに保持された性能評価の結果を分析し、最も高い性能を達成するパーティション構成及び関連するモデルパラメータを決定する。ここで、構成選択部は、例えば受信側操作特性曲線下面積（ＡＵＲＯＣ）などのいくつかの評価メトリックを用いて、最も高い性能を達成するパーティション構成及び関連するモデルパラメータを決定し、それらを複数のパーティション９３２とトレーニング済みのプライベート機械学習モデルのセット９３７とにそれぞれ適用することができる。

このようにして、トレーニング済みの機械学習モデル生成工程１１００によると、重み付き知識移転工程に使用されるトレーニング済みのプライベート機械学習モデルを生成することができる。

次に、重み付き知識移転のデータ選択及び最適化のための重み付き知識移転装置の論理構成を、図１２を参照して説明する。

図１２は、重み付き知識移転のデータ選択及び最適化のための、第二実施形態に係る重み付き知識移転装置の論理構成を示す。

始めに、図１２に示す通り、パーティショニング最適化部９２５はプライベートデータセット９１０を受け取る。パーティショニング最適化部９２５はプライベートデータセット９１０を複数のパーティション（例えば、第一の複数のパーティション、つまり図９及び図１０に示される複数のパーティション９３２；図１２には図示されない）に分割し、外部テストデータ１００３のセットを生成する。パーティショニング最適化部９２５は、複数のパーティションを用いてプライベート機械学習モデルのセットをトレーニング及び最適化することにより、トレーニング済みのプライベート機械学習モデルのセット９３７を生成する。

次に、公開データセット９２０はトレーニング済みのプライベート機械学習モデルのセットによって処理され、その出力（例えば、ラベルのグループ及び重み）は、処理された公開データセット９７０を作り出すために集約部９６０により集約される。処理された公開データセット９７０は、閾値パーティショニング部１２１０に入力される。閾値パーティショニング部１２１０は処理された公開データセット９７０のデータを、ラベルのグループ及び重みに基づいて決定された閾値のセットによって第二の複数のパーティション１２２０に分割する。この閾値のセットは、そこに割り当てられた重みに応じて、処理された公開データセット９７０にフィルタをかけるのに使用することができる。ここで、処理された公開データセット９７０のパーティショニングは、後述するデータ閾値処理最適化工程に基づいて実施することができる。

次に、モデル最適化部９３５は、第二の複数のパーティション１２２０を使用して公開モデルのセットをトレーニングすることにより、トレーニング済みの公開機械学習モデル１２３０のセットを生成する。ここで、モデル最適化部９３５は、各公開モデルが複数のパーティション１２２０のうちの異なるパーティションに基づいてトレーニングされるよう、公開モデルのセットをトレーニングしてもよい。

評価部１００７は外部テストデータ１００３を使用してトレーニング済みの公開機械学習モデル１２３０のセットの性能を評価し、結果を構成データベース９４０に記録する。

構成選択部９４５は重み付き知識移転において最も高い性能を達成する閾値、モデル、及びモデルパラメータを選択し、それらを適用する。実施形態において、トレーニング済みの公開機械学習モデル１２３０のセットのうち一つ以上のモデルを、インタフェース部（図１２に図示されない）を介してユーザに展開するために選択してもよい。

制御部９７５は、データパーティション工程とデータ選択工程を閾値に基づく最適化工程と組み合わせるために使用される。このようにして重み付き知識移転の性能は、公開データセットの公開データのためのパーティション仕組み、プライベート及び公開機械学習モデルのセットのパラメータ構成、及び処理された公開データセットを選択するための重み及び重み付け閾値を同時に最適化し決定することにより、最高化することができる。

次に、データ閾値処理最適化工程のフローチャートについて、図１３を参照しつつ説明する。

図１３は、本開示の第二実施形態に係る、データ閾値処理最適化工程１３００のフローチャートを示す。データ閾値処理最適化工程１３００は処理された公開データをパーティショニングするのに用いられる閾値のセットを決定するための工程であり、第二実施形態に係る重み付き知識移転装置の様々な機能ユニットによって実施されてもよい。

始めに、ステップＳ１３０１において、パーティショニング最適化部（例えば、図９、図１０、及び図１２に示されるパーティショニング最適化部９２５）は、プライベートデータセットを複数のパーティションに分割し、外部テストデータのセットを生成する。パーティショニング最適化部９２５は複数のパーティションを用いてプライベート機械学習モデルのセットをトレーニングして最適化し、トレーニング済みのプライベート機械学習モデルのセットを生成する。

次に、ステップＳ１３０２において、公開データセットはトレーニング済みのプライベート機械学習モデルのセットによって処理され、その出力（例えば、ラベルのグループと重み）は集約部９６０によって集約され、それにより処理された公開データセット９７０が生成される。

次に、ステップＳ１３０３において、閾値パーティショニング部（例えば、図１２に示される閾値パーティショニング部１２１０）は、割り当てられた重みに応じて、処理された公開データセットをフィルタリングする閾値のセットを決定する。実施形態において、閾値のセットは、ステップＳ１３０２において、トレーニング済みのプライベート機械学習モデルのセットによって公開データセットを処理することにより生成された重みに基づいて決定されてもよい。別の実施形態において、閾値のセットは重み付き知識移転システムのユーザまたは管理者によって当初セットされ、データ閾値処理最適化工程１３００の後続ステップによって更新されてもよい。

次に、ステップＳ１３０４において、閾値パーティショニング部は、そこに割り当てられた重みに応じて処理された公開データセットをフィルタリングするのに用いられた閾値のセットに従って、処理された公開データセットデータを第二の複数のパーティションに分割する。

次に、ステップＳ１３０５において、モデル最適化部（例えば、図１０及び図１２に示されるモデル最適化部９３５）は、ステップＳ１３０４において作成された第二の複数のパーティションを用いて公開モデルのセットをトレーニングすることにより、トレーニング済みの公開機械学習モデルのセットを生成する。ここで、モデル最適化部は、各公開モデルが複数のパーティションのうちの異なるパーティションによってトレーニングされるように、公開モデルのセットをトレーニングしてもよい。

次に、ステップＳ１３０６において、評価部（例えば、図１０及び図１２に示される評価部１００７）は、外部テストデータを用いて、トレーニング済みの公開機械学習モデルのセットの性能を評価し、その結果を構成データベースに記録する。

次に、ステップＳ１３０７において、構成選択部（例えば、図１０及び図１２に示される構成選択部９４５）は、重み付き知識移転において最も高い性能を達成する重み閾値、モデル、及びモデルパラメータを選択する。

次に、ステップＳ１３０８において、制御部（例えば、図１０及び図１２に示される制御部９７５）は閾値のセットを更新するか否かを決定する。実施形態において、制御部は、トレーニング済みの公開機械学習モデルのセットの性能に基づいて、閾値のセットを更新するか否か決定してもよい。例えば、トレーニング済みの公開機械学習モデルのセットが指定の性能基準を達成することができなかった場合、制御部は向上した性能を提供すると予測されるデータパーティションの作成を容易にする閾値のセットを更新してもよい。
制御部が閾値のセットを更新すると決定した場合、データ閾値処理最適化工程１３００はステップＳ１３０３に戻ってもよい。制御部が閾値のセットを更新しないと決定した場合、データ閾値処理最適化工程はステップＳ１３０９に進んでもよい。

次に、ステップＳ１３０９において、制御部は複数のパーティションを更新するか否かを決定する。例えば、制御部はトレーニング済みの公開機械学習モデルのセットの性能に基づいて作成された新しいパーティション制約条件に基づいてプライベートデータセットを分割してもよい。

このようにして、本開示の第二実施形態に係る重み付き知識移転装置９００によると、機械学習モデルは最適なデータパーティションを用いてトレーニングされることができ、知識移転能力を最大化することを可能とする。重み付き知識移転装置９００は以前の実施形態による重み付き知識移転装置に対して、追加的な性能及び効果的な利益と関わってもよい。

本発明はシステム、方法、及びまたはコンピュータプログラム製品であってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実施させるためのコンピュータ読取可能なプログラム命令を記録するコンピュータ読取可能な記録媒体を含んでもよい。

コンピュータ読取可能な記録媒体は、命令実行装置によって使われる命令を保持し保存することができる有形の装置であってよい。コンピュータ読取可能な記録媒体は、例えば、電子ストレージ装置、磁気ストレージ装置、光学ストレージ装置、電磁ストレージ装置、半導体ストレージ装置、またはそれらの適切な組み合わせであってよいが、それらに限定されない。コンピュータ読取可能な記録媒体の非限定的なさらなる具体例は、携帯型コンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラム化できる読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、例えば命令がそこに記録されたパンチカードや溝の立ち上げ構造といった機械的符号化装置、及びそれらの適切な組み合わせを含む。
ここで、コンピュータ読取可能な記録媒体の意味は、本来、一時的な信号、例えば電波やその他の自由伝播の電磁波、導波管またはその他の伝送媒体を介して伝播される電磁波（例えば、光ファイバーケーブルを通る光パルス）、またはワイヤを通じて伝達される電気信号、と解釈されるべきではない。

本発明の各態様は、本発明の実施形態に係る方法、装置（システム）、及びコンピュータプログラム製品を図示するフローチャート及びまたはブロック図を参照して説明される。図示されたフローチャート及びまたはブロック図における各ブロック、及び図示されたフローチャート及びまたはブロック図におけるブロックの組み合わせは、コンピュータ読取可能なプログラム命令に実装可能であることが理解される。

これらのコンピュータ読取可能なプログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実施する命令により、フローチャート及びまたはブロック図の一つのまたは複数のブロックに記載された機能／行動を実装するための手段を作成するように、汎用コンピュータ、専用コンピュータ、または他のマシンを製造するためのプログラム可能なデータ処理装置のプロセッサに提供されてもよい。これらのコンピュータ読取可能なプログラム命令は、また、コンピュータ、プログラム可能なデータ処理装置、及びまたは他の装置を特定の態様で機能するよう仕向けるよう、コンピュータ読取可能な記録媒体に保持されてもよく、それにより命令がその中に保持されるコンピュータ読取可能な記録媒体は、フローチャート及びまたはブロック図の一つのまたは複数のブロックに記載された機能／行動の態様を実施する命令を含む製品を含む。

コンピュータ読取可能なプログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置または他の装置において一連の処理ステップが実施されるよう、コンピュータ、他のプログラム可能なデータ処理装置または他の装置にロードされてもよく、それによりコンピュータ、他のプログラム可能なデータ処理装置または他の装置において実行される命令が、フローチャート及びまたはブロック図の一つまたは複数のブロックに記載された機能／行動を実施する。

本開示に係る実施形態は、クラウドコンピューティングインフラストラクチャを介してエンドユーザに提供されてもよい。クラウドコンピューティングとは、一般的に、ネットワーク上のサービスとして、スケーラブルなコンピューティングリソースを供給することを指す。より正式には、クラウドコンピューティングは、便利なオンデマンドネットワークアクセスを構成可能であって、少ない管理努力又はサービスプロバイダインタラクションで迅速に供給され開放される、コンピューティングリソースの共有プールにアクセス可能とする、コンピューティングリソースとその根本となる技術アーキテクチャ（例えば、サーバ、ストレージ、ネットワーク）との間の抽象化を提供するコンピューティング能力と定義されてもよい。従って、クラウドコンピューティングは、コンピューティングリソースを提供するために使用される根本の物理的システム（またはそれらシステムの位置）を考えることなく、ユーザから「クラウド」にある仮想コンピューティングリソース（例えばストレージ、データ、アプリケーション、及び完全に仮想化されたコンピューティングシステム）へアクセスすることを許可する。

各図におけるフローチャート及びブロック図は、本発明の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品を実装可能なアーキテクチャ、機能、及び操作を図示する。この点において、フローチャートまたはブロック図における各ブロックは、記載されたロジカル機能を実装するため、一つ以上の実行可能な命令を含む、モジュール、セグメント、または命令の部分を表してもよい。いくつかの変形実装例において、ブロックに記載された機能は、図に示された順番で実施されてもよい。例えば、連続する二つのブロックは、実際、それに伴う機能性によっては、実質的に継続して実行されてもよく、またはブロックは反対の順番で実施されてもよい。さらに、図示されたブロック図及びまたはフローチャートの各ブロック、及びブロック図及びまたはフローチャートのブロックの組み合わせは、記載された機能や行動を実行するまたは専用ハードウェア及びコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムに実装可能である。

上記は例示的な実施形態を説明したものであるが、本発明の別の及びさらなる実施形態も、本発明の趣旨から逸脱することなく考案可能であり、その範囲は後述の請求の範囲の記載によって決定される。本開示の様々な実施形態を例として説明したが、それらは網羅的ではなく、本開示を説明された実施形態に制限する意図を有していない。当業者には、説明された実施形態の範囲から逸脱することなく数々の改良や変形例が明らかとなろう。ここに使用された用語は、実施形態の原理を説明、市場に存在する技術に対する実際の運用や技術的改良、または当業者がここに開示される実施形態を理解するのを可能とするために、選択されたものである。

ここにおいて使用された用語は、特定の実施形態を説明することのみを目的としており、様々な実施形態を制限する意図を有しない。ここに使用される通り、特に明記されない限り、単数の記載は複数も含むことを意図している。「セット」、「グループ」、「束」等は、一つ以上を含むことを意図する。さらに、この明細書において「含む」及びまたは「含んだ」とは、記載された特性、整数、ステップ、作業、要素、及びまたは構成要素の存在を明記するが、一つ以上の他の特性、整数、ステップ、作業、要素、及びまたは構成要素、及びまたはそれらのグループの存在または追加を排除するものではないと理解される。上述の様々な実施形態の例示的な実施形態の詳細な説明において、実施形態の一部を成す添付図面（類似の符号数字は類似の要素を表す）を参照したが、図面においては、様々な実施形態がどのように実施されうるかについての具体的な例示的実施形態を例として示す。これらの実施形態は、当業者が実施形態を実行可能なように十分に詳細に説明されたが、他の実施形態も使用可能であり、論理的、機械的、電気的、及びその他の変更も、種々の実施形態の範囲から逸脱することなく行うことができる。上記の説明において、種々の実施形態について十分な理解を提供するために、多数の具体的な詳細が示された。しかしながら、種々の実施形態は、これらの具体的な詳細なくしても実施することができる。他の例として、実施形態の理解を妨げないよう、既知の回路、構造、及び技術については詳細に説明されない。

１００重み付き知識移転システム
１０１プライベート装置
１０２プライベートデータセット
１０３プライベート機械学習モデル
１０４重み付き知識移転装置
１０５重み付き知識移転部
１０６公開装置
１０７公開機械学習モデル
１０８公開データセット
１０９インタフェース部
１１０、１１１、１１２インタフェース
１１３ユーザ
２０３特性判定部
２０４プライベート知識移転データセット
２０５公開知識移転データセット
２０６データ選択部
２０７公開トレーニングデータセット
２０８類似度重みベクトル

Claims

公開データセットとプライベートデータセットとの間で共有されるターゲット特性のセットを決定することにより、公開知識移転データセットとプライベート知識移転データセットとを生成するよう構成された、特性判定部と、
前記公開知識移転データセットと前記プライベート知識移転データセットとの類似度計算に基づいて、前記プライベート知識移転データセットに関して類似度閾値を達成する前記公開知識移転データセットのサブセットである、公開トレーニングデータセットと、前記公開トレーニングデータセットに含まれる公開特性のセットの重みを示す類似度重みベクトルとを生成するよう構成された、データ選択部と、
前記プライベート知識移転データセットに基づいてトレーニングされた、トレーニング済みのプライベート機械学習モデルのセットによって、前記公開トレーニングデータセットを処理することにより、前記公開特性のセットのラベルを示す公開ラベルベクトルを生成するよう構成された、機械学習モデル管理部と、
前記重みベクトル、前記公開トレーニングデータセット、及び前記公開ラベルベクトルに基づいて、公開機械学習モデルを生成するよう構成された、知識移転部と、
を含むことを特徴とする重み付き知識移転装置。
前記プライベート知識移転データセットを複数のパーティションに分割するように構成されたパーティション部をさらに含み、
各パーティションは、他のパーティションに対して相互排他的なプライベート特性のセットを含む、
ことを特徴とする請求項１に記載の重み付き知識移転装置。
前記機械学習モデル管理部は、各機械学習モデルのセットを前記複数のパーティションの別個のパーティションに基づいてトレーニングすることにより、前記トレーニング済みのプライベート機械学習モデルのセットを生成する、
ことを特徴とする請求項２に記載の重み付き知識移転装置。
前記公開トレーニングデータセットの生成は、
前記プライベート知識移転データセットによって生成ネットワークをトレーニングすることによって、生成された特性の第一のセットを生成するトレーニング済みの生成ネットワークを生成すること、
識別ネットワークをトレーニングすることによって、前記生成された特性の第一のセットと前記プライベート知識移転データセットに含まれるプライベート特性のセットとを識別するトレーニング済みの識別ネットワークを生成すること、
前記トレーニング済みの識別ネットワークを用いて、前記生成された特性の第一のセットが前記プライベート知識移転データセットに属する確率を決定すること、及び
第一確率閾値を超える、前記プライベート知識移転データセットに属する確率に関連した前記生成された特性のセットのサブセットを、前記公開トレーニングデータセットとして選択すること
を含むことを特徴とする、請求項１に記載の重み付き知識移転装置。
前記公開トレーニングデータセットの生成は、
前記プライベート知識移転データセットと前記公開知識移転データセットとを、併合されたデータセットとして併合すること、
識別ネットワークをトレーニングすることによって、前記併合されるデータセットの特性の第一のセットが前記プライベート知識移転データセットに属するか前記公開知識移転データセットに属するかを分類するトレーニング済みの識別ネットワークを生成することと、
前記トレーニング済みの識別ネットワークを用いて前記公開知識移転データセットを処理することによって、前記公開特性のセットが前記プライベート知識移転データセットに属する尤度を示す確率を決定すること、及び
第一確率閾値を超える、前記プライベート知識移転データセットに属する確率に関連した前記公開特性のセットのサブセットを、前記公開トレーニングデータセットとして選択すること
を含むことを特徴とする、請求項１に記載の重み付き知識移転装置。
前記類似度計算は、ユークリッド距離計算方法、マンハッタン距離計算方法、チェビシェフ距離計算方法、及びマハラノビス距離計算方法からなるグループから選択される、
ことを特徴とする請求項１に記載の重み付き知識移転装置。
重み付き知識移転装置において実行される重み付き知識移転方法であって、
前記重み付き知識移転装置は、
プロセッサとメモリとを含み、
前記メモリは、
公開データセットとプライベートデータセットとを受け取る工程と、
前記公開データセットと前記プライベートデータセットとの間に共有されるターゲット特性のセットを決定することにより、公開知識移転データセットとプライベート知識移転データセットを生成する工程と、
前記公開知識移転データセットと前記プライベート知識移転データセットとの類似度計算に基づいて、前記プライベート知識移転データセットに関して類似度閾値を達成する前記公開知識移転データセットのサブセットである、公開トレーニングデータセットと、前記公開トレーニングデータセットに含まれる公開特性のセットの重みを示す、類似度重みベクトルとを生成する工程と、
前記プライベート知識移転データセットによって機械学習モデルのセットをトレーニングすることにより、トレーニング済みのプライベート機械学習モデルのセットを生成する工程と、
前記トレーニング済みのプライベート機械学習モデルのセットによって、前記公開トレーニングデータセットを処理することにより、前記公開特性のセットのラベルを示す公開ラベルベクトルを生成する工程と、
前記重みベクトル、前記公開トレーニングデータセット、及び前記公開ラベルベクトルに基づいて、公開機械学習モデルを生成する工程と、
を前記プロセッサに実行させる処理命令を含むことを特徴とする、重み付き知識移転方法。
プライベートデータセットを保持するプライベート装置と、
公開データセットを含み、機械学習モデルに基づくサービスをユーザに提供するように構成された公開装置と、
前記プライベートデータセットと前記公開データセットとを用いて、トレーニング済みの公開機械学習モデルのセットを生成するように構成された、重み付き知識移転装置とを含む重み付き知識移転システムであって、
前記重み付き知識移転装置は、第一ネットワーク接続を介して、前記プライベート装置に通信可能に接続されており、
前記重み付き知識移転装置は、前記第一ネットワーク接続とは異なる、第二ネットワーク接続を介して、前記公開装置に通信可能に接続されており、
前記プライベート装置は前記公開装置からはアクセス不可能であり、
前記重み付き知識移転装置は、
前記プライベートデータセットを第一の複数のパーティションに分割し、前記第一の複数のパーティションのうち別個のパーティションに基づいて各機械学習モデルのセットをトレーニングすることにより、トレーニング済みのプライベート機械学習モデルのセットを生成するように構成された、パーティショニング最適化部と、
前記トレーニング済みのプライベート機械学習モデルのセットを用いて前記公開データセットを処理することにより作成されたラベルのグループ及び重みを処理された公開データセットとして生成し、前記ラベルのグループ及び重みに基づいて決定された閾値のセットに基づいて、前記処理された公開データセットを第二の複数のパーティションに分割するように構成された、データ選択部と、
前記第二の複数のパーティションの別個のパーティションに基づいて各機械学習モデルのセットをトレーニングすることにより、トレーニング済みの公開機械学習モデルのセットを生成し、ユーザに供給するために前記トレーニング済みの公開機械学習モデルのセットを前記公開装置に展開するように構成された、機械学習部と
を含むことを特徴とする重み付き知識移転システム。
前記プライベートデータセットから選択された外部テストデータのセットに関して、前記トレーニング済みのプライベート機械学習モデルのセットの性能を評価し、
前記プライベートデータセットから選択された前記外部テストデータのセットに関して、前記トレーニング済みのプライベート機械学習モデルのセットの前記性能に基づいて、所定の性能基準を達成する、前記トレーニング済みのプライベート機械学習モデルのセットのためのモデル構成パラメータの第一のセットを決定するように構成された評価部と
をさらに含むことを特徴とする、請求項８に記載の重み付き知識移転システム。
前記評価部はさらに、
前記プライベートデータセットから選択された外部テストデータのセットに関して、前記トレーニング済みの公開機械学習モデルのセットの性能を評価し、
前記プライベートデータセットから選択された前記外部テストデータのセットに関して、前記トレーニング済みのプライベート機械学習モデルのセットの性能に基づいて、所定の性能基準を達成する、前記トレーニング済みのプライベート機械学習モデルのセットのためのモデル構成パラメータの第二のセットを決定するように構成される、
ことを特徴とする請求項９に記載の重み付き知識移転システム。