JP7492088B2 - 重み付き知識移転装置、方法、及びシステム - Google Patents

重み付き知識移転装置、方法、及びシステム Download PDF

Info

Publication number
JP7492088B2
JP7492088B2 JP2023540680A JP2023540680A JP7492088B2 JP 7492088 B2 JP7492088 B2 JP 7492088B2 JP 2023540680 A JP2023540680 A JP 2023540680A JP 2023540680 A JP2023540680 A JP 2023540680A JP 7492088 B2 JP7492088 B2 JP 7492088B2
Authority
JP
Japan
Prior art keywords
public
dataset
private
knowledge transfer
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023540680A
Other languages
English (en)
Other versions
JP2024502081A (ja
Inventor
ジョージ チャルキディス
俊太郎 由井
渉 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JP2024502081A publication Critical patent/JP2024502081A/ja
Application granted granted Critical
Publication of JP7492088B2 publication Critical patent/JP7492088B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本開示は、一般に、機械学習技術に関し、より詳細には、プライバシーを保護する機械学習モデルを生成するための重み付き知識移転技術に関する。
近年、パターンを認識し、それにより有益な情報及び識見を抽出することを可能とする、データ分析のための機械学習アプローチが広く探究されている。機械学習技術は、既知の結果を有するトレーニングデータに基づいて、一般化を行うようトレーニングされることができるアルゴリズムを含む。いったんトレーニングされると、これらの機械学習アルゴリズムは、未知の結果を有するケースについて、結果を予測することに適用可能となる。ニューラルネットワーク、隠れマルコフモデル、信念ネットワーク、サポートベクターマシンなどを含む機械学習アプローチは、大量のデータの存在、ノイズのあるパターン及び一般原理の欠如によって特徴づけられる領域に観念的に適しており、ヘルスケア、財務及び保険を含む、様々な分野に適用されてきた。
いくつかの機械学習の適用は、例えば臨床治験における患者の治療歴といった、機密にあたるトレーニングデータの使用を含む。そのようなトレーニングデータに基づいてトレーニング済みの機械学習モデルは、不注意にかつ黙示的に、当該機密情報のいくつかを保持することがあり、トレーニング済みのモデルを慎重に分析することにより、機密情報が権限のない行為者によって取得されるプライバシーリスクにつながる可能性がある。
従って、そのような問題に鑑みて、トレーニングデータのプライバシーを保護するための方法が提案されてきた。例えば、Papernot et al.(非特許文献1)は「この問題に対処するため、我々は、トレーニングデータのための強力なプライバシー保証を提供するための、一般的に適用可能なアプローチ:教師アンサンブルによるプライベート集合体(PATE)を示す。このアプローチは、ブラックボックス方式で、例えば異なるユーザサブセットからの記録といった、分解されたデータセットによってトレーニング済みの複数のモデルを組み合わせる。それらは直接機密データに依拠することから、これらのモデルは公表されず、代わりに「生徒」モデルのための「教師」として使用される。生徒は、全ての教師の中からノイズのある投票によって選ばれた出力を予測するよう学習し、個別の教師や根本のデータやパラメータに直接アクセスできない。生徒のプライバシー特性は、(生徒のトレーニングを規定する単一の教師および単一のデータセットはないことから)直感的に、及び差分プライバシーの観点から形式的に、理解可能である。競争相手が、生徒に問うだけでなくその内部作業を調べることができたとしても、これらの特性は保持される。従来の作業に比べて、当該アプローチは、どのように教師がトレーニングされたかについて、弱い仮説を立てるのみである。それは、DNNなどの非凸状モデルを含む、どのようなモデルにも当てはまる。我々は、向上されたプライバシー分析及び準教師付き学習のおかげで、MNIST及びSVHNにおける最新のプライバシー/実用性トレードオフを達成する。」と開示する。
「プライベートトレーニングデータから深層学習を行う準教師付き知識移転」Papernot et al.、表現学習国際学会 2017、2017
非特許文献1は、直接機密トレーニングデータによらず、代わりに、それぞれが機密トレーニングデータの一部によってトレーニングされた複数の「教師」モデルによってトレーニングされる、「生徒」機械学習モデルの技術を開示する。これらの教師モデルは公開されず、生徒モデルは単一の生徒モデルや単一のデータセットに依拠しないことから、権限のない行為者によって教師モデルから機密トレーニングデータに関する情報が抽出されることはない。このように、機密トレーニングデータのプライバシーは促進される。
しかしながら、非特許文献1に開示された技術は、プライベートモデルのトレーニングに使用されるプライベートデータセットと公開モデルのトレーニングに使用される公開データセットとの間に大きなばらつきがある場合、プライベートモデルから公開モデルへ知識を移転する能力を欠く。例えば、非特許文献1は、プライバシーを保護する機械学習モデルを作り出すのに使用可能な知識移転データセットを生成する技術を開示するものではない。結果として、非特許文献1は、プライバシーを保護する機械学習モデルを作り出すのに使用可能な、プライベートデータセットにおける特性の特徴を伝達する技術を提供しない。
従って、本開示の目的は、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行う装置、方法、及びシステムを提供することである。
本開示の一つの代表的な例は、公開データセットとプライベートデータセットとの類似度計算に基づき、プライベートデータセットに関して類似度閾値を達成する公開データセットのサブセット、及び公開データセットのサブセットに含まれる公開特性のセットの重みを示す類似度重みベクトルを生成するように構成されたデータ選択部と、プライベートデータセットに基づいてトレーニングされた機械学習モデルのセットによって公開データセットのサブセットを処理することにより、公開特性のセットのラベルを示す公開ラベルベクトルを生成するように構成された機械学習モデル管理部と、重みベクトル、公開データセットのサブセット、及び公開ラベルベクトルに基づいて、公開機械学習モデルを生成するように構成された知識移転部と、を含む重み付き知識移転装置に関する。
本開示によると、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行う装置、方法、及びシステムを提供することが可能となる。
上述した以外の課題、構成及び効果は、発明の実施形態に係る以下の説明によって明らかとなる。
図1は、本開示の実施形態を実施するためのコンピューティングアーキテクチャ例を示す。 図2は、実施形態に係る重み付き知識移転システムの構成例を示す。 図3は、実施形態に係る重み付き知識移転装置の論理構成例を示す。 図4は、実施形態に係る、プライバシーを保護する公開機械学習モデルを作成するのに使用されるターゲット特性のセットを選択する例を示す。 図5は、実施形態に係る、プライバシーを保護する公開機械学習モデルを作成するための、重み付き知識移転部の論理構成例を示す。 図6は、実施形態に係る知識移転データセット作成工程のフローチャートを示す。 図7は、実施形態に係る類似度重み付け工程のフローチャートを示す。 図8は、実施形態に係る重み付き知識移転工程のフローチャートを示す。 図9は、本開示の第二実施形態に係る重み付き知識移転装置の論理構成例を示す。 図10は、本開示の第二実施形態に係る、プライベートデータセットのパーティショニングを行い、機械学習モデルのセットを生成する、パーティショニング最適化部の論理構成例を示す。 図11は、本開示の第二実施形態に係る、トレーニング済みの機械学習モデル生成工程のフローチャーを示す。 図12は、データ選択及び重み付き知識移転の最適化のための、第二実施形態に係る重み付き知識移転装置の論理構成を示す。 図13は、本開示の第二実施形態に係る、データ閾値処理最適化工程のフローチャートを示す。
以下、添付の図面を引用しながら本発明の実施形態を説明する。ここに説明される実施形態は、請求項に係る発明を制限する意図を有さず、実施形態に係る説明における各構成要素及びそのみ合わせは、本発明の実施に厳密に必要とは限らないことに留意されたい。
様々な態様が、以下の説明及び添付図面に開示される。本開示の範囲を逸脱することなく、別の態様も考案可能である。加えて、本開示の既知の要素は、本開示に関連する詳細な説明を妨げないため、その詳細は説明されず、または省略される。
「例示的な」及びまたは「例」の語は、ここでは、「例、事例、または例示としての役割を果たす」という意味として使われる。「例示的な」及びまたは「例」としてここの説明されるすべての態様は、必ずしも他の態様より好ましいまたは有利であるということを意味しない。同様に、「開示の態様」は、全ての開示の態様が言及された特性、有利点、または作動形態を含む必要はない。
さらに、例えば、多くの態様が計算装置の構成要素によって実施される動作シーケンスとして説明される。ここに説明される様々な動作は、(例えばカスタムチップ(ASIC)といった)特定の回路によって、一つ以上のプロセッサによって実行されるプログラム命令によって、またはそれらの組み合わせによって、実施可能であることが認識される。加えて、ここに説明される動作のシーケンスは、実行される際に関連プロセッサによってここに説明された機能性を実施させる、対応するコンピュータ命令のセットをその中に保存する、あらゆる形態のコンピュータ読取可能な記録媒体の中に全体的に具現化されるものと認識されてもよい。 従って、様々な開示の態様が多種の形状に具現化され、そのすべてが請求項に記載の主題の範囲に含まれると考えられる。
例えばヘルスケア、財務及び保険といった領域において、個人データのプライバシーを保護することが非常に重要である。意図されない情報漏洩は、その情報を保持する企業と、その情報が回収された個人の両者にとって有害な結果をもたらす可能性がある。機械学習サービス(個人的健康予測、経済的リスク予測)を提供する企業の数が増えるにつれ、個人データのプライバシーを保護する必要もまた増加する。
いくつかのケースにおいて、機械学習の適用は、例えば臨床治験における患者の治療歴といった、機密であるトレーニングデータを使用することを伴う可能性がある。機械学習モデルのトレーニングに使用するために個人データを供与する個人は、善意で供与するのであり、第三者からアクセス可能な機械学習モデルは自分の個人情報を曝すものではないと信じている。
しかしながら、悪意のある行為者は機械学習モデルをハックし、その機械学習モデルのトレーニングに使用されたプライベートデータを供与した個人の個人情報を得ることが可能である。
このような問題に鑑みて、機械学習モデルを通じて悪意のある行為者にプライベートデータが漏洩されることを防ぐため、プライバシー保護構成を具備することが可能である。しかしながら、ヘルスケアデータを例に取ると、プライベートと公開されたデータソースとの異なる本質によって、プライベートデータに基づいて直接トレーニング済みの機械学習モデルの予測性能に似た予測性能を達成するプライバシーを保護する機械学習モデルを作成するのは難しい。
例えば、プライベート機械学習モデルに匹敵する性能を達成する、ユーザフレンドリーなプライバシーを保護する公開機械学習モデルを作成するためには、プライベートモデルから公開モデルへと知識が移転されることが必要である。しかしながら、従来の方法も、プライベートモデルのトレーニングに使用されるプライベートデータセットと公開モデルのトレーニングに使用される公開データセットとの間に大きなばらつきがある場合、プライベートモデルから公開モデルへ知識を移転する能力を欠く。例えば、従来の方法は、プライバシーを保護する機械学習モデルを作成するために使用可能な、知識移転データセットを生成する技術を開示しない。結果として、従来の方法は、プライバシーを保護する機械学習モデルを作り出すのに使用可能な、プライベートデータセットにおける特性の特徴を伝達する技術を提供しない。
従って、本開示の態様は、プライベートデータセットに似せた公開データセットを生成し、知識移転データセットを作成するためにプライベートデータセットと公開データセットとの間のターゲット特性のセットを選択し、知識移転データセットを介してプライベートデータセットにおいて見いだされた特徴を伝達するために重みを割り当て、知識移転データセットと割り当てられた重みとに基づいて、プライベートから公開モデルへの重み付き知識移転を実施することにより、上記の問題に取り組むものである。
追加的な開示の態様は、知識移転性能を最適化するため、公開データのパーティショニングの仕組み及び機械学習モデルのセットのパラメータ構成を決定することに関する。追加的な開示の態様は、公開知識移転データセットから公開トレーニングデータのセットを選択するための閾値のセットを決定し、選択された公開データサブセットによって複数の機械学習モデルのトレーニングを行い、公開モデルの知識移転能力及び性能を最適化するため閾値及びパラメータ構成を選択することに関する。
このように、本開示によると、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行う装置、方法、及びシステムを提供することが可能となる。
添付図面を参照すると、図1は、実施形態に係る、本開示の様々な実施形態を実施するための、コンピュータシステム300のハイレベルブロック図を示す。ここに示される様々な実施形態における機構や装置は、あらゆる適切な計算システムに等しく適用される。コンピュータシステム300の主な構成要素は、一つ以上のプロセッサ302、メモリ304、端末インタフェース312、ストレージインタフェース314、I/O(入力/出力)装置インタフェース316、及びネットワークインタフェース318を含み、それらすべては、メモリバス306、I/Oバス308、バスインタフェース部309、及びI/Oバスインタフェース部310を介したコンポーネント間通信のために、直接または間接的に通信可能に連結される。
コンピュータシステム300は、ここではまとめてプロセッサ302と呼ぶ、一つ以上の汎用プログラム可能中央処理装置(CPU)302A及び302Bを含んでもよい。実施形態において、コンピュータシステム300は複数のプロセッサを含んでもよい。しかしながら、ある実施形態においては、コンピュータシステム300は、代替的に、単一のCPUシステムであってよい。各プロセッサ302はメモリ304に保存された命令を実施し、一つ以上のオンボードキャッシュのレベルを含んでもよい。
実施形態において、メモリ304は、データやプログラムを保存や符号化するためのランダムアクセス半導体メモリ、ストレージ装置、または(揮発性または不揮発性の)記憶媒体を含んでもよい。ある実施形態においては、メモリ304はコンピュータシステム300の仮想メモリ全体を表し、さらにコンピュータシステム300に連結されたまたはネットワークを介して接続された他のコンピュータシステムの仮想メモリを含んでもよい。メモリ304は単一の一体的な実態として概念的に考えられもよいが、別の実施形態においては、メモリ304は例えばキャッシュや他のメモリ装置の階層といった、より複雑な構成を有する。例えば、メモリはキャッシュの複数のレベルに存在してもよく、これらのキャッシュはさらに機能によって分けられてもよく、それによって一つのキャッシュは命令を保持し、別のキャッシュは非命令データを保持し、それらはプロセッサや複数のプロセッサによって使われる。メモリはさらに、様々ないわゆる不均等メモリアクセス(NUMA)コンピュータアーキテクチャとして知られるように、分配されて異なるCPUやCPUのセットに関連付けられることができる。
メモリ304は、ここに論じられたようにデータ移転処理を行うため、様々なプログラム、モジュール及びデータ構造の全部または一部を保持してもよい。例えば、メモリ304は、重み付き知識移転アプリケーション350を保持することができる。実施形態において、重み付き知識移転アプリケーション350は、さらに以下に説明するような他の機能を実施するため、プロセッサ302において実施される命令やステートメント、またはプロセッサ302において実施される命令やステートメントによって解釈される命令やステートメントを含んでもよい。
ある実施形態において、重み付き知識移転アプリケーション350は、プロセッサベースシステムに代わる、またはそれに追加される、半導体装置、チップ、論理ゲート、回路、回路カード、及びまたは他の物理ハードウェア装置を介して、ハードウェアに実装される。実施形態において、重み付き知識移転アプリケーション350は、命令またはステートメントに加えて、データを含んでもよい。ある実施形態において、バスインタフェース部309、プロセッサ302、またはコンピュータシステム300の他のハードウェアと直接通信するカメラ、センサ、または他のデータ入力装置(図示せず)を有してもよい。そのような構成において、プロセッサ302がメモリ304及び潜在要因特定アプリケーションにアクセスする必要は低減される。
コンピュータシステム300は、プロセッサ302、メモリ304、ディスプレイシステム324、及びI/Oバスインタフェース部310の間の通信を扱うバスインタフェース部309を含んでもよい。I/Oバスインタフェース部310は、様々なI/O部との間でデータを移転するため、I/Oバス308と連結されてもよい。I/Oバスインタフェース部310は、I/Oプロセッサ(IOPs)やI/Oアダプタ(IOAs)としても知られる複数のI/Oインタフェースユニット312、314、316及び318と、I/Oバス308を介して通信する。ディスプレイシステム324は、ディスプレイコントローラ、ディスプレイメモリ、またはその両者を含んでもよい。ディスプレイコントローラは、ビデオ、オーディオ、または両方のタイプのデータをディスプレイ装置326に提供してもよい。さらに、コンピュータシステム300は、データを収集してプロセッサ302に提供するように構成された一つ以上のセンサまたは他の装置を含んでもよい。
例として、コンピュータシステム300は(例えば心拍データやストレスレベルデータを収集するための)生体認証センサ、(例えば湿度データ、気温データ、圧力データを収集するための)環境センサ、(例えば加速度データ、動作データを収集するための)モーションセンサ、などを含んでもよい。他のタイプのセンサも可能である。ディスプレイメモリはビデオデータをバッファするための専用メモリであってよい。ディスプレイシステム324は、例えばスタンドアロン型ディスプレイ画面、コンピュータモニタ、テレビ、またはタブレットまたは携帯用の装置ディスプレイといった、ディスプレイ装置326と連結されてもよい。
一つの実施形態において、ディスプレイ装置326はオーディオを出力するための一つ以上のスピーカを含んでもよい。代替的に、オーディオを出力するための一つ以上のスピーカはI/Oインタフェース部と連結されてもよい。別の実施形態において、ディスプレイシステム324によって提供される一つ以上の機能は、プロセッサ302も含んだ集積回路上にあってもよい。加えて、バスインタフェース部309によって提供される一つ以上の機能は、プロセッサ302も含んだ集積回路上にあってもよい。
I/Oインタフェース部は、様々なストレージやI/O装置との通信を支える。例として、端末インタフェース部312は、(ビデオディスプレイ装置、スピーカ、及びまたはテレビセットといった)ユーザ出力装置及び(キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、または他のポインティング装置といった)ユーザ入力装置を含んでもよい、一つ以上のユーザI/O装置320の接続を支える。ユーザは、ユーザI/O装置320及びコンピュータシステム300に対して入力データとコマンドを提供するために、ユーザインタフェースを用いてユーザ入力装置を操作することができ、またユーザ出力装置を介して出力データを受け取ることができる。例として、ユーザインタフェースは、ディスプレイ装置に表示されたり、スピーカで再生されたり、プリンタで印刷されたりすることによって、ユーザI/O装置320を介して提示されてもよい。
ストレージインタフェース314は、一つ以上のディスクドライブまたは直接アクセス ストレージ装置322(これらは典型的には回転磁気ディスクドライブ型ストレージ装置であるが、代替的に、ホストコンピュータから単一の大型ストレージ装置とみなされるように構成されたディスクドライブアレイ、またはフラッシュメモリといったソリッドステートドライブを含む、他のストレージ装置であってよい)の取り付けを支える。いくつかの実施形態において、ストレージ装置322は、あらゆるタイプの補助ストレージ装置を介して実装されてもよい。メモリ304、またはそのあらゆる部分の内容は、ストレージ装置322に保存され、必要に応じて取り出し可能である。I/O装置インタフェース316はあらゆる多種のI/O装置またはプリンタやファックスといった他のタイプの装置に対してインタフェースを提供する。ネットワークインタフェース318は、コンピュータシステム300から他のデジタル装置やコンピュータシステムに対する一つ以上の通信路を提供する。これらの通信路は、例えば、一つ以上のネットワーク330を含んでもよい。
図1に示すコンピュータシステム300は、プロセッサ302、メモリ304、バスインタフェース309、ディスプレイシステム324、及びI/Oバスインタフェース部310の間の直接通信路を提供する特定のバス構造を図示するものの、別の実施形態において、コンピュータシステム300は、例えば階層、スターまたはウェブ構造における二地点間リンク、複数の階層的バス、パラレル及び冗長経路、またはその他の適切なタイプの構造といった、あらゆる形に配置可能な異なるバスや通信路を含んでもよい。さらに、I/Oバスインタフェース部310及びI/Oバス308が単一のユニットとして示されるものの、コンピュータシステム300は、実際、複数のI/Oバスインタフェースユニット310及びまたは複数のI/Oバス308を含んでもよい。I/Oバス308と様々なI/O装置に通じる様々な通信経路とを分ける複数のI/Oインタフェース部が示されるものの、他の実施形態において、いくつかのまたはすべてのI/O装置は一つ以上のシステムI/Oバスに直接接続される。
様々な実施形態において、コンピュータシステム300はマルチユーザメインフレームコンピュータシステム、シングルユーザシステム、または直接のユーザインタフェースをほとんどまたは全く有しないものの、他のコンピュータシステム(クライアント)からのリクエストを受けるサーバコンピュータまたは類似装置である。他の実施形態において、コンピュータシステム300は、デスクトップコンピュータ、ポータブルコンピュータ、ラップトップまたはノートブックコンピュータ、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、またはその他の適したタイプの電子装置に実装されてもよい。
次に、本開示の実施形態に係る重み付き知識移転システムの構造例について、図2を参照しつつ説明する。
図2は、実施形態に係る、重み付き知識移転システム100の構成例を示す。図2に示す通り、重み付き知識移転システム100は、主として、プライベート装置101、重み付き知識移転装置104、及び公開装置106を含む。プライベート装置101、重み付き知識移転装置104、及び公開装置106は、ローカルエリアネットワーク(LAN)やインターネットなどの通信ネットワークを介して、通信可能に接続可能である。
プライベート装置101は、プライベートデータセット102と、プライベートデータセット102においてトレーニングされたプライベート機械学習モデル103とを保存するように構成されたストレージ装置である。例として、プライベート装置101は、プライベートデータセット102とプライベート機械学習モデル103とを保持するように構成されたハードディスクドライブ、ソリッドステートドライブ、またはクラウドベースストレージレポジトリの集合を含んでもよい。
プライベートデータセット102は秘密情報を含むデータの集合を含んでもよい。例えば、プライベートデータセット102は、一人以上の個人、ビジネス、または他の組織の医療記録、金融取引、または個人データ(氏名、住所、パスワード、銀行口座情報)を含んでもよい。
プライベート機械学習モデル103は、プライベートデータセット102を用いてトレーニングされた機械学習モデルを含んでもよい。例えば、機械学習モデルは、プライベートデータセット102に基づいて患者の健康リスクを予測するようにトレーニングされたニューラルネットワークであってもよい。
プライベート装置101は、個人、ビジネス、または他の組織のプライベートネットワークにおいて維持されてもよい。例えば、プライベート装置101は病院に属してもよい。実施形態において、プライベート装置101はインタフェース110を介して重み付き知識移転装置104に接続されてもよい。プライベート装置101は、重み付き知識移転装置104によって公開装置106から遮断されてもよい(つまり、プライベート装置101は公開装置106からアクセス不能であってもよい)。従って、公開機械学習モデル107は公開データセット108のみを使用してトレーニングされたため、公開装置106のインタフェース部109を通じて公開機械学習モデル107にアクセスするユーザ113は、悪意のある行為(例えばハッキング)を通じてプライベートデータセット102を得ることはできない、
公開装置106は、公開データセット108及び公開データセット102に基づいてトレーニングされた公開機械学習モデル107を保持するように構成されたストレージ装置である。例えば、公開装置106はプライベートデータセット108と公開機械学習モデル107とを保持するように構成されたハードディスクドライブ、ソリッドステートドライブ、またはクラウドベースストレージレポジトリのコレクションを含んでもよい。
公開データセット108は公開情報を含むデータ集合を含んでもよい。例えば、公開データセット108は特定の個人または実体に関連づけられない医療記録や金融取引に係る情報を含んでもよい。
公開機械学習モデル107は、公開データセット108及びプライベートデータセット102に基づいて重み付き知識移転部105を使用して作成された機械学習モデルを含んでもよい。例えば、機械学習モデルは、公開データセット108に含まれる特定の健康因子の存在に基づく健康リスクの発生を予測するようトレーニング済みのニューラルネットワークであってよい。
実施形態において、公開機械学習モデル107はインタフェース部109を介してユーザ113からアクセス可能であってよい。例えば、インタフェース部109は、サービスとして(例えばサブスクリプションベースのソフトウェアアプリケーションを介して)公開機械学習モデル107に対するアクセスを提供するように構成されたサーバモジュールを含んでもよい。ユーザは公開機械学習モデル107によって提供される識見を得るために、インタフェース部109を介して公開機械学習モデル107にアクセスすることができる。
重み付き知識移転装置104は、本開示に係る重み付き知識移転工程を行うために使用される一つ以上の機能ユニットを保持するように構成されたストレージ装置である。図2に示されるように、重み付き知識移転装置104は重み付き知識移転部105を含んでもよい。重み付き知識移転部105は、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデル103から公開機械学習モデル107に重み付き知識移転を実施するように構成された、機能ユニットである。
図2は、重み付き知識移転システム100の簡略化された構成を示すものであり、重み付き知識移転システム100は、図2に示された構成に限定されるものではないことを注記する。例えば、重み付き知識移転部105に加えて、重み付き知識移転装置104も、図3、図4、及び図5に示される通り、特性判定部、データ選択部、パーティション部、及びランダムノイズ発生器を含んでもよい。
重み付き知識移転部105はインタフェース110を通じてプライベートデータセット102にアクセスしてもよく、インタフェース111を通じて公開機械学習モデル107を作成するためにインタフェース112を通じて公開データセット108にアクセスしてよい。重み付き知識移転部105についての詳細は後述するため、ここではその説明は省略する。
本開示に係る重み付き知識移転システム100は多種の領域に適用されてもよい。以下に、重み付き知識移転システム100がヘルスケア領域に適用される例を検討する。
実施形態において、プライベート装置101はヘルスケア施設(例えば、医療保険の携行性と責任に関する法律に係る実体)によって管理されるプライベートネットワーク上に展開されるサーバであってよい。プライベートデータセット102は、ヘルスケア施設においてケアを受ける患者の電子健康管理記録を含んでもよい。これらの電子健康管理記録は、権限のない実体からアクセスされ、または患者の同意なしに共有されてはならない、個人情報を含んでもよい。プライベート機械学習モデル103はプライベートデータセット102に基づいて、再入院リスクまたは死亡リスクといったリスクを予測するようトレーニングすることができる。プライベート機械学習モデル103によって行われた予測は、患者の健康状態を向上するための適切な動作を取るために、ヘルスケアプロフェショナルによって使用されてもよい。
この場合、重み付き知識移転装置104に保持される重み付き知識移転部105は、インタフェース110を介して電子健康管理記録を含むプライベートデータセット102にアクセスし、インタフェース112を介して一般に公開されたヘルスケア情報(例えば集中治療データセットのための医療情報マート)を含む公開データセット108にアクセスしてもよい。後述する通り、重み付き知識移転部105は公開機械学習モデル107を生成するために公開データセット108とプライベートデータセット102とを使用する。ここに説明する通り、公開機械学習モデル107はプライベート機械学習モデル103に匹敵する性能を有するが、公開データセット108によってトレーニングされるため、プライベートデータセット102に存在する機密情報は、サイバーアタックが行われたとしても、権限のないユーザからアクセスすることはできない。
図2に示される重み付き知識移転システム100は、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行うことを可能とする。重み付き知識移転システム100は、データプライバシー及び機械学習モデル性能に関連する利益を提供してもよい。
次に、重み付き知識移転装置の論理構成例について、図3を参照しつつ説明する。
図3は、実施形態に係る、重み付き知識移転装置104の論理構成例を示す。重み付き知識移転装置104は、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行うことにより、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために使用してもよい。
まず、特性判定部203はプライベートデータセット102と公開データセット108を分析し、ターゲット特性のセットを決定する。ターゲット特性のセットは、プライベートデータセット102と公開データセット108との間で共有される特性の集合を含んでもよい。実施形態において、特性判定部203は、プライベートデータセット102と公開データセット108との間で共有される特性を確認するために、プライベートデータに関して一つ以上の様々な統計的分析技術を用いてターゲット特性のセットを決定してもよい。実施形態において、特性判定部203は自然言語処理に基づく方法を使用して、ターゲット特性のセットを決定してもよい。
その後、特性判定部203は、ターゲット特性のセットを両者とも含むプライベート知識移転データセット204と公開知識移転データセット205とを出力してもよい。プライベート知識移転データセット204と公開知識移転データセット205は、それぞれ、プライベートデータセット102と公開データセット108のサブセットであり、両者とも、特性判定部によって決定されたターゲット特性のセットを含む。
次に、データ選択部206はプライベート知識移転データセット204と公開知識移転データセット205を入力し、プライベート知識移転データセット204と公開知識移転データセット205との類似度計算に基づき、プライベート知識移転データセット204に関する類似度閾値を達成する公開知識移転データセット205のサブセットである公開トレーニングデータセット207と、公開トレーニングデータセット207に含まれる公開特性のセットの重みを表す類似度重みベクトル208とを生成する。
効率的な知識移転のため、公開知識移転データセット205の特徴空間カバレッジが実質的にプライベート知識移転データセット204の特徴空間と等しいことが望ましい。従って、プライベート知識移転データセット204と公開知識移転データセット205それぞれの特徴空間A’とB’として、データ選択部206は、プライベート知識移転データセット204の特徴空間カバレッジに近い公開トレーニングデータセット207を生成する。
ここに示した通り、実施形態において、データ選択部206はプライベート知識移転データセット204と公開知識移転データセット205との類似度計算に基づいて、公開トレーニングデータセット207と類似度重みベクトル208を生成してもよい。例えば、データ選択部206はプライベート知識移転データセット204における各特性に関して公開知識移転データセット205における各特性の類似度を計算してもよい。ここで、類似度は、ユークリッド、マンハッタン、チェビチェフ、またはマハラノビスメソッドを含む距離計算を用いて計算されてもよい。公開知識移転データセット205における各特性は、0から1の間の範囲に入るように正規化することができる計算された類似度スコアによって注釈付けられてもよい。これらのスコアはその後、公開知識移転データセット205の各特性に関連付けられ、重みベクトル208として出力される。ユーザによって設定された、または重み付き知識移転部209からのフィードバックループによって決定された、閾値に基づいて、公開トレーニングデータセット207に含まれる特性のセット(例えば、公開特性のセット)が決定されてもよい。
実施形態において、プライベート知識移転データセット204と公開知識移転データセット205との間の類似度は、傾向スコアマッチング法といった統計手法やk平均法といったクラスタリング手法によって決定されてもよい。さらに、実施形態において、プライベート知識移転データセット204と公開知識移転データセット205との間の類似度は、カルバック・ライブラー情報量法といった情報理論法や様々なエントロピー手法によって決定されてもよい。
実施形態において、プライベート知識移転データセット204と公開知識移転データセット205との間の類似度は、機械学習モデルに基づく類似度を用いて決定されてもよい。例として、プライベート知識移転部204を用いて新しいプライベート機械学習モデルを作成してよい。この新しく作成された機械学習モデルを用いて特定の予測タスク(例えば、患者を様々なリスクグループに分類する)を実施してよい。機械学習モデルは、プライベート知識移転データセット204からのデータに基づいて特定の特性のセット(例えば患者)の確率を計算し、複数のグループのそれぞれに属する特性のセットの確率を割り当て、統計的意思決定法に基づいて最終のグループラベルを選択する。
プライベート知識移転データセット204を用いて作成された、トレーニング済みのプライベート機械学習モデルは、例えばニューラルネットワークの内部重みや決定木モデルのノードパラメータといった、モデル構造内に符号化されたプライベート知識移転データセット204に係る知識を黙示的に含む。この知識は、トレーニング済みのプライベート機械学習モデルにそれらの特性を用いて予測を行うよう指示することにより、公開知識移転データセット205における特性の類似度を測定するのに使用される。公開知識移転データセット205における各特性セットに対して、グループのセットにおける各グループに属する確率を割り当てることができる。これらの出力された確率に基づき、公開知識移転データセット205内のサンプルのプライベート知識移転データセット204に対する類似度が、出力確率分布のエントロピーを測定し、低エントロピーサンプルをプライベート知識移転データセット204に類似であるとカテゴライズし、高エントロピーサンプルをプライベート知識移転データセット204に非類似であるとカテゴライズするなどの統計的意思決定方法によって、推測可能である。ここに説明される通り、エントロピー法は、0から1の範囲に正規化され、データ選択部206によって出力された重みベクトル208に変換されることができる。
実施形態において、プライベート知識移転データセット204と公開知識移転データセット205との間の類似度は、プライベート知識移転データセット204における特性のセットをプライベート知識移転データセット204に属するものとしてラベリングし、公開知識移転データセット205における特性のセットを公開知識移転データセット205に属するものとしてラベリングすることにより決定されてもよい。その後、プライベート知識移転データセット204と公開知識移転データセット205とは単一のデータセットに併合され、識別子モデルを、特定の特性のセットがプライベート知識移転データセット204と公開知識移転データセット205のどちらに属するかの尤度を計算することによりデータを識別するのに使用されてもよい。
識別子モデルがトレーニングされると、トレーニング済みの識別子モデルを使用して公開知識移転データセット205を処理し、各特性のセットについて、プライベート知識移転データセット204に属する当該特性のセットの確率を出力してもよい。確率閾値を達成する確率を有する特性のセットを、公開トレーニングデータセット207に含まれるよう選択してもよい。計算された確率は、データ選択部206によって重みベクトル208として出力されてもよい。ここで、確率閾値は、ユーザによって設定されるか、または重み付き知識移転部209からフィードバックループとして決定されることが可能である。
さらに実施形態において、データ選択部206は、敵対的生成ネットワークといった技術を用いて、公開トレーニングデータセット207と類似度重みベクトル208とを生成してもよい。生成ネットワークは、プライベート知識移転データセット204の特性に似た生成された特性のセットを生成するようトレーニングしてもよい。識別ネットワークは、生成された特性のセットとプライベート知識移転データセット204(例えば、リアル特性)に含まれるプライベート特性のセットとを識別するようにトレーニングしてもよい。トレーニング後、識別ネットワークは、トレーニング済みの生成ネットワークによって生成された生成特性のセットを評価して、プライベート知識移転データセット204に属する生成された特性のセットの確率を計算するのに使用してもよい。その後、識別ネットワークは、公開トレーニングデータセット207として、第一確率閾値を超えたプライベート知識移転データセット204に属する確率と関連付けられた、生成された特性のセットのサブセットを選択してもよい。計算された確率は、データ選択部206によって重みベクトル208として出力されてもよい。
重み付き知識移転部105は公開機械学習モデル107を作成するために、プライベート知識移転データセット204、公開知識移転データセット205、公開トレーニングデータセット207、及び重みベクトル208を使用してもよい。ここに記載される通り、公開機械学習モデル107へのアクセスはインタフェース部109を介してユーザ113に提供されてもよい。重み付き知識移転部105についての詳細は後述されるため、ここでの説明は省略する。
次に、プライバシーを保護する公開機械学習モデルの作成に使用されるターゲット特性のセットを選択する例について、図4を参照しつつ説明する。
図4は、実施形態に係る、プライバシーを保護する公開機械学習モデルの作成に使用されるターゲット特性のセットを選択する例を示す。ここに記載される通り、本開示に係る特性判定部203は、プライベートデータセット102と公開データセット108とを分析して、プライベートデータセット102と公開データセット108との間で共有されるターゲット特性のセットを決定する。その後、特性判定部203は、ともにターゲット特性のセットを含むプライベート知識移転データセット204と公開知識移転データセット205とを出力してもよい。
以下に、プライベート知識移転データセット204と公開知識移転データセット205とを出力するためにターゲット特性のセットを決定する例について、ヘルスケアアプリケーションのコンテキストにおいて説明する。
実施形態において、図4に示される通り、プライベートデータセット102はプライベート特性のセット402とそのそれぞれの測定単位403(例えば、ヘルスケアシステムの電子健康管理記録から入手できる情報))とをリストした説明テーブルを含んでもよい。同様に、公開データセット108は公開特性のセット408とそれぞれの測定単位409とをリストした説明テーブルを含んでもよい。実施形態において、特性抽出部203は、特性判定を容易にするため、プライベートデータセット102と公開データセット108のそれぞれに含まれる非構造化データからこれらの説明テーブルを生成するように構成されてもよい。
プライベートデータセット102のデータ説明テーブルにあるプライベート特性のセット402の各特性について、特性判定部203は公開データセット108の説明テーブルにある公開特性のセット408における当該特性の有無を確認するため、問い合わせ405を送信し、その後、公開データセット108の説明テーブルにある公開特性のセット408における当該特性の有無を示す応答406を受信してもよい。ここで、プライベート特性のセット402と公開特性のセット408との間の比較は、特定の特性間の意味的または統語的類似度を解析する自然言語処理部を用いて実施されてもよい。
図4に示す例において、例えば、プライベート特性のセット402は「g/dL」単位で測定される「アルブミン」の特性を含んでもよい。特性判定部203は応答406に基づいて、「アルブミン」の特性は公開特性のセット408において入手できると決定することができるが、記録によって「g/dL」と「mg/dL」の異なる測定単位で計測されている。実施形態において、特性判定部203は、公開特性のセット408における「g/dL」単位で測定される「アルブミン」の特性は、プライベート特性のセット402における「g/dL」単位で測定される「アルブミン」の特性に対して高い類似度を達成すると決定し、この「g/dL」単位で測定される「アルブミン」の特性を知識移転工程において使用されるターゲット特性と決定してもよい。
データ説明テーブルに保持された特性について測定単位が見つからない場合、プライベートデータセット102及び公開データセット108の両方において入手できる特性を知識移転工程に使用できるかを、距離または類似度手法に基づく統計手法を用いて決定してもよい。例として、特性判定部203は、公開データセット108とプライベートデータセット102にある測定頻度カウントに基づき、特定の特性(例えば、「アルブミン」)の確率密度係数410を取得してもよい。
その後、特性判定部203は、例えば、特定の特性がプライベートデータセット102と公開データセット108の両方で同じスケールで測定されたかを決定するため、カルバック・ライブラー情報量に基づく判定閾値を使用してもよい。例えば、グラフ411に示される通り、分布が判定閾値を満足しない場合、特性判定部203は、特定の特性がプライベートデータセット102と公開データセット108との間で異な測定単位で測定されたと決定し、ターゲット特性から除外してもよい。これに対して、グラフ412に示される通り、分布が判定閾値を満足した場合、特性判定部203は、特定の特性がプライベートデータセット102と公開データセット108との間で同じ測定単位で測定されたと決定し、ターゲット特性に含んでもよい。特定の実施形態において、特性判定部203はプライベート特性のセット402と公開特性のセット408との比較を容易にするため、特定の特性に対して単位変換を行うように構成されてもよい。
このようにして、プライバシーを保護する公開機械学習モデルの作成に使用するターゲット特性のセットを決定することができる。
次に、プライバシーを保護する公開機械学習モデルを生成するための重み付き知識移転部の論理構成例を、図5を引用しつつ説明する。
図5は、実施形態に係る、プライバシーを保護する公開機械学習モデルを生成するための重み付き知識移転部の論理構成例を示す。ここに記載される通り、重み付き知識移転部はプライベート知識移転データセット204、公開トレーニングデータセット207及び重みベクトル208を入力として使用し、ユーザ113がインタフェース部109を介してアクセス可能なプライバシーを保護する公開機械学習モデル107を生成する。
パーティション部502はプライベート知識移転データセット204を複数のパーティション503に分ける。ここで、パーティションは、複数のパーティション503のうちの他のパーティションに対して相互排他的なプライベート特性のセットを含む、プライベート知識移転データセットの部分を指す。このようにして、一つの特性のセット(例えば、ヘルスケアコンテキストにおける一人の患者)に対応するデータは複数のパーティション間に分配されず、ランダムに一つのパーティションに割り当てられ、排他的に保持される。
次に、機械学習モデル管理部504は、トレーニング済みのプライベート機械学習モデルのセット507を生成するために、複数のパーティション503を用いて機械学習モデルのセットのトレーニングを行う。実施形態において、機械学習モデル管理部504は複数のパーティション503の別の部分に基づいて各機械学習モデルのセットのトレーニングを行い、他のパーティションからのデータは使用されない。このようにして、各機械学習モデルの性能は、複数のパーティション503のうち一つのパーティションに含まれるデータのみを使用して最適化される。
次に、機械学習モデル管理部504は、公開トレーニングデータセット207をトレーニング済みのプライベート機械学習モデルのセット507によって処理することにより、公開トレーニングデータセット207に含まれる公開特性のセットのラベルを示す公開ラベルベクトル511を生成する。より詳細には、機械学習モデル管理部504は公開知識移転データセット207を入力として受け取り、公開トレーニングデータセット207における各特性のセットに機械学習タスク(例えば予測タスク、分類タスク、検出タスク)を実施するために、トレーニング済みのプライベート機械学習モデルのセット507を使用する。例として、ヘルスケアのコンテキストにおいて、機械学習モデル管理部504は、公開トレーニングデータセット207に含まれる各特性のセット(例えば、患者)のためのリスクグループラベルを予測するためにトレーニングされたプライベート機械学習モデルのセット507を使用してもよい。可能性のある各出力ラベルのセットに関して、各トレーニング済みのプライベート機械学習モデルのセット507は、公開トレーニングデータセット207の各特性のセットの各ラベルに確率を割り当てる。次に、最大尤度といった統計的意思決定方法を使用して、各トレーニング済みの機械学習モデルは各特性のセットにラベルを割り当てる。
公開トレーニングデータセット207における特性のセットのそれぞれがトレーニング済みのプライベート機械学習モデルのセット507の各トレーニング済みの機械学習モデルによって処理されるため、各特性のセットは複数のラベル508を割り当てられる。従って、機械学習モデル管理部504は、各特性のセットのラベルカウントを集約し、ランダムノイズ発生器510からランダムノイズを加える。次に、機械学習モデル管理部504は、大多数のカウントを有するラベルを、公開トレーニングデータセット207の当該特性のセットの最終出力ラベルとして選択する。ランダムノイズを追加することにより、同じカウント数を有する複数の候補ラベルが並ぶ可能性が低減する。しかしながら、複数の候補ラベルが同じカウント数で並んだ場合、一つのラベルをランダムに最終出力ラベルとして選択してもよい。公開トレーニングデータセット207における各特性のセットにラベルを付ける工程を実施することにより、機械学習モデル管理部504は、公開トレーニングデータセット207に含まれる各公開特性のセットに対するラベルを示す公開ラベルベクトル511を生成することができる。
次に、機械学習部512は、公開トレーニングデータセット207、類似度重みベクトル208、及び公開ラベルベクトル511を使用して公開機械学習モデル107を作成しトレーニングする。ここに説明する通り、公開機械学習モデル107は、プライベートデータセットでトレーニングされたプライベート機械学習モデルに匹敵する性能を有するが、公開トレーニングデータセット207によってトレーニングされているため、プライベートデータセットに存在する機密情報は、サイバーアタックが行われたとしても、権限のないユーザからアクセスすることはできない。
実施形態において、機械学習部512は、類似度重みベクトル208におけるそれぞれの対応重みに基づいて、公開トレーニングデータセット207における特性のセットの優先度を調整するマッピング機能を利用してもよい。例えば、機械学習部512においてトレーニング済みの公開機械学習モデル107は、公開トレーニングデータセット207における特性のセットを入力として使用し、公開ラベルベクトル511のラベルを予測ターゲットとして使用する。公開機械学習モデル107の性能は、損失係数を最小化することにより、最適化される。さらに、トレーニング工程の一部として、類似度重みベクトル208における公開トレーニングデータセット207の特性のセットの重みは、機械学習部512とデータ選択部206との間のフィードバックループを通じて調整されてもよい。
トレーニング工程が完了すると、機械学習部512によって作成された公開機械学習モデル107は、サービスとして、インタフェース部109を介してユーザ113に対してアクセス可能なように公開されてもよい。
図5に示された重み付き知識移転部構成は、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行うことを可能とする。図5に示された重み付き知識移転構成は、データプライバシーと機械学習モデル性能とに関する利益を提供されてもよい。
次に、本開示に係る知識移転データセット作成工程について、図6を参照しつつ説明する。
図6は、実施形態に係る知識移転データセット作成工程600のフローチャートを示す。知識移転データセット作成工程600は、本開示に係る知識移転データセット(例えば、図3に示すプライベート知識移転データセット204と公開知識移転データセット205)を生成する工程であり、特性判定部(例として、図3に示す特性判定部203)によって実施されてもよい。
始めに、ステップS601において、特性判定部はプライベートデータセットと公開データセットとを取得する。実施形態において、特性判定部は、重み付き知識移転装置と(例えば、病院、ビジネス、個人、またはその他の組織によって所有された)プライベート装置との間の信頼できる通信路を介してそれら装置へのアクセスをリクエストすることにより、プライベートデータセットを取得することができる。実施形態において、特性判定部は公開データレポジトリにアクセスすることにより、公開データセットを取得することができる。特定の実施形態において、プライベートデータセットと公開データセットとは、重み付き知識移転装置の管理者によって選択することができる。
次に、ステップS602において、特性判定部はプライベートデータセットと公開データセットとを分析することにより、ターゲット特性のセットを決定する。ここに記載される通り、ターゲット特性のセットはプライベートデータセットと公開データセットとの間に共有される特性の集合を含んでもよい。実施形態において、特性判定部は、プライベートデータセットと公開データセットとの間に共有される特性を確認するため、プライベートデータに関する一つ以上の種類の統計的分析技術を使用してターゲット特性のセットを決定してもよい。さらに、実施形態において、特性判定部203は、自然言語処理に基づく方法を使用して、ターゲット特性のセットを決定してもよい。
次に、ステップS603において、特性判定部がターゲット特性のセットを決定することができた(例えば、共有される特性のセットが公開データセットとプライベートデータセットの両方に存在する)場合、知識移転データセット作成工程600はステップS604に進む。これに対して、特性判定部がターゲット特性のセットを決定することができなかった(例えば、共有される特性のセットが公開データセットとプライベートデータセットの両方に存在しない)場合、知識移転データセット作成工程600はステップS601に戻り、異なるまたは追加的なプライベート及び公開データを取得する。
次に、ステップS604において、特性判定部はターゲット特性のセットをともに含むプライベート知識移転データセットと公開知識移転データセットとを作成してもよい。例えば、特性判定部は、公開知識移転データセットとして公開データセットから公開特性のセットを抽出し、プライベート知識移転データセットとして公開データセットからプライベート特性のセットを抽出することができ、公開特性のセットとプライベート特性のセットとは実質的に対応する。
ここに記載される通り、図6を参照して説明される知識移転データセット作成工程600により、重み付き知識移転工程に使用される知識移転データセットの作成を可能とする。
次に、本開示に係る類似度重み付け工程を、図7を参照しつつ説明する。
図7は、実施形態に係る類似度重み付け工程700のフローチャートを示す。類似度重み付け工程700は、公開トレーニングデータセットに含まれる公開特性のセットのための類似度重み付けベクトル(例えば、図3に示す類似度重み付けベクトル208)を生成する工程であり、データ選択部(例えば、図3に示すデータ選択部206)によって実施されてよい。
始めに、ステップS701において、データ選択部はプライベート知識移転データセットと公開知識移転データセットとを受け取る。ここでデータ選択部は、特性抽出部からプライベート知識移転データセットと公開知識移転データセットとの送信を受け取ってもよく、またはプライベート知識移転データセットと公開知識移転データセットとが保持された指定ストレージアドレスにアクセスしてもよい。
次に、ステップS702において、データ選択部は公開知識移転データセットとプライベート知識移転データセットとの間の類似度を計算するための類似度計算方法を決定する。ここに記載される通り、類似度計算は、ユークリッド、マンハッタン、チェビシェフ、またはマハラノビス距離計算法、傾向スコアマッチング方法といった統計手法、k平均法クラスタリング機械学習といったクラスタリング手法、モデルに基づく類似度、識別ネットワーク、敵対的生成ネットワーク、等を含む多種の類似度計算技術から選択されてもよい。実施形態において、データ選択部は、公開知識移転データセットとプライベート知識移転データセットとの性質に関して最高の精度を達する可能性の高い類似度計算技術が多数の技術のうちどれであるかを予測するようトレーニング済みの機械学習モデルを使用することによって、類似度計算方法を決定することができる。実施形態において、データ選択部は、公開知識移転データセットとプライベート知識移転データセットとの性質に基づいて複数の所定の類似度計算技術のそれぞれの性質をランク付けする探索表を使用して類似度計算方法を決定してもよい。
次に、ステップS703において、データ選択部はステップS702において決定された類似度計算方法を利用して、プライベート知識移転データセットにおける各特性に対して公開知識移転データセットにおける各特性の類似度を計算する。実施形態において、計算された類似度は0から1の間の類似度重み値として表現されることができ、より大きい値はより高い類似度を示す。
次に、ステップS704において、データ選択部はステップS703において計算された類似度重み値を公開知識移転データセットにおいて対応する特性に結び付ける。
次に、ステップS705において、データ選択部は、公開機械学習モデルをトレーニングするフィードバックループの一部として、機械学習部から類似度変更リクエストを受け取ったか否かを確認してもよい。類似度変更リクエストは、例えば、機械学習部からの公開知識移転データセットにおける公開特性のセットの特定の特性または特性タイプの類似度重みを増やすまたは減らすリクエストであってよい。類似度変更リクエストを受け取った場合、類似度重み付け工程700はステップS702に戻ってもよい。類似度変更リクエストを受け取っていない場合、類似度重み付け工程700はステップS706に進んでもよい。
次に、ステップS706において、データ選択部は、公開機械学習モデルをトレーニングするフィードバックループの一部として、機械学習部からフィルタリクエストを受け取ったか否かを確認してもよい。フィルタリクエストは、例えば、機械学習部からの公開知識移転データセットの公開特性のセットから特定の特性または特性タイプを削除または除外するリクエストであってよい。フィルタリクエストを受け取った場合、類似度重み付け工程700はステップS707に進むことができる。フィルタ変更リクエストを受け取っていない場合、類似度重み付け工程700はステップS709に進んでもよい。
次に、ステップS707において、データ選択部は、ステップS706において受け取ったフィルタリクエストに基づき、公開知識移転データセットに含まれる公開特性のセットにフィルタをかけてもよい。例えば、データ選択部は、ステップS706において受け取ったフィルタリクエストにおいて特定された特性を、公開特性のセットから削除してもよい。
次に、ステップS708において、データ選択部は、公開知識移転データセットに含まれる公開特性のセットから、類似度閾値を超えた類似度重みと関連付けられた公開特性を、公開トレーニングデータセットとして選択してもよい。ここで、類似度閾値はユーザによって設定されるか、または重み付き知識移転部からのフィードバックループにおいて決定されることが可能である。
次に、ステップS709において、データ選択部は、ステップS708で選択された公開トレーニングデータセットを、公開トレーニングデータセットに含まれる公開特性のセットの重みを示した類似度重みベクトルと共に出力してもよい。実施形態において、データ選択部は公開トレーニングデータセットと類似度重みベクトルとを重み付き知識移転部(例えば、図3に示される重み付き知識移転部105)に出力してもよい。ここに記載される通り、重み付き知識移転部は、プライベート知識移転データセット、公開知識移転データセット、公開トレーニングデータセット、及び重みベクトルを用いて公開機械学習モデルを作成してもよい。
ここに記載される通り、図7を参照して上に説明された類似度重み付け工程700は、公開機械学習モデルを作成するのに使用する公開トレーニングデータセットと及び重みベクトルとを作成することを許可する。
次に、本開示に係る重み付き知識移転工程について、図8を参照しつつ説明する。
図8は、実施形態に係る重み付き知識移転工程800のフローチャートを示す。重み付き知識移転工程800は、プライベート機械学習モデルに匹敵する性能を達成する公開機械学習モデル(例えば、図3に示される公開機械学習モデル107)をトレーニングする工程であり、重み付き知識移転部(例えば、図3に示される重み付き知識移転部105)によって実施されてもよい。
始めに、ステップS801において、重み付き知識移転部はプライベート知識移転データセットと公開知識移転データセットとを取得する。ここで、重み付き知識移転部は、特性抽出部からプライベート知識移転データセットと公開知識移転データセットとの送信を受け取ってもよく、またはプライベート知識移転データセットと公開知識移転データセットとが保持された指定ストレージアドレスにアクセスしてもよい。
次に、ステップS802において、重み付き知識移転部はプライベート知識移転データセットを複数のパーティションに分けてもよい。ここで説明される通り、パーティションとは、複数のパーティション503のうちの他のパーティションに対して相互排他的なプライベート特性のセットを含む、プライベート知識移転データセットの部分を指す。このようにして、一つの特性のセット(例えば、ヘルスケアコンテキストにおける一人の患者)に対応するデータは複数のパーティション間に分配されず、ランダムに一つのパーティションに割り当てられ、排他的に保持される。
次に、ステップS803において、重み付き知識移転部は、トレーニング済みのプライベート機械学習モデルのセットを生成するために、複数のパーティションを用いて機械学習モデルのセットのトレーニングを行う。実施形態において、重み付き知識移転部は複数のパーティションの別の部分に基づいて各機械学習モデルのセットのトレーニングを行い、他のパーティションからのデータは使用されない。このようにして、各機械学習モデルの性能は、複数のパーティションのうち一つのパーティションに含まれるデータのみを使用して最適化される。
次に、ステップS804において、重み付き知識移転部は、ステップS803においてトレーニング済みのプライベート機械学習モデルのセットによって公開トレーニングデータセット知識移転データセットを処理することにより、公開トレーニングデータセットに含まれる公開特性のセットのラベルのセットを生成する。
次に、ステップS805において、重み付き知識移転部は、各特性のセットについてステップS804において生成されたラベルのセットを集約すし、ランダムノイズ発生器からランダムノイズを加え、公開トレーニングデータセットの特性のセットのそれぞれに対して最終出力ラベルとして大多数のカウントを有するラベルを選択することにより、公開ラベルベクトルを生成する。
次に、ステップS806において、重み付き知識移転部は、公開トレーニングデータセット、類似度重みベクトル、及びステップS805で生成された公開ラベルベクトルを使用して、公開機械学習モデルを作成しトレーニングする。ここに説明する通り、公開機械学習モデルは、プライベートデータセットでトレーニングされたプライベート機械学習モデルに匹敵する性能を有するが、公開トレーニングデータセットによってトレーニングされているため、プライベートデータセットに存在する機密情報は、サイバーアタックが行われたとしても、権限のないユーザからアクセスすることはできない。
次に、ステップS807において、重み付き知識移転部は、重み付き知識移転のさらなる最適化リクエストの有無を確認する。例えば、重み付き知識移転部は現在の重み付き知識移転のさらなる最適化に使用することができる、先に実施された重み付き知識移転工程からのフィードバックの有無を確かめてもよい。別の例として、重み付き知識移転部は、重み付き知識移転のさらなる最適化に使用することができる追加の命令またはデータについてユーザを促してもよい。さらなる最適化が可能であると重み付き知識移転部が決定した場合、重み付き知識移転工程800はステップS801に戻る。さらなる最適化が可能ではないと重み付き知識移転部が決定した場合、重み付き知識移転工程800はステップS808に進む。
次に、ステップS808において、重み付き知識移転部はステップS806においてトレーニング済みの公開機械学習モデルに対するアクセスを提供してもよい。例えば、ここに記載される通り、重み付き知識移転部は、ユーザからアクセスされる公開機械学習モデルを、インタフェース部を介したネットワークベースのサービス(例えば、ソフトウェアアプリケーション)として構成してもよい。
図8に示される重み付き知識移転工程800は、データプライバシーを維持しつつ高性能を達成するプライバシーを保護する公開機械学習モデルを作成するために、プライベート機械学習モデルから公開機械学習モデルへ重み付き知識移転を行うことを可能とする。図8に示される重み付き知識移転工程800は、データプライバシー及び機械学習モデルの性能に関して利益を提供することができる。
次に、本開示の第二実施形態に係る、重み付き知識移転部の論理構成例を、図9を参照しつつ説明する。
図9は、本開示の第二実施形態に係る重み付き知識移転装置900の論理構成例を示す。本開示の第二実施形態に係る重み付き知識移転装置900は、知識移転能力を最適化することにより、プライベート機械学習モデルから公開機械学習モデルへの重み付き知識移転を実施することに関する。図9に示される通り、本開示の第二実施形態に係る重み付き知識移転装置900は、主として、パーティショニング最適化部925、データ選択部950、制御部975、及び機械学習部980を含む。第二実施形態に係る重み付き知識移転装置900は先に説明された実施形態の構成と類似のシステム構成を使用して実装されてもよい。
以下に、先に説明された実施形態の態様とは異なる重み付き知識移転装置900の態様を主として説明し、重複する要素の説明は省略する。
始めに、重み付き知識移転装置900はプライベートデータセット910と公開データセット920とを取得する。ここで、プライベートデータセット910は、秘密情報を含むデータのコレクションを含んでもよい。例えば、プライベートデータセット910は、一つ以上の個人、ビジネス、またはその他の組織(例えば、プライベートデータセット910は先の実施形態のプライベートデータセット102に対応してもよい)のための医療記録、金融取引、または個人情報(氏名、住所、パスワード、銀行口座情報)に関する情報を含んでもよい。
公開データセット920は、公開情報を含むデータのコレクションを含んでもよい。例えば、公開データセット920は、あらゆる特定の個人または実体(例えば、公開データセット920は先の実施形態の公開データセット108に対応してもよい)と関連付けられない医療記録または金融取引に関する情報を含んでもよい。他の実施形態において、プライベートデータセット910と公開データセット920とは、先に説明された実施形態のプライベート知識移転データセット204と公開知識移転データセット205とに対応してもよい。
次に、パーティショニング最適化部925において、パーティション部930はプライベートデータセット910を複数のパーティション932(例えば、第一の複数のパーティション)に分割する。次に、モデル最適化部935は、複数のパーティション932を用いてプライベート機械学習モデルのセットをトレーニングして最適化し、トレーニング済みのプライベート機械学習モデルのセット937を生成する。モデル最適化部935は、種々のモデルパラメータ構成のために複数のパーティション932の各パーティションに関して各トレーニング済みのプライベート機械学習モデルのセット937の性能を評価し、その結果を構成データベース940に保持する。
構成選択部945はその後、所定の性能メトリック、例えば、受信側操作特性曲線下面積(AUROC)、精密性、リコールなど、を最大化するパーティション構成とモデルパラメータのセットとを決定する。構成選択部945によって選択されたモデルパラメータのセットは、トレーニング済みのプライベート機械学習モデルのセット937に適用されてもよい。トレーニング済みのプライベート機械学習モデルのセット937は、その後、データ選択部950に通信される。
パーティショニング最適化部925の論理構成については後に詳細に説明するため、その説明はここでは省略する。
データ選択部950は公開データセット920を受け取り、トレーニング済みのプライベート機械学習モデルのセット937を用いて公開データセット920を処理することにより、ラベルのグループと重みを公開データセット920に結び付ける。集約部960はラベルのグループと重みとを処理された公開データセット970として集約する。実施形態において、処理された公開データセット970は、結びつけられた重みのためのフィルタリング閾値を調整することによって選択されてもよい。一つの例として、処理された公開データ970は、公開データセット920を重み閾値(例えば、ラベルのグループ及び重みに基づいて決定された閾値)に基づいて別個のパーティションに割り当て、複数の公開機械学習モデルをトレーニングし、評価メトリックに関して最適な閾値及びモデルパラメータを選択することにより、決定されてもよい。
機械学習部980は処理された公開データセット970を用いて公開機械学習モデル985のトレーニングを行う。この処理は、公開機械学習モデル985からパーティショニング最適化部925及びデータ選択部950にフィードバックループを設定することにより重み付き知識移転の移転能力を最適化する制御部975により制御されてもよい。公開機械学習モデル985はインタフェース部990を通じてユーザ995に対して様々な機械学習に基づくサービスを提供するために使用されてもよい。
このようにして、重み付き知識移転装置900は知識移転能力を最適化することにより、プライベート機械学習モデルから公開機械学習モデルへの重み付き知識移転を実施することを可能にする。
次に、プライベートデータセットのパーティショニングを行い機械学習モデルのセットを生成するためのパーティショニング最適化部の論理構成例について、図10を参照して説明する。
図10は、本開示の第二実施形態に係る、プライベートデータセット910のパーティショニングを行い機械学習モデル937のセットを生成するパーティショニング最適化部925の論理構成例を示す。
ここに記載される通り、本開示の態様は、トレーニング済みのプライベート機械学習モデルのセット937を生成するために、プライベートデータセット910を複数のパーティション932に分割し、複数のパーティション932を用いて機械学習モデルのセットをトレーニングすることに関する。ここで、パーティションとは、複数のパーティション932のうちの他のパーティションに対して相互排他的なプライベート特性のセットを含む、プライベートデータセット910の部分を指す。このようにして、一つの特性のセット(例えば、ヘルスケアコンテキストにおける一人の患者)に対応するデータは複数のパーティション間に分配されず、ランダムに一つのパーティションに割り当てられ、排他的に保持される。
図10に示される通り、始めに、プライベートデータセット910はパーティショニング最適化部925に入力される。パーティショニング最適化部925において、パーティション部930はパーティション制約条件のセットに基づき、プライベートデータセット910を複数のパーティション932(例えば、第一の複数のパーティション)に分割する。ここで、パーティション制約条件のセットは、どのようにプライベートデータセット910が分配されるかを定義する制限、制約、または条件を含んでもよい。例として、パーティション制約条件のセットは、特性の一つのセット(例えば、ヘルスケアのコンテキストにおける一人の患者)に対応するデータは、複数のパーティション間で分割されるのではなく、一つのパーティションに割り当てられなければならないということを示してもよい。さらにパーティション部930は、外部テストデータ1003のセットを生成する。外部テストデータ1003のセットは、トレーニング済みのプライベート機械学習モデルのセット937の性能を評価するのに使用されてもよい。
次に、モデル最適化部935は、トレーニング済みのプライベート機械学習モデルのセット937を生成するために、複数のパーティション932を用いて機械学習モデルのセットのトレーニングを行う。実施形態において、モデル最適化部935は複数のパーティションの別の部分に基づいて各機械学習モデルのセットのトレーニングを行い、他のパーティションからのデータは使用されない。このようにして、各機械学習モデルの性能は、複数のパーティションのうち一つのパーティションに含まれるデータのみを使用して最適化される。さらに、モデル最適化部935は、複数のパーティション932の他のパーティションに含まれるデータに対して、各トレーニング済みのプライベート機械学習モデル937の性能を評価してもよい(例えば、各トレーニング済みのプライベート機械学習モデル937は、自身がトレーニングされたパーティション以外のパーティションに含まれるデータに関して評価される)。
次に、評価部1007は、モデル構成パラメータと、モデル最適化部935によって実施されたトレーニング済みのプライベート機械学習モデル937の評価の性能結果を受け取ってもよく、さらに、外部テストデータ1003に関してトレーニング済みのプライベート機械学習モデル937を評価してもよい。性能評価の結果は、構成データベース940に保持されてもよい。次に、構成選択部945は、例えば受信側操作特性曲線下面積(AUROC)などのいくつかの評価メトリックを用いて、最も高い性能を達成するパーティション構成及び関連するモデルパラメータを選択し、それぞれ、複数のパーティション932とトレーニング済みのプライベート機械学習モデルのセット937とに適用する。
このようにして、重み付き知識移転工程において使用されるトレーニング済みのプライベート機械学習モデル937は生成可能である。
次に、トレーニング済みの機械学習モデル生成工程のフローチャートを、図11を参照して説明する。
図11は、本開示の第二実施形態に係る、トレーニング済みの機械学習モデル生成工程1100のフローチャートを示す。トレーニング済みの機械学習モデル生成工程1100は、複数のパーティションを使用してトレーニング済みのプライベート機械学習モデル(例えば、図9及び図10に図示されるトレーニング済みのプライベート機械学習モデル937)を生成する工程であり、本開示の第二実施形態に係る重み付き知識移転装置の様々な機能部によって実施することができる。
始めに、ステップS1102において、パーティション部(例えば、図9及び図10に示されるパーティション部930)はプライベートデータセット(例えば、図9及び図10に示されるプライベート知識移転データセット910)を分割するパーティション数を決定する。実施形態において、パーティション数はユーザ入力に基づいて決定されてもよい。実施形態において、パーティション数はプライベート知識移転データセットの性質(例えば、サイズ、特性セットの数など)に基づいて自動的に決定されてもよい。
次に、ステップS1103において、パーティション部は、トレーニング済みのプライベート機械学習モデルのセットの性能を評価するのに使用するための外部テストデータのセットを作成するか否かを決定する。実施形態において、外部テストデータのセットを作成するか否かの決定は、ユーザから受け取られる命令、またはプリセットされた性能目標クライテリアに基づいて実行されてもよい。
外部テストデータのセットを作成することが決定された場合、トレーニング済みの機械学習モデル生成工程1100はステップS1104に進む。外部テストデータのセットを作成しないことが決定された場合、トレーニング済みの機械学習モデル生成工程1100はステップS1105に進む。
ステップS1104において、パーティション部は、プライベートデータセットのサブセットを外部テストデータとして割り当てる。実施形態において、パーティション部は外部テストデータとして使用されるプライベートデータセットのサブセットをランダムに選択し、それを別個の外部パーティションと指定してもよい。
次に、ステップS1105において、パーティション部はパーティショニング制約条件のセットに基づいてプライベートデータセットをランダムにシャッフルする。ここに記載される通り、パーティション制約条件のセットは、プライベートデータセットがどのように分配されるかを定義する制限、制約、または条件を含む。例として、パーティション制約条件のセットは、特性の一つのセット(例えば、ヘルスケアのコンテキストにおける一人の患者)に対応するデータが複数のパーティションにわたって分割されることはなく、一つのパーティションに割り当てられなければならないと示してもよい。従って、ここにおいて、パーティション部はパーティショニング制約条件のセットを満足させつつプライベートデータセットをランダムにシャッフルしてもよい。
次に、ステップS1106において、パーティション部は、ステップS1006でシャッフルされたプライベートデータセットを別個のパーティションに割り当てる。
次に、ステップS1107において、モデル最適化部(例えば、図9及び図10に示されるモデル最適化部935)は、トレーニング済みのプライベート機械学習モデルのセットを生成するために、複数のパーティションを用いて機械学習モデルのセットのトレーニングを行う。実施形態において、モデル最適化部は複数のパーティションの別の部分に基づいて各機械学習モデルのセットのトレーニングを行い、他のパーティションからのデータは使用されない。このようにして、各機械学習モデルの性能は、複数のパーティションのうち一つのパーティションに含まれるデータのみを使用して最適化される。
次に、ステップS1108において、モデル最適化部は、複数のパーティションのうちの他のパーティションに含まれるデータに関して、各トレーニング済みのプライベート機械学習モデルの性能を評価する。つまり、各トレーニング済みのプライベート機械学習モデルは、自身がトレーニングされたパーティション以外のパーティションに含まれるデータに関して評価される。
次に、ステップS1109において、評価部(例えば、図10に示される評価部1007)は、各トレーニング済みのプライベート機械学習モデルの性能を決定する。実施形態において、評価部は、ステップS1104及びS1105において作成された外部テストデータに関してトレーニング済みの機械学習モデルを評価し、外部テストデータに関する評価とモデル最適化部によって実施されたトレーニング済みのプライベート機械学習モデルの評価の性能結果に基づいて各トレーニング済みのプライベート機械学習モデルの性能を決定してもよい。
次に、ステップS1110において、評価部はステップS1110において決定された性能評価の結果を構成データベース(例えば、図9及び図10に示される構成データベース940)に保持する。
次に、ステップS1111において、評価部は、データを制約条件によって再シャッフルして複数のパーティションに再分配することにより別の評価サイクルを実行すべきかを 決定する。実施形態において、この決定は決められた数の評価サイクルの評価を明示するユーザ入力に基づいて実行可能である。別の実施形態において、評価部は、現在の性能結果を構成データベース内のデータと比較し、統計的意思決定を用いて次の評価サイクルループを開始すべきか否かを決定する、停止条件を自動的に決定してもよい。
次に、ステップS1112において、構成選択部(例えば、図9及び図10に示される構成選択部945)は構成データベースに保持された性能評価の結果を分析し、最も高い性能を達成するパーティション構成及び関連するモデルパラメータを決定する。ここで、構成選択部は、例えば受信側操作特性曲線下面積(AUROC)などのいくつかの評価メトリックを用いて、最も高い性能を達成するパーティション構成及び関連するモデルパラメータを決定し、それらを複数のパーティション932とトレーニング済みのプライベート機械学習モデルのセット937とにそれぞれ適用することができる。
このようにして、トレーニング済みの機械学習モデル生成工程1100によると、重み付き知識移転工程に使用されるトレーニング済みのプライベート機械学習モデルを生成することができる。
次に、重み付き知識移転のデータ選択及び最適化のための重み付き知識移転装置の論理構成を、図12を参照して説明する。
図12は、重み付き知識移転のデータ選択及び最適化のための、第二実施形態に係る重み付き知識移転装置の論理構成を示す。
始めに、図12に示す通り、パーティショニング最適化部925はプライベートデータセット910を受け取る。パーティショニング最適化部925はプライベートデータセット910を複数のパーティション(例えば、第一の複数のパーティション、つまり図9及び図10に示される複数のパーティション932;図12には図示されない)に分割し、外部テストデータ1003のセットを生成する。パーティショニング最適化部925は、複数のパーティションを用いてプライベート機械学習モデルのセットをトレーニング及び最適化することにより、トレーニング済みのプライベート機械学習モデルのセット937を生成する。
次に、公開データセット920はトレーニング済みのプライベート機械学習モデルのセットによって処理され、その出力(例えば、ラベルのグループ及び重み)は、処理された公開データセット970を作り出すために集約部960により集約される。処理された公開データセット970は、閾値パーティショニング部1210に入力される。閾値パーティショニング部1210は処理された公開データセット970のデータを、ラベルのグループ及び重みに基づいて決定された閾値のセットによって第二の複数のパーティション1220に分割する。この閾値のセットは、そこに割り当てられた重みに応じて、処理された公開データセット970にフィルタをかけるのに使用することができる。ここで、処理された公開データセット970のパーティショニングは、後述するデータ閾値処理最適化工程に基づいて実施することができる。
次に、モデル最適化部935は、第二の複数のパーティション1220を使用して公開モデルのセットをトレーニングすることにより、トレーニング済みの公開機械学習モデル1230のセットを生成する。ここで、モデル最適化部935は、各公開モデルが複数のパーティション1220のうちの異なるパーティションに基づいてトレーニングされるよう、公開モデルのセットをトレーニングしてもよい。
評価部1007は外部テストデータ1003を使用してトレーニング済みの公開機械学習モデル1230のセットの性能を評価し、結果を構成データベース940に記録する。
構成選択部945は重み付き知識移転において最も高い性能を達成する閾値、モデル、及びモデルパラメータを選択し、それらを適用する。実施形態において、トレーニング済みの公開機械学習モデル1230のセットのうち一つ以上のモデルを、インタフェース部(図12に図示されない)を介してユーザに展開するために選択してもよい。
制御部975は、データパーティション工程とデータ選択工程を閾値に基づく最適化工程と組み合わせるために使用される。このようにして重み付き知識移転の性能は、公開データセットの公開データのためのパーティション仕組み、プライベート及び公開機械学習モデルのセットのパラメータ構成、及び処理された公開データセットを選択するための重み及び重み付け閾値を同時に最適化し決定することにより、最高化することができる。
次に、データ閾値処理最適化工程のフローチャートについて、図13を参照しつつ説明する。
図13は、本開示の第二実施形態に係る、データ閾値処理最適化工程1300のフローチャートを示す。データ閾値処理最適化工程1300は処理された公開データをパーティショニングするのに用いられる閾値のセットを決定するための工程であり、第二実施形態に係る重み付き知識移転装置の様々な機能ユニットによって実施されてもよい。
始めに、ステップS1301において、パーティショニング最適化部(例えば、図9、図10、及び図12に示されるパーティショニング最適化部925)は、プライベートデータセットを複数のパーティションに分割し、外部テストデータのセットを生成する。パーティショニング最適化部925は複数のパーティションを用いてプライベート機械学習モデルのセットをトレーニングして最適化し、トレーニング済みのプライベート機械学習モデルのセットを生成する。
次に、ステップS1302において、公開データセットはトレーニング済みのプライベート機械学習モデルのセットによって処理され、その出力(例えば、ラベルのグループと重み)は集約部960によって集約され、それにより処理された公開データセット970が生成される。
次に、ステップS1303において、閾値パーティショニング部(例えば、図12に示される閾値パーティショニング部1210)は、割り当てられた重みに応じて、処理された公開データセットをフィルタリングする閾値のセットを決定する。実施形態において、閾値のセットは、ステップS1302において、トレーニング済みのプライベート機械学習モデルのセットによって公開データセットを処理することにより生成された重みに基づいて決定されてもよい。別の実施形態において、閾値のセットは重み付き知識移転システムのユーザまたは管理者によって当初セットされ、データ閾値処理最適化工程1300の後続ステップによって更新されてもよい。
次に、ステップS1304において、閾値パーティショニング部は、そこに割り当てられた重みに応じて処理された公開データセットをフィルタリングするのに用いられた閾値のセットに従って、処理された公開データセットデータを第二の複数のパーティションに分割する。
次に、ステップS1305において、モデル最適化部(例えば、図10及び図12に示されるモデル最適化部935)は、ステップS1304において作成された第二の複数のパーティションを用いて公開モデルのセットをトレーニングすることにより、トレーニング済みの公開機械学習モデルのセットを生成する。ここで、モデル最適化部は、各公開モデルが複数のパーティションのうちの異なるパーティションによってトレーニングされるように、公開モデルのセットをトレーニングしてもよい。
次に、ステップS1306において、評価部(例えば、図10及び図12に示される評価部1007)は、外部テストデータを用いて、トレーニング済みの公開機械学習モデルのセットの性能を評価し、その結果を構成データベースに記録する。
次に、ステップS1307において、構成選択部(例えば、図10及び図12に示される構成選択部945)は、重み付き知識移転において最も高い性能を達成する重み閾値、モデル、及びモデルパラメータを選択する。
次に、ステップS1308において、制御部(例えば、図10及び図12に示される制御部975)は閾値のセットを更新するか否かを決定する。実施形態において、制御部は、トレーニング済みの公開機械学習モデルのセットの性能に基づいて、閾値のセットを更新するか否か決定してもよい。例えば、トレーニング済みの公開機械学習モデルのセットが指定の性能基準を達成することができなかった場合、制御部は向上した性能を提供すると予測されるデータパーティションの作成を容易にする閾値のセットを更新してもよい。
制御部が閾値のセットを更新すると決定した場合、データ閾値処理最適化工程1300はステップS1303に戻ってもよい。制御部が閾値のセットを更新しないと決定した場合、データ閾値処理最適化工程はステップS1309に進んでもよい。
次に、ステップS1309において、制御部は複数のパーティションを更新するか否かを決定する。例えば、制御部はトレーニング済みの公開機械学習モデルのセットの性能に基づいて作成された新しいパーティション制約条件に基づいてプライベートデータセットを分割してもよい。
このようにして、本開示の第二実施形態に係る重み付き知識移転装置900によると、機械学習モデルは最適なデータパーティションを用いてトレーニングされることができ、知識移転能力を最大化することを可能とする。重み付き知識移転装置900は以前の実施形態による重み付き知識移転装置に対して、追加的な性能及び効果的な利益と関わってもよい。
本発明はシステム、方法、及びまたはコンピュータプログラム製品であってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実施させるためのコンピュータ読取可能なプログラム命令を記録するコンピュータ読取可能な記録媒体を含んでもよい。
コンピュータ読取可能な記録媒体は、命令実行装置によって使われる命令を保持し保存することができる有形の装置であってよい。コンピュータ読取可能な記録媒体は、例えば、電子ストレージ装置、磁気ストレージ装置、光学ストレージ装置、電磁ストレージ装置、半導体ストレージ装置、またはそれらの適切な組み合わせであってよいが、それらに限定されない。コンピュータ読取可能な記録媒体の非限定的なさらなる具体例は、携帯型コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラム化できる読み出し専用メモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令がそこに記録されたパンチカードや溝の立ち上げ構造といった機械的符号化装置、及びそれらの適切な組み合わせを含む。
ここで、コンピュータ読取可能な記録媒体の意味は、本来、一時的な信号、例えば電波やその他の自由伝播の電磁波、導波管またはその他の伝送媒体を介して伝播される電磁波(例えば、光ファイバーケーブルを通る光パルス)、またはワイヤを通じて伝達される電気信号、と解釈されるべきではない。
本発明の各態様は、本発明の実施形態に係る方法、装置(システム)、及びコンピュータプログラム製品を図示するフローチャート及びまたはブロック図を参照して説明される。図示されたフローチャート及びまたはブロック図における各ブロック、及び図示されたフローチャート及びまたはブロック図におけるブロックの組み合わせは、コンピュータ読取可能なプログラム命令に実装可能であることが理解される。
これらのコンピュータ読取可能なプログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実施する命令により、フローチャート及びまたはブロック図の一つのまたは複数のブロックに記載された機能/行動を実装するための手段を作成するように、汎用コンピュータ、専用コンピュータ、または他のマシンを製造するためのプログラム可能なデータ処理装置のプロセッサに提供されてもよい。これらのコンピュータ読取可能なプログラム命令は、また、コンピュータ、プログラム可能なデータ処理装置、及びまたは他の装置を特定の態様で機能するよう仕向けるよう、コンピュータ読取可能な記録媒体に保持されてもよく、それにより命令がその中に保持されるコンピュータ読取可能な記録媒体は、フローチャート及びまたはブロック図の一つのまたは複数のブロックに記載された機能/行動の態様を実施する命令を含む製品を含む。
コンピュータ読取可能なプログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置または他の装置において一連の処理ステップが実施されるよう、コンピュータ、他のプログラム可能なデータ処理装置または他の装置にロードされてもよく、それによりコンピュータ、他のプログラム可能なデータ処理装置または他の装置において実行される命令が、フローチャート及びまたはブロック図の一つまたは複数のブロックに記載された機能/行動を実施する。
本開示に係る実施形態は、クラウドコンピューティングインフラストラクチャを介してエンドユーザに提供されてもよい。クラウドコンピューティングとは、一般的に、ネットワーク上のサービスとして、スケーラブルなコンピューティングリソースを供給することを指す。より正式には、クラウドコンピューティングは、便利なオンデマンドネットワークアクセスを構成可能であって、少ない管理努力又はサービスプロバイダインタラクションで迅速に供給され開放される、コンピューティングリソースの共有プールにアクセス可能とする、コンピューティングリソースとその根本となる技術アーキテクチャ(例えば、サーバ、ストレージ、ネットワーク)との間の抽象化を提供するコンピューティング能力と定義されてもよい。従って、クラウドコンピューティングは、コンピューティングリソースを提供するために使用される根本の物理的システム(またはそれらシステムの位置)を考えることなく、ユーザから「クラウド」にある仮想コンピューティングリソース(例えばストレージ、データ、アプリケーション、及び完全に仮想化されたコンピューティングシステム)へアクセスすることを許可する。
各図におけるフローチャート及びブロック図は、本発明の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品を実装可能なアーキテクチャ、機能、及び操作を図示する。この点において、フローチャートまたはブロック図における各ブロックは、記載されたロジカル機能を実装するため、一つ以上の実行可能な命令を含む、モジュール、セグメント、または命令の部分を表してもよい。いくつかの変形実装例において、ブロックに記載された機能は、図に示された順番で実施されてもよい。例えば、連続する二つのブロックは、実際、それに伴う機能性によっては、実質的に継続して実行されてもよく、またはブロックは反対の順番で実施されてもよい。さらに、図示されたブロック図及びまたはフローチャートの各ブロック、及びブロック図及びまたはフローチャートのブロックの組み合わせは、記載された機能や行動を実行するまたは専用ハードウェア及びコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムに実装可能である。
上記は例示的な実施形態を説明したものであるが、本発明の別の及びさらなる実施形態も、本発明の趣旨から逸脱することなく考案可能であり、その範囲は後述の請求の範囲の記載によって決定される。本開示の様々な実施形態を例として説明したが、それらは網羅的ではなく、本開示を説明された実施形態に制限する意図を有していない。当業者には、説明された実施形態の範囲から逸脱することなく数々の改良や変形例が明らかとなろう。ここに使用された用語は、実施形態の原理を説明、市場に存在する技術に対する実際の運用や技術的改良、または当業者がここに開示される実施形態を理解するのを可能とするために、選択されたものである。
ここにおいて使用された用語は、特定の実施形態を説明することのみを目的としており、様々な実施形態を制限する意図を有しない。ここに使用される通り、特に明記されない限り、単数の記載は複数も含むことを意図している。「セット」、「グループ」、「束」等は、一つ以上を含むことを意図する。さらに、この明細書において「含む」及びまたは「含んだ」とは、記載された特性、整数、ステップ、作業、要素、及びまたは構成要素の存在を明記するが、一つ以上の他の特性、整数、ステップ、作業、要素、及びまたは構成要素、及びまたはそれらのグループの存在または追加を排除するものではないと理解される。上述の様々な実施形態の例示的な実施形態の詳細な説明において、実施形態の一部を成す添付図面(類似の符号数字は類似の要素を表す)を参照したが、図面においては、様々な実施形態がどのように実施されうるかについての具体的な例示的実施形態を例として示す。これらの実施形態は、当業者が実施形態を実行可能なように十分に詳細に説明されたが、他の実施形態も使用可能であり、論理的、機械的、電気的、及びその他の変更も、種々の実施形態の範囲から逸脱することなく行うことができる。上記の説明において、種々の実施形態について十分な理解を提供するために、多数の具体的な詳細が示された。しかしながら、種々の実施形態は、これらの具体的な詳細なくしても実施することができる。他の例として、実施形態の理解を妨げないよう、既知の回路、構造、及び技術については詳細に説明されない。
100 重み付き知識移転システム
101 プライベート装置
102 プライベートデータセット
103 プライベート機械学習モデル
104 重み付き知識移転装置
105 重み付き知識移転部
106 公開装置
107 公開機械学習モデル
108 公開データセット
109 インタフェース部
110、111、112 インタフェース
113 ユーザ
203 特性判定部
204 プライベート知識移転データセット
205 公開知識移転データセット
206 データ選択部
207 公開トレーニングデータセット
208 類似度重みベクトル

Claims (10)

  1. 公開データセットとプライベートデータセットとの間で共有されるターゲット特性のセットを決定することにより、公開知識移転データセットとプライベート知識移転データセットとを生成するよう構成された、特性判定部と、
    前記公開知識移転データセットと前記プライベート知識移転データセットとの類似度計算に基づいて、前記プライベート知識移転データセットに関して類似度閾値を達成する前記公開知識移転データセットのサブセットである、公開トレーニングデータセットと、前記公開トレーニングデータセットに含まれる公開特性のセットの重みを示す類似度重みベクトルとを生成するよう構成された、データ選択部と、
    前記プライベート知識移転データセットに基づいてトレーニングされた、トレーニング済みのプライベート機械学習モデルのセットによって、前記公開トレーニングデータセットを処理することにより、前記公開特性のセットのラベルを示す公開ラベルベクトルを生成するよう構成された、機械学習モデル管理部と、
    前記重みベクトル、前記公開トレーニングデータセット、及び前記公開ラベルベクトルに基づいて、公開機械学習モデルを生成するよう構成された、知識移転部と、
    を含むことを特徴とする重み付き知識移転装置。
  2. 前記プライベート知識移転データセットを複数のパーティションに分割するように構成されたパーティション部をさらに含み、
    各パーティションは、他のパーティションに対して相互排他的なプライベート特性のセットを含む、
    ことを特徴とする請求項1に記載の重み付き知識移転装置。
  3. 前記機械学習モデル管理部は、各機械学習モデルのセットを前記複数のパーティションの別個のパーティションに基づいてトレーニングすることにより、前記トレーニング済みのプライベート機械学習モデルのセットを生成する、
    ことを特徴とする請求項2に記載の重み付き知識移転装置。
  4. 前記公開トレーニングデータセットの生成は、
    前記プライベート知識移転データセットによって生成ネットワークをトレーニングすることによって、生成された特性の第一のセットを生成するトレーニング済みの生成ネットワークを生成すること、
    識別ネットワークをトレーニングすることによって、前記生成された特性の第一のセットと前記プライベート知識移転データセットに含まれるプライベート特性のセットとを識別するトレーニング済みの識別ネットワークを生成すること、
    前記トレーニング済みの識別ネットワークを用いて、前記生成された特性の第一のセットが前記プライベート知識移転データセットに属する確率を決定すること、及び
    第一確率閾値を超える、前記プライベート知識移転データセットに属する確率に関連した前記生成された特性のセットのサブセットを、前記公開トレーニングデータセットとして選択すること
    を含むことを特徴とする、請求項1に記載の重み付き知識移転装置。
  5. 前記公開トレーニングデータセットの生成は、
    前記プライベート知識移転データセットと前記公開知識移転データセットとを、併合されたデータセットとして併合すること、
    識別ネットワークをトレーニングすることによって、前記併合されるデータセットの特性の第一のセットが前記プライベート知識移転データセットに属するか前記公開知識移転データセットに属するかを分類するトレーニング済みの識別ネットワークを生成することと、
    前記トレーニング済みの識別ネットワークを用いて前記公開知識移転データセットを処理することによって、前記公開特性のセットが前記プライベート知識移転データセットに属する尤度を示す確率を決定すること、及び
    第一確率閾値を超える、前記プライベート知識移転データセットに属する確率に関連した前記公開特性のセットのサブセットを、前記公開トレーニングデータセットとして選択すること
    を含むことを特徴とする、請求項1に記載の重み付き知識移転装置。
  6. 前記類似度計算は、ユークリッド距離計算方法、マンハッタン距離計算方法、チェビシェフ距離計算方法、及びマハラノビス距離計算方法からなるグループから選択される、
    ことを特徴とする請求項1に記載の重み付き知識移転装置。
  7. 重み付き知識移転装置において実行される重み付き知識移転方法であって、
    前記重み付き知識移転装置は、
    プロセッサとメモリとを含み、
    前記メモリは、
    公開データセットとプライベートデータセットとを受け取る工程と、
    前記公開データセットと前記プライベートデータセットとの間に共有されるターゲット特性のセットを決定することにより、公開知識移転データセットとプライベート知識移転 データセットを生成する工程と、
    前記公開知識移転データセットと前記プライベート知識移転データセットとの類似度計算に基づいて、前記プライベート知識移転データセットに関して類似度閾値を達成する前記公開知識移転データセットのサブセットである、公開トレーニングデータセットと、前記公開トレーニングデータセットに含まれる公開特性のセットの重みを示す、類似度重みベクトルとを生成する工程と、
    前記プライベート知識移転データセットによって機械学習モデルのセットをトレーニングすることにより、トレーニング済みのプライベート機械学習モデルのセットを生成する工程と、
    前記トレーニング済みのプライベート機械学習モデルのセットによって、前記公開トレーニングデータセットを処理することにより、前記公開特性のセットのラベルを示す公開ラベルベクトルを生成する工程と、
    前記重みベクトル、前記公開トレーニングデータセット、及び前記公開ラベルベクトルに基づいて、公開機械学習モデルを生成する工程と、
    を前記プロセッサに実行させる処理命令を含むことを特徴とする、重み付き知識移転方法。
  8. プライベートデータセットを保持するプライベート装置と、
    公開データセットを含み、機械学習モデルに基づくサービスをユーザに提供するように構成された公開装置と、
    前記プライベートデータセットと前記公開データセットとを用いて、トレーニング済みの公開機械学習モデルのセットを生成するように構成された、重み付き知識移転装置とを含む重み付き知識移転システムであって、
    前記重み付き知識移転装置は、第一ネットワーク接続を介して、前記プライベート装置に通信可能に接続されており、
    前記重み付き知識移転装置は、前記第一ネットワーク接続とは異なる、第二ネットワーク接続を介して、前記公開装置に通信可能に接続されており、
    前記プライベート装置は前記公開装置からはアクセス不可能であり、
    前記重み付き知識移転装置は、
    前記プライベートデータセットを第一の複数のパーティションに分割し、前記第一の複数のパーティションのうち別個のパーティションに基づいて各機械学習モデルのセットをトレーニングすることにより、トレーニング済みのプライベート機械学習モデルのセットを生成するように構成された、パーティショニング最適化部と、
    前記トレーニング済みのプライベート機械学習モデルのセットを用いて前記公開データセットを処理することにより作成されたラベルのグループ及び重みを処理された公開データセットとして生成し、前記ラベルのグループ及び重みに基づいて決定された閾値のセットに基づいて、前記処理された公開データセットを第二の複数のパーティションに分割するように構成された、データ選択部と、
    前記第二の複数のパーティションの別個のパーティションに基づいて各機械学習モデルのセットをトレーニングすることにより、トレーニング済みの公開機械学習モデルのセットを生成し、ユーザに供給するために前記トレーニング済みの公開機械学習モデルのセットを前記公開装置に展開するように構成された、機械学習部と
    を含むことを特徴とする重み付き知識移転システム。
  9. 前記プライベートデータセットから選択された外部テストデータのセットに関して、前記トレーニング済みのプライベート機械学習モデルのセットの性能を評価し、
    前記プライベートデータセットから選択された前記外部テストデータのセットに関して、前記トレーニング済みのプライベート機械学習モデルのセットの前記性能に基づいて、所定の性能基準を達成する、前記トレーニング済みのプライベート機械学習モデルのセットのためのモデル構成パラメータの第一のセットを決定するように構成された評価部と
    をさらに含むことを特徴とする、請求項8に記載の重み付き知識移転システム。
  10. 前記評価部はさらに、
    前記プライベートデータセットから選択された外部テストデータのセットに関して、前記トレーニング済みの公開機械学習モデルのセットの性能を評価し、
    前記プライベートデータセットから選択された前記外部テストデータのセットに関して、前記トレーニング済みのプライベート機械学習モデルのセットの性能に基づいて、所定の性能基準を達成する、前記トレーニング済みのプライベート機械学習モデルのセットのためのモデル構成パラメータの第二のセットを決定するように構成される、
    ことを特徴とする請求項9に記載の重み付き知識移転システム。
JP2023540680A 2021-03-11 2021-03-11 重み付き知識移転装置、方法、及びシステム Active JP7492088B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/009834 WO2022190319A1 (en) 2021-03-11 2021-03-11 Device, method, and system for weighted knowledge transfer

Publications (2)

Publication Number Publication Date
JP2024502081A JP2024502081A (ja) 2024-01-17
JP7492088B2 true JP7492088B2 (ja) 2024-05-28

Family

ID=83226528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023540680A Active JP7492088B2 (ja) 2021-03-11 2021-03-11 重み付き知識移転装置、方法、及びシステム

Country Status (4)

Country Link
US (1) US20240320507A1 (ja)
EP (1) EP4305562A1 (ja)
JP (1) JP7492088B2 (ja)
WO (1) WO2022190319A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433242B (zh) * 2023-02-28 2023-10-31 王宇轩 基于注意力机制的欺诈检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PAPERNOT, N et al.,"Scalable Private Learning with PATE",arXiv.org [online],2018年,pp. 1-34,[retrieved on 2024.04.30], Retrieved from the Internet: <URL: https://arxiv.org/abs/1802.08908v1>,<DOI: 10.48550/arXiv.1802.08908>
PAPERNOT, N et al.,"Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data",arXiv.org [online],2017年,pp. 1-16,[retrieved on 2024.04.30], Retrieved from the Internet: <URL: https://arxiv.org/abs/1610.05755v4>,<DOI: 10.48550/arXiv.1610.05755>

Also Published As

Publication number Publication date
JP2024502081A (ja) 2024-01-17
WO2022190319A1 (en) 2022-09-15
US20240320507A1 (en) 2024-09-26
EP4305562A1 (en) 2024-01-17

Similar Documents

Publication Publication Date Title
US12056583B2 (en) Target variable distribution-based acceptance of machine learning test data sets
US11455473B2 (en) Vector representation based on context
US11138520B2 (en) Ranking and updating machine learning models based on data inputs at edge nodes
US11875253B2 (en) Low-resource entity resolution with transfer learning
US11263223B2 (en) Using machine learning to determine electronic document similarity
US20190050465A1 (en) Methods and systems for feature engineering
US20200401910A1 (en) Intelligent causal knowledge extraction from data sources
US11573994B2 (en) Encoding entity representations for cross-document coreference
US10599777B2 (en) Natural language processing with dynamic pipelines
JP2020533700A (ja) 回帰装置、回帰方法、及びプログラム
US11841977B2 (en) Training anonymized machine learning models via generalized data generated using received trained machine learning models
US20230107309A1 (en) Machine learning model selection
US11061943B2 (en) Constructing, evaluating, and improving a search string for retrieving images indicating item use
US20210319303A1 (en) Multi-source transfer learning from pre-trained networks
JP7492088B2 (ja) 重み付き知識移転装置、方法、及びシステム
WO2022042638A1 (en) Deterministic learning video scene detection
US11355242B2 (en) Medical treatment management
US20230316151A1 (en) Feature segmentation-based ensemble learning for classification and regression
US11693925B2 (en) Anomaly detection by ranking from algorithm
US11055345B2 (en) Constructing, evaluating, and improving a search string for retrieving images indicating item use
US9286349B2 (en) Dynamic search system
US20230186072A1 (en) Extracting explanations from attention-based models
US11556558B2 (en) Insight expansion in smart data retention systems
US20220156297A1 (en) Efficient and compact text matching system for sentence pairs
US11645329B2 (en) Constructing, evaluating, and improving a search string for retrieving images indicating item use

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230703

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240516

R150 Certificate of patent or registration of utility model

Ref document number: 7492088

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150