JP2022007311A - 学習モデルからの情報漏洩リスクを評価するシステム - Google Patents
学習モデルからの情報漏洩リスクを評価するシステム Download PDFInfo
- Publication number
- JP2022007311A JP2022007311A JP2020110213A JP2020110213A JP2022007311A JP 2022007311 A JP2022007311 A JP 2022007311A JP 2020110213 A JP2020110213 A JP 2020110213A JP 2020110213 A JP2020110213 A JP 2020110213A JP 2022007311 A JP2022007311 A JP 2022007311A
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning model
- risk
- pseudo
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】学習モデルからの情報漏洩リスクをより正確に評価する。【解決手段】システムは、1以上のプロセッサと、1以上の記憶装置と、を含む。1以上の記憶装置は、第1の学習モデルの学習データの統計データと、第1の学習モデルと第2の学習モデルの応答を評価するための評価データと、を格納する。1以上のプロセッサは、統計データに基づいて、学習データと同一の目的変数及び説明変数からなる疑似データを生成する。1以上のプロセッサは、疑似データによって第2の学習モデルの学習を行う。1以上のプロセッサは、第1の学習モデルの評価データに対する応答結果と、第2の学習モデルの評価データに対する応答結果との比較を行い、比較の結果に基づいて第1の学習モデルからの情報漏洩リスクを評価する。【選択図】図1
Description
本発明は、学習モデルからの情報漏洩リスクの評価に関する。
深層学習等のAI関連技術の発展により、AIを利用したシステムやサービスが提供されている。一方、学習モデルから学習データを盗取しようとする攻撃も明らかになっている。
学習モデルからの学習データの漏洩を防止する技術として、学習モデルに対して匿名化を行う技術が知られている。例えば、特許文献1に開示の技術は、深層学習が行われた深層学習モデルに対して、そのモデル内のパラメータ値にラプラス分布に基づいた誤差を与える。当該技術は、さらに、ラプラス分布に基づいて誤差を与えた各パラメータが、最大値及び最小値で示される閾値の範囲を超えたとき、閾値の範囲に制限する。
しかしながら、特許文献1に記載された技術では、生データにより学習を行った学習モデルパラメータ値に誤差を与えて匿名化モデルを生成するため、匿名化モデルの精度は生データで学習した学習モデルの精度と比較して低下する。特に付与する誤差が大きくなればなるほど、匿名化モデルの精度は低下する。
本発明の一態様は、学習モデルからの情報漏洩リスクを評価するシステムであって、1以上のプロセッサと、1以上の記憶装置と、を含み、前記1以上の記憶装置は、第1の学習モデルの学習データの統計データと、前記第1の学習モデルと第2の学習モデルの応答を評価するための評価データと、を格納し、前記1以上のプロセッサは、前記統計データに基づいて、前記学習データと同一の目的変数及び説明変数からなる疑似データを生成し、前記疑似データによって前記第2の学習モデルの学習を行い、前記第1の学習モデルの前記評価データに対する応答結果と、前記第2の学習モデルの前記評価データに対する応答結果との比較を行い、前記比較の結果に基づいて、前記第1の学習モデルからの情報漏洩リスクを評価する。
本発明の一態様によれば学習モデルからの情報漏洩リスクをより正確に評価できる。
以下、本発明の実施形態について図面を用いて詳細に説明する。便宜上その必要があるときは、複数のセクションまたは実施例に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合及び原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
本システムは、物理的な計算機システム(一つ以上の物理的な計算機)でもよいし、クラウド基盤のような計算リソース群(複数の計算リソース)上に構築されたシステムでもよい。計算機システムあるいは計算リソース群は、1以上のインタフェース装置(例えば通信装置及び入出力装置を含む)、1以上の記憶装置(例えば、メモリ(主記憶)及び補助記憶装置を含む)及び1以上のプロセッサを含む。
命令コードを含むプログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/またはインタフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有するシステムが行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記憶媒体(例えば計算機読み取り可能な非一過性記憶媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
以下に開示されるリスク評価システムは、第1学習モデル(機械学習モデル又は単にモデルとも呼ぶ)の学習データ(本明細書において生データとも呼ぶ)の統計データから生成された疑似データによって、第2学習モデルの学習を行う。リスク評価システムは、第1学習モデルと第2学習モデルの評価データに対する応答を比較して、第1学習モデルからの、情報漏洩リスクの一つであるプライバシリスクを評価する。学習モデルからのプライバシリスクは、生データ内の秘匿すべきデータが学習モデルから漏洩するリスクである。
統計データはプライバシを含まず、統計データから再構成した疑似データもプライバシリスクがないデータでる。そのため、生データを学習したモデルと統計データから作成した疑似データを学習したモデルとの応答を比較することで、生データの学習モデルからのプライバシリスクを評価できる。さらに、評価に応じてプライバシリスクと推定精度の観点で適切な学習モデルを提供できる。
図1は、本明細書の一実施例に係るリスク評価システムの構成例を示す。図1に示す構成例は、一つの計算機で構成されている。リスク評価システムは、互いに通信可能な複数の計算機を含むことができる。図示するように、計算機100は、CPU(Central Processing Unit)104と、メモリ105と、HDD(Hard Disk Drive)やSSD(Solid State Drive)等のストレージ106とを含む。メモリ105及びストレージ106は記憶装置であり、メモリ105及びストレージ106は、それぞれ、主記憶装置及び補助記憶装置とも呼ばれる。
計算機100は、さらに、キーボードやマウス等の入力装置101と、ディスプレイやプリンタ等の出力装置102と、通信ネットワークに接続するためのNIC等の通信装置103と、これらを連結するシステムバス等の内部通信線122とを備える。
図1の構成例において、ストレージ106は、生データ112と、評価データ113と、統計データ114と、疑似データ115と、学習用パラメータ116と、生データ学習モデル117と、疑似データ学習モデル118と、応答データA119と、応答データB120と、匿名化学習モデル121とを記憶する。
学習用パラメータ116は、例えばニューラルネットワーク学習におけるネットワーク構成情報や学習方法を定義するデータを含む。ネットワーク構成情報は、例えば、中間層の階層数、各階層のノード数、活性化関数の種類を含む。学習モデルのアルゴリズムは任意であって、ニューラルネットワークと異なるアルゴリズムの学習モデルを使用することができる。
生データ学習モデル117と疑似データ学習モデル118は、後述する学習処理部109により生成される学習モデルである。生データ112と、評価データ113と、統計データ114と、疑似データ115と、応答データA119と、応答データB120の詳細については後述する。
メモリ105は、統計処理部107と、疑似データ生成部108と、学習処理部109と、問い合わせ処理部110と、リスク評価部111とを格納している。これらはプログラムである。説明の便宜上、これらプログラムはメモリ105内に示されているが、これらプログラムは、ストレージ106又は外部装置からメモリ105にロードされる。図1においてストレージ106に格納されている他のデータも同様である。
CPU104はプロセッサであって、メモリ105のプログラムを実行することで、対応する機能部として動作する。具体的には、CPU104は、統計処理部、疑似データ生成部、学習処理部、問い合わせ処理部、リスク評価部として動作できる。なお、以下において、主語としてのプログラムは、そのプログラムを実行するCPU104又は計算機100に置き換え可能である。
統計処理部107は、生データ112を入力とし、説明変数の属性それぞれと目的変数とのクロス集計表を作成し、統計データ114に含める。疑似データ生成部108は、統計データ114を入力とし、生データと同形式の疑似データ115を作成し、ストレージ106に格納する。疑似データ115は、このように、生データの統計データから生成した生データと同形式のデータである。
学習処理部109は、生データ112または疑似データ115と、学習用パラメータ116とを入力とし、学習モデルを生成する。生データ112の学習により生成された生データ学習モデル117は、ストレージ106に格納される。また、疑似データ115により学習された疑似データ学習モデル118も、ストレージ106に格納される。
問い合わせ処理部110は、生データ学習モデル117または疑似データ学習モデル118に評価データ113を入力する。問い合わせ処理部110は、生データ学習モデル117または疑似データ学習モデル118から得られた応答データA119または応答データB120をストレージ106に格納する。
リスク評価部111は、応答データA119と、応答データB120と、評価データ113とを入力とし、生データ学習モデル117のプライバシリスクの評価結果を、出力装置102に出力する。学習モデル匿名化部123は、生データ学習モデル117のプライバシリスクが所定のレベルである場合に、所定の方法に従って生データ学習モデル117の匿名化を行って匿名化学習モデル121を生成し、ストレージ106に格納する。
図2は、生データ112、評価データ113、及び疑似データ115の構成例を示す。生データ112、評価データ113、及び疑似データ115は、共通のデータ構造を有している。上述のように、疑似データ115は、生データ112の統計データ114に基づいて生成される。評価データ113は、例えば生データ112の一部でもよく、生データ112及び疑似データ115と異なるデータであってもよい。
図2に示す例において、生データ112、評価データ113、及び疑似データ115は、テーブル形式の構造化データであり、複数のレコードからなる。各レコードは、説明変数と目的変数の属性を含む。図2の例において、レコードは、複数の説明変数の属性と一つの目的変数の属性で構成されている。説明変数の数は1でもよい。
目的変数は、生成する学習モデルが学習する結果の属性である。説明変数は、目的変数の推定に使用する属性である。学習モデルは説明変数の値を受け取り、目的変数の推定値を出力する。図2の例において、レコードは、複数の説明変数及び一つの目的変数で構成される。具体的には、説明変数の属性は、年齢、性別及び住所であり、目的変数の属性は年収である。学習モデルは、これら属性の説明変数から年収を推定する。本例において、学習モデルは年収のクラスを推定し、年収500万以上のクラス又は年収500万未満のクラスを推定する。
図3は、統計処理部107により生成される、生データ112の統計データ114の一例を示す。統計データ114は複数のクロス集計データで構成される。クロス集計データは、表形式のデータであり、少なくとも1つの説明変数と目的変数とで構成される。以下に説明する例において、クロス計算表は、目的変数の各値に対する説明変数の値の割合を示す。これにより、適切な疑似データを生成できる。統計データは他の情報を示してもよい。
図3は、数値以外の説明変数である住所と目的変数である年収のクロス集計表300の例と、数値の説明変数である年齢と目的変数である年収のクロス集計表310の例とを示す。クロス集計表300のカラム301は、説明変数の住所属性の値を示す。カラム303は、目的変数の属性値である年収500万以上のクラスを示すレコードにおいて、各住所属性の値のレコードの割合を示す。カラム305は、目的変数の属性値である年収500万未満のクラスを示すレコードにおいて、各住所属性の値のレコードの割合を示す。カラム303の値とカラム305の値の合計は1である。
クロス集計表310のカラム311は、説明変数の年齢属性の値の区分を示す。例えば、統計処理部107は、予め指定されている数の区分が形成されるように、年齢属性値の最大値及び最小値から、各区分の範囲を決定する。区分のサイズ(最小値と最大値の差)は、例えば図3に示すように共通である。区分のサイズが異なっていてもよい。図3は、年齢が18から97のデータを10区分に分割した例を示す。このように、数値範囲の区分により、目的変数の各値に対する説明変数の値の割合を示してもよい。なお、年齢の各値の割合が示されてもよい。
カラム313は、目的変数の属性値である年収500万以上のクラスを示すレコードにおいて、その年齢属性が各年齢属性値区分に該当するレコードの割合を示す。カラム305は、目的変数の属性値である年収500万未満のクラスを示すレコードにおいて、その年齢属性が各年齢属性値区分に該当するレコードの割合を示す。カラム313の値とカラム315の値の合計は1である。
なお、図3は示していないが、統計処理部107は、数値以外の説明変数である性別と目的変数である年収のクロス集計データも生成し、統計データ114に含める。
図4は応答データA119と応答データB120の構成例を表す。これらは共通の形式を有している。本例において、応答データA119と応答データB120は、表形式のデータである。上述のように、応答データA119は、生データ学習モデル117の、評価データ113の説明変数の入力に対する出力であり、応答データB120は、疑似データ学習モデル118の、評価データ113の説明変数の入力に対する出力である。
応答データA119及び応答データB120は、評価データ113の目的変数の属性を持ち、それらのレコード数は、評価データ113のレコード数と同一である。応答データのレコードは、評価データ113のレコードと1対1対応する順序で格納される。各セルは、生データ112の目的変数に含まれる属性値のいずれか1つを格納する。
次に図5を参照し、計算機100の動作例について説明する。ステップS501で、統計処理部107は、生データ112を参照し、説明変数の属性ごとに、目的変数と説明変数の属性のクロス集計表を作成する。統計処理部107は、作成したクロス集計表を統計データ114に含める。
ステップS502で、疑似データ生成部108は、統計データ114に含まれるクロス集計表から生データ112と同じ形式の疑似データ115を作成し、ストレージ106に格納する。ここで、疑似データの作成方法について詳述する。疑似データ生成部108は、疑似データを目的変数の値ごとに作成する。本例において、目的変数の一つの値(クラス)は、年収500満以上であり、他の一つの値は、年収500万未満である。
まず、疑似データ生成部108は、目的変数の値それぞれの疑似データの作成レコード数を決定する。例えば、生データ112において年収500万円以上のレコード数が4万、年収500万未満のレコード数が6万である場合、疑似データ115に対して、生データ112と同様に、年収500万以上のレコード数を4万、500万未満のレコード数を6万と決定する。
一例において、目的変数の異なる値のレコード数の比率は、疑似データ115と生データ112との間で共通である。これにより、より正確なリスク評価が可能となる。また、疑似データ115における目的変数値それぞれのレコード数は、生データ112におけるレコード数と一致していなくてもよい。
年収500万以上の目的変数の値のレコードのため、疑似データ生成部108は、説明変数の各対象属性について、統計データ114が示す属性値の割合に従って、属性値の配列を生成する。配列の要素数は、作成する年収500万以上のレコードの数に一致する。配列の値は、それぞれ、疑似データ115における年収500万以上のレコードのセルに格納される。
まず、数値属性以外の疑似データの作成方法について示す。例えば、説明変数の対象属性が住所の場合、疑似データ生成部108は、クロス集計表300に従い、10万×0.0005=50個の属性値「北海道」を作成する。疑似データ生成部108は、同様に、4000個の属性値「東京都」を生成し、2000個の属性値「神奈川県」を作成する。すべての属性値を作成後、疑似データ生成部108は、それら属性値からなる配列を生成し、属性値の順序をランダムシャッフルする。
次に数値属性の疑似データを作成方法について示す。例えば、説明変数の対象属性が年齢の場合、疑似データ生成部108は、クロス集計表310に従い、区分「18-25歳」に該当する属性値を、10万×0.02=2000個、作成する。作成する属性値は区分そのものではなく、区分の範囲(18から25)内のいずれかの数字である。例えば、疑似データ生成部108は、区分の範囲(18から25)から一つの数字をランダムに800回選択する。
疑似データ生成部108は、この処理を年齢属性のすべての区分に対して実行する。疑似データ生成部108は、作成した数字から配列を構成し、数字の順序をランダムシャッフルする。なお、数値属性の疑似データの作成は、複数の数字を含む区分を定義することなく、生データの数字の比率に応じて数字の配列を作成してもよい。
疑似データ生成部108は、上述のように作成した説明変数の全ての属性の配列と、目的変数の年収500万以上の属性値とを連結し、目的変数の属性値が年収500万以上である疑似データのレコードの作成を完了する。疑似データ生成部108は、500万未満の疑似データについても上記と同様の処理を繰り返す。疑似データ生成部108は、最後に年収500万以上の疑似データと年収500万未満の疑似データを連結し、疑似データ115を構成する。
本例において、疑似データ生成部108は、生データ112の統計データ114と一致するように疑似データ115を生成する。具体的には、各目的変数の属性値に対して、各非数値属性の属性値の個数の割合は、生データ112と疑似データ115との間で一致する。また、各数字属性の区分に含まれる属性値の個数の割合は、生データ112と疑似データ115との間で一致する。このように、割合が生データ112と疑似データ115との間一致することで、より正確なプライバシリスク評価を行うことができる。なお、属性値の割合が、生データ112と疑似データ115との間でわずかに異なっていてもよい。
次に、ステップS503で、学習処理部109は、生データ112と疑似データ115を使用して学習モデルの学習を行う。まず、学習処理部109は、学習用パラメータ116を参照して、学習モデル、本例においてニューラルネットワークを構成する。学習処理部109は、生データ112を使用してニューラルネットワークの学習を行い、生データ学習モデル117を生成する。
具体的には、学習処理部109は、生データ112の説明変数の値をニューラルネットワークに入力し、生データ112の目的変数の値とニューラルネットワークの推定値との値の誤差に基づき、可変パラメータを繰り返し更新する。学習処理部109は、得られた生データ学習モデル117をストレージ106に格納する。
次に、学習処理部109は、学習用パラメータ116を参照して、学習モデルを構成する。この学習モデルの構成は、生データ学習モデル117と同一のニューラルネットワークである。一例において、この学習モデルの初期パラメータセットは、生データ学習モデル117の初期パラメータセットと同一である。学習処理部109は、疑似データ115を使用してニューラルネットワークの学習を行い、疑似データ学習モデル118を生成して、ストレージ106に格納する。可変パラメータの更新方法は、生データ学習モデル117の学習方法と同様である。
次に、ステップS504で、問い合わせ処理部110は、生データ学習モデル117及び疑似データ学習モデル118それぞれに対して評価データ113の説明変数値を入力し、それらの応答を得る。まず、問い合わせ処理部110は生データ学習モデル117に評価データ113の説明変数値を入力し、得られた応答データA119をストレージ106に格納する。次に、疑似データ学習モデル118に評価データ113の説明変数値を入力し、得られた応答データB120をストレージ106に格納する。
ステップS505で、リスク評価部111が応答データA119、応答データB120及び評価データ113を用いて、生データ学習モデル117のプライバシリスクを評価する。以下において、プライバシリスク評価方法の例を説明する。
本例において、リスク評価部111は、応答データA119、応答データB120及び評価データ113の目的変数の値に基づいて、二つのリスク指標を算出する。リスク評価部111は、それらリスク指標の値に基づいて、生データ学習モデル117のプライバシリスクを評価する。
リスク評価部111は、リスク指標1として、生データ学習モデル117と疑似データ学習モデル118との間の、正答率の差異を算出する。正答率の計算方法の例は、次の通りである。評価データ113における年収500万以上のレコードに対する推定結果が、年収500万以上であるレコード数をTPとする。TPは、年収500万以上のレコードの正答数を示す。評価データ113における年収500万以上のレコードに対する推定結果が年収500万未満であるレコード数をFNとする。FNは、年収500万以上のレコードの誤答数を示す。
評価データ113における年収500万未満のレコードに対する推定結果が、年収500万未満のレコード数をTNとする。TNは、年収500万未満のレコードの正答数を示す。評価データ113における年収500万未満のレコードに対する推定結果が、年収500万以上のレコード数をFPとする。FPは、年収500万未満のレコードの誤答数を示す。正答率は下記式1で算出できる。
(TP+TN)/(TP+FN+TN+FP) (式1)
(TP+TN)/(TP+FN+TN+FP) (式1)
リスク評価部111は、リスク指標2として、生データ学習モデル117と疑似データ学習モデル118との間の、応答一致率を算出する。モデル間応答一致率は、応答データA119と応答データB120との間の一致率である。モデル間応答一致率の計算方法の例を説明する。
生データ学習モデル117の推定結果が年収500万以上であり、疑似データ学習モデル118の推定結果も年収500万以上であるレコード数をTPとする。生データ学習モデル117の推定結果が年収500万以上であり、疑似データ学習モデル118の推定結果が年収500万未満の件数をFNとする。
生データ学習モデル117の推定結果が年収500万未満であり、疑似データ学習モデル118の推定結果も年収500万未満の件数をTNとする。生データ学習モデル117の推定結果が年収500万未満であり、疑似データ学習モデル118の推定結果が年収500万以上のレコード数をFPとする。モデル間応答一致率は、上記式1で算出できる。(TP+TN)はモデル間で推定結果が一致するレコード数を示し、(FN+FP)はモデル間で推定結果が異なるレコード数を示す。
例えば、リスク指標1及びリスク指標2の双方が、それぞれ所定の許容範囲外である場合、プライバシリスクが大きいと判定される。具体的には、リスク指標1の値が所定の閾値より大きく、リスク指標2が所定の閾値より小さい場合、リスク評価部111は、プライバシリスクが「大」と判定する。
リスク指標1及びリスク指標2の一方が許容範囲外で、他方が許容範囲内である場合、プライバシリスクは中程であると判定される。具体的には、リスク指標1の値が所定の閾値より大きく、リスク指標2が所定の閾値以上である、又は、リスク指標1の値が所定の閾値以下であり、リスク指標2が所定の閾値より小さい場合、リスク評価部111は、プライバシリスクが「中」と判定する。
リスク指標1及びリスク指標2の双方が許容範囲内である場合、プライバシリスクは小さいと判定される。具体的には、リスク指標1の値が所定の閾値以下であり、リスク指標2が所定の閾値以上である場合、リスク評価部111は、プライバシリスクが「小」と判定する。
上述のように、複数のリスク指標を参照することで、より正確な評価が可能となる。なお、参照するリスク指標の数は、一つでも三つ以上でもよい。二つの学習モデルの一致率をリスク指標として使用することで、より正確なプライバシリスク評価が可能となる。
リスク大またはリスク中の場合、学習モデル匿名化部123は、生データ学習モデル117の匿名化を行い、匿名化学習モデル121を生成する。学習モデルの匿名化は、学習モデルのパラメータを変更することで、学習データについての秘匿情報の漏洩確率を低減する。
任意の匿名化方法を採用することができ、例えば、生データ学習モデル117の可変パラメータ(学習により更新されるパラメータ)にノイズを加えることができる。ノイズの付与方法は任意であり、例えば、ランダムノイズが加えられる。一例において、評価リスクのレベルに応じて、匿名化の方法を変更する。例えば、学習モデル匿名化部123は、リスクが大の場合、リスクが中の場合と比較して、より大きいノイズを付与してもよい。
最後に、リスク評価部111は、出力装置102の表示画面に、リスク評価結果の情報を出力する。図6は、出力装置102が表示するリスク評価結果の情報の画像例を示す。図6に示す画像は、生データ学習モデル117のプライバスリスクレベル、生データ学習モデル117の正答率、疑似データ学習モデル118の正答率、リスク指標1である正答率の差分、リスク指標2であるモデル間応答一致率を含む。
図6に示すリスク評価結果表示画像は、さらに、匿名化学習モデル121の正答率を含む。一例において、リスク評価部111は、生データ学習モデル117のプライバシリスクが大または中と判定された場合に、匿名化学習モデル121の正答率を出力する。
上述のように、リスク評価レベルを表示することで、ユーザは生データ学習モデルのプライバシリスクを直截に理解できる。また、生データ学習モデルと疑似データ学習モデルの応答結果の比較についての情報をユーザに提示することで、ユーザはプライバシリスクについてより詳細な情報を得ることができる。また、匿名化学習モデルの正答率について情報は、ユーザが匿名化学習モデルの利用可能性について判断することを助ける。なお、図6が示す情報は一例であって、一部の情報が省略されてもよく、他の情報が提示されてもよい。
上述のように、本実施例は、生データの学習モデルからプライバシリスクを直接判定するのではなく、生データの統計データから再構成した疑似データの学習モデルと、生データとの学習モデルの応答結果の差をプライバシリスク指標として導入する。これにより、プライバシリスクの評価精度を高めることができる。また、プライバシリスクのない疑似データにより学習したモデルとの差分に基づき生データ学習モデルのプライバシリスクを評価することで、プライバシリスクに応じて生データ学習モデルの加工有無を決定し、プライバシリスクと学習精度を考慮した学習モデルの提供が可能になる。
図7に実施例2のシステム構成の一例を示す。実施例2のシステムでは、計算機700がネットワークを介して生データ学習モデルシステム701と接続する。計算機700の構成の多くは計算機100と同一である。計算機700と計算機100の相違は、計算機700が、生データ112、生データ学習モデル117、及び統計処理部107を含まない点である。
次に、図8を参照して、実施例2に係る計算機700の処理の流れを示す。実施例2は、実施例1で示した統計処理部を実行する代わりに、統計データ114をスタート時点でストレージ106に格納している。統計データ114は、例えば、生データ学習モデルシステム701若しくは他の計算機、又は記憶媒体からストレージ106に格納される。まず、計算機700の疑似データ生成部108は、実施例1のステップS502を実行して統計データ114から疑似データ115を生成し、ストレージ106に格納する。
次に、S801で、学習処理部109が、疑似データ115を使用して学習モデルの学習を行う。学習処理部109は、学習用パラメータ116を参照して、学習モデル、本例においてニューラルネットワークを構成する。学習処理部109は、疑似データ115を使用してニューラルネットワークの学習を行い、疑似データ学習モデル118を生成する。
次に、ステップS802で、問い合わせ処理部110が生データ学習モデルシステム701、疑似データ学習モデル118に対して評価データ113を入力し、それらの応答を得る。まず、問い合わせ処理部110は、生データ学習モデルシステム701に評価データ113を入力し、得られた応答データA119をストレージ106に格納する。次に、問い合わせ処理部110は、疑似データ学習モデル118に評価データ113を入力し、得られた応答データB120をストレージ106に格納する。
次に、計算機700は、実施例1で説明したステップS505を実行して、生データ学習モデルのプライバシリスクを評価する。以上の処理によって、プライバシリスク判定システムは、生データ学習モデルのプライバシリスクの判定結果を出力する。
実施例2の特徴の一つは、生データ学習モデルがリスク評価を行う計算機外に格納され、実行されていることである。計算機700は、プライバシを含む生データを保持しない。そのため、生データ学習モデル117の作成者は、生データ学習モデルへのアクセス権、評価に必要なプライバシを含まない統計データ及び評価データ、並びに学習モデルを定義する学習用パラメータを、リスク評価の実行者へ預託することで、安全にリスク評価を委託できる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
100、700:計算機、101:入力装置、102:出力装置、103:通信装置、104:CPU、105:メモリ、106:ストレージ、107:統計処理部、108:疑似データ生成部、109:学習処理部、110:問い合わせ処理部、111:リスク評価部、112:生データ、113:評価データ、114:統計データ、115:疑似データ、116:学習用パラメータ、117:生データ学習モデル、118:疑似データ学習モデル、119:応答データA、120:応答データB、121:匿名化学習モデル、123:学習モデル匿名化部、701:生データ学習モデルシステム
Claims (8)
- 学習モデルからの情報漏洩リスクを評価するシステムであって、
1以上のプロセッサと、
1以上の記憶装置と、を含み、
前記1以上の記憶装置は、
第1の学習モデルの学習データの統計データと、
前記第1の学習モデルと第2の学習モデルの応答を評価するための評価データと、を格納し、
前記1以上のプロセッサは、
前記統計データに基づいて、前記学習データと同一の目的変数及び説明変数からなる疑似データを生成し、
前記疑似データによって前記第2の学習モデルの学習を行い、
前記第1の学習モデルの前記評価データに対する応答結果と、前記第2の学習モデルの前記評価データに対する応答結果との比較を行い、
前記比較の結果に基づいて、前記第1の学習モデルからの情報漏洩リスクを評価する、システム。 - 請求項1に記載のシステムであって、
前記1以上のプロセッサは、前記第1の学習モデルの前記応答結果と前記第2の学習モデルの前記応答結果との一致率に基づいて、前記情報漏洩リスクを評価する、システム。 - 請求項2に記載のシステムであって、
前記1以上のプロセッサは、前記第1の学習モデルの前記応答結果の正答率と前記第2の学習モデルの前記応答結果の正答率とにさらに基づいて、前記情報漏洩リスクを評価する、システム。 - 請求項1に記載のシステムであって、
前記1以上のプロセッサは、
前記疑似データの統計データが、前記学習データの統計データと一致するように、前記疑似データを生成し、
生成した前記疑似データを前記1以上の記憶装置に格納する、システム。 - 請求項1に記載のシステムであって、
前記1以上のプロセッサは、前記学習データから前記統計データを生成し、
前記統計データは、目的変数の各値に対する説明変数の値の割合を示す、システム。 - 請求項1に記載のシステムであって、
前記第1の学習モデルからの情報漏洩リスクが所定のレベルに達している場合に、前記1以上のプロセッサは、前記情報漏洩リスクが低減されるように前記第1の学習モデルを加工したモデルを生成する、システム。 - 請求項1に記載のシステムであって、
さらに、出力装置を含み、
前記1以上のプロセッサは、前記情報漏洩リスクの評価結果を前記出力装置に出力する、システム。 - システムが学習モデルからの情報漏洩リスクを評価する方法であって、
前記システムが、第1の学習モデルの学習データの統計データに基づいて生成された前記学習データと同一の目的変数及び説明変数からなる疑似データによって、第2の学習モデルの学習を行い、
前記システムが、前記第1の学習モデルの評価データに対する応答結果と、前記第2の学習モデルの前記評価データに対する応答結果との比較を行い、
前記システムが、前記比較の結果に基づいて、前記第1の学習モデルからの情報漏洩リスクを評価する、方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020110213A JP2022007311A (ja) | 2020-06-26 | 2020-06-26 | 学習モデルからの情報漏洩リスクを評価するシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020110213A JP2022007311A (ja) | 2020-06-26 | 2020-06-26 | 学習モデルからの情報漏洩リスクを評価するシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022007311A true JP2022007311A (ja) | 2022-01-13 |
Family
ID=80111086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020110213A Pending JP2022007311A (ja) | 2020-06-26 | 2020-06-26 | 学習モデルからの情報漏洩リスクを評価するシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022007311A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7366218B1 (ja) * | 2022-09-16 | 2023-10-20 | ラクテン アジア プライベート リミテッド | 情報処理装置、方法及びプログラム |
-
2020
- 2020-06-26 JP JP2020110213A patent/JP2022007311A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7366218B1 (ja) * | 2022-09-16 | 2023-10-20 | ラクテン アジア プライベート リミテッド | 情報処理装置、方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cui et al. | A semiparametric instrumental variable approach to optimal treatment regimes under endogeneity | |
Bi | A review of statistical methods for determination of relative importance of correlated predictors and identification of drivers of consumer liking | |
Reif et al. | Automatic classifier selection for non-experts | |
EP3690677B1 (en) | Differentially private query budget refunding | |
Middleton et al. | Unbiased estimation of the average treatment effect in cluster-randomized experiments | |
US20160162794A1 (en) | Decision tree data structures generated to determine metrics for child nodes | |
WO2019102291A1 (en) | Data anonymization | |
CA3080576C (en) | Differentially private budget tracking using renyi divergence | |
US11790432B1 (en) | Systems and methods for assessing needs | |
Matakos et al. | Tell me something my friends do not know: Diversity maximization in social networks | |
US20210165913A1 (en) | Controlling access to de-identified data sets based on a risk of re- identification | |
van der Laan et al. | Stochastic treatment regimes | |
Berger et al. | Semiparametric regression for discrete time-to-event data | |
Kim et al. | A fast algorithm for maximum likelihood estimation of mixture proportions using sequential quadratic programming | |
US20160350558A1 (en) | Anonymization identifier computing system | |
CN116762069A (zh) | 元数据分类 | |
WO2021138271A1 (en) | Creating predictor variables for prediction models from unstructured data using natural language processing | |
Canary et al. | Summary goodness‐of‐fit statistics for binary generalized linear models with noncanonical link functions | |
JP2022007311A (ja) | 学習モデルからの情報漏洩リスクを評価するシステム | |
WO2021174881A1 (zh) | 多维度信息的组合预测方法、装置、计算机设备及介质 | |
Zheng et al. | Marginal structural models with counterfactual effect modifiers | |
Park et al. | A sparse additive model for treatment effect-modifier selection | |
US11194829B2 (en) | Methods and system for entity matching | |
Tutz et al. | Likelihood-based boosting in binary and ordinal random effects models | |
Arnouts et al. | Analyzing ordinal data from a split-plot design in the presence of a random block effect |