JP2022007311A

JP2022007311A - 学習モデルからの情報漏洩リスクを評価するシステム

Info

Publication number: JP2022007311A
Application number: JP2020110213A
Authority: JP
Inventors: 由美子横張; Yumiko Yokohari; 雅之吉野; Masayuki Yoshino
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-06-26
Filing date: 2020-06-26
Publication date: 2022-01-13

Abstract

【課題】学習モデルからの情報漏洩リスクをより正確に評価する。【解決手段】システムは、１以上のプロセッサと、１以上の記憶装置と、を含む。１以上の記憶装置は、第１の学習モデルの学習データの統計データと、第１の学習モデルと第２の学習モデルの応答を評価するための評価データと、を格納する。１以上のプロセッサは、統計データに基づいて、学習データと同一の目的変数及び説明変数からなる疑似データを生成する。１以上のプロセッサは、疑似データによって第２の学習モデルの学習を行う。１以上のプロセッサは、第１の学習モデルの評価データに対する応答結果と、第２の学習モデルの評価データに対する応答結果との比較を行い、比較の結果に基づいて第１の学習モデルからの情報漏洩リスクを評価する。【選択図】図１

Description

本発明は、学習モデルからの情報漏洩リスクの評価に関する。

深層学習等のＡＩ関連技術の発展により、ＡＩを利用したシステムやサービスが提供されている。一方、学習モデルから学習データを盗取しようとする攻撃も明らかになっている。

学習モデルからの学習データの漏洩を防止する技術として、学習モデルに対して匿名化を行う技術が知られている。例えば、特許文献１に開示の技術は、深層学習が行われた深層学習モデルに対して、そのモデル内のパラメータ値にラプラス分布に基づいた誤差を与える。当該技術は、さらに、ラプラス分布に基づいて誤差を与えた各パラメータが、最大値及び最小値で示される閾値の範囲を超えたとき、閾値の範囲に制限する。

特開２０１８－９７４６７号公報

しかしながら、特許文献１に記載された技術では、生データにより学習を行った学習モデルパラメータ値に誤差を与えて匿名化モデルを生成するため、匿名化モデルの精度は生データで学習した学習モデルの精度と比較して低下する。特に付与する誤差が大きくなればなるほど、匿名化モデルの精度は低下する。

本発明の一態様は、学習モデルからの情報漏洩リスクを評価するシステムであって、１以上のプロセッサと、１以上の記憶装置と、を含み、前記１以上の記憶装置は、第１の学習モデルの学習データの統計データと、前記第１の学習モデルと第２の学習モデルの応答を評価するための評価データと、を格納し、前記１以上のプロセッサは、前記統計データに基づいて、前記学習データと同一の目的変数及び説明変数からなる疑似データを生成し、前記疑似データによって前記第２の学習モデルの学習を行い、前記第１の学習モデルの前記評価データに対する応答結果と、前記第２の学習モデルの前記評価データに対する応答結果との比較を行い、前記比較の結果に基づいて、前記第１の学習モデルからの情報漏洩リスクを評価する。

本発明の一態様によれば学習モデルからの情報漏洩リスクをより正確に評価できる。

実施例１に係るリスク評価システムの構成例を示す。生データ、評価データ、及び疑似データの構成例を示す。統計処理部により生成される、生データの統計データの一例を示す。応答データＡと応答データＢの構成例を表す。計算機の動作例を説明するフローチャートである。出力装置が表示するリスク評価結果の情報の画像例を示す。実施例２に係るリスク評価システムの構成例を示す。実施例２に係る計算機の動作例を説明するフローチャートである。

以下、本発明の実施形態について図面を用いて詳細に説明する。便宜上その必要があるときは、複数のセクションまたは実施例に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下において、要素の数等（個数、数値、量、範囲等を含む）に言及する場合、特に明示した場合及び原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。

本システムは、物理的な計算機システム（一つ以上の物理的な計算機）でもよいし、クラウド基盤のような計算リソース群（複数の計算リソース）上に構築されたシステムでもよい。計算機システムあるいは計算リソース群は、１以上のインタフェース装置（例えば通信装置及び入出力装置を含む）、１以上の記憶装置（例えば、メモリ（主記憶）及び補助記憶装置を含む）及び１以上のプロセッサを含む。

命令コードを含むプログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び／またはインタフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有するシステムが行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記憶媒体（例えば計算機読み取り可能な非一過性記憶媒体）であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。

以下に開示されるリスク評価システムは、第１学習モデル（機械学習モデル又は単にモデルとも呼ぶ）の学習データ（本明細書において生データとも呼ぶ）の統計データから生成された疑似データによって、第２学習モデルの学習を行う。リスク評価システムは、第１学習モデルと第２学習モデルの評価データに対する応答を比較して、第１学習モデルからの、情報漏洩リスクの一つであるプライバシリスクを評価する。学習モデルからのプライバシリスクは、生データ内の秘匿すべきデータが学習モデルから漏洩するリスクである。

統計データはプライバシを含まず、統計データから再構成した疑似データもプライバシリスクがないデータでる。そのため、生データを学習したモデルと統計データから作成した疑似データを学習したモデルとの応答を比較することで、生データの学習モデルからのプライバシリスクを評価できる。さらに、評価に応じてプライバシリスクと推定精度の観点で適切な学習モデルを提供できる。

図１は、本明細書の一実施例に係るリスク評価システムの構成例を示す。図１に示す構成例は、一つの計算機で構成されている。リスク評価システムは、互いに通信可能な複数の計算機を含むことができる。図示するように、計算機１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０４と、メモリ１０５と、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等のストレージ１０６とを含む。メモリ１０５及びストレージ１０６は記憶装置であり、メモリ１０５及びストレージ１０６は、それぞれ、主記憶装置及び補助記憶装置とも呼ばれる。

計算機１００は、さらに、キーボードやマウス等の入力装置１０１と、ディスプレイやプリンタ等の出力装置１０２と、通信ネットワークに接続するためのＮＩＣ等の通信装置１０３と、これらを連結するシステムバス等の内部通信線１２２とを備える。

図１の構成例において、ストレージ１０６は、生データ１１２と、評価データ１１３と、統計データ１１４と、疑似データ１１５と、学習用パラメータ１１６と、生データ学習モデル１１７と、疑似データ学習モデル１１８と、応答データＡ１１９と、応答データＢ１２０と、匿名化学習モデル１２１とを記憶する。

学習用パラメータ１１６は、例えばニューラルネットワーク学習におけるネットワーク構成情報や学習方法を定義するデータを含む。ネットワーク構成情報は、例えば、中間層の階層数、各階層のノード数、活性化関数の種類を含む。学習モデルのアルゴリズムは任意であって、ニューラルネットワークと異なるアルゴリズムの学習モデルを使用することができる。

生データ学習モデル１１７と疑似データ学習モデル１１８は、後述する学習処理部１０９により生成される学習モデルである。生データ１１２と、評価データ１１３と、統計データ１１４と、疑似データ１１５と、応答データＡ１１９と、応答データＢ１２０の詳細については後述する。

メモリ１０５は、統計処理部１０７と、疑似データ生成部１０８と、学習処理部１０９と、問い合わせ処理部１１０と、リスク評価部１１１とを格納している。これらはプログラムである。説明の便宜上、これらプログラムはメモリ１０５内に示されているが、これらプログラムは、ストレージ１０６又は外部装置からメモリ１０５にロードされる。図１においてストレージ１０６に格納されている他のデータも同様である。

ＣＰＵ１０４はプロセッサであって、メモリ１０５のプログラムを実行することで、対応する機能部として動作する。具体的には、ＣＰＵ１０４は、統計処理部、疑似データ生成部、学習処理部、問い合わせ処理部、リスク評価部として動作できる。なお、以下において、主語としてのプログラムは、そのプログラムを実行するＣＰＵ１０４又は計算機１００に置き換え可能である。

統計処理部１０７は、生データ１１２を入力とし、説明変数の属性それぞれと目的変数とのクロス集計表を作成し、統計データ１１４に含める。疑似データ生成部１０８は、統計データ１１４を入力とし、生データと同形式の疑似データ１１５を作成し、ストレージ１０６に格納する。疑似データ１１５は、このように、生データの統計データから生成した生データと同形式のデータである。

学習処理部１０９は、生データ１１２または疑似データ１１５と、学習用パラメータ１１６とを入力とし、学習モデルを生成する。生データ１１２の学習により生成された生データ学習モデル１１７は、ストレージ１０６に格納される。また、疑似データ１１５により学習された疑似データ学習モデル１１８も、ストレージ１０６に格納される。

問い合わせ処理部１１０は、生データ学習モデル１１７または疑似データ学習モデル１１８に評価データ１１３を入力する。問い合わせ処理部１１０は、生データ学習モデル１１７または疑似データ学習モデル１１８から得られた応答データＡ１１９または応答データＢ１２０をストレージ１０６に格納する。

リスク評価部１１１は、応答データＡ１１９と、応答データＢ１２０と、評価データ１１３とを入力とし、生データ学習モデル１１７のプライバシリスクの評価結果を、出力装置１０２に出力する。学習モデル匿名化部１２３は、生データ学習モデル１１７のプライバシリスクが所定のレベルである場合に、所定の方法に従って生データ学習モデル１１７の匿名化を行って匿名化学習モデル１２１を生成し、ストレージ１０６に格納する。

図２は、生データ１１２、評価データ１１３、及び疑似データ１１５の構成例を示す。生データ１１２、評価データ１１３、及び疑似データ１１５は、共通のデータ構造を有している。上述のように、疑似データ１１５は、生データ１１２の統計データ１１４に基づいて生成される。評価データ１１３は、例えば生データ１１２の一部でもよく、生データ１１２及び疑似データ１１５と異なるデータであってもよい。

図２に示す例において、生データ１１２、評価データ１１３、及び疑似データ１１５は、テーブル形式の構造化データであり、複数のレコードからなる。各レコードは、説明変数と目的変数の属性を含む。図２の例において、レコードは、複数の説明変数の属性と一つの目的変数の属性で構成されている。説明変数の数は１でもよい。

目的変数は、生成する学習モデルが学習する結果の属性である。説明変数は、目的変数の推定に使用する属性である。学習モデルは説明変数の値を受け取り、目的変数の推定値を出力する。図２の例において、レコードは、複数の説明変数及び一つの目的変数で構成される。具体的には、説明変数の属性は、年齢、性別及び住所であり、目的変数の属性は年収である。学習モデルは、これら属性の説明変数から年収を推定する。本例において、学習モデルは年収のクラスを推定し、年収５００万以上のクラス又は年収５００万未満のクラスを推定する。

図３は、統計処理部１０７により生成される、生データ１１２の統計データ１１４の一例を示す。統計データ１１４は複数のクロス集計データで構成される。クロス集計データは、表形式のデータであり、少なくとも１つの説明変数と目的変数とで構成される。以下に説明する例において、クロス計算表は、目的変数の各値に対する説明変数の値の割合を示す。これにより、適切な疑似データを生成できる。統計データは他の情報を示してもよい。

図３は、数値以外の説明変数である住所と目的変数である年収のクロス集計表３００の例と、数値の説明変数である年齢と目的変数である年収のクロス集計表３１０の例とを示す。クロス集計表３００のカラム３０１は、説明変数の住所属性の値を示す。カラム３０３は、目的変数の属性値である年収５００万以上のクラスを示すレコードにおいて、各住所属性の値のレコードの割合を示す。カラム３０５は、目的変数の属性値である年収５００万未満のクラスを示すレコードにおいて、各住所属性の値のレコードの割合を示す。カラム３０３の値とカラム３０５の値の合計は１である。

クロス集計表３１０のカラム３１１は、説明変数の年齢属性の値の区分を示す。例えば、統計処理部１０７は、予め指定されている数の区分が形成されるように、年齢属性値の最大値及び最小値から、各区分の範囲を決定する。区分のサイズ（最小値と最大値の差）は、例えば図３に示すように共通である。区分のサイズが異なっていてもよい。図３は、年齢が１８から９７のデータを１０区分に分割した例を示す。このように、数値範囲の区分により、目的変数の各値に対する説明変数の値の割合を示してもよい。なお、年齢の各値の割合が示されてもよい。

カラム３１３は、目的変数の属性値である年収５００万以上のクラスを示すレコードにおいて、その年齢属性が各年齢属性値区分に該当するレコードの割合を示す。カラム３０５は、目的変数の属性値である年収５００万未満のクラスを示すレコードにおいて、その年齢属性が各年齢属性値区分に該当するレコードの割合を示す。カラム３１３の値とカラム３１５の値の合計は１である。

なお、図３は示していないが、統計処理部１０７は、数値以外の説明変数である性別と目的変数である年収のクロス集計データも生成し、統計データ１１４に含める。

図４は応答データＡ１１９と応答データＢ１２０の構成例を表す。これらは共通の形式を有している。本例において、応答データＡ１１９と応答データＢ１２０は、表形式のデータである。上述のように、応答データＡ１１９は、生データ学習モデル１１７の、評価データ１１３の説明変数の入力に対する出力であり、応答データＢ１２０は、疑似データ学習モデル１１８の、評価データ１１３の説明変数の入力に対する出力である。

応答データＡ１１９及び応答データＢ１２０は、評価データ１１３の目的変数の属性を持ち、それらのレコード数は、評価データ１１３のレコード数と同一である。応答データのレコードは、評価データ１１３のレコードと１対１対応する順序で格納される。各セルは、生データ１１２の目的変数に含まれる属性値のいずれか１つを格納する。

次に図５を参照し、計算機１００の動作例について説明する。ステップＳ５０１で、統計処理部１０７は、生データ１１２を参照し、説明変数の属性ごとに、目的変数と説明変数の属性のクロス集計表を作成する。統計処理部１０７は、作成したクロス集計表を統計データ１１４に含める。

ステップＳ５０２で、疑似データ生成部１０８は、統計データ１１４に含まれるクロス集計表から生データ１１２と同じ形式の疑似データ１１５を作成し、ストレージ１０６に格納する。ここで、疑似データの作成方法について詳述する。疑似データ生成部１０８は、疑似データを目的変数の値ごとに作成する。本例において、目的変数の一つの値（クラス）は、年収５００満以上であり、他の一つの値は、年収５００万未満である。

まず、疑似データ生成部１０８は、目的変数の値それぞれの疑似データの作成レコード数を決定する。例えば、生データ１１２において年収５００万円以上のレコード数が４万、年収５００万未満のレコード数が６万である場合、疑似データ１１５に対して、生データ１１２と同様に、年収５００万以上のレコード数を４万、５００万未満のレコード数を６万と決定する。

一例において、目的変数の異なる値のレコード数の比率は、疑似データ１１５と生データ１１２との間で共通である。これにより、より正確なリスク評価が可能となる。また、疑似データ１１５における目的変数値それぞれのレコード数は、生データ１１２におけるレコード数と一致していなくてもよい。

年収５００万以上の目的変数の値のレコードのため、疑似データ生成部１０８は、説明変数の各対象属性について、統計データ１１４が示す属性値の割合に従って、属性値の配列を生成する。配列の要素数は、作成する年収５００万以上のレコードの数に一致する。配列の値は、それぞれ、疑似データ１１５における年収５００万以上のレコードのセルに格納される。

まず、数値属性以外の疑似データの作成方法について示す。例えば、説明変数の対象属性が住所の場合、疑似データ生成部１０８は、クロス集計表３００に従い、１０万×０．０００５＝５０個の属性値「北海道」を作成する。疑似データ生成部１０８は、同様に、４０００個の属性値「東京都」を生成し、２０００個の属性値「神奈川県」を作成する。すべての属性値を作成後、疑似データ生成部１０８は、それら属性値からなる配列を生成し、属性値の順序をランダムシャッフルする。

次に数値属性の疑似データを作成方法について示す。例えば、説明変数の対象属性が年齢の場合、疑似データ生成部１０８は、クロス集計表３１０に従い、区分「１８－２５歳」に該当する属性値を、１０万×０．０２＝２０００個、作成する。作成する属性値は区分そのものではなく、区分の範囲（１８から２５）内のいずれかの数字である。例えば、疑似データ生成部１０８は、区分の範囲（１８から２５）から一つの数字をランダムに８００回選択する。

疑似データ生成部１０８は、この処理を年齢属性のすべての区分に対して実行する。疑似データ生成部１０８は、作成した数字から配列を構成し、数字の順序をランダムシャッフルする。なお、数値属性の疑似データの作成は、複数の数字を含む区分を定義することなく、生データの数字の比率に応じて数字の配列を作成してもよい。

疑似データ生成部１０８は、上述のように作成した説明変数の全ての属性の配列と、目的変数の年収５００万以上の属性値とを連結し、目的変数の属性値が年収５００万以上である疑似データのレコードの作成を完了する。疑似データ生成部１０８は、５００万未満の疑似データについても上記と同様の処理を繰り返す。疑似データ生成部１０８は、最後に年収５００万以上の疑似データと年収５００万未満の疑似データを連結し、疑似データ１１５を構成する。

本例において、疑似データ生成部１０８は、生データ１１２の統計データ１１４と一致するように疑似データ１１５を生成する。具体的には、各目的変数の属性値に対して、各非数値属性の属性値の個数の割合は、生データ１１２と疑似データ１１５との間で一致する。また、各数字属性の区分に含まれる属性値の個数の割合は、生データ１１２と疑似データ１１５との間で一致する。このように、割合が生データ１１２と疑似データ１１５との間一致することで、より正確なプライバシリスク評価を行うことができる。なお、属性値の割合が、生データ１１２と疑似データ１１５との間でわずかに異なっていてもよい。

次に、ステップＳ５０３で、学習処理部１０９は、生データ１１２と疑似データ１１５を使用して学習モデルの学習を行う。まず、学習処理部１０９は、学習用パラメータ１１６を参照して、学習モデル、本例においてニューラルネットワークを構成する。学習処理部１０９は、生データ１１２を使用してニューラルネットワークの学習を行い、生データ学習モデル１１７を生成する。

具体的には、学習処理部１０９は、生データ１１２の説明変数の値をニューラルネットワークに入力し、生データ１１２の目的変数の値とニューラルネットワークの推定値との値の誤差に基づき、可変パラメータを繰り返し更新する。学習処理部１０９は、得られた生データ学習モデル１１７をストレージ１０６に格納する。

次に、学習処理部１０９は、学習用パラメータ１１６を参照して、学習モデルを構成する。この学習モデルの構成は、生データ学習モデル１１７と同一のニューラルネットワークである。一例において、この学習モデルの初期パラメータセットは、生データ学習モデル１１７の初期パラメータセットと同一である。学習処理部１０９は、疑似データ１１５を使用してニューラルネットワークの学習を行い、疑似データ学習モデル１１８を生成して、ストレージ１０６に格納する。可変パラメータの更新方法は、生データ学習モデル１１７の学習方法と同様である。

次に、ステップＳ５０４で、問い合わせ処理部１１０は、生データ学習モデル１１７及び疑似データ学習モデル１１８それぞれに対して評価データ１１３の説明変数値を入力し、それらの応答を得る。まず、問い合わせ処理部１１０は生データ学習モデル１１７に評価データ１１３の説明変数値を入力し、得られた応答データＡ１１９をストレージ１０６に格納する。次に、疑似データ学習モデル１１８に評価データ１１３の説明変数値を入力し、得られた応答データＢ１２０をストレージ１０６に格納する。

ステップＳ５０５で、リスク評価部１１１が応答データＡ１１９、応答データＢ１２０及び評価データ１１３を用いて、生データ学習モデル１１７のプライバシリスクを評価する。以下において、プライバシリスク評価方法の例を説明する。

本例において、リスク評価部１１１は、応答データＡ１１９、応答データＢ１２０及び評価データ１１３の目的変数の値に基づいて、二つのリスク指標を算出する。リスク評価部１１１は、それらリスク指標の値に基づいて、生データ学習モデル１１７のプライバシリスクを評価する。

リスク評価部１１１は、リスク指標１として、生データ学習モデル１１７と疑似データ学習モデル１１８との間の、正答率の差異を算出する。正答率の計算方法の例は、次の通りである。評価データ１１３における年収５００万以上のレコードに対する推定結果が、年収５００万以上であるレコード数をＴＰとする。ＴＰは、年収５００万以上のレコードの正答数を示す。評価データ１１３における年収５００万以上のレコードに対する推定結果が年収５００万未満であるレコード数をＦＮとする。ＦＮは、年収５００万以上のレコードの誤答数を示す。

評価データ１１３における年収５００万未満のレコードに対する推定結果が、年収５００万未満のレコード数をＴＮとする。ＴＮは、年収５００万未満のレコードの正答数を示す。評価データ１１３における年収５００万未満のレコードに対する推定結果が、年収５００万以上のレコード数をＦＰとする。ＦＰは、年収５００万未満のレコードの誤答数を示す。正答率は下記式１で算出できる。
（ＴＰ＋ＴＮ）／（ＴＰ＋ＦＮ＋ＴＮ＋ＦＰ）（式１）

リスク評価部１１１は、リスク指標２として、生データ学習モデル１１７と疑似データ学習モデル１１８との間の、応答一致率を算出する。モデル間応答一致率は、応答データＡ１１９と応答データＢ１２０との間の一致率である。モデル間応答一致率の計算方法の例を説明する。

生データ学習モデル１１７の推定結果が年収５００万以上であり、疑似データ学習モデル１１８の推定結果も年収５００万以上であるレコード数をＴＰとする。生データ学習モデル１１７の推定結果が年収５００万以上であり、疑似データ学習モデル１１８の推定結果が年収５００万未満の件数をＦＮとする。

生データ学習モデル１１７の推定結果が年収５００万未満であり、疑似データ学習モデル１１８の推定結果も年収５００万未満の件数をＴＮとする。生データ学習モデル１１７の推定結果が年収５００万未満であり、疑似データ学習モデル１１８の推定結果が年収５００万以上のレコード数をＦＰとする。モデル間応答一致率は、上記式１で算出できる。（ＴＰ＋ＴＮ）はモデル間で推定結果が一致するレコード数を示し、（ＦＮ＋ＦＰ）はモデル間で推定結果が異なるレコード数を示す。

例えば、リスク指標１及びリスク指標２の双方が、それぞれ所定の許容範囲外である場合、プライバシリスクが大きいと判定される。具体的には、リスク指標１の値が所定の閾値より大きく、リスク指標２が所定の閾値より小さい場合、リスク評価部１１１は、プライバシリスクが「大」と判定する。

リスク指標１及びリスク指標２の一方が許容範囲外で、他方が許容範囲内である場合、プライバシリスクは中程であると判定される。具体的には、リスク指標１の値が所定の閾値より大きく、リスク指標２が所定の閾値以上である、又は、リスク指標１の値が所定の閾値以下であり、リスク指標２が所定の閾値より小さい場合、リスク評価部１１１は、プライバシリスクが「中」と判定する。

リスク指標１及びリスク指標２の双方が許容範囲内である場合、プライバシリスクは小さいと判定される。具体的には、リスク指標１の値が所定の閾値以下であり、リスク指標２が所定の閾値以上である場合、リスク評価部１１１は、プライバシリスクが「小」と判定する。

上述のように、複数のリスク指標を参照することで、より正確な評価が可能となる。なお、参照するリスク指標の数は、一つでも三つ以上でもよい。二つの学習モデルの一致率をリスク指標として使用することで、より正確なプライバシリスク評価が可能となる。

リスク大またはリスク中の場合、学習モデル匿名化部１２３は、生データ学習モデル１１７の匿名化を行い、匿名化学習モデル１２１を生成する。学習モデルの匿名化は、学習モデルのパラメータを変更することで、学習データについての秘匿情報の漏洩確率を低減する。

任意の匿名化方法を採用することができ、例えば、生データ学習モデル１１７の可変パラメータ（学習により更新されるパラメータ）にノイズを加えることができる。ノイズの付与方法は任意であり、例えば、ランダムノイズが加えられる。一例において、評価リスクのレベルに応じて、匿名化の方法を変更する。例えば、学習モデル匿名化部１２３は、リスクが大の場合、リスクが中の場合と比較して、より大きいノイズを付与してもよい。

最後に、リスク評価部１１１は、出力装置１０２の表示画面に、リスク評価結果の情報を出力する。図６は、出力装置１０２が表示するリスク評価結果の情報の画像例を示す。図６に示す画像は、生データ学習モデル１１７のプライバスリスクレベル、生データ学習モデル１１７の正答率、疑似データ学習モデル１１８の正答率、リスク指標１である正答率の差分、リスク指標２であるモデル間応答一致率を含む。

図６に示すリスク評価結果表示画像は、さらに、匿名化学習モデル１２１の正答率を含む。一例において、リスク評価部１１１は、生データ学習モデル１１７のプライバシリスクが大または中と判定された場合に、匿名化学習モデル１２１の正答率を出力する。

上述のように、リスク評価レベルを表示することで、ユーザは生データ学習モデルのプライバシリスクを直截に理解できる。また、生データ学習モデルと疑似データ学習モデルの応答結果の比較についての情報をユーザに提示することで、ユーザはプライバシリスクについてより詳細な情報を得ることができる。また、匿名化学習モデルの正答率について情報は、ユーザが匿名化学習モデルの利用可能性について判断することを助ける。なお、図６が示す情報は一例であって、一部の情報が省略されてもよく、他の情報が提示されてもよい。

上述のように、本実施例は、生データの学習モデルからプライバシリスクを直接判定するのではなく、生データの統計データから再構成した疑似データの学習モデルと、生データとの学習モデルの応答結果の差をプライバシリスク指標として導入する。これにより、プライバシリスクの評価精度を高めることができる。また、プライバシリスクのない疑似データにより学習したモデルとの差分に基づき生データ学習モデルのプライバシリスクを評価することで、プライバシリスクに応じて生データ学習モデルの加工有無を決定し、プライバシリスクと学習精度を考慮した学習モデルの提供が可能になる。

図７に実施例２のシステム構成の一例を示す。実施例２のシステムでは、計算機７００がネットワークを介して生データ学習モデルシステム７０１と接続する。計算機７００の構成の多くは計算機１００と同一である。計算機７００と計算機１００の相違は、計算機７００が、生データ１１２、生データ学習モデル１１７、及び統計処理部１０７を含まない点である。

次に、図８を参照して、実施例２に係る計算機７００の処理の流れを示す。実施例２は、実施例１で示した統計処理部を実行する代わりに、統計データ１１４をスタート時点でストレージ１０６に格納している。統計データ１１４は、例えば、生データ学習モデルシステム７０１若しくは他の計算機、又は記憶媒体からストレージ１０６に格納される。まず、計算機７００の疑似データ生成部１０８は、実施例１のステップＳ５０２を実行して統計データ１１４から疑似データ１１５を生成し、ストレージ１０６に格納する。

次に、Ｓ８０１で、学習処理部１０９が、疑似データ１１５を使用して学習モデルの学習を行う。学習処理部１０９は、学習用パラメータ１１６を参照して、学習モデル、本例においてニューラルネットワークを構成する。学習処理部１０９は、疑似データ１１５を使用してニューラルネットワークの学習を行い、疑似データ学習モデル１１８を生成する。

次に、ステップＳ８０２で、問い合わせ処理部１１０が生データ学習モデルシステム７０１、疑似データ学習モデル１１８に対して評価データ１１３を入力し、それらの応答を得る。まず、問い合わせ処理部１１０は、生データ学習モデルシステム７０１に評価データ１１３を入力し、得られた応答データＡ１１９をストレージ１０６に格納する。次に、問い合わせ処理部１１０は、疑似データ学習モデル１１８に評価データ１１３を入力し、得られた応答データＢ１２０をストレージ１０６に格納する。

次に、計算機７００は、実施例１で説明したステップＳ５０５を実行して、生データ学習モデルのプライバシリスクを評価する。以上の処理によって、プライバシリスク判定システムは、生データ学習モデルのプライバシリスクの判定結果を出力する。

実施例２の特徴の一つは、生データ学習モデルがリスク評価を行う計算機外に格納され、実行されていることである。計算機７００は、プライバシを含む生データを保持しない。そのため、生データ学習モデル１１７の作成者は、生データ学習モデルへのアクセス権、評価に必要なプライバシを含まない統計データ及び評価データ、並びに学習モデルを定義する学習用パラメータを、リスク評価の実行者へ預託することで、安全にリスク評価を委託できる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

１００、７００：計算機、１０１：入力装置、１０２：出力装置、１０３：通信装置、１０４：ＣＰＵ、１０５：メモリ、１０６：ストレージ、１０７：統計処理部、１０８：疑似データ生成部、１０９：学習処理部、１１０：問い合わせ処理部、１１１：リスク評価部、１１２：生データ、１１３：評価データ、１１４：統計データ、１１５：疑似データ、１１６：学習用パラメータ、１１７：生データ学習モデル、１１８：疑似データ学習モデル、１１９：応答データＡ、１２０：応答データＢ、１２１：匿名化学習モデル、１２３：学習モデル匿名化部、７０１：生データ学習モデルシステム

Claims

学習モデルからの情報漏洩リスクを評価するシステムであって、
１以上のプロセッサと、
１以上の記憶装置と、を含み、
前記１以上の記憶装置は、
第１の学習モデルの学習データの統計データと、
前記第１の学習モデルと第２の学習モデルの応答を評価するための評価データと、を格納し、
前記１以上のプロセッサは、
前記統計データに基づいて、前記学習データと同一の目的変数及び説明変数からなる疑似データを生成し、
前記疑似データによって前記第２の学習モデルの学習を行い、
前記第１の学習モデルの前記評価データに対する応答結果と、前記第２の学習モデルの前記評価データに対する応答結果との比較を行い、
前記比較の結果に基づいて、前記第１の学習モデルからの情報漏洩リスクを評価する、システム。
請求項１に記載のシステムであって、
前記１以上のプロセッサは、前記第１の学習モデルの前記応答結果と前記第２の学習モデルの前記応答結果との一致率に基づいて、前記情報漏洩リスクを評価する、システム。
請求項２に記載のシステムであって、
前記１以上のプロセッサは、前記第１の学習モデルの前記応答結果の正答率と前記第２の学習モデルの前記応答結果の正答率とにさらに基づいて、前記情報漏洩リスクを評価する、システム。
請求項１に記載のシステムであって、
前記１以上のプロセッサは、
前記疑似データの統計データが、前記学習データの統計データと一致するように、前記疑似データを生成し、
生成した前記疑似データを前記１以上の記憶装置に格納する、システム。
請求項１に記載のシステムであって、
前記１以上のプロセッサは、前記学習データから前記統計データを生成し、
前記統計データは、目的変数の各値に対する説明変数の値の割合を示す、システム。
請求項１に記載のシステムであって、
前記第１の学習モデルからの情報漏洩リスクが所定のレベルに達している場合に、前記１以上のプロセッサは、前記情報漏洩リスクが低減されるように前記第１の学習モデルを加工したモデルを生成する、システム。
請求項１に記載のシステムであって、
さらに、出力装置を含み、
前記１以上のプロセッサは、前記情報漏洩リスクの評価結果を前記出力装置に出力する、システム。
システムが学習モデルからの情報漏洩リスクを評価する方法であって、
前記システムが、第１の学習モデルの学習データの統計データに基づいて生成された前記学習データと同一の目的変数及び説明変数からなる疑似データによって、第２の学習モデルの学習を行い、
前記システムが、前記第１の学習モデルの評価データに対する応答結果と、前記第２の学習モデルの前記評価データに対する応答結果との比較を行い、
前記システムが、前記比較の結果に基づいて、前記第１の学習モデルからの情報漏洩リスクを評価する、方法。