JP7381942B2

JP7381942B2 - 制御方法、情報処理装置および制御プログラム

Info

Publication number: JP7381942B2
Application number: JP2021570588A
Authority: JP
Inventors: 裕二樋口; 俊也清水; 郁也森川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2023-11-16
Anticipated expiration: 2040-01-17
Also published as: EP4092555A4; JPWO2021144943A1; EP4092555A1; CN114868124A; WO2021144943A1; US20220301288A1

Description

本発明は制御方法、情報処理装置および制御プログラムに関する。

入力された画像に写った物体のクラスを予測する分類モデルを、機械学習によって生成し、生成された分類モデルを画像認識に使用することがある。分類モデルを生成する機械学習では、サンプル画像と当該サンプル画像が属するクラスを示す教師ラベルとを対応付けた訓練データを用意する。この訓練データを用いて、入力された画像が特定のクラスに属する可能性を示す確信度を出力する分類モデルを生成することができる。分類モデルは、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）などの多層ニューラルネットワークであることがある。

機械学習によって生成された分類モデルに対するセキュリティ上の脅威として、モデルインバージョン攻撃が議論されている。分類モデルはその性質上、訓練データに含まれるサンプル画像と類似する画像が入力された場合に、正解クラスの確信度として非常に高い確信度を出力することが多い。モデルインバージョン攻撃ではこの性質を利用して、特定のクラスの確信度が非常に高くなるような入力の画像を探索することで、訓練データに含まれるサンプル画像を推定する。個人情報など保護すべき秘密情報が訓練データに含まれている場合、秘密情報が推定されて漏洩するリスクがある。

なお、機械学習を利用したセキュリティ技術として、ネットワークのトラフィックデータをニューラルネットワークに入力し、ニューラルネットワーク内で算出された特徴ベクトルから侵入カテゴリを判定する侵入検知システムが提案されている。

特開２０１８－６７３０４号公報

機械学習によって生成された分類モデルを運用するにあたり、モデルインバージョン攻撃を試行して、分類モデルの攻撃耐性を評価したいことがある。単純な評価方法として、入力する画像を生成し、評価対象の分類モデルにアクセスして特定のクラスの確信度を算出し、確信度が高くなるように画像の画素値を微修正することを繰り返して、正解のサンプル画像を再現できるか評価する方法が考えられる。

しかし、画素値の微修正を繰り返す単純な評価方法では、分類モデルへのアクセス回数が非常に多くなって計算量が大きくなってしまう。また、画像は次元数が大きく自由度が高いデータであるため、最初に入力する初期画像に依存して、正解のサンプル画像と類似しない局所解に陥ってしまうことも多い。このため、現実的な分析時間の範囲で、分類モデルの攻撃耐性を精度よく評価することが難しいという問題がある。

１つの側面では、本発明は、学習済みモデルの攻撃耐性の評価精度を向上させる制御方法、情報処理装置および制御プログラムを提供することを目的とする。

１つの態様では、コンピュータが実行する制御方法が提供される。入力の画像データから、入力の画像データが特定のクラスに属する可能性を示す確信度を算出する分類モデルと、入力の画像データよりも次元数の小さい入力の特徴値を、入力の画像データに変換するモデルであって、画像データの集合に対応する特徴値の集合が特定の確率分布に従うように生成された変換モデルと、を取得する。特定の確率分布に基づいて第１の特徴値を抽出する。変換モデルを用いて第１の特徴値を第１の画像データに変換し、分類モデルを用いて第１の画像データに対応する第１の確信度を算出する。特定の確率分布および第１の特徴値に基づいて、分類モデルによって算出される確信度が第１の確信度よりも高くなるように、変換モデルに入力する特徴値を第１の特徴値から第２の特徴値に更新する。

また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。また、１つの態様では、コンピュータに実行させる制御プログラムが提供される。

１つの側面では、学習済みモデルの攻撃耐性の評価精度が向上する。
本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

第１の実施の形態の情報処理装置の例を説明する図である。第２の実施の形態の情報処理装置のハードウェア例を示す図である。分類モデルの入出力例を示す図である。変分オートエンコーダの例を示す図である。訓練データ推定の第１の例を示す図である。訓練データ推定の第２の例を示す図である。訓練データ推定の第３の例を示す図である。訓練データ推定の第４の例を示す図である。確率分布のクリッピング例を示す図である。情報処理装置の機能例を示すブロック図である。確率分布の情報の例を示す図である。ベクトルテーブルの例を示す図である。訓練データ推定の第１の手順例を示すフローチャートである。訓練データ推定の第１の手順例を示すフローチャート（続き）である。訓練データ推定の第２の手順例を示すフローチャートである。訓練データ推定の第２の手順例を示すフローチャート（続き）である。

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置の例を説明する図である。
第１の実施の形態の情報処理装置１０は、機械学習によって生成された学習済みモデルの攻撃耐性を評価する。学習済みモデルに対する攻撃には、モデルインバージョン攻撃が含まれる。モデルインバージョン攻撃は、学習済みモデルに様々な入力データを与えて、学習済みモデルの出力を監視することで、機械学習に使用された訓練データを推定するものである。訓練データの再現度は、モデルインバージョン攻撃を受ける学習済みモデルによって異なる。情報処理装置１０は、モデルインバージョン攻撃を試行することで、訓練データの再現度を確認し、学習済みモデルの攻撃耐性を評価する。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０を、コンピュータ、制御装置、分析装置、評価装置、機械学習装置などと言うこともできる。

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの特定用途の電子回路を含んでもよい。プロセッサは、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うこともある。

記憶部１１は、分類モデル１３および変換モデル１４を記憶する。
分類モデル１３は、評価対象の学習済みモデルであり、画像データから確信度を算出する。画像データは、複数の画素値が格子状に並んだテンソル形式データであってもよい。確信度は、入力された画像データが特定のクラス（画像分類）に属する可能性を示す数値である。分類モデル１３は、複数のクラスに対応する複数の確信度を算出してもよい。あるクラスの確信度は、入力された画像データが、複数のクラスのうち当該クラスに属する相対的な確からしさを示す確率であってもよい。複数のクラスの確信度の合計が１であってもよく、各クラスの確信度が０以上１以下の実数であってもよい。あるクラスの確信度が高いほど、入力された画像データが当該クラスに属する可能性が高い。

分類モデル１３は、例えば、顔認識や文字認識などの画像認識に用いられる。分類モデル１３は、機械学習を通じて値が決定されるパラメータを含む。分類モデル１３は、ＣＮＮなどの多層ニューラルネットワークであってもよく、ノード間を接続するエッジに対して割り当てられた重みをパラメータとして含んでもよい。分類モデル１３の生成に使用された訓練データは、サンプル画像データと、当該サンプル画像データが属するクラスを示す教師ラベルとを対応付ける。例えば、サンプル画像データが顔写真データであり、教師ラベルが正解の顔認識結果である。また、例えば、サンプル画像データが手書き文字データであり、教師ラベルが正解の文字認識結果である。

ここで、訓練データは、個人情報など保護されるべき秘密情報を含むことがある。例えば、顔写真データと当該人物の名前との対応関係が、保護されるべき個人情報であることがある。分類モデル１３は、様々なサンプル画像データと教師ラベルとの間に成立する一般的な関係を表すため、個々の秘密情報を直接提供するものではない。しかし、サンプル画像データが入力された場合に、分類モデル１３が、正解クラスの確信度として非常に大きい数値を出力することがある。これは、サンプル画像データを推定するためのヒントを攻撃者に与えていることになる。よって、モデルインバージョン攻撃が成功して、訓練データに含まれる秘密情報が漏洩するリスクがある。

なお、情報処理装置１０によるモデルインバージョン攻撃の試行は、分類モデル１３の内部構造を知らなくても成立するブラックボックス攻撃として行うことが可能である。よって、情報処理装置１０は、分類モデル１３そのものを保持していなくてもよく、分類モデル１３にアクセス可能であればよい。例えば、情報処理装置１０は、分類モデル１３を公開している他の情報処理装置に画像データを送信し、画像データに対応する確信度を他の情報処理装置から受信するようにしてもよい。

変換モデル１４は、特徴値を画像データに変換する。変換モデル１４が出力する画像データは、分類モデル１３に入力可能なものである。入力される特徴値は、画像データよりも次元数が小さい。例えば、特徴値は、４８次元のベクトルである。変換モデル１４は、多層ニューラルネットワークであってもよい。また、変換モデル１４は、情報処理装置１０が生成してもよいし、他の情報処理装置から取得するようにしてもよい。

ここで、変換モデル１４は、様々な画像データの集合に対応する特徴値の集合が、特定の確率分布１５に従うように生成されている。確率分布１５は、正規分布であってもよい。例えば、確率分布１５は、特定の平均ベクトルおよび分散共分散行列によって規定される多変量正規分布である。確率分布１５は、１つの特徴値に対して、確率密度関数によって算出される１つの確率密度を割り当てる。ある特徴値の確率密度は、その特徴値から変換される画像データの出現確率を表していると言うこともできる。一般に、平均に近いほど確率密度が大きくなり、平均から遠いほど確率密度が小さくなる。

変換モデル１４は、変分オートエンコーダ（ＶＡＥ：Variational Auto Encoder）に含まれるデコーダであってもよい。例えば、情報処理装置１０は、分類モデル１３の機械学習に用いたサンプル画像データと同一または同種の画像データを収集する。情報処理装置１０は、収集した画像データを用いて、機械学習によって変分オートエンコーダを生成する。変分オートエンコーダは、画像データから特徴値を算出するエンコーダと、特徴値を画像データに復元するデコーダとを含む多層ニューラルネットワークである。エンコーダが、特徴値の平均および分散に相当するノードを含むため、エンコーダを通じて算出される特徴値の集合が、特定の確率分布にフィットすることが多い。

処理部１２は、以下のようにして、分類モデル１３に対してモデルインバージョン攻撃を試行する。処理部１２は、確率分布１５に基づいて特徴値１６（第１の特徴値）を抽出する。特徴値１６は、確率分布１５が示す確率密度に従ってランダムに抽出されてもよい。例えば、処理部１２は、０以上１以下の乱数を生成し、累積確率が乱数と一致するような特徴値を求める。これにより、確率密度が高い特徴値ほど抽出される可能性が高くなり、確率密度が低い特徴値ほど抽出される可能性が低くなる。

処理部１２は、特徴値１６を変換モデル１４に入力することで、特徴値１６を画像データ１７に変換する。処理部１２は、画像データ１７を分類モデル１３に入力することで、画像データ１７に対応する確信度１８を算出する。分類モデル１３が複数のクラスの確信度を算出する場合、サンプル画像データを推定する対象とするクラスを１つ決めておく。対象のクラスは、ユーザから指定されてもよい。なお、変換モデル１４は、分類モデル１３の前段に結合される。モデルインバージョン攻撃の試行では、変換モデル１４と分類モデル１３とが一体として運用され、中間データとしての画像データ１７を明示的に取り出さなくてもよい。よって、変換モデル１４と分類モデル１３とを結合したものを１つのモデルとみなして、モデルインバージョン攻撃を試行することが可能である。

処理部１２は、確率分布１５と特徴値１６と確信度１８とに基づいて、特徴値１９（第２の特徴値）を抽出し、特徴値１６を特徴値１９に更新する。特徴値１９は、分類モデル１３によって算出される確信度が、確信度１８よりも高くなるように抽出される。処理部１２は、最急降下法などの勾配法の探索アルゴリズムを用いてもよい。例えば、処理部１２は、特徴値の変化量に対する、確信度の変化量または確信度に応じた指標値の変化量の比率を、勾配として算出し、算出した勾配と特徴値１６とから特徴値１９を決定する。このとき、特徴値１６に対応する確率密度を、重み係数として確信度１８に乗じて指標値を求めるようにしてもよい。これにより、確率密度が高くなる方向に優先的に特徴値が探索され、出現確率が低い画像データの生成を抑制することができる。

処理部１２は、特徴値１９を変換モデル１４に入力する。処理部１２は、特徴値の更新と画像データの生成と確信度の算出とを繰り返すことで、確信度が高くなる特徴値を探索する。処理部１２は、確信度が十分に高い特徴値から変換される画像データを、モデルインバージョン攻撃によるサンプル画像データの推定結果とみなす。なお、処理部１２は、確率分布１５に従って、異なる複数の特徴値を初期値として抽出し、これら複数の特徴値それぞれに対して上記の繰り返しを実行するようにしてもよい。

上記のように、処理部１２は、確信度が高くなるような画像データを直接探索する代わりに、確率分布１５に従う特徴空間上の特徴値を探索することになる。勾配法の探索アルゴリズムを使用する場合、確信度の勾配は、画像データの画素値に対する勾配として算出される代わりに、特徴空間の特徴値に対する勾配として算出される。

なお、第１の実施の形態の情報処理装置１０による制御方法は、次のように表現することもできる。情報処理装置１０は、複数の画像データの特徴に応じた複数の値を特定の分布で含んでおり、複数の値それぞれに含まれる変数が複数の画像データそれぞれに含まれる変数よりも少ない値集合から、分布に従って何れかの値を抽出する。情報処理装置１０は、抽出した何れかの値を分類推定モデルへの入力値とした場合の分類推定モデルによる分類推定結果に含まれる分類の確信度のうち、特定の分類の確信度を取得する。情報処理装置１０は、分布と何れかの値とに基づいて、分類推定モデルへの入力値とした場合に分類推定モデルによる分類推定結果に含まれる特定の分類の確信度が、取得した確信度よりも高くなる値を生成する。「分類推定モデル」は、例えば、分類モデル１３の前段に変換モデル１４を結合したものに対応する。「特定の分布」は、例えば、確率分布１５に対応する。「変数」は、例えば、ベクトルに含まれる各次元の要素に対応する。「何れかの値」は、例えば、特徴値１６に対応する。「特定の分類の確信度」は、例えば、確信度１８に対応する。「取得した確信度より高くなる値」は、例えば、特徴値１９に対応する。

第１の実施の形態の情報処理装置１０によれば、確率分布１５に基づいて特徴値１６が抽出され、変換モデル１４および分類モデル１３を通じて確信度１８が算出される。そして、分類モデル１３によって算出される確信度が確信度１８よりも高くなるように、変換モデル１４に入力する特徴値が特徴値１６から特徴値１９に更新される。

画像データより次元数が小さく特定の確率分布をもつ特徴空間を利用することで、画像データの画素を直接修正する場合と比べて探索を効率化でき、分類モデル１３に画像データを入力するアクセス回数を削減することができる。また、訓練データに含まれるサンプル画像データと明らかに類似しない画像データを生成して分類モデル１３に入力してしまう可能性を低減でき、局所解に陥ってサンプル画像データの推定に失敗する可能性を低減できる。よって、分類モデル１３に対してモデルインバージョン攻撃を効率的に試行することができ、サンプル画像データの最大の再現度を精度よく評価することができる。その結果、分類モデル１３の攻撃耐性の評価精度を向上させることができる。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
第２の実施の形態の情報処理装置は、機械学習によって生成された分類モデルに対してモデルインバージョン攻撃を試行し、分類モデルの攻撃耐性を評価する。第２の実施の形態の情報処理装置は、クライアント装置でもよいしサーバ装置でもよい。

図２は、第２の実施の形態の情報処理装置のハードウェア例を示す図である。
第２の実施の形態の情報処理装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、画像インタフェース１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。情報処理装置１００が有するこれらのユニットは、バスに接続されている。情報処理装置１００は、第１の実施の形態の情報処理装置１０に対応する。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。ＣＰＵ１０１は複数のプロセッサコアを備えてもよく、情報処理装置１００は複数のプロセッサを備えてもよい。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。

ＲＡＭ１０２は、ＣＰＵ１０１が実行するプログラムやＣＰＵ１０１が演算に使用するデータを一時的に記憶する揮発性半導体メモリである。情報処理装置１００は、ＲＡＭ以外の種類のメモリを備えてもよく、複数のメモリを備えてもよい。

ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）など他の種類のストレージを備えてもよく、複数のストレージを備えてもよい。

画像インタフェース１０４は、ＣＰＵ１０１からの命令に従って、情報処理装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１として、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイ、プロジェクタなど、任意の種類の表示装置を使用することができる。情報処理装置１００に、プリンタなど表示装置１１１以外の出力デバイスが接続されてもよい。

入力インタフェース１０５は、情報処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２として、マウス、タッチパネル、タッチパッド、キーボードなど、任意の種類の入力デバイスを使用することができる。情報処理装置１００に複数種類の入力デバイスが接続されてもよい。

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１１３として、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤなどの磁気ディスク、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光ディスク、半導体メモリなど、任意の種類の記録媒体を使用することができる。媒体リーダ１０６は、例えば、記録媒体１１３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、ＣＰＵ１０１によって実行される。なお、記録媒体１１３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体１１３やＨＤＤ１０３を、コンピュータ読み取り可能な記録媒体と言うことがある。

通信インタフェース１０７は、ネットワーク１１４に接続され、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

次に、分類モデルについて説明する。
図３は、分類モデルの入出力例を示す図である。
機械学習によって分類モデル１４１が生成される。分類モデル１４１は、画像１４２を受け付け、確信度データ１４３を出力する学習済みモデルである。分類モデル１４１は、画像１４２を何れかのクラスに分類するものであり、画像認識に用いられる。第２の実施の形態では主に、人物の顔写真から人物の名前を判定する顔認識を想定する。

画像１４２は、格子状に並んだ画素値の集合である。画素値は、画素（ピクセル）の輝度を示す数値である。画像１４２は、多次元配列であるテンソルとして表現される。画像１４２がモノクロ画像である場合、画像１４２は、所定の高さと所定の幅とをもつ二次元配列である二階のテンソルとして表現される。画像１４２がカラー画像である場合、画像１４２は、所定の高さと所定の幅とＲＧＢ（Red Green Blue）に相当する３つのチャネルとをもつ三次元配列である三階のテンソルとして表現される。分類モデル１４１に入力される画像１４２の高さおよび幅は、予め所定の高さおよび幅に調整されている。分類モデル１４１には、高さ×幅×チャネル数に相当する個数の画素値が入力されることになる。この高さ×幅×チャネル数が、入力の次元数である。

確信度データ１４３は、複数のクラスに対応する複数の確信度を列挙した出力データである。複数のクラスは、画像種類である分類先クラスの候補である。顔認識の場合、複数のクラスは、異なる人物の名前である。あるクラスの確信度は、画像１４２が当該クラスに属する確からしさを示す数値である。確信度が高いほど画像１４２が当該クラスに属する可能性が高いことを意味し、確信度が低いほど画像１４２が当該クラスに属する可能性が低いことを意味する。各クラスの確信度は、０以上１以下の実数である。複数のクラスの確信度の合計は１となる。例えば、顔写真である画像１４２に対して、Ａｌｉｃｅの確信度が０．８０、Ｂｏｂの確信度が０．１０、Ｃａｒｏｌの確信度が０．１０のように判定される。この場合、画像１４２に写った人物がＡｌｉｃｅである可能性が高い。

分類モデル１４１は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）などの多層ニューラルネットワークである。一般に、畳み込みニューラルネットワークは、１以上の畳み込み層、１以上のプーリング層および１以上の全結合層を含む。

畳み込み層は、入力テンソルとカーネルと呼ばれるフィルタとの間で積和演算を行い、特徴マップと呼ばれる出力テンソルを生成する。典型的な畳み込み層では、カーネルの高さおよび幅が入力テンソルより小さく、出力テンソルの高さおよび幅が入力テンソルと同じか入力テンソルより小さい。畳み込み層は、カーネルを入力テンソルに重ね、重なったカーネルの要素と入力テンソルの要素との間でそれぞれ積を算出し、積を合算する。合算値は、カーネルの中心が重なった入力テンソルの要素に対応する出力テンソルの要素となる。畳み込み層は、入力テンソル上でカーネルをずらしながら積和演算を繰り返す。

プーリング層は、入力テンソルの中の連続する複数個（例えば、２×２＝４個）の要素を１つの要素に合成して、入力テンソルよりも高さおよび幅が小さい出力テンソルを生成する。プーリング演算には、複数個の要素の中から最大値を選択する最大プーリングや、複数個の要素の平均を算出する平均プーリングなどがある。全結合層は、入力テンソルの全ての要素の重み付き和として１つの数値を算出する。

上記の畳み込み演算、プーリング演算および全結合演算は、多層ニューラルネットワークとして実装される。多層ニューラルネットワークは、入力データを受け付ける入力層と、出力データを出力する出力層と、入力層と出力層との間にある１以上の中間層とを含む。１つの層にはニューロンに相当するノードが列挙され、隣接する層のノード間にはシナプスに相当するエッジが形成される。エッジには重みが割り当てられる。エッジの重みは、機械学習を通じて算出されるパラメータである。

分類モデル１４１の学習には、サンプル画像とクラスを示す教師ラベルとの組を複数セット含む訓練データが使用される。教師ラベルは、ユーザにより付与される。顔認識の場合、それぞれ人物の名前が付与された顔写真の集合が訓練データとして使用される。

分類モデル１４１が多層ニューラルネットワークである場合、例えば、エッジの重みの算出に誤差逆伝播法が用いられる。誤差逆伝播法では、サンプル画像の画素値が入力層のノードに対して入力され、前の層のノードの出力値に重みを乗じて次の層のノードに入力することが、入力層から出力層に向かって繰り返される。出力層の出力値と教師ラベルとが比較されて誤差が算出される。そして、出力層に近い方から順に、エッジの重みに対する誤差の勾配（偏微分）が算出され、誤差の勾配に基づいて重みが更新される。誤差の勾配は、出力層から入力層に向かって逆方向に伝播する。サンプル画像の入力と誤算の算出と重みの更新が、訓練データに含まれる多数のサンプル画像に対して繰り返される。このようにして、訓練データから分類モデル１４１が生成される。

ところで、分類モデル１４１の生成に用いられる訓練データには、個人情報など保護されるべき秘密情報が含まれることがある。例えば、顔写真と名前の組が、保護されるべき個人情報であることがある。この点、訓練データから生成された分類モデル１４１は、入力された画像に対応する確信度を出力するだけであり、訓練データに含まれるサンプル画像と教師ラベルとの組を直接提供するものではない。よって、訓練データを秘匿すれば、分類モデル１４１を公開しても秘密情報がすぐに漏洩するわけではない。

しかし、分類モデル１４１に対してモデルインバージョン攻撃を行うことで、特定のクラスの確信度に基づいて、当該クラスに対応するサンプル画像を推定することができる場合がある。これは、機械学習の性質上、訓練データに含まれるサンプル画像そのものが分類モデル１４１に入力されると、分類モデル１４１から出力される正解クラスの確信度が非常に高くなることがあるためである。モデルインバージョン攻撃によるサンプル画像の再現度が高いと、そのサンプル画像に関連する秘密情報が漏洩するリスクがある。

モデルインバージョン攻撃によるサンプル画像の再現度は、分類モデル１４１のモデル構造、訓練データの量、分類モデル１４１が予測しようとする事象の性質など、様々な要因に依存する。そこで、情報処理装置１００は、分類モデル１４１を公開する前に、分類モデル１４１のモデルインバージョン攻撃の耐性を評価する。

情報処理装置１００は、分類モデル１４１に対してモデルインバージョン攻撃を試行し、特定のクラスに対応するサンプル画像を、最大でどの程度まで再現できるか評価して、分類モデル１４１の攻撃耐性を評価する。再現度が低い場合、分類モデル１４１は攻撃耐性が高い（脆弱性が小さい）ことになり、再現度が高い場合、分類モデル１４１は攻撃耐性が低い（脆弱性が大きい）ことになる。攻撃耐性が低いと評価された場合、分類モデル１４１を公開するにあたって、秘密情報の漏洩リスクを下げるような施策を行うことが考えられる。例えば、分類モデル１４１が出力する確信度の分解能（有効桁数）を下げる、確信度を出力せずに確信度が最大のクラス名だけ出力するなどの対応策が考えられる。

ただし、どの様にモデルインバージョン攻撃を試行するかが問題となる。第２の実施の形態では、攻撃者が分類モデル１４１を入手できない状況を考慮して、分類モデル１４１の内部構造の情報を使用せずに分類モデル１４１の入出力を分析するブラックボックス攻撃を想定する。これは、分類モデル１４１そのものを配布せず、分類モデル１４１の機能をサービスとしてネットワーク上で公開することがあるためである。

ブラックボックス攻撃を前提とする単純な攻撃方法としては、ある画像を分類モデル１４１に入力して特定のクラスの確信度を取得し、確信度が高くなるように画像を更新することを、確信度が十分に高くなるまで繰り返す方法が考えられる。最急降下法などの勾配法の探索アルゴリズムを使用する場合、画像の画素値に対する確信度の勾配（確信度を画素値で偏微分したもの）を算出し、勾配に応じて画素値を更新することになる。

しかしながら、上記の単純な攻撃方法では、画像の次元数が大きく自由度が高いことから、十分に高い確信度を達成するには、画像を更新する回数が多くなり、分類モデル１４１に画像を入力するアクセスの回数が多くなってしまう。例えば、分類モデル１４１へのアクセス回数が数億回に達することがあり、アクセス１回当たりの所要時間が１ミリ秒であっても、推定完了まで数日を要することがある。また、最初に入力する初期画像が、真っ白な画像や真っ黒な画像など、所望のサンプル画像とは異質な画像である場合、更新後の画像が局所解に収束してしまうことがある。よって、確信度を極大化した画像がサンプル画像と大きく異なり、モデルインバージョン攻撃が失敗することがある。

この問題に対して、情報処理装置１００は、変分オートエンコーダを利用してモデルインバージョン攻撃を試行する。情報処理装置１００は、モデルインバージョン攻撃が、最大でどの程度の再現度で訓練データのサンプル画像を推定できるかを、効率的に評価する。よって、分類モデル１４１の攻撃耐性の評価精度が向上する。以下では、第２の実施の形態で使用する変分オートエンコーダについて説明する。

図４は、変分オートエンコーダの例を示す図である。
変分オートエンコーダ１５１は、オートエンコーダの一種である。オートエンコーダは、入力データと出力データとが等しくなるように機械学習によって生成される多層ニューラルネットワークである。オートエンコーダは、入力データを、入力データよりも次元数の小さいベクトルに圧縮し、ベクトルから出力データを復元する。ただし、変分オートエンコーダ１５１は、ベクトルの集合が特定の確率分布に従うように生成される。変分オートエンコーダ１５１は、エンコーダ１５２およびデコーダ１５３を含む。

エンコーダ１５２は、画像１５７の入力を受け付ける。エンコーダ１５２は、複数の層を含む多層ニューラルネットワークである。エンコーダ１５２の出力の次元数は、エンコーダ１５２の入力の次元数よりも小さい。例えば、エンコーダ１５２の各層の次元数が、入力から出力に向かって段階的に減少する。デコーダ１５３は、画像１５８を出力する。画像１５８の高さおよび幅は、画像１５７と同一である。画像１５８は、理想的には画像１５７と同一である。デコーダ１５３は、複数の層を含む多層ニューラルネットワークである。デコーダ１５３の出力の次元数は、デコーダ１５３の入力の次元数よりも大きい。例えば、デコーダ１５３の各層の次元数が、入力から出力に向かって段階的に増加する。

ここで、エンコーダ１５２とデコーダ１５３との間で、ベクトル１５５が算出される。ベクトル１５５は、画像１５７の特徴を低次元で表現したものである。ベクトル１５５の次元数は、例えば、４８次元である。ベクトル１５５を、潜在変数、特徴量、特徴ベクトルなどと言うこともある。ベクトル１５５は、潜在空間１５４にマッピングされる。潜在空間１５４は、４８次元空間などのベクトル空間である。

同種の画像の集合（例えば、顔写真の集合や手書き文字の集合）をエンコーダ１５２に入力すると、それら画像の集合に対応するベクトルの集合は、潜在空間１５４において、正規分布などの特定の確率分布をもつようになる。潜在空間１５４の確率分布は、例えば、ベクトル１５５を確率変数とし、特定の平均ベクトルおよび分散共分散行列によって規定される多変量正規分布である。ただし、正規分布以外の確率分布を仮定してもよい。ベクトルの集合の中での特定のベクトルの出現確率は、確率密度関数によって算出される確率密度によって近似される。通常、平均ベクトルに近いベクトルほど確率密度が大きく、平均ベクトルから離れたベクトルほど確率密度が小さい。

ベクトル１５５が特定の確率分布に従うようにするため、エンコーダ１５２は、入力された画像１５７に対して、平均ベクトル（μ）に相当する数値と分散共分散行列（Σ）に相当する数値とを算出する。エンコーダ１５２で算出された数値が表す確率分布から、ベクトル１５５を抽出するサンプリングが行われる。例えば、平均ベクトルが零ベクトル（０）であり分散共分散行列が単位行列Ｉである標準正規分布Ｎ（０，Ｉ）から、乱数１５６（乱数ε）が生成される。乱数１５６は、標準正規分布が示す確率密度に従ってランダムに抽出されたものである。分散共分散行列Σに乱数εを乗じて偏差を求め、平均ベクトルμと偏差を合算することでベクトル１５５が算出される。

機械学習による変分オートエンコーダ１５１の生成では、分類モデル１４１の機械学習に使用したサンプル画像と同一または同種の画像を収集する。訓練データそのものを入手できる場合、訓練データに含まれるサンプル画像を使用してもよい。ただし、実際のモデルインバージョン攻撃では、攻撃者は訓練データを入手できないため、攻撃耐性評価の観点からはサンプル画像と同種の画像を使用することが好ましい。例えば、分類モデル１４１が顔認証を行う場合、情報処理装置１００は、インターネット上で公開されている顔写真を収集する。また、例えば、分類モデル１４１が文字認識を行う場合、情報処理装置１００は、インターネット上で公開されている手書き文字を収集する。

情報処理装置１００は、収集した画像を、変分オートエンコーダ１５１の入力画像かつ出力画像として使用することで、変分オートエンコーダ１５１に含まれるパラメータを決定する。これにより、エンコーダ１５２およびデコーダ１５３に含まれるエッジの重みが決定される。エッジの重みは、例えば、前述の誤差逆伝播法によって更新される。

パラメータが決定されると、情報処理装置１００は、変分オートエンコーダ１５１の生成に用いた画像の集合をエンコーダ１５２に再び入力して、その画像の集合に対応するベクトルの集合を算出する。そして、情報処理装置１００は、ベクトルの集合から、平均ベクトルと分散共分散行列とを算出する。平均ベクトルは、次元毎にベクトルの要素を平均化したものである。分散共分散行列は、一辺の長さが次元数である正方行列である。分散共分散行列の対角成分は、各次元の要素の分散を表す。分散共分散行列の非対角成分は、異なる２つの次元の間の要素の共分散を表す。

情報処理装置１００は、様々な画像に対応するベクトルをプロットした潜在空間１５４の全体が、この平均ベクトルおよび分散共分散行列に応じた確率分布に従うものとみなす。仮定する確率分布は、例えば、多変量正規分布である。このようにして、変分オートエンコーダ１５１を生成することで、入力が特定の確率分布に従うデコーダ１５３を入手することができる。以下に説明するように、情報処理装置１００は、確信度が高くなるような画像を直接探索する代わりに、潜在空間１５４のベクトルを探索する。

次に、モデルインバージョン攻撃としての訓練データ推定方法を説明する。以下では、訓練データ推定方法として４通りの例を挙げる。
図５は、訓練データ推定の第１の例を示す図である。

第１の訓練データ推定方法では、情報処理装置１００は、変分オートエンコーダ１５１の生成の際に算出した確率分布に従って、潜在空間１５４からベクトル集合１６１を抽出する。情報処理装置１００は、確率密度が高いベクトルほど抽出されやすく、確率密度が低いベクトルほど抽出されずらくなるように、ランダムに複数のベクトルを抽出する。ベクトル集合１６１は、例えば、１６個のベクトルを含む。

情報処理装置１００は、ベクトル集合１６１に含まれるベクトルをそれぞれデコーダ１５３に入力して、ベクトル集合１６１に対応する画像集合１６２を生成する。画像集合１６２は、例えば、１６枚の画像を含む。情報処理装置１００は、画像集合１６２に含まれる画像をそれぞれ分類モデル１４１に入力して、確信度データ１６３を生成する。確信度データ１６３は、画像集合１６２に含まれる画像それぞれに対して、確信度の列を含む。確信度の列は、複数のクラスに対応する複数の確信度である。

情報処理装置１００は、特定の１つのクラスに着目し、着目するクラスの確信度を確信度データ１６３から抽出する。着目するクラスは、モデルインバージョン攻撃の試行にあたって予め１つ決めておく。例えば、着目するクラスがユーザから指定される。情報処理装置１００は、画像集合１６２に含まれる画像毎に、画素値を基準とする確信度の勾配、すなわち、確信度を画素値で偏微分したものを算出する。確信度の勾配は、画素値を微少量だけ変化させたときの確信度の変化量を示す。情報処理装置１００は、勾配に基づいて、確信度が高くなるように画像の画素値を更新する。例えば、情報処理装置１００は、勾配に所定の学習率λを乗じて更新量を算出し、更新量だけ画素値を変化させる。

ただし、人工的に画素値を変更した画像は、自然な画像になっていない可能性がある。そこで、情報処理装置１００は、画素値を変更した画像をノイズフィルタ１６４に入力して、画像からノイズを除去する。ノイズフィルタ１６４は、例えば、ノイズ除去オートエンコーダ（ＤＡＥ：Denoising Auto Encoder）である。ノイズ除去オートエンコーダは、ノイズを付加した画像を入力画像とし、ノイズを付加していない元の画像を出力画像として、機械学習により生成されるオートエンコーダである。更に、情報処理装置１００は、ノイズフィルタ１６４を通過した画像を鮮鋭化フィルタ１６５に入力する。鮮鋭化フィルタ１６５は、ラプラシアンフィルタなど、エッジを強調する画像フィルタである。ノイズフィルタ１６４を通過した画像は、ぼけた画像になりやすいためである。

鮮鋭化フィルタ１６５を通過した画像によって、画像集合１６２が更新される。情報処理装置１００は、分類モデル１４１による確信度データ１６３の生成と画像集合１６２の更新とを繰り返すループを実行する。情報処理装置１００は、ループのイテレーション回数が所定回数に達したときに、ループを停止してもよい。また、情報処理装置１００は、最大の確信度が閾値を超えたときにループを停止してもよい。また、情報処理装置１００は、確信度が上昇しなくなったときにループを停止してもよい。

情報処理装置１００は、それまでに算出された確信度のうち最大の確信度に対応する画像を、着目するクラスに対応するサンプル画像の推定結果として出力する。ただし、情報処理装置１００は、確信度が大きい方から複数個の画像を出力するようにしてもよく、確信度が閾値を超える全ての画像を出力するようにしてもよい。

第１の訓練データ推定方法では、画像集合１６２の初期値が、潜在空間１５４から確率分布に従ってベクトル集合１６１を抽出することで決定される。よって、明らかにサンプル画像と類似しない的外れな画像を分類モデル１４１に入力することが抑制される。このため、分類モデル１４１へのアクセス回数を削減して探索時間を短縮することが可能になると共に、最終的にサンプル画像に近い画像に到達できる可能性が高くなる。

図６は、訓練データ推定の第２の例を示す図である。
第２の訓練データ推定方法では、情報処理装置１００は、内側ループとして、第１の訓練データ推定方法と同様の処理を実行する。すなわち、情報処理装置１００は、ベクトル集合１６１を生成し、デコーダ１５３を用いてベクトル集合１６１を画像集合１６２に変換し、分類モデル１４１を用いて画像集合１６２から確信度データ１６３を生成する。そして、情報処理装置１００は、確信度が高くなるように画像集合１６２を更新する。

ここで、情報処理装置１００は、内側ループのイテレーション回数が所定回数に達する毎に外側ループを実行する。外側ループとして、情報処理装置１００は、画像集合１６２に含まれる最新の画像をそれぞれエンコーダ１５２に入力して、画像集合１６２に対応するベクトル集合１６６を生成する。画像集合１６２に含まれる画像が更新されているため、ベクトル集合１６６はベクトル集合１６１とは異なる。ただし、ベクトル集合１６６に含まれるベクトルの個数は、ベクトル集合１６１と同じであり、例えば、１６個である。

情報処理装置１００は、ベクトル集合１６６と確信度データ１６３とに基づいて、評価値データ１６７を生成する。評価値データ１６７は、ベクトル集合１６６に含まれるベクトルそれぞれの評価値を示す。情報処理装置１００は、着目するクラスの確信度そのものを評価値として用いてもよい。また、情報処理装置１００は、確率分布が示すベクトルの確率密度を正則化項とし、確信度と正則化項の積を評価値として用いてもよい。確率密度を正則化項とすることで、出現確率が高い自然な画像に対応するベクトルの評価が高くなりやすくなり、出現確率が低い不自然な画像に対応するベクトルの評価が低くなりやすくなる。また、情報処理装置１００は、後述するように、正則化項に上限値を設定し、上限値より大きい確率密度を上限値にクリップして正則化項として使用してもよい。

情報処理装置１００は、算出した評価値に基づいてベクトル集合１６１を更新する。例えば、情報処理装置１００は、ベクトル集合１６６に含まれるベクトルを評価値の降順にソートし、評価値が高い方から所定個または所定割合のベクトルを選択し、選択しなかったベクトルを削除する。または、情報処理装置１００は、各ベクトルが評価値の比の確率で選択されるように、ベクトル集合１６６からランダムに所定個または所定割合のベクトルを選択する。ここで選択したベクトルの集合が、次のベクトル集合１６１となる。この場合、ベクトル集合１６１に含まれるベクトルの個数が減少することになる。外側ループの繰り返しの間に、ベクトルの個数を段階的に減少させてもよい。

また、情報処理装置１００は、削除したベクトルの代わりに、潜在空間１５４から新たなベクトルを抽出してベクトル集合１６１に追加してもよい。外側ループの繰り返しの間、削除した分だけ新たなベクトルを補充することで、ベクトル集合１６１に含まれるベクトルの個数を一定数に維持してもよい。情報処理装置１００は、削除せずに残ったベクトルの近傍から新たなベクトルを抽出するようにしてもよい。例えば、情報処理装置１００は、残ったベクトルを中心とする標準偏差の小さい確率分布を定義し、その確率分布に従ってランダムに新たなベクトルを抽出する。ベクトル集合１６６から半分のベクトルを削除し、残ったベクトルの近傍から１つずつ新たなベクトルを抽出してもよい。

外側ループのイテレーション回数が閾値に達すると、訓練データ推定が完了する。情報処理装置１００は、それまでに算出された確信度（または、評価値）のうち最大の確信度（または、評価値）に対応する画像を、サンプル画像の推定結果として出力する。ただし、情報処理装置１００は、確信度（または、評価値）が大きい方から複数個の画像を出力してもよく、確信度（または、評価値）が閾値を超える全ての画像を出力してもよい。

第２の訓練データ推定方法では、途中段階において、評価値の小さいベクトルに対応する画像の更新が打ち切られる。よって、サンプル画像に到達できる可能性が低い無駄な画像探索が抑制される。また、画像の更新を打ち切ったベクトルの代わりに、評価値の高いベクトルの近傍ベクトルが初期値として追加されることがある。このため、分類モデル１４１へのアクセス回数を削減して探索時間を短縮することが可能になると共に、最終的にサンプル画像に近い画像に到達できる可能性が高くなる。

図７は、訓練データ推定の第３の例を示す図である。
第３の訓練データ推定方法は、第１の訓練データ推定方法と同様にシングルループの探索を行う。ただし、探索中に更新される探索対象が、画像集合１６２の代わりにベクトル集合１６１となる。第３の訓練データ推定方法では画像集合１６２は、デコーダ１５３から分類モデル１４１に渡される中間データであり、それ以外の用途をもたない。よって、分類モデル１４１の前段にデコーダ１５３を結合したものを、仮想的に１つのモデルとみなすことができる。この仮想的なモデルは、潜在空間１５４のベクトルを入力として受け付け、入力されたベクトルに対応する確信度を出力するものである。

情報処理装置１００は、ベクトル集合１６１を生成し、デコーダ１５３を用いてベクトル集合１６１を画像集合１６２に変換し、分類モデル１４１を用いて画像集合１６２から確信度データ１６３を生成する。デコーダ１５３と分類モデル１４１とを結合したモデルが、ベクトル集合１６１から確信度データ１６３を生成しているとも言える。

情報処理装置１００は、ベクトル集合１６１に含まれるベクトル毎に、ベクトルの要素を基準とする確信度の勾配、すなわち、確信度をベクトルの要素で偏微分したものを算出する。確信度の勾配は、ベクトルの要素を微少量だけ変化させたときの確信度の変化量を示す。ただし、情報処理装置１００は、確率分布が示すベクトルの確率密度を正則化項とし、確信度と正則化項の積の勾配を算出してもよい。また、情報処理装置１００は、後述するように、正則化項に上限値を設定し、上限値より大きい確率密度を上限値にクリップして正則化項として使用してもよい。情報処理装置１００は、勾配に基づいて、確信度が高くなるようにベクトルを更新する。例えば、情報処理装置１００は、勾配に所定の学習率λを乗じて更新量を算出し、更新量だけベクトルの要素を変化させる。

情報処理装置１００は、ループのイテレーション回数が所定回数に達したときに、ループを停止してもよい。また、情報処理装置１００は、最大の確信度（または、確信度と正則化項の積）が閾値を超えたときにループを停止してもよい。また、情報処理装置１００は、確信度（または、確信度と正則化項の積）が上昇しなくなったときにループを停止してもよい。情報処理装置１００は、それまでに算出された確信度（または、確信度と正則化項の積）のうち最大の確信度（または、確信度と正則化項の積）をもつベクトルに対応する画像を、サンプル画像の推定結果として出力する。ただし、情報処理装置１００は、確信度（または、確信度と正則化項の積）が大きい方から複数個のベクトルに対応する画像を出力するようにしてもよく、確信度（または、確信度と正則化項の積）が閾値を超える全てのベクトルに対応する画像を出力するようにしてもよい。

第３の訓練データ推定方法では、探索空間が、画素値の集合である画像空間に代えて、画像空間よりも次元数の小さい潜在空間１５４になる。よって、分類モデル１４１へのアクセス回数を削減して探索時間を短縮することが可能になる。また、特定の確率分布をもつ潜在空間１５４を利用することで、的外れな画像を分類モデル１４１に入力することが抑制され、最終的にサンプル画像に近い画像に到達できる可能性が高くなる。

図８は、訓練データ推定の第４の例を示す図である。
第４の訓練データ推定方法では、情報処理装置１００は、内側ループとして、第３の訓練データ推定方法と同様の処理を実行する。すなわち、情報処理装置１００は、ベクトル集合１６１を生成し、デコーダ１５３を用いてベクトル集合１６１を画像集合１６２に変換し、分類モデル１４１を用いて画像集合１６２から確信度データ１６３を生成する。そして、情報処理装置１００は、確信度（または、確信度と正則化項の積）が高くなるように、ベクトル集合１６１を更新する。

ここで、情報処理装置１００は、内側ループのイテレーション回数が所定回数に達する毎に、第３の訓練データ推定方法と同様に外側ループを実行する。ただし、探索対象が画像集合１６２でなくベクトル集合１６１であるため、エンコーダ１５２を使用しなくてよい。すなわち、情報処理装置１００は、ベクトル集合１６１と確信度データ１６３とに基づいて、評価値データ１６７を生成する。評価値データ１６７は、ベクトル集合１６１に含まれるベクトルそれぞれの評価値を示す。評価値は、確信度そのものであってもよいし、確信度と正則化項の積であってもよい。正則化項は、ベクトルの確率密度であってもよいし、確率密度を所定の上限値でクリップしたものであってもよい。

情報処理装置１００は、算出した評価値に基づいてベクトル集合１６１を更新する。例えば、情報処理装置１００は、評価値が高い方から所定個または所定割合のベクトルを選択し、選択しなかったベクトルを削除する。または、情報処理装置１００は、各ベクトルが評価値の比の確率で選択されるように、ベクトル集合１６１の中からランダムに所定個または所定割合のベクトルを選択し、選択しなかったベクトルを削除する。情報処理装置１００は、削除したベクトルの代わりに、潜在空間１５４から新たなベクトルを抽出してベクトル集合１６１に追加してもよい。例えば、情報処理装置１００は、削除せずに残ったベクトルの近傍から新たなベクトルを抽出する。ベクトル集合１６１から半分のベクトルを削除し、残ったベクトルの近傍から１つずつ新たなベクトルを抽出してもよい。

内側ループのイテレーション回数は、例えば、４回である。外側ループのイテレーション回数は、例えば、３回～６回である。外側ループのイテレーション回数が閾値に達すると、訓練データ推定が完了する。情報処理装置１００は、それまでに算出された確信度（または、評価値）のうち最大の確信度（または、評価値）に対応する画像を、サンプル画像の推定結果として出力する。ただし、情報処理装置１００は、確信度（または、評価値）が大きい方から複数個の画像を出力してもよく、確信度（または、評価値）が閾値を超える全ての画像を出力してもよい。

次に、確信度に乗じる正則化項について説明を補足する。
図９は、確率分布のクリッピング例を示す図である。
ベクトルの確率密度は、ベクトルを確率変数とする確率分布１７１によって規定される。一般に、平均に近いベクトルほど確率密度が大きく、平均から遠いベクトルほど確率密度が小さい。平均から非常に遠いベクトルに対応する画像は、分類モデル１４１が想定する入力とはかけ離れた画像であることが多い。例えば、分類モデル１４１が顔認識を行う場合に、平均から非常に遠いベクトルに対応する画像は、人物の顔を表していないことが多い。また、分類モデル１４１が文字認識を行う場合に、平均から非常に遠いベクトルに対応する画像は、手書き文字を表していないことが多い。

そこで、確率密度を正則化項として用いて、確信度に正則化項を乗じることで、確率分布１７１の平均に近い方向に優先的に探索が進むようにする。これにより、分類モデル１４１が想定する入力とかけ離れた画像を探索してしまうことを抑制できる。

ただし、平均に近すぎるベクトルに対応する画像は、様々なクラスの特徴を平均化した「平均的画像」になってしまう。平均的画像は、特定のクラスに対応するサンプル画像とは異なるものであり、モデルインバージョン攻撃の目的に沿わない。これに対して、確率密度そのものを正則化項として使用すると、ベクトルが平均にある程度近付いた後も、更に平均に近付く方向に優先的に探索が進んでしまい、平均に近付きすぎることがある。

そこで、確率分布１７１に対して上限値１７２を設定し、上限値１７２を用いて正則化項をクリッピングすることが考えられる。確率密度が上限値１７２以下である場合、元の確率密度を正則化項として使用し、確率密度が上限値１７２を超える場合、上限値１７２を正則化項として使用する。すなわち、正則化項を上限値１７２以下に制限する。これにより、ベクトルが確率分布１７１の平均に近付きすぎることを抑制できる。上限値１７２は、ユーザが指定してもよいし、３σ（標準偏差σの３倍）における確率密度を上限値１７２とするなど、情報処理装置１００が確率分布１７１から自動的に決定してもよい。

次に、情報処理装置１００の機能について説明する。
図１０は、情報処理装置の機能例を示すブロック図である。
情報処理装置１００は、分類モデル記憶部１２１、画像記憶部１２２、ＶＡＥ記憶部１２３および分析結果記憶部１２４を有する。これらの記憶部は、例えば、ＲＡＭ１０２またはＨＤＤ１０３の記憶領域を用いて実現される。また、情報処理装置１００は、ＶＡＥ生成部１３１、訓練データ推定部１３２および分析結果表示部１３８を有する。これらの処理部は、例えば、ＣＰＵ１０１が実行するプログラムを用いて実現される。

分類モデル記憶部１２１は、学習済みの分類モデル１４１を記憶する。分類モデル１４１は、情報処理装置１００が生成してもよいし、他の情報処理装置が生成してもよい。ただし、モデルインバージョン攻撃の試行にあたっては、分類モデル１４１にアクセス可能であればよく、情報処理装置１００が分類モデル１４１そのものを保持していなくてもよい。例えば、情報処理装置１００が、分類モデル１４１の機能を公開している他の情報処理装置に画像を送信し、他の情報処理装置から確信度を受信してもよい。

画像記憶部１２２は、分類モデル１４１の入力と同種の画像の集合を記憶する。画像記憶部１２２に記憶される画像は、例えば、インターネットから収集される。例えば、分類モデル１４１が顔認識モデルである場合、顔写真が収集される。分類モデル１４１が文字認識モデルである場合、手書き文字が収集される。

ＶＡＥ記憶部１２３は、学習済みの変分オートエンコーダ１５１を記憶する。変分オートエンコーダ１５１は、学習済みのエンコーダ１５２およびデコーダ１５３を含む。変分オートエンコーダ１５１は、情報処理装置１００において生成される。ただし、分類モデル１４１の入力の種類に応じた変分オートエンコーダ１５１が既に存在する場合、学習済みの変分オートエンコーダ１５１を情報処理装置１００が入手してもよい。また、ＶＡＥ記憶部１２３は、エンコーダ１５２とデコーダ１５３の間で算出されるベクトルの確率分布を示す情報を記憶する。また、ＶＡＥ記憶部１２３は、ベクトルの確率分布に対して設定された確率密度の上限値を示す情報を記憶する。

分析結果記憶部１２４は、分類モデル１４１のモデルインバージョン攻撃耐性を示す分析結果を記憶する。分析結果には、分類モデル１４１の機械学習に使用されたサンプル画像を推定した結果である１枚以上の推定画像が含まれる。

ＶＡＥ生成部１３１は、画像記憶部１２２に記憶された画像を変分オートエンコーダ１５１の入力かつ出力として用いて、機械学習により変分オートエンコーダ１５１を生成する。機械学習により、変分オートエンコーダ１５１に含まれるノード間のエッジの重みが決定される。ＶＡＥ生成部１３１は、エンコーダ１５２およびデコーダ１５３を含む変分オートエンコーダ１５１をＶＡＥ記憶部１２３に格納する。また、ＶＡＥ生成部１３１は、学習済みのエンコーダ１５２に、画像記憶部１２２に記憶された画像を入力して、画像の集合に対応するベクトルの集合を算出する。ＶＡＥ生成部１３１は、算出したベクトルの集合がもつ確率分布を特定し、確率分布を示す情報をＶＡＥ記憶部１２３に格納する。確率分布は、例えば、平均ベクトルと分散共分散行列とによって特定される。

訓練データ推定部１３２は、分類モデル記憶部１２１に記憶された分類モデル１４１に対して、モデルインバージョン攻撃を試行する。訓練データ推定部１３２は、モデルインバージョン攻撃により、分類モデル１４１の機械学習に使用されたサンプル画像を推定し、推定画像を含む分析結果を分析結果記憶部１２４に格納する。このとき、訓練データ推定部１３２は、前述の４通りの訓練データ推定方法の何れかを実行する。訓練データ推定部１３２は、エンコード部１３３、デコード部１３４、確信度算出部１３５、ベクトル選択部１３６および画像更新部１３７を有する。

エンコード部１３３は、ＶＡＥ記憶部１２３に記憶されたエンコーダ１５２に画像を入力し、入力した画像に対応するベクトルを算出する。エンコード部１３３は、第２の訓練データ推定方法で使用される。デコード部１３４は、ＶＡＥ記憶部１２３に記憶されたデコーダ１５３にベクトルを入力し、入力したベクトルに対応する画像を生成する。確信度算出部１３５は、分類モデル１４１に画像を入力し、入力した画像に対応する確信度を算出する。分類モデル１４１からは、複数のクラスに対応する複数の確信度が出力される。ただし、モデルインバージョン攻撃では、着目する１つのクラスに対応する１つの確信度が使用される。着目するクラスは、ユーザから指定される。

ベクトル選択部１３６は、確率分布の上限値を設定し、上限値を示す情報をＶＡＥ記憶部１２３に格納する。また、ベクトル選択部１３６は、ＶＡＥ記憶部１２３に記憶された確率分布の情報に基づいて、潜在空間１５４からベクトルの初期値を抽出する。第３の訓練データ推定方法および第４の訓練データ推定方法では、ベクトル選択部１３６は、確信度算出部１３５が算出する確信度を用いて勾配を算出し、勾配に基づいてベクトルを更新する。第２の訓練データ推定方法および第４の訓練データ推定方法では、ベクトル選択部１３６は、ベクトルの評価値を算出し、評価値に基づいてベクトルの削除や追加を行う。

画像更新部１３７は、確信度算出部１３５が算出する確信度を用いて勾配を算出し、勾配に基づいて画像を更新する。画像の更新では、予め用意したノイズフィルタ１６４および鮮鋭化フィルタ１６５が使用される。画像更新部１３７は、第１の訓練データ推定方法および第２の訓練データ推定方法で使用される。

分析結果表示部１３８は、分析結果記憶部１２４に記憶された分析結果を表示装置１１１に表示させる。例えば、分析結果表示部１３８は、推定画像を表示装置１１１に表示させる。なお、情報処理装置１００は、他の出力デバイスに分析結果を出力してもよく、他の情報処理装置に分析結果を送信してもよい。

図１１は、確率分布の情報の例を示す図である。
ＶＡＥ記憶部１２３は、潜在空間１５４の確率分布に関する情報として、平均ベクトル１２５、分散共分散行列１２６および確率密度上限１２７を記憶する。

平均ベクトル１２５は、多変量正規分布の平均を表す。平均ベクトル１２５は、エンコーダ１５２に様々な画像を入力して算出された様々なベクトルの平均である。分散共分散行列１２６は、多変量正規分布の分散を示す行列である。分散共分散行列１２６は、一辺の長さがベクトルの次元数に等しい正方行列である。分散共分散行列１２６の対角成分は、上記の様々なベクトルから算出される各次元の分散を示す。分散共分散行列１２６の非対角成分は、上記の様々なベクトルから算出される異なる２つの次元の共分散を示す。なお、変分オートエンコーダ１５１の生成に用いられた画像をエンコーダ１５２に入力することで算出されるベクトルが、多変量正規分布に従うと仮定される。

確率密度上限１２７は、平均ベクトル１２５および分散共分散行列１２６によって特定される多変量正規分布の確率密度の最大値よりも小さい上限値である。確率密度上限１２７は、ユーザから指定されてもよいし、特定された多変量正規分布から自動的に決定されてもよい。例えば、平均から３σ（標準偏差の３倍）だけ離れた位置にあるベクトルに対応する確率密度が、確率密度上限１２７として採用される。

図１２は、ベクトルテーブルの例を示す図である。
ベクトルテーブル１２８は、ベクトル選択部１３６によって保持される。ベクトルテーブル１２８は、ベクトルと確信度と確率密度と評価値とを対応付ける。ベクトルテーブル１２８に登録されるベクトルは、最新のベクトル集合１６１またはベクトル集合１６６に含まれるベクトルである。確信度は、分類モデル１４１によって算出される特定のクラスの確信度である。確率密度は、平均ベクトル１２５および分散共分散行列１２６によって特定される潜在空間１５４の確率分布における確率密度である。評価値は、確信度と正則化項の積である。正則化項は、例えば、確率密度を確率密度上限１２７でクリップしたものである。確率密度が確率密度上限１２７以下の場合、確率密度が正則化項になる。確率密度が確率密度上限１２７を超える場合、確率密度上限１２７が正則化項になる。

次に、訓練データ推定の手順について説明する。まず、前述の第４の訓練データ推定方法の手順を説明する。第３の訓練データ推定方法は、第４の訓練データ推定方法の外側ループを省略したものであるため、説明を省略する。その後、前述の第２の訓練データ推定方法の手順を説明する。第１の訓練データ推定方法は、第２の訓練データ推定方法の外側ループを省略したものであるため、説明を省略する。

図１３は、訓練データ推定の第１の手順例を示すフローチャートである。
（Ｓ１０）ＶＡＥ生成部１３１は、分類モデル１４１の入力と同種の画像を収集する。画像の種類としては、顔写真や手書き文字などが挙げられる。ＶＡＥ生成部１３１は、例えば、インターネットから画像を検索して収集するクローラプログラムを使用する。

（Ｓ１１）ＶＡＥ生成部１３１は、ステップＳ１０で収集した画像を用いて、機械学習により変分オートエンコーダ１５１を生成する。機械学習は、収集した画像を変分オートエンコーダ１５１の入力かつ出力に割り当てる教師なし学習である。変分オートエンコーダ１５１は、エンコーダ１５２およびデコーダ１５３を含む。

（Ｓ１２）ＶＡＥ生成部１３１は、ステップＳ１０で収集した画像を、ステップＳ１１で生成されたエンコーダ１５２に入力することで、ベクトルの集合を算出する。ベクトルの次元数は、例えば、４８次元である。ＶＡＥ生成部１３１は、ベクトルの集合を統計処理して、潜在空間１５４の確率分布を示す平均ベクトル１２５および分散共分散行列１２６を算出する。ベクトルの確率分布として、例えば、多変量正規分布が仮定される。

（Ｓ１３）ベクトル選択部１３６は、確率密度上限１２７を決定する。確率密度上限１２７は、ステップＳ１２で特定された確率分布の確率密度の最大値より小さい値である。例えば、ベクトル選択部１３６は、平均ベクトル１２５から標準偏差の所定倍だけ離れた位置における確率密度を算出し、その確率密度を確率密度上限１２７として採用する。

（Ｓ１４）ベクトル選択部１３６は、分類モデル１４１が確信度を出力する複数のクラスのうち、モデルインバージョン攻撃の対象とする対象クラスを選択する。対象クラスは、例えば、情報処理装置１００のユーザから指定される。

（Ｓ１５）ベクトル選択部１３６は、ステップＳ１２で算出された平均ベクトル１２５および分散共分散行列１２６が示す確率分布に従って、潜在空間１５４からランダムにｎ個のベクトルを抽出する。例えば、ｎ＝１６とする。

（Ｓ１６）デコード部１３４は、ｎ個のベクトルの中からベクトルを１つ選択する。
（Ｓ１７）デコード部１３４は、ステップＳ１６で選択したベクトルを、ステップＳ１１で生成されたデコーダ１５３に入力して画像に変換する。確信度算出部１３５は、変換された画像を分類モデル１４１に入力して、複数のクラスの確信度を算出する。

（Ｓ１８）ベクトル選択部１３６は、ステップＳ１２の確率分布に基づいて、ステップＳ１６で選択したベクトルの確率密度を算出する。ベクトル選択部１３６は、算出した確率密度とステップＳ１３で決定された確率密度上限１２７とを比較して、ベクトルに対応する正則化項を決定する。正則化項は、確率密度が確率密度上限１２７以下の場合は確率密度であり、確率密度が確率密度上限１２７を超える場合は確率密度上限１２７である。

（Ｓ１９）ベクトル選択部１３６は、ステップＳ１７で算出された複数のクラスの確信度のうち、ステップＳ１４で選択された対象クラスの確信度を抽出する。ベクトル選択部１３６は、抽出した確信度とステップＳ１８で決定された正則化項との積を算出し、ベクトルを基準として確信度と正則化項の積の勾配を算出する。勾配は、例えば、ベクトルの各次元の要素を微少量だけ変化させることで算出される。

（Ｓ２０）ベクトル選択部１３６は、ステップＳ１９で算出された勾配を用いて、ステップＳ１６で選択されたベクトルを更新する。例えば、ベクトル選択部１３６は、勾配に所定の学習率を乗じた分だけベクトルを変化させる。

（Ｓ２１）デコード部１３４は、ステップＳ１６においてｎ個のベクトルの全てを選択したか判断する。全てのベクトルを選択した場合はステップＳ２２に進み、未選択のベクトルがある場合はステップＳ１６に戻る。

図１４は、訓練データ推定の第１の手順例を示すフローチャート（続き）である。
（Ｓ２２）ベクトル選択部１３６は、ステップＳ１６～Ｓ２１のベクトル更新、すなわち、内側ループをＬ回繰り返したか判断する。例えば、Ｌ＝４である。ベクトル更新の連続イテレーション回数がＬ回に達した場合はステップＳ２３に進み、連続イテレーション回数がＬ回未満の場合はステップＳ１６に戻る。ステップＳ１６では、ｎ個のベクトルを１つずつ選択することが再度実行されることになる。

（Ｓ２３）ベクトル選択部１３６は、以下のステップＳ２４～Ｓ２７のベクトル入れ替え、すなわち、外側ループをＫ回繰り返したか判断する。例えば、Ｋ＝３～６である。ベクトル入れ替えのイテレーション回数がＫ回に達した場合はステップＳ２８に進み、イテレーション回数がＫ回未満の場合はステップＳ２４に進む。

（Ｓ２４）ベクトル選択部１３６は、最新のｎ個のベクトルそれぞれに対して評価値を算出する。評価値は、確信度と正則化項の積である。確信度と正則化項の積は、前述のステップＳ１７～Ｓ１９と同様の方法で算出される。

（Ｓ２５）ベクトル選択部１３６は、ステップＳ２４で算出された評価値に基づいて、最新のｎ個のベクトルを評価値の降順にソートする。
（Ｓ２６）ベクトル選択部１３６は、最新のｎ個のベクトルのうち評価値が低い半数のベクトル（下位ｎ／２個のベクトル）を削除する。

（Ｓ２７）ベクトル選択部１３６は、潜在空間１５４から、評価値が高い半数のベクトル（上位ｎ／２個のベクトル）の近傍のｎ／２個の新たなベクトルを抽出する。例えば、ベクトル選択部１３６は、上位ｎ／２個のベクトルそれぞれを中心として範囲の狭い（標準偏差の小さい）確率分布を定義する。ベクトル選択部１３６は、その確率分布に従ってランダムに新たなベクトルを抽出する。上位ｎ／２個のベクトルと追加したｎ／２個のベクトルとを合わせて、ｎ個のベクトルが用意される。そして、ステップＳ１６に進む。

（Ｓ２８）ベクトル選択部１３６は、確信度または評価値が高いベクトルを選択する。基準値として確信度を使用するか評価値を使用するかは、予め設定される。例えば、ベクトル選択部１３６は、確信度または評価値が最大のベクトルを選択する。

（Ｓ２９）デコード部１３４は、ステップＳ２８で選択したベクトルをデコーダ１５３に入力し、選択したベクトルから変換された画像を推定画像として生成する。推定画像は、指定されたクラスに対応するサンプル画像として推定したものである。

（Ｓ３０）分析結果表示部１３８は、推定画像を表示装置１１１に表示する。
なお、第３の訓練データ推定方法の場合、ステップＳ２３～Ｓ２７が省略される。ステップＳ２２がＹＥＳのときは、ステップＳ２８に進むことになる。

図１５は、訓練データ推定の第２の手順例を示すフローチャートである。
（Ｓ４０）ＶＡＥ生成部１３１は、分類モデル１４１の入力と同種の画像を収集する。
（Ｓ４１）ＶＡＥ生成部１３１は、ステップＳ１０で収集した画像を用いて、機械学習により変分オートエンコーダ１５１を生成する。変分オートエンコーダ１５１は、エンコーダ１５２およびデコーダ１５３を含む。

（Ｓ４２）ＶＡＥ生成部１３１は、ステップＳ４０で収集した画像を、ステップＳ４１で生成されたエンコーダ１５２に入力することで、ベクトルの集合を算出する。ＶＡＥ生成部１３１は、ベクトルの集合を統計処理して、潜在空間１５４の確率分布を示す平均ベクトル１２５および分散共分散行列１２６を算出する。

（Ｓ４３）ベクトル選択部１３６は、確率密度上限１２７を決定する。
（Ｓ４４）ベクトル選択部１３６は、分類モデル１４１が確信度を出力する複数のクラスのうち、モデルインバージョン攻撃の対象とする対象クラスを選択する。

（Ｓ４５）ベクトル選択部１３６は、ステップＳ４２で算出された平均ベクトル１２５および分散共分散行列１２６が示す確率分布に従って、潜在空間１５４からランダムにｎ個のベクトルを抽出する。例えば、ｎ＝１６とする。

（Ｓ４６）デコード部１３４は、ステップＳ４５で抽出されたｎ個のベクトルを、ステップＳ４１で生成されたデコーダ１５３にそれぞれ入力して、ｎ個の画像に変換する。
（Ｓ４７）確信度算出部１３５は、ｎ個の画像の中から画像を１つ選択する。

（Ｓ４８）確信度算出部１３５は、ステップＳ４７で選択した画像を分類モデル１４１に入力して、複数のクラスの確信度を算出する。
（Ｓ４９）画像更新部１３７は、ステップＳ４８で算出された複数のクラスの確信度のうち、ステップＳ４４で選択された対象クラスの確信度を抽出する。画像更新部１３７は、画像を基準として確信度の勾配を算出する。勾配は、例えば、ステップＳ４７で選択した画像の各画素値を微少量だけ変化させることで算出される。

（Ｓ５０）画像更新部１３７は、ステップＳ４９で算出された勾配を用いて、ステップＳ４７で選択された画像を更新する。例えば、画像更新部１３７は、勾配に所定の学習率を乗じた分だけ画素値を変化させる。更新後の画像をノイズフィルタ１６４に入力してノイズを除去し、更に鮮鋭化フィルタ１６５に入力して鮮鋭化する。

（Ｓ５１）確信度算出部１３５は、ステップＳ４７においてｎ個の画像の全てを選択したか判断する。全ての画像を選択した場合はステップＳ５２に進み、未選択の画像がある場合はステップＳ４７に戻る。

図１６は、訓練データ推定の第２の手順例を示すフローチャート（続き）である。
（Ｓ５２）ベクトル選択部１３６は、ステップＳ４７～Ｓ５１の画像更新、すなわち、内側ループをＬ回繰り返したか判断する。画像更新の連続イテレーション回数がＬ回に達した場合はステップＳ５３に進み、連続イテレーション回数がＬ回未満の場合はステップＳ４７に戻る。ステップＳ４７では、ｎ個の画像が再度１つずつ選択される。

（Ｓ５３）ベクトル選択部１３６は、以下のステップＳ５４～Ｓ６０のベクトル入れ替え、すなわち、外側ループをＫ回繰り返したか判断する。ベクトル入れ替えのイテレーション回数がＫ回に達した場合はステップＳ６１に進み、イテレーション回数がＫ回未満の場合はステップＳ５４に進む。

（Ｓ５４）エンコード部１３３は、最新のｎ個の画像を、ステップＳ４１で生成されたエンコーダ１５２にそれぞれ入力して、ｎ個のベクトルに変換する。
（Ｓ５５）ベクトル選択部１３６は、ステップＳ４２の確率分布に基づいて、ステップＳ５４で変換されたｎ個のベクトルそれぞれの確率密度を算出する。ベクトル選択部１３６は、算出した確率密度とステップＳ４３で決定された確率密度上限１２７とを比較して、ｎ個のベクトルそれぞれに対応する正則化項を決定する。正則化項は、確率密度が確率密度上限１２７以下の場合は確率密度であり、確率密度が確率密度上限１２７を超える場合は確率密度上限１２７である。

（Ｓ５６）ベクトル選択部１３６は、ｎ個のベクトルそれぞれに対して評価値を算出する。評価値は、確信度とステップＳ５５で算出された正則化項の積である。
（Ｓ５７）ベクトル選択部１３６は、ステップＳ５６で算出された評価値に基づいて、ｎ個のベクトルを評価値の降順にソートする。

（Ｓ５８）ベクトル選択部１３６は、ｎ個のベクトルのうち評価値が低い半数のベクトル（下位ｎ／２個のベクトル）を削除する。
（Ｓ５９）ベクトル選択部１３６は、潜在空間１５４から、評価値が高い半数のベクトル（上位ｎ／２個のベクトル）の近傍のｎ／２個の新たなベクトルを抽出する。上位ｎ／２個のベクトルと追加したｎ／２個のベクトルとを合わせて、ｎ個のベクトルとなる。

（Ｓ６０）デコード部１３４は、ステップＳ５９のｎ個のベクトルをデコーダ１５３にそれぞれ入力して、ｎ個の画像に変換する。そして、ステップＳ４７に進む。
（Ｓ６１）画像更新部１３７は、確信度または評価値が高い画像を推定画像として選択する。基準値として確信度を使用するか評価値を使用するかは、予め設定される。例えば、画像更新部１３７は、確信度または評価値が最大の画像を選択する。

（Ｓ６２）分析結果表示部１３８は、推定画像を表示装置１１１に表示する。
なお、第１の訓練データ推定方法の場合、ステップＳ５３～Ｓ６０が省略される。ステップＳ５２がＹＥＳのときは、ステップＳ６１に進むことになる。

第２の実施の形態の情報処理装置１００によれば、学習済みの分類モデル１４１に対してモデルインバージョン攻撃が試行され、分類モデル１４１の機械学習に使用されたサンプル画像がどの程度の再現度で推定されるかが確認される。よって、訓練データに個人情報などの秘密情報が含まれている場合において、分類モデル１４１の公開前にその攻撃耐性を評価することができる。このため、意図しない情報漏洩を抑制することができ、分類モデル１４１に関するセキュリティを向上させることができる。

また、分類モデル１４１の入力と同種の画像から変分オートエンコーダ１５１が生成され、変分オートエンコーダ１５１に含まれるデコーダ１５３を用いて、分類モデル１４１に入力する初期画像が生成される。デコーダ１５３の入力のベクトルは、正規分布などの特定の確率分布をもつ。よって、確率分布に従ってベクトルを選択することで、分類モデル１４１の入力として自然な初期画像を生成することができる。このため、探索が収束するために要する分類モデル１４１のアクセス回数を削減することができると共に、最終的にサンプル画像に近い画像に到達できる可能性が高くなる。

また、１つの態様では、探索空間が画像空間からベクトル空間に変更され、画像に対する確信度の勾配が算出されて画像が直接更新される代わりに、ベクトルに対する確信度の勾配が算出されてベクトルが更新される。ベクトル空間は画像空間よりも次元数が小さい。よって、分類モデル１４１のアクセス回数を削減することができる。また、１つの態様では、評価値の低いベクトルが途中で候補から除外され、その代わりに評価値の高いベクトルの近傍ベクトルが候補に追加される。よって、サンプル画像に到達できる可能性が低い無駄な探索を抑制して、分類モデル１４１のアクセス回数を削減することがきる。

また、１つの態様では、確信度そのものに代えて、確信度にベクトルの確率密度を乗じた指標値が使用される。よって、確信度を高くする探索が局所解に陥ってしまい、分類モデル１４１の入力として不自然な画像を探索してしまうことを抑制できる。また、１つの態様では、確率密度の上限値を設定し、確率密度を上限値でクリップしたものを確信度に乗じるようにする。よって、探索が過度に平均的画像に近付くことを抑制でき、特定のクラスに対応するサンプル画像に近い画像に到達できる可能性が高くなる。その結果、分類モデル１４１に対して現実的な時間内でモデルインバージョン攻撃を効率的に試行することができ、分類モデル１４１の攻撃耐性の評価精度を向上させることができる。

上記については単に本発明の原理を示すものである。更に、多数の変形や変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応する全ての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

１０情報処理装置
１１記憶部
１２処理部
１３分類モデル
１４変換モデル
１５確率分布
１６，１９特徴値
１７画像データ
１８確信度

Claims

コンピュータが、
入力の画像データから、前記入力の画像データが特定のクラスに属する可能性を示す確信度を算出する分類モデルと、前記入力の画像データよりも次元数の小さい入力の特徴値を、前記入力の画像データに変換するモデルであって、画像データの集合に対応する特徴値の集合が特定の確率分布に従うように生成された変換モデルと、を取得し、
前記特定の確率分布に基づいて第１の特徴値を抽出し、
前記変換モデルを用いて前記第１の特徴値を第１の画像データに変換し、前記分類モデルを用いて前記第１の画像データに対応する第１の確信度を算出し、
前記特定の確率分布が示す前記第１の特徴値に対応する第１の確率密度を用いて重み係数を算出し、前記第１の確信度と前記重み係数との積を用いて、前記分類モデルによって算出される確信度が前記第１の確信度よりも高くなるように、前記変換モデルに入力する特徴値を前記第１の特徴値から第２の特徴値に更新する、
制御方法。
前記コンピュータが更に、
前記入力の画像データを前記入力の特徴値に変換するエンコーダと、前記入力の特徴値を前記入力の画像データに変換するデコーダと、を含む変分オートエンコーダを生成し、前記デコーダを前記変換モデルとして使用する、
請求項１記載の制御方法。
前記コンピュータが更に、
前記特定の確率分布が示す確率密度の最大値より小さい上限値を設定し、
前記第２の特徴値への更新では、前記第１の確率密度が前記上限値以下である場合、前記第１の確率密度を前記重み係数として使用し、前記第１の確率密度が前記上限値を超える場合、前記上限値を前記重み係数として使用する、
請求項１記載の制御方法。
コンピュータが、
入力の画像データから、前記入力の画像データが特定のクラスに属する可能性を示す確信度を算出する分類モデルと、前記入力の画像データよりも次元数の小さい入力の特徴値を、前記入力の画像データに変換するモデルであって、画像データの集合に対応する特徴値の集合が特定の確率分布に従うように生成された変換モデルと、を取得し、
前記特定の確率分布に基づいて複数の第１の特徴値を抽出し、
前記変換モデルを用いて前記複数の第１の特徴値それぞれを第１の画像データに変換し、前記分類モデルを用いて前記第１の画像データに対応する第１の確信度を算出し、
前記特定の確率分布および前記複数の第１の特徴値に基づいて、前記分類モデルによって算出される確信度が前記第１の確信度よりもそれぞれ高くなるように、前記変換モデルに入力する特徴値を前記複数の第１の特徴値から複数の第２の特徴値に更新し、
前記複数の第２の特徴値それぞれから算出された第２の確信度に基づいて、前記複数の第２の特徴値それぞれの評価値を算出し、
前記評価値に基づいて、前記複数の第２の特徴値のうち少なくとも１つの第２の特徴値を選択し、前記少なくとも１つの第２の特徴値から所定範囲内にある他の第２の特徴値を抽出して、前記変換モデルに入力する特徴値として追加する、
制御方法。
入力の画像データから、前記入力の画像データが特定のクラスに属する可能性を示す確信度を算出する分類モデルと、前記入力の画像データよりも次元数の小さい入力の特徴値を、前記入力の画像データに変換するモデルであって、画像データの集合に対応する特徴値の集合が特定の確率分布に従うように生成された変換モデルと、を記憶する記憶部と、
前記特定の確率分布に基づいて第１の特徴値を抽出し、前記変換モデルを用いて前記第１の特徴値を第１の画像データに変換し、前記分類モデルを用いて前記第１の画像データに対応する第１の確信度を算出し、前記特定の確率分布が示す前記第１の特徴値に対応する第１の確率密度を用いて重み係数を算出し、前記第１の確信度と前記重み係数との積を用いて、前記分類モデルによって算出される確信度が前記第１の確信度よりも高くなるように、前記変換モデルに入力する特徴値を前記第１の特徴値から第２の特徴値に更新する処理部と、
を有する情報処理装置。
コンピュータに、
入力の画像データから、前記入力の画像データが特定のクラスに属する可能性を示す確信度を算出する分類モデルと、前記入力の画像データよりも次元数の小さい入力の特徴値を、前記入力の画像データに変換するモデルであって、画像データの集合に対応する特徴値の集合が特定の確率分布に従うように生成された変換モデルと、を取得し、
前記特定の確率分布に基づいて第１の特徴値を抽出し、
前記変換モデルを用いて前記第１の特徴値を第１の画像データに変換し、前記分類モデルを用いて前記第１の画像データに対応する第１の確信度を算出し、
前記特定の確率分布が示す前記第１の特徴値に対応する第１の確率密度を用いて重み係数を算出し、前記第１の確信度と前記重み係数との積を用いて、前記分類モデルによって算出される確信度が前記第１の確信度よりも高くなるように、前記変換モデルに入力する特徴値を前記第１の特徴値から第２の特徴値に更新する、
処理を実行させる制御プログラム。
コンピュータが、
複数の画像データの特徴に応じた複数の値を特定の分布で含んでおり、前記複数の値それぞれに含まれる変数が前記複数の画像データそれぞれに含まれる変数よりも少ない値集合から、前記分布に従って何れかの値を抽出し、
抽出した前記何れかの値を分類推定モデルへの入力値とした場合の前記分類推定モデルによる分類推定結果に含まれる分類の確信度のうち、特定の分類の確信度を取得し、
前記分布が示す前記何れかの値に対応する確率密度を用いて重み係数を算出し、取得した前記確信度と前記重み係数との積を用いて、前記分類推定モデルへの入力値とした場合に前記分類推定モデルによる分類推定結果に含まれる前記特定の分類の確信度が、取得した前記確信度よりも高くなる値を生成する、
制御方法。