JP2022072841A

JP2022072841A - モデル評価システム、モデル評価方法及びモデル評価プログラム

Info

Publication number: JP2022072841A
Application number: JP2020182500A
Authority: JP
Inventors: 裕也根本; Yuya Nemoto
Original assignee: Mizuho Research and Technologies Ltd
Current assignee: Mizuho Research and Technologies Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-05-17
Anticipated expiration: 2040-10-30
Also published as: JP7085605B2

Abstract

【課題】学習済みモデルを評価するためのモデル評価システム、モデル評価方法及びモデル評価プログラムを提供する。【解決手段】支援サーバ２０は、学習済みモデルを記録する評価対象記憶部２２と、学習済みモデルを用いて認識結果を出力する制御部２１とを備える。そして、制御部２１が、複数のサンプルコンテンツを生成し、各サンプルコンテンツを、評価対象記憶部２２に記録された学習済みモデルに入力して、サンプルコンテンツの認識結果の確からしさを取得し、確からしさに応じたサンプルコンテンツを用いて、学習済みモデルにおける特徴コンテンツに関する評価結果を出力する。【選択図】図１

Description

本発明は、機械学習により生成された学習済みモデルの評価を支援するモデル評価システム、モデル評価方法及びモデル評価プログラムに関する。

近年、深層学習を利用して生成した学習済みモデルを用いて、画像等のコンテンツを、コンピュータによって認識する技術が利用されている。しかしながら、学習済みモデルは、ブラックボックスでの判断になるため、コンピュータが、コンテンツをどのように認識するかについて、判断の根拠の説明が難しい。このため、判断根拠が不明な状況での運用は困難な場合もある。

そこで、判断根拠を説明するための技術も検討されている（非特許文献１、２）。非特許文献１に記載された技術では、ＣＮＮベースのモデルの大規模なクラスからの決定に対して「視覚的な説明」を作成し、それらをより透明にする。ここでは、任意のターゲットコンセプトの勾配を使用して、最終的な畳み込み層に流し込み、画像内の重要な領域を強調する粗いローカリゼーションマップを生成して、コンセプトを予測する。

また、非特許文献２に記載された技術では、予測を中心に解釈可能なモデルを局所的に学習することにより、分類器の予測を解釈可能に説明するＬＩＭＥ（Local Interpretable Model-agnostic Explainations）を用いる。

コーネル大学、２０１６年１０月７日、Ramprasaath R.他、「Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization」、［online］、arxiv.orgサイト、［令和２年９月２２日検索］、インターネット＜https://arxiv.org/pdf/1610.02391.pdf＞コーネル大学、２０１６年２月１６日、Marco Tulio Ribeiro他、「"Why Should I Trust You":Explaining the Predictions of Any Classifier」、［online］、arxiv.orgサイト、［令和２年９月２２日検索］、インターネット＜https://arxiv.org/pdf/1602.04938.pdf＞

しかしながら、非特許文献１に記載された技術では、深層学習の内部に手を加えているため、既に学習された学習済みモデルには適用できない。また、非特許文献１、２に記載された技術では、着目している領域しか分からない。また、いずれの技術も、画像を人が用意しているため、恣意性を排除できない。

上記課題を解決するモデル評価システムは、学習済みモデルを記録する評価対象記憶部と、前記学習済みモデルを用いて認識結果を出力する制御部とを備える。そして、前記制御部が、複数のサンプルコンテンツを生成し、前記各サンプルコンテンツを、前記評価対象記憶部に記録された学習済みモデルに入力して、前記サンプルコンテンツの認識結果の確からしさを取得し、前記確からしさに応じた前記サンプルコンテンツを用いて、前記学習済みモデルにおける特徴コンテンツに関する評価結果を出力する。

本発明によれば、機械学習により生成された学習済みモデルを評価することができる。

第１実施形態のモデル評価システムの説明図。第１実施形態のハードウェア構成の説明図。第１実施形態の処理手順の説明図。第１実施形態の白黒画像の説明図。第２実施形態の処理手順の説明図。第２実施形態のマスキングの説明図。第２実施形態のクラスタリングの説明図。

（第１実施形態）
図１～図４に従って、モデル評価システム、モデル評価方法及びモデル評価プログラムの第1実施形態を説明する。本実施形態では、教師情報を用いた機械学習により生成され、所定のコンテンツ（画像）を入力して認識結果（テキスト）を出力する学習済みモデルを評価する。
図１に示すように、本実施形態のモデル評価システムは、ネットワークを介して接続されたユーザ端末１０、支援サーバ２０を用いる。

（ハードウェア構成例）
図２は、ユーザ端末１０、支援サーバ２０等として機能する情報処理装置Ｈ１０のハードウェア構成例である。

情報処理装置Ｈ１０は、通信装置Ｈ１１、入力装置Ｈ１２、表示装置Ｈ１３、記憶装置Ｈ１４、プロセッサＨ１５を有する。なお、このハードウェア構成は一例であり、他のハードウェアを有していてもよい。

通信装置Ｈ１１は、他の装置との間で通信経路を確立して、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースや無線インタフェース等である。

入力装置Ｈ１２は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置Ｈ１３は、各種情報を表示するディスプレイやタッチパネル等である。

記憶装置Ｈ１４は、ユーザ端末１０、支援サーバ２０の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶装置Ｈ１４の一例としては、ＲＯＭ、ＲＡＭ、ハードディスク等がある。

プロセッサＨ１５は、記憶装置Ｈ１４に記憶されるプログラムやデータを用いて、ユーザ端末１０、支援サーバ２０における各処理（例えば、後述する制御部２１における処理）を制御する。プロセッサＨ１５の一例としては、例えばＣＰＵやＭＰＵ等がある。このプロセッサＨ１５は、ＲＯＭ等に記憶されるプログラムをＲＡＭに展開して、各種処理に対応する各種プロセスを実行する。例えば、プロセッサＨ１５は、ユーザ端末１０、支援サーバ２０のアプリケーションプログラムが起動された場合、後述する各処理を実行するプロセスを動作させる。

プロセッサＨ１５は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサＨ１５は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路（例えば、特定用途向け集積回路：ＡＳＩＣ）を備えてもよい。すなわち、プロセッサＨ１５は、（１）コンピュータプログラム（ソフトウェア）に従って動作する１つ以上のプロセッサ、（２）各種処理のうち少なくとも一部の処理を実行する１つ以上の専用のハードウェア回路、或いは（３）それらの組み合わせ、を含む回路（circuitry）として構成し得る。プロセッサは、ＣＰＵ並びに、ＲＡＭ及びＲＯＭ等のメモリを含み、メモリは、処理をＣＰＵに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。

（各情報処理装置の機能）
図１のユーザ端末１０は、学習済みモデルを評価する担当者が利用するコンピュータ端末である。

支援サーバ２０は、学習済みモデルの評価を支援するためのコンピュータシステムである。この支援サーバ２０は、制御部２１、評価対象記憶部２２、特徴情報記憶部２３を備えている。

この制御部２１は、後述する処理（画像加工段階、予測段階、評価段階、クラスタ分析段階等を含む処理）を行なう。このためのモデル評価プログラムを実行することにより、制御部２１は、画像加工部２１１、予測部２１２、評価部２１３、クラスタ分析部２１４等として機能する。

画像加工部２１１は、評価に用いる画像を調整する処理を実行する。画像加工部２１１は、特徴コンテンツ生成処理を終了する終了条件に関するデータを保持している。終了条件としては、例えば、特徴情報記憶部２３に記録された特徴画像の数が所定数になった場合を用いることができる。

予測部２１２は、学習済みモデルを用いて、予測結果を出力する処理を実行する。
評価部２１３は、学習済みモデルを評価する処理を実行する。評価部２１３は、学習済みモデルにより出力された確からしさと比較するための基準値に関するデータを保持している。

クラスタ分析部２１４は、クラスタリング処理より、特徴画像のグループ分けを行なう処理を実行する。このクラスタリング処理には、例えば、認識結果と特徴画像とを用いたｋ平均法を用いることができるが、ｋ平均法に限定されるものではない。

評価対象記憶部２２には、評価対象の学習済みモデルが記録される。この学習済みモデルは、ユーザ端末１０から、評価対象の学習済みモデルを取得した場合に記録される。本実施形態では、評価対象の学習済みモデルとして、深層学習によって生成された予測モデル（ネットワーク）であって、画像に含まれるテキストを認識する文字認識モデルを用いる。ここで、画像に含まれるテキストとしては、例えば、数字「５」を用いることができる。

特徴情報記憶部２３には、特徴画像管理レコードが記録される。この特徴画像管理レコードは、特徴コンテンツ生成処理を実行した場合に記録される。特徴画像管理レコードには、特徴画像及び認識結果に関するデータが記録される。

特徴画像データ領域には、認識文字の確からしさが基準値以上となった特徴画像（特徴コンテンツ）に関するデータが記録される。
認識結果データ領域には、特徴画像を、基準値以上の確からしさで認識した文字に関するデータが記録される。例えば、画像において基準値以上の確からしさで「５」を認識した場合、認識結果として数字「５」が記録される。

次に、上記のように構成されたシステムにおいて、学習済みモデルを評価する処理手順を説明する。
（特徴コンテンツ生成処理）
まず、図３を用いて、特徴コンテンツ生成処理を説明する。

ここでは、支援サーバ２０の制御部２１は、白黒画像の生成処理を実行する（ステップＳ１０１）。具体的には、制御部２１の画像加工部２１１は、ユーザ端末１０から、学習済みモデルを取得し、評価対象記憶部２２に記録する。そして、画像加工部２１１は、任意の白黒画像（サンプルコンテンツ）を生成する。例えば、所定のサイズのビットマップにおいて、ランダムに白ピクセル及び黒ピクセルを配置した白黒画像を生成する。
例えば、図４に示すように、白黒画像５００を生成する場合を想定する。

次に、支援サーバ２０の制御部２１は、ランダムにピクセル選定処理を実行する（ステップＳ１０２）。具体的には、制御部２１の画像加工部２１１は、生成した白黒画像において、ランダムにピクセルを選択する。本実施形態では、ステップＳ１０１において生成した白黒画像のビットマップにおいて、１つのピクセルを選択する。
例えば、図４において、白黒画像５００のピクセル５０１を選定する。

次に、支援サーバ２０の制御部２１は、ピクセル反転処理を実行する（ステップＳ１０３）。具体的には、制御部２１の画像加工部２１１は、選択したピクセルの白黒を反転させる。これにより、選択したピクセルが白ピクセルの場合には黒ピクセルに反転させ、黒ピクセルの場合には白ピクセルに反転させた白黒画像（サンプルコンテンツ）が生成される。
ここでは、図４において、黒のピクセル５０１を白に白黒反転することにより、白黒画像５１０が生成される。

次に、支援サーバ２０の制御部２１は、予測処理を実行する（ステップＳ１０４）。具体的には、制御部２１の予測部２１２は、生成した白黒画像５１０を、評価対象記憶部２２の学習済みモデルに入力する。そして、予測部２１２は、学習済みモデルによって出力された認識結果と確からしさを取得する。

次に、支援サーバ２０の制御部２１は、確からしさが基準値以上かどうかについての判定処理を実行する（ステップＳ１０５）。具体的には、制御部２１の予測部２１２は、学習済みモデルにより出力された確からしさと基準値とを比較する。

確からしさが基準値以上と判定した場合（ステップＳ１０５において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、特徴画像の登録処理を実行する（ステップＳ１０６）。具体的には、制御部２１の画像加工部２１１は、学習済みモデルに入力した白黒画像を特徴画像として、認識結果と関連付けた特徴画像管理レコードを生成し、特徴情報記憶部２３に記録する。

一方、確からしさが基準値未満と判定した場合（ステップＳ１０５において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、特徴画像の登録処理（ステップＳ１０６）をスキップする。

次に、支援サーバ２０の制御部２１は、終了かどうかについての判定処理を実行する（ステップＳ１０７）。具体的には、制御部２１の画像加工部２１１は、同じ認識結果の特徴画像管理レコードのレコード数をカウントする。そして、レコード数が終了条件を満足している場合には、終了と判定する。

レコード数が終了条件を満足しておらず、終了でないと判定した場合（ステップＳ１０７において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、ランダムにピクセル選定処理（ステップＳ１０２）以降の処理を繰り返す。
例えば、図４に示すように、白黒画像５１０において、ピクセル５０２を選定し、白黒反転することにより、白黒画像５２０が生成される。

一方、終了と判定した場合（ステップＳ１０７において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、特徴画像の取得処理を実行する（ステップＳ１０８）。具体的には、制御部２１のクラスタ分析部２１４は、特徴情報記憶部２３から、すべての特徴画像管理レコードを抽出し、特徴画像管理レコードに記録された特徴画像を取得する。

次に、支援サーバ２０の制御部２１は、特徴画像のクラスタリング処理を実行する（ステップＳ１０９）。具体的には、制御部２１のクラスタ分析部２１４は、特徴画像をクラスタリング処理により、グループ分けを行なう。

次に、支援サーバ２０の制御部２１は、クラスタリング結果の出力処理を実行する（ステップＳ１１０）。具体的には、制御部２１の評価部２１３は、クラスタリングにより生成した各グループの特徴画像を、ユーザ端末１０に出力する。

本実施形態によれば、以下のような効果を得ることができる。
（１－１）本実施形態においては、支援サーバ２０の制御部２１は、ランダムにピクセル選定処理（ステップＳ１０２）、ピクセル反転処理（ステップＳ１０３）、予測処理（ステップＳ１０４）を実行する。これにより、画像を部分的に変化させながら、確からしさを算出して、学習済みモデルを評価することができる。

（１－２）本実施形態においては、支援サーバ２０の制御部２１は、確からしさが基準値以上かどうかについての判定処理を実行する（ステップＳ１０５）。そして、確からしさが基準値以上と判定した場合（ステップＳ１０５において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、特徴画像の登録処理を実行する（ステップＳ１０６）。これにより、確からしさに応じて、認識結果を出力する特徴的な画像を探すことができる。

（１－３）本実施形態においては、支援サーバ２０の制御部２１は、特徴画像のクラスタリング処理を実行する（ステップＳ１０９）。これにより、認識結果に対して、複数の特徴画像を取得した場合にも、クラスタリングによってグループ毎にまとめた特徴を出力することができる。

（第２実施形態）
次に、モデル評価システム、モデル評価方法及びモデル評価プログラムの第２実施形態を説明する。第１実施形態では、特徴情報記憶部２３に記録された特徴画像についてクラスタリングを行なう。第２実施形態では、特徴画像において特徴的な領域（特徴領域）を特定してクラスタリングを行なうように変更した特徴領域評価処理を実行する。なお、上記第１実施形態と同様の部分については、同一の符号を付し、その詳細な説明を省略する。

この場合、制御部２１の画像加工部２１１は、特徴画像の一部のマスキングを行なう処理を実行する。そして、画像加工部２１１は、マスキング処理の要否を判定するための要否判定条件に関するデータを保持している。要否判定条件として、例えば、各特徴画像の類似性を評価した分散値を用いることができる。この場合、分散値が要否基準値内の場合には、マスク処理は不要と判定する。

更に、特徴情報記憶部２３には、特徴領域管理レコードを記録する。特徴領域管理レコードは、特徴領域評価処理を実行した場合に記録される。特徴領域管理レコードには、特徴領域画像及び認識結果に関するデータが記録される。

特徴領域画像データ領域には、特徴画像の中で認識結果に影響を与える領域の画像に関するデータが記録される。
認識結果データ領域には、特徴領域により認識されるテキスト（ここでは数字）に関するデータが記録される。

（特徴領域評価処理）
次に、図５を用いて、特徴領域評価処理を説明する。
まず、支援サーバ２０の制御部２１は、特徴画像の取得処理を実行する（ステップＳ２０１）。具体的には、制御部２１の画像加工部２１１は、特徴情報記憶部２３から、すべての特徴画像管理レコードを抽出し、特徴画像管理レコードに記録された特徴画像を取得する。

次に、支援サーバ２０の制御部２１は、マスキング処理が必要かどうかについての判定処理を実行する（ステップＳ２０２）。具体的には、制御部２１の画像加工部２１１は、特徴コンテンツ生成処理におけるクラスタリング結果を取得する。そして、画像加工部２１１は、各特徴画像の特徴量を比較し、類似性の分散値を算出する。そして、画像加工部２１１は、分散値と要否基準値とを比較する。

分散値が要否基準値を超えており、マスキングが必要と判定した場合（ステップＳ２０２）、支援サーバ２０の制御部２１は、特徴画像毎に、以下の処理を繰り返す。

ここでは、まず、支援サーバ２０の制御部２１は、部分マスキング処理を実行する（ステップＳ２０３）。具体的には、制御部２１の画像加工部２１１は、特徴画像のビットマップ全体の１／４のサイズの黒マスクを用いて、特徴画像をマスキングしたマスク画像（マスクコンテンツ）を生成する。例えば、特徴画像の左上に黒マスクを配置したマスク画像を生成する。
図６に示すように、特徴画像６００に対して、黒マスクＭ１を配置したマスク画像６１０を生成する。

次に、支援サーバ２０の制御部２１は、確からしさの算出処理を実行する（ステップＳ２０４）。具体的には、制御部２１の予測部２１２は、マスク画像を、評価対象記憶部２２に記録された学習済みモデルに入力する。この場合、予測部２１２は、マスク画像について、認識結果及び確からしさを出力する。

次に、支援サーバ２０の制御部２１は、確からしさの低下の仮記憶処理を実行する（ステップＳ２０５）。具体的には、制御部２１の評価部２１３は、特徴画像の認識結果について、予測部２１２が出力したマスク画像の確からしさを取得する。次に、評価部２１３は、特徴画像の確からしさとマスク画像の確からしさとの差分値を算出する。そして、評価部２１３は、特徴画像において黒マスクでマスキングされた領域（マスク領域）の画像に関連付けて、確からしさの差分値をメモリに仮記憶する。

次に、支援サーバ２０の制御部２１は、マスキングを終了したかどうかについての判定処理を実行する（ステップＳ２０６）。具体的には、制御部２１の画像加工部２１１は、特徴画像におけるすべての配置についてマスキングを行なった場合には、マスキングの終了と判定する。例えば、特徴画像の左上からマスキングを開始した場合には、特徴画像の右下に黒マスクが到達したことにより、マスキングの終了と判定する。

ここで、マスキングを終了していないと判定した場合（ステップＳ２０６において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、部分マスキング処理（ステップＳ２０３）以降の処理を実行する。この場合には、黒マスクを１ピクセル（１行又は１列）分、移動させることにより、マスク画像を生成する。

図６に示すように、マスク画像６１０に対して、黒マスクＭ１を移動させたマスク画像６２０を生成する。支援サーバ２０の制御部２１は、マスク画像６２０について、ステップＳ２０３～２０６の処理を終了後、更に、順次、マスク画像６３０の生成を繰り返す。そして、特徴画像６００の右下に黒マスクが到達したマスク画像６４０において、マスキングの終了と判定する。

マスキングを終了と判定した場合（ステップＳ２０６において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、確からしさの低下が最大の特徴領域の特定処理を実行する（ステップＳ２０７）。具体的には、制御部２１の評価部２１３は、メモリに仮記憶された差分値の中で、最大値のマスク領域を特徴領域として特定する。そして、評価部２１３は、特徴領域の画像を認識結果に関連付けて記録した特徴領域管理レコードを生成し、特徴情報記憶部２３に記録する。
そして、支援サーバ２０の制御部２１は、すべての特徴画像について終了するまで、上記処理を繰り返す。

すべての特徴画像についての繰り返し処理を終了した場合、支援サーバ２０の制御部２１は、特徴領域の取得処理を実行する（ステップＳ２０８）。具体的には、制御部２１のクラスタ分析部２１４は、特徴情報記憶部２３から、すべての特徴領域管理レコードを抽出し、特徴領域管理レコードに記録された特徴領域の画像を取得する。

次に、支援サーバ２０の制御部２１は、特徴領域のクラスタリング処理を実行する（ステップＳ２０９）。具体的には、制御部２１のクラスタ分析部２１４は、特徴領域画像をクラスタリング処理により、グループ分けを行なう。これにより、共通した認識結果において、類似した特徴領域画像を特定することができる。
ここでは、図７に示すように、特徴領域のクラスタリング処理により、グループＧ１～Ｇ３が生成される。

次に、支援サーバ２０の制御部２１は、クラスタリング結果の出力処理を実行する（ステップＳ２１１）。具体的には、制御部２１のクラスタ分析部２１４は、クラスタリングにより生成したグループ毎に特徴領域画像の平均画像を生成する。そして、クラスタ分析部２１４は、認識結果に関連付けた平均画像を、ユーザ端末１０に出力する。

ここでは、図７に示すように、各グループＧ１～Ｇ３に属する特徴領域画像の平均画像７０１～７０３を生成して、ユーザ端末１０に出力する。
一方、マスキング処理は不要と判定した場合（ステップＳ２０２において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、ステップＳ１０９と同様に、特徴情報記憶部２３に記録された特徴画像を用いて、特徴画像のクラスタリング処理を実行する（ステップＳ２１０）。

本実施形態によれば、上記（１－１）～（１－３）の効果に加えて、以下のような効果を、更に得ることができる。
（２－１）本実施形態においては、支援サーバ２０の制御部２１は、マスキング処理が必要かどうかについての判定処理を実行する（ステップＳ２０２）。これにより、特徴画像の生成状況により、特徴領域評価処理の実行の必要性を判定することができる。

（２－２）本実施形態においては、支援サーバ２０の制御部２１は、部分マスキング処理（ステップＳ２０３）、確からしさの算出処理（ステップＳ２０４）、確からしさの低下の仮記憶処理（ステップＳ２０５）を実行する。これにより、特徴画像の中でも、過去領域の認識結果に与える影響を評価することができる。

（２－３）本実施形態においては、支援サーバ２０の制御部２１は、確からしさの低下が最大の特徴領域の特定処理を実行する（ステップＳ２０７）。これにより、特徴画像において、学習済みモデルの出力に最も影響を与える領域を特定することができる。

（２－４）本実施形態においては、支援サーバ２０の制御部２１は、特徴領域のクラスタリング処理を実行する（ステップＳ２０９）。これにより、認識結果に対して、複数の特徴領域画像を取得した場合にも、クラスタリングによるグループ毎にまとめた特徴を出力することができる。

本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記第１実施形態では、コンテンツとして画像に含まれる文字を認識する学習済みモデルの評価を行なう。本発明の適用対象は、画像認識に限定されるものではない。例えば、音信号をテキストに変換する音声認識や、文章に基づいて、感情を認識する学習済みモデルに適用してもよい。

・上記第１実施形態では、支援サーバ２０の制御部２１は、白黒画像の生成処理を実行する（ステップＳ１０１）。最初の画像は白黒画像に限定されるものではない。例えば、全面が白または黒の画像を用いてもよい。また、認識結果の確からしさが高い画像を最初の画像として用いてもよい。

・上記第１実施形態では、支援サーバ２０の制御部２１は、ランダムにピクセル選定処理を実行する（ステップＳ１０２）。サンプルコンテンツを網羅的に変更できれば、ピクセルの選択はランダムに限定されるものではない。また、選択するピクセルは、１つに限らず、同時期に複数のピクセルを選択してもよい。

・上記第１実施形態では、支援サーバ２０の制御部２１は、ピクセル反転処理を実行する（ステップＳ１０３）。網羅的に変化を加えることができれば、ピクセル反転に限定されるものではない。カラー画像を用いて、画像認識を行なう学習済みモデルの場合には、支援サーバ２０の制御部２１は、例えば、各ピクセルのＲＧＢ値を、順次、変更する。

また、音声信号をテキストに変換する学習済みモデルの場合には、支援サーバ２０の制御部２１は、例えば、音声信号を周波数変換し、各周波数の係数をランダムに変更する。
また、文章から何らかの認識結果を取得する自然言語処理を行なう学習済みモデルの場合には、例えば、文章に含まれる単語を変更する。この場合には、複数のサンプルコンテンツを生成するために、単語を記録した辞書記憶部から、文章に含まれる単語を置き換えるために他の単語を取得する。

・上記第１実施形態では、支援サーバ２０の制御部２１は、終了かどうかについての判定処理を実行する（ステップＳ１０７）。ここでは、レコード数が終了条件を満足している場合に、終了と判定する。終了条件は、これに限定されるものではない。例えば、支援サーバ２０の制御部２１が、白黒画像の生成処理（ステップＳ１０１）を繰り返し、この繰り返し回数を終了条件として用いてもよい。この場合には、支援サーバ２０の制御部２１が、先行して生成したサンプルコンテンツの確からしさと、後続のサンプルコンテンツの確からしさとを比較して、確からしさが低下した場合に、先行のサンプルコンテンツを特徴画像と判定する。そして、再度、白黒画像の生成処理（ステップＳ１０１）からの処理を繰り返し、この繰り返し回数が所定回数に到達した場合に、終了と判定する。

・上記第２実施形態では、支援サーバ２０の制御部２１は、マスキングが必要かどうかについての判定処理を実行する（ステップＳ２０２）。この判定では、要否基準値を用いる場合に限定されるものではない。例えば、ユーザ端末１０における、担当者の判断の入力結果に基づいて、マスキングの要否を判定するようにしてもよい。この場合には、画像加工部２１１は、ユーザ端末１０に、マスク処理の要否を確認する確認画面を出力する。

・上記第２実施形態では、支援サーバ２０の制御部２１は、確からしさの低下の仮記憶処理を実行する（ステップＳ２０５）。ここで、確からしさの低下が基準値以上の特徴領域を特徴情報記憶部２３に記録するようにしてもよい。この場合には、評価部２１３に、特徴領域を判定するための低下基準値に関するデータを保持させておく。そして、評価部２１３は、特徴画像の確からしさとマスク画像の確からしさとの差分値と低下基準値とを比較し、低下基準値以上の差分値の特徴画像を記録する。

・上記第２実施形態では、支援サーバ２０の制御部２１は、部分マスキング処理を実行する（ステップＳ２０３）。具体的には、特徴画像のビットマップ全体の１／４にサイズの黒マスクを用いる。マスクサイズは、これに限定されるものではない。例えば、特徴画像における白黒の分散状況に応じて、マスクサイズを変更してもよい。この場合、分散状況を示す指標値が基準値以下の場合には、マスクサイズを大きくする。

１０…ユーザ端末、２０…支援サーバ、２１…制御部、２１１…画像加工部、２１２…予測部、２１３…評価部、２１４…クラスタ分析部、２２…評価対象記憶部、２３…特徴情報記憶部。

Claims

学習済みモデルを記録する評価対象記憶部と、
前記学習済みモデルを用いて認識結果を出力する制御部とを備え、前記学習済みモデルを評価するモデル評価システムであって、
前記制御部が、
複数のサンプルコンテンツを生成し、
前記各サンプルコンテンツを、前記評価対象記憶部に記録された学習済みモデルに入力して、前記サンプルコンテンツの認識結果の確からしさを取得し、
前記確からしさに応じた前記サンプルコンテンツを用いて、前記学習済みモデルにおける特徴コンテンツに関する評価結果を出力することを特徴とするモデル評価システム。
前記制御部が、
前記確からしさの変化の大きさが基準値以上の特徴コンテンツを記録し、
前記記録された特徴コンテンツに基づいて、クラスタリングした結果を、前記評価結果として出力することを特徴とする請求項１に記載のモデル評価システム。
前記制御部が、
前記特徴コンテンツの一部をマスク領域でマスキングしたマスクコンテンツを生成し、
前記マスクコンテンツを、前記評価対象記憶部に記録された学習済みモデルに適用して確からしさを算出し、
前記マスクコンテンツの確からしさの変化を算出し、
前記確からしさの変化の大きさが大きいマスク領域を特定し、
前記マスク領域をクラスタリングした結果を、前記評価結果として出力することを特徴とする請求項１又は２に記載のモデル評価システム。
学習済みモデルを記録する評価対象記憶部と、
前記学習済みモデルを用いて認識結果を出力する制御部とを備え、前記学習済みモデルを評価するモデル評価システムを用いて、前記学習済みモデルを評価する方法であって、
前記制御部が、
複数のサンプルコンテンツを生成し、
前記各サンプルコンテンツを、前記評価対象記憶部に記録された学習済みモデルに入力して、前記サンプルコンテンツの認識結果の確からしさを取得し、
前記確からしさに応じた前記サンプルコンテンツを用いて、前記学習済みモデルにおける特徴コンテンツに関する評価結果を出力することを特徴とするモデル評価方法。
学習済みモデルを記録する評価対象記憶部と、
前記学習済みモデルを用いて認識結果を出力する制御部とを備え、前記学習済みモデルを評価するモデル評価システムを用いて、前記学習済みモデルを評価するモデル評価プログラムであって、
前記制御部を、
複数のサンプルコンテンツを生成し、
前記各サンプルコンテンツを、前記評価対象記憶部に記録された学習済みモデルに入力して、前記サンプルコンテンツの認識結果の確からしさを取得し、
前記確からしさに応じた前記サンプルコンテンツを用いて、前記学習済みモデルにおける特徴コンテンツに関する評価結果を出力する手段として機能させるためのモデル評価プログラム。