JP7242495B2

JP7242495B2 - 推論結果評価システム、推論結果評価装置及びその方法

Info

Publication number: JP7242495B2
Application number: JP2019183320A
Authority: JP
Inventors: 有佐藤
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2019-10-03
Filing date: 2019-10-03
Publication date: 2023-03-20
Anticipated expiration: 2039-10-03
Also published as: JP2021060692A

Description

本発明の実施形態は、推論結果評価システム、推論結果評価装置及びその方法に関する。

機械学習によって学習して得られた機械学習モデルを用いた推論技術が広く利用されている。機械学習モデルは、教師データである学習データを用いて生成される。機械学習モデルを用いることにより、入力データについて推論結果を得ることができるが、学習データのどの要素が、その入力データの推論結果に影響を及ぼしたかを知ることはできない。

特開２０１９－８２８８３号公報

そこで、実施形態は、機械学習モデルにおいて、学習データのどの要素あるいはどの部分が、入力された入力データの推論結果に影響を及ぼしたかを可視化することができる推論結果評価システム、推論結果評価装置及び推論結果評価方法を提供することを目的とする。

実施形態の推論結果評価システムは、入力データを指定する入力データ指定部と、前記入力データに基づいて、機械学習モデルを用いた推論を実行する推論部と、前記入力データについての前記推論部の推論結果に寄与した学習データを、抽出学習データとして、複数の学習データから抽出する学習データ抽出部と、前記抽出学習データの要素毎または所定の部分毎に、前記推論結果に対する影響度を算出する影響度算出部と、前記抽出学習データにおける前記要素毎または前記所定の部分毎の前記影響度を可視化する影響度可視化部と、を有する。

実施形態に係わる監視システムの構成図である。実施形態に係わるサーバの構成図である。実施形態に係わる、プロセッサにおけるモデル学習フェーズの処理の流れを示す図である。実施形態に係わる、学習データベースのデータ構造を示す図である。実施形態に係わる、テストデータについて、学習データのどの要素あるいはどの部分が推論結果に大きな影響を与えたかを分析し、分析結果を表示する処理の流れの例を示す図である。実施形態に係わる、推論実行部の処理の流れの例を示す図である。実施形態に係わる学習データの修正処理の流れを示す図である。実施形態に係わる、ＧＵＩデータに基づいて生成されたグラフィカル・ユーザ・インターフェースの例を示す図である。実施形態に係わる、結果出力部により生成されたグラフィカル・ユーザ・インターフェースの他の例を示す図である。実施形態に係わる、再学習後のグラフィカル・ユーザ・インターフェースの表示例を示す図である。実施形態に係わる、テストデータをサーバへ供給してから学習データの再学習までの処理の流れを示すフローチャートである。

以下、図面を参照して実施形態を説明する。
（構成）
図１は、本実施形態に係わる監視システムの構成図である。監視システム１は、監視装置１１と、クラウド１２ａ上のサーバ１２と、監視装置１１とサーバ１２とを接続するインターネットなどのネットワーク１３とを含んで構成される推論システムである。本実施形態の監視システム１は、推論モデルである機械学習モデルを用いて画像に写る対象あるいは対象の状態を推論し、その推論結果を出力するサービスのためのシステムである。

監視装置１１は、パーソナルコンピュータ（以下、ＰＣという）２１と、撮像装置であるカメラ２２と、表示装置であるモニタ２３を含む。ＰＣ２１には、カメラ２２が接続され、カメラ１４からの撮像信号が入力される。ＰＣ２１は、ネットワーク１３を介して撮像信号の画像データをサーバ１２へ送信する。ＰＣ２１には、マウス２１ａとキーボード２１ｂが接続されている。マウス２１ａ、キーボード２１ｂ及びモニタ２３が、グラフィカル・ユーザ・インターフェース（以下、ＧＵＩという）を構成する。

サーバ１２は、機械学習モデルを用いて、受信した画像データについての推論結果を出力することができる。本実施形態では、ＰＣ２１から送信された画像データに対する推論結果は、ネットワーク１３を介してサーバ１２からＰＣ２１へ送信される。ＰＣ２１は、推論結果をモニタ２３に出力する。監視システム１のユーザは、モニタ２３に表示される推論結果を知ることができる。

なお、以下の実施形態では、機械学習モデルの入力データは、画像データのみであるが、点線で示すような、温度、圧力、音などを検出する検出装置２２ａの検出データも画像データと併せて入力データとしてしてもよい。

さらになお、本実施形態では、監視システム１の、後述する学習機能、推論機能及び可視化機能は、サーバ１２に設けられているが、監視装置１１のＰＣ２１が、学習機能、推論機能及び可視化機能を有してもよい。

図２は、サーバ１２の構成図である。サーバ１２は、推論装置３１と、ネットワーク１３との通信インターフェース（以下、通信Ｉ／Ｆという）３２とを有する。推論装置３１は、通信Ｉ／Ｆ３２によりネットワーク１３を介して監視装置１１と通信可能になっている。推論装置３１は、プロセッサ３３とメモリ３４を含む。プロセッサ３３は、中央処理装置（以下、ＣＰＵという）、ＲＯＭ、ＲＡＭを含み、メモリ３４及びＲＯＭに記憶されているソフトウエアプログラムを読み出してＲＡＭに展開して実行することにより、所定の機能を実現する。所定の機能には、後述する学習機能、推論機能及び可視化機能が含まれる。

なお、プロセッサ３３は、ＣＰＵに代えて、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＴＰＵ（ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの他の処理装置により構成してもよく、あるいはＣＰＵ、ＧＰＵ、ＦＰＧＡ、ＴＰＵなどの処理装置の少なくとも２つと組み合わせて構成してもよい。

また、本実施形態では、サーバ１２は、クラウド１２ａ上のサーバであるが、いわゆるオンプレミスのサーバでもよい。

メモリ３４は、書き換え可能な不揮発性メモリであり、例えばハードディスクドライブである。メモリ３４は、学習プログラム、推論プログラム、可視化処理プログラムなどの各種ソフトウエアプログラムが記憶されるプログラム領域３４ａを含む。さらに、メモリ３４には、学習データ用のデータベース（以下、学習用データベースという）３５と、機械学習モデル３６の機械学習モデルパラメータ（以下、モデルパラメータという）を含む機械学習モデル３６とが記憶されている。

学習用データベース３５には、複数の学習データ（訓練データ）が格納されている。各学習データは、１つの入力データと、その入力データについての正解ラベルデータとを含む。ここでは、１つの入力データは、画像データであり、１つの正解ラベルは、識別クラス情報である。

なお、本実施形態では、入力データは、画像データであるが、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）に関わるベクトルデータ、数値列データなどでもよく、さらに入力データは、画像データに加えて、ベクトルデータ、数値列データなどの他のデータも含んでいてもよい。正解ラベルデータは、目的変数、正常・異常などの分類クラス情報、などでもよい。

機械学習モデル３６は、ディープラーニングによる推論モデルのモデルパラメータのデータを含む。機械学習モデル３６は、入力データに基づく推論結果を出力する。例えば、モデルパラメータをθとし、データ数をＮとしたとき、機械学習モデル３６は、入力データｘ_ｔに基づく推論結果ｙ_ｉ（ｘ_ｔ，θ）を出力する。

なお、機械学習モデル３６は、ディープラーニングによる手法に限らず、ロジスティック回帰、サポートベクターマシン（ＳＶＭ）などの手法によるものでもよい。
（学習）
サーバ１２の学習機能について説明する。図３は、プロセッサ３３におけるモデル学習フェーズの処理の流れを示す図である。図４は、学習用データベース３５のデータ構造を示す図である。学習機能を実現する学習部４１は、メモリ３４のプログラム領域３４ａに格納された学習プログラムである。学習部４１は、データ入力部４１ａと、データ前処理部４１ｂと、推論実行部４１ｃと、モデルパラメータ更新部４１ｄとを含む。

データ入力部４１ａは、学習用データベース３５からの学習データを取得し、データ前処理部４１ｂに供給する。データ前処理部４１ｂは、学習データである入力データに対して、前処理として所定の処理を実行して、入力データを変換する。例えば、データ前処理部４１ｂでは、入力データの値が、平均が０で、分散が１となるような正規化処理を行う。データ前処理部４１ｂは、水増し処理を行っても良い。水増しとは、入力データにノイズを付与したり、画像を並進・回転・拡縮のような変形を与えたりすることである。

図４に示すように、学習データは、複数の入力データを含み、各学習データは、識別番号（Ｎｏ．）と、リンク情報と、ラベル情報と、メタ情報を含むテーブルデータＴＢＬにより構成されている。識別番号は、各学習データを特定するための識別子である。リンク情報は、入力データの格納されているメモリ領域を示す情報である。ラベル情報は、正解ラベルの情報である。

メタ情報は、入力データ中の学習対象部分を示す情報（以下、学習対象部分情報という）である。本実施形態では、入力データは画像データであるので、学習対象部分情報は、画像データ中の学習対象領域情報である。すなわち、メタ情報は、入力データ中、どの部分あるいはどの領域のデータを学習対象の入力データとして使用するかを示す情報である。

推論実行部４１ｃは、データ前処理部４１ｂにおいて前処理が行われた入力データに対して推論を実行する。ここでは、推論は、はじめに、画像データ中のメタ情報で指定された領域の画像データから所定の特徴量を抽出し、抽出された特徴量に対して、機械学習モデル３６を用いて行われる。メタ情報は、例えば、デフォルトでは、画像データの全領域を学習対象領域すなわち注視領域とするが、後述するように、学習データの学習領域すなわち注視領域がユーザによって設定されると、メタ情報の注視領域は、その設定された注視領域（以下、指定注視領域という）に設定変更される。すなわち、メタ情報には、１つ又は２以上の注視領域（指定注視領域を含む）が設定可能である。

なお、メタ情報において、１つの画像データ中に複数の注視領域が設定されたとき、注視領域毎に重み付けをして、注視領域毎の推論結果の各確率を、重み付けに応じて変更するようにしてもよい。

推論実行部４１ｃは、例えば、機械学習モデル３６のモデルパラメータに基づき、メタ情報で指定された学習対象領域の入力データから所定の特徴量を抽出する。抽出された特徴量に基づき、推論実行部４１ｃは、推論結果をモデルパラメータ更新部４１ｄへ出力する。

モデルパラメータ更新部４１ｄは、推論実行部４１ｃの実行結果に基づいてモデルパラメータの更新を行う。ここでは、損失関数Ｌ（ｙ_ｔ（ｘ_ｔ，θ），ｚ_ｔ）が定義される。損失関数は、正解ラベルｚと、推論結果ｙが一致する程小さくなる関数である。例えば、回帰問題であれば、二乗誤差が用いられ、分類問題であれば、交差エントロピーが用いられる。

従って、Ｎ個の学習データｔ（＝（１，２，・・・，Ｎ））についてのモデルパラメータの学習とは損失関数が最小になるモデルパラメータθの値θ^＊を求めることであり、次の式（１）で表される。

ここでは、式（１）は、Λ（θ）の正則化項を含み、その正則化項を含めて最小化される。最小値は、勾配降下法などを用いて求められる。正則化項に特定の関数、例えばＬ２ｎｏｒｍ（全てのθの二乗和）、を選ぶと、θ^＊を、入力データｘ_ｔの関数とみることが出来き、その結果、推論結果ｙ（ｘ，θ^＊）を、ｘ_ｔで微分可能となる。従って、後述するように、テストデータの推論結果に寄与した入力データの要素あるいは部分を求めることができる。多くの学習データに対して学習部４１が実行されることにより、モデルパラメータが得られ、機械学習モデル３６が生成される。

以上のように、学習部４１は、学習データに基づいて機械学習モデル３６の学習を実行するプログラムである。
（推論）
サーバ１２は、機械学習モデル３６を用いて、入力データについての推論機能を実現可能となる。よって、監視装置１１は、画像データをサーバ１２へ送信し、推論結果をサーバ１２から受信することにより、監視システム１は、所望の監視を行うことができる。

例えば、監視システム１が動物の監視をするシステムである場合、カメラ２２の画像データが監視装置１１からサーバ１２へリアルタイムであるいは所定の時間間隔で送信され、サーバ１２は、その画像データの画像に写る動物を推論して、その推論結果を監視装置１１へ送信する。監視装置１１のモニタ２３には、推論結果情報が表示され、監視システム１のユーザは、モニタ２３に表示される推論結果情報を認識することができる。
（可視化）
推論結果に間違えがあったとき、ユーザは、推論結果に影響を及ぼした学習データの要素などを可視化して、推論結果に間違えを生じさせた学習データを修正し、推論結果が正しくなるように、いわゆる再学習によって、機械学習モデル３６のモデルパラメータを修正する必要がある。

しかし、これまでは、ユーザは、どの学習データが推論結果に大きな影響を与えたかを知ることができても、その学習データのどの要素があるいはどの部分が推論結果に大きな影響を及ぼしたかを知ることはできなかった。本実施形態によれば、入力データをテストデータとしてサーバ１２に供給することによって、学習データのどの要素あるいはどの部分が、テストデータについての推論結果に大きな影響を与えたかを、可視化してユーザに示すことができる。その結果、ユーザは、可視化された情報を見て推論結果を評価して、学習データの修正と、再学習を迅速に行うことができる。よって、サーバ１２は、推論結果評価装置を構成する。

図５は、テストデータについて、学習データのどの要素あるいはどの部分が推論結果に大きな影響を与えたかを分析し、分析結果を表示する処理の流れの例を示す図である。図５の処理は、サーバ１２で実行される。

ユーザは、複数の学習データの中の学習データのどの要素あるいはどの部分が、その画像データについての推論結果に大きな影響を与えたかを知りたい画像データを、テストデータとして、評価指示コマンドと共にサーバ１２へ送信する。例えば、正しい推論結果が得られなかった画像データがテストデータとして選択されて、サーバ１２へ送信される。

すなわち、ユーザは、監視装置１１において、マウス２１ａ及びキーボード２１ｂを用いて、テストデータを指定して、サーバ１２へ送信する。よって、監視装置１１のマウス２１ａ及びキーボード２１ｂは、入力データであるテストデータを指定する入力データ指定部あるいは入力データ指定装置を構成する。

プロセッサ３３は、推論処理と可視化処理を行う推論／可視化部５１を含む。推論／可視化部５１は、推論プログラムと可視化処理プログラムである。推論プログラムと可視化処理プログラムは、メモリ３４のプログラム領域３４ａに格納されている。推論／可視化部５１は、データ取得部５２と、推論部５３と、演算部５４と、結果出力部５５とを含む。

データ取得部５２は、監視装置１１からユーザによってアップロードされたテストデータを取得し、推論部５３に供給する。

推論部５３は、データ前処理部５３ａと推論実行部５３ｂとを含む。データ前処理部５３ａは、所定の前処理を実行する。データ前処理部５３ａでは、水増し処理は行われない。

推論実行部５３ｂは、機械学習モデル３６を用いてテストデータに基づく推論を実行し、推論結果、すなわち、推論結果ｙ（ｘ、θ^＊）を算出する。推論実行部５３ｂにおける推論には、上述した学習フェーズで得られたモデルパラメータθ^＊が用いられる。以上のように、推論部５３は、テストデータに基づいて、機械学習モデル３６を用いた推論を実行する。

図６は、推論実行部５３ｂの処理の流れの例を示す図である。推論実行部５３ｂは、特徴量抽出部６１と、注視領域抽出部６２と、推論処理部６３を含む。データ前処理部５３ａからのテストデータは、特徴量抽出部６１に入力される。

特徴量抽出部６１は、テストデータの所定の特徴量を抽出し、特徴量情報を出力する。特徴量情報は、注視領域抽出部６２と推論処理部６３に供給される。

注視領域抽出部６２は、特徴量情報からテストデータ中の注視領域を抽出し、注視領域情報を出力する。注視領域抽出部６２は、テストデータから抽出された各特徴量に基づいて、どの領域の特徴量を重視すべきかを示す注視領域情報（以下、推論注視領域情報という）を生成する。画像データであるテストデータ中の各領域から抽出された特徴量に基づいて、どの領域の特徴量を重視するかのマスク情報に基づいて、推論注視領域情報として生成される。

例えば、画像の左上領域に顔の特徴量があり、右下領域に身体の特徴量があるなどの情報から、注視すべき領域を特定するための情報として、重視する領域以外の領域をマスクするマスク情報が生成される。この場合、マスク情報は、例えば、顔部分の領域をそのまま出力し、顔部分以外の領域の特徴量をゼロにするための情報である。言い換えれば、マスク情報は、特徴量のマップと、マスク領域のマップの掛け算、論理積などにより表現される。生成された推論注視領域情報は、注視領域抽出部６２から推論処理部６３に供給される。

推論処理部６３は、機械学習モデル３６を用いて、特徴量情報と注視領域情報に基づいて推論を実行し、推論結果を出力する。推論結果は、例えば、各クラスと、クラス毎の確率データを含む。例えば、機械学習モデル３６が画像中の動物を推論するモデルの場合、推論結果は、「犬」のクラスの確率が９０％で、「猫」のクラスの確率が１０％、等である。

推論部５３の処理は、上述した監視処理において実行される推論処理と同じである。

推論部５３の出力する推論結果は、演算部５４へ供給される。演算部５４は、重要学習データ抽出部５４ａと、学習データ影響算出部５４ｂとを含む。

重要学習データ抽出部５４ａは、テストデータ（ｘ）、全学習データ（ｘ_１，ｘ_２，・・・，ｘ_Ｎ）、テストデータと各学習データの推論結果、特徴量情報などから、テストデータについての推論結果に寄与した重要な学習データを抽出する。言い換えれば、重要学習データ抽出部５４ａは、推定結果に大きな影響を及ぼしたと考えられる１又は２以上の学習データを抽出する。ここでは、重要学習データ抽出部５４ａは、推論結果に関わるクラス毎に１又は２以上の学習データを抽出する。すなわち、重要学習データ抽出部５４ａは、入力データであるテストデータについての推論部５３の推論結果に寄与した１又は２以上の学習データを、抽出学習データとして、複数の学習データから抽出する学習データ抽出部を構成する。

重要学習データ抽出部５４ａにおける学習データの抽出は、データの類似度（例えば二乗誤差、特徴量の内積、画像類似指標など）を用いて行うことができる。

例えば、重要学習データ抽出部５４ａは、テストデータと、各学習データの類似度を算出し、類似度の高い順にソートして、類似度の高い、上位の所定数（１又は２以上）の学習データを出力する。

また、重要学習データ抽出部５４ａにおける学習データの抽出は、（－（∂ｙ／∂ｙ_ｔ））とテストデータの特徴量と各学習データの特徴量との内積を用いて行ってもよく、その抽出方法には、他の方法を用いてもよい。

さらにまた、重要学習データ抽出部５４ａは、影響関数（ＩｎｆｌｕｅｎｃｅＦｕｎｃｔｉｏｎ）に基づいて、推論結果に大きな影響を与える上位の所定数（１又は２以上）の学習データを出力するようにしてもよい。

あるいは、重要学習データ抽出部５４ａは、クラスに属する複数の学習データの中から識別境界との距離が近い上位の所定数（１又は２以上）の学習データを出力するようにしてもよい。

重要学習データ抽出部５４ａは、テストデータについての推論結果が正しいとしたときの学習データを、推論結果に良い影響を与えたデータとして出力し、かつ、テストデータについての推論結果が誤っているとしたときの学習データを、推論結果に悪い影響を与えたデータとして出力するようにしてもよい。すなわち、重要学習データ抽出部５４ａは、推論結果に良い影響を与えた１又は２以上の学習データと、推論結果に悪い影響を与えた１又は２以上の学習データの両方を抽出するようにしてもよい。

学習データ影響算出部５４ｂは、重要学習データ抽出部５４ａにより抽出された１又は２以上の学習データの各々において、どの要素が推論結果ｙ（ｘ，θ^＊）にどの程度の影響を与えたかを算出する。

学習データ影響算出部５４ｂは、ここでは、推論結果の確率を各画素値で偏微分（（∂ｙ（ｘ，θ^＊）／∂ｘ_ｔ）を行うことによって、各画素についての影響度を算出する。すなわち、学習データ影響算出部５４ｂは、推定結果に含まれる確率値を学習データの各要素又は各部分の値で偏微分して得られた値を、各要素又は各部分の影響度とする。ここでは、学習データ影響算出部５４ｂは、推定結果に含まれる確率値を画像データの各画素値で偏微分して得られた値を、各画素の影響度とする。

各要素の影響度について簡単な例を挙げて説明する。例えば、２次元ベクトルの要素を持つ、２つの学習データｘ１＝｛ｘ１１，ｘ１２｝とｘ２＝｛ｘ２１，ｘ２２｝があり、それらがラベルｙ１，ｙ２を有しているとする。ｙ１が「正常」で、ｙ２が「異常」とする。このラベルｙ１，ｙ２を判別する機械学習の分類モデルのパラメータθを、この２つの学習データｘ１，ｘ２をそれぞれラベルｙ１とｙ２に分類するように、ある条件を与えて最適化すると、パラメータθは、θ＝θ（ｘ１１，ｘ１２，ｘ２１，ｘ２２）の関数で表示される。

ここで、未知のデータｘｔをこの分類モデルに入力すると、ｙ１（例えば正常）だと思われる確率ｐ＝ｐ（ｘｔ，θ）を出力する。上記のθの関数から、ｐ（ｘｔ，θ）＝ｐ（ｘｔ，ｘ１１，ｘ１２，ｘ２１，ｘ２２）なので、ｐは学習データの各要素ｘ１１，ｘ１２，ｘ２１，ｘ２２で微分することが出来る。例えば、（∂ｐ／∂ｘ１１）の値が、大きな正の値であれば、ｘ１１を少し増やすことによりデータｘｔがｙ１である確率が増加する。反対に、（∂ｐ／∂ｘ１１）の値が小さい値のときは、データｘｔは、ｙ１とはあまり関係ない。つまり、学習データのどの要素を学習したことが、この推論結果に影響を与えたかを評価できることになる。

別な例を挙げると、過去の営業日のデータから、今日の売上が高いか低いかを分類する売り上げ予測システムの推論モデルが得られた場合、ある日（例えば８月２８日）の売上が高いと予測したとき、学習データの１つ（例えば、８月１４日）の要素である気温が影響を与えている、ということを評価することができる。

上述した本実施形態では、推論結果の確率を各画素値で偏微分（（∂ｙ（ｘ，θ^＊）／∂ｘ_ｔ）を行うことによって、各画素についての影響度を算出しているが、例えばテストデータについての推論結果の確率の微分（すなわち感度）である（（∂ｙ（ｘ，θ^＊）／∂ｘ）を、さらに学習データで微分して、次の式（２）を用いて影響度を算出するようにしてもよい。

さらになお、推論結果から逆伝搬演算により、各画素（すなわち各要素）の影響度を直接算出するようにしてもよく、学習データ影響算出には、他の方法を用いてもよい。よって、学習データ影響算出部５４ｂは、抽出された学習データの要素毎または所定の部分毎に、推論結果に対する影響度を算出する影響度算出部を構成する。

結果出力部５５は、学習データ影響算出部５４ｂにより算出された、推論結果に影響を与えた要素の情報を、学習データに重畳した画像を含むＧＵＩデータを生成して、ネットワーク１３を介して監視装置１１へ送信する。
（修正と再学習）
次に、学習データの修正について説明する。図７は、学習データの修正処理の流れを示す図である。本実施形態では、ユーザは、監視装置１１から学習用データベース３５の学習データの修正処理をサーバ１２に行われることができる。

ユーザは、後述するように推論に寄与した学習データを見て、学習データの削除、指定注視領域の設定及び変更、等の修正を行うことができる。そのため、サーバ１２は、学習用データベース３５の学習データの修正プログラムを有している。修正プログラムは、メモリ３４のプログラム領域３４ａに記憶されている。

修正には、適切な推論にとっての不適切な学習データの削除、学習データのラベルの付け間違いの修正、指定注視領域の設定変更、等が含まれる。例えば、ラベルが曖昧な学習データ、人にも認識するのが困難な学習データ、間違い易い背景が多く含まれている学習データ、等は、学習用データベース３５から削除可能である。また、ラベル付けが間違っている学習データ等については、ラベル情報を正しいラベル情報に修正可能である。また、複数の被写体が含まれ、正しいラベルが付けられた根拠となった被写体以外の被写体を含む学習データについては、正しいラベルが付けられた根拠となった被写体以外の領域を、マスク領域とするように指定注視領域が設定可能である。

よって、修正部４２は、学習データの修正をユーザに実行可能にするための処理部である。そして、修正部４２は、学習データのラベル情報の変更、学習データの注視領域の設定、及び学習データの削除の少なくとも１つを実行可能である。

学習用データベース３５が修正された後、学習部４１は、ユーザからの再学習指示コマンドを受信すると、修正された学習用データベース３５に基づいて、機械学習モデル３６を再生成することができる。

上述したように、結果出力部５５は、ＧＵＩデータを生成する。図８は、ＧＵＩデータに基づいて生成されたＧＵＩの例を示す図である。図８は、結果出力部５５により生成されたＧＵＩデータに基づいて、監視装置１１のモニタ２３の画面２３ａに表示されたＧＵＩ例を示す。図８のＧＵＩ１は、テストデータ表示領域７１、推論結果表示フィールド７２、第１学習データ表示領域７３、２つのボタン７４ａ、７４ｂを含む表示切替ボタン７４、スライダ摘まみ７５ａを含むスライダ７５、及び第２学習データ表示領域７６を含む。

テストデータ表示領域７１は、テストデータが表示されるウインドウである。推論結果表示フィールド７２は、テストデータに対して行われた推論の結果を表示する。図８では、推論結果表示フィールド７２に「分類結果：リス」と表示されている。すなわち、テストデータ表示領域７１に表示されたテストデータの画像から、機械学習モデル３６は、推論結果として、「リス」を出力したことが示されている。

第１学習データ表示領域７３には、重要学習データ抽出部５４ａにおいて抽出された、推論結果に良い影響を与えた学習データが表示される。ここでは、第１学習データ表示領域７３には、推論結果の中から最も確率の高いクラス（ここでは「リス」）の学習データが表示される。さらに、第１学習データ表示領域７３には、最も確率の高いクラス（ここでは「リス」）の複数の学習データの中から、テストデータと類似度が最も高い学習データが、重要学習データとして表示される。

第１学習データ表示領域７３中に、学習データ影響算出部５４ｂにより算出された影響度が所定の閾値以上である１又は２以上の画素の領域が、所定の色で強調されて他の領域とは識別可能に表示される。図８では、２つの部分ＰＡ（斜線で示す部分）が、ユーザに他の領域とは識別可能なように表示された部分として示されている。よって、結果出力部５５は、影響度が所定の閾値以上の各要素又は各部分を、他の要素又は他の部分と識別可能に表示する表示データを生成する。

ユーザは、第１学習データ表示領域７３に表示された学習データの２つの部分ＰＡが、テストデータ表示領域７１に表示されたテストデータについての推論結果「リス」に大きな影響を与えたと認識することができる。

ボタン７４ａは、複数の学習データの中から、類似度のより高い他の学習データを第１学習データ表示領域７３に表示させるときにクリックされる。ボタン７４ｂは、複数の学習データの中から、次に高い類似度の学習データを第１学習データ表示領域７３に表示させるときにクリックされる。

よって、類似度が最も高い学習データが第１学習データ表示領域７３に表示されているときに、ユーザがマウス２１ａを用いてボタン７４ｂをクリックすると、類似度が最も高い学習データの次に類似度が高い学習データ（すなわち類似度が２番目に高い学習データ）が第１学習データ表示領域７３に表示される。さらにその表示状態で、ユーザがボタン７４ａをクリックすると、類似度が最も高い学習データが第１学習データ表示領域７３に表示されるが、ユーザがボタン７４ｂをクリックすると、類似度が３番目に高い学習データが第１学習データ表示領域７３に表示される。

よって、ユーザは、第１学習データ表示領域７３に表示された各重要学習データにおいて、推論結果表示フィールド７２に表示された推論結果に大きな影響を与えた画素（要素）あるいは部分を認識することができる。

スライダ７５は、上述した影響度の閾値を変更するために用いられる。ユーザは、マウス２１ａを用いてスライダ摘まみ７５ａを選択した状態で、左右に移動させることができる。閾値を小さくすると、その画素値の影響度が小さくても、その画素は識別可能に表示される。閾値を大きくすると、影響度が大きい画素だけが識別可能に表示される。よって、所定の閾値は、変更可能である。

なお、影響度が大きい画素だけを識別可能にする方法に代えて、影響度が大きい画素を、影響度の大小を色で視覚化するヒートマップ、影響度が大きい画素を囲む輪郭線、等で表示する方法を用いて、表示するようにしてもよい。

例えば、スライダ摘まみ７５ａを右に移動させると、閾値の幅が大きくなり、スライダ摘まみ７５ａを左に移動させると、閾値の幅が小さくなる。よって、ユーザは、スライダ摘まみ７５ａを移動させることで、識別可能表示される部分ＰＡの大きさを変化させることができる。

また、画面２３ａ中の第２学習データ表示領域７６には、重要学習データ抽出部５４ａにおいて抽出された、推論結果に悪い影響を与えた重要学習データが表示される。第１学習データ表示領域７３には、推論結果の中から最も確率の高いクラスの学習データが表示されるが、第２学習データ表示領域７６には、推論結果の中から２番目に確率の高いクラス（例えば、後述する「ハムスター」）の学習データが表示される。さらに、第１学習データ表示領域７３には、２番目に確率の高いクラスの複数の学習データの中から、テストデータと類似度が最も高い学習データが、重要学習データとして表示される。

ユーザは、図示しないスクロールバーなどを操作することにより、第１学習データ表示領域７３と同様に、第２学習データ表示領域７６の学習データを見ることができる。第２学習データ表示領域７６の近傍にも、図示しないが、第２学習データ表示領域７６に関する２つのボタン７４ａ、７４ｂを含む表示切替ボタン７４、及びスライダ摘まみ７５ａを含むスライダ７５が、表示される。

よって、ユーザは、第２学習データ表示領域７６に関する表示切替ボタン７４を操作して、推論結果に悪い影響を与えた他の重要学習データも表示させることができる。さらに、ユーザは、第２学習データ表示領域７６に関するスライダ７５を移動させることで、識別可能表示される部分ＰＡの大きさを変化させることができる。スライダ７５で閾値を高くするほど、より確信している根拠となる部分（すなわち影響度が高い部分）だけが識別可能に表示される。

よって、ユーザは、図８のＧＵＩ１を表示させることによって、推論結果に影響を与えた重要学習データのどの要素あるいはどの部分が、テストデータの推論結果に影響を及ぼしたかを認識することができる。従って、結果出力部５５は、抽出された学習データにおける要素毎または所定の部分毎の影響度を可視化する影響度可視化部を構成する。言い換えれば、結果出力部５５は、抽出された学習データにおける要素毎または所定の部分毎の影響度を可視化するための画像データを生成する影響度画像生成部を構成する。

図９は、結果出力部５５により生成されたＧＵＩの他の例を示す図である。図９において、図８と同じ構成要素については、同じ符号を用いて説明は省略する。ユーザは、ＧＵＩ２を用いて、学習データのどの要素あるいはどの部分が、テストデータの推論結果に影響を及ぼしたかを認識することができると共に、学習データの修正を行うことができる。図９のＧＵＩ２は、テストデータ表示領域７１と推論結果表示フィールド７２を含む。

さらに、ＧＵＩ２は、二点鎖線で示すように、第１学習データ表示領域８１と、第２学習データ表示領域８２とを有する。第１学習データ表示領域８１は、複数（ここでは２つ）の学習データ表示領域である第１表示領域８４ａと第２表示領域８４ｂを含む。第２学習データ表示領域８２も、複数（ここでは２つ）の学習データ表示領域である第１表示領域８５ａと第２表示領域８５ｂを含む。

第１学習データ表示領域８１には、推論結果の中から最も確率の高いクラス（ここでは「リス」）の学習データが表示される。第２学習データ表示領域８２には、推論結果の中から２番目に確率の高いクラス（ここでは「ハムスター」）の学習データが表示される。

ＧＵＩ２は、第１学習データ表示領域８１と第２学習データ表示領域８２のそれぞれに表示される学習データの数を設定する表示数設定フィールド８３を含む。ユーザは、マウス２１ａとキーボード２１ｂを用いて、表示数設定フィールド８３に、数を入力して設定することができる。図９では、「２」が表示数設定フィールド８３に設定されているので、第１学習データ表示領域８１と第２学習データ表示領域８２のそれぞれには、２つの学習データが表示されている。

第１学習データ表示領域８１の第１表示領域８４ａには、類似度が最も高い学習データが表示される。第１学習データ表示領域８１の第２表示領域８４ｂには、類似度が最も高い学習データの次に類似度が高い学習データが表示される。

第２学習データ表示領域８２の第１表示領域８５ａには、類似度が最も高い学習データが表示される。第１学習データ表示領域８１の第２表示領域８４ｂには、類似度が最も高い学習データの次に類似度が高い学習データが表示される。

第１表示領域８４ａと第２表示領域８４ｂの各々に対応して、スライダ７５と推論結果表示フィールド８６が設けられている。推論結果表示フィールド８６には、対応する表示領域の学習データのラベル情報が表示される。ユーザは、マウス２１ａを用いてカーソル９１を所望の推論結果表示フィールド８６に移動させて、ラベル情報の変更をすることができる。ラベル情報の変更は、上述した修正部４２により実行される。

さらに、各表示領域８４ａ，８４ｂ，８５ａ，８５ｂには、対応する学習データを削除するための所定のマークの削除ボタン８７が設けられている。削除ボタン８７がクリックされると、削除ボタン８７に関わる学習データは、学習用データベース３５から削除される。

さらに、ＧＵＩ２は、選択学習データ表示部８８と、確定ボタン８９と、再学習ボタン９０を有している。

各表示領域８４ａ，８４ｂに表示された学習データについて、部分ＰＡが重畳されている。部分ＰＡは、推論結果表示フィールド７２の推論結果に対して肯定的な影響を与えた要素あるいは部分を示している。

さらに、各表示領域８４ａ，８４ｂに表示された学習データについて、部分ＰＢも重畳されている。部分ＰＢは、推論結果表示フィールド７２の推論結果に対して否定的な影響を与えた要素あるいは部分を示している。

同様に、各表示領域８５ａ，８５ｂに表示された画像についても、部分ＰＡとＰＢが重畳されている。部分ＰＡとＰＢの状態をみることにより、ユーザは、推定結果への影響を推定することができる。例えば、表示領域８４ｂの学習データの場合、リスの尻尾の部分ＰＡでリスと判断しているが、部分ＰＢのリスの顔では、推定結果を疑問視していると考えられる。

なお、ＧＵＩ２では、テストデータ表示領域７１に表示されたテストデータについても部分ＰＡとＰＢが表示されている。

図９は、推論結果表示フィールド７２の推論結果が「リス」と表示されているが、「リス」の確率よりも低い確率で「ハムスター」の推論結果が得られている場合を示している。よって、ユーザは、各表示領域８４ａ，８４ｂ，８５ａ，８５ｂにおいて、推論結果表示フィールド７２の推論結果に対して肯定的な影響を与えている部分と、推論結果表示フィールド７２の推論結果に対して否定的な影響を与えている部分とを直観的に理解することができる。

選択学習データ表示部８８は、ユーザにより選択された学習データを拡大表示する領域である。ユーザは、選択学習データ表示部８８に表示された学習データ中の注視する領域を設定することができる。例えば、ユーザは、マウス２１ａを用いて、ＧＵＩ２上のカーソル９１を移動させて表示領域８４ｂに表示された学習データを選択すると、選択された学習データは、選択学習データ表示部８８に表示される。

その後、ユーザは、選択学習データ表示部８８に表示された画像に対して、所定のコマンドを選択して、自由が線を描画できるモード下で、仮想ペン９２を用いて囲み線９３を描画することができる。ユーザが確定ボタン８９をクリックすると、線９３で囲まれた内側の領域以外の領域は、マスク領域として設定される。この設定されたマスク領域に基づく指定注視領域が、テーブルデータＴＢＬのメタ情報に登録される。図９では、表示領域８４ｂに表示された学習データが選択されて、線９３によりマスク領域が設定されていることが示されている。

また、推論結果表示フィールド７２の推論結果が間違っていたときに、ユーザは、どの学習データが影響して推論結果が間違ったことが分かる場合がある。例えば、テストデータ表示領域７１に表示されたテストデータが「リス」の画像であるにも拘わらず、推論結果表示フィールド７２に「ハムスター」が表示されているような場合に、表示領域８５ａの画像が推論結果に影響していることが分かる場合がある。

そのような場合、ユーザは、表示領域８５ａの近傍の削除ボタン８７をカーソル９１で選択すると、表示領域８５ａに表示されている学習データ自体を、学習用データベース３５から削除することができる。図９の場合、表示領域８５ａに表示されたハムスターの画像の顔部分の画像が大きく影響して、テストデータの推論結果に大きく影響していると考えられるので、ユーザは、表示領域８５ａに表示された学習データを学習用データベース３５から削除する。

不適切な学習データの削除、学習データのラベルの付け間違いの修正、指定注視領域の設定変更、等のコマンドは、監視装置１１からサーバ１２へ伝えられ、サーバ１２の修正部４２は、表示領域８５ａに表示されている学習データを修正する。その後、ユーザは、再学習ボタン９０にカーソル９１を移動してクリックすると、再学習を指示するコマンドがサーバ１２へ送信される。

その結果、サーバ１２は、学習プログラムを実行する。学習プログラムは、修正された学習用データベース３５を用いて学習を行う。

図１０は、再学習後のＧＵＩ２の表示例を示す図である。学習データの削除により、表示領域８５ａには、図９において表示領域８５ｂに表示されていた学習データが表示され、表示領域８５ｂには、表示領域８５ａの次に類似度が高い学習データが表示される。

また、図１０では、図９において線９３により囲まれた領域を指定注視領域として指定されたため、テストデータ表示領域７１において、リスの尻尾の部分ＰＡが表示されなくなっている。さらに、図９では、表示領域８４ｂでは部分ＰＡが識別表示されていたが、図９の選択学習データ表示部８８の部分ＰＡは、マスク領域とされたため、学習には利用されないため、図１０のテストデータ表示領域７１においては、判断根拠としての部分ＰＡとしては、表示されない。

図１１は、テストデータをサーバ１２へ供給してから学習データの再学習までの処理の流れを示すフローチャートである。監視システム１が稼働しているとき、監視装置１１からの画像データに基づいて、機械学習モデル３６を用いて推論が行われ、推論結果が監視装置１１へ送信される監視処理が実行されている（ステップ（以下、Ｓと略す）１）。

推論結果に間違いがあった場合等、ユーザが推論結果の評価を行いたいとき、例えば推論結果が間違った画像データをテストデータとして、評価指示コマンドと共にサーバ１２へ送信する。

テストデータが送信されなければ（Ｓ２：ＮＯ）、監視システム１は、監視処理を継続する。テストデータが送信されると（Ｓ２：ＹＥＳ）、サーバ１２は、上述した学習データの分析処理を実行する（Ｓ３）。分析処理は、図５に示した推論／可視化部５１の処理である。

ユーザが分析結果を見て、例えば図８あるいは図９のＧＵＩを見て、再学習が必要ないと判断すると（Ｓ４：ＮＯ）、処理は、Ｓ１に戻る。ユーザが分析結果を見て、再学習が必要と判断すると（Ｓ４：ＹＥＳ）、上述した学習データの修正などを行い、再学習のコマンドをサーバ１２へ送信する。その結果、サーバ１２において、修正後の学習データを用いた再学習が実行される。学習時のモデルパラメータの更新は、推論結果が正解のラベル情報と一致するように、推論注視領域が指定注視領域と一致するという条件で、確率的勾配降下法等によってモデルパラメータを最適化することによって行われる。再学習により、機械学習モデル３６が修正されるので、推論結果の精度は高まる。

以上のように、上述した実施形態によれば、テストデータについての推論結果に寄与した学習データが抽出され、かつその学習データのどの要素あるいはどの部分が、テストデータの推論結果に影響したかが可視化されるので、ユーザは、そのテストデータの推論結果に影響した、学習データの要素あるいは部分を直観的に理解することができる。例えば、上述した各ＧＵＩ１，ＧＵＩ２に示したように、学習データのどの要素あるいはどの部分を学習したことによって、その推論結果が得られたかを、ユーザは、直観的に理解することができる。その結果、再学習を迅速に行うことができる。

以上のように、上述した実施形態によれば、機械学習モデルにおいて、学習データのどの要素あるいはどの部分が、入力された入力データの推論結果に影響を及ぼしたかを可視化することができる推論結果評価システム、推論結果評価装置及び推論結果評価方法を提供することができる。

なお、上述した実施形態は、機械学習モデルを用いた推論を行う監視システムに応用した例であるが、監視システム以外の他のシステムにも適用可能である。

なお、以上説明した動作を実行するプログラムは、コンピュータプログラム製品として、フレキシブルディスク、ＣＤ－ＲＯＭ等の可搬媒体や、ハードディスク等の記憶媒体の非一時的なコンピュータ読み出し可能な媒体に、その全体あるいは一部が記録され、あるいは記憶されている。そのプログラムがコンピュータにより読み取られて、動作の全部あるいは一部が実行される。あるいは、そのプログラムの全体あるいは一部を通信ネットワークを介して流通または提供することができる。利用者は、通信ネットワークを介してそのプログラムをダウンロードしてコンピュータにインストールしたり、あるいは記録媒体からコンピュータにインストールしたりすることで、容易に本実施の形態の推論結果評価システムを実現することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として例示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１監視システム、１１監視装置、１２サーバ、１２ａクラウド、１３ネットワーク、１４カメラ、２１ａマウス、２１ｂキーボード、２２カメラ、２２ａ検出装置、２３モニタ、２３ａ画面、３１推論装置、３２通信インターフェース、３３プロセッサ、３４メモリ、３４ａプログラム領域、３５学習用データベース、３６機械学習モデル、４１学習部、４１ａデータ入力部、４１ｂデータ前処理部、４１ｃ推論実行部、４１ｄモデルパラメータ更新部、４２修正部、５１可視化部、５２データ取得部、５３推論部、５３ａデータ前処理部、５３ｂ推論実行部、５４演算部、５４ａ重要学習データ抽出部、５４ｂ学習データ影響算出部、５５結果出力部、６１特徴量抽出部、６２注視領域抽出部、６３推論処理部、７１テストデータ表示領域、７２推論結果表示フィールド、７３学習データ表示領域、７４表示切替ボタン、７４ａ、７４ｂボタン、７５スライダ、７６学習データ表示領域、８１、８２学習データ表示領域、８３表示数設定フィールド、８４ａ，８４ｂ，８５ａ，８５ｂ表示領域、８６推論結果表示フィールド、８７削除ボタン、８８選択学習データ表示部、８９確定ボタン、９０再学習ボタン、９１カーソル、９２仮想ペン、９３線。

Claims

入力データを指定する入力データ指定部と、
前記入力データに基づいて、機械学習モデルを用いた推論を実行する推論部と、
前記入力データについての前記推論部の推論結果に寄与した学習データを、抽出学習データとして、複数の学習データから抽出する学習データ抽出部と、
前記抽出学習データの要素毎または所定の部分毎に、前記推論結果に対する影響度を算出する影響度算出部と、
前記抽出学習データにおける前記要素毎または前記所定の部分毎の前記影響度を可視化する影響度可視化部と、
を有する推論結果評価システム。
前記影響度算出部は、推定結果に含まれる確率値を前記抽出学習データの各要素又は各部分の値で偏微分して得られた値を、前記各要素又は前記各部分の前記影響度とする、請求項１に記載の推論結果評価システム。
前記影響度可視化部は、前記影響度が所定の閾値以上の前記各要素又は前記各部分を、他の要素又は他の部分と識別可能に表示する、請求項１に記載の推論結果評価システム。
前記所定の閾値は、変更可能である、請求項３に記載の推論結果評価システム。
前記学習データを修正する修正部を有する、請求項１に記載の推論結果評価システム。
前記修正部は、前記学習データのラベル情報の変更、前記学習データの注視領域の設定、及び前記学習データの削除の少なくとも１つを実行可能である、請求項５に記載の推論結果評価システム。
前記学習データは、画像データを含み、
前記影響度算出部は、推定結果に含まれる確率値を前記画像データの各画素値で偏微分して得られた値を、前記各画素の前記影響度とする、請求項１から６のいずれか１つに記載の推論結果評価システム。
入力データに基づいて機械学習モデルを用いた推論の推論結果に寄与した学習データを、抽出学習データとして、複数の学習データから抽出する学習データ抽出部と、
前記抽出学習データの要素毎または所定の部分毎に、前記推論結果に対する影響度を算出する影響度算出部と、
前記抽出学習データにおける前記要素毎または前記所定の部分毎の前記影響度を可視化する影響度可視化部と、
を有する推論結果評価装置。
入力データを指定し、
前記入力データに基づいて、機械学習モデルを用いた推論を実行し、
前記入力データについての前記推論の推論結果に寄与した学習データを、抽出学習データとして、複数の学習データから抽出し、
前記抽出学習データの要素毎または所定の部分毎に、前記推論結果に対する影響度を算出し、
前記抽出学習データにおける前記要素毎または前記所定の部分毎の前記影響度を可視化する、
推論結果評価方法。