JP2022096379A

JP2022096379A - 画像出力プログラム，画像出力方法および画像出力装置

Info

Publication number: JP2022096379A
Application number: JP2020209443A
Authority: JP
Inventors: 航太穴田; Kota Anada
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2022-06-29
Also published as: US20220198216A1

Abstract

【課題】機械学習モデルによる推定結果が画像のどの領域に基づいて行なわれたかを提示できるようにする。【解決手段】第１の画像を機械学習モデルに入力し、第１の画像の特徴量と機械学習モデルの第１の推定結果とを取得し、第１の画像の特徴量に基づいて、複数の画像から第２の画像を選択し、第２の画像を前記機械学習モデルに入力し、機械学習モデルの第２の推定結果を取得し、第１の画像と第１の推定結果とに基づいて、第１の画像のうち第１の推定結果に他の領域と比べて寄与が大きい領域を示す第３の画像を生成し、第２の画像と第２の推定結果とに基づいて、第２の画像のうち第２の推定結果に他の領域と比べて寄与が大きい領域を示す第４の画像を生成し、第３の画像と第４の画像とを出力する。【選択図】図１

Description

本発明は、画像出力プログラム，画像出力方法および画像出力装置に関する。

例えば、システムの運用保守開発において見積書の作成や設計を行なうために、既存の設計資料等を参照する場合がある。

従来においては、ユーザは、サーバ等の共有フォルダに対して、フォルダ構成やファイル名等に基づいて探索を行なうことで、設計資料等の目的のドキュメントを取得する。

また、近年においては、ドキュメントをクロールして自然文検索を行なうことで、共有フォルダにおける置き場やフォルダ構成の知識がなくても、検索文を含むドキュメントの取得を可能とする手法も知られている。

特開２００７－３１７１３１号公報特開２００８－８３８９８号公報特開２００８－１４６６０２号公報

このような従来のドキュメント検索手法においては、自然文を検索文として入力する必要があるので、例えば、特定の画面データ（例えば、ユーザインタフェース画面やグラフ）を含むドキュメントを検索したい場合に、容易に検索することができない。そこで、画像を検索キーとして用いて類似する画像を検索することが考えられる。
しかしながら、画像を検索キーとする検索により類似の画像を特定しても、画像のどの領域に基づいて類似と判断したのか提示できないという課題がある。
１つの側面では、本発明は、機械学習モデルによる推定結果が画像のどの領域に基づいて行なわれたかを提示できるようにすることを目的とする。

このため、この画像出力プログラムは、第１の画像を機械学習モデルに入力し、前記第１の画像の特徴量と前記機械学習モデルの第１の推定結果とを取得し、前記第１の画像の特徴量に基づいて、複数の画像から第２の画像を選択し、前記第２の画像を前記機械学習モデルに入力し、前記機械学習モデルの第２の推定結果を取得し、前記第１の画像と前記第１の推定結果とに基づいて、前記第１の画像のうち前記第１の推定結果に他の領域と比べて寄与が大きい領域を示す第３の画像を生成し、前記第２の画像と前記第２の推定結果とに基づいて、前記第２の画像のうち前記第２の推定結果に他の領域と比べて寄与が大きい領域を示す第４の画像を生成し、前記第３の画像と第４の画像とを出力する、処理をコンピュータに実行させる。

一実施形態によれば、機械学習モデルによる推定結果が画像のどの領域に基づいて行なわれたかを提示できるようにすることができる。

実施形態の一例としての情報処理装置の構成を模式的に示す図である。実施形態の一例としての情報処理装置のハードウェア構成を例示する図である。実施形態の一例としての情報処理装置の画像ＤＢが管理する情報を例示する図である。実施形態の一例としての情報処理装置における提示情報を例示する図である。実施形態の一例としての情報処理装置におけるドキュメント登録処理部の処理を説明するためのフローチャートである。実施形態の一例としての情報処理装置におけるドキュメント検索処理を説明するためのフローチャートである。実施形態の一例としての情報処理装置における説明可能ＡＩ部による処理を説明するためのフローチャートである。

以下、図面を参照して画像出力プログラム，画像出力方法および画像出装置にかかる実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

（Ａ）構成
図１は実施形態の一例としての情報処理装置１の構成を模式的に示す図である。

情報処理装置１は、入力されたデータ（入力データ）に類似するデータを含むデータを検索して提示する。すなわち、情報処理装置１は、入力データを検索キーとする検索機能を実現する。また、情報処理装置１は、類似判断の根拠を説明する情報をユーザに提示するＸＡＩ（Explainable Artificial Intelligence：説明可能なＡＩ）を実現する。

以下、検索キーとして入力される入力データが画像データであり、情報処理装置１が、入力された画像データと類似する画像データを含むドキュメントを検索する例について示す。

図２は実施形態の一例としての情報処理装置１のハードウェア構成を例示する図である。

情報処理装置１は、例えば、プロセッサ１１，メモリ１２，記憶装置１３，グラフィック処理装置１４，入力インタフェース１５，光学ドライブ装置１６，機器接続インタフェース１７およびネットワークインタフェース１８を構成要素として有する。これらの構成要素１１～１８は、バス１９を介して相互に通信可能に構成される。

プロセッサ（処理部）１１は、情報処理装置１全体を制御する。プロセッサ１１は、マルチプロセッサであってもよい。プロセッサ１１は、例えばＣＰＵ，ＭＰＵ（Micro Processing Unit），ＤＳＰ（Digital Signal Processor），ＡＳＩＣ（Application Specific Integrated Circuit），ＰＬＤ（Programmable Logic Device），ＦＰＧＡ（Field Programmable Gate Array）のいずれか一つであってもよい。また、プロセッサ１１は、ＣＰＵ，ＭＰＵ，ＤＳＰ，ＡＳＩＣ，ＰＬＤ，ＦＰＧＡのうちの２種類以上の要素の組み合わせであってもよい。

そして、プロセッサ１１が情報処理装置１用の制御プログラム（画像出力プログラム：図示省略）を実行することにより、図１に例示する、入力受付処理部１０１，ニューラルネットワーク（Neural Network：ＮＮ）１０２，ドキュメント登録処理部１０３，検索部１０４，説明可能ＡＩ（Artificial Intelligence）部１０５，提示情報作成部１０６および画像データベース（Data Base：ＤＢ）１０７としての機能が実現される。これにより、情報処理装置１は、画像出力装置として機能する。

情報処理装置１に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、情報処理装置１に実行させるプログラムを記憶装置１３に格納しておくことができる。プロセッサ１１は、記憶装置１３内のプログラムの少なくとも一部をメモリ１２にロードし、ロードしたプログラムを実行する。

また、情報処理装置１（プロセッサ１１）に実行させるプログラムを、光ディスク１６ａ，メモリ装置１７ａ，メモリカード１７ｃ等の非一時的な可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１１からの制御により、記憶装置１３にインストールされた後、実行可能になる。また、プロセッサ１１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

メモリ１２は、ＲＯＭ（Read Only Memory）およびＲＡＭ（Random Access Memory）を含む記憶メモリである。メモリ１２のＲＡＭは情報処理装置１の主記憶装置として使用される。ＲＡＭには、プロセッサ１１に実行させるプログラムの少なくとも一部が一時的に格納される。また、メモリ１２には、プロセッサ１１による処理に必要な各種データが格納される。

記憶装置１３は、ハードディスクドライブ（Hard Disk Drive：ＨＤＤ）、ＳＳＤ（Solid State Drive）、ストレージクラスメモリ（Storage Class Memory：ＳＣＭ）等の記憶装置であって、種々のデータを格納するものである。記憶装置１３は、情報処理装置１の補助記憶装置として使用される。記憶装置１３には、ＯＳ（Operating System）プログラム，制御プログラムおよび各種データが格納される。制御プログラムには画像出力プログラムが含まれる。
制御プログラム（画像出力プログラム）は、コンピュータ読み取り可能な非一時的な記録媒体に記録されたプログラムに相当する。

なお、補助記憶装置としては、ＳＣＭやフラッシュメモリ等の半導体記憶装置を使用することもできる。また、複数の記憶装置１３を用いてＲＡＩＤ（Redundant Arrays of Inexpensive Disks）を構成してもよい。

また、記憶装置１３には、上述した入力受付処理部１０１，ニューラルネットワーク１０２，ドキュメント登録処理部１０３，検索部１０４，説明可能ＡＩ部１０５および提示情報作成部１０６が各処理を実行する際に生成される各種データを格納してもよい。

グラフィック処理装置１４には、モニタ１４ａが接続されている。グラフィック処理装置１４は、プロセッサ１１からの命令に従って、画像をモニタ１４ａの画面に表示させる。モニタ１４ａとしては、ＣＲＴ（Cathode Ray Tube）を用いた表示装置や液晶表示装置等が挙げられる。

入力インタフェース１５には、キーボード１５ａおよびマウス１５ｂが接続されている。入力インタフェース１５は、キーボード１５ａやマウス１５ｂから送られてくる信号をプロセッサ１１に送信する。なお、マウス１５ｂは、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル，タブレット，タッチパッド，トラックボール等が挙げられる。

光学ドライブ装置１６は、レーザ光等を利用して、光ディスク１６ａに記録されたデータの読み取りを行なう。光ディスク１６ａは、光の反射によって読み取り可能にデータを記録された可搬型の非一時的な記録媒体である。光ディスク１６ａには、ＤＶＤ（Digital Versatile Disc），ＤＶＤ－ＲＡＭ，ＣＤ－ＲＯＭ（Compact Disc Read Only Memory），ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等が挙げられる。

機器接続インタフェース１７は、情報処理装置１に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース１７には、メモリ装置１７ａやメモリリーダライタ１７ｂを接続することができる。メモリ装置１７ａは、機器接続インタフェース１７との通信機能を搭載した非一時的な記録媒体、例えばＵＳＢ（Universal Serial Bus）メモリである。メモリリーダライタ１７ｂは、メモリカード１７ｃへのデータの書き込み、またはメモリカード１７ｃからのデータの読み出しを行なう。メモリカード１７ｃは、カード型の非一時的な記録媒体である。

ネットワークインタフェース１８は、ネットワークに接続される。ネットワークインタフェース１８は、ネットワークを介してデータの送受信を行なう。ネットワークには他の情報処理装置や通信機器等が接続されてもよい。

情報処理装置１は、図１に示すように、入力受付処理部１０１，ニューラルネットワーク１０２，ドキュメント登録処理部１０３，検索部１０４，説明可能ＡＩ部１０５，提示情報作成部１０６および画像ＤＢ１０７を備える。
ドキュメント登録処理部１０３は、画像データを含むドキュメントに関する情報を画像ＤＢ１０７に登録する。

ドキュメント登録処理部１０３は、ドキュメントから画像データを抽出し、抽出した画像データに対してニューラルネットワーク１０２の機械学習モデルを用いて特徴量（特徴量ベクトル）を算出させる。ドキュメントからの画像データの抽出は、既知の手法を用いて実現することができ、その説明は省略する。
ドキュメント登録処理部１０３は、画像ＤＢ１０７に、算出された特徴量と、画像を含むドキュメントのファイル名や格納位置等の情報とを記憶させる。
画像ＤＢ１０７は、画像データに関する情報を管理するデータベースである。
図３は実施形態の一例としての情報処理装置１の画像ＤＢ１０７が管理する情報を例示する図である。

図３に示す例においては、画像ＤＢ１０７が画像データ毎に管理するエントリを示している。図３に例示するエントリは、fess_id，site，filename，feature_vector，image_data，page_number，label，categoryおよびfile_formatを備える。画像ＤＢ１０７は、これらの情報によって構成されるエントリを画像データ毎に管理する。

fess_idは、当該画像データが含まれるドキュメントを管理する識別情報であり、例えば、検索エンジンによって設定される。siteは、ドキュメントの保存場所であり、例えば、ファイルパスが用いられる。filenameは、ドキュメントのファイル名である。feature_vectorは、当該画像の特徴量（特徴量ベクトル）であり、ニューラルネットワーク１０２によって算出された値が用いられる。

image_dataは、画像データのバイナリデータである。page_numberは、ドキュメント内における当該画像データの位置（例えば、ページ番号）を示す情報である。labelは、当該画像に対してニューラルネットワーク１０２が設定したラベル（予測結果）である。例えば、問題の有無を表す値が用いられる。

categoryは、当該画像データの画像種別を示すキーワードである。file_formatは、当該画像データのデータフォーマット（例えば、jpeg，png）である。
ニューラルネットワーク１０２は、機械学習モデルを用いて、入力される画像データに対して推定を行なう。

ニューラルネットワークは、例えば、入力層と出力層との間に複数の隠れ層を含むディープニューラルネットワークである。例えば、隠れ層は、畳み込み層、プーリング層または全結合層等である。

ニューラルネットワークは、入力データ（本実施形態では画像データ）を入力層に入力し、畳み込み層やプーリング層などで構成される隠れ層にて所定の計算を順次実行することで、演算により得られる情報を入力側から出力側に順次伝えるフォーワッド方向の処理（順伝播処理）を実行する。フォーワッド方向の処理の実行後、出力層から出力される出力データと正解データとから得られる誤差関数の値を小さくするために、フォーワッド方向の処理で使用するパラメータを決定するバックワード方向の処理（逆伝播処理）を実行する。そして、逆伝播処理の結果に基づいて重み等の変数を更新する更新処理が実行される。例えば、逆伝播処理の計算に使用される重みの更新幅を決定するアルゴリズムとして、勾配降下法が使用される。

機械学習モデルは、例えば、既知の機械学習済みモデルを用いてもよい。また、この機械学習済みモデルに対して、予め、画像データと正解データとを備える訓練データを用いた再訓練を行なうことで、ファインチューニングを行なってもよい。

また、ニューラルネットワーク１０２は、入力された画像データに対して特徴量（特徴量ベクトル）を算出する。ニューラルネットワーク１０２は、算出した画像データの特徴量等をメモリ１２や記憶装置１３の所定の記憶領域に記憶させる。

ニューラルネットワークは、ハードウェア回路であってもよいし、プロセッサ１１等によりコンピュータプログラム上で仮想的に構築される階層間を接続するソフトウェアによる仮想的なネットワークであってもよい。

入力受付処理部１０１は、ドキュメントを検索するための検索キーとなる画像データを受け付ける。以下、入力受付処理部１０１が受け付ける検索キーとなる画像データを検索画像データという場合がある。検索画像データは、第１の画像に相当する。検索画像データは、例えば、ユーザがキーボード１５ａやマウス１５ｂを用いて入力（指定）してもよい。

入力受付処理部１０１は、入力された検索画像データに対してニューラルネットワーク１０２の機械学習モデルを用いて特徴量（特徴量ベクトル）を算出させる。また、入力受付処理部１０１は、ニューラルネットワーク１０２に算出させた検索画像データの特徴量を検索部１０４に受け渡す。入力受付処理部１０１は、例えば、メモリ１２や記憶装置１３の所定の記憶領域を介して検索部１０４に検索画像データの特徴量を受け渡してよい。

検索部１０４は、画像ＤＢ１０７に登録された複数の画像データの中から検索画像データの特徴量と類似する画像データを検索し、この画像データを含むドキュメントを検索結果として出力する。

例えば、検索部１０４は、検索画像データの特徴量と、画像ＤＢ１０７に登録された各画像データの特徴量とのコサイン類似度を算出することで、検索画像データの特徴量と、画像ＤＢ１０７に登録された各画像データの特徴量との類似判断を行なう。以下、検索画像データの特徴量と、画像ＤＢ１０７に登録された各画像データの特徴量との類似判断を行なうことを、画像類似判断という場合がある。

検索部１０４は、画像類似判断の結果、類似性が高い複数（例えば、類似性が上位の３つ）の画像データ（類似画像データ群）を決定する。なお、検索部１０４により決定された、検索画像データとの類似度が高い画像データを類似画像データという場合がある。類似画像データは第２の画像に相当する。なお、検索画像データとの類似度が閾値以上の画像データを類似画像データとしてもよく、類似画像データは適宜変更して実施することができる。

検索部１０４は、決定した複数の類似画像データに関する情報を説明可能ＡＩ部１０５に通知する。例えば、検索部１０４は、これらの類似画像データを含む各ドキュメントの保存場所（ドキュメントパス）を説明可能ＡＩ部１０５に通知する。検索部１０４は、各類似画像に関する画像ＤＢ１０７のエントリの各情報を説明可能ＡＩ部１０５に通知してもよい。説明可能ＡＩ部１０５への情報通知は、メモリ１２や記憶装置１３の所定の記憶領域を介して行なってもよい。

説明可能ＡＩ部１０５は、ニューラルネットワーク１０２の機械学習モデルにおける予測結果や推定結果に至るプロセスについて、人に説明可能な状態とする情報（可視化情報）を作成する。すなわち、説明可能ＡＩ部１０５は、ニューラルネットワーク１０２の機械学習モデルにおける予測結果や推定結果の判断根拠説明機能を実現する。

説明可能ＡＩ部１０５は、既知の種々のＸＡＩ手法を用いて可視化情報を作成してよい。本実施形態においては、説明可能ＡＩ部１０５は、Grad-CAM（Gradient-weighted Class Activation Mapping）を用いて可視化情報を作成する。

説明可能ＡＩ部１０５は、検索画像データをニューラルネットワーク１０２に入力することで得られる推定（分類）結果および中間層の特徴量を取得する。また、説明可能ＡＩ部１０５は、得られた分類結果と中間層の特徴量から勾配を求めることで判断基準を定量化し、画像化する。

同様に、説明可能ＡＩ部１０５は、各類似画像データをニューラルネットワーク１０２に入力することで得られる推定（分類結果）および中間層の特徴量をそれぞれ取得する。また、説明可能ＡＩ部１０５は、得られた分類結果と中間層の特徴量とから勾配を求めることで判断基準を定量化し、画像化する。

説明可能ＡＩ部１０５は、検索画像データをニューラルネットワーク１０２の機械学習モデルに入力して第１推定結果（第１の推定結果）を取得する。そして、説明可能ＡＩ部１０５は、第１推定結果に基づいて、Grad-CAMにより、検索画像データにおける第１推定結果の根拠を表す第１ヒートマップ（第３の画像）を生成する。説明可能ＡＩ部１０５は、生成した第１ヒートマップをメモリ１２や記憶装置１３の所定の記憶領域に記憶させる。

第１ヒートマップにおいては、検索画像データにおいて、上述した第１推定結果に他の領域と比べて寄与が大きい領域を、目立つ色を用いたハイライト表示で示す。このハイライト表示は、ニューラルネットワーク１０２におけるＣＮＮ（Convolutional Neural Network：畳み込みニューラルネットワーク）が着目している特徴箇所を表す。なお、Grad-CAMによるヒートマップの生成手法は既知であり、その説明は省略する。

また、説明可能ＡＩ部１０５は、検索部１０４によって選択された複数の類似画像データを、それぞれニューラルネットワーク１０２の機械学習モデルに入力して第２推定結果（第２の推定結果）をそれぞれ取得する。

そして、説明可能ＡＩ部１０５は、第２推定結果に基づいて、Grad-CAMにより、複数の類似画像データのそれぞれについて、対応する第２推定結果の根拠を表す第２ヒートマップ（第４の画像）を生成する。説明可能ＡＩ部１０５は、生成した第２ヒートマップをメモリ１２や記憶装置１３の所定の記憶領域に記憶させる。

第２ヒートマップにおいても、検索画像データにおいて、上述した第２推定結果に他の領域と比べて寄与が大きい領域を、目立つ色を用いたハイライト表示で示す。
説明可能ＡＩ部１０５は、検索画像データと、その推定結果に対する第１ヒートマップ（第３の画像）とを提示情報作成部１０６に受け渡す。
また、説明可能ＡＩ部１０５は、複数の類似画像データと、それらの推定結果に対する第２ヒートマップ（第４の画像）とを提示情報作成部１０６に受け渡す。

提示情報作成部１０６は、入力された検索画像データに類似する類似画像データを含むドキュメントの情報を提示するとともに、類似判断の根拠を説明するヒートマップ画像をユーザに提示する提示情報２００を作成する。

提示情報２００は、検索キーとして入力された検索画像データに類似する類似画像データを含むドキュメントの検索結果を表す。以下、提示情報２００を検索結果出力画面２００といってもよい。また、提示情報２００は、各類似画像データを決定（推定）するに際して行なわれた類似判断の根拠を示す情報を表す。
図４は実施形態の一例としての情報処理装置１における提示情報２００を例示する図である。

この図４に例示する提示情報２００は、検索画像２０１，ヒートマップ２０２および類似候補画像情報２０３―１～２０３－３を備える。
検索画像２０１は、検索画像データ（第１の画像）を示す。ヒートマップ２０２は、検索画像データに対して作成された第１ヒートマップ（第３の画像）である。

類似候補画像情報２０３―１～２０３－３は、それぞれ検索画像データに類似する類似画像データに関する情報であり、本情報処理装置１においては、３つの類似画像データを類似候補１～３として表す。

図４に示す例においては、類似候補１（類似候補画像情報２０３―１）が最も検索画像データに類似度が高い類似画像データを表す。次いで、類似候補２（類似候補画像情報２０３―２），類似候補３（類似候補画像情報２０３―３）の順で類似度が低くなるものとする。すなわち、提示情報２００においては、検索画像データに類似する複数の類似画像データに対して、類似度に応じたランキング付けをして表す。
以下、類似候補画像情報２０３―１～２０―３を特に区別しない場合には、類似候補画像情報２０３と表す。

類似候補画像情報２０３―１は、類似画像２０４―１，ヒートマップ２０５―１およびドキュメントパス２０６―１を備える。同様に、類似候補画像情報２０３―２は、類似画像２０４―２，ヒートマップ２０５―２およびドキュメントパス２０６―２を備える。さらに、類似候補画像情報２０３―３は、類似画像２０４―３，ヒートマップ２０５―３およびドキュメントパス２０６―３を備える。

以下、類似画像２０４―１～２０４―３を特に区別しない場合には、類似画像２０４と表す。また、ヒートマップ２０５－１～２０５－３を特に区別しない場合には、ヒートマップ２０５と表す。さらに、ドキュメントパス２０６―１～２０６―３を特に区別しない場合には、ドキュメントパス２０６と表す。
類似画像２０４―１～２０４－３は、検索部１０４により決定された３つの類似画像データの画像（第２の画像）である。

ヒートマップ２０５は、それぞれ、説明可能ＡＩ部１０５により生成された、各類似画像データに対応する第２ヒートマップ（第４の画像）である。検索結果出力画面２００において、ヒートマップ２０２，２０５は、ニューラルネットワーク１０２の機械学習モデルによる類似判断の根拠を表す。
ドキュメントパス２０６は、それぞれ、類似画像データが含まれるドキュメントの格納位置を示す情報である。

類似候補画像情報２０３においては、類似画像２０４に対して、対応するヒートマップ２０５およびドキュメントパス２０６が並べて配置されている。また、ドキュメントパス２０６をクリックすることで、当該ドキュメントを開くことができるようにしてもよい。
作成された検索結果出力画面２００は、例えば、モニタ１４ａ等に表示され、ユーザに提供される。
提示情報作成部１０６は、検索結果出力画面２００を、例えば、構造化文書を用いてウェブページとして作成してもよく、適宜変更して実施することができる。

ユーザは、類似候補画像情報２０３を参照することで、検索部１０４が検索画像２０１に類似すると判断した類似画像データについて、そのヒートマップ２０５とドキュメントパス２０６とを視認することで、機械学習モデルによる推定の妥当性等を判断することができる。

（Ｂ）動作
上述の如く構成された実施形態の一例としての情報処理装置１におけるドキュメント登録処理部１０３の処理を、図５に示すフローチャート（ステップＡ１～Ａ４）に従って説明する。
この図５に示す処理は、システムの運用開始前やドキュメントが新規に作成される度に実行される。

ステップＡ１において、例えば、ドキュメント登録処理部１０３は、画像データを含むドキュメントを受け付ける。例えば、ユーザやシステム管理者等がドキュメントが保存されたフォルダやドキュメントそのものをキーボード１５ａやマウス１５ｂを用いて入力すると、ドキュメント登録処理部１０３は指定されたドキュメントを読み込むことで受け付ける。
ステップＡ２において、ドキュメント登録処理部１０３は、ステップＡ１において受け付けたドキュメントから画像データを抽出する。

ステップＡ３において、ドキュメント登録処理部１０３は、抽出した画像データに対してニューラルネットワーク１０２の機械学習モデルを用いて特徴量を算出させる。

ステップＡ４において、ドキュメント登録処理部１０３は、画像ＤＢ１０７に、画像データ毎にfess_id，site，filename，feature_vector，image_data，page_number，label，categoryおよびfile_formatを登録する（エントリ登録）。その後、処理を終了する。
次に、実施形態の一例としての情報処理装置１におけるドキュメント検索処理を、図６に示すフローチャート（ステップＢ１～Ｂ６）に従って説明する。

ステップＢ１において、ユーザは、キーボード１５ａやマウス１５ｂを用いて、検索画像データを本情報処理装置１に入力する。入力受付処理部１０１は、入力された検索画像データをメモリ１２等の所定の記憶領域に記憶させる。

ステップＢ２において、入力受付処理部１０１は、入力された検索画像データに対してニューラルネットワーク１０２の機械学習モデルを用いて特徴量（特徴量ベクトル）を算出させる。これに従って、ニューラルネットワーク１０２は、検索画像データの特徴量を算出する。

ステップＢ３において、検索部１０４は、算出された検索画像データの特徴量と、画像ＤＢ１０７に登録された複数の画像データの各特徴量との類似度をそれぞれ求める。

ステップＢ４において、検索部１０４は、画像ＤＢ１０７に登録された複数の画像データの中から、特徴量が検索画像データの特徴量と類似する複数の画像データ（類似画像データ）を検索する。これらの類似画像データを類似候補といってもよい。

ステップＢ５において、説明可能ＡＩ部１０５は、ニューラルネットワーク１０２を用いたＸＡＩ手法により可視化情報を生成する。なお、この説明可能ＡＩ部１０５による処理は図７を用いて後述する。

ステップＢ６において、提示情報作成部１０６が、説明可能ＡＩ部１０５によって生成された可視化情報（第１推定結果，第１ヒートマップ，第２推定結果および第２ヒートマップ）を用いて、提示情報（検索結果出力画面）２００を作成し、ユーザに提供する。その後、処理を終了する。

次に、実施形態の一例としての情報処理装置１における説明可能ＡＩ部１０５による処理を、図７に示すフローチャート（ステップＣ１～Ｃ４）に従って説明する。

ステップＣ１において、説明可能ＡＩ部１０５は、検索画像データをニューラルネットワーク１０２の機械学習モデルに入力して第１推定結果（第１の推定結果）を取得する。

ステップＣ２において、説明可能ＡＩ部１０５は、第１推定結果に基づいて、Grad-CAMとしての機能を用いて、第１推定結果の根拠を表す第１ヒートマップ（第３の画像）を生成する。

ステップＣ３において、説明可能ＡＩ部１０５は、検索部１０４によって選択された複数の類似画像データを、それぞれニューラルネットワーク１０２の機械学習モデルに入力して第２推定結果（第２の推定結果）をそれぞれ取得する。

ステップＣ４において説明可能ＡＩ部１０５は、各第２推定結果に基づいて、Grad-CAMとしての機能を用いて、各第２推定結果の根拠を表す第２ヒートマップ（第４の画像）をそれぞれ生成する。その後、処理を終了する。

（Ｃ）効果
このように、本発明の一実施形態としての情報処理装置１によれば、ユーザが検索画像データを入力すると、入力受付処理部１０１がニューラルネットワーク１０２に、検索画像データの特徴量を算出させる。そして、検索部１０４が、当該検索画像データの特徴量に基づき、画像ＤＢ１０７から検索画像データに類似する類似画像データを含むドキュメントを検索する。
これにより、自然文での検索が困難な画像データを含むドキュメントを容易に検索することができる。

また、説明可能ＡＩ部１０５が、ＸＡＩ手法を用いて可視化情報を作成する。具体的には、説明可能ＡＩ部１０５は、検索画像データをニューラルネットワーク１０２の機械学習モデルに入力して第１推定結果を取得する。そして、説明可能ＡＩ部１０５は、第１推定結果に基づいて、Grad-CAMとしての機能を用いて、第１推定結果の根拠を表す第１ヒートマップを生成する。

さらに、説明可能ＡＩ部１０５は、検索部１０４によって選択された複数の類似画像データを、それぞれニューラルネットワーク１０２の機械学習モデルに入力して第２推定結果をそれぞれ取得する。そして、説明可能ＡＩ部１０５は、第２推定結果に基づいて、Grad-CAMにより、複数の類似画像データのそれぞれについて、対応する第２推定結果の根拠を表す第２ヒートマップを生成する。

そして、提示情報作成部１０６がこれらの情報を含む検索結果出力画面（提示情報）２００を作成する。これにより、機械学習モデルによる推定結果が画像のどの領域に基づいて行なわれたかを提示でき、ＡＩの判断根拠が可視化され、ユーザ（運用者）が、ＡＩの判断を信頼することができる。

説明可能ＡＩ部１０５が、画像ＤＢ１０７に格納する画像データの特徴量ベクトルや検索画像データの特徴量ベクトルの算出に用いたニューラルネットワーク１０２を用いて可視化情報（第１ヒートマップ，第２ヒートマップ）を作成する。すなわち、ニューラルネットワーク１０２を類似画像データの検索と可視化情報の作成とで共用することで、類似画像データの検索と可視化情報の作成とを組み合わせる。これにより、システム設計コストを低減することができる。

（Ｄ）その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

例えば、上述した実施形態においては、説明可能ＡＩ部１０５がGrad-CAMを用いて推定結果の根拠を示す第１ヒートマップや第２ヒートマップを作成しているが、これに限定されるものではない。例えば、Grad-CAMを拡張したGuided Grad-CAMを用いて第１ヒートマップや第２ヒートマップを作成してもよく、種々変更して実施することができる。

また、上述した実施形態においては、入力データが画像データである例を示したが、これに限定されるものではなく、種々変形して実施することができる。例えば、入力データが音声データや動画データであってもよく、適宜変更して実施することができる。

また、上述した実施形態においては、情報処理装置１が画像ＤＢ１０７としての機能を備えているが、これに限定されるものではない。例えば、画像ＤＢ１０７はネットワークを介して接続された外部のＤＢサーバに構築されてもよく、種々変形して実施することができる。
また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。

（Ｅ）付記
以上の実施形態に関し、さらに以下の付記を開示する。
（付記１）
第１の画像を機械学習モデルに入力し、前記第１の画像の特徴量と前記機械学習モデルの第１の推定結果とを取得し、
前記第１の画像の特徴量に基づいて、複数の画像から第２の画像を選択し、
前記第２の画像を前記機械学習モデルに入力し、前記機械学習モデルの第２の推定結果を取得し、
前記第１の画像と前記第１の推定結果とに基づいて、前記第１の画像のうち前記第１の推定結果に他の領域と比べて寄与が大きい領域を示す第３の画像を生成し、
前記第２の画像と前記第２の推定結果とに基づいて、前記第２の画像のうち前記第２の推定結果に他の領域と比べて寄与が大きい領域を示す第４の画像を生成し、
前記第３の画像と前記第４の画像とを出力する、
処理をコンピュータに実行させることを特徴とする画像出力プログラム。

（付記２）
前記第２の画像を含むドキュメントのドキュメントパスを出力する
処理を前記コンピュータに実行させることを特徴とする、付記１記載の画像出力プログラム。

（付記３）
前記選択する処理は、前記第１の画像の特徴量に基づいて、前記複数の画像から前記第１の画像に対する類似度が上位の複数の前記第２の画像を選択する処理を含み、
前記第４の画像を生成する処理は、複数の前記第２の画像のそれぞれに対して、前記第４の画像を生成する処理を含み、
前記出力する処理は、前記第３の画像と複数の前記第４の画像とを出力する処理を含む、
ことを特徴とする、付記１または２に記載の画像出力プログラム。

（付記４）
第１の画像を機械学習モデルに入力し、前記第１の画像の特徴量と前記機械学習モデルの第１の推定結果とを取得し、
前記第１の画像の特徴量に基づいて、複数の画像から第２の画像を選択し、
前記第２の画像を前記機械学習モデルに入力し、前記機械学習モデルの第２の推定結果を取得し、
前記第１の画像と前記第１の推定結果とに基づいて、前記第１の画像のうち前記第１の推定結果に他の領域と比べて寄与が大きい領域を示す第３の画像を生成し、
前記第２の画像と前記第２の推定結果とに基づいて、前記第２の画像のうち前記第２の推定結果に他の領域と比べて寄与が大きい領域を示す第４の画像を生成し、
前記第３の画像と前記第４の画像とを出力する、
処理をコンピュータが実行することを特徴とする画像出力方法。

（付記５）
前記第２の画像を含むドキュメントのドキュメントパスを出力する
処理を前記コンピュータが実行することを特徴とする、付記４記載の画像出力方法。

（付記６）
前記選択する処理は、前記第１の画像の特徴量に基づいて、前記複数の画像から前記第１の画像に対する類似度が上位の複数の前記第２の画像を選択する処理を含み、
前記第４の画像を生成する処理は、複数の前記第２の画像のそれぞれに対して、前記第４の画像を生成する処理を含み、
前記出力する処理は、前記第３の画像と複数の前記第４の画像とを出力する処理を含む、
ことを特徴とする、付記４または５に記載の画像出力方法。

（付記７）
第１の画像を機械学習モデルに入力し、前記第１の画像の特徴量と前記機械学習モデルの第１の推定結果とを取得し、
前記第１の画像の特徴量に基づいて、複数の画像から第２の画像を選択し、
前記第２の画像を前記機械学習モデルに入力し、前記機械学習モデルの第２の推定結果を取得し、
前記第１の画像と前記第１の推定結果とに基づいて、前記第１の画像のうち前記第１の推定結果に他の領域と比べて寄与が大きい領域を示す第３の画像を生成し、
前記第２の画像と前記第２の推定結果とに基づいて、前記第２の画像のうち前記第２の推定結果に他の領域と比べて寄与が大きい領域を示す第４の画像を生成し、
前記第３の画像と前記第４の画像とを出力する、
処理部を有することを特徴とする画像出力装置。

（付記８）
前記処理部が、
前記第２の画像を含むドキュメントのドキュメントパスを出力する
ことを特徴とする、付記７記載の画像出力装置。

（付記９）
前記処理部が、
前記選択する処理に、前記第１の画像の特徴量に基づいて、前記複数の画像から前記第１の画像に対する類似度が上位の複数の前記第２の画像を選択する処理を含み、
前記第４の画像を生成する処理に、複数の前記第２の画像のそれぞれに対して、前記第４の画像を生成する処理を含み、
前記出力する処理に、前記第３の画像と複数の前記第４の画像とを出力する処理を含む、
ことを特徴とする、付記７または８に記載の画像出力装置。

１情報処理装置
１０コンピュータ
１１プロセッサ（処理部）
１２メモリ
１３記憶装置
１４グラフィック処理装置
１４ａモニタ
１５入力インタフェース
１５ａキーボード
１５ｂマウス
１６光学ドライブ装置
１６ａ光ディスク
１７機器接続インタフェース
１７ａメモリ装置
１７ｂメモリリーダライタ
１７ｃメモリカード
１８ネットワークインタフェース
１８ａネットワーク
１９バス
１０１入力受付処理部
１０２ニューラルネットワーク
１０３ドキュメント登録処理部
１０４検索部
１０５説明可能ＡＩ部
１０６提示情報作成部
１０７ドキュメントデータベース
２００検索結果出力画面（提示情報）
２０１検索画像（第１の画像）
２０２ヒートマップ（第３の画像）
２０３ー１～２０３ー３，２０３類似候補画像情報
２０４ー１～２０４－３，２０４類似画像（第２の画像）
２０２ヒートマップ（第３の画像）
２０５ー１～２０５－３，２０５ヒートマップ（第４の画像）
２０６ー１，２０６－３，２０６ドキュメントパス

Claims

第１の画像を機械学習モデルに入力し、前記第１の画像の特徴量と前記機械学習モデルの第１の推定結果とを取得し、
前記第１の画像の特徴量に基づいて、複数の画像から第２の画像を選択し、
前記第２の画像を前記機械学習モデルに入力し、前記機械学習モデルの第２の推定結果を取得し、
前記第１の画像と前記第１の推定結果とに基づいて、前記第１の画像のうち前記第１の推定結果に他の領域と比べて寄与が大きい領域を示す第３の画像を生成し、
前記第２の画像と前記第２の推定結果とに基づいて、前記第２の画像のうち前記第２の推定結果に他の領域と比べて寄与が大きい領域を示す第４の画像を生成し、
前記第３の画像と前記第４の画像とを出力する、
処理をコンピュータに実行させることを特徴とする画像出力プログラム。
前記第２の画像を含むドキュメントのドキュメントパスを出力する
処理を前記コンピュータに実行させることを特徴とする、請求項１記載の画像出力プログラム。
前記選択する処理は、前記第１の画像の特徴量に基づいて、前記複数の画像から前記第１の画像に対する類似度が上位の複数の前記第２の画像を選択する処理を含み、
前記第４の画像を生成する処理は、複数の前記第２の画像のそれぞれに対して、前記第４の画像を生成する処理を含み、
前記出力する処理は、前記第３の画像と複数の前記第４の画像とを出力する処理を含む、
ことを特徴とする、請求項１または２に記載の画像出力プログラム。
第１の画像を機械学習モデルに入力し、前記第１の画像の特徴量と前記機械学習モデルの第１の推定結果とを取得し、
前記第１の画像の特徴量に基づいて、複数の画像から第２の画像を選択し、
前記第２の画像を前記機械学習モデルに入力し、前記機械学習モデルの第２の推定結果を取得し、
前記第１の画像と前記第１の推定結果とに基づいて、前記第１の画像のうち前記第１の推定結果に他の領域と比べて寄与が大きい領域を示す第３の画像を生成し、
前記第２の画像と前記第２の推定結果とに基づいて、前記第２の画像のうち前記第２の推定結果に他の領域と比べて寄与が大きい領域を示す第４の画像を生成し、
前記第３の画像と前記第４の画像とを出力する、
処理をコンピュータが実行することを特徴とする画像出力方法。
第１の画像を機械学習モデルに入力し、前記第１の画像の特徴量と前記機械学習モデルの第１の推定結果とを取得し、
前記第１の画像の特徴量に基づいて、複数の画像から第２の画像を選択し、
前記第２の画像を前記機械学習モデルに入力し、前記機械学習モデルの第２の推定結果を取得し、
前記第１の画像と前記第１の推定結果とに基づいて、前記第１の画像のうち前記第１の推定結果に他の領域と比べて寄与が大きい領域を示す第３の画像を生成し、
前記第２の画像と前記第２の推定結果とに基づいて、前記第２の画像のうち前記第２の推定結果に他の領域と比べて寄与が大きい領域を示す第４の画像を生成し、
前記第３の画像と前記第４の画像とを出力する、
処理部を有することを特徴とする画像出力装置。