JP2024044914A

JP2024044914A - 画像処理装置、学習モデルの生産方法、および推論方法

Info

Publication number: JP2024044914A
Application number: JP2022150740A
Authority: JP
Inventors: 祐生鵜飼; 弘亘藤吉; 隆義山下; 翼平川
Original assignee: Glory Ltd; Chubu University Educational Foundation
Current assignee: Glory Ltd; Chubu University Educational Foundation
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2024-04-02
Also published as: EP4343630A1; US20240104914A1

Abstract

【課題】未分類クラスの推論対象画像の類似画像を検索する画像検索処理においても判断根拠の説明性を向上させることが可能な技術を提供する。【解決手段】学習モデルは、プロトタイプベクトル（画像特徴概念候補を示すパラメータ列）を複数個生成し、ＣＮＮからの特徴マップ内の各ピクセルベクトルと一のプロトタイプベクトルとの類似性に基づき、入力画像と各プロトタイプとの類似度を複数のプロトタイプについて示す統合類似度ベクトルを生成する。画像処理装置３０は、各クラスにおける所属プロトタイプのプロトタイプ所属度を同一クラス内の２以上の画像のそれぞれに対して分配した、画像ごとのプロトタイプ所属度（分配プロトタイプ所属度）を求める。そして、各プロトタイプベクトルが各画像の分配プロトタイプ所属度に応じて、各画像に対応する特徴マップ内のいずれかのピクセルベクトルに対して近づくように、学習モデルが機械学習される。【選択図】図１２

Description

本発明は、画像処理装置（特に、機械学習における説明性を向上させる画像処理装置）、およびそれに関連する技術に関する。

近年、深層学習（ディープラーニング）などの機械学習を用いた推論処理技術が急速に進化を遂げている（特許文献１等参照）。

しかしながら、機械学習における学習モデルが非常に複雑であること等に起因して、学習モデルによる推論結果がどのような判断根拠に基づいて得られているのかが必ずしも明確ではない（説明が容易ではない）、という問題が存在する。

特に、推論結果が重要な影響を与える場面では、判断根拠の説明性を向上させることが要求されている。

たとえば、判断根拠の説明性、特に「透明性」（人間により理解可能なコンセプトで推論結果を説明できるか）を向上させることが可能な技術として、クラス分類問題にProtoPNetを適用する機械学習技術が存在する。当該技術においては、学習モデル内に設けた「プロトタイプ」（何らかの画像特徴を表す学習パラメータ）が用いられる。より具体的には、特徴マップ内の各平面位置における画像特徴（特徴マップ内のピクセルベクトル）へ向けて「プロトタイプ」が近づくように、機械学習が進められる。当該特徴マップは、学習用の入力画像を学習モデルに入力した際に当該学習モデル内の畳み込みニューラルネットワークから出力されるものである。当該特徴マップ内の各平面位置における画像特徴は、入力画像内の部分領域（画像パッチ）の画像特徴を表している。

このような機械学習により得られた学習モデルを用いた推論を行うことによれば、推論対象画像が特定画像の特定位置の部分領域（画像パッチ）に類似していること、を判断根拠として示すことが可能である。すなわち、透明性を高めることができる。

特開２０１８－２００５３１号公報

しかしながら、上述の技術は、クラス分類問題にProtoPNetを適用したものである。すなわち、当該技術は、推論対象画像が（既知の）複数のクラスのいずれに属するかを求めるクラス分類問題の解決にのみ利用することが可能である。

特に、当該技術（ProtoPNetを用いた従来技術）においては、クラス分類問題がターゲットであり、各プロトタイプはそれぞれ一の特定クラスのみに（一意に）関連付けられることが前提とされている。そして、当該前提に基づく損失関数（評価関数）を最適化するように機械学習が進められる。

それ故、当該技術は、そのままではクラス分類以外の用途には利用できない。たとえば、既知クラス以外の画像（未分類クラスの画像）を推論対象画像とし、当該推論対象画像に類似する類似画像を複数の画像の中から検索する画像検索処理等に当該技術をそのまま利用することはできない。

そこで、この発明は、既知クラス以外の画像（未分類クラスの画像）を含み得る推論対象画像に関してその類似画像を複数の画像の中から検索する画像検索処理においても判断根拠の説明性を向上させることが可能な技術を提供することを課題とする。

上記課題を解決すべく、本発明に係る画像処理装置は、畳み込みニューラルネットワークを備えて構成される学習モデルに関する機械学習を実行する制御部、を備え、前記学習モデルは、入力画像の入力に応じて前記畳み込みニューラルネットワーク内の所定層から得られる特徴マップであって前記入力画像内の部分領域ごとの特徴量を複数のチャンネルについて示す特徴マップを生成し、前記複数のチャンネルで構成される特定の画像特徴概念の候補を示すプロトタイプとして学習されるパラメータ列であるプロトタイプベクトルを複数個生成し、前記特徴マップ内の各ピクセルの各平面位置における前記複数のチャンネルに亘る画像特徴を表現するベクトルである各ピクセルベクトルと一のプロトタイプベクトルとの類似性に基づき、前記入力画像と各プロトタイプとの類似度を複数のプロトタイプについて示す統合類似度ベクトルを生成する、モデルであり、前記制御部は、学習用の複数の画像に基づく前記学習モデルの学習段階において、一のクラスに所属するプロトタイプである所属プロトタイプと、当該所属プロトタイプの前記一のクラスへの所属度合いを示すプロトタイプ所属度とを、前記学習用の前記複数の画像にラベル付けされた複数のクラスのそれぞれについて求めるとともに、各クラスにおける所属プロトタイプのプロトタイプ所属度を同一クラス内の２以上の画像のそれぞれに対して所定の基準に基づき分配した、画像ごとのプロトタイプ所属度である分配プロトタイプ所属度を求め、前記複数の画像に対応する複数の統合類似度ベクトルに基づく学習処理を実行する際に、各プロトタイプベクトルが各画像の分配プロトタイプ所属度に応じて、前記各画像に対応する特徴マップ内のいずれかのピクセルベクトルに対して近づくようにも、前記学習モデルを機械学習する。

前記制御部は、前記一のクラスの所属プロトタイプを前記学習用の前記複数の画像のうち前記一のクラスに属する所定画像と前記一のクラス以外のクラスに属する複数の比較対象画像のそれぞれとの比較に基づき選出するプロトタイプ選出処理を実行し、前記プロトタイプ選出処理における各所属プロトタイプの選出数の多寡に基づき、前記一のクラスに関する前記各所属プロトタイプの前記プロトタイプ所属度を求め、前記プロトタイプ選出処理は、前記所定画像を学習モデルに入力して得られる統合類似度ベクトルから、前記複数の比較対象画像のうちの一の比較対象画像を前記学習モデルに入力して得られる統合類似度ベクトルを差し引いた差分ベクトルを求め、当該差分ベクトルにおける複数の成分のうち最も大きな成分に対応するプロトタイプを前記所定画像のクラスに所属する前記所属プロトタイプとして選出する単位選出処理を含むとともに、前記一の比較対象画像を別の比較対象画像に変更しつつ前記単位選出処理を前記複数の比較対象画像について実行することによって、前記一のクラスに所属する少なくとも１つの所属プロトタイプを選出するとともに所属プロトタイプごとの選出数をカウントする選出数算出処理を含んでもよい。

前記制御部は、一のプロトタイプが２以上のクラスに所属する場合、当該２以上のクラスのそれぞれにおける当該一のプロトタイプの所属度を低減してもよい。

前記制御部は、前記一のクラスに所属する一の所属プロトタイプのプロトタイプ所属度を前記一のクラスに属するＮ個の画像に分配してＮ個の画像のそれぞれに対する分配プロトタイプ所属度を決定するにあたり、前記Ｎ個の画像のうちの一の画像に対応する特徴マップ内の複数のピクセルベクトルのうち前記一の所属プロトタイプのプロトタイプベクトルに最も類似するピクセルベクトルとの距離である第１の距離を求め、前記Ｎ個の画像のうちの他の画像に対応する特徴マップ内の複数のピクセルベクトルのうち前記一の所属プロトタイプのプロトタイプベクトルに最も類似するピクセルベクトルとの距離である第２の距離を求め、前記第１の距離が前記第２の距離よりも大きい場合、前記一の画像に対する前記分配プロトタイプ所属度を、前記他の画像に対する前記分配プロトタイプ所属度よりも小さな値として決定してもよい。

前記制御部は、前記学習モデルの機械学習が終了した後、前記各プロトタイプベクトルを、前記複数の画像に関する複数の特徴マップにおける複数のピクセルベクトルのうち当該各プロトタイプベクトルに最も類似するピクセルベクトルである最類似ピクセルベクトルにそれぞれ置き換えることによって前記学習モデルを修正してもよい。

前記学習モデルの機械学習に用いられる評価関数は、明瞭性に関する評価項である第１評価項を有し、前記制御部は、前記学習用の前記複数の画像のうちの任意の組合せに係る第１画像と第２画像とに関して、前記第１画像を前記学習モデルに入力して得られる統合類似度ベクトルである第１ベクトルと、前記第２画像を前記学習モデルに入力して得られる統合類似度ベクトルである第２ベクトルとの両ベクトルを求め、前記第１ベクトルと前記第２ベクトルとの差分ベクトルにおける複数の成分の絶対値を降順にソートし、前記差分ベクトルの前記複数の成分のうち降順にソートした後の上位ｎ個までの成分のみで再構成される部分差分ベクトルの大きさＤｎを複数の値ｎ（ｎ＝１，...,，Ｎｄ；ただし、値Ｎｄは、前記統合類似度ベクトルの次元数Ｎｃ以下の所定の整数である）のそれぞれについて求め、前記複数の値ｎにそれぞれ対応する複数の大きさＤｎの総和を前記両ベクトル間のベクトル間距離で除して正規化した値が最大化されるように、前記第１評価項を最適化して前記学習モデルを機械学習してもよい。

前記評価関数は、前記複数の画像に対応する前記複数の統合類似度ベクトルに基づく距離学習のための評価項である第２評価項、をさらに有し、前記第１評価項は、前記複数の大きさの総和に関する評価項を画像ペアごとに求めたペア別第１評価項を、複数組の画像ペアについて加算した総和で表現され、前記第２評価項は、前記複数の統合類似度ベクトルに基づく距離学習に関する評価項を画像ペアごとに求めたペア別第２評価項を、複数組の画像ペアについて加算した総和で表現され、前記制御部は、前記ペア別第１評価項を前記各画像ペアに関する前記ベクトル間距離で偏微分した値の絶対値が、前記ペア別第２評価項を前記各画像ペアに関する前記ベクトル間距離で偏微分した値の絶対値を上回らないように、前記ペア別第１評価項の大きさを調整してもよい。

前記制御部は、前記学習モデルの機械学習が終了した後に、検索対象の入力画像を前記学習モデルに入力することに応じて前記学習モデルから出力される統合類似度ベクトルと、前記学習用の前記複数の画像を前記学習モデルに入力することに応じて前記学習モデルから出力される複数の統合類似度ベクトルとに基づいて、前記学習用の前記複数の画像の中から、前記検索対象の入力画像に類似する画像を検索してもよい。

前記制御部は、前記学習モデルの機械学習が終了し且つ前記各プロトタイプベクトルが前記最類似ピクセルベクトルにそれぞれ置き換えられた後に、検索対象の入力画像を前記学習モデルに入力することに応じて前記学習モデルから出力される統合類似度ベクトルと、前記学習用の前記複数の画像を前記学習モデルに入力することに応じて前記学習モデルから出力される複数の統合類似度ベクトルとに基づいて、前記学習用の前記複数の画像の中から、前記検索対象の入力画像に類似する画像を検索してもよい。

上記課題を解決すべく、本発明に係る学習モデルの生産方法は、次のような学習モデルを次のように機械学習して生産する。当該学習モデルは、入力画像の入力に応じて前記学習モデル内の畳み込みニューラルネットワーク内の所定層から得られる特徴マップであって前記入力画像内の部分領域ごとの特徴量を複数のチャンネルについて示す特徴マップを生成し、前記複数のチャンネルで構成される特定の画像特徴概念の候補を示すプロトタイプとして学習されるパラメータ列であるプロトタイプベクトルを複数個生成し、前記特徴マップ内の各ピクセルの各平面位置における前記複数のチャンネルに亘る画像特徴を表現するベクトルである各ピクセルベクトルと一のプロトタイプベクトルとの類似性に基づき、前記入力画像と各プロトタイプとの類似度を複数のプロトタイプについて示す統合類似度ベクトルを生成する、モデルである。当該学習モデルの生産方法は、ａ）学習用の複数の画像に基づき、一のクラスに所属するプロトタイプである所属プロトタイプと、当該所属プロトタイプの前記一のクラスへの所属度合いを示すプロトタイプ所属度とを、前記学習用の前記複数の画像にラベル付けされた複数のクラスのそれぞれについて求めるステップと、ｂ）各クラスにおける所属プロトタイプのプロトタイプ所属度を同一クラス内の２以上の画像のそれぞれに対して所定の基準に基づき分配した、画像ごとのプロトタイプ所属度である分配プロトタイプ所属度を求めるステップと、ｃ）前記複数の画像に対応する複数の統合類似度ベクトルに基づく学習処理を実行する際に、各プロトタイプベクトルが各画像の分配プロトタイプ所属度に応じて、前記各画像に対応する特徴マップ内のいずれかのピクセルベクトルに対して近づくようにも、前記学習モデルを機械学習するステップとを備える。

前記学習モデルの生産方法は、ｄ）前記学習モデルの機械学習が終了した後、前記各プロトタイプベクトルを、前記複数の画像に関する複数の特徴マップにおける複数のピクセルベクトルのうち当該各プロトタイプベクトルに最も類似するピクセルベクトルである最類似ピクセルベクトルにそれぞれ置き換えることによって、前記学習モデルを修正するステップ、をさらに備えてもよい。

前記ステップｃ）は、前記学習用の前記複数の画像のうちの任意の組合せに係る第１画像と第２画像とに関して、ｃ－１）前記第１画像を前記学習モデルに入力して得られる統合類似度ベクトルである第１ベクトルと、前記第２画像を前記学習モデルに入力して得られる統合類似度ベクトルである第２ベクトルとの両ベクトルを求めるステップと、ｃ－２）前記第１ベクトルと前記第２ベクトルとの差分ベクトルにおける複数の成分の絶対値を降順にソートするステップとｃ－３）前記差分ベクトルの前記複数の成分のうち降順にソートした後の上位ｎ個までの成分のみで再構成される部分差分ベクトルの大きさＤｎを複数の値ｎ（ｎ＝１，...,，Ｎｄ；ただし、値Ｎｄは、前記統合類似度ベクトルの次元数Ｎｃ以下の所定の整数である）のそれぞれについて求めるステップと、ｃ－４）前記複数の値ｎにそれぞれ対応する複数の大きさＤｎの総和を前記両ベクトル間のベクトル間距離で除して正規化した値が最大化されるようにも、前記学習モデルを機械学習するステップと、を備えてもよい。

上記課題を解決すべく、本発明に係る推論方法は、上記いずれかの学習モデルの生産方法によって生産された学習モデルを用いて、新たな入力画像に関する推論処理を実行する。

本発明によれば、各プロトタイプベクトルが各画像の分配プロトタイプ所属度に応じて当該各画像に対応する特徴マップ内のいずれかのピクセルベクトルに近づくように学習される。それ故、各プロトタイプが特定画像の特定領域の画像特徴（ピクセルベクトル）に近い特徴を表現するように学習される。ひいては、学習モデルにおける学習結果に関する説明性（特に透明性（人間による理解が可能なコンセプトで説明できること））を向上させることが可能である。

画像処理システムを示す概略図である。学習モデルの階層的構造を示す図である。学習モデルにおけるデータ構造等を示す図である。特徴抽出層の構成の一例を示す概念図である。画像処理装置（コントローラ等）の処理を示すフローチャートである。学習処理の概要を示す概念図である。学習進展前における特徴空間等を示す図である。学習進展後における特徴空間等を示す図である。学習処理の詳細を示すフローチャートである。学習処理の詳細を示すフローチャートである。図９の一部の処理を詳細に示すフローチャートである。評価項Ｌclstに関連する学習処理を概念的に示す図である。プロトタイプ選出処理を示す概念図である。プロトタイプ所属度のクラス単位での平均化処理の一例を示す図である。デバイアス処理（偏り抑制処理）を示す概念図である。デバイアス処理の一例を示す図である。デバイアス処理の別の例を示す図である。分配処理を示す概念図である。分配処理の一例を示す図である。プロトタイプベクトルの置き換え処理を示す概念図である。推論処理について説明する図である。推論処理結果の一例を示す図である。説明情報の表示例を示す図である。説明情報の別の表示例を示す図である。２つの画像が互いに似ていない旨の判断根拠が生成される様子の一部を示す図である。差分ベクトルの並べ替えを示す図である。似ていない推論結果に関する説明情報の表示例を示す図である。似ていない推論結果に関する説明情報の表示例を示す図である。上位所定数個のプロトタイプによる説明程度を示す図である（改善前）。明瞭性が改善される様子を示す概念図である。明瞭性改善用の評価項Ｌintを説明するための図である。評価項Ｌintに関する学習処理等を示す図である。図２９の画像ペアに関する明瞭性の改善例を示している。ネガティブペアに作用する斥力および引力を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。

＜１．第１実施形態＞
＜１－１．システム概要等＞
図１は、画像処理システム１を示す概略図である。図１に示されるように、画像処理システム１は、撮影画像を撮像する複数（多数）の撮影装置２０と、撮影画像を処理する画像処理装置３０とを備えている。画像処理装置３０は、撮影画像の対象（ここでは対象人物）を識別ないし分類するための各種の処理を実行する装置である。

各撮影装置２０で撮影された撮影画像は、通信ネットワーク（ＬＡＮおよび／またはインターネット等）を介して画像処理装置３０に入力される。そして、画像処理装置３０における画像処理等によって、或る推論対象画像（或る撮影画像等）に関してその類似画像を複数の画像（既知の画像（学習用の撮影画像等））の中から検索する画像検索処理等が実行される。

より詳細には、図５のフローチャートに示されるように、まず、画像処理装置３０は、複数の対象物（複数の種類の対象物（たとえば鳥）等）のそれぞれを撮影した複数の学習用画像に基づき、後述する学習モデル４００を学習（機械学習）する。そのような機械学習により、学習済みの学習モデル４００（４２０とも表記する）が生成される（ステップＳ１１）。なお、図５は、画像処理装置３０（コントローラ３１等）の処理を示すフローチャートである。

その後、画像処理装置３０は、学習済みの学習モデル４２０を用いた推論処理を実行する（ステップＳ１２）。詳細には、画像処理装置３０は、学習済みの学習モデル４２０を用いて、或る推論対象画像に最も類似する画像（或る推論対象画像内の対象物に最も類似する対象物を含む画像）を複数の学習用画像の中から検索（抽出）する画像検索処理等を実行する。このような処理は、或る画像内の対象（動物、人物等）を識別する処理とも称される。

さらに、画像処理装置３０は、推論結果に対する説明情報生成処理（ステップＳ１３）を実行する。

なお、ここでは、推論対象画像および学習用の複数の画像として、撮影画像を主に例示するが、これに限定されない。たとえば、学習用の複数の画像および推論対象画像は、撮影画像以外の画像（たとえば、ＣＧ（コンピュータグラフィック）画像あるいは手書き画像等）であってもよい。また、当該撮影画像は、画像処理システム１の撮影装置２０によって撮影された画像でもよく、画像処理システム１の撮影装置２０以外の撮影装置によって撮影された画像でもよい。

＜１－２．画像処理装置３０＞
図１を再び参照する。図１に示されるように、画像処理装置３０は、コントローラ３１（制御部とも称される）と記憶部３２と通信部３４と操作部３５とを備える。

コントローラ３１は、画像処理装置３０に内蔵され、画像処理装置３０の動作を制御する制御装置である。

コントローラ３１は、１又は複数のハードウェアプロセッサ（例えば、ＣＰＵ（Central Processing Unit）およびＧＰＵ（Graphics Processing Unit））等を備えるコンピュータシステムとして構成される。コントローラ３１は、ＣＰＵ等において、記憶部（ＲＯＭおよび／またはハードディスクなどの不揮発性記憶部）３２内に格納されている所定のソフトウエアプログラム（以下、単にプログラムとも称する）を実行することによって、各種の処理を実現する。なお、当該プログラム（詳細にはプログラムモジュール群）は、ＵＳＢメモリなどの可搬性の記録媒体に記録され、当該記録媒体から読み出されて画像処理装置３０にインストールされるようにしてもよい。あるいは、当該プログラムは、通信ネットワーク等を経由してダウンロードされて画像処理装置３０にインストールされるようにしてもよい。

具体的には、コントローラ３１は、学習モデル４００を機械学習する学習処理、および学習済みの学習モデル４００（４２０）を用いた推論処理（画像検索処理等）を実行する。コントローラ３１は、当該推論処理の根拠を示す説明処理等をも実行する。

記憶部３２は、ハードディスクドライブ（ＨＤＤ）および／またはソリッドステートドライブ（ＳＳＤ）等の記憶装置で構成される。記憶部３２は、学習モデル４００（学習モデルに関する学習パラメータおよびプログラムを含む）（ひいては学習済みモデル４２０）等を記憶する。

通信部３４は、ネットワークを介したネットワーク通信を行うことが可能である。このネットワーク通信では、たとえば、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、画像処理装置３０は、所望の相手先（たとえば、撮影装置２０あるいは不図示の情報格納装置等）との間で各種のデータ（撮影画像データおよび正解データ等）を授受することが可能である。

操作部３５は、画像処理装置３０に対する操作入力を受け付ける操作入力部３５ａと、各種情報の表示出力を行う表示部３５ｂとを備えている。操作入力部３５ａとしてはマウスおよびキーボード等が用いられ、表示部３５ｂとしてはディスプレイ（液晶ディスプレイ等）が用いられる。また、操作入力部３５ａの一部としても機能し且つ表示部３５ｂの一部としても機能するタッチパネルが設けられてもよい。

なお、画像処理装置３０は、教師データ（学習用の複数の画像の画像データ等）を用いて学習モデル４００を機械学習して生成する機能を備えているので、学習モデル生成装置とも称される。また、画像処理装置３０は、学習された学習モデル４００を用いて対象の識別および／また分類に関する推論を実行する装置でもあるので、推論装置とも称される。

また、ここでは、様々な処理（機能）が１つの画像処理装置３０によって実現されているが、これに限定されない。たとえば、様々な処理が複数の装置で分担されて実現されてもよい。たとえば、学習モデル４００の学習処理と、学習済みモデル４００（４２０）を用いた推論処理とが、それぞれ別個の装置で実行されてもよい。

＜１－３．学習モデル４００＞
上述のように、画像処理装置３０は、学習モデル４００を備えている。ここでは、学習モデル４００として、複数の層で構成されるニューラルネットワークモデル、詳細には、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）モデルが用いられる。そして、当該学習モデル４００がメトリックラーニング（Deep Metric Learning）によって学習される。具体的には、畳み込みニューラルネットワークモデルにおける複数の層（特に複数の中間層）における特徴抽出用の各種画像フィルタ（畳み込み層の画像フィルタ）のパラメータ（学習パラメータ）等が調整される。

なお、上述のように、機械学習によって学習された後の学習モデル４００は、学習済みモデルとも称される。学習モデル４００（学習器）の学習パラメータが所定の機械学習手法を用いて調整されることによって、学習済みの学習モデル４００（学習済みモデル４２０）が生成される。

本願において、学習済みモデル４００（４２０）を生成することは、学習済みモデル４００を製造（生産）することを意味するとともに、「学習済みモデルの生成方法」は「学習済みモデルの生産方法」を意味する。

図２および図３は、学習モデル４００の構成を示す図である。図２は、学習モデル４００の階層的構造を示しており、図３は、学習モデル４００におけるデータ構造等を示している。

図２に示されるように、学習モデル４００は、複数の層（階層）が階層的に接続される階層構造を有している。具体的には、学習モデル４００は、入力層３１０と特徴抽出層３２０と類似度マップ生成層３３０と統合類似度ベクトル生成層３７０と出力層３８０とを備えている。

＜入力層３１０＞
入力層３１０は、入力画像２１０を受け付ける層である。入力画像２１０は、対象物の撮影画像（たとえば、鳥の画像）である。たとえば、幅（横）Ｗ０画素および高さ（縦）Ｈ０画素の画素配列（矩形形状の画素配列）を有するカラー画像（３チャンネル）が入力画像２１０として入力される。換言すれば、入力画像２１０は、Ｗ０×Ｈ０×Ｃ０のボクセルデータ（ただし、Ｃ０＝３）として生成される。

＜特徴抽出層３２０＞
学習モデル４００は、入力層３１０の後（次）に特徴抽出層３２０を備えている。特徴抽出層３２０は、畳み込みニューラルネットワーク（ＣＮＮ）２２０（図３）を備えて構成される。入力画像２１０に対して特徴抽出層３２０の処理が施されることによって、特徴マップ２３０が生成される。

特徴抽出層３２０は、複数の畳み込み層と複数のプーリング層（平均プーリングおよび／または最大プーリング等）とを含む。この畳み込みニューラルネットワークにおいては、複数の中間層が設けられる。特徴抽出層３２０としては、たとえば、各種の畳み込みニューラルネットワーク構成（ＶＧＧあるいはＲｅｓＮｅｔ等）の一部（特徴抽出部分）が利用され得る。

たとえば、ＶＧＧ１６において最終畳み込み層ＣＶ１３の次の最終プーリング層（全結合層（３層）の直前のプーリング層）までに設けられる特徴抽出層（１３層の畳み込み層および５層のプーリング層）（図４参照）が、特徴抽出層３２０として設けられる。換言すれば、入力層３１０の次から始まる１８層が、畳み込みニューラルネットワークにおける特徴抽出層３２０として設けられる。図４においては、特徴抽出層３２０として、ＶＧＧ１６（１３層の畳み込み層と５層のプーリング層と３層の全結合層とを有する）の構成の一部（最終プーリング層までの特徴抽出部分）が例示されている。なお、図４においては、活性化関数等は適宜省略されている。

あるいは、ＲｅｓＮｅｔ（Residual Network）（残差ネットワーク）などの他の畳み込みニューラルネットワークにおいて設けられる特徴抽出層の全部（または一部）が、畳み込みニューラルネットワークにおける特徴抽出層３２０として設けられてもよい。ＲｅｓＮｅｔは、層間で残差を足し合わせることを含む畳み込みニューラルネットワークである。ＲｅｓＮｅｔにおける特徴抽出層は、畳み込み層と活性化関数とスキップコネクション（ショートカットコネクション）との組合せ等で構成される複数の残差ブロック等で構成される。ここにおいて、一般的な畳み込みニューラルネットワークにおいては、特徴抽出層の後に、当該特徴抽出層にて抽出された特徴量に基づく分類処理を実行する層（分類層とも称する）として全結合層等が設けられる。そのような全結合層の直前までに設けられる特徴抽出層の全部（または一部）が、畳み込みニューラルネットワークにおける特徴抽出層３２０として設けられてもよい。

特徴マップ２３０は、学習モデル４００の畳み込みニューラルネットワークにおける所定層（ここでは最終プーリング層）から出力される特徴マップである。特徴マップ２３０は、複数のチャンネルを有する特徴マップとして生成される。特徴マップ２３０は、それぞれ幅Ｗ１画素および高さＨ１画素の画素配列（矩形形状の画素配列）の２次元配列データで構成されるチャンネルをＣ１個備える３次元配列データ（Ｗ１×Ｈ１×Ｃ１のボクセルデータ）として生成される。特徴マップ２３０の各チャンネルのサイズ（Ｗ１×Ｈ１）は、たとえば、１４×１４である。また、特徴マップ２３０のチャンネル数Ｃ１は、たとえば、５１２である。ただし、これに限定されず、各チャンネルのサイズおよびチャンネル数は、他の値であってもよい。たとえば、チャンネル数Ｃ１は、２５６、あるいは１０２４などであってもよい。

ここにおいて、特徴抽出層３２０は、１又は複数の畳み込み層と１のプーリング層とが繰り返し配置されること等によって構成される。各畳み込み層では、畳み込み処理を実行するフィルタにより画像内の特徴が抽出される。また、各プーリング層では、微小画素範囲（たとえば、２×２の画素範囲）毎の平均画素値あるいは最大画素値等を抽出するプーリング処理（平均プーリング処理あるいは最大プーリング処理等）が行われ、画素サイズが低減（たとえば、縦横の各方向に１／２）される（情報量が凝縮される）。

そして、このような特徴抽出層３２０による処理（畳み込み処理およびプーリング処理）が入力画像２１０に対して施されることによって、特徴マップ２３０が生成される。このように、特徴マップ２３０は、畳み込みニューラルネットワークにおいて入力層３１０の後に設けられた複数の畳み込み層と複数のプーリング層とを含む中間層によって生成される。これによれば、入力画像２１０における画像の各種の特徴は、特徴マップ２３０におけるチャンネルごとに抽出される。また、入力画像２１０における画像の特徴は、特徴マップ２３０における各チャンネルの２次元画像内において、その大まかな位置が保持された状態で抽出される。

このように、特徴抽出層３２０は、入力画像２１０の入力に応じて畳み込みニューラルネットワーク（ＣＮＮ）２００内の所定層から得られる特徴マップ２３０を生成する層である。当該特徴マップ２３０は、入力画像２１０内の部分領域ごとの特徴量を複数（Ｃ１個）のチャンネルＣＨについて示すボクセルデータである。

＜類似度マップ生成層３３０＞
類似度マップ生成層３３０は、特徴マップ２３０と複数のプロトタイプベクトル２５０（図３参照）とに基づき類似度マップ２７０を生成する処理層である。各プロトタイプベクトル２５０は、プロトタイプベクトルｐ（あるいはｐｋ）とも表現される。

各プロトタイプベクトルｐ（第ｋプロトタイプベクトルｐｋ）（図３参照）は、複数のチャンネルＣＨで構成される特定の画像特徴概念の候補を示すプロトタイプＰＴ（第ｋプロトタイプＰＴｋ）として学習される、パラメータ列である。各プロトタイプベクトルｐは、学習対象の複数のパラメータで構成されるベクトルであり、特徴マップ２３０のチャンネル数（奥行き方向の次元数）Ｃ１と同じ次元数を有するベクトルである。各プロトタイプベクトルｐは、大まかに言えば、特定の画像の特定の画像特徴を示すように学習されるベクトルであり、いずれかの画像の特徴マップ２３０内のいずれかのピクセルベクトルｑ（次述）に近づくように学習される。

学習モデル４００においては、このようなプロトタイプベクトルｐが複数個（Ｎｃ個（たとえば５１２個））生成される。換言すれば、複数（Ｎｃ個）のプロトタイプベクトルｐｋ（ｋ＝１，...，Ｎｃ）が生成される。

一方、特徴マップ２３０内の各ピクセルベクトルｑ（ｑwh）は、特徴マップ２３０内の各ピクセルの各平面位置（ｗ，ｈ）における複数のチャンネルＣＨに亘る画像特徴を表現するベクトルである。図３においては、特徴マップ２３０内の或る位置（ｗ，ｈ）におけるピクセルベクトルｑ（詳細には、当該ピクセルベクトルｑに対応する奥行き方向に伸びる柱状空間）にハッチングが付されて示されている。当該各ピクセルベクトルｑの次元数（奥行き方向の次元数）は、特徴マップ２３０のチャンネル数（ＣＨ１）と同じである。特徴マップ２３０内の各ピクセルベクトルｑは、当該特徴マップ２３０の元の画像内の特定領域の特定の画像特徴を示している。換言すれば、各ピクセルベクトルｑは、特定画像内の部分領域の特徴を示すベクトル（部分領域の画像特徴表現ベクトル）である。

類似度マップ生成層３３０は、このような各ピクセルベクトルｑwhと一のプロトタイプベクトルｐｋとの類似度Sim（ｑwh，ｐk）を平面位置ごとに示す平面類似度マップ２６０（平面マップ（２Ｄマップ））を生成する。第ｋプロトタイプベクトルｐｋに対応する平面類似度マップ２６０は、第ｋ平面類似度マップとも称される。さらに、類似度マップ生成層３３０は、平面類似度マップ２６０を複数のプロトタイプＰＴｋ（複数のプロトタイプベクトルｐｋ）に関して構成した類似度マップ（３Ｄマップ）２７０を生成する。ここで、類似度Sim （ｑ，ｐｋ）は、プロトタイプベクトルｐｋと特徴マップ２３０内の複数のピクセルベクトルｑ（詳細には、ｑwh）のそれぞれとの類似度を計算する関数である。当該関数は、たとえばコサイン類似度である。ただし、これに限定されず、類似度Simを算出する関数として、その他の関数（各種の距離関数等）が用いられてもよい。

図３に示されるように、或るプロトタイプベクトル（第ｋプロトタイプベクトルｐｋ）と各ピクセルベクトル２４０（ｑwh）との類似度が、１枚の平面類似度マップ２６０（平面マップ（２Ｄマップ））内の各位置（ｗ，ｈ）に配置される。そして、このような平面類似度マップ２６０が複数（Ｎｃ個）のプロトタイプベクトルｐｋ（ｋ＝１，...，Ｎｃ）についてそれぞれ生成されることによって、類似度マップ２７０（３Ｄマップ）が生成される。換言すれば、類似度マップ２７０は、複数枚の平面マップ２６０が奥行き方向に積層された３Ｄマップである。なお、類似度マップ２７０は、（特徴マップ２３０とは異なるマップであるものの、）一種の（広義の）「特徴マップ」であるとも表現される。

＜統合類似度ベクトル生成層３７０＞
統合類似度ベクトル生成層３７０は、類似度マップ２７０に基づき統合類似度ベクトル２８０を生成する処理層である。

統合類似度ベクトル２８０は、Ｎｃ次元のベクトルである。統合類似度ベクトル２８０は統合類似度ベクトルｓとも表記される。統合類似度ベクトルｓの第ｋ成分Ｓｋは、第ｋプロトタイプベクトルに対応する平面類似度マップ２６０に対してＧＭＰ処理を施すことによって算出される。すなわち、第ｋ成分Ｓｋは、第ｋプロトタイプベクトルに対応する平面類似度マップ２６０内の複数の値のうちの最大値である。この統合類似度ベクトル２８０の第ｋ成分Ｓｋは、特徴マップ２３０（詳細には、特徴マップ２３０内の或るピクセルベクトルｑ）と第ｋプロトタイプベクトルとの類似度を表しており、式（１）で表現される。より詳細には、第ｋ成分Ｓｋは、第ｋプロトタイプベクトルｐｋと特徴マップ２３０内の任意のピクセルベクトルｑとの類似度のうちの最大値である。

なお、グローバルマックスプーリング（ＧＭＰ：Global Max Pooling）処理は、最大プーリング（Max Pooling）処理の一種である。

マックス（最大）プーリング（Max Pooling）処理は、カーネル（フィルタ）サイズに対応する複数の画素のうち最大の値（最大画素値）を特徴値（出力値）として抽出する処理である。最大プーリング処理では、一般的にはチャンネルサイズよりも小さなフィルタサイズ（たとえば、２×２サイズ）に対応する複数の画素（たとえば、４つの画素）のうちの最大値が抽出されることが多い。

グローバルマックスプーリング（ＧＭＰ）処理は、「チャンネル全体」（ここでは１枚の平面類似度マップ２６０の全体）を対象とする最大プーリング処理である。ＧＭＰ処理（全体最大プーリング処理）は、チャンネルサイズ（１枚の平面類似度マップ２６０のサイズ）と同じフィルタサイズ（たとえば、Ｗ１×Ｈ１＝１４×１４）に対応する複数の画素（チャンネル内の全ての画素）（たとえば、１９６個の画素）のうちの最大値を抽出する最大プーリング処理である。

このＧＭＰ処理（グローバルマックスプーリング処理）を複数の平面類似度マップ２６０のそれぞれに対して施すことによって、処理対象の特徴マップ（ここでは類似度マップ２７０）のチャンネル毎（プロトタイプ毎）の最大画素値が（チャンネル毎に）抽出される。Ｎｃ個（たとえば５１２個）のチャンネル（プロトタイプ）を有する類似度マップ２７０に対してＧＭＰ処理が施されると、チャンネル毎（プロトタイプ毎）の最大値がＮｃ個（たとえば５１２個の最大値）出力される。換言すれば、統合類似度ベクトル２８０は、Ｎｃ次元（たとえば５１２次元）を有するベクトルとして生成される。この統合類似度ベクトル２８０は、入力画像と各プロトタイプとの類似度Ｓｋを（複数のプロトタイプＰＴについて統合）集約したベクトルである。統合類似度ベクトル２８０は、入力画像と各プロトタイプとの類似性（換言すれば、画像の特徴）を示すベクトルであり、一種の「特徴（量）ベクトル」であるとも表現される。

このようにして、特徴マップ２３０内の各ピクセルの各平面位置における複数のチャンネルに亘る画像特徴を表現するベクトルである各ピクセルベクトルと一のプロトタイプベクトルとの類似性に基づき、統合類似度ベクトル２８０が生成される。統合類似度ベクトル２８０は、入力画像２１０と各プロトタイプとの類似度を複数のプロトタイプについて示すベクトルである。

なお、或る入力画像２１０の統合類似度ベクトル２８０の各成分Ｓｋは、当該入力画像２１０の画像内最類似ピクセルベクトルｑ（ｑｎｋとも表記する）と当該第ｋプロトタイプベクトルｐｋとの類似度（ないし距離）を表す指標値である、とも表現される（図２５も参照）。画像内最類似ピクセルベクトルｑｎｋは、入力画像２１０の入力に対してＣＮＮ２２０（特徴抽出層３２０）から出力される特徴マップ２３０内の複数のピクセルベクトルｑのうち、第ｋプロトタイプベクトルｐｋに最も類似するピクセルベクトルｑである。各成分Ｓｋは、「第ｋプロトタイプベクトルｐｋで表現される画像特徴が入力画像２１０に存在する度合い（程度）」を示している。換言すれば、類似度Ｓｋは、入力画像におけるプロトタイプＰＴｋ（のコンセプト）の存在度である、とも表現される。また、このような統合類似度ベクトル２８０は、類似度マップ２７０の生成を伴わずに、複数のプロトタイプベクトルｐと特徴マップ２３０内の各ピクセルベクトルｑとに基づいて直接的に生成されてもよい。

＜出力層３８０＞
出力層３８０は、統合類似度ベクトル２８０をそのまま出力する処理層である。換言すれば、入力画像２１０に対する学習モデル４００による写像（統合類似度ベクトル２８０）が出力層３８０から出力される。

＜１－４．学習モデル４００の学習処理＞
ステップＳ１１（図５）において、学習モデル４００の学習処理（機械学習処理）が実行される。当該学習処理（学習モデル４００の学習段階の処理）は、学習用の複数の画像に基づき実行される。

まず、画像処理装置３０は、撮影装置２０等から取得した複数の撮影画像のそれぞれに対してサイズ調整処理（リサイズ処理）等を施して学習用の複数の画像を生成し、当該複数の画像を学習モデル４００に対する入力画像群として準備する。なお、学習用の複数の画像のそれぞれに対してその所属クラス（たとえば、「鳥の種類」）が予めラベル（正解データ）として付されている（ラベル付けされている）ものとする。たとえば、複数の画像の被写体が複数の種類の鳥を含む場合、各画像の被写体である鳥の種類（「ペリカン」、「ミドリカケス（Green Jay）」等）が当該各画像のクラスとして予め付与されているものとする。このように予めラベル付けされた複数の画像（データ）が教師データ（正解ラベル付き教師データ）として用いられる。

この実施形態では、画像処理装置３０は、機械学習処理として、基本的にはメトリックラーニング（距離学習とも称される）を実行する。より詳細には、ディープニューラルネットワーク（特に畳み込みニューラルネットワーク（Convolutional Neural Network））を用いたディープメトリックラーニング（Deep Metric Learning）が利用される。当該メトリックラーニングでは、入力画像の入力に対して特徴空間（特徴量空間）における特徴ベクトルを出力する学習モデル４００が用いられる。このような学習モデル４００は、入力画像（入力）から特徴ベクトル（出力）への変換（写像）を示すモデルである、とも表現される。

学習用の複数の画像（入力画像群）が順次に学習モデル４００に入力され、学習モデル４００からの複数の出力、すなわち特徴空間における複数の特徴ベクトル（特徴ベクトル群）が順次に出力される。理想的には、特徴空間において、同一クラス（たとえば、同一の種類の鳥）を被写体とする複数の入力画像に対応する複数の特徴ベクトルは互いに近い位置に配置され、異なるクラス（異なる種類の鳥）に関する複数の入力画像に対応する複数の特徴ベクトルは互いに遠い位置に配置される。ただし、学習前の学習モデル４００からの出力に基づく特徴ベクトル群の分布（図７参照）は、このような理想的な分布状態（図８参照）からずれている。なお、図７および図８では、右端の特徴空間を示す矩形内に配置された各点状図形（小さな四角形あるいは小さな丸印等）が、当該特徴空間内に配置された各特徴ベクトルを表している。同じクラスの特徴ベクトル同士（同じクラスに属する複数の画像に対応する複数の特徴ベクトル）は、同じ図形（白丸図形同士等）で示されている。逆に、互いに異なるクラスの特徴ベクトル同士（互いに異なるクラスに属する複数の画像に対応する複数の特徴ベクトル）は、互いに異なる図形（互いに異なるハッチングが付された図形同士等）で示されている。

つぎに、メトリックラーニングにおいて、トリプレットロス（Triplet Loss）などの評価関数を最適化（最小化）するように、学習モデル４００が学習される。これによって、入力空間での入力画像の類似度が特徴空間での距離（特徴ベクトル間の距離）に対応するように、学習モデル４００（写像関係）が学習される。換言すれば、特徴空間における特徴ベクトルの分布位置が学習の進行に応じて徐々に変更される。非常に良好な機械学習が実行されれば、特徴空間における特徴ベクトルの分布は、上述の理想的な分布状態（図８参照）に徐々に近づいていく。

図６は、本実施形態における学習処理の概要を示す概念図である。図６に示されるように、この実施形態では、２種類のメトリックラーニング（距離学習）が実行される（図６の上段参照）。１つは、統合類似度ベクトル２８０を特徴ベクトルとして扱うメトリックラーニングである。他の１つは、サブ特徴ベクトル２９０を特徴ベクトルとして扱うメトリックラーニングである。この実施形態では、統合類似度ベクトル２８０に関するメトリックラーニングが主たるメトリックラーニングとして実行され、サブ特徴ベクトル２９０に関するメトリックラーニングは従たる（補助的な）メトリックラーニングとして実行される。また、この実施形態では、各プロトタイプベクトルｐｋ（２５０）を特定画像の特定部分領域の画像特徴（いずれかのピクセルベクトルｑ（２４０））に近づけるような学習処理もが実行される（図６の下段参照）。

さて、図６のような学習処理を実現するにあたって、本実施形態では、３種類の評価項（評価関数）Ｌtask，Ｌclst，Ｌaux（後述）を有する（全体の）評価関数（損失関数）Ｌを最適化（最小化）するように、学習モデル４００が機械学習される。評価関数Ｌは、たとえば次式（２）のように、３種類の評価項Ｌtask，Ｌclst，Ｌauxの線形和（一次結合）で表現される。なお、値λｃ，λａは、評価項間のバランスをとるためのハイパーパラメータである。

以下、各評価項Ｌtask，Ｌclst，Ｌauxについて順次に説明する。

＜評価項Ｌtask＞
評価項Ｌtaskは、複数の画像に対応する複数の統合類似度ベクトル２８０に基づく距離学習（メトリックラーニング）のための評価項である。評価項Ｌtaskは、たとえば、次の式（３）で表現される。なお、右下に「＋」を有する括弧で表現される記号は、当該括弧内の値ｖとゼロとのうちの大きな方の値を出力することを意味する。すなわち、当該記号は、max（ｖ，０）を表す。

ここで、距離ｄapは、或る画像（アンカー（anchor）画像）に対応する特徴ベクトル（ここでは統合類似度ベクトル２８０）と、同じクラスに属する別画像（ポジティブ（positive）画像）に対応する特徴ベクトル（統合類似度ベクトル２８０）との間の距離である。一方、距離ｄanは、当該或る画像（アンカー画像）に対応する特徴ベクトル（統合類似度ベクトル２８０）と、異なるクラスに属する画像（ネガティブ（negative）画像）に対応する特徴ベクトル（ここでは統合類似度ベクトル２８０）との間の距離である。アンカー画像とポジティブ画像との組合せはポジティブペアとも称され、アンカー画像とネガティブ画像との組合せはネガティブペアとも称される。距離ｄapは、ポジティブペアの統合類似度ベクトル２８０同士の距離であり、距離ｄanは、ネガティブペアの統合類似度ベクトル２８０同士の距離である。

式（３）は、注目要素（アンカー）と同分類要素（ポジティブ）との距離ｄapを一定程度以下に小さくし且つ注目要素と異分類要素（ネガティブ）との距離ｄanを一定程度以上に大きくするための評価関数を示している。なお、値ｍは、マージンを示すハイパーパラメータである。ネガティブペアの特徴ベクトル同士の距離を値（β＋ｍ）以上に引き離すとともにポジティブペアの特徴ベクトル同士の距離を値（β－ｍ）以内に近づけることが意図されている。値βは、クラスごと（アンカーごと）の学習パラメータであり、特徴空間内での位置の調整度合いをクラス間（アンカー間）で調整する調整パラメータである。

式（３）においては、中括弧内の値を学習用の複数の画像について加算した総和Σを当該複数の画像の総数Ｎ（アンカー数）で除することによって平均化した値がＬtaskとして算出される。

このような評価関数Ｌtaskを最小化するように学習処理が進められることによって、統合類似度ベクトル２８０に基づく距離学習が実現される。具体的には、特徴空間において、同一クラス（たとえば、同一の種類の鳥）を被写体とする複数の入力画像に対応する複数の統合類似度ベクトル２８０は互いに近い位置に配置される。一方、異なるクラス（異なる種類の鳥）に関する複数の入力画像に対応する複数の統合類似度ベクトル２８０は互いに遠い位置に配置される。

＜評価項Ｌaux＞
評価項Ｌauxは、複数の画像に対応する複数のサブ特徴ベクトル２９０に基づく距離学習のための評価項である。

評価項Ｌauxは、たとえば、次の式（４）で表現される。式（４）は、上述のようにサブ特徴ベクトル２９０に関するメトリックラーニングを実現する評価関数（評価項）である。

式（４）における各値は、式（３）にて対応する各値と同趣旨の値である。ただし、統合類似度ベクトル２８０に関する距離に代えてサブ特徴ベクトル２９０に関する距離が考慮される点で相違する。

ここで、距離ｄ’apは、或る画像（アンカー（anchor）画像）に関するポジティブペアの特徴ベクトル（ここではサブ特徴ベクトル２９０）同士の距離である。一方、距離ｄ’anは、当該或る画像（アンカー画像）に関するネガティブペアの特徴ベクトル（ここではサブ特徴ベクトル２９０）同士の距離である。また、値ｍ’は、マージンを示すハイパーパラメータである。同じクラスの特徴ベクトル同士の距離を値（β’－ｍ’）以内に近づけ且つ異なるクラスの特徴ベクトル同士の距離を値（β’＋ｍ’）以上に離すことが意図されている。値β’は、クラス毎（アンカー毎）の学習パラメータであり、特徴空間内での位置の調整度合いをクラス間（アンカー間）で調整する調整パラメータである。

この評価項Ｌauxは、補助的に用いられる評価項である。なお、この実施形態では評価項Ｌauxを考慮しているが、必ずしも考慮されなくてもよい（評価項Ｌauxは無くてもよい）。ただし、評価項Ｌauxをも考慮することによれば、ＣＮＮ（特徴抽出層３２０）をより適切に構築することが可能であり、ひいては推論精度を向上することが可能である。

なお、サブ特徴ベクトル２９０に関するメトリックラーニングを実現する評価関数（評価項）は、式（４）の評価関数に限定されず、その他の評価関数（たとえば、各種のトリプレットロス（ネガティブペアの距離をポジティブペアの距離よりも大きくするような損失関数等））であってもよい。統合類似度ベクトル２８０に関するメトリックラーニングを実現する評価関数（式（３））についても同様である。

＜評価項Ｌclstおよび学習処理＞
評価項Ｌclstは、各プロトタイプベクトルｐをいずれかの画像の部分領域の画像特徴（いずれかのピクセルベクトルｑ）に近づけるための評価項である。より詳細には、評価項Ｌclstは、各画像ｉの所属プロトタイプＰＴｋのプロトタイプベクトルｐｋを当該各画像ｉに対応する特徴マップ２３０内のいずれかのピクセルベクトルｑに対して近づけるための評価項である（図６下段参照）。後述するように、各画像ｉにおける各所属プロトタイプＰＴｋの分配プロトタイプ所属度Ｂｉ（ｋ）に応じて、各プロトタイプベクトルｐｋが、各画像ｉに対応する特徴マップ２３０内のいずれかのピクセルベクトルｑに対して近づけられる。それ故、各プロトタイプベクトルｐｋは、互いに異なる画像に存在する２以上のピクセルベクトルｑに近づけられることもある。

本実施形態の学習処理においては、基本的には統合類似度ベクトル２８０に関する距離学習（メトリックラーニング）が実行される。具体的には、評価項Ｌtaskを考慮することによって、特徴空間における統合類似度ベクトル２８０の分布が理想的な分布状態に近づくように、学習モデル４００が学習される。

本実施形態の学習処理においては、さらに、評価項Ｌclstを考慮することによって、各プロトタイプベクトルｐｋをいずれかの画像のいずれかの部分領域の画像特徴（いずれかのピクセルベクトルｑ）に近づけるようにも学習モデル４００が学習される。

以下、このような学習処理（評価項Ｌclstに基づく学習処理）について主に説明する。

図９および図１０は、本実施形態の学習処理（ステップＳ１１（図５））の詳細を示すフローチャートである。図９のフローチャートにおいては、評価項Ｌclstに関連する学習処理が主に示されており、他の評価項Ｌtask，Ｌauxに関連する学習処理は簡略化して示されている。また、図１１は、図９の一部（ステップＳ２１）の処理を詳細に示すフローチャートである。さらに、図１２は、評価項Ｌclstに関連する学習処理を概念的に示す図である。

評価項Ｌclstに関連する学習処理は、図９および図１２に示されるように、３つ（あるいは４つ）の処理（ステップＳ４１，Ｓ４２，（Ｓ４３，Ｓ４４））に大別される。

ステップＳ４１において、コントローラ３１は、学習用の複数の画像にラベル付けされた複数のクラスのそれぞれについて、各クラスの所属プロトタイプＰＴ（ＰＴｋ）と当該所属プロトタイプＰＴ（ＰＴｋ）の当該各クラスへの所属度Ｂｋを求める。具体的には、一のクラス（着目クラス）に所属するプロトタイプである所属プロトタイプＰＴｋと、当該所属プロトタイプＰＴｋの当該一のクラスへの所属度合いを示すプロトタイプ所属度Ｂｋとが、複数のクラス（着目クラス）のそれぞれについて求められる。プロトタイプ所属度Ｂｋは、一のクラスの画像特徴を各プロトタイプＰＴｋが表現する度合い（程度）である、とも表現される。ステップＳ４１は、ステップＳ２１，Ｓ２２（図９）を含む。

ステップＳ４２において、コントローラ３１は、画像ごとのプロトタイプ所属度である分配プロトタイプ所属度Ｂｉｋを求める。分配プロトタイプ所属度Ｂｉｋは、各クラスにおける所属プロトタイプＰＴｋのプロトタイプ所属度Ｂｋを同一クラス（たとえば、同一種類の鳥）内の２以上の画像のそれぞれに対して所定の基準に基づき分配した所属度である。なお、分配プロトタイプ所属度Ｂｉｋを分配プロトタイプ所属度Ｔｉｋとも表記する。また、分配プロトタイプ所属度Ｂｉｋ（Ｔｉｋ）は、画像別プロトタイプ所属度とも称される。ステップＳ４２は、ステップＳ２３を含む。

ステップＳ４３，Ｓ４４において、コントローラ３１は、各プロトタイプベクトルｐが各画像の分配プロトタイプ所属度Ｂｉｋに応じて、当該各画像に対応する特徴マップ内のいずれかのピクセルベクトルに対して近づくように、学習処理を実行する。換言すれば、各プロトタイプベクトルｐを各画像の特徴マップ２３０内の複数のピクセルベクトルｑのうち最も近いピクセルベクトルｑに対してさらに近づけるように学習処理が実行される。

コントローラ３１は、複数の画像に対応する複数の統合類似度ベクトル２８０に基づく学習処理（メトリックラーニング等）を実行する際に、ステップＳ４３，Ｓ４４の学習処理を併せて実行する。換言すれば、統合類似度ベクトル２８０にも基づく学習処理（距離学習を含む）が実行される際に、各プロトタイプベクトルｐが各画像に対応する特徴マップ内のいずれかのピクセルベクトルに対して近づくようにも、学習モデル４００が機械学習される。この機械学習によって、学習モデル４００内の各パラメータ（プロトタイプベクトルｐおよび畳み込みニューラルネットワーク２２０等に関する各パラメータ）が学習される。このステップＳ４３，Ｓ４４は、ステップＳ２４，Ｓ２５，Ｓ２６を含む。

詳細には、ステップＳ４３にて、評価関数Ｌ（評価項Ｌtask，Ｌclst等を含む）が求められる（ステップＳ２４，Ｓ２５）とともに、ステップＳ４４にて、評価関数Ｌに基づく学習処理（ステップＳ２６）が実行される。

以下、ステップＳ４１から順に詳細に説明する。まず、ステップＳ４１のうちステップＳ２１（図１１も参照）の処理が実行される。ステップＳ２１においては、各クラスに所属する所属プロトタイプＰＴｋとその所属度Ｂｋが、複数のクラスのそれぞれについて（暫定的に）求められる。

具体的には、ステップＳ２１１～Ｓ２１５（図１１）において、コントローラ３１は、一のクラス（着目クラス）の所属プロトタイプを選出するプロトタイプ選出処理を実行する。図１３は、プロトタイプ選出処理を示す概念図である。図１３をも参照しつつ、当該プロトタイプ選出処理について説明する。

当該プロトタイプ選出処理においては、まず、学習用の複数の画像のうち一のクラス（着目クラス）に属する所定画像ＩＭＧｉと当該一のクラス以外のクラス（ネガティブクラス）に属する複数の比較対象画像ＩＭＧｊのそれぞれとの比較が行われる。そして、その比較結果に基づき、当該一のクラスの所属プロトタイプ（且つ所定画像に基づく所属プロトタイプＰＴ）が選出される（ステップＳ２１１～Ｓ２１３）。

図１３では、学習用の複数の画像のうち一のクラス（着目クラス）に属する所定画像（着目画像）として左側の第ｉ画像ＩＭＧｉに着目している。また、当該所定画像の比較対象として、当該一のクラス以外のクラス（ネガティブクラス）に属する複数の比較対象画像ＩＭＧｊ（図１３の右側参照）が存在する。たとえば、或るクラス（たとえば、種類「ミドリカケス」の鳥）内の一枚のサンプル（所定画像）が第ｉ画像ＩＭＧｉ（着目画像）である。また、学習単位のミニバッチ内のサンプル（学習用画像）の個数が１００個であり、１クラスあたり５個のサンプルが２０クラスについて準備される場合において、当該或るクラス以外のクラス（ネガティブクラス）に属するサンプル数は、９５個である。この場合、１枚の第ｉ画像ＩＭＧｉ（図１３左列の着目画像）とネガティブクラスの９５枚の画像ＩＭＧｊ（図１３右列参照）のそれぞれとが比較される。

詳細には、コントローラ３１は、まず複数の比較対象画像のうちの一の比較対象画像（たとえば図１３の右列最上段の画像）について、単位選出処理（ステップＳ２１１，Ｓ２１２（図１１））を実行する。

ステップＳ２１１においては、差分ベクトルΔｓ（＝ｓｉ－ｓｊ）が求められる。ベクトルｓｉは、着目画像（第ｉ画像）ＩＭＧｉを学習モデル４００に入力して得られる統合類似度ベクトルｓｉ（２８０）である。また、ベクトルｓｊは、複数の比較対象画像ＩＭＧｊのうちの一の比較対象画像（第ｊ画像）ＩＭＧｊを学習モデル４００に入力して得られる統合類似度ベクトルｓｊ（２８０）である。差分ベクトルΔｓは、ベクトルｓｉからベクトルｓｊを差し引いたベクトルである。

次に、ステップＳ２１２において、当該差分ベクトルΔｓにおける複数（Ｎｃ個）の成分ΔＳｋのうち最も大きな成分（最大の正の成分）に対応するプロトタイプが、所定画像のクラス（着目クラス）に所属する所属プロトタイプとして選出される。たとえば、図１３の左下の差分ベクトルΔｓにおいては、その複数の成分ΔＳｋのうちの最大成分ΔＳ１に対応するプロトタイプＰＴ１が、当該所属プロトタイプＰＴとして選出されている。

統合類似度ベクトルｓｉにおいては、着目クラスの着目画像（第ｉ画像）ＩＭＧｉの特徴を表すプロトタイプＰＴに対応する成分の値が、他の成分の値よりも大きな値として出現する。一方、統合類似度ベクトルｓｊにおいては、着目クラス以外のクラス（ネガティブクラス）の比較対象画像（第ｊ画像）ＩＭＧｊの特徴を表すプロトタイプＰＴの対応成分の値が他の成分の値よりも大きな値として出現する。それ故、着目クラスの特徴を顕著に表すプロトタイプＰＴは、着目画像ＩＭＧｉに関して大きな成分として出現し、比較対象ＩＭＧｊに関しては逆にあまり出現しない（小さな成分として出現する）プロトタイプＰＴである。したがって、差分ベクトルΔｓの複数の成分ΔＳｋのうち比較的大きな値（たとえば最も大きな値）を有する成分、に対応するプロトタイプＰＴが、着目クラスの特徴を顕著に表すプロトタイプＰＴである。ステップＳ２１２では、このような特性を考慮し、差分ベクトルΔｓの複数の成分ΔＳｋのうちの最大成分に対応するプロトタイプＰＴが、着目クラスの所属プロトタイプＰＴとして選出される。

このように、単位選出処理（Ｓ２１１，Ｓ２１２）は、一のクラスに属する所属プロトタイプを、当該一のクラス内の一の画像（着目画像）と一の比較対象画像（他クラス画像）との比較処理に基づいて選出する処理（着目画像単位で選出する処理）である。

このような単位選出処理が、複数の比較対象画像（たとえば９５個）のうちの残り（たとえば９４個）の比較対象画像についても実行される（Ｓ２１３）。すなわち、当該一の比較対象画像を別の比較対象画像に変更しつつ当該単位選出処理が複数の比較対象画像について実行される。なお、図１３の下側中央付近の２つ目の差分ベクトルΔｓにおいては、複数の成分ΔＳｋのうちの最大成分ΔＳ３に対応するプロトタイプＰＴ３が、当該所属プロトタイプＰＴとして選出されている。残り（９３個（＝９５－２））の差分ベクトルΔｓに関しても、その最大成分に対応するプロトタイプＰＴが、所属プロトタイプＰＴとして選出される。

図１３の最下段においては、複数（たとえば９５回）の単位選出処理によって選出されたプロトタイプＰＴが列挙されている。たとえば、当該複数の単位選出処理によって、所定画像（第１画像ＩＭＧ１）に基づく所属プロトタイプＰＴ（着目クラスの所属プロトタイプＰＴ）としてプロトタイプＰＴ１，ＰＴ３，ＰＴ４が選出される。また、プロトタイプＰＴ１，ＰＴ３，ＰＴ４の選出数（選出回数）は、それぞれ、「４０個」、「３０個」、「２５個」である（図１３の最下段および図１４の上段左側を参照）。なお、図１３の最下段等におけるプロトタイプＰＴ（の画像化表現（鳥の青色頭部、青色尾部等））は、学習完了後の理想的な状態（特定サンプル画像の特定部分領域に対応する画像特徴）で示されている。各プロトタイプＰＴの内容は、学習中において徐々に変化していく。

このように、一のクラスに属する所定画像と他クラスの複数の比較対象画像との比較処理によって、当該一のクラスに属する所定画像に基づき、当該一のクラスに所属する少なくとも１つの所属プロトタイプＰＴ（所定画像に基づく所属プロトタイプＰＴ）が選出される。また、所属プロトタイプごとの選出数をカウントする選出数算出処理も実行される。

次に、ステップＳ２１４において、コントローラ３１は、着目クラス内の別の基準画像についても、各基準画像を着目画像としてステップＳ２１１～Ｓ２１３の処理を実行する。具体的には、コントローラ３１は、一のクラス（着目クラス）に属する、所定画像以外の（Ｎ－１）個の画像（たとえば４個の画像）のそれぞれについても、複数の比較対象画像（たとえば９５個の画像）のそれぞれとの比較に基づくプロトタイプ選出処理等を実行する。

たとえば、着目クラスの第２画像（新たな着目画像）に関する単位選出処理が９５枚のネガティブ画像に対して繰り返し行われることによって、第２画像に基づく所属プロトタイプＰＴとしてプロトタイプＰＴ１，ＰＴ２，ＰＴ４が選出される。また、各プロトタイプＰＴ１，ＰＴ２，ＰＴ４の選出数（選出回数）は、それぞれ、「３０個」、「３０個」、「３５個」である（図１４の上段右側参照）。

同様に、或るクラスの第３画像に関する単位選出処理を９５枚のネガティブ画像に対して繰り返し行うことによって、たとえば、第３画像に基づく所属プロトタイプＰＴとしてプロトタイプＰＴ１，ＰＴ２，ＰＴ３，ＰＴ４が選出され、各プロトタイプＰＴ１，ＰＴ２，ＰＴ３，ＰＴ４の選出数（選出回数）は、それぞれ、「３５個」、「３０個」、「２５個」、「５個」である。

次に、ステップＳ２１５において、コントローラ３１は、着目クラスに属するＮ個（ここでは５枚）の画像についての所属プロトタイプＰＴの選出数を集計する。具体的には、コントローラ３１は、プロトタイプ選出処理で選出された所属プロトタイプごとの選出数の合計値を当該着目クラスに属する画像の個数Ｎ（ここでは５枚）で除した平均値を当該着目クラスにおける各所属プロトタイプＰＴの選出数として決定する。

たとえば、一のクラスの基準画像５枚について、一のクラスの所属プロトタイプＰＴ１の選出数が、それぞれ「４０」、「３０」、「３５」、「３０」、「４０」である場合を想定する。この場合、これらの５つの値の合計「１７５」を基準画像の枚数「５」で除した平均値「３５」が当該一のクラスにおける各所属プロトタイプＰＴ１の選出数（平均選出数）として決定される（図１４下段のＰＴ１参照）。

そして、ステップＳ２１６において、コントローラ３１は、プロトタイプ選出処理における各所属プロトタイプの選出数（選出回数）の多寡に基づき、当該一のクラスに関する各所属プロトタイプＰＴｋのプロトタイプ所属度Ｂｋ（Ｙａ）を求める。

具体的には、コントローラ３１は、一のクラス（着目クラス）における各所属プロトタイプＰＴの選出数を複数の比較対象画像の個数（たとえば９５個）で除した値を、当該一のクラス（Ｙｃ）における各所属プロトタイプのプロトタイプ所属度Ｂｋ^（Ｙｃ）として（暫定的に）算出する。たとえば、当該一のクラス（着目クラス）ＣＳ１における各所属プロトタイプＰＴ１，ＰＴ２，ＰＴ３，ＰＴ４の選出数（平均選出数）がそれぞれ「３５個」、「１５個」、「１５個」、「３０個」である場合を想定する（図１４下段）。この場合、クラスＣＳ１における各所属プロトタイプＰＴ１，ＰＴ２，ＰＴ３，ＰＴ４の所属度Ｂ１，Ｂ２，Ｂ３，Ｂ４は、「３５／９５」、「１５／９５」、「１５／９５」、「３０／９５」として算出される。

このようにして、一のクラスに所属する所属プロトタイプＰＴｋと、当該所属プロトタイプＰＴｋの当該一のクラスへの所属度合いを示すプロトタイプ所属度Ｂｋとが、（暫定的に）算出される。

また、ステップＳ２１７においては、着目クラスを別のクラスに変更しつつステップＳ２１１～Ｓ２１６の処理が繰り返し実行される。換言すれば、コントローラ３１は、上記一のクラスとは別のクラスに所属する所属プロトタイプを選出するプロトタイプ選出処理をも実行する。これによって、コントローラ３１は、複数のクラスのそれぞれに所属する所属プロトタイプと当該所属プロトタイプの所属度とを決定する。

たとえば、別のクラスＣＳ２の所属プロトタイプＰＴとしてプロトタイプＰＴ４，ＰＴ５が決定され、当該所属プロトタイプＰＴ４，ＰＴ５の所属度Ｂ４，Ｂ５が「３０／９５」、「６５／９５」して算出される（図１６の上段右側参照）。他のクラスＣＳ３等についても、それぞれ、その所属プロトタイプＰＴとその所属度とが算出される。

次に、ステップＳ４１のステップＳ２２（図９）について説明する。

ここにおいて、上述のステップＳ２１で求められた各クラスの所属プロトタイプＰＴの中には、複数のクラス（Ｙ１，Ｙ２，...）に跨がって選出されている所属プロトタイプＰＴが存在し得る。換言すれば、複数のプロトタイプＰＴのうち特定のプロトタイプＰＴが、所属プロトタイプＰＴとして偏って選出されている。

たとえば、プロトタイプＰＴ４が、クラスＣＳ１～ＣＳ１０の１０個のクラスに関する所属プロトタイプＰＴとして選出されていることがある（図１６上段参照）。このようなプロトタイプＰＴ（ＰＴ４）は、背景画像特徴のように、多数の画像に共通の特徴である可能性がある。換言すれば、当該プロトタイプＰＴ４等は、特定クラスの画像特徴を必ずしも顕著には表していない。

そこで、この実施形態では、このようなプロトタイプＰＴの影響を抑制するため、コントローラ３１は、複数のクラスに亘って所属プロトタイプベクトルとして選出されたプロトタイプＰＴの所属度を抑制する（ステップＳ２２）。換言すれば、所属プロトタイプＰＴとして特定のプロトタイプＰＴが偏って選出されている場合、プロトタイプＰＴの偏りを抑制する処理（De-Bias処理（デバイアス処理））が実行される（図１５参照）。具体的には、一のプロトタイプＰＴｋが２以上のクラスに所属する場合、コントローラ３１は、当該２以上のクラスのそれぞれ（各クラスＹｃ）における当該一のプロトタイプの所属度（プロトタイプ所属度Ｂｋ^（Ｙｃ））を低減する（正規化する）。たとえば、複数のクラスに所属する所属プロトタイプＰＴの所属度を、単一のクラスにのみ所属する所属プロトタイプＰＴの所属度よりも小さな値に変更する。

具体的には、式（５）等に従って、各クラスＹｃにおける各所属プロトタイプＰＴｋのプロトタイプ所属度Ｂｋ^（Ｙｃ）が修正される。

式（５）は、その左辺の値（新たな所属度Ｂｋ^（Ｙｃ））をその右辺の値で置き換えることを意味する。式（５）の右辺の分数の値は、分子（或るクラスＹｃにおける各所属プロトタイプＰＴｋの元の所属度Ｂｋ^（Ｙｃ））を分母で除した値である。分母は、各所属プロトタイプＰＴｋの元の所属度Ｂｋ^（Ｙｃ）を全てのクラスに亘って合計した値（合計値）と所定値εとのうち大きい方の値である。

たとえば、図１６に示されるように、プロトタイプＰＴ４が多数（たとえば１０個）のクラスに亘って所属プロトタイプＰＴとして選出されており、当該１０のクラスに亘る上記合計値（その所属度Ｂ４の合計値）が「３００／９５」であると仮定する。この場合において、所定値ε＝１とするときには、式（５）によって、或るクラスＣＳ１における所属プロトタイプＰＴ４の修正前の所属度Ｂ４「３０／９５」は、「１／１０」（＝（３０／９５）／３００／９５）へと低減（正規化）される。他のクラスＣＳ２等においても同様に、各クラスにおける所属プロトタイプＰＴ４の所属度Ｂ４は、同様に当該各クラスにおける修正前の所属度を、上記合計値と所定値εとのうち大きい方の値（たとえば「１」）で除することによって算出される。なお、修正前の所属度が「１」で除される場合には、修正後の所属度は修正前の所属度と同じ値である。

その後、各クラス内において、（互いに異なる種類の）複数の所属プロトタイプＰＴの所属度Ｂｋの和が「１」になるように調整される。たとえば、図１６の中段に示されるように、クラスＣＳ１における調整前（且つ上記偏り修正後）の各所属プロトタイプＰＴ１，ＰＴ２，ＰＴ３，ＰＴ４の所属度Ｂ１，Ｂ２，Ｂ３，Ｂ４がそれぞれ「３５／９５」、「１５／９５」、「１５／９５」、「１／１０」である場合を想定する。この場合、所属度Ｂ１，Ｂ２，Ｂ３，Ｂ４は、それぞれ「７０／１４９」、「３０／１４９」、「３０／１４９」、「１９／１４９」へと修正される（図１６の下段参照）。他のクラス（ＣＳ２等）においても、その所属プロトタイプＰＴの所属度の和が「１」になるように調整される。

このように、ステップＳ２２においては、プロトタイプ所属度をクラス間で調整する処理が主に行われる。ステップＳ２２においては、複数のクラスに共通に所属するプロトタイプＰＴの所属度が、単一のクラスにのみ所属するプロトタイプＰＴの所属度よりも低減される。

なお、ここでは、ε＝１の場合を主に例示しているが、これに限定されず、値εは１よりも小さな値（たとえば０．１等）であってもよい。その場合、たとえば、単一のクラス（あるいは少数のクラス）に所属するプロトタイプＰＴの所属度が一旦「１」（あるいは「１／２」等）に変更され、複数のクラスに跨がって所属するプロトタイプＰＴの所属度が比較的小さな値に変更される。その後、同一クラス内の所属プロトタイプＰＴの所属度の合計値が「１」になるように正規化される。

この場合、各Ｂｋは、たとえば、図１７のように変更される。

図１７の最上段は、図１６の最上段と同じ状態を示している。

図１７の中段では、所属プロトタイプＰＴ４の修正前の所属度Ｂ４「３０／９５」は、同様に、「１／１０」（＝（３０／９５）／３００／９５）へと低減（正規化）される。一方、式（５）の値εが小さな値であることに起因して、所属プロトタイプＰＴ１の所属度Ｂ１が「１」（＝（３５／９５）／（３５／９５））に変更される。他の所属プロトタイプＰＴ２，ＰＴ３の所属度Ｂ２，Ｂ３も「１」に修正される。このような修正によれば、単一のクラスに所属するプロトタイプＰＴ１，ＰＴ２，ＰＴ３の所属度（「１」）は、２以上のクラスに所属するプロトタイプＰＴ４の所属度よりも（相対的に）大きな値へと（より確実に）変更される。また、その後、各クラス内において、（互いに異なる種類の）複数の所属プロトタイプＰＴの所属度Ｂｋの和が「１」になるように調整される。たとえば、図１７の最下段に示されるように、クラスＣＳ１では、所属度Ｂ１，Ｂ２，Ｂ３は、いずれも「１０／３１」に変更され、所属度Ｂ４は、「１／３１」に変更される。

ステップＳ２２においては、以上のような処理が実行される。

次のステップＳ４２（ステップＳ２３）（図９）では、コントローラ３１は、画像ごとのプロトタイプ所属度である分配プロトタイプ所属度Ｂｉｋ（Ｔｉｋ）を求める（図１８および図１９参照）。上述のように、分配プロトタイプ所属度Ｂｉｋは、各クラスにおける所属プロトタイプＰＴｋのプロトタイプ所属度Ｂｋを同一クラス（たとえば、同一種類の鳥）内の２以上の画像のそれぞれに対して所定の基準に基づき分配した所属度である。

具体的には、コントローラ３１は、一のクラスに所属する一の所属プロトタイプのプロトタイプ所属度Ｂｋを当該一のクラスに属するＮ個の画像に分配して、当該Ｎ個の画像（ＩＭＧｉ）のそれぞれに対する分配プロトタイプ所属度Ｂｉｋ（Ｔｉｋ）を決定する。この際、所属プロトタイプＰＴのプロトタイプベクトルｐと各画像ＩＭＧｉ内の最類似ピクセルベクトルｑとの距離が小さい（類似度が大きい）ほど、当該各画像の分配プロトタイプ所属度Ｂｉｋが大きくなるように、元のプロトタイプ所属度Ｂｋが各画像ＩＭＧｉに対して分配される。

たとえば、第１の距離Ｄ１（次述）が第２の距離Ｄ２（次述）よりも大きい場合、コントローラ３１は、一の画像（たとえばＩＭＧ１）に対する分配プロトタイプ所属度（たとえばＴ１ｋ）を、他の画像（たとえばＩＭＧ２）に対する分配プロトタイプ所属度（たとえばＴ２ｋ）よりも小さな値として決定する。ここで、第１の距離Ｄ１は、Ｎ個の画像のうちの「一の画像」（たとえばＩＭＧ１）に対応する特徴マップ内の複数のピクセルベクトルｑのうち当該一の所属プロトタイプＰＴｋのプロトタイプベクトルｐｋに最も類似するピクセルベクトル（最類似ピクセルベクトル）と、プロトタイプベクトルｐｋとの距離（たとえば、Ｃ１ｋ）である。また、第２の距離Ｄ２は、当該Ｎ個の画像のうちの「他の画像」（たとえばＩＭＧ２）に対応する特徴マップ内の複数のピクセルベクトルのうち当該一の所属プロトタイプのプロトタイプベクトルｐｋに最も類似するピクセルベクトルと、プロトタイプベクトルｐｋとの距離（たとえば、Ｃ２ｋ）である。各距離Ｄ１，Ｄ２は、それぞれの最類似ピクセルベクトルｑとプロトタイプベクトルｐｋとの距離である（後述する式（６）参照）。ｋ＝２、且つ、Ｃ１２＞Ｃ２２、の場合、分配プロトタイプ所属度Ｔ１２は、分配プロトタイプ所属度Ｔ２２よりも小さな値に決定される。

詳細には、このような分配処理は、離散最適輸送問題として捉えることができる。当該分配処理は、比喩的に表現すれば、総輸送コスト（各配送店と各配送先との間の配送距離と各配送店から各配送先への配送量とに応じた輸送コストの合計値）を最小化するように、複数の配送先での必要量を複数の配送店に割り当てる問題（離散最適輸送問題）である。この実施形態では、各画像ｉが各配送店と捉えられ、各配送先が各プロトタイプＰＴｋと捉えられ、各配送先での必要量が各プロトタイプＰＴｋの所属度Ｂｋと捉えられればよい。輸送コストに相当する評価値を最小化するように、複数のプロトタイプＰＴの各所属度Ｂｋが複数の画像に分配される（割り当てられる）。当該評価値は、距離Ｃｉｋ（式（６）参照）と分配プロトタイプ所属度Ｔｉｋの大きさ（割当量）とに応じた評価値（式（７）参照）である。距離Ｃｉｋは、各プロトタイプベクトルｐｋと（各画像ｉに対応する特徴マップ２３０内の）最類似ピクセルベクトルｑとの間の距離であり、分配プロトタイプ所属度Ｔｉｋは、プロトタイプＰＴｋごとに各画像ｉに対して分配された所属度である。このような離散最適輸送問題は、たとえば、Sinkhorn-Knoppアルゴリズムなどの解法によって解くことが可能である。

式（６）のＣｉｋは、第ｉ画像の特徴マップ２３０内の複数のピクセルベクトルｑのそれぞれ（第ｉ画像の第ｊピクセルベクトルｑｊ^（ｉ））と第ｋプロトタイプベクトルｐｋとの距離のうちの最小値である。換言すれば、Ｃｉｋは、第ｉ画像の特徴マップ２３０内にて第ｋプロトタイプベクトルｐｋに最も類似するピクセルベクトルｑ（最類似ピクセルベクトル）と、当該第ｋプロトタイプベクトルｐｋとの距離である。端的に言えば、Ｃｉｋは、第ｉ画像内のいずれかのピクセルベクトルｑ（ｑｊ^（ｉ））とプロトタイプベクトルｐｋとの最小距離である。なお、式（６）のＣｉｋは、式（１）のＳｋと等価である。

式（７）は、上記分配処理における評価値を示す式である。Ｔｉｋ（Ｂｉｋ）は、着目クラスにおける第ｋプロトタイプＰＴｋの所属度Ｂｋのうち、第ｉ画像ＩＭＧｉに対して分配される（割り当てられる）分配プロトタイプ所属度を表している。式（７）の値は、上記離散最適輸送問題における「総輸送コスト」に相当する。

式（８）の（上側の式の）右辺は、或るクラスＹｃに関する分配処理において、Ｔ（Ｔｉｊ）を変動させて得られる複数の評価値（式（７）参照）のうち最小化された評価値を表している。

式（８）では、Ｔｉｋに関する２つの条件も併せて示されている。１つの条件は、第ｉ画像に対する第ｋプロトタイプＰＴｋの分配プロトタイプ所属度Ｔｉｋを（プロトタイプＰＴｋごとに）クラス内の複数（Ｎｓ個）の画像について加算した値が、第ｋプロトタイプＰＴｋのクラスＹｃへの所属度Ｂｋ^（Ｙｃ）のＮｓ倍に等しい旨の条件である。他の１つの条件は、第ｉ画像に対する第ｋプロトタイプＰＴｋの分配プロトタイプ所属度Ｔｉｋを（画像ごとに）複数のプロトタイプＰＴｋについて加算した値が「１」に等しい旨の条件である。なお、Ｎｓは同一クラス内の画像数（分配画像数）である。

すなわち、式（８）の値Ｌclstは、式（７）の評価値を式（８）における２つの条件に従いつつ最小化（最適化）した値である。ステップＳ２３等では、上記の分配問題（離散最適輸送問題）の解等が用いられる。具体的には、式（８）で示される最適解（近似最適解を含む）、および当該最適解を構成するＣｉｋ，Ｔｉｋ（分配結果等）が用いられる。

図１９は、一の分配結果を示す図である。

ここでは、一のクラスにおいて、３つの所属プロトタイプＰＴ１，ＰＴ２，ＰＴ３が存在し、各プロトタイプＰＴｋの当該クラスに対する各プロトタイプ所属度Ｂｋ（Ｂ１，Ｂ２，Ｂ３）は、「５／１２」、「３／１２」、「４／１２」であるものと仮定する。また、距離Ｃ１２（画像ＩＭＧ１内のピクセルベクトルｑとプロトタイプベクトルｐ２との最小距離）は非常に大きく、距離Ｃ２２（画像ＩＭＧ２内のピクセルベクトルｑとプロトタイプベクトルｐ２との最小距離）は非常に小さい。また、距離Ｃ１３は非常に小さく、距離Ｃ２３は非常に大きい。

このように距離Ｃ１２が距離Ｃ２２よりも大きい場合、コントローラ３１は、画像ＩＭＧ１に対する分配プロトタイプ所属度Ｔ１２（Ｂ１２）を、画像ＩＭＧ２に対する分配プロトタイプ所属度Ｔ２２（Ｂ２２）よりも小さな値として決定する。たとえば、分配プロトタイプ所属度Ｔ１２は「０（ゼロ）」であり、分配プロトタイプ所属度Ｔ２２は「１／２」である。端的に言えば、同一クラス内の２以上の画像のうちプロトタイプベクトルｐｋへの類似度が比較的小さな画像に対しては、比較的小さな所属度が分配される。

また、距離Ｃ１３が距離Ｃ２３よりも小さい場合、コントローラ３１は、画像ＩＭＧ１に対する分配プロトタイプ所属度Ｔ１３を、画像ＩＭＧ２に対する分配プロトタイプ所属度Ｔ２３よりも大きな値として決定する。たとえば、分配プロトタイプ所属度Ｔ１２は「２／３」であり、分配プロトタイプ所属度Ｔ２２は「０（ゼロ）」である。端的に言えば、同一クラス内の２以上の画像のうちプロトタイプベクトルｐｋへの類似度が比較的大きな画像に対しては、比較的大きな所属度が分配される。

また、画像ＩＭＧ１に対する分配プロトタイプ所属度Ｔ１１、および画像ＩＭＧ２に対する分配プロトタイプ所属度Ｔ２１は、距離Ｃ１１と距離Ｃ１２との大小関係等にも基づいて決定される。

各Ｔｉｋは、式（８）の２条件を充足するように決定される。その結果、たとえば、分配プロトタイプ所属度Ｔ１１，Ｔ１２，Ｔ１３は、「１／３」、「０（ゼロ）」、「２／３」として決定され、分配プロトタイプ所属度Ｔ２１，Ｔ２２，Ｔ２３は、「１／２」、「１／２」、「０（ゼロ）」として決定される（図１９の左端側参照）。

このようにして一のクラスに関する分配処理が行われる。

コントローラ３１は、このような分配処理を他のクラスにも適用し、同様の分配処理を繰り返すことによって、複数のクラスの評価値（式（８）にて最適化された評価値）をそれぞれ求める。

そして、コントローラ３１は、複数のクラスについて求めた複数の評価値Ｌclst^（Yc）（最適化後の評価値）をさらに加算することによって、評価関数Ｌのうちの評価項Ｌclstを算出する（式（９）参照）（ステップＳ２４）。

式（９）は、評価関数（評価項）Ｌclstを示す式である。式（９）の評価項Ｌclstは、式（８）で規定されるクラス毎の評価項Ｌclst^（Ｙｃ）を複数のクラスについて加算した値である。

さらに、ステップＳ２５（図９）において、コントローラ３１は、式（９）によって得られる評価項Ｌclstに加えて他の評価項Ｌtask，Ｌauxをも算出し、これらを式（２）に従って加算することによって評価関数Ｌを算出する。

ステップＳ２６においては、コントローラ３１は、この評価関数Ｌを最小化（最適化）するように学習処理（機械学習）を実行する。より詳細には、ステップＳ２１～Ｓ２５を繰り返し実行することによって、当該学習処理が実行される。

この際、特に、コントローラ３１は、評価項Ｌclst（およびＬclst^（Ｙｃ））をも最小化するように学習処理を実行する。すなわち、各プロトタイプベクトルｐｋが、各画像ｉの分配プロトタイプ所属度Ｔｉｋ（Ｂｉｋ）に応じて、当該各画像ｉに対応する特徴マップ内のいずれかのピクセルベクトルｑに対して近づくように、学習処理が実行される。換言すれば、各プロトタイプベクトルｐｋを各画像の特徴マップ２３０内の複数のピクセルベクトルｑのうち最も近いピクセルベクトルｑに対してさらに近づけるように学習処理が実行される。これによって、各プロトタイプベクトルｐｋが学習用の複数の画像のいずれかの画像特徴に近づくように、学習モデル４００（各プロトタイプベクトルｐおよびＣＮＮ２２０等（特にプロトタイプベクトルｐ））が学習される。

このような処理によって、学習モデル４００が学習（機械学習）されて学習済みモデル４２０が生成される。

以上のような学習処理によれば、評価項Ｌtask，Ｌclst，Ｌauxを有する評価関数Ｌを最適化（最小化）するように、学習モデル４００が学習される。詳細には、評価項Ｌtask，Ｌclst，Ｌauxをそれぞれ最適化（最小化）するように、学習モデル４００が学習される。

評価項Ｌtaskを最小化する作用によって、統合類似度ベクトル２８０に関する距離学習が進行する。これによれば、統合類似度ベクトル２８０に関する特徴空間において、同一クラス（たとえば、同一の種類の鳥）を被写体とする複数の入力画像に対応する複数の特徴ベクトルは、互いに近い位置に配置される。一方、異なるクラス（異なる種類の鳥）に関する複数の入力画像に対応する複数の特徴ベクトルは、互いに遠い位置に配置される。

また、評価項Ｌauxを最小化する作用によって、サブ特徴ベクトル２９０に関する距離学習が進行する。このような距離学習によれば、サブ特徴ベクトル２９０に関する特徴空間において、同一クラスの複数の入力画像に対応する複数の特徴ベクトルは互いに近い位置に配置され、互いに異なるクラスの複数の入力画像に対応する複数の特徴ベクトルは互いに遠い位置に配置される。

サブ特徴ベクトル２９０は、ＣＮＮ２２０からの出力（特徴マップ２３０）をチャンネル毎に集約したベクトルである。すなわち、サブ特徴ベクトル２９０は、（統合類似度ベクトル２８０と比較して、）学習モデル４００内においてＣＮＮ２２０からの出力箇所に近い箇所からの出力ベクトルである。本実施形態においては、このような特質を有するサブ特徴ベクトル２９０を用いた距離学習が行われる。したがって、評価項Ｌtask，Ｌauxのうち、評価項Ｌauxを考慮しない場合（評価項Ｌtaskのみを考慮する場合）に比べて、適切な特徴抽出能力を有するＣＮＮ２２０をより的確に構築することが可能である。

さらに、評価項Ｌclstを最小化する作用によって、各プロトタイプベクトルｐｋが最類似ピクセルベクトルｑ等に近づくように学習される。それ故、各プロトタイプベクトルｐｋが特定画像の特定部分領域の画像特徴を反映するように学習される。換言すれば、学習後の各プロトタイプベクトルｐｋは、各プロトタイプＰＴｋのコンセプト（画像特徴のコンセプト）を表現するように学習される。

特に、各プロトタイプベクトルｐｋは、各画像の分配プロトタイプ所属度Ｔｉｋに応じて、各画像内の画像別最類似ピクセルベクトルｑに近づくように学習される。また特に、各プロトタイプＰＴは、２つ以上のクラスに跨がって所属することが可能である。それ故、各プロトタイプベクトルｐは、互いに異なるクラスの異なる画像相互間にて互いに類似する特徴を反映するように学習され得る。また、クラス毎に所定数の専用のプロトタイプベクトルを準備することを要しないので、プロトタイプベクトルｐを効率的に構築することが可能である。

また、各プロトタイプベクトルｐは、同一クラス内の異なる画像に対して、画像ごとのプロトタイプ所属度（画像毎に異なる所属度）に応じて近づくように学習される。詳細には、各プロトタイプベクトルｐは、同一クラス内の画像ごとにも異なる所属度（画像別プロトタイプ所属度）に応じて画像特徴を反映するように学習される。それ故、プロトタイプベクトルｐを効率的に構築することが可能である。

なお、ProtoPNetをクラス分類に利用する従来技術と比較すると、各プロトタイプベクトルｐを各クラス専用のプロトタイプベクトルｐとして準備することを要しない。換言すれば、プロトタイプベクトルｐとクラスとの関係を固定しなくてもよい。それ故、上述のように、プロトタイプベクトルｐとクラスとの関係を固定せずにプロトタイプベクトルｐを或る画像特徴に近づけるような学習処理（距離学習等）、を実現することが可能である。ひいては、未分類画像に関する類似画像検索処理等において、プロトタイプベクトルｐに基づく画像特徴抽出および推論根拠説明等が可能になる。したがって、推論根拠の説明性（特に「透明性」：人間により理解可能なコンセプトで推論結果を説明できる性質）を向上させることができる。

＜プロトタイプベクトルの置き換え処理＞
上述のようにして学習モデル４００の機械学習が終了すると、処理はステップＳ２８（図１０）に進む。ステップＳ２８では、コントローラ３１は、当該学習モデル４００（学習済みモデル４２０）内の各プロトタイプベクトルｐｋを、最類似ピクセルベクトルｑ（ｑｍｋとも表記する）にそれぞれ置き換える（図２０参照）。詳細には、学習終了後の学習済みモデル４２０内の全て（Ｎｃ個）のプロトタイプベクトルｐｋ（ｋ＝１，...，Ｎｃ）が、それぞれに対する最類似ピクセルベクトルｑｍｋに置き換えられる。最類似ピクセルベクトルｑｍｋは、学習用の複数の画像に関する複数の特徴マップにおける複数のピクセルベクトルｑのうち当該各プロトタイプベクトルｐｋに最も類似するピクセルベクトルである。なお、最類似ピクセルベクトルｑｍｋは、特定画像内の特定領域に対応するピクセルベクトル（当該特定領域の画像特徴を示すベクトル）である。

具体的には、コントローラ３１は、まず、一の画像（第ｉ画像）を学習済み４２０に入力して得られる特徴マップ２３０を取得する。そして、コントローラ３１は、当該特徴マップ２３０内の複数のピクセルベクトルｑの中から、着目プロトタイプベクトルｐｋ（たとえばｐ１）に対して最も類似するピクセルベクトルｑを求める。第ｉ画像の特徴マップ２３０に対して最も類似するピクセルベクトルｑは、画像別最類似ピクセルベクトルｑとも称される。なお、両ベクトルｑ，ｐｋの類似性は、コサイン類似度等を用いて算出されればよい（式（１）あるいは式（６）参照）。

コントローラ３１は、同様の動作を複数の画像について繰り返す。これによって、学習用の複数（たとえば１００個）の画像に対応する複数の特徴マップ２３０が抽出され、当該複数の特徴マップ２３０のそれぞれにおいて、着目プロトタイプベクトルｐｋ（たとえばｐ１）に対する画像別最類似ピクセルベクトルｑが求められる。

そして、コントローラ３１は、複数の画像に関する複数（たとえば１００個）の画像別最類似ピクセルベクトルｑのうち、着目プロトタイプベクトルｐｋに最も類似する画像別最類似ピクセルベクトルｑを、最類似ピクセルベクトルｑ（ｑｍｋ）として特定する。また、コントローラ３１は、当該最類似ピクセルベクトルｑｍｋを含む画像（たとえば第１画像）を最類似画像（プロトタイプベクトルｐｋの特徴を最も有する画像）として特定する。

このようにして、コントローラ３１は、着目プロトタイプベクトルｐｋに対する最類似ピクセルベクトルｑｍｋを求める。

そして、コントローラ３１は、学習済みモデル４２０内の着目プロトタイプベクトルｐｋを、当該着目プロトタイプベクトルｐｋに対する最類似ピクセルベクトルｑｍｋで置き換える（図２０参照）。

さらに、その他の各プロトタイプベクトルｐｋについても同様にして最類似ピクセルベクトルｑｍｋがそれぞれ求められ、当該各プロトタイプベクトルｐｋがそれぞれの最類似ピクセルベクトルｑｍｋに置き換えられる。

このような置き換えによって、学習済みモデル４２０が修正され、修正後の学習済みモデル４２０が完成する（ステップＳ２９（図１０））。

このようにしてステップＳ１１（図５）の処理（学習モデル４００の学習段階の処理）が実行される。

＜１－５．学習モデル４００を用いた推論処理＞
次に、ステップＳ１１にて生成された学習モデル４００（学習済みモデル４２０）を利用することによって、推論処理が行われる（ステップＳ１２（図５））。

たとえば、新たな画像（推論対象画像）２１５に類似する画像を複数の画像２１３の中から探し出す処理等が、推論処理として実行される。より詳細には、検索元の画像（クエリ画像とも称する）２１５との類似度合いが所定程度以上（換言すれば、特徴空間における特徴ベクトル（統合類似度ベクトル２８０）間の距離が所定距離以下）の画像を、複数の画像２１３（ここでは学習用の複数の画像）の中から探し出す処理等が、推論処理として実行される。あるいは、クエリ画像に類似した画像をその類似順に探し出す処理等が推論処理として実行されてもよい。

推論対象画像（クエリ画像）は、学習データ（学習用の複数の画像の画像データ等）に対するラベル付けに利用されたクラス（既分類クラス（既知クラス））以外のクラス（未分類クラス）に属する画像であってもよい。すなわち、推論対象画像は、既分類クラスの画像であってもよく、未分類クラスの画像であってもよい。なお、本実施形態に係る推論処理（上述の学習モデル４００を用いた推論処理）は、（既分類クラスの推論対象画像に類似する画像を良好に検索できるだけでなく）未分類クラスの推論対象画像に類似する画像を良好に検索できる点において特に有意である。

以下、この推論処理について図２１および図２２を参照しつつ説明する。図２１は、統合類似度ベクトル２８０（２８３）を特徴空間における特徴ベクトルとして用いた推論処理について説明する図である。図２２は、推論処理結果の一例を示す図である。

まず、画像処理装置３０は、学習用の複数の画像（ギャラリー画像２１３）を学習済みモデル４２０にそれぞれ入力し、当該学習済みモデル４２０からの出力をそれぞれ取得する。具体的には、図２１（特にその右側）に示されるように、各入力画像２１０（２１３）に対する出力（特徴ベクトル）として、各統合類似度ベクトル２８０（２８３）が取得される。複数の統合類似度ベクトル２８３は、学習用の複数の画像を学習済みモデル４２０に入力することに応じて学習済みモデル４２０から出力される複数の統合類似度ベクトル２８０である。また、各統合類似度ベクトル２８０（２８３）は、たとえば、５１２次元のベクトルとして生成される。このような統合類似度ベクトル２８３（特徴ベクトル）が、各入力画像２１３の特徴を表すベクトルとして、複数の入力画像２１３のそれぞれに関して求められる。

同様に、画像処理装置３０は、検索対象の入力画像（クエリ画像）２１５を学習モデル４２０に入力し、当該学習モデル４２０から出力された統合類似度ベクトル２８０（２８５）を特徴ベクトルとして取得する（図２１左側参照）。統合類似度ベクトル２８５は、クエリ画像２１５を学習済みモデル４２０に入力することに応じて当該学習済みモデル４２０から出力される統合類似度ベクトル２８０である。なお、クエリ画像２１５は、たとえば、複数の入力画像２１３（ギャラリー画像）とは別の画像（探索用に新たに付与された画像等）である。ただし、これに限定されず、クエリ画像２１５は、複数の入力画像２１３（ギャラリー画像）のいずれかであってもよい。

そして、画像処理装置３０は、統合類似度ベクトル２８５と複数の統合類似度ベクトル２８３とに基づいて、学習用の複数の画像の中から、クエリ画像２１５に類似する画像を検索する。

具体的には、画像処理装置３０は、クエリ画像２１５の特徴ベクトル２８５と複数の入力画像２１３に関する複数の特徴ベクトル２８３のそれぞれとの類似度合い（たとえば、ユークリッド距離、あるいはベクトル間の内積（コサイン類似度）等）を算出する。さらに、当該類似度合いの高い順（類似度合いの降順）に当該複数の特徴ベクトル２８３が並べ替えられる。より詳細には、ユークリッド距離の昇順に（あるいは、コサイン類似度の降順に）複数の特徴ベクトル２８３が並べ替えられる。

つぎに、画像処理装置３０は、特徴空間における特徴ベクトル２８５との距離が所定の距離以下（すなわち、類似度合いが所定程度以上）の１又は２以上の特徴ベクトル２８３を、クエリ画像２１５に（特に）類似する画像の特徴ベクトル２８５として特定する。換言すれば、画像処理装置３０は、特定された当該１又は２以上の特徴ベクトル２８５に対応する１又は２以上の入力画像２１３内の被写体を、クエリ画像２１５内の被写体に類似する被写体として認識する。

また、画像処理装置３０は、特徴空間における特徴ベクトル２８５との距離が最も小さな特徴ベクトル２８３を、クエリ画像２１５に最も類似する画像の特徴ベクトル２８５として特定する。換言すれば、画像処理装置３０は、特定された当該一の特徴ベクトル２８５に対応する一の入力画像２１３内の被写体を、クエリ画像２１５内の被写体に最も類似する被写体として認識する。

図２２は、複数の入力画像２１３にそれぞれ対応する複数の特徴ベクトル２８３（図２２にてハッチングを付した白丸でそれぞれ示される）が特徴空間にて分布する様子を示している。図２２では、クエリ画像２１５の特徴ベクトル２８５（白星印参照）から所定の距離範囲内に、３つの特徴ベクトル２８３（Ｖ３０１，Ｖ３０２，Ｖ３０３）が存在している。

この場合、たとえば、当該３つの特徴ベクトル２８３（Ｖ３０１，Ｖ３０２，Ｖ３０３）に対応する３つの画像２１３が類似画像として抽出される。当該３つの特徴ベクトル２８３を含む複数の特徴ベクトル２８３は、特徴ベクトル２８５との類似度の降順に（距離の昇順に）並べられている。ここでは、上位３つの特徴ベクトル２８３に対応する３つの画像２１３が、クエリ画像２１５の被写体に特に類似する被写体の画像である、と認識されている。

また、特徴ベクトル２８５に最も近い特徴ベクトル２８３（Ｖ３０１）に対応する一の画像２１３が、クエリ画像２１５に最も類似する類似画像として抽出される。

なお、これに限定されず、複数の入力画像２１３が、クエリ画像２１５との（特徴ベクトル２８５に関する）距離の昇順（類似度の降順）に並べ替えられるだけでもよい。この場合でも、画像処理装置３０は、実質的にクエリ画像内の被写体に類似する被写体をその類似順に探し出す処理（類似画像の検索処理）を実行している。また、当該処理は、クエリ画像内の被写体を認識するための推論処理であるとも表現される。

また、この実施形態では、推論対象画像に類似する画像が学習用の複数の画像の中から検索されているが、これに限定されない。たとえば、学習用の複数の画像以外の画像を含む画像の中から、推論対象画像に類似する画像が検索されてもよい。

＜１－６．推論結果に関する説明処理１＞
つぎに、推論結果についての説明処理（ステップＳ１３（図５））について説明する。

たとえば、「特徴ベクトル２８５に最も近い特徴ベクトル２８３（Ｖ３０１）に対応する一の画像２１３ａ（２１４とも称する）が、クエリ画像２１５に最も類似する類似画像である」（図２２参照）と推論される場合を想定する。換言すれば、クエリ画像２１５に対応する統合類似度ベクトル２８５と、画像２１４に対応する統合類似度ベクトル２８４との両ベクトルの距離Ｄが、複数の組合せに係る距離Ｄの中で最小（両ベクトルの類似度が最大）であると判定される場合を想定する。

この場合、画像処理装置３０（コントローラ３１）は、その推論根拠（画像２１３ａがクエリ画像２１５に類似する旨を画像処理装置３０が推論した根拠）を説明する説明情報を生成する。そして、当該説明情報は、表示画面に表示される。

図２３は、このような説明情報の表示例（表示画面の例）を示す図である。たとえば、図２３の全体が表示部３５ｂにおいて表示される。当該表示例においては、クエリ画像２１５（最上部左側参照）に最も類似する画像として検索された画像が最上部右側に表示されている。また、「判断根拠１」として、プロトタイプＰＴmax（次述）に対応する部分画像が示されており、「判断根拠２」として、クエリ画像２１５内にて当該プロトタイプＰＴmaxに類似する部分領域画像（および当該部分領域画像のクエリ画像２１５内での位置）が示されている。

このような表示を実現するにあたり、コントローラ３１は、まず、クエリ画像２１５に対応する特徴ベクトル（統合類似度ベクトル）２８５の複数の成分Ｓｋを降順に並べる。当該複数の成分Ｓｋのうちの最大成分Ｓmaxに対応するプロトタイプＰＴ（ＰＴmaxとも表記する）が、類似判断の最大根拠である。すなわち、プロトタイプＰＴmaxに係る特定の画像特徴に類似する画像特徴がクエリ画像に含まれていることが、画像類似判断の最大根拠である。

特に、上述の置き換え処理（ステップＳ２８）によって、各プロトタイプＰＴｋのプロトタイプベクトルｐｋは、各最類似ピクセルベクトルｑｍｋに置き換えられている（図２３の破線矩形内参照）。換言すれば、各プロトタイプベクトルｐｋは、各最類似ピクセルベクトルｑｍｋで上書きされている。それ故、特徴空間における統合類似度ベクトル２８０の各成分Ｓｋは、各最類似ピクセルベクトルｑｍｋとの類似性を表している。したがって、プロトタイプＰＴ（ＰＴmax）のプロトタイプベクトルｐに上書きされた最類似ピクセルベクトルｑ（ｑmax）が、類似判断の最大根拠である。

そこで、コントローラ３１は、最大成分Ｓmaxを有するプロトタイプＰＴ（ＰＴmax）に対応する画像特徴（すなわち、上書きされた最類似ピクセルベクトルｑmaxに対応する画像特徴）を判断根拠としてユーザに提示する。

たとえば、プロトタイプＰＴmaxのプロトタイプベクトルｐ（ｐmax）に対して上書きされた最類似ピクセルベクトルｑmaxが、画像ＩＭＧ１内の特定部分領域Ｒ１（図２０の最上段および図２３の下側参照）に対応する場合、コントローラ３１は、当該特定部分領域Ｒ１の画像を、類似判断根拠を示す画像としてユーザに提示する。具体的には、コントローラ３１は、「判断根拠１」として、プロトタイプＰＴmaxに対応する部分領域画像（より具体的には、最類似ピクセルベクトルｑmaxに対応する部分領域画像）を表示する。

また、コントローラ３１は、クエリ画像（推論対象画像）２１５内において、当該特定部分領域Ｒ１に類似する領域（特定類似領域Ｒｑ）を特定し、当該特定類似領域Ｒｑの画像等をユーザに提示する。具体的には、コントローラ３１は、「判断根拠２」として、クエリ画像２１５内の特定類似領域Ｒｑを囲む矩形（包囲矩形）をクエリ２１５に重畳表示することによって、特定類似領域Ｒｑの画像特徴とクエリ画像２１５内での特定類似領域Ｒｑの位置とを併せてユーザに提示する。また、「判断根拠２」として、コントローラ３１は、特定類似領域Ｒｑの拡大画像をも表示する。当該拡大画像は、上記包囲矩形を含むクエリ画像２１５の表示エリアの近傍（ここでは左側）に表示される。

より詳細には、まず、コントローラ３１は、クエリ画像２１５内において、最類似ピクセルベクトルｑmaxに最も類似する画像特徴を検索する。具体的には、クエリ画像２１５を学習済みモデル４２０に入力して得られる特徴マップ２３０内の複数のピクセルベクトルｑのうち、最類似ピクセルベクトルｑmax（＝プロトタイプＰＴmaxのプロトタイプベクトルｐmax）に最も類似するピクセルベクトルｑが抽出される。そして、コントローラ３１は、抽出された当該ピクセルベクトルｑに対応する部分領域画像（特定類似領域）およびその画像内位置等を「判断根拠２」として表示する。

このような判断根拠の提示（装置からの提示）のうち、特に「判断根拠１」に基づき、次のような理解が得られる。具体的には、プロトタイプＰＴmaxに対応する画像特徴（特定部分領域Ｒ１における「青色の頭部」の画像特徴等）を基準に画像処理装置３０が「類似」判断を下した、とユーザは理解することができる。

また、「判断根拠２」に基づき、次のような理解が得られる。具体的には、クエリ画像２１５内にて特定部分領域Ｒ１に類似していると装置によって推論された部分領域（特定類似領域Ｒｑ）をユーザは把握できる。ユーザは、特定類似領域Ｒｑの画像特徴を特定部分領域Ｒ１の画像特徴と見比べることによって、特定部分領域Ｒ１の画像特徴（「青色の頭部」等）が特定類似領域Ｒｑの画像特徴に存在することを確認し、推論結果が正しいことを理解できる。

このような説明情報によれば、クエリ画像２１５（推論対象画像）に関する類似性が、各置き換え後のプロトタイプベクトルｐmaxとの類似性を用いて非常に適切に説明され得る。ここにおいて、置き換え後の各プロトタイプベクトルｐmaxは、最類似ピクセルベクトルｑmaxの画像特徴（すなわち、学習用の複数の画像のうちの特定画像（ＩＭＧ１等）の特定部分領域（Ｒ１等）の画像特徴）を表している。それ故、推論処理において学習済みモデル４２０から出力される統合類似度ベクトル２８０は、（置き換え前のプロトタイプベクトルｐmaxではなく）置き換えられた当該最類似ピクセルベクトルｑmaxの画像特徴との類似性を表している。したがって、画像処理装置３０は、当該特定画像（ＩＭＧ１等）の特定部分領域（Ｒ１等）の画像特徴（「青色の頭部」等）に類似しているか否かに基づき自装置３０が類似を判断した旨をユーザ（人間）に説明できる。換言すれば、高い「透明性」（人間により理解可能なコンセプトで推論結果を説明できる性質）を的確に得ることが可能である。

図２３では、クエリ画像２１５（推論対象画像）が既分類クラスに属する場合が示されているが、これに限定されず、クエリ画像２１５は既分類クラスに属しなくてもよい。

図２４は、図２３とは別の表示例である。図２４においては、クエリ画像２１５が既分類クラスに属しない場合が示されている。

図２４は、説明情報の別の表示例（表示画面の例）を示す図である。

クエリ画像２１５は、未分類クラスに属する鳥（（赤っぽい足を有する）特定種類の鳥）の画像である。そのようなクエリ画像２１５に最も類似する画像が学習用の複数の画像の中から検索されている。ここでは、学習用の複数のクラスの中に、第１クラスＹ１（（オレンジ色の足を有する）或る鳥の種類）と第２クラスＹ２（（赤色の足を有する）別の鳥の種類）とが含まれている。

「判断根拠１」として、プロトタイプＰＴmaxに対応する部分画像が示されている。このプロトタイプＰＴmaxは、複数（ここでは２つ）のクラスＹ１，Ｙ２に跨がって所属するプロトタイプＰＴである。

また、「判断根拠２」として、クエリ画像２１５（「赤っぽい色の足」を有する鳥の画像）内にて当該プロトタイプＰＴmaxに最も類似する部分領域画像（「赤っぽい色の足」を示す部分領域画像）等が示されている。

上述したように、上記評価項Ｌtaskに基づく統合類似度ベクトル２８０の距離学習が行われる際に、評価項Ｌclstもが考慮される。これによれば、各クラスへのプロトタイプＰＴ所属度に応じて当該各クラス内の各画像内の或るピクセルベクトルｑに当該プロトタイプＰＴ（結果的にＰＴmax）が近づくように学習される。たとえば、当該プロトタイプＰＴmaxのプロトタイプベクトルｐmaxは、（クラスＹ１に属する画像の「オレンジ色の足」に対応する）ピクセルベクトルｑ１に近づくように且つ（クラスＹ２に属する画像の「赤色の足」に対応する）ピクセルベクトルｑ２に近づくように学習される（図２４下側の大きな破線矩形内参照）。この結果、「オレンジの足」の鳥画像のみならず「赤色の足」の鳥画像も統合類似度ベクトル２８０の特徴空間内にて近くに配置される。ただし、ステップＳ２８の置き換え処理において、プロトタイプベクトルｐmaxは、ピクセルベクトルｑ１，ｑ２のうちピクセルベクトルｑ１に置き換えられたものとする。

画像処理装置３０は、図２４に示すような説明情報をユーザに対して提示する。

このような説明情報によれば、クエリ画像２１５（推論対象画像）に関する類似性が、各置き換え後のプロトタイプベクトルｐmaxとの類似性を用いて非常に適切に説明され得る。ここにおいて、置き換え後の各プロトタイプベクトルｐmaxは、最類似ピクセルベクトルｑmaxの画像特徴（端的に言えば「オレンジ色の足」）を表している。したがって、画像処理装置３０は、当該特定画像特徴（「オレンジ色の足」）に類似しているか否かに基づき自装置３０が類似を判断した旨を説明できる。換言すれば、高い透明性（人間により理解可能なコンセプトで推論結果を説明できる性質）を的確に得ることが可能である。

また、そのような説明情報を知得したユーザは、「判断根拠１」に基づきクエリ画像２１５に類似する画像がプロトタイプＰＴmaxに基づき検索されたことを理解できる。すなわち、ユーザは、置き換え後のプロトタイプＰＴmax（ここではピクセルベクトルｑ１に等しい）の特定画像特徴（「オレンジ色の足」）に類似しているか否かに基づき装置が画像の類似を判断した旨を理解することができる。

ただし、これに限定されず、ユーザは、「判断根拠２」に含まれる情報にも基づいて次のような解釈を行うことも可能である。

「判断根拠２」においては、クエリ画像内の類似箇所の画像特徴（具体的には、「赤っぽい足」）等が示されている。ユーザは、プロトタイプＰＴmaxがピクセルベクトルｑ２（「赤色の足」）をも反映するように学習されていること自体は知得できないものの、ユーザは、プロトタイプＰＴmaxの画像特徴（「オレンジ色の足」）とクエリ画像２１５内の画像特徴（「赤っぽい色の足」）とを知得できる。ユーザは、このような情報に基づき、プロトタイプＰＴmaxは実際には「明るい赤っぽい色の足」という画像特徴（「オレンジ色」と「赤色」との双方を含むような画像特徴）を示すものとして学習されていることを推測すること（総合的に理解すること）ができる。したがって、ユーザは、画像処理装置３０が「明るい赤っぽい色の足」という画像特徴に基づき類似を判断している、と解釈することも可能である。特に、上述のように、評価値Ｌclstの作用にも依拠して、互いに類似する特徴（ピクセルベクトルｑ１，ｑ２に対応する特徴）を有する画像群に対応する統合類似度ベクトル２８０群は、特徴空間において近くに配置されている。このことを考慮すれば、そのような解釈は一定の合理性を有している。

＜１－７．推論結果に関する説明処理２＞
上記においては、クエリ画像２１５が検索対象の複数の画像のうちの特定の画像に類似している根拠が画像処理装置３０によって説明されている。ただし、これに限定されず、クエリ画像２１５が検索対象の複数の画像のうちの特定の画像に類似していない根拠も画像処理装置３０によって説明され得る。以下では、このような態様について説明する。

以下では、第１画像Ｇ１と第２画像Ｇ２とが似ていない旨を画像処理装置３０が判定する場合において、両画像Ｇ１，Ｇ２が似ていない（非類似の）旨の判定根拠を画像処理装置３０が説明する態様について説明する（図２５参照）。なお、たとえば、第１画像はクエリ画像２１５であり、第２画像はクエリ画像２１５に似ていないと判定（推論）された画像（学習用の複数の画像のうちのいずれか等）である。

コントローラ３１は、類否判定に際して、第１画像Ｇ１に対応する特徴ベクトル（統合類似度ベクトル）２８０（ｓ１とも表記する）と、第２画像Ｇ２に対応する特徴ベクトル（統合類似度ベクトル）２８０（ｓ２とも表記する）とを求める（図２５参照）。

なお、上述のように、或る入力画像２１０の統合類似度ベクトル２８０の各成分Ｓｋは、当該入力画像２１０の画像内最類似ピクセルベクトルｑｎｋと当該第ｋプロトタイプベクトルｐｋとの距離を表している（図２５参照）。各成分Ｓｋは、第ｋプロトタイプベクトルｐｋで表現される画像特徴がその入力画像に存在する程度を示している。画像内最類似ピクセルベクトルｑｎｋは、当該入力画像２１０の入力に対してＣＮＮ２２０（特徴抽出層３２０）から出力される特徴マップ２３０内の複数のピクセルベクトルｑのうち、第ｋプロトタイプベクトルｐｋに最も類似するピクセルベクトルｑである。

そして、たとえば、両画像Ｇ１，Ｇ２に関する両ベクトルｓ１，ｓ２相互間の距離（ここではユークリッド距離）Ｄ（次式（１０））が所定値未満である場合、画像処理装置３０が第１画像Ｇ１と第２画像Ｇ２とが似ていない、と判定される。なお、式（１０）において、統合類似度ベクトルｓ（２８０）の各成分Ｓｋの右肩の括弧で囲まれた数字は、第１画像と第２画像とのいずれに関する成分を表すかを識別するために付されている。

次に、コントローラ３１は、両ベクトルｓ１，ｓ２をその成分Ｓｋごとに比較する。より具体的には、コントローラ３１は、両ベクトル２８３の差分ベクトルΔｓ（＝Δｓ１２＝ｓ１－ｓ２）を求める（図２５中段右側参照）とともに、当該差分ベクトルΔｓの複数（Ｎｃ個）の成分ΔＳｋ（ｋ＝１，...，Ｎｃ）（詳細にはその絶対値）を降順に並べ替える（図２６参照）。

差分ベクトルΔｓの第ｋ成分ΔＳｋ（絶対値）が小さいことは、一方のベクトル（たとえばベクトルｓ１）の第ｋ成分Ｓｋと他方のベクトル（たとえばベクトルｓ２）の第ｋ成分Ｓｋとが近い値であることを意味する。逆に、差分ベクトルΔｓの第ｋ成分ΔＳｋ（絶対値）が大きいことは、たとえば、一方のベクトルｓ１の第ｋ成分Ｓｋが大きく且つ他方のベクトルｓ２の第ｋ成分Ｓｋが小さいことを意味する。換言すれば、当該第ｋ成分Ｓｋに対応するプロトタイプＰＴｋ（画像特徴のコンセプト）は一方の画像（たとえば第１画像Ｇ１）に大きく含まれており、一方、当該プロトタイプＰＴｋは第他方の画像（２画像Ｇ２）には（あまり）含まれていないことを意味する。すなわち、当該第ｋ成分Ｓｋのプロトタイプベクトルｐの画像特徴が一方の画像（たとえば第１画像）に（十分に）存在し、他方の画像（第２画像）には当該第ｋ成分Ｓｋのプロトタイプベクトルｐの画像特徴が（ほとんど）存在していないことを意味する。それ故、差分ベクトルΔｓの第ｋ成分ΔＳｋが大きいほど、その第ｋプロトタイプＰＴｋは、２つの画像Ｇ１，Ｇ２の相互間の違いをより適切に説明できるプロトタイプ（コンセプト）である。

ここでは、差分ベクトルΔｓの複数（Ｎｃ個）の成分ΔＳｋ（絶対値）が降順に並べ替えられた後、最も大きなΔＳｋ（図２６ではΔＳ２）に対応するプロトタイプＰＴｋが、両画像Ｇ１，Ｇ２の違いを最も（第１順位で）適切に説明できるプロトタイプＰＴ（最上位プロトタイプＰＴ）である、と画像処理装置３０が判定する。また、２番目に大きなΔＳｋ（図２６ではΔＳ３）に対応するプロトタイプＰＴｋが、両画像Ｇ１，Ｇ２の違いを次順位（第２順位）で適切に説明できるプロトタイプＰＴ（最上位プロトタイプＰＴ）である、と画像処理装置３０が判定する。同様に、各プロトタイプＰＴｋは、対応するΔＳｋ（絶対値）の順位に従って順位付けられる。

図２７は、違いを説明する説明情報の表示例（表示画面の例）を示す図である。たとえば、図２７の全体が表示部３５ｂにおいて表示される。

図２７においては、両画像Ｇ１，Ｇ２が左側に表示されるとともに、並べ替え後の差分ベクトルΔｓの各成分ΔＳｋ（絶対値）がグラフ形式で表示されている。なお、各成分ΔＳｋの値等もが併せて表示されてもよい。

また、複数の成分ΔＳｋのうちの上位数個（ここでは３個）に対応するプロトタイプベクトルｐｋの画像特徴等が表示されている（図２７の右端列参照）。具体的には、プロトタイプベクトルｐｋを置き換えた最類似ピクセルベクトルｑｍｋを含む画像（プロトタイプベクトルｐｋの特徴を最も有する画像）ｇｋとともに、当該最類似ピクセルベクトルｑｍｋに対応する部分画像が矩形で囲まれて示されている。

たとえば、最上位成分ΔＳ２については、画像ｇ２と当該画像ｇ２内の部分画像（矩形で囲まれた領域）とが示されている。同様に、第２順位成分ΔＳ３については画像ｇ３と当該画像ｇ３内の部分画像とが示されており、第３順位成分ΔＳ７については画像ｇ７と当該画像ｇ７内の部分画像とが示されている。

また、図２８は、詳細情報をさらに示す表示例である。図２７の表示画面のみならず図２８の表示画面もが表示されることが好ましい。

図２８の上下方向３段且つ左右方向３列の合計９つのヒートマップは、これらの上位３つのプロトタイプベクトルｐ２（最上段参照），ｐ３（中段参照），ｐ７（最下段参照）に関して、各最類似画像での発火位置（最左列参照）と第１画像Ｇ１での発火位置（中央列参照）と第２画像Ｇ２での発火位置（最右列参照）とを示している。各段のプロトタイプベクトルｐｋに対応する各ヒートマップ（横方向に配列された３つのヒートマップ）は、各列の画像に関する第ｋ平面類似度マップ２６０（図３）に対応する。なお、各画像内での発火位置（各プロトタイプベクトルｐｋとの類似度合いが高いピクセルベクトルｑの位置（ｗ，ｈ））は、比較的明るい色で示されている。ただし、ヒートマップごとにスケールが異なっている（詳細には、各ヒートマップ内での最大類似度が１００％になるようにスケール変換されている）。それ故、９つのヒートマップの相互間での明るさの比較には注意を要する（あるいは９つのヒートマップの相互間では明るさの比較をしないことが好ましい）。

図２８の最上段最左列においては、プロトタイプベクトルｐ２に関する最類似画像ｇ２での発火位置が鳥の足付近に存在することが示されている。すなわち、プロトタイプベクトルｐ２は、最類似画像ｇ２における鳥の足付近の画像特徴を表していることが判る。また、最上段の（左右方向）中央列においては、プロトタイプベクトルｐ２の第１画像Ｇ１での発火位置が鳥の足付近に存在することが示されている。最上段の最右列においては、プロトタイプベクトルｐ２の第２画像Ｇ２での発火位置が鳥の足付近に存在することが示されている。ただし、第１画像Ｇ１での発火位置での類似度は高く（たとえば「０．４８９」）、第２画像Ｇ２での発火位置での類似度は低い（たとえば「０．２０１」）。すなわち、プロトタイプベクトルｐ２の画像特徴は、第１画像Ｇ１（図２７左端列上側）に比較的大きく現れている一方、第２画像Ｇ２（図２７左端列下側）にはあまり現れていない。

図２８の中段最左列においては、プロトタイプベクトルｐ３に関する最類似画像ｇ３での発火位置が背景（鳥頭部よりも上側）に存在することが示されている。すなわち、プロトタイプベクトルｐ３は、最類似画像ｇ３における背景の一部の画像特徴を表していることが判る。また、中段の（左右方向）中央列においては、第１画像Ｇ１での発火位置および第２画像Ｇ２での発火位置が明るい領域として示されている。ただし、第１画像Ｇ１での発火位置での類似度は高く（たとえば「０．４０６」）、第２画像Ｇ２での発火位置での類似度は低い（たとえば「０．１６８」）。すなわち、プロトタイプベクトルｐ３の画像特徴は、第１画像Ｇ１に比較的大きく現れている一方、第２画像Ｇ２にはあまり現れていない。

図２８の最下段最左列においては、プロトタイプベクトルｐ７に関する最類似画像ｇ７での発火位置が鳥のくちばし先端付近に存在することが示されている。すなわち、プロトタイプベクトルｐ７は、最類似画像ｇ７における鳥のくちばし先端付近の画像特徴（細長い形状等）を表していることが判る。また、最下段（左右方向）中央列においては、第１画像Ｇ１での発火位置および第２画像Ｇ２での発火位置が明るい領域として示されている。ただし、第１画像Ｇ１での発火位置での類似度は低く（たとえば「０．１４７」）、第２画像Ｇ２での発火位置での類似度は高い（たとえば「０．３６１」）。すなわち、プロトタイプベクトルｐ７の画像特徴は、第２画像Ｇ２に比較的大きく現れている一方、第１画像Ｇ１にはあまり現れていない。

このような説明情報が画像処理装置３０からユーザに提示される。

特に、画像処理装置３０は、両画像Ｇ１，Ｇ２が互いに似ていないと自装置３０が判断した根拠として、上位数個（ここでは３個）のプロトタイプベクトルｐｋ（コンセプト）をユーザに提示する。ユーザは、このような提示を受けて、当該上位数個のプロトタイプベクトルｐｋで表現されるコンセプト、たとえば最上位プロトタイプベクトルｐ２のコンセプト（最類似画像ｇ２における鳥の足付近の画像特徴）等に基づき、両画像が非類似であると判断されたことを理解できる。

なお、ここでは、（未分類クラスに属する）クエリ画像２１５（推論対象画像）の比較対象の画像が学習用の複数の画像のいずれかである場合を想定しているが、これに限定されず、当該比較対象の画像は、学習用の複数の画像以外の画像であってもよい。また、当該比較対象の画像も、未分類クラスの画像であってもよい。このように、２つの画像を比較する際において、当該２つの画像のそれぞれは、学習用の複数の画像のいずれかであってもよく、学習用の複数の画像以外の画像であってもよい。また、当該２つの画像は、未分類クラスの画像であってもよい。

＜１－８．実施形態による効果＞
上記実施形態においては、学習モデル４００の学習段階において、評価項Ｌtaskを最小化する作用によって、統合類似度ベクトル２８０に関する距離学習が進行する。これによれば、統合類似度ベクトル２８０に関する特徴空間において、同一クラス（たとえば、同一の種類の鳥）を被写体とする複数の入力画像に対応する複数の特徴ベクトルは、互いに近い位置に配置される。一方、異なるクラス（異なる種類の鳥）に関する複数の入力画像に対応する複数の特徴ベクトルは、互いに遠い位置に配置される。

特に、各プロトタイプベクトルｐｋは、各画像の分配プロトタイプ所属度Ｔｉｋに応じて、当該各画像に対応する特徴マップ内のいずれかのピクセルベクトル（当該各画像内の画像別最類似ピクセルベクトルｑ）に近づくように学習される。それ故、各プロトタイプが特定画像の特定領域の画像特徴（ピクセルベクトル）に近い特徴を表現するように学習される。ひいては、学習モデルにおける学習結果に関する説明性（特に透明性（人間による理解が可能なコンセプトで説明できること））を向上させることが可能である。

また特に、各プロトタイプＰＴは、２つ以上のクラスに跨がって所属することが可能である。それ故、各プロトタイプベクトルｐは、互いに異なるクラスの異なる画像相互間にて互いに類似する画像特徴を反映するように学習され得る。また、クラス毎に所定数の専用のプロトタイプベクトルを準備することを要しないので、プロトタイプベクトルｐを効率的に構築することが可能である。

たとえば、或るプロトタイプベクトルｐｋが第１クラスと第２クラスとに所属する場合を想定する。この場合、第１クラス内の或る画像の第１画像特徴に対応するピクセルベクトルｑ１と第２クラス内の或る画像の第２画像特徴に対応するピクセルベクトルｑ２との双方に類似する画像特徴を反映するように、当該プロトタイプベクトルｐｋが学習される。また、統合類似度ベクトル２８０に関する距離学習との相乗効果によって、ピクセルベクトルｑ１に近い画像特徴を有する画像に対応する統合類似度ベクトル２８０と、ピクセルベクトルｑ２に近い画像特徴を有する画像に対応する統合類似度ベクトル２８０とは、特徴空間において近い位置に配置され得る。

また、このような学習処理によれば、既知クラス以外の画像（未分類クラスの画像）を推論対象画像とし、当該推論対象画像に類似する類似画像を複数の画像の中から検索する画像検索処理にも利用可能な学習モデルを構築（生成）することが可能である。

また、上記ステップＳ２２（図９）において、一のプロトタイプが２以上のクラスに所属する場合、当該２以上のクラスのそれぞれにおける当該一のプロトタイプの所属度が低減される。これによれば、複数（特に多数）のクラスに共通する所属プロトタイプは背景等である可能性が高いことを考慮してその重要度を低減することが可能である。

また、上記ステップＳ２８（図１０）において、各プロトタイプベクトルが特定画像内の特定領域に対応するピクセルベクトルに置き換えられることによって学習済みモデル４２０が修正される。修正後の学習済みモデル４２０においては、置き換え後のプロトタイプベクトルｐｋ（すなわちその最類似ピクセルベクトルｑｍｋ）と各入力画像内のいずれかの部分領域の画像特徴との類似度が統合類似度ベクトル２８０に直接的に現れる。詳細には、入力画像の各ピクセルベクトルｑと置き換え後のプロトタイプベクトルｐｋとの類似度を示す類似度マップ２７０および統合類似度ベクトル２８０等が形成される。

それ故、プロトタイプベクトルｐｋに上書きされた最類似ピクセルベクトルｑｍｋ（学習用の複数の画像のうちの特定画像の特定領域の画像特徴）との類似性を用いて、入力画像の特徴が更に適切に説明され得る。たとえば、図２３に示されるように、画像処理装置３０は、最類似ピクセルベクトルｑmaxの画像特徴（ＩＭＧ１の特定部分領域Ｒ１の画像特徴：「青色の頭部」等（図２３参照））に類似していることを自装置３０による類似判断根拠として説明できる。換言すれば、非常に高い透明性（人間により理解可能なコンセプトで推論結果を説明できる性質）を的確に得ることが可能である。

＜２．第２実施形態＞
第２実施形態は、第１実施形態の変形例である。以下では、第１実施形態との相違点を中心に説明する。

上記第１実施形態においては、或る画像に対してクエリ画像２１５が「類似していない」根拠等も説明されている。すなわち、或る画像ペアが似ていない根拠が説明されている。

図２９は、Ｎｃ個のプロトタイプベクトルｐのうち上位所定数個（たとえば２０個）のプロトタイプベクトルｐ（コンセプト）を用いることによって、或る画像ペア（画像Ｇ１，Ｇ２）の相違をどの程度まで説明できているかを評価した評価結果を示すグラフである。ただし、図２９等においては、図２５～図２６における画像ペアとは異なる画像ペアが例示されている。

ここにおいて、Ｎｃ個のプロトタイプベクトルｐのうち上位ｎ個のプロトタイプＰＴの成分で表現される両画像間の距離Ｄｎは、次式（１１）で表現される。差分ベクトルΔｓ（＝ｓ１－ｓ２）の複数の成分ΔＳｋ（絶対値）が降順にソートされた後、その上位ｎ個までの成分ΔＳｋのみで再構成される部分差分ベクトルの大きさが値Ｄｎである、とも表現される。

そして、画像ペアの全距離Ｄ（式（１０））に対して、上位ｎ個のプロトタイプＰＴの成分で表現される距離Ｄｎ（式（１０））が占める割合Ｄｒは、次式（１２）で表される。

この値（距離比）Ｄｒは、上位ｎ個のプロトタイプベクトルｐ（コンセプト）を用いることによって、或る画像ペア（画像Ｇ１，Ｇ２）の相違をどの程度まで説明できているかを評価する評価値である。この値Ｄｒによれば、２つの画像ｉ，ｊの特徴ベクトル間の距離Ｄ（１００％）に対して、上位ｎ個のプロトタイプベクトルｐによってどの程度までの距離Ｄｎに到達しているかを評価することが可能である。

図２９のグラフは、互いに異なるクラスの２つの画像Ｇ１，Ｇ２（図２９の画像ペア）についての値Ｄｒを示している。この値Ｄｒは、上記第１実施形態の学習処理によって得られた学習済みモデル４２０を用いて得られた２つの統合類似度ベクトル２８０（ｓ１，ｓ２）に基づいて算出されている。グラフにおける横軸は、値ｎ（考慮対象のプロトタイプ数）を表しており、縦軸は値Ｄｒを表している。

図２９のグラフでは、改善前の上位１個から上位２０個までのプロトタイプベクトルｐをそれぞれ用いたときの各値Ｄｒが示されている。すなわち、上位１個のプロトタイプベクトルｐを用いたときの値Ｄｒ、上位２個のプロトタイプベクトルｐを用いたときの値Ｄｒ、（...中略...）、および上位２０個のプロトタイプベクトルｐを用いたときの値Ｄｒがそれぞれ示されている。

図２９のグラフでは、最上位のプロトタイプで約１０％、上位第２位までのプロトタイプで約１３％の各値Ｄｒが得られている。また上位第２０位までのプロトタイプに対応する値Ｄｒは、４０％未満である。このことは、上位２０個のコンセプトを用いても、全体の相違（全距離Ｄ）のうちの４０％も説明できていないことを意味する。換言すれば、生成されたプロトタイプが必ずしも適切なプロトタイプになっていない可能性がある。したがって、判断根拠の説明性（解釈可能性）のうち「明瞭性」（少ないコンセプトで判断根拠を説明できる性質）において改善の余地がある。

そこで、この第２実施形態においては、判断根拠に関する「明瞭性」を向上させることが可能な技術を提供する。

第２実施形態においては、式（２）の評価関数Ｌに代えて、式（１３）の評価関数Ｌを用いる。

式（１３）の評価関数Ｌは、新たな評価項Ｌintもが加算された評価関数である。

以下、この評価項Ｌintについて説明する。

図３０は、図２９のグラフの横軸を全て（Ｎｃ個）のプロトタイプＰＴにまで広げた状態を示すグラフである。図３０の上段のグラフは、「明瞭性」に劣る状態を示しており、一方、図３０の下段のグラフは上段のグラフよりも「明瞭性」が向上した状態を示している。図３０に示されるように、グラフを上側に引き上げること、より詳細にはグラフの斜線部分の面積を最小化することによって、明瞭性を向上させることが可能である。

そのため、式（１４）の値Ｌiaが定義され、当該値Ｌiaを最小化するように学習が進められる。

式（１４）の値Ｌia（ただし、Ｎｄ＝Ｎｃのとき）は、図３０のグラフの斜線部（斜線ハッチング領域）の面積に相当する。図３１に示されるように、ここでは、当該斜線部の面積を帯状領域の集合体の面積で近似する。各帯状領域の面積は、縦方向の長さ（１－Ｄｎ／Ｄ）に幅（たとえば「１」）を乗じた値である。値ｎを１からＮｄまで変化させつつ当該長さ（１－Ｄｎ／Ｄ）を加算した値を更に値Ｎｄで除した値が式（１４）の値Ｌiaに等しい。ここでは、値Ｎｄは値Ｎｃ（プロトタイプＰＴの全個数）である。この値Ｌiaは、画像ペア毎に決定される値である。

そして、この値Ｌiaを学習用の複数の画像に関する全ての画像ペアについて算出して加算した値をペア数Ｎｐで除した値が評価項Ｌintである（式（１５）参照）。

このような評価項Ｌintを含む評価関数を最小化するように学習モデル４００が学習されることによって、学習モデル４００（プロトタイプベクトルｐ等）が最適化される。換言すれば、式（１５）の評価値Ｌint（および式（１４）の評価値Lia）を最小化するように、学習モデル４００が最適化される。

ここにおいて、式（１５）の評価値Ｌint（および式（１４）の評価値Lia）を最小化（最適化）することは、複数の値ｎにそれぞれ対応する複数の大きさＤｎ（式（１１）参照）の総和を両ベクトルｓ１，ｓ２間のベクトル間距離Ｄで除して正規化した値（式（１４）参照）を最大化することと等価である。なお、複数の大きさＤｎは、距離Ｄｎ（式（１１）参照）を複数の値ｎ（ｎ＝１，...,，Ｎｄ；ただし、値Ｎｄは、統合類似度ベクトルの次元数Ｎｃ以下の所定の整数である）のそれぞれについて求めた値である。また、差分ベクトルΔｓ（＝ｓ１－ｓ２）の複数の成分ΔＳｋ（絶対値）が降順にソートされた後、その上位ｎ個までの成分ΔＳｋのみで再構成される部分差分ベクトルの大きさが距離Ｄｎである。

次に、このような処理について、図３２のフローチャートを参照しつつさらに詳細に説明する。図３２は、評価項Ｌintに関する学習処理等を示す図である。

図３２の処理（ステップＳ６０）は、ステップＳ２５（図９）の処理時（あるいはその前に）実行される。ステップＳ２５においては、ステップＳ６０で算出された評価関数Ｌintもが評価関数Ｌに加算され、ステップＳ２６等において機械学習が進められる。

そのため、まずステップＳ６１において、コントローラ３１は、学習用の複数の画像に関する全ての画像ペアのうちのいずれかの画像ペアに着目する。

そして、コントローラ３１は、当該画像ペア（着目画像ペアとも称する）における各画像の統合類似度ベクトル２８０を求める（ステップＳ６２）。具体的には、コントローラ３１は、第１画像Ｇ１を学習モデル４００に入力して得られる統合類似度ベクトル２８０（第１ベクトルｓ１）と、第２画像Ｇ２を学習モデル４００に入力して得られる統合類似度ベクトル２８０（第２ベクトルｓ２）との両ベクトルを求める。

つぎに、コントローラ３１は、第１ベクトルｓ１と第２ベクトルｓ２との差分ベクトルΔｓにおける複数の成分ΔＳｋの絶対値を降順にソートする（ステップＳ６３）。なお、各成分ΔＳｋの絶対値は、両ベクトルｓ１，ｓ２をその成分（プロトタイプ成分）ごとに差分した差分値の絶対値（プロトタイプ成分毎の差異の大きさ）である、とも表現される。

また、コントローラ３１は、差分ベクトルΔｓの複数の成分ΔＳｋのうち降順ソート後の上位ｎ個までの成分のみで再構成される部分差分ベクトルの大きさＤｎを複数の値ｎ（ｎ＝１，...,，Ｎｄ）のそれぞれについて求める（ステップＳ６４）。ただし、値Ｎｄは、前記統合類似度ベクトルの次元数Ｎｃ以下の所定の整数である。なお、ここでは、値Ｎｄは、値Ｎｃ（に等しい値）に設定される。

そして、コントローラ３１は、式（１４）に従って値Ｌiaを算出する（ステップＳ６５）。

さらに、コントローラ３１は、ステップＳ６５において、着目画像ペアを変更しつつステップＳ６１～Ｓ６４を繰り返し実行することによって、全ての画像ペアについて値Ｌiaを求める。換言すれば、コントローラ３１は、学習用の複数の画像のうちの任意の組合せに係る第１画像と第２画像とに関して、ステップＳ６１～Ｓ６４の処理を実行する。そして、コントローラ３１は、式（１５）に従って、値Ｌintを算出する（ステップＳ６５）。

その後、ステップＳ２５において、式（１３）に従って、評価項Ｌintをも含む評価関数Ｌが算出される。

そして、ステップＳ２１～Ｓ２５およびステップＳ６１～Ｓ６５が繰り返し実行され、当該評価関数Ｌを最小化（最適化）するように、学習モデル４００の学習処理（機械学習）が進められる（ステップＳ２６）。詳細には、式（１４）の評価項Ｌiaおよび式（１５）の評価項Ｌint等がそれぞれ最小化されるように、学習処理が進められる。なお、式（１４）の評価項Ｌiaが最小化されることは、複数の値ｎにそれぞれ対応する複数の大きさＤｎの総和を両ベクトル間のベクトル間距離Ｄで除して正規化した値（Ｄｎ／Ｄ）が最大化されることと等価である。

図３３は、図２９の画像ペアに関する改善例を示している。具体的には、第２実施形態に係る学習処理によって得られた学習済みモデル４２０に基づき推論対象画像（詳細には、図２９の画像ペア）に関する推論処理が実行された場合において、その推論根拠（似ていない理由）の明瞭性がどのように改善されたかが示されている。

図３３の上段は、改善前の上位１個から上位２０個までのプロトタイプベクトルｐをそれぞれ用いたときの各値Ｄｒが示されている。上段のグラフでは、上述のように、上位２０個のプロトタイプベクトルｐ（コンセプト）を用いても、全体の相違（全距離Ｄ）のうちの４０％弱の説明ができているに止まっている。

一方、図３３の下段は、改善後（上述のような評価項Ｌintを伴って学習された学習済みモデル４２０を用いて推論が行われる場合）の上位１個から上位２０個までのプロトタイプベクトルｐをそれぞれ用いたときの各値Ｄｒが示されている。下段のグラフでは、上位２０個のプロトタイプベクトルｐ（コンセプト）を用いることによって、全体の相違（全距離Ｄ）のうちの６０％程度の説明ができている。改善前に比べて説明の程度（値Ｄｒ）が約２０％向上している。

また、改善後においては、最上位のプロトタイプで約２２％、上位第２位までのプロトタイプで約２８％の各値Ｄｒが得られている。また、上位７個程度で約４０％の値Ｄｒが得られている。このように、少ないコンセプトで判断根拠を説明できており、「明瞭性」が向上している。

このように第２実施形態によれば、説明性（解釈可能性）のうち明瞭性（少ないコンセプトで判断根拠を説明できること）を向上させることが可能である。

また、図示していないが、改善後の上位のプロトタイプベクトルは、改善前の上位のプロトタイプベクトルとは異なるプロトタイプベクトルに変化している。換言すれば、上位のプロトタイプベクトルは、両画像Ｇ１，Ｇ２の違いをより適切に説明するためのプロトタイプベクトルに変化している。

なお、上記実施形態においては、式（１４）において、値Ｎｄを値Ｎｃとしているが、これに限定されず、値Ｎｄは、値Ｎｃよりも小さな値でもよい。値Ｎｄが値Ｎｃよりも小さい場合、式（１４）の値Ｌiaは、図３１のグラフの斜線部の面積のうち、ｎ＝Ｎｄよりも左側の面積に相当する。この場合でも、斜線部の面積を最小化する効果を一定程度得ることが可能である。ただし、この場合には、値Ｎｄよりも右側の斜線領域の面積が必ずしも最小化されない。それ故、値Ｎｄは値Ｎｃであることが好ましい。

＜第２実施形態の変形例＞
ところで、距離学習に関する評価項Ｌtask（式（３）参照）を最小化する学習処理においては、特徴空間におけるネガティブペア間の距離Ｄ（ネガティブペアに関する統合類似度ベクトル２８０の相互間の距離）を拡大させる力（斥力）が作用している（図３４の両矢印参照）。評価項Ｌdist（後述）を距離Ｄで偏微分した値（δＬdist／δＤ）は、評価項Ｌtaskによってネガティブペア間（アンカー－ネガティブ間）で作用する斥力である、とも表現される。ここで、値Ｌdistは、式（３）におけるアンカー－ネガティブ間の距離ｄanに関する項である（式（２０）参照（後述））。なお、値（δＬdist／δＤ）の絶対値は、「１」である。

一方、明瞭性に関する評価項Ｌint（式（１５））を距離Ｄで偏微分した値（δＬint／δＤ）は常に正であることが、式（１４）等に基づき導出される。評価項Ｌintを用いた最適化は、特徴空間における統合類似度ベクトル２８０の相互間の距離Ｄを縮める効果を有している。当該値（δＬint／δＤ）は、評価項Ｌintによる引力（図３４の内向き矢印参照）である、とも表現される。また式（１５）の評価項Ｌintを距離Ｄで偏微分した値（δＬint／δＤ）は距離Ｄに反比例する（式（１６）参照）ことが、式（１４）等に基づき導出される。すなわち、距離Ｄが低減するにつれて、評価項Ｌintによる引力が増大する。

明瞭性を改善するためには、評価項Ｌintを低減する必要がある。評価項Ｌintを低減すると距離Ｄが低減し、評価項Ｌintによる引力が増大する。

したがって、式（１４）の評価項Ｌia（および式（１５）の評価項Lint）をそのまま採用すると、評価項Ｌintによる引力が評価項Ｌtaskによる斥力を上回り、ネガティブペアが互いに近づいてしまう（ネガティブペア間の距離Ｄが小さくなるように移動してしまう）可能性が存在する。換言すれば、距離学習においてネガティブペア間の距離Ｄを増大させたいにもかかわらず、評価項Ｌintによる引力が大きく作用し過ぎるとネガティブペア間の距離Ｄが逆に低減してしまう可能性がある。すなわち、距離学習の精度が劣化する可能性がある。

そこで、この変形例では、評価項Ｌintを式（１７）のように変更する。式（１７）は、式（１５）の値Ｌiaを新たな値Ｌia（以下、値Ｌibとも表記する）で置き換えた式である。

ただし、値Ｌibは、次の式（１８）で表現される。値Ｌibは、式（１４）の値Ｌiaに係数ｗ（ただし、１以下の値）を乗じた値である。値Ｌibは、修正前の値Ｌiaを係数ｗを用いて修正（低減等）した後の値（修正後の値Ｌia）である、とも表現される。

また、係数ｗは、次の式（１９）で表現される。

係数ｗは、（修正前の値Ｌiaと同様に、）ペアごとに決定される。式（１９）の係数ｗは、評価項Ｌintによる引力で、評価項Ｌtaskによる斥力を除した値に相当する。評価項Ｌintによる引力は、修正前の評価項Ｌiaを距離Ｄで偏微分した値（δＬia／δＤ）で表現され、評価項Ｌtaskによる斥力は、評価項Ｌtask（詳細には、そのうちネガティブペアに関する評価項Ｌdist）を距離Ｄで偏微分した値（δＬdist／δＤ）で表現される。

すなわち、当該係数ｗは、大きくなり過ぎた引力（δＬia／δＤ）で斥力（δＬdist／δＤ）を除した値である。引力（δＬia／δＤ）が斥力（δＬdist／δＤ）よりも大きい場合、値ｗ（１より小さな値）で値Ｌiaを低減するように調整して、修正後の値Ｌia（Ｌib）が算出される。換言すれば、修正後の引力（δＬib／δＤ）が斥力（δＬdist／δＤ）を上回らないように、値Ｌiaが調整される。

なお、評価項Ｌdistは、式（２０）で表現される。

ここにおいて、評価項Ltask（式（３））は、複数の統合類似度ベクトル２８０に基づく距離学習に関する評価項を画像ペアごとに求めたペア別評価項Ｌta（次述）を、複数組の画像ペアについて加算した総和（詳細には、当該総和を平均化した値）で表現される。ペア別評価項Ｌtaは、式（３）における総和記号Σの内部（加算対象）の値である。

また、修正前の評価項Ｌint（式（１５））は、ペア別評価項Ｌiaを、複数組（Ｎｐ組）の画像ペアについて加算した総和（詳細には当該総和を平均化した値）で表現される。ペア別評価項Ｌia（式（１４））は、複数の大きさＤｎの総和（詳細には当該総和を両ベクトル間のベクトル間距離Ｄで除して正規化した値）に関する評価項を画像ペアごとに求めた値である。

そして、係数ｗは、ペア別評価項Ｌiaが大きくなり過ぎないように調整するための値である。具体的には、「ペア別評価項Ｌiaを各画像ペア（対応画像ペア）に関するベクトル間距離Ｄで偏微分した値（ペア別評価項Ｌiaに基づく引力）の絶対値」が、「ペア別評価項Ｌtaを各画像ペア（特にネガティブペア）に関するベクトル間距離Ｄで偏微分した値（ペア別評価項Ｌtaに基づく斥力）の絶対値」を上回らないように、ペア別評価項Ｌiaの大きさが係数ｗによって調整される。すなわち、ペア別評価項Ｌiaは、新たなペア別評価項Ｌia（すなわちペア別評価項Ｌib）に変更される。

なお、斥力（δＬdist／δＤ）は、「ペア別評価項Ｌtaを各画像ペア（ネガティブペア）に関するベクトル間距離Ｄで偏微分した値（ペア別評価項Ｌtaに基づく斥力）の絶対値」に相当する。

そして、調整後の値Lia（値Ｌib）を学習用の複数の画像に関する全ての画像ペアについて算出して加算した値をペア数Ｎｐで除した値が評価項Ｌintである（式（１７）参照）。

このような評価項Ｌintを含む評価関数を最小化するように学習モデル４００が学習されることによって、学習モデル４００（プロトタイプベクトルｐ等）が最適化される。

これによれば、学習モデル４００の精度ひいては推論精度の低下（劣化）を抑制することが可能である。

＜３．第３実施形態：置き換え無し＞
第３実施形態は、第１実施形態および第２実施形態の変形例である。以下では、第１実施形態等との相違点を中心に説明する。

上記各実施形態では、学習モデル４００の機械学習が終了し且つ各プロトタイプベクトルｐｋが最類似ピクセルベクトルｑｍｋにそれぞれ置き換えられた後に、検索処理（推論処理）が実行されている。すなわち、学習済みモデル４２０における各プロトタイプベクトルｐｋは、最類似ピクセルベクトルｑｍｋにそれぞれ置き換えられている（ステップＳ２８（図１０）および図２０参照）。

上述したように、第１実施形態における説明情報（図２３等参照）によれば、比較対象の画像間の類似性が、置き換え後のプロトタイプベクトルｐmax（すなわち最類似ピクセルベクトルｑmax）に関する類似性を用いて非常に適切に説明され得る。たとえば、画像処理装置３０は、最類似ピクセルベクトルｑmaxの画像特徴（ＩＭＧ１の特定部分領域Ｒ１の画像特徴：「青色の頭部」等（図２３参照））に類似しているか否かに基づき自装置３０が類似を判断した旨を説明できる。換言すれば、非常に高い透明性（人間により理解可能なコンセプトで推論結果を説明できる性質）を的確に得ることが可能である。

また、２つの画像間の相違を説明する情報として、上位数個のプロトタイプベクトルｐｋが利用され得る。第１実施形態および第２実施形態のいずれにおいても、上位数個のプロトタイプベクトルｐｋを含む全てのプロトタイプベクトルｐｋは、それぞれ、対応する最類似ピクセルベクトルｑに置き換えられている。それ故、置き換え後の学習済みモデル４２０を用いた推論処理においては、置き換え後の各最類似ピクセルベクトルｑとの類似性に基づく推論処理が行われている。したがって、２つの画像間の相違は、当該最類似ピクセルベクトルｑの画像特徴との類似性（相違性）に基づき、説明され得る。換言すれば、非常に高い透明性（人間により理解可能なコンセプトで推論結果を説明できる性質）を的確に得ることが可能である。

一方、この第３実施形態では、プロトタイプベクトルを最類似ピクセルベクトルｑへ置き換える処理は行われない。学習モデル４００の機械学習が終了した後において、各プロトタイプベクトルｐｋが最類似ピクセルベクトルにそれぞれ置き換えられることなく、検索処理（推論処理）が実行される。

この場合、判断根拠１（図２３等参照）におけるプロトタイプベクトルｐmaxは、特定画像の特定部分領域の画像に完全には対応していない。プロトタイプベクトルｐmaxは、或る画像特徴に近づくように学習されてはいるものの、最類似ピクセルベクトルｑmaxへの置き換えが行われていない。換言すれば、推論処理自体は、最類似ピクセルベクトルｑに置き換えられたプロトタイプベクトルｐではなく、最類似ピクセルベクトルｑに置き換えられる前のプロトタイプベクトルｐを用いて行われる。すなわち、プロトタイプベクトルｐmaxと最類似ピクセルベクトルｑmaxとの完全な一致性は保証されない。それ故、非常に高い透明性を得ることは難しい。

ただし、このような態様（第３実施形態の態様）においても、一定程度の透明性を得ることは可能である。

たとえば、画像処理装置３０は、クエリ画像２１５に対して類似する画像を検索する処理において、「プロトタイプベクトルｐmaxの特徴に似ていることが類似判断の根拠である旨」、および「プロトタイプベクトルｐmaxに類似する上位ｎ個のピクセルベクトル（たとえば上位２個のｑ１，ｑ２）の各画像特徴」を示すことが可能である。

たとえば、画像処理装置３０は、図２４の表示画面内の「判断根拠１」の欄に、「プロトタイプベクトルｐmaxに類似する上位ｎ個のピクセルベクトルの各画像特徴」として、ピクセルベクトルｑ１に対応する画像特徴（「オレンジ色の足」）とピクセルベクトルｑ２に対応する画像特徴（「赤色の足」）とを示すことが可能である。この場合、ユーザは、「これら２種類の画像特徴を反映したプロトタイプベクトルに類似していること（端的に言えば、ピクセルベクトルｑ１，ｑ２の共通画像特徴（「明るい赤っぽい色の足」）に類似していること）」が画像処理装置３０による類似判断の根拠であることを理解できる。

それ故、一定程度の「透明性」（人間により理解可能なコンセプトで推論結果を説明できる性質）を得ることが可能である。

あるいは、画像処理装置３０は、２つの画像が似ていない理由を説明するにあたり、図２７および図２８と同様の説明情報を提示することが可能である。すなわち、「上位数個（たとえば３個）のプロトタイプベクトルｐが非類似の根拠である旨」、および「上位数個のプロトタイプベクトルｐについて、それぞれ類似する上位ｎ個（たとえば最上位の１個のみ）のピクセルベクトルの各画像特徴」を示すことが可能である。しかしながら、第３実施形態では、プロトタイプベクトルｐが最類似ピクセルベクトルｑに置き換えられておらず各画像とプロトタイプベクトルｐ自体との類似性は統合類似度ベクトル２８０に対して完全には反映されていない。それ故、第１実施形態等のような非常に高い透明性を得ることはできない。具体的には、或るプロトタイプベクトルｐに１対１に対応する特定のピクセルベクトルｑの画像特徴が非類似根拠である、との説明を行うことはできない。ただし、この場合でも、「上位数個のプロトタイプベクトルｐについて、それぞれ類似する上位ｎ個（たとえば最上位の１個のみ）のピクセルベクトルの各画像特徴」を示すことによって、一定程度の「透明性」（人間により理解可能なコンセプトで推論結果を説明できる性質）を得ることが可能である。

＜４．変形例等＞
以上、この発明の実施の形態について説明したが、この発明は上記説明した内容のものに限定されるものではない。

たとえば、上記各実施形態においては、複数の種類の対象物（たとえば複数の種類の鳥）を撮影した複数の画像の中から、推定対象画像に最も類似する画像が検索されているが、これに限定されない。たとえば、複数の対象物（たとえば複数の人物）を撮影した複数の画像の中から、推定対象画像に最も類似する画像が検索されてもよい。より詳細には、推定対象画像内の或る人物（迷子、あるいは犯人（被疑者）等）に最も類似する人物（当該或る人物と同一の人物であってもよい）を含む画像等が、当該複数の画像の中から、当該推定対象画像に最も類似する画像として検索されてもよい。換言すれば、同一クラスは、「同一種類の対象」で構成されてもよく、「同一対象」で構成されてもよい。

また、上記各実施形態においては、既知クラス以外の画像（未分類クラスの画像）を含み得る（であり得る）推論対象画像（或る撮影画像等）に関して、その類似画像を複数の画像（既知の画像（学習用の撮影画像等））の中から検索する画像検索処理が例示されている。しかしながら、本発明はこれに限定されない。たとえば、既分類クラスのいずれかに属する或る推論対象画像が既分類クラスのいずれに所属するかを推論するクラス分類問題（或る推定対象画像をいずれかの既知クラスに分類する分類処理）に本発明の思想が適用されてもよい。

具体的には、上記各実施形態と同様にして、コントローラ３１は、推論対象画像に関する統合類似度ベクトル２８５と学習用の複数の画像に関する統合類似度ベクトル２８３とを求める。そして、これらのベクトルの特徴空間内の位置関係に基づき、ｋ－近傍法等が用いられればよい。より具体的には、推論対象画像に近い順（類似度合いの降順）に抽出された上位数個（ｋ個）の画像に基づき当該推論対象画像の所属クラスを推定するクラス分類処理が行われる。詳細には、当該上位ｋ個（たとえば、ｋ＝１，３，５等）の画像（学習用画像）の所属クラス（予めラベル付けされていたクラス）のうち最も多いクラスが、当該推論対象画像の所属クラスであることが推定される。

このような変形例においては、ProtoPNetを用いたクラス分類を実行する従来技術に比べて、少ないコンセプト（プロトタイプ）で複数の画像の特徴を効率的に表現することが可能である。ProtoPNetを用いたクラス分類を実行する従来技術では、クラス毎に所定数の専用のプロトタイプが準備されるので、非常に多数（＝所定数×クラス数）のプロトタイプを要する。たとえば、２０００個（＝１０×２００クラス）のプロトタイプを要する。これに対して、本実施形態では、クラス毎の専用のプロトタイプが準備されることを要さず、複数のクラスに共通のプロトタイプが準備されればよいので、プロトタイプの個数を抑制することが可能である。たとえば、５１２個程度で同程度（あるいは同程度以上）の推論精度を実現することが可能である。

なお、上記各実施形態のような画像検索処理（クラス分類以外の処理）においても、クラス毎に所定数の専用のプロトタイプを準備することを要しない。それ故、プロトタイプベクトルｐを効率的に（比較的少数のプロトタイプベクトルｐで）構築することが可能である。

このように、本発明は、推論対象画像に類似する画像検索処理以外の処理（特に距離学習を用いた推論処理）に適用されてもよい。たとえば、上述のように複数の統合類似度ベクトル２８０に基づく学習処理は、距離情報を用いたクラス分類学習（ＫＮＮ近傍法等を用いたクラス分類学習等）でもよい。また、距離情報を用いた生体認証、あるいは異常検知処理に上記の思想が適用されてもよい。

３０画像処理装置
２１０各入力画像
２２０畳み込みニューラルネットワーク（ＣＮＮ）
２３０特徴マップ
２４０ピクセルベクトル
２５０，ｐ，ｐｋプロトタイプベクトル
２６０平面類似度マップ
２７０類似度マップ
２８０，２８３，２８５，ｓ統合類似度ベクトル
２９０サブ特徴ベクトル
４００，４２０学習モデル
ｑピクセルベクトル
Ｓｋ統合類似度ベクトルの第ｋ成分

Claims

画像処理装置であって、
畳み込みニューラルネットワークを備えて構成される学習モデルに関する機械学習を実行する制御部、
を備え、
前記学習モデルは、
入力画像の入力に応じて前記畳み込みニューラルネットワーク内の所定層から得られる特徴マップであって前記入力画像内の部分領域ごとの特徴量を複数のチャンネルについて示す特徴マップを生成し、
前記複数のチャンネルで構成される特定の画像特徴概念の候補を示すプロトタイプとして学習されるパラメータ列であるプロトタイプベクトルを複数個生成し、
前記特徴マップ内の各ピクセルの各平面位置における前記複数のチャンネルに亘る画像特徴を表現するベクトルである各ピクセルベクトルと一のプロトタイプベクトルとの類似性に基づき、前記入力画像と各プロトタイプとの類似度を複数のプロトタイプについて示す統合類似度ベクトルを生成する、
モデルであり、
前記制御部は、学習用の複数の画像に基づく前記学習モデルの学習段階において、
一のクラスに所属するプロトタイプである所属プロトタイプと、当該所属プロトタイプの前記一のクラスへの所属度合いを示すプロトタイプ所属度とを、前記学習用の前記複数の画像にラベル付けされた複数のクラスのそれぞれについて求めるとともに、
各クラスにおける所属プロトタイプのプロトタイプ所属度を同一クラス内の２以上の画像のそれぞれに対して所定の基準に基づき分配した、画像ごとのプロトタイプ所属度である分配プロトタイプ所属度を求め、
前記複数の画像に対応する複数の統合類似度ベクトルに基づく学習処理を実行する際に、各プロトタイプベクトルが各画像の分配プロトタイプ所属度に応じて、前記各画像に対応する特徴マップ内のいずれかのピクセルベクトルに対して近づくようにも、前記学習モデルを機械学習することを特徴とする画像処理装置。
前記制御部は、
前記一のクラスの所属プロトタイプを前記学習用の前記複数の画像のうち前記一のクラスに属する所定画像と前記一のクラス以外のクラスに属する複数の比較対象画像のそれぞれとの比較に基づき選出するプロトタイプ選出処理を実行し、
前記プロトタイプ選出処理における各所属プロトタイプの選出数の多寡に基づき、前記一のクラスに関する前記各所属プロトタイプの前記プロトタイプ所属度を求め、
前記プロトタイプ選出処理は、
前記所定画像を学習モデルに入力して得られる統合類似度ベクトルから、前記複数の比較対象画像のうちの一の比較対象画像を前記学習モデルに入力して得られる統合類似度ベクトルを差し引いた差分ベクトルを求め、当該差分ベクトルにおける複数の成分のうち最も大きな成分に対応するプロトタイプを前記所定画像のクラスに所属する前記所属プロトタイプとして選出する単位選出処理を含むとともに、
前記一の比較対象画像を別の比較対象画像に変更しつつ前記単位選出処理を前記複数の比較対象画像について実行することによって、前記一のクラスに所属する少なくとも１つの所属プロトタイプを選出するとともに所属プロトタイプごとの選出数をカウントする選出数算出処理を含むことを特徴とする、請求項１に記載の画像処理装置。
前記制御部は、一のプロトタイプが２以上のクラスに所属する場合、当該２以上のクラスのそれぞれにおける当該一のプロトタイプの所属度を低減することを特徴とする、請求項２に記載の画像処理装置。
前記制御部は、前記一のクラスに所属する一の所属プロトタイプのプロトタイプ所属度を前記一のクラスに属するＮ個の画像に分配してＮ個の画像のそれぞれに対する分配プロトタイプ所属度を決定するにあたり、
前記Ｎ個の画像のうちの一の画像に対応する特徴マップ内の複数のピクセルベクトルのうち前記一の所属プロトタイプのプロトタイプベクトルに最も類似するピクセルベクトルとの距離である第１の距離を求め、
前記Ｎ個の画像のうちの他の画像に対応する特徴マップ内の複数のピクセルベクトルのうち前記一の所属プロトタイプのプロトタイプベクトルに最も類似するピクセルベクトルとの距離である第２の距離を求め、
前記第１の距離が前記第２の距離よりも大きい場合、前記一の画像に対する前記分配プロトタイプ所属度を、前記他の画像に対する前記分配プロトタイプ所属度よりも小さな値として決定することを特徴とする、請求項２または請求項３に記載の画像処理装置。
前記制御部は、前記学習モデルの機械学習が終了した後、前記各プロトタイプベクトルを、前記複数の画像に関する複数の特徴マップにおける複数のピクセルベクトルのうち当該各プロトタイプベクトルに最も類似するピクセルベクトルである最類似ピクセルベクトルにそれぞれ置き換えることによって前記学習モデルを修正することを特徴とする、請求項１から請求項４のいずれかに記載の画像処理装置。
前記学習モデルの機械学習に用いられる評価関数は、明瞭性に関する評価項である第１評価項を有し、
前記制御部は、前記学習用の前記複数の画像のうちの任意の組合せに係る第１画像と第２画像とに関して、
前記第１画像を前記学習モデルに入力して得られる統合類似度ベクトルである第１ベクトルと、前記第２画像を前記学習モデルに入力して得られる統合類似度ベクトルである第２ベクトルとの両ベクトルを求め、
前記第１ベクトルと前記第２ベクトルとの差分ベクトルにおける複数の成分の絶対値を降順にソートし、
前記差分ベクトルの前記複数の成分のうち降順にソートした後の上位ｎ個までの成分のみで再構成される部分差分ベクトルの大きさＤｎを複数の値ｎ（ｎ＝１，...,，Ｎｄ；ただし、値Ｎｄは、前記統合類似度ベクトルの次元数Ｎｃ以下の所定の整数である）のそれぞれについて求め、
前記複数の値ｎにそれぞれ対応する複数の大きさＤｎの総和を前記両ベクトル間のベクトル間距離で除して正規化した値が最大化されるように、前記第１評価項を最適化して前記学習モデルを機械学習することを特徴とする、請求項１から請求項５のいずれかに記載の画像処理装置。
前記評価関数は、
前記複数の画像に対応する前記複数の統合類似度ベクトルに基づく距離学習のための評価項である第２評価項、
をさらに有し、
前記第１評価項は、前記複数の大きさの総和に関する評価項を画像ペアごとに求めたペア別第１評価項を、複数組の画像ペアについて加算した総和で表現され、
前記第２評価項は、前記複数の統合類似度ベクトルに基づく距離学習に関する評価項を画像ペアごとに求めたペア別第２評価項を、複数組の画像ペアについて加算した総和で表現され、
前記制御部は、前記ペア別第１評価項を前記各画像ペアに関する前記ベクトル間距離で偏微分した値の絶対値が、前記ペア別第２評価項を前記各画像ペアに関する前記ベクトル間距離で偏微分した値の絶対値を上回らないように、前記ペア別第１評価項の大きさを調整することを特徴とする、請求項６に記載の画像処理装置。
前記制御部は、前記学習モデルの機械学習が終了した後に、検索対象の入力画像を前記学習モデルに入力することに応じて前記学習モデルから出力される統合類似度ベクトルと、前記学習用の前記複数の画像を前記学習モデルに入力することに応じて前記学習モデルから出力される複数の統合類似度ベクトルとに基づいて、前記学習用の前記複数の画像の中から、前記検索対象の入力画像に類似する画像を検索することを特徴とする、請求項１から請求項７のいずれかに記載の画像処理装置。
前記制御部は、前記学習モデルの機械学習が終了し且つ前記各プロトタイプベクトルが前記最類似ピクセルベクトルにそれぞれ置き換えられた後に、検索対象の入力画像を前記学習モデルに入力することに応じて前記学習モデルから出力される統合類似度ベクトルと、前記学習用の前記複数の画像を前記学習モデルに入力することに応じて前記学習モデルから出力される複数の統合類似度ベクトルとに基づいて、前記学習用の前記複数の画像の中から、前記検索対象の入力画像に類似する画像を検索することを特徴とする、請求項５に記載の画像処理装置。
学習モデルの生産方法であって、
前記学習モデルは、
入力画像の入力に応じて前記学習モデル内の畳み込みニューラルネットワーク内の所定層から得られる特徴マップであって前記入力画像内の部分領域ごとの特徴量を複数のチャンネルについて示す特徴マップを生成し、
前記複数のチャンネルで構成される特定の画像特徴概念の候補を示すプロトタイプとして学習されるパラメータ列であるプロトタイプベクトルを複数個生成し、
前記特徴マップ内の各ピクセルの各平面位置における前記複数のチャンネルに亘る画像特徴を表現するベクトルである各ピクセルベクトルと一のプロトタイプベクトルとの類似性に基づき、前記入力画像と各プロトタイプとの類似度を複数のプロトタイプについて示す統合類似度ベクトルを生成する、
モデルであり、
前記学習モデルの生産方法は、
ａ）学習用の複数の画像に基づき、一のクラスに所属するプロトタイプである所属プロトタイプと、当該所属プロトタイプの前記一のクラスへの所属度合いを示すプロトタイプ所属度とを、前記学習用の前記複数の画像にラベル付けされた複数のクラスのそれぞれについて求めるステップと、
ｂ）各クラスにおける所属プロトタイプのプロトタイプ所属度を同一クラス内の２以上の画像のそれぞれに対して所定の基準に基づき分配した、画像ごとのプロトタイプ所属度である分配プロトタイプ所属度を求めるステップと、
ｃ）前記複数の画像に対応する複数の統合類似度ベクトルに基づく学習処理を実行する際に、各プロトタイプベクトルが各画像の分配プロトタイプ所属度に応じて、前記各画像に対応する特徴マップ内のいずれかのピクセルベクトルに対して近づくようにも、前記学習モデルを機械学習するステップと、
を備えることを特徴とする、学習モデルの生産方法。
ｄ）前記学習モデルの機械学習が終了した後、前記各プロトタイプベクトルを、前記複数の画像に関する複数の特徴マップにおける複数のピクセルベクトルのうち当該各プロトタイプベクトルに最も類似するピクセルベクトルである最類似ピクセルベクトルにそれぞれ置き換えることによって、前記学習モデルを修正するステップ、
をさらに備えることを特徴とする、請求項１０に記載の学習モデルの生産方法。
前記ステップｃ）は、前記学習用の前記複数の画像のうちの任意の組合せに係る第１画像と第２画像とに関して、
ｃ－１）前記第１画像を前記学習モデルに入力して得られる統合類似度ベクトルである第１ベクトルと、前記第２画像を前記学習モデルに入力して得られる統合類似度ベクトルである第２ベクトルとの両ベクトルを求めるステップと、
ｃ－２）前記第１ベクトルと前記第２ベクトルとの差分ベクトルにおける複数の成分の絶対値を降順にソートするステップと
ｃ－３）前記差分ベクトルの前記複数の成分のうち降順にソートした後の上位ｎ個までの成分のみで再構成される部分差分ベクトルの大きさＤｎを複数の値ｎ（ｎ＝１，...,，Ｎｄ；ただし、値Ｎｄは、前記統合類似度ベクトルの次元数Ｎｃ以下の所定の整数である）のそれぞれについて求めるステップと、
ｃ－４）前記複数の値ｎにそれぞれ対応する複数の大きさＤｎの総和を前記両ベクトル間のベクトル間距離で除して正規化した値が最大化されるようにも、前記学習モデルを機械学習するステップと、
を備えることを特徴とする、請求項１０または請求項１１に記載の学習モデルの生産方法。
請求項１０から請求項１２のいずれかに記載の学習モデルの生産方法によって生産された学習モデルを用いて、新たな入力画像に関する推論処理を実行することを特徴とする、推論方法。