JP2023013293A

JP2023013293A - 教師データ生成装置、学習モデル生成装置、および教師データの生成方法

Info

Publication number: JP2023013293A
Application number: JP2021117362A
Authority: JP
Inventors: 祐生鵜飼; Yuki Ukai; 弘亘藤吉; Hironobu Fujiyoshi
Original assignee: Glory Ltd; Chubu University
Current assignee: Glory Ltd; Chubu University
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2023-01-26

Abstract

【課題】学習モデルをより適切に学習することが可能な技術を提供する。【解決手段】画像処理装置３０は、学習モデル４００の学習用の教師データ（疑似ラベル群付き教師データ群）を生成する制御部を備える。学習モデル４００は、入力画像２１０の入力に応じて畳み込みニューラルネットワーク内の所定の畳み込み層から得られる特徴マップ２３０に対して第１プーリング処理を施して生成される第１特徴ベクトル２５１と、第２プーリング処理を施して生成される第２特徴ベクトル２５２とに基づき、入力画像２１０内の対象の識別ないし分類に関する情報を出力するモデルである。制御部は、学習モデル４００に対する複数の新たな入力画像２１０の入力に応じて第１特徴ベクトル群と第２特徴ベクトル群とを生成し、第１特徴ベクトル群と第２特徴ベクトル群とに基づき複数の新たな入力画像をクラスタリングして複数の新たな入力画像に関する疑似ラベル群を生成する。【選択図】図４

Description

本発明は、機械学習における教師データを生成する教師データ生成装置およびそれに関連する技術に関する。

従来、学習モデルを利用して、入力画像内の対象（対象人物等）の識別等を行う画像処理技術（機械学習による画像認識技術）が存在する。より詳細には、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を用いて画像を解析する技術が存在する。

このような機械学習においては、非常に多数の教師データを要する（特許文献１等参照）。当該非常に多数の教師データを、正解ラベルを有する教師データとして準備するには大変な労力を要する。

このような問題に対して、学習モデルを利用して疑似ラベルを生成し、当該疑似ラベルをも用いて学習モデルをさらに学習する技術が存在する。このような疑似ラベルを利用した学習手法は、たとえば、転移学習等において利用される。

特開２０１８－２００５３１号公報

しかしながら、疑似ラベルが利用されるときには、必ずしも当該疑似ラベルの精度が十分ではないこと等に起因して、期待した学習効果を得ることができないことがある。そのような場合、当該学習モデルを利用した推論処理において適切な推論結果を得ることもできない。

そこで、この発明は、学習モデルをより適切に学習することが可能な技術を提供することを課題とする。

上記課題を解決すべく、本発明に係る教師データ生成装置は、畳み込みニューラルネットワークを備えて構成される学習モデルに関する機械学習を実行するための教師データを生成する制御部、を備え、前記学習モデルは、入力画像の入力に応じて前記畳み込みニューラルネットワーク内の所定の畳み込み層から得られる特徴マップに対して第１プーリング処理を施して生成される特徴ベクトルである第１特徴ベクトルと、前記第１プーリング処理とは異なる種類の第２プーリング処理を前記特徴マップに対して施して生成される特徴ベクトルである第２特徴ベクトルとに基づき、前記入力画像内の対象の識別ないし分類に関する情報を出力するモデルであり、前記制御部は、前記学習モデルに対する複数の新たな入力画像の入力に応じて第１特徴ベクトル群と第２特徴ベクトル群とを生成し、前記第１特徴ベクトル群と前記第２特徴ベクトル群とに基づき前記複数の新たな入力画像をクラスタリングして前記複数の新たな入力画像に関する疑似ラベル群を生成することを特徴とする。

前記第１プーリング処理は、平均プーリング処理であり、前記第２プーリング処理は、最大プーリング処理であってもよい。

また、本発明に係る教師データ生成装置は、畳み込みニューラルネットワークを備えて構成される学習モデルに関する機械学習を実行するための教師データを生成する制御部、を備え、前記学習モデルは、入力画像の入力に応じて前記畳み込みニューラルネットワーク内の所定の畳み込み層から得られる特徴マップを２種類の特徴ベクトルに分離する処理により生成される第１特徴ベクトルと第２特徴ベクトルとに基づき、前記入力画像内の対象の識別ないし分類に関する情報を出力するモデルであり、前記制御部は、前記学習モデルに対する複数の新たな入力画像の入力に応じて第１特徴ベクトル群と第２特徴ベクトル群とを生成し、前記第１特徴ベクトル群と前記第２特徴ベクトル群とに基づき前記複数の新たな入力画像をクラスタリングして前記複数の新たな入力画像に関する疑似ラベル群を生成するものであってもよい。

前記制御部は、前記第１特徴ベクトル群の特徴空間内での分布に基づき前記複数の新たな入力画像をクラスタリングして生成される第１集合群と、前記第２特徴ベクトル群の特徴空間内での分布に基づき前記複数の新たな入力画像をクラスタリングして生成される第２集合群とを取得し、前記第１集合群と前記第２集合群とで示される各クラスタリング結果に基づき、前記複数の新たな入力画像に関する疑似ラベル群を生成してもよい。

前記制御部は、前記第１特徴ベクトル群の特徴空間内での分布に基づき前記複数の新たな入力画像をクラスタリングして生成される第１集合群と、前記第２特徴ベクトル群の特徴空間内での分布に基づき前記複数の新たな入力画像をクラスタリングして生成される第２集合群とを取得し、前記第１集合群と前記第２集合群とに基づき、特徴空間における別のクラスタリング結果を示す第３集合群を取得し、前記第１集合群と前記第２集合群と前記第３集合群とで示される各クラスタリング結果に基づき、前記複数の新たな入力画像に関する疑似ラベル群を生成してもよい。

前記制御部は、前記第１特徴ベクトル群の特徴空間内での分布に基づき前記複数の新たな入力画像をクラスタリングして生成される第１集合群と、前記第２特徴ベクトル群の特徴空間内での分布に基づき前記複数の新たな入力画像をクラスタリングして生成される第２集合群とを取得し、前記第１集合群と前記第２集合群とに基づき、特徴空間における別のクラスタリング結果を示す第３集合群と、特徴空間における更に別のクラスタリング結果を示す第４集合群とを取得し、前記第１集合群と前記第２集合群と前記第３集合群と前記第４集合群とで示される各クラスタリング結果に基づき、前記複数の新たな入力画像に関する疑似ラベル群を生成してもよい。

前記制御部は、前記第１集合群と前記第２集合群との間での積集合を求める集合演算処理を用いたクラスタリング処理により前記第３集合群を生成し、前記第１集合群と前記第２集合群との間での和集合を求める集合演算処理を用いたクラスタリング処理により前記第４集合群を生成してもよい。

また、本発明に係る学習モデル生成装置は、上記いずれかの教師データ生成装置にて生成される疑似ラベル群を用いた機械学習を実行することによって、前記学習モデルを生成することを特徴とする。

また、本発明に係る学習モデル生成装置は、上記いずれかの教師データ生成装置にて生成される疑似ラベル群を用いた機械学習を実行することによって、前記学習モデルを生成する学習モデル生成装置であって、前記制御部は、各集合群において、当該各集合群の一の要素である注目要素と、当該注目要素とは異なるグループに分類される別の要素との距離が、前記注目要素と同じグループに分類されるさらに別の要素と前記注目要素との距離よりも相対的に大きくなるように、前記学習モデルを学習するものであってもよい。

また、本発明に係る推論装置は、上記いずれかの学習モデル生成装置により生成された前記学習モデルを用いて更なる新たな入力画像内の対象を識別ないし分類する推論処理を実行することを特徴とする。

また、本発明に係る教師データの生成方法は、ａ）畳み込みニューラルネットワークを備えて構成される学習モデルであって、入力画像の入力に応じて前記畳み込みニューラルネットワーク内の所定の畳み込み層から得られる特徴マップに対して第１プーリング処理を施して生成される特徴ベクトルである第１特徴ベクトルと、前記第１プーリング処理とは異なる種類の第２プーリング処理を前記特徴マップに対して施して生成される特徴ベクトルである第２特徴ベクトルとに基づき、前記入力画像内の対象の識別ないし分類に関する情報を出力する学習モデルに対して、新たな入力画像を入力するステップと、ｂ）前記新たな入力画像の入力に応じて前記学習モデルを用いて生成される前記第１特徴ベクトルと前記第２特徴ベクトルとに基づき、前記学習モデルに関する機械学習を実行するための教師データであって前記新たな入力画像に関する教師データを生成するステップと、を備えることを特徴とする。

また、本発明に係る教師データの生成方法は、ａ）畳み込みニューラルネットワークを備えて構成される学習モデルであって、入力画像の入力に応じて前記畳み込みニューラルネットワーク内の所定の畳み込み層から得られる特徴マップを２種類の特徴ベクトルに分離する処理により生成される第１特徴ベクトルと第２特徴ベクトルとに基づき、前記入力画像内の対象の識別ないし分類に関する情報を出力する学習モデルに対して、新たな入力画像を入力するステップと、ｂ）前記新たな入力画像の入力に応じて前記学習モデルを用いて得られる前記第１特徴ベクトルと前記第２特徴ベクトルとに基づき、前記新たな入力画像に関する教師データを生成するステップと、を備えるものであってもよい。

また、本発明に係る学習モデルの生産方法は、上記いずれかの教師データの生成方法により生成された教師データを用いて学習モデルを生産することを特徴とする。

また、本発明に係る推論方法は、上記の学習モデルの生産方法により生産された学習モデルを用いて、更なる新たな入力画像内の対象を識別ないし分類する推論処理を実行することを特徴とする。

本発明によれば、学習モデルに対する複数の新たな入力画像の入力に応じて第１特徴ベクトル群と第２特徴ベクトル群とが生成され、当該第１特徴ベクトル群と当該第２特徴ベクトル群とに基づき複数の新たな入力画像がクラスタリングされて複数の新たな入力画像に関する疑似ラベル群が生成される。したがって、第１特徴ベクトル群のみに基づくクラスタリングにより疑似ラベル群が生成される場合に比べて、より適切に学習モデルを学習する疑似ラベルが生成され得る。このような教師データ（擬似ラベル付き教師データ）を用いれば、学習モデルを適切に学習することが可能である。

画像処理システムを示す概略図である。第１フェーズおよび第２フェーズの概略を示す図である。第２フェーズ内のサブフェーズの概略を示す図である。学習モデルの構成を示す図である。特徴抽出層の構成の一例を示す概念図である。第１フェーズにおける学習処理を示すフローチャートである。第２フェーズの処理を示すフローチャートである。複数の入力画像群の入力に応じて学習モデルから出力される特徴ベクトル群等を示す図である。第２フェーズにて生成される特徴ベクトル群およびクラスタリング結果等を示す図である。第２フェーズにおける学習処理を示す図である。トリプレットロスを最小化するメトリックラーニングによって特徴空間における要素位置が最適化される様子を示す図である。統合特徴ベクトルが生成される様子を示す図である。統合特徴ベクトルを用いた推論処理について説明する図である。推論処理結果の一例を示す図である。或る入力画像内の人物と同一の人物が写っている画像を探索する状況を説明する図である。ＧＡＰによる特徴抽出とＧＭＰによる特徴抽出との相違を示す図である。第２実施形態に係る擬似ラベル付き教師データ群が生成される様子を示す図である。積集合群および和集合群が生成される様子を示す図である。第２実施形態に係る学習処理を示す図である。積集合群および和集合群に基づく疑似ラベル付き教師データ群を用いた学習によって特徴空間における要素位置が変更されていく様子を示す図である。特徴空間における要素分布状況が理想的には正規の状況に近づいていく様子を示す図である。変形例に係る学習モデルを示す図である。別の変形例に係る学習モデルを示す図である。第３実施形態に係る学習モデルを示す図である。更に別の変形例に係る学習モデルを示す図である。差集合群を用いた擬似ラベル群の生成処理等について示す図である。比較例に係る技術を示す図である。比較例に係る技術を示す図である。比較例に係る技術を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。

＜１．第１実施形態＞
＜１－１．システム概要＞
図１は、画像処理システム１を示す概略図である。図１に示されるように、画像処理システム１は、撮影画像を撮像する複数（多数）の撮影装置（監視カメラ等）２０と、撮影画像を処理する画像処理装置３０とを備えている。画像処理装置３０は、撮影画像の対象（ここでは対象人物）を識別ないし分類するための各種の処理を実行する装置である。

各撮影装置２０で撮影された撮影画像は、通信ネットワーク（ＬＡＮおよび／またはインターネット等）を介して画像処理装置３０に入力される。そして、画像処理装置３０による画像処理等によって、撮影画像内の対象人物等を識別ないし分類する処理等が行われる。詳細には、複数の撮影画像に撮影された複数の人物の中から、特定人物を識別（認識）する処理等が行われる。

たとえば、所定エリア内に配置された複数の撮影装置２０による複数の撮影画像の中から、特定人物が写っている撮影画像（被写体として特定人物を含む画像）を探し出す処理が行われる。複数の撮影装置２０は、互いに異なる複数の場所（道路沿いの互いに異なる箇所、互いに異なる複数の店舗（内の各箇所）、および／または同一店舗（特に大型店舗）内の互いに異なる複数の箇所等）に分散して配置される。そして、画像処理装置３０は、検索対象の特定人物を複数の撮影画像の中から検索し、検索した１又は複数の撮影画像に対応する各撮影装置を特定することによって、所定エリア内における当該特定人物の行動（移動経路等）を特定する。端的に言えば、画像処理装置３０は、特定人物を追跡することが可能である。特定人物としては、迷子追跡処理における迷子（子供等）、あるいは、犯人追跡処理における犯人（被疑者）等が例示される。たとえば、或る撮影装置２０Ａの撮影画像と別の撮影装置２０Ｂの撮影画像と更に別の撮影装置２０Ｃの撮影画像との合計３枚の撮影画像に当該特定人物（検索対象人物）が含まれている（写っている）場合を想定する。この場合、画像処理装置３０は、当該特定人物が当該撮影装置２０Ａ，２０Ｂ，２０Ｃに対応する３カ所に存在していたことを知得できる。また、画像処理装置３０は、各撮影画像の撮影時刻（詳細には、当該３カ所の撮影画像に関する撮影時刻順序）に基づいて、当該３カ所の移動順序を知得することもできる。

このような推論処理、複数の撮影装置２０で撮影された複数の撮影画像に基づき同一人物を識別する処理は、人物再識別（再同定ないし再認識）（Person Re-Identification）処理とも称される。なお、人物再識別に関する特定人物の追跡処理は、迷子を探す（追跡する）迷子追跡処理等に限定されず、たとえば、マーケティング等に利用するために各個人の行動を追跡する追跡処理等であってもよい。

この実施形態では、画像処理装置３０は、このような処理において機械学習、詳細にはメトリックラーニング（距離学習とも称される）を実行する。より詳細には、ディープニューラルネットワーク（特に畳み込みニューラルネットワーク（Convolutional Neural Network））を用いたディープメトリックラーニング（Deep Metric Learning）が利用される。当該メトリックラーニングでは、入力画像の入力に対して特徴空間（特徴量空間）における特徴ベクトルを出力する学習モデル４００が用いられる。このような学習モデル４００は、入力画像（入力）から特徴ベクトル（出力）への変換（写像）を示すモデルである、とも表現される。

詳細には、まず、画像処理装置３０は、撮影装置２０から取得した複数の撮影画像のそれぞれに対して人物抽出処理およびサイズ調整処理（リサイズ処理）を施して複数の人物画像を生成し、当該複数の人物画像を学習モデル４００に対する入力画像群として準備する。

そして、当該複数の入力画像（入力画像群）が順次に学習モデル４００に入力され、学習モデル４００からの複数の出力、すなわち特徴空間における複数の特徴ベクトル（特徴ベクトル群）が順次に出力される。理想的には、特徴空間において、同一人物を被写体とする複数の入力画像に対応する複数の特徴ベクトルは互いに近い位置に配置され、異なる人物に関する複数の入力画像に対応する複数の特徴ベクトルは互いに遠い位置に配置される。ただし、学習前の学習モデル４００からの出力に基づく特徴ベクトル群の分布は、このような理想的な分布状態からずれている。

つぎに、当該メトリックラーニングにおいて、トリプレットロス（Triplet Loss）などの評価関数を最適化（最小化）するように、学習モデル４００が学習される。これによって、入力空間での入力画像の類似度が特徴空間での距離（特徴ベクトル間の距離）に対応するように、学習モデル４００（写像関係）が学習される。換言すれば、特徴空間における特徴ベクトルの分布位置が学習の進行に応じて徐々に変更される。非常に良好な機械学習が実行されれば、特徴空間における特徴ベクトルの分布は、上述の理想的な分布状態に徐々に近づいていく。

そして、このようにして学習された学習モデル４００（学習済みモデルとも称する）を利用することによって、推論処理が行われる。具体的には、所定エリア内で撮影された複数の撮影画像の中から、特定人物を含む画像を探し出す処理等が、推論処理として実行される。より詳細には、特定人物の画像である検索元の画像（クエリ画像とも称する）との類似度合いが所定程度以上（換言すれば、特徴空間における特徴ベクトル間の距離が所定距離以下）の画像を、特定人物と同一の人物の画像として探し出す処理等が、推論処理として実行される。あるいは、クエリ画像に類似した画像をその類似順に探し出す処理等が推論処理（人物再識別処理）として実行されてもよい。

ところで、上述のように、このような機械学習において正解ラベル（ここでは、各入力画像がいずれの人物の画像であるかを示す情報）が付された多数の教師データを準備することは容易ではない。

そこで、この実施形態では、一旦生成した学習モデルを利用して疑似ラベル（Pseudo-Label）を生成し、当該疑似ラベルを用いて学習モデルをさらに学習する技術を採用する。

具体的には、図２上段に示されるように、第１フェーズＰＨ１においては正解ラベルが付された教師データを用いて学習モデル４００（未学習モデル４１０）が学習され、学習済みの学習モデル（学習済みモデル）４００（４２０）が一旦生成される。一方、その後の第２フェーズＰＨ２（図２下段参照）においては、正解ラベルを有しない複数（多数）の入力画像を用いた学習処理等が行われる。より詳細には、疑似ラベルを用いた学習等が行われる。第２フェーズＰＨ２の疑似ラベルの生成処理においては、第１フェーズＰＨ１で生成された学習モデル４００（４２０）が利用される。また、第２フェーズＰＨ２での学習は、正解ラベルを有しない複数（多数）の入力画像を用いた学習、換言すれば、教師無し学習である、とも表現される。なお、図２は、第１フェーズＰＨ１と第２フェーズＰＨ２との概略を示す図である。

第２フェーズＰＨ２は、サブフェーズＰＨ２ａ，ＰＨ２ｂ，ＰＨ２ｃに大別される（図３参照）。なお、図３は、第２フェーズＰＨ２内のサブフェーズの概略を示す図である。

まず、サブフェーズＰＨ２ａ（図３の最上段参照）において、第１フェーズＰＨ１で生成された学習済みモデル４２０を利用して疑似ラベルが生成され、疑似ラベル付き教師データが生成される。具体的には、正解ラベルを有しない複数の入力画像（入力画像群）が順次に学習モデル４００に入力され、学習モデル４００からの複数の出力、すなわち特徴空間における複数の特徴ベクトル（特徴ベクトル群）が順次に出力される。そして、複数の入力画像（入力画像群）の入力に対する学習モデル４００からの複数の出力（特徴空間における複数の特徴ベクトル（特徴ベクトル群））がクラスタリングされる。学習モデル４００からの複数の特徴ベクトル（出力）をクラスタリングする処理は、複数の入力画像（入力）をクラスタリングする処理であるとも表現される。クラスタリングには、ＤＢＳＣＡＮ（Density-Based Spatial Clustering of Applications with Noise）あるいはｋ－ｍｅａｎｓなどの各種の手法が用いられればよい。そして、当該クラスタリングの処理結果に基づき、疑似ラベル（疑似ラベル群）が生成される。さらに、疑似ラベルに基づく教師データ（疑似ラベル付き教師データ）が生成される。

つぎに、サブフェーズＰＨ２ｂ（図３の中段参照）において、当該疑似ラベルに基づく教師データを用いて学習モデル４００（４２０）がさらに学習される。具体的には、入力空間での入力画像の類似度が特徴空間での距離（特徴ベクトル間の距離）に対応するように、学習モデル４００（写像関係）が学習される。換言すれば、特徴空間での距離が入力空間での入力画像の類似度を反映するように、学習モデル４００が学習される。詳細には、特徴空間において、同一人物を被写体とする複数の入力画像に対応する複数の特徴ベクトルは互いに近い位置に配置され、異なる人物に関する複数の入力画像に対応する複数の特徴ベクトルは互いに遠い位置に配置される状態を目指して、学習モデル４００が学習される。このようなメトリックラーニング（距離学習）によって、第２フェーズＰＨ２における学習済みモデル４００（４３０）が生成される。なお、特徴空間での「距離」としては、たとえば、ユークリッド距離、内積、あるいはコサイン類似度等が用いられればよい。

そして、サブフェーズＰＨ２ｃ（図３の最下段参照）において、当該学習済みモデル４３０を利用することによって、所定エリア内で撮影された複数の撮影画像の中から、特定人物を含む画像を探し出す処理等（推論処理）が、実行される。

また、この実施形態においては、第２フェーズＰＨ２では最終的なターゲットエリア（たとえば、大阪駅近傍エリア）に配置された複数の撮影装置２０による撮影画像が用いられる。一方、第１フェーズＰＨ１では、最終的なターゲットエリアとは異なるエリア（初期エリア）（たとえば、姫路駅近傍エリア）に配置された複数の撮影装置２０による撮影画像が用いられる。なお、本システム１における複数（多数）の撮影装置２０は、上述の２つのエリア（初期エリアとターゲットエリア）に分離して設けられる。たとえば、初期エリアに１０台の撮影装置２０が配置され、ターゲットエリアに２０台の撮影装置２０が配置される。ただし、これに限定されず、第１フェーズＰＨ１にて初期エリアに配置されていた複数の撮影装置２０の全部または一部が、第２フェーズＰＨ２にてターゲットエリアに再配置されて利用されてもよい。

第１フェーズＰＨ１と第２フェーズＰＨ２との相互間においては、利用される各撮影装置２０の背景テクスチャ、各撮影装置２０の配置角度等が互いに異なる。それ故、第１フェーズＰＨ１での学習結果をそのまま用いて第２フェーズＰＨ２における推論処理を良好に実行することは困難である。最終的なターゲットエリアでの撮影画像に基づき第２フェーズＰＨ２の学習によって得られた学習モデル４３０を用いることによって、第２フェーズＰＨ２において、良好な推論処理が実行され得る。具体的には、第２フェーズＰＨ２に対応する複数の撮影装置２０による撮影画像を用いた人物認識処理（特定人物の追跡処理等）が良好に実行され得る。

このように、第２フェーズＰＨ２では、ドメインの異なる新たなデータ（ターゲットエリアで取得されたデータ（撮影画像等））に学習モデル４００を適合させる学習処理が行われ、当該学習結果に基づく推論処理が行われる。第２フェーズＰＨ２における学習は、第１フェーズＰＨ１の学習結果（学習済みモデル４２０）を利用した学習であり、いわゆる転移学習の一種である。

＜１－２．画像処理装置３０＞
図１を再び参照する。図１に示されるように、画像処理装置３０は、コントローラ３１（制御部とも称される）と記憶部３２と通信部３４と操作部３５とを備える。

コントローラ３１は、画像処理装置３０に内蔵され、画像処理装置３０の動作を制御する制御装置である。

コントローラ３１は、１又は複数のハードウェアプロセッサ（例えば、ＣＰＵ（Central Processing Unit）およびＧＰＵ（Graphics Processing Unit））等を備えるコンピュータシステムとして構成される。コントローラ３１は、ＣＰＵ等において、記憶部（ＲＯＭおよび／またはハードディスクなどの不揮発性記憶部）３２内に格納されている所定のソフトウエアプログラム（以下、単にプログラムとも称する）を実行することによって、各種の処理を実現する。なお、当該プログラム（詳細にはプログラムモジュール群）は、ＵＳＢメモリなどの可搬性の記録媒体に記録され、当該記録媒体から読み出されて画像処理装置３０にインストールされるようにしてもよい。あるいは、当該プログラムは、通信ネットワーク等を経由してダウンロードされて画像処理装置３０にインストールされるようにしてもよい。

具体的には、コントローラ３１は、上述の第１フェーズＰＨ１における学習処理、サブフェーズＰＨ２ａにおける教師データ生成処理、サブフェーズＰＨ２ｂにおける学習処理、サブフェーズＰＨ２ｃにおける推論処理等を実行する。

記憶部３２は、ハードディスクドライブ（ＨＤＤ）および／またはソリッドステートドライブ（ＳＳＤ）等の記憶装置で構成される。記憶部３２は、学習モデル４００（学習モデルに関する学習パラメータおよびプログラムを含む）（ひいては学習済みモデル４２０，４３０）等を記憶する。

通信部３４は、ネットワークを介したネットワーク通信を行うことが可能である。このネットワーク通信では、たとえば、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、画像処理装置３０は、所望の相手先（たとえば、撮影装置２０あるいは不図示の情報格納装置等）との間で各種のデータ（撮影画像データおよび正解データ等）を授受することが可能である。

操作部３５は、画像処理装置３０に対する操作入力を受け付ける操作入力部３５ａと、各種情報の表示出力を行う表示部３５ｂとを備えている。操作入力部３５ａとしてはマウスおよびキーボード等が用いられ、表示部３５ｂとしてはディスプレイ（液晶ディスプレイ等）が用いられる。また、操作入力部３５ａの一部としても機能し且つ表示部３５ｂの一部としても機能するタッチパネルが設けられてもよい。

なお、画像処理装置３０は、機械学習のための教師データ（疑似ラベルを有する教師データ等）を生成する機能を備えているので、教師データ生成装置とも称される。また、画像処理装置３０は、生成された当該教師データを用いて学習モデル４００を機械学習する機能を備えているので、学習モデル生成装置とも称される。また、画像処理装置３０は、再学習された学習モデル４００を用いて対象の識別および／また分類に関する推論を実行する装置でもあるので、推論装置とも称される。

また、ここでは、様々な処理（機能）が１つの画像処理装置３０によって実現されているが、これに限定されない。たとえば、様々な処理が複数の装置で分担されて実現されてもよい。たとえば、上述の第１フェーズＰＨ１における学習処理と、サブフェーズＰＨ２ａにおける教師データ生成処理と、サブフェーズＰＨ２ｂにおける学習処理と、サブフェーズＰＨ２ｃにおける推論処理とが、それぞれ別個の装置で実行されてもよい。

＜１－３．学習モデル４００＞
上述のように、画像処理装置３０は、学習モデル４００を備えている。ここでは、学習モデル４００として、複数の層で構成されるニューラルネットワークモデル、詳細には、畳み込みニューラルネットワーク（Convolutional Neural Network）モデルが用いられる。そして、当該学習モデル４００がメトリックラーニング（Deep Metric Learning）によって学習される。具体的には、畳み込みニューラルネットワークモデルにおける複数の層（特に複数の中間層）における特徴抽出用の各種画像フィルタ（畳み込み層の画像フィルタ）のパラメータ（学習パラメータ）等が調整される。

なお、上述のように、機械学習によって学習された後の学習モデル４００は、学習済みモデルとも称される。学習モデル４００（学習器）の学習パラメータが所定の機械学習手法を用いて調整されることによって、学習済みの学習モデル４００（学習済みモデル）が生成される（図２参照）。

本願において、学習済みモデル４００を生成することは、学習済みモデル４００を製造（生産）することを意味するとともに、「学習済みモデルの生成方法」は「学習済みモデルの生産方法」を意味する。

図４は、学習モデル４００の構成を示す図である。図４に示されるように、学習モデル４００は、複数の層（階層）が階層的に接続される階層構造を有している。具体的には、学習モデル４００は、入力層３１０と特徴抽出層３２０とプーリング層３４０と出力層３７０とを備えている。この実施形態では、特徴抽出層３２０およびプーリング層３４０が、複数の中間層として設けられている。

＜入力層３１０＞
入力層３１０は、入力画像２１０を受け付ける層である。入力画像２１０は、ここでは対象人物の撮影画像である。たとえば、幅（横）Ｗ０画素および高さ（縦）Ｈ０画素の画素配列（矩形形状の画素配列）を有するカラー画像（３チャンネル）が入力画像２１０として入力される。換言すれば、入力画像２１０は、Ｗ０×Ｈ０×Ｃ０のボクセルデータ（ただし、Ｃ０＝３）として生成される。

＜特徴抽出層３２０＞
図４に示されるように、学習モデル４００は、入力層３１０の後（次）に特徴抽出層３２０を備えている。学習モデル４００（特に特徴抽出層３２０）は、畳み込みニューラルネットワークを備えて構成される。入力画像２１０に対して特徴抽出層３２０の処理が施されることによって、特徴マップ２３０が生成される。

特徴抽出層３２０は、複数の畳み込み層と複数のプーリング層（平均プーリングおよび／または最大プーリング等）とを含む中間層である。この畳み込みニューラルネットワークにおいては、入力層３１０と出力層３７０との間に複数の中間層が設けられる。特徴抽出層３２０は、当該複数の中間層の一部である。特徴抽出層３２０としては、たとえば、各種の畳み込みニューラルネットワーク構成（ＶＧＧあるいはＲｅｓＮｅｔ等）の一部（特徴抽出部分）が利用され得る。

たとえば、ＶＧＧ１６において最終畳み込み層ＣＶ１３（全結合層（３層）の直前のプーリング層の更に直前の畳み込み層）までに設けられる特徴抽出層（１３層の畳み込み層および４層のプーリング層）（図５参照）が、特徴抽出層３２０として設けられる。換言すれば、入力層３１０の次から始まる１８層のうち、（１３層の畳み込み層のうちの）最終畳み込み層ＣＶ１３までの合計１７層までが、畳み込みニューラルネットワークにおける特徴抽出層３２０として設けられる。図５においては、特徴抽出層３２０として、ＶＧＧ１６（１３層の畳み込み層と５層のプーリング層と３層の全結合層とを有する）の構成の一部（最終畳み込み層ＣＶ１３までの特徴抽出部分）が例示されている。なお、図５においては、活性化関数等は適宜省略されている。

あるいは、ＲｅｓＮｅｔ（Residual Network）（残差ネットワーク）などの他の畳み込みニューラルネットワークにおいて設けられる特徴抽出層の全部（または一部）が、畳み込みニューラルネットワークにおける特徴抽出層３２０として設けられてもよい。ＲｅｓＮｅｔは、層間で残差を足し合わせることを含む畳み込みニューラルネットワークである。ＲｅｓＮｅｔにおける特徴抽出層は、畳み込み層と活性化関数とスキップコネクション（ショートカットコネクション）との組合せ等で構成される複数の残差ブロック等で構成される。ここにおいて、一般的な畳み込みニューラルネットワークにおいては、特徴抽出層の後に、当該特徴抽出層にて抽出された特徴量に基づく分類処理を実行する層（分類層とも称する）として全結合層等が設けられる。そのような全結合層の直前までに設けられる特徴抽出層の全部（または一部）が、畳み込みニューラルネットワークにおける特徴抽出層３２０として設けられてもよい。

特徴マップ２３０は、学習モデル４００の畳み込みニューラルネットワークにおける所定の畳み込み層（ここでは最終畳み込み層ＣＶ１３）から出力される特徴マップである。特徴マップ２３０は、複数のチャンネルを有する特徴マップとして生成される。特徴マップ２３０は、それぞれ幅Ｗ１画素および高さＨ１画素の画素配列（矩形形状の画素配列）の２次元配列データで構成されるチャンネルをＣ１個備える３次元配列データ（Ｗ１×Ｈ１×Ｃ１のボクセルデータ）として生成される。特徴マップ２３０の各チャンネルのサイズ（Ｗ１×Ｈ１）は、たとえば、１４×１４である。また、特徴マップ２３０のチャンネル数Ｃ１は、たとえば、５１２である。ただし、これに限定されず、各チャンネルのサイズおよびチャンネル数は、他の値であってもよい。たとえば、チャンネル数Ｃ１は、２５６、あるいは１０２４などであってもよい。

ここにおいて、特徴抽出層３２０は、１又は複数の畳み込み層と１のプーリング層とが繰り返し配置されること等によって構成される。各畳み込み層では、畳み込み処理を実行するフィルタにより画像内の特徴が抽出される。また、各プーリング層では、微小画素範囲（たとえば、２×２の画素範囲）毎の平均画素値あるいは最大画素値等を抽出するプーリング処理（平均プーリング処理あるいは最大プーリング処理等）が行われ、画素サイズが低減（たとえば、縦横の各方向に１／２）される（情報量が凝縮される）。

そして、このような特徴抽出層３２０による処理（畳み込み処理およびプーリング処理）が入力画像２１０に対して施されることによって、特徴マップ２３０が生成される。このように、特徴マップ２３０は、畳み込みニューラルネットワークにおいて入力層３１０の後に設けられた複数の畳み込み層と複数のプーリング層とを含む中間層によって生成される。これによれば、入力画像２１０における画像の各種の特徴は、特徴マップ２３０におけるチャンネルごとに抽出される。また、入力画像２１０における画像の特徴は、特徴マップ２３０における各チャンネルの２次元画像内において、その大まかな位置が保持された状態で抽出される。なお、特徴抽出層３２０に含まれるプーリング層（図５参照）においては、平均プーリング処理（あるいは最大プーリング処理）等が実行される。

＜プーリング層３４０および出力層３７０＞
この実施形態では、たとえば図５の最終プーリング層（最終畳み込み層ＣＶ１３の直後のプーリング層）に代えてプーリング層３４０が設けられる。詳細には、プーリング層３４０（図４参照）として、第１プーリング層３４１と第２プーリング層３４２とが並列的に設けられる。第１プーリング層３４１と第２プーリング層３４２とでは、互いに異なる種類のプーリング処理が特徴マップ２３０に対して施される。この結果、２種類の異なる特徴ベクトル２５０（２５１，２５２）が生成される。

ここでは、第１プーリング層３４１においては、特徴マップ２３０に対してグローバルアベレージプーリング（ＧＡＰ：Global Average Pooling）処理（以下、ＧＡＰ処理とも称する）が施される。一方、第２プーリング層３４２においては、特徴マップ２３０に対してグローバルマックスプーリング（ＧＭＰ：Global Max Pooling）処理（以下、ＧＭＰ処理とも称する）が施される。そして、第１プーリング層３４１の処理が特徴マップ２３０に対して施されることによって、第１特徴ベクトル２５１が生成される。また、第２プーリング層３４２の処理が特徴マップ２３０に対して施されることによって、第２特徴ベクトル２５２が生成される。

アベレージ（平均）プーリング（Average Pooling）処理は、カーネル（フィルタ）サイズに対応する複数の画素の平均値を特徴値（出力値）として抽出する処理である。平均プーリング処理では、一般的にはチャンネルサイズ（Ｗ１×Ｈ１）（たとえば、１４×１４サイズ）よりも小さなフィルタサイズ（たとえば、２×２サイズ）に対応する複数の画素（たとえば、４つの画素）の平均値が算出されることが多い。

グローバルアベレージプーリング（ＧＡＰ：Global Average Pooling）処理は、平均プーリング（Average Pooling）処理の一種であり、詳細には「チャンネル全体」を対象とする平均プーリング処理である。ＧＡＰ処理（全体平均プーリング処理）は、チャンネルサイズと同じフィルタサイズ（たとえば、Ｗ１×Ｈ１＝１４×１４）に対応する複数の画素（チャンネル内の全ての画素）（たとえば、１９６個の画素）の平均値を抽出する平均プーリング処理である。

このＧＡＰ処理（グローバルアベレージプーリング処理）は、処理対象の特徴マップ（ここでは特徴マップ２３０）のチャンネル毎の平均画素値を（チャンネル毎に）抽出する処理である。Ｃ１個（たとえば５１２個）のチャンネルを有する特徴マップに対してＧＡＰ処理が施されると、Ｃ１個の値（チャンネル毎の平均値）（たとえば５１２個の平均値）が出力される。換言すれば、第１特徴ベクトル２５１は、Ｃ１次元（たとえば５１２次元）を有するベクトルとして生成される。

マックス（最大）プーリング（Max Pooling）処理は、カーネル（フィルタ）サイズに対応する複数の画素のうち最大の値（最大画素値）を特徴値（出力値）として抽出する処理である。最大プーリング処理では、一般的にはチャンネルサイズよりも小さなフィルタサイズ（たとえば、２×２サイズ）に対応する複数の画素（たとえば、４つの画素）のうちの最大値が抽出されることが多い。

グローバルマックスプーリング（ＧＭＰ：Global Max Pooling）処理は、最大プーリング（Max Pooling）処理の一種であり、詳細には「チャンネル全体」を対象とする最大プーリング処理である。ＧＭＰ処理（全体最大プーリング処理）は、チャンネルサイズと同じフィルタサイズ（たとえば、Ｗ１×Ｈ１＝１４×１４）に対応する複数の画素（チャンネル内の全ての画素）（たとえば、１９６個の画素）のうちの最大値を抽出する最大プーリング処理である。

このＧＭＰ処理（グローバルマックスプーリング処理）は、処理対象の特徴マップ（ここでは特徴マップ２３０）のチャンネル毎の最大画素値を（チャンネル毎に）抽出する処理である。Ｃ１個（たとえば５１２個）のチャンネルを有する特徴マップに対してＧＭＰ処理が施されると、Ｃ１個の値（チャンネル毎の最大値）（たとえば５１２個の最大値）が出力される。換言すれば、第２特徴ベクトル２５２は、Ｃ１次元（たとえば５１２次元）を有するベクトルとして生成される。

そして、この実施形態では、これらの２種類の特徴ベクトル２５１，２５２自体（１組の特徴ベクトル（２５１，２５２））が、入力画像２１０内の対象人物の識別ないし分類に関する情報として、学習モデル４００から出力される。また、当該学習モデル４００は、２つの出力系統（第１プーリング層３４１からの出力（第１特徴ベクトル２５１）、および第２プーリング層３４２からの出力（第２特徴ベクトル２５２））を有している、とも表現される。詳細には、対象に関する第１特徴ベクトル２５１を特徴空間内にてマッピングした情報（特徴空間への写像）（第１出力）が、学習モデル４００から出力される。さらに、対象に関する第２特徴ベクトル２５２を特徴空間内にてマッピングした情報（特徴空間への写像）（第２出力）が、学習モデル４００から出力される。

このような内容が出力層３７０において出力される。換言すれば、入力画像２１０に対する学習モデル４００による写像（特徴ベクトル対（２５１，２５２））が出力される。

＜１－４．第１フェーズＰＨ１における学習処理＞
以下では、第１フェーズＰＨ１における学習処理、サブフェーズＰＨ２ａにおける教師データの生成処理、サブフェーズＰＨ２ｂにおける学習処理、サブフェーズＰＨ２ｃにおける推論処理について、順に説明する。

まず、第１フェーズＰＨ１における学習処理について説明する。この実施形態では、第１フェーズＰＨ１における学習処理と第２フェーズＰＨ２における学習処理との両者は、いずれも同じ学習モデル４００（同じ構造の学習モデル４００）に対して実行される。ただし、上述のように第２フェーズＰＨ２においては、第１フェーズＰＨ１で学習された学習モデル４００（４２０）を対象にして更なる学習が実行される。

また、第１フェーズＰＨ１では、「正解ラベル付き教師データ群」を用いて学習モデル４００（４１０）に対する学習処理が実行される。これに対して、第２フェーズＰＨ２では、「擬似ラベル付き教師データ群」を用いて学習モデル４００（４２０）に対する学習処理が実行される。この点において、当該両者は特に互いに相違する。なお、第１フェーズＰＨ１と第２フェーズＰＨ２とを組み合わせた学習は、半教師あり学習（教師あり学習と教師なし学習とを組み合わせた学習）とも称される。

図６は、第１フェーズＰＨ１における学習処理を示すフローチャートである。

図６に示されるように、第１フェーズＰＨ１においては、ステップＳ１１において、メトリックラーニングによって学習モデル４００が学習される。具体的には、トリプレットロスを最小化（最適化）するように、正解ラベル群を用いて学習モデル４００（詳細には学習前の学習モデル４１０）に対する学習処理が実行される。

詳細には、正解ラベル付き教師データ群における複数の入力画像２１０（２１１）が学習モデル４００に対して順次に入力され、学習モデル４００からの出力群（複数の特徴ベクトル２５１，２５２）が取得される（図４参照）。そして、入力画像２１０（入力）と特徴空間における特徴ベクトル（出力）との写像関係が学習される。具体的には、特徴空間での距離（特徴ベクトル間の距離）が入力空間での入力画像の類似度を反映するように、学習モデル４００（写像関係）が学習される。

より詳細には、画像処理装置３０は、複数の第１特徴ベクトル２５１の相互間の距離が入力空間での入力画像の類似度を反映するように、正解ラベル付き教師データを用いて学習モデル４００の第１出力系統（第１部分モデルとも称する）を学習する。また、画像処理装置３０は、複数の第２特徴ベクトル２５２の相互間の距離が入力空間での入力画像の類似度を反映するように、正解ラベル付き教師データを用いて学習モデル４００の第２出力系統（第２部分モデルとも称する）を学習する。ここで、学習モデル４００の第１出力系統は、特徴抽出層３２０と第１プーリング層３４１とを備えて構成される部分であり、学習モデル４００の第２出力系統は、特徴抽出層３２０と第２プーリング層３４２とを備えて構成される部分である。

このような学習処理によって、学習前の学習モデル４００（４１０）が学習され、学習済みモデル４２０が生成される（ステップＳ１２）。

このようにして、第１フェーズＰＨ１においては、正解ラベル付き教師データ群を用いて学習処理が実行される。

以下、第１フェーズＰＨ１の次の第２フェーズＰＨ２について、３つのサブフェーズＰＨ２ａ，ＰＨ２ｂ，ＰＨ２ｃに分けて順次説明する。

＜１－５．サブフェーズＰＨ２ａにおける教師データの生成処理＞
まず、サブフェーズＰＨ２ａ（ステップＳ２１～Ｓ２３（図７参照））における教師データの生成処理について説明する。サブフェーズＰＨ２ａでは、疑似ラベル付き教師データ群が生成される。ここで、「疑似ラベル」は、本来的な正解ラベルではなく、学習モデルに基づき擬似的に正解ラベル（擬似的な正解ラベル）として生成されるものを意味する。なお、図７は、第２フェーズＰＨ２の処理を示すフローチャートである。また、図８は、複数の入力画像群の入力に応じて学習モデル４００から出力される複数の特徴ベクトル２５０（２５１，２５２）、およびそのクラスタリング結果（２７１，２７２）等を示す図である。図９は、図８の一部を詳細に示す図である。図９においては、第２フェーズＰＨ２にて生成される特徴ベクトル群２６１，２６２およびそのクラスタリング例等が示されている。

この第２フェーズＰＨ２では、第１フェーズＰＨ１とは別の入力画像（新たな入力画像）が用いられる。具体的には、ターゲットエリアにて（ターゲットエリアに配置された撮影装置２０により）撮影された新たな複数の入力画像２１０（２１２）が用いられる。

サブフェーズＰＨ２ａのステップＳ２１においては、画像処理装置３０は、当該新たな複数の入力画像２１２のそれぞれを学習モデル４００（４２０）に入力し、当該学習モデル４００（４２０）からの各出力（各特徴ベクトル対）を取得する。具体的には、画像処理装置３０は、入力画像２１０に対する出力を取得する上述の処理（１組の特徴ベクトル（特徴ベクトル対）（２５１，２５２）の生成処理）を、新たな複数の入力画像２１０（２１２）に関して繰り返し実行することによって、複数の特徴ベクトル対を生成する。これにより、２種類の特徴ベクトル群２６０（２６１，２６２）が生成される（図９の右から３列目等参照）。詳細には、複数の第１特徴ベクトル２５１で構成される第１特徴ベクトル群２６１が生成されるとともに、複数の第２特徴ベクトル２５２で構成される第２特徴ベクトル群２６２が生成される。

図９の右から２列目においては、各特徴ベクトル群２６１，２６２をそれぞれ特徴空間にマッピングした状況が示されている。複数の第１特徴ベクトル２５１のそれぞれは、図９の上段（且つ右から２列目）のマッピング図内における１つの点（詳細には点状の図形）として表現されている。また、複数の第２特徴ベクトル２５２のそれぞれは、図９の下段（且つ右から２列目）のマッピング図内における１つの点として表現されている。図９の右から２列目においては、多数の入力画像２１０に対応する多数の特徴ベクトル２５０のうちの一部（１４個の特徴ベクトルＶ１０１～Ｖ１１４）が、それぞれ点状の図形（黒丸、黒四角、白丸、黒三角）で示されている。なお、図９の各段（上段および下段）において、右から２列目と右から３列目とは同じ状況を示している。また、便宜上、ここでは本来同じ人物に対応する複数の点を同じ図形（点状図形）で示している。ただし、画像処理装置３０は、何れの点（特徴ベクトル（換言すれば、入力画像））が同じ人物に本来対応するか（正解ラベル）（図２１参照）を知らない。

つぎに、ステップＳ２２において、画像処理装置３０は、上段の特徴ベクトル群２６１と下段の特徴ベクトル群２６２とに対して、それぞれ、クラスタリング処理を施す。クラスタリング処理には、ＤＢＳＣＡＮ（Density-Based Spatial Clustering of Applications with Noise）などの各種の手法が用いられればよい。

ＤＢＳＣＡＮは、次のような手法である。まず、或る点（或る特徴ベクトルを表現する点）を起点として当該起点から所定値（閾値）以下の距離内に所定数（たとえば１個）以上の点があれば同一のグループ（部分集合）内の点として判定する。そして、当該同一グループ内の点として判定された点を次の起点として同様の処理が繰り返される。このような連鎖的な探索によって、或る点から出発して或る距離（閾値）内に存在する点を順次に同一グループに含めていくことが繰り返される。その後、当該同一グループに属しない別の点から別グループの探索が同様にして実行される。なお、ＤＢＳＣＡＮにおける「距離」は、ユークリッド距離であってもよく、余弦距離であってもよく、あるいは、ジャッカード（Jaccard）距離等であってもよい。

そして、画像処理装置３０は、このようなクラスタリング処理による処理結果（クラスタリング結果）を取得する。図９には、このようなクラスタリング結果が例示されている。図９の右端の列においては、図９の右から２列目の特徴空間分布に対してクラスタリング処理を施した結果（クラスタリング結果）が示されている。図９の右端上段においては、第１特徴ベクトル群２６１に関するクラスタリング処理（第１クラスタリング処理とも称する）の処理結果が示されている。また、図９の右端下段においては、第２特徴ベクトル群２６２に関するクラスタリング処理（第２クラスタリング処理とも称する）の処理結果が示されている。同じ閉曲線（破線曲線）で囲まれた複数の要素は同じグループに分類されていることを示しており、別の閉曲線（破線曲線）で囲まれた複数の要素は別のグループに分類されていることを示している。

図９の右端上段のクラスタリング結果においては、３つのグループＧＡ１，ＧＡ２，ＧＡ３が形成されている。具体的には、特徴ベクトルＶ１０１～Ｖ１０４が同一のグループＧＡ１としてクラスタリングされている。また、特徴ベクトルＶ１０５～Ｖ１１２が同一のグループＧＡ２としてクラスタリングされ、特徴ベクトルＶ１１３～Ｖ１１４が同一のグループＧＡ３としてクラスタリングされている。

このように図９の右端上段においては、第１特徴ベクトル群２６１の特徴空間内での分布に基づき複数の入力画像をクラスタリングして生成される第１集合群２７１（ＧＡ１，ＧＡ２，ＧＡ３）が示されている。ここで、第１集合群２７１は、複数の入力画像２１０の全体集合を分割（区分）して得られる部分集合ＧＡ１，ＧＡ２，ＧＡ３の集合体である、とも表現される。また、上記の第１クラスタリング処理は、第１集合群生成処理とも称される。

図９の右端下段のクラスタリング結果においては、４つのグループＧＭ１，ＧＭ２，ＧＭ３，ＧＭ４が形成されている。具体的には、特徴ベクトルＶ１０１～Ｖ１０４が同一のグループＧＭ１としてクラスタリングされ、特徴ベクトルＶ１０５～Ｖ１０８，Ｖ１１３～Ｖ１１４が同一のグループＧＭ２としてクラスタリングされている。また、特徴ベクトルＶ１０９～Ｖ１１０が同一のグループＧＭ３としてクラスタリングされ、特徴ベクトルＶ１１１～Ｖ１１２が同一のグループＧＭ４としてクラスタリングされている。

このように図９の右端下段においては、第２特徴ベクトル群２６２の特徴空間内での分布に基づき複数の入力画像をクラスタリングして生成される第２集合群２７２（ＧＭ１，ＧＭ２，ＧＭ３，ＧＭ４）が示されている。ここで、第２集合群２７２は、複数の入力画像２１０の全体集合を分割（区分）して得られる部分集合ＧＭ１，ＧＭ２，ＧＭ３，ＧＭ４の集合体である、とも表現される。また、上記の第２クラスタリング処理は、第２集合群生成処理とも称される。

そして、画像処理装置３０は、第１集合群２７１と第２集合群２７２とで示される各クラスタリング結果に基づき、複数の入力画像２１０に関する疑似ラベル群を生成する。

ここでは、第１出力系統（上側の出力系統）におけるクラスタリング結果がそのまま擬似ラベル群として求められる。具体的には、複数の入力画像２１０に関する第１クラスタリング処理によるクラスタリング結果が、第１出力系統に関する疑似ラベル群（疑似ラベルの集合体）として取得される。

同様に、第２出力系統（下側の出力系統）におけるクラスタリング結果がそのまま擬似ラベル群として求められる。具体的には、複数の入力画像２１０に関する第２クラスタリング処理によるクラスタリング結果が、第２出力系統に関する疑似ラベル群（疑似ラベルの集合体）として取得される。

さらに、ステップＳ２３において、複数の入力画像２１０と（当該複数の入力画像２１０に関する）第１出力系統のクラスタリング結果（擬似ラベル群）との組み合わせ（データセットＤＡとも称する）が、教師データ群（疑似ラベル付き教師データ群）として生成される。

データセットＤＡ（ＤaveあるいはＤ１とも称する）は、複数の入力画像２１０とその第１クラスタリング処理（第１集合群生成処理）の処理結果（クラスタリング結果）との組み合わせ（各入力画像Ｘｉと各疑似ラベルＹｉとの組み合わせ）の集合体である（次式（１）参照）。ここで、Ｘｉは、第ｉの入力（入力画像）であり、Ｙｉは、第ｉの出力（クラスタリング結果）である。また、Ｙｉの右肩のａｖｅは平均プーリングに関する出力であることを示している。

また、複数の入力画像２１０と（当該複数の入力画像２１０に関する）第２出力系統のクラスタリング結果（擬似ラベルデータ群）との組み合わせ（データセットＤＭとも称する）が、教師データ群（疑似ラベル付き教師データ群）として生成される。

データセットＤＭ（ＤmaxあるいはＤ２とも称する）は、複数の入力画像２１０とその第２クラスタリング処理（第２集合群生成処理）の処理結果（クラスタリング結果）との組み合わせ（各入力画像Ｘｉと各疑似ラベルＹｉとの組み合わせ）の集合体である（次式（２）参照）。ここで、Ｘｉは、第ｉの入力（入力画像）であり、Ｙｉは、第ｉの出力（クラスタリング結果）である。また、Ｙｉの右肩のｍａｘは最大プーリングに関する出力であることを示している。

このようにして、疑似ラベル群、および疑似ラベル付き教師データ群（ＤＡ，ＤＭ）が生成される。

＜１－６．サブフェーズＰＨ２ｂにおける学習処理＞
つぎに、サブフェーズＰＨ２ｂ（ステップＳ２４，Ｓ２５（図７参照））における学習処理について説明する。この第２フェーズＰＨ２では、第１フェーズＰＨ１の学習処理が施された学習モデル４００（学習済みモデル４２０）が利用される。

ステップＳ２４では、上述のようにして生成された２種類の教師データ群（疑似ラベル付き教師データ群）ＤＡ，ＤＭに基づき、学習モデル４００に対する学習処理（機械学習）が実行される（図１０参照）。ここでは、所謂トリプレットロスなどの評価関数を最小化するメトリックラーニングが実行される。なお、図１０は、サブフェーズＰＨ２ｂにおける学習段階の処理等を示す図である。

図１０に示されるように、画像処理装置３０は、第１集合群２７１に関する疑似ラベルによる疑似ラベル付き教師データ群ＤＡを用いて、学習モデル４００の第１出力系統（特徴抽出層３２０と第１プーリング層３４１とを備えて構成される）を学習する。また、画像処理装置３０は、第２集合群２７２に関する疑似ラベルによる疑似ラベル付き教師データ群ＤＭを用いて、学習モデル４００の第２出力系統（特徴抽出層３２０と第２プーリング層３４２とを備えて構成される）を学習する。

この学習段階においては、各集合群において、トリプレットロス（Triplet Loss）Ｌtripletなどの損失関数（評価関数）を最小化するように機械学習が実行される（図１１参照）。これにより、特徴空間内における当該各集合群の一の要素（一の入力画像（あるいはそれに対応する特徴ベクトル（たとえばＶ１０３）））である注目要素（アンカー）とその異分類要素（ネガティブ）とその同分類要素（ポジティブ）との位置関係が修正される。異分類要素（ネガティブ）は、当該注目要素とは異なるグループ（別の対象）に分類される別の要素（たとえば、Ｖ１１１）であり、同分類要素（ポジティブ）は、注目要素と同じグループ（同一対象）に分類されるさらに別の要素（たとえば、Ｖ１０４）である。なお、図１１は、トリプレットロスを最小化するメトリックラーニングによって特徴空間における要素位置が最適化される様子を示す図である。

具体的には、注目要素（たとえばＶ１０３）と異分類要素（ネガティブ）（たとえばＶ１１１）との距離ｄｎが、注目要素（アンカー）と同分類要素（ポジティブ）（たとえばＶ１０４）との距離ｄｐよりも相対的に（且つ一定程度α以上に）大きくなるように変更される。換言すれば、距離ｄｐは、距離ｄｎよりも相対的に小さくなるように変更される。謂わば、クラス間の距離（異なるグループ（部分集合）の要素間の距離）がクラス内の距離（同一グループ（部分集合）内の要素間の距離）よりも大きくなるように変更される。このような変更を実現するための或るトリプレット（３要素の組み合わせ）のロス（（個別の）トリプレットロス）Ｌｓは、たとえば、max（ｄｐ＋α－ｄｎ，０）で表現される。

詳細には、このような最適化処理（トリプレットロスを最小化する処理）は、注目要素と異分類要素と同分類要素との全て（あるいは一部）の組み合わせに関して実行される。より詳細には、（個別の）トリプレットロスＬｓが、注目要素と異分類要素と同分類要素との全て（あるいは一部）の組み合わせに関してそれぞれ算出される。そして、複数の組み合わせに関する（個別の）トリプレットロスＬｓの合計値Ｌtriplet（合計トリプレットロスあるいは単にトリプレットロスとも称する）が損失関数とされ、当該損失関数を最小化するように学習モデル４００が学習される。

なお、これに限定されず、さらに、距離ｄｐが一定程度β以下になるように変更されてもよい。より詳細には、（max（ｄｐ＋α－ｄｎ，０）＋max（ｄｐ－β，０））で表現されるトリプレットロスＬｓが用いられてもよい。これによれば、距離ｄｐが値βに近づくことが担保される。あるいは、クワドラプレットロス（Quadruplet Loss）などの損失関数を用いることによって、任意のクラス間の距離（異なるクラスに属する要素間の距離）が任意のクラス内の距離（同一クラス内の要素間の距離）よりも大きくなるように変更されてもよい。あるいは、他の各種の損失関数が用いられてもよい。

サブフェーズＰＨ２ｂにおいては、上述のような評価関数を最小化するように学習モデル４００（４２０）が学習され、学習済みの学習モデル４００（学習済みモデル４３０）が生成される。なお、この学習済みモデル４３０は、転移学習後の学習モデルとも称される。

＜１－７．サブフェーズＰＨ２ｃにおける推論処理＞
つぎに、サブフェーズＰＨ２ｃ（ステップＳ２６（図７参照））における推論処理について図１２～図１４を参照しつつ説明する。図１２～図１４は、推論処理を示す図である。図１２は、統合特徴ベクトル２８０（後述）が生成される様子を示しており、図１３は、統合特徴ベクトル２８０を用いた推論処理について説明する図である。図１４は、推論処理結果の一例を示す図である。

このサブフェーズＰＨ２ｃ（ステップＳ２６）においては、画像処理装置３０は、更なる新たな（更に新たな）入力画像２１０（２１５）内の対象を識別（ないし分類）する推論処理を実行する。具体的には、ターゲットエリアにて（ターゲットエリアに配置された撮影装置２０により）撮影された更なる新たな複数の入力画像２１０（２１３）の中から、探索対象の入力画像２１５（更なる新たな入力画像）内の人物と同一の人物が探索される。換言すれば、画像処理装置３０は、当該複数の入力画像２１３の人物の中から、探索対象の入力画像２１５（クエリ画像とも称する）内の人物と同一の人物を識別（認識）する。

そのため、まず、画像処理装置３０は、更なる新たな複数の入力画像２１０（２１３）を学習モデル４３０にそれぞれ入力し、当該学習モデル４３０からの出力をそれぞれ取得する。具体的には、図１２に示されるように、各入力画像２１３にする出力として、第１特徴ベクトル２５１と第２特徴ベクトル２５２とが取得される。そして、画像処理装置３０は、第１特徴ベクトル２５１と第２特徴ベクトル２５２とを連結して統合したベクトル（統合特徴ベクトル２８０とも称する）を生成する。たとえば、第１特徴ベクトル２５１が５１２次元のベクトルであり且つ第２特徴ベクトル２５２も５１２次元のベクトルである場合、統合特徴ベクトル２８０は１０２４次元のベクトルとして生成される。この統合特徴ベクトル２８０が、各入力画像２１３の特徴を表すベクトルとして、複数の入力画像２１３に関して求められる（図１３左側参照）。

同様に、画像処理装置３０は、探索対象の入力画像（クエリ画像）２１５を学習モデル４３０に入力し、当該学習モデル４３０から出力された第１特徴ベクトル２５１と第２特徴ベクトル２５２とを取得する。そして、画像処理装置３０は、入力画像２１５の入力に対して出力された第１特徴ベクトル２５１と第２特徴ベクトル２５２とに基づき、統合特徴ベクトル２８０（２８０Ｑ）を生成する（図１３右側参照）。なお、クエリ画像２１５は、たとえば、複数の入力画像２１３の中から何らかの契機等によって発見（特定）された探索対象人物に関する画像等である。ただし、これに限定されず、クエリ画像２１５は、探索用に新たに付与された画像等であってもよい。

つぎに、画像処理装置３０は、クエリ画像２１５の統合特徴ベクトル２８０Ｑと複数の入力画像２１３に関する複数の統合特徴ベクトル２８０のそれぞれとの距離を算出する。また、当該距離の昇順に当該複数の統合特徴ベクトル２８０が並べ替えられる。そして、画像処理装置３０は、特徴空間における統合特徴ベクトル２８０Ｑとの距離が所定の距離以下の１又は２以上の統合特徴ベクトル２８０を、クエリ画像２１５内の人物と同一の人物の統合特徴ベクトル２８０として特定する。換言すれば、画像処理装置３０は、特定された当該１又は２以上の統合特徴ベクトル２８０に対応する１又は２以上の入力画像２１３内の人物を、クエリ画像２１５内の人物と同一の人物であると認識する。

図１４では、クエリ画像２１５の統合特徴ベクトル２８０Ｑ（白星印参照）から所定の距離範囲内に、４つの統合特徴ベクトル２８０（Ｗ１１１，Ｗ１１２，Ｗ１０９，Ｗ１１０）が存在している。この場合、たとえば、４つの統合特徴ベクトルＷ１１１，Ｗ１１２，Ｗ１０９，Ｗ１１０に対応する４つの画像２１３が同一人物の画像として抽出される。なお、統合特徴ベクトルＷ１１１は、第１特徴ベクトル２５１であるベクトルＶ１１１と第２特徴ベクトル２５２であるベクトルＶ１１１とを統合した統合特徴ベクトル２８０である。他の統合特徴ベクトルＷ１１２，Ｗ１０９，Ｗ１１０も同様である。

なお、これに限定されず、当該距離の昇順に並べ替えられた上位所定数の統合特徴ベクトル２８０に対応する入力画像２１３内の人物が、クエリ画像２１５内の人物と同一の人物であると認識されてもよい。あるいは、複数の入力画像２１３が、クエリ画像２１５との（統合特徴ベクトル２８０に関する）距離の昇順に並べ替えられて提示されるだけでもよい。この場合でも、画像処理装置３０は、実質的にクエリ画像内の人物と同一の人物である可能性が高い人物をその可能性順に探し出す処理（同一人物の認識処理）を実行しており、当該処理は、クエリ画像内の対象人物を認識する推論処理の一つである。

＜１－８．比較例＞
図２７～図２９は、比較例（第１比較例とも称する）に係る技術を示す図である。

この比較例においては、図２７に示されるように、学習モデル９００の特徴抽出層３２０に対して第１プーリング層（ＧＡＰ層）３４１のみが存在し第２プーリング層３４２は存在しない。それ故、図４等と比較すると判るように、第１特徴ベクトル２５１のみが出力され、第２特徴ベクトル２５２（図４参照）は出力されない。また、第１プーリング層３４１からの出力（第１特徴ベクトル２５１）のみに基づいて、擬似ラベルが生成される。そして、複数の第１特徴ベクトル２５１（第１特徴ベクトル群２６１）のクラスタリング結果のみが擬似ラベル群（第１集合群２７１）として生成される。

また、図２８に示されるように、疑似ラベル付き教師データ群を用いた学習に関しても、第１集合群２７１に基づく疑似ラベル付き教師データ群（データセットＤＡ）のみが利用され、第２集合群２７２（図１０参照）に基づく疑似ラベル付き教師データ群（データセットＤＭ）は利用されない。

さらに、推論処理においては、学習モデル９００に基づき、未知の複数の入力画像２１３に関する複数の第１特徴ベクトル２５１のみが生成される（複数の第２特徴ベクトル２５２は生成されない）。そして、当該複数の第１特徴ベクトル２５１とクエリ画像２１５に関する第１特徴ベクトル２５１（２５１Ｑ）との距離に基づき、人物の識別処理等が実行される（図２９参照）。

このような比較例においては、次のような問題が生じ得る。

図１５は、或る入力画像内の人物５１０Ａと同一の人物が写っている画像（換言すれば、人物５１０Ａと同一の人物）を探索する状況を説明する図である。たとえば、図１５に示すような入力画像２１０Ａ内の人物５１０Ａと同一の人物を、入力画像２１０Ｂ，２１０Ｃ等の中から探索する場合を想定する。実際には、人物５１０Ｃは人物５１０Ａとは別人であり、人物５１０Ｂは人物５１０Ａとは同じ人物である、とする。ただし、画像２１０Ｃの人物５１０Ｃは、その肩付近の特徴において人物５１０Ａとは異なっているものの、人物５１０Ａと同じ向き（図の右向き）に向いている。

ここにおいて、図１６に観念的に示されるように、ＧＡＰ処理を用いて得られた第１特徴ベクトル２５１は、平均化処理に伴い（どちらかと言えば）全体的な特徴（大まかな画像変化）を表現している。一方、ＧＭＰ処理を用いて得られた第２特徴ベクトル２５２は、最大化処理に伴い（どちらかと言えば）部分的な特徴（局所的に際立った特徴）を表現している。なお、図１６の右上部分においては入力画像２１０からＧＡＰ処理によって特徴抽出がなされる様子が観念的に示されており、図１６の右下部分においては入力画像２１０からＧＭＰ処理によって特徴抽出がなされる様子が観念的に示されている。

この比較例のように、ＧＡＰ処理を用いて得られた第１特徴ベクトル２５１のみを考慮する場合、全体的な特徴が類似している異なる２人の人物５１０Ａ，５１０Ｃ（図１５参照）が同一人物であると判定される可能性が高い。

＜１－９．実施形態の効果＞
これに対して、上記実施形態においては、ＧＭＰ処理を用いて得られた第２特徴ベクトル２５２もが考慮されている。これによれば、２つの画像２１０Ａ，２１０Ｃの部分的な特徴（たとえば、肩付近の特徴）等が適切に考慮され、２人の人物５１０Ａ，５１０Ｃは別人であると正しく判定され得る。

特に、上記実施形態においては、第１出力系統（ＧＡＰ処理側）に関する学習のためのデータ群（疑似ラベル群および疑似ラベル付き教師データ群）のみならず、第２出力系統（ＧＭＰ処理側）に関する学習のためのデータ群（疑似ラベル群および疑似ラベル付き教師データ群）も生成されている。

より詳細には、上記サブフェーズＰＨ２ａにおいては、学習モデル４００に対する複数の新たな入力画像２１０（２１２）の入力に応じて第１特徴ベクトル群２６１と第２特徴ベクトル群２６２とが生成される。そして、当該第１特徴ベクトル群２６１と当該第２特徴ベクトル群２６２とに基づき複数の新たな入力画像２１０がクラスタリングされて複数の新たな入力画像２１０に関する疑似ラベル群が生成される。すなわち、２種類の特徴ベクトル群２６１，２６２に基づき複数の新たな入力画像２１０がクラスタリングされて複数の新たな入力画像２１０に関する疑似ラベル群が生成される。

したがって、第１特徴ベクトル群２６１のみに基づくクラスタリングにより疑似ラベル群が生成される場合に比べて、より適切な疑似ラベルが生成され得る。このような教師データ（擬似ラベル付き教師データ）を用いれば、学習モデル４００を適切に学習することが可能である。

特に、畳み込みニューラルネットワーク内の所定の畳み込み層（ここでは最終畳み込み層ＣＶ１３）から出力される特徴マップ２３０に対して第１プーリング処理とは異なる第２プーリング処理を施して得られる第２特徴ベクトルの集合体として、第２特徴ベクトル群２６２が得られる。そして、第１特徴ベクトル群２６１のみならず第２特徴ベクトル群２６２にも基づく疑似ラベル群が生成される。したがって、第１プーリング処理（ここではＧＡＰ処理）とは異なる第２プーリング処理（ここではＧＭＰ処理）をも利用することによって、多様な性質を反映した擬似ラベルが生成される。それ故、より適切に学習モデル４００（４２０）を学習することが可能である。

ここにおいて、２種類の特徴ベクトル２５１，２５２（たとえば各５１２次元ベクトル）を直列に統合した１種類のベクトル（たとえば１０２４次元ベクトル）を学習モデル４００から出力し、当該１種類のベクトルの分布を学習する技術（第２比較例とも称する）を想定する。このような技術（第２比較例）においては、当該１種類のベクトルに含まれる幾つかの特徴情報が（当該１種類のベクトルに含まれる他の特徴情報よりも重要視されずに）埋没してしまう可能性が高くなる。

これに対して、上記実施形態においては、２種類の特徴ベクトル２５１，２５２が学習モデル４００から出力され、２種類の特徴ベクトル２５１，２５２をそれぞれ集めた２種類の特徴ベクトル群２６１，２６２が生成される。そして、２種類の特徴ベクトル群２６１，２６２のそれぞれに対するクラスタリングにより疑似ラベル群２７１，２７２が個別に生成され、疑似ラベル群２７１を用いた学習と疑似ラベル群２７２を用いた学習とが個別に実行される。この場合には、２種類の特徴ベクトル２５１，２５２にそれぞれ現れる特徴が埋没せずに（顕在化して）自他識別のために機能する可能性が高くなる。それ故、第２比較例のように１種類のベクトル（ベクトル群）のみに基づくクラスタリングにより疑似ラベル群が生成される場合に比べて、より適切に学習モデルを学習する疑似ラベル群が生成され得る。

＜２．第２実施形態＞
第２実施形態は、第１実施形態の変形例である。以下では、第１実施形態との相違点を中心に説明する。

上記第１実施形態においては、第２フェーズＰＨ２において、２種類の疑似ラベル群（第１集合群２７１および第２集合群２７２）（図９参照）が生成されるとともに、２種類の疑似ラベル付き教師データ群（データセットＤＡ，ＤＭ）に基づいて機械学習が実行されている。

ここにおいて、理想的なクラスタリング結果においては、（実際の）同一人物が同一のグループ（集合）に分類され、別人は互いに異なるグループ（集合）に分類される。ただし、図９の例（右端参照）においては、上段（第１出力系統）と下段（第２出力系統）とのいずれにおいても、理想的なクラスタリング結果は得られていない。すなわち、必ずしも正確な疑似ラベルが得られているとは言えない。

このような擬似ラベルの不正確性は、学習結果に悪影響を及ぼす可能性が高い。

そこで、第２実施形態では、擬似ラベルの不正確性に起因する悪影響を抑制することが可能な技術について説明する。

この第２実施形態においては、第２フェーズＰＨ２（特にサブフェーズＰＨ２ａ，ＰＨ２ｂ）の処理が第１実施形態と相違する。

＜２－１．疑似ラベル群の生成（ステップＳ２２）＞
第２実施形態に係るサブフェーズＰＨ２ａのステップＳ２２（図７参照）では、２種類の疑似ラベル群（第１集合群２７１および第２集合群２７２）に基づき、さらに別の２種類の疑似ラベル群（第３集合群２７３および第４集合群２７４）が生成される。具体的には、特徴空間における別のクラスタリング結果（第１集合群２７１および第２集合群２７２とは別のクラスタリング結果）を示す第３集合群２７３と、特徴空間における更に別のクラスタリング結果を示す第４集合群２７４とが、更に生成されて取得される（図１７参照）。なお、図１７は、第２実施形態に係る擬似ラベル群２７１～２７４、および擬似ラベル付き教師データ群（ＤＡ，ＤＭ，ＤＩ，ＤＵ）が生成される様子を示す図である。

ここでは、第３集合群２７３は、第１集合群２７１と第２集合群２７２との間での「積集合」（ＩＮＴＥＲＳＥＣＴＩＯＮ）を求める集合演算処理を用いたクラスタリング処理（第３クラスタリング処理あるいは第３集合群生成処理等とも称される）により生成される（図１８参照）。また、第４集合群２７４は、第１集合群２７１と第２集合群２７２との間での「和集合」（ＵＮＩＯＮ）を求める集合演算処理を用いたクラスタリング処理（第４クラスタリング処理あるいは第４集合群生成処理等とも称される）により生成される。なお、第３集合群２７３は、第３クラスタリング処理の処理結果であり、疑似ラベル群（第３疑似ラベル群とも称する）として生成される。同様に、第４集合群２７４は、第４クラスタリング処理の処理結果であり、疑似ラベル群（第４疑似ラベル群とも称する）として生成される。なお、図１８は、積集合群および和集合群が生成される様子を示す図である。

ここで、２つの集合群（部分集合の集合体）間の「積集合」（ＩＮＴＥＲＳＥＣＴＩＯＮ）を求める集合演算処理は、２つの集合群における対応要素（同じ入力画像に対する対応特徴ベクトル）が属する部分集合間の積集合演算処理である。詳細には、元の２つの集合群の双方において同一グループに属する要素（群）が、新たな集合群（積集合群）における同一のグループ（積集合）を構成する。

たとえば、図１８に示されるように、第１集合群２７１における要素（特徴ベクトル）Ｖ１０５が属する部分集合（グループ）ＧＡ２と第２集合群２７２における特徴ベクトルＶ１０５が属する部分集合（グループ）ＧＭ２との積集合として、部分集合ＧＩ２，ＧＩ３，ＧＩ４が生成される。また、第１集合群２７１における特徴ベクトルＶ１１３が属する部分集合（グループ）ＧＡ３と第２集合群２７２における特徴ベクトルＶ１１３が属する部分集合（グループ）ＧＭ２との積集合として、部分集合ＧＩ５が生成される。さらに、第１集合群２７１における特徴ベクトルＶ１０１が属する部分集合（グループ）ＧＡ１と第２集合群２７２における特徴ベクトルＶ１０１が属する部分集合（グループ）ＧＭ１との積集合として、部分集合ＧＩ１が生成される。

なお、部分集合ＧＩ３は、第１集合群２７１における特徴ベクトルＶ１０９が属する部分集合（グループ）ＧＡ２と第２集合群２７２における特徴ベクトルＶ１０９が属する部分集合（グループ）ＧＭ３との積集合である、とも表現される。また、元の２つの集合群２７１，２７２の双方において同一グループに属する要素群（Ｖ１０９，Ｖ１１０）が、新たな集合群（積集合群）における同一のグループＧＩ３を構成する、とも表現される。他の部分集合ＧＩ４等についても同様である。

そして、これらの部分集合ＧＩ２，ＧＩ３，ＧＩ４，ＧＩ５の集合体が第３集合群として形成される。

また、２つの集合群（部分集合の集合体）間の「和集合」（ＵＮＩＯＮ）を求める集合演算処理は、２つの集合群における対応要素（対応特徴ベクトル）が属する部分集合間の和集合演算処理である。詳細には、元の２つの集合群の少なくとも一方において同一グループに属する要素群が、新たな集合群（和集合群）における同一のグループ（和集合）を構成する。

たとえば、図１８に示されるように、第１集合群２７１における要素（特徴ベクトル）Ｖ１０５が属する部分集合（グループ）ＧＡ２と第２集合群２７２における特徴ベクトルＶ１０５が属する部分集合（グループ）ＧＭ２との和集合として、部分集合ＧＵ２が生成される。換言すれば、元の２つの集合群２７１，２７２の少なくとも一方において同一グループに属する要素群（Ｖ１０５～Ｖ１１４）が、新たな集合群（和集合群）における同一のグループＧＵ２を構成する。

また、第１集合群２７１における特徴ベクトルＶ１０１が属する部分集合（グループ）ＧＡ１と第２集合群２７２における特徴ベクトルＶ１０１が属する部分集合（グループ）ＧＭ１との和集合として、部分集合ＧＵ１が生成される。換言すれば、元の２つの集合群２７１，２７２の少なくとも一方において同一グループに属する要素群（Ｖ１０１～Ｖ１０４）が、新たな集合群（和集合群）における同一のグループＧＵ１を構成する。

そして、これらの部分集合ＧＵ１，ＧＵ２の集合体が第４集合群として形成される。

第３集合群および第４集合群において、同一グループに属する複数の要素は、同一人物であると推測される要素であり、異なるグループに属する複数の要素は、互いに異なる人物であると推測される要素である。

なお、特に第３集合群２７３および第４集合群２７４では、各要素がどのグループ（部分集合）に属するか（分類されているか）が重要である。図１８における第３集合群２７３および第４集合群２７４における各要素の特徴空間内の位置は、便宜的に示されているに過ぎない（正確ではない）。

このようにして、第３疑似ラベル群（第３集合群２７３）および第４疑似ラベル群（第４集合群２７４）が生成される。

＜２－２．教師データ群の生成（ステップＳ２３）＞
そして、第２実施形態に係るサブフェーズＰＨ２ａのステップＳ２３（図３および図７参照）では、データセットＤＡ，ＤＭに加えて、更なる教師データ群（データセットＤＩ，ＤＵ）が生成される。

複数の入力画像２１２とその第３分類処理（第３集合群生成処理）の処理結果（クラスタリング結果）との組み合わせ（各入力画像Ｘｉと各疑似ラベルＹｉとの組み合わせ）の集合体は、データセットＤＩ（Ｄintersection）として表現される。同様に、複数の入力画像２１２とその第４分類処理（第４集合群生成処理）の処理結果（クラスタリング結果）との組み合わせ（各入力画像Ｘｉと各疑似ラベルＹｉとの組み合わせ）の集合体は、データセットＤＵ（Ｄunion）として表現される。換言すれば、データセットＤＩ（Ｄintersection）は、複数の入力画像２１２と第３集合群２７３との組み合わせであり、データセットＤＵ（Ｄunion）は、複数の入力画像２１２と第４集合群２７４との組み合わせである。このようなデータセットＤＩ，ＤＵが、それぞれ、複数の新たな入力画像２１２に関する教師データ群（疑似ラベル付き教師データ群）として生成される（次式（３），（４）参照）。

ここで、Ｘｉは、第ｉの入力（入力画像）であり、Ｙｉは、第ｉの出力（クラスタリング結果）である。また、Ｙｉの右肩のＩｎｔは積集合（Ｉｎｔｅｒｓｅｃｔｉｏｎ）に関する出力であることを示しており、Ｙｉの右肩のＵｎｉは積集合（Ｕｎｉｏｎ）に関する出力であることを示している。

以上のようにして、第１集合群２７１と第２集合群２７２と第３集合群２７３と第４集合群２７４とで示される各クラスタリング結果に基づき、複数の新たな入力画像２１２に関する疑似ラベル群と、当該疑似ラベル群を用いた教師データ群（疑似ラベル付き教師データ群）（４つのデータセットＤＡ，ＤＭ，ＤＩ，ＤＵ）とが生成される。

＜２－３．疑似ラベル付き教師データ群を用いた学習（ステップＳ２４）＞
つぎに、第２実施形態に係るサブフェーズＰＨ２ｂのステップＳ２４（図３および図７参照）では、これら４種類の教師データ群（疑似ラベル付き教師データ群）（データセットＤＡ，ＤＭ，ＤＩ，ＤＵ）に基づいて機械学習が実行される。これにより、学習モデル４３０が完成する（ステップＳ２５）。

学習モデル４００（４２０）は、その第１出力系統と第２出力系統とに分けて学習される（図１９参照）。図１９は、第２実施形態に係る学習処理（サブフェーズＰＨ２ｂ）を示す図である。

具体的には、図１９に示されるように、画像処理装置３０は、４つのデータセットのうち、３つのデータセットＤＡ，ＤＩ，ＤＵを用いて、学習モデル４００（４２０）の第１出力系統（ＧＡＰ側出力系統）を学習する。また、画像処理装置３０は、４つのデータセットのうち、３つのデータセットＤＭ，ＤＩ，ＤＵを用いて、学習モデル４００（４２０）の第２出力系統（ＧＭＰ側出力系統）を学習する。

各機械学習では、トリプレットロス等を損失関数（評価関数）とし、当該損失関数を最小化（最適化）する処理が実行されればよい。より詳細には、学習モデル４２０の第１出力系統に関して、データセットＤＡ，ＤＩ，ＤＵを用いて損失関数（トリプレットロス等）を算出し、当該損失関数を最小化するように（勾配法を用いて）学習されればよい。また、学習モデル４２０の第２出力系統に関して、データセットＤＭ，ＤＩ，ＤＵを用いて損失関数を算出し、当該損失関数を最小化するように（勾配法を用いて）学習されればよい。

この学習段階においては、トリプレットロス（Triplet Loss）などの損失関数を最小化するように機械学習が実行される。これにより、注目要素（たとえばＶ１０３）と異分類要素（ネガティブ）（たとえばＶ１１１）との距離ｄｎが、注目要素と同分類要素（ポジティブ）（たとえばＶ１０４）との距離ｄｐよりも相対的に（且つ一定程度α以上に）大きくなるように変更される。換言すれば、距離ｄｐは、距離ｄｎよりも相対的に小さくなるように変更される。

また、第２実施形態では、データセットＤＩ（第３集合群２７３による疑似ラベル付き教師データ群）とデータセットＤＵ（第４集合群２７４による疑似ラベル付き教師データ群）とをも用いた学習処理が実行される。換言すれば、第３集合群２７３（第３擬似ラベル群）および第４集合群２７４（第４疑似ラベル群）をも用いた学習処理が実行される。このように第３擬似ラベル群および第４疑似ラベル群をも用いて学習処理を行うことによれば、擬似ラベルの不正確性に起因する悪影響を抑制することが可能である。以下、このような作用効果について説明する。

図２０は、各データセットＤＩ，ＤＵを用いた学習によって特徴空間における要素位置が変更されていく様子を示す図である。

ここにおいて、第１要素と第２要素とが第３集合群２７３（ここでは積集合群）においても第４集合群２７４（ここでは和集合群）においても互いに異なるグループの要素である状況を想定する。第１要素は、複数の新たな入力画像２１２のうちの一の入力画像である第１入力画像（あるいはそれに対応する特徴ベクトル（たとえば、Ｖ１１１））である（図２０の左から２列目参照）。また、第２要素は、第２入力画像（あるいはそれに対応する特徴ベクトル（たとえば、Ｖ１０３））である。換言すれば、第１要素および第２要素は、第３集合群２７３においても第４集合群２７４においても互いに異なるグループに属するとの関係を有する２要素である。なお、図２０では、特徴ベクトルＶ１１３，Ｖ１１４の図示を省略している。

この場合、第３集合群２７３に関する学習（データセットＤＩを用いた学習）によって第１要素（特徴ベクトルＶ１１１）と第２要素（特徴ベクトルＶ１０３）との距離ｄ１が増大する。さらに、第４集合群２７４に関する学習（データセットＤＵを用いた学習）によっても第１要素と第２要素との距離ｄ１が増大する。

その結果、学習の進行に応じて、当該関係（第１の関係）を有する２要素間の距離（第１要素と第２要素との距離ｄ１等）が徐々に増大していく。ひいては、当該２要素（Ｖ１１１，Ｖ１０３等）は、互いに異なるグループの要素であると（正確に）判定される。

一方、第１要素（Ｖ１１１等）と第３要素とが、第３集合群（積集合群２７３）においては互いに異なるグループの要素であり且つ第４集合群（和集合群２７４）においては同一グループの要素である状況を想定する。第３要素は、第３入力画像、あるいはそれに対応する特徴ベクトル（たとえば、Ｖ１０９）である。換言すれば、第１要素および第３要素は、第３集合群（積集合群２７３）においては互いに異なるグループに属し且つ第４集合群（和集合群２７４）においては同一グループに属するとの関係を有する２要素である。

この場合、第１要素（特徴ベクトルＶ１１１）と第３要素（特徴ベクトルＶ１０９）との距離ｄ２は、第３集合群２７３に関する学習によって増大するものの第４集合群２７４に関する学習によっては増大しないか或いは減少する。その結果、学習の進行に応じて、第１要素と第３要素との距離ｄ２は、第１要素と第２要素との距離ｄ１ほどは大きくならない。その結果、学習の進行に応じて、当該関係（第２の関係）を有する２要素間の距離（第１要素と第３要素との距離ｄ２等）は、それほど増大しない（あるいは逆に減少する）。

したがって、学習の進行に応じて、第１の関係を有する２要素（第１要素および第２要素等）は相対的に大きく離れていき、第２の関係を有する２要素（第１要素および第３要素等）は相対的にあまり離れない。換言すれば、第１の関係を有する２要素が互いに異なるグループに分類（区分）され且つ第２の関係を有する２要素が同じグループに分類されるような位置変更が徐々に行われていく。このようにして特徴空間内の分布が変更されていく。

このように、異なるグループに分類された要素（人物等）は特徴空間において次第に互いに離れた位置に配置されていくので、自他の区別がつきやすくなる。たとえば、特徴ベクトルＶ１０３と特徴ベクトルＶ１１１とは別グループに分類され易くなり、別人の画像であると判定され易くなる。

一方、２種類の集合群のうち少なくとも一方の集合群において同一グループに２要素が分類される場合には、双方の集合群において異なるグループに２要素が分類される場合よりも、２要素が近くに配置される。これによれば、たとえば、２つの入力画像が別人のものであると判定される場合よりも離れ過ぎないように配置される。それ故、異なる人物であるとの完全な判定が抑制され、同一人物である可能性を残しつつ学習を進めることが可能である。たとえば、特徴ベクトルＶ１０９と特徴ベクトルＶ１１１とは必ずしも別グループに分類されるとは限らず、当該両特徴ベクトルＶ１０９，Ｖ１１１が同一人物のものである可能性を残しつつ学習が行われる。

この結果、図２１に示されるように、学習モデル４００の各出力系統からの出力群の特徴空間における分布状況を理想的な分布状況（正解：Ground Truth）に一層近づけ得るような学習が行われる。具体的には、学習モデル４００の第１出力系統（第１プーリング層３４１等）からの出力群の特徴空間における分布状況と、学習モデル４００の第２出力系統（第２プーリング層３４２等）からの出力群の特徴空間における分布状況とを、それぞれ理想的な分布状況に一層近づけ得るような学習が行われる。ただし、第１出力系統からの出力群の特徴空間における分布状況は、ＧＡＰによって抽出される特徴を反映しつつ変更され、第２出力系統からの出力群の特徴空間における分布状況は、ＧＭＰによって抽出される特徴を反映しつつ変更される。また、学習モデル４００の第１出力系統および第２出力系統からの出力に多様性（ないし独自性）を持たせるという観点からは、第１出力系統からの出力（分布状況）と第２出力系統からの出力とは、必ずしも互いに同じになることを要さず、寧ろ互いに異なっていてもよい。

このように第２実施形態によれば、第３集合群（積集合群）２７３と第４集合群（和集合群）２７４とが、第３疑似ラベル群および第４疑似ラベル群として生成される。また、第３疑似ラベル群および第４疑似ラベル群に基づくデータセットＤＩ，ＤＵが生成される。そして、当該データセットＤＩ，ＤＵを用いて学習モデル４００の学習処理が実行される。このような第３疑似ラベル群および第４疑似ラベル群を用いた学習処理を行うことによれば、学習モデル４００をさらに適切に学習することが可能である。すなわち、擬似ラベルの不正確性に起因する悪影響を抑制することが可能である。換言すれば、第３疑似ラベル群および第４疑似ラベル群を生成することによって、擬似ラベルの不正確性を抑制することが可能である。

また、このような第２実施形態に係る学習処理によって生成された学習モデル４００（４３０）を用いて推論処理が実行される（ステップＳ２６）ことによれば、より正確な推論結果を得ることが可能である。

＜２－４．第２実施形態等における変形例等＞
＜非グローバルプーリング＞
上記各実施形態においては、第１プーリング層３４１における第１プーリング処理としてＧＡＰ処理が行われ、第２プーリング層３４２における第２プーリング処理としてＧＭＰ処理が行われている（図４参照）が、これに限定されない。

たとえば、ＧＡＰ（グローバルアベレージプーリング）処理以外のアベレージプーリング処理が第１プーリング処理として行われてもよい。チャンネルサイズ（Ｗ１×Ｈ１）（たとえば、１４×１４サイズ）よりも小さなフィルタサイズ（たとえば、２×２サイズ）に対応する複数の画素（たとえば、４つの画素）の平均値が算出される処理が繰り返されればよい。これによって、各チャンネル毎にそのサイズが（たとえば、７×７サイズに）低減された（Ｗ２×Ｈ２×Ｃ１）サイズのボクセルが生成される。ここで、Ｗ２＝Ｗ１／２，且つ、Ｈ２＝Ｈ１／２、である。そして、各チャンネルの画素値を直列に配置することによって、（Ｗ２×Ｈ２×Ｃ１）次元のベクトルが第１特徴ベクトル２５１として生成されてもよい。

同様に、ＧＭＰ（グローバルマックスプーリング）処理以外のマックスプーリング処理が第２プーリング処理として行われてもよい。具体的には、チャンネルサイズ（Ｗ１×Ｈ１）（たとえば、１４×１４サイズ）よりも小さなフィルタサイズ（たとえば、２×２サイズ）に対応する複数の画素（たとえば、４つの画素）の最大値が算出される処理が繰り返されればよい。これによって、各チャンネル毎にそのサイズが（たとえば、７×７サイズに）低減された（Ｗ２×Ｈ２×Ｃ１）サイズのボクセルが生成される。そして、各チャンネルの画素値を直列に配置することによって、（Ｗ２×Ｈ２×Ｃ１）次元のベクトルが第２特徴ベクトル２５２として生成されてもよい。

＜ＧｅＭプーリング＞
また、上記各実施形態等においては、第１プーリング層３４１における第１プーリング処理として平均プーリング処理が行われ、第２プーリング層３４２における第２プーリング処理として最大プーリング処理が行われている（図４参照）が、これに限定されない。

たとえば、第１プーリング処理３４１と第２プーリング処理３４２との少なくとも一方の処理として、一般化平均プーリング（ＧｅＭプーリング：Generalized-mean pooling）処理が行われてもよい（図２２参照）。なお、図２２は、このような変形例に係る学習モデル（詳細には、第１プーリング処理３４１と第２プーリング処理３４２との双方にＧｅＭプーリングを用いる学習モデル）を示す図である。

ＧｅＭプーリング処理は、次式（５）で示される。

ここで、ｘｉは第ｉの入力画素値であり、Ｎは要素数（画素数）であり、ｐは、プーリングの性質を規定するパラメータである。

なお、ｐ→∞（ｐ＝∞）の場合、ＧｅＭプーリング処理は最大プーリング処理と等価であり、ｐ→１（ｐ＝１）の場合、ＧｅＭプーリング処理は平均プーリング処理と等価である。

図２２においては、第１プーリング処理３４１と第２プーリング処理３４２との双方において、ＧｅＭプーリング処理が行われている。ただし、ＧｅＭプーリング処理におけるパラメータｐが異なる。第１プーリング処理３４１では、パラメータｐは値ｐ１であり、第２プーリング処理３４２では、パラメータｐは値ｐ２（値ｐ１とは異なる値）である。

ただし、これに限定されず、第１プーリング処理３４１と第２プーリング処理３４２とのうちの一方の処理としてＧｅＭプーリング処理が実行され、他方の処理として平均プーリング処理あるいは最大プーリング処理が施されてもよい。

＜リフトプーリング＞
あるいは、第１プーリング処理３４１と第２プーリング処理３４２とにおいて、リフトプーリング処理が利用されてもよい（図２３参照）。なお、図２３は、このような変形例に係る学習モデル（リフトプーリング処理に関する２種類のプーリング処理を伴う学習モデル）を示す図である。

たとえば、画像のＸ方向（水平方向）およびＹ方向（垂直方向）のそれぞれにおいて、当該画像を低周波成分と高周波成分とに分離したデータを生成するリフトプーリング処理（リフトダウンプーリング等）が行われるとともに、分離後の４種類の成分が２つずつに区分されて抽出されてもよい。詳細には、図２３に示すように、Ｘ方向における低周波成分且つＹ方向における低周波成分（ＬＬ成分）と、Ｘ方向における低周波成分且つＹ方向における高周波成分（ＬＨ成分）とを抽出する処理が、第１プーリング処理３４１として行われてもよい。また、Ｘ方向における高周波成分且つＹ方向における低周波成分（ＨＬ成分）と、Ｘ方向における高周波成分且つＹ方向における高周波成分（ＨＨ成分）とを抽出する処理が、第２プーリング処理３４２として行われてもよい。

第１プーリング処理３４１の処理結果として第１特徴ベクトル２５１が生成され、第２プーリング処理３４２の処理結果として第２特徴ベクトル２５２が生成される。

たとえば、特徴マップ２３０のサイズＷ１×Ｈ１×Ｃ１が１４×１４×５１２である場合、各チャンネルに対して第１プーリング処理（ＬＬ成分およびＬＨ成分の抽出処理）が行われて、７×７×（５１２×２）サイズを有するボクセルデータが生成される。さらに、当該ボクセルデータがベクトル化されて、５０１７６（＝７×７×５１２×２）次元のベクトルが第１特徴ベクトル２５１として生成される。同様に、特徴マップ２３０の各チャンネルに対して第２プーリング処理（ＨＬ成分およびＨＨ成分の抽出処理）が行われて、７×７×（５１２×２）サイズを有するボクセルデータが生成される。さらに、当該ボクセルデータがベクトル化されて、５０１７６（＝７×７×５１２×２）次元のベクトルが第２特徴ベクトル２５２として生成される。

なお、上記の組み合わせに限定されず、上述の４つの成分（ＬＬ，ＬＨ，ＨＬ，ＨＨ）のうち任意の組み合わせに係る（２つずつの）成分を抽出する処理が、第１プーリング処理３４１および第２プーリング処理３４２として実行されてもよい。

＜３．第３実施形態＞
第３実施形態は、第１実施形態および第２実施形態等の変形例である。以下では、上記各実施形態等との相違点を中心に説明する。

上記各実施形態においては、学習モデル４００において、特徴マップ２３０に対して第１プーリング処理を施して第１特徴ベクトル２５１が生成され、特徴マップ２３０に対して第２プーリング処理を施して第２特徴ベクトル２５２が生成されている。しかしながら、本発明はこれに限定されない。たとえば、学習モデル４００において、特徴マップ２３０を２種類の特徴ベクトルに分離する処理によって第１特徴ベクトル２５１と第２特徴ベクトル２５２とが生成されてもよい。第３実施形態においては、このような態様について説明する。

図２４は、第３実施形態に係る学習モデル４００を示す図である。

図２４に示されるように、第１プーリング層３４１に代えて分離層３４５が設けられている。分離層３４５においては、Ｗ１×Ｈ１×Ｃ１サイズの特徴マップ２３０を（Ｗ１×Ｈ１×Ｃ１）次元のベクトルに変換するとともに、当該ベクトルを２つの特徴ベクトル２５１，２５２に（チャンネル単位で）分離する。たとえば、ボクセル状の特徴マップ２３０のサイズＷ１×Ｈ１×Ｃ１が１４×１４×５１２である場合、ボクセル状の特徴マップ２３０の各画素値を要素とする１００３５２（＝１４×１４×５１２）次元のベクトルが生成される。そして、当該ベクトルが２つに分離され、５０１７６（＝１４×１４×２５６）次元の２つのベクトルが生成される。この際、２つのベクトルは、チャンネル単位での分離処理（２５６チャンネルずつに分離する分離処理）によって生成される。

換言すれば、分離層３４５においては、Ｗ１×Ｈ１×Ｃ１サイズの特徴マップ２３０が（Ｗ１×Ｈ１×（Ｃ１／２））サイズの２つの特徴マップ２３１，２３２（不図示）に（チャンネル単位で）分離され、分離後の各特徴マップ２３１，２３２がベクトル化される。

たとえば、特徴マップ２３０のサイズＷ１×Ｈ１×Ｃ１が１４×１４×５１２である場合、特徴マップ２３０が、（１４×１４×２５６）サイズを有する２つの特徴マップ２３１，２３２に分離される。特徴マップ２３１は、特徴マップ２３０のうち第１チャンネルから第２５６チャンネルの要素で構成され、特徴マップ２３２は、特徴マップ２３０のうち第２５７チャンネルから第５１２チャンネルの要素で構成されればよい。なお、これに限定されず、２つの特徴ベクトル２５１，２５２は、特徴マップ２３０を奇数チャンネルと偶数チャンネルとに分離すること等によって生成されてもよい。そして、分離後の各特徴マップ２３１，２３２がそれぞれベクトル化され、５０１７６（＝１４×１４×２５６）次元の２つの特徴ベクトル２５１，２５２が生成される。

このような学習モデル４００が用いられて、上述のような各種の処理（教師データ生成処理、学習処理、推論処理等）が行われてもよい。

たとえば、教師データ生成処理においては、複数の入力画像２１０のそれぞれについて２つの特徴ベクトル２５１，２５２が分離処理によって生成され、第１特徴ベクトル群２６１と第２特徴ベクトル群２６２とが生成される。そして、分離処理によって得られた第１特徴ベクトル群２６１と第２特徴ベクトル群２６２とに基づき複数の新たな入力画像がクラスタリングされて複数の新たな入力画像に関する疑似ラベルデータ群が生成される。したがって、第１特徴ベクトル群のみに基づくクラスタリングにより疑似ラベル群が生成される場合に比べて、より適切に学習モデルを学習する疑似ラベルが生成され得る。

ここにおいて、特徴マップ２３０に基づく上述の１種類のベクトル（１００３５２（＝１４×１４×５１２）次元のベクトル）を２種類の特徴ベクトル２５１，２５２に分離せずにそのまま出力し、当該１種類のベクトルの分布を学習する技術（第３比較例とも称する）を想定する。このような技術（第３比較例）においては、第２比較例と同様に、当該１種類のベクトルに含まれる幾つかの特徴情報が（当該１種類のベクトルに含まれる他の特徴情報よりも重要視されずに）埋没してしまう可能性が高くなる。

これに対して、上記のように１種類のベクトルが２種類の特徴ベクトル２５１，２５２に分離され各特徴ベクトルが学習に個別に用いられる場合には、２種類の特徴ベクトル２５１，２５２に現れる特徴が埋没せずに（顕在化して）自他識別のために機能する可能性が高くなる。それ故、当該１種類のベクトル（ベクトル群）のみに基づくクラスタリングによって疑似ラベル群が生成される場合に比べて、より適切に学習モデルを学習する疑似ラベルが生成され得る。

なお、ここでは、特徴マップ２３０の要素を２つに分けた特徴ベクトル２５１，２５２がそのまま用いられているが、これに限定されない。たとえば、図２５に示されるように、分離層３４５で分離され生成された特徴ベクトル２５１，２５２がそれぞれ全結合層によって次元圧縮されてもよい。なお、図２５は、当該変形例に係る学習モデルを示す図である。

たとえば、５０１７６（＝１４×１４×２５６）次元の第１特徴ベクトル２５１が、１又は複数の中間層を含む全結合層によって、５１２次元の特徴ベクトル２５５（さらに低次元のベクトル）へと変換されてもよい。同様に、５０１７６（＝１４×１４×２５６）次元の第２特徴ベクトル２５２が、１又は複数の中間層を含む全結合層によって、５１２次元の特徴ベクトル２５６へと変換されてもよい。特徴ベクトル２５５は、変換後の第１特徴ベクトルあるいは新たな第１特徴ベクトルとも称され、特徴ベクトル２５６は、変換後の第２特徴ベクトルあるいは新たな第２特徴ベクトルとも称される。

＜４．変形例等＞
以上、この発明の実施の形態について説明したが、この発明は上記説明した内容のものに限定されるものではない。

＜差集合等＞
たとえば、上記第２実施形態においては、第１集合群２７１と第２集合群２７２とに基づいて、積集合群と和集合群とが（第３集合群２７３および第４集合群２７４として）生成されている（図１８等参照）が、これに限定されない。

具体的には、第１集合群２７１と第２集合群２７２とに基づいて、積集合群と「差集合群」とが（第３集合群２７３および第４集合群２７４として）生成されてもよい。差集合群は、第１集合群２７１と第２集合群２７２との間での差集合を求める集合演算処理を用いたクラスタリング処理により生成されればよい。

ここで、２つの集合群（部分集合の集合体）間の「差集合」（ＤＩＦＦＥＲＥＮＣＥ）を求める集合演算処理は、２つの集合群における対応要素（対応特徴ベクトル）が属する部分集合間の差集合演算処理である。詳細には、元の２つの集合群のうちの一方の集合群において同一グループに属する要素群から、他方の集合群において異なるグループ（少数要素グループ）に属する少数要素（群）を除いた（差し引いた）集合が、新たな集合群（差集合群）における同一のグループ（差集合）を構成する。なお、当該一方の集合群（たとえば、第１集合群２７１）は主集合群とも称され、当該他方の集合群（たとえば、第２集合群２７２）は副集合群とも称される。

たとえば、図２６に示されるように、第１集合群２７１における要素（特徴ベクトル）Ｖ１０５が属する部分集合（グループ）ＧＡ２と第２集合群２７２における特徴ベクトルＶ１０５が属する部分集合（グループ）ＧＭ２との差集合として、部分集合ＧＤ２が生成される。

より詳細には、第１集合群２７１（主集合群）にて同一グループＧＡ２に属する要素群Ｖ１０５～Ｖ１１２のうち、要素群Ｖ１０５～Ｖ１０８のみを残した部分集合ＧＤ２が、差集合として形成される。ここで、要素群Ｖ１０５～Ｖ１０８は、第１集合群２７１にて同一グループＧＡ２に属する要素群Ｖ１０５～Ｖ１１２のいずれか１つ以上のみを構成要素として第２集合群２７２にて構成されるグループのうち、最多要素数を有するグループ（主要グループとも称する）の構成要素である。

換言すれば、第１集合群２７１（主集合群）にて同一グループＧＡ２に属する要素群Ｖ１０５～Ｖ１１２のうち、要素Ｖ１０９～Ｖ１１２（黒三角印）を除いた部分集合ＧＤ２が、差集合として形成される。要素Ｖ１０９～Ｖ１１２は、第１集合群２７１（主集合群）にて同一グループＧＡ２に属する要素群Ｖ１０５～Ｖ１１２のうち、主要グループ（要素群Ｖ１０５～Ｖ１０８で構成される）とは異なるグループ（少数要素グループ）に属する要素（群）である。少数要素グループに属する要素（群）は、その信頼性が（一定程度よりも）低いデータであるとみなされて、新たな集合群２７４ｂから除去される。

また、第１集合群２７１における特徴ベクトルＶ１０１が属する部分集合（グループ）ＧＡ１と第２集合群２７２における特徴ベクトルＶ１０１が属する部分集合（グループ）ＧＭ１との差集合として、部分集合ＧＤ１が生成される。

そして、これらの部分集合ＧＤ１，ＧＤ２の集合体が第４集合群２７４（２７４ｂ）として形成される。

さらに、当該第４集合群２７４ｂを疑似ラベル群とする疑似ラベル付き教師データ群（データセットＤＤ）が生成される。また、当該データセットＤＤを用いた学習処理等もが実行される。

このような態様においては、「差集合」を用いることによって、本来の特徴抽出には不要な要素群（低信頼性のデータ群）を除いて学習することが可能である。たとえば、積集合と差集合とを用いる場合には、本来の特徴抽出には不要な要素群（低信頼性のデータ群）の分布位置をそれほど変えることなく、明確に別人である要素群間の距離を増大させることが可能である。

なお、ここでは、積集合群と差集合群とが（第３集合群２７３および第４集合群２７４として）用いられているが、これに限定されない。たとえば、和集合群と差集合群とが（第３集合群２７３および第４集合群２７４として）用いられてもよい。

また、２種類の集合群（第３集合群２７３および第４集合群２７４）としては、これに限定されず、各種の集合群の組み合わせであってもよい。互いに異なる種類の２つの集合群（互いに異なる性質を有する２種類の集合群）を用いることによれば、２種類の集合群のうちの一方の集合群のみを用いる場合に比べて、多様な擬似ラベルを生成し、ひいてはより適切な学習を実行することが可能である。

なお、第３集合群としては、積集合群以外の種類の集合群（和集合群あるいは差集合群等）が用いられてもよい。同様に、第４集合群としても、和集合群以外の種類の集合群（積集合群あるいは差集合群等）が用いられてもよい。

＜１種類の集合群＞
また、上記第２実施形態等においては、第１集合群２７１と第２集合群２７２とに加えて、さらに２種類の集合群２７３，２７４（たとえば積集合群および和集合群）もが用いられているが、これに限定されない。

たとえば、第１集合群２７１と第２集合群２７２とに加えて、単一の集合群（たとえば積集合群）のみが用いられてもよい。これによっても、擬似ラベルの不正確性に起因する悪影響を抑制することが可能である。換言すれば、第３集合群２７３あるいは第４集合群２７４（第３疑似ラベル群あるいは第４疑似ラベル群）を生成することによって、擬似ラベルの不正確性を抑制することが可能である。

また、この場合、第１集合群２７１と第２集合群２７２との少なくとも一方の生成のためのクラスタリング処理における閾値（ＤＢＳＣＡＮにおける閾値等）が（比較的大きな値に又は比較的小さな値に）調整されることが好ましい。

たとえば、第１集合群２７１と第２集合群２７２と積集合群２７３との３つの集合群のみが用いられる場合（すなわち、和集合群２７４が用いられない場合）には、第１集合群２７１および／または第２集合群２７２の生成のためのクラスタリング処理において、比較的大きな閾値が設定されることが好ましい。これによれば、第１集合群２７１と第２集合群２７２とのそれぞれにおいて、同一グループに属する要素が増大（グループ内の要素数が増大）し、ひいては近接する複数のグループが結合するので、和集合が生成されることに類似する効果を得ることが可能である。このように和集合群に類似する性質をも有する第１集合群２７１（および第２集合群２７２）と、積集合群２７３とを用いることによって、上記実施形態に類似する効果を得ることが可能である。

逆に、第１集合群２７１と第２集合群２７２と和集合群２７４との３つの集合群のみが用いられる場合（すなわち、積集合群２７３が用いられない場合）には、第１集合群２７１および／または第２集合群２７２の生成のためのクラスタリング処理において、比較的小さな閾値が設定されることが好ましい。

＜第１フェーズＰＨ１での学習等＞
また、上記各実施形態では、第１フェーズＰＨ１における学習処理と第２フェーズＰＨ２における学習処理との両者は、いずれも同じ学習モデル４００（同じ構造の学習モデル４００）に対して実行されている。しかしながら、本発明は、これに限定されない。

たとえば、第１フェーズＰＨ１における学習処理と第２フェーズＰＨ２における学習処理との両者は、互いに異なる学習モデル４００に対して実行されてもよい。すなわち、第１フェーズＰＨ１での学習モデル４００（第１学習モデルＭ１とも称する）は、第２フェーズＰＨ２での学習モデル４００（第２学習モデルＭ２とも称する）とは異なっていてもよい。より詳細には、第１フェーズＰＨ１においては、第１プーリング層３４１を有するものの第２プーリング層３４２を有しない学習モデル４００に対する学習処理が施されてもよい。たとえば、第１学習モデルＭ１は、第２学習モデルの２つの出力のうちの一方（ＧＡＰあるいはＧＭＰ）のみを出力するものであってもよい。そして、第２学習モデルＭ２として上記各実施形態のようなモデルが用いられてもよい。

その場合でも、最初の学習（第１フェーズＰＨ１での学習）にて当該第１学習モデルＭ１の特に特徴抽出層３２０（特徴マップ抽出部）は一定程度学習されている。したがって、当該最初の学習における学習結果を有効に活用して、後の転移学習等を行うことが可能である。ただし、第１学習モデルＭ１と第２学習モデルＭ２とが同じ学習モデルであることが好ましい。これによれば、２種類の出力もが考慮された学習が既に最初の学習にて行われているので、後の転移学習等（第２フェーズＰＨ２での学習）において最初の学習（第１フェーズＰＨ１での学習）の学習結果を有効に利用することが可能である。

＜その他＞
また、上記各実施形態においては、特徴ベクトル２５１，２５２自体（入力画像２１０内の対象人物の識別（ないし分類）のための情報）が学習モデル４００から出力されているが、これに限定されない。たとえば、特徴ベクトル２５１，２５２等に基づくＤＢＳＣＡＮ等による分類結果（２７１～２７４）等が学習モデル４００から出力されてもよい。換言すれば、学習モデル４００は、入力画像２１０内の対象人物の分類情報を出力してもよい。

また、上記各実施形態においては、人物の識別に本発明を適用する態様について主に説明したが、これに限定されない。たとえば、商品の識別（商品認識）に本発明を適用してもよい。

１画像処理システム
２０撮影装置
３０画像処理装置（教師データ生成装置、学習モデル生成装置、推論装置）
２１０入力画像
２３０特徴マップ
２５１，２５２，Ｖ１０１～Ｖ１１４特徴ベクトル
２６１，２６２特徴ベクトル群
２７１～２７４擬似ラベル群（集合群）
２８０，Ｗ１０９～Ｖ１１２統合特徴ベクトル
３４１第１プーリング層
３４２第２プーリング層
３４５分離層
４００，４１０，４２０，４３０学習モデル
ＤＡ，ＤＭ，ＤＩ，ＤＵ，ＤＤデータセット（疑似ラベル付き教師データ群）
ＧＡｉ，ＧＭｉ，ＧＩｉ，ＧＵｉ，ＧＤｉ部分集合（グループ）

Claims

畳み込みニューラルネットワークを備えて構成される学習モデルに関する機械学習を実行するための教師データを生成する制御部、
を備え、
前記学習モデルは、入力画像の入力に応じて前記畳み込みニューラルネットワーク内の所定の畳み込み層から得られる特徴マップに対して第１プーリング処理を施して生成される特徴ベクトルである第１特徴ベクトルと、前記第１プーリング処理とは異なる種類の第２プーリング処理を前記特徴マップに対して施して生成される特徴ベクトルである第２特徴ベクトルとに基づき、前記入力画像内の対象の識別ないし分類に関する情報を出力するモデルであり、
前記制御部は、前記学習モデルに対する複数の新たな入力画像の入力に応じて第１特徴ベクトル群と第２特徴ベクトル群とを生成し、前記第１特徴ベクトル群と前記第２特徴ベクトル群とに基づき前記複数の新たな入力画像をクラスタリングして前記複数の新たな入力画像に関する疑似ラベル群を生成することを特徴とする、教師データ生成装置。
前記第１プーリング処理は、平均プーリング処理であり、
前記第２プーリング処理は、最大プーリング処理であることを特徴とする、請求項１に記載の教師データ生成装置。
畳み込みニューラルネットワークを備えて構成される学習モデルに関する機械学習を実行するための教師データを生成する制御部、
を備え、
前記学習モデルは、入力画像の入力に応じて前記畳み込みニューラルネットワーク内の所定の畳み込み層から得られる特徴マップを２種類の特徴ベクトルに分離する処理により生成される第１特徴ベクトルと第２特徴ベクトルとに基づき、前記入力画像内の対象の識別ないし分類に関する情報を出力するモデルであり、
前記制御部は、前記学習モデルに対する複数の新たな入力画像の入力に応じて第１特徴ベクトル群と第２特徴ベクトル群とを生成し、前記第１特徴ベクトル群と前記第２特徴ベクトル群とに基づき前記複数の新たな入力画像をクラスタリングして前記複数の新たな入力画像に関する疑似ラベル群を生成することを特徴とする、教師データ生成装置。
前記制御部は、
前記第１特徴ベクトル群の特徴空間内での分布に基づき前記複数の新たな入力画像をクラスタリングして生成される第１集合群と、前記第２特徴ベクトル群の特徴空間内での分布に基づき前記複数の新たな入力画像をクラスタリングして生成される第２集合群とを取得し、
前記第１集合群と前記第２集合群とで示される各クラスタリング結果に基づき、前記複数の新たな入力画像に関する疑似ラベル群を生成することを特徴とする、請求項１から請求項３のいずれかに記載の教師データ生成装置。
前記制御部は、
前記第１特徴ベクトル群の特徴空間内での分布に基づき前記複数の新たな入力画像をクラスタリングして生成される第１集合群と、前記第２特徴ベクトル群の特徴空間内での分布に基づき前記複数の新たな入力画像をクラスタリングして生成される第２集合群とを取得し、
前記第１集合群と前記第２集合群とに基づき、特徴空間における別のクラスタリング結果を示す第３集合群と、特徴空間における更に別のクラスタリング結果を示す第４集合群とを取得し、
前記第１集合群と前記第２集合群と前記第３集合群と前記第４集合群とで示される各クラスタリング結果に基づき、前記複数の新たな入力画像に関する疑似ラベル群を生成することを特徴とする、請求項１から請求項３のいずれかに記載の教師データ生成装置。
前記制御部は、
前記第１集合群と前記第２集合群との間での積集合を求める集合演算処理を用いたクラスタリング処理により前記第３集合群を生成し、
前記第１集合群と前記第２集合群との間での和集合を求める集合演算処理を用いたクラスタリング処理により前記第４集合群を生成することを特徴とする、請求項５に記載の教師データ生成装置。
請求項１から請求項６のいずれかに記載の教師データ生成装置にて生成される疑似ラベル群を用いた機械学習を実行することによって、前記学習モデルを生成することを特徴とする、学習モデル生成装置。
請求項４から請求項６のいずれかに記載の教師データ生成装置にて生成される疑似ラベル群を用いた機械学習を実行することによって、前記学習モデルを生成する学習モデル生成装置であって、
前記制御部は、各集合群において、当該各集合群の一の要素である注目要素と、当該注目要素とは異なるグループに分類される別の要素との距離が、前記注目要素と同じグループに分類されるさらに別の要素と前記注目要素との距離よりも相対的に大きくなるように、前記学習モデルを学習することを特徴とする、学習モデル生成装置。
ａ）畳み込みニューラルネットワークを備えて構成される学習モデルであって、入力画像の入力に応じて前記畳み込みニューラルネットワーク内の所定の畳み込み層から得られる特徴マップに対して第１プーリング処理を施して生成される特徴ベクトルである第１特徴ベクトルと、前記第１プーリング処理とは異なる種類の第２プーリング処理を前記特徴マップに対して施して生成される特徴ベクトルである第２特徴ベクトルとに基づき、前記入力画像内の対象の識別ないし分類に関する情報を出力する学習モデルに対して、新たな入力画像を入力するステップと、
ｂ）前記新たな入力画像の入力に応じて前記学習モデルを用いて生成される前記第１特徴ベクトルと前記第２特徴ベクトルとに基づき、前記学習モデルに関する機械学習を実行するための教師データであって前記新たな入力画像に関する教師データを生成するステップと、
を備えることを特徴とする、教師データの生成方法。
ａ）畳み込みニューラルネットワークを備えて構成される学習モデルであって、入力画像の入力に応じて前記畳み込みニューラルネットワーク内の所定の畳み込み層から得られる特徴マップを２種類の特徴ベクトルに分離する処理により生成される第１特徴ベクトルと第２特徴ベクトルとに基づき、前記入力画像内の対象の識別ないし分類に関する情報を出力する学習モデルに対して、新たな入力画像を入力するステップと、
ｂ）前記新たな入力画像の入力に応じて前記学習モデルを用いて得られる前記第１特徴ベクトルと前記第２特徴ベクトルとに基づき、前記新たな入力画像に関する教師データを生成するステップと、
を備えることを特徴とする、教師データの生成方法。