JP2022185872A

JP2022185872A - 画像処理装置、画像処理方法、撮像装置

Info

Publication number: JP2022185872A
Application number: JP2021093766A
Authority: JP
Inventors: 源基北澤; Motoki Kitazawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2022-12-15
Also published as: US20220392107A1

Abstract

【課題】追尾対象となる物体と見た目の類似した物体が存在するような場合であっても、追尾対象となる物体とその他の物体を正しく識別して追尾を行うための技術を提供すること。
【解決手段】それぞれの画像における追尾対象物体の特徴量の画像間における距離と、画像中の追尾対象物体および非追尾対象物体のそれぞれの特徴量間の距離と、１以上の画像における追尾対象物体の画像領域と非追尾対象物体の画像領域との重複率と、に基づく損失を求める。そして、該損失に基づいて、画像から物体の特徴量を抽出するためのモデルの学習を行う。学習済みのモデルに基づき、画像中の追尾対象物体を追尾する追尾処理を行う。
【選択図】図１

Description

本発明は、画像中の物体を追尾するための技術に関するものである。

画像中の物体を追尾するための技術として、輝度や色情報を利用するものやテンプレートマッチングを利用するもの、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋを利用するもの等が存在する。ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋを利用する方法の一つにＴｒａｃｋｉｎｇｂｙＤｅｔｅｃｔｉｏｎと呼ばれる方法がある。この方法では、画像中の物体を検出し、該物体を過去の物体と対応付けることによって追尾を行う。非特許文献１では、この対応付けをＭｅｔｒｉｃＬｅａｒｎｉｎｇによって学習されたＮｅｕｒａｌＮｅｔｗｏｒｋから得られた特徴量を用いて行う。ＭｅｔｒｉｃＬｅａｒｎｉｎｇとは、類似度が高いデータほど空間上での距離が近く分布するような空間への変換を学習する方法である。

特開２０１８－０２６１０８号公報

ＮｉｃｏｌａｉＷｏｊｋｅ、ＡｌｅｘＢｅｗｌｅｙ、ＤｉｅｔｒｉｃｈＰａｕｌｕｓ：Ｓｉｍｐｌｅｏｎｌｉｎｅａｎｄｒｅａｌｔｉｍｅｔｒａｃｋｉｎｇｗｉｔｈａｄｅｅｐａｓｓｏｃｉａｔｉｏｎｍｅｔｒｉｃ（ＩＣＩＰ２０１７）

ＭｅｔｒｉｃＬｅａｒｎｉｎｇによって学習されたＮｅｕｒａｌＮｅｔｗｏｒｋにより、各物体に対応する特徴量を抽出し、それらを過去の特徴量と対応付けることによって追尾を行う方法を考える。そのような方法では、追尾対象となる物体の姿勢が変化したり、遮蔽が発生したりするような場合、追尾対象となる物体と見た目の類似したその他の物体を誤って対応付けしてしまい、追尾が失敗することがある。

本発明では、追尾対象となる物体と見た目の類似した物体が存在するような場合であっても、追尾対象となる物体とその他の物体を正しく識別して追尾を行うための技術を提供する。

本発明の一様態は、それぞれの画像における追尾対象物体の特徴量の画像間における距離と、画像中の追尾対象物体および非追尾対象物体のそれぞれの特徴量間の距離と、１以上の画像における追尾対象物体の画像領域と非追尾対象物体の画像領域との重複率と、に基づく損失を求める計算手段と、前記損失に基づいて、画像から物体の特徴量を抽出するためのモデルの学習を行う学習手段と、前記学習手段により学習済みのモデルに基づき、画像中の追尾対象物体を追尾する追尾処理を行う追尾手段とを備えることを特徴とする。

本発明の構成によれば、追尾対象となる物体と見た目の類似した物体が存在するような場合であっても、追尾対象となる物体とその他の物体を正しく識別して追尾を行うことができる。

学習装置１００の機能構成例を示すブロック図。学習装置１００による学習モデルの学習処理のフローチャート。物体検出用ＣＮＮと特徴量抽出用ＣＮＮとの関係を示す図。追尾対象物体の特徴量を取得するための処理を説明する図。ｄ_１、ｄ_２，ｒ、ｍを求めるための処理を説明する図。特徴量間距離を二次元空間上に示したイメージ図。追尾装置２００の機能構成例を示すブロック図。追尾装置２００による追尾対象物体の追尾処理のフローチャート。変形例１に係る正解データの構成例を示す図。変形例２に係る、追尾対象物体および非追尾対象物体の特徴量の取得方法を説明する図。ＩｏＵ_１、ＩｏＵ_２の計算方法を示す図。コンピュータ装置のハードウェア構成例を示すブロック図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
まず、連続して撮像された画像における追尾対象（追尾対象物体）とその他の物体（非追尾対象物体）とを正しく識別して該追尾対象物体の追尾を行うために用いる学習モデルの学習を行う学習装置としての画像処理装置について説明する。

本実施形態に係る学習装置１００の機能構成例を図１のブロック図に示す。図１に示す機能構成例を有する学習装置１００による学習モデルの学習処理について、図２のフローチャートに従って説明する。

ステップＳ１０１では、取得部１１０は、第一の画像と、該第一の画像の正解データ（第一の正解データ）と、を取得する。第一の正解データは、第一の画像中の追尾対象物体について予め作成されたものであり（既知）、該第一の画像における該追尾対象物体の画像領域を示す領域情報と、該追尾対象物体に固有のラベルと、を含む。追尾対象物体の画像領域を示す領域情報は、例えば、画像領域が矩形領域である場合には、該矩形領域の中心位置（追尾対象物体の位置）、該矩形領域の幅および高さ、を含む情報である。なお、ここでは、追尾対象物体の画像領域が矩形領域である場合には、該矩形領域の中心位置を追尾対象物体の位置としているが、該矩形領域のどの位置を追尾対象物体の位置としても良い。

また取得部１１０は、第一の画像に後続して撮像された第二の画像と、該第二の画像の正解データ（第二の正解データ）と、を取得する。第二の正解データは、第一の正解データと同様、第二の画像中の追尾対象物体について予め作成されたものであり（既知）、該第二の画像における該追尾対象物体の画像領域を示す領域情報と、該追尾対象物体に固有のラベルと、を含む。第一の画像と第二の画像とで同じ追尾対象物体には同じラベルが付与されている。

第一の画像および第二の画像のそれぞれは、例えば、動画像における第１フレームの画像、該第１フレームに後続する第２フレームの画像、である。また、例えば、第一の画像および第二の画像のそれぞれは、定期的若しくは不定期的に撮像された複数の静止画像における着目静止画像、該着目静止画像よりも後に撮像された静止画像、である。また、必要に応じて取得した画像の一部分を切り出す等の処理を行ってもよい。

ステップＳ１０２では、物体検出部１２０は、第一の画像を物体検出用の学習モデルである物体検出用ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に入力して該物体検出用ＣＮＮの演算処理を実行する。これにより物体検出部１２０は、第一の画像中におけるそれぞれの物体について、該物体の画像領域を示す領域情報と、該物体のスコアと、を該物体の検出結果として取得する。物体の画像領域を示す領域情報は、例えば、画像領域が矩形領域である場合には、該矩形領域の中心位置、該矩形領域の幅および高さ、を含む情報である。また、物体のスコアは、値域を０～１とするスコアであり、大きいほど物体らしさが高いことを意味する。画像中から物体を検出する技術としては、“Ｌｉｕ，ＳＳＤ：ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ：ＥＣＣＶ２０１６”等が挙げられる。

ステップＳ１０３では、特徴量抽出部１３０は、第一の画像を特徴量抽出用の学習モデルである特徴量抽出用ＣＮＮに入力して該特徴量抽出用ＣＮＮの演算処理を実行する。これにより特徴量抽出部１３０は、該第一の画像を縦横等分割した場合における各領域の特徴量を表す特徴量マップ（第一の特徴量マップ）を取得する。そして特徴量抽出部１３０は、第一の正解データが示す追尾対象物体の画像領域の中心位置に対応する第一の特徴量マップ上の対応位置を特定し、該特定した対応位置における特徴量を「追尾対象物体の特徴量」として取得する。また、特徴量抽出部１３０は、ステップＳ１０２で取得した領域情報が示す画像領域の中心位置に対応する第一の特徴量マップ上の対応位置を特定し、該特定した対応位置における特徴量を「非追尾対象物体の特徴量」として取得する。

同様に、特徴量抽出部１３０は、第二の画像を特徴量抽出用の学習モデルである特徴量抽出用ＣＮＮに入力して該特徴量抽出用ＣＮＮの演算処理を実行する。これにより特徴量抽出部１３０は、該第二の画像を縦横等分割した場合における各領域の特徴量を表す特徴量マップ（第二の特徴量マップ）を取得する。そして特徴量抽出部１３０は、第二の正解データが示す追尾対象物体の画像領域の中心位置に対応する第二の特徴量マップ上の対応位置を特定し、該特定した対応位置における特徴量を「追尾対象物体の特徴量」として取得する。

ここで、追尾対象物体の特徴量を取得するための処理について、図４を用いて説明する。図４では、横６４０画素ｘ縦４８０画素のサイズを有する第一の画像に、該第一の画像を横２４個ｘ縦１６個の分割領域に分割した場合におけるそれぞれの分割領域の特徴量が登録されているマップである第一の特徴量マップを重ねた状態を示している。第一の特徴量マップは、チャンネル数がＣ（任意の自然数）の特徴量が（２４ｘ１６）個登録されたマップである。第一の画像の左上隅の位置を原点（０，０）とするので、第一の画像上の位置（ｘ、ｙ）は０≦ｘ≦６３９，０≦ｙ≦４３９の範囲をとり、第一の特徴量マップ上の位置（ｐ、ｑ）（分割領域単位の位置）は０≦ｐ≦２３，０≦ｑ≦１５の範囲をとる。

位置４０２は、第一の正解データが示す追尾対象物体の位置（ｘ、ｙ）＝（３１２，２７６）である。このとき、特徴量抽出部１３０は、（３１２ｘ２４／６４０）＝１１．７を計算し、１１．７の小数部を削除した１１をｐとし、（２７６ｘ１６／４８０）＝９．２を計算し、９．２の小数部を削除した９をｑとする。これにより特徴量抽出部１３０は、第一の画像上の追尾対象物体の位置（３１２，２７６）に対応する第一の特徴量マップ上の位置（１１，９）を求める。矩形４０３は、第一の画像上の追尾対象物体の位置（３１２，２７６）に対応する第一の特徴量マップ上の位置（１１，９）を示す。そして特徴量抽出部１３０は、位置４０３における特徴量（位置４０３における１ｘ１ｘＣの配列要素）を、第一の画像における追尾対象物体の特徴量として取得する。

また特徴量抽出部１３０は、第二の画像についても同様の処理を行うことで、第二の画像における追尾対象物体の特徴量を取得する。つまり特徴量抽出部１３０は、第二の正解データが示す追尾対象物体の位置に対応する第二の特徴量マップ上の位置を求め、該求めた位置における特徴量（該求めた位置における１ｘ１ｘＣの配列要素）を第二の画像における追尾対象物体の特徴量として取得する。

なお、ステップＳ１０２で取得した領域情報が示す画像領域の中心位置に対応する第二の特徴量マップ上の対応位置を特定する場合も、（ｘ、ｙ）から（ｐ、ｑ）を求める上記の方法を用いて特定する。

ここで、物体検出用ＣＮＮと、特徴量抽出用ＣＮＮと、の関係について図３を用いて説明する。物体検出用ＣＮＮおよび特徴量抽出用ＣＮＮはどのような構成で実装しても構わない。例えば、図３（ａ）に示す如く、物体検出用ＣＮＮと特徴量抽出用ＣＮＮをそれぞれ別個に設け、それぞれが入力画像（第一の画像、第二の画像）に対して独立して動作するように構成しても良い。また、図３（ｂ）に示す如く、物体検出用ＣＮＮと特徴量抽出用ＣＮＮとで共通の構成を共有ＣＮＮとして設け、物体検出用ＣＮＮにおいて共有ＣＮＮに含まれない構成を改めて物体検出用ＣＮＮとし、特徴量抽出用ＣＮＮにおいて共有ＣＮＮに含まれない構成を改めて特徴量抽出用ＣＮＮとしても良い。この場合、入力画像は共有ＣＮＮに入力され、共有ＣＮＮが入力画像に対する処理結果を物体検出用ＣＮＮおよび特徴量抽出用ＣＮＮに入力する。物体検出用ＣＮＮは共有ＣＮＮから出力された処理結果を入力として動作し、特徴量抽出用ＣＮＮは共有ＣＮＮから出力された処理結果を入力として動作する。

次に、ステップＳ１０４では、損失計算部１４０は、ステップＳ１０３で求めた特徴量を用いて、第一の画像における追尾対象物体の特徴量と、第二の画像における該追尾対象物体の特徴量と、の間のユークリッド距離である特徴量間距離ｄ_１を求める。また損失計算部１４０は、ステップＳ１０３で求めた特徴量を用いて、第一の画像における追尾対象物体の特徴量と、該第一の画像における非追尾対象物体の特徴量と、の間のユークリッド距離である特徴量間距離ｄ_２を求める。特徴量間の距離は、それぞれの特徴量が属する特徴量空間におけるそれぞれの特徴量間の距離であり、特徴量間の距離を求める方法については周知であるため、これについての説明は省略する。

次に、ステップＳ１０５では、損失計算部１４０は、損失関数のパラメータを求める。本実施形態では、以下の（式１）で与えられるＴｒｉｐｌｅｔｌｏｓｓを損失関数として用いる。

ｌｏｓｓ＝ｍａｘ（ｒｄ_１－ｄ_２＋ｍ，０） … （式１）
この損失関数では、ｄ_１が大きく、ｄ_２が小さくなることで損失が発生するため、同一物体に対する特徴量間距離が、異なる物体に対する特徴量間距離よりも小さくなるような特徴量を獲得することができる。

この（式１）において、ｒとｍが損失関数のパラメータであり、ｒは距離パラメータ、ｍはマージンパラメータである。ｒを大きく設定すると同一物体同士の特徴量間距離が小さくなるように学習され、ｍを大きくすると異なる物体同士の特徴量間距離が遠くなるように学習される。本実施形態では、これらのパラメータを正解データとステップＳ１０２で検出した物体の領域を用いて動的に設定することによって、より物体の識別性能が高い特徴量を学習する。

なお、使用する損失関数については、距離学習が行えるものであれば、特定の関数に限らない。例えば、損失関数としてＣｏｎｔｒａｓｔｉｖｅｌｏｓｓやＳｏｆｔｍａｘｌｏｓｓを用いても良い。

ここで、ｄ_１、ｄ_２，ｒ、ｍを求めるための処理について、図５に示す具体例を挙げて説明する。図５（ａ）は第一の画像を示しており、図５（ｂ）は第二の画像を示している。

図５（ａ）の第一の画像は、追尾対象物体５０１と、非追尾対象物体５０２，５０３と、を含む。矩形５０６は、第一の正解データによって規定される該追尾対象物体５０１の画像領域である。矩形５０７は、ステップＳ１０２で検出された非追尾対象物体５０２の画像領域である。矩形５０８は、ステップＳ１０２で検出された非追尾対象物体５０３の画像領域である。

図５（ｂ）の第二の画像は、追尾対象物体５０４と、非追尾対象物体５０５と、を含む。矩形５０９は第二の正解データによって規定される該追尾対象物体５０４の画像領域であり、矩形５１０はステップＳ１０２で検出された非追尾対象物体５０５の画像領域である。

このような場合、特徴量抽出部１３０は、第一の正解データが示す「第一の画像における追尾対象物体５０１の位置」に対応する第一の特徴量マップ上の対応位置における特徴量と、第二の正解データが示す「第二の画像における追尾対象物体５０４の位置」に対応する第二の特徴量マップ上の対応位置における特徴量と、の間の特徴量間距離ｄ_１を求める。

また特徴量抽出部１３０は、非追尾対象物体５０２，５０３のうち一方（図５（ａ）では非追尾対象物体５０２）を選択物体として選択し、該選択物体についてステップＳ１０２で検出された位置に対応する第一の特徴量マップ上の対応位置における特徴量と、第一の正解データが示す「第一の画像における追尾対象物体５０１の位置」に対応する第一の特徴量マップ上の対応位置における特徴量と、の間の特徴量間距離ｄ_２を求める。第一の画像中に複数の非追尾対象物体が含まれている場合に、該複数の非追尾対象物体からの選択物体の選択方法については特定の選択方法に限らない。例えば、追尾対象物体の位置に最も近い位置の（最も近接している）非追尾対象物体を選択物体として選択する。

また特徴量抽出部１３０は、以下の（式２）を用いて距離パラメータｒを求め、以下の（式３）を用いてマージンパラメータｍを求める。

ｒ＝１ … （式２）
ｍ＝ｍ_０＋ＩｏＵ … （式３）
ここで、ｍ_０は任意の実数である。ＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）は、２つの画像領域の面積の重複率である。図５の場合、追尾対象物体５０１の画像領域５０６と、選択物体として選択された非追尾対象物体５０２の画像領域５０７と、の面積の重複率をＩｏＵとして求める。

ステップＳ１０６では、損失計算部１４０は、上記の処理で得られたｄ_１，ｄ_２，ｒ、ｍを用いて（式１）を計算することで、損失ｌｏｓｓを求める。

図６は、本実施形態に係る上記の方法で損失を計算した際の特徴量間距離を二次元空間上に示したイメージ図である。特徴量６０１は第一の画像における追尾対象物体の特徴量、特徴量６０２は第二の画像における追尾対象物体の特徴量である。ｄ_１は特徴量６０１と特徴量６０２との間の特徴量間距離である。特徴量６０３および特徴量６０４は、第一の画像における非追尾対象物体の特徴量である。ｄ_２は特徴量６０１と特徴量６０４との間の特徴量間距離、ｄ_２’は特徴量６０１と特徴量６０３との間の特徴量間距離である。また、ｍ、ｍ_０、ＩｏＵは、（式３）に示したマージンパラメータである。

この方法では、第一の画像における追尾対象物体の画像領域と非追尾対象物体の画像領域とで重複が発生していない場合は、特徴量間距離ｄ_２’が、特徴量間距離ｄ_１とマージンパラメータｍ_０の和より大きくなるように学習される。一方、第一の画像における追尾対象物体の画像領域と非追尾対象物体の画像領域とで重複が発生している場合は、特徴量間距離ｄ_２が、特徴量間距離ｄ_１とマージンパラメータｍの和より大きくなるように学習される。このため、追尾対象物体の画像領域とのＩｏＵが高い非追尾対象物体、すなわち、追尾対象物体との距離が近く、誤った追尾の切り替わりが発生する危険性が高い非追尾対象物体ほど、特徴量間距離が大きくなるように学習を行うことができる。

なお、損失関数は、追尾対象物体の画像領域とのＩｏＵに基づいてパラメータを変更するものであれば、上記の形式に限定されるものではない。また、損失を計算する際は、第一の画像と第二の画像のセットを複数セット用意し、それぞれのセットについて上記の処理を行ってセットごとの損失を求め、セットごとに求めた損失の平均を最終的な損失としても構わない。

ステップＳ１０７では、学習部１５０は、ステップＳ１０６で求めた損失ｌｏｓｓを極小化するように特徴量抽出用ＣＮＮにおけるパラメータ（重み値など）を更新することで、該特徴量抽出用ＣＮＮの学習を行う。なお、学習部１５０は、特徴量抽出用ＣＮＮの学習に加えて、物体検出用ＣＮＮの学習を同時に行うようにしても良い。重みなどのパラメータの更新は、例えば誤差逆伝搬法を用いて行うことが考えられる。

次に、上記の学習したＣＮＮを用いて画像における追尾対象物体を追尾するための処理を行う追尾装置としての画像処理装置について説明する。本実施形態に係る追尾装置２００の機能構成例を図７のブロック図に示す。図７に示す機能構成例を有する追尾装置２００による追尾対象物体の追尾処理について、図８のフローチャートに従って説明する。

ステップＳ２０１では、画像取得部２１０は、１枚の撮像画像を取得する。該１枚の撮像画像は、連続して撮像される撮像画像のうち最近に撮像された撮像画像であり、例えば、動画像における最新のフレームの撮像画像であっても良いし、定期的若しくは不定期的に撮像された静止画像において最近に撮像された静止画像であっても良い。

ステップＳ２０２では、物体検出部２２０は、ステップＳ２０１で取得した撮像画像を物体検出用ＣＮＮに入力して該物体検出用ＣＮＮの演算処理を実行する。これにより物体検出部２２０は、ステップＳ２０１で取得した撮像画像中におけるそれぞれの物体について、該物体の画像領域を示す領域情報と、該物体のスコアと、を該物体の検出結果として取得する。

ステップＳ２０３では、特徴量抽出部２３０は、ステップＳ２０１で取得した撮像画像を特徴量抽出用ＣＮＮに入力して該特徴量抽出用ＣＮＮの演算処理を実行することで、該撮像画像の特徴量マップを取得する。そして特徴量抽出部２３０は、ステップＳ２０２で取得したそれぞれの物体について、該物体の領域情報が示す画像領域の中心位置に対応する特徴量マップ上の対応位置を特定し、該特定した対応位置における特徴量を「該物体の特徴量」として取得する。

そして、ステップＳ２０１で取得した撮像画像が、追尾処理を開始してから最初に取得した撮像画像（初期時刻の撮像画像）であれば、処理はステップＳ２０４に進む。一方、ステップＳ２０１で取得した撮像画像が、追尾処理を開始してから２枚目以降の撮像画像である（初期時刻の撮像画像ではない）場合には、処理はステップＳ２０７に進む。

ステップＳ２０４では、特徴量保存部２４０は、ステップＳ２０３で取得したそれぞれの物体の特徴量に対して、該物体に固有のＩＤ（物体ＩＤ）を付与する。例えば、スコアが高い物体から順に、物体ＩＤ＝１，２，３，…を付与する。

そしてステップＳ２０５では（ステップＳ２０４からステップＳ２０５に進んだ場合）、特徴量保存部２４０は、ステップＳ２０４で物体ＩＤが付与されたそれぞれの物体の特徴量を追尾装置２００に保存する。

ステップＳ２０７では、特徴量照合部２５０は、ステップＳ２０３で取得したそれぞれの物体の特徴量（現時刻の特徴量）のうち未選択の１つを選択特徴量として選択する。そして特徴量照合部２５０は、追尾装置２００に保存済みの特徴量から、物体ごとに、現時刻に近い順にｎ（ｎは自然数）個の特徴量（保存特徴量）を取得する。そして特徴量照合高２５０は、該取得したそれぞれの保存特徴量と、選択特徴量と、の間の特徴量間距離（特徴量間距離の求め方については上記と同様）を求める。なお、特徴量照合部２５０は、物体ごとに、該物体について取得したｎ個の保存特徴量から１つの保存特徴量（例えば、ｎ個の保存特徴量の平均値）を求め、物体ごとの該求めた１つの保存特徴量と、選択特徴量と、の間の特徴量間距離を求めるようにしても良い。

ステップＳ２０８では、特徴量照合部２５０は、ステップＳ２０７で求めた特徴量間距離のうち最小の特徴量間距離を特定する。そして特徴量照合部２５０は、該特定した最小の特徴量間距離に対応する保存特徴量の物体に付与されている物体ＩＤを、選択特徴量の物体に付与する。また特徴量照合部２５０は、「ステップＳ２０７で求めた特徴量間距離のうち最小の特徴量間距離に対応する保存特徴量の物体に付与されている物体ＩＤ」が先に他の物体に付与されている場合には、新たな物体ＩＤを発行して選択特徴量の物体に付与する。物体ＩＤは、スコアが高い物体から順に降順とする方法が考えられるが、これに限らない。

このようなステップＳ２０７の処理およびステップＳ２０８の処理を、ステップＳ２０３で取得した全ての物体の特徴量について行うことで、ステップＳ２０２で検出した全ての物体に対して物体ＩＤを付与することができる。なお、現時刻の特徴量に物体ＩＤを付与するための上記の処理は一例であり、上記の処理に限定することを意図したものではない。例えば、ハンガリアンアルゴリズムを用いても良い。また、ステップＳ２０７およびステップＳ２０８では、次のような処理を行うようにしても良い。

ステップＳ２０７では、特徴量照合部２５０は、ステップＳ２０３で取得したそれぞれの物体の特徴量（現時刻の特徴量）のうち未選択の１つを選択特徴量として選択する。そして特徴量照合部２５０は、過去に追尾装置２００に保存された物体の特徴量（保存特徴量）と、選択特徴量と、の間の特徴量間距離（特徴量間距離の求め方については上記と同様）を求める。

ステップＳ２０８では、特徴量照合部２５０は、ステップＳ２０７で求めた特徴量間距離のうち閾値未満である特徴量間距離を特定する。なお、特徴量照合部２５０は、閾値未満である特徴量間距離として複数の特徴量間距離を特定した場合には、該特定した複数の特徴量間距離のうち最小の特徴量間距離を特定する。そして特徴量照合部２５０は、該特定した特徴量間距離に対応する保存特徴量のうち保存タイミングが最近の保存特徴量の物体に付与されている物体ＩＤを、選択特徴量の物体に付与する。また特徴量照合部２５０は、ステップＳ２０７で求めた特徴量間距離のうち閾値未満の特徴量間距離がなかった場合には、新たな物体ＩＤを発行して選択特徴量の物体に付与する。

つまり、現時刻の特徴量において、過去に追尾装置２００に保存された着目特徴量との特徴量間距離が閾値未満であれば、現時刻の特徴量の物体と、着目特徴量の物体と、を対応づけるべく、現時刻の特徴量に、着目特徴量の物体の物体ＩＤを付与する。

そしてステップＳ２０５では（ステップＳ２０８からステップＳ２０５に進んだ場合）、特徴量保存部２４０は、ステップＳ２０８で物体ＩＤが付与されたそれぞれの物体の特徴量を追尾装置２００に保存する。

また特徴量照合部２５０は、ステップＳ２０５で追尾装置２００に保存した物体ＩＤと、該物体ＩＤを付与した物体の画像領域と、を追尾結果として出力する。追尾結果は、追尾装置２００若しくはその他の装置が、追尾結果に含まれる物体の画像領域を示す枠を撮像画像に重ねて該物体の物体ＩＤと共に表示しても良いし、外部の装置に対して送信しても良い。なお、上記の図８のフローチャートに従った処理は、追尾処理を行う撮像画像ごとに行われる。

このように、本実施形態では、撮像画像中における追尾対象物体との距離が近く、誤った追尾の切り替わりが発生する危険性の高い非追尾対象物体ほど、特徴量間距離が大きくなるように学習を行う。これにより、より物体の識別性能が高い特徴量を獲得することができ、見た目の類似した物体が存在する場合でも、高い精度で追尾を行うことができる。

＜変形例１＞
本変形例では、画像中のそれぞれの物体（追尾対象物体および／または非追尾対象物体）に対して正解データが付与されているケースについて説明する。本変形例に係る正解データについて図９を用いて説明する
図９（ａ）は、図９（ｂ）の画像中の物体９０１，９０２，９０３のそれぞれの画像領域９０４，９０５，９０６の中心位置（水平位置座標、垂直位置座標）、幅、高さ、ラベルが登録されたテーブルとしての正解データの構成例を示している。なお、第一の画像、第二の画像にはそれぞれ同一のラベルを付与された物体が少なくとも１つ存在するものとする。

損失計算部１４０において損失を計算する際は、あるラベルが付与された物体を追尾対象物体、それ以外のラベルが付与された物体を非追尾対象物体とみなす。また、上記の計算を別のラベルが付与された物体についても行い、それらの平均を取ることで最終的な損失を決定してもよい。

＜変形例２＞
本変形例では、特徴量抽出部１３０による追尾対象物体および非追尾対象物体の特徴量の取得方法について、図１０を例にとり説明する。画像１００１において領域１００２は、正解データが示す追尾対象物体の画像領域であり、領域１００３および領域１００４は、物体検出部１２０によって検出された非追尾対象物体の画像領域である。画像１００５は領域１００２内の画像であり、画像１００６は領域１００３内の画像であり、画像１００７は領域１００４内の画像である。

特徴量抽出部１３０は、画像１００５～１００７を規定の画像サイズ（ここでは３２画素ｘ３２画素）の画像に変換する（リサイズなど）。つまり特徴量抽出部１３０は、画像１００５を３２画素ｘ３２画素の画像１００８に変換し、画像１００６を３２画素ｘ３２画素の画像１００９に変換し、画像１００７を３２画素ｘ３２画素の画像１０１０に変換する。

そして特徴量抽出部１３０は、画像１００８を特徴量抽出用ＣＮＮに入力して該特徴量抽出用ＣＮＮの演算処理を実行することで、該画像１００８に対応する物体の特徴量を取得する。また特徴量抽出部１３０は、画像１００９を特徴量抽出用ＣＮＮに入力して該特徴量抽出用ＣＮＮの演算処理を実行することで、該画像１００９に対応する物体の特徴量を取得する。また特徴量抽出部１３０は、画像１０１０を特徴量抽出用ＣＮＮに入力して該特徴量抽出用ＣＮＮの演算処理を実行することで、該画像１０１０に対応する物体の特徴量を取得する。物体の特徴量は、任意の次元数のベクトルとして取得することが考えられる。

このような処理を第一の画像および第二の画像について行うことでそれぞれの画像における物体の特徴量を取得することができるので、以降は第１の実施形態と同様の処理を行えば良い。

＜変形例３＞
本変形例では、上記の距離パラメータｒおよびマージンパラメータｍをそれぞれ（式４）、（式５）に従って求める。

ｒ＝１＋ＩｏＵ_１・ＩｏＵ_２（式４）
ｍ＝ｍ_０（式５）
ここで、ｍ_０は任意の正の実数である。ＩｏＵ_１、ＩｏＵ_２の計算方法について、図１１を用いて説明する。図１１（ａ）は第一の画像を示しており、（ｂ）は第二の画像を示している。

図１１（ａ）に示す如く、第一の画像には、追尾対象物体１１０１および非追尾対象物体１１０２（第一の画像に複数の非追尾対象物体が含まれている場合には、追尾対象物体１１０１に最も近接している非追尾対象物体）が含まれている。ＩｏＵ_１は、追尾対象物体１１０１の画像領域１１０５と、非追尾対象物体１１０２の画像領域１１０６とのＩｏＵである。

また、図１１（ｂ）に示す如く、第二の画像には、追尾対象物体１１０３および非追尾対象物体１１０４（第二の画像に複数の非追尾対象物体が含まれている場合には、追尾対象物体１１０３に最も近接している非追尾対象物体）が含まれている。ＩｏＵ_２は、追尾対象物体１１０３の画像領域１１０７と、非追尾対象物体１１０４の画像領域１１０８とのＩｏＵである。

つまり、第一の画像および第二の画像の両方で追尾対象物体の画像領域と重複部分を有する非追尾対象物体が存在する場合、ｒが１より大きな値を取る。この方法で損失を計算することにより、追尾対象物体に接近する非追尾対象物体が存在する場合に、特徴量間距離が小さくなるように学習を行うことができる。これにより、追尾対象物体が他の物体に遮蔽された、または他の物体を遮蔽した場合にも、頑健に追尾対象物体を識別する特徴量を獲得することができる。

なお、損失関数は、第一の画像および第二の画像の両方で追尾対象物体の画像領域と重複部分を有する非追尾対象物体が存在する場合にパラメータを変更するものであれば、上記の形式に限定されるものではない。

＜変形例４＞
本変形例では、損失を計算する際、第一の画像と第二の画像のセットを複数セット用意し、それぞれのセットについて上記の処理を行ってセットごとの損失を求め、セットごとに求めた損失を該セットに対応する非追尾対象物体のスコアに応じて重み付けしたものの総和を、最終的な損失とする。本変形例では損失ｌｏｓｓを以下の（式６）に従って求める。

ここで、Ｎは上記のセットの総数、ｌｏｓｓ_ｉはｉ番目のセットについて求めた損失である。また、ｐ_ｉは、ｉ番目のセットについて（式１）のｄ_２を求める際に選択した非追尾対象物体のスコアである。この方法で損失を計算すると、スコアの高い非追尾対象物体、すなわち誤った追尾の切り替わりが発生する危険性の高い物体の損失に対する寄与が大きくなる。これにより、追尾の性能に重要な事例を重視して学習することができ、効率的な学習を行うことが可能となる。尚、損失の重み付けは、スコアによって変更されるものであれば、上記の形式に限定されるものではない。

＜変形例５＞
本変形例では、損失関数としてＣｏｎｔｒａｓｔｉｖｅｌｏｓｓを用いる。Ｃｏｎｔｒａｓｔｉｖｅｌｏｓｓは以下の（式７）で表される。

ここで、ｄは２つの物体に対応する特徴量の特徴量間距離であり、ｙは２つの物体が同一物体である場合に１、異なる物体である場合に０となる。この損失関数では、２つの物体が同一物体である場合にはｄが小さく、異なる物体である場合にはｄが大きくなるように学習される。また、ｒとｍはそれぞれ距離パラメータとマージンパラメータであり、第１の実施形態と同様に、ｒを大きく設定すると同一物体同士の特徴量間距離が小さくなるように学習され、ｍを大きくすると異なる物体同士の特徴量間距離が遠くなるように学習される。パラメータを設定する際は、例えば、第１の実施形態と同様に（式２）および（式３）を用いることができる。

＜変形例６＞
第１の実施形態では、学習モデルとしてＣＮＮを用いた。しかし、学習モデルに適用可能なモデルはＣＮＮに限らず、他のモデル（例えば機械学習モデル）を用いても構わない。

第１の実施形態やその変形例では、それぞれの画像における追尾対象物体の特徴量の画像間における距離と、画像中の追尾対象物体および非追尾対象物体のそれぞれの特徴量間の距離と、１以上の画像における追尾対象物体の画像領域と非追尾対象物体の画像領域との重複率と、に基づく損失の求め方の一例を説明した。しかし、これらの情報を用いて損失を求める方法は上記の方法に限らない。

また、第１の実施形態では、学習装置１００と追尾装置２００とを別個の画像処理装置として説明したが、１つの画像処理装置に納めても良い。つまり、学習装置１００が行うものとして説明した処理と、追尾装置２００が行うものとして説明した処理と、の両方を１つの画像処理装置が行うようにしても良い。このような場合、例えば、動画像を撮像する、もしくは定期的若しくは不定期的に静止画像を撮像する撮像部と、学習装置１００が行うものとして説明した処理と追尾装置２００が行うものとして説明した処理との両方を実行可能な画像処理装置と、を搭載した撮像装置を構成することができる。このような撮像装置では、自身が撮像した撮像画像を用いて学習装置１００の動作（物体検出用ＣＮＮや特徴量抽出用ＣＮＮの学習）を実行することができる。そして撮像装置は、該動作後に自身が撮像した撮像画像における物体の追跡処理を、学習済みの物体検出用ＣＮＮや特徴量抽出用ＣＮＮを用いて実行することができる。

また、第１の実施形態では、特徴量間距離としてユークリッド距離を用いたが、特徴量間距離をどのような計算で求めても良く、特定の計算方法に限らない（どのような種類の距離を特徴量間距離として採用しても良い）。

［第２の実施形態］
図１や図７に示した各機能部はハードウェアで実装しても良いし、ソフトウェア（コンピュータプログラム）で実装しても良い。後者の場合、このようなコンピュータプログラムを実行可能なコンピュータ装置は、上記の学習装置１００や追尾装置２００に適用可能である。学習装置１００や追尾装置２００に適用可能なコンピュータ装置のハードウェア構成例について、図１２のブロック図を用いて説明する。

ＣＰＵ１２０１は、ＲＡＭ１２０２やＲＯＭ１２０３に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ１２０１は、コンピュータ装置全体の動作制御を行うと共に、学習装置１００や追尾装置２００が行うものとして説明した各種の処理を実行もしくは制御する。

ＲＡＭ１２０２は、ＲＯＭ１２０３や外部記憶装置１２０６からロードされたコンピュータプログラムやデータを格納するためのエリアを有する。また、ＲＡＭ１２０２は、Ｉ／Ｆ１２０７を介して外部から受信したデータを格納するためのエリアを有する。またＲＡＭ１２０２は、ＣＰＵ１２０１が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ１２０２は、各種のエリアを適宜提供することができる。

ＲＯＭ１２０３には、コンピュータ装置の設定データ、コンピュータ装置の起動に係るコンピュータプログラムやデータ、コンピュータ装置の基本動作に係るコンピュータプログラムやデータ、などが格納されている。

操作部１２０４は、キーボード、マウス、タッチパネルなどのユーザインターフェースであり、ユーザが操作することで各種の指示をＣＰＵ１２０１に対して入力することができる。

表示部１２０５は、液晶画面やタッチパネル画面を有し、ＣＰＵ１２０１による処理結果を画像や文字などでもって表示することができる。例えば、表示部１２０５には、上記の追尾処理の結果を表示することができる。また、表示部１２０５は、画像や文字を投影するプロジェクタなどの投影装置であっても良い。

外部記憶装置１２０６は、ハードディスクドライブなどの大容量情報記憶装置である。外部記憶装置１２０６には、ＯＳ（オペレーティングシステム）や、学習装置１００や追尾装置２００が行うものとして説明した各種の処理をＣＰＵ１２０１に実行もしくは制御させるためのコンピュータプログラムやデータが保存されている。外部記憶装置１２０６に保存されているデータには、学習装置１００や追尾装置２００に保存されているものとして説明したデータ、上記の説明において既知のデータとして取り扱ったデータ、ＣＮＮに係るデータ、などが含まれている。外部記憶装置１２０６に保存されているコンピュータプログラムやデータは、ＣＰＵ１２０１による制御に従って適宜ＲＡＭ１２０２にロードされ、ＣＰＵ１２０１による処理対象となる。

Ｉ／Ｆ１２０７は、外部の装置との間のデータ通信を行うための通信インターフェースである。例えば、Ｉ／Ｆ１２０７は、動画像や静止画像を撮像可能な撮像装置、動画像や静止画像を保持しているサーバ装置、またはこれらの装置が接続されているネットワーク、などに接続することができる。この場合、撮像装置が撮像した動画像や静止画像、サーバ装置から供給された動画像や静止画像は、Ｉ／Ｆ１２０７を介してコンピュータ装置に供給され、該供給された動画像や静止画像は、ＲＡＭ１２０２や外部記憶装置１２０６に格納される。

ＣＰＵ１２０１、ＲＡＭ１２０２、ＲＯＭ１２０３、操作部１２０４、表示部１２０５、外部記憶装置１２０６、Ｉ／Ｆ１２０７はいずれも、システムバス１２０８に接続されている。

なお、図１２に示したハードウェア構成は、学習装置１００や追尾装置２００に適用可能なコンピュータ装置のハードウェア構成の一例であり、適宜変形／変更が可能である。

また、上記の各実施形態や各変形例で使用した数値、処理タイミング、処理順、処理の主体、データ（情報）の送信先／送信元／格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。

また、以上説明した各実施形態や各変形例の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態や各変形例の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００：学習装置１１０：取得部１２０：物体検出部１３０：特徴量抽出部１４０：損失計算部１５０：学習部

Claims

それぞれの画像における追尾対象物体の特徴量の画像間における距離と、画像中の追尾対象物体および非追尾対象物体のそれぞれの特徴量間の距離と、１以上の画像における追尾対象物体の画像領域と非追尾対象物体の画像領域との重複率と、に基づく損失を求める計算手段と、
前記損失に基づいて、画像から物体の特徴量を抽出するためのモデルの学習を行う学習手段と、
前記学習手段により学習済みのモデルに基づき、画像中の追尾対象物体を追尾する追尾処理を行う追尾手段と
を備えることを特徴とする画像処理装置。
前記計算手段は、
第一の画像中の追尾対象物体および非追尾対象物体の特徴量を、該第一の画像を入力した前記モデルの演算の結果である特徴量マップから取得し、該第一の画像に後続する第二の画像中の追尾対象物体の特徴量を、該第二の画像を入力した前記モデルの演算の結果である特徴量マップから取得する
ことを特徴とする請求項１に記載の画像処理装置。
前記計算手段は、
第一の画像中の物体の画像領域をリサイズし、該リサイズした画像領域を入力した前記モデルの演算の結果を、該第一の画像中の物体の特徴量として取得し、該第一の画像に後続する第二の画像中の物体の画像領域の画像領域をリサイズし、該リサイズした画像領域を入力した前記モデルの演算の結果を、該第二の画像中の物体の特徴量として取得する
ことを特徴とする請求項１に記載の画像処理装置。
前記計算手段は、それぞれの画像における追尾対象物体の特徴量の画像間における距離と、画像中の追尾対象物体および非追尾対象物体のそれぞれの特徴量間の距離と、画像における追尾対象物体の画像領域と非追尾対象物体の画像領域との重複率と、に基づく損失を求めることを特徴とする請求項１ないし３のいずれか１項に記載の画像処理装置。
前記計算手段は、それぞれの画像における追尾対象物体の特徴量の画像間における距離と、画像中の追尾対象物体および非追尾対象物体のそれぞれの特徴量間の距離と、第一の画像における追尾対象物体の画像領域と非追尾対象物体の画像領域との重複率と、該第一の画像に後続する第二の画像における追尾対象物体の画像領域と非追尾対象物体の画像領域との重複率と、に基づく損失を求めることを特徴とする請求項１ないし３のいずれか１項に記載の画像処理装置。
前記計算手段は、画像のセットごとに前記損失を求め、画像のセットごとに求めた損失を、前記非追尾対象物体の検出において得られる、物体らしさを示すスコアに応じて重み付けした総和を、最終的な損失として求め、
前記学習手段は、前記最終的な損失に基づいて前記モデルの学習を行う
ことを特徴とする請求項１ないし５のいずれか１項に記載の画像処理装置。
前記計算手段は、画像のセットごとに前記損失を求め、画像のセットごとに求めた損失の平均を最終的な損失として求め、
前記学習手段は、前記最終的な損失に基づいて前記モデルの学習を行う
ことを特徴とする請求項１ないし５のいずれか１項に記載の画像処理装置。
前記第一の画像における非追尾対象物体は、該第一の画像中で追尾対象物体に最も近接している非追尾対象物体であることを特徴とする請求項２または３に記載の画像処理装置。
画像を撮像する撮像部と、
請求項１ないし８のいずれか１項に記載の画像処理装置と
を備えることを特徴とする撮像装置。
画像処理装置が行う画像処理方法であって、
前記画像処理装置の計算手段が、それぞれの画像における追尾対象物体の特徴量の画像間における距離と、画像中の追尾対象物体および非追尾対象物体のそれぞれの特徴量間の距離と、１以上の画像における追尾対象物体の画像領域と非追尾対象物体の画像領域との重複率と、に基づく損失を求める計算工程と、
前記画像処理装置の学習手段が、前記損失に基づいて、画像から物体の特徴量を抽出するためのモデルの学習を行う学習工程と、
前記画像処理装置の追尾手段が、前記学習工程で学習済みのモデルに基づき、画像中の追尾対象物体を追尾する追尾処理を行う追尾工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１ないし８のいずれか１項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。