JP2019101526A

JP2019101526A - オブジェクト識別装置および方法

Info

Publication number: JP2019101526A
Application number: JP2017228752A
Authority: JP
Inventors: 良亮渡邊; Ryosuke Watanabe; 敬介野中; Keisuke Nonaka
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2019-06-24
Anticipated expiration: 2037-11-29
Also published as: JP6953292B2

Abstract

【課題】複数のカメラで撮影した映像から、オブジェクトを高速かつロバストに認識、識別し、その結果を表示する。【解決手段】複数のカメラ１０は、各オブジェクトをフレームごとに異なる視点で撮影する。オブジェクト位置推定部１１は、各オブジェクトの位置座標を推定する。オブジェクト追跡部１２は、フレーム間でオブジェクト追跡を実行する。オブジェクト向き推定部１３は、各オブジェクトの向きを推定する。カメラ選定部１５は、オブジェクトごとにその向きに基づいてID認識用のカメラを選定する。オブジェクト画像抽出部１６は、選定した各カメラの画像からオブジェクト画像を抽出する。ID取得部１７は、オブジェクト画像上でID認識を実行して認識結果を取得する。識別結果統合部１８は、オブジェクトごとに複数のID認識結果を統合してIDを識別する。結果表示部１９は、オブジェクトごとに、その位置座標とIDの識別結果とを対応付けて出力する。【選択図】図１

Description

本発明は、複数のカメラで撮影した映像から、オブジェクトを高速かつロバストに認識、識別し、その結果を表示するオブジェクト識別装置および方法に関する。

従来、単一のカメラで撮影した映像から、人物に代表される何らかのオブジェクトを抽出し、識別する技術が提案されてきた。この識別のために、例えば人物であればスポーツ選手の背番号や顔、車であればナンバープレートの番号を認識し、それを基にオブジェクトを識別、同定する手段がある。この技術はオブジェクトを切り出した画像に対し、何らかの手段を用いて認識を行う。

認識の手段としては、深層学習を用いる技術が非特許文献１に開示されている。この認識結果は、例えばスポーツ映像内の選手を対象とする場合、オブジェクトの追跡処理を行う際のオブジェクトの同定に用いることや、戦術分析等への応用が考えられる。

しかしながら、映像の中で認識対象となるオブジェクトが常に見え続けるということは少ない。例えば背番号であれば、カメラに対する選手の立つ角度や、選手同士の重なり等の問題から、常に背番号を正しく認識するということは困難であるし、車のナンバープレートであれば、ナンバープレートが見える角度というのは限定される。そのため、動画内の任意のフレームにおいて高い精度で認識するためには、フレームごとの認識結果だけでなく、認識した結果を追跡する処理を加えることや、複数のカメラを用いるというアプローチが考えられる。そこで、複数のカメラで撮影した画像間の相対的な方位関係を取得し、方位関係から得られる特徴を基に人物同定を行う既存技術が存在していた。

特開2016-001447号公報

Sebastian Gerke; Karsten Muller; Ralf Schafer, "Soccer Jersey Number Recognition Using Convolutional Neural Networks," The IEEE International Conference on Computer Vision (ICCV) Workshops, pp. 17-24, 2015.

特許文献１は複数カメラの相対的な方位関係から得られる顔の向きを用いて人物同定の精度を高める技術であるが、候補領域画像を綺麗に抽出する必要がある。顔や背番号のみを完全に自動で切り取ることは技術的に困難であることは非特許文献１などでも述べられており、切り取りに失敗した場合は誤認識の原因となるため、精度の問題から適用しづらかった。

上記の高い精度を出すことが難しいという問題について、認識精度を高めるためのアプローチとして、深層学習などの、画像の切り取り方が一様でなくても、一定の認識精度を出せる手法を適用するという手段がある。

非特許文献１は、得られた背番号の画像に対して深層学習モデルを用いて認識を行っている。しかしながら、背番号が見える画像に対しての認識精度を示しているに過ぎず、背番号が見えない画像は手動で取り除いている。

しかしながら、このような手動処理を加えても認識精度は約83％と報告されている。非特許文献１は複数のカメラを使うことが想定されておらず、複数のカメラを用いてスタジアム等で認識を行う場合、ある人物に対して背番号の見えないカメラが多く存在するという状況が考えられ、このようなシーンに本手法を適用してしまうと、誤認識が多く発生するおそれがある。また、精度の高い機械学習等の手法を用いて認識を行う場合、認識自体の計算コストが大きいため、カメラ台数が多くなると処理時間の面でも課題が大きい。

本発明の目的は、上記の技術課題を解決し、複数のカメラで撮影した映像から、オブジェクトを高速かつロバストに認識、識別し、その結果を表示するオブジェクト識別装置および方法を提供することにある。

上記の目的を達成するために、本発明は、オブジェクトに付されたIDに基づいて各オブジェクトを識別するオブジェクト識別装置において、以下の構成を具備した点に特徴がある。

(1) 各オブジェクトをフレームごとに異なる視点で撮影する複数のカメラと、各オブジェクトの位置を推定する手段と、各オブジェクトの向きを推定する手段と、オブジェクトごとにその向きに基づいてID認識用のカメラを選定する手段と、選定した各カメラの画像からオブジェクト画像を抽出する手段と、オブジェクト画像上でID認識を実行する手段と、オブジェクトのID認識結果を統合してIDを識別する手段と、オブジェクトの位置とIDの識別結果とを対応付けて出力する手段とを具備した。

(2) 前記カメラを選定する手段は、オブジェクトごとに、その向きおよびオブジェクト上でのIDの位置に基づいてIDの指向方向を計算し、オブジェクトごとに、そのIDの指向方向に基づいてカメラの選定範囲を求め、その選定範囲内に位置するカメラを選定するようにした。

(3) 前記カメラを選定する手段は、過去の選定実績に基づいて各カメラに重み付けを行って選定を行うようにした。

(4) 前記IDを識別する手段は、オブジェクトごとに得られる複数のID認識結果の多数決に基づいて当該オブジェクトのIDを識別するようにした。

(5) 前記IDを識別する手段は、ID認識時の認識確率に基づいてIDの各認識結果に重み付けを行って前記多数決に反映するようにした。

(6) 前記IDを識別する手段は、各オブジェクト画像を撮影したカメラに信頼度を設定する手段と、前記信頼度に基づいてIDの各認識結果に重み付けを行う手段とを具備した。

(7) 前記信頼度を設定する手段は、前記IDの指向方向により近い位置のカメラに対してより高い信頼度を設定するようにした。

(8) 前記信頼度を設定する手段は、IDの識別結果に対する認識結果の正答確率がより高い履歴を有するカメラにより高い信頼度を設定するようにした。

(9) フレーム間での各オブジェクト間の距離に基づいて各オブジェクトを追跡する追跡手段をさらに具備し、前記オブジェクトの向きを推定する手段は、前記オブジェクトの追跡結果に基づいて各オブジェクトの向きを推定するようにした。

(10) 前記追跡手段による追跡結果を前記IDの識別結果に統合する追跡結果統合手段を更に具備した。

(11) 過去フレームで抽出したオブジェクトのIDを今回フレームで識別できないと、過去フレームで抽出したオブジェクトの位置またはその近傍に前記IDを識別結果とするオブジェクトを割り当てる消失ID割当手段をさらに具備した。

本発明によれば、以下のような効果が達成される。

(1) 処理負荷の高いID認識を実行するオブジェクト画像を、オブジェクトの向き、あるいはIDの指向方向に基づいて予め選別したカメラから抽出したオブジェクト画像に限定するので、IDの認識確率が低いと推定されるオブジェクト画像を予め排除できる。したがって、ID認識に伴う処理負荷を低減しながらIDの識別確度を向上させることができる。

(2) ID認識用のオブジェクト画像を抽出するカメラを選定する際に、過去の選定実績に基づいて各カメラに重み付けを行うようにしたので、オブジェクトの向きやIDの指向方向とは別に、何らかの理由で潜在的に認識率の高いカメラを漏れなく選定できるようになる。

(3) オブジェクトごとに複数の得られるID認識の結果を統合して最終的にIDを識別する際に、IDの指向方向に対してより近いカメラや、正答履歴の高いカメラの優先度を高くして各認識結果に重み付けを行うようにしたので、ID識別の精度を向上させることができる。

(4) オブジェクトをフレーム間で追跡する手段を設け、フレーム間での追跡結果とフレームごとに得られるID認識の結果とを統合してIDを識別するようにしたので、ID識別の精度を更に向上させることができる。

(5) 追跡および認識に失敗して消失したIDを、その喪失位置またはその近傍に割り当てるようにしたので、オブジェクト間にオクルージョンが発生してもID識別結果の連続的な出力が可能になる。

本発明の一実施形態に係るオブジェクト識別装置の主要部の構成を示した機能ブロック図である。オブジェクトの向きを推定する方法を説明した図である。カメラの選定方法を説明した図（その１）である。カメラの選定方法を説明した図（その２）である。カメラごとのIDの認識結果を示した図である。機械学習の一例を説明した図である。カメラ信頼度の設定方法を説明した図である。 IDの認識結果に基づくIDの識別方法を説明した図である。識別結果の表示例を示した図である。本発明の第２実施形態に係るオブジェクト識別装置の主要部の構成を示した機能ブロック図である。本発明の第３実施形態に係るオブジェクト識別装置の主要部の構成を示した機能ブロック図である。消失IDの割当方法を説明した図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は、本発明の一実施形態に係るオブジェクト識別装置の主要部の構成を示した機能ブロック図である。本実施形態では、例えば自動車、二輪車またはスポーツの競技者のように、前部（正面）、後部（背面）および／または側面等に、ナンバープレート、背番号またはゼッケンのような識別子（ID）表示を備えたオブジェクトを認識対象としている。

複数のカメラ１０（Ca1，Ca2…）は、それぞれの設置の位置や向きが既知であり、複数のオブジェクトをそれぞれ異なる視点、視野で撮影して、そのカメラ映像をフレーム単位でそれぞれ出力する。

オブジェクト位置推定部１１は、各カメラ映像からオブジェクトを抽出し、その位置座標を推定する。各オブジェクトの位置座標は、例えば、各カメラ映像からオブジェクトごとに抽出した複数のマスク画像に基づいて3Dモデル（例えば、Visual Hull）を生成して３次元空間に配置し、その重心位置を求めて各オブジェクトの位置座標とすることができる。

あるいは、各オブジェクトに測位センサ等のデバイス装置を実装し、各デバイス装置が測位した位置信号に基づいて各オブジェクトの位置座標を求めても良い。各オブジェクトの位置座標は、２次元座標位置あるいは高さも含めた３次元座標位置のいずれであっても良い。

オブジェクト追跡部１２は、過去フレームのカメラ映像から抽出した各オブジェクトの位置座標と、今回フレームのカメラ映像から抽出した各オブジェクトの位置座標とに基づいて各オブジェクトを追跡する。すなわち、今回フレームから抽出した各オブジェクトが、過去フレームから抽出したオブジェクトといずれと一致するのかを突き止め、一致したオブジェクトに同一IDを付することで追跡を実現する。

本実施形態では、追跡を許容する最大追跡距離D_Tを予め設定しておき、今回フレームから抽出した全てのオブジェクトの現在の位置座標に対して、前回フレームから抽出した全てのオブジェクトの過去の位置座標との距離を計算し、最大追跡距離D_Tを下回る中で最も小さい距離を与えるオブジェクトペアを同一オブジェクトと推定する。

この際、各オブジェクトからその色情報として、オブジェクトが例えばサッカー選手であればユニフォームや髪の色情報を取得し、色情報が大きく異なるオブジェクト同士は、たとえ距離が小さくても同一オブジェクトと判定しないなどの処理を加えて精度を高めてもよい。

他の追跡手法として、カルマンフィルタやパーティクルフィルタ等の時系列フィルタを適用し、追跡を行う手法も適用可能である。人物オブジェクトの追跡処理には、過去フレームから抽出した位置等の情報と、その情報に紐づくIDとが記録されている必要があるが、これは、後述する結果記録部２０がオブジェクト識別用データベース２１へ記録を行うことで実現できる。

オブジェクト向き推定部１３は、例えば前記オブジェクト追跡部１２による追跡結果に基づいてオブジェクトの向きを推定する。本実施形態では、図２に一例を示したように、オブジェクトごとに前回フレームにおける位置座標P0と今回フレームにおける位置座標P1とに基づいて移動ベクトルを求め、移動方向を正面（前部）、その反対方向を背面（後部）、移動方向と直交する方向を側面と推定することができる。

あるいは、各オブジェクトに加速度センサを実装し、その出力を公知の姿勢推定アルゴリズムに適用することで各オブジェクトの姿勢を推定し、その推定結果に基づいてオブジェクトの向きを推定するようにしても良い。

特徴位置取得部１４は、オブジェクト識別用データベース２１から、ID認識を行う際に優先すべきオブジェクトの特徴位置に関する情報を取得する。オブジェクトがサッカー選手であって、そのIDが背番号であれば、オブジェクトの向きと反対側（背中側）が特徴位置である旨の情報を取得する。同様に、オブジェクトが自動車であって、そのIDがナンバープレートであれば、オブジェクトの前方側及び後方側が特徴位置である旨の情報を取得する。

カメラ選定部１５は、ID指向方向推定部１５１および範囲設定部１５２を含み、各オブジェクトの向きの推定結果および特徴位置、さらには各オブジェクト位置座標に基づいて、オブジェクトごとにそのID認識を実行するカメラを選定する。

前記ID指向方向推定部１５１は、オブジェクトに付されているIDの指向方向を推定する。例えば、オブジェクトがサッカー選手であれば、その特徴位置が背中（背番号）である旨の情報を取得できるので、オブジェクトの背面方向をIDの指向方向と推定できる。

範囲設定部１５２は、IDの指向方向を基準に所定の選定範囲内に位置するカメラをID認識に好適なカメラ群と推定する。オブジェクトがサッカー選手であれば、図３に示したように、IDの指向方向（背面方向）を基準に±θaの角度範囲がカメラの選定範囲とされる。

また、オブジェクトが自動車であれば、その特徴位置が車体の正面および後部である旨の情報を取得できるので、オブジェクトの背面方向のみならず正面方向もIDの指向方向と推定できる。したがって、図４に示したように、前記背面方向に加えて正面方向を基準に±θaの角度範囲がカメラの選定範囲とされる。

前記カメラ選定部１５は、前記選定範囲内に位置するカメラを当該オブジェクトに関するID認識用のカメラとして選定する。オブジェクトごとに選定されたカメラの識別子はデータベース２１に蓄積される。

なお、カメラ選定部１５は前記IDの指向方向に対して所定の角度範囲内に位置する全てのカメラを選定する必要は無く、角度や過去の選定実績に基づいて各カメラに重み付けを行って選定を行うようにしても良い。例えば、IDの指向方向に近いカメラほど重み値を増す一方、過去に選定された実績の多いカメラほど重み値を増し、重み値の総和の大きい上位Nベストのカメラを選定するようにしても良い。

また、上記のカメラ選定は全フレームで行う必要はなく、カメラの総数がn台であるとき、数ないし数十フレームに一度はｎ台全てのカメラを選定し、それ以外ではm（＜n）台のカメラのみを選定するようにしても良い。なお、カメラの選定数は固定値に限定されず、所定の条件を満たすカメラを全て選定するようにしても良い。

オブジェクト画像抽出部１６は、オブジェクトごとに前記選定されたカメラのカメラ映像からオブジェクト画像を抽出する。オブジェクト画像は所定の画像フォーマット形式で出力してもよいし、単なる輝度値やカラー画像以外のデプス画像等として抽出してもよい。

前記オブジェクト画像抽出部１６はさらに、各オブジェクト画像の抽出位置と前記オブジェクト位置推定部１１より推定された位置とを照合することで、同一オブジェクトの画像と位置とを紐付けて管理する。

ID取得部１７は、選定したカメラ映像から抽出したオブジェクト画像上でID認識を実行してオブジェクトIDを取得する。

図５は、IDとして「２４」の背番号が付されたオブジェクトに対して、８台のカメラCa1〜Ca8でID認識を実行した際のカメラの位置と認識結果との関係を示した図であり、IDの指向方向に位置するカメラCa6，Ca7では正しい認識結果が得られているが、IDの指向方向から外れたカメラCa3，Ca8では誤った認識結果が得られている。なお、なお「認識失敗」とは、認識確率が極めて低いために認識結果を得られなかった場合を示している。本実施形態によれば、IDの指向方向に位置するカメラCa6，Ca7では高い認識結果が得られることが判る。前記認識結果は、その認識確率と共にオブジェクト識別用データベース２１に蓄積される。

ID取得部１７におけるID認識には機械学習を用いることができる。例えば、背番号をIDとして認識する際に機械学習を採用するのであれば、背番号の映ったオブジェクト画像を入力すると、予測した認識結果（背番号が何番であるかという推測結果）を取得できるモデルを作成する必要があるため、最初に学習画像を用いて背番号認識用のモデルを生成する。

このようなモデル作成は、例えば、大量の学習画像を用意し、畳み込みニューラルネットワークを用いて背番号認識用のモデルを作成する。学習画像の生成については、背番号が映っている画像を大量に用意して正解ラベルを手動で付与してもよいが、図６に一例を示したように、任意の背景画像にIDを表すフォント等を重ねて人工的に学習画像を生成うるようにしてもよい。

後者の方法によれば、自動で正解ラベルの付与された学習画像を生成できるため、手動で正解ラベルを割り付ける必要がなく効率的である。また、初めからフォントを回転させたり、歪ませたり、サイズを調節したりすることでさまざまな学習画像を生成できるので、オブジェクト画像上でIDが多少斜めを向いていたり、綺麗に切り取られていなくても、精度の高い認識が可能になる。

また、モデルの生成方法としては、例では畳み込みニューラルネットワークを取り上げているが、ID認識が可能であれば、どのような学習手法を用いてもよい。そして、生成したID認識用のモデルを用いて、カメラ映像より抽出されたオブジェクト画像を認識させることでIDを推測して出力する。このとき、IDの認識結果に加えて認識結果の確率（認識確率）を出力してもよい。

機械学習であれば、ID認識用モデルの出力層の活性化関数にsoftmax関数を用いることで認識確率を算出できる。また、全てのカメラからの結果が「認識失敗」と判定される場合には、ここでのIDそのものを「認識失敗」として、その結果を後段に渡すことも可能である。

認識結果統合部１８は、認識成否判定部１８１およびカメラ信頼度設定部１８２を含み、オブジェクトごとに選定した複数のカメラ映像上で実行したID認識の結果を一つに統合することでIDを識別する。

前記認識成否判定部１８１は、認識確率が所定の基準値を下回る結果や、実際には想定できない認識結果が得られると、これらを"認識失敗"に分類することで確度の低い認識結果がID識別に反映されることを防止する。

例えば、誤った認識結果が多数得られるようなケースでは、個々の認識確率が低くても当該誤った認識結果が識別結果とされる可能性を否定できない。また、例えば野球やサッカー等の競技であれば、出現するIDのリスト（背番号やゼッケン）を予め取得できるので、当該リストにない認識結果は"認識失敗"に分類することで、当該認識結果が識別結果とされる可能性を低減できる。

カメラ信頼度設定部１８２は、前記オブジェクトごとに選定されたカメラごとに、ID指向方向とカメラ方向との角度差に基づいて信頼度を設定する。

図７は、カメラ信頼度の設定方法の一例を示した図であり、IDの指向方向とカメラの方向とが角度的にどれだけ離れているかを求め、角度差が小さいカメラほど、その信頼度を高く設定する。

図示の例では、IDの指向方向とカメラCa7の方向との角度差θ7を、IDの指向方向とカメラCa6の方向との角度差θ6と比較し、ここではθ7＜θ6なので、カメラCa7の信頼度をカメラCa6の信頼度よりも高く設定する。なお、θ7＜θ6であれば、cosθ7＞cosθ6となるため、本実施形態ではIDの指向方向とカメラの方向とがなす角度のcos値をカメラ信頼度として採用する。

さらに、IDの識別結果に対する認識結果の正答確率がより高い履歴を有するカメラに対して、より高い信頼度が設定されるようにしても良い。

前記認識結果統合部１８は、認識結果ごとに、前記認識成否の判定、ID認識における認識確率およびカメラ信頼度に基づいて最尤のIDを識別する。

図８は、認識結果統合部１８によるIDの識別方法を模式的に示した図であり、ここでは一つのオブジェクトに注目し、当該オブジェクトに関して８つのカメラCc1〜Cc8が選定されている場合を例にして説明する。

本実施形態では、前記認識成否判定部１８１によりカメラCa1，Ca2およびCa4については認識失敗と判別されているので統合対象から除外される。それ以外のカメラに関しては、認識確率とカメラ信頼度との積が評価値とされる。本実施形態では、カメラCa3はカメラ信頼度が"０"なので評価値は"０"となる。カメラCa5は、認識確率が"0.8"、カメラ信頼度が"0.4"なので、その評価値は"0.32"となっている。

同様に、カメラCa6，Ca7，Ca8は、認識確率がそれぞれ"0.8"，"1.0"， "0.8"であり、カメラ信頼度がそれぞれ"0.7"，"0.9"，"0.6"なので、それぞれの評価値は"0.56"，"0.9"，"0.48"となっている。

認識結果統合部１８はさらに、認識結果ごとに評価値の総和を求め、最大値を与える認識結果をID識別の結果として採用する。本実施形態では、認識結果「26」の評価値総和が０であり、認識結果「24」の評価値総和が1.78であり、認識結果「28」の評価値総和が0.48なので、認識結果「24」がIDの識別結果とされる。

結果表示部１９は、今回フレームから抽出した各オブジェクトの位置座標およびIDの識別結果を表示する。結果の表示方法には様々あり、コンソール上に位置座標とIDを数値として表示させるだけでもよいが、結果をグラフィカルに表現する一つの例として、図９に一例を示したように、オブジェクトの位置にIDを重畳表示する平面マップがある。

図９では、サッカーコートの半面を模した背景上に、各選手の位置座標に基づいた丸型の色付き（図では、丸型の線種）マーカを配置している。マーカ上に重ねて表示されている数字が背番号を示すIDである。

このような平面マップを、カメラ映像のフレームごとに出力して、動画的に動かすような表示方法も可能である。また、この表示の際に、例えば画像からユニフォームの色の情報を取得することで、選手の所属チームを判断し、その結果でマーカの色を変化させて平面マップに反映させてもよい。このとき、ユニフォームの色について、審判の色であると判断された人物については、選手ではないと判断して結果の表示から除外してもよい。

結果記録部２０は、今回フレームから抽出したオブジェクトの位置座標や最終的なID識別結果等をデータベース２１に記録することで、次フレーム以降でのIDの推定に役立てることを目的としている。

本実施形態では、現フレームにおいて得られたオブジェクトの位置座標と、そのオブジェクトに対応するIDの識別結果とが保存される。これは次フレームで追跡処理を行う際に不可欠となる情報である。

また、後述する「追跡結果統合部２２」や「消失ID割当部２３」において、信頼度を用いて最適なIDを判断すべく信頼度を導入する場合には、信頼度をIDに紐づけてオブジェクト識別用データベース２１に保存し、次フレーム以降で追跡や消失ID割当が成功した場合に、現フレームの信頼度をそのまま引き継ぐ（あるいは、時間経過に応じて信頼度を割り引いて引き継ぐ）機能を付加してもよい。

本実施形態によれば、処理負荷の高いID認識を実行するオブジェクト画像を、オブジェクトの向き、あるいはIDの指向方向に基づいて予め選別したカメラから抽出したオブジェクト画像に限定するので、IDの認識確率が低いと推定されるオブジェクト画像を予め排除できる。したがって、ID認識に伴う処理負荷を低減しながらIDの識別確度を向上させることができる。

また、本実施形態によれば、ID認識用のオブジェクト画像を抽出するカメラを選定する際に、過去の選定実績に基づいて各カメラに重み付けを行うようにしたので、オブジェクトの向きやIDの指向方向とは別に、何らかの理由で潜在的に認識率の高いカメラを漏れなく選定できるようになる。

さらに、本実施形態によれば、オブジェクトごとに複数の得られるID認識の結果を統合して最終的にIDを識別する際に、IDの指向方向に対してより近いカメラや、正答履歴の高いカメラの優先度を高くして各認識結果に重み付けを行うようにしたので、ID識別の精度を向上させることができる。

図１０は、本発明の第２実施形態に係るオブジェクト識別装置の構成を示した機能ブロック図であり、前記と同一の符号は同一又は同等部分を表している。本実施形態は、認識結果統合部１８の後段に追跡結果統合部２２を更に設けた点に特徴がある。

追跡結果統合部２２は、前記認識結果統合部１８による統合結果と前記オブジェクト追跡部１２による追跡結果とを更に統合し、前記統合結果に追跡結果を反映することでID識別の確度を更に向上させる。

本実施形態では、IDの追跡結果と識別結果とが一致した場合を追跡成功と認識してその回数を記憶しておき、その後、追跡結果と識別結果とが不一致となったとき、追跡成功の回数や割合に応じて追跡結果および識別結果の一方を優先させる。

たとえば、複数フレームに渡って追跡結果と識別結果とが「21」で一致していたオブジェクトに関して、たまたま今回フレームだけ「27」と認識された場合、追跡成功の回数が所定の閾値以上であれば、今回の識別結果に関わらず「21」と識別する一方、追跡成功の回数が所定の閾値未満であれば追跡結果に関わらず識別結果を優先して「27」と識別することができる。

このような実装を行うことで、精度の向上が可能である。ここで出力されるIDは、位置情報に対して1つのIDが出力される形でもよいし、信頼度と紐づけて複数のIDが出力されるような実装であってもよい。

本実施形態によれば、フレーム間での追跡結果とフレームごとに得られるID認識の結果とを統合してIDを識別するようにしたので、ID識別の精度を更に向上させることができる。

図１１は、本発明の第３実施形態に係るオブジェクト識別装置の構成を示した機能ブロック図であり、前記と同一の符号は同一又は同等部分を表している。本実施形態は、追跡結果統合部２２の後段（または、第１実施形態における認識結果統合部１８の後段）に消失ID割当部２３を更に設けた点に特徴がある。

消失ID割当部２３は、前々回フレームまで認識できていたIDを前回フレームで認識できなくなると、今回フレームにおいて、オブジェクトは抽出できたがIDを識別できなかったオブジェクトの中から、最後に認識できた前々回フレームでのID認識位置近傍に位置しているオブジェクトを選択し、当該オブジェクトに対して、前記最後に認識できたIDを今回の認識結果とは無関係に割り当てる。

図１２は、消失ID割当部２３の機能を示した図であり、ここでは、前々回フレームでは識別できていたID「10」を前回フレームでは識別できなかったため、IDの消失位置又はその近傍に、当該消失したID「10」を識別結果とするオブジェクトを認識結果とは無関係に割り当てる例を示している。

オブジェクト同士がカメラ視点で接近したり重なったりするシーンでは、２つのオブジェクトが１つであると判定されてしまったり、重なって見えなくなってしまうことから、前回フレームでは存在していたオブジェクトが今回フレームのカメラ映像上では消失したように扱われてしまうことがある。

このような場合、時間経過と共にオブジェクトの密集具合や重なりが解消されれば再び近傍にオブジェクトが認識されるが、オブジェクトが突然現れたように見えるため、認識や追跡をやり直す必要がある。

通常、このような状況が発生する場合、オブジェクトが再度登場する位置は、消失位置（最後に推定されたオブジェクトの位置：図１２(a)）の近傍であることが多い。そこで、本実施形態ではオブジェクトの消失位置を予め記録しておき、今回フレームで推定されたオブジェクトの位置と過去フレームで推定、記録された消失位置との距離を計算し、最大消失距離D_Vを下回る中で最も近い位置のオブジェクトに対して消失したIDを割り当てるようにしている。

最大消失距離D_Vは、ユーザが事前に不変のパラメータとして設定しても良いし、状況に応じて変化させてもよい。状況に応じて変化させる場合は、対象としているオブジェクトを中心に、ある領域内に他のオブジェクトがいくつ存在しているかをカウントし、それを密集度として算出する。そして、その密集度に基づいてオブジェクトごとに最大消失距離D_Vを動的に変化させることが考えられる。

一般的に、オブジェクトが密集している状況であればあるほど、消失ID割当で間違ったIDが割り付けられる可能性が高まるため、最大消失距離D_Vを小さくすることで間違ったIDの割り当てを回避することが可能となる。

なお、消失ID割当部２３を具備する場合、前記結果記録部２０は、現フレームで識別したIDと、一つ前のフレームで識別したIDを比較することで、前フレームから現フレームの間で消失したIDを突き止め、その位置（消失位置）を記録しておく。これは、次フレーム以後の消失ID割当において、消失位置を必要とするために記録を行っている。また、消失しているとされていたIDが現フレームで現れた場合には、そのIDに関する消失位置情報は消去する。

加えて、消失IDを記録する際に、ユニフォームの色などの情報から所属チームなどを解析できているのであれば、そのような付加情報を消失位置に紐づけて記録し、消失ID割当部２３にて割り当てを行う際の助けとしてもよい。

また、本装置を用いてIDの識別結果を表示する際に、認識と追跡、さらには消失ID割当も行われず、有意なIDが存在しないというケースも起こり得る。その場合には「認識結果なし」としてもよいし、何らかのランダムなIDを割り当ててもよい。

本実施形態によれば、追跡および認識に失敗して消失したIDを、その喪失位置またはその近傍に割り当てることができるので、オブジェクト間にオクルージョンが発生してもID識別結果の連続的な出力が可能になる。

１０…カメラ，１１…オブジェクト位置推定部，１２…オブジェクト追跡部，１３…オブジェクト向き推定部，１４…特徴位置取得部，１５…カメラ選定部，１６…オブジェクト画像抽出部，１７…ID取得部，１８…認識結果統合部，１９…結果表示部，２０…結果記録部，２１…オブジェクト識別用データベース，２２…追跡結果統合部，２３…消失ID割当部，１５１…ID指向方向推定部，１５２…範囲設定部，１８１…認識成否判定部，１８２…カメラ信頼度設定部

Claims

オブジェクトに付されたIDに基づいて各オブジェクトを識別するオブジェクト識別装置において、
オブジェクトを異なる視点で撮影する複数のカメラと、
各オブジェクトの位置を推定する手段と、
各オブジェクトの向きを推定する手段と、
オブジェクトごとに、その向きに基づいてID認識用のカメラを選定する手段と、
前記選定した各カメラの画像からオブジェクト画像を抽出する手段と、
オブジェクト画像ごとにID認識を実行する手段と、
オブジェクトのID認識結果を統合してIDを識別する手段と、
オブジェクトの位置とIDの識別結果とを対応付けて出力する手段とを具備したことを特徴とするオブジェクト識別装置。
前記オブジェクトの向きを推定する手段は、各オブジェクトのフレーム間での位置の変化に基づいてオブジェクトの向きを推定することを特徴とする請求項１に記載のオブジェクト識別装置。
オブジェクト上でのIDの位置に関する情報を取得する手段を更に具備し、
前記カメラを選定する手段は、
オブジェクトごとに、その向きおよびIDの位置に基づいてIDの指向方向を計算する手段と、
オブジェクトごとに、そのIDの指向方向に基づいてカメラの選定範囲を求める手段とを具備し、
前記選定範囲内に位置するカメラを選定することを特徴とする請求項１または２に記載のオブジェクト識別装置。
前記カメラを選定する手段は、過去の選定実績に基づいて各カメラに重み付けを行って選定を行うことを特徴とする請求項３に記載のオブジェクト識別装置。
前記IDを識別する手段は、オブジェクトごとに得られる複数のID認識結果の多数決に基づいて当該オブジェクトのIDを識別することを特徴とする請求項３または４に記載のオブジェクト識別装置。
前記IDを識別する手段は、ID認識時の認識確率に基づいてIDの各認識結果に重み付けを行って前記多数決に反映することを特徴とする請求項５に記載のオブジェクト識別装置。
前記IDを識別する手段は、
各オブジェクト画像を撮影したカメラに信頼度を設定する手段と、
前記信頼度に基づいてIDの各認識結果に重み付けを行う手段とを具備したことを特徴とする請求項５または６に記載のオブジェクト識別装置。
前記信頼度を設定する手段は、前記IDの指向方向により近い位置のカメラに対してより高い信頼度を設定することを特徴とする請求項７に記載のオブジェクト識別装置。
前記信頼度を設定する手段は、IDの識別結果に対する認識結果の正答確率がより高い履歴を有するカメラにより高い信頼度を設定することを特徴とする請求項７に記載のオブジェクト識別装置。
フレーム間での各オブジェクト間の距離に基づいて各オブジェクトを追跡する追跡手段をさらに具備し、
前記オブジェクトの向きを推定する手段は、前記オブジェクトの追跡結果に基づいて各オブジェクトの向きを推定することを特徴とする請求項１ないし９のいずれかに記載のオブジェクト識別装置。
前記追跡手段による追跡結果を前記IDの識別結果に統合する追跡結果統合手段を更に具備したことを特徴とする請求項１０に記載のオブジェクト識別装置。
過去フレームで抽出したオブジェクトのIDを今回フレームで識別できないと、過去フレームで抽出したオブジェクトの位置またはその近傍に前記IDを識別結果とするオブジェクトを割り当てる消失ID割当手段をさらに具備したことを特徴とする請求項１０または１１に記載のオブジェクト識別装置。
オブジェクトに付されたIDに基づいて各オブジェクトを識別するオブジェクト識別方法において、
オブジェクトを視点の異なる複数のカメラで撮影し、
各オブジェクトの位置を推定し、
各オブジェクトの向きを推定し、
オブジェクトごとに、その向きに基づいてID認識用のカメラを選定し、
前記選定した各カメラの画像からオブジェクト画像を抽出し、
前記オブジェクト画像上でID認識を実行し、
オブジェクトのID認識結果を統合してIDを識別し、
オブジェクトの位置とIDの識別結果とを対応付けて出力することを特徴とするオブジェクト識別方法。