JP7085812B2

JP7085812B2 - 画像処理装置およびその制御方法

Info

Publication number: JP7085812B2
Application number: JP2017150083A
Authority: JP
Inventors: 洋東條; 光太郎矢野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-08-02
Filing date: 2017-08-02
Publication date: 2022-06-17
Anticipated expiration: 2037-08-02
Also published as: US20190042869A1; JP2019029935A; US10762372B2; EP3438875A1

Description

本発明は、複数の映像から被写体を同定する技術に関するものである。

従来から、カメラ映像から人物の領域を検出し、人物領域から服装の色や輝度といった属性に関する情報（属性情報）を取得し、属性情報の比較により映像中の人物が同一であるかどうかなどを判定する（すなわち同定する）技術が開示されている。例えば、非特許文献１では、複数のカメラの映像中の人物から属性情報を抽出しておき、カメラ間の被写体の属性情報同士を比較することにより、同一人物かどうかを判定している。同定できたカメラ間の人物を関連付けることで、複数のカメラに跨る人物の追跡が実現できる。また、複数のカメラで撮像された映像と属性情報を関連付けて記憶部に蓄積しておくことで、過去に撮影された映像からユーザが指定した人物を検索することも可能になる。

Y. Cai and M. Pietik: "Person Re-identification Based on Global Color Context", The Tenth International Workshop on Visual Surveillance (2010)

しかしながら、カメラで撮影を行う場合、照明条件や機種の違いなどにより、同一の被写体であっても撮影された映像において色や輝度などの属性情報が異なることがある。そのため、複数のカメラで撮影を行う場合や異なる条件で撮影を行う場合において、被写体を同定する精度が低下するという問題があった。

本発明はこのような問題を鑑みてなされたものであり、複数の映像に関してより高い精度で被写体の同定を可能とする技術を提供することを目的とする。

上述の問題点を解決するため、本発明に係る画像処理装置は以下の構成を備える。すなわち、画像処理装置は、
画像における物体の色、輝度、高さ、幅の少なくとも何れか１つを表す値である属性値であって、第１の撮像画像及び第２の撮像画像に共通して含まれる背景物体について、前記第１の撮像画像に含まれる前記背景物体の前記属性値と、前記第２の撮像画像に含まれる前記背景物体の前記属性値と、を抽出する第１の抽出手段と、
前記第１の撮像画像から検出された第１の物体について前記第１の撮像画像から前記第１の物体の前記属性値と、前記第２の撮像画像から検出された第２の物体について前記第２の撮像画像から前記第２の物体の前記属性値と、を抽出する第２の抽出手段と、
前記第１の撮像画像に含まれる前記背景物体の前記属性値と前記第１の物体の前記属性値との相対距離を示す第１の指標と、前記第２の撮像画像に含まれる前記背景物体の前記属性値と前記第２の物体の前記属性値との相対距離を示す第２の指標と、を導出する導出手段と、
前記第１の指標と、前記第２の指標と、の距離が所定の閾値未満である場合に、前記第１の物体と前記第２の物体とが同一物体であると判定する検出手段と、
を有する。

本発明によれば、複数の撮像映像に関してより高い精度で被写体の同定を可能とする技術を提供することができる。

第１実施形態に係る画像処理システムの構成を示す図である。被写体同定装置のハードウェア構成を示す図である。被写体同定装置の機能構成を示す図である。属性指定部の詳細構成を示す図である。相対指標算出部の詳細構成を示す図である。被写体同定部の詳細構成を示す図である。共通背景物の属性を指定するフローチャートである。共通背景物の属性を指定する際の表示の例を示す図である。共通背景物の領域を指定する際の表示の例を示す図である。相対指標の算出処理を示すフローチャートである。被写体の同定処理を示すフローチャートである。同定処理の処理結果の表示の例を示す図である。

以下に、図面を参照して、この発明の実施の形態の一例を詳しく説明する。なお、以下の実施の形態はあくまで例示であり、本発明の範囲を限定する趣旨のものではない。

（第１実施形態）
本発明に係る画像処理装置の第１実施形態として、カメラにより取得された映像から被写体を同定する画像処理システムを例に挙げて以下に説明する。

＜システム構成＞
図１は、第１実施形態に係る画像処理システムの構成を示す図である。画像処理システムは、ネットワーク１０４を介して相互に通信可能に接続された撮像装置（カメラ）１０１～１０３及び被写体同定装置１０５を含んでいる。

撮像装置１０１～１０３は、それぞれ、撮像レンズ、および、ＣＣＤ、ＣＭＯＳなどの撮像センサから構成され映像を撮像する装置である。撮像装置１０１～１０３は、撮像した映像をネットワーク１０４を介して被写体同定装置１０５に送信する。被写体同定装置１０５は、ネットワークを介して受信した映像に基づいて、各撮像装置の撮像範囲に出現した被写体を同定する装置である。

図２は、被写体同定装置１０５のハードウェア構成を示す図である。ＣＰＵ２０１は、ＲＯＭ２０２やＲＡＭ２０３に格納されたプログラムやデータに従って命令を実行する。ＲＯＭ２０２は、不揮発性メモリであり、以下で説明する各種機能を実現するプログラムやその他の制御に必要なプログラムやデータを格納する。ＲＡＭ２０３は、揮発性メモリであり、フレーム画像データやパターン判別結果などの一時的なデータを記憶する。

２次記憶装置２０４は、ハードディスクドライブやフラッシュメモリーなどの書き換え可能な記憶装置であり、画像情報や画像処理プログラムや、各種設定内容などを記憶する。ＣＰＵ２０１は、これらの情報をＲＡＭ２０３に転送してプログラムを実行する。

入力装置２０５は、キーボードやマウスなどであり、ユーザからの入力を可能とするものである。表示装置２０６は、ブラウン管ＣＲＴや液晶ディスプレイなどであり、ユーザに対して処理結果などを表示するものである。ネットワークＩ／Ｆ２０７は、インターネットやイントラネットなどのネットワークと接続を行うモデムやＬＡＮなどである。バス２０８は、これらを接続して相互にデータの入出力を行う。

図３は、被写体同定装置１０５の機能構成を示す図である。ここでは、被写体同定装置１０５の各機能部は、オペレーティングシステムの上で動作するアプリケーションとして実装されることを想定する。映像取得部３０１は、撮像装置１０１～１０３で撮影された撮像映像をネットワーク１０４を介して受信し、処理対象の映像として取得する。

属性指定部３０２は、カメラ間に共通する背景物（以下、共通背景物と呼ぶ）の属性を指定する。共通背景物としては、例えば、床、壁、ドア、棚などが挙げられる。また、属性としては、色、輝度、高さ、幅などが挙げられる。属性記憶部３０３は、ＲＡＭ２０３や２次記憶装置２０４から構成され、属性指定部３０２で指定された共通背景物の属性をカメラ毎に記憶する。属性指定部３０２の詳細については図４、図７を参照して後述する。

相対指標算出部３０４は、映像取得部３０１で取得された撮像映像中の被写体から抽出した属性情報と共通背景物から抽出した属性情報より相対指標を導出する。相対指標記憶部３０５は、ＲＡＭ２０３や２次記憶装置２０４から構成され、相対指標算出部３０４で算出された相対指標を、算出したカメラ及び被写体に対応付けて記憶するものである。相対指標算出部３０４の詳細については図５、図１０を参照して後述する。被写体同定部３０６は、相対指標に基づいてカメラ間の被写体の同定を行う。被写体同定部３０６の詳細については図６、図１１を参照して後述する。

図４は、属性指定部３０２の詳細構成を示す図である。なお、データの流れを明瞭にするため、図３に示した一部の機能部を再掲している。具体的には、映像取得部４０５は、図３の映像取得部３０１と同じ機能部である。属性記憶部４０６は、図３の属性記憶部３０３と同じ機能部である。

カメラ選択部４０１は、共通背景物を指定する対象となるカメラを、入力装置２０５を介したユーザの指示などにより選択する。カメラレイアウト情報記憶部４０２は、カメラレイアウト情報（地図上のカメラの配置情報）を記憶する。カメラレイアウト情報記憶部４０２は、ＲＡＭ２０３や２次記憶装置２０４から構成される。

属性指定部４０３は、共通背景物の属性を、入力装置２０５を介したユーザの指示などにより指定する。領域指定部４０４は、カメラ選択部４０１で選択された各カメラの画面内の共通背景物の画像領域を、入力装置２０５を介したユーザ指示などを受け付けて指定する。

図５は、相対指標算出部３０４の詳細構成を示す図である。なお、データの流れを明瞭にするため、図３に示した一部の機能部を再掲している。具体的には、映像取得部５０１は、図３の映像取得部３０１と同じ機能部である。属性記憶部５０５は、図３の属性記憶部３０３と同じ機能部である。相対指標記憶部５０８は、図３の相対指標記憶部３０５と同じ機能部である。

被写体検出部５０２は、映像取得部５０１で取得した映像から被写体の画像領域を検出する。被写体追尾部５０３は、被写体検出部５０２で検出された現在のフレーム画像における被写体領域を、先行するフレーム画像において検出された被写体の画像領域と関連付けることにより、検出された所定の被写体を映像中で追尾する。

属性量抽出部５０４は、映像から被写体の属性量を抽出する。具体的には、被写体検出部５０２で検出された被写体の画像領域から属性情報を抽出し、数値として示される属性量（属性値）を算出する。属性情報には、被写体の平均色・最頻色・平均輝度・最頻輝度・高さ・幅などといった情報がある。なお、各カメラで取得する属性は、後述の属性記憶部５０５を参照することにより決定される。

属性量抽出部５０６は、映像から共通背景物の属性量を抽出する。具体的には、被写体の画面内の位置に応じて共通背景物の属性情報を抽出し、数値として示される属性量（属性値）を算出する。各カメラで取得する属性の種別は、属性量抽出部５０４と同様に、属性記憶部５０５を参照することにより決定される。

相対指標算出部５０７は、カメラ映像内の被写体毎に、被写体の属性量と当該被写体近傍の共通背景物の属性量とに基づいて相対的な指標（以下、相対指標と呼ぶ）を導出する。

図６は、被写体同定部３０６の詳細構成を示す図である。なお、データの流れを明瞭にするため、図３に示した一部の機能部を再掲している。具体的には、属性記憶部６０３は、図３の属性記憶部３０３と同じ機能部である。相対指標記憶部６０４は、図３の相対指標記憶部３０５と同じ機能部である。

対象指定部６０１は、被写体同定処理を行う対象となる被写体を、入力装置２０５を介したユーザからの指示などにより指定する。距離算出部６０２は、対象指定部６０１で指定された被写体の相対指標と、現在のカメラ映像中の被写体の相対指標との距離を算出する。

同定判定部６０５は、算出した相対指標間距離に基づいて被写体を同定する。出力部６０６は、表示装置２０６から構成され、被写体の同定結果を表示し、ユーザに提示する。

＜システムの動作＞
まず、被写体同定システムを運用する前のカメラ設置時などに行われる処理について説明する。具体的には、複数のカメラ間に共通する背景物の属性を指定する処理である。

図７は、共通背景物の属性を指定するフローチャートである。

ステップＳ７０１では、カメラ選択部４０１は、カメラレイアウト情報記憶部４０２からカメラレイアウト情報を読み込む。ここでカメラレイアウト情報とは、監視対象となる所与の領域（エリア）において複数のカメラがどのように配置されているかを示す情報である。具体的には、カメラＩＤ、エリア（地図）上の座標、撮影方向を含む。

ステップＳ７０２では、カメラ選択部４０１は、読み込んだカメラレイアウト情報を、ユーザに対して表示する。図８は、共通背景物の属性を指定する際の表示の例を示す図である。

表示画面８０１は、カメラレイアウトを表示する画面８０２と、後述の属性種別リストを表示する画面８０３とを含む。具体的には、画面８０２にはカメラが配置されているエリアの地図が表示されている。ここでは、部屋（矩形８０４～８０７）と廊下（それ以外の領域）が表示されている。アイコン８０８～８１４はカメラを表している。各カメラの位置・向きはカメラレイアウト情報を基に表現されている。例えば、アイコン８０８は、カメラが部屋８０４の右上の隅に設置されており左下方向へ向いていることを示している（上方が北の場合、部屋８０４の北東の角に設置され南西方向へ向いている）。

ステップＳ７０３では、カメラ選択部４０１は、ユーザからの入力により背景物の属性を指定する対象となるカメラの選択を行う。ユーザは、入力装置２０５であるマウスの操作によってカーソル８１６を移動させ、各カメラアイコンを指定できる。

表示画面８１７は、４つのカメラが選択された状態の表示例を示している。矩形８０４～８０７で示される部屋の床が全て同じ色であることがわかっているときは、部屋内に設置された４台のカメラ（アイコン８０８～８１１）を選択する。アイコンが黒で塗りつぶされることで、当該アイコンに対応するカメラが選択された状態であることを示している。

なお、カメラレイアウト情報は電子化され記憶部に記憶されているものとして説明したが、これに限るものではない。例えば、入力装置２０５を介してユーザから受け付けるよう構成してもよい。例えば、ユーザは、手持ちの紙の図面を参照し、記載されているカメラＩＤのみを入力するようにしてもよい。以上のように選択されたカメラＩＤはＲＡＭ２０３に一時記憶される。

ステップＳ７０４では、属性指定部４０３は、ユーザからの入力により共通背景物の属性を指定する。画面８０３は共通背景物の属性の指定ウィンドウになっており、予めシステムに記憶されている共通背景物の属性を読み込み、リスト８１５として表示している。表示画面８１７では、カーソル８１６を介して「床の色」を指定した（太線８１８で囲まれている）状態を示している。これは、Ｓ７０３で選択された全てのカメラに対して「床の色」という属性が指示されることを示している。選択されたカメラＩＤに予め設定されている属性ＩＤを関連付け、改めてＲＡＭ２０３に一時記憶する。

ステップＳ７０５では、領域指定部４０４は、ユーザからの入力により、画面内の共通背景物の画像領域の指定を受付けるために、対象となるカメラを選択する。ユーザは、表示画面８１７で黒塗り表示された４つのアイコン（Ｓ７０３で選択されたカメラ）の中から、カーソル８１６を使って１つ選択する。

ステップＳ７０６では、映像取得部４０５は、Ｓ７０５で選択されたアイコンに関連付けられたカメラＩＤを基に、ネットワーク１０４を介して当該のカメラの映像を取得する。取得されたカメラ映像９０２は、表示装置２０６の画面に表示される。図９は、共通背景物の領域を指定する際の表示の例を示す図である。

ステップＳ７０７では、領域指定部４０４は、画面内の共通背景物の領域指定をユーザから受け付ける。図９では点線の四角形９０３が指定領域を示しており、当該指定領域は”床”を指定する様子を示している。なお、ここでは領域を多角形として指定したが、床が均一な色であれば、床の領域の１点で指定する方法であってもよい。この場合は、指定された点から連続する近傍の画素を探索し、色が類似する画素の塊を床領域として使用すればよい。

ステップＳ７０８では、領域指定部４０４は、カメラ毎の共通背景物の属性情報として属性記憶部４０６に記憶する。具体的には、Ｓ７０７で指定された領域情報と対応するカメラのカメラＩＤ、及び、背景物体の属性ＩＤを関連付けて記憶する。

ステップＳ７０９では、Ｓ７０３で指定された全カメラについて、Ｓ７０５～Ｓ７０８の処理を完了したかを判断し、完了していない場合はＳ７０５に戻る。ステップＳ７１０では、共通背景物の指定処理が完了したか否かを判断する。例えば、共通背景物として指定する他の属性が存在するか否かを判断し、存在する場合はＳ７０３に戻る。共通背景物の指定処理が完了した場合は処理を終了する。

以上の処理によって、複数のカメラに共通する背景物について、関連するカメラ、背景物の属性、画面内の背景物領域の対応関係が記憶される。

次に、被写体同定システムの運用時に行われる処理について説明する。具体的には、相対指標を算出する処理（図１０）及び被写体を同定する処理（図１１）である。

図１０は、相対指標の算出処理を示すフローチャートである。なお、図１０はひとつのカメラに対する処理を示したものであるが、同様の処理はネットワーク上の全てのカメラ（ここでは、撮像装置１０１～１０３）に対して行われるものとする。

ステップＳ１００１では、映像取得部５０１は、現在の対象となるカメラの映像をフレーム画像の単位で取得する。なお、各撮像装置は撮像装置に固有なカメラＩＤを保有しており、フレーム画像には時間情報としてフレームＩＤを付与される。

ステップＳ１００２では、被写体検出部５０２は、フレーム画像内から被写体の検出を行う。被写体検出の具体的な方法としては、予め背景のみが撮像された映像より背景モデルを生成しておき、これと入力映像との差分により検出する背景差分による方法がある。例えば、「Stauffer C, Grimson W. E. L. Adaptive background mixture models for real-time tracking. In Proceedings. 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (Cat. No PR00149). IEEE Comput. Soc. Part Vol. 2, 1999」で開示される手法が利用可能である。

また、被写体検出の他の手法としては、例えば米国特許出願公開２００７／０２３７３８７号に記載される手法が利用可能である。これは、所定の大きさの検出ウィンドウを入力画像上で走査させ、検出ウィンドウ内の画像を切り出したパターン画像に対し人物であるか否かの２クラス判別を行う。この判別においては、アダブースト（AdaBoost）を使って多くの弱判別器を有効に組み合わせて判別器を構成し、判別精度を向上させるとよい。また、この判別器を直列に繋ぎ、カスケード型の検出器を構成するようにしている。弱判別器はＨＯＧ（Histograms of Oriented Gradients）特徴量で構成されている。そして、カスケード型の検出器は、まず前段の単純な判別器を使って明らかに被写体でないパターンの候補をその場で除去する。それ以外の候補に対してのみ、より高い識別性能を持つ後段の複雑な判別器を使って人物かどうかの判別を行う。なお、本実施例における説明では、被写体は人物であるとしているが、他の被写体（例えば、車両）についても適用可能である。

上述の方法によって、映像から被写体領域を検出することができる。被写体領域は、例えば、フレーム画像の左上を原点とし、人物を囲む矩形の左上と右下の２点のｘ座標、ｙ座標で表す。更に、これに加えて、人物に対応する画素を”１”、それ以外の画素を”０”で表したマスク画像を付与してもよい。マスク画像を利用することで、矩形で表現することによって含まれてしまう人物以外の画素と人物の画素とを区別することができる。

ステップＳ１００３では、被写体追尾部５０３は、現在フレームで検出された被写体が、前フレームで検出されたどの被写体と対応するかを求める追尾処理を行う。追尾処理には様々な手法があるが、例えば前フレームに含まれる被写体領域の中心位置と現在フレームに含まれる被写体領域の中心位置が最短のものを対応付ける方法がある。この他にも前フレームの被写体領域を照合パターンとしたパターンマッチングによる手法など、フレーム間の被写体を対応付けることができればどのような手法であっても良い。そして、フレーム間で対応付けられた被写体には同じ被写体ＩＤが付与される。

ステップＳ１００４では、属性量抽出部５０４は、属性記憶部５０５を参照し、処理対象のカメラに関連付けられた背景物領域情報を基に、被写体が背景物領域の内部、或いは近傍に存在しているかどうかを判定する。これは例えば、被写体領域の重心が、背景物領域内または所定の距離以内にあるかどうかで判断できる。或いは、被写体領域と背景物領域の重なりがあるかどうかで判断する方法もある。

本判定は、例えば、部屋の中で色温度が異なる複数の照明が使用されている場合に有効である。ドアの色が属性として指定されていた場合、被写体がドア付近に立っている時は、ドアと同じ照明条件下にあると想定できる。ドアの色を基に被写体の色の相対指標を算出するためには、同じ照明条件であることが条件となるため、本判定を行う。

ステップＳ１００５では、属性量抽出部５０４は、Ｓ１００４で被写体が背景物領域の内部または近傍にあると判定された時は、被写体領域から、カメラ毎の共通背景物の属性情報に指定された属性の属性量を抽出する。

ステップＳ１００６では、属性量抽出部５０６は、被写体領域の近傍にある背景物領域から、カメラ毎の共通背景物の属性情報に指定された属性の属性量を抽出する。ここで被写体領域の近傍とは、例えば、被写体領域を示す矩形の下端から下方向に所定の距離にある位置から所定の大きさの矩形として定義できる。下端では背景物領域がからはみ出す場合は、上端・右端・左端から所定の距離離れた矩形を利用すればよい。また、スーパーピクセルとして知られている予め画像全体を各画素の輝度・色が近い物同士でまとめた小領域に分割し、被写体領域に最も近い小領域を使用するようにしてもよい。

なお、背景物が床である場合は、被写体の下端に常に存在すると想定できる。この場合は、常に被写体の下端の近傍から共通背景物の属性量を抽出するようしておけばよい。また、背景物として床のみを利用するのであれば、Ｓ７０７の領域指定処理（領域指定部４０４）、及び、Ｓ１００４の判定処理を省略しても構わない。

また、本実施例で共通背景物の属性を背景物領域全体からではなく、被写体領域の近傍から取得するのは、前述したように場所に応じて照明環境が異なるなど、抽出できる属性が一定でない場合を考慮するためである。このような状況を考慮する必要がなければ、常に背景物領域全体から取得するようにしても構わない。

また、被写体を検出するたびに背景物の属性量を取得するのは、例えば、屋外で昼から夜になるなど、時間に応じた照明の変化に対応するためである。もちろん、屋内で常に照明条件が一定な場合や、棚の高さのように時間的な変化が起こらない場合は、毎回取得する必要はない。例えば、カメラ設置時などに予め取得し、カメラ毎の共通背景物の属性情報と関連付けて記憶しておく構成にしても構わない。

ステップＳ１００７では、相対指標算出部５０７は、被写体属性量と共通背景物属性量から相対指標を算出する。共通背景物の属性情報を基準として被写体の属性情報を相対的に表現した値が相対指標である。例として、属性として床の色が指定されている場合で説明する。ここでは各画素がＲＧＢの３チャンネルで規定され、各チャンネルが８ビット値（０～２５５）で表現され、属性量は所定領域の平均色で表現されているとする。

ここで、床の色が（Ｒ，Ｇ，Ｂ）＝（１２５，２００，１００）、被写体の色が（Ｒ，Ｇ，Ｂ）＝（１３５，１８０，１５０）であるとする。相対指標として床の色を基準として差分値で表現すると、（Ｒ，Ｇ，Ｂ）＝（＋１０，－２０，＋５０）となる。一方、他のカメラで撮像されたときに、例えばＲチャンネルが強調されて写るときは床の色が（Ｒ，Ｇ，Ｂ）＝（１７５，２００，１００）などとなる。ただし、被写体の色も同様にＲチャンネルが強調されるので（Ｒ，Ｇ，Ｂ）＝（１８５，１８０，１５０）となり、相対指標は（Ｒ，Ｇ，Ｂ）＝（＋１０，－２０，＋５０）となるため、変化しない。なお、ここでは各チャンネルの値の範囲が０～２５５であるので相対指標は－２５５～＋２５５となる。ただし、他の属性の値の範囲は異なるのが一般的であるので、最大値である２５５で正規化する（値の範囲が－１～＋１となるようにする）。これにより、後述する被写体同定処理において、複数の属性に対応する相対指標を組み合わせた判定が可能になる。

また、上述の説明では差分値を相対指標として用いたが、被写体属性量の共通背景物属性量に対する相対的な値であれば良く、他の値を相対指標として用いることも可能である。例えば、被写体の色の共通背景物の色に対する比を相対指標として用いてもよい。上述の差分値の場合と同様に、床の色が（Ｒ，Ｇ，Ｂ）＝（１２５，２００，１００）、被写体の色が（Ｒ，Ｇ，Ｂ）＝（１３５，１８０，１５０）であるとする。このとき、比を用いた相対指標は、（Ｒ，Ｇ，Ｂ）＝（１３５／１２５，１８０／２００，１５０／１００）＝（１．０８，０．９，１．５）と表現することが出来る。また、他のカメラで撮像されたときに、床の色が（Ｒ，Ｇ，Ｂ）＝（１７５，２００，１００）、被写体の色が（Ｒ，Ｇ，Ｂ）＝（１８５，１８０，１５０）であるとする。このとき、比を用いた相対指標は、（Ｒ，Ｇ，Ｂ）＝（１８５／１７５，１８０／２００，１５０／１００）＝（１．０６，０．９，１．５）となる。すなわち、属性値である色（Ｒの値）は大きく変化しているものの、相対指標の変化はわずかな量（Ｒで０．０２）にとどまる。

また、例えば共通背景物として棚の高さが指定されている場合を説明する。属性量はフレーム画像中の座標間の距離で表現されているとする。フレーム画像中の距離はカメラの画角や撮影角度などによって変化する。しかし、被写体の高さも、同一のカメラ内であれば同じように変化するため、相対指標で示せば、カメラ間では同一の値になる。

以上のように相対指標を用いるとカメラ間で照明条件が異なるなどの理由により、被写体の属性量が変化する場合であっても、同一の被写体から常に一定の値を得ることができる。従って、予めカメラ間で輝度や色の厳密なキャリブレーションを行ったり、フレーム画像中の位置と実空間での位置を対応付けたりする作業を行っておく必要もない。

ステップＳ１００８では、相対指標算出部５０７は、相対指標記憶部５０８に記憶されている相対指標を今回計算した相対指標に更新する。相対指標が初めて計算されたときは、相対指標記憶部５０８にカメラＩＤ、被写体ＩＤ、属性ＩＤと関連付けて今回の相対指標を相対指標情報として記憶する。

次フレームで計算したときに同じカメラＩＤ、被写体ＩＤ、属性ＩＤを持つ相対指標があった場合は、今回計算された相対指標の値と重み平均を取るなどして更新を行う。これはフレーム単位に取得した相対指標はノイズの影響を受けることがあるので、過去に取得した相対指標に徐々に反映することで安定した相対指標を得るためである。もちろんこの目的のためならば、複数フレーム分の相対指標を一時記憶しておいて最頻値を取るなど、他の手法を用いても良い。

ステップＳ１００９では、現在対象としているカメラに対して指定された全ての背景物属性について、Ｓ１００４～Ｓ１００８の処理を完了したかを判断し、完了していない場合はＳ１００４に戻る。なお、同じ被写体に複数の背景物属性の相対指標値が算出された時は、相対指標情報中の同一の（カメラＩＤと）被写体ＩＤに関連付けて複数記憶される。

ステップＳ１０１０では、現在のフレーム画面中の全ての被写体について、Ｓ１００４～Ｓ１００９の処理を完了したかを判断し、完了していない場合はＳ１００４に戻る。なお、画面内に複数の被写体から相対指標値が算出されたときは、相対指標情報中の同一のカメラＩＤと関連付けて複数記憶される。

以上の処理により、各カメラで撮像された複数の被写体のそれぞれについて、相対指標が算出され記憶されることになる。

図１１は、被写体の同定処理を示すフローチャートである。同定処理は、上述の算出処理により算出された相対指標を用いて、被写体の同定を行う処理である。

ステップＳ１１０１では、対象指定部６０１は、被写体同定処理を行う対象の被写体を、ユーザからの指示により指定する。ユーザからの指定は例えば、カメラ映像を表示装置２０６に表示し、入力装置２０５のマウスなどを使って指示をする。そして、指示された被写体ＩＤを基に相対指標記憶部６０４中の相対指標情報から対象被写体の属性ＩＤ、相対指標値を読み込みＲＡＭ２０３に一時記憶する。

次に、距離算出部６０２は、対象被写体が指定された以外のカメラについて同定処理（Ｓ１１０２～Ｓ１１０７）を行う。なお、対象被写体を指定した直後は、まだ、指定を行ったカメラ内に映っている可能性が高いので、対象被写体がカメラの撮影範囲から出た後から同定処理を行うようにしても構わない。なお、Ｓ１１０２～Ｓ１１０６はカメラ単位に行われる処理である。

ステップＳ１１０２では、距離算出部６０２は、属性記憶部６０３を参照して、対象被写体が指定されたカメラとそれ以外の現在着目しているカメラとの２つのカメラ間に共通する背景物属性を特定する。例えば、対象被写体が指定されたカメラ（カメラＩＤ＝１）、当該カメラの共通背景物属性が壁の色（種別ＩＤ＝１）、床の色（種別ＩＤ＝２）、ドアの色（種別ＩＤ＝４）であったとする。また、現在着目するカメラ（カメラＩＤ＝２）は、共通背景物属性が床の色（種別ＩＤ＝２）、ドアの色（種別ＩＤ＝４）であったとする。種別ＩＤが共通する床の色（種別ＩＤ＝２）、ドアの色（種別ＩＤ＝４）の２つが共通の背景物属性と特定できる。

ステップＳ１１０３では、距離算出部６０２は、対象被写体と対象被写体が指定された以外のカメラ中の被写体との相対指標間距離を算出する。Ｓ１１０２で述べた例では２カメラ間に共通する背景物属性の種別は床の色（種別ＩＤ＝２）、ドアの色（種別ＩＤ＝４）の２つであったので、それぞれの相対指標から距離を算出する。距離の算出方法として、例えば以下の方法がある。各属性について相対指標の差分の絶対値を求め、全属性の差分値の総和を、共通する背景物属性の数で割り算する。共通する背景物属性の数で割るのは、他の２カメラ間では共通する背景物属性が異なるためである。これにより、どの組み合わせのカメラ間で算出された相対指標距離も一定の値の範囲となり、比較が容易になる。

ステップＳ１１０４では、同定判定部６０５は、相対指標間距離が所定の閾値未満であるか否かを判定する。所定の閾値未満であればＳ１１０５に進み、所定の閾値以上であればＳ１１０６に進む。

ステップＳ１１０５では、同定判定部６０５は、対象被写体との相対指標間距離が所定の閾値未満である被写体を同じ被写体と同定し、出力部６０６は、当該同定結果をユーザに対して表示する。

図１２は、同定処理の処理結果の表示の例を示す図である。画面１２０１と画面１２０２は、それぞれ、カメラＩＤが”１”と”２”に対応する画面であり、カメラＩＤ表示１２０３、１２０４がそれぞれ重畳表示されている。

画面１２０１は、フレームＩＤが１０００の時の映像を例示的に示しており、当該映像には被写体１２０５が含まれている。画面１２０１の下部にはフレームＩＤ表示１２０６が表示されている。また、画面１２０２は、フレームＩＤが１３００の時の映像を例示的に示しており、当該映像には被写体１２０７が含まれている。画面１２０２の下部にはフレームＩＤ表示１２０８が表示されている。

被写体１２０５と被写体１２０７とが同一被写体であると同定されたとき、例えば、被写体ＩＤ表示１２０９、１２１０のように同一の被写体ＩＤが付加的に表示される。あるいは、同じ色のついた矩形１２１１、１２１２で表示してもよい。同一の被写体がどのカメラ映像のどこに含まれているかをユーザが認識できる方法であれば任意の表示方法が利用可能である。

ステップＳ１１０６では、現在着目としているカメラの映像中に含まれる全ての被写体について、Ｓ１１０２～Ｓ１１０５の処理を完了したかを判断し、完了していない場合はＳ１１０２に戻る。ステップＳ１１０７では、処理すべき全てのカメラについて、Ｓ１１０２～Ｓ１１０６の処理を完了したかを判断し、完了していない場合はＳ１１０２に戻る。

以上説明したとおり第１実施形態によれば、背景物属性を基準とした被写体属性の相対的な指標（相対指標）を用いて被写体の同定処理を行う。この構成により、複数のカメラ間における撮影条件（照明、カメラ機種、画角など）の違いによる影響が低減され、精度の高い被写体同定を行うことが可能となる。

なお、上述の説明では被写体として「人物」を指定しているが、「車両」など他の被写体にも適用可能である。また、上述の説明では、撮像機器、被写体同定装置を２つの機器に処理を分散する構成としたが、任意の構成が利用可能である。例えば、撮像のみを撮像機器で行い、映像をネットワーク経由でＰＣに送信し、被写体の検出以降の処理をＰＣで行うように構成しても良い。また、上述の説明では、複数の撮像装置により得られた複数の映像を対象として被写体を同定する形態について説明したが、１台の撮像装置による異なる時刻に得られた複数の映像を対象として被写体の同定を行う形態にも適用可能である。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０１～１０３撮像装置；１０４ネットワーク；１０５被写体同定装置；３０１映像取得部；３０２属性指定部；３０３属性記憶部；３０４相対指標算出部；３０５相対指標記憶部；３０６被写体同定部

Claims

画像における物体の色、輝度、高さ、幅の少なくとも何れか１つを表す値である属性値であって、第１の撮像画像及び第２の撮像画像に共通して含まれる背景物体について、前記第１の撮像画像に含まれる前記背景物体の前記属性値と、前記第２の撮像画像に含まれる前記背景物体の前記属性値と、を抽出する第１の抽出手段と、
前記第１の撮像画像から検出された第１の物体について前記第１の撮像画像から前記第１の物体の前記属性値と、前記第２の撮像画像から検出された第２の物体について前記第２の撮像画像から前記第２の物体の前記属性値と、を抽出する第２の抽出手段と、
前記第１の撮像画像に含まれる前記背景物体の前記属性値と前記第１の物体の前記属性値との相対距離を示す第１の指標と、前記第２の撮像画像に含まれる前記背景物体の前記属性値と前記第２の物体の前記属性値との相対距離を示す第２の指標と、を導出する導出手段と、
前記第１の指標と、前記第２の指標と、の距離が所定の閾値未満である場合に、前記第１の物体と前記第２の物体とが同一物体であると判定する検出手段と、
を有することを特徴とする画像処理装置。
前記第１の撮像画像及び前記第２の撮像画像は、１台の撮像装置により異なる時刻に得られた撮像画像である
ことを特徴とする請求項１に記載の画像処理装置。
前記第１の撮像画像及び前記第２の撮像画像は、異なる撮像装置により得られた撮像画像である
ことを特徴とする請求項１又は２に記載の画像処理装置。
前記第１の撮像画像及び前記第２の撮像画像は、撮像装置によって撮像された映像に含まれるフレームであって、
前記第２の抽出手段は、前記映像のうち、前記第１の物体または前記第２の物体が前記背景物体の内部又は近傍にあるフレームから、前記第１の物体または前記第２の物体の属性値を抽出する
ことを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
前記第１の抽出手段は、前記第１の撮像画像及び前記第２の撮像画像において、前記第１の物体または前記第２の物体の近傍の領域である前記背景物体を含む撮像画像から前記属性値を抽出する
ことを特徴とする請求項４に記載の画像処理装置。
前記第１の撮像画像及び前記第２の撮像画像における前記背景物体の指定を受け付ける受付手段を更に有する
ことを特徴とする請求項１乃至５の何れか１項に記載の画像処理装置。
所与の領域を撮像する複数の撮像装置から、前記第１の撮像画像及び前記第２の撮像画像を撮像する撮像装置を選択する第１の選択手段と、
前記属性値が複数種類ある場合、前記背景物体の属性値を選択する第２の選択手段と、
を更に有し、
前記受付手段は、前記第１の選択手段で選択した撮像装置それぞれで撮像された撮像画像に対して前記第２の選択手段で選択された前記属性値を抽出する対象となる前記背景物体の指定を受け付ける
ことを特徴とする請求項６に記載の画像処理装置。
画像における物体の色、輝度、高さ、幅の少なくとも何れか１つを表す値である属性値であって、第１の撮像画像及び第２の撮像画像に共通して含まれる背景物体について、前記第１の撮像画像に含まれる前記背景物体の前記属性値と、前記第２の撮像画像に含まれる前記背景物体の前記属性値と、を抽出する第１の抽出工程と、
前記第１の撮像画像から検出された第１の物体について前記第１の撮像画像から前記第１の物体の前記属性値と、前記第２の撮像画像から検出された第２の物体について前記第２の撮像画像から前記第２の物体の前記属性値と、を抽出する第２の抽出工程と、
前記第１の撮像画像に含まれる前記背景物体の前記属性値と前記第１の物体の前記属性値との相対距離を示す第１の指標と、前記第２の撮像画像に含まれる前記背景物体の前記属性値と前記第２の物体の前記属性値との相対距離を示す第２の指標と、を導出する導出工程と、
前記第１の指標と、前記第２の指標と、の距離が所定の閾値未満である場合に、前記第１の物体と前記第２の物体とが同一物体であると判定する検出工程と、
を含むことを特徴とする画像処理装置の制御方法。
コンピュータを、請求項１乃至７の何れか１項に記載の画像処理装置の各手段として機能させるためのプログラム。