JP4987629B2

JP4987629B2 - 映像検索システム及び映像検索装置

Info

Publication number: JP4987629B2
Application number: JP2007221399A
Authority: JP
Inventors: 美彦鈴木; 雄介高橋; 賢二馬場; 孝明榎原; 晴喜木下
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-08-28
Filing date: 2007-08-28
Publication date: 2012-07-25
Anticipated expiration: 2027-08-28
Also published as: JP2009055446A

Description

本発明は、複数のカメラにおいて撮影された映像データを検索する映像検索システム及び映像検索装置に関する。

近年、例えばカメラにより撮影された映像データ（以下、単に映像と表記）を例えばハードディスクドライブ（ＨＤＤ：Hard Disk Drive）のようなメディアに蓄積し、当該蓄積された映像を検索する映像検索システムが知られている。

このような映像検索システムにおいては、例えば店舗等にセキュリティー目的で設置された複数のカメラにより撮影された映像を検索する場合、異なるカメラにより撮影された同一対象物（例えば、同一人物）を、複数の映像間で対応付けて検索することが必要となる。

そこで、例えばシステム全体での自律的な移動体追跡を可能とし、また、複数のカメラに分散された情報の収集・管理を効率的に行うことができる技術（以下、先行技術と表記）が開示されている（例えば、特許文献１を参照）。この先行技術によれば、例えば特定の移動体の特徴量（例えば、色情報）に基づき、当該特徴量によって同定される移動体を探索することで、複数のビデオカメラ毎に分散された移動体追跡情報の統括的管理を可能とする。
特開２００４−７２６２８号公報

しかしながら、上記したような映像検索システムにおいては、例えば映像が時系列に流れていき、未来の時刻の映像を参照することができないリアルタイム映像を処理する方式が採用されている。このため、例えば映像が蓄積されている場合には特定の映像を処理する際に関連のある映像の全シーンを参照可能であるにもかかわらず、時系列的に処理することにより、検索性能の低下を招く場合がある。

また、上記した先行技術のように、複数のカメラにより撮影された映像を例えば色情報に基づいて検索する場合を想定する。この場合、例えばカメラが設置されている位置等に応じて光源の影響を受けた色情報が算出される。このため、映像を撮影したカメラによっては、例えば人が知覚する色とは異なる色を有する映像が検索される場合がある。また、カメラの特性により映像上で表現される色が異なる場合についても同様に、例えば人が知覚する色とは異なる色を有する映像が検索されることがある。

また、映像検索を実行する場合、ユーザがキーワードまたはサンプル画像等を検索条件として指定することで処理が実行されるのが一般的である。この場合、通常、ユーザは検索速度または検索精度に関する条件を指定することができない。このため、例えば映像検索システム内の仕様に依存した検索しか実行することができない。

本発明の目的は、複数のカメラにより撮影された映像を効率的に検索する映像検索システムを提供することにある。

本発明の１つの態様によれば、一定の範囲内に設置され、当該範囲内に存在する対象物を含む画像から構成される映像を撮影する複数のカメラと、前記複数のカメラによって撮影された映像を受信する受信手段と、前記受信された映像を格納する格納手段と、前記格納手段に格納された映像を構成する画像のうち、ユーザによって指定された検索対象物を含む画像を検索するための検索条件を入力する検索条件入力手段と、前記格納手段に格納された映像を構成する画像を解析する解析手段と、前記解析された画像に含まれる対象物を特徴付ける属性を示すメタデータを生成するメタデータ生成手段と、前記入力された検索条件及び前記生成されたメタデータに基づいて、前記検索対象物を含む画像を前記格納手段から検索する第１の検索手段と、前記第１の検索手段によって検索された画像の各々に含まれる前記検索対象物を特徴付ける属性を示すメタデータを収集する収集手段と、前記収集されたメタデータに基づいて、前記検索対象物を含む画像を前記格納手段から検索する第２の検索手段と、前記生成されたメタデータに基づいて、前記第２の検索手段によって検索された画像に含まれる前記検索対象物に対する隠蔽の発生を検知する隠蔽発生検知手段と、前記隠蔽の発生が検知された場合、当該隠蔽の発生が検知された画像に対して時系列的に前及び後の画像であって、前記第２の検索手段によって検索された画像に含まれる前記検索対象物に対する隠蔽の発生がない画像を検索する第３の検索手段と、前記第３の検索手段によって検索された前の画像から後の画像の間の画像を連続して前記ユーザに対して出力する出力手段とを具備することを特徴とする映像検索システムが提供される。

本発明によれば、複数のカメラにより撮影された映像を効率的に検索することを可能とする。

以下、図面を参照して、本発明の実施形態について説明する。

図１及び図２を参照して、本実施形態に係る映像検索システムの概略について説明する。図１は、本実施形態に係る映像検索システムの構成を示すブロック図である。図１に示すように、映像検索システムは、カメラ１、画像処理装置１０及び映像検索装置５０を含む。

カメラ１は、各種映像を撮影する機能を有する。ここで、図２は、図１に示すカメラ１が設置される例えば店舗フロアを示す図である。図２に示すように、カメラ１は、例えば店舗フロア２のような一定範囲内に複数設置される。また、カメラ１は、当該カメラ１の監視範囲３内において、当該監視範囲３内に存在する対象物（例えば、人）４を含む画像を撮影する。

本実施形態に係る映像検索システムにおいては、図２に示すような例えば店舗フロア２に設置されている複数のカメラ１間を移動（スルー）する対象物４に対する検索処理が実行される。

画像処理装置１０は、カメラ１の各々に接続されている。画像処理装置１０は、カメラ１によって撮影された映像データ（以下、単に映像と表記）を入力する。この映像は、例えば複数の画像データ（以下、単に画像と表記）により構成される。また、映像には、例えば音声データ等が含まれる。画像処理装置１０は、入力された映像を例えばネットワーク２０を介して、映像検索装置５０に対して送信する。

映像検索装置５０は、画像処理装置１０の各々と例えばネットワーク２０を介して接続されている。映像検索装置５０は、画像処理装置１０によって送信された映像を、ネットワーク２０を介して受信する。映像検索装置５０は、受信された映像を蓄積する。また、映像検索装置５０は、蓄積された映像から、例えば上記した複数のカメラ１間を移動（スルー）した特定の対象物を含む映像（を構成する画像）を検索する。

図３は、図１に示す画像処理装置１０の主として機能構成を示すブロック図である。なお、映像検索システムに含まれる複数の画像処理装置１０は同様の構成であるため、以下、１つの画像処理装置１０について説明する。図３に示すように、画像処理装置１０は、入力部１１、画像切り出し部１２、メタデータ生成部１３及び送信部１４を含む。

入力部１１は、画像処理装置１０に接続されているカメラ１によって撮影された映像（データ）を入力する。なお、この入力部１１によって撮影された映像には、対象物（例えば、人）４が含まれている（映っている）。

画像切り出し部１２は、入力部１１によって入力された映像を構成する画像において、当該画像に含まれる対象物４の領域（画像）を切り出す。

メタデータ生成部１３は、画像切り出し部１２によって切り出された画像に対して画像処理を行うことによりメタデータを生成する機能を有する。メタデータ生成部１３は、画像切り出し部１２によって切り出された画像を解析する。メタデータ生成部１３は、解析された画像に含まれる対象物４を特徴付ける属性を示すメタデータ（以下、対象物４に関するメタデータと表記）を生成する。この対象物４に関するメタデータには、例えば対象物４に関する色情報または輝度情報等が含まれる。メタデータ生成部５５によって生成されたメタデータは、当該メタデータの生成に用いられた画像に付与される。また、１つの対象物４に対して複数のメタデータが生成された場合には、当該複数のメタデータを１つに纏めて（コード化することで）情報パターンとして扱う。

ここで、メタデータ生成部１３によって生成されるメタデータの具体例について説明する。例えば解析された画像に含まれる対象物４が人である場合、メタデータ生成部１３によって生成されるメタデータには、例えば顔の特徴、髪の毛の色・髪型・髪の長さ・髪の編み方、頭の形、服の色・タイプ、靴のタイプ・色、鞄・紙袋等の持ち物の種類・色・形、体系、姿勢、身長または耳の形等が含まれる。

例えば解析された画像に含まれる対象物４が車の場合、メタデータ生成部１３によって生成されるメタデータには、色、車のタイプ、メーカーのエンブレム、ボディーの形状、タイヤの形状、ホイールのタイプ、ライトの形、ガラスの形またはエンジンの音等が含まれる。

例えば解析された画像に含まれる対象物４が動物の場合、メタデータ生成部１３によって生成されるメタデータには、顔の形、耳の形、体の色、毛の生え方、足の数、体の形または泣き声等が含まれる。

例えば解析された画像に含まれる対象物４が風景の場合、メタデータ生成部１３によって生成されるメタデータには、画像における色の配置パターン、空、海、川、土、雲、花、木または森の色・配置等が含まれる。

また、例えば解析された画像に含まれる対象物４が乗り物の場合、メタデータ生成部１３によって生成されるメタデータには、色、ボディーの形状、タイヤの数、ガラスの形、ハンドルの形またはマフラーの形等が含まれる。

送信部１４は、メタデータが付与された画像から構成される映像を、ネットワーク２０を介して映像検索装置５０に送信する。

図４は、図１に示す映像検索装置５０の主として機能構成を示すブロック図である。映像検索装置５０は、受信部５１、映像蓄積処理部５２、映像蓄積部５３、検索条件入力部５４、メタデータ生成部５５、検索処理部５６、検索結果出力部５７及び検索オプション設定部５８を含む。

受信部５１は、画像処理装置１０（に含まれる送信部１４）によって送信された映像（画像）を受信する。なお、受信部５１は、映像検索システムに含まれる複数の画像処理装置１０の各々から送信された映像を受信する。

映像蓄積処理部５２は、受信部５１によって受信された映像を映像蓄積部５３に蓄積（格納）する処理を実行する。このとき、映像蓄積処理部５２は、受信部５１によって受信された映像を、当該映像を撮影したカメラ１毎（当該映像を送信した画像処理装置１０毎）に映像蓄積部５３に蓄積する。また、映像蓄積処理部５２は、受信部５１によって受信された映像（画像）を時系列的に蓄積する。

検索条件入力部５４は、例えば映像検索装置５０を利用するユーザによって指定された対象物（以下、検索対象物と表記）４を含む画像を検索するための検索条件を入力する。また、この検索条件は、例えばリアルタイムに特定の対象物４を追跡する場合には、当該対象物４を指定して自動的に入力されてもよい。この検索条件には、例えば検索対象物４を特徴付ける属性を示す属性情報（メタデータ）またはサンプル画像等が含まれる。

メタデータ生成部５５は、映像蓄積部５３に蓄積された映像を構成する画像に対して画像処理を行うことによりメタデータを生成する機能を有する。メタデータ生成部５５は、映像蓄積部５３に蓄積された映像を構成する画像を解析する。メタデータ生成部５５は、解析された画像に含まれる対象物（例えば、人）４を特徴付ける属性を示すメタデータを生成する。このメタデータ生成部５５によって生成されたメタデータは、例えば当該メタデータの生成に用いられた画像に付与される。

なお、上記したように画像処理装置１０には、メタデータ生成部５５と同様の機能を有するメタデータ生成部１３が含まれる。本実施形態においては、例えば画像処理装置１０側で映像に事前にメタデータを付与しておく場合と、映像検索装置５０側でメタデータを生成して検索する場合が考えられる。このため、上記したように画像処理装置１０のメタデータ生成部１３によってメタデータが生成される構成でもよいし、映像検索装置５０のメタデータ生成部５５によってメタデータが生成される構成でもよい。

以下、本実施形態においては、映像検索装置５０のメタデータ生成部５５によってメタデータが生成され、映像蓄積部５３に対する検索処理が実行される場合について説明する。

検索処理部５６は、検索条件入力部５４によって入力された検索条件及びメタデータ生成部５５によって生成されたメタデータに基づいて、当該検索条件に合致する画像（映像）を検索する処理を実行する。つまり、検索処理部５６は、ユーザによって指定された検索対象物４を含む画像（映像）を映像蓄積部５３から検索する。

検索処理部５６は、検索された画像（映像）全体から、検索対象物４に関するメタデータを収集する。つまり、検索処理部５６は、検索された画像の各々に付与されている検索対象物４に関するメタデータを収集する。検索処理部５６は、収集されたメタデータに基づいて、検索対象物４が含まれる画像を検索する。すなわち、検索処理部５６は、収集されたメタデータ及びメタデータ生成部５５によって生成されたメタデータを比較することにより、ユーザによって指定された検索対象物４の同定（照合）処理を実行する。このように、検索された映像全体からメタデータを収集し、当該メタデータに基づいて検索処理を実行することにより検索性能を向上させる。

検索処理部５６は、検索された画像において、当該画像に含まれる検索対象物４に対する隠蔽（重なり）の発生を検知する。つまり、検索処理部５６は、検索された画像に含まれる検索対象物４が、当該画像に含まれる他の対象物と重なっていることを検知する。以下、検索対象物４に対する隠蔽が発生した画像を隠蔽発生画像と称する。検索処理部５６は、検索対象物４に関するメタデータに基づいて隠蔽の発生を検知する。

検索処理部５６は、検索対象物４に対する隠蔽の発生が検知された場合、時系列的に隠蔽発生画像の前後の画像であって、当該検索対象物４に対する隠蔽の発生がない画像を検索する。

検索処理部５６は、検索された画像（映像）を、検索条件入力部５４によって入力された検索条件に対する検索結果として検索結果出力部５７に渡す。

検索結果出力部５７は、検索処理部５６から渡された検索結果を、例えばユーザに対して出力する。また、検索結果出力部５７は、検索処理部５６によって検索された隠蔽発生画像の前後の画像の間の画像を連続して（つないで）例えばユーザに対して出力（表示）する。

検索オプション設定部５８は、例えばユーザの操作に応じて、映像蓄積部５３に蓄積された映像を構成する画像を検索する際の、当該検索に関する条件を設定（指定）する。この検索に関する条件には、例えば検索速度及び検索精度に関する条件が含まれる。この検索に関する条件が設定されることにより、例えば検索処理部５６による検索の検索速度を設定することができる。

次に、図５のフローチャートを参照して、上記した映像検索装置５０における検索処理の処理手順について説明する。なお、画像に含まれる対象物４に関するメタデータは、上記したように映像検索装置５０側（のメタデータ生成部５５）で生成されるものとして説明する。

まず、受信部５１は、画像処理装置１０の送信部１４によって送信された映像（データ）を受信する（ステップＳ１１）。

映像蓄積処理部５２は、受信部５１によって受信された映像を映像蓄積部５３に蓄積する（ステップＳ１２）。

検索条件入力部５４は、例えばユーザによって指定された対象物（検索対象物）４を含む画像を検索するための検索条件を入力する（ステップＳ１３）。この検索条件には、例えば検索対象物４に関するメタデータまたはサンプル画像等が含まれる。

検索条件入力部５４によって検索条件が入力されると、メタデータ生成部５５は、映像蓄積部５３に蓄積された映像を構成する画像に含まれる対象物４のメタデータを生成する（ステップＳ１４）。メタデータ生成部５５によって生成されたメタデータは、当該メタデータの生成に用いられた画像（対象物４が含まれる画像）に付与される。このメタデータ生成処理は、映像蓄積部５３に蓄積された映像を構成する画像の各々に対して実行される。

検索処理部５６は、検索条件入力部５４によって入力された検索条件及びメタデータ生成部５５によって生成されたメタデータに基づいて、検索対象物４が含まれる画像（映像）を検索する（ステップＳ１５）。

検索処理においては、例えば検索条件に含まれるメタデータ（特徴量）及びメタデータ生成部５５によって生成されたメタデータ（特徴量）に基づいて、画像（に含まれる対象物４）間の類似度演算が行われる。ここで、特徴量とは、メタデータを数値化したものである。換言すると、メタデータは、人間が言葉による扱いができる特徴量であり、当該特徴量をメタデータとして扱わず、数値としてのみ利用する場合は、特徴量という文言で表現される。検索処理部５６は、例えば演算された類似度に応じて、検索対象物４が含まれている画像を検索する。

次に、検索処理部５６は、検索された画像（映像）全体から、検索対象物４に関するメタデータを収集する（ステップＳ１４）。この検索対象物４に関するメタデータは、検索された画像（検索対象物４を含む画像）に付与されている。

検索処理部５６は、収集されたメタデータに基づいて、検索対象物４が含まれる画像（映像）を映像蓄積部５３から検索する（ステップＳ１７）。これにより、例えば検索条件に含まれる検索対象物４に関するメタデータ（属性情報）より多くの情報（メタデータ）を用いることで検索性能を向上できる。

次に、図６のフローチャートを参照して、上記した映像検索装置５０において検索された画像において隠蔽が発生した場合の処理手順について説明する。

まず、上記した図５のステップＳ１１〜ステップＳ１５の処理に相当するステップＳ２１〜ステップＳ２５の処理が実行される。

次に、検索処理部５６は、検索された画像に含まれる検索対象物４に対する隠蔽の発生を検知する（ステップＳ２６）。このとき、検索処理部５６は、検索された画像に付与されている検索対象物４に関するメタデータに基づいて、隠蔽の発生を検知する。検索処理部５６は、例えば隠蔽が発生するよりも前の時刻で得られる検索対象物４の全体画像（全身画像）と、検索された画像に含まれる検索対象物４の形状を比較することで隠蔽の発生を検知する。この検索対象物４の形状等は、メタデータ生成部５５によって生成された検索対象物４に関するメタデータに含まれる。また、検索処理部５６は、検索対象物４に関するメタデータに含まれる輝度情報または色情報に基づいて、隠蔽の発生を検知する。具体的には、例えば検索された画像の１つ前のフレーム（画像）に映っていた特定の色の服を着た人（検索対象物４）の一部のみが次のフレーム（つまり、検索された画像）で見えていたような場合には、検索対象物４に対する隠蔽の発生が検知される。

検索処理部５６は、検索対象物４に対する隠蔽の発生が検知された場合、当該隠蔽の発生が検知された画像（隠蔽発生画像）に対して時系列的に前後の画像（映像）を検索する（ステップＳ２７）。この場合、検索処理部５６は、検索対象物４が含まれる画像であって、当該検索対象物４に対する隠蔽が発生していない画像を検索する。

検索処理部５６は、検索された前後の画像に含まれる検索対象物４に関するメタデータを取得する（ステップＳ２８）。この前後の画像は、検索対象物４に対する隠蔽が発生していない画像であるため、より多くの検索対象物４に関するメタデータを取得することができる。

検索処理部５６は、取得された検索対象物４に関するメタデータに基づいて、当該検索対象物４が含まれる画像（映像）を映像蓄積部５３から検索する（ステップＳ２９）。

検索結果出力部５７は、検索された画像（映像）を、検索条件入力部５４によって入力された検索条件に対する検索結果としてユーザに対して出力する（ステップＳ３０）。また、検索結果出力部５７は、上記したステップＳ２７において検索された前後の画像の間の画像を連続した映像としてユーザに対して出力する。これにより、例えば隠蔽発生画像から検索対象物４の情報（メタデータ）を得ることができない場合でも、検索の連続性を確保し、検索性能を高めることができる。

次に、図７のフローチャートを参照して、検索オプションを設定する処理手順について説明する。

まず、検索オプション設定部５８は、例えばユーザの操作に応じて、映像蓄積部５３に蓄積された映像（を構成する画像）を検索する際の、当該検索に関する条件（検索オプション）を設定する（ステップＳ３１）。この検索オプションには、例えば検索速度または検索精度に関する条件が含まれる。

ここで、上記したような検索処理を実行する場合、検索すべきシーン（画像）により処理に使用する情報が異なる。更に、検索精度を高くしようとすると検索速度は低下する。そこで、上記した検索オプションでは、ユーザの操作に応じて、例えば検索処理において用いられる複数用意された特徴量（メタデータ）の組合せや参照する情報の順序が設定される。つまり、ユーザは、検索対象の指定、検索に用いる情報（メタデータ）の選択、組合せの指定及び検索精度の指定等を行うことができる。これにより、ユーザは、検索速度及び検索精度を個別に指定することができる。

検索オプション設定部５８により検索オプションが設定された場合には、検索処理部５６は、当該検索オプションに応じて検索処理を実行する（ステップＳ３２）。

上記したように本実施形態においては、例えば検索対象物４が含まれる画像（映像）を検索する場合、当該映像蓄積部５３に格納された映像全体から検索対象物４に関するメタデータを収集し、当該収集されたメタデータを用いて検索処理を行うことで、例えば検索条件入力部５４によって入力された検索条件に含まれる情報より多くの情報を用いて検索を行うことが可能となる。これにより、検索性能を向上させることができる。

また、本実施形態においては、映像蓄積部５３に対する検索処理において、例えば画像に含まれる検索対象物４が他の物（対象物）による一時的な隠蔽が発生し、ある瞬間の画像から検索対象物４に関するメタデータを得ることができない場合、当該検索対象物４の隠蔽が発生する前の時刻の画像（映像）または隠蔽が発生しなくなった後の時刻の画像（映像）を探索・処理することで、検索対象物の継続的な検索を実現できる。これにより、隠蔽が発生した画像（映像）に対して無理な検索を行うことなく、画像内の情報（メタデータ）を効率的に取得できる。また、前後の画像の間の画像を連続して出力することで、連続性を確保し、検索性能を向上させることができる。

また、本実施形態においては、ユーザが検索に関する条件（検索オプション）を指定することができるため、結果として、例えば倍速機能が実現される。これにより、ユーザの意図に応じた検索を実行することができる。

つまり、上記したように本実施形態においては、複数のカメラ１により撮影された画像（映像）を効率的に検索することが可能となる。

なお、蓄積映像だけでなくリアルタイム映像に対しても処理できる仕組みを導入することで、例えば店舗等に設置された複数のカメラ１間に映っている人を連続的に検索することも可能である。

［第１の変形例］
次に、図８を参照して、本実施形態の第１の変形例について説明する。本変形例に係る映像検索システムの構成は、前述した本実施形態の構成と同様であるため、図１〜図４を用いて説明する。

本変形例に係る映像検索装置５０に含まれる検索処理部５６は、例えば検索条件入力部５４によって入力された検索条件及びメタデータ生成部５５によって生成されたメタデータに基づいて、当該検索条件に合致する画像（映像）を検索する。つまり、検索処理部５６は、ユーザによって指定された検索対象物４を含む画像（映像）を映像蓄積部５３から検索する。

検索処理部５６は、検索された画像に含まれる検索対象物４に対する隠蔽（重なり）の発生を検知する。検索処理部５６は、例えば検索された画像に付与されている検索対象物４に関するメタデータに基づいて隠蔽の発生を検知する。

検索処理部５６は、検索対象物４に対する隠蔽の発生が検知された場合、当該隠蔽の発生が検知された画像（隠蔽発生画像）をスキップする。検索処理部５６は、映像蓄積部５３に蓄積された映像を構成する画像のうち、当該検索対象物４に対する隠蔽の発生がない画像を検索する。検索処理部５６は、検索された検索対象物４に対する隠蔽の発生がない（隠蔽の発生が検知されていない）画像に含まれる検索対象物４に関するメタデータを取得する。検索処理部５６は、取得された検索対象物４に関するメタデータに基づいて、検索対象物４が含まれる画像を検索する。つまり、検索処理部５６は、上記した検索対象物４の同定（照合）処理を実行する。

次に、図８のフローチャートを参照して、本変形例に係る映像検索装置５０の処理手順について説明する。

まず、前述した図６のステップＳ２１〜ステップＳ２６の処理に相当するステップＳ４１〜ステップＳ４６の処理が実行される。

次に、検索処理部５６は、検索対象物４に対する隠蔽の発生が検知された場合、検索対象物４に対する隠蔽の発生が検知された画像（隠蔽発生画像）をスキップする（ステップＳ４７）。

検索処理部５６は、隠蔽発生画像がスキップされると、検索対象物４に対する隠蔽の発生がない画像を検索する（ステップＳ４８）。検索処理部５６は、検索条件入力部５４によって入力された検索条件及びメタデータ生成部５５によって生成されたメタデータに基づいて、映像蓄積部５３から画像を検索する。なお、検索対象物４に対する隠蔽の発生がない画像とは、例えば隠蔽発生画像に対して時系列的に前または後の画像であって、当該検索対象物４の全体（全身）が見える画像である。

検索処理部５６は、検索された検索対象物４に対する隠蔽が発生していない画像に付加されている検索対象物４に関するメタデータを取得する（ステップＳ４９）。この場合、取得されたメタデータは隠蔽が発生していない検索対象物４に関するメタデータであるため、検索処理部５６は、例えば隠蔽発生画像に付与されている検索対象物４に関するメタデータと比べてより多くの情報（メタデータ）を取得できる。

検索処理部５６は、取得されたメタデータに基づいて、検索対象物４の同定処理を実行することで、当該検索対象物４を含む画像を検索する（ステップＳ５０）。

検索処理部５６によって検索された画像は、検索結果出力５７により、例えばユーザに対して出力される。

上記したように本変形例においては、検索処理において検索対象物４に対する隠蔽（重なり）の発生が検知された場合、当該隠蔽の発生が検知された画像（隠蔽発生画像）をスキップし、例えば当該検索対象物４に対する隠蔽の発生がない画像（例えば、隠蔽発生画像の前または後の検索対象物４の全体が見える画像）に付与されている検索対象物４に関するメタデータを取得する。本変形例においては、隠蔽の発生がない画像から取得されたメタデータを基に、検索対象物４の同定が実行される。

このように、本変形例においては、検索対象物４に対する隠蔽（重なり）が少ない画像を積極的に探索してから検索を行うことで、例えば無駄な映像のスキップに基づく高速検索を実現することが可能となる。したがって、本変形例においては、例えば複数のカメラ１により撮影された映像（画像）を効率的に検索することが可能となる。

［第２の変形例］
次に、図９を参照して、本実施形態の第２の変形例について説明する。図９は、本変形例に係る画像処理装置１００の主として機能構成を示すブロック図である。なお、前述した図３と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図３と異なる部分について主に述べる。

図９に示すように、画像処理装置１００は、補正情報格納部１０１及びカラー画像処理部１０２を含む。

補正情報格納部１０１には、例えば複数のカメラ１の各々の特性によって生じる色（色彩）の個体差を補正するための補正情報が予め格納されている。この補正情報は、例えば複数のカメラ１毎に基準となる色のチェッカーボードを予め撮影し、この撮影されたチェッカーボード（の画像）を用いて生成される。

カラー画像処理部１０２は、画像切り出し部１２によって切り出された画像に対して、カラー画像処理を実行する。カラー画像処理部１０２は、例えば画像切り出し部１２によって切り出された画像（対象物４）に対する光源の影響を除去する処理を実行する。

カラー画像処理部１０２は、上記した補正情報を生成する機能を有する。カラー画像処理部１０２は、生成された補正情報を補正情報格納部１４に格納する。

カラー画像処理部１０２は、補正情報格納部１４に格納されている補正情報に基づいて、画像切り出し部１２によって切り出された画像に生じる個体差を吸収（補正）する色キャリブレーションを行う。

次に、図１０のフローチャートを参照して、上記したカラー画像処理の処理手順について説明する。

まず、画像処理装置１００の入力部１１は、当該画像処理装置１００に接続されているカメラ１によって撮影された映像（データ）を入力する（ステップＳ５１）。

画像切り出し部１２は、入力部１１によって入力された映像を構成する画像において、当該画像に含まれる対象物４の領域（画像）を切り出す（ステップＳ５２）。

ここで、例えば複数のカメラ１の各々によって撮影される範囲を移動（スルー）することによって当該複数のカメラ１の各々によって撮影された映像に含まれる特定の対象物（例えば、人）４を検索する際に用いられるメタデータとしては、例えば当該特定の対象物４の服または髪の毛の色のような色情報が重要となる。しかしながら、例えば複数のカメラ１の各々によって撮影された映像（画像）を単純に画像処理した場合には、当該カメラ１が設置されている場所等に応じて光源の影響を受けた色情報が算出される。これにより、例えば同一の対象物（同一人物）の服または髪の毛の色が周囲の環境、時間帯、カメラ間で異なる色として算出され、色情報による対象物４の照合性能が低下する場合がある。

そこで、カラー画像処理部１０２は、画像切り出し部１２によって切り出された画像に対して、カラー画像処理を実行する（ステップＳ５３）。カラー画像処理部１０２は、例えば画像切り出し部１２によって切り出された画像（対象物４）に対する光源の影響を除去する。

このカラー画像処理部１０２によってカラー画像処理された画像によって構成される映像は、例えば送信部１４により映像検索装置５０に対して送信される。送信部１４によって送信された映像は、映像検索装置５０の映像蓄積部５３に蓄積される。

次に、映像検索装置５０において、映像蓄積部５３に蓄積された映像に対する検索処理が実行されるものとする。この場合、映像検索装置５０のメタデータ生成部５５は、映像蓄積部５３に蓄積された映像を構成する画像を解析することによって、当該画像に含まれる対象物４の色情報を抽出する（ステップＳ５４）。ここで、処理される画像は、上記したようにカラー画像処理されているため、抽出される色情報は、例えば光源の影響を受けておらず、物体固有の色が算出される。

メタデータ生成部５５は、抽出された色情報を含む対象物４に関するメタデータを生成する（ステップＳ５５）。ここで、上記したように例えば特定の対象物４に関するメタデータ（属性情報）としては服または髪の毛の色等が挙げられる。この場合、例えば１つの特定の対象物４に関するメタデータが複数生成された場合には、当該複数のメタデータを１つに纏めて（コード化することで）情報パターンとして扱う。

なお、本変形例においても、前述した本実施形態と同様に、映像検索装置５０のメタデータ生成部５５によってメタデータが生成されるものとして説明したが、前述したように画像処理装置１００のメタデータ生成部１３によって生成される構成であっても構わない。

検索処理部５６は、メタデータ生成部５５によって生成されたメタデータに基づいて、例えば複数のカメラ１の各々によって撮影された画像における対象物（検索対象物）４の同定処理を実行する（ステップＳ５６）。

次に、図１１のフローチャートを参照して、上記した色キャリブレーションの処理手順について説明する。

複数のカメラ１の各々は、例えば予め用意されている基準となる色のチェッカーボードを撮像（撮影）する（ステップＳ６１）。この複数のカメラ１の各々によって撮像されたチェッカーボードの画像（映像）は、画像処理装置１００の入力部１１によって入力される。

カラー画像処理部１０２は、入力部１１によって入力されたチェッカーボードの画像に対して、カラー画像処理を実行する。これにより、カラー画像処理部１０２は、チェッカーボードの色（情報）を算出する（ステップＳ６２）。ここで算出された色情報は、チェッカーボードの固有色情報である。なお、算出されたチェッカーボードの固有色情報は、補正情報として補正情報格納部１０１に格納される。

ここで、例えば複数のカメラ１の各々によって撮影された映像が入力部１１により入力された場合を想定する。この場合、カラー画像処理部１０２は、補正情報格納部１０１に格納されている補正情報に基づいて、入力部１１によって入力された映像（を構成する画像）に対して色キャリブレーション（補正処理）を実行する（ステップＳ６３）。これにより、複数のカメラ１の各々によって撮影された映像の各色を、固有色のレベルで同じ色に補正する。

カラー画像処理部１０２は、複数のカメラ１間において、色キャリブレーションが実行された映像（補正後の映像）の色を比較する（ステップＳ６４）。

カラー画像処理部１０２は、比較した結果、複数のカメラ１間における色の誤差（色誤差）が例えば予め定められた範囲（一定範囲）内に収まることを確認する（ステップＳ６５）。カラー画像処理部１０２によって複数のカメラ１間における色誤差が一定範囲内に収まることが確認されると、色キャリブレーション処理は終了される。

上記したように本変形例においては、複数のカメラ１の各々によって撮影された映像（画像）に対する光源の影響を除去するカラー画像処理を行い、当該画像に含まれる対象物４固有の色を算出し、本色をメタデータとして例えばそれぞれ異なるカメラ１によって撮影された映像（画像）に含まれる当該対象物（検索対象物）４の同定（照合）処理を実行することで、検索性能を高めることが可能となる。

また、本変形例においては、例えば基準となる色のチェッカーボードを用いて予め生成された補正情報に基づいて、複数のカメラ１毎の特性によって生じる色の個体差を吸収する色キャリブレーションが実行される。このように、複数のカメラ１の各々によって撮影された映像を色キャリブレーションが実行された映像に変換して、例えば特定の対象物（検索対象物）４の検索を実施することで検索性能を向上させることができる。

また、本変形例においては、例えば対象物４に関する複数のメタデータ（属性情報）を１つに纏めてコード化して情報パターンとして扱うことで、当該対象物４に対する検索処理においてメタデータ同士の比較計算が可能となり、複数のカメラ１の各々によって撮影された映像（画像）においても同一人物の同定（照合）が容易となる。

このように、本変形例においては、例えば複数のカメラ１により撮影された映像（画像）を効率的に検索することが可能となる。

［第３の変形例］
次に、図１２を参照して、本実施形態の第３の変形例について説明する。図１２は、本変形例に係る画像処理装置１１０の主として機能構成を示すブロック図である。なお、前述した図９と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図９と異なる部分について述べる。

図１２に示すように、画像処理装置１１０は、合成画像生成部１１１を含む。合成画像生成部１１１は、画像切り出し部１２によって切り出された対象物４の画像を複数収集する。この場合、合成画像生成部１１１は、例えば時系列的に対象物４の画像を収集する。この収集された複数の画像の各々には、例えばそれぞれ異なる視点からの同一の対象物４が含まれる。また、この収集された複数の画像は、同一のカメラ１によって撮影された画像である。

合成画像生成部１１１は、収集された複数の画像に基づいて、当該画像に含まれる対象物４を多視点から表す合成画像を生成する。

次に、図１３のフローチャートを参照して、本変形例に係る映像検索システムの処理手順について説明する。なお、画像処理装置１１０に含まれるカラー画像処理部１０２の処理（例えば、前述した図１０のステップＳ５３の処理）については前述した第２の変形例と同様であるので、ここでは便宜的に省略する。

まず、前述した図１０に示すステップＳ５１及びステップＳ５２の処理に相当するステップＳ７１及びステップＳ７２の処理が実行される。

ここで、本変形例においては、例えば店舗内に設置された複数のカメラ１によって撮影された映像（画像）を検索する場合、当該複数のカメラ１間で特定の対象物（例えば、人）４を追跡検索する場合を想定している。この場合、カメラ１と対象物４との位置関係により、対象物は異なる見え方をする。よって、単純に複数のカメラ１間で対象物４が同一であるかどうか照合（同定）することは困難である。つまり、複数のカメラ１において、同じ見え方をする映像（画像）が得られるとは限らないため、異なる見え方をする対象物４同士の照合が必要となる。

そこで、合成画像生成部１１１は、画像切り出し部１２によって切り出された対象物４が含まれる画像を複数収集する（ステップＳ７３）。合成画像生成部１１１は、複数のカメラ１のうち、例えば同一のカメラ１によって撮影された画像を時系列的に収集する。つまり、合成画像生成部１１１は、例えばそれぞれ異なる視点からの同一の対象物４の画像を収集する。

次に、合成画像生成部１１１は、収集された複数の画像に基づいて、当該画像に含まれる対象物４を多視点から表す合成画像を生成する（ステップＳ７４）。例えば収集された画像に含まれる対象物４が人である場合には、合成画像生成部１１１は、多視点から見たときの人モデル画像（合成画像）を生成する。また、この合成画像は、例えば収集された複数の画像を撮影したカメラ１毎に生成される。

この合成画像生成部１１１によって生成された合成画像は、例えば送信部１４により映像検索装置５０に対して送信される。

映像検索装置５０のメタデータ生成部５５は、画像処理装置１１０の送信部１４によって送信された合成画像を解析する。メタデータ生成部５５は、解析結果に基づいて、例えばカメラ１毎に生成された合成画像によって表される対象物４に関するメタデータを生成する（ステップＳ７５）。

なお、本変形例においても、前述した本実施形態と同様に、映像検索装置５０のメタデータ生成部５５によってメタデータが生成されるものとして説明したが、前述したように画像処理装置１１０のメタデータ生成部１３によって生成される構成であっても構わない。

検索処理部５６は、メタデータ生成部５５によって生成されたメタデータに基づいて、例えば複数のカメラ１の各々によって撮影された画像における対象物（検索対象物）４の同定処理を実行する（ステップＳ７６）。

ここで、複数のカメラ１が第１のカメラ１及び当該第１のカメラ１とは異なる第２のカメラ１を含むものとする。また、例えば第１のカメラ１によって撮影された画像（映像）から生成された合成画像を第１の合成画像、例えば第２のカメラ１によって撮影された画像（映像）から生成された合成画像を第２の合成画像とする。この場合、検索処理部５６は、第１の合成画像を解析することによって生成されたメタデータ（第１のメタデータ）及び第２の合成画像を解析することによって生成されたメタデータ（第２のメタデータ）を比較することにより、当該第１の合成画像によって表される対象物４及び当該第２の合成画像によって表される対象物４を照合する。これにより、例えば第１のカメラ１及び第２のカメラ１の各々によって異なる見え方をする対象物４（の映像）が撮影された場合であっても、当該第１のカメラ１及び第２のカメラ１によって撮影された映像に含まれる対象物４同士の照合をすることが可能となる。

上記したように本変形例においては、各カメラ１の時系列画像から当該画像に含まれる対象物４を多視点から表す合成画像（例えば、人画像）を生成しておき、異なるカメラ１によって撮影された画像（映像）において比較が可能な画像（に含まれる対象物４）を照合する。このため、例えば複数のカメラ１において異なる見え方をする映像が撮影された場合であっても、当該映像に含まれる対象物４同士を照合することができる。よって本変形例においては、複数のカメラ１に渡って撮影された対象物４の継続検索性能を向上させることが可能となる。これにより、本変形例においては、複数のカメラ１により撮影された画像（映像）を効率的に検索することが可能となる。

なお、本願発明は、上記実施形態またはその各変形例そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態またはその各変形例に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態またはその各変形例に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態またはその各変形例に亘る構成要素を適宜組合せてもよい。

本発明の実施形態に係る映像検索システムの構成を示すブロック図。図１に示すカメラ１が設置される店舗フロアを示す図。図１に示す画像処理装置１０の主として機能構成を示すブロック図。図１に示す映像検索装置５０の主として機能構成を示すブロック図。映像検索装置５０における検索処理の処理手順を示すフローチャート。映像検索装置５０において検索された画像において隠蔽が発生した場合の処理手順を示すフローチャート。検索オプションを設定する処理手順を示すフローチャート。本実施形態の第１の変形例に係る映像検索装置５０の処理手順を示すフローチャート。本実施形態の第２の変形例に係る画像処理装置１００の主として機能構成を示すブロック図。カラー画像処理の処理手順を示すフローチャート。色キャリブレーションの処理手順を示すフローチャート。本実施形態の第３の変形例に係る画像処理装置１１０の主として機能構成を示すブロック図。本変形例に係る映像検索システムの処理手順を示すフローチャート。

符号の説明

１…カメラ、２…店舗フロア、３…監視範囲、４…対象物、１０，１００，１１０…画像処理装置、１１…入力部、１２…画像切り出し部、１３…メタデータ生成部、１４…送信部、２０…ネットワーク、５０…映像検索装置、５１…受信部、５２…映像蓄積処理部、５３…映像蓄積部（格納手段）、５４…検索条件入力部、５５…メタデータ生成部、５６…検索処理部、５７…検索結果出力部、５８…検索オプション設定部、１０１…補正情報格納部、１０２…カラー画像処理部、１１１…合成画像生成部。

Claims

一定の範囲内に設置され、当該範囲内に存在する対象物を含む画像から構成される映像を撮影する複数のカメラと、
前記複数のカメラによって撮影された映像を受信する受信手段と、
前記受信された映像を格納する格納手段と、
前記格納手段に格納された映像を構成する画像のうち、ユーザによって指定された検索対象物を含む画像を検索するための検索条件を入力する検索条件入力手段と、
前記格納手段に格納された映像を構成する画像を解析する解析手段と、
前記解析された画像に含まれる対象物を特徴付ける属性を示すメタデータを生成するメタデータ生成手段と、
前記入力された検索条件及び前記生成されたメタデータに基づいて、前記検索対象物を含む画像を前記格納手段から検索する第１の検索手段と、
前記第１の検索手段によって検索された画像の各々に含まれる前記検索対象物を特徴付ける属性を示すメタデータを収集する収集手段と、
前記収集されたメタデータに基づいて、前記検索対象物を含む画像を前記格納手段から検索する第２の検索手段と、
前記生成されたメタデータに基づいて、前記第２の検索手段によって検索された画像に含まれる前記検索対象物に対する隠蔽の発生を検知する隠蔽発生検知手段と、
前記隠蔽の発生が検知された場合、当該隠蔽の発生が検知された画像に対して時系列的に前及び後の画像であって、前記第２の検索手段によって検索された画像に含まれる前記検索対象物に対する隠蔽の発生がない画像を検索する第３の検索手段と、
前記第３の検索手段によって検索された前の画像から後の画像の間の画像を連続して前記ユーザに対して出力する出力手段と
を具備することを特徴とする映像検索システム。
一定の範囲内に設置された複数のカメラによって撮影された当該範囲内に存在する対象物を含む画像から構成される映像を受信する受信手段と、
前記受信された映像を格納する格納手段と、
前記格納手段に格納された映像を構成する画像のうち、ユーザによって指定された検索対象物を含む画像を検索するための検索条件を入力する検索条件入力手段と、
前記格納手段に格納された映像を構成する画像を解析する解析手段と、
前記解析された画像に含まれる対象物を特徴付ける属性を示すメタデータを生成するメタデータ生成手段と、
前記入力された検索条件及び前記生成されたメタデータに基づいて、前記検索対象物を含む画像を前記格納手段から検索する第１の検索手段と、
前記第１の検索手段によって検索された画像の各々に含まれる前記検索対象物を特徴付ける属性を示すメタデータを収集する収集手段と、
前記収集されたメタデータに基づいて、前記検索対象物を含む画像を前記格納手段から検索する第２の検索手段と、
前記生成されたメタデータに基づいて、前記第２の検索手段によって検索された画像に含まれる前記検索対象物に対する隠蔽の発生を検知する隠蔽発生検知手段と、
前記隠蔽の発生が検知された場合、当該隠蔽の発生が検知された画像に対して時系列的に前及び後の画像であって、前記第２の検索手段によって検索された画像に含まれる前記検索対象物に対する隠蔽の発生がない画像を検索する第３の検索手段と、
前記第３の検索手段によって検索された前の画像から後の画像の間の画像を連続して前記ユーザに対して出力する出力手段と
を具備することを特徴とする映像検索装置。