JP2021064870A

JP2021064870A - 情報処理装置、情報処理システム、情報処理方法およびプログラム

Info

Publication number: JP2021064870A
Application number: JP2019188340A
Authority: JP
Inventors: 鈴木　裕; Yutaka Suzuki; 裕鈴木
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2021-04-22
Also published as: US20210110165A1; US11501534B2

Abstract

【課題】複数の撮像装置のそれぞれにより撮影された複数の映像を迅速に確認できるようにする。【解決手段】情報処理装置は、複数の撮像装置のそれぞれで撮影された複数の映像を取得する取得手段と、前記取得手段により取得された前記複数の映像のそれぞれから、それぞれ物体の軌跡を示す１以上の物体情報を抽出する抽出手段と、前記抽出手段により抽出された１以上の物体情報を１つの背景画像上に集約してなる要約映像を生成する生成手段と、を有する。【選択図】図４

Description

本発明は、情報処理装置、情報処理システム、情報処理方法およびプログラムに関する。

近年、長時間にわたって録画した映像の利用が進んでいる。例えば、店舗や道路などに設置したネットワークカメラによって撮影された映像は、遠隔からの監視用途、防犯対策用途、店舗などの集客状況の分析のためのマーケティング用途など、各種の用途で用いられる。映像を後で利用するために、ＤＶＲ(Digital Video Recorder)やＮＶＲ(Network Video Recorder)などの録画装置に映像を記録することも行われる。映像の中に含まれている人物や車などの物体のカウントや、ユーザが映像内に引いたラインを通過する物体の検知などを行える映像解析システムも知られている。

しかし、長時間にわたって録画すると、映像内に長時間にわたって動きや変化のない時間帯が含まれることも多くなる。そうすると、録画映像を確認するために多くの時間が必要になり、見逃しなどの問題が発生してしまう。
特許文献１には、元の映像では異なる時間に表示されていた動く対象物を同時に表示することにより、元の映像を短時間に要約する技術が開示されている。これによれば、録画映像内の動くもののみを短時間で確認できるので、対象物を見逃してしまう可能性を低減することができる。

特許第４９７２０９５号

ところで、ホテルの各階に撮像装置が設置されている場合など、複数の撮像装置のそれぞれにより撮影された複数の映像の確認が必要な場合がある。そのような場合、特許文献１に記載の技術では１台分ずつ要約映像を確認することになるため、要約映像を用いても確認完了までに時間がかかってしまう。
本発明はこのような課題に鑑みてなされたものであり、その目的は、複数の撮像装置のそれぞれにより撮影された複数の映像を迅速に確認できるようにすることにある。

本発明の１つの態様による情報処理装置は、映像の中で検知された対象物の出現順序を変更することにより、要約映像を生成する情報処理装置において、複数の撮像装置のそれぞれで撮影された複数の映像を取得する取得手段と、前記取得手段により取得された前記複数の映像のそれぞれから、それぞれ物体の軌跡を示す１以上の物体情報を抽出する抽出手段と、前記抽出手段により抽出された１以上の物体情報を１つの背景画像上に集約してなる要約映像を生成する生成手段と、を有する。

本発明によれば、複数の撮像装置のそれぞれにより撮影された複数の映像を迅速に確認できるようになる。

本発明の第１の実施形態による要約映像生成システムの構成図である。要約映像生成システムの使用例を示すイメージ図である。端末のハードウェア構成の一例を示す図である。図３に示したＣＰＵによって実現される端末の機能を示す機能ブロック図である。背景画像抽出部により抽出された背景画像の例を示す図である。本発明の第１の実施形態による端末の処理を示すフローチャートである。（ａ）〜（ｃ）はそれぞれ、図６の処理を行った結果として生成される要約映像の例を示す図である。重なり領域を説明する図である。（ａ）（ｂ）はそれぞれ、図６の処理の例を示す図である。要約映像における全物体情報配列図を示す図である。本発明の第２の実施形態による端末の処理を示すフローチャートである。左側の図は、図８に示した元映像をまとめて表示する要約映像を示す図であり、右側の図は、図８に示した元映像の単独での要約映像を示す図である。左側の図は、図１０と同じ全物体情報配列図を示す図であり、右側の図は、図１２右側の図に示した要約映像における全物体情報配列図を示す図である。

以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。

［第１の実施形態］
図１は、本発明の第１の実施形態による要約映像生成システム１のシステム構成図である。図１に示すように、要約映像生成システム１は、撮像装置１０１〜１０３と、端末１０５と、ストレージ１０６とがネットワーク（ＩＰネットワーク網）１０４を介して接続された構成を有している。撮像装置１０１〜１０３は、例えば、ネットワークカメラである。端末１０５は所定の情報を処理する装置であるので、情報処理装置と称してもよい。
撮像装置１０１〜１０３は、ホテルや電車などの天井などに設置され、継続的に撮影を行うことによって、長時間の映像（音声データを含む）を取得する装置である。撮像装置１０１〜１０３はそれぞれ、撮像して得た解析処理の対象となるオリジナルの映像（以下、「元映像」と称する）を、ネットワーク１０４経由で端末１０５に送信する。

端末１０５は、撮像装置１０１〜１０３からの元映像や各種情報を表示するとともに、撮像装置１０１〜１０３を遠隔操作するための装置である。端末１０５は、例えば、パーソナルコンピュータである。パーソナルコンピュータは、汎用コンピュータの一例であり、以下の記載においてＰＣと称される場合がある。端末１０５は、ネットワーク１０４を介して撮像装置１０１〜１０３から元映像を受信し、表示する機能を有する。また、端末１０５は、撮像装置１０１〜１０３に対して各種コマンドを発行する機能を有する。
ストレージ１０６は、撮像装置１０１〜１０３が撮影した元映像や各種設定値などを格納する記憶装置である。ストレージ１０６は、上述したＤＶＲやＮＶＲなどの録画装置であってもよい。また、ストレージ１０６は、撮像装置１０１〜１０３からの映像以外に、図示しない外部装置からの取得画像なども格納していてもよい。ここでいう外部装置には、他の端末の他、ＳＤ(Secure Digital)メモリカードやＤＶＤ(Digital Versatile Disc)などの可搬記憶媒体などが含まれる。
なお、図１には、３つの撮像装置１０１〜１０３と、１つの端末１０５、１つのストレージ１０６を図示しているが、これらの数に特に制限はない。また、端末１０５とストレージ１０６とは、ネットワーク１０４経由ではなく、ＵＳＢ(Universal Serial Bus)接続などの物理的な接続によって接続されていてもよい。さらに、ストレージ１０６は端末１０５に内蔵されてもよい。

図２は、要約映像生成システム１の使用例を示すイメージ図である。図２の例では、撮像装置１０１〜１０３はそれぞれ、同一のホテル２０１の１Ｆ〜３Ｆの各廊下に設置されている。図示した映像２０２〜２０４はそれぞれ、撮像装置１０１〜１０３により撮影された元映像を示す。図２から理解されるように、元映像２０２〜２０４に映り込んでいる背景は、照明や装飾などの微妙な違いはあるものの、概ね共通している。
なお、図２にはホテルの例を示しているが、このように各撮像装置で撮影された元映像の背景が似たものになるシーンはホテルに限ったことではない。一例を挙げると、電車の各車両に設置される複数の撮像装置においても、同様の元映像が撮影される。

図３は、端末１０５のハードウェア構成の一例を示す図である。図３に示すように、端末１０５は、ＣＰＵ(Central Processing Unit)３０１と、入力部３０２と、表示部３０３と、メモリ３０４と、デジタルインターフェース部（Ｉ／Ｆ）３０５と、通信端子３０６とを有して構成される。
ＣＰＵ３０１は、端末１０５の各構成要素を統括的に制御する中央処理装置である。また、ＣＰＵ３０１は、メモリ３０４に記憶されたプログラムを実行する。ＣＰＵ３０１は、ハードウェアを用いて制御を行うこととしてもよい。

メモリ３０４は、ＣＰＵ３０１が実行するプログラムの格納領域、プログラム実行中のワーク領域、データの格納領域として使用される記憶装置である。
入力部３０２は、ユーザによる入力操作を受け付ける機能部であり、ボタン、十字キ―、タッチパネル、マウスなどの各種入力装置を含み得る。
入力部３０２が受け付ける入力操作には、撮像装置１０１〜１０３に対する各種コマンドの送信指示の入力操作が含まれる。入力部３０２は、この入力操作を受け付けると、ＣＰＵ３０１にその旨を通知する。ＣＰＵ３０１は、この通知に応じて、撮像装置１０１〜１０３に対する命令などを生成する。その後、ＣＰＵ３０１は、Ｉ／Ｆ３０５に指示し、生成した命令を撮像装置１０１〜１０３などに送信させる。
また、入力部３０２は、ＣＰＵ３０１がメモリ３０４に記憶されたプログラムを実行することにより生成されるユーザへの問い合わせメッセージ等に対するユーザの応答の入力を受け付ける処理も行う。

表示部３０３は、ＣＰＵ３０１の処理結果を表示する機能部である。具体的には、液晶表示装置、プラズマディスプレイ表示装置、ブラウン管などの陰極線管表示装置（ＣＲＴ）などの表示装置であってよい。ＣＰＵ３０１がユーザへの問い合わせメッセージを生成した場合、表示部３０３は、当該メッセージを表示することにより当該メッセージをユーザに伝達する役割を果たす。
Ｉ／Ｆ３０５は、ＣＰＵ３０１の指示を受け、通信端子３０６経由で、撮像装置１０１〜１０３にコマンド等を送信する機能部である。Ｉ／Ｆ３０５は、通信端子３０６経由で、撮像装置１０１〜１０３から、コマンドに対するレスポンスや、ストリーミング配信された元映像を受信する処理も行う。Ｉ／Ｆ３０５により受信された元映像は、ＣＰＵ３０１に供給される。ＣＰＵ３０１は、Ｉ／Ｆ３０５から供給された元映像を復号し且つ伸長し、表示部３０３に供給する。表示部３０３は、ＣＰＵ３０１から供給された元映像を表示する。
通信端子３０６は、ＬＡＮケーブルが接続されるＬＡＮ端子などによって構成される。以上、本実施形態における端末１０５のハードウェア構成について説明したが、図３に示すハードウェア構成は、本実施形態における端末１０５の好適な例を説明したものであり、ハードウェア構成は図３の構成に限定されない。例えば、音声入力部や音声出力部を備えるなど、本発明の要旨の範囲内で、種々の変形及び変更が可能である。

図４は、図３に示したＣＰＵ３０１によって実現される端末１０５の機能を示す機能ブロック図である。以下、この図４を参照しながら、本実施形態による要約映像生成のための端末１０５の機能を詳細に説明する。なお、図４には要約映像生成に関わる機能ブロックを中心として記載しており、端末１０５のその他の機能に関しては、図示した構成に限定されない。
図４に示すように、端末１０５は機能的に、映像処理部４０１と、制御部４１０と、演算部４１１とを有して構成される。映像処理部４０１は、入力映像から要約映像を生成するまでの処理を行う機能部である。映像処理部４０１は、映像取得部４０２、背景画像抽出部４０３、物体抽出部４０４、付加データ生成部４０５、第１の記憶部４０６、配列処理部４０７、要約生成部４０８、および第２の記憶部４０９を含んで構成される。

制御部４１０および演算部４１１は、端末１０５の内部に構成されているメモリ３０４（図３を参照）に保存されたプログラムデータからの命令や演算処理を行う機能部である。より具体的に説明すると、制御部４１０は、ＣＰＵ３０１の外部メモリに記憶されるプログラムデータに含まれる命令の映像処理部４０１への送付や、映像処理部４０１からの指示をＣＰＵ３０１の外部へ送付するなどの制御を行う。演算部４１１は、制御部４１０から与えられた命令に従い、各種演算処理や画像の比較処理などを行う。これにより、端末１０５においては、撮像装置１０１〜１０３の制御や、表示部３０３を見ながら画面上で様々な指示を行うことが可能になる。また、制御部４１０は、映像処理部４０１によって生成された要約映像を再生する処理も行う。

映像取得部４０２は、撮像装置１０１〜１０３から元映像を取得し、元映像を構成するフレームごとに解析を行えるように、その動画形式を判定する処理を行う。映像取得部４０２はまた、必要に応じて動画形式の変換も行う。
背景画像抽出部４０３は、映像取得部４０２が取得した複数の元映像のそれぞれから背景画像を抽出する処理を行う。一例では、物体のないシーンを事前に撮像装置１０１〜１０３のそれぞれにより撮影しておき、その結果として得られた映像を、撮像装置１０１〜１０３のそれぞれと対応付けて第１の記憶部４０６に格納しておいてもよい。その後、物体が検出されなかった領域を抽出し、部分的に更新する処理が行われてもよい。

図５は、背景画像抽出部４０３により抽出された背景画像の例を示す図である。図５に示す背景画像６０１〜６０３はそれぞれ、図２に示した元映像２０２〜２０４から抽出された背景画像である。
背景画像抽出部４０３はさらに、複数の撮像装置１０１〜１０３のそれぞれについて取得した複数の背景画像を重ね合わせて類似度の判定を行う。判定の結果、類似度が所定の閾値以上であった場合、背景画像抽出部４０３は、撮像装置１０１〜１０３からの元映像を同じ背景画像上に要約できると判定する。そして、抽出した複数の背景画像の中から要約映像の背景画像とするものを選択し、第１の記憶部４０６に格納する処理を行う。この処理の詳細については後述する。一方、類似度が所定の閾値未満であった場合、背景画像抽出部４０３は、撮像装置１０１〜１０３からの元映像を同じ背景画像上に要約できないと判定する。そして、抽出した複数の背景画像のそれぞれを第１の記憶部４０６に格納する。

物体抽出部４０４は、映像取得部４０２が取得した複数の元映像のそれぞれから、それぞれ物体の軌跡を示す１以上の物体情報を抽出し、第１の記憶部４０６に格納する処理を行う。一例では、この物体の抽出は、背景差分方法、あるいは人体検出方法などの公知の方を用いて行われる。物体抽出部４０４は、こうして抽出した画素の領域の中心を物体の座標とし、画素の領域を物体の範囲とする。物体情報は、具体的には、抽出した物体の座標（ｘ，ｙ）及び範囲の時系列情報によって構成される。また、物体抽出部４０４は、検出した物体がどのフレームから発生してどのフレームで消失したかの情報（開始時刻及び継続時間）も、併せて第１の記憶部４０６に格納する。
なお、物体抽出部４０４による抽出は、特許文献１に記載の技術を用いても実行され得る。これらの他にも、物体を抽出できる抽出方法であれば、どのような方法を用いてもよい。

付加データ生成部４０５は、メタデータの一つとして、物体抽出部４０４により抽出された物体がどの撮像装置で取得されたものかを把握できるように、撮像装置の識別情報を物体情報に付加する。なお、撮像装置の識別情報としては、撮像装置のIPアドレス、識別番号、カメラ名称などが想定される。この撮像装置の識別情報を用いて物体を表示する際に重畳させるタイムスタンプ又は後述する検出枠の色が決定される。撮影した撮像装置と物体とを要約映像内で結びつけることのできる情報であれば、どのような情報でも撮像装置の識別情報として利用できる。
第１の記憶部４０６は、背景画像抽出部４０３によって格納された１つ又は複数の背景画像と、物体抽出部４０４によって格納された１以上の物体情報とを記憶する。これにより第１の記憶部４０６は、以下で説明する各機能を実現する際に必要となる情報の格納領域としての役割を果たす。

配列処理部４０７は、物体抽出部４０４で抽出された１以上の物体情報を一度すべて時系列順に配列する処理を行う。この処理を行うのは、仮に各撮像装置から抽出された物体情報を１つの映像に重ね合わせたとすると、同じタイミングかつ同じ座標に物体が重なって表示されてしまう状況が発生する可能性があるためである。配列処理部４０７は、こうした状況の発生の有無を把握するために、特許文献１に記載の技術などを用いて、全物体情報を時系列順にまとめて配列する。そして、各物体情報が重なって表示されることのないように、各物体情報の開始時刻をずらして再配列する処理を行う。この再配列処理の詳細については、後述する。
ここで、第１の記憶部４０６は、座標情報、時間情報（滞在時間）、撮像装置情報をまとめてなるテーブルとして、各物体情報を記憶することとしてもよい。

要約生成部４０８は、配列処理部４０７により生成された配列（配列処理部４０７による処理後の１以上の物体情報）と、背景画像抽出部４０３により第１の記憶部４０６に格納された背景画像とに基づき、元映像の要約処理を行う。詳しくは後述するが、この要約処理により、各撮像装置から抽出された１以上の物体情報を１つの背景画像上に集約してなる要約映像が生成される。要約生成部４０８は、要約映像内に配置した各物体情報に、対応する撮像装置を識別するための情報（上述した色情報など）を付加させる処理も行う。
要約生成部４０８は、生成した要約映像を一旦、第２の記憶部４０９に格納する。こうして第２の記憶部４０９に格納された要約映像は表示領域への展開を待機する状態となり、ユーザの指示に応じて、制御部４１０により再生される。

次に、図６に示すフローチャートを用いて、図４も参照しながら、複数の撮像装置からの複数の元映像に基づいて１つの要約映像を生成するための処理の流れを具体的に説明する。なお、本実施形態では、複数の撮像装置からの物体情報それぞれの空間的な位置は動かすことなく、対象物が出現する時間的な順序を元映像から変更することにより要約映像を生成する。
配列処理部４０７は、複数の撮像装置から抽出されたすべての物体の動作軌跡の間で最も衝突が少なく、再生時間が短くなるように、要約映像における各動作軌跡の開始時刻を求める。

ここで、物体の動作軌跡間の衝突について説明する。配列処理部４０７は、以下の式（１）を用いて、対象物ｉ，ｊ間の衝突コストＣｏｌ_ｉｊ（ｋ）を算出する。ただし、ｋは対象物ｉ，ｊの開始時刻の時間差であり、ｘ_ｔ ^ｉ，ｙ_ｔ ^ｉはそれぞれ時刻ｔにおける対象物ｉの中心のｘ座標及びｙ座標であり、ｒ_ｔ ^ｉは時刻ｔにおける対象物ｉの半径である。また、Ｔ_ｉｊ（ｋ）は、開始時刻の時間差がｋであるとしたときに、対象物ｉ，ｊの両方の動作軌跡が映像中に現れる期間を表している。さらに、式（１）右辺の絶対値記号内側の数式は、対象物ｉ，ｊの中心間の距離が半径の合計よりも小さいときに衝突ありを示す相対的に大きな値となり、それ以外のときに衝突なしを示す相対的に小さな値となる数式を表している。したがって、衝突コストＣｏｌ_ｉｊ（ｋ）は、値が大きいほど、対象物ｉ，ｊが衝突するフレームの数が多いことを表す。

配列処理部４０７は、対象物の全ての組み合わせにおいて衝突コストＣｏｌ_ｉｊ（ｋ）が最小になる開始時刻を求めるために、シミュレーテッドアニーリング法を用いる。シミュレーテッドアニーリング法によれば、範囲制約のある非線形問題を効率的に計算することができる。
したがって、配列処理部４０７は、シミュレーテッドアニーリング法を用いて各対象物の開始時刻を求めることにより、要約映像における最適な各対象物の開始時刻を求めることができる。配列処理部４０７は、このようにして元映像に対して対象物の空間的な位置を維持しつつ、出現開始順序を変更することで要約映像を生成する。具体的には、背景画像の上に元映像から画素マスクを用いて切り出した対象物の画像を、算出した開始時刻を基に張り付けていくことによって、要約映像が生成される。

図６は、本実施形態による端末１０５の処理を示すフローチャートである。図６に示すように、端末１０５はまず初めに、映像取得部４０２により、各撮像装置から元映像を取得する（Ｓ１０１）。なお、ここでは各撮像装置から元映像を取得することとしているが、外部のメモリやストレージに格納された映像を元映像として取得することとしてもよい。
次に端末１０５は、物体抽出部４０４により、取得した各元映像から上述した物体情報の抽出を行い（Ｓ１０２）、第１の記憶部４０６へ格納する。

次に端末１０５は、背景画像抽出部４０３により、各撮像装置で撮影された元映像のそれぞれから背景画像を抽出し、抽出した複数の背景画像の中から要約映像の背景画像とするものを選択する処理を行う（Ｓ１０３）。
この選択は、一例では、（ｉ）物体情報の抽出数が最も多かった撮像装置の背景画像を選択する、又は、（ｉｉ）物体情報の抽出数が最も少なかった撮像装置の背景画像を選択する、という２通りの選択方法のうちのいずれかを用いて実行される。前者の選択方法を用いる場合、撮像装置間での背景のずれが大きかった場合の影響を最小にすることが可能になる。後者の選択方法を用いる場合、物体によって背景画像の更新頻度が高くなるので、背景画像の正確性を上げることが可能になる。
また、背景画像としては静止画像を用いることを基本とするが、背景画像抽出部４０３は、元映像が撮影された時間帯ごとに、異なる静止画像を選択することとしてもよい。こうすることで、日中と夜間における環境光の変化などにも適切に対応することが可能になる。

次に端末１０５は、付加データ生成部４０５により、要約映像内に表示する物体情報の外縁（検出枠）又は物体情報に重畳して表示するタイムスタンプ（時間情報）に、撮像装置の識別情報（色、数字、文字など）を付加する処理を行う（Ｓ１０４）。これは、要約映像を見たユーザが各物体を撮像した撮像装置を把握できるようにするための処理である。
図７（ａ）〜（ｃ）はそれぞれ、Ｓ１０４の処理を行った結果として生成される要約映像の例を示す図である。なお、図７（ａ）〜（ｃ）は、背景画像として、図５に示した背景画像６０３が選択された場合を示している。

図７（ａ）は、検出枠に色を付加した例を示す。ただし、特許図面では有彩色を使えないので、代替表記として図７（ａ）では、線の種類の違いにより着色する色の違いを表している。具体的には、１階の撮像装置１０１（図２を参照）で撮影された物体７０２の検出枠を破線で表している。また、２階の撮像装置１０２で撮影された物体７０３の検出枠を長破線で表し、３階の撮像装置１０３で撮影された物体７０４の検出枠を実線で表している。
図７（ｂ）は、タイムスタンプに色を付加した例を示す。この例では、１階の撮像装置１０１で撮影された物体７０２のタイムスタンプ「１２：３０」を赤色の字で表している。また、２階の撮像装置１０２で撮影された物体７０３のタイムスタンプ「１０：０３」を緑色の字で表し、３階の撮像装置１０３で撮影された物体７０４のタイムスタンプ「２０：１５」を黄色の字で表している。
図７（ｃ）は、タイムスタンプに文字情報を付加した例を示す。この例では、１階の撮像装置１０１で撮影された物体７０２のタイムスタンプ「１２：３０」に「＿１Ｆ」の文字を付加している。また、２階の撮像装置１０２で撮影された物体７０３のタイムスタンプ「１０：０３」に「＿２Ｆ」の文字を付加し、３階の撮像装置１０３で撮影された物体７０４のタイムスタンプ「２０：１５」に「＿３Ｆ」の文字を付加している。

次に端末１０５は、配列処理部４０７により、物体抽出部４０４で抽出された１以上の物体情報を一度、時系列順に配列する（Ｓ１０５）。具体的には、第１の記憶部４０６に格納された全物体情報を配列して、解析を行っていく。
さらに端末１０５は、配列処理部４０７により、Ｓ１０５で配列した物体情報から、要約映像内において同じタイミングかつ同じ座標に複数の物体情報が重なって表示されることになる重なり領域を検出する（Ｓ１０６）。この処理を行うのは、複数の撮像装置のそれぞれで撮影された物体を１つの要約映像に表示するため、同時間に同じ座標に物体が存在することが想定されるからである。

図８は、重なり領域を説明する図である。図８上段には、撮像装置１０１〜１０３のそれぞれで撮影された元映像２０２〜２０４を示している。図８に示すように、元映像２０２〜２０４には物体８０１〜８０７が含まれている。また、図８上段の各図においては、物体８０１〜８０７の後方に、それぞれの軌跡を記している。ここで、撮像装置１０１で撮影された物体８０１〜８０３の軌跡を長破線で、撮像装置１０２で撮影された物体８０４，８０５を破線で、撮像装置１０３で撮影された物体８０６，８０７を実線でそれぞれ記している。
図８下段には、横軸を座標軸ｘ、縦軸を時間軸ｔとする全物体情報配列図８０８を示している。そして、全物体情報配列図８０８の中には、上段の各図に示した軌跡を記している。全物体情報配列図８０８内に示した軌跡のうち、軌跡８０９は物体８０４の軌跡を示し、軌跡８１０は物体８０２の軌跡を示している。図８から、２つの軌跡８０９，８１０が同時間帯に重なっていることが理解される。

配列処理部４０７は、重なり領域が検出された場合、重なり領域が解消されるように少なくとも一方の開始時刻をずらして再配列する処理を行う（Ｓ１０７）。この処理は前述のとおりである。
図９（ａ）（ｂ）はそれぞれ、Ｓ１０７の処理の例を示す図である。図９（ａ）（ｂ）内の符号８０８〜８１０の意味は、図８下段に示した図における意味と同じである。

図９（ａ）は、重なって表示されることになる２つの物体情報を最短時間で表示する例である。この場合、配列処理部４０７は、重なって表示されることになる２つの物体情報のいずれか一方の開始時刻を他方の終了直後の時刻に合わせて修正する。図９（ａ）の例では、軌跡８１０の開始時刻が、軌跡８０９の終了直後の時刻となるように修正されている。なお、この場合における物体情報の順番（要約映像内における表示順）は、撮像装置の管理番号の早い順とすることが好ましい。
図９（ｂ）は、同一の撮像装置で撮影された複数の物体情報を時間的に重複させて表示する例である。この場合、配列処理部４０７は、例えばユーザによって指定された撮像装置からの複数の物体情報ができるだけ同じタイミングで表示されることとなるように、重なっている２つの物体情報のいずれか少なくとも一方の開始時刻を修正する。図９（ｂ）の例では、軌跡８１０の開始時刻が、軌跡８１０と撮像装置１０２で撮影された他の物体の軌跡とが同じタイミングで表示されることとなるよう、修正されている。

なお、このように開始時刻をずらすのではなく、重なっている２つの物体情報の一方をポップアップ表示やサムネイル表示することとしてもよい。具体的には、重なって表示されることになる２つの物体情報のいずれか一方に対し、配列処理部４０７によって所定のフラグ情報を付加すればよい。そして、このフラグ情報が付加されている物体情報については、制御部４１０が要約映像の再生を行う際に、ポップアップ表示やサムネイル表示とすればよい。なお、ポップアップ表示やサムネイル表示ではなく背景画像内に通常どおり表示する物体情報としては、背景画像と同じ撮像装置からの物体情報を選択することが好ましい。
また、要約映像内における物体の密集度に応じて、複数の撮像装置からの物体情報を１つの要約映像内に集約するか否かの判断を行うこととしてもよい。例えば、複数の撮像装置からの物体情報を１つの要約映像内に集めて表示した場合に、物体の占める面積が画面の所定割合（一例では６０％）を超えてしまう場合がある。このような場合には、そもそも１つの要約映像にまとめるのではなく、撮像装置ごとに個別の要約映像を生成することとしてもよい。

次に、要約生成部４０８により、配列処理部４０７により生成された配列（Ｓ１０７の処理を経たもの）に基づいて、Ｓ１０２で抽出した１以上の物体情報を１つの背景画像上に集約してなる要約映像の生成を行う（Ｓ１０８）。
図１０は、要約映像における全物体情報配列図１００１を示す図である。全物体情報配列図１００１は、図９（ａ）又は図９（ｂ）に示した全物体情報配列図８０８に基づいて生成されたものである。

図１０から理解されるように、要約処理は、各物体情報の開始時刻を、他の物体情報と重ならない範囲で変更する処理となる。こうすることで、各物体情報が重ならない範囲で、映像の再生時間を極力短くすることが可能になる。なお、一部他の物体情報と重なるまで移動させた方が多くの要約効果を見込める場合には、重なった部分の間引き処理（フレームの削除）を行うこととしてもよい。
また、要約生成部４０８は、撮影された撮像装置ごとに物体情報をまとめて、要約映像内に配置することとしてもよい。

最後に、端末１０５は、制御部４１０により要約映像を再生して（Ｓ１０９）、複数の撮像装置からの元映像を要約映像とする一連の処理を終了する。
以上説明したように、本実施形態による要約映像生成システム１によれば、複数の撮像装置のそれぞれにより撮影された複数の元映像を１つの要約映像にまとめて再生することができるので、各映像の確認を、従来よりも短時間で終えることが可能になる。

［第２の実施形態］
第２の実施形態における撮像装置の構成について、第１の実施形態に示すものと同等箇所についての説明は省略する。上述した第１の実施形態では、複数の撮像装置からの複数の元映像を１つの要約映像に要約する構成を説明したが、第２の実施形態では、要約映像の再生の途中で物体が選択された際の処理を説明する。

図１１は、本実施形態による端末１０５の処理を示すフローチャートである。以下、図１１を参照しながら、複数の撮像装置からの複数の元映像に基づいて生成した要約映像を再生中に、ユーザが物体を選択した際の端末１０５の具体的な動作を説明する。なお、図１１のＳ１０１〜Ｓ１０９については、図５で示したＳ１０１〜Ｓ１０９と同様のため、説明を省略する。
Ｓ１０９で要約映像の再生中、制御部４１０は、ユーザによる物体情報の選択指示操作を受け付ける（Ｓ２０１）。この選択指示操作は、要約映像が表示されているモニタを見ているユーザがマウスにより行うものであってよい。ユーザにより選択指示操作がなされた場合、制御部４１０は、再生する映像を、選択された物体情報を撮影した撮像装置の元映像の単独での要約映像に切り替える（Ｓ２０２）。一方、選択指示操作がなされないまま要約映像の再生が終了した場合には、制御部４１０は、Ｓ２０２を実行することなく処理を終了する。

図１２左側の図は、図８に示した元映像２０２〜２０４をまとめて表示する要約映像２０５を示す図であり、図１２右側の図は、図８に示した元映像２０２の単独での要約映像２０６を示す図である。図１２左側の図の要約映像２０５においてユーザが物体８０３（黒枠で囲ったもの）を選択したとすると、端末１０５は、図１２右側の図に示すように、物体８０３を撮影した撮像装置１０１で撮影された元映像２０２のみを要約して再生する。

図１３左側の図は、図１０と同じ全物体情報配列図１００１を示す図であり、図１３右側の図は、図１２右側の図に示した要約映像２０６における全物体情報配列図１３０４を示す図である。なお、図１３に示す軌跡１３０１，１３０２はそれぞれ、物体８０３，８０６の軌跡である。図１３から理解されるように、撮像装置１０１で撮影された元映像２０２のみを要約して再生する場合、元映像２０２〜２０４をまとめて表示する要約映像２０５に比べて短時間で再生が終了する場合がある（全物体情報配列図１３０４は全物体情報配列図１１０１より小さい）。
なお、図示していないが、選択された物体情報にかかる物体と同じ物体が複数の撮像装置で検出されていた場合には、該物体にかかる複数の物体情報を集約してなる要約映像を再生してもよい。或いは、該物体を撮影した複数の撮像装置それぞれで撮影された元映像の単独での要約映像を順次切り替えて再生してもよい。

以上説明したように、本実施形態による要約映像生成システム１によれば、ユーザは、複数の元映像に含まれる物体を集約してなる要約映像を確認している間に特に確認したい物体を見つけた場合に、当該物体を詳細に確認することが可能になる。
なお、物体を選択しなくても、複数の元映像に含まれる物体を集約してなる要約映像と、各撮像装置の元映像の単独での要約映像とを切り替えられるようにしてもよい。

［その他の実施形態］
以上、本発明の実施形態を図面に基づいて詳述してきたが、本発明はこれらの特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。上述の実施形態の一部を適宜組み合わせてもよい。
一例を挙げると、電車内などの移物体内で撮影された映像の要約映像においては、ＧＰＳ(Global Positioning System)などの位置情報システムを用いて撮影位置の情報を取得することとしてもよい。そして、取得した撮影位置の情報を、上述したメタデータの１つとして物体情報に付加することとしてもよい。こうすることで、どの駅で撮影された物体であるかなどの位置に関する情報を、色や文字などを用いて要約映像内の各物体に付加することが可能になる。

なお、本発明は、上述の実施形態の一部または１以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ（またはＣＰＵやＭＰＵ等）における１つ以上のプロセッサがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。
また、本発明は、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。

１…要約映像生成システム、１０１〜１０３…撮像装置、２０２〜２０４…元映像、２０５，２０６…要約映像、４０４…物体抽出部、４０８…要約生成部

Claims

映像の中で検知された対象物の出現順序を変更することにより、要約映像を生成する情報処理装置において、
複数の撮像装置のそれぞれで撮影された複数の映像を取得する取得手段と、
前記取得手段により取得された前記複数の映像のそれぞれから、それぞれ物体の軌跡を示す１以上の物体情報を抽出する抽出手段と、
前記抽出手段により抽出された物体情報に基づいて物体を１つの背景画像上に集約してなる要約映像を生成する生成手段と、
を有することを特徴とする情報処理装置。
前記生成手段は、前記１以上の物体情報それぞれの開始時刻を他の物体情報と重ならない範囲で変更することにより、前記要約映像を生成する、
ことを特徴とする請求項１に記載の情報処理装置。
前記背景画像は、前記抽出手段による物体情報の抽出数が最も多かった撮像装置で撮影された画像である、
ことを特徴とする請求項１に記載の情報処理装置。
前記背景画像は、前記抽出手段による物体情報の抽出数が最も少なかった撮像装置で撮影された画像である、
ことを特徴とする請求項１に記載の情報処理装置。
前記取得手段は、背景画像どうしの類似度が高い複数の撮像装置から映像を取得する
ことを特徴とする請求項１に記載の情報処理装置。
前記要約映像内に表示する物体情報の外縁に、撮像装置の識別情報を付加する付加手段、
をさらに有することを特徴とする請求項１に記載の情報処理装置。
前記要約映像内に物体情報と重畳して表示する時間情報に、撮像装置の識別情報を付加する付加手段、
をさらに有することを特徴とする請求項１に記載の情報処理装置。
前記識別情報は、撮像装置ごとに異なる色である、
ことを特徴とする請求項６又は７に記載の情報処理装置。
前記識別情報は、撮像装置ごとに異なる数字を含む、
ことを特徴とする請求項６又は７に記載の情報処理装置。
前記要約映像内において同じタイミングかつ同じ座標に複数の物体情報が重なって表示されることになる重なり領域が検出された場合、該重なり領域が解消されるように前記１以上の物体情報のうちの少なくとも１つの開始時刻をずらす処理を行う処理手段、をさらに有し、
前記処理手段は、重なって表示されることになる２つの物体情報のいずれか一方の開始時刻を他方の終了直後の時刻に合わせて修正する、
ことを特徴とする請求項１に記載の情報処理装置。
前記要約映像内において同じタイミングかつ同じ座標に複数の物体情報が重なって表示されることになる重なり領域が検出された場合、該重なり領域が解消されるように前記１以上の物体情報のうちの少なくとも１つの開始時刻をずらす処理を行う処理手段、をさらに有し、
前記処理手段は、同じ撮像装置からの複数の物体情報が同じタイミングで表示されることとなるように、重なって表示されることになる２つの物体情報のいずれか一方の開始時刻を修正する、
ことを特徴とする請求項１に記載の情報処理装置。
前記要約映像内において同じタイミングかつ同じ座標に複数の物体情報が重なって表示されることになる重なり領域が検出された場合、重なって表示されることになる２つの物体情報のいずれか一方に対して所定のフラグ情報を付加する付加手段と、
前記要約映像を再生する再生手段と、をさらに有し、
前記再生手段は、前記所定のフラグ情報が付加されていない物体情報については要約映像内に表示する一方、前記所定のフラグ情報が付加されている物体情報についてはポップアップ表示を行う、
ことを特徴とする請求項１に記載の情報処理装置。
前記生成手段は、撮影された撮像装置ごとに物体情報をまとめて、前記要約映像内に配置する、
ことを特徴とする請求項１に記載の情報処理装置。
前記要約映像を再生する再生手段、をさらに有し、
前記再生手段は、前記要約映像の再生中に該要約映像内に表示されている物体情報がユーザによって選択された場合、該物体情報を撮影した撮像装置で撮影された映像の単独での要約映像に切り替えて再生を行う、
ことを特徴とする請求項１に記載の情報処理装置。
前記再生手段は、選択された物体情報にかかる物体と同じ物体が複数の撮像装置で検出されていた場合には、該物体を撮影した複数の撮像装置それぞれで撮影された映像の単独での要約映像を順次切り替えて再生する、
ことを特徴とする請求項１４に記載の情報処理装置。
前記再生手段は、選択された物体情報にかかる物体と同じ物体が複数の撮像装置で検出されていた場合には、該物体にかかる複数の物体情報を集約してなる要約映像に切り替えて再生を行う、
ことを特徴とする請求項１４に記載の情報処理装置。
複数の映像を撮像する複数の撮像装置と、
前記複数の撮像装置から前記複数の映像を取得して要約映像を生成する請求項１〜１６のいずれか１項に記載の情報処理装置と、
を有することを特徴とする情報処理システム。
映像の中で検知された対象物の出現順序を変更することにより、要約映像を生成する情報処理方法において、
複数の撮像装置のそれぞれで撮影された複数の映像を取得するステップと、
前記取得するステップにより取得された複数の映像のそれぞれから、それぞれ物体の軌跡を示す１以上の物体情報を抽出するステップと、
前記抽出するステップにより抽出された１以上の物体情報を１つの背景画像上に集約してなる要約映像を生成するステップと、
を有することを特徴とする情報処理方法。
コンピュータを、請求項１から１６のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。