JP2021103810A

JP2021103810A - 映像要約装置、映像要約システム、映像要約方法、およびプログラム

Info

Publication number: JP2021103810A
Application number: JP2019233227A
Authority: JP
Inventors: 安達　啓史; Hiroshi Adachi; 啓史安達; 敦 ▲濱▼口; Atsushi Hamaguchi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-07-15

Abstract

【課題】複数の監視カメラで連続して撮像された同一のオブジェクトが、要約映像ではばらばらに異なる時刻で再生されてしまうことがなくし、ユーザが注目している人物をスムーズに一連の動きとして目で追うことが出来るようにし、見落とす可能性を少なくする。【解決手段】元映像の中で検出された複数のオブジェクトの出現順序を変更することにより、複数の元映像に対応する複数の要約映像を生成する情報処理装置において、複数の元映像の中でそれぞれに検出された複数のオブジェクトから同一のオブジェクトを特定し、同一のオブジェクトと特定された複数のオブジェクトの動作軌跡の配置を、同一のオブジェクトについての複数の動作軌跡の間で出現順序は元映像から変えないで、互いに時間方向で重ならないように決定し、決定された配置に基づき、複数の元映像に対応する複数の要約映像を生成する。【選択図】図３

Description

本発明は、映像要約装置、映像要約システム、映像要約方法、およびプログラムに関する。

近年防犯に対する意識が高まっており、様々な場所で監視カメラが活用されるようになってきている。

監視カメラの長時間録画された映像を効率的に見る方法として特許文献１に示すような映像を要約する技術がある。

この技術は、録画された長時間の映像（以下、元映像）から、動きのある人物や車両などのオブジェクトを抽出する。そして、互いが重ならないように時間方向にシフトさせ出現順序を入れ替える。このようにして短時間の映像（以下、要約映像）に変換する方法である。

特許文献２ではさらに、映像中で動くオブジェクト間の領域同士の関係からオブジェクト間の関連付けを行う方法が提案されている。これにより元映像に登場する２つのオブジェクトを対応付けして扱うことが可能になる。

特許第５３５５４２２号特許第５６５６５６７号

ユーザが比較的距離の近い複数の領域を複数の監視カメラで録画して監視しているとする。そして、ユーザが注目している人物が、複数の監視カメラの監視する複数の領域を連続に横切って通行したとする。

複数の監視カメラの録画した映像をすべて、ユーザが確認するのは骨が折れる。そこで、ユーザがそれぞれの要約映像を生成し、一回の再生操作で複数の元映像を確認することにしたとする。具体的には、再生する際に、各々の要約映像を１つのディスプレイ上にウインドウを並べて表示して、これらを同時に再生したとする。

元映像では、注目しているその人物が各々の監視カメラの前を連続的に横切って出現しているにも関わらず、その人物は複数の要約映像に必ずしも連続的に出現しないことがある。これは、要約映像では各々の要約映像で個別に出現時刻をずらし出現順序を入れ替えることによる。

これにより、ユーザはそれら人物などのオブジェクトが同一のオブジェクトであったと認識することが難しくなってしまい、複数の監視カメラの撮像領域にわたって移動するオブジェクトの行動を一連の動きとして認識しないで、見落としてしまう可能性があった。

元映像の中で検出された複数のオブジェクトの出現順序を変更することにより、複数の元映像に対応する複数の要約映像を生成する情報処理装置において、複数の元映像の中でそれぞれに検出された複数のオブジェクトから同一のオブジェクトを特定する特定手段と、特定手段により同一のオブジェクトと特定された複数のオブジェクトの動作軌跡の配置を、複数の要約映像上で決定する際に、同一のオブジェクトについての複数の動作軌跡の間で出現順序は元映像から変えないで、互いに時間方向で重ならないように決定する決定手段と、決定手段により決定された配置に基づき、複数の元映像に対応する複数の要約映像を生成する生成手段と、を有することを特徴とする。

本発明によれば、複数の監視カメラで連続して撮像された同一のオブジェクトが、要約映像ではばらばらに異なる時刻で再生されてしまうことがなくなるため、ユーザが注目している人物をスムーズに一連の動きとして目で追うことが出来、見落しの可能性を少なく出来る。

発明の実施形態に対応する映像要約システムの構成示す図。発明の実施形態に対応するネットワークカメラの構成を示す図。発明の実施形態に対応する映像要約サーバの機能ブロックを示す図。発明の実施形態に対応する元映像の時空間におけるオブジェクトの動作軌跡の配置を表す図。発明の実施形態に対応する要約映像の時空間におけるオブジェクトの動作軌跡の配置を表す図。発明の実施形態に対応する制御部が受け付ける映像のフレームを表す図。発明の実施形態に対応する生成部が出力する要約映像のフレームを表す図。発明の実施形態に対応する受信部が受信するオブジェクト情報を表すテーブル。発明の実施形態に対応する動作軌跡を表すテーブル。発明の実施形態に対応するオブジェクトのセット情報を表すテーブル。発明の実施形態に対応するカメラ間の移動時間情報を表すテーブル。発明の実施形態に対応する生成部が生成するオブジェクトの開始時刻を表すテーブル。発明の実施形態に対応する制御部が実行する処理を示すフローチャート。発明の実施形態に対応する特定部が実行する処理を示すフローチャート。発明の実施形態に対応する配置決定部が実行する処理を示すフローチャート。発明の実施形態に対応する元映像の時空間におけるオブジェクトの動作軌跡の配置を表す図。発明の実施形態に対応する要約映像の時空間におけるオブジェクトの動作軌跡の配置を表す図。発明の実施形態に対応する受信部が受信するオブジェクト情報を表すテーブル。発明の実施形態に対応するオブジェクトのセット情報を表すテーブル。発明の実施形態に対応するカメラ間の移動時間情報を表すテーブル。発明の実施形態に対応する生成部が生成するオブジェクトの開始時刻を表すテーブル発明の実施形態に対応する特定部が実行する処理を示すフローチャート。発明の実施形態に対応する配置決定部が実行する処理を示すフローチャート。

以下、添付図面を参照して、本発明を実施するための形態について詳細に説明する。

なお、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。

図１は、本実施形態におけるネットワークカメラシステム１０を説明する図である。

ネットワークカメラシステム１０は、少なくとも２台の監視カメラ（以下、単に「カメラ」ともいう）１０２、１０６と、情報処理装置１０３、１０４、１０５を備える。情報処理装置１０３は映像録画サーバ、情報処理装置１０４は映像要約サーバ、情報処理装置１０５は操作端末として、それぞれ構成することができる。映像要約サーバ１０４は映像要約装置と呼んでもよい。これらの情報処理装置は、物理的に独立した装置として構成されてもよい。あるいは、これらは一体的に構成されてもよい。

カメラ１０２、１０６と情報処理装置１０３、１０４、１０５とは、ネットワーク回線であるＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）１０１によって接続されている。なお、ネットワーク回線はＬＡＮに限定されるものではなく、インターネットやＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などであってもよい。また、ＬＡＮ１０１への接続形態は、有線であってもよいし、無線であってもよい。さらに、図１において、カメラ１０２、１０６及び情報処理装置１０３、１０４、１０５が、ＬＡＮ１０１に接続されているが、接続台数は図１に示す数だけに限定されるものではない。

カメラ１０２、１０６は、所定の画角で監視対象空間内に存在する所定の被写体を撮像する撮像装置である。カメラ１０２、１０６は、撮像された映像を、ＬＡＮ１０１を介して各情報処理装置１０３、１０４、１０５へ送信する機能を有する。

映像録画サーバ１０３は、カメラ１０２から送信された映像をＬＡＮ１０１経由で受信して保存、蓄積する。また、映像録画サーバ１０３は、映像要約サーバ１０４及び操作端末１０５から受け付けた要求に応じて保存している映像を各装置に送信する。

映像要約サーバ１０４は、映像録画サーバ１０３に記録されている映像をＬＡＮ１０１経由で受信し、映像要約処理を行う。

本実施形態の以下の説明では、映像要約サーバ１０４が解析結果や登録情報を保持する構成としているが、ネットワークを介した他のデータベースや操作端末１０５に保存する構成としても構わない。

操作端末１０５は、表示装置（ディスプレイ）を備える。そして、カメラ１０２から受信した要約処理を行う前の元映像や、映像録画サーバ１０３に記録された元映像を再生させ表示させる。そして、映像要約サーバ１０４から受信した要約映像を表示装置に表示させる。また操作端末１０５は、元映像を要約する制御を指示する指示用途のユーザインタフェースと入力部を備え、映像の要約に関するパラメータ、例えば要約の程度を表すオブジェクトの密度、の設定等を行うための機能を有する。

また、本実施形態の以下の説明では、複数の要約映像を表示するための表示制御機能は、複数のカメラ毎に作成された要約映像を操作端末１０５のディスプレイ上で並列に配置された複数の各ウインドウ内へ表示する。ただし、それに限らず、複数のウインドウではなく複数の表示装置を物理的に並べて各表示装置に各々の要約映像をそれぞれ表示するような形態をとっても構わない。

次に、発明の実施形態に対応する各装置の構成について説明する。

図２は、発明の実施形態に対応するカメラ１０２のハードウェア構成の一例を示す図である。カメラ１０２は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、外部メモリ２０４、撮像部２０５、入力部２０６、通信Ｉ／Ｆ２０７、システムバス２０８を含んで構成することができる。これ以外の構成をさらに含んでいてもよい。

ＣＰＵ２０１は、カメラ１０２における動作を統括的に制御する制御部であって、システムバス２０８を介して、各構成要素（２０２〜２０７）の動作を制御する。

ＲＯＭ２０２は、ＣＰＵ２０１が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、外部メモリ２０４や着脱可能な記憶媒体（不図示）に記憶されていてもよい。

ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。すなわち、ＣＰＵ２０１は、処理の実行に際してＲＯＭ２０２から必要なプログラム等をＲＡＭ２０３にロードし、当該プログラム等を実行することで各種の機能動作を実現する。

外部メモリ２０４は、例えば、ＣＰＵ２０１がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、外部メモリ２０４には、例えば、ＣＰＵ２０１がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。

撮像部２０５は、被写体の撮像を行って映像を生成する。撮像部２０５は、例えばＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）等の撮像素子、Ａ／Ｄ変換器、現像処理部等を含んで構成することができる。

入力部２０６は電源ボタンや設定ボタンなどから構成され、カメラ１０２の操作者は、入力部２０６を介して当該カメラ１０２に指示を与えることができる。

通信Ｉ／Ｆ２０７は、外部装置（ここでは、情報処理装置１０３）と通信するためのインターフェースである。通信Ｉ／Ｆ２０７は、例えばＬＡＮインターフェースである。

システムバス２０８は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、外部メモリ２０４、撮像部２０５、入力部２０６及び通信Ｉ／Ｆ２０７を通信可能に接続する。

カメラ１０２の各部の機能は、ＣＰＵ２０１がＲＯＭ２０２もしくは外部メモリ２０４に記憶されたプログラムを実行することで実現される。

本実施形態において、情報処理装置１０３から１０５のそれぞれのハードウェア構成についても、図２に示すハードウェア構成に準ずる。ただし、その場合には、撮像部２０５に代えて、表示部等のハードウェア構成を具備する。ここで、表示部は、液晶ディスプレイ（ＬＣＤ）等のモニタで構成される。また、情報処理装置１０３から１０５は、入力部２０６として、キーボードやマウス等のポインティングデバイスを具備し、操作者が情報処理装置１０３から１０５に対して指示を与えることができるように構成される。また、外部メモリ２０４は、種々の情報を記憶しておくためのデータベースを含むことができる。

図３は、発明の実施形態に対応する情報処理装置としての映像要約サーバ１０４の機能構成の一例を示す機能ブロック図である。映像要約サーバ１０４は、制御部３０１、受信部３０２、特定部３０３、配置決定部３０４、生成部３０４を備えることが出来る。

図３に示す各機能構成要素は、映像要約サーバ１０４のＣＰＵ２０１が対応する処理プログラムを実行することによって実現される。

本実施形態では、図３の各機能を映像要約サーバ１０４内に搭載する場合を説明するが、機能の一部を他の機器に搭載してもよい。例えば、機能の一部をカメラ１０２内に搭載してもよいし、映像録画サーバ１０３を含む他の情報処理装置に搭載してもよい。また、本実施形態においては、映像要約サーバ１０４が被写体として主に人物を検出する場合を説明するが、検出対象となる被写体は人物に限定されるものではない。例えば、車両を検出対象とすることもできる。

制御部３０１は、ＣＰＵ２０１等から構成され、ＲＯＭ２０２に記憶されたプログラムやデータをＲＡＭ２０３に読み出して映像生成などの処理を実行する。

受信部３０２は、映像を受信する。映像は外部メモリ２０４に保存されたものを取得してもよいし、ネットワークインタフェース２０７を介してネットワーク２０８上にある映像を取得してもよい。

特定部３０３は、映像のそれぞれにおいて検出されたオブジェクトが同一かどうかを判定する。配置決定部３０４、は同一と判定したオブジェクトの動作軌跡の要約映像における時間方向の相対的な配置を決定する。

生成部３０５は、映像から抽出された全てのオブジェクトの要約映像における再生時刻を決定し、要約映像を生成する。生成された要約映像は外部メモリ２０４に保存され、ディスプレイなどの出力装置２０５において再生される。

図４（ａ）、（ｂ）は、元映像の時空間におけるオブジェクトの動作軌跡の配置４５０、４５１を表す図である。

横軸が空間を表し、縦軸が時間を表す。空間は通常ｘとｙの２軸で構成されるが、ここでは表現のわかりやすさを優先してｙ軸の値は省略し、あるｙの値の時のｘ軸のみを用いて表現する。時間は最下部が録画の開始時間、最上部が録画の終了時間となる。

（ａ）、（ｂ）はそれぞれ別の映像であって、ユーザが比較的距離の近い複数の領域を２つのカメラでそれぞれに撮像して監視していることとする。２つのカメラは同一の時刻に撮像を開始し同一の時刻に撮像を終了し、２つの映像は互いに撮像画角が異なる映像であるとする。

図４の４０１〜４０８で表される曲線は、映像に現れるオブジェクトの中心の軌跡を表す。始点が映像に出現したタイミングでの時空間上の点を表し、その時刻が出現時刻である。オブジェクトを囲む点線はオブジェクトの範囲を表す。オブジェクトは複数の連続するフレームにそれぞれ現れる画素の集合として表現することができる。オブジェクトの中心はオブジェクトの画素集合の中心位置を、オブジェクトの範囲は画素集合の面積を基に算出した半径を用いる。計算方法の詳細は後述する。

ここで動作軌跡４０３と４０４、４０６と４０７はそれぞれ同一人物の動作軌跡とする。

図５（ａ）、（ｂ）は要約映像の時空間におけるオブジェクトの動作軌跡の配置５５０、５５１を表す。

図５（ａ）、（ｂ）の配置５５０、５５１は、図４（ａ）、（ｂ）のオブジェクトの各移動軌跡について、再配置されたものである。オブジェクトの移動軌跡間の未検出時間を短縮し、かつ空間方向も時間方向もオブジェクトが重ならない。そして、再生時間が短くなる。このような条件を満たすようにして、要約映像での各オブジェクトの動作軌跡の配置を決定したものである。動作軌跡の配置については、元映像に対して空間方向にはずらさないで、時間方向にだけずらすように決定されている。

図４（ａ）の動作軌跡の要約後の配置が図５（ａ）に、図４（ｂ）の動作軌跡の要約後の配置が図５（ｂ）に、それぞれ対応している。

図５のオブジェクトの動作軌跡５０１〜５０８はそれぞれ、図４（ａ）、（ｂ）の４０１〜４０８の動作軌跡の開始時刻をずらして配置したものである。

図６（ａ）、（ｂ）は制御部３０１が受け付ける映像のフレームの一例を表す。図６（ａ）、（ｂ）は、図４（ａ）、（ｂ）の一点鎖線のフレーム４０９を表す。人物６０１はオブジェクト４０２、人物６０２はオブジェクト４０３に対応する。

図７（ａ）、（ｂ）は生成部３０５が出力する要約映像のフレームの一例を表す。図７（ａ）、（ｂ）は、図５（ａ）、（ｂ）の一点鎖線のフレーム５０９を表す。

人物７０１はオブジェクト５０８に対応する。映像を要約することで、人物６０１、６０２以外に、異なる時間に録画された別な人物７０１がフレームインすることを示している。

次に、受信部３０２が受信するオブジェクト情報の一例について図８のオブジェクト情報テーブルを用いて説明する。

図８のテーブル８００は情報処理装置１０４により映像から抽出されるオブジェクト情報を表している。

オブジェクト情報は、識別子８０１、カメラＩＤ８０２、開始時刻８０３、動作軌跡８０４、終了時刻８０５の情報で表される。カメラＩＤ８０２は、映像の要約に用いる映像を取得したカメラを識別する識別子である。

開始時刻８０３は映像の開始時刻を０とした時に、オブジェクトが現れる時刻を表す。動作軌跡は図９にて説明する。終了時刻８０５は映像の開始時刻を０とした時に、オブジェクトが映像からフレームアウトする時刻を表す。

図９は動作軌跡テーブルである。受信部３０２が受信する動作軌跡の一例について本テーブルを用いて説明する。図８のオブジェクト情報テーブルの動作軌跡８０４のＢ１は、図９の動作軌跡テーブルが指し示すものである。図８の動作軌跡８０４のＢ２からＢ８についてもＢ１と同様な動作軌跡テーブルがあるが説明を省略する。

動作軌跡テーブルは時刻９０１、中心座標９０２、半径９０３、画素マスク９０４の情報で表され、各フレームの情報が時系列で格納される。このテーブルには図８の識別子ＩＤ＿００１のオブジェクトについて、図９の時刻９０１に示すように、時刻０から６０までの動作軌跡が記録されている。時刻９０１は該オブジェクトが映像に現れてからの時刻を表す。

中心座標９０２はオブジェクトのフレームごとの画素集合の中心位置を表す。オブジェクトの画素集合は背景との差分として抽出される。中心位置は、オブジェクトの画素全ての座標の平均値とする。半径９０３は後述の映像処理において用いるオブジェクトの範囲を表す。半径はオブジェクトの画素の合計数をＳとした時に、Ｓ／πの平方を求めることにより算出する。すなわち、オブジェクトの範囲をここでは円に近似して半径で表現しているが、範囲を特定できる表現であれば他の形式を用いてもよい。

画素マスク９０４はフレーム内のオブジェクトの詳細な画素位置を表すマスク情報へのリンクを表す。ここでは画素マスクをオブジェクトとそれ以外を区別する情報を持つ映像として記憶するが、これらが区別できるものであれば映像以外の形式であってもよい。

次に配置決定部３０４が生成するオブジェクトのセット情報の一例について図１０のテーブルを用いて説明する。

オブジェクトのセット情報テーブル１０００は、配置決定部３０４がオブジェクト情報を基に生成する情報である。オブジェクトのセット情報は、セット番号１００１、オブジェクトの識別子１００２、相対開始時刻１００３の情報で表される。

セット番号１００１には、同一のオブジェクトには同一の数値が割り当てられ、同一のものがないオブジェクトはこのセット情報テーブル１０００に含まれない。

オブジェクトの識別子１００２は、図８の識別子８０１に記述されている識別子から用いられる。

相対開始時刻１００３は、同一のセット番号を持つオブジェクトの要約映像における相対開始時刻が割り当てられる。

次に生成部３０５が生成する要約映像においてオブジェクトが出現する開始時刻の一例について図１１のテーブルを用いて説明する。オブジェクトの開始時刻テーブル１２００は、生成部３０５によりオブジェクトのセット情報テーブル１０００を基に生成される情報である。オブジェクトの開始時刻テーブル１２００は、オブジェクトの識別子１２０１、要約映像中の開始時刻１２０２の情報で表される。オブジェクトの識別子１２０１は図８の識別子８０１に対応する。要約映像中の開始時刻１２０２は、要約映像におけるオブジェクトの再生開始時刻を表す。

次には特定部３０３で同一性を判定するオブジェクトを抽出する際に用いる対応カメラテーブルについて図１２を用いて説明する。

対応カメラテーブル１１００に記載の情報は、操作端末１０５または情報処理装置１０４などの入力装置２０６等により操作者により事前に入力され、情報処理装置１０４の外部メモリ２０４に保存されるカメラ間の移動時間情報を定義するテーブルである。

対応カメラテーブル１１００は、カメラＩＤ１１０１、対応カメラＩＤ１１０２、許容最小時間差１１０３、許容最大時間差１１０４の情報で表される。カメラＩＤ１１０２および対応カメラＩＤ１１０２で用いられるカメラＩＤは、図８のカメラＩＤ８０２に対応する。

対応カメラＩＤ１１０２は、カメラＩＤ１１０１と同一性の判断を行う対象となるカメラを示しており、項目１１０５の行では、カメラＩＤ：１と対応カメラＩＤ：２の映像間で同一性を判定することを表している。

例えば、カメラＩＤ：１の映像に出現していたオブジェクトが移動して、カメラＩＤ：１からフレームアウトして、その後そのオブジェクトがカメラＩＤ：２にフレームインした場合には同一性判定を行うことを想定している。

ここに対応が記載されないカメラは同一性判断が行われず、カメラ映像毎に要約映像生成処理が行われる。

また許容最小時間差１１０３、許容最大時間差１１０４は同一性の判定を行うか否かの条件を示しており、特定部３０３が、許容最小時間差１１０３以上かつ許容最大時間差１１０４以内の時間差のオブジェクトについては、その後の同一性の判定が行われる。

許容最小時間差１１０３または許容最大時間差１１０４のいずれかまたは両方のパラメータを設定しなくてもよい。その場合はいずれかまたは両方の時間差の条件判定を行わずに後述するオブジェクトの類似度による同一性の判定が行われる。

次にフローチャートを用いて図４から図５の要約映像の配置を生成する方法について説明する。

以下の式は、本実施形態において制御部３０１において計算されるオブジェクト間の衝突コストの一例を示す数式である。

ただし、ｋはオブジェクトｉ，ｊの開始時刻の時間差であり、ｘ_ｔ ^ｉ，ｙ_ｔ ^ｉはそれぞれ時刻ｔにおけるオブジェクトｉの中心のｘ座標及びｙ座標であり、ｒ_ｔ ^ｉは時刻ｔにおけるオブジェクトｉの半径である。

また、Ｔ_ｉｊ（ｋ）は、開始時刻の時間差がｋであるとしたときに、オブジェクトｉ，ｊの両方の動作軌跡が映像中に現れる期間を表している。

本数式は２つのオブジェクトｉ，ｊの間の開始時刻の時間差をｋとした時に、オブジェクトの各フレームにおいて衝突があるか否かを計算するものである。本数式は、オブジェクトの中心間の距離が、半径の合計よりも小さいときに衝突があると判定する。

複数のオブジェクトの動作軌跡の衝突が少なく、総再生時間が短くなるように開始時刻を決定して複数のオブジェクトを時間方向に配置し、要約映像を生成する。

図１３は、本実施形態において制御部３０１において実行される処理の一例を示すフローチャートである。本実施形態のフローチャートは、映像要約サーバ１０４において、監視カメラで録画された映像が、元映像として読み込まれると実行される。映像要約サーバ１０４のＣＰＵ２０１は、処理の実行に際してＲＯＭ２０２から必要なプログラムをＲＡＭ２０３にロードし、当該プログラムを実行する。

ステップＳ１４０１は、制御部３０１で、複数の元映像からオブジェクト情報を抽出して取得し、ステップＳ１４０２に移行する。元映像から動くオブジェクトを切り出す方法はいくつかある。本実施形態では、Ｊ．Ｓｕｎ，Ｗ．Ｚｈａｎｇ，Ｘ．Ｔａｎｇ，ａｎｄＨ．Ｓｈｕｍ．Ｂａｃｋｇｒｏｕｎｄｃｕｔ．ＥＣＣＶ’０６，ｐｐ．６２８−６４１，２００６に開示されている方法を使用する。映像から動くオブジェクトを抽出する方法は他の方法を用いてもよい。

オブジェクトの情報は、図８に示すオブジェクト情報テーブルと、図９に示す動作軌跡テーブルにより構成される。抽出したオブジェクト情報には識別子が割り振られ、カメラＩＤには抽出した映像のカメラＩＤが、開始時刻には元映像中のオブジェクトが現れた時刻が、動作軌跡にはオブジェクトの相対時刻、中心座標、半径、画素マスクが記録される。図４の元映像の動作軌跡４０１〜４０８は、それぞれ識別子ＩＤ＿００１〜ＩＤ＿００８が割り当てられる。

ステップＳ１４０２では、制御部３０１において、後述する抽出したオブジェクトの特定処理を特定部３０３が行い、同一と判定されたオブジェクトを図１０のセット情報テーブル１０００にまとめ、ステップＳ１４０３に移行する。ここではオブジェクト４０３と４０４、４０６と４０７がそれぞれ同一オブジェクトとして判定される。

ステップＳ１４０３では、配置決定部３０４においてオブジェクト情報テーブル８００に基づきオブジェクト間の時間方向の配置を決定した上で、オブジェクトの開始時刻テーブル１２００を生成し、ステップＳ１４０４に移行する。

本ステップではまず抽出した同一のオブジェクトの複数のセットの間隔を求め、その間隔を除きかつ重なりのないようにセット情報テーブル１０００を作成する。

図１０のセット情報テーブル１０００の相対開始時刻の求め方の一例を説明する。

オブジェクト情報テーブル８００から識別子ＩＤ＿００３のオブジェクト４０３の開始時刻は２０、識別子ＩＤ＿００４のオブジェクト４０４の開始時刻は１００、その差は８０である。

しかし、オブジェクト４０３がカメラＩＤ：１のカメラから終了時刻８０にフレームアウトし、カメラＩＤ：２のカメラに開始時刻１００にフレームインする。その間の間隔２０を除くと、オブジェクト４０３とオブジェクト４０４の相対的な開始時刻の差は、６０と求められる。この相対的な開始時刻の差は、ユーザの所望するオブジェクトの密度によっては、６０以上の数字の範囲で変化する。

次にオブジェクト４０１〜４０８の要約映像における開始時刻を求める。具体的には、先ほど求めた相対的配置を維持しつつ、複数のオブジェクトの動作軌跡の衝突が少なく、総再生時間が短くなるようにエネルギー関数を定義する。そして、特許文献１に記載のシミュレーテッドアニーリング法（ＳｉｍｕｌａｔｅｄＡｎｎｅａｌｉｎｇ、疑似焼きなまし法）を用いて開始時刻を決定する。

次にステップＳ１４０４では、生成部３０５においてオブジェクトの開始時刻１２００を基に要約映像を生成する。要約映像は背景映像の上に、元の元映像から画素マスクを用いて元映像から切り出したオブジェクトの映像を、算出した開始時刻を基に背景映像に張り付けていくことによって生成する。

図１４は、本実施形態において特定部３０３において実行される処理の一例を示す。

ステップＳ１５０１では特定部が対応カメラテーブル１１００を取得し、ステップＳ１５０２へ移行する。ステップＳ１５０２ではＳ１４０１で抽出したオブジェクトからカメラ情報テーブル１１００を参照しカメラＩＤと許容最小時間差および許容最大時間差の条件に合致するオブジェクトを抽出する。

ステップＳ１５０３では、特定部３０３はステップＳ１５０２で抽出したオブジェクトの映像情報から映像特徴量を取得し、ステップＳ１５０４に移行する。例えば、オブジェクトの動作軌跡の中でオブジェクトに相当する領域の画素数が最も多いフレームを選択し、そのＳＩＦＴ特徴量を求める。ＳＩＦＴとはスケール不変特徴変換（ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｏｆｏｒｏｍ）を指す。

具体的には各オブジェクトにおいて、動作軌跡テーブル９００の抽出されたオブジェクトのうち半径９０３の最も大きな元映像のフレームに対し、画素マスク９０４を適用し、オブジェクトの映像を切り取った上でＳＩＦＴ特徴量を求める。ここでは最大画素を持つオブジェクト映像に対しＳＩＦＴ特徴量を適用したが、オブジェクト同士が比較するために必要な情報が取得できる方法であれば、どのような方法であってもよい。

ステップＳ１５０４で、特定部３０３は、各オブジェクトの特徴量同士を比較し、類似度を算出し、ステップＳ１５０５に移行する。具体的には各オブジェクトが持つＳＩＦＴ特徴量を総当たり法（Ｂｒｕｔｅ−ｆｏｒｃｅｓｅａｒｃｈ）で比較し、類似度を求める。

ステップＳ１５０５で、特定部３０３は、前ステップで求めた類似度が所定の閾値以上の値を持つときに同一のオブジェクトとして判定する。例えば類似度の値域が０〜１０００で、閾値を８００とした時に、オブジェクト間の類似度が８００以上の場合はその２つのオブジェクトを同一と判定し、７９９以下の場合は異なると判定する。

カメラＩＤ：１からフレームアウトして、カメラＩＤ：２にフレームインしたオブジェクトがあったとする。そのフレームインしたオブジェクトが２以上あって、いずれも類似度が閾値以上であったとする。このように同時に同一オブジェクト候補が複数ある場合はそのなかで最も類似度の高いオブジェクトを同一オブジェクトとして、ステップＳ１５０６で、判定する。

また、もし、類似度を求めた各オブジェクトが同じ時刻のフレームである場合は、同一人物ではないと判定する。これは同一人物が異なる画角のカメラ映像に同時に映り得ないという前提に基づく。

上記処理によりここではオブジェクト情報８００の識別子ＩＤ＿００３とＩＤ＿００４、ＩＤ＿００６とＩＤ＿００７のオブジェクトがそれぞれ同一と判定されたものとする。判定部３０３の判定結果は制御部３０１に戻され、対処物のセット情報テーブル１０００のセット番号１００２の列に格納される。図１０のテーブル１０００において、同一のオブジェクトが存在した場合は、同一のセット番号を振り、テーブルに記録する。

図１５は本実施形態において配置決定部３０４において実行される処理のフローチャートを示す。ステップＳ１６０１では、配置決定部３０４が、非同一オブジェクトに対応する各移動軌跡については出現順序を変えてもよいが、同一オブジェクトに対応する各移動軌跡については、複数映像内において時間方向の出現順序が変わらないように配置を決定する。さらに配置決定部３０４は同一と判定されたオブジェクトの移動軌跡間で未検出時間がある場合に未検出時間をより短くなるように、かつオブジェクトが時間方向で重ならないように相対的な配置を決定する。

まず抽出した同一オブジェクトセットのセット情報テーブル１０００を作成する。

ここでは、オブジェクト情報テーブル８００からオブジェクト４０３の開始時刻は２０である。オブジェクト４０３の終了時刻８０とオブジェクト４０４の開始時刻１００の差は２０である。この差分の２０は短縮して相対的な開始時刻を求めるため、オブジェクト４０３とオブジェクト４０４の相対的な開始時刻の差は６０と求められる。このように同一とされたオブジェクトに対して相対開始時刻を求め、相対開始時刻１００３に記録する。

ステップＳ１６０２では対応カメラテーブル１１００にあるカメラ映像のオブジェクトの時間方向の配置を決定する。また、対応カメラテーブルにないその他の映像についてもそれぞれの映像内におけるオブジェクトの時間方向の配置を決定する。

このようにして時間方向の配置を決定して、要約映像を作成する。

作成された要約映像を受け取った操作端末１０５は、これら要約映像をディスプレイ上に並べて配置して表示する。複数の要約映像を一度に再生開始すると、映像は要約されかつ同一人物は時間方向で複数の元映像での出現順序の通りにディスプレイ上に表示され、また映像に映っていない時間は短縮されて再生される。

また同一と判定されたオブジェクトは、異なるウインドウ上で連続に表示する際に、例えば同じ色の枠で囲むなどの、同一の強調表示をする。これにより複数の要約映像で同一オブジェクトが再生されているときに同一であると認識しやすくなる。

以上のように、同一人物の同一時刻の要約映像再生において、同一人物の動作軌跡が異なる画面上で時間方向に順不同でばらばらに表示されることがなくなる。このため注目する人物の画面間の移動をスムーズに目で追うことが出来、注目人物の一連の行動を見落とすことを少なく出来る。

つづいて本実施形態の変形例を説明する。変形例では異なる点のみについて説明し、以下で、特に、説明しない限りは、先の説明と同様であるものとする。

映像要約システムの動作環境は先の説明と同じく図１の構成を用いる。また、本実施形態における映像要約サーバ１０４の機能構成も図３に示すブロック図を用いる。

ただし本実施形態では先の説明と異なり、複数の映像要約を行う対象映像において画角の重なりのある場合について説明する。

図１６（ａ）、（ｂ）は、画角の重なりのある２つの元映像の時空間におけるオブジェクトの動作軌跡の配置１７５０、１７５１を表す。図１６において、横軸、縦軸、録画時間等は図４と同等であるため省略する。

図１６（ａ）、（ｂ）はそれぞれ別の元映像であるが、（ａ）の矢印１７６０の範囲と（ｂ）の矢印１７６１の範囲では、画角が重なっていることを示す。

ここで動作軌跡１７０３と１７０４、１７０６と１７０７はそれぞれ同一人物の動作軌跡とする。２つの映像で重なりがあるため、時間方向の範囲を示す矢印１７７０の範囲では動作軌跡１７０３と１７０４、時間範囲１７７１では動作軌跡１７０６と１７０７が２つの映像で同時に出現している。

図１７（ａ）、（ｂ）は要約映像の時空間におけるオブジェクトの動作軌跡の配置１８５０、１８５１を表す。

図１７（ａ）、（ｂ）の配置１８５０、１８５１は、図１６（ａ）、（ｂ）の同一のオブジェクトについては、各移動軌跡を複数の要約映像内で出現順序と相対時間差を維持しつつ、元映像より再生時間が短くなるように各動作軌跡の開始時刻を決定したものである。

次に、受信部３０２が受信するオブジェクト情報の一例について図１８のオブジェクト情報テーブルを用いて説明する。図１８のテーブル１９００は、本実施の形態における情報処理装置１０４により映像から抽出され、受信部３０２によって受信されるオブジェクト情報を表しており、各項目の説明は図８と同等であるため省略する。

図１８では、ＩＤ＿００３の動作軌跡Ｂ３の開始時刻２０と終了時刻８０までの期間が、識別子ＩＤ＿００４の動作軌跡Ｂ４の開始時刻６０から終了時刻１１０までの期間と重なっていることから、同時に出現していることを示している。

図１９は、本実施の形態における配置決定部３０４が生成するオブジェクトのセット情報の一例を示すテーブルである。オブジェクトのセット情報テーブル２１００は、配置決定部３０４がオブジェクト情報を基に生成する情報である。

図２０は本実施の形態における同一オブジェクト特定処理で用いる対応カメラテーブルである。

この対応カメラテーブル２２００は、カメラＩＤ２２０１、対応カメラＩＤ２２０１、重複領域２２０３の情報で表される。カメラＩＤ２２０２および対応カメラＩＤ２２０２で用いられるカメラＩＤは、図１８のカメラＩＤに対応する。

対応カメラＩＤ２２０２はカメラ間で画角に重複があるカメラであることを示しており、同図では、カメラＩＤ：１と対応カメラＩＤ：２の映像間で画角の重複があることを表している。重複領域２２０３は、その重複領域を映像内の座標点を結んだ閉領域が重複領域であることを示している。この例では映像内の座標点のＰ１、Ｐ２、Ｐ３等を含む閉領域が重複領域である。

図２１は、本実施の形態における生成部３０５が生成するオブジェクトの開始時刻の一例を示すテーブルである。

本実施の形態においても、図１３で示すフローチャートを用いる。ただし本実施の形態ではＳ１４０２の連続する同一オブジェクトの特定処理とＳ１４０３のオブジェクトの配置決定処理が実施の形態１と異なるためそれぞれ図２２と図２３を用いて説明する。

図２２は、本実施形態において特定部３０３において実行される処理の一例を示す。

ステップＳ２４０１では特定部が重複領域情報を含む対応カメラテーブル２２００を取得し、ステップＳ２４０２へ移行する。

ステップＳ２４０２ではＳ２４０１で抽出したオブジェクトからカメラテーブル２２００を参照し画角の重複のあるカメラ映像間で出現時間の重なりのあるオブジェクトを抽出する。重複領域情報２２０３がある場合は重複領域に位置するオブジェクト同士で出現時間の重なりのあるオブジェクトを抽出する。

ステップＳ２４０３では、特定部３０３はステップＳ２４０２で抽出したオブジェクトの映像情報から映像特徴量を取得し、ステップＳ２４０４に移行する。

ステップＳ２４０４からステップ２４０６は、実施の形態１のステップＳ１５０４からステップＳ１５０６と同様の処理であるため省略する。

図２３は本実施形態において配置決定部３０４において実行される処理の一例を示す。ステップＳ２５０１は、配置決定部３０４で、同一オブジェクトに対し各移動軌跡を複数映像内での出現順序を変えないようにセット情報テーブル２１００を作成する。

ここでは、図１８のオブジェクト情報からＩＤ＿００３のオブジェクト１７０３の開始時刻は２０、ＩＤ＿００４のオブジェクト１７０４の開始時刻は６０である。そのため、セット情報テーブル２１００のＩＤ＿００３に対するＩＤ＿００４の相対開始時刻は４０と求められる。同様にオブジェクト１７０６の開始時刻は１６０、オブジェクト１７０７の開始時刻は１７０である。そのため、セット情報テーブル２１００のＩＤ＿００６に対するＩＤ＿００７の相対開始時刻は１０と求められる。

このようにすべての同一とされたオブジェクトに対して相対開始時刻を求め、ゼット情報テーブル２１００のテーブルに記録する。

ステップＳ２５０２では対応カメラテーブル２２００にあるカメラ映像の全オブジェクトの時間方向の配置を決定する。また、対応カメラテーブル２２００にないその他の映像はそれぞれの映像内におけるオブジェクトの時間方向の配置を決定する。

図２１に全てのオブジェクトの相対開始時刻を割り当てた時のテーブルを示す。

このようにして複数の映像から作成された要約映像を映像毎に操作端末１０５のディスプレイ上の複数に並列に配置された各ウインドウへ表示する。複数の要約映像を一度に再生開始すると、映像は要約されかつ画角の重複するカメラ間であっても同一人物の動作軌跡が異なる画面上で時間を分けて別々に表示されることがなくなる。また画角の重複する部分では、同一人物は同時に複数の要約再生画面で表示される。

また、同一と判定されたオブジェクトが、異なるウインドウ上で同時に表示される際に同一であることを示すように強調表示をすることで、これらのオブジェクトが同時に再生されている時に同一人物であるとユーザによって認識されやすくすることができる。

この処理は、映像要約サーバ１０４によって行われてもよいし、操作端末１０５によって行われてもよい。強調表示はオブジェクトを囲むバウンディングボックスでもよい。

このバウンディングボックスの色を同一人物では同じとすることで、同一人物であるとユーザが認識しやすくなる。映像要約サーバ１０４で強調表示を行う場合には、要約映像上のオブジェクトに強調表示の処理を加えられたバウンディングボックスを重畳してから操作端末１０５に送信してもよい。

また、操作端末１０５で強調表示を行う場合には、映像要約サーバ１０４が強調表示の位置や色等をメタデータとして要約映像とともに操作端末１０５に送る。そして、操作端末１０５が受信したメタデータに基づいて強調表示のバウンディングボックスを生成して要約映像に重畳する。このようにして、ディスプレイに出力してもよい。

以上のように、元映像を短く要約された要約映像にして効率的に元映像をユーザが確認できる利点は残しつつ、同一人物の動作軌跡が複数の要約映像上でばらばらな時間に表示されることがなくなる。また画角の重複する複数映像間であっても重複部分の人物は同時に複数の要約映像の再生画面で表示されるため、注目する人物の画面間の移動をスムーズに目で追うことが出来、注目人物を見落とすことを少なく出来る。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０４映像要約サーバ
３０１制御部
３０２受信部
３０３特定部
３０４配置決定部
３０５生成部

Claims

元映像の中で検出された複数のオブジェクトの出現順序を変更することにより、前記複数の元映像に対応する複数の要約映像を生成する情報処理装置において、
前記複数の元映像の中でそれぞれに検出された複数のオブジェクトから同一のオブジェクトを特定する特定手段と、
前記特定手段により同一のオブジェクトと特定された複数のオブジェクトの動作軌跡の配置を、前記複数の要約映像上で決定する際に、前記同一のオブジェクトについての前記複数の動作軌跡の間で出現順序は元映像から変えないで、互いに時間方向で重ならないように決定する決定手段と、
前記決定手段により決定された配置に基づき、前記複数の元映像に対応する複数の要約映像を生成する生成手段と、
を有することを特徴とする映像要約装置。
前記決定手段は、前記特定手段によって同一と特定された前記複数のオブジェクトについて、元映像での相対時間差を変えないように相対的な配置を決定することを特徴とする請求項１に記載の映像要約装置。
前記特定手段は、元映像の中で検出された前記複数のオブジェクトの映像特徴に基づいて前記複数のオブジェクトの間の同一性を特定することを特徴とする請求項１または請求項２のいずれか１項に記載の映像要約装置。
前記特定手段は、元映像の中で検出された前記複数のオブジェクトの各映像内の位置を基にオブジェクトの間の同一性を判定することを特徴とする請求項１または請求項２のいずれか１項に記載の映像要約装置。
前記決定手段は、
前記元映像での出現時刻が許容する時間差の範囲であって、且つ、互いに同一と判定された前記複数のオブジェクトの動作軌跡が互いに時間方向に重ならないように相対的な配置を決定することを特徴とする請求項１乃至４のいずれか１項に記載の映像要約装置。
複数の要約映像を同時に再生する再生手段と、
前記再生手段は、生成された前記複数の要約映像のうち、前記同一のオブジェクトが含まれる複数の要約映像の再生開始のタイミングを同一とする再生開始手段と、をさらに備えることを特徴とする請求項１乃至５いずれか１項に記載の映像要約装置。
前記特定手段により同一と特定された前記複数のオブジェクトを表示する際に同一の強調表示をすることを特徴とする請求項６に記載の映像要約装置。
前記映像要約装置と、
前記映像要約装置が出力した情報を表示する表示装置と、
をさらに備えることを特徴とする、請求項１乃至７いずれか１項に記載の映像要約システム。
元映像の中で検出された複数のオブジェクトの出現順序を変更することにより、前記複数の元映像に対応する複数の要約映像を生成する映像要約方法であって、
前記複数の元映像の中でそれぞれに検出された複数のオブジェクトから同一のオブジェクトを特定するステップと、
前記特定ステップにより同一のオブジェクトと特定された複数のオブジェクトの動作軌跡の配置を、前記複数の要約映像上で決定する際に、前記同一のオブジェクトについての前記複数の動作軌跡の間で出現順序は元映像から変えないで、互いに時間方向で重ならないように決定するステップと、
前記決定ステップにより決定された配置に基づき、前記複数の元映像に対応する複数の要約映像を生成するステップと、
を有することを特徴とする映像要約方法。
コンピュータを請求項１から７のいずれか１項に記載の映像要約装置の各手段として機能させるためのプログラム。