JP2021103810A - 映像要約装置、映像要約システム、映像要約方法、およびプログラム - Google Patents
映像要約装置、映像要約システム、映像要約方法、およびプログラム Download PDFInfo
- Publication number
- JP2021103810A JP2021103810A JP2019233227A JP2019233227A JP2021103810A JP 2021103810 A JP2021103810 A JP 2021103810A JP 2019233227 A JP2019233227 A JP 2019233227A JP 2019233227 A JP2019233227 A JP 2019233227A JP 2021103810 A JP2021103810 A JP 2021103810A
- Authority
- JP
- Japan
- Prior art keywords
- video
- objects
- original
- same
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 複数の監視カメラで連続して撮像された同一のオブジェクトが、要約映像ではばらばらに異なる時刻で再生されてしまうことがなくし、ユーザが注目している人物をスムーズに一連の動きとして目で追うことが出来るようにし、見落とす可能性を少なくする。【解決手段】 元映像の中で検出された複数のオブジェクトの出現順序を変更することにより、複数の元映像に対応する複数の要約映像を生成する情報処理装置において、複数の元映像の中でそれぞれに検出された複数のオブジェクトから同一のオブジェクトを特定し、同一のオブジェクトと特定された複数のオブジェクトの動作軌跡の配置を、同一のオブジェクトについての複数の動作軌跡の間で出現順序は元映像から変えないで、互いに時間方向で重ならないように決定し、決定された配置に基づき、複数の元映像に対応する複数の要約映像を生成する。【選択図】 図3
Description
本発明は、映像要約装置、映像要約システム、映像要約方法、およびプログラムに関する。
近年防犯に対する意識が高まっており、様々な場所で監視カメラが活用されるようになってきている。
監視カメラの長時間録画された映像を効率的に見る方法として特許文献1に示すような映像を要約する技術がある。
この技術は、録画された長時間の映像(以下、元映像)から、動きのある人物や車両などのオブジェクトを抽出する。そして、互いが重ならないように時間方向にシフトさせ出現順序を入れ替える。このようにして短時間の映像(以下、要約映像)に変換する方法である。
特許文献2ではさらに、映像中で動くオブジェクト間の領域同士の関係からオブジェクト間の関連付けを行う方法が提案されている。これにより元映像に登場する2つのオブジェクトを対応付けして扱うことが可能になる。
ユーザが比較的距離の近い複数の領域を複数の監視カメラで録画して監視しているとする。そして、ユーザが注目している人物が、複数の監視カメラの監視する複数の領域を連続に横切って通行したとする。
複数の監視カメラの録画した映像をすべて、ユーザが確認するのは骨が折れる。そこで、ユーザがそれぞれの要約映像を生成し、一回の再生操作で複数の元映像を確認することにしたとする。具体的には、再生する際に、各々の要約映像を1つのディスプレイ上にウインドウを並べて表示して、これらを同時に再生したとする。
元映像では、注目しているその人物が各々の監視カメラの前を連続的に横切って出現しているにも関わらず、その人物は複数の要約映像に必ずしも連続的に出現しないことがある。これは、要約映像では各々の要約映像で個別に出現時刻をずらし出現順序を入れ替えることによる。
これにより、ユーザはそれら人物などのオブジェクトが同一のオブジェクトであったと認識することが難しくなってしまい、複数の監視カメラの撮像領域にわたって移動するオブジェクトの行動を一連の動きとして認識しないで、見落としてしまう可能性があった。
元映像の中で検出された複数のオブジェクトの出現順序を変更することにより、複数の元映像に対応する複数の要約映像を生成する情報処理装置において、複数の元映像の中でそれぞれに検出された複数のオブジェクトから同一のオブジェクトを特定する特定手段と、特定手段により同一のオブジェクトと特定された複数のオブジェクトの動作軌跡の配置を、複数の要約映像上で決定する際に、同一のオブジェクトについての複数の動作軌跡の間で出現順序は元映像から変えないで、互いに時間方向で重ならないように決定する決定手段と、決定手段により決定された配置に基づき、複数の元映像に対応する複数の要約映像を生成する生成手段と、を有することを特徴とする。
本発明によれば、複数の監視カメラで連続して撮像された同一のオブジェクトが、要約映像ではばらばらに異なる時刻で再生されてしまうことがなくなるため、ユーザが注目している人物をスムーズに一連の動きとして目で追うことが出来、見落しの可能性を少なく出来る。
以下、添付図面を参照して、本発明を実施するための形態について詳細に説明する。
なお、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。
図1は、本実施形態におけるネットワークカメラシステム10を説明する図である。
ネットワークカメラシステム10は、少なくとも2台の監視カメラ(以下、単に「カメラ」ともいう)102、106と、情報処理装置103、104、105を備える。情報処理装置103は映像録画サーバ、情報処理装置104は映像要約サーバ、情報処理装置105は操作端末として、それぞれ構成することができる。映像要約サーバ104は映像要約装置と呼んでもよい。これらの情報処理装置は、物理的に独立した装置として構成されてもよい。あるいは、これらは一体的に構成されてもよい。
カメラ102、106と情報処理装置103、104、105とは、ネットワーク回線であるLAN(Local Area Network)101によって接続されている。なお、ネットワーク回線はLANに限定されるものではなく、インターネットやWAN(Wide Area Network)などであってもよい。また、LAN101への接続形態は、有線であってもよいし、無線であってもよい。さらに、図1において、カメラ102、106及び情報処理装置103、104、105が、LAN101に接続されているが、接続台数は図1に示す数だけに限定されるものではない。
カメラ102、106は、所定の画角で監視対象空間内に存在する所定の被写体を撮像する撮像装置である。カメラ102、106は、撮像された映像を、LAN101を介して各情報処理装置103、104、105へ送信する機能を有する。
映像録画サーバ103は、カメラ102から送信された映像をLAN101経由で受信して保存、蓄積する。また、映像録画サーバ103は、映像要約サーバ104及び操作端末105から受け付けた要求に応じて保存している映像を各装置に送信する。
映像要約サーバ104は、映像録画サーバ103に記録されている映像をLAN101経由で受信し、映像要約処理を行う。
本実施形態の以下の説明では、映像要約サーバ104が解析結果や登録情報を保持する構成としているが、ネットワークを介した他のデータベースや操作端末105に保存する構成としても構わない。
操作端末105は、表示装置(ディスプレイ)を備える。そして、カメラ102から受信した要約処理を行う前の元映像や、映像録画サーバ103に記録された元映像を再生させ表示させる。そして、映像要約サーバ104から受信した要約映像を表示装置に表示させる。また操作端末105は、元映像を要約する制御を指示する指示用途のユーザインタフェースと入力部を備え、映像の要約に関するパラメータ、例えば要約の程度を表すオブジェクトの密度、の設定等を行うための機能を有する。
また、本実施形態の以下の説明では、複数の要約映像を表示するための表示制御機能は、複数のカメラ毎に作成された要約映像を操作端末105のディスプレイ上で並列に配置された複数の各ウインドウ内へ表示する。ただし、それに限らず、複数のウインドウではなく複数の表示装置を物理的に並べて各表示装置に各々の要約映像をそれぞれ表示するような形態をとっても構わない。
次に、発明の実施形態に対応する各装置の構成について説明する。
図2は、発明の実施形態に対応するカメラ102のハードウェア構成の一例を示す図である。カメラ102は、CPU201、ROM202、RAM203、外部メモリ204、撮像部205、入力部206、通信I/F207、システムバス208を含んで構成することができる。これ以外の構成をさらに含んでいてもよい。
CPU201は、カメラ102における動作を統括的に制御する制御部であって、システムバス208を介して、各構成要素(202〜207)の動作を制御する。
ROM202は、CPU201が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、外部メモリ204や着脱可能な記憶媒体(不図示)に記憶されていてもよい。
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。すなわち、CPU201は、処理の実行に際してROM202から必要なプログラム等をRAM203にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
外部メモリ204は、例えば、CPU201がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、外部メモリ204には、例えば、CPU201がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
撮像部205は、被写体の撮像を行って映像を生成する。撮像部205は、例えばCMOS(Complementary Metal Oxide Semiconductor)、CCD(Charge Coupled Device)等の撮像素子、A/D変換器、現像処理部等を含んで構成することができる。
入力部206は電源ボタンや設定ボタンなどから構成され、カメラ102の操作者は、入力部206を介して当該カメラ102に指示を与えることができる。
通信I/F207は、外部装置(ここでは、情報処理装置103)と通信するためのインターフェースである。通信I/F207は、例えばLANインターフェースである。
システムバス208は、CPU201、ROM202、RAM203、外部メモリ204、撮像部205、入力部206及び通信I/F207を通信可能に接続する。
カメラ102の各部の機能は、CPU201がROM202もしくは外部メモリ204に記憶されたプログラムを実行することで実現される。
本実施形態において、情報処理装置103から105のそれぞれのハードウェア構成についても、図2に示すハードウェア構成に準ずる。ただし、その場合には、撮像部205に代えて、表示部等のハードウェア構成を具備する。ここで、表示部は、液晶ディスプレイ(LCD)等のモニタで構成される。また、情報処理装置103から105は、入力部206として、キーボードやマウス等のポインティングデバイスを具備し、操作者が情報処理装置103から105に対して指示を与えることができるように構成される。また、外部メモリ204は、種々の情報を記憶しておくためのデータベースを含むことができる。
図3は、発明の実施形態に対応する情報処理装置としての映像要約サーバ104の機能構成の一例を示す機能ブロック図である。映像要約サーバ104は、制御部301、受信部302、特定部303、配置決定部304、生成部304を備えることが出来る。
図3に示す各機能構成要素は、映像要約サーバ104のCPU201が対応する処理プログラムを実行することによって実現される。
本実施形態では、図3の各機能を映像要約サーバ104内に搭載する場合を説明するが、機能の一部を他の機器に搭載してもよい。例えば、機能の一部をカメラ102内に搭載してもよいし、映像録画サーバ103を含む他の情報処理装置に搭載してもよい。また、本実施形態においては、映像要約サーバ104が被写体として主に人物を検出する場合を説明するが、検出対象となる被写体は人物に限定されるものではない。例えば、車両を検出対象とすることもできる。
制御部301は、CPU201等から構成され、ROM202に記憶されたプログラムやデータをRAM203に読み出して映像生成などの処理を実行する。
受信部302は、映像を受信する。映像は外部メモリ204に保存されたものを取得してもよいし、ネットワークインタフェース207を介してネットワーク208上にある映像を取得してもよい。
特定部303は、映像のそれぞれにおいて検出されたオブジェクトが同一かどうかを判定する。配置決定部304、は同一と判定したオブジェクトの動作軌跡の要約映像における時間方向の相対的な配置を決定する。
生成部305は、映像から抽出された全てのオブジェクトの要約映像における再生時刻を決定し、要約映像を生成する。生成された要約映像は外部メモリ204に保存され、ディスプレイなどの出力装置205において再生される。
図4(a)、(b)は、元映像の時空間におけるオブジェクトの動作軌跡の配置450、451を表す図である。
横軸が空間を表し、縦軸が時間を表す。空間は通常xとyの2軸で構成されるが、ここでは表現のわかりやすさを優先してy軸の値は省略し、あるyの値の時のx軸のみを用いて表現する。時間は最下部が録画の開始時間、最上部が録画の終了時間となる。
(a)、(b)はそれぞれ別の映像であって、ユーザが比較的距離の近い複数の領域を2つのカメラでそれぞれに撮像して監視していることとする。2つのカメラは同一の時刻に撮像を開始し同一の時刻に撮像を終了し、2つの映像は互いに撮像画角が異なる映像であるとする。
図4の401〜408で表される曲線は、映像に現れるオブジェクトの中心の軌跡を表す。始点が映像に出現したタイミングでの時空間上の点を表し、その時刻が出現時刻である。オブジェクトを囲む点線はオブジェクトの範囲を表す。オブジェクトは複数の連続するフレームにそれぞれ現れる画素の集合として表現することができる。オブジェクトの中心はオブジェクトの画素集合の中心位置を、オブジェクトの範囲は画素集合の面積を基に算出した半径を用いる。計算方法の詳細は後述する。
ここで動作軌跡403と404、406と407はそれぞれ同一人物の動作軌跡とする。
図5(a)、(b)は要約映像の時空間におけるオブジェクトの動作軌跡の配置550、551を表す。
図5(a)、(b)の配置550、551は、図4(a)、(b)のオブジェクトの各移動軌跡について、再配置されたものである。オブジェクトの移動軌跡間の未検出時間を短縮し、かつ空間方向も時間方向もオブジェクトが重ならない。そして、再生時間が短くなる。このような条件を満たすようにして、要約映像での各オブジェクトの動作軌跡の配置を決定したものである。動作軌跡の配置については、元映像に対して空間方向にはずらさないで、時間方向にだけずらすように決定されている。
図4(a)の動作軌跡の要約後の配置が図5(a)に、図4(b)の動作軌跡の要約後の配置が図5(b)に、それぞれ対応している。
図5のオブジェクトの動作軌跡501〜508はそれぞれ、図4(a)、(b)の401〜408の動作軌跡の開始時刻をずらして配置したものである。
図6(a)、(b)は制御部301が受け付ける映像のフレームの一例を表す。図6(a)、(b)は、図4(a)、(b)の一点鎖線のフレーム409を表す。人物601はオブジェクト402、人物602はオブジェクト403に対応する。
図7(a)、(b)は生成部305が出力する要約映像のフレームの一例を表す。図7(a)、(b)は、図5(a)、(b)の一点鎖線のフレーム509を表す。
人物701はオブジェクト508に対応する。映像を要約することで、人物601、602以外に、異なる時間に録画された別な人物701がフレームインすることを示している。
次に、受信部302が受信するオブジェクト情報の一例について図8のオブジェクト情報テーブルを用いて説明する。
図8のテーブル800は情報処理装置104により映像から抽出されるオブジェクト情報を表している。
オブジェクト情報は、識別子801、カメラID802、開始時刻803、動作軌跡804、終了時刻805の情報で表される。カメラID802は、映像の要約に用いる映像を取得したカメラを識別する識別子である。
開始時刻803は映像の開始時刻を0とした時に、オブジェクトが現れる時刻を表す。動作軌跡は図9にて説明する。終了時刻805は映像の開始時刻を0とした時に、オブジェクトが映像からフレームアウトする時刻を表す。
図9は動作軌跡テーブルである。受信部302が受信する動作軌跡の一例について本テーブルを用いて説明する。図8のオブジェクト情報テーブルの動作軌跡804のB1は、図9の動作軌跡テーブルが指し示すものである。図8の動作軌跡804のB2からB8についてもB1と同様な動作軌跡テーブルがあるが説明を省略する。
動作軌跡テーブルは時刻901、中心座標902、半径903、画素マスク904の情報で表され、各フレームの情報が時系列で格納される。このテーブルには図8の識別子ID_001のオブジェクトについて、図9の時刻901に示すように、時刻0から60までの動作軌跡が記録されている。時刻901は該オブジェクトが映像に現れてからの時刻を表す。
中心座標902はオブジェクトのフレームごとの画素集合の中心位置を表す。オブジェクトの画素集合は背景との差分として抽出される。中心位置は、オブジェクトの画素全ての座標の平均値とする。半径903は後述の映像処理において用いるオブジェクトの範囲を表す。半径はオブジェクトの画素の合計数をSとした時に、S/πの平方を求めることにより算出する。すなわち、オブジェクトの範囲をここでは円に近似して半径で表現しているが、範囲を特定できる表現であれば他の形式を用いてもよい。
画素マスク904はフレーム内のオブジェクトの詳細な画素位置を表すマスク情報へのリンクを表す。ここでは画素マスクをオブジェクトとそれ以外を区別する情報を持つ映像として記憶するが、これらが区別できるものであれば映像以外の形式であってもよい。
次に配置決定部304が生成するオブジェクトのセット情報の一例について図10のテーブルを用いて説明する。
オブジェクトのセット情報テーブル1000は、配置決定部304がオブジェクト情報を基に生成する情報である。オブジェクトのセット情報は、セット番号1001、オブジェクトの識別子1002、相対開始時刻1003の情報で表される。
セット番号1001には、同一のオブジェクトには同一の数値が割り当てられ、同一のものがないオブジェクトはこのセット情報テーブル1000に含まれない。
オブジェクトの識別子1002は、図8の識別子801に記述されている識別子から用いられる。
相対開始時刻1003は、同一のセット番号を持つオブジェクトの要約映像における相対開始時刻が割り当てられる。
次に生成部305が生成する要約映像においてオブジェクトが出現する開始時刻の一例について図11のテーブルを用いて説明する。オブジェクトの開始時刻テーブル1200は、生成部305によりオブジェクトのセット情報テーブル1000を基に生成される情報である。オブジェクトの開始時刻テーブル1200は、オブジェクトの識別子1201、要約映像中の開始時刻1202の情報で表される。オブジェクトの識別子1201は図8の識別子801に対応する。要約映像中の開始時刻1202は、要約映像におけるオブジェクトの再生開始時刻を表す。
次には特定部303で同一性を判定するオブジェクトを抽出する際に用いる対応カメラテーブルについて図12を用いて説明する。
対応カメラテーブル1100に記載の情報は、操作端末105または情報処理装置104などの入力装置206等により操作者により事前に入力され、情報処理装置104の外部メモリ204に保存されるカメラ間の移動時間情報を定義するテーブルである。
対応カメラテーブル1100は、カメラID1101、対応カメラID1102、許容最小時間差1103、許容最大時間差1104の情報で表される。カメラID1102および対応カメラID1102で用いられるカメラIDは、図8のカメラID802に対応する。
対応カメラID1102は、カメラID1101と同一性の判断を行う対象となるカメラを示しており、項目1105の行では、カメラID:1と対応カメラID:2の映像間で同一性を判定することを表している。
例えば、カメラID:1の映像に出現していたオブジェクトが移動して、カメラID:1からフレームアウトして、その後そのオブジェクトがカメラID:2にフレームインした場合には同一性判定を行うことを想定している。
ここに対応が記載されないカメラは同一性判断が行われず、カメラ映像毎に要約映像生成処理が行われる。
また許容最小時間差1103、許容最大時間差1104は同一性の判定を行うか否かの条件を示しており、特定部303が、許容最小時間差1103以上かつ許容最大時間差1104以内の時間差のオブジェクトについては、その後の同一性の判定が行われる。
許容最小時間差1103または許容最大時間差1104のいずれかまたは両方のパラメータを設定しなくてもよい。その場合はいずれかまたは両方の時間差の条件判定を行わずに後述するオブジェクトの類似度による同一性の判定が行われる。
次にフローチャートを用いて図4から図5の要約映像の配置を生成する方法について説明する。
以下の式は、本実施形態において制御部301において計算されるオブジェクト間の衝突コストの一例を示す数式である。
ただし、kはオブジェクトi,jの開始時刻の時間差であり、xt i,yt iはそれぞれ時刻tにおけるオブジェクトiの中心のx座標及びy座標であり、rt iは時刻tにおけるオブジェクトiの半径である。
また、Tij(k)は、開始時刻の時間差がkであるとしたときに、オブジェクトi,jの両方の動作軌跡が映像中に現れる期間を表している。
本数式は2つのオブジェクトi,jの間の開始時刻の時間差をkとした時に、オブジェクトの各フレームにおいて衝突があるか否かを計算するものである。本数式は、オブジェクトの中心間の距離が、半径の合計よりも小さいときに衝突があると判定する。
複数のオブジェクトの動作軌跡の衝突が少なく、総再生時間が短くなるように開始時刻を決定して複数のオブジェクトを時間方向に配置し、要約映像を生成する。
図13は、本実施形態において制御部301において実行される処理の一例を示すフローチャートである。本実施形態のフローチャートは、映像要約サーバ104において、監視カメラで録画された映像が、元映像として読み込まれると実行される。映像要約サーバ104のCPU201は、処理の実行に際してROM202から必要なプログラムをRAM203にロードし、当該プログラムを実行する。
ステップS1401は、制御部301で、複数の元映像からオブジェクト情報を抽出して取得し、ステップS1402に移行する。元映像から動くオブジェクトを切り出す方法はいくつかある。本実施形態では、J.Sun,W.Zhang,X.Tang,and H.Shum.Background cut.ECCV’06,pp.628−641,2006に開示されている方法を使用する。映像から動くオブジェクトを抽出する方法は他の方法を用いてもよい。
オブジェクトの情報は、図8に示すオブジェクト情報テーブルと、図9に示す動作軌跡テーブルにより構成される。抽出したオブジェクト情報には識別子が割り振られ、カメラIDには抽出した映像のカメラIDが、開始時刻には元映像中のオブジェクトが現れた時刻が、動作軌跡にはオブジェクトの相対時刻、中心座標、半径、画素マスクが記録される。図4の元映像の動作軌跡401〜408は、それぞれ識別子ID_001〜ID_008が割り当てられる。
ステップS1402では、制御部301において、後述する抽出したオブジェクトの特定処理を特定部303が行い、同一と判定されたオブジェクトを図10のセット情報テーブル1000にまとめ、ステップS1403に移行する。ここではオブジェクト403と404、406と407がそれぞれ同一オブジェクトとして判定される。
ステップS1403では、配置決定部304においてオブジェクト情報テーブル800に基づきオブジェクト間の時間方向の配置を決定した上で、オブジェクトの開始時刻テーブル1200を生成し、ステップS1404に移行する。
本ステップではまず抽出した同一のオブジェクトの複数のセットの間隔を求め、その間隔を除きかつ重なりのないようにセット情報テーブル1000を作成する。
図10のセット情報テーブル1000の相対開始時刻の求め方の一例を説明する。
オブジェクト情報テーブル800から識別子ID_003のオブジェクト403の開始時刻は20、識別子ID_004のオブジェクト404の開始時刻は100、その差は80である。
しかし、オブジェクト403がカメラID:1のカメラから終了時刻80にフレームアウトし、カメラID:2のカメラに開始時刻100にフレームインする。その間の間隔20を除くと、オブジェクト403とオブジェクト404の相対的な開始時刻の差は、60と求められる。この相対的な開始時刻の差は、ユーザの所望するオブジェクトの密度によっては、60以上の数字の範囲で変化する。
次にオブジェクト401〜408の要約映像における開始時刻を求める。具体的には、先ほど求めた相対的配置を維持しつつ、複数のオブジェクトの動作軌跡の衝突が少なく、総再生時間が短くなるようにエネルギー関数を定義する。そして、特許文献1に記載のシミュレーテッドアニーリング法(Simulated Annealing、疑似焼きなまし法)を用いて開始時刻を決定する。
次にステップS1404では、生成部305においてオブジェクトの開始時刻1200を基に要約映像を生成する。要約映像は背景映像の上に、元の元映像から画素マスクを用いて元映像から切り出したオブジェクトの映像を、算出した開始時刻を基に背景映像に張り付けていくことによって生成する。
図14は、本実施形態において特定部303において実行される処理の一例を示す。
ステップS1501では特定部が対応カメラテーブル1100を取得し、ステップS1502へ移行する。ステップS1502ではS1401で抽出したオブジェクトからカメラ情報テーブル1100を参照しカメラIDと許容最小時間差および許容最大時間差の条件に合致するオブジェクトを抽出する。
ステップS1503では、特定部303はステップS1502で抽出したオブジェクトの映像情報から映像特徴量を取得し、ステップS1504に移行する。例えば、オブジェクトの動作軌跡の中でオブジェクトに相当する領域の画素数が最も多いフレームを選択し、そのSIFT特徴量を求める。SIFTとはスケール不変特徴変換(Scale Invariant Feature Transoforom)を指す。
具体的には各オブジェクトにおいて、動作軌跡テーブル900の抽出されたオブジェクトのうち半径903の最も大きな元映像のフレームに対し、画素マスク904を適用し、オブジェクトの映像を切り取った上でSIFT特徴量を求める。ここでは最大画素を持つオブジェクト映像に対しSIFT特徴量を適用したが、オブジェクト同士が比較するために必要な情報が取得できる方法であれば、どのような方法であってもよい。
ステップS1504で、特定部303は、各オブジェクトの特徴量同士を比較し、類似度を算出し、ステップS1505に移行する。具体的には各オブジェクトが持つSIFT特徴量を総当たり法(Brute−force search)で比較し、類似度を求める。
ステップS1505で、特定部303は、前ステップで求めた類似度が所定の閾値以上の値を持つときに同一のオブジェクトとして判定する。例えば類似度の値域が0〜1000で、閾値を800とした時に、オブジェクト間の類似度が800以上の場合はその2つのオブジェクトを同一と判定し、799以下の場合は異なると判定する。
カメラID:1からフレームアウトして、カメラID:2にフレームインしたオブジェクトがあったとする。そのフレームインしたオブジェクトが2以上あって、いずれも類似度が閾値以上であったとする。このように同時に同一オブジェクト候補が複数ある場合はそのなかで最も類似度の高いオブジェクトを同一オブジェクトとして、ステップS1506で、判定する。
また、もし、類似度を求めた各オブジェクトが同じ時刻のフレームである場合は、同一人物ではないと判定する。これは同一人物が異なる画角のカメラ映像に同時に映り得ないという前提に基づく。
上記処理によりここではオブジェクト情報800の識別子ID_003とID_004、ID_006とID_007のオブジェクトがそれぞれ同一と判定されたものとする。判定部303の判定結果は制御部301に戻され、対処物のセット情報テーブル1000のセット番号1002の列に格納される。図10のテーブル1000において、同一のオブジェクトが存在した場合は、同一のセット番号を振り、テーブルに記録する。
図15は本実施形態において配置決定部304において実行される処理のフローチャートを示す。ステップS1601では、配置決定部304が、非同一オブジェクトに対応する各移動軌跡については出現順序を変えてもよいが、同一オブジェクトに対応する各移動軌跡については、複数映像内において時間方向の出現順序が変わらないように配置を決定する。さらに配置決定部304は同一と判定されたオブジェクトの移動軌跡間で未検出時間がある場合に未検出時間をより短くなるように、かつオブジェクトが時間方向で重ならないように相対的な配置を決定する。
まず抽出した同一オブジェクトセットのセット情報テーブル1000を作成する。
ここでは、オブジェクト情報テーブル800からオブジェクト403の開始時刻は20である。オブジェクト403の終了時刻80とオブジェクト404の開始時刻100の差は20である。この差分の20は短縮して相対的な開始時刻を求めるため、オブジェクト403とオブジェクト404の相対的な開始時刻の差は60と求められる。このように同一とされたオブジェクトに対して相対開始時刻を求め、相対開始時刻1003に記録する。
ステップS1602では対応カメラテーブル1100にあるカメラ映像のオブジェクトの時間方向の配置を決定する。また、対応カメラテーブルにないその他の映像についてもそれぞれの映像内におけるオブジェクトの時間方向の配置を決定する。
このようにして時間方向の配置を決定して、要約映像を作成する。
作成された要約映像を受け取った操作端末105は、これら要約映像をディスプレイ上に並べて配置して表示する。複数の要約映像を一度に再生開始すると、映像は要約されかつ同一人物は時間方向で複数の元映像での出現順序の通りにディスプレイ上に表示され、また映像に映っていない時間は短縮されて再生される。
また同一と判定されたオブジェクトは、異なるウインドウ上で連続に表示する際に、例えば同じ色の枠で囲むなどの、同一の強調表示をする。これにより複数の要約映像で同一オブジェクトが再生されているときに同一であると認識しやすくなる。
以上のように、同一人物の同一時刻の要約映像再生において、同一人物の動作軌跡が異なる画面上で時間方向に順不同でばらばらに表示されることがなくなる。このため注目する人物の画面間の移動をスムーズに目で追うことが出来、注目人物の一連の行動を見落とすことを少なく出来る。
つづいて本実施形態の変形例を説明する。変形例では異なる点のみについて説明し、以下で、特に、説明しない限りは、先の説明と同様であるものとする。
映像要約システムの動作環境は先の説明と同じく図1の構成を用いる。また、本実施形態における映像要約サーバ104の機能構成も図3に示すブロック図を用いる。
ただし本実施形態では先の説明と異なり、複数の映像要約を行う対象映像において画角の重なりのある場合について説明する。
図16(a)、(b)は、画角の重なりのある2つの元映像の時空間におけるオブジェクトの動作軌跡の配置1750、1751を表す。図16において、横軸、縦軸、録画時間等は図4と同等であるため省略する。
図16(a)、(b)はそれぞれ別の元映像であるが、(a)の矢印1760の範囲と(b)の矢印1761の範囲では、画角が重なっていることを示す。
ここで動作軌跡1703と1704、1706と1707はそれぞれ同一人物の動作軌跡とする。2つの映像で重なりがあるため、時間方向の範囲を示す矢印1770の範囲では動作軌跡1703と1704、時間範囲1771では動作軌跡1706と1707が2つの映像で同時に出現している。
図17(a)、(b)は要約映像の時空間におけるオブジェクトの動作軌跡の配置1850、1851を表す。
図17(a)、(b)の配置1850、1851は、図16(a)、(b)の同一のオブジェクトについては、各移動軌跡を複数の要約映像内で出現順序と相対時間差を維持しつつ、元映像より再生時間が短くなるように各動作軌跡の開始時刻を決定したものである。
次に、受信部302が受信するオブジェクト情報の一例について図18のオブジェクト情報テーブルを用いて説明する。図18のテーブル1900は、本実施の形態における情報処理装置104により映像から抽出され、受信部302によって受信されるオブジェクト情報を表しており、各項目の説明は図8と同等であるため省略する。
図18では、ID_003の動作軌跡B3の開始時刻20と終了時刻80までの期間が、識別子ID_004の動作軌跡B4の開始時刻60から終了時刻110までの期間と重なっていることから、同時に出現していることを示している。
図19は、本実施の形態における配置決定部304が生成するオブジェクトのセット情報の一例を示すテーブルである。オブジェクトのセット情報テーブル2100は、配置決定部304がオブジェクト情報を基に生成する情報である。
図20は本実施の形態における同一オブジェクト特定処理で用いる対応カメラテーブルである。
この対応カメラテーブル2200は、カメラID2201、対応カメラID2201、重複領域2203の情報で表される。カメラID2202および対応カメラID2202で用いられるカメラIDは、図18のカメラIDに対応する。
対応カメラID2202はカメラ間で画角に重複があるカメラであることを示しており、同図では、カメラID:1と対応カメラID:2の映像間で画角の重複があることを表している。重複領域2203は、その重複領域を映像内の座標点を結んだ閉領域が重複領域であることを示している。この例では映像内の座標点のP1、P2、P3等を含む閉領域が重複領域である。
図21は、本実施の形態における生成部305が生成するオブジェクトの開始時刻の一例を示すテーブルである。
本実施の形態においても、図13で示すフローチャートを用いる。ただし本実施の形態ではS1402の連続する同一オブジェクトの特定処理とS1403のオブジェクトの配置決定処理が実施の形態1と異なるためそれぞれ図22と図23を用いて説明する。
図22は、本実施形態において特定部303において実行される処理の一例を示す。
ステップS2401では特定部が重複領域情報を含む対応カメラテーブル2200を取得し、ステップS2402へ移行する。
ステップS2402ではS2401で抽出したオブジェクトからカメラテーブル2200を参照し画角の重複のあるカメラ映像間で出現時間の重なりのあるオブジェクトを抽出する。重複領域情報2203がある場合は重複領域に位置するオブジェクト同士で出現時間の重なりのあるオブジェクトを抽出する。
ステップS2403では、特定部303はステップS2402で抽出したオブジェクトの映像情報から映像特徴量を取得し、ステップS2404に移行する。
ステップS2404からステップ2406は、実施の形態1のステップS1504からステップS1506と同様の処理であるため省略する。
図23は本実施形態において配置決定部304において実行される処理の一例を示す。ステップS2501は、配置決定部304で、同一オブジェクトに対し各移動軌跡を複数映像内での出現順序を変えないようにセット情報テーブル2100を作成する。
ここでは、図18のオブジェクト情報からID_003のオブジェクト1703の開始時刻は20、ID_004のオブジェクト1704の開始時刻は60である。そのため、セット情報テーブル2100のID_003に対するID_004の相対開始時刻は40と求められる。同様にオブジェクト1706の開始時刻は160、オブジェクト1707の開始時刻は170である。そのため、セット情報テーブル2100のID_006に対するID_007の相対開始時刻は10と求められる。
このようにすべての同一とされたオブジェクトに対して相対開始時刻を求め、ゼット情報テーブル2100のテーブルに記録する。
ステップS2502では対応カメラテーブル2200にあるカメラ映像の全オブジェクトの時間方向の配置を決定する。また、対応カメラテーブル2200にないその他の映像はそれぞれの映像内におけるオブジェクトの時間方向の配置を決定する。
図21に全てのオブジェクトの相対開始時刻を割り当てた時のテーブルを示す。
このようにして複数の映像から作成された要約映像を映像毎に操作端末105のディスプレイ上の複数に並列に配置された各ウインドウへ表示する。複数の要約映像を一度に再生開始すると、映像は要約されかつ画角の重複するカメラ間であっても同一人物の動作軌跡が異なる画面上で時間を分けて別々に表示されることがなくなる。また画角の重複する部分では、同一人物は同時に複数の要約再生画面で表示される。
また、同一と判定されたオブジェクトが、異なるウインドウ上で同時に表示される際に同一であることを示すように強調表示をすることで、これらのオブジェクトが同時に再生されている時に同一人物であるとユーザによって認識されやすくすることができる。
この処理は、映像要約サーバ104によって行われてもよいし、操作端末105によって行われてもよい。強調表示はオブジェクトを囲むバウンディングボックスでもよい。
このバウンディングボックスの色を同一人物では同じとすることで、同一人物であるとユーザが認識しやすくなる。映像要約サーバ104で強調表示を行う場合には、要約映像上のオブジェクトに強調表示の処理を加えられたバウンディングボックスを重畳してから操作端末105に送信してもよい。
また、操作端末105で強調表示を行う場合には、映像要約サーバ104が強調表示の位置や色等をメタデータとして要約映像とともに操作端末105に送る。そして、操作端末105が受信したメタデータに基づいて強調表示のバウンディングボックスを生成して要約映像に重畳する。このようにして、ディスプレイに出力してもよい。
以上のように、元映像を短く要約された要約映像にして効率的に元映像をユーザが確認できる利点は残しつつ、同一人物の動作軌跡が複数の要約映像上でばらばらな時間に表示されることがなくなる。また画角の重複する複数映像間であっても重複部分の人物は同時に複数の要約映像の再生画面で表示されるため、注目する人物の画面間の移動をスムーズに目で追うことが出来、注目人物を見落とすことを少なく出来る。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
104 映像要約サーバ
301 制御部
302 受信部
303 特定部
304 配置決定部
305 生成部
301 制御部
302 受信部
303 特定部
304 配置決定部
305 生成部
Claims (10)
- 元映像の中で検出された複数のオブジェクトの出現順序を変更することにより、前記複数の元映像に対応する複数の要約映像を生成する情報処理装置において、
前記複数の元映像の中でそれぞれに検出された複数のオブジェクトから同一のオブジェクトを特定する特定手段と、
前記特定手段により同一のオブジェクトと特定された複数のオブジェクトの動作軌跡の配置を、前記複数の要約映像上で決定する際に、前記同一のオブジェクトについての前記複数の動作軌跡の間で出現順序は元映像から変えないで、互いに時間方向で重ならないように決定する決定手段と、
前記決定手段により決定された配置に基づき、前記複数の元映像に対応する複数の要約映像を生成する生成手段と、
を有することを特徴とする映像要約装置。 - 前記決定手段は、前記特定手段によって同一と特定された前記複数のオブジェクトについて、元映像での相対時間差を変えないように相対的な配置を決定することを特徴とする請求項1に記載の映像要約装置。
- 前記特定手段は、元映像の中で検出された前記複数のオブジェクトの映像特徴に基づいて前記複数のオブジェクトの間の同一性を特定することを特徴とする請求項1または請求項2のいずれか1項に記載の映像要約装置。
- 前記特定手段は、元映像の中で検出された前記複数のオブジェクトの各映像内の位置を基にオブジェクトの間の同一性を判定することを特徴とする請求項1または請求項2のいずれか1項に記載の映像要約装置。
- 前記決定手段は、
前記元映像での出現時刻が許容する時間差の範囲であって、且つ、互いに同一と判定された前記複数のオブジェクトの動作軌跡が互いに時間方向に重ならないように相対的な配置を決定することを特徴とする請求項1乃至4のいずれか1項に記載の映像要約装置。 - 複数の要約映像を同時に再生する再生手段と、
前記再生手段は、生成された前記複数の要約映像のうち、前記同一のオブジェクトが含まれる複数の要約映像の再生開始のタイミングを同一とする再生開始手段と、をさらに備えることを特徴とする請求項1乃至5いずれか1項に記載の映像要約装置。 - 前記特定手段により同一と特定された前記複数のオブジェクトを表示する際に同一の強調表示をすることを特徴とする請求項6に記載の映像要約装置。
- 前記映像要約装置と、
前記映像要約装置が出力した情報を表示する表示装置と、
をさらに備えることを特徴とする、請求項1乃至7いずれか1項に記載の映像要約システム。 - 元映像の中で検出された複数のオブジェクトの出現順序を変更することにより、前記複数の元映像に対応する複数の要約映像を生成する映像要約方法であって、
前記複数の元映像の中でそれぞれに検出された複数のオブジェクトから同一のオブジェクトを特定するステップと、
前記特定ステップにより同一のオブジェクトと特定された複数のオブジェクトの動作軌跡の配置を、前記複数の要約映像上で決定する際に、前記同一のオブジェクトについての前記複数の動作軌跡の間で出現順序は元映像から変えないで、互いに時間方向で重ならないように決定するステップと、
前記決定ステップにより決定された配置に基づき、前記複数の元映像に対応する複数の要約映像を生成するステップと、
を有することを特徴とする映像要約方法。 - コンピュータを請求項1から7のいずれか1項に記載の映像要約装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019233227A JP2021103810A (ja) | 2019-12-24 | 2019-12-24 | 映像要約装置、映像要約システム、映像要約方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019233227A JP2021103810A (ja) | 2019-12-24 | 2019-12-24 | 映像要約装置、映像要約システム、映像要約方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021103810A true JP2021103810A (ja) | 2021-07-15 |
Family
ID=76755345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019233227A Pending JP2021103810A (ja) | 2019-12-24 | 2019-12-24 | 映像要約装置、映像要約システム、映像要約方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021103810A (ja) |
-
2019
- 2019-12-24 JP JP2019233227A patent/JP2021103810A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4541316B2 (ja) | 映像監視検索システム | |
US9560323B2 (en) | Method and system for metadata extraction from master-slave cameras tracking system | |
CA3111097C (en) | Bounding box doubling as redaction boundary | |
JP5891061B2 (ja) | 映像監視装置、監視システム、監視システム構築方法 | |
EP3420544B1 (en) | A method and apparatus for conducting surveillance | |
US9602778B2 (en) | Security video system using customer regions for monitoring point of sale areas | |
WO2018198373A1 (ja) | 映像監視システム | |
US20020175997A1 (en) | Surveillance recording device and method | |
US20170039419A1 (en) | Information processing apparatus and control method of the same | |
CN101489073B (zh) | 信息处理装置以及信息处理方法 | |
JP2014099739A (ja) | 映像監視システム | |
US20210329175A1 (en) | Image processing system, image processing method, and program | |
US20200097501A1 (en) | Information processing system, method for controlling information processing system, and storage medium | |
US20230396738A1 (en) | Duration and potential region of interest for suspicious activities | |
US20220301317A1 (en) | Method and device for constructing object motion trajectory, and computer storage medium | |
US10146870B2 (en) | Video playback method and surveillance system using the same | |
JP5768265B2 (ja) | 類似画像検索システム | |
JP5088463B2 (ja) | 監視システム | |
JP2008217714A (ja) | 追跡装置、追跡方法、及び追跡プログラム | |
JP6862596B1 (ja) | 映像解析装置、広域監視システム及びカメラの選定方法 | |
US10783365B2 (en) | Image processing device and image processing system | |
JP2021103810A (ja) | 映像要約装置、映像要約システム、映像要約方法、およびプログラム | |
JP7142443B2 (ja) | 画像認証システム、画像認証方法および画像認証プログラム | |
JP2020086961A (ja) | 画像解析装置、撮影装置、画像解析方法、及び、プログラム | |
JP7446760B2 (ja) | 情報処理装置、映像の要約方法、およびプログラム |