JP7451172B2

JP7451172B2 - 情報処理装置、映像の要約方法、およびプログラム

Info

Publication number: JP7451172B2
Application number: JP2019233228A
Authority: JP
Inventors: 寛基浦島
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2024-03-18
Anticipated expiration: 2039-12-24
Also published as: JP2021103811A; US11869197B2; US20210192749A1

Description

本発明は、情報処理装置、映像の要約方法、およびプログラムに関する。

近年防犯に対する意識が高まっており、様々な場所で監視カメラが活用されるようになってきている。

このような長時間録画された映像を効率的に見る方法として特許文献１に示す映像を要約する技術がある。この技術では、まず長時間の録画映像（以下、元映像）から、人物や車両などの動きのある対象物を抽出する。そして、互いが重ならないように空間的な位置を維持したまま時間方向に対象物をシフトさせ、出現順序を入れ替える。このようにして、短時間の映像（以下、要約映像）に変換する。

特許第５３５５４２２号

しかしながら、特許文献１に開示された技術では、人が車に乗降する元映像から要約映像を生成した場合、人と車は異なる種類の対象物として認識されてしまう。そのため、要約映像において、人と共に乗降した車が表示されないことがある。すなわち、車から降りてきた人が何もない空間に突然現れ、車に乗る人が突然消える。このような違和感のある要約映像が生成される可能性があった。

録画映像の中で検知された対象物の出現時刻を変更することにより、要約映像を生成する情報処理装置において、前記録画映像から所定の条件に基づいて、第１の対象物と前記第１の対象物が乗降可能な第２の対象物とを取得する取得手段と、前記取得手段によって取得された対象物のうち、乗降を行った前記第１の対象物と、前記第１の対象物が乗降した前記第２の対象物とを特定する特定手段と、前記第１の対象物がそれぞれ重ならず、前記要約映像の再生時間が前記録画映像の再生時間より短くなるように、前記要約映像における前記出現時刻を決定する決定手段と、前記決定手段により決定された前記出現時刻に基づき、前記特定手段によって特定された前記第１の対象物と前記第２の対象物とを含む要約映像を生成する生成手段と、を有し、前記決定手段は、前記特定手段により特定された前記第１の対象物と前記第２の対象物との前記要約映像における相対的な出現時刻を維持するように、前記出現時刻を決定することを特徴とする。

本発明によれば、人とその人が乗降する車との軌跡を関連付けして要約映像上で元映像と同じ出現順序を維持してそれぞれが表示されるので、違和感のない要約映像を生成することができる。

本発明の実施形態に係る情報処理装置の一例である映像生成デバイスの機能ブロック図本発明の実施形態に係る録画映像及び要約映像の時空間における対象物の動作軌跡の配置の一例を表す図本発明の実施形態に係る制御部が受け付ける映像のフレームおよび生成部が出力する要約映像のフレームの一例を表す図本発明の実施形態に係る受信部が受信する対象物情報の一例を表すテーブル本発明の実施形態に係る判定部が生成する対象物の関連情報の一例を表すテーブル本発明の実施形態に係る生成部が生成する対象物の開始時刻の一例を表すテーブル本発明の実施形態に係る制御部が実行する処理の一例を表すフローチャート本発明の実施形態に係る判定部及び抽出部が実行する処理の一例を表すフローチャート本発明の実施形態の変形例１における受信部が受信する動作軌跡の一例を背景画像上にプロットした図本発明の実施形態の変形例１における判定部が生成する動作軌跡の一例を背景画面上にプロットした図本発明の実施形態の変形例１における抽出部が受け付ける手描きの線の一例および受け付けた手描き線の軌跡の一例を背景画面上にプロットした図本発明の実施形態の変形例１における判定部が生成する対象物の関連情報の一例を表すテーブル本発明の実施形態の変形例１における判定部及び抽出部が実行する処理の一例を表すフローチャート本発明の実施形態の変形例１２における受信部が受信する対象物情報及び判定部が生成する対象物の関連情報の一例を表すテーブル

以下、添付図面を参照して、本発明を実施するための実施形態について詳細を説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例である。

本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。

また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。

本発明の実施形態では、監視カメラによって撮影された映像（元映像）から時間方向に圧縮された要約映像を生成するシステムの例を説明する。生成された要約映像を利用することで、ユーザは長時間の映像を短時間で閲覧することが可能になる。

しかしながら、人が車に乗降する録画映像から要約映像を生成した場合、人とその人が乗降した車とは別な対象物として認識されてしまう。このため、要約映像において、人と共に乗降した車が同じタイミングでは必ずしも表示されず、人が何もない空間から突然現れたり、あるいは消えたりする違和感のある映像が表示されてしまうことがあった。対象物（オブジェクト）には人や車など様々な種別があり、詳細は後述する。

そこで、本発明の実施形態では、このような課題を解決するために、人の乗降を検知した場合に、人と、その人と関連付けられた車との相対的な出現順序は元映像から維持して表示するような要約映像を生成する。

図１（ａ）は、本実施形態に係る情報処理装置１００の一例である映像生成デバイスの機能ブロック図である。映像生成デバイスは、制御部１０１、受信部１０２、判定部１０３、抽出部１０４、生成部１０５を有する。

図１（ｂ）は、情報処理装置１００のハードウェア構成を示す図である。図１（ｂ）に示すように、情報処理装置１００は、ハードウェアとして、ＣＰＵ２０１、ＲＡＭ２０２、ＲＯＭ２０３、入力装置２０４、出力装置２０５、記憶装置２０６およびネットワークインタフェース２０７を有している。ＣＰＵはＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。ＲＡＭはＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略である。ＲＯＭはＲｅａｄＯｎｌｙＭｅｍｏｒｙの略である。

制御部１０１は、ＣＰＵ２０１等から構成される機能部であり、ＲＯＭ２０３に記憶されたプログラムやデータをＲＡＭ２０２に読み出して映像生成などの処理を実行する。

受信部１０２は、例えば、キーボードやマウスなどを備える入力装置２０４を用いて行われるユーザの操作により、映像に対して行われた解析処理の結果としての複数の対象物情報を受信する。

なお、解析処理対象のオリジナルの映像である元映像は、記憶装置２０６に保存されたものであってもよいし、ネットワークインタフェース２０７を介して読み込まれたネットワーク２０８上にある映像であってもよい。

判定部１０３は、映像から得られた複数の対象物間の関係、例えば人と車の乗降といった関係を判定する。

抽出部１０４は、キーボードやマウスなどを備える入力装置２０４を用いて行われるユーザの操作により得られた抽出条件および複数の対象物間の関係に基づいて複数の対象物を抽出する。

生成部１０５は抽出された複数の対象物間の関係に基づいて要約映像を生成する。生成された要約映像は記憶装置２０６に保存され、ディスプレイなどの出力装置２０５において再生される。

図２（ａ）は、元映像の時空間における対象物の動作軌跡の配置３００を表す図である。横軸が空間を表し、縦軸が時間を表す。なお、空間は通常ｘとｙの２軸で構成されるが、ここでは表現のわかりやすさを優先してｙ軸の値は省略し、空間はｘ軸のみの１次元であるとして説明する。時間ｔについては、図面の最下部が録画の開始時間、最上部が録画の終了時間となる。図中に太線で表される動作軌跡３０１～３０５は、映像に出現する対象物の中心の軌跡を表す。対象物を囲む点線は対象物の範囲を表す。

ここで、情報処理装置１００は、複数の連続するフレームのそれぞれ出現する画素の集合により、対象物を定義する。また、対象物の中心を中心とする円の半径により、対象物の範囲を定義する。ただし、対象物の中心は、対象物の画素集合の中心位置とする。また、対象物の範囲を示す半径は、対象物の画素集合の面積に基づいて算出する。この算出方法の詳細については後述する。

ユーザは抽出条件として「人」を設定しているとする。そして図２の動作軌跡３０１、３０３、３０４は人の動作軌跡を、３０２、３０５は車の動作軌跡とする。さらに動作軌跡３０１の人物は動作軌跡３０２の車に乗るものとする。図２の破線で示した時刻はこの人物が車に乗る直前の時刻を表す。その際の元映像の画面に関しては後述する。

図２（ｂ）は要約映像の時空間における対象物の動作軌跡の配置４００を表す。図２（ｂ）の対象物の動作軌跡３０１、３０２、３０３、３０４はそれぞれ、図２（ａ）と同一の動作軌跡の開始時刻をずらしたものである。

動作軌跡の開始時刻は、映像の開始時刻を０とした時に、対象物が画角内に現れ動作軌跡を形成し始める時刻を表す。

図２（ｂ）の配置４００は、図２（ａ）の対象物から人と、さらにその人が乗降した対象物を抽出した対象物群を再配置したものである。

配置する際、乗降の関係がある人と車の動作軌跡については相対的な出現順序は変えないで、元映像における時間方向および空間方向の相対的な配置を維持した上で、元映像より再生時間が短くなるように各動作軌跡の開始時刻を決定している。

ここで、図２（ａ）の動作軌跡３０５は車の動作軌跡であるが、動作軌跡３０２と異なり、人は乗降しない。このように動作軌跡３０５は関連付けられる人が無く、抽出条件には当てはまらないので、図２（ｂ）において動作軌跡３０５は抽出されない。

図３（ａ）は制御部１０１が受け付ける映像のフレームの一例を表す。図３（ａ）は、図２（ａ）の破線の時刻のフレームを表す。人物５０１は対象物３０１、車５０２は対象物３０２に対応する。右上方へと歩く人物５０１が、右側から左方向に走ってきた車５０２に乗る直前の画面を表している。

図３（ｂ）は生成部１０５が出力する要約映像のフレームの一例を表す。図３（ｂ）は、図２（ｂ）の破線の時刻のフレームを表す。人物６０１は対象物３０３に対応する。

要約映像を生成する際には、人物５０１が乗車した車５０２を要約映像に出現させる対象物として追加する。さらにこれらの間の出現順序を変えないで、録画映像における時間方向の相対的な配置を維持する。

このようにすることで、人物と車が図３（ａ）の録画映像における時間方向の相対的な位置関係を要約映像を示す図３（ｂ）においても維持している。さらに図３（ｂ）に示すように、映像の要約によって異なる時刻に録画された人物６０１が要約映像に入る。

次に、受信部１０２が受信する対象物情報の一例について図４（ａ）のテーブルを用いて説明する。

図４（ａ）のテーブル７００は映像生成デバイスにより映像から生成され、受信部１０２によって受信される対象物情報テーブルを表している。対象物情報テーブルは識別子７０１、種別７０２、開始時刻７０３、動作軌跡７０４で表される。

図２（ａ）の元映像の動作軌跡３０１、３０２、３０３、３０４、３０５には、それぞれ識別子ＩＤ＿００１、ＩＤ＿００２、ＩＤ＿００３、ＩＤ＿００４、ＩＤ＿００５が割り当てられる。

対象物の種別は、フレーム内に出現する対象物の画像からオブジェクト認識等の画像認識技術により外観から推定され、付与されたものである。

ここでは種別の認識にオブジェクト認識を用いたが、対象物の画像や移動軌跡から種別を求める方法であればどのような方法であってもよい。対象物の開始時刻は、映像の開始時刻を０とした時に、対象物が画角内に出現する時刻を表す。動作軌跡は図４（ｂ）にて説明する。

例えば、ユーザの操作により、映像に対して行われた解析処理の結果としての複数の対象物情報を受信する受信部１０２が受信する動作軌跡の一例について図４（ｂ）のテーブルを用いて説明する。

対象物の動作軌跡テーブル８００は、対象物情報テーブル７００と共に受信部１０２から受信される。図４（ｂ）の動作軌跡テーブルは図４（ａ）の対象物情報テーブル７００の動作軌跡７０４のＢ１が指し示すものである。同様にＢ２からＢ５についても動作軌跡テーブルが存在するがここでは説明を省略する。

動作軌跡テーブル８００は時刻８０１、中心座標８０２、半径８０３、画素マスク８０４の情報で表され、各フレームの情報が時系列で格納される。

時刻８０１は該対象物が映像に現れてからの相対的な時刻を表す。この動作軌跡テーブル８００には識別子ＩＤ＿００１の対象物の時刻０から１２までの動作軌跡が記録される。ここで時刻０から１２は仮の数字であって、実際にはフレームレートに応じた数値となる。

中心座標８０２は対象物の時刻ごとの画素集合の中心位置を表す。中心位置としては、対象物を構成するすべての画素の座標の平均を取ったものを使用する。

半径８０３は対象物の範囲を表す。この半径は、対象物の画素の合計数をＳとした時に、Ｓ／πの平方根を求めることにより算出する。なお、対象物の範囲をここでは円に近似して表現しているが、範囲を指定できるものであれば、どのような形式であってもよい。

画素マスク８０４は、フレーム内の対象物の詳細な画素位置を表すマスク情報へのリンクを表す。ここでは画素マスクを対象物とそれ以外を区別する情報を持つ画像として画素マスクを構成するが、これらが区別できるものであれば、画像以外の形式であってもよい。

次に判定部１０３が生成する対象物の関連情報テーブルの一例について図５のテーブルを用いて説明する。

対象物の関連情報テーブル９００は、判定部１０３が対象物情報および動作軌跡を基に生成する情報である。

対象物の関連情報は、対象物の識別子９０１と関連９０２で表され、それぞれ図４（ａ）の識別子７０１に対応する。対象物の識別子９０１には、乗降を行ったと判定された対象物（人）の識別子と、関連９０２には、その対象物が乗降した対象物（車）とが記述される。ここでは対象物３０１の識別子ＩＤ＿００１に対し、関連として対象物３０１が乗降を行った対象物３０２の識別子ＩＤ＿００２が記述される。

次に生成部１０５が生成する要約映像中の対象物の開始時刻テーブルの一例について図６のテーブルを用いて説明する。対象物の開始時刻テーブル１０００は、生成部１０５が抽出された対象物と対象物の関連情報テーブル９００とを基に生成する情報である。

対象物の開始時刻テーブル１０００は、対象物の識別子１００１、要約映像中の開始時刻１００２の情報で表される。対象物の識別子１００１は、図４（ａ）の識別子７０１に対応する。要約映像中の開始時刻１００２は、要約映像において対象物が出現する時刻を表す。次にフローチャートを用いて図２（ａ）から図２（ｂ）の要約映像の配置を生成する方法について説明する。

本実施形態のフローチャートは、ＣＰＵ２０１が、処理の実行に際してＲＯＭ２０３から必要なプログラムをＲＡＭ２０２にロードし、当該プログラムを実行することによって実現される。

図７は、本実施形態において制御部１０１において実行される処理の一例を示すフローチャートである。本フローチャートは、映像生成デバイスにおいて、監視カメラの録画映像が読み込まれることに応じて実行される。

制御部１０１は、ステップＳ１１０１において、元映像から抽出された対象物に関する対象物情報テーブルを受信部１０２から取得し、ステップＳ１１０２に移行する。

元映像から対象物を切り出す方法はいくつかあるが、ここでは背景差分とフレーム間差分を組み合わせた方法を使用する。映像から対象物を抽出する方法であれば他の方法を用いてもよい。

対象物の情報は、図４（ａ）に示す対象物情報テーブルと、図４（ｂ）に示す動作軌跡テーブルにより構成される。抽出された対象物には識別子が割り振られ、種別には画像から推定された対象物の種別情報が、開始時刻には録画映像中の対象物が現れた時刻が、動作軌跡には対象物の相対時刻、中心座標、半径、画素マスクが記録される。

制御部１０１は、ステップＳ１１０２において後述する対象物の乗降等の判定処理を判定部１０３で行い、ステップＳ１１０３に移行する。本ステップでは対象物間に乗降等のイベントがあった場合に関連付けを行う。ここでは対象物３０１が対象物３０２に対し関連する、つまり人が車に乗降したと判定される。

次にステップＳ１１０３では後述する対象物の抽出処理を抽出部１０４で行い、ステップＳ１１０４に移行する。

本ステップでは入力された抽出条件および対象物の関連情報に基づき、対象物を抽出する。

ここでは抽出条件として人が入力され、種別が人である３０１、３０３、３０４がまず抽出され、さらに関連情報に基づき対象物３０１に関連する車３０２が抽出され、特定される。

ステップＳ１１０４では、生成部１０５において対象物情報テーブル７００及び対象物の関連情報テーブル９００に基づき対象物の時間方向の配置を決定した上で、対象物の開始時刻テーブル１０００を生成し、ステップＳ１１０５に移行する。

本ステップではまず抽出対象の中で関連情報のある対象物３０１と、対象物３０１に関連づけられている対象物３０２の間の時間方向の相対的な配置を決定する。

対象物情報テーブル７００から対象物３０１の元映像における開始時刻は１０、対象物３０２の開始時刻は２０のため、差分から相対的な配置は１０と求められる。この時間方向の相対的な配置は元映像から維持する。次に対象物３０１、３０２、３０３、３０４の要約映像における開始時刻を求める。

ここで、対象物の動作軌跡間の衝突について説明する。生成部１０５は、以下の式（１）を用いて、対象物ｉ，ｊ間の衝突コストＣｏｌ_ｉｊ（ｋ）を算出する。

ただし、ｋは対象物ｉ，ｊの開始時刻の時間差であり、ｘ_ｔ ^ｉ，ｙ_ｔ ^ｉはそれぞれ時刻ｔにおける対象物ｉの中心のｘ座標及びｙ座標であり、ｒ_ｔ ^ｉは時刻ｔにおける対象物ｉの半径である。

また、Ｔ_ｉｊ（ｋ）は、開始時刻の時間差がｋであるとしたときに、対象物ｉ，ｊの両方の動作軌跡が映像中に出現する期間を表している。さらに、式（１）右辺の絶対値記号内側の数式は、対象物ｉ，ｊの中心間の距離が半径の合計よりも小さいときに衝突ありを示す相対的に大きな値となり、それ以外のときに衝突なしを示す相対的に小さな値となる数式を表している。

したがって、衝突コストＣｏｌ_ｉｊ（ｋ）は、値が大きいほど、対象物ｉ，ｊが衝突するフレームの数が多いことを表す。

生成部１０５は、対象物の全ての組み合わせにおいて衝突コストＣｏｌ_ｉｊ（ｋ）が最小になる開始時刻を求めるために、シミュレーテッドアニーリング法を用いる。シミュレーテッドアニーリング法によれば、範囲制約のある非線形問題を効率的に計算することができる。

したがって、生成部１０５は、シミュレーテッドアニーリング法を用いてなるべく対象物が重ならないような各対象物の開始時刻を求めることができる。生成部１０５は、このようにして元映像に対して対象物の空間的な位置を維持しつつ、出現開始順序を変更することで要約映像を生成する。具体的には、背景画像の上に元映像から画素マスクを用いて切り出した対象物の画像を、算出した開始時刻を基に張り付けていくことによって、要約映像を生成する。

先ほど求めた関連情報のある特定の対象物３０１、３０２については、相対的配置を維持しつつ、対象物３０１と対象物３０２の組み合わせ以外の対象物３０３、３０４に対して、対象物間の動作軌跡の衝突が少なく、総再生時間が元映像より短くなるようにエネルギー関数を定義する。そして、特許文献１に記載のシミュレーテッドアニーリング法を用いて開始時刻を決定する。

これにより乗降を行った対象物間の空間的にだけではなく時間的にも相対的な配置を保ちつつ、その他の対象物との間の衝突が少なく、総再生時間の少ない対象物の開始時刻テーブル１０００が求められる。

次にステップＳ１１０５では、生成部１０５において対象物の開始時刻テーブル１０００を基に要約映像を生成する。要約映像は背景画像の上に、元の録画映像から画素マスクを用いて切り出した対象物の画像を、算出した開始時刻を基に張り付けていくことによって生成する。

図８（ａ）は、本実施形態において判定部１０３において実行される処理の一例を表すフローチャートである。

判定部１０３はステップＳ１２０１において対象物情報テーブル７００の対象物を順に以降のステップで処理していく。

ステップＳ１２０２では、対象物が乗降可能な種別の複数の対象物を取得し、ステップＳ１２０３に移行する。対象物３０１は抽出条件としての種別が人であるため、バイク（二輪車と呼んでもよい）、車（四輪車と呼んでもよい）、トラック、船、ヘリコプター、飛行機といった種別の対象物に乗降が可能である。尚、対象物は車輪でなく足が付属したロボット等の移動体やその他のプロペラ付のドローン等の飛行体であってもよく、これらは乗降する側とされる側のどちらに当てはめてもよい。

ここでは対象物３０１が乗降可能な対象物として車の種別が付与された対象物３０２、３０５が取得される。

次に判定部１０３はステップＳ１２０３において、人の動作軌跡の始点または終点と乗り物の一時停止を示す点が時間的なそして空間的な関係において近傍の位置にある場合に、人から乗り物に対し乗降の関連付けを行い、次の対象物の処理に移行する。

具体的には、乗降の判定は対象物と乗り物の動作軌跡８００を用いて行う。対象物の動作軌跡の最初と最後の時刻の中心座標と半径と、乗り物が停止した時刻の中心座標と半径との間の重なり割合をもとに乗降を判定する。

乗り物の停止については、乗り物の動作軌跡の中心座標の中で、前後の時刻の中心座標との距離が閾値以下の場合に停止していると判定される。

対象物が乗り物から降りたかどうかは、対象物の動作軌跡の開始位置の半径をｒ_ｏｓ、乗り物の動作軌跡上の停止位置の半径をｒ_ｖ、対象物と乗り物の中心座標の距離をｄ_ｓとした時に、（ｒ_ｏｓ＋ｒ_ｖ－ｄｓ）／（ｒ_ｏｓ×２）が閾値以上の時に、降りたと判定部１０３は判定する。

同様に乗り物に乗ったかどうかは、対象物の動作軌跡の終了位置の半径をｒ_ｏｅ、乗り物の停止位置の半径をｒ_ｖ、対象物と乗り物の中心座標の距離をｄ_ｅとしたときに、（ｒ_ｏｅ＋ｒ_ｖ－ｄ_ｅ）／（ｒ_ｏｅ×２）が閾値以上のときに、対象物は乗り物に乗ったと判定する。ここでは人である対象物３０１が車である対象物３０２に乗ったと判定部１０３は判定する。

次に図８（ｂ）は、本実施形態において抽出部１０４において実行される処理の一例を表すフローチャートである。

抽出部１０４はステップＳ１３０１において、入力装置２０４より対象物の抽出条件を受け付けてステップＳ１３０２に移行する。

抽出条件は出力装置２０５に表示されたグラフィカル・ユーザインタフェースを通して受け付けるが、抽出条件を取得できる方法であればどのような方法であってもよい。

抽出条件として対象物の種別及び手描き線による動作軌跡を入力することができる。対象物の種別には人、バイク、車、トラック、船、ヘリコプター、飛行機等があり、これらの組み合わせを入力することができる。動作軌跡としてはグラフィカル・ユーザインタフェースを通して手描きの線を入力することもできる。ここでは抽出条件として対象物の種別である人を受け付けるものとをする。

続いてステップＳ１３０２では、受け付けた抽出条件に適合する対象物を抽出し、ステップＳ１３０３に移行する。

抽出条件として人が入力されているため、対象物の中から種別が人である対象物３０１、３０３、３０４が抽出される。ステップＳ１３０３では、対象物の関連情報９００から、前ステップで抽出された対象物３０１が乗降した対象物３０２も抽出し、処理を終了する。

以上説明したように、対象物（人）３０１が乗った対象物（車）３０２は追加されるが、対象物（人）が乗降しない対象物（車）３０５は追加されない。その結果、最終的には対象物３０１、３０２、３０３、３０４が抽出対象物として抽出される。

このように、対象物（人）及び対象物（人）が乗り降りした対象物（車）が抽出され、映像生成デバイスは、乗降する対象物（人）と乗降される対象物（車）の相対的な出現順序を維持しながら、要約映像を生成する。

これにより、対象物（人）が乗降を行う要約映像において、対象物（人）が突然現れ突然消えるというようなことを防ぐことができる。このようにして映像生成デバイスは違和感のない要約映像を生成することができる。

これまでに要約を行う対象物を対象物の種別により抽出する実施形態について説明したが、これは一例に過ぎない。変形例として、入力された手描きの線を用いて、乗り物に乗降した対象物を抽出する実施形態を説明する。

図９（ａ）、図９（ｂ）は、本実施形態において受信部１０２が受信する動作軌跡の一例を背景画像上にプロットしたものである。図９（ａ）は対象物３０１の動作軌跡を、対象物の全ての時刻の中心座標と半径の値を基に録画映像の背景画像の上に図示したものである。図９（ｂ）は、対象物３０２の動作軌跡を同様に図示したものである。

図１０は、本実施形態において、判定部１０３が生成する動作軌跡の一例を背景画面上にプロットしたものである。図１０は対象物３０１の動作軌跡１４０１と、対象物３０２の動作軌跡１５０１の一部を合成し、新たに生成した動作軌跡１６０１を図示したものである。

図１１（ａ）は、本実施形態において抽出部１０４が受け付ける手描きの線の一例を表す図である。手描きの線は出力装置２０５に表示されたグラフィカル・ユーザインタフェースに入力装置２０４であるマウスやスタイラスで描かれる。ここでは録画映像の背景が描かれた画面上にマウスを使って線１７０１が描かれたものとする。

図１１（ｂ）は、本実施形態において抽出部１０４が受け付けた手描き線の軌跡を背景画面上にプロットしたものである。手描きの線１７０１上に所定の半径を持つ円を一定間隔でプロットしたものが手書き線の軌跡１８０１である。

次に判定部１０３が生成する対象物の関連情報の一例について図１２のテーブルを用いて説明する。対象物の関連情報テーブル１９００は、判定部１０３が対象物情報テーブル及び動作軌跡テーブルに基づいて生成する情報である。９０１、９０２、９０３は図５で示した対象物の関連情報テーブルと同じものを示す。

付与動作軌跡１９０１は関連情報を付与した際に追加される動作軌跡である。付与動作軌跡Ｂ６は、図１０で示した動作軌跡１６０１を表す。

図１３（ａ）は、本実施形態において判定部１０３において実行される処理の一例を示すフローチャートである。

ステップＳ１２０１、Ｓ１２０２、Ｓ１２０３の処理は図８（ａ）と同様のため説明を割愛する。ステップＳ２００１において、判定部１０３は対象物（人）の動作軌跡に対象物（人）が対象物（車）に乗っている間の動作軌跡を加えた動作軌跡を、対象物を抽出する際に使用する動作軌跡として対象物に付与する。具体的には、直前のステップＳ１２０３において対象物が乗降したと判定した際に最も近傍にある車の位置から、乗車の場合は後の部分の動作軌跡を、降車の場合は前の部分の動作軌跡を対象物が車に乗車している区間として抽出し、対象物（人）の軌跡に加える。

そして、人である対象物３０１と対象物（車）３０２において、人の動作軌跡１４０１と、車の動作軌跡１５０１のうち人が乗車している区間の動作軌跡とを合わせた動作軌跡１６０１を関連情報テーブル１９００に付与する。

図１３（ｂ）は、本実施形態において抽出部１０４において実行される処理の一例を示すフローチャートである。

ステップＳ１３０１、Ｓ１３０３の処理は図８（ｂ）と同様のため説明を割愛する。ステップＳ２１０１において、キーボードやマウスなどを備える入力装置２０４を用いて行われるユーザの操作により得られた抽出条件に合致する種別、動作軌跡、付与動作軌跡を持つ対象物を抽出し、ステップＳ１３０３に移行する。

ここでは前ステップにおいて図１１の手描きの線１７０１が入力されたものとする。手描き線は軌跡１８０１に変換され、軌跡に合致する動作軌跡、付与動作軌跡を持つ対象物が抽出される。手描き線の軌跡と動作軌跡の間は、動作軌跡に手描き線の軌跡が含まれるかどうかで合致しているかを判定する。

具体的には、動作軌跡上での対象物の面積を表す円を時刻順に走査し、手描き線の軌跡の円を、動作軌跡側の円が時刻順を保つ形で含む場合に、動作軌跡は手描き軌跡を含むと判定する。ここでは人である対象物３０１の付与動作軌跡が対象物（車）３０２に乗り込んだ後と合わせた軌跡と、手描き軌跡とがマッチするため、人である対象物３０１が抽出される。

以上のように、人の単独の動作軌跡にその人が乗った後の車の動作軌跡を加えて１つの動作軌跡として登録することで、人である対象物が通った区間をより正確に検索することが可能となる。

これまでは人が車に乗った場合を例にとって説明を行ったが、人と車の関係に限るものではない。人がバイクやトラック、船、ヘリコプター、飛行機に乗る場合においても同様の方法を適用することが可能である。また、バイクや車がトラックに乗る場合や、バイクや車、トラック、ヘリコプター、飛行機が船に乗る場合、バイクや車、トラックがヘリコプターに乗る場合、車やトラックが飛行機に乗る場合等に対しても適用可能である。また前述した対象物が降りる場合に対しても適用可能であることは言うまでもない。

受信部１０２が受信する動作軌跡の一例について図１４（ａ）のテーブルを用いて説明する。テーブルの項目は図４（ａ）と同様である。ここではテーブルに種別として人、バイク、飛行機、船、トラックと識別された対象物が登録される。

次に判定部１０３が生成する対象物の関連情報の一例について図１４（ｂ）のテーブルを用いて説明する。テーブルの項目は図５と同様である。ここでは人がバイクに乗り、バイクが船に乗る関連が付けられている。

以上のように、人や車に限らず様々な移動対象物に対して適用が可能である。

（その他の実施形態）
なお、本発明は、上述の実施形態の一部または１以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ（またはＣＰＵやＭＰＵ等）における１つ以上のプロセッサがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。

また、本発明は、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。

１００情報処理装置
１０１制御部
１０２受信部
１０３判定部
１０４抽出部
１０５生成部

Claims

録画映像の中で検知された対象物の出現時刻を変更することにより、要約映像を生成する情報処理装置において、
前記録画映像から所定の条件に基づいて、第１の対象物と前記第１の対象物が乗降可能な第２の対象物とを取得する取得手段と、
前記取得手段によって取得された対象物のうち、乗降を行った前記第１の対象物と、前記第１の対象物が乗降した前記第２の対象物とを特定する特定手段と、
前記第１の対象物がそれぞれ重ならず、前記要約映像の再生時間が前記録画映像の再生時間より短くなるように、前記要約映像における前記出現時刻を決定する決定手段と、
前記決定手段により決定された前記出現時刻に基づき、前記特定手段によって特定された前記第１の対象物と前記第２の対象物とを含む要約映像を生成する生成手段と、
を有し、
前記決定手段は、前記特定手段により特定された前記第１の対象物と前記第２の対象物との前記要約映像における相対的な出現時刻を維持するように、前記出現時刻を決定することを特徴とする情報処理装置。
前記第１の対象物は、人、二輪車、四輪車、船、ヘリコプター、飛行機、移動のための足が付属した移動体、車輪が付属した移動体、プロペラが付属した移動体、または翼が付属した移動体のいずれか１つであることを特徴とする請求項１に記載の情報処理装置。
前記第２の対象物は、二輪車、四輪車、船、ヘリコプター、飛行機、移動のための足が付属した移動体、車輪が付属した移動体、プロペラが付属した移動体、または翼が付属した移動体のいずれか１つであることを特徴とする請求項１または２に記載の情報処理装置。
前記決定手段は、前記第１の対象物の動作軌跡の始点または終点と、前記第２の対象物の停止を示す点との、時間的および空間的な関係に基づいて、前記第１の対象物が前記第２の対象物に対し乗降したと判定する請求項１乃至３のいずれか１項に記載の情報処理装置。
前記決定手段は、外観の画像認識により決定された前記第１の対象物と前記第２の対象物に基づいて、前記出現時刻を決定することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
ユーザによって入力された前記録画映像の背景画像における前記第１の対象物の軌跡を受け付ける受付手段と、
前記受付手段によって入力された前記軌跡に対し前記所定の条件に合致する動作軌跡を有する前記第１の対象物を抽出する抽出手段と、
を有することを特徴とする請求項１乃至５のいずれか１項に記載の情報処理装置。
前記抽出手段は、前記複数の対象物の各々の一部の動作軌跡を組み合わせた軌跡を抽出対象の動作軌跡とすることを特徴とする請求項６に記載の情報処理装置。
前記生成手段は、前記録画映像から検知された前記第２の対象物のうち、前記特定手段により関係を特定されなかった前記第２の対象物を含まない前記要約映像を生成することを特徴とする請求項１に記載の情報処理装置。
録画映像の中で検知された対象物の出現時刻を変更することにより、要約映像を生成する映像の要約方法において、
前記録画映像から所定の条件に基づいて、第１の対象物と前記第１の対象物が乗降可能な第２の対象物とを取得する取得ステップと、
前記取得ステップにおいて取得された対象物のうち、乗降を行った前記第１の対象物と、前記第１の対象物が乗降した前記第２の対象物とを特定する特定ステップと、
前記第１の対象物がそれぞれ重ならず、前記要約映像の再生時間が前記録画映像の再生時間より短くなるように、前記要約映像における前記出現時刻を決定する決定ステップと、
前記決定ステップで決定された前記出現時刻に基づき、前記特定ステップで特定された前記第１の対象物と前記第２の対象物と、を含む前記要約映像を生成する生成ステップと、
を有し、
前記決定ステップにおいて、前記特定ステップで特定された前記第１の対象物と前記第２の対象物との前記要約映像における相対的な出現時刻を維持するように、前記出現時刻を決定することを特徴とする映像の要約方法。
コンピュータを、請求項１から８のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。