JP6954416B2

JP6954416B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP6954416B2
Application number: JP2020114651A
Authority: JP
Inventors: 亮磨大網
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-03-30
Filing date: 2020-07-02
Publication date: 2021-10-27
Anticipated expiration: 2037-03-30
Also published as: JP2022002128A; JP7347481B2; JP2022009396A; JP2020177676A

Description

本発明は情報処理装置、制御方法、及びプログラムに関する。

監視カメラの映像を解析することで不審な物体を検出する技術が開発されている。例えば特許文献１や特許文献２は、静止している状態が継続する物体を置き去られた不審物として検出し、その物体を置き去った人物を推定する技術を開示している。

特開２０１１−０４９６４６号公報特開２０１２−２３５３００号公報

前述した特許文献１や特許文献２では、継続して静止している物体が、置き去られた物体として検出される。しかしながら、静止している物体が必ずしも置き去られた物体であるとは限らない。例えば空港のロビーにおいて目的の飛行機を待っている客が、周辺に荷物を置いた状態で椅子に座り続けているといったケースがある。静止している物体を置き去られた物体として検出してしまうと、このような荷物も置き去られた物体として誤検出されてしまう。

なお、特許文献１には、移動物体が近傍に存在する物体については不審物として検出しないようにすることで、単に足下に置かれただけの物体を不審物として検出しないようにするという技術も開示されている。しかしながらこの方法では、上述のように荷物を足下に置いた状態で椅子に座り続けるケースのように、荷物の持ち主が移動しないケースでは、その荷物が置き去られた物体として誤検出されてしまう。

本発明は、上記の課題に鑑みてなされたものである。本発明の目的の一つは、置き去られた物体を映像から精度良く検出する技術を提供することである。

本発明の情報処理装置は、１）動画データから静止物体を検出する静止物体検出手段と、２）静止物体として検出された物体である対象物体が含まれる第１動画フレーム、及び前記対象物体が含まれなおかつ前記第１動画フレームよりも後に生成された第２動画フレームそれぞれを対象に、前記対象物体の周辺から人物を検出する人物検出処理を実行する人物検出手段と、３）前記第１動画フレーム及び前記第２動画フレームそれぞれを対象とした前記人物検出処理の結果を比較することで所定処理を実行する処理実行手段と、を有する。

本発明の制御方法は、コンピュータによって実行される。当該制御方法は、１）動画データから静止物体を検出する静止物体検出ステップと、２）静止物体として検出された物体である対象物体が含まれる第１動画フレーム、及び前記対象物体が含まれなおかつ前記第１動画フレームよりも後に生成された第２動画フレームそれぞれを対象に、前記対象物体の周辺から人物を検出する人物検出処理を実行する人物検出ステップと、３）前記第１動画フレーム及び前記第２動画フレームそれぞれを対象とした前記人物検出処理の結果を比較することで所定処理を実行する処理実行ステップと、を有する。

本発明のプログラムは、本発明の制御方法が有する各ステップをコンピュータに実行させる。

本発明によれば、置き去られた物体を映像から精度良く検出する技術が提供される。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本実施形態の情報処理装置の動作の概要を例示する図である。実施形態１の情報処理装置の構成を例示する図である。情報処理装置を実現するための計算機を例示する図である。実施形態１の情報処理装置によって実行される処理の流れを例示するフローチャートである。動画データから静止物体を検出する方法を概念的に示す図である。動画フレームの一部の画像領域として定められる周辺領域を例示する図である。処理実行部によって実行される警告処理の流れを例示する図である。処理実行部が対象物体の状態を特定する処理の流れを例示するフローチャートである。複数のカメラから追跡対象人物が検出される様子を概念的に例示する図である。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。

［実施形態１］
＜概要＞
置き去り物体を検出する方法として、動画データから静止物体を検出し、静止物体を置き去り物体として扱う方法がある。そして、静止物体を検出する方法として、動画データを構成する各動画フレームから物体を検出し、その物体が静止している場合に、その物体を静止物体として検出する方法がある。ここで、「物体が静止している」とは、物体の位置の変化が小さい（所定の閾値以下の値）状態が継続することを意味する。よって、物体の位置の変化が小さい状態が継続した場合に、その物体が静止物体として検出される。

しかし前述したように、静止物体は必ずしも置き去り物体とは限らない。そのため、置き去り物体を精度良く検出するためには、静止物体を置き去り物体として検出する方法では不十分である。

そこで本実施形態の情報処理装置は、動画データから静止物体が検出された場合に、さらなる処理を行う。図１は、本実施形態の情報処理装置（後述する図２における情報処理装置２０００）の動作の概要を例示する図である。図１は、情報処理装置２０００の理解を容易にするための例示であり、情報処理装置２０００の動作を限定するものではない。

情報処理装置２０００は、動画データ１２から静止物体を検出する。さらに情報処理装置２０００は、静止物体として検出された物体（以下、対象物体）が含まれる複数の動画フレーム１４から、対象物体の周辺に存在する人物を検出する処理（以下、人物検出処理）を行う。そして、各動画フレーム１４を対象とした人物検出処理の結果を比較することで所定処理を行う。後述するように、例えば所定処理には、対象物体が置き去り物体である蓋然性が高い場合に警告を行う処理や、対象物体の状態を特定する（置き去られているかどうかを特定する）処理である。

例えば、静止物体として検出された対象物体が、置き去られた物体ではなく、持ち主のそばに置かれている物体であるとする。このケースでは、対象物体の周辺に持ち主がいる状態が継続する。一方で、対象物体が置き去られた物体であるケースでは、対象物体の周辺から持ち主がいなくなる。そこで情報処理装置２０００は、これらのケースを区別するために、それぞれ異なる時点における対象物体が含まれる動画フレーム１４について、対象物体の周辺から人物を検出する人物検出処理を行ってその結果を比較する。こうすることで、静止物体が検出されたそれを置き去り物体として検出する方法と比較し、置き去り物体を精度良く検出することができる。

以下、本実施形態の情報処理装置２０００についてさらに詳細に説明する。

＜情報処理装置２０００の機能構成の例＞
図２は、実施形態１の情報処理装置２０００の構成を例示する図である。情報処理装置２０００は、静止物体検出部２０２０、人物検出部２０４０、及び処理実行部２０６０を有する。静止物体検出部２０２０は、動画データ１２から静止物体を検出する。人物検出部２０４０は、静止物体として検出された物体（対象物体）が含まれる複数の動画フレーム１４それぞれを対象に、対象物体の周辺から人物を検出する人物検出処理を実行する。処理実行部２０６０は、複数の動画フレームそれぞれを対象とした人物検出処理の結果を比較することで所定処理を実行する。

＜情報処理装置２０００のハードウエア構成＞
情報処理装置２０００の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、情報処理装置２０００の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。

図３は、情報処理装置２０００を実現するための計算機１０００を例示する図である。計算機１０００は任意の計算機である。例えば計算機１０００は、Personal Computer（PC）、サーバマシン、タブレット端末、又はスマートフォンなどである。計算機１０００は、情報処理装置２０００を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。

計算機１０００は、バス１０２０、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０を有する。バス１０２０は、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０４０などを互いに接続する方法は、バス接続に限定されない。プロセッサ１０４０は、CPU（Central Processing Unit）や GPU（Graphics Processing Unit）などの演算装置である。メモリ１０６０は、RAM（Random Access Memory）などを用いて実現される主記憶装置である。ストレージデバイス１０８０は、ハードディスク、SSD（Solid State Drive）、メモリカード、又は ROM（Read Only Memory）などを用いて実現される補助記憶装置である。ただし、ストレージデバイス１０８０は、RAM など、主記憶装置を構成するハードウエアと同様のハードウエアで構成されてもよい。

入出力インタフェース１１００は、計算機１０００と入出力デバイスとを接続するためのインタフェースである。ネットワークインタフェース１１２０は、計算機１０００を通信網に接続するためのインタフェースである。この通信網は、例えば LAN（Local Area Network）や WAN（Wide Area Network）である。ネットワークインタフェース１１２０が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。

例えば計算機１０００は、ネットワークを介してカメラ１０と通信可能に接続されている。ただし、計算機１０００をカメラ１０と通信可能に接続する方法は、ネットワークを介した接続に限定されない。また、計算機１０００は、カメラ１０と通信可能に接続されていなくてもよい。

ストレージデバイス１０８０は、情報処理装置２０００の各機能構成部（静止物体検出部２０２０、人物検出部２０４０、及び処理実行部２０６０）を実現するプログラムモジュールを記憶している。プロセッサ１０４０は、これら各プログラムモジュールをメモリ１０６０に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。

なお、計算機１０００は、複数の計算機を利用して実現されてもよい。例えば静止物体検出部２０２０、人物検出部２０４０、及び処理実行部２０６０をそれぞれ異なる計算機で実現することができる。この場合、各計算機のストレージデバイスに記憶されるプログラムモジュールは、その計算機で実現される機能構成部に対応するプログラムモジュールだけでもよい。

＜カメラ１０について＞
カメラ１０は、繰り返し撮像を行って動画データ１２を生成できる任意のカメラである。例えばカメラ１０は、特定の施設や道路などを監視するために設けられている監視カメラである。

情報処理装置２０００の機能の一部又は全部は、カメラ１０によって実現されてもよい。すなわち、情報処理装置２０００を実現するための計算機１０００として、カメラ１０を利用してもよい。この場合、カメラ１０は、自身で生成した動画データ１２を処理する。このように情報処理装置２０００を実現するために用いられるカメラ１０には、例えば、インテリジェントカメラ、ネットワークカメラ、又は IP（Internet Protocol）カメラなどと呼ばれるカメラを利用できる。

＜処理の流れ＞
図４は、実施形態１の情報処理装置２０００によって実行される処理の流れを例示するフローチャートである。静止物体検出部２０２０は、動画データ１２から静止物体を検出する（Ｓ１０２）。人物検出部２０４０は、対象物体が含まれる複数の動画フレーム１４それぞれを対象に、対象物体の周辺から人物を検出する人物検出処理を実行する（Ｓ１０４）。処理実行部２０６０は、複数の動画フレームそれぞれを対象とした人物検出処理の結果を比較することで所定処理を実行する（Ｓ１０６）。

＜動画データ１２の取得方法＞
情報処理装置２０００は、処理対象とする動画データ１２を取得する。情報処理装置２０００が動画データ１２を取得する方法は様々である。例えば情報処理装置２０００は、カメラ１０から送信される動画データ１２を受信する。また例えば、情報処理装置２０００は、カメラ１０にアクセスし、カメラ１０に記憶されている動画データ１２を取得する。

なお、カメラ１０は、カメラ１０の外部に設けられている記憶装置に動画データ１２を記憶させてもよい。この場合、情報処理装置２０００は、この記憶装置にアクセスして動画データ１２を取得する。そのため、この場合、情報処理装置２０００とカメラ１０は通信可能に接続されていなくてもよい。

情報処理装置２０００の一部又は全部の機能がカメラ１０で実現される場合、情報処理装置２０００は、情報処理装置２０００自身によって生成された動画データ１２を取得する。この場合、動画データ１２は、例えば情報処理装置２０００の内部にある記憶装置（例えばストレージデバイス１０８０）に記憶されている。そこで情報処理装置２０００は、これらの記憶装置から動画データ１２を取得する。

情報処理装置２０００が動画データ１２を取得するタイミングは任意である。例えば情報処理装置２０００は、カメラ１０によって動画データ１２を構成する新たな動画フレーム１４が生成される度に、その新たに生成された動画フレーム１４を取得することで、動画データ１２を取得する。その他にも例えば、情報処理装置２０００は、定期的に未取得の動画フレーム１４を取得してもよい。例えば情報処理装置２０００が１秒間に１回動画フレーム１４を取得する場合、情報処理装置２０００は、１秒間に生成される複数の動画フレーム１４（例えば動画データ１２のフレームレートが 30fps(frames/second) であれば、３０枚の動画フレーム１４）をまとめて取得する。

静止物体検出部２０２０は、動画データ１２を構成する全ての動画フレーム１４を取得してもよいし、一部の動画フレーム１４のみを取得してもよい。後者の場合、例えば静止物体検出部２０２０は、カメラ１０によって生成される動画フレーム１４を、所定数に１つの割合で取得する。

＜静止物体の検出：Ｓ１０２＞
静止物体検出部２０２０は、動画データ１２から静止物体を検出する（Ｓ１０２）。動画データから静止物体を検出する技術には、既存の技術を利用することができる。以下、動画データ１２から静止物体を検出する方法の一例を説明する。

静止物体検出部２０２０は、動画データ１２を構成する各動画フレーム１４から物体を検出する。静止物体検出部２０２０は、同じ物体が含まれる複数の動画フレーム１４それぞれについて、その物体の位置の変化量を算出する。そして静止物体検出部２０２０は、その物体の位置の変化量が所定量以下である状態が所定長の期間継続した場合に、その物体を静止物体として検出する。ここで、静止物体検出部２０２０によって或る物体が静止物体として検出された場合において、その物体の位置の変化量が所定量以下である状態が継続した上記所定長の期間を、静止判定期間と呼ぶ。

図５は、動画データ１２から静止物体を検出する方法を概念的に示す図である。この例において、静止物体検出部２０２０は、物体の位置の変化量が所定値以下である期間の長さが p 以上である場合に、その物体を静止物体として検出する。

図５の動画データ１２では、時点 t 以降の各動画フレーム１４から物体２０が検出される。静止物体検出部２０２０は、時系列で隣接する２つの動画フレーム１４の各組み合わせについて物体２０の位置の差分を算出することで、物体２０の位置の変化量を算出する。

まず時点 t において、物体２０を持った人物３０が現れる。人物３０は、時点 t+a まで、物体２０を持って移動している。そのため、時点 t から t+a までの期間について算出される物体２０の位置の変化量は、いずれも所定量より大きい値となる。そのため、この期間に生成された動画フレーム１４を用いた判定では、物体２０は、静止物体として検出されない。

その後、時点 t+a 以降、物体２０は地面に置かれている。そのため、時点 t+a 以降の各動画フレーム１４から検出される物体２０の位置の変化量は、いずれも所定量以下となる。したがって、静止物体検出部２０２０は、時点 t+a から時点 t+a+p の期間に生成された動画フレーム１４を用いた判定により、物体２０を静止物体として検出する。

その他にも例えば、静止物体検出部２０２０は、動画フレーム１４を用いて背景画像（背景のみからなる画像）を生成し、背景差分によって静止物体を検出してもよい。まず、静止物体検出部２０２０は、時系列の動画フレーム１４から背景画像を生成する。背景画像の生成には、既知の様々な手法を用いることができる。次に、静止物体検出部２０２０は、新たに取得する動画フレーム１４と背景画像との差分を算出する。そして、静止物体検出部２０２０は、差分が大きくなる領域を抽出する。静止物体検出部２０２０は、動画フレーム１４を取得するたびにこの処理を実行し、得られた抽出結果をフレーム間で比較し、物体の位置の変化量が所定量以内に収まっているかどうかを判定する。

図５のケースにおいて、上述の背景差分を利用するとする。この場合、時点 t から t+a までの期間について算出される物体２０の位置の変化量は所定量より大きい値となる。一方、時点 t+a 以降では、物体２０の位置の変化量が所定量以下となる。よって、背景差分を利用する場合においても、時点 t+a から時点 t+a+p の期間に生成された動画フレーム１４を用いた判定により、物体２０が静止物体として検出される。

なお、物体の移動を判定する方法は、上記の方法に限定されない。例えば、「物体中の特徴点を抽出し、特徴点を隣接フレーム間で対応付けることによって、物体の移動量を求める」という方式など、様々な方式を用いることができる。

＜人物検出処理：Ｓ１０４＞
人物検出部２０４０は、対象物体（静止物体として検出された物体）が含まれる複数の動画フレーム１４それぞれを対象に、対象物体の周辺から人物を検出する人物検出処理を行う（Ｓ１０４）。以下、動画フレーム１４において、対象物体の周辺の画像領域を、周辺領域と呼ぶ。「対象物体が含まれる複数の動画フレーム１４」は、例えば前述した図５の例においては、時点 t 以降に生成された各動画フレーム１４である。これらの動画フレーム１４には、静止物体として検出された物体である物体２０が含まれている。

ここで、動画フレーム（すなわち画像データ）から人物を検出する方法には、既存の技術（例えば特徴量マッチングやテンプレートマッチングなど）を利用できる。例えば特徴量マッチングを利用する場合、人物検出部２０４０は、人間の外見的な特徴を表す特徴量を持つ画像領域を動画フレーム１４から検出することにより、人物検出を行う。

ここで、人物検出処理は、人物全体を表す画像領域を検出する処理であってもよいし、人物の一部（例えば頭部）を表す画像領域を検出する処理であってもよい。ここで、カメラ１０の撮像範囲に多くの人物や物体が含まれる場合、人物の一部が他の人物や物体によって隠されてしまう蓋然性が高い。この点、頭部は下半身などと比べて他の人物などに隠されてしまう蓋然性が低い部位（カメラ１０によって撮像される蓋然性が高い部位）であると言える。また、頭部は個々の人の特徴を良く表す部位であると言える。そのため、人物検出処理として頭部を検出する処理を行うことには、１）動画フレーム１４から人物を検出できる蓋然性が高い、２）他の人物との識別が容易な態様で人物を検出できるなどといった利点がある。

周辺領域は、動画フレーム１４全体の画像領域であってもよいし、動画フレーム１４の一部の画像領域であってもよい。動画フレーム１４の一部の画像領域を周辺領域とする場合、例えば対象物体の位置を基準とした所定形状の画像領域を周辺領域とする。ここで、物体の位置は、その物体を表す画像領域に含まれる任意の位置（例えば中心位置など）とすることができる。また、所定形状は、例えば所定のサイズを持つ円や矩形などとすることができる。周辺領域には、対象物体が含まれていてもよいし、含まれていなくてもよい。所定形状を定義する情報は、予め人物検出部２０４０に設定されていてもよいし、人物検出部２０４０からアクセス可能な記憶装置に記憶されていてもよい。

図６は、動画フレーム１４の一部の画像領域として定められる周辺領域を例示する図である。図６において、対象物体は物体２０である。図６（ａ）において、所定形状は、半径 d の円形である。また、周辺領域４０の中心位置は、物体２０の中心位置である。一方、図６（ｂ）において、所定形状は、長辺が d1 であり、なおかつ短辺が d2 の矩形である。また、周辺領域４０の中心位置は、物体２０の中心位置から上方に所定距離 e 離れた位置である。

なお、周辺領域４０の画像上の位置に応じ、周辺領域４０を定める所定形状を変化させてもよい。例えば、カメラ１０に近い場所では所定形状のサイズを大きくし、カメラ１０から遠い場所ではカメラ１０のサイズを小さくするように定義する。その他にも例えば、周辺領域４０の実空間での大きさが一定となるように、所定形状を定める。ここで、周辺領域４０の実空間での大きさは、カメラ１０のキャリブレーション情報を用いて推定することができる。なお、カメラ１０のキャリブレーション情報は、カメラ１０上の座標を実空間上の座標に変換するために必要な種々のパラメータ（カメラの位置や姿勢、レンズの歪など）の情報を含む。キャリブレーション情報の生成には、既知の手法を利用することができる。

＜＜人物検出処理の対象とする動画フレーム１４＞＞
人物検出部２０４０は、対象物体を含む複数の動画フレーム１４のうち、少なくとも２つの動画フレーム１４を人物検出処理の対象とする。以下、この２つの動画フレーム１４を第１動画フレームと第２動画フレームと呼ぶ。第２動画フレームは、第１動画フレームよりも後に生成された動画フレーム１４である。以下、第１動画フレームと第２動画フレームとして扱う動画フレーム１４を定める方法について説明する。

人が物体を或る場所に置き去る場合、少なくともその物体がその場所に置かれるまでは、その人物がその物体の周辺に存在すると言える。一方、その物体が置かれてからしばらく後には、その人物がその物体の周辺に存在しない蓋然性が高い。よって、対象物体が置かれた時点付近又はその時点よりも前の時点に対象物体の周辺に存在する人物が、対象物体が置かれてからしばらく後に対象物体の周辺に存在していなければ、対象物体が置き去られていると推測できる。

そこで、例えば第１動画フレームには、前述した静止判定期間の開始時点又はそれに近い時点（所定時間前又は後の時点）に生成された動画フレーム１４を採用できる。例えば図５の例において、静止判定期間の開始時点は時点 t+a である。よって、静止判定期間の開始時点に生成された動画フレーム１４を第１動画フレームとすると、動画フレーム１４−２が第１動画フレームとなる。

その他にも例えば、第１動画フレームは、静止判定期間の終了時点 t+a+pに抽出された対象物体が実際に置かれた時点（以下、置き去り時点と呼ぶ）を基準として決定されてもよい。人が往来する場所などがカメラ１０によって撮像される場合、対象物体が静止していると判定され始める時点（静止判定期間の開始時点）は、対象物体が実際に置かれた時点と一致するとは限らないためである。

そのために、人物検出部２０４０は、対象物体の置き去り時点を推定する。例えば人物検出部２０４０は、静止判定期間の終了時点 t+a+p に生成された動画フレーム１４から対象物体の画像特徴量を抽出し、その特徴量が時点 t+a+p よりも前に生成された各動画フレーム１４において同じ位置で検出されるかどうかを遡って調べる。そして、人物検出部２０４０は、例えば対象物体の画像特徴量が検出されなくなる時点が、置き去り推定時刻であると推定する。置き去り時点を基準として決定される第１動画フレームは、例えば、置き去り時点に生成された動画フレーム１４や、置き去り時点よりも所定時間前又は後に生成された動画フレーム１４である。

その他にも例えば、第１動画フレームには、対象物体が含まれる動画フレーム１４のうち、最も生成時点が早い動画フレーム１４（対象物体が出現した動画フレーム１４）を採用できる。例えば図５の例において、対象物体が出現した動画フレーム１４は、動画フレーム１４−１である。

その他にも例えば、第１動画フレームには、第２動画フレームの生成時点よりも所定の長さ前の時点に生成された動画フレーム１４を採用してもよい。

一方、第２動画フレームには、例えば前述した静止判定期間の終了時点又はそれに近い時点（所定時間前又は後の時点）に生成された動画フレーム１４を採用できる。図５の例において、静止判定期間の終了時点は t+a+p である。よって、静止判定期間の終了時点に生成された動画フレーム１４を第２動画フレームとすると、動画フレーム１４−３が第２動画フレームとなる。その他にも例えば、第２動画フレームには、第１動画フレームの生成時点よりも所定の長さ後の時点に生成された動画フレーム１４を採用してもよい。

人物検出部２０４０は、前述した第１動画フレームと第２動画フレームに加え、他の動画フレーム１４をさらに人物検出処理の対象としてもよい。例えば第１動画フレームに含まれる人物が屈んでいる場合、第１動画フレームに人物が含まれているにもかかわらず、姿勢変動によりその人物を検出できない可能性がある。そこで例えば、人物検出部２０４０は、第１動画フレームの生成時点の前後所定時間に生成された複数の動画フレーム１４も、人物検出処理の対象とする。同様に人物検出部２０４０は、第２動画フレームの生成時点の前後所定時間に生成された複数の動画フレーム１４も、人物検出処理の対象とする。

＜所定処理の実行：Ｓ１０６＞
処理実行部２０６０は、対象物体が含まれる複数の動画フレーム１４それぞれを対象とした人物検出処理の結果を比較することで、所定処理を実行する（Ｓ１０６）。所定処理は、例えば、１）所定の条件が満たされた場合に警告を行う処理、２）対象物体の状態を特定する処理、３）対象物体を置き去ったと推定される人物を追跡する処理などである。以下、これらの処理について詳細に例示する。

＜＜警告処理＞＞
図７は、処理実行部２０６０によって実行される警告処理の流れを例示する図である。この例において、処理実行部２０６０は、第１動画フレームに対する人物検出結果と第２動画フレームに対する人物検出結果を比較する。

まず処理実行部２０６０は、第１動画フレームを対象とする人物検出処理によって人物が検出されたか否かを判定する（Ｓ２０２）。人物が検出されなかった場合、図７の処理は終了する（警告が行われない）。第１動画フレームにおいて対象物体の周辺から人物が検出されないケースは、例えば、対象物体がカメラ１０の撮像範囲外から移動してきたのではなく、カメラ１０の撮像範囲内に突然出現したケースである。例えば、対象物体が、カメラ１０の撮像範囲内の或る場所に固定で設置されている物体（看板や銅像など）であるとする。この場合、対象物体が他の物体（例えば車などの機械）に隠されていると、対象物体がカメラ１０によって撮像されない。しかし、対象物体を隠している物体が移動すると、対象物体がカメラ１０によって撮像されるようになる。つまり、カメラ１０の視点からは、対象物体が突然出現したことになる。その他にも例えば、環境光の変化などによって背景画像との差分が生じることで、対象物体が動画データ１２に突然現れたかのように検出される場合がある。これらのケースでは、対象物体は置き去られていない蓋然性が高いと言える。そのため、処理実行部２０６０は警告を行わない。

第１動画フレームを対象とする人物検出処理によって人物が検出された場合（Ｓ２０２：ＹＥＳ）、人物が検出された領域（人物領域）から人物の照合に必要な特徴量（顔や頭部などの身体の一部の特徴量や、服若しくは持ち物などの特徴量）を抽出した上で、図７の処理はＳ２０４に進む。Ｓ２０４において、処理実行部２０６０は、第２動画フレームを対象とする人物検出処理によって、第１動画フレームを対象とする人物検出処理によって検出された人物と同じ人物が検出されたか否かを判定する。この際、第１動画フレームから人物が検出された場合には、その人物領域から、人物の照合に必要な特徴量を抽出する。そして、処理実行部２０６０は、第１動画フレームから抽出された特徴量と第２動画フレームから抽出された特徴量の類似度がある所定の閾値よりも高い場合に、これらの動画フレームから同一の人物が検出されたと判定する。

同じ人物が検出された場合（Ｓ２０４：ＹＥＳ）、図７の処理は終了する（警告が行われない）。このケースでは、第１動画フレームの生成時点と第２動画フレームの生成時点において、同一の人物が対象物体の周辺に存在している。すなわちこの状況は、対象物体を置いた人物がその周辺に留り続けている状況であり、対象物体は置き去られていない蓋然性が高いと言える。よって、処理実行部２０６０は警告を行わない。

これに対し、第２動画フレームを対象とする人物検出処理によって、第１動画フレームを対象とする人物検出処理によって検出された人物と同じ人物が検出されなかった場合（Ｓ２０４：ＮＯ）、処理実行部２０６０は警告を行う（Ｓ２０６）。このケースは、１）第２動画フレームを対象とする人物検出処理によって人物が検出されないか、又は２）第２動画フレームを対象とする人物検出処理によって検出された人物が、第１動画フレームを対象とする人物検出処理によって検出された人物とは異なるケースである。いずれのケースであっても、対象物体を置いた人物がその対象物体の周辺に存在しなくなっており、対象物体が置き去られている蓋然性が高いと言える。そこで処理実行部２０６０は、警告を行う。

なお、第１動画フレームと第２動画フレームから複数の人物が検出されることが考えられる。この場合、例えば、第１動画フレームから検出された複数の人物のいずれかが、第２動画フレームから検出された複数の人物のいずれかと同じである場合、処理実行部２０６０は、「第２動画フレームを対象とする人物検出処理によって、第１動画フレームを対象とする人物検出処理によって検出された人物と同じ人物が検出された」と判定する。一方、第１動画フレームから検出された全ての人物が、第２動画フレームから検出された複数の人物のいずれとも異なる場合、処理実行部２０６０は、「第２動画フレームを対象とする人物検出処理によって、第１動画フレームを対象とする人物検出処理によって検出された人物と同じ人物が検出されなかった」と判定する。

その他にも例えば、処理実行部２０６０は、第１動画フレームから検出される複数の人物それぞれについて、対象物体を置き去った人物（置き去り主）である蓋然性の高さを判定し、その判定結果を用いて人物同一判定を行ってもよい。例えば処理実行部２０６０は、第１動画フレームから検出される各人物について、その検出位置と対象物体との距離に応じて、置き去り主である尤度を算出する。すなわち、人物の検出位置と対象物体との距離が小さいほど、その人物の尤度を大きくする。この際、人物の検出位置と対象物体との距離は、動画フレーム１４上の距離でもよいし、実空間上の距離でもよい。実空間上の距離は、カメラ１０のキャリブレーション情報を用いて推定することができる。そして、例えば処理実行部２０６０は、第１動画フレームから検出される人物のうち、所定値以上の尤度を持つ人物のいずれかが、第２動画フレームからも検出された場合に、「第２動画フレームを対象とする人物検出処理によって、第１動画フレームを対象とする人物検出処理によって検出された人物と同じ人物が検出された」と判定する。

また、上述の例では第１動画フレームを対象とする人物検出結果と第２動画フレームを対象とする人物検出結果を比較しているが、処理実行部２０６０は必ずしもこれらを比較する必要はない。例えば、第１動画フレームを対象とする人物検出処理の結果の代わりに、第１動画フレームの生成時点の前後所定時間に生成されたいずれかの動画フレーム１４を対象とする人物検出処理の結果を利用してもよい。例えば、第１動画フレーム及び第１動画フレームの生成時点の前後所定時間に生成された複数の動画フレーム１４それぞれを対象として人物検出処理を行った結果、いずれか複数の動画フレーム１４から同じ人物が検出されたとする。この場合、処理実行部２０６０は、最も鮮明にその人物が検出された人物検出処理の結果を利用する。第２動画フレームについても同様である。

また、処理実行部２０６０は、３つ以上の動画フレーム１４を比較することで、警告処理を行うか否かを判定してもよい。例えば人物検出部２０４０は、第１動画フレームと第２動画フレームとの間に生成される１つ以上の動画フレーム１４についても、人物検出処理を行う。以下、第１動画フレームと第２動画フレームとの間に生成される動画フレーム１４を、中間フレームと呼ぶ。そして処理実行部２０６０は、第１動画フレーム、第２動画フレーム、及び１つ以上の中間動画フレームそれぞれに対する人物検出処理の結果に基づいて、警告を行うか否かを判定する。こうすることで、対象物体を置いた人物がその周辺に留まり続けているかどうかを、より高い精度で判定することができる。

例えば処理実行部２０６０は、上述のＳ２０４における判定の代わりに、第１動画フレームから検出された人物と同じ人物が、第２動画フレームに加え、１つ以上の中間フレームからも検出されるか否かを判定する。そして、例えば処理実行部２０６０は、第２動画フレーム及び中間フレームの中に、第１動画フレームから検出された人物と同じ人物が検出されない動画フレーム１４がある場合には、警告を行う。一方、第２動画フレーム及び全ての中間フレームから、第１動画フレームから検出された人物と同じ人物が検出される場合、処理実行部２０６０は警告を行わない。なお、第１動画フレームから検出された人物は、必ずしも全ての中間フレームから検出されなくてもよい。例えば処理実行部２０６０は、所定割合以上の中間フレームから、第１動画フレームから検出された人物と同じ人物が検出された場合には、警告を行わないようにしてもよい。

その他にも例えば、処理実行部２０６０は、まずは第１動画フレームから検出された人物と第２動画フレームから検出された人物とが同一であるか否かを判定し、その判定の精度が十分でない場合のみ、中間フレームを利用するようにしてもよい。例えば処理実行部２０６０が、第１動画フレームから検出された人物の特徴量と、第２動画フレームから検出された人物の特徴量との類似度に基づいて、これらの人物が同一であると判定するとする。この場合、例えば処理実行部２０６０は、１）類似度が第１所定値以上であれば、検出された人物が同一であると判定し、２）類似度が第２所定値（第１所定値未満の値）未満であれば、検出された人物が同一でないと判定し、３）類似度が第２所定値以上であって第１所定値未満であれば、判定精度が不十分であると判定する。そして３）の場合、処理実行部２０６０は、第１動画フレームから検出された人物が中間フレームから検出されるかどうかをさらに判定する。

処理実行部２０６０が行う警告は任意である。例えば処理実行部２０６０は、警告音を出力したり、所定の情報を出力したりすることで警告を行う。この所定の情報は、例えば、対象物体に関する情報（以下、物体情報）である。例えば物体情報には、対象物体の画像、対象物体が撮像された時点や期間、対象物体が含まれる動画フレーム１４の識別子（フレーム番号）、及び対象物体を撮像したカメラ１０の識別子などが含まれる。

その他にも例えば、出力される所定の情報には、対象物体を置き去ったと推測される人物に関する情報（以下、人物情報）が含まれる。なお、対象物体を置き去ったと推測される人物は、第１動画フレームにおいて対象物体の周辺から検出され、なおかつ第２動画フレームにおいて対象物体の周辺から検出されなかった人物である。

例えば人物情報は、対象物体を置き去ったと推測される人物の画像やその特徴量、その人物がカメラ１０の撮像範囲に入った時点（到着時点）、その人物がカメラ１０の撮像範囲から出た時点（立ち去り時点）などを含む。ここで、到着時点や立ち去り時点の推定は、例えば、対象物体を置き去ったと推定される人物が検出された動画フレーム１４の前後に生成された複数の動画フレーム１４を用いてその人物の追跡処理を行い、対象物体が置かれた場所からその人物が動き出した時点を求めることによって推定できる。その他にも例えば、カメラ１０の撮像範囲からその人物が消失した時点に基づいて、到着時点や立ち去り時点を推定するようにしてもよい。なお、人物の追跡処理には、既知の方式を用いることができる。なお、追跡処理によってその人物の移動速度を求め、その移動速度も人物に含めるようにしてもよい。対象物体を置き去ったと推定される人物の移動速度は、後述する周辺の他のカメラにおける、当該人物の出現時点の予測などに用いることができる。

また、対象物体を置き去ったと推定される人物が、ブラックリストなど、人物に関する他の情報に含まれる場合、人物情報は、この「他の情報」に示されるその人物の情報を含んでもよい。

警告の出力先は任意である。例えば警告の出力先は、警備員室でカメラ１０の映像を監視している監視員の周囲に設けられているスピーカや、その監視員が使用している端末である。ここで、対象物体が含まれる動画フレーム１４を端末に表示させる場合、対象物体や置き去ったと推定される人物の画像領域を強調表示するようにしてもよい。例えば、それらの画像領域を枠で囲ったり、さらにその枠を点滅させたりしてもよい。また、対象物体の大きさの情報等も付加して提示するようにしてもよい。物体の大きさについては、カメラのキャリブレーション情報を用いてその物体の画像領域を実空間上の領域に変換することにより、推定することができる。対象物体の大きさを示す情報は、対象物体が爆弾等の危険物である場合に、その危険性を判定する上で有用である。その他にも例えば、警告の出力先は、現場で警備を行っている警備員が使用している端末である。
その他にも例えば、警告の出力先は、警備会社や警察などの所定の機関で使用されている端末であってもよい。

＜＜状態の特定＞＞
処理実行部２０６０は、対象物体の状態を特定する。具体的には、処理実行部２０６０は、対象物体の状態が、「置き去られている」と「置き去られていない」のどちらであるかを特定する。

図８は、処理実行部２０６０が対象物体の状態を特定する処理の流れを例示するフローチャートである。このフローチャートにおける条件判定処理はいずれも、図７のフローチャートにおける条件判定処理と同じである。ただし、各状態判定処理の結果として行われる処理が、図７と図８とで異なる。

具体的には、処理実行部２０６０は、図７のフローチャートで「対象物体は置き去られていない蓋然性が高い」として説明したケース（Ｓ２０２：ＮＯ、及びＳ２０４：ＹＥＳ）において、対象物体の状態を「置き去られていない」と特定する（Ｓ３０２）。一方、処理実行部２０６０は、図７のフローチャートで「対象物体は置き去られている蓋然性が高い」として説明したケース（Ｓ２０４：ＮＯ）において、対象物体の状態を「置き去られている」と特定する（Ｓ３０４）。

例えば処理実行部２０６０は、状態が「置き去られている」であると特定された対象物体について、前述した物体情報を生成して、記憶装置に記憶させる。この記憶装置は、情報処理装置２０００からアクセス可能な任意の記憶装置（例えばストレージデバイス１０８０）である。なお、処理実行部２０６０はさらに、対象物体を置き去ったと推測される人物について前述した人物情報を生成して、記憶装置に記憶させてもよい。

その他にも例えば、処理実行部２０６０は、置き去られた物体の種別を推定するようにしてもよい。置き去り物体が何であるかによって、置き去り物体が検出された際の対処などが異なるためである。例えば、置き去り物体が、荷物を運ぶためのカートや、床に置く注意を促す掲示ボード（Cautionと書かれたボードなど）などである場合は、その存在によって大きな問題は生じないため、緊急の対処や慎重な対処を必ずしも必要としない。一方で、置き去り物体が爆弾などの危険物である場合、緊急かつ慎重な対処が求められる。

さらに処理実行部２０６０は、物体の種別に応じて警告の種別を変えてもよい。また、処理実行部２０６０は、物体の種別に応じてその後の処理を変えたりしてもよい。例えば処理実行部２０６０は、置き去り物体が緊急な対処を要する物体である場合には記憶装置に記憶させる一方で、置き去り物体が緊急な対処を要しない物体である場合には記憶装置に記憶させなくてもよい。

なお、処理実行部２０６０は、「置き去られていない」という状態であると特定された対象物体についても、物体情報を生成するようにしてもよい。ただしこの場合、物体情報には、その物体について特定された状態も含める。

＜＜追跡処理＞＞
前述したように、第１動画フレームから検出された人物と同じ人物が第２動画フレームから検出されない場合、対象物体が置き去られた蓋然性が高い。そこで、対象物体を置き去ったと推測される人物を追跡することが好適である。ここでいう追跡は、例えば、その人物の現在位置を把握すること、その人物が今後移動すると予測される場所を把握すること、及び対象物体を置き去さるまでのその人物の行動を把握することなどを含む。

そこで処理実行部２０６０は、第１動画フレームから検出された人物と同じ人物が第２動画フレームから検出されない場合に、対象物体を置き去ったと推測される人物（第１動画フレームから検出された人物）を、第１動画フレームを生成したカメラ１０とは別のカメラ１０によって生成された動画データ１２から検出する。前提として、情報処理装置２０００が利用される環境には、カメラ１０が複数設けられているとする。例えば監視カメラは、監視対象の施設の複数の場所に設けられる。そこで、これら複数の場所に設けられた複数の監視カメラをそれぞれカメラ１０として扱う。なお、上述の「対象物体を置き去ったと推測される人物」を、以下では追跡対象人物と呼ぶ。

処理実行部２０６０は、複数のカメラ１０それぞれから動画データ１２を取得し、各動画データ１２から追跡対象人物を検出する。ここで、動画データ１２から特定の人物を検出する技術には、既存の技術を利用することができる。例えば処理実行部２０６０は、第１動画フレームから検出された追跡対象人物について特徴量を算出し、その特徴量を持つ画像領域を各動画データ１２から検出することで、各動画データ１２から追跡対象人物を検出する。

処理実行部２０６０は、１）追跡対象人物が検出された第１動画フレームの生成時点以前に生成された動画フレーム１４のみを検出の対象としてもよいし、２）追跡対象人物が検出された第１動画フレームの生成時点以後に生成された動画フレーム１４のみを検出の対象としてもよいし、３）双方を検出の対象としてもよい。１）のケースでは、対象物体を置き去るまでの追跡対象人物の行動（どこから来たのかなど）を把握することができる。一方、２）のケースでは、対象物体を置き去った後の追跡対象人物の行動（現在位置や、どこへ向かっているかなど）を把握することができる。

図９は、複数のカメラ１０から追跡対象人物が検出される様子を概念的に例示する図である。図９に示されているカメラ１０−１からカメラ１０−７は、施設５０を監視するために設けられている監視カメラの一部である。

図９において、カメラ１０−４によって生成された動画データ１２から、人物３０によって物体２０が置き去られたことが検出されている。ここで、追跡対象人物である人物３０は、時刻 t にカメラ１０−１によって生成された第１動画フレームから検出されたとする。

そこで処理実行部２０６０は、カメラ１０−１からカメラ１０−３及びカメラ１０−５からカメラ１０−７によって生成される各動画データ１２それぞれをさらに解析して、人物３０を検出する。その結果、人物３０は、時刻 t-a-b においてカメラ１０−１によって生成された動画フレーム１４、t-a においてカメラ１０−２によって生成された動画フレーム１４、t+c においてカメラ１０−５によって生成された動画フレーム１４、及び t+c+d においてカメラ１０−７によって生成された動画フレーム１４それぞれから検出されている（a、b、c、及び d はそれぞれ正の値）。一方、カメラ１０−３によって生成された動画データ１２とカメラ１０−６によって生成された動画データ１２からは、人物３０が検出されない。この結果により、処理実行部２０６０は、人物３０の移動の軌跡が軌跡６０であると推定する。なお、各カメラ１０の情報（設置場所など）を示す情報は、情報処理装置２０００からアクセス可能な任意の記憶装置に記憶されているものとする。

例えば軌跡６０を利用することで、監視カメラによって撮像できない場所のうち、追跡対象人物が通った蓋然性が高い場所を推測することができる。そして、その推測した場所を警備員などに調べさせることにより、監視カメラで監視できていない場所に異常がないか（他の置き去り物体が存在していないかどうか）などを調べることができる。この方法によれば、怪しい行動をしている人物が通った蓋然性が高い場所を優先的に調べることができるため、監視対象の施設などを効率的に監視できるようになる。

また、この軌跡６０及び施設５０の構成から、追跡対象人物の今後の行動を推測することができる。例えば図９の例において、施設５０に複数の出入り口がある場合、人物３０は軌跡６０の先にある出口へ向かうと推測できる。そこで例えば、その出口を封鎖するなどといった対処が可能となる。

ここで、処理実行部２０６０は、全てのカメラ１０から動画データ１２を取得してもよいし、一部のカメラ１０から動画データ１２を取得してもよい。後者の場合、例えば処理実行部２０６０は、対象物体が置き去られたことを検出したカメラ１０に近いカメラ１０から順に動画データ１２を取得し、追跡対象人物の移動の軌跡を推定していく。そして処理実行部２０６０は、推定された軌跡上に存在するカメラ１０からのみ動画データ１２を取得するようにする。こうすることで、全てのカメラ１０から動画データ１２を取得して追跡対象人物の検出を行う場合と比較し、１）情報処理装置２０００の処理負荷を軽減できる、２）追跡対象人物の検出に要する時間を短くできるといった利点がある。

例えば図９のケースにおいて、処理実行部２０６０が、追跡対象人物が、物体２０を置く前にどこから来たのかを推定する処理を行うとする。この場合、まず処理実行部２０６０は、カメラ１０−４によって生成された動画データ１２における人物３０の動きから、人物３０が図９における左方向から移動してきたことを特定する。そこで処理実行部２０６０は、次に動画データ１２を取得すべきカメラ１０として、カメラ１０−４の左方向に設置されているカメラ１０−２を特定する。同様に処理実行部２０６０は、カメラ１０−２によって生成された動画データ１２における人物３０の動きから、図９における上方向から人物３０が移動してきたことを特定する。そこで処理実行部２０６０は、次に動画データ１２を取得すべきカメラ１０として、カメラ１０−２の上方向にあるカメラ１０−１を特定する。

一方、図９のケースにおいて、処理実行部２０６０が、追跡対象人物が、物体２０を置き去った後にどこへ向かっているのかを推定する処理を行うとする。この場合、まず処理実行部２０６０は、カメラ１０−４によって生成された動画データ１２における人物３０の動きから、人物３０が図９における右方向へ移動していることを特定する。そこで処理実行部２０６０は、次に動画データ１２を取得すべきカメラ１０として、カメラ１０−４の右方向に設置されているカメラ１０−５を特定する。同様に処理実行部２０６０は、カメラ１０−５によって生成された動画データ１２における人物３０の動きから、図９における下方向へ人物３０が移動していることを特定する。そこで処理実行部２０６０は、次に動画データ１２を取得すべきカメラ１０として、カメラ１０−５の下方向にあるカメラ１０−７を特定する。

さらに処理実行部２０６０は、カメラ１０の位置関係を利用して、追跡対象人物が各カメラ１０によって撮像される時間帯を推定し、その時間帯に生成された動画フレーム１４のみを利用して追跡対象人物の検出を行ってもよい。こうすることで、情報処理装置２０００の処理負荷や人物３０を検出する処理に要する時間をさらに削減することができる。

例えば図９の例において、まず処理実行部２０６０は、カメラ１０−４によって生成された動画データ１２から、物体２０を置き去ったと推定される人物３０を検出する。この際、処理実行部２０６０は、前述したように、動画データ１２における人物３０の動きから、その人物３０を次に撮像するカメラ１０がカメラ１０−５であると推定する。さらに処理実行部２０６０は、人物３０がカメラ１０−４によって生成される動画データ１２に含まれなくなった時点（カメラ１０−４の撮像範囲からカメラ１０−５の撮像範囲へと移動し始めた時点）を特定し、その特定した時点及びカメラ１０−４とカメラ１０−５との位置関係（距離）に基づいて、人物３０がカメラ１０−５の撮像範囲に入る時間帯を推定する。この際、人物の移動速度も推定し、撮像範囲に入る時間帯の推定に反映させてもよい。そして処理実行部２０６０は、カメラ１０−５によって生成された動画データ１２のうち、上記推定した時間帯に含まれる動画フレーム１４のみについて、人物３０を検出する処理を行う。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記各実施形態の組み合わせ、又は上記以外の様々な構成を採用することもできる。

Claims

動画フレームから静止物体を検出する静止物体検出手段と、
前記静止物体として検出された物体である対象物体が含まれる第１動画フレームを特定する第１特定手段と、
前記第１動画フレームを基に、前記対象物体が含まれなおかつ前記第１動画フレームより前に生成された第２動画フレームを特定する第２特定手段と、
前記対象物体が含まれる前記第１動画フレーム及び前記第２動画フレームを表示させる表示手段と、
を備え、
前記第２動画フレームは、前記対象物体が置き去られた時点から所定時間前に生成され、人物が映るフレームを含む、
情報処理装置。
前記第１動画フレーム及び前記第２動画フレームそれぞれを対象に、前記対象物体の周辺から人物を検出する人物検出処理を実行する人物検出手段と、
前記第１動画フレーム及び前記第２動画フレームそれぞれを対象とした前記人物検出処理の結果を比較することで所定処理を実行する処理実行手段と、
を有する請求項１に記載の情報処理装置。
コンピュータが、
動画フレームから静止物体を検出する静止物体検出処理と、
前記静止物体として検出された物体である対象物体が含まれる第１動画フレームを特定する第１特定処理と、
前記第１動画フレームを基に、前記対象物体が含まれなおかつ前記第１動画フレームより前に生成された第２動画フレームを特定する第２特定処理と、
前記対象物体が含まれる前記第１動画フレーム及び前記第２動画フレームを表示させる表示処理と、
を行い、
前記第２動画フレームは、前記対象物体が置き去られた時点から所定時間前に生成され、人物が映るフレームを含む、
情報処理方法。
前記コンピュータが、さらに、
前記第１動画フレーム及び前記第２動画フレームそれぞれを対象に、前記対象物体の周辺から人物を検出する人物検出処理を実行する人物検出処理と、
前記第１動画フレーム及び前記第２動画フレームそれぞれを対象とした前記人物検出処理の結果を比較することで所定処理を実行する処理実行処理と、
を行う請求項３に記載の情報処理方法。
コンピュータに、
動画フレームから静止物体を検出する静止物体検出機能と、
前記静止物体として検出された物体である対象物体が含まれる第１動画フレームを特定する第１特定機能と、
前記第１動画フレームを基に、前記対象物体が含まれなおかつ前記第１動画フレームより前に生成された第２動画フレームを特定する第２特定機能と、
前記対象物体が含まれる前記第１動画フレーム及び前記第２動画フレームを表示させる表示機能と、
を持たせ、
前記第２動画フレームは、前記対象物体が置き去られた時点から所定時間前に生成され、人物が映るフレームを含む、
プログラム。
前記コンピュータに、さらに、
前記第１動画フレーム及び前記第２動画フレームそれぞれを対象に、前記対象物体の周辺から人物を検出する人物検出処理を実行する人物検出機能と、
前記第１動画フレーム及び前記第２動画フレームそれぞれを対象とした前記人物検出処理の結果を比較することで所定処理を実行する処理実行機能と、
を持たせる請求項５に記載のプログラム。