JP2022065293A

JP2022065293A - 映像処理装置、映像処理方法、コンピュータプログラム及び記憶媒体

Info

Publication number: JP2022065293A
Application number: JP2020173769A
Authority: JP
Inventors: 俊介佐藤; Shunsuke Sato
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2022-04-27
Also published as: US20220121856A1

Abstract

【課題】所定の被写体が所定の特徴動作を行った時間区間に基づき、視認性のよい要約映像を合成する。【解決手段】映像処理装置において、映像を取得する映像取得手段と、前記映像取得手段で取得された映像から、所定の被写体が所定の特徴動作を行った複数の時間区間を選択する区間選択手段と、前記区間選択手段で選択された前記複数の時間区間の映像を時間的に近づけて合成する合成手段と、を有することを特徴とする。【選択図】図４

Description

本発明は、映像の要約等を作成可能な映像処理装置等に関する。

映像処理の技術において、長時間の動画の内容を要約して閲覧しやすい要約映像を作成する方法が提案されている。
たとえば、特許文献１には、異なる時間の被写体を、服装や年代などの、利用者（観察者）が指定した条件で絞って、同時に表示する要約映像を作成する手法が提案されている。

米国特許９８７７０８６号明細書

一方、例えば、ある特定の行動を取った被写体について要約映像を作成したい場合、利用者（観察者）が注目したいのは映像に被写体が映っている範囲のうち、対象とした行動を取っている区間であると考えられる。
そのため、被写体がいつどこで注目すべき行動を取っているかを考慮しなければ視認性の良くない要約映像が作成されてしまう可能性がある。たとえば、注目すべき行動をまさに取っている最中の被写体同士が重なってしまうと、観察に支障をきたす可能性がある。
本発明は以上の課題に鑑みて為されたもので、所定の被写体が所定の特徴動作を行った時間区間に基づき、視認性のよい要約映像を生成することを目的としたものである。

上記の課題を解決するため、本発明の映像処理装置は、
映像を取得する映像取得手段と、
前記映像取得手段で取得された映像から、所定の被写体が所定の特徴動作を行った複数の時間区間を選択する区間選択手段と、
前記区間選択手段で選択された前記複数の時間区間の映像を時間的に近づけて合成する合成手段と、を有することを特徴とする。

本発明によれば、所定の被写体が所定の特徴動作を行った時間区間に基づき、視認性のよい要約映像を生成できる。

本発明の実施例１における、映像処理装置（映像処理システム）の全体構成図である。実施例１における、映像処理装置（映像処理システム）の機能ブロック図である。実施例１における、被写体の動作例を説明する模式図である。実施例１における、要約元映像から要約映像を作成する方法を説明するための図である。実施例１における、映像処理装置が実行する処理の手順を示すフローチャートである。実施例１における、表示部２１０に表示される設定画面の一例を示す図である。実施例１における、ステップＳ５０７の処理の手順の詳細例を示すフローチャートである。実施例１における、ステップＳ５０７の処理において区間列Ｍが変化する様子を説明する図である。本発明の実施例２における、要約映像の一例を示す図である。実施例２における、ステップＳ５０７の処理例を示すフローチャートである。実施例２における、ステップＳ１００５の処理について説明する図である。本発明の実施例３における、要約映像を説明する図である。

以下、添付図面を参照して、本発明の好適な実施の形態について実施例を用いて説明する。なお、各図において、同一の部材ないし要素については同一の参照番号を付し、重複する説明は省略ないし簡略化する。
また、実施例においては、撮像装置としてネットワークカメラに適用した例について説明する。しかし、撮像装置はデジタルスチルカメラ、デジタルムービーカメラ、カメラ付きのスマートフォン、カメラ付きのタブレットコンピュータ、車載カメラなどの撮像機能を有する電子機器等を含む。

図１は本発明の実施例１における、映像処理装置（映像処理システム）の全体構成図である。
ネットワークカメラ１０１は、撮像素子、レンズ、これらを駆動するモーター、これらを制御するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＭＰＵ（Ｍｉｃｒｏ－ｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）やメモリ等によって構成される。さらにネットワークカメラ１０１は、上記構成を備える撮影装置であって、動画を撮影して電子的な画像データに変換する。ネットワークカメラ１０１は利用者（観察者）が監視を要する場所に設置され、撮影した映像をカメラネットワーク１０５に通じて送信する。

解析サーバ１０２はコンピュータとしてのＣＰＵやＭＰＵやメモリ等を含み、ネットワークカメラ１０１等から送信される映像、または録画サーバ１０３に記録された映像を解析する。解析サーバ１０２は設置個所に応じて例えば顔認証、人物追跡、人流計測、侵入検知、人物属性検出、天候検知、渋滞検知などの認識処理を行い、結果を集計して、設定に従って利用者に通知する。
録画サーバ１０３は、ネットワークカメラ１０１から取得した映像を保有するストレージに記録し、解析サーバ１０２、クライアント端末装置１０４などの要求に従って記録した映像を送信する。また、解析サーバ１０２の解析結果を示すメタデータなども併せて保存する。

録画サーバ１０３は、ストレージとしてのハードディスクなどの記録メディアおよびＣＰＵやＭＰＵやＲＯＭ等によって構成される。記録メディアの代わりに、ＮＡＳ（ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ）やＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）、クラウドサービスなどのネットワーク上のストレージを用いてもよい。
クライアント端末装置１０４はディスプレイや操作部としてのキーボード等と接続されたコンピュータとしてのＣＰＵやＭＰＵやメモリ等を含む装置であり、ネットワークカメラ１０１の映像を、録画サーバ１０３を通じて取得して閲覧し、監視を行う。また、録画サーバ１０３に記録された過去の映像を閲覧したり、解析サーバ１０２の解析結果を合わせて閲覧したり、通知を受け取ったりする。

ネットワークカメラ１０１、解析サーバ１０２、録画サーバ１０３は、カメラネットワーク１０５によって接続される。また、解析サーバ１０２、録画サーバ１０３、クライアント端末装置１０４は、クライアントネットワーク１０６によって接続される。カメラネットワーク１０５およびクライアントネットワーク１０６は、例えばＬＡＮによって構成される。
なお、本実施例では映像処理装置（映像処理システム）は、ネットワークカメラ１０１、解析サーバ１０２、録画サーバ１０３、クライアント端末装置１０４は異なるコンピュータ装置としているが、本実施例はこのような構成に限定されるものではない。これらの複数の装置全部を一体として構成しても良いし、一部の装置を組み合わせてもよい。

例えば解析サーバ１０２、録画サーバ１０３を１つのサーバ装置の中のアプリケーションや仮想サーバとして構成してもよい。また、解析サーバ１０２と録画サーバ１０３のうちの少なくとも一方の機能をクライアント端末装置１０４に設けてもよいし、解析サーバ１０２や録画サーバ１０３の機能をネットワークカメラ１０１に搭載してもよい。

図２は実施例１における、映像処理装置（映像処理システム）の機能ブロック図である。
本映像処理装置は、撮影部２０１、検出部２０２、区間選択部２０３、要約部２０４、配置部２０５、映像合成部２０６、記憶部２０９、表示部２１０、操作部２１１等を有する。解析サーバ１０２はＭＰＵ２０７、コンピュータプログラムを記憶したメモリ２０８を含む。

撮影部２０１は、図１に示すネットワークカメラ１０１に対応する。映像を撮影し、電子的な画像データのストリームに変換して、解析サーバ１０２および録画サーバ１０３に送信する。
検出部２０２、区間選択部２０３、要約部２０４、配置部２０５、映像合成部２０６は、解析サーバ１０２に含まれ、ＭＰＵ２０７がメモリ２０８に記憶されたコンピュータプログラムを実行する際のソフトウェアモジュール等として構成されている。
検出部２０２は、撮影部２０１または録画サーバ１０３等の記録媒体から取得した映像から所定のカテゴリに属する被写体を検出し、また被写体を追尾して被写体の時系列的な軌跡を決定する。即ち、検出部２０２は映像を取得する映像取得手段として機能している。

区間選択部２０３は、検出部２０２が検出した被写体の追尾軌跡について、利用者の指定した条件に基づいて、時系列の特徴的な時間区間を選択する。即ち、区間選択部２０３は、映像取得手段で取得された映像から、所定の被写体が所定の特徴動作を行った複数の時間区間を選択する区間選択手段として機能している。区間選択部２０３は被写体ごとに時間的に変化する特徴量の抽出を行い、その特徴量抽出の結果を用いて時間区間を選択する。時間区間は一つの被写体の追尾軌跡から複数選択されることもあれば、一つも選択されないこともありうる。

要約部２０４は、検出部２０２で検出された被写体について、利用者の指定した条件に基づいて、要約された映像に盛り込む（表示する）ものを選定する。
配置部２０５は、ＭＰＵ等によって構成され、要約部２０４が選定した被写体について、要約された映像における時間的な配置を決定する。
映像合成部２０６は、配置部２０５の決定に従って要約映像を合成する。これらの要約部２０４、配置部２０５、映像合成部２０６等によって、区間選択手段で選択された前記複数の時間区間の映像を時間的に近づけて合成する合成手段が構成されている。

記憶部２０９は、図１に示す録画サーバ１０３のストレージに対応する。
記憶部２０９は、ハードディスクなどの記録メディアおよびＭＰＵ等によって構成され、撮影部２０１が撮影した映像を保存する。また、それらの映像のカテゴリや相互関係を示す情報や作成時刻などのメタデータもあわせて保存する。
表示部２１０と操作部２１１は、図１に示すクライアント端末装置１０４に含まれる。クライアント端末装置１０４はさらにＭＰＵ２１２及びコンピュータプログラムを記憶したメモリ２１３を含む。

表示部２１０は、液晶画面等の表示デバイスを含み、ＭＰＵ２１２等によって表示画面が制御され、利用者に情報を提示し、また操作を行うためのユーザーインターフェース（ＵＩ）画面を作成して表示する。
操作部２１１は、スイッチやタッチパネル等によって構成され、利用者による操作を検出してクライアント端末装置１０４に入力する。

なお、操作部２１１はタッチパネルだけでなく、マウスやトラックボールなどのポインティングデバイスを含んでもよい。
次に、図３および図４を用いて、本実施例における映像処理装置の動作について説明する。図３は実施例１における、被写体の動作例を説明する模式図であり、図４は実施例１における、要約元映像から要約映像を作成する方法を説明するための図である。ここでは、店舗に設置されたカメラの映像から、特定の棚に手を伸ばした人物について要約映像を生成する例を説明する。

図３（Ａ）は、撮影部２０１が撮影する映像の例を示す模式図である。撮影部２０１は、小売店の商品棚３００が立ち並ぶ場所の天井に設置され、見下ろしで撮影を行っている。
利用者が、新商品への顧客の反応を分析するため、新商品を配置した商品棚３００に手を伸ばすという所定の特徴動作を行った人物（被写体）を確認しようとする場合を考える。その場合、撮影部２０１で撮影され、記憶部２０９に記録された例えば１か月分の映像記録（以下、要約元映像と呼ぶ）に対して、本実施例を利用して要約映像を作成する。

図３の（Ｂ）、（Ｃ）、（Ｄ）はいずれも要約元映像に記録された、商品棚３００に手を伸ばした人物の例を示す模式図である。図３（Ｂ）の人物３０１は，同図の破線矢印の経路で移動し、その途中で商品棚３００に手を伸ばしている。図３（Ｂ）では手を伸ばしている瞬間を模式図としている。図３（Ｃ）の人物３０２，図３（Ｄ）の人物３０３についても同様である。

人物３０１、人物３０２、人物３０３の要約元映像中の出現時間は数日から数週間離れており、長期間の映像から、利用者が該当者を探し出して手動で比較再生を行うことは非常に煩雑となり、手間がかかる。
以下、要約元映像に含まれるこの３名を対象として要約した映像の具体的な例を示す。なお、例示と説明の都合のため、少人数の例を用いて説明するが、さらに大人数、例えば数十人から数百人を対象として同様の要約映像を作成することも可能であり、その場合には、有用性がより高くなると考えられる。なお、複数の被写体ではなく、単独の被写体が所定の特徴動作を行った複数の時間区間を選択し、選択された前記複数の時間区間の映像を時間的に近づけて合成するものであってもよい。例えば、長時間（例えば、１年間）の映像から映像を生成する場合は、同一人物が何度も撮影されていることがありうる。同一人物が行った行動のうち、統計的に頻度が多い／少ない行動や特定の場所で発生すること等といった注目したい行動を抽出するような映像を生成してもよい。下記に説明する処理によって、例えば、同一人物が異なる時間に行った特徴的な行動を同時に重畳した映像を生成することも可能である。

図４（Ａ）は、要約元映像に含まれる人物の出現時間を表わす、右方向に向かって時間が経過しているタイムライン図である。矢印４００が要約元映像の全体の時間的範囲を表わし、人物３０１，３０２，３０３の出現時間を４０１、４０２、４０３の破線矢印でそれぞれ表わす。
４０１，４０２，４０３に重畳されている矩形は、人物の出現時間のうち、注目行動を取った時間範囲、ここでは商品棚３００に手を伸ばしている時間範囲を表わす。なお、要約元映像の長さを表わす矢印４００は図示のため省略線で途中を省略しているが、全体の長さは人物の出現時間よりもはるかに長いものとする。

図４（Ｂ）は、図４（Ａ）のタイムラインで表わされる要約元映像を、本実施例によって要約した映像の例を説明する図である。
矢印４１０は、要約された映像の全体を表わす。４１１，４１２，４１３は、要約された映像での人物３０１，３０２，３０３の出現時間をそれぞれ表わす。４１１，４１２，４１３の長さと注目行動の時間区間は、図４（Ａ）の４０１，４０２，４０３とそれぞれ同じである。図示したように、複数の時間区間の映像を時間的に近づけて合成配置することで、要約元映像ではそれぞれ異なる時間に出現する人物を、要約された映像の中では同時に表示しつつ、注目行動を取った範囲が順序よく重ならないように表示する。この結果として、要約された映像として、次々と商品棚３００に人が訪れて手を伸ばす映像が合成される。

図４（Ｃ）は、図４（Ｂ）で表わした要約映像の代表的なフレームの模式図である。図４（Ｂ）の一点破線で表わした時刻のフレーム画像をそれぞれ図示している。図４（Ｃ）の（Ｃ３）、（Ｃ４）、（Ｃ５）は、それぞれ人物３０１，３０２，３０３が商品棚３００に手を伸ばしている時のフレーム画像である。例えば（Ｃ４）では、人物３０２が商品棚３００に手を伸ばしているが、手を伸ばした後で商品棚から離れる人物３０１および、商品棚に向かう途中の人物３０３も同時に表示されている。
このような要約映像を作成することにより、商品棚３００にまさに手を伸ばしている瞬間に注目しつつ、その前後の人物の動作も連続的に表示されるので、利用者が短時間で効率的に確認しやすい要約映像が得られる。

ここで、注目する行動を優先して要約映像の合成を行うため、人物の登場順序は必ずしも要約元映像と一致しなくてもよい。例えば図４（Ａ）では、人物３０２は人物３０１よりも要約元映像では後から出現しているが、要約した映像では（Ｃ１）で人物３０２が出現し、その後で（Ｃ２）で人物３０１が出現している。
これは、人物３０２が商品棚３００に手を伸ばす前の滞留時間の長さによる。また、注目行動の瞬間については視認しやすいよう人物同士が重ならないように制御するが、その結果として注目行動以外のタイミングでは人物が重なり合うこともある。本図の例では（Ｃ２）および（Ｃ４）の人物３０１と人物３０３が重なり合っている。

次に、図５は実施例１における、処理の手順を示すフローチャートであり、図６は実施例１における、表示部２１０に表示される設定画面の一例を示す図である。図５、図６を用いて、以上の動作を実現するための動作フローおよび設定画面の例を説明する。なお、図５のフローは解析サーバ１０２のＭＰＵ２０７がメモリ２０８に記憶されたプログラムを実行することによって行われる。

まず、ステップＳ５０１において、利用者がクライアント端末装置１０４を用いて、要約の条件と要約元映像の指定に関する情報を受信する。
図６は、クライアント端末装置１０４の表示部２１０に表示される要約条件設定画面の一例を示す模式図である。利用者は、操作部２１１を操作して、希望する要約条件の設定を行う。

図６のＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）の表示制御はクライアント端末装置１０４のＭＰＵ２１２がメモリ２１３に記憶されたプログラムを実行することによって行われる。
６０１は、利用者が要約の対象としたい人物の行動の内容を指定するためのプルダウンコントロールである。区間選択部２０３が認識可能な行動の種類を選択可能な行動としてあらかじめ複数用意し、それらを列挙し、利用者は１つ以上の行動を選択する。ここで６０１によって被写体の特徴動作を指定することができる。

６０２は、プルダウン６０１で指定した人物の行動の発生位置のうち、利用者が要約の対象としたい領域を指定するためのコントロールである。表示された背景画像に対して、プルダウン６０１で指定した行動を取った時に、要約の対象としたい人物の、行動の検出範囲を利用者が塗りつぶすことで指定する。
図６の例では、手を伸ばしたことを検出したい棚を示すため、網掛けで示した領域を塗りつぶしている。この場合、人物が手を伸ばす行動を取り、かつその人物の手が網掛けで示した領域に入ったものが要約の対象となる。なお、領域を指定するために、例えばマウス等で所望の領域を囲むことによって領域を指定するようにしてもよい。

なお、領域の指定方法は行動の種類に応じて変更してもよい。例えば、「急に走り出した」ことが対象行動であれば、走り始めの足元の領域を指定し、「転倒した」ことが対象行動であれば、部位にかかわらず人物の最も下部の点が含まれる領域を指定する。また、領域を映像の全域として、画面のどこであっても、指定された行動を要約対象とするようにしても良い。

６０３は、利用者が要約の対象としたい人物の年代と性別に関する人物属性（被写体の属性）を指定するためのプルダウンコントロールである。また、６０４は、利用者が対象としたい人物の服装を指定するためのプルダウンコントロールである。これらは検出部２０２が検出可能な人物属性（種類）を選択肢として複数用意し、それらを列挙し、利用者はそれぞれ１つ以上の人物属性を指定する。上記のように６０３，６０４等は被写体の属性を指定する指定手段として機能している。

６０５は、出現頻度の低い「珍しい」行動を取った人物を要約の対象としたい場合に、その珍しさの程度の閾値を指定するためのスライダーバーである。利用者は例えば０から１００までに正規化された「珍しさレベル」を指定する。利用者が明示的に指定した行動でなくとも、出現頻度の少ない行動を取った人物については注目したい、という用途で使用される。

６０６は、要約された映像に表示する人物の数を制限するための数値入力コントロールである。
６０７は、要約対象の行動ではない前後の部分をカットすることを支持するためのチェックボックスである。図４の例では、要約対象の行動を取る前の（Ｃ１）、（Ｃ２）および後の（Ｃ６）に相当する部分を、時間短縮のために、要約された映像から除去することを指示する。

６０１から６０７の各コントロールについては、それぞれチェックボックスが設けられており、有効（イネーブル）と無効（ディスエーブル）を切り替えることが出来る。利用者は希望する要約条件の表現のため、必要に応じてコントロールを有効化し、条件を組み合わせて指定する。
６０８は、複数のネットワークカメラが存在する場合に、その中の一つである例えばネットワークカメラ１０１を選択するためのプルダウンコントロールである。

なお、６０８では録画サーバ１０３等に記録された所定のカメラの録画映像を選択するようにしてもよいし、映像処理装置は撮像部を持たず、ネットワークや記憶メディアから与えられた映像ファイルに対して映像要約を行うようにしてもよい。或いは６０８では所定のカメラからのライブ映像を選択するようにしてもよい。
６０９は時間範囲を指定するための開始時間と終了時間の入力コントロールである。６０８と６０９の情報によって要約元映像が決定される。

利用者は、以上のコントロールを操作部２１１によって操作して、希望に応じた要約条件の指定を完了したら、要約開始ボタン６１０を押下する。押下されるとステップＳ５０１でその情報を受信し、ステップＳ５０２に進む。

ステップＳ５０２において、検出部２０２は、ステップＳ５０１で指定された要約元映像をカメラからのライブ映像または記憶部２０９から取得し、要約元映像の中からステップＳ５０１で指定された条件に合致する人物を検出する。即ち、所定の属性を有する被写体を検出する。
検出部２０２は、例えば非特許文献１に示されているような公知の物体認識技術を用いて対象となる人物が出現する映像中の時刻と位置を決定する。ここでは、ステップＳ５０１において、６０３のプルダウンで「成人男性」、６０４のプルダウンで「赤いジャケット」が指定されていたものとする。即ち、一般物体認識のカテゴリで「男性」「成人」「ジャケット」「赤い服」のスコアが高い物体を対象の人物とする。（非特許文献１：Ｒｅｎ，Ｓｈａｏｑｉｎｇ，ｅｔａｌ． “Ｆａｓｔｅｒｒ－ｃｎｎ：Ｔｏｗａｒｄｓｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋｓ．” Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ．２０１５．）

次に、ステップＳ５０３において、検出部２０２は、ステップＳ５０２で検出された要約元映像に含まれる人物の追尾を行う。すなわち、要約元映像に連続的に出現する人物の時間的な位置の変化を追尾する。即ち、検出部２０２は、検出された人体について、非特許文献２に示されているような公知の手法を用いて追尾を行い、検出された人物の数をｎ人とした場合、それぞれの人物の情報（人物情報）をＨ１、Ｈ２，…、Ｈｎとする。ここで、ステップＳ５０３は所定の属性を有する被写体を追尾して検出する追尾手段として機能している。（非特許文献２：Ｈ．Ｇｒａｂｎｅｒ，Ｍ．Ｇｒａｂｎｅｒ，＆Ｈ．Ｂｉｓｃｈｏｆ：Ｒｅａｌ－ｔｉｍｅｔｒａｃｋｉｎｇｖｉａｏｎ－ｌｉｎｅｂｏｏｓｔｉｎｇ．ＩｎＢＭＶＣ，２００６．）

人物情報Ｈｉ（１≦ｉ≦ｎ）は、その人物の追尾の開始時刻Ｂｉ、追尾終了までの時間長Ｌｉと、時刻ｔ∈［Ｂｉ，Ｂｉ＋Ｌｉ］における人物の映像中の位置と大きさＨｉ（ｔ）から成る。ここではＨｉ（ｔ）は、要約元映像の時間範囲［Ｂｉ，Ｂｉ＋Ｌｉ］に含まれる映像フレームの、時刻ｔにおいて離散的に保持された、フレーム画像の座標における外接矩形の系列とする。なお、この追尾人物の表現は一例であり、Ｈｉ（ｔ）として人体領域を示すマスク画像などを用いてもよいし、離散系列ではなく時刻ｔについての連続関数としてＨｉ（ｔ）を定めてもよい。

次に、ステップＳ５０４において、区間選択部２０３は、ステップＳ５０３で作成した人物情報Ｈ１、Ｈ２，…、Ｈｎのそれぞれについて、時系列的に変化する特徴量を抽出する。ここでは、人物の関節位置と姿勢の情報を推定して特徴量とする。人物情報Ｈｉについては、時間範囲［Ｂｉ，Ｂｉ＋Ｌｉ］に含まれるフレーム画像の時刻ｔについて、Ｈｉ（ｔ）の矩形から切り抜いた映像の部分について、非特許文献３に示されているような公知技術を用いて、人物の姿勢をそれぞれ推定して特徴量とする。ここで、ステップＳ５０４は映像から時間的に変化する特徴量を抽出する特徴量抽出手段として機能している。（非特許文献３：Ｗｅｉ，Ｓｈｉｈ－Ｅｎ，ｅｔａｌ． “Ｃｏｎｖｏｌｕｔｉｏｎａｌｐｏｓｅｍａｃｈｉｎｅｓ．” ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２０１６）

次に、ステップＳ５０５において、区間選択部２０３は、人物情報Ｈ１、Ｈ２，…、Ｈｎのそれぞれについて、ステップＳ５０４で抽出した特徴量に基づいて、要約対象の区間を選択する。ここではステップＳ５０１において、６０１のプルダウンで「手を伸ばす」行動が選択され、かつ６０５が有効とされて珍しさレベルの値にＣが指定されたものとして、人物情報Ｈｉの区間を判定する処理を説明する。

まず、人物情報Ｈｉについて、手を伸ばした行動の区間を判定するため、フレーム時刻ｔ∈［Ｂｉ，Ｂｉ＋Ｌｉ］についてＨｉ（ｔ）における特徴量から右手と左手の映像中の座標を取得し、６０２で指定した領域にいずれかが含まれているかどうかを判定する。含まれていれば１、含まれていなければ０とする結果の系列を作成し、例えば自身と前後各５フレームによる多数決などの平滑化を行う。平滑化の結果、例えば１が１０回連続して続く時間の範囲をそれぞれ「手を伸ばした区間」として判定する。

なお、本実施例は手を伸ばした特徴動作に限定されるものではなく、上記はあくまで一例である。例えば、「座りこむ」動作であれば空間的な位置に関係なく、姿勢の脚の形状から判定してもよいし、「立ち入り禁止場所に立っている」であれば、単に人物の位置が指定された範囲にあるかどうかで判定してもよい。また、「苦しんでいる」であれば公知の表情認識の方法を用いて苦痛の表情かどうかを判定してもよい。或いはゴルフのスイング動作等が特徴動作である場合には、ゴルフクラブを持っているか（現在所持しているか）否かを特徴動作の判断の一部に用いてもよい。即ち、被写体の所持品に基づき特徴動作の判別を行ってもよい。

「傘を忘れて行った」ならば、一般物体認識の結果を用いて、人物の近傍に現れている物体から所持品状態を判定して、傘を所持している状態から所持していない状態に移行した後を忘れていった区間として判定することが出来る。このように、利用者が注目したい行動に応じて、好適な区間の判定方法を選ぶことが出来る。
次に、珍しい行動の区間を判定する。珍しい行動の検出は、例えば非特許文献４に示されているように、局所性鋭敏型ハッシュ（ＬＳＨ）によって特徴動作が正常行動からの乖離度合いを判定するなどの公知の手法を用いる。ＬＳＨではハッシュ距離に基づくスコアを求め、それが閾値を上回った場合に珍しい行動、そうでない場合は正常であると判定する。（非特許文献４：ＺＨＡＮＧ，Ｙｉｎｇ，ｅｔａｌ．Ｖｉｄｅｏａｎｏｍａｌｙｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｌｏｃａｌｉｔｙｓｅｎｓｉｔｉｖｅｈａｓｈｉｎｇｆｉｌｔｅｒｓ．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１６，５９：３０２－３１１．）

閾値が高いほど検出されにくくなる、すなわち「珍しさレベル」が高い行動に絞って検出されるようになるので、６０５に指定された珍しさレベル値Ｃが高いほど閾値を高くなるようにする。
例えば、あらかじめ正常行動のスコアの最高値Ｃ０と珍しい行動のスコアの最高値Ｃ１を統計的に求めて保持しておく。

そして、Ｃ０＋（Ｃ１－Ｃ０）×Ｃ／１００をＬＳＨの閾値として設定した上で、フレーム時刻ｔ∈［Ｂｉ，Ｂｉ＋Ｌｉ］についてＨｉ（ｔ）における特徴量に基づいて珍しいか正常かを判定する。珍しい行動を１、正常を０とした結果の系列を作成し、手を伸ばした行動と同様に平滑化を行って「珍しい行動を取った区間」を判定する。

このようにして判定された「手を伸ばした区間」と「珍しい行動を取った区間」の全体を人物情報Ｈｉの要約対象区間として決定する。
なお、ここで説明した方法は一例であり、例えば平滑化や連続の判定パラメータは別の値でもよいし、例えば要約元映像のＦＰＳなどによって変更するようにしてもよい。また、結果の系列は０か１のバイナリ系列の代わりに、スコアなどから求めた実数値を取るようにして、閾値や極大性を用いて連続する区間を求めてもよい。

また、手を伸ばした行動の判定は手の映像中の位置による判定だけでなく、例えば距離画像によって商品棚と手のインタラクションを三次元的に判定するようにしてもよい。また、珍しい行動の判定方法はＬＳＨに限らずベイズ判定やニューラルネットワークなど他の方法を用いて行ってもよい。
また、ステップＳ５０５で説明したように、本実施例は手を伸ばした行動に限定するものではなく、他の行動についても同様に行動を行った区間を求めることが出来る。要は、ステップＳ５０５では、被写体が、予め６０１や６０５で指定した特徴動作を行ったことを判定することができればよい。

次に、ステップＳ５０６において、要約部２０４は、ステップＳ５０５で判定された要約対象区間に基づいて、人物を選出する。人物情報Ｈ１、Ｈ２，…、Ｈｎのうち、ステップＳ５０５で１つ以上の要約対象区間の判定を受けた人物を選択し、要約対象とする。要約対象に選択された人物情報をＨ’１、Ｈ’２、…、Ｈ’ｍとする。

ステップＳ５０１で、数値入力コントロール６０６で要約映像の最大人数を例えば２００人に指定していた場合は、ｍが２００以下となるように選択する。要約対象区間の判定のある人物が要約元映像に２００人以上いれば、例えば、要約対象区間の長さが長い方から２００人を選択してＨ’１、Ｈ’２、…、Ｈ’ｍとする。特徴量や珍しい行動のスコアに基づいて選択してもよい。

次に、ステップＳ５０７において、配置部２０５は、ステップＳ５０６において選出された要約対象の人物情報Ｈ’１、Ｈ’２、…、Ｈ’ｍの配置を決定する。具体的には、それぞれの人物の出現開始時刻Ｔ１、Ｔ２，…、Ｔｍを決定し、人物情報Ｈ’ｉは要約映像の開始からＴ１秒後に出現するようにする。Ｔ１、Ｔ２，…、Ｔｍの決定の方法は後述する。

次に、ステップＳ５０８において、映像合成部２０６は、ステップＳ５０７で決定された配置に基づいて、要約映像を合成する。
まず、要約元映像の人物が出現しない時刻のフレーム画像を１枚選んで背景画像とし、背景画像をコピーしてフレーム画像の系列を作成する。

人物情報Ｈｉについて、要約元映像の人物情報Ｈｉが出現する時間範囲［Ｂｉ，Ｂｉ＋Ｌｉ］の各フレームについて、背景差分や領域分割など公知の手法を用いて、人物の領域を切り抜きそれ以外の部分を透過した切り抜き画像の系列を生成する。
そして、背景画像の系列の、先頭から時間Ｔｉだけ後に当たるフレームから開始して、順番に人物情報Ｈｉの切り抜き画像を重畳する。これを人物情報Ｈ’１、Ｈ’２、…、Ｈ’ｍについてそれぞれ行う。ただし、ある人物の要約対象区間にあたるフレームでは、その人物の切り抜き画像は最後に重畳する。これは要約対象区間での人物の行動が隠れることを避けるためである。

重畳が完了したら、次は、ステップＳ５０１でチェックボックス６０７にチェックを入れていた場合は、対象となる行動以外のフレームを削除する。即ち、フレーム画像の系列のうち、最初と最後から数えて、人物の要約対象区間にあたるフレームが一つも重畳されていないフレームが連続する部分を削除する。余計な映像を削除することによって、視認性が向上する。
最後に、フレーム映像をＭＰＥＧ４／Ｈ２６４などの動画形式でエンコードして要約映像を作成し、記憶部２０９に記録してフローを終了する。

利用者は、本フローの完了後にクライアント端末装置１０４を用いて記憶部２０９に記憶された要約映像を閲覧することができる。なお、エンコードが完了する前に利用者がまず閲覧できるように、ステップＳ５０８の進行中にフレーム映像をストリーミングで送信してもよい。
また、切り抜き映像の変わりに、特徴量を表現する模式的な画像、例えば関節を直線で結んだ骨格図や、人形やアバターのようなイラストを用いてもよい。

また、隠れを避ける方法として要約対象区間の人物を最後に重畳する方法を説明したが、他の方法を用いてもよい。一つには、人物の切り抜き画像にアルファチャンネルを加えて半透明の状態で描画するようにした上で、要約対象区間の人物についてはアルファチャンネルをゼロまたは相対的に低い値とする方法である。

さらに他の方法としては、要約対象区間の人物のみを切り抜き画像とし、他の重なった人物を、例えば骨格図として描画する方法である。いずれも、要約対象区間の人物を視認しやすくしつつ他の重なった人物の情報も部分的に視認できるようにして、利用者に与える情報を多くする効果がある。

以上のようにして、注目したい区間について、利用者の目的に応じた好適かつ視認性のよい要約映像を提供できる。なお、本フローでは利用者が映像を指定してから解析を行っているが、ライブ画像の録画と同時にバックグラウンドで解析を実行しておいて記憶部２０９に結果を保存しておき、要約映像の合成時に保存した結果を参照するようにしてもよい。

一部の時間のかかる処理をバックグラウンドで行い、軽量な処理や普段使われる頻度の低い条件に関する処理は利用者の指定を受けて行うように分離してもよい。また、解析サーバ１０２ですべての解析処理を行うのではなく、クラウドなどで外部の計算機に解析処理の一部または全部を委譲してもよい。

図７は実施例１における、ステップＳ５０７の処理の手順の詳細例を示すフローチャートであり、図７を用いてステップＳ５０７において配置部２０５がＴ１、Ｔ２，…、Ｔｍを定める方法を説明する。
まず、ステップＳ７０１において、作業用の区間列Ｍを用意し、Ｈ’１の要約対象区間をコピーする。また、ｉの値を１、Ｔ１の値を０と定める。

次に、ステップＳ７０２においてｉに１を加え、次のステップＳ７０３においてｉがｍ以下であるかどうかを判定する。ｍはステップＳ５０６において要約部２０４が選出した人物の数である。ｉがｍ以下であればステップＳ７０４に進む。ｉがｍより大きければ、ステップＳ７０４以下の処理によってＴ１、Ｔ２，…、Ｔｍが既に全て定まっているので、これをステップＳ５０７の結果とした上で本フローを終了する。

ステップＳ７０４においては、Ｔｉの値を、Ｍに含まれる最も時間的に最初の区間の終点と、Ｈ’ｉの最初の区間の始点の時刻の差に、バッファεを加えた値に定める。バッファεは、要約映像において続けて現れる要約対象区間同士の間に設ける緩衝である。バッファεは０でも構わないし、要約対象区間同士の始終端での重なりを許容するのであれば負の値にすることも可能であるが、ここでは例として正の値、たとえば０．３秒などにあらかじめ定めたものとして説明する。

以降のステップの説明の準備のため、Ｈ’ｉの要約対象区間のすべてを時間Ｔだけ進めたものを（Ｈ’ｉ＋Ｔ）と表わすと約束する。
ステップＳ７０４の次はステップＳ７０５に進み、ｊの値を１に定める。
次のステップＳ７０６においては、まず（Ｈ’ｉ＋Ｔｉ）のｊ番目の区間Ｓを取得する。そして、ＳがＭに含まれる区間のいずれかと重なっているかどうかを、バッファを考慮して判定する。すなわち、Ｓとの重なりを判定するのは、Ｍに含まれる区間のそれぞれの開始時間と終了時間をバッファεだけ延長したものである。

Ｓとの重なりの範囲が、バッファで延長した部分のみに限られる場合についても、単に重なっていると判断することにする。以上のような判定によって、Ｓと重なっているＭの区間があった場合は、ステップＳ７０７に進む。また、そのようなＭの区間のうち時間的に最初のものをＳＭとする。ＳがどのＭの区間とも重なっていなければ、ステップＳ７０７に進む。

ステップＳ７０７においては、まずＳＭの終点とＳの始点の時間の差に、バッファε足したものを計算してＵとする。そしてＴｉにＵを加えて新たなＴｉの値とする。そしてステップＳ７０５に戻る。
ステップＳ７０８においては、ｊに１を加える。そして次にステップＳ７０９において、ｊがＨ’ｉに含まれる要約対象区間の個数＃（Ｈ’ｉ）以下であるかどうかを判定し、そうであればステップＳ７０６に戻る。ｊが＃（Ｈ’ｉ）よりも大きければ、ステップＳ７１０に進む。

ステップＳ７１０に進んだ場合は、すなわち（Ｈ’ｉ＋Ｔｉ）の全ての区間が、Ｍの区間のいずれとも（バッファを考慮しても）重なっていない場合である。Ｔｉの値はここで確定される。
ステップＳ７１０においては、Ｍに（Ｈ’ｉ＋Ｔｉ）をマージして新たなＭとする。すなわち、（Ｈ’ｉ＋Ｔｉ）の全ての区間のコピーをＭに追加する。そしてステップＳ７０２に戻る。

図８は実施例１における、ステップＳ５０７の処理において区間列Ｍが変化する様子を説明する図である。図８（Ａ）は、ステップＳ７０４の直前におけるＭとＨ’ｉの状態の一例である。これらが図７のフローに従ってどのように変化するのかを説明する。
図８（Ｂ）は、ステップＳ７０４、ステップＳ７０５と進んだ際のＭと（Ｈ’ｉ＋Ｔｉ）の様子を表わしている。Ｍの区間の前後の黒帯は長さεのバッファを表わす。Ｔｉの値をステップＳ７０４の方法で定めると、（Ｈ’ｉ＋Ｔｉ）の最初の区間の始点は、Ｍの最初の区間の終点にバッファを加えた時刻と一致する。

ステップＳ７０６で、ｊ＝１のときのＳである区間８０１はＭのいずれとも重なっていないので、判定はＮＯとなり、ステップＳ７０８、ステップＳ７０９と進み、ｊ＝２となってステップＳ７０６に戻る。ステップＳ７０６でｊ＝２のときのＳである区間８０２は、Ｍの区間８０３と重なっているため、判定はＹＥＳとなり、ステップＳ７０７に進む。

ステップＳ７０７で計算されるＵ（説明のため以下Ｕ１と呼ぶ）は図示したとおり、区間８０２の始点と区間８０３（ＳＭ）の終点の差にεを加えたものである。
ステップＳ７０７でＴｉにＵ１を加えた際の様子が図８（Ｃ）である。ＴｉがＵ１だけ増加したことによって、新しい（Ｈ’ｉ＋Ｔｉ）の区間８０２は、Ｍの区間８０３とバッファを加えた位置の直後に移動する。

それに伴って、他の（Ｈ’ｉ＋Ｔｉ）の区間もＵ１だけ先に進む。このとき、ステップＳ７０６の判定はｊ＝１、ｊ＝２のときにＮＯとなるが、今度はｊ＝３の時に区間８０４がＭの区間８０５と重なり、ステップＳ７０６の判定がＹＥＳとなってステップＳ７０７に進む。ステップＳ７０７では区間８０４をＳ、区間８０５をＳＭとして再びＵを計算する（このＵをＵ２と呼ぶ）。

ステップＳ７０７でＴｉにＵ２を加えた際の様子が図８（Ｄ）である。新しい（Ｈ’ｉ＋Ｔｉ）の区間８０４は、Ｍの区間８０５とバッファを加えた位置の直後に移動し、他の（Ｈ’ｉ＋Ｔｉ）の区間もＵ２だけ先に進む。今度はＭと（Ｈ’ｉ＋Ｔｉ）に重なり合う区間がなくなったため、ステップＳ７０６の判定はｊ＝１、ｊ＝２、ｊ＝３のいずれでもＮＯとなり、ステップＳ７１０に進むようになる。ステップＳ７１０でＨ’ｉをマージされた新しいＭが図８（Ｅ）である。区間に重なりがなく、間に長さε以上のバッファが確保されていることに注意されたい。

このようにして、図７のフローに従うと、人物情報Ｈ’１、Ｈ’２、…、Ｈ’ｍの要約対象区間同士が重なり合わないという条件の下で、最初の要約対象区間における出現順序を保存しつつ、要約対象区間がバッファを確保できる。その上で連続的に出現するような配置を決定できる。
以上のように、図７に示したフローに従って求められた配置のＴ１、Ｔ２，…、Ｔｍを用いて要約映像が合成される。

なお、本フローは一例であって、目的に応じて他の配置探索方法を用いてもよい。たとえば出現順序の保存を必要とせず、要約映像がなるべく短くなるようにしたければ、Ｈ’１、Ｈ’２、…、Ｈ’ｍの重ね合わせを総当りで探索して最も短くなるものを選んでもよい。また、一人の人物が何度も行うことが考えにくいような頻度の低い行動であれば、要約対象区間は１人に付き１個までと仮定した上で単に要約対象区間を並べるなど簡略化してもよい。以上に説明した処理によって、視認性の高い要約映像を生成できる。このような視認性の高い要約映像を、防犯やマーケティングに有効な分析に活かすことも期待される。

実施例１では、注目する行動の区間を連続的に視認できることを目的とした要約映像を合成する方法を説明した。しかし、動作同士の比較を行いたい場合など、注目する行動を同時に表示する要約映像が有用な場合がある。
実施例２では、注目する行動の区間をなるべく同時に表示しつつ、重なりを避けて視認性のよい要約映像を合成する方法を説明する。即ち、本実施例では、複数の時間区間の映像が時間的または空間的に重なり合わないように前記配置を決定する。

なお、ここでは実施例１に対して追加または変更する部分について説明し、共通部分については説明を省略する。
図９は本発明の実施例２における、要約映像の一例を示す図であり、図９を用いて本実施例における映像処理装置の動作の一例について説明する。図９（Ａ）は、本実施例における要約映像の内容を説明する模式図である。ここでは、フィギュアスケートの競技者がジャンプを行ったタイミングを揃えて表示し、各競技者のジャンプの出来栄えを比較する応用例を説明する。

図９（Ａ）の被写体９０１、９０２，９０３は、それぞれ異なる時間に撮影部２０１のカメラの前で演技を行っており、破線で示した軌跡を描いて移動している。利用者は、プログラムで規定された特定のジャンプ種、たとえばアクセルジャンプについて、審美性を評価するため、被写体間でのジャンプの比較をしたい。そのために、本実施例を用いて、ジャンプが行われたタイミングが揃った要約映像を作成する。

図９（Ｂ）がこの要約映像のタイムラインであり、図９（Ａ）は９０４のタイミングでの被写体９０１，９０２，９０３の様子を示している。本実施例では注目区間にはラベル付けがされており、９０４のタイミングでは「アクセルジャンプ」とラベル付けされた注目区間の先頭部分が揃うように、要約映像が合成される。

他のラベルにも「ジャンプコンビネーション」「ステップシークエンス」などのプログラムの規定動作のラベルが付与されており、利用者はラベルを選択しながら、各規定動作について被写体を揃えて比較しながら評価することが出来る。

以上のような要約映像を合成するための、本実施例の映像処理装置の動作フローを説明する。基本的には実施例１で説明した図５のフローと同様であるが、本実施例の特徴による差分を説明する。
本実施例のステップＳ５０１においては、利用者は要約対象とする行動を指示するが、例えば「フィギュアスケートのショートプログラム」の「アクセルジャンプ」のように、動作の集合と、その集合に含まれる動作種別の形で指示するようにする。クライアント端末装置１０４は動作の集合と動作種別を指示するためのコントロールを表示して、利用者はそれを操作して指示を行う。

本実施例のステップＳ５０５においては、区間選択部２０３はまずステップＳ５０１で指示された動作の集合に含まれる動作種別について、それぞれ区間を選択し、対応する動作種別のラベルを区間の情報に付与する。
図１０は実施例２における、ステップＳ５０７の処理例を示すフローチャートであり、本実施例のステップＳ５０７について以下に説明する。

まず、ステップＳ１００１において、ステップＳ５０６において選出された要約対象の人物ごとに、ステップＳ５０１で指示された要約対象の動作種別に対応する要約対象区間を、ラベルに基づいて選出する。以下の処理は、この選出された要約対象区間について行う。

次に、ステップＳ１００２において、要約対象の人物ごとに、ステップＳ１００１で選出された要約対象区間における、要約元映像での人物の位置を算出し、その位置に基づいて要約対象の人物のグルーピングを行う。具体的には、要約対象区間に相当するフレームにおける人物の外接矩形の中心の平均位置をそれぞれ算出して、所定の閾値よりも近い距離にある人物同士を同じグループにまとめるなどの方法によってグループを作成する。

以下、ステップＳ１００３からステップＳ１００７までは、ステップＳ１００２で作成したグループのそれぞれについて行う。まずステップＳ１００３で、まだ処理を行っていないグループを一つ選択する。
次に、ステップＳ１００４において、ステップＳ１００３で選択されたグループに含まれる要約対象の人物の数を判定する。１人ならば何もせずにステップＳ１００７に進むが、２人から４人であればステップＳ１００５，５人以上ならばステップＳ１００６に進んでから、それぞれステップＳ１００７に進む。

ステップＳ１００５においては、ステップＳ１００３で選択されたグループに含まれる要約対象の人物のそれぞれについて、重なりを避けるような平行移動のパラメータを求める。
図１１は実施例２における、ステップＳ１００５の処理について説明する図であり、図１１（Ａ）と（Ｂ）は、同じグループに属する要約対象の人物を表わす模式図である。矩形１１０１と１１０２は、図１１（Ａ）と（Ｂ）それぞれの人物の、「アクセルジャンプ」のラベルが付いた要約対象区間での、人物の外接矩形が移動する範囲を表わす。

図１１（Ａ）と（Ｂ）の人物は、同じ「アクセルジャンプ」の行動を空間的に近接した位置で行っているため、そのまま「アクセルジャンプ」を揃えて要約すると、要約映像で重なってしまい視認性を妨げる。そのため、図１１（Ｃ）のように、人物をそれぞれ離れる方向に平行移動することで、重なりを避けるようにすることが本ステップの意図である。矩形１１０３と１１０４は、図１１（Ａ）と（Ｂ）の人物それぞれの平行移動後の外接矩形が移動する範囲であり、図示した矢印は移動ベクトルを表わす。後で映像合成部２０６は、ここで決定した移動ベクトルを用いて要約映像の合成を行う。

ステップＳ１００６においては、選択されたグループに含まれる人物らを対象として、図７に示したフローに従った処理を行う。すなわち、実施例１におけるステップＳ５０７と同様であり、時間的にずらすことによって、要約対象区間の重なり合いを避ける方法を取る。ステップＳ１００６はグループに５人以上いる場合の処理であり、これはステップＳ１００５の平行移動の方法では人数が多すぎて重なりの解消が難しいと考えられるケースに限って実行される。

この場合は要約対象区間のタイミングを揃えることをあきらめて、その部分は要約映像で順番に表示するようにすることを意図している。
ステップＳ１００７では、ステップＳ１００５またはステップＳ１００６の処理を行った、もしくは人数が１人のためステップＳ１００４の後の処理を行わなかったグループがまだ残っているかどうかを判断して、残っていればステップＳ１００３に戻る。全てのグループについて処理が完了していれば、ステップＳ１００８に進む。

ステップＳ１００８においては、要約対象区間を揃えるように出現開始時刻Ｔ１、Ｔ２，…、Ｔｍを決定する。具体的には、ステップＳ１００１で選出した要約対象区間の始点のうち、その人物の追尾開始時刻との時間差Ｄｉをそれぞれ計算して、最も大きいものＤｍａｘを選び、Ｔｉ＝Ｄｍａｘ－Ｄｉとして定める。
ただし、ステップＳ１００６において図７に示したフローを経たグループがある場合は、最初の要約対象区間を持つ人物に限って上記の方法で出現開始時刻を求め、これをＴｂとする。そして、その他の同一グループの人物については、Ｔｉ＝Ｔｂ＋Ｔ’ｉとして定める。

ここでＴ’ｉはステップＳ１００６で求めたグループの出現開始時刻である。以上の出現開始時刻を本実施例におけるステップＳ５０６の結果としてフローを終了する。
なお、位置をずらす処理を４人までに限定するのは一例であり、移動量を増やすなどして重なりを防いだ上で、位置ずらしで対応する人数を増やしてもよい。逆に、位置がずれることによる弊害があるならば、位置ずらしを行わずに重なったら必ず時間的にずらす（ステップＳ１００４で２人以上と判定されたらすべてＳ１００６に進む）ようにしてもよい。
この人数を利用者にステップＳ５０１で設定させるようにしてもよい。

本実施例のステップＳ５０８においては、映像合成部２０６は、ステップＳ５０７で決定された配置の情報として、出現開始時刻Ｔ１、Ｔ２，…、Ｔｍに加えて、ステップＳ１００５で決定された移動ベクトルを用いて、要約映像を合成する。移動ベクトルが与えられた人物については、全ての出現を移動ベクトルに沿って平行移動した上で重畳を行う。
以上のようにして、利用者が注目したい動作のタイミングを揃えた要約映像を作成することが出来る。

第１と実施例２では、被写体として人間を用い、人間の行動に注目した要約映像を合成する方法を説明したが、本実施例は人間以外の被写体についても適用することが出来る。
本実施例では、被写体として自動車を用いる方法を説明する。

図１２は本発明の実施例３における、要約映像を説明する図であり、図１２（Ａ）は、撮影部２０１で自動車道路を撮影している例での、要約元映像の一つの時刻での模式図である。利用者は自動車道路を監視しており、１２０１のように蛇行したり、異常な高速走行をしたりするなどの無謀運転を行った自動車を観察するために、本実施例を用いて要約映像を閲覧したいものとする。

図１２（Ｂ）は、図１２（Ａ）の要約元映像を要約した映像の一例を示す模式図である。
無謀運転を行った自動車１２０１が１２０４のように要約映像に表示されるのに加えて、自動車１２０１の無謀運転の近くに出現した自動車１２０２および１２０３についても、無謀運転の周辺への影響を評価するため要約映像に表示する。

ただし、自動車１２０２および１２０３は無謀運転を行っておらずペナルティの対象でないため、プライバシーに配慮して１２０５と１２０６のように要約元映像そのままではなくイラスト画像として表示するようにする。自動車１２０２および１２０３のイラスト１２０５と１２０６は、無謀運転の自動車１２０４との相対的な位置関係を保存して、要約元映像と同じタイミングに同期される。自動車１２０４と重ならない反対車線には別の無謀運転を行った自動車１２０７を同時に表示する。即ち、複数の時間区間の映像が時間的に同期するように前記配置を決定している。

以上のような要約映像を合成するための、本実施例の映像処理装置の動作フローを説明する。基本的には実施例２で説明した図５のフローと同様であるが、本実施例の特徴による差分を説明する。
本実施例のステップＳ５０２で、検出部２０２は、一般物体認識のカテゴリとして人体の代わりに自動車を検出して、本実施例のステップＳ５０３では自動車を対象に追尾を行う。

本実施例のステップＳ５０４では、区間選択部２０３は、ステップＳ５０３で検出した自動車について特徴量の抽出を行う。具体的には映像での位置、速度、加速度、躍度、およびヘッドランプ、テールランプ、ブレーキランプ、ウインカーの点灯状態、初心者マーク、高齢者マーク、障碍者マークの有無、車両種別を数値化したベクトル値を特徴量とする。これらの特徴は公知の物体認識の手法を用いて算出しても良いし、検出部２０２の一般物体認識の結果を用いてもよい。また、ここに挙げた特徴の種類は一例であり、他の有用な特徴の情報を加えることを妨げない。

本実施例のステップＳ５０５では、区間選択部２０３は、追尾対象の自動車ごとに要約対象の区間を判定する。ここでは実施例１で説明した、正常行動からの乖離を判定する方法で自動車が「珍しい行動」を取った区間を要約対象の区間とする。無謀運転はパターンが多様で予測モデルを作りにくいため、正常な直進走行や車線変更、追い抜きなどの日常的に出現する自動車の行動と区別する方法を取る。

なお、実施例１と同様に自動車の行動を直接判定する方法を取ることももちろん可能であり、例えば特定の位置で停車した、急加速や急減速した、右折禁止の場所で右折した、などの行動を監視したい場合はその行動を直接判定することが好適である場合もある。また、両方を併用してもよい。

本実施例のステップＳ５０６で、要約部２０４は、要約対象とする自動車を選出し、本実施例のステップＳ５０７で、配置部２０５は、自動車の配置を決定する。これは対象が人物の代わりに自動車である点を除いて、実施例２と同様である。
本実施例のステップＳ５０６で、映像合成部２０６は、要約映像を合成する。このとき、要約対象区間での映像を作成する際に、その要約対象区間に該当する自動車の画像に加えて、近傍に出現していた自動車について、プライバシー処理としてイラスト画像を生成した上で背景画像への重畳を行う。

イラスト画像はステップＳ５０４で抽出した特徴量の内容に基づいて、車両種別、ランプ類の点灯状態、速度感を表わす効果線などを反映した画像をテンプレートの組み合わせによって作成し、映像中の位置に応じて拡大・縮小を行う。イラストは要約対象区間の対象の自動車の切り抜き画像よりも前に重畳し、主要な興味の対象である要約対象区間の自動車よりも後ろに表示されるようにする。即ち、本実施例では複数の時間区間の映像の重畳方法を変更可能である。

なお、プライバシー処理の方法として、イラストをテンプレートで合成する代わりに３Ｄモデルで表現してもよいし、文字情報やワイヤフレームなど他の表現を用いてもよい。また、切り抜き画像を使った上で、ナンバープレートにぼかしを入れたり全体を影絵化したりするなどの方法でもよい。

また、要約対象となった自動車についても、例えば正常との乖離度が比較的低いなどの方法で無謀運転の程度の低さを判断し、程度が低ければプライバシー処理を加えるなどしてもよい。
以上のようにして、自動車の行動、例えば無謀運転についても本実施例を適用して要約映像を得ることが出来る。

以上、本発明をその好適な実施例に基づいて詳述してきたが、本発明は上記実施例に限定されるものではなく、本発明の主旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。
なお、本実施例における制御の一部または全部を上述した実施例の機能を実現するコンピュータプログラムをネットワーク又は各種記憶媒体を介して映像処理装置に供給するようにしてもよい。そしてその映像処理装置におけるコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行するようにしてもよい。その場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することとなる。

１０１ネットワークカメラ
１０２解析サーバ
１０３録画サーバ
１０４クライアント端末装置

Claims

映像を取得する映像取得手段と、
前記映像取得手段で取得された映像から、所定の被写体が所定の特徴動作を行った複数の時間区間を選択する区間選択手段と、
前記区間選択手段で選択された前記複数の時間区間の映像を時間的に近づけて合成する合成手段と、を有することを特徴とする映像処理装置。
前記区間選択手段は、前記映像取得手段で取得された映像から、所定の属性を有する複数の被写体のそれぞれについて前記所定の特徴動作を行う時間区間を選択することを特徴とする請求項１に記載の映像処理装置。
前記映像から前記所定の属性を有する被写体を追尾して検出する追尾手段をさらに有することを特徴とする請求項１または２に記載の映像処理装置。
前記映像から時間的に変化する特徴量を抽出する特徴量抽出手段をさらに備え、
前記区間選択手段は、前記特徴量に基づいて前記時間区間を選択することを特徴とする請求項１～３のいずれか１項に記載の映像処理装置。
前記所定の属性を指定する指定手段を有することを特徴とする請求項１～４のいずれか１項に記載の映像処理装置。
前記区間選択手段は、前記特徴動作が正常かどうかを判定し、前記判定に基づいて前記時間区間を選択することを特徴とする請求項１～５のいずれか１項に記載の映像処理装置。
前記合成手段は、前記複数の時間区間の映像が空間的に重なり合わないように前記配置を決定することを特徴とする請求項１～６のいずれか１項に記載の映像処理装置。
前記合成手段は、前記複数の時間区間の映像が時間的に同期するように前記配置を決定することを特徴とする請求項１～６のいずれか１項に記載の映像処理装置。
前記合成手段は、前記複数の時間区間の映像として、画像、イラスト、３Ｄモデル、文字情報のうち、少なくとも１つを配置して表示することを特徴とする請求項１～８のいずれか１項に記載の映像処理装置。
前記合成手段は、前記複数の時間区間の映像の重畳方法を変更可能であることを特徴とする請求項１～９のいずれか１項に記載の映像処理装置。
前記区間選択手段は、前記所定の被写体の姿勢、動作、表情、所持品の少なくとも１つに基づいて前記時間区間を選択することを特徴とする請求項１～１０のいずれか１項に記載の映像処理装置。
映像を取得する映像取得工程と、
前記映像取得工程で取得された映像から、所定の被写体が所定の特徴動作を行った複数の時間区間を選択する区間選択工程と、
前記区間選択手段で選択された前記複数の時間区間の映像を時間的に近づけて合成する合成工程と、を有することを特徴とする映像処理方法。
請求項１～１１のいずれか１項に記載の前記映像処理装置の各手段をコンピュータにより制御するためのコンピュータプログラム。
請求項１３に記載のコンピュータプログラムを記憶したコンピュータで読み取り可能な記憶媒体。