JP2000123184A

JP2000123184A - 動画内のイベントを検出する方法

Info

Publication number: JP2000123184A
Application number: JP11285767A
Authority: JP
Inventors: Richard Jungiang Qian; ユンイャンキアンリチャード; Christian Harling Nils; クリスチャンハーリングニールス
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1998-10-09
Filing date: 1999-10-06
Publication date: 2000-04-28
Also published as: US6721454B1

Abstract

(57)【要約】【課題】動画における意味的に重要なイベントを検出
する方法を提供する。【解決手段】ショット境界の検出６を実行し、コンテ
ンツの色およびテクスチャの測定１０を行い、コンテン
ツ内のオブジェクトを検出するために、まず第１レベル
４として動画シーケンス２を視覚的に解析する。第２レ
ベル１２で、オブジェクトを分類し、各ショット内のコ
ンテンツの要約１６を実行する。第３レベル１８では、
ショット要約１６で明らかになった時間的および空間的
現象に基づき、イベント推測モジュールでイベントの推
測２０を行う。この技術はドメインごとに独立した方法
により、第１レベル４で生成されたデータを利用する上
部レベルにおいて、別のドメインに関連する方法を組み
込むことによって別のドメインまで拡張できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、動画内のイベント
を検出する方法に関し、より詳細には、動画シーケンス
における意味的に重要なイベントを自動的に検出しイン
デクシングするためのイベント検出方法に関する。

【０００２】

【従来の技術】大衆に利用できる動画の量は劇的に増加
している。このような傾向は、パソコンとデジタルテレ
ビとが統合される将来において更に続くか、加速するこ
とが予想される。ユーザに対するこの情報の価値を改善
するには、利用できる動画情報をユーザがナビゲート
し、対応するコンテンツを探すことを補助するためのツ
ールが必要である。消費者であるユーザにとって、かか
るツールは理解が容易であり、使用が容易でなければな
らず、信頼性のある予測可能なふるまいをしなければな
らない。

【０００３】一般的に、公知のコンテンツベースによる
動画インデクシングおよび検索システムには３つのカテ
ゴリがある。第１カテゴリには、動画のシンタックス構
造に対する方法が含まれており、ショット境界検出方
法，キーフレーム抽出方法，ショットクラスタリング方
法，コンテンツのテーブルの作成方法，動画要約方法お
よび動画スキミング方法が含まれる。これら方法は、一
般に計算上保守的な方法であり、比較的信頼性のある結
果を生じる。しかしながら、これら方法は動画コンテン
ツの意義をモデル化したり、または推定する試みをしな
いので、これらの結果は意味上、関係がないことがあり
得る。この結果、サーチを検出し、またはブラウジング
することは、特定の関心の動画コンテンツを探すユーザ
にフラストレーションを生じさせる原因となり得る。

【０００４】第２のカテゴリの動画インデクシングおよ
び検索システムは、動画シーケンスをニュース，スポー
ツ，アクション映画，クローズアップ，クラウドのよう
な番組カテゴリに動画シーケンスを分類しようとするも
のである。これら分類は粗いレベルで動画シーケンスを
ブラウジングすることに役立つが、関心のあるコンテン
ツを探すユーザを補助する場合に限り有効である。ユー
ザは自分たちのサーチの対象を、より正確な意味のある
ラベル、例えばオブジェクト，アクションまたはイベン
トを記述するキーワードで表現することが多い。関心の
あるコンテンツを捜し出すのに、ユーザをより有効に補
助するには、ほとんどの既存の分類システムで得られる
よりもより細かいレベルで動画コンテンツを解析するこ
とが望ましい。

【０００５】動画コンテンツを解析するための第３カテ
ゴリの技術は、特定の動画ドメインまたはコンテンツ主
題領域の特徴にコンテンツを関連付ける規則を応用する
ものである。例えばフットボール，サッカー，野球およ
びバスケットボールのゲームにおけるイベントを検出す
るための方法がこれまで提案されている。

【０００６】

【発明が解決しようとする課題】しかしながら、これら
方法によって検出されるイベントはユーザにとって意味
的に関連するものとなり易いが、これら方法は特定のド
メインに関連する固有のアーチファクト、例えば放送プ
ログラムにおける編集パターンに大きく依存する。これ
によりこれら方法を種々のドメインから、より一般的な
動画解析に拡張することが困難となる。

【０００７】本発明は、上述のごとき実情に鑑みてなさ
れたものであり、種々のコンテンツドメインから動画内
の意味的に重要なイベントを信頼性高く検出する方法を
提供し、結果としてこの方法に適応できる動画コンテン
ツ解析方法を提供することをその目的とする。

【０００８】

【課題を解決するための手段】本発明は、動画のコンテ
ンツを解析するステップと、前記解析を要約するステッ
プと、前記要約から前記イベントを推測するステップと
を備えた、動画内のイベントを検出する方法を提供する
ことによって、従来技術の上記欠点を克服するものであ
る。従って、この動画イベント検出方法は３つのモジュ
ラレベルに分割される。技術の最低レベルでは、ショッ
ト検出，テクスチャおよび色解析およびオブジェクト検
出を含む、動画コンテンツの視覚的解析が行われる。第
２レベルでは、視覚的解析によって生じた結果に基づ
き、各ショットが要約される。技術の最高レベルでは、
ショット要約で開示された空間的および時間的現象から
イベントが推測される。この結果、本発明は、動画ユー
ザにとって意味のあるイベントを検出し、ショット要約
およびイベント推測モジュールを組み込むことにより、
広範な動画ドメインに技術を拡張できる。イベント推測
モジュールは、ドメイン固有でない視覚的解析過程によ
って発生されるデータに作用する動画のドメインまたは
主題領域に相対的に固有のものである。

【０００９】そして、各請求項の発明は、以下の技術手
段により構成される。請求項１の発明は、（ａ）動画の
コンテンツを解析するステップと、（ｂ）前記解析を要
約するステップと、（ｃ）前記要約からイベントを推測
するステップとを有することを特徴としたイベント検出
方法である。

【００１０】請求項２の発明は、請求項１に記載の方法
において、前記コンテンツを解析するステップは、
（ａ）前記動画を、前記コンテンツの相対的一様性によ
り特徴付けられた少なくとも１組みの複数フレームに分
割するステップと、（ｂ）前記コンテンツ内のオブジェ
クトを検出するステップと、（ｃ）前記コンテンツの色
およびテクスチャのうちの少なくとも１つを測定するス
テップとを有することを特徴としたものである。

【００１１】請求項３の発明は、請求項２に記載の方法
において、第１フレームの前記コンテンツのヒストグラ
ムと第２フレームの前記コンテンツのヒストグラムとを
比較することにより、前記動画を少なくとも１組みの複
数フレームに分割することを特徴としたものである。

【００１２】請求項４の発明は、請求項２に記載の方法
において、第１フレームの前記コンテンツと第２フレー
ムの前記コンテンツとを比較することにより、前記オブ
ジェクトを検出することを特徴としたものである。

【００１３】請求項５の発明は、請求項３に記載の方法
において、前記第１フレームと前記第２フレームとの間
の前記コンテンツのグローバルな動きに対し、前記第１
フレームおよび前記第２フレームのうちの少なくとも１
つの前記コンテンツを調節するステップを更に有するこ
とを特徴としたものである。

【００１４】請求項６の発明は、請求項１に記載の方法
において、前記解析を要約する前記ステップは、空間記
述子、時間記述子およびオブジェクト記述子のうちの少
なくとも１つにより、前記コンテンツを特徴付けること
を有することを特徴としたものである。

【００１５】請求項７の発明は、請求項１に記載の方法
において、前記要約における空間記述子、時間記述子お
よびオブジェクト記述子のうちの少なくとも１つから前
記イベントを推測することを特徴としたものである。

【００１６】請求項８の発明は、（ａ）動画を、相対的
に一様なコンテンツをもつ少なくとも１組みの複数フレ
ームに分割するステップと、（ｂ）前記コンテンツ内の
オブジェクトを検出するステップと、（ｃ）前記オブジ
ェクトを分類するステップと、（ｄ）空間記述子、時間
記述子およびオブジェクト記述子のうちの少なくとも１
つにより、前記少なくとも１組みの複数フレームの前記
コンテンツを特徴付けるステップと、（ｅ）前記コンテ
ンツの前記特徴付けからイベントを推測するステップと
を有することを特徴としたイベント検出方法である。

【００１７】請求項９の発明は、請求項８に記載の方法
において、前記少なくとも１組みの複数フレームのうち
の第１フレームの前記コンテンツと第２フレームの前記
コンテンツとを比較することにより、前記オブジェクト
を検出することを特徴としたものである。

【００１８】請求項１０の発明は、請求項９に記載の方
法において、前記コンテンツを比較するステップは、前
記第１フレームと前記第２フレームとの間の前記コンテ
ンツのグローバルな動きに対し、前記コンテンツを調節
するステップを有することを特徴としたものである。

【００１９】請求項１１の発明は、請求項８に記載の方
法において、前記コンテンツのうちのテクスチャ測度お
よび色測度のうちの少なくとも１つを使って前記オブジ
ェクトを分類することを特徴としたものである。

【００２０】請求項１２の発明は、請求項８に記載の方
法において、前記コンテンツの複数のヒストグラムを比
較することにより、前記複数フレームを検出することを
特徴としたものである。

【００２１】請求項１３の発明は、（ａ）動画を、相対
的に一様なコンテンツをもつ複数フレームを有する少な
くとも１つのショットに分割するステップと、（ｂ）前
記コンテンツのグローバルな動きと独立して移動するオ
ブジェクトを検出するステップと、（ｃ）前記ショット
のうちの初期フレームおよび後続するフレーム内の前記
オブジェクトの位置を測定するステップと、（ｄ）前記
オブジェクトのサイズを測定するステップと、（ｅ）前
記コンテンツのうちの色およびテクスチャのうちの少な
くとも１つを測定するステップと、（ｆ）色測度および
テクスチャ測度のうちの前記少なくとも１つ、前記位置
測度および前記サイズ測度のうちの少なくとも１つから
前記オブジェクトを分類するステップと、（ｇ）前記初
期フレームおよび前記後続するフレームにおける前記オ
ブジェクトの前記分類および前記オブジェクトの前記位
置のうちの少なくとも１つを特徴付けることにより、前
記ショットの前記コンテンツを要約するステップと、
（ｈ）前記コンテンツの前記要約からイベントを推測す
るステップとを有することを特徴としたイベント検出方
法である。

【００２２】請求項１４の発明は、請求項１３に記載の
方法において、第１フレームの前記コンテンツと第２フ
レームの前記コンテンツとを比較することにより、前記
オブジェクトを検出し、前記第１フレームと前記第２フ
レームとの間の前記コンテンツのグローバルな動きに対
して前記コンテンツを調節することを特徴としたもので
ある。

【００２３】請求項１５の発明は、請求項１３に記載の
方法において、前記動画の第１フレームの前記コンテ
ンツを表示する第１ヒストグラムと第２フレームの前記
コンテンツを表示する第２ヒストグラムとを比較するこ
とにより、前記ショットの境界を検出することを特徴と
したものである。

【００２４】

【発明の実施の形態】添付図面を参照し、本発明の以下
の説明を検討すれば、本発明の上記およびそれ以外の目
的、特徴および利点についてより容易に理解可能であ
る。

【００２５】動画シーケンスでは、動画コンテンツにお
けるオブジェクトに関連する時間的および空間的現象に
よって１つのイベントを推測できる。例えば野生動物の
動画において、獲物に忍び寄る動物の、ある時間の比較
的ゆっくりとした動きと、それに続く、獲物と獲物を狙
う動物の速い動きと、次に続く、所定の時間の獲物を狙
った動物のごくわずかな運動、または全く運動が行われ
ないことによって、動物による狩りを推測できる。図１
は、本発明による動画内イベント検出方法を説明するた
めのブロック図で、本発明の技術では、動画における意
味的に重要なイベントの検出は３つのレベルに分割され
る。動画シーケンス２は、技術の第１レベル４へ入力さ
れ、ショット検出６へ分割される。更に、コンテンツの
グローバルな動き、すなわち全体の動きを決定し、グロ
ーバルな動きと独立して移動するコンテンツ内のオブジ
ェクトを探すよう、動き推定８が実行される。各フレー
ムのコンテンツの色およびテクスチャは、第１レベル４
によっても解析１０が実行される。第２レベル１２で
は、各ショットにおける移動するオブジェクトすなわち
動きブロブの検証または分類１４が実行され、各ショッ
トのショット要約１６が実行される。第３レベル１８で
は、ドメイン固有のイベント推測モジュール２０により
ショットの要約からイベント２２が推測される。

【００２６】動画における意味的に重要なイベントを抽
出することは、複雑なプロセスである。これまで動画の
イベントを検出するための技術では、プロセスの複雑さ
を少なくするために、出力との妥協を図るか、またはド
メイン固有のプロセスを使用することにより、技術の利
用が制限されていた。しかしながら、本発明の技術のモ
ジュラ構造は、パワー，フレキシビリティおよび広範な
動画ドメインおよびアプリケーションへ拡張できる容易
性を提供できる。最も低いレベルの技術では、アプリケ
ーションまたは動画ドメインに固有でない視覚的解析過
程は、動画のコンテンツに関する基本情報を提供し、ス
ピード，処理効率，精度などに対する要求に応じ、動画
のシンタクティックな属性を識別するのに、代わりの視
覚的解析過程を使用できる。第２レベルの過程は、第１
レベルの過程よりもドメインまたはアプリケーションに
対して、より固有のものであるが、いくつかの第３レベ
ルのイベント推測モジュールまたはアプリケーションに
より、これらの出力を有効にできる。例えば動物に関連
した異なるイベントを検出するようになっている数個の
イベント推測モジュールにより、動画内の動物の識別子
を利用できる。同様に、第２レベルで生成されたショッ
トの要約を動画の専門家または消費者による使用に合わ
せることもできる。第３レベルでは、イベント推測モジ
ュールが信頼できるイベント検出に必要なドメイン固有
の構造を提供するが、別のドメイン固有の規則を含むモ
ジュールを付加することにより、本技術を他のドメイン
に容易に拡張できる。

【００２７】技術の第１レベル４に動画シーケンス２が
入力される。１つの動画シーケンスは１つ以上のシーン
を含み、これらシーンは１つ以上の動画ショットを含
む。１つのショットは相対的に一様なコンテンツの複数
の個々のフレームを含み、第１レベル４では、シーケン
スの構成要素のショットの境界が検出される（ショット
検出６）。ショットの境界を検出するのに、色ヒストグ
ラム技術を使用できる。２つのフレームのヒストグラム
の差はこれらフレームのコンテンツの差を示す。連続す
るフレームに対するヒストグラム間の差が所定のしきい
値を越えた場合、これら２つのフレームのコンテンツ
を、フレームが異なる動画ショットからのものであるよ
う、充分異なるものと見なす。また、他の公知の技術を
使ってショットの境界を検出することもできる。

【００２８】動画シーケンスで検出されるショット境界
の他に、コンテンツのグローバルな動きが変化する場合
はいつでも、ショット境界をシーケンス内に強制移動さ
せたり、または挿入することができる。この結果、ショ
ットの境界間のグローバルな動きは相対的に一様とな
る。更に、延長されたショットにおける重要なイベント
を見逃す可能性を少なくするために、特定の数のフレー
ム後（例えば２００フレームごと）にショット境界を強
制移動してもよい。

【００２９】技術の第１レベル４では、ショット内のフ
レームの対ごとに動画コンテンツのグローバルな動きの
推定８が実行される。野生動物の動画を解析するにあた
り、ズームおよび水平ならびに垂直並進運動に適応させ
るために、３パラメータ系に対して動き推定が行われ
る。３パラメータ系では、グローバルな動きを次のよう
に表示できる。

【００３０】

【数１】

【００３１】図２は、動画フレーム例におけるグローバ
ルな動きのサーチ領域を示す図で、動画フレーム内の４
つの動きサーチ領域３０内でのブロックマッチングによ
り、グローバルな動きが推定される。動画コンテンツか
らグローバルな動きのパラメータを信頼性高く回復する
試みにおいてはいくつかの問題が生じる。第１に、当該
移動オブジェクトをトラッキングするようカメラが移動
する際に、隣接するフレーム内で対応する特徴が離れる
ことがあり得る。例えば野生の動物が狩りをするセグメ
ントでは、５０〜６０個のピクセルがフレームごとに変
位することが一般的であり、そのピーク変位量は１００
個のピクセルを越えることがあり得る。更に、インタレ
ース操作は隣接するフレーム内の小さいオブジェクトお
よびテクスチャの外観を劇的に変えることがあり、急に
移動する当該オブジェクトをトラッキングするカメラの
運動により、グローバルな動き推定に使用される背景の
特徴がぼけることがある。更に、動画ショットは大きく
変化する照明条件または視覚的障害を含むことがある。
例えば、野生の動物が狩りを行う動画シーケンスは、オ
ープンな領域または視覚性および日光が木または灌木に
よって遮られるような領域を通過し得る。

【００３２】本実施形態では、４つの動きサーチ領域３
０に対して使用される５レベルのピラミッド状技術によ
ってグローバルな動きが予想される。フレーム間で大き
い変位が恐らくある場合、消尽的サーチによって隣接す
るフレーム内のマッチング領域３０を探すことにより、
計算的に集中し得る。各フレームの低解像度表示の５レ
ベルのピラミッドは、連続するフレーム内の動きサーチ
領域３０をマッチングするのに必要な計算量を低減す
る。ピラミッドの各レベルでは、第１フレーム内の各々
のサーチ領域３０の位置のまわりの５ピクセル×５ピク
セル近傍からマッチングをテストする。このようなテス
トにより、最大６２ピクセルのマッチング距離を得るこ
とができる。ピラミッドのレベルは、より正確なガウス
ピラミッドを計算する代わりに、より低いレベルの画像
をサブサンプリングすることによって得られる。しかし
ながら、ガウスピラミッドを用いて得られる付加的な精
度は、別の計算を行うことによって得られる。

【００３３】ピラミッドの最低レベル（フレームの完全
解像度の表示）では、マッチングに使用されるサーチ領
域３０は６４ピクセル×６４ピクセルの大きさである。
均一なテクスチャの領域は、結果的に変位推定値に誤差
を生じさせることが多い。これら誤差を回避するために
不充分なテクスチャのサーチ領域３０を廃棄してもよ
い。テクスチャ量をテストするのに次のような２次元の
偏差測度を使用できる。

【００３４】

【数２】

【００３５】ここで、ｐはｍ×ｎの画像領域であり、ｐ
（ｘ,.）およびｐ（.,ｙ）はｐのｘ番目の列およびｙ番
目の行の平均であり、ｑ_X，ｑ_yは、それぞれｐ内のすべ
てのｘおよびｙに対する次の式の平均である。

【００３６】

【数３】

【００３７】フレームのうちの４つの動きサーチ領域３
０の各々で決定される動き推定値の他に、現在のフレー
ムにおける４つの動きサーチ領域３０の位置を予測する
のに、前の最良の動き推定値を使用できる。動き推定値
を改善するのに、動きサーチ領域３０の予測された位置
のまわりの５ピクセル×５ピクセル近傍における限られ
たサーチを使用する。８個もの動き推定値を使用しても
よい。しかしながら、一部の動きサーチ領域３０はテク
スチャテストに合格するのに充分なテクスチャに欠けて
いる場合があり得るので、特定フレームに対する動き推
定値は８個より少なくてもよい。第１フレームにおける
動きサーチ領域３０（Ｐ１）と、次のフレーム内のマッ
チングされたサーチ領域（Ｐ２）との最大の正規化され
たドット積は、２つの連続するフレーム間の「正しい」
グローバルな動き推定値を決定する。この正規化された
ドット積は、２つの領域のベクトル表示の間の角度
（α）の余弦に等しい。

【００３８】

【数４】

【００３９】上述のグローバルな動き推定技術の別の方
法として、カルマンフィルタに基づく動き推定技術を使
用できる。グローバルな動き推定値から連続するフレー
ム間の差を決定してもよい。フレームのコンテンツのグ
ローバルな動きとは独立して動くオブジェクトを検出す
るには、２つの連続するフレーム内の画像間の差を確定
し、次にこれをグローバルな動き推定値によって調節す
る。グローバルな動き補償後の残差誤差は背景のコンテ
ンツと独立して移動するオブジェクトを表示する可能性
が高い。図３は、動画コンテンツの異なるマップを使
った、移動するオブジェクトの検出を示す図で、動物が
狩りを行う動画からの２つの連続するフレーム４０およ
び４２が示されている。フレーム４０および４２のピク
セルの強度の差分を反映させたグレイレベル差の画像４
４が生成される。動き補償された差分画像４８を生成す
るのに、グローバルな動き推定値４６が使用される。こ
の動き補償された差分画像４８では独立して移動するオ
ブジェクト５０、すなわち動物の画像が明らかである。
コンテンツ内の移動するオブジェクトの位置を決定する
際に、動き補償された差分画像４８における小さい残差
誤差領域は背景に類似する動きを有するものと見なすこ
とができ、これを無視できる。背景と独立して移動する
オブジェクトにより、第１フレームと動き補償された第
２フレームとの間に大きい残差誤差が生じる。図４は、
ｘ方向およびｙ方向に投影された単一のオブジェクトを
含むフレーム差のマップの１次元ヒストグラムの例を示
す図で、ｘ方向，ｙ方向に沿って差分マッピングを射影
する１次元のヒストグラム５４，５６が構成される。こ
れらヒストグラムから得られる統計的測定値より、ある
オブジェクトの瞬間的な中心位置およびサイズを推定で
きる。例えば、サンプル平均および分布の標準偏差を使
用して、移動するオブジェクトの中心位置およびサイズ
を予測できる。ｘ方向，ｙ方向に対する射影ヒストグラ
ム５４，５６における要素を、それぞれｈ_x（ｉ）,ｉ＝
０，１，....，およびｈ_y（ｉ）,ｉ＝０，１，....，と
表示すると、オブジェクトの中心位置（ｘ_c，ｙ_c）を次
のように推定できる。

【００４０】

【数５】

【００４１】オブジェクトの幅（ｗ）および高さ（ｈ）
は次のように推定できる。

【００４２】

【数６】

【００４３】ここで、αおよびβは一定のスケーリング
因子である。

【００４４】図５は、ｘ方向およびｙ方向に投影された
２つのオブジェクトを含むフレーム差のマップの一次元
ヒストグラムの例を示す図で、２つ以上の移動するオブ
ジェクト６０および６２を有する画像では、サンプル平
均および標準偏差から求まるオブジェクトの中心位置お
よびサイズをバイアスさせることができる。このポテン
シャルをアドレスするには、２つの１次元のｘ方向，ｙ
方向の射影ヒストグラム６４，６６のトリムされた平均
にづき、主要な移動オブジェクトの中心位置を推定す
る。分布内のサンプルの総計に対するサンプル平均μお
よび標準偏差σを計算する。トリムされた平均を最初に
μ、すなわち（μ_t（０）＝μ）にセットし、δをδ＝
ｍａｘ（ａσ，ｂ＊サンプルスペース幅）（ここでａお
よびｂはスケーリング因子であり、サンプルスペース幅
はｘおよびｙ方向の画像の幅および高さである）と定義
する。インターバル［μ_t（ｋ）−δ，μ_t（ｋ）＋δ］
内のサンプルに基づき、トリムされた平均μ_t（ｋ＋
１）を計算する。│μ_t（ｋ＋１）−μ_t（ｋ）│＜ε
（ここでεは公差、例えばε＝１.０）となるまで、こ
のトリムされた平均値の計算を繰り返す。主要な動きブ
ロブ６０の中心位置を収束平均（μ^*）と定義する。

【００４５】トリムされた標準偏差に基づき、多数のオ
ブジェクトを有するフレーム内のオブジェクトのサイズ
を推定する。中心探査ルーチンから中心位置（μ^*）お
よびδが得られた場合、反対方向の［μ^* _opp−Δ，μ^*
_opp＋Δ］（ここでμ^* _oppは逆方向のクリップされた平
均であり、Δは計算で使用されるサンプル数を決定す
る）のレンジ内で色フィルタマップを射影することによ
り“クリップ”された射影ヒストグラム（Ｈ^clip）を構
成することにより、ｘ方向またはｙ方向のいずれかのオ
ブジェクトのサイズの推定が行われる。Ｈ^clipに基づ
き、インターバル［μ ^*−δ，μ^*＋δ］内のサンプルに
対するトリムされた標準偏差値δ_tを計算する。

【００４６】

【数７】

【００４７】（ここで例えばｄ＝１.０であり、ｇ＝０.
４である）となるまで、トリムされた標準偏差を増加す
る。オブジェクトのサイズをｃδ_t（ここでｃはスケー
リング因子、例えばｃ＝２.０）に等しくセットする。

【００４８】ショット境界検出６および動き推定８の他
に、色およびテクスチャ測度でフレームの各ピクセルを
記述することにより、第１レベル４にて動画コンテンツ
のテクスチャおよび色の解析１０を実行する。多数の色
およびテクスチャ測度はコンテンツをリッチに表現可能
な記述子となる。利用される色測度はピクセルの正規化
された赤（ｒ），緑（ｇ），青（ｂ）の強度およびピク
セルのグレイ値の強度Ｉを含み、これら強度は次のよう
に決定できる。

【００４９】

【数８】

【００５０】マルチ解像度のグレイレベルの共起マトリ
ックス，フラクタルディメンジョン推定技術およびゲイ
バー（Ｇａｂｏｒ）フィルタバンクを利用することによ
り、テクスチャ測度を導出できる。グレイレベルの共起
マトリックスは、画像内の特定された相対的位置で一対
のポイントが強度レベルの特定のペアを有するジョイン
ト確率を推定する。グレイレベル共起マトリックスを利
用するには次式が成立しなければならない。

【００５１】

【数９】

【００５２】ここで、Ｐ（.）は配向θにおいて距離ｄ
だけ分離されたピクセルのグレイレベル共起マトリック
スであり、Ｒ（.）はＰ（.）の入力が合計で１になるよ
うな正規化定数である。

【００５３】テクスチャを分類するのに、次の測度を利
用できる。角度の第２モーメント（Ｅ）（エネルギーと
も称す）は、共起マトリックスが散在している時に、テ
クスチャに、より大きい数を割り当てる。

【００５４】

【数１０】

【００５５】角度の第２差分モーメント（ＤＡＳＭ）は
少数のグレイレベルのパッチしか含まないテクスチャ
に、より大きい数を割り当てる。

【００５６】

【数１１】

【００５７】コントラスト（Ｃｏｎ）は、共起マトリッ
クスの主要な対角線の周りの慣性モーメントであり、こ
の値はマトリックス値の拡散の測度であり、局部的な近
傍でピクセルがスムーズに変化するかどうかを示す。こ
のコントラストは次のように定義される。

【００５８】

【数１２】

【００５９】逆差分モーメント（ＩＤＭ）は主要対角線
からの距離に逆比例する共起マトリックスのエントリの
寄与分を重み付けすることにより、テクスチャの局部的
な一様性を決定する。

【００６０】

【数１３】

【００６１】平均値（Ｍ）はコントラスト（Ｃｏｎ）測
度に類似するが、（コントラストの係数と同じような２
次の重み付けではなく）主要対角線からの距離に線形的
に対角線外の項を重み付けする。

【００６２】

【数１４】

【００６３】エントロピ（Ｈ）は、角度の第２モーメン
トに類似し、散在するエントリが画像内で強力なサポー
トをしている共起マトリックスを生じさせるようなテク
スチャに対しては大である。他方、エントロピ（Ｈ）は
エントリがすべて等しく大きいマトリックスに対しては
最小となる。このエントロピ（Ｈ）は次のように表記で
きる。

【００６４】

【数１５】

【００６５】付加のテクスチャ測度は次のエントロピ和
（ＳＨ）：

【００６６】

【数１６】

【００６７】と、差分エントロピ（ＤＨ）：

【００６８】

【数１７】

【００６９】と、次の差分偏差（ＤＶ）とを含む。

【００７０】

【数１８】

【００７１】相関（Ｃｏｒ）測度はテクスチャの線形
性、すなわちマトリックスの行および列の類似度の強さ
の尺度である。相関性，シェードおよびプロミネンスは
次式に基づく。

【００７２】

【数１９】

【００７３】相関性（Ｃｏｒ）は次式に等しい。

【００７４】

【数２０】

【００７５】シェード（Ｓ）は次式で表される。

【００７６】

【数２１】

【００７７】プロミネンス（Ｐ）は次の式で表される。

【００７８】

【数２２】

【００７９】θが変化する際の上記多数の測度に対して
得られた値を比較することにより、テクスチャの指向性
を測定できる。野生動物の動画に本発明の技術を適用す
る際に、ｄ＝１としθ＝｛０°，４５°，９０°，１３
５°｝でこれら測度を計算した。

【００８０】グレイレベル共起マトリックス測度の他
に、ゲイバーフィルタを用いて動画フレームのコンテン
ツのテクスチャを解析する。空間ドメインでは、画像は
その２次元強度関数によって記述される。フーリエ変換
がある範囲の周波数および配向で正弦および余弦の基底
関数の係数によって画像を表示するのと同じように、ゲ
イバーフィルタは画像の空間周波数分解を行う。ゲイバ
ーフィルタは次のゲイバー関数で信号を表示するのに、
空間と周波数の組み合わせ表示を使用する。

【００８１】

【数２３】

【００８２】ここで、ａ_iは次のｉ番目の複素ゲイバー
基底関数に重み付けをする値である。

【００８３】

【数２４】

【００８４】画素当たり１２個の特徴を得るように、３
つの異なるスケールで４つの異なる配向にチューニング
されたゲイバーフィルタにより、各画像を畳み込むこと
ができる。測定値を相対的にスケールによって変化しな
いようにするために、得られるテクスチャ測度は、すべ
てのスケールにおける配向応答の平均，スケール配向応
答レンジの平均，スケールで平均された配向応答のレン
ジおよびスケールの配向応答レンジのレンジを含む。ゲ
イバー関数に基づくウェーブレットは画像検索に有効で
あることが証明されている。

【００８５】現在の動画コンテンツ解析技術において、
テクスチャを特定するのにフラクタルディメンジョン測
度も使用される。テクスチャの分類およびセグメント化
において、画像または画像の一部は、あるスケールで自
己に類似するものと仮定される。自己類似性とは、オブ
ジェクトの長さの等方性の再スケール化において、オブ
ジェクトの幾何学的性質における不変性のことである。
換言すれば、境界のある集合Ａ（オブジェクト）がＡに
類似する集合のＮ_r個のオーバーラップしないコピーか
ら構成されており、かつ収縮因子ｒだけスケールダウン
されている場合、Ａは自己類似である。従って、フラク
タルディメンジョンは次式で示される。

【００８６】

【数２５】

【００８７】フラクタルディメンジョンはｒの種々の値
に対し、Ｎ_rを予測し、ｌｏｇＮ_r／ｌｏｇ^1/rの最小二
乗法の線形フィットの傾きを決定することによって近似
される。Ｎ_rを推定するためには微分ボックスカウント
技術が使用される。

【００８８】この技術では次式に基づき、３つの特徴が
計算された。（１）実際の画像のパッチＩ（ｉ，ｊ）
（２）実際の画像のパッチＩ（ｉ，ｊ）の高いグレイレ
ベル変換

【００８９】

【数２６】

【００９０】（３）実際の画像のパッチＩ（ｉ，ｊ）の
低いグレイレベルの変換

【００９１】

【数２７】

【００９２】ここで、Ｌ₁＝ｇ_min＋１／２ｇ_avg，Ｌ₂＝
ｇ_max−１／２ｇ_avgであり、ｇ_min，ｇ_max，およびｇ
_avgはそれぞれ画像のパッチ内の最小，最大および平均
グレイレベルである。

【００９３】第４の特徴は、非等方性および非一様なス
ケーリング特性を示す自己類似分布に対して有効なマル
チフラクタルに基づくものである。ｋおよびｌ（エル）
が位置（ｉ，ｊ）を中心とする画像のパッチの最小およ
び最大グレイレベル、すなわち、

【００９４】

【数２８】

【００９５】である場合、マルチフラクタルＤ₂は次式
で定義される。

【００９６】

【数２９】

【００９７】ｒの多数の異なる値を使用できる。Ｄの推
定値は、

【００９８】

【数３０】

【００９９】の線形回帰を行った結果である。

【０１００】図６は、動画フレームに適用されるマルチ
色およびテクスチャフィルタからの特徴空間出力を示す
図である。動画コンテンツ解析技術の第２、すなわち中
間レベル１２では、画像の領域を分類またはラベル付け
する。

【０１０１】図７は、画像領域を分類するために使用さ
れるニューラルネットワークを説明するためのブロック
図である。当該種々の領域を分類するのに、１つのフレ
ームのコンテンツを記述する異なる測度の間の仲裁をす
るのに、図７に示されるようなニューラルネットワーク
を使用できる。単一の隠されたレイヤ７０を有し、シグ
モイダル起動関数を利用するニューラルネットワーク
は、この作業に適すことが判っている。

【０１０２】

【数３１】

【０１０３】バックプロパゲーションアルゴリズムは入
力信号を入力レイヤ７２から出力レイヤ７４へレイヤご
とに（左から右へ）伝搬し、誤差を出力端から入力端へ
レイヤごとに（右から左へ）逆に伝搬する。入力端へ誤
差が逆に伝搬される際に、各単位誤差の一部が訂正され
る。

【０１０４】多数のトレーニングフレーム上でトレーニ
ングを行った後に、このニューラルネットワークを使っ
て先に分類されていない動画を分類する。ニューラルネ
ットワークの画像領域分類器は、技術の第１レベルで得
られたサイズ，動き，色およびテクスチャデータを使用
し、識別された動きブロブを分類する。

【０１０５】図８は、数個の動画フレーム例の領域のう
ちその色およびテクスチャベースによる表示を示した図
で、野生動物の動画のフレームに関連する色情報とをテ
クスチャ情報を組み合わせるのにニューラルネットワー
クの画像領域分類器を使用した結果を示している。行
１，３および５には多数の動画フレームが示されてお
り、行２，４および６には分類結果の対応する特徴解析
が示されている。

【０１０６】第１レベル４の動画コンテンツ解析技術で
検出または移動された各ショットは、第２レベル１２で
要約１６が実行される。これらショットの要約は第１レ
ベル４および第２レベル１２の技術で実行される特徴お
よび動き解析の詳細をカプセル化する手段を提供するの
で、第３レベル１８の技術におけるイベント推測モジュ
ールを２つの第１レベルにおける細部と独立して開発で
きる。これらショット要約は、人によってより容易に解
析結果を読み取り、かつ解読できるように、低レベル解
析結果も抽出する。これにより、動画データベースにお
ける動画のインデクシング，検索およびブラウジングな
らびにこれら活動を実行するためのアルゴリズムの開発
が容易となる。

【０１０７】一般に、ショット要約で使用されるショッ
ト記述子は、オブジェクト，空間および時間記述子を含
む。オブジェクト記述子は、動画フレーム内に所定のオ
ブジェクト、例えば動物，木，空／雲，草，岩などが存
在することを示す。空間記述子はオブジェクトに関連す
る位置およびサイズ情報、ならびにオブジェクトの間の
空間的関係を空間的な用語、例えば「内部の」，「次
の」，「上部の」などで示す。時間記述子は、オブジェ
クトに関連した動き情報およびそれらの間の時間的関係
を示す。これらは時間的用語、例えば「〜の間」、「〜
の前」、「〜の後」などで表現できる。

【０１０８】図９は動物の狩りを検出するためのショッ
ト要約例を示す図である。この要約は、ショットが移動
または検出されたかどうか９０，ショットの開始点にお
けるフレーム番号９２，ショットの終了点におけるフレ
ーム番号９４，グローバルな動き９６，フレーム内のオ
ブジェクトの動き９８，初期オブジェクト位置１００，
最終オブジェクト位置１０２，初期オブジェクトサイズ
１０４，最終オブジェクトサイズ１０６，動きのスムー
ズさ１０８，ショット全体の精度１１０およびショット
全体にわたるリコール１１２を記述する記述子を使用す
る。動きの記述子はｘおよびｙ並進運動および動きのズ
ーム成分に関する情報を提供し、位置およびサイズ記述
子１００，１０２，１０４および１０６は、ショットの
開始点および終了点における検出された主要な動きブロ
ブの位置およびサイズを示し、精度記述子１１０は検出
された主要な動きブロブ内に表示されたオブジェクトの
数とブロブのサイズとの平均比を示し、野生動物の動画
の場合、精度は動きブロブ内で動物と表示されたブロブ
の平均数を示す。この値は獲物が存在する場合の狩りを
行う動物の尺度となり得る。リコール１１２は主要な動
きブロブ内の特定のラベルの数とフレーム全体における
そのタイプのラベルの数との比の平均である。更に、動
物の狩りのシーケンス検出解析において、追跡がエンゲ
ージされていることを示す記述子１１４，オブジェクト
の動きが速いことを示す記述子１１６，動物が存在する
ことを示す記述子１１８，狩りの開始を示す記述子１２
０，発見された連続する狩りのショット候補数を示す記
述子１２２，狩りの終了点を示す記述子１２３，有効な
狩りが見つかったかどうかの記述子１２４が使用され
る。この狩り情報は真（１）であるか、または偽（０）
であるか表示され、有効な狩りが検出されたかどうかを
決定するよう、イベント推測モジュールで使用される。

【０１０９】技術の第３レベル１８では、イベント推測
モジュール２０によってイベント２２が検出される。イ
ベント推測２０は、動画の観察および中間レベル１２で
生成されたショット要約から生じたドメインまたは主題
特定知識に基づくものである。例えば動物の狩りは通
常、時間が長く、この時間の間で動物は速く移動し、そ
の後、動物は遅くなったり停止したりする。

【０１１０】図１０は、野生動物の動画における動物狩
りを検出するための、イベント推測モジュールを説明す
るための状態図である。このモデルの推測モジュールで
は、狩りの候補を含む３つのショットを検出（動画は高
速移動する動物を追跡する）した後、動画が高速で移動
する動物を追跡しないショットが続く狩りのイベントを
推測する。「追跡」，「高速」および「動物」に対す
る、第２レベル１２で生成されるショット記述子１３２
がすべて真であれば、狩りの開始点に対する候補ショッ
ト１３０を検出する。これらショット記述子１３２がそ
の後のショット、すなわち第２ショット１３４および次
に続くショットに対し真のままであれば、有効な狩り１
３６を宣言する。その後のショットにおいて、これら記
述子のすべてが真とはならない場合１３８、推測モジュ
ールは狩りの終了１４０を宣言する。同様に、固有のド
メインにおける特定のイベント固有の高レベルの規則と
共に、低レベルの視覚的解析技術において、オブジェク
トの発生およびそれらの空間的，時間的関係をマッチン
グさせることにより、他のドメインにおけるイベントを
推測できる。

【０１１１】これまでの説明で使用した用語および表現
は、説明のためのものであり、限定のためのものではな
く、これら用語および表現を使用するにあたり、これま
で図示し、説明した特徴またはその一部の均等物を排除
する意図はない。

【０１１２】

【発明の効果】本発明の技術のモジュラ構造は、パワ
ー，フレキシビリティおよび広範な動画ドメインおよび
アプリケーションへ拡張できる容易性を提供できる。最
も低いレベルの技術では、アプリケーションまたは動画
ドメインに固有でない視覚的解析過程は、動画のコンテ
ンツに関する基本情報を提供し、スピード，処理効率，
精度などに対する要求に応じ、動画のシンタクティック
な属性を識別するのに、代わりの視覚的解析過程を使用
できる。第２レベルの過程は、第１レベルの過程よりも
ドメインまたはアプリケーションに対して、より固有の
ものであるが、いくつかの第３レベルのイベント推測モ
ジュールまたはアプリケーションにより、これらの出力
を有効にできる。例えば動物に関連した異なるイベント
を検出するようになっている数個のイベント推測モジュ
ールにより、動画内の動物の識別子を利用できる。同様
に、第２レベルで生成されたショットの要約を動画の専
門家または消費者による使用に合わせることもできる。
第３レベルでは、イベント推測モジュールが信頼できる
イベント検出に必要なドメイン固有の構造を提供する
が、別のドメイン固有の規則を含むモジュールを付加す
ることにより、本技術を他のドメインに容易に拡張でき
る。

【０１１３】また、第１レベル４の動画コンテンツ解析
技術で検出または移動された各ショットは、第２レベル
１２で要約１６される。これらショットの要約は第１レ
ベル４および第２レベル１２の技術で実行される特徴お
よび動き解析の詳細をカプセル化する手段を提供するの
で、第３レベル１８の技術におけるイベント推測モジュ
ールを２つの第１レベルにおける細部と独立して開発で
きる。これらショット要約は、人によってより容易に解
析結果を読み取り、かつ解読できるように、低レベル解
析結果も抽出する。これにより、動画データベースにお
ける動画のインデクシング，検索およびブラウジングな
らびにこれら活動を実行するためのアルゴリズムの開発
が容易となる。

【図面の簡単な説明】

【図１】本発明による動画内イベント検出方法を説明す
るためのブロック図である。

【図２】動画フレーム例におけるグローバルな動きサー
チ領域を示す図である。

【図３】動画コンテンツの異なるマップを使った、移動
するオブジェクトの検出を示す図である。

【図４】ｘ方向およびｙ方向に投影された単一のオブジ
ェクトを含むフレーム差のマップの１次元ヒストグラム
の例を示す図である。

【図５】ｘ方向およびｙ方向に投影された２つのオブジ
ェクトを含むフレーム差のマップの１次元ヒストグラム
の例を示す図である。

【図６】色およびテクスチャフィルタを利用することか
ら得られる動画のフレームおよびフレームの多数の表示
を示した図である。

【図７】画像領域を分類するために使用されるニューラ
ルネットワークを説明するためのブロック図である。

【図８】数個の動画フレーム例の領域のうちその色およ
びテクスチャベースによる表示を示した図である。

【図９】野生動物の動画シーケンスに対するショットの
要約例を示す図である。

【図１０】野生動物の動画における動物狩りを検出する
ための、イベント推測モジュールを説明するための状態
図である。

【符号の説明】

２…動画シーケンス、６…ショット検出、８…動き推
定、１０…テクスチャ／色解析、１４…動きブロブ検
証、１６…ショット要約、２０…イベント推測、２２…
検出イベント。

Claims

【特許請求の範囲】

【請求項１】（ａ）動画のコンテンツを解析するステ
ップと、（ｂ）前記解析を要約するステップと、（ｃ）
前記要約からイベントを推測するステップと、を有する
ことを特徴とする動画内のイベントを検出する方法。
【請求項２】前記コンテンツを解析するステップは、
（ａ）前記動画を、前記コンテンツの相対的一様性によ
り特徴付けられた少なくとも１組みの複数フレームに分
割するステップと、（ｂ）前記コンテンツ内のオブジェ
クトを検出するステップと、（ｃ）前記コンテンツの色
およびテクスチャのうちの少なくとも１つを測定するス
テップと、を有することを特徴とする請求項１記載の方
法。
【請求項３】第１フレームの前記コンテンツのヒスト
グラムと第２フレームの前記コンテンツのヒストグラム
とを比較することにより、前記動画を少なくとも１組み
の複数フレームに分割することを特徴とする請求項２記
載の方法。
【請求項４】第１フレームの前記コンテンツと第２フ
レームの前記コンテンツとを比較することにより、前記
オブジェクトを検出することを特徴とする請求項２記載
の方法。
【請求項５】前記第１フレームと前記第２フレームと
の間の前記コンテンツのグローバルな動きに対し、前記
第１フレームおよび前記第２フレームのうちの少なくと
も１つの前記コンテンツを調節するステップを更に有す
ることを特徴とする請求項３記載の方法。
【請求項６】前記解析を要約する前記ステップは、空
間記述子、時間記述子およびオブジェクト記述子のうち
の少なくとも１つにより、前記コンテンツを特徴付ける
ことを有することを特徴とする請求項１記載の方法。
【請求項７】前記要約における空間記述子、時間記述
子およびオブジェクト記述子のうちの少なくとも１つか
ら前記イベントを推測することを特徴とする請求項１記
載の方法。
【請求項８】（ａ）動画を、相対的に一様なコンテン
ツをもつ少なくとも１組みの複数フレームに分割するス
テップと、（ｂ）前記コンテンツ内のオブジェクトを検
出するステップと、（ｃ）前記オブジェクトを分類する
ステップと、（ｄ）空間記述子、時間記述子およびオブ
ジェクト記述子のうちの少なくとも１つにより、前記少
なくとも１組みの複数フレームの前記コンテンツを特徴
付けるステップと、（ｅ）前記コンテンツの前記特徴付
けからイベントを推測するステップと、を有することを
特徴とする動画内のイベントを検出する方法。
【請求項９】前記少なくとも１組みの複数フレームの
うちの第１フレームの前記コンテンツと第２フレームの
前記コンテンツとを比較することにより、前記オブジェ
クトを検出することを特徴とする請求項８記載の方法。
【請求項１０】前記コンテンツを比較するステップ
は、前記第１フレームと前記第２フレームとの間の前記
コンテンツのグローバルな動きに対し、前記コンテンツ
を調節するステップを有することを特徴とする請求項９
記載の方法。
【請求項１１】前記コンテンツのうちのテクスチャ測
度および色測度のうちの少なくとも１つを使って前記オ
ブジェクトを分類することを特徴とする請求項８記載の
方法。
【請求項１２】前記コンテンツの複数のヒストグラム
を比較することにより、前記複数フレームを検出するこ
とを特徴とする請求項８記載の方法。
【請求項１３】（ａ）動画を、相対的に一様なコンテ
ンツをもつ複数フレームを有する少なくとも１つのショ
ットに分割するステップと、（ｂ）前記コンテンツのグ
ローバルな動きと独立して移動するオブジェクトを検出
するステップと、（ｃ）前記ショットのうちの初期フレ
ームおよび後続するフレーム内の前記オブジェクトの位
置を測定するステップと、（ｄ）前記オブジェクトのサ
イズを測定するステップと、（ｅ）前記コンテンツのう
ちの色およびテクスチャのうちの少なくとも１つを測定
するステップと、（ｆ）色測度およびテクスチャ測度の
うちの前記少なくとも１つ、前記位置測度および前記サ
イズ測度のうちの少なくとも１つから前記オブジェクト
を分類するステップと、（ｇ）前記初期フレームおよび
前記後続するフレームにおける前記オブジェクトの前記
分類および前記オブジェクトの前記位置のうちの少なく
とも１つを特徴付けることにより、前記ショットの前記
コンテンツを要約するステップと、（ｈ）前記コンテン
ツの前記要約からイベントを推測するステップと、を有
することを特徴とする動画内のイベントを検出する方
法。
【請求項１４】第１フレームの前記コンテンツと第２
フレームの前記コンテンツとを比較することにより、前
記オブジェクトを検出し、前記第１フレームと前記第２
フレームとの間の前記コンテンツのグローバルな動きに
対して前記コンテンツを調節することを特徴とする請求
項１３記載の方法。
【請求項１５】前記動画の第１フレームの前記コンテ
ンツを表示する第１ヒストグラムと第２フレームの前記
コンテンツを表示する第２ヒストグラムとを比較するこ
とにより、前記ショットの境界を検出することを特徴と
する請求項１３記載の方法。