JP2000123184A - 動画内のイベントを検出する方法 - Google Patents

動画内のイベントを検出する方法

Info

Publication number
JP2000123184A
JP2000123184A JP11285767A JP28576799A JP2000123184A JP 2000123184 A JP2000123184 A JP 2000123184A JP 11285767 A JP11285767 A JP 11285767A JP 28576799 A JP28576799 A JP 28576799A JP 2000123184 A JP2000123184 A JP 2000123184A
Authority
JP
Japan
Prior art keywords
content
frame
shot
frames
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11285767A
Other languages
English (en)
Inventor
Richard Jungiang Qian
ユンイャン キアン リチャード
Christian Harling Nils
クリスチャン ハーリング ニールス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2000123184A publication Critical patent/JP2000123184A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Abstract

(57)【要約】 【課題】 動画における意味的に重要なイベントを検出
する方法を提供する。 【解決手段】 ショット境界の検出6を実行し、コンテ
ンツの色およびテクスチャの測定10を行い、コンテン
ツ内のオブジェクトを検出するために、まず第1レベル
4として動画シーケンス2を視覚的に解析する。第2レ
ベル12で、オブジェクトを分類し、各ショット内のコ
ンテンツの要約16を実行する。第3レベル18では、
ショット要約16で明らかになった時間的および空間的
現象に基づき、イベント推測モジュールでイベントの推
測20を行う。この技術はドメインごとに独立した方法
により、第1レベル4で生成されたデータを利用する上
部レベルにおいて、別のドメインに関連する方法を組み
込むことによって別のドメインまで拡張できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、動画内のイベント
を検出する方法に関し、より詳細には、動画シーケンス
における意味的に重要なイベントを自動的に検出しイン
デクシングするためのイベント検出方法に関する。
【0002】
【従来の技術】大衆に利用できる動画の量は劇的に増加
している。このような傾向は、パソコンとデジタルテレ
ビとが統合される将来において更に続くか、加速するこ
とが予想される。ユーザに対するこの情報の価値を改善
するには、利用できる動画情報をユーザがナビゲート
し、対応するコンテンツを探すことを補助するためのツ
ールが必要である。消費者であるユーザにとって、かか
るツールは理解が容易であり、使用が容易でなければな
らず、信頼性のある予測可能なふるまいをしなければな
らない。
【0003】一般的に、公知のコンテンツベースによる
動画インデクシングおよび検索システムには3つのカテ
ゴリがある。第1カテゴリには、動画のシンタックス構
造に対する方法が含まれており、ショット境界検出方
法,キーフレーム抽出方法,ショットクラスタリング方
法,コンテンツのテーブルの作成方法,動画要約方法お
よび動画スキミング方法が含まれる。これら方法は、一
般に計算上保守的な方法であり、比較的信頼性のある結
果を生じる。しかしながら、これら方法は動画コンテン
ツの意義をモデル化したり、または推定する試みをしな
いので、これらの結果は意味上、関係がないことがあり
得る。この結果、サーチを検出し、またはブラウジング
することは、特定の関心の動画コンテンツを探すユーザ
にフラストレーションを生じさせる原因となり得る。
【0004】第2のカテゴリの動画インデクシングおよ
び検索システムは、動画シーケンスをニュース,スポー
ツ,アクション映画,クローズアップ,クラウドのよう
な番組カテゴリに動画シーケンスを分類しようとするも
のである。これら分類は粗いレベルで動画シーケンスを
ブラウジングすることに役立つが、関心のあるコンテン
ツを探すユーザを補助する場合に限り有効である。ユー
ザは自分たちのサーチの対象を、より正確な意味のある
ラベル、例えばオブジェクト,アクションまたはイベン
トを記述するキーワードで表現することが多い。関心の
あるコンテンツを捜し出すのに、ユーザをより有効に補
助するには、ほとんどの既存の分類システムで得られる
よりもより細かいレベルで動画コンテンツを解析するこ
とが望ましい。
【0005】動画コンテンツを解析するための第3カテ
ゴリの技術は、特定の動画ドメインまたはコンテンツ主
題領域の特徴にコンテンツを関連付ける規則を応用する
ものである。例えばフットボール,サッカー,野球およ
びバスケットボールのゲームにおけるイベントを検出す
るための方法がこれまで提案されている。
【0006】
【発明が解決しようとする課題】しかしながら、これら
方法によって検出されるイベントはユーザにとって意味
的に関連するものとなり易いが、これら方法は特定のド
メインに関連する固有のアーチファクト、例えば放送プ
ログラムにおける編集パターンに大きく依存する。これ
によりこれら方法を種々のドメインから、より一般的な
動画解析に拡張することが困難となる。
【0007】本発明は、上述のごとき実情に鑑みてなさ
れたものであり、種々のコンテンツドメインから動画内
の意味的に重要なイベントを信頼性高く検出する方法を
提供し、結果としてこの方法に適応できる動画コンテン
ツ解析方法を提供することをその目的とする。
【0008】
【課題を解決するための手段】本発明は、動画のコンテ
ンツを解析するステップと、前記解析を要約するステッ
プと、前記要約から前記イベントを推測するステップと
を備えた、動画内のイベントを検出する方法を提供する
ことによって、従来技術の上記欠点を克服するものであ
る。従って、この動画イベント検出方法は3つのモジュ
ラレベルに分割される。技術の最低レベルでは、ショッ
ト検出,テクスチャおよび色解析およびオブジェクト検
出を含む、動画コンテンツの視覚的解析が行われる。第
2レベルでは、視覚的解析によって生じた結果に基づ
き、各ショットが要約される。技術の最高レベルでは、
ショット要約で開示された空間的および時間的現象から
イベントが推測される。この結果、本発明は、動画ユー
ザにとって意味のあるイベントを検出し、ショット要約
およびイベント推測モジュールを組み込むことにより、
広範な動画ドメインに技術を拡張できる。イベント推測
モジュールは、ドメイン固有でない視覚的解析過程によ
って発生されるデータに作用する動画のドメインまたは
主題領域に相対的に固有のものである。
【0009】そして、各請求項の発明は、以下の技術手
段により構成される。請求項1の発明は、(a)動画の
コンテンツを解析するステップと、(b)前記解析を要
約するステップと、(c)前記要約からイベントを推測
するステップとを有することを特徴としたイベント検出
方法である。
【0010】請求項2の発明は、請求項1に記載の方法
において、前記コンテンツを解析するステップは、
(a)前記動画を、前記コンテンツの相対的一様性によ
り特徴付けられた少なくとも1組みの複数フレームに分
割するステップと、(b)前記コンテンツ内のオブジェ
クトを検出するステップと、(c)前記コンテンツの色
およびテクスチャのうちの少なくとも1つを測定するス
テップとを有することを特徴としたものである。
【0011】請求項3の発明は、請求項2に記載の方法
において、第1フレームの前記コンテンツのヒストグラ
ムと第2フレームの前記コンテンツのヒストグラムとを
比較することにより、前記動画を少なくとも1組みの複
数フレームに分割することを特徴としたものである。
【0012】請求項4の発明は、請求項2に記載の方法
において、第1フレームの前記コンテンツと第2フレー
ムの前記コンテンツとを比較することにより、前記オブ
ジェクトを検出することを特徴としたものである。
【0013】請求項5の発明は、請求項3に記載の方法
において、前記第1フレームと前記第2フレームとの間
の前記コンテンツのグローバルな動きに対し、前記第1
フレームおよび前記第2フレームのうちの少なくとも1
つの前記コンテンツを調節するステップを更に有するこ
とを特徴としたものである。
【0014】請求項6の発明は、請求項1に記載の方法
において、前記解析を要約する前記ステップは、空間記
述子、時間記述子およびオブジェクト記述子のうちの少
なくとも1つにより、前記コンテンツを特徴付けること
を有することを特徴としたものである。
【0015】請求項7の発明は、請求項1に記載の方法
において、前記要約における空間記述子、時間記述子お
よびオブジェクト記述子のうちの少なくとも1つから前
記イベントを推測することを特徴としたものである。
【0016】請求項8の発明は、(a)動画を、相対的
に一様なコンテンツをもつ少なくとも1組みの複数フレ
ームに分割するステップと、(b)前記コンテンツ内の
オブジェクトを検出するステップと、(c)前記オブジ
ェクトを分類するステップと、(d)空間記述子、時間
記述子およびオブジェクト記述子のうちの少なくとも1
つにより、前記少なくとも1組みの複数フレームの前記
コンテンツを特徴付けるステップと、(e)前記コンテ
ンツの前記特徴付けからイベントを推測するステップと
を有することを特徴としたイベント検出方法である。
【0017】請求項9の発明は、請求項8に記載の方法
において、前記少なくとも1組みの複数フレームのうち
の第1フレームの前記コンテンツと第2フレームの前記
コンテンツとを比較することにより、前記オブジェクト
を検出することを特徴としたものである。
【0018】請求項10の発明は、請求項9に記載の方
法において、前記コンテンツを比較するステップは、前
記第1フレームと前記第2フレームとの間の前記コンテ
ンツのグローバルな動きに対し、前記コンテンツを調節
するステップを有することを特徴としたものである。
【0019】請求項11の発明は、請求項8に記載の方
法において、前記コンテンツのうちのテクスチャ測度お
よび色測度のうちの少なくとも1つを使って前記オブジ
ェクトを分類することを特徴としたものである。
【0020】請求項12の発明は、請求項8に記載の方
法において、前記コンテンツの複数のヒストグラムを比
較することにより、前記複数フレームを検出することを
特徴としたものである。
【0021】請求項13の発明は、(a)動画を、相対
的に一様なコンテンツをもつ複数フレームを有する少な
くとも1つのショットに分割するステップと、(b)前
記コンテンツのグローバルな動きと独立して移動するオ
ブジェクトを検出するステップと、(c)前記ショット
のうちの初期フレームおよび後続するフレーム内の前記
オブジェクトの位置を測定するステップと、(d)前記
オブジェクトのサイズを測定するステップと、(e)前
記コンテンツのうちの色およびテクスチャのうちの少な
くとも1つを測定するステップと、(f)色測度および
テクスチャ測度のうちの前記少なくとも1つ、前記位置
測度および前記サイズ測度のうちの少なくとも1つから
前記オブジェクトを分類するステップと、(g)前記初
期フレームおよび前記後続するフレームにおける前記オ
ブジェクトの前記分類および前記オブジェクトの前記位
置のうちの少なくとも1つを特徴付けることにより、前
記ショットの前記コンテンツを要約するステップと、
(h)前記コンテンツの前記要約からイベントを推測す
るステップとを有することを特徴としたイベント検出方
法である。
【0022】請求項14の発明は、請求項13に記載の
方法において、第1フレームの前記コンテンツと第2フ
レームの前記コンテンツとを比較することにより、前記
オブジェクトを検出し、前記第1フレームと前記第2フ
レームとの間の前記コンテンツのグローバルな動きに対
して前記コンテンツを調節することを特徴としたもので
ある。
【0023】請求項15の発明は、請求項13に記載の
方法において、 前記動画の第1フレームの前記コンテ
ンツを表示する第1ヒストグラムと第2フレームの前記
コンテンツを表示する第2ヒストグラムとを比較するこ
とにより、前記ショットの境界を検出することを特徴と
したものである。
【0024】
【発明の実施の形態】添付図面を参照し、本発明の以下
の説明を検討すれば、本発明の上記およびそれ以外の目
的、特徴および利点についてより容易に理解可能であ
る。
【0025】動画シーケンスでは、動画コンテンツにお
けるオブジェクトに関連する時間的および空間的現象に
よって1つのイベントを推測できる。例えば野生動物の
動画において、獲物に忍び寄る動物の、ある時間の比較
的ゆっくりとした動きと、それに続く、獲物と獲物を狙
う動物の速い動きと、次に続く、所定の時間の獲物を狙
った動物のごくわずかな運動、または全く運動が行われ
ないことによって、動物による狩りを推測できる。図1
は、本発明による動画内イベント検出方法を説明するた
めのブロック図で、本発明の技術では、動画における意
味的に重要なイベントの検出は3つのレベルに分割され
る。動画シーケンス2は、技術の第1レベル4へ入力さ
れ、ショット検出6へ分割される。更に、コンテンツの
グローバルな動き、すなわち全体の動きを決定し、グロ
ーバルな動きと独立して移動するコンテンツ内のオブジ
ェクトを探すよう、動き推定8が実行される。各フレー
ムのコンテンツの色およびテクスチャは、第1レベル4
によっても解析10が実行される。第2レベル12で
は、各ショットにおける移動するオブジェクトすなわち
動きブロブの検証または分類14が実行され、各ショッ
トのショット要約16が実行される。第3レベル18で
は、ドメイン固有のイベント推測モジュール20により
ショットの要約からイベント22が推測される。
【0026】動画における意味的に重要なイベントを抽
出することは、複雑なプロセスである。これまで動画の
イベントを検出するための技術では、プロセスの複雑さ
を少なくするために、出力との妥協を図るか、またはド
メイン固有のプロセスを使用することにより、技術の利
用が制限されていた。しかしながら、本発明の技術のモ
ジュラ構造は、パワー,フレキシビリティおよび広範な
動画ドメインおよびアプリケーションへ拡張できる容易
性を提供できる。最も低いレベルの技術では、アプリケ
ーションまたは動画ドメインに固有でない視覚的解析過
程は、動画のコンテンツに関する基本情報を提供し、ス
ピード,処理効率,精度などに対する要求に応じ、動画
のシンタクティックな属性を識別するのに、代わりの視
覚的解析過程を使用できる。第2レベルの過程は、第1
レベルの過程よりもドメインまたはアプリケーションに
対して、より固有のものであるが、いくつかの第3レベ
ルのイベント推測モジュールまたはアプリケーションに
より、これらの出力を有効にできる。例えば動物に関連
した異なるイベントを検出するようになっている数個の
イベント推測モジュールにより、動画内の動物の識別子
を利用できる。同様に、第2レベルで生成されたショッ
トの要約を動画の専門家または消費者による使用に合わ
せることもできる。第3レベルでは、イベント推測モジ
ュールが信頼できるイベント検出に必要なドメイン固有
の構造を提供するが、別のドメイン固有の規則を含むモ
ジュールを付加することにより、本技術を他のドメイン
に容易に拡張できる。
【0027】技術の第1レベル4に動画シーケンス2が
入力される。1つの動画シーケンスは1つ以上のシーン
を含み、これらシーンは1つ以上の動画ショットを含
む。1つのショットは相対的に一様なコンテンツの複数
の個々のフレームを含み、第1レベル4では、シーケン
スの構成要素のショットの境界が検出される(ショット
検出6)。ショットの境界を検出するのに、色ヒストグ
ラム技術を使用できる。2つのフレームのヒストグラム
の差はこれらフレームのコンテンツの差を示す。連続す
るフレームに対するヒストグラム間の差が所定のしきい
値を越えた場合、これら2つのフレームのコンテンツ
を、フレームが異なる動画ショットからのものであるよ
う、充分異なるものと見なす。また、他の公知の技術を
使ってショットの境界を検出することもできる。
【0028】動画シーケンスで検出されるショット境界
の他に、コンテンツのグローバルな動きが変化する場合
はいつでも、ショット境界をシーケンス内に強制移動さ
せたり、または挿入することができる。この結果、ショ
ットの境界間のグローバルな動きは相対的に一様とな
る。更に、延長されたショットにおける重要なイベント
を見逃す可能性を少なくするために、特定の数のフレー
ム後(例えば200フレームごと)にショット境界を強
制移動してもよい。
【0029】技術の第1レベル4では、ショット内のフ
レームの対ごとに動画コンテンツのグローバルな動きの
推定8が実行される。野生動物の動画を解析するにあた
り、ズームおよび水平ならびに垂直並進運動に適応させ
るために、3パラメータ系に対して動き推定が行われ
る。3パラメータ系では、グローバルな動きを次のよう
に表示できる。
【0030】
【数1】
【0031】図2は、動画フレーム例におけるグローバ
ルな動きのサーチ領域を示す図で、動画フレーム内の4
つの動きサーチ領域30内でのブロックマッチングによ
り、グローバルな動きが推定される。動画コンテンツか
らグローバルな動きのパラメータを信頼性高く回復する
試みにおいてはいくつかの問題が生じる。第1に、当該
移動オブジェクトをトラッキングするようカメラが移動
する際に、隣接するフレーム内で対応する特徴が離れる
ことがあり得る。例えば野生の動物が狩りをするセグメ
ントでは、50〜60個のピクセルがフレームごとに変
位することが一般的であり、そのピーク変位量は100
個のピクセルを越えることがあり得る。更に、インタレ
ース操作は隣接するフレーム内の小さいオブジェクトお
よびテクスチャの外観を劇的に変えることがあり、急に
移動する当該オブジェクトをトラッキングするカメラの
運動により、グローバルな動き推定に使用される背景の
特徴がぼけることがある。更に、動画ショットは大きく
変化する照明条件または視覚的障害を含むことがある。
例えば、野生の動物が狩りを行う動画シーケンスは、オ
ープンな領域または視覚性および日光が木または灌木に
よって遮られるような領域を通過し得る。
【0032】本実施形態では、4つの動きサーチ領域3
0に対して使用される5レベルのピラミッド状技術によ
ってグローバルな動きが予想される。フレーム間で大き
い変位が恐らくある場合、消尽的サーチによって隣接す
るフレーム内のマッチング領域30を探すことにより、
計算的に集中し得る。各フレームの低解像度表示の5レ
ベルのピラミッドは、連続するフレーム内の動きサーチ
領域30をマッチングするのに必要な計算量を低減す
る。ピラミッドの各レベルでは、第1フレーム内の各々
のサーチ領域30の位置のまわりの5ピクセル×5ピク
セル近傍からマッチングをテストする。このようなテス
トにより、最大62ピクセルのマッチング距離を得るこ
とができる。ピラミッドのレベルは、より正確なガウス
ピラミッドを計算する代わりに、より低いレベルの画像
をサブサンプリングすることによって得られる。しかし
ながら、ガウスピラミッドを用いて得られる付加的な精
度は、別の計算を行うことによって得られる。
【0033】ピラミッドの最低レベル(フレームの完全
解像度の表示)では、マッチングに使用されるサーチ領
域30は64ピクセル×64ピクセルの大きさである。
均一なテクスチャの領域は、結果的に変位推定値に誤差
を生じさせることが多い。これら誤差を回避するために
不充分なテクスチャのサーチ領域30を廃棄してもよ
い。テクスチャ量をテストするのに次のような2次元の
偏差測度を使用できる。
【0034】
【数2】
【0035】ここで、pはm×nの画像領域であり、p
(x,.)およびp(.,y)はpのx番目の列およびy番
目の行の平均であり、qX,qyは、それぞれp内のすべ
てのxおよびyに対する次の式の平均である。
【0036】
【数3】
【0037】フレームのうちの4つの動きサーチ領域3
0の各々で決定される動き推定値の他に、現在のフレー
ムにおける4つの動きサーチ領域30の位置を予測する
のに、前の最良の動き推定値を使用できる。動き推定値
を改善するのに、動きサーチ領域30の予測された位置
のまわりの5ピクセル×5ピクセル近傍における限られ
たサーチを使用する。8個もの動き推定値を使用しても
よい。しかしながら、一部の動きサーチ領域30はテク
スチャテストに合格するのに充分なテクスチャに欠けて
いる場合があり得るので、特定フレームに対する動き推
定値は8個より少なくてもよい。第1フレームにおける
動きサーチ領域30(P1)と、次のフレーム内のマッ
チングされたサーチ領域(P2)との最大の正規化され
たドット積は、2つの連続するフレーム間の「正しい」
グローバルな動き推定値を決定する。この正規化された
ドット積は、2つの領域のベクトル表示の間の角度
(α)の余弦に等しい。
【0038】
【数4】
【0039】上述のグローバルな動き推定技術の別の方
法として、カルマンフィルタに基づく動き推定技術を使
用できる。グローバルな動き推定値から連続するフレー
ム間の差を決定してもよい。フレームのコンテンツのグ
ローバルな動きとは独立して動くオブジェクトを検出す
るには、2つの連続するフレーム内の画像間の差を確定
し、次にこれをグローバルな動き推定値によって調節す
る。グローバルな動き補償後の残差誤差は背景のコンテ
ンツと独立して移動するオブジェクトを表示する可能性
が高い。 図3は、動画コンテンツの異なるマップを使
った、移動するオブジェクトの検出を示す図で、動物が
狩りを行う動画からの2つの連続するフレーム40およ
び42が示されている。フレーム40および42のピク
セルの強度の差分を反映させたグレイレベル差の画像4
4が生成される。動き補償された差分画像48を生成す
るのに、グローバルな動き推定値46が使用される。こ
の動き補償された差分画像48では独立して移動するオ
ブジェクト50、すなわち動物の画像が明らかである。
コンテンツ内の移動するオブジェクトの位置を決定する
際に、動き補償された差分画像48における小さい残差
誤差領域は背景に類似する動きを有するものと見なすこ
とができ、これを無視できる。背景と独立して移動する
オブジェクトにより、第1フレームと動き補償された第
2フレームとの間に大きい残差誤差が生じる。図4は、
x方向およびy方向に投影された単一のオブジェクトを
含むフレーム差のマップの1次元ヒストグラムの例を示
す図で、x方向,y方向に沿って差分マッピングを射影
する1次元のヒストグラム54,56が構成される。こ
れらヒストグラムから得られる統計的測定値より、ある
オブジェクトの瞬間的な中心位置およびサイズを推定で
きる。例えば、サンプル平均および分布の標準偏差を使
用して、移動するオブジェクトの中心位置およびサイズ
を予測できる。x方向,y方向に対する射影ヒストグラ
ム54,56における要素を、それぞれhx(i),i=
0,1,....,およびhy(i),i=0,1,....,と
表示すると、オブジェクトの中心位置(xc,yc)を次
のように推定できる。
【0040】
【数5】
【0041】オブジェクトの幅(w)および高さ(h)
は次のように推定できる。
【0042】
【数6】
【0043】ここで、αおよびβは一定のスケーリング
因子である。
【0044】図5は、x方向およびy方向に投影された
2つのオブジェクトを含むフレーム差のマップの一次元
ヒストグラムの例を示す図で、2つ以上の移動するオブ
ジェクト60および62を有する画像では、サンプル平
均および標準偏差から求まるオブジェクトの中心位置お
よびサイズをバイアスさせることができる。このポテン
シャルをアドレスするには、2つの1次元のx方向,y
方向の射影ヒストグラム64,66のトリムされた平均
にづき、主要な移動オブジェクトの中心位置を推定す
る。分布内のサンプルの総計に対するサンプル平均μお
よび標準偏差σを計算する。トリムされた平均を最初に
μ、すなわち(μt(0)=μ)にセットし、δをδ=
max(aσ,b*サンプルスペース幅)(ここでaお
よびbはスケーリング因子であり、サンプルスペース幅
はxおよびy方向の画像の幅および高さである)と定義
する。インターバル[μt(k)−δ,μt(k)+δ]
内のサンプルに基づき、トリムされた平均μt(k+
1)を計算する。│μt(k+1)−μt(k)│<ε
(ここでεは公差、例えばε=1.0)となるまで、こ
のトリムされた平均値の計算を繰り返す。主要な動きブ
ロブ60の中心位置を収束平均(μ*)と定義する。
【0045】トリムされた標準偏差に基づき、多数のオ
ブジェクトを有するフレーム内のオブジェクトのサイズ
を推定する。中心探査ルーチンから中心位置(μ*)お
よびδが得られた場合、反対方向の[μ* opp−Δ,μ*
opp+Δ](ここでμ* oppは逆方向のクリップされた平
均であり、Δは計算で使用されるサンプル数を決定す
る)のレンジ内で色フィルタマップを射影することによ
り“クリップ”された射影ヒストグラム(Hclip)を構
成することにより、x方向またはy方向のいずれかのオ
ブジェクトのサイズの推定が行われる。Hclipに基づ
き、インターバル[μ *−δ,μ*+δ]内のサンプルに
対するトリムされた標準偏差値δtを計算する。
【0046】
【数7】
【0047】(ここで例えばd=1.0であり、g=0.
4である)となるまで、トリムされた標準偏差を増加す
る。オブジェクトのサイズをcδt(ここでcはスケー
リング因子、例えばc=2.0)に等しくセットする。
【0048】ショット境界検出6および動き推定8の他
に、色およびテクスチャ測度でフレームの各ピクセルを
記述することにより、第1レベル4にて動画コンテンツ
のテクスチャおよび色の解析10を実行する。多数の色
およびテクスチャ測度はコンテンツをリッチに表現可能
な記述子となる。利用される色測度はピクセルの正規化
された赤(r),緑(g),青(b)の強度およびピク
セルのグレイ値の強度Iを含み、これら強度は次のよう
に決定できる。
【0049】
【数8】
【0050】マルチ解像度のグレイレベルの共起マトリ
ックス,フラクタルディメンジョン推定技術およびゲイ
バー(Gabor)フィルタバンクを利用することによ
り、テクスチャ測度を導出できる。グレイレベルの共起
マトリックスは、画像内の特定された相対的位置で一対
のポイントが強度レベルの特定のペアを有するジョイン
ト確率を推定する。グレイレベル共起マトリックスを利
用するには次式が成立しなければならない。
【0051】
【数9】
【0052】ここで、P(.)は配向θにおいて距離d
だけ分離されたピクセルのグレイレベル共起マトリック
スであり、R(.)はP(.)の入力が合計で1になるよ
うな正規化定数である。
【0053】テクスチャを分類するのに、次の測度を利
用できる。角度の第2モーメント(E)(エネルギーと
も称す)は、共起マトリックスが散在している時に、テ
クスチャに、より大きい数を割り当てる。
【0054】
【数10】
【0055】角度の第2差分モーメント(DASM)は
少数のグレイレベルのパッチしか含まないテクスチャ
に、より大きい数を割り当てる。
【0056】
【数11】
【0057】コントラスト(Con)は、共起マトリッ
クスの主要な対角線の周りの慣性モーメントであり、こ
の値はマトリックス値の拡散の測度であり、局部的な近
傍でピクセルがスムーズに変化するかどうかを示す。こ
のコントラストは次のように定義される。
【0058】
【数12】
【0059】逆差分モーメント(IDM)は主要対角線
からの距離に逆比例する共起マトリックスのエントリの
寄与分を重み付けすることにより、テクスチャの局部的
な一様性を決定する。
【0060】
【数13】
【0061】平均値(M)はコントラスト(Con)測
度に類似するが、(コントラストの係数と同じような2
次の重み付けではなく)主要対角線からの距離に線形的
に対角線外の項を重み付けする。
【0062】
【数14】
【0063】エントロピ(H)は、角度の第2モーメン
トに類似し、散在するエントリが画像内で強力なサポー
トをしている共起マトリックスを生じさせるようなテク
スチャに対しては大である。他方、エントロピ(H)は
エントリがすべて等しく大きいマトリックスに対しては
最小となる。このエントロピ(H)は次のように表記で
きる。
【0064】
【数15】
【0065】付加のテクスチャ測度は次のエントロピ和
(SH):
【0066】
【数16】
【0067】と、差分エントロピ(DH):
【0068】
【数17】
【0069】と、次の差分偏差(DV)とを含む。
【0070】
【数18】
【0071】相関(Cor)測度はテクスチャの線形
性、すなわちマトリックスの行および列の類似度の強さ
の尺度である。相関性,シェードおよびプロミネンスは
次式に基づく。
【0072】
【数19】
【0073】相関性(Cor)は次式に等しい。
【0074】
【数20】
【0075】シェード(S)は次式で表される。
【0076】
【数21】
【0077】プロミネンス(P)は次の式で表される。
【0078】
【数22】
【0079】θが変化する際の上記多数の測度に対して
得られた値を比較することにより、テクスチャの指向性
を測定できる。野生動物の動画に本発明の技術を適用す
る際に、d=1としθ={0°,45°,90°,13
5°}でこれら測度を計算した。
【0080】グレイレベル共起マトリックス測度の他
に、ゲイバーフィルタを用いて動画フレームのコンテン
ツのテクスチャを解析する。空間ドメインでは、画像は
その2次元強度関数によって記述される。フーリエ変換
がある範囲の周波数および配向で正弦および余弦の基底
関数の係数によって画像を表示するのと同じように、ゲ
イバーフィルタは画像の空間周波数分解を行う。ゲイバ
ーフィルタは次のゲイバー関数で信号を表示するのに、
空間と周波数の組み合わせ表示を使用する。
【0081】
【数23】
【0082】ここで、aiは次のi番目の複素ゲイバー
基底関数に重み付けをする値である。
【0083】
【数24】
【0084】画素当たり12個の特徴を得るように、3
つの異なるスケールで4つの異なる配向にチューニング
されたゲイバーフィルタにより、各画像を畳み込むこと
ができる。測定値を相対的にスケールによって変化しな
いようにするために、得られるテクスチャ測度は、すべ
てのスケールにおける配向応答の平均,スケール配向応
答レンジの平均,スケールで平均された配向応答のレン
ジおよびスケールの配向応答レンジのレンジを含む。ゲ
イバー関数に基づくウェーブレットは画像検索に有効で
あることが証明されている。
【0085】現在の動画コンテンツ解析技術において、
テクスチャを特定するのにフラクタルディメンジョン測
度も使用される。テクスチャの分類およびセグメント化
において、画像または画像の一部は、あるスケールで自
己に類似するものと仮定される。自己類似性とは、オブ
ジェクトの長さの等方性の再スケール化において、オブ
ジェクトの幾何学的性質における不変性のことである。
換言すれば、境界のある集合A(オブジェクト)がAに
類似する集合のNr個のオーバーラップしないコピーか
ら構成されており、かつ収縮因子rだけスケールダウン
されている場合、Aは自己類似である。従って、フラク
タルディメンジョンは次式で示される。
【0086】
【数25】
【0087】フラクタルディメンジョンはrの種々の値
に対し、Nrを予測し、logNr/log1/rの最小二
乗法の線形フィットの傾きを決定することによって近似
される。Nrを推定するためには微分ボックスカウント
技術が使用される。
【0088】この技術では次式に基づき、3つの特徴が
計算された。(1)実際の画像のパッチI(i,j)
(2)実際の画像のパッチI(i,j)の高いグレイレ
ベル変換
【0089】
【数26】
【0090】(3)実際の画像のパッチI(i,j)の
低いグレイレベルの変換
【0091】
【数27】
【0092】ここで、L1=gmin+1/2gavg,L2
max−1/2gavgであり、gmin,gmax,およびg
avgはそれぞれ画像のパッチ内の最小,最大および平均
グレイレベルである。
【0093】第4の特徴は、非等方性および非一様なス
ケーリング特性を示す自己類似分布に対して有効なマル
チフラクタルに基づくものである。kおよびl(エル)
が位置(i,j)を中心とする画像のパッチの最小およ
び最大グレイレベル、すなわち、
【0094】
【数28】
【0095】である場合、マルチフラクタルD2は次式
で定義される。
【0096】
【数29】
【0097】rの多数の異なる値を使用できる。Dの推
定値は、
【0098】
【数30】
【0099】の線形回帰を行った結果である。
【0100】図6は、動画フレームに適用されるマルチ
色およびテクスチャフィルタからの特徴空間出力を示す
図である。動画コンテンツ解析技術の第2、すなわち中
間レベル12では、画像の領域を分類またはラベル付け
する。
【0101】図7は、画像領域を分類するために使用さ
れるニューラルネットワークを説明するためのブロック
図である。当該種々の領域を分類するのに、1つのフレ
ームのコンテンツを記述する異なる測度の間の仲裁をす
るのに、図7に示されるようなニューラルネットワーク
を使用できる。単一の隠されたレイヤ70を有し、シグ
モイダル起動関数を利用するニューラルネットワーク
は、この作業に適すことが判っている。
【0102】
【数31】
【0103】バックプロパゲーションアルゴリズムは入
力信号を入力レイヤ72から出力レイヤ74へレイヤご
とに(左から右へ)伝搬し、誤差を出力端から入力端へ
レイヤごとに(右から左へ)逆に伝搬する。入力端へ誤
差が逆に伝搬される際に、各単位誤差の一部が訂正され
る。
【0104】多数のトレーニングフレーム上でトレーニ
ングを行った後に、このニューラルネットワークを使っ
て先に分類されていない動画を分類する。ニューラルネ
ットワークの画像領域分類器は、技術の第1レベルで得
られたサイズ,動き,色およびテクスチャデータを使用
し、識別された動きブロブを分類する。
【0105】図8は、数個の動画フレーム例の領域のう
ちその色およびテクスチャベースによる表示を示した図
で、野生動物の動画のフレームに関連する色情報とをテ
クスチャ情報を組み合わせるのにニューラルネットワー
クの画像領域分類器を使用した結果を示している。行
1,3および5には多数の動画フレームが示されてお
り、行2,4および6には分類結果の対応する特徴解析
が示されている。
【0106】第1レベル4の動画コンテンツ解析技術で
検出または移動された各ショットは、第2レベル12で
要約16が実行される。これらショットの要約は第1レ
ベル4および第2レベル12の技術で実行される特徴お
よび動き解析の詳細をカプセル化する手段を提供するの
で、第3レベル18の技術におけるイベント推測モジュ
ールを2つの第1レベルにおける細部と独立して開発で
きる。これらショット要約は、人によってより容易に解
析結果を読み取り、かつ解読できるように、低レベル解
析結果も抽出する。これにより、動画データベースにお
ける動画のインデクシング,検索およびブラウジングな
らびにこれら活動を実行するためのアルゴリズムの開発
が容易となる。
【0107】一般に、ショット要約で使用されるショッ
ト記述子は、オブジェクト,空間および時間記述子を含
む。オブジェクト記述子は、動画フレーム内に所定のオ
ブジェクト、例えば動物,木,空/雲,草,岩などが存
在することを示す。空間記述子はオブジェクトに関連す
る位置およびサイズ情報、ならびにオブジェクトの間の
空間的関係を空間的な用語、例えば「内部の」,「次
の」,「上部の」などで示す。時間記述子は、オブジェ
クトに関連した動き情報およびそれらの間の時間的関係
を示す。これらは時間的用語、例えば「〜の間」、「〜
の前」、「〜の後」などで表現できる。
【0108】図9は動物の狩りを検出するためのショッ
ト要約例を示す図である。この要約は、ショットが移動
または検出されたかどうか90,ショットの開始点にお
けるフレーム番号92,ショットの終了点におけるフレ
ーム番号94,グローバルな動き96,フレーム内のオ
ブジェクトの動き98,初期オブジェクト位置100,
最終オブジェクト位置102,初期オブジェクトサイズ
104,最終オブジェクトサイズ106,動きのスムー
ズさ108,ショット全体の精度110およびショット
全体にわたるリコール112を記述する記述子を使用す
る。動きの記述子はxおよびy並進運動および動きのズ
ーム成分に関する情報を提供し、位置およびサイズ記述
子100,102,104および106は、ショットの
開始点および終了点における検出された主要な動きブロ
ブの位置およびサイズを示し、精度記述子110は検出
された主要な動きブロブ内に表示されたオブジェクトの
数とブロブのサイズとの平均比を示し、野生動物の動画
の場合、精度は動きブロブ内で動物と表示されたブロブ
の平均数を示す。この値は獲物が存在する場合の狩りを
行う動物の尺度となり得る。リコール112は主要な動
きブロブ内の特定のラベルの数とフレーム全体における
そのタイプのラベルの数との比の平均である。更に、動
物の狩りのシーケンス検出解析において、追跡がエンゲ
ージされていることを示す記述子114,オブジェクト
の動きが速いことを示す記述子116,動物が存在する
ことを示す記述子118,狩りの開始を示す記述子12
0,発見された連続する狩りのショット候補数を示す記
述子122,狩りの終了点を示す記述子123,有効な
狩りが見つかったかどうかの記述子124が使用され
る。この狩り情報は真(1)であるか、または偽(0)
であるか表示され、有効な狩りが検出されたかどうかを
決定するよう、イベント推測モジュールで使用される。
【0109】技術の第3レベル18では、イベント推測
モジュール20によってイベント22が検出される。イ
ベント推測20は、動画の観察および中間レベル12で
生成されたショット要約から生じたドメインまたは主題
特定知識に基づくものである。例えば動物の狩りは通
常、時間が長く、この時間の間で動物は速く移動し、そ
の後、動物は遅くなったり停止したりする。
【0110】図10は、野生動物の動画における動物狩
りを検出するための、イベント推測モジュールを説明す
るための状態図である。このモデルの推測モジュールで
は、狩りの候補を含む3つのショットを検出(動画は高
速移動する動物を追跡する)した後、動画が高速で移動
する動物を追跡しないショットが続く狩りのイベントを
推測する。「追跡」,「高速」および「動物」に対す
る、第2レベル12で生成されるショット記述子132
がすべて真であれば、狩りの開始点に対する候補ショッ
ト130を検出する。これらショット記述子132がそ
の後のショット、すなわち第2ショット134および次
に続くショットに対し真のままであれば、有効な狩り1
36を宣言する。その後のショットにおいて、これら記
述子のすべてが真とはならない場合138、推測モジュ
ールは狩りの終了140を宣言する。同様に、固有のド
メインにおける特定のイベント固有の高レベルの規則と
共に、低レベルの視覚的解析技術において、オブジェク
トの発生およびそれらの空間的,時間的関係をマッチン
グさせることにより、他のドメインにおけるイベントを
推測できる。
【0111】これまでの説明で使用した用語および表現
は、説明のためのものであり、限定のためのものではな
く、これら用語および表現を使用するにあたり、これま
で図示し、説明した特徴またはその一部の均等物を排除
する意図はない。
【0112】
【発明の効果】本発明の技術のモジュラ構造は、パワ
ー,フレキシビリティおよび広範な動画ドメインおよび
アプリケーションへ拡張できる容易性を提供できる。最
も低いレベルの技術では、アプリケーションまたは動画
ドメインに固有でない視覚的解析過程は、動画のコンテ
ンツに関する基本情報を提供し、スピード,処理効率,
精度などに対する要求に応じ、動画のシンタクティック
な属性を識別するのに、代わりの視覚的解析過程を使用
できる。第2レベルの過程は、第1レベルの過程よりも
ドメインまたはアプリケーションに対して、より固有の
ものであるが、いくつかの第3レベルのイベント推測モ
ジュールまたはアプリケーションにより、これらの出力
を有効にできる。例えば動物に関連した異なるイベント
を検出するようになっている数個のイベント推測モジュ
ールにより、動画内の動物の識別子を利用できる。同様
に、第2レベルで生成されたショットの要約を動画の専
門家または消費者による使用に合わせることもできる。
第3レベルでは、イベント推測モジュールが信頼できる
イベント検出に必要なドメイン固有の構造を提供する
が、別のドメイン固有の規則を含むモジュールを付加す
ることにより、本技術を他のドメインに容易に拡張でき
る。
【0113】また、第1レベル4の動画コンテンツ解析
技術で検出または移動された各ショットは、第2レベル
12で要約16される。これらショットの要約は第1レ
ベル4および第2レベル12の技術で実行される特徴お
よび動き解析の詳細をカプセル化する手段を提供するの
で、第3レベル18の技術におけるイベント推測モジュ
ールを2つの第1レベルにおける細部と独立して開発で
きる。これらショット要約は、人によってより容易に解
析結果を読み取り、かつ解読できるように、低レベル解
析結果も抽出する。これにより、動画データベースにお
ける動画のインデクシング,検索およびブラウジングな
らびにこれら活動を実行するためのアルゴリズムの開発
が容易となる。
【図面の簡単な説明】
【図1】本発明による動画内イベント検出方法を説明す
るためのブロック図である。
【図2】動画フレーム例におけるグローバルな動きサー
チ領域を示す図である。
【図3】動画コンテンツの異なるマップを使った、移動
するオブジェクトの検出を示す図である。
【図4】x方向およびy方向に投影された単一のオブジ
ェクトを含むフレーム差のマップの1次元ヒストグラム
の例を示す図である。
【図5】x方向およびy方向に投影された2つのオブジ
ェクトを含むフレーム差のマップの1次元ヒストグラム
の例を示す図である。
【図6】色およびテクスチャフィルタを利用することか
ら得られる動画のフレームおよびフレームの多数の表示
を示した図である。
【図7】画像領域を分類するために使用されるニューラ
ルネットワークを説明するためのブロック図である。
【図8】数個の動画フレーム例の領域のうちその色およ
びテクスチャベースによる表示を示した図である。
【図9】野生動物の動画シーケンスに対するショットの
要約例を示す図である。
【図10】野生動物の動画における動物狩りを検出する
ための、イベント推測モジュールを説明するための状態
図である。
【符号の説明】
2…動画シーケンス、6…ショット検出、8…動き推
定、10…テクスチャ/色解析、14…動きブロブ検
証、16…ショット要約、20…イベント推測、22…
検出イベント。

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 (a)動画のコンテンツを解析するステ
    ップと、(b)前記解析を要約するステップと、(c)
    前記要約からイベントを推測するステップと、を有する
    ことを特徴とする動画内のイベントを検出する方法。
  2. 【請求項2】 前記コンテンツを解析するステップは、
    (a)前記動画を、前記コンテンツの相対的一様性によ
    り特徴付けられた少なくとも1組みの複数フレームに分
    割するステップと、(b)前記コンテンツ内のオブジェ
    クトを検出するステップと、(c)前記コンテンツの色
    およびテクスチャのうちの少なくとも1つを測定するス
    テップと、を有することを特徴とする請求項1記載の方
    法。
  3. 【請求項3】 第1フレームの前記コンテンツのヒスト
    グラムと第2フレームの前記コンテンツのヒストグラム
    とを比較することにより、前記動画を少なくとも1組み
    の複数フレームに分割することを特徴とする請求項2記
    載の方法。
  4. 【請求項4】 第1フレームの前記コンテンツと第2フ
    レームの前記コンテンツとを比較することにより、前記
    オブジェクトを検出することを特徴とする請求項2記載
    の方法。
  5. 【請求項5】 前記第1フレームと前記第2フレームと
    の間の前記コンテンツのグローバルな動きに対し、前記
    第1フレームおよび前記第2フレームのうちの少なくと
    も1つの前記コンテンツを調節するステップを更に有す
    ることを特徴とする請求項3記載の方法。
  6. 【請求項6】 前記解析を要約する前記ステップは、空
    間記述子、時間記述子およびオブジェクト記述子のうち
    の少なくとも1つにより、前記コンテンツを特徴付ける
    ことを有することを特徴とする請求項1記載の方法。
  7. 【請求項7】 前記要約における空間記述子、時間記述
    子およびオブジェクト記述子のうちの少なくとも1つか
    ら前記イベントを推測することを特徴とする請求項1記
    載の方法。
  8. 【請求項8】 (a)動画を、相対的に一様なコンテン
    ツをもつ少なくとも1組みの複数フレームに分割するス
    テップと、(b)前記コンテンツ内のオブジェクトを検
    出するステップと、(c)前記オブジェクトを分類する
    ステップと、(d)空間記述子、時間記述子およびオブ
    ジェクト記述子のうちの少なくとも1つにより、前記少
    なくとも1組みの複数フレームの前記コンテンツを特徴
    付けるステップと、(e)前記コンテンツの前記特徴付
    けからイベントを推測するステップと、を有することを
    特徴とする動画内のイベントを検出する方法。
  9. 【請求項9】 前記少なくとも1組みの複数フレームの
    うちの第1フレームの前記コンテンツと第2フレームの
    前記コンテンツとを比較することにより、前記オブジェ
    クトを検出することを特徴とする請求項8記載の方法。
  10. 【請求項10】 前記コンテンツを比較するステップ
    は、前記第1フレームと前記第2フレームとの間の前記
    コンテンツのグローバルな動きに対し、前記コンテンツ
    を調節するステップを有することを特徴とする請求項9
    記載の方法。
  11. 【請求項11】 前記コンテンツのうちのテクスチャ測
    度および色測度のうちの少なくとも1つを使って前記オ
    ブジェクトを分類することを特徴とする請求項8記載の
    方法。
  12. 【請求項12】 前記コンテンツの複数のヒストグラム
    を比較することにより、前記複数フレームを検出するこ
    とを特徴とする請求項8記載の方法。
  13. 【請求項13】 (a)動画を、相対的に一様なコンテ
    ンツをもつ複数フレームを有する少なくとも1つのショ
    ットに分割するステップと、(b)前記コンテンツのグ
    ローバルな動きと独立して移動するオブジェクトを検出
    するステップと、(c)前記ショットのうちの初期フレ
    ームおよび後続するフレーム内の前記オブジェクトの位
    置を測定するステップと、(d)前記オブジェクトのサ
    イズを測定するステップと、(e)前記コンテンツのう
    ちの色およびテクスチャのうちの少なくとも1つを測定
    するステップと、(f)色測度およびテクスチャ測度の
    うちの前記少なくとも1つ、前記位置測度および前記サ
    イズ測度のうちの少なくとも1つから前記オブジェクト
    を分類するステップと、(g)前記初期フレームおよび
    前記後続するフレームにおける前記オブジェクトの前記
    分類および前記オブジェクトの前記位置のうちの少なく
    とも1つを特徴付けることにより、前記ショットの前記
    コンテンツを要約するステップと、(h)前記コンテン
    ツの前記要約からイベントを推測するステップと、を有
    することを特徴とする動画内のイベントを検出する方
    法。
  14. 【請求項14】 第1フレームの前記コンテンツと第2
    フレームの前記コンテンツとを比較することにより、前
    記オブジェクトを検出し、前記第1フレームと前記第2
    フレームとの間の前記コンテンツのグローバルな動きに
    対して前記コンテンツを調節することを特徴とする請求
    項13記載の方法。
  15. 【請求項15】 前記動画の第1フレームの前記コンテ
    ンツを表示する第1ヒストグラムと第2フレームの前記
    コンテンツを表示する第2ヒストグラムとを比較するこ
    とにより、前記ショットの境界を検出することを特徴と
    する請求項13記載の方法。
JP11285767A 1998-10-09 1999-10-06 動画内のイベントを検出する方法 Pending JP2000123184A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US10364398P 1998-10-09 1998-10-09
US60/103643 1999-07-01
US09/346,550 US6721454B1 (en) 1998-10-09 1999-07-01 Method for automatic extraction of semantically significant events from video
US09/346550 1999-07-01

Publications (1)

Publication Number Publication Date
JP2000123184A true JP2000123184A (ja) 2000-04-28

Family

ID=32044840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11285767A Pending JP2000123184A (ja) 1998-10-09 1999-10-06 動画内のイベントを検出する方法

Country Status (2)

Country Link
US (1) US6721454B1 (ja)
JP (1) JP2000123184A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007310568A (ja) * 2006-05-17 2007-11-29 Hitachi Ltd 映像内の移動体検出方法、映像システムの異常発生原因分析支援方法及び支援システム
JP2008165636A (ja) * 2006-12-28 2008-07-17 Nippon Hoso Kyokai <Nhk> パラメータ情報作成装置及びパラメータ情報作成プログラム、並びに、イベント検出装置及びイベント検出プログラム
JP2008198038A (ja) * 2007-02-15 2008-08-28 Nippon Hoso Kyokai <Nhk> イベント判別装置及びイベント判別プログラム
JP2020130596A (ja) * 2019-02-19 2020-08-31 株式会社Cesデカルト 超音波診断装置、超音波診断プログラム及び超音波エコー画像の解析方法
US11645249B1 (en) * 2018-11-12 2023-05-09 Amazon Technologies, Inc. Automated detection of duplicate content in media items

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711278B1 (en) * 1998-09-10 2004-03-23 Microsoft Corporation Tracking semantic objects in vector image sequences
EP1143714A1 (en) * 1998-12-28 2001-10-10 Sony Corporation Method for editing video information and editing device
US7006569B1 (en) * 1999-02-05 2006-02-28 Samsung Electronics Co., Ltd. Digital video processing method and apparatus thereof
KR20010087552A (ko) * 2000-03-07 2001-09-21 구자홍 엠펙(mpeg)압축 비디오 환경에서 매크로 블록의시공간상의 분포를 이용한 디졸브/페이드 검출 방법
KR100380229B1 (ko) * 2000-07-19 2003-04-16 엘지전자 주식회사 엠펙(MPEG) 압축 비디오 환경에서 매크로 블록의 시공간상의 분포를 이용한 와이프(Wipe) 및 특수 편집 효과 검출 방법
US8564661B2 (en) 2000-10-24 2013-10-22 Objectvideo, Inc. Video analytic rule detection system and method
US20050146605A1 (en) * 2000-10-24 2005-07-07 Lipton Alan J. Video surveillance system employing video primitives
US8711217B2 (en) 2000-10-24 2014-04-29 Objectvideo, Inc. Video surveillance system employing video primitives
US20050162515A1 (en) * 2000-10-24 2005-07-28 Objectvideo, Inc. Video surveillance system
US9892606B2 (en) * 2001-11-15 2018-02-13 Avigilon Fortress Corporation Video surveillance system employing video primitives
US7868912B2 (en) * 2000-10-24 2011-01-11 Objectvideo, Inc. Video surveillance system employing video primitives
US6678413B1 (en) * 2000-11-24 2004-01-13 Yiqing Liang System and method for object identification and behavior characterization using video analysis
WO2002052565A1 (en) * 2000-12-22 2002-07-04 Muvee Technologies Pte Ltd System and method for media production
US7296231B2 (en) * 2001-08-09 2007-11-13 Eastman Kodak Company Video structuring by probabilistic merging of video segments
US7280985B2 (en) * 2001-12-06 2007-10-09 New York University Logic arrangement, data structure, system and method for multilinear representation of multimodal data ensembles for synthesis, recognition and compression
US7072512B2 (en) * 2002-07-23 2006-07-04 Microsoft Corporation Segmentation of digital video and images into continuous tone and palettized regions
EP1537498A2 (en) * 2002-08-26 2005-06-08 Koninklijke Philips Electronics N.V. Unit for and method of detection a content property in a sequence of video images
US7116716B2 (en) 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
US20050078873A1 (en) * 2003-01-31 2005-04-14 Cetin Ahmet Enis Movement detection and estimation in wavelet compressed video
US7062079B2 (en) * 2003-02-14 2006-06-13 Ikonisys, Inc. Method and system for image segmentation
US7260261B2 (en) * 2003-02-20 2007-08-21 Microsoft Corporation Systems and methods for enhanced image adaptation
US7379925B2 (en) * 2003-07-25 2008-05-27 New York University Logic arrangement, data structure, system and method for multilinear representation of multimodal data ensembles for synthesis, rotation and compression
US20050091279A1 (en) * 2003-09-29 2005-04-28 Rising Hawley K.Iii Use of transform technology in construction of semantic descriptions
WO2005036461A1 (en) * 2003-10-13 2005-04-21 Koninklijke Philips Electronics N.V. A method for measuring dimensions by means of a digital camera
US7312819B2 (en) * 2003-11-24 2007-12-25 Microsoft Corporation Robust camera motion analysis for home video
US7693299B2 (en) * 2004-01-13 2010-04-06 New York University Method, system, storage medium, and data structure for image recognition using multilinear independent component analysis
US8594370B2 (en) * 2004-07-26 2013-11-26 Automotive Systems Laboratory, Inc. Vulnerable road user protection system
US9053754B2 (en) 2004-07-28 2015-06-09 Microsoft Technology Licensing, Llc Thumbnail generation and presentation for recorded TV programs
US7639840B2 (en) * 2004-07-28 2009-12-29 Sarnoff Corporation Method and apparatus for improved video surveillance through classification of detected objects
WO2006132650A2 (en) * 2004-07-28 2006-12-14 Sarnoff Corporation Method and apparatus for improved video surveillance through classification of detected objects
US7986372B2 (en) * 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
US7606425B2 (en) * 2004-09-09 2009-10-20 Honeywell International Inc. Unsupervised learning of events in a video sequence
US7801328B2 (en) * 2005-03-31 2010-09-21 Honeywell International Inc. Methods for defining, detecting, analyzing, indexing and retrieving events using video image processing
US20060238616A1 (en) * 2005-03-31 2006-10-26 Honeywell International Inc. Video image processing appliance manager
US7760908B2 (en) * 2005-03-31 2010-07-20 Honeywell International Inc. Event packaged video sequence
US20060233461A1 (en) * 2005-04-19 2006-10-19 Honeywell International Inc. Systems and methods for transforming 2d image domain data into a 3d dense range map
ITRM20050192A1 (it) * 2005-04-20 2006-10-21 Consiglio Nazionale Ricerche Sistema per la rilevazione e la classificazione di eventi durante azioni in movimento.
US8086046B2 (en) * 2005-06-27 2011-12-27 Pioneer Corporation Image analysis device and image analysis method
US7551234B2 (en) * 2005-07-28 2009-06-23 Seiko Epson Corporation Method and apparatus for estimating shot boundaries in a digital video sequence
US20070071404A1 (en) * 2005-09-29 2007-03-29 Honeywell International Inc. Controlled video event presentation
US20070112811A1 (en) * 2005-10-20 2007-05-17 Microsoft Corporation Architecture for scalable video coding applications
US7773813B2 (en) * 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US8180826B2 (en) * 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US8196032B2 (en) * 2005-11-01 2012-06-05 Microsoft Corporation Template-based multimedia authoring and sharing
US7558404B2 (en) * 2005-11-28 2009-07-07 Honeywell International Inc. Detection of abnormal crowd behavior
US7599918B2 (en) 2005-12-29 2009-10-06 Microsoft Corporation Dynamic search with implicit user intention mining
US7881537B2 (en) 2006-01-31 2011-02-01 Honeywell International Inc. Automated activity detection using supervised learning
US7889794B2 (en) * 2006-02-03 2011-02-15 Eastman Kodak Company Extracting key frame candidates from video clip
US8031775B2 (en) * 2006-02-03 2011-10-04 Eastman Kodak Company Analyzing camera captured video for key frames
US7436411B2 (en) * 2006-03-29 2008-10-14 Intel Corporation Apparatus and method for rendering a video image as a texture using multiple levels of resolution of the video image
US8392183B2 (en) 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
US7869658B2 (en) * 2006-10-06 2011-01-11 Eastman Kodak Company Representative image selection based on hierarchical clustering
US8117210B2 (en) 2006-10-06 2012-02-14 Eastman Kodak Company Sampling image records from a collection based on a change metric
EP2119235A4 (en) * 2007-02-02 2011-12-21 Honeywell Int Inc SYSTEMS AND METHODS FOR MANAGING LIVE VIDEO DATA
US8019155B2 (en) * 2007-03-26 2011-09-13 Eastman Kodak Company Digital object information via category-based histograms
US8442969B2 (en) * 2007-08-14 2013-05-14 John Nicholas Gross Location based news and search engine
US20100097471A1 (en) * 2008-10-17 2010-04-22 Honeywell International Inc. Automated way to effectively handle an alarm event in the security applications
WO2010099575A1 (en) 2009-03-04 2010-09-10 Honeywell International Inc. Systems and methods for managing video data
US8605209B2 (en) 2009-11-24 2013-12-10 Gregory Towle Becker Hurricane damage recording camera system
US9400842B2 (en) 2009-12-28 2016-07-26 Thomson Licensing Method for selection of a document shot using graphic paths and receiver implementing the method
WO2011120221A1 (en) * 2010-03-31 2011-10-06 Intel Corporation Power efficient motion estimation techniques for video encoding
US9628673B2 (en) 2010-04-28 2017-04-18 Microsoft Technology Licensing, Llc Near-lossless video summarization
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
KR101445990B1 (ko) * 2010-08-27 2014-09-29 인텔 코포레이션 디지털 온-스크린 그래픽을 증대시키는 기법
JP5716464B2 (ja) * 2011-03-07 2015-05-13 富士通株式会社 画像処理プログラムおよび画像処理方法並びに画像処理装置
US10083453B2 (en) * 2011-03-17 2018-09-25 Triangle Strategy Group, LLC Methods, systems, and computer readable media for tracking consumer interactions with products using modular sensor units
TWI455062B (zh) * 2011-04-26 2014-10-01 Univ Nat Cheng Kung 三維視訊內容產生方法
US9467486B2 (en) 2013-03-15 2016-10-11 Samsung Electronics Co., Ltd. Capturing and analyzing user activity during a multi-user video chat session
US10104394B2 (en) 2014-01-31 2018-10-16 Here Global B.V. Detection of motion activity saliency in a video sequence
EP3192273A4 (en) * 2014-09-08 2018-05-23 Google LLC Selecting and presenting representative frames for video previews
CN105989367B (zh) * 2015-02-04 2019-06-28 阿里巴巴集团控股有限公司 目标获取方法及设备
US9858340B1 (en) 2016-04-11 2018-01-02 Digital Reasoning Systems, Inc. Systems and methods for queryable graph representations of videos
US11450148B2 (en) 2017-07-06 2022-09-20 Wisconsin Alumni Research Foundation Movement monitoring system
US10482613B2 (en) 2017-07-06 2019-11-19 Wisconsin Alumni Research Foundation Movement monitoring system
US10810414B2 (en) 2017-07-06 2020-10-20 Wisconsin Alumni Research Foundation Movement monitoring system
US11580745B2 (en) * 2017-08-17 2023-02-14 National University Of Singapore Video visual relation detection methods and systems
US11070706B2 (en) 2018-11-15 2021-07-20 Sony Corporation Notifications for deviations in depiction of different objects in filmed shots of video content
US11587361B2 (en) 2019-11-08 2023-02-21 Wisconsin Alumni Research Foundation Movement monitoring system
CN116347045B (zh) * 2023-05-31 2023-08-15 深圳市天龙世纪科技发展有限公司 基于通信及卫星技术的监控方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664227A (en) * 1994-10-14 1997-09-02 Carnegie Mellon University System and method for skimming digital audio/video data
US5821945A (en) * 1995-02-03 1998-10-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
US5969755A (en) * 1996-02-05 1999-10-19 Texas Instruments Incorporated Motion based event detection system and method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007310568A (ja) * 2006-05-17 2007-11-29 Hitachi Ltd 映像内の移動体検出方法、映像システムの異常発生原因分析支援方法及び支援システム
JP4703480B2 (ja) * 2006-05-17 2011-06-15 株式会社日立製作所 映像内の移動体検出方法、映像システムの異常発生原因分析支援方法及び支援システム
JP2008165636A (ja) * 2006-12-28 2008-07-17 Nippon Hoso Kyokai <Nhk> パラメータ情報作成装置及びパラメータ情報作成プログラム、並びに、イベント検出装置及びイベント検出プログラム
JP4764332B2 (ja) * 2006-12-28 2011-08-31 日本放送協会 パラメータ情報作成装置及びパラメータ情報作成プログラム、並びに、イベント検出装置及びイベント検出プログラム
JP2008198038A (ja) * 2007-02-15 2008-08-28 Nippon Hoso Kyokai <Nhk> イベント判別装置及びイベント判別プログラム
JP4764362B2 (ja) * 2007-02-15 2011-08-31 日本放送協会 イベント判別装置及びイベント判別プログラム
US11645249B1 (en) * 2018-11-12 2023-05-09 Amazon Technologies, Inc. Automated detection of duplicate content in media items
JP2020130596A (ja) * 2019-02-19 2020-08-31 株式会社Cesデカルト 超音波診断装置、超音波診断プログラム及び超音波エコー画像の解析方法
JP7252512B2 (ja) 2019-02-19 2023-04-05 株式会社Cesデカルト 超音波診断装置、超音波診断プログラム及び超音波エコー画像の解析方法

Also Published As

Publication number Publication date
US6721454B1 (en) 2004-04-13

Similar Documents

Publication Publication Date Title
JP2000123184A (ja) 動画内のイベントを検出する方法
Zhang et al. Triplet-based semantic relation learning for aerial remote sensing image change detection
Boult et al. Into the woods: Visual surveillance of noncooperative and camouflaged targets in complex outdoor settings
Feng et al. Attention-driven salient edge (s) and region (s) extraction with application to CBIR
Betancourt et al. A sequential classifier for hand detection in the framework of egocentric vision
CN104866616B (zh) 监控视频目标搜索方法
US9373040B2 (en) Image matching using motion manifolds
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
Wei et al. Face detection for image annotation
US8463050B2 (en) Method for measuring the dissimilarity between a first and a second images and a first and second video sequences
Ayedi et al. A fast multi-scale covariance descriptor for object re-identification
CN109271932A (zh) 基于颜色匹配的行人再识别方法
WO2021237967A1 (zh) 一种目标检索方法及装置
Lecca et al. Comprehensive evaluation of image enhancement for unsupervised image description and matching
CN111444816A (zh) 一种基于Faster RCNN的多尺度密集行人检测方法
Li et al. An efficient spatiotemporal attention model and its application to shot matching
Yang et al. Increaco: incrementally learned automatic check-out with photorealistic exemplar augmentation
Duan et al. Mean shift based video segment representation and applications to replay detection
Metternich et al. Track based relevance feedback for tracing persons in surveillance videos
Jiang et al. Flexible sliding windows with adaptive pixel strides
Keren Recognizing image “style” and activities in video using local features and naive bayes
Khotanzad et al. Color image retrieval using multispectral random field texture model and color content features
Maliatski et al. Hardware-driven adaptive k-means clustering for real-time video imaging
Huang et al. A method for object-based color image retrieval
Chen et al. An improved local descriptor and threshold learning for unsupervised dynamic texture segmentation

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060907