JP2003529136A - オブジェクト追跡によるプログラム分類方法 - Google Patents

オブジェクト追跡によるプログラム分類方法

Info

Publication number
JP2003529136A
JP2003529136A JP2001542046A JP2001542046A JP2003529136A JP 2003529136 A JP2003529136 A JP 2003529136A JP 2001542046 A JP2001542046 A JP 2001542046A JP 2001542046 A JP2001542046 A JP 2001542046A JP 2003529136 A JP2003529136 A JP 2003529136A
Authority
JP
Japan
Prior art keywords
sequence
trajectory
image
face
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001542046A
Other languages
English (en)
Inventor
ディミトロワ,ネヴェンカ
アグニホトリ,ラリータ
ウェイ,ガン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2003529136A publication Critical patent/JP2003529136A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 フレーム内のオブジェクト画像の存在を検出し、ビデオのセグメントの多数のフレームを通る各オブジェクト画像のパス若しくは軌跡を判定するコンテンツベース分類システムが提供される。好ましい一実施例において、顔オブジェクト及びテキストオブジェクトが識別用オブジェクト軌跡を確認するため使用される。顔、テキスト及びその他の軌跡情報の組み合わせは、本発明の好ましい一実施例において、ビデオシーケンスの各セグメントを分類するため使用される。一実施例において、階層的情報構造が分類プロセスを強化するため利用される。上位のビデオ、情報層では、分類プロセス用に使用されるパラメータは、たとえば、セグメント内のタイプ別のオブジェクト軌跡の数、オブジェクトタイプ軌跡別の平均区間などを含む。最下位のモデル、情報層では、パラメータは、たとえば、各オブジェクト軌跡に対応するオブジェクト画像のタイプ、カラー及びサイズを含む。他の一実施例において、隠れマルコフモデル(HMM)技術が、セグメントに収容されたオブジェクト軌跡の観察された特徴量に基づいて、各セグメントを、所定の分類集合の中の一つに分類するため使用される。

Description

【発明の詳細な説明】
【0001】 1.発明の分野 本発明は、通信及び情報処理の分野に係り、特に、ビデオ分類及び検索の分野
に関する。
【0002】 2.関連技術の説明 顧客に提供される情報及び娯楽の選択肢は増加し続けている。顧客は、放送、
ケーブル、及び、衛星通信システムを介して、数百種類のテレビジョンチャネル
を入手することが可能である。供給される視聴物の選択肢が増加しているので、
顧客は、特定の関心のある番組を見つけることが非常に困難になり始めている。
選択作業を容易化するための多数の技術が提案され、その中の殆どの技術は、各
番組のコンテンツに基づく利用可能な番組の分類に基礎を置く。
【0003】 番組素材の分類は、手作業で作成されたテレビジョンガイド、或いは、コンテ
ンツ素材と共に送信された補助信号のようなその他の手段を用いて行なわれる。
しかし、このような分類システムは、典型的に、放送システムに限定され、テレ
ビジョンガイド又はその他のシグナリングのような補助情報を利用できることが
要求される。また、このような分類システムは、コマーシャルメッセージ、ニュ
ース定時放送の時刻若しくは継続時間などの詳細情報を含まない。視聴者は、た
とえば、番組のコマーシャルによる中断中に、チャンネルサーフ(他のチャンネ
ルの番組を見て回ること)を行い、コマーシャルが終了して番組が再開したとき
に、自動的に元の番組に戻りたいと思う場合がある。このような機能は、たとえ
ば、ピクチャー・イン・ピクチャー型受像機のような多重チャンネル受像機によ
って提供され得るが、コマーシャルによる中断毎にコマーシャルの開始及び終了
を識別する必要がある。また、視聴者は、ニュース若しくは気象の定時放送が行
なわれるときを除いて、テレビジョンが何も表示せず、音を出さない状態である
ことを望む場合もある。従来の分類システムは、番組のコマ(セグメント)を選
択的に視聴するために十分な細部を提供していない。
【0004】 放送システムは、番組放送時刻と、視聴者の利用できる視聴時刻とを一致させ
る必要がある。多重チャンネルビデオレコーダなどのビデオレコーダは、番組の
放送時刻以外の時刻に番組を簡単に視聴するために屡々使用される。ビデオレコ
ーダは、視聴者が録画された番組の特定の部分を視聴するため選択できるように
する。たとえば、コマーシャルのセグメントは、娯楽番組若しくはニュース番組
を視聴するときには飛ばされ、或いは、選択された時刻に当日のニュースを一括
して観るためニュース以外の全ての素材が飛ばされる。従来の分類システムは、
屡々、記録されたソースからの番組検索に適さない。従来のテレビジョンガイド
は、たとえば、特定の日時の特定の番組を見つけるための情報を提供するが、記
録されたディスク若しくはテープ上で特定の番組を見つけるための情報は、直接
的には得られない。上述の通り、従来のガイド及び分類システムは、視聴するた
めの番組の選択セグメントを見つけることができない。
【0005】 3.発明の概要 本発明の目的は、ビデオ放送番組若しくは記録番組のセグメント又はクリップ
内のコンテンツ素材を容易に自動分類する方法及び装置を提供することである。
放送番組内の各セグメントを分類することにより、特定のタイプのコンテンツ素
材を選択的に視聴し、若しくは、視聴しないことが容易になり、番組内の多数の
セグメントの分類に基づいて番組を容易に分類できるようになる。
【0006】 本発明の目的は、フレーム内のオブジェクトの存在を検出し、ビデオのセグメ
ント(ビデオセグメント)の多数のフレームを通る各オブジェクト画像のパス若
しくは軌跡を判定するコンテンツベース分類システムによって達成される。好ま
しい一実施例において、システムは、フレーム内で顔画像及びテキスト画像の存
在を検出し、ビデオセグメントの多数のフレームを通る各画像のパス、すなわち
、軌跡を決定する。顔軌跡情報とテキスト軌跡情報の組み合わせは、本発明の好
ましい一実施例において、ビデオシーケンスの各セグメントを分類するため使用
される。分類プロセスを強化するため、階層的な情報構造が利用される。上位の
ビデオ情報層で、分類プロセス用に使用されるパラメータは、たとえば、セグメ
ント内のオブジェクトタイプ別のオブジェクト軌跡の数、オブジェクトタイプ別
の軌跡の平均継続時間などを含む。最下位のモデル情報層では、パラメータは、
たとえば、各オブジェクト軌跡に対応するオブジェクトのタイプ、カラー及びサ
イズを含む。他の一実施例において、隠れマルコフモデル(HMM)技術が、セ
グメントに収容されたオブジェクト軌跡の観察された特徴量に基づいて、各セグ
メントを所定の分類集合の中の一つに分類するため使用される。
【0007】 以下では、一例として添付図面を参照して、本発明を詳細に説明する。全ての
図面を通じて、同じ参照番号は、類似若しくは対応した特徴又は機能を示す。
【0008】 4.実施例の説明 図1は、オブジェクト軌跡に基づいて画像フレームのシーケンスを分類する画
像プロセッサ100の一例のブロック図である。画像フレームのシーケンスを通
じて追跡されるオブジェクトは、画像フレームのシーケンスが属するクラスを容
易に識別できるオブジェクトであれば、いかなるタイプのオブジェクトでも構わ
ない。たとえば、フットボール試合のセグメントと料理ショーのセグメントを区
別するためには、たとえば、人物追跡を使用して画像の各シーケンス内で移動し
ている人物を識別し追跡する。顔オブジェクト及びテキストオブジェクトの軌跡
は、普通のテレビジョン番組のクラスを区別するために特に好適であることが判
明した。また、後述するように、顔オブジェクト及びテキストオブジェクトは、
画像フレームのシーケンスを分類可能なセグメントに分割する点に関して著しく
相異した特性を有することがわかった。顔軌跡及びテキスト軌跡は、番組分類の
ため特に好適であり、各個に異なる処理を必要とするため、顔軌跡及びテキスト
軌跡は、異なるオブジェクト軌跡のための典型的な例として使用する。当業者に
は明白であるように、ここで示される原理は、人物像オブジェクト、動物像オブ
ジェクト、車両像オブジェクト、手(身振り)オブジェクトなどの他のオブジェ
クトにも適用可能である。
【0009】 典型的な画像プロセッサ100は、ビデオ区分器110と、顔追跡システム3
00と、テキスト追跡システム400と、別オブジェクトの追跡システム500
と、分類器200とを含む。説明及び理解を簡単にするため、顔追跡及びテキス
ト追跡は、他のオブジェクト追跡の典型的な例として使用されているので、別オ
ブジェクトの追跡システム500並びに対応した別の軌跡501についてはこれ
以上の説明を加えない。別オブジェクトの追跡システム及び別の軌跡の機能並び
に実施例は、以下の顔追跡システム300及びテキスト追跡システム400と、
対応した顔軌跡301及びテキスト軌跡401の詳細な説明から当業者に明白で
ある。
【0010】 典型的な画像プロセッサ100内のビデオ区分器110は、処理プロセス及び
分類プロセスを容易に行なうため、ビデオストリーム10の明確なシーケンスを
識別する。ビデオ区分器110は、ストリーム10中で物理的なセグメント、若
しくは、ショット(撮影)を識別するため、カット検出のような一つ以上の一般
的に利用可能な技術を使用する。メロドラマ番組の場合、たとえば、二人の人物
間の対話は、屡々、交互の一人ずつのショットのシーケンスとして表現され、2
回のコマーシャルによる中断の間のこれらのショットのシーケンスなどは、ビデ
オストリーム10の論理的なセグメントを形成する。物理的な区分は、ビデオス
トリームの処理を容易化する。なぜならば、論理的なセグメントは、一般的に、
物理的なセグメントの境界で開始、終了するからである。ビデオストリーム10
のフレームの処理の種々の段階で、セグメントの境界は変化し、セグメントは、
単一のセグメントを形成するよう併合され、或いは、個別のセグメントを形成す
るように分割される。たとえば、交互に現れる人物のショットのシーケンスは、
対話セグメントとして識別されるまで、個別のセグメントとして扱われ、同様に
、共通のテキストキャプションを含む個別のショットは、キャプションが各セグ
メントに共通であることが認識された場合に限り、共通セグメントを形成する。
セグメント、すなわち、画像フレームのシーケンスは、連続的な画像フレームの
シーケンスでなくても構わないことに注意する必要がある。たとえば、処理を容
易化し、若しくは、その他の効率のため、セグメント若しくは番組セグメントを
形成する画像フレームのシーケンスは、コマーシャルであるとして分類されたフ
レームを除外するので、非コマーシャルフレームが処理され、単一の論理的セグ
メントとして分類される。
【0011】 顔追跡システム300は、ビデオストリーム10中の各セグメント内の顔を識
別し、セグメントの画像フレーム毎にフレーム間でその顔を追跡する。顔追跡シ
ステム300は、検出された顔ごとに顔軌跡301を与える。顔軌跡301は、
各フレーム内の顔の座標と、初期フレーム内の顔の座標と、セグメントを通る顔
のパスを記述する動きベクトルのような軌跡情報と、及び/又は、顔のパスの特
徴量、「中距離ショット、直線的な移動」、或いは、「クローズアップショット
、中心から外れ、移動無し」などのような非常に抽象的な情報とを含む。顔がセ
グメント内に出現する時間の長さ、若しくは、フレーム数のような他の軌跡情報
は、カラー、サイズなどのような顔毎に関連した特徴量と共に各顔軌跡301の
パラメータに収容される。
【0012】 分類器200は、ビデオストリーム10のセグメント毎の類別201又はセグ
メントの組202を決めるため、ビデオストリーム10の多数のセグメントの顔
軌跡301を使用する。たとえば、ニュースのセグメントのアンカーパーソンは
、屡々、僅かに動きのある中距離ショットで表され、これに対し、状況喜劇の場
合、典型的に中距離ショットを含むが、通常は、アンカーパーソンのショットよ
りも著しく大きく移動する。同様に、気象ニュースのキャスターは、屡々、長距
離ショットで映され、端から端へ少しずつ移動し、コマーシャルのセグメントは
、端から端へ少しずつ移動する長距離ショットを含むが、長距離ショットを含む
コマーシャルのセグメントの長さ、すなわち、持続時間は、典型的に、気象予報
よりも遥かに短い。同様に、セグメントの集団は、分類用の単一のセグメントを
形成するためグループ化される。たとえば、僅かな動きのある中距離ショットと
、その後に続く多少ランダムな顔軌跡を伴う非常に長距離のショットと、その後
に続く多数の顔軌跡を含む中距離ショットとからなる三つ組のセグメントは、ニ
ュース記事を紹介するアンカーパーソンと、その後に続くニュース事件の場面と
、その後に続く、現場インタビューを行なうリポーターとであると判定される。
このような判定を行なった後、分類器200は、これらの三つのセグメントを、
ニュース類別を有する単一のセグメント201として分類する。続いて、コマー
シャルのセグメントによって分離された多数のこのようなニュースのセグメント
を判定した後、分類器200は、これらのニュースのセグメントの組を、ニュー
ス類別を有する番組202として分類する。
【0013】 クラス分類プロセスのためのクラスと、クラス間の関係の具体的な選定は、自
由である。たとえば、気象類別は、気象ニュースを他のニュースから区別するた
めに一部のシステムで定義され、同様に、スポーツニュース類別、市場ニュース
類別、政治ニュース類別などを定義してもよい。これらの類別は、独立した類別
でもよく、或いは、階層型分類システム内のニュース類別の部分集合でも構わな
い。同様に、マトリクス型分類システムが利用され、スポーツニュース類別は、
類別のニュース系統とスポーツ系統の両方の類別に関連付けられる。同様に、一
部の類別は一時的な類別であり、或いは、分類器200に内在する類別である。
たとえば、番組への導入部は、屡々、他のセグメントとは区別され、初期導入類
別が充当される。後続のセグメントが分類されるとき、後続のセグメントは、暫
定的な導入類別を有するセグメントに分類される。分類されたセグメントは、同
じ類別又は異なる類別のサブセグメントを含むことに注意する必要がある。30
分間の連続フレームのブロックは、ニュース番組若しくはニュースのセグメント
として分類され、ニュースセグメント、スポーツニュースセグメント、コマーシ
ャルセグメント、及び、その他のセグメントを含み、同様に、スポーツニュース
セグメントは、野球ニュース、フットボールニュースなどからなる不連続的なコ
マーシャルではないフレームのシーケンスを含む。
【0014】 好ましい一実施例において、分類構造は、セグメント、及び、セグメントの組
の類別の決定が更に容易に行なえるように選択される。たとえば、一般的な30
分ニュースフォーマットは、国内ニュースと、スポーツと、気候ニュースと、地
方ニュースとを順番に含み、それらの間にコマーシャルのセグメントが挿入され
る。分類器200が30分間のビデオセグメント内でこの一般的なフォーマット
を検出したとき、非常に曖昧であるため分類できなかったこの期間内のセグメン
トは、ニュース類別若しくはコマーシャル類別へ向かう強いバイアスと、メロド
ラマ類別若しくは状況喜劇類別のようなある種の他の類別に対抗するバイアスと
を用いて再評価される。
【0015】 多様な従来の技術、及び、後述の新規技術は、分類プロセスを実行するため利
用される。エキスパートシステムや知識ベースシステムなどは、顔軌跡と関連し
たパラメータに基づいてビデオのセグメントを分類する多変量解析を行なうため
、特に好適である。より解析的なレベルでは、多変量相関解析のような統計的技
術、並びに、パターンマッチングのようなグラフィック技術がこの分類を実行す
るため使用され得る。たとえば、画像フレームのシーケンス内の顔の場所の時間
的な描画は、特定の分類に共通した区別可能なパターンを例示する。上述の通り
、ある距離で左から右へ徐々に移動する顔の長いシーケンスは、気象レポートと
高い相関があり、多少ランダムな動きを含む短いシーケンスは、コマーシャルの
セグメントと高い相関がある。これらのシーケンス毎のグラフィック表現は、容
易に区別可能なパターンを与える。分類器200におけるこれらの解析技術及び
その他の従来の解析技術と、分類技術の実施例は、本明細書の開示に基づいて当
業者には明白である。
【0016】 図1には、テキスト追跡システム400も示されている。顔追跡システム30
0と同様に、テキスト追跡システム400は、ビデオストリーム10のセグメン
トにテキスト素材が存在するかどうかを判定し、フレームのシーケンスを通るテ
キスト要素別のパスに対応したテキスト軌跡を与える。顔追跡システム300と
の相違点として、テキスト素材は、屡々、多数のカット及びショットに亘って拡
がるので、テキスト追跡システム400は区分器110によって与えられた区分
キューに対する感度が低い。たとえば、番組の最後のクレジット、及び、番組の
冒頭の登場人物紹介は、一般的にフォアグラウンドに提示され、一方、短いクリ
ップの系列はバックグラウンドに提示される。テキストのスクローリングは、ク
レジット類別であることを強く示唆すると共に、テキストのスクローリング中に
出現した他のセグメントの類別を強力に抑える。顔追跡システム300と同様に
、テキスト追跡システム400は、検出され、ビデオストリーム10のセグメン
トを通じて追跡されたテキスト要素毎に対応したテキスト軌跡401を与える。
【0017】 分類器200は、顔軌跡301若しくはテキスト軌跡401の何れか一方を使
用し、好ましくは、両方(並びに、その他の軌跡501)の組み合わせを使用し
、ビデオストリーム10のセグメントを分類する。テキストがスクローリングす
る際に生じるように、異なるテキスト要素を含むセグメントは重なり合い、顔要
素と関連したセグメントに対応する場合も対応しない場合もある。分類器200
は、上述のセグメントの再編成及び分類を行なうため多数の技術を適用する。エ
キスパートシステムや知識ベースシステムなどを含む発見的方法は、特に、この
ような区分再編成技術に好適である。
【0018】 上述の通り、セグメントの分類、及び、セグメントの定義/境界は、望ましく
は、個別のオブジェクト軌跡と、セグメント内の軌跡間の関係又はセグメント間
の関係とに基礎をおく。本発明の好ましい一実施例において、分類器200は、
階層型多変量解析技術を利用する。分類器は、オブジェクト軌跡301、401
、501を処理し、ビデオレベルと軌跡レベルとモデルレベルを含む3レベルの
階層構造を形成する。ビデオレベルにおいて、各セグメント内の顔タイプオブジ
ェクト軌跡の数、テキストタイプオブジェクトの数、及び、その他のタイプのオ
ブジェクト軌跡の数、単位時間当たりのタイプ別(顔、テキストなど)のオブジ
ェクト軌跡の数、オブジェクトタイプ別の軌跡の平均継続時間、併合セグメント
を形成する各セグメントの平均長さなどのようなパラメータが、分類を容易化す
るため使用される。軌跡レベルでは、オブジェクト軌跡毎の継続時間、及び、オ
ブジェクト軌跡毎の特徴量(静止、直線的な動き、ランダムな動き、ズームイン
/ズームアウト、横並び、スクローリングなど)のようなパラメータが分類を容
易化するため使用される。モデルレベルでは、オブジェクト軌跡毎に対応した各
オブジェクト要素と関連したタイプ、カラー、サイズ及び場所のようなパラメー
タが、分類を容易化するため使用される。特定のセグメントシーケンスの個数の
ようなパラメータを有する番組レベルのようなその他の階層レベルは、分類を容
易化するため設けられる。
【0019】 好ましい一実施例において、多次元特徴空間が定義され、定義された類別を分
離可能にさせる特徴が選択される。単位時間当たりの各オブジェクトタイプに対
するオブジェクト軌跡の数と、それらの平均持続時間は、ビデオストリームのセ
グメント中の顔又はテキストのような特定のオブジェクトの密度を表現するので
、かなり有効な分離用特徴であることがわかった。さらに、長い持続時間の軌跡
は、通常、ビデオ内の非常に重要なコンテンツ情報を搬送することがわかった。
そこで、好ましい一実施例は、閾値を超える持続時間をもつオブジェクトタイプ
別の軌跡の数、及び、対応した平均持続時間を有効な分離用特徴として利用する
。さらに、特定のオブジェクトタイプの特定の特徴は、分類プロセスをより一層
容易化するために使用される。クローズアップショットは分類のために特に有効
であることがわかったので、たとえば、肩よりも近い画像を与えるショットを含
む顔軌跡の数が好ましい一実施例において使用される。
【0020】 従来の最近傍パラメトリック分類方法は、番組分類の場合に有効であり、かつ
、効率のよいことが判明した。経験、発見及びその他の要因に基づいて、各特徴
と対応したパラメータ空間の中心が判定される。所与のセグメントは、定義され
た特徴を使用して表現され、各分類中心へのベクトル距離が判定され、セグメン
トは、最も近い中心を有する類別として分類される。好ましい一実施例では、発
見的手法が、たとえば、周囲の状況又はその他の要因に基づいてこのパラメトリ
ック分類方法によって決定された類別が合理的であることを確認するため使用さ
れる。
【0021】 他の一実施例では、隠れマルコフモデル(HMM)が分類プロセスを容易化す
るため使用される。隠れマルコフモデルの手法は、軌跡に基づく分類に対し特に
好適である。なぜならば、軌跡は、時間的なイベントを表現し、隠れマルコフモ
デルは、時間的に変化するモデルを本来的に組み込むからである。本発明の好ま
しい一実施例において、特徴量の組に対応したシンボルの組、又は、ラベルがセ
グメント内の各フレームを表現するため定義される。顔オブジェクト及びテキス
トオブジェクトを利用する好ましい一実施例において、シンボルには、 1.アンカーパーソン、テキスト付き 2.一人以上の人物、長いショット、テキスト付き 3.ワイドクローズアップ(肩及び肩よりも上)、テキストなし 4.クローズアップ(胸及び胸よりも上)、テキストなし 5.3人以上の人物、テキストなし 6.2人の人物、テキストなし 7.1人以上の人物、中間的な近さ(腰よりも上) 8.顔を含まない、5行以上のテキスト 9.顔を含まない、2乃至4行のテキスト 10.顔を含まない、1行のテキスト 11.黒又は白の画面、殆ど変動なし 12.ショットの初期フレーム 13.1人の人物、長いショット、テキストなし 14.顔を含まない、テキストなし 15.それ以外 が含まれる。
【0022】 図2は、隠れマルコフモデル(HMM)に基づいて画像フレームのシーケンス
を分類する分類器200’の一例のブロック図である。本例の分類器200’で
は、ニュースと、コマーシャルと、状況喜劇と、メロドラマの4種類の類別タイ
プが定義される。HMM220a−dは、類別毎に設けられる。一般的に知られ
た技術を使用して、各HMM220a−dは、既知の類別を有する画像フレーム
のサンプルシーケンスを与えることによって学習させる。各HMM220a−d
の内部は、状態間の遷移をモデル化する遷移確率分布マトリクスと、シンボルの
発生をモデル化するシンボル観測確率分布マトリクスを有する状態機械モデルで
ある。学習プロセスは、既知の類別を有するサンプルシーケンスに対応した観測
シーケンスを生成する確率が最大になるように、遷移確率分布マトリクス及びシ
ンボル観測確率分布マトリクスのパラメータと、状態機械の初期状態とを調節す
る。
【0023】 各HMM220a−220dを適切に学習させた後、新しいセグメント10’
は、新しいセグメント10’に対応した観測シンボルのシーケンスを各HMM2
20a−dに与えることにより分類される。シンボル発生器210は、たとえば
、上記のシンボルのリストを使用して、セグメント10’を形成するフレームの
シーケンスの各フレームに適したシンボルを発生する。画像が2個以上のシンボ
ルによって表現され得る場合、シンボルのリストは、順序付きリストとして取り
扱われ、最初のシンボルが特徴用観測シンボルとして選択される。たとえば、画
像が、テキストを含まない中程度の近さの一人の人物(上記リストのシンボル7
)と、テキストを含まないクローズアップショットの別の人物(シンボル4)と
を含む場合、その画像は、テキストを含まないクローズアップショット(シンボ
ル4)として表される。観測シンボルのシーケンスに応答して、各HMM220
a−dは、観察シンボルのシーケンスが指定された類別を有するビデオセグメン
トによって生成されたであろう尤度に関連した確率測度を与える。類別選択器2
50は、各HMM220a−dから通知された確率に基づいてセグメント類別2
01を判定する。一般的に、最大確率を有するHMMに対応した類別がセグメン
トに割り当てられるが、特に、HMM220a−dから通知された最大確率の間
の差が十分に相異しないとき、或いは、通知された最大確率が最小閾値レベルを
超えないとき、他の要因を利用しても構わない。
【0024】 本明細書の開示から当業者には明らかであるように、付加的及び/又は代替的
な観察シンボル集合と、付加的及び/又は代替的な類別タイプが、図2に示され
た構成例の範囲内で利用される。オブジェクトタイプに人物像が含まれる場合、
たとえば、互いに一致しない多数の人物像オブジェクトを表現するシンボルは、
ある種のスポーツのセグメントを、他のスポーツ若しくは他の類別タイプと区別
するために有効なシンボルとして作用するであろう。同様に、オブジェクト軌跡
に基づいてセグメント、及び、セグメントの組を分類する他の技術は、オブジェ
クト軌跡に基づいてビデオのセグメントを分類するために説明した階層パラメト
リック技術及び/又はHMM技術と共に、或いは、これらの技術の代わりに利用
される。
【0025】 MPEG−4及びMPEG−7のような従来の提案された符号化標準は、各フ
レーム内、又は、フレームのシーケンス内のオブジェクト、並びに、フレーム間
の対応した動きベクトルを明確に識別することができる。以下で説明する技術は
、典型的な顔オブジェクトタイプ及びテキストオブジェクトタイプを追跡するこ
のような明確なオブジェクト追跡技術に付加して、又は、このような技術と共に
利用することができる。その他のオブジェクトタイプを識別し追跡するため、こ
れらの技術、及び、その他の技術を適用することは、本明細書の開示に基づいて
当業者には明らかである。
【0026】 図3は、画像フレームのシーケンス内の顔軌跡を判定する顔追跡システム30
0の一例のブロック図である。図3に示された例示的な顔追跡システム300は
、顔検出器320と、顔モデラー350と、顔追跡器360とを含む。本発明の
好ましい一実施例において、顔追跡システム300は、顔追跡を容易に行なうた
め、区分器110によって与えられるビデオストリーム10のセグメントを使用
する。なぜならば、殆どの顔画像は、典型的に区分器110によって識別される
物理的なカット境界で開始し、終了するからである。本実施例の場合、区分器1
10は、顔検出器340にスタート信号を供給する。このスタート信号に応答し
て、顔検出器は、セグメントの初期フレーム11を走査し、初期フレーム11内
で一つ以上の顔を識別する。図3に示された実施例の場合、顔検出器320は、
皮膚色調検出器及び平滑化器330と、形状解析器340とを含む。皮膚色調検
出器及び平滑化器330は、皮膚色を含む初期画像フレーム11の部分を識別子
、個々の画素を平滑化し、皮膚領域を形状解析器340へ供給する。皮膚解析器
340は、各領域、又は、隣接した領域の合成が顔画像を形成するかどうかを判
定するため、識別された皮膚領域を処理する。
【0027】 図3に示されるように、顔検出プロセスは、抽出プロセス330と解析プロセ
ス340を繰り返し、典型的に時間のかかるプロセスである。後続画像フレーム
毎に顔を検出し、識別するために要する時間を最小限に抑えるため、顔モデラー
350及び顔追跡器360は、各顔軌跡を判定するため予測技術を使用するよう
構成される。顔検出器320が初期画像フレーム11内で顔を見つけ、識別した
後、顔モデラー350は、次の後続画像フレーム12における顔の場所を予測す
る。初期的には、他の情報が無いため、次の後続フレーム12内の顔の場所は、
初期フレーム11内の顔の場所と同じ場所であると予測される。顔探索器360
は、次の画像フレームの全体を探索して識別された顔321を見つけるのではな
く、予測位置351の近傍内だけを探索して識別された顔321を見つける。本
発明の好ましい一実施例において、顔追跡器360は、顔の存否を判定するため
、顔検出器320で使用されるプロセスよりも非常に簡単であり、かつ、そのた
め高速化された技術を利用する。予測顔位置の付近で、個別の画像要素(画素)
は、識別された顔321の特徴量からの偏差に基づいて「顔」又は「顔を含まな
い(顔以外)」のように分類される。顔画素の十分な分布が予測位置の付近で検
出された場合、顔画素の分布は識別された顔321であることが明らかにされ、
後続フレーム12におけるこの画家画素の分布の位置が判定される。ビデオ区分
器110は、カットの位置のような区分情報を生ずるので、予測位置351の近
傍で、識別された顔321とは異なる後続フレーム12内の顔を誤認識する尤度
は最小に抑えられる。
【0028】 識別された顔321が次の後続フレーム12に存在するとき、顔追跡器360
は、顔モデラー350の予測精度を高めるため、顔モデラー350へフィードバ
ックを与える。このフィードバック361は、フレーム12における識別された
顔の決定された位置、前の位置に関係した差パラメータなどである。本発明の好
ましい一実施例において、顔モデラーは、僅かな動き若しくは一時的な動きの影
響を最小限に抑えるため、カルマンフィルタのような適切なデータ平滑化技術を
適用する。顔モデラー350は、次の後続フレーム12における顔識別情報32
1の識別及び位置検出を容易に行なうため、顔追跡器360からのフィードバッ
ク361に基づいて、次の予測位置351を顔追跡器360へ供給し、プロセス
は継続する。
【0029】 図3に示された顔追跡器360は、顔検出器320の顔検出プロセスをリスタ
ート(再スタート)させるように構成される。このリスタートは、顔追跡器36
0が予測位置351の付近で顔の位置を見つけられなかったときに常に行なわれ
、或いは、画像内の新しい顔の出現と相関した他の要因に依存して行なわれる。
たとえば、MPEG及びビデオ情報のその他のデジタル符号化は、後続フレーム
が先行フレームとの差に基づいて符号化される差分符号化を使用する。後続フレ
ーム12が大規模なエンコーディングを含むとき、すなわち、有意な変化を示す
とき、顔追跡器360は、後続フレーム12内で全ての顔の位置を見つけるため
、顔追跡器のリスタートを始動する。このリスタート信号に応答して、顔検出器
は、後続フレーム12で見つけられなかった識別された顔を除去するため、或い
は、先行フレームでは検出、識別されなかった識別された顔を追加するため、現
在セグメントと関連した顔識別情報の組を更新する。
【0030】 後続フレーム12毎に識別された顔321を探索する領域を最小限に抑え、か
つ、後続フレーム12毎の識別作業の複雑さを最小限に抑えることにより、顔追
跡器360は、各後続フレーム12において識別された顔毎の位置を連続的かつ
効率的に判定できるようになる。その他の最適化技術を適用してもよい。たとえ
ば、予測位置351に関する探索領域は、予測位置351と関連した信頼係数に
基づいて動的に調節される。たとえば、識別された顔が100フレーム期間に亘
って静止していると判定された場合、顔は101番目のフレームで同じ場所に存
在するという予測は、顔フレームが2番目のフレームにおける初期位置に存在す
るという初期デフォルト予測よりも高い信頼係数を有するので、101番目のフ
レームの探索領域は、2番目のフレームの初期探索領域よりも縮小することがで
きる。同様に、顔が100フレームのシーケンス中に素早く、かつ、幾分ランダ
ムに移動する場合、101番目のフレームにおける顔の場所に関する予測位置の
信頼性は低下し、101番目のフレームにおける予測位置に関する探索領域は確
実に拡張される。同様に、上記のMPEG差分符号化は、選択後続フレーム12
が先行フレームと比較して殆ど変化がないか、若しくは、全く変化がないとき、
選択後続フレーム12を探索する必要性を除去するため使用され得る。
【0031】 顔追跡器360から生成された顔軌跡301の形式及び内容は、図1における
分類器200で使用された技術と、これらの技術によって必要とされるパラメー
タとに依存する。たとえば、図2に示されるようにHMM分類器200’を使用
することにより、顔軌跡301は、好ましくは、セグメントの各フレームに関連
した情報を含むが、この情報は、単にカメラからの距離に関する顔の位置の情報
であって、「クローズアップ」、「中程度の近さ」、「長距離」などのように表
される。パラメトリック分類器200を使用することにより、顔軌跡301は、
「固定」、「横方向移動」、「接近している」、「遠ざかっている」などの概略
的な顔の動きを含み、或いは、セグメントの各フレームにおける顔の決定された
位置を含む。当業者は、セグメント分類を行なうため選択された方法に基づいて
、顔軌跡301に収容される適切な情報を決めることができる。
【0032】 図4には、画像シーケンス内のテキスト軌跡401を決定するテキスト追跡シ
ステム400の一例のブロック図が示されている。エッジ検出器及びフィルタ4
10は、テキスト要素を表すエッジの有無を識別する。文字検出器420は、識
別されたエッジによって形成された文字形式の要素の有無を識別する。テキスト
ボックス検出器430は、略隣接した文字を含む画像の領域を識別し、テキスト
行検出器440は、1行以上の略隣接したテキストを形成するテキストボックス
の組み合わせを識別する。これらのテキストの識別された行は、テキストモデラ
ー450によってテキストモデルとして規定される。テキストモデルは、たとえ
ば、各テキスト行のカラー及びサイズを含み、かつ、各テキスト行を形成する実
際の文字の識別情報を含む。本例のシステム400の場合、上述のプロセスは、
画像フレームのシーケンスのフレーム毎に繰り返される。なぜならば、エッジ及
び文字ベースのプロセスは、典型的に、完了するまでに殆ど時間を必要としない
からである。テキストモデラー450は、フレーム毎に、もし存在するならば、
各テキスト行の位置をテキスト追跡器460へ通知する。テキスト追跡器460
は、上述の図1に示された分類器200によって利用される技術及びパラメータ
に依存して、テキスト軌跡情報401を作成する。図4に示されるように、テキ
スト追跡器460は、テキスト行識別器440からの各識別されたテキスト行が
新たに識別されたか、又は、先行して識別されたかの判定が容易に行なえるよう
に、フィードバック461をテキストモデラー450へ随意的に供給する。
【0033】 テキスト追跡システム400の性能は、顔追跡システム300は、顔追跡シス
テム300に関して提示した最適化技術の一部若しくは全部を利用することによ
って改善される。たとえば、構成要素410−440は、初期フレーム内のテキ
ストを識別するように構成し、テキスト追跡器460は、先行フレームの識別さ
れたテキスト要素に基づいて、たとえば、従来のパターンマッチング技術若しく
は文字マッチング技術を使用して後続フレームを処理するよう構成してもよい。
フレーム間の差を得るためMPEGに設けられた手段を使用するような他の最適
化技術を利用しても構わない。このような最適化技術を利用するかどうかは、こ
の技術と関連したオーバーヘッド負荷と、この技術によって得られる予測性能上
昇とを比較することによって判定される。
【0034】 上記説明は、本発明の原理を例示するための説明である。当業者は、本明細書
では明確に記載若しくは例示されていないが、本発明の原理を具現化し、かつ、
本発明の精神並びに範囲に含まれる種々の装置を案出することが可能であろう。
たとえば、ここに開示された原理は、他の画像表現及び分類技術並びにシステム
と組み合わせることが可能であり、その他のパラメータが分類プロセスで使用さ
れる。フェード、ディゾルブ、及び、ワイプのような光学的カットの数、又は、
セグメント内のこのようなカットの割合は、ニュース及びコマーシャルをその他
の類別と区別するために非常に効率的であることがわかった。同様に、開示され
た記述の適用分野は、明細書に示された実施例の範囲に制限されるものではない
。たとえば、上述の通り、ニュース番号のような番組類別は、特定の分類タイプ
のサブセグメントのシーケンスによって表される。各サブセグメントの類別は観
測シンボルを形成し、番組類別タイプ毎に対応した観測されたサブセグメント類
別のシーケンスをモデル化する隠れマルコフモデルを定義することができる。上
記並びにその他のシステム構成及び最適化機能は、本明細書の記載に基づいて当
業者には明白であり、請求項に記載された事項の範囲内に含まれる。
【図面の簡単な説明】
【図1】 オブジェクト軌跡に基づいて画像フレームのシーケンスを分類する画像プロセ
ッサの一例のブロック図である。
【図2】 隠れマルコフモデルに基づいて画像フレームのシーケンスを分類する分類器の
一例のブロック図である。
【図3】 画像フレームのシーケンス内で顔軌跡を判定する顔追跡システムの一例のブロ
ック図である。
【図4】 画像フレームのシーケンス内でテキスト軌跡を判定するテキスト追跡システム
の一例のブロック図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アグニホトリ,ラリータ オランダ国,5656 アーアー アインドー フェン,プロフ・ホルストラーン 6 (72)発明者 ウェイ,ガン オランダ国,5656 アーアー アインドー フェン,プロフ・ホルストラーン 6 Fターム(参考) 5B075 ND06 NR12 5L096 AA06 DA02 EA06 FA69 HA03 HA05

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 画像フレームのシーケンスの初期画像フレーム内で少なくと
    も一つのオブジェクト画像を識別する手順と、 画像フレームのシーケンスの後続フレームに基づいて少なくとも一つのオブジ
    ェクト画像と関連した少なくとも一つのオブジェクト軌跡を判定する手順と、 少なくとも一つのオブジェクト軌跡に基づいて画像フレームのシーケンスを分
    類する手順と、 を有する、画像フレームのシーケンスを分類する方法。
  2. 【請求項2】 一つ以上のオブジェクト軌跡を含む画像フレームのシーケン
    スを分類する方法であって、 画像フレームのシーケンスと関連付けられた、ビデオレベルパラメータ、軌跡
    レベルパラメータ、及び、モデルレベルパラメータの中の少なくとも一つを含む
    パラメータの組を保持する手順と、 パラメータの組に基づいて画像フレームのシーケンスを分類する手順と、 を有し、 ビデオレベルパラメータは、一つ以上のオブジェクト軌跡のオブジェクト軌跡
    数、一つ以上のオブジェクト軌跡の平均持続時間、及び、画像フレームのシーケ
    ンスのフレーム数のうちの少なくとも一つを含み、 軌跡レベルパラメータは、一つ以上のオブジェクト軌跡の各オブジェクト軌跡
    と関連したオブジェクト軌跡持続時間、及び、一つ以上のオブジェクト軌跡の各
    オブジェクト軌跡の特徴量のうちの少なくとも一つを含み、 モデルレベルパラメータは、各オブジェクト軌跡と関連したオブジェクトタイ
    プ、一つ以上のオブジェクト軌跡の各オブジェクト軌跡と関連したオブジェクト
    カラー、一つ以上のオブジェクト軌跡の各オブジェクト軌跡と関連したオブジェ
    クト位置、及び、一つ以上のオブジェクト軌跡の中の各オブジェクト軌跡と関連
    したオブジェクトサイズのうちの少なくとも一つを含む、 方法。
  3. 【請求項3】 画像フレームのシーケンスの初期画像フレーム内で少なくと
    も一つのオブジェクト画像を識別するオブジェクト識別器と、 画像フレームのシーケンスの後続フレームに基づいて少なくとも一つのオブジ
    ェクト画像と関連した少なくとも一つのオブジェクト軌跡を獲得するオブジェク
    ト追跡器と、 少なくとも一つのオブジェクト軌跡に基づいて画像フレームのシーケンスを分
    類する分類器と、 を有する、画像フレームのシーケンスを分類する画像プロセッサ。
  4. 【請求項4】 オブジェクト追跡器は、初期画像フレーム内の少なくとも一
    つのオブジェクト画像の初期位置と、画像フレームのシーケンスの一つ以上の後
    続フレーム内の少なくとも一つのオブジェクト画像の一つ以上の後続位置とに基
    づいて、少なくとも一つのオブジェクト軌跡を繰り返し判定し、 画像プロセッサは、オブジェクト追跡器に動作的に接続されたオブジェクトモ
    デラーを更に有し、 オブジェクトモデラーは、 少なくとも一つのオブジェクト画像の初期位置を識別し、 目標領域内の一つ以上の後続位置の次の位置が容易に判定できるように、初期
    位置及び少なくとも一つのオブジェクト軌跡とに基づいて一つ以上の後続フレー
    ムの次のフレーム毎に目標領域を識別する、 請求項3記載の画像プロセッサ。
  5. 【請求項5】 分類器は、 少なくとも一つのオブジェクト軌跡に基づいてオブジェクト軌跡情報の階層を
    保持し、 オブジェクト軌跡情報の階層毎にパラメータに基づいてシーケンスを分類する
    、 よう構成されている、請求項3記載の画像プロセッサ。
  6. 【請求項6】 分類器は、 少なくとも一つのオブジェクト軌跡に対応したシンボルのシーケンスを発生す
    るシンボル発生器と、 各モデル毎に少なくとも一つの軌跡に対応したシンボルのシーケンスに基づい
    て統計量を決定する複数のマルコフモデルと、 を更に有し、 分類器は、複数のマルコフモデルによって与えられた統計量に基づいて画像フ
    レームのシーケンスを分類する、 請求項3記載の画像プロセッサ。
  7. 【請求項7】 オブジェクト識別器は、 画像フレームのシーケンスの画像フレーム内で明確なエッジを識別するエッジ
    検出器と、 明確なエッジを処理し、明確なエッジから文字要素を含む画像フレームの部分
    を識別する特徴検出器と、 文字要素を含む画像フレームの部分に基づいて、少なくとも一つのオブジェク
    ト画像に対応したテキストボックスを識別するテキストボックス検出器と、 を有し、 オブジェクト追跡器は、画像フレームのシーケンスの一つ以上の後続フレーム
    におけるテキストボックスの少なくとも一つの位置に基づいて、少なくとも一つ
    のオブジェクト軌跡を判定するよう構成されている、 請求項3記載の画像プロセッサ。
  8. 【請求項8】 分類器は、少なくとも一つのオブジェクト軌跡と、画像フレ
    ームのシーケンスが分類されている識別された各クラスの特徴に対応するクラス
    位置との間のベクトル距離に基づいて、画像フレームのシーケンスを分類する、 請求項3記載の画像プロセッサ。
  9. 【請求項9】 画像フレームのシーケンスに対応したシンボルのシーケンス
    を発生するシンボル発生器と、 各モデル毎に画像フレームのシーケンスに対応したシンボルのシーケンスに基
    づいて統計量を決定する複数のマルコフモデルと、 複数のマルコフモデルによって与えられた統計量に基づいて画像フレームのシ
    ーケンスを分類する分類器と、 を有する画像プロセッサ。
  10. 【請求項10】 画像フレームのシーケンス内の少なくとも一つのオブジェ
    クト画像と関連した少なくとも一つのオブジェクト軌跡を獲得するオブジェクト
    追跡器を更に有し、 シンボルのシーケンスは少なくとも一つのオブジェクト軌跡に基づいている、 請求項9記載の画像プロセッサ。
JP2001542046A 1999-12-01 2000-11-15 オブジェクト追跡によるプログラム分類方法 Pending JP2003529136A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/452,581 1999-12-01
US09/452,581 US6754389B1 (en) 1999-12-01 1999-12-01 Program classification using object tracking
PCT/EP2000/011434 WO2001041064A2 (en) 1999-12-01 2000-11-15 Program classification using object tracking

Publications (1)

Publication Number Publication Date
JP2003529136A true JP2003529136A (ja) 2003-09-30

Family

ID=23797040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001542046A Pending JP2003529136A (ja) 1999-12-01 2000-11-15 オブジェクト追跡によるプログラム分類方法

Country Status (4)

Country Link
US (1) US6754389B1 (ja)
EP (1) EP1312046A2 (ja)
JP (1) JP2003529136A (ja)
WO (1) WO2001041064A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006028116A1 (ja) * 2004-09-09 2006-03-16 Pioneer Corporation 登場物推定装置及び方法、並びにコンピュータプログラム
JP5644772B2 (ja) * 2009-11-25 2014-12-24 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
KR20220109246A (ko) * 2021-01-28 2022-08-04 네이버 주식회사 고차원 다항식 회귀를 이용한 문자열 검출 방법 및 시스템

Families Citing this family (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPQ464099A0 (en) * 1999-12-14 2000-01-13 Canon Kabushiki Kaisha Emotive editing system
AUPQ921600A0 (en) * 2000-08-04 2000-08-31 Canon Kabushiki Kaisha Automatic person meta-data labeller
JP3784289B2 (ja) * 2000-09-12 2006-06-07 松下電器産業株式会社 メディア編集方法及びその装置
US7143353B2 (en) * 2001-03-30 2006-11-28 Koninklijke Philips Electronics, N.V. Streaming video bookmarks
TW505892B (en) * 2001-05-25 2002-10-11 Ind Tech Res Inst System and method for promptly tracking multiple faces
US7773800B2 (en) * 2001-06-06 2010-08-10 Ying Liu Attrasoft image retrieval
US20030058111A1 (en) * 2001-09-27 2003-03-27 Koninklijke Philips Electronics N.V. Computer vision based elderly care monitoring system
US7043075B2 (en) * 2001-09-27 2006-05-09 Koninklijke Philips Electronics N.V. Computer vision system and method employing hierarchical object classification scheme
US7202791B2 (en) * 2001-09-27 2007-04-10 Koninklijke Philips N.V. Method and apparatus for modeling behavior using a probability distrubution function
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US7428337B2 (en) * 2002-01-09 2008-09-23 Siemens Corporate Research, Inc. Automatic design of morphological algorithms for machine vision
US20030128236A1 (en) * 2002-01-10 2003-07-10 Chen Meng Chang Method and system for a self-adaptive personal view agent
US6847682B2 (en) * 2002-02-01 2005-01-25 Hughes Electronics Corporation Method, system, device and computer program product for MPEG variable bit rate (VBR) video traffic classification using a nearest neighbor classifier
US7269292B2 (en) 2003-06-26 2007-09-11 Fotonation Vision Limited Digital image adjustable compression and resolution using face detection information
US7574016B2 (en) 2003-06-26 2009-08-11 Fotonation Vision Limited Digital image processing using face detection information
US7471846B2 (en) 2003-06-26 2008-12-30 Fotonation Vision Limited Perfecting the effect of flash within an image acquisition devices using face detection
US8896725B2 (en) 2007-06-21 2014-11-25 Fotonation Limited Image capture device with contemporaneous reference image capture mechanism
US7792335B2 (en) * 2006-02-24 2010-09-07 Fotonation Vision Limited Method and apparatus for selective disqualification of digital images
US7565030B2 (en) * 2003-06-26 2009-07-21 Fotonation Vision Limited Detecting orientation of digital images using face detection information
US8989453B2 (en) 2003-06-26 2015-03-24 Fotonation Limited Digital image processing using face detection information
US8948468B2 (en) 2003-06-26 2015-02-03 Fotonation Limited Modification of viewing parameters for digital images using face detection information
US8330831B2 (en) 2003-08-05 2012-12-11 DigitalOptics Corporation Europe Limited Method of gathering visual meta data using a reference image
US7440593B1 (en) * 2003-06-26 2008-10-21 Fotonation Vision Limited Method of improving orientation and color balance of digital images using face detection information
US8593542B2 (en) 2005-12-27 2013-11-26 DigitalOptics Corporation Europe Limited Foreground/background separation using reference images
US8494286B2 (en) 2008-02-05 2013-07-23 DigitalOptics Corporation Europe Limited Face detection in mid-shot digital images
US7620218B2 (en) 2006-08-11 2009-11-17 Fotonation Ireland Limited Real-time face tracking with reference images
US8189927B2 (en) 2007-03-05 2012-05-29 DigitalOptics Corporation Europe Limited Face categorization and annotation of a mobile phone contact list
US8155397B2 (en) 2007-09-26 2012-04-10 DigitalOptics Corporation Europe Limited Face tracking in a camera processor
US8682097B2 (en) 2006-02-14 2014-03-25 DigitalOptics Corporation Europe Limited Digital image enhancement with reference images
US8553949B2 (en) 2004-01-22 2013-10-08 DigitalOptics Corporation Europe Limited Classification and organization of consumer digital images using workflow, and face detection and recognition
US7792970B2 (en) 2005-06-17 2010-09-07 Fotonation Vision Limited Method for establishing a paired connection between media devices
US8363951B2 (en) 2007-03-05 2013-01-29 DigitalOptics Corporation Europe Limited Face recognition training method and apparatus
US9129381B2 (en) 2003-06-26 2015-09-08 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US9692964B2 (en) 2003-06-26 2017-06-27 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US7844076B2 (en) * 2003-06-26 2010-11-30 Fotonation Vision Limited Digital image processing using face detection and skin tone information
US8498452B2 (en) 2003-06-26 2013-07-30 DigitalOptics Corporation Europe Limited Digital image processing using face detection information
US7904815B2 (en) * 2003-06-30 2011-03-08 Microsoft Corporation Content-based dynamic photo-to-video methods and apparatuses
JP4476744B2 (ja) * 2003-09-02 2010-06-09 富士フイルム株式会社 撮像システム、及びプログラム
JP4047264B2 (ja) * 2003-09-30 2008-02-13 株式会社東芝 動画像処理装置、動画像処理方法および動画像処理プログラム
US7680340B2 (en) * 2003-11-13 2010-03-16 Eastman Kodak Company Method of using temporal context for image classification
DE60330471D1 (de) * 2003-12-09 2010-01-21 Mitsubishi Electric Corp Verfahren und Vorrichtung zum Trennen von Inhalten in Bildern
US7564994B1 (en) 2004-01-22 2009-07-21 Fotonation Vision Limited Classification system for consumer digital images using automatic workflow and face detection and recognition
KR100537520B1 (ko) * 2004-02-18 2005-12-19 삼성전자주식회사 동영상의 자막 검출 방법 및 장치
WO2005086079A1 (en) * 2004-03-02 2005-09-15 Sarnoff Corporation Method and apparatus for differentiating pedestrians, vehicles, and other objects
US7697026B2 (en) * 2004-03-16 2010-04-13 3Vr Security, Inc. Pipeline architecture for analyzing multiple video streams
JP2008502983A (ja) * 2004-06-17 2008-01-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 性格属性を使うパーソナル化したサマリー
US7263472B2 (en) * 2004-06-28 2007-08-28 Mitsubishi Electric Research Laboratories, Inc. Hidden markov model based object tracking and similarity metrics
WO2006026688A2 (en) * 2004-08-27 2006-03-09 Sarnoff Corporation Method and apparatus for classifying an object
US20080062336A1 (en) * 2004-09-30 2008-03-13 Koninklijke Philips Electronics, N.V. Smart Zapper
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
US7715597B2 (en) 2004-12-29 2010-05-11 Fotonation Ireland Limited Method and component for image recognition
US8503800B2 (en) 2007-03-05 2013-08-06 DigitalOptics Corporation Europe Limited Illumination detection using classifier chains
US8488023B2 (en) * 2009-05-20 2013-07-16 DigitalOptics Corporation Europe Limited Identifying facial expressions in acquired digital images
US7315631B1 (en) 2006-08-11 2008-01-01 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
JP4453016B2 (ja) * 2005-01-31 2010-04-21 株式会社カシオ日立モバイルコミュニケーションズ 携帯端末、文字読取方法および文字読取プログラム
US7801328B2 (en) * 2005-03-31 2010-09-21 Honeywell International Inc. Methods for defining, detecting, analyzing, indexing and retrieving events using video image processing
US7760908B2 (en) * 2005-03-31 2010-07-20 Honeywell International Inc. Event packaged video sequence
US7646895B2 (en) * 2005-04-05 2010-01-12 3Vr Security, Inc. Grouping items in video stream images into events
US8130285B2 (en) * 2005-04-05 2012-03-06 3Vr Security, Inc. Automated searching for probable matches in a video surveillance system
US20070011718A1 (en) * 2005-07-08 2007-01-11 Nee Patrick W Jr Efficient customized media creation through pre-encoding of common elements
US7545954B2 (en) * 2005-08-22 2009-06-09 General Electric Company System for recognizing events
JP2007072520A (ja) * 2005-09-02 2007-03-22 Sony Corp 映像処理装置
US20070071404A1 (en) * 2005-09-29 2007-03-29 Honeywell International Inc. Controlled video event presentation
GB2434504B (en) * 2006-01-13 2010-12-08 Eleftheria Katsiri Pattern recognition systems
US8265349B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation
US8265392B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Inter-mode region-of-interest video object segmentation
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US7804983B2 (en) 2006-02-24 2010-09-28 Fotonation Vision Limited Digital image acquisition control and correction method and apparatus
EP2033142B1 (en) 2006-06-12 2011-01-26 Tessera Technologies Ireland Limited Advances in extending the aam techniques from grayscale to color images
US20070291118A1 (en) * 2006-06-16 2007-12-20 Shu Chiao-Fe Intelligent surveillance system and method for integrated event based surveillance
US20080123959A1 (en) * 2006-06-26 2008-05-29 Ratner Edward R Computer-implemented method for automated object recognition and classification in scenes using segment-based object extraction
WO2008015586A2 (en) 2006-08-02 2008-02-07 Fotonation Vision Limited Face recognition with combined pca-based datasets
US7916897B2 (en) 2006-08-11 2011-03-29 Tessera Technologies Ireland Limited Face tracking for controlling imaging parameters
US7403643B2 (en) 2006-08-11 2008-07-22 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
JP5035596B2 (ja) * 2006-09-19 2012-09-26 ソニー株式会社 情報処理装置および方法、並びにプログラム
US20080112593A1 (en) * 2006-11-03 2008-05-15 Ratner Edward R Automated method and apparatus for robust image object recognition and/or classification using multiple temporal views
US7869631B2 (en) * 2006-12-11 2011-01-11 Arcsoft, Inc. Automatic skin color model face detection and mean-shift face tracking
US8055067B2 (en) 2007-01-18 2011-11-08 DigitalOptics Corporation Europe Limited Color segmentation
CN101652999B (zh) * 2007-02-02 2016-12-28 霍尼韦尔国际公司 用于管理实况视频数据的系统和方法
ATE472140T1 (de) * 2007-02-28 2010-07-15 Fotonation Vision Ltd Trennung der direktionalen beleuchtungsvariabilität in der statistischen gesichtsmodellierung auf basis von texturraumzerlegungen
KR101247147B1 (ko) 2007-03-05 2013-03-29 디지털옵틱스 코포레이션 유럽 리미티드 디지털 영상 획득 장치에서의 얼굴 탐색 및 검출
US9846883B2 (en) * 2007-04-03 2017-12-19 International Business Machines Corporation Generating customized marketing messages using automatically generated customer identification data
US8775238B2 (en) * 2007-04-03 2014-07-08 International Business Machines Corporation Generating customized disincentive marketing content for a customer based on customer risk assessment
US9031858B2 (en) * 2007-04-03 2015-05-12 International Business Machines Corporation Using biometric data for a customer to improve upsale ad cross-sale of items
US9092808B2 (en) 2007-04-03 2015-07-28 International Business Machines Corporation Preferred customer marketing delivery based on dynamic data for a customer
US9626684B2 (en) * 2007-04-03 2017-04-18 International Business Machines Corporation Providing customized digital media marketing content directly to a customer
US9031857B2 (en) * 2007-04-03 2015-05-12 International Business Machines Corporation Generating customized marketing messages at the customer level based on biometric data
US9685048B2 (en) * 2007-04-03 2017-06-20 International Business Machines Corporation Automatically generating an optimal marketing strategy for improving cross sales and upsales of items
US9361623B2 (en) 2007-04-03 2016-06-07 International Business Machines Corporation Preferred customer marketing delivery based on biometric data for a customer
US8831972B2 (en) * 2007-04-03 2014-09-09 International Business Machines Corporation Generating a customer risk assessment using dynamic customer data
US8639563B2 (en) * 2007-04-03 2014-01-28 International Business Machines Corporation Generating customized marketing messages at a customer level using current events data
US8812355B2 (en) * 2007-04-03 2014-08-19 International Business Machines Corporation Generating customized marketing messages for a customer using dynamic customer behavior data
JP4775306B2 (ja) * 2007-04-23 2011-09-21 ソニー株式会社 画像処理装置、撮像装置、および画像表示制御方法、並びにコンピュータ・プログラム
US7916971B2 (en) 2007-05-24 2011-03-29 Tessera Technologies Ireland Limited Image processing method and apparatus
US8126262B2 (en) * 2007-06-18 2012-02-28 International Business Machines Corporation Annotating video segments using feature rhythm models
US20090006125A1 (en) * 2007-06-29 2009-01-01 Robert Lee Angell Method and apparatus for implementing digital video modeling to generate an optimal healthcare delivery model
US7908233B2 (en) * 2007-06-29 2011-03-15 International Business Machines Corporation Method and apparatus for implementing digital video modeling to generate an expected behavior model
US20090005650A1 (en) * 2007-06-29 2009-01-01 Robert Lee Angell Method and apparatus for implementing digital video modeling to generate a patient risk assessment model
US9734464B2 (en) * 2007-09-11 2017-08-15 International Business Machines Corporation Automatically generating labor standards from video data
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
US20090083121A1 (en) * 2007-09-26 2009-03-26 Robert Lee Angell Method and apparatus for determining profitability of customer groups identified from a continuous video stream
US20090089108A1 (en) * 2007-09-27 2009-04-02 Robert Lee Angell Method and apparatus for automatically identifying potentially unsafe work conditions to predict and prevent the occurrence of workplace accidents
US20090089107A1 (en) * 2007-09-27 2009-04-02 Robert Lee Angell Method and apparatus for ranking a customer using dynamically generated external data
US8315430B2 (en) * 2007-11-07 2012-11-20 Viewdle Inc. Object recognition and database population for video indexing
US8064641B2 (en) * 2007-11-07 2011-11-22 Viewdle Inc. System and method for identifying objects in video
US8750578B2 (en) 2008-01-29 2014-06-10 DigitalOptics Corporation Europe Limited Detecting facial expressions in digital images
US7855737B2 (en) 2008-03-26 2010-12-21 Fotonation Ireland Limited Method of making a digital camera image of a scene including the camera user
US8243987B2 (en) * 2008-06-06 2012-08-14 International Business Machines Corporation Object tracking using color histogram and object size
CN106919911A (zh) 2008-07-30 2017-07-04 快图有限公司 使用脸部检测的自动脸部和皮肤修饰
WO2010021373A1 (ja) * 2008-08-22 2010-02-25 ソニー株式会社 画像表示装置、制御方法およびコンピュータプログラム
JP5409189B2 (ja) * 2008-08-29 2014-02-05 キヤノン株式会社 撮像装置及びその制御方法
US8150169B2 (en) * 2008-09-16 2012-04-03 Viewdle Inc. System and method for object clustering and identification in video
WO2010063463A2 (en) 2008-12-05 2010-06-10 Fotonation Ireland Limited Face recognition using face tracker classifier data
US8218859B2 (en) * 2008-12-05 2012-07-10 Microsoft Corporation Transductive multi-label learning for video concept detection
WO2010099575A1 (en) 2009-03-04 2010-09-10 Honeywell International Inc. Systems and methods for managing video data
US8379917B2 (en) 2009-10-02 2013-02-19 DigitalOptics Corporation Europe Limited Face recognition performance using additional image features
KR20110047768A (ko) * 2009-10-30 2011-05-09 삼성전자주식회사 멀티미디어 컨텐츠 재생 장치 및 방법
US8726161B2 (en) * 2010-10-19 2014-05-13 Apple Inc. Visual presentation composition
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
US8812980B2 (en) 2011-08-26 2014-08-19 Microsoft Corporation Objectizing and animating images
US9349066B2 (en) * 2012-01-06 2016-05-24 Qualcomm Incorporated Object tracking and processing
US9449216B1 (en) * 2013-04-10 2016-09-20 Amazon Technologies, Inc. Detection of cast members in video content
WO2015025073A1 (en) * 2013-08-19 2015-02-26 Nokia Corporation Method, apparatus and computer program product for object detection and segmentation
CN106997367B (zh) 2016-01-26 2020-05-08 华为技术有限公司 程序文件的分类方法、分类装置和分类系统
US10572767B2 (en) 2017-04-12 2020-02-25 Netflix, Inc. Scene and shot detection and characterization
US10482613B2 (en) 2017-07-06 2019-11-19 Wisconsin Alumni Research Foundation Movement monitoring system
US10810414B2 (en) 2017-07-06 2020-10-20 Wisconsin Alumni Research Foundation Movement monitoring system
US11450148B2 (en) 2017-07-06 2022-09-20 Wisconsin Alumni Research Foundation Movement monitoring system
CN107392937B (zh) * 2017-07-14 2023-03-14 腾讯科技(深圳)有限公司 目标跟踪方法、装置及电子设备
CN110019942B (zh) * 2017-09-11 2021-07-09 阿里巴巴(中国)有限公司 一种视频鉴别方法及系统
US10685172B2 (en) 2018-05-24 2020-06-16 International Business Machines Corporation Generating a textual description of an image using domain-independent anomaly analysis
CN109871455B (zh) * 2019-01-28 2020-11-10 厦门理工学院 碳化竹片分色方法及系统
US11276419B2 (en) * 2019-07-30 2022-03-15 International Business Machines Corporation Synchronized sound generation from videos
US11587361B2 (en) 2019-11-08 2023-02-21 Wisconsin Alumni Research Foundation Movement monitoring system
CN113129330B (zh) * 2020-01-14 2024-05-10 北京地平线机器人技术研发有限公司 一种可移动设备的轨迹预测方法及装置
US11665381B2 (en) * 2020-12-02 2023-05-30 Kyndryl, Inc. Content modification based on element contextualization

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0005918B1 (en) 1979-05-09 1983-05-04 Hughes Aircraft Company Scene tracker system
KR100276681B1 (ko) * 1992-11-07 2001-01-15 이데이 노부유끼 비디오 카메라 시스템
US5343251A (en) 1993-05-13 1994-08-30 Pareto Partners, Inc. Method and apparatus for classifying patterns of television programs and commercials based on discerning of broadcast audio and video signals
US5983251A (en) * 1993-09-08 1999-11-09 Idt, Inc. Method and apparatus for data analysis
JPH0877356A (ja) * 1994-09-09 1996-03-22 Fujitsu Ltd 三次元多眼画像の処理方法及び処理装置
US5912980A (en) * 1995-07-13 1999-06-15 Hunke; H. Martin Target acquisition and tracking
EP0805405A3 (en) 1996-02-05 1998-04-15 Texas Instruments Incorporated Motion event detection for video indexing
US5870754A (en) 1996-04-25 1999-02-09 Philips Electronics North America Corporation Video retrieval of MPEG compressed sequences using DC and motion signatures
US5768447A (en) 1996-06-14 1998-06-16 David Sarnoff Research Center, Inc. Method for indexing image information using a reference model
US6456328B1 (en) * 1996-12-18 2002-09-24 Lucent Technologies Inc. Object-oriented adaptive prefilter for low bit-rate video systems
US6028956A (en) * 1997-04-04 2000-02-22 Kofile Inc. Object location and span determination method and apparatus which determines a location and span of an object in an image
JP2002513487A (ja) * 1997-05-05 2002-05-08 ザ トラスティーズ オブ コロンビア ユニヴァーシティ イン ザ シティ オブ ニューヨーク オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム
US6188777B1 (en) * 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
US6118887A (en) * 1997-10-10 2000-09-12 At&T Corp. Robust multi-modal method for recognizing objects
US6072542A (en) * 1997-11-25 2000-06-06 Fuji Xerox Co., Ltd. Automatic video segmentation using hidden markov model
US6275614B1 (en) * 1998-06-26 2001-08-14 Sarnoff Corporation Method and apparatus for block classification and adaptive bit allocation
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006028116A1 (ja) * 2004-09-09 2006-03-16 Pioneer Corporation 登場物推定装置及び方法、並びにコンピュータプログラム
US7974440B2 (en) 2004-09-09 2011-07-05 Pioneer Corporation Use of statistical data in estimating an appearing-object
JP5644772B2 (ja) * 2009-11-25 2014-12-24 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
KR20220109246A (ko) * 2021-01-28 2022-08-04 네이버 주식회사 고차원 다항식 회귀를 이용한 문자열 검출 방법 및 시스템
WO2022164031A1 (ko) * 2021-01-28 2022-08-04 네이버 주식회사 고차원 다항식 회귀를 이용한 문자열 검출 방법 및 시스템
KR102560051B1 (ko) 2021-01-28 2023-07-27 네이버 주식회사 고차원 다항식 회귀를 이용한 문자열 검출 방법 및 시스템

Also Published As

Publication number Publication date
WO2001041064A2 (en) 2001-06-07
US6754389B1 (en) 2004-06-22
WO2001041064A3 (en) 2003-02-20
EP1312046A2 (en) 2003-05-21

Similar Documents

Publication Publication Date Title
US6754389B1 (en) Program classification using object tracking
US9754166B2 (en) Method of identifying and replacing an object or area in a digital image with another object or area
Brunelli et al. A survey on the automatic indexing of video data
US7555149B2 (en) Method and system for segmenting videos using face detection
US8818038B2 (en) Method and system for video indexing and video synopsis
US8224087B2 (en) Method and apparatus for video digest generation
US20030091237A1 (en) Identification and evaluation of audience exposure to logos in a broadcast event
US20040073919A1 (en) Commercial recommender
US20040125877A1 (en) Method and system for indexing and content-based adaptive streaming of digital video content
US20070010998A1 (en) Dynamic generative process modeling, tracking and analyzing
US20030061612A1 (en) Key frame-based video summary system
US20100259688A1 (en) method of determining a starting point of a semantic unit in an audiovisual signal
JP2005243035A (ja) アンカーショット決定方法及び決定装置
JP5360979B2 (ja) 重要情報抽出方法および装置
JP2013207529A (ja) 表示制御装置、表示制御方法、及びプログラム
KR20050033075A (ko) 비디오 이미지들의 시퀀스에서 콘텐트 속성을 검출하는 유닛 및 방법
Ekin et al. Generic event detection in sports video using cinematic features
Rosales et al. MES: an expert system for reusing models of transmission equipment
Dimitrova et al. Selective video content analysis and filtering
Pande Mapping of Low Level to High Level Audio-Visual Features: A Survey of the Literature
JP3196761B2 (ja) 映像視聴装置
JP4007406B2 (ja) 動画像の特徴場面検出方法
Pritch et al. Video Synopsis and Indexing
Tsapatsoulis et al. Broadcast news parsing using visual cues: a robust face detection approach
Arifin A computation method/framework for high level video content analysis and segmentation using affective level information