JP2002125178A

JP2002125178A - メディア・セグメント化システムおよび関連する方法

Info

Publication number: JP2002125178A
Application number: JP2001227960A
Authority: JP
Inventors: Rin Ton; トン・リン; Chan Hon-Jan; ホン−ジャン・チャン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2000-07-28
Filing date: 2001-07-27
Publication date: 2002-04-26
Anticipated expiration: 2021-07-27
Also published as: US6724933B1; JP4981221B2; CN1306438C; CN1359082A

Abstract

(57)【要約】【課題】意味的レベルにおいてメディア・コンテンツ
の迅速なアクセスおよび検索に役立つ、メディア・セグ
メント化システムおよび関連する方法を提供する。【解決手段】この方法は、メディア・コンテンツを受
信し、受信したメディアの連続ショットの１つ以上の属
性を分析（２０４）する。少なくとも部分的に１つ以上
の属性の分析に基づいて、連続ショットの各々について
相関スコア（２１６）を求める。シーンのセグメント化
を行い、統計的に繋がりのあるショットを集合化する
（２０４）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的に、画像処
理に関し、更に特定すれば、メディア・セグメント化シ
ステムおよび関連する方法に関する。

【０００２】

【従来の技術】近年における処理、記憶およびネットワ
ーク技術の改良により、多くのパーソナル計算システム
がマルチメディア・オブジェクト（例えば、オーディ
オ、グラフィックおよびビデオ・コンテンツ）を受信
し、処理し、レンダリングする能力を有するようになっ
た。このようなマルチメディア・レンダリングに応用し
た計算パワーの一例は、例えば、ネットワークを通じて
リモート・サーバから、適切に構成した計算システムに
ビデオ・コンテンツを「流入」させ、計算システム上で
のレンダリングが可能となったことである。レンダリン
グ・システムの多くは、典型的なビデオ・カセット・プ
レーヤ／レコーダ（ＶＣＲ）に類似した機能性を備えて
いる。しかしながら、計算パワーの増大により、更に一
層進んだ機能に対する消費者の期待が大きくなってい
る。正にこのような期待の主要な一例として、関連する
（即ち、ユーザに特別な関心がある）メディア・コンテ
ンツに迅速にアクセスできることがあげられる。従来技
術のシステムは、この期待に沿うことができなかった。

【０００３】大量のメディアに対処しアクセスするため
に、種々の画像データベースおよびビジュアル情報シス
テムが、最近では入手可能となっている。このようなシ
ステムは、医療画像管理、ＣＡＤ／ＣＡＭシステム、犯
罪識別システム、クリップアート・ギャラリ等を含む多
種多様のアプリケーションにおいて用いられている。従
来技術のシステムは、多数の探索技法のいずれかを用い
て、関連情報にアクセスし検索することができる。概し
て、このような従来技術のシステムは、テキストに基づ
くキーワード手法を利用し、このようなメディア・コン
テンツをインデックス化し検索する。このような手法に
よれば、各フレーム、ショットまたはシーン（各々１つ
以上の前者によって構成される）を、データベース・オ
ブジェクトとして格納し、データベース内の各画像（例
えば、フレーム、ショット、シーン）には、当該オブジ
ェクトのテキスト記述が手作業で生成され、関連付けら
れている。これらのキーワード記述子は、標準的なブー
ル・クエリによって探索することができ、クエリ・テキ
ストの正確なまたは確率論的な照合に基づいて、検索が
行われる。

【０００４】

【発明が解決しようとする課題】このような従来技術の
システムは、このような技術に対する欲求を刺激する働
きをするものの、真のコンテンツに基づくメディア探索
に役立つシステムは従来技術にはなく、したがって特定
のメディア・コンテンツに精度高くアクセスし検索する
という要望に完全に対応することはできない。テキスト
のみに基づくシステムには、固有の問題がいくつかあ
る。分類階層を構築するために必要な記述キーワードの
自動生成または意味情報の抽出は、現在の視覚および情
報技術の能力を超えている。その結果、このような画像
のテキスト記述は、手作業で生成せざるを得ない。キー
ワード記述子の手作業による入力は、煩わしく時間のか
かるプロセスであり、不正確さや記述的限界の可能性が
あることを認めなければならない。更に、テキストおよ
びパターンのようなあるビジュアル・プロパティは、多
くの場合、僅かなテキスト記述子で適切にまたは高精度
に記述することは、特に汎用インデックス化および検索
アプリケーションでは、不可能ではないにしても困難で
ある。

【０００５】コンテンツに基づいてメディアを定性的に
セグメント化しようとする他の手法も論じられてきた
が、全ては計算に費用がかかり、結果として、ほぼリア
ル・タイムの消費者用アプリケーションには不適切であ
る。これら従来技術の手法は、典型的に、フレーム間の
類似したマテリアルを識別し、ショットの境界を検出す
る。ショットの境界は、多くの場合、編集点、例えば、
カメラ・フェードを示すのであって、意味的な境界では
ないことを当業者は認めよう。更に、計算上の複雑さが
伴うために、このようなショットは、多くの場合スタテ
ィックとして、または編集点以前または以降の固定数の
フレームとして定義される（例えば、直前の３フレー
ム、および後続の３フレーム）。この点について、この
ような従来技術のシステムは、典型的に、固定のフレー
ム・ウインドウを利用してショットを定義する。

【０００６】対照的に、シーンは意味的に同様なショッ
トから成り、したがって多数のショット境界を含む可能
性がある。これに応じて、２つのショット間におけるフ
レームの視覚的類似性に基づく従来技術の手法は、良い
結果が得られないことが多く、シーンを識別しセグメン
ト化するためには、ショット間における意味的相関の定
量的尺度が必要となっている。

【０００７】したがって、従来技術のシステムに共通し
て付随する固有の欠点によって煩わされることのないメ
ディア・セグメント化システムおよび関連する方法を提
案する。

【０００８】

【課題を解決するための手段】本発明は、意味的レベル
において、メディア・コンテンツの迅速なアクセスおよ
び検索に役立つ、メディア・セグメント化システムおよ
び関連する方法に関する。本発明の実施態様の一例によ
れば、メディア・コンテンツを受信し、受信したメディ
アの連続ショットの１つ以上の属性を分析することから
成る方法を提案する。少なくとも部分的に１つ以上の属
性に基づいて、連続ショットの各々について相関スコア
を生成する。シーンのセグメント化を実行し、意味的に
繋がりのあるショットを集合化する。

【０００９】

【発明の実施の形態】図面全体を通じて、同じ参照番号
を用いて同様のコンポーネントおよび構造を引用するこ
ととする。

【００１０】本発明は、コンテンツに基づくシーン・セ
グメント化システムおよび関連する方法に関する。この
点に関して、本発明は、主にテキスト・キーワードを拠
り所としていた、従来技術の画像記憶および検索システ
ムに共通して付随していた多数の欠点を克服する。本発
明の発明的特質は、ビジュアル・メディア・コンテンツ
のコンテクストにおいて展開する。しかしながら、本発
明はそのように限定される訳ではなく、以下に紹介する
革新的なメディア分析エージェントは、ここに記載する
発明的概念を利用して、例えば、オーディオ・コンテン
ツ、グラフィック・コンテンツ等を含む多種多様のマル
チメディア・コンテンツのいずれに対しても、コンテン
ツに基づくメディア・セグメント化を実行することは認
められよう。この点について、以下に提示する実施形態
例は、本発明の範囲および精神を単に例示するに過ぎな
い。

【００１１】本発明を説明するにあたり、前述の図面を
参照しながら、ネットワーク・アーキテクチャおよび関
連する方法の例について説明する。しかしながら、ここ
に記載するアーキテクチャおよび方法に対する変更も、
本発明から逸脱することなく、当然可能であることを注
記しておく。実際には、このような代替実施形態は、本
発明の範囲および精神の中で予想されることである。計算システムの一例図１は、革新的メディア分析エージェント１０４を含む
コンピュータ・システムの一例１０２を示す。メディア
分析エージェント１０４は、メディア・コンテンツを分
析し、ショットの各フレームにおいて１つ以上のオブジ
ェクトを識別し、同様のオブジェクトを含むショットを
シーンにセグメント化し、格納して後にコンテンツに基
づいてアクセスし検索しようというものである。先に紹
介したように、そして以下に続く説明に基づいて認めら
れるように、分析エージェント１０４は、本発明の精神
および範囲から逸脱することなく、コンテンツに基づく
探索の目的で、他のタイプのメディアを識別しセグメン
ト化するためにも用いることができる。尚、図１では、
分析エージェント１０４を別個の単体アプリケーション
として図示するが、例えば、メディア・プレーヤ、メデ
ィア・ライブラリ、リッパ・アプリケーション（ripper
application）等のアプリケーションの関数としても実
現可能であることは認められよう。以下の論述から、コ
ンピュータは、あるクラスの汎用または特殊目的計算プ
ラットフォームのいずれをも表わすことを意図してお
り、革新的分析エージェント１０４を備えると、先に紹
介した第１の実施態様例にしたがって本発明の教示を実
現することは明白であろう。尚、図１のコンテクストで
は、分析エージェント１０４をソフトウエア・アプリケ
ーションとして図示しているが、コンピュータ・システ
ム１０２は代わりにエージェント１０４のハードウエア
実施態様も同様に対応可能であることは認められよう。
この点について、分析エージェント１０４の説明を別に
すれば、能力が高いコンピュータあるいは低いコンピュ
ータであっても、本発明の精神および範囲から逸脱する
ことなく、置換することも可能であるので、コンピュー
タ・システム１０２についての以下の説明は、単に例示
であることを意図している。

【００１２】図示のように、コンピュータ１０２は、１
つ以上のプロセッサ即ち演算装置１３２、システム・メ
モリ１３４、およびシステム・メモリ１３４からプロセ
ッサ１３２までを含む種々のシステム・コンポーネント
を結合するバス１３６を含む。

【００１３】バス１３６は、数種類のバス構造の内１つ
以上を表わし、メモリ・バスまたはメモリ・コントロー
ラ、周辺バス、加速グラフィックス・ポート、および種
々のバス・アーキテクチャのいずれかを用いるプロセッ
サまたはローカル・バスを含む。システム・メモリは、
リード・オンリ・メモリ（ＲＯＭ）１３８、およびラン
ダム・アクセス・メモリ（ＲＡＭ）１４０を含む。基本
入出力システム１４２（ＢＩＯＳ）は、起動中のよう
に、コンピュータ１０２内のエレメント間におけるデー
タ転送を補助する基本的なルーティンを含み、典型的に
ＲＯＭ１３８内に格納されている。コンピュータ１０２
は、更に、図示しない、ハード・ディスクに対する読み
書きを行なうハード・ディスク・ドライブ１４４、リム
ーバブル磁気ディスク１４８に対する読み書きを行なう
磁気ディスク・ドライブ１４６、およびＣＤＲＯＭ、
ＤＶＤＲＯＭまたはその他のこのような光媒体に対し
て読み書きを行なう光ディスク・ドライブ１５０を含
む。ハード・ディスク・ドライブ１４４、磁気ディスク
・ドライブ１４６、および光ディスク・ドライブ１５０
は、ＳＣＳＩインターフェース１５４またはその他の何
らかの適当なバス・インターフェースによって、バス１
３６に接続されている。ドライブおよびこれらに伴うコ
ンピュータ読み取り可能媒体は、コンピュータ読み取り
可能命令、データ構造、プログラム・モジュール、およ
びコンピュータ１０２のその他のデータの不揮発性格納
を行なう。

【００１４】ここに記載する動作環境の一例は、ハード
・ディスク１４４、リムーバブル磁気ディスク１４８、
およびリムーバブル光ディスク１５２を用いているが、
他のタイプのコンピュータ読み取り可能媒体で、コンピ
ュータによるアクセスが可能なデータを格納可能な、磁
気カセット、フラッシュ・メモリ・カード、ディジタル
・ビデオ・ディスク、ランダム・アクセス・メモリ（Ｒ
ＡＭ）、リード・オンリ・メモリ（ＲＯＭ）等も、動作
環境の一例において使用可能であることは、当業者には
認められよう。

【００１５】ハード・ディスク１４４、磁気ディスク１
４８、光ディスク１５２、ＲＯＭ１３８、またはＲＡＭ
１４０上には、オペレーティング・システム１５８、例
えば、本発明の教示を組み込んだ分析エージェント１０
４を含む１つ以上のアプリケーション・プログラム１６
０、その他のプログラム・モジュール１６２、およびプ
ログラム・データ１６４（例えば、得られた言語モデル
・データ構造等）を含む多数のプログラム・モジュール
を格納することができる。ユーザは、キーボード１６６
およびポインティング・デバイス１６８のような入力デ
バイスによって、コマンドおよび情報をコンピュータ１
０２に入力することができる。他の入力デバイス（図示
せず）には、マイクロフォン、ジョイスティック、ゲー
ム・パッド、衛星ディッシュ、スキャナ等を含むことが
できる。これらおよびその他の入力デバイスは、バス１
３６に結合されているインターフェース１７０を介し
て、演算装置１３２に接続されている。モニタ１７２ま
たはその他の形式の表示装置も、ビデオ・アダプタ１７
４のようなインターフェースを介して、バス１３６に接
続されている。モニタ１７２に加えて、パーソナル・コ
ンピュータは多くの場合、スピーカやプリンタのよう
な、その他の出力周辺装置（図示せず）も含む。

【００１６】図示のように、コンピュータ１０２は、リ
モート・コンピュータ１７６のような１つ以上のリモー
ト・コンピュータへの論理接続を用いて、ネットワーク
環境において動作することも可能である。リモート・コ
ンピュータ１７６は、別のパーソナル・コンピュータ、
パーソナル・ディジタル・アシスタント、サーバ、ルー
タまたはその他のネットワーク・デバイス、ネットワー
ク「シン・クライアント」ＰＣ（network thin-client
PC）、ピア・デバイス、あるいは共通のネットワーク・
ノードとすることもでき、典型的に、コンピュータ１０
２に関して先に述べたエレメントの多くまたは全てを含
むが、図１にはメモリ記憶素子１７８のみを図示してい
る。この点に関して、革新的分析エージェント１０４
は、例えば、計算システム１７６のようなリモート計算
システムによって呼び出し、利用することも可能であ
る。

【００１７】図示のように、図１に示す論理接続は、ロ
ーカル・エリア・ネットワーク（ＬＡＮ）１８０および
ワイド・エリア・ネットワーク（ＷＡＮ）１８２を含
む。このようなネットワーク環境は、事務所、企業規模
のコンピュータ・ネットワーク、イントラネットおよび
インターネットにおいては、一般的である。一実施形態
では、リモート・コンピュータ１７６は、ワシントン
州、ＲｅｄｍｏｎｄのＭｉｃｒｏｓｏｆｔＣｏｒｐｏ
ｒａｔｉｏｎが製造し販売する「ＩｎｔｅｒｎｅｔＥｘ
ｐｌｏｒｅｒ」ウェブ・ブラウザのような、インターネ
ット・ウェブ・ブラウザ・プログラムを実行する。

【００１８】ＬＡＮネットワーク環境で用いる場合、コ
ンピュータ１０２は、ネットワーク・インターフェース
またはアダプタ１８４を介してローカル・ネットワーク
１８０に接続する。ＷＡＮネットワーク環境で用いる場
合、コンピュータ１０２は、典型的に、モデム１８６、
またはインターネットのようなＷＡＮ１８２を通じて通
信を確立するその他の手段を含む。モデム１８６は、内
蔵でも外付けでもよく、入出力（Ｉ／Ｏ）インターフェ
ース１５６を介してバス１３６に接続することができ
る。ネットワークの接続性に加えて、パーソナル・コン
ピュータ１０２またはその一部に関係して図示したプロ
グラム・モジュールを、リモート・メモリ記憶装置に格
納することもできる。尚、図示のネットワーク接続は、
一例であり、コンピュータ間に通信リンクを確率するそ
の他の手段も使用可能であることは認められよう。

【００１９】一般に、コンピュータ１０２のデータ・プ
ロセッサは、異なる時点においてコンピュータの種々の
コンピュータ読み取り可能記憶媒体に格納されている命
令によってプログラムされている。プログラムおよびオ
ペレーティング・システムは、典型的に、例えば、フロ
ッピ・ディスクまたはＣＤ−ＲＯＭ上で配付される。そ
こから、これらをコンピュータの二次メモリにロードす
る。実行時に、これらを少なくとも部分的にコンピュー
タの一次電子メモリにロードする。ここに記載する発明
は、これらおよびその他の種々のタイプのコンピュータ
読み取り可能記憶媒体が、マイクロプロセッサまたはそ
の他のデータ・プロセッサと共に以下で説明する革新的
なステップを実施する命令またはプログラムを含む場
合、このようなメディアを含む。また、本発明は、以下
に説明する方法および技術にしたがってプログラムされ
る場合、コンピュータ自体も含む。更に、コンピュータ
のあるサブコンポーネントは、以下に説明する機能およ
びステップを実行するようにプログラムすることができ
る。本発明は、このようなサブコンポーネントを記載の
ようにプログラムする場合、これらを含む。加えて、こ
こに記載する発明は、種々のタイプのメモリ媒体上に具
体化する、データ構造を含む。これについては以下で説
明する。

【００２０】例示の目的上、オペレーティング・システ
ムのようなプログラムおよびその他の実行可能プログラ
ム・コンポーネントは、ここでは離散ブロックとして図
示するが、このようなプログラムおよびコンポーネント
は、種々の時点にコンピュータの異なる記憶コンポーネ
ント内に位置し、コンピュータのデータ・プロセッサが
実行することは認められよう。メディア分析エージェントの一例図２は、本発明の一実施態様にしたがって、本発明の教
示を組み込んだメディア分析エージェントの一例１０４
のブロック図を示す。図２に示す実施形態の一例によれ
ば、メディア分析エージェント１０４は、１つ以上のコ
ントローラ２０２、メディア分析エンジン２０４、メモ
リ／記憶装置２０６、入出力インターフェース、および
オプションとして、図示のように各々通信状態に結合し
た１つ以上のアプリケーション２１０を含むように図示
されている。先に紹介したように、メディア分析エージ
ェント１０４は、受信したメディア・フレームのコンテ
ンツを分析し、少なくとも部分的に、受信したメディア
のコンテンツの１つ以上の属性に基づいて、メディアを
異種のシーンにセグメント化する。

【００２１】本発明の実施形態の一例によれば、メディ
ア分析エージェント１０４は、選択的に、１つ以上のカ
ラー・オブジェクト分析部２１２、時間スライス分析機
能２１４、および相関検出部２１６を呼び出し、メディ
ア・シーンの識別およびセグメント化を行なう。一実施
形態によれば、カラー・オブジェクト分析部２１２また
は時間スライス分析機能のいずれかを、相関検出部２１
６と組み合わせて呼び出し、ショット間の意味的類似性
を識別し、シーンの検出およびセグメント化に役立て
る。図示のように、カラー・オブジェクト分析部は、カ
ラー空間量子化部２１８を含む。時間スライス分析機能
２１４は、モーション・パターン分析およびキー・フレ
ーム抽出機能２２０を備えるように示されている。これ
については以下で詳細に説明する。図示のように、スト
レージ／メモリ２０６は、１つ以上の受信したメディア
・コンテンツ２２４、拡張シーン・ウィンドウ・データ
構造２２６および／または識別したシーン・データ構造
２２８のためにメモリを含む。以下で更に詳細に論ずる
が、メディア分析エンジン２０４は、受信したメディア
の１つ以上の属性（例えば、カラー、テクスチャ、空間
−時間情報等）を分析し、ショット間の意味的類似性を
識別する。少なくとも部分的に意味的類似性の分析に基
づいて、メディア分析エンジン２０４は、受信したメデ
ィアをシーンにセグメント化し、後にコンテンツに基づ
いてアクセスおよび検索が行なえるようにする。

【００２２】尚、多数の異種機能ブロックとして図示し
たが、１つ以上のエレメント２０２〜２２８を１つ以上
のブロックに組み込んでもよいことは認められよう。同
様に、分析エージェント１０４は、図よりも少ない機能
ブロック、即ち、オブジェクト識別機能２１２または時
間スライス分析機能２１４の一方のみを用いても実施可
能であり、本発明の精神および範囲から逸脱する訳では
ない。

【００２３】一実施態様によれば、コントローラ２０２
は、例えば、ローカル・メモリ・ストレージ（２０
６）、リモート・メディア・プロバイダおよび／または
コンテンツ・ストレージ・ソースを含み、ネットワーク
を通じてメディア分析エージェント１０４に結合されて
いる多数のソースのいずれからも、メディア・コンテン
ツを受信する（例えば、図７参照）。一実施態様によれ
ば、メディア・コンテンツは、コントローラ２０２によ
ってリモート・ソースから受信し、分析のためにストレ
ージ／メモリ２２４に置かれる。一実施態様によれば、
メディアはホスト・コンピュータ１０２によって圧縮形
態で受信され、メディア分析エージェント１０４に提示
する前に伸長する。代替実施態様では、コントローラ２
０２は選択的に、メディア分析エージェント１０４内に
常駐するデコーダ・アプリケーション（例えば、２１
０）を呼び出し、圧縮形態で受信したメディアをデコー
ドしてから、メディア分析エージェント２０４を選択的
に呼び出す。先に述べた本発明の革新的な面を別とし
て、コントローラ２０２は、例えば、プロセッサ、特定
用途集積回路（ＡＳＩＣ）、現場プログラム可能ゲート
・アレイ（ＦＰＧＡ）、プログラマブル論理アレイ（Ｐ
ＬＡ）等のような、当技術分野では公知の多種多様の制
御ロジックのいずれをも代表することを意図している。
更に、コントローラ２０２は、（例えば、演算装置１３
２によって）実行すると、前述の制御機能を実現する複
数の実行可能命令として、ソフトウエアで実現してもよ
いことは認められて当然である。

【００２４】メディア分析エンジン２０４は、コントロ
ーラ２０２によって選択的に呼び出され、受信したメデ
ィアのショット間における意味的相関を識別し、精度高
くメディアをシーンにセグメント化する。せいぜいフレ
ーム間の視覚的類似性を識別しショット境界を識別する
程度の従来技術のシステムとは異なり、メディア分析エ
ンジン２０４は、選択的に１つ以上の意味、コンテクス
ト分析部２１２および／または２１４を呼び出し、連続
するショットにおけるフレームの１つ以上の定性的属性
を定量化する。以下で更に詳しく論ずるが、これらの属
性の定量化を相関検出部２１６に提出し、ショットが意
味的に相関付けられているか、即ち、類似しているか否
か判定を行なう。類似性のスレシホルドを満たす場合、
ショットを少なくともシーンの部分集合として集合化す
る。

【００２５】図２に示す例によれば、メディア分析エン
ジン２０４は、２つの意味コンテクスト・メディア分析
部、カラー・オブジェクト分析部２１２、および時間ス
ライス分析機能２１４を備えるように示されている。以
下の説明から認められるように、１つ以上のメディア分
析部を呼び出してシーンのセグメント化を行なうことが
できる。したがって、意味的分析能力が高いまたは低い
メディア分析エンジンを、図示の実施形態と置換しても
よく、本発明の精神および範囲から逸脱する訳ではな
い。カラー・オブジェクト分析部図示のように、カラー・オブジェクト分析部２１２は、
カラー量子化部２１８を含む。視覚的類似性を測定する
従来技術の手法とは異なり、カラー・オブジェクト分析
部２１２は、カラー量子化部を呼び出して、連続するシ
ョット内における１つ以上のフレームの１つ以上の優勢
なオブジェクトおよび／または環境オブジェクトについ
て、カラー空間におけるカラー・ヒストグラムを計算す
る。一実施態様によれば、色相、彩度、および値、即
ち、「ＨＳＶ」カラー空間をカラー量子化に用い、ヒス
トグラムを計算する。ＨＳＶカラー空間は、他のカラー
空間よりもこの分析に対して多数の利点をもたらす。な
ぜなら、これは自然で近似的に知覚が均一であり、ＨＳ
Ｖカラー空間の量子化によって、コンパクトであるが完
全なカラーの集合体を生成するからである。一実施態様
によれば、ＨＳＶカラー空間は、カラー量子化部２１８
によって、三次元（３Ｄ）デカルト座標系で量子化さ
れ、それぞれＸおよびＹに１０個の値、Ｚ（明度）に５
個の値が与えられる。当業者は、カラー（即ち、Ｘおよ
びＹ座標）を示すために１０個の値を用いることによ
り、カラー量子化部２１８は、ＨＳＶ空間において僅か
に異なるカラー間でさえも区別し、照明条件が変化して
も、より多くのオブジェクトを判別することが可能とな
ることを認めよう。

【００２６】ビデオ・ショットの優勢なカラー・オブジ
ェクトを判定するために、各フレームの画素、および／
またはショットのイントラ・エンコード（Ｉ）フレーム
におけるＤＣブロックを、カラー量子化部２１８によっ
て、量子化カラー空間（例えば、ＨＳＶカラー空間）に
投影する。３Ｄカラー空間におけるこれらの画素の正規
分布は、フレームの３Ｄカラー・ヒストグラムを形成す
る。３Ｄカラー・ヒストグラムにおける全ての優勢局部
最大点を識別し、カラー空間における狭い近傍（例え
ば、３つ量子化単位の直径を有する）内にて、各局部最
大点周囲の球をカラー・オブジェクトとして、カラー量
子化部２１８によって定義する（例えば、図３参照）。
一旦カラー・オブジェクトを識別したなら、カラー・オ
ブジェクト分析部２１２は、画素情報が最も多い１つ以
上のオブジェクトを識別する。これらのオブジェクト
は、フレームに対して最も有意なカラー情報を含むもの
として識別され、ノイズに対して立ち直りが早い（resi
lient）。一実施態様によれば、カラー・オブジェクト
分析部２１２は、上位２０個のオブジェクトを優勢オブ
ジェクトとして選択する。

【００２７】次に、カラー・オブジェクト分析部２１２
は、優勢カラー・オブジェクト内に含まれる画素のみを
カウントすることによって、各フレーム毎に３Ｄ優勢カ
ラー・ヒストグラムを生成する。一実施態様によれば、
優勢カラー・ヒストグラムは、次のように示される。

【００２８】

【数１】ここで、ｋはフレーム番号を示し、ｘ，ｙ，ｚはカラー
・ビンを示す。尚、前述のことから、カラー・オブジェ
クト分析部２１２は空間ドメインではオブジェクトのセ
グメント化を行なわないが、オブジェクトのカラー空間
における優勢領域に当てはまる画素を考慮することが認
められよう。

【００２９】一旦優勢オブジェクトを識別したなら、カ
ラー・オブジェクト分析部２１２は、フレームを跨がっ
てカラー空間内のオブジェクトを追跡し、ショットの優
勢オブジェクトを識別する。２つの連続するフレームに
おいて２つのカラー・オブジェクトの中心が十分に近い
場合、これら２つのカラー・オブジェクトを同じカラー
・オブジェクトとして認識する。このようなカラー追跡
プロセスは、ショット内のフレーム全てを追跡するまで
続ける。追跡の後、ショットにおいて最も長い持続時間
を有するカラー・オブジェクトのみを優勢オブジェクト
として保持する。一実施形態によれば、カラー・オブジ
ェクト分析部２１２は、各ショット毎に、総合的優勢カ
ラー・ヒストグラムを形成する。これは、以下のように
表わされる。

【００３０】

【数２】ここで、ａはショットを示す。総合的優勢カラー・ヒス
トグラムは、ショット全体におけるフレームに共通な優
勢カラー・オブジェクトから成る。一実施態様によれ
ば、カラー・オブジェクト分析部２１２は、ショットに
おいて持続時間が長い方のカラー・オブジェクトに重み
値を適用する。数学的には、次のように表わされる。

【００３１】

【数３】ここで、ｄ₀はショットの持続時間、ｄ_lはカラー（ｘ，
ｙ，ｚ）を有する優勢カラー・オブジェクトの持続時間
である。一実施態様によれば、カラー・オブジェクト分
析部２１２は、更にヒストグラム（３）を詳細化するに
あたり、ショット内の各優勢カラー・オブジェクトの平
均サイズを正規化する。したがって、ショットの優勢カ
ラー・ヒストグラムは、フレーム内における構造的コン
テンツ、およびショット内における時間的コンテンツ双
方を表わす。また、これらの優勢カラー・オブジェクト
は、多くの場合ショットにおける優勢オブジェクトまた
は背景を表わし、２つのショットにおけるこれらカラー
・オブジェクト間の相関は、２つのショット間の相関の
優れた指標となる。

【００３２】一旦図３に移り、本発明の一態様にしたが
って、識別したオブジェクトを収容した、一例のＨＳＶ
カラー空間の模式図を提示する。図示のように、２つの
カラー空間円筒が図示されており、各々、例えば、フレ
ーム（Ｎ）３０２およびフレーム（Ｎ＋１）３０４を表
わす。ＨＳＶカラー・ヒストグラム３０２および３０４
は、関連するフレーム（３０２，３０４）内における優
勢カラー・オブジェクト（例えば、３０６Ａ…Ｎ，３０
８Ａ…Ｎ）を識別し、ショット内における優勢カラー・
オブジェクトを識別するために用いられる。続いて、こ
のようなＨＳＶカラー・ヒストグラムを利用して、優勢
カラー・オブジェクトを識別し、シーンのセグメント化
を行なう。

【００３３】引き続き図２を参照すると、一旦カラー・
オブジェクト分析部２１２によって優勢カラー・オブジ
ェクト・ヒストグラムを生成したなら、コントローラ２
０２は選択的に相関検出部２１６のインスタンスを呼び
出し、２つのショットａおよびｂ間の相関スコアを求め
る。相関検出部２１６は、多数の統計技法のいずれも用
いても、ショット間の相関を識別することができる。例
示の一実施態様によれば、相関検出部２１６は、ショッ
トａおよびＢ間の相関を計算する際に、２つのショット
の２つの優勢カラー・ヒストグラム間のヒストグラムの
交点を計算する。数学的に表わすと次の通りであり、

【００３４】

【数４】次の特性を有する。

【００３５】１）０≦ｃｏｒ（ａ，ｂ）≦１，ｃｏｒ（ａ，ａ）＝１２）ｃｏｒ（ａ，ｂ）＝ｃｏｒ（ｂ，ａ）ショット集合化のための拡張ウィンドウ方式少なくとも部分的に、相関検出部２６１によって行なっ
た相関分析に基づいて、コントローラ２０２は、ショッ
トを集合化し、メディアをシーンにセグメント化する。
例示の一実施態様によれば、コントローラ２０２は、最
小相関スレシホルド（Ｔｃ）を満たすショットを集合化
する。

【００３６】本発明の一態様によれば、コントローラ２
０２は、メモリ２０６の拡張ウィンドウ２１８を利用し
て、少なくとも部分的に相関検出部２１６によって求め
た相関スコアに基づいて、相関付けられた連続ショット
を１つのシーンに集合化する。以下の論述に基づいて、
拡張ウィンドウ技術によって、多くのショット対を比較
したり、複雑なショット・リンクを構成する必要性をな
くすことによって、実施態様の計算上の複雑さを低下さ
せることは認められよう。

【００３７】むしろ、時間的制約、即ち、時間的に接近
しているショットは同じシーンに属する可能性が高いこ
とを考慮すると、２つのショット間の相関スコアを、次
の時間近接性（または牽引）係数で重み付けする。

【００３８】

【数５】ここで、ｄは２つのショット間の最短距離、Ｃは少なく
とも部分的に平均ショット長によって決定した定数であ
る。一実施態様によれば、コントローラ２０２は、あら
ゆるシーンが少なくとも３つのショットを含むと仮定し
ている。最初に、最初の３つのショットが新たなシーン
を形成し、拡張ウィンドウのサイズを３にセットする。
新たなショットを分析する毎に、その相関スコアをウィ
ンドウ内の最後の３つのショットと比較し、３つの相関
スコア間の最大値νを決定する。次に、計算した最大値
が平均最大相関スコアから、拡張ウィンドウ内に含まれ
るショットのあらゆる変動を減じた値よりも大きい場
合、このショットを拡張ウィンドウ内の現シーンに吸収
する。数学的には、コントローラ２０２によって行われ
る比較は次のように表わされる。

【００３９】

【数６】最大値（ｖ）がこのスレシホルドを満たさない場合、続
くショットをもう少し多く分析し、現ショットが新たな
シーンの開始を表わすことの信頼性を高める。前述のシ
ーンに含まれるという要件を満たさない１ショットがシ
ーンの中にある場合が多いことが経験的にわかってい
る。しかしながら、続くショットの分析を追加すること
によって、現ショットが意味的シーンの終端を表わすの
ではないことを確認することができる。コントローラ２
０２が、１つ以上の続くショットが基準（６）を満たす
と判定した場合、拡張ウィンドウ２１８内で展開したシ
ーン内に、以前のシーンをいずれでも含ませることがで
きる。数学的には、コントローラ２０２は、現ショット
ｉの牽引比（attraction ratio）を、以下のように、新
たなシーンに向けて形成する。

【００４０】

【数７】ここで、R(i)＞TおよびR(i)>R(i-1)およびR(i)>R(i+1)
の場合、 left(i) = max[cor(i, i-1), cor(i, i-2), cor(i, i-
3)] left(i+1) = max[cor(i+1, i-1), cor(i+1, i-2)] right(i) = max[cor(i, i+1), cor(i, i+2), cor(i, i+
3)] right(i+1) = max[cor(i+1, i+2), cor(i+1, i+3), cor
(i+1, i+4)] Ｔはスレシホルドである。

【００４１】一実施態様によれば、コントローラ２０２
はスレシホルドＴを１．５にセットする。したがって、
右側からのショットｉへの牽引が左側からよりも大きい
場合、現ショットｉは新たなシーンを開始すると判断す
る。それ以外の場合、コントローラ２０２は、ショット
ｉを拡張ウィンドウの現シーンに置く。拡張ウィンドウ
については、図４および図５を参照しながら、以下で図
に基づいて説明する。

【００４２】図４に移り、少なくとも部分的に前述の相
関測定に基づく拡張シーン・ウィンドウにショットを追
加する図式表現を簡潔に示す。図示のように、コントロ
ーラ２０２は、ショットの相関値を以前のショットおよ
び連続するショットと比較し、ショットの各々をどのシ
ーンに置くべきか特定する。

【００４３】図５は、本発明の一態様による、拡張シー
ン・ウィンドウ２１８を含むストレージ／メモリ２０６
を図で示す。先に紹介したように、拡張ウィンドウ２１
８は、相関測定による規定にしたがって、同様の意味的
内容を有するショットを集合化するために用いられる。空間−時間分析機能カラー・オブジェクト分析部２１２に加えて、あるいは
これの代わりに、コントローラ２０２は、空間−時間ス
ライス分析機能２１４のインスタンスを選択的に呼び出
して、離散シーンを識別したショット間の意味的類似性
を識別することもできる。図示のように、時間スライス
分析機能２１４は、モーション分析機能２２０および空
間分析機能２２２を含む。以下で更に詳しく説明する
が、時間スライス分析機能２１４は、連続ショットにお
けるフレームから、１つ以上の水平および垂直一次元
（１Ｄ）スライスを切り出し、スライスのモーション・
パターンを定量化し、キー・フレームを選択して、ショ
ットの各モーション・セグメントを表わす。少なくとも
部分的に１Ｄショットからの定量化した特徴に基づい
て、コントローラ２０２は、相関検出部２１６のインス
タンスを呼び出し、隣接するショットからの定量化した
特徴間の類似性を測定し、シーンの境界を識別する。こ
の場合も、従来技術とは異なり、時間スライス分析機能
は、ショット間の意味的繋がり（cohesion）を識別し、
メディア・シーンを識別する。

【００４４】一実施形態によれば、時間スライス分析機
能２１４は、受信したメディアの垂直および水平面から
１Ｄスライスを切り出し、モーション分析機能２２０の
インスタンスを選択的に呼び出す。モーション分析機能
２２０は、各ショットのスライスを、更に小さなセグメ
ントに区分する。各セグメントは、一致したモーション
・パターンを有する。二次元空間−時間スライスにおい
て、時間テクスチャは、モーションの軌跡を示す情報を
含む。一実施態様によれば、従来のテクスチャ分析方法
は、例えば、同時発生マトリクス計算のように用いら
れ、ショットにおけるモーション・パターンを特徴化す
る。一実施態様によれば、１５個の同時発生マトリクス
を計算し、３つの異なる方向で５つのシーンに跨がる軌
跡をモデル化しつつ、各マトリクスの平滑性および明暗
を表わす３０個の特徴を抽出する。１５個の同時発生マ
トリクスの一例を、図６を参照しながら示す。

【００４５】一実施態様によれば、モーション分析機能
２２０は、以下の４つのタイプの１つにしたがって、少
なくとも部分的に基礎モーションに基づいて、各セグメ
ントのモーションを特徴付ける。１）無モーションまた
は僅かなモーション、２）ズーム・インまたはズーム・
アウト、３）パン、および４）ティルト。少なくとも部
分的に、一致するモーション・パターンの各セグメント
に対するモーション・パターンに基づいて、以下の規則
にしたがって１つ以上のキー・フレームを選択する。

【００４６】１）無モーションまたは僅かなモーショ
ン：任意のフレームを選択しインデックス化する。２）ズーム・インまたはズーム・アウト：最初および最
後のフレームを選択しインデックス化する。

【００４７】３）パン：対応する垂直スライスを選択し
インデックス化する。４）ティルト：対応する水平スライスを選択しインデッ
クス化する。一旦インデックス化すると、各ショットは、少なくとも
部分的に前述のモーション分析に基づいて抽出した１つ
以上のキー・フレーム集合の特徴によって表わされる。
キー・フレームの特徴は、カラー・ヒストグラム、また
はその他の画像の特徴とすることができる。少なくとも
部分的にショットのキー・フレームの特徴に基づいて、
相関検出部はショットの類似性尺度を計算し、ショット
が意味的に関係するか否か判定を行い、関係がある場
合、コントローラ２０２はショットをシーンにセグメン
ト化し、少なくとも一時的にメモリ２２８に格納する。
一実施形態では、コントローラ２０２は、ショット間の
類似性を計算する際、２つのショットのキー・フレーム
間のヒストグラム交点を識別する。また、先に紹介した
ように、一実施形態によれば、メディア分析エージェン
ト１０４は、拡張ウィンドウを利用して、意味的類似性
のスレシホルドを満たすショットから、動的にシーンを
生成する。

【００４８】ここで用いる場合、ストレージ／メモリ２
０６および入出力インターフェース２０８は、各々、こ
れらが当技術分野において周知の通りのエレメントを表
わすことを意図している。ストレージ／メモリ２０６
は、メディア分析エージェント１０４が、少なくとも一
時的に、メディア・コンテンツ２２４、拡張シーン・ウ
ィンドウ２２６および／または識別したシーン２２８を
維持するために利用する。Ｉ／Ｏインターフェース２０
８は、メディア分析エージェント１０４が、外部エレメ
ントおよびシステムと通信を行うことによって、容易に
分散アーキテクチャおよびリモート動作を行なえるよう
にする。

【００４９】アプリケーション２１０は、シーンのセグ
メント化のために意味的に繋がりのあるショットを自動
的に識別するためにメディア分析エンジン２０４を用い
ることができる、あるいはメディア分析エンジン２０４
によって用いることができる多種多様のアプリケーショ
ンを含むことを意図している。この点について、アプリ
エーション２１０は、グラフィカル・ユーザ・インター
フェース（ＧＵＩ）、メディア・プレーヤ、メディア生
成器、メディア・データベース・コントローラ等も含む
ことができる。

【００５０】前述のことから、メディア分析エージェン
トは、多数の代替実施形態においても実現できることが
認められよう。一実施態様によれば、メディア分析エー
ジェント１０４は、単体アプリケーションとして、例え
ば、メディア・デコーダ・アプリケーション、メディア
・レンダリング・アプリケーション、ブラウザ・アプリ
ケーション、メディア・プレーヤ・アプリケーション等
のような上位マルチメディア・アプリケーションの部分
集合としてソフトウエアで実現する。あるいは、メディ
ア分析エージェント１０４は、例えば、用途特定集積回
路（ＡＳＩＣ）、コントローラ、プログラマブル・ロジ
ック・デバイス（ＰＬＤ）、マルチメディア・アクセレ
レータ周辺機器等において、ハードウエアで実現するこ
とも可能である。このような代替実施態様は、本発明の
範囲および精神に該当するものとする。動作および実施態様の一例以上、図１ないし図６を参照しながら、メディア分析エ
ージェント１０４の動作環境および機能エレメントにつ
いて紹介したが、これより図７ないし図１０を参照しな
がら、システムの動作について以下に更に詳しく展開し
ていく。以下では、メディア分析エージェント１０４の
動作は、意味的にビデオ・メディアをセグメント化する
というコンテクストで進めていくが、これは図示を容易
にするためであり、限定のためではない。しかしなが
ら、メディア分析エージェント１０４は、例えば、オー
ディオ・コンテンツのような他のタイプのメディアでも
意味的にセグメント化するように拡張可能であること
を、当業者は認めよう。

【００５１】図７は、本発明の一実施形態にしたがっ
て、動的にメディアを意味的に類似するユニットにセグ
メント化する方法のフロー・チャートおよび一例を示
す。更に具体的には、図示する実施態様の一例では、図
７は、少なくとも部分的にシーンを構成するショット間
の意味的類似性に基づいて、ビデオ・コンテンツを動的
にシーンにセグメント化する方法の一例を提示する。

【００５２】図示のように、図７の方法は、開始する
と、ブロック７０２において、メディア・コンテンツを
セグメント化する指示を受ける。更に具体的には、メデ
ィア分析エージェント１０４のコントローラ２０２は、
ローカル・アプリケーション（例えば、２１０）または
外部ソースから、即ち、Ｉ／Ｏインターフェース２０８
を介して、指示を受ける。

【００５３】応答して、メディア分析エージェント１０
４は、ブロック７０４において、メディア分析エンジン
２０４のインスタンスを呼び出し、識別したメディア・
コンテンツを分析し、メディアを構成するショット間の
意味的類似性を識別する。先に紹介したように、メディ
ア分析エンジン２０４は、選択的にカラー・オブジェク
ト分析部２１２を呼び出してカラー・オブジェクトのセ
グメント化を行なうか、時間スライス分析機能２１４を
呼び出してメディア・コンテンツの時間スライス分析を
行なう。少なくとも部分的にこのような分析に基づい
て、相関検出部２１６を呼び出し、統計的に意味的に繋
がりがあるショットを識別する。

【００５４】ブロック７０６において、統計的に意味的
に関係があると判断されたショットを共に集合化し、意
味的に関係するメディア・コンテンツのシーンを形成す
る。先に紹介したように、あるショットが以前および／
または後続のショットに意味的に関係があると一旦相関
検出部２１６が判断したなら、シーンを定義するショッ
トの拡張ウィンドウ（２１８）にこのショットを追加す
る。拡張ウィンドウ２１８の利用によって、従来技術で
は共通して付随していた厄介な計算上の複雑性から、メ
ディア分析エージェント１０４を解放する。

【００５５】図８は、本発明の一態様によるカラー・オ
ブジェクト・セグメント化方法の一例のフロー・チャー
トを示す。図示した実施形態の一例において、この方法
はブロック８０２から開始し、ＨＳＶカラー空間におい
てメディア・コンテンツを分析する。即ち、フレームか
らのコンテンツを、ＨＳＶカラー空間においてカラー量
子化部２１８によって量子化する。

【００５６】ブロック８０４において、ＨＳＶカラー空
間において、優勢オブジェクトを識別し、フレームおよ
びショット全域にわたって追跡する。更に具体的には、
先に紹介したように、コントローラ２０２がＨＳＶカラ
ー空間内のオブジェクトを識別し、フレームの境界を超
えてこのようなオブジェクトを追跡する。フレーム間の
オブジェクトの位置が殆ど動かない場合、これは類似意
味構造の指標である。

【００５７】ブロック８０６において、ＨＳＶカラー空
間内における優勢カラー・オブジェクトに関する情報を
相関検出部２１６に送る。相関検出部２１６は、少なく
とも部分的に連続ショット内の優勢カラー・オブジェク
トに基づいて、意味的類似性の尺度を求める。ブロック
８０８において、統計的に他のショットと意味的に類似
するショットを、ショットの拡張ウィンドウに集合化す
る。一旦意味的に類似するショットを全て識別したなら
（したがって、拡張ウィンドウ内に保持したなら）、シ
ョットをシーンとして定義し、後のアクセスおよび検索
のために格納する。

【００５８】図９は、本発明の位置態様による時間スラ
イス分析方法の一例のフロー・チャートを示す。先に紹
介したように、メディア分析エンジン２０４は、選択的
に、カラー・オブジェクト分析部２１２の代わりとし
て、またはこれに加えて、時間スライス分析機能２１４
を呼び出し、意味的に類似するショットを識別し、シー
ンとしてセグメント化することができる。カラー・オブ
ジェクト分析部２１２とは異なり、時間スライス分析機
能２１４は、受信したメディア・コンテンツのモーショ
ンおよび空間−時間テクスチャ属性を分析し、シーンを
セグメント化する。

【００５９】このように、図９に示す実施形態の一例に
よれば、この方法を開始すると、ブロック９０２におい
て、１つ以上の連続ショットの１つ以上のフレームから
一次元水平および垂直スライスを抽出する。モーション
分析機能２２０は、ブロック９０４において、少なくと
も部分的にセグメントのモーション属性に基づいてスラ
イスを更に小さなセグメントに繰り返し区分する。

【００６０】ブロック９０６において、コントローラ２
０２は、時間分析関数２２２を選択的に呼び出し、モー
ション・パターン分析に基づいてショットのキー・フレ
ームを抽出し、これらキー・フレームの特徴を抽出し
て、ショットのビジュアル・コンテンツを表わす。図示
した実施形態の一例によれば、先に紹介したように、時
間分析機能２２２はキー・フレームの１つ以上のモーシ
ョン、カラーおよび／または時間テクスチャ属性を抽出
し、ショットのビジュアル・コンテンツを表わす。

【００６１】ブロック９０８において、識別したショッ
トのキー・フレームの特徴を相関検出部２１６に供給す
る。相関検出部２１６は、少なくとも部分的にこれらの
特徴に基づいて、ショット間の意味的類似性の統計的尺
度を求める。前述のように、統計的に類似した意味のコ
ンテクストを有するショットを共に集合化し、シーンを
形成する。前述のように、コントローラ２０２は、拡張
ウィンドウ２１８を用いて、シーン・セグメント化にお
いてショットを集合化することも可能である。代替実施形態図１０は、本発明の更に別の実施形態にしたがって、本
発明の教示を実現する命令を含む複数の命令を格納した
記憶媒体のブロック図である。概略的に、図１０は、複
数の実行可能命令を格納し、少なくともその一部が、実
行すると、本発明のメディア分析エージェント１０４を
実現する部分集合を含む、記憶媒体／素子１０００を示
す。

【００６２】ここで用いる場合、記憶媒体１０００は、
例えば、揮発性メモリ素子、不揮発性メモリ素子、磁気
記憶媒体、光記憶媒体等のように、当業者には公知の多
数の記憶素子および／または記憶媒体のいずれをも表わ
すことを意図している。同様に、実行可能命令は、例え
ば、Ｃ＋＋、ビジュアル・ベーシック、ハイパーテキス
ト・マークアップ言語（ＨＴＭＬ）、Ｊａｖａ（登録商
標）、ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇ
ｕａｇｅ（ＸＭＬ）等のように、当技術分野では公知の
多数のソフトウエア言語のいずれをも反映することを意
図している。更に、記憶媒体／素子１０００は、いずれ
のホスト・システムと一緒に位置する必要はないことも
認められよう。即ち、記憶媒体／素子１０００は、実行
システムに通信状態に結合されこれによるアクセスが可
能なリモート・サーバ内に常駐してもよい。したがっ
て、本発明の精神および範囲内において代替記憶媒体お
よびソフトウエアの実施形態が考えられるので、図１０
のソフトウエア実施態様は、例示として見なすこととす
る。

【００６３】以上、構造的特徴および／または方法論的
ステップに特定的な言語で本発明を説明したが、添付し
た特許請求の範囲に規定する本発明は、必ずしも記載し
た具体的な特徴またはステップに限定される訳ではない
ことは理解されよう。例えば、ここに提示した発明的概
念は、複数のオーディオ・コンテンツを収容した記憶媒
体（例えば、音楽ＣＤ）上で、別個のオーディオ・コン
テンツ（例えば、歌）を識別するためにも用いることが
できる。この代替実施態様によれば、メディア分析エー
ジェント１０４のアプリケーション２１０は、記憶媒体
上のオーディオ・コンテンツのカラー表現を生成する。
例えば、スペクトル分析等のように、多数の教示のいず
れでも、このオーディオ−ビジュアル変換を実行するた
めに用いることができる。一旦オーディオ−ビジュアル
変換が完了したなら、メディア分析エージェント１０４
は、カラー・オブジェクト分析部２１２、カラー量子化
部２１８および相関検出部２１６を選択的に呼び出し、
前述した本発明の教示にしたがって、複数のオーディオ
・コンテンツから意味的に別個のオーディオ・コンテン
ツを識別する。したがって、前述の具体的な特徴および
ステップは、ここに紹介した広義の発明的概念の実施態
様の一例として開示したに過ぎないことは認められよ
う。

【図面の簡単な説明】

【図１】本発明の教示を組み込んだ計算システムの一例
のブロック図である。

【図２】本発明の実施形態の一例にしたがって、コンテ
ンツに基づくシーン・セグメント化を実行するメディア
分析エージェントの一例のブロック図である。

【図３】本発明の一態様による、カラー・オブジェクト
のセグメント化および追跡を示す模式図である。

【図４】本発明の一態様による、拡張ウィンドウ・ショ
ット集合化技法を示す模式図である。

【図５】本発明の一態様による拡張シーン・ウィンドウ
を備えたデータ構造の模式図である。

【図６】本発明の一態様による時間的スライス分析に用
いる同時発生マトリクスの模式図である。

【図７】本発明の実施形態の一例による、コンテンツに
基づくシーン・セグメント化方法の一例のフロー・チャ
ートである。

【図８】本発明の一態様にしたがって、メディア・コン
テンツのショット間における意味的類似性を識別する、
カラー・オブジェクト・セグメント化方法の一例のフロ
ー・チャートである。

【図９】本発明の一態様にしたがって、メディア・コン
テンツのショット間における意味的類似性を識別する、
時間スライス分析方法の一例のフロー・チャートであ
る。

【図１０】複数の実行可能命令を格納し、少なくともそ
の部分集合が、本発明の教示を組み込んだメディア分析
エージェントを実現する、記憶媒体の一例のブロック図
である。

【符号の説明】

１０２コンピュータ・システム１０４革新的メディア分析エージェント１３２演算装置１３４システム・メモリ１３６バス１３８リード・オンリ・メモリ（ＲＯＭ）１４０ランダム・アクセス・メモリ（ＲＡＭ）１４２基本入出力システム（ＢＩＯＳ）１４４ハード・ディスク・ドライブ１４６磁気ディスク・ドライブ１４８リムーバブル磁気ディスク１５０光ディスク・ドライブ１５４ＳＣＳＩインターフェース１５６入出力（Ｉ／Ｏ）インターフェース１５８オペレーティング・システム１６０アプリケーション・プログラム１６２プログラム・モジュール１６４プログラム・データ１６６キーボード１６８ポインティング・デバイス１７０インターフェース１７６リモート・コンピュータ１７８メモリ記憶素子１８０ローカル・エリア・ネットワーク（ＬＡＮ）１８２ワイド・エリア・ネットワーク（ＷＡＮ）１８４アダプタ１８６モデム２０２コントローラ２０４メディア分析エンジン２０６メモリ／記憶装置２１２カラー・オブジェクト分析部２１４時間スライス分析機能２１６相関検出部２１８カラー空間量子化部２２０モーション・パターン分析およびキー・フレ
ーム抽出機能２２４メディア・コンテンツ２２６拡張シーン・ウィンドウ・データ構造２２８シーン・データ構造３０２，３０４フレーム３０６Ａ…Ｎ，３０８Ａ…Ｎ優勢カラー・オブジェ
クト１０００記憶媒体／素子

【手続補正書】

【提出日】平成１３年１０月９日（２００１．１０．
９）

【手続補正１】

【補正対象書類名】図面

【補正対象項目名】全図

【補正方法】変更

【補正内容】

【図１】

【図２】

【図３】

【図４】

【図７】

【図８】

【図５】

【図６】

【図９】

【図１０】

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 7/24 Ｈ０４Ｎ 5/91 Ｎ (72)発明者ホン−ジャン・チャン中華人民共和国 101300 ペキン，シュン・イ・ディストリクト，キャピタル・パラダイス 701 Ｆターム(参考） 5C052 AA01 AA16 DD04 5C053 FA14 GB21 LA11 LA14 5C059 KK36 MA04 MC11 PP16 PP28 SS11 UA02 5L096 AA02 FA34 FA35 HA02 JA11

Claims

【特許請求の範囲】

【請求項１】受信したメディア・コンテンツの連続シ
ョットの１つ以上の属性を分析するステップと、少なくとも部分的に前記ショットの１つ以上の属性の分
析に基づいて、連続ショットに対して相関スコアを求め
るステップと、から成る方法。
【請求項２】請求項１記載の方法において、前記メデ
ィア・コンテンツは、リモート・プロバイダおよび／ま
たはローカル・ストレージから受信する、方法。
【請求項３】請求項１記載の方法において、前記相関
スコアは、前記連続ショット間の意味的相関を反映す
る、方法。
【請求項４】請求項１記載の方法において、メディア
の連続ショットの１つ以上の属性を分析するステップ
は、前記フレームのカラー・ヒストグラムを生成するステッ
プと、前記カラー・ヒストグラムにおいて、優勢カラー・オブ
ジェクトを識別するステップと、から成る、方法。
【請求項５】請求項４記載の方法において、前記フレ
ームのカラー・ヒストグラムを生成するステップは、フレームの画素、および／またはイントラ・エンコード
・フレームのＤＣブロックを、量子化カラー空間内に投
影するステップと、前記画素および／またはブロックの正規分布を生成し、
各フレーム毎に前記カラー・ヒストグラムを作成するス
テップと、から成る、方法。
【請求項６】請求項５記載の方法において、前記量子
化カラー空間は、色相、彩度および値（ＨＳＶ）カラー
空間である、方法。
【請求項７】請求項４記載の方法であって、更に、前記カラー空間において識別したカラー・オブジェクト
を、フレームを跨いで追跡するステップと、少なくとも部分的にフレーム間における優勢カラー・オ
ブジェクトの相対位置に基づいて、ショット境界を検出
するステップと、を含む、方法。
【請求項８】請求項１記載の方法であって、更に、検出したショット間で相関スコアを求めるステップと、少なくとも部分的に前記求めた相関スコアに基づいて、
シーンを定義するショットの、動的にサイズを決めた拡
張ウィンドウにショットを追加するステップと、を含
む、方法。
【請求項９】請求項８記載の方法において、前記求め
た相関は、少なくとも部分的に、前記ショットにおける
カラー・オブジェクトの相関を反映する、方法。
【請求項１０】請求項８記載の方法において、前記相
関スコアを求めるステップは、２つ以上のショットの各々に関連する前記カラー・ヒス
トグラムの交点を識別するステップを含む、方法。
【請求項１１】実行すると、請求項１記載の方法を実
現する部分集合を含む、複数の実行可能命令を備えた記
憶媒体。
【請求項１２】計算システムであって、複数の実行可能命令を含む記憶媒体と、前記記憶媒体に結合され、少なくとも前記実行可能命令
の複数個を実行し、請求項１記載の方法を実現する、実
行ユニットと、を備える計算システム。
【請求項１３】カラー空間において、受信したメディ
ア・コンテンツに関連するカラー情報を分析して、１つ
以上のカラー・オブジェクトを識別するステップと、前記受信したメディア・コンテンツ全体にわたって前記
カラー・オブジェクトを追跡し、ショットを識別するス
テップと、少なくとも部分的に、前記受信したメディア・コンテン
ツに関連する前記分析したカラー情報に基づいて、ショ
ット間の相関を定量化し、シーンを識別するステップ
と、から成る方法。
【請求項１４】請求項１３記載の方法において、カラ
ー情報を分析するステップは、各フレームの画素、またはイントラ・エンコード・フレ
ームのＤＣブロックを、量子化カラー空間に投影するス
テップと、前記画素および／またはブロックの正規分布を求め、前
記メディア・コンテンツのカラー・ヒストグラムを形成
するステップと、から成る、方法。
【請求項１５】請求項１４記載の方法であって、更
に、前記カラー・ヒストグラムにおいて局部最大点を識別す
るステップと、前記識別した局部最大値の各々を取り囲むＮ個の量子化
ユニットの球として、カラー・オブジェクトを定義する
ステップと、を含む、方法。
【請求項１６】請求項１５記載の方法において、前記
カラー・オブジェクトは、識別した局部最大値を取り囲
む３つの量子化ユニットの球として定義する、方法。
【請求項１７】請求項１５記載の方法において、前記
メディア・コンテンツ全体にわたってカラー・オブジェ
クトを追跡するステップは、２つのフレームに関連する前記カラー空間において１つ
以上のカラー・オブジェクトを選択するステップと、前記フレームの各々に現れるオブジェクトが同じオブジ
ェクトである可能性を示す相関スコアを前記フレームに
対して求めるステップと、から成る、方法。
【請求項１８】請求項１７記載の方法において、フレ
ーム間で前記相関スコアを求めるステップは、２つのフレームの各々において、カラー・オブジェクト
の中心点を突き止めるステップと、各フレームにおける前記オブジェクトの中心点の各々の
相対位置を計算し、前記オブジェクトの相対位置が所定
のスレシホルドだけずれない場合、前記オブジェクトを
共通オブジェクトとして識別するステップと、から成
る、方法。
【請求項１９】請求項１５記載の方法であって、更
に、識別したショットを構成するフレーム全体において最も
長い持続時間を有するカラー・オブジェクトのみを含む
ように、ショット・カラー・ヒストグラムを生成するス
テップを含む、方法。
【請求項２０】請求項１９記載の方法において、ショ
ット間で相関を定量化するステップは、２つのショット・カラー・ヒストグラム間でヒストグラ
ム交点を計算し、ショット間の意味的相関を決定するス
テップを含む、方法。
【請求項２１】請求項２０記載の方法であって、更
に、ショット間の前記相関スコアが所定のスレシホルドを超
過した場合、意味的に相関のあるショットの拡張ウィン
ドウに、ショットを集合化するステップを含む、方法。
【請求項２２】請求項２１記載の方法において、前記
ショットのグループがシーンを構成する、方法。
【請求項２３】請求項１３記載の方法であって、更
に、ショット間の前記相関スコアが所定のスレシホルドを超
過した場合、意味的に相関のあるショットの拡張ウィン
ドウにショットを集合化するステップを含む、方法。
【請求項２４】実行すると、請求項１３記載の方法を
実現する複数の実行可能命令を備える記憶媒体。
【請求項２５】計算システムであって、複数の実行可能命令を含む記憶媒体と、前記記憶媒体に結合され、少なくとも前記複数の実行可
能命令の部分集合にアクセスして実行し、請求項１３記
載の方法を実現する、実行ユニットと、を備える計算シ
ステム。
【請求項２６】受信したメディア・コンテンツの１つ
以上の属性を分析し、前記受信したコンテンツのエレメ
ント間の意味的類似性を識別するステップと、前記受信したメディア・コンテンツを、意味的に相関の
あるエレメントにセグメント化するステップと、から成
る方法。
【請求項２７】請求項２６記載の方法において、分析
するステップは、受信したメディアのフレームのカラー空間内においてオ
ブジェクトを識別し、フレームを跨いで前記カラー空間において識別したオブ
ジェクトを追跡し、フレーム間で相関スコアを求め、シ
ョット境界を検出するステップから成る、方法。
【請求項２８】請求項２６記載の方法において、分析
するステップは、受信したメディアのフレームから１つ以上のスライスを
抽出し、前記受信したメディアの１つ以上の空間−時間
属性を分析するステップと、少なくとも部分的に前記フレームの空間−時間属性に基
づいて、フレーム間で相関スコアを求めるステップと、少なくとも部分的にフレーム間の前記相関スコアに基づ
いて、ショット内においてセグメント境界を選択するス
テップと、から成る、方法。
【請求項２９】請求項２６記載の方法において、セグ
メント化するステップは、識別したショット間で相関スコアを求めるステップと、動的拡張ウィンドウに、相関スコアが所定のスレシホル
ドを超過したショットを収容するステップと、から成
る、方法。
【請求項３０】請求項２９記載の方法において、前記
相関スコアを求めるステップは、少なくとも部分的に前記フレームの時間−空間属性に基
づいて、識別したショットの各セグメントに対して１つ
以上のキー・フレームを選択するステップと、少なくとも部分的に前記ショットのキー・フレームの視
覚的特徴に基づいて、識別したショット間で相関スコア
を求めるステップと、から成る、方法。
【請求項３１】実行するとメディア分析エージェント
を実現し、受信したメディア・コンテンツの１つ以上の
属性を分析して、前記受信したコンテンツのエレメント
間の意味的類似性を識別し、前記受信したメディア・コ
ンテンツを、意味的に相関のあるエレメントのシーンに
セグメント化する複数の命令を備える記憶媒体。
【請求項３２】請求項３１記載の記憶媒体において、
前記受信メディアの１つ以上の属性を分析する前記命令
は、受信したメディアのフレームのカラー空間内におい
てオブジェクトを識別し、フレームを跨いで前記カラー
空間において識別したオブジェクトを追跡し、フレーム
間で相関スコアを求め、ショット境界を検出する命令を
含む、記憶媒体。
【請求項３３】請求項３１記載の記憶媒体において、
前記受信メディアの１つ以上の属性を分析する前記命令
は、受信したメディアのフレームから１つ以上のスライ
スを抽出し、前記受信したメディアのフレームの１つ以
上の空間−時間属性を分析し、少なくとも部分的に前記
フレームの時間−空間属性に基づいてフレーム間で相関
スコアを求め、更に少なくとも部分的にフレーム間の前
記相関スコアに基づいて、ショット境界を選択する命令
を含む、記憶媒体。
【請求項３４】請求項３１記載の記憶媒体において、
前記受信したメディアをセグメント化する前記命令は、
識別したショット間で相関スコアを求め、動的拡張ウィ
ンドウに、相関スコアが所定のスレシホルドを超過した
ショットを収容する命令を含む、記憶媒体。
【請求項３５】計算システムであって、請求項３１記載の記憶媒体を着脱自在に受容するディス
ク・ドライブと、前記ディスク・ドライブに結合され、前記着脱自在に受
容した記憶媒体上の複数の命令の内少なくとも部分集合
を実行し、前記メディア分析エージェントを実現する実
行ユニットと、を備える計算システム。
【請求項３６】計算システムであって、メディア・コンテンツを受け取り、供給するメモリ素子
と、前記メモリ素子に結合され、メディア・コンテンツの１
つ以上の属性を分析し、前記受け取ったメディア・コン
テンツのエレメント間の意味的類似性を識別し、前記受
け取ったメディア・コンテンツを、意味的に相関のある
エレメントのシーンにセグメント化するメディア分析エ
ージェントと、を備える計算システム。
【請求項３７】請求項３６記載の計算システムにおい
て、前記メディア分析エージェントは、メディア・フレームの画素および／またはイントラ・エ
ンコード・フレームのＤＣブロックを量子化カラー空間
に投影し、前記フレームのカラー・ヒストグラムを生成
するカラー・オブジェクト分析部を備える、計算システ
ム。
【請求項３８】請求項３７記載の計算システムにおい
て、前記カラー・オブジェクト分析部は、前記カラー・
ヒストグラムにおける局部最大値からカラー空間オブジ
ェクトを識別し、フレームを跨がって優勢カラー空間オ
ブジェクトを追跡し、意味的に類似したフレームのショ
ットを識別する、計算システム。
【請求項３９】請求項３５記載の計算システムにおい
て、前記メディア分析エージェントは、更に、前記カラー・オブジェクト分析部からの複数のショット
に関連する１つ以上の属性を受け取り、２つ以上の前記
ショット間で相関スコアを計算する相関検出部を備え
る、計算システム。
【請求項４０】請求項３９記載の計算システムにおい
て、前記メディア分析エージェントは、更に、前記相関検出部に結合され、全てのショットを統計的に
分析してシーンに含ませるまで、前記シーンを規定する
意味的に相関のあるショットを保持する、動的サイズ可
変拡張ウィンドウを備える、計算システム。
【請求項４１】請求項３６記載の計算システムにおい
て、前記メディア分析エージェントは、１つ以上のフレームから一次元スライスを抽出し、前記
スライスの１つ以上の空間−時間属性を分析し、ショッ
トの境界を検出する時間スライス分析部を備える、計算
システム。
【請求項４２】請求項４１記載の計算システムにおい
て、前記メディア分析エージェントは、更に、前記時間スライス分析部からの複数のショットに関連す
る１つ以上の属性を受け取り、前記ショットの２つ以上
の間で相関スコアを計算する相関検出部を備える、計算
システム。
【請求項４３】請求項４２記載の計算システムにおい
て、前記メディア分析エージェントは、更に、前記相関検出部に結合され、全てのショットを統計的に
分析してシーンに含ませるまで、前記シーンを規定す
る、意味的に相関のあるショットを保持する、動的サイ
ズ可変拡張ウィンドウを備える、計算システム。