JP2000287166A - データ記述方法及びデータ処理装置 - Google Patents
データ記述方法及びデータ処理装置Info
- Publication number
- JP2000287166A JP2000287166A JP2000023338A JP2000023338A JP2000287166A JP 2000287166 A JP2000287166 A JP 2000287166A JP 2000023338 A JP2000023338 A JP 2000023338A JP 2000023338 A JP2000023338 A JP 2000023338A JP 2000287166 A JP2000287166 A JP 2000287166A
- Authority
- JP
- Japan
- Prior art keywords
- descriptor
- data
- video
- scene
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
ジングする高度な方法を実現する。 【解決手段】 ビデオデータの内容の特徴を表す特徴デ
ータを記述するための記述方法を定義する単位要素とな
るディスクリプタは、下位要素としての属性が定義され
る構造を有し、属性として他のディスクリプタを含み得
る記述フォーマットにより形成される。すなわち、ディ
スクリプタの記述フォーマットは、下位要素のディスク
リプタ或いは属性を示すフィーチャ(Feature)と、こ
のフィーチャのデータ型を示すフィーチャタイプ(Feat
ure Type)とからなる。
Description
の特徴を表す特徴データを記述するためのデータ記述方
法に関する。また、本発明は、この特徴データを生成す
るデータ処理装置に関する。さらに、本発明は、この特
徴データを利用するデータ処理装置に関する。
番組といった大量の異なる映像データにより構成される
映像アプリケーションの中から、興味のある部分等の所
望の部分を探して再生したい場合がある。
めの一般的な技術としては、アプリケーションの主要場
面を描いた一連の映像を並べて作成されたパネルである
ストーリーボードがある。このストーリーボードは、ビ
デオデータをいわゆるショットに分解し、各ショットに
おいて代表される映像を表示したものである。このよう
な映像抽出技術は、そのほとんどが、例えば“G. Ahang
er and T.D.C. Little, A survey of technologies for
parsing and indexing digital video, J. ofVisual C
ommunication and Image Representation 7:28-4, 199
6”に記載されているように、ビデオ構造からショット
を自動的に検出して抽出するものである。
的な30分のテレビ番組中には、数百ものショットが含
まれている。そのため、上述した従来の映像抽出技術に
おいては、ユーザは、抽出された膨大な数のショットを
並べたストーリーボードを調べる必要があり、このよう
なストーリーボードを理解する際、ユーザに大きな負担
を強いる必要があった。また、従来の映像抽出技術にお
いては、例えば話し手の変化に応じて交互に2者を撮影
した会話場面におけるショットは、冗長のものが多いと
いう問題があった。このように、ショットは、ビデオ構
造を抽出する対象としては階層が低すぎて無駄な情報量
が多く、このようなショット抽出に基づく従来のビデオ
構造抽出技術は、ユーザに大きな負担を強いる必要があ
った。
れば、ビデオ構造抽出技術は、ショットより上位のレベ
ルを含めて、ビデオデータの内容に応じた様々なレベル
におけるビデオ構造を把握する必要がある。しかしなが
ら、このようなビデオ構造を抽出する処理は、非常に複
雑であり、その結果、このようなビデオ構造を抽出する
ための装置は、高度な処理能力や大容量の計算資源を有
するものである必要があった。したがって、要するコス
トや労力を踏まえると、家庭においてこのような処理を
行うことは、非常に困難であった。
たものであり、ビデオデータの内容を検索してブラウジ
ングするための高度な方法を実現し、種々のビデオデー
タの自動内容解析により得られたビデオ構造を記述する
ためのデータ記述方法を提供することを目的とするもの
である。また、本発明は、ビデオデータの自動内容解析
に基づいて、このようなデータを生成するデータ処理装
置を提供することを目的とするものである。さらに、本
発明は、このようなデータを利用して、特に家庭等にお
いて、ビデオ・コンテンツに容易で且つ個人的なアクセ
スを可能とするデータ処理装置を提供することを目的と
するものである。
本発明にかかるデータ記述方法は、入力データの内容の
特徴を表す特徴データを記述するためのデータ記述方法
であって、記述方法を定義する単位要素となる記述子
は、下位要素としての属性が定義される構造を有し、属
性として記述子を含み得ることを特徴としている。
は、構造を有する記述子の集合を用いて、特徴データの
構造化した記述を可能とする。
かるデータ処理装置は、入力データの内容の特徴を表す
特徴データを生成するデータ処理装置であって、記述方
法を定義する単位要素となる記述子に関し、下位要素と
しての属性が定義される構造を有し、属性として記述子
を含み得る記述子に基づいて特徴データを生成する生成
手段を備えることを特徴としている。
は、構造を有する記述子の集合を用いて、構造化された
特徴データを生成する。
かかるデータ処理装置は、入力データの内容の特徴を表
す特徴データを利用するデータ処理装置であって、記述
方法を定義する単位要素となる記述子に関し、下位要素
としての属性が定義される構造を有し、属性として記述
子を含み得る記述子に基づいて生成された特徴データを
利用して、入力データの内容の特徴を復元する復元手段
を備えることを特徴としている。
は、特徴データに基づいて、入力データの内容の特徴を
復元する。
実施の形態について図面を参照しながら詳細に説明す
る。
映像データと音声データとからなるビデオデータといっ
たマルチメディア・コンテンツ等を供給する放送局等に
おける送信装置と、例えばディジタルビデオやホーム・
サーバといった送信装置からのマルチメディア・コンテ
ンツ等を受信して処理する受信装置とにより構成される
データ送受信処理システムである。このデータ送受信処
理システムは、ここでは、マルチメディア・コンテンツ
としてビデオデータを扱うものとする。データ送受信処
理システムの具体的な説明を行う前に、ここではまず本
発明において対象とするマルチメディア・コンテンツで
あるビデオデータに関する説明を行う。
ついては、図1に示すようにモデル化し、フレーム、セ
グメント、シーン、プログラムといったレベルに階層化
された構造を有するものとする。すなわち、ビデオデー
タは、最下位層において、一連のフレームにより構成さ
れる。また、ビデオデータは、フレームの1つ上の階層
として、連続するフレームのひと続きから形成されるセ
グメントにより構成される。さらに、ビデオデータは、
セグメントのさらに1つ上の階層として、このセグメン
トを意味のある関連に基づきまとめて形成されるシーン
により構成される。さらにまた、ビデオデータは、ここ
では図示しないが、関連するシーンをまとめて形成され
るプログラムといったさらに上の階層をも必要に応じて
有するものとする。
声の両方の情報を含む。すなわち、このビデオデータに
おいてフレームには、単一の静止画像である映像フレー
ムと、一般に数十〜数百ミリセカンド/長といった短時
間においてサンプルされた音声情報を表す音声フレーム
とが含まれる。
連続的に撮影された映像フレームのひと続きから構成さ
れ、一般にはショットと呼ばれる。そして、セグメント
には、映像セグメントと音声セグメントとが含まれ、ビ
デオ構造における基本単位となる。これらのセグメント
の中で、特に音声セグメントについては、多くの定義が
可能であり、例として次に示すようなものが考えられ
る。まず、音声セグメントは、一般によく知られている
方法により検出されたビデオデータ中の無音期間により
境界を定められて形成される場合がある。また、音声セ
グメントは、“D.Kimber and L. Wilcox, Acoustic Seg
mentation for Audio Browsers, Xerox Parc Technical
Report”に記載されているように、例えば、音声、音
楽、ノイズ、無音等のように少数のカテゴリに分類され
た音声フレームのひと続きから形成される場合もある。
さらに、音声セグメントは、“S. Pfeiffer, S. Fische
r and E. Wolfgang, Automatic Audio Content Analysi
s, Proceeding of ACM Multimedia 96, Nov. 1996, pp2
1-30”に記載されているように、2枚の連続する音声フ
レーム間の或る特徴における大きな変化を音声カット点
として検出し、この音声カット点に基づいて決定される
場合もある。
意味に基づくより高いレベルで記述するために、映像セ
グメント(ショット)検出或いは音声セグメント検出に
より得られたセグメントを、例えばセグメント内の知覚
的アクティビティ量といったセグメントの特徴を表す特
徴量を用いて意味のあるまとまりにグループ化したもの
である。
するシーンの並びを表すものである。具体例としては、
映画、一般のテレビ番組、ニュース番組、スポーツ中継
等がある。
示すデータ送受信処理システムは、マルチメディア・コ
ンテンツとしての上述したビデオデータ等の各種データ
を供給する送信装置10と、この送信装置10からビデ
オデータ等の各種データを受信する受信装置20とを備
える。
したビデオデータを保持する記憶部11と、この記憶部
11からのビデオデータの内容の特徴を表してビデオ構
造等を記述した特徴データを生成する生成手段である特
徴データ生成部12と、記憶部11からのマルチメディ
ア・コンテンツをエンコードするエンコーダ13と、特
徴データ生成部12からの特徴データをエンコードする
エンコーダ14とを備える。
に、送信装置10からのエンコードされたマルチメディ
ア・コンテンツをデコードするデコーダ21と、送信装
置10からのエンコードされた特徴データをデコードす
るデコーダ22と、特徴データに基づいてビデオ構造を
解析し、所望の内容をユーザに提供する復元手段である
検索エンジン23とを備える。
いて、送信装置10は、記憶部11に保持されたビデオ
データのビデオ構造等を記述する特徴データを生成し、
図示しない伝送路を介して、この特徴データをビデオデ
ータとともに受信装置20へ送信する。そして、受信装
置20は、受信した特徴データに基づき、受信したビデ
オデータのビデオ構造を回復し、例えば、上述した各シ
ーンを代表する一連のフレームを閲覧可能としたデータ
であるストーリーボード等を生成する。
ムにおいては、例えば、ユーザが受信装置20における
検索エンジン23を介して、ビデオデータにおける所望
の内容を見たいという要求を受信装置20に与えると、
受信装置20は、検索エンジン23によって、回復され
たビデオデータのビデオ構造を解析し、所望の内容をユ
ーザに提供することができる。したがって、ユーザは、
ビデオデータに対して容易で且つ個人的にアクセスする
ことが可能となり、ブラウジングを効率よく行うことが
できる。
された低レベルの特徴を用いて高レベルのビデオ構造を
抽出するための特徴データの記述内容について詳細に説
明する。
するのに必要となる特徴項目をディスクリプタ(Descri
ptor)、さらに、これらのディスクリプタの構造化され
た集合体をディスクリプション・スキーム(Descriptio
n Scheme)と称することとする。本発明において、この
ディスクリプション・スキームは、ビデオデータにおけ
る映像と音声との両方の特徴に基づいてビデオデータの
基本的な構造を記述するためのビデオ・コア・ディスク
リプション・スキーム(Video Core Description Schem
e;以下、VCSと略記する。)と、このVCSを、ビ
デオ構造を視覚化するのに必要なディスクリプタにより
拡張し、特にビデオデータのブラウジングでの使用を目
的としたビデオ・ブラウジング・ディスクリプション・
スキーム(Video Browsing Description Scheme;以
下、VBSと略記する。)とからなる。
デオ構造を捉えるために使用されるものであって、ビデ
オデータにおける映像セグメント及び音声セグメントの
構造とそれらの相互関係との記述を可能とするものであ
る。VCSでは、ビデオデータにおける互いに類似する
セグメントをまとめて形成された類似セグメント構造
と、時間的に連続したセグメントの集合である時間セグ
メント構造と、セグメント間の論理的関係に基づく論理
セグメント構造という3つの異なる構造を記述するため
のディスクリプション・スキームが、単一のディスクリ
プション・スキームとして調和的に統合されている。ま
た、VCSは、ビデオデータの低レベルから意味的構造
までの様々なレベルにおけるビデオ構造の記述を可能と
する。すなわち、VCSは、構造化されたビデオデータ
における様々な詳細レベルにおいて、ビデオデータに関
する様々な情報にアクセスすることを可能とする。
再構成して、視聴者がその内容を理解し、興味がある部
分を見出すことを可能とするものである。また、VBS
は、フレームのような低レベルのみではなく、シーンの
ような高レベルについても、類似性に基づく検索を可能
とするものである。
属性を有する構造体であって、下位要素として自らを含
めた他のディスクリプタ及び/又は特定の属性が定義さ
れることにより構成される。以下、本発明におけるディ
スクリプタを、図3に示すような記述フォーマットにし
たがって説明する。同図に示す記述フォーマットにおい
て、ディスクリプタ(Descriptor)は、当該ディスクリ
プタ名を表し、スーパークラス(Superclass)は、当該
ディスクリプタの上位クラスのディスクリプタ名を表
し、フィーチャ(Feature)は、下位要素のディスクリ
プタ及び/又は属性を表し、フィーチャタイプ(Featur
e Type)は、フィーチャのデータ型を表すこととなる。
なお、必要に応じて、実例値(Example Value)とし
て、下位要素のフィーチャの数値例を与える。
される上位クラスのディスクリプタとは、いわゆるオブ
ジェクト指向表現において、当該ディスクリプタが継承
する元のディスクリプタを指す。すなわち、本発明にお
けるディスクリプタは、オブジェクト指向表現により記
述され、下位のディスクリプタは、その上位となるディ
スクリプタの機能を継承することとする。このことによ
り、これらのディスクリプタは、高度な機能を有するも
のへと容易に拡張することができ、このディスクリプタ
を用いて記述される特徴データを、より簡便に構成する
ことができる。本発明における全てのディスクリプタの
継承関係を図4に示す。
同図に示すように、VCS或いはその拡張ディスクリプ
ション・スキームであるVBSのいずれかに属し、全体
として1つの体系を形成する。
としては、オーディオ・ビジュアル・エレメント(Audi
o Visual Element;以下、AVエレメント又はAVEl
ementと略記する。)と、オーディオ・ビジュアル
・セグメント(Audio VisualSegment;以下、AVセグ
メント又はAVSegmentと略記する。)と、オー
ディオ・ビジュアル・アブストラクト(Audio Visual A
bstract;以下、AVアブストラクト又はAVAbst
ractと略記する。)と、オーディオ・ビジュアル・
プロトタイプ(Audio Visual Prototype;以下、AVプ
ロトタイプ又はAVPrototypeと略記する。)
と、ハイアラキ(Hierarchy)と、クラスタ(Cluster)
と、コンポジッド・セグメント(Composite Segment)
と、オーディオ・ビジュアル・グラフ(Audio Visual G
raph;以下、AVグラフ又はAVGraphと略記す
る。)と、オーディオ・ビジュアル・グラフエッジ(Au
dioVisual Graph Edge;以下、AVグラフエッジ又はA
VGraphEdgeと略記する。)と、シグネチャ
(Signature)と、テンポラル・シグネチャ(Temporal
Signature)と、アクティビティ・レベル(Activity Le
vel)と、ウエイト・ベクトル(Weight Vector)と、コ
ンセプト(Concept)とがあり、コンセプトが参照可能
な情報としてXML,RDFがある。
ては、シノプシス(Synopsis)と、カラー(Color)
と、カラー・スペース(Color Space)と、カラー・シ
グネチャ(Color Signature)と、オーディオ・フレー
ム(Audio Frame;以下、音声フレームと略記する。)
と、ビジュアル・フレーム(Visual Frame;以下、映像
フレームと略記する。)と、ブラウジング・ノード(Br
owsing Node)と、ショット(Shot)と、シーン(Scen
e)と、プログラム(Program)とがある。
るディスクリプタは、ディスクリプタ間の継承関係にお
ける上位クラスのディスクリプタであることを示し、◇
が付随しているディスクリプタは、それと接続している
ディスクリプタに属性を与えるディスクリプタであるこ
とを示している。すなわち、ディスクリプタ間の関係に
おいて、AVセグメントと、AVアブストラクトと、ハ
イアラキと、クラスタと、AVグラフとにおける継承元
のディスクリプタは、AVエレメントである。また、デ
ィスクリプタ間の関係において、AVグラフに属性を与
えるディスクリプタは、AVグラフエッジである。同様
に、他のディスクリプタについても、継承元のディスク
リプタと、属性を表すディスクリプタとを示すことがで
きる。
次説明していく。なお、以下の議論の中では、ビデオデ
ータは、1つの映像ストリームと1つの音声ストリーム
とが存在するものとして説明を進めるが、本発明におけ
るディスクリプション・スキームは、ビデオデータ中に
任意の数の映像ストリームと音声ストリームとが含まれ
ているような一般的な場合も取り扱うことができるもの
である。
て、AVエレメント・ディスクリプタについて説明す
る。このAVエレメント・ディスクリプタは、映像音声
ストリームの内容解析を行うための論理ユニットを表す
抽象的なディスクリプタである。ここで、AVエレメン
トの定義は、映像フレームのような基本的な解析ユニッ
ト、ショットやシーンのような高レベルの構造ユニッ
ト、若しくは、或る俳優が登場する全てのフレーム等と
いった分類法に基づくユニット等、映像音声ストリーム
内における任意のユニットを表すものとする。
タの記述フォーマットは、図5に示すようなものにな
る。このAVエレメント・ディスクリプタは、映像音声
ストリームの内容を記述するための抽象的なエレメント
を与える。すなわち、VCSにおいて、映像音声ストリ
ームの内容の何らかの側面を記述する他の全てのディス
クリプタは、このAVエレメント・ディスクリプタを継
承することとなる。AVエレメント・ディスクリプタ
は、特徴データとして、実際のビデオデータを指しても
よく、或いは、ビデオデータの内容を記述するために作
られた抽象的或いは解析的構成物を指してもよい。
について説明する。VCSにおいて最も重要なディスク
リプタは、このAVセグメント・ディスクリプタであ
る。ここで、AVセグメントとは、少なくとも1つ以上
の映像音声ストリームを含むビデオストリームを部分的
に区切ったもの、すなわち、セグメントである。このセ
グメントは、ビデオデータに付随された統一的な時間情
報を用いて指定してもよく、または、ビデオデータに統
一的に付けられたフレーム番号等を用いて指定してもよ
い。
タの記述フォーマットは、図6に示すようなものにな
る。このAVセグメント・ディスクリプタは、上位クラ
スであるAVエレメント・ディスクリプタを継承してい
る。また、AVセグメント・ディスクリプタは、下位要
素のディスクリプタ或いは属性を示すフィーチャとし
て、その型がポジション(Position)であり、ビデオデ
ータ内での当該セグメントの開始位置を示すスタートポ
イント(Start Point)と、その型がポジション(Posit
ion)であり、ビデオデータ内での当該セグメントの終
了位置を示すエンドポイント(End Point)と、その型
がストリーム参照(Streamref)の集合であり、対象ビ
デオデータへの参照を示すストリームズ(Streams)
と、その型がAVアブストラクト(AVAbstract)の集合
であり、当該セグメントの映像音声上の内容要約を示
し、実例値としてキーフレーム(Key frame)が挙げら
れるアブストラクト(Abstract)と、その型がコンセプ
ト(Concept)の集合であり、当該セグメントの概念的
な内容を与える0個以上の注釈を示し、実例値として当
該セグメントのRDFに基づく構造記述データへの参照
が挙げられるコンセプト(Concept)とを有する。
れが扱うセグメントの詳細レベルに制限はない。すなわ
ち、AVセグメントは、例えば、単一の映像フレームの
ような低レベルセグメントから、テレビ番組中における
コマーシャルのような高レベルセグメントまで、様々な
詳細レベルのセグメント表すのに用いることができる。
ムにおける最小のAVセグメントを、それぞれ、映像フ
レーム及び音声フレームと称する。映像ストリームにお
いて、映像フレームとは、上述したように、単一の静止
画像を示す。一方、音声ストリームにおいて、音声フレ
ームとは、単一の音声サンプリング値ではなく、解析を
可能とするに足る音声サンプリング値の集合である。V
CSにおいては、映像フレーム及び音声フレームは、A
Vセグメントの最も基本的なノードとして取り扱われ
る。AVセグメントのその他の例としては、ショットや
シーン等がある。
n)は、時間情報を表現することが可能である任意のデ
ータ型であり、その唯一の必要条件は、それが継続時間
の計測を可能とし、且つビデオデータ内の全てのストリ
ームについて共通の時間軸を与える数量スケールである
ことである。具体例としては、ビデオデータの開始から
の時間を秒単位で計測したものが挙げられる。また、St
reamrefは、複合ストリーム・マルチメディア文書内の
単一ストリームへの参照を可能とする任意のデータ型で
ある。
プタについて説明する。このAVアブストラクト・ディ
スクリプタの記述フォーマットは、図7に示すようなも
のになる。このAVアブストラクト・ディスクリプタ
は、上位クラスであるAVエレメント・ディスクリプタ
を継承している。
AVエレメントの内容の要約を与えるものである。例え
ば、或るAVエレメントにおいて、それを代表するよう
な下位のAVエレメント(例えばこのAVエレメントが
シーンを指すならば、下位のAVエレメントはショット
となる。)を選択すれば、これを当該AVエレメントの
要約となる場合もある。
リプタで示される要約とは、それが代表するところのA
Vエレメントの内容を代替して表現するものである。V
CSにおいて、このAVアブストラクト・ディスクリプ
タの最も重要な使用方法は、類似AVエレメントの検索
等において、その要約を比較するだけで、目的のAVエ
レメントの同定を可能とすることである。すなわち、こ
の要約とは、AVエレメントの検出、比較、検索等を行
うためのキーとしての役割を果たすものである。
タについて説明する。このAVプロトタイプ・ディスク
リプタの記述フォーマットは、図8に示すようなものに
なる。このAVプロトタイプ・ディスクリプタは、上位
クラスであるAVアブストラクト・ディスクリプタを継
承している。また、AVプロトタイプ・ディスクリプタ
は、下位要素のディスクリプタ或いは属性を示すフィー
チャとして、その型が文字列(String)であり、このA
Vプロトタイプ・ディスクリプタが示すAVエレメント
の種類を示し、実例値としてショット(Shot)、シーン
(Scene)若しくは映像フレーム(VisualFrame)が挙げ
られる種別(Kind)と、その他必要に応じて、その型が
任意のディスクリプタである複数の特徴(Feature1,・
・・,Featuren)と、その型が重みベクトル(Weight V
ector)であり、当該AVプロトタイプ・ディスクリプ
タが下位要素として持つ特徴の重要度の重み付けを示す
ウエイト(Weights)とを有する。
メントの概略を与える。VCSにおいては、このAVプ
ロトタイプによって、或る型のAVエレメントの概略
を、ディスクリプタ値の集合として記述することができ
る。別の見方をすれば、或るプロトタイプ・エレメント
は、それが示すAVエレメントに含まれる任意数の具体
的要素或いはその解析物によって、そのAVエレメント
の概略を与えるものである。
うに、例えば或る単一のショットにおいて、そのショッ
トが含む全ての画像を考える。この画像グループについ
て、プロトタイプとしての画像を定義したい場合、画像
グループの中の或る画像を用いる代わりに、ショット中
の全画像の平均値画像を求めることによって、この平均
値画像を、プロトタイプ中の特徴値として用いることが
できる。
は、例えばショットやシーンといったビデオデータの構
造解析の際に使用されるセグメントを代表するフレーム
を示すこともある。例えば、後述するように、複数のシ
ョットに対し、各ショットにおける特徴値として、それ
らがAVプロトタイプとして示した映像フレームに関す
る特徴値を抽出して比較し、時間的に近接して類似した
ショットを検出して繰り返しまとめていくことによっ
て、最終的にシーンを生成することができる。
いて説明する。ビデオデータにおいて互いに類似する或
いは関連する映像セグメントや音声セグメントを一緒に
グループ化することは、内容に基づく検索やブラウジン
グのためにビデオデータを階層構造化する基本的な方法
である。そこで、VCSにおいては、ツリーに基づく階
層構造を用いることにより、構造内の様々な詳細レベル
において、映像セグメントや音声セグメントの集合のグ
ループ化を表すことを可能としている。この階層構造
は、以下の特徴を提供する。すなわち、第1の特徴とし
ては、様々な詳細レベルでのアクセスを可能とすること
であり、第2の特徴としては、上位レベルにおいて内容
要約を提供することである。また、第3の特徴として
は、階層的分類法を提供することであり、第4の特徴と
しては、高レベルの層において、近似的に意味論的分類
を提供することである。
マットは、図10に示すようなものになる。このハイア
ラキ・ディスクリプタは、上位クラスであるAVエレメ
ント・ディスクリプタを継承している。また、ハイアラ
キ・ディスクリプタは、下位要素のディスクリプタ或い
は属性を示すフィーチャとして、その型がクラスタ(Cl
uster)であり、階層の起点を示すルート(Root)と、
その型が文字列(String)であり、階層の種類を示す種
別(Kind)とを有する。
は、関連した或いは類似した複数のAVエレメントを1
つの階層構造としてまとめた結果そのものを示すもので
ある。
て説明する。このクラスタ・ディスクリプタの記述フォ
ーマットは、図11に示すようなものになる。このクラ
スタ・ディスクリプタは、上位クラスであるAVエレメ
ント・ディスクリプタを継承している。また、クラスタ
・ディスクリプタは、下位要素のディスクリプタ或いは
属性を示すフィーチャとして、その型がAVエレメント
(AVElement)の集合であり、このグループ内に直接含
まれる複数のAVエレメントを示すメンバー(Member
s)と、その型がAVアブストラクト(AVAbstract)で
あり、このクラスタに含まれるメンバーのうち、このク
ラスタを代表する典型的なメンバーを表す値を示すアブ
ストラクト(Abstract)とを有する。
関連した或いは或いは類似したAVエレメントを一緒に
グループ化して、1つのまとまりを形成することを表す
ものである。この定義は再帰的であって、或るクラスタ
は、メンバーとして他のクラスタを含んでもよい。その
場合、それらのクラスタ群は、階層的な分類構造を構成
することとなる。
とによって、例えば図12に示すように、セグメント間
の類似性(similarity)を基にしたセグメントのクラス
タリングを行い、その結果を記述することができる。具
体的には、クラスタ・ディスクリプタを用いることによ
って、後述するように、類似性に基づくショットのクラ
スタリングを行うことができる。
する方法としては、多数のものが知られており、例え
ば、凝集階層クラスタリング法(agglomerative hierar
chicalclustering methods)等がある。
スクリプタについて説明する。類似性に基づく階層的分
類は、セグメント間の時間的順序とは無関係に構築され
たものである。そこで、ビデオデータの時間的階層構造
を与える目的で、コンポジッド・セグメントを導入す
る。ここで、コンポジッドとは、例えば図13に示すよ
うに、時間軸上に並ぶAVエレメントから形成される階
層構造を表現するものである。
タの記述フォーマットは、図14に示すようなものにな
る。このコンポジッド・セグメント・ディスクリプタ
は、上位クラスであるAVセグメント・ディスクリプタ
を継承している。また、コンポジッド・セグメント・デ
ィスクリプタは、下位要素のディスクリプタ或いは属性
を示すフィーチャとして、その型がAVセグメント(AV
Segment)の集合であるコンポーネント(Components)
を有する。なお、このコンポジッド・セグメント・ディ
スクリプタは、特別な種類のAVセグメント・ディスク
リプタであり、上述したコンポーネントの導入によっ
て、セグメンテーションが繰り返し生起される様子を表
現することができる。
タは、AVセグメントの時間軸上のシーケンスが、互い
に類似するサブシーケンス或いは関連するサブシーケン
スに分割される様子を記述する。このコンポジッド・セ
グメント・ディスクリプタを用いることによって、ビデ
オデータの構造を時間軸上のツリー構造として記述する
ことができる。具体的には、コンポジッド・セグメント
・ディスクリプタを用いることによって、後述するよう
に、類似するセグメントをグループ化してクラスタリン
グした結果をシーンとして記述したり、シーンをさらに
クラスタリングして、ビデオデータ全体の構造をツリー
構造として記述することができる。
AVグラフエッジ・ディスクリプタについて説明する。
ビデオデータの論理的構造を捉えるために、AVグラフ
を導入する。なお、ここでは、AVグラフを、AVグラ
フエッジにより構成されるグラフと定義する。また、こ
こでは、AVグラフエッジを、各節点がAVエレメント
を表し、節点を結ぶ枝(edge)が、一方のAVエレメン
トから他方のAVエレメントへの関係を表すグラフエッ
ジと定義する。
なる種類の関係を示すラベルの付いた枝を有するグラフ
エッジの集合体として、各AVエレメントが互いに結合
される様子を記述する。
記述フォーマットは、図15に示すようなものになる。
このAVグラフ・ディスクリプタは、上位クラスである
AVエレメント・ディスクリプタを継承している。ま
た、AVグラフ・ディスクリプタは、下位要素のディス
クリプタ或いは属性を示すフィーチャとして、その型が
複数のAVグラフエッジ(AVGraphEdge)の集合であ
り、そのAVグラフを構成するAVグラフエッジを示す
枝(Edges)と、その型が文字列(String)であり、そ
のAVグラフの種類を示す種別(Kind)とを有する。
て、ビデオデータの繰り返し構造が記述できるようにな
る。具体的には、AVグラフ・ディスクリプタによっ
て、後述するように、検出したシーンの内容を、そのシ
ーンの繰り返し構造として記述することで、ビデオデー
タ全体の構造解析を行うことを可能とする。例として、
図16(A)に示すような会話場面を形成する一連のシ
ョットにおける2つの異なるAVグラフを同図(B)及
び同図(C)に示す。同図(B)に示す例は、単純な直
線的構造を示すものであり、同図(C)に示す例は、話
し手に応じて交代するショットという特徴を有する意味
的構造を示すものである。
の記述フォーマットは、図17に示すようなものにな
る。このAVグラフエッジ・ディスクリプタは、下位要
素のディスクリプタ或いは属性を示すフィーチャとし
て、その型がAVエレメント(AVElement)であり、こ
の枝の起点エレメントであることを示すソース(Sourc
e)と、その型がAVエレメント(AVElement)であり、
この枝の終点エレメントであることを示すターゲット
(Target)と、その型が文字列(String)であり、この
枝に結合されたエレメント間の関係の種類を表すラベル
(Label)とを有する。
プタは、2つのAVエレメントの間の有向関係(direct
ed connection)を表す。
特定のAVグラフに属する。また、同じAVエレメント
が、異なるAVグラフに属することもあり得る。さら
に、同じAVエレメントが、異なるAVグラフに属しつ
つも、互いに結合されることもあり得る。
が参照できるAVエレメントの型について、何ら特定の
制約をも課さない。すなわち、節点は、AVプロトタイ
プをも参照することができる。そのような場合には、そ
のAVグラフは、AVプロトタイプ・グラフと称され、
ビデオデータの構造の原型(prototype)を表す。この
ような構造を用いて、例えばテレビのニュース番組にお
ける構造を表すことができる。
点が、他のまとまったグラフを示すような入れ子構造に
なったAVグラフを形成することを許容する。これによ
り、AVグラフは、様々なレベルで表現された構造を捉
えることを可能とする。
いて説明する。このシグネチャ・ディスクリプタの記述
フォーマットは、図18に示すようなものになる。この
シグネチャ・ディスクリプタは、上位クラスであるAV
アブストラクト・ディスクリプタを継承している。ま
た、シグネチャ・ディスクリプタは、下位要素のディス
クリプタ或いは属性を示すフィーチャとして、その型が
重みベクトル(WeightVector)であるウエイト(Weight
s)と、その型がAVエレメント(AVElement)の集合で
あり、それぞれの重み付けがウエイト(Weights)によ
り1対1に示されるところのメンバー(Members)と、
その型が文字列(String)であり、シグネチャの種類を
示す種別(Kind)とを有する。なお、シグネチャの比較
は、その種別が等しい場合のみ有効である。
的な複数のAVエレメントと、それぞれのエレメントの
重み値(Weights)の組み合わせにより、それが示すと
ころのAVエレメントの静的な内容を代表して表すもの
である。
ット・キーフレーム(Shot Key Frames)がある。ショ
ット・キーフレームとは、コンテンツから抽出された各
ショットを代表する複数のフレームである。各キーフレ
ームの重みは、そのショットを代表するフレームにおい
て、それぞれがどの程度重要であるかを示す指標とな
る。
ログラム・シグネチャ(Program Signature)がある。
プログラム・シグネチャとは、或るプログラムの特徴を
強く表すショットの組である。例えば、ニュースプログ
ラムを考えたとき、オープニングのロゴが出現するショ
ット、キャスターのショット、最後のロゴのショット等
がそのニュースプログラムの特徴を最も表したものとし
て使用できる。
クリプタについて説明する。このテンポラル・シグネチ
ャ・ディスクリプタの記述フォーマットは、図19に示
すようなものになる。このテンポラル・シグネチャ・デ
ィスクリプタは、上位クラスであるAVアブストラクト
・ディスクリプタを継承している。また、テンポラル・
シグネチャ・ディスクリプタは、下位要素のディスクリ
プタ或いは属性を示すフィーチャとして、その型が重み
ベクトル(WeightVector)であり、対象とするAVエレ
メントにおいて、各部分AVエレメントが占める相対的
継続時間を示すタイム(Time)と、その型がAVエレメ
ント(AVElement)のシーケンスであり、対象とするA
Vエレメントを代表する部分AVエレメントの時間軸に
沿ったシーケンスであるメンバー(Members)と、その
型が文字列(String)であり、テンポラル・シグネチャ
の種類を示す種別(Kind)とを有する。なお、テンポラ
ル・シグネチャの比較は、その種別が等しい場合のみ有
効である。
スクリプタは、そのメンバーである複数の代表的な部分
AVエレメントのシーケンスにより、当該テンポラル・
シグネチャ・ディスクリプタが対象とするAVエレメン
トの動的な内容を代表して表すものである。なお、それ
ぞれの部分AVエレメントに対しては重み係数が与えら
れており、それは、各AVエレメントの相対的な継続時
間に基づく。
表するのに必要な部分AVエレメントの数は、当該AV
エレメントそれ自体の動的変化の程度と、必要とする内
容の細かさとの両方に依存する。例えば、当該AVエレ
メントの変化が非常に少ない場合、これは1つの部分A
Vエレメントで代表させることができる。一方、当該A
Vエレメントの変化が激しい場合には、その変化を正確
に表すために、多数の部分AVエレメントを要すること
となる。
としては、ショット・テンポラル・シグネチャ(Shot T
emporal Signature)がある。このショット・テンポラ
ル・シグネチャは、ショットが含む複数のキーフレーム
の並びであって、これによりショットを特徴付けること
ができる。
としては、テレビジョン・プログラム・テンポラル・シ
グネチャ(Television Program Temporal Signature)
がある。このテレビジョン・プログラム・テンポラル・
シグネチャは、プログラムから抜き出したそのプログラ
ムの特徴を表すキーショットの組である。例えば、ニュ
ースプログラムの場合には、代表的なロゴの或るショッ
ト、キャスターのショット、スポーツのショット、天気
予報等が、当該ニュースプログラムの特徴をよく表した
ものとして使用することができる。
ポラル・シグネチャとは、ともに、重み付けされた部分
AVエレメントにより構成される。しかしながら、シグ
ネチャとは異なり、テンポラル・シグネチャは、そのメ
ンバー間に時間的順序を有している。すなわち、テンポ
ラル・シグネチャは、それが含むAVエレメントが時間
の経過にともなって提示されることとなる部分AVエレ
メントのシーケンスを記述する。ここで、重み係数は、
各部分AVエレメントがどの程度の(相対的)時間を必
要とするかを示す指標である。
アクティビティ・レベル・ディスクリプタと、ウエイト
・ベクトル・ディスクリプタと、コンセプト・ディスク
リプタとについて説明する。
の記述フォーマットは、図20に示すようなものにな
る。このアクティビティ・レベル・ディスクリプタは、
下位要素のディスクリプタ或いは属性を示すフィーチャ
として、その型が0以上1以下の実数(Real)であり、
0はアクティビティがないことを示すとともに、1はア
クティビティが最大であることを示すアクティビティ・
レベル(ActivityLevel)を有する。
プタは、AVエレメントにおけるAVオブジェクトの活
動量の度合いを表す。なお、アクティビティ・レベル・
ディスクリプタの生成方法は、アプリケーションに依存
する。
像セグメント中の活動量は、様々な方法で測定すること
ができる。例えば、活動量は、セグメント内の隣接フレ
ーム間の映像オブジェクト平均距離や、セグメント内で
生起する全体的な動き量或いは運動量等の測定により求
めることができる。
プタによって、後述するように、映像及び音声の特徴を
記述することができる。すなわち、アクティビティ・レ
ベル・ディスクリプタは、ビデオデータの内容の変化の
大きさを測るパラメータとして利用できる。
タの記述フォーマットは、図21に示すようなものにな
る。このウエイト・ベクトル・ディスクリプタは、下位
要素のディスクリプタ或いは属性を示すフィーチャとし
て、その型が実数のn次元ベクトル(Real[n])である
ウエイト(Weights)と、その型が論理値(Boolean)で
あり、ウエイト(Weights)に含まれる値が正規化され
た値か否かを示すフラグである正規化(Normalized)と
を有する。なお、ウエイト(Weights)には、制約条件
を課すことができる。
は、AVエレメントに適用される重み係数のn次元ベク
トルを表す。このウエイト・ベクトル・ディスクリプタ
によって、ビデオデータの特徴抽出の結果得られたパラ
メータの重み付けを指定することができる。
述フォーマットは、図22に示すようなものになる。こ
のコンセプト・ディスクリプタは、下位要素のディスク
リプタ或いは属性を示すフィーチャとして、その型がR
DFやXMLで記述されたデータへの参照を示すノード
等であるコンセプト(Concept)を有する。
て、AVエレメントを、その概念的内容(conceptual c
ontents)を記述したデータに結合することができる。
VCSにおいては、この概念的内容の記述に関し、特定
の手段を指定するものではない。
Sに属するディスクリプタ群について説明していく。
て、シノプシス・ディスクリプタについて説明する。こ
こでは、ユーザに対して、ビデオデータをブラウジング
するためのビデオ要約を提供するディスクリプタについ
て記述する。このシノプシス・ディスクリプタの意図す
るところは、或るビデオデータの内容を要約した後、視
聴者に対して、視覚的、聴覚的、又はその両方によりこ
れを提供する際に用いるAVエレメントを記述すること
である。
ォーマットは、図23に示すようなものになる。このシ
ノプシス・ディスクリプタは、上位クラスであるAVエ
レメント・ディスクリプタを継承している。また、シノ
プシス・ディスクリプタは、下位要素のディスクリプタ
或いは属性を示すフィーチャとして、その型が文字列
(String)であり、シノプシスの種類を示す種別(Kin
d)と、その型がAVエレメント(AVElement)のリスト
であり、そのシノプシスを構成するAVエレメントの並
びを示すシーケンス(Sequence)と、その型が論理値
(Boolean)であり、シーケンス内のAVエレメントの
順序が重要かどうかを示すフラグであるIsOrder
dとを有する。
ザに対して要約を提供する際に表示すべきAVエレメン
ト集合を示している。
シスとは、同じような情報を表現していると思われる。
しかしながら、そこには大きな違いがある。それは、シ
ノプシスがユーザのためにAVエレメントを要約してい
るのに対し、AVアブストラクトにおいては、検索或い
はオーディオ・ビジュアルへの索引付け(indexing)等
のための要約を行っていることである。
は、キーフレーム(Key frames)の集合がある。これ
は、AVエレメントの概要を要約するための順序付けら
れたフレーム群である。
(Digest)がある。これは、AVエレメントの要約を提
示するための順序付けられたAVセグメント群であり、
例えば、ビデオデータから切り出されたクリップの並び
である。
て、ビデオデータの内容の概要が把握できるようにな
る。具体的には、シノプシス・ディスクリプタによっ
て、後述するように、検出したシーンを、そのシーンの
代表フレームで代表させ、ストーリーボードとして表示
することができる。
説明する。カラー・ディスクリプタの記述フォーマット
は、図24に示すようなものになる。このカラー・ディ
スクリプタは、下位要素のディスクリプタ或いは属性を
示すフィーチャとして、その型が実数の3次元ベクトル
(Real[3])であり、各要素が0以上1以下の範囲で表
現された色彩要素値を示すカラー(Color)を有する。
つの異なる実数で表現する。各値は、色彩空間における
3軸に相当する。
タについて説明する。カラー・スペース・ディスクリプ
タの記述フォーマットは、図25に示すようなものにな
る。このカラー・スペース・ディスクリプタは、下位要
素のディスクリプタ或いは属性を示すフィーチャとし
て、その型が文字列(String)であり、色彩空間の名称
を示すカラー・スペース(ColorSpace)を有する。
空間で符号化することができる。これより、VBSにお
いては、カラー・スペース・ディスクリプタを用いるこ
とによって、カラー・ディスクリプタの意味をどう解釈
するかを決定する。
プタについて説明する。カラー・シグネチャ・ディスク
リプタの記述フォーマットは、図26に示すようなもの
になる。このカラー・シグネチャ・ディスクリプタは、
下位要素のディスクリプタ或いは属性を示すフィーチャ
として、その型がカラー・スペース(ColorSpace)であ
り、当該カラー・シグネチャ・ディスクリプタが計算さ
れた色彩空間を示すカラー・スペース(ColorSpace)
と、その型がカラー型のベクトル(Color[n])であり、
このシグネチャを定義する色の集合を表すカラー(Colo
rs)と、その型が重みベクトル(WeightVector)であ
り、各カラー(Colors)のシグネチャに対する重み付け
を示すウエイト(Weights)とを有する。
は、色ヒストグラムを一般化したものを表している。概
念上、ヒストグラムとは、色彩を何らかのカテゴリに分
類し、或るイメージ内におけるピクセルのそれぞれのカ
テゴリにおける出現頻度を表したものとみなすことがで
きる。そこで、カラー・シグネチャにおいては、この方
法を一般化し、任意のbin(色空間における最小分割
領域)の設定を可能としたものである。なお、各bin
は、その領域における代表的な色で表現される。
このイメージで使用されているカラーをカラー・シグネ
チャとして記述したい場合を考える。まず、カラーを表
す色彩空間を幾つかの領域に分割する。次に、それぞれ
のカラー領域へ、イメージ内のピクセルを分類してい
く。その結果得られるピクセル出現頻度の相対的割合が
ウエイト(Weights)となる。
フレーム・ディスクリプタと、映像フレーム・ディスク
リプタと、ブラウジング・ノード・ディスクリプタと、
ショット・ディスクリプタと、シーン・ディスクリプタ
と、プログラム・ディスクリプタとについて説明する。
ビデオデータは、上述したように、4層の階層構造とし
て構築される。すなわち、ここでは、フレーム(音声フ
レーム及び映像フレーム)、セグメント、シーン、プロ
グラムである。
ーマットは、図27に示すようなものになる。この音声
フレーム・ディスクリプタは、上位クラスであるAVセ
グメント・ディスクリプタを継承している。また、音声
フレーム・ディスクリプタは、下位要素のディスクリプ
タ或いは属性を示すフィーチャとして、同図では省略し
ているが、例えば音声フレームのスペクトラムを記述可
能とするフィーチャを始め、音声情報の記述、解析等に
関わる任意のフィーチャを有する。
一の音声フレームに相当するAVセグメントを表す。
述フォーマットは、図28に示すようなものになる。こ
の映像フレーム・ディスクリプタは、上位クラスである
AVセグメント・ディスクリプタを継承している。ま
た、映像フレーム・ディスクリプタは、下位要素のディ
スクリプタ或いは属性を示すフィーチャとして、その型
がカラー・シグネチャ(ColorSignature)であり、その
フレームの色特徴を示すカラー(Color)を有する。
Vセグメントの特別な場合として、単一の映像フレーム
を表す場合に用いられる。
プタの記述フォーマットは、図29に示すようなものに
なる。このブラウジング・ノード・ディスクリプタは、
上位クラスであるコンポジッド・セグメント・ディスク
リプタを継承している。また、ブラウジング・ノード・
ディスクリプタは、下位要素のディスクリプタ或いは属
性を示すフィーチャとして、その型がAVハイアラキ
(AVHierarchy)の集合であり、その下層にあるサブエ
レメントを用いて当該AVセグメントの内容のインデッ
クス化をする際に用いる階層的分類の集合を示し、実例
値としてビデオデータにおけるショットの分類階層構造
が挙げられるインデックス(Index)と、その型がAV
シノプシス(AVSynopsis)の集合であり、ビデオデータ
の或る一部分における要約を示し、実例値としてキーフ
レームの並びが挙げられるシノプシス(Synopsis)と、
その型がAVグラフ(AVGraph)であり、ビデオデータ
の或る一部分における構造を示す構造(Structure)と
を有する。
タは、ブラウジングにて使用される様々なビデオ構造の
ユニットを提供するための共通の抽象クラスである。
タから継承されるディスクリプタを用いることによっ
て、ビデオデータの内容を具体的に記述することができ
る。以下、これらのディスクリプタについて順次説明す
る。
ショット・ディスクリプタの記述フォーマットは、図3
0に示すようなものになる。このショット・ディスクリ
プタは、上位クラスであるブラウジング・ノード・ディ
スクリプタを継承している。また、ショット・ディスク
リプタは、下位要素のディスクリプタ或いは属性を示す
フィーチャとして、その型がアクティビティ・レベル
(ActivityLevel)であり、そのショットのアクティビ
ティ・レベルを示し、実例値として例えば0.5が挙げ
られるアクティビティ(Activity)と、その型がAVセ
グメントを継承する任意のディスクリプタ(FromAVSegm
ent)であり、そのショットの内容の要約を示すアブス
トラクト(Abstract)と、その型がブラウジング・ノー
ドを継承する任意のディスクリプタ(FromBrowsingNod
e)であり、音声フレーム及び/又は映像フレームの並
びから構成されるSynopsis型の要約を示すシノプシス
(Synopsis)と、その型がブラウジング・ノードを継承
する任意のディスクリプタ(FromBrowsingNode)であ
り、音声フレーム及び/又は映像フレームの分類構造と
して構成される当該ショットへのインデックスを示すイ
ンデックス(Index)とを有する。なお、これらのフィ
ーチャのうち、インデックスの指定は、必ずしも行う必
要はない。また、アブストラクトは、当該ショットに対
し、次のような内容要約を与えることを可能とする。ま
ず第1としては、音声フレーム、映像フレーム、AVプ
ロトタイプを要素とするテンポラル・シグネチャを用い
た内容要約であり、第2としては、音声フレーム、映像
フレームを要素とするシグネチャを用いた内容要約であ
る。
ィオ・ビジュアル・ユニットの最低レベル、すなわち、
ショットを表す。
ン・ディスクリプタの記述フォーマットは、図31に示
すようなものになる。このシーン・ディスクリプタは、
上位クラスであるブラウジング・ノード・ディスクリプ
タを継承している。また、シーン・ディスクリプタは、
下位要素のディスクリプタ或いは属性を示すフィーチャ
として、その型が文字列(String)であり、対象とする
シーンの種類を示し、実例値としてDIALOGやCOMMERCIAL
やACTIONやANCHORが挙げられる種別(Kind)と、その型
がAVセグメントを継承する任意のディスクリプタ(Fr
omAVSegment)であり、そのシーンの内容の要約を示す
アブストラクト(Abstract)と、その型がブラウジング
・ノードを継承する任意のディスクリプタ(FromBrowsi
ngNode)であり、ショットの並びから構成されるSynops
is型の要約を示すシノプシス(Synopsis)と、その型が
ブラウジング・ノードを継承する任意のディスクリプタ
(FromBrowsingNode)であり、ショットの分類構造とし
て構成される当該シーンへのインデックスを示すインデ
ックス(Index)と、その型がブラウジング・ノードを
継承する任意のディスクリプタ(FromBrowsingNode)で
あり、例として、ノードが類似ショットのクラスタを表
し、リンクがクラスタ間の推移を表すようなAVグラフ
を示す構造(Structure)とを有する。なお、アブスト
ラクトは、当該シーンに対し、次のような内容要約を与
えることを可能とする。すなわち、ショット又はAVプ
ロトタイプを要素とするシグネチャ或いはテンポラル・
シグネチャを用いた内容要約である。
関連するショットのまとまりであるシーンを表す。
る。プログラム・ディスクリプタの記述フォーマット
は、図32に示すようなものになる。このプログラム・
ディスクリプタは、上位クラスであるブラウジング・ノ
ード・ディスクリプタを継承している。また、プログラ
ム・ディスクリプタは、下位要素のディスクリプタ或い
は属性を示すフィーチャとして、その型がAVセグメン
トを継承する任意のディスクリプタ(FromAVSegment)
であり、そのシーンの内容の要約を示すアブストラクト
(Abstract)と、その型がブラウジング・ノードを継承
する任意のディスクリプタ(FromBrowsingNode)であ
り、シーン或いはショットの並びから構成されるSynops
is型の要約を示すシノプシス(Synopsis)と、その型が
ブラウジング・ノードを継承する任意のディスクリプタ
(FromBrowsingNode)であり、ショット及びシーンの分
類構造として構成される当該プログラムへのインデック
スを示すインデックス(Index)と、その型がブラウジ
ング・ノードを継承する任意のディスクリプタ(FromBr
owsingNode)であり、例として、ノードが類似シーンの
クラスタを表し、リンクがクラスタ間の推移を表すよう
なAVグラフを示す構造(Structure)とを有する。な
お、アブストラクトは、当該プログラムに対し、次のよ
うな内容要約を与えることを可能とする。第1として
は、シーンを要素とするシグネチャ或いはテンポラル・
シグネチャを用いた内容要約である。第2としては、シ
ョットを要素とするシグネチャ或いはテンポラル・シグ
ネチャを用いた内容要約である。また、プログラムへの
インデックスは、全てのショットへの階層的インデック
ス及び/又は全てのシーンへの階層的インデックスとい
った様々なレベルに対するインデックスより構成され
る。
ンの並びから構成されるプログラムを表す。
るVBSにおいては、様々なブラウジングノードにおけ
るインデックスに含まれる情報を用いることによって、
階層構造を有するビデオデータのオーディオ・ビジュア
ル・インデックスを、様々な詳細レベルにおいて構築す
ることが可能となる。例えば、プログラムにおいては、
ビデオデータ内の全てのショットに対し、その類似性に
より分類された階層構造を構築することができる。これ
を基に、或る詳細レベル以上の情報を表示したい場合に
は、階層構造を指定された詳細レベルにて上下に分割
し、その上の構造のみを用いればよい。さらに、分割詳
細レベルの各ノードにおけるAVエレメントのグループ
において、各グループを代表するようなメンバーをそれ
ぞれのグループから選択し、これを順次表示することに
よって、その詳細レベルにおけるプログラムの概要を与
えることができる。
造のそれぞれのレベルに関係付けられたシノプシスを用
いることによって、そのビデオデータにおけるオーディ
オ・ビジュアルな目次を表示することができる。例え
ば、それぞれのレベルが以下の表1で示すようなシノプ
シスを有する場合、これを目次として表示したいときに
は、各ショットを代表するキーフレームの中から、各レ
ベルにおけるキーフレームを取り出すことで、オーディ
オ・ビジュアルな目次を表示することができる。
体的な処理と、このような処理に対応して、上述したデ
ィスクリプション・スキームとして定義される記述方法
を用いてビデオ構造等を記述する特徴データとについて
説明する。なお、ビデオデータから構造を抽出する処理
は、上述したデータ送受信処理システムにおける送信装
置10及び受信装置20の両方において行うことができ
る。ここでは、送信装置10においてビデオデータから
シーン構造を抽出するとともに、それに対応して特徴デ
ータを生成し、ビデオデータとともに特徴データを受信
装置20へと送信するものとして説明する。
像セグメント及び音声セグメントの特徴量を用いてセグ
メント間の類似性を測定し、これらのセグメントをシー
ンにまとめることによって、ビデオ構造を自動的に抽出
する。この際、時間的に近接して反復している類似した
セグメントは、ほぼ同一シーンの一部であるため、送信
装置10は、このようなセグメントを検出してグループ
化していくことによって、シーンを検出する。このよう
な送信装置10は、図33に概略を示すような一連の処
理を行うことによって、シーンを検出する。
に、ステップS1において、ビデオ分割を行う。すなわ
ち、送信装置10は、入力されたビデオデータを映像セ
グメント又は音声セグメントのいずれか、或いは可能で
あればその両方に分割する。送信装置10は、適用する
ビデオ分割方法に特に前提要件を設けない。例えば、送
信装置10は、“G. Ahanger and T.D.C. Little, A su
rvey of technologies for parsing and indexing digi
tal video, J. of Visual Communication and Image Re
presentation 7:28-4, 1996”に記載されているような
方法によりビデオ分割を行う。このようなビデオ分割の
方法は、当該技術分野ではよく知られたものであり、送
信装置10は、いかなるビデオ分割方法も適用できるも
のとする。
いて、特徴量の抽出を行う。すなわち、送信装置10
は、そのセグメントの特徴を表す特徴量を計算する。送
信装置10においては、例えば、各セグメントの時間
長、カラーヒストグラムやテクスチャフィーチャといっ
た映像特徴量や、周波数解析結果、レベル、ピッチとい
った音声特徴量や、アクティビティ測定結果等が、適用
可能な特徴量として計算される。勿論、送信装置10
は、適用可能な特徴量としてこれらに限定されるもので
はない。
おいて、特徴量を用いたセグメントの類似性測定を行
う。すなわち、送信装置10は、セグメント間の非類似
性測定を行い、その測定基準によって、2つのセグメン
トがどの程度類似しているかを測定する。送信装置10
は、先のステップS2において抽出した特徴量を用い
て、非類似性測定基準を計算する。
おいて、セグメントのグループ化を行う。すなわち、送
信装置10は、先のステップS3において計算した非類
似性測定基準と、先のステップS2において抽出した特
徴量とを用いて、時間的に近接して類似したセグメント
を繰り返しまとめ、これらのセグメントをグループ化す
る。送信装置10は、このようにして最終的に生成され
たグループを検出シーンとして出力する。
て、送信装置10は、ビデオデータからシーンを検出す
ることができる。したがって、ユーザは、この結果を用
いることによって、ビデオデータの内容を要約したり、
ビデオデータ中の興味のあるポイントに迅速にアクセス
したりすることが可能となる。
処理を各工程毎により詳細に説明していく。
ついて説明する。送信装置10は、入力されたビデオデ
ータを映像セグメント又は音声セグメントのいずれか、
或いは可能であればその両方に分割するが、このビデオ
データにおけるセグメントの境界を自動的に検出するた
めの技術は多くのものがあり、当該送信装置10におい
て、このビデオ分割方法に特別な前提要件を設けないこ
とは上述した通りである。一方、送信装置10におい
て、後の工程によるシーン検出の精度は、本質的に、基
礎となるビデオ分割の精度に依存する。なお、送信装置
10におけるシーン検出は、或る程度ビデオ分割時のエ
ラーを許容することができる。特に、送信装置10にお
いて、ビデオ分割は、セグメント検出が不十分である場
合よりも、セグメント検出を過度に行う場合の方が好ま
しい。送信装置10は、類似したセグメントの検出が過
度である結果である限り、一般に、シーン検出の際に検
出過度であるセグメントを同一シーンとしてまとめるこ
とができる。
について説明する。特徴量とは、セグメントの特徴を表
すとともに、異なるセグメント間の類似性を測定するた
めのデータを供給するセグメントの属性である。送信装
置10は、各セグメントの特徴量を計算し、セグメント
の特徴を表す。送信装置10は、いかなる特徴の具体的
詳細にも依存するものではないが、当該送信装置10に
おいて用いて効果的であると考えられる特徴量として
は、例えば以下に示す映像特徴量、音声特徴量、映像音
声共通特徴量のようなものがある。送信装置10におい
て適用可能となるこれらの特徴量の必要条件は、非類似
性の測定が可能であることである。また、送信装置10
は、効率化のために、特徴量抽出と上述したビデオ分割
とを同時に行うことがある。以下に説明する特徴量は、
このような処理を可能にするものである。
挙げられる。以下では、これを映像特徴量と称すること
にする。映像セグメントは、連続する映像フレームによ
り構成されるため、映像セグメントから適切な映像フレ
ームを抽出することによって、その映像セグメントの描
写内容を、抽出した映像フレームで特徴付けることが可
能である。すなわち、映像セグメントの類似性は、適切
に抽出された映像フレームの類似性で代替可能である。
このことから、映像特徴量は、送信装置10で用いるこ
とができる重要な特徴量の1つである。この場合の映像
特徴量は、単独では静的な情報しか表せないが、送信装
置10は、後述するような方法を適用することによっ
て、この映像特徴量に基づく映像セグメントの動的な特
徴を抽出することもできる。
るが、シーン検出のためには以下に示す色特徴量(ヒス
トグラム)及び映像相関が、計算コストと精度との良好
な兼ね合いを与えることを見出したことから、送信装置
10は、映像特徴量として、これらの色特徴量及び映像
相関を用いることとする。
は、2つの映像が類似しているかを判断する際の重要な
材料となる。カラーヒストグラムを用いて映像の類似性
を判断することは、例えば“G. Ahanger and T.D.C. Li
ttle, A survey of technologies for parsing and ind
exing digital video, J. of Visual Communication an
d Image Representation 7:28-4, 1996”に記載されて
いるように、よく知られている。ここで、カラーヒスト
グラムとは、例えばHSVやRGB等の3次元色空間を
n個の領域に分割し、映像における画素の、各領域での
出現頻度の相対的割合を計算したものである。そして、
得られた情報からは、n次元ベクトルが与えられる。圧
縮されたビデオデータに関しても、例えばU.S. Patent
#5,708,767号公報に記載されているように、カラーヒス
トグラムを、圧縮データから直接抽出することができ
る。
映像におけるもともとのYUV色空間を、色チャンネル
当たり2ビットでサンプルして構成した、22・3=64
次元のヒストグラムベクトルを用いている。
な色調を表すが、これには時間情報が含まれていない。
そこで、送信装置10においては、もう1つの映像特徴
量として、映像相関を計算する。送信装置10における
シーン検出において、複数の類似セグメントが互いに交
差した構造は、それがまとまった1つのシーン構造であ
ることを示す有力な指標となる。例えば会話場面におい
て、カメラの位置は、2人の話し手の間を交互に移動す
るが、カメラは通常、同一の話し手を再度撮影するとき
には、ほぼ同じ位置に戻る。このような場合における構
造を検出するためには、グレイスケールの縮小映像に基
づく相関がセグメントの類似性の良好な指標となること
を見出したことから、送信装置10では、元の映像をM
×Nの大きさのグレイスケール映像へ間引き縮小し、こ
れを用いて映像相関を計算する。ここで、MとNは、両
方とも小さな値で十分であり、例えば8×8である。す
なわち、これらの縮小グレイスケール映像は、MN次元
の特徴量ベクトルとして解釈される。
量としては、音声に関するものが挙げられる。以下で
は、この特徴量を音声特徴量と称することにする。音声
特徴量とは、音声セグメントの内容を表すことができる
特徴量であり、送信装置10は、この音声特徴量とし
て、周波数解析、ピッチ、レベル等を用いることができ
る。これらの音声特徴量は、種々の文献により知られて
いるものである。
周波数解析を行うことによって、単一の音声フレームに
おける周波数情報の分布を決定することができる。送信
装置10は、例えば、1つの音声セグメントにわたる周
波数情報の分布を表すために、FFT(Fast Fourier T
ransform;高速フーリエ変換)成分、周波数ヒストグラ
ム、パワースペクトル、その他の特徴量を用いることが
できる。
ピッチ等のピッチや、平均ラウドネスや最大ラウドネス
等の音声レベルもまた、音声セグメントを表す有効な音
声特徴量として用いることができる。
特徴量が挙げられる。これは、映像特徴量でもなく音声
特徴量でもないが、送信装置10において、シーン内の
セグメントの特徴を表すのに有用な情報を与えるもので
ある。送信装置10は、この映像音声共通特徴量とし
て、セグメント長とアクティビティとを用いる。
て、セグメント長を用いることができる。このセグメン
ト長は、セグメントにおける時間長である。一般に、シ
ーンは、そのシーンに固有のリズム特徴を有する。この
リズム特徴は、シーン内のセグメント長の変化として表
れる。例えば、迅速に連なった短いセグメントは、コマ
ーシャルを表す。一方、会話シーンにおけるセグメント
は、コマーシャルの場合よりも長く、また会話シーンに
は、相互に組み合わされたセグメントが互いに類似して
いるという特徴がある。送信装置10は、このような特
徴を有するセグメント長を映像音声共通特徴量として用
いることができる。
量として、アクティビティを用いることができる。アク
ティビティとは、セグメントの内容がどの程度動的或い
は静的であるように感じられるかを表す指標である。例
えば、視覚的に動的である場合、アクティビティは、カ
メラが対象物に沿って迅速に移動する度合い若しくは撮
影されているオブジェクトが迅速に変化する度合いを表
す。
ムのような特徴量のフレーム間非類似性の平均値を測定
することによって、間接的に計算される。ここで、フレ
ームiとフレームjとの間で測定された特徴量Fに対す
る非類似性測定基準をdF(i,j)と定義すると、映
像アクティビティVFは、次式(1)のように定義され
る。
1セグメントにおける最初と最後のフレームのフレーム
番号である。送信装置10は、具体的には、例えば上述
したヒストグラムを用いて、映像アクティビティVFを
計算することができる。
る特徴量は、基本的にはセグメントの静的情報を表すも
のであることは上述した通りであるが、セグメントの特
徴を正確に表すためには、動的情報をも考慮する必要が
ある。そこで、送信装置10は、以下に示すような特徴
量のサンプリング方法により動的情報を表す。
に、1セグメント内の異なる時点から1以上の静的な特
徴量を抽出する。このとき、送信装置10は、特徴量の
抽出数を、そのセグメント表現における忠実度の最大化
とデータ冗長度の最小化とのバランスをとることにより
決定する。例えば、セグメント内の或る1画像が当該セ
グメントのキーフレームとして指定可能な場合には、そ
のキーフレームから計算されたヒストグラムが、抽出す
べき特徴量となる。
法を用いて、対象とするセグメントにおいて、特徴とし
て抽出可能なサンプルのうち、どのサンプルを選択する
かを決定する。
点、例えばセグメント内の最後の時点において選択され
る場合を考える。この場合、黒フレームへ変化(fade)
していく任意の2つのセグメントについては、サンプル
が同一の黒フレームとなるため、同一の特徴量が得られ
る結果になる恐れがある。すなわち、これらのセグメン
トの映像内容がいかなるものであれ、選択した2つのフ
レームは、極めて類似していると判断されてしまう。こ
のような問題は、サンプルが良好な代表値でないために
発生するものである。
点で特徴量を抽出するのではなく、セグメント全体にお
ける統計的な代表値を抽出することとする。ここでは、
一般的な特徴量のサンプリング方法を2つの場合、すな
わち、(1)特徴量を実数のn次元ベクトルとして表す
ことができる場合と、(2)非類似性測定基準しか利用
できない場合とについて説明する。なお、(1)には、
ヒストグラムやパワースペクトル等、最もよく知られて
いる映像特徴量及び音声特徴量が含まれる。
kと決められており、送信装置10は、“L. Kaufman a
nd P.J. Rousseeuw, Finding Groups in Data:An Intro
duction to Cluster Analysis, John-Wiley and sons,
1990”に記載されてよく知られているk平均値クラスタ
リング法(k-means-clustering method)を用いて、セ
グメント全体についての特徴量をk個の異なるグループ
に自動的に分割する。そして、送信装置10は、サンプ
ル値として、k個の各グループから、グループの重心値
(centroid)又はこの重心値に近いサンプルを選択す
る。送信装置10におけるこの処理の複雑度は、サンプ
ル数に関して単に直線的に増加するにとどまる。
は、“L. Kaufman and P.J. Rousseeuw, Finding Group
s in Data:An Introduction to Cluster Analysis, Joh
n-Wiley and sons, 1990”に記載されているk−メドイ
ドアルゴリズム法(k-medoidsalgorithm method)を用
いて、k個のグループを形成する。そして、送信装置1
0は、サンプル値として、k個のグループ毎に、上述し
たグループのメドイド(medoid)を用いる。
た動的特徴を表す特徴量についての非類似性測定基準を
構成する方法は、その基礎となる静的な特徴量の非類似
性測定基準に基づくが、これについては後述する。
特徴量を複数抽出し、これらの複数の静的な特徴量を用
いることによって、動的特徴を表すことができる。
徴量を抽出することができる。これらの各特徴量は、一
般に、単一ではセグメントの特徴を表すのに不十分であ
ることが多い。そこで、送信装置10は、これらの各種
特徴量を組み合わせることで、互いに補完し合う特徴量
の組を選択することができる。例えば、送信装置10
は、上述したカラーヒストグラムと映像相関とを組み合
わせることによって、各特徴量が有する情報よりも多く
の情報を得ることができる。
徴量を用いたセグメントの類似性測定について説明す
る。送信装置10は、2つの特徴量について、それがど
の程度非類似であるかを測定する実数値を計算する関数
である非類似性測定基準を用いて、セグメントの類似性
測定を行う。この非類似性測定基準は、その値が小さい
場合は2つの特徴量が類似していることを示し、値が大
きい場合は非類似であることを示す。ここでは、特徴量
Fに関する2つのセグメントS1,S2の非類似性を計算
する関数を非類似性測定基準dF(S1,S2)と定義す
る。このような関数は、以下の式(2)で与えられる関
係を満足させる必要がある。
る特定の特徴量にのみ適用可能なものがあるが、“G. A
hanger and T.D.C. Little, A survey of technologies
forparsing and indexing digital video, J. of Visu
al Communication and Image Representation 7:28-4,
1996”や“L. Kaufman and P.J. Rousseeuw, Finding G
roups in Data:An Introduction to Cluster Analysis,
John-Wiley and sons, 1990”に記載されているよう
に、一般には、多くの非類似性測定基準は、n次元空間
における点として表される特徴量についての類似性を測
定するのに適用可能である。その具体例は、ユークリッ
ド距離、内積、L1距離等である。ここで、特にL1距
離が、ヒストグラムや映像相関等の特徴量を含む種々の
特徴量に対して有効に作用することから、送信装置10
は、L1距離を導入する。ここで、2つのn次元ベクト
ルをA,Bとした場合、A,B間のL1距離dL1(A,
B)は、次式(3)で与えられる。
A,Bのそれぞれのi番目の要素を示すものである。
動的特徴を表す特徴量として、セグメントにおける様々
な時点での静的な特徴量を抽出する。そして、送信装置
10は、抽出された2つの動的特徴量の間の類似性を決
定するために、その非類似性測定基準として、その基礎
となる静的特徴量の間の非類似性測定基準を用いる。こ
れらの動的特徴量の非類似性測定基準は、多くの場合、
各動的特徴量から選択された最も類似した静的特徴量の
対の非類似性値を用いて決定されるのが最良である。こ
の場合、2つの抽出された動的特徴量SF1,SF2の間
の非類似性測定基準は、次式(4)のように定義され
る。
は、その基礎となる静的特徴量Fについての非類似性測
定基準を示す。なお、場合によっては、特徴量の非類似
性の最小値をとる代わりに、最大値又は平均値をとって
もよい。
類似性を決定する上で、単一の特徴量だけでは不十分で
あり、同一セグメントに関する多数の特徴量からの情報
を組み合わせることを必要とする場合も多い。この1つ
の方法として、送信装置10は、種々の特徴量に基づく
非類似性を、それぞれの特徴量の重み付き組み合わせと
して計算する。すなわち、送信装置10は、k個の特徴
量F1,F2,・・・,Fkが存在する場合、次式(5)
に表される組み合わせた特徴量に関する非類似性測定基
準dF(S1,S2)を用いる。
み係数である。
ステップS2において抽出された特徴量を用いて非類似
性測定基準を計算し、当該セグメント間の類似性を測定
することができる。
グメントのグループ化について説明する。送信装置10
は、非類似性測定基準と抽出した特徴量とを用いて、時
間的に近接して類似したセグメントを繰り返しまとめて
グループ化し、最終的に生成されたグループを検出シー
ンとして出力する。
してシーンを検出する際に、2つの基本的な処理を行
う。送信装置10は、まず第1の処理として、互いに時
間的に近接して類似したセグメントのグループを検出す
る。この処理により得られるグループは、ほとんどが同
一シーンの一部となるものである。そして、送信装置1
0は、第2の処理として、互いに時間が重複したセグメ
ントのグループを1つにまとめる。送信装置10は、こ
のような処理を各セグメントが独立した状態から開始
し、反復して繰り返す。そして、送信装置10は、徐々
にセグメントのグループを大きく構築していき、最終的
に生成したグループをシーンの組として出力する。
は、その処理動作を制御するために2つの制約を用い
る。
して、2つのセグメントがどの程度類似している場合
に、同一のシーンのものであるとみなすかを決定する非
類似性閾値δsimを用いる。例えば、図35に示すよう
に、送信装置10は、或るセグメントに対して、一方の
セグメントが類似性領域に属するか非類似性領域に属す
るかを判断する。
simをユーザにより設定するようにしてもよく、また、
後述するように、自動的に決定してもよい。
て、2つのセグメントがなお同一シーン内のセグメント
とみなし得る時間軸上の隔たりの最大値として、時間閾
値Tを用いる。例えば、図36に示すように、送信装置
10は、時間閾値Tの範囲内で互いに近接して続いてい
る類似した2つのセグメントA,Bを同一シーンにまと
めるが、時間的に大きく離れていて時間閾値Tの範囲外
である2つのセグメントB,Cをまとめることはない。
このように、送信装置10は、この時間閾値Tによる時
間制約があるために、互いに類似しているものの時間軸
上で大きく隔たっているセグメントを同一シーンにまと
めてしまうというエラーを発生することがない。
ョット分に相当する時間を設定した場合が概して良好な
結果を与えることを見出したことから、送信装置10
は、基本的に、時間閾値Tを6〜8ショット単位として
用いることとする。
プを求めるために、ここでは、“L.Kaufman and P.J. R
ousseeuw, Finding Groups in Data:An Introduction t
o Cluster Analysis, John-Wiley and sons, 1990”に
記載されている階層的クラスタ分割方法(hierarchical
clustering method)を適合させて用いることにする。
このアルゴリズムにおいては、2つのクラスタC1,C2
間の非類似性測定基準dC(C1,C2)について、次式
(6)に示すように、それぞれのクラスタに含まれる要
素間の最小非類似性として定義する。
(6)で示される最小関数を最大関数又は平均関数に容
易に置換することができる。
に、ステップS11において、変数Nを初期状態のセグ
メントの数に初期化する。この変数Nは、常に現在検出
されているグループの数を示すものである。
において、クラスタの組を生成する。送信装置10は、
初期状態では、N個の各セグメントを異なるクラスタと
みなす。すなわち、初期状態では、N個のクラスタが存
在することになる。各クラスタは、CstartとCendとに
より表されるその開始時と終了時とを示す特徴を有す
る。クラスタに含まれる要素は、Cstartにより順序付
けられたリストとして管理される。
において、変数tを1に初期化し、ステップS14にお
いて、変数tが時間閾値Tよりも大きいか否かを判別す
る。ここで、送信装置10は、変数tが時間閾値Tより
も大きい場合には、ステップS23へと処理を移行し、
変数tが時間閾値Tよりも小さい場合には、ステップS
15へと処理を移行する。ただし、ここでは、変数tが
1であるため、送信装置10は、ステップS15へと処
理を移行する。
て、非類似性測定基準dCを計算し、N個のクラスタの
中から最も類似した2つのクラスタを検出する。ただ
し、ここでは、変数tが1であるため、送信装置10
は、隣接したクラスタ間の非類似性測定基準dCを計算
し、その中から最も類似したクラスタの対を検出する。
検出する方法としては、対象となる全てのクラスタの対
を求めることが考えられる。しかしながら、ここでは、
対象とするクラスタの時間的隔たりを表す変数tがセグ
メント単位で与えられ、さらにクラスタが時間順に整頓
されていることから、送信装置10は、或るクラスタに
おいて、その前後t個までのクラスタを非類似性の計算
対象とすればよい。
ぞれCi,Cjと定義し、これらのクラスタCi,Cjの間
の非類似性の値をdijと定義する。
て、非類似性値dijが非類似性閾値δsimよりも大きい
か否かを判別する。ここで、送信装置10は、非類似性
値dijが非類似性閾値δsimよりも大きい場合には、ス
テップS21へと処理を移行し、非類似性値dijが非類
似性閾値δsimよりも小さい場合には、ステップS17
へと処理を移行する。ここでは、非類似性値dijが非類
似性閾値δsimよりも小さいものとする。
て、クラスタCjをクラスタCiに結合する。すなわち、
送信装置10は、クラスタCjの要素の全てをクラスタ
Ciに加える。
において、クラスタCjをクラスタの組から除去する。
なお、2つのクラスタCi,Cjを結合することにより開
始時Ci startの値が変化した場合には、送信装置10
は、クラスタの組の要素を開始時Ci startに基づいて再
び並べ替える。
において、変数Nから1を減じる。
において、変数Nが1であるか否かを判別する。ここ
で、送信装置10は、変数Nが1である場合には、ステ
ップS23へと処理を移行し、変数Nが1でない場合に
は、ステップS15へと処理を移行する。ここでは、変
数Nが1でないものとする。
において、再び非類似性測定基準dCを計算し、N−1
個のクラスタの中から最も類似した2つのクラスタを検
出する。ここでも、変数tが1であるため、送信装置1
0は、隣接したクラスタ間の非類似性測定基準dCを計
算し、その中から最も類似したクラスタの対を検出す
る。
において、非類似性値dijが非類似性閾値δsimよりも
大きいか否かを判別する。ここでも、非類似性値dijが
非類似性閾値δsimよりも小さいものとする。
乃至ステップS20の処理を行う。
し、変数Nが減算されていった結果、ステップS20に
おいて、変数Nが1であると判別した場合には、ステッ
プS23において、単一のセグメントのみを含むクラス
タを結合する。最終的には、送信装置10は、この場合
は、全てのセグメントが1つのクラスタにまとめられる
形となり、一連の処理を終了する。
おいて、非類似性値dijが非類似性閾値δsimよりも大
きいと判別した場合には、ステップS21へと処理を移
行するが、この場合には、ステップS21において、時
間的に重複しているクラスタを繰り返し結合する。すな
わち、Ciの時間間隔[Ci start,Ci end]が、Cjの時
間間隔[Cj start,Cj end]と相交している場合には、
2つのクラスタCiとCjは、時間軸上で重複している。
これにより、送信装置10は、クラスタをその組の開始
時Ci startに基づいて整頓することによって、重複して
いるクラスタを検出し、それらのクラスタを1つに結合
することができる。
において、変数tに1を加算してt=2とし、ステップ
S14へと処理を移行して変数tが時間閾値Tよりも大
きいか否かを判別する。ここでも、変数tが時間閾値T
よりも小さいものとし、送信装置10は、ステップS1
5へと処理を移行するものとする。
て、非類似性測定基準dCを計算し、現在存在する複数
のクラスタの中から最も類似した2つのクラスタを検出
する。ただし、ここでは、変数tが2であるため、送信
装置10は、隣接クラスタ及び1つおきに隔たっている
クラスタ間の非類似性測定基準dCを計算し、その中か
ら最も類似したクラスタの対を検出する。
において、隣接クラスタ及び1つおきに隔たっているク
ラスタCi,Cjの非類似性値dijが非類似性閾値δsim
よりも大きいか否かを判別する。ここでも、非類似性値
dijが非類似性閾値δsimよりも大きいものとし、送信
装置10は、ステップS21及びステップS22の処理
を経て、変数tに1を加算してt=3として再びステッ
プS14以降の処理へと移行する。ここで、送信装置1
0は、変数tが3のときには、ステップS15におい
て、2つおきに隔たっているクラスタまでに存在するク
ラスタとの間の非類似性測定基準dCを計算し、その中
から最も類似したクラスタの対を検出する。
し、変数tが加算されていった結果、ステップS14に
おいて、変数tが時間閾値Tよりも大きいと判別する
と、ステップS23へと処理を移行し、単一のセグメン
トのみを含むクラスタを結合する。すなわち、送信装置
10は、孤立しているクラスタを単一のセグメントのみ
を含むクラスタとみなし、このような一連のクラスタが
存在している場合には、これらのクラスタをまとめて結
合していく。この工程は、近接のシーンとは類似性関連
を有さないセグメントをまとめるものである。なお、送
信装置10は、必ずしもこの工程を行う必要はない。
10は、複数のクラスタをまとめていき、検出シーンを
生成することができる。
simをユーザにより設定するようにしてもよく、自動的
に決定してもよいことは上述した通りである。ただし、
非類似性閾値δsimとして固定値を用いる場合には、そ
の最適値は、ビデオデータの内容に依存することとな
る。例えば、変化に富んだ映像内容を有するビデオデー
タの場合、非類似性閾値δsimは、高い値に設定される
必要がある。一方、変化が少ない映像内容を有するビデ
オデータの場合、非類似性閾値δsimは、低い値に設定
される必要がある。ここで一般に、非類似性閾値δsim
が高い場合には、検出されるシーンは少なくなり、非類
似性閾値δsimが低い場合には、検出されるシーンが多
くなるという性質がある。
な非類似性閾値δsimを決定することが、その性能を左
右する上で重要となる。そのため、送信装置10におい
ては、非類似性閾値δsimをユーザにより設定する場合
には、上述したことを考慮した上で設定する必要があ
る。一方、送信装置10は、以下に示す方法により、有
効な非類似性閾値δsimを自動的に決定することもでき
る。
10は、(n)(n−1)/2個のセグメント対の間の
非類似性の分布における平均値やメジアン(中央値)と
いった統計量を用いて、非類似性閾値δsimを得ること
ができる。いま、全てのセグメント対における非類似性
の平均値とその標準偏差をそれぞれμ,σとした場合、
非類似性閾値δsimは、aμ+bσの形式で表すことが
できる。ここで、a及びbは定数であり、それぞれ、
0.5及び0.1に設定することが良好な結果を与える
ことを見出している。
のセグメント対について、それらの間の非類似性を求め
る必要はなく、その平均値μ及び標準偏差σが真値に十
分近い結果を与えるに足りるセグメント対を、全セグメ
ント対集合からランダムに選択し、その非類似性を求め
ればよい。送信装置10は、このようにして得られた平
均値μ及び標準偏差σを用いることによって、適切な非
類似性閾値δsimを自動的に決定することができる。
際に、セグメントが同一グループに属するか否かを決定
するために、単一の非類似性測定基準を用いるばかりで
はなく、重み付け関数を用いて、異種の特徴量に関する
多様な非類似性測定基準を組み合わせることができるこ
とは上述した通りである。送信装置10において、この
ような特徴量の重み付けは、試行錯誤の末得られるもの
であるが、各特徴量が質的に異なるタイプのものである
場合には、通常、適切な重み付けを行うことは困難であ
る。しかしながら、例えば、カラーヒストグラムとテク
スチャフィーチャとを組み合わせる場合には、送信装置
10は、各特徴量に関してそれぞれシーンを検出し、検
出された各シーン構造を単一のシーン構造に合成するこ
とによって、両者の特徴を考慮したシーン検出を実現す
ることができる。ここで、各特徴量に関してシーンを検
出したそれぞれの結果をシーン層と称することにする。
例えば、特徴量としてカラーヒストグラムとセグメント
長とを用いる場合、送信装置10は、それぞれの特徴量
に基づいたシーン検出によって、カラーヒストグラムに
ついてのシーン層と、セグメント長についてのシーン層
とを得ることができる。そして、送信装置10は、これ
らのシーン層を単一のシーン構造に組み合わせることが
できる。
からの情報を組み合わせることはできないが、送信装置
10は、質的に異なるタイプの特徴量に基づいた構造を
組み合わせる場合と同様な方法により、映像領域と音声
領域とからの情報に基づいて得られるシーン層を単一の
シーン構造に組み合わせることができる。
明する。ここでは、それぞれが類似性の1つの基準を表
すk個の特徴量F1,F2,・・・,Fkがあるものと
し、各特徴量Fiに対応して、非類似性測定基準d
F iと、非類似性閾値δi simと、時間閾値Tiとがあるも
のとする。送信装置10は、これらの各特徴量Fiに対
する非類似性測定基準dF iと、非類似性閾値δi simと、
時間閾値Tiとを用いて、シーン層の組Xi={Xi j}を
検出する。例えば、送信装置10は、映像情報と音声情
報とに対して分割的にシーン層を検出し、映像情報と音
声情報とに関する2つの独立したシーン層Xi=
{Xi j}(i=1,2)を生成する。
を単一のシーン構造に組み合わせるため、シーン境界の
組み合わせ方を決定する必要がある。このシーン境界
は、互いにそろっている保証はない。ここで、各シーン
層に関して、シーン境界を示す一連の時間で表される境
界点をti1,ti2,・・・,ti|Xi|で与えること
とする。まず、送信装置10は、種々のシーン層を単一
のグループに組み合わせるために、最初に或るシーン層
を境界点の整列に関する基礎とするために選択する。そ
して、送信装置10は、他のシーン層の境界が最終的に
組み合わせて生成するシーン構造におけるシーン境界か
どうかを各境界点ti1,ti2,・・・,ti|Xi|に
対して決定していく。
Xiにおいて、或る時間tで近接にそのシーン層の境界
点があるかどうかを示す論理関数とする。この「近接」
の意味は、シーン層Xiの状況に応じて変化し、例え
ば、映像情報と音声情報とのそれぞれに基づくシーン層
を結合する場合には、0.5秒程度が適当である。
=1,・・・,|Xj|に関して、l=1,・・・,k
のそれぞれについて、関数Bl(tj)の結果を計算す
る。この結果は、それぞれのシーン層に関して、時間t
jの近くに境界点があるかどうかを示している。そし
て、送信装置10は、結合シーン構造において時間tj
がシーン境界であるかどうかを決定する際に、決定関数
として、Bi(tj)の値を用いる。
Bi(tj)が真である個数を計数し、この個数が定数m
以上となった場合に、結合シーン構造のシーン境界とみ
なすことである。特に、m=1の場合には、全てのシー
ン層の境界点を最終シーン構造の境界点とみなすことと
同義であり、一方、m=kの場合には、全てのシーン層
において共通してシーン境界とみなされた場合のみ、結
合シーン構造の境界点とすることと同義である。
シーン層を単一のシーン構造に結合することができる。
は、上述したディスクリプタを用いて記述することがで
きる。
結果を記述するために用いられるディスクリプタとして
は、例えば、アクティビティ・レベル・ディスクリプ
タ、シグネチャ・ディスクリプタ、テンポラル・シグネ
チャ・ディスクリプタ、シノプシス・ディスクリプタ等
がある。
は、特徴量抽出結果として得られた映像音声ともに関す
る特徴としてのアクティビティを記述するのに用いられ
る。また、シグネチャ・ディスクリプタは、特徴量抽出
結果として得られた、セグメントの静的情報を表すため
の特徴を記述するのに用いられる。さらに、テンポラル
・シグネチャ・ディスクリプタは、特徴量抽出結果とし
て得られた、セグメントの動的情報を表すための最適な
特徴を記述するのに用いることができる。さらにまた、
シノプシス・ディスクリプタは、同図中ステップS4に
おいて検出したシーンを、特徴量抽出工程における動的
特徴の抽出により検出した代表フレームで代表させるこ
とを記述する際に用いられる。
を用いたセグメントの類似性測定結果を記述するために
用いられるディスクリプタとしては、例えば、ウエイト
・ベクトル・ディスクリプタ等がある。
メントのグループ化結果を記述するために用いられるデ
ィスクリプタとしては、例えば、AVプロトタイプ・デ
ィスクリプタ、クラスタ・ディスクリプタ、コンポジッ
ド・セグメント・ディスクリプタ、AVグラフ・ディス
クリプタ、ショット・ディスクリプタ、シーン・ディス
クリプタ等がある。
スタ・ディスクリプタは、グループ化工程の結果得られ
たAVエレメントのクラスタを記述するのに用いられ
る。また、コンポジッド・セグメント・ディスクリプタ
は、グループ化工程の結果得られたAVセグメントやシ
ーンのクラスタを記述するのに用いられる。さらに、A
Vグラフ・ディスクリプタは、グループ化工程において
検出したシーンの内容を、幾つかのシーンの反復構造と
して記述するのに用いられる。さらにまた、ショット・
ディスクリプタは、グループ化工程においてシーンを検
出する際の基となるショットを記述するのに用いられ、
シーン・ディスクリプタは、グループ化工程において検
出したシーンを記述するのに用いられる。
ーン構造を記述するディスクリプション・スキームは、
複数のディスクリプタの集合により表される。この具体
例として、或る1つのシーンを記述するのに必要なディ
スクリプション・スキーム及び特徴データとしてのシー
ン記述の一例を、図38及び図39にそれぞれ示す。こ
こで対象とするシーンは、開始位置がフレーム番号“1
2547”であり、終了位置がフレーム番号“1283
0”であるものとする。なお、図39中でセミコロ
ン(;)の後の記載は、この行において参照すべきディ
スクリプタのクラスを示している。
目で、シーン記述を示すディスクリプタの始まりを示
す。このシーンに対応する図38上でのノードは、“Sc
ene”とラベリングされたルート・ノードである。
3行目で、それぞれ、シーンの開始位置(startPoint)
及び終了位置(endPoint)を、時間やフレーム番号等に
より指定する。なお、図38中においてこの情報は、ル
ート・ノードに付加された“startTime”及び“endTim
e”により表される。
目で、このシーン記述が参照とすべきビデオデータの場
所を指定する。
目で、シノプシス(synopsis)・ディスクリプタの始ま
りを示し、ユーザにブラウジングさせるためのキーフレ
ーム(KEY_FRAME)を指定する。
のシーケンス(sequence)・ディスクリプタによって、
以下にAVエレメント(AVElement)のシーケンスがあ
ることを示す。ここでは、AVエレメントは、キーフレ
ームである。
8、9行目で、それぞれ、1、2、3番目のシノプシス
のキーフレームをKEY_FRAME 1、KEY_F
RAME 2、KEY_FRAME 3と指定する。た
だし、ここでは、KEY_FRAME 1、KEY_F
RAME 2、KEY_FRAME 3が具体的にどの
フレームであるかという指定を行っていないが、実際に
は、どこかで指定する必要がある。
0、11行目で、それぞれ、シーケンス・ディスクリプ
タの終わり及びシノプシス・ディスクリプタの終わりを
示す。
目で、アブストラクト(abstract)・ディスクリプタの
始まりを示し、ビデオコンテンツの内容を代表する部分
の指定を行う。
目で、シグネチャ(signature)・ディスクリプタの始
まりを示し、クラスタリング等に用いるためのシーンの
一部分を指定する。ここでは、ショット・シグネチャで
示されること(SHOT_SIGNATURE)が宣言されている。
行目で、シグネチャのメンバー(members)の指定開始
を示す。
5、16行目で、シグネチャのメンバーの1つ目がsh
ot1、2つ目がshot2、3つ目がshot3であ
ることを示す。このshot1及びshot2は、22
行目及び32行目に定義されている。
目で、シグネチャのメンバーの指定終了を示す。
目で、シグネチャのメンバーに対する重み付けを指定す
る。ここでは、shot1には0.1、shot2及び
shot3には0.45の重要度があることを示してい
る。
9、20行目で、それぞれ、シグネチャ・ディスクリプ
タ及びアブストラクト・ディスクリプタの終わりを示
す。
目で、コンポーネント(components)・ディスクリプタ
の始まりを示し、このシーンの構成要素を指定する。こ
のコンポーネントに対応する図38中のノードは、ルー
ト・ノードの一段だけ下位のノード、すなわち、“shot
1”、“shot2”、“shot n”とラベリングされたノード
である。
行目で、ショット(shot)・ディスクリプタの始まりを
示し、第1番目のショットの識別子がshot1である
ことを指定し、その内容を以下に記述することを宣言す
る。
3、24行目で、それぞれ、当該ショットの開始位置及
び終了位置を、時間やフレーム番号等により指定する。
ここでは、開始位置がフレーム番号“12547”であ
り、終了位置がフレーム番号“12616”であること
を示している。なお、図38中においてこの情報は、ル
ート・ノードの一段だけ下位にあり、“shot1”とラベ
リングされたノードに付加された“startTime”及び“e
ndTime”により表される。
行目で、アブストラクト・ディスクリプタの始まりを示
し、当該ショットの内容を代表する部分の指定を行う。
目で、シグネチャ・ディスクリプタの始まりを示し、ク
ラスタリング等に用いるための当該ショットの一部分を
指定する。ここでは、シグネチャがフレームで示される
こと(FRAME_SIGNATURE)が宣言されている。
行目で、シグネチャのメンバーが1つだけであることを
示し、そのフレーム番号を指定する。ここでは、フレー
ム番号が“12590”であることが記述されている。
目で、シグネチャのメンバーに対する重み付けを指定す
る。ここでは、このシグネチャを構成するメンバーが1
つだけであるため、その重要度が1.0となっている。
9、30、31行目で、それぞれ、シグネチャ・ディス
クリプタの終わり、アブストラクト・ディスクリプタの
終わり及びショット・ディスクリプタの終わりを示す。
目で、ショット・ディスクリプタの始まりを示し、第2
番目のショットの識別子がshot2であることを指定
し、その内容を以下に記述することを宣言する。
34行目で、それぞれ、当該ショットの開始位置及び終
了位置を、時間やフレーム番号等により指定する。ここ
では、開始位置がフレーム番号“12617”であり、
終了位置がフレーム番号“12628”であることを示
している。なお、図38中においてこの情報は、ルート
・ノードの一段だけ下位にあり、“shot2”とラベリン
グされたノードに付加された“startTime”及び“endTi
me”により表される。
行目の位置に、当該ショットの内容を示す多くのディス
クリプタが記述されるが、ここでは、省略する。
行目で、ショット・ディスクリプタの終わりを示す。
38行目の位置に、それぞれ、他のショットの内容を示
す各種ディスクリプタ及び各ショットを記述する多くの
ディスクリプタが記述されるが、ここでは、省略する。
行目で、コンポーネント・ディスクリプタの終わりを示
す。
目で、このシーンのインデックス(index)を示す幾つ
かのAVハイアラキ(AVHierarchy)・ディスクリプタ
が以下に記述されることを宣言する。
目で、ハイアラキ(hierarchy)・ディスクリプタの始
まりを示し、このハイアラキがショット・インデックス
で示されること(SHOT_INDEX)を宣言する。
行目で、クラスタ(cluster)・ディスクリプタの始ま
りを示し、第1番目のクラスタを以下に記述し、このク
ラスタがcluster1という識別子を持つことを宣
言する。
目で、当該クラスタのメンバーの指定開始を示す。
目で、当該クラスタのメンバーがショットであり、その
識別子がshot2、shot4、・・・であることを
指定する。
行目で、当該クラスタのメンバーの指定終了を示す。
目で、アブストラクト・ディスクリプタの始まりを示
し、当該クラスタの内容を代表する部分の指定を行う。
目で、プロトタイプ(prototype)・ディスクリプタを
示す。ここでは、当該クラスタの内容を代表する部分の
識別子がshot4であることを示している。
8、49行目で、それぞれ、アブストラクト・ディスク
リプタの終わり及びクラスタ・ディスクリプタの終わり
を示す。
51行目で、それぞれ、クラスタ・ディスクリプタを示
し、第2、3番目のクラスタがcluster2、cl
uster3という識別子を持つことを宣言する。な
お、これらの行の位置には、その内容を記述する多くの
ディスクリプタが示されるが、ここでは、省略する。
行目で、ハイアラキ・ディスクリプタの終わりを示す。
目で、このシーンのインデックスを示す幾つかのAVハ
イアラキの記述が終わることを宣言する。
行目の位置に、他にシーンの内容を示す多くのディスク
リプタが記述されるが、ここでは、省略する。
目で、このシーンの構造を示す幾つかのAVグラフ(AV
Graph)・ディスクリプタが以下にあることを宣言す
る。
行目で、AVグラフ・ディスクリプタの始まりを示し、
このグラフのエッジの構成要素がショットであること
(SHOT_GROUP)を宣言する。
至61行目で、AVグラフエッジ(AVGraphEdge)・デ
ィスクリプタを示す。57行目では、グラフの開始点が
cluster1であることを示している。このclu
ster1は、42行目で指定された識別子である。
8、59、60行目で、それぞれ、cluster1か
らcluster2に、cluster3からclus
ter2に、cluster2からcluster3に
グラフが伸びていることを示している。
行目で、グラフの終了点がcluster3であること
を示し、62行目で、AVグラフ・ディスクリプタの終
わりを示す。
目で、このシーンの構造を示す幾つかのAVグラフ・デ
ィスクリプタの記述をこれで終わることを宣言する。
行目の位置で、このシーンの他の内容を記述する多くの
ディスクリプタを示した後、65行目で、シーン記述を
示すディスクリプタの終わりを示す。
るシーン構造を、複数のディスクリプタを用いた特徴デ
ータとして記述することができる。
ータ生成部12によって、このような特徴データをビデ
オデータに応じて生成し、ビデオデータとともに受信装
置20へと送信する。そのため、ビデオデータとともに
特徴データを受信した受信装置20は、特徴データに基
づき、ビデオデータを解析するだけで、ビデオデータの
ビデオ構造を容易に回復することができ、検索エンジン
23により例えばストーリーボードを作成することがで
きる。
タのビデオ構造を解析するための高度な処理能力や大容
量の計算資源を有する必要がなく、低コスト化及び小容
量メモリ化を図ることができる。
内容の構造を知る必要はなく、ビデオデータに対して容
易で且つ個人的にアクセスすることが可能となり、ブラ
ウジングを効率よく行うことができる。
ームとして定義される本発明にかかるデータ記述方法
は、ビデオデータの内容を検索してブラウジングする高
度な方法を実現するものであって、このデータ記述方法
により記述された特徴データは、ビデオデータのビデオ
構造を的確に且つ簡便に効率よく表すことができる。ま
た、上位クラスのディスクリプタの機能を継承してディ
スクリプタを構成することから、ディスクリプタが高度
な機能を有するものへと容易に拡張され得て拡張性に優
れたディスクリプション・スキームを構築することが可
能であるとともに、特徴データの容量を小さくすること
ができ、受信装置20の小容量メモリ化に対する一助と
なる。
定されるものではなく、例えば、各ディスクリプタは、
上位のディスクリプタの機能が継承されていなくてもよ
い。ただしこの場合、特徴データには、1つのディスク
リプタに関して、その上位のディスクリプタを全て書き
下す必要がある。
構造を抽出する処理としては、上述したもの以外であっ
てもよいことは勿論である。
ない範囲で適宜変更が可能であることはいうまでもな
い。
かるデータ記述方法は、入力データの内容の特徴を表す
特徴データを記述するためのデータ記述方法であって、
記述方法を定義する単位要素となる記述子は、下位要素
としての属性が定義される構造を有し、属性として記述
子を含み得る。
法は、構造を有する記述子の集合を用いて構造化された
特徴データを記述することができ、この特徴データに基
づいて、容易に入力データの内容の特徴を抽出すること
ができる。
入力データの内容の特徴を表す特徴データを生成するデ
ータ処理装置であって、記述方法を定義する単位要素と
なる記述子に関し、下位要素としての属性が定義される
構造を有し、属性として記述子を含み得る記述子に基づ
いて特徴データを生成する生成手段を備える。
置は、構造を有する記述子の集合を用いて構造化された
特徴データを生成することができ、この特徴データに基
づいて、的確且つ簡便に効率よく入力データの内容の特
徴を表現することができる。
は、入力データの内容の特徴を表す特徴データを利用す
るデータ処理装置であって、記述方法を定義する単位要
素となる記述子に関し、下位要素としての属性が定義さ
れる構造を有し、属性として記述子を含み得る記述子に
基づいて生成された特徴データを利用して、入力データ
の内容の特徴を復元する復元手段を備える。
置は、特徴データに基づいて、入力データの内容の特徴
を復元することができ、高度な処理能力や大容量の計算
資源を必要とせずに入力データの内容の特徴を抽出する
ことができる。
説明する図であって、モデル化したビデオデータの構造
を説明する図である。
理システムの構成を説明するブロック図である。
図である。
る。
マットを説明する図である。
マットを説明する図である。
ォーマットを説明する図である。
ーマットを説明する図である。
ットを説明する図である。
トを説明する図である。
の記述フォーマットを説明する図である。
ットを説明する図である。
は、会話場面を形成する一連のショットを示し、(B)
は、(A)に示す一連のショットにおける直線的構造を
示すAVグラフを示し、(C)は、(A)に示す一連の
ショットにおける意味的構造を示すAVグラフを示す図
である。
ォーマットを説明する図である。
ットを説明する図である。
記述フォーマットを説明する図である。
記述フォーマットを説明する図である。
フォーマットを説明する図である。
ットを説明する図である。
ットを説明する図である。
を説明する図である。
ォーマットを説明する図である。
フォーマットを説明する図である。
マットを説明する図である。
マットを説明する図である。
述フォーマットを説明する図である。
トを説明する図である。
を説明する図である。
ットを説明する図である。
において、セグメントをグループ化してシーンを検出す
る際の一連の工程を説明するフローチャートである。
において、動的特徴量サンプリング処理を説明する図で
ある。
において、セグメントをグループ化する際の一連の工程
を説明するフローチャートである。
ームの一例を説明する図である。
する図である。
生成部、 20 受信装置、 23 検索エンジン
Claims (15)
- 【請求項1】 入力データの内容の特徴を表す特徴デー
タを記述するためのデータ記述方法であって、 記述方法を定義する単位要素となる記述子は、下位要素
としての属性が定義される構造を有し、上記属性として
記述子を含み得ることを特徴とするデータ記述方法。 - 【請求項2】 上記入力データは、ビデオデータにおけ
る映像データと音声データとの少なくとも一方を含むこ
とを特徴とする請求項1記載のデータ記述方法。 - 【請求項3】 上記記述子は、上記構造の形成能力を含
めて上位の記述子の機能が継承されて生成されることを
特徴とする請求項1記載のデータ記述方法。 - 【請求項4】 上記下位要素としての属性は、記述子及
び/又は特定の属性を定義することにより構成されるこ
とを特徴とする請求項1記載のデータ記述方法。 - 【請求項5】 入力データの内容の特徴を表す特徴デー
タを生成するデータ処理装置であって、 記述方法を定義する単位要素となる記述子に関し、下位
要素としての属性が定義される構造を有し、上記属性と
して記述子を含み得る記述子に基づいて特徴データを生
成する生成手段を備えることを特徴とするデータ処理装
置。 - 【請求項6】 上記入力データは、ビデオデータにおけ
る映像データと音声データとの少なくとも一方を含むこ
とを特徴とする請求項5記載のデータ処理装置。 - 【請求項7】 上記記述子は、上記構造の形成能力を含
めて上位の記述子の機能が継承されて生成されたもので
あることを特徴とする請求項5記載のデータ処理装置。 - 【請求項8】 上記下位要素としての属性は、記述子及
び/又は特定の属性を定義することにより構成されてい
ることを特徴とする請求項5記載のデータ処理装置。 - 【請求項9】 上記特徴データを、上記入力データとと
もに、外部機器へと送信することを特徴とする請求項5
記載のデータ処理装置。 - 【請求項10】 入力データの内容の特徴を表す特徴デ
ータを利用するデータ処理装置であって、 記述方法を定義する単位要素となる記述子に関し、下位
要素としての属性が定義される構造を有し、上記属性と
して記述子を含み得る記述子に基づいて生成された特徴
データを利用して、上記入力データの内容の特徴を復元
する復元手段を備えることを特徴とするデータ処理装
置。 - 【請求項11】 上記入力データは、ビデオデータにお
ける映像データと音声データとの少なくとも一方を含む
ことを特徴とする請求項10記載のデータ処理装置。 - 【請求項12】 上記記述子は、上記構造の形成能力を
含めて上位の記述子の機能を継承して生成されたもので
あることを特徴とする請求項10記載のデータ処理装
置。 - 【請求項13】 上記下位要素としての属性は、記述子
及び/又は特定の属性を定義することにより構成されて
いることを特徴とする請求項10記載のデータ処理装
置。 - 【請求項14】 上記復元手段は、上記入力データの特
徴を復元して上記入力データの加工されたデータを生成
することを特徴とする請求項10記載のデータ処理装
置。 - 【請求項15】 上記特徴データを、上記入力データと
ともに、外部機器から受信することを特徴とする請求項
10記載のデータ処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000023338A JP2000287166A (ja) | 1999-01-29 | 2000-01-27 | データ記述方法及びデータ処理装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11-23068 | 1999-01-29 | ||
JP2306899 | 1999-01-29 | ||
JP2000023338A JP2000287166A (ja) | 1999-01-29 | 2000-01-27 | データ記述方法及びデータ処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000287166A true JP2000287166A (ja) | 2000-10-13 |
JP2000287166A5 JP2000287166A5 (ja) | 2007-02-01 |
Family
ID=26360366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000023338A Pending JP2000287166A (ja) | 1999-01-29 | 2000-01-27 | データ記述方法及びデータ処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000287166A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006059436A1 (ja) * | 2004-12-03 | 2006-06-08 | Nec Corporation | 映像コンテンツ再生支援方法、映像コンテンツ再生支援システム、及び情報配信プログラム |
JP2006237879A (ja) * | 2005-02-23 | 2006-09-07 | Sony Corp | Cm検索方法、cm検索結果受給方法、cm検索装置、cm検索結果受給装置及びcm録画予約システム |
JP2011529293A (ja) * | 2008-07-23 | 2011-12-01 | エルティーユー テクノロジーズ エスエーエス | フレームに基づくビデオマッチング |
JP2014179888A (ja) * | 2013-03-15 | 2014-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 映像要約装置、映像要約方法及び映像要約プログラム |
JP2015171073A (ja) * | 2014-03-10 | 2015-09-28 | 国立大学法人 筑波大学 | 要約映像データ作成システム及び方法並びにコンピュータプログラム |
-
2000
- 2000-01-27 JP JP2000023338A patent/JP2000287166A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006059436A1 (ja) * | 2004-12-03 | 2006-06-08 | Nec Corporation | 映像コンテンツ再生支援方法、映像コンテンツ再生支援システム、及び情報配信プログラム |
JPWO2006059436A1 (ja) * | 2004-12-03 | 2008-08-07 | 日本電気株式会社 | 映像コンテンツ再生支援方法、映像コンテンツ再生支援システム、及び情報配信プログラム |
JP4692775B2 (ja) * | 2004-12-03 | 2011-06-01 | 日本電気株式会社 | 映像コンテンツ再生支援方法、映像コンテンツ再生支援システム、及び情報配信プログラム |
JP2006237879A (ja) * | 2005-02-23 | 2006-09-07 | Sony Corp | Cm検索方法、cm検索結果受給方法、cm検索装置、cm検索結果受給装置及びcm録画予約システム |
JP4534791B2 (ja) * | 2005-02-23 | 2010-09-01 | ソニー株式会社 | Cm検索方法、cm検索結果受給方法、cm検索装置、cm検索結果受給装置及びcm録画予約システム |
JP2011529293A (ja) * | 2008-07-23 | 2011-12-01 | エルティーユー テクノロジーズ エスエーエス | フレームに基づくビデオマッチング |
JP2014179888A (ja) * | 2013-03-15 | 2014-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 映像要約装置、映像要約方法及び映像要約プログラム |
JP2015171073A (ja) * | 2014-03-10 | 2015-09-28 | 国立大学法人 筑波大学 | 要約映像データ作成システム及び方法並びにコンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7949050B2 (en) | Method and system for semantically segmenting scenes of a video sequence | |
Vijayakumar et al. | A study on video data mining | |
Salembier et al. | MPEG-7 multimedia description schemes | |
JP3568117B2 (ja) | ビデオ画像の分割、分類、および要約のための方法およびシステム | |
JP4987907B2 (ja) | メタデータ処理装置 | |
WO2000045604A1 (en) | Signal processing method and video/voice processing device | |
WO2000045596A1 (fr) | Procede de description de donnees et unite de traitement de donnees | |
US7181757B1 (en) | Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing | |
US7421455B2 (en) | Video search and services | |
CA2387404A1 (en) | Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing | |
Lee et al. | Automatic video summarizing tool using MPEG-7 descriptors for personal video recorder | |
WO2005093752A1 (en) | Method and system for detecting audio and video scene changes | |
JP4732418B2 (ja) | メタデータ処理方法 | |
JP5116017B2 (ja) | 動画検索方法およびシステム | |
US20040024780A1 (en) | Method, system and program product for generating a content-based table of contents | |
JP2000285242A (ja) | 信号処理方法及び映像音声処理装置 | |
JP2000287166A (ja) | データ記述方法及びデータ処理装置 | |
Dong et al. | Advanced news video parsing via visual characteristics of anchorperson scenes | |
JP4652389B2 (ja) | メタデータ処理方法 | |
Teng et al. | A Smooth Video Summarization Method Based on Frame-Filling | |
Nesvadba et al. | Real-time and distributed AV content analysis system for consumer electronics networks | |
Valdés et al. | A framework for video abstraction systems analysis and modelling from an operational point of view | |
KR100859396B1 (ko) | 요약시간을 이용한 시간제한 경계값을 갖는 계층적 샷 클러스터링 방식의 비디오 요약방법 및 그 기록매체 | |
Perez-Daniel et al. | Scalable video summarization of cultural video documents in cross-media space based on data cube approach | |
Jiang et al. | Trends and opportunities in consumer video content navigation and analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061130 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090526 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090727 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090825 |