JP2000287166A

JP2000287166A - データ記述方法及びデータ処理装置

Info

Publication number: JP2000287166A
Application number: JP2000023338A
Authority: JP
Inventors: Walker Toby; ウォーカートビー; Hiroshi Matsubara; 弘松原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-01-29
Filing date: 2000-01-27
Publication date: 2000-10-13

Abstract

(57)【要約】【課題】種々のビデオデータの内容を検索してブラウ
ジングする高度な方法を実現する。【解決手段】ビデオデータの内容の特徴を表す特徴デ
ータを記述するための記述方法を定義する単位要素とな
るディスクリプタは、下位要素としての属性が定義され
る構造を有し、属性として他のディスクリプタを含み得
る記述フォーマットにより形成される。すなわち、ディ
スクリプタの記述フォーマットは、下位要素のディスク
リプタ或いは属性を示すフィーチャ（Feature）と、こ
のフィーチャのデータ型を示すフィーチャタイプ（Feat
ure Type）とからなる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力データの内容
の特徴を表す特徴データを記述するためのデータ記述方
法に関する。また、本発明は、この特徴データを生成す
るデータ処理装置に関する。さらに、本発明は、この特
徴データを利用するデータ処理装置に関する。

【０００２】

【従来の技術】例えばビデオデータに録画されたテレビ
番組といった大量の異なる映像データにより構成される
映像アプリケーションの中から、興味のある部分等の所
望の部分を探して再生したい場合がある。

【０００３】このように、所望の映像内容を抽出するた
めの一般的な技術としては、アプリケーションの主要場
面を描いた一連の映像を並べて作成されたパネルである
ストーリーボードがある。このストーリーボードは、ビ
デオデータをいわゆるショットに分解し、各ショットに
おいて代表される映像を表示したものである。このよう
な映像抽出技術は、そのほとんどが、例えば“G. Ahang
er and T.D.C. Little, A survey of technologies for
parsing and indexing digital video, J. ofVisual C
ommunication and Image Representation 7:28-4, 199
6”に記載されているように、ビデオ構造からショット
を自動的に検出して抽出するものである。

【０００４】

【発明が解決しようとする課題】ところで、例えば代表
的な３０分のテレビ番組中には、数百ものショットが含
まれている。そのため、上述した従来の映像抽出技術に
おいては、ユーザは、抽出された膨大な数のショットを
並べたストーリーボードを調べる必要があり、このよう
なストーリーボードを理解する際、ユーザに大きな負担
を強いる必要があった。また、従来の映像抽出技術にお
いては、例えば話し手の変化に応じて交互に２者を撮影
した会話場面におけるショットは、冗長のものが多いと
いう問題があった。このように、ショットは、ビデオ構
造を抽出する対象としては階層が低すぎて無駄な情報量
が多く、このようなショット抽出に基づく従来のビデオ
構造抽出技術は、ユーザに大きな負担を強いる必要があ
った。

【０００５】すなわち、ユーザにとっての利便を考慮す
れば、ビデオ構造抽出技術は、ショットより上位のレベ
ルを含めて、ビデオデータの内容に応じた様々なレベル
におけるビデオ構造を把握する必要がある。しかしなが
ら、このようなビデオ構造を抽出する処理は、非常に複
雑であり、その結果、このようなビデオ構造を抽出する
ための装置は、高度な処理能力や大容量の計算資源を有
するものである必要があった。したがって、要するコス
トや労力を踏まえると、家庭においてこのような処理を
行うことは、非常に困難であった。

【０００６】本発明は、このような実情に鑑みてなされ
たものであり、ビデオデータの内容を検索してブラウジ
ングするための高度な方法を実現し、種々のビデオデー
タの自動内容解析により得られたビデオ構造を記述する
ためのデータ記述方法を提供することを目的とするもの
である。また、本発明は、ビデオデータの自動内容解析
に基づいて、このようなデータを生成するデータ処理装
置を提供することを目的とするものである。さらに、本
発明は、このようなデータを利用して、特に家庭等にお
いて、ビデオ・コンテンツに容易で且つ個人的なアクセ
スを可能とするデータ処理装置を提供することを目的と
するものである。

【０００７】

【課題を解決するための手段】上述した目的を達成する
本発明にかかるデータ記述方法は、入力データの内容の
特徴を表す特徴データを記述するためのデータ記述方法
であって、記述方法を定義する単位要素となる記述子
は、下位要素としての属性が定義される構造を有し、属
性として記述子を含み得ることを特徴としている。

【０００８】このような本発明にかかるデータ記述方法
は、構造を有する記述子の集合を用いて、特徴データの
構造化した記述を可能とする。

【０００９】また、上述した目的を達成する本発明にか
かるデータ処理装置は、入力データの内容の特徴を表す
特徴データを生成するデータ処理装置であって、記述方
法を定義する単位要素となる記述子に関し、下位要素と
しての属性が定義される構造を有し、属性として記述子
を含み得る記述子に基づいて特徴データを生成する生成
手段を備えることを特徴としている。

【００１０】このような本発明にかかるデータ処理装置
は、構造を有する記述子の集合を用いて、構造化された
特徴データを生成する。

【００１１】さらに、上述した目的を達成する本発明に
かかるデータ処理装置は、入力データの内容の特徴を表
す特徴データを利用するデータ処理装置であって、記述
方法を定義する単位要素となる記述子に関し、下位要素
としての属性が定義される構造を有し、属性として記述
子を含み得る記述子に基づいて生成された特徴データを
利用して、入力データの内容の特徴を復元する復元手段
を備えることを特徴としている。

【００１２】このような本発明にかかるデータ処理装置
は、特徴データに基づいて、入力データの内容の特徴を
復元する。

【００１３】

【発明の実施の形態】以下、本発明を適用した具体的な
実施の形態について図面を参照しながら詳細に説明す
る。

【００１４】本発明を適用した実施の形態は、例えば、
映像データと音声データとからなるビデオデータといっ
たマルチメディア・コンテンツ等を供給する放送局等に
おける送信装置と、例えばディジタルビデオやホーム・
サーバといった送信装置からのマルチメディア・コンテ
ンツ等を受信して処理する受信装置とにより構成される
データ送受信処理システムである。このデータ送受信処
理システムは、ここでは、マルチメディア・コンテンツ
としてビデオデータを扱うものとする。データ送受信処
理システムの具体的な説明を行う前に、ここではまず本
発明において対象とするマルチメディア・コンテンツで
あるビデオデータに関する説明を行う。

【００１５】本発明において対象とするビデオデータに
ついては、図１に示すようにモデル化し、フレーム、セ
グメント、シーン、プログラムといったレベルに階層化
された構造を有するものとする。すなわち、ビデオデー
タは、最下位層において、一連のフレームにより構成さ
れる。また、ビデオデータは、フレームの１つ上の階層
として、連続するフレームのひと続きから形成されるセ
グメントにより構成される。さらに、ビデオデータは、
セグメントのさらに１つ上の階層として、このセグメン
トを意味のある関連に基づきまとめて形成されるシーン
により構成される。さらにまた、ビデオデータは、ここ
では図示しないが、関連するシーンをまとめて形成され
るプログラムといったさらに上の階層をも必要に応じて
有するものとする。

【００１６】このビデオデータは、一般に、映像及び音
声の両方の情報を含む。すなわち、このビデオデータに
おいてフレームには、単一の静止画像である映像フレー
ムと、一般に数十〜数百ミリセカンド／長といった短時
間においてサンプルされた音声情報を表す音声フレーム
とが含まれる。

【００１７】また、セグメントは、単一のカメラにより
連続的に撮影された映像フレームのひと続きから構成さ
れ、一般にはショットと呼ばれる。そして、セグメント
には、映像セグメントと音声セグメントとが含まれ、ビ
デオ構造における基本単位となる。これらのセグメント
の中で、特に音声セグメントについては、多くの定義が
可能であり、例として次に示すようなものが考えられ
る。まず、音声セグメントは、一般によく知られている
方法により検出されたビデオデータ中の無音期間により
境界を定められて形成される場合がある。また、音声セ
グメントは、“D.Kimber and L. Wilcox, Acoustic Seg
mentation for Audio Browsers, Xerox Parc Technical
Report”に記載されているように、例えば、音声、音
楽、ノイズ、無音等のように少数のカテゴリに分類され
た音声フレームのひと続きから形成される場合もある。
さらに、音声セグメントは、“S. Pfeiffer, S. Fische
r and E. Wolfgang, Automatic Audio Content Analysi
s, Proceeding of ACM Multimedia 96, Nov. 1996, pp2
1-30”に記載されているように、２枚の連続する音声フ
レーム間の或る特徴における大きな変化を音声カット点
として検出し、この音声カット点に基づいて決定される
場合もある。

【００１８】さらに、シーンは、ビデオデータの内容を
意味に基づくより高いレベルで記述するために、映像セ
グメント（ショット）検出或いは音声セグメント検出に
より得られたセグメントを、例えばセグメント内の知覚
的アクティビティ量といったセグメントの特徴を表す特
徴量を用いて意味のあるまとまりにグループ化したもの
である。

【００１９】さらにまた、プログラムは、意味的に関連
するシーンの並びを表すものである。具体例としては、
映画、一般のテレビ番組、ニュース番組、スポーツ中継
等がある。

【００２０】本発明を適用した実施の形態として図２に
示すデータ送受信処理システムは、マルチメディア・コ
ンテンツとしての上述したビデオデータ等の各種データ
を供給する送信装置１０と、この送信装置１０からビデ
オデータ等の各種データを受信する受信装置２０とを備
える。

【００２１】送信装置１０は、同図に示すように、上述
したビデオデータを保持する記憶部１１と、この記憶部
１１からのビデオデータの内容の特徴を表してビデオ構
造等を記述した特徴データを生成する生成手段である特
徴データ生成部１２と、記憶部１１からのマルチメディ
ア・コンテンツをエンコードするエンコーダ１３と、特
徴データ生成部１２からの特徴データをエンコードする
エンコーダ１４とを備える。

【００２２】また、受信装置２０は、同図に示すよう
に、送信装置１０からのエンコードされたマルチメディ
ア・コンテンツをデコードするデコーダ２１と、送信装
置１０からのエンコードされた特徴データをデコードす
るデコーダ２２と、特徴データに基づいてビデオ構造を
解析し、所望の内容をユーザに提供する復元手段である
検索エンジン２３とを備える。

【００２３】このようなデータ送受信処理システムにお
いて、送信装置１０は、記憶部１１に保持されたビデオ
データのビデオ構造等を記述する特徴データを生成し、
図示しない伝送路を介して、この特徴データをビデオデ
ータとともに受信装置２０へ送信する。そして、受信装
置２０は、受信した特徴データに基づき、受信したビデ
オデータのビデオ構造を回復し、例えば、上述した各シ
ーンを代表する一連のフレームを閲覧可能としたデータ
であるストーリーボード等を生成する。

【００２４】このことにより、データ送受信処理システ
ムにおいては、例えば、ユーザが受信装置２０における
検索エンジン２３を介して、ビデオデータにおける所望
の内容を見たいという要求を受信装置２０に与えると、
受信装置２０は、検索エンジン２３によって、回復され
たビデオデータのビデオ構造を解析し、所望の内容をユ
ーザに提供することができる。したがって、ユーザは、
ビデオデータに対して容易で且つ個人的にアクセスする
ことが可能となり、ブラウジングを効率よく行うことが
できる。

【００２５】このように、ビデオデータの内容から抽出
された低レベルの特徴を用いて高レベルのビデオ構造を
抽出するための特徴データの記述内容について詳細に説
明する。

【００２６】まず、ビデオデータのビデオ構造等を記述
するのに必要となる特徴項目をディスクリプタ（Descri
ptor）、さらに、これらのディスクリプタの構造化され
た集合体をディスクリプション・スキーム（Descriptio
n Scheme）と称することとする。本発明において、この
ディスクリプション・スキームは、ビデオデータにおけ
る映像と音声との両方の特徴に基づいてビデオデータの
基本的な構造を記述するためのビデオ・コア・ディスク
リプション・スキーム（Video Core Description Schem
e；以下、ＶＣＳと略記する。）と、このＶＣＳを、ビ
デオ構造を視覚化するのに必要なディスクリプタにより
拡張し、特にビデオデータのブラウジングでの使用を目
的としたビデオ・ブラウジング・ディスクリプション・
スキーム（Video Browsing Description Scheme；以
下、ＶＢＳと略記する。）とからなる。

【００２７】ＶＣＳは、ビデオデータにおける様々なビ
デオ構造を捉えるために使用されるものであって、ビデ
オデータにおける映像セグメント及び音声セグメントの
構造とそれらの相互関係との記述を可能とするものであ
る。ＶＣＳでは、ビデオデータにおける互いに類似する
セグメントをまとめて形成された類似セグメント構造
と、時間的に連続したセグメントの集合である時間セグ
メント構造と、セグメント間の論理的関係に基づく論理
セグメント構造という３つの異なる構造を記述するため
のディスクリプション・スキームが、単一のディスクリ
プション・スキームとして調和的に統合されている。ま
た、ＶＣＳは、ビデオデータの低レベルから意味的構造
までの様々なレベルにおけるビデオ構造の記述を可能と
する。すなわち、ＶＣＳは、構造化されたビデオデータ
における様々な詳細レベルにおいて、ビデオデータに関
する様々な情報にアクセスすることを可能とする。

【００２８】一方、ＶＢＳは、ビデオデータを論理的に
再構成して、視聴者がその内容を理解し、興味がある部
分を見出すことを可能とするものである。また、ＶＢＳ
は、フレームのような低レベルのみではなく、シーンの
ような高レベルについても、類似性に基づく検索を可能
とするものである。

【００２９】本発明におけるディスクリプタは、複数の
属性を有する構造体であって、下位要素として自らを含
めた他のディスクリプタ及び／又は特定の属性が定義さ
れることにより構成される。以下、本発明におけるディ
スクリプタを、図３に示すような記述フォーマットにし
たがって説明する。同図に示す記述フォーマットにおい
て、ディスクリプタ（Descriptor）は、当該ディスクリ
プタ名を表し、スーパークラス（Superclass）は、当該
ディスクリプタの上位クラスのディスクリプタ名を表
し、フィーチャ（Feature）は、下位要素のディスクリ
プタ及び／又は属性を表し、フィーチャタイプ（Featur
e Type）は、フィーチャのデータ型を表すこととなる。
なお、必要に応じて、実例値（Example Value）とし
て、下位要素のフィーチャの数値例を与える。

【００３０】ここで、上述したスーパークラスとして示
される上位クラスのディスクリプタとは、いわゆるオブ
ジェクト指向表現において、当該ディスクリプタが継承
する元のディスクリプタを指す。すなわち、本発明にお
けるディスクリプタは、オブジェクト指向表現により記
述され、下位のディスクリプタは、その上位となるディ
スクリプタの機能を継承することとする。このことによ
り、これらのディスクリプタは、高度な機能を有するも
のへと容易に拡張することができ、このディスクリプタ
を用いて記述される特徴データを、より簡便に構成する
ことができる。本発明における全てのディスクリプタの
継承関係を図４に示す。

【００３１】本発明における全てのディスクリプタは、
同図に示すように、ＶＣＳ或いはその拡張ディスクリプ
ション・スキームであるＶＢＳのいずれかに属し、全体
として１つの体系を形成する。

【００３２】すなわち、ＶＣＳに属するディスクリプタ
としては、オーディオ・ビジュアル・エレメント（Audi
o Visual Element；以下、ＡＶエレメント又はＡＶＥｌ
ｅｍｅｎｔと略記する。）と、オーディオ・ビジュアル
・セグメント（Audio VisualSegment；以下、ＡＶセグ
メント又はＡＶＳｅｇｍｅｎｔと略記する。）と、オー
ディオ・ビジュアル・アブストラクト（Audio Visual A
bstract；以下、ＡＶアブストラクト又はＡＶＡｂｓｔ
ｒａｃｔと略記する。）と、オーディオ・ビジュアル・
プロトタイプ（Audio Visual Prototype；以下、ＡＶプ
ロトタイプ又はＡＶＰｒｏｔｏｔｙｐｅと略記する。）
と、ハイアラキ（Hierarchy）と、クラスタ（Cluster）
と、コンポジッド・セグメント（Composite Segment）
と、オーディオ・ビジュアル・グラフ（Audio Visual G
raph；以下、ＡＶグラフ又はＡＶＧｒａｐｈと略記す
る。）と、オーディオ・ビジュアル・グラフエッジ（Au
dioVisual Graph Edge；以下、ＡＶグラフエッジ又はＡ
ＶＧｒａｐｈＥｄｇｅと略記する。）と、シグネチャ
（Signature）と、テンポラル・シグネチャ（Temporal
Signature）と、アクティビティ・レベル（Activity Le
vel）と、ウエイト・ベクトル（Weight Vector）と、コ
ンセプト（Concept）とがあり、コンセプトが参照可能
な情報としてＸＭＬ，ＲＤＦがある。

【００３３】一方、ＶＢＳに属するディスクリプタとし
ては、シノプシス（Synopsis）と、カラー（Color）
と、カラー・スペース（Color Space）と、カラー・シ
グネチャ（Color Signature）と、オーディオ・フレー
ム（Audio Frame；以下、音声フレームと略記する。）
と、ビジュアル・フレーム（Visual Frame；以下、映像
フレームと略記する。）と、ブラウジング・ノード（Br
owsing Node）と、ショット（Shot）と、シーン（Scen
e）と、プログラム（Program）とがある。

【００３４】ここで、同図中において、△が付随してい
るディスクリプタは、ディスクリプタ間の継承関係にお
ける上位クラスのディスクリプタであることを示し、◇
が付随しているディスクリプタは、それと接続している
ディスクリプタに属性を与えるディスクリプタであるこ
とを示している。すなわち、ディスクリプタ間の関係に
おいて、ＡＶセグメントと、ＡＶアブストラクトと、ハ
イアラキと、クラスタと、ＡＶグラフとにおける継承元
のディスクリプタは、ＡＶエレメントである。また、デ
ィスクリプタ間の関係において、ＡＶグラフに属性を与
えるディスクリプタは、ＡＶグラフエッジである。同様
に、他のディスクリプタについても、継承元のディスク
リプタと、属性を表すディスクリプタとを示すことがで
きる。

【００３５】以下、これらのディスクリプタについて順
次説明していく。なお、以下の議論の中では、ビデオデ
ータは、１つの映像ストリームと１つの音声ストリーム
とが存在するものとして説明を進めるが、本発明におけ
るディスクリプション・スキームは、ビデオデータ中に
任意の数の映像ストリームと音声ストリームとが含まれ
ているような一般的な場合も取り扱うことができるもの
である。

【００３６】まず、ＶＣＳに属するディスクリプタとし
て、ＡＶエレメント・ディスクリプタについて説明す
る。このＡＶエレメント・ディスクリプタは、映像音声
ストリームの内容解析を行うための論理ユニットを表す
抽象的なディスクリプタである。ここで、ＡＶエレメン
トの定義は、映像フレームのような基本的な解析ユニッ
ト、ショットやシーンのような高レベルの構造ユニッ
ト、若しくは、或る俳優が登場する全てのフレーム等と
いった分類法に基づくユニット等、映像音声ストリーム
内における任意のユニットを表すものとする。

【００３７】このようなＡＶエレメント・ディスクリプ
タの記述フォーマットは、図５に示すようなものにな
る。このＡＶエレメント・ディスクリプタは、映像音声
ストリームの内容を記述するための抽象的なエレメント
を与える。すなわち、ＶＣＳにおいて、映像音声ストリ
ームの内容の何らかの側面を記述する他の全てのディス
クリプタは、このＡＶエレメント・ディスクリプタを継
承することとなる。ＡＶエレメント・ディスクリプタ
は、特徴データとして、実際のビデオデータを指しても
よく、或いは、ビデオデータの内容を記述するために作
られた抽象的或いは解析的構成物を指してもよい。

【００３８】つぎに、ＡＶセグメント・ディスクリプタ
について説明する。ＶＣＳにおいて最も重要なディスク
リプタは、このＡＶセグメント・ディスクリプタであ
る。ここで、ＡＶセグメントとは、少なくとも１つ以上
の映像音声ストリームを含むビデオストリームを部分的
に区切ったもの、すなわち、セグメントである。このセ
グメントは、ビデオデータに付随された統一的な時間情
報を用いて指定してもよく、または、ビデオデータに統
一的に付けられたフレーム番号等を用いて指定してもよ
い。

【００３９】このようなＡＶセグメント・ディスクリプ
タの記述フォーマットは、図６に示すようなものにな
る。このＡＶセグメント・ディスクリプタは、上位クラ
スであるＡＶエレメント・ディスクリプタを継承してい
る。また、ＡＶセグメント・ディスクリプタは、下位要
素のディスクリプタ或いは属性を示すフィーチャとし
て、その型がポジション（Position）であり、ビデオデ
ータ内での当該セグメントの開始位置を示すスタートポ
イント（Start Point）と、その型がポジション（Posit
ion）であり、ビデオデータ内での当該セグメントの終
了位置を示すエンドポイント（End Point）と、その型
がストリーム参照（Streamref）の集合であり、対象ビ
デオデータへの参照を示すストリームズ（Streams）
と、その型がＡＶアブストラクト（AVAbstract）の集合
であり、当該セグメントの映像音声上の内容要約を示
し、実例値としてキーフレーム（Key frame）が挙げら
れるアブストラクト（Abstract）と、その型がコンセプ
ト（Concept）の集合であり、当該セグメントの概念的
な内容を与える０個以上の注釈を示し、実例値として当
該セグメントのＲＤＦに基づく構造記述データへの参照
が挙げられるコンセプト（Concept）とを有する。

【００４０】ＡＶセグメントは、それ自体としては、そ
れが扱うセグメントの詳細レベルに制限はない。すなわ
ち、ＡＶセグメントは、例えば、単一の映像フレームの
ような低レベルセグメントから、テレビ番組中における
コマーシャルのような高レベルセグメントまで、様々な
詳細レベルのセグメント表すのに用いることができる。

【００４１】ここで、映像ストリーム及び音声ストリー
ムにおける最小のＡＶセグメントを、それぞれ、映像フ
レーム及び音声フレームと称する。映像ストリームにお
いて、映像フレームとは、上述したように、単一の静止
画像を示す。一方、音声ストリームにおいて、音声フレ
ームとは、単一の音声サンプリング値ではなく、解析を
可能とするに足る音声サンプリング値の集合である。Ｖ
ＣＳにおいては、映像フレーム及び音声フレームは、Ａ
Ｖセグメントの最も基本的なノードとして取り扱われ
る。ＡＶセグメントのその他の例としては、ショットや
シーン等がある。

【００４２】なお、同図におけるポジション（Positio
n）は、時間情報を表現することが可能である任意のデ
ータ型であり、その唯一の必要条件は、それが継続時間
の計測を可能とし、且つビデオデータ内の全てのストリ
ームについて共通の時間軸を与える数量スケールである
ことである。具体例としては、ビデオデータの開始から
の時間を秒単位で計測したものが挙げられる。また、St
reamrefは、複合ストリーム・マルチメディア文書内の
単一ストリームへの参照を可能とする任意のデータ型で
ある。

【００４３】つぎに、ＡＶアブストラクト・ディスクリ
プタについて説明する。このＡＶアブストラクト・ディ
スクリプタの記述フォーマットは、図７に示すようなも
のになる。このＡＶアブストラクト・ディスクリプタ
は、上位クラスであるＡＶエレメント・ディスクリプタ
を継承している。

【００４４】ＡＶアブストラクト・ディスクリプタは、
ＡＶエレメントの内容の要約を与えるものである。例え
ば、或るＡＶエレメントにおいて、それを代表するよう
な下位のＡＶエレメント（例えばこのＡＶエレメントが
シーンを指すならば、下位のＡＶエレメントはショット
となる。）を選択すれば、これを当該ＡＶエレメントの
要約となる場合もある。

【００４５】ところで、ＡＶアブストラクト・ディスク
リプタで示される要約とは、それが代表するところのＡ
Ｖエレメントの内容を代替して表現するものである。Ｖ
ＣＳにおいて、このＡＶアブストラクト・ディスクリプ
タの最も重要な使用方法は、類似ＡＶエレメントの検索
等において、その要約を比較するだけで、目的のＡＶエ
レメントの同定を可能とすることである。すなわち、こ
の要約とは、ＡＶエレメントの検出、比較、検索等を行
うためのキーとしての役割を果たすものである。

【００４６】つぎに、ＡＶプロトタイプ・ディスクリプ
タについて説明する。このＡＶプロトタイプ・ディスク
リプタの記述フォーマットは、図８に示すようなものに
なる。このＡＶプロトタイプ・ディスクリプタは、上位
クラスであるＡＶアブストラクト・ディスクリプタを継
承している。また、ＡＶプロトタイプ・ディスクリプタ
は、下位要素のディスクリプタ或いは属性を示すフィー
チャとして、その型が文字列（String）であり、このＡ
Ｖプロトタイプ・ディスクリプタが示すＡＶエレメント
の種類を示し、実例値としてショット（Shot）、シーン
（Scene）若しくは映像フレーム（VisualFrame）が挙げ
られる種別（Kind）と、その他必要に応じて、その型が
任意のディスクリプタである複数の特徴（Feature1，・
・・，Featuren）と、その型が重みベクトル（Weight V
ector）であり、当該ＡＶプロトタイプ・ディスクリプ
タが下位要素として持つ特徴の重要度の重み付けを示す
ウエイト（Weights）とを有する。

【００４７】ＡＶプロトタイプは、対象とするＡＶエレ
メントの概略を与える。ＶＣＳにおいては、このＡＶプ
ロトタイプによって、或る型のＡＶエレメントの概略
を、ディスクリプタ値の集合として記述することができ
る。別の見方をすれば、或るプロトタイプ・エレメント
は、それが示すＡＶエレメントに含まれる任意数の具体
的要素或いはその解析物によって、そのＡＶエレメント
の概略を与えるものである。

【００４８】ここで、解析物の例として、図９に示すよ
うに、例えば或る単一のショットにおいて、そのショッ
トが含む全ての画像を考える。この画像グループについ
て、プロトタイプとしての画像を定義したい場合、画像
グループの中の或る画像を用いる代わりに、ショット中
の全画像の平均値画像を求めることによって、この平均
値画像を、プロトタイプ中の特徴値として用いることが
できる。

【００４９】一方、ＡＶプロトタイプ・ディスクリプタ
は、例えばショットやシーンといったビデオデータの構
造解析の際に使用されるセグメントを代表するフレーム
を示すこともある。例えば、後述するように、複数のシ
ョットに対し、各ショットにおける特徴値として、それ
らがＡＶプロトタイプとして示した映像フレームに関す
る特徴値を抽出して比較し、時間的に近接して類似した
ショットを検出して繰り返しまとめていくことによっ
て、最終的にシーンを生成することができる。

【００５０】つぎに、ハイアラキ・ディスクリプタにつ
いて説明する。ビデオデータにおいて互いに類似する或
いは関連する映像セグメントや音声セグメントを一緒に
グループ化することは、内容に基づく検索やブラウジン
グのためにビデオデータを階層構造化する基本的な方法
である。そこで、ＶＣＳにおいては、ツリーに基づく階
層構造を用いることにより、構造内の様々な詳細レベル
において、映像セグメントや音声セグメントの集合のグ
ループ化を表すことを可能としている。この階層構造
は、以下の特徴を提供する。すなわち、第１の特徴とし
ては、様々な詳細レベルでのアクセスを可能とすること
であり、第２の特徴としては、上位レベルにおいて内容
要約を提供することである。また、第３の特徴として
は、階層的分類法を提供することであり、第４の特徴と
しては、高レベルの層において、近似的に意味論的分類
を提供することである。

【００５１】ハイアラキ・ディスクリプタの記述フォー
マットは、図１０に示すようなものになる。このハイア
ラキ・ディスクリプタは、上位クラスであるＡＶエレメ
ント・ディスクリプタを継承している。また、ハイアラ
キ・ディスクリプタは、下位要素のディスクリプタ或い
は属性を示すフィーチャとして、その型がクラスタ（Cl
uster）であり、階層の起点を示すルート（Root）と、
その型が文字列（String）であり、階層の種類を示す種
別（Kind）とを有する。

【００５２】このようなハイアラキ・ディスクリプタ
は、関連した或いは類似した複数のＡＶエレメントを１
つの階層構造としてまとめた結果そのものを示すもので
ある。

【００５３】つぎに、クラスタ・ディスクリプタについ
て説明する。このクラスタ・ディスクリプタの記述フォ
ーマットは、図１１に示すようなものになる。このクラ
スタ・ディスクリプタは、上位クラスであるＡＶエレメ
ント・ディスクリプタを継承している。また、クラスタ
・ディスクリプタは、下位要素のディスクリプタ或いは
属性を示すフィーチャとして、その型がＡＶエレメント
（AVElement）の集合であり、このグループ内に直接含
まれる複数のＡＶエレメントを示すメンバー（Member
s）と、その型がＡＶアブストラクト（AVAbstract）で
あり、このクラスタに含まれるメンバーのうち、このク
ラスタを代表する典型的なメンバーを表す値を示すアブ
ストラクト（Abstract）とを有する。

【００５４】このようなクラスタ・ディスクリプタは、
関連した或いは或いは類似したＡＶエレメントを一緒に
グループ化して、１つのまとまりを形成することを表す
ものである。この定義は再帰的であって、或るクラスタ
は、メンバーとして他のクラスタを含んでもよい。その
場合、それらのクラスタ群は、階層的な分類構造を構成
することとなる。

【００５５】このクラスタ・ディスクリプタを用いるこ
とによって、例えば図１２に示すように、セグメント間
の類似性（similarity）を基にしたセグメントのクラス
タリングを行い、その結果を記述することができる。具
体的には、クラスタ・ディスクリプタを用いることによ
って、後述するように、類似性に基づくショットのクラ
スタリングを行うことができる。

【００５６】このような類似性によるツリー構造を構成
する方法としては、多数のものが知られており、例え
ば、凝集階層クラスタリング法（agglomerative hierar
chicalclustering methods）等がある。

【００５７】つぎに、コンポジッド・セグメント・ディ
スクリプタについて説明する。類似性に基づく階層的分
類は、セグメント間の時間的順序とは無関係に構築され
たものである。そこで、ビデオデータの時間的階層構造
を与える目的で、コンポジッド・セグメントを導入す
る。ここで、コンポジッドとは、例えば図１３に示すよ
うに、時間軸上に並ぶＡＶエレメントから形成される階
層構造を表現するものである。

【００５８】コンポジッド・セグメント・ディスクリプ
タの記述フォーマットは、図１４に示すようなものにな
る。このコンポジッド・セグメント・ディスクリプタ
は、上位クラスであるＡＶセグメント・ディスクリプタ
を継承している。また、コンポジッド・セグメント・デ
ィスクリプタは、下位要素のディスクリプタ或いは属性
を示すフィーチャとして、その型がＡＶセグメント（AV
Segment）の集合であるコンポーネント（Components）
を有する。なお、このコンポジッド・セグメント・ディ
スクリプタは、特別な種類のＡＶセグメント・ディスク
リプタであり、上述したコンポーネントの導入によっ
て、セグメンテーションが繰り返し生起される様子を表
現することができる。

【００５９】コンポジッド・セグメント・ディスクリプ
タは、ＡＶセグメントの時間軸上のシーケンスが、互い
に類似するサブシーケンス或いは関連するサブシーケン
スに分割される様子を記述する。このコンポジッド・セ
グメント・ディスクリプタを用いることによって、ビデ
オデータの構造を時間軸上のツリー構造として記述する
ことができる。具体的には、コンポジッド・セグメント
・ディスクリプタを用いることによって、後述するよう
に、類似するセグメントをグループ化してクラスタリン
グした結果をシーンとして記述したり、シーンをさらに
クラスタリングして、ビデオデータ全体の構造をツリー
構造として記述することができる。

【００６０】つぎに、ＡＶグラフ・ディスクリプタ及び
ＡＶグラフエッジ・ディスクリプタについて説明する。
ビデオデータの論理的構造を捉えるために、ＡＶグラフ
を導入する。なお、ここでは、ＡＶグラフを、ＡＶグラ
フエッジにより構成されるグラフと定義する。また、こ
こでは、ＡＶグラフエッジを、各節点がＡＶエレメント
を表し、節点を結ぶ枝（edge）が、一方のＡＶエレメン
トから他方のＡＶエレメントへの関係を表すグラフエッ
ジと定義する。

【００６１】このＡＶグラフは、ＡＶエレメント間の異
なる種類の関係を示すラベルの付いた枝を有するグラフ
エッジの集合体として、各ＡＶエレメントが互いに結合
される様子を記述する。

【００６２】このようなＡＶグラフ・ディスクリプタの
記述フォーマットは、図１５に示すようなものになる。
このＡＶグラフ・ディスクリプタは、上位クラスである
ＡＶエレメント・ディスクリプタを継承している。ま
た、ＡＶグラフ・ディスクリプタは、下位要素のディス
クリプタ或いは属性を示すフィーチャとして、その型が
複数のＡＶグラフエッジ（AVGraphEdge）の集合であ
り、そのＡＶグラフを構成するＡＶグラフエッジを示す
枝（Edges）と、その型が文字列（String）であり、そ
のＡＶグラフの種類を示す種別（Kind）とを有する。

【００６３】このＡＶグラフ・ディスクリプタによっ
て、ビデオデータの繰り返し構造が記述できるようにな
る。具体的には、ＡＶグラフ・ディスクリプタによっ
て、後述するように、検出したシーンの内容を、そのシ
ーンの繰り返し構造として記述することで、ビデオデー
タ全体の構造解析を行うことを可能とする。例として、
図１６（Ａ）に示すような会話場面を形成する一連のシ
ョットにおける２つの異なるＡＶグラフを同図（Ｂ）及
び同図（Ｃ）に示す。同図（Ｂ）に示す例は、単純な直
線的構造を示すものであり、同図（Ｃ）に示す例は、話
し手に応じて交代するショットという特徴を有する意味
的構造を示すものである。

【００６４】一方、ＡＶグラフエッジ・ディスクリプタ
の記述フォーマットは、図１７に示すようなものにな
る。このＡＶグラフエッジ・ディスクリプタは、下位要
素のディスクリプタ或いは属性を示すフィーチャとし
て、その型がＡＶエレメント（AVElement）であり、こ
の枝の起点エレメントであることを示すソース（Sourc
e）と、その型がＡＶエレメント（AVElement）であり、
この枝の終点エレメントであることを示すターゲット
（Target）と、その型が文字列（String）であり、この
枝に結合されたエレメント間の関係の種類を表すラベル
（Label）とを有する。

【００６５】このようなＡＶグラフエッジ・ディスクリ
プタは、２つのＡＶエレメントの間の有向関係（direct
ed connection）を表す。

【００６６】ここで、全てのＡＶグラフエッジは、或る
特定のＡＶグラフに属する。また、同じＡＶエレメント
が、異なるＡＶグラフに属することもあり得る。さら
に、同じＡＶエレメントが、異なるＡＶグラフに属しつ
つも、互いに結合されることもあり得る。

【００６７】なお、ＡＶグラフの定義においては、節点
が参照できるＡＶエレメントの型について、何ら特定の
制約をも課さない。すなわち、節点は、ＡＶプロトタイ
プをも参照することができる。そのような場合には、そ
のＡＶグラフは、ＡＶプロトタイプ・グラフと称され、
ビデオデータの構造の原型（prototype）を表す。この
ような構造を用いて、例えばテレビのニュース番組にお
ける構造を表すことができる。

【００６８】また、ＡＶグラフは、１つのグラフ中の節
点が、他のまとまったグラフを示すような入れ子構造に
なったＡＶグラフを形成することを許容する。これによ
り、ＡＶグラフは、様々なレベルで表現された構造を捉
えることを可能とする。

【００６９】つぎに、シグネチャ・ディスクリプタにつ
いて説明する。このシグネチャ・ディスクリプタの記述
フォーマットは、図１８に示すようなものになる。この
シグネチャ・ディスクリプタは、上位クラスであるＡＶ
アブストラクト・ディスクリプタを継承している。ま
た、シグネチャ・ディスクリプタは、下位要素のディス
クリプタ或いは属性を示すフィーチャとして、その型が
重みベクトル（WeightVector）であるウエイト（Weight
s）と、その型がＡＶエレメント（AVElement）の集合で
あり、それぞれの重み付けがウエイト（Weights）によ
り１対１に示されるところのメンバー（Members）と、
その型が文字列（String）であり、シグネチャの種類を
示す種別（Kind）とを有する。なお、シグネチャの比較
は、その種別が等しい場合のみ有効である。

【００７０】このシグネチャ・ディスクリプタは、代表
的な複数のＡＶエレメントと、それぞれのエレメントの
重み値（Weights）の組み合わせにより、それが示すと
ころのＡＶエレメントの静的な内容を代表して表すもの
である。

【００７１】このシグネチャの第１の例としては、ショ
ット・キーフレーム（Shot Key Frames）がある。ショ
ット・キーフレームとは、コンテンツから抽出された各
ショットを代表する複数のフレームである。各キーフレ
ームの重みは、そのショットを代表するフレームにおい
て、それぞれがどの程度重要であるかを示す指標とな
る。

【００７２】また、シグネチャの第２の例としては、プ
ログラム・シグネチャ（Program Signature）がある。
プログラム・シグネチャとは、或るプログラムの特徴を
強く表すショットの組である。例えば、ニュースプログ
ラムを考えたとき、オープニングのロゴが出現するショ
ット、キャスターのショット、最後のロゴのショット等
がそのニュースプログラムの特徴を最も表したものとし
て使用できる。

【００７３】つぎに、テンポラル・シグネチャ・ディス
クリプタについて説明する。このテンポラル・シグネチ
ャ・ディスクリプタの記述フォーマットは、図１９に示
すようなものになる。このテンポラル・シグネチャ・デ
ィスクリプタは、上位クラスであるＡＶアブストラクト
・ディスクリプタを継承している。また、テンポラル・
シグネチャ・ディスクリプタは、下位要素のディスクリ
プタ或いは属性を示すフィーチャとして、その型が重み
ベクトル（WeightVector）であり、対象とするＡＶエレ
メントにおいて、各部分ＡＶエレメントが占める相対的
継続時間を示すタイム（Time）と、その型がＡＶエレメ
ント（AVElement）のシーケンスであり、対象とするＡ
Ｖエレメントを代表する部分ＡＶエレメントの時間軸に
沿ったシーケンスであるメンバー（Members）と、その
型が文字列（String）であり、テンポラル・シグネチャ
の種類を示す種別（Kind）とを有する。なお、テンポラ
ル・シグネチャの比較は、その種別が等しい場合のみ有
効である。

【００７４】このようなテンポラル・シグネチャ・ディ
スクリプタは、そのメンバーである複数の代表的な部分
ＡＶエレメントのシーケンスにより、当該テンポラル・
シグネチャ・ディスクリプタが対象とするＡＶエレメン
トの動的な内容を代表して表すものである。なお、それ
ぞれの部分ＡＶエレメントに対しては重み係数が与えら
れており、それは、各ＡＶエレメントの相対的な継続時
間に基づく。

【００７５】ところで、対象とするＡＶエレメントを代
表するのに必要な部分ＡＶエレメントの数は、当該ＡＶ
エレメントそれ自体の動的変化の程度と、必要とする内
容の細かさとの両方に依存する。例えば、当該ＡＶエレ
メントの変化が非常に少ない場合、これは１つの部分Ａ
Ｖエレメントで代表させることができる。一方、当該Ａ
Ｖエレメントの変化が激しい場合には、その変化を正確
に表すために、多数の部分ＡＶエレメントを要すること
となる。

【００７６】さて、テンポラル・シグネチャの第１の例
としては、ショット・テンポラル・シグネチャ（Shot T
emporal Signature）がある。このショット・テンポラ
ル・シグネチャは、ショットが含む複数のキーフレーム
の並びであって、これによりショットを特徴付けること
ができる。

【００７７】また、テンポラル・シグネチャの第２の例
としては、テレビジョン・プログラム・テンポラル・シ
グネチャ（Television Program Temporal Signature）
がある。このテレビジョン・プログラム・テンポラル・
シグネチャは、プログラムから抜き出したそのプログラ
ムの特徴を表すキーショットの組である。例えば、ニュ
ースプログラムの場合には、代表的なロゴの或るショッ
ト、キャスターのショット、スポーツのショット、天気
予報等が、当該ニュースプログラムの特徴をよく表した
ものとして使用することができる。

【００７８】ところで、上述したシグネチャとこのテン
ポラル・シグネチャとは、ともに、重み付けされた部分
ＡＶエレメントにより構成される。しかしながら、シグ
ネチャとは異なり、テンポラル・シグネチャは、そのメ
ンバー間に時間的順序を有している。すなわち、テンポ
ラル・シグネチャは、それが含むＡＶエレメントが時間
の経過にともなって提示されることとなる部分ＡＶエレ
メントのシーケンスを記述する。ここで、重み係数は、
各部分ＡＶエレメントがどの程度の（相対的）時間を必
要とするかを示す指標である。

【００７９】つぎに、その他のディスクリプタとして、
アクティビティ・レベル・ディスクリプタと、ウエイト
・ベクトル・ディスクリプタと、コンセプト・ディスク
リプタとについて説明する。

【００８０】アクティビティ・レベル・ディスクリプタ
の記述フォーマットは、図２０に示すようなものにな
る。このアクティビティ・レベル・ディスクリプタは、
下位要素のディスクリプタ或いは属性を示すフィーチャ
として、その型が０以上１以下の実数（Real）であり、
０はアクティビティがないことを示すとともに、１はア
クティビティが最大であることを示すアクティビティ・
レベル（ActivityLevel）を有する。

【００８１】このアクティビティ・レベル・ディスクリ
プタは、ＡＶエレメントにおけるＡＶオブジェクトの活
動量の度合いを表す。なお、アクティビティ・レベル・
ディスクリプタの生成方法は、アプリケーションに依存
する。

【００８２】ここで、映像セグメントを考えた場合、映
像セグメント中の活動量は、様々な方法で測定すること
ができる。例えば、活動量は、セグメント内の隣接フレ
ーム間の映像オブジェクト平均距離や、セグメント内で
生起する全体的な動き量或いは運動量等の測定により求
めることができる。

【００８３】このアクティビティ・レベル・ディスクリ
プタによって、後述するように、映像及び音声の特徴を
記述することができる。すなわち、アクティビティ・レ
ベル・ディスクリプタは、ビデオデータの内容の変化の
大きさを測るパラメータとして利用できる。

【００８４】また、ウエイト・ベクトル・ディスクリプ
タの記述フォーマットは、図２１に示すようなものにな
る。このウエイト・ベクトル・ディスクリプタは、下位
要素のディスクリプタ或いは属性を示すフィーチャとし
て、その型が実数のｎ次元ベクトル（Real[n]）である
ウエイト（Weights）と、その型が論理値（Boolean）で
あり、ウエイト（Weights）に含まれる値が正規化され
た値か否かを示すフラグである正規化(Normalized）と
を有する。なお、ウエイト（Weights）には、制約条件
を課すことができる。

【００８５】このウエイト・ベクトル・ディスクリプタ
は、ＡＶエレメントに適用される重み係数のｎ次元ベク
トルを表す。このウエイト・ベクトル・ディスクリプタ
によって、ビデオデータの特徴抽出の結果得られたパラ
メータの重み付けを指定することができる。

【００８６】さらに、コンセプト・ディスクリプタの記
述フォーマットは、図２２に示すようなものになる。こ
のコンセプト・ディスクリプタは、下位要素のディスク
リプタ或いは属性を示すフィーチャとして、その型がＲ
ＤＦやＸＭＬで記述されたデータへの参照を示すノード
等であるコンセプト（Concept）を有する。

【００８７】このコンセプト・ディスクリプタによっ
て、ＡＶエレメントを、その概念的内容（conceptual c
ontents）を記述したデータに結合することができる。
ＶＣＳにおいては、この概念的内容の記述に関し、特定
の手段を指定するものではない。

【００８８】つぎに、ＶＣＳを拡張、又は継承したＶＢ
Ｓに属するディスクリプタ群について説明していく。

【００８９】まず、ＶＢＳに属するディスクリプタとし
て、シノプシス・ディスクリプタについて説明する。こ
こでは、ユーザに対して、ビデオデータをブラウジング
するためのビデオ要約を提供するディスクリプタについ
て記述する。このシノプシス・ディスクリプタの意図す
るところは、或るビデオデータの内容を要約した後、視
聴者に対して、視覚的、聴覚的、又はその両方によりこ
れを提供する際に用いるＡＶエレメントを記述すること
である。

【００９０】このシノプシス・ディスクリプタの記述フ
ォーマットは、図２３に示すようなものになる。このシ
ノプシス・ディスクリプタは、上位クラスであるＡＶエ
レメント・ディスクリプタを継承している。また、シノ
プシス・ディスクリプタは、下位要素のディスクリプタ
或いは属性を示すフィーチャとして、その型が文字列
（String）であり、シノプシスの種類を示す種別（Kin
d）と、その型がＡＶエレメント（AVElement）のリスト
であり、そのシノプシスを構成するＡＶエレメントの並
びを示すシーケンス（Sequence）と、その型が論理値
（Boolean）であり、シーケンス内のＡＶエレメントの
順序が重要かどうかを示すフラグであるＩｓＯｒｄｅｒ
ｄとを有する。

【００９１】このシノプシス・ディスクリプタは、ユー
ザに対して要約を提供する際に表示すべきＡＶエレメン
ト集合を示している。

【００９２】一見すると、ＡＶアブストラクトとシノプ
シスとは、同じような情報を表現していると思われる。
しかしながら、そこには大きな違いがある。それは、シ
ノプシスがユーザのためにＡＶエレメントを要約してい
るのに対し、ＡＶアブストラクトにおいては、検索或い
はオーディオ・ビジュアルへの索引付け（indexing）等
のための要約を行っていることである。

【００９３】想定されるシノプシスの第１の例として
は、キーフレーム（Key frames）の集合がある。これ
は、ＡＶエレメントの概要を要約するための順序付けら
れたフレーム群である。

【００９４】また、第２の例としては、ダイジェスト
（Digest）がある。これは、ＡＶエレメントの要約を提
示するための順序付けられたＡＶセグメント群であり、
例えば、ビデオデータから切り出されたクリップの並び
である。

【００９５】このシノプシス・ディスクリプタによっ
て、ビデオデータの内容の概要が把握できるようにな
る。具体的には、シノプシス・ディスクリプタによっ
て、後述するように、検出したシーンを、そのシーンの
代表フレームで代表させ、ストーリーボードとして表示
することができる。

【００９６】つぎに、カラー・ディスクリプタについて
説明する。カラー・ディスクリプタの記述フォーマット
は、図２４に示すようなものになる。このカラー・ディ
スクリプタは、下位要素のディスクリプタ或いは属性を
示すフィーチャとして、その型が実数の３次元ベクトル
（Real[3]）であり、各要素が０以上１以下の範囲で表
現された色彩要素値を示すカラー（Color）を有する。

【００９７】このカラー・ディスクリプタは、色彩を３
つの異なる実数で表現する。各値は、色彩空間における
３軸に相当する。

【００９８】つぎに、カラー・スペース・ディスクリプ
タについて説明する。カラー・スペース・ディスクリプ
タの記述フォーマットは、図２５に示すようなものにな
る。このカラー・スペース・ディスクリプタは、下位要
素のディスクリプタ或いは属性を示すフィーチャとし
て、その型が文字列（String）であり、色彩空間の名称
を示すカラー・スペース（ColorSpace）を有する。

【００９９】なお、ひとつの色彩は、様々な異なる色彩
空間で符号化することができる。これより、ＶＢＳにお
いては、カラー・スペース・ディスクリプタを用いるこ
とによって、カラー・ディスクリプタの意味をどう解釈
するかを決定する。

【０１００】つぎに、カラー・シグネチャ・ディスクリ
プタについて説明する。カラー・シグネチャ・ディスク
リプタの記述フォーマットは、図２６に示すようなもの
になる。このカラー・シグネチャ・ディスクリプタは、
下位要素のディスクリプタ或いは属性を示すフィーチャ
として、その型がカラー・スペース（ColorSpace）であ
り、当該カラー・シグネチャ・ディスクリプタが計算さ
れた色彩空間を示すカラー・スペース（ColorSpace）
と、その型がカラー型のベクトル（Color[n]）であり、
このシグネチャを定義する色の集合を表すカラー（Colo
rs）と、その型が重みベクトル（WeightVector）であ
り、各カラー（Colors）のシグネチャに対する重み付け
を示すウエイト（Weights）とを有する。

【０１０１】このカラー・シグネチャ・ディスクリプタ
は、色ヒストグラムを一般化したものを表している。概
念上、ヒストグラムとは、色彩を何らかのカテゴリに分
類し、或るイメージ内におけるピクセルのそれぞれのカ
テゴリにおける出現頻度を表したものとみなすことがで
きる。そこで、カラー・シグネチャにおいては、この方
法を一般化し、任意のｂｉｎ（色空間における最小分割
領域）の設定を可能としたものである。なお、各ｂｉｎ
は、その領域における代表的な色で表現される。

【０１０２】例えば、或るカラーイメージが与えられ、
このイメージで使用されているカラーをカラー・シグネ
チャとして記述したい場合を考える。まず、カラーを表
す色彩空間を幾つかの領域に分割する。次に、それぞれ
のカラー領域へ、イメージ内のピクセルを分類してい
く。その結果得られるピクセル出現頻度の相対的割合が
ウエイト（Weights）となる。

【０１０３】つぎに、構造ディスクリプタとして、音声
フレーム・ディスクリプタと、映像フレーム・ディスク
リプタと、ブラウジング・ノード・ディスクリプタと、
ショット・ディスクリプタと、シーン・ディスクリプタ
と、プログラム・ディスクリプタとについて説明する。
ビデオデータは、上述したように、４層の階層構造とし
て構築される。すなわち、ここでは、フレーム（音声フ
レーム及び映像フレーム）、セグメント、シーン、プロ
グラムである。

【０１０４】音声フレーム・ディスクリプタの記述フォ
ーマットは、図２７に示すようなものになる。この音声
フレーム・ディスクリプタは、上位クラスであるＡＶセ
グメント・ディスクリプタを継承している。また、音声
フレーム・ディスクリプタは、下位要素のディスクリプ
タ或いは属性を示すフィーチャとして、同図では省略し
ているが、例えば音声フレームのスペクトラムを記述可
能とするフィーチャを始め、音声情報の記述、解析等に
関わる任意のフィーチャを有する。

【０１０５】この音声フレーム・ディスクリプタは、単
一の音声フレームに相当するＡＶセグメントを表す。

【０１０６】一方、映像フレーム・ディスクリプタの記
述フォーマットは、図２８に示すようなものになる。こ
の映像フレーム・ディスクリプタは、上位クラスである
ＡＶセグメント・ディスクリプタを継承している。ま
た、映像フレーム・ディスクリプタは、下位要素のディ
スクリプタ或いは属性を示すフィーチャとして、その型
がカラー・シグネチャ（ColorSignature）であり、その
フレームの色特徴を示すカラー（Color）を有する。

【０１０７】この映像フレーム・ディスクリプタは、Ａ
Ｖセグメントの特別な場合として、単一の映像フレーム
を表す場合に用いられる。

【０１０８】また、ブラウジング・ノード・ディスクリ
プタの記述フォーマットは、図２９に示すようなものに
なる。このブラウジング・ノード・ディスクリプタは、
上位クラスであるコンポジッド・セグメント・ディスク
リプタを継承している。また、ブラウジング・ノード・
ディスクリプタは、下位要素のディスクリプタ或いは属
性を示すフィーチャとして、その型がＡＶハイアラキ
（AVHierarchy）の集合であり、その下層にあるサブエ
レメントを用いて当該ＡＶセグメントの内容のインデッ
クス化をする際に用いる階層的分類の集合を示し、実例
値としてビデオデータにおけるショットの分類階層構造
が挙げられるインデックス（Index）と、その型がＡＶ
シノプシス（AVSynopsis）の集合であり、ビデオデータ
の或る一部分における要約を示し、実例値としてキーフ
レームの並びが挙げられるシノプシス（Synopsis）と、
その型がＡＶグラフ（AVGraph）であり、ビデオデータ
の或る一部分における構造を示す構造（Structure）と
を有する。

【０１０９】このブラウジング・ノード・ディスクリプ
タは、ブラウジングにて使用される様々なビデオ構造の
ユニットを提供するための共通の抽象クラスである。

【０１１０】このブラウジング・ノード・ディスクリプ
タから継承されるディスクリプタを用いることによっ
て、ビデオデータの内容を具体的に記述することができ
る。以下、これらのディスクリプタについて順次説明す
る。

【０１１１】まずはショット・ディスクリプタである。
ショット・ディスクリプタの記述フォーマットは、図３
０に示すようなものになる。このショット・ディスクリ
プタは、上位クラスであるブラウジング・ノード・ディ
スクリプタを継承している。また、ショット・ディスク
リプタは、下位要素のディスクリプタ或いは属性を示す
フィーチャとして、その型がアクティビティ・レベル
（ActivityLevel）であり、そのショットのアクティビ
ティ・レベルを示し、実例値として例えば０．５が挙げ
られるアクティビティ（Activity）と、その型がＡＶセ
グメントを継承する任意のディスクリプタ（FromAVSegm
ent）であり、そのショットの内容の要約を示すアブス
トラクト（Abstract）と、その型がブラウジング・ノー
ドを継承する任意のディスクリプタ（FromBrowsingNod
e）であり、音声フレーム及び／又は映像フレームの並
びから構成されるSynopsis型の要約を示すシノプシス
（Synopsis）と、その型がブラウジング・ノードを継承
する任意のディスクリプタ（FromBrowsingNode）であ
り、音声フレーム及び／又は映像フレームの分類構造と
して構成される当該ショットへのインデックスを示すイ
ンデックス（Index）とを有する。なお、これらのフィ
ーチャのうち、インデックスの指定は、必ずしも行う必
要はない。また、アブストラクトは、当該ショットに対
し、次のような内容要約を与えることを可能とする。ま
ず第１としては、音声フレーム、映像フレーム、ＡＶプ
ロトタイプを要素とするテンポラル・シグネチャを用い
た内容要約であり、第２としては、音声フレーム、映像
フレームを要素とするシグネチャを用いた内容要約であ
る。

【０１１２】このショット・ディスクリプタは、オーデ
ィオ・ビジュアル・ユニットの最低レベル、すなわち、
ショットを表す。

【０１１３】次にシーン・ディスクリプタである。シー
ン・ディスクリプタの記述フォーマットは、図３１に示
すようなものになる。このシーン・ディスクリプタは、
上位クラスであるブラウジング・ノード・ディスクリプ
タを継承している。また、シーン・ディスクリプタは、
下位要素のディスクリプタ或いは属性を示すフィーチャ
として、その型が文字列（String）であり、対象とする
シーンの種類を示し、実例値としてDIALOGやCOMMERCIAL
やACTIONやANCHORが挙げられる種別（Kind）と、その型
がＡＶセグメントを継承する任意のディスクリプタ（Fr
omAVSegment）であり、そのシーンの内容の要約を示す
アブストラクト（Abstract）と、その型がブラウジング
・ノードを継承する任意のディスクリプタ（FromBrowsi
ngNode）であり、ショットの並びから構成されるSynops
is型の要約を示すシノプシス（Synopsis）と、その型が
ブラウジング・ノードを継承する任意のディスクリプタ
（FromBrowsingNode）であり、ショットの分類構造とし
て構成される当該シーンへのインデックスを示すインデ
ックス（Index）と、その型がブラウジング・ノードを
継承する任意のディスクリプタ（FromBrowsingNode）で
あり、例として、ノードが類似ショットのクラスタを表
し、リンクがクラスタ間の推移を表すようなＡＶグラフ
を示す構造（Structure）とを有する。なお、アブスト
ラクトは、当該シーンに対し、次のような内容要約を与
えることを可能とする。すなわち、ショット又はＡＶプ
ロトタイプを要素とするシグネチャ或いはテンポラル・
シグネチャを用いた内容要約である。

【０１１４】このシーン・ディスクリプタは、意味的に
関連するショットのまとまりであるシーンを表す。

【０１１５】さらに、プログラム・ディスクリプタであ
る。プログラム・ディスクリプタの記述フォーマット
は、図３２に示すようなものになる。このプログラム・
ディスクリプタは、上位クラスであるブラウジング・ノ
ード・ディスクリプタを継承している。また、プログラ
ム・ディスクリプタは、下位要素のディスクリプタ或い
は属性を示すフィーチャとして、その型がＡＶセグメン
トを継承する任意のディスクリプタ（FromAVSegment）
であり、そのシーンの内容の要約を示すアブストラクト
（Abstract）と、その型がブラウジング・ノードを継承
する任意のディスクリプタ（FromBrowsingNode）であ
り、シーン或いはショットの並びから構成されるSynops
is型の要約を示すシノプシス（Synopsis）と、その型が
ブラウジング・ノードを継承する任意のディスクリプタ
（FromBrowsingNode）であり、ショット及びシーンの分
類構造として構成される当該プログラムへのインデック
スを示すインデックス（Index）と、その型がブラウジ
ング・ノードを継承する任意のディスクリプタ（FromBr
owsingNode）であり、例として、ノードが類似シーンの
クラスタを表し、リンクがクラスタ間の推移を表すよう
なＡＶグラフを示す構造（Structure）とを有する。な
お、アブストラクトは、当該プログラムに対し、次のよ
うな内容要約を与えることを可能とする。第１として
は、シーンを要素とするシグネチャ或いはテンポラル・
シグネチャを用いた内容要約である。第２としては、シ
ョットを要素とするシグネチャ或いはテンポラル・シグ
ネチャを用いた内容要約である。また、プログラムへの
インデックスは、全てのショットへの階層的インデック
ス及び／又は全てのシーンへの階層的インデックスとい
った様々なレベルに対するインデックスより構成され
る。

【０１１６】このプログラム・ディスクリプタは、シー
ンの並びから構成されるプログラムを表す。

【０１１７】以上のようなディスクリプタの集合からな
るＶＢＳにおいては、様々なブラウジングノードにおけ
るインデックスに含まれる情報を用いることによって、
階層構造を有するビデオデータのオーディオ・ビジュア
ル・インデックスを、様々な詳細レベルにおいて構築す
ることが可能となる。例えば、プログラムにおいては、
ビデオデータ内の全てのショットに対し、その類似性に
より分類された階層構造を構築することができる。これ
を基に、或る詳細レベル以上の情報を表示したい場合に
は、階層構造を指定された詳細レベルにて上下に分割
し、その上の構造のみを用いればよい。さらに、分割詳
細レベルの各ノードにおけるＡＶエレメントのグループ
において、各グループを代表するようなメンバーをそれ
ぞれのグループから選択し、これを順次表示することに
よって、その詳細レベルにおけるプログラムの概要を与
えることができる。

【０１１８】また、ＶＢＳにおいては、階層化ビデオ構
造のそれぞれのレベルに関係付けられたシノプシスを用
いることによって、そのビデオデータにおけるオーディ
オ・ビジュアルな目次を表示することができる。例え
ば、それぞれのレベルが以下の表１で示すようなシノプ
シスを有する場合、これを目次として表示したいときに
は、各ショットを代表するキーフレームの中から、各レ
ベルにおけるキーフレームを取り出すことで、オーディ
オ・ビジュアルな目次を表示することができる。

【０１１９】

【表１】

【０１２０】以下、ビデオデータから構造を抽出する具
体的な処理と、このような処理に対応して、上述したデ
ィスクリプション・スキームとして定義される記述方法
を用いてビデオ構造等を記述する特徴データとについて
説明する。なお、ビデオデータから構造を抽出する処理
は、上述したデータ送受信処理システムにおける送信装
置１０及び受信装置２０の両方において行うことができ
る。ここでは、送信装置１０においてビデオデータから
シーン構造を抽出するとともに、それに対応して特徴デ
ータを生成し、ビデオデータとともに特徴データを受信
装置２０へと送信するものとして説明する。

【０１２１】送信装置１０は、ビデオデータにおける映
像セグメント及び音声セグメントの特徴量を用いてセグ
メント間の類似性を測定し、これらのセグメントをシー
ンにまとめることによって、ビデオ構造を自動的に抽出
する。この際、時間的に近接して反復している類似した
セグメントは、ほぼ同一シーンの一部であるため、送信
装置１０は、このようなセグメントを検出してグループ
化していくことによって、シーンを検出する。このよう
な送信装置１０は、図３３に概略を示すような一連の処
理を行うことによって、シーンを検出する。

【０１２２】まず、送信装置１０は、同図に示すよう
に、ステップＳ１において、ビデオ分割を行う。すなわ
ち、送信装置１０は、入力されたビデオデータを映像セ
グメント又は音声セグメントのいずれか、或いは可能で
あればその両方に分割する。送信装置１０は、適用する
ビデオ分割方法に特に前提要件を設けない。例えば、送
信装置１０は、“G. Ahanger and T.D.C. Little, A su
rvey of technologies for parsing and indexing digi
tal video, J. of Visual Communication and Image Re
presentation 7:28-4, 1996”に記載されているような
方法によりビデオ分割を行う。このようなビデオ分割の
方法は、当該技術分野ではよく知られたものであり、送
信装置１０は、いかなるビデオ分割方法も適用できるも
のとする。

【０１２３】次に、送信装置１０は、ステップＳ２にお
いて、特徴量の抽出を行う。すなわち、送信装置１０
は、そのセグメントの特徴を表す特徴量を計算する。送
信装置１０においては、例えば、各セグメントの時間
長、カラーヒストグラムやテクスチャフィーチャといっ
た映像特徴量や、周波数解析結果、レベル、ピッチとい
った音声特徴量や、アクティビティ測定結果等が、適用
可能な特徴量として計算される。勿論、送信装置１０
は、適用可能な特徴量としてこれらに限定されるもので
はない。

【０１２４】さらに、送信装置１０は、ステップＳ３に
おいて、特徴量を用いたセグメントの類似性測定を行
う。すなわち、送信装置１０は、セグメント間の非類似
性測定を行い、その測定基準によって、２つのセグメン
トがどの程度類似しているかを測定する。送信装置１０
は、先のステップＳ２において抽出した特徴量を用い
て、非類似性測定基準を計算する。

【０１２５】そして、送信装置１０は、ステップＳ４に
おいて、セグメントのグループ化を行う。すなわち、送
信装置１０は、先のステップＳ３において計算した非類
似性測定基準と、先のステップＳ２において抽出した特
徴量とを用いて、時間的に近接して類似したセグメント
を繰り返しまとめ、これらのセグメントをグループ化す
る。送信装置１０は、このようにして最終的に生成され
たグループを検出シーンとして出力する。

【０１２６】このような一連の処理を経ることによっ
て、送信装置１０は、ビデオデータからシーンを検出す
ることができる。したがって、ユーザは、この結果を用
いることによって、ビデオデータの内容を要約したり、
ビデオデータ中の興味のあるポイントに迅速にアクセス
したりすることが可能となる。

【０１２７】以下、同図に示した送信装置１０における
処理を各工程毎により詳細に説明していく。

【０１２８】まず、ステップＳ１におけるビデオ分割に
ついて説明する。送信装置１０は、入力されたビデオデ
ータを映像セグメント又は音声セグメントのいずれか、
或いは可能であればその両方に分割するが、このビデオ
データにおけるセグメントの境界を自動的に検出するた
めの技術は多くのものがあり、当該送信装置１０におい
て、このビデオ分割方法に特別な前提要件を設けないこ
とは上述した通りである。一方、送信装置１０におい
て、後の工程によるシーン検出の精度は、本質的に、基
礎となるビデオ分割の精度に依存する。なお、送信装置
１０におけるシーン検出は、或る程度ビデオ分割時のエ
ラーを許容することができる。特に、送信装置１０にお
いて、ビデオ分割は、セグメント検出が不十分である場
合よりも、セグメント検出を過度に行う場合の方が好ま
しい。送信装置１０は、類似したセグメントの検出が過
度である結果である限り、一般に、シーン検出の際に検
出過度であるセグメントを同一シーンとしてまとめるこ
とができる。

【０１２９】つぎに、ステップＳ２における特徴量抽出
について説明する。特徴量とは、セグメントの特徴を表
すとともに、異なるセグメント間の類似性を測定するた
めのデータを供給するセグメントの属性である。送信装
置１０は、各セグメントの特徴量を計算し、セグメント
の特徴を表す。送信装置１０は、いかなる特徴の具体的
詳細にも依存するものではないが、当該送信装置１０に
おいて用いて効果的であると考えられる特徴量として
は、例えば以下に示す映像特徴量、音声特徴量、映像音
声共通特徴量のようなものがある。送信装置１０におい
て適用可能となるこれらの特徴量の必要条件は、非類似
性の測定が可能であることである。また、送信装置１０
は、効率化のために、特徴量抽出と上述したビデオ分割
とを同時に行うことがある。以下に説明する特徴量は、
このような処理を可能にするものである。

【０１３０】特徴量としては、まず映像に関するものが
挙げられる。以下では、これを映像特徴量と称すること
にする。映像セグメントは、連続する映像フレームによ
り構成されるため、映像セグメントから適切な映像フレ
ームを抽出することによって、その映像セグメントの描
写内容を、抽出した映像フレームで特徴付けることが可
能である。すなわち、映像セグメントの類似性は、適切
に抽出された映像フレームの類似性で代替可能である。
このことから、映像特徴量は、送信装置１０で用いるこ
とができる重要な特徴量の１つである。この場合の映像
特徴量は、単独では静的な情報しか表せないが、送信装
置１０は、後述するような方法を適用することによっ
て、この映像特徴量に基づく映像セグメントの動的な特
徴を抽出することもできる。

【０１３１】映像特徴量として既知のものは多数存在す
るが、シーン検出のためには以下に示す色特徴量（ヒス
トグラム）及び映像相関が、計算コストと精度との良好
な兼ね合いを与えることを見出したことから、送信装置
１０は、映像特徴量として、これらの色特徴量及び映像
相関を用いることとする。

【０１３２】送信装置１０において、映像における色
は、２つの映像が類似しているかを判断する際の重要な
材料となる。カラーヒストグラムを用いて映像の類似性
を判断することは、例えば“G. Ahanger and T.D.C. Li
ttle, A survey of technologies for parsing and ind
exing digital video, J. of Visual Communication an
d Image Representation 7:28-4, 1996”に記載されて
いるように、よく知られている。ここで、カラーヒスト
グラムとは、例えばＨＳＶやＲＧＢ等の３次元色空間を
ｎ個の領域に分割し、映像における画素の、各領域での
出現頻度の相対的割合を計算したものである。そして、
得られた情報からは、ｎ次元ベクトルが与えられる。圧
縮されたビデオデータに関しても、例えばU.S. Patent
#5,708,767号公報に記載されているように、カラーヒス
トグラムを、圧縮データから直接抽出することができ
る。

【０１３３】送信装置１０では、セグメントを構成する
映像におけるもともとのＹＵＶ色空間を、色チャンネル
当たり２ビットでサンプルして構成した、２^2・3＝６４
次元のヒストグラムベクトルを用いている。

【０１３４】このようなヒストグラムは、映像の全体的
な色調を表すが、これには時間情報が含まれていない。
そこで、送信装置１０においては、もう１つの映像特徴
量として、映像相関を計算する。送信装置１０における
シーン検出において、複数の類似セグメントが互いに交
差した構造は、それがまとまった１つのシーン構造であ
ることを示す有力な指標となる。例えば会話場面におい
て、カメラの位置は、２人の話し手の間を交互に移動す
るが、カメラは通常、同一の話し手を再度撮影するとき
には、ほぼ同じ位置に戻る。このような場合における構
造を検出するためには、グレイスケールの縮小映像に基
づく相関がセグメントの類似性の良好な指標となること
を見出したことから、送信装置１０では、元の映像をＭ
×Ｎの大きさのグレイスケール映像へ間引き縮小し、こ
れを用いて映像相関を計算する。ここで、ＭとＮは、両
方とも小さな値で十分であり、例えば８×８である。す
なわち、これらの縮小グレイスケール映像は、ＭＮ次元
の特徴量ベクトルとして解釈される。

【０１３５】さらに上述した映像特徴量とは異なる特徴
量としては、音声に関するものが挙げられる。以下で
は、この特徴量を音声特徴量と称することにする。音声
特徴量とは、音声セグメントの内容を表すことができる
特徴量であり、送信装置１０は、この音声特徴量とし
て、周波数解析、ピッチ、レベル等を用いることができ
る。これらの音声特徴量は、種々の文献により知られて
いるものである。

【０１３６】まず、送信装置１０は、フーリエ変換等の
周波数解析を行うことによって、単一の音声フレームに
おける周波数情報の分布を決定することができる。送信
装置１０は、例えば、１つの音声セグメントにわたる周
波数情報の分布を表すために、ＦＦＴ（Fast Fourier T
ransform；高速フーリエ変換）成分、周波数ヒストグラ
ム、パワースペクトル、その他の特徴量を用いることが
できる。

【０１３７】また、送信装置１０は、平均ピッチや最大
ピッチ等のピッチや、平均ラウドネスや最大ラウドネス
等の音声レベルもまた、音声セグメントを表す有効な音
声特徴量として用いることができる。

【０１３８】さらに他の特徴量としては、映像音声共通
特徴量が挙げられる。これは、映像特徴量でもなく音声
特徴量でもないが、送信装置１０において、シーン内の
セグメントの特徴を表すのに有用な情報を与えるもので
ある。送信装置１０は、この映像音声共通特徴量とし
て、セグメント長とアクティビティとを用いる。

【０１３９】送信装置１０は、映像音声共通特徴量とし
て、セグメント長を用いることができる。このセグメン
ト長は、セグメントにおける時間長である。一般に、シ
ーンは、そのシーンに固有のリズム特徴を有する。この
リズム特徴は、シーン内のセグメント長の変化として表
れる。例えば、迅速に連なった短いセグメントは、コマ
ーシャルを表す。一方、会話シーンにおけるセグメント
は、コマーシャルの場合よりも長く、また会話シーンに
は、相互に組み合わされたセグメントが互いに類似して
いるという特徴がある。送信装置１０は、このような特
徴を有するセグメント長を映像音声共通特徴量として用
いることができる。

【０１４０】また、送信装置１０は、映像音声共通特徴
量として、アクティビティを用いることができる。アク
ティビティとは、セグメントの内容がどの程度動的或い
は静的であるように感じられるかを表す指標である。例
えば、視覚的に動的である場合、アクティビティは、カ
メラが対象物に沿って迅速に移動する度合い若しくは撮
影されているオブジェクトが迅速に変化する度合いを表
す。

【０１４１】このアクティビティは、カラーヒストグラ
ムのような特徴量のフレーム間非類似性の平均値を測定
することによって、間接的に計算される。ここで、フレ
ームｉとフレームｊとの間で測定された特徴量Ｆに対す
る非類似性測定基準をｄ_F（ｉ，ｊ）と定義すると、映
像アクティビティＶ_Fは、次式（１）のように定義され
る。

【０１４２】

【数１】

【０１４３】式（１）において、ｂとｆは、それぞれ、
１セグメントにおける最初と最後のフレームのフレーム
番号である。送信装置１０は、具体的には、例えば上述
したヒストグラムを用いて、映像アクティビティＶ_Fを
計算することができる。

【０１４４】ところで、上述した映像特徴量を始めとす
る特徴量は、基本的にはセグメントの静的情報を表すも
のであることは上述した通りであるが、セグメントの特
徴を正確に表すためには、動的情報をも考慮する必要が
ある。そこで、送信装置１０は、以下に示すような特徴
量のサンプリング方法により動的情報を表す。

【０１４５】送信装置１０は、例えば図３４に示すよう
に、１セグメント内の異なる時点から１以上の静的な特
徴量を抽出する。このとき、送信装置１０は、特徴量の
抽出数を、そのセグメント表現における忠実度の最大化
とデータ冗長度の最小化とのバランスをとることにより
決定する。例えば、セグメント内の或る１画像が当該セ
グメントのキーフレームとして指定可能な場合には、そ
のキーフレームから計算されたヒストグラムが、抽出す
べき特徴量となる。

【０１４６】送信装置１０は、後述するサンプリング方
法を用いて、対象とするセグメントにおいて、特徴とし
て抽出可能なサンプルのうち、どのサンプルを選択する
かを決定する。

【０１４７】ところで、或るサンプルが常に所定の時
点、例えばセグメント内の最後の時点において選択され
る場合を考える。この場合、黒フレームへ変化（fade）
していく任意の２つのセグメントについては、サンプル
が同一の黒フレームとなるため、同一の特徴量が得られ
る結果になる恐れがある。すなわち、これらのセグメン
トの映像内容がいかなるものであれ、選択した２つのフ
レームは、極めて類似していると判断されてしまう。こ
のような問題は、サンプルが良好な代表値でないために
発生するものである。

【０１４８】そこで、送信装置１０は、このように固定
点で特徴量を抽出するのではなく、セグメント全体にお
ける統計的な代表値を抽出することとする。ここでは、
一般的な特徴量のサンプリング方法を２つの場合、すな
わち、（１）特徴量を実数のｎ次元ベクトルとして表す
ことができる場合と、（２）非類似性測定基準しか利用
できない場合とについて説明する。なお、（１）には、
ヒストグラムやパワースペクトル等、最もよく知られて
いる映像特徴量及び音声特徴量が含まれる。

【０１４９】（１）においては、サンプル数は、事前に
ｋと決められており、送信装置１０は、“L. Kaufman a
nd P.J. Rousseeuw, Finding Groups in Data:An Intro
duction to Cluster Analysis, John-Wiley and sons,
1990”に記載されてよく知られているｋ平均値クラスタ
リング法（k-means-clustering method）を用いて、セ
グメント全体についての特徴量をｋ個の異なるグループ
に自動的に分割する。そして、送信装置１０は、サンプ
ル値として、ｋ個の各グループから、グループの重心値
（centroid）又はこの重心値に近いサンプルを選択す
る。送信装置１０におけるこの処理の複雑度は、サンプ
ル数に関して単に直線的に増加するにとどまる。

【０１５０】一方、（２）においては、送信装置１０
は、“L. Kaufman and P.J. Rousseeuw, Finding Group
s in Data:An Introduction to Cluster Analysis, Joh
n-Wiley and sons, 1990”に記載されているｋ−メドイ
ドアルゴリズム法（k-medoidsalgorithm method）を用
いて、ｋ個のグループを形成する。そして、送信装置１
０は、サンプル値として、ｋ個のグループ毎に、上述し
たグループのメドイド（medoid）を用いる。

【０１５１】なお、送信装置１０においては、抽出され
た動的特徴を表す特徴量についての非類似性測定基準を
構成する方法は、その基礎となる静的な特徴量の非類似
性測定基準に基づくが、これについては後述する。

【０１５２】このようにして、送信装置１０は、静的な
特徴量を複数抽出し、これらの複数の静的な特徴量を用
いることによって、動的特徴を表すことができる。

【０１５３】以上のように、送信装置１０は、種々の特
徴量を抽出することができる。これらの各特徴量は、一
般に、単一ではセグメントの特徴を表すのに不十分であ
ることが多い。そこで、送信装置１０は、これらの各種
特徴量を組み合わせることで、互いに補完し合う特徴量
の組を選択することができる。例えば、送信装置１０
は、上述したカラーヒストグラムと映像相関とを組み合
わせることによって、各特徴量が有する情報よりも多く
の情報を得ることができる。

【０１５４】つぎに、図３３中ステップＳ３における特
徴量を用いたセグメントの類似性測定について説明す
る。送信装置１０は、２つの特徴量について、それがど
の程度非類似であるかを測定する実数値を計算する関数
である非類似性測定基準を用いて、セグメントの類似性
測定を行う。この非類似性測定基準は、その値が小さい
場合は２つの特徴量が類似していることを示し、値が大
きい場合は非類似であることを示す。ここでは、特徴量
Ｆに関する２つのセグメントＳ₁，Ｓ₂の非類似性を計算
する関数を非類似性測定基準ｄ_F（Ｓ₁，Ｓ₂）と定義す
る。このような関数は、以下の式（２）で与えられる関
係を満足させる必要がある。

【０１５５】

【数２】

【０１５６】ところで、非類似性測定基準の中には、或
る特定の特徴量にのみ適用可能なものがあるが、“G. A
hanger and T.D.C. Little, A survey of technologies
forparsing and indexing digital video, J. of Visu
al Communication and Image Representation 7:28-4,
1996”や“L. Kaufman and P.J. Rousseeuw, Finding G
roups in Data:An Introduction to Cluster Analysis,
John-Wiley and sons, 1990”に記載されているよう
に、一般には、多くの非類似性測定基準は、ｎ次元空間
における点として表される特徴量についての類似性を測
定するのに適用可能である。その具体例は、ユークリッ
ド距離、内積、Ｌ１距離等である。ここで、特にＬ１距
離が、ヒストグラムや映像相関等の特徴量を含む種々の
特徴量に対して有効に作用することから、送信装置１０
は、Ｌ１距離を導入する。ここで、２つのｎ次元ベクト
ルをＡ，Ｂとした場合、Ａ，Ｂ間のＬ１距離ｄ_L1（Ａ，
Ｂ）は、次式（３）で与えられる。

【０１５７】

【数３】

【０１５８】ここで、下付文字ｉは、ｎ次元ベクトル
Ａ，Ｂのそれぞれのｉ番目の要素を示すものである。

【０１５９】また、送信装置１０は、上述したように、
動的特徴を表す特徴量として、セグメントにおける様々
な時点での静的な特徴量を抽出する。そして、送信装置
１０は、抽出された２つの動的特徴量の間の類似性を決
定するために、その非類似性測定基準として、その基礎
となる静的特徴量の間の非類似性測定基準を用いる。こ
れらの動的特徴量の非類似性測定基準は、多くの場合、
各動的特徴量から選択された最も類似した静的特徴量の
対の非類似性値を用いて決定されるのが最良である。こ
の場合、２つの抽出された動的特徴量ＳＦ₁，ＳＦ₂の間
の非類似性測定基準は、次式（４）のように定義され
る。

【０１６０】

【数４】

【０１６１】上式（４）における関数ｄ_F（Ｆ₁，Ｆ₂）
は、その基礎となる静的特徴量Ｆについての非類似性測
定基準を示す。なお、場合によっては、特徴量の非類似
性の最小値をとる代わりに、最大値又は平均値をとって
もよい。

【０１６２】ところで、送信装置１０は、セグメントの
類似性を決定する上で、単一の特徴量だけでは不十分で
あり、同一セグメントに関する多数の特徴量からの情報
を組み合わせることを必要とする場合も多い。この１つ
の方法として、送信装置１０は、種々の特徴量に基づく
非類似性を、それぞれの特徴量の重み付き組み合わせと
して計算する。すなわち、送信装置１０は、ｋ個の特徴
量Ｆ₁，Ｆ₂，・・・，Ｆ_kが存在する場合、次式（５）
に表される組み合わせた特徴量に関する非類似性測定基
準ｄ_F（Ｓ₁，Ｓ₂）を用いる。

【０１６３】

【数５】

【０１６４】ここで、｛ｗ_i｝は、Σ_iｗ_i＝１となる重
み係数である。

【０１６５】以上のように、送信装置１０は、図３３中
ステップＳ２において抽出された特徴量を用いて非類似
性測定基準を計算し、当該セグメント間の類似性を測定
することができる。

【０１６６】つぎに、図３３中ステップＳ４におけるセ
グメントのグループ化について説明する。送信装置１０
は、非類似性測定基準と抽出した特徴量とを用いて、時
間的に近接して類似したセグメントを繰り返しまとめて
グループ化し、最終的に生成されたグループを検出シー
ンとして出力する。

【０１６７】送信装置１０は、セグメントをグループ化
してシーンを検出する際に、２つの基本的な処理を行
う。送信装置１０は、まず第１の処理として、互いに時
間的に近接して類似したセグメントのグループを検出す
る。この処理により得られるグループは、ほとんどが同
一シーンの一部となるものである。そして、送信装置１
０は、第２の処理として、互いに時間が重複したセグメ
ントのグループを１つにまとめる。送信装置１０は、こ
のような処理を各セグメントが独立した状態から開始
し、反復して繰り返す。そして、送信装置１０は、徐々
にセグメントのグループを大きく構築していき、最終的
に生成したグループをシーンの組として出力する。

【０１６８】このような処理において、送信装置１０
は、その処理動作を制御するために２つの制約を用い
る。

【０１６９】すなわち、送信装置１０は、第１の制約と
して、２つのセグメントがどの程度類似している場合
に、同一のシーンのものであるとみなすかを決定する非
類似性閾値δ_simを用いる。例えば、図３５に示すよう
に、送信装置１０は、或るセグメントに対して、一方の
セグメントが類似性領域に属するか非類似性領域に属す
るかを判断する。

【０１７０】なお、送信装置１０は、非類似性閾値δ
_simをユーザにより設定するようにしてもよく、また、
後述するように、自動的に決定してもよい。

【０１７１】また、送信装置１０は、第２の制約とし
て、２つのセグメントがなお同一シーン内のセグメント
とみなし得る時間軸上の隔たりの最大値として、時間閾
値Ｔを用いる。例えば、図３６に示すように、送信装置
１０は、時間閾値Ｔの範囲内で互いに近接して続いてい
る類似した２つのセグメントＡ，Ｂを同一シーンにまと
めるが、時間的に大きく離れていて時間閾値Ｔの範囲外
である２つのセグメントＢ，Ｃをまとめることはない。
このように、送信装置１０は、この時間閾値Ｔによる時
間制約があるために、互いに類似しているものの時間軸
上で大きく隔たっているセグメントを同一シーンにまと
めてしまうというエラーを発生することがない。

【０１７２】なお、この時間閾値Ｔとしては、６〜８シ
ョット分に相当する時間を設定した場合が概して良好な
結果を与えることを見出したことから、送信装置１０
は、基本的に、時間閾値Ｔを６〜８ショット単位として
用いることとする。

【０１７３】送信装置１０は、類似セグメントのグルー
プを求めるために、ここでは、“L.Kaufman and P.J. R
ousseeuw, Finding Groups in Data:An Introduction t
o Cluster Analysis, John-Wiley and sons, 1990”に
記載されている階層的クラスタ分割方法（hierarchical
clustering method）を適合させて用いることにする。
このアルゴリズムにおいては、２つのクラスタＣ₁，Ｃ₂
間の非類似性測定基準ｄ_C（Ｃ₁，Ｃ₂）について、次式
（６）に示すように、それぞれのクラスタに含まれる要
素間の最小非類似性として定義する。

【０１７４】

【数６】

【０１７５】なお、送信装置１０においては、上式
（６）で示される最小関数を最大関数又は平均関数に容
易に置換することができる。

【０１７６】まず、送信装置１０は、図３７に示すよう
に、ステップＳ１１において、変数Ｎを初期状態のセグ
メントの数に初期化する。この変数Ｎは、常に現在検出
されているグループの数を示すものである。

【０１７７】続いて、送信装置１０は、ステップＳ１２
において、クラスタの組を生成する。送信装置１０は、
初期状態では、Ｎ個の各セグメントを異なるクラスタと
みなす。すなわち、初期状態では、Ｎ個のクラスタが存
在することになる。各クラスタは、Ｃ^startとＣ^endとに
より表されるその開始時と終了時とを示す特徴を有す
る。クラスタに含まれる要素は、Ｃ^startにより順序付
けられたリストとして管理される。

【０１７８】続いて、送信装置１０は、ステップＳ１３
において、変数ｔを１に初期化し、ステップＳ１４にお
いて、変数ｔが時間閾値Ｔよりも大きいか否かを判別す
る。ここで、送信装置１０は、変数ｔが時間閾値Ｔより
も大きい場合には、ステップＳ２３へと処理を移行し、
変数ｔが時間閾値Ｔよりも小さい場合には、ステップＳ
１５へと処理を移行する。ただし、ここでは、変数ｔが
１であるため、送信装置１０は、ステップＳ１５へと処
理を移行する。

【０１７９】送信装置１０は、ステップＳ１５におい
て、非類似性測定基準ｄ_Cを計算し、Ｎ個のクラスタの
中から最も類似した２つのクラスタを検出する。ただ
し、ここでは、変数ｔが１であるため、送信装置１０
は、隣接したクラスタ間の非類似性測定基準ｄ_Cを計算
し、その中から最も類似したクラスタの対を検出する。

【０１８０】このような最も類似した２つのクラスタを
検出する方法としては、対象となる全てのクラスタの対
を求めることが考えられる。しかしながら、ここでは、
対象とするクラスタの時間的隔たりを表す変数ｔがセグ
メント単位で与えられ、さらにクラスタが時間順に整頓
されていることから、送信装置１０は、或るクラスタに
おいて、その前後ｔ個までのクラスタを非類似性の計算
対象とすればよい。

【０１８１】ここで、検出された２つのクラスタをそれ
ぞれＣ_i，Ｃ_jと定義し、これらのクラスタＣ_i，Ｃ_jの間
の非類似性の値をｄ_ijと定義する。

【０１８２】送信装置１０は、ステップＳ１６におい
て、非類似性値ｄ_ijが非類似性閾値δ_simよりも大きい
か否かを判別する。ここで、送信装置１０は、非類似性
値ｄ_ijが非類似性閾値δ_simよりも大きい場合には、ス
テップＳ２１へと処理を移行し、非類似性値ｄ_ijが非類
似性閾値δ_simよりも小さい場合には、ステップＳ１７
へと処理を移行する。ここでは、非類似性値ｄ_ijが非類
似性閾値δ_simよりも小さいものとする。

【０１８３】送信装置１０は、ステップＳ１７におい
て、クラスタＣ_jをクラスタＣ_iに結合する。すなわち、
送信装置１０は、クラスタＣ_jの要素の全てをクラスタ
Ｃ_iに加える。

【０１８４】続いて、送信装置１０は、ステップＳ１８
において、クラスタＣ_jをクラスタの組から除去する。
なお、２つのクラスタＣ_i，Ｃ_jを結合することにより開
始時Ｃ_i ^startの値が変化した場合には、送信装置１０
は、クラスタの組の要素を開始時Ｃ_i ^startに基づいて再
び並べ替える。

【０１８５】続いて、送信装置１０は、ステップＳ１９
において、変数Ｎから１を減じる。

【０１８６】そして、送信装置１０は、ステップＳ２０
において、変数Ｎが１であるか否かを判別する。ここ
で、送信装置１０は、変数Ｎが１である場合には、ステ
ップＳ２３へと処理を移行し、変数Ｎが１でない場合に
は、ステップＳ１５へと処理を移行する。ここでは、変
数Ｎが１でないものとする。

【０１８７】すると、送信装置１０は、ステップＳ１５
において、再び非類似性測定基準ｄ_Cを計算し、Ｎ−１
個のクラスタの中から最も類似した２つのクラスタを検
出する。ここでも、変数ｔが１であるため、送信装置１
０は、隣接したクラスタ間の非類似性測定基準ｄ_Cを計
算し、その中から最も類似したクラスタの対を検出す
る。

【０１８８】続いて、送信装置１０は、ステップＳ１６
において、非類似性値ｄ_ijが非類似性閾値δ_simよりも
大きいか否かを判別する。ここでも、非類似性値ｄ_ijが
非類似性閾値δ_simよりも小さいものとする。

【０１８９】そして、送信装置１０は、ステップＳ１７
乃至ステップＳ２０の処理を行う。

【０１９０】送信装置１０は、このような処理を繰り返
し、変数Ｎが減算されていった結果、ステップＳ２０に
おいて、変数Ｎが１であると判別した場合には、ステッ
プＳ２３において、単一のセグメントのみを含むクラス
タを結合する。最終的には、送信装置１０は、この場合
は、全てのセグメントが１つのクラスタにまとめられる
形となり、一連の処理を終了する。

【０１９１】さて、送信装置１０は、ステップＳ１６に
おいて、非類似性値ｄ_ijが非類似性閾値δ_simよりも大
きいと判別した場合には、ステップＳ２１へと処理を移
行するが、この場合には、ステップＳ２１において、時
間的に重複しているクラスタを繰り返し結合する。すな
わち、Ｃ_iの時間間隔［Ｃ_i ^start，Ｃ_i ^end］が、Ｃ_jの時
間間隔［Ｃ_j ^start，Ｃ_j ^end］と相交している場合には、
２つのクラスタＣ_iとＣ_jは、時間軸上で重複している。
これにより、送信装置１０は、クラスタをその組の開始
時Ｃ_i ^startに基づいて整頓することによって、重複して
いるクラスタを検出し、それらのクラスタを１つに結合
することができる。

【０１９２】そして、送信装置１０は、ステップＳ２２
において、変数ｔに１を加算してｔ＝２とし、ステップ
Ｓ１４へと処理を移行して変数ｔが時間閾値Ｔよりも大
きいか否かを判別する。ここでも、変数ｔが時間閾値Ｔ
よりも小さいものとし、送信装置１０は、ステップＳ１
５へと処理を移行するものとする。

【０１９３】送信装置１０は、ステップＳ１５におい
て、非類似性測定基準ｄ_Cを計算し、現在存在する複数
のクラスタの中から最も類似した２つのクラスタを検出
する。ただし、ここでは、変数ｔが２であるため、送信
装置１０は、隣接クラスタ及び１つおきに隔たっている
クラスタ間の非類似性測定基準ｄ_Cを計算し、その中か
ら最も類似したクラスタの対を検出する。

【０１９４】そして、送信装置１０は、ステップＳ１６
において、隣接クラスタ及び１つおきに隔たっているク
ラスタＣ_i，Ｃ_jの非類似性値ｄ_ijが非類似性閾値δ_sim
よりも大きいか否かを判別する。ここでも、非類似性値
ｄ_ijが非類似性閾値δ_simよりも大きいものとし、送信
装置１０は、ステップＳ２１及びステップＳ２２の処理
を経て、変数ｔに１を加算してｔ＝３として再びステッ
プＳ１４以降の処理へと移行する。ここで、送信装置１
０は、変数ｔが３のときには、ステップＳ１５におい
て、２つおきに隔たっているクラスタまでに存在するク
ラスタとの間の非類似性測定基準ｄ_Cを計算し、その中
から最も類似したクラスタの対を検出する。

【０１９５】送信装置１０は、このような処理を繰り返
し、変数ｔが加算されていった結果、ステップＳ１４に
おいて、変数ｔが時間閾値Ｔよりも大きいと判別する
と、ステップＳ２３へと処理を移行し、単一のセグメン
トのみを含むクラスタを結合する。すなわち、送信装置
１０は、孤立しているクラスタを単一のセグメントのみ
を含むクラスタとみなし、このような一連のクラスタが
存在している場合には、これらのクラスタをまとめて結
合していく。この工程は、近接のシーンとは類似性関連
を有さないセグメントをまとめるものである。なお、送
信装置１０は、必ずしもこの工程を行う必要はない。

【０１９６】このような一連の処理によって、送信装置
１０は、複数のクラスタをまとめていき、検出シーンを
生成することができる。

【０１９７】なお、送信装置１０は、非類似性閾値δ
_simをユーザにより設定するようにしてもよく、自動的
に決定してもよいことは上述した通りである。ただし、
非類似性閾値δ_simとして固定値を用いる場合には、そ
の最適値は、ビデオデータの内容に依存することとな
る。例えば、変化に富んだ映像内容を有するビデオデー
タの場合、非類似性閾値δ_simは、高い値に設定される
必要がある。一方、変化が少ない映像内容を有するビデ
オデータの場合、非類似性閾値δ_simは、低い値に設定
される必要がある。ここで一般に、非類似性閾値δ_sim
が高い場合には、検出されるシーンは少なくなり、非類
似性閾値δ_simが低い場合には、検出されるシーンが多
くなるという性質がある。

【０１９８】これより、送信装置１０においては、最適
な非類似性閾値δ_simを決定することが、その性能を左
右する上で重要となる。そのため、送信装置１０におい
ては、非類似性閾値δ_simをユーザにより設定する場合
には、上述したことを考慮した上で設定する必要があ
る。一方、送信装置１０は、以下に示す方法により、有
効な非類似性閾値δ_simを自動的に決定することもでき
る。

【０１９９】例えば、その１つの方法として、送信装置
１０は、（ｎ）（ｎ−１）／２個のセグメント対の間の
非類似性の分布における平均値やメジアン（中央値）と
いった統計量を用いて、非類似性閾値δ_simを得ること
ができる。いま、全てのセグメント対における非類似性
の平均値とその標準偏差をそれぞれμ，σとした場合、
非類似性閾値δ_simは、ａμ＋ｂσの形式で表すことが
できる。ここで、ａ及びｂは定数であり、それぞれ、
０．５及び０．１に設定することが良好な結果を与える
ことを見出している。

【０２００】実用上においては、送信装置１０は、全て
のセグメント対について、それらの間の非類似性を求め
る必要はなく、その平均値μ及び標準偏差σが真値に十
分近い結果を与えるに足りるセグメント対を、全セグメ
ント対集合からランダムに選択し、その非類似性を求め
ればよい。送信装置１０は、このようにして得られた平
均値μ及び標準偏差σを用いることによって、適切な非
類似性閾値δ_simを自動的に決定することができる。

【０２０１】また、送信装置１０は、シーンを検出する
際に、セグメントが同一グループに属するか否かを決定
するために、単一の非類似性測定基準を用いるばかりで
はなく、重み付け関数を用いて、異種の特徴量に関する
多様な非類似性測定基準を組み合わせることができるこ
とは上述した通りである。送信装置１０において、この
ような特徴量の重み付けは、試行錯誤の末得られるもの
であるが、各特徴量が質的に異なるタイプのものである
場合には、通常、適切な重み付けを行うことは困難であ
る。しかしながら、例えば、カラーヒストグラムとテク
スチャフィーチャとを組み合わせる場合には、送信装置
１０は、各特徴量に関してそれぞれシーンを検出し、検
出された各シーン構造を単一のシーン構造に合成するこ
とによって、両者の特徴を考慮したシーン検出を実現す
ることができる。ここで、各特徴量に関してシーンを検
出したそれぞれの結果をシーン層と称することにする。
例えば、特徴量としてカラーヒストグラムとセグメント
長とを用いる場合、送信装置１０は、それぞれの特徴量
に基づいたシーン検出によって、カラーヒストグラムに
ついてのシーン層と、セグメント長についてのシーン層
とを得ることができる。そして、送信装置１０は、これ
らのシーン層を単一のシーン構造に組み合わせることが
できる。

【０２０２】さらに、一般には、映像領域と音声領域と
からの情報を組み合わせることはできないが、送信装置
１０は、質的に異なるタイプの特徴量に基づいた構造を
組み合わせる場合と同様な方法により、映像領域と音声
領域とからの情報に基づいて得られるシーン層を単一の
シーン構造に組み合わせることができる。

【０２０３】このような処理のアルゴリズムについて説
明する。ここでは、それぞれが類似性の１つの基準を表
すｋ個の特徴量Ｆ₁，Ｆ₂，・・・，Ｆ_kがあるものと
し、各特徴量Ｆ_iに対応して、非類似性測定基準ｄ
_F ⁱと、非類似性閾値δⁱ _simと、時間閾値Ｔⁱとがあるも
のとする。送信装置１０は、これらの各特徴量Ｆ_iに対
する非類似性測定基準ｄ_F ⁱと、非類似性閾値δⁱ _simと、
時間閾値Ｔⁱとを用いて、シーン層の組Ｘ_i＝｛Ｘ_i ^j｝を
検出する。例えば、送信装置１０は、映像情報と音声情
報とに対して分割的にシーン層を検出し、映像情報と音
声情報とに関する２つの独立したシーン層Ｘ_i＝
｛Ｘ_i ^j｝（ｉ＝１，２）を生成する。

【０２０４】送信装置１０においては、異なるシーン層
を単一のシーン構造に組み合わせるため、シーン境界の
組み合わせ方を決定する必要がある。このシーン境界
は、互いにそろっている保証はない。ここで、各シーン
層に関して、シーン境界を示す一連の時間で表される境
界点をｔ_i1，ｔ_i2，・・・，ｔｉ｜Ｘ_i｜で与えること
とする。まず、送信装置１０は、種々のシーン層を単一
のグループに組み合わせるために、最初に或るシーン層
を境界点の整列に関する基礎とするために選択する。そ
して、送信装置１０は、他のシーン層の境界が最終的に
組み合わせて生成するシーン構造におけるシーン境界か
どうかを各境界点ｔ_i1，ｔ_i2，・・・，ｔｉ｜Ｘ_i｜に
対して決定していく。

【０２０５】ここで、Ｂ_i（ｔ）を、ｉ番目のシーン層
Ｘ_iにおいて、或る時間ｔで近接にそのシーン層の境界
点があるかどうかを示す論理関数とする。この「近接」
の意味は、シーン層Ｘ_iの状況に応じて変化し、例え
ば、映像情報と音声情報とのそれぞれに基づくシーン層
を結合する場合には、０．５秒程度が適当である。

【０２０６】送信装置１０は、各境界点ｔ_j＝ｔ_ij，ｊ
＝１，・・・，｜Ｘ_j｜に関して、ｌ＝１，・・・，ｋ
のそれぞれについて、関数Ｂ_l（ｔ_j）の結果を計算す
る。この結果は、それぞれのシーン層に関して、時間ｔ
_jの近くに境界点があるかどうかを示している。そし
て、送信装置１０は、結合シーン構造において時間ｔ_j
がシーン境界であるかどうかを決定する際に、決定関数
として、Ｂ_i（ｔ_j）の値を用いる。

【０２０７】このような決定関数の１つの単純な例は、
Ｂ_i（ｔ_j）が真である個数を計数し、この個数が定数ｍ
以上となった場合に、結合シーン構造のシーン境界とみ
なすことである。特に、ｍ＝１の場合には、全てのシー
ン層の境界点を最終シーン構造の境界点とみなすことと
同義であり、一方、ｍ＝ｋの場合には、全てのシーン層
において共通してシーン境界とみなされた場合のみ、結
合シーン構造の境界点とすることと同義である。

【０２０８】このようにして、送信装置１０は、異なる
シーン層を単一のシーン構造に結合することができる。

【０２０９】このような送信装置１０における処理結果
は、上述したディスクリプタを用いて記述することがで
きる。

【０２１０】図３３中ステップＳ２における特徴量抽出
結果を記述するために用いられるディスクリプタとして
は、例えば、アクティビティ・レベル・ディスクリプ
タ、シグネチャ・ディスクリプタ、テンポラル・シグネ
チャ・ディスクリプタ、シノプシス・ディスクリプタ等
がある。

【０２１１】アクティビティ・レベル・ディスクリプタ
は、特徴量抽出結果として得られた映像音声ともに関す
る特徴としてのアクティビティを記述するのに用いられ
る。また、シグネチャ・ディスクリプタは、特徴量抽出
結果として得られた、セグメントの静的情報を表すため
の特徴を記述するのに用いられる。さらに、テンポラル
・シグネチャ・ディスクリプタは、特徴量抽出結果とし
て得られた、セグメントの動的情報を表すための最適な
特徴を記述するのに用いることができる。さらにまた、
シノプシス・ディスクリプタは、同図中ステップＳ４に
おいて検出したシーンを、特徴量抽出工程における動的
特徴の抽出により検出した代表フレームで代表させるこ
とを記述する際に用いられる。

【０２１２】また、同図中ステップＳ３における特徴量
を用いたセグメントの類似性測定結果を記述するために
用いられるディスクリプタとしては、例えば、ウエイト
・ベクトル・ディスクリプタ等がある。

【０２１３】さらに、同図中ステップＳ４におけるセグ
メントのグループ化結果を記述するために用いられるデ
ィスクリプタとしては、例えば、ＡＶプロトタイプ・デ
ィスクリプタ、クラスタ・ディスクリプタ、コンポジッ
ド・セグメント・ディスクリプタ、ＡＶグラフ・ディス
クリプタ、ショット・ディスクリプタ、シーン・ディス
クリプタ等がある。

【０２１４】ＡＶプロトタイプ・ディスクリプタやクラ
スタ・ディスクリプタは、グループ化工程の結果得られ
たＡＶエレメントのクラスタを記述するのに用いられ
る。また、コンポジッド・セグメント・ディスクリプタ
は、グループ化工程の結果得られたＡＶセグメントやシ
ーンのクラスタを記述するのに用いられる。さらに、Ａ
Ｖグラフ・ディスクリプタは、グループ化工程において
検出したシーンの内容を、幾つかのシーンの反復構造と
して記述するのに用いられる。さらにまた、ショット・
ディスクリプタは、グループ化工程においてシーンを検
出する際の基となるショットを記述するのに用いられ、
シーン・ディスクリプタは、グループ化工程において検
出したシーンを記述するのに用いられる。

【０２１５】したがって、或るビデオデータにおけるシ
ーン構造を記述するディスクリプション・スキームは、
複数のディスクリプタの集合により表される。この具体
例として、或る１つのシーンを記述するのに必要なディ
スクリプション・スキーム及び特徴データとしてのシー
ン記述の一例を、図３８及び図３９にそれぞれ示す。こ
こで対象とするシーンは、開始位置がフレーム番号“１
２５４７”であり、終了位置がフレーム番号“１２８３
０”であるものとする。なお、図３９中でセミコロ
ン（；）の後の記載は、この行において参照すべきディ
スクリプタのクラスを示している。

【０２１６】まず、シーン記述は、図３９における１行
目で、シーン記述を示すディスクリプタの始まりを示
す。このシーンに対応する図３８上でのノードは、“Sc
ene”とラベリングされたルート・ノードである。

【０２１７】次に、シーン記述は、図３９における２、
３行目で、それぞれ、シーンの開始位置（startPoint）
及び終了位置（endPoint）を、時間やフレーム番号等に
より指定する。なお、図３８中においてこの情報は、ル
ート・ノードに付加された“startTime”及び“endTim
e”により表される。

【０２１８】また、シーン記述は、図３９における４行
目で、このシーン記述が参照とすべきビデオデータの場
所を指定する。

【０２１９】さらに、シーン記述は、同図における５行
目で、シノプシス（synopsis）・ディスクリプタの始ま
りを示し、ユーザにブラウジングさせるためのキーフレ
ーム（KEY_FRAME）を指定する。

【０２２０】次に、シーン記述は、同図における６行目
のシーケンス（sequence）・ディスクリプタによって、
以下にＡＶエレメント（AVElement）のシーケンスがあ
ることを示す。ここでは、ＡＶエレメントは、キーフレ
ームである。

【０２２１】また、シーン記述は、同図における７、
８、９行目で、それぞれ、１、２、３番目のシノプシス
のキーフレームをＫＥＹ＿ＦＲＡＭＥ１、ＫＥＹ＿Ｆ
ＲＡＭＥ２、ＫＥＹ＿ＦＲＡＭＥ３と指定する。た
だし、ここでは、ＫＥＹ＿ＦＲＡＭＥ１、ＫＥＹ＿Ｆ
ＲＡＭＥ２、ＫＥＹ＿ＦＲＡＭＥ３が具体的にどの
フレームであるかという指定を行っていないが、実際に
は、どこかで指定する必要がある。

【０２２２】さらに、シーン記述は、同図における１
０、１１行目で、それぞれ、シーケンス・ディスクリプ
タの終わり及びシノプシス・ディスクリプタの終わりを
示す。

【０２２３】次に、シーン記述は、同図における１２行
目で、アブストラクト（abstract）・ディスクリプタの
始まりを示し、ビデオコンテンツの内容を代表する部分
の指定を行う。

【０２２４】また、シーン記述は、同図における１３行
目で、シグネチャ（signature）・ディスクリプタの始
まりを示し、クラスタリング等に用いるためのシーンの
一部分を指定する。ここでは、ショット・シグネチャで
示されること（SHOT_SIGNATURE）が宣言されている。

【０２２５】さらに、シーン記述は、同図における１４
行目で、シグネチャのメンバー（members）の指定開始
を示す。

【０２２６】そして、シーン記述は、同図における１
５、１６行目で、シグネチャのメンバーの１つ目がｓｈ
ｏｔ１、２つ目がｓｈｏｔ２、３つ目がｓｈｏｔ３であ
ることを示す。このｓｈｏｔ１及びｓｈｏｔ２は、２２
行目及び３２行目に定義されている。

【０２２７】また、シーン記述は、同図における１７行
目で、シグネチャのメンバーの指定終了を示す。

【０２２８】次に、シーン記述は、同図における１８行
目で、シグネチャのメンバーに対する重み付けを指定す
る。ここでは、ｓｈｏｔ１には０．１、ｓｈｏｔ２及び
ｓｈｏｔ３には０．４５の重要度があることを示してい
る。

【０２２９】そして、シーン記述は、同図における１
９、２０行目で、それぞれ、シグネチャ・ディスクリプ
タ及びアブストラクト・ディスクリプタの終わりを示
す。

【０２３０】次に、シーン記述は、同図における２１行
目で、コンポーネント（components）・ディスクリプタ
の始まりを示し、このシーンの構成要素を指定する。こ
のコンポーネントに対応する図３８中のノードは、ルー
ト・ノードの一段だけ下位のノード、すなわち、“shot
1”、“shot2”、“shot n”とラベリングされたノード
である。

【０２３１】また、シーン記述は、図３９における２２
行目で、ショット（shot）・ディスクリプタの始まりを
示し、第１番目のショットの識別子がｓｈｏｔ１である
ことを指定し、その内容を以下に記述することを宣言す
る。

【０２３２】さらに、シーン記述は、同図における２
３、２４行目で、それぞれ、当該ショットの開始位置及
び終了位置を、時間やフレーム番号等により指定する。
ここでは、開始位置がフレーム番号“１２５４７”であ
り、終了位置がフレーム番号“１２６１６”であること
を示している。なお、図３８中においてこの情報は、ル
ート・ノードの一段だけ下位にあり、“shot1”とラベ
リングされたノードに付加された“startTime”及び“e
ndTime”により表される。

【０２３３】次に、シーン記述は、図３９における２５
行目で、アブストラクト・ディスクリプタの始まりを示
し、当該ショットの内容を代表する部分の指定を行う。

【０２３４】また、シーン記述は、同図における２６行
目で、シグネチャ・ディスクリプタの始まりを示し、ク
ラスタリング等に用いるための当該ショットの一部分を
指定する。ここでは、シグネチャがフレームで示される
こと（FRAME_SIGNATURE）が宣言されている。

【０２３５】さらに、シーン記述は、同図における２７
行目で、シグネチャのメンバーが１つだけであることを
示し、そのフレーム番号を指定する。ここでは、フレー
ム番号が“１２５９０”であることが記述されている。

【０２３６】また、シーン記述は、同図における２８行
目で、シグネチャのメンバーに対する重み付けを指定す
る。ここでは、このシグネチャを構成するメンバーが１
つだけであるため、その重要度が１．０となっている。

【０２３７】そして、シーン記述は、同図における２
９、３０、３１行目で、それぞれ、シグネチャ・ディス
クリプタの終わり、アブストラクト・ディスクリプタの
終わり及びショット・ディスクリプタの終わりを示す。

【０２３８】次に、シーン記述は、同図における３２行
目で、ショット・ディスクリプタの始まりを示し、第２
番目のショットの識別子がｓｈｏｔ２であることを指定
し、その内容を以下に記述することを宣言する。

【０２３９】また、シーン記述は、同図における３３、
３４行目で、それぞれ、当該ショットの開始位置及び終
了位置を、時間やフレーム番号等により指定する。ここ
では、開始位置がフレーム番号“１２６１７”であり、
終了位置がフレーム番号“１２６２８”であることを示
している。なお、図３８中においてこの情報は、ルート
・ノードの一段だけ下位にあり、“shot2”とラベリン
グされたノードに付加された“startTime”及び“endTi
me”により表される。

【０２４０】また、シーン記述は、図３９における３５
行目の位置に、当該ショットの内容を示す多くのディス
クリプタが記述されるが、ここでは、省略する。

【０２４１】そして、シーン記述は、同図における３６
行目で、ショット・ディスクリプタの終わりを示す。

【０２４２】また、シーン記述は、同図における３７、
３８行目の位置に、それぞれ、他のショットの内容を示
す各種ディスクリプタ及び各ショットを記述する多くの
ディスクリプタが記述されるが、ここでは、省略する。

【０２４３】そして、シーン記述は、同図における３９
行目で、コンポーネント・ディスクリプタの終わりを示
す。

【０２４４】次に、シーン記述は、同図における４０行
目で、このシーンのインデックス（index）を示す幾つ
かのＡＶハイアラキ（AVHierarchy）・ディスクリプタ
が以下に記述されることを宣言する。

【０２４５】また、シーン記述は、同図における４１行
目で、ハイアラキ（hierarchy）・ディスクリプタの始
まりを示し、このハイアラキがショット・インデックス
で示されること（SHOT_INDEX）を宣言する。

【０２４６】さらに、シーン記述は、同図における４２
行目で、クラスタ（cluster）・ディスクリプタの始ま
りを示し、第１番目のクラスタを以下に記述し、このク
ラスタがｃｌｕｓｔｅｒ１という識別子を持つことを宣
言する。

【０２４７】次に、シーン記述は、同図における４３行
目で、当該クラスタのメンバーの指定開始を示す。

【０２４８】また、シーン記述は、同図における４４行
目で、当該クラスタのメンバーがショットであり、その
識別子がｓｈｏｔ２、ｓｈｏｔ４、・・・であることを
指定する。

【０２４９】さらに、シーン記述は、同図における４５
行目で、当該クラスタのメンバーの指定終了を示す。

【０２５０】次に、シーン記述は、同図における４６行
目で、アブストラクト・ディスクリプタの始まりを示
し、当該クラスタの内容を代表する部分の指定を行う。

【０２５１】また、シーン記述は、同図における４７行
目で、プロトタイプ（prototype）・ディスクリプタを
示す。ここでは、当該クラスタの内容を代表する部分の
識別子がｓｈｏｔ４であることを示している。

【０２５２】さらに、シーン記述は、同図における４
８、４９行目で、それぞれ、アブストラクト・ディスク
リプタの終わり及びクラスタ・ディスクリプタの終わり
を示す。

【０２５３】次に、シーン記述は、同図における５０、
５１行目で、それぞれ、クラスタ・ディスクリプタを示
し、第２、３番目のクラスタがｃｌｕｓｔｅｒ２、ｃｌ
ｕｓｔｅｒ３という識別子を持つことを宣言する。な
お、これらの行の位置には、その内容を記述する多くの
ディスクリプタが示されるが、ここでは、省略する。

【０２５４】そして、シーン記述は、同図における５２
行目で、ハイアラキ・ディスクリプタの終わりを示す。

【０２５５】また、シーン記述は、同図における５３行
目で、このシーンのインデックスを示す幾つかのＡＶハ
イアラキの記述が終わることを宣言する。

【０２５６】さらに、シーン記述は、同図における５４
行目の位置に、他にシーンの内容を示す多くのディスク
リプタが記述されるが、ここでは、省略する。

【０２５７】次に、シーン記述は、同図における５５行
目で、このシーンの構造を示す幾つかのＡＶグラフ（AV
Graph）・ディスクリプタが以下にあることを宣言す
る。

【０２５８】そして、シーン記述は、同図における５６
行目で、ＡＶグラフ・ディスクリプタの始まりを示し、
このグラフのエッジの構成要素がショットであること
（SHOT_GROUP）を宣言する。

【０２５９】また、シーン記述は、同図における５７乃
至６１行目で、ＡＶグラフエッジ（AVGraphEdge）・デ
ィスクリプタを示す。５７行目では、グラフの開始点が
ｃｌｕｓｔｅｒ１であることを示している。このｃｌｕ
ｓｔｅｒ１は、４２行目で指定された識別子である。

【０２６０】さらに、シーン記述は、同図における５
８、５９、６０行目で、それぞれ、ｃｌｕｓｔｅｒ１か
らｃｌｕｓｔｅｒ２に、ｃｌｕｓｔｅｒ３からｃｌｕｓ
ｔｅｒ２に、ｃｌｕｓｔｅｒ２からｃｌｕｓｔｅｒ３に
グラフが伸びていることを示している。

【０２６１】そして、シーン記述は、同図における６１
行目で、グラフの終了点がｃｌｕｓｔｅｒ３であること
を示し、６２行目で、ＡＶグラフ・ディスクリプタの終
わりを示す。

【０２６２】また、シーン記述は、同図における６３行
目で、このシーンの構造を示す幾つかのＡＶグラフ・デ
ィスクリプタの記述をこれで終わることを宣言する。

【０２６３】そして、シーン記述は、同図における６４
行目の位置で、このシーンの他の内容を記述する多くの
ディスクリプタを示した後、６５行目で、シーン記述を
示すディスクリプタの終わりを示す。

【０２６４】このようにして、或るビデオデータにおけ
るシーン構造を、複数のディスクリプタを用いた特徴デ
ータとして記述することができる。

【０２６５】送信装置１０は、先に図２に示した特徴デ
ータ生成部１２によって、このような特徴データをビデ
オデータに応じて生成し、ビデオデータとともに受信装
置２０へと送信する。そのため、ビデオデータとともに
特徴データを受信した受信装置２０は、特徴データに基
づき、ビデオデータを解析するだけで、ビデオデータの
ビデオ構造を容易に回復することができ、検索エンジン
２３により例えばストーリーボードを作成することがで
きる。

【０２６６】したがって、受信装置２０は、ビデオデー
タのビデオ構造を解析するための高度な処理能力や大容
量の計算資源を有する必要がなく、低コスト化及び小容
量メモリ化を図ることができる。

【０２６７】そして、ユーザは、事前にビデオデータの
内容の構造を知る必要はなく、ビデオデータに対して容
易で且つ個人的にアクセスすることが可能となり、ブラ
ウジングを効率よく行うことができる。

【０２６８】以上のように、ディスクリプション・スキ
ームとして定義される本発明にかかるデータ記述方法
は、ビデオデータの内容を検索してブラウジングする高
度な方法を実現するものであって、このデータ記述方法
により記述された特徴データは、ビデオデータのビデオ
構造を的確に且つ簡便に効率よく表すことができる。ま
た、上位クラスのディスクリプタの機能を継承してディ
スクリプタを構成することから、ディスクリプタが高度
な機能を有するものへと容易に拡張され得て拡張性に優
れたディスクリプション・スキームを構築することが可
能であるとともに、特徴データの容量を小さくすること
ができ、受信装置２０の小容量メモリ化に対する一助と
なる。

【０２６９】なお、本発明は、上述した実施の形態に限
定されるものではなく、例えば、各ディスクリプタは、
上位のディスクリプタの機能が継承されていなくてもよ
い。ただしこの場合、特徴データには、１つのディスク
リプタに関して、その上位のディスクリプタを全て書き
下す必要がある。

【０２７０】また、本発明は、ビデオデータからビデオ
構造を抽出する処理としては、上述したもの以外であっ
てもよいことは勿論である。

【０２７１】このように、本発明は、その趣旨を逸脱し
ない範囲で適宜変更が可能であることはいうまでもな
い。

【０２７２】

【発明の効果】以上詳細に説明したように、本発明にか
かるデータ記述方法は、入力データの内容の特徴を表す
特徴データを記述するためのデータ記述方法であって、
記述方法を定義する単位要素となる記述子は、下位要素
としての属性が定義される構造を有し、属性として記述
子を含み得る。

【０２７３】したがって、本発明にかかるデータ記述方
法は、構造を有する記述子の集合を用いて構造化された
特徴データを記述することができ、この特徴データに基
づいて、容易に入力データの内容の特徴を抽出すること
ができる。

【０２７４】また、本発明にかかるデータ処理装置は、
入力データの内容の特徴を表す特徴データを生成するデ
ータ処理装置であって、記述方法を定義する単位要素と
なる記述子に関し、下位要素としての属性が定義される
構造を有し、属性として記述子を含み得る記述子に基づ
いて特徴データを生成する生成手段を備える。

【０２７５】したがって、本発明にかかるデータ処理装
置は、構造を有する記述子の集合を用いて構造化された
特徴データを生成することができ、この特徴データに基
づいて、的確且つ簡便に効率よく入力データの内容の特
徴を表現することができる。

【０２７６】さらに、本発明にかかるデータ処理装置
は、入力データの内容の特徴を表す特徴データを利用す
るデータ処理装置であって、記述方法を定義する単位要
素となる記述子に関し、下位要素としての属性が定義さ
れる構造を有し、属性として記述子を含み得る記述子に
基づいて生成された特徴データを利用して、入力データ
の内容の特徴を復元する復元手段を備える。

【０２７７】したがって、本発明にかかるデータ処理装
置は、特徴データに基づいて、入力データの内容の特徴
を復元することができ、高度な処理能力や大容量の計算
資源を必要とせずに入力データの内容の特徴を抽出する
ことができる。

【図面の簡単な説明】

【図１】本発明において適用するビデオデータの構成を
説明する図であって、モデル化したビデオデータの構造
を説明する図である。

【図２】本発明の実施の形態として示すデータ送受信処
理システムの構成を説明するブロック図である。

【図３】ディスクリプタの記述フォーマットを説明する
図である。

【図４】ディスクリプタの継承関係を説明する図であ
る。

【図５】ＡＶエレメント・ディスクリプタの記述フォー
マットを説明する図である。

【図６】ＡＶセグメント・ディスクリプタの記述フォー
マットを説明する図である。

【図７】ＡＶアブストラクト・ディスクリプタの記述フ
ォーマットを説明する図である。

【図８】ＡＶプロトタイプ・ディスクリプタの記述フォ
ーマットを説明する図である。

【図９】プロトタイプを説明する図である。

【図１０】ハイアラキ・ディスクリプタの記述フォーマ
ットを説明する図である。

【図１１】クラスタ・ディスクリプタの記述フォーマッ
トを説明する図である。

【図１２】クラスタリングを説明する図である。

【図１３】コンポジッドを説明する図である。

【図１４】コンポジッド・セグメント・ディスクリプタ
の記述フォーマットを説明する図である。

【図１５】ＡＶグラフ・ディスクリプタの記述フォーマ
ットを説明する図である。

【図１６】ＡＶグラフを説明する図であって、（Ａ）
は、会話場面を形成する一連のショットを示し、（Ｂ）
は、（Ａ）に示す一連のショットにおける直線的構造を
示すＡＶグラフを示し、（Ｃ）は、（Ａ）に示す一連の
ショットにおける意味的構造を示すＡＶグラフを示す図
である。

【図１７】ＡＶグラフエッジ・ディスクリプタの記述フ
ォーマットを説明する図である。

【図１８】シグネチャ・ディスクリプタの記述フォーマ
ットを説明する図である。

【図１９】テンポラル・シグネチャ・ディスクリプタの
記述フォーマットを説明する図である。

【図２０】アクティビティ・レベル・ディスクリプタの
記述フォーマットを説明する図である。

【図２１】ウエイト・ベクトル・ディスクリプタの記述
フォーマットを説明する図である。

【図２２】コンセプト・ディスクリプタの記述フォーマ
ットを説明する図である。

【図２３】シノプシス・ディスクリプタの記述フォーマ
ットを説明する図である。

【図２４】カラー・ディスクリプタの記述フォーマット
を説明する図である。

【図２５】カラー・スペース・ディスクリプタの記述フ
ォーマットを説明する図である。

【図２６】カラー・シグネチャ・ディスクリプタの記述
フォーマットを説明する図である。

【図２７】音声フレーム・ディスクリプタの記述フォー
マットを説明する図である。

【図２８】映像フレーム・ディスクリプタの記述フォー
マットを説明する図である。

【図２９】ブラウジング・ノード・ディスクリプタの記
述フォーマットを説明する図である。

【図３０】ショット・ディスクリプタの記述フォーマッ
トを説明する図である。

【図３１】シーン・ディスクリプタの記述フォーマット
を説明する図である。

【図３２】プログラム・ディスクリプタの記述フォーマ
ットを説明する図である。

【図３３】データ送受信処理システムにおける送信装置
において、セグメントをグループ化してシーンを検出す
る際の一連の工程を説明するフローチャートである。

【図３４】データ送受信処理システムにおける送信装置
において、動的特徴量サンプリング処理を説明する図で
ある。

【図３５】非類似性閾値を説明する図である。

【図３６】時間閾値を説明する図である。

【図３７】データ送受信処理システムにおける送信装置
において、セグメントをグループ化する際の一連の工程
を説明するフローチャートである。

【図３８】シーンを記述するディスクリプション・スキ
ームの一例を説明する図である。

【図３９】特徴データとしてのシーン記述の一例を説明
する図である。

【符号の説明】

１０送信装置、１１記憶部、１２特徴データ
生成部、２０受信装置、２３検索エンジン

Claims

【特許請求の範囲】

【請求項１】入力データの内容の特徴を表す特徴デー
タを記述するためのデータ記述方法であって、記述方法を定義する単位要素となる記述子は、下位要素
としての属性が定義される構造を有し、上記属性として
記述子を含み得ることを特徴とするデータ記述方法。
【請求項２】上記入力データは、ビデオデータにおけ
る映像データと音声データとの少なくとも一方を含むこ
とを特徴とする請求項１記載のデータ記述方法。
【請求項３】上記記述子は、上記構造の形成能力を含
めて上位の記述子の機能が継承されて生成されることを
特徴とする請求項１記載のデータ記述方法。
【請求項４】上記下位要素としての属性は、記述子及
び／又は特定の属性を定義することにより構成されるこ
とを特徴とする請求項１記載のデータ記述方法。
【請求項５】入力データの内容の特徴を表す特徴デー
タを生成するデータ処理装置であって、記述方法を定義する単位要素となる記述子に関し、下位
要素としての属性が定義される構造を有し、上記属性と
して記述子を含み得る記述子に基づいて特徴データを生
成する生成手段を備えることを特徴とするデータ処理装
置。
【請求項６】上記入力データは、ビデオデータにおけ
る映像データと音声データとの少なくとも一方を含むこ
とを特徴とする請求項５記載のデータ処理装置。
【請求項７】上記記述子は、上記構造の形成能力を含
めて上位の記述子の機能が継承されて生成されたもので
あることを特徴とする請求項５記載のデータ処理装置。
【請求項８】上記下位要素としての属性は、記述子及
び／又は特定の属性を定義することにより構成されてい
ることを特徴とする請求項５記載のデータ処理装置。
【請求項９】上記特徴データを、上記入力データとと
もに、外部機器へと送信することを特徴とする請求項５
記載のデータ処理装置。
【請求項１０】入力データの内容の特徴を表す特徴デ
ータを利用するデータ処理装置であって、記述方法を定義する単位要素となる記述子に関し、下位
要素としての属性が定義される構造を有し、上記属性と
して記述子を含み得る記述子に基づいて生成された特徴
データを利用して、上記入力データの内容の特徴を復元
する復元手段を備えることを特徴とするデータ処理装
置。
【請求項１１】上記入力データは、ビデオデータにお
ける映像データと音声データとの少なくとも一方を含む
ことを特徴とする請求項１０記載のデータ処理装置。
【請求項１２】上記記述子は、上記構造の形成能力を
含めて上位の記述子の機能を継承して生成されたもので
あることを特徴とする請求項１０記載のデータ処理装
置。
【請求項１３】上記下位要素としての属性は、記述子
及び／又は特定の属性を定義することにより構成されて
いることを特徴とする請求項１０記載のデータ処理装
置。
【請求項１４】上記復元手段は、上記入力データの特
徴を復元して上記入力データの加工されたデータを生成
することを特徴とする請求項１０記載のデータ処理装
置。
【請求項１５】上記特徴データを、上記入力データと
ともに、外部機器から受信することを特徴とする請求項
１０記載のデータ処理装置。