JP2008310820A

JP2008310820A - データ処理装置、データ処理方法および記録媒体

Info

Publication number: JP2008310820A
Application number: JP2008186374A
Authority: JP
Inventors: Toshihiko Munetsugi; 敏彦宗續; Minoru Eito; 稔栄藤; Shoichi Araki; 昭一荒木; Koichi Emura; 恒一江村
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 1998-12-25
Filing date: 2008-07-17
Publication date: 2008-12-25
Also published as: JP2009223901A; JP4598134B2

Abstract

【課題】必要とする場面をメディアコンテンツの中から自由に選択することができるデータ作成装置、データ処理方法および記録媒体を提供すること。
【解決手段】文脈内容記述データを入力する入力部と、文脈内容記述データからセグメントを選択する選択部とを有するデータ処理装置のデータ処理方法は、入力部が、複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも１つのキーワードによって表される観点と、観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも１つ記述されている属性部との両方を有する文脈内容記述データを入力する入力ステップと、選択部が、属性部に記述されている観点及びスコアの少なくとも一つに基づいて、データ構造部からセグメントを選択する選択ステップとを有する。
【選択図】図１

Description

本発明は、動画や映像、音声などの連続視聴覚情報（メディアコンテンツ）の視聴、再生、配送、蓄積において、該当メディアコンテンツのあらすじやハイライトシーン、あるいは視聴者が見たいと希望するシーンのみを再生、配送するための、メディアコンテンツのデータ作成装置、データ処理方法および記録媒体を提供するものである。

従来、メディアコンテンツの再生、配送、蓄積は、メディアコンテンツを格納するファイル単位で行われていた。

また、動画の特定シーンの検索を行う方法として、特開平10-111872号公報のように、動画の場面の切り替わり（シーンカット）を検出し、シーンカットごとに、開始フレームのタイムコード、終了フレームのタイムコード、該当シーンのキーワードの付加情報をつけて行っていた。

あるいは、カーネギーメロン大学（ＣＭＵ）では、動画のシーンカットの検出、人間の顔やキャプションの検出、音声認識によるキーフレーズの検出などにより、動画の要約を行っていた（Michael A. Smith, Takeo Kanade, 「Video Skimming and Characterization through the Combination of Image and Language Understanding Techniques」、CMU-CS-97-111,1997年2月3日）。

しかしながら従来の方法では、再生をファイル単位で行う場合、そのコンテンツのあらすじを見ることは不可能である。また、ハイライトシーンや、ユーザが見たい場面を検索する場合においても、コンテンツの先頭から参照しなければならないという問題があった。また、動画配送においては、ファイルのデータすべてを送信するため、多大な時間を要するといった問題があった。

また、特開平10-111872号公報の方法によれば、シーンの検索はキーワードを用いて行うことができるため、ユーザが望むシーンの検索は容易となる。しかし、付加情報には各シーンの間の関係やつながりといったものがなく、例えば、物語のひとつの節を検索する場合の処理が困難となる。また、キーワードだけの検索ではどの場面が文脈上重要であるか知ることが困難であるため、あらすじの作成やハイライトシーン集の作成も困難である。

また、ＣＭＵの手法によると、動画の要約は行えるが、結果は一通りに定まってしまうため、例えば５分の要約と３分の要約などのように、再生時間を変えた要約を行うことは困難である。また、特定の人物の写っているシーンなどを選択するといった、ユーザの要望による要約も困難である。

Michael A. Smith, Takeo Kanade, 「Video Skimming and Characterization through the Combination of Image and Language Understanding Techni ques」、CMU-CS-97-111, 1997年2月3日特開平10-111872号公報

本発明は、メディアコンテンツの再生において、そのあらすじやハイライトシーンのみ、あるいは、視聴者が希望するシーンのみを選択し、再生、配送する手段を提供することを目的とする。

また、あらすじやハイライトシーン、視聴者の希望するシーンなどの選択において、その再生時間をユーザが希望する時間に合わせて行う手段を提供することを目的とする。

さらに、メディアコンテンツの配送において、ユーザの要求により、ユーザが希望する再生時間であらすじ、ハイライトシーン集、ユーザの希望するシーンといったもののみを配送する手段を提供することを目的とする。

さらに、サーバとユーザの通信を行う回線状況によって配送するデータ量を調整する手段を提供することを目的とする。

本発明は、複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、前記複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも１つのキーワードによって表される観点と、前記観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも１つ記述されている属性部との両方を有する文脈内容記述データを入力する入力部と、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つに基づいて、前記データ構造部からセグメントを選択する選択部と、を備えるデータ処理装置を提供する。

上記データ処理装置では、前記メディアコンテンツの各場面は、場面の区切りに応じて時間によって区切られ、前記属性部には、前記複数のセグメントの各々に割り当てられる属性情報として、場面の区切りを表す時間情報が記述されている。

上記データ処理装置では、前記属性部は、前記観点と前記スコアの組が１つのセグメントに複数記述されている。

上記データ処理装置では、前記選択部は、前記属性部に記述されている前記スコアと前記時間情報に基づいてセグメントを選択する際に、その選択されたセグメントの継続時間の和が設定時間以下になるように選択する。

上記データ処理装置では、前記選択部は、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つと、その時間情報に基づいてセグメントを選択する際に、その選択されたセグメントの継続時間の和が設定時間以下になるように選択する。

上記データ処理装置では、前記選択部は、前記スコアが大きい順にセグメントを選択する。

上記データ処理装置では、前記データ構造部には、前記複数のセグメントが階層的に記述されている。

上記データ処理装置では、前記属性部には、文脈内容に関する補助情報が記述されている。

本発明は、文脈内容記述データを入力する入力部と、前記文脈内容記述データからセグメントを選択する選択部とを有するデータ処理装置のデータ処理方法であって、前記入力部が、複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、前記複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも１つのキーワードによって表される観点と、前記観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも１つ記述されている属性部との両方を有する文脈内容記述データを入力する入力ステップと、前記選択部が、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つに基づいて、前記データ構造部からセグメントを選択する選択ステップと、を有するデータ処理方法を提供する。

上記データ処理方法では、前記メディアコンテンツの各場面は、場面の区切りに応じて時間によって区切られ、前記属性部には、前記複数のセグメントの各々に割り当てられる属性情報として、場面の区切りを表す時間情報が記述されている。

本発明は、複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、前記複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも１つのキーワードによって表される観点と、前記観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも１つ記述されている属性部との両方を有する文脈内容記述データを入力する入力ステップと、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つに基づいて、前記データ構造部からセグメントを選択する選択ステップとをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記憶媒体を提供する。

上記記録媒体では、前記メディアコンテンツの各場面は、場面の区切りに応じて時間によって区切られ、前記属性部には、前記複数のセグメントの各々に割り当てられる属性情報として、場面の区切りを表す時間情報が記述されている。

本発明によれば、必要とする場面をメディアコンテンツの中から自由に選択することができるデータ作成装置、データ処理方法および記録媒体を提供することができる。

以下、図面を参照しながら、本発明の実施の形態について説明する。

〔第１の実施の形態〕
以下、本発明に係る第１の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における文脈内容に基づいた客観的な重要度とする。

図１は、本実施の形態におけるデータ処理方法のブロック図である。図１において、１０１は選択ステップを、１０２は抽出ステップを表す。選択ステップ１０１は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間を出力する処理を行う。また、抽出ステップ１０２は、選択ステップ１０１が出力した開始時間と終了時間によって区切られるメディアコンテンツの区間のデータを抽出する処理を行う。

図２に、本実施の形態の文脈内容記述データの構成を示す。本実施の形態では、文脈内容を木構造で記述する。また、木構造の兄弟関係は、左から時間順にならんでいるものとする。図２において、<contents>と記されている木構造の根(root)は、ひとつのコンテン
ツを表し、属性としてそのコンテンツのタイトルが付けられる。

<contents>の子要素は、<section>である。<section>には、該当場面の文脈内容上の重要度を表すpriorityが属性として付加される。重要度は１から５までの整数値とし、１が最も重要度が低く、５が最も重要度が高い、とする。

<section>の子要素は、<section>か<segment>である。すなわち、<section>は、それ自身を子要素としても良いとする。ただし、ひとつの<section>の子要素として、<section>と<segment>を混在させてはならないこととする。

<segment>は、ひとつのシーンカットを表し、<section>と同様のpriorityと、該当シーンの時間情報として、開始時間を表すstartと、終了時間を表すendとが、属性として付加される。シーンカットの方法は、市販されていたり、ネットワークで流通しているソフトを用いても良いし、人手で行っても良い。なお、本実施の形態では、時間情報をシーンカットの開始時間と終了時間としたが、時間情報として開始時間と該当シーンの継続時間としても同様の効果が得られる。この場合、該当シーンの終了時間は、開始時間に継続時間を加算して求められる。

この文脈内容記述データにより、映画などの物語の場合は、多階層の<section>により、章、節、段落などを記述することができる。もうひとつの例として野球を記述する場合、最上位の<section>で回を記述し、その子要素の<section>で表裏を記述し、その子要素の<section>で各打者の場面を記述し、さらにその子要素の<section>で、各投球やその合間、その打席の結果などを記述することができる。

この構成の文脈内容記述データをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。XMLはWorld Wide Web Consortiumによって標準化が進められているデータ記述言語であり、1998年2月10日にVer. 1.0が勧告された。XML ver. 1.0の仕様書は、http://www.w3.org/TR/1998/REC-xml-19980210で得られる。図３〜図９は、本実施の形態の文脈内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる文脈内容記述データの一例である。また、図１０〜図１９は、図３〜図９に示す文脈内容記述データに、代表画像（映像情報）やキーワード（音情報）などのメディアセグメントの代表データ（dominant-data）を追加した文脈内容記述データの一例と、該文脈内容記述データをXMLで記述するためのDTDである。

以下、選択ステップ１０１での処理について説明する。選択ステップ１０１での処理は、文脈内容記述データの形式、および各場面の文脈内容におけるスコアの付け方と密接に関係するものである。本実施の形態では、選択ステップ１０１は図２２に示すような<segment>を子要素にもつ<section>のみに着目し（図２３のＳ１、Ｓ４、Ｓ５）、そのpriorityの値があるしきい値より大きい<section>を選択し（図２３のＳ２）、その開始時間と終了時間を出力する処理（図２３のＳ３）を行うこととする。そのため、<segment>を子要素に持つ<section>のpriorityは、コンテンツ内すべての<segment>を子要素に持つ<section>の間での重要度とする。すなわち、図２２における点線で囲んだ<section>の中での重要度をpriorityに設定する。これ以外の<section>、<segment>のpriorityの付け方は任意とする。なお、重要度はすべて異なる値である必要はなく、異なる要素に同じ値の重要度が付いてよいとする。図２３に、本実施の形態における選択ステップでの処理のフローチャートを示す。選択された<section>に関しては、その子要素である<segment>から、該当<section>で表現される場面の開始時間と終了時間を調べる。そして、その開始時間と終了時間を出力する。

なお、本実施の形態では、<segment>を子要素として持つ<section>に着目して処理を行ったが、ほかに<segment>に着目して、それらの選択を行っても良い。この場合、priorityは、コンテンツ内すべての<segment>間での重要度とする。また、<segment>を子要素として持たない上位層の<section>のうち、同じ階層のものに着目して、その選択を行っても良い。すなわち、<contents>あるいは<segment>から数えて同じ経路数の<section>に着目した処理を行っても良い。

以下、図２４を参照しながら、抽出ステップ１０２の動作について説明する。図２４は、本実施の形態に係わる抽出ステップ１０２のブロック図である。図２４において、本実施の形態における抽出ステップ１０２は、分離手段６０１と、ビデオスキミング手段６０２と、オーディオスキミング手段６０３とから構成される。本実施の形態においては、メディアコンテンツとしてMPEG1システムストリームを想定している。MPEG1システムストリームはビデオストリームとオーディオストリームが多重化されたものであり、分離手段６０１は、多重化されたシステムストリームをビデオストリームとオーディオストリームとに分離するものである。ビデオスキミング手段６０２は、分離されたビデオストリームと選択ステップ１０１の出力である区間を入力とし、入力されたビデオストリームから、選択された区間のデータだけを出力するものである。オーディオスキミング手段６０３は、分離されたオーディオストリームと選択ステップ１０１の出力である区間を入力とし、入力されたオーディオストリームから、選択された区間のデータだけを出力するものである。

以下、図を参照しながら、分離手段６０１の処理について説明する。図２５に分離手段６０１の処理のフローチャートを示す。MPEG1システムストリームの多重化方式は、国際標準ISO/IEC IS 11172-1で標準化されたものであり、ビデオストリームとオーディオストリームがパケットにより多重化されている。パケットによる多重化は、ビデオストリーム、オーディオストリームそれぞれを、パケットと呼ばれる適当な長さのストリームに分割し、ヘッダなどの付加情報を付けて行うものである。この時、ビデオストリームとオーディオストリームは、それぞれ複数あっても良いとされている。パケットのヘッダには、ビデオ、オーディオを区別することができるストリームidや、ビデオとオーディオの同期をとるためのタイムスタンプが記述されている。ストリームidは、ビデオとオーディオの区別だけでなく、ビデオが複数あった場合、どのストリームであるかの区別することができるものである。同様に、オーディオストリームが複数あった場合にも、区別することができるものである。MPEG1システムでは、パケットを複数束ねたパックという単位で構成される。パックには、多重化レートや同期再生用の時間基準参照用の付加情報などがヘッダとして付加されている。さらに先頭のパックには、多重化したビデオストリーム数やオーディオストリーム数などの付加情報がシステムヘッダとして付けられている。分離手段６０１は、まず先頭のパックのシステムヘッダから、多重化されているビデオストリーム数とオーディオストリーム数を読みとり（Ｓ１、Ｓ２）、各ストリームのデータを保存する領域を確保する（Ｓ３、Ｓ４）。続いて、各パケットごとにストリームidを調べ、該当ストリームidで指定されるストリームを保存するデータ領域にパケットデータを書き込む（Ｓ５、Ｓ６）。すべてのパケットに対して以上の処理を繰り返す（Ｓ８、Ｓ９、Ｓ１０）。すべてのデータに対して処理を行った後、各ストリーム毎に、ビデオストリームはビデオスキミング手段６０２へ、オーディオストリームはオーディオスキミング手段６０３へ出力する（Ｓ１１）。

以下、ビデオスキミング手段６０２の動作について述べる。図２６にビデオスキミング手段６０２の処理のフローチャートを示す。MPEG1のビデオストリームは、国際標準ISO/IEC IS 11172-2で標準化されたものであり、図２７に示すように、シーケンス層、ＧＯＰ層、ピクチャ層、スライス層、マクロブロック層、ブロック層で構成されている。そのランダムアクセスの最小単位はＧＯＰ(Group Of Pictures)層である。また、ピクチャ層のひとつが１フレームに相当する。ビデオスキミング手段６０２は、ＧＯＰ単位のデータ処理を行う。初期化処理として、出力したフレーム数のカウンタCを0とする（Ｓ３）。まず、ビデオスキミング手段６０２は、ビデオストリームの先頭がシーケンス層のヘッダであることを確認し（Ｓ２、Ｓ４）、そのデータを保存するとともに（Ｓ５）、そのヘッダのデータを出力する。シーケンス層のヘッダは以降も現れる場合があるが、その値は量子化マトリックス以外は変更が許されないため、シーケンスヘッダが入力されるたびに値の比較を行って（Ｓ８、Ｓ１４）、量子化マトリックス以外の値が異なる場合はエラーとする（Ｓ１５）。続いてビデオスキミング手段６０２は、入力されたデータからＧＯＰ層のヘッダを検出する（Ｓ９）。ＧＯＰ層のヘッダにはタイムコードのデータが記述されている（Ｓ１０）。これは、シーケンスの先頭からの時間を記述したものである。ビデオスキミング手段６０２は、このタイムコードと選択ステップ１０１が出力した区間（Ｓ１）との比較を行う（Ｓ１１）。タイムコードが選択された区間に含まれていない場合、ビデオスキミング手段６０２は、次のＧＯＰ層またはシーケンス層が現れるまでのデータをすべて廃棄する。タイムコードが選択された区間の中に含まれている場合、ビデオスキミング手段６０２は、この次のＧＯＰ層あるいはシーケンス層が現れるまでのデータをすべて出力する（Ｓ１３）。ただし、それまで出力されたデータとの連続性を持たせるために、ＧＯＰ層のタイムコードを変更する必要がある（Ｓ１２）。そこで、カウンタCの値を用いて変更するタイムコードを求める。カウンタCは、それまでに出力されたフレーム数であるため、今回出力するＧＯＰ層の先頭フレームが表示される時間Tvは、Cとシーケンスヘッダに記述されている毎秒の表示画面数であるピクチャレートprを用いて、以下の式（１）により求められる。

Tv=C/pr ・・・（１）

Tvは1/pr秒単位の値であるため、これをMPEG1のタイムコードのフォーマットにしたがって変換し、今回出力するＧＯＰ層のタイムコードに設定する。また、ＧＯＰ層のデータを出力するときに、出力したピクチャ層の数をカウンタCに加算する。以上の処理を、ビデオストリームの最後まで繰り返す（Ｓ７、Ｓ１６）。分離手段６０１から複数のビデオストリームが出力された場合は、上記の処理を各ビデオストリーム毎に行う。

以下、オーディオスキミング手段６０３の処理について記述する。図２８にオーディオスキミング手段６０３の処理のフローチャートを示す。MPEGオーディオは国際標準ISO/IEC IS 11172-3で標準化されたものであり、AAU(Audio Access Unit)と呼ばれるフレームから構成される。図２９にAAUの構造を示す。AAUはひとつひとつ独立でオーディオデータに復号できる最小単位であり、常に一定のサンプル数Snのデータで構成されている。したがって伝送速度であるビットレートbrと、サンプリング周波数Fsと、AAUのビット数Lから、１AAUの再生時間を算出することができる。まず、オーディオストリームからAAUのヘッダを検出することによって（Ｓ２、Ｓ５）、１AAUのビット数Lを求めることができる。また、AAUのヘッダには、ビットレートbrとサンプリング周波数Fsが記述されている。1AAUのサンプル数Snは以下の式（２）によって求められる。

Sn=(L×Fs)/br ・・・（２）

また、1AAUの再生時間Tuは以下の式（３）によって求められる（Ｓ３）。

Tu=Sn/Fs=L/Br ・・・（３）

Tuを求めると、AAUの個数をカウントすることによって、ストリームの先頭からの時間を得ることができる。オーディオスキミング手段６０３は、それまで現れたAAUの個数をカウントし、その先頭からの時間を算出する（Ｓ７）。その時間と、選択ステップ１０１が出力した区間との比較を行う（Ｓ８）。AAUの出現時間が選択された区間に含まれる場合、オーディオスキミング手段６０３はそのAAUのデータをすべて出力する（Ｓ９）。また、AAUの出現時間が選択された区間に含まれていない場合、オーディオスキミング手段６０３はそのAAUのデータを廃棄する。以上の処理を、オーディオストリームの最後まで繰り返す（Ｓ６、Ｓ１１）。分離手段６０１から複数のオーディオストリームが出力された場合は、各オーディオストリーム毎に上記の処理を行う。

本実施の形態の効果としては、図３０に示すように、抽出ステップ１０２の出力であるビデオストリームとオーディオストリームをそれぞれビデオ再生手段、オーディオ再生手段に入力させ、ビデオストリームとオーディオストリームを同期させて再生することにより、該当メディアコンテンツのあらすじやハイライトシーンを再生することができる。また、上記得られたビデオストリームとオーディオストリームを多重化することによって、該当メディアコンテンツのあらすじやハイライトシーン集のMPEG1システムストリームを作成することができる。

〔第２の実施の形態〕
以下、本発明に係る第２の実施の形態について述べる。本実施の形態は、第１の実施の形態と比較して、選択ステップの処理のみが異なるものである。

以下、図を参照しながら本実施の形態における選択ステップ１０１の処理について記述する。本実施の形態における選択ステップ１０１では、最上位の<section>から葉である<segment>まですべてのpriorityを利用する。<section>、<segment>の各々のpriorityは、文脈内容における客観的な重要度とする。この処理を図３１を参照しながら説明する。図３１において、１３０１は文脈内容記述データにおける最上位の<section>のうちのひとつである。１３０２は<section>１３０１の子要素<section>である。１３０３は<section>１３０２の子要素<section>である。１３０４は<section>１３０３の子要素<segment>である。本実施の形態における選択ステップ１０１では、<segment>から祖先である最上位の<section>までの経路上すべてのpriorityの相加平均をとり、その値がしきい値以上の<segment>を選択する。図２８の例では、<segment>１３０４と、<section>１３０３と、<section>１３０２と、<section>１３０１との、それぞれの属性priorityの値p4,p3,p2,p1の相加平均paを計算する。paは以下の式（４）によって求められる。

pa=(p1+p2+p3+p4)/4 ・・・（４）

このpaとしきい値との比較を行い（Ｓ１、Ｓ２）、paがしきい値以上であれば<segment>１３０４を選択し（Ｓ３）、<segment>１３０４の属性startとendの値を、選択された場面の開始時間と終了時間として出力する（Ｓ４）。以上の処理をすべての<segment>に対して行う（Ｓ１、Ｓ６）。図３２に、本実施の形態における選択ステップ１０１の処理のフローチャートを示す。

なお、本実施の形態では、<segment>から祖先である最上位の<section>までのpriorityの相加平均を算出して、それにより<segment>の選択を行ったが、これを、<segment>を子要素としてもつ<section>から祖先である最上位の<section>までのpriorityの相加平均をとって、しきい値処理により、<segment>を子要素として持つ<section>の選択を行っても良い。同様に、他の階層の<section>から祖先である最上位の<section>までの相加平均をとって、しきい値処理により、その階層の<section>の選択を行っても良い。

〔第３の実施の形態〕
以下、本発明に係る第３の実施の形態について述べる。本実施の形態も、第１の実施の形態と比較して、選択ステップの処理のみが異なるものである。

以下、図を参照しながら本実施の形態における選択ステップ１０１の処理について記述する。本実施の形態における選択ステップ１０１は、第１の実施の形態における処理と同様に、<segment>を子要素にもつ<section>のみに着目し、その選択を行う。本実施の形態においては、選択する場面すべての継続時間の和にしきい値を設ける。すなわち、それまでに選択された<section>の継続時間の和が、このしきい値以下で最大となるまで、<section>のpriorityの大きい順に選択を行う。図３３に、本実施の形態における選択ステップ１０１のフローチャートを示す。<segment>を子要素としてもつ<section>の集合をΩとする（Ｓ１）。まず、属性priorityをキーとして、Ωの要素<section>を降順にソートする（Ｓ２）。Ωから最もpriorityの大きい<section>を選択する（Ｓ４、Ｓ５）。選択された<section>をΩから除去する。選択された<section>の子要素<segment>をすべて調べることにより、<section>の開始時間と終了時間を求め、<section>の継続時間を計算する（Ｓ６）。これまでに選択された<section>の継続時間の和を求め（Ｓ７）、しきい値を越えていれば処理を終了する（Ｓ８）。しきい値以下であれば、今回選択された<section>の開始時間と終了時間とを出力し（Ｓ９）、Ωからpriorityの最も大きい<section>の選択へ返る。この処理を、選択された<section>の継続時間の和がしきい値を越えるか、あるいはΩが空集合となるまで繰り返す（Ｓ４、Ｓ８）。

なお、本実施の形態では、<segment>を子要素として持つ<section>に着目して処理を行ったが、ほかに<segment>に着目して、それらの選択を行っても良い。この場合、priorityは、コンテンツ内すべての<segment>間での重要度とする。また、<segment>を子要素として持たない<section>のうち同じ階層のものに着目して、その選択を行っても良い。すなわち、<contents>あるいは<segment>から数えて同じ経路数の<section>に着目した処理を行っても良い。

また、第２の実施の形態と同様に、<section>、<segment>の各々のpriorityを文脈内容における客観的な重要度とし、<segment>から祖先である最上位の<section>までのpriorityの相加平均paを計算して、paの大きい順から<segment>を子要素としてもつ<section>、あるいは<segment>を、継続時間の和がしきい値以下の最大となるまで選択する、としても同様の効果が得られる。

〔第４の実施の形態〕
以下、本発明に係る第４の実施の形態について述べる。本実施の形態も、第１の実施の形態と比較して、選択ステップの処理のみが異なるものである。

以下、図を参照しながら本実施の形態における選択ステップ１０１の処理について記述する。本実施の形態における選択ステップ１０１は、第１の実施の形態における処理と同様に、<segment>と<segment>を子要素にもつ<section>とに着目し処理を行う。また、本実施の形態においては、第３の実施の形態と同様に、選択する場面すべての継続時間の和にしきい値を設ける。<segment>を子に持つ<section>のpriorityは、第１の実施の形態と同様、コンテンツ内すべての<segment>を子要素に持つ<section>の間での重要度とする。すなわち、図３４における点線で囲んだ<section>間での重要度とする。また、<segment>のpriorityは、同じ<section>を親要素に持つ<segment>間での重要度とする。すなわち、図３４における一点鎖線で囲んだ中の<segment>間での重要度とする。

図３５に本実施の形態における選択ステップ１０１の処理のフローチャートを示す。まず、<segment>を子要素として持つ<section>の集合をΩとする（Ｓ１）。Ωをpriorityのキーとして降順にソートする（Ｓ２）。続いて、Ωからpriorityの最も大きい<section>を選択する（Ｓ３、Ｓ４、Ｓ５）。この時、最も重要度の大きい<section>が複数ある場合はすべて選択する。選択された<section>を集合Ω’の要素とし、集合Ωから削除する。選択された<section>の子要素<segment>から、該当<section>で表現される場面の開始時間と終了時間と継続時間を求めて記憶しておく（Ｓ６）。<section>が複数選択された場合は、そのすべてに関して、それらを求める。Ω’の要素である<section>の継続時間の総和を求め（Ｓ７、Ｓ８）、しきい値との比較を行う（Ｓ９）。継続時間の総和がしきい値と等しい場合は、記憶しておいた開始時間と終了時間をすべて出力して、処理を終了する（Ｓ１０）。継続時間の総和がしきい値より小さい場合は、Ωから<section>の選択処理へ返る（Ｓ４、Ｓ５）。このときΩが空集合の場合は、記憶しておいた開始時間と終了時間をすべて出力して、処理を終了する（Ｓ４）。継続時間の総和がしきい値より大きい場合は、以下の処理を行う。集合Ω’の要素のうち、重要度が最も小さい<section>を選択する（Ｓ１１）。このとき、最も重要度の小さい<section>が複数ある場合は、それらをすべて選択する。選択された<section>の子要素<segment>のうち、最も重要度の小さいものを削除し（Ｓ１２）、記憶されている該当<section>の開始時間と終了時間と継続時間を変更する（Ｓ１３）。<segment>の削除によって、場面が分断されることがあるが、この場合は、分断されたそれぞれの開始時間と終了時間と継続時間を記憶しておくこととする。また、<segment>の削除によって、すべての<segment>が削除された<section>がある場合は、その<section>をΩ’から削除する。選択された<section>が複数ある場合は、そのすべてに関してこの処理を行う。<segment>を削除することによって、該当<section>の継続時間が短くなり、継続時間の総和も短くなる。この削除処理を、Ω’の要素の継続時間の総和がしきい値以下になるまで繰り返す。Ω’の要素の継続時間の総和がしきい値以下となった場合は（Ｓ１４）、記憶している開始時間と終了時間をすべて出力して、処理を終了する（Ｓ１５）。

なお、本実施の形態においては、<segment>と<segment>を子要素としてもつ<section>に着目して処理を行っているが、<section>とその子要素の<section>、<section>とその子要素の<section>に着目して処理を行っても同様の効果が得られる。

また、継続時間の総和がしきい値を越えた場合の<segment>の削除処理に関して、priorityの小さい<section>から削除を行ったが、<section>のpriorityにしきい値を設け、そのしきい値以下の<section>すべてから最も小さい重要度の<segment>を削除する、としてもよい。さらに、<segment>のpriorityにしきい値を設け、しきい値以下の<segment>を削除する、としても良い。

〔第５の実施の形態〕
以下、本発明に係る第５の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における文脈内容に基づいた客観的な重要度とする。

図３６は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図３６において、１８０１は選択ステップを、１８０２は抽出ステップを、１８０３は構成ステップを、１８０４は配送ステップを、１８０５はデータベースを表す。選択ステップ１８０１は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行う。抽出ステップ１８０２は、選択ステップ１８０１が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行う。構成ステップ１８０３は、抽出ステップ１８０２が出力したデータを多重化し、MPEG1システムストリームを構成する処理を行う。配送ステップ１８０４は、構成ステップ１８０３が作成したMPEG1システムストリームを、回線を通じて配送する処理を行う。１８０５はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。

図３７に、本実施の形態における物理内容記述データの構成を示す。本実施の形態では、物理内容を木構造で記述する。メディアコンテンツのデータベース１８０５上の格納形態は、ひとつのメディアコンテンツがひとつのファイルとして格納されているとは限らず、ひとつのメディアコンテンツが複数のファイルに分割されて格納されている場合もある。そこで、物理内容記述データの木構造の根(root)は、<contents>と表記されひとつのコンテンツを表す。根<contents>には、属性として該当コンテンツのタイトルが付けられる。<contents>の子要素は<mediaobject>で、格納されているファイルを表す。<mediaobject>には、属性として格納されているファイルへのリンクlocatorと、文脈内容記述データとの関連付けのために識別子idが属性として付加される。また、メディアコンテンツが複数のファイルで構成されているときのために、該当ファイルがコンテンツ内での順序を表すseqも属性として付加する。

図３８に、本実施の形態における文脈内容記述データの構成を示す。これは、第１の実施の形態における文脈内容記述データに、物理内容記述データの<mediaobject>との関連を加えたものである。すなわち、文脈内容記述データの根<contents>の子要素は<mediaobject>で、この<mediaobject>の子要素が<section>となる。<section>、<segment>は第１の実施の形態と同様のものである。文脈内容記述データの<mediaobject>との対応を取る。すなわち、文脈内容記述データの<mediaobject>の子孫で記述されるメディアコンテンツの場面は、同じ値の属性idをもつ物理内容記述データの<mediaobject>が示すファイルに格納されている。また、<segment>の時間情報startとendは、各ファイルの先頭からの時間を設定することとする。すなわち、ひとつのメディアコンテンツが複数のファイルから構成される場合、各ファイルの先頭時間は０であり、各場面の開始時間は、それが格納されているファイルの先頭からそこまでの経過時間で表すこととする。

本実施の形態における物理内容記述データと文脈内容記述データとをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。図３９は図３７に示す物理内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる物理内容記述データの一例である。また、図４０〜図４５は図３８に示す文脈内容記述データをXMLで記述するためのDTDと、このDTDによる文脈内容記述データの一例である。

以下、選択ステップ１８０１の処理について説明する。選択ステップ１８０１での場面の選択の手法は、第１〜第４の実施の形態に記載のいずれかの手法を用いる。ただし、結果として開始時間、終了時間とともに、対応する物理内容記述データの<mediaobject>のidも同時に出力する。物理内容記述データを図３９に示すDTDによるXML文書で記述し、文脈内容記述データを図４０、図４５に示すDTDによるXML文書で表した場合の、選択ステップ１８０１の出力の一例を図４６に示す。図４６において、id=の後に物理内容記述データの<mediaobject>のidが記述され、start=の後に開始時間が記述され、end=の後に終了時間が記述される。

以下、抽出ステップ１８０２の処理について説明する。図４７に、本実施の形態に係わる抽出ステップ１８０２のブロック図を示す。図４７において、本実施の形態における抽出ステップ１８０２は、インターフェース手段２４０１と、分離手段２４０２と、ビデオスキミング手段２４０３と、オーディオスキミング手段２４０４とから構成される。インターフェース手段２４０１は、物理内容記述データと選択ステップ１８０２の出力を入力とし、データベース１８０５から、メディアコンテンツのファイルを取り出して、そのデータを分離手段２４０２へ出力し、選択ステップ１８０２が出力した区間の開始時間と終了時間をビデオスキミング手段２４０３とオーディオスキミング手段２４０４へ出力する。分離手段２４０２は、本実施の形態におけるメディアコンテンツはビデオストリームとオーディオストリームが多重化されたMPEG1システムストリームであるため、ビデオストリームとオーディオストリームとに分離するものである。ビデオスキミング手段２４０３は、分離されたビデオストリームとインターフェース手段２４０１が出力した区間を入力とし、入力されたビデオストリームから、選択された区間のデータだけを出力するものである。オーディオスキミング手段２４０２は、分離されたオーディオストリームと選択ステップ２４０２が出力した区間を入力とし、入力されたオーディオストリームから、選択された区間のデータだけを出力するものである。

以下、インターフェース手段２４０１での処理について説明する。図４８にインターフェース手段２４０１の処理のフローチャートを示す。インターフェース手段は、まず該当メディアコンテンツの物理内容記述データと、図４６に示すような選択ステップ１８０１の出力を入力する。物理内容記述データの<mediaobject>の属性idから、ファイルの時間順が得られるので、選択ステップ１８０１の出力を、idをキーとして、時間順にソートする（Ｓ１）。さらに図４９のようなデータに変換する。これは、同じファイルのものはまとめ、さらに開始時間順に並べたものである。続いて、インターフェース手段２４０１は、図４９のデータの上から順に以下の処理を行う。まず、idを用いて、物理内容記述データの<mediaobject>を参照し、その属性locatorからファイル名を取得する。該当ファイル名のファイルのデータをデータベースから読み取り、分離手段２４０２へ出力する（Ｓ２、Ｓ３）。さらに、図４９のidに続いて記されている、該当ファイル内の選択された区間の開始時間と終了時間を、すべてビデオスキミング手段２４０３とオーディオスキミング手段２４０４へ出力する（Ｓ４）。すべてのデータに対し以上の処理が行われた時は、処理を終了する（Ｓ５）。まだデータが残っている場合は、分離手段２４０２、ビデオスキミング手段２４０３、オーディオスキミング手段２１０４の処理終了を待ってから（Ｓ６、Ｓ７）、以上の処理を繰り返す。

以下、分離手段２４０２の処理について説明する。図５０に分離手段２４０２の処理のフローチャートを示す。分離手段２４０２は、インターフェース手段２４０１からメディアコンテンツであるMPEG1システムストリームを受けとって、ビデオストリームとオーディオストリームに分離し、ビデオストリームをビデオスキミング手段２４０３へ、オーディオストリームをオーディオスキミング手段２４０４へ出力し（Ｓ１〜Ｓ１０）、出力終了後（Ｓ９、Ｓ１１）、インターフェース手段２４０１へ処理終了を通知するものである（Ｓ１２）。図５０のフローチャートに示す通り、処理終了の通知以外は、第１の実施の形態で記述した分離手段と同様の処理を行うものである。

以下、ビデオスキミング手段２４０３の処理について説明する。図５３にビデオスキミング手段２４０３の処理のフローチャートを示す。図５３のフローチャートに示す通り、処理終了時にインターフェース手段２４０１へ処理終了の通知を行う（Ｓ１６、Ｓ１７）以外は、第１の実施の形態で記述したビデオスキミング手段と同様の処理を行うものである。

以下、オーディオスキミング手段２４０４の処理について説明する。図５２にオーディオスキミング手段２４０４の処理のフローチャートを示す。図５２のフローチャートに示す通り、処理終了時にインターフェース手段２４０１へ処理終了の通知を行う（Ｓ１１、Ｓ１２）以外は、第１の実施の形態で記述したオーディオスキミング手段と同様の処理を行うものである。

構成ステップ１８０３は、抽出ステップ１８０２が出力したビデオストリームとオーディオストリームを、国際標準ISO/IEC IS 11172-1で標準化されたMPEG1システムの多重化方式により、時分割多重化を行うものである。メディアコンテンツが複数のファイルに分割されて格納されている場合、抽出ステップ１８０２は各ファイル毎にビデオストリーム、オーディオストリームを出力するため、それぞれに対して多重化を行う。

配送ステップ１８０４は、構成ステップ１８０３が多重化したMPEG1システムストリームを回線を通じて配送するものである。構成ステップ１８０３が複数のMPEG1システムストリームを出力した場合、出力された順にすべてを配送する。

なお、本実施の形態においては、メディアコンテンツが複数のファイルに分割されて格納されている場合は、抽出ステップ１８０２の処理において、各ファイル毎の処理を行ったが、メディアコンテンツのファイル間で対応するビデオストリーム、オーディオストリームをすべてつなぎ合わせて出力し、構成ステップ１８０３においては、ビデオストリームとオーディオストリームの多重化により、ひとつのMPEG1システムストリームを構成する、としても同様の効果が得られる。この場合、ビデオスキミング手段２４０３でのタイムコードの変更処理を以下のように行う必要がある。すなわち、ビデオストリームの数だけ、出力したフレーム数のカウンタCを用意し、Cの初期化は最初のファイルの時にのみ行う（図５１のＳ１８、Ｓ３）。この場合のビデオスキミング手段２４０３のフローチャートを図５３に示す。また、本実施の形態においては文脈内容記述データと物理内容記述データを別々に記述したが、物理内容記述データの属性seqとlocatorを、文脈内容記述データの<mediaobject>の属性として付加することにより、ひとつにまとめても良い。

〔第６の実施の形態〕
以下、本発明に係る第６の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における文脈内容に基づいた客観的な重要度とする。

図５４は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図５４において、３１０１は選択ステップを、３１０２は抽出ステップを、３１０３は構成ステップを、３１０４は配送ステップを、３１０５はデータベースを表す。選択ステップ３１０１は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行うもので、第５の実施の形態記載の選択ステップと同様のものである。抽出ステップ３１０２は、選択ステップ３１０１が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行うもので、第５の実施の形態記載の抽出ステップと同様のものである。構成ステップ３１０３は、配送ステップ３１０４が判断した回線状況に応じて、抽出ステップ３１０２が出力したストリームの一部またはすべてを多重化し、MPEG1システムストリームを構成する処理を行う。配送ステップ３１０４は、配送する回線状況を判断してその結果を構成ステップ３１０３に伝える処理と、構成ステップ３１０３が作成したMPEG1システムストリームを、回線を通じて配送する処理を行う。３１０５はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。

図５５に、本実施の形態に係わる構成ステップ３１０３と、配送ステップ３１０４とのブロック図を示す。図５５において、構成ステップ３１０３はストリーム選択手段３２０１と、多重化手段３２０２とから構成され、配送ステップ３１０４は回線状況判定手段３２０３と、配送手段３２０４とから構成される。ストリーム選択手段３２０１は、抽出ステップ３１０２が出力したビデオストリーム、オーディオストリームと、回線状況判定手段３２０３の出力した回線状況を入力とし、回線がすべてのデータを送出するのに十分な状態である場合は、すべてのストリームを多重化手段３２０２へ出力する。回線が混雑している、あるいは容量の小さい回線であるなど、すべてのデータを送出すると多大な時間を要する場合は、ビデオストリーム、オーディオストリームそれぞれ複数あるうちの一部だけを選択して多重化手段３２０２へ出力する。この場合の選択の方法には、ビデオストリームに関しては基本レイヤのストリームだけ、など、また、オーディオストリームに関しては、モノラルだけ、あるいはステレオのレフトだけ、ステレオのライトだけ、などさまざまな組合せがある。ただし、ビデオストリーム、オーディオストリームともひとつのストリームしかない場合は、回線状況に係わらずそのストリームを出力する。多重化手段３２０２は、ストリーム選択手段３２０１が出力したビデオストリームとオーディオストリームを、国際標準ISO/IDE IS 11172-1で標準化されたMPEG1システムの多重化方式により、時分割多重化を行うものである。回線状況判定手段３２０３は、配送する回線の容量や現在の使用状況などを調べて、ストリーム選択手段３２０１へ出力するものである。配送手段３２０４は、多重化手段３２０２が多重化したMPEG1システムストリームを回線を通じて配送するものである。

なお、本実施の形態においては、ストリーム選択手段３２０１において、ビデオストリームがひとつの場合、回線状況に関わらずそれを出力するとしたが、回線がすべてのデータを送出すると多大な時間を要する場合は、ビデオストリームの代表画像のみを選択して送出する、としてもよい。代表画像の選択方法としては、文脈内容記述データに代表画像のタイムコードを記述しておく、あるいは各フレームのうち独立で復号可能なＩピクチャと呼ばれるフレームだけ選択する、などがある。

〔第７の実施の形態〕
以下、本発明に係る第７の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における、ユーザ等が選択した登場人物や事柄等のキーワードの観点に基づいた重要度とする。

図５６は、本実施の形態におけるデータ処理方法のブロック図である。図５６において、３３０１は選択ステップを、３３０２は抽出ステップを表す。選択ステップ３３０１は、文脈内容記述データのキーワードとそのスコアから、メディアコンテンツの場面を選択し、その場面の開始時間と終了時間を出力する処理を行う。また、抽出ステップ３３０２は、選択ステップ３３０１が出力した開始時間と終了時間によって区切られるメディアコンテンツの区間のデータを抽出する処理を行う。

図５７に、本実施の形態の文脈内容記述データの構成を示す。本実施の形態では、文脈内容を木構造で記述する。また、木構造の兄弟関係は、左から時間順にならんでいるものとする。図５７において、<contents>と記されている木構造の根(root)は、ひとつのコンテンツを表し、属性としてそのコンテンツのタイトルが付けられる。

<contents>の子要素は、<section>である。<section>には、その場面の内容や登場人物などを表すキーワードであるkeywordと、このキーワードの重要度を表すpriorityとの組(keyword, priority)が属性として付加される。priorityは1から5までの整数値とし、1が最も重要度が低く、5が最も重要度が高い、とする。(keyword, priority)組は、ユーザが見たいと思う場面、人物などを検索する時のキーに用いることができるように設定する。そのため、(keyword, priority)組は、ひとつの<section>に複数付加することが可能とする。例えば登場人物を記述する場合、その場面に現れる人物の数だけ(keyword,priority)組を付加し、また、priorityは、該当場面に該当keywordの人物が、数多く登場する場合はその値が高い、といったように設定する。

<segment>は、ひとつのシーンカットを表し、<section>と同様の(keyword, priority)組と、該当シーンの時間情報として、開始時間を表すstartと、終了時間を表すendとが、属性として付加される。シーンカットの方法は、市販されていたり、ネットワークで流通しているソフトを用いても良いし、人手で行っても良い。なお、本実施の形態では、時間情報をシーンカットの開始時間と終了時間としたが、時間情報として開始時間と該当シーンの継続時間としても同様の効果が得られる。この場合、該当シーンの終了時間は、開始時間に継続時間を加算して求められる。

この構成の文脈内容記述データをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。XMLはWorld Wide Web Consortiumによって標準化が進められているデータ記述言語であり、1998年2月10日にVer. 1.0が勧告された。XML ver. 1.0の仕様書は、http://www.w3.org/TR/1998/REC-xml-19980210で得られる。図５８〜図６６は、本実施の形態の文脈内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる文脈内容記述データの一例である。また、図６７〜図８０は、図５８〜図６６に示す文脈内容記述データに、代表画像（映像情報）やキーワード（音情報）などのメディアセグメントの代表データ（dominant-data）を追加した文脈内容記述データの一例と、該文脈内容記述データをXMLで記述するためのDTDである。

以下、選択ステップ３３０１での処理について説明する。本実施の形態における選択ステップ３３０１での処理は、<segment>と<segment>を子要素に持つ<section>に着目して処理を行う。図８１に、本実施の形態における選択ステップ３３０１の処理のフローチャートを示す。本実施の形態における選択ステップ３３０１は、場面選択のキーとなるキーワードとそのpriorityのしきい値を入力とし、文脈内容記述データの<segment>を子要素としてもつ<section>から、キーと同じキーワードを持ち、かつ、そのpriorityがしきい値以上の<section>を選択する（Ｓ２、Ｓ３）。続いて、選択された<section>の<segment>のうち、キーと同じキーワードを持ち、かつ、そのpriorityがしきい値以上の<segment>のみを選択する（Ｓ５、Ｓ６）。以上の処理から選択された<segment>の属性であるstartとendより、選択された場面の開始時間と終了時間を求め、それを出力する（Ｓ７、Ｓ８、Ｓ９、Ｓ１０、Ｓ１１、Ｓ１、Ｓ４）。

なお、本実施の形態では、<segment>と<segment>を子要素として持つ<section>に着目して処理を行ったが、ある階層の<section>とその子要素である<section>の親子関係に着目して、同様の処理を行っても良い。また、親子関係も2階層のみではなく、さらに階層を増やして、木構造の葉である<segment>まで同様の処理を行ってもよい。さらに、検索のキーを、複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。選択のしきい値も、キーワードが複数の場合はキーワード毎に指定して処理を行っても良い。この検索キーとなるキーワードは、ユーザの入力によって受けとっても良いし、ユーザプロファイルなどからシステムが自動的に設定する構成でも良い。

抽出ステップ３３０２の動作は、第１の実施の形態で述べた抽出ステップと同様のものである。

本実施の形態の効果としては、図８２に示すように、抽出ステップ３３０２の出力であるビデオストリームとオーディオストリームをそれぞれビデオ再生手段、オーディオ再生手段に入力させ、ビデオストリームとオーディオストリームを同期させて再生することにより、該当メディアコンテンツの、視聴者個人が見たいシーンのみを再生することができる。また、上記得られたビデオストリームとオーディオストリームを多重化することによって、該当メディアコンテンツの視聴者個人が見たいシーン集のMPEG1システムストリームを作成することができる。

〔第８の実施の形態〕
以下、本発明に係る第８の実施の形態について述べる。本実施の形態は、第７の実施の形態と比較して、選択ステップの処理のみが異なるものである。

以下、図を参照しながら本実施の形態における選択ステップ３３０１の処理について記述する。本実施の形態における選択ステップ３３０１では、<segment>のみに着目して処理を行う。図８３に、本実施の形態における選択ステップ３３０１のフローチャートを示す。図８３に示す通り、本実施の形態における選択ステップ３３０１は、検索キーとなるキーワードとそのpriorityのしきい値を入力とし、文脈内容記述データの<segment>から、キーと同じキーワードを持ち、かつ、そのpriorityがしきい値以上の<segment>を選択するものである（Ｓ１〜Ｓ６）。

なお、本実施の形態では、<segment>のみに着目して処理を行ったが、ある階層の<section>に着目して処理を行っても良い。また、検索のキーを、複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。選択のしきい値も、キーワードが複数の場合はキーワード毎に指定して処理を行っても良い。

〔第９の実施の形態〕
以下、本発明に係る第９の実施の形態について述べる。本実施の形態も、第７の実施の形態と比較して、選択ステップの処理のみが異なるものである。

以下、図を参照しながら本実施の形態における選択ステップ３３０１の処理について記述する。本実施の形態における選択ステップ３３０１は、第７の実施の形態における処理と同様に、<segment>と<segment>を子要素にもつ<section>のみに着目し、その選択を行う。本実施の形態においては、選択する場面すべての継続時間の和にしきい値を設ける。すなわち、それまでに選択された場面の継続時間の和が、このしきい値以下で最大となるような選択を行う。図８４に本実施の形態における選択ステップのフローチャートを示す。まず、選択ステップ３３０１は検索するキーとなるキーワードをひとつ受けとる。続いて、<segment>を子要素にもつ<section>のうち、検索キーのキーワードを持つものすべてを抽出する。この集合をΩとする（Ｓ１、Ｓ２）。Ωの要素を検索キーのキーワードのpriorityの大きい順にソートする（Ｓ３）。続いて、ソートしたΩから、検索キーのキーワードのpriorityの最も大きい<section>を取り出し（Ｓ５）、Ωからその<section>を削除する（Ｓ６）。この場合、最もpriorityの大きい<section>が複数ある場合は、そのすべての<section>を取り出す。取り出した<section>の子要素<segment>のうち、検索キーを持つ<segment>のみを選択し、集合Ω’に加える（Ｓ７）。なお、集合Ω’の初期値は空集合である（Ｓ２）。Ω’の場面の継続時間の総和を計算し（Ｓ８）、しきい値と比較する（Ｓ９）。継続時間の総和がしきい値と等しい場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する（Ｓ１４）。継続時間のしきい値より小さい場合は、Ωから検索キーのキーワードのpriorityの最も大きい<section>の選択に戻り（Ｓ５）、以上の処理を繰り返す。ただし、Ωが空集合である場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する（Ｓ４）。Ω’の場面の継続時間の総和がしきい値を越えている場合は、以下の処理を行う。集合Ω’の要素<segment>のうち、検索キーのキーワードのpriorityが最も小さい<segment>を削除する（Ｓ１１）。この場合、最も小さいpriorityの<segment>が複数ある場合は、そのすべての<segment>を削除する。Ω’の継続時間の総和を算出し（Ｓ１２）、しきい値との比較を行う（Ｓ１３）。継続時間の総和がしきい値よりも大きい場合は、Ω’から<segment>の削除処理に戻り（Ｓ１１）、この処理を繰り返す。ただし、Ω’が空集合の場合は処理を終了する（Ｓ１０）。継続時間の総和がしきい値以下の場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する（Ｓ１４）。

なお、本実施の形態では、<segment>と<segment>を子要素として持つ<section>に着目して処理を行ったが、ある階層の<section>とその子要素である<section>の親子関係に着目して処理を行っても良い。また、親子関係も2階層のみではなく、さらに階層を増やして処理を行っても良い。例えば、最上位の<section>から<segment>までの階層で処理を行う場合、まず最上位の<section>を選択し、選択した<section>からその子要素である<section>を選択し、選択した<section>からその子要素を選択、といった処理を<segment>の選択まで繰り返して、選択された<segment>の集合Ω’を生成する。

また、本実施の形態では、検索キーのキーワードのpriorityの大きい順としたが、priorityにしきい値を設定し、priorityがしきい値以上で大きい順に選択、としても良い。このしきい値は、<section>と<segment>それぞれ別々に設定しても良い。

さらに、本実施の形態では、検索キーをひとつのキーワードとしたが、これを複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。この場合、<section>、<segment>の選択または削除に用いているキーワードのpriorityを決めるルールも必要となる。このルールの一例として、以下のものがある。すなわち、条件が「どちらか」の場合は、該当キーワードのpriorityのうち最も大きい値をpriorityとする。また、「ともに」の場合は、該当キーワードのpriorityのうち最も小さい値をpriorityとする。「どちらか」と「ともに」の組合せの場合も、このルールによりpriorityの値は求めることができる。また、検索キーのキーワードが複数の場合でも、そのpriorityにしきい値を設定し、そのしきい値以上のpriorityを持つものに対して処理を行っても良い。

〔第１０の実施の形態〕
以下、本発明に係る第１０の実施の形態について述べる。本実施の形態は、第７の実施の形態と比較して、選択ステップの処理のみが異なるものである。

以下、図を参照しながら本実施の形態における選択ステップ３３０１の処理について記述する。本実施の形態における選択ステップ３３０１では、第８の実施の形態と同様に<segment>のみに着目して処理を行う。また、第９の実施の形態と同様に、選択する場面すべての継続時間の和にしきい値を設ける。すなわち、それまでに選択された場面の継続時間の和が、このしきい値以下で最大となるような選択を行う。図８５に本実施の形態における選択ステップのフローチャートを示す。

まず、選択ステップ３３０１は検索するキーとなるキーワードをひとつ受けとる。初期化として、集合Ω’を空集合とする（Ｓ２）。続いて、<segment>のうち、検索キーのキーワードを持つものすべてを抽出する（Ｓ１）。この集合をΩとする。Ωの要素を検索キーのキーワードのpriorityの大きい順にソートする（Ｓ３）。続いて、ソートしたΩから、検索キーのキーワードのpriorityの最も大きい<segment>を取り出し（Ｓ５）、Ωからその<segment>を削除する。この場合、最もpriorityの大きい<segment>が複数ある場合は、そのすべての<segment>を取り出す。Ωが空集合の場合は、Ω’の要素<segment>すべての区間を出力し、処理を終了する（Ｓ４）。取り出した<segment>の継続時間の総和T1と（Ｓ６）、Ω’の場面の継続時間の総和T2を計算し（Ｓ７）、T1+T2としきい値とを比較する（Ｓ８）。T1+T2がしきい値を越えている場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する（Ｓ１１）。T1+T2が、しきい値と等しい場合は、取り出した<segment>すべてをΩ’の要素として加えたうえで（Ｓ９、Ｓ１０）、Ω’の要素<segment>のすべての区間を出力し、処理を終了する（Ｓ１１）。T1+T2がしきい値より小さい場合は、取り出した<segment>すべてをΩ’の要素として加え、Ωから<segment>の選択処理へ戻る（Ｓ１０）。

なお、本実施の形態では、<segment>のみに着目して処理を行ったが、ある階層の<section>に着目して処理を行っても良い。また、本実施の形態では、検索キーのキーワードのpriorityの大きい順としたが、priorityにしきい値を設定し、priorityがしきい値以上で大きい順に選択、としても良い。

〔第１１の実施の形態〕
以下、本発明に係る第１１の実施の形態について述べる。本実施の形態は、第７〜第１０の実施の形態の文脈内容記述データにおいて、場面選択のキーワードとなる観点およびその重要度の記述が異なるものである。第７〜第１０の実施の形態では、図５７に示すように、キーワードと重要度との組(keyword, priority)を<section>,<segment>に属性として付与することによって観点およびその観点から見た重要度を記述していたが、本実施の形態では、図１３３に示すように、<contents>に属性povlistを付加し、<section>,<segment>には属性povvalueを付加することによって観点および重要度を記述している。

属性povlistは、図１３４に示すように、観点をベクトル形式で表したものであり、属性povvalueは、図１３５に示すように、重要度をベクトル形式で表したものであり、それぞれ一対一に対応した観点および重要度が順に並んで属性povlistおよび属性povvalueを形成している。例えば、図１３４および図１３５では、観点１に関する重要度が５、観点２に関する重要度が０、観点３に関する重要度が２、観点ｎ（但し、ｎは正の整数である）に関する重要度が０である。なお、観点２に関する重要度０とは、第７の実施の形態の場合、観点２がキーワードである属性(keyword, priority)が付加されていないことに対応している。

また、図１３６〜図１６３および図１６４〜図１９６には、本実施の形態の文脈内容記述データをコンピュータ上で表現するために用いられるExtensible Markup Language(XML)で記述するためのDocument Type Definition(DTD)と、このDTDによる文脈内容記述データの一例をそれぞれ示す。本実施の形態においても、これらの文脈内容記述データを用いて第７〜第１０の実施の形態で説明した処理と同様の処理を行う。

なお、本実施の形態では、<contents>に属性povlistを付加し、<section>,<segment>には属性povvalueを付加しているが、図１９７に示すように、<section>,<segment>にも属性povlistを付加して良い。但し、属性povlistが付加された<section>または<segment>において、属性povvalueは、その<section>または<segment>に付加されている属性povlistに対応したものである。また、属性povlistが付加されていない<section>または<segment>において、属性povvalueは、<contents>に付加された属性povlistに対応するものであっても、属性povlistが付加されていない<section>または<segment>の先祖の内、属性povlistが付加された最も近い<section>の属性povlistであっても良い。

また、図１９８〜図２２２および図２２３〜図２５２には、図１９７に対応した、文脈内容記述データをコンピュータ上で表現するために用いられるXMLで記述するためのDTDと、このDTDによる文脈内容記述データの一例をそれぞれ示す。これらの図面に示す例では
、属性povlistが付加されていない<section>,<segment>の属性povvalueは、<contents>に付加された属性povlistに対応している。

〔第１２の実施の形態〕
以下、本発明に係る第１２の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。

図８６は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図８６において、４１０１は選択ステップを、４１０２は抽出ステップを、４１０３は構成ステップを、４１０４は配送ステップを、４１０５はデータベースを表す。選択ステップ４１０１は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行う。抽出ステップ４１０２は、選択ステップ４１０１が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行う。構成ステップ４１０３は、抽出ステップ４１０２が出力したデータを多重化し、MPEG1システムストリームを構成する処理を行う。配送ステップ４１０４は、構成ステップ４１０３が作成したMPEG1システムストリームを、回線を通じて配送する処理を行う。４１０５はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。

本実施の形態における物理内容記述データの構成は、第５の実施の形態で記述したものと同様のものを用いる。すなわち、図３７に示した構成の物理内容記述データを用いる。

図８７に、本実施の形態における文脈内容記述データの構成を示す。これは、第７の実施の形態における文脈内容記述データに、物理内容記述データの<mediaobject>との関連を加えたものである。すなわち、文脈内容記述データの根<contents>の子要素は<mediaobject>で、この<mediaobject>の子要素が<section>となる。<section>、<segment>は第７の実施の形態と同様ものである。文脈内容記述データの<mediaobject>には、属性idが付加され、このidによって、物理内容記述データの<mediaobject>との対応を取る。すなわち、文脈内容記述データの<mediaobject>の子孫で記述されるメディアコンテンツの場面は、同じ値の属性idをもつ物理内容記述データの<mediaobject>が示すファイルに格納されている。また、<segment>の時間情報startとendは、各ファイルの先頭からの時間を設定することとする。すなわち、ひとつのメディアコンテンツが複数のファイルから構成される場合、各ファイルの先頭時間は０であり、各場面の開始時間は、それが格納されているファイルの先頭からそこまでの経過時間で表すこととする。

本実施の形態における物理内容記述データと文脈内容記述データとをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。物理内容記述データに関しては、第５の実施の形態で示した図３９が一例である。また、図８８〜図９６は、図８７に示す文脈内容記述データをXMLで記述するためのDTDと、このDTDによる文脈内容記述データの一例である。

以下、選択ステップ４１０１の処理について説明する。選択ステップ４１０１での場面の選択の手法は、第７〜第１０の実施の形態に記載のいずれかの手法を用いる。ただし、結果として開始時間、終了時間とともに、対応する物理内容記述データの<mediaobject>のidも同時に出力する。物理内容記述データを図３９に示すDTDによるXML文書で表し、文脈内容記述データを図８８〜図９６に示すDTDによるXML文書で表した場合の、選択ステップ４１０１の出力の一例は、第５の実施の形態において示した図４６のものと同様の形態のものである。

抽出ステップ４１０２の処理は、第５の実施の形態に記載の抽出ステップと同様のものである。また、構成ステップ４１０３も、第５の実施の形態に記載の構成ステップと同様のものである。配送ステップ４１０４も、第５の実施の形態に記載の配送ステップと同様のものである。

〔第１３の実施の形態〕
以下、本発明に係る第１３の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。

図９７は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図９７において、４４０１は選択ステップを、４４０２は抽出ステップを、４４０３は構成ステップを、４４０４は配送ステップを、４４０５はデータベースを表す。選択ステップ４４０１は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行うもので、第１２の実施の形態記載の選択ステップと同様のものである。抽出ステップ４４０２は、選択ステップ４４０１が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行うもので、第１２の実施の形態記載の抽出ステップと同様のものである。構成ステップ４４０３は、配送ステップ４４０４が判断した回線状況に応じて、抽出ステップ４４０２が出力したストリームの一部またはすべてを多重化し、MPEG1システムストリームを構成する処理を行うもので、第６の実施の形態に記載の構成ステップと同様のものである。配送ステップ４４０４は、配送する回線状況を判断してその結果を構成ステップ４４０３に伝えることと、構成ステップ４４０３が作成したMPEG1システムストリームを、回線を通じて配送する処理を行うもので、第６の実施例に記載の配送ステップと同様のものである。４４０５はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。

なお、本実施の形態では、メディアコンテンツとして、MPEG1システムストリームを想定したが、各画面のタイムコードを得ることができるものであれば、他のフォーマットでも同様の効果が得られる。

以下に示す実施の形態は、特許請求の範囲に示す発明に対応した形態の要約を説明したものである。なお、以下、「音情報」という言葉を、有音、無音、スピーチ、音楽、静寂、外部雑音などを含む音に関する情報として用い、「映像情報」という言葉を、動画、静止画、テロップなどの文字を含む視覚できる情報として用いる。また、スコアは、有音、無音、スピーチ、音楽、静寂、外部雑音など、音情報の内容から算出されるスコア、または映像情報中のテロップの有無に従って付けられるスコア、またはそれらの組み合わせを利用できる。また、スコアは上記スコア以外のスコアであっても良い。

〔第１４の実施の形態〕
以下、本発明に係る第１４の実施の形態について述べる。図９８は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、５０１は選択ステップを、５０３は抽出ステップを表す。選択ステップ５０１は、文脈内容記述データのスコアから、メディアコンテンツの少なくともひとつの区間または場面を選択し、その選択された区間または場面を出力するステップである。なお、選択された区間とは、例えば、選択区間の開始時間および終了時間である。また、抽出ステップ５０３は、選択ステップ５０１が出力した選択区間によって区切られたメディアコンテンツの区間（以下、メディアセグメントと称す）のデータ、すなわち選択区間のデータのみを抽出する処理を行うステップである。

なお、スコアは、文脈内容における客観的な重要性に基づいた重要度でもよいし、ユーザ等が選択した登場人物や事柄等のキーワードの観点に基づいた重要度でもよい。

〔第１５の実施の形態〕
以下、本発明に係る第１５の実施の形態について述べる。図９９は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、５０１は選択ステップを、５０３は再生ステップを表す。再生ステップ５０５は、選択ステップ５０１が出力した選択区間によって区切られた選択区間のデータのみを再生する処理を行うステップである。なお、選択ステップ５０１は、第１〜第１３の実施の形態に示した選択ステップと同様であるため説明を省略する。

〔第１６の実施の形態〕
以下、本発明に係る第１６の実施の形態について述べる。図１００は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、５０７は映像選択ステップを、５０９は音選択ステップを表す。なお、映像選択ステップ５０７および音選択ステップ５０９は、第１４および第１５の実施の形態に示した選択ステップ５０１に含まれる。

映像選択ステップ５０７は、映像情報の文脈内容記述データを参照して映像情報の区間または場面の選択を行い、その選択された区間を出力するステップである。また、音選択ステップ５０９は、音情報の文脈内容記述データを参照して音情報の区間または場面の選択を行い、その選択された区間を出力するステップである。なお、選択された区間とは、例えば、選択区間の開始時間および終了時間である。また、映像選択ステップ５０７で選択された映像情報の選択区間および音選択ステップ５０９で選択された音情報の選択区間は、第１４の実施の形態に示した抽出ステップ５０３または第１５の実施の形態に示した再生ステップ５０５によって、選択区間のデータのみが抽出または再生される。

〔第１７の実施の形態〕
以下、本発明に係る第１７の実施の形態について述べる。図１０１は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、５１１は判定ステップを、５１３は選択ステップを、５０３は抽出ステップを、５０５は再生ステップを示す。

（実施例１）
まず、実施例１では、メディアコンテンツが同一時間においてそれぞれ異なる複数のメディア情報を有しており、判定ステップ５１１が、メディアコンテンツのデータ構成を記述した物理内容記述データを入力として、受信端末の能力、配送する回線の状況、およびユーザからの要求などの判定条件から、どのメディア情報を選択対象とするかを判定するステップである。また、選択ステップ５１３は、判定ステップ５１１で選択対象と判定されたデータ、物理内容記述データおよび文脈内容記述データを入力とし、入力された物理内容記述データを参照して、判定ステップ５１１が選択対象と判定したデータからのみ選択処理を行うステップである。なお、抽出ステップ５０３および再生ステップ５０５は、それぞれ第１４の実施の形態に示した抽出ステップおよび第１５の実施の形態に示した再生ステップと同様であるため説明を省略する。また、メディア情報は、映像情報や音情報、テキスト情報などのデータを含み、以下、本実施例においては、メディア情報が特に映像情報および音情報に関するデータの少なくとも一方を含んだものとする。

また、本実施例においては、メディアコンテンツが有する同一時間において異なる映像情報または音情報が、図１０２に示すようなチャネル、さらに一チャネルを階層化したレイヤーにそれぞれ割り当てられており、例えば、動画を伝達するチャネル１，レイヤー１には標準解像度の映像情報が、チャネル１，レイヤー２には高解像度の映像情報が割り当てられ、また、音情報を伝達するチャネル１にはステレオの音情報が、チャネル２にはモノラルの音情報が割り当てられている。図１０３および図１０４は、物理内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる物理内容記述データの一例である。

次に、メディアコンテンツがこのようなチャネルおよびレイヤー構成となっているときの、本実施例の判定ステップ５１１の処理について、図１０５〜図１０８を参照して説明する。まず、図１０５に示すように、ステップＳ１０１ではユーザからの要求があるかを判別する。このステップＳ１０１において、ユーザ要求があれば図１０６に示すユーザ要求による判定処理ＳＲ−Ａを実行する。

また、ステップＳ１０１において、ユーザ要求がなければステップＳ１０３に進み、受信可能な情報が映像情報のみか、音情報のみか、映像情報および音情報の両方であるかを判別する。このステップＳ１０３において、受信可能な情報が映像情報のみであるときは図１０７に示す映像情報に関する判定処理ＳＲ−Ｂを実行し、音情報のみであるときは図１０８に示す音情報に関する判定処理ＳＲ−Ｃを実行し、映像情報および音情報の両方であるときはステップＳ１０５に進む。ステップＳ１０５では、映像情報および音情報を受信する受信端末の能力、例えば、映像表示能力や音再生能力、圧縮された情報の解凍処理速度などを判別して、能力が高ければステップＳ１０７に進み、低ければステップＳ１０９に進む。ステップＳ１０７では、映像情報や音情報を伝送する回線の状況を判別し、回線が混雑していればステップＳ１０９に進み、混雑していなければステップＳ１１１に進む。

ステップＳ１０９は受信端末の能力が低いかまたは回線が混雑しているときに実行され、このとき受信端末は、チャネル１，レイヤー１の標準解像度の映像情報と、チャネル２のモノラルの音情報とを受信する。一方、ステップＳ１１１は受信端末の能力が高く回線が混雑していないときに実行され、このとき受信端末は、チャネル１，レイヤー２の高解像度の映像情報と、チャネル１のステレオの音情報とを受信する。

次に、図１０６に示すユーザ要求による判定処理ＳＲ−Ａについて説明する。本実施例においては、ユーザからの要求が、映像のレイヤー、音のチャネルを選択するものである。まず、ステップＳ１５１では、ユーザによる映像に関する要求があるかを判別する。このステップＳ１５１において、映像に関するユーザ要求があればステップＳ１５３に進み、ユーザ要求がなければステップＳ１５９に進む。ステップＳ１５３では、ユーザによる映像の要求がレイヤー２を選択するものかを判別し、ＹＥＳであればステップＳ１５５に進んで映像情報としてレイヤー２を選択し、ＮＯであればステップＳ１５７に進んでレイヤー１を選択する。ステップＳ１５９では、ユーザによる音に関する要求があるかを判別する。このステップＳ１５９において、音に関するユーザ要求があればステップＳ１６１に進み、ユーザ要求がなければ処理を終了する。ステップＳ１６１では、ユーザによる音の要求がチャネル１を選択するものかを判別し、ＹＥＳであればステップＳ１６３に進んで音情報としてチャネル１を選択し、ＮＯであればステップＳ１６５に進んでチャネル２を選択する。

次に、図１０７に示す映像情報に関する判定処理ＳＲ−Ｂについて説明する。まず、ステップＳ１７１では、映像情報を受信する受信端末の能力を判別して、能力が高ければステップＳ１７３に進み、低ければステップＳ１７５に進む。ステップＳ１７３では、回線の状況を判別し、回線が混雑していればステップＳ１７５に進み、混雑していなければステップＳ１７７に進む。

ステップＳ１７５は受信端末の能力が低いかまたは回線が混雑しているときに実行され、このとき受信端末は、チャネル１，レイヤー１の標準解像度の映像情報のみを受信する。一方、ステップＳ１７７は受信端末の能力が高く回線が混雑していないときに実行され、このとき受信端末は、チャネル１，レイヤー２の高解像度の映像情報のみを受信する。

次に、図１０８に示す音情報に関する判定処理ＳＲ−Ｃについて説明する。まず、ステップＳ１８１では、音情報を受信する受信端末の能力を判別して、能力が高ければステップＳ１８３に進み、低ければステップＳ１８５に進む。ステップＳ１８３では、回線の状況を判別し、回線が混雑していればステップＳ１８５に進み、混雑していなければステップＳ１８７に進む。

ステップＳ１８５は受信端末の能力が低いかまたは回線が混雑しているときに実行され、このとき受信端末は、チャネル２のモノラルの音情報のみを受信する。一方、ステップＳ１８７は受信端末の能力が高く回線が混雑していないときに実行され、このとき受信端末は、チャネル１のステレオの音情報のみを受信する。

（実施例２）
また、実施例２では、実施例１と比較して、判定ステップＳ５１１のみが異なる。本実施例に係る判定ステップ５１１は、メディアコンテンツのデータ構成を記述した物理内容記述データを入力として、受信端末の能力、配送する回線の状況、およびユーザからの要求などの判定条件から、映像情報のみ、音情報のみ、または映像情報および音情報のいずれかを選択対象とするかを判定するかを判定するステップである。なお、選択ステップ５１３、抽出ステップ５０３および再生ステップ５０５については、上述の各ステップと同様であるため説明を省略する。

次に、本実施例の判定ステップ５１１の処理について、図１０９および図１１０を参照して説明する。まず、図１０９に示すように、ステップＳ２０１ではユーザからの要求があるかを判別する。このステップＳ２０１において、ユーザ要求があればステップＳ２０３に進み、ユーザ要求がなければステップＳ２０５に進む。ステップＳ２０３では、ユーザ要求が映像情報のみであるかを判別し、ＹＥＳであればステップＳ２５３に進んで映像情報のみを選択対象と判定し、ＮＯであればステップＳ２０７に進む。ステップＳ２０７では、ユーザ要求が音情報のみであるかを判別し、ＹＥＳであればステップＳ２５５に進んで音情報のみを選択対象と判定し、ＮＯであればステップＳ２５１に進んで映像情報および音情報の両方を選択対象と判定する。

また、ユーザ要求がないときに進んだステップＳ２０５では、受信可能な情報が映像情報のみか、音情報のみか、映像情報および音情報の両方であるかを判別する。このステップＳ２０５において、受信可能な情報が映像情報のみであるときはステップＳ２５３に進んで映像情報のみを選択対象と判定し、音情報のみであるときはステップＳ２５５に進んで音情報のみを選択対象と判定し、映像情報および音情報の両方であるときはステップＳ２０９に進む。

ステップＳ２０９では、回線の状況を判別し、回線が混雑していなければステップＳ２５１に進んで映像情報および音情報の両方を選択対象と判定し、混雑していればステップＳ１１１に進む。ステップＳ２１１では、回線を介して配送される情報に音情報が含まれているかを判別し、ＹＥＳであればステップＳ２５５に進んで音情報を選択対象と判定し、ＮＯであればステップＳ２５３に進んで映像情報を選択対象と判定する。

（実施例３）
また、実施例３では、メディアコンテンツが同一時間においてそれぞれ異なる複数の映像情報および／または音情報を有しており、判定ステップ５１１が、実施例２の判定ステップ５１１が行う映像情報のみ、音情報のみ、または映像情報および音情報のいずれかを選択対象とするかについての判定に加えて、さらに、受信端末の能力、配送する回線の能力、および回線の状況などの判定条件から、どの映像情報／音情報を選択対象とするかを判定している。なお、選択ステップ５１３、抽出ステップ５０３および再生ステップ５０５については、上述の各ステップと同様であるため説明を省略する。

本実施例においては、実施例１と同様に、メディアコンテンツが有する同一時間において異なる映像情報または音情報が、チャネルやレイヤーにそれぞれ割り当てられており、例えば、動画を伝達するチャネル１，レイヤー１には標準解像度の映像情報が、チャネル１，レイヤー２には高解像度の映像情報が割り当てられ、また、音情報を伝達するチャネル１にはステレオの音情報が、チャネル２にはモノラルの音情報が割り当てられている。

次に、本実施例の判定ステップ５１１の処理について、図１１１〜図１１３を参照して説明する。図１１１に示すように、本実施例では、まず実施例２の判定ステップ５１１によって、選択対象とする情報を決定する（選択対象の判定ＳＲ−Ｄ）。次に、ステップＳ３０１では、選択対象の判定処理ＳＲ−Ｄによって判定された情報を判定する。このステップＳ３０１において、選択対象となった情報が映像情報のみであるときは、図１１２に示す映像情報に関する判定処理ＳＲ−Ｅを実行し、音情報のみであるときは図１１３に示す音情報に関する判定処理ＳＲ−Ｆを実行し、映像情報および音情報の両方であるときはステップＳ３０３に進む。ステップＳ３０３では、映像情報および音情報を受信する受信端末の能力を判別して、能力が高ければステップＳ３０５に進み、低ければステップＳ３０７に進む。ステップＳ３０７では、伝送速度などの回線の能力を判別して、能力が高ければステップＳ３０９に進み、低ければステップＳ３０７に進む。ステップＳ３０９では回線の状況を判別し、回線が混雑していればステップＳ３０７に進み、混雑していなければステップＳ３１１に進む。

ステップＳ３０７は受信端末の能力が低いか、回線の能力が低いか、または回線が混雑しているときに実行され、このとき受信端末は、チャネル１，レイヤー１の標準解像度の映像情報と、チャネル２のモノラルの音情報とを受信する。一方、ステップＳ３１１は受信端末の能力が高く、回線の能力が高く、かつ回線が混雑していないときに実行され、このとき受信端末は、チャネル１，レイヤー２の高解像度の映像情報と、チャネル１のステレオの音情報とを受信する。

次に、図１１２に示す映像情報に関する判定処理ＳＲ−Ｅについて説明する。まず、ステップＳ３５１では、映像情報を受信する受信端末の能力を判別して、能力が高ければステップＳ３５３に進み、低ければステップＳ３５５に進む。ステップＳ３５３では、回線の能力を判別し、能力が高ければステップＳ３５７に進み、低ければステップＳ３５５に進む。ステップＳ３５７では、回線の状況を判別し、回線が混雑していればステップＳ３５５に進み、混雑していなければステップＳ３５９に進む。

ステップＳ３５５は受信端末の能力が低いか、回線の能力が低いか、または回線が混雑しているときに実行され、このとき受信端末は、チャネル１，レイヤー１の標準解像度の映像情報のみを受信する。一方、ステップＳ３５９は受信端末の能力が高く、回線の能力が高く、かつ回線が混雑していないときに実行され、このとき受信端末は、チャネル１，レイヤー２の高解像度の映像情報のみを受信する。

次に、図１１３に示す音情報に関する判定処理ＳＲ−Ｆについて説明する。まず、ステップＳ３７１では、音情報を受信する受信端末の能力を判別して、能力が高ければステップＳ３７３に進み、低ければステップＳ３７５に進む。ステップＳ３７３では、回線の能力を判別し、能力が高ければステップＳ３７７に進み、低ければステップＳ３７５に進む。ステップＳ３７７では、回線の状況を判別し、回線が混雑していればステップＳ３７５に進み、混雑していなければステップＳ３７９に進む。

ステップＳ３７５は受信端末の能力が低いか、回線の能力が低いか、または回線が混雑しているときに実行され、このとき受信端末は、チャネル２のモノラルの音情報のみを受信する。一方、ステップＳ３７９は受信端末の能力が高く、回線の能力が高く、かつ回線が混雑していないときに実行され、このとき受信端末は、チャネル１のステレオの音情報のみを受信する。

（実施例４）
また、実施例４では、文脈内容記述データの最下位層の各要素に該当するメディアセグメントの代表データが属性として付加され、メディアコンテンツが同一時間においてそれぞれ異なる複数のメディア情報を有している。判定ステップ５１１は、メディアコンテンツのデータ構成を記述した物理内容記述データを入力として、受信端末の能力、配送する回線の能力、および回線の状況、回線の能力、およびユーザからの要求などの判定条件から、どのメディア情報および／または代表データを選択対象とするかを判定するステップである。

なお、選択ステップ５１３、抽出ステップ５０３および再生ステップ５０５については、説明を省略する。なお、メディア情報は、映像情報や音情報、テキストデータなどの情報であり、以下、本実施例においては、メディア情報が映像情報および音情報の少なくとも一方を含んだものとする。また、代表データは、映像情報であれば、例えば各メディアセグメントごとの代表画像データや低解像度の映像データであり、音情報であれば、例えば各メディアセグメントごとのキーフレーズのデータである。

また、本実施例においては、実施例と同様に、メディアコンテンツが有する同一時間において異なる映像情報または音情報が、チャネルやレイヤーにそれぞれ割り当てられており、例えば、動画を伝達するチャネル１，レイヤー１には標準解像度の映像情報が、チャネル１，レイヤー２には高解像度の映像情報が割り当てられ、また、音情報を伝達するチャネル１にはステレオの音情報が、チャネル２にはモノラルの音情報が割り当てられている。

次に、本実施例の判定ステップ５１１の処理について、図１１４〜図１１８を参照して説明する。図１１４に示すように、ステップＳ４０１ではユーザからの要求があるかを判別する。このステップＳ４０１において、ユーザ要求があれば図１１６に示すユーザ要求による判定処理ＳＲ−Ｇを実行する。

また、ステップＳ４０１において、ユーザ要求がなければステップＳ４０３に進み、受信可能な情報が映像情報のみか、音情報のみか、映像情報および音情報の両方であるかを判別する。このステップＳ４０３において、受信可能な情報が映像情報のみであるときは図１１７に示す映像情報に関する判定処理ＳＲ−Ｈを実行し、音情報のみであるときは図１１８に示す音情報に関する判定処理ＳＲ−Ｉを実行し、映像情報および音情報の両方であるときは図１１５に示すステップＳ４０５に進む。

ステップＳ４０５は、受信端末の能力を判別するステップであるが、このステップＳ４０５を実行した後、順に回線の能力を判別するステップＳ４０７、回線が混雑しているかを判別するステップＳ４０９を実行する。本実施例の判別ステップ５１１は、これらのステップＳ４０５、Ｓ４０７およびＳ４０９を実行して、下記の表１に従うよう、受信する映像情報および音情報のチャネル，レイヤーまたは代表データを判別する。

次に、図１１６に示すユーザ要求による判定処理ＳＲ−Ｇについて説明する。まず、ステップＳ４５１では、ユーザによる要求が映像情報のみであるかを判別し、ＹＥＳであれば映像情報に関する判定処理ＳＲ−Ｈを行い、ＮＯであればステップＳ４５３に進む。ステップＳ４５３では、ユーザによる要求が音情報のみであるかを判別し、ＹＥＳであれば音情報に関する判定処理ＳＲ−Ｉを行い、ＮＯであればメインルーチンに戻り、ステップＳ４０５に進む。

次に、図１１７に示す映像情報に関する判定処理ＳＲ−Ｈについて説明する。まず、ステップＳ４６１では受信端末の能力を判別するが、このステップＳ４６１を実行した後、順に回線の能力を判別するステップＳ４６３、回線が混雑しているかを判別するステップＳ４６５を実行する。本実施例の映像情報に関する判定処理ＳＲ−Ｈは、これらのステップＳ４６１、Ｓ４６３、Ｓ４６５を実行して、端末の能力が高く、回線の能力が高く、かつ回線が混雑してないとき、チャネル１，レイヤー２の映像情報のみを受信し（ステップＳ４７１）、また、端末の能力が低く、回線の能力が低く、かつ回線が混雑してないとき、映像情報の代表データのみを受信する（ステップＳ４７３）。また、上記の条件に該当しないときは、チャネル１，レイヤー１の映像情報のみを受信する（ステップＳ４７５）。

次に、図１１８に示す音情報に関する判定処理ＳＲ−Ｉについて説明する。まず、ステップＳ４７１では受信端末の能力を判別するが、このステップＳ４７１を実行した後、順に回線の能力を判別するステップＳ４７３、回線が混雑しているかを判別するステップＳ４７５を実行する。本実施例の映像情報に関する判定処理ＳＲ−Ｉは、これらのステップＳ４７１、Ｓ４７３、Ｓ４７５を実行して、端末の能力が高く回線の能力が高いとき、および端末の能力が高く、回線の能力が低く、かつ回線が混雑していないとき、チャネル１の音情報のみを受信する（ステップＳ４９１）。また、端末の能力が低く、回線の能力が低く、回線が混雑しているとき、音情報の代表データのみを受信する（ステップＳ４９３）。また、上記の条件に該当しないときは、チャネル２の音情報のみを受信する（ステップＳ４９５）。

（実施例５）
また、実施例５では、判定ステップ５１１が、受信端末の能力、配送する回線の能力、および回線の状況、回線の能力、およびユーザからの要求などの判定条件から、メディアセグメントの全体データ、該当するメディアセグメントの代表データのみ、または該当するメディアセグメントの全体データおよび代表データのいずれかを選択対象とするかを判定するステップである。

なお、本実施例においても実施例４と同様に、文脈内容記述データの最下位層の各要素に該当するメディアセグメントの代表データが属性として付加され、この代表データは、映像情報であれば、例えば各メディアセグメントごとの代表画像データや低解像度の映像データであり、音情報であれば、例えば各メディアセグメントごとのキーフレーズのデータである。

次に、本実施例の判定ステップ５１１の処理について、図１１９〜図１２１を参照して説明する。図１１９に示すように、ステップＳ５０１ではユーザからの要求があるかを判別する。このステップＳ５０１において、ユーザ要求があれば図１２１に示すユーザ要求による判定処理ＳＲ−Ｊを実行する。

また、ステップＳ５０１において、ユーザ要求がなければステップＳ５０３に進み、受信可能なデータがメディアセグメントの代表データのみか、メディアセグメントの全体データのみか、代表データおよび全体データの両方であるかを判別する。このステップＳ５０３において、受信可能なデータが代表データのみであるときは、図１２０に示すステップＳ５５３に進んで代表データのみを選択対象と判定し、全体データのみであるときはステップＳ５５５に進んで全体データのみを選択対象と判定し、代表データおよび全体データの両方であるときはステップＳ５０５に進む。

ステップＳ５０５では、回線の能力を判別し、回線の能力が高いときはステップＳ５０７に進み、低いときはステップＳ５０９に進む。ステップＳ５０７およびＳ５０９の両ステップとも、回線が混雑しているかを判別し、ステップＳ５０７において、回線が混雑していないと判別されればステップＳ５５１に進んで全体データおよび代表データを選択対象と判定し、ステップＳ５０９において、回線が混雑していると判別されればステップＳ５５３に進んで代表データを選択対象とする。また、ステップＳ５０７において回線が混雑していると判別されたとき、およびステップＳ５０９において回線が混雑していないと判別されたときは、ステップＳ５５５に進んで全体データを選択対象とする。

また、ユーザ要求による判定処理ＳＲ−Ｊでは、まずステップＳ６０１において、ユーザ要求が代表データのみであるかを判別し、ＹＥＳであればステップＳ５５３に進んで代表データのみを選択対象とし、ＮＯであればステップＳ６０３に進む。ステップＳ６０３では、ユーザ要求が全体データのみであるかを判別し、ＹＥＳであればステップＳ５５５に進んで全体データのみを選択対象とし、ＮＯであればステップＳ５５１に進んで全体データおよび代表データの両方を選択対象とする。

〔第１８の実施の形態〕
以下、本発明に係る第１８の実施の形態について述べる。図１２２は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、５０１は選択ステップを、５０３は抽出ステップを、５１５は構成ステップを表す。なお、選択ステップ５０１および抽出ステップ５０３は、第１４の実施の形態に示した選択ステップおよび抽出ステップと同様であるため説明を省略する。

構成ステップ５１５は、抽出ステップ５０３が抽出した選択区間のデータからメディアコンテンツのストリームを構成するステップである。特に、構成ステップ５１５は、抽出ステップ５０３が出力したデータを多重化してストリームを構成する。

〔第１９の実施の形態〕
以下、本発明に係る第１９の実施の形態について述べる。図１２３は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、５０１は選択ステップを、５０３は抽出ステップを、５１５は構成ステップを、５１７は配送ステップを表す。なお、選択ステップ５０１および抽出ステップ５０３は、第１４の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ５１５は第１８の実施の形態に示した構成ステップと同様であるため説明を省略する。

配送ステップ５１７は、構成ステップ５１５が構成したストリームを回線を通じて配送するステップである。なお、配送ステップ５１７は配送する回線状況を判断するステップを有し、構成ステップ５１５は配送ステップ５１７が判断した回線状況からファイルを構成するデータ量を調整するステップを有しても良い。

〔第２０の実施の形態〕
以下、本発明に係る第２０の実施の形態について述べる。図１２４は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、５０１は選択ステップを、５０３は抽出ステップを、５１５は構成ステップを、５１９は記録ステップを、５２１はデータ記録媒体を表す。記録ステップ５１９は、構成ステップ５１５が構成したストリームをデータ記録媒体５２１に記録するステップである。また、データ記録媒体５２１は、メディアコンテンツとその文脈内容記述データおよび物理内容記述データを記録するものであり、ハードディスクやメモリ、ＤＶＤ−ＲＡＭなどである。なお、選択ステップ５０１および抽出ステップ５０３は、第１４の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ５１５は第１８の実施の形態に示した構成ステップと同様であるため説明を省略する。

〔第２１の実施の形態〕
以下、本発明に係る第２１の実施の形態について述べる。図１２５は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、５０１は選択ステップを、５０３は抽出ステップを、５１５は構成ステップを、５１９は記録ステップを、５２１はデータ記録媒体を、５２３はデータ記録媒体管理ステップを表す。データ記録媒体管理ステップ５２３は、データ記録媒体５２１の残容量によって、すでに蓄積したメディアコンテンツおよび／または新規に蓄積するメディアコンテンツの再編成を行うステップである。より詳しくは、データ記録媒体管理ステップ５２３は、データ記録媒体５２１の残容量が少ないとき、新たに蓄積するコンテンツを編集が行われた後に蓄積する処理、および、すでに蓄積されているメディアコンテンツに対して、その文脈内容記述データと物理内容記述データとを選択ステップ５０１へ送り、前記メディアコンテンツと物理内容記述データとを抽出ステップ５０３へ送ることによって、このメディアコンテンツを再編成し、再編成したメディアコンテンツをデータ記録媒体５２１に記録すると共に、再編成前のメディアコンテンツを削除する処理の少なくとも一方を行う。

なお、選択ステップ５０１および抽出ステップ５０３は、第１４の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ５１５は第１８の実施の形態に示した構成ステップと同様であり、記録ステップ５１９およびデータ記録媒体５２１は第１９の実施の形態に示した記録ステップおよびデータ記録媒体と同様であるため説明を省略する。

〔第２２の実施の形態〕
以下、本発明に係る第２２の実施の形態について述べる。図１２６は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、５０１は選択ステップを、５０３は抽出ステップを、５１５は構成ステップを、５１９は記録ステップを、５２１はデータ記録媒体を、５２５は蓄積コンテンツ管理ステップを表す。蓄積コンテンツ管理ステップ５２５は、データ記録媒体５２１に蓄積されているメディアコンテンツを、その蓄積期間によって再編成を行うステップである。より詳しくは、蓄積コンテンツ管理ステップ５２５は、データ記録媒体５２１に蓄積されたメディアコンテンツを管理して、一定の蓄積期間に達したメディアコンテンツに対して、その文脈内容記述データと物理内容記述データとを選択ステップへ５０１に送り、前記メディアコンテンツと物理内容記述データとを抽出ステップ５０３に送ることによって、このメディアコンテンツを再編成し、再編成したメディアコンテンツをデータ記録媒体５２１に記録すると共に、再編成前のメディアコンテンツを削除するステップである。

以上の第１４〜第２２の実施の形態における選択ステップ５０１，５１３、抽出ステップ５０３、再生ステップ５０５、映像選択ステップ５０７、音選択ステップ５０９、判定ステップ５１１、構成ステップ５１５、配送ステップ５１７、記録ステップ５１９、データ記録媒体管理ステップ５２３および蓄積コンテンツ管理ステップ５２５は、それぞれ選択手段、抽出手段、再生手段、映像選択手段、音選択手段、判定手段、構成手段、配送手段、記録手段、データ記録媒体管理手段および蓄積コンテンツ管理手段として、これらの一部または全てを有したデータ処理装置として実現できる。

なお、上記実施の形態においては、メディアコンテンツとして、映像情報や音情報以外のテキストデータ等のデータストリームを含んでも良い。また、上記実施の形態の各ステップは、ステップの全てまたは一部の動作をコンピュータで実行するためのプログラムをプログラム格納媒体に格納し、コンピュータを用いてソフトウェア的に実現することも、それらステップの機能を発揮する専用のハード回路を用いて実現しても構わない。

なお、上記実施の形態においては、文脈内容記述データと物理内容記述データをそれぞれ別の実体で記述したが、図１２７〜図１３２に示すように、ひとつにまとめたものを用いても良い。

以上説明したように、上述のデータ処理装置、データ処理方法、記録媒体およびプログラムによれば、階層構造の文脈内容記述データを用いて、選択手段（選択ステップ）により、文脈内容記述データに付加されたスコアに基づいてメディアコンテンツ中の少なくとも１つの区間を選択しており、特に、抽出手段（抽出ステップ）によって、選択手段（選択ステップ）が選択した区間に対応するデータのみを抽出するか、再生手段（再生ステップ）によって、選択手段（選択ステップ）が選択した区間に対応するデータのみを再生している。

このため、より重要なシーンをメディアコンテンツの中から自由に選択することができ、この重要な選択された区間を抽出または再生することができる。また、文脈内容記述データが最上位層、最下位層およびその他の層から構成された階層構造であるため、章や節など任意の単位でシーンを選択することができ、ある節を選択してその中の不要な段落は削除するなど、多様な選択形式をとることができる。

また、スコアをメディアコンテンツの文脈内容に基づいた重要度を示すものとすることによって、このスコアを重要な場面を選択するよう設定しておくことによって、例えば、番組などのハイライトシーン集などの作成を容易に行うことができ、また、スコアを該当する場面におけるキーワードの観点に基づいた重要度を示すものとし、キーワードを決定することによってより自由度の高い区間の選択を行うことができる。例えば、キーワードを登場人物や事柄などの特定の観点によって決定することによって、ユーザが見たい場面だけを選び出すことができる。

また、メディアコンテンツが同一時間においてそれぞれ異なる複数のメディア情報を有しているとき、判定手段（判定ステップ）が、判定条件からどのメディア情報を選択対象とするかを判定し、選択手段（選択ステップ）が判定手段（判定ステップ）によって判定されたデータからのみ選択処理を行っている。このため、判定手段（判定ステップ）は、判定条件に応じて、最適な区分のメディア情報を判定することができるため、選択手段（選択ステップ）は適切なデータ量のメディア情報を選択することができる。

また、判定手段（判定ステップ）が、判定条件から映像情報のみ、音情報のみ、または映像情報および音情報のいずれかを選択対象とするかを判定しているため、選択手段（選択ステップ）が行う区間の選択のために要する時間を短縮することができる。

また、文脈内容記述データに代表データが属性として付加され、判定手段は、これら判定条件に応じて、最適な区分のメディア情報または代表データを判定することができる。

さらに、判定手段（判定ステップ）が、判定条件に応じて、該当するメディアセグメントの全体データのみ、代表データのみ、または全体データおよび代表データ両方のいずれかを選択対象と判定しているため、判定手段（判定ステップ）は、選択手段（選択ステップ）が行う区間の選択のために要する時間を短縮することができる。

本発明は、必要とする場面をメディアコンテンツの中から自由に選択することができるデータ処理装置、データ処理方法、記録媒体およびプログラム等に有用である。

本発明の第１の実施の形態におけるデータ処理方法のブロック図である。本発明の第１の実施の形態における文脈内容記述データのデータ構造を表す図である。本発明の第１の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の一例である。図３の文脈内容記述データの続きの部分である。図４の続き部分である。図５の続き部分である。図６の続き部分である。図７の続き部分である。図８の続き部分である。図３〜図９の文脈内容記述データに代表データを追加したXML文書の一部分と、該文脈内容記述データをコンピュータ上で表現するXMLで書かれたDTDの一例である。図１０の文脈内容記述データの続きの部分である。図１１の続き部分である。図１２の続き部分である。図１３の続き部分である。図１４の続き部分である。図１５の続き部分である。図１６の続き部分である。図１７の続き部分である。図１８の続き部分である。図１９の続き部分である。図２０の続き部分である。本発明の第１の実施の形態における重要度の付け方を表す説明図である。本発明の第１の実施の形態における選択ステップの処理のフローチャートである。本発明の第１の実施の形態における抽出ステップの構成図である。本発明の第１の実施の形態における抽出ステップの分離手段の処理のフローチャートである。本発明の第１の実施の形態における抽出ステップのビデオスキミング手段の処理のフローチャートである。 MPEG1ビデオストリームの構成図である。本発明の第１の実施の形態における抽出ステップのオーディオスキミング手段の処理のフローチャートである。 MPEGオーディオのAAUの構成図である。本発明の第１の実施の形態における応用のブロック図である。本発明の第２の実施の形態における重要度の処理の説明図である。本発明の第２の実施の形態における選択ステップの処理のフローチャートである。本発明の第３の実施の形態における選択ステップの処理のフローチャートである。本発明の第４の実施の形態における重要度の付け方を表す説明図である。本発明の第４の実施の形態における選択ステップの処理のフローチャートである。本発明の第５の実施の形態におけるデータ処理方法のブロック図である。本発明の第５の実施の形態における物理内容記述データのデータ構造を表す図である。本発明の第５の実施の形態における文脈内容記述データのデータ構造を表す図である。本発明の第５の実施の形態における物理内容記述データをコンピュータ上で表現するXMLのDTDと、XML文書の一例である。本発明の第５の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XML文書の一例の前半部である。図４０の文脈内容記述データの続きの部分である。図４１の続き部分である。図４２の続き部分である。図４３の続き部分である。図４４の続き部分である。本発明の第５の実施の形態における選択ステップの出力の一例である。本発明の第５の実施の形態における抽出ステップのブロック図である。本発明の第５の実施の形態における抽出ステップのインターフェース手段の処理のフローチャートである。本発明の第５の実施の形態における抽出ステップのインターフェース手段が選択ステップの出力を変換した結果の一例である。本発明の第５の実施の形態における抽出ステップの分離手段の処理のフローチャートである。本発明の第５の実施の形態における抽出ステップのビデオスキミング手段の処理のフローチャートである。本発明の第５の実施の形態における抽出ステップのオーディオスキミング手段の処理のフローチャートである。本発明の第５の実施の形態における抽出ステップのビデオスキミング手段のもうひとつの処理のフローチャートである。本発明の第６の実施の形態におけるデータ処理方法のブロック図である。本発明の第６の実施の形態における構成ステップと配送ステップのブロック図である。本発明の第７の実施の形態におけるデータ処理方法のブロック図である。本発明の第７の実施の形態における文脈内容記述データのデータ構造を表す図である。本発明の第７の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の一例である。図５８の文脈内容記述データの続きの部分である。図５９の続き部分である。図６０の続き部分である。図６１の続き部分である。図６２の続き部分である。図６３の続き部分である。図６４の続き部分である。図６５の続き部分である。図５８〜図６６の文脈内容記述データに代表データを追加したXML文書の一部分と、該文脈内容記述データをコンピュータ上で表現するXMLで書かれたDTDの一例である。図６７の文脈内容記述データの続きの部分である。図６８の続き部分である。図６９の続き部分である。図７０の続き部分である。図７１の続き部分である。図７２の続き部分である。図７３の続き部分である。図７４の続き部分である。図７５の続き部分である。図７６の続き部分である。図７７の続き部分である。図７８の続き部分である。図７９の続き部分である。本発明の第７の実施の形態における選択ステップの処理のフローチャートである。本発明の第７の実施の形態における応用のブロック図である。本発明の第８の実施の形態における選択ステップの処理のフローチャートである。本発明の第９の実施の形態における選択ステップの処理のフローチャートである。本発明の第１０の実施の形態における選択ステップの処理のフローチャートである。本発明の第１２の実施の形態におけるデータ処理方法のブロック図である。本発明の第１２の実施の形態における文脈内容記述データのデータ構造を表す図である。本発明の第５の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XML文書の一例の一部である。図８８の一例の続きの部分である。図８９の一例の続きの部分である。図９０の一例の続きの部分である。図９１の一例の続きの部分である。図９２の一例の続きの部分である。図９３の一例の続きの部分である。図９４の続きの部分である。図９５の続きの部分である。本発明の第１３の実施の形態におけるデータ処理方法のブロック図である。本発明の第１４の実施の形態におけるデータ処理方法のブロック図である。本発明の第１５の実施の形態におけるデータ処理方法のブロック図である。本発明の第１６の実施の形態におけるデータ処理方法のブロック図である。本発明の第１７の実施の形態におけるデータ処理方法のブロック図である。チャネルおよびレイヤーを示す説明図である。物理内容記述データをXMLで記述するためのDTDと、該DTDによる物理内容記述データの一部分の一例である。図１０３の物理内容記述データの続きの部分である。第１７の実施の形態の実施例１の判定ステップの処理を示すフローチャートである。第１７の実施の形態の実施例１の判定ステップが行うユーザ要求による判定処理を示すフローチャートである。第１７の実施の形態の実施例１の判定ステップが行う映像情報に関する判定処理を示すフローチャートである。第１７の実施の形態の実施例１の判定ステップが行う音情報に関する判定処理を示すフローチャートである。第１７の実施の形態の実施例２の判定ステップの処理を示すフローチャートの一部である。第１７の実施の形態の実施例２の判定ステップの処理を示すフローチャートの一部である。第１７の実施の形態の実施例３の判定ステップの処理を示すフローチャートである。第１７の実施の形態の実施例３の判定ステップが行う映像情報に関する判定処理を示すフローチャートである。第１７の実施の形態の実施例３の判定ステップが行う音情報に関する判定処理を示すフローチャートである。第１７の実施の形態の実施例４の判定ステップの処理を示すフローチャートの一部である。第１７の実施の形態の実施例４の判定ステップの処理を示すフローチャートの一部である。第１７の実施の形態の実施例４の判定ステップが行うユーザ要求による判定処理を示すフローチャートである。第１７の実施の形態の実施例４の判定ステップが行う映像情報に関する判定処理を示すフローチャートである。第１７の実施の形態の実施例４の判定ステップが行う音情報に関する判定処理を示すフローチャートである。第１７の実施の形態の実施例５の判定ステップの処理を示すフローチャートの一部である。第１７の実施の形態の実施例５の判定ステップの処理を示すフローチャートの一部である。第１７の実施の形態の実施例５の判定ステップが行うユーザ要求による判定処理を示すフローチャートである。本発明の第１８の実施の形態におけるデータ処理方法のブロック図である。本発明の第１９の実施の形態におけるデータ処理方法のブロック図である。本発明の第２０の実施の形態におけるデータ処理方法のブロック図である。本発明の第２１の実施の形態におけるデータ処理方法のブロック図である。本発明の第２２の実施の形態におけるデータ処理方法のブロック図である。文脈内容記述データと物理内容記述データとをひとつにまとめたDTDと、XML文書の一例である。図１２７のXML文書の続きの部分である。図１２８の続き部分である。図１２９の続き部分である。図１３０の続き部分である。図１３１の続き部分である。本発明の第１１の実施の形態における文脈内容記述データのデータ構造を表す図である。本発明の第１１の実施の形態における観点を表す図である。本発明の第１１の実施の形態における重要度を表す図である。本発明の第１１の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の一例である。図１３６の文脈内容記述データの続きの部分である。図１３７の続き部分である。図１３８の続き部分である。図１３９の続き部分である。図１４０の続き部分である。図１４１の続き部分である。図１４２の続き部分である。図１４３の続き部分である。図１４４の続き部分である。図１４５の続き部分である。図１４６の続き部分である。図１４７の続き部分である。図１４８の続き部分である。図１４９の続き部分である。図１５０の続き部分である。図１５１の続き部分である。図１５２の続き部分である。図１５３の続き部分である。図１５４の続き部分である。図１５５の続き部分である。図１５６の続き部分である。図１５７の続き部分である。図１５８の続き部分である。図１５９の続き部分である。図１６０の続き部分である。図１６１の続き部分である。図１６２の続き部分である。本発明の第１１の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の他の例である。図１６４の文脈内容記述データの続きの部分である。図１６５の文脈内容記述データの続きの部分である。図１６６の文脈内容記述データの続きの部分である。図１６７の文脈内容記述データの続きの部分である。図１６８の文脈内容記述データの続きの部分である。図１６９の文脈内容記述データの続きの部分である。図１７０の文脈内容記述データの続きの部分である。図１７１の文脈内容記述データの続きの部分である。図１７２の文脈内容記述データの続きの部分である。図１７３の文脈内容記述データの続きの部分である。図１７４の文脈内容記述データの続きの部分である。図１７５の文脈内容記述データの続きの部分である。図１７６の文脈内容記述データの続きの部分である。図１７７の文脈内容記述データの続きの部分である。図１７８の文脈内容記述データの続きの部分である。図１７９の文脈内容記述データの続きの部分である。図１８０の文脈内容記述データの続きの部分である。図１８１の文脈内容記述データの続きの部分である。図１８２の文脈内容記述データの続きの部分である。図１８３の文脈内容記述データの続きの部分である。図１８４の文脈内容記述データの続きの部分である。図１８５の文脈内容記述データの続きの部分である。図１８６の文脈内容記述データの続きの部分である。図１８７の文脈内容記述データの続きの部分である。図１８８の文脈内容記述データの続きの部分である。図１８９の文脈内容記述データの続きの部分である。図１９０の文脈内容記述データの続きの部分である。図１９１の文脈内容記述データの続きの部分である。図１９２の文脈内容記述データの続きの部分である。図１９３の文脈内容記述データの続きの部分である。図１９４の文脈内容記述データの続きの部分である。図１９５の文脈内容記述データの続きの部分である。本発明の第１１の実施の形態における他の態様の文脈内容記述データのデータ構造を表す図である。本発明の第１１の実施の形態における、図１９７に対応した、文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の一例である。図１９８の文脈内容記述データの続きの部分である。図１９９の続き部分である。図２００の続き部分である。図２０１の続き部分である。図２０２の続き部分である。図２０３の続き部分である。図２０４の続き部分である。図２０５の続き部分である。図２０６の続き部分である。図２０７の続き部分である。図２０８の続き部分である。図２０９の続き部分である。図２１０の続き部分である。図２１１の続き部分である。図２１２の続き部分である。図２１３の続き部分である。図２１４の続き部分である。図２１５の続き部分である。図２１６の続き部分である。図２１７の続き部分である。図２１８の続き部分である。図２１９の続き部分である。図２２０の続き部分である。図２２１の続き部分である。本発明の第１１の実施の形態における、図１９７に対応した、文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の他の例である。図２２３の文脈内容記述データの続きの部分である。図２２４の続き部分である。図２２５の続き部分である。図２２６の続き部分である。図２２７の続き部分である。図２２８の続き部分である。図２２９の続き部分である。図２３０の続き部分である。図２３１の続き部分である。図２３２の続き部分である。図２３３の続き部分である。図２３４の続き部分である。図２３５の続き部分である。図２３６の続き部分である。図２３７の続き部分である。図２３８の続き部分である。図２３９の続き部分である。図２４０の続き部分である。図２４１の続き部分である。図２４２の続き部分である。図２４３の続き部分である。図２４４の続き部分である。図２４５の続き部分である。図２４６の続き部分である。図２４７の続き部分である。図２４８の続き部分である。図２４９の続き部分である。図２５０の続き部分である。図２５１の続き部分である。

符号の説明

１０１選択ステップ
１０２抽出ステップ
５０１，５１３選択ステップ
５０３抽出ステップ
５０５再生ステップ
５０７映像選択ステップ
５０９音選択ステップ
５１１判定ステップ
５１５構成ステップ
５１７配送ステップ
５１９記録ステップ
５２３データ記録媒体管理ステップ
５２５蓄積コンテンツ管理ステップ
６０１分離手段
６０２ビデオスキミング手段
６０３オーディオスキミング手段
１３０１節<section>
１３０２節<section>
１３０１節<section>
１３０１葉<segment>
１８０１選択ステップ
１８０２抽出ステップ
１８０３構成ステップ
１８０４配送ステップ
１８０５データベース
２４０１インターフェース手段
２４０２分離手段
２４０３ビデオスキミング手段
２４０４オーディオスキミング手段
３１０１選択ステップ
３１０２抽出ステップ
３１０３構成ステップ
３１０４配送ステップ
３１０５データベース
３２０１ストリーム選択手段
３２０２多重化手段
３２０３状況判定手段
３２０４配送手段
４１０１選択ステップ
４１０２抽出ステップ
４１０３構成ステップ
４１０４配送ステップ
４１０５データベース
４４０１選択ステップ
４４０２抽出ステップ
４４０３構成ステップ
４４０４配送ステップ
４４０５データベース

Claims

複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、前記複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも１つのキーワードによって表される観点と、前記観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも１つ記述されている属性部との両方を有する文脈内容記述データを入力する入力部と、
前記属性部に記述されている前記観点及び前記スコアの少なくとも一つに基づいて、前記データ構造部からセグメントを選択する選択部と、
を備えるデータ処理装置。
前記メディアコンテンツの各場面は、場面の区切りに応じて時間によって区切られ、前記属性部には、前記複数のセグメントの各々に割り当てられる属性情報として、場面の区切りを表す時間情報が記述されている請求項１記載のデータ処理装置。
前記属性部は、前記観点と前記スコアの組が１つのセグメントに複数記述されている請求項１または２に記載のデータ処理装置。
前記選択部は、前記属性部に記述されている前記スコアと前記時間情報に基づいてセグメントを選択する際に、その選択されたセグメントの継続時間の和が設定時間以下になるように選択する請求項２に記載のデータ処理装置。
前記選択部は、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つと、その時間情報に基づいてセグメントを選択する際に、その選択されたセグメントの継続時間の和が設定時間以下になるように選択する請求項２に記載のデータ処理装置。
前記選択部は、前記スコアが大きい順にセグメントを選択する請求項４または５に記載のデータ処理装置。
前記データ構造部には、前記複数のセグメントが階層的に記述されている請求項１乃至６のいずれかに記載のデータ処理装置。
前記属性部には、文脈内容に関する補助情報が記述された請求項１乃至７のいずれかに記載のデータ処理装置。
文脈内容記述データを入力する入力部と、前記文脈内容記述データからセグメントを選択する選択部とを有するデータ処理装置のデータ処理方法であって、
前記入力部が、複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、前記複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも１つのキーワードによって表される観点と、前記観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも１つ記述されている属性部との両方を有する文脈内容記述データを入力する入力ステップと、
前記選択部が、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つに基づいて、前記データ構造部からセグメントを選択する選択ステップと、
を有するデータ処理方法。
前記メディアコンテンツの各場面は、場面の区切りに応じて時間によって区切られ、前記属性部には、前記複数のセグメントの各々に割り当てられる属性情報として、場面の区切りを表す時間情報が記述されている請求項９記載のデータ処理方法。
複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、前記複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも１つのキーワードによって表される観点と、前記観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも１つ記述されている属性部との両方を有する文脈内容記述データを入力する入力ステップと、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つに基づいて、前記データ構造部からセグメントを選択する選択ステップとをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記憶媒体。
前記メディアコンテンツの各場面は、場面の区切りに応じて時間によって区切られ、前記属性部には、前記複数のセグメントの各々に割り当てられる属性情報として、場面の区切りを表す時間情報が記述されている請求項１１記載のプログラムを記録したコンピュータ読み取り可能な記憶媒体。