以下、図面を参照しながら、本発明の実施の形態について説明する。
〔第1の実施の形態〕
以下、本発明に係る第1の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における文脈内容に基づいた客観的な重要度とする。
図1は、本実施の形態におけるデータ処理方法のブロック図である。図1において、101は選択ステップを、102は抽出ステップを表す。選択ステップ101は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間を出力する処理を行う。また、抽出ステップ102は、選択ステップ101が出力した開始時間と終了時間によって区切られるメディアコンテンツの区間のデータを抽出する処理を行う。
図2に、本実施の形態の文脈内容記述データの構成を示す。本実施の形態では、文脈内容を木構造で記述する。また、木構造の兄弟関係は、左から時間順にならんでいるものとする。図2において、<contents>と記されている木構造の根(root)は、ひとつのコンテンツを表し、属性としてそのコンテンツのタイトルが付けられる。
<contents>の子要素は、<section>である。<section>には、該当場面の文脈内容上の重要度を表すpriorityが属性として付加される。重要度は1から5までの整数値とし、1が最も重要度が低く、5が最も重要度が高い、とする。
<section>の子要素は、<section>か<segment>である。すなわち、<section>は、それ自身を子要素としても良いとする。ただし、ひとつの<section>の子要素として、<section>と<segment>を混在させてはならないこととする。
<segment>は、ひとつのシーンカットを表し、<section>と同様のpriorityと、該当シーンの時間情報として、開始時間を表すstartと、終了時間を表すendとが、属性として付加される。シーンカットの方法は、市販されていたり、ネットワークで流通しているソフトを用いても良いし、人手で行っても良い。なお、本実施の形態では、時間情報をシーンカットの開始時間と終了時間としたが、時間情報として開始時間と該当シーンの継続時間としても同様の効果が得られる。この場合、該当シーンの終了時間は、開始時間に継続時間を加算して求められる。
この文脈内容記述データにより、映画などの物語の場合は、多階層の<section>により、章、節、段落などを記述することができる。もうひとつの例として野球を記述する場合、最上位の<section>で回を記述し、その子要素の<section>で表裏を記述し、その子要素の<section>で各打者の場面を記述し、さらにその子要素の<section>で、各投球やその合間、その打席の結果などを記述することができる。
この構成の文脈内容記述データをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。XMLはWorld Wide Web Consortiumによって標準化が進められているデータ記述言語であり、1998年2月10日にVer. 1.0が勧告された。XML ver. 1.0の仕様書は、http://www.w3.org/TR/1998/REC-xml-19980210で得られる。図3〜図9は、本実施の形態の文脈内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる文脈内容記述データの一例である。また、図10〜図19は、図3〜図9に示す文脈内容記述データに、代表画像(映像情報)やキーワード(音情報)などのメディアセグメントの代表データ(dominant-data)を追加した文脈内容記述データの一例と、該文脈内容記述データをXMLで記述するためのDTDである。
以下、選択ステップ101での処理について説明する。選択ステップ101での処理は、文脈内容記述データの形式、および各場面の文脈内容におけるスコアの付け方と密接に関係するものである。本実施の形態では、選択ステップ101は図22に示すような<segment>を子要素にもつ<section>のみに着目し(図23のS1、S4、S5)、そのpriorityの値があるしきい値より大きい<section>を選択し(図23のS2)、その開始時間と終了時間を出力する処理(図23のS3)を行うこととする。そのため、<segment>を子要素に持つ<section>のpriorityは、コンテンツ内すべての<segment>を子要素に持つ<section>の間での重要度とする。すなわち、図22における点線で囲んだ<section>の中での重要度をpriorityに設定する。これ以外の<section>、<segment>のpriorityの付け方は任意とする。なお、重要度はすべて異なる値である必要はなく、異なる要素に同じ値の重要度が付いてよいとする。図23に、本実施の形態における選択ステップでの処理のフローチャートを示す。選択された<section>に関しては、その子要素である<segment>から、該当<section>で表現される場面の開始時間と終了時間を調べる。そして、その開始時間と終了時間を出力する。
なお、本実施の形態では、<segment>を子要素として持つ<section>に着目して処理を行ったが、ほかに<segment>に着目して、それらの選択を行っても良い。この場合、priorityは、コンテンツ内すべての<segment>間での重要度とする。また、<segment>を子要素として持たない上位層の<section>のうち、同じ階層のものに着目して、その選択を行っても良い。すなわち、<contents>あるいは<segment>から数えて同じ経路数の<section>に着目した処理を行っても良い。
以下、図24を参照しながら、抽出ステップ102の動作について説明する。図24は、本実施の形態に係わる抽出ステップ102のブロック図である。図24において、本実施の形態における抽出ステップ102は、分離手段601と、ビデオスキミング手段602と、オーディオスキミング手段603とから構成される。本実施の形態においては、メディアコンテンツとしてMPEG1システムストリームを想定している。MPEG1システムストリームはビデオストリームとオーディオストリームが多重化されたものであり、分離手段601は、多重化されたシステムストリームをビデオストリームとオーディオストリームとに分離するものである。ビデオスキミング手段602は、分離されたビデオストリームと選択ステップ101の出力である区間を入力とし、入力されたビデオストリームから、選択された区間のデータだけを出力するものである。オーディオスキミング手段603は、分離されたオーディオストリームと選択ステップ101の出力である区間を入力とし、入力されたオーディオストリームから、選択された区間のデータだけを出力するものである。
以下、図を参照しながら、分離手段601の処理について説明する。図25に分離手段601の処理のフローチャートを示す。MPEG1システムストリームの多重化方式は、国際標準ISO/IEC IS 11172-1で標準化されたものであり、ビデオストリームとオーディオストリームがパケットにより多重化されている。パケットによる多重化は、ビデオストリーム、オーディオストリームそれぞれを、パケットと呼ばれる適当な長さのストリームに分割し、ヘッダなどの付加情報を付けて行うものである。この時、ビデオストリームとオーディオストリームは、それぞれ複数あっても良いとされている。パケットのヘッダには、ビデオ、オーディオを区別することができるストリームidや、ビデオとオーディオの同期をとるためのタイムスタンプが記述されている。ストリームidは、ビデオとオーディオの区別だけでなく、ビデオが複数あった場合、どのストリームであるかの区別することができるものである。同様に、オーディオストリームが複数あった場合にも、区別することができるものである。MPEG1システムでは、パケットを複数束ねたパックという単位で構成される。パックには、多重化レートや同期再生用の時間基準参照用の付加情報などがヘッダとして付加されている。さらに先頭のパックには、多重化したビデオストリーム数やオーディオストリーム数などの付加情報がシステムヘッダとして付けられている。分離手段601は、まず先頭のパックのシステムヘッダから、多重化されているビデオストリーム数とオーディオストリーム数を読みとり(S1、S2)、各ストリームのデータを保存する領域を確保する(S3、S4)。続いて、各パケットごとにストリームidを調べ、該当ストリームidで指定されるストリームを保存するデータ領域にパケットデータを書き込む(S5、S6)。すべてのパケットに対して以上の処理を繰り返す(S8、S9、S10)。すべてのデータに対して処理を行った後、各ストリーム毎に、ビデオストリームはビデオスキミング手段602へ、オーディオストリームはオーディオスキミング手段603へ出力する(S11)。
以下、ビデオスキミング手段602の動作について述べる。図26にビデオスキミング手段602の処理のフローチャートを示す。MPEG1のビデオストリームは、国際標準ISO/IEC IS 11172-2で標準化されたものであり、図27に示すように、シーケンス層、GOP層、ピクチャ層、スライス層、マクロブロック層、ブロック層で構成されている。そのランダムアクセスの最小単位はGOP(Group Of Pictures)層である。また、ピクチャ層のひとつが1フレームに相当する。ビデオスキミング手段602は、GOP単位のデータ処理を行う。初期化処理として、出力したフレーム数のカウンタCを0とする(S3)。まず、ビデオスキミング手段602は、ビデオストリームの先頭がシーケンス層のヘッダであることを確認し(S2、S4)、そのデータを保存するとともに(S5)、そのヘッダのデータを出力する。シーケンス層のヘッダは以降も現れる場合があるが、その値は量子化マトリックス以外は変更が許されないため、シーケンスヘッダが入力されるたびに値の比較を行って(S8、S14)、量子化マトリックス以外の値が異なる場合はエラーとする(S15)。続いてビデオスキミング手段602は、入力されたデータからGOP層のヘッダを検出する(S9)。GOP層のヘッダにはタイムコードのデータが記述されている(S10)。これは、シーケンスの先頭からの時間を記述したものである。ビデオスキミング手段602は、このタイムコードと選択ステップ101が出力した区間(S1)との比較を行う(S11)。タイムコードが選択された区間に含まれていない場合、ビデオスキミング手段602は、次のGOP層またはシーケンス層が現れるまでのデータをすべて廃棄する。タイムコードが選択された区間の中に含まれている場合、ビデオスキミング手段602は、この次のGOP層あるいはシーケンス層が現れるまでのデータをすべて出力する(S13)。ただし、それまで出力されたデータとの連続性を持たせるために、GOP層のタイムコードを変更する必要がある(S12)。そこで、カウンタCの値を用いて変更するタイムコードを求める。カウンタCは、それまでに出力されたフレーム数であるため、今回出力するGOP層の先頭フレームが表示される時間Tvは、Cとシーケンスヘッダに記述されている毎秒の表示画面数であるピクチャレートprを用いて、以下の式(1)により求められる。
Tv=C/pr ・・・(1)
Tvは1/pr秒単位の値であるため、これをMPEG1のタイムコードのフォーマットにしたがって変換し、今回出力するGOP層のタイムコードに設定する。また、GOP層のデータを出力するときに、出力したピクチャ層の数をカウンタCに加算する。以上の処理を、ビデオストリームの最後まで繰り返す(S7、S16)。分離手段601から複数のビデオストリームが出力された場合は、上記の処理を各ビデオストリーム毎に行う。
以下、オーディオスキミング手段603の処理について記述する。図28にオーディオスキミング手段603の処理のフローチャートを示す。MPEGオーディオは国際標準ISO/IEC IS 11172-3で標準化されたものであり、AAU(Audio Access Unit)と呼ばれるフレームから構成される。図29にAAUの構造を示す。AAUはひとつひとつ独立でオーディオデータに復号できる最小単位であり、常に一定のサンプル数Snのデータで構成されている。したがって伝送速度であるビットレートbrと、サンプリング周波数Fsと、AAUのビット数Lから、1AAUの再生時間を算出することができる。まず、オーディオストリームからAAUのヘッダを検出することによって(S2、S5)、1AAUのビット数Lを求めることができる。また、AAUのヘッダには、ビットレートbrとサンプリング周波数Fsが記述されている。1AAUのサンプル数Snは以下の式(2)によって求められる。
Sn=(L×Fs)/br ・・・(2)
また、1AAUの再生時間Tuは以下の式(3)によって求められる(S3)。
Tu=Sn/Fs=L/Br ・・・(3)
Tuを求めると、AAUの個数をカウントすることによって、ストリームの先頭からの時間を得ることができる。オーディオスキミング手段603は、それまで現れたAAUの個数をカウントし、その先頭からの時間を算出する(S7)。その時間と、選択ステップ101が出力した区間との比較を行う(S8)。AAUの出現時間が選択された区間に含まれる場合、オーディオスキミング手段603はそのAAUのデータをすべて出力する(S9)。また、AAUの出現時間が選択された区間に含まれていない場合、オーディオスキミング手段603はそのAAUのデータを廃棄する。以上の処理を、オーディオストリームの最後まで繰り返す(S6、S11)。分離手段601から複数のオーディオストリームが出力された場合は、各オーディオストリーム毎に上記の処理を行う。
本実施の形態の効果としては、図30に示すように、抽出ステップ102の出力であるビデオストリームとオーディオストリームをそれぞれビデオ再生手段、オーディオ再生手段に入力させ、ビデオストリームとオーディオストリームを同期させて再生することにより、該当メディアコンテンツのあらすじやハイライトシーンを再生することができる。また、上記得られたビデオストリームとオーディオストリームを多重化することによって、該当メディアコンテンツのあらすじやハイライトシーン集のMPEG1システムストリームを作成することができる。
〔第2の実施の形態〕
以下、本発明に係る第2の実施の形態について述べる。本実施の形態は、第1の実施の形態と比較して、選択ステップの処理のみが異なるものである。
以下、図を参照しながら本実施の形態における選択ステップ101の処理について記述する。本実施の形態における選択ステップ101では、最上位の<section>から葉である<segment>まですべてのpriorityを利用する。<section>、<segment>の各々のpriorityは、文脈内容における客観的な重要度とする。この処理を図31を参照しながら説明する。図31において、1301は文脈内容記述データにおける最上位の<section>のうちのひとつである。1302は<section>1301の子要素<section>である。1303は<section>1302の子要素<section>である。1304は<section>1303の子要素<segment>である。本実施の形態における選択ステップ101では、<segment>から祖先である最上位の<section>までの経路上すべてのpriorityの相加平均をとり、その値がしきい値以上の<segment>を選択する。図28の例では、<segment>1304と、<section>1303と、<section>1302と、<section>1301との、それぞれの属性priorityの値p4,p3,p2,p1の相加平均paを計算する。paは以下の式(4)によって求められる。
pa=(p1+p2+p3+p4)/4 ・・・(4)
このpaとしきい値との比較を行い(S1、S2)、paがしきい値以上であれば<segment>1304を選択し(S3)、<segment>1304の属性startとendの値を、選択された場面の開始時間と終了時間として出力する(S4)。以上の処理をすべての<segment>に対して行う(S1、S6)。図32に、本実施の形態における選択ステップ101の処理のフローチャートを示す。
なお、本実施の形態では、<segment>から祖先である最上位の<section>までのpriorityの相加平均を算出して、それにより<segment>の選択を行ったが、これを、<segment>を子要素としてもつ<section>から祖先である最上位の<section>までのpriorityの相加平均をとって、しきい値処理により、<segment>を子要素として持つ<section>の選択を行っても良い。同様に、他の階層の<section>から祖先である最上位の<section>までの相加平均をとって、しきい値処理により、その階層の<section>の選択を行っても良い。
〔第3の実施の形態〕
以下、本発明に係る第3の実施の形態について述べる。本実施の形態も、第1の実施の形態と比較して、選択ステップの処理のみが異なるものである。
以下、図を参照しながら本実施の形態における選択ステップ101の処理について記述する。本実施の形態における選択ステップ101は、第1の実施の形態における処理と同様に、<segment>を子要素にもつ<section>のみに着目し、その選択を行う。本実施の形態においては、選択する場面すべての継続時間の和にしきい値を設ける。すなわち、それまでに選択された<section>の継続時間の和が、このしきい値以下で最大となるまで、<section>のpriorityの大きい順に選択を行う。図33に、本実施の形態における選択ステップ101のフローチャートを示す。<segment>を子要素としてもつ<section>の集合をΩとする(S1)。まず、属性priorityをキーとして、Ωの要素<section>を降順にソートする(S2)。Ωから最もpriorityの大きい<section>を選択する(S4、S5)。選択された<section>をΩから除去する。選択された<section>の子要素<segment>をすべて調べることにより、<section>の開始時間と終了時間を求め、<section>の継続時間を計算する(S6)。これまでに選択された<section>の継続時間の和を求め(S7)、しきい値を越えていれば処理を終了する(S8)。しきい値以下であれば、今回選択された<section>の開始時間と終了時間とを出力し(S9)、Ωからpriorityの最も大きい<section>の選択へ返る。この処理を、選択された<section>の継続時間の和がしきい値を越えるか、あるいはΩが空集合となるまで繰り返す(S4、S8)。
なお、本実施の形態では、<segment>を子要素として持つ<section>に着目して処理を行ったが、ほかに<segment>に着目して、それらの選択を行っても良い。この場合、priorityは、コンテンツ内すべての<segment>間での重要度とする。また、<segment>を子要素として持たない<section>のうち同じ階層のものに着目して、その選択を行っても良い。すなわち、<contents>あるいは<segment>から数えて同じ経路数の<section>に着目した処理を行っても良い。
また、第2の実施の形態と同様に、<section>、<segment>の各々のpriorityを文脈内容における客観的な重要度とし、<segment>から祖先である最上位の<section>までのpriorityの相加平均paを計算して、paの大きい順から<segment>を子要素としてもつ<section>、あるいは<segment>を、継続時間の和がしきい値以下の最大となるまで選択する、としても同様の効果が得られる。
〔第4の実施の形態〕
以下、本発明に係る第4の実施の形態について述べる。本実施の形態も、第1の実施の形態と比較して、選択ステップの処理のみが異なるものである。
以下、図を参照しながら本実施の形態における選択ステップ101の処理について記述する。本実施の形態における選択ステップ101は、第1の実施の形態における処理と同様に、<segment>と<segment>を子要素にもつ<section>とに着目し処理を行う。また、本実施の形態においては、第3の実施の形態と同様に、選択する場面すべての継続時間の和にしきい値を設ける。<segment>を子に持つ<section>のpriorityは、第1の実施の形態と同様、コンテンツ内すべての<segment>を子要素に持つ<section>の間での重要度とする。すなわち、図34における点線で囲んだ<section>間での重要度とする。また、<segment>のpriorityは、同じ<section>を親要素に持つ<segment>間での重要度とする。すなわち、図34における一点鎖線で囲んだ中の<segment>間での重要度とする。
図35に本実施の形態における選択ステップ101の処理のフローチャートを示す。まず、<segment>を子要素として持つ<section>の集合をΩとする(S1)。Ωをpriorityをキーとして降順にソートする(S2)。続いて、Ωからpriorityの最も大きい<section>を選択する(S3、S4、S5)。この時、最も重要度の大きい<section>が複数ある場合はすべて選択する。選択された<section>を集合Ω’の要素とし、集合Ωから削除する。選択された<section>の子要素<segment>から、該当<section>で表現される場面の開始時間と終了時間と継続時間を求めて記憶しておく(S6)。<section>が複数選択された場合は、そのすべてに関して、それらを求める。Ω’の要素である<section>の継続時間の総和を求め(S7、S8)、しきい値との比較を行う(S9)。継続時間の総和がしきい値と等しい場合は、記憶しておいた開始時間と終了時間をすべて出力して、処理を終了する(S10)。継続時間の総和がしきい値より小さい場合は、Ωから<section>の選択処理へ返る(S4、S5)。このときΩが空集合の場合は、記憶しておいた開始時間と終了時間をすべて出力して、処理を終了する(S4)。継続時間の総和がしきい値より大きい場合は、以下の処理を行う。集合Ω’の要素のうち、重要度が最も小さい<section>を選択する(S11)。このとき、最も重要度の小さい<section>が複数ある場合は、それらをすべて選択する。選択された<section>の子要素<segment>のうち、最も重要度の小さいものを削除し(S12)、記憶されている該当<section>の開始時間と終了時間と継続時間を変更する(S13)。<segment>の削除によって、場面が分断されることがあるが、この場合は、分断されたそれぞれの開始時間と終了時間と継続時間を記憶しておくこととする。また、<segment>の削除によって、すべての<segment>が削除された<section>がある場合は、その<section>をΩ’から削除する。選択された<section>が複数ある場合は、そのすべてに関してこの処理を行う。<segment>を削除することによって、該当<section>の継続時間が短くなり、継続時間の総和も短くなる。この削除処理を、Ω’の要素の継続時間の総和がしきい値以下になるまで繰り返す。Ω’の要素の継続時間の総和がしきい値以下となった場合は(S14)、記憶している開始時間と終了時間をすべて出力して、処理を終了する(S15)。
なお、本実施の形態においては、<segment>と<segment>を子要素としてもつ<section>に着目して処理を行っているが、<section>とその子要素の<section>、<section>とその子要素の<section>に着目して処理を行っても同様の効果が得られる。
また、継続時間の総和がしきい値を越えた場合の<segment>の削除処理に関して、priorityの小さい<section>から削除を行ったが、<section>のpriorityにしきい値を設け、そのしきい値以下の<section>すべてから最も小さい重要度の<segment>を削除する、としてもよい。さらに、<segment>のpriorityにしきい値を設け、しきい値以下の<segment>を削除する、としても良い。
〔第5の実施の形態〕
以下、本発明に係る第5の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における文脈内容に基づいた客観的な重要度とする。
図36は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図36において、1801は選択ステップを、1802は抽出ステップを、1803は構成ステップを、1804は配送ステップを、1805はデータベースを表す。選択ステップ1801は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行う。抽出ステップ1802は、選択ステップ1801が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行う。構成ステップ1803は、抽出ステップ1802が出力したデータを多重化し、MPEG1システムストリームを構成する処理を行う。配送ステップ1804は、構成ステップ1803が作成したMPEG1システムストリームを、回線を通じて配送する処理を行う。1805はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。
図37に、本実施の形態における物理内容記述データの構成を示す。本実施の形態では、物理内容を木構造で記述する。メディアコンテンツのデータベース1805上の格納形態は、ひとつのメディアコンテンツがひとつのファイルとして格納されているとは限らず、ひとつのメディアコンテンツが複数のファイルに分割されて格納されている場合もある。そこで、物理内容記述データの木構造の根(root)は、<contents>と表記されひとつのコンテンツを表す。根<contents>には、属性として該当コンテンツのタイトルが付けられる。<contents>の子要素は<mediaobject>で、格納されているファイルを表す。<mediaobject>には、属性として格納されているファイルへのリンクlocatorと、文脈内容記述データとの関連付けのために識別子idが属性として付加される。また、メディアコンテンツが複数のファイルで構成されているときのために、該当ファイルがコンテンツ内での順序を表すseqも属性として付加する。
図38に、本実施の形態における文脈内容記述データの構成を示す。これは、第1の実施の形態における文脈内容記述データに、物理内容記述データの<mediaobject>との関連を加えたものである。すなわち、文脈内容記述データの根<contents>の子要素は<mediaobject>で、この<mediaobject>の子要素が<section>となる。<section>、<segment>は第1の実施の形態と同様のものである。文脈内容記述データの<mediaobject>との対応を取る。すなわち、文脈内容記述データの<mediaobject>の子孫で記述されるメディアコンテンツの場面は、同じ値の属性idをもつ物理内容記述データの<mediaobject>が示すファイルに格納されている。また、<segment>の時間情報startとendは、各ファイルの先頭からの時間を設定することとする。すなわち、ひとつのメディアコンテンツが複数のファイルから構成される場合、各ファイルの先頭時間は0であり、各場面の開始時間は、それが格納されているファイルの先頭からそこまでの経過時間で表すこととする。
本実施の形態における物理内容記述データと文脈内容記述データとをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。図39は図37に示す物理内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる物理内容記述データの一例である。また、図40〜図45は図38に示す文脈内容記述データをXMLで記述するためのDTDと、このDTDによる文脈内容記述データの一例である。
以下、選択ステップ1801の処理について説明する。選択ステップ1801での場面の選択の手法は、第1〜第4の実施の形態に記載のいずれかの手法を用いる。ただし、結果として開始時間、終了時間とともに、対応する物理内容記述データの<mediaobject>のidも同時に出力する。物理内容記述データを図39に示すDTDによるXML文書で記述し、文脈内容記述データを図40、図45に示すDTDによるXML文書で表した場合の、選択ステップ1801の出力の一例を図46に示す。図46において、id=の後に物理内容記述データの<mediaobject>のidが記述され、start=の後に開始時間が記述され、end=の後に終了時間が記述される。
以下、抽出ステップ1802の処理について説明する。図47に、本実施の形態に係わる抽出ステップ1802のブロック図を示す。図47において、本実施の形態における抽出ステップ1802は、インターフェース手段2401と、分離手段2402と、ビデオスキミング手段2403と、オーディオスキミング手段2404とから構成される。インターフェース手段2401は、物理内容記述データと選択ステップ1802の出力を入力とし、データベース1805から、メディアコンテンツのファイルを取り出して、そのデータを分離手段2402へ出力し、選択ステップ1802が出力した区間の開始時間と終了時間をビデオスキミング手段2403とオーディオスキミング手段2404へ出力する。分離手段2402は、本実施の形態におけるメディアコンテンツはビデオストリームとオーディオストリームが多重化されたMPEG1システムストリームであるため、ビデオストリームとオーディオストリームとに分離するものである。ビデオスキミング手段2403は、分離されたビデオストリームとインターフェース手段2401が出力した区間を入力とし、入力されたビデオストリームから、選択された区間のデータだけを出力するものである。オーディオスキミング手段2402は、分離されたオーディオストリームと選択ステップ2402が出力した区間を入力とし、入力されたオーディオストリームから、選択された区間のデータだけを出力するものである。
以下、インターフェース手段2401での処理について説明する。図48にインターフェース手段2401の処理のフローチャートを示す。インターフェース手段は、まず該当メディアコンテンツの物理内容記述データと、図46に示すような選択ステップ1801の出力を入力する。物理内容記述データの<mediaobject>の属性idから、ファイルの時間順が得られるので、選択ステップ1801の出力を、idをキーとして、時間順にソートする(S1)。さらに図49のようなデータに変換する。これは、同じファイルのものはまとめ、さらに開始時間順に並べたものである。続いて、インターフェース手段2401は、図49のデータの上から順に以下の処理を行う。まず、idを用いて、物理内容記述データの<mediaobject>を参照し、その属性locatorからファイル名を取得する。該当ファイル名のファイルのデータをデータベースから読み取り、分離手段2402へ出力する(S2、S3)。さらに、図49のidに続いて記されている、該当ファイル内の選択された区間の開始時間と終了時間を、すべてビデオスキミング手段2403とオーディオスキミング手段2404へ出力する(S4)。すべてのデータに対し以上の処理が行われた時は、処理を終了する(S5)。まだデータが残っている場合は、分離手段2402、ビデオスキミング手段2403、オーディオスキミング手段2104の処理終了を待ってから(S6、S7)、以上の処理を繰り返す。
以下、分離手段2402の処理について説明する。図50に分離手段2402の処理のフローチャートを示す。分離手段2402は、インターフェース手段2401からメディアコンテンツであるMPEG1システムストリームを受けとって、ビデオストリームとオーディオストリームに分離し、ビデオストリームをビデオスキミング手段2403へ、オーディオストリームをオーディオスキミング手段2404へ出力し(S1〜S10)、出力終了後(S9、S11)、インターフェース手段2401へ処理終了を通知するものである(S12)。図50のフローチャートに示す通り、処理終了の通知以外は、第1の実施の形態で記述した分離手段と同様の処理を行うものである。
以下、ビデオスキミング手段2403の処理について説明する。図53にビデオスキミング手段2403の処理のフローチャートを示す。図53のフローチャートに示す通り、処理終了時にインターフェース手段2401へ処理終了の通知を行う(S16、S17)以外は、第1の実施の形態で記述したビデオスキミング手段と同様の処理を行うものである。
以下、オーディオスキミング手段2404の処理について説明する。図52にオーディオスキミング手段2404の処理のフローチャートを示す。図52のフローチャートに示す通り、処理終了時にインターフェース手段2401へ処理終了の通知を行う(S11、S12)以外は、第1の実施の形態で記述したオーディオスキミング手段と同様の処理を行うものである。
構成ステップ1803は、抽出ステップ1802が出力したビデオストリームとオーディオストリームを、国際標準ISO/IEC IS 11172-1で標準化されたMPEG1システムの多重化方式により、時分割多重化を行うものである。メディアコンテンツが複数のファイルに分割されて格納されている場合、抽出ステップ1802は各ファイル毎にビデオストリーム、オーディオストリームを出力するため、それぞれに対して多重化を行う。
配送ステップ1804は、構成ステップ1803が多重化したMPEG1システムストリームを回線を通じて配送するものである。構成ステップ1803が複数のMPEG1システムストリームを出力した場合、出力された順にすべてを配送する。
なお、本実施の形態においては、メディアコンテンツが複数のファイルに分割されて格納されている場合は、抽出ステップ1802の処理において、各ファイル毎の処理を行ったが、メディアコンテンツのファイル間で対応するビデオストリーム、オーディオストリームをすべてつなぎ合わせて出力し、構成ステップ1803においては、ビデオストリームとオーディオストリームの多重化により、ひとつのMPEG1システムストリームを構成する、としても同様の効果が得られる。この場合、ビデオスキミング手段2403でのタイムコードの変更処理を以下のように行う必要がある。すなわち、ビデオストリームの数だけ、出力したフレーム数のカウンタCを用意し、Cの初期化は最初のファイルの時にのみ行う(図51のS18、S3)。この場合のビデオスキミング手段2403のフローチャートを図53に示す。また、本実施の形態においては文脈内容記述データと物理内容記述データを別々に記述したが、物理内容記述データの属性seqとlocatorを、文脈内容記述データの<mediaobject>の属性として付加することにより、ひとつにまとめても良い。
〔第6の実施の形態〕
以下、本発明に係る第6の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における文脈内容に基づいた客観的な重要度とする。
図54は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図54において、3101は選択ステップを、3102は抽出ステップを、3103は構成ステップを、3104は配送ステップを、3105はデータベースを表す。選択ステップ3101は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行うもので、第5の実施の形態記載の選択ステップと同様のものである。抽出ステップ3102は、選択ステップ3101が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行うもので、第5の実施の形態記載の抽出ステップと同様のものである。構成ステップ3103は、配送ステップ3104が判断した回線状況に応じて、抽出ステップ3102が出力したストリームの一部またはすべてを多重化し、MPEG1システムストリームを構成する処理を行う。配送ステップ3104は、配送する回線状況を判断してその結果を構成ステップ3103に伝える処理と、構成ステップ3103が作成したMPEG1システムストリームを、回線を通じて配送する処理を行う。3105はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。
図55に、本実施の形態に係わる構成ステップ3103と、配送ステップ3104とのブロック図を示す。図55において、構成ステップ3103はストリーム選択手段3201と、多重化手段3202とから構成され、配送ステップ3104は回線状況判定手段3203と、配送手段3204とから構成される。ストリーム選択手段3201は、抽出ステップ3102が出力したビデオストリーム、オーディオストリームと、回線状況判定手段3203の出力した回線状況を入力とし、回線がすべてのデータを送出するのに十分な状態である場合は、すべてのストリームを多重化手段3202へ出力する。回線が混雑している、あるいは容量の小さい回線であるなど、すべてのデータを送出すると多大な時間を要する場合は、ビデオストリーム、オーディオストリームそれぞれ複数あるうちの一部だけを選択して多重化手段3202へ出力する。この場合の選択の方法には、ビデオストリームに関しては基本レイヤのストリームだけ、など、また、オーディオストリームに関しては、モノラルだけ、あるいはステレオのレフトだけ、ステレオのライトだけ、などさまざまな組合せがある。ただし、ビデオストリーム、オーディオストリームともひとつのストリームしかない場合は、回線状況に係わらずそのストリームを出力する。多重化手段3202は、ストリーム選択手段3201が出力したビデオストリームとオーディオストリームを、国際標準ISO/IDE IS 11172-1で標準化されたMPEG1システムの多重化方式により、時分割多重化を行うものである。回線状況判定手段3203は、配送する回線の容量や現在の使用状況などを調べて、ストリーム選択手段3201へ出力するものである。配送手段3204は、多重化手段3202が多重化したMPEG1システムストリームを回線を通じて配送するものである。
なお、本実施の形態においては、ストリーム選択手段3201において、ビデオストリームがひとつの場合、回線状況に関わらずそれを出力するとしたが、回線がすべてのデータを送出すると多大な時間を要する場合は、ビデオストリームの代表画像のみを選択して送出する、としてもよい。代表画像の選択方法としては、文脈内容記述データに代表画像のタイムコードを記述しておく、あるいは各フレームのうち独立で復号可能なIピクチャと呼ばれるフレームだけ選択する、などがある。
〔第7の実施の形態〕
以下、本発明に係る第7の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における、ユーザ等が選択した登場人物や事柄等のキーワードの観点に基づいた重要度とする。図56は、本実施の形態におけるデータ処理方法のブロック図である。図56において、3301は選択ステップを、3302は抽出ステップを表す。選択ステップ3301は、文脈内容記述データのキーワードとそのスコアから、メディアコンテンツの場面を選択し、その場面の開始時間と終了時間を出力する処理を行う。また、抽出ステップ3302は、選択ステップ3301が出力した開始時間と終了時間によって区切られるメディアコンテンツの区間のデータを抽出する処理を行う。
図57に、本実施の形態の文脈内容記述データの構成を示す。本実施の形態では、文脈内容を木構造で記述する。また、木構造の兄弟関係は、左から時間順にならんでいるものとする。図57において、<contents>と記されている木構造の根(root)は、ひとつのコンテンツを表し、属性としてそのコンテンツのタイトルが付けられる。
<contents>の子要素は、<section>である。<section>には、その場面の内容や登場人物などを表すキーワードであるkeywordと、このキーワードの重要度を表すpriorityとの組(keyword, priority)が属性として付加される。priorityは1から5までの整数値とし、1が最も重要度が低く、5が最も重要度が高い、とする。(keyword, priority)組は、ユーザが見たいと思う場面、人物などを検索する時のキーに用いることができるように設定する。そのため、(keyword, priority)組は、ひとつの<section>に複数付加することが可能とする。例えば登場人物を記述する場合、その場面に現れる人物の数だけ(keyword, priority)組を付加し、また、priorityは、該当場面に該当keywordの人物が、数多く登場する場合はその値が高い、といったように設定する。
<section>の子要素は、<section>か<segment>である。すなわち、<section>は、それ自身を子要素としても良いとする。ただし、ひとつの<section>の子要素として、<section>と<segment>を混在させてはならないこととする。
<segment>は、ひとつのシーンカットを表し、<section>と同様の(keyword, priority)組と、該当シーンの時間情報として、開始時間を表すstartと、終了時間を表すendとが、属性として付加される。シーンカットの方法は、市販されていたり、ネットワークで流通しているソフトを用いても良いし、人手で行っても良い。なお、本実施の形態では、時間情報をシーンカットの開始時間と終了時間としたが、時間情報として開始時間と該当シーンの継続時間としても同様の効果が得られる。この場合、該当シーンの終了時間は、開始時間に継続時間を加算して求められる。
この文脈内容記述データにより、映画などの物語の場合は、多階層の<section>により、章、節、段落などを記述することができる。もうひとつの例として野球を記述する場合、最上位の<section>で回を記述し、その子要素の<section>で表裏を記述し、その子要素の<section>で各打者の場面を記述し、さらにその子要素の<section>で、各投球やその合間、その打席の結果などを記述することができる。
この構成の文脈内容記述データをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。XMLはWorld Wide Web Consortiumによって標準化が進められているデータ記述言語であり、1998年2月10日にVer. 1.0が勧告された。XML ver. 1.0の仕様書は、http://www.w3.org/TR/1998/REC-xml-19980210で得られる。図58〜図66は、本実施の形態の文脈内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる文脈内容記述データの一例である。また、図67〜図80は、図58〜図66に示す文脈内容記述データに、代表画像(映像情報)やキーワード(音情報)などのメディアセグメントの代表データ(dominant-data)を追加した文脈内容記述データの一例と、該文脈内容記述データをXMLで記述するためのDTDである。
以下、選択ステップ3301での処理について説明する。本実施の形態における選択ステップ3301での処理は、<segment>と<segment>を子要素に持つ<section>に着目して処理を行う。図81に、本実施の形態における選択ステップ3301の処理のフローチャートを示す。本実施の形態における選択ステップ3301は、場面選択のキーとなるキーワードとそのpriorityのしきい値を入力とし、文脈内容記述データの<segment>を子要素としてもつ<section>から、キーと同じキーワードを持ち、かつ、そのpriorityがしきい値以上の<section>を選択する(S2、S3)。続いて、選択された<section>の<segment>のうち、キーと同じキーワードを持ち、かつ、そのpriorityがしきい値以上の<segment>のみを選択する(S5、S6)。以上の処理から選択された<segment>の属性であるstartとendより、選択された場面の開始時間と終了時間を求め、それを出力する(S7、S8、S9、S10、S11、S1、S4)。
なお、本実施の形態では、<segment>と<segment>を子要素として持つ<section>に着目して処理を行ったが、ある階層の<section>とその子要素である<section>の親子関係に着目して、同様の処理を行っても良い。また、親子関係も2階層のみではなく、さらに階層を増やして、木構造の葉である<segment>まで同様の処理を行ってもよい。さらに、検索のキーを、複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。選択のしきい値も、キーワードが複数の場合はキーワード毎に指定して処理を行っても良い。この検索キーとなるキーワードは、ユーザの入力によって受けとっても良いし、ユーザプロファイルなどからシステムが自動的に設定する構成でも良い。
抽出ステップ3302の動作は、第1の実施の形態で述べた抽出ステップと同様のものである。
本実施の形態の効果としては、図82に示すように、抽出ステップ3302の出力であるビデオストリームとオーディオストリームをそれぞれビデオ再生手段、オーディオ再生手段に入力させ、ビデオストリームとオーディオストリームを同期させて再生することにより、該当メディアコンテンツの、視聴者個人が見たいシーンのみを再生することができる。また、上記得られたビデオストリームとオーディオストリームを多重化することによって、該当メディアコンテンツの視聴者個人が見たいシーン集のMPEG1システムストリームを作成することができる。
〔第8の実施の形態〕
以下、本発明に係る第8の実施の形態について述べる。本実施の形態は、第7の実施の形態と比較して、選択ステップの処理のみが異なるものである。
以下、図を参照しながら本実施の形態における選択ステップ3301の処理について記述する。本実施の形態における選択ステップ3301では、<segment>のみに着目して処理を行う。図83に、本実施の形態における選択ステップ3301のフローチャートを示す。図83に示す通り、本実施の形態における選択ステップ3301は、検索キーとなるキーワードとそのpriorityのしきい値を入力とし、文脈内容記述データの<segment>から、キーと同じキーワードを持ち、かつ、そのpriorityがしきい値以上の<segment>を選択するものである(S1〜S6)。
なお、本実施の形態では、<segment>のみに着目して処理を行ったが、ある階層の<section>に着目して処理を行っても良い。また、検索のキーを、複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。選択のしきい値も、キーワードが複数の場合はキーワード毎に指定して処理を行っても良い。
〔第9の実施の形態〕
以下、本発明に係る第9の実施の形態について述べる。本実施の形態も、第7の実施の形態と比較して、選択ステップの処理のみが異なるものである。
以下、図を参照しながら本実施の形態における選択ステップ3301の処理について記述する。本実施の形態における選択ステップ3301は、第7の実施の形態における処理と同様に、<segment>と<segment>を子要素にもつ<section>のみに着目し、その選択を行う。本実施の形態においては、選択する場面すべての継続時間の和にしきい値を設ける。すなわち、それまでに選択された場面の継続時間の和が、このしきい値以下で最大となるような選択を行う。図84に本実施の形態における選択ステップのフローチャートを示す。まず、選択ステップ3301は検索するキーとなるキーワードをひとつ受けとる。続いて、<segment>を子要素にもつ<section>のうち、検索キーのキーワードを持つものすべてを抽出する。この集合をΩとする(S1、S2)。Ωの要素を検索キーのキーワードのpriorityの大きい順にソートする(S3)。続いて、ソートしたΩから、検索キーのキーワードのpriorityの最も大きい<section>を取り出し(S5)、Ωからその<section>を削除する(S6)。この場合、最もpriorityの大きい<section>が複数ある場合は、そのすべての<section>を取り出す。取り出した<section>の子要素<segment>のうち、検索キーを持つ<segment>のみを選択し、集合Ω’に加える(S7)。なお、集合Ω’の初期値は空集合である(S2)。Ω’の場面の継続時間の総和を計算し(S8)、しきい値と比較する(S9)。継続時間の総和がしきい値と等しい場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S14)。継続時間のしきい値より小さい場合は、Ωから検索キーのキーワードのpriorityの最も大きい<section>の選択に戻り(S5)、以上の処理を繰り返す。ただし、Ωが空集合である場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S4)。Ω’の場面の継続時間の総和がしきい値を越えている場合は、以下の処理を行う。集合Ω’の要素<segment>のうち、検索キーのキーワードのpriorityが最も小さい<segment>を削除する(S11)。この場合、最も小さいpriorityの<segment>が複数ある場合は、そのすべての<segment>を削除する。Ω’の継続時間の総和を算出し(S12)、しきい値との比較を行う(S13)。継続時間の総和がしきい値よりも大きい場合は、Ω’から<segment>の削除処理に戻り(S11)、この処理を繰り返す。ただし、Ω’が空集合の場合は処理を終了する(S10)。継続時間の総和がしきい値以下の場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S14)。
なお、本実施の形態では、<segment>と<segment>を子要素として持つ<section>に着目して処理を行ったが、ある階層の<section>とその子要素である<section>の親子関係に着目して処理を行っても良い。また、親子関係も2階層のみではなく、さらに階層を増やして処理を行っても良い。例えば、最上位の<section>から<segment>までの階層で処理を行う場合、まず最上位の<section>を選択し、選択した<section>からその子要素である<section>を選択し、選択した<section>からその子要素を選択、といった処理を<segment>の選択まで繰り返して、選択された<segment>の集合Ω’を生成する。
また、本実施の形態では、検索キーのキーワードのpriorityの大きい順としたが、priorityにしきい値を設定し、priorityがしきい値以上で大きい順に選択、としても良い。このしきい値は、<section>と<segment>それぞれ別々に設定しても良い。
さらに、本実施の形態では、検索キーをひとつのキーワードとしたが、これを複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。この場合、<section>、<segment>の選択または削除に用いているキーワードのpriorityを決めるルールも必要となる。このルールの一例として、以下のものがある。すなわち、条件が「どちらか」の場合は、該当キーワードのpriorityのうち最も大きい値をpriorityとする。また、「ともに」の場合は、該当キーワードのpriorityのうち最も小さい値をpriorityとする。「どちらか」と「ともに」の組合せの場合も、このルールによりpriorityの値は求めることができる。また、検索キーのキーワードが複数の場合でも、そのpriorityにしきい値を設定し、そのしきい値以上のpriorityを持つものに対して処理を行っても良い。
〔第10の実施の形態〕
以下、本発明に係る第10の実施の形態について述べる。本実施の形態は、第7の実施の形態と比較して、選択ステップの処理のみが異なるものである。
以下、図を参照しながら本実施の形態における選択ステップ3301の処理について記述する。本実施の形態における選択ステップ3301では、第8の実施の形態と同様に<segment>のみに着目して処理を行う。また、第9の実施の形態と同様に、選択する場面すべての継続時間の和にしきい値を設ける。すなわち、それまでに選択された場面の継続時間の和が、このしきい値以下で最大となるような選択を行う。図85に本実施の形態における選択ステップのフローチャートを示す。まず、選択ステップ3301は検索するキーとなるキーワードをひとつ受けとる。初期化として、集合Ω’を空集合とする(S2)。続いて、<segment>のうち、検索キーのキーワードを持つものすべてを抽出する(S1)。この集合をΩとする。Ωの要素を検索キーのキーワードのpriorityの大きい順にソートする(S3)。続いて、ソートしたΩから、検索キーのキーワードのpriorityの最も大きい<segment>を取り出し(S5)、Ωからその<segment>を削除する。この場合、最もpriorityの大きい<segment>が複数ある場合は、そのすべての<segment>を取り出す。Ωが空集合の場合は、Ω’の要素<segment>すべての区間を出力し、処理を終了する(S4)。取り出した<segment>の継続時間の総和T1と(S6)、Ω’の場面の継続時間の総和T2を計算し(S7)、T1+T2としきい値とを比較する(S8)。T1+T2がしきい値を越えている場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S11)。T1+T2が、しきい値と等しい場合は、取り出した<segment>すべてをΩ’の要素として加えたうえで(S9、S10)、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S11)。T1+T2がしきい値より小さい場合は、取り出した<segment>すべてをΩ’の要素として加え、Ωから<segment>の選択処理へ戻る(S10)。
なお、本実施の形態では、<segment>のみに着目して処理を行ったが、ある階層の<section>に着目して処理を行っても良い。また、本実施の形態では、検索キーのキーワードのpriorityの大きい順としたが、priorityにしきい値を設定し、priorityがしきい値以上で大きい順に選択、としても良い。さらに、本実施の形態では、検索キーをひとつのキーワードとしたが、これを複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。この場合、<section>、<segment>の選択または削除に用いているキーワードのpriorityを決めるルールも必要となる。このルールの一例として、以下のものがある。すなわち、条件が「どちらか」の場合は、該当キーワードのpriorityのうち最も大きい値をpriorityとする。また、「ともに」の場合は、該当キーワードのpriorityのうち最も小さい値をpriorityとする。「どちらか」と「ともに」の組合せの場合も、このルールによりpriorityの値は求めることができる。また、検索キーのキーワードが複数の場合でも、そのpriorityにしきい値を設定し、そのしきい値以上のpriorityを持つものに対して処理を行っても良い。
〔第11の実施の形態〕
以下、本発明に係る第11の実施の形態について述べる。本実施の形態は、第7〜第10の実施の形態の文脈内容記述データにおいて、場面選択のキーワードとなる観点およびその重要度の記述が異なるものである。第7〜第10の実施の形態では、図57に示すように、キーワードと重要度との組(keyword, priority)を<section>,<segment>に属性として付与することによって観点およびその観点から見た重要度を記述していたが、本実施の形態では、図133に示すように、<contents>に属性povlistを付加し、<section>,<segment>には属性povvalueを付加することによって観点および重要度を記述している。
属性povlistは、図134に示すように、観点をベクトル形式で表したものであり、属性povvalueは、図135に示すように、重要度をベクトル形式で表したものであり、それぞれ一対一に対応した観点および重要度が順に並んで属性povlistおよび属性povvalueを形成している。例えば、図134および図135では、観点1に関する重要度が5、観点2に関する重要度が0、観点3に関する重要度が2、観点n(但し、nは正の整数である)に関する重要度が0である。なお、観点2に関する重要度0とは、第7の実施の形態の場合、観点2がキーワードである属性(keyword, priority)が付加されていないことに対応している。
また、図136〜図163および図164〜図196には、本実施の形態の文脈内容記述データをコンピュータ上で表現するために用いられるExtensible Markup Language(XML)で記述するためのDocument Type Definition(DTD)と、このDTDによる文脈内容記述データの一例をそれぞれ示す。本実施の形態においても、これらの文脈内容記述データを用いて第7〜第10の実施の形態で説明した処理と同様の処理を行う。
なお、本実施の形態では、<contents>に属性povlistを付加し、<section>,<segment>には属性povvalueを付加しているが、図197に示すように、<section>,<segment>にも属性povlistを付加して良い。但し、属性povlistが付加された<section>または<segment>において、属性povvalueは、その<section>または<segment>に付加されている属性povlistに対応したものである。また、属性povlistが付加されていない<section>または<segment>において、属性povvalueは、<contents>に付加された属性povlistに対応するものであっても、属性povlistが付加されていない<section>または<segment>の先祖の内、属性povlistが付加された最も近い<section>の属性povlistであっても良い。
また、図198〜図222および図223〜図252には、図197に対応した、文脈内容記述データをコンピュータ上で表現するために用いられるXMLで記述するためのDTDと、このDTDによる文脈内容記述データの一例をそれぞれ示す。これらの図面に示す例では、属性povlistが付加されていない<section>,<segment>の属性povvalueは、<contents>に付加された属性povlistに対応している。
〔第12の実施の形態〕
以下、本発明に係る第12の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。
図86は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図86において、4101は選択ステップを、4102は抽出ステップを、4103は構成ステップを、4104は配送ステップを、4105はデータベースを表す。選択ステップ4101は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行う。抽出ステップ4102は、選択ステップ4101が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行う。構成ステップ4103は、抽出ステップ4102が出力したデータを多重化し、MPEG1システムストリームを構成する処理を行う。配送ステップ4104は、構成ステップ4103が作成したMPEG1システムストリームを、回線を通じて配送する処理を行う。4105はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。
本実施の形態における物理内容記述データの構成は、第5の実施の形態で記述したものと同様のものを用いる。すなわち、図37に示した構成の物理内容記述データを用いる。
図87に、本実施の形態における文脈内容記述データの構成を示す。これは、第7の実施の形態における文脈内容記述データに、物理内容記述データの<mediaobject>との関連を加えたものである。すなわち、文脈内容記述データの根<contents>の子要素は<mediaobject>で、この<mediaobject>の子要素が<section>となる。<section>、<segment>は第7の実施の形態と同様ものである。文脈内容記述データの<mediaobject>には、属性idが付加され、このidによって、物理内容記述データの<mediaobject>との対応を取る。すなわち、文脈内容記述データの<mediaobject>の子孫で記述されるメディアコンテンツの場面は、同じ値の属性idをもつ物理内容記述データの<mediaobject>が示すファイルに格納されている。また、<segment>の時間情報startとendは、各ファイルの先頭からの時間を設定することとする。すなわち、ひとつのメディアコンテンツが複数のファイルから構成される場合、各ファイルの先頭時間は0であり、各場面の開始時間は、それが格納されているファイルの先頭からそこまでの経過時間で表すこととする。
本実施の形態における物理内容記述データと文脈内容記述データとをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。物理内容記述データに関しては、第5の実施の形態で示した図39が一例である。また、図88〜図96は、図87に示す文脈内容記述データをXMLで記述するためのDTDと、このDTDによる文脈内容記述データの一例である。
以下、選択ステップ4101の処理について説明する。選択ステップ4101での場面の選択の手法は、第7〜第10の実施の形態に記載のいずれかの手法を用いる。ただし、結果として開始時間、終了時間とともに、対応する物理内容記述データの<mediaobject>のidも同時に出力する。物理内容記述データを図39に示すDTDによるXML文書で表し、文脈内容記述データを図88〜図96に示すDTDによるXML文書で表した場合の、選択ステップ4101の出力の一例は、第5の実施の形態において示した図46のものと同様の形態のものである。
抽出ステップ4102の処理は、第5の実施の形態に記載の抽出ステップと同様のものである。また、構成ステップ4103も、第5の実施の形態に記載の構成ステップと同様のものである。配送ステップ4104も、第5の実施の形態に記載の配送ステップと同様のものである。
〔第13の実施の形態〕
以下、本発明に係る第13の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。
図97は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図97において、4401は選択ステップを、4402は抽出ステップを、4403は構成ステップを、4404は配送ステップを、4405はデータベースを表す。選択ステップ4401は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行うもので、第12の実施の形態記載の選択ステップと同様のものである。抽出ステップ4402は、選択ステップ4401が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行うもので、第12の実施の形態記載の抽出ステップと同様のものである。構成ステップ4403は、配送ステップ4404が判断した回線状況に応じて、抽出ステップ4402が出力したストリームの一部またはすべてを多重化し、MPEG1システムストリームを構成する処理を行うもので、第6の実施の形態に記載の構成ステップと同様のものである。配送ステップ4404は、配送する回線状況を判断してその結果を構成ステップ4403に伝えることと、構成ステップ4403が作成したMPEG1システムストリームを、回線を通じて配送する処理を行うもので、第6の実施例に記載の配送ステップと同様のものである。4405はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。
なお、本実施の形態では、メディアコンテンツとして、MPEG1システムストリームを想定したが、各画面のタイムコードを得ることができるものであれば、他のフォーマットでも同様の効果が得られる。
以下に示す実施の形態は、特許請求の範囲に示す発明に対応した形態の要約を説明したものである。なお、以下、「音情報」という言葉を、有音、無音、スピーチ、音楽、静寂、外部雑音などを含む音に関する情報として用い、「映像情報」という言葉を、動画、静止画、テロップなどの文字を含む視覚できる情報として用いる。また、スコアは、有音、無音、スピーチ、音楽、静寂、外部雑音など、音情報の内容から算出されるスコア、または映像情報中のテロップの有無に従って付けられるスコア、またはそれらの組み合わせを利用できる。また、スコアは上記スコア以外のスコアであっても良い。
〔第14の実施の形態〕
以下、本発明に係る第14の実施の形態について述べる。図98は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを表す。選択ステップ501は、文脈内容記述データのスコアから、メディアコンテンツの少なくともひとつの区間または場面を選択し、その選択された区間または場面を出力するステップである。なお、選択された区間とは、例えば、選択区間の開始時間および終了時間である。また、抽出ステップ503は、選択ステップ501が出力した選択区間によって区切られたメディアコンテンツの区間(以下、メディアセグメントと称す)のデータ、すなわち選択区間のデータのみを抽出する処理を行うステップである。
なお、スコアが文脈内容における客観的な重要性に基づいた重要度でもよいし、ユーザ等が選択した登場人物や事柄等のキーワードの観点に基づいた重要度でもよい。
〔第15の実施の形態〕
以下、本発明に係る第15の実施の形態について述べる。本実施の形態は、図99は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は再生ステップを表す。再生ステップ505は、選択ステップ501が出力した選択区間によって区切られた選択区間のデータのみを再生する処理を行うステップである。なお、選択ステップ501は、第1〜第13の実施の形態に示した選択ステップと同様であるため説明を省略する。
〔第16の実施の形態〕
以下、本発明に係る第16の実施の形態について述べる。図100は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、507は映像選択ステップを、509は音選択ステップを表す。なお、映像選択ステップ507および音選択ステップ509は、第14および第15の実施の形態に示した選択ステップ501に含まれる。
映像選択ステップ507は、映像情報の文脈内容記述データを参照して映像情報の区間または場面の選択を行い、その選択された区間を出力するステップである。また、音選択ステップ509は、音情報の文脈内容記述データを参照して音情報の区間または場面の選択を行い、その選択された区間を出力するステップである。なお、選択された区間とは、例えば、選択区間の開始時間および終了時間である。また、映像選択ステップ507で選択された映像情報の選択区間および音選択ステップ509で選択された音情報の選択区間は、第14の実施の形態に示した抽出ステップ503または第15の実施の形態に示した再生ステップ505によって、選択区間のデータのみが抽出または再生される。
〔第17の実施の形態〕
以下、本発明に係る第17の実施の形態について述べる。図101は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、511は判定ステップを、513は選択ステップを、503は抽出ステップを、505は再生ステップを示す。
(実施例1)
まず、実施例1では、メディアコンテンツが同一時間においてそれぞれ異なる複数のメディア情報を有しており、判定ステップ511が、メディアコンテンツのデータ構成を記述した物理内容記述データを入力として、受信端末の能力、配送する回線の状況、およびユーザからの要求などの判定条件から、どのメディア情報を選択対象とするかを判定するステップである。また、選択ステップ513は、判定ステップ511で選択対象と判定されたデータ、物理内容記述データおよび文脈内容記述データを入力とし、入力された物理内容記述データを参照して、判定ステップ511が選択対象と判定したデータからのみ選択処理を行うステップである。なお、抽出ステップ503および再生ステップ505は、それぞれ第14の実施の形態に示した抽出ステップおよび第15の実施の形態に示した再生ステップと同様であるため説明を省略する。また、メディア情報は、映像情報や音情報、テキスト情報などのデータを含み、以下、本実施例においては、メディア情報が特に映像情報および音情報に関するデータの少なくとも一方を含んだものとする。
また、本実施例においては、メディアコンテンツが有する同一時間において異なる映像情報または音情報が、図102に示すようなチャネル、さらに一チャネルを階層化したレイヤーにそれぞれ割り当てられており、例えば、動画を伝達するチャネル1,レイヤー1には標準解像度の映像情報が、チャネル1,レイヤー2には高解像度の映像情報が割り当てられ、また、音情報を伝達するチャネル1にはステレオの音情報が、チャネル2にはモノラルの音情報が割り当てられている。図103および図104は、物理内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる物理内容記述データの一例である。
次に、メディアコンテンツがこのようなチャネルおよびレイヤー構成となっているときの、本実施例の判定ステップ511の処理について、図105〜図108を参照して説明する。まず、図105に示すように、ステップS101ではユーザからの要求があるかを判別する。このステップS101において、ユーザ要求があれば図106に示すユーザ要求による判定処理SR−Aを実行する。
また、ステップS101において、ユーザ要求がなければステップS103に進み、受信可能な情報が映像情報のみか、音情報のみか、映像情報および音情報の両方であるかを判別する。このステップS103において、受信可能な情報が映像情報のみであるときは図107に示す映像情報に関する判定処理SR−Bを実行し、音情報のみであるときは図108に示す音情報に関する判定処理SR−Cを実行し、映像情報および音情報の両方であるときはステップS105に進む。ステップS105では、映像情報および音情報を受信する受信端末の能力、例えば、映像表示能力や音再生能力、圧縮された情報の解凍処理速度などを判別して、能力が高ければステップS107に進み、低ければステップS109に進む。ステップS107では、映像情報や音情報を伝送する回線の状況を判別し、回線が混雑していればステップS109に進み、混雑していなければステップS111に進む。
ステップS109は受信端末の能力が低いかまたは回線が混雑しているときに実行され、このとき受信端末は、チャネル1,レイヤー1の標準解像度の映像情報と、チャネル2のモノラルの音情報とを受信する。一方、ステップS111は受信端末の能力が高く回線が混雑していないときに実行され、このとき受信端末は、チャネル1,レイヤー2の高解像度の映像情報と、チャネル1のステレオの音情報とを受信する。
次に、図106に示すユーザ要求による判定処理SR−Aについて説明する。本実施例においては、ユーザからの要求が、映像のレイヤー、音のチャネルを選択するものである。まず、ステップS151では、ユーザによる映像に関する要求があるかを判別する。このステップS151において、映像に関するユーザ要求があればステップS153に進み、ユーザ要求がなければステップS159に進む。ステップS153では、ユーザによる映像の要求がレイヤー2を選択するものかを判別し、YESであればステップS155に進んで映像情報としてレイヤー2を選択し、NOであればステップS157に進んでレイヤー1を選択する。ステップS159では、ユーザによる音に関する要求があるかを判別する。このステップS159において、音に関するユーザ要求があればステップS161に進み、ユーザ要求がなければ処理を終了する。ステップS161では、ユーザによる音の要求がチャネル1を選択するものかを判別し、YESであればステップS163に進んで音情報としてチャネル1を選択し、NOであればステップS165に進んでチャネル2を選択する。
次に、図107に示す映像情報に関する判定処理SR−Bについて説明する。まず、ステップS171では、映像情報を受信する受信端末の能力を判別して、能力が高ければステップS173に進み、低ければステップS175に進む。ステップS173では、回線の状況を判別し、回線が混雑していればステップS175に進み、混雑していなければステップS177に進む。
ステップS175は受信端末の能力が低いかまたは回線が混雑しているときに実行され、このとき受信端末は、チャネル1,レイヤー1の標準解像度の映像情報のみを受信する。一方、ステップS177は受信端末の能力が高く回線が混雑していないときに実行され、このとき受信端末は、チャネル1,レイヤー2の高解像度の映像情報のみを受信する。
次に、図108に示す音情報に関する判定処理SR−Cについて説明する。まず、ステップS181では、音情報を受信する受信端末の能力を判別して、能力が高ければステップS183に進み、低ければステップS185に進む。ステップS183では、回線の状況を判別し、回線が混雑していればステップS185に進み、混雑していなければステップS187に進む。
ステップS185は受信端末の能力が低いかまたは回線が混雑しているときに実行され、このとき受信端末は、チャネル2のモノラルの音情報のみを受信する。一方、ステップS187は受信端末の能力が高く回線が混雑していないときに実行され、このとき受信端末は、チャネル1のステレオの音情報のみを受信する。
(実施例2)
また、実施例2では、実施例1と比較して、判定ステップS511のみが異なる。本実施例に係る判定ステップ511は、メディアコンテンツのデータ構成を記述した物理内容記述データを入力として、受信端末の能力、配送する回線の状況、およびユーザからの要求などの判定条件から、映像情報のみ、音情報のみ、または映像情報および音情報のいずれかを選択対象とするかを判定するかを判定するステップである。なお、選択ステップ513、抽出ステップ503および再生ステップ505については、上述の各ステップと同様であるため説明を省略する。
次に、本実施例の判定ステップ511の処理について、図109および図110を参照して説明する。まず、図109に示すように、ステップS201ではユーザからの要求があるかを判別する。このステップS201において、ユーザ要求があればステップS203に進み、ユーザ要求がなければステップS205に進む。ステップS203では、ユーザ要求が映像情報のみであるかを判別し、YESであればステップS253に進んで映像情報のみを選択対象と判定し、NOであればステップS207に進む。ステップS207では、ユーザ要求が音情報のみであるかを判別し、YESであればステップS255に進んで音情報のみを選択対象と判定し、NOであればステップS251に進んで映像情報および音情報の両方を選択対象と判定する。
また、ユーザ要求がないときに進んだステップS205では、受信可能な情報が映像情報のみか、音情報のみか、映像情報および音情報の両方であるかを判別する。このステップS205において、受信可能な情報が映像情報のみであるときはステップS253に進んで映像情報のみを選択対象と判定し、音情報のみであるときはステップS255に進んで音情報のみを選択対象と判定し、映像情報および音情報の両方であるときはステップS209に進む。
ステップS209では、回線の状況を判別し、回線が混雑していなければステップS251に進んで映像情報および音情報の両方を選択対象と判定し、混雑していればステップS111に進む。ステップS211では、回線を介して配送される情報に音情報が含まれているかを判別し、YESであればステップS255に進んで音情報を選択対象と判定し、NOであればステップS253に進んで映像情報を選択対象と判定する。
(実施例3)
また、実施例3では、メディアコンテンツが同一時間においてそれぞれ異なる複数の映像情報および/または音情報を有しており、判定ステップ511が、実施例2の判定ステップ511が行う映像情報のみ、音情報のみ、または映像情報および音情報のいずれかを選択対象とするかについての判定に加えて、さらに、受信端末の能力、配送する回線の能力、および回線の状況などの判定条件から、どの映像情報/音情報を選択対象とするかを判定している。なお、選択ステップ513、抽出ステップ503および再生ステップ505については、上述の各ステップと同様であるため説明を省略する。
本実施例においては、実施例1と同様に、メディアコンテンツが有する同一時間において異なる映像情報または音情報が、チャネルやレイヤーにそれぞれ割り当てられており、例えば、動画を伝達するチャネル1,レイヤー1には標準解像度の映像情報が、チャネル1,レイヤー2には高解像度の映像情報が割り当てられ、また、音情報を伝達するチャネル1にはステレオの音情報が、チャネル2にはモノラルの音情報が割り当てられている。
次に、本実施例の判定ステップ511の処理について、図111〜図113を参照して説明する。図111に示すように、本実施例では、まず実施例2の判定ステップ511によって、選択対象とする情報を決定する(選択対象の判定SR−D)。次に、ステップS301では、選択対象の判定処理SR−Dによって判定された情報を判定する。このステップS301において、選択対象となった情報が映像情報のみであるときは、図112に示す映像情報に関する判定処理SR−Eを実行し、音情報のみであるときは図113に示す音情報に関する判定処理SR−Fを実行し、映像情報および音情報の両方であるときはステップS303に進む。ステップS303では、映像情報および音情報を受信する受信端末の能力を判別して、能力が高ければステップS305に進み、低ければステップS307に進む。ステップS307では、伝送速度などの回線の能力を判別して、能力が高ければステップS309に進み、低ければステップS307に進む。ステップS309では回線の状況を判別し、回線が混雑していればステップS307に進み、混雑していなければステップS311に進む。
ステップS307は受信端末の能力が低いか、回線の能力が低いか、または回線が混雑しているときに実行され、このとき受信端末は、チャネル1,レイヤー1の標準解像度の映像情報と、チャネル2のモノラルの音情報とを受信する。一方、ステップS311は受信端末の能力が高く、回線の能力が高く、かつ回線が混雑していないときに実行され、このとき受信端末は、チャネル1,レイヤー2の高解像度の映像情報と、チャネル1のステレオの音情報とを受信する。
次に、図112に示す映像情報に関する判定処理SR−Eについて説明する。まず、ステップS351では、映像情報を受信する受信端末の能力を判別して、能力が高ければステップS353に進み、低ければステップS355に進む。ステップS353では、回線の能力を判別し、能力が高ければステップS357に進み、低ければステップS355に進む。ステップS357では、回線の状況を判別し、回線が混雑していればステップS355に進み、混雑していなければステップS359に進む。
ステップS355は受信端末の能力が低いか、回線の能力が低いか、または回線が混雑しているときに実行され、このとき受信端末は、チャネル1,レイヤー1の標準解像度の映像情報のみを受信する。一方、ステップS359は受信端末の能力が高く、回線の能力が高く、かつ回線が混雑していないときに実行され、このとき受信端末は、チャネル1,レイヤー2の高解像度の映像情報のみを受信する。
次に、図113に示す音情報に関する判定処理SR−Fについて説明する。まず、ステップS371では、音情報を受信する受信端末の能力を判別して、能力が高ければステップS373に進み、低ければステップS375に進む。ステップS373では、回線の能力を判別し、能力が高ければステップS377に進み、低ければステップS375に進む。ステップS377では、回線の状況を判別し、回線が混雑していればステップS375に進み、混雑していなければステップS379に進む。
ステップS375は受信端末の能力が低いか、回線の能力が低いか、または回線が混雑しているときに実行され、このとき受信端末は、チャネル2のモノラルの音情報のみを受信する。一方、ステップS379は受信端末の能力が高く、回線の能力が高く、かつ回線が混雑していないときに実行され、このとき受信端末は、チャネル1のステレオの音情報のみを受信する。
(実施例4)
また、実施例4では、文脈内容記述データの最下位層の各要素に該当するメディアセグメントの代表データが属性として付加され、メディアコンテンツが同一時間においてそれぞれ異なる複数のメディア情報を有している。判定ステップ511は、メディアコンテンツのデータ構成を記述した物理内容記述データを入力として、受信端末の能力、配送する回線の能力、および回線の状況、回線の能力、およびユーザからの要求などの判定条件から、どのメディア情報および/または代表データを選択対象とするかを判定するステップである。
なお、選択ステップ513、抽出ステップ503および再生ステップ505については、説明を省略する。なお、メディア情報は、映像情報や音情報、テキストデータなどの情報であり、以下、本実施例においては、メディア情報が映像情報および音情報の少なくとも一方を含んだものとする。また、代表データは、映像情報であれば、例えば各メディアセグメントごとの代表画像データや低解像度の映像データであり、音情報であれば、例えば各メディアセグメントごとのキーフレーズのデータである。
また、本実施例においては、実施例と同様に、メディアコンテンツが有する同一時間において異なる映像情報または音情報が、チャネルやレイヤーにそれぞれ割り当てられており、例えば、動画を伝達するチャネル1,レイヤー1には標準解像度の映像情報が、チャネル1,レイヤー2には高解像度の映像情報が割り当てられ、また、音情報を伝達するチャネル1にはステレオの音情報が、チャネル2にはモノラルの音情報が割り当てられている。
次に、本実施例の判定ステップ511の処理について、図114〜図118を参照して説明する。図114に示すように、ステップS401ではユーザからの要求があるかを判別する。このステップS401において、ユーザ要求があれば図116に示すユーザ要求による判定処理SR−Gを実行する。
また、ステップS401において、ユーザ要求がなければステップS403に進み、受信可能な情報が映像情報のみか、音情報のみか、映像情報および音情報の両方であるかを判別する。このステップS403において、受信可能な情報が映像情報のみであるときは図117に示す映像情報に関する判定処理SR−Hを実行し、音情報のみであるときは図118に示す音情報に関する判定処理SR−Iを実行し、映像情報および音情報の両方であるときは図115に示すステップS405に進む。
ステップS405は、受信端末の能力を判別するステップであるが、このステップS405を実行した後、順に回線の能力を判別するステップS407、回線が混雑しているかを判別するステップS409を実行する。本実施例の判別ステップ511は、これらのステップS405、S407およびS409を実行して、下記の表1に従うよう、受信する映像情報および音情報のチャネル,レイヤーまたは代表データを判別する。
次に、図116に示すユーザ要求による判定処理SR−Gについて説明する。まず、ステップS451では、ユーザによる要求が映像情報のみであるかを判別し、YESであれば映像情報に関する判定処理SR−Hを行い、NOであればステップS453に進む。ステップS453では、ユーザによる要求が音情報のみであるかを判別し、YESであれば音情報に関する判定処理SR−Iを行い、NOであればメインルーチンに戻り、ステップS405に進む。
次に、図117に示す映像情報に関する判定処理SR−Hについて説明する。まず、ステップS461では受信端末の能力を判別するが、このステップS461を実行した後、順に回線の能力を判別するステップS463、回線が混雑しているかを判別するステップS465を実行する。本実施例の映像情報に関する判定処理SR−Hは、これらのステップS461、S463、S465を実行して、端末の能力が高く、回線の能力が高く、かつ回線が混雑してないとき、チャネル1,レイヤー2の映像情報のみを受信し(ステップS471)、また、端末の能力が低く、回線の能力が低く、かつ回線が混雑してないとき、映像情報の代表データのみを受信する(ステップS473)。また、上記の条件に該当しないときは、チャネル1,レイヤー1の映像情報のみを受信する(ステップS475)。
次に、図118に示す音情報に関する判定処理SR−Iについて説明する。まず、ステップS471では受信端末の能力を判別するが、このステップS471を実行した後、順に回線の能力を判別するステップS473、回線が混雑しているかを判別するステップS475を実行する。本実施例の映像情報に関する判定処理SR−Iは、これらのステップS471、S473、S475を実行して、端末の能力が高く回線の能力が高いとき、および端末の能力が高く、回線の能力が低く、かつ回線が混雑していないとき、チャネル1の音情報のみを受信する(ステップS491)。また、端末の能力が低く、回線の能力が低く、回線が混雑しているとき、音情報の代表データのみを受信する(ステップS493)。また、上記の条件に該当しないときは、チャネル2の音情報のみを受信する(ステップS495)。
(実施例5)
また、実施例5では、判定ステップ511が、受信端末の能力、配送する回線の能力、および回線の状況、回線の能力、およびユーザからの要求などの判定条件から、メディアセグメントの全体データ、該当するメディアセグメントの代表データのみ、または該当するメディアセグメントの全体データおよび代表データのいずれかを選択対象とするかを判定するステップである。
なお、本実施例においても実施例4と同様に、文脈内容記述データの最下位層の各要素に該当するメディアセグメントの代表データが属性として付加され、この代表データは、映像情報であれば、例えば各メディアセグメントごとの代表画像データや低解像度の映像データであり、音情報であれば、例えば各メディアセグメントごとのキーフレーズのデータである。
次に、本実施例の判定ステップ511の処理について、図119〜図121を参照して説明する。図119に示すように、ステップS501ではユーザからの要求があるかを判別する。このステップS501において、ユーザ要求があれば図121に示すユーザ要求による判定処理SR−Jを実行する。
また、ステップS501において、ユーザ要求がなければステップS503に進み、受信可能なデータがメディアセグメントの代表データのみか、メディアセグメントの全体データのみか、代表データおよび全体データの両方であるかを判別する。このステップS503において、受信可能なデータが代表データのみであるときは、図120に示すステップS553に進んで代表データのみを選択対象と判定し、全体データのみであるときはステップS555に進んで全体データのみを選択対象と判定し、代表データおよび全体データの両方であるときはステップS505に進む。
ステップS505では、回線の能力を判別し、回線の能力が高いときはステップS507に進み、低いときはステップS509に進む。ステップS507およびS509の両ステップとも、回線が混雑しているかを判別し、ステップS507において、回線が混雑していないと判別されればステップS551に進んで全体データおよび代表データを選択対象と判定し、ステップS509において、回線が混雑していると判別されればステップS553に進んで代表データを選択対象とする。また、ステップS507において回線が混雑していると判別されたとき、およびステップS509において回線が混雑していないと判別されたときは、ステップS555に進んで全体データを選択対象とする。
また、ユーザ要求による判定処理SR−Jでは、まずステップS601において、ユーザ要求が代表データのみであるかを判別し、YESであればステップS553に進んで代表データのみを選択対象とし、NOであればステップS603に進む。ステップS603では、ユーザ要求が全体データのみであるかを判別し、YESであればステップS555に進んで全体データのみを選択対象とし、NOであればステップS551に進んで全体データおよび代表データの両方を選択対象とする。
〔第18の実施の形態〕
以下、本発明に係る第18の実施の形態について述べる。図122は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを表す。なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であるため説明を省略する。
構成ステップ515は、抽出ステップ503が抽出した選択区間のデータからメディアコンテンツのストリームを構成するステップである。特に、構成ステップ515は、抽出ステップ503が出力したデータを多重化してストリームを構成する。
〔第19の実施の形態〕
以下、本発明に係る第19の実施の形態について述べる。本実施の形態は、図123は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを、517は配送ステップを表す。なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ515は第18の実施の形態に示した構成ステップと同様であるため説明を省略する。
配送ステップ517は、構成ステップ515が構成したストリームを回線を通じて配送するステップである。なお、配送ステップ517は配送する回線状況を判断するステップを有し、構成ステップ515は配送ステップ517が判断した回線状況からファイルを構成するデータ量を調整するステップを有しても良い。
〔第20の実施の形態〕
以下、本発明に係る第20の実施の形態について述べる。本実施の形態は、図124は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを、519は記録ステップを、521はデータ記録媒体を表す。記録ステップ519は、構成ステップ515が構成したストリームをデータ記録媒体521に記録するステップである。また、データ記録媒体521は、メディアコンテンツとその文脈内容記述データおよび物理内容記述データを記録するものであり、ハードディスクやメモリ、DVD−RAMなどである。なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ515は第18の実施の形態に示した構成ステップと同様であるため説明を省略する。
〔第21の実施の形態〕
以下、本発明に係る第21の実施の形態について述べる。本実施の形態は、図125は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを、519は記録ステップを、521はデータ記録媒体を、523はデータ記録媒体管理ステップを表す。データ記録媒体管理ステップ523は、データ記録媒体521の残容量によって、すでに蓄積したメディアコンテンツおよび/または新規に蓄積するメディアコンテンツの再編成を行うステップである。より詳しくは、データ記録媒体管理ステップ523は、データ記録媒体521の残容量が少ないとき、新たに蓄積するコンテンツを編集が行われた後に蓄積する処理、および、すでに蓄積されているメディアコンテンツに対して、その文脈内容記述データと物理内容記述データとを選択ステップ501へ送り、前記メディアコンテンツと物理内容記述データとを抽出ステップ503へ送ることによって、このメディアコンテンツを再編成し、再編成したメディアコンテンツをデータ記録媒体521に記録すると共に、再編成前のメディアコンテンツを削除する処理の少なくとも一方を行う。
なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ515は第18の実施の形態に示した構成ステップと同様であり、記録ステップ519およびデータ記録媒体521は第19の実施の形態に示した記録ステップおよびデータ記録媒体と同様であるため説明を省略する。
〔第22の実施の形態〕
以下、本発明に係る第22の実施の形態について述べる。本実施の形態は、図126は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを、519は記録ステップを、521はデータ記録媒体を、525は蓄積コンテンツ管理ステップを表す。蓄積コンテンツ管理ステップ525は、データ記録媒体521に蓄積されているメディアコンテンツを、その蓄積期間によって再編成を行うステップである。より詳しくは、蓄積コンテンツ管理ステップ525は、データ記録媒体521に蓄積されたメディアコンテンツを管理して、一定の蓄積期間に達したメディアコンテンツに対して、その文脈内容記述データと物理内容記述データとを選択ステップへ501に送り、前記メディアコンテンツと物理内容記述データとを抽出ステップ503に送ることによって、このメディアコンテンツを再編成し、再編成したメディアコンテンツをデータ記録媒体521に記録すると共に、再編成前のメディアコンテンツを削除するステップである。
なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ515は第18の実施の形態に示した構成ステップと同様であり、記録ステップ519およびデータ記録媒体521は第19の実施の形態に示した記録ステップおよびデータ記録媒体と同様であるため説明を省略する。
以上の第14〜第22の実施の形態における選択ステップ501,513、抽出ステップ503、再生ステップ505、映像選択ステップ507、音選択ステップ509、判定ステップ511、構成ステップ515、配送ステップ517、記録ステップ519、データ記録媒体管理ステップ523および蓄積コンテンツ管理ステップ525は、それぞれ選択手段、抽出手段、再生手段、映像選択手段、音選択手段、判定手段、構成手段、配送手段、記録手段、データ記録媒体管理手段および蓄積コンテンツ管理手段として、これらの一部または全てを有したデータ処理装置として実現できる。
なお、上記実施の形態においては、メディアコンテンツとして、映像情報や音情報以外のテキストデータ等のデータストリームを含んでも良い。また、上記実施の形態の各ステップは、ステップの全てまたは一部の動作をコンピュータで実行するためのプログラムをプログラム格納媒体に格納し、コンピュータを用いてソフトウェア的に実現することも、それらステップの機能を発揮する専用のハード回路を用いて実現しても構わない。
また、コンピュータを用いてソフトウェア的に処理可能な文脈内容記述データのプログラム表現において、ある<section>または<segment>に付加された観点が他の<section>または<segment>の観点と重複する場合、図253に示すように、いずれか1つの<section>または<segment>に観点を付加して、他の<section>または<segment>はその観点にリンクした表現としても良い。
また、図254に示すように、文脈内容記述データに現れる観点を全てまとめた観点表を、文脈内容記述データのデータ構造において根(root)となっている<contents>の子要素として構成し、各<section>または<segment>に、観点表中の対応する観点へのリンクと、該リンクされた観点に対するスコアとの組を付加した構成としても良い。このような構成とすることによって、既に登録されている観点のリスト(以下、観点リストと称す)を予めユーザに提示することが容易となるため、ユーザは、好みの観点を入力する前に既に登録されている観点を予め知ることができる。したがって、ユーザが希望する観点が観点リストにある場合、ユーザは、観点リストからの選択作業によって観点を入力することができる。なお、観点表は、<contents>だけでなく<section>または<segment>の子要素とした構成にしても、別途記述したものにしても良い。
また、図255に示すように、全ての観点を観点表へのリンクで表現するのではなく、一部の<section>または<segment>の観点に対してのみリンクした混在型としても良い。この場合、観点表は、文脈内容記述データに現れる全ての観点を記述する必要はなく、リンクで参照される観点だけが登録される。
また、図256に示すように、文脈内容記述データに現れる観点の一覧を表す観点表を別途記述した構造とすることによって、ユーザが好みの観点を入力する前に、観点表に基づく観点リストをユーザに提示することができる。このとき、ユーザは、好みの観点を入力する前に文脈内容記述データに現れる観点を知ることができ、かつ、観点の入力を観点リストからの選択作業によっても行うことができる。
また、図257に示すように、文脈内容記述データの表現を、データ構造を記述したデータ構造部と、属性としての観点、データ構造部へのリンクおよびそのスコアを記述した属性部とに分けた構造としても良い。なお、図257においては、上部(a)がデータ構造部であり、下部(b)が属性部である。同図では、データ構造部が最も簡単な構成によって記述されているが、上記した実施の形態で記述した構成としても良い。また属性部においては、各観点毎に、対象となる<section>や<segment>へのリンクと、各観点のリンクに対するスコアの組とがまとめられる。
なお、データ構造部および属性部は、一ファイル内に記述せずに別々のファイルに記述しても良い。また、文脈内容記述データがデータ構造部と属性部とに分けられた構成の文脈内容記述データにおいては、選択ステップ(選択手段)は、属性部の対象観点毎にスコアに基づいた<segment>または<section>を選択する。また、属性部の各観点とデータ構造部の<section>や<segment>は、図258に示すように、双方向のリンクで結んでも良い。このとき、選択ステップ(選択手段)による観点を指定した選択処理は、上記した実施の形態に記載した手法によっても行うことができる。
また、図259に示すように、文脈内容記述データの表現を、データ構造を記述したデータ構造部と、各観点毎にデータ構造部へのリンクがスコアの高い順に記述された属性部とに分けた構造としても良い。但し、このような表現では、複数観点間でスコアの比較を行う場合に、細かい比較が不可能となる恐れがあるため、”高,中,低”といった粗い運用が行われる。
さらに、図260に示すように、文脈内容記述データの表現を、データ構造を記述したデータ構造部と、各観点毎にデータ構造部へのリンクがスコアの高い順に記述され、かつ同じスコアのリンクは上下に並べて記述された属性部とに分けた構造としても良い。このとき、選択ステップ(選択手段)による観点を指定した選択処理は、図258に示した文脈内容記述データに対して行う処理と同様である。
次に、図57に示したような、根(ルート)としての<contents>、節点(ノード)としての<section>および葉(リーフ)としての<segment>から構成され、各<section>および<segment>に、場面の内容や登場人物などを表すキーワードである「keyword」およびこのキーワードの重要度を表す「priority」の組(keyword,priority)が属性として少なくとも1つ付加され、<segment>には該当シーンの時間情報として、開始時間を表す「start」および終了時間を表す「end」がさらに付加された、木構造の文脈内容記述データを変換して、この文脈内容記述データ(以下、元の文脈内容記述データと称す)とはデータ構造が異なる文脈内容記述データ(以下、第2の文脈内容記述データと称す)を作成する文脈内容記述データ変換方法について説明する。
本明細書では、3種類の文脈内容記述データ変換方法について説明する。以下、各文脈内容記述データ変換方法により作成された第2の文脈内容記述データのデータ構造について説明し、続いて、文脈内容記述データ変換方法について例を用いて説明する。
(文脈内容記述データ変換方法の第1実施例)まず、文脈内容記述データ変換方法の第1実施例によって作成される第2の文脈内容記述データは、図261および図262に示すように、コンテンツ<contents>を根(root)とし、<contents>の子要素である<keyword>、各<keyword>の子要素である<level>、および<level>の子要素である<segment>を備えた木構造を有している。なお、図57に示した元の文脈内容記述データに存在する<section>という要素(ノード)は、第2の文脈内容記述データには記述されない。また、第2の文脈内容記述データにおいても、木構造の兄弟関係は左から時間順に並んでいるものとする。さらに、各<segment>には、元々付加されていた時間情報(start, end)が付加されている。
この第2の文脈内容記述データが有する<level>は、図57に示す文脈内容記述データで用いられている「priority」に基づいて決定され、重要度の高低を示すものである。「priority」が整数値で表現されている場合、<level>は、「priority」に割り当てられた整数値がそのまま利用されるが、「priority」が小数点で表現されている場合、重要度を簡単に比較できるよう、「priority」に割り当てられた数値の大小に従って、新たに設定される。例えば、0.2、0.5、1.0の3つの「priority」が元の文脈内容記述データに存在する場合、0.2の「priority」に対しては重要度が最も低い<level 1>、0.5の「priority」に対しては中間の<level 2>、1.0の「priority」に対しては重要度が最も高い<level 3>とされる。
このように、各<level>には重要度の高低が設定されており、第2の文脈内容記述データのデータ構造としては、図261に示すように、<level>の高低関係をそのまま木構造の親子関係とした入れ子形式にしても、図262に示すように、同じ階層とした並列形式にしても良い。なお、第2の文脈内容記述データのデータ構造としては、図263に示すように、<level>情報を除いて<keyword>の子要素を<segment>とし、<keyword>への接続順で重要度を決定しても良い。但し、このとき、複数のkeyword間で比較を行う際には細かい比較を行えなくなる可能性があるため、比較結果は「高」、「中」、「低」といった粗いものとなり得る。
また、同じ<keyword>かつ同じ<level>に属する<segment>の内、時間的に連続した複数の<segment>がある場合、これらを1つにまとめても良い。例えば、時間的に連続する<segment 1>と<segment 2>とがある場合、これらをまとめて<segment A>としても良い。但し、このとき、各<segment>に付加されている時間情報(start, end)に基づいて、まとめられた<segment A>に付加するための時間情報を作成する必要がある。
以下、文脈内容記述データ変換方法の第1実施例について、元の文脈内容記述データの一例を用いて説明する。以下の説明で用いる一例としての元の文脈内容記述データは、図264に示すように、(keyword a,priority 2)および(keyword b,priority 1)が属性として付加された<segment 1>と、(keyword a,priority 2)および(keyword c,priority 2)が付加された<segment 2>と、(keyword b,priority 4)および(keyword d,priority 3)とが付加された<segment 3>を葉として有するものである。
まず、元の文脈内容記述データの<segment>に付加されている「keyword」の集合を求める。前記元の文脈内容記述データ例(以下、単に例という)からは、{keyword a,keyword b,keyword c,keyword d}が求められる。次に、keyword毎に、同じkeywordが付加された<segment>の集合を求める。例では、keyword aについては<segment 1>(priority 2)と<segment 2>(priority 2)とから成る集合、keyword bについては<segment 1>(priority 1)と<segment 3>(priority 4)とから成る集合、keyword cについては<segment 2>(priority 2)から成る集合、keyword dについては<segment 3>(priority 3)から成る集合が求められる。
次に、各集合に対して、セグメントの集合をpriority毎にグループ化する。例では、keyword aのセグメント集合はどちらのセグメントもpriorityが2であるため、これら2つのセグメントをpriority 2の一グループとする。また、keyword bのセグメント集合は、<segment 1>にpriority 1が付加されており、<segment3>にpriority 4が付加されているため、これらのセグメントをpriority 1のグループ(<segment 1>のみ)とpriority 4のグループ(<segment 3>のみ)との2つのグループに分ける。keyword cおよびkeyword dに対しても同様にグループ化を行う。
次に、各priorityを重要度の高低を示す「level」に変換する。上述したように、priorityが整数値で表現されている場合、「level」は整数値がそのまま利用される。したがって、例では、priority N(N=1,2,3,4,5)の付加された<segment>がlevel Nのセグメントとなる。
さらに、第2の文脈内容記述データとして入れ子形式を採用するのであれば、グループ化された各セグメントをlevelの高低に従って親子関係とする。また、並列形式を採用するのであれば、グループ化された各セグメントを兄弟関係として、levelの高い順または低い順に並べる。
このようにして作成された第2の文脈内容記述データのデータ構造を、図265に示す。なお、同図において、<keyword a>および<level 2>のセグメントには<segment 1>と<segment 2>の2つがあるが、これらが時間的に連続しているのであれば1つにまとめて、例えば<segment A>としても良い。
(文脈内容記述データ変換方法の第2実施例)文脈内容記述データ変換方法の第2実施例によって作成される第2の文脈内容記述データは、図266に示すように、コンテンツ<contents>を根(root)とし、<contents>の子要素である<keyword>、および各<keyword>の子要素である<segment>を備えた木構造を有し、各<segment>には「priority」が属性として付加されている。
なお、本第2の文脈内容記述データも、文脈内容記述データ変換方法の第1実施例によって作成された第2の文脈内容記述データと同様に、<section>は記述されず、各<segment>には、「priority」の他に時間情報(start, end)が付加されている。また、本文脈内容記述データ変換方法の第2実施例には、priorityからlevelへの変換を行わないため、本第2の文脈内容記述データには、文脈内容記述データ変換方法の第1実施例によって作成された第2の文脈内容記述データに記述されている<level>は記述されない。
以下、文脈内容記述データ変換方法の第2実施例について、先に用いた元の文脈内容記述データの一例を用いて説明する。まず、文脈内容記述データ変換方法の第1実施例と同様に、元の文脈内容記述データの<segment>に付加されている「keyword」の集合を求める。次に、keyword毎に、そのkeywordが付加された<segment>の集合を求める。次に、各<segment>に対して元々付加されていたpriorityを付加する。
このようにして作成された第2の文脈内容記述データのデータ構造を、図267に示す。なお、同図において、<keyword a>のセグメントには<segment 1>と<segment 2>の2つがあるが、これらが時間的に連続しており、かつ、それぞれに付加されているpriorityが同一であれば1つにまとめて、例えば<segment A>としても良い。
(文脈内容記述データ変換方法の第3実施例)文脈内容記述データ変換方法の第3実施例によって作成される第2の文脈内容記述データは、図268および図269に示すように、コンテンツ<contents>を根(root)とし、<contents>の子要素である<level>、および各<level>の子要素である<segment>を備えた木構造を有し、各<segment>には「keyword」が属性として付加されている。
なお、本第2の文脈内容記述データも、文脈内容記述データ変換方法の第1実施例によって作成された第2の文脈内容記述データと同様に、<section>は記述されず、各<segment>には、「priority」の他に時間情報(start, end)が付加されている。
以下、文脈内容記述データ変換方法の第3実施例について、先に用いた元の文脈内容記述データの一例を用いて説明する。まず、元の文脈内容記述データの<segment>に付加されている「priority」に基づいて、priority毎に、同じpriorityが付加された<segment>の集合を求める。図264に示した元の文脈内容記述データ例では、priority 1については<segment 1>(keyword b)からなる集合が、priority 2については<segment 1>(keyword a)と<segment 2>(keyword a,keyword c)とから成る集合が、priority 3については<segment 3>(keyword d)から成る集合が、priority 4については<segment 3>(keyword b)から成る集合が求められる。
次に、各priorityを重要度の高低を示す「level」に変換する。上述したように、priorityが整数値で表現されている場合、「level」は整数値がそのまま利用される。したがって、例では、priority N(N=1,2,3,4,5)の付加された<segment>がlevel Nのセグメントとなる。
さらに、各priorityに対して元々付加されていた「keyword」を付加する。例では、level 1のセグメント集合は<segment 1>を有し、この<segment 1>には元々keyword bが付加されていたため、keyword bを付加する。また、level 2のセグメント集合は<segment 1>および<segment 2>を有し、特に、level 2が付加された<segment 2>には、元々keyword aが付加されたものとkeyword cが付加されたものとがあるため、もう1つ<segment 2>を作成して、一方の<segment 2>にはkeyword aを付加し、もう1つの<segment 2>にはkeyword cを付加する。level2の<segment 1>、level 3の<segment 3>およびlevel 4の<segment 3>に対しても同様の処理を行う。
このようにして作成された第2の文脈内容記述データのデータ構造を、図270に示す。なお、ある<segment>に複数の異なるkeywordが付加されている場合は、図269に示すように、ひとつの<segment>に複数のkeywordが付加された形態としても良い。したがって、図270に示した第2の文脈内容記述データでは、level 2の<segment 2>にpriority aとpriority cの2つを付加しても良い。また、同図において、level 2のセグメントにはpriority aが付加された<segment 1>と、priority aが付加された<segment 2>の2つがあるが、これらが時間的に連続しているのであれば1つにまとめて、例えば<segment A>としても良い。
以上説明した文脈内容記述データ変換方法の第1〜第3実施例によって作成された第2の文脈内容記述データは、第7の実施形態で説明した選択ステップのフローチャートにおけるS5〜S9の処理で用いられる。図57に示したような元の文脈内容記述データを用いた選択ステップは、ユーザからのあらゆる要求に応えることができるという柔軟性を有するが、第2の文脈内容記述データを用いた選択ステップでは、ユーザからの要求に対して、該当する<segment>を即座に得ることができるといった利点がある。
なお、上記の実施の形態においては、重要度のしきい値を用いて、しきい値以上の値を持つ<section>または<segment>の選択を行うこととしているが、特定の値の重要度を持つ<section>または<segment>の選択を行うとしても良い。
また、上記の実施の形態においては、文脈内容記述データと物理内容記述データをそれぞれ別の実体で記述したが、図127〜図132に示すように、ひとつにまとめたものを用いても良い。
以上説明したように、上述のデータ処理方法、記録媒体およびプログラムによれば、階層構造の文脈内容記述データを用いて、選択手段(選択ステップ)により、文脈内容記述データに付加されたスコアに基づいてメディアコンテンツ中の少なくとも1つの区間を選択しており、特に、抽出手段(抽出ステップ)によって、選択手段(選択ステップ)が選択した区間に対応するデータのみを抽出するか、再生手段(再生ステップ)によって、選択手段(選択ステップ)が選択した区間に対応するデータのみを再生している。
このため、より重要なシーンをメディアコンテンツの中から自由に選択することができ、この重要な選択された区間を抽出または再生することができる。また、文脈内容記述データが最上位層、最下位層およびその他の層から構成された階層構造であるため、章や節など任意の単位でシーンを選択することができ、ある節を選択してその中の不要な段落は削除するなど、多様な選択形式をとることができる。
また、スコアをメディアコンテンツの文脈内容に基づいた重要度を示すものとすることによって、このスコアを重要な場面を選択するよう設定しておくことによって、例えば、番組などのハイライトシーン集などの作成を容易に行うことができ、また、スコアを該当する場面におけるキーワードの観点に基づいた重要度を示すものとし、キーワードを決定することによってより自由度の高い区間の選択を行うことができる。例えば、キーワードを登場人物や事柄などの特定の観点によって決定することによって、ユーザが見たい場面だけを選び出すことができる。
また、メディアコンテンツが同一時間においてそれぞれ異なる複数のメディア情報を有しているとき、判定手段(判定ステップ)が、判定条件からどのメディア情報を選択対象とするかを判定し、選択手段(選択ステップ)が判定手段(判定ステップ)によって判定されたデータからのみ選択処理を行っている。このため、判定手段(判定ステップ)は、判定条件に応じて、最適な区分のメディア情報を判定することができるため、選択手段(選択ステップ)は適切なデータ量のメディア情報を選択することができる。
また、判定手段(判定ステップ)が、判定条件から映像情報のみ、音情報のみ、または映像情報および音情報のいずれかを選択対象とするかを判定しているため、選択手段(選択ステップ)が行う区間の選択のために要する時間を短縮することができる。
また、文脈内容記述データに代表データが属性として付加され、判定手段は、これら判定条件に応じて、最適な区分のメディア情報または代表データを判定することができる。
さらに、判定手段(判定ステップ)が、判定条件に応じて、該当するメディアセグメントの全体データのみ、代表データのみ、または全体データおよび代表データ両方のいずれかを選択対象と判定しているため、判定手段(判定ステップ)は、選択手段(選択ステップ)が行う区間の選択のために要する時間を短縮することができる。