JP2008310820A - データ処理装置、データ処理方法および記録媒体 - Google Patents

データ処理装置、データ処理方法および記録媒体 Download PDF

Info

Publication number
JP2008310820A
JP2008310820A JP2008186374A JP2008186374A JP2008310820A JP 2008310820 A JP2008310820 A JP 2008310820A JP 2008186374 A JP2008186374 A JP 2008186374A JP 2008186374 A JP2008186374 A JP 2008186374A JP 2008310820 A JP2008310820 A JP 2008310820A
Authority
JP
Japan
Prior art keywords
data
segment
scene
section
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008186374A
Other languages
English (en)
Inventor
Toshihiko Munetsugi
敏彦 宗續
Minoru Eito
稔 栄藤
Shoichi Araki
昭一 荒木
Koichi Emura
恒一 江村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2008186374A priority Critical patent/JP2008310820A/ja
Publication of JP2008310820A publication Critical patent/JP2008310820A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】必要とする場面をメディアコンテンツの中から自由に選択することができるデータ作成装置、データ処理方法および記録媒体を提供すること。
【解決手段】文脈内容記述データを入力する入力部と、文脈内容記述データからセグメントを選択する選択部とを有するデータ処理装置のデータ処理方法は、入力部が、複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも1つのキーワードによって表される観点と、観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも1つ記述されている属性部との両方を有する文脈内容記述データを入力する入力ステップと、選択部が、属性部に記述されている観点及びスコアの少なくとも一つに基づいて、データ構造部からセグメントを選択する選択ステップとを有する。
【選択図】図1

Description

本発明は、動画や映像、音声などの連続視聴覚情報(メディアコンテンツ)の視聴、再生、配送、蓄積において、該当メディアコンテンツのあらすじやハイライトシーン、あるいは視聴者が見たいと希望するシーンのみを再生、配送するための、メディアコンテンツのデータ作成装置、データ処理方法および記録媒体を提供するものである。
従来、メディアコンテンツの再生、配送、蓄積は、メディアコンテンツを格納するファイル単位で行われていた。
また、動画の特定シーンの検索を行う方法として、特開平10-111872号公報のように、動画の場面の切り替わり(シーンカット)を検出し、シーンカットごとに、開始フレームのタイムコード、終了フレームのタイムコード、該当シーンのキーワードの付加情報をつけて行っていた。
あるいは、カーネギーメロン大学(CMU)では、動画のシーンカットの検出、人間の顔やキャプションの検出、音声認識によるキーフレーズの検出などにより、動画の要約を行っていた(Michael A. Smith, Takeo Kanade, 「Video Skimming and Characterization through the Combination of Image and Language Understanding Techniques」、CMU-CS-97-111,1997年2月3日)。
しかしながら従来の方法では、再生をファイル単位で行う場合、そのコンテンツのあらすじを見ることは不可能である。また、ハイライトシーンや、ユーザが見たい場面を検索する場合においても、コンテンツの先頭から参照しなければならないという問題があった。また、動画配送においては、ファイルのデータすべてを送信するため、多大な時間を要するといった問題があった。
また、特開平10-111872号公報の方法によれば、シーンの検索はキーワードを用いて行うことができるため、ユーザが望むシーンの検索は容易となる。しかし、付加情報には各シーンの間の関係やつながりといったものがなく、例えば、物語のひとつの節を検索する場合の処理が困難となる。また、キーワードだけの検索ではどの場面が文脈上重要であるか知ることが困難であるため、あらすじの作成やハイライトシーン集の作成も困難である。
また、CMUの手法によると、動画の要約は行えるが、結果は一通りに定まってしまうため、例えば5分の要約と3分の要約などのように、再生時間を変えた要約を行うことは困難である。また、特定の人物の写っているシーンなどを選択するといった、ユーザの要望による要約も困難である。
Michael A. Smith, Takeo Kanade, 「Video Skimming and Characterization through the Combination of Image and Language Understanding Techni ques」、CMU-CS-97-111, 1997年2月3日 特開平10-111872号公報
本発明は、メディアコンテンツの再生において、そのあらすじやハイライトシーンのみ、あるいは、視聴者が希望するシーンのみを選択し、再生、配送する手段を提供することを目的とする。
また、あらすじやハイライトシーン、視聴者の希望するシーンなどの選択において、その再生時間をユーザが希望する時間に合わせて行う手段を提供することを目的とする。
さらに、メディアコンテンツの配送において、ユーザの要求により、ユーザが希望する再生時間であらすじ、ハイライトシーン集、ユーザの希望するシーンといったもののみを配送する手段を提供することを目的とする。
さらに、サーバとユーザの通信を行う回線状況によって配送するデータ量を調整する手段を提供することを目的とする。
本発明は、複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、前記複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも1つのキーワードによって表される観点と、前記観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも1つ記述されている属性部との両方を有する文脈内容記述データを入力する入力部と、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つに基づいて、前記データ構造部からセグメントを選択する選択部と、を備えるデータ処理装置を提供する。
上記データ処理装置では、前記メディアコンテンツの各場面は、場面の区切りに応じて時間によって区切られ、前記属性部には、前記複数のセグメントの各々に割り当てられる属性情報として、場面の区切りを表す時間情報が記述されている。
上記データ処理装置では、前記属性部は、前記観点と前記スコアの組が1つのセグメントに複数記述されている。
上記データ処理装置では、前記選択部は、前記属性部に記述されている前記スコアと前記時間情報に基づいてセグメントを選択する際に、その選択されたセグメントの継続時間の和が設定時間以下になるように選択する。
上記データ処理装置では、前記選択部は、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つと、その時間情報に基づいてセグメントを選択する際に、その選択されたセグメントの継続時間の和が設定時間以下になるように選択する。
上記データ処理装置では、前記選択部は、前記スコアが大きい順にセグメントを選択する。
上記データ処理装置では、前記データ構造部には、前記複数のセグメントが階層的に記述されている。
上記データ処理装置では、前記属性部には、文脈内容に関する補助情報が記述されている。
本発明は、文脈内容記述データを入力する入力部と、前記文脈内容記述データからセグメントを選択する選択部とを有するデータ処理装置のデータ処理方法であって、前記入力部が、複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、前記複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも1つのキーワードによって表される観点と、前記観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも1つ記述されている属性部との両方を有する文脈内容記述データを入力する入力ステップと、前記選択部が、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つに基づいて、前記データ構造部からセグメントを選択する選択ステップと、を有するデータ処理方法を提供する。
上記データ処理方法では、前記メディアコンテンツの各場面は、場面の区切りに応じて時間によって区切られ、前記属性部には、前記複数のセグメントの各々に割り当てられる属性情報として、場面の区切りを表す時間情報が記述されている。
本発明は、複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、前記複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも1つのキーワードによって表される観点と、前記観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも1つ記述されている属性部との両方を有する文脈内容記述データを入力する入力ステップと、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つに基づいて、前記データ構造部からセグメントを選択する選択ステップとをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記憶媒体を提供する。
上記記録媒体では、前記メディアコンテンツの各場面は、場面の区切りに応じて時間によって区切られ、前記属性部には、前記複数のセグメントの各々に割り当てられる属性情報として、場面の区切りを表す時間情報が記述されている。
本発明によれば、必要とする場面をメディアコンテンツの中から自由に選択することができるデータ作成装置、データ処理方法および記録媒体を提供することができる。
以下、図面を参照しながら、本発明の実施の形態について説明する。
〔第1の実施の形態〕
以下、本発明に係る第1の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における文脈内容に基づいた客観的な重要度とする。
図1は、本実施の形態におけるデータ処理方法のブロック図である。図1において、101は選択ステップを、102は抽出ステップを表す。選択ステップ101は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間を出力する処理を行う。また、抽出ステップ102は、選択ステップ101が出力した開始時間と終了時間によって区切られるメディアコンテンツの区間のデータを抽出する処理を行う。
図2に、本実施の形態の文脈内容記述データの構成を示す。本実施の形態では、文脈内容を木構造で記述する。また、木構造の兄弟関係は、左から時間順にならんでいるものとする。図2において、<contents>と記されている木構造の根(root)は、ひとつのコンテン
ツを表し、属性としてそのコンテンツのタイトルが付けられる。
<contents>の子要素は、<section>である。<section>には、該当場面の文脈内容上の重要度を表すpriorityが属性として付加される。重要度は1から5までの整数値とし、1が最も重要度が低く、5が最も重要度が高い、とする。
<section>の子要素は、<section>か<segment>である。すなわち、<section>は、それ自身を子要素としても良いとする。ただし、ひとつの<section>の子要素として、<section>と<segment>を混在させてはならないこととする。
<segment>は、ひとつのシーンカットを表し、<section>と同様のpriorityと、該当シーンの時間情報として、開始時間を表すstartと、終了時間を表すendとが、属性として付加される。シーンカットの方法は、市販されていたり、ネットワークで流通しているソフトを用いても良いし、人手で行っても良い。なお、本実施の形態では、時間情報をシーンカットの開始時間と終了時間としたが、時間情報として開始時間と該当シーンの継続時間としても同様の効果が得られる。この場合、該当シーンの終了時間は、開始時間に継続時間を加算して求められる。
この文脈内容記述データにより、映画などの物語の場合は、多階層の<section>により、章、節、段落などを記述することができる。もうひとつの例として野球を記述する場合、最上位の<section>で回を記述し、その子要素の<section>で表裏を記述し、その子要素の<section>で各打者の場面を記述し、さらにその子要素の<section>で、各投球やその合間、その打席の結果などを記述することができる。
この構成の文脈内容記述データをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。XMLはWorld Wide Web Consortiumによって標準化が進められているデータ記述言語であり、1998年2月10日にVer. 1.0が勧告された。XML ver. 1.0の仕様書は、http://www.w3.org/TR/1998/REC-xml-19980210で得られる。図3〜図9は、本実施の形態の文脈内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる文脈内容記述データの一例である。また、図10〜図19は、図3〜図9に示す文脈内容記述データに、代表画像(映像情報)やキーワード(音情報)などのメディアセグメントの代表データ(dominant-data)を追加した文脈内容記述データの一例と、該文脈内容記述データをXMLで記述するためのDTDである。
以下、選択ステップ101での処理について説明する。選択ステップ101での処理は、文脈内容記述データの形式、および各場面の文脈内容におけるスコアの付け方と密接に関係するものである。本実施の形態では、選択ステップ101は図22に示すような<segment>を子要素にもつ<section>のみに着目し(図23のS1、S4、S5)、そのpriorityの値があるしきい値より大きい<section>を選択し(図23のS2)、その開始時間と終了時間を出力する処理(図23のS3)を行うこととする。そのため、<segment>を子要素に持つ<section>のpriorityは、コンテンツ内すべての<segment>を子要素に持つ<section>の間での重要度とする。すなわち、図22における点線で囲んだ<section>の中での重要度をpriorityに設定する。これ以外の<section>、<segment>のpriorityの付け方は任意とする。なお、重要度はすべて異なる値である必要はなく、異なる要素に同じ値の重要度が付いてよいとする。図23に、本実施の形態における選択ステップでの処理のフローチャートを示す。選択された<section>に関しては、その子要素である<segment>から、該当<section>で表現される場面の開始時間と終了時間を調べる。そして、その開始時間と終了時間を出力する。
なお、本実施の形態では、<segment>を子要素として持つ<section>に着目して処理を行ったが、ほかに<segment>に着目して、それらの選択を行っても良い。この場合、priorityは、コンテンツ内すべての<segment>間での重要度とする。また、<segment>を子要素として持たない上位層の<section>のうち、同じ階層のものに着目して、その選択を行っても良い。すなわち、<contents>あるいは<segment>から数えて同じ経路数の<section>に着目した処理を行っても良い。
以下、図24を参照しながら、抽出ステップ102の動作について説明する。図24は、本実施の形態に係わる抽出ステップ102のブロック図である。図24において、本実施の形態における抽出ステップ102は、分離手段601と、ビデオスキミング手段602と、オーディオスキミング手段603とから構成される。本実施の形態においては、メディアコンテンツとしてMPEG1システムストリームを想定している。MPEG1システムストリームはビデオストリームとオーディオストリームが多重化されたものであり、分離手段601は、多重化されたシステムストリームをビデオストリームとオーディオストリームとに分離するものである。ビデオスキミング手段602は、分離されたビデオストリームと選択ステップ101の出力である区間を入力とし、入力されたビデオストリームから、選択された区間のデータだけを出力するものである。オーディオスキミング手段603は、分離されたオーディオストリームと選択ステップ101の出力である区間を入力とし、入力されたオーディオストリームから、選択された区間のデータだけを出力するものである。
以下、図を参照しながら、分離手段601の処理について説明する。図25に分離手段601の処理のフローチャートを示す。MPEG1システムストリームの多重化方式は、国際標準ISO/IEC IS 11172-1で標準化されたものであり、ビデオストリームとオーディオストリームがパケットにより多重化されている。パケットによる多重化は、ビデオストリーム、オーディオストリームそれぞれを、パケットと呼ばれる適当な長さのストリームに分割し、ヘッダなどの付加情報を付けて行うものである。この時、ビデオストリームとオーディオストリームは、それぞれ複数あっても良いとされている。パケットのヘッダには、ビデオ、オーディオを区別することができるストリームidや、ビデオとオーディオの同期をとるためのタイムスタンプが記述されている。ストリームidは、ビデオとオーディオの区別だけでなく、ビデオが複数あった場合、どのストリームであるかの区別することができるものである。同様に、オーディオストリームが複数あった場合にも、区別することができるものである。MPEG1システムでは、パケットを複数束ねたパックという単位で構成される。パックには、多重化レートや同期再生用の時間基準参照用の付加情報などがヘッダとして付加されている。さらに先頭のパックには、多重化したビデオストリーム数やオーディオストリーム数などの付加情報がシステムヘッダとして付けられている。分離手段601は、まず先頭のパックのシステムヘッダから、多重化されているビデオストリーム数とオーディオストリーム数を読みとり(S1、S2)、各ストリームのデータを保存する領域を確保する(S3、S4)。続いて、各パケットごとにストリームidを調べ、該当ストリームidで指定されるストリームを保存するデータ領域にパケットデータを書き込む(S5、S6)。すべてのパケットに対して以上の処理を繰り返す(S8、S9、S10)。すべてのデータに対して処理を行った後、各ストリーム毎に、ビデオストリームはビデオスキミング手段602へ、オーディオストリームはオーディオスキミング手段603へ出力する(S11)。
以下、ビデオスキミング手段602の動作について述べる。図26にビデオスキミング手段602の処理のフローチャートを示す。MPEG1のビデオストリームは、国際標準ISO/IEC IS 11172-2で標準化されたものであり、図27に示すように、シーケンス層、GOP層、ピクチャ層、スライス層、マクロブロック層、ブロック層で構成されている。そのランダムアクセスの最小単位はGOP(Group Of Pictures)層である。また、ピクチャ層のひとつが1フレームに相当する。ビデオスキミング手段602は、GOP単位のデータ処理を行う。初期化処理として、出力したフレーム数のカウンタCを0とする(S3)。まず、ビデオスキミング手段602は、ビデオストリームの先頭がシーケンス層のヘッダであることを確認し(S2、S4)、そのデータを保存するとともに(S5)、そのヘッダのデータを出力する。シーケンス層のヘッダは以降も現れる場合があるが、その値は量子化マトリックス以外は変更が許されないため、シーケンスヘッダが入力されるたびに値の比較を行って(S8、S14)、量子化マトリックス以外の値が異なる場合はエラーとする(S15)。続いてビデオスキミング手段602は、入力されたデータからGOP層のヘッダを検出する(S9)。GOP層のヘッダにはタイムコードのデータが記述されている(S10)。これは、シーケンスの先頭からの時間を記述したものである。ビデオスキミング手段602は、このタイムコードと選択ステップ101が出力した区間(S1)との比較を行う(S11)。タイムコードが選択された区間に含まれていない場合、ビデオスキミング手段602は、次のGOP層またはシーケンス層が現れるまでのデータをすべて廃棄する。タイムコードが選択された区間の中に含まれている場合、ビデオスキミング手段602は、この次のGOP層あるいはシーケンス層が現れるまでのデータをすべて出力する(S13)。ただし、それまで出力されたデータとの連続性を持たせるために、GOP層のタイムコードを変更する必要がある(S12)。そこで、カウンタCの値を用いて変更するタイムコードを求める。カウンタCは、それまでに出力されたフレーム数であるため、今回出力するGOP層の先頭フレームが表示される時間Tvは、Cとシーケンスヘッダに記述されている毎秒の表示画面数であるピクチャレートprを用いて、以下の式(1)により求められる。
Tv=C/pr ・・・(1)
Tvは1/pr秒単位の値であるため、これをMPEG1のタイムコードのフォーマットにしたがって変換し、今回出力するGOP層のタイムコードに設定する。また、GOP層のデータを出力するときに、出力したピクチャ層の数をカウンタCに加算する。以上の処理を、ビデオストリームの最後まで繰り返す(S7、S16)。分離手段601から複数のビデオストリームが出力された場合は、上記の処理を各ビデオストリーム毎に行う。
以下、オーディオスキミング手段603の処理について記述する。図28にオーディオスキミング手段603の処理のフローチャートを示す。MPEGオーディオは国際標準ISO/IEC IS 11172-3で標準化されたものであり、AAU(Audio Access Unit)と呼ばれるフレームから構成される。図29にAAUの構造を示す。AAUはひとつひとつ独立でオーディオデータに復号できる最小単位であり、常に一定のサンプル数Snのデータで構成されている。したがって伝送速度であるビットレートbrと、サンプリング周波数Fsと、AAUのビット数Lから、1AAUの再生時間を算出することができる。まず、オーディオストリームからAAUのヘッダを検出することによって(S2、S5)、1AAUのビット数Lを求めることができる。また、AAUのヘッダには、ビットレートbrとサンプリング周波数Fsが記述されている。1AAUのサンプル数Snは以下の式(2)によって求められる。
Sn=(L×Fs)/br ・・・(2)
また、1AAUの再生時間Tuは以下の式(3)によって求められる(S3)。
Tu=Sn/Fs=L/Br ・・・(3)
Tuを求めると、AAUの個数をカウントすることによって、ストリームの先頭からの時間を得ることができる。オーディオスキミング手段603は、それまで現れたAAUの個数をカウントし、その先頭からの時間を算出する(S7)。その時間と、選択ステップ101が出力した区間との比較を行う(S8)。AAUの出現時間が選択された区間に含まれる場合、オーディオスキミング手段603はそのAAUのデータをすべて出力する(S9)。また、AAUの出現時間が選択された区間に含まれていない場合、オーディオスキミング手段603はそのAAUのデータを廃棄する。以上の処理を、オーディオストリームの最後まで繰り返す(S6、S11)。分離手段601から複数のオーディオストリームが出力された場合は、各オーディオストリーム毎に上記の処理を行う。
本実施の形態の効果としては、図30に示すように、抽出ステップ102の出力であるビデオストリームとオーディオストリームをそれぞれビデオ再生手段、オーディオ再生手段に入力させ、ビデオストリームとオーディオストリームを同期させて再生することにより、該当メディアコンテンツのあらすじやハイライトシーンを再生することができる。また、上記得られたビデオストリームとオーディオストリームを多重化することによって、該当メディアコンテンツのあらすじやハイライトシーン集のMPEG1システムストリームを作成することができる。
〔第2の実施の形態〕
以下、本発明に係る第2の実施の形態について述べる。本実施の形態は、第1の実施の形態と比較して、選択ステップの処理のみが異なるものである。
以下、図を参照しながら本実施の形態における選択ステップ101の処理について記述する。本実施の形態における選択ステップ101では、最上位の<section>から葉である<segment>まですべてのpriorityを利用する。<section>、<segment>の各々のpriorityは、文脈内容における客観的な重要度とする。この処理を図31を参照しながら説明する。図31において、1301は文脈内容記述データにおける最上位の<section>のうちのひとつである。1302は<section>1301の子要素<section>である。1303は<section>1302の子要素<section>である。1304は<section>1303の子要素<segment>である。本実施の形態における選択ステップ101では、<segment>から祖先である最上位の<section>までの経路上すべてのpriorityの相加平均をとり、その値がしきい値以上の<segment>を選択する。図28の例では、<segment>1304と、<section>1303と、<section>1302と、<section>1301との、それぞれの属性priorityの値p4,p3,p2,p1の相加平均paを計算する。paは以下の式(4)によって求められる。
pa=(p1+p2+p3+p4)/4 ・・・(4)
このpaとしきい値との比較を行い(S1、S2)、paがしきい値以上であれば<segment>1304を選択し(S3)、<segment>1304の属性startとendの値を、選択された場面の開始時間と終了時間として出力する(S4)。以上の処理をすべての<segment>に対して行う(S1、S6)。図32に、本実施の形態における選択ステップ101の処理のフローチャートを示す。
なお、本実施の形態では、<segment>から祖先である最上位の<section>までのpriorityの相加平均を算出して、それにより<segment>の選択を行ったが、これを、<segment>を子要素としてもつ<section>から祖先である最上位の<section>までのpriorityの相加平均をとって、しきい値処理により、<segment>を子要素として持つ<section>の選択を行っても良い。同様に、他の階層の<section>から祖先である最上位の<section>までの相加平均をとって、しきい値処理により、その階層の<section>の選択を行っても良い。
〔第3の実施の形態〕
以下、本発明に係る第3の実施の形態について述べる。本実施の形態も、第1の実施の形態と比較して、選択ステップの処理のみが異なるものである。
以下、図を参照しながら本実施の形態における選択ステップ101の処理について記述する。本実施の形態における選択ステップ101は、第1の実施の形態における処理と同様に、<segment>を子要素にもつ<section>のみに着目し、その選択を行う。本実施の形態においては、選択する場面すべての継続時間の和にしきい値を設ける。すなわち、それまでに選択された<section>の継続時間の和が、このしきい値以下で最大となるまで、<section>のpriorityの大きい順に選択を行う。図33に、本実施の形態における選択ステップ101のフローチャートを示す。<segment>を子要素としてもつ<section>の集合をΩとする(S1)。まず、属性priorityをキーとして、Ωの要素<section>を降順にソートする(S2)。Ωから最もpriorityの大きい<section>を選択する(S4、S5)。選択された<section>をΩから除去する。選択された<section>の子要素<segment>をすべて調べることにより、<section>の開始時間と終了時間を求め、<section>の継続時間を計算する(S6)。これまでに選択された<section>の継続時間の和を求め(S7)、しきい値を越えていれば処理を終了する(S8)。しきい値以下であれば、今回選択された<section>の開始時間と終了時間とを出力し(S9)、Ωからpriorityの最も大きい<section>の選択へ返る。この処理を、選択された<section>の継続時間の和がしきい値を越えるか、あるいはΩが空集合となるまで繰り返す(S4、S8)。
なお、本実施の形態では、<segment>を子要素として持つ<section>に着目して処理を行ったが、ほかに<segment>に着目して、それらの選択を行っても良い。この場合、priorityは、コンテンツ内すべての<segment>間での重要度とする。また、<segment>を子要素として持たない<section>のうち同じ階層のものに着目して、その選択を行っても良い。すなわち、<contents>あるいは<segment>から数えて同じ経路数の<section>に着目した処理を行っても良い。
また、第2の実施の形態と同様に、<section>、<segment>の各々のpriorityを文脈内容における客観的な重要度とし、<segment>から祖先である最上位の<section>までのpriorityの相加平均paを計算して、paの大きい順から<segment>を子要素としてもつ<section>、あるいは<segment>を、継続時間の和がしきい値以下の最大となるまで選択する、としても同様の効果が得られる。
〔第4の実施の形態〕
以下、本発明に係る第4の実施の形態について述べる。本実施の形態も、第1の実施の形態と比較して、選択ステップの処理のみが異なるものである。
以下、図を参照しながら本実施の形態における選択ステップ101の処理について記述する。本実施の形態における選択ステップ101は、第1の実施の形態における処理と同様に、<segment>と<segment>を子要素にもつ<section>とに着目し処理を行う。また、本実施の形態においては、第3の実施の形態と同様に、選択する場面すべての継続時間の和にしきい値を設ける。<segment>を子に持つ<section>のpriorityは、第1の実施の形態と同様、コンテンツ内すべての<segment>を子要素に持つ<section>の間での重要度とする。すなわち、図34における点線で囲んだ<section>間での重要度とする。また、<segment>のpriorityは、同じ<section>を親要素に持つ<segment>間での重要度とする。すなわち、図34における一点鎖線で囲んだ中の<segment>間での重要度とする。
図35に本実施の形態における選択ステップ101の処理のフローチャートを示す。まず、<segment>を子要素として持つ<section>の集合をΩとする(S1)。Ωをpriorityのキーとして降順にソートする(S2)。続いて、Ωからpriorityの最も大きい<section>を選択する(S3、S4、S5)。この時、最も重要度の大きい<section>が複数ある場合はすべて選択する。選択された<section>を集合Ω’の要素とし、集合Ωから削除する。選択された<section>の子要素<segment>から、該当<section>で表現される場面の開始時間と終了時間と継続時間を求めて記憶しておく(S6)。<section>が複数選択された場合は、そのすべてに関して、それらを求める。Ω’の要素である<section>の継続時間の総和を求め(S7、S8)、しきい値との比較を行う(S9)。継続時間の総和がしきい値と等しい場合は、記憶しておいた開始時間と終了時間をすべて出力して、処理を終了する(S10)。継続時間の総和がしきい値より小さい場合は、Ωから<section>の選択処理へ返る(S4、S5)。このときΩが空集合の場合は、記憶しておいた開始時間と終了時間をすべて出力して、処理を終了する(S4)。継続時間の総和がしきい値より大きい場合は、以下の処理を行う。集合Ω’の要素のうち、重要度が最も小さい<section>を選択する(S11)。このとき、最も重要度の小さい<section>が複数ある場合は、それらをすべて選択する。選択された<section>の子要素<segment>のうち、最も重要度の小さいものを削除し(S12)、記憶されている該当<section>の開始時間と終了時間と継続時間を変更する(S13)。<segment>の削除によって、場面が分断されることがあるが、この場合は、分断されたそれぞれの開始時間と終了時間と継続時間を記憶しておくこととする。また、<segment>の削除によって、すべての<segment>が削除された<section>がある場合は、その<section>をΩ’から削除する。選択された<section>が複数ある場合は、そのすべてに関してこの処理を行う。<segment>を削除することによって、該当<section>の継続時間が短くなり、継続時間の総和も短くなる。この削除処理を、Ω’の要素の継続時間の総和がしきい値以下になるまで繰り返す。Ω’の要素の継続時間の総和がしきい値以下となった場合は(S14)、記憶している開始時間と終了時間をすべて出力して、処理を終了する(S15)。
なお、本実施の形態においては、<segment>と<segment>を子要素としてもつ<section>に着目して処理を行っているが、<section>とその子要素の<section>、<section>とその子要素の<section>に着目して処理を行っても同様の効果が得られる。
また、継続時間の総和がしきい値を越えた場合の<segment>の削除処理に関して、priorityの小さい<section>から削除を行ったが、<section>のpriorityにしきい値を設け、そのしきい値以下の<section>すべてから最も小さい重要度の<segment>を削除する、としてもよい。さらに、<segment>のpriorityにしきい値を設け、しきい値以下の<segment>を削除する、としても良い。
〔第5の実施の形態〕
以下、本発明に係る第5の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における文脈内容に基づいた客観的な重要度とする。
図36は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図36において、1801は選択ステップを、1802は抽出ステップを、1803は構成ステップを、1804は配送ステップを、1805はデータベースを表す。選択ステップ1801は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行う。抽出ステップ1802は、選択ステップ1801が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行う。構成ステップ1803は、抽出ステップ1802が出力したデータを多重化し、MPEG1システムストリームを構成する処理を行う。配送ステップ1804は、構成ステップ1803が作成したMPEG1システムストリームを、回線を通じて配送する処理を行う。1805はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。
図37に、本実施の形態における物理内容記述データの構成を示す。本実施の形態では、物理内容を木構造で記述する。メディアコンテンツのデータベース1805上の格納形態は、ひとつのメディアコンテンツがひとつのファイルとして格納されているとは限らず、ひとつのメディアコンテンツが複数のファイルに分割されて格納されている場合もある。そこで、物理内容記述データの木構造の根(root)は、<contents>と表記されひとつのコンテンツを表す。根<contents>には、属性として該当コンテンツのタイトルが付けられる。<contents>の子要素は<mediaobject>で、格納されているファイルを表す。<mediaobject>には、属性として格納されているファイルへのリンクlocatorと、文脈内容記述データとの関連付けのために識別子idが属性として付加される。また、メディアコンテンツが複数のファイルで構成されているときのために、該当ファイルがコンテンツ内での順序を表すseqも属性として付加する。
図38に、本実施の形態における文脈内容記述データの構成を示す。これは、第1の実施の形態における文脈内容記述データに、物理内容記述データの<mediaobject>との関連を加えたものである。すなわち、文脈内容記述データの根<contents>の子要素は<mediaobject>で、この<mediaobject>の子要素が<section>となる。<section>、<segment>は第1の実施の形態と同様のものである。文脈内容記述データの<mediaobject>との対応を取る。すなわち、文脈内容記述データの<mediaobject>の子孫で記述されるメディアコンテンツの場面は、同じ値の属性idをもつ物理内容記述データの<mediaobject>が示すファイルに格納されている。また、<segment>の時間情報startとendは、各ファイルの先頭からの時間を設定することとする。すなわち、ひとつのメディアコンテンツが複数のファイルから構成される場合、各ファイルの先頭時間は0であり、各場面の開始時間は、それが格納されているファイルの先頭からそこまでの経過時間で表すこととする。
本実施の形態における物理内容記述データと文脈内容記述データとをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。図39は図37に示す物理内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる物理内容記述データの一例である。また、図40〜図45は図38に示す文脈内容記述データをXMLで記述するためのDTDと、このDTDによる文脈内容記述データの一例である。
以下、選択ステップ1801の処理について説明する。選択ステップ1801での場面の選択の手法は、第1〜第4の実施の形態に記載のいずれかの手法を用いる。ただし、結果として開始時間、終了時間とともに、対応する物理内容記述データの<mediaobject>のidも同時に出力する。物理内容記述データを図39に示すDTDによるXML文書で記述し、文脈内容記述データを図40、図45に示すDTDによるXML文書で表した場合の、選択ステップ1801の出力の一例を図46に示す。図46において、id=の後に物理内容記述データの<mediaobject>のidが記述され、start=の後に開始時間が記述され、end=の後に終了時間が記述される。
以下、抽出ステップ1802の処理について説明する。図47に、本実施の形態に係わる抽出ステップ1802のブロック図を示す。図47において、本実施の形態における抽出ステップ1802は、インターフェース手段2401と、分離手段2402と、ビデオスキミング手段2403と、オーディオスキミング手段2404とから構成される。インターフェース手段2401は、物理内容記述データと選択ステップ1802の出力を入力とし、データベース1805から、メディアコンテンツのファイルを取り出して、そのデータを分離手段2402へ出力し、選択ステップ1802が出力した区間の開始時間と終了時間をビデオスキミング手段2403とオーディオスキミング手段2404へ出力する。分離手段2402は、本実施の形態におけるメディアコンテンツはビデオストリームとオーディオストリームが多重化されたMPEG1システムストリームであるため、ビデオストリームとオーディオストリームとに分離するものである。ビデオスキミング手段2403は、分離されたビデオストリームとインターフェース手段2401が出力した区間を入力とし、入力されたビデオストリームから、選択された区間のデータだけを出力するものである。オーディオスキミング手段2402は、分離されたオーディオストリームと選択ステップ2402が出力した区間を入力とし、入力されたオーディオストリームから、選択された区間のデータだけを出力するものである。
以下、インターフェース手段2401での処理について説明する。図48にインターフェース手段2401の処理のフローチャートを示す。インターフェース手段は、まず該当メディアコンテンツの物理内容記述データと、図46に示すような選択ステップ1801の出力を入力する。物理内容記述データの<mediaobject>の属性idから、ファイルの時間順が得られるので、選択ステップ1801の出力を、idをキーとして、時間順にソートする(S1)。さらに図49のようなデータに変換する。これは、同じファイルのものはまとめ、さらに開始時間順に並べたものである。続いて、インターフェース手段2401は、図49のデータの上から順に以下の処理を行う。まず、idを用いて、物理内容記述データの<mediaobject>を参照し、その属性locatorからファイル名を取得する。該当ファイル名のファイルのデータをデータベースから読み取り、分離手段2402へ出力する(S2、S3)。さらに、図49のidに続いて記されている、該当ファイル内の選択された区間の開始時間と終了時間を、すべてビデオスキミング手段2403とオーディオスキミング手段2404へ出力する(S4)。すべてのデータに対し以上の処理が行われた時は、処理を終了する(S5)。まだデータが残っている場合は、分離手段2402、ビデオスキミング手段2403、オーディオスキミング手段2104の処理終了を待ってから(S6、S7)、以上の処理を繰り返す。
以下、分離手段2402の処理について説明する。図50に分離手段2402の処理のフローチャートを示す。分離手段2402は、インターフェース手段2401からメディアコンテンツであるMPEG1システムストリームを受けとって、ビデオストリームとオーディオストリームに分離し、ビデオストリームをビデオスキミング手段2403へ、オーディオストリームをオーディオスキミング手段2404へ出力し(S1〜S10)、出力終了後(S9、S11)、インターフェース手段2401へ処理終了を通知するものである(S12)。図50のフローチャートに示す通り、処理終了の通知以外は、第1の実施の形態で記述した分離手段と同様の処理を行うものである。
以下、ビデオスキミング手段2403の処理について説明する。図53にビデオスキミング手段2403の処理のフローチャートを示す。図53のフローチャートに示す通り、処理終了時にインターフェース手段2401へ処理終了の通知を行う(S16、S17)以外は、第1の実施の形態で記述したビデオスキミング手段と同様の処理を行うものである。
以下、オーディオスキミング手段2404の処理について説明する。図52にオーディオスキミング手段2404の処理のフローチャートを示す。図52のフローチャートに示す通り、処理終了時にインターフェース手段2401へ処理終了の通知を行う(S11、S12)以外は、第1の実施の形態で記述したオーディオスキミング手段と同様の処理を行うものである。
構成ステップ1803は、抽出ステップ1802が出力したビデオストリームとオーディオストリームを、国際標準ISO/IEC IS 11172-1で標準化されたMPEG1システムの多重化方式により、時分割多重化を行うものである。メディアコンテンツが複数のファイルに分割されて格納されている場合、抽出ステップ1802は各ファイル毎にビデオストリーム、オーディオストリームを出力するため、それぞれに対して多重化を行う。
配送ステップ1804は、構成ステップ1803が多重化したMPEG1システムストリームを回線を通じて配送するものである。構成ステップ1803が複数のMPEG1システムストリームを出力した場合、出力された順にすべてを配送する。
なお、本実施の形態においては、メディアコンテンツが複数のファイルに分割されて格納されている場合は、抽出ステップ1802の処理において、各ファイル毎の処理を行ったが、メディアコンテンツのファイル間で対応するビデオストリーム、オーディオストリームをすべてつなぎ合わせて出力し、構成ステップ1803においては、ビデオストリームとオーディオストリームの多重化により、ひとつのMPEG1システムストリームを構成する、としても同様の効果が得られる。この場合、ビデオスキミング手段2403でのタイムコードの変更処理を以下のように行う必要がある。すなわち、ビデオストリームの数だけ、出力したフレーム数のカウンタCを用意し、Cの初期化は最初のファイルの時にのみ行う(図51のS18、S3)。この場合のビデオスキミング手段2403のフローチャートを図53に示す。また、本実施の形態においては文脈内容記述データと物理内容記述データを別々に記述したが、物理内容記述データの属性seqとlocatorを、文脈内容記述データの<mediaobject>の属性として付加することにより、ひとつにまとめても良い。
〔第6の実施の形態〕
以下、本発明に係る第6の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における文脈内容に基づいた客観的な重要度とする。
図54は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図54において、3101は選択ステップを、3102は抽出ステップを、3103は構成ステップを、3104は配送ステップを、3105はデータベースを表す。選択ステップ3101は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行うもので、第5の実施の形態記載の選択ステップと同様のものである。抽出ステップ3102は、選択ステップ3101が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行うもので、第5の実施の形態記載の抽出ステップと同様のものである。構成ステップ3103は、配送ステップ3104が判断した回線状況に応じて、抽出ステップ3102が出力したストリームの一部またはすべてを多重化し、MPEG1システムストリームを構成する処理を行う。配送ステップ3104は、配送する回線状況を判断してその結果を構成ステップ3103に伝える処理と、構成ステップ3103が作成したMPEG1システムストリームを、回線を通じて配送する処理を行う。3105はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。
図55に、本実施の形態に係わる構成ステップ3103と、配送ステップ3104とのブロック図を示す。図55において、構成ステップ3103はストリーム選択手段3201と、多重化手段3202とから構成され、配送ステップ3104は回線状況判定手段3203と、配送手段3204とから構成される。ストリーム選択手段3201は、抽出ステップ3102が出力したビデオストリーム、オーディオストリームと、回線状況判定手段3203の出力した回線状況を入力とし、回線がすべてのデータを送出するのに十分な状態である場合は、すべてのストリームを多重化手段3202へ出力する。回線が混雑している、あるいは容量の小さい回線であるなど、すべてのデータを送出すると多大な時間を要する場合は、ビデオストリーム、オーディオストリームそれぞれ複数あるうちの一部だけを選択して多重化手段3202へ出力する。この場合の選択の方法には、ビデオストリームに関しては基本レイヤのストリームだけ、など、また、オーディオストリームに関しては、モノラルだけ、あるいはステレオのレフトだけ、ステレオのライトだけ、などさまざまな組合せがある。ただし、ビデオストリーム、オーディオストリームともひとつのストリームしかない場合は、回線状況に係わらずそのストリームを出力する。多重化手段3202は、ストリーム選択手段3201が出力したビデオストリームとオーディオストリームを、国際標準ISO/IDE IS 11172-1で標準化されたMPEG1システムの多重化方式により、時分割多重化を行うものである。回線状況判定手段3203は、配送する回線の容量や現在の使用状況などを調べて、ストリーム選択手段3201へ出力するものである。配送手段3204は、多重化手段3202が多重化したMPEG1システムストリームを回線を通じて配送するものである。
なお、本実施の形態においては、ストリーム選択手段3201において、ビデオストリームがひとつの場合、回線状況に関わらずそれを出力するとしたが、回線がすべてのデータを送出すると多大な時間を要する場合は、ビデオストリームの代表画像のみを選択して送出する、としてもよい。代表画像の選択方法としては、文脈内容記述データに代表画像のタイムコードを記述しておく、あるいは各フレームのうち独立で復号可能なIピクチャと呼ばれるフレームだけ選択する、などがある。
〔第7の実施の形態〕
以下、本発明に係る第7の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。また本実施の形態において、スコアは、該当する場面における、ユーザ等が選択した登場人物や事柄等のキーワードの観点に基づいた重要度とする。
図56は、本実施の形態におけるデータ処理方法のブロック図である。図56において、3301は選択ステップを、3302は抽出ステップを表す。選択ステップ3301は、文脈内容記述データのキーワードとそのスコアから、メディアコンテンツの場面を選択し、その場面の開始時間と終了時間を出力する処理を行う。また、抽出ステップ3302は、選択ステップ3301が出力した開始時間と終了時間によって区切られるメディアコンテンツの区間のデータを抽出する処理を行う。
図57に、本実施の形態の文脈内容記述データの構成を示す。本実施の形態では、文脈内容を木構造で記述する。また、木構造の兄弟関係は、左から時間順にならんでいるものとする。図57において、<contents>と記されている木構造の根(root)は、ひとつのコンテンツを表し、属性としてそのコンテンツのタイトルが付けられる。
<contents>の子要素は、<section>である。<section>には、その場面の内容や登場人物などを表すキーワードであるkeywordと、このキーワードの重要度を表すpriorityとの組(keyword, priority)が属性として付加される。priorityは1から5までの整数値とし、1が最も重要度が低く、5が最も重要度が高い、とする。(keyword, priority)組は、ユーザが見たいと思う場面、人物などを検索する時のキーに用いることができるように設定する。そのため、(keyword, priority)組は、ひとつの<section>に複数付加することが可能とする。例えば登場人物を記述する場合、その場面に現れる人物の数だけ(keyword,priority)組を付加し、また、priorityは、該当場面に該当keywordの人物が、数多く登場する場合はその値が高い、といったように設定する。
<section>の子要素は、<section>か<segment>である。すなわち、<section>は、それ自身を子要素としても良いとする。ただし、ひとつの<section>の子要素として、<section>と<segment>を混在させてはならないこととする。
<segment>は、ひとつのシーンカットを表し、<section>と同様の(keyword, priority)組と、該当シーンの時間情報として、開始時間を表すstartと、終了時間を表すendとが、属性として付加される。シーンカットの方法は、市販されていたり、ネットワークで流通しているソフトを用いても良いし、人手で行っても良い。なお、本実施の形態では、時間情報をシーンカットの開始時間と終了時間としたが、時間情報として開始時間と該当シーンの継続時間としても同様の効果が得られる。この場合、該当シーンの終了時間は、開始時間に継続時間を加算して求められる。
この文脈内容記述データにより、映画などの物語の場合は、多階層の<section>により、章、節、段落などを記述することができる。もうひとつの例として野球を記述する場合、最上位の<section>で回を記述し、その子要素の<section>で表裏を記述し、その子要素の<section>で各打者の場面を記述し、さらにその子要素の<section>で、各投球やその合間、その打席の結果などを記述することができる。
この構成の文脈内容記述データをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。XMLはWorld Wide Web Consortiumによって標準化が進められているデータ記述言語であり、1998年2月10日にVer. 1.0が勧告された。XML ver. 1.0の仕様書は、http://www.w3.org/TR/1998/REC-xml-19980210で得られる。図58〜図66は、本実施の形態の文脈内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる文脈内容記述データの一例である。また、図67〜図80は、図58〜図66に示す文脈内容記述データに、代表画像(映像情報)やキーワード(音情報)などのメディアセグメントの代表データ(dominant-data)を追加した文脈内容記述データの一例と、該文脈内容記述データをXMLで記述するためのDTDである。
以下、選択ステップ3301での処理について説明する。本実施の形態における選択ステップ3301での処理は、<segment>と<segment>を子要素に持つ<section>に着目して処理を行う。図81に、本実施の形態における選択ステップ3301の処理のフローチャートを示す。本実施の形態における選択ステップ3301は、場面選択のキーとなるキーワードとそのpriorityのしきい値を入力とし、文脈内容記述データの<segment>を子要素としてもつ<section>から、キーと同じキーワードを持ち、かつ、そのpriorityがしきい値以上の<section>を選択する(S2、S3)。続いて、選択された<section>の<segment>のうち、キーと同じキーワードを持ち、かつ、そのpriorityがしきい値以上の<segment>のみを選択する(S5、S6)。以上の処理から選択された<segment>の属性であるstartとendより、選択された場面の開始時間と終了時間を求め、それを出力する(S7、S8、S9、S10、S11、S1、S4)。
なお、本実施の形態では、<segment>と<segment>を子要素として持つ<section>に着目して処理を行ったが、ある階層の<section>とその子要素である<section>の親子関係に着目して、同様の処理を行っても良い。また、親子関係も2階層のみではなく、さらに階層を増やして、木構造の葉である<segment>まで同様の処理を行ってもよい。さらに、検索のキーを、複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。選択のしきい値も、キーワードが複数の場合はキーワード毎に指定して処理を行っても良い。この検索キーとなるキーワードは、ユーザの入力によって受けとっても良いし、ユーザプロファイルなどからシステムが自動的に設定する構成でも良い。
抽出ステップ3302の動作は、第1の実施の形態で述べた抽出ステップと同様のものである。
本実施の形態の効果としては、図82に示すように、抽出ステップ3302の出力であるビデオストリームとオーディオストリームをそれぞれビデオ再生手段、オーディオ再生手段に入力させ、ビデオストリームとオーディオストリームを同期させて再生することにより、該当メディアコンテンツの、視聴者個人が見たいシーンのみを再生することができる。また、上記得られたビデオストリームとオーディオストリームを多重化することによって、該当メディアコンテンツの視聴者個人が見たいシーン集のMPEG1システムストリームを作成することができる。
〔第8の実施の形態〕
以下、本発明に係る第8の実施の形態について述べる。本実施の形態は、第7の実施の形態と比較して、選択ステップの処理のみが異なるものである。
以下、図を参照しながら本実施の形態における選択ステップ3301の処理について記述する。本実施の形態における選択ステップ3301では、<segment>のみに着目して処理を行う。図83に、本実施の形態における選択ステップ3301のフローチャートを示す。図83に示す通り、本実施の形態における選択ステップ3301は、検索キーとなるキーワードとそのpriorityのしきい値を入力とし、文脈内容記述データの<segment>から、キーと同じキーワードを持ち、かつ、そのpriorityがしきい値以上の<segment>を選択するものである(S1〜S6)。
なお、本実施の形態では、<segment>のみに着目して処理を行ったが、ある階層の<section>に着目して処理を行っても良い。また、検索のキーを、複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。選択のしきい値も、キーワードが複数の場合はキーワード毎に指定して処理を行っても良い。
〔第9の実施の形態〕
以下、本発明に係る第9の実施の形態について述べる。本実施の形態も、第7の実施の形態と比較して、選択ステップの処理のみが異なるものである。
以下、図を参照しながら本実施の形態における選択ステップ3301の処理について記述する。本実施の形態における選択ステップ3301は、第7の実施の形態における処理と同様に、<segment>と<segment>を子要素にもつ<section>のみに着目し、その選択を行う。本実施の形態においては、選択する場面すべての継続時間の和にしきい値を設ける。すなわち、それまでに選択された場面の継続時間の和が、このしきい値以下で最大となるような選択を行う。図84に本実施の形態における選択ステップのフローチャートを示す。まず、選択ステップ3301は検索するキーとなるキーワードをひとつ受けとる。続いて、<segment>を子要素にもつ<section>のうち、検索キーのキーワードを持つものすべてを抽出する。この集合をΩとする(S1、S2)。Ωの要素を検索キーのキーワードのpriorityの大きい順にソートする(S3)。続いて、ソートしたΩから、検索キーのキーワードのpriorityの最も大きい<section>を取り出し(S5)、Ωからその<section>を削除する(S6)。この場合、最もpriorityの大きい<section>が複数ある場合は、そのすべての<section>を取り出す。取り出した<section>の子要素<segment>のうち、検索キーを持つ<segment>のみを選択し、集合Ω’に加える(S7)。なお、集合Ω’の初期値は空集合である(S2)。Ω’の場面の継続時間の総和を計算し(S8)、しきい値と比較する(S9)。継続時間の総和がしきい値と等しい場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S14)。継続時間のしきい値より小さい場合は、Ωから検索キーのキーワードのpriorityの最も大きい<section>の選択に戻り(S5)、以上の処理を繰り返す。ただし、Ωが空集合である場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S4)。Ω’の場面の継続時間の総和がしきい値を越えている場合は、以下の処理を行う。集合Ω’の要素<segment>のうち、検索キーのキーワードのpriorityが最も小さい<segment>を削除する(S11)。この場合、最も小さいpriorityの<segment>が複数ある場合は、そのすべての<segment>を削除する。Ω’の継続時間の総和を算出し(S12)、しきい値との比較を行う(S13)。継続時間の総和がしきい値よりも大きい場合は、Ω’から<segment>の削除処理に戻り(S11)、この処理を繰り返す。ただし、Ω’が空集合の場合は処理を終了する(S10)。継続時間の総和がしきい値以下の場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S14)。
なお、本実施の形態では、<segment>と<segment>を子要素として持つ<section>に着目して処理を行ったが、ある階層の<section>とその子要素である<section>の親子関係に着目して処理を行っても良い。また、親子関係も2階層のみではなく、さらに階層を増やして処理を行っても良い。例えば、最上位の<section>から<segment>までの階層で処理を行う場合、まず最上位の<section>を選択し、選択した<section>からその子要素である<section>を選択し、選択した<section>からその子要素を選択、といった処理を<segment>の選択まで繰り返して、選択された<segment>の集合Ω’を生成する。
また、本実施の形態では、検索キーのキーワードのpriorityの大きい順としたが、priorityにしきい値を設定し、priorityがしきい値以上で大きい順に選択、としても良い。このしきい値は、<section>と<segment>それぞれ別々に設定しても良い。
さらに、本実施の形態では、検索キーをひとつのキーワードとしたが、これを複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。この場合、<section>、<segment>の選択または削除に用いているキーワードのpriorityを決めるルールも必要となる。このルールの一例として、以下のものがある。すなわち、条件が「どちらか」の場合は、該当キーワードのpriorityのうち最も大きい値をpriorityとする。また、「ともに」の場合は、該当キーワードのpriorityのうち最も小さい値をpriorityとする。「どちらか」と「ともに」の組合せの場合も、このルールによりpriorityの値は求めることができる。また、検索キーのキーワードが複数の場合でも、そのpriorityにしきい値を設定し、そのしきい値以上のpriorityを持つものに対して処理を行っても良い。
〔第10の実施の形態〕
以下、本発明に係る第10の実施の形態について述べる。本実施の形態は、第7の実施の形態と比較して、選択ステップの処理のみが異なるものである。
以下、図を参照しながら本実施の形態における選択ステップ3301の処理について記述する。本実施の形態における選択ステップ3301では、第8の実施の形態と同様に<segment>のみに着目して処理を行う。また、第9の実施の形態と同様に、選択する場面すべての継続時間の和にしきい値を設ける。すなわち、それまでに選択された場面の継続時間の和が、このしきい値以下で最大となるような選択を行う。図85に本実施の形態における選択ステップのフローチャートを示す。
まず、選択ステップ3301は検索するキーとなるキーワードをひとつ受けとる。初期化として、集合Ω’を空集合とする(S2)。続いて、<segment>のうち、検索キーのキーワードを持つものすべてを抽出する(S1)。この集合をΩとする。Ωの要素を検索キーのキーワードのpriorityの大きい順にソートする(S3)。続いて、ソートしたΩから、検索キーのキーワードのpriorityの最も大きい<segment>を取り出し(S5)、Ωからその<segment>を削除する。この場合、最もpriorityの大きい<segment>が複数ある場合は、そのすべての<segment>を取り出す。Ωが空集合の場合は、Ω’の要素<segment>すべての区間を出力し、処理を終了する(S4)。取り出した<segment>の継続時間の総和T1と(S6)、Ω’の場面の継続時間の総和T2を計算し(S7)、T1+T2としきい値とを比較する(S8)。T1+T2がしきい値を越えている場合は、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S11)。T1+T2が、しきい値と等しい場合は、取り出した<segment>すべてをΩ’の要素として加えたうえで(S9、S10)、Ω’の要素<segment>のすべての区間を出力し、処理を終了する(S11)。T1+T2がしきい値より小さい場合は、取り出した<segment>すべてをΩ’の要素として加え、Ωから<segment>の選択処理へ戻る(S10)。
なお、本実施の形態では、<segment>のみに着目して処理を行ったが、ある階層の<section>に着目して処理を行っても良い。また、本実施の形態では、検索キーのキーワードのpriorityの大きい順としたが、priorityにしきい値を設定し、priorityがしきい値以上で大きい順に選択、としても良い。
さらに、本実施の形態では、検索キーをひとつのキーワードとしたが、これを複数のキーワードとその間の条件との組としてもよい。キーワード間の条件には、「どちらか」、「ともに」、「どちらか」と「ともに」の組合せと、いったものがある。この場合、<section>、<segment>の選択または削除に用いているキーワードのpriorityを決めるルールも必要となる。このルールの一例として、以下のものがある。すなわち、条件が「どちらか」の場合は、該当キーワードのpriorityのうち最も大きい値をpriorityとする。また、「ともに」の場合は、該当キーワードのpriorityのうち最も小さい値をpriorityとする。「どちらか」と「ともに」の組合せの場合も、このルールによりpriorityの値は求めることができる。また、検索キーのキーワードが複数の場合でも、そのpriorityにしきい値を設定し、そのしきい値以上のpriorityを持つものに対して処理を行っても良い。
〔第11の実施の形態〕
以下、本発明に係る第11の実施の形態について述べる。本実施の形態は、第7〜第10の実施の形態の文脈内容記述データにおいて、場面選択のキーワードとなる観点およびその重要度の記述が異なるものである。第7〜第10の実施の形態では、図57に示すように、キーワードと重要度との組(keyword, priority)を<section>,<segment>に属性として付与することによって観点およびその観点から見た重要度を記述していたが、本実施の形態では、図133に示すように、<contents>に属性povlistを付加し、<section>,<segment>には属性povvalueを付加することによって観点および重要度を記述している。
属性povlistは、図134に示すように、観点をベクトル形式で表したものであり、属性povvalueは、図135に示すように、重要度をベクトル形式で表したものであり、それぞれ一対一に対応した観点および重要度が順に並んで属性povlistおよび属性povvalueを形成している。例えば、図134および図135では、観点1に関する重要度が5、観点2に関する重要度が0、観点3に関する重要度が2、観点n(但し、nは正の整数である)に関する重要度が0である。なお、観点2に関する重要度0とは、第7の実施の形態の場合、観点2がキーワードである属性(keyword, priority)が付加されていないことに対応している。
また、図136〜図163および図164〜図196には、本実施の形態の文脈内容記述データをコンピュータ上で表現するために用いられるExtensible Markup Language(XML)で記述するためのDocument Type Definition(DTD)と、このDTDによる文脈内容記述データの一例をそれぞれ示す。本実施の形態においても、これらの文脈内容記述データを用いて第7〜第10の実施の形態で説明した処理と同様の処理を行う。
なお、本実施の形態では、<contents>に属性povlistを付加し、<section>,<segment>には属性povvalueを付加しているが、図197に示すように、<section>,<segment>にも属性povlistを付加して良い。但し、属性povlistが付加された<section>または<segment>において、属性povvalueは、その<section>または<segment>に付加されている属性povlistに対応したものである。また、属性povlistが付加されていない<section>または<segment>において、属性povvalueは、<contents>に付加された属性povlistに対応するものであっても、属性povlistが付加されていない<section>または<segment>の先祖の内、属性povlistが付加された最も近い<section>の属性povlistであっても良い。
また、図198〜図222および図223〜図252には、図197に対応した、文脈内容記述データをコンピュータ上で表現するために用いられるXMLで記述するためのDTDと、このDTDによる文脈内容記述データの一例をそれぞれ示す。これらの図面に示す例では
、属性povlistが付加されていない<section>,<segment>の属性povvalueは、<contents>に付加された属性povlistに対応している。
〔第12の実施の形態〕
以下、本発明に係る第12の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。
図86は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図86において、4101は選択ステップを、4102は抽出ステップを、4103は構成ステップを、4104は配送ステップを、4105はデータベースを表す。選択ステップ4101は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行う。抽出ステップ4102は、選択ステップ4101が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行う。構成ステップ4103は、抽出ステップ4102が出力したデータを多重化し、MPEG1システムストリームを構成する処理を行う。配送ステップ4104は、構成ステップ4103が作成したMPEG1システムストリームを、回線を通じて配送する処理を行う。4105はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。
本実施の形態における物理内容記述データの構成は、第5の実施の形態で記述したものと同様のものを用いる。すなわち、図37に示した構成の物理内容記述データを用いる。
図87に、本実施の形態における文脈内容記述データの構成を示す。これは、第7の実施の形態における文脈内容記述データに、物理内容記述データの<mediaobject>との関連を加えたものである。すなわち、文脈内容記述データの根<contents>の子要素は<mediaobject>で、この<mediaobject>の子要素が<section>となる。<section>、<segment>は第7の実施の形態と同様ものである。文脈内容記述データの<mediaobject>には、属性idが付加され、このidによって、物理内容記述データの<mediaobject>との対応を取る。すなわち、文脈内容記述データの<mediaobject>の子孫で記述されるメディアコンテンツの場面は、同じ値の属性idをもつ物理内容記述データの<mediaobject>が示すファイルに格納されている。また、<segment>の時間情報startとendは、各ファイルの先頭からの時間を設定することとする。すなわち、ひとつのメディアコンテンツが複数のファイルから構成される場合、各ファイルの先頭時間は0であり、各場面の開始時間は、それが格納されているファイルの先頭からそこまでの経過時間で表すこととする。
本実施の形態における物理内容記述データと文脈内容記述データとをコンピュータ上で表現する一例として、Extensible Markup Language(XML)による記述を用いることができる。物理内容記述データに関しては、第5の実施の形態で示した図39が一例である。また、図88〜図96は、図87に示す文脈内容記述データをXMLで記述するためのDTDと、このDTDによる文脈内容記述データの一例である。
以下、選択ステップ4101の処理について説明する。選択ステップ4101での場面の選択の手法は、第7〜第10の実施の形態に記載のいずれかの手法を用いる。ただし、結果として開始時間、終了時間とともに、対応する物理内容記述データの<mediaobject>のidも同時に出力する。物理内容記述データを図39に示すDTDによるXML文書で表し、文脈内容記述データを図88〜図96に示すDTDによるXML文書で表した場合の、選択ステップ4101の出力の一例は、第5の実施の形態において示した図46のものと同様の形態のものである。
抽出ステップ4102の処理は、第5の実施の形態に記載の抽出ステップと同様のものである。また、構成ステップ4103も、第5の実施の形態に記載の構成ステップと同様のものである。配送ステップ4104も、第5の実施の形態に記載の配送ステップと同様のものである。
〔第13の実施の形態〕
以下、本発明に係る第13の実施の形態について述べる。本実施の形態においては、メディアコンテンツとして、MPEG1システムストリームの動画像を想定する。この場合、メディアセグメントは、ひとつのシーンカットに相当する。
図97は、本発明の実施の形態に係わるデータ処理方法のブロック図である。図97において、4401は選択ステップを、4402は抽出ステップを、4403は構成ステップを、4404は配送ステップを、4405はデータベースを表す。選択ステップ4401は、文脈内容記述データからメディアコンテンツの場面を選択し、その場面の開始時間と終了時間と、それが格納されているファイルを表すデータを出力する処理を行うもので、第12の実施の形態記載の選択ステップと同様のものである。抽出ステップ4402は、選択ステップ4401が出力したファイルを表すデータ、開始時間、終了時間を受けとり、物理内容記述データを参照して、メディアコンテンツのファイルから、入力した開始時間と終了時間で区切られる区間のデータを抽出する処理を行うもので、第12の実施の形態記載の抽出ステップと同様のものである。構成ステップ4403は、配送ステップ4404が判断した回線状況に応じて、抽出ステップ4402が出力したストリームの一部またはすべてを多重化し、MPEG1システムストリームを構成する処理を行うもので、第6の実施の形態に記載の構成ステップと同様のものである。配送ステップ4404は、配送する回線状況を判断してその結果を構成ステップ4403に伝えることと、構成ステップ4403が作成したMPEG1システムストリームを、回線を通じて配送する処理を行うもので、第6の実施例に記載の配送ステップと同様のものである。4405はメディアコンテンツと、その物理内容記述データ、文脈内容記述データを格納したデータベースである。
なお、本実施の形態では、メディアコンテンツとして、MPEG1システムストリームを想定したが、各画面のタイムコードを得ることができるものであれば、他のフォーマットでも同様の効果が得られる。
以下に示す実施の形態は、特許請求の範囲に示す発明に対応した形態の要約を説明したものである。なお、以下、「音情報」という言葉を、有音、無音、スピーチ、音楽、静寂、外部雑音などを含む音に関する情報として用い、「映像情報」という言葉を、動画、静止画、テロップなどの文字を含む視覚できる情報として用いる。また、スコアは、有音、無音、スピーチ、音楽、静寂、外部雑音など、音情報の内容から算出されるスコア、または映像情報中のテロップの有無に従って付けられるスコア、またはそれらの組み合わせを利用できる。また、スコアは上記スコア以外のスコアであっても良い。
〔第14の実施の形態〕
以下、本発明に係る第14の実施の形態について述べる。図98は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを表す。選択ステップ501は、文脈内容記述データのスコアから、メディアコンテンツの少なくともひとつの区間または場面を選択し、その選択された区間または場面を出力するステップである。なお、選択された区間とは、例えば、選択区間の開始時間および終了時間である。また、抽出ステップ503は、選択ステップ501が出力した選択区間によって区切られたメディアコンテンツの区間(以下、メディアセグメントと称す)のデータ、すなわち選択区間のデータのみを抽出する処理を行うステップである。
なお、スコアは、文脈内容における客観的な重要性に基づいた重要度でもよいし、ユーザ等が選択した登場人物や事柄等のキーワードの観点に基づいた重要度でもよい。
〔第15の実施の形態〕
以下、本発明に係る第15の実施の形態について述べる。図99は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は再生ステップを表す。再生ステップ505は、選択ステップ501が出力した選択区間によって区切られた選択区間のデータのみを再生する処理を行うステップである。なお、選択ステップ501は、第1〜第13の実施の形態に示した選択ステップと同様であるため説明を省略する。
〔第16の実施の形態〕
以下、本発明に係る第16の実施の形態について述べる。図100は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、507は映像選択ステップを、509は音選択ステップを表す。なお、映像選択ステップ507および音選択ステップ509は、第14および第15の実施の形態に示した選択ステップ501に含まれる。
映像選択ステップ507は、映像情報の文脈内容記述データを参照して映像情報の区間または場面の選択を行い、その選択された区間を出力するステップである。また、音選択ステップ509は、音情報の文脈内容記述データを参照して音情報の区間または場面の選択を行い、その選択された区間を出力するステップである。なお、選択された区間とは、例えば、選択区間の開始時間および終了時間である。また、映像選択ステップ507で選択された映像情報の選択区間および音選択ステップ509で選択された音情報の選択区間は、第14の実施の形態に示した抽出ステップ503または第15の実施の形態に示した再生ステップ505によって、選択区間のデータのみが抽出または再生される。
〔第17の実施の形態〕
以下、本発明に係る第17の実施の形態について述べる。図101は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、511は判定ステップを、513は選択ステップを、503は抽出ステップを、505は再生ステップを示す。
(実施例1)
まず、実施例1では、メディアコンテンツが同一時間においてそれぞれ異なる複数のメディア情報を有しており、判定ステップ511が、メディアコンテンツのデータ構成を記述した物理内容記述データを入力として、受信端末の能力、配送する回線の状況、およびユーザからの要求などの判定条件から、どのメディア情報を選択対象とするかを判定するステップである。また、選択ステップ513は、判定ステップ511で選択対象と判定されたデータ、物理内容記述データおよび文脈内容記述データを入力とし、入力された物理内容記述データを参照して、判定ステップ511が選択対象と判定したデータからのみ選択処理を行うステップである。なお、抽出ステップ503および再生ステップ505は、それぞれ第14の実施の形態に示した抽出ステップおよび第15の実施の形態に示した再生ステップと同様であるため説明を省略する。また、メディア情報は、映像情報や音情報、テキスト情報などのデータを含み、以下、本実施例においては、メディア情報が特に映像情報および音情報に関するデータの少なくとも一方を含んだものとする。
また、本実施例においては、メディアコンテンツが有する同一時間において異なる映像情報または音情報が、図102に示すようなチャネル、さらに一チャネルを階層化したレイヤーにそれぞれ割り当てられており、例えば、動画を伝達するチャネル1,レイヤー1には標準解像度の映像情報が、チャネル1,レイヤー2には高解像度の映像情報が割り当てられ、また、音情報を伝達するチャネル1にはステレオの音情報が、チャネル2にはモノラルの音情報が割り当てられている。図103および図104は、物理内容記述データをXMLで記述するためのDocument Type Definition(DTD)と、このDTDによる物理内容記述データの一例である。
次に、メディアコンテンツがこのようなチャネルおよびレイヤー構成となっているときの、本実施例の判定ステップ511の処理について、図105〜図108を参照して説明する。まず、図105に示すように、ステップS101ではユーザからの要求があるかを判別する。このステップS101において、ユーザ要求があれば図106に示すユーザ要求による判定処理SR−Aを実行する。
また、ステップS101において、ユーザ要求がなければステップS103に進み、受信可能な情報が映像情報のみか、音情報のみか、映像情報および音情報の両方であるかを判別する。このステップS103において、受信可能な情報が映像情報のみであるときは図107に示す映像情報に関する判定処理SR−Bを実行し、音情報のみであるときは図108に示す音情報に関する判定処理SR−Cを実行し、映像情報および音情報の両方であるときはステップS105に進む。ステップS105では、映像情報および音情報を受信する受信端末の能力、例えば、映像表示能力や音再生能力、圧縮された情報の解凍処理速度などを判別して、能力が高ければステップS107に進み、低ければステップS109に進む。ステップS107では、映像情報や音情報を伝送する回線の状況を判別し、回線が混雑していればステップS109に進み、混雑していなければステップS111に進む。
ステップS109は受信端末の能力が低いかまたは回線が混雑しているときに実行され、このとき受信端末は、チャネル1,レイヤー1の標準解像度の映像情報と、チャネル2のモノラルの音情報とを受信する。一方、ステップS111は受信端末の能力が高く回線が混雑していないときに実行され、このとき受信端末は、チャネル1,レイヤー2の高解像度の映像情報と、チャネル1のステレオの音情報とを受信する。
次に、図106に示すユーザ要求による判定処理SR−Aについて説明する。本実施例においては、ユーザからの要求が、映像のレイヤー、音のチャネルを選択するものである。まず、ステップS151では、ユーザによる映像に関する要求があるかを判別する。このステップS151において、映像に関するユーザ要求があればステップS153に進み、ユーザ要求がなければステップS159に進む。ステップS153では、ユーザによる映像の要求がレイヤー2を選択するものかを判別し、YESであればステップS155に進んで映像情報としてレイヤー2を選択し、NOであればステップS157に進んでレイヤー1を選択する。ステップS159では、ユーザによる音に関する要求があるかを判別する。このステップS159において、音に関するユーザ要求があればステップS161に進み、ユーザ要求がなければ処理を終了する。ステップS161では、ユーザによる音の要求がチャネル1を選択するものかを判別し、YESであればステップS163に進んで音情報としてチャネル1を選択し、NOであればステップS165に進んでチャネル2を選択する。
次に、図107に示す映像情報に関する判定処理SR−Bについて説明する。まず、ステップS171では、映像情報を受信する受信端末の能力を判別して、能力が高ければステップS173に進み、低ければステップS175に進む。ステップS173では、回線の状況を判別し、回線が混雑していればステップS175に進み、混雑していなければステップS177に進む。
ステップS175は受信端末の能力が低いかまたは回線が混雑しているときに実行され、このとき受信端末は、チャネル1,レイヤー1の標準解像度の映像情報のみを受信する。一方、ステップS177は受信端末の能力が高く回線が混雑していないときに実行され、このとき受信端末は、チャネル1,レイヤー2の高解像度の映像情報のみを受信する。
次に、図108に示す音情報に関する判定処理SR−Cについて説明する。まず、ステップS181では、音情報を受信する受信端末の能力を判別して、能力が高ければステップS183に進み、低ければステップS185に進む。ステップS183では、回線の状況を判別し、回線が混雑していればステップS185に進み、混雑していなければステップS187に進む。
ステップS185は受信端末の能力が低いかまたは回線が混雑しているときに実行され、このとき受信端末は、チャネル2のモノラルの音情報のみを受信する。一方、ステップS187は受信端末の能力が高く回線が混雑していないときに実行され、このとき受信端末は、チャネル1のステレオの音情報のみを受信する。
(実施例2)
また、実施例2では、実施例1と比較して、判定ステップS511のみが異なる。本実施例に係る判定ステップ511は、メディアコンテンツのデータ構成を記述した物理内容記述データを入力として、受信端末の能力、配送する回線の状況、およびユーザからの要求などの判定条件から、映像情報のみ、音情報のみ、または映像情報および音情報のいずれかを選択対象とするかを判定するかを判定するステップである。なお、選択ステップ513、抽出ステップ503および再生ステップ505については、上述の各ステップと同様であるため説明を省略する。
次に、本実施例の判定ステップ511の処理について、図109および図110を参照して説明する。まず、図109に示すように、ステップS201ではユーザからの要求があるかを判別する。このステップS201において、ユーザ要求があればステップS203に進み、ユーザ要求がなければステップS205に進む。ステップS203では、ユーザ要求が映像情報のみであるかを判別し、YESであればステップS253に進んで映像情報のみを選択対象と判定し、NOであればステップS207に進む。ステップS207では、ユーザ要求が音情報のみであるかを判別し、YESであればステップS255に進んで音情報のみを選択対象と判定し、NOであればステップS251に進んで映像情報および音情報の両方を選択対象と判定する。
また、ユーザ要求がないときに進んだステップS205では、受信可能な情報が映像情報のみか、音情報のみか、映像情報および音情報の両方であるかを判別する。このステップS205において、受信可能な情報が映像情報のみであるときはステップS253に進んで映像情報のみを選択対象と判定し、音情報のみであるときはステップS255に進んで音情報のみを選択対象と判定し、映像情報および音情報の両方であるときはステップS209に進む。
ステップS209では、回線の状況を判別し、回線が混雑していなければステップS251に進んで映像情報および音情報の両方を選択対象と判定し、混雑していればステップS111に進む。ステップS211では、回線を介して配送される情報に音情報が含まれているかを判別し、YESであればステップS255に進んで音情報を選択対象と判定し、NOであればステップS253に進んで映像情報を選択対象と判定する。
(実施例3)
また、実施例3では、メディアコンテンツが同一時間においてそれぞれ異なる複数の映像情報および/または音情報を有しており、判定ステップ511が、実施例2の判定ステップ511が行う映像情報のみ、音情報のみ、または映像情報および音情報のいずれかを選択対象とするかについての判定に加えて、さらに、受信端末の能力、配送する回線の能力、および回線の状況などの判定条件から、どの映像情報/音情報を選択対象とするかを判定している。なお、選択ステップ513、抽出ステップ503および再生ステップ505については、上述の各ステップと同様であるため説明を省略する。
本実施例においては、実施例1と同様に、メディアコンテンツが有する同一時間において異なる映像情報または音情報が、チャネルやレイヤーにそれぞれ割り当てられており、例えば、動画を伝達するチャネル1,レイヤー1には標準解像度の映像情報が、チャネル1,レイヤー2には高解像度の映像情報が割り当てられ、また、音情報を伝達するチャネル1にはステレオの音情報が、チャネル2にはモノラルの音情報が割り当てられている。
次に、本実施例の判定ステップ511の処理について、図111〜図113を参照して説明する。図111に示すように、本実施例では、まず実施例2の判定ステップ511によって、選択対象とする情報を決定する(選択対象の判定SR−D)。次に、ステップS301では、選択対象の判定処理SR−Dによって判定された情報を判定する。このステップS301において、選択対象となった情報が映像情報のみであるときは、図112に示す映像情報に関する判定処理SR−Eを実行し、音情報のみであるときは図113に示す音情報に関する判定処理SR−Fを実行し、映像情報および音情報の両方であるときはステップS303に進む。ステップS303では、映像情報および音情報を受信する受信端末の能力を判別して、能力が高ければステップS305に進み、低ければステップS307に進む。ステップS307では、伝送速度などの回線の能力を判別して、能力が高ければステップS309に進み、低ければステップS307に進む。ステップS309では回線の状況を判別し、回線が混雑していればステップS307に進み、混雑していなければステップS311に進む。
ステップS307は受信端末の能力が低いか、回線の能力が低いか、または回線が混雑しているときに実行され、このとき受信端末は、チャネル1,レイヤー1の標準解像度の映像情報と、チャネル2のモノラルの音情報とを受信する。一方、ステップS311は受信端末の能力が高く、回線の能力が高く、かつ回線が混雑していないときに実行され、このとき受信端末は、チャネル1,レイヤー2の高解像度の映像情報と、チャネル1のステレオの音情報とを受信する。
次に、図112に示す映像情報に関する判定処理SR−Eについて説明する。まず、ステップS351では、映像情報を受信する受信端末の能力を判別して、能力が高ければステップS353に進み、低ければステップS355に進む。ステップS353では、回線の能力を判別し、能力が高ければステップS357に進み、低ければステップS355に進む。ステップS357では、回線の状況を判別し、回線が混雑していればステップS355に進み、混雑していなければステップS359に進む。
ステップS355は受信端末の能力が低いか、回線の能力が低いか、または回線が混雑しているときに実行され、このとき受信端末は、チャネル1,レイヤー1の標準解像度の映像情報のみを受信する。一方、ステップS359は受信端末の能力が高く、回線の能力が高く、かつ回線が混雑していないときに実行され、このとき受信端末は、チャネル1,レイヤー2の高解像度の映像情報のみを受信する。
次に、図113に示す音情報に関する判定処理SR−Fについて説明する。まず、ステップS371では、音情報を受信する受信端末の能力を判別して、能力が高ければステップS373に進み、低ければステップS375に進む。ステップS373では、回線の能力を判別し、能力が高ければステップS377に進み、低ければステップS375に進む。ステップS377では、回線の状況を判別し、回線が混雑していればステップS375に進み、混雑していなければステップS379に進む。
ステップS375は受信端末の能力が低いか、回線の能力が低いか、または回線が混雑しているときに実行され、このとき受信端末は、チャネル2のモノラルの音情報のみを受信する。一方、ステップS379は受信端末の能力が高く、回線の能力が高く、かつ回線が混雑していないときに実行され、このとき受信端末は、チャネル1のステレオの音情報のみを受信する。
(実施例4)
また、実施例4では、文脈内容記述データの最下位層の各要素に該当するメディアセグメントの代表データが属性として付加され、メディアコンテンツが同一時間においてそれぞれ異なる複数のメディア情報を有している。判定ステップ511は、メディアコンテンツのデータ構成を記述した物理内容記述データを入力として、受信端末の能力、配送する回線の能力、および回線の状況、回線の能力、およびユーザからの要求などの判定条件から、どのメディア情報および/または代表データを選択対象とするかを判定するステップである。
なお、選択ステップ513、抽出ステップ503および再生ステップ505については、説明を省略する。なお、メディア情報は、映像情報や音情報、テキストデータなどの情報であり、以下、本実施例においては、メディア情報が映像情報および音情報の少なくとも一方を含んだものとする。また、代表データは、映像情報であれば、例えば各メディアセグメントごとの代表画像データや低解像度の映像データであり、音情報であれば、例えば各メディアセグメントごとのキーフレーズのデータである。
また、本実施例においては、実施例と同様に、メディアコンテンツが有する同一時間において異なる映像情報または音情報が、チャネルやレイヤーにそれぞれ割り当てられており、例えば、動画を伝達するチャネル1,レイヤー1には標準解像度の映像情報が、チャネル1,レイヤー2には高解像度の映像情報が割り当てられ、また、音情報を伝達するチャネル1にはステレオの音情報が、チャネル2にはモノラルの音情報が割り当てられている。
次に、本実施例の判定ステップ511の処理について、図114〜図118を参照して説明する。図114に示すように、ステップS401ではユーザからの要求があるかを判別する。このステップS401において、ユーザ要求があれば図116に示すユーザ要求による判定処理SR−Gを実行する。
また、ステップS401において、ユーザ要求がなければステップS403に進み、受信可能な情報が映像情報のみか、音情報のみか、映像情報および音情報の両方であるかを判別する。このステップS403において、受信可能な情報が映像情報のみであるときは図117に示す映像情報に関する判定処理SR−Hを実行し、音情報のみであるときは図118に示す音情報に関する判定処理SR−Iを実行し、映像情報および音情報の両方であるときは図115に示すステップS405に進む。
ステップS405は、受信端末の能力を判別するステップであるが、このステップS405を実行した後、順に回線の能力を判別するステップS407、回線が混雑しているかを判別するステップS409を実行する。本実施例の判別ステップ511は、これらのステップS405、S407およびS409を実行して、下記の表1に従うよう、受信する映像情報および音情報のチャネル,レイヤーまたは代表データを判別する。
Figure 2008310820
次に、図116に示すユーザ要求による判定処理SR−Gについて説明する。まず、ステップS451では、ユーザによる要求が映像情報のみであるかを判別し、YESであれば映像情報に関する判定処理SR−Hを行い、NOであればステップS453に進む。ステップS453では、ユーザによる要求が音情報のみであるかを判別し、YESであれば音情報に関する判定処理SR−Iを行い、NOであればメインルーチンに戻り、ステップS405に進む。
次に、図117に示す映像情報に関する判定処理SR−Hについて説明する。まず、ステップS461では受信端末の能力を判別するが、このステップS461を実行した後、順に回線の能力を判別するステップS463、回線が混雑しているかを判別するステップS465を実行する。本実施例の映像情報に関する判定処理SR−Hは、これらのステップS461、S463、S465を実行して、端末の能力が高く、回線の能力が高く、かつ回線が混雑してないとき、チャネル1,レイヤー2の映像情報のみを受信し(ステップS471)、また、端末の能力が低く、回線の能力が低く、かつ回線が混雑してないとき、映像情報の代表データのみを受信する(ステップS473)。また、上記の条件に該当しないときは、チャネル1,レイヤー1の映像情報のみを受信する(ステップS475)。
次に、図118に示す音情報に関する判定処理SR−Iについて説明する。まず、ステップS471では受信端末の能力を判別するが、このステップS471を実行した後、順に回線の能力を判別するステップS473、回線が混雑しているかを判別するステップS475を実行する。本実施例の映像情報に関する判定処理SR−Iは、これらのステップS471、S473、S475を実行して、端末の能力が高く回線の能力が高いとき、および端末の能力が高く、回線の能力が低く、かつ回線が混雑していないとき、チャネル1の音情報のみを受信する(ステップS491)。また、端末の能力が低く、回線の能力が低く、回線が混雑しているとき、音情報の代表データのみを受信する(ステップS493)。また、上記の条件に該当しないときは、チャネル2の音情報のみを受信する(ステップS495)。
(実施例5)
また、実施例5では、判定ステップ511が、受信端末の能力、配送する回線の能力、および回線の状況、回線の能力、およびユーザからの要求などの判定条件から、メディアセグメントの全体データ、該当するメディアセグメントの代表データのみ、または該当するメディアセグメントの全体データおよび代表データのいずれかを選択対象とするかを判定するステップである。
なお、本実施例においても実施例4と同様に、文脈内容記述データの最下位層の各要素に該当するメディアセグメントの代表データが属性として付加され、この代表データは、映像情報であれば、例えば各メディアセグメントごとの代表画像データや低解像度の映像データであり、音情報であれば、例えば各メディアセグメントごとのキーフレーズのデータである。
次に、本実施例の判定ステップ511の処理について、図119〜図121を参照して説明する。図119に示すように、ステップS501ではユーザからの要求があるかを判別する。このステップS501において、ユーザ要求があれば図121に示すユーザ要求による判定処理SR−Jを実行する。
また、ステップS501において、ユーザ要求がなければステップS503に進み、受信可能なデータがメディアセグメントの代表データのみか、メディアセグメントの全体データのみか、代表データおよび全体データの両方であるかを判別する。このステップS503において、受信可能なデータが代表データのみであるときは、図120に示すステップS553に進んで代表データのみを選択対象と判定し、全体データのみであるときはステップS555に進んで全体データのみを選択対象と判定し、代表データおよび全体データの両方であるときはステップS505に進む。
ステップS505では、回線の能力を判別し、回線の能力が高いときはステップS507に進み、低いときはステップS509に進む。ステップS507およびS509の両ステップとも、回線が混雑しているかを判別し、ステップS507において、回線が混雑していないと判別されればステップS551に進んで全体データおよび代表データを選択対象と判定し、ステップS509において、回線が混雑していると判別されればステップS553に進んで代表データを選択対象とする。また、ステップS507において回線が混雑していると判別されたとき、およびステップS509において回線が混雑していないと判別されたときは、ステップS555に進んで全体データを選択対象とする。
また、ユーザ要求による判定処理SR−Jでは、まずステップS601において、ユーザ要求が代表データのみであるかを判別し、YESであればステップS553に進んで代表データのみを選択対象とし、NOであればステップS603に進む。ステップS603では、ユーザ要求が全体データのみであるかを判別し、YESであればステップS555に進んで全体データのみを選択対象とし、NOであればステップS551に進んで全体データおよび代表データの両方を選択対象とする。
〔第18の実施の形態〕
以下、本発明に係る第18の実施の形態について述べる。図122は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを表す。なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であるため説明を省略する。
構成ステップ515は、抽出ステップ503が抽出した選択区間のデータからメディアコンテンツのストリームを構成するステップである。特に、構成ステップ515は、抽出ステップ503が出力したデータを多重化してストリームを構成する。
〔第19の実施の形態〕
以下、本発明に係る第19の実施の形態について述べる。図123は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを、517は配送ステップを表す。なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ515は第18の実施の形態に示した構成ステップと同様であるため説明を省略する。
配送ステップ517は、構成ステップ515が構成したストリームを回線を通じて配送するステップである。なお、配送ステップ517は配送する回線状況を判断するステップを有し、構成ステップ515は配送ステップ517が判断した回線状況からファイルを構成するデータ量を調整するステップを有しても良い。
〔第20の実施の形態〕
以下、本発明に係る第20の実施の形態について述べる。図124は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを、519は記録ステップを、521はデータ記録媒体を表す。記録ステップ519は、構成ステップ515が構成したストリームをデータ記録媒体521に記録するステップである。また、データ記録媒体521は、メディアコンテンツとその文脈内容記述データおよび物理内容記述データを記録するものであり、ハードディスクやメモリ、DVD−RAMなどである。なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ515は第18の実施の形態に示した構成ステップと同様であるため説明を省略する。
〔第21の実施の形態〕
以下、本発明に係る第21の実施の形態について述べる。図125は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを、519は記録ステップを、521はデータ記録媒体を、523はデータ記録媒体管理ステップを表す。データ記録媒体管理ステップ523は、データ記録媒体521の残容量によって、すでに蓄積したメディアコンテンツおよび/または新規に蓄積するメディアコンテンツの再編成を行うステップである。より詳しくは、データ記録媒体管理ステップ523は、データ記録媒体521の残容量が少ないとき、新たに蓄積するコンテンツを編集が行われた後に蓄積する処理、および、すでに蓄積されているメディアコンテンツに対して、その文脈内容記述データと物理内容記述データとを選択ステップ501へ送り、前記メディアコンテンツと物理内容記述データとを抽出ステップ503へ送ることによって、このメディアコンテンツを再編成し、再編成したメディアコンテンツをデータ記録媒体521に記録すると共に、再編成前のメディアコンテンツを削除する処理の少なくとも一方を行う。
なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ515は第18の実施の形態に示した構成ステップと同様であり、記録ステップ519およびデータ記録媒体521は第19の実施の形態に示した記録ステップおよびデータ記録媒体と同様であるため説明を省略する。
〔第22の実施の形態〕
以下、本発明に係る第22の実施の形態について述べる。図126は、本実施の形態におけるデータ処理方法の処理を示すブロック図である。同図において、501は選択ステップを、503は抽出ステップを、515は構成ステップを、519は記録ステップを、521はデータ記録媒体を、525は蓄積コンテンツ管理ステップを表す。蓄積コンテンツ管理ステップ525は、データ記録媒体521に蓄積されているメディアコンテンツを、その蓄積期間によって再編成を行うステップである。より詳しくは、蓄積コンテンツ管理ステップ525は、データ記録媒体521に蓄積されたメディアコンテンツを管理して、一定の蓄積期間に達したメディアコンテンツに対して、その文脈内容記述データと物理内容記述データとを選択ステップへ501に送り、前記メディアコンテンツと物理内容記述データとを抽出ステップ503に送ることによって、このメディアコンテンツを再編成し、再編成したメディアコンテンツをデータ記録媒体521に記録すると共に、再編成前のメディアコンテンツを削除するステップである。
なお、選択ステップ501および抽出ステップ503は、第14の実施の形態に示した選択ステップおよび抽出ステップと同様であり、構成ステップ515は第18の実施の形態に示した構成ステップと同様であり、記録ステップ519およびデータ記録媒体521は第19の実施の形態に示した記録ステップおよびデータ記録媒体と同様であるため説明を省略する。
以上の第14〜第22の実施の形態における選択ステップ501,513、抽出ステップ503、再生ステップ505、映像選択ステップ507、音選択ステップ509、判定ステップ511、構成ステップ515、配送ステップ517、記録ステップ519、データ記録媒体管理ステップ523および蓄積コンテンツ管理ステップ525は、それぞれ選択手段、抽出手段、再生手段、映像選択手段、音選択手段、判定手段、構成手段、配送手段、記録手段、データ記録媒体管理手段および蓄積コンテンツ管理手段として、これらの一部または全てを有したデータ処理装置として実現できる。
なお、上記実施の形態においては、メディアコンテンツとして、映像情報や音情報以外のテキストデータ等のデータストリームを含んでも良い。また、上記実施の形態の各ステップは、ステップの全てまたは一部の動作をコンピュータで実行するためのプログラムをプログラム格納媒体に格納し、コンピュータを用いてソフトウェア的に実現することも、それらステップの機能を発揮する専用のハード回路を用いて実現しても構わない。
なお、上記実施の形態においては、文脈内容記述データと物理内容記述データをそれぞれ別の実体で記述したが、図127〜図132に示すように、ひとつにまとめたものを用いても良い。
以上説明したように、上述のデータ処理装置、データ処理方法、記録媒体およびプログラムによれば、階層構造の文脈内容記述データを用いて、選択手段(選択ステップ)により、文脈内容記述データに付加されたスコアに基づいてメディアコンテンツ中の少なくとも1つの区間を選択しており、特に、抽出手段(抽出ステップ)によって、選択手段(選択ステップ)が選択した区間に対応するデータのみを抽出するか、再生手段(再生ステップ)によって、選択手段(選択ステップ)が選択した区間に対応するデータのみを再生している。
このため、より重要なシーンをメディアコンテンツの中から自由に選択することができ、この重要な選択された区間を抽出または再生することができる。また、文脈内容記述データが最上位層、最下位層およびその他の層から構成された階層構造であるため、章や節など任意の単位でシーンを選択することができ、ある節を選択してその中の不要な段落は削除するなど、多様な選択形式をとることができる。
また、スコアをメディアコンテンツの文脈内容に基づいた重要度を示すものとすることによって、このスコアを重要な場面を選択するよう設定しておくことによって、例えば、番組などのハイライトシーン集などの作成を容易に行うことができ、また、スコアを該当する場面におけるキーワードの観点に基づいた重要度を示すものとし、キーワードを決定することによってより自由度の高い区間の選択を行うことができる。例えば、キーワードを登場人物や事柄などの特定の観点によって決定することによって、ユーザが見たい場面だけを選び出すことができる。
また、メディアコンテンツが同一時間においてそれぞれ異なる複数のメディア情報を有しているとき、判定手段(判定ステップ)が、判定条件からどのメディア情報を選択対象とするかを判定し、選択手段(選択ステップ)が判定手段(判定ステップ)によって判定されたデータからのみ選択処理を行っている。このため、判定手段(判定ステップ)は、判定条件に応じて、最適な区分のメディア情報を判定することができるため、選択手段(選択ステップ)は適切なデータ量のメディア情報を選択することができる。
また、判定手段(判定ステップ)が、判定条件から映像情報のみ、音情報のみ、または映像情報および音情報のいずれかを選択対象とするかを判定しているため、選択手段(選択ステップ)が行う区間の選択のために要する時間を短縮することができる。
また、文脈内容記述データに代表データが属性として付加され、判定手段は、これら判定条件に応じて、最適な区分のメディア情報または代表データを判定することができる。
さらに、判定手段(判定ステップ)が、判定条件に応じて、該当するメディアセグメントの全体データのみ、代表データのみ、または全体データおよび代表データ両方のいずれかを選択対象と判定しているため、判定手段(判定ステップ)は、選択手段(選択ステップ)が行う区間の選択のために要する時間を短縮することができる。
本発明は、必要とする場面をメディアコンテンツの中から自由に選択することができるデータ処理装置、データ処理方法、記録媒体およびプログラム等に有用である。
本発明の第1の実施の形態におけるデータ処理方法のブロック図である。 本発明の第1の実施の形態における文脈内容記述データのデータ構造を表す図である。 本発明の第1の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の一例である。 図3の文脈内容記述データの続きの部分である。 図4の続き部分である。 図5の続き部分である。 図6の続き部分である。 図7の続き部分である。 図8の続き部分である。 図3〜図9の文脈内容記述データに代表データを追加したXML文書の一部分と、該文脈内容記述データをコンピュータ上で表現するXMLで書かれたDTDの一例である。 図10の文脈内容記述データの続きの部分である。 図11の続き部分である。 図12の続き部分である。 図13の続き部分である。 図14の続き部分である。 図15の続き部分である。 図16の続き部分である。 図17の続き部分である。 図18の続き部分である。 図19の続き部分である。 図20の続き部分である。 本発明の第1の実施の形態における重要度の付け方を表す説明図である。 本発明の第1の実施の形態における選択ステップの処理のフローチャートである。 本発明の第1の実施の形態における抽出ステップの構成図である。 本発明の第1の実施の形態における抽出ステップの分離手段の処理のフローチャートである。 本発明の第1の実施の形態における抽出ステップのビデオスキミング手段の処理のフローチャートである。 MPEG1ビデオストリームの構成図である。 本発明の第1の実施の形態における抽出ステップのオーディオスキミング手段の処理のフローチャートである。 MPEGオーディオのAAUの構成図である。 本発明の第1の実施の形態における応用のブロック図である。 本発明の第2の実施の形態における重要度の処理の説明図である。 本発明の第2の実施の形態における選択ステップの処理のフローチャートである。 本発明の第3の実施の形態における選択ステップの処理のフローチャートである。 本発明の第4の実施の形態における重要度の付け方を表す説明図である。 本発明の第4の実施の形態における選択ステップの処理のフローチャートである。 本発明の第5の実施の形態におけるデータ処理方法のブロック図である。 本発明の第5の実施の形態における物理内容記述データのデータ構造を表す図である。 本発明の第5の実施の形態における文脈内容記述データのデータ構造を表す図である。 本発明の第5の実施の形態における物理内容記述データをコンピュータ上で表現するXMLのDTDと、XML文書の一例である。 本発明の第5の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XML文書の一例の前半部である。 図40の文脈内容記述データの続きの部分である。 図41の続き部分である。 図42の続き部分である。 図43の続き部分である。 図44の続き部分である。 本発明の第5の実施の形態における選択ステップの出力の一例である。 本発明の第5の実施の形態における抽出ステップのブロック図である。 本発明の第5の実施の形態における抽出ステップのインターフェース手段の処理のフローチャートである。 本発明の第5の実施の形態における抽出ステップのインターフェース手段が選択ステップの出力を変換した結果の一例である。 本発明の第5の実施の形態における抽出ステップの分離手段の処理のフローチャートである。 本発明の第5の実施の形態における抽出ステップのビデオスキミング手段の処理のフローチャートである。 本発明の第5の実施の形態における抽出ステップのオーディオスキミング手段の処理のフローチャートである。 本発明の第5の実施の形態における抽出ステップのビデオスキミング手段のもうひとつの処理のフローチャートである。 本発明の第6の実施の形態におけるデータ処理方法のブロック図である。 本発明の第6の実施の形態における構成ステップと配送ステップのブロック図である。 本発明の第7の実施の形態におけるデータ処理方法のブロック図である。 本発明の第7の実施の形態における文脈内容記述データのデータ構造を表す図である。 本発明の第7の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の一例である。 図58の文脈内容記述データの続きの部分である。 図59の続き部分である。 図60の続き部分である。 図61の続き部分である。 図62の続き部分である。 図63の続き部分である。 図64の続き部分である。 図65の続き部分である。 図58〜図66の文脈内容記述データに代表データを追加したXML文書の一部分と、該文脈内容記述データをコンピュータ上で表現するXMLで書かれたDTDの一例である。 図67の文脈内容記述データの続きの部分である。 図68の続き部分である。 図69の続き部分である。 図70の続き部分である。 図71の続き部分である。 図72の続き部分である。 図73の続き部分である。 図74の続き部分である。 図75の続き部分である。 図76の続き部分である。 図77の続き部分である。 図78の続き部分である。 図79の続き部分である。 本発明の第7の実施の形態における選択ステップの処理のフローチャートである。 本発明の第7の実施の形態における応用のブロック図である。 本発明の第8の実施の形態における選択ステップの処理のフローチャートである。 本発明の第9の実施の形態における選択ステップの処理のフローチャートである。 本発明の第10の実施の形態における選択ステップの処理のフローチャートである。 本発明の第12の実施の形態におけるデータ処理方法のブロック図である。 本発明の第12の実施の形態における文脈内容記述データのデータ構造を表す図である。 本発明の第5の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XML文書の一例の一部である。 図88の一例の続きの部分である。 図89の一例の続きの部分である。 図90の一例の続きの部分である。 図91の一例の続きの部分である。 図92の一例の続きの部分である。 図93の一例の続きの部分である。 図94の続きの部分である。 図95の続きの部分である。 本発明の第13の実施の形態におけるデータ処理方法のブロック図である。 本発明の第14の実施の形態におけるデータ処理方法のブロック図である。 本発明の第15の実施の形態におけるデータ処理方法のブロック図である。 本発明の第16の実施の形態におけるデータ処理方法のブロック図である。 本発明の第17の実施の形態におけるデータ処理方法のブロック図である。 チャネルおよびレイヤーを示す説明図である。 物理内容記述データをXMLで記述するためのDTDと、該DTDによる物理内容記述データの一部分の一例である。 図103の物理内容記述データの続きの部分である。 第17の実施の形態の実施例1の判定ステップの処理を示すフローチャートである。 第17の実施の形態の実施例1の判定ステップが行うユーザ要求による判定処理を示すフローチャートである。 第17の実施の形態の実施例1の判定ステップが行う映像情報に関する判定処理を示すフローチャートである。 第17の実施の形態の実施例1の判定ステップが行う音情報に関する判定処理を示すフローチャートである。 第17の実施の形態の実施例2の判定ステップの処理を示すフローチャートの一部である。 第17の実施の形態の実施例2の判定ステップの処理を示すフローチャートの一部である。 第17の実施の形態の実施例3の判定ステップの処理を示すフローチャートである。 第17の実施の形態の実施例3の判定ステップが行う映像情報に関する判定処理を示すフローチャートである。 第17の実施の形態の実施例3の判定ステップが行う音情報に関する判定処理を示すフローチャートである。 第17の実施の形態の実施例4の判定ステップの処理を示すフローチャートの一部である。 第17の実施の形態の実施例4の判定ステップの処理を示すフローチャートの一部である。 第17の実施の形態の実施例4の判定ステップが行うユーザ要求による判定処理を示すフローチャートである。 第17の実施の形態の実施例4の判定ステップが行う映像情報に関する判定処理を示すフローチャートである。 第17の実施の形態の実施例4の判定ステップが行う音情報に関する判定処理を示すフローチャートである。 第17の実施の形態の実施例5の判定ステップの処理を示すフローチャートの一部である。 第17の実施の形態の実施例5の判定ステップの処理を示すフローチャートの一部である。 第17の実施の形態の実施例5の判定ステップが行うユーザ要求による判定処理を示すフローチャートである。 本発明の第18の実施の形態におけるデータ処理方法のブロック図である。 本発明の第19の実施の形態におけるデータ処理方法のブロック図である。 本発明の第20の実施の形態におけるデータ処理方法のブロック図である。 本発明の第21の実施の形態におけるデータ処理方法のブロック図である。 本発明の第22の実施の形態におけるデータ処理方法のブロック図である。 文脈内容記述データと物理内容記述データとをひとつにまとめたDTDと、XML文書の一例である。 図127のXML文書の続きの部分である。 図128の続き部分である。 図129の続き部分である。 図130の続き部分である。 図131の続き部分である。 本発明の第11の実施の形態における文脈内容記述データのデータ構造を表す図である。 本発明の第11の実施の形態における観点を表す図である。 本発明の第11の実施の形態における重要度を表す図である。 本発明の第11の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の一例である。 図136の文脈内容記述データの続きの部分である。 図137の続き部分である。 図138の続き部分である。 図139の続き部分である。 図140の続き部分である。 図141の続き部分である。 図142の続き部分である。 図143の続き部分である。 図144の続き部分である。 図145の続き部分である。 図146の続き部分である。 図147の続き部分である。 図148の続き部分である。 図149の続き部分である。 図150の続き部分である。 図151の続き部分である。 図152の続き部分である。 図153の続き部分である。 図154の続き部分である。 図155の続き部分である。 図156の続き部分である。 図157の続き部分である。 図158の続き部分である。 図159の続き部分である。 図160の続き部分である。 図161の続き部分である。 図162の続き部分である。 本発明の第11の実施の形態における文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の他の例である。 図164の文脈内容記述データの続きの部分である。 図165の文脈内容記述データの続きの部分である。 図166の文脈内容記述データの続きの部分である。 図167の文脈内容記述データの続きの部分である。 図168の文脈内容記述データの続きの部分である。 図169の文脈内容記述データの続きの部分である。 図170の文脈内容記述データの続きの部分である。 図171の文脈内容記述データの続きの部分である。 図172の文脈内容記述データの続きの部分である。 図173の文脈内容記述データの続きの部分である。 図174の文脈内容記述データの続きの部分である。 図175の文脈内容記述データの続きの部分である。 図176の文脈内容記述データの続きの部分である。 図177の文脈内容記述データの続きの部分である。 図178の文脈内容記述データの続きの部分である。 図179の文脈内容記述データの続きの部分である。 図180の文脈内容記述データの続きの部分である。 図181の文脈内容記述データの続きの部分である。 図182の文脈内容記述データの続きの部分である。 図183の文脈内容記述データの続きの部分である。 図184の文脈内容記述データの続きの部分である。 図185の文脈内容記述データの続きの部分である。 図186の文脈内容記述データの続きの部分である。 図187の文脈内容記述データの続きの部分である。 図188の文脈内容記述データの続きの部分である。 図189の文脈内容記述データの続きの部分である。 図190の文脈内容記述データの続きの部分である。 図191の文脈内容記述データの続きの部分である。 図192の文脈内容記述データの続きの部分である。 図193の文脈内容記述データの続きの部分である。 図194の文脈内容記述データの続きの部分である。 図195の文脈内容記述データの続きの部分である。 本発明の第11の実施の形態における他の態様の文脈内容記述データのデータ構造を表す図である。 本発明の第11の実施の形態における、図197に対応した、文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の一例である。 図198の文脈内容記述データの続きの部分である。 図199の続き部分である。 図200の続き部分である。 図201の続き部分である。 図202の続き部分である。 図203の続き部分である。 図204の続き部分である。 図205の続き部分である。 図206の続き部分である。 図207の続き部分である。 図208の続き部分である。 図209の続き部分である。 図210の続き部分である。 図211の続き部分である。 図212の続き部分である。 図213の続き部分である。 図214の続き部分である。 図215の続き部分である。 図216の続き部分である。 図217の続き部分である。 図218の続き部分である。 図219の続き部分である。 図220の続き部分である。 図221の続き部分である。 本発明の第11の実施の形態における、図197に対応した、文脈内容記述データをコンピュータ上で表現するXMLのDTDと、XMLで書かれた文脈内容記述データの一部分の他の例である。 図223の文脈内容記述データの続きの部分である。 図224の続き部分である。 図225の続き部分である。 図226の続き部分である。 図227の続き部分である。 図228の続き部分である。 図229の続き部分である。 図230の続き部分である。 図231の続き部分である。 図232の続き部分である。 図233の続き部分である。 図234の続き部分である。 図235の続き部分である。 図236の続き部分である。 図237の続き部分である。 図238の続き部分である。 図239の続き部分である。 図240の続き部分である。 図241の続き部分である。 図242の続き部分である。 図243の続き部分である。 図244の続き部分である。 図245の続き部分である。 図246の続き部分である。 図247の続き部分である。 図248の続き部分である。 図249の続き部分である。 図250の続き部分である。 図251の続き部分である。
符号の説明
101 選択ステップ
102 抽出ステップ
501,513 選択ステップ
503 抽出ステップ
505 再生ステップ
507 映像選択ステップ
509 音選択ステップ
511 判定ステップ
515 構成ステップ
517 配送ステップ
519 記録ステップ
523 データ記録媒体管理ステップ
525 蓄積コンテンツ管理ステップ
601 分離手段
602 ビデオスキミング手段
603 オーディオスキミング手段
1301 節<section>
1302 節<section>
1301 節<section>
1301 葉<segment>
1801 選択ステップ
1802 抽出ステップ
1803 構成ステップ
1804 配送ステップ
1805 データベース
2401 インターフェース手段
2402 分離手段
2403 ビデオスキミング手段
2404 オーディオスキミング手段
3101 選択ステップ
3102 抽出ステップ
3103 構成ステップ
3104 配送ステップ
3105 データベース
3201 ストリーム選択手段
3202 多重化手段
3203 状況判定手段
3204 配送手段
4101 選択ステップ
4102 抽出ステップ
4103 構成ステップ
4104 配送ステップ
4105 データベース
4401 選択ステップ
4402 抽出ステップ
4403 構成ステップ
4404 配送ステップ
4405 データベース

Claims (12)

  1. 複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、前記複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも1つのキーワードによって表される観点と、前記観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも1つ記述されている属性部との両方を有する文脈内容記述データを入力する入力部と、
    前記属性部に記述されている前記観点及び前記スコアの少なくとも一つに基づいて、前記データ構造部からセグメントを選択する選択部と、
    を備えるデータ処理装置。
  2. 前記メディアコンテンツの各場面は、場面の区切りに応じて時間によって区切られ、前記属性部には、前記複数のセグメントの各々に割り当てられる属性情報として、場面の区切りを表す時間情報が記述されている請求項1記載のデータ処理装置。
  3. 前記属性部は、前記観点と前記スコアの組が1つのセグメントに複数記述されている請求項1または2に記載のデータ処理装置。
  4. 前記選択部は、前記属性部に記述されている前記スコアと前記時間情報に基づいてセグメントを選択する際に、その選択されたセグメントの継続時間の和が設定時間以下になるように選択する請求項2に記載のデータ処理装置。
  5. 前記選択部は、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つと、その時間情報に基づいてセグメントを選択する際に、その選択されたセグメントの継続時間の和が設定時間以下になるように選択する請求項2に記載のデータ処理装置。
  6. 前記選択部は、前記スコアが大きい順にセグメントを選択する請求項4または5に記載のデータ処理装置。
  7. 前記データ構造部には、前記複数のセグメントが階層的に記述されている請求項1乃至6のいずれかに記載のデータ処理装置。
  8. 前記属性部には、文脈内容に関する補助情報が記述された請求項1乃至7のいずれかに記載のデータ処理装置。
  9. 文脈内容記述データを入力する入力部と、前記文脈内容記述データからセグメントを選択する選択部とを有するデータ処理装置のデータ処理方法であって、
    前記入力部が、複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、前記複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも1つのキーワードによって表される観点と、前記観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも1つ記述されている属性部との両方を有する文脈内容記述データを入力する入力ステップと、
    前記選択部が、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つに基づいて、前記データ構造部からセグメントを選択する選択ステップと、
    を有するデータ処理方法。
  10. 前記メディアコンテンツの各場面は、場面の区切りに応じて時間によって区切られ、前記属性部には、前記複数のセグメントの各々に割り当てられる属性情報として、場面の区切りを表す時間情報が記述されている請求項9記載のデータ処理方法。
  11. 複数の場面で構成されるメディアコンテンツの各場面を表す複数のセグメントが記述されているデータ構造部と、前記複数のセグメントの各々に割り当てられる属性情報である、場面の内容を表す少なくとも1つのキーワードによって表される観点と、前記観点に基づいた各セグメントの重要度を表すスコアの組が少なくとも1つ記述されている属性部との両方を有する文脈内容記述データを入力する入力ステップと、前記属性部に記述されている前記観点及び前記スコアの少なくとも一つに基づいて、前記データ構造部からセグメントを選択する選択ステップとをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記憶媒体。
  12. 前記メディアコンテンツの各場面は、場面の区切りに応じて時間によって区切られ、前記属性部には、前記複数のセグメントの各々に割り当てられる属性情報として、場面の区切りを表す時間情報が記述されている請求項11記載のプログラムを記録したコンピュータ読み取り可能な記憶媒体。
JP2008186374A 1998-12-25 2008-07-17 データ処理装置、データ処理方法および記録媒体 Pending JP2008310820A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008186374A JP2008310820A (ja) 1998-12-25 2008-07-17 データ処理装置、データ処理方法および記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP37148398 1998-12-25
JP27140499 1999-09-24
JP2008186374A JP2008310820A (ja) 1998-12-25 2008-07-17 データ処理装置、データ処理方法および記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP35047999A Division JP2001160066A (ja) 1998-12-25 1999-12-09 データ処理装置、データ処理方法および記録媒体、並びに該データ処理方法をコンピュータに実行させるためのプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009118933A Division JP4598134B2 (ja) 1998-12-25 2009-05-15 データ処理装置及びデータ処理方法

Publications (1)

Publication Number Publication Date
JP2008310820A true JP2008310820A (ja) 2008-12-25

Family

ID=40238316

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008186374A Pending JP2008310820A (ja) 1998-12-25 2008-07-17 データ処理装置、データ処理方法および記録媒体
JP2009118933A Expired - Fee Related JP4598134B2 (ja) 1998-12-25 2009-05-15 データ処理装置及びデータ処理方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009118933A Expired - Fee Related JP4598134B2 (ja) 1998-12-25 2009-05-15 データ処理装置及びデータ処理方法

Country Status (1)

Country Link
JP (2) JP2008310820A (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07168855A (ja) * 1993-09-21 1995-07-04 Toshiba Corp 情報記録再生装置
JP3579111B2 (ja) * 1995-03-16 2004-10-20 株式会社東芝 情報処理装置
KR100371429B1 (ko) * 1995-08-21 2003-03-15 마츠시타 덴끼 산교 가부시키가이샤 대화제어에기초하여의외성넘치는장면전개를실현할수있는멀티미디어광디스크및그재생장치와재생방법

Also Published As

Publication number Publication date
JP2009223901A (ja) 2009-10-01
JP4598134B2 (ja) 2010-12-15

Similar Documents

Publication Publication Date Title
KR100657364B1 (ko) 데이터 처리장치, 데이터 처리방법 및 저장 미디엄, 및컴퓨터로 하여금 그 데이터 처리방법을 실행하는 프로그램
US7877676B2 (en) Data processing device and method for selecting media segments on the basis of a score
KR100771055B1 (ko) 데이터 처리 장치 및 방법
US7181757B1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
JP4920395B2 (ja) 動画要約自動作成装置、方法、及びコンピュータ・プログラム
JP4550725B2 (ja) 映像視聴支援システム
WO2011059029A1 (ja) 映像処理装置、映像処理方法、および映像処理プログラム
WO2001027876A1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
JP3824318B2 (ja) データ処理装置、データ処理方法および記録媒体
JP4598134B2 (ja) データ処理装置及びデータ処理方法
JP2007074749A (ja) データ処理装置、データ処理方法、およびデータ処理方法をコンピュータに実行させるためのプログラム
JP2005166063A (ja) データ処理装置、データ処理方法および記録媒体、並びに該データ処理方法をコンピュータに実行させるためのプログラム
JP2007080290A (ja) 要約作成装置、データ処理方法およびデータ処理方法をコンピュータに実行させるためのプログラム
JP2004127324A (ja) データ処理装置、データ処理方法および記録媒体、並びに該データ処理方法をコンピュータに実行させるためのプログラム
JP2004140875A (ja) データ処理装置、データ処理方法および記録媒体、並びに該データ処理方法をコンピュータに実行させるためのプログラム
CN100433015C (zh) 数据处理装置和方法
JP2007208876A (ja) コンテンツ出力装置、及びコンテンツ出力方法
CN1936903A (zh) 数据处理方法和存储媒体及使计算机执行该方法的程序

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090324

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090515

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090603

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090626