本出願は、米国特許商標局に、2009年8月17日に出願された米国仮特許出願No.61/234,352、2009年9月14日に出願された米国仮出願No.61/242,117、2010年4月2日に出願された米国仮出願NO.61/320,389、及び韓国特許庁に2010年6月10日に出願された韓国特許出願No.10−2010−0055469に対して優先権を主張し、それぞれの全ての開示は、あらゆる目的の参照のために本明細書に組み込まれる。
以下の詳細な説明は、方法、装置、および/または本明細書に記載されるシステムの包括的な理解を得るにおいて、読者を支援するために提供される。よって、本明細書に記載の、さまざまな変更、修正、およびシステム・装置および/または方法の同等物は、該技術分野の当業者に提供されるものである。説明される処理ステップ及び/または操作の進行は一例であり、段階及び/または操作が必ずある一定の順序で行われるものではない限り、段階及び/または操作の順序はは、本明細書に記載されているところに限定されず、当技術分野において周知されているように知られているように変更されてもよい。また、周知の機能と構造との説明は、さらなる明快さと簡潔さとのために省略されていることがある。
以下、添付された図面を参照しつつ、本発明の望ましい実施形態について詳細に説明する。
図1は、一実施形態による付加再生情報の三次元再生のためのマルチメディア・ストリーム生成装置のブロック図である。
一実施形態による付加再生情報の三次元再生のためのマルチメディア・ストリーム生成装置100(以下、「マルチメディア・ストリーム生成装置」と称する)は、プログラム符号化部110、TS(transport stream)ストリーム生成部120及び伝送部130を含む。
一実施形態によるプログラム符号化部110は、符号化されたビデオデータ、符号化されたオーディオデータと共に、付加再生情報のデータを入力される。以下、説明の便宜のために、ビデオ映像と共に画面にディスプレイされる字幕や、メニューのような情報を「付加再生情報」といい、付加再生情報を生成するためのデータを「付加データ」とする。付加データは、テキスト字幕データ、字幕データ及び字幕メッセージなどを含んでもよい。
一実施形態によって、三次元ビデオ映像と共に、字幕が三次元で再生されるように、付加再生情報のデプス感を調節することができる。このために、一実施形態によるプログラム符号化部110は、付加再生情報を三次元で再生するための情報が付加データに含まれるように、付加データを生成してもよい。以下、字幕などの付加再生情報を三次元で再生するための情報を「三次元再生情報」とする。
プログラム符号化部110は、符号化されたビデオデータ、符号化されたオーディオデータ、三次元再生情報が含まれた符号化された付加データを利用し、ビデオES(elementary stream)、オーディオES、付加データストリームを生成する。本発明の実施形態によって、プログラム符号化部110は、コントロールデータなどの各種データを含む補助情報を利用し、補助情報ストリームをさらに生成することもできる。補助情報ストリームは、PMTテーブル(program map table)、PATテーブル(program association table)などのPSI情報(program specific information)、ATSC PSIP情報(advanced television standards committee program specific information protocol)またはDVB SI情報(digital video broadcasting service information)などのセクション情報を含んでもよい。
一実施形態によるプログラム符号化部110は、ビデオES、オーディオES及び付加データストリームをパケット化し、ビデオPESパケット(packetized elementary stream)、オーディオPESパケット、付加データPESパケットを生成し、補助情報パケットを生成する。
一実施形態によるTSストリーム生成部120は、プログラム符号化部110から出力されたビデオPESパケット、オーディオPESパケット、付加データPESパケット及び補助情報パケットを多重化し、TSストリームを生成する。一実施形態による伝送部130は、TSストリーム生成部120から出力されたTSストリームを、所定チャンネルを介して伝送する。
付加再生情報が字幕である場合、字幕を三次元で再生するためには、信号出力装置(図示せず)は、三次元再生情報を利用し、左目用字幕及び右目用字幕をそれぞれ生成し、これを交互に出力しなければならない。以下、三次元再生情報に含まれた情報でもって、字幕のデプス(depth)程度を表示する情報を、オフセット情報とする。オフセット情報は、左目用字幕及び右目用字幕を生成するために、字幕が表示される領域が、本来の位置から移動しなければならない距離を示す移動値、字幕が表示される領域が三次元で再生されるときの字幕のデプス程度を示す字幕のデプス値、左目用字幕と右目用字幕とのディスパリティ(disparity)、両眼視差(parallax)のうち一つ以上を含む。
以下、多様な実施形態で、オフセット情報のうち、ディスパリティ、デプス値及び座標で表示される移動値のようないずれか1つの例のみを例示するとしても、1つの例のみで例示されたオフセット情報を利用した実施形態が、他のオフセット情報を利用しても、同様に具現される。
一実施形態による付加再生情報のオフセット情報は、左目用字幕及び右目用字幕のうち、いずれか1つの視点の字幕の位置に比べて、残りの視点の字幕の相対的な移動量を含んでもよい。
付加再生情報のオフセット情報は、字幕と共に再生されるビデオ映像のデプス感情報、すなわち、ビデオ映像のオフセット情報を基準として生成することもできる。ビデオ映像のオフセット情報は、左目用映像と右目用映像とで、ビデオ映像が本来の位置から移動しなければならない距離を示す移動値、映像が三次元で再生されるときの映像のデプス程度を示す映像のデプス値、左目用映像と右目用映像とのディスパリティ、両眼視差のうち一つ以上を含んでもよい。また、ビデオ映像のオフセット情報は、移動値、デプス値、ディスパリティなどが適用される方向を示すオフセット方向をさらに含んでもよい。付加再生情報のオフセット情報は、ビデオ映像を三次元で再生するためのビデオ映像オフセット情報のうち、一つに対比させた相対的な字幕の移動量やデプス値などを含んでもよい。
また、一実施形態による付加再生情報のオフセット情報は、ビデオ映像からの相対的なデプス、ディスパリティまたは両眼視差ではなく、ビデオや字幕が二次元で再生される画面、すなわち、基本平面(zero parallax,zero plane)を基準として生成することができる。
一実施形態による三次元再生情報には、付加再生情報のオフセット情報が、基本平面を基準にした絶対値で与えられたか、あるいはビデオ映像のデプス値や移動値などのビデオ映像オフセット情報を基準にした相対値でもって与えられたかを示すフラグをさらに含むこともできる。
三次元再生情報は、オフセット情報の適用方向をさらに含んでもよい。オフセット方向は、左目用字幕及び/または右目用字幕を生成するとき、字幕を左または右のうち、いずれの方向に移動しなければならないかを示す。オフセット方向は、左または右のうちいずれか1つの方向に与えられてもよいが、視差を利用して与えられてもよい。視差は、正の視差(positive parallax)、ゼロの視差(zero parallax)、負の視差(negative parallax)に区分される。オフセット方向が正の視差である場合、字幕は、画面よりさらに深く内側に入り込んだ位置に位置しなければならないということを示す。オフセット方向が負の視差である場合、字幕が画面より手前に飛び出しているような立体感を有する位置になければならないことを示す。場合によっては、オフセット方向がゼロの視差である場合は、字幕が画面平面に、二次元に結ばれた位置になければならないことを示す。
また、一実施形態による付加再生情報の三次元再生情報は、付加再生情報が表示される領域、すなわち、字幕が表示される領域を識別する情報をさらに含むこともできる。
本発明の第1実施形態によって、マルチメディア・ストリーム生成装置100が、BDA(Blu-ray Disc Association)で定めた光記録方式による場合、プログラム符号化部110は、ビデオES、オーディオESと共に、字幕のためのテキスト字幕(text subtitle)データを含むテキスト字幕ESを生成する。プログラム符号化部110は、本発明の実施形態による三次元再生情報をテキスト字幕ESに挿入させることができる。
第1実施形態によって、プログラム符号化部110は、テキスト字幕データに含まれたダイアログプレゼンテーション・セグメント(dialog presentation segment)に三次元再生情報を挿入することができる。
本発明の第2実施形態によって、マルチメディア・ストリーム生成装置100が、DVB(digital video broadcasting)方式による場合、プログラム符号化部110は、ビデオES、オーディオES以外に、字幕データを含む付加データストリームを生成し、字幕PESパケットを生成することができる。第2実施形態によるプログラム符号化部110は、三次元再生情報を字幕データに含まれた構成ページ(composition page)内のページ構成セグメント(page composition segment)に挿入することができる。または、第2実施形態によるプログラム符号化部110は、三次元再生情報を定義する新たなセグメントを生成し、字幕データに含まれた構成ページに、三次元再生情報を定義するセグメントを挿入することもできる。プログラム符号化部110は、字幕のページに共通して適用されるページ別オフセット情報、及び字幕のページ内の領域それぞれに対して適用される領域別オフセット情報のうち、少なくとも一つを三次元再生情報に挿入することができる。
本発明の第3実施形態によって、マルチメディア・ストリーム生成装置100が、ANSI/SCTE(American National Strandard Institue/Society of Cable Telecommunications Engineers)方式による場合、プログラム符号化部110は、ビデオES、オーディオESだけではなく、字幕データを含むデータストリームを生成し、字幕PESパケットを生成することができる。第3実施形態によるプログラム符号化部110は、三次元再生情報を字幕PESパケット及び字幕PESパケットのヘッダのうち、少なくとも一つに挿入することができる。三次元再生情報は、ビットマップ(bitmap)及びフレーム(frame)のうち、少なくとも1つのオフセット情報及びオフセット方向などを含むようにしてもよい。
第3実施形態によるプログラム符号化部110は、第3実施形態による字幕データ内の字幕メッセージ(subtitle message)に、字幕のキャラクタ要素及びフレーム要素にいずれも適用されるオフセット情報を挿入することができる。または、第3実施形態によるプログラム符号化部110は、字幕データに、字幕のキャラクタ要素に係わるオフセット情報、及びフレーム要素に係わるオフセット情報のうち、少なくとも一つを別途に挿入することもできる。
第3実施形態によるプログラム符号化部110は、字幕タイプ情報であって、左目用字幕及び右目用字幕のうち、付加視点の字幕についての情報を指す字幕タイプ情報を、三次元再生情報に追加することができる。この場合、第3実施形態によるプログラム符号化部110は、付加視点の字幕に係わる座標値などを含むオフセット情報を、三次元再生情報にさらに挿入することができる。
第3実施形態によるプログラム符号化部110は、字幕タイプ情報に字幕ディスパリティ・タイプを追加し、字幕データに、左目用字幕と右目用字幕とのうち、基本視点字幕に対比させた付加視点字幕の字幕のディスパリティ情報を、三次元再生情報にさらに挿入することができる。
従って、一実施形態によるマルチメディア・ストリーム生成装置100は、字幕をBD(blu-ray disc)方式、DVB(digital video broadcasting)方式またはケーブル放送方式によって再生するために、各通信方式によって三次元再生情報を生成し、生成された三次元再生情報を付加データに挿入して付加データストリームを生成し、付加データストリームを、ビデオESデータ、オーディオESストリームまたは補助ストリームと共に多重化して伝送することができる。
三次元再生情報は、受信端(図示せず)で、ビデオデータと共に、付加再生情報を三次元で再生するのに利用することができる。
一実施形態によるマルチメディア・ストリーム生成装置100によれば、BD、既存MPEG(moving picture experts group)TSストリーム方式に基づくDVB方式、ケーブル方式などの多様な通信方式との互換性を維持し、三次元再生情報が挿入された付加データを、ビデオES、オーディオESと共に多重化して伝送することができる。
図2は、一実施形態による付加再生情報の三次元再生のためのマルチメディア・ストリーム受信装置200のブロック図である。
一実施形態によるテキストの三次元再生のためのマルチメディア・ストリーム受信装置200は、受信部210、逆多重化部220、デコーダ230及び再生部240を含む。
一実施形態による受信部210は、二次元ビデオ及び三次元ビデオのうち少なくとも一つを含むビデオデータを含むマルチメディア・ストリームに係わるTSストリームを受信する。マルチメディア・ストリームは、ビデオと共に再生されるための字幕を含む付加データを含む。本発明の実施形態によって、付加データには、付加データを三次元で再生するための三次元再生情報が含まれている。
一実施形態による逆多重化部220は、受信部210によって受信されたTSストリームを入力されて逆多重化し、ビデオPESパケット、オーディオPESパケット、付加データPESパケット及び補助情報データを抽出する。
一実施形態による逆多重化部220は、ビデオPESパケット、オーディオPESパケット、付加データPESパケット及び補助情報パケットから、ビデオES、オーディオES、付加データストリーム及びプログラム関連情報を抽出する。付加データストリームには、三次元再生情報が含まれている。
一実施形態によるデコーダ230は、逆多重化部220から、ビデオES、オーディオES、付加データストリーム及びプログラム関連情報を入力され、入力されたストリームらから、ビデオ、オーディオ、付加データ及び付加再生情報を復元し、付加データから三次元再生情報を抽出する。
一実施形態による再生部240は、デコーダ230によって復元されたビデオ、オーディオを再生する。また一実施形態による再生部240は、三次元再生情報に基づいて、付加データを三次元で再生することができる。
一実施形態によるマルチメディア・ストリーム受信装置200が抽出して利用する付加データ及び三次元再生情報は、一実施形態によるマルチメディア・ストリーム伝送装置100を参考にして述べた付加データ及び三次元再生情報に対応する。
一実施形態による再生部240は、三次元再生情報に含まれたオフセット情報及びオフセット方向に基づいて、字幕などの付加再生情報を基準位置から、オフセットほどオフセット方向に移動させた位置で再生することができる。
一実施形態による再生部240は、付加再生情報が二次元基本平面に対比させて、オフセットほど正または負の方向に移動した位置で表示されるように、付加再生情報を再生することができる。または、一実施形態による再生部240は、付加再生情報と共に再生されるビデオ映像のオフセット情報、すなわち、ビデオ映像のデプス、ディスパリティ及び両眼視差などを基に、三次元再生情報に含まれたオフセットほど正または負の方向に移動した位置で、付加再生情報が表示されるように再生することができる。
一実施形態による再生部240は、左目用字幕及び右目用字幕のうち1つの視点の字幕を、本来の位置に対比させて、オフセットほど正の方向に移動した位置に表示させ、残りの視点字幕を、本来の位置に対比させて、オフセットほど負の方向に移動した位置に表示させ、字幕を三次元で再生することができる。
一実施形態による再生部240は、左目用字幕及び右目用字幕のうち1つの視点の字幕を、残りの視点字幕の位置に対比させて、オフセットほど移動した位置で表示させ、字幕を三次元で再生することもできる。
一実施形態による再生部240は、左目用字幕及び右目用字幕それぞれについて、独立して設定されたオフセット情報を基に、それぞれ左目用字幕及び右目用字幕の位置を移動させ、三次元で字幕を再生させることもできる。
第1実施形態によって、マルチメディア・ストリーム受信装置200が、BDAで定めた光記録方式による場合、逆多重化部220は、TSストリームから、ビデオES、オーディオESだけではなく、テキスト字幕データが含まれた付加データストリームを抽出することができる。第1実施形態によるデコーダ230は、付加データストリームから、テキスト字幕データを抽出することができる。また、第1実施形態による逆多重化部220またはデコーダ230は、テキスト字幕データに含まれたダイアログプレゼンテーション・セグメント(dialog presentation segment)から、三次元再生情報を抽出することができる。本発明の実施形態によって、ダイアログプレゼンテーション・セグメントには、字幕が表示される領域の個数、及び領域の個数ほどのオフセット情報が含まれるようにする。
第2実施形態によって、マルチメディア・ストリーム受信装置200が、DVB方式による場合、逆多重化部220は、TSストリームから、ビデオES、オーディオESだけではなく、字幕データを含む付加データストリームを抽出することができる。第2実施形態によるデコーダ230は、付加データストリームから、字幕セグメント形態の字幕データを抽出することができる。デコーダ230は、三次元再生情報を、字幕データに含まれた構成ページ内のページ構成セグメントから抽出することができる。デコーダ230は、ページ構成セグメントから、字幕のページ別オフセット情報、及び字幕のページ内の領域別オフセット情報のうち、少なくとも一つをさらに抽出することができる。
第2実施形態によってデコーダ230は、三次元再生情報を、字幕データに含まれた構成ページ内に新たに定義されたデプス定義セグメント(depth definition segment)から抽出することもできる。
第3実施形態によって、マルチメディア・ストリーム受信装置200が、ANSI/SCTE方式による場合、逆多重化部220は、TSストリームから、ビデオES、オーディオESだけではなく、字幕データが含まれた付加データストリームを抽出することができる。第3実施形態によるデコーダ230は、付加データストリームから、字幕データを抽出することができる。字幕データには、字幕メッセージが含まれている。第3実施形態による逆多重化部220またはデコーダ230は、字幕PESパケット及び字幕PESパケットのヘッダのうち少なくとも一つから、三次元再生情報を抽出することができる。
第3実施形態によるデコーダ230は、第3実施形態による字幕データ内の字幕メッセージから、字幕のキャラクタ要素及びフレーム要素に共通して適用されるオフセット情報、または独立してそれぞれ適用されるオフセット情報を抽出することができる。第3実施形態によるデコーダ230は、字幕メッセージに含まれたシンプルビットマップ情報から、三次元再生情報を抽出することができる。デコーダ230は、字幕メッセージに含まれた、三次元再生情報を定義する記述子(descriptor)から、三次元再生情報を抽出することができる。記述子は、キャラクタ及びフレームのうち少なくとも1つのオフセット情報、並びにオフセット方向を含んでもよい。
字幕メッセージには、字幕タイプが含まれてもよい。字幕タイプが付加視点字幕を指す場合、字幕メッセージには、付加視点字幕についての情報がさらに含まれている。付加視点字幕についての情報は、付加視点字幕のフレーム座標、デプス値、移動値、視差やディスパリティなどのオフセット情報を含んでもよい。または、付加視点字幕についての情報は、基準視点字幕に係わる付加視点字幕の移動値やディスパリティ、視差などを含んでもよい。
この場合、デコーダ230は、字幕メッセージに含まれた付加視点字幕についての情報を抽出し、これを利用して、付加視点字幕を生成することができる。
マルチメディア・ストリーム受信装置200は、BD方式、DVB方式またはケーブル放送方式によって、受信されたマルチメディア・ストリームから、付加データ及び三次元再生情報を抽出し、これを利用して、左目用字幕及び右目用字幕を生成し、左目用字幕及び右目用字幕を交互に再生し、字幕を三次元で再生することができる。
マルチメディア・ストリーム受信装置200によれば、既存のMPEG
TSストリーム方式に基づくBD方式、DVB方式、ケーブル方式などの多様な通信方式との互換性を維持し、三次元ビデオの再生と共に、字幕を三次元で再生することができる。
図3は、三次元ビデオ及び三次元付加再生情報が同時に再生される場面を図示している。
字幕やメニューなどの付加再生情報が表示されるテキスト画面320は、ビデオ映像のオブジェクト300,310より視聴者側にさらに突出して再生されてこそ、視聴者が疲労感または違和感なしに、ビデオ映像と付加再生情報とを視聴することができる。
図4は、三次元ビデオ及び三次元付加再生情報が逆転して再生される現象を図示している。図4のように、ビデオのオブジェクト映像310より、付加再生情報画面320が視聴者から遠く位置して再生される場合、オブジェクト映像310が付加再生情報画面320を隠す。この場合、視聴者は、ビデオ映像と付加再生情報とを視聴するとき、疲労感または違和感を感じることがある。
以下、図5ないし図9を参照しつつ、第1実施形態によって、三次元再生情報を利用しつつ、テキスト字幕を三次元で再生する方法及びその装置について記述する。
図5は、本発明の第1実施形態によるテキスト字幕ストリーム500を図示した図である。テキスト字幕ストリーム500には、1つのダイアログスタイル・セグメント(DSS:dialog style segment)510と、一つ以上のダイアログプレゼンテーション・セグメント(DPS:dialog presentation segment)520とが含まれている。
ダイアログスタイル・セグメント510には、ダイアログプレゼンテーション・セグメント520に適用されるスタイル情報(style information)が保存されており、ダイアログプレゼンテーション・セグメント520には、ダイアログ情報(dialog information)が含まれている。
ダイアログスタイル・セグメント510に含まれているスタイル情報は、テキスト情報を画面上にどのように出力するかを示す情報であり、画面上で字幕が表示される領域であるダイアログ領域を示すダイアログ領域情報、ダイアログ領域内に含まれてテキストが使われるテキストボックス領域を示すテキストボックス領域情報、及び字幕に適用されるフォントの種類や大きさなどを指定するフォント情報のうち一つ以上を含む。
ダイアログ領域情報は、画面の左上端地点を基準としたとき、ダイアログ領域が出力される位置、ダイアログ領域の横軸長、縦軸長のうち一つ以上を含む。テキストボックス領域情報は、ダイアログ領域の左上端地点を基に、テキストボックス領域が出力される位置、テキストボックス領域の横軸長、縦軸長のうち一つ以上を含む。
1つの画面には、複数個のダイアログ領域が互いに異なる位置に出力されてもよいので、ダイアログスタイル・セグメント510には、複数個のダイアログ領域それぞれに係わるダイアログ領域情報が含まれるようにすることもできる。
ダイアログプレゼンテーション・セグメント520に含まれているダイアログ情報は、画面にビットマップに変換され、すなわち、レンダリング(rendering)され、字幕として表示されるテキストストリング(text stiring)、テキスト情報をレンダリングするとき適用する参照スタイル情報、字幕が画面で現れて消える時間を指定するダイアログ出力時間情報のうち、一つ以上を含む。また、ダイアログ情報は、字幕の一部にのみスタイルを適用して強調するためのインラインスタイル情報を含んでもよい。
本発明の第1実施形態によれば、テキスト字幕データを三次元で再生するための三次元再生情報が、ダイアログプレゼンテーション・セグメント520に含まれる。三次元再生情報は、左目用字幕及び右目用字幕で、字幕が表示されるダイアログ領域の位置を調節するのに使われる。図2の再生部240は、三次元再生情報を利用して、ダイアログ領域の位置を調節することによって、ダイアログ領域に含まれて出力される字幕を、三次元で再生することができる。三次元再生情報は、ダイアログ領域が、本来の位置から移動しなければならない値や、移動しなければならない座標値、またはデプス値やディスパリティ、視差などのオフセット情報を含んでもよい。また、三次元再生情報は、オフセット情報が適用される方向を含んでもよい。
ある画面に、テキスト字幕が出力されるダイアログ領域が複数個である場合、ダイアログプレゼンテーション・セグメント520には、複数個のダイアログ領域それぞれに係わるオフセット情報を含む三次元再生情報が含まれてもよい。再生部240は、複数個のダイアログ領域それぞれについて三次元再生情報を利用し、ダイアログ領域の位置を調節することができる。
このように、本発明の実施形態によれば、ダイアログスタイル・セグメント510に、ダイアログ領域を三次元で再生するための三次元再生情報が含まれる。
図6は、本発明の第2実施形態によって、三次元再生情報がダイアログプレゼンテーション・セグメント520に含まれたことを表現するシンタックス(syntax)を図示した図である。便宜上、ダイアログプレゼンテーション・セグメント520に含まれた情報のうち一部だけを図6のシンタックスに表示した。
図6で、シンタックスに表示されたnumber_of_regionsは、ダイアログ領域の個数を示す。ダイアログ領域は、最小1個以上定義され、1つの画面に、同時に複数個のダイアログ領域が出力される場合には、複数個のダイアログ領域が定義される。ダイアログ領域が複数個である場合、ダイアログプレゼンテーション・セグメント520には、複数個のダイアログ領域それぞれに適用する三次元再生情報が含まれている。
図6のシンタックスには、三次元再生情報がregion_shift_valueと表記されている。三次元再生情報は、ダイアログ領域が移動しなければならない移動方向、及び移動しなければならない距離や座標値、デプス値などを含んでもよい。
このように、本発明の実施形態によれば、三次元再生情報がテキスト字幕ストリーム内部に含まれていてもよい。
図7は、本発明の第1実施形態による信号処理方法を図示したフローチャートである。図7を参照すれば、信号処理装置(図示せず)は、ダイアログ領域オフセット情報を抽出する(段階710)。信号処理装置は、テキスト字幕データに含まれたダイアログプレゼンテーション・セグメント520から、ダイアログ領域オフセット情報を抽出することができる。1つの画面に同時に出力されるダイアログ領域は、複数個になってもよい。その場合、信号処理装置は、複数のダイアログ領域それぞれに係わるダイアログ領域オフセット情報を抽出することができる。
信号処理装置は、ダイアログ領域オフセット情報を利用し、字幕が表示されるダイアログ領域の位置を調節する(段階720)。信号処理装置は、テキスト字幕データに含まれたダイアログスタイル・セグメント510から、ダイアログ領域情報を抽出し、ダイアログ領域情報と、ダイアログ領域オフセット情報とを利用し、ダイアログ領域の最終位置を求める。
ダイアログ領域オフセット情報が複数個である場合、信号処理装置は、複数個のダイアログ領域それぞれに係わるダイアログ領域オフセット情報を利用し、複数個のダイアログ領域それぞれの位置を調節する。
このように、本発明の実施形態によれば、ダイアログ領域オフセット情報を利用して、ダイアログ領域に含まれた字幕を三次元で再生させることができる。
図8は、本発明の第1実施形態による信号処理装置を図示する。図8の信号処理装置800は、テキスト字幕データを利用して、字幕を三次元で再生する装置であり、テキスト字幕デコーダ810と、グラフィック平面830,840とを含んでもよい。
テキスト字幕デコーダ810は、テキスト字幕データをデコーディングして字幕を生成する。テキスト字幕デコーダ810は、テキスト字幕プロセッサ811、ダイアログ構成バッファ813、ダイアログプレゼンテーション・コントローラ815、ダイアログバッファ817、テキストレンダラ819及びビットマップオブジェクト・バッファ821を含む。
左目用グラフィック平面830と、右目用グラフィック平面840には、それぞれ左目用グラフィックと、右目用グラフィックとが描かれる。左目用グラフィックは、左目用字幕に対応し、右目用グラフィックは、右目用字幕に対応する。信号処理装置800は、左目用グラフィック平面830と、右目用グラフィック平面840とに描かれた左目用字幕及び右目用字幕を、左目用ビデオ映像と右目用ビデオ映像とに、それぞれオーバーレイした後、最小120分の1秒単位で交互に出力する。
図8には、左目用グラフィック平面830と、右目用グラフィック平面840とがいずれも図示されているが、これは、本発明の一実施形態に過ぎず、信号処理装置800に1つのグラフィック平面だけ含まれうるということは言うまでもない。その場合、信号処理装置800は、1つのグラフィック平面に、左目用字幕及び右目用字幕を交互に描き、字幕を三次元で再生することができる。
PID(packet identifier)フィルタ(図示せず)は、トランスポート・ストリーム(TS)からテキスト字幕データをフィルタリングし、これを字幕プリローディング・バッファ(図示せず)に伝送する。字幕プリローディング・バッファは、テキスト字幕データをあらかじめ保存していて、テキスト字幕デコーダ810に伝送する。
ダイアログプレゼンテーション・コントローラ815は、信号処理装置800全般を制御し、本発明の実施形態によって、テキスト字幕データから三次元再生情報を抽出し、これを利用して、字幕を三次元で再生させる。
テキスト字幕デコーダ810に含まれたテキスト字幕プロセッサ811は、ダイアログスタイル・セグメント510に含まれたスタイル情報を、ダイアログ構成バッファ813に送る。また、テキスト字幕プロセッサ811は、ダイアログプレゼンテーション・セグメント520をパージングし、インラインスタイル情報とテキストストリングとをダイアログバッファ817に伝送し、字幕が画面に出力される時間を指定するダイアログ出力時間情報を、ダイアログ構成バッファ813に送る。
ダイアログバッファ817は、テキストストリングとインラインスタイル情報とを保存し、ダイアログ構成バッファ813は、ダイアログスタイル・セグメント510と、ダイアログプレゼンテーション・セグメント520とのレンダリングのための情報を保存する。
テキストレンダラ819は、ダイアログバッファ817から、テキストストリング、インラインスタイル情報を受け、ダイアログ構成バッファ813から、レンダリングのための情報を受ける。また、テキストレンダラ819は、フォントプリローディング・バッファ(図示せず)から、フォントデータを受ける。テキストレンダラ819は、フォントデータを参照し、ダイアログスタイル・セグメント510に含まれたスタイル情報を適用して、テキストストリングをビットマップオブジェクトに変換する。テキストレンダラ819は、生成されたビットマップオブジェクトを、ビットマップオブジェクト・バッファ821に伝送する。
ダイアログプレゼンテーション・セグメント520に、複数のダイアログ領域が含まれている場合、テキストレンダラ819は、各領域別に複数のビットマップオブジェクトを生成することができる。
ビットマップオブジェクト・バッファ821は、レンダリングされたビットマップオブジェクトを保存していて、ダイアログプレゼンテーション・コントローラ815の制御によって、ビットマップオブジェクトをグラフィック平面に出力する。ダイアログプレゼンテーション・コントローラ815は、ダイアログ構成バッファ811に保存されているダイアログ領域情報を利用し、ビットマップオブジェクトが出力される位置を求め、その位置に、ビットマップオブジェクトが出力されるように制御する。
ダイアログプレゼンテーション・コントローラ815は、信号処理装置800が字幕を三次元で再生することができるか否かを判断する。ダイアログプレゼンテーション・コントローラ815は、信号処理装置800が字幕を三次元で再生することができない場合、ダイアログ領域情報で表示する位置に、ビットマップオブジェクトを出力し、字幕を二次元で再生する。ダイアログプレゼンテーション・コントローラ815は、信号処理装置800が字幕を三次元で再生することができる場合、三次元再生情報を抽出する。ダイアログプレゼンテーション・コントローラ815は、ビットマップオブジェクト・バッファ821に保存されているビットマップオブジェクトをグラフィック平面に描くとき、三次元再生情報を利用し、ビットマップオブジェクトが、グラフィック平面に描かれる位置を調節し、字幕を三次元で再生することができる。すなわち、ダイアログプレゼンテーション・コントローラ815は、ダイアログスタイル・セグメント510から抽出したダイアログ領域情報を利用し、ダイアログ領域が表示される本来の位置を求め、求めた位置で、三次元再生情報に含まれた移動方向及び移動値によって、ダイアログ領域の位置を調節する。
ダイアログプレゼンテーション・コントローラ815は、三次元再生情報をテキスト字幕データに含まれたダイアログプレゼンテーション・セグメント520から抽出した後、その識別子で識別される三次元再生情報をダイアログ領域オフセットテーブルから識別し、抽出することができる。
信号処理装置800にグラフィック平面が2つある場合、ダイアログプレゼンテーション・コントローラ815は、三次元再生情報に含まれた移動方向を利用し、左目用グラフィック平面830上で、ダイアログ領域を左側に移動し、右目用グラフィック平面840上で、ダイアログ領域を右側に移動するか、あるいは左目用グラフィック平面830上で、ダイアログ領域を右側に移動し、右目用グラフィック平面840上で、ダイアログ領域を左側に移動するかを決定する。
ダイアログプレゼンテーション・コントローラ815は、左目用グラフィック平面と、右目用グラフィック平面との上で、決定された移動方向に、三次元再生情報に含まれた座標値に対応する位置、または三次元再生情報に含まれた移動値ほど、またはデプス値に対応する距離ほど移動した位置に、ダイアログ領域を位置させる。
信号処理装置800にグラフィック平面が1個ある場合、ダイアログプレゼンテーション・コントローラ815は、1つのグラフィック平面に、左目用字幕のための左目用グラフィックと、右目用字幕のための右目用グラフィックとを交互に送る。すなわち、信号処理装置800は、三次元再生情報で指す移動方向に沿って、出力部830は、交互にダイアログ領域の位置を、左側及び右側の順序、または右側及び左側の順序で、移動値ほど移動させ、グラフィック平面に送る。
このように、本発明の実施形態によれば、信号処理装置は、三次元再生情報を利用し、字幕が表示されるダイアログ領域の位置を調節し、字幕を三次元で再生することができる。
図9は、本発明の第1実施形態によって、三次元再生情報を利用して生成された、左目用グラフィックと、右目用グラフィックとが、それぞれ左目用ビデオ映像と、右目用ビデオ映像とにオーバーレイされたところを図示した図である。
図9を参照すれば、左目用グラフィック及び右目用グラフィックには、ダイアログ領域がREGIONとして表記されており、ダイアログ領域中に字幕が含まれたテキストボックス(TEXT BOX)が表記されている。左目用グラフィック及び右目用グラフィックには、ダイアログ領域がそれぞれ反対方向に、所定値ほど移動することが分かる。図9を参照すれば、字幕が出力されるテキストボックスは、ダイアログ領域を基に位置が与えられるので、ダイアログ領域が移動する場合、ダイアログ領域に含まれたテキストボックスもまた移動する。従って、テキストボックスに出力される字幕もまた位置が移動する。図9に図示されたグラフィックを交互に再生する場合、視聴者は、字幕を三次元で視聴する。
図10は、マルチメディア・ストリームを生成するエンコーディング装置について説明するための図である。シングルプログラム符号化部1000は、ビデオ符号化部(video encoder)1010、オーディオ符号化部(audio encoder)1020、パケッタイザ(packetizer)1030,1040、PSI生成部1060及び多重化部(MUX:multiplexer)1670を含む。
ビデオ符号化部1010及びオーディオ符号化部1020は、ビデオデータ及びオーディオデータを入力され、それぞれ符号化する。ビデオ符号化部1010及びオーディオ符号化部1020は、符号化されたビデオデータ及びオーディオデータを、それぞれパケッタイザ1030,1040に送る。パケッタイザ1030,1040は、データをパケット化し、ビデオPESパケット及びオーディオPESパケットを生成する。本発明の実施形態で、シングルプログラム符号化部1000は、字幕生成部(subtitle generator station)1050から字幕データを入力される。図10には、字幕生成部1050が、シングルプログラム符号化部1000と別個のユニットとして図示されているが、本発明はこれに限定されるものではなく、字幕生成部1050は、シングルプログラム符号化部1000内部の1つのユニットとして含まれてもよい。
PSI生成部1060は、PATテーブル(program association table)及びPMTテーブル(program map table)などの各種プログラム関連情報を生成する。
多重化部(MUX)1070は、パケッタイザ1030,1040から、ビデオPESパケット及びオーディオPESパケットだけではなく、PESパケット形態の字幕データパケット、及びPSI生成部1060から入力された各種プログラム関連情報をセクション形態で入力され、それらを多重化し、1つのプログラムに係わるTSストリームを生成して出力する。
シングルプログラム符号化部1000が、DVB通信方式によって、TSストリームを生成して伝送した場合、DVBセットトップボックス(DVB set-top box)1080は、TSストリームを受信してパージングし、ビデオ、オーディオ及び字幕を復元することができる。
シングルプログラム符号化部1000が、ケーブル通信方式によって、TSストリームを生成して伝送した場合、ケーブルセットトップボックス(cable set-top box)1085は、TSストリームを受信してパージングし、ビデオ、オーディオ及び字幕を復元することができる。TV(television)1090は、ビデオ映像及びオーディオ音響を再生し、字幕をビデオ映像にオーバーレイして再生する。
以下、第2実施形態によって、DVB通信方式によって生成されて伝送された三次元再生情報を利用し、字幕を三次元で再生する方法及び装置について記述する。
第2実施形態は、表1ないし表21及び図10ないし図23を参照しつつ説明する。
図11は、DVB通信方式による字幕ストリームの階層的構造を図示している。字幕ストリームは、プログラム・レベル1100、エポック・レベル1110、ディスプレイシーケンス・レベル1120、領域レベル1130、オブジェクト・レベル1140の階層的構造によって構成される。
字幕ストリームは、デコーダの動作モデルを考慮し、エポック1112,1114,1116という単位で構成される。1つのエポックに含まれたデータは、次のエポックのデータが入るまで、字幕デコーダのバッファに保存される。1つのエポックは、一つ以上のディスプレイシーケンス単位1122,1124,1126から構成される。
ディスプレイシーケンス単位1122,1124,1126は、完全なグラフィック場面を示し、数秒間画面上で維持される。ディスプレイシーケンス単位1122,1124,1126は、一つ以上の領域単位1132,1134,1136から構成される。領域単位1132,1134,1136は、水平サイズ、垂直サイズ及び所定色相を有する領域であり、画面に字幕が含まれて出力される領域を示す。領域単位1132,1134,1136は、当該領域内に表示される字幕であるオブジェクト1142,1144,1146から構成される。
図12及び図13は、DVB通信方式によって、字幕のPESパケットを指すPMTテーブル内の字幕記述子の2種表現方式を図示している。
1つの字幕ストリームは、一つ以上の字幕サービスを伝送することができる。一つ以上の字幕サービスが、1つのパケットに多重化され、1つのPID情報を割り当てられて伝送されたり、あるいはそれぞれの字幕サービスが、別個のパケットに構成され、別個のPID情報を割り当てられ、それぞれ伝送されてもよい。プログラムの字幕サービスに係わるPID情報、言語及びページ識別子が、関連PMTテーブルに定義されている。
図12は、一つ以上の字幕サービスが、1つのパケットに多重化された場合の字幕記述子及び字幕PESパケットを図示している。一つ以上の字幕サービスが、1つのPESパケット1240に多重化され、同じPID情報Xを割り当てられ、これにより、字幕サービスのための複数枚のページ1242,1244,1246も、同じPID情報Xに従属する。
補助ページ(ancillary page)1246の字幕データは、互いに異なる字幕データ1242,1244に対して共有されるデータである。
PMTテーブル1200は、字幕データに係わる字幕記述子1210を含んでもよい。字幕記述子1210は、字幕データについての情報をパケット別に定義する。同じパケット内では、字幕サービスについての情報がページ別に分類されてもよい。すなわち、字幕記述子1210は、PID情報XであるPESパケット1240内の字幕データ1242,1244,1246についての情報を含み、PESパケット1240内の字幕データのページ1242,1244別に定義された字幕データ情報1220,1230は、それぞれの言語情報「language」、構成ページ識別子「composition-page_id」及び共有ページ識別子「ancillary-page_id」を含んでもよい。
図13は、それぞれの字幕サービスが、別個のパケットに構成された場合の字幕記述子及び字幕PESパケットを図示している。第1字幕サービスのための第1ページ1350は、第1 PESパケット1340から構成され、第2字幕サービスのための第2ページ1370は、第2 PESパケット1360から構成される。第1 PESパケット1340及び第2 PESパケット1360には、PID情報X及びYがそれぞれ割り当てられる。
PMTテーブル1300の字幕記述子1310は、複数個の字幕PESパケットのPID情報値を含み、複数個のPESパケットの字幕データのための情報を、PESパケット別に定義することができる。すなわち、字幕記述子1310は、PID情報Xである第1
PESパケット1340内の字幕データのページ1350のための字幕サービス情報1320、及びPID情報Yの第2 PESパケット1360内の字幕データのページ1370のための字幕サービス情報1330を含んでもよい。
図14は、DVB通信方式による字幕データを含むデータストリーム構造の一例を図示している。
字幕デコーダ(図示せず)は、DVB通信方式による字幕を含むDVB TSストリーム1400から、同じPID情報が割り当てられた字幕TSパケット1402,1404,1406をギャザリング(gathering)し、字幕PESパケット1412,1414を構成する。それぞれのPESパケット1412,1414の開始部分を構成する字幕データ1402,1406は、当該PESパケット1412,1414のヘッダを構成する。
それぞれの字幕PESパケット1412,1414は、グラフィックオブジェクトの出力単位であるディスプレイセット1422,1424から構成される。ディスプレイセット1422は、複数枚の構成ページ(composition page)1442,1444及び補助ページ1446を含む。構成ページ1442,1444は、字幕ストリームの構成情報を含む。1枚の構成ページ1442は、ページ構成セグメント(page composition segment)1452、領域構成セグメント(region composition segment)1454、CLUT定義セグメント(CLUT(color lookup table) definition segment)1456及びオブジェクトデータ・セグメント(object data segment)1458を含む。1枚の補助ページ1446は、CLUT定義セグメント1462及びオブジェクトデータ・セグメント1464を含む。
図15は、DVB通信方式による構成ページ構造の一例を図示している。
構成ページ1500は、1つのディスプレイ定義セグメント1510、1つのページ構成セグメント1520、一つ以上の領域構成セグメント1530,1540、一つ以上のCLUT定義セグメント1550,1560、一つ以上のオブジェクトデータ・セグメント1570,1580、及び1つの終了セグメント(end of display set segment)1590)を含む。構成ページ1500は、領域構成セグメント、CLUT定義セグメント、オブジェクトデータ・セグメントを複数個ずつ含んでもよい。ページ識別子が「1」である構成ページ1500を構成するセグメント1510,1520,1530,1540,1550,1560,1570,1580,1590は、いずれもページ識別子「page id」が「1」と定義される。それぞれの領域構成セグメント1530,1540に係わる領域識別子「region id」は、領域別インデックスとして設定され、それぞれのCLUT定義セグメント1550,1560に係わるCLUTテーブル識別子「CLUT id」は、CLUTテーブル別インデックスとして設定されてもよい。また、それぞれのオブジェクトデータ・セグメント1570,1580に係わるオブジェクト識別子「object id」は、オブジェクトデータ別インデックスとして設定されてもよい。
以上、ディスプレイ定義セグメント、ページ構成セグメント、領域構成セグメント、CLUT定義セグメント、オブジェクトデータ・セグメント及び終了セグメントのシンタックスは、字幕セグメントの形態に符号化され、字幕PESパケットのペイロード領域に挿入されてもよい。
表1は、DVB字幕PESパケット内の「PES_packet_data_bytes」フィールドに保存される「PES_data_field」フィールドのシンタックスを示している。字幕PESパケットに保存される字幕データは、「PES_data_field」フィールドの形態に符号化される。
「data_identifier」フィールドは、現在のPESパケットデータが、DVB字幕データであることを示すように、「0x20」値に固定される。「subtitle_stream_id」フィールドは、現在字幕ストリームの識別子を含み、「0x00」値に固定される。「end_of_PES_data_field_marker」フィールドは、現在データフィールドがPESデータフィールド終了フィールドであるか否かを示す情報を含み、値「1111 1111」に固定される。字幕セグメント「subtitling_segment」フィールドのシンタックスは、表2の通りである。
「sync_byteフィールドは、「0000 1111」値に暗号化される。「segment_lengthフィールド値を基にセグメントが復号化されるとき、同期化いかんを確認し、伝送パケットのロス(loss)いかんを判断するために、「sync_byte」フィールドが利用される。
「segment_type」フィールドは、セグメントデータ・フィールドに含まれたデータ種類についての情報を含む。
表3は、「segment_type」フィールドによって定義されるセグメント・タイプ(segment type)を示している。
「page_id」フィールドは、「subtitling_segment」に含まれた字幕サービスの識別子を含む。字幕記述子で、構成ページ識別子として設定された「page_id」値が割り当てられた字幕セグメントには、1つの字幕サービスに係わる字幕データが含まれる。また、字幕記述子で、補助ページ識別子として設定された「page_id」値が割り当てられた字幕セグメントには、複数個の字幕サービスが共有されるデータが含まれる。
「segment_length」フィールドは、後続する「segment_data_field」フィールドに含まれたバイト数情報を含む。「segment_data_field」フィールドは、セグメントのペイロード領域であり、ペイロード領域のシンタックスは、セグメント・タイプによって変わりうる。セグメント・タイプ別ペイロード領域のシンタックスは、下記表4,5,7,12,13及び15で例示する。
表4は、ディスプレイ定義セグメント「display_definition_segment」のシンタックスを図示している。
ディスプレイ定義セグメントは、字幕サービスの解像度を定義することができる。
「dds_version_number」フィールドは、ディスプレイ定義セグメントのバージョン情報を含む。「dds_version_number」フィールド値のバージョン番号は、ディスプレイ定義セグメントの内容が変更されるたびに、モジュロ(modulo)16単位で増加する。
「display_window_flag」フィールド値が「1」に設定される場合、ディスプレイ定義セグメントと関連したDVB字幕ディスプレイセットは、「display_width」フィールド及び「display_height」フィールドで定義されたディスプレイ・サイズ内で、字幕が表示されるウィンドウ領域を定義する。この場合、ディスプレイ定義セグメントで、「display_window_horizontal_position_minimum」フィールド、「display_window_horizontal_position_maximum」フィールド、「display_window_vertical_position_minimum」フィールド及び「display_window_vertical_position_maximum」フィールドの値によって、ディスプレイ内のウィンドウ領域の大きさと位置とが定義される。
「display_window_flag」フィールド値が「0」に設定される場合、DVB字幕ディスプレイセットは、「display_width」フィールド及び「display_height」フィールドで定義されたディスプレイ・サイズ内で、ウィンドウ領域なしに表現される。
「display_width」フィールド及び「display_height」フィールドは、それぞれディスプレイ・サイズの最大水平幅及び最大垂直高を含み、それぞれフィールド値が0〜4095の範囲で設定されてもよい。
「display_window_horizontal_position_minimum」フィールドは、ディスプレイ内で、現在ウィンドウ領域の水平最小位置を含む。ウィンドウ領域の水平最小位置は、ディスプレイの左側末端ピクセルを基に、DVB字幕ディスプレイ・ウィンドウの左側末端ピクセル値でもって定義される。
「display_window_horizontal_position_maximum」フィールドは、ディスプレイ内で、ウィンドウ領域の水平最大位置を含む。ウィンドウ領域内で、水平最大位置は、ディスプレイの左側末端ピクセルを基に、DVB字幕ディスプレイ・ウィンドウの右側末端ピクセル値でもって定義される。
「display_window_vertical_position_minimum」フィールドは、ディスプレイ内で、現在ウィンドウ領域の垂直最小ピクセル位置を含み、ディスプレイの上端ラインを基に、DVB字幕ディスプレイ・ウィンドウの最上端ライン値が定義される。
「display_window_vertical_position_maximum」フィールドは、ディスプレイ内で、現在ウィンドウ領域の垂直最大ピクセル位置を含み、ディスプレイの上端ラインを基に、DVB字幕ディスプレイ・ウィンドウの最下端ライン値が定義される。
表5は、ページ構成セグメント「page_composition_segment」のシンタックスを図示している。
「page_time_out」フィールドは、ページが有効ではなく、スクリーン上で消えるまでの期間についての情報を含み、秒(second)単位で設定される。「page_version_number」フィールド値は、ページ構成セグメントのバージョン番号を示し、ページ構成セグメントの内容が変更されるたびに、モジュロ16単位で増加する。
「page_state」フィールドは、ページ構成セグメントで記述された字幕ページ・インスタンス(page instance)の状態についての情報を含む。「page_state」フィールド値は、ページ構成セグメントによる字幕ページを表示するためのデコーダの動作状態(status)を示すこともできる。表6は、「page_state」フィールド値の内容を示している。
「processed_length」フィールドは、デコーダによって処理される「while」ループ(loop)内に含まれたバイト数情報を含む。「region_id」フィールドは、ページ内の領域に係わる固有識別子を表示する。識別されたそれぞれの領域は、ページ構成で定義されたページ・インスタンスにディスプレイされてもよい。それぞれの領域は、「region_vertical_address」フィールド値の昇順(ascending order)によって、ページ構成セグメントに収録される。
「region_horizontal_address」フィールドは、ページ内の当該領域の上端左側ピクセルが表示される水平ピクセルの位置を定義し、「region_vertical_address」フィールドは、ページ内の当該領域の上端左、すなわち、ピクセルが表示される垂直ラインの位置を定義する。
表7は、領域構成セグメント「region_composition_segment」のシンタックスを図示している。
「region_id」フィールドは、現在領域の固有識別子を含む。
「region_version_number」フィールドは、現在領域のバージョン情報を含む。「region_fill_flag」フィールド値が「1」に設定された場合、現在領域のCLUTテーブルが変更された場合、または現在領域が長さが0ではないオブジェクト目録(object list)を具備する場合のうち、いずれか1つの条件を満足する場合、現在領域のバージョンが増加する。
「region_fill_flag」フィールド値が「1」に設定される場合、「region_n−bit_pixel_code」フィールドで定義された色相で、現在領域の背景が充填される。
「region_width」フィールド及び「region_height」フィールドは、それぞれ現在領域の水平幅情報及び垂直高情報を含み、ピクセル単位で設定される。「region_level_of_compatibility」フィールドは、現在領域を復号化するために、デコーダが具備しなければならない最小限のCLUTタイプ情報を含み、表8によって定義される。
デコーダが指定された最小限のCLUTタイプを支援することができない場合、さらに低いレベルのCLUTタイプを要求する他の領域は、表示されてもよいが、現在領域は、表示されない。
「region_depth」フィールドは、領域のピクセルデプス情報を含み、表9によって定義される。
「CLUT_id」フィールドは、現在領域に適用されるCLUTテーブルの識別子を含む。「region_8−bit_pixel−code」フィールド値は、「region_fill_flag」フィールドが設定された場合、現在領域の背景色として適用される8ビットCLUTテーブルの色相エントリを定義する。同様の方式で、「region_4−bit_pixel−code」フィールド値及び「region_2−bit_pixel−code」フィールド値は、それぞれ「region_fill_flag」フィールドが設定された場合、現在領域の背景色として適用される4ビットCLUTテーブルの色相エントリ、及び2ビットCLUTテーブルの色相エントリを定義する。
「object_id」フィールドは、現在領域で見られるオブジェクトの識別子を含み、「object_type」フィールドは、表10で定義されたオブジェクト・タイプ情報を含む。オブジェクト・タイプは、基底オブジェクトまたは構成オブジェクト、ビットマップ、文字または文字列に分類されてもよい。
「object_provider_flag」フィールドは、表11によって、オブジェクトを提供する方式を示している。
「object_horizontal_position」フィールドは、現在領域内のオブジェクトデータが表示される相対的位置であり、現在オブジェクトの上端左側ピクセルが表示される水平ピクセルの位置情報を含む。すなわち、現在領域の左側末端を基に、現在オブジェクトの左側上端ピクセルまでのピクセル数が定義される。
「object_vertical_position」フィールドは、現在領域内のオブジェクトデータが表示される相対的位置であり、現在オブジェクトの上端左側ピクセルが表示される垂直ラインの位置情報を含む。すなわち、現在領域の上端を基に、現在オブジェクトまでの上端ラインまでのラインの個数が定義される。
「foreground_pixel_code」フィールドは、文字の前景色相として選択された8ビットCLUTテーブルの色相エントリ情報を含む。「background_pixel_code」フィールドは、文字の背景色相として選択された8ビットCLUTテーブルの色相エントリ情報を含む。
表12は、CLUT定義セグメント「CLUT_definition_segment」のシンタックスを図示している。
「CLUT−id」フィールドは、ページ内で、CLUT定義セグメントに含まれたCLUTテーブルの識別子を含む。「CLUT_version_number」フィールドは、CLUT定義セグメントのバージョン番号を示し、現在セグメントの内容が変更される場合、バージョン番号がモジュロ16単位で増加する。
「CLUT_entry_id」フィールドは、CLUTエントリの固有識別子を含み、最初の識別子値は、0である。「2−bit/entry_CLUT_flag」フィールド値が「1」に設定される場合、現在CLUTテーブルは、2ビットエントリとして構成されることが設定され、同様の方式で、「4−bit/entry_CLUT_flag」フィールド値または「8−bit/entry_CLUT_flag」フィールド値が「1」に設定される場合、現在CLUTテーブルは、4ビットエントリまたは8ビットエントリとして構成されることが設定される。
「full_range_flag」フィールド値が「1」に設定される場合、「Y_value」フィールド、「Cr_value」フィールド、「Cb_value」フィールド及び「T_value」フィールドに対して、フル8ビット解像度が適用される。
「Y_value」フィールド、「Cr_value」フィールド及び「Cb_value」フィールドは、それぞれ入力に係わるCLUTテーブルのY出力情報、Cr出力情報及びCb出力情報を含む。
「T_value」フィールドは、入力に係わるCLUTテーブルの透明度情報を含む。「T_value」フィールド値が「0」である場合、透明度がないことを意味する。
表13は、オブジェクトデータ・セグメント「object_data_segment」のシンタックスを図示している。
「object_id」フィールドは、ページ内の現在オブジェクトに係わる識別子を含む。「object_version_number」フィールドは、現在オブジェクトデータ・セグメントのバージョン情報を含み、セグメントの内容が変更されるたびに、バージョン番号が「モジュロ16」単位で増加する。
「object_coding_method」フィールドは、オブジェクトの符号化方法情報を含む。表14によって、オブジェクトは、ピクセルまたは文字列で符号化されてもよい。
「non_modifying_colour_flag」フィールド値が「1」に指定された場合、CLUTテーブルの入力値「1」が修正されていない「非修正色相」であることを示す。オブジェクト・ピクセルに非修正色相が割り当てられれば、基底領域の背景またはオブジェクトのピクセルは、修正されない。
「top_field_data_block_length」フィールドは、最上端フィールドに係わる「pixel−data_sub−blocks」フィールドに含まれたバイト数情報を含む。「bottom_field_data_block_length」フィールドは、最下端フィールドに係わる「data_sub−block」フィールドに含まれたバイト数情報を含む。それぞれのオブジェクトで、最上端フィールドのピクセルデータサブブロックと、最下端フィールドのピクセルデータサブブロックは、同じオブジェクトデータ・セグメントを介して定義される。
「8_stuff_bits」フィールドは、「0000 0000」に固定される。「number_of_codes」フィールドは、文字列内の文字コード術情報を含む。「character_code」フィールド値は、字幕記述子で識別される文字コード内のインデックスを利用して文字を設定する。
表15は、終了セグメント(end_of_display_set_segment)のシンタックスを図示している。
「end_of_display_set_segment」フィールドは、デコーダにディスプレイセットの伝送が完了していることを知らせるために利用される。「end_of_display_set_segment」フィールドは、それぞれのディスプレイセットについて、最後のオブジェクトデータ・セグメント「object_data_segment」フィールドの次に挿入されてもよい。また、「end_of_display_set_segment」フィールドは、1つの字幕ストリーム内で、それぞれの字幕サービスを区分するために利用されてもよい。
図16は、DVB通信方式による字幕処理モデルのフローチャートを図示している。
DVB通信方式による字幕処理モデルによれば、字幕データが含まれたTSストリーム1610が、MPEG−2TSパケット(transport stream packet)に分解される。PIDフィルタ(PID filter)1620は、MPEG−2TSパケットにおいて、字幕に対応するPID情報が割り当てられた字幕用TSパケット1612,1614,1616のみ抽出し、抽出されたTSパケット1612,1614,1616をトランスポートバッファ(transport buffer)1630に送る。トランスポートバッファ1630は、字幕用TSパケット1612,1614,1616を利用し、字幕PESパケットを構成する。それぞれの字幕PESパケットは、字幕データが含まれたPESペイロード及びPESヘッダから構成される。字幕デコーダ1640は、トランスポートバッファ1630から出力された字幕PESパケットを入力され、画面上に表示される字幕を構成する。
字幕デコーダ1640は、前処理及びフィルタリング部(pre-processor and filters)1650、符号化データバッファ(coded data buffer)1660、構成バッファ(composition buffer)1680、字幕処理部(subtitle processor)1670を含んでもよい。
ユーザによってPMTテーブル内のページID情報「page_id」が「1」であるページが選択された場合を仮定する。前処理及びフィルタリング部1650は、PESペイロード(PES payload)内の「page_id」が「1」である構成ページを、ディスプレイ定義セグメント、ページ構成セグメント、領域構成セグメント、CLUT定義セグメント及びオブジェクトデータ・セグメントに分解する。分解されたセグメントのうち、一つ以上のオブジェクトデータ・セグメント内の一つ以上のオブジェクトデータは、符号化データバッファ1660に保存され、ディスプレイ定義セグメント、ページ構成セグメント、一つ以上の領域構成セグメント及び一つ以上のCLUT定義セグメントは、構成バッファ1680に保存される。
字幕処理部1670は、符号化データバッファ1660から、一つ以上のオブジェクトデータを入力され、構成バッファ1680に保存されたディスプレイ情報、ページ構成情報、領域構成情報及びCLUT情報に基づいて一つ以上のオブジェクトから構成された字幕を生成する。
字幕デコーダ1640は、生成された字幕をピクセルバッファ(pixel buffer)1690に描く。
図17ないし図19は、符号化データバッファ(coded data buffer)、構成バッファ(composition buffer)、ピクセルバッファ(pixel buffer)に保存されたデータを図示している。
図17を参照すれば、符号化データバッファ1700に、オブジェクト識別子(object id)が「1」であるオブジェクトデータ1710、及びオブジェクト識別子が「2」であるオブジェクトデータ1720が保存されていることが分かる。
図18を参照すれば、構成バッファ1800に、領域識別子(region id)が「1」である第1領域1810についての情報、領域識別子が「2」である第2領域1820についての情報、並びに第1領域1810及び第2領域1820から構成されたページ構成についての情報1830が保存される。
字幕処理部1670(図16)は、符号化データバッファ1700に保存されたオブジェクトデータ1710,1720、及び構成バッファ1800に保存された第1領域1810、第2領域1820及びページ1830についての情報に基づいて、図19のように、領域別字幕オブジェクト1910,1920が配置された字幕ページ1900を、ピクセルバッファ1690に保存する。
以下、表1ないし表15及び図10ないし図19を参照しつつ述べたDVB通信方式による字幕を基に、本発明の第2実施形態によるマルチメディア・ストリーム生成装置100、及び第2実施形態によるマルチメディア・ストリーム受信装置200の動作について、以下表16ないし表21及び図20ないし図23を参照しつつ説明する。
第2実施形態によるマルチメディア・ストリーム生成装置100は、DVB字幕の三次元再生のための情報を、字幕PESパケットに挿入することができる。第2実施形態によるDVB字幕の三次元再生のための情報は、字幕が表示される領域の移動値、デプス値、ディスパリティ、両眼視差のうち一つ以上を含むオフセット情報、オフセット情報が適用される方向を示すオフセット方向を含んでもよい。
図20は、本発明の第2実施形態によって、DVB通信方式による字幕データの構成ページ構造の一例を図示する。図20を参照すれば、構成ページ2000は、1つのディスプレイ定義セグメント2010、1つのページ構成セグメント2020、一つ以上の領域構成セグメント2030,2040、一つ以上のCLUT定義セグメント2050,2060、一つ以上のオブジェクトデータ・セグメント2070,2080、及び1つの終了セグメント(end of display set segment)2090を含む。図20で、ページ構成セグメント2020には、本発明の実施形態による三次元再生情報が含まれることもできる。三次元再生情報は、字幕が表示される領域の移動値、デプス値、ディスパリティ、両眼視差のうち一つ以上を含むオフセット情報、そしてオフセット情報が適用される方向を示すオフセット方向を含んでもよい。
マルチメディア・ストリーム生成装置100のプログラム符号化部110は、字幕PESパケット内の構成ページ2000内のページ構成セグメント2020に、字幕を三次元で再生するための三次元再生情報を挿入することができる。
表16及び表17は、三次元再生情報が含まれた構成セグメント2020のシンタックスを例示している。
第2実施形態によるプログラム符号化部110は、表5の基本「page_composition_segment()」内のwhileループ内の「reserved」フィールドに、表16のように、「region_offset_direction」フィールド及び「region_offset」フィールドをさらに挿入することができる。
第2実施形態によるプログラム符号化部110は、「reserved」フィールドの8ビットを代替し、「region_offset_direction」フィールドに、オフセットの方向を示す情報1ビットを割り当て、「region_offset」フィールドに、オフセットを7ビット割り当てることができる。
表17は、表16のページ構成セグメントに、「region_offset_based_position」フィールドが追加されたところを図示している。表5の基本的なページ構成セグメント内の8ビットの「reserved」フィールドを代替し、1ビットの「region_offset_direction」フィールド、6ビットの「region_offset」フィールド、及び1ビットの「region_offset_based_position」フィールドが割り当てられる。
「region_offset_based_position」フィールドは、「region_offset」フィールドのオフセット値が、基本平面を基に適用されているか否か、あるいはビデオ映像のデプスや移動値などを基に適用されているか否かを示すためのフラグ情報を含んでもよい。
図21は、本発明の第2実施形態によって、DVB通信方式による字幕データの構成ページ構造の他の例を図示する。図21を参照すれば、構成ページ2100は、1つのディスプレイ定義セグメント2110、1つのページ構成セグメント2120、一つ以上の領域構成セグメント2130,2140、一つ以上のCLUT定義セグメント2150,2160、一つ以上のオブジェクトデータ・セグメント2170,2180、及び1つの終了セグメント(end of display set segment)2190以外に、字幕のデプスを定義するセグメントであるデプス定義セグメント(depth definition segment)2185がさらに含まれることもできる。
デプス定義セグメント2185は、三次元再生情報について定義するセグメントであり、字幕を三次元で再生するためのオフセット情報が含まれた三次元再生情報を含んでもよい。このために、プログラム符号化部110は、字幕のデプスを定義するためのセグメントを新たに定義し、PESパケットに挿入することができる。
表18ないし表21は、第2実施形態によるプログラム符号化部110が、字幕を三次元で再生するために新たに定義したデプス定義セグメント2185である「Depth_Definitioin_Segment」フィールドのシンタックスを図示する。
第2実施形態によるプログラム符号化部110は、表2の「subtitling_segment」フィールド内の「segment_data_field」フィールドに「Depth_Definition_Segment」フィールドを、追加的なセグメント形態で挿入することができる。このために、第2実施形態によるプログラム符号化部110は、表3の「subtitle_type」フィールド値が、「0x40」〜「0x7F」である字幕タイプフィールドの保留領域(reserved)に、字幕タイプの一つとして、デプス定義セグメント2185をさらに定義することにより、DVB字幕システムとの下位互換性が保証されるようにすることができる。
デプス定義セグメント2185には、ページ単位で、字幕のオフセット情報を定義する情報が含むこともできる。デプス定義セグメント「Depth_Definition_Segment」フィールドのシンタックスを、表18及び表19を介してそれぞれ例示する。
表18及び表19で、「page_offset_direction」フィールドは、現在ページに適用されるオフセットの方向を示す。「page_offset」フィールドは、現在ページに係わるピクセル移動値、デプス値、ディスパリティ、視差などのオフセット情報を示す。
また、第2実施形態によるプログラム符号化部110は、デプス定義セグメントに、「page_offset_based_position」フィールドを含めることができる。「page_offset_based_position」フィールドは、「page_offset」フィールドのオフセット値が、基本平面を基に適用されているか否か、あるいはビデオ映像のオフセット情報を基に適用されているか否かを示すためのフラグ情報を含んでもよい。
表18及び表19のデプス定義セグメントによれば、1枚のページについて、同じオフセット情報が適用されてもよい。
また、第2実施形態によるマルチメディア・ストリーム生成装置100は、ページに含まれた領域それぞれについて、領域単位で字幕のオフセット情報を定義するデプス定義セグメントを、新たに生成することができる。その場合、「Depth_Definition_Segment」フィールドのシンタックスを、表20及び表21にそれぞれ例示する。
表20及び21のデプス定義セグメント内の「page_id」フィールド及び「region_id」フィールドは、ページ構成セグメントの同一フィールドを参照することができる。第2実施形態によるマルチメディア・ストリーム生成装置100は、新たに定義したデプス定義セグメント内で、forループを介して、現在ページ内の領域別に、字幕のオフセット情報を設定することができる。すなわち、「region_id」フィールドは、現在領域の識別情報を含み、「region_id」フィールド値によって、「region_offset_direction」フィールド、「region_offset」フィールド及び「region_offset_based_position」フィールドが別途に設定されてもよい。従って、字幕の領域別に、x座標のピクセル移動量が別途に設定されてもよい。
第2実施形態によるマルチメディア・ストリーム受信装置200は、受信されたTSストリームをパージングして構成ページを抽出し、構成ページ内のページ構成セグメント、領域定義セグメント、CLUT定義セグメント、オブジェクトデータ・セグメントなどのシンタックスを判読し、これを基に字幕を構成することができる。また、第2実施形態によるマルチメディア・ストリーム受信装置200は、表13ないし表21を参照しつつ開示された三次元再生情報を利用し、字幕が表示されるページまたは領域のデプス感を調節することができる。
以下、図22及び図23を参照しつつ、字幕のページ及び領域のデプス感を調節する方法について記述する。
図22は、第2実施形態によって、領域別に字幕のデプス感を調節するところを図示している。
一実施形態による字幕デコーダ2200は、図16を参照して述べたDVB通信方式による字幕処理モデルにおいて、字幕デコーダ1640を変形して(modifying)具現したモデルである。
一実施形態による字幕デコーダ2200は、前処理及びフィルタリング部2210、符号化データバッファ2220、拡張字幕処理部(enhanced subtitle processing)2230及び構成バッファ2240を含む。前処理及びフィルタリング部2210は、字幕PESペイロードにおけるオブジェクトデータを、符号化データバッファ2230に送り、領域定義セグメント、CLUT定義セグメント、ページ構成セグメント及びオブジェクトデータ・セグメントなどの字幕構成情報を、構成バッファ2240に送る。一実施形態によれば、ページ構成セグメントに、表16及び表17で例示された領域別デプス情報が含まれもする。
例えば、構成バッファ2240に、領域識別子が「1」である第1領域2242についての情報、領域識別子が「2」である第2領域2244についての情報が保存され、領域別オフセット情報(offset value per region)が含まれたページ構成2246についての情報が保存されることもできる。
拡張字幕処理部2230は、符号化データバッファ2220に保存されたオブジェクトデータ、及び構成バッファ2240に保存された構成情報を利用し、字幕ページを構成する。この場合、二次元字幕ページ2250には、図22のように、第1領域2252及び第2領域2254に、それぞれ第1オブジェクト及び第2オブジェクトが表示される。
本発明の実施形態によれば、拡張字幕処理部2230は、字幕が表示されるそれぞれの領域をオフセット情報によって移動させることによって、字幕が表示される領域別に、デプス感を調節することができる。すなわち、拡張字幕処理部2230は、構成バッファ2240に保存されたページ構成2246内の領域別オフセット情報に基づいて、第1領域2252及び第2領域2254を、当該オフセットほど移動させることができる。拡張字幕処理部2230は、第1領域2252及び第2領域2254が、それぞれ第1領域オフセット(offset for region 1)及び第2領域オフセット(offset for region 2)ほど所定方向に移動し、第1左目用領域2262及び第2左目用領域2264にそれぞれ表示されるようにし、左目用字幕2260を生成することができる。同様の方式で、拡張字幕処理部2230は、第1領域2272及び第2領域2274が、それぞれ第1領域オフセット及び第2領域オフセットほど反対方向に移動し、第1右目用領域2272及び第2右目用領域2274に、それぞれ表示されるようにし、右目用字幕2270を生成することができる。
図23は、第2実施形態によって、ページ別に字幕のデプス感を調節するところを図示している。
一実施形態による字幕処理部2300は、前処理及びフィルタリング部2310、符号化データバッファ2320、拡張字幕処理部2330及び構成バッファ2340を含む。前処理及びフィルタリング部2310は、字幕PESペイロードにおけるオブジェクトデータを、符号化データバッファ2330に送り、領域定義セグメント、CLUT定義セグメント、ページ構成セグメント及びオブジェクトデータ・セグメントなどの字幕構成情報を、構成バッファ2340に送る。一実施形態によれば、前処理及びフィルタリング部2310は、表18ないし表21で例示されたデプス定義セグメントのページ別デプスまたは領域別デプス情報を、構成バッファ2340に伝達することができる。
一例として、構成バッファ2340は、領域識別子が「1」である第1領域2342についての情報、領域識別子が「2」である第2領域2344についての情報、及び表18及び表19で例示されたデプス定義セグメントのページ別オフセット情報(offset value per page)を保存することができる。
拡張字幕処理部2330は、符号化データバッファ2320に保存されたオブジェクトデータ、及び構成バッファ2340に保存された構成情報を利用して字幕ページを構成し、ページ別オフセット情報によってページを移動させることにより、ページに含まれたあらゆる字幕に、同じデプス感を有させることができる。
図23で、二次元字幕ページ2350には、第1領域2352及び第2領域2354に、それぞれ第1オブジェクト及び第2オブジェクトが表示される。拡張字幕処理部2330は、構成バッファ2340に保存されたページ構成2346内のページ別オフセット情報に基づいて、第1領域2252及び第2領域2254を当該オフセットほど移動させ、左目用字幕2360及び右目用字幕2370をそれぞれ生成することができる。拡張字幕処理部2330は、左目用字幕2360を生成するために、二次元字幕ページ2350の現在位置から右側方向に、現在ページオフセット(offset for page)ほど、二次元字幕ページ2350を移動させる。これにより、第1領域2352及び第2領域2354も、正のx軸方向に、現在ページオフセット(offset for page)ほど移動し、第1左目用領域2362及び第2左目用領域2364に、それぞれ第1オブジェクト及び第2オブジェクトが表示される。
同様の方式で、拡張字幕処理部2330は、右目用字幕2370を生成するために、二次元字幕ページ2350の現在位置から左側方向に、現在ページオフセット(offset for page)ほど、二次元字幕ページ2350を移動させる。これにより、第1領域2352及び第2領域2354も、負のx軸方向に、現在ページオフセット(offset for
page)ほど移動し、第1右目用領域2372及び第2右目用領域2374に、それぞれ第1オブジェクト及び第2オブジェクトが表示される。
また、表20及び表21で例示された一実施形態によるデプス定義セグメントの領域別オフセット情報が、構成バッファ2340に保存されれば、一実施形態による拡張字幕処理部2330は、領域別にオフセットが適用された字幕ページを生成し、図22を参照して述べた左目用映像のための字幕ページ2260、及び右目用映像のための字幕ページ2270と類似した結果物を生成することができる。
第2実施形態によるマルチメディア・ストリーム生成装置100は、DVB字幕PESパケットに、字幕データ、及び字幕を三次元で再生するための三次元再生情報を挿入して伝送することができる。これにより、第2実施形態によるマルチメディア・ストリーム受信装置200は、DVB方式によって受信されたマルチメディアのデータストリームを受信し、これから、字幕データ、及び三次元再生情報を抽出し、三次元DVB字幕を構成することができる。また、第2実施形態によるマルチメディア・ストリーム受信装置200は、DVB字幕三次元再生情報に基づいて、三次元ビデオと三次元字幕とのデプスを調節することによって、三次元ビデオと字幕とのデプス逆転現象を含み、視聴者に疲労感を誘発する問題点を防止できるので、これにより、視聴者が安定した環境で三次元ビデオを鑑賞することができる。
以下、表22ないし表35及び図24ないし図30を参照しつつ、第3実施形態によるケーブル通信方式による字幕の三次元再生のためのマルチメディア・ストリームの生成及び受信について説明する。
表22は、ケーブル通信方式による字幕メッセージテーブル「subtitle message」のシンタックスを図示している。
「table_ID」フィールドは、現在「subtitle_message」テーブルのテーブル識別子を含む。
「section_length」フィールドは、「section_length」フィールドから「CRC_32」フィールドまでのバイト数情報を含む。「table_ID」フィールドから「CRC_32」フィールドまでの「subtitle_message」テーブルの最大長は、1キロバイト、すなわち、1024バイトに該当する。「simple_bitmap()」フィールドの大きさによって、「subtitle_message」テーブルの大きさが1キロバイトを超える場合、「subtitle_message」テーブルは、セグメント構造に分割される。分割されたそれぞれの「subtitle_message」テーブルの大きさは、1キロバイトに固定され、1キロバイトにならない最後の「subtitle_message」テーブルは、スタッフィング記述子(stuffing descriptor)を利用して、残余部分が補充される。表23は、スタッフィング記述子「stuffing_descriptor()」フィールドのシンタックスを図示している。
「stuffing_string_length」フィールドは、スタッフィング・ストリングの長さ情報を含む。「stuffing_string」フィールドは、スタッフィング・ストリングを含み、デコーダによって復号化されない。
表22の「subtitle message」テーブルのうち、「ISO_639_language_code」フィールドからの「simple_bitmap()」フィールドが、「message_body()」セグメントから構成される。選択的には、「subtitle_message」テーブルに、「descriptor()」フィールドが存在する場合、「message_body()」セグメントは、「ISO_639_language_code」フィールドから「descriptor()」フィールドまで含む。セグメント総合の最大長は、4メガバイトである。
表22の「subtitle message()」テーブルの「segmentation_overlay_included」フィールドは、現在「subtitle_message()」テーブルがセグメントから構成されたか否かについての情報を含む。「table_extension」フィールドは、デコーダが「message_body()」セグメントを識別することができるように割り当てられる固有情報を含む。「last_segment_number」フィールドは、字幕の全体メッセージ映像を完成するための最後のセグメントの識別情報を含む。「segment_number」フィールドは、現在セグメントの識別番号を含む。セグメントの識別情報は、0〜4095の範囲で割り当てられる。
表22の「subtitle_message()」テーブルの「protocol_version」フィールドは、既存プロトコル・バージョンと根本的に構造が変更される場合、新規プロトコル・バージョン情報を含む。「ISO_639_language_code」フィールドは、所定規格による言語コード情報を含む。「pre_clear_display」フィールドは、現在字幕テキストを再生する前に、全体スクリーンを透明に処理しているか否かについての情報を含む。「immediate」フィールドは、現在字幕テキストを「display_in_PTS」フィールド値による再生時点ではない、受信直後に画面上に再生しているか否かについての情報を含む。
「display_standard」フィールドは、字幕が再生されるディスプレイ規格情報を含む。表24は、「display_standard」フィールドの内容を図示している。
すなわち、「display_standard」フィールドによって、ディスプレイ規格が「解像度720x480及び秒当たり30フレーム」、「解像度720x576及び秒当たり25フレーム」、「解像度1280x720及び秒当たり60フレーム」及び「解像度1920x1080及び秒当たり60フレーム」のうちいずれのディスプレイ規格が、現在字幕に適しているか設定することができる。
表22の「subtitle_message()」テーブルの「display_in_PTS」フィールドは、字幕が再生されるプログラム参照時間情報を含む。このような絶対的表現方式による時間情報をインキュータイム(in-cue time)とする。「immediate」フィールドに基づいて、字幕が直ちに画面に再生されねばならない場合、すなわち「immediate」フィールド値が「1」に設定された場合、デコーダは、「display_in_PTS」フィールド値を利用しない。
現在「subtitle_message()」テーブル以後に再生されるインキュータイム情報を有した「subtitle_message()」テーブルがデコーダに受信されれば、デコーダは、再生待機中である字幕メッセージを廃棄することができる。「immediate」フィールド値が「1」に設定された場合、再生待機中であるあらゆる字幕メッセージが廃棄される。もしデコーダによって、サービスのためのPCR情報に不連続現象が発生すれば、再生待機中であるあらゆる字幕メッセージが廃棄される。
「display_duration」フィールドは、字幕メッセージが表示されねばならない持続時間を、TVのフレーム番号で表示した情報を含む。従って、「display_duration」フィールド値は、「display_standard」フィールドで定義されたフレームレートと関連する。「display_duration」フィールド値の持続時間によって、インキュータイムに持続時間が加えられた時間を意味するアウトキュータイム(out-cue time)が決定されてもよい。アウトキュータイムに達すれば、インキュータイムに画面に表示された字幕ビットマップは、消される。
「subtitle_type」フィールドは、現在字幕データのフォーマット情報を含む。表25によれば、「subtitle_type」フィールド値が「1」である場合、現在字幕データは、シンプルビットマップ・フォーマットであることを意味する。
「block_length」フィールドは、「simple_bitmap()」フィールドまたは「reserved()」フィールドの長さ情報を含む。
「simple_bitmap()」フィールドは、字幕のビットマップ・フォーマット情報を含む。まず、図24を参照しつつ、ビットマップ・フォーマットの構造について述べる。
図24は、ケーブル放送方式による字幕のビットマップ・フォーマットの構成要素を図示している。
ビットマップ・フォーマットの字幕は、一つ以上の圧縮ビットマップ・イメージから構成される。それぞれのビットマップ・イメージは、選択的に四角形の背景フレームを有することができる。例えば、第1ビットマップ2410は、背景フレーム2400を有する。座標系の基準点(0,0)が左側上端に設定される場合、第1ビットマップ2410の座標と、背景フレーム2400の座標との間に、以下の4種の関係式が成立する。
1.背景フレーム2400の上端水平座標値(FTH)は、第1ビットマップ2410の上端水平座標値(BTH)より小さいか同じである(FTH≦BTH)。
2.背景フレーム2400の上端垂直座標値(FTV)は、第1ビットマップ2410の上端垂直座標値(BTV)より小さいか同じである(FTV≦BTV)。
3.背景フレーム2400の下端水平座標値(FBH)は、第1ビットマップ2410の下端水平座標値(BBH)より大きいか同じである(FBH≧BBH)。
4.背景フレーム2400の下端垂直座標値(FBV)は、第1ビットマップ2410の下端垂直座標値(BBV)より大きいか同じである(FBV≧BBV)。
ビットマップ・フォーマットの字幕は、アウトライン2420とドロップシャドウ2430とを有することができる。アウトライン2420は、0〜15の範囲で、多様な厚みでもって定義することができる。ドロップシャドウ2430は、右側シャドウ(Sr:shadow right)及び下端シャドウ(Sb:shadow bottom)でもって定義され、右側シャドウ(Sr)及び下端シャドウ(Sb)が、それぞれ0〜15の範囲で、多様な厚みでもって定義されてもよい。
表26は、ビットマップ・フォーマット情報「simple_bitmap()」フィールドのシンタックスを図示している。
「simple_bitmap()」フィールドでは、ビットマップの座標値(bitmap_top_H_coordinate,bitmap_top_V_coordinate,bitmap_bottom_H_coordinate,bitmap_bottom_V_coordinate)が設定される。
また、「simple_bitmap()」フィールドでは、「background_style」フィールドに基づいて、背景フレームが存在するならば、背景フレームの座標値(frame_top_H_coordinate,frame_top_V_coordinate,frame_bottom_H_coordinate,frame_bottom_V_coordinate)が設定されてもよい。
また、「simple_bitmap()」フィールドでは、「outline_style」フィールドに基づいて、アウトラインが存在するならば、アウトラインの厚み値(outline_thickness)が設定されてもよい。また、「outline_style」フィールドに基づいて、ドロップシャドウが存在するならば、ドロップシャドウの右側シャドウ及び下端シャドウの厚み値(shadow_right、shadow_bottom)が設定されてもよい。
「simple_bitmap()」フィールドは、字幕文字の色相情報を含む「character_color()」フィールド、字幕背景フレームの色相情報を含むframe_color()」フィールド、字幕アウトラインの色相情報を含む「outline_color()」フィールド、及び字幕ドロップシャドウの色相情報を含む「shadow_color()」フィールドを含んでもよい。字幕文字(character)は、ビットマップ・イメージで表示される字幕を示し、フレーム(frame)は、字幕、すなわち、文字が出力される領域を示す。
表27は、各種「color()」フィールドのシンタックスを図示している。
1つのスクリーン上に、字幕再生のために表現可能な色相は、最大16種である。色相情報は、Y、Cr、Cbの色相要素別に設定され、色相コードは、それぞれ0〜31の範囲で決定される。
「opaque_enable」フィールドは、字幕色相の透明度情報を含む。「opaque_enable」ビットに基づいて、字幕色相が、不透明であるか、ビデオ色相と50:50でブレンディングされるように表現されてもよい。
図25は、ケーブル放送方式による字幕の三次元再生のための字幕処理モデルのフローチャートを図示している。
ケーブル放送方式による字幕の三次元再生のための字幕処理モデル2500によれば、PIDフィルタ(PID filtering)段階(2510)では、字幕メッセージが含まれたTSストリーム(MPEG−2 TS carrying subtitle messages)において、字幕メッセージが含まれたTSパケットをギャザリングし、トランスポートバッファに出力する。トランスポートバッファリング(transport buffering)段階(2520)は、字幕セグメントが含まれたTSパケットを保存する。
逆パケット化及び逆セグメント化(depacketization and desegmeatation)段階(2530)は、TSパケットから字幕セグメントを抽出し、入力バッファリング(input buffering)段階(2540)は、字幕セグメントを保存し、字幕セグメントをギャザリングする。圧縮復元及びレンダリング(decompression and rendering)段階(2550)は、字幕セグメントから字幕データを復元してレンダリングし、ディスプレイ・キューイング(display queueing)段階(2560)は、レンダリングされた字幕データ及び字幕の再生関連情報をディスプレイキューに保存する。
ディスプレイキューに保存された字幕データは、字幕の再生関連情報に基づいて、画面上の所定領域に配置されて字幕に構成され、字幕は、所定時点で、TVなどのディスプレイ機器のグラフィック平面(graphic plane)に移動する(2570段階)。これにより、ディスプレイ機器は、ビデオ映像と共に字幕を再生することができる。
図26は、ケーブル放送方式による字幕処理モデルを介して、字幕がディスプレイキューからグラフィック平面に出力される過程を図示している。
ディスプレイキュー2600に、サブデータメッセージ別に、第1ビットマップデータ及び再生関連情報2610、並びに第2ビットマップデータ及び再生関連情報2620が保存される。再生関連情報は、ビットマップがスクリーン上に表示され始める開始時間情報(display_in_PTS)、持続時間情報(display_duration)、ビットマップ座標情報を含む。ビットマップ座標情報は、ビットマップの左側上端ピクセルの座標値、及び右側下端ピクセルの座標値を含む。
ディスプレイキュー2600に保存された情報に基づいて構成された字幕は、再生情報に基づいた時間情報によって、ピクセルバッファ(グラフィック平面)2670に保存される。例えば、第1ビットマップデータ及び再生関連情報2610、並びに第2ビットマップデータ及び再生関連情報2620に基づいて、PTSが「4」であるとき、第1ビットマップデータが当該座標の位置2640に表示された字幕2630が、ピクセルバッファ2670に保存される。また、PTSが「5」であるとき、第1ビットマップデータが当該座標位置2640に表示され、第2ビットマップデータが当該座標位置2660に表示された字幕2650が、ピクセルバッファ2670に保存される。
表22ないし表27及び図24ないし図26を参照しつつ述べたケーブル通信方式による字幕を基に、本発明の第3実施形態によるマルチメディア・ストリーム生成装置100、及び第3実施形態によるマルチメディア・ストリーム受信装置200の動作について、以下表28ないし表35及び図27ないし図30を参照しつつ説明する。
第3実施形態によるマルチメディア・ストリーム生成装置100は、ケーブル字幕の三次元再生のための情報を、字幕PESパケットに挿入してもよい。第3実施形態によるケーブル字幕の三次元再生のための情報は、字幕が表示される領域の移動値、デプス値、ディスパリティ、両眼視差のうち一つ以上を含むオフセット情報、オフセット情報が適用される方向を示すオフセット方向を含んでもよい。
また、第3実施形態によるマルチメディア・ストリーム受信装置200は、ケーブル通信方式を介して受信されたTSストリームから、PID情報が同一である字幕PESパケットをギャザリングする。マルチメディア・ストリーム受信装置200は、字幕PESパケットから三次元再生のための情報を抽出し、三次元再生情報を利用して、二次元字幕を三次元字幕に変更して再生することができる。
図27は、第3実施形態によるケーブル放送方式による字幕の三次元再生のための字幕処理モデルのフローチャートを図示している。
第3実施形態による字幕処理モデル2700のPIDフィルタリング段階(PID filtering)(2710)、トランスポートバッファリング段階(transport buffering)(2720)、逆パケット化及び逆セグメント化段階(depacketization and desegmeatation)(2730)、入力バッファリング段階(input buffering)(2740)、圧縮復元及びレンダリング段階(decompression and rendering)(2750)及びディスプレイキューイング段階(display queueing)(2760)を介して、ケーブル放送方式による字幕データ及び字幕再生関連情報が復元される過程は、図25を参照して述べた字幕処理モデル2500の段階2510から段階2560までの動作と類似している。ただし、ディスプレイキューイング段階(2760)で、字幕の三次元再生のための情報がさらにディスプレイキューに保存されることもできる。
第3実施形態による三次元字幕変換段階(3D subtitle converting)(2780)は、ディスプレイキューイング段階(2760)で保存された字幕データ及び三次元再生情報を含む字幕再生関連情報に基づいて、三次元で再生することができる三次元字幕を構成することができる。三次元字幕は、ディスプレイ機器のグラフィック平面(graphic plane)(2770)に出力されることもできる。
第3実施形態による字幕処理モデル2700は、第3実施形態によるマルチメディア・ストリーム受信装置200の字幕処理動作を具現するために適用される。特に、三次元字幕転換(3D subtitle converter)段階(2780)は、第3実施形態による再生部240の三次元字幕処理動作に対応する。
以下、第3実施形態によるマルチメディア・ストリーム生成装置100が、字幕の三次元再生のための情報を伝送するための具体的な実施形態、及び第3実施形態によるマルチメディア・ストリーム受信装置200が、字幕の三次元再生のための情報を利用し、三次元字幕を再生する具体的な実施形態について記述する。
第3実施形態によるマルチメディア・ストリーム生成装置100のプログラム符号化部110は、字幕PESパケット内の字幕メッセージ「subtitle_message()」フィールドに、三次元再生情報を挿入することができる。また、プログラム符号化部110は、字幕のデプスを定義するための記述子または字幕タイプを新たに定義し、PESパケットに挿入することができる。
表28及び表29は、それぞれ第3実施形態によるプログラム符号化部110によって、ケーブル字幕のデプス情報が含まれるように変形された(modified)「simple_bitmap()」フィールド及び「subtitle_message()」フィールドのシンタックスを例示している。
第3実施形態によるプログラム符号化部110は、表26の「simple_bitmap()」フィールド内の「reserved()」フィールド位置に、表28のように、「3d_subtitle_offset」フィールドを挿入することができる。「3d_subtitle_offset」フィールドは、字幕の三次元再生のための左目用字幕のためのビットマップ、及び右目用字幕のためのビットマップを生成するために、水平座標軸を基に、ビットマップを移動させる移動量を示すオフセット情報を含んでもよい。「3d_subtitle_offset」フィールドのオフセット値は、字幕文字とフレームとに、いずれも同一に適用されてもよい。字幕文字(character)にオフセット値が適用されるということは、字幕を含む最小限の長方形領域に対してオフセット値が適用されるということを意味し、フレームにオフセット値が適用されるということは、字幕を含む最小限の長方形領域を含む、文字領域より広い領域に対してオフセット値が適用されるということを意味する。
第3実施形態によるプログラム符号化部110は、表22の「subtitle_message()」フィールド内の「reserved()」フィールドに、「3d_subtitle_direction」フィールドを挿入することができる。「3d_subtitle_direction」フィールドは、字幕を三次元で再生するために、オフセット情報を適用する方向を示す。
オフセットの方向性による特徴を利用し、第3実施形態による再生部240は、左目用字幕、すなわち、左目用字幕を基にオフセット情報を適用し、右目用字幕、すなわち、右目用字幕を生成することができる。オフセット方向は、正の方向または負の方向に与えられることもでき、左側または右側のように方向に与えられてもよい。「3d_subtitle_direction」フィールド値が、負の方向を示す場合、第3実施形態による再生部240は、左目用字幕のx座標値からオフセット値ほど差し引いた値を、右目用字幕のx座標値として決定することができる。同様の方式で、「3d_subtitle_direction」フィールド値が正の方向を示す場合、第3実施形態による再生部240は、左目用字幕のx座標値からオフセット値ほど加えた値を、右目用字幕のx座標値として決定することができる。
図28は、第3実施形態によって、ケーブル放送方式による字幕のデプス感を調節する一実施形態を図示している。
第3実施形態によるマルチメディア・ストリーム受信装置200は、第3実施形態による字幕メッセージが含まれたTSストリームを受信し、TSストリームを逆多重化し、字幕PESパケットから字幕データを抽出する。
第3実施形態によるマルチメディア・ストリーム受信装置200は、表28のビットマップフィールドから、字幕のビットマップ座標関連情報、フレーム座標関連情報及びビットマップデータを抽出することができる。また、第3実施形態によるマルチメディア・ストリーム受信装置200は、表28のビットマップフィールドの下位フィールド「3d_subtitle_offset」から、三次元再生情報を抽出することができる。
第3実施形態によるマルチメディア・ストリーム受信装置200は、表29の字幕メッセージテーブルから、字幕再生時間関連情報を抽出することができ、また字幕メッセージテーブルの下位フィールド「3d_subtitle_offset_direction」から、三次元字幕オフセット方向情報を抽出することができる。
これにより、ディスプレイキュー2800に、字幕再生時間関連情報(display_in_PTS,display_duration)、三次元字幕オフセット情報(3d_subtitle_offset)、オフセット方向情報(3d_subtitle_direction)、字幕のビットマップ座標情報(BTH,BTV,BBH,BBV)及び字幕の背景フレーム座標情報(FTH,FTV,FBH,FBV)を含む、字幕再生関連情報及び字幕データから構成された字幕情報セット2810が保存される。
三次元字幕転換段階(3D subtitle converting)(2780)を介して、第3実施形態による再生部240は、ディスプレイキュー2800に保存された字幕再生関連情報に基づいて字幕が配置された字幕構成画面を構成し、グラフィック平面(2870)上に、字幕の構成画面を保存させる。
ピクセルバッファまたはグラフィック平面2870に、三次元合成フォーマットであるサイドバイサイド・フォーマットの三次元字幕平面2820を保存することもできる。サイドバイサイド・フォーマットは、x軸に沿って解像度が半減する(reduced by half)ので、三次元字幕2820を生成するために、ディスプレイキュー2800に保存された字幕再生関連情報のうち、基準視点(reference view)字幕のためのx軸座標値及び字幕のオフセット値を半分にして利用することが望ましい。左目用字幕2850及び右目用字幕2860のy座標値は、ディスプレイキュー2800に保存された字幕再生関連情報のうち、字幕のy座標値と同一である。
例えば、ディスプレイキュー2800には、字幕再生関連情報のうち、字幕再生時間関連情報として「display_in_PTS=4」及び「display_duration=600」、三次元字幕オフセット情報として「3d_subtitle_offset=10」、三次元字幕オフセット方向情報として「3d_subtitle_direction=1」、字幕のビットマップ座標情報として「(BTH,BTV)=(30,30)」及び「(BBH,BBV)=(60,40)」、字幕の背景フレーム座標情報として「(FTH,FTV)=(14,20)」及び「(FBH,FBV)=(70,50)」が保存されていると仮定する。
ピクセルバッファ2870に保存されるサイドバイサイド・フォーマットの三次元字幕平面2820は、左目用字幕平面、すなわち、左目用字幕2830及び右目用字幕平面、すなわち、右目用字幕2840から構成される。左目用字幕平面2830及び右目用字幕平面2840の横解像度は、原本解像度に比べて半分に低減し、左目用字幕平面2830の原点座標が「(OHL,OVL)=(0,0)」であるならば、右目用字幕平面2840の原点座標は、「(OHR,OVR)=(100,0)」である。
このとき、左目用字幕2850のビットマップ及び背景フレームのx座標値も、半分に縮小される。すなわち、左目用字幕2850のビットマップの左側上端地点のx座標値BTHL及び右側下端地点のx座標値BBHL、フレームの左側上端地点のx座標値FTHL及び右側下端地点のx座標値FBHLは、それぞれ以下の関係式(1),(2),(3)及び(4)によって決定される。
(1)BTHL=BTH/2;(2)BBHL=BBH/2;
(3)FTHL=FTH/2;(4)FBHL=FBH/2
従って、左目用字幕2850のビットマップのx座標値BTHL,BBHL,FTHL及びFBHLは、それぞれ(1)BTHL=BTH/2=30/2=15;(2)BBHL=BBH/2=60/2=30;(3)FTHL=FTH/2=20/2=10;(4)FBHL=FBH/2=70/2=35に決定される。
また、右目用字幕2860のビットマップ及び背景フレームの横軸解像度も、半分に縮小される。右目用字幕2860のビットマップ及び背景フレームのx座標値は、右目用字幕平面2840の原点(OHR,OVR)を基に設定される。これにより、右目用字幕2860のビットマップの左側上端地点のx座標値BTHR及び右側下端地点のx座標値BBHR、フレームの左側上端地点のx座標値FTHR及び右側下端地点のx座標値FBHRは、それぞれ以下の関係式(5),(6),(7)及び(8)によって決定される。
(5)BTHR=OHR+BTHL±(3d_subtitle_offset/2);
(6)BBHR=OHR+BBHL±(3d_subtitle_offset/2);
(7)FTHR=OHR+FTHL±(3d_subtitle_offset/2);
(8)FBHR=OHR+FBHL±(3d_subtitle_offset/2)
すなわち、右目用字幕2860のビットマップ及び背景フレームのx座標値は、右目用字幕平面2840の原点(OHR,OVR)を基に、対応する左目用字幕2850のx座標値ほど正の方向に移動した位置で、三次元字幕オフセット値ほど負の方向または正の方向に移動した位置として設定することができる。この場合、三次元字幕オフセット方向情報として「3d_subtitle_direction=1」であるから、三次元字幕オフセット方向は、負の方向である。
従って、右目用字幕2860のビットマップ及び背景フレームのx座標値BTHL,BBHL,FTHL及びFBHLは、それぞれ(5)BTHR=OHR+BTHL−(3d_subtitle_offset/2)=100+15−5=110;(6)BBHR=OHR+BBHL−(3d_subtitle_offset/2)=100+30−5=125;(7)FTHR=OHR+FTHL−(3d_subtitle_offset/2)=100+10−5=105;(8)FBHR=OHR+FBHL−(3d_subtitle_offset/2)=100+35−5=130に決定することができる。
これにより、左目用字幕2850及び右目用字幕2860が、それぞれ字幕平面2830,2840上で、x軸方向にオフセット値ほど移動した位置に表示された三次元字幕を利用し、ディスプレイ機器は、三次元字幕を三次元で再生することができる。
また、第2実施形態によるプログラム符号化部110は、字幕のデプスを定義するための記述子及び字幕タイプを新たに定義し、これをPESパケットに挿入することができる。
表30は、第3実施形態によるプログラム符号化部110によって新たに定義された字幕デプス記述子「subtitle_depth_descriptor()」フィールドのシンタックスを例示している。
一実施形態による字幕デプス記述子(「subtitle_depth_descriptor())は、字幕のうち、文字のオフセット方向情報(「character_offset_direction」)、文字のオフセット情報(「character_offset」)、字幕のうち背景フレームのオフセット方向情報(「frame_offset_direction」)及び背景フレームのオフセット情報(「frame_offset」)を含んでもよい。
字幕デプス記述子(「subtitle_depth_descriptor()」)は、字幕の文字または背景フレームのオフセット値が、基本平面を基に設定されたか、またはビデオ映像のオフセット情報を基に設定されたかを示す情報(「offset_based」)を選択的に含んでもよい。
図29は、第3実施形態によって、ケーブル放送方式による字幕のデプス感を調節する他の実施形態を図示している。
第3実施形態によるマルチメディア・ストリーム受信装置200は、表28のビットマップフィールドから、字幕のビットマップ座標関連情報、フレーム座標関連情報及びビットマップデータを抽出し、表29の字幕メッセージテーブルから、字幕再生時間関連情報を抽出することができる。また、第3実施形態によるマルチメディア・ストリーム受信装置200は、表30の字幕デプス記述子フィールドから、字幕のうち文字のオフセット方向情報(「character_offset_direction」)、文字のオフセット情報(「character_offset」)、字幕のうち背景フレームのオフセット方向情報(「frame_offset_direction」)、及び背景フレームのオフセット情報(「frame_offset」)を抽出することができる。
これにより、ディスプレイキュー2900に、字幕再生時間関連情報(display_in_PTS,display_duration)、字幕のうち文字のオフセット方向情報(character_offset_direction)、文字のオフセット情報(character_offset)、字幕のうち背景フレームのオフセット方向情報(frame_offset_direction)及び背景フレームのオフセット情報(frame_offset)を含む字幕再生関連情報、並びに字幕データから構成された字幕情報セット2910が保存される。
例えば、ディスプレイキュー2900に、字幕再生関連情報のうち、字幕再生時間関連情報として「display_in_PTS=4」及び「display_duration=600」、字幕のうち文字のオフセット方向情報「character_offset_direction=1」、文字のオフセット情報として「character_offset=10」、字幕のうち背景フレームのオフセット方向情報として「frame_offset_direction=1」及び背景フレームのオフセット情報「frame_offset=4」、字幕のビットマップ座標情報として「(BTH,BTV)=(30,30)」及び「(BBH,BBV)=(60,40)」、字幕の背景フレーム座標情報として「(FTH,FTV)=(20,20)」及び「(FBH,FBV)=(70,50)」が保存されていると仮定する。
三次元字幕転換段階(3D subtitle converter)(2780)を介して、ピクセルバッファまたはグラフィック平面2970に、三次元合成フォーマットであるサイドバイサイド・フォーマットの三次元字幕平面2920が保存されていると仮定する。
図28を介して説明したところと同様の方式で、ピクセルバッファに保存されるサイドバイサイド・フォーマットの三次元字幕平面2920において、左目用字幕平面2930上の左目用字幕2950のビットマップの左側上端地点のx座標値BTHL及び下端地点のx座標値BBHL、フレームの左側上端地点のx座標値FTHL及び右側下端地点のx座標値FBHLは、それぞれ(9)BTHL=BTH/2=30/2=15;(10)BBHL=BBH/2=60/2=30;(11)FTHL=FTH/2=20/2=10;(12)FBHL=FBH/2=70/2=35に決定される。
また、三次元字幕平面2920において、右目用字幕平面2940上の右目用字幕2960のビットマップの左側上端地点のx座標値BTHR及び右側下端地点のx座標値BBHR、フレームの左側上端地点のx座標値FTHR及び右側下端地点のx座標値FBHRは、それぞれ下記関係式(13),(14),(15)及び(16)によって決定される。
(13)BTHR=OHR+BTHL±(character_offset/2);
(14)BBHR=OHR+BBHL±(character_offset/2);
(15)FTHR=OHR+FTHL±(frame_offset/2);
(16)FBHR=OHR+FBHL±(frame_offset/2)
この場合、三次元字幕オフセット方向情報として、「character_offset_direction=1」と「frame_offset_direction=1」とであるから、三次元字幕オフセット方向は、負の方向である。
従って、右目用字幕2960のビットマップ及び背景フレームのx座標値BTHL,BBHL,FTHL及びFBHLは、それぞれ(13)BTHR=OHR+BTHL−(character_offset/2)=100+15−5=110;(14)BBHR=OHR+BBHL−(character_offset/2)=100+30−5=125;(15)FTHR=OHR+FTHL−(frame_offset/2)=100+10−2=108;(16)FBHR=OHR+FBHL−(frame_offset/2)=100+35−2=133に決定することができる。
これにより、左目用字幕2950及び右目用字幕2960が、それぞれ字幕平面2930,2940上で、x軸方向にオフセット値ほど移動した位置に配置されることによって、字幕が三次元で再生される。
第3実施形態によるマルチメディア・ストリーム生成装置100は、ケーブル字幕タイプとして、字幕の三次元再生のために、付加視点のための字幕タイプをさらに設定することができる。表31は、第3実施形態によるマルチメディア・ストリーム生成装置100によって変形された字幕タイプのテーブルを例示している。
表31の字幕タイプの変形例によれば、第3実施形態によるマルチメディア・ストリーム生成装置100は、表25の字幕タイプの基本テーブルにおいて、字幕タイプフィールド値が「2〜15」範囲である保留領域(reserved)を利用し、字幕タイプフィールド値「2」に、字幕の三次元再生のための付加視点字幕タイプ「subtitle_another_view」をさらに割り当てることができる。
第3実施形態によるマルチメディア・ストリーム生成装置100は、表31の字幕タイプの変形例に基づいて、表22の基本字幕メッセージテーブルを変形することができる。表32は、字幕メッセージテーブル「subititle_message()」の変形例のシンタックスを示している。
すなわち、変形された字幕メッセージテーブルには、字幕タイプが「subtitle_another_view」である場合、付加視点字幕情報を設定するための「subtitle_another_view()」フィールドがさらに含まれることもできる。表33は、一実施形態による「subtitle_another_view()」フィールドのシンタックスを示している。
一実施形態による「subtitle_another_view()」フィールドは、付加視点のための字幕のビットマップの座標情報(bitmap_top_H_coordinate,bitmap_top_V_coordinate,bitmap_bottom_H_coordinate,bitmap_bottom_V_coordinate)を含んでもよい。また、一実施形態による「subtitle_another_view()」フィールドは、「background_style」フィールドに基づいて、付加視点のための字幕の背景フレームが存在するならば、付加視点のための字幕の背景フレームの座標情報(frame_top_H_coordinate,frame_top_V_coordinate,frame_bottom_H_coordinate,frame_bottom_V_coordinate)を含んでもよい。
また、第3実施形態によるマルチメディア・ストリーム生成装置100は、付加視点のための字幕のビットマップ関連座標情報及び背景フレーム関連情報だけではなく、アウトラインが存在するならば、アウトラインの厚み情報(outline_thickness)、ドロップシャドウが存在するならば、ドロップシャドウの右側シャドウ及び左側シャドウの厚み情報(shadow_right,shadow_bottom)を、一実施形態による「subtitle_another_view()」フィールドに含めることができる。
第3実施形態によるマルチメディア・ストリーム受信装置200は、「subtitle_another_view()」を利用し、基準視点の字幕と、付加視点(another view)の字幕とをそれぞれ生成することができる。
または、マルチメディア・ストリーム受信装置200は、「subtitle_another_view()」フィールドから、字幕のビットマップの座標情報及び背景フレームの座標情報だけを抽出して利用することによって、データ処理量を減らすこともできる。
図30は、第3実施形態によって、ケーブル放送方式による字幕のデプス感を調節するさらに他の実施形態を図示している。
第3実施形態によるマルチメディア・ストリーム受信装置200は、字幕タイプ「subtitle_another_view()」を考慮するように変形された表32の字幕メッセージテーブルから、字幕再生時間関連情報を抽出し、表33の「subtitle_another_view()」フィールドから、付加視点字幕のビットマップ座標情報、フレーム座標情報及びビットマップデータを抽出することができる。
これにより、ディスプレイキュー3000に、字幕再生時間関連情報(display_in_PTS,display_duration)、付加視点のための字幕のビットマップの座標情報(bitmap_top_H_coordinate,bitmap_top_V_coordinate,bitmap_bottom_H_coordinate,bitmap_bottom_V_coordinate)及び付加視点のための字幕の背景フレームの座標情報(frame_top_H_coordinate,frame_top_V_coordinate,frame_bottom_H_coordinate,frame_bottom_V_coordinate)を含む字幕再生関連情報、並びに字幕データから構成された字幕情報セット3010が保存されうる。
例えば、ディスプレイキュー3000に、字幕再生関連情報のうち、字幕再生時間関連情報として「display_in_PTS=4」及び「display_duration=600」、付加視点字幕のビットマップ座標情報として「bitmap_top_H_coordinate=20」、「bitmap_top_V_coordinate=30」、「bitmap_bottom_H_coordinate=50」、「bitmap_bottom_V_coordinate=40」、及び付加視点字幕の背景フレーム座標情報として「frame_top_H_coordinate=10」、「frame_top_V_coordinate=20」、「frame_bottom_H_coordinate=60」、「frame_bottom_V_coordinate=50」を含む字幕再生関連情報、字幕のビットマップ座標情報として「(BTH,BTV)=(30,30)」及び「(BBH,BBV)=(60,40)」、字幕の背景フレーム座標情報として「(FTH,FTV)=(20,20)」及び「(FBH,FBV)=(70,50)」が保存されていると仮定する。
三次元字幕転換段階(3D subtitle converter)(2780)を介して、ピクセルバッファまたはグラフィック平面3070に、三次元合成フォーマットであるサイドバイサイド・フォーマットの三次元字幕平面3020が保存されると仮定する。表32を介して説明したところと同様の方式で、ピクセルバッファに保存されるサイドバイサイド・フォーマットの三次元字幕平面3020において、左目用字幕平面3030上の左目用字幕3050のビットマップの左側上端地点のx座標値BTHL及び右側下端地点のx座標値BBHL、背景フレームの左側上端地点のx座標値FTHL及び右側下端地点のx座標値FBHLは、それぞれ(17)BTHL=BTH/2=30/2=15;(18)BBHL=BBH/2=60/2=30;(19)FTHL=FTH/2=20/2=10;(20)FBHL=FBH/2=70/2=35に決定される。
また、三次元字幕平面3020において、右目用字幕平面3040上の右目用字幕3060のビットマップの左側上端地点のx座標値BTHR及び右側下端地点のx座標値BBHR、フレームの左側上端地点のx座標値FTHR及び右側下端地点のx座標値FBHRは、それぞれ下記関係式(21),(22),(23)及び(24)によって決定される。
(21)BTHR=OHR+bitmap_top_H_coordinate/2;
(22)BBHR=OHR+bitmap_bottom_H_coordinate/2;
(23)FTHR=OHR+frame_top_H_coordinate/2;
(24)FBHR=OHR+frame_bottom_H_coordinate/2
従って、右目用字幕3060のビットマップのx座標値BTHL,BBHL,FTHL及びFBHLは、それぞれ(21)BTHR=OHR+bitmap_top_H_coordinate/2=100+10=110;(22)BBHR=OHR+bitmap_bottom_H_coordinate/2=100+25=125;(23)FTHR=OHR+frame_top_H_coordinate/2=100+5=105;(24)FBHR=OHR+frame_bottom_H_coordinate/2=100+30=130に決定される。
これにより、左目用字幕3050及び右目用字幕3060が、それぞれ字幕平面3030,3040上で、x軸方向にオフセット値ほど移動した位置に配置され、字幕が三次元で再生される。
第3実施形態によるマルチメディア・ストリーム生成装置100は、ケーブル字幕タイプとして、字幕の三次元効果のための字幕ディスパリティ・タイプをさらに設定することができる。表34は、第3実施形態によるマルチメディア・ストリーム生成装置100によって、字幕ディスパリティ・タイプが追加されるように変形された字幕タイプのテーブルを例示している。
表34の字幕タイプの変形例によれば、第3実施形態によるマルチメディア・ストリーム生成装置100は、表25の字幕タイプの基本テーブルにおける保留領域を利用し、字幕タイプフィールド値「2」に、字幕ディスパリティ・タイプ「subtitle_disparity」をさらに割り当てることができる。
第3実施形態によるマルチメディア・ストリーム生成装置100は、表34の字幕タイプの変形例に基づいて字幕ディスパリティ・フィールドを新たに設定することができる。表35は、一実施形態による字幕ディスパリティ・フィールド「subtitle_disparity()」のシンタックスを示している。
表35によれば一実施形態による字幕ディスパリティ・フィールドは、左目用字幕と右目用字幕とのディスパリティ情報を含む「disparity」フィールドを含む。
第3実施形態によるマルチメディア・ストリーム受信装置200は、新たに設定された字幕タイプ「subtitle_disparity」を考慮するように変形された字幕メッセージテーブルから字幕再生時間関連情報を抽出し、表35の「subtitle_disparity」フィールドから、三次元字幕のディスパリティ情報及びビットマップデータを抽出することができる。これにより、第3実施形態による再生部240は、右目用字幕を左目用字幕3050の位置から、ディスパリティほど移動した位置に表示することによって、字幕を三次元で再生させることができる。
このように、本発明の実施形態によれば、三次元再生情報を利用して、ビデオ映像と共に字幕を三次元で再生することができる。
前述のプロセッサ、機能、方法及び/またはソフトウェアは、プログラム命令を遂行または実行するために、コンピュータによって実行されるプログラム命令を含む少なくとも1つのコンピュータで読み取り可能な記録媒体に記録されたり保存されたり、または固定されてもよい。
また、該媒体は、プログラム命令、データファイル、データ構造のうち、少なくとも一つを含んでもよい。前記媒体及びプログラム命令は、当該本願発明を遂行するように設計されるものである。また、前記媒体及びプログラム命令は、コンピュータ・ソフトウェア分野で当業者によって容易に設計されるものである。
コンピュータで読み取り可能な媒体は、ハードディスク、フロッピー(登録商標)ディスク及びマグネチックテープのようなマグネチック媒体;及びCD−ROMディスク、DVD(digital versatile disc)のような光媒体、光ディスクのような磁気的光学(magneto-optical)媒体;ROM(read-only memory)、RAM(random-access memory)及びフラッシュメモリのようなハードウェア装置;を含むことができる。
例えば、プログラム命令は、コンパイラによって生成される機械的コード、コンピュータによって実行される高レベルコード(higher level code)を含むファイルを含むことができる。
前述のハードウェア装置は、所定動作及び前述の方法を遂行するために少なくとも1つのソフトウェア・モジュールのように動作しうる。さらに、コンピュータ読み取り可能な記録媒体は、ネットワークを介して連結されたコンピュータ・システム間に分配され、コンピュータで読み取り可能なコードまたはプログラム命令は、分散された方式で保存及び遂行が可能である。
コンピュータ・システムまたはコンピュータは、バス、ユーザインターフェース及びメモリ・コントローラと電気的に連結されたマイクロプロセッサを含むことができる。また、フラッシュメモリ装置をさらに含むことができる。前記フラッシュメモリ装置は、Nビットデータを保存することができる。
Nビットデータは、1または1より大きい整数値を有することができる。コンピュータ・システムまたはコンピュータは、モバイル装置であって、バッテリから所定電源の供給を受けることができる。
コンピュータ・システムまたはコンピュータが、アプリケーション・チップセット(application chipset)、カメライメージプロセッサ(CIS:camera image processor(CIS))、モバイルDRAM(dynamic random-access memory)などをさらに含むことができるということは、本発明が属する当業者には自明である。メモリ・コントローラ及びフラッシュメモリ装置は、固体状態ディスク(SDD:solid state drive/disk)から構成されてもよい。
前述の説明は、多様な実施例に適用される本発明の新規一特徴に焦点を合わせて行われているが、本技術分野の当業者であるならば、本発明の範囲を外れずに、前記説明された装置及び方法の形態及び細部事項で、多様な削除、代替及び変更が可能であるということを理解するであろう。従って、本発明の範囲は、特許請求の範囲により定義されている。