JP2006352306A

JP2006352306A - コンテンツデータ配信装置

Info

Publication number: JP2006352306A
Application number: JP2005173381A
Authority: JP
Inventors: Hiroji Yokoyama; 洋児横山
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-06-14
Filing date: 2005-06-14
Publication date: 2006-12-28

Abstract

【課題】従来の方法及び装置では解決できなかった画像と音声との同期再生を可能とするコンテンツデータ配信装置を提供する。
【解決手段】フレームごとに再生時間情報が記録された映像フレームと音声フレームとを有するコンテンツデータを記憶する記憶手段と、コンテンツデータから映像フレームと音声フレームとを取り出すフレームデータ抽出手段と、取り出された映像フレームと音声フレームとを復号するフレームデータ復号手段と、復号された映像フレームと音声フレームとを制御信号とともに再符号化し多重化する多重化制御手段と、多重化されたデータを受信端末に送信する送信手段とを備え、多重化制御手段は、映像フレームと音声フレームとを再符号化し多重化する際、映像フレームに対応する音声フレームの一つ前の再生時間情報が記録された音声フレームとともに多重化するよう多重化制御することを特徴とする。
【選択図】図１

Description

本発明は、画像や音声の伝送などに使用される画像・音声伝送方法に基づきコンテンツデータを配信する装置に関し、特に、リアルタイム画像通信や蓄積されたコンテンツの画像伝送を行う際に、映像と音声とを相手端末にて同期せしめて表示／再生することを可能とするコンテンツデータ配信装置に関する。

従来から、画像符号化データと音声符号化データとの同期を取りながら再生可能にするための画像音声符号化データ多重化方法、及びその多重化方法を用いた装置がある。

一般に、従来の多重化方法及び装置では、符号化を行う画像データは一定の速度で入力されており、音声フレームデータに対応する画像データのフレーム数は一定の枚数となっている。しかし、画像音声多重化データを構成する画像符号化データと音声符号化データは符号化及び復号化方法が異なっていることに起因して、画像データの符号化及び復号化の処理時間の方が、音声フレームデータの符号化及び復号化の処理時間よりはるかに多くなるという状況が発生する。したがって、音声フレームデータの符号化及び復号化が終了しても、音声フレームデータの再生時間に対応するフレーム数の画像データの符号化及び復号化が終了していないことがあるという課題を生じさせていた。ここで、この課題に対し、画像と音声の同期再生を行うべく音声符号化データを対応する画像符号化データの作成終了まで遅延させることとすると、今度は受信側において音声データの遅延を大きくしてしまい、例えば、テレビ会議やテレビ電話などのシステムにおいては音声の遅延が大きくなり利用者に違和感を覚えさせるという新たな課題も生じさせることとなっていた。

そこで、下記の特許文献１では、音声データ符号化部で音声フレームデータの符号化が終了するまでに画像データ符号化部で符号化された画像データのフレーム数を画像符号化フレーム数情報計測部で画像符号化フレーム数情報として計測し、この計測した画像符号化フレーム数情報を用いて符号化する音声フレームデータに対応する画像データのフレーム数を算出している。そして、この算出したフレーム数の画像データの符号化を行い、音声符号化データとこの音声符号化データに対応する画像符号化データとを画像音声符号化データ多重化部にて多重化するという画像音声符号化データ多重化方法およびその装置を提供している。

一方、ＴＶ電話による映像配信サービスは大きな進歩を遂げ、録画された映像だけでなく、様々な生中継（ライブ映像）をも視聴することができるようになっている。例えば、Ｖライブ（登録商標）と呼ばれる映像配信サービスでは、コンテンツ配信元が公開している電話番号へ直接ダイヤルするか、あるいは、コンテンツ配信元が公開しているｉモード（登録商標）サイトなどのリンクからアクセスし、クリックと同時にリンク先として記載されているテレビ電話番号へ自動発信することによって、例えば、釣り情報として釣りスポット現場の波の状況等をライブ中継で受信したり、映画情報として各映画館で上映される最新映画の予告編の提供を受けることができる。なお、Ｖライブコンテンツ配信元としての電話番号としては、２００５年５月現在、「＊８６０７」で始まるアクセス番号が提供されている状況である。
特開平１０−３３６６０２号公報

しかしながら、上記したＶライブ（登録商標）などの映像配信サービスでは、従来と同
様に発生する画像と音声との非同期再生に対して従来の多重化方法及び装置において行われていた手法を用いることだけでは十分な解決が図れないという問題を生じさせていた。つまり、従来の従来の多重化方法及び装置では、画像フレーム数や音声フレーム数の情報計測や計算に膨大な負荷がかかってしまい、上記映像配信サービスにおいては有効な解決手段とはなっておらず、もっと簡便な方法や装置が求められていた。また、上記映像配信サービスにおける受信端末は、当該受信端末の製造元によって、映像フレーム及び対応する音声フレームの再生タイミング（再生時間の相対的関係）が異なるため、受信端末に応じた画像フレーム及び音声フレームの適切な多重化送信が要求されていた。

そこで、本発明は、上記課題を解決するために、より簡便な構成で従来の方法及び装置では解決できなかった画像と音声との同期再生を可能にし、かつ、異なる設計仕様を有する複数タイプの受信端末に応じたフレーム及び音声の多重化を可能とするコンテンツデータ配信装置を提供するものである。

本発明は、フレームごとに再生時間情報がそれぞれ記録された映像フレームと音声フレームとを有するコンテンツデータを記憶する記憶手段と、前記記憶手段に記憶されたコンテンツデータから前記映像フレームと音声フレームとをそれぞれ取り出すフレームデータ抽出手段と、前記フレームデータ抽出手段により取り出された映像フレームと音声フレームとをそれぞれ復号するフレームデータ復号手段と、前記フレームデータ復号手段により復号された映像フレームと音声フレームとを制御信号とともに再符号化し多重化する多重化制御手段と、前記多重化制御手段によって再符号化し多重化された映像データ及び音声データを受信端末に送信する送信手段とを備え、前記多重化制御手段は、前記映像フレームと音声フレームとを再符号化し多重化する際、前記映像フレームに対応する音声フレームの一つ前の再生時間情報が記録された音声フレームとともに多重化するよう多重化制御することを特徴とするコンテンツデータ配信装置を提供する。

また、本発明は、前記多重化制御手段は、前記映像フレームと音声フレームとを再符号化し多重化する際、前記映像フレームの一つ前の再生時間情報が記録された映像フレームに対応する音声フレームとともに多重化するよう多重化制御することを特徴とするコンテンツデータ配信装置を提供する。

また、本発明は、フレームごとに再生時間情報がそれぞれ記録された映像フレームと音声フレームとを有するコンテンツデータを記憶する記憶手段と、前記記憶手段に記憶されたコンテンツデータから前記映像フレームと音声フレームとをそれぞれ取り出すフレームデータ抽出手段と、前記フレームデータ抽出手段により取り出された映像フレームと音声フレームとをそれぞれ復号するフレームデータ復号手段と、前記フレームデータ抽出手段により取り出された音声フレームに対し、前記映像フレームの伝送終了時間を計算し、当該伝送終了時間分を遅延時間として遅延情報を生成する遅延情報生成手段と、前記フレームデータ復号手段により復号された映像フレームと音声フレームとを前記遅延情報生成手段により生成された遅延情報及び制御信号とともに再符号化し多重化する多重化手段と、前記多重化手段によって再符号化し多重化された映像データ及び音声データを受信端末に送信する送信手段とを備えたことを特徴とするコンテンツデータ配信装置を提供する。

また、本発明は、前記遅延情報生成手段が前記音声フレームの遅延時間を計算する際に、前記フレームデータ抽出手段によりそれぞれ抽出された前記映像フレーム及び前記音声フレームの復号時間、並びに再符号化時間をも考慮して、前記映像フレームに対応する音声フレームを遅延送信するよう遅延情報を生成することを特徴とするコンテンツデータ配信装置を提供する。

また、本発明は、フレームごとに再生時間情報がそれぞれ記録された映像フレームと音声フレームとを有するコンテンツデータを記憶する記憶手段と、前記記憶手段に記憶されたコンテンツデータから前記映像フレームと音声フレームとをそれぞれ取り出すフレームデータ抽出手段と、前記フレームデータ抽出手段により取り出された映像フレームと音声フレームとをそれぞれ復号するフレームデータ復号手段と、前記フレームデータ抽出手段により取り出された音声フレームに対する遅延情報を生成する遅延情報生成手段と、前記フレームデータ復号手段により復号された映像フレームと音声フレームとを前記遅延情報生成手段により生成された遅延情報及び制御信号とともに再符号化し多重化する多重化手段と、前記多重化手段によって再符号化し多重化された映像データ及び音声データを受信端末に送信する送信手段とを備え、前記遅延情報生成手段が受信端末の端末情報に応じた遅延情報を生成することを特徴とするコンテンツデータ配信装置を提供する。

本発明によれば、より簡便な構成で従来の方法及び装置では解決できなかった画像と音声との同期再生を可能にし、かつ、異なる設計仕様を有する複数タイプの受信端末に応じたフレーム及び音声の多重化を可能とするコンテンツデータ配信装置を提供することができる。

以下、本発明の実施の形態について図面を用いて説明する。本実施例においては、コンテンツデータが配信装置にあらかじめ記憶された蓄積型データの配信サービスを例として説明するが、この実施例そのものは本発明の本質を何ら制限するものではない。すなわち、本発明を例えばリアルタイム配信（ライブ中継）に対しても適用可能である。

（第１の実施の形態）図１は、本発明の第１の実施の形態におけるコンテンツデータ配信装置のブロック構成を示すブロック図である。

図１において、ファイルデータ抽出部１００は、メモリ１０１から後述するフォーマットにて記憶されているコンテンツデータを取り出し、映像フレームデータと音声フレームデータとをそれぞれ分離抽出する。ここで、コンテンツデータは、例えばＡＳＦやＭＰ４などのフォーマットで記憶されており、ファイルデータ抽出部１００で取り出された映像フレームデータ及び音声フレームデータはそれぞれ別個に復号化され再符号化されて多重化される。具体的には、映像フレームデータは映像復号化部１０２にて復号化され、音声フレームデータは音声復号化部１０４にて復号化される。そして、結果的に受信端末にてこれら映像データ及び音声データを受信したときに同期がとれるように多重化制御を行う。この多重化制御は、映像であれば映像符号化部１０３における映像フレームの再符号化、及び、音声であれば音声符号化部１０５における音声フレームの再符号化、ならびに、多重化制御部１０６における再符号化された映像データ及び音声データの多重化処理を経て行われ、多重化されたデータが送信部１０７から送信される。そして、以上述べた多重化制御は、詳細には、当初コンテンツデータに記録された映像フレームデータ及び音声フレームデータの再生時間（時刻）に基づく調整が必要となるので、以下、具体的に説明する。

図３は、本発明の第１の実施の形態におけるコンテンツデータ配信装置に置かれたコンテンツデータのデータフォーマット例を示す図である。図３に示すように、コンテンツデータは大きくは映像や音声のフレームデータが格納された「データ領域」と、これらフレームデータごとの再生時間（時刻）を管理記憶している「データ再生時間（時刻）管理領域」とから構成されている。なお、データ領域におかれば映像フレームデータや音声フレームデータについて例示すると、映像データであればＭＰＥＧ４のシンプルプロファイル＠レベル２で符号化されており、音声データであればＧ．７２６で符号化されているとい
った具合である。したがって、本実施例では、ファイルデータ抽出部１００から多重化制御部１０６までのデータフローにおいて、映像及び音声のそれぞれについて復号化部と符号化部とを備えた構成としている。

まず、「データ領域」についてみると、映像データフレームと音声データフレームとが交互に格納されている。交互に格納するとは、必ずしも映像データフレームと音声データフレームとが１つずつ交互に格納されていなければならないわけではなく、映像データフレームと音声データフレームとがそれぞれある程度の塊（群）となって、塊（群）ごとに交互に格納される場合も含まれる。したがって、図３においては、映像データフレームＡに対して音声データフレームＡ及び音声データフレームＢとがセットになって格納されており、次に、映像データフレームＢに対する音声データとして音声データフレームＣ及び音声データフレームＤとがセットになって格納されている。

次に、「データ再生時間管理領域」についてみると、上記した各データフレームに対する再生時間（時刻）が順次格納されている。図３ではデータ領域に格納された各データフレームに対応するように順次再生時間（時刻）が格納されているがこのように配置することにより対応関係を明らかしているだけで、実施例としてはこれに限定されるわけではなく、別のインデックスによって各データフレームとその再生時間とを管理することも可能である。図３においては、データ領域に格納された各データフレームの再生時間（時刻）として、順次ｔ０，Ｔ０，Ｔ１，ｔ１，Ｔ２，Ｔ３，ｔ３，・・・と記憶されている。通常、なんら映像データと音声データとの同期再生につき配慮しないとすれば、このデータ再生時間管理領域に記載されている時刻にしたがって、受信端末側で映像データ及び音声データの再生を行えば事足りるが、通信路の通信容量や映像データ及び音声データのコーディング時間のずれなどが原因となって、現在では映像データと音声データとの同期再生が必要となっている。

図４は、本発明の第１の実施の形態におけるコンテンツデータ配信装置から送信された音声データ及び映像データの再生タイミング例を示すタイミング図である。

例えば図３ようにレイアウトされたデータが順次送信され受信端末にて受信された場合、映像データ及び音声データは、図４に示すように、音声データフレームＡ、映像データフレームＡ、音声データフレームＢ、音声データフレームＣ、映像データフレームＢの順に受信端末に到達する。しかしながら、受信端末によって、例えば音声データフレームＡに対する映像データフレームＡの再生時刻が異なる場合がある。

具体的には、まず、最初に到達する音声データフレームＡはＴ（Ｃ）のタイミングで再生される。これはすべての受信端末において共通である。しかしながら、映像データフレームＡの再生時刻には、少なくとも次の２通りがある。すなわち、前記音声データフレームＡの次の音声データフレームＢの到達時刻Ｔ（Ａ）に再生される場合と、前記映像データフレームＡの次の映像データフレームＢの到達タイミングであるＴ（Ｂ）に再生される場合とである。ここでは、時刻Ｔ（Ａ）に映像データフレームＡが再生される受信端末を「Ａタイプ」、時刻Ｔ（Ｂ）に映像データフレームＡが再生される受信端末を「Ｂタイプ」と呼ぶこととする。

図５は、本発明の第１の実施の形態におけるコンテンツデータ配信装置から多重化送信する映像データ及び音声データの多重化送信タイミング例を示す図である。図５に示すタイミング例は、図３のごときレイアウトのコンテンツデータを、図４における映像データフレームＡの再生時刻がＴ２である受信端末で受信する場合の多重化送信タイミング例である。さて、このような場合においては、まず、映像データフレームＡの再生時刻ｔ０に映像データフレームＡのみを送信する。次に、映像データフレームＢの再生時刻ｔ１に映
像データフレームＢと音声データフレームＡと音声データフレームＢとを多重化送信する。そして、映像データフレームＤの再生時刻ｔ３に映像データフレームＤと音声データフレームＣと音声データフレームＤとを多重化送信する。

ここで、一連の多重化送信処理は、図１に示すブロック図において種々の実現方式がある。例えば、多重化制御部１０６において、上記した映像データと音声データとの多重化送信の組み合わせで送信部１０７から送信されるように制御信号を挿入するなどして多重化してもよいし、映像符号化部１０３及び音声符号化部１０５それぞれにおいて映像データ及び音声データを再符号化する際に、受信端末において再生されるべき時刻を挿入してしまってから多重化制御部１０６において制御信号とともに多重化することも可能である。いずれにせよ、図５に示したタイミングで多重化送信する処理は、映像符号化部１０３、音声符号化部１０５、多重化制御部１０６のいずれで行ってもよい。以上の自由度は、例えば、ＭＰＥＧ４においては、映像データはシンプルプロファイル＠レベル０で多重化されなければならないという仕様、音声であればＡＭＲで多重化されなければならないという仕様に左右される。

一方、図示はしないが、映像データフレームと音声データフレームとがちょうど一つずつ交互にレイアウトされたコンテンツデータに関して、受信端末における映像データフレームの再生時刻がちょうど自身に対応する音声フレームデータの一つ前の音声データフレームデータとともに再生する時刻と同じくすると好適であるような場合には、次のような多重化送信タイミングで多重化送信することとなる。

すなわち、コンテンツデータの具体的なレイアウトとして、映像Ａ、音声Ａ、映像Ｂ、音声Ｂ、映像Ｃ、音声Ｃというように映像データフレームと音声データフレームとが一つずつ交互にレイアウトされた状態にあって、まず、第１に映像Ａの再生時刻に映像Ａのみを送信する。次に、映像Ｂの再生時刻に映像Ｂ及び音声Ａを多重化送信する。そして、映像Ｃの再生時刻に映像Ｃ及び音声Ｂを多重化送信する。

（第２の実施の形態）図２は、本発明の第２の実施の形態におけるコンテンツデータ配信装置のブロック構成を示すブロック図である。図２のブロック構成は、図１のブロック構成とおおむね共通するが、構成要素上明確に相違する点は、遅延情報生成部２００が新たに設けられている点である。この遅延情報生成部２００は、図５で示したようなタイミング、すなわち、映像フレームに対応する音声フレームの一つ前の再生時間情報が記録された音声フレームとともに多重化送信しても、映像フレームの一つ前の再生時間情報が記録された映像フレームに対応する音声フレームとともに多重化送信してもうまく対応できないような場合に、具体的に音声データフレームの遅延時間を遅延情報として算出してより適切な多重化送信に活かすことをその役割としている。

次に、図２のブロック構成上、図１のブロック構成と異なる第２の点は、ファイルデータ抽出部１００から多重化部２０１への経路につき、復号化部及び符号化部を通らないバイパス経路が設けられている点である。すなわち、図２において、映像データの流れに着目すると、フレームデータ抽出部１００から映像復号化部１０２、映像符号化部１０３を経て多重化部２０１へ至る経路の他に、フレームデータ抽出部１００から直接多重化部２０１へ至る経路が設けられている。同様に、音声データの流れに着目すると、フレームデータ抽出部１００から遅延情報生成部２００、音声復号化部１０４、音声符号化部１０５を経て多重化部２０１へ至る経路の他に、遅延情報生成部２００から直接多重化部２０１へ至る経路が設けられている。以下、映像データか音声データかを問わず、復号化部と符号化部とを通過する経路を「経路Ｐ」、復号化部と符号化部とをバイパスする経路と「経路Ｑ」と呼ぶこととする。すなわち、経路Ｐは，映像データについては、フレームデータ抽出部１００から映像復号化部１０２、映像符号化部１０３を経て多重化部２０１へと至
る経路であり、音声データについては、遅延情報生成部２００から音声復号化部１０４、音声符号化部１０５を経て多重化部２０１へと至る経路である。一方、経路Ｑは、映像データの流れについては、フレームデータ抽出部１００から多重化部２０１へと直接流れる経路であり、音声データについては、遅延情報生成部２００から多重化部２０１へと直接流れる経路である。

このように、図２において、図１にあったような経路Ｐの他に復号化部及び符号化部をバイパスする経路Ｑを設けた理由は、コンテンツデータ配信装置のメモリ１０１にあらかじめ蓄積されている映像／音声データと多重化部２０１の直前で多重化される映像／音声データとが同じフォーマットであった場合に、わざわざ復号化及び再符号化を行うことが無駄であるためにバイパスする趣旨である。
例えば、メモリ１０１に蓄積された映像フレームデータがＭＰＥＧ４のシンプルプロファイル＠レベル０であって、多重化部２０１において多重化される直前の映像フォーマットも同じくＭＰＥＧ４のシンプルプロファイル＠レベル０であるならば、フレームデータ抽出部１００から多重化部２０１へ映像が至る経路としては、経路Ｑが採用される。音声データについても同様に、メモリ１０１に蓄積されているデータフォーマットと多重化部２０１の直前で多重化される音声のフレームデータフォーマットが同じならば、遅延情報生成部２００から多重化部２０１へ直接至る経路である経路Ｑが採用される。あるいは、映像データについては、フレームデータ抽出部１００から多重化部２０１へと至る経路Ｑが採用され、音声データについては、遅延情報生成部２００から音声復号化部１０４、音声符号化部１０５を経て多重化部２０１へと至る経路Ｐが採用されることもあり得る。

次に、遅延情報生成部２００の動作について詳しく説明する。なお、メモリ１０１に蓄積されているコンテンツデータは、図３で例示したレイアウトで映像フレームデータ及び音声フレームデータが配置されているものとする。

まず、遅延情報生成部２００で計算される遅延時間（「遅延情報」ともいう。以下、同じ。）は、次のパラメータに依存する。すなわち、映像に関わるパラメータとして、映像復号化部の遅延量Ｅ０、映像符号化部の遅延量Ｅ１、伝送路上映像に割り当てられる映像のビットレートＸ、映像符号化部で生成された映像ストリームのビット量Ｂである。そして、音声に関わるパラメータとして、音声復号化部の遅延量Ｄ０、音声符号化部の遅延量Ｄ２、伝送路上音声に割り当てられる音声のビットレートＹ、音声符号化部で生成された音声ストリームのビット量Ｃである。

そうすると、図４において説明した「受信端末Ａタイプ」に対して上記経路Ｐ又は経路Ｑをとった場合の遅延量の計算としては、経路Ｐの場合には、Ｅ０＋Ｅ１＋Ｘ／Ｂ−Ｄ０−Ｄ２−Ｙ／Ｃと計算される。一方、経路Ｑの場合には、Ｘ／Ｂ−Ｙ／Ｃと計算される。これを図６のフローに基づいて説明すると次の通りとなる。すなわち、動作フローが開始され、Ｓ６０１において現在選択されている経路がＰであるかどうか判断する。この判断は、現在メモリ１０１に蓄積されているデータのフォーマットが受信端末に送信しようとしている多重化データのフォーマットと一致するか否かで判断される。一致していなければ経路Ｐである（Ｙｅｓ）と判断してＳ６０２へ、一致していれば経路Ｑである（Ｎｏ）と判断してＳ６０３へ進む。

Ｓ６０２に進んだ場合には、上記の通りの計算に基づき遅延時間をＥ０＋Ｅ１＋Ｘ／Ｂ−Ｄ０−Ｄ２−Ｙ／Ｃと計算する。一方、Ｓ６０３に進んだ場合には、上記の通りの計算に基づき遅延時間をＸ／Ｂ−Ｙ／Ｃと計算する。

このようにして各経路に応じて計算された遅延時間を遅延情報生成部２００においてセットし（Ｓ６０４）、Ｓ６０５において遅延情報として生成する。

なお、この図６をもとに説明したケースでは、映像データ及び音声データがともに「経路Ｐ」をとる場合と、ともに「経路Ｑ」をとる場合とについて説明しているが、その他の組み合わせについても容易に適用できる。例えば、映像データは「経路Ｐ」をとるが音声データは「経路Ｑ」をとる場合、遅延量は、図６と同様の考え方に基づき、Ｅ０＋Ｅ１＋Ｘ／Ｂ−Ｙ／Ｃとして計算される。また、映像データは「経路Ｑ」をとるが音声データは「経路Ｐ」をとる場合、遅延量は、図６と同様の考え方に基づき、Ｘ／Ｂ−Ｄ０−Ｄ２−Ｙ／Ｃとして計算される。

また、図４において説明した「受信端末Ｂタイプ」に対して上記経路Ｐ又は経路Ｑをとった場合の遅延量の計算については、図７のフローに基づいて説明する。

図７においてフローが開始されると、まず、Ｓ７０１において経路がＰであるかＱであるかが判断される。この判断は、図６におけるＳ６０１と同様に、メモリ１０１に蓄積されたデータと多重化部２０１において多重化される直前のデータとのフォーマットが一致するか否かによって経路Ｐ又はＱのいずれが採用されているかが決定される。経路Ｐでであると判断された場合には、Ｓ７０２へ進み、経路Ｑであると判断された場合には、Ｓ７０３へ進む。

Ｓ７０２では、Ｘ／ＢがＴ１（図３における音声データＢの再生時間Ｔ１である）より小さいかどうかが判定される。小さいと判定されればＳ７０４へ進み、そうでない場合にはＳ７０５へ進む。そして、Ｓ７０４では、遅延時間をＴ１−Ｔ０（Ｔ０は、図３における音声データＡの再生時間Ｔ０である）として計算する。一方、Ｓ７０５では、Ｘ／ＢがＴ１−Ｔ０よりも小さくなるように映像符号化部１０６で調整される。このように、経路Ｐをとる場合には、Ｘ／ＢがＴ１以上になってしまった場合でも、多重化送信の前の映像符号化の段階で、Ｘ／ＢがＴ１以下になるように調整される。

Ｓ７０３でもＸ／ＢがＴ１（図３における音声データＢの再生時間Ｔ１である）より小さいかどうかが判定される。小さいと判定されればＳ７０６へ進み、そうでない場合にはＳ７０７へ進む。Ｓ７０６では、遅延時間をＴ１−Ｔ０（Ｔ０は、図３における音声データＡの再生時間Ｔ０である）として計算する。一方、Ｓ７０７では、遅延時間をＴｘ−Ｔ０として決定する。ここで、Ｔｘとは、図３における音声データの再生時間Ｔ０、Ｔ１、Ｔ２、Ｔ３・・・のいずれかであるが、これらのうち、Ｘ／Ｂをはじめて越える音声データの再生時間である。すなわち、Ｘ／Ｂが、Ｔ２よりも大きくＴ３よりも小さい場合にはＴｘはＴ３と決定される。このようにして、遅延量がＴｘ−Ｔ０として計算される。

以上のようにして各経路に応じて計算された遅延時間を遅延情報生成部２００においてセットし（Ｓ６０４）、Ｓ６０５において遅延情報として生成する。

なお、この図７をもとに説明したケースでは、映像データ及び音声データがともに「経路Ｐ」をとる場合と、ともに「経路Ｑ」をとる場合とについて説明しているが、その他の組み合わせについても容易に適用できる。例えば、映像データは「経路Ｐ」をとるが音声データは「経路Ｑ」をとる場合、遅延量は、図７と同様の考え方に基づき、常にＴ１−Ｔ０の値以下になるように、Ｘ／Ｂが制御される。また、映像データは「経路Ｑ」をとるが音声データは「経路Ｐ」をとる場合、遅延量は、図７と同様の考え方に基づき、Ｘ／ＢがＴ１より小さい場合にはＴ１−Ｔ０として決定され、Ｘ／ＢがＴ１以上の場合にはＴｘ−Ｔ０として決定される。

（第３の実施の形態）最後に第３の実施の形態として、上記した「遅延情報」を受信端末によって適宜切り替える場合の実施例を説明する。ブロック構成上は、基本的に図２と
同じなので、第３の実施の形態に対する図示は行わない。まず、受信端末の種別を識別する方法については次の通りである。つまり、冒頭ですでに説明したように、本発明にかかるコンテンツデータ配信装置（コンテンツ配信元が公開している電話番号）に対して、受信端末から直接ダイヤルするか、あるいは、コンテンツ配信元が公開しているｉモード（登録商標）サイトなどのリンクからアクセスし、クリックと同時にリンク先として記載されているテレビ電話番号へ受信端末から自動発信する。したがって、コンテンツ配信装置としては、受信端末からの発呼があった際、発信者通知手段等を用いて当該受信端末の種別を取得することが可能である。

次に、受信端末の種別が特定できたなら、コンテンツデータ配信装置のメモリ１０１に別途記憶されている図示しないテーブル（対比表）等を用いて、受信端末に応じた最適な遅延情報（例えば、1)映像フレームに対応する音声フレームの一つ前の再生時間情報が記録された音声フレームとともに多重化し送信するような遅延情報を生成する、2)映像フレームの一つ前の再生時間情報が記録された映像フレームに対応する音声フレームとともに多重化し送信するような遅延情報を生成する、3)フレームデータ抽出手段により取り出された音声フレームに対し、映像フレームの伝送終了時間を計算し当該伝送終了時間分を遅延時間として遅延情報を生成する、4)音声フレームの遅延時間を計算する際に、フレームデータ抽出手段によりそれぞれ抽出された映像フレーム及び音声フレームの復号時間、並びに再符号化時間をも考慮して、映像フレームに対応する音声フレームを遅延送信するよう遅延情報を生成する）を決定する。この決定プロセスは、遅延情報生成部２００で行うこととなる。そして、この決定された遅延情報をもとに、多重化部２０１において映像データ及び音声データの多重化を行う。

以上の通り、本発明にかかるコンテンツデータ配信装置は、画像符号化データと音声符号化データとを同期を取りながら再生可能にするための画像音声符号化データ多重化方法を用いたテレビ会議やテレビ電話などのシステム、あるいは、テレビ電話を利用した映像配信サービスシステムに広く適用することができる。

本発明の第１の実施の形態におけるコンテンツデータ配信装置のブロック構成を示すブロック構成図本発明の第２の実施の形態におけるコンテンツデータ配信装置のブロック構成を示すブロック構成図本発明の第１の実施の形態におけるコンテンツデータ配信装置に置かれたコンテンツデータのデータフォーマット例を示す図本発明の第１の実施の形態におけるコンテンツデータ配信装置から送信された音声データ及び映像データの再生タイミング例を示すタイミング図本発明の第１の実施の形態におけるコンテンツデータ配信装置から多重化送信する映像データ及び音声データの多重化送信タイミング例を示す図本発明の第２の実施の形態における受信端末Ａタイプにおける遅延情報生成フロー図本発明の第２の実施の形態における受信端末Ｂタイプにおける遅延情報生成フロー図

符号の説明

１００フレームデータ抽出部
１０１メモリ
１０２映像復号化部
１０３映像符号化部
１０４音声復号化部
１０５音声符号化部
１０６多重化制御部
１０７送信部
２００遅延情報生成部
２０１多重化部

Claims

フレームごとに再生時間情報がそれぞれ記録された映像フレームと音声フレームとを有するコンテンツデータを記憶する記憶手段と、
前記記憶手段に記憶されたコンテンツデータから前記映像フレームと音声フレームとをそれぞれ取り出すフレームデータ抽出手段と、
前記フレームデータ抽出手段により取り出された映像フレームと音声フレームとをそれぞれ復号するフレームデータ復号手段と、
前記フレームデータ復号手段により復号された映像フレームと音声フレームとを制御信号とともに再符号化し多重化する多重化制御手段と、
前記多重化制御手段によって再符号化し多重化された映像データ及び音声データを受信端末に送信する送信手段とを備え、
前記多重化制御手段は、前記映像フレームと音声フレームとを再符号化し多重化する際、前記映像フレームに対応する音声フレームの一つ前の再生時間情報が記録された音声フレームとともに多重化するよう多重化制御することを特徴とするコンテンツデータ配信装置。
前記多重化制御手段は、前記映像フレームと音声フレームとを再符号化し多重化する際、前記映像フレームの一つ前の再生時間情報が記録された映像フレームに対応する音声フレームとともに多重化するよう多重化制御することを特徴とする前記請求項１記載のコンテンツデータ配信装置。
フレームごとに再生時間情報がそれぞれ記録された映像フレームと音声フレームとを有するコンテンツデータを記憶する記憶手段と、
前記記憶手段に記憶されたコンテンツデータから前記映像フレームと音声フレームとをそれぞれ取り出すフレームデータ抽出手段と、
前記フレームデータ抽出手段により取り出された映像フレームと音声フレームとをそれぞれ復号するフレームデータ復号手段と、
前記フレームデータ抽出手段により取り出された音声フレームに対し、前記映像フレームの伝送終了時間を計算し、当該伝送終了時間分を遅延時間として遅延情報を生成する遅延情報生成手段と、
前記フレームデータ復号手段により復号された映像フレームと音声フレームとを前記遅延情報生成手段により生成された遅延情報及び制御信号とともに再符号化し多重化する多重化手段と、
前記多重化手段によって再符号化し多重化された映像データ及び音声データを受信端末に送信する送信手段とを備えたことを特徴とするコンテンツデータ配信装置。
前記遅延情報生成手段は、前記音声フレームの遅延時間を計算する際に、前記フレームデータ抽出手段によりそれぞれ抽出された前記映像フレーム及び前記音声フレームの復号時間、並びに再符号化時間をも考慮して、前記映像フレームに対応する音声フレームを遅延送信するよう遅延情報を生成することを特徴とする前記請求項３記載のコンテンツデータ配信装置。
フレームごとに再生時間情報がそれぞれ記録された映像フレームと音声フレームとを有するコンテンツデータを記憶する記憶手段と、
前記記憶手段に記憶されたコンテンツデータから前記映像フレームと音声フレームとをそれぞれ取り出すフレームデータ抽出手段と、
前記フレームデータ抽出手段により取り出された映像フレームと音声フレームとをそれぞれ復号するフレームデータ復号手段と、
前記フレームデータ抽出手段により取り出された音声フレームに対する遅延情報を生成する遅延情報生成手段と、
前記フレームデータ復号手段により復号された映像フレームと音声フレームとを前記遅延情報生成手段により生成された遅延情報及び制御信号とともに再符号化し多重化する多重化手段と、
前記多重化手段によって再符号化し多重化された映像データ及び音声データを受信端末に送信する送信手段とを備え、
前記遅延情報生成手段は、
（１）前記映像フレームに対応する音声フレームの一つ前の再生時間情報が記録された音
声フレームとともに多重化し送信するよう遅延情報を生成するか、
（２）前記映像フレームの一つ前の再生時間情報が記録された映像フレームに対応する音
声フレームとともに多重化し送信するよう遅延情報を生成するか、
（３）前記フレームデータ抽出手段により取り出された音声フレームに対し、前記映像フ
レームの伝送終了時間を計算し、当該伝送終了時間分を遅延時間として遅延情報を
生成するか、
（４）前記音声フレームの遅延時間を計算する際に、前記フレームデータ抽出手段により
それぞれ抽出された前記映像フレーム及び前記音声フレームの復号時間、並びに再
符号化時間をも考慮して、前記映像フレームに対応する音声フレームを遅延送信す
るよう遅延情報を生成するか、
のうち、少なくとも２種以上の遅延情報生成を行い、受信端末の端末情報に応じた遅延情報を生成することを特徴とするコンテンツデータ配信装置。