JP3552249B2 - 画像および音声信号処理方法とその装置 - Google Patents

画像および音声信号処理方法とその装置 Download PDF

Info

Publication number
JP3552249B2
JP3552249B2 JP17052093A JP17052093A JP3552249B2 JP 3552249 B2 JP3552249 B2 JP 3552249B2 JP 17052093 A JP17052093 A JP 17052093A JP 17052093 A JP17052093 A JP 17052093A JP 3552249 B2 JP3552249 B2 JP 3552249B2
Authority
JP
Japan
Prior art keywords
video signal
audio signal
buffer
data
time stamp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17052093A
Other languages
English (en)
Other versions
JPH0730886A (ja
Inventor
フェルトマン マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP17052093A priority Critical patent/JP3552249B2/ja
Publication of JPH0730886A publication Critical patent/JPH0730886A/ja
Application granted granted Critical
Publication of JP3552249B2 publication Critical patent/JP3552249B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Television Signal Processing For Recording (AREA)
  • Television Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

【0001】
【産業上の利用分野】
本発明は画像および音声信号処理方法とその装置に関する。
本発明は特に、動画像信号とこの動画像信号に同期している音声信号とを圧縮・符号化してデータ伝送系またはデータ蓄積系にビットストリームとして提供し、さらにデータ伝送系またはデータ蓄積系からこのビットストリームを入力して伸長・復号するオーディオ・ビデオ(AV)信号処理などの画像および音声データを処理する方法と装置に関する。
さらに本発明は上記信号処理を行う際、遅延時間の制限を廃止し、復号系において画像と音声データとの同期などに使用するタイムスタンプを記録するタイムスタンプバッファの容量を大きくする方法とその装置に関する。
【0002】
【従来の技術】
コンパクトディスク・リードオンリーメモリ(CD−ROM)、レーザディスク(LD)、ビデオテープ、磁気光学式記録媒体(MO)、DCCなどのディジタルデータ蓄積媒体に映像信号(ビデオ信号)および音声信号(オーディオ信号)を圧縮し多重化(マルチプレクシング)してビットストリームとして直接記録し、再び、データ蓄積媒体から多重化されたビットストリームを読み出してデマルチプレクシングをして圧縮と逆の伸長処理をし、圧縮処理前の元のビデオ信号(原ビデオ信号)および元のオーディオ信号を再生する(復号する)ことが、ビデオテープ記録再生装置、マルチメディアシステム、その他の画像および音声データ処理装置において行われている。
またテレビジョン放送、衛星放送、マルチメディアシステムなどにおいても、ビデオ信号とオーディオ信号とを圧縮して符号化し、多重化したビットストリームとしてデータ伝送系またはデータ蓄積系に出力し、その後、多重化されたビットストリームを入力してデマルチプレクシングした後、圧縮の逆の伸長処理をして元のビデオ信号とオーディオ信号とを復号することが行われている。
【0003】
CD−ROM、LD、ビデオテープなどのデータ蓄積媒体にビデオ信号およびオーディオ信号を圧縮して符号化して記録し、データ蓄積媒体に記録された符号化されたビデオ信号およびオーディオ信号を伸長して元のビデオ信号およびオーディオ信号に復号する蓄積用動画符号化標準としての国際的な規格として、ISOとJECのデータ処理分野における共通事項を取り扱うJTCIの傘下にあるSC2の中のワーキンググループ(WG)11において、MPEG(Motion Pictrure Image Coding Expert Group )が定めた規格MPEG1、および、規格MPEG2が知られている。
【0004】
MPEGは、広範囲な適用を前提とした標準であり、位相同期(フェーズロック)をとる場合と位相同期をとらない(アンロックする)場合とを予定している。位相同期をとる場合は、ビデオ信号符号化クロック(つまり、フレームレート)とオーディオ信号符号化クロック(つまり、オーディオ信号サンプリングレート)とが共通のシステムクロック基準(System Clock Referense)SCRに位相同期される。MPEGはこの場合、0.7秒の周期でタイムスタンプを多重化ビットストリームに付加することを要求している。位相同期をとらない場合は、ビデオ信号とオーディオ信号とは独立に処理され、これらは符号化の際付加されたそれぞれのタイムスタンプに基づいて復号される。
またMPEGは、システムターゲットデコーダのバッファリング遅延時間として、1秒を規定している。
さらにMPEGは、復号の際、ビデオ信号およびオーディオ信号を検索するためのディレクトリを設けること規定している。
【0005】
図15はそのようなMPEG1またはMPEG2をビデオ信号およびオーディオ信号処理装置に適用した場合の構成例を示す図であり、いかにして符号処理系100が非圧縮ビデオ信号S2および非圧縮オーディオ信号S3を入力して、いかにして拘束パラメータシステムターゲットデコーダ400についてのある情報を生成し、いかにして種々の復号処理系に適した拘束ビットストリームを形成するかについて示している。
このビデオ信号およびオーディオ信号処理装置は、圧縮処理前の元のビデオ信号(原ビデオ信号)を提供する非圧縮ビデオ信号源2、圧縮処理前の原オーディオ信号を提供する非圧縮オーディオ信号源3、これら非圧縮ビデオ信号S2および非圧縮オーディオ信号S3を入力し、所定の圧縮処理をして符号化しさらに多重化処理(マルチプレクシング)してビットストリーム形態の圧縮符号化信号S100を出力する符号処理系100、および、この符号処理系100からのビットストリーム形態の圧縮符号化信号S1を伝送または蓄積するデータ伝送系またはデータ蓄積系5を有する。
データ伝送系またはデータ蓄積系5としては、データ蓄積を行う場合はたとえば、CD−ROM、LD、ビデオテープなどであり、データ伝送を行う場合はたとえば、テレビジョン放送通信系、通信衛星系、データ通信系などである。
ビデオ信号およびオーディオ信号処理装置はまた、データ伝送系またはデータ蓄積系5から送出されるビットストリーム形態の圧縮符号化信号S5を入力し、符号処理系100における多重化処理(マルチプレクシング)と逆の分解処理(デマルチプレクシング)し、符号処理系100における圧縮と逆の伸長処理をして、符号処理系100に入力される前の非圧縮ビデオ信号S2および非圧縮オーディオ信号S3と同等の復号化非圧縮ビデオ信号S6Aおよび復号化非圧縮オーディオ信号S6Bを復号する復号処理系600を有する。
ビデオ信号およびオーディオ信号処理装置はさらに、符号処理系100および復号処理系600の処理を規定するため、それぞれ、符号処理系100へのガイドライン(基準信号)S4Aおよび復号処理系600へのガイドライン(基準信号)S4Bを送出する拘束パラメータ(Constraint Parameter)・システムターゲットデコーダ(STD:System Target Decoder )400を有する。
【0006】
拘束パラメータシステムターゲットデコーダ400は、仮想的な(Hypothical) システムターゲットデコーダ、システム基準(Reference)デコーダ、あるいは、基準復号処理系などとも呼ばれるが、ここでは、以下、拘束パラメータシステムターゲットデコーダ、あるいは、簡単に、システムターゲットデコーダなどと呼ぶ。
拘束パラメータシステムターゲットデコーダ400は、CCITT H.261およびMPEG1ビデオ標準などの国際標準規格において使用されており、ビデオ信号符号器およびビデオ信号復号器(デコーダ)の設計者のための指針を与えている。
MPEG1システム標準において、システムターゲットデコーダ(STD)も基準オーディオ信号デコーダを有している。これらの基準モデルにおいて、各ビデオ信号およびオーディオ信号デコーダもまた推奨されているバッファの大きさを有するバッファ、および、いかにしてビデオ信号およびオーディオ信号デコーダを動作させるかについて記述する標準を有している。
推奨されているバッファの大きさを有するモデルは「拘束パラメータ・システムターゲットデコーダ(STD)」と呼ばれている。実用的には、拘束パラメータ・システムターゲットデコーダ(STD)以上の性能を持たない非常に多くの実際の復号システムが存在しないことが期待されている。したがって、ビットストリームが形成されたとき、そして、多くの数の実際のデコーダに到達することが必要なとき、符号化システムが一般的に、拘束パラメータ・システムターゲットデコーダに適したビットストリームを作成する。これらの多重化ビットストリームは拘束システムパラメータ・ストリーム:Constraint System Parameter Stream:CSPS)と呼ばれている。
【0007】
拘束パラメータシステムターゲットデコーダ400は、デマルチプレクシング部401、ビデオ信号バッファ402、オーディオ信号バッファ403、ビデオ信号デコーダ404、および、オーディオ信号デコーダ405を有する。
この例においては、ビデオ信号バッファ402は46Kバイトの記憶容量を有し、オーディオ信号バッファ403は4Kバイトの記憶容量を有する。
デマルチプレクシング部401はスイッチング回路を有し、ビデオ信号デコーダ404、および、オーディオ信号デコーダ405は高速演算処理に適した構成をとる高速ディジタル信号処理装置(DSP)で一体構成されることが、装置構成の面、フレキシブルの観点から望ましい。
DSPは信号処理を高速処理可能なように特別な手法で回路構成されているが、その反面、大きな記憶容量を有する記憶装置を設けるには適していない。したがって、DSPに設けられるビデオ信号バッファ402、および、オーディオ信号バッファ403の記憶容量はある程度制限される。しかしながら、ビデオ信号バッファ402およびオーディオ信号バッファ403の記憶容量は、MPEGの規定に従って上述した容量を持つ必要がある。
【0008】
図16(A)は拘束パラメータシステムターゲットデコーダ400に入力される拘束パラメータ(マルチプレクシング)・システムビットストリームCPSPのフォーマットを示す。このビットストリームは、時系列的に配置された複数のパック(PACK)で構成され、それぞれのパックは、ヘッダ(HEADER)、ビデオ信号パッケット(PACKET)、および、オーディオ信号パッケットを含んでいる。それぞれのビデオ信号パッケットは、ビデオ信号のフレームごとのビデオ信号と、そのフレームの時刻を示すタイムスタンプ(TIME STAMP)を含むパッケットヘッダ(PACKET HEADER)から構成されている。それぞれのオーディオ信号パッケットは、所定の単位(ユニット)ごとのオーディオ信号とそのユニットの時刻を示すタイムスタンプを含むパッケットヘッダとで構成されている。ビデオ信号についてのフレームn+1のタイムスタンプをビデオタイムスタンプvtsと呼び、オーディオ信号についてユニットm+1のタイムスタンプをオーディオタイムスタンプatsと呼ぶ。
つまり、符号処理系100は、非圧縮ビデオ信号S2および非圧縮オーディオ信号S3を符号化して、図16(A)に示したフォーマットのマルチプレクシング・ビットストリームにしてデータ伝送系またはデータ蓄積系5に送出し、拘束パラメータシステムターゲットデコーダ400はこのビットストリームに基づく圧縮符号化信号を含む多重化ビットストリームS5を入力して復号する。
【0009】
符号処理系100に入力される非圧縮ビデオ信号S2と非圧縮オーディオ信号S3とは、データ数、速度が異なる他、圧縮率も異なる。したがって、同じ時刻に符号処理系100に入力されたビデオ信号とオーディオ信号を圧縮処理しても同じ速度、同じ大きさの符号化ビデオ信号と符号化オーディオ信号が提供される訳ではない。また、たとえば、ビデオ信号についてみても、ビデオ信号の内容によって圧縮率は異なる。オーディオ信号についても同様である。したがって、符号処理系100からは固定した状態(条件)の符号化ビデオ信号および符号化オーディオ信号が出力される訳ではない。
復号処理系600において、これら元のビデオ信号およびオーディオ信号を復号化非圧縮ビデオ信号S6Aおよび復号化非圧縮オーディオ信号S6Bとして復号する際、タイミング的に同期をとる必要がある。
そこで、同期を実現するため、MPEGは上述したタイムスタンプをビデオ信号とオーディオ信号のそれぞれにフレームごとに付加することを規定している。つまり、ビデオ信号タイムスタンプとオーディオ信号タイムスタンプとはビデオ信号とオーディオ信号との同期をとった復号を行うためのクロックを規定する時刻を示しており、オーディオ信号タイムスタンプはオーディオ信号の復号を行うためのクロックを生成する時刻を示している。
なお、タイムスタンプを使用する目的としては、上述した同期をとるための他、バッファリングの問題を解消するため、および、符号系におけるデータの複写のためである。
【0010】
図17は復号処理系600の構成図である。
復号処理系600は、デマルチプレクシング部601、ビデオ信号ビットストリーム構成変換処理部602、ビデオ信号受信バッファ603、ビデオ信号復号器(デコーダ)604、ピクチャーレート制御回路605、オーディオ信号ビットストリーム構成変換処理部606、オーディオ信号受信バッファ607、オーディオ信号復号器(デコーダ)608、および、サンプリングレート制御回路609を有する。
デマルチプレクシング部601は、上述したフォーマットの多重化ビットストリームS5を入力し、ビデオ信号、ビデオタイムスタンプvts、オーディオ信号、オーディオタイムスタンプatsに分解(分離)する。
ビデオ信号ビットストリーム構成変換処理部602は分離されたビデオ信号とビデオタイムスタンプvtsを入力し、図16(B)に示すフォーマットに変換する。ビデオ信号受信バッファ603は変換されたビデオ信号を順次記憶し、記憶した順序に従ってビデオ信号復号器604に出力する。
同様に、オーディオ信号ビットストリーム構成変換処理部606は分解されたオーディオ信号とオーディオタイムスタンプatsを入力して図16(B)に示すフォーマットに変換する。オーディオ信号受信バッファ607は変換されたオーディオ信号を順次記憶し、記憶した順序に従ってオーディオ信号復号器608に出力する。
ビデオ信号復号器604は、ピクチャーレート制御回路605から出力されるタイミング信号に基づいてビデオ信号受信バッファ603から出力されたビデオ信号を復号する。
オーディオ信号復号器608は、サンプリングレート制御回路609から出力されるタイミング信号に基づいてオーディオ信号受信バッファ607から出力されたオーディオ信号を復号する。
【0011】
上述したビデオ信号受信バッファ603およびオーディオ信号受信バッファ607について述べる。
復号に際して完全に一致したクロックを用いてビデオ信号とオーディオ信号とを復号することはできない。第1の理由は、上述したように圧縮率が異なるからである。第2の理由は、たとえば、オーディオ信号復号器608におけるオーディオ信号の復号について述べると、固定のビデオレートで復号するオーディオ信号復号器608に入力されるオーディオ信号の入力データレートと、データ伝送系またはデータ蓄積系5から出力されたオーディオ信号の転送ビデオレートとはサンプリングレートクロックの誤差に依存して変化する。さらに、オーディオ信号復号器608には一般に、一度に1つのオーディオ信号、アクセスユニットが入力されるので、データ伝送系またはデータ蓄積系5からの多重化ビットストリームS5の転送レートと、オーディオ信号復号器608に入力されるオーディオ信号とのデータレートとは一致しないからである。そこで、オーディオ信号復号器608の前段にオーディオ信号受信バッファ607が設けられ、上述したデータレートの不一致を調整するように構成されている。
図18に上述した関係を図解する。
【0012】
図19に図解したように、ビデオ信号は符号処理系100においてフレームごとに(あるいは、フィールドごとに)圧縮され、可変長符号化処理されるために、ビデオ信号復号器604に対する入力データレートは符号処理系100におけるビデオ信号の圧縮に依存して大きく変化する。
したがって、ビデオ信号受信バッファ603の記憶容量はオーディオ信号受信バッファ607の記憶容量より大きくなる。たとえば、ビデオ信号受信バッファ603の記憶容量は46Kバイトに対して、オーディオ信号受信バッファ607の記憶容量は4Kバイトである。
図20にビデオ信号受信バッファ603またはオーディオ信号受信バッファ607の受信バッファとしては(以下、ビデオ信号受信バッファ603を例示する)のバッファリングタイミングを示す。
図20(A)に示したように、このバッファリングとしては、ビデオ信号受信バッファ603に入力されたデータの量から、破線で示したビデオ信号受信バッファ603の記憶容量を減じたデータ量がビデオ信号受信バッファ603から読み出されるデータの量を越えない状態、つまり、アンダーフローを生じさせず、かつ、ビデオ信号受信バッファ603から読み出されたデータの量がビデオ信号受信バッファ603に入力されるデータの量を越えない状態、つまり、オーバーフローを生じさせない状態が理想的である。
しかしながら、図20(B)に図解したように、このバッファリングにはオーバーフローまたはアンダーフローが生ずることがある。
【0013】
このバッファリングにおけるオーバーフローまたはアンダーフローを防止する方法としては、図21(A)〜(C)に図解した方法が行われる。
第1の方法は、図21(A)に図解したように、「蓄積メディアスレーブ方法」と呼ばれるものであり、ビデオ信号受信バッファ603に入力されたデータ量L1からビデオ信号受信バッファ603の記憶容量がビデオ信号受信バッファ603から読み出されたデータの量L3を越えず、かつ、ビデオ信号受信バッファ603から読み出されたデータの量L3がビデオ信号受信バッファ603に入力されたデータの量L1を越えないように曲線L1’で示したようにビデオ信号受信バッファ603に入力されるデータの量を制御する。曲線L2はビデオ信号受信バッファ603に入力されたデータL1からビデオ信号受信バッファ603の記憶容量を減じた量の変化を示し、曲線L2’は制御された実際にビデオ信号受信バッファ603に入力されたデータの量の変化を示す。
第2の方法は、図21(B)に図解したように、「デコーダスレーブ方法」と呼ばれるものであり、ビデオ信号受信バッファ603に入力されたデータ量L1が、ビデオ信号受信バッファ603の記憶容量を減じたデータ量L2が、ビデオ信号受信バッファ603から読み出されるデータの量L3を越えず、かつ、ビデオ信号受信バッファ603から読み出されたデータの量L3がビデオ信号受信バッファ603に入力されるデータの量L1を越えないようにビデオ信号復号器604のフレームレートを変更してビデオ信号受信バッファ603からデータを読み出す。実際にビデオ信号受信バッファ603から読み出されたデータの量の変化を曲線L3’として示す。
以上、ビデオ信号について述べたが、オーディオ信号の場合も、オーディオ信号復号器608のサンプリングレートを変化させてオーディオ信号受信バッファ607から読み出すデータの量を調整する。
第3の方法は、図21(C)に図解したように、ビデオ信号受信バッファ603から読み出すデータの量を調整するものであり、たとえば、アクセスユニットをスキップしたり、再表示してビデオ信号受信バッファ603から読み出されるデータの量を調整する。曲線L3’が調整されてビデオ信号受信バッファ603から読み出されたデータの量の変化を示す。
【0014】
しかしながら、上述したデコーダのフレームレートまたはサンプリングレート、あるいは、データ伝送系またはデータ蓄積系5からの転送レートを変更することは、ビデオ信号およびオーディオ信号処理装置の外部の関連する装置に影響を与えるから、自由には変更することができず、ある範囲に制限される。その結果、バッファリングにおいてオーバーフローまたはアンダーフローが頻繁に発生するような場合には、それを完全に防止することができない。
バッファリングにおけるオーバーフローまたはアンダーフローに起因する復号処理の誤動作は、特に、復号開始時点に生ずる。よって、デコーダにおいて、「スタートアップディレー」という、再生初期時に復号処理を遅延する処理を行う。
図22にスタートアップディレーに基づくバッファリングの諸態様を示す。図22(A)は、スタートアップディレーに無関係に理想的にバッファリングが行われた場合、図22(B)は、適切にスタートアップディレーが行われた場合のバッファリング、図22(C)はスタートアップディレーが長くビデオ信号受信バッファ603がオーバーフローする場合、図22(D)はスタートアップディレーが短くアンダーフローが生じる場合を示す。
【0015】
MPEGにおいては、上述したようにそれぞれのパックのヘッダに位相同期をとるためのシステムクロック基準SCRを記述することができ、システムクロック基準SCRは転送ビットレートを定義するために使用できる。さらにMPEGにおいては、ビデオ信号パッケットだはオーディオ信号パッケットのヘッダに記述されるタイムスタンプは、フレームレートまたはサンプリングレートを制御するために使用できる。
つまり図23に図解したように、システムクロック基準SCRはデータ伝送系またはデータ蓄積系5から復号処理系600に入力された多重化ビットストリームS5の時刻を示し、ビデオ信号パッケットまたはオーディオ信号パッケットのタイムスタンプはビデオ信号またはオーディオ信号がビデオ信号受信バッファ603またはオーディオ信号受信バッファ607から出力された時刻を示す。これらの時刻は、たとえば、水晶発振器を用いて90KHの基準クロックを用いて絶対時刻で記録することができる。
このように、システムクロック基準SCRとタイムスタンプとの差をスタートアップディレーに使用できる。
図23において、記号DTSは復号時刻を意味するデコーダタイムスタンプを示し、記号PTSはビデオ信号、つまり、ピクチャーの復号時刻を意味するピクチャータイムスタンプを示し、記号Hはヘッダを示す。
【0016】
上述したように、MPEGにおけるオーディオ信号の復号とビデオ信号の復号に際しては、これら両者の復号結果を同期させる必要があり、この同期にタイムスタンプを用いる。
ビデオ信号およびオーディオ信号の復号処理時刻を0秒と仮定する。図24に示したように、IピクチャーおよびPピクチャーとしてのフレーム以外、つまり、Bピクチャーとしてのフレームにおいては、タイムスタンプによって示されるアクセスユニットの復号時刻は、Bピクチャーが表示される表示時刻と同じになる。つまり、デマルチプレクシング部601を介してビデオ信号受信バッファ603に順次入力されているビデオ信号のうち、第m番目のビデオ信号パッケットの第i番目のフレームのIピクチャーのビデオ信号:Frame i(I)が時刻DTSにビデオ信号受信バッファ603から読み出されて復号された後、ビデオ信号復号器604の後段に設けられたIピクチャーおよびPピクチャーのビデオ信号(フレーム)を一時的に記憶するI/Pバッファに記憶する。
Iピクチャーのビデオ信号とPピクチャーのビデオ信号とでは復号時刻と表示時刻とが異なる。そこで、そのビデオ信号に対応するビデオ信号パッケットのヘッダには、それぞれ復号時刻および表示時刻を示すタイムスタンプとしてのDTSとPTSとが記録されるが、IピクチャーとPピクチャーのビデオ信号の表示時刻PTSとは次のIピクチャーとPピクチャーのDTSとは同じであるから、表示時刻PTSは省略できる。
【0017】
しかしながら、上述したMPEGに基づくビデオ信号およびオーディオ信号処理装置においては、ビデオ信号ビットストリーム構成変換処理部602およびオーディオ信号ビットストリーム構成変換処理部606の回路構成が複雑になるという問題に遭遇している。
さらに上述したビデオ信号およびオーディオ信号処理装置は、復号処理系600に入力されるデータがマルチプレクシングされたビットストリームであることを前提としており、たとえば、ビデオ信号またはオーディオ信号のいずれかがマルチプレクシングされずに入力された場合には、復号することができず、復号処理系として種々の復号処理を行うことを考慮すると、その汎用性に問題があった。
【0018】
そこで本願出願人は、上述した問題を解決するビデオ信号およびオーディオ信号復号装置を提案した(たとえば、平成5年2月26日出願の特願平5−63293号、「データ復号化装置」を参照)。
図25にこの復号装置の構成を示す。このときのビットストリームを図16または図26に示す。
図26に示したビットストリームは、複数のビデオ信号パッケットと、オーディオ信号パッケットとが連続し、それぞれの複数のビデオ信号パッケットは、第1のビデオ信号パッケットヘッダ、第1のピクチャーグループGOP0〜第4のビデオ信号パッケットヘッダ、第4のピクチャーグループGOP3が配列されている。各々のビデオ信号パッケットヘッダにはこのビデオ信号のタイムスタンプが格納されている。それぞれのピクチャーグループには20個のフレームのビデオ信号が格納されている。オーディオ信号パッケットにはオーディオ信号タイムスタンプ、および、オーディオ信号アクセスユニットAAUが格納されている。
【0019】
この復号装置は、デマルチプレクシング501、DSP502、90KHのクロックを発生するクロック発生器503、全体時刻レジスタ504、ビデオ信号受信バッファ505a、オーディオ信号受信バッファ505b、ビデオ信号復号器506a、オーディオ信号復号器506b、ビデオ信号タイムスタンプバッファ507a、オーディオ信号タイムスタンプバッファ507b、ビデオ信号クロック用位相同期回路(PLL)508a、オーディオ信号クロック用PLL508bを有する。
デマルチプレクシング501においてビットストリームから分解されたビデオ信号タイムスタンプがビデオ信号タイムスタンプバッファ507a、オーディオ信号タイムスタンプがオーディオ信号タイムスタンプバッファ507bに格納される。またビットストリームから分解されたビデオ信号がビデオ信号受信バッファ505aに格納され、分解されたオーディオ信号がオーディオ信号受信バッファ505bに格納される。これらバッファ505a、505bに格納されたデータがそれぞれ、PLL508a、508bからのクロックによって復号器506a、506bにおいて同期状態で復号される。
このように、簡単な回路構成にすることができる。
【0020】
図27に多重化ビットストリームのフォーマットとその処理を図解する。ただし、このビットストリームはビデオ信号についてのみ示し、オーディオ信号については省略している。
図28にこのビットストリームに基づくMPEGによるビデオ信号およびオーディオ信号処理装置の構成を示す。拘束パラメータシステムターゲットデコーダ410はデマルチプレクシング部411、ビデオ信号バッファ412、オーディオ信号バッファ413、ディレクトリデータバッファ414、ビデオ信号デコーダ415、オーディオ信号デコーダ416、ディレクトリデコーダ417を有する。復号処理系610は拘束パラメータシステムターゲットデコーダ410と同様に構成されている。
符号処理系110は、図27(A)に図解したビットストリームを生成する。このビットストリームは、第1のディレクトリパッケットとこのディレクトリパッケットに対応する第1のビデオ信号パッケットとが一対になっている。ディレクトリパッケット内は最初の位置にディレクトリパッケットヘッダ、続いて、第1〜第20のポインタP0〜P19が格納されている。ビデオ信号パッケットの最初の位置にビデオ信号パッケットヘッダ、続けて第1〜第20のピクチャーグループGOP0〜GOP19が格納されている。第1のポインタP0が第1のピクチャーグループGOP0の記録位置などを指定している。他のポインタも対応するピクチャーグループの位置を指定している。
【0021】
具体例として、ビデオテープ記録再生装置における再生動作を例示する。この場合、符号処理系110はビデオテープ記録再生装置の記録系であり、データ伝送系またはデータ蓄積系5はビデオテープであり、復号処理系610は再生系である。
図27(B)に示すように、ユーザーがファーストフォワード(First Forward :FF)動作またはファーストリバース(First Reverse :FR))動作を要求する前は、復号処理系610はビデオテープ5から、順次、ディレクトリパッケットヘッダの記録内容、ポインタの指定内容に基づいて、ピクチャーグループが連続的に読みだし、ディレクトリバッファにポインタ、ビデオ信号バッファにビデオ信号を格納し、ビデオ信号復号器においてビデオ信号を復号する。
図27(C)に示すように、ユーザーがファーストフォワード動作を要求すると、ディレクトリバッファに格納されたディレクトリデータが空になるまでスキップ動作が行われ、ピクチャーグループを飛ばしていく。そして、図27(D)に示したように、ディレクトリバッファに新たなディレクトリが格納された位置のポインタまで戻る。図27(E)に示したように、ファーストフォワード動作においては上述した動作、つまり、フィードバック動作が行われる。
【0022】
また、MPEGにおいては、上述したようにバッファリングの遅延時間を規定しており、位相同期をとらない場合のこのバッファリング遅延時間は1秒以内と制限している。
【0023】
【発明が解決しようとする課題】
しかしながら、図26および図16を参照して述べたフレームごとにタイムスタンプを用いる方法は、非常に多くのタイムスタンプを用い、1秒程度遅延させるために、タイムスタンプを格納するバッファがオーバーフローまたはアンダーフローするという問題がある。特に、DSPを用いた場合、搭載されるメモリ容量が限定されるから、オーバーフローまたはアンダーフローが発生する可能性が高い。図26に示したビットストリームを用いる場合もタイムスタンプが多く、同じ問題が発生する。
また数多くのタイムスタンプを格納するタイムスタンプバッファ507a、507bを設ける必要があるが、全ての復号装置においては大きな記憶容量のメモリを設けることが困難である。特に、DSPを用いて復号装置を構成する場合はこの問題が顕著である。
さらに、多くのタイムスタンプを用いることはスタートアップディレーを長くするという問題がある。
したがって、できるだけ少ない数のタイムスタンプを用いてビデオ信号とオーディオ信号との同期をとることが要求されている。
【0024】
上述したMPEGに基づく規定は広範囲の適用が可能なように規定していることの裏返しとして、非常に基準が甘過ぎる点がある。
図28に示した符号処理系110における多重化ビットストリームソース5へのビットストリームのフォーマット(多重化シンタックス)の容量などが明確に規定されていない。一方、多重化ビットストリームソース5からビットストリームを入力して復号する復号処理系610も種々のものがあり、種々の形態で使用される。
その結果として、多重化ビットストリームソース5から出力されたビットストリームが適用できる復号処理系もあれば、そのビットストリームでは実質的に復号が困難な復号処理系も存在する。
【0025】
また、図27を参照して述べたように、ファーストフォワード動作において、ディレクトリバッファが空になり、新たに格納されたポインタまでフィードバックする場合には、ビデオテープを巻き戻すことになり、復号処理動作が非常に遅くなるという問題がある。
【0026】
また上述したMPEGにおいては、バッファリング遅延時間を1秒として規定しているが、この固定した1秒という遅延時間についても問題がある。たとえば、非常に性能のよい復号を行う場合は1秒の遅延時間では不十分であり、たとえば、0.2秒程度の迅速な応答が必要な場合もある。その反面、高解像度の画像を必要とする場合は応答性よりも解像度が重要であり、バッファリング遅延時間を1秒以内でてければならないという応答性を要求せず、たとえば、5秒程度の遅延時間でよい場合がある。このような場合にバッファリング遅延時間として全ての用途に対して固定の1秒という制限を課すと、高解像度の画像処理にはMPEGを適用できないという問題がある。
【0027】
このようにMPEGの規格は種々の広範囲な適用に適合させることを意図した規格である反面、実際の適用においては、種々の観点から問題を含んでいる。
【0028】
上述したように、たとえば、非常に緩慢な動画像を表示するような場合、あるいは、5秒間のスチル画像を表示するようにな場合に、1秒以上の遅延時間が好ましく、MPEGの規格で定めた1秒の遅延時間を廃止することが望ましい。
この1秒の遅延時間の制約を設けない他の用途がある。たとえば、符号化系が1秒当たり最大4.5メガビットのビットレートのデータ送信またはディジタル記録媒体へのデータ伝送をサポートできる場合、画像の品質はスタートアップディレーおよび圧縮レートよりも高くなり、復号系におけるバッファリングを実現する装置の価格が高くなる。この場合、ビデオビットストリームは2部分になる。第1の部分は比較的容易な圧縮を行う5秒のビデオシーケンスであり、第2の部分は圧縮が難しい5秒のビデオシーケンスである。
この用途は可変ビットレートの用途ではあるが、符号化系が10秒間について連続的に最大通信ビットレート、すなわち、1秒当たり4.5メガビットを用いることを決定するから、これら2つのシーケンスについては10秒x4.5メガビット/秒=45メガビット/秒が可能である。符号化系は、第1部分シーケンスについて150ピクチャーデータのために15メガビット、第2部分シーケンスについて150ピクチャーデータのために30メガビットを許可することを決定する。したがって、第1部分のシーケンスについてのビデオ・ビットレートは15メガビット/5秒=3メガビット/秒であり、第2部分のシーケンスについてのビデオ・ビットレートは、30メガビット/5秒=6メガビット/秒である。
【0029】
これらの値はISOの規定に基づく実際のビデオシーケンスに基づいている。第1部分は、バレーダンスのような動きの速い画像データを記録するビデ信号オであり、第2の部分は人間が自転車に乗っているような比較的動きが遅い画像データ記録するビデオ信号である。
他のISO規格のビデオシーケンスもまた、数秒の大きなビットレートビデオに続けて、数秒の低いビットレートビデオを持っている。
図29は、上記第1部分を復号化する場合初期値が3メガビット/秒であり、第2部分を復号化する場合初期値が6メガビット/秒である、×印で示したビデオデコーダバッファ入力レート、および、○で示したビデオデコーダバッファ出力レートを図解するグラフである。
時間t=0において、バッファへの入力データは4.5メガビット/秒であり、バッファからの出力データは3メガビット/秒である。
時間t=3.33秒経過時点において、バッファへの入力データは3.33秒x4.5メガビット/秒=15メガビット/秒であるから、第1部分の最後のバイトデータがバッファに入り、第2部分のデータから4.5メガビット/秒でバッファに入る。
時間t=5秒経過時点において、バッファからの出力データは5秒x3メガビット/秒=15メガビット/秒であるから、第1部分の最後のバイトがバッファから出ていく。ビデオデコーダ(復号系)が動作開始し、6メガビット/秒のデータレートで第2部分の復号を行う。復号系への入力データレートが4.5メガビット/秒のままであるから、ここから、(6−4.5)=1.5メガビット/秒のレートでバッファの満杯状態が少なくなっていく。この時点では、バッファには第2部分のデータのみが入っていることに留意されたい。これらのデータは時刻t=3.33秒経過以来、4.5メガビット/秒のデータレートでバッファに記録されているから、バッファ内のビットの数は(5−3.33)秒x4.5メガビット/秒=7.5メガビットである。これら7.5メガビットのバッファに満杯になっているデータは1.5メガビット/秒のレートで減少していき、(7.5メガビット/1.5メガビット/秒)=5秒で終わる。
時間t=10秒が経過して時点で、バッファが空になり、もし存在するなら後続するビデオが4.5メガビット/秒またはそれ以下で符号化される。
この場合、第1部分の最後のビデオ信号のバイトについての遅延、および、この最後のバイトに続く第2の部分の最初のバイト遅延が約(5−3.33)秒=1.67秒であり、MPEGの規定におけるバッファリング遅延時間である1秒を越えているという問題に遭遇する。
【0030】
ビットストリーム受容性(compliance)を形成するため、伝送レートは図30を参照して下記に述べるように、低減すべきである。
時間t=0において、バッファへの入力データは3.75メガビット/秒であり、バッファからの出力データは3メガビット/秒である。
時間t=4秒経過時点において、バッファへの入力データは4秒x3.75メガビット/秒=15メガビット/秒であるから、第1部分の最後のバイトがバッファに入り、次いで、第2部分のデータから4.5メガビット/秒でバッファに入る。
時間t=5秒経過時点において、バッファからの出力データは5秒x3メガビット/秒=15メガビット/秒であるから、第1部分の最後のバイトがバッファから出ていく。ビデオデコーダが動作開始し6メガビット/秒のデータレートで第2部分の復号を行う。入力データレートが4.5メガビット/秒であるから、ここから、(6−4.5)=1.5メガビット/秒のレートでバッファの満杯状態が少なくなっていく。この時点では、バッファには第2部分のデータのみが入っていることに留意されたい。これらのデータは時刻t=4秒経過以来4.5メガビット/秒のビットレートでバッファに記録されているから、バッファ内のビットの数は4.5メガビットである。これら4.5メガビットのバッファに満杯になっているデータは1.5メガビット/秒のレートで減少していき、3秒で終わる。
時間t=8秒が経過した時点で、バッファが空になる。もしビデオデコーダが6メガビット/秒でデータを読み続けるならば、ここでアンダーフローが起こる。このアンダーフローを防止するため、ビデオデコータは第2部分の残っている2秒分のデータについてビットレートを6メガビット/秒から4.5メガビット/秒に低下させなければならない。
【0031】
このビットストリームは、前に述べた30メガビットではなく第2部分が6秒x4.5メガビット/秒=27メガビットであるから、圧縮率が高く、スタートアップディレーが短く、小さな容量のビデオデコーダバッファでプレーバックできるという利点を有するものの、1秒のバッファリング遅延により希望するビデオ信号の表示品質を提供できないという問題に遭遇する。
したがって、この観点からも、通常のビデオ信号について高い表示画像品質を実現するためには、MPEGで規定する1秒のバッファリング遅延時間に限定することは好ましくない。
【0032】
たとえば、あるビデオバイトのバッファリング遅延時間が1秒であり、レートが30Hのビデオ信号の場合1秒当たり30枚分のピクチャーを復号系内のバッファから取り出すから、最悪の場合として30枚分のピクチャーデータがバッファに存在する。かりにあるビデオ信号バイトのバッファリング遅延が上述したように最悪の場合として1.67秒であるなら、このバイトの前に、1.67秒x30=50枚分のピクチャーデータがあることになる。
【0033】
従来は30Hのレートについては固定の値としてピクチャーデータ30枚分のタイムスタンプを記録するバッファ容量であったが、上述した例では、ビデオ信号のレートが30Hの場合、たとえば、50分のタイムスタンプをバッファに記録することが望ましい。
ただし、ピクチャーデータの圧縮率は可変であるから、復号系に入力されるピクチャーデータとタイムスタンプとは必ずしも一致しない。そこで、かりに1秒のバッファリング遅延時間として30Hの場合に通常、1秒間に30枚分のピクチャーデータが復号系に到来するとして、30個分のタイムスタンプを記録するバッファの容量とすると、ピクチャーデータに対応できなくなる場合がある。したがって、タイムスタンプを記録するバッファの容量としては、ピクチャーデータの圧縮率をも考慮することが望ましい。
【0034】
ここで、さらに次の問題に遭遇する。符号化系からデータ蓄積系またはデータ伝送系に送出するデータ、またはデータ蓄積系またはデータ伝送系において誤りが生ずる。
非常に多くの誤りが生じた場合、全てのピクチャーデータについてタイムスタンプを持っていることが復号系において正確に復号する点で好ましい。
しかしながら、ビデオビットストリームの遅延が1.67秒より長く、全てのピクチャーが1つのタイムスタンプを持っている場合、30分のタイムスタンプバッファはオーバーフローしてしまう。
【0035】
したがって、本発明はビデオ信号およびオーディオ信号をビットストリームとしてデータ伝送系またはデータ蓄積系に提供し、さらにビデオ信号とオーディオ信号を同期させつつ復号する観点において、上述して問題を解決して、一定の標準化を図りつつ、大規模な回路構成にならず広範囲な適用を可能にする、画像および音声信号処理方法とその装置を提供することを目的とする。
【0036】
【課題を解決するための手段】
いずれにしても、種々の適用を考慮すると、タイムスタンプのバッファリング遅延時間を1秒に固定して限定することは好ましくないから、本発明においては、バッファリング遅延時間を1秒に固定せず、その目的に沿った許容遅延時間とする。
したがって、本発明においては、高品質の画像データはもとより、通常のビデオ信号についても1秒の遅延時間を排除する。
【0037】
次いで、最後に述べた問題点について述べると、たとえば、30Hのビデオ信号の場合、システムターゲットデコーダのタイムスタンプバッファの容量を、できるだけ多く、少なくともピクチャーデータ50枚分以上にすることが望ましい。25Hのビデオ信号の場合には、たとえば、少なくともピクチャーデータを41枚分以上とする。
つまり、このタイムスタンプバッファの容量としては、少なくともビデオ信号のレート、実質的な遅延時間に依存して決定することが望ましい。好適には、さらに圧縮率をも考慮して充分余裕を持った値とすることが望ましい。
しかしながら、圧縮率はピクチャーデータの内容によって異なるから事前に明確に規定することができない。そのためには、標準的な圧縮率を想定しておき、この標準的な圧縮率と、ビデオ信号の伝送レートと、許容遅延時間とを考慮して、復号系におけるタイムスタンプを記録するバッファの最大容量を決定する。
【0038】
また本発明においては、ディレクトリの数を少ない数に分割し、ファーストフォワード動作におけるフィードバックが生じても、またはファーストリバース動作によって、最初の位置まで戻る必要がないようにする。
さらに本発明においては、上述したタイムスタンプのバッファリング数を増加させるという観点とは異なる観点から、復号に使用するタイムスタンプの数を減少させ、バッファの記憶容量を低減し、さらにオーバーフローまたはアンダーフローを生じさせない。
また本発明においては、復号におけるバッファ処理の遅延時間に制限をつけない一方で、性能のよい復号に適合するように遅延時間を短縮する。
また本発明は極力スタートアップディレーを生じさせない。
【0039】
したがって、本発明の第1の形態によれば、画像信号および音声信号をそれぞれ同時的に圧縮処理をし、これら圧縮された画像信号および音声信号にタイムスタンプを付加し、順次マルチプレクシングしたビットストリームとして送出する符号処理系と、該符号処理系から送出されたビットストリームを伝送または蓄積するデータ伝送系またはデータ蓄積系と、該データ伝送系またはデータ蓄積系からのビットストリームを入力し、デマルチプレクシングして前記圧縮画像信号、前記圧縮音声信号、前記タイムスタンプをバッファリングし、該タイムスタンプを参照して前記圧縮画像信号および前記圧縮音声信号を同期させて復号する復号処理系とを有し、前記復号処理系における前記タイムスタンプをバッファリングする遅延時間を少なくとも前記画像データが正常にバッファリングされる許容遅延時間に設定し、前記タイムスタンプを分離してバッファリングするバッファメモリの容量を該許容遅延時間と少なくとも前記画像データが入力されるビットストリームの速度で規定される大きさ以上の容量とする画像および音声信号処理装置が提供される。
また本発明によれば、画像信号および音声信号がそれぞれ同時的に圧縮処理され、これら圧縮された画像信号および音声信号にタイムスタンプが付加され、順次マルチプレクシングしたビットストリームとして入力される信号を、デマルチプレクシングして前記圧縮画像信号、前記圧縮音声信号、前記タイムスタンプを分離してバッファリングし、該タイムスタンプを参照して前記圧縮画像信号および前記圧縮音声信号を同期させて復号する復号処理方法であって、前記タイムスタンプをバッファリングする遅延時間を、少なくとも前記画像データが正常にバッファリングされる許容遅延時間に設定し、前記タイムスタンプをバッファリングするバッファメモリの容量を該許容遅延時間と少なくとも前記画像データが入力されるビットストリームの速度で規定される大きさ以上の容量とする復号処理方法が提供される。
【0043】
【作用】
本発明の第1の形態においては、バッファリング遅延時間を1秒に固定せず、ピクチャーデータおよびオーディオデータ、特に、ピクチャーデータのビットストリームレートに則して規定される許容バッファリング遅延時間で必要な数のタイムスタンプをバッファリングする。
特に、非常に多くのピクチャーデータが失われたような場合にも、多くのタイムスタンプを用いて、その救済を図ることができる。
【0047】
【実施例】
本発明の画像および音声信号処理方法とその装置の第1実施例について述べる。第1実施例は、通常のビットストリームレートのビデオ信号についても、MPEGで規定する1秒のバッファリング遅延時間の制限を排除し、さらにタイムスタンプをバッファリングする容量をビデオ信号がバッファリングされる数よりも大きくして、かりに大きな(長時間の)ビデオ信号の喪失が発生しても、余分のタイムスタンプを用いて,同期回復を可能とする場合について述べる。
【0048】
図1は第1実施例としてのビデオ信号およびオーディオ信号処理装置の構成を示す図である。
このビデオ信号およびオーディオ信号処理装置は、圧縮処理前の原ビデオ信号、つまり、非圧縮ビデオ信号を提供する非圧縮ビデオ信号源2、圧縮処理前の原オーディオ信号を提供する非圧縮オーディオ信号源3、これら非圧縮ビデオ信号源2および非圧縮オーディオ信号源3から送出された非圧縮ビデオ信号S2および非圧縮オーディオ信号S3を入力し、所定の圧縮処理をして、ビデオ信号とオーディオ信号とを多重化して符号化した拘束パラメータビットストリーム形態の圧縮符号化信号S1を出力する符号処理系10、および、符号処理系10からの拘束パラメータ・ビットストリーム形態の圧縮符号化信号S1を伝送または蓄積するデータ伝送系またはデータ蓄積系5を有する。
データ伝送系またはデータ蓄積系5としては、データ伝送系として、たとえば、衛星通信系、データ通信系などが対象となり、データ蓄積系として、たとえば、CD−ROM、LD、ビデオテープなどが対象となる。以下、本実施例においては、データ伝送系またはデータ蓄積系5として、ビデオテープを用いる場合について述べる。
またこのデータ伝送系またはデータ蓄積系5は、後述する復号処理系60に対して、多重化ビットストリームを提供するソースでもあるので、多重化ビットストリームソース5とも呼ぶ。
符号処理系10は、この例では、ビットストリーム内のビデオ信号およびオーディオ信号ごとに、換言すれば、パケットごとに、タイムスタンプを付与する。したがって、データ伝送系またはデータ蓄積系5からも、パケットごとに、タイムスタンプを付与したビットストリームが送出される。
【0049】
このビデオ信号およびオーディオ信号処理装置はまた、多重化ビットストリームソース5、つまり、本実施例では、ビデオテープから送出されるパケットごとに、タイムスタンプが付与された圧縮符号化信号S5を入力し、符号処理系10における圧縮と逆のデマルチプレクシングおよび伸長処理をして、符号処理系10に入力される前の非圧縮ビデオ信号S2および非圧縮オーディオ信号S3と同等の復号化非圧縮ビデオ信号S6Aおよび復号化非圧縮オーディオ信号S6Bを復号する復号処理系60を有する。
このビデオ信号およびオーディオ信号処理装置はさらに、符号処理系10および復号処理系60の処理を制御するため、それぞれ、符号処理系10への基準信号および復号処理系6への基準信号を送出する拘束パラメータシステムターゲットデコーダ40を有する。
拘束パラメータシステムターゲットデコーダ40は、デマルチプレクシング部41、ビデオ信号バッファ42、オーディオ信号バッファ43、ビデオ信号デコーダ45、ビデオ信号用タイムスタンプバッファ52、オーディオ信号用タイムスタンプバッファ53、ビデオ信号用位相同期(Phase Lock Loop :PLL)回路55、オーディオ信号用位相同期回路56を有する。
【0050】
図2に復号処理系60の構成を示す。
復号処理系60は拘束パラメータシステムターゲットデコーダ40に対応して構成されるから、復号処理系60は、デマルチプレクシング部61、ビデオ信号バッファ62、オーディオ信号バッファ63、ビデオ信号タイムスタンプバッファ72、オーディオ信号タイムスタンプバッファ73、ビデオ信号デコーダ65、オーディオ信号デコーダ66およびビデオ信号PLL回路75、および、オーディオ信号PLL回路76から構成されている。
スイッチング回路で構成されたデマルチプレクシング部61は、入力したビットストリームを分離して、ビデオ信号はビデオ信号バッファ62に出力し、オーディオ信号はオーディオ信号バッファ63に出力し、ビデオ信号タイムスタンプはビデオ信号用タイムスタンプバッファ72に出力し、オーディオ信号タイムスタンプはオーディオ信号用タイムスタンプバッファ73に出力する。
ビデオ信号デコーダ65はビデオ信号バッファ62に記録されたビデオ信号を復号する。オーディオ信号デコーダ66はオーディオ信号バッファ63に記録されたオーディオ信号を復号する。
ビデオ信号PLL回路75はビデオ信号用タイムスタンプバッファ72に記録されたタイムスタンプを用いて同期用クロックを生成する。オーディオ信号PLL回路76はオーディオ信号用タイムスタンプバッファ73に記録されたタイムスタンプを用いて同期用クロックを生成する。したがって、たとえば、ビデオ信号の到来タイミングとオーディオ信号の到来タイミングが異なっていても、ビデオ信号用タイムスタンプとオーディオ信号用タイムスタンプとを用いて、ビデオ信号とオーディオ信号とを同期させることができる。
【0051】
ビデオ信号のバッファリングの容量を、ビデオ信号のビットストリームレートと、許容バッファリング遅延時間に応じた容量とする。
ビデオ信号バッファ62の記憶容量は、30Hのビットストリームレートの場合、たとえば、30枚のピクチャーデータを記憶可能な容量とする。
オーディオ信号バッファ63の記憶容量は、オーディオ信号の大きさがビデオ信号の大きさより小さく長い時間のオーディオ信号を記録してもメモリ容量的にはあまり問題とならないこと、および、到来するビデオ信号とのタイミングを合わせるため、ビデオ信号の時間よりは長い時間のオーディオ信号を記録可能な容量であるが、実質的にビデオ信号バッファ62の容量を越えない程度の容量としておく。
たとえば、ビデオ信号バッファ62の記憶容量を46Kバイト、オーディオ信号バッファ63の記憶容量を4Kバイトとする。
【0052】
タイムスタンプ自体の大きさは、ビデオ信号およびオーディオ信号のいずれよりも小さい。
ここでは、ビデオ信号用タイムスタンプバッファ72、および、オーディオ信号用タイムスタンプバッファ73の容量を、従来のバッファリング遅延時間、1秒に限定されない大きさとする。
タイムスタンプおよびその記憶容量についてついて述べる。
タイムスタンプは、符号処理系における圧縮前の同時的に圧縮処理されるビデオ信号とオーディオ信号を復号処理系において同期をとるため、バッファリングの問題を解決するため、さらには、符号処理系における複写のために設けられている。ここでは、タイムスタンプは特に、同期のため、および、バッファリングの問題を解決するために使用される場合について例示する。より特定的には、タイムスタンプはここでは、非常に大きなピクチャーデータの喪失が発生した、ピクチャーデータとタイムスタンプとを1対1に対応させただけでは、その救済処理にタイムスタンプが不十分になる場合を解決するために、復号処理系におけるバッファの容量を非常に多くする場合を例示する。
【0053】
再び、図29および図30を参照して述べる。
たとえば、符号化処理系が1秒当たり最大4.5メガビットのビットレートのデータ送信またはディジタル記録媒体5へのデータ伝送をサポートできる場合、画像の品質はスタートアップデレィおよび圧縮レートよりも高くなり、復号系におけるバッファリングの価格が高くなる。この場合、ビデオビットストリームは2部分になる。第1の部分は比較的容易な圧縮を行う5秒のビデオシーケンスであり、第2の部分は圧縮が難しい5秒のビデオシーケンスである。
この用途は可変ビットレートの用途ではあるが、符号化処理系10が10秒間について連続的に最大通信ビットレート、すなわち、1秒当たり4.5メガビットを用いることを決定するから、これら2つのシーケンスについては10x4.5メガビット/秒=45メガビット/秒が可能である。符号化処理系10は、第1部分シーケンスについて150ピクチャーのために15メガビット、第2部分シーケンスについて150ピクチャーのために30メガビットを許可することを決定する。
したがって、第1部分のシーケンスについてのビデオ信号・ビットレートは15メガビット/5秒=3メガビット/秒であり、第2部分のシーケンスについてのビデオ・ビットレートは、30メガビット/5秒=6メガビット/秒である。
図29は、第1部分を復号化する場合初期値が3メガビット/秒であり、第2部分を復号化する場合初期値が6メガビット/秒である、星印で示したビデオデコーダバッファ入力レート、および、ビデオデコーダバッファ出力レートを図解するグラフである。
時間t=0において、バッファへの入力データは4.5メガビット/秒であり、バッファからの出力データは3メガビット/秒である。
時間t=3.33秒経過時点において、バッファへの入力データは3.33秒x4.5メガビット/秒=15メガビット/秒であるから、第1部分の最後のバイトがタイムスタンプバッファ72に入り、第2部分のデータから4.5メガビット/秒でタイムスタンプバッファ72に入る。
時間t=5秒経過時点において、タイムスタンプバッファ72からの出力データは5秒x3メガビット/秒=15メガビット/秒であるから、第1部分の最後のバイトがタイムスタンプバッファ72から出ていく。ビデオデコーダが動作開始し、6メガビット/秒のデータレートで第2部分の復号を行う。入力デコーダレートが4.5メガビット/秒のままであるから、ここから、(6−4.5)=1.5メガビット/秒のレートでバッファの満杯状態が少なくなっていく。この時点では、バッファには第2部分のデータのみが入っていることに留意されたい。これらのデータは時刻t=3.33秒経過以来、4.5メガビット/秒のデータレートでバッファに記録されているから、バッファ内のビットの数は(5−3.33)秒x4.5メガビット/秒=7.5メガビットである。これら7.5メガビットのタイムスタンプバッファ72に満杯になっているデータは1.5メガビット/秒のレートで減少していき、(7.5メガビット/1.5メガビット/秒)=5秒で終わる。
時間t=10秒が経過して時点で、タイムスタンプバッファ72が空になり、もし存在するなら後続するビデオ信号が4.5メガビット/秒またはそれ以下で符号化される。
この場合、第1部分の最後のバイトについての遅延、および、この最後のバイトに続く第2の部分の最初のバイト遅延が約(5−3.33)秒=1.67秒であり、MPEGの規定における遅延時間である1秒を越えているという問題に遭遇する。
【0054】
ビットストリーム受容性(compliance)を形成するため、伝送レートは図30を参照して下記に述べるように、低減すべきである。
時間t=0において、タイムスタンプバッファ72への入力データは3.75メガビット/秒であり、バッファからの出力データは3メガビット/秒である。時間t=4秒経過時点において、タイムスタンプバッファ72への入力データは4秒x3.75メガビット/秒=15メガビット/秒であるから、第1部分の最後のバイトがバッファに入り、次いで、第2部分のデータから4.5メガビット/秒でバッファに入る。
時間t=5秒経過時点において、バッファからの出力データは5秒x3メガビット/秒=15メガビット/秒であるから、第1部分の最後のバイトがバッファから出ていく。ビデオデコーダが動作開始し6メガビット/秒のデータレートで第2部分の復号を行う。入力データレートが4.5メガビット/秒であるから、ここから、(6−4.5)=1.5メガビット/秒のレートでバッファの満杯状態が少なくなっていく。この時点では、タイムスタンプバッファ72には第2部分のデータのみが入っていることに留意されたい。これらのデータは時刻t=4秒経過以来4.5メガビット/秒のデータレートでバッファに記録されているから、タイムスタンプバッファ72内のビットの数は4.5メガビットである。これら4.5メガビットのバッファに満杯になっているデータは1.5メガビット/秒のレートで減少していき、3秒で終わる。
時間t=8秒が経過した時点で、バッファが空になる。もしビデオデコーダが6メガビット/秒でデータを読み続けるならば、ここでアンダーフローが起こる。このアンダーフローを防止するため、ビデオデコータ60は第2部分の残っている2秒分のデータについてビットレートを6メガビット/秒から4.5メガビット/秒に低下させなければならない。
【0055】
このビットストリームは、前に述べた30メガビットではなく第2部分が6秒x4.5=27メガビットであるから、圧縮率が高く、スタートアップ遅延が短く、小さな容量のビデオデコーダバッファでプレーバックできるという利点を有するものの、1秒のバッファリング遅延により希望するビデオ品質を提供できないという問題に遭遇する。したがって、この観点からも、通常のビデオ信号について高いピクチャー品質を実現するためには、1秒のバッファリング遅延時間に限定することは好ましくない。
したがって、本発明においては、通常のビットストリームレートのビデオ信号についても1秒のバッファリング遅延時間を排除した。
【0056】
たとえば、あるビデオバイトのバッファリング遅延時間が1秒であり、レートが30Hのビデオ信号の場合1秒当たり30枚分のピクチャーをビデオデコーダが取り出すから、最悪の場合として30枚分のピクチャーデータがバッファ62に存在する。かりにあるビデオ信号バイトのバッファリング遅延が上述したように最悪の場合として1.67秒であるなら、このバイトの前に、1.67x30=50枚分のピクチャーデータがあることになる。
従来は30Hのレートについては30分のタイムスタンプを記録するバッファ容量であったが、ビデオ信号のレートが30Hの場合、たとえば、ビデオ信号50枚分のタイムスタンプをバッファに記録することが望ましい。
したがって、この例では、ビデオ信号用タイムスタンプバッファ72の容量としては、50枚分のビデオ信号に相当する容量とする。
【0057】
さらに、符号化処理系10からデータ蓄積系またはデータ伝送系5に送出するデータ、またはデータ蓄積系またはデータ伝送系5において誤りが生ずる。非常に多くの誤りが生じた場合、全てのビデオ信号についてタイムスタンプを持っていることが復号系において正確に復号する点で好ましい。しかしながら、ビデオビットストリームの遅延が1.67秒より長く、全てのビデオ信号が1つのタイムスタンプを持っている場合、30枚分の容量では、タイムスタンプバッファ72はオーバーフローしてしまう。
したがって、たとえば、ビットストリームレートが30Hのビデオ信号の場合、タイムスタンプバッファ72の容量を、できるだけ多く、少なくとも上述した50枚分以上にすることが望ましい。
ビデオ信号の長時間の障害に対して救済を行うには、タイムスタンプバッファ72の大きさは極力大きいほうが好ましい。しかしながら、実用上、バッファの容量には限度があるから、このタイムスタンプバッファの容量は、ビデオ信号のレート、実質的な遅延時間に依存して決定することが望ましい。
【0058】
タイムスタンプ自体の大きさはビデオ信号に比較すると小さいから、符号化処理系60を搭載するメモリに制限のあるDSPで実現した場合でも、上記程度のタイムスタンプバッファ72の容量なら特に問題はない。
しかしながら、上述した例示以上の容量の大量のタイムスタンプを記録させることもでき、その場合は、DSP内のメモリを使用せず、DSPの外部にSRAMあるいはDRAMを設けて、大量のタイムスタンプを記憶させることもできる。
【0059】
以上述べたように、第1実施例によれば、タイムスタンプのオーバーフローまたはアンダーフローを防止でき、事実上、ビットストリームレートに依存されずに、かりに長時間のデータ障害が発生したとしても、高い品質のビデオ信号をオーディオ信号に同期させて復号することができる。
【0060】
図3は本発明の画像および音声信号処理装置の第2実施例としてのビデオ信号およびオーディオ信号処理装置の構成図である。
第2実施例は、上述したMPEGにおける多重化シンタックス(多重化フォーマット)、特に、ディレクトリの長さに起因した問題を解決する。
このビデオ信号およびオーディオ信号処理装置は、図15に示したビデオ信号およびオーディオ信号処理装置に類似した構成をしているが、第1実施例のビデオ信号およびオーディオ信号処理装置には、拘束パラメータシステムターゲットデコーダ4にディレクトリデータバッファ44およびディレクトリデコーダ47が付加されている。
【0061】
ビデオ信号およびオーディオ信号処理装置は、圧縮処理前の原ビデオ信号、つまり、非圧縮ビデオ信号を提供する非圧縮ビデオ信号源2、圧縮処理前の原オーディオ信号を提供する非圧縮オーディオ信号源3、これら非圧縮ビデオ信号源2および非圧縮オーディオ信号源3から送出された非圧縮ビデオ信号S2および非圧縮オーディオ信号S3を入力し、所定の圧縮処理をして、ビデオ信号とオーディオ信号とを多重化して符号化した拘束パラメータビットストリーム形態の圧縮符号化信号S1を出力する符号処理系1、および、符号処理系1からの拘束パラメータ・ビットストリーム形態の圧縮符号化信号S1を伝送または蓄積するデータ伝送系またはデータ蓄積系5を有する。
データ伝送系またはデータ蓄積系5としては、データ伝送系として、たとえば、衛星通信系、データ通信系などが対象となり、データ蓄積系として、たとえば、CD−ROM、LD、ビデオテープなどが対象となる。以下、本実施例においては、データ伝送系またはデータ蓄積系5として、ビデオテープを用いる場合について述べる。
またこのデータ伝送系またはデータ蓄積系5は、後述する復号処理系6に対して、多重化ビットストリームを提供するソースでもあるので、多重化ビットストリームソース5とも呼ぶ。
【0062】
このビデオ信号およびオーディオ信号処理装置はまた、多重化ビットストリームソース5、つまり、本実施例では、ビデオテープから送出される拘束ビットストリーム形態の圧縮符号化信号S5を入力し、符号処理系1における圧縮と逆のデマルチプレクシングおよび伸長処理をして、符号処理系1に入力される前の非圧縮ビデオ信号S2および非圧縮オーディオ信号S3と同等の復号化非圧縮ビデオ信号S6Aおよび復号化非圧縮オーディオ信号S6Bを復号する復号処理系6を有する。
このビデオ信号およびオーディオ信号処理装置はさらに、符号処理系1および復号処理系6の処理を制御するため、それぞれ、符号処理系1への基準信号S4Aおよび復号処理系6への基準信号S4Bを送出する拘束パラメータシステムターゲットデコーダ4を有する。
拘束パラメータシステムターゲットデコーダ4は、デマルチプレクシング部41、ビデオ信号バッファ42、オーディオ信号バッファ43、ディレクトリデータバッファ44、ビデオ信号デコーダ45、オーディオ信号デコーダ46、および、ディレクトリデコーダ47を有する。
【0063】
図4に復号処理系6の構成を示す。
復号処理系6は拘束パラメータシステムターゲットデコーダ4に対応して構成されるから、復号処理系6は、デマルチプレクシング部61、ビデオ信号バッファ62、オーディオ信号バッファ63、ディレクトリデータバッファ64、ビデオ信号デコーダ65、オーディオ信号デコーダ66およびディレクトリデコーダ67から構成されている。
図17に図解した復号処理系600と比較すると、ディレクトリデータバッファ64およびディレクトリデコーダ67が付加されている。
【0064】
図5に多重化ビットストリームソース5、この実施例ではビデオテープから復号処理系6に入力されるビットストリームを示す。このビットストリームは、図27(A)に示したビットストリームを変形したものであり、ディレクトリパッケットとビデオパッケットとの対が連続するようにフォーマットが構成されている。
ディレクトリパッケットには、ディレクトリパッケットヘッダ、および、ビデオパッケット内のピクチャーグループのポインタが記述されている。
ビデオパッケットにはそのビデオパッケットのヘッダ(ビデオパッケットヘッダ)が設けられ、次いでこのビデオパッケットヘッダに続けて、第(−1)番目のピクチャーグループ(Group Of Picture) GOP−1が設けられ、さらに10個のピクチャーグループ、つまり、第0番目のピクチャーグループGOP0〜第9番目ピクチャーグループGOP9が設けられている。
ピクチャーグループとは、たとえば、符号内(INTRAフレーム)符号化方法)において符号化した一連のピクチャー、または、符号間(INTERフレーム)符号化方法において符号化した一連のピクチャーをいう。また、ピクチャーとは表示装置に表示される画像をいう。
ビデオパッケット内には10個のピクチャーグループGOP0〜GOP9が設けられているから、ディレクトリパッケット内のポインタも10個のポインタ、P0〜P9が設けられている。
【0065】
スイッチング回路で構成されたデマルチプレクシング部61は、図5に示したビットストリームを分離して、ビデオ信号はビデオ信号バッファ62に出力し、ディレクトリデータはディレクトリデータバッファ64に出力する。
ビデオ信号バッファ62の記憶容量は、上述した例と同様、46Kバイトである。ディレクトリデータバッファ64は、1ポインタ当たり100ビット必要であるから、10ポインタ合計で1Kビットの記憶容量となる。このように、ディレクトリデータバッファ64の記憶容量はビデオ信号バッファ62の記憶容量に比較して非常に少ない。
ビデオ信号デコーダ65、オーディオ信号デコーダ66およびディレクトリデコーダ67は高速演算処理が必要とされ、これらビデオ信号デコーダ65、オーディオ信号デコーダ66およびディレクトリデコーダ67は高速演算に適した回路構成のディジタル信号処理装置(DSP)で一体構成される場合が多い。その反面、DSPには大きな記憶容量のメモリを搭載することが難しい場合が多い。したがって、DSPに接続されるビデオ信号バッファ62、オーディオ信号バッファ63およびディレクトリデータバッファ64の記憶容量はある程度制限される。しかしながら、ビデオ信号バッファ62およびオーディオ信号バッファ63の記憶容量は、MPEGの規定に従った記憶容量を有する必要があるから、結局、ディレクトリデータバッファ64の記憶容量を極力小さくする必要がある。その反面、ディレクトリデータバッファ64に記憶されるディレクトリのオーバーフローおよびアンダーフローを考慮する必要もある。そこで、本実施例においては、ディレクトリデータバッファ64の記憶容量を1Kビットとしている。
このように、ディレクトリデータバッファ64の記憶容量が比較的少ないので、ディレクトリデータバッファ64を付加してもDSPにとって大きな負担にはならない。
本実施例においては、ビデオ信号バッファ62は46Kバイトの記憶容量を有するスタテックランダムアクセスメモリ(SRAM)で構成され、オーディオ信号バッファ63は4Kバイトの記憶容量を有するSRAMで構成され、ディレクトリデータバッファ64は1Kビットの記憶容量を有するSRAMで構成されている。
【0066】
図5はビデオ信号のビットストリームについて述べたが、オーディオ信号についても上記同様のフォーマットで多重化ビットストリームソース5から復号処理系6に入力される。
【0067】
図6(A)はビデオ信号バッファ62に入力される出力されるビデオ信号の経時変化を示すグラフである。図6(B)はディレクトリデータバッファ64に入力され出力されるディレクトリデータの経時変化を示すグラフである。図6(A)、(B)において、横軸は時間変化を示し、縦軸はビデオ信号バッファ62およびディレクトリデータバッファ64に蓄積されているビデオ信号とディレクトリデータの量を示す。図6(B)の破線で示した曲線はバッファリングにおいてオーバーフローする限界を示し、実線で示した曲線はアンダーフローする限界を示す。
図7は図5に示したフォーマットの圧縮符号化信号を含む多重化ビットストリームS5が復号処理系6に入力されたときのビデオ信号バッファ62とディレクトリデータバッファ64の動作を示す。
図6(A)および図7において、ビデオ信号バッファ62に入力するビデオ信号の量の変化が2段階になっている。最初の傾斜は第1のビデオパッケット内のピクチャーグループGOP0〜GOP9が連続的にビデオ信号バッファ62に入力される状態を示しており、第2の傾斜は第2のビデオパッケット内のピクチャーグループGOP10〜GOP19が連続的にビデオ信号バッファ62に入力される状態を示している。
【0068】
ディレクトリデータバッファ64は一度に最大10個のポインタを入力する容量を有しているので、ディレクトリデータバッファ64においてオーバーフローもアンダーフローも発生しない。
ピクチャーグループの大きさは変化する場合がある。しかしながら、一度にビデオ信号バッファ62に入力されるピクチャーグループは最大10個であり、この最大10個についてビデオ信号デコーダ65において順次復号処理が行われる。したがって、ビデオ信号バッファ62にはオーバーフローまたはアンダーフローが発生しない。
特に、一度に処理する最大数を10個と制限しているので、ビデオ信号バッファ62の記憶容量を、上述し、従来と同等の大きさとして、47Kバイトにした記憶容量を少なくすることができる。このことは、多重化ビットストリームソース5に対して種々の復号処理系6で処理することを考えると、ビデオ信号バッファ62およびディレクトリデータバッファ64の記憶容量が小さく、また、ビデオ信号デコーダ65およびディレクトリデコーダ67の処理能力が低い復号処理系6においても、オーバーフローまたはアンダーフローを生じさせずに復号処理が可能になるという利点を意味している。つまり、多重化ビットストリームソース5から、図5に示したような、ディレクトリデータおよびこれに対応するピクチャーグループを分割した信号伝送形態(フォーマット)で復号処理系6に提供することにより、種々の復号処理系6がそのフォーマットに追従して復号処理可能になる。
もちろん、このようなフォーマットは符号処理系1において多重化ビットストリームソース5に提供されるから、元々、符号処理系1において、このようなビットストリームになるように多重化ビットストリームソース5に出力する。
【0069】
図8はユーザーによるピクチャーのスキップ動作がある場合のビデオ信号バッファ62に入力されるピクチャーグループの経緯を示す。
ピクチャーグループをいかにスキップさせるかは、ディレクトリパッケット内に記述されたポインタに従って行われる。
本実施例においては、一度に最大、10ポインタ、10ピクチャーグループごと処理している。したがって、破線で示したように、かりに、ピクチャーグループ12からピクチャーグループ10に戻すような場合でも、第1のディレクトリパッケットに戻るでもなく、ディレクトリデータバッファ64に記憶されている第2ディレクトリパッケット内のポインタを参照してピクチャーグループGOP10の表示についての復号処理を行えばよい。
たとえば、ビデオテープについて小さな範囲で巻き戻ししてプレーバックする場合、このように、多重化ビットストリームソース5から多重化ビットストリームS5を読み返すことなく行われることが多い。従来の方法では、図27に図解したように、最初のディレクトリパッケットまで戻ることになり、即時性に問題がある。本実施例では、すでにディレクトリデータバッファ64に格納されているポインタを用いて、ビデオ信号バッファ62に格納されているビデオ信号を用いて迅速なスキップ動作が可能になる。
特に、多重化ビットストリームソース(データ伝送系またはデータ蓄積系)5として、ビデオテープを用いたような場合には、最初のディレクトリまで戻すの時間がかかるという問題があったが、本実施例では、データ伝送系またはデータ蓄積系5がビデオテープであっても、プレイバックに大きな時間を要しないという利点がある。
データ伝送系またはデータ蓄積系5として、LDなどを使用した場合も、ディレクトリデータおよびピクチャーグループの再読みだし回数が減少するから、迅速なスキップ動作が実現できる。
【0070】
上述した第2実施例においては、一度にディレクトリデータバッファ64に格納可能なディレクトリデータを10個まで許容する例を示したが、本発明は最大格納ディレクトリデータの数を10には限定するものではなく、本発明においては、より少ない数、たとえば、最大ディレクトリデータ数を5個にすることもできる。ディレクトリデータ数を5個にした場合、ディレクトリデータバッファ64の記憶容量は0.5Kビット(500ビット)になる。ディレクトリデータバッファ64の記憶容量が小さくなれば、ビデオ信号バッファ62の記憶容量を小さくすることができる。このことは、バッファの記憶容量が小さく、復号処理の性能が低い復号処理系にも問題なく適用できることを意味している。
つまり、符号処理系1において、多重化ビットストリームソース5に一度に出力するビットストリームの数を極力小さくすると、種々の復号処理系6において、問題なく多重化ビットストリームソース5から出力される圧縮符号化信号を含む多重化ビットストリームS5を問題なく復号できることになる。
もちろん、一度に格納できるディレクトリデータの数を極端に小さくすると、たとえば、1にすると、多重化ビットストリームソース5から復号処理系6に入力される多重化ビットストリームS5の伝送頻度が高くなり、多重化ビットストリームソース5と復号処理系6との間の通信(伝送)速度がボトルネックになる可能性もある。したがって、一度に格納できるディレクトリデータの数は数個〜10個程度が好ましい。
【0071】
本発明の画像および音声信号処理方法とその装置の第3実施例について述べる。
上述したように、MPEGの標準においてはバッファリング遅延時間が1秒と規定されているが、本実施例においては、このバッファリング遅延時間を排除する。その一方で、ビットストリーム内のビデオ信号およびオーディオ信号ごとにタイムスタンプを付与する。ただし、極力少ない数のタイムスタンプを用いる。
図9は第2実施例としてのビデオ信号およびオーディオ信号処理装置の構成を示す図である。
このビデオ信号およびオーディオ信号処理装置は、符号処理系1A、非圧縮ビデオ信号源2、非圧縮オーディオ信号源3、拘束パラメータシステムターゲットデコーダ4A、データ伝送系またはデータ蓄積系5、および、復号処理系6Aを有する。
非圧縮ビデオ信号源2、非圧縮オーディオ信号源3およびデータ伝送系またはデータ蓄積系5は上述したものと実質的に同じである。
符号処理系1Aは符号処理系1と同様、拘束パラメータシステムターゲットデコーダ4Aは拘束パラメータシステムターゲットデコーダ4と同様、復号処理系6Aは復号処理系6と同様であるが、下記に述べる点が異なる。
【0072】
拘束パラメータシステムターゲットデコーダ4Aは、デマルチプレクシング部41、ビデオ信号バッファ42、オーディオ信号バッファ43、ビデオ信号デコーダ45に加えて、ビデオ信号用タイムスタンプバッファ52、オーディオ信号用タイムスタンプバッファ53、ビデオ信号用位相同期(Phase Lock Loop :PLL)回路55、オーディオ信号用位相同期回路56を有する。
【0073】
図10に復号処理系6Aの構成を示す。
復号処理系6Aは拘束パラメータシステムターゲットデコーダ4Aに対応して構成されるから、デマルチプレクシング部61、ビデオ信号バッファ62、オーディオ信号バッファ63、ビデオ信号デコーダ65、オーディオ信号デコーダ66に加えて、ビデオ信号用タイムスタンプバッファ72、オーディオ信号用タイムスタンプバッファ73、ビデオ信号用位相同期(PLL)回路75、オーディオ信号用位相同期回路76を有する。
第3実施例では、ビデオ信号バッファ62の記憶容量を46Kバイト、オーディオ信号バッファ63の記憶容量を4Kバイト、ビデオ信号用タイムスタンプバッファ72の記憶容量を30タイムスタンプ分、同じくオーディオ信号用タイムスタンプバッファ73の記憶容量を30タイムスタンプ分に設定している。
【0074】
図11に符号処理系1Aで符号化され、データ伝送系またはデータ蓄積系5に送出されたビデオ信号についてのビットストリームを示す。
このビットストリームは、複数のピクチャーグループからなり、それぞれのピクチャーグループは、ビデオ信号パッケットヘッダ、そのピクチャーグループ、そのピクチャーグループ内の10個のフレームからなる。
ビデオ信号パッケットヘッダには、そのピクチャーグループのタイムスタンプが記述されている。
図12(A)は図11に示したビットストリームを示し、図12(B)はビデオ信号バッファ62に格納されるビデオ信号の格納状態を示し、図12(C)はビデオ信号用タイムスタンプバッファ52に格納されるビデオ信号のタイムスタンプの格納状態を示す。つまり、図11に示したビデオ信号のビットストリームが、図8に示した復号処理系6Aに入力され、デマルチプレクシング部61で分解されて、図12(B)の実線で示したようにビデオ信号はオーバーフローなしにビデオ信号バッファ62に格納され、図12(C)に太い実線で示したようにビデオ信号についてのタイムスタンプはオーバーフローなしにビデオ信号用タイムスタンプバッファ52に格納される。
図12(B)において、実線で示したビデオ信号の出力タイミングは、ビデオ信号バッファ62の出力遅延時間に基づいて4秒遅延してビデオ信号デコーダ65に入力されている。同様に、図12(C)において、ビデオ信号のタイムスタンプはビデオ信号用タイムスタンプバッファ72において4秒遅延されてビデオ信号用位相同期回路75に入力されている。
【0075】
図10において、ビデオ信号用位相同期回路55はビデオ信号用タイムスタンプバッファ52に格納されてタイムスタンプに基づいて正確に位相同期してクロックを発生する。ビデオ信号デコーダ45はビデオ信号用タイムスタンプバッファ52に格納されたビデオ信号を復号する。
上述した実施例は、ビデオ信号について述べたが、オーディオ信号についても上記ビデオ信号と同様に処理される。
【0076】
第3実施例においてはバッファリング遅延時間に限度を設けていない。したがって、復号処理系6Aは入力されたビットストリームで規定されたタイムスタンプに基づいて生成される位相同期されたクロックに基づいて、遅延時間の制約を受けないで、復号処理を行う。その結果として、種々の復号処理系6Aが上述したビットストリームのビデオ信号およびオーディオ信号を復号できる。
遅延時間に限度をつけない場合の利点としては、たとえば、MO、DCCなどにビデオ信号とオーディオ信号とを記録し、復号する場合、そのバッファリング遅延時間は1秒以上、たとえば、2〜5秒程度の許容時間があるから、このような応答時間の長い復号に本実施例を適用することが好適である。
また、このバッファリング遅延時間を排除することにより、高解像度の画像を必要とし応答性をさほど問題にしない用途においても、画像符号および復号技術を適用できる。
ビデオ信号のタイムスタンプとオーディオ信号のタイムスタンプに基づいてそれぞれ生成されたクロックに基づいて復号されるから、復号されたビデオ信号とオーディオ信号とは同期している。
【0077】
本発明の画像および音声信号処理方法とその装置の第4実施例について述べる。
図13は本発明の第4実施例についてのビットストリームを示す。
図13に示したビットストリームは、第1のビデオ信号パッケットは、第1のオーディオ信号パッケット、第2のビデオ信号パッケット、第2のオーディオ信号パッケット、以下、同様に、ビデオ信号パッケットとオーディオ信号パッケットが続けられて構成されている。
第1のビデオ信号パッケットは、ビデオ信号パッケットヘッダ、第0番目のピクチャーグループGOP0、このピクチャーグループGOP0に関係する第0〜第19のフレームF0〜F19、〜、第3番目のピクチャーグループGOP3、このピクチャーグループGOP3に関係する第0〜第19のフレームF0〜F19で構成されている。
この第1のビデオ信号パッケットの後に、第1のオーディオ信号パッケットが続いている。ビデオ信号パッケットは、オーディオ信号パッケットヘッダ、オーディオ信号アクセスユニットAAUを有する。
第1のビデオ信号パッケットのビデオ信号パッケットヘッダに、ビデオ信号タイムスタンプが記述され、第1のオーディオ信号パッケットヘッダにオーディオ信号タイムスタンプが記述されている。
第2ビデオ信号パッケットのビデオ信号パッケットヘッダ、第2のオーディオ信号パッケットのオーディオ信号パッケットヘッダ以降にも、それぞれ、ビデオ信号タイムスタンプ、オーディオ信号タイムスタンプを記述することができるが、これらはオプションであり、本実施例においては、第1のビデオ信号パッケットのビデオ信号パッケットヘッダにビデオ信号タイムスタンプを記述し、第1のオーディオ信号パッケットヘッダにオーディオ信号タイムスタンプを記述することが本質的である。
【0078】
このビットストリームを符号処理する復号処理系は、図10に図示した復号処理系6Aと同様な構成となるが、ビデオ信号タイムスタンプおよびオーディオ信号タイムスタンプTIME−STAMPが最小でそれぞれ1つであるから、ビデオ信号用タイムスタンプバッファ72およびオーディオ信号用タイムスタンプバッファ73の記憶容量はそれぞれ1つのタイムスタンプを記憶するに充分な記憶容量でよい。つまり、第4実施例においては、タイムスタンプの記憶容量を減少でき、復号処理系をDSPで構成するのに適している。
第4実施例においては、初期状態のみ印加されるビデオ信号のタイムスタンプに基づいてビデオ信号用位相同期回路75が位相同期されたクロックを生成し、それ以降、このクロックを基準に位相同期されたビデオ信号のクロックが順次生成されていく。同様に、オーディオ信号のクロックについても、初期状態のみ印加されるオーディオ信号のタイムスタンプに基づいてオーディオ信号用位相同期回路76が位相同期されたクロックを生成し、それ以降、このクロックを基準に位相同期されたオーディオ信号のクロックが順次生成されていく。
【0079】
第4実施例においても第3実施例と同様に、復号処理系に印加されたタイムスタンプに基づいてビデオ信号およびオーディオ信号が復号される。これら復号されたビデオ信号およびオーディオ信号は位相同期されたクロックを用いて復号されるから、復号されたビデオ信号と復号されたオーディオ信号とは同期している。
【0080】
本発明の画像および音声信号処理方法とその装置の第5実施例について述べる。
第3実施例において、MPEG基準における1秒のバッファリング遅延時間の限度をなくすことを提案した。その一方で、たとえば、業務用などの専門家向けの復号系など性能のよい復号処理系を用いる場合は、遅延時間をMPEGが規定する1秒より短くする必要がある。たとえば、0.2秒の遅延時間が必要とされる場合がある。本実施例では、たとえば、バッファリング遅延時間を0.2秒以内とする。
第5実施例においては、復号処理系におけるビデオ信号バッファ、オーディオ信号バッファの記憶容量を非常に小さくし、バッファにおけるバッファリング遅延時間を短くし、ビデオ信号復号器およびおよび復号器の処理時間を高速にする。
【0081】
本発明の画像および音声信号処理方法とその装置の第6実施例について述べる。
第6実施例においては、図14に示した多重化シンタックスによるビットストリームのデータが復号処理系に入力された時に、最初のビデオ信号タイムスタンプ、および、最初のオーディオ信号タイムスタンプのみを取り込んで、このタイムスタンプを用いて復号のためのクロックを生成する。
この時の復号処理系は、図10に示した復号処理系の構成と同様の構成になるが、ビデオ信号タイムスタンプバッファ、および、オーディオ信号タイムスタンプバッファの記憶容量は非常に小さくできる。
また第6実施例によれば、ビデオ信号タイムスタンプ、および、オーディオ信号タイムスタンプはいかなる多重化シンタックスのビットストリームにおいても必ず最初のヘッダに記述されているから、ビットストリームの形態に依存せず、復号が可能となる。
【0082】
以上、本発明の実施例において、画像信号としてテレビジョンなどにおけるビデオ信号を用いた場合について述べたが、本発明の実施に際しては、上述したビデオ信号に限らず種々の画像データについても適用できる。
また本発明の実施例として、1つのビデオ信号と1つのオーディオ信号との符号処理および復号処理について述べたが、たとえば、マルチメディアシステムなどにおけるように、複数のビデオ信号、複数のオーディオ信号について多重化し符号化してディジタルデータ蓄積媒体に記録し、再び、複数のビデオ信号および複数のオーディオ信号に復号する場合についても適用できる。
さらに、本発明はディジタルデータを蓄積する場合に限らず、データ通信(またはデータ伝送)を行う場合についても適用できる。
また圧縮および復号技術の例として、MPEGを例示したが、本発明は上述したMPEGと同様の他の圧縮および復号技術を適用することができる。
【0083】
【発明の効果】
本発明によれば、通常の画像データについても復号処理系におけるバッファリング遅延時間の制限をなくし、少なくとも画像データのビットストリームレートと許容遅延時間で規定される容量のタイムスタンプを復号処理系のバッファメモリに記憶することを可能にしているから、バッファリングの問題が解決され、さらに、非常に多くの画像データの喪失が生じても、復号処理系においてタイムスタンプを用いて同期回復を行うことができる。
【0084】
また本発明によれば、種々の拘束パラメータ・ビットストリームの多重化シンタックスデータについて、種々の復号を可能とする。したがって、種々の符号化に依存されず効率よく復号できる。
【0085】
さらに本発明によれば、バッファリング制限時間の限度なく、フレキシブルに多重化シンタックスデータを復号することができる。
【0086】
本発明によれば、復号装置の構成を簡単にできる。特に、本発明によれば、記憶容量の小さなメモリを有するDSPで構成できる。
【0087】
また本発明によれば、ファーストフォワード、フィードバックなどの動作においても迅速な動作が可能になる。
【0088】
さらに本発明によればさらに、長いスタートアップディレーを排除できる。
【図面の簡単な説明】
【図1】本発明の画像および音声信号処理装置の第1実施例としてのビデオ信号およびオーディオ信号処理装置の構成図である。
【図2】図1に示したビデオ信号およびオーディオ信号処理装置における復号処理系の構成図である。
【図3】本発明の画像および音声信号処理装置の第2実施例としてのビデオ信号およびオーディオ信号処理装置の構成図である。
【図4】図3に示したビデオ信号およびオーディオ信号処理装置における復号処理系の構成図である。
【図5】図3に示したビデオ信号およびオーディオ信号処理装置における多重化シンタックス(フォーマット)を示す図である。
【図6】図4に示した復号処理系におけるディレクトリバッファ、および、ディレクトリデコーダの動作を示すグラフである。
【図7】図3に示した復号処理系の動作を示す図である。
【図8】図3に示す復号処理系におけるスキップ動作を示す図である。
【図9】本発明の画像および音声信号処理装置の第3実施例としてのビデオ信号およびオーディオ信号処理装置の構成図である。
【図10】図3に示したビデオ信号およびオーディオ信号処理装置における復号処理系の構成図である。
【図11】図9に示したビデオ信号およびオーディオ信号処理装置における多重化シンタックス(フォーマット)を示す図である。
【図12】図4に示した復号処理系におけるディレクトリバッファ、および、ディレクトリデコーダの動作を示すグラフである。
【図13】本発明の第4実施例としてのビットストリームを図解する図である。
【図14】本発明の第6実施例としてのビットストリームを図解する図である。
【図15】従来のMPEGに基づくビデオ信号およびオーディオ信号処理装置の構成図である。
【図16】図15における拘束パラメータビットストリームのフォーマットを示す図であり、(A)は図15における符号処理系においてマルチプレクシングしたビットストリームを示し、(B)は復号処理系においてフォーマット変換した信号フォーマットを示す。
【図17】図15に示した復号処理系の構成図である。
【図18】従来の復号処理系におけるオーディオ信号受信バッファに入力されるオーディオ信号とオーディオ信号復号器に入力されるオーディオ信号とのタイミングの関係を示す図である。
【図19】従来の復号処理系におけるオーディオ信号受信バッファに入力されるオーディオ信号とオーディオ信号復号器に入力されるオーディオ信号との他のタイミングの関係を示す図である。
【図20】バッファにおけるオーバーフローとアンダーフローを示す図である。
【図21】図20に示したオーバーフローまたはアンダーフローを防止する方法を示す図である。
【図22】スタートアップディレーを説明する図である。
【図23】他のバッファリング処理を示す図である。
【図24】さらに他のバッファリング処理を示す図である。
【図25】先行出願の復号器の構成図である。
【図26】図25に示した復号器で処理するビットストリームを示す図である。
【図27】従来の他のビットストリームを示す図である。
【図28】MPEGに基づく他の従来のビデオ信号およびオーディオ信号処理装置の構成図である。
【図29】従来の他のバッファリングの問題を図解する図である。
【図30】図29に示した問題を解決するバッファリングの方法を図解する図である。
【符号の説明】
1,10・・符号処理系
2・・非圧縮ビデオ信号源
3・・非圧縮オーディオ信号源
4,40・・拘束パラメータシステムターゲットデコーダ
41・・デマルチプレクシング部
42・・ビデオ信号バッファ
43・・オーディオ信号バッファ
44・・ディレクトリデータバッファ
45・・ビデオ信号デコーダ
46・・オーディオ信号デコーダ
47・・ディレクトリデコーダ
52・・ビデオ信号用タイムスタンプバッファ
53・・オーディオ信号用タイムスタンプバッファ
55・・ビデオ信号用位相同期回路
56・・オーディオ信号用位相同期回路
5・・データ伝送系またはデータ蓄積系多重化ビットストリームソース
6,60・・復号処理系
61・・デマルチプレクシング部
62・・ビデオ信号バッファ
63・・オーディオ信号バッファ
64・・ディレクトリデータバッファ
65・・ビデオ信号デコーダ
66・・オーディオ信号デコーダ
67・・ディレクトリデコーダ
72・・ビデオ信号用タイムスタンプバッファ
73・・オーディオ信号用タイムスタンプバッファ
75・・ビデオ信号用位相同期回路
76・・オーディオ信号用位相同期回路
S1・・符号処理系からの圧縮符号化信号
S2・・非圧縮ビデオ信号
S3・・非圧縮オーディオ信号
S5・・圧縮符号化信号を含む多重化ビットストリーム
S6A・・復号化非圧縮ビデオ信号
S6B・・復号化非圧縮オーディオ信号
CSPS:Constraint System Parameter Stream(拘束システムパラメータ・ストリーム)(多重化ビットストリーム)
STD:System Target Decoder(システムターゲットデコーダ)
SCR:System Clock Reference(システムクロック基準)
DTS:Decode Time Stamp ( デコーダタイムスタンプ)
PTS:Picture Time Stamp( ピクチャータイムスタンプ)
GOP:Group Of Picture( ピクチャーグループ)

Claims (2)

  1. 画像信号および音声信号をそれぞれ同時的に圧縮処理をし、これら圧縮された画像信号および音声信号にタイムスタンプを付加し、順次マルチプレクシングしたビットストリームとして送出する符号処理系と、
    該符号処理系から送出されたビットストリームを伝送または蓄積するデータ伝送系またはデータ蓄積系と、
    該データ伝送系またはデータ蓄積系からのビットストリームを入力し、デマルチプレクシングして前記圧縮画像信号、前記圧縮音声信号、前記タイムスタンプをバッファリングし、該タイムスタンプを参照して前記圧縮画像信号および前記圧縮音声信号を同期させて復号する復号処理系と
    を有し、
    前記復号処理系における前記タイムスタンプをバッファリングする遅延時間を少なくとも前記画像データが正常にバッファリングされる許容遅延時間に設定し、前記タイムスタンプを分離してバッファリングするバッファメモリの容量を該許容遅延時間と少なくとも前記画像データが入力されるビットストリームの速度とで規定される大きさ以上の容量とする
    画像および音声信号処理装置。
  2. 画像信号および音声信号がそれぞれ同時的に圧縮処理され、これら圧縮された画像信号および音声信号にタイムスタンプが付加され、順次マルチプレクシングしたビットストリームとして入力される信号を、デマルチプレクシングして前記圧縮画像信号、前記圧縮音声信号、前記タイムスタンプを分離してバッファリングし、該タイムスタンプを参照して前記圧縮画像信号および前記圧縮音声信号を同期させて復号する復号処理方法であって、
    前記タイムスタンプをバッファリングする許容遅延時間を、少なくとも前記画像データが正常にバッファリングされる許容遅延時間に設定し、
    前記タイムスタンプをバッファリングするバッファメモリの容量を該許容遅延時間と少なくとも前記画像データが入力されるビットストリームの速度で規定される大きさ以上の容量とする
    復号処理方法。
JP17052093A 1993-07-09 1993-07-09 画像および音声信号処理方法とその装置 Expired - Fee Related JP3552249B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17052093A JP3552249B2 (ja) 1993-07-09 1993-07-09 画像および音声信号処理方法とその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17052093A JP3552249B2 (ja) 1993-07-09 1993-07-09 画像および音声信号処理方法とその装置

Publications (2)

Publication Number Publication Date
JPH0730886A JPH0730886A (ja) 1995-01-31
JP3552249B2 true JP3552249B2 (ja) 2004-08-11

Family

ID=15906469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17052093A Expired - Fee Related JP3552249B2 (ja) 1993-07-09 1993-07-09 画像および音声信号処理方法とその装置

Country Status (1)

Country Link
JP (1) JP3552249B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6009202A (en) * 1994-12-28 1999-12-28 Kabushiki Kaisha Toshiba Image information encoding/decoding system
US5721720A (en) * 1994-12-28 1998-02-24 Kabushiki Kaisha Toshiba Optical recording medium recording pixel data as a compressed unit data block
DE69631393T2 (de) * 1995-03-29 2004-10-21 Hitachi Ltd Dekoder für komprimierte und multiplexierte Bild- und Audiodaten
US6047027A (en) * 1996-02-07 2000-04-04 Matsushita Electric Industrial Co., Ltd. Packetized data stream decoder using timing information extraction and insertion
JP2820105B2 (ja) * 1996-02-28 1998-11-05 日本電気株式会社 音声信号処理回路
TW439054B (en) * 1998-04-08 2001-06-07 Matsushita Electric Ind Co Ltd Optical disc, optical disc recording method and apparatus, and optical disc reproducing method and apparatus
KR100584183B1 (ko) * 1998-07-09 2006-10-04 엘지전자 주식회사 재 기록가능 기록매체의 데이터 기록방법
JP4223151B2 (ja) * 1999-07-30 2009-02-12 エルジー エレクトロニクス インコーポレイティド 音声追加記録方法及び光ディスク記録再生装置
EP1129580B1 (en) * 1999-09-21 2008-04-09 Nxp B.V. Clock recovery
JP4421156B2 (ja) 1999-10-29 2010-02-24 富士通株式会社 画像再生装置および画像記録再生装置
DE60044043D1 (de) * 2000-08-17 2010-04-29 Hitachi Ltd Messsteuerung für ein Fahrzeug
KR100490403B1 (ko) 2002-05-04 2005-05-17 삼성전자주식회사 오디오 스트림의 버퍼링 제어 방법 및 그 장치
KR20040038184A (ko) * 2002-10-31 2004-05-08 엘지전자 주식회사 A/v 동기화를 위한 오디오 패킷 디코딩 방법
JP6279146B2 (ja) * 2015-03-05 2018-02-14 三菱電機株式会社 データ処理装置及びデータ処理方法及びデータ処理プログラム
WO2021241111A1 (ja) * 2020-05-29 2021-12-02 工機ホールディングス株式会社 締め付け工具

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3047987B2 (ja) * 1990-08-24 2000-06-05 株式会社日立製作所 情報記録再生方式および装置

Also Published As

Publication number Publication date
JPH0730886A (ja) 1995-01-31

Similar Documents

Publication Publication Date Title
KR100205494B1 (ko) 비디오 및 오디오 신호처리 시스템에 있어서의 보조정보를 위한 합리적인 입력 버퍼 회로 배열
US5481543A (en) Rational input buffer arrangements for auxiliary information in video and audio signal processing systems
JP3552249B2 (ja) 画像および音声信号処理方法とその装置
US7058129B2 (en) Decoding method and apparatus and recording method and apparatus for moving picture data
US7292610B2 (en) Multiplexed data producing apparatus, encoded data reproducing apparatus, clock conversion apparatus, encoded data recording medium, encoded data transmission medium, multiplexed data producing method, encoded data reproducing method, and clock conversion method
JP4066058B2 (ja) マルチメディア・システムのためのプログラマブルなオーディオ−ビデオ同期方法および装置
US5905768A (en) MPEG audio synchronization system using subframe skip and repeat
US8233780B2 (en) Reproducing apparatus and method, and recording medium
JPH10511513A (ja) Mpeg再生システムにおいてオーディオとビデオを同期するための方法及び装置
JP3438223B2 (ja) 多重化装置および多重化方法、並びに伝送装置および伝送方法
JP3404808B2 (ja) 復号方法と復号装置
JP3750760B2 (ja) 繰返し使用データ挿入装置およびディジタル放送送信システム
JP2872104B2 (ja) タイムスタンプ付加装置および方法、並びにそれを用いた動画像圧縮伸張伝送システムおよび方法
RU2308098C2 (ru) Воспроизводящее устройство и способ и записывающий носитель
JPH0898160A (ja) データ多重化装置
JP3536493B2 (ja) オーサリングシステム,このシステムで使用される符号化装置及び多重化装置並びに多重ビットストリームを生成する方法
RU2401465C2 (ru) Устройство и способ воспроизведения
JPH099215A (ja) データ多重方法、データ伝送方法、及び多重データ復号方法、多重データ復号装置
Lu et al. Mechanisms of MPEG stream synchronization
KR0181081B1 (ko) 시스템 복호화기의 이에스씨알 재생장치
JP2001359059A (ja) プログラム多重化システム
JPH10126274A (ja) データ復号方法及びデータ復号装置、クロック変換方法及びクロック変換装置
JP2003284069A (ja) 多重データ復号方法及び多重データ復号装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040413

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040426

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100514

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100514

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110514

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120514

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees