JP2005168048A

JP2005168048A - ディジタル情報符号化・復号装置

Info

Publication number: JP2005168048A
Application number: JP2005011693A
Authority: JP
Inventors: Shuji Toda; 修司外田; Nobuo Ueda; 信夫植田; Osamu Watanabe; 修渡辺; Noritaka Kishida; 教敬岸田; Akifumi Kodama; 昌文児玉; Tomoaki Ryu; 智明龍; Seiki Yamamoto; 清貴山本
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-01-19
Filing date: 2005-01-19
Publication date: 2005-06-23

Abstract

【課題】簡単な構成で映像と音声の同期のとれた復号信号を得ることができるディジタル情報符号化・復号装置を提供する。
【解決手段】オーディオ符号化データ列を、ビデオ符号化データ列の分割箇所と同じ時刻か、あるいは、映像と音声の同期ずれが、人間の検知できない程度の時間差だけ前記ビデオ符号化データ列の分割箇所よりも早い時刻で分割し、オーディオ符号化データ列を同じ時刻のビデオ符号化データ列より先に配列し、分割されたビデオ符号化データ列の先頭にスタートコードを挿入する符号化多重データを作成するマルチプレクサ１１と、ビデオ符号化データ列中のスタートコードを受け取ることによりデコードを開始するビデオデコーダ２２と、ビデオデコーダ２２のデコード開始と同時にデコードを開始するオーディオデコーダ１８とを備えた。
【選択図】図９

Description

本発明は、ディジタル画像信号および音声信号の符号化・復号装置に関するものである。

近年、映像信号および音声信号のディジタル符号化技術は、放送、通信、情報機器等の多くのメディアで利用されている。特にＡＶ機器の分野では、ＭＰＥＧによるディジタル符号化方式を利用し、１枚のＣＤに最大７４分の動画像と音声を記録できる「ビデオＣＤ」が規格化され、普及しつつある。

図１４にビデオＣＤのセクタフォーマットを示す。ビデオＣＤのディジタルデータは、１つのパックの中に１つのパケットを含む構成になる。１パックは１セクタ中の２３２４バイトで構成される。

ディスク上では、ＭＰＥＧのビデオとオーディオのデータを時系列記録しており、平均すると６対１の割合で配置されている。

ディジタルデータを蓄積媒体に記録する場合、ＶＨＳに代表されるアナログ記録のＶＴＲとは異なり、ビデオデータとオーディオデータが時系列に並ぶ。そのため、出力される映像信号と音声信号の同期処理を行う必要がある。

ビデオＣＤにおいては、これらの同期処理を行うために、３つの時間情報を用いている。まず、パックヘッダ内にあって復号装置の基準クロックを設定するＳＣＲ（システム・クロック・リファレンス）、次にパケットヘッダ内にあってビデオ・オーディオ信号のデコード開始時刻を示すＤＴＳ（デコーディング・タイム・スタンプ）、そして同じくパケットヘッダ内にあってデコード結果の出力時刻を示すＰＴＳ（プレゼンテーション・タイム・スタンプ）である。

図１５にビデオＣＤの符号化回路の構成を示す。１はアナログビデオ信号入力をディジタルビデオ信号に変換するビデオＡ／Ｄ変換器、２はディジタルビデオ信号を符号化ビデオ信号に変換するビデオエンコーダ、３は符号化ビデオ信号を一時的に蓄えるビデオバッファ、４はアナログオーディオ信号入力をディジタルオーディオ信号に変換するオーディオＡ／Ｄ変換器、５はディジタルオーディオ信号を符号化ビデオ信号に変換するオーディオエンコーダ、６は符号化オーディオ信号を一時的に蓄えるオーディオバッファ、２４は符号化ビデオデータと符号化オーディオデータを時系列に並べ、ＳＣＲ・ＤＴＳ・ＰＴＳを付加して符号化多重データを作成するマルチプレクサ、８は符号化多重データを蓄積するディジタル蓄積メディアである。

ビデオエンコーダ２で作成された符号化ビデオデータはビデオバッファ３に、オーディオエンコーダ５で作成された符号化オーディオデータはオーディオバッファ６に、それぞれ一時的に蓄積される。マルチプレクサ２４は、符号化ビデオデータと符号化オーディオデータを、図１４に示した符号化多重データのフォーマットに合うように分割し、並べ換え、それぞれのデータに時間情報を付加することにより、図１４に示した符号化多重データを出力する。

図１６にビデオＣＤの復号回路の構成を示す。８は図１４に示した符号化多重データを蓄積するディジタル蓄積メディアと同じものである。９はディジタル蓄積メディア８からのデータを蓄えるバッファ、１０はバッファ９の出力信号を制御するバッファ切り換え器、２５はディジタル蓄積メディアに記録されている符号化多重データから符号化ビデオデータと、符号化オーディオデータと、ＳＣＲ・ＤＴＳ・ＰＴＳなどの時間情報とを分離して出力するデマルチプレクサ、１２は符号化ビデオデータを蓄えるビデオバッファ、１３はビデオバッファ１２の出力信号を制御するビデオバッファ切り換え器、１４は符号化ビデオデータを復号するビデオデコーダ、１５は復号されたビデオデータをアナログ信号に変換するビデオＤ／Ａ変換器、１６は符号化オーディオデータを蓄えるオーディオバッファ、１７はオーディオバッファ１６の出力信号を制御するオーディオバッファ切り換え器、１８は符号化オーディオデータを復号するオーディオデコーダ、１９は復号されたオーディオデータをアナログ信号に変換するオーディオＤ／Ａ変換器、２０はデマルチプレクサ１１から出力されたＳＣＲ・ＤＴＳ・ＰＴＳなどの時間情報をもとにビデオバッファ制御器１３とオーディオバッファ制御器１７を制御するマイクロコンピュータである。

ディジタル蓄積メディア８から読み出されたデータはバッファ９に入力される。バッファ９はディジタル蓄積メディア８からのデータ読み出し速度とデマルチプレクサのデータ読み出し速度の差を吸収する。デマルチプレクサ２５では、ディジタル蓄積メディア８から読み出されたデータからビデオデータ、オーディオデータ、ＳＣＲ・ＤＴＳ・ＰＴＳの時間情報等を分離する。その結果、ビデオデータはビデオバッファ１２に、オーディオデータはオーディオバッファ１６に、ＳＣＲ・ＤＴＳ・ＰＴＳの時間情報はマイクロコンピュータ２０に、それぞれ出力される。

ビデオバッファ１２は、デマルチプレクサ２５から間欠的に出力されるビデオ符号化データを、ビデオバッファ切り換え器１３を通して、連続してビデオデコーダに出力する。ビデオデコーダ１４は、入力されたビデオ符号化データをデコードし、ディジタル映像信号をビデオＤ／Ａ変換器１５に出力する。ビデオＤ／Ａ変換器１５は、ビデオデコーダ１４から出力されたディジタル映像信号をアナログ映像信号に変換し、映像信号出力として出力する。

一方、オーディオバッファ１６は、デマルチプレクサ２５から間欠的に出力されるオーディオデータを、オーディオバッファ切り換え器１７を通して、連続してオーディオデコーダに出力する。オーディオデコーダ１８は、入力されたオーディオ符号化データをデコードし、ディジタル音声信号をオーディオＤ／Ａ変換器１９に出力する。オーディオＤ／Ａ変換器１９は、オーディオデコーダ１８から出力されたディジタル音声信号をアナログ音声信号に変換し、音声信号出力として出力する。

デマルチプレクサ２５から出力されたＳＣＲ・ＤＴＳ・ＰＴＳの時間情報は、マイクロコンピュータ２０に入力される。マイクロコンピュータ２０では、ＳＣＲをもとにシステム全体のクロックの時刻を合わせる。そして、ＤＴＳまたはＰＴＳの情報を用いてビデオバッファ切り換え器１３とオーディオバッファ切り換え器１７の接続を調整し、出力信号の出力タイミングを調整することにより、映像信号と音声信号の出力を同期させる。

図１５、図１６に示したようなビデオＣＤの符号化・復号回路における同期処理では、映像と音声の同期の精度は同期に用いるクロックの周波数で決定され、非常に高い精度で同期を行うことが可能になる。しかし、マルチプレクサによるタイムスタンプの挿入、デマルチプレクサによる時間情報の分離、タイムスタンプ制御部による同期処理などが必要になり、復号装置が複雑なものになり、高価なものになってしまうという問題があった。

本発明は、このような問題点を解消すべくなされたものであり、タイムスタンプが不用で、かつ、簡単な構成でビデオとオーディオの同期制御を行なう装置を得ることを目的とする。

請求項１に係るディジタル情報符号化・復号装置は、オーディオ符号化データ列を、ビデオ符号化データ列の分割箇所と同じ時刻か、あるいは、映像と音声の同期ずれが、人間の検知できない程度の時間差だけ前記ビデオ符号化データ列の分割箇所よりも早い時刻で分割し、上記オーディオ符号化データ列を同じ時刻の上記ビデオ符号化データ列より先に配列し、分割された上記ビデオ符号化データ列の先頭にスタートコードを挿入する符号化多重データを作成するマルチプレクサと、上記ビデオ符号化データ列中の上記スタートコードを受け取ることによりデコードを開始するビデオデコーダと、上記ビデオデコーダのデコード開始と同時にデコードを開始するオーディオデコーダとを備えたものである。

請求項２に係るディジタル情報符号化・復号装置は、オーディオ符号化データ列を、ビデオ符号化データ列の分割箇所と同じ時刻か、あるいは、映像と音声の同期ずれが、人間の検知できない程度の時間差だけ前記ビデオ符号化データ列の分割箇所よりも早い時刻で分割し、上記オーディオ符号化データ列を同じ時刻の上記ビデオ符号化データ列より先に配列し、分割された上記ビデオ符号化データ列のスタートコードを同じ時刻のオーディオ符号化データ列の直前に挿入する符号化多重データを作成するマルチプレクサと、上記ビデオ符号化データ列中の上記スタートコードを受け取ることによりデコードを開始するビデオデコーダと、上記ビデオデコーダのデコード開始と同時にデコードを開始するオーディオデコーダとを備えたものである。

請求項３に係るディジタル情報符号化・復号装置は、オーディオ符号化データ列を、ビデオ符号化データ列の分割箇所と同じ時刻か、あるいは、映像と音声の同期ずれが、人間の検知できない程度の時間差だけ前記ビデオ符号化データ列の分割箇所よりも早い時刻で分割し、上記オーディオ符号化データ列を同じ時刻の上記ビデオ符号化データ列より先に配列し、分割された上記ビデオ符号化データ列のスタートコードを同じ時刻のオーディオ符号化データ列の直前に挿入する符号化多重データを作成するマルチプレクサと、最初に上記オーディオ符号化データ列が入力され、その直後の上記ビデオ符号化データ列の先頭に上記スタートコードが存在しないときに、最初に入力された上記オーディオ符号化データ列を破棄するデマルチプレクサと、上記ビデオ符号化データ列中の上記スタートコードを受け取ることによりデコードを開始するビデオデコーダと、上記ビデオデコーダのデコード開始と同時にデコードを開始するオーディオデコーダとを備えたものである。

請求項１の発明によれば、ビデオ符号化データ中のスタートコードを受信することによりビデオデコーダでのデコードを開始し、ビデオデコーダのデコード開始と同時にオーディオデコーダのデコードを開始することにより、符号化多重データの途中から復号を開始しても、映像と音声の同期ずれがほとんど無い復号信号を得ることができる。

請求項２の発明によれば、ビデオ符号化データのスタートコードをオーディオデータの直前に配置することにより、符号化多重データの途中の任意の位置から復号したときにも、映像と音声の同期ずれがほとんど発生しない復号信号を得ることができる。

請求項３の発明によれば、ビデオ符号化データのスタートコードをオーディオデータの直前に配置して符号化多重データを作成し、ビデオ符号化データのスタートコードがビデオデコーダに入力されないときに対応するオーディオ符号化データを破棄することにより、符号化多重データの途中の任意の位置から復号したときにも、同期ずれのほとんど無い復号信号を得ることができる。

実施の形態１．
図１は実施の形態１によるディジタル情報符号化装置の構成を示すブロック図である。図１を従来例の図１５と比べると、マルチプレクサ７が簡易型マルチプレクサ７になっている以外は図１５と同じである。

ここで、簡易型マルチプレクサ７の動作について図２を用いて説明する。

まず、図２のように、符号化する映像信号と音声信号を適当な時間で切り分ける。実施の形態１では、０．５秒ごとに切り分けるものとする。このとき、映像信号と音声信号の先頭時刻は、一致するようにする。

次に、簡易型マルチプレクサ７では、同じ時刻のそれぞれ分割された符号化ビデオデータとオーディオ符号化データを、オーディオデータの次にビデオデータが配列した符号化多重データを作成し、出力する。

簡易型マルチプレクサ７の出力の様子を、図３を用いて説明する。まず、それぞれのオーディオ符号化データとビデオ符号化データの先頭には、データの長さやオーディオ符号化データかビデオ符号化データかの区別を表わす情報などを含んだパックヘッダおよびパケットヘッダが付加される。

そして、はじめにオーディオ符号化データが簡易型マルチプレクサより出力される。

次に、ビデオ符号化データが出力される。図３では、０．５秒分に分割されたオーディオ符号化データをさらにＮ個に分割し、それぞれにパックヘッダとパケットヘッダを付加して出力している。

図３では、ビデオ符号化データがビデオ符号化データ１．１からビデオ符号化データ１．ＮまでのＮ個に分割されているが、分割せずに１つのデータとして出力してもよい。

一組のオーディオ符号化データとビデオ符号化データが出力された後、繰り返し、オーディオ符号化データ、ビデオ符号化データの順番でデータが出力される。

次に、パックヘッダおよびパケットヘッダの一例を図４に示す。パケットヘッダの中のＩＤは、そのパケットに含まれているデータがビデオデータなのかオーディオデータなのかを示している。また、ＳＣＲ・ＰＴＳといった時間情報のフィールドを設定しているが、簡易型マルチプレクサでは、“０”といった意味の無いデータを出力してもよい。ただし、ＳＣＲ・ＰＴＳといった時間情報を必要とする復号装置においても復号を行ないたい場合、すなわち互換性を持たせたい場合は、簡易型マルチプレクサにおいて時間情報を出力する。

次に、図５を用いて復号回路の動作について説明する。ディジタル記録媒体８より読み出された符号化多重信号はバッファ９に入力される。バッファ９は、ディジタル記録媒体８からのデータ読み出し速度と、ビデオデコーダ１４およびオーディオデコーダ１８におけるデコード処理に必要なデータの速度との差を吸収するものである。

バッファ９から読み出された符号化多重データは、切り換え器１０を通って簡易型デマルチプレクサ１１に入力される。簡易型デマルチプレクサ１１は、符号化多重データのパケットヘッダを読み取り、オーディオ符号化データのパケットかビデオ符号化データのパケットかを判断し、ビデオ符号化データはビデオバッファ１２に出力し、オーディオ符号化データはオーディオバッファ１６に出力する。

ビデオバッファ１２およびオーディオバッファ１６は、簡易型デマルチプレクサ１１から出力される不連続なビデオデータおよびオーディオデータを、連続なデータとしてビデオデコーダ、オーディオデコーダのそれぞれが必要とするデータ読み出し速度でそれぞれのデコーダに出力するためのものである。

マイクロコンピュータ２０は、常にビデオバッファ１２のデータ蓄積量を監視する。ビデオバッファ１２のデータ蓄積量があらかじめ定めた閾値以上になると、ビデオ切り換え器１３を閉じてビデオ符号化データをビデオバッファ１２からビデオデコーダ１４に出力し、ビデオデコーダ１４でのデコードを開始する。

また、同時にオーディオ切り換え器１７を閉じて符号化オーディオデータをオーディオバッファ１６からオーディオデコーダに出力し、オーディオデコーダ１８でのデコードを開始する。すなわち、ビデオデコーダとオーディオデコーダでのデコードが、同時に開始される。これにより、映像と音声の同期のあった出力信号を得ることができる。

ビデオデコーダに符号化ビデオデータを入力してから映像データが出力されるまでの時間、すなわちビデオデコーダディレイと、オーディオデコーダに符号化オーディオデータが入力してから音声データが出力されるまでの時間、すなわちオーディオデコーダディレイとの間に差がある場合、ビデオ切り換え器１３とオーディオ切り換え器１７を閉じるタイミングをずらす。例えば、ビデオデコーダディレイがオーディオデコーダディレイよりｔ［ｓｅｃ］長い場合、ビデオ切り換え器１３を閉じたｔ［ｓｅｃ］後にオーディオ切り換え器１７を閉じるものとする。これにより、ビデオデコーダとオーディオデコーダのディレイに差がある場合でも、映像と音声の同期のあった出力信号を得ることができる。

符号化ビデオデータは、ビデオデコーダ１４によって復号され、ビデオＤ／Ａ変換器１５によってアナログビデオ信号に変換されて出力される。符号化オーディオデータは、オーディオデコーダ１８によって復号され、オーディオＤ／Ａ変換器１９によってアナログオーディオ信号に変換されて出力される。

ここで、符号化多重データは同じ時刻のオーディオデータがビデオデータより先に出力されるようになっている。符号化多重データは同じ時刻のオーディオデータとビデオデータが、時系列に多重化されている。ここで、時系列の多重化としては、大きく分けて、オーディオデータを先に送る場合と、ビデオデータを先に送る場合の２つの場合が考えられる。例えば、ビデオデータが先に送られた場合、復号装置側ではビデオデータを受け取った後に同じ時刻のオーディオデータが送られて来るまで、先に受け取ったビデオデータをデコードせずに保持している必要がある。ここで、オーディオデータとビデオデータのデータ量を比べると、通常の場合、オーディオデータの方がビデオデータよりはるかに少ない。そのため、一定時間の情報を蓄えるとき、ビデオデータを蓄えるよりオーディオデータを蓄えた方が必要とするメモリ量がはるかに少ないものとなる。

実施の形態１のように、同じ時刻のオーディオデータをビデオデータより先に送ることにより、復号装置全体で必要となるメモリの量が非常に少ないものとなる。その結果、非常に簡単な構成で復号装置を構成することができる。

また、図５に示したディジタル情報復号装置において、ディジタル蓄積メディア８から符号化多重データを読み出すときに、データの途中から読み出す場合を考える。これは、記録した映像および音声信号の途中からの復号を行なう場合である。データの途中からの復号を考えたとき、一組となっているオーディオ符号化データとビデオ符号化データをもってデコードを始めれば、すなわち図３に示すＡ点から読み出したとき、ビデオデータとオーディオデータは図２で示したように同じ時刻のデータが一組になって記録されているので、映像と音声の同期の合った復号信号を得ることができる。

なお、実施の形態１では、ディジタル記録媒体に記録されたビデオ符号化データとオーディオ符号化データの復号を同期ずれを起こすことなく行なう装置について説明したが、記録されるデータはこれに限るものではない。例えば、様々な楽器からの音声信号や、ボーカルの音声信号を個別に符号化し、同期再生を行なってもよい。

また、実施の形態１では、符号化多重データをディジタル蓄積メディアから読み出す構成について説明したが、これ限るものではない。例えば、ケーブルテレビ等の通信メディアから符号化多重データを読み出してもよい。

さらに、上記実施の形態１では、符号化多重データからのビデオ符号化データとオーディオ符号化データの切り分けをマイクロコンピュータの外部のマルチプレクサを用いて行なう構成を説明したが、同一のマイクロコンピュータ内で切り分けを行なってもよい。

実施の形態２．
次に、実施の形態１に示したディジタル情報符号化・復号装置において、ビデオ符号化データとオーディオ符号化データが全く同じ時刻で分割できない場合にも、映像と音声の同期のあった復号信号を得ることができる機能を組み入れた場合について説明する。

なお、ディジタル情報符号化装置は、図１に示した実施の形態１のディジタル情報符号化装置と同じ構成である。ただし、ビデオデータおよびオーディオデータの構成が制限を受けたものになっている。これについて以下に説明する。

まず、図６にビデオデータおよびオーディオデータの構成を示し、あわせて実施の形態２による簡易型マルチプレクサ７によるデータ分割の様子を示す。図６のように、符号化する映像信号の１フレームを１ピクチャという単位とし、例えば１５ピクチャを１つのＧＯＰ（グループ・オブ・ピクチャ）という単位として映像信号全体を切り分ける。１ＧＯＰは、時間にして約０．５ｓｅｃである。

ここで、図７を用いて実施の形態２における画像符号化データの構成について説明する。実施の形態２では、各ＧＯＰの先頭に画像符号化データの先頭を表わすシーケンスヘッダを付加するものとする。シーケンスヘッダの次にＧＯＰヘッダが続き、その後に１５ピクチャ分のピクチャデータが続く。これらシーケンスヘッダではじまる一連の画像符号化データを１ＧＯＰの画像符号化データとする。

なお、実施の形態２では映像信号の１ＧＯＰを１５ピクチャで構成するものとしているが、これに限るものではない。

また、図６より、音声信号は映像信号の先頭のピクチャと時間的に一致したところから１フレーム毎に分ける。ここでの１フレームとは、例えば、４８ｋＨｚサンプリングされたディジタルオーディオデータの１１５２サンプル分のことを表わしている。

なお、実施の形態２では音声信号の１フレームを４８ｋＨｚサンプリングの１１５２サンプル分としたが、サンプリング周波数や１フレームのサンプル数はこれに限るものではない。

簡易型マルチプレクサ７では、ビデオエンコーダ２によって作成されたビデオ符号化データを１ＧＯＰごとに分割する。

またオーディオエンコーダ５によって作成されたオーディオ符号化データは、ビデオ符号化データの時間的なＧＯＰの境界線と必ず一致させてデータを分割することは不可能である。よって、実施の形態２では、オーディオ符号化データは、ビデオ符号化データの時間的なＧＯＰの境界線と一致するオーディオフレームの境界線、もしくは境界線が一致しない場合はＧＯＰの境界線よりも時間的に先行するオーディオフレームの境界線のなかでＧＯＰの境界線に最も近いオーディオフレームの境界線で分割する。

図６において、ビデオデータは０．５秒と１．０秒のところにあるＧＯＰの境界線で分割される。オーディオデータはオーディオフレームの２０と２１の間、そしてオーディオフレーム４１と４２の間で分割される。すなわち、ビデオ符号化データの最初の分割されたデータは、第１ピクチャから第１５ピクチャにより構成されるＧＯＰであり、オーディオ符号化データの最初の分割されたデータは、第１フレームから第２０フレームで構成される一連のオーディオ符号化データである。この分割方法では、オーディオ符号化データの１分割単位中にあるフレーム数は２０または２１となる。

次に、簡易型マルチプレクサ７では、ほぼ同じ時刻のそれぞれの分割されたビデオ符号化データとオーディオ符号化データを、オーディオデータの次にビデオデータが出力されるような順番で出力する。

簡易型マルチプレクサ７の出力の様子を、図８を用いて説明する。まず、それぞれのオーディオ符号化データとビデオ符号化データの先頭には、データの長さやオーディオデータかビデオデータかの区別を表わす情報などを含んだパックヘッダ、およびパケットヘッダが付加される。

そして、はじめに、オーディオの第１フレームから第２０フレームを符号化したデータが出力される。

次に、ビデオの１ＧＯＰ分のデータ、すなわち第１ピクチャから第１５ピクチャを符号化したデータが適度な大きさに分割されて出力される。なお、実施の形態２では、ビデオ符号化データを適度な大きさに分割して出力しているが、分割せずに出力してもよい。

一組のオーディオデータとビデオデータが出力された後、繰り返し、オーディオデータ、ビデオデータの順番でデータが出力される。

図６より、それぞれの一組のオーディオデータとビデオデータの先頭時刻のずれは、オーディオデータの１フレーム分以下になっている。実施の形態２では、オーディオデータの１フレームは４８ｋＨｚサンプリングの１１５２サンプル分なので、時間として２４ｍｓｅｃである。すなわち、オーディオデータの先頭は、ビデオデータの先頭に対して２４ｍｓｅｃ以下のずれで先行したものとなっている。

また、パックヘッダおよびパケットヘッダについては、実施の形態１で示した図４と同じものを用いる。

さらに、ディジタル情報復号装置については、実施の形態１で示した図５と同じものを用いる。

ここで、図５に示したディジタル情報復号装置において、ディジタル蓄積メディア８から符号化多重データを読み出すときに、データの途中から読み出す場合を考える。これは、記録した映像および音声信号の途中からの復号を行なう場合である。データの途中からの復号を考えたとき、一組となっているオーディオ符号化データとビデオ符号化データをもってデコードを始めれば、すなわち図８に示すＡ点から読み出したとき、ビデオデータとオーディオデータは図６で示したようにほぼ同じ時刻のデータが一組になって記録されているので、ほぼ同期の合った復号信号を得ることができる。

また、ビデオ符号化データの１ＧＯＰの境界線とオーディオ符号化データの分割の境界線との時間的なずれが、最大でオーディオ符号化データの１フレーム分、すなわち２４ｍｓｅｃなので、復号される映像信号と音声信号の同期のずれは、最大２４ｍｓｅｃである。

また、オーディオ符号化データの分割の境界線は、必ずビデオ符号化データの境界線より早い時刻に設定してあるので、復号信号で同期ずれが発生した場合、必ず音声が遅れる方向になり、音声が映像より早く出力されることはない。

以上、２つのことがらより、一組となっているオーディオ符号化データとビデオ符号化データをもってデコードを始めれば、同期ずれが発生した場合でも、必ず音声が遅れる方向で、最大でも２４ｍｓｅｃの遅れとなる。これは、人間が映像と音声の同期ずれを検知できる能力以下であり、同期がずれていることに気がつかない程度のものである。よって、実施の形態２によるディジタル信号符号化・復号装置を用いれば、簡単な回路構成でありながら、データの途中から読み出した場合でも映像信号と音声信号のほとんど同期の合った復号信号を得ることができる。

なお、実施の形態２ではディジタル記録媒体に記録されたビデオ符号化データとオーディオ符号化データの復号を同期ずれを起こすことなく行なう装置について説明したが、記録されるデータはこれに限るものではない。例えば、様々な楽器からの音声信号や、ボーカルの音声信号を個別に符号化し、同期再生を行なってもよい。

また、実施の形態２では符号化多重データをディジタル蓄積メディアから読み出す構成について説明したが、これ限るものではない。例えば、ケーブルテレビ等の通信メディアから符号化多重データを読み出してもよい。

さらに、実施の形態２では、符号化多重データからのビデオ符号化データとオーディオ符号化データの切り分けをマイクロコンピュータの外部のマルチプレクサを用いて行なう構成を説明したが、同一のマイクロコンピュータ内で切り分けを行なってもよい。

実施の形態３．
次に、実施の形態２に示したディジタル情報符号化・復号装置において、符号化多重データの途中から読み出しても映像と音声の同期がほとんどあった復号信号が得られる機能を組み入れた場合について説明する。

なお、ディジタル情報符号化装置は、図１に示した実施の形態１のディジタル情報符号化装置と同じものを用いるものとする。

図９は、実施の形態３によるディジタル情報復号装置の構成を示すブロック図である。図９を実施の形態１の図５と比べると、ビデオデコーダ１４が改良型ビデオデコーダ２２になっている以外は図５と同じである。

ここで、改良型ビデオデコーダ２２の動作について説明する。簡易型デマルチプレクサで分割されビデオバッファ１２、ビデオ切り換え器１３を通って改良型ビデオデコーダ２２に入力されるデータは図７に示すようなビデオ符号化データである。改良型ビデオデコーダ２２は、図７で示されるデータの中で、シーケンスヘッダをスタートコードとして、シーケンスヘッダを入力されることによりデコードを開始する。すなわち、ビデオ符号化データの途中からのデータを受け取った場合、最初にシーケンスヘッダを探し、シーケンスヘッダを見つけた後にそれに続くデータのデコードを開始する。

ここで、以上に示したディジタル情報符号化・復号装置を用いて、ディジタル蓄積メディア８の途中の位置からデータを読み出した場合の動作について説明する。

図８において、ビデオ符号化データの途中であるＢ点からデータを読み出した場合を考える。このときには、途中から読み出されたビデオ符号化データは、パックヘッダ・パケットヘッダが無いため、簡易型デマルチプレクサ１１でビデオ符号化データともオーディオ符号化データとも判断されず、破棄される。次に、パックヘッダ・パケットヘッダを伴っているビデオ符号化データは、デマルチプレクサ１１によってビデオバッファ１２に出力される。

それ以降、正常に読み出されたオーディオ符号化データおよびビデオ符号化データは、順次、オーディオバッファ１６およびビデオバッファ１２に出力される。

マイクロコンピュータ２０では、ビデオバッファ１２のデータ蓄積量を常に監視しており、ビデオバッファ１２のデータ蓄積量があらかじめ定めた閾値以上になると、ビデオ切り換え部を閉じて、ビデオ符号化データをビデオバッファ１２から改良型ビデオデコーダ２２に出力する。

改良型ビデオデコーダ２２には、最初に図８に示すビデオ符号化データの中で、１つめのＧＯＰのデータの一部が入力される。ここで、改良型ビデオデコーダ２２は、シーケンスヘッダをスタートコードとしてデコードをスタートするようになっている。そのため、最初に入力されたビデオ符号化データにはシーケンスヘッダが無いため、シーケンスヘッダが入力されるまでビデオ符号化データを読み飛ばし、デコードを行わない。そして、次に表われる第２シーケンスヘッダが入力されたときに、それに続くビデオ符号化データのデコードを開始する。すなわち、改良型ビデオデコーダ２２では、ビデオ符号化データの途中からのデータが入力された場合、次のＧＯＰの先頭からデコードを開始する。

オーディオ符号化データは、ビデオ符号化データの２番目のＧＯＰデータと時刻がほぼ一致するデータから正常に読み出されることになる。改良型ビデオデコーダ２２がデコードを開始すると同時にオーディオデコーダ１８もデコードを開始する。その結果、対になった２番目のオーディオ符号化データとビデオ符号化データから読み出されたのと同じ状態になる。

この場合、図６に示すように、対になったオーディオ符号化データとビデオ符号化データは、オーディオ符号化データの１フレーム分以下の時間、すなわち２４ｍｓｅｃ以下のずれでオーディオ符号化データが時間的に先行したものとなっている。そのため、これらのデータを同時にデコードを開始すると、２４ｍｓｅｃ以下の同期ずれでオーディオ信号出力が遅れたものになる。２４ｍｓｅｃいかのオーディオ信号出力の遅れは、検知限界以下であり、同期ずれは分からない。以上のことから、同期ずれの分からない再生信号が得られることになる。

以上で示したように、実施の形態３によれば、符号化多重データを途中から読み出し、映像と音声の同期のあった復号化信号を得ようとするとき、対になったオーディオ符号化データとビデオ符号化データの先頭から正確に読み出す必要はなく、オーディオ符号化データとビデオ符号化データの先頭の大体の位置が分かっていれば、その位置の少し前の適当な位置から読み出せばよい。

なお、実施の形態３では改良型ビデオデコーダ２２はシーケンスヘッダをスタートコードとしてデコードスタートすると説明したが、これに限るものではなく、シーケンスヘッダをＧＯＰヘッダ、ピクチャヘッダに置き換えてもよい。

また、実施の形態３ではディジタル記録媒体に記録されたビデオ符号化データとオーディオ符号化データの復号を同期ずれを起こすことなく行なう装置について説明したが、記録されるデータはこれに限るものではない。例えば、様々な楽器からの音声信号や、ボーカルの音声信号を個別に符号化し、同期再生を行なってもよい。

また、実施の形態３では符号化多重データをディジタル蓄積メディアから読み出す構成について説明したが、これ限るものではない。例えば、ケーブルテレビ等の通信メディアから符号化多重データを読み出してもよい。

さらに、実施の形態３では、符号化多重データからのビデオ符号化データとオーディオ符号化データの切り分けをマイクロコンピュータの外部のマルチプレクサを用いて行なう構成を説明したが、同一のマイクロコンピュータ内で切り分けを行なってもよい。

実施の形態４．
次に、実施の形態３に示したディジタル情報符号化・復号装置において、符号化多重データの任意の位置から読み出しても映像と音声の同期がとれる機能を組み入れた場合について説明する。

なお、ディジタル情報復号装置は、図９に示した実施の形態３のディジタル情報復号装置と同じものを用いるものとする。

図１０は、実施の形態４によるディジタル情報符号化装置の構成を示すブロック図である。図１０を実施の形態１の図１と比べると、簡易型マルチプレクサ７が改良型マルチプレクサ２１になっている以外は図１と同じである。

ここで、改良型マルチプレクサ２１の動作は、図６に示すビデオ符号化データおよびオーディオ符号化データの分割、図７に示すビデオ符号化データの構成、図４に示すパックヘッダおよびパケットヘッダの構成については、実施の形態３の図１に示した簡易型マルチプレクサ７と同じである。ただし、パケットヘッダに続くデータの構成が簡易型マルチプレクサ７とは異なる。改良型マルチプレクサ２１が作成するデータの構成について図１１を用いて説明する。

ここで、最初に出力される１ＧＯＰ分のビデオ符号化データについては、図７に示したシーケンスヘッダで始まり、ＧＯＰヘッダ、１５個分のピクチャデータが続き、最後に次のＧＯＰのシーケンスヘッダまでを含むものとする。そして、２つ目以降に出力される１ＧＯＰ分のビデオ符号化データでは、ＧＯＰヘッダで始まり、１５個分のピクチャデータが続き、最後に次のＧＯＰのシーケンスヘッダまでを含むものとする。

ここで、以上に示したディジタル情報符号化・復号装置を用いて、ディジタル蓄積メディア８の途中の任意の位置からデータを読み出した場合の動作について説明する。

図１１において、実施の形態３と同じビデオ符号化データの途中であるＢ点からデータを読み出した場合を考える。この時には、第２シーケンスヘッダが読み出されるため、実施の形態３と同様に、２つめのＧＯＰから映像と音声の同期がほとんどあった復号信号を得ることができる。

次に、図１１において、オーディオ符号化データの途中であるＣ点からデータを読み出した場合を考える。そのときには、途中から読み出されたオーディオデータはパックヘッダ・パケットヘッダが読み込まれていないため、簡易型デマルチプレクサ１１でビデオ符号化データでもオーディオ符号化データでもないデータとして、破棄される。

次に、ビデオ符号化データが読み込まれ、簡易型デマルチプレクサ１１によってビデオバッファ１２に送られ、それに続くオーディオ符号化データ・ビデオ符号化データが順次簡易型デマルチプレクサ１１によってオーディオバッファ１６とビデオバッファ１２に送られる。

改良型ビデオデコーダ２２では、最初に図１１に示す第２ＧＯＰヘッダで始まる一連のデータを読み込む。しかし、シーケンスヘッダが無いために、シーケンスヘッダが現れるまでビデオ符号化データを読み飛ばし、デコードを行わない。そして、次に現れる第３シーケンスヘッダを受け取ったときに、それに続くビデオ符号化データのデコードを開始する。すなわち、改良型ビデオデコーダ２２では、３番目のＧＯＰデータからデコードを始めることになる。

オーディオ符号化データは、ビデオ符号化データの３番目のＧＯＰデータと時刻が一致するデータから正常に読み出されることになる。改良型ビデオデコーダ２２がデコードを開始すると同時にオーディオデコーダ１８もデコードを開始する。その結果、対になった３番目のオーディオ符号化データとビデオ符号化データから読み出されたのと同じ状態になる。この場合、図６に示すように、対になったオーディオ符号化データとビデオ符号化データは、オーディオ符号化データの１フレーム分以下の時間、すなわち２４ｍｓｅｃ以下のずれでオーディオ符号化データが時間的に先行したものとなっている。そのため、これらのデータを同時にデコードを開始すると、２４ｍｓｅｃ以下の同期ずれでオーディオ信号出力が遅れたものになる。２４ｍｓｅｃ以下のオーディオ信号出力の遅れは、検知限界以下であり、同期ずれは分からない。以上のことから、同期ずれの分からない再生信号が得られることになる。

以上のように、実施の形態４のディジタル情報符号化・復号装置によれば、簡単な回路構成で、ディジタル蓄積メディア８の任意の位置から読み出しても映像と音声の同期ずれがほとんど無い復号信号を得ることができる。

なお、実施の形態４では改良型ビデオデコーダ２２はシーケンスヘッダをスタートコードとしてデコードスタートすると説明したが、これに限るものではなく、シーケンスヘッダをＧＯＰヘッダ、ピクチャヘッダに置き換えてもよい。

また、実施の形態４ではディジタル記録媒体に記録されたビデオ符号化データとオーディオ符号化データの復号を同期ずれを起こすことなく行なう装置について説明したが、記録されるデータはこれに限るものではない。例えば、様々な楽器からの音声信号や、ボーカルの音声信号を個別に符号化し、同期再生を行なってもよい。

また、実施の形態４では符号化多重データをディジタル蓄積メディアから読み出す構成について説明したが、これ限るものではない。例えば、ケーブルテレビ等の通信メディアから符号化多重データを読み出してもよい。

さらに、実施の形態４では、符号化多重データからのビデオ符号化データとオーディオ符号化データの切り分けをマイクロコンピュータの外部のマルチプレクサを用いて行なう構成を説明したが、同一のマイクロコンピュータ内で切り分けを行なってもよい。

実施の形態５．
次に、実施の形態４に示したディジタル情報符号化・復号装置において、デマルチプレクサを改良した例について説明する。なお、ディジタル情報符号化装置は、図１０に示した実施の形態４のディジタル情報符号化装置を用いることとする。

図１２は、実施の形態５によるディジタル情報復号装置の構成を示すブロック図である。図１２を実施の形態４の図９と比べると、簡易型デマルチプレクサ１１が改良型デマルチプレクサ２３になっている以外は図９と同じである。

ここで、改良型デマルチプレクサ２３の動作について説明する。改良型デマルチプレクサ２３には、実施の形態４と同じように図１１に示されるような符号化多重データが入力される。図１１で示したような多重化構造の場合、符号化オーディオデータが含まれているデータのパックヘッダの先頭、すなわちＤ点から読み出した場合、最初に読み出されるオーディオ符号化データはデコードされるが、それに続くビデオ符号化データはシーケンスヘッダが無いためにデコードされず、その結果、復号信号における映像信号と音声信号の同期が１ＧＯＰ分ずれてしまうという現象が起こってしまう。

そのため、実施の形態５では、改良型デマルチプレクサ２３の動作を図１３のフローチャートで示されるようなものにする。まず、読み出し開始時にビデオ符号化データが入力された場合、通常の動作をすることにより映像信号と音声信号の同期のとれた復号信号を得ることができる。次に、読み出し開始時にオーディオ符号化データが入力された場合、すなわち、符号化多重データの先頭から読み出すか、またはＤ点から読み出した場合は、入力されたオーディオ符号化データをオーディオバッファ１６に出力した後、入力されるビデオ符号化データの先頭を確認し、シーケンスヘッダが存在した場合、すなわち符号化多重データの先頭から読み出していると確認できた場合は通常の処理を行なう。シーケンスヘッダが存在しなかった場合は、Ｄ点から読み出したものと判断し、オーディオバッファ１６に対して現在保持しているデータをすべて破棄するように指示する。以上の処理により、符号化多重データのどの位置から読み出しても、同期のあった復号信号を得ることができる。

また、オーディオバッファ１６に対して現在保持しているデータを破棄するように指示するという処理は、改良型デマルチプレクサ２３がオーディオバッファ１６にオーディオ符号化データを出力しないという処理に置き換えることもできる。

以上のように、実施の形態５のディジタル情報符号化・復号装置によれば、簡単な回路構成で、ディジタル蓄積メディア８の任意の位置から読み出しても同期ずれの無い再生信号が得られる。

なお、実施の形態５では改良型ビデオデコーダ２２はシーケンスヘッダをスタートコードとしてデコードスタートすると説明したが、これに限るものではなく、シーケンスヘッダをＧＯＰヘッダ、ピクチャヘッダに置き換えてもよい。

また、実施の形態５ではディジタル記録媒体に記録されたビデオ符号化データとオーディオ符号化データの復号を、同期ずれを起こすことなく行なう装置について説明したが、記録されるデータはこれに限るものではない。例えば、様々な楽器からの音声信号や、ボーカルの音声信号を個別に符号化し、同期再生を行なってもよい。

また、実施の形態５では符号化多重データをディジタル蓄積メディアから読み出す構成について説明したが、これ限るものではない。例えば、ケーブルテレビ等の通信メディアから符号化多重データを読み出してもよい。

また、実施の形態５では、符号化多重データからのビデオ符号化データとオーディオ符号化データの切り分けを、マイクロコンピュータの外部のマルチプレクサを用いて行なう構成を説明したが、同一のマイクロコンピュータ内で切り分けを行なってもよい。

さらに、実施の形態５では、オーディオ符号化データを破棄する一連の処理を、マイクロコンピュータの外部の改良型デマルチプレクサで行なう構成を説明したが、同一のマイクロコンピュータ内で行なってもよい。

実施の形態１〜３によるディジタル情報符号化装置の構成を示すブロック図である。実施の形態１によるビデオ符号化データとオーディオ符号化データの分割の様子を説明するための図である。実施の形態１による符号化多重データの構成を示す図である。実施の形態１，２および４によるパックヘッダおよびパケットヘッダの構成を示す図である。実施の形態１および２によるディジタル情報復号装置の構成を示すブロック図である。実施の形態２〜４によるビデオ符号化データとオーディオ符号化データの分割の様子を説明するための図である。実施の形態２〜４によるビデオ符号化データの構成を示す図である。実施の形態２〜４による符号化多重データの構成を示す図である。実施の形態３および４によるディジタル情報復号装置の構成を示すブロック図である。実施の形態４および５によるディジタル情報符号化装置の構成を示すブロック図である。実施の形態４および５による符号化多重データの構成を示す図である。実施の形態５によるディジタル情報符号化装置の構成を示すブロック図である。実施の形態５によるデマルチプレクサの初期動作を説明するフローチャートである。従来例における符号化多重データの構成を示す図である。従来例における符号化装置の構成を示すブロック図である。従来例における復号装置の構成を示すブロック図である。

符号の説明

１ビデオＡ／Ｄ変換器、２ビデオエンコーダ、３ビデオバッファ、４オーディオＡ／Ｄ変換器、５オーディオエンコーダ、６オーディオバッファ、７簡易型マルチプレクサ、８ディジタル蓄積メディア、９バッファ、１０切り換え器、１１簡易型デマルチプレクサ、１２ビデオバッファ、１３ビデオ切り換え器、１４ビデオデコーダ、１５ビデオＤ／Ａ変換器、１６オーディオバッファ、１７オーディオ切り換え器、１８オーディオデコーダ、１９オーディオＤ／Ａ変換器、２０マイクロコンピュータ、２１改良型マルチプレクサ、２２改良型ビデオデコーダ。

Claims

オーディオ符号化データ列を、ビデオ符号化データ列の分割箇所と同じ時刻か、あるいは、映像と音声の同期ずれが、人間の検知できない程度の時間差だけ前記ビデオ符号化データ列の分割箇所よりも早い時刻で分割し、上記オーディオ符号化データ列を同じ時刻の上記ビデオ符号化データ列より先に配列し、分割された上記ビデオ符号化データ列の先頭にスタートコードを挿入する符号化多重データを作成するマルチプレクサと、
上記ビデオ符号化データ列中の上記スタートコードを受け取ることによりデコードを開始するビデオデコーダと、
上記ビデオデコーダのデコード開始と同時にデコードを開始するオーディオデコーダと
を備えたことを特徴とするディジタル情報符号化・復号装置。
オーディオ符号化データ列を、ビデオ符号化データ列の分割箇所と同じ時刻か、あるいは、映像と音声の同期ずれが、人間の検知できない程度の時間差だけ前記ビデオ符号化データ列の分割箇所よりも早い時刻で分割し、上記オーディオ符号化データ列を同じ時刻の上記ビデオ符号化データ列より先に配列し、分割された上記ビデオ符号化データ列のスタートコードを同じ時刻のオーディオ符号化データ列の直前に挿入する符号化多重データを作成するマルチプレクサと、
上記ビデオ符号化データ列中の上記スタートコードを受け取ることによりデコードを開始するビデオデコーダと、
上記ビデオデコーダのデコード開始と同時にデコードを開始するオーディオデコーダと
を備えたことを特徴とするディジタル情報符号化・復号装置。
オーディオ符号化データ列を、ビデオ符号化データ列の分割箇所と同じ時刻か、あるいは、映像と音声の同期ずれが、人間の検知できない程度の時間差だけ前記ビデオ符号化データ列の分割箇所よりも早い時刻で分割し、上記オーディオ符号化データ列を同じ時刻の上記ビデオ符号化データ列より先に配列し、分割された上記ビデオ符号化データ列のスタートコードを同じ時刻のオーディオ符号化データ列の直前に挿入する符号化多重データを作成するマルチプレクサと、
最初に上記オーディオ符号化データ列が入力され、その直後の上記ビデオ符号化データ列の先頭に上記スタートコードが存在しないときに、最初に入力された上記オーディオ符号化データ列を破棄するデマルチプレクサと、
上記ビデオ符号化データ列中の上記スタートコードを受け取ることによりデコードを開始するビデオデコーダと、
上記ビデオデコーダのデコード開始と同時にデコードを開始するオーディオデコーダと
を備えたことを特徴とするディジタル情報符号化・復号装置。