JP2011253045A

JP2011253045A - 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム

Info

Publication number: JP2011253045A
Application number: JP2010126780A
Authority: JP
Inventors: Shiro Suzuki; 志朗鈴木; Yuki Matsumura; 祐樹松村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-06-02
Filing date: 2010-06-02
Publication date: 2011-12-15
Also published as: US20110301960A1; US8849677B2; CN102270455A

Abstract

【課題】補間用データのビットレートを低減する。
【解決手段】ビットストリームは、本来復号されるべきデータB2[J]と、データB2[J+1]にエラーまたは欠落が発生した場合に代用されるデータD[J+1]により構成される。また、データB2[J]は、エンベロープF2[J]および量子化精度情報P3[J]、並びに、それらを用いて符号化が行われた結果得られる符号スペクトルH3[J]により構成される。データD[J+1]は、量子化精度情報P2[J+1]と、データB2[J]と共通のエンベロープF2[J]および量子化精度情報P2[J+1]を用いて符号化が行われた結果得られる符号スペクトルH2[J+1]により構成される。本発明は、例えば、音声データの符号化装置や復号装置に適用することができる。
【選択図】図１２

Description

本発明は、符号化装置および符号化方法、復号装置および復号方法、並びにプログラムに関し、特に、補間用データのビットレートを低減することができるようにした符号化装置および符号化方法、復号装置および復号方法、並びにプログラムに関する。

音声信号の符号化方法としては、一般的に、MP3（Moving Picture Experts Group Audio Layer-3）,AAC（Advanced Audio Coding）,ATRAC（Adaptive Transform Acoustic Coding）といった変換符号化方法がよく知られている。

図１は、音声信号を符号化する符号化装置の構成例を示すブロック図である。

図１の符号化装置１０は、MDCT（Modified Discrete Cosine Transform）部１１、正規化部１２、量子化部１３、符号化部１４、および多重化部１５により構成される。

符号化装置１０のMDCT部１１には、所定のチャンネルの音声のPCM（Pulse Code Modulation）信号Tが、フレームと呼ばれる一定区間毎にPCM信号T[J]として入力される。なお、Jはフレームのインデックスを表している。

MDCT部１１は、時間領域信号であるPCM信号T[J]に対して窓関数W[J]を窓掛けし、その結果得られるPCM信号[J]に対してMDCTを行い、周波数領域信号であるスペクトルS[J]を得る。MDCT部１１は、スペクトルS[J]を正規化部１２に供給する。

正規化部１２は、スペクトルS[J]からエンベロープF[J]を抽出し、多重化部１５に供給する。また、正規化部１２は、エンベロープF[J]を用いてスペクトルS[J]を正規化し、その結果得られる正規化スペクトルN[J]を量子化部１３に供給する。

量子化部１３は、所定のアルゴリズムによって決定された量子化精度情報P[J]に基づき、正規化部１２から供給される正規化スペクトルN[J]を量子化し、その結果得られる量子化スペクトルQ[J]を符号化部１４に供給する。また、量子化部１３は、量子化精度情報P[J]を多重化部１５に供給する。なお、量子化精度情報P[J]を決定するための所定のアルゴリズムとしては、例えば既に一般的に知られているものを用いることができる。

符号化部１４は、量子化部１３から供給される量子化スペクトルQ[J]を符号化し、その結果得られる符号スペクトルH[J]を多重化部１５に供給する。

多重化部１５は、正規化部１２から供給されるエンベロープF[J]、量子化部１３から供給される量子化精度情報P[J]、および符号化部１４から供給される符号スペクトルH[J]を多重化してビットストリームB[J]を生成する。多重化部１５は、そのビットストリームB[J]を符号化結果として出力する。

図２は、図１の符号化装置１０による符号化結果を復号する復号装置の構成例を示すブロック図である。

図２の復号装置２０は、分解部２１、復号化部２２、逆量子化部２３、逆正規化部２４、および逆MDCT部２５により構成される。

復号装置２０の分解部２１には、図１の符号化装置１０による符号化結果であるビットストリームB[J]が入力される。

分解部２１は、ビットストリームB[J]から、エンベロープF[J]と量子化精度情報P[J]を分解する。また、分解部２１は、量子化精度情報P[J]に基づいて、ビットストリームB[J]から符号スペクトルH[J]を分解する。分解部２１は、エンベロープF[J]を逆正規化部２４に供給し、量子化精度情報P[J]を逆量子化部２３に供給する。また、分解部２１は、符号スペクトルH[J]を復号化部２２に供給する。

復号化部２２は、分解部２１から供給される符号スペクトルH[J]を復号し、その結果得られる量子化スペクトルQ[J]を逆量子化部２３に供給する。

逆量子化部２３は、復号化部２２から供給される量子化スペクトルQ[J]を、分解部２１から供給される量子化精度情報P[J]に基づいて逆量子化し、その結果得られる正規化スペクトルN[J]を逆正規化部２４に供給する。

逆正規化部２４は、逆量子化部２３から供給される正規化スペクトルN[J]を、分解部２１から供給されるエンベロープF[J]を用いて逆正規化し、その結果得られるスペクトルS[J]を逆MDCT部２５に供給する。

逆MDCT部２５は、逆正規化部２４から供給される周波数領域信号であるスペクトルS[J]に対して逆MDCTを行い、その結果得られる時間領域信号を窓関数W[J]に基づいて足し合わせ、音声のPCM信号T’[J]を得る。逆MDCT部２５は、PCM信号T’[J]を音声信号として出力する。

以上のように、符号化装置１０は、フレームごとにビットストリームB[J]を符号化して出力し、復号装置２０は、フレームごとのビットストリームB[J]を復号する。このように、符号化装置１０および復号装置２０において、処理単位はフレームである。

図３は、PCM信号T[J]とビットストリームB[J]を説明する図である。

図３Ａに示すように、PCM信号Tは時間領域信号である。なお、図３Ａにおいて、横軸は時刻ｔを表し、縦軸はPCM信号のレベルを表している。

符号化装置１０は、フレームごとに区切られたPCM信号T[J]に対して窓関数W[J]を窓掛けする。なお、この窓関数W[J]は、図３Ｂに示すように、前半区間が、１つ前のフレームの窓関数W[J-1]の後半区間と重なり、窓関数W[J]の後半区間は１つ後ろのフレームの窓関数W[J+1]の前半区間と重なるように設定される。図３の例では、窓関数W[J-1]の区間は、時刻t0（t0<t1）から時刻t2（t2>t1）までの区間となっており、窓関数W[J]の区間は、時刻t1から時刻t3（t3>t2）までの区間となっている。また、窓関数W[J+1]の区間は、時刻t2から時刻t4（t4>t3）までの区間となっている。

符号化装置１０は、窓関数W[J-1]乃至W[J+1]で窓掛けされることにより得られたPCM信号T[J-1]乃至T[J+1]に対して、MDCT変換、符号化等を行い、図３Ｂに示すようなビットストリームB[J-1]乃至B[J+1]を符号化結果として出力する。

復号装置２０は、このビットストリームB[J-1]乃至B[J+1]に対して復号化、逆MDCT変換等を行い、窓関数W[J-1]乃至W[J+1]の区間の時間領域信号を得る。そして、復号装置２０は、窓関数W[J-1]の区間の時間領域信号の後半区間（図３の例では、時刻t1から時刻t2までの区間）と、窓関数W[J]の区間の時間領域信号の前半区間（図３の例では、時刻t1から時刻t2までの区間）を加算し、PCM信号T’[J]を得る。また、復号装置２０は、窓関数W[J]の区間の時間領域信号の後半区間（図３の例では、時刻t2から時刻t3までの区間）と、窓関数W[J+1]の区間の時間領域信号の前半区間（図３の例では、時刻t2から時刻t3までの区間）を加算し、PCM信号T’[J+1]を得る。

なお、符号化装置１０はMDCTを行うので、図３において窓関数W[J]の前後の重なり区間は、それぞれ全区間の50%となっているが、符号化装置１０がMDCTではなくDFT（Discrete Fourier Transform）を行う場合には、重なり区間は全区間の50%でなくてもよい。また、窓掛けは、符号化装置１０または復号装置２０のいずれか一方でのみ行うようにしてもよい。

ところで、あるフレームのビットストリームが符号化および復号化の手順において欠落すると、そのフレームのPCM信号が欠落し、聴覚的なノイズが発生することがある。この場合について、図４を参照して説明する。なお、図４Ａは、図３Ａと同様であるので、説明は省略する。

図４Ｂに示すように、復号装置２０において、ビットストリームB[J]が欠落した場合、ビットストリームB[J]に対して符号化、逆MDCT変換等が行われることにより得られるはずの窓関数W[J]の区間の時間領域信号が得られない。

その結果、窓関数W[J]の前半区間の時間領域信号を用いて生成されるPCM信号T’[J]と、窓関数W[J]の後半区間の時間領域信号を用いて生成されるPCM信号T’[J+1]を得ることができない。

従って、例えば、図４Ｂに示すように、PCM信号T’[J]とPCM信号T’[J+1]をゼロの信号で補間することが考えられる。しかしながら、この場合、時刻ｔ1から時刻t3までの区間でPCM信号が不連続となるため、この区間のPCM信号に対応する音声が出力されると、ブチブチというノイズ音が聞こえる。

そこで、欠落によって得られないフレームのPCM信号T’[J]を、ゼロの信号ではなく、そのPCM信号T[J]の生成に用いられる予定であった欠落していない時間領域信号で補間する方法が考えられる。この方法について、図５を参照して説明する。なお、図５Ａは、図３Ａと同様であるので、説明は省略する。

上述した方法によれば、図５Ｂに示すように、復号装置２０において、ビットストリームB[J]が欠落した場合、PCM信号T’[J]は、そのPCM信号T’[J]の生成に用いられる予定であった欠落していない窓関数W[J-1]の後半区間の時間領域信号で補間される。また、PCM信号T’[J+1]は、そのPCM信号T’[J+1]の生成に用いられる予定であった欠落していない窓関数W[J+1]の前半区間の時間領域信号で補間される。

この方法によれば、時刻ｔ1から時刻t3までの区間でPCM信号の不連続は発生しない。しかしながら、補間に用いられる窓関数W[J-1]の後半区間の時間領域信号および窓関数W[J+1]の前半区間の時間領域信号が、本来のPCM信号T’[J]およびPCM信号T’[J+1]とは大きく異なる場合がある。この場合、時刻ｔ1から時刻t3までの区間のPCM信号に対応する音声が出力されると、やはり、ブチブチというノイズ音が聞こえることがある。

そこで、このノイズを抑制するため、復号側で所定のフレームのビットストリームが欠落している場合に、符号化側で、そのフレームのビットストリームを再送する方法が考案されている（例えば、特許文献１参照）。しかしながら、この方法では、再送されてくるビットストリームが時間的に間に合わない場合がある。

また、符号化側で各フレームのビットストリームを複数の方法で伝送し、復号側で所定の方法で伝送されたフレームのビットストリームが欠落している場合に、そのフレームの他の方法で伝送されたビットストリームを代用する方法も考案されている（例えば、特許文献２参照）。

図６は、この方法を用いた符号化装置の構成例を示すブロック図である。

なお、図６に示す構成のうち、図１の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図６の符号化装置３０の構成は、主に、正規化部３１、量子化部３２、符号化部３３、および多重化部３４が新たに設けられている点が図１の構成と異なる。

正規化部３１、量子化部３２、符号化部３３、および多重化部３４は、それぞれ、正規化部１２、量子化部１３、符号化部１４、および多重化部１５と同様に、スペクトルS[J]からビットストリームC[J]を生成する。

但し、ビットストリームC[J]は、ビットストリームB[J]が欠落した場合に代用される予備的なビットストリームであるため、図７に示すように、ビットストリームC[J]のビットレートは、ビットストリームB[J]のビットレートより小さくなるように、ビットストリームB[J]とは異なる符号化方式で符号化される。従って、ビットストリームC[J]の復号結果に対応する音声の音質は、ビットストリームB[J]の復号結果に対応する音声に比べて良くない。

符号化装置３０では、以上のようにして生成されたビットストリームC[J]と、符号化装置１０と同様に生成されたビットストリームB[J]が、別の伝送路で伝送される。

図８は、図６の符号化装置３０による符号化結果を復号する復号装置の構成例を示すブロック図である。

図８の復号装置５０の分解部５１、復号化部５２、逆量子化部５３、および逆正規化部５４は、基本的に、図２の分解部２１、復号化部２２、逆量子化部２３、および逆正規化部２４と同様に構成されるが、ビットストリームB[J]の欠落を検出する点が異なっている。なお、ビットストリームB[J]の欠落は、ビットストリームB[J]が伝送路においてなんらかの問題で欠落した場合や、受信されたビットストリームB1[J]にエラーが発生している場合に検出され、その欠落の検出結果E[J]は、各部からスイッチ５９に供給される。また、分解部５１、復号化部５２、逆量子化部５３、および逆正規化部５４により、ビットストリームB[J]から生成されたスペクトルS[J]は、スイッチ５９に供給される。

また、復号装置５０の分解部５５、復号化部５６、逆量子化部５７、および逆正規化部５８は、処理の対象がビットストリームC[J]である点および復号方式が異なる点を除いて、図２の分解部２１、復号化部２２、逆量子化部２３、および逆正規化部５４と同様である。分解部５５、復号化部５６、逆量子化部５７、および逆正規化部５８は、ビットストリームC[J]を復号してスペクトルS1[J]を生成し、スイッチ５９に供給する。

スイッチ５９は、検出結果E[J]に基づいて、ビットストリームB[J]が欠落している場合、逆正規化部５８から供給されるスペクトルS1[J]を選択し、逆MDCT部６０に供給する。一方、スイッチ５９は、検出結果E[J]に基づいて、ビットストリームB[J]が欠落していない場合、逆正規化部５４から供給されるスペクトルS[J]を選択し、逆MDCT部６０に供給する。

逆MDCT部６０は、スイッチ５９から供給される周波数領域信号であるスペクトルS1[J]またはスペクトルS[J]に対して逆MDCTを行う。そして、逆MDCT部６０は、その結果得られる時間領域信号を窓関数W[J]に基づいて足し合わせ、音声のPCM信号T’1[J]を得る。逆MDCT部６０は、PCM信号T’1[J]を音声信号として出力する。

以上のように構成される復号装置５０において、ビットストリームB[J]が欠落した場合について図９を参照して説明する。

図９に示すように、ビットストリームB[J]が欠落した場合、そのビットストリームB[J]から生成されるべきスペクトルS[J]を、ビットストリームC[J]から生成されるスペクトルS1[J]で補間する。これにより、窓関数W[J]の全区間の時間領域信号を得ることができ、その時間領域信号を用いてPCM信号T’1[J]とPCM信号T’1[J+1]を得ることができる。

なお、ビットストリームC[J]に対応する音声の音質は、ビットストリームB[J]に比べて良くないが、ビットストリームB[J]の欠落により音質が劣化した音声に比べれば、遥かに良いと言える。

特許第３９９４３８８号公報特許願４０１６７０９号公報

しかしながら、特許文献２に記載されている方法では、ビットレートが高くなる。具体的には、例えば、図６の符号化装置３０から出力されるビットストリームは、ビットストリームB[J]とビットストリームC[J]を加算したものであるので、符号化装置３０のビットレートは、符号化装置１０のビットレートに比べて高くなる。従って、補間用のビットストリームC[J]のビットレートを低減することが求められている。

本発明は、このような状況に鑑みてなされたものであり、補間用データのビットレートを低減することができるようにするものである。

本発明の第１の側面の符号化装置は、フレーム単位のオーディオ信号である第１のオーディオ信号の第１の符号化に用いられる情報である第１の符号化情報と、前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号の第２の符号化に用いられる情報である第２の符号化情報を、前記第１の符号化情報と前記第２の符号化情報の少なくとも一部が共通するように生成し、前記第２のオーディオ信号の前記第１の符号化に用いられる情報である第３の符号化情報と、前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号の前記第２の符号化に用いられる情報である第４の符号化情報を、前記第３の符号化情報と前記第４の符号化情報の少なくとも一部が共通するように生成する生成手段と、前記第１の符号化情報を用いて前記第１のオーディオ信号に対して前記第１の符号化を行うことにより第１のデータを生成し、前記第３の符号化情報を用いて前記第２のオーディオ信号に対して前記第１の符号化を行うことにより第２のデータを生成する第１の符号化手段と、前記第２の符号化情報を用いて前記第２のオーディオ信号に対して前記第２の符号化を行うことにより第３のデータを生成し、前記第４の符号化情報を用いて前記第３のオーディオ信号に対して前記第２の符号化を行うことにより第４のデータを生成する第２の符号化手段と、前記第１のデータ、前記第１の符号化情報、前記第３のデータ、および、前記第２の符号化情報のうちの前記第１の符号化情報と共通する部分以外の情報を多重化して前記第１のオーディオ信号のストリームを生成し、前記第２のデータ、前記第３の符号化情報、前記第４のデータ、および、前記第４の符号化情報のうちの前記第３の符号化情報と共通する部分以外の情報を多重化して前記第２のオーディオ信号のストリームを生成する多重化手段とを備え、前記第３のデータは、前記第１のオーディオ信号および前記第２のオーディオ信号のストリームを復号する復号装置において、前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合に、その第２のオーディオ信号のストリームに含まれる前記第２のデータの代わりに復号される符号化装置である。

本発明の第１の側面の符号化方法およびプログラムは、本発明の第１の側面の符号化装置に対応する。

本発明の第１の側面においては、フレーム単位のオーディオ信号である第１のオーディオ信号の第１の符号化に用いられる情報である第１の符号化情報と、前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号の第２の符号化に用いられる情報である第２の符号化情報が、前記第１の符号化情報と前記第２の符号化情報の少なくとも一部が共通するように生成され、前記第２のオーディオ信号の前記第１の符号化に用いられる情報である第３の符号化情報と、前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号の前記第２の符号化に用いられる情報である第４の符号化情報が、前記第３の符号化情報と前記第４の符号化情報の少なくとも一部が共通するように生成され、前記第１の符号化情報を用いて前記第１のオーディオ信号に対して前記第１の符号化が行われることにより第１のデータが生成され、前記第３の符号化情報を用いて前記第２のオーディオ信号に対して前記第１の符号化が行われることにより第２のデータが生成され、前記第２の符号化情報を用いて前記第２のオーディオ信号に対して前記第２の符号化が行われることにより第３のデータが生成され、前記第４の符号化情報を用いて前記第３のオーディオ信号に対して前記第２の符号化が行われることにより第４のデータが生成され、前記第１のデータ、前記第１の符号化情報、前記第３のデータ、および、前記第２の符号化情報のうちの前記第１の符号化情報と共通する部分以外の情報が多重化されて前記第１のオーディオ信号のストリームが生成され、前記第２のデータ、前記第３の符号化情報、前記第４のデータ、および、前記第４の符号化情報のうちの前記第３の符号化情報と共通する部分以外の情報が多重化されて前記第２のオーディオ信号のストリームが生成される。なお、前記第３のデータは、前記第１のオーディオ信号および前記第２のオーディオ信号のストリームを復号する復号装置において、前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合に、その第２のオーディオ信号のストリームに含まれる前記第２のデータの代わりに復号されるものである。

本発明の第２の側面の復号装置は、第１の符号化情報を用いてフレーム単位のオーディオ信号である第１のオーディオ信号に対して第１の符号化が行われた結果得られる第１のデータ、前記第１の符号化情報、前記第１の符号化情報と少なくとも一部が共通する第２の符号化情報を用いて前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号に対して第２の符号化が行われた結果得られる第２のデータ、および前記第２の符号化情報のうちの前記第１の符号化情報と共通する部分以外の情報を多重化することにより得られた前記第１のオーディオ信号のストリームと、前記第３の符号化情報を用いて前記第２のオーディオ信号に対して前記第１の符号化が行われた結果得られる第３のデータ、前記第３の符号化情報、前記第３の符号化情報と少なくとも一部が共通する第４の符号化情報を用いて前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号に対して前記第２の符号化が行われた結果得られる第４のデータ、および、前記第４の符号化情報のうちの前記第３の符号化情報と共通する部分以外の情報を多重化することにより得られた前記第２のオーディオ信号のストリームとを取得する取得手段と、前記第１の符号化情報に基づいて前記第１のデータに対して第１の復号を行い、前記第３の符号化情報に基づいて前記第３のデータに対して前記第１の復号を行う第１の復号手段と、前記第１の符号化情報と前記第２の符号化情報に基づいて前記第２のデータに対して第２の復号を行い、前記第３の符号化情報と前記第４の符号化情報に基づいて前記第４のデータに対して前記第２の復号を行う第２の復号手段と、前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果の代わりに前記第２のデータの復号結果を出力し、前記第２のオーディオ信号のストリームに欠落またはエラーが発生していない場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果を出力する出力手段とを備える復号装置である。

本発明の第２の側面の復号方法およびプログラムは、本発明の第２の側面の復号装置に対応する。

本発明の第２の側面において、第１の符号化情報を用いてフレーム単位のオーディオ信号である第１のオーディオ信号に対して第１の符号化が行われた結果得られる第１のデータ、前記第１の符号化情報、前記第１の符号化情報と少なくとも一部が共通する第２の符号化情報を用いて前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号に対して第２の符号化が行われた結果得られる第２のデータ、および前記第２の符号化情報のうちの前記第１の符号化情報と共通する部分以外の情報が多重化されることにより得られた前記第１のオーディオ信号のストリームと、前記第３の符号化情報を用いて前記第２のオーディオ信号に対して前記第１の符号化が行われた結果得られる第３のデータ、前記第３の符号化情報、前記第３の符号化情報と少なくとも一部が共通する第４の符号化情報を用いて前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号に対して前記第２の符号化が行われた結果得られる第４のデータ、および、前記第４の符号化情報のうちの前記第３の符号化情報と共通する部分以外の情報が多重化されることにより得られた前記第２のオーディオ信号のストリームとが取得され、前記第１の符号化情報に基づいて前記第１のデータに対して第１の復号が行われ、前記第３の符号化情報に基づいて前記第３のデータに対して前記第１の復号が行われ、前記第１の符号化情報と前記第２の符号化情報に基づいて前記第２のデータに対して第２の復号が行われ、前記第３の符号化情報と前記第４の符号化情報に基づいて前記第４のデータに対して前記第２の復号が行われ、前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果の代わりに前記第２のデータの復号結果が出力され、前記第２のオーディオ信号のストリームに欠落またはエラーが発生していない場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果が出力される。

本発明の第３の側面の符号化装置は、フレーム単位のオーディオ信号である第１のオーディオ信号を符号化して第１のデータを生成し、前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号を符号化して第２のデータを生成する第１の符号化手段と、前記第１のオーディオ信号と前記第２のオーディオ信号の差分を符号化して第３のデータを生成し、前記２のオーディオ信号と、前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である前記第３のオーディオ信号の差分を符号化して第４のデータを生成する第２の符号化手段と、前記第１のデータと前記第３のデータを多重化して前記第１のオーディオ信号のストリームを生成し、前記第２のデータと前記第４のデータを多重化して前記第２のオーディオ信号のストリームを生成する多重化手段とを備え、前記第３のデータは、前記第１のオーディオ信号および前記第２のオーディオ信号のストリームを復号する復号装置において、前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合に、その第２のオーディオ信号のストリームに含まれる前記第２のデータの代わりに復号され、前記第１のデータの復号結果と合成される符号化装置である。

本発明の第３の側面においては、フレーム単位のオーディオ信号である第１のオーディオ信号が符号化されて第１のデータが生成され、前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号が符号化されて第２のデータが生成され、前記第１のオーディオ信号と前記第２のオーディオ信号の差分が符号化されて第３のデータが生成され、前記２のオーディオ信号と、前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である前記第３のオーディオ信号の差分が符号化されて第４のデータが生成され、前記第１のデータと前記第３のデータが多重化されて前記第１のオーディオ信号のストリームが生成され、前記第２のデータと前記第４のデータが多重化されて前記第２のオーディオ信号のストリームが生成される。なお、前記第３のデータは、前記第１のオーディオ信号および前記第２のオーディオ信号のストリームを復号する復号装置において、前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合に、その第２のオーディオ信号のストリームに含まれる前記第２のデータの代わりに復号され、前記第１のデータの復号結果と合成されるものである。

本発明の第４の側面の復号装置は、フレーム単位のオーディオ信号である第１のオーディオ信号の符号化結果である第１のデータ、および、前記第１のオーディオ信号と、前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号との差分の符号化結果である第２のデータを多重化することにより得られた前記第１のオーディオ信号のストリームと、前記第２のオーディオ信号の符号化結果である第３のデータ、および、前記第２のオーディオ信号と、前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号との差分の符号化結果である第４のデータを多重化することにより得られた前記第２のオーディオ信号のストリームとを取得する取得手段と、前記第１のデータと前記第３のデータを復号する第１の復号手段と、前記第２のデータを復号して、前記第１のデータの復号結果と前記第２のデータの復号結果を合成し、前記第４のデータを復号して、前記第３のデータの復号結果と前記第４の復号結果を合成する第２の復号手段と、前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果の代わりに前記第１のデータと前記第２のデータの復号結果の合成結果を出力し、前記第２のオーディオ信号のストリームに欠落またはエラーが発生していない場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果を出力する出力手段とを備える復号装置である。

本発明の第４の側面においては、フレーム単位のオーディオ信号である第１のオーディオ信号の符号化結果である第１のデータ、および、前記第１のオーディオ信号と、前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号との差分の符号化結果である第２のデータが多重化されることにより得られた前記第１のオーディオ信号のストリームと、前記第２のオーディオ信号の符号化結果である第３のデータ、および、前記第２のオーディオ信号と、前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号との差分の符号化結果である第４のデータが多重化されることにより得られた前記第２のオーディオ信号のストリームとが取得され、前記第１のデータと前記第３のデータが復号され、前記第２のデータが復号されて、前記第１のデータの復号結果と前記第２のデータの復号結果が合成され、前記第４のデータが復号されて、前記第３のデータの復号結果と前記第４の復号結果が合成され、前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果の代わりに前記第１のデータと前記第２のデータの復号結果の合成結果が出力され、前記第２のオーディオ信号のストリームに欠落またはエラーが発生していない場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果が出力される。

本発明の第１の側面および第３の側面によれば、補間用データのビットレートを低減することができる。

また、本発明の第２の側面および第４の側面によれば、ビットレートが低減された補間用データを用いて復号を行うことができる。

従来の符号化装置の構成例を示すブロック図である。図１の符号化装置に対応する復号装置の構成例を示すブロック図である。 PCM信号とビットストリームを説明する図である。ビットストリームの欠落時のPCM信号について説明する図である。ビットストリームの欠落時の補間の例について説明する図である。従来の符号化装置の他の構成例を示すブロック図である。各ビットストリームのビットレートを説明する図である。図６の符号化装置に対応する復号装置の構成例を示すブロック図である。ビットストリームの欠落時の補間の他の例について説明する図である。本発明を適用した符号化装置の一実施の形態の構成例を示すブロック図である。ビットストリームを説明する図である。従来の符号化結果と本発明の符号化結果のデータ量について説明する図である。重なり区間においてエネルギー的に支配的なPCM信号の例を示す図である。図１３のPCM信号のスペクトルのスペクトル分布を示す図である。図１４のスペクトルのエンベロープを示す図である。重なり区間においてエネルギーが集中していないPCM信号の例を示す図である。図１６のPCM信号のスペクトルのスペクトル分布を示す図である。図１７のスペクトルのエンベロープを示す図である。図１０の符号化装置による符号化処理を説明するフローチャートである。図１０の符号化装置に対応する復号装置の構成例を示すブロック図である。データが欠落した場合のPCM信号を説明する図である。図２０の復号装置による復号処理を説明するフローチャートである。コンピュータの一実施の形態の構成例を示す図である。

＜一実施の形態＞
［符号化装置の一実施の形態の構成例］
図１０は、本発明を適用した符号化装置の一実施の形態の構成例を示すブロック図である。

図１０の符号化装置１００は、MDCT部１０１、保持部１０２、正規化部１０３、量子化部１０４、符号化部１０５、量子化部１０６、符号化部１０７、および多重化部１０８により構成される。

符号化装置１００のMDCT部１０１には、音声のPCM信号TがフレームごとにPCM信号T[J+1]として入力される。

MDCT部１０１は、時間領域信号である音声のPCM信号T[J+1]に対して窓関数W[J+1]を窓掛けし、その結果得られるPCM信号[J+1]に対してMDCTを行い、周波数領域信号であるスペクトルS[J+1]を得る。MDCT部１０１は、スペクトルS[J+1]を保持部１０２と正規化部１０３に供給する。

保持部１０２は、MDCT部１０１からスペクトルS[J+1]が供給されたとき、既に保持している１フレーム前のスペクトルS[J]を読み出して正規化部１０３に供給する。そして、保持部１０２は、MDCT部１０１から供給されるスペクトルS[J+1]を保持する。

正規化部１０３（生成手段）は、MDCT部１０１から供給されるスペクトルS[J+1]および保持部１０２から供給されるスペクトルS[J]から、スペクトルS[J+1]およびスペクトルS[J]に共通のエンベロープF2[J]を抽出し、多重化部１０８に供給する。また、正規化部１０３は、エンベロープF2[J]を用いてスペクトルS[J+1]を正規化し、その結果得られる正規化スペクトルN2[J+1]を量子化部１０４に供給する。さらに、正規化部１０３は、エンベロープF2[J]を用いてスペクトルS[J]を正規化し、その結果得られる正規化スペクトルN3[J]を量子化部１０６に供給する。

量子化部１０４は、所定のアルゴリズムによって決定された量子化精度情報P2[J+1]に基づき、正規化部１０３から供給される正規化スペクトルN2[J+1]を量子化し、その結果得られる量子化スペクトルQ2[J+1]を符号化部１０５に供給する。また、量子化部１０４は、量子化精度情報P2[J+1]を多重化部１０８に供給する。なお、量子化精度情報P2[J+1]を決定するための所定のアルゴリズムとしては、例えば既に一般的に知られているものを用いることができる。

符号化部１０５は、量子化部１０４から供給される量子化スペクトルQ2[J+1]を符号化し、その結果得られる符号スペクトルH2[J+1]を多重化部１０８に供給する。

量子化部１０６は、所定のアルゴリズムによって決定された量子化精度情報P3[J]に基づき、正規化部１０３から供給される正規化スペクトルN3[J]を量子化し、その結果得られる量子化スペクトルQ3[J]を符号化部１０７に供給する。また、量子化部１０６は、量子化精度情報P3[J]を多重化部１０８に供給する。なお、量子化精度情報P3[J]を決定するための所定のアルゴリズムとしては、例えば既に一般的に知られているものを用いることができる。

符号化部１０７は、量子化部１０６から供給される量子化スペクトルQ3[J]を符号化部１０５と同一の符号化方式で符号化する。このように、符号化装置１００では、符号化部１０５と符号化部１０７が同一の符号化方式で符号化するので、異なる符号化方式で符号化する従来の符号化装置３０（図６）に比べて、符号化装置１００の構成を簡易化することができる。また、符号化部１０７は、符号化の結果得られる符号スペクトルH3[J]を多重化部１０８に供給する。

多重化部１０８は、正規化部１０３からのエンベロープF2[J]、量子化部１０４からの量子化精度情報P2[J+1]、符号化部１０５からの符号スペクトルH2[J+1]、量子化部１０６からの量子化精度情報P3[J]、および符号化部１０７からの符号スペクトルH3[J]を多重化してビットストリームB1[J]を生成する。多重化部１０８は、そのビットストリームB1[J]を符号化結果として出力する。

なお、ビットストリームB1[J]に含まれる符号スペクトルH3[J]は、PCM信号T[J]を符号化した結果生成されるものであり、復号装置において本来復号されるべき符号スペクトルである。一方、符号スペクトルH2[J+1]は、PCM信号T[J+1]を符号化したものであり、復号装置において、本来復号されるべき符号スペクトルH3[J+1]が欠落した場合に、符号スペクトルH3[J+1]の代わりに用いられるものである。

[ビットストリームの説明]
図１１は、図１０の符号化装置１００から出力されるビットストリームB1[J]を説明する図である。

図１１に示すように、ビットストリームB1[J]は、本来復号されるべき符号スペクトルH3[J]を含むデータB2[J]と、その符号スペクトルH3[J]のフレームの次のフレームの符号スペクトルH3[J+1]の欠落時に代用される符号スペクトルH2[J+1]を含むデータD[J+1]により構成される。

このように、同一のビットストリームB1[J]に含まれるデータB2[J]に対応するフレームと、データD[J+1]に対応するフレームとは異なっているので、同一フレームのデータB2[J]とデータD[J]が同時に欠落することを防止することができる。

図１２は、従来の図６の符号化装置３０による符号化結果と、図１０の符号化装置１００による符号化結果のデータ量について説明する図である。

図１２Ａに示すように、図６の符号化装置３０による符号化結果は、本来復号されるべきビットストリームB[J]と、ビットストリームB[J]が欠落した場合に代用されるビットストリームC[J]とにより構成される。また、ビットストリームB[J]は、エンベロープF[J]、量子化精度情報P[J]、および符号スペクトルH[J]により構成され、ビットストリームC[J]は、エンベロープF1[J]、量子化精度情報P1[J]、および符号スペクトルH1[J]により構成される。

一方、図１２Ｂに示すように、図１０の符号化装置１００による符号化結果は、本来復号されるべきデータB2[J]と、データB2[J+1]が欠落した場合に代用されるデータD[J+1]からなる。また、データB2[J]は、符号スペクトルH3[J]、符号スペクトルH3[J]の復号に必要な量子化精度情報P3[J]、および、符号スペクトルH3[J]および符号スペクトルH2[J+1]に共通のエンベロープF2[J]により構成される。データD[J+1]は、符号スペクトルH2[J+1]および量子化精度情報P2[J+1]により構成される。

このように、符号化装置１００による符号化結果では、符号スペクトルH3[J]および符号スペクトルH2[J+1]のエンベロープが共通化されている。従って、符号化装置３０が符号化装置１００と同一の符号化方法で符号化する場合、符号化装置３０による符号化結果に比べて、欠落時に代用されるデータ、即ち補間用のデータのサイズを小さくすることができる。その結果、補間用のデータのビットレートを低減し、伝送コストを低減することができる。

[エンベロープの共通化の説明]
図１３乃至図１８は、エンベロープの共通化について説明する図である。

まず、図１３に示すように、PCM信号が、時刻ｔ1から時刻t2までの区間において波高が高くエネルギー的に支配的な信号である場合について説明する。

この場合、図１３に示すように、PCM信号Tの時刻t0から時刻ｔ2までの区間の信号を用いてスペクトルS[J]が生成されると、スペクトルS[J]のスペクトル分布は、図１４Ａに示すようになる。また、PCM信号Tの時刻ｔ1から時刻ｔ3までの区間の信号を用いてスペクトルS[J+1]が生成されると、スペクトルS[J+1]のスペクトル分布は、図１４Ｂに示すようになる。時間信号を周波数変換してスペクトルのパワーを求める場合には、時間信号の位相情報は欠落し、スペクトルのパワー情報のみが存在する。ここで、スペクトルS[J]とスペクトルS[J+1]では、エネルギーが支配的な時刻ｔ1から時刻ｔ2までの区間のPCM信号が共有化されているため、図１４に示すように、スペクトルS[J]とスペクトルS[J+1]のスペクトル形状は類似する。なお、図１４において、横軸はスペクトル番号を表し、縦軸はスペクトルのパワーを表している。このことは、後述する図１７においても同様である。

ここで、エンベロープは、図１４中点線で示すように、複数本のスペクトル単位で求められることが多い。図１４の例では、2本のスペクトルからなるスペクトル群単位でエンベロープが求められており、そのスペクトル群のインデックスが、スペクトル番号の小さい方から順に０から付されているものとする。なお、以下では、Jフレームのインデックスiのスペクトル群をS[J][i]と表す。

図１５は、スペクトル群S[J][1]とスペクトル群S[J+1][1]のエンベロープを示す図である。

図１４に示すように、スペクトル群S[J][1]とスペクトル群S[J+1][1]は類似している。従って、図１５に示すように、スペクトル群S[J][1]のエンベロープF3[J][1]と、スペクトル群S[J+1][1]のエンベロープF3[J+1][1]は類似している。よって、スペクトル群S[J][1]のエンベロープF3[J][1]と、スペクトル群S[J+1][1]のエンベロープF3[J+1][1]のうちの大きい方を、スペクトル群S[J][1]とスペクトル群S[J+1][1]に共通のエンベロープとして用いても、正規化スペクトルN3[J]と正規化スペクトルN2[J+1]の形状は、大きく変化しない。

従って、図１３に示すように、PCM信号が、窓関数W[J]の重なり区間において、波高が高くエネルギー的に支配的な信号である場合には、スペクトル群S[J][i]のエンベロープF3[J][i]と、スペクトル群S[J+1][i]のエンベロープF3[J+1][i]のうちの大きい方を、スペクトル群S[J][i]とスペクトル群S[J+1][i]に共通のエンベロープとすることにより、スペクトル群S[J][i]とスペクトル群S[J+1][i]のエンベロープを共通化することができる。

次に、図１６に示すように、PCM信号が、時刻t1から時刻t2までの区間においてエネルギーが集中しておらず、時刻t0から時刻t1までの区間において波高が高くエネルギー的に支配的な信号である場合について説明する。

この場合、図１６に示すように、図１３の場合と同様に、PCM信号Tの時刻t0から時刻ｔ2までの区間の信号を用いてスペクトルS[J]が生成されると、スペクトルS[J]のスペクトル分布は、図１７Ａに示すようになる。また、図１３の場合と同様に、PCM信号Tの時刻ｔ1から時刻ｔ3までの区間の信号を用いてスペクトルS[J+1]が生成されると、スペクトルS[J+1]のスペクトル分布は、図１７Ｂに示すようになる。図１７に示すように、スペクトルS[J]とスペクトルS[J+1]のスペクトル形状の類似性は低くなる。これは、波高が高くエネルギー的に支配的な時刻t0から時刻t1までの区間のPCM信号が、スペクトルS[J]には影響するが、スペクトルS[J+1]には影響しないためである。

ここで、図１７の例においても、図１４の場合と同様に、2本のスペクトルからなるスペクトル群単位でエンベロープが求められており、そのスペクトル群のインデックスが、スペクトル番号の小さい方から順に０から付されているものとする。

図１８は、スペクトル群S[J][1]とスペクトル群S[J+1][1]のエンベロープを示す図である。

図１７に示すように、スペクトル群S[J][1]とスペクトル群S[J+1][1]は類似してない。従って、図１８に示すように、スペクトル群S[J][1]のエンベロープF3[J]と、スペクトル群S[J+1][1]のエンベロープF4[J]は類似していない。よって、スペクトル群S[J][1]のエンベロープF3[J][1]とスペクトル群S[J+1][1]のエンベロープF3[J+1][1]のうちの大きい方が、スペクトル群S[J][1]とスペクトル群S[J+1][1]に共通のエンベロープとして用いられる場合、スペクトル群S[J+1][1]の正規化スペクトルN2[J+1][1]が極めて小さい値になり、その後の量子化の際に全てゼロとして符号化されてしまう場合がある。従って、この場合、スペクトル群S[J+1][1]のエンベロープF3[J+1][1]を用いて正規化された場合の正規化スペクトルN2[J+1][1]と、共通のエンベロープを用いて正規化された場合の正規化スペクトルN2[J+1][1]の形状が大きく異なってしまう。

しかしながら、復号において、パワーの小さいスペクトルによるパワーの大きいスペクトルの精度悪化への影響はそもそも小さいため、問題がない。

従って、図１６に示すように、PCM信号が、窓関数W[J]の重なり区間においてエネルギーが集中していない信号である場合であっても、スペクトル群S[J][i]のエンベロープF3[J][i]と、スペクトル群S[J+1][i]のエンベロープF3[J+1][i]のうちの大きい方を、スペクトル群S[J][i]とスペクトル群S[J+1][i]に共通のエンベロープとすることにより、スペクトル群S[J][i]とスペクトル群S[J+1][i]のエンベロープを共通化することができる。

なお、フレームの欠落によるノイズの発生は、殆どの場合、低域周波数成分の不連続に起因する。より具体的には、連続するフレーム間において、連続的に一定レベルで発生している低周波数成分が、特定のフレームでのみ欠落することによって聴覚的なノイズが発生する。このことを考慮すると、図１６に示すようなPCM信号Tでは、そもそもJフレームとJ+1フレームにおいて低周波数成分が一定レベルで発生していない、つまり連続していないため、データD[J+1]を用いなくても聴覚的なノイズが発生しにくい信号であることがわかる。従って、実際には、データD[J+1]を伝送しなくとも良い。

しかしながら、フレームの欠落は意図せず発生するため、欠落するフレームが欠落によって聴覚的なノイズを発生しやすいフレームであるか否かを予め判定することは不可能である。従って、符号化装置１００では、各フレームが、そのフレームの欠落によって聴覚的なノイズを発生しやすいフレームであるか否かに関わらず、データD[J+1]が伝送される。

また、フレームの欠落により聴覚的なノイズが発生しやすい場合、即ち低周波数成分が連続している場合には、低周波数成分において、連続するフレームのエンベロープは類似するので、データD[J]としてゼロでない値が多く符号化される。一方、フレームの欠落により聴覚的なノイズが発生しにくい場合には、低周波数成分において、連続するフレームのエンベロープは類似せず、データD[J]として、ゼロ、またはゼロに近い値が多く符号化されることがある。従って、ゼロに近い値ほど短い符号長で符号化されるようにすれば、ノイズの発生確率に応じて自動的にデータD[J]のビットレートを変動させることができる。

［符号化装置の処理の説明］
図１９は、図１０の符号化装置１００による符号化処理を説明するフローチャートである。この符号化処理は、例えば、音声のPCM信号T[J+1]が符号化装置１００に入力されたときに開始される。

図１９のステップＳ１１において、MDCT部１０１は、時間領域信号であるPCM信号T[J+1]に対して窓関数W[J+1]を窓掛けし、その結果得られるPCM信号[J+1]に対してMDCTを行い、周波数領域信号であるスペクトルS[J+1]を得る。MDCT部１０１は、スペクトルS[J+1]を保持部１０２と正規化部１０３に供給する。

ステップＳ１２において、保持部１０２は、既に保持している１フレーム前のスペクトルS[J]を読み出して正規化部１０３に供給する。

ステップＳ１３において、保持部１０２は、MDCT部１０１から供給されるスペクトルS[J+1]を保持する。

ステップＳ１４において、正規化部１０３は、保持部１０２から供給されるスペクトルS[J]とMDCT部１０１から供給されるスペクトルS[J+1]から、スペクトルS[J]とスペクトルS[J+1]に共通のエンベロープF2[J]を抽出する。具体的には、正規化部１０３は、スペクトルS[J+1]のエンベロープと、スペクトルS[J]のエンベロープのうちの大きい方のエンベロープを、共通のエンベロープF2[J]として抽出する。そして、正規化部１０３は、エンベロープF2[J]を多重化部１０８に供給する。

ステップＳ１５において、正規化部１０３は、エンベロープF2[J]を用いてスペクトルS[J]とスペクトルS[J+1]を正規化する。正規化部１０３は、スペクトルS[J]の正規化の結果得られる正規化スペクトルN3[J]を量子化部１０６に供給する。また、正規化部１０３は、スペクトルS[J+1]の正規化の結果得られる正規化スペクトルN2[J+1]を量子化部１０４に供給する。

ステップＳ１６において、量子化部１０４は、所定のアルゴリズムによって決定された量子化精度情報P2[J+1]に基づき、正規化部１０３から供給される正規化スペクトルN2[J+1]を量子化し、その結果得られる量子化スペクトルQ2[J+1]を符号化部１０５に供給する。また、量子化部１０４は、量子化精度情報P2[J+1]を多重化部１０８に供給する。同時に、量子化部１０６は、所定のアルゴリズムによって決定された量子化精度情報P3[J]に基づき、正規化部１０３から供給される正規化スペクトルN3[J]を量子化し、その結果得られる量子化スペクトルQ3[J]を符号化部１０７に供給する。また、量子化部１０６は、量子化精度情報P3[J]を多重化部１０８に供給する。

ステップＳ１７において、符号化部１０５は、量子化部１０４から供給される量子化スペクトルQ2[J+1]を符号化し、その結果得られる符号スペクトルH2[J+1]を多重化部１０８に供給する。同時に、符号化部１０７は、量子化部１０６から供給される量子化スペクトルQ3[J]を符号化し、その結果得られる符号スペクトルH3[J]を多重化部１０８に供給する。

ステップＳ１８において、多重化部１０８は、量子化部１０４からの量子化精度情報P2[J+1]、符号化部１０５からの符号スペクトルH2[J+1]、正規化部１０３からのエンベロープF2[J]、量子化部１０６からの量子化精度情報P3[J]、および符号化部１０７からの符号スペクトルH3[J]を多重化してビットストリームB1[J]を生成する。

ステップＳ１９において、多重化部１０８は、生成されたビットストリームB1[J]を符号化結果として出力し、処理を終了する。

［復号装置の構成例］
図２０は、図１０の符号化装置１００による符号化結果を復号する復号装置の構成例を示すブロック図である。

図２０の復号装置１５０は、分解部１５１、復号化部１５２、逆量子化部１５３、逆正規化部１５４、保持部１５５、復号化部１５６、逆量子化部１５７、逆正規化部１５８、スイッチ１５９、および逆MDCT部１６０により構成される。

復号装置１５０の分解部１５１には、符号化装置１００による符号化結果であるビットストリームB1[J]が入力される。

分解部１５１（取得手段）は、ビットストリームB1[J]を取得する。分解部１５１は、ビットストリームB1[J]から、エンベロープF2[J]、量子化精度情報P2[J+1]、および量子化精度情報P3[J]を分解する。また、分解部１５１は、量子化精度情報P2[J+1]に基づいて、ビットストリームB1[J]から符号スペクトルH2[J+1]を分解し、量子化精度情報P3[J]に基づいて、ビットストリームB1[J]から符号スペクトルH3[J]を分解する。

また、分解部１５１は、エンベロープF2[J]を逆正規化部１５４と逆正規化部１５８に供給する。分解部１５１は、量子化精度情報P2[J+1]を逆量子化部１５３に供給し、量子化精度情報P3[J]を逆量子化部１５７に供給する。さらに、分解部１５１は、符号スペクトルH2[J+1]を復号化部１５２に供給し、符号スペクトルH3[J]を復号化部１５６に供給する。

復号化部１５２は、分解部１５１から供給される符号スペクトルH2[J+1]を復号し、その結果得られる量子化スペクトルQ2[J+1]を逆量子化部１５３に供給する。

逆量子化部１５３は、復号化部１５２から供給される量子化スペクトルQ2[J+1]を、分解部１５１から供給される量子化精度情報P2[J+1]に基づいて逆量子化し、その結果得られる正規化スペクトルN2[J+1]を逆正規化部１５４に供給する。

逆正規化部１５４は、逆量子化部１５３から供給される正規化スペクトルN2[J+1]を、分解部１５１から供給されるエンベロープF2[J]を用いて逆正規化し、その結果得られるスペクトルS[J+1]を保持部１５５に供給する。

保持部１５５は、逆正規化部１５４からスペクトルS[J+1]が供給されたとき、既に保持しているスペクトルS[J]を読み出して、スイッチ１５９に出力する。また、保持部１５５は、逆正規化部１５４から供給されるスペクトルS[J+1]を保持する。

復号化部１５６は、分解部１５１から供給される符号スペクトルH3[J]を復号化部１５２と同一の復号方式で復号化する。このように、復号装置１５０では、復号化部１５２と復号化部１５６が同一の復号方式で復号するので、異なる復号方式で復号する従来の復号装置５０（図８）に比べて、復号装置１５０の構成を簡易化することができる。また、復号化部１５６は、復号の結果得られる量子化スペクトルQ3[J]を逆量子化部１５７に供給する。

逆量子化部１５７は、復号化部１５６から供給される量子化スペクトルQ3[J]を、分解部１５１から供給される量子化精度情報P3[J]に基づいて逆量子化し、その結果得られる正規化スペクトルN3[J]を逆正規化部１５８に供給する。

逆正規化部１５８は、逆量子化部１５７から供給される正規化スペクトルN3[J]を、分解部１５１から供給されるエンベロープF2[J]を用いて逆正規化し、その結果得られるスペクトルS[J]をスイッチ１５９に供給する。

なお、分解部１５１、復号化部１５６、逆量子化部１５７、および逆正規化部１５８は、それぞれ、さらに、データB2[J]が伝送路においてなんらかの問題で欠落したことや、受信されたデータB2[J]にエラーが発生していることを検出する。そして、検出結果が、欠落の検出結果E1[J]としてスイッチ１５９に供給される。

スイッチ１５９（出力手段）は、検出結果E1[J]に基づいて、保持部１５５から供給されるデータD[J]から得られたスペクトルS[J]、または、逆正規化部１５８から供給されるデータB2[J]から得られたスペクトルS[J]を選択し、逆MDCT部１６０に供給する。

逆MDCT部１６０は、スイッチ１５９から供給される周波数領域信号であるスペクトルS[J]に対して逆MDCTを行い、その結果得られる時間領域信号を窓関数W[J]に基づいて足し合わせ、音声のPCM信号T’2[J]を得る。逆MDCT部１６０は、PCM信号T’2[J]を音声信号として出力する。

［欠落時のPCM信号の説明］
図２１は、データB2[J]が欠落した場合のPCM信号T2[J-1]乃至T2[J+1]を説明する図である。

図２１に示すように、データB2[J]が欠落した場合、スイッチ１５９により、データB2[J]より前に受信された１フレーム前のビットストリームB1[J-1]に含まれるデータD［J］から得られるスペクトルS［J］が選択される。即ち、図２１Ａに示すように、データB2[J]により生成されるべきスペクトルS［J］が、データB2[J]より前に受信されたビットストリームB1[J-1]に含まれるデータD［J］により生成されるスペクトルS［J］で補間される。なお、データD［J］には、エンベロープが含まれていないので、同一のビットストリームB1[J-1]内のデータB2[J-1]に含まれるエンベロープF2[J-1]を用いて、スペクトルS［J］が生成される。

［復号装置の処理の説明］
図２２は、図２０の復号装置１５０による復号処理を説明するフローチャートである。この復号処理は、例えば、符号化装置１００による符号化結果であるビットストリームB1[J]が復号装置１５０に入力されたとき、開始される。

ステップＳ３１において、分解部１５１は、ビットストリームB1[J]から、エンベロープF2[J]、量子化精度情報P2[J+1]、および量子化精度情報P3[J]を分解する。また、分解部１５１は、量子化精度情報P2[J+1]に基づいて、ビットストリームB1[J]から符号スペクトルH2[J+1]を分解し、量子化精度情報P3[J]に基づいて、ビットストリームB1[J]から符号スペクトルH3[J]を分解する。

そして、分解部１５１は、エンベロープF2[J]を逆正規化部１５４と逆正規化部１５８に供給する。分解部１５１は、量子化精度情報P2[J+1]を逆量子化部１５３に供給し、量子化精度情報P3[J]を逆量子化部１５７に供給する。さらに、分解部１５１は、符号スペクトルH2[J+1]を復号化部１５２に供給し、符号スペクトルH3[J]を復号化部１５６に供給する。

ステップＳ３２において、復号化部１５２は、分解部１５１から供給される符号スペクトルH2[J+1]を復号し、その結果得られる量子化スペクトルQ2[J+1]を逆量子化部１５３に供給する。同時に、復号化部１５６は、分解部１５１から供給される符号スペクトルH3[J]を復号し、その結果得られる量子化スペクトルQ3[J]を逆量子化部１５７に供給する。

ステップＳ３３において、逆量子化部１５３は、復号化部１５２から供給される量子化スペクトルQ2[J+1]を、分解部１５１から供給される量子化精度情報P2[J+1]に基づいて逆量子化し、その結果得られる正規化スペクトルN2[J+1]を逆正規化部１５４に供給する。同時に、逆量子化部１５７は、復号化部１５６から供給される量子化スペクトルQ3[J]を、分解部１５１から供給される量子化精度情報P3[J]に基づいて逆量子化し、その結果得られる正規化スペクトルN3[J]を逆正規化部１５８に供給する。

ステップＳ３４において、逆正規化部１５４は、逆量子化部１５３から供給される正規化スペクトルN2[J+1]を、分解部１５１から供給されるエンベロープF2[J]を用いて逆正規化し、その結果得られるスペクトルS[J+1]を保持部１５５に供給する。同時に、逆正規化部１５８は、逆量子化部１５７から供給される正規化スペクトルN3[J]を、分解部１５１から供給されるエンベロープF2[J]を用いて逆正規化し、その結果得られるスペクトルS[J]をスイッチ１５９に供給する。

ステップＳ３５において、保持部１５５は、既に保持しているスペクトルS[J]を読み出して、スイッチ１５９に出力する。

ステップＳ３６において、保持部１５５は、逆正規化部１５４から供給されるスペクトルS[J+1]を保持する。

ステップＳ３７において、スイッチ１５９は、分解部１５１、復号化部１５６、逆量子化部１５７、および逆正規化部１５８から供給される検出結果E1[J]に基づいて、データB2[J]が欠落しているかどうかを判定する。

ステップＳ３７でデータB2[J]が欠落していると判定された場合、ステップＳ３８において、スイッチ１５９は、保持部１５５から供給されるデータD[J]から得られたスペクトルS[J]を選択して逆MDCT部１６０に出力する。そして処理はステップＳ４０に進む。

一方、ステップＳ３７でデータB2[J]が欠落していないと判定された場合、ステップＳ３９において、スイッチ１５９は、逆正規化部１５８から供給されるデータB2[J]から得られたスペクトルS[J]を選択して、逆MDCT部１６０に出力する。そして処理はステップＳ４０に進む。

ステップＳ４０において、逆MDCT部１６０は、スイッチ１５９から供給される周波数領域信号であるスペクトルS[J]に対して逆MDCTを行い、その結果得られる時間領域信号を窓関数W[J]に基づいて足し合わせ、音声のPCM信号T’2[J]を得る。

ステップＳ４１において、逆MDCT部１６０は、PCM信号T’2[J]を音声信号として出力し、処理を終了する。

なお、上述した説明では、スペクトルS[J+1]とスペクトルS[J]において、エンベロープF2が共通化されたが、他の符号化に用いられる情報（符号化情報）である量子化精度情報が共通化されてもよい。

また、符号化部１０５は、量子化スペクトルQ2[J+1]と量子化スペクトルQ3[J]の差分を符号化する差分符号化を行うようにしてもよい。この場合、復号化部１５２は、符号スペクトルH2[J+1]を復号し、符号スペクトルH2[J+1]の復号結果と符号スペクトルH3[J]の復号結果を合成して、量子化スペクトルQ2[J+1]を生成する。以上のように差分符号化が用いられる場合、符号化効率が向上し、ビットレートをさらに低減することができる。

さらに、上述した説明では、符号化装置１００に入力されるPCM信号T［J］は１チャンネルの信号であるものとしたが、複数チャンネルの信号であってもよい。この場合には、ビットストリームB1［J］に、フレームの異なる符号ストリームが配置されるのではなく、チャンネルの異なる符号ストリームが配置される。例えば、ビットストリームB1［J］に、所定のチャンネルの所定のフレームの符号化データと、その符号化データと同一フレームで異なるチャンネルの符号化データとが配置される。

[本発明を適用したコンピュータの説明]
次に、上述した一連の符号化装置１００の処理および復号装置１５０の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の符号化装置１００の処理および復号装置１５０の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図２３は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としての記憶部３０８やROM（Read Only Memory）３０２に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブルメディア３１１に格納（記録）しておくことができる。このようなリムーバブルメディア３１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブルメディア３１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブルメディア３１１からドライブ３１０を介してコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵する記憶部３０８にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)３０１を内蔵しており、CPU３０１には、バス３０４を介して、入出力インタフェース３０５が接続されている。

CPU３０１は、入出力インタフェース３０５を介して、ユーザによって、入力部３０６が操作等されることにより指令が入力されると、それに従って、ROM３０２に格納されているプログラムを実行する。あるいは、CPU３０１は、記憶部３０８に格納されたプログラムを、RAM(Random Access Memory)３０３にロードして実行する。

これにより、CPU３０１は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU３０１は、その処理結果を、必要に応じて、例えば、入出力インタフェース３０５を介して、出力部３０７から出力、あるいは、通信部３０９から送信、さらには、記憶部３０８に記録等させる。

なお、入力部３０６は、キーボードや、マウス、マイク等で構成される。また、出力部３０７は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

さらに、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１００符号化装置，１０３正規化部，１０５符号化部，１０７符号化部，１０８多重化部，１５０復号装置，１５２復号化部，１５６復号化部，１５９スイッチ

Claims

フレーム単位のオーディオ信号である第１のオーディオ信号の第１の符号化に用いられる情報である第１の符号化情報と、前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号の第２の符号化に用いられる情報である第２の符号化情報を、前記第１の符号化情報と前記第２の符号化情報の少なくとも一部が共通するように生成し、前記第２のオーディオ信号の前記第１の符号化に用いられる情報である第３の符号化情報と、前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号の前記第２の符号化に用いられる情報である第４の符号化情報を、前記第３の符号化情報と前記第４の符号化情報の少なくとも一部が共通するように生成する生成手段と、
前記第１の符号化情報を用いて前記第１のオーディオ信号に対して前記第１の符号化を行うことにより第１のデータを生成し、前記第３の符号化情報を用いて前記第２のオーディオ信号に対して前記第１の符号化を行うことにより第２のデータを生成する第１の符号化手段と、
前記第２の符号化情報を用いて前記第２のオーディオ信号に対して前記第２の符号化を行うことにより第３のデータを生成し、前記第４の符号化情報を用いて前記第３のオーディオ信号に対して前記第２の符号化を行うことにより第４のデータを生成する第２の符号化手段と、
前記第１のデータ、前記第１の符号化情報、前記第３のデータ、および、前記第２の符号化情報のうちの前記第１の符号化情報と共通する部分以外の情報を多重化して前記第１のオーディオ信号のストリームを生成し、前記第２のデータ、前記第３の符号化情報、前記第４のデータ、および、前記第４の符号化情報のうちの前記第３の符号化情報と共通する部分以外の情報を多重化して前記第２のオーディオ信号のストリームを生成する多重化手段と
を備え、
前記第３のデータは、前記第１のオーディオ信号および前記第２のオーディオ信号のストリームを復号する復号装置において、前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合に、その第２のオーディオ信号のストリームに含まれる前記第２のデータの代わりに復号される
符号化装置。
前記生成手段は、前記第１のオーディオ信号と前記第２のオーディオ信号に共通のエンベロープを含む前記第１の符号化情報と前記第２の符号化情報を生成し、前記第２のオーディオ信号と前記第３のオーディオ信号に共通のエンベロープを含む前記第３の符号化情報と前記第４の符号化情報を生成する
請求項１に記載の符号化装置。
前記生成手段は、前記第１のオーディオ信号と前記第２のオーディオ信号に共通の量子化制度情報を含む前記第１の符号化情報と前記第２の符号化情報を生成し、前記第２のオーディオ信号と前記第３のオーディオ信号に共通の量子化制度情報を含む前記第３の符号化情報と前記第４の符号化情報を生成する
請求項１に記載の符号化装置。
前記第１のオーディオ信号に対応するフレーム、前記第２のオーディオ信号に対応するフレーム、および前記第３のオーディオ信号に対応するフレームは、それぞれ異なる
請求項１に記載の符号化装置。
前記第１のオーディオ信号に対応するフレームは、前記第２のオーディオ信号に対応するフレームより前のフレームであり、前記第２のオーディオ信号に対応するフレームは、前記第３のオーディオ信号に対応するフレームより前のフレームである
請求項４に記載の符号化装置。
前記第１のオーディオ信号に対応するチャンネルおよび前記第３のオーディオ信号に対応するチャンネルは、前記第２のオーディオ信号に対応するチャンネルと異なる
請求項１に記載の符号化装置。
符号化装置が、
フレーム単位のオーディオ信号である第１のオーディオ信号の第１の符号化に用いられる情報である第１の符号化情報と、前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号の第２の符号化に用いられる情報である第２の符号化情報を、前記第１の符号化情報と前記第２の符号化情報の少なくとも一部が共通するように生成し、前記第２のオーディオ信号の前記第１の符号化に用いられる情報である第３の符号化情報と、前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号の前記第２の符号化に用いられる情報である第４の符号化情報を、前記第３の符号化情報と前記第４の符号化情報の少なくとも一部が共通するように生成する生成ステップと、
前記第１の符号化情報を用いて前記第１のオーディオ信号に対して前記第１の符号化を行うことにより第１のデータを生成し、前記第３の符号化情報を用いて前記第２のオーディオ信号に対して前記第１の符号化を行うことにより第２のデータを生成する第１の符号化ステップと、
前記第２の符号化情報を用いて前記第２のオーディオ信号に対して前記第２の符号化を行うことにより第３のデータを生成し、前記第４の符号化情報を用いて前記第３のオーディオ信号に対して前記第２の符号化を行うことにより第４のデータを生成する第２の符号化ステップと、
前記第１のデータ、前記第１の符号化情報、前記第３のデータ、および、前記第２の符号化情報のうちの前記第１の符号化情報と共通する部分以外の情報を多重化して前記第１のオーディオ信号のストリームを生成し、前記第２のデータ、前記第３の符号化情報、前記第４のデータ、および、前記第４の符号化情報のうちの前記第３の符号化情報と共通する部分以外の情報を多重化して前記第２のオーディオ信号のストリームを生成する多重化ステップと
を含み、
前記第３のデータは、前記第１のオーディオ信号および前記第２のオーディオ信号のストリームを復号する復号装置において、前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合に、その第２のオーディオ信号のストリームに含まれる前記第２のデータの代わりに復号される
符号化方法。
コンピュータに、
フレーム単位のオーディオ信号である第１のオーディオ信号の第１の符号化に用いられる情報である第１の符号化情報と、前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号の第２の符号化に用いられる情報である第２の符号化情報を、前記第１の符号化情報と前記第２の符号化情報の少なくとも一部が共通するように生成し、前記第２のオーディオ信号の前記第１の符号化に用いられる情報である第３の符号化情報と、前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号の前記第２の符号化に用いられる情報である第４の符号化情報を、前記第３の符号化情報と前記第４の符号化情報の少なくとも一部が共通するように生成する生成ステップと、
前記第１の符号化情報を用いて前記第１のオーディオ信号に対して前記第１の符号化を行うことにより第１のデータを生成し、前記第３の符号化情報を用いて前記第２のオーディオ信号に対して前記第１の符号化を行うことにより第２のデータを生成する第１の符号化ステップと、
前記第２の符号化情報を用いて前記第２のオーディオ信号に対して前記第２の符号化を行うことにより第３のデータを生成し、前記第４の符号化情報を用いて前記第３のオーディオ信号に対して前記第２の符号化を行うことにより第４のデータを生成する第２の符号化ステップと、
前記第１のデータ、前記第１の符号化情報、前記第３のデータ、および、前記第２の符号化情報のうちの前記第１の符号化情報と共通する部分以外の情報を多重化して前記第１のオーディオ信号のストリームを生成し、前記第２のデータ、前記第３の符号化情報、前記第４のデータ、および、前記第４の符号化情報のうちの前記第３の符号化情報と共通する部分以外の情報を多重化して前記第２のオーディオ信号のストリームを生成する多重化ステップと
を含み、
前記第３のデータは、前記第１のオーディオ信号および前記第２のオーディオ信号のストリームを復号する復号装置において、前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合に、その第２のオーディオ信号のストリームに含まれる前記第２のデータの代わりに復号される
処理を実行させるためのプログラム。
第１の符号化情報を用いてフレーム単位のオーディオ信号である第１のオーディオ信号に対して第１の符号化が行われた結果得られる第１のデータ、前記第１の符号化情報、前記第１の符号化情報と少なくとも一部が共通する第２の符号化情報を用いて前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号に対して第２の符号化が行われた結果得られる第２のデータ、および前記第２の符号化情報のうちの前記第１の符号化情報と共通する部分以外の情報を多重化することにより得られた前記第１のオーディオ信号のストリームと、前記第３の符号化情報を用いて前記第２のオーディオ信号に対して前記第１の符号化が行われた結果得られる第３のデータ、前記第３の符号化情報、前記第３の符号化情報と少なくとも一部が共通する第４の符号化情報を用いて前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号に対して前記第２の符号化が行われた結果得られる第４のデータ、および、前記第４の符号化情報のうちの前記第３の符号化情報と共通する部分以外の情報を多重化することにより得られた前記第２のオーディオ信号のストリームとを取得する取得手段と、
前記第１の符号化情報に基づいて前記第１のデータに対して第１の復号を行い、前記第３の符号化情報に基づいて前記第３のデータに対して前記第１の復号を行う第１の復号手段と、
前記第１の符号化情報と前記第２の符号化情報に基づいて前記第２のデータに対して第２の復号を行い、前記第３の符号化情報と前記第４の符号化情報に基づいて前記第４のデータに対して前記第２の復号を行う第２の復号手段と、
前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果の代わりに前記第２のデータの復号結果を出力し、前記第２のオーディオ信号のストリームに欠落またはエラーが発生していない場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果を出力する出力手段と
を備える復号装置。
前記第１の符号化情報および前記第２の符号化情報は、前記第１のオーディオ信号と前記第２のオーディオ信号に共通のエンベロープを含み、前記第３の符号化情報および前記第４の符号化情報は、前記第２のオーディオ信号と前記第３のオーディオ信号に共通のエンベロープを含む
請求項９に記載の復号装置。
前記第１の符号化情報および前記第２の符号化情報は、前記第１のオーディオ信号と前記第２のオーディオ信号に共通の量子化精度情報を含み、前記第３の符号化情報および前記第４の符号化情報は、前記第２のオーディオ信号と前記第３のオーディオ信号に共通の量子化精度情報を含む
請求項９に記載の復号装置。
前記第１のオーディオ信号に対応するフレーム、前記第２のオーディオ信号に対応するフレーム、および前記第３のオーディオ信号に対応するフレームは、それぞれ異なる
請求項９に記載の復号装置。
前記第１のオーディオ信号に対応するフレームは、前記第２のオーディオ信号に対応するフレームより前のフレームであり、前記第２のオーディオ信号に対応するフレームは、前記第３のオーディオ信号に対応するフレームより前のフレームである
請求項１２に記載の復号装置。
前記第１のオーディオ信号に対応するチャンネルおよび前記第３のオーディオ信号に対応するチャンネルは、前記第２のオーディオ信号に対応するチャンネルと異なる
請求項９に記載の復号装置。
復号装置が、
第１の符号化情報を用いてフレーム単位のオーディオ信号である第１のオーディオ信号に対して第１の符号化が行われた結果得られる第１のデータ、前記第１の符号化情報、前記第１の符号化情報と少なくとも一部が共通する第２の符号化情報を用いて前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号に対して第２の符号化が行われた結果得られる第２のデータ、および前記第２の符号化情報のうちの前記第１の符号化情報と共通する部分以外の情報を多重化することにより得られた前記第１のオーディオ信号のストリームと、前記第３の符号化情報を用いて前記第２のオーディオ信号に対して前記第１の符号化が行われた結果得られる第３のデータ、前記第３の符号化情報、前記第３の符号化情報と少なくとも一部が共通する第４の符号化情報を用いて前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号に対して前記第２の符号化が行われた結果得られる第４のデータ、および、前記第４の符号化情報のうちの前記第３の符号化情報と共通する部分以外の情報を多重化することにより得られた前記第２のオーディオ信号のストリームとを取得する取得ステップと、
前記第１の符号化情報に基づいて前記第１のデータに対して第１の復号を行い、前記第３の符号化情報に基づいて前記第３のデータに対して前記第１の復号を行う第１の復号ステップと、
前記第１の符号化情報と前記第２の符号化情報に基づいて前記第２のデータに対して第２の復号を行い、前記第３の符号化情報と前記第４の符号化情報に基づいて前記第４のデータに対して前記第２の復号を行う第２の復号ステップと、
前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果の代わりに前記第２のデータの復号結果を出力し、前記第２のオーディオ信号のストリームに欠落またはエラーが発生していない場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果を出力する出力ステップと
を含む復号方法。
コンピュータに、
第１の符号化情報を用いてフレーム単位のオーディオ信号である第１のオーディオ信号に対して第１の符号化が行われた結果得られる第１のデータ、前記第１の符号化情報、前記第１の符号化情報と少なくとも一部が共通する第２の符号化情報を用いて前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号に対して第２の符号化が行われた結果得られる第２のデータ、および前記第２の符号化情報のうちの前記第１の符号化情報と共通する部分以外の情報を多重化することにより得られた前記第１のオーディオ信号のストリームと、前記第３の符号化情報を用いて前記第２のオーディオ信号に対して前記第１の符号化が行われた結果得られる第３のデータ、前記第３の符号化情報、前記第３の符号化情報と少なくとも一部が共通する第４の符号化情報を用いて前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号に対して前記第２の符号化が行われた結果得られる第４のデータ、および、前記第４の符号化情報のうちの前記第３の符号化情報と共通する部分以外の情報を多重化することにより得られた前記第２のオーディオ信号のストリームとを取得する取得ステップと、
前記第１の符号化情報に基づいて前記第１のデータに対して第１の復号を行い、前記第３の符号化情報に基づいて前記第３のデータに対して前記第１の復号を行う第１の復号ステップと、
前記第１の符号化情報と前記第２の符号化情報に基づいて前記第２のデータに対して第２の復号を行い、前記第３の符号化情報と前記第４の符号化情報に基づいて前記第４のデータに対して前記第２の復号を行う第２の復号ステップと、
前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果の代わりに前記第２のデータの復号結果を出力し、前記第２のオーディオ信号のストリームに欠落またはエラーが発生していない場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果を出力する出力ステップと
を含む処理を実行させるためのプログラム。
フレーム単位のオーディオ信号である第１のオーディオ信号を符号化して第１のデータを生成し、前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号を符号化して第２のデータを生成する第１の符号化手段と、
前記第１のオーディオ信号と前記第２のオーディオ信号の差分を符号化して第３のデータを生成し、前記２のオーディオ信号と、前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である前記第３のオーディオ信号の差分を符号化して第４のデータを生成する第２の符号化手段と、
前記第１のデータと前記第３のデータを多重化して前記第１のオーディオ信号のストリームを生成し、前記第２のデータと前記第４のデータを多重化して前記第２のオーディオ信号のストリームを生成する多重化手段と
を備え、
前記第３のデータは、前記第１のオーディオ信号および前記第２のオーディオ信号のストリームを復号する復号装置において、前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合に、その第２のオーディオ信号のストリームに含まれる前記第２のデータの代わりに復号され、前記第１のデータの復号結果と合成される
符号化装置。
フレーム単位のオーディオ信号である第１のオーディオ信号の符号化結果である第１のデータ、および、前記第１のオーディオ信号と、前記第１のオーディオ信号とは異なるフレーム単位のオーディオ信号である第２のオーディオ信号との差分の符号化結果である第２のデータを多重化することにより得られた前記第１のオーディオ信号のストリームと、前記第２のオーディオ信号の符号化結果である第３のデータ、および、前記第２のオーディオ信号と、前記第１および第２のオーディオ信号とは異なるフレーム単位のオーディオ信号である第３のオーディオ信号との差分の符号化結果である第４のデータを多重化することにより得られた前記第２のオーディオ信号のストリームとを取得する取得手段と、
前記第１のデータと前記第３のデータを復号する第１の復号手段と、
前記第２のデータを復号して、前記第１のデータの復号結果と前記第２のデータの復号結果を合成し、前記第４のデータを復号して、前記第３のデータの復号結果と前記第４の復号結果を合成する第２の復号手段と、
前記第２のオーディオ信号のストリームに欠落またはエラーが発生した場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果の代わりに前記第１のデータと前記第２のデータの復号結果の合成結果を出力し、前記第２のオーディオ信号のストリームに欠落またはエラーが発生していない場合、その第２のオーディオ信号のストリームに含まれる前記第３のデータの復号結果を出力する出力手段と
を備える復号装置。