JP3876819B2

JP3876819B2 - 音声符号化方法及び音声復号化方法

Info

Publication number: JP3876819B2
Application number: JP2002344096A
Authority: JP
Inventors: 美昭田中; 昭治植野; 徳彦渕上
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 2002-11-27
Filing date: 2002-11-27
Publication date: 2007-02-07
Anticipated expiration: 2018-11-16
Also published as: JP2003177795A

Description

【０００１】
【発明の属する技術分野】
本発明は、マルチチャネル音声信号の音声符号化方法及び音声復号化方法に関する。
【０００２】
【従来の技術】
音声信号を可変長で圧縮する方法として、本発明者は先の出願（特願平９−２８９１５９号）において１チャネルの原デジタル音声信号に対して、特性が異なる複数の予測器により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、原デジタル音声信号と、この複数の線形予測値から予測器毎の予測残差を算出し、予測残差の最小値を選択する予測符号化方法を提案している。
【０００３】
なお、上記方法では原デジタル音声信号がサンプリング周波数＝９６ｋＨｚ、量子化ビット数＝２０ビット程度の場合にある程度の圧縮効果を得ることができるが、近年のＤＶＤオーディオディスクではこの２倍のサンプリング周波数（＝１９２ｋＨｚ）が使用され、また、量子化ビット数も２４ビットが使用される傾向がある。また、マルチチャネルにおけるサンプリング周波数と量子化ビット数はチャネル毎に異なることもある。
【０００４】
【発明が解決しようとする課題】
ところで、マルチチャネルの音声信号を伝送する場合、著作権者がオーディオソースに依っては圧縮を希望するものとそうでないものがあり、また、ユーザがマルチチャネルをステレオ２チャネルにダウンミクスして再生することを望まないものとそうでないものとの２通りがある。したがって、このように圧縮又は非圧縮で選択的に伝送する２通りと、再生側のダウンミクスを選択的に許可、禁止する２通りの合計４通りで伝送した場合には、再生側でこれを識別して選択的に再生する必要がある。
【０００５】
そこで本発明は、再生側のダウンミクスを選択的に許可又は禁止しても再生側が正常に再生することができる音声符号化方法及び音声復号化方法を提供することを目的とする。
【０００６】
【課題を解決するための手段】
本発明は上記目的を達成するために、以下の１）及び２）の手段より成る。
すなわち、
１）マルチチャネルの音声信号を、そのままのチャネル又は互いに相関あるチャネル毎に、入力される音声信号に応答して先頭サンプル値を得ると共に、時間領域の過去の信号から予測される現在の信号の複数の予測値の中でその予測残差が最小となるような線形予測方法を選択して圧縮するステップと、
前記ステップにより選択された先頭サンプル値と予測残差と線形予測方法とを含む圧縮データを格納するサブパケットと、前記サブパケットに対応して設けられその同期情報を含む同期情報部と、から一つのアクセスユニットを形成し、前記同期情報部に再生側において元のアナログ音声信号に復元される際に用いられるサンプリング周波数及び量子化ビット数を収納するようにしたオーディオパケットと、
前記オーディオパケット内のデータが前記圧縮方法により圧縮されていることを示す第１の識別子と、前記オーディオパケットに格納されたマルチチャネルデータをステレオ２チャネルにダウンミクスすることを許可するか又は禁止するかを示す第２の識別子が配置された管理情報とを、
有するデータ構造にフォーマット化するステップと、
からなる音声符号化方法である。
２）１）に記載の音声符号化方法によりフォーマット化されたデータ構造のデータを復号する音声復号化方法であって、
前記データをオーディオパケットと管理情報に分離するステップと、
前記管理情報から第１の識別子と第２の識別子を抽出するステップと、
前記抽出された第２の識別子がダウンミクスすることを許可する場合に前記サブパケット内の圧縮データを前記抽出された第１の識別子に基づいて伸長してマルチチャネルとステレオ２チャネルの少なくともいずれかで取り出し、
前記第２の識別子がダウンミクスすることを禁止する場合には前記サブパケット内の圧縮データを前記第１の識別子に基づいて伸長してマルチチャネルのみで取り出すステップと、
前記伸長された音声データを前記オーディオパケット内の同期情報部に含まれるサンプリング周波数及び量子化ビット数に基づいてアナログ音声信号に変換するステップと、
からなる音声復号化方法である。
【０００７】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。図１〜図４は本発明が適用されるマルチチャネル伝送形態を実現する音声符号化装置の処理を示す説明図である。
【０００８】
ここで、マルチチャネル方式としては、例えば次の４つの方式が知られている。
（１）４チャネル方式
ドルビーサラウンド方式のように、前方Ｌ、Ｃ、Ｒの３チャネル＋後方Ｓの１チャネルの合計４チャネル
（２）５チャネル方式
ドルビーＡＣ−３方式のＳＷチャネルなしのように、前方Ｌ、Ｃ、Ｒの３チャネル＋後方ＳＬ、ＳＲの２チャネルの合計５チャネル
（３）６チャネル方式
ＤＴＳ（Digital Theater System）方式や、ドルビーＡＣ−３方式のように６チャネル（Ｌ、Ｃ、Ｒ、ＳＷ（Ｌｆｅ）、ＳＬ、ＳＲ）
（４）８チャネル方式
ＳＤＤＳ（Sony Dynamic Digital Sound）方式のように、前方Ｌ、ＬＣ、Ｃ、ＲＣ、Ｒ、ＳＷの６チャネル＋後方ＳＬ、ＳＲの２チャネルの合計８チャネル
【０００９】
図１は第１の例の伝送形態として、マルチチャネルを圧縮するとともに再生側のダウンミクスを禁止する場合を示している。符号化側の６チャネル（ch）ミクス＆マトリクス回路１’は、マルチチャネル信号の一例としてフロントレフト（Ｌｆ）、センタ（Ｃ）、フロントライト（Ｒｆ）、サラウンドレフト（Ｌｓ）、サラウンドライト（Ｒｓ）及びＬｆｅ（Low Frequency Effect）の６chのＰＣＭデータを次式（１−１）により６ch「１」〜「６」分の相関信号に変換し、符号化部２’に出力する。
「１」＝Ｌｆ＋Ｒｆ−Ｃ
「２」＝Ｌｆ−Ｒｆ−Ｃ
「３」＝Ｃ−（Ｌｓ＋Ｒｓ）／２
「４」＝Ｌｓ＋Ｒｓ
「５」＝Ｌｓ−Ｒｓ
「６」＝Ｌｆｅ−ａ×Ｃ
ただし、０≦ａ≦１ …（１−１）
このような６チャネル（ｃｈ）ミクス＆マトリクス回路１’による相関式と符号化部２’の符号化方式は選択手段７’で選択される。以下説明する図２、図３、図４、図５及び図６でも同様であるので、これらの図では選択手段７’を略すことにする。
【００１０】
第１と第２の符号化部２’−１、２’−２を有する符号化部２’は図７に詳しく示すようにこの６ch「１」〜「６」のＰＣＭデータを予測符号化し、予測符号化データを図８に示すようなビットストリームで記録媒体５や通信媒体６を介して復号側に伝送する。復号側では第１と第２の復号化部３’−１、３’−２を有する復号化部３’により、図１４に詳しく示すように６ch「１」〜「６」の予測符号化データをＰＣＭデータに復号し、次いでミクス＆マトリクス回路４’により式（１−１）に基づいて元の６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）のみを復元する。
【００１１】
図２は第２の例の伝送形態として、マルチチャネルを圧縮するとともに再生側のダウンミクスを許可する場合を示している。符号化側の６chミクス＆マトリクス回路１’は、元の６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）と係数ｍij（ｉ＝１，２，ｊ＝１，２〜６）により次式（２）のようにステレオ２chデータ（Ｌ、Ｒ）を生成（ダウンミクス）する。

【００１２】
そして、式（２）と次式（１−２）により次のような第１グループの２チャネル分の相関信号「１」、「２」と第２グループの４チャネル分の相関信号「３」〜「６」に変換し、それぞれ第１符号化部２’−１、第２符号化部２’−２に出力する。
「１」＝Ｌ＋Ｒ
「２」＝Ｌ−Ｒ
「３」〜「６」は式（１−１）と同じ …（１−２）
【００１３】
第１、第２符号化部２’−１、２’−２はそれぞれ第１グループチャネル「１」、「２」と第２グループチャネル「３」〜「６」のＰＣＭデータを予測符号化し、各チャネルの予測符号化データを記録媒体５や通信媒体６を介して復号側に伝送する。復号側では第１、第２復号化部３’−１、３’−２により、それぞれ第１グループチャネル「１」、「２」と第２グループチャネル「３」〜「６」の予測符号化データをＰＣＭデータに復号し、次いでミクス＆マトリクス回路４’により式（１−２）、（２）に基づいて元の６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）を復元するとともに、第１グループチャネル「１」、「２」を加算、減算することによりそれぞれステレオ２chデータ（Ｌ、Ｒ）を生成する。
【００１４】
図３は第３の例の伝送形態として、マルチチャネルを圧縮しないで伝送するとともに再生側のダウンミクスを禁止する場合を示している。この場合には、非圧縮であるので、符号化側では相関信号も生成することなく元の６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）のＰＣＭデータをそのまま伝送し（ただし、フォーマット化する）、復号化側ではデフォーマット化した後、元の６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）のみを復元する。
【００１５】
図４は第４の例の伝送形態として、マルチチャネルを圧縮しないで伝送するとともに再生側のダウンミクスを許可する場合を示している。この場合にも、非圧縮であるので、符号化側では圧縮率を高めるための相関信号も生成することなく元の６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）のＰＣＭデータをそのまま伝送する（ただし、フォーマット化する）。復号化側ではデフォーマット化した後、元の６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）を復元するとともに、式（２）によりステレオ２chデータ（Ｌ、Ｒ）を生成（ダウンミクス）する。
【００１６】
図５は図１においてマルチチャネルを圧縮するとともに再生側のダウンミクスを禁止する場合の変形例を示している。この場合には、符号化側では次式（１−３）により６ch（１）〜（６）分の相関信号に変換し、符号化部２’はこれを予測符号化する。そして、復号化側では式（１−２）により元の６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）のみを復元する。
「１」＝Ｌｆ−Ｃ
「２」＝Ｒｆ−Ｃ
「３」〜「６」は式（１−１）と同じ …（１−３）
このように再生側のダウンミクスを禁止する場合は、これに対応して式（２）のダウンミクス係数を符号化に加えないとともに、符号化側で式（２）によりステレオ２ｃｈデータ（Ｌ、Ｒ）を生成（ダウンミクス）することが禁じられる。
【００１７】
図６は図２においてマルチチャネルを圧縮するとともに再生側のダウンミクスを許可する場合の変形例を示している。この場合には、符号化側では式（２）によりステレオ２chデータ（Ｌ、Ｒ）を生成（ダウンミクス）し、次いで次式（１−４）により次のような第１グループの２チャネル「１」、「２」と第２グループの４チャネル分の相関信号「３」〜「６」に変換し、第１、第２符号化部２’−１、２’−２はこの各グループチャネルを予測符号化する。そして、復号化側では式（１−４）、（２）により元の６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）を復元するとともにステレオ２chデータ（Ｌ、Ｒ）をそのまま出力する。
「１」＝Ｌ
「２」＝Ｒ
「３」〜「６」は式（１−１）と同じ …（１−４）
【００１８】
図７を参照して符号化部２’−１、２’−２について詳しく説明する。各ch「１」〜「６」のＰＣＭデータは１フレーム毎に１フレームバッファ１０に格納される。そして、１フレームの各ch「１」〜「６」のサンプルデータがそれぞれ予測回路１３Ｄ１、１３Ｄ２、１５Ｄ１〜１５Ｄ４に印加されるとともに、各ch「１」〜「６」の各フレームの先頭サンプルデータがフォーマット化回路１９に印加される。予測回路１３Ｄ１、１３Ｄ２、１５Ｄ１〜１５Ｄ４はそれぞれ、各ch「１」〜「６」のＰＣＭデータに対して、特性が異なる複数の予測器（不図示）により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、次いで原ＰＣＭデータと、この複数の線形予測値から予測器毎の予測残差を算出する。続くバッファ・選択器１４Ｄ１、１４Ｄ２、１６Ｄ１〜１６Ｄ４はそれぞれ、予測回路１３Ｄ１、１３Ｄ２、１５Ｄ１〜１５Ｄ４により算出された各予測残差を一時記憶して、選択信号／ＤＴＳ（デコーディング・タイム・スタンプ）生成器１７により指定されたサブフレーム毎に予測残差の最小値を選択する。
【００１９】
選択信号／ＤＴＳ生成器１７は予測残差のビット数フラグをパッキング回路１８とフォーマット化回路１９に対して印加し、また、予測残差が最小の予測器を示す予測器選択フラグと、相関係数ａと、復号化側が入力バッファ２２ａ（図１４）からストリームデータを取り出す時間を示すＤＴＳをフォーマット化回路１９に対して印加する。パッキング回路１８はバッファ・選択器１４Ｄ１、１４Ｄ２、１６Ｄ１〜１６Ｄ４により選択された６ch分の予測残差を、選択信号／ＤＴＳ生成器１７により指定されたビット数フラグに基づいて指定ビット数でパッキングする。またＰＴＳ生成器１７ｃは、復号化側が出力バッファ１１０（図１４）からＰＣＭデータを取り出す時間を示すＰＴＳ（プレゼンテーション・タイム・スタンプ）を生成してフォーマット化回路１９に出力する。フォーマット化回路１９にはまた、圧縮／非圧縮などを示す符号化モードと、ダウンミクス許可／禁止を示す識別子が印加される。
【００２０】
続くフォーマット化回路１９は図８〜図１３に示すようなユーザデータにフォーマット化する。図８に示すユーザデータ（サブパケット）は、前方グループに関する２ch「１」、「２」の予測符号化データを含む可変レートビットストリーム（サブストリーム）ＢＳ０と、他のグループに関する４ch「３」〜「６」の予測符号化データを含む可変レートビットストリーム（サブストリーム）ＢＳ１と、サブストリームＢＳ０、ＢＳ１の前に設けられたビットストリームヘッダ（リスタートヘッダ）により構成されている。
【００２１】
また、サブストリームＢＳ０、ＢＳ１の１フレーム分は
・フレームヘッダと、
・各ch「１」〜「６」の１フレームの先頭サンプルデータと、
・各ch「１」〜「６」のサブフレーム毎の予測器選択フラグと、
・各ch「１」〜「６」のサブフレーム毎のビット数フラグと、
・各ch「１」〜「６」の予測残差データ列（可変ビット数）と、
・ch「６」の係数ａとが、
多重化されている。このような予測符号化によれば、原信号が例えばサンプリング周波数＝９６ｋＨｚ、量子化ビット数＝２４ビット、６チャネルの場合、７１％の圧縮率を実現することができる。
【００２２】
図７に示す符号化部２’−１、２’−２により予測符号化された可変レートビットストリームデータを、記録媒体の一例としてＤＶＤオーディオディスクに記録する場合には、図９に示すオーディオ（Ａ）パックにパッキングされる。このパックは２０３４バイトのユーザデータ（Ａパケット、Ｖパケット）に対して４バイトのパックスタート情報と、６バイトのＳＣＲ（System Clock Reference：システム時刻基準参照値）情報と、３バイトのMux レート（rate）情報と１バイトのスタッフィングの合計１４バイトのパックヘッダが付加されて構成されている（１パック＝合計２０４８バイト）。この場合、タイムスタンプであるＳＣＲ情報を、先頭パックでは「１」として同一タイトル内で連続とすることにより同一タイトル内のＡパックの時間を管理することができる。
【００２３】
圧縮ＰＣＭのＡパケットは図１０に詳しく示すように、１９又は１４バイトのパケットヘッダと、圧縮ＰＣＭのプライベートヘッダと、図１１に示すフォーマットの１ないし２０１１バイトのオーディオデータ（圧縮ＰＣＭ）により構成されている。そして、ＤＴＳとＰＴＳは図５のパケットヘッダ内に（具体的にはパケットヘッダの１０〜１４バイト目にＰＴＳが、１５〜１９バイト目にＤＴＳが）セットされる。圧縮ＰＣＭのプライベートヘッダは、
・１バイトのサブストリームＩＤと、
・２バイトのＵＰＣ／ＥＡＮ−ＩＳＲＣ（Universal Product Code/European Article Number-International Standard Recording Code）番号、及びＵＰＣ／ＥＡＮ−ＩＳＲＣデータと、
・１バイトのプライベートヘッダ長と、
・２バイトの第１アクセスユニットポインタと、
・８バイトのオーディオデータ情報（ＡＤＩ）と、
・０〜７バイトのスタッフィングバイトとに、
より構成されている。
【００２４】
また、ＡＤＩ内に１秒後のアクセスユニットをサーチするための前方アクセスユニット・サーチポインタと、１秒前のアクセスユニットをサーチするための後方アクセスユニット・サーチポインタがともに１バイトでセットされる。具体的にはＡＤＩの７バイト目に前方アクセスユニット・サーチポインタが、８バイト目に後方アクセスユニット・サーチポインタがセットされる。
【００２５】
図１０に示す圧縮ＰＣＭ（ＰＰＣＭともいう）のオーディオパケットにおけるオーディオデータエリアは、図１１に示すようにサブパケットと複数のＰＰＣＭアクセスユニットにより構成され、ＰＰＣＭアクセスユニットはＰＰＣＭシンク情報とサブパケットにより構成されている。最初のＰＰＣＭアクセスユニット内のサブパケットは、ディレクトリと、サブストリーム「０」と、ＣＲＣと、サブストリーム「１」と、ＣＲＣとエクストラ情報により構成され、サブストリーム「０」、「１」はＰＰＣＭブロックのみにより構成されている。２番目以降のＰＰＣＭアクセスユニット内のサブパケットは、ディレクトリを除いてサブストリーム「０」と、ＣＲＣと、サブストリーム「１」と、ＣＲＣとエクストラ情報により構成され、サブストリーム「０」、「１」はリスタートヘッダとＰＰＣＭブロックにより構成されている。
【００２６】
ＰＰＣＭシンク情報（以下、同期情報ともいう）は次の情報を含む。
・１パケット当たりのサンプル数：サンプリング周波数ｆｓに応じて４０、８０又は１６０が選択される。
・データレート：ＶＢＲの場合には「０」（サブパケット内のデータが圧縮データであることを示す識別子）
・サンプリング周波数ｆｓ及び量子化ビット数Ｑｂ
・チャネル割り当て情報
【００２７】
フォーマット化回路１９はまた、図８〜図１１に示すオーディオパックを管理するために図１２、図１３に示すような管理情報を含むＡＴＳＩ（オーディオ・タイトル・セット・インフォーメーション）をフォーマット化する。図１２はＡＯＴＴ−ＡＯＢ−ＡＴＲ（オーディオオンリタイトル・オーディオオブジェクトセット・アトリビュート）を示し、このＡＯＴＴ−ＡＯＢ−ＡＴＲ（ｂ１２７〜ｂ０）は、ＭＳＢ側から順に
・８ビット（ｂ１２７〜ｂ１２０）のオーディオ符号化モードと、
・８ビット（ｂ１１９〜ｂ１１２）の保留領域と、
・４ビット（ｂ１１１〜ｂ１０８）のチャネルグループ「１」の量子化ビット数Ｑ１と、
・４ビット（ｂ１０７〜ｂ１０４）のチャネルグループ「２」の量子化ビット数Ｑ２と、
・４ビット（ｂ１０３〜ｂ１００）のチャネルグループ「１」のサンプリング周波数ｆｓ１と、
・４ビット（ｂ９９〜ｂ９６）のチャネルグループ「２」のサンプリング周波数ｆｓ２と、
・３ビット（ｂ９５〜ｂ９３）のマルチチャネル構造のタイプと、
・５ビット（ｂ９２〜ｂ８８）のチャネル割り当てと、
・８ビット×１１（ｂ８７〜ｂ０）の保留領域により構成されている。
【００２８】
上記データを以下に詳しく示す。
（１）オーディオ符号化モード（ｂ１２７〜ｂ１２０）
００００００００ｂ：リニアＰＣＭモード
０００００００１ｂ：圧縮ＰＣＭモード
その他：その他の符号化モード用に保留
【００２９】
（２）チャネルグループ１の量子化ビット数Ｑ１（ｂ１１１〜ｂ１０８）
００００ｂ：１６ビット
０００１ｂ：２０ビット
００１０ｂ：２４ビット
その他：保留
（３）チャネルグループ２の量子化ビット数Ｑ２（ｂ１０７〜ｂ１０４）
・チャネルグループ１の量子化ビット数Ｑ１が「００００ｂ」の場合には「００００ｂ」
・チャネルグループ１の量子化ビット数Ｑ１が「０００１ｂ」の場合には「００００ｂ」又は「０００１ｂ」
・チャネルグループ１の量子化ビット数Ｑ１が「００１０ｂ」の場合には「００００ｂ」、「０００１ｂ」又は「００１０ｂ」
ただし、００００ｂ：１６ビット
０００１ｂ：２０ビット
００１０ｂ：２４ビット
その他：保留
【００３０】
（４）チャネルグループ１のサンプリング周波数ｆｓ１（ｂ１０３〜ｂ１００）
００００ｂ：４８ｋＨｚ
０００１ｂ：９６ｋＨｚ
００１０ｂ：１９２ｋＨｚ
１０００ｂ：４４．１ｋＨｚ
１００１ｂ：８８．２ｋＨｚ
１０１０ｂ：１７６．４ｋＨｚ
その他：保留
【００３１】
（５）チャネルグループ２のサンプリング周波数ｆｓ２（ｂ９９〜ｂ９６）
・チャネルグループ１のサンプリング周波数ｆｓ１が「００００ｂ」の場合には「００００ｂ」
・チャネルグループ１のサンプリング周波数ｆｓ１が「０００１ｂ」の場合には「００００ｂ」又は「０００１ｂ」
・チャネルグループ１のサンプリング周波数ｆｓ１が「００１０ｂ」の場合には「００００ｂ」、「０００１ｂ」又は「００１０ｂ」
・チャネルグループ１のサンプリング周波数ｆｓ１が「１０００ｂ」の場合には「１０００ｂ」
・チャネルグループ１のサンプリング周波数ｆｓ１が「１００１ｂ」の場合には「１０００ｂ」又は「１００１ｂ」
・チャネルグループ１のサンプリング周波数ｆｓ１が「１０１０ｂ」の場合には「１０００ｂ」、「１００１ｂ」又は「１０１０ｂ」
【００３２】
（６）マルチチャネル構造のタイプ（ｂ９５〜ｂ９３）
０００ｂ：タイプ１
その他：保留
（７）チャネル割り当て（ｂ９２〜ｂ８８）
１チャネル（モノラル）から６チャネルまでのグループ「１」、「２」のチャネル割り当て情報
【００３３】
図１３はＡＴＳ−ＰＧ−ＣＮＴ（オーディオタイトルセット・プログラム・コンテンツ）を示し、これは先頭から順に
・１ビット（ｂ３１）の、前回と今回のＰＧの関係（Ｒ／Ａ）と、
・１ビット（ｂ３０）のＳＴＣ不連続性フラグ（ＳＴＣ−Ｆ）と、
・３ビット（ｂ２９〜ｂ２７）のアトリビュート数（ＡＴＲＮ）と、
・３ビット（ｂ２６〜ｂ２４）のチャネルグループ（ＣｈＧｒ）「２」のビットシフトデータと、
・２ビット（ｂ２３、ｂ２２）の保留領域と、
・１ビット（ｂ２１）のダウンミックスモード（Ｄ−Ｍ）と、
・１ビット（ｂ２０）のダウンミックス係数の有効性（図示※）と、
・４ビット（ｂ１９〜ｂ１６）のダウンミックス係数テーブル番号（ＤＭ−ＣＯＥＦＴＮ）と、
・各々が１ビット、合計１６ビット（ｂ１５〜ｂ０）のＲＴＩフラグＦ１５〜Ｆ０により構成されている。
そして、ビット（ｂ２１）のダウンミクスモード（Ｄ−Ｍ）が「１」の場合に「ダウンミクス禁止」、「０」の場合に「ダウンミクス許可」を表す。
【００３４】
次に図１４を参照して復号化部３’（３’−１、３’−２）について説明する。なお、この復号化部３’（３’−１、３’−２）とミクス＆マトリクス回路４’は、ハードウエアの他にコンピュータプログラムよっても実現することができる。上記フォーマットの可変レートビットストリームデータＢＳ０、ＢＳ１は、デフォーマット化回路２１により分離される。そして、各ｃｈ「１」〜「６」の１フレームの先頭サンプルデータと予測器選択フラグはそれぞれ予測回路２４Ｄ１、２４Ｄ２、２３Ｄ１〜２３Ｄ４に印加され、各ｃｈ「１」〜「６」のビット数フラグはアンパッキング回路２２に印加される。また、ＳＣＲと、ＤＴＳと予測残差データ列は入力バッファ２２ａに印加され、ＰＴＳは出力バッファ１１０に印加される。また、圧縮／非圧縮などを示す符号化モードと、ダウンミクス許可／禁止を示す識別子は制御部１００に印加され、サンプリング周波数ｆｓ及び量子化ビット数ＱｂはＤ／Ａ変換器１０２に印加される。ここで、予測回路２４Ｄ１、２４Ｄ２、２３Ｄ１〜２３Ｄ４内の複数の予測器（不図示）はそれぞれ、符号化側の予測回路１３Ｄ１、１３Ｄ２、１５Ｄ１〜１５Ｄ４内の複数の予測器と同一の特性であり、予測器選択フラグにより同一特性のものが選択される。
【００３５】
デフォーマット化回路２１により分離されたストリームデータ（予測残差データ列）は、図１５に示すようにＳＣＲによりアクセスユニット毎に入力バッファ２２ａに取り込まれて蓄積される。ここで、１つのアクセスユニットのデータ量は、例えばｆｓ＝９６ｋＨｚの場合には（１／９６ｋＨｚ）秒分であるが、図１６、図１７（ａ）に詳しく示すように可変長である。そして、入力バッファ２２ａに蓄積されたストリームデータはＤＴＳに基づいてＦＩＦＯで読み出されてアンパッキング回路２２に印加される。
【００３６】
アンパッキング回路２２は各ｃｈ「１」〜「６」の予測残差データ列をビット数フラグ毎に基づいて分離してそれぞれ予測回路２４Ｄ１、２４Ｄ２、２３Ｄ１〜２３Ｄ４に出力する。予測回路２４Ｄ１、２４Ｄ２、２３Ｄ１〜２３Ｄ４ではそれぞれ、アンパッキング回路２２からの各ｃｈ「１」〜「６」の今回の予測残差データと、内部の複数の予測器の内、予測器選択フラグにより選択された各１つにより予測された前回の予測値が加算されて今回の予測値が算出され、次いで１フレームの先頭サンプルデータを基準として各サンプルのＰＣＭデータが算出されて出力バッファ１１０に蓄積される。出力バッファ１１０に蓄積されたＰＣＭデータはＰＴＳに基づいて読み出されて出力され、したがって、図１７（ａ）に示す可変長のアクセスユニットが伸長されて、図１７（ｂ）に示す一定長のプレゼンテーションユニットが出力される。
【００３７】
また、ＰＰＣＭシンク情報内のサンプリング周波数ｆｓ及び量子化ビット数Ｑｂに基づいて、ＰＣＭデータがＤ／Ａ変換器１０２によりアナログ信号に変換される。ここで、操作部１０１を介してサーチ再生が指示された場合には、制御部１００により図５に示す前方アクセスユニット・サーチポインタ（１秒先）と後方アクセスユニット・サーチポインタ（１秒前）に基づいてアクセスユニットを再生する。このサーチポインタとしては、１秒先、１秒前の代わりに２秒先、２秒前のものでよい。
【００３８】
符号化部２’（２’−１、２’−２）により予測符号化された可変レートビットストリームデータをネットワークを介して伝送する場合には、符号化側では図１８に示すように伝送用にパケット化し（ステップＳ４１）、次いでパケットヘッダを付与し（ステップＳ４２）、次いでこのパケットをネットワーク上に送り出す（ステップＳ４３）。
【００３９】
復号側では図１９（Ａ）に示すようにヘッダを除去し（ステップＳ５１）、次いでデータを復元し（ステップＳ５２）、次いでこのデータをメモリに格納して復号を待つ（ステップＳ５３）。そして、復号を行う場合には図１９（Ｂ）に示すように、デフォーマット化を行い（ステップＳ６１）、次いで入力バッファ２２ａの入出力制御を行い（ステップＳ６２）、次いでアンパッキングを行う（ステップＳ６３）。なお、このとき、サーチ再生指示がある場合にはサーチポインタをデコードする。次いで予測器をフラグに基づいて選択してデコードを行い（ステップＳ６４）、次いで出力バッファ１１０の入出力制御を行い（ステップＳ６５）、次いで元のマルチチャネルを復元し（ステップＳ６６）、次いでこれを出力し（ステップＳ６７）、以下、これを繰り返す。
【００４０】
次に図２０、図２１を参照して別の例について説明する。上述の例では、１グループの相関性の信号「１」〜「６」を予測符号化するように構成されているが、この例では複数グループの相関性のある信号を生成して予測符号化し、圧縮率が最も高いグループの予測符号化データを選択するように構成されている。このため図２０に示す符号化部では、第１〜第ｎの相関回路１−１〜１−ｎが設けられ、このｎ個の相関回路１−１〜１−ｎは例えば６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）のＰＣＭデータを、相関性が異なるｎ種類の６ch信号「１」〜「６」に変換する。
【００４１】
例えば第１の相関回路１−１は以下のように変換し、
（１）＝Ｌｆ
（２）＝Ｃ−（Ｌｓ＋Ｒｓ）／２
（３）＝Ｒｆ−Ｌｆ
（４）＝Ｌｓ−ａ×Ｌｆｅ
（５）＝Ｒｓ−ｂ×Ｒｆ
（６）＝Ｌｆｅ
また、第ｎの相関回路１−ｎは以下のように変換する。
（１）＝Ｌｆ＋Ｒｆ
（２）＝Ｃ−Ｌｆ
（３）＝Ｒｆ−Ｌｆ
（４）＝Ｌｓ−Ｌｆ
（５）＝Ｒｓ−Ｌｆ
（６）＝Ｌｆｅ−Ｃ
【００４２】
また、相関回路１−１〜１−ｎ毎に予測回路１５とバッファ・選択器１６が設けられ、グループ毎の予測残差の最小値のデータ量に基づいて圧縮率が最も高いグループが相関選択信号生成器１７ｂにより選択される。このとき、フォーマット化回路１９はその選択フラグ（相関回路選択フラグ、その相関回路の相関係数ａ、ｂ）を追加して多重化する。
【００４３】
また、図２１に示す復号化側では、符号化側の相関回路１−１〜１−ｎに対してｎ個の相関回路４−１〜４−ｎ（又は係数ａ、ｂが変更可能な１つの相関回路４）が設けられる。なお、図２０に示すｎグループの予測回路が同一の構成である場合、復号装置では図２１に示すようにｎグループ分の予測回路を設ける必要はなく、１つのグループ分の予測回路でよい。そして、符号化装置から伝送された選択フラグに基づいて相関回路４−１〜４−ｎの１つを選択、又は係数ａ、ｂを設定して元の６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）を復元し、また、式（２）によりマルチチャネルをダウンミクスしてステレオ２chデータ（Ｌ、Ｒ）を生成する。
【００４４】
また、先の第１の例では、１種類の相関性の信号「１」〜「６」を予測符号化するように構成されているが、この信号「１」〜「６」のグループと原信号（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）のグループを予測符号化し、圧縮率が高い方のグループを選択するようにしてもよい。
本発明によれば、特許請求の範囲に記載した発明の他に、次のような発明が提供される。
マルチチャネルの音声信号が圧縮されたデータ又は圧縮されないデータを選択的にオーディオパケットに配置するフォーマット化手段と、
前記オーディオパケット内のマルチチャネルデータが圧縮されているか否か、あるいは、前記オーディオパケット内のマルチチャネルデータをステレオ２チャネルにダウンミクスすることを許可するか又は禁止するかによってあらかじめダウンミクスして符号化するか否か、あるいはダウンミクス係数を符号化するか否かを選択する手段とを、
有する音声符号化装置。
【００４５】
【発明の効果】
以上説明したように本発明によれば、例えば、マルチチャネルデータが圧縮されているか否かを示す識別子と、マルチチャネルデータをステレオ２チャネルにダウンミクスすることを許可するか又は禁止するかを示す識別子とを含むデータ構造に符号化するようにしたので、正常に復号化して再生することができる。
【図面の簡単な説明】
【図１】本発明が適用されるマルチチャネルの伝送形態の第１の例を示す説明図である。
【図２】本発明が適用されるマルチチャネルの伝送形態の第２の例を示す説明図である。
【図３】本発明が適用されるマルチチャネルの伝送形態の第３の例を示す説明図である。
【図４】本発明が適用されるマルチチャネルの伝送形態の第４の例を示す説明図である。
【図５】図１の変形例を示す説明図である。
【図６】図２の変形例を示す説明図である。
【図７】図１の符号化部を詳しく示すブロック図である。
【図８】図１、図７の符号化部により符号化されたビットストリームを示す説明図である。
【図９】ＤＶＤのパックのフォーマットを示す説明図である。
【図１０】ＤＶＤのオーディオパックのフォーマットを示す説明図である。
【図１１】図１０のオーディオデータエリアのフォーマットを詳しく示す説明図である。
【図１２】ＤＶＤオーディオのＡＯＴＴ−ＡＯＢ−ＡＴＲ（オーディオオンリタイトル・オーディオオブジェクトセット・アトリビュート）を示す説明図である。
【図１３】ＤＶＤオーディオのＡＴＳ−ＰＧ−ＣＮＴ（オーディオタイトルセット・プログラム・コンテンツ）を示す説明図である。
【図１４】図１の復号化部を詳しく示すブロック図である。
【図１５】図１４の入力バッファの書き込み／読み出しタイミングを示すタイミングチャートである。
【図１６】アクセスユニット毎の圧縮データ量を示す説明図である。
【図１７】アクセスユニットとプレゼンテーションユニットを示す説明図である。
【図１８】音声伝送方法を示すフローチャートである。
【図１９】音声伝送方法を示すフローチャートである。
【図２０】第２の例の音声符号化装置を示すブロック図である。
【図２１】第２の例の音声復号装置を示すブロック図である。
【符号の説明】
１’ ６chミクス＆マトリクス回路
１３Ｄ１，１３Ｄ２，１５Ｄ１〜１５Ｄ４予測回路（バッファ・選択器
１４Ｄ１，１４Ｄ２，１６Ｄ１〜１６Ｄ４と共に圧縮手段を構成する。）
１４Ｄ１，１４Ｄ２，１６Ｄ１〜１６Ｄ４バッファ・選択器
１７選択信号／ＤＴＳ生成器
１７ｃＰＴＳ生成器
１９フォーマット化回路
２１デフォーマット化回路（分離手段）
２２アンパッキング回路
２２ａ入力バッファ
２４Ｄ１，２４Ｄ２，２３Ｄ１〜２３Ｄ４予測回路（伸長手段）
１００制御部（再生手段）
１０２Ｄ／Ａ変換器
１１０出力バッファ

Claims

マルチチャネルの音声信号を、そのままのチャネル又は互いに相関あるチャネル毎に、入力される音声信号に応答して先頭サンプル値を得ると共に、時間領域の過去の信号から予測される現在の信号の複数の予測値の中でその予測残差が最小となるような線形予測方法を選択して圧縮するステップと、
前記ステップにより選択された先頭サンプル値と予測残差と線形予測方法とを含む圧縮データを格納するサブパケットと、前記サブパケットに対応して設けられその同期情報を含む同期情報部と、から一つのアクセスユニットを形成し、前記同期情報部に再生側において元のアナログ音声信号に復元される際に用いられるサンプリング周波数及び量子化ビット数を収納するようにしたオーディオパケットと、
前記オーディオパケット内のデータが前記圧縮方法により圧縮されていることを示す第１の識別子と、前記オーディオパケットに格納されたマルチチャネルデータをステレオ２チャネルにダウンミクスすることを許可するか又は禁止するかを示す第２の識別子が配置された管理情報とを、
有するデータ構造にフォーマット化するステップと、
からなる音声符号化方法。
請求項１記載の音声符号化方法によりフォーマット化されたデータ構造のデータを復号する音声復号化方法であって、
前記データをオーディオパケットと管理情報に分離するステップと、
前記管理情報から第１の識別子と第２の識別子を抽出するステップと、
前記抽出された第２の識別子がダウンミクスすることを許可する場合に前記サブパケット内の圧縮データを前記抽出された第１の識別子に基づいて伸長してマルチチャネルとステレオ２チャネルの少なくともいずれかで取り出し、
前記第２の識別子がダウンミクスすることを禁止する場合には前記サブパケット内の圧縮データを前記第１の識別子に基づいて伸長してマルチチャネルのみで取り出すステップと、
前記伸長された音声データを前記オーディオパケット内の同期情報部に含まれるサンプリング周波数及び量子化ビット数に基づいてアナログ音声信号に変換するステップと、
からなる音声復号化方法。