JP3927627B2

JP3927627B2 - ディジタル・オーディオ符号化方法

Info

Publication number: JP3927627B2
Application number: JP25188196A
Authority: JP
Inventors: 度亨金; 延培金; 尚ウック金; 亮錫徐
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 1995-09-22
Filing date: 1996-09-24
Publication date: 2007-06-13
Anticipated expiration: 2016-09-24
Also published as: DE19638997B4; US5864802A; JPH09134200A; DE19638997A1

Description

【０００１】
【発明の属する技術分野】
本発明はディジタル・オーディオ符号化方法及びその装置に係り、特にルックアップ・テーブル（Look-Up Table; 以下、ＬＵＴという）を用いたディジタル・オーディオ符号化方法及びその装置に関する。
【０００２】
【従来の技術】
現在の通信技術においては、アナログ・データをディジタル・データに変換することが多い。この傾向に伴い、全てのオーディオ機器またはオーディオ・データ伝送システムにおいて、ディジタル伝送は不可欠になった。このディジタル・オーディオ・データの伝送は、既存のアナログ伝送方式より周囲の雑音に強く、かつ、音質もコンパクト・ディスクのように極めて良好に再生することができる。しかしながら、伝送するデータの量が増えるにつれて、メモリ容量または伝送線路容量などについて各種の問題が生じる。
【０００３】
この問題を解決するため、圧縮技術が求められている。オーディオ圧縮技術の目標は、原音を圧縮して伝送した後、その伝送されたデータを伸長して聞くとき、原音と殆ど一致するように再生することである。
【０００４】
現在、このような技術は世界的に使用されているが、その出発点は、１９９２年の日本のＳＯＮＹ社によるミニディスク（ＭＤ）及びＰｈｉｌｐｓ社によるディジタル・コンパクト・カセット（ＤＣＣ）である。ＭＤの場合は、ＣＤ水準の音質で再生でき、既存のＣＤより大きさが小さいが、圧縮率を約５：１としてＣＤより多量のデータを貯蔵することができ、外部の衝撃にも強いという特性を有している。
【０００５】
一方、ディジタル圧縮符号化技術に対する国際標準化機構、すなわち、ＭＰＥＧ（Moving Picture Experts Group) が設立された。ＭＰＥＧは、システム、ビデオ、オーディオの三つに大別される。そのうち、オーディオ部分は、更に三つのレイヤに分けられる。
【０００６】
ＭＰＥＧは、動画像とこれに係るオーディオ信号の符号化されたビット・ストリームに対する国際標準案を作成するため、提案された多数の低伝送率の符号化技術を比較、分析及びテストを行う。このような国際標準案が作成されると、今後の全てのディジタル貯蔵媒体ではこの規格を満たすようにデータを符号化して貯蔵するようになる。ディジタル貯蔵媒体には、ＣＤ−ＲＯＭ、ディジタル・オーディオ・テープ（ＤＡＴ）、光磁気ディスク（ＭＯＤ）及びコンピュータ・ディスク（例えば、ＨＤＤ）が含まれる。
【０００７】
オーディオ信号の圧縮符号化においては、人の聴覚心理モデルが広く用いられる。この場合、聴覚特性のうちマスキング現象と臨界帯域とを利用して聞き取れない信号は取り除き、必須の信号のみを符号化してビットを割当てることにより、元の信号より少量のビットで符号化しても、原音と殆ど同じ水準の音質を得ることができる。
【０００８】
ここで、マスキング現象とは、オーディオ信号間の干渉により、一つの信号が他の信号によりマスキングされて、全く聞き取れない現象である。また、臨界帯域とは、人が音の周波数を区分する一種の単位であって、一般に２４個の帯域に分けられる。高周波数であるほど、この帯域の幅はログ・スケールに大きくなる。したがって、低周波数信号よりは高周波数信号を区分しにくい。
【０００９】
この聴覚特性を用いてビットを割当てるため、信号対雑音比（ＳＮＲ）と信号対マスク・レベル比（ＳＭＲ）を求め、この値から更にマスク・レベル対雑音比（ＭＮＲ）を計算する。ここで、マスク・レベルとは、聞き取れない最小の信号レベルである。したがって、このマスク・レベル以下の信号にはビットを割当てなくてもよい。
【００１０】
上述した過程から最終のＭＮＲを求めた後、この値に基づいてビットを繰り返し割当てる。しかしながら、かかる一連の過程には長時間の演算を必要とし、符号化器における実時間の遅延を増加させる。従って、演算の複雑度を解決する必要があった。
【００１１】
次に、一般のＭＰＥＧオーディオ符号化器について図１４を参照して簡単に説明する。図１４に示すように、一般のＭＰＥＧオーディオ符号化器は、周波数マッピング部１１、聴覚心理モデル１３、ビット割当て／量子化部１５、及びフレーム・パッキング部１７とから構成される。
【００１２】
周波数マッピング部１１は、帯域分解フィルタを用いて時間領域のオーディオ・データを３２個の均等な帯域の周波数領域に変換する。この際、各帯域は、１２個（レイヤＩの場合）、又は３６個（レイヤＩＩの場合）のサンプルを含む。一方、スケール・ファクタの個数が全部で６４個なので、この情報の符号化に必要なビット数は６ビットである。符号化方法は各レイヤによって異なり、レイヤＩでは、各帯域に存在する１２個のサンプルのうち最大値を求めて、この値と一致するか、やや大きい値を該当帯域のスケール・ファクタとする。一方、レイヤＩＩでは、各帯域に三つのスケール・ファクタが存在するため、各スケール・ファクタの類似性を検討して三つのスケール・ファクタのうち、何個を符号化するかを決める。すなわち、符号化するスケール・ファクタの数は隣接するスケール・ファクタとの差値の範囲に応じて異なる。したがって、レイヤＩとは異なり、スケール・ファクタを選択する付加情報が求められるが、この場合、情報を２ビットで符号化する。
【００１３】
聴覚心理モデル１３は、符号化器で最大の演算複雑度を有する部分である。この聴覚心理モデル１３の最終出力値はビット割当ての基準として各帯域のＳＭＲである。ＳＭＲ値は次のような一連の段階により計算される。第１段階では高速フーリエ変換（ＦＦＴ）により時間領域のオーディオ信号を周波数領域に変換し、第２段階では各帯域の音圧レベルを計算する。第３段階では絶対マスキング・スレショルド値を計算し、第４段階ではオーディオ信号の有声音と無声音成分を決める。第５段階ではマスカー（masker) を決め、第６段階では各帯域のマスキング・スレショルド値を計算する。第７段階では全ての帯域のマスキング・スレショルド値を計算し、第８段階では各帯域の最小マスキング・スレショルド値を計算する。そして、第９段階では各帯域のＳＭＲ値を計算する。
【００１４】
ビット割当て／量子化部１５は、先ずビット割当て過程において、聴覚心理モデル１３で得られたＳＭＲ値に基づいて次のような一連の段階を繰り返し行い、各帯域のビット割当て量を求める。第１段階では初期の割当てビットを０とし、第２段階では各帯域についてＭＮＲ値を求める。この際のＭＮＲ値はＳＮＲ値からＳＭＲ値を減算した値となる。第３段階では各帯域に求められたＭＮＲ値のうち最小のＮＭＲ値の帯域を探し出して割当てビット数を１ほど増やし、第４段階では求められるビット数を超えないときは、残り帯域について第２及び第３段階を繰り返し行う。
【００１５】
また、量子化過程は次のような一連の段階により行われる。第１段階では、各帯域内のサンプルをスケール・ファクタで割ってＸとする。第２段階では、Ａ＊Ｘ＋Ｂ（ここで、Ａ、Ｂは所定のテーブル値）を計算する。第３段階では、計算された値のうちビット割当て過程から得られた割当てビット数を得て、第４段階では、最上位ビット（ＭＳＢ）を反転させる。
【００１６】
上述したように、従来のディジタル・オーディオ符号化器は聴覚心理モデルを用いるので、ＳＭＲ値を求めるために９段階の処理過程を必要とする。したがって、演算が複雑になり、全体実行時間にも大きな影響を及ぼす。また、得られたＳＭＲ値を用いてＭＮＲを計算し、ＭＮＲに基づいて再びビット割当てループを繰り返し行うので、この過程でも時間の遅れが発生する。表１に示すように、実際のテストの結果では、全体符号化過程の実行時間のうち、聴覚心理モデル生成過程とビット割当て過程が約４９．９％を占め、演算の複雑度が高いということが判る。
【００１７】
【表１】

【００１８】
【発明が解決しようとする課題】
したがって、本発明の目的は、オーディオ圧縮符号化時に必要とされる時間を短縮するため、既存のＭＰＥＧと交換可能であり、入力オーディオ信号の特性に応じるビット割当て量を予めルックアップ・テーブルを用いて作成した後、作成されたルックアップ・テーブルを用いてビットを割当てるディジタル・オーディオ符号化方法を提供することである。
【００１９】
本発明の他の目的は、前記ディジタル・オーディオ符号化方法の実現に最適の装置を提供することである。
【００２０】
【課題を解決するための手段】
本発明に係るディジタル・オーディオ符号化方法は、入力されるオーディオ信号の分散、平均自乗根及びスケール・ファクタの特性組合せに応じて各周波数帯域に対する割当てビットをルックアップ・テーブルを用いて作成する過程と、前記入力される時間領域のオーディオ信号を所定の数の均等な周波数帯域に分割する過程と、該分割された各周波数帯域に対して得られたオーディオ信号の特性の大きさの順位に応じて前記ルックアップ・テーブルのアドレスを決める過程と、該決められたアドレスに該当する割当てビットを前記各周波数帯域に対して割当てた後に量子化する過程と、該量子化されたオーディオ信号をビット・ストリームとして形成する過程とからなることを特徴とする。
【００２１】
また、本発明に係るディジタル・オーディオ符号化装置は、入力されるオーディオ信号の特性に応じる各周波数帯域に対する割当てビットの関係を作成するルックアップ・テーブルと、前記入力される時間領域のオーディオ信号を所定の数の均等な周波数帯域に分割する周波数マッピング部と、該分割された各周波数帯域に対して得られたオーディオ信号の特性の大きさの順位に応じて前記ルックアップ・テーブルのアドレスを決める特性獲得部と、該決められたアドレスに該当する割当てビットを前記各周波数帯域に対して割当てた後に量子化するビット割当て／量子化部と、該量子化されたオーディオ・データをビット・ストリームとして形成するフレーム・パッキング部とを含むことを特徴とする。
【００２２】
【発明の実施の形態】
以下、添付した図面に基づき本発明の実施の形態について詳しく説明する。
【００２３】
本発明の核心となるＬＵＴによるビット割当て方式では、図１４の聴覚心理モデル部分１３とビット割当て量子化部１５の代わりに、予め求められたＬＵＴを用いてビット割当てを行う。本発明によるディジタル・オーディオ符号化装置は、図１に示されているが、先ず、ビット割当てに必要なＬＵＴの生成過程を説明する。
【００２４】
ＬＵＴは、各帯域についてビット割当て量を決めるテーブルであって、ビット割当てに必要とされる時間を最小とするために用いられる。そのため、聴覚心理モデルに用いられるＦＦＴまたは電力分布を求める過程等のような周波数領域で入力信号を分析する過程を取り除くことにより全体の実行時間を減らせるので、入力信号に対する時間領域の特性に鑑みる。言い換えれば、入力信号を周波数領域で解析することなく、時間領域でその特性を直接探して、その特性値をＬＵＴ作成の基にする。
【００２５】
まず、本発明の第１実施形態では、この特性を分散、スケール・ファクタ及び平均自乗根として規定する。この特性は、図１４に示された周波数マッピング部１１の帯域分解フィルタにより求められて、ＬＵＴアドレスの決めに用いられる。先ず、この特性について簡単に説明し、次いで、この特性を符号化アルゴリズムに適用する方法を説明する。
【００２６】
分散特性とは、入力信号の分布が平均にある程度近く分布されているかどうかを知らせる要素である。すなわち、図２（Ａ）に示されるように、分散が大きいときは、入力信号に対する動的領域も大きくなるので、量子化雑音を減らすためにはビット割当て量を多くしなければならない。一方、図２（Ｂ）に示されるように、分散が小さいときは、ビット割当て量を小さくしてもよい。一般に３２個の帯域のうち実際に多量のビットが割り当てられる帯域は低周波数領域（０〜７帯域）なので、分散度もこの帯域では大体に大きい値を有する。分散を求めるため、本発明では入力信号が帯域分解フィルタを通過すると、３２個の各帯域ごとに１２個のサンプルが存在する。先ず、この１２個のサンプルに対する平均ｍ（ｓｂ）と自乗平均ｍｓ（ｓｂ）を求めた後、次の式１により各帯域の分散ｖ（ｓｂ）を求める。
【００２７】
【数１】
ｖ（ｓｂ）＝ｍｓ（ｓｂ）−ｍ（ｓｂ）² ・・・（１）
次に、平均自乗根ｒｍｓ（ｓｂ）特性とは、平均と類似した概念である。一般に入力信号に対する平均を求めると、サイン、コサイン波の場合は０となるため、そのまま平均を求めても意味がない。それで、入力信号の自乗を求めて平均した後、再び自乗根を求める平均自乗根が一つの特性となる。すなわち、これは分散を求めるときに得られた自乗平均の自乗根と同様である。平均自乗根ｒｍｓ（ｓｂ）を数式で示すと、式２のようになる。
【００２８】
【数２】
ｒｍｓ（ｓｂ）＝√ｍｓ（ｓｂ）・・・（２）
ここで、平均自乗根と分散との相関関係を類推する。一つの帯域の平均がほぼ０に近づく場合、前記式１により分散は自乗平均と同一になるため、二つの特性は一定の線形性を有する。また、一般に信号の平均が大きければ、平均自乗値および電力も大きいため、ビット割当て量との関連性も探すことができる。
【００２９】
次に、スケール・ファクタの特性について説明する。スケール・ファクタは、聴覚心理モデルで各帯域の電力を求めて、その帯域のマスク・レベルを計算するのに用いられる。一般に入力信号の電力が大きければ、ビットを多く割当てる。これを時間領域から類推すると、周波数領域の電力は主として時間領域における入力信号値の大きさにより決められる。この特性に鑑みると、各帯域に最大のサンプル値をその帯域の電力とする。この際、サンプル値をスケール・ファクタという。任意の帯域のスケール・ファクタが大きければ、その帯域の電力が大きいと見なす。スケール・ファクタは、量子化過程において各帯域の値を正規化するのにも用いられる。
【００３０】
このオーディオ信号の特性を用いたＬＵＴの作成においては、ＬＵＴのアドレスを探し出す方法が重要である。すなわち、この特性に鑑みてＬＵＴのアドレスを探し出して該当する帯域のビット割当て量を決めるべきである。そのため、本発明ではこの三つの特性より構成され得る全ての場合の数を同時に考慮した。この特性を各帯域の大きさの順位に整列し、その順位に応じてＬＵＴを作成する方法を採用する。この場合には、一つの帯域について三つの特性の順位が０から３１までの場合があるため、全部で３２７６８（＝３２³）種が存在する。これは各帯域に同じく適用されるべきなので、各帯域に３２７６８の場合について考慮すべきである。
【００３１】
そして、３２７６８の場合に番号を与えてそれぞれの該当する場合についてビット割当て量を調べて、最大の頻度値を有する値をその帯域のビット割当て量として決める。この方式は、あるオーディオ・データについて、その最大、最小値の範囲を問わず、単に大きさの順位によるものなので信頼性が得られる。
【００３２】
次に、前記方式によりＬＵＴを作成する方法について説明する。
【００３３】
図３は、ＬＵＴを作成するための方法を説明する図である。先ず、入力されたオーディオ・データを周波数マッピング部３１内の帯域分解フィルタを通過させた後に各帯域の最大値を求めて、これを各帯域のスケール・ファクタｓｆとする。そして、式１及び式２により各帯域の分散及び平均自乗値を求めた後、この三つの特性を大きさの順位に整列させる。一方、入力オーディオ・データについて聴覚心理モデル３３を適用してＳＭＲを求めた後、これに基づいて各帯域のビット割当て量を求める。各帯域についてビット割当て量と三つの特性に対する順位を基にしてＬＵＴを作成する。帯域０で聴覚心理モデルによるビット割当て量が４であり、この帯域の三つの特性の順位が２，３，１の場合、該当するアドレスの４ビット領域に頻度数１を増やせる。このような過程を本発明では１２個のオーディオ・データについて繰り返し行い、最高頻度のビット量をその帯域のビット割当て量として指定する。統計に用いられるオーディオ・データの数を増やすほど、より精巧なＬＵＴが作成される。
【００３４】
また、各帯域について三つの特性の順位としてのアドレスａｄｄｒを求める方法は式３のとおりである。
【００３５】
【数３】
ａｄｄｒ＝ｖ×３２²＋ｒｍｓ×３２¹＋ｓｆ×３２⁰ ・・・（３）
ここで、ｖ、ｒｍｓ、ｓｆは三つの特性、すなわち、分散、平均自乗根、スケール・ファクタの各順位である。次の表２は各帯域の三つの特性の順位とＬＵＴのアドレスとの関係を示す。
【００３６】
【表２】

また、次の表３はＬＵＴの中間生成段階を示す。
【００３７】
【表３】

表３の下線付き数字は頻度の高いことを示す。例えば、０帯域の場合には、分散、平均自乗根及びスケール・ファクタの順位が０であれば、４ビット割当てられた場合の頻度数が最も高い。この場合、４ビットがアドレス１と共にＬＵＴに貯蔵される。アドレスをＬＵＴに貯蔵するのは、ＬＵＴの最適化過程において０ビットの貯蔵されたアドレスは取り除かれるため、そのアドレス情報を必要とする。また、順位が、分散：３、平均自乗根：４、スケール・ファクタ：１２の場合、ビットライン・プリチャージ回路で３ビットが最高の頻度を占める。この際、３ビットをアドレス３２１２と共にＬＵＴに貯蔵する。最高の頻度数を有する帯域が二つ以上あるときは、高いビットの帯域を選択する。実験の結果、このように処理することが所望のビット量と実際に割当てられたビット量との差を減らせる。
【００３８】
また、表３のように低い帯域では三つの特性が全体として低いアドレスに分布する。高い帯域に行くほど、高いアドレスにその分布が移ることが判る。すなわち、低周波数であるほど、この三つの特性の大きさは大体に大きくなる。したがって、この特性のみをオーディオの符号化に適用することができる。
【００３９】
図４〜図１０は、数個の帯域についてＬＵＴのアドレスに対する割当てビットの分布の実験結果を示すものである。これは、ＭＰＥＧレイヤＩＩの９６ｋｂｉｔ／ｓに対する統計分布の結果の例である。全ての帯域に対する統計分布でないが、著しい特徴として、レイヤＩＩでは帯域３，４，５部分に対するビット割当てが低いアドレスに対して大きくなることが判る。ここで、低いアドレスとは、三つの特性の大きさが全体として大きいものである。全ての帯域を調べると、この三つの特性の大きさが小さいほど、ビット割当ても小さくなる。特に帯域３，４，５ではこの現象が著しい。
【００４０】
図１１は、人間の聴覚心理モデルから得られた絶対スレショルド値と３２個の帯域との関係を示すグラフである。最も敏感に聞き取れる領域、すなわち、絶対スレショルド値が最低の部分、２ｋＨｚ〜４ｋＨｚに該当する帯域３，４，５に多量のビットを割当てることにより、良好な音質を提供することができる。
【００４１】
更に、本発明では、このように求められたＬＵＴの全体の大きさを減らして効率よくメモリを使用するため、ＬＵＴの最適化過程を加える。すなわち、ＬＵＴの入力として貯蔵されたビット割当て量が０であるアドレスはＬＵＴから取り除くことにより、全体ＬＵＴの大きさを大幅に縮める。例えば、表３の帯域３１の場合、アドレス０とアドレス３２７６７には０ビット割当てが最高の頻度を占めるので、この帯域のテーブルにはアドレス０と３２７６７は入力しない。このように最適化されたＬＵＴを用いて符号化に適用する場合、前記三つの特性により決められるアドレスが、ＬＵＴに存在しないときは、その帯域に０ビットを割当てる。したがって、ＬＵＴはビット割当て量と共に三つの特性により得られるアドレスも貯蔵する。
【００４２】
次に、作成されたＬＵＴを用いたオーディオ符号化について説明する。
【００４３】
図１は、本発明によるディジタル・オーディオ符号化装置を示すブロック図である。同図に示すように、本発明によるディジタル・オーディオ符号化装置は、周波数マッピング部１２１、特性獲得部１２３、ＬＵＴ１２５、ビット割当て／量子化部１２７、フレーム・パッキング部１２９とから構成される。
【００４４】
図１の構成の動作を説明すると、周波数マッピング部１２１では、先ずオーディオ・データを帯域分解フィルタを通過させて３２個の周波数帯域に分ける。この際、レイヤＩの場合は１２個のサンプル、レイヤＩＩの場合は３６個のサンプルが存在する。
【００４５】
特性獲得部１２３は、ＬＵＴ１２５のアドレスを求めるため、各帯域について上述した方法で入力信号に対する分散、平均自乗値、スケール・ファクタの三つの特性値を計算して大きさの順序に整列させた後、前記式３によりアドレスを求める。
【００４６】
ビット割当て／量子化部１２７は、上述した方法により求めたＬＵＴ１２５を用いて各帯域にビットを割当てた後、割り当てられたビット数と求められるビット数を比べて、残るビットがあるかどうかを確かめる。もちろん、ＬＵＴ１２５によりビットを割当てるとき、所望のビット数を満たすようにビットを割当てることが望ましい。これにより、付加的な調整作業が不要となり、処理速度を速くすることができる。
【００４７】
先ず、ＬＵＴ１２５によりビットを割当てる。その後、割当てられたビット数が求められるビット数を超えると、最多のビットが割当てられた帯域のビット数を１ビットほど減らし、再び求められるビット数と比べて、割当てられたビット数が求められるビット数を超えないまで繰り返して行う。
【００４８】
次に、ＬＵＴ１２５によりビットを割当てた後、割り当てられたビット数が求められるビット数より少なくて余りビットが割り当てられる場合について、一連の処理段階を説明する。ここで、増加帯域はビットを増やせる帯域であり、セットはこの増加帯域を別途に貯蔵する目録である。そして、このアルゴリズムはレイヤＩを例えたものである。第１段階では、フラグの初期値を０とし、セットの内容を−１に初期化する。第２段階では、最大のスケール・ファクタを有する帯域を探し出す。この帯域がセットに含まれなければ、増加帯域として指定してフラグを１とする。第３段階では、フラグが１であれば、この増加帯域をセットに貯蔵する。また、前記フラグが０であれば、全ての帯域がセットに貯蔵されており、これは全ての帯域が一回ずつ増加帯域となることを意味する。この場合、セットに貯蔵されている順序に再び増加帯域を指定する。すなわち、スケール・ファクタの大きさの順位に再び増加帯域を指定して、求められるビット数を満たすまで繰り返す。第４段階では増加帯域のビット数を１ほど増やす。第５段階では、現在の増加帯域の割当てビット数が１の場合、再び求められるビット数と割当てられたビット数を比べて３０を超えないと、増加帯域のビットを再び１ほど減らした後、第１段階に戻る。現在の増加帯域の割当てビット数が３０を超えると、増加帯域の割当てビット数を再び１ほど増やしてビット使用量を計算した後、第１段階に戻る。現在の増加帯域の割当てビットが１でなければ、ビット使用量のみを計算した後、第１段階に戻る。ここで、３０を基準とするのは、全部で３０ビットを必要とするからである。すなわち、最初にビットが割当られる帯域に１ビットでなく２ビットを増やすべきなので、スケール・ファクタ情報６ビットと１２サンプルに対するビット割当て量２４ビットが加えられる。一方、第２段階で増やせる帯域の基準としてスケール・ファクタを用いる。しかしながら、他の特性、すなわち、分散または平均自乗値を用いることもできる。レイヤＩＩの場合は、各帯域に三つのスケール・ファクタが存在するため、最大のものを用いる。
【００４９】
一方、このようにビット調整過程は、オーディオ符号化に要する全体実行時間の短縮に大きな影響を及ぼす。すなわち、ＬＵＴ１２５によるビット割当て量が求められるビット量と正確に一致するかに応じて、ビット調整過程の繰り返し回数を減らすことができるため、正確でかつ信頼性のあるＬＵＴ１２５を作成する必要がある。
【００５０】
実際に本発明の性能を試すため、１２個のオーディオ・データを用いて全体実行時間を測定した。実験環境としてはＵＮＩＸシステムのＳＵＮＳＰＡＲＣ−１０を用い、オーディオ・データはＣＤから得られたデータである。
【００５１】
表４は符号化器における実行時間を示すものであり、本発明のＬＵＴを用いた符号化方式と既存のＭＰＥＧアルゴリズムによる符号化方式とで、その性能を比べた実験結果を示している。
【００５２】
【表４】

表４において、１２個のオーディオ・データは任意の名称を与えたものであり、数字は実際の実行時間を示す。また、性能改善は、次の式４により求められたものである。
【００５３】
【数４】

式４において、Ｅ_impは性能改善、Ｔ_MPEGはＭＰＥＧアルゴリズムによる実行時間、Ｔ_LUTは本発明のアルゴリズムによる実行時間を示す。
【００５４】
次に、本発明の第２実施形態について説明する。本発明の第２実施形態においては、聴覚心理モデルに基づく特性をスケール・ファクタ及び自乗平均として規定する。
【００５５】
聴覚心理モデル３３の最終出力値はＳＭＲであって、各帯域の信号レベルとマスキング・レベルとの差を示す。この値を求めるため、先ず信号レベルを計算する。聴覚心理モデル３３では、各帯域の電力とスケール・ファクタの電力スペクトルｓｆ_maxのうち、大きい値をその帯域の信号レベルとする。これを数式で示すと、次の式５のとおりである。ここで、Ｌｓｂ（ｎ）は帯域ｎの音圧レベルであって、ＳＭＲのＳレベルと同様である。
【００５６】
【数５】
Lsb(n)＝MAX〔power(n)，20 log（sf_max(n)＊32768）−10〕dB ・・・（５）
この式５において、各帯域の信号レベルを決める要素は各帯域のスケール・ファクタと電力値である。聴覚心理モデルではこの電力を周波数変換を通して求めたが、これを時間領域から類推すると、帯域分解フィルタを通過した後の各帯域のサンプル値の自乗平均として求めることができる。スケール・ファクタは、各帯域で最大のサンプル値なので、時間領域で直接求めることができる。
【００５７】
一般にオーディオ信号の電力が大きければ、多量のビットを割当てなければならない。したがって、周波数領域における電力は時間領域におけるサンプル値の大きさにより決められると言える。これに鑑みると、各帯域で最大のスケール・ファクタは電力と関連性があり、ビット割当て量を決める。
【００５８】
このようにオーディオ信号の特性によるＬＵＴの作成において、最も重要な考慮事項は、この特性を用いてＬＵＴのアドレスを探し出す方法である。次に、この二つの特性、すなわち、スケール・ファクタと自乗平均を用いてＬＵＴを作成する方法を説明する。
【００５９】
ＬＵＴには各帯域のアドレスとビット割当て量が貯蔵されており、ビット割当てにかかる時間を最小とするために用いられる。すなわち、前記二つのパラメータにより決められるアドレスをＬＵＴから探し出して該当する帯域にビットを割当てる。ＭＰＥＧのビット割当て方式によれば、聴覚心理モデルから求められた帯域に対する最大のＳＭＲ値を有する帯域から１ビットずつ増やせる。これは各帯域の相互連関性を考慮して１フレーム内で相対的なＳＭＲ値を処理する方式である。これにより、本発明においては、ＬＵＴのアドレスを求めるとき、スケール・ファクタと自乗平均との各帯域の相対的な値を求めるため、占有率ＳＲ（ｎ）の概念を導入する。
【００６０】
帯域ｎのスケール・ファクタに対する占有率ＳＲ_sf(n) は、帯域ｎのスケール・ファクタｓｆ（ｎ）を全ての帯域のスケール・ファクタｓｆの和で割った値であって、式６のように示すことができる。
【００６１】
【数６】

一方、帯域ｎの自乗平均に対する占有率ＳＲ_pwr(ｎ）は、帯域ｎの自乗平均ｐｗｒ（ｎ）を全ての帯域の自乗平均の和で割った値であって、式７のように示すことができる。
【００６２】
【数７】

ここで、全ての帯域は二つのチャネルを指すが、これはジョイント・ステレオ・モードとの関連性のためである。この占有率は一つの帯域の値が全ての帯域である程度を占めるかを示す指標である。占有率は全ての値を考慮する相対的な値であって、ＭＰＥＧの繰り返しビット割当てループと類似した概念となる。
【００６３】
このように求めた各帯域のスケール・ファクタと自乗平均との占有率のうち、大きい値を選択してその帯域のアドレスを求めるのに用いる。このように処理する理由は、二つの特性の両方をＬＵＴのアドレス計算に用いてもよいが、そうするとアドレスが大きくなり、全体ＬＵＴの大型化をもたらすからである。式５から判るように、二つの聴覚心理モデルのうち大きいものをその帯域の信号レベルとして決めるように、本発明でもこれと類似した処理を行う。
【００６４】
占有率は１より小さい値であるが、本発明においてはこの値をスケール・ファクタ６３段階のマッピングデータを用いて整数値に変換した後、次のＬＵＴのアドレスを指定する。この場合、各帯域で最大値を有するアドレスは６２となる。
【００６５】
各帯域の最終占有率を求めた後、その値に対応するビット割当て量を出来る限り多いオーディオ・データを用いて調べてＬＵＴに貯蔵する。言い換えれば、聴覚心理モデルを用いるＭＰＥＧアルゴリズムにより選択されたオーディオ・データを通してビット割当て量を調べる。この際、各帯域の占有率を求めて最高の頻度を占めるビットをその占有率に該当するビットとして決める。図３は上述したようにＬＵＴを作成するための方法を説明する図である。
【００６６】
一つの帯域について、例えば、帯域０で聴覚心理モデルによるビット割当て量が７であり、その占有率が５であれば、アドレス５の７ビット領域に頻度数を１増やせる。この過程を多数のオーディオ・データについて繰り返し行い、最高の頻度値をその帯域のビット割当て量として決める。次の表５のように、アドレス５には８、アドレス３０には７、アドレス６１，６２には０ビットがそれぞれ最終のビット割当て量として決められる。最高の頻度数を有する帯域が二つであれば、高いビットの方を選択する。
【００６７】
【表５】

一方、このように求められたＬＵＴは、各帯域に６２個ずつで、３２帯域が存在するため、１９８４個の情報となる。これは２５ｋｂｙｔｅｓ程度の大容量なので、全体の大きさを減らしてさらに効率良くメモリを使用するため、最適化過程を加える。すなわち、表５のアドレス６１及び６２のように最終のビット割当て量が０の場合にはＬＵＴに貯蔵しない。しかしながら、連続的なアドレスのビット割当て量が同じであれば、小さい値を有するアドレスのビット割当て量のみを貯蔵するように処理することにより、ビット値の変わる境界のアドレスのみが情報として用いられる。この最適化過程はＬＵＴを貯蔵するためのメモリの容量を大幅に減らすことができる。
【００６８】
なお、このように作成されたＬＵＴを用いたオーディオ符号化について図１を参照して説明すると、次のとおりである。
【００６９】
特性獲得部１２３は、ＬＵＴ１２５のアドレスを求めるため、各帯域について上述した方法で入力信号に対するスケール・ファクタと自乗平均に対する占有率を計算した後、そのうち大きい値を選択してＬＵＴ１２５のアドレスとして指定する。
【００７０】
ビット割当て／量子化部１２７は、上述した方法により求めたＬＵＴ１２５を用いて各帯域にビットを割当てた後、この割当てられたビット数と求められるビット数とを比べて、残るビットがあるかを確かめて全体のビット使用量を調整する。もちろん、ＬＵＴ１２５によりビットを割当てるときは、求められるビット数を満たすように割当てることが望ましい。その理由は、他の調整作業が不要となり、それだけ処理速度を速めることができるからである。
【００７１】
先ず、ＬＵＴ１２５によりビットを割当てるとき、求められるビット数を超える場合の処理過程を調べると、二つのチャネルについて高い帯域から調べて最小の占有率を有しながら１ビット以上が割当てられた帯域から１ビットずつ減らせる。この過程を前記割当てられたビット数が求められるビット数を超えないまで繰り返し行う。この際、一度減少された帯域は優先順位を最終に指定して、全ての帯域について均一に減らせるように処理する。高い帯域から減らせるのは、一般に重要な情報が低周波数側に集まっているからである。
【００７２】
一方、ＬＵＴ１２５を用いてビットを割当てた後、割当てられたビット数が求められるビット数より少なくて割当て可能なビットがあるときは、低い帯域から調べて最大の占有率を有しながら各帯域の最大のビット割当て量を超えない帯域から１ビットずつ増やして求められるビット数を超えないまで繰り返し行う。
【００７３】
このようなビット調整過程はオーディオ符号化にかかる全体の実行時間の短縮に大きな影響を及ぼす。すなわち、ＬＵＴ１２５によるビット割当て量が求められるビット量と正確に一致するか否かに応じて、このビット調整過程の繰り返し回数を減らすことができるため、正確でかつ信頼性のあるＬＵＴ１２５を作成する必要がある。
【００７４】
一方、ジョイント・ステレオ・モードは人間の聴覚心理特性から誘導されたものであって、一般に高周波数に行くほど、オーディオ・ソースの正確な位置検知能力が低下するということを用いる。一般に、ジョイント・ステレオ・モードのハードウェアの複雑度はステレオ符号化モードのものと殆ど同じであり、符号化器の遅延時間もほぼ変わらない。このモードの主目的はオーディオの音質を向上させて符号化することにあり、ビット伝送率は約１０〜３０ｋｂｐｓ程度に低めることができる。
【００７５】
ＭＰＥＧオーディオで標準化されたジョイント・ステレオ符号化方式を説明すると、特定な帯域を決め、その帯域以上ではサンプルをそれぞれ符号化せず、その和を求めて一つのサンプルだけを符号化する。そして、ジョイント・ステレオ・モードで符号化する特定の帯域の範囲は、各帯域の雑音をマスク・レベル以下とするためのビット割当て量の決めにより決められ、割当てられたビットが求められるビット数より多いかを確かめて四種類の帯域（４，８，１２，１６）のうち、一つを選択する。このように決められたジョイント・ステレオ帯域では左、右チャネルのうち大きいビット割当て量を選択して量子化する。
【００７６】
この概念を本発明におけるＬＵＴに適用して符号化するとき、問題となるのは、ジョイント・ステレオ・モードで符号化する帯域の範囲を決めることである。本発明においては、各帯域の占有率を調べて全体帯域のうち占有率の和が９９．９％を超える帯域を検知して範囲を決める。そして、ジョイント・ステレオ・モードで符号化する帯域では左、右チャネルのスケール・ファクタと自乗平均が大きい値をそれぞれ選択し、これを占有率を求めるときに用いる。各占有率を求めるとき、全体帯域の和はステレオ・モードによるものより小さくなるため、各占有率はステレオ・モードによるものより大きくなる。その故、ジョイント・ステレオ・モードで符号化する場合には、他のアドレスが計算されるので、ビット割合量も異なる。したがって、一つのＬＵＴを用いてステレオ・モードとジョイント・ステレオ・モードとの両方で符号化することができる。
【００７７】
実際に本発明の性能を試すため、１２個のオーディオ・データを用いて全体の実行時間を測定した。実験環境としてはＵＮＩＸシステムのＳＵＮＳＰＡＲＣ−１０を使用し、オーディオ・データはＣＤから得られたデータである。
【００７８】
表６は、符号化器における実行時間を示すものであって、本発明のＬＵＴを用いた符号化方式と既存のＭＰＥＧアルゴリズムとで、その性能を比べた実験結果を示している。
【００７９】
【表６】

表６において、１２個のオーディオ・データは任意の名称を与えたものであり、数字は実際の実行時間を示す。そして、性能改善は前記式４から得られるものである。
【００８０】
まず、本発明のアルゴリズムによる実行速度を調べると、第１実施形態では表４のようにオーディオ・データに応じて多少異なるが、従来の方式より平均４１．４％程度の速度改善がなされた。第２実施形態では表６のように平均４４．３％の速度改善がなされた。これは、符号化器の実時間処理速度の向上を示すので、ハードウェアで具現するとき、符号化器における処理遅延が減ることになる。しかしながら、本発明によるビット割当て過程はＬＵＴだけにより行われるのでなく、この過程後の余分のビットまたは不足分のビットを処理する過程がある。このビット割当て調整過程に応じて全体の実行時間を速めることができる。また、オーディオ信号の音質においても、従来のＭＰＥＧアルゴリズムの音質水準と殆ど同じである。すなわち、レイヤＩでは１２８ｋｂｐｓ、レイヤＩＩでは９６ｋｂｐｓまで原音と殆ど同じＣＤ音質が得られる。
【００８１】
一方、本発明によるアルゴリズムの性能と従来のＭＰＥＧとの差を調べるため、Karlheinz Brandenburg により提案された聴覚心理特性を用いた性能評価方法を用いた。この方法はＮＭＲを基準として用いる。このＮＭＲ値がネガティブであれば、雑音はマスク・レベル以下に位置する。これにより、雑音が少なく聞こえてオーディオ信号を鮮明な音質として再生することができる。
【００８２】
図１２及び図１３は、各チャネルに対する二つのアルゴリズムの評価結果を比べたグラフである。同図からわかるように、ＬＵＴを用いる方式が低周波数領域についてＭＰＥＧ方式によるものより比較的雑音に強い特性を示す。言い換えれば、要求ビット量が同じ場合でも、ＬＵＴを用いる符号化方式では、さらに効率よくビット使用が行われている。
【００８３】
【発明の効果】
上述したように、本発明によるルックアップ・テーブルを用いたディジタル・オーディオ符号化方法及びその装置では、符号化器における演算時間を大幅に減らすことができ、ハードウェアで具現するとき、実時間処理の可能性を高めることができる。実際の応用例としてはコンピュータ娯楽用のハードウェアがある。この場合に音質はさほど重要ではなく、実時間の迅速な処理が求められるため、本発明によるルックアップ・テーブルを用いるディジタル・オーディオ符号化方法及びその装置は非常に有用である。
【００８４】
また、聴覚心理モデルはその複雑なアルゴリズムのため、実際のハードウェアで具現しにくい。さらに、本発明においては、符号化器の値を決めるのに最も重要な影響を及ぼすものとして聴覚心理モデルの代わりにＬＵＴを用いる。従って、メモリのみを加えることにより容易にハードウェアで具現することができ、低コストも達成し得る。
【００８５】
更に、本発明によれば、従来のＭＰＥＧ符号化器に比べて非常に縮小されたチップが得られるため、携帯用カメラなどの小型機器に応用することができる。現在では、コンピュータにＭＰＥＧチップを搭載することが普通になっている。本発明による装置はＭＰＥＧと完璧な互換性を保つため、コンピュータの内部に設けられたボードの大きさを縮めることにより、軽薄短小型の製品を作ることができる。
【図面の簡単な説明】
【図１】本発明によるルックアップ・テーブルを用いたディジタル・オーディオ符号化装置を示すブロック図である。
【図２】入力されたオーディオ信号の分布を示すグラフであって、（Ａ）は分散の大きい場合を、（Ｂ）は分散の小さい場合を示すグラフである。
【図３】本発明で用いられるルックアップ・テーブルを生成する過程を説明するための図である。
【図４】帯域０に対するルックアップ・テーブルの割当てビットの分布をそのアドレスに応じて示す図である。
【図５】帯域１に対するルックアップ・テーブルの割当てビットの分布をそのアドレスに応じて示す図である。
【図６】帯域２に対するルックアップ・テーブルの割当ビットの分布をそのアドレスに応じて示す図である。
【図７】帯域３に対するルックアップ・テーブルの割当ビットの分布をそのアドレスに応じて示す図である。
【図８】帯域４に対するルックアップ・テーブルの割当ビットの分布をそのアドレスに応じて示す図である。
【図９】帯域５に対するルックアップ・テーブルの割当ビットの分布をそのアドレスに応じて示す図である。
【図１０】帯域２８に対するルックアップ・テーブルの割当ビットの分布をそのアドレスに応じて示す図である。
【図１１】絶対スレショルド値と３２個の帯域との関係を周波数領域で示すグラフである。
【図１２】左側チャネルのＮＭＲについてＭＰＥＧと本発明による符号化装置との性能を比べたグラフである。
【図１３】右側チャネルのＮＭＲについてＭＰＥＧと本発明による符号化装置との性能を比べたグラフである。
【図１４】一般のＭＰＥＧオーディオ符号化器を示すブロック図である。
【符号の説明】
１２１周波数マッピング部
１２３特性獲得部
１２５ＬＵＴ
１２７ビット割当て／量子化部
１２９フレーム・パッキング部

Claims

入力されるオーディオ信号の分散、平均自乗根及びスケール・ファクタの特性組合せに応じて各周波数帯域に対する割当てビットをルックアップ・テーブルを用いて作成する過程と、
前記入力される時間領域のオーディオ信号を所定の数の均等な周波数帯域に分割する過程と、
該分割された各周波数帯域に対して得られたオーディオ信号の特性の大きさの順位に応じて前記ルックアップ・テーブルのアドレスを決める過程と、
該決められたアドレスに該当する割当てビットを前記各周波数帯域に対して割当てた後に量子化する過程と、
該量子化されたオーディオ信号をビット・ストリームとして形成する過程と、
前記ルックアップ・テーブルから割当てビットが０のアドレスは取り除き、前記ルックアップ・テーブルに存在しないアドレスに０ビットを割当て、ビットを割当てた後、求められるビット数と実際のビット割当て量とを比べて、前記実際のビット割当て量が求められるビット数より少なく割り当てられるときは、低い周波数帯域から最大占有率を有する帯域を探し出して１ビットずつ増やし、前記実際のビット割当て量が求められるビット数より多く割り当てられるときは、高い周波数帯域から最少占有率を有する帯域を探し出して１ビットずつ減らす過程を含むことを特徴とするディジタル・オーディオ符号化方法。
入力されるステレオ・オーディオ信号のスケール・ファクタと自乗平均との特性組合せに応じて各周波数帯域に対する割当てビットをルックアップ・テーブルを用いて作成する過程と、
前記入力される時間領域のオーディオ信号を所定の数の均等な周波数帯域に分割する過程と、
該分割された各周波数帯域に対して得られたオーディオ信号の特性の大きさの順位に応じて前記ルックアップ・テーブルのアドレスを決める過程と、
該決められたアドレスに該当する割当てビットを前記各周波数帯域に対して割当てた後に量子化する過程と、
該量子化されたオーディオ・データをビット・ストリームとして形成する過程と、
前記ルックアップ・テーブルから割当てビットが０のアドレスは取り除き、ビット値の変わる境界部分のみを貯蔵し、ビットを割当てた後、求められるビット数と実際のビット割当て量とを比べて、前記実際のビット割当て量が求められるビット数より少なく割り当てられるときは、低い周波数帯域から最大占有率を有する帯域を探し出して１ビットずつ増やし、前記実際のビット割当て量が求められるビット数より多く割り当てられるときは、高い周波数帯域から最少占有率を有する帯域を探し出して１ビットずつ減らす過程を含むことを特徴とするディジタル・オーディオ符号化方法。
前記ルックアップ・テーブルのアドレスは全ての帯域に対する各周波数帯域におけるスケール・ファクタと自乗平均との占有率を用いて計算することを特徴とする請求項２に記載のディジタル・オーディオ符号化方法。
ジョイント・ステレオ・モードの場合には、ステレオ・モードで用いられるルックアップ・テーブルをそのまま適用することを特徴とする請求項２に記載のディジタル・オーディオ符号化方法。
各帯域の占有率を求めてジョイント・ステレオ・モードで符号化する帯域の境界を探し出すことを特徴とする請求項４に記載のディジタル・オーディオ符号化方法。
入力されるオーディオ信号の特定に応じた各周波数帯域に対する割当てビットの関係を作成するルックアップ・テーブルと、
前記入力される時間領域のオーディオ信号を所定の数の均等な周波数帯域に分割する周波数マッピング部と、
該分割された各周波数帯域に対して得られたオーディオ信号の特性の大きさの順位に応じて前記ルックアップ・テーブルのアドレスを決める特性獲得部と、
該決められたアドレスに該当する割当てビットを前記各周波数帯域に対して割当てた後に量子化するビット割当て／量子化部と、
該量子化されたオーディオ・データをビット・ストリームとして形成するフレーム・パッキング部とから構成され、
前記ビット割当て／量子化部は、
前記ルックアップ・テーブルから割当てビットが０のアドレスは取り除き、
前記ルックアップ・テーブルに存在しないアドレスに０ビットを割当て、ビットを割当てた後、求められるビット数と実際のビット割当て量とを比べて、前記実際のビット割当て量が求められるビット数より少なく割り当てられるときは、低い周波数帯域から最大占有率を有する帯域を探し出して１ビットずつ増やし、前記実際のビット割当て量が求められるビット数より多く割り当てられるときは、高い周波数帯域から最少占有率を有する帯域を探し出して１ビットずつ減らすことを特徴とするディジタル・オーディオ符号化装置。
前記オーディオ信号の特性は、分散、平均自乗根及びスケール・ファクタであることを特徴とする請求項６に記載のディジタル・オーディオ符号化装置。
前記オーディオ信号の特性は、スケール・ファクタと自乗平均であることを特徴とする請求項６に記載のディジタル・オーディオ符号化装置。
前記ルックアップ・テーブルのアドレスは、全ての帯域に対する各周波数帯域におけるスケール・ファクタと自乗平均との占有率を用いて計算することを特徴とする請求項８に記載のディジタル・オーディオ符号化装置。