JP4212591B2

JP4212591B2 - オーディオ符号化装置

Info

Publication number: JP4212591B2
Application number: JP2005503376A
Authority: JP
Inventors: 公彰山下
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-06-30
Filing date: 2003-06-30
Publication date: 2009-01-21
Anticipated expiration: 2023-06-30
Also published as: US7613603B2; WO2005004113A1; US20060074693A1; JPWO2005004113A1

Description

本発明は、オーディオ符号化装置に関し、特に音声信号の情報を圧縮して符号化を行うオーディオ符号化装置に関する。

移動体通信やＣＤなどでは、音声のディジタル処理が行われ、ディジタル化された音声信号は、ユーザにとっても身近な存在となっている。ディジタル音声信号を効率よく圧縮・伝送するためには、高能率符号化が行われており、音声圧縮のアルゴリズムは、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔＧｒｏｕｐ）で標準規格化されている。
ＭＰＥＧの音声圧縮アルゴリズムの代表的なものには、ＭＰ３（ＭＰＥＧ１−Ａｕｄｉｏｌａｙｅｒ３）やＭＰＥＧ２−ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｅｃ）がある。ＭＰ３は、モノラルまたは２チャネルの音声信号を符号化の対照とするＭＰＥＧ−１オーディオのレイヤ３の圧縮方式であり（レイヤ３方式は、レイヤ１、２の圧縮方式よりも高品質で高圧縮率）、インターネット上の音楽配信などに広く使用されている。
また、ＭＰＥＧ２−ＡＡＣは、ＭＰＥＧ−１オーディオとの互換性を排除し、マルチチャネルの音声信号を符号化の対照として、より高音質・高圧縮率を達成した圧縮規格である。ＭＰＥＧ２−ＡＡＣは、携帯電話を使った音楽配信に向いており、またディジタル（衛星・地上波）放送などに採用されることが検討されている。
ＭＰ３及びＭＰＥＧ２−ＡＡＣの符号化アルゴリズムでは、いずれの場合も、入力したＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）信号をフレーム単位で切り出して空間変換を施し、変換係数を量子化した後に符号化を行なってビットストリームを生成する、という共通のアルゴリズムが使用されている。
一方、従来の技術として、量子化歪み及び符号量の適切な値が得られるまで、スケジューリング係数及び量子化ステップの更新処理を行うオーディオ符号化技術が提案されている（例えば、特許文献１参照）。
特開２０００−３４７６７９号公報（段落番号〔００５９〕〜〔００８５〕，第１図）

上記のようなＭＰ３及びＭＰＥＧ２−ＡＡＣの符号化アルゴリズムは、高音質で、最も情報量を減らすことができるように、人間の聴覚特性を考慮しながら、量子化時の量子化ステップサイズ（スケールファクタ）を算出している。しかし、その演算量は非常に大きなものであり、演算効率が悪いため、低コストで演算量の少ない、リアルタイムエンコーダの実現が強く望まれている。
また、従来技術（特開２０００−３４７６７９号公報）でも演算量の削減を目的としているが、スケジューリング係数及び量子化ステップを更新しながらの反復処理を行って、目標符号量に収束させる制御なので、収束時間の大幅な短縮化とはならず、演算量削減のための最良な技術とはいえない。

本発明はこのような点に鑑みてなされたものであり、人間の聴覚特性に応じて行われる、変換係数の量子化演算に対し、演算量の大幅な削減を可能にしたオーディオ符号化装置を提供することを目的とする。
本発明では上記課題を解決するために、図１に示すような、音声信号の符号化を行うオーディオ符号化装置１０において、音声信号のサンプル値に空間変換を施して変換係数を算出する空間変換部１１と、変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズｑを近似的に算出する量子化ステップサイズ演算部１２と、量子化ステップサイズｑにもとづき、変換係数を量子化して量子化値Ｉを求める量子化部１３と、量子化ステップサイズｑから、フレーム全体のオフセット値であるコモンスケールファクタｃｓｆと、サブバンド毎のスケールファクタｓｆとを求めるスケールファクタ算出部１４と、量子化値Ｉ、コモンスケールファクタｃｓｆ、スケールファクタｓｆの少なくとも１つを符号化する符号化部１５と、を有することを特徴とするオーディオ符号化装置１０が提供される。
ここで、空間変換部１１は、音声信号のサンプル値に空間変換を施して変換係数を算出する。量子化ステップサイズ演算部１２は、変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズｑを近似的に算出する。量子化部１３は、量子化ステップサイズｑにもとづき、変換係数を量子化して量子化値Ｉを求める。スケールファクタ算出部１４は、量子化ステップサイズｑから、フレーム全体のオフセット値であるコモンスケールファクタｃｓｆと、サブバンド毎のスケールファクタｓｆとを求める。符号化部１５は、量子化値Ｉ、コモンスケールファクタｃｓｆ、スケールファクタｓｆの少なくとも１つを符号化する。
本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

図１は、本発明のオーディオ符号化装置の原理図である。
図２は、フレームの概念を示す図である。
図３は、変換係数とサブバンドのイメージを示す図である。
図４は、フレームに対するコモンスケールファクタ／スケールファクタの対応関係を示す図である。
図５は、量子化の概念を示す図である。
図６は、可聴限界グラフを示す図である。
図７は、マスキングパワーしきい値を示す図である。
図８は、量子化／符号化のフローチャートを示す図である。
図９は、量子化／符号化のフローチャートを示す図である。
図１０は、平均量子化ノイズを説明するための図である。
図１１は、ＡとＸａの関係を示す図である
図１２は、補正係数の算出概念を示す図である。
図１３は、本発明の全体動作を示すフローチャートである。
図１４は、本発明の全体動作を示すフローチャートである。
図１５は、ＭＰＥＧ２−ＡＡＣエンコーダの構成を示す図である。

以下、本発明の実施の形態を図面を参照して説明する。図１は本発明のオーディオ符号化装置の原理図である。オーディオ符号化装置１０は、音声信号の情報を圧縮して符号化を行う装置（エンコーダ）である。
空間変換部１１は、音声信号のサンプル値に空間変換であるＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）を施して変換係数を算出する。量子化ステップサイズ演算部１２は、変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出する。そして、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズｑを近似的に算出する。
量子化部１３は、近似的に算出した量子化ステップサイズｑにもとづき、変換係数を量子化して量子化値Ｉを求める。スケールファクタ算出部１４は、量子化ステップサイズｑから、フレーム全体のオフセット値であるコモンスケールファクタｃｓｆと、サブバンド毎のスケールファクタｓｆとを求める。符号化部１５は、量子化値Ｉ、コモンスケールファクタｃｓｆ、スケールファクタｓｆの少なくとも１つを符号化する。符号化の種類としては、例えば、出現率の高いものには短い符号を、出現率の低いものには長い符号を割り当てるハフマン符号化を行う。なお、本発明に関する量子化ノイズの推定算出や量子化ステップサイズの近似算出などの動作については図１０以降で詳しく説明する。
次に本発明に関係する音声情報圧縮の基本的な概念と、従来のエンコーダの量子化手順を示しながら、本発明が解決すべき問題点について詳しく説明する。従来のエンコーダとしては、ＭＰＥＧ２−ＡＡＣのエンコーダを対象にする（ＭＰ３及びＭＰＥＧ２−ＡＡＣにおける量子化の方法は、ＩＳＯ（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ）の規格書、例えば、ＭＰ３はＩＳＯ／ＩＥＣ１１１７２−３、ＭＰＥＧ２−ＡＡＣはＩＳＯ／ＩＥＣ１３８１８−７に記載されている）。
ＭＰＥＧ２−ＡＡＣ（以下、単にＡＡＣとも呼ぶ）のエンコーダでは、まずＰＣＭ信号をフレーム単位で切り出して、ＰＣＭ信号に空間変換としてＭＤＣＴを施し、ＰＣＭの時間軸上における電力を、空間（周波数）軸上における電力の表現に変換する。
そして、ＭＤＣＴの演算結果であるＭＤＣＴ変換係数（以下、単に変換係数）に、人間の聴覚特性に合わせた量子化処理を施し、その後に、ハフマン符号化を行なって、ビットストリームを生成して伝送路上から出力する。
ここで、ＡＡＣにおいて、変換係数を量子化する式は、以下の式（１）で定義されている（ＭＰ３も同じ式である）。

ただし、Ｉは量子化値、Ｘは量子化対象のＭＤＣＴの変換係数、ｑは量子化ステップサイズである。なお、“ｆｌｏｏｒ”は、Ｃ言語の関数表記であり、小数点以下切捨てを意味する。また、Ａ^∧Ｂとは、Ａ^Ｂのことである。
一方、量子化ステップサイズｑは、以下の式（２）で定義される。

ただし、ｓｃａｌｅｆａｃｔｏｒ（スケールファクタ）は、サブバンド毎のスケールファクタ値であり、ｃｏｍｍｏｎ＿ｓｃａｌｅｆａｃｔｏｒ（コモンスケールファクタ）は、１つのフレーム全体の量子化ステップサイズのオフセット値である。
ここで、フレームとは符号化処理の単位であり、ＡＡＣでは、２０４８個のＰＣＭのサンプル値にＭＤＣＴを施して得られる１０２４個の変換係数を１フレームとする。
図２はフレームの概念を示す図である。アナログ音声をディジタル化して、２０４８個のＰＣＭサンプル値を得た後に、これらサンプル値にＭＤＣＴを施して、１０２４個の変換係数を１フレームとする。
一方、サブバンドとは、１０２４個の変換係数を、５０個程度にグループ分けした帯域のことである。各帯域には、少なくて１個、最も多くて９６個の変換係数が含まれ、聴覚特性にもとづき、高帯域になるにしたがって、括る変換係数の数を増やしている。
図３は変換係数とサブバンドのイメージを示す図である。縦軸はレベル、横軸は周波数である。１０２４個の変換係数は、周波数軸上、サブバンドｓｂ０〜ｓｂ４９の５０個の各帯域にグループ分けされている。図からわかるように、帯域の低い側では、１つのサブバンド内の変換係数の個数は少なく（サブバンドの帯域幅が狭く）、帯域の高い側では、１つのサブバンド内の変換係数の個数は多く（サブバンドの帯域幅が広く）なっている。
これは、人間の聴覚特性として、低帯域（低音）側は、周波数の差を敏感に感じることができるが（例えば、図の場合、変換係数ｘ１、ｘ２に対応する音の違いは感知できるということ）、高帯域（高音）側は、周波数の差を敏感に感じることができずに、同じ音のように感じてしまうという理由からである（すなわち、人間の聴覚は、低周波の音の方が周波数分解能が高いということである）。
このため、周波数の違いを敏感に感じることができる低い帯域側の信号に対しては、細かいサブバンドで分けるようにし、周波数の違いを感じることが鈍感な高い帯域側の信号に対しては、サブバンドを広くとるようにすることで、人間の聴覚特性に合わせたサブバンドのグループ分けを行っている。
図４はフレームに対するコモンスケールファクタ／スケールファクタの対応関係を示す図である。コモンスケールファクタｃｓｆ及びスケールファクタｓｆ０〜ｓｆ４９を、図３に対応させた様子を示しており、１フレームのサブバンドｓｂ０〜ｓｂ４９全体で１つのコモンスケールファクタｃｓｆが存在する。また、サブバンドｓｂ０〜ｓｂ４９のそれぞれに対応したスケールファクタｓｆ０〜ｓｆ４９（全部で５０個）が存在することになる。
したがって、式（２）から例えば、サブバンドｓｂ０の量子化ステップサイズｑ［ｓｂ０］は、ｑ［ｓｂ０］＝（スケールファクタｓｆ０）−（コモンスケールファクタｃｓｆ）で求まり、サブバンドｓｂ１の量子化ステップサイズｑ［ｓｂ１］は、ｑ［ｓｂ１］＝（スケールファクタｓｆ１）−（コモンスケールファクタｃｓｆ）で求まる（以下、同様）。
図５は量子化の概念を示す図である。ある変換係数ｍのレベル（大きさ）をＸとする。変換係数ｍに量子化を施すということは、式（１）からわかるように、単純化すれば、Ｘを量子化ステップサイズｑで割って余りを捨てている割り算を行うことを意味している（∵Ｉ≒｜Ｘ｜÷２^ｑ／４）。
図はこの量子化の様子を示すものであり、大きさＸの変換係数ｍを、量子化ステップサイズとして２^ｑ／４で割って、余りを捨てた結果が２＊２^ｑ／４となっている。したがって、この割り算の商（２＊２^ｑ／４）が変換係数ｍの量子化値となる。
簡単な例でいえば、量子化ステップサイズが１０として、Ｘを１０で割ったときの商が９．６だったとすると、Ｘを量子化ステップサイズ１０で量子化した際の量子化値は９となる。
図５で示した内容からわかるように、量子化の誤差を小さくして、音声品質の向上を図るためには、量子化ステップサイズ（図で示すステップ幅）が、量子化対象の信号に対して、適切な値であることが重要である。また、この量子化ステップサイズは、上述のようにスケールファクタとコモンスケールファクタから算出されるものである。
すなわち、量子化及び符号化の処理として、最も音質に影響を与える重要な箇所は、各サブバンドのスケールファクタと、フレームのコモンスケールファクタとの最適値を決定することであるといえる。この２種類のスケールファクタの最適値が決定してしまえば、その後は式（２）からサブバンド毎の量子化ステップサイズがわかり、これを式（１）の量子化式に代入することで（サブバンドｓｂ内の各変換係数の値を、サブバンドｓｂ対応の量子化ステップサイズで割り算することで）、変換係数を量子化した値が求まる。
そして、量子化値をインデックスとしたハフマンテーブルでハフマンコードに符号化して伝送路上へ送信することになる。ところが、ここで問題となるのが、ＩＳＯで規定されている方法では、スケールファクタとコモンスケールファクタの最適値を決定するためには、多大な演算量を必要としているということである。
以降演算量が多大となる従来の処理について説明する。スケールファクタとコモンスケールファクタを決定する際には、人間の聴覚特性の１つであるマスキングパワーしきい値にもとづいて決定される。マスキングパワーしきい値とは、人間が聞こえる最小の音圧値のことである。
図６は可聴限界グラフを示す図である。可聴限界グラフＧの縦軸は音圧（ｄＢ）、横軸は周波数（Ｈｚ）である。人間の可聴範囲（２０〜２０，０００Ｈｚ）における聴覚の感度は、均一ではなく周波数によって違っており、３〜４ｋＨｚをピークに低域と高域の感度が急激に落ち込む。このことは、低い周波数及び高い周波数側の音は、音量を大きくしないとよく聞こえないということである。
図のグラフＧは、斜線部分が可聴範囲である。低域側または高域側では、音圧（音量）が高くないと聞こえにくく、３〜４ｋＨｚでは、音圧が小さくてもよく聞こえることがわかる（老人の場合では、可聴範囲の領域が狭くなってくる）。マスキングパワーしきい値は、この可聴限界グラフＧにもとづいて、ある周波数ｆではレベルＬ以下は聞こえないといったしきい値を、フーリエ変換（ＦＦＴ：ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）の演算によって求めたものである。
図７はマスキングパワーしきい値を示す図である。縦軸はしきい値のパワーであり、横軸は周波数である。１フレームの周波数帯域は、サブバンドｓｂ０〜ｓｂ４９でグループ分けされており、サブバンド毎に求められたマスキングパワーしきい値が示されている。
ここで、サブバンドｓｂ０のマスキングパワーしきい値はＭ０となっている。これは、サブバンドｓｂ０の帯域においては、パワーＭ０以下の信号（音）は、聞こえづらいということである。このため、信号処理を行う上では、しきい値Ｍ０以下の信号はノイズとみなしてよい（これにより、マスキングパワーしきい値は許容ノイズしきい値とも呼ばれる）。
したがって、量子化処理を行う場合では、すべてのサブバンドに対し、サブバンド毎の量子化誤差（量子化誤差のパワー）が、それぞれのサブバンドに対応するマスキングパワーしきい値以下になるような量子化を施せばよいことがわかる。
このことは、サブバンドｓｂ０についていえば、マスキングパワーしきい値Ｍ０よりも量子化誤差パワーが小さくなるような、スケールファクタ及びコモンスケールファクタを決定すればよいということである。
一方、サブバンドｓｂ０のマスキングパワーしきい値Ｍ０とサブバンドｓｂ１のマスキングパワーしきい値Ｍ１とを比較すると、Ｍ０＞Ｍ１である。このように、許容できるノイズの大きさはサブバンド毎に異なっている。
したがって、サブバンドｓｂ０では、サブバンドｓｂ１よりも許容できるノイズレベルが大きいので、サブバンドｓｂ１よりも量子化誤差は大きくてよい（サブバンドｓｂ０は、サブバンドｓｂ１よりも粗く量子化してよい）。
また、サブバンドｓｂ１は、サブバンドｓｂ０よりも許容できるノイズレベルが小さいので、サブバンドｓｂ０よりも量子化誤差は小さくする必要がある（サブバンドｓｂ１は、サブバンドｓｂ０よりも細かく量子化する）。
なお、図に示す１フレーム中、サブバンドｓｂ４のマスキングパワーしきい値が一番小さく、サブバンドｓｂ４９のマスキングパワーしきい値が一番高い値だとすると、サブバンドｓｂ４は、許容できるノイズレベルが小さく、聴覚に最も敏感な箇所ということになるため、１フレーム中の量子化誤差が最も小さくなるように量子化しないと、音質劣化が感知されてしまう。また、サブバンドｓｂ４９は、許容できるノイズレベルが大きく、１フレーム中、最も粗く量子化してよい。
このように、各サブバンドに対するスケールファクタ及びフレームのコモンスケールファクタを決める際には、上記のようなマスキングパワーしきい値との兼ね合いを見ていくことになるが、この他に、符号化に必要なビットレートは決められているので、使用可能な全体のビット数も満たすようにしなければならない（例えば、１２８ｋｂｐｓの符号化レートというように、符号化のビットレートはあらかじめ決められているので、そのビットレートから設定される情報量（ビット量）を守る必要がある）。
なお、ＡＡＣでは、フレーム間のビット数を適応的に可変できるように、ビットリザーバという一時的なビット貯蔵庫をもっている。符号化に使用可能なビット数は、設定されたビットレートと、聴覚モデルの聴覚エントロピーと、ビットリザーバにあるビット量とから算出される（聴覚エントロピーとは、フレームの入力音声信号をＦＦＴした周波数スペクトルから求められるもので、リスナーが雑音を知覚することがないように、そのフレームを量子化するのに必要な総ビット数とみなしてよい。例えば、広い帯域に渡ってスペクトルが延びるインパルス音やホワイトノイズなどでは大きな値を示し、このような場合には、符号化ビットが多く必要であると判断される）。
このように、２種類のスケールファクタを求めるには、マスキングパワーしきい値及び符号化使用可能ビット数の両方を満たすように決定することになるが、ＩＳＯによる従来の技術では、２種類のスケールファクタを１つずつ更新しながら量子化と逆量子化を繰り返す反復処理を行って求めている。
従来処理の流れについて記すと、まず最初に、コモンスケールファクタ及びスケールファクタに初期値を設定する。そして、初期値を設定したコモンスケールファクタ及びスケールファクタで、変換係数を量子化してみる。そして、量子化値を逆量子化してから、量子化誤差を求める（量子化誤差は、量子化する前の値（変換係数の値）と、逆量子化値の差分値のことである）。
その後、サブバンド内の最大の量子化誤差とマスキングパワーしきい値とを比較して、量子化誤差パワーがマスキングパワーしきい値よりも大きければ、スケールファクタをカウントアップして次のスケールファクタで再び、量子化→逆量子化→ノイズパワー評価を行う。また、サブバンド内の量子化誤差パワーの最大値がマスキングパワーしきい値よりも小さければ、次のサブバンドへ移る。
このようにして、すべてのサブバンドに対して、量子化誤差がマスキングパワーしきい値よりも小さくなった後に（この時点でスケールファクタはすべて算出されている）、ハフマン符号化してビット量を換算し、そのビット量が符号化レートで設定される所定のビット量以下であるか否かを判断する。
このとき、換算ビット量が所定ビット量よりも小さければ終了できるが、所定ビット量を超えてしまう場合には、コモンスケールファクタを１つカウントアップして、最初に戻り、１つカウントアップしたコモンスケールファクタとスケールファクタの初期値とから、あらためて量子化、逆量子化を行って、再び量子化誤差とマスキングパワーしきい値との評価演算を行っていく。
図８、図９は量子化／符号化のフローチャートを示す図である。上記の従来の反復処理による動作をフローチャートで示している。
〔Ｓ１〕ｃｏｍｍｏｎ＿ｓｃａｌｅｆａｃｔｏｒの初期値を算出する。なお、ＡＡＣの規格書には、初期値の算出式として以下の式（３）が定義されている。ただし、Ｘｍａｘは、フレーム内の変換係数の最大値である。

〔Ｓ２〕処理対象のサブバンドを示す変数ｓｂを初期化する（ｓｂ＝０）。
〔Ｓ３〕ｓｃａｌｅｆａｃｔｏｒ［ｓｂ］を初期化（ｓｃａｌｅｆａｃｔｏｒ［ｓｂ］＝０）する。
〔Ｓ４〕量子化処理対象のＭＤＣＴの変換係数を表す変数ｉを初期化する。
〔Ｓ５〕変換係数Ｘ［ｉ］を量子化する。量子化の式は以下の式（４ａ）、（４ｂ）である（式（１）、（２）に変数要素［ｉ］を入れただけである）。ＱＸ［ｉ］は量子化値を表す。

〔Ｓ６〕量子化した変換係数を逆量子化する。逆量子化の式は、以下の式（５）である。Ｘ^−１［ｉ］は逆量子化値を表す。

〔Ｓ７〕変換係数の量子化および逆量子化による量子化誤差パワー（ノイズパワー）Ｎ［ｉ］を以下の式（６）で算出する。

〔Ｓ８〕サブバンド内のすべての変換係数の処理が完了したか否かを判断する。
完了していればステップＳ１０へいき、完了してなければステップＳ９へいく。
〔Ｓ９〕変数ｉを更新し、ステップＳ５へ戻る。
〔Ｓ１０〕サブバンド内の量子化誤差パワーの最大値ＭａｘＮを求める。
〔Ｓ１１〕量子化誤差パワーの最大値ＭａｘＮと、聴覚モデルのマスキングパワーしきい値Ｍ［ｓｂ］とを比較する。ＭａｘＮ＜Ｍ［ｓｂ］である場合（ノイズの最大値がマスキングパワーしきい値を下回っている場合）、該当サブバンドの量子化はとりあえず完了としてステップＳ１３へいき、そうでなければもっと細かく量子化する必要があるということでステップＳ１２へいく。
〔Ｓ１２〕ｓｃａｌｅｆａｃｔｏｒ［ｓｂ］を更新し、ステップＳ４からやり直す。
〔Ｓ１３〕すべてのサブバンドの処理が完了したか否かを判断する。完了していればステップＳ１５へいき、完了してなければステップＳ１４へいく。
〔Ｓ１４〕サブバンドを示す変数ｓｂを更新して、ステップＳ３へ戻る。
〔Ｓ１５〕すべての変換係数の量子化が完了したので、量子化値をもとにハフマン符号化を行う。
〔Ｓ１６〕ハフマン符号化値から、消費するビット数を算出する。
〔Ｓ１７〕消費ビット数があらかじめ決められた許容ビット数に収まっているか否かを判断する。収まっているならば量子化／符号化処理を終了し、そうでなければステップＳ１８へいく。
〔Ｓ１８〕ｃｏｍｍｏｎ＿ｓｃａｌｅｆａｃｔｏｒを更新して、ステップＳ２からやり直す。
以上説明したように、従来の技術では、処理を完了させるために、１つの変換係数に関して、最適な量子化ステップサイズ値（２つのスケールファクタ値）を探すために、総当りで何度も何度も量子化と逆量子化処理及び符号化処理を行なう必要があった。このため、演算処理量が非常に大きくなり、また処理が収束せずに無限ループに入ってしまう場合もあり（このようなことが起きたときには、許容値を緩める処理が起動される）、演算効率が非常に悪いものであった。本発明ではこのような問題点を解決し、演算量を削減して演算効率の向上を実現したオーディオ符号化装置を提供するものである。
次に本発明の量子化ステップサイズ演算部１２で行われる、量子化ノイズの推定算出及び量子化ステップサイズの近似算出について詳しく説明する。本発明では、低演算量のエンコーダを実現するために、２種類のスケールファクタの算出を、一回の演算で近似する。
まず、量子化値Ｉを求める上述の式（１）の量子化式を以下のように変形する（式中、ｆｌｏｏｒの記号は省略）。なお、Ｘａは各サブバンド内の変換係数の代表値とする。例えば、該当サブバンド内に含まれる複数の変換係数の平均値を代表値としてもよいし、該当サブバンド内に含まれる複数の変換係数の中の最大値を代表値としてもよい。また、量子化ステップサイズをｑとおく。

ここで、式（７）中の｜Ｘａ｜^∧（３／４）に対して、｜Ｘａ｜^∧（３／４）＝Ａとすると、以下の式（８）となる。

式（８）から、Ａは２^∧（３ｑ／１６）の割り算（＝Ａ／２^{（３ｑ／１６）}）であるから、Ａは２^{（３ｑ／１６）}で量子化されているということであり、この割り算の分母（＝２^{（３ｑ／１６）}）が量子化精度に影響を与えるパラメータとなっている（Ａを丸める際の幅、すなわち、量子化ステップサイズである）。そして、この分母を２で割って平均すると以下の式（９）となる。

この式（９）は、Ａの量子化ノイズを平均した値（平均量子化ノイズ）を表している。図１０は平均量子化ノイズを説明するための図である。例えば、量子化ステップサイズである２^{（３ｑ／１６）}に対して、Ａの値（大きさ）が図に示すような位置にあるとする。このとき、間隔ｂが、Ａを量子化ステップサイズ２^{（３ｑ／１} ^６）で量子化した際の量子化ノイズ（量子化誤差）となる。
ＡがちょうどＰ１の位置にあれば、Ａは２^{（３ｑ／１６）}で割り切れるということなので、間隔ｂはゼロであり、量子化ノイズは最小値０になる。また、ＡがＰ２の位置にあれば、間隔ｂは２^{（３ｑ／１６）}となって、このときは量子化ノイズは最大値の２^{（３ｑ／１６）}になる。
量子化ノイズは、０〜２^{（３ｑ／１６）}で一様に分布すると考える。したがって、２^{（３ｑ／１６）}を２で割る式（９）は、この分布の平均値（分布の真ん中の値）をＡの平均量子化ノイズとすることを意味している。
このように、Ａの平均の量子化ノイズは式（９）として求まるが、実際に必要なものは、Ｘａの量子化ノイズである。ここで、ＡとＸａの関係が、もし線形であったならば（Ａ＝ｋ＊｜Ｘａ｜）、式（９）で求めたＡの平均量子化ノイズを、Ｘａの平均量子化ノイズとしてよい。
しかし、実際はＡ＝｜Ｘａ｜^∧（３／４）であって、Ｘａに３／４の累乗がかかっているので、ＡとＸａの関係は非線形の関係にあり（Ｘａは非線形圧縮信号である）、式（９）をそのままＸａの平均量子化ノイズとすることはできない。
図１１はＡとＸａの関係を示す図である。縦軸にＡ、横軸にＸａをとり、Ａ＝Ｘａ^∧（３／４）の指数関数のグラフを示している。Ａを等間隔に区切ったＡ１、Ａ２、・・・に対応するＸａをＸａ１、Ｘａ２、・・・とすると、Ｘａ１、Ｘａ２、・・・のそれぞれの間隔は、等間隔ではなく広がってくることがわかる。
Ｘａの量子化は、Ｘａの振幅に応じて量子化ステップサイズも可変にする非線形量子化であって、Ｘａの量子化ノイズを求める場合にも、Ｘａの振幅に応じて、量子化ステップサイズである２^{（３ｑ／１６）}を補正する必要がでてくる。補正係数（非線形圧縮係数）をｒとすると、補正係数ｒは以下の式（１０）となる。

図１２は補正係数ｒの算出概念を示す図である。Ａの量子化ステップサイズ２^{（３ｑ／１６）}による量子化に対し、Ａ＝｜Ｘａ｜^∧（３／４）なのでＡをＸ_Ａ伸張させる場合を考える。ＡをＸ_Ａに伸張させるには、伸張の比率ｒを２^{（３ｑ／１６）}に乗算する必要がある。ｒ＝Ｘ_Ａ／Ａであって、式（１０）のように求まることがわかる。
例えば、７の２による量子化に対して、７を１０．５に伸張させた場合の量子化ステップサイズを求めると、比率ｒは１．５（＝１０．５／７）なので、２に１．５を掛けた３が、７を１０．５に伸張させた場合の量子化ステップサイズになる。
したがって以上の説明により、｜Ｘａ｜の平均量子化ノイズは、式（９）のＡの平均量子化ノイズ（量子化ノイズ概算値）に式（１０）の補正係数ｒを乗算したものとなり、以下の式（１１）となる。

式（１１）は要するに、｜Ｘａ｜^∧（３／４）の２^{（３ｑ／１６）}による量子化、すなわち｛｜Ｘａ｜^∧（３／４）｝÷２^{（３ｑ／１６）}という割り算に対して、この割り算の分母の２^{（３ｑ／１６）}を２で割って、それに補正係数ｒを乗算したものである。
次にＸａの平均量子化ノイズを用いて量子化ステップサイズｑを求めるが、Ｘａの平均量子化ノイズは１つのサブバンドに対応するものであって、この平均量子化ノイズが該当サブバンドのマスキングパワーしきい値Ｍを超えないようなｑを決定すればよいことになる。すなわち、マスキングパワーしきい値Ｍを振幅に直したもの（平方根をとったもの）と、式（１１）との等号をとってｑを算出する。

式（１２）を以下のように展開していくと、各サブバンドの量子化ステップサイズｑは式（１３ｃ）となる。

なお、上記では、量子化ノイズの平均値から量子化ステップサイズを近似的に算出したが、量子化ノイズの最大値から求めてもよい。この場合、Ａの最大量子化ノイズは２^∧（３ｑ／１６）であり、これに補正係数ｒを掛けて、｜Ｘａ｜の最大量子化ノイズは式（１４）となる。

このときの量子化ステップサイズｑは、上記と同様にして、マスキングパワーしきい値Ｍを振幅に直したものと式（１４）とを等しいとおいて計算すると、式（１５）となる。

なお、上記の平均量子化ノイズは２^{（３ｑ／１６）}を２^１で割ったもの、最大量子化ノイズは２^{（３ｑ／１６）}を２^０で割ったものとみなせるので、２^{（３ｑ／１６）}を２^ｎで割ったものを量子化ノイズの一般値とすると、量子化ステップサイズは式（１６）と書くことができる。ｎ＝０、１、２、・・・であり、ｎ＝０の場合が最大量子化ノイズとマスキングパワーしきい値とを評価したときのｑであり、ｎ＝１の場合が平均量子化ノイズとマスキングパワーしきい値とを評価したときのｑである。

そして、量子化部１３では、このように近似的に求めた量子化ステップサイズｑを、式（１）に代入することで、個々の変換係数Ｘにおける量子化値を算出する。その後、量子化値は、符号化部１５でハフマン符号化されて送信される。
また、デコーダ側に送信する情報は、量子化値だけでなく、コモンスケールファクタ及びスケールファクタの値も送信することになっている。したがって、量子化ステップサイズｑからコモンスケールファクタ及びスケールファクタを求める必要がある。
従来では、コモンスケールファクタを算出する場合は式（３）を使用していたが、本発明では１フレームのすべてのサブバンドに対応する複数の量子化ステップサイズの中の最大の量子化ステップサイズを、コモンスケールファクタと設定する（すなわち、近似的に算出した、サブバンド毎の量子化ステップサイズの最大値をコモンスケールファクタとする）。また、各サブバンドのスケールファクタは式（２）を変形して以下の式（１７）から算出される。式中のｍａｘ．ｑは量子化ステップサイズ最大値を表す。

このように、量子化ステップサイズｑからコモンスケールファクタ及びスケールファクタを求める。符号化部１５では、これらをハフマン符号化して、コモンスケールファクタ及びスケールファクタもデコーダ側に送信する。
なお、コモンスケールファクタを量子化ステップサイズの最大値としたのは、スケールファクタ値の符号化に要するビット数をできるだけ小さくして、符号化部１５での符号化効率を上げるためである。
次に本発明の動作をフローチャートを用いて説明する。図１３、図１４は本発明の全体動作を示すフローチャートである。
〔Ｓ２１〕空間変換部１１は、ＰＣＭサンプル値にＭＤＣＴを施し、変換係数を算出する。
〔Ｓ２２〕量子化ステップサイズ演算部１２は、サブバンド毎に変換係数の代表値を求める（空間変換部１１でこの処理を行ってもよい）。
〔Ｓ２３〕量子化ステップサイズ演算部１２は、式（１３ｃ）を用いて、該当サブバンドの量子化ステップサイズｑを算出する。
〔Ｓ２４〕量子化ステップサイズ演算部１２は、１フレーム中のすべてのサブバンドに対する量子化ステップサイズを求めたか否かを判断する。すべて求めた場合はステップＳ２５へいき、そうでなければステップＳ２３へ戻る。
〔Ｓ２５〕スケールファクタ算出部１４は、量子化ステップサイズの最大値をコモンスケールファクタと設定する。
〔Ｓ２６〕スケールファクタ算出部１４は、式（１７）からサブバンド毎のスケールファクタを算出する。
〔Ｓ２７〕量子化対象のサブバンドを示す変数ｓｂを初期化する（ｓｂ＝０）。
〔Ｓ２８〕量子化部１３は、サブバンド毎に求めた量子化ステップサイズで、式（１）を用いて、サブバンド内の変換係数を量子化する。
〔Ｓ２９〕符号化部１５は、量子化値、コモンスケールファクタ、スケールファクタをハフマン符号化し、現在のサブバンドまでの消費ビット数を算出する。
〔Ｓ３０〕符号化部１５は、消費ビット数（量子化値、コモンスケールファクタ、スケールファクタのそれぞれに対する符号化割り当てビット）があらかじめ決められた許容ビット数を超えているか否かを判断する。超えていればステップＳ３１へいき、超えていなければステップＳ３２へいく。
〔Ｓ３１〕処理対象のサブバンドのビットを加算することで、許容ビット数がオーバすることになったので、符号化部１５は、該当サブバンドを符号化対象から外す（符号化処理を停止する）。
〔Ｓ３２〕符号化部１５は、すべてのサブバンドの処理を行ったか否かを判断する。すべて行った場合は終了し、そうでなければステップＳ３３へいく。
〔Ｓ３３〕サブバンドを示す変数ｓｂを更新して、ステップＳ２８へ戻る。
以上説明したように、本発明によれば、各変換係数につき１回の量子化処理を行うだけですみ、また逆量子化を行っての量子化誤差パワー算出処理なども不要となるため、大幅に演算量が削減できることになる。
また、上記のフローチャートからわかるように、低いサブバンドから、次々とより高いサブバンドに対して処理を行って、許容ビット数をオーバするところで処理を止めている。許容ビット数は、ビットリザーバにあるビット数と設定ビットレートを加算したものとし、聴覚エントロピーなどは必ずしも算出する必要がない。
このため、本発明は周波数特性が広いフレームについては、多くビットをアサインし、狭いフレームについては、少なくビットをアサインする動作となる。すなわち、聴覚エントロピーの大小にしたがって自動的に必要なビット数をアサインする結果となり、処理の簡素化が実現でき、プログラムメモリ量や演算量をより削減することが可能になる。
ここで、従来と本発明との演算速度の違いについて説明する。従来の音声圧縮のアルゴリズムで、リアルタイムエンコーダを実現する場合には、組み込み型のプロセッサの処理能力として３ＧＨｚ程度のクロックが必要である。一方、本発明のアルゴリズムでは、６０ＭＨｚ程度のクロックでリアルタイムエンコーダを実現することができ、１／５０以下に演算量を削減した測定結果を得た。
次に本発明のオーディオ符号化装置１０を適用したＭＰＥＧ２−ＡＡＣエンコーダについて説明する。図１５は本発明を適用したＭＰＥＧ２−ＡＡＣエンコーダの構成を示す図である。ＭＰＥＧ２−ＡＡＣエンコーダ２０は、心理聴覚分析部２１、ゲインコントローラ２２、フィルタバンク２３、ＴＮＳ（ＴｅｍｐｏｒａｌＮｏｉｓｅＳｈａｐｉｎｇ）２４、インテンシティ／カップリング部２５、予測部２６、Ｍ／Ｓ（Ｍｉｄｄｌｅ／Ｓｉｄｅ）２７、量子化／符号化部１０ａ、ビットリザーバ２８、ビットストリーム生成部２９から構成される。量子化／符号化部１０ａは、図１で示した量子化部１３、スケールファクタ算出部１４、符号化部１５の構成要素を含んでいる。
なお、ＡＡＣアルゴリズムには、複雑度・構造に応じて３つのプロファイルが用意されており、ここでは最も高音質の得られるＭａｉｎプロファイルの処理を中心に説明する。
入力されたオーディオ信号は、所定のサンプル数毎にブロック化され、それを１フレームとして処理される。心理聴覚分析部２１は、入力フレームをフーリエ変換して周波数スペクトルを求め、それを元に聴覚のマスキングを計算し、マスキングパワーしきい値と、そのフレームに対する聴覚エントロピーのパラメータを求める。
ゲインコントローラ２２は、３つのプロファイルのＳＳＲ（ＳｃａｌａｂｌｅＳａｍｐｌｉｎｇＲａｔｅ）のみで使用されるツールであり、入力時間信号を帯域分割フィルタで４分割して、最も低いバンド以外の信号のゲインをコントロールする。
フィルタバンク２３は、ＭＤＣＴ部に該当し、入力時間信号にＭＤＣＴを施して変換係数を算出する。ＴＮＳ２４は、変換係数を時間軸上の信号であるかのように見立てて線形予測を行い、変換係数に対して予測フィルタリングを行う。この処理により、デコーダ側で逆ＭＤＣＴして得られる波形に含まれる量子化ノイズは、信号レベルの大きなところに集まるようになる。なお、ゲインコントローラ２２、ＴＮＳ２４は、特に打楽器などの切れのよい音を効率よく符号化するために用いられるツールである。
インテンシティ／カップリング部２５及びＭ／Ｓ２７は、２チャンネル以上のチャネル構成の場合に、チャネル間の相関を利用して符号化効率を上げるツールである（ステレオのオーディオ信号を効率よく符号化するために用いられるツールである）。
インテンシティステレオは、左（Ｌ）と右（Ｒ）のチャネル信号の和信号とパワーの比を符号化する。カップリングは、背景音の中に定位させたい音をカップリングチャネルとして符号化する。Ｍ／Ｓ２７は、左（Ｌ）チャネルと右（Ｒ）チャネルの信号の符号化、またはそれぞれの和（Ｌ＋Ｒ）と差（Ｌ−Ｒ）の信号の符号化のいずれかをサブバンド毎に選択して行う。
予測部２６は、Ｍａｉｎプロファイルだけで使用される。変換係数１つ毎に、過去２フレームにおける量子化された変換係数から現在の変換係数の値を予測し、その予測残差を求める。特に入力信号が定常的である場合、非常に大きな予測ゲインが得られ、変換係数の電力（分散）が小さくなる。同じ量子化雑音電力が許容されるならば、量子化対象の分散が小さい方が必要なビット数を少なくできるので、圧縮する際に有利となる。
上記の各ツールで処理された変換係数は、本発明の主要部である量子化／符号化部１０ａに入力される。量子化／符号化部１０ａでは、サブバンド毎にグループ分けした変換係数に対して、１回の演算で高速に量子化／符号化を行う。詳細動作は上述したので説明は省略する（量子化／符号化部１０ａに相当する従来のＡＡＣエンコーダの構成部分は、ＩｔｅｒａｔｉｏｎＬｏｏｐｓと呼ばれ反復処理を行うブロックで構成されている。従来の量子化・ハフマン符号化の処理は反復ループで行われ、実際に生成される符号量がフレームに割当てられたビット数を下回るまで繰返される効率の悪いものであった）。
ビットリザーバ２８は、ハフマン符号化する際に、フレームの割り当てビット数を適応的に可変するためのビットをバッファリングしておくものである。ビットリザーバ２８によって擬似的な可変ビットレートを設定することができる。ビットストリーム生成部２９は各ツールからの符号化データをまとめて１つのＡＡＣビットストリームとして伝送路から出力する。
このように、本発明によれば、マスキングパワーしきい値を下回るスケールファクタを算出するために従来のような試行錯誤をする必要がなく、１回の演算で近似できるために、演算量を大幅に削減することが可能になる。また、演算負荷を軽減できることから装置の小型化、低コスト化も可能になる。なお、上記では、本発明をＭＰＥＧ２−ＡＡＣエンコーダに適用した例を示したが、これ以外にもＭＰＥＧ４−ＡＡＣエンコーダやＭＰ３エンコーダ、またはその他の音声符号化エンコーダに対して幅広く本発明を適用することが可能である。
以上説明したように、本発明のオーディオ符号化装置は、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズを近似的に算出する。そして、量子化ステップサイズにもとづき、変換係数を量子化して量子化値を求め、コモンスケールファクタ及びスケールファクタを求めて、これらを符号化する構成とした。これにより、人間の聴覚特性に応じて行われる、変換係数の量子化演算に対して、演算量の大幅な削減を実現することができ、演算効率の向上を図ることが可能になる。
上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

Claims

音声信号の符号化を行うオーディオ符号化装置において、
音声信号のサンプル値に空間変換を施して変換係数を算出する空間変換部と、
変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズを近似的に算出する量子化ステップサイズ演算部と、
量子化ステップサイズにもとづき、変換係数を量子化して量子化値を求める量子化部と、
量子化ステップサイズから、フレーム全体のオフセット値であるコモンスケールファクタと、サブバンド毎のスケールファクタとを求めるスケールファクタ算出部と、
量子化値、コモンスケールファクタ、スケールファクタの少なくとも１つを符号化する符号化部と、
を有することを特徴とするオーディオ符号化装置。
前記量子化ステップサイズ演算部は、変換係数の代表値の量子化ノイズ概算値を求めた後に、量子化ノイズ概算値に補正係数を乗算して、非線形圧縮に対応した量子化ノイズを推定算出することを特徴とする請求の範囲第１項記載のオーディオ符号化装置。
前記量子化ステップサイズ演算部は、変換係数の代表値をＸａ、量子化ステップサイズをｑとした場合の量子化式
｜Ｘａ｜^∧（３／４）＊２^∧（−３ｑ／１６）−０．０９４６
に対して、｜Ｘａ｜^∧（３／４）の量子化ノイズ概算値Ｎａを
Ｎａ＝２^∧（３ｑ／１６）／２^ｎ（ｎ＝０、１、２、・・・）
によって求め、
補正係数ｒを
ｒ＝｜Ｘａ｜／｜Ｘａ｜^∧（３／４）＝｜Ｘａ｜^∧（１／４）
によって求めて、量子化ノイズＮを
Ｎ＝Ｎａ＊ｒ＝２^∧（（３ｑ／１６）−ｎ）＊｜Ｘａ｜^∧（１／４）
で算出することを特徴とする請求の範囲第２項記載のオーディオ符号化装置。
前記量子化ステップサイズ演算部は、マスキングパワーしきい値をＭ、変換係数の代表値をＸａとした場合に、
ｑ＝［ｌｏｇ_２｛Ｍ^∧（１／２）＊｜Ｘａ｜^∧（−１／４）｝＋ｎ］＊１６／３
（ｎ＝０、１、２、・・・）
の式から量子化ステップサイズｑを近似的に算出することを特徴とする請求の範囲第１項記載のオーディオ符号化装置。
前記スケールファクタ算出部は、各サブバンドの量子化ステップサイズの最大値をコモンスケールファクタと設定し、コモンスケールファクタから量子化ステップサイズを減算して、サブバンド毎のスケールファクタを求めることを特徴とする請求の範囲第１項記載のオーディオ符号化装置。
前記符号化部は、低い帯域のサブバンドから符号化を行って符号化に使用した消費ビット数を算出し、消費ビット数が許容ビット数を上回る場合は、上回る手前のサブバンドで符号化処理を完了し、下回っている場合は継続して次のサブバンドの符号化処理を行うことを特徴とする請求の範囲第１項記載のオーディオ符号化装置。
マルチチャネル対応の音声信号の符号化を行うＭＰＥＧ−ＡＡＣエンコーダにおいて、
音声信号のサンプル値を、フーリエ変換を用いて分析して、マスキングパワーしきい値を算出する心理聴覚分析部と、
音声信号のサンプル値にＭＤＣＴを施して、変換係数を算出するＭＤＣＴ部と、
変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズを近似的に算出する量子化ステップサイズ演算部と、量子化ステップサイズにもとづき、変換係数を量子化して量子化値を求める量子化部と、量子化ステップサイズから、フレーム全体のオフセット値であるコモンスケールファクタと、サブバンド毎のスケールファクタとを求めるスケールファクタ算出部と、量子化値、コモンスケールファクタ、スケールファクタの少なくとも１つをハフマン符号化する符号化部と、から構成される量子化／符号化制御部と、
ハフマン符号化する際に、フレームの割り当てビット数を適応的に可変するためのビットをバッファリングしておくビットリザーバと、
を有することを特徴とするＭＰＥＧ−ＡＡＣエンコーダ。
前記量子化ステップサイズ演算部は、変換係数の代表値の量子化ノイズ概算値を求めた後に、量子化ノイズ概算値に補正係数を乗算して、非線形圧縮に対応した量子化ノイズを推定算出することを特徴とする請求の範囲第７項記載のＭＰＥＧ−ＡＡＣエンコーダ。
前記量子化ステップサイズ演算部は、変換係数の代表値をＸａ、量子化ステップサイズをｑとした場合の量子化式
｜Ｘａ｜^∧（３／４）＊２^∧（−３ｑ／１６）−０．０９４６
に対して、｜Ｘａ｜^∧（３／４）の量子化ノイズ概算値Ｎａを
Ｎａ＝２^∧（３ｑ／１６）／２^ｎ（ｎ＝０、１、２、・・・）
によって求め、
補正係数ｒを
ｒ＝｜Ｘａ｜／｜Ｘａ｜^∧（３／４）＝｜Ｘａ｜^∧（１／４）
によって求めて、量子化ノイズＮを
Ｎ＝Ｎａ＊ｒ＝２^∧（（３ｑ／１６）−ｎ）＊｜Ｘａ｜^∧（１／４）
で算出することを特徴とする請求の範囲第８項記載のＭＰＥＧ−ＡＡＣエンコーダ。
前記量子化ステップサイズ演算部は、マスキングパワーしきい値をＭ、変換係数の代表値をＸａとした場合に、
ｑ＝［ｌｏｇ_２｛Ｍ^∧（１／２）＊｜Ｘａ｜^∧（−１／４）｝＋ｎ］＊１６／３
（ｎ＝０、１、２、・・・）
の式から量子化ステップサイズｑを近似的に算出することを特徴とする請求の範囲第７項記載のＭＰＥＧ−ＡＡＣエンコーダ。
前記スケールファクタ算出部は、各サブバンドの量子化ステップサイズの最大値をコモンスケールファクタと設定し、コモンスケールファクタから量子化ステップサイズを減算して、サブバンド毎のスケールファクタを求めることを特徴とする請求の範囲第７項記載のＭＰＥＧ−ＡＡＣエンコーダ。
前記符号化部は、低い帯域のサブバンドから符号化を行って符号化に使用した消費ビット数を算出し、前記ビットリザーバにあるビット数と、設定ビットレートとを加算した値である許容ビット数に対して、消費ビット数が上回る場合は、上回る手前のサブバンドで符号化処理を完了し、下回っている場合は、継続して次のサブバンドの符号化処理を行うことを特徴とする請求の範囲第７項記載のＭＰＥＧ−ＡＡＣエンコーダ。
音声信号の量子化処理に対して、量子化ステップサイズを決めるパラメータであるコモンスケールファクタ及びスケールファクタを算出するスケールファクタ算出方法において、
音声信号のサンプル値に空間変換を施して変換係数を算出し、
変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、
聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズを近似的に算出し、
各サブバンドの量子化ステップサイズの最大値を、フレーム全体のオフセット値であるコモンスケールファクタと設定し、
コモンスケールファクタから量子化ステップサイズを減算して、サブバンド毎のスケールファクタを算出することを特徴とするスケールファクタ算出方法。
変換係数の代表値をＸａ、量子化ステップサイズをｑとした場合の量子化式
｜Ｘａ｜^∧（３／４）＊２^∧（−３ｑ／１６）−０．０９４６
に対して、｜Ｘａ｜^∧（３／４）の量子化ノイズ概算値Ｎａを
Ｎａ＝２^∧（３ｑ／１６）／２^ｎ（ｎ＝０、１、２、・・・）
によって求め、
補正係数ｒを
ｒ＝｜Ｘａ｜／｜Ｘａ｜^∧（３／４）＝｜Ｘａ｜^∧（１／４）
によって求めて、量子化ノイズＮを
Ｎ＝Ｎａ＊ｒ＝２^∧（（３ｑ／１６）−ｎ）＊｜Ｘａ｜^∧（１／４）
で算出することを特徴とする請求の範囲第１３項記載のスケールファクタ算出方法。
マスキングパワーしきい値をＭ、変換係数の代表値をＸａとした場合に、
ｑ＝［ｌｏｇ_２｛Ｍ^∧（１／２）＊｜Ｘａ｜^∧（−１／４）｝＋ｎ］＊１６／３
（ｎ＝０、１、２、・・・）
の式から量子化ステップサイズｑを近似的に算出することを特徴とする請求の範囲第１３項記載のスケールファクタ算出方法。