JP4454664B2

JP4454664B2 - オーディオ符号化装置及びオーディオ符号化方法

Info

Publication number: JP4454664B2
Application number: JP2007534206A
Authority: JP
Inventors: 義照土永; 政直鈴木; 美由紀白川; 孝志牧内
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-09-05
Filing date: 2005-09-05
Publication date: 2010-04-21
Anticipated expiration: 2025-09-05
Also published as: KR100979624B1; EP1933305B1; KR20080032240A; WO2007029304A1; EP1933305A1; US7930185B2; US20080154589A1; EP1933305A4; JPWO2007029304A1

Description

本発明は、オーディオ符号化装置及びオーディオ符号化方法に関し、特に携帯電話やインターネット等の情報通信分野、テレビ等のディジタル放送分野、さらにＭＤ・ＤＶＤのようなＡＶ機器によるオーディオ信号の蓄積・記録分野で使用される、オーディオ信号の符号化を行うオーディオ符号化装置及びオーディオ符号化方法に関する。

近年、インターネットやディジタル地上波放送等の通信分野、またはＤＶＤやシリコンオーディオ等のＡＶ機器の急速な普及に伴い、オーディオ信号を効率よく圧縮するオーディオ符号化技術に対する需要が高まっている。

オーディオ符号化方式としては、適応変換符号化が主に用いられている。適応変換符号化は、人間の聴覚特性を利用して、冗長度の高い情報や聴感上問題のない音のデータを削減して、情報量を圧縮する符号化方式のことである。

適応変換符号化方式の基本的な符号化処理は以下の流れで行われる。
・時間領域のオーディオ信号を周波数領域へ変換する。
・周波数軸上の信号を人間の聴覚の周波数分解能に対応する周波数帯域で区切る。
・人間の聴覚特性を利用して、各周波数帯域で符号化に必要な最適な情報量を計算する。
・各周波数帯域に割り振られた情報量にしたがい、周波数軸上の信号を量子化する。

一方、適応変換符号化方式の中でも、ＭＰＥＧ２ＡＡＣ（Moving Pictures Experts Group-2 Advanced Audio Coding）は、地上波ディジタル放送にも採用されており、近年注目を浴びている符号化方式である。なお、ＭＰＥＧ２ＡＡＣ（以下、単にＡＡＣ）は、ISO/IEC（International Standardization Organization／International Electro technical Commission：国際標準化機構／国際電気標準会議）で標準化された符号化方式であり、詳細はISO/IEC 13818-7のPart 7, “Advanced Audio Coding（AAC）に記載されている。

ＡＡＣエンコーダでは、時間領域のアナログのオーディオ信号をサンプリングしてディジタル値に変換し、ディジタル値を所定のサンプリング数に分割してフレームを生成する。

また、１つのフレームは、LONGブロック（１０２４サンプル）またはSHORTブロック（１２８サンプル）の２種類のブロック長が割り当てられ、オーディオ信号の性質に応じて、LONGまたはSHORTのブロックを適応的に切り替えて、ブロック毎に符号化が行われる。

図８はLONGブロックとSHORTブロックの関係を示す図である。１フレームは、１０２４個のサンプリング値から構成される。LONGブロックは、１フレームの区間そのままであり、SHORTブロックは、１フレームを８個に分割した１２８個のサンプリング値からなる区間である。

したがって、フレームを符号化する場合、LONGブロックを選択した場合には、１フレーム単位で符号化処理を行うことになり、SHORTブロックを選択した場合は、１フレームの１／８単位で符号化処理を行うことになる。

図９は従来のＡＡＣエンコーダの概略構成を示す図である。ＡＡＣエンコーダ１００は、音響分析部１０１、ブロック長選択部１０２、符号化部１０３から構成される。
音響分析部１０１は、入力信号をＦＦＴ（Fast Fourier Transform）分析によりＦＦＴスペクトルを求め、ＦＦＴスペクトルから知覚エントロピーを求めて、ブロック長選択部１０２へ送信する。知覚エントロピーとは、量子化するのに必要なビット数を表すパラメータである。

ブロック長選択部１０２は、受信した知覚エントロピーがあらかじめ設定したしきい値（定数）を超えればSHORTブロックを選択し、知覚エントロピーがしきい値を越えなければLONGブロックを選択する。

符号化部１０３は、ブロック長選択部１０２で選択されたブロック長がLONGブロックならば、入力信号の該当フレームをLONGブロック単位で符号化し、選択されたブロック長がSHORTブロックならば、入力信号の該当フレームをSHORTブロック単位で符号化する。

符号化処理では、１フレームをLONGブロック単位またはSHORTブロック単位で直交変換を行って直交変換係数を求め、直交変換係数を許容されたビット数の範囲内で周波数バンド毎に量子化し、量子化値からビットストリームを生成して送信する。

ここで、入力信号の１フレームが、振幅や周波数がほとんど変化しない定常的な信号（波形としては正弦波に近いもの）の場合は、信号変化量が小さく情報量も大きくはないので、１フレームまとめて、すなわちLONGブロック単位で符号化することが望ましい（振幅や周波数に大きな変化がない区間が続いている場合は、その区間をまとめて符号化した方が効率がよい）。

なお、定常区間では、符号化時の量子化ビット数が大きくないので、定常信号の占める割合が大きいフレームの知覚エントロピー（量子化に必要なビット数を表すパラメータ）は、しきい値を下回ることになって、LONGブロックが選択されることになる。

これに対して、フレーム内に振幅または周波数が急峻に変化する信号（以下、アタック音とも呼ぶ）が存在する場合に、そのフレームをLONGブロックで符号化すると、元の入力信号にはなかったプリエコー（pre-echo）と呼ばれる雑音が発生し、音質劣化の原因となる。

以下、図１０〜図１２を用いてプリエコーについて説明する。なお、図１０〜図１２では、横軸を時間、縦軸を振幅とする。図１０はアタック音を含む符号化前の入力信号を示す図である。入力信号のフレームｆ１には、アタック音と、定常信号とが含まれている。

図１１はプリエコーを示す図である。フレームｆ１をLONGブロックで符号化したときの復号音（フレームｆ１ａ）を示している。フレームｆ１は、アタック音と定常信号とが存在して、成分が大きく異なる信号が含まれている。このようなフレームｆ１をLONGブロックで符号化して、周波数軸上で量子化すると、図１１に示すように、アタック音から生じた誤差量の大きい量子化誤差（図中の細かい歪）が、フレームｆ１全体に乗る（重畳する）ことになる。

この場合、アタック音の手前に重畳した量子化誤差は、プリエコーと呼ばれる雑音信号となり、ユーザにとって耳障りなものとなって、音質劣化を引き起こす。また、アタック音そのものに重畳した量子化誤差は、アタック音自身に埋もれてしまうため、聴覚上影響を与えることはほとんどない。

さらに、アタック音の後段にも量子化誤差は重畳するので、これも雑音信号（ポストエコー（post-echo）と呼ばれる）となるが、大きな音の直後に少しの長さの雑音信号が生じても人間の聴覚では感じとることができないので、通常はポストエコーも問題視されることはない。

したがって、主観的に聴覚に影響を与えて、音質劣化を引き起こす問題となるのはプリエコーであり、オーディオ符号化処理においては、このプリエコーを抑制することが重要となる。

図１２はSHORTブロックで符号化したときの復号音を示す図である。プリエコーを抑制するには、フレームｆ１をSHORTブロックで符号化すればよい。SHORTブロックで符号化すれば、アタック音が含まれるブロックｂで生じた量子化誤差は、ブロックｂ内で閉じたものとなり、他のブロックに影響を与えないからである。

したがって、アタック音のような急峻な信号がフレーム内に存在する場合には、SHORTブロックを選択し（アタック音では、符号化時の量子化ビット数が大きいので、アタック音が含まれるフレームの知覚エントロピーは、しきい値を上回ることになって、SHORTブロックが選択される）、SHORTブロック単位で符号化を行うことでプリエコーを抑制している。

従来技術として、プリエコーを抑制したビットストリームを作成するオーディオ符号化技術が提案されている（例えば、特許文献１）。
特開２００５−３８３５号公報（段落番号〔００２８〕〜〔００４５〕，第１図）

ＡＡＣエンコーダのようなオーディオ符号化装置では、通常、量子化ビットの増減を吸収して、擬似的な可変ビットレート制御を行うビットリザーバ機能が設けられている。
図１３はビットリザーバの動作概念を示す図である。図中のグラフＧ１は、横軸がフレーム、縦軸が量子化ビット数であり、各フレームで使用した量子化ビット数を表している。また、グラフＧ２は、横軸がフレーム、縦軸がリザーブビット数であり、各フレームが量子化された際に、そのときビットリザーバに存在する余剰ビット数を表している。

ここで、平均量子化ビット数が１００ビットとする。平均量子化ビット数は、余剰ビット数を決める指標であって、伝送ビットレートに応じて算出されるものである。
フレームの量子化時に、必要な量子化ビット数が平均量子化ビット数を下回る場合は、下回った分のビット数は余剰ビット数として蓄積される。また、必要な量子化ビット数が平均量子化ビット数を上回る場合、上回った分のビット数に対しては、蓄積しておいた余剰ビット数が使用される。

図では例えば、フレーム１の量子化ビット数は１００なので、平均量子化ビット数と等しいため、余剰ビット数は０である。フレーム２の量子化ビット数は８０で、平均量子化ビット数に対して２０下回るので、このときの余剰ビット数は２０（＝１００−８０）となる。

フレーム３の量子化ビット数は７０であり、このときの余剰ビット数は、フレーム２ですでに蓄積されている余剰分も含めて５０（＝１００−７０＋２０）となる。
フレーム４の量子化ビット数は１２０であり、平均量子化ビット数を２０上回る。このような場合、超過した２０はフレーム３のときに蓄積されていた余剰ビット数５０から使用される。したがって、このときの余剰ビット数は３０（＝５０−２０）となる。以降同様にして、フレームに割り当てられるビット数の増減の吸収を行って可変ビットレート制御が行われる。

なお、フレーム２、３がLONGブロックで符号化されるフレームであり、フレーム４がSHORTブロックで符号化されるフレームであるとすると、LONGブロックは、量子化に要するビット数が小さいので、余剰ビット数が蓄積される。

一方、SHORTブロックのように、量子化に要するビット数が大きい場合は、LONGブロックのときに蓄積されている余剰ビット数がSHORTブロックの量子化時に回されて使用されることになる。

ここで、圧縮率が低く、量子化ビット数を多く割り当てることが可能な高ビットレート条件では、フレーム内にアタック音のような変化の大きい信号が存在して、知覚エントロピーが高い値を示す場合、SHORTブロックを選択して符号化すればプリエコーが抑制され、かつ、ビットリザーバの平均量子化ビット数の値も大きいので、ビットリザーバのビット不足も生じることはない。

しかし、圧縮率を高めて、量子化ビット数を多く割り当てることができない低ビットレート条件では、ビットリザーバの平均量子化ビット数の値が小さいので（使用できるビット数が元々少ないということ）、知覚エントロピーが大きい値のときにSHORTブロックを選択すると、すぐに余剰ビット数が消費されてビット不足状態を生じ、著しい音質劣化が生じるといった問題があった。

したがって、アタック音のような変化の大きい信号が存在するフレームで、プリエコーを抑制するためにSHORTブロックを選択して符号化しているにもかかわらず、符号化に必要なビットが不足しているために、プリエコーよりも激しい音質劣化が生じてしまうことになる（ビット不足で生じる音質劣化は、プリエコーよりも強い音質劣化と感じられる）。

一方、近年では、４８ｋＨｚサンプリングステレオ信号を９６ｋｂｐｓ以下（圧縮率１／１６以上）で符号化するような低ビットレート条件の放送などが開始されている（例えば、携帯電話機向けの地上波ディジタル放送（１セグメント放送）などである）。

なお、４８ｋＨｚサンプリングステレオ信号を何ら圧縮せずに伝送しようとすると、４８ｋＨｚサンプリングステレオ信号は、１秒間に４８０００サンプルあって、１サンプルを１６bitで表現し、２ｃｈで伝送するならば、48000×16×2＝1536kbpsとなる。１５３６ｋｂｐｓの１／１６が９６ｋｂｐｓである（一般にＭＰ３（MPEG Audio Layer 3）形式のプレーヤ機器では、ＣＤの４４．１ｋＨｚの信号をおよそ１２８ｋｂｐｓまで圧縮してＣＤの音質を再現しているが、上記のような携帯電話機向けの地上波ディジタル放送では、４８ｋＨｚを１２８ｋｂｐｓよりもさらに低い９６ｋｂｐｓ以下まで圧縮しているので、圧縮率は非常に高く、音質劣化を抑制するには難しい領域で符号化していることがわかる）。

このような低ビットレート条件での放送・通信サービスでは、使用できるビット数が少ないため、アタック音のような変化の大きい信号が存在したり、または変化の大きい信号が連続して続くような場合には、ビットリザーバに蓄積される余剰ビット数の消費量が増加し、急激なビット不足が発生する。

特に多くのビット数を必要とするSHORTブロックでのビット不足は、符号化性能を大幅に低下させ、プリエコーが発生しているときよりも著しく音質を劣化させてしまう。
これにより、低ビットレート条件でサービスを行う地上波ディジタル放送などの分野で、従来のＡＡＣエンコーダによるオーディオ信号の符号化処理を行うと、入力信号に応じて正確にSHORTブロックを選択して符号化しているにもかかわらず、大きな音質劣化が生じてしまうといった問題があった。

一方、上記の従来技術（特開２００５−３８３５号公報）では、ビットリザーバによって制御されている余剰ビット数に応じてLONGブロックまたはSHORTブロックを選択する際の聴覚エントロピーしきい値を決定し、これにより、余剰ビット数が足りない場合は、アタック音が存在するフレームであっても、SHORTブロックを選択せずに、LONGブロックを選択するようにして音質劣化の防止を行っている。

しかし、この従来技術は、プリエコーよりも音質が悪くなるビット不足状態でのSHORTブロックの選択をやめて、単純にLONGブロックに切り替える技術であるので、結局、LONGブロック符号化時に発生するプリエコーによる音質劣化についての問題は再び表面化することになり、音質劣化抑制のための最適な解決方法とはいえない。

本発明はこのような点に鑑みてなされたものであり、最適なブロック長を決定して符号化を行って、プリエコー及びビット不足から生じる音質劣化を改善したオーディオ符号化装置を提供することを目的とする。

また、本発明の他の目的は、最適なブロック長を決定して符号化を行って、プリエコー及びビット不足から生じる音質劣化を改善したオーディオ符号化方法を提供することである。

上記課題を解決するために、オーディオ信号の符号化を行うオーディオ符号化装置が提供される。このオーディオ符号化装置は、オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータである知覚エントロピーを求める音響分析部と、オーディオ信号を符号化した際の符号化ビット数を監視して、現フレームで使用可能なビット数である余剰ビット数を求める符号化ビット数監視部と、知覚エントロピーと余剰ビット数との組み合わせにもとづいて、プリエコー及びビット不足から生じる音質劣化を抑制する符号化ブロック長となるように、オーディオ信号の１フレームを分割する分割数を決定するフレーム分割数決定部と、分割数をＮとした際に、Ｎ＝１の場合は、１フレーム単位で直交変換を行って第１の直交変換係数を求め、最大分割数をＮmaxとした際に、Ｎ＝Ｎmaxの場合は、最大分割数で１フレームを分割し、最大分割されたブロック長単位でオーディオ信号の直交変換を行って第２の直交変換係数を求め、１＜Ｎ＜Ｎmaxの場合は、最大分割数で１フレームを分割して第２の直交変換係数を求め、分割数Ｎで第２の直交変換係数をグループ化する直交変換部と、Ｎ＝１の場合は、第１の直交変換係数を１フレーム単位で量子化し、Ｎ＝Ｎmaxの場合は、第２の直交変換係数を最大分割されたブロック長単位で量子化し、１＜Ｎ＜Ｎmaxの場合は、第２の直交変換係数をグループ化単位で量子化する量子化部とを備える。また、直交変換部は、オーディオ信号の変化点近傍のブロック長が短くなるようにグループ化の境界を設定する。

プリエコー及びビット不足から生じる音質劣化を改善して、オーディオ信号符号化品質の向上を図ることが可能になる。

本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

オーディオ符号化装置の原理図である。変換マップを示す図である。フレーム分割例を示す図である。オーディオ符号化装置の原理図である。グループ化の一例を示す図である。グループ化の一例を示す図である。符号化音声の処理波形を示す図である。（Ａ）は入力信号波形、（Ｂ）はビット不足状態のときにSHORTブロックで符号化した波形、（Ｃ）は本発明による符号化波形を示す図である。 LONGブロックとSHORTブロックの関係を示す図である。従来のＡＡＣエンコーダの概略構成を示す図である。アタック音を含む符号化前の入力信号を示す図である。プリエコーを示す図である。 SHORTブロックで符号化したときの復号音を示す図である。ビットリザーバの動作概念を示す図である。

以下、本発明の実施の形態を図面を参照して説明する。図１はオーディオ符号化装置の原理図である。第１の実施の形態のオーディオ符号化装置１０は、音響分析部１１、符号化ビット数監視部１２、フレーム分割数決定部１３、直交変換部１４、量子化部１５、ビットストリーム生成部１６から構成され、オーディオ信号の符号化を行う装置である。

音響分析部１１は、入力されたオーディオ信号をＦＦＴ（Fast Fourier Transform）分析してＦＦＴスペクトルを求め、ＦＦＴスペクトルから音響パラメータの１つである知覚エントロピーＰＥ（ＰＥはPerceptual Entropyの略）を求める。

知覚エントロピーＰＥとは、量子化するのに必要なビット数を表すパラメータのことである（リスナーが雑音を知覚することがないように、そのフレームを量子化するのに必要な総ビット数である）。

また、知覚エントロピーＰＥは、上述したように、アタック音のように信号レベルが急激に増大するところでは大きな値をとるという特性がある。なお、音響パラメータとしては、マスキングしきい値などのパラメータも実際には求めるが、本発明とは直接関係ないので説明は省略する。

符号化ビット数監視部１２は、符号化の際にあらかじめ設定される平均量子化ビット数（図１３で上述）に対する量子化後の符号化ビット数の過不足（符号化ビット数の消費量）をフレーム毎に求め、現フレームで使用可能なビット数を余剰ビット数として求める。

フレーム分割数決定部１３は、知覚エントロピーＰＥと余剰ビット数との組み合わせにもとづいて、プリエコー及びビット不足から生じる音質劣化を抑制する符号化ブロック長となるように、オーディオ信号の１フレームを、１からＮまでＮ分割するための分割数を決定する。

例えば、Ｎ＝１なら、１つのブロック長はLONGブロックとなり、Ｎ＝８なら、１つのブロック長はSHORTブロックとなるが、LONG／SHORTブロックの分割数に限らず、オーディオ符号化装置１０では、Ｎは任意の数であり、１フレームを任意のブロック長に分割する。

直交変換部１４は、決定された分割数で１フレームを分割し、分割されたブロック長単位でオーディオ信号の直交変換を行って直交変換係数（周波数スペクトル）を求める。直交変換としては、具体的にはＭＤＣＴ（Modified Discrete Cosine Transform）を行い、直交変換係数としてＭＤＣＴ係数を求める。

直交変換部１４の動作例として、LONGブロックの場合とSHORTブロックの場合について説明すると、LONGブロックが選択された場合は、１０２４点のＭＤＣＴによりＭＤＣＴ係数を求める。また、SHORTブロックが選択された場合は、１２８点のＭＤＣＴによりＭＤＣＴ係数を求める。なお、SHORTブロックでは、１フレーム中SHORTブロックは８ブロックあるので、ＭＤＣＴ係数は８組求まることになる。そして、これらのＭＤＣＴ係数（周波数スペクトル）は、後段の量子化部１５へ送信される。

量子化部１５は、分割されたブロック長単位で求められたＭＤＣＴ係数の量子化を行う。このとき、最終的に出力される総ビット数が、現ブロックで許される使用ビット数を超えないように、ビット数を調整して最適化な量子化を実現する。ビットストリーム生成部１６は、量子化部１５で求められた量子化値を送信フォーマットに乗せて、ビットストリームを生成し、伝送路を通じて送信する。

次にフレーム分割数決定部１３における、オーディオ信号１フレームを分割するときの分割数の決定方法について説明する。フレーム分割数決定部１３では、音響分析部１１から入力された知覚エントロピーＰＥと、符号化ビット数監視部１２から入力された余剰ビット数との値に応じてフレームの分割数Ｎを求めて、直交変換部１４へ出力する。

ここで、知覚エントロピーＰＥと余剰ビット数に対するフレームの分割数Ｎの関係は、知覚エントロピーＰＥについては、知覚エントロピーＰＥが小さな値ならば、該当フレームは、定常信号がほとんどを占めており、知覚エントロピーＰＥが大きな値ならば該当フレームには、アタック音のような変化の大きな信号が含まれており、このとき符号化ブロック長を長くすると、プリエコーによって音質劣化が生じる。

したがって、知覚エントロピーＰＥが大きい場合には、プリエコーによる音質劣化を抑制するために、符号化ブロック長は短く（フレームの分割数Ｎを多く）することが必要である。

一方、余剰ビット数については、符号化ブロック長が短いと、量子化時のビット数を多く要し、このとき使用可能な余剰ビット数が少ないと、ビット不足状態となって音質劣化が生じる。

したがって、余剰ビット数が少ない場合には、ビット不足による音質劣化を抑制するために、符号化ブロック長を長く（フレームの分割数Ｎを少なく）することが必要である。
上記の知覚エントロピーＰＥと余剰ビット数との関係を考慮して、プリエコー及びビット不足から生じる音質劣化を抑制する符号化ブロック長となるように、フレーム分割数決定部１３では、知覚エントロピーＰＥと余剰ビット数との組み合わせに応じて分割数Ｎを求めるための変換マップを有している。

図２は変換マップを示す図である。変換マップＭ１の縦軸は知覚エントロピー、横軸は余剰ビット数である。また、１フレームの最大分割数をＮmaxとすると、分割数Ｎを決める境界ライン１〜Ｎmax−１が設定されている。

変換マップＭ１を用いることにより、余剰ビット数がａ、知覚エントロピーＰＥの値がｂの場合の組合せによるＣ=（ａ，ｂ）の位置に応じて、分割数Ｎを決定することができる（図では分割数＝５が求められている）。

なお、変換マップＭ１の分割するブロックの境界は、等間隔に限定するものではなく、また別の方法として入力信号における変化点の位置に応じて境界を決めることもできる。また、分割数をBlock＿Num、余剰ビット数をAvailable＿bit、知覚エントロピーをPEとして、Block＿Num＝F（Available＿bit，PE）のような関数Fとして表現することもできる。

一方、直交変換部１４は、ブロック分割数Ｎに応じて、１フレームの入力信号をＮ個のブロックに分割し、それぞれのブロックに対してＭＤＣＴにより周波数スペクトルを求める。また、量子化部１５では、ブロック単位のＭＤＣＴ係数を量子化する。

図３はフレーム分割例を示す図である。フレーム分割数決定部１３で決定された分割数が４の場合を示している。従来では、LONGブロックと、８分割したSHORTブロックとのいずれかのブロック長をＭＤＣＴして量子化していたが、オーディオ符号化装置１０では、知覚エントロピーＰＥと余剰ビット数に応じて、プリエコー及びビット不足から生じる音質劣化を抑制する符号化ブロック長となるような分割数で、１フレームを任意の数に分割することができる。そして、分割したブロック長単位でＭＤＣＴ、量子化を行う。

図では、１フレームが１０２４サンプルであれば、分割数＝４なので、１ブロック長は２５６サンプルであり、このブロック長単位でＭＤＣＴ、量子化が行われることになる。
以上説明したように、オーディオ符号化装置１０では、知覚エントロピーＰＥと余剰ビット数との組み合わせにもとづいて、オーディオ信号の１フレームを、１からＮまでＮ分割するための分割数を求め、求めた分割数で１フレームを分割し、分割されたブロック長単位でオーディオ信号のＭＤＣＴを行ってＭＤＣＴ係数を求め、分割されたブロック長単位でＭＤＣＴ係数の量子化を行う構成とした。

従来技術（例えば、特開２００５−３８３５号公報）においては、アタック音のような変化の大きい信号が存在するフレームでは、プリエコーを抑制するためにSHORTブロックを選択して符号化すると、符号化に必要なビットが不足して、プリエコーよりも激しい音質劣化が生じてしまうので、ビット不足状態ではLONGブロックを選択して符号化を行っていた。

したがって、従来技術では、単にSHORTブロック（１フレームを８ブロックに分割）とLONGブロック（分割しない）の切り替えのみを行っているだけであるので、変化の大きい信号が存在するフレームの符号化時に、ビット不足状態だからといってLONGブロックを選択した場合には、ビット不足により音質劣化は回避できても、プリエコーによる音質劣化が生じてしまい、適切な音質劣化抑制が行われていなかった。

一方、オーディオ符号化装置１０においては、知覚エントロピーＰＥと余剰ビット数との組み合わせにもとづいて、プリエコー及びビット不足から生じる音質劣化を抑制する符号化ブロック長となるような分割数Ｎを求めて、任意の数で分割されたブロック長を生成し（SHORTブロックやLONGブロックだけでなく、任意の分割数による任意のブロック長を生成する）、そのブロック長単位でＭＤＣＴ及び量子化を行うので、圧縮率が高く、低ビットレート条件下でのオーディオ符号化時でも、音質劣化を大幅に改善することが可能になる。

次に第２の実施の形態のオーディオ符号化装置について説明する。図４はオーディオ符号化装置の原理図である。オーディオ符号化装置２０は、音響分析部２１、符号化ビット数監視部２２、フレーム分割数決定部２３、直交変換部２４、量子化部２５、ビットストリーム生成部２６から構成され、オーディオ信号の符号化を行う装置である。

音響分析部２１は、入力されたオーディオ信号（Input＿sig(n)）をＦＦＴ分析してＦＦＴスペクトルを求め、ＦＦＴスペクトルから音響パラメータの１つである知覚エントロピーＰＥを求める。

符号化ビット数監視部２２は、符号化の際にあらかじめ設定される平均量子化ビット数に対する量子化後の符号化ビット数の過不足（符号化ビット数の消費量）をフレーム毎に求め、現フレームで使用可能なビット数を余剰ビット数（Available＿bit）として求める。

フレーム分割数決定部２３は、知覚エントロピーＰＥと余剰ビット数との組み合わせにもとづいて、プリエコー及びビット不足から生じる音質劣化を抑制する符号化ブロック長となるように、オーディオ信号の１フレームを分割する分割数を決定する。

なお、以降ではオーディオ符号化装置２０の機能をＡＡＣエンコーダに適用したものとして、最大分割数＝８とする（最小ブロック長＝SHORTブロック）。そして、決定した分割数（Block＿Num）は、直交変換部２４へ出力される。

直交変換部２４は、分割数をＮとした際に、Ｎ＝１の場合は、１フレーム単位で直交変換（ＭＤＣＴ）を行って第１の直交変換係数を求める。また、最大分割数をＮmaxとした際に、Ｎ＝Ｎmaxの場合は、最大分割数で１フレームを分割し、最大分割されたブロック長単位でオーディオ信号の直交変換を行って第２の直交変換係数を求める。さらに、１＜Ｎ＜Ｎmaxの場合は、最大分割数で１フレームを分割して第２の直交変換係数を求め、分割数Ｎで第２の直交変換係数をグループ化する。

量子化部２５は、Ｎ＝１の場合は、第１の直交変換係数を１フレーム単位で量子化し、Ｎ＝Ｎmaxの場合は、第２の直交変換係数を最大分割されたブロック長単位で量子化する。さらに、１＜Ｎ＜Ｎmaxの場合は、第２の直交変換係数をグループ化単位で量子化する。

次にオーディオ符号化装置２０の詳細動作について説明する。図４において、１０２４サンプルの入力信号Input＿sig（n）（n=0・・・1023）が、１フレームとして直交変換部２４と音響分析部２１へと入力される。

〔音響分析部２１〕
音響分析部２１では、人間の聴覚特性にもとづいて、知覚エントロピーＰＥを求め、フレーム分割数決定部２３へ出力する。

〔符号化ビット数監視部２２〕
符号化ビット数監視部２２は、現フレームで使用可能な余剰ビット数Available＿bitを求めて、フレーム分割数決定部２３へ出力する。Available＿bitは以下の式（１）を用いて求められる。

Available＿bit＝average＿bit + Reserve＿bit ・・・（１）
average＿bitは、符号化の際にあらかじめ設定される平均量子化ビット数であり、Reserve＿bitは、ビットリザーバに蓄積されているビット数であって、次式で求められる。

Reserve＿bit＝Prev＿Reserve＿bit＋（average＿bit−quant＿bit）・・・（２）
quant＿bitは、前フレームでの量子化後の符号化ビット数、Prev＿Reserve＿bitは、前フレームでのReserve＿bitであり、Reserve＿bitは平均ビット数に対する量子化ビット数の現フレームでの過不足分で表される。

なお、average＿bitは、式（３）で求められる。
average＿bit＝（bitrate×frame＿length）／freq ・・・（３）
bitrateは、符号化ビットレート[bps]、frame＿lengthはフレーム長[1024サンプル]、freqは入力信号のサンプリング周波数[Hz]である。

〔フレーム分割数決定部２３〕
フレーム分割数決定部２３は、音響分析部２１で求めた知覚エントロピーＰＥと、符号化ビット数監視部２２で求めたAvailable＿bitに応じて、分割数Ｎ（Block＿Num）を決定し、直交変換部２４へ出力する。

分割数は、上述の図２に示した変換マップＭ１を使用して求める。すなわち、変換マップＭ１には、あらかじめ境界線１から境界線７が設定されており（境界線の間隔及び本数は任意に設定可能）、知覚エントロピーＰＥと余剰ビット数Available＿bitの組み合わせによるマップ上の位置Ｃ=（Available＿bit，PE）に応じて分割数Ｎを決定する。

〔直交変換部２４〕
直交変換部２４は、Block＿Num＝１の場合にはLONGブロックとして入力信号１０２４点のＭＤＣＴ変換により、ＭＤＣＴ係数（MDCT＿LONG）を求める（第１の直交変換係数＝（MDCT＿LONG））。

Block＿Num＝８の場合には（Ｎmax＝８）、入力信号をSHORTブロック単位の１２８点毎にＭＤＣＴ変換し、ＭＤＣＴ係数（MDCT＿SHORT）を８組生成する（第２の直交変換係数＝（MDCT＿SHORT））。

１＜Block＿Num＜８の場合には、一旦、（MDCT＿SHORT）を求める。すなわち、Block＿Num＝８のときと同様に、入力信号をSHORTブロック単位の１２８点毎にＭＤＣＴ変換し、ＭＤＣＴ係数（ＭＤＣＴ＿SHORT）を８組生成する。

そして、この８組のＭＤＣＴ係数を、あらかじめ定めておいたパターンでグループ化して、Block＿Num組のＭＤＣＴ係数を生成する。例えば、Block＿Num＝５であったならば、８組のＭＤＣＴ係数を組み合わせて５組にグループ化する。

図５はグループ化の一例を示す図である。１フレームをSHORTブロック単位で８分割し、８分割された１つの最小ブロック長が、分割数２〜７でグループ化されている様子を示している。

例えば、分割数が５の場合、ブロック長は図に示すような５組にグループ化され、グループｇ１〜ｇ５のグループ化単位でＭＤＣＴ係数は、後段の量子化部２５へ出力されて、グループｇ１のＭＤＣＴ係数の量子化、グループｇ２のＭＤＣＴ係数の量子化といったように、グループ化単位での量子化が行われる。

図６はグループ化の一例を示す図である。図に示すように、信号変化点の近傍のブロック長ができるだけ短くなるように、グループ化の境界を設定することもできる。
図では例えば、最小ブロック長＃６の近傍に、アタック音のような変化の大きな信号が含まれる場合には、最小ブロック長＃６近傍のブロック長ができるだけ短くなるように、グループ化の境界を設定している。このように、信号変化点の近傍のブロック長ができるだけ短くなるように、グループ化の境界を設定することで、プリエコーの低減化をさらに図ることが可能になる。

〔量子化部２５〕
量子化部２５は、Block＿Num＝１の場合には、ＭＤＣＴ係数（MDCT＿LONG）を量子化する。すなわち、１フレーム単位のＭＤＣＴ係数を量子化して量子化値を求める。

Block＿Num＝８の場合には、ＭＤＣＴ係数（MDCT＿SHORT）を量子化する。すなわち、最大分割数単位（８組）のＭＤＣＴ係数を量子化して量子化値を求める。
１＜Block＿Num＜８の場合には、グループ化された各SHORTブロックＭＤＣＴ係数（ＭＤＣＴ＿SHORT）を、グループ化単位に量子化して量子化値を求める。

なお、量子化部２５では、上記のいずれの場合分けにおいても、周波数バンド毎にＭＤＣＴ係数を量子化する。すなわち、LONGブロックの場合なら１０２４個のＭＤＣＴ係数を周波数バンド毎に量子化し、SHORTブロックの場合なら１２８個のＭＤＣＴ係数を周波数バンド毎に量子化する。また、グループ化されている場合、例えば、図５のグループｇ１の場合なら、２５６（＝１２８×２）個のＭＤＣＴ係数を周波数バンド毎に量子化する。

また、このとき最終的に出力される総ビット数が、現ブロックで許される使用ビット数を下回るように、量子化誤差とビット数を調整して最適な量子化を行う。
そして、スペクトル量子化値をビットストリーム生成部２６へ出力する。

〔ビットストリーム生成部２６〕
ビットストリーム生成部２６は、量子化部１５で求められた量子化値を送信フォーマットに乗せて、ビットストリームを生成し、伝送路を通じて送信する。

次にオーディオ符号化装置２０の効果について説明する。図７は符号化音声の処理波形を示す図である。本発明で実測した符号化音声の処理波形を示しており、（Ａ）は入力信号波形、（Ｂ）はビット不足状態のときにSHORTブロックで符号化した波形、（Ｃ）は本発明による符号化波形である。

（Ａ）の入力信号には、アタック音が含まれている。このような入力信号をビット不足状態にもかかわらず、SHORTブロックを選択した場合には、（Ｂ）に示すように、アタック音部の波形が著しく歪んでおり、大きな音質劣化が生じている。

一方、本発明のように適切なブロック長に分割して符号化した場合、（Ｃ）に示すように、アタック音部の波形改善が得られていることがわかる。なお、アタック音部の前後でプリエコー（図中の細かい歪）が発生するが、このプリエコーはわずかな雑音であり主観的に感じられるものではない。

このように、プリエコー及びビット不足から生じる両方の音質劣化を抑制することができ、リスナーが感じる主観的な音質劣化を大幅に改善することができる。
次にオーディオ符号化装置１０、２０の適用分野について説明する。オーディオ符号化装置１０、２０は、例えば、１セグディジタルラジオ放送システムや楽音ダウンロードサービスシステムなどに適用可能である。

１セグ放送では、従来の地上波ディジタルテレビ放送に比べ伝送帯域が狭い（＝伝送レートが低い）ため、従来よりも情報量の圧縮が必要である。さらにモバイル端末では、無線で電波を伝送する際に生じるエラー（情報欠落）を抑制するため、符号化情報に冗長性を持たせて伝送を行う。したがって、冗長性をもたせる分、さらに高い情報量の圧縮が要求されている。

一方、携帯端末への楽音ダウンロードサービスなどでは、携帯端末に搭載されている記憶媒体のメモリ容量やデータ通信量に伴う課金などのユーザにとっての制約があるため、より圧縮率が高く、かつ音質が良い情報量の圧縮が要求されている。

オーディオ符号化装置１０、２０では、知覚エントロピーＰＥと余剰ビット数に応じて、プリエコー及びビット不足から生じる音質劣化を抑制する符号化ブロック長となるようにフレームを適応的に分割して符号化を行うので、上記のような、圧縮率が高く、低ビットレートの厳しい条件下において使用しても、音質劣化を大幅に改善することができ、高品質なオーディオ符号化を行うことが可能になる。

以上説明したように、本発明によれば、音響分析によって得られた知覚エントロピー（入力信号の変化の度合い）とその時点で使用可能なビット数を監視することにより、ビット不足による音質劣化を事前に予測し、入力信号に対して、使用可能なビット数を考慮した最適なブロック長（ブロック分割数）を決定することができる。これにより、ビット不足状態でのSHORTブロック選択による著しい音質劣化を回避することが可能になる。

また、最大分割数Ｎmaxで直交変換した際の周波数スペクトルをグループ化することにより、符号化方式の規格によって分割数が限定される場合でも（例えば、AACエンコーダでは、１フレームをSHORTブロックにするには、最大分割数＝８）、擬似的にＮ分割の符号化を実行することが可能になる。

さらに、入力信号における変化点の位置に応じて、ブロック境界を決めることにより、分割数Ｎが少ない場合でも変化点で生じるプリエコーを低減化することが可能になる。
上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

符号の説明

１０オーディオ符号化装置
１１音響分析部
１２符号化ビット数監視部
１３フレーム分割数決定部
１４直交変換部
１５量子化部
１６ビットストリーム生成部
ＰＥ知覚エントロピー

Claims

オーディオ信号の符号化を行うオーディオ符号化装置において、
前記オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータである知覚エントロピーを求める音響分析部と、
前記オーディオ信号を符号化した際の符号化ビット数を監視して、現フレームで使用可能なビット数である余剰ビット数を求める符号化ビット数監視部と、
前記知覚エントロピーと前記余剰ビット数との組み合わせにもとづいて、プリエコー及びビット不足から生じる音質劣化を抑制する符号化ブロック長となるように、前記オーディオ信号の１フレームを分割する分割数を決定するフレーム分割数決定部と、
前記分割数をＮとした際に、Ｎ＝１の場合は、１フレーム単位で直交変換を行って第１の直交変換係数を求め、最大分割数をＮmaxとした際に、Ｎ＝Ｎmaxの場合は、前記最大分割数で１フレームを分割し、最大分割されたブロック長単位で前記オーディオ信号の直交変換を行って第２の直交変換係数を求め、１＜Ｎ＜Ｎmaxの場合は、前記最大分割数で１フレームを分割して前記第２の直交変換係数を求め、分割数Ｎで前記第２の直交変換係数をグループ化する直交変換部と、
Ｎ＝１の場合は、前記第１の直交変換係数を１フレーム単位で量子化し、Ｎ＝Ｎmaxの場合は、前記第２の直交変換係数を最大分割されたブロック長単位で量子化し、１＜Ｎ＜Ｎmaxの場合は、前記第２の直交変換係数をグループ化単位で量子化する量子化部と、
を備え、
前記直交変換部は、前記オーディオ信号の変化点近傍のブロック長が短くなるようにグループ化の境界を設定する、
ことを特徴とするオーディオ符号化装置。
前記フレーム分割数決定部は、前記知覚エントロピーが大きい値をとる場合は、プリエコーによる音質劣化を抑制するために前記分割数を多くしてブロック長が小さくなるように、前記余剰ビット数が少ない場合は、ビット不足から生じる音質劣化を抑制するために前記分割数を少なくしてブロック長が大きくなるように、前記知覚エントロピーと前記余剰ビット数に対する前記分割数の関係を定めた変換マップを有することを特徴とする請求項１記載のオーディオ符号化装置。
オーディオ信号の符号化を行うオーディオ符号化方法において、
前記オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータである知覚エントロピーを求め、
前記オーディオ信号を符号化した際の符号化ビット数を監視して、現フレームで使用可能なビット数である余剰ビット数を求め、
前記知覚エントロピーと前記余剰ビット数との組み合わせにもとづいて、プリエコー及びビット不足から生じる音質劣化を抑制する符号化ブロック長となるように、前記オーディオ信号の１フレームを分割する分割数を決定し、
前記分割数をＮとした際に、Ｎ＝１の場合は、１フレーム単位で直交変換を行って第１の直交変換係数を求め、
最大分割数をＮmaxとした際に、Ｎ＝Ｎmaxの場合は、前記最大分割数で１フレームを分割し、最大分割されたブロック長単位で前記オーディオ信号の直交変換を行って第２の直交変換係数を求め、
１＜Ｎ＜Ｎmaxの場合は、前記最大分割数で１フレームを分割して前記第２の直交変換係数を求め、分割数Ｎで前記第２の直交変換係数をグループ化し、
Ｎ＝１の場合は、前記第１の直交変換係数を１フレーム単位で量子化し、
Ｎ＝Ｎmaxの場合は、前記第２の直交変換係数を最大分割されたブロック長単位で量子化し、
１＜Ｎ＜Ｎmaxの場合は、前記第２の直交変換係数をグループ化単位で量子化し、
前記グループ化の境界は、前記オーディオ信号の変化点近傍のブロック長が短くなるように設定する、
ことを特徴とするオーディオ符号化方法。
前記知覚エントロピーが大きい値をとる場合は、プリエコーによる音質劣化を抑制するために前記分割数を多くしてブロック長が小さくなるように、前記余剰ビット数が少ない場合は、ビット不足から生じる音質劣化を抑制するために前記分割数を少なくしてブロック長が大きくなるように、前記知覚エントロピーと前記余剰ビット数に対する前記分割数の関係を定めることを特徴とする請求項３記載のオーディオ符号化方法。