JP2013037111A

JP2013037111A - オーディオ信号符号化方法および装置

Info

Publication number: JP2013037111A
Application number: JP2011171821A
Authority: JP
Inventors: Tomoya Fujita; 智哉藤田; Mari Asami; 真理浅見; Jun Ono; 小野　　純
Original assignee: Fujitsu Semiconductor Ltd
Current assignee: Fujitsu Semiconductor Ltd
Priority date: 2011-08-05
Filing date: 2011-08-05
Publication date: 2013-02-21
Anticipated expiration: 2031-08-05
Also published as: US20130034233A1; JP5704018B2; US9224401B2

Abstract

【課題】チャネル間の音質のバランスを維持しながら音質が向上したオーディオ信号符号化方法および装置の実現。
【解決手段】オーディオ信号符号化装置であって、知覚エントロピー算出部21と、知覚エントロピーに応じて、各チャネルの使用可能ビット数を決定するビット配分部22と、窓判定部23と、使用可能ビット数を補正する補正部24と、各チャネルのオーディオ信号を、補正された使用可能ビット数以下となるように順次量子化し、その際にフレーム内で既に量子化されたチャネルの余りビット数を順次後のチャネルに加えながら量子化する量子化部25と、を有し、補正部24は、以前のフレームの窓のタイプごとの量子化ビット使用率を算出する使用率履歴算出部31と、量子化ビット使用率で量子化が行われた場合の各チャネルの使用可能ビット数に対する使用率が等しくなるように補正する補正ビット数算出部32と、を有する。
【選択図】図５

Description

本発明は、オーディオ信号符号化方法およびオーディオ信号符号化装置に関する。

オーディオ信号の符号化処理では、データ圧縮のため量子化処理を行っている。オーディオ信号の符号化処理は、例えばコンピュータを利用して行なわれる。量子化処理においては、各チャネルのスペクトル情報が、ビットレートによって決定される使用可能ビット数以下になるよう、量子化スケールを補正し量子化処理を完了させている。そのため、実際の量子化処理では、量子化ビット数が使用可能ビット数より小さくなり、余りビットが発生することがある。

一方、オーディオ信号では、ステレオや５．１チャネル音声などの臨場感が得られるオーディオ信号が広く使用されており、複数チャネルをそれぞれ符号化し、複数チャネルの符号化後のビット数の総計が総使用可能ビット数より小さくなる必要がある。複数チャネルのオーディオ信号の符号化では、上記のような余りビットを有効に活用することが求められている。例えば、先に符号化したチャネルの余りビットを後で符号化するチャネルの使用可能ビット数に加えて、総使用可能ビット数におけるビット使用率を向上することが行なわれる。

特開２０１０−１５６８３７号公報特開平１１−２１９１９７号公報特開２００１−１５４６９５号公報特開２００１−１５４６９８号公報

しかし、ビット使用率が向上するのは、後で符号化する第２チャネル以降のチャネルのみで、チャネルごとの音質に差が発生する。実施形態によれば、チャネル間の音質のバランスを維持しながら音質が向上した複数チャネルオーディオ信号符号化方法および装置が実現される。

本発明の第１の観点によれば、フレーム内の総ビット数が上限ビット数以下となるように、複数チャネルのオーディオ信号をそれぞれ符号化するオーディオ信号符号化方法であって、各チャネルのオーディオ信号の知覚エントロピーを算出し、知覚エントロピーに応じて、各チャネルに使用可能ビット数を配分し、使用可能ビット数を補正し、各チャネルのオーディオ信号を、補正した使用可能ビット数以下となるように順次量子化する時に、フレーム内で既に量子化したチャネルで実際に量子化に使用されたビット数と補正した使用可能ビット数との差である余りビット数を順次後のチャネルの使用可能ビット数に加えながら量子化し、使用可能ビット数の補正は、処理対象のフレームより前のフレームの符号化データに基づいて窓の種類（タイプ）ごとの量子化ビット使用率を算出し、算出した量子化ビット使用率で量子化が行われたと仮定した場合の各チャネルの使用可能ビット数に対する使用率が等しくなるように、使用可能ビット数を補正するオーディオ信号符号化方法が提供される。

本発明の第２の観点によれば、フレーム内の総ビット数が上限ビット数以下となるように、複数チャネルのオーディオ信号をそれぞれ符号化するオーディオ信号符号化装置であって、各チャネルのオーディオ信号の知覚エントロピーを算出する知覚エントロピー算出部と、知覚エントロピーに応じて、各チャネルの使用可能ビット数を決定するビット配分部と、各チャネルのオーディオ信号の窓のタイプを判定する窓判定部と、使用可能ビット数を補正する補正部と、各チャネルのオーディオ信号を、補正した使用可能ビット数以下となるように順次量子化する時に、フレーム内で既に量子化したチャネルで実際に量子化に使用されたビット数と補正した使用可能ビット数との差である余りビット数を順次後のチャネルの使用可能ビット数に加えながら量子化する量子化部と、を有し、補正部は、処理対象のフレームより前の符号化データに基づいて窓のタイプごとの量子化ビット使用率を算出する使用率履歴算出部と、算出した量子化ビット使用率で量子化が行われたと仮定した場合の各チャネルの使用可能ビット数に対する使用率が等しくなるように、使用可能ビット数を補正する補正ビット数算出部と、を有するオーディオ信号符号化装置が提供される。

実施形態によれば、複数チャネルのオーディオ信号符号化処理を行う時に、チャネル間の音質のバランスを維持しながら、音質を向上させることができる。

図１は、量子化処理が理想状態で行われる場合の量子化後のビット数の変化を示す図である。図２は、量子化スケール補正回数が有限である場合の量子化後のビット数の変化を示す図である。図３は、複数チャネルのオーディオ信号の符号化処理において、既に符号化したチャネルの余りビットを次に符号化するチャネルの使用可能ビット数に加える場合の処理を示すフローチャートである。図４は、実施形態の複数チャネルオーディオ信号符号化装置のハードウエア構成を示す図である。図５は、図４に示したハードウエア構成を有する実施形態の符号化装置の処理ブロック図である。図６は、実施形態の符号化装置における、複数チャネル（ここでは２チャネル）のオーディオ信号の符号化処理を示すフローチャートである。図７は、補正ビット数算出部における補正ビット数算出処理を示すフローチャートである。

まず、以下に説明する実施形態の基礎となる技術を図を参照して説明する。
図１は、量子化処理が理想状態で行われる場合の量子化後のビット数の変化を示す図である。図１に示すように、理想状態では、量子化スケール補正回数を無限にし、量子化処理を完了させることで、使用可能な量子化ビット数（以降、使用可能ビット数ともいう）を使い切ること、言い換えれば、量子化後のビット数が使用可能ビット数に等しくなった状態で、量子化処理を終了できる。しかし通常、量子化スケール補正回数を増加させると処理量が増加し、その分処理時間が増加し、所定時間内に量子化処理を終了することができない。そのため、現実には量子化スケール補正回数が無限であるという理想状態で量子化処理を行うことはできず、量子化スケール補正回数を有限に設定する。

図２は、量子化スケール補正回数が有限である場合の量子化後のビット数の変化を示す図である。量子化スケール補正回数が有限であるため、できるだけ早い段階で量子化を完了させることが望ましい。そのため、量子化スケールの補正ステップの間隔をある程度大きく設定するが、各チャネルの量子化ビットは、量子化ビット数＜使用可能ビット数の関係になり、ビットが余る。

オーディオ信号では、臨場感が得られるステレオ・オーディオ信号が従来から広く使用されており、近年、従来のステレオよりの臨場感に優れた５．１チャネル音声のコンテンツも増加している。このような複数チャネルのオーディオ信号を符号化する場合、フレームごとに複数チャネルをそれぞれ符号化し、複数チャネルの符号化後のビット数の総計が総使用可能ビット数より小さくなる必要がある。

近年デジタルコンテンツの情報は膨大になっており、オーディオ信号においても「低ビットレートで高音質」という要求がある。そのため、複数チャネルのオーディオ信号の符号化でも、上記のような余りビットを有効に活用することで、高音質を実現することが望ましい。そこで、複数チャネルのオーディオ信号を使用可能ビット数以下となるように順次量子化する際に、フレーム内で既に量子化したチャネルの実際に量子化に使用したビット数と配分した使用可能ビット数との差である余りビット数を算出する。そして、余りビット数を、これから符号化処理するチャネルの使用可能ビット数に加えて量子化することが行なわれる。例えば、２チャネルの場合、総ビット数を、第１チャネルの第１使用可能ビット数と、第２チャネルの第２使用可能ビット数と、にそれぞれ配分する。次に、第１チャネルのオーディオ信号を第１使用可能ビット数以下となるように量子化する。この場合、図２に示すように量子化された第１チャネルのオーディオ信号のビット数は、第１使用可能ビット数より小さくなり、余りビットを生じる。次に、第２チャネルのオーディオ信号を量子化するが、この場合に、第２使用可能ビット数に余りビット数を加えたビット数を修正第２使用可能ビット数として、修正第２使用可能ビット数以下となるように第２チャネルのオーディオ信号を量子化する。これにより、使用可能な総ビット数を有効に使用できる。

図３は、複数チャネル（ここでは２チャネル）のオーディオ信号の符号化処理において、既に符号化したチャネルの余りビットを次に符号化するチャネルの使用可能ビット数に加える場合の処理を示すフローチャートである。

ステップＳ１１では、入力された複数チャネルのオーディオ信号から聴覚心理モデルを導出する。
ステップＳ１２では、ショート窓(SHORT WINDOW)であるかロング窓(LONG WINDOW)であるかを選択する。

ステップＳ１３では、変形離散コサイン変換(MDCT: Modified Discrete Cosine Transform)を行い、入力信号を時間領域から周波数領域へ変換し、聴覚心理モデルの周波数分解能に応じたスケールファクタバンドに分割する。
ステップＳ１４では、聴覚心理モデルとＭＤＣＴ係数により、マスキングパワーをスケールファクタバンドごとに導出する。

ステップＳ１５では、ＭＤＣＴ係数とマスキングパワーから知覚エントロピーを各チャネルに対して導出する。
ステップＳ１６では、知覚エントロピーに基づいて各チャネルへ使用可能ビット数を割り当てる。

ステップＳ１７では、第１チャネル（ＣＨ１）のオーディオ信号について、各スケールファクタバンドのスケーリング処理を行い、第１使用可能ビット数以下になるように量子化する。この時、余りビットが発生する。

ステップＳ１８では、第２チャネル（ＣＨ２）の第２使用可能ビット数にステップＳ１７で発生した余りビットを加えた修正第２使用可能ビット数を算出する。その上で、第２チャネル（ＣＨ２）のオーディオ信号を、各スケールファクタバンドごとにスケーリング処理を行い、修正第２使用可能ビット以下になるように量子化する。

ステップＳ１９では、量子化されたＭＤＣＴ係数をハフマン符号化により圧縮する。
以上のようにして得られた符号化データからストリームを生成して出力する。

図３のフローチャートにおいて、ステップＳ１８で行う、既に符号化した第１チャネルの余りビットを次に符号化する第２チャネルの使用可能ビット数に加えること以外は、広く知られている処理であり、説明は省略する。

上記のように、先に符号化した第１チャネルの余りビットを後で符号化する第２チャネルの使用可能ビット数に加えた場合、後から量子化する第２チャネル使用可能ビット数が増加し、総使用可能ビット数におけるビット使用率は向上する。しかし、ビット使用率が向上するのは、後で符号化する第２チャネルのみで、チャネルごとの音質に差が発生し、チャネル間の音質のバランスが劣化する。

図４は、実施形態の複数チャネルオーディオ信号符号化装置（以下、符号化装置と略称する）のハードウエア構成の一例を示す図である。

図４に示すように、実施形態の符号化装置は、ＣＰＵ(Central Processing Unit)１１、メモリ１２、メモリコントローラ１３、Ｉ／Ｏポート(Input/Output Port)１５、オーディオ(Audio)信号入力部１６と、ストリーム(Stream)出力部１７と、を有する。オーディオ信号入力部１６は、オーディオ入力信号(音)を外部からシステム内部へ取り込み、入力されたオーディオ信号が、アナログ信号であれば、所定のサンプリング周波数でＡ／Ｄ変換してデジタルデータを生成する。ここでは、オーディオ入力信号はデジタルデータであるとして説明する。メモリコントローラ１３は、ＣＰＵ１１やなどのハードウエア要素の要求に従い、メモリ１２へのリード(Read)、ライト(Write)を制御する。ＣＰＵ１１は、装置全体の制御、および入力データに対して符号化処理を行い、ストリームを生成する。Ｉ／Ｏポート１５は、ＵＳＢ(Universal Serial Bus)、ＳＤなどの外部デバイスとのインターフェイスである。ストリーム出力部１７は、生成されたストリームを出力する。

図４において、参照符号Ａ〜Ｃは、処理における信号・データの流れを示す。Ａのように、処理対象であるオーディオ入力データは、オーディオ信号入力部１６によって装置内部に取り込まれ、メモリコントローラ１３を介して、メモリ１２に保存される。Ｂのように、ＣＰＵ１１はメモリコントローラ１３を介して、メモリ１２上にあるオーディオ入力データを内部へロードし、符号化処理を行う。なお、ＣＰＵ１１は、符号化処理の結果得られたビット使用率を、メモリコントローラ１３を介してメモリ１２に記憶し、窓のタイプ別に管理する。Ｃのように、符号化されたオーディオ出力データは、ストリーム出力部１７または、Ｉ／Ｏポート１５を介して外部デバイス外部へ出力される。

図４に示したハードウエア構成は、オーディオ信号処理に広く使用される構成であり、これ以上の説明は省略する。なお、実施形態の符号化装置のハードウエア構成は、図４の構成に限定されるものではない。

図５は、図４に示したハードウエア構成を有する実施形態の符号化装置の処理ブロック図である。
実施形態の符号化装置は、フレーム内の総ビット数が上限ビット数以下となるように、複数チャネルのオーディオ信号をそれぞれ符号化する。図５に示すように、実施形態の符号化装置は、知覚エントロピー算出部２１と、ビット配分部２２と、窓判定部２３と、補正部２４と、量子化部２５と、履歴データ記憶部３０と、を有する。補正部２４は、使用率履歴算出部３１と、補正ビット数算出部３２と、を有する。

知覚エントロピー算出部２１は、各チャネルのオーディオ信号の知覚エントロピーを算出する。ビット配分部２２は、知覚エントロピーに応じて、各チャネルの使用可能ビット数を決定する。窓判定部２３は、各チャネルのオーディオ信号の窓がショート窓またはロング窓であるかなど窓のタイプを判定する。窓判定部２３は、例えば、オーディオ信号が過度信号の場合にはショート窓を、定常信号の場合にはロング窓を選択する。量子化部２５は、各チャネルのオーディオ信号を、使用可能ビット数以下となるように順次量子化し、その際にフレーム内で既に量子化したチャネルの実際に量子化に使用したビット数と使用可能ビット数との差である余りビット数を順次後のチャネルの使用可能ビット数に加えながら量子化する。履歴データ記憶部３０は、量子化部２５による量子化処理の結果得られたチャネル毎のビット使用率を記憶する。

補正部２４は、ビット配分部２２が決定した各チャネルの使用可能ビット数を補正する。補正のアルゴリズムは、窓情報（タイプ）ごとに過去のＮ−１フレーム分の量子化ビット平均使用率を求める。この量子化ビット平均使用率を用いて、先に量子化するチャネル（後述する図６の場合はＣＨ１）の余りビット数を、後から量子化するチャネル（後述する図６の場合はＣＨ２）の量子化使用可能ビット数に加算する。そして、加算した場合で過去の量子化ビット平均使用率と同じビット使用率で量子化が行なわれた場合に、ビット配分時の使用可能ビット数に対して、量子化ビット使用率がすべてのチャネルで一致するように補正ビット数を計算する。

使用率履歴算出部３１は、履歴データ記憶部３０に記憶された処理対象のフレームより前のフレームのビット使用率から、量子化ビット使用率の実績平均値を窓のタイプ別に算出する。補正ビット数算出部３２は、算出した実績平均値である量子化ビット使用率で量子化が行われたと仮定した場合の各チャネルの使用可能ビット数に対する予測使用率が等しくなるように補正ビット数を算出し、算出した補正ビット数を各チャネルの使用可能ビット数に加えて補正する。これにより、各チャネルにおいて配分されたビット数に対してビット使用率を向上させることができる。また、各チャネルの配分されたビット数に対する量子化ビット使用率も近づけることができ、チャネル間の音質差分課題を解消することが可能となる。

なお、履歴データ記憶部３０が記憶するビット使用率は、各チャネルの配分されたビット数に対する量子化ビット使用率ではなく、補正された使用可能ビット数に対するビット使用率である。

図６は、実施形態の符号化装置における、複数チャネル（ここでは２チャネル）のオーディオ信号の符号化処理を示すフローチャートである。
ステップＳ１１からＳ１６までは、図３で説明したフローチャートの場合と同じであり、説明は省略する。

ステップＳ２１では、補正部２４が、ビット配分部２２が決定した各チャネルの使用可能ビット数を補正する。
ステップＳ２２からＳ２４は、補正された使用可能ビット数に対して処理を行うこと以外は、図３で説明したフローチャートのＳ１７からＳ１９の場合と同じであり、説明は省略する。

図７は、補正ビット数算出部３２における補正ビット数算出処理を示すフローチャートであり、チャネルがCH1とCH2の２チャネルの場合の例を示している。
現在フレーム番号をn、現在フレームのビット配分処理にて各チャネルに割り当てられた使用可能ビット数をCH1(n),CH2(n)、ロング窓およびショート窓の量子化ビット使用率をそれぞれRateL(n), RateS(n)で表す。なお、各チャネルの窓情報は、CH1=LONG, CH2=SHORTとする。

ステップＳ３１では、現在フレームの窓情報に応じて、ロング窓であればステップＳ３２に進み、ショート窓であれば、ステップＳ３３に進む。
ステップＳ３２では、過去のフレーム０〜ｎ−１までのフィードバック情報におけるロング窓の量子化ビット平均使用率RateL(n)を、式（１）により導出し、ステップＳ３４に進む。

ステップＳ３３では、過去のフレーム０〜ｎ−１までのフィードバック情報におけるショート窓の量子化ビット平均使用率RateS(n)を、式（２）により導出し、ステップＳ３４に進む。

ステップＳ３４では、チャネルごとに補正ビット数を算出する。ここで、CH1=LONG, CH2=SHORTであるから、第１および第２チャネルの量子化ビット使用率をRateCH1(n),RateCH2(n)とすると、
RateCH1(n)= RateL(n)
RateCH2(n)= RateS(n)
と、予測することができる。

補正ビット数AdjustBits(n)を考慮した場合において、第１および第２チャネルで量子化ビット使用率RateCH1(n),RateCH2(n)で量子化が行なわれると仮定する。そして、この仮定の下で、各チャネルのビット配分時の使用可能ビット数に対してのビット使用率をCH1x,CH2xとし、これらを式（３）および（４）にしたがって求める。

ここで、式（３）および（４）においてCH1x=CH2xとして、補正ビット数AdjustBits(n)について解くと、式（５）が得られる。

この式（５）は、CH1x=CH2xとするための補正ビット数AdjustBits(n)を示す。
ステップＳ３５では、算出した補正ビット数AdjustBits(n)を、各チャネルのビット配分時の使用可能ビット数に加算（負の場合は減算）する。

以下、上記の方法で補正ビット数を算出する具体例を説明する。
［例１：２つのチャネル(CH1,CH2)の量子化ビット平均使用率が等しい場合］
ＣＨ１がロング窓、ＣＨ２がショート窓とし、ロング窓とショート窓の量子化ビット使用率を０．８、両チャネル使用可能ビット数を２０００ビット、知覚エントロピーによるビット配分比率をＣＨ１：ＣＨ２＝１：３とし、量子化処理は、ＣＨ１を行った後ＣＨ２を行うものとする。なお、ビット使用率は、ビット配分時の使用可能ビット数に対する量子化部で使用したビット数の割合である。

まず、補正を行わない場合について説明する。
ＣＨ１：ＣＨ２＝１：３のビット配分比率で配分するため、ＣＨ１＝５００ビット、ＣＨ２＝１５００ビットが配分される。ＣＨ１で量子化が行なわれ、ビット使用率は０．８であるから、４００ビットが使用され、１００ビットが余る。余った１００ビットはＣＨ２に加えられて、ＣＨ２には１６００ビットが割り当てられる。ＣＨ２のビット使用率も０．８であるから、１６００×０．８＝１２８０ビットが使用され、３２０ビットが余る。ＣＨ２に最初に配分されたのは１５００ビットであるから、ＣＨ２のビット使用率は、１２８０／１５００＝０．８５となる。ＣＨ１とＣＨ２で実際に使用されたビット数は、４００＋１２８０＝１６８０ビットになる。

したがって、補正を行わない場合の各チャネルの使用可能ビット数とビット使用率は、表１のようになる。

次に、実施形態のように補正を行う場合について説明する。
上記と同様に、ＣＨ１：ＣＨ２＝１：３のビット配分比率で配分するため、ＣＨ１＝５００ビット、ＣＨ２＝１５００ビットが配分される。次に、前のフレームまでのビット使用率は、ロング窓およびショート窓の両方とも０．８である。したがって、式５は次のようにして解かれる。
(500*1500(0.8-0.8)+500*500*0.8*(1-0.8))/(0.8*(1500+500*0.8))=26.32

したがって、補正ビット数は２６になり、ＣＨ１の補正後の配分ビット数は５２６になり、ＣＨ２の補正後の配分ビット数は１４７４になる。ビット使用率は０．８であるから、ＣＨ１では、５２６×０．８＝４２０ビットが使用され、１０６ビットが余る。最初に配分された５００ビットに対するビット使用率は８４％になる。余った１０６ビットはＣＨ２に加えられて、ＣＨ２には１５８０ビットが割り当てられる。ビット使用率は０．８であるから、ＣＨ２では、１５８０×０．８＝１２６４ビットが使用され、最初に配分された１５００ビットに対するビット使用率は０．８４（８４％）になる。ＣＨ１とＣＨ２で実際に使用されたビット数は、４２０＋１２６４＝１６８４ビットになる。

したがって、補正を行った場合の各チャネルの使用可能ビット数とビット使用率は、表２のようになる。

以上のように、補正後はＣＨ１とＣＨ２のビット使用率の差が無く、チャネル間の音質のバランスも維持できる。

［例２：２つのチャネル(CH1,CH2)の量子化ビット平均使用率が等しくない場合］
ＣＨ１がショート窓、ＣＨ２がロング窓とし、ショート窓の量子化ビット使用率を０．９、ロング窓の量子化ビット使用率を０．６、両チャネル使用可能ビット数を３０００ビット、知覚エントロピーによるビット配分比率をＣＨ１：ＣＨ２＝３：１とし、量子化処理は、ＣＨ１を行った後ＣＨ２を行うものとする。

まず、補正を行わない場合について説明する。
ＣＨ１：ＣＨ２＝３：１のビット配分比率で配分するため、ＣＨ１＝２２５０ビット、ＣＨ２＝７５０ビットが配分される。ＣＨ１で量子化が行なわれ、ショート窓のビット使用率は０．９であるから、２０２５ビットが使用され、２２５ビットが余る。余った２２５ビットはＣＨ２に加えられて、ＣＨ２には９７５ビットが割り当てられる。ロング窓のＣＨ２のビット使用率は０．６であるから、９７５×０．６＝５８５ビットが使用され、３９０ビットが余る。ＣＨ２に最初に配分されたのは７５０ビットであるから、ＣＨ２のビット使用率は、５８５／７５０＝０．７８となる。

したがって、補正を行わない場合の各チャネルの使用可能ビット数とビット使用率は、表３のようになる。

したがって、ＣＨ１のビット使用率が０．９であり、一方ＣＨ２のビット使用率は０．７８となり、ビット使用率に差分が生じて、チャネル間の音質のバランスが劣化する。

次に、実施形態のように補正を行う場合について説明する。
上記と同様に、ＣＨ１：ＣＨ２＝３：１のビット配分比率で配分するため、ＣＨ１＝２２５０ビット、ＣＨ２＝７５０ビットが配分される。次に、ビット使用率は、ロング窓が０．６、ショート窓が０．９である。したがって、式５は次のようにして解かれる。
(2250*750(0.6-0.9)+2250*2250*0.6*(1-0.9))/(0.9*(750+2250*0.6))=-107.14

したがって、補正ビット数は−１０７になり、ＣＨ１の補正後の配分ビット数は２１４３になり、ＣＨ２の補正後の配分ビット数は８５７になる。ＣＨ１では、ビット使用率は０．９であるから、２１４３×０．９＝１９２９ビットが使用され、２１４ビットが余る。最初に配分された２２５０ビットに対するビット使用率は８６％になる。余った２１４ビットはＣＨ２に加えられて、ＣＨ２には１０７１ビットが割り当てられる。ビット使用率は０．６であるから、ＣＨ２では、１０７１×０．６＝６４２ビットが使用され、最初に配分された７５０ビットに対するビット使用率は０．８６（８６％）になる。

したがって、補正を行った場合の各チャネルの使用可能ビット数とビット使用率は、表４のようになる。

以上のように、補正後はＣＨ１とＣＨ２のビット使用率の差が無く、チャネル間の音質のバランスが維持できる。

［例３：３つのチャネル(CH1,CH2,CH3)の量子化ビット平均使用率が等しくない場合］
ＣＨ１がロング窓、ＣＨ２がショート窓、ＣＨ３がロング窓とし、ショート窓の量子化ビット使用率を０．６、ロング窓の量子化ビット使用率を０．９、両チャネル使用可能ビット数を３０００ビット、知覚エントロピーによるビット配分比率をＣＨ１：ＣＨ２:ＣＨ３＝１：３：２とし、量子化処理は、ＣＨ１、ＣＨ２、ＣＨ３の順番で行うものとする。

まず、補正を行わない場合について説明する。
ＣＨ１：ＣＨ２:ＣＨ３＝１：３：２のビット配分比率で配分するため、ＣＨ１＝５００ビット、ＣＨ２＝１５００ビット、ＣＨ３＝１０００ビットが配分される。ＣＨ１で量子化が行なわれ、ロング窓のＣＨ１のビット使用率は０．９であるから、４５０ビットが使用され、５０ビットが余る。余った５０ビットはＣＨ２に加えられて、ＣＨ２には１５５０ビットが割り当てられる。ショート窓のＣＨ２のビット使用率は０．６であるから、１５５０×０．６＝９３０ビットが使用され、６２０ビットが余る。余った６２０ビットはＣＨ３に加えられて、ＣＨ３には１６２０ビットが割り当てられる。ロング窓のＣＨ３のビット使用率は０．９であるから、１６２０×０．９＝１４５８ビットが使用される。
ＣＨ１に最初に配分されたのは５００ビット、ＣＨ２に最初に配分されたのは１５００ビット、ＣＨ３に最初に配分されたのは１０００ビットであるから、ＣＨ１〜ＣＨ３のビット使用率は、０．９、０．６２、１．４６となる。

したがって、補正を行わない場合の各チャネルの使用可能ビット数とビット使用率は、表５のようになる。

したがって、ＣＨ１〜ＣＨ３のビット使用率に差分が生じて、チャネル間の音質のバランスが劣化する。

次に、実施形態のように補正を行う場合について説明する。
上記と同様に、ＣＨ１：ＣＨ２:ＣＨ３＝１：３：２のビット配分比率で配分するため、ＣＨ１＝５００ビット、ＣＨ２＝１５００ビット、ＣＨ３＝１０００ビットが配分される。次に、ビット使用率は、ロング窓が０．９、ショート窓が０．６である。３チャネルであるので、式５は使用できず、補正ビット数は、次のようにして求められる。
まず、ＣＨ１〜ＣＨ３の使用可能ビット数をそれぞれＣ１〜Ｃ３、量子化ビット使用率をＲ１〜Ｒ３とすると、各チャネルに加える補正ビット数Ａ１〜Ａ３は、式６〜式８で求められる。

計算の途中経過の説明は省略する。
補正を行った場合の各チャネルの使用可能ビット数とビット使用率は、表６のようになる。

以上のように、補正後はＣＨ１〜ＣＨ３のビット使用率の差が無く、チャネル間の音質のバランスが維持できる。

以上、実施形態を説明したが、ここに記載したすべての例や条件は、発明および技術に適用する発明の概念の理解を助ける目的で記載されたものであり、特に記載された例や条件は発明の範囲を制限することを意図するものではなく、明細書のそのような例の構成は発明の利点および欠点を示すものではない。発明の実施形態を詳細に記載したが、各種の変更、置き換え、変形が発明の精神および範囲を逸脱することなく行えることが理解されるべきである。

２１知覚エントロピー算出部
２２ビット配分部
２３窓判定部
２４補正部
２５量子化部
３０履歴データ記憶部
３１使用率履歴算出部
３２補正ビット数算出部

Claims

フレーム内の総ビット数が上限ビット数以下となるように、複数チャネルのオーディオ信号をそれぞれ符号化するオーディオ信号符号化方法であって、
各チャネルのオーディオ信号の知覚エントロピーを算出し、
前記知覚エントロピーに応じて、各チャネルに使用可能ビット数を配分し、
前記使用可能ビット数を補正し、
前記各チャネルのオーディオ信号を、補正した前記使用可能ビット数以下となるように順次量子化する時に、前記フレーム内で既に量子化したチャネルで実際に量子化に使用されたビット数と前記補正した使用可能ビット数との差である余りビット数を順次後のチャネルの使用可能ビット数に加えながら量子化し、
前記使用可能ビット数の補正は、処理対象のフレームより前のフレームの符号化データに基づいて窓のタイプごとの量子化ビット使用率を算出し、算出した前記量子化ビット使用率で量子化が行われたと仮定した場合の各チャネルの使用可能ビット数に対する使用率が等しくなるように、前記使用可能ビット数を補正する
ことを特徴とするオーディオ信号符号化方法。
フレーム内の総ビット数が上限ビット数以下となるように、複数チャネルのオーディオ信号をそれぞれ符号化するオーディオ信号符号化装置であって、
各チャネルのオーディオ信号の知覚エントロピーを算出する知覚エントロピー算出部と、
前記知覚エントロピーに応じて、各チャネルの使用可能ビット数を決定するビット配分部と、
前記各チャネルのオーディオ信号の窓のタイプを判定する窓判定部と、
前記使用可能ビット数を補正する補正部と、
前記各チャネルのオーディオ信号を、補正した前記使用可能ビット数以下となるように順次量子化する時に、前記フレーム内で既に量子化したチャネルで実際に量子化に使用されたビット数と補正した使用可能ビット数との差である余りビット数を順次後のチャネルの使用可能ビット数に加えながら量子化する量子化部と、を備え、
前記補正部は、
処理対象のフレームより前の符号化データに基づいて窓のタイプごとの量子化ビット使用率を算出する使用率履歴算出部と、
算出した前記量子化ビット使用率で量子化が行われたと仮定した場合の各チャネルの使用可能ビット数に対する使用率が等しくなるように、前記使用可能ビット数を補正する補正ビット数算出部と、を備えることを特徴とするオーディオ信号符号化装置。
前記量子化部が出力するタイプごとの量子化ビット使用率を含む符号化データを記憶する履歴データ記憶部を備え、
前記使用率履歴算出部は、前記履歴データ記憶部に記憶された処理対象のフレームより前の符号化データに基づいて窓のタイプごとの量子化ビット使用率を算出する請求項２記載の複数チャネルオーディオ信号符号化装置。