JP4009948B2

JP4009948B2 - オーディオ信号符号化装置及びその符号化プログラム

Info

Publication number: JP4009948B2
Application number: JP2003093029A
Authority: JP
Inventors: 定浩安良
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 2003-03-31
Filing date: 2003-03-31
Publication date: 2007-11-21
Anticipated expiration: 2023-03-31
Also published as: JP2004301972A

Description

【０００１】
【発明の属する技術分野】
本発明はオーディオ信号符号化装置及びその符号化プログラムに係り、特にＭＰＥＧ−２／４ＡＣＣオーディオ符号化方式において、量子化・可変長符号化・符号量判定に係る処理の前段階でショートブロックのグループ化処理を行う場合に、そのグループ化処理の判定精度を向上させ、また符号化処理全体の効率化を図るための改良に関する。
【０００２】
【従来の技術】
従来のＭＰＥＧ２ＡＡＣオーディオ符号化装置は、図５に示すような機能部から構成されている。
先ず、オーディオ信号が所定サンプル数からなるフレーム単位で聴覚心理分析器１とＭＤＣＴ（変形離散コサイン変換：Modified Discrete Cosine Transform）器２へ取り込まれる。
そして、聴覚心理分析器１では、入力オーディオ信号に対して高速フーリエ変換（ＦＦＴ:Fast Fourier Transform）を行って周波数スペクトルを求め、その周波数スペクトルに基づいて聴覚上のマスキングを演算し、予め設定された周波数帯域毎の許容量子化雑音電力と聴覚心理パラメータを算出すると共に、その聴覚心理パラメータに基づいてＭＤＣＴのための変換ブロック長を決定する。
一方、ＭＤＣＴ器２では、入力オーディオ信号に対してＭＤＣＴを行って周波数スペクトルに変換し、各周波数スペクトルに係るＭＤＣＴ係数を求める。
その場合、ＭＤＣＴ器２は、周波数スペクトルへの変換に際して、その変換ブロック長を５０％ずつオーバーラップさせ、例えば、２０４８サンプルを１０２４本のＭＤＣＴ係数に変換する。
【０００３】
また、ＭＤＣＴ器２は、聴覚心理分析器１から得られる変換ブロック長情報に基づいてＭＤＣＴの対象となるブロック長を長い変換ブロック（ロングブロック）又は短い変換ブロック（ショートブロック）に切り替えるためのブロックスイッチング機能を採用している。
これは、一般に長い変換ブロック長を用いる方がスペクトルの集中度が高まるので効率的なビット配分を行えるが、周波数領域での量子化雑音は時間領域に戻された時に変換ブロック長全体に広がるため、静寂部の後で急峻な立ち上がり（アタック部）を有するような波形を長いブロック長で変換して量子化すると、その量子化雑音が静寂部まで広がることになり、聴覚上極めて耳障りなものとなるからである。
即ち、ＭＤＣＴ器２は、聴覚心理分析器１から得た変換ブロック長情報に基づいて変換ブロック長を選択し、特に、アタック部の前後では長い変換ブロックから複数個の短い変換ブロックに切り替えるようにしている。
【０００４】
例えば、定常的な信号の場合には、ＭＤＣＴの変換ブロック長は２０４８サンプルのロングブロックとして１０２４本のＭＤＣＴ係数に変換し、一方、過渡的な信号の場合には、２５６サンプルのショートブロックとして１２８本のＭＤＣＴ係数に変換する。
そして、ショートブロックについては、８個連続で短い変換長を選択することとし、出力されるＭＤＣＴ係数の本数を１０２４本としてロングブロックと一致させるようにしている。
【０００５】
次に、量子化器３では、人間の聴覚特性に基づいて周波数帯域毎に１０２４本のＭＤＣＴ係数を複数のスケールファクタバンドに分け、各スケールファクタバンド毎にＭＤＣＴ係数を正規化して量子化を行う。
その際に、ショートブロックの場合には１２８本のＭＤＣＴ係数を複数のスケールファクタバンドに分ける。
また、各スケールファクタバンドについて計算された量子化雑音が聴覚心理分析器１で算出された許容量子化雑音電力よりも大きくならないように、各スケールファクタバンドの量子化ステップ数を制御し、且つ量子化に必要なビット数がフレーム単位で所定ビット数以内に収まるように全体の量子化ステップ数を制御して量子化を実行する。
尚、スケールファクタバンドの量子化ステップ数とは、各周波数帯域内のサンプルデータを波形と倍率に分離し、波形の最大振幅が１.０となるように正規化して倍率を符号化したものに相当し、スケールファクタとも言われるものである。
【０００６】
次に、量子化されたデータはグループ処理器４へ入力され、より高い符号化効率が得られるようにショートブロックについてグループ化が行われる。
図６はそのグルーピングの一例を示し、８個のショートブロックが４組のグループに分けられており、各グループにはそれぞれ３，１，２，２個のショートブロックが含まれている。
また、図７はグループ化を行う前のスケールファクタバンド（ｓｆｂ）の順序を表している。
各ショートブロックに属する１２８本のＭＤＣＴ係数は複数のスケールファクタバンドに区分され、ショートブロック毎にスケールファクタバンドのインデックス順に並べられている。
【０００７】
一方、図８は、図６のグループ分けに対応してスケールファクタバンドの順序を並べ替えてグループ毎に共有化させたものである。
この図では、図６のグループ０に含まれている３個のショートブロック内の同じインデックスを持つスケールファクタバンドが同一であるために１つのグループ内にまとめられ、同一であったものが単一のスケールファクタバンドとして統合されている。
これは、その他のグループについても前記の条件下で同様に処理されている。このように、隣接したショートブロックの相応するスケールファクタバンドのスケールファクタが全て同一である場合に、スケールファクタの共有化のために、各ショートブロック内のスケールファクタバンドを並び替えて１つのスケールファクタバンドとして統合化することにより、スケールファクタ分の符号化ビットの削減が可能になる。
【０００８】
次に、可変長符号化器５では、量子化器３とグループ処理器４で処理された後のＭＤＣＴ係数の量子化値やスケールファクタ等の符号化パラメータに対して可変長符号化処理を施して冗長度を削減し、それをビット数判定器６へ出力する。ビット数判定器６では、符号化された１フレーム分のビット数が予め設定された所定範囲内に収まっているか否かを判定し、その条件を満たしていれば、符号化データをそのままビットストリーム生成器７へ出力するが、満たしていない場合には、その判定結果を処理制御部８へ出力する。
処理制御部８では、その判定結果に基づいて量子化器３とグループ処理器４と可変長符号化器５による前記の一連の処理を再度実行させ、ビット数判定器６において前記条件を満たしていると判定されるまでその処理を反復させる。
そして、ビット数判定器６において前記条件を満たした符号化データはビットストリーム生成器７へ出力され、ブロック情報等の符号化パラメータと共に多重化されたビットストリームとして伝送されることになる。
【０００９】
ところで、上記のＭＰＥＧ２ＡＡＣオーディオ符号化方式においては、量子化・符号化の処理段階で、符号化後の１フレーム分のビット数が所定範囲に収まっていない場合に反復処理を実行させるため、量子化を行う度にスケールファクタバンドの量子化ステップ数が変化することになる。
その場合、グループ処理器４において、隣接するショートブロックを周波数帯域が対応したスケールファクタバンドを共有化させる態様でグループ化するには、量子化後の量子化ステップ数の比較判定を反復処理の回数分実行する必要があり、結果的に符号化処理全体の所要時間が長くなってしまうという問題がある。
【００１０】
この問題に対して、本願出願人は、下記の特許文献１において、次のような解決方式を提案している。
この提案では、図１に示すように、グループ処理器１０を量子化器３の前に配置させ、量子化する前の段階で予めショートブロックのグループ化を行うようにしている。
先ず、量子化器３での量子化はスケールファクタバンド単位で実行されるため、スケールファクタバンドの量子化ステップ数は各スケールファクタバンド内のＭＤＣＴ係数の最大絶対値に依存することになる。
そこで、ＭＤＣＴ器２が求めたＭＤＣＴ係数を聴覚心理分析器１が求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、ショートブロックについてはその各スケールファクタバンド内のＭＤＣＴ係数の最大絶対値を検出し、更にその量子化ステップ数（以下、「最大量子化ステップ数」という）を求める。
次に、隣接するショートブロック間で周波数帯域が対応しているスケールファクタバンドについて最大量子化ステップ数の絶対差分値を求め、更にその絶対差分値の総和を求める。
その場合、前記の総和値が小さいほど、隣接するショートブロックにおけるスケールファクタバンドの最大量子化ステップ数の差が小さいことになり、量子化においても隣接するショートブロックが同じ量子化ステップ数で量子化される確率が高くなる。
そこで、前記の絶対差分値の総和が所定閾値以下であればグループ化が可能と判定し、図８に示すようにスケールファクタを共有化させた態様でショートブロックのグループ化を行って符号化ビットの削減を可能にする。
この提案によれば、量子化・可変長符号化・ビット数判定の反復処理系の前段階でショートブロックのグループ処理を行っているため、符号化処理全体の所要時間が長くなるという問題が解消できることになる。
【００１１】
【特許文献１】
特開２００１−１５４６９８号公報
【００１２】
【発明が解決しようとする課題】
ところで、前記の特許文献１の提案では、隣接するショートブロックのグループ化の判定要素として、各スケールファクタバンド内のＭＤＣＴ係数の最大量子化ステップ数を用いているが、最大量子化ステップ数が同一であっても、それがスケールファクタバンド内のＭＤＣＴ係数の形状についての同一性を的確に表しているとは限らない。
即ち、前記の最大量子化ステップ数がスケールファクタ内のＭＤＣＴ係数全体を反映するとする前提には不十分さがあり、且つ判定基準である前記の絶対差分値の総和は隣接するショートブロック間での各スケールファクタバンドの近似性を示すだけであることから、実際にはグループ化の判定精度に問題が生じる。
【００１３】
また、実際の符号化処理においては、聴覚心理分析器１が各ブロックの各スケールファクタバンドのバンドパワーに基づいて許容量子化雑音電力を求め、その許容量子化雑音電力に基づいて量子化器３が各スケールファクタバンドの量子化ステップ数を制御するため、ショートブロックのグループ化においてバンドパワーの要素が欠落しているとグループ処理と量子化処理の整合性がとれず、逆に前記の反復処理の回数を多くして符号化処理の所要時間が長くなる可能性がある。
【００１４】
そこで、本発明は、オーディオ信号の符号化処理において、量子化・可変長符号化・ビット数判定の反復処理系の前段階でショートブロックのグループ化を実行する場合に、高い精度でグループ化の可否を判定できると共に、量子化処理と整合性をもった判定基準を採用することにより、前記の問題点を解消したオーディオ信号符号化装置及び符号化プログラムを提供することを目的として創作された。
【００１５】
【課題を解決するための手段】
本発明のオーディオ信号符号化装置は、オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータと前記聴覚心理パラメータとに基づいて決定される変形離散コサイン変換（以下、「ＭＤＣＴ」という）のための変換ブロック長を求める聴覚心理分析手段と、前記フレームのオーディオ信号を前記聴覚心理分析手段が求めた変換ブロック長で周波数スペクトルに変換してＭＤＣＴ係数を求めるＭＤＣＴ手段と、前記ＭＤＣＴ手段が求めたＭＤＣＴ係数を前記聴覚心理分析手段が求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、その内のショートブロックについてのみ、前記ＭＤＣＴ係数を前記周波数帯域毎の各スケールファクタバンドに分け、各スケールファクタバンド毎のバンドパワーを求めた後に前記各バンドパワーの量子化ステップ数を求め、隣接するショートブロック間における前記周波数帯域が対応する各スケールファクタバンドのバンドパワーの量子化ステップ数を比較し、その差を全てのスケールファクタバンドについて合計した総和値が一定の範囲である場合に、隣接するショートブロックを各スケールファクタバンドを共有させる態様でグループ化するグループ処理手段と、前記ロングブロックと前記グループ処理手段での処理を経たショートブロックとの各ＭＤＣＴ係数を前記スケールファクタバンド単位で量子化する手段であって、前記スケールファクタバンド毎の量子化雑音が前記聴覚心理分析手段から得られる前記聴覚心理パラメータの許容量子化雑音電力より小さくなるように、量子化ステップ数を制御して量子化を行う量子化手段と、前記量子化手段が求めた量子化値を可変長符号化する可変長符号化手段と、前記可変長符号化手段で得られた符号化データが前記フレーム単位で所定符号量以下であるか否かを判定する符号量判定手段と、前記符号量判定手段が前記符号量条件を満たさないと判定した場合に、前記量子化手段による量子化ステップ数を変更した量子化処理と前記可変長符号化手段による符号化処理とを繰り返し実行させる処理制御手段と、前記符号量判定手段が前記符号量条件を満たすと判定した符号化データと前記聴覚心理分析手段が求めた聴覚心理パラメータと変換ブロック長情報とを、前記フレーム単位でビットストリームに構成して出力するビットストリーム生成手段とを具備したことを特徴とするオーディオ信号符号化装置に係る。
【００１６】
この発明では、グループ処理手段において、ロングブロックについてはそのまま量子化手段へ出力するが、ショートブロックについてはそのブロック内のスケールファクタバンドのバンドパワーに着目してグループ化を行っている。
そして、各バンドパワーを量子化ステップ数に換算した後、隣接するショートブロック間で周波数帯域が対応している各スケールファクタバンドのバンドパワーを量子化ステップ数に換算して比較し、その差のスケールファクタバンド全体での総和値の大きさをグループ化の可否判定基準としている。
ここに、バンドパワーとはスケールファクタバンド内の各ＭＤＣＴ係数を１本にまとめたものであり、スケールファクタバンド内のＭＤＣＴ係数全体を反映している。
従って、ショートブロックのグループ処理の判定精度が向上すると共に、グループ処理手段と量子化手段との整合性がとれて量子化・可変長符号化・符号化量判定の反復処理回数を少なくでき、全体としての符号化所要時間も短くすることができる。
【００１７】
また、前記のオーディオ信号符号化装置をコンピュータで構成する場合には、オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータと前記聴覚心理パラメータとに基づいて決定されるＭＤＣＴのための変換ブロック長を求める聴覚心理分析手順と、前記フレームのオーディオ信号を前記聴覚心理分析手順で求めた変換ブロック長で周波数スペクトルに変換してＭＤＣＴ係数を求めるＭＤＣＴ手順と、前記ＭＤＣＴ手順で求めたＭＤＣＴ係数を前記聴覚心理分析手順で求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、その内のショートブロックについてのみ、前記ＭＤＣＴ係数を前記周波数帯域毎の各スケールファクタバンドに分け、各スケールファクタバンド毎のバンドパワーを求めた後に前記各バンドパワーの量子化ステップ数を求め、隣接するショートブロック間における前記周波数帯域が対応する各スケールファクタバンドのバンドパワーの量子化ステップ数を比較し、その差を全てのスケールファクタバンドについて合計した総和値が一定の範囲である場合に、隣接するショートブロックを各スケールファクタバンドを共有させる態様でグループ化するグループ処理手順と、前記ロングブロックと前記グループ処理手順での処理を経たショートブロックとの各ＭＤＣＴ係数を前記スケールファクタバンド単位で量子化する手順であって、前記スケールファクタバンド毎の量子化雑音が前記聴覚心理分析手順で得られた前記聴覚心理パラメータの許容量子化雑音電力より小さくなるように、量子化ステップ数を制御して量子化を行う量子化手順と、前記量子化手順で求めた量子化値を可変長符号化する可変長符号化手順と、前記可変長符号化手順で得られた符号化データが前記フレーム単位で所定符号量以下であるか否かを判定する符号量判定手順と、前記符号量判定手順で前記符号量条件を満たさないと判定された場合に、前記量子化手順での量子化ステップ数を変更した量子化処理と前記可変長符号化手順での符号化処理とを繰り返し実行させる処理制御手順と、前記符号量判定手順で前記符号量条件を満たすと判定された符号化データと前記聴覚心理分析手順で求めた聴覚心理パラメータと変換ブロック長情報とを、前記フレーム単位でビットストリームに構成して出力するビットストリーム生成手順とを実行させる符号化プログラムが適用できる。
【００１８】
【発明の実施の形態】
以下、本発明の「オーディオ信号符号化装置及びその符号化プログラム」に係る実施形態を、図１から図４を用いて詳細に説明する。
［実施形態１］
先ず、図１はこの実施形態のオーディオ信号符号化装置の機能ブロック図を示す。
ここで、図１と従来技術に係る図５の装置を比較すれば明らかなように、聴覚心理分析器１，ＭＤＣＴ器２，量子化器３，可変長符号化器５，ビット数判定器６，ビットストリーム生成器７，処理制御部８を用いる点は共通しており、それらの機能も同様である。
また、前記のように、従来技術に係る特許文献１の装置は、機能ブロック回路としては図１と同様であり、同図で符号（１０）として示されたグループ処理器がＭＤＣＴ器２と量子化器３の間に設けられている。
従って、この実施形態のオーディオ信号符号化装置は、量子化器３と可変長符号化器５とビット数判定器６と処理制御部８からなる反復処理系の前にショートブロックのグループ処理がなされる点では特許文献１の装置と共通している。
しかし、この実施形態では、グループ処理器（符号１１として示す）によるグループ化の可否に係る判定基準が異なっており、この実施形態の装置はその点に特徴がある。
【００１９】
この実施形態の装置は次のように動作する。
先ず、オーディオ信号が所定サンプル数のフレーム単位で聴覚心理分析器１とＭＤＣＴ器２へ取り込まれ、聴覚心理分析器１において、人間の聴覚特性に基づいて予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータとＭＤＣＴのための変換ブロック長情報が求められることは、従来技術の装置と同様である。
また、ＭＤＣＴ器２が、聴覚心理分析器１から得られる変換ブロック長情報に基づいて変換ブロック長を設定し、オーディオ信号をＭＤＣＴによって周波数スペクトルに変換してＭＤＣＴ係数を求めることも同様である。
【００２０】
次に、グループ処理器１１では、聴覚心理分析器１が得ている変換ブロック長情報に基づいて各ＭＤＣＴ係数をショートブロックとロングブロックに区分し、ショートブロックについてのみ以下の処理を行う。
先ず、ショートブロックの各ＭＤＣＴ係数（１２８本）を前記の周波数帯域毎の各スケールファクタバンドに分割する。
そして、各ショートブロックにおけるスケールファクタバンド毎に、次の数式（１）によりバンドパワーＢＰ(n，m)を求める。
【数００１】

ここに、ｎはショートブロック番号（ｂ＝１〜７）、ｍはショートブロック内のスケールファクタバンドの番号、Ｘ_kはスケールファクタバンドに含まれる各ＭＤＣＴ係数、low（m）はスケールファクタバンドにおけるＭＤＣＴ係数の開始インデックス、high（m）はスケールファクタバンドにおけるＭＤＣＴ係数の終了インデックスである。
【００２１】
次に、グループ処理器１１では、前記の数式（１）で求めた各バンドパワーＰＢ(n，m)を用いて、次の数式（２）により各バンドパワーＰＢに対する量子化ステップ数ＳＦ(n，m)を求める。
これは、スケールファクタバンド内に１本に統合された仮想的なＭＤＣＴスペクトルが存在しているものとして算出するものである。
【数００２】

但し、VALは定数値である。
【００２２】
そして、グループ処理器１１は、隣接するショートブロック内の対応したスケールファクタバンド毎に、次の数式（３）により量子化ステップ数の絶対差分値の総和δ（n，n+1）を求める。
【数００３】

尚、この数式(3)ではショートブロック番号がｎとｎ＋１である隣接したショートブロックについて量子化ステップ数の絶対差分値を求めており、各ショートブロック内のスケールファクタバンドの総数はＭである。
【００２３】
前記の総和δ（n，n+1）は、スケールファクタバンド毎のバンドパワーＢＰ(n，m)を用いて求められたものであり、その値が小さいほど隣接するショートブロック間でスケールファクタバンドに含まれる周波数スペクトル全体の近似度が高くなり、量子化後の値もそれだけ近似した値になる。
即ち、スケールファクタバンドのバンドパワーは、上記の特許文献１におけるＭＤＣＴ係数の最大絶対値よりも、スケールファクタバンドに含まれる周波数スペクトル全体（ＭＤＣＴ係数全体の形状）をより正確に反映している。
そこで、グループ処理器１１では、閾値として定数THR_deltaを用い、δ（n，n+1）がTHR_deltaに対してδ（n，n+1）≦THR_deltaの条件を満たしていれば、ｎ番目とｎ＋１番目の各ショートブロックをグループ化が可能なものと判定する。
この場合、前記のように、スケールファクタバンドのバンドパワーＢＰ(n，m)をグループ化判定の基本要素としているため、より正確な判定結果が得られている。
尚、THR_deltaは固定値でもよいが、入力信号の特性に応じて可変設定されるようにしてもよい。
【００２４】
このようにして、グループ化が可能と判定された各ショートブロックは、各スケールファクタバンドをインターリーブ方式で並び替えて共有させた態様でグループ化される。
そして、グループ処理器１１は、グループ化した後のショートブロックをロングブロックと共に量子化器１０３へ出力する。
【００２５】
次に、量子化器３では、ショートブロックとロングブロックの各ＭＤＣＴ係数をスケールファクタバンド単位で量子化する。
ロングブロックの場合は、グループ処理器１１から得られた１０２４本のＭＤＣＴ係数を複数のスケールファクタバンドに分け、各スケールファクタバンド毎にＭＤＣＴ係数を正規化して量子化する。
一方、ショートブロックの場合は、１２８本のＭＤＣＴ係数を複数のスケールファクタバンドに分割した後、各スケールファクタバンド毎にＭＤＣＴ係数を正規化して量子化する。
また、前記の量子化に際しては、各スケールファクタバンドについて求められる量子化雑音が聴覚心理分析器１から得られている許容量子化雑音電力よりも大きくならないように、各スケールファクタバンドの量子化ステップ数を制御すると共に、量子化に必要なビット数が所定ビット数以下に収まるように全体の量子化ステップ数も制御する。
ところで、聴覚心理分析器１は各ブロックの各スケールファクタバンドのバンドパワーに基づいて許容量子化雑音電力を求めているが、前記のように、グループ処理部１１でもショートブロックのグループ化の可否判定に際して各スケールファクタバンドのバンドパワーを判定要素としている。
従って、グループ処理と量子化処理の整合性が確保でき、量子化部３での量子化ステップ数の制御を小さい誤差範囲で行えるため、高い精度で量子化ステップ数を設定できる。
【００２６】
次に、可変長符号化器５では、量子化器３が出力する各ＭＤＣＴ係数の量子化値とスケールファクタ等の符号化パラメータに対して可変長符号化処理を行って冗長度を削減し、その符号化データをビット数判定器６へ出力する。
そして、ビット数判定器６では、符号化後のデータの符号量がフレーム単位で所定範囲に収まっている否かを判定する。
【００２７】
ビット数判定器６では、前記の符号量条件が満たされていれば、符号化データをそのままビットストリーム生成器７へ出力するが、その条件を満たしていない場合には、その判定結果を処理制御部８へ出力する。
そして、処理制御部８は、前記の符号量条件を満たしていない場合の判定結果に基づいて、量子化器３と可変長符号化器５とビット数判定器６による前記の一連の処理を再度実行させ、ビット数判定器６で前記の符号量条件を満たしていると判定されるまでその処理を反復して実行させる。
ビット数判定器６から出力された符号化データは、ビットストリーム生成器７においてブロック情報等の符号化パラメータと共に多重化され、１フレーム分のオーディオ信号に係るビットストリームとして伝送されることになる。
尚、上記の処理は１フレーム分のオーディオ信号が取り込まれる度に実行されて、ビットストリームが順次出力されてゆくことになる。
【００２８】
以上のように、この実施形態の装置では、上記の特許文献１の装置と同様に、グループ処理器１１を量子化器３の前段に配置させており、量子化・可変長符号化・ビット数判定の反復処理系にグループ処理が含まれないために全体としての符号化処理時間を短縮できるが、更に、スケールファクタバンドのバンドパワーをショートブロックのグループ化判定要素としたことにより、グループ化の判定精度を向上させると共に、量子化段階での量子化ステップ数も高精度に設定できることから、前記の反復処理回数を少なくしてより効率的な符号化処理が実現できる。
【００２９】
［実施形態２］
前記の実施形態１ではオーディオ信号符号化装置をハードウェアで構成することを前提として説明したが、その符号化処理全体はプログラムによるソフトウェア処理によっても実行させることができる。
図２はオーディオ信号符号化装置をマイクロコンピュータ回路２０で構成した場合のシステム回路図であり、ＣＰＵ２１とＲＯＭ２２とＲＡＭ２３とＩ/Ｏポート２４からなる。
オーディオ信号はＩ/Ｏポート２４から取り込まれ、符号化後のビットストリームもＩ/Ｏポート２４から出力される。
【００３０】
そして、ＲＯＭ２３には、実施形態１における各ユニット（聴覚心理分析器１、ＭＤＣＴ器２、グループ処理器１１、量子化器３、可変長符号化器５、ビット数判定器６、及びビットストリーム生成器７）によるデータ処理と同様の機能を実行する各プログラムモジュールとシステム制御プログラムが格納されており、ＣＰＵ２１がシステム制御プログラムに基づいて各プログラムモジュールをシーケンシャルに実行させることにより、符号化されたビットストリームを作成する。
【００３１】
この装置による全体的なデータ処理手順は図４のフローチャートに示され、またグループ処理モジュールによるショートブロックのグルーピング処理手順に係るフローチャートは図３に示される。
各図から明らかなように、基本的な処理内容は実施形態１と同様であるため、以下の個々のデータ処理手順に係る説明は概略的な範囲に留める。
【００３２】
先ず、入力されるオーディオ信号はＩ/Ｏポート２４から所定データ量毎に取り込まれ、ＲＡＭ２３にセーブされる（S1）。
そして、聴覚心理分析モジュールが起動してＲＡＭ２３にセーブしたオーディオ信号を分析し、その分析により得られた聴覚心理パラメータと変換ブロック長情報をＲＡＭ２３にセーブする（S2）。
また、ＭＤＣＴ変換モジュールが起動され、オーディオ信号を前記のブロック情報に基づいた変換ブロック長で周波数スペクトルに変換してＭＤＣＴ係数を求め、それをＲＡＭ２３にセーブする（S3）。
【００３３】
次に、グループ処理モジュールが起動され、図３に示す手順に基づいて、予めショートブロックについてのグループ処理が実行される（S4）。
このグループ処理では、先ず、ステップS3で求めたＭＤＣＴ係数をステップS2で求められた変換ブロック長に基づいてショートブロックとロングブロックに区分し、各ショートブロック内のスケールファクタバンドのバンドパワーを求めた後、更にそのバンドパワーの量子化ステップ数を求める（S41〜S43）。
尚、それらの演算には実施形態１で用いた数式(1)及び(2)が適用される。
【００３４】
バンドパワーの量子化ステップ数が求まると、隣接するショートブロック間で周波数帯域が対応する各スケールファクタバンドのバンドパワーの差を前記の量子化ステップ数の絶対値差分として求め、実施形態１で用いた数式(3)を適用して、それら絶対値差分の総和：δ（n，n+1）を求める（S44）。
そして、予め設定されている定数：THR_deltaと前記の総和：δ（n，n+1）を比較し、δ（n，n+1）≦THR_deltaの場合には、隣接しているｎ番目とｎ＋１番目の各ショートブロックをグループ化し、δ（n，n+1）＞THR_deltaの場合にはグループ化せずにそのままとする（S45,S46）。
尚、ここでのグループ処理はショートブロックだけを対象とし、ロングブロックはそのままとされる。
【００３５】
前記のグループ処理が完了すると、図４に戻って、量子化モジュールが起動されてロングブロックとショートブロックの各ＭＤＣＴ係数を各スケールファクタバンド毎に正規化して量子化し、量子化後のデータをＲＡＭ２３にセーブする（S5）。
次に、可変長符号化モジュールが起動され、前記のＭＤＣＴ係数の量子化値とスケールファクタ等のパラメータ値を可変長符号化する（S6）。
そして、ビット数判定モジュールを起動して、１フレーム分の符号化後の符号量が所定ビット数以下であるか否かを判定し、その符号量条件を満たさなかった場合には、量子化ステップ数を変更させて前記の量子化処理及び可変長符号化処理を再度実行させる（S7→S5,S7）。
また、その反復処理は符号化後の１フレーム分のビット数が前記の符号量条件を満たすまで繰り返して実行される。
【００３６】
このようにして、１フレーム分の符号化データが前記の符号量条件を満たすと、ビットストリーム生成モジュールが起動され、符号化データとブロック情報等の符号化パラメータを多重化してビットストリームにまとめられ、そのビットストリームがＩ/Ｏポート２４から出力される（S8,S9）。
また、その段階でＲＡＭ２３のセーブデータはクリアされ、次の１フレーム分のオーディオ信号がＲＡＭ２３に取り込まれ、以降、入力オーディオ信号があれば、ステップS1からステップS8のデータ処理を繰り返して実行する（S9→S1）。
【００３７】
尚、この実施形態に係る符号化プログラム（システム制御プログラム及び各処理に係るプログラムモジュール）は、記録媒体に格納した提供方式だけでなく、インターネット等の通信回線を介して提供してもよく、それぞれ適当なシステムを用いてマイクロコンピュータ回路に実装させることができる。
【００３８】
【発明の効果】
本発明のオーディオ信号符号化装置及びその符号化プログラムは、以上の構成を有していることにより、次のような効果を奏する。
オーディオ信号をショートブロックとロングブロックに分け、ショートブロックをグループ化して符号量を削減する符号化装置及びその符号化プログラムにおいて、符号化処理時間を短縮するためにショートブロックのグループ処理を反復処理系（量子化・可変長符号化・符号量判定）の前段階で実行させる場合に、そのグループ化の可否の判定精度を向上させると共に、グループ処理と量子化処理に整合性を持たせて更に符号化処理時間の短縮を実現する。
【図面の簡単な説明】
【図１】本発明の実施形態１に係るオーディオ信号符号化装置の機能ブロック回路図である。
【図２】本発明の符号化プログラムを適用した実施形態２のオーディオ信号符号化装置のシステム回路図である。
【図３】実施形態２におけるグループ処理手順を示すフローチャートである。
【図４】実施形態２におけるデータ処理手順全体を示すフローチャートである。
【図５】従来技術に係るオーディオ信号符号化装置の機能ブロック回路図である。
【図６】ショートブロックのグルーピングの一例を示す図である。
【図７】グルーピング前におけるスケールファクタバンドの順序の一例を示す図である。
【図８】グルーピング後におけるスケールファクタバンドの順序の一例を示す図である。
【符号の説明】
１…聴覚心理分析器、２…ＭＤＣＴ器、３…量子化器、４，１０,１１…グループ処理器、５…可変長符号化器、６…ビット数判定器、７…ビットストリーム生成器、８…処理制御器、２０…マイクロコンピュータ回路、２１…ＣＰＵ、２２…ＲＯＭ、２３…ＲＡＭ、２４…Ｉ/Ｏポート。

Claims

入力されるオーディオ信号を符号化するオーディオ信号符号化装置において、
オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータと前記聴覚心理パラメータとに基づいて決定される変形離散コサイン変換（以下、「ＭＤＣＴ」という）のための変換ブロック長を求める聴覚心理分析手段と、
前記フレームのオーディオ信号を前記聴覚心理分析手段が求めた変換ブロック長で周波数スペクトルに変換してＭＤＣＴ係数を求めるＭＤＣＴ手段と、
前記ＭＤＣＴ手段が求めたＭＤＣＴ係数を前記聴覚心理分析手段が求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、その内のショートブロックについてのみ、前記ＭＤＣＴ係数を前記周波数帯域毎の各スケールファクタバンドに分け、各スケールファクタバンド毎のバンドパワーを求めた後に前記各バンドパワーの量子化ステップ数を求め、隣接するショートブロック間における前記周波数帯域が対応する各スケールファクタバンドのバンドパワーの量子化ステップ数を比較し、その差を全てのスケールファクタバンドについて合計した総和値が一定の範囲である場合に、隣接するショートブロックを各スケールファクタバンドを共有させる態様でグループ化するグループ処理手段と、
前記ロングブロックと前記グループ処理手段での処理を経たショートブロックとの各ＭＤＣＴ係数を前記スケールファクタバンド単位で量子化する手段であって、前記スケールファクタバンド毎の量子化雑音が前記聴覚心理分析手段から得られる前記聴覚心理パラメータの許容量子化雑音電力より小さくなるように、量子化ステップ数を制御して量子化を行う量子化手段と、
前記量子化手段が求めた量子化値を可変長符号化する可変長符号化手段と、
前記可変長符号化手段で得られた符号化データが前記フレーム単位で所定符号量以下であるか否かを判定する符号量判定手段と、
前記符号量判定手段が前記符号量条件を満たさないと判定した場合に、前記量子化手段による量子化ステップ数を変更した量子化処理と前記可変長符号化手段による符号化処理とを繰り返し実行させる処理制御手段と、
前記符号量判定手段が前記符号量条件を満たすと判定した符号化データと前記聴覚心理分析手段が求めた聴覚心理パラメータと変換ブロック長情報とを、前記フレーム単位でビットストリームに構成して出力するビットストリーム生成手段と
を具備したことを特徴とするオーディオ信号符号化装置。
オーディオ信号を符号化する符号化プログラムであって、
オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータと前記聴覚心理パラメータとに基づいて決定されるＭＤＣＴのための変換ブロック長を求める聴覚心理分析手順と、
前記フレームのオーディオ信号を前記聴覚心理分析手順で求めた変換ブロック長で周波数スペクトルに変換してＭＤＣＴ係数を求めるＭＤＣＴ手順と、
前記ＭＤＣＴ手順で求めたＭＤＣＴ係数を前記聴覚心理分析手順で求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、その内のショートブロックについてのみ、前記ＭＤＣＴ係数を前記周波数帯域毎の各スケールファクタバンドに分け、各スケールファクタバンド毎のバンドパワーを求めた後に前記各バンドパワーの量子化ステップ数を求め、隣接するショートブロック間における前記周波数帯域が対応する各スケールファクタバンドのバンドパワーの量子化ステップ数を比較し、その差を全てのスケールファクタバンドについて合計した総和値が一定の範囲である場合に、隣接するショートブロックを各スケールファクタバンドを共有させる態様でグループ化するグループ処理手順と、
前記ロングブロックと前記グループ処理手順での処理を経たショートブロックとの各ＭＤＣＴ係数を前記スケールファクタバンド単位で量子化する手順であって、前記スケールファクタバンド毎の量子化雑音が前記聴覚心理分析手順で得られた前記聴覚心理パラメータの許容量子化雑音電力より小さくなるように、量子化ステップ数を制御して量子化を行う量子化手順と、
前記量子化手順で求めた量子化値を可変長符号化する可変長符号化手順と、
前記可変長符号化手順で得られた符号化データが前記フレーム単位で所定符号量以下であるか否かを判定する符号量判定手順と、
前記符号量判定手順で前記符号量条件を満たさないと判定された場合に、前記量子化手順での量子化ステップ数を変更した量子化処理と前記可変長符号化手順での符号化処理とを繰り返し実行させる処理制御手順と、
前記符号量判定手順で前記符号量条件を満たすと判定された符号化データと前記聴覚心理分析手順で求めた聴覚心理パラメータと変換ブロック長情報とを、前記フレーム単位でビットストリームに構成して出力するビットストリーム生成手順と
をコンピュータに実行させる符号化プログラム。