JP4009948B2 - オーディオ信号符号化装置及びその符号化プログラム - Google Patents
オーディオ信号符号化装置及びその符号化プログラム Download PDFInfo
- Publication number
- JP4009948B2 JP4009948B2 JP2003093029A JP2003093029A JP4009948B2 JP 4009948 B2 JP4009948 B2 JP 4009948B2 JP 2003093029 A JP2003093029 A JP 2003093029A JP 2003093029 A JP2003093029 A JP 2003093029A JP 4009948 B2 JP4009948 B2 JP 4009948B2
- Authority
- JP
- Japan
- Prior art keywords
- quantization
- scale factor
- procedure
- band
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
本発明はオーディオ信号符号化装置及びその符号化プログラムに係り、特にMPEG−2/4 ACCオーディオ符号化方式において、量子化・可変長符号化・符号量判定に係る処理の前段階でショートブロックのグループ化処理を行う場合に、そのグループ化処理の判定精度を向上させ、また符号化処理全体の効率化を図るための改良に関する。
【0002】
【従来の技術】
従来のMPEG2 AACオーディオ符号化装置は、図5に示すような機能部から構成されている。
先ず、オーディオ信号が所定サンプル数からなるフレーム単位で聴覚心理分析器1とMDCT(変形離散コサイン変換:Modified Discrete Cosine Transform)器2へ取り込まれる。
そして、聴覚心理分析器1では、入力オーディオ信号に対して高速フーリエ変換(FFT:Fast Fourier Transform)を行って周波数スペクトルを求め、その周波数スペクトルに基づいて聴覚上のマスキングを演算し、予め設定された周波数帯域毎の許容量子化雑音電力と聴覚心理パラメータを算出すると共に、その聴覚心理パラメータに基づいてMDCTのための変換ブロック長を決定する。
一方、MDCT器2では、入力オーディオ信号に対してMDCTを行って周波数スペクトルに変換し、各周波数スペクトルに係るMDCT係数を求める。
その場合、MDCT器2は、周波数スペクトルへの変換に際して、その変換ブロック長を50%ずつオーバーラップさせ、例えば、2048サンプルを1024本のMDCT係数に変換する。
【0003】
また、MDCT器2は、聴覚心理分析器1から得られる変換ブロック長情報に基づいてMDCTの対象となるブロック長を長い変換ブロック(ロングブロック)又は短い変換ブロック(ショートブロック)に切り替えるためのブロックスイッチング機能を採用している。
これは、一般に長い変換ブロック長を用いる方がスペクトルの集中度が高まるので効率的なビット配分を行えるが、周波数領域での量子化雑音は時間領域に戻された時に変換ブロック長全体に広がるため、静寂部の後で急峻な立ち上がり(アタック部)を有するような波形を長いブロック長で変換して量子化すると、その量子化雑音が静寂部まで広がることになり、聴覚上極めて耳障りなものとなるからである。
即ち、MDCT器2は、聴覚心理分析器1から得た変換ブロック長情報に基づいて変換ブロック長を選択し、特に、アタック部の前後では長い変換ブロックから複数個の短い変換ブロックに切り替えるようにしている。
【0004】
例えば、定常的な信号の場合には、MDCTの変換ブロック長は2048サンプルのロングブロックとして1024本のMDCT係数に変換し、一方、過渡的な信号の場合には、256サンプルのショートブロックとして128本のMDCT係数に変換する。
そして、ショートブロックについては、8個連続で短い変換長を選択することとし、出力されるMDCT係数の本数を1024本としてロングブロックと一致させるようにしている。
【0005】
次に、量子化器3では、人間の聴覚特性に基づいて周波数帯域毎に1024本のMDCT係数を複数のスケールファクタバンドに分け、各スケールファクタバンド毎にMDCT係数を正規化して量子化を行う。
その際に、ショートブロックの場合には128本のMDCT係数を複数のスケールファクタバンドに分ける。
また、各スケールファクタバンドについて計算された量子化雑音が聴覚心理分析器1で算出された許容量子化雑音電力よりも大きくならないように、各スケールファクタバンドの量子化ステップ数を制御し、且つ量子化に必要なビット数がフレーム単位で所定ビット数以内に収まるように全体の量子化ステップ数を制御して量子化を実行する。
尚、スケールファクタバンドの量子化ステップ数とは、各周波数帯域内のサンプルデータを波形と倍率に分離し、波形の最大振幅が1.0となるように正規化して倍率を符号化したものに相当し、スケールファクタとも言われるものである。
【0006】
次に、量子化されたデータはグループ処理器4へ入力され、より高い符号化効率が得られるようにショートブロックについてグループ化が行われる。
図6はそのグルーピングの一例を示し、8個のショートブロックが4組のグループに分けられており、各グループにはそれぞれ3,1,2,2個のショートブロックが含まれている。
また、図7はグループ化を行う前のスケールファクタバンド(sfb)の順序を表している。
各ショートブロックに属する128本のMDCT係数は複数のスケールファクタバンドに区分され、ショートブロック毎にスケールファクタバンドのインデックス順に並べられている。
【0007】
一方、図8は、図6のグループ分けに対応してスケールファクタバンドの順序を並べ替えてグループ毎に共有化させたものである。
この図では、図6のグループ0に含まれている3個のショートブロック内の同じインデックスを持つスケールファクタバンドが同一であるために1つのグループ内にまとめられ、同一であったものが単一のスケールファクタバンドとして統合されている。
これは、その他のグループについても前記の条件下で同様に処理されている。このように、隣接したショートブロックの相応するスケールファクタバンドのスケールファクタが全て同一である場合に、スケールファクタの共有化のために、各ショートブロック内のスケールファクタバンドを並び替えて1つのスケールファクタバンドとして統合化することにより、スケールファクタ分の符号化ビットの削減が可能になる。
【0008】
次に、可変長符号化器5では、量子化器3とグループ処理器4で処理された後のMDCT係数の量子化値やスケールファクタ等の符号化パラメータに対して可変長符号化処理を施して冗長度を削減し、それをビット数判定器6へ出力する。ビット数判定器6では、符号化された1フレーム分のビット数が予め設定された所定範囲内に収まっているか否かを判定し、その条件を満たしていれば、符号化データをそのままビットストリーム生成器7へ出力するが、満たしていない場合には、その判定結果を処理制御部8へ出力する。
処理制御部8では、その判定結果に基づいて量子化器3とグループ処理器4と可変長符号化器5による前記の一連の処理を再度実行させ、ビット数判定器6において前記条件を満たしていると判定されるまでその処理を反復させる。
そして、ビット数判定器6において前記条件を満たした符号化データはビットストリーム生成器7へ出力され、ブロック情報等の符号化パラメータと共に多重化されたビットストリームとして伝送されることになる。
【0009】
ところで、上記のMPEG2 AACオーディオ符号化方式においては、量子化・符号化の処理段階で、符号化後の1フレーム分のビット数が所定範囲に収まっていない場合に反復処理を実行させるため、量子化を行う度にスケールファクタバンドの量子化ステップ数が変化することになる。
その場合、グループ処理器4において、隣接するショートブロックを周波数帯域が対応したスケールファクタバンドを共有化させる態様でグループ化するには、量子化後の量子化ステップ数の比較判定を反復処理の回数分実行する必要があり、結果的に符号化処理全体の所要時間が長くなってしまうという問題がある。
【0010】
この問題に対して、本願出願人は、下記の特許文献1において、次のような解決方式を提案している。
この提案では、図1に示すように、グループ処理器10を量子化器3の前に配置させ、量子化する前の段階で予めショートブロックのグループ化を行うようにしている。
先ず、量子化器3での量子化はスケールファクタバンド単位で実行されるため、スケールファクタバンドの量子化ステップ数は各スケールファクタバンド内のMDCT係数の最大絶対値に依存することになる。
そこで、MDCT器2が求めたMDCT係数を聴覚心理分析器1が求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、ショートブロックについてはその各スケールファクタバンド内のMDCT係数の最大絶対値を検出し、更にその量子化ステップ数(以下、「最大量子化ステップ数」という)を求める。
次に、隣接するショートブロック間で周波数帯域が対応しているスケールファクタバンドについて最大量子化ステップ数の絶対差分値を求め、更にその絶対差分値の総和を求める。
その場合、前記の総和値が小さいほど、隣接するショートブロックにおけるスケールファクタバンドの最大量子化ステップ数の差が小さいことになり、量子化においても隣接するショートブロックが同じ量子化ステップ数で量子化される確率が高くなる。
そこで、前記の絶対差分値の総和が所定閾値以下であればグループ化が可能と判定し、図8に示すようにスケールファクタを共有化させた態様でショートブロックのグループ化を行って符号化ビットの削減を可能にする。
この提案によれば、量子化・可変長符号化・ビット数判定の反復処理系の前段階でショートブロックのグループ処理を行っているため、符号化処理全体の所要時間が長くなるという問題が解消できることになる。
【0011】
【特許文献1】
特開2001−154698号公報
【0012】
【発明が解決しようとする課題】
ところで、前記の特許文献1の提案では、隣接するショートブロックのグループ化の判定要素として、各スケールファクタバンド内のMDCT係数の最大量子化ステップ数を用いているが、最大量子化ステップ数が同一であっても、それがスケールファクタバンド内のMDCT係数の形状についての同一性を的確に表しているとは限らない。
即ち、前記の最大量子化ステップ数がスケールファクタ内のMDCT係数全体を反映するとする前提には不十分さがあり、且つ判定基準である前記の絶対差分値の総和は隣接するショートブロック間での各スケールファクタバンドの近似性を示すだけであることから、実際にはグループ化の判定精度に問題が生じる。
【0013】
また、実際の符号化処理においては、聴覚心理分析器1が各ブロックの各スケールファクタバンドのバンドパワーに基づいて許容量子化雑音電力を求め、その許容量子化雑音電力に基づいて量子化器3が各スケールファクタバンドの量子化ステップ数を制御するため、ショートブロックのグループ化においてバンドパワーの要素が欠落しているとグループ処理と量子化処理の整合性がとれず、逆に前記の反復処理の回数を多くして符号化処理の所要時間が長くなる可能性がある。
【0014】
そこで、本発明は、オーディオ信号の符号化処理において、量子化・可変長符号化・ビット数判定の反復処理系の前段階でショートブロックのグループ化を実行する場合に、高い精度でグループ化の可否を判定できると共に、量子化処理と整合性をもった判定基準を採用することにより、前記の問題点を解消したオーディオ信号符号化装置及び符号化プログラムを提供することを目的として創作された。
【0015】
【課題を解決するための手段】
本発明のオーディオ信号符号化装置は、オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータと前記聴覚心理パラメータとに基づいて決定される変形離散コサイン変換(以下、「MDCT」という)のための変換ブロック長を求める聴覚心理分析手段と、前記フレームのオーディオ信号を前記聴覚心理分析手段が求めた変換ブロック長で周波数スペクトルに変換してMDCT係数を求めるMDCT手段と、前記MDCT手段が求めたMDCT係数を前記聴覚心理分析手段が求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、その内のショートブロックについてのみ、前記MDCT係数を前記周波数帯域毎の各スケールファクタバンドに分け、各スケールファクタバンド毎のバンドパワーを求めた後に前記各バンドパワーの量子化ステップ数を求め、隣接するショートブロック間における前記周波数帯域が対応する各スケールファクタバンドのバンドパワーの量子化ステップ数を比較し、その差を全てのスケールファクタバンドについて合計した総和値が一定の範囲である場合に、隣接するショートブロックを各スケールファクタバンドを共有させる態様でグループ化するグループ処理手段と、前記ロングブロックと前記グループ処理手段での処理を経たショートブロックとの各MDCT係数を前記スケールファクタバンド単位で量子化する手段であって、前記スケールファクタバンド毎の量子化雑音が前記聴覚心理分析手段から得られる前記聴覚心理パラメータの許容量子化雑音電力より小さくなるように、量子化ステップ数を制御して量子化を行う量子化手段と、前記量子化手段が求めた量子化値を可変長符号化する可変長符号化手段と、前記可変長符号化手段で得られた符号化データが前記フレーム単位で所定符号量以下であるか否かを判定する符号量判定手段と、前記符号量判定手段が前記符号量条件を満たさないと判定した場合に、前記量子化手段による量子化ステップ数を変更した量子化処理と前記可変長符号化手段による符号化処理とを繰り返し実行させる処理制御手段と、前記符号量判定手段が前記符号量条件を満たすと判定した符号化データと前記聴覚心理分析手段が求めた聴覚心理パラメータと変換ブロック長情報とを、前記フレーム単位でビットストリームに構成して出力するビットストリーム生成手段とを具備したことを特徴とするオーディオ信号符号化装置に係る。
【0016】
この発明では、グループ処理手段において、ロングブロックについてはそのまま量子化手段へ出力するが、ショートブロックについてはそのブロック内のスケールファクタバンドのバンドパワーに着目してグループ化を行っている。
そして、各バンドパワーを量子化ステップ数に換算した後、隣接するショートブロック間で周波数帯域が対応している各スケールファクタバンドのバンドパワーを量子化ステップ数に換算して比較し、その差のスケールファクタバンド全体での総和値の大きさをグループ化の可否判定基準としている。
ここに、バンドパワーとはスケールファクタバンド内の各MDCT係数を1本にまとめたものであり、スケールファクタバンド内のMDCT係数全体を反映している。
従って、ショートブロックのグループ処理の判定精度が向上すると共に、グループ処理手段と量子化手段との整合性がとれて量子化・可変長符号化・符号化量判定の反復処理回数を少なくでき、全体としての符号化所要時間も短くすることができる。
【0017】
また、前記のオーディオ信号符号化装置をコンピュータで構成する場合には、オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータと前記聴覚心理パラメータとに基づいて決定されるMDCTのための変換ブロック長を求める聴覚心理分析手順と、前記フレームのオーディオ信号を前記聴覚心理分析手順で求めた変換ブロック長で周波数スペクトルに変換してMDCT係数を求めるMDCT手順と、前記MDCT手順で求めたMDCT係数を前記聴覚心理分析手順で求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、その内のショートブロックについてのみ、前記MDCT係数を前記周波数帯域毎の各スケールファクタバンドに分け、各スケールファクタバンド毎のバンドパワーを求めた後に前記各バンドパワーの量子化ステップ数を求め、隣接するショートブロック間における前記周波数帯域が対応する各スケールファクタバンドのバンドパワーの量子化ステップ数を比較し、その差を全てのスケールファクタバンドについて合計した総和値が一定の範囲である場合に、隣接するショートブロックを各スケールファクタバンドを共有させる態様でグループ化するグループ処理手順と、前記ロングブロックと前記グループ処理手順での処理を経たショートブロックとの各MDCT係数を前記スケールファクタバンド単位で量子化する手順であって、前記スケールファクタバンド毎の量子化雑音が前記聴覚心理分析手順で得られた前記聴覚心理パラメータの許容量子化雑音電力より小さくなるように、量子化ステップ数を制御して量子化を行う量子化手順と、前記量子化手順で求めた量子化値を可変長符号化する可変長符号化手順と、前記可変長符号化手順で得られた符号化データが前記フレーム単位で所定符号量以下であるか否かを判定する符号量判定手順と、前記符号量判定手順で前記符号量条件を満たさないと判定された場合に、前記量子化手順での量子化ステップ数を変更した量子化処理と前記可変長符号化手順での符号化処理とを繰り返し実行させる処理制御手順と、前記符号量判定手順で前記符号量条件を満たすと判定された符号化データと前記聴覚心理分析手順で求めた聴覚心理パラメータと変換ブロック長情報とを、前記フレーム単位でビットストリームに構成して出力するビットストリーム生成手順とを実行させる符号化プログラムが適用できる。
【0018】
【発明の実施の形態】
以下、本発明の「オーディオ信号符号化装置及びその符号化プログラム」に係る実施形態を、図1から図4を用いて詳細に説明する。
[実施形態1]
先ず、図1はこの実施形態のオーディオ信号符号化装置の機能ブロック図を示す。
ここで、図1と従来技術に係る図5の装置を比較すれば明らかなように、聴覚心理分析器1,MDCT器2,量子化器3,可変長符号化器5,ビット数判定器6,ビットストリーム生成器7,処理制御部8を用いる点は共通しており、それらの機能も同様である。
また、前記のように、従来技術に係る特許文献1の装置は、機能ブロック回路としては図1と同様であり、同図で符号(10)として示されたグループ処理器がMDCT器2と量子化器3の間に設けられている。
従って、この実施形態のオーディオ信号符号化装置は、量子化器3と可変長符号化器5とビット数判定器6と処理制御部8からなる反復処理系の前にショートブロックのグループ処理がなされる点では特許文献1の装置と共通している。
しかし、この実施形態では、グループ処理器(符号11として示す)によるグループ化の可否に係る判定基準が異なっており、この実施形態の装置はその点に特徴がある。
【0019】
この実施形態の装置は次のように動作する。
先ず、オーディオ信号が所定サンプル数のフレーム単位で聴覚心理分析器1とMDCT器2へ取り込まれ、聴覚心理分析器1において、人間の聴覚特性に基づいて予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータとMDCTのための変換ブロック長情報が求められることは、従来技術の装置と同様である。
また、MDCT器2が、聴覚心理分析器1から得られる変換ブロック長情報に基づいて変換ブロック長を設定し、オーディオ信号をMDCTによって周波数スペクトルに変換してMDCT係数を求めることも同様である。
【0020】
次に、グループ処理器11では、聴覚心理分析器1が得ている変換ブロック長情報に基づいて各MDCT係数をショートブロックとロングブロックに区分し、ショートブロックについてのみ以下の処理を行う。
先ず、ショートブロックの各MDCT係数(128本)を前記の周波数帯域毎の各スケールファクタバンドに分割する。
そして、各ショートブロックにおけるスケールファクタバンド毎に、次の数式(1)によりバンドパワーBP(n,m)を求める。
【数001】
ここに、nはショートブロック番号(b=1〜7)、mはショートブロック内のスケールファクタバンドの番号、Xkはスケールファクタバンドに含まれる各MDCT係数、low(m)はスケールファクタバンドにおけるMDCT係数の開始インデックス、high(m)はスケールファクタバンドにおけるMDCT係数の終了インデックスである。
【0021】
次に、グループ処理器11では、前記の数式(1)で求めた各バンドパワーPB(n,m)を用いて、次の数式(2)により各バンドパワーPBに対する量子化ステップ数SF(n,m)を求める。
これは、スケールファクタバンド内に1本に統合された仮想的なMDCTスペクトルが存在しているものとして算出するものである。
【数002】
但し、VALは定数値である。
【0022】
そして、グループ処理器11は、隣接するショートブロック内の対応したスケールファクタバンド毎に、次の数式(3)により量子化ステップ数の絶対差分値の総和δ(n,n+1)を求める。
【数003】
尚、この数式(3)ではショートブロック番号がnとn+1である隣接したショートブロックについて量子化ステップ数の絶対差分値を求めており、各ショートブロック内のスケールファクタバンドの総数はMである。
【0023】
前記の総和δ(n,n+1)は、スケールファクタバンド毎のバンドパワーBP(n,m)を用いて求められたものであり、その値が小さいほど隣接するショートブロック間でスケールファクタバンドに含まれる周波数スペクトル全体の近似度が高くなり、量子化後の値もそれだけ近似した値になる。
即ち、スケールファクタバンドのバンドパワーは、上記の特許文献1におけるMDCT係数の最大絶対値よりも、スケールファクタバンドに含まれる周波数スペクトル全体(MDCT係数全体の形状)をより正確に反映している。
そこで、グループ処理器11では、閾値として定数THR_deltaを用い、δ(n,n+1)がTHR_deltaに対してδ(n,n+1)≦THR_deltaの条件を満たしていれば、n番目とn+1番目の各ショートブロックをグループ化が可能なものと判定する。
この場合、前記のように、スケールファクタバンドのバンドパワーBP(n,m)をグループ化判定の基本要素としているため、より正確な判定結果が得られている。
尚、THR_deltaは固定値でもよいが、入力信号の特性に応じて可変設定されるようにしてもよい。
【0024】
このようにして、グループ化が可能と判定された各ショートブロックは、各スケールファクタバンドをインターリーブ方式で並び替えて共有させた態様でグループ化される。
そして、グループ処理器11は、グループ化した後のショートブロックをロングブロックと共に量子化器103へ出力する。
【0025】
次に、量子化器3では、ショートブロックとロングブロックの各MDCT係数をスケールファクタバンド単位で量子化する。
ロングブロックの場合は、グループ処理器11から得られた1024本のMDCT係数を複数のスケールファクタバンドに分け、各スケールファクタバンド毎にMDCT係数を正規化して量子化する。
一方、ショートブロックの場合は、128本のMDCT係数を複数のスケールファクタバンドに分割した後、各スケールファクタバンド毎にMDCT係数を正規化して量子化する。
また、前記の量子化に際しては、各スケールファクタバンドについて求められる量子化雑音が聴覚心理分析器1から得られている許容量子化雑音電力よりも大きくならないように、各スケールファクタバンドの量子化ステップ数を制御すると共に、量子化に必要なビット数が所定ビット数以下に収まるように全体の量子化ステップ数も制御する。
ところで、聴覚心理分析器1は各ブロックの各スケールファクタバンドのバンドパワーに基づいて許容量子化雑音電力を求めているが、前記のように、グループ処理部11でもショートブロックのグループ化の可否判定に際して各スケールファクタバンドのバンドパワーを判定要素としている。
従って、グループ処理と量子化処理の整合性が確保でき、量子化部3での量子化ステップ数の制御を小さい誤差範囲で行えるため、高い精度で量子化ステップ数を設定できる。
【0026】
次に、可変長符号化器5では、量子化器3が出力する各MDCT係数の量子化値とスケールファクタ等の符号化パラメータに対して可変長符号化処理を行って冗長度を削減し、その符号化データをビット数判定器6へ出力する。
そして、ビット数判定器6では、符号化後のデータの符号量がフレーム単位で所定範囲に収まっている否かを判定する。
【0027】
ビット数判定器6では、前記の符号量条件が満たされていれば、符号化データをそのままビットストリーム生成器7へ出力するが、その条件を満たしていない場合には、その判定結果を処理制御部8へ出力する。
そして、処理制御部8は、前記の符号量条件を満たしていない場合の判定結果に基づいて、量子化器3と可変長符号化器5とビット数判定器6による前記の一連の処理を再度実行させ、ビット数判定器6で前記の符号量条件を満たしていると判定されるまでその処理を反復して実行させる。
ビット数判定器6から出力された符号化データは、ビットストリーム生成器7においてブロック情報等の符号化パラメータと共に多重化され、1フレーム分のオーディオ信号に係るビットストリームとして伝送されることになる。
尚、上記の処理は1フレーム分のオーディオ信号が取り込まれる度に実行されて、ビットストリームが順次出力されてゆくことになる。
【0028】
以上のように、この実施形態の装置では、上記の特許文献1の装置と同様に、グループ処理器11を量子化器3の前段に配置させており、量子化・可変長符号化・ビット数判定の反復処理系にグループ処理が含まれないために全体としての符号化処理時間を短縮できるが、更に、スケールファクタバンドのバンドパワーをショートブロックのグループ化判定要素としたことにより、グループ化の判定精度を向上させると共に、量子化段階での量子化ステップ数も高精度に設定できることから、前記の反復処理回数を少なくしてより効率的な符号化処理が実現できる。
【0029】
[実施形態2]
前記の実施形態1ではオーディオ信号符号化装置をハードウェアで構成することを前提として説明したが、その符号化処理全体はプログラムによるソフトウェア処理によっても実行させることができる。
図2はオーディオ信号符号化装置をマイクロコンピュータ回路20で構成した場合のシステム回路図であり、CPU21とROM22とRAM23とI/Oポート24からなる。
オーディオ信号はI/Oポート24から取り込まれ、符号化後のビットストリームもI/Oポート24から出力される。
【0030】
そして、ROM23には、実施形態1における各ユニット(聴覚心理分析器1、MDCT器2、グループ処理器11、量子化器3、可変長符号化器5、ビット数判定器6、及びビットストリーム生成器7)によるデータ処理と同様の機能を実行する各プログラムモジュールとシステム制御プログラムが格納されており、CPU21がシステム制御プログラムに基づいて各プログラムモジュールをシーケンシャルに実行させることにより、符号化されたビットストリームを作成する。
【0031】
この装置による全体的なデータ処理手順は図4のフローチャートに示され、またグループ処理モジュールによるショートブロックのグルーピング処理手順に係るフローチャートは図3に示される。
各図から明らかなように、基本的な処理内容は実施形態1と同様であるため、以下の個々のデータ処理手順に係る説明は概略的な範囲に留める。
【0032】
先ず、入力されるオーディオ信号はI/Oポート24から所定データ量毎に取り込まれ、RAM23にセーブされる(S1)。
そして、聴覚心理分析モジュールが起動してRAM23にセーブしたオーディオ信号を分析し、その分析により得られた聴覚心理パラメータと変換ブロック長情報をRAM23にセーブする(S2)。
また、MDCT変換モジュールが起動され、オーディオ信号を前記のブロック情報に基づいた変換ブロック長で周波数スペクトルに変換してMDCT係数を求め、それをRAM23にセーブする(S3)。
【0033】
次に、グループ処理モジュールが起動され、図3に示す手順に基づいて、予めショートブロックについてのグループ処理が実行される(S4)。
このグループ処理では、先ず、ステップS3で求めたMDCT係数をステップS2で求められた変換ブロック長に基づいてショートブロックとロングブロックに区分し、各ショートブロック内のスケールファクタバンドのバンドパワーを求めた後、更にそのバンドパワーの量子化ステップ数を求める(S41〜S43)。
尚、それらの演算には実施形態1で用いた数式(1)及び(2)が適用される。
【0034】
バンドパワーの量子化ステップ数が求まると、隣接するショートブロック間で周波数帯域が対応する各スケールファクタバンドのバンドパワーの差を前記の量子化ステップ数の絶対値差分として求め、実施形態1で用いた数式(3)を適用して、それら絶対値差分の総和:δ(n,n+1)を求める(S44)。
そして、予め設定されている定数:THR_deltaと前記の総和:δ(n,n+1)を比較し、δ(n,n+1)≦THR_deltaの場合には、隣接しているn番目とn+1番目の各ショートブロックをグループ化し、δ(n,n+1)>THR_deltaの場合にはグループ化せずにそのままとする(S45,S46)。
尚、ここでのグループ処理はショートブロックだけを対象とし、ロングブロックはそのままとされる。
【0035】
前記のグループ処理が完了すると、図4に戻って、量子化モジュールが起動されてロングブロックとショートブロックの各MDCT係数を各スケールファクタバンド毎に正規化して量子化し、量子化後のデータをRAM23にセーブする(S5)。
次に、可変長符号化モジュールが起動され、前記のMDCT係数の量子化値とスケールファクタ等のパラメータ値を可変長符号化する(S6)。
そして、ビット数判定モジュールを起動して、1フレーム分の符号化後の符号量が所定ビット数以下であるか否かを判定し、その符号量条件を満たさなかった場合には、量子化ステップ数を変更させて前記の量子化処理及び可変長符号化処理を再度実行させる(S7→S5,S7)。
また、その反復処理は符号化後の1フレーム分のビット数が前記の符号量条件を満たすまで繰り返して実行される。
【0036】
このようにして、1フレーム分の符号化データが前記の符号量条件を満たすと、ビットストリーム生成モジュールが起動され、符号化データとブロック情報等の符号化パラメータを多重化してビットストリームにまとめられ、そのビットストリームがI/Oポート24から出力される(S8,S9)。
また、その段階でRAM23のセーブデータはクリアされ、次の1フレーム分のオーディオ信号がRAM23に取り込まれ、以降、入力オーディオ信号があれば、ステップS1からステップS8のデータ処理を繰り返して実行する(S9→S1)。
【0037】
尚、この実施形態に係る符号化プログラム(システム制御プログラム及び各処理に係るプログラムモジュール)は、記録媒体に格納した提供方式だけでなく、インターネット等の通信回線を介して提供してもよく、それぞれ適当なシステムを用いてマイクロコンピュータ回路に実装させることができる。
【0038】
【発明の効果】
本発明のオーディオ信号符号化装置及びその符号化プログラムは、以上の構成を有していることにより、次のような効果を奏する。
オーディオ信号をショートブロックとロングブロックに分け、ショートブロックをグループ化して符号量を削減する符号化装置及びその符号化プログラムにおいて、符号化処理時間を短縮するためにショートブロックのグループ処理を反復処理系(量子化・可変長符号化・符号量判定)の前段階で実行させる場合に、そのグループ化の可否の判定精度を向上させると共に、グループ処理と量子化処理に整合性を持たせて更に符号化処理時間の短縮を実現する。
【図面の簡単な説明】
【図1】本発明の実施形態1に係るオーディオ信号符号化装置の機能ブロック回路図である。
【図2】本発明の符号化プログラムを適用した実施形態2のオーディオ信号符号化装置のシステム回路図である。
【図3】実施形態2におけるグループ処理手順を示すフローチャートである。
【図4】実施形態2におけるデータ処理手順全体を示すフローチャートである。
【図5】従来技術に係るオーディオ信号符号化装置の機能ブロック回路図である。
【図6】ショートブロックのグルーピングの一例を示す図である。
【図7】グルーピング前におけるスケールファクタバンドの順序の一例を示す図である。
【図8】グルーピング後におけるスケールファクタバンドの順序の一例を示す図である。
【符号の説明】
1…聴覚心理分析器、2…MDCT器、3…量子化器、4,10,11…グループ処理器、5…可変長符号化器、6…ビット数判定器、7…ビットストリーム生成器、8…処理制御器、20…マイクロコンピュータ回路、21…CPU、22…ROM、23…RAM、24…I/Oポート。
Claims (2)
- 入力されるオーディオ信号を符号化するオーディオ信号符号化装置において、
オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータと前記聴覚心理パラメータとに基づいて決定される変形離散コサイン変換(以下、「MDCT」という)のための変換ブロック長を求める聴覚心理分析手段と、
前記フレームのオーディオ信号を前記聴覚心理分析手段が求めた変換ブロック長で周波数スペクトルに変換してMDCT係数を求めるMDCT手段と、
前記MDCT手段が求めたMDCT係数を前記聴覚心理分析手段が求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、その内のショートブロックについてのみ、前記MDCT係数を前記周波数帯域毎の各スケールファクタバンドに分け、各スケールファクタバンド毎のバンドパワーを求めた後に前記各バンドパワーの量子化ステップ数を求め、隣接するショートブロック間における前記周波数帯域が対応する各スケールファクタバンドのバンドパワーの量子化ステップ数を比較し、その差を全てのスケールファクタバンドについて合計した総和値が一定の範囲である場合に、隣接するショートブロックを各スケールファクタバンドを共有させる態様でグループ化するグループ処理手段と、
前記ロングブロックと前記グループ処理手段での処理を経たショートブロックとの各MDCT係数を前記スケールファクタバンド単位で量子化する手段であって、前記スケールファクタバンド毎の量子化雑音が前記聴覚心理分析手段から得られる前記聴覚心理パラメータの許容量子化雑音電力より小さくなるように、量子化ステップ数を制御して量子化を行う量子化手段と、
前記量子化手段が求めた量子化値を可変長符号化する可変長符号化手段と、
前記可変長符号化手段で得られた符号化データが前記フレーム単位で所定符号量以下であるか否かを判定する符号量判定手段と、
前記符号量判定手段が前記符号量条件を満たさないと判定した場合に、前記量子化手段による量子化ステップ数を変更した量子化処理と前記可変長符号化手段による符号化処理とを繰り返し実行させる処理制御手段と、
前記符号量判定手段が前記符号量条件を満たすと判定した符号化データと前記聴覚心理分析手段が求めた聴覚心理パラメータと変換ブロック長情報とを、前記フレーム単位でビットストリームに構成して出力するビットストリーム生成手段と
を具備したことを特徴とするオーディオ信号符号化装置。 - オーディオ信号を符号化する符号化プログラムであって、
オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータと前記聴覚心理パラメータとに基づいて決定されるMDCTのための変換ブロック長を求める聴覚心理分析手順と、
前記フレームのオーディオ信号を前記聴覚心理分析手順で求めた変換ブロック長で周波数スペクトルに変換してMDCT係数を求めるMDCT手順と、
前記MDCT手順で求めたMDCT係数を前記聴覚心理分析手順で求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、その内のショートブロックについてのみ、前記MDCT係数を前記周波数帯域毎の各スケールファクタバンドに分け、各スケールファクタバンド毎のバンドパワーを求めた後に前記各バンドパワーの量子化ステップ数を求め、隣接するショートブロック間における前記周波数帯域が対応する各スケールファクタバンドのバンドパワーの量子化ステップ数を比較し、その差を全てのスケールファクタバンドについて合計した総和値が一定の範囲である場合に、隣接するショートブロックを各スケールファクタバンドを共有させる態様でグループ化するグループ処理手順と、
前記ロングブロックと前記グループ処理手順での処理を経たショートブロックとの各MDCT係数を前記スケールファクタバンド単位で量子化する手順であって、前記スケールファクタバンド毎の量子化雑音が前記聴覚心理分析手順で得られた前記聴覚心理パラメータの許容量子化雑音電力より小さくなるように、量子化ステップ数を制御して量子化を行う量子化手順と、
前記量子化手順で求めた量子化値を可変長符号化する可変長符号化手順と、
前記可変長符号化手順で得られた符号化データが前記フレーム単位で所定符号量以下であるか否かを判定する符号量判定手順と、
前記符号量判定手順で前記符号量条件を満たさないと判定された場合に、前記量子化手順での量子化ステップ数を変更した量子化処理と前記可変長符号化手順での符号化処理とを繰り返し実行させる処理制御手順と、
前記符号量判定手順で前記符号量条件を満たすと判定された符号化データと前記聴覚心理分析手順で求めた聴覚心理パラメータと変換ブロック長情報とを、前記フレーム単位でビットストリームに構成して出力するビットストリーム生成手順と
をコンピュータに実行させる符号化プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003093029A JP4009948B2 (ja) | 2003-03-31 | 2003-03-31 | オーディオ信号符号化装置及びその符号化プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003093029A JP4009948B2 (ja) | 2003-03-31 | 2003-03-31 | オーディオ信号符号化装置及びその符号化プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004301972A JP2004301972A (ja) | 2004-10-28 |
JP4009948B2 true JP4009948B2 (ja) | 2007-11-21 |
Family
ID=33405916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003093029A Expired - Fee Related JP4009948B2 (ja) | 2003-03-31 | 2003-03-31 | オーディオ信号符号化装置及びその符号化プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4009948B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7283968B2 (en) * | 2003-09-29 | 2007-10-16 | Sony Corporation | Method for grouping short windows in audio encoding |
-
2003
- 2003-03-31 JP JP2003093029A patent/JP4009948B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004301972A (ja) | 2004-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2387024C2 (ru) | Кодер, декодер, способ кодирования и способ декодирования | |
EP2267698B1 (en) | Entropy coding by adapting coding between level and run-length/level modes. | |
JP4982374B2 (ja) | 音声符号化装置およびスペクトル変形方法 | |
KR930700945A (ko) | 고능률 디지탈 데이타 부호화 및 복호화 장치 | |
JP3636094B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
RU2337413C2 (ru) | Способ и устройство для квантования информационного сигнала | |
JP2007512546A (ja) | オーディオ符号化におけるmdctデータに基づくウィンドウタイプ決定方法 | |
KR100848370B1 (ko) | 오디오 부호화 | |
KR20070046752A (ko) | 신호 처리 방법 및 장치 | |
CN101685436B (zh) | 音频信号处理装置与方法 | |
JP4750707B2 (ja) | オーディオ符号化におけるショートウィンドウグループ化方法 | |
JP4009948B2 (ja) | オーディオ信号符号化装置及びその符号化プログラム | |
US8601039B2 (en) | Computation apparatus and method, quantization apparatus and method, and program | |
JP2001154698A (ja) | オーディオ符号化装置及びその方法 | |
WO2005033860A2 (en) | A fast codebook selection method in audio encoding | |
KR100513815B1 (ko) | 신호부호화방법및장치 | |
WO2006008817A1 (ja) | オーディオ符号化装置及びオーディオ符号化方法 | |
JP2004325633A (ja) | 信号符号化方法、信号符号化プログラム及びその記録媒体 | |
KR100721263B1 (ko) | Imdct 코프로세서 및 이를 포함한 오디오 복호기 | |
JP2003233397A (ja) | オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置 | |
JP2002091498A (ja) | オーディオ信号符号化装置 | |
JP4635400B2 (ja) | オーディオ信号符号化方法 | |
JP4273062B2 (ja) | 符号化方法、符号化装置、復号化方法及び復号化装置 | |
JP2002182695A (ja) | 高能率符号化方法及び装置 | |
JP4618823B2 (ja) | 信号符号化装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050330 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070810 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070823 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100914 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100914 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110914 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120914 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120914 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120914 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120914 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130914 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |