JP4062971B2 - オーディオ信号符号化方法 - Google Patents

オーディオ信号符号化方法 Download PDF

Info

Publication number
JP4062971B2
JP4062971B2 JP2002151923A JP2002151923A JP4062971B2 JP 4062971 B2 JP4062971 B2 JP 4062971B2 JP 2002151923 A JP2002151923 A JP 2002151923A JP 2002151923 A JP2002151923 A JP 2002151923A JP 4062971 B2 JP4062971 B2 JP 4062971B2
Authority
JP
Japan
Prior art keywords
group
index
encoding method
spectrum
maximum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002151923A
Other languages
English (en)
Other versions
JP2003345398A (ja
Inventor
清隆 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2002151923A priority Critical patent/JP4062971B2/ja
Publication of JP2003345398A publication Critical patent/JP2003345398A/ja
Application granted granted Critical
Publication of JP4062971B2 publication Critical patent/JP4062971B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、オーディオ信号を時間ブロック単位でスペクトルデータに変換し、複数の時間ブロックのスペクトルデータをグループ化して高能率符号化するオーディオ信号符号化方法に関する。
【0002】
【従来の技術】
近年、オーディオ信号を時間ブロック単位でスペクトルデータに変換し、複数の時間ブロックのスペクトルデータをグループ化して高能率符号化することにより、符号化効率を改善する手法が提案されている。
【0003】
このような提案としては、MPEG−2 AAC(Advanced Audio Coding)の規格書(ISO/IEC 13818-7, Information technology - Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding (AAC))や日本国特許番号第2739377号に記載されたものが知られている。
【0004】
しかしながら、これらの先行文献には、具体的なグループ化の決定方法については、記載されておらず、このため、例えば、あらかじめ設定した固定のグループ化方法で対応せざるを得なかった。
【0005】
以下では、MPEG−2 AAC(以下AACと略す)のローコンプレキシティプロファイル(Low Complexity Profile)を例にとって、複数の時間ブロックのスペクトルデータをグループ化して高能率符号化する従来例について説明する。
【0006】
図7にAACエンコーダのブロック図を示す。図7において、700と701はフィルタバンク、710と711はブロック長決定部、720はジョイントステレオデータ生成部、730は短時間ブロックグループ化決定部、740は量子化及び符号化部である。以上のように構成されたAACエンコーダについて、その動作を以下に述べる。
【0007】
入力された左チャンネル(Lch)の時間軸のオーディオ信号は、フィルタバンク700においてブロック長決定部710で決定された長さのブロックに分割され、MDCT(Modified Discrete Cosine Transform,変形離散コサイン変換)によりスペクトルデータ(MDCT係数)に変換される。この変換は変換ブロックを50%ずつオーバーラップして実行し、例えば2048サンプルを1024本のMDCT係数に変換する。同様に、入力された右チャンネル(Rch)の時間軸のオーディオ信号は、フィルタバンク701においてブロック長決定部711で決定された長さのブロックに分割され、MDCTによりスペクトルデータに変換される。
【0008】
ブロック長決定部710と711では、MDCTのブロック長を決定し、出力する。ブロック長決定部710と711で、それぞれのチャンネルの信号の変化に応じてMDCTのブロック長を変化させることにより、プリエコーと呼ばれる疑似信号の発生による音質の劣化を防止する。すなわち、定常的な信号の場合には、MDCTのブロック長を2048サンプルの長時間ブロックとし、1024本のスペクトルデータに変換する。一方、過渡的な信号の場合には256サンプルの短時間ブロックとし、128本のスペクトルデータに変換する。短時間ブロックでは、8個連続で短いブロック長を用いて変換することにより、出力のスペクトルデータの本数を8×128=1024本として、長時間ブロックと一致させる。この1024本のスペクトルデータから成る符号化の単位をフレームと呼ぶ。
【0009】
図8に短時間ブロックと長時間ブロックの例を示す。同図で、第0フレーム(F0)、第2フレーム(F2)、第3フレーム(F3)は、長時間ブロックのフレームであり、これに対して第1フレーム(F1)は連続した8個の短時間ブロックから成る短時間ブロックのフレームである。
【0010】
次にジョイントステレオデータ生成部720では、左右のチャンネルの相関を利用して符号化効率を向上させるため、左右のチャンネルのスペクトルデータを入力として、ジョイントステレオ(ミッド/サイドステレオあるいはインテンシティステレオ)符号化に必要なジョイントステレオスペクトルデータを生成する。ここで、ジョイントステレオスペクトルデータとは、ミッド/サイド(和差)ステレオ符号化に必要な左チャンネルと右チャンネルのスペクトルデータの和と差、あるいはインテンシティステレオ符号化に必要な左チャンネルと右チャンネルのスペクトルデータの和(左右のチャンネルの位相が逆相の場合には差)である。なお、インテンシティステレオ符号化の場合、もう一方のチャンネルのスペクトルデータはゼロに設定される。
【0011】
次に短時間ブロックグループ化決定部730では、短時間ブロックの符号化効率を向上するため、短時間ブロックのグループ化を行う。短時間ブロックのグループ化では、複数の連続する短時間ブロックをブロック単位でまとめ、スケールファクタバンドと呼ばれる複数のスペクトルデータから構成されるバンド単位で共通のステップサイズを用いて量子化することにより、量子化ステップサイズを表すスケールファクタ等のサイド情報を削減し、符号化効率を改善する。AACの規格では、1フレーム当り、最小1個から最大8個のグループにグループ化することが可能である。ここでは、図9に示すように、8個の短時間ブロックを2個ずつ1グループとして、合計4個のグループ(G0,G1,G2,G3)にグループ化する。なお、ジョイントステレオスペクトルデータの場合には、2つのチャンネルのスペクトルデータが対になっているので、グループ化に際しても、図10に示すように、2つのチャンネルのグループ化を共通に設定する必要がある。
【0012】
量子化及び符号化部740では、左右のチャンネルのスペクトルデータ、あるいはジョイントステレオデータ生成部720からのジョイントスペクトルデータをスケールファクタバンド毎にまとめ、聴覚モデルに基づいてスペクトルデータのマスキングレベル、すなわち許容量子化ノイズレベルを算出し、算出された許容量子化ノイズレベルに基づいてスケールファクタバンド毎にスペクトルデータの量子化を行い、ハフマン符号化等の符号化処理を行い、高能率符号化データを出力する。
【0013】
【発明が解決しようとする課題】
しかしながら、上記従来の複数の時間ブロックのスペクトルデータのグループ化では、スペクトルデータに依存しない固定的なグループ化であるため、符号化効率が劣化し、音質が劣化することがあるという課題があった。すなわち、スペクトルデータの時間変化が緩やかなところでは、本来は、より多くの時間ブロックを1グループとしてスケールファクタ等のサイド情報を削減し、符号化効率を改善すべきであるのにこれができず、また、スペクトルデータの時間変化が急激なところが、同一のグループにされると、同一の量子化ステップサイズを用いるため、小さなレベルの時間ブロックのスペクトルデータを十分表現することができず、このため音質が劣化するという課題があった。
【0014】
本発明は上記問題点を解決するもので、時間ブロック間のスペクトルデータの変動に基づく最適なグループ化により、スペクトルデータとスケールファクタ等のサイド情報に割り当てるビット数を最適化し、音質の向上したオーディオ信号高能率符号化方法を提供することを目的とする。
【0015】
また、2つのチャンネルのグループ化を共通に設定する必要のあるジョイントステレオスペクトルデータに対しても最適なグループ化を行い、スペクトルデータとスケールファクタ等のサイド情報に割り当てるビット数を最適化し、音質の向上したオーディオ信号高能率符号化方法を提供することを目的とする。
【0016】
また、小さなレベルのスペクトルデータが複数の時間ブロックにわたって量子化されないことによる音質劣化を抑えたグループ化を行うオーディオ信号の高能率符号化方法を提供することを目的とする。
【0017】
また、時間変化の極めて激しいフレームに対して、音質を大幅に劣化させることがないグループ化を行うオーディオ信号の高能率符号化方法を提供することを目的とする。
【0018】
また、広い範囲のビットレートに対して適切なグループ化を行い、従来よりも音質の向上したオーディオ信号符号化方法を提供することを目的とする。
【0019】
【課題を解決するための手段】
この課題を解決するために、本発明のオーディオ信号符号化方法は、オーディオ信号を時間ブロック単位でスペクトルデータに変換し、複数の時間ブロックのスペクトルデータをグループ化して高能率符号化する方法であって、グループに属する時間ブロック間のスペクトルデータの変動の最大あるいは平均を表すグループスペクトル変動指標をグループ毎に算出するステップと、前記グループスペクトル変動指標の最大値を算出するステップと、前記最大値が第1の閾値より大きい場合に前記グループスペクトル変動指標を最大とするグループを分割するステップとを備えたものである。
【0020】
また、本発明のオーディオ信号符号化方法は、オーディオ信号を時間ブロック単位でスペクトルデータに変換し、複数の時間ブロックのスペクトルデータをグループ化して高能率符号化する方法であって、グループに属する時間ブロック間のスペクトルデータの変動の最大あるいは平均を表すグループスペクトル変動指標をグループ毎に算出するステップと、前記グループスペクトル変動指標の最大値を算出するステップと、前記最大値が第1の閾値より大きいかあるいはグループ数が第2の閾値より小さい場合に、前記グループスペクトル変動指標を最大とするグループを分割するステップとを備えたものである。
【0021】
また、本発明のオーディオ信号符号化方法は、上記本発明のオーディオ信号符号化方法において、グループを分割するステップが、グループを分割した時の分割されたグループのグループスペクトル変動指標の最大あるいは平均を表す分割グループスペクトル変動指標を算出するステップと、すべての分割の中で前記分割グループスペクトル変動指標を最小とする分割を実行するステップとを備えたものである。
【0022】
また、本発明のオーディオ信号符号化方法は、オーディオ信号を時間ブロック単位でスペクトルデータに変換し、複数の時間ブロックのスペクトルデータをグループ化して高能率符号化する方法であって、複数のチャンネルのグループ化を共通に設定する場合に、グループに属する時間ブロック間のスペクトルデータの変動の最大あるいは平均を表すグループスペクトル変動指標を複数のチャンネルについてそれぞれグループ毎に算出するステップと、前記複数のチャンネルのグループスペクトル変動指標の最大あるいは平均を複数チャンネルグループスペクトル変動指標として算出するステップと、前記複数チャンネルグループスペクトル変動指標の最大値を算出するステップと、前記最大値が第1の閾値より大きい場合に前記複数チャンネルグループスペクトル変動指標を最大とするグループを分割するステップとを備えたものである。
【0023】
また、本発明のオーディオ信号符号化方法は、オーディオ信号を時間ブロック単位でスペクトルデータに変換し、複数の時間ブロックのスペクトルデータをグループ化して高能率符号化する方法であって、複数のチャンネルのグループ化を共通に設定する場合に、グループに属する時間ブロック間のスペクトルデータの変動の最大あるいは平均を表すグループスペクトル変動指標を複数のチャンネルについてそれぞれグループ毎に算出するステップと、前記複数のチャンネルのグループスペクトル変動指標の最大あるいは平均を複数チャンネルグループスペクトル変動指標として算出するステップと、前記複数チャンネルグループスペクトル変動指標の最大値を算出するステップと、前記最大値が第1の閾値より大きいかあるいはグループ数が第2の閾値より小さい場合に、前記複数チャンネルグループスペクトル変動指標を最大とするグループを分割するステップとを備えたものである。
【0024】
また、本発明のオーディオ信号符号化方法は、上記本発明のオーディオ信号符号化方法において、グループを分割するステップが、グループを分割した時の分割されたグループのグループスペクトル変動指標の最大あるいは平均を表す分割グループスペクトル変動指標を複数のチャンネルについてそれぞれ算出するステップと、前記複数のチャンネルの分割グループスペクトル変動指標の最大あるいは平均を複数チャンネル分割グループスペクトル変動指標として算出するステップと、すべての分割の中で前記複数チャンネル分割グループスペクトル変動指標を最小とする分割を実行するステップとを備えたものである。
【0025】
また、本発明のオーディオ信号符号化方法は、上記本発明のオーディオ信号符号化方法において、グループ数が第3の閾値以上となった場合にグループの分割を終了するステップを備えたものである。
【0026】
また、本発明のオーディオ信号符号化方法は、上記本発明のオーディオ信号符号化方法において、符号化のビットレートに応じて前記第1から第3の閾値のいずれかを設定するステップを備えたものである。
【0027】
また、上記記載の本発明に係るオーディオ信号符号化方法をコンピュータまたはデジタルシグナルプロセッサに実行させるためのプログラムとしたものである。
【0028】
また、上記記載の本発明に係るオーディオ信号符号化方法をコンピュータまたはデジタルシグナルプロセッサに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体としたものである。
【0029】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を用いて説明する。
【0030】
以下の実施の形態の説明では、本発明の特徴である複数の時間ブロックのスペクトルデータのグループ化の方法について、AACエンコーダに適用した場合を例として説明する。即ち、オーディオ信号符号化装置(AACエンコーダ)の構成としては、図7に示した通りである。
【0031】
(実施の形態1)
図1は、本発明の実施の形態1のオーディオ信号符号化方法における複数の時間ブロックのスペクトルデータのグループ化の方法のステップを示すフローチャートである。
【0032】
以下、図1を用いて実施の形態1における特徴部分としてのグループ化の方法について説明する。
【0033】
最初にステップ101で、1グループ8ブロックに設定し、1フレームのグループ数を最小の1に設定する。本実施の形態では、当初の1グループから適宜グループを分割することにより、グループ化を決定する。
【0034】
ステップ102で、第1の閾値の設定を行う。第1の閾値は、グループを分割するときの分割するグループに属する時間ブロックのスペクトルデータの変動を表すグループスペクトル変動指標に対する閾値である。
【0035】
ステップ103で、グループ毎にグループに属するすべての時間ブロック間のスペクトルデータの変動の最大を表すところのグループスペクトル変動指標を以下のようにして算出する。
【0036】
最初に、時間ブロック番号i(0≦i<8)でスケールファクタバンド番号k(0≦k<max_sfb、ただし、max_sfbは最大スケールファクタバンド数)のバンドのスペクトルデータの絶対値の最大であるmaxspec(i)(k)を算出する。次にグループに属する2つの時間ブロック、iとjのブロック間のスペクトル変動を表すブロック間スペクトル変動指標dev(i,j)を(数1)で算出する。
【0037】
【数1】
Figure 0004062971
【0038】
ここで、abs(x)はxの絶対値を表し、また、log10(x)は10を底とするxの対数を表す。
【0039】
なお、以上の説明では、ブロック間スペクトル変動指標の算出に時間ブロック番号とスケールファクタバンド番号で指定されるバンドのスペクトルデータの絶対値の最大を用いる例を示したが、前記スペクトルデータの絶対値の平均や、スペクトルデータの2乗和の平均の平方根を用いてもよい。また、2つのブロックの前記スペクトルデータの絶対値の最大の比の対数のスケールファクタバンドに関する総和の絶対値を用いる例を示したが、前記2つのブロックの前記スペクトルデータの絶対値の最大の差の2乗のスケールファクタバンドに関する総和を用いてもよい。
【0040】
次に、グループに属するすべての時間ブロック間のブロック間スペクトル変動指標dev(i,j)の最大を算出し、グループスペクトル変動指標とする。
【0041】
なお、以上の説明では、グループに属するすべてのブロック間スペクトル変動指標の最大を用いたが、平均を用いてもよい。
【0042】
次にステップ104で、すべてのグループの中でのグループスペクトル変動指標の最大値を算出する。
【0043】
次にステップ105で、ステップ104で算出したグループスペクトル変動指標の最大値と第1の閾値とを比較し、上記グループスペクトル変動指標の最大値が第1の閾値より大きい場合にはステップ106に行き、グループ分割を行う。また、上記グループスペクトル変動指標の最大値が第1の閾値以下の場合にはグループ化を終了する。したがって、グループ内の時間ブロックのスペクトル変動が大きい場合においてのみグループ分割はなされ、前記時間ブロックのスペクトル変動が小さい場合にはグループ分割はなされない。
【0044】
ステップ106では、ステップ104で算出したグループスペクトル変動指標を最大とするグループを分割する。
【0045】
図2は、ステップ106の詳細を示すフローチャートである。
【0046】
ステップ201で、グループを分割した時の分割されたグループのグループスペクトル変動指標の最大を分割グループスペクトル変動指標として算出する。例えば、最初は、1グループ8ブロックに設定されているので、次の7通りの分割により、2グループに分割することが可能である。
(1)[0]と[1,2,3,4,5,6,7]
(2)[0,1]と[2,3,4,5,6,7]
(3)[0,1,2]と[3,4,5,6,7]
(4)[0,1,2,3]と[4,5,6,7]
(5)[0,1,2,3,4]と[5,6,7]
(6)[0,1,2,3,4,5]と[6,7]
(7)[0,1,2,3,4,5,6]と[7]
ここで、[]内は同一のグループに属する短時間ブロックの番号を表す。
【0047】
このように分割された2つのグループのそれぞれに対してグループスペクトル変動指標を算出し、その最大を分割グループスペクトル変動指標として算出する。したがって、最初は、7つの分割グループスペクトル変動指標を算出する。
【0048】
なお、以上の説明では、分割グループスペクトル変動指標として、分割された2つのグループのグループスペクトル変動指標の最大を用いる例を示したが、前記グループスペクトル変動指標の平均を用いてもよい。
【0049】
次にステップ202で、すべての分割の中で分割グループスペクトル変動指標を最小とする分割を算出する。
【0050】
次にステップ203で分割グループスペクトル変動指標を最小とする分割を実行する。
【0051】
図1に戻って、ステップ107で、グループ数を1増加してステップ103に戻る。
【0052】
以上のように本実施の形態では、グループ内のスペクトルデータの変動を表すグループスペクトル変動指標に基づき、前記グループスペクトル変動指標が第1の閾値より大きい場合に、最適な順序で(前記グループスペクトル変動指標の大きいグループから順に)グループ分割を行うことにより、スペクトルデータとスケールファクタ等のサイド情報に割り当てるビット数を最適化し、音質を向上することができる。
【0053】
また、グループ分割に際して、分割グループスペクトル変動指標に基づき、前記分割グループスペクトル変動指標を最小とする分割を行うことにより、最適なグループ分割を行い、音質を向上することができる。
【0054】
(実施の形態2)
図3は、本発明の実施の形態2のオーディオ信号符号化方法における複数の時間ブロックのスペクトルデータのグループ化の方法のステップを示すフローチャートである。
【0055】
図3で図1と同一番号を付したステップは、図1に示したステップと同一である。図3と図1の相違点は、図3では、ステップ301とステップ302とステップ303が追加されている点にあるので、以下、これらのステップの処理内容について説明し、それ以外のステップについては説明を省略する。
【0056】
ステップ301では、第2及び第3の閾値の設定を行う。第2の閾値は、グループ数の下限(最小グループ数)に関する閾値であり、第3の閾値はグループ数の上限(最大グループ数)に関する閾値である。第2の閾値は、グループ数が小さくなり過ぎて、小さなレベルのスペクトルデータが複数の時間ブロックにわたって量子化されないことによる音質劣化を抑えるためのものである。また、第3の閾値は、時間変化の極めて激しいフレームでグループ数が大きくなり過ぎて、サイド情報のビット数が増え、スペクトルデータのビット数が不足することによる音質劣化を抑えるためのものである。
【0057】
ステップ302では、その時点でのグループ数と第3の閾値を比較し、グループ数が第3の閾値より小さい場合には、ステップ103に行き、グループ毎にグループスペクトル変動指標を算出する。また、グループ数が第3の閾値以上である場合には、グループ化を終了する。
【0058】
ステップ303では、グループ数と第2の閾値を比較し、グループ数が第2の閾値より小さい場合には、ステップ106に行き、グループを分割する。また、グループ数が第2の閾値以上である場合にはステップ105に行き、グループスペクトル変動指標の最大値が第1の閾値より大きい場合のみ、ステップ106に行き、グループを分割する。
【0059】
以上のように実施の形態2では、グループ化の最小グループ数を第2の閾値で設定することにより、グループを構成する時間ブロック数が大きくなり過ぎ、小さなレベルのスペクトルデータが複数の時間ブロックにわたって量子化されないことによる音質劣化を抑えることができる。
【0060】
また、グループ化の最大グループ数を第3の閾値で設定することにより、サイド情報に割り当てるビット数を制限し、スペクトルデータに割り当てることにより、時間変化の極めて激しいフレームでの大幅な音質劣化を抑えることができる。
【0061】
(実施の形態3)
図4は、本発明の実施の形態3のオーディオ信号符号化方法における複数の時間ブロックのスペクトルデータのグループ化の方法のステップを示すフローチャートである。
【0062】
図4で図3と同一番号を付したステップは、図3に示したステップと同一である。図4と図3の相違点は、図4ではステップ401が追加されている点にあるので、以下、追加されたステップとそれに関連するステップについて説明し、それ以外のステップについては説明を省略する。
【0063】
ステップ401では、ビットレートを入力する。
【0064】
次にステップ102では、ステップ401で入力されたビットレートに応じて第1の閾値の設定を行う。すなわち、ビットレートが高い場合には、使用可能なビット数が増加するので、第1の閾値をより小さい値に設定することにより、グループ数を増加させ、スペクトルデータの時間変化をより正確に表現できるようにする。
【0065】
同様に、ステップ301では、ステップ401で入力されたビットレートに応じて第2と第3の閾値の設定を行う。すなわち、ビットレートが高い場合には、使用可能なビット数が増加するので、第2の閾値をより大きな値に設定することにより、最小グループ数を増加させ、小さなレベルのスペクトルデータをより正確に表現できるようにする。
【0066】
また、ビットレートが高い場合には、第3の閾値をより大きな値に設定することにより、最大グループ数を増加させ、スペクトルデータの時間変化の激しい場合にもスペクトルデータをより正確に表現できるようにする。
【0067】
以上のように実施の形態3では、第1から第3の閾値をビットレートに応じて設定することにより、それぞれのビットレートに適したグループ化を行い、広い範囲のビットレートに対して音質を向上することができる。
【0068】
なお、上記実施の形態では、第1から第3の閾値のすべてをビットレートに応じて設定したが、第1から第3の閾値のいずれかをビットレートに応じて設定するようにしてもよい。
【0069】
(実施の形態4)
図5は、本発明の実施の形態4のオーディオ信号符号化方法における複数の時間ブロックのスペクトルデータのグループ化の方法のステップを示すフローチャートである。
【0070】
実施の形態4は、2つのチャンネルの時間ブロックのグループ化を共通に設定する場合のグループ化の方法である。
【0071】
例えば、ジョイントステレオ符号化では、2つのチャンネルのスペクトルデータを一対として取り扱うので、2つのチャンネルの時間ブロックのグループ化を共通に設定する必要がある。すなわち、実施の形態4は、例えば、ミッド/サイドステレオ符号化やインテンシティステレオ符号化に対して適用される。ただし、インテンシティステレオ符号化に関しては、一方のチャンネルのスペクトルデータはゼロに設定されているので、ゼロに設定されていないチャンネルのスペクトルデータに対して、例えば、実施の形態1〜3のグループ化を行い、それを2つのチャンネルに対して共通に適用してもよい。
【0072】
以下、図5を用いて実施の形態4におけるグループ化の方法について説明する。
【0073】
最初に、ステップ501で、1グループ8ブロックに設定し、1フレームのグループ数を最小の1に設定する。本実施の形態では、当初の1グループからグループを分割することにより、グループ化を決定する。
【0074】
ステップ502で、ビットレートを入力する。
【0075】
ステップ503で、ビットレートに応じて第1の閾値の設定を行う。第1の閾値は、2つのチャンネルで共通にグループを分割するときの前記グループに属する時間ブロックのスペクトルデータの変動を表す2チャンネルグループスペクトル変動指標に対する閾値である。
【0076】
ステップ504で、ビットレートに応じて第2と第3の閾値の設定を行う。第2の閾値は、グループ数の下限(最小グループ数)に対する閾値であり、第3の閾値は、グループ数の上限(最大グループ数)に対する閾値である。第2の閾値は、グループ数が小さくなり過ぎて、小さなレベルのスペクトルデータが複数の時間ブロックにわたって量子化されないことによる音質劣化を抑えるためのものである。また、第3の閾値は、時間変化の極めて激しいフレームでグループ数が大きくなり過ぎて、サイド情報のビット数が増え、スペクトルデータのビット数が不足することによる音質劣化を抑えるためのものである。
【0077】
ステップ505で、その時点でのグループ数と第3の閾値を比較し、グループ数が第3の閾値より小さい場合には、ステップ506に行く。また、グループ数が第3の閾値以上である場合には、グループ化を終了する。
【0078】
ステップ506で、グループ毎にグループに属する時間ブロック間のスペクトルデータの変動の最大を表すグループスペクトル変動指標を2つのチャンネルについてそれぞれ算出する。各チャンネルのグループスペクトル変動指標の算出に関しては、実施の形態1のステップ103で説明した方法を用いる。
【0079】
なお、以上の説明では、グループスペクトル変動指標として、グループに属する時間ブロック間のスペクトルデータの変動の最大を用いたが、グループに属する時間ブロック間のスペクトルデータの変動の平均を用いてもよい。
【0080】
次にステップ507で、ステップ506で算出した2つのチャンネルのグループスペクトル変動指標の最大を算出し、2チャンネルグループスペクトル変動指標とする。
【0081】
なお、以上の説明では、2つのチャンネルのグループスペクトル変動指標の最大を2チャンネルグループスペクトル変動指標として用いる例を示したが、前記グループスペクトル変動指標の平均を用いてもよい。
【0082】
次にステップ508で、すべてのグループの中で2チャンネルグループスペクトル変動指標の最大値を算出する。
【0083】
次にステップ509で、グループ数と第2の閾値を比較し、グループ数が第2の閾値より小さい場合には、ステップ511に行き、グループを分割する。また、グループ数が第2の閾値以上である場合にはステップ510に行く。
【0084】
ステップ510で、ステップ508で算出した2チャンネルグループスペクトル変動指標の最大値と第1の閾値とを比較し、上記2チャンネルグループスペクトル変動指標の最大値が第1の閾値より大きい場合にはステップ511に行き、グループ分割を行う。そうでない場合にはグループ化を終了する。したがって、グループ内の時間ブロックのスペクトル変動が大きい場合においてのみグループ分割はなされ、前記時間ブロックのスペクトル変動が小さい場合にはグループ分割はなされない。
【0085】
ステップ511では、ステップ508で算出した2チャンネルグループスペクトル変動指標を最大とするグループを分割する。
【0086】
図6はステップ511の詳細を示すフローチャートである。
【0087】
ステップ601で、グループを分割した時の分割されたグループのグループスペクトル変動指標の最大を分割グループスペクトル変動指標として、2つのチャンネルについてそれぞれ算出する。例えば、最初は、1グループ8ブロックに設定されているので、次の7通りの分割により、2グループに分割することが可能である。
(1)[0]と[1,2,3,4,5,6,7]
(2)[0,1]と[2,3,4,5,6,7]
(3)[0,1,2]と[3,4,5,6,7]
(4)[0,1,2,3]と[4,5,6,7]
(5)[0,1,2,3,4]と[5,6,7]
(6)[0,1,2,3,4,5]と[6,7]
(7)[0,1,2,3,4,5,6]と[7]
ここで、[]内は同一のグループに属する短時間ブロックの番号を表す。
【0088】
このように分割された2つのグループのそれぞれに対してグループスペクトル変動指標を算出し、その最大を分割グループスペクトル変動指標として算出する。したがって、最初は、7つの分割グループスペクトル変動指標を2つのチャンネルについてそれぞれ算出する。
【0089】
なお、以上の説明では、分割グループスペクトル変動指標として、分割された2つのグループのグループスペクトル変動指標の最大を用いる例を示したが、前記グループスペクトル変動指標の平均を用いてもよい。
【0090】
次にステップ602で、同一のグループ分割に対する2つのチャンネルの分割グループスペクトル変動指標の最大を2チャンネル分割グループスペクトル変動指標として算出する。
【0091】
なお、以上の説明では、2つのチャンネルの分割グループスペクトル変動指標の最大を2チャンネル分割グループスペクトル変動指標として用いる例を示したが、2つのチャンネルの分割グループスペクトル変動指標の平均を用いてもよい。
【0092】
次のステップ603で、すべての分割の中で2チャンネル分割グループスペクトル変動指標を最小とする分割を算出する。
【0093】
次にステップ604で、2チャンネル分割グループスペクトル変動指標を最小とする分割を実行する。
【0094】
図5に戻って、ステップ512で、グループ数を1増加してステップ505に戻る。
【0095】
以上のように本実施の形態では、2つのチャンネルで共通のグループ化を行うのに際して、グループ数が第3の閾値より小さい場合に、2つのチャンネルで共通なグループのスペクトルデータの変動を表す2チャンネルグループスペクトル変動指標に基づき、グループ数が第2の閾値より小さいかあるいは前記2チャンネルグループスペクトル変動指標が第1の閾値より大きいときに、最適な順序で(前記2チャンネルグループスペクトル変動指標の大きいグループから順に)グループ分割を行うことにより、スペクトルデータとスケールファクタ等のサイド情報に割り当てるビット数を最適化し、音質を向上することができる。
【0096】
また、グループ分割に際して、2チャンネル分割グループスペクトル変動指標に基づき、前記2チャンネル分割グループスペクトル変動指標を最小とする分割を行うことにより、最適なグループ分割を行い、音質を向上することができる。
【0097】
なお、以上の説明では、第2と第3の閾値を設定し、第2と第3の閾値とグループ数を比較するステップを設ける例を示したが、実施の形態1のように、これらのステップを省いてもよい。
【0098】
なお、上記各実施の形態におけるオーディオ信号符号化方法は、コンピュータまたはデジタルシグナルプロセッサに実行させるためのプログラムとして実現することができ、これをコンピュータ読み取り可能な記録媒体に記録してもよい。
【0099】
【発明の効果】
以上のように本発明によれば、グループ内の時間ブロックのスペクトルデータの変動を表すグループスペクトル変動指標に基づき、グループスペクトル変動指標が第1の閾値より大きい場合に、最適な順序で(前記グループスペクトル変動指標の大きいグループから順に)グループ分割を行うことにより、スペクトルデータとスケールファクタ等のサイド情報に割り当てるビット数を最適化し、音質を向上することができる。
【0100】
また、グループ分割に際して、分割グループスペクトル変動指標に基づき、前記分割グループスペクトル変動指標を最小とする分割を行うことにより、最適なグループ分割を行い、音質を向上することができる。
【0101】
また、最小グループ数を第2の閾値で設定することにより、グループを構成する時間ブロック数が大きくなり過ぎ、小さなレベルのスペクトルデータが複数の時間ブロックにわたって量子化されないことによる音質劣化を抑えることができる。
【0102】
また、最大グループ数を第3の閾値で設定することにより、サイド情報に割り当てるビット数を制限し、スペクトルデータに割り当てることにより、時間変化の極めて激しいフレームに対する大幅な音質劣化を抑えることができる。
【0103】
また、第1から第3の閾値のいずれかをビットレートに応じて設定することにより、それぞれのビットレートに適したグループ化を行い、広い範囲のビットレートに対して音質を向上することができる。
【0104】
また、ミッド/サイドステレオ符号化のように2つのチャンネルで共通のグループ化を行う場合に対して、2チャンネルグループスペクトル変動指標に基づき、前記2チャンネルグループスペクトル変動指標が第1の閾値より大きい場合には、最適な順序で(前記2チャンネルグループスペクトル変動指標の大きいグループから順に)グループ分割を行うことにより、スペクトルデータとスケールファクタ等のサイド情報に割り当てるビット数を最適化し、音質を向上することができる。
【0105】
また、グループ分割に際して、2チャンネル分割グループスペクトル変動指標に基づき、前記2チャンネル分割グループスペクトル変動指標を最小とする分割を行うことにより、最適なグループ分割を行い、音質を向上することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1のオーディオ信号符号化方法における複数の時間ブロックのグループ化の方法のステップを示すフローチャート
【図2】図1のオーディオ信号符号化方法におけるステップ106の詳細を示すフローチャート
【図3】同実施の形態2のオーディオ信号符号化方法における複数の時間ブロックのグループ化の方法のステップを示すフローチャート
【図4】同実施の形態3のオーディオ信号符号化方法における複数の時間ブロックのグループ化の方法のステップを示すフローチャート
【図5】同実施の形態4のオーディオ信号符号化方法における複数の時間ブロックのグループ化の方法のステップを示すフローチャート
【図6】図5のオーディオ信号符号化方法におけるステップ511の詳細を示すフローチャート
【図7】AACエンコーダの構成を示すブロック図
【図8】AACにおける短時間ブロックと長時間ブロックの例を説明するための説明図
【図9】AACにおける短時間ブロックのグループ化の例を説明するための説明図
【図10】AACにおけるジョイントステレオ符号化時の短時間ブロックのグループ化の例を説明するための説明図
【符号の説明】
700,701 フィルタバンク
710,711 ブロック長決定部
720 ジョイントステレオデータ生成部
730 短時間ブロックグループ化決定部
740 量子化及び符号化部

Claims (10)

  1. オーディオ信号を時間ブロック単位でスペクトルデータに変換し、複数の時間ブロックのスペクトルデータをグループ化して高能率符号化する方法であって、グループに属する時間ブロック間のスペクトルデータの変動の最大あるいは平均を表すグループスペクトル変動指標をグループ毎に算出するステップと、前記グループスペクトル変動指標の最大値を算出するステップと、前記最大値が第1の閾値より大きい場合に前記グループスペクトル変動指標を最大とするグループを分割するステップとを備えたことを特徴とするオーディオ信号符号化方法。
  2. オーディオ信号を時間ブロック単位でスペクトルデータに変換し、複数の時間ブロックのスペクトルデータをグループ化して高能率符号化する方法であって、グループに属する時間ブロック間のスペクトルデータの変動の最大あるいは平均を表すグループスペクトル変動指標をグループ毎に算出するステップと、前記グループスペクトル変動指標の最大値を算出するステップと、前記最大値が第1の閾値より大きいかあるいはグループ数が第2の閾値より小さい場合に、前記グループスペクトル変動指標を最大とするグループを分割するステップとを備えたことを特徴とするオーディオ信号符号化方法。
  3. グループを分割するステップが、グループを分割した時の分割されたグループのグループスペクトル変動指標の最大あるいは平均を表す分割グループスペクトル変動指標を算出するステップと、すべての分割の中で前記分割グループスペクトル変動指標を最小とする分割を実行するステップとを備えたことを特徴とする請求項1あるいは請求項2記載のオーディオ信号符号化方法。
  4. オーディオ信号を時間ブロック単位でスペクトルデータに変換し、複数の時間ブロックのスペクトルデータをグループ化して高能率符号化する方法であって、複数のチャンネルのグループ化を共通に設定する場合に、グループに属する時間ブロック間のスペクトルデータの変動の最大あるいは平均を表すグループスペクトル変動指標を複数のチャンネルについてそれぞれグループ毎に算出するステップと、前記複数のチャンネルのグループスペクトル変動指標の最大あるいは平均を複数チャンネルグループスペクトル変動指標として算出するステップと、前記複数チャンネルグループスペクトル変動指標の最大値を算出するステップと、前記最大値が第1の閾値より大きい場合に前記複数チャンネルグループスペクトル変動指標を最大とするグループを分割するステップとを備えたことを特徴とするオーディオ信号符号化方法。
  5. オーディオ信号を時間ブロック単位でスペクトルデータに変換し、複数の時間ブロックのスペクトルデータをグループ化して高能率符号化する方法であって、複数のチャンネルのグループ化を共通に設定する場合に、グループに属する時間ブロック間のスペクトルデータの変動の最大あるいは平均を表すグループスペクトル変動指標を複数のチャンネルについてそれぞれグループ毎に算出するステップと、前記複数のチャンネルのグループスペクトル変動指標の最大あるいは平均を複数チャンネルグループスペクトル変動指標として算出するステップと、前記複数チャンネルグループスペクトル変動指標の最大値を算出するステップと、前記最大値が第1の閾値より大きいかあるいはグループ数が第2の閾値より小さい場合に、前記複数チャンネルグループスペクトル変動指標を最大とするグループを分割するステップとを備えたことを特徴とするオーディオ信号符号化方法。
  6. グループを分割するステップが、グループを分割した時の分割されたグループのグループスペクトル変動指標の最大あるいは平均を表す分割グループスペクトル変動指標を複数のチャンネルについてそれぞれ算出するステップと、前記複数のチャンネルの分割グループスペクトル変動指標の最大あるいは平均を複数チャンネル分割グループスペクトル変動指標として算出するステップと、すべての分割の中で前記複数チャンネル分割グループスペクトル変動指標を最小とする分割を実行するステップとを備えたことを特徴とする請求項4あるいは請求項5記載のオーディオ信号符号化方法。
  7. グループ数が第3の閾値以上となった場合にグループの分割を終了するステップを備えたことを特徴とする請求項1から請求項6のいずれかに記載のオーディオ信号符号化方法。
  8. 符号化のビットレートに応じて前記第1から第3の閾値のいずれかを設定するステップを備えたことを特徴とする請求項1から請求項7のいずれかに記載のオーディオ信号符号化方法。
  9. 請求項1から請求項8のいずれかに記載のオーディオ信号符号化方法をコンピュータまたはデジタルシグナルプロセッサに実行させるためのプログラム。
  10. 請求項1から請求項8のいずれかに記載のオーディオ信号符号化方法をコンピュータまたはデジタルシグナルプロセッサに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2002151923A 2002-05-27 2002-05-27 オーディオ信号符号化方法 Expired - Lifetime JP4062971B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002151923A JP4062971B2 (ja) 2002-05-27 2002-05-27 オーディオ信号符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002151923A JP4062971B2 (ja) 2002-05-27 2002-05-27 オーディオ信号符号化方法

Publications (2)

Publication Number Publication Date
JP2003345398A JP2003345398A (ja) 2003-12-03
JP4062971B2 true JP4062971B2 (ja) 2008-03-19

Family

ID=29769371

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002151923A Expired - Lifetime JP4062971B2 (ja) 2002-05-27 2002-05-27 オーディオ信号符号化方法

Country Status (1)

Country Link
JP (1) JP4062971B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725324B2 (en) 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
US7809579B2 (en) 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
DE602005005441T2 (de) * 2004-01-20 2009-04-23 Dolby Laboratories Licensing Corp., San Francisco Audiocodierung auf der basis von blockgruppierung
JP4550595B2 (ja) * 2005-01-19 2010-09-22 株式会社東芝 オーディオ符号化装置
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
ATE521143T1 (de) 2005-02-23 2011-09-15 Ericsson Telefon Ab L M Adaptive bitzuweisung für die mehrkanal- audiokodierung
JP4454664B2 (ja) * 2005-09-05 2010-04-21 富士通株式会社 オーディオ符号化装置及びオーディオ符号化方法
WO2008004649A1 (en) * 2006-07-07 2008-01-10 Nec Corporation Audio encoding device, audio encoding method, and program thereof

Also Published As

Publication number Publication date
JP2003345398A (ja) 2003-12-03

Similar Documents

Publication Publication Date Title
JP2906646B2 (ja) 音声帯域分割符号化装置
JP3762579B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US9361900B2 (en) Encoding device and method, decoding device and method, and program
US9842603B2 (en) Encoding device and encoding method, decoding device and decoding method, and program
EP2471063B1 (en) Signal processing apparatus and method, and program
EP1072036B1 (en) Fast frame optimisation in an audio encoder
JP4794452B2 (ja) オーディオ符号化におけるmdctデータに基づくウィンドウタイプ決定方法
JP5326465B2 (ja) オーディオ復号方法、装置、及びプログラム
JP4021124B2 (ja) デジタル音響信号符号化装置、方法及び記録媒体
KR20160055266A (ko) 인코딩 방법 및 장치
JP3900000B2 (ja) 符号化方法及び装置、復号方法及び装置、並びにプログラム
JP2003233395A (ja) オーディオ信号の符号化方法及び装置、並びに符号化及び復号化システム
KR20050112796A (ko) 디지털 신호 부호화/복호화 방법 및 장치
JP4062971B2 (ja) オーディオ信号符号化方法
US8593321B2 (en) Computation apparatus and method, quantization apparatus and method, and program
JP4750707B2 (ja) オーディオ符号化におけるショートウィンドウグループ化方法
JP2004309921A (ja) 符号化装置、符号化方法及びプログラム
JP6411509B2 (ja) 符号化方法、装置、プログラム及び記録媒体
KR100682915B1 (ko) 다채널 신호 부호화/복호화 방법 및 장치
US8601039B2 (en) Computation apparatus and method, quantization apparatus and method, and program
KR20160003264A (ko) 신호 인코딩 및 디코딩 방법 및 장치
JP3894722B2 (ja) ステレオオーディオ信号高能率符号化装置
JP4635400B2 (ja) オーディオ信号符号化方法
JP2003233397A (ja) オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置
JP4191503B2 (ja) 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050425

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071224

R151 Written notification of patent or utility model registration

Ref document number: 4062971

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140111

Year of fee payment: 6

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term