JP2000134106A - オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法 - Google Patents

オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法

Info

Publication number
JP2000134106A
JP2000134106A JP10308317A JP30831798A JP2000134106A JP 2000134106 A JP2000134106 A JP 2000134106A JP 10308317 A JP10308317 A JP 10308317A JP 30831798 A JP30831798 A JP 30831798A JP 2000134106 A JP2000134106 A JP 2000134106A
Authority
JP
Japan
Prior art keywords
block size
frequency
band
frame
total energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10308317A
Other languages
English (en)
Inventor
Mei Shen Shen
メイ・シェン シェン
Hon Neo Sua
ホン・ネオ スア
Pen Tan Aa
ペン・タン アー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP10308317A priority Critical patent/JP2000134106A/ja
Publication of JP2000134106A publication Critical patent/JP2000134106A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 総合的なオーディオ品質を改善するため、的
確なブロックサイズの判定は、変換オーディオ符号化シ
ステムあるいはハイブリッド型サブバンド変換オーディ
オ符号化システムにおいて非常に重要である。周波数領
域において実施される的確なブロックサイズ判定方法を
開示する。 【解決手段】 入力オーディオ信号は、それがサブバン
ドに分割された後に、通常の長ブロックサイズのMDC
Tを施される。それぞれのバンドにおける周波数成分の
分析がなされ、所定のしきい値を用いることによる現在
のバンドにおける総エネルギーと前のバンドにおける総
エネルギーとの間での比較結果に基づいて、長ブロック
モード/短ブロックモードが決定される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、伝送またはディジ
タル記録媒体に用いることのできるディジタルオーディ
オ信号の効率的な情報符号化に関する。
【0002】
【従来の技術】サブバンド符号化、適応変換符号化、ま
たは、それらのハイブリッドのような周波数マッピング
あるいは変換符号化が、オーディオ圧縮アルゴリズムに
使用されており、また、すでに様々な民生機器に応用さ
れている。これらの例のいくつかは、1992年1月に発行
のIEEE雑誌VOL.10、No.1「通信における選択された分
野」におけるエム.イワダレ著の記事「適応ブロックサ
イズMDCTを伴う適応変換符号化に基づく128kb/sのハイ
ファイ・オーディオ・コーデック」(“A 128kb/s Hi-Fi
Audio Codec based on Adaptive Transform Coding wi
th Adaptive Block Size MDCT", IEEE Journal on Sele
cted Areas in Communications, Vol. 10, No.1, Janua
ry 1992 by M. Iwadare et al.)、および、AES第10回国
際会議においてカールハインツ・ブランデンブルグ氏に
より「ASPEC符号化」(“ASPEC Coding", AES 10th Int
ernational Conference by Karlheinz Brandenburg)に
よって報告されている。ハイブリッド型のサブバンド適
応変換符号化の例としては、ISO/IEC11172
−3レイヤ3アルゴリズム、および、ミニディスクシス
テム(Mini-Disc system)において用いられるATRAC
圧縮アルゴリズムがある。これらのアルゴリズムの詳細
に関しては、「情報技術−ディジタル記録媒体に記録の
ための動画および音声のコード化を約1.5Mbit/sで行う
技術 第3部:オーディオ(ISO/IEC 11172‐3:1993
年)」(“Information Technology - Codingof Moving
Pictures and Associated Audio for Digital Storage
Media at upto About 1.5Mbit/s Part 3 : Audio (ISO
/IEC 11172-3: 1993))、および、ソニー社による1992
年 9月発行の“MD system" の第10章などの文献からそ
れぞれ知ることができる。これらのアルゴリズムにおい
て使用される変換フィルターバンクは、典型的には、変
形離散コサイン変換に基づくものであり、1987年の「IC
ASSPの学会発表「時間軸上におけるエイリアシングの削
除に基づくフィルターバンク設計を用いたサブバンド/
変換コード化」(“Subband/Transform Coding Using F
ilter Bank Designs Based on Time Domain Aliasing C
ancellation", Proceedings of the ICASSP)の頁2161
〜2164においてプリンセン氏(Princen)およびブラッ
ドレイ氏(Bradley)によってまず最初に提案されたも
のである。
【0003】図1(a)および図1(b)は、ATRA
C符号化で使用されるフレーム、サブバンド(帯域信号
ともいう)、長ブロック、そして、短ブロックの概念を
説明するものである。図1(a)は、一つのフレームが
3つのサブバンドに分割されたグラフを示し、入力オー
ディオ/音声信号は、等しい時間間隔を有するフレーム
にグループ化される。ここで、1つのフレームは512
のサンプルを含み、サンプリングレートが44.1kH
zであれば、それは時間的に11.6msに等しい。図
6を参照すると、2通過帯域分割フィルター(QMFフ
ィルター)を通過した後、512のサンプルは、128
サンプルを有する低域バンド、128サンプルを有する
中域バンド、および、256サンプルを有する高域バン
ドの3つのバンドに分割され、それぞれのバンドは、依
然として時間的に11.6msに対応している。ATR
AC符号化の方法に基づけば、あるバンドにアタック信
号が現れた場合には、短ブロックサイズのMDCT(変
形離散コサイン変換)がそのバンドに適用されるべきで
あり、そうでないと長いブロックサイズのMDCTがバ
ンドに適用されてしまう。ATRAC符号化規格によれ
ば、この短いブロックのサイズは、長いブロックのサイ
ズに対しての128サンプルではなく32サンプルであ
る。時間領域において、32サンプルは2.9msに等
しいので、アタック信号が存在する場合に32サンプル
のMDCTがバンドに適用されるならば、人間の耳によ
って聞き取ることのできるプリエコーは発生しない。
【0004】図1(b)は、ATRACにおける長ブロ
ックサイズ/短ブロックサイズのMDCTが、128サ
ンプルを有するサブバンドに適用されることを示す。オ
ーディオ信号のエンベロープおよび周波数スペクトルだ
けが図1(b)に示される。図1(b)から、通常、長
ブロックサイズのMDCTは、短ブロックサイズのMD
CTよりも良好な周波数集中性(frequency concentrati
on) を提供することがわかる。しかしながら、アタック
信号がバンドに現れた場合、より大きなエネルギーがこ
のアタック信号に関係する。これは、周波数領域におい
て、多くのオーディオ信号に典型的に存在するより低い
周波数スペクトル成分に対するより大きな絶対値のほか
により高い周波数スペクトル成分もこのバンドに現れる
ことを意味する。なぜなら、バンドに存在するすべての
周波数スペクトル成分がそのより大きなエネルギーに寄
与するからである。既存のATRAC符号化において
は、すべてのブロックサイズ適応判定方法は、時間領域
において実行される。ゆえに、ブロックサイズの周波数
領域における適応判定技術が考案され、ここに開示され
る。
【0005】図5に示されるような典型的な変換エンコ
ーダーにおいては、入力オーディオサンプルは、まず、
バッファー51によってフレーム(例えば、1つのフレ
ームは512サンプルを有する)にバッファリングさ
れ、それと同時に、ブロックサイズ判定部52に送られ
て、オーディオサンプルの窓および変換部53を実行す
る前に適切なブロックサイズあるいは窓が決定される。
ATRACアルゴリズムのようなハイブリッド型のサブ
バンド変換符号器においては、44.1kHzでサンプ
リングされる入力オーディオサンプルには、サブバンド
符号化および変換符号化を組み合わせたハイブリッド符
号化が施される。
【0006】図6は、ATRACアルゴリズムによる符
号化処理のハイブリッドサブバンド変換フロントエンド
処理のブロック図を示す。入力オーディオサンプルは、
まず最初に、直交ミラーフィルター61を用いて2つの
等しい帯域幅にサブバンドフィルタリングされ、その結
果として得られたより低域周波数バンドが、もう1つの
直交ミラーフィルターセット62によって2つの等しい
帯域幅にさらにサブ分割される。高域周波数バンドにお
ける信号をより低い周波数バンドの信号と時間整列させ
る(time-align)ために時間遅延部63が使用される。こ
こで、直交ミラーフィルター61におけるL、M、およ
び、Hは、低域バンド、中域バンド、および、高域バン
ドを意味し、直交ミラーフィルター62におけるLおよ
びMは、低域バンドおよび中域バンドを意味する。そし
て、サブバンドサンプルはブロックサイズ判定部64に
別々に送られ、窓処理および変形離散コサイン変換処理
部65、66、および、67に用いられる適切なブロッ
クサイズが判定される。それぞれの周波数バンドに用い
られる2つのブロックサイズすなわち2つのモードの1
つが選択される。そして、変換されたサンプルはユニッ
トにグループ化され、そのそれぞれのユニット内におい
て、ユニットサンプルの最大振幅に等しいかまたはそれ
をわずかに越えるスケールファクターが選択される。そ
して、変換されたサンプルは、決定されたスケールファ
クターと、ダイナミックビットアロケーションモジュー
ルから得られたビットアロケーション情報とを用いて量
子化される。
【0007】変換符号化のときに、特に、アタックを含
んだオーディオ信号に用いられるブロックサイズが長い
場合、信号振幅の急激な増大すなわちアタックが発生す
る直前の無音期間(silent period) においてプリエコー
またはノイズ/リンギング効果が現れることがある。ブ
ロック境界におけるノイズだけでなくプリエコーをも抑
制するために、典型的には、適応ブロックサイズを備え
た変形離散コサイン変換が使用される。
【0008】変換符号化に有効なブロックサイズは、第
1に、もしアタック信号が検出されるようなことがあれ
ば、そのアタック信号を処理するために短ブロック変換
が使用され得るように選択されなければならず、第2
に、隣接するブロックにリンギングあるいはノイズ信号
を発生させることがないように選択されなければならな
い。短ブロックのサイズを十分に小さくした場合、プリ
エコーは聞き取れないものとなる。重要な問題は、アタ
ック信号そのものを的確に検出することである。
【0009】図7は、1992年 9月発行の“MD system"
に関する文献において略述されるブロックサイズの判定
方法を示す。ステップ71でピーク検出を、行なう。す
なわち、時間領域において2.9msに対応する32サ
ンプルの各ブロック内でのピーク値を識別する。そし
て、ステップ72において、それに隣接するピーク値が
比較される。判定のステップ73において、その差分が
18dBを越えた場合、ステップ74においてモード1
すなわち短ブロックモードが選択される。もしそうでな
ければ、ステップ75において、それぞれの周波数バン
ドに対して長ブロックモードであるモード3あるいはモ
ード4が選択される。
【0010】
【発明が解決しようとする課題】適応変換符号化または
ハイブリッド型サブバンド変換符号化におけるプリエコ
ーを完全なまでに抑制するためには、非常に正確なオー
ディオ信号の分類(classification)方法およびブロック
サイズの判定方法が必要とされる。本発明の目的は、プ
リエコーをまったく聞き取ることのできないものにする
ことである。変換に使用される実際のブロックサイズは
それ自体重要ではあるが、アタック信号、特にそのクリ
ティカルなものを正確に検出することは非常に意義のあ
ることである。周波数解像度を増大させることによっ
て、オーディオ信号成分の冗長性および散布性(irrelev
ancy) をより的確に除去することが可能となるので、一
般的には、オーディオ信号の変換符号化には長ブロック
が好ましい。このことが、特性がゆっくりと変化するオ
ーディオ信号に適用される。短ブロックは、絶対に必要
と考えられる場合にのみ、すなわち、クリティカルなア
タック信号が存在する場合にのみ使用されるべきであ
る。
【0011】従来技術で用いられるブロックサイズの判
定方法は、過渡的信号すなわちアタック信号を的確に検
出することにおいては良好な結果を与えるものではな
い。それは、時には、プリマスキング期間の中にある時
間間隔内に発生するアタック信号を検出できないことが
ある。プリマスキングとは、大きな音の急激な立ち上が
りの存在が、すなわち、時間領域において発生するアタ
ックの存在が、そのアタックに先立つ音に対してマスキ
ング効果を有する状態をいう。そのような検出の失敗
は、時には、望ましくない可聴効果を発生させる。単一
トーンマスカーの実験では、5ms〜20msだけ持続
するプリマスキング期間を実証し、経験的には、より短
い期間に存在するプリエコーを聞き取ることができた。
効果的なプリマスキング期間は、5msよりも小さい範
囲にあることが予想される。ポストマスキング効果、す
なわち、マスカーが発生した後の残存マスキング効果(l
ingering masking effect)は、過去のいくつかの分析に
よれば、典型的には、20msかまたはそれ以上にわた
る。アタック信号が存在する場合、典型的には、より高
い周波数成分が顕著に現れる。
【0012】
【課題を解決するための手段】本発明は、非常に高い精
度のブロックサイズ判定方式を提供するものであり、ア
タック信号およびプリマスキング効果の周波数領域にお
ける特性を考慮したものである。本発明においては、全
帯域幅のオーディオ信号に、あるいは、例えばいくつか
の周波数バンドにサブバンドフィルタリングされた後の
限定された帯域幅の信号に作用する手段が可能である。
【0013】本発明は、全帯域幅の信号または選択され
たサブバンドの信号に長ブロックサイズの変換を施す手
段と、周波数領域におけるオーディオ信号を分析し、か
つ、経験から得られたアタック信号の周波数特性を考慮
に入れた手段と、クリティカルな帯域幅を電力スペクト
ルの評価に用いるための手段と、所定のしきい値によっ
て現在のバンドとそれの前のバンドとの間のエネルギー
差を比較するための手段と、所定のしきい値によってそ
の2つのエネルギーの値を比較した後に長ブロックサイ
ズあるいは短ブロックサイズのどちらが使用されるべき
かを判定するための手段と、すべての周波数バンドまた
は選択された周波数バンドに対して短ブロックの変換を
施す手段と、を有する。
【0014】入力信号は、まず、あるサイズのフレーム
に区画され、これらのフレームが、QMFフィルターま
たはその他の分割フィルターによってある数のサブバン
ドに分割される。すべてのまたはいくつかのサブバンド
が、通常の長ブロックMDCTとそれに続くエネルギー
計算とを施される。MDCTの後に、エネルギーが計算
されて正規化される。これは、指定されたサブバンドに
対して実施されてもよく、あるいはもっとも高域のサブ
バンドだけに対して実施されてもよい。そして、現在の
バンドにおけるこの正規化されたエネルギーの値が、所
定のしきい値によって前のバンドにおける正規化された
エネルギーの値と比較される。もし現在のバンドの正規
化されたエネルギーが、所定のしきい値だけ前のバンド
における正規化されたエネルギーよりも大きければ、短
ブロックモードが、そのサブバンドまたは同じフレーム
におけるすべてのサブバンドに対して選択される。もし
そうでなければ、長ブロックモードが選択される。
【0015】長ブロックモードが選択されたサブバンド
は、それらの変換された係数にすぐにさらなる処理を施
されてもよい。短ブロックモードが選択されたサブバン
ドは、短ブロックMDCT係数を得るために短ブロック
MDCTが施される。そして、これらの係数が、さらな
る処理を施される。
【0016】第1の観点による本発明は、オーディオ信
号をサブクラスに識別および類別して変換符号器のブロ
ックサイズを判定する方法であって、 a)時間間隔で入力オーディオ信号あるいは入力音声信
号をサンプルに標本化し、前記サンプルを等しい数のサ
ンプルからなる各フレームにグループ化するステップ
と、 b)オーディオサンプルからなる1つかまたはそれ以上
の前記フレームをバッファリングするステップと、 c)オーディオサンプルからなる前記フレームに長ブロ
ックサイズの周波数変換を施すステップと、 d)前記長ブロックサイズの周波数変換の出力のすべて
の周波数成分または指定された周波数よりも高い周波数
成分に対する周波数スペクトル成分の総エネルギーを計
算するステップと、 e)現在のフレームにおける前記総エネルギーを前のフ
レームの総エネルギーと所定のしきい値によって比較
し、比較結果が所定のしきい値を越える場合には短ブロ
ックサイズを選択し、そうでない場合には長ブロックサ
イズを選択し、短ブロックサイズが選択された場合に
は、長ブロックサイズの周波数変換をすでに施されてい
るフレームに属するオーディオサンプルがバッファーか
ら取り出されて短ブロックサイズの周波数変換を施さ
れ、長ブロックサイズが選択された場合には、先の長ブ
ロックサイズの周波数変換による結果がさらなる処理に
使用される、ステップとからなる方法である。
【0017】第2の観点による本発明は、オーディオ信
号をサブクラスに識別および類別して変換符号器のブロ
ックサイズを判定する方法であって、 a)オーディオ信号を異なった周波数バンドに分割する
ステップと、 b)各周波数バンドごとのオーディオサンプルを等しい
時間間隔のフレームにグループ化するステップであっ
て、異なった周波数バンドに属するフレームにおける前
記オーディオサンプルの数は必ずしも等しくなくてもよ
い、該グループ化するステップと、 c)各周波数バンドごとのオーディオサンプルからなる
前記フレームをバッファリングするステップと、 d)最初の長ブロックサイズの周波数変換に用いられる
選択された数のより高い周波数バンドを指定するステッ
プと、 e)前記選択されたより高い周波数バンドにおけるオー
ディオサンプルからなるフレームに長ブロックサイズの
周波数変換を施すステップと、 f)それぞれの前記より高い周波数バンドごとの総エネ
ルギーを計算するステップと、 g)現在のより高い周波数バンドにおける前記総エネル
ギーを前のより高い周波数バンドの総エネルギーと所定
のしきい値によって比較し、現在のより高い周波数バン
ドにおける総エネルギーが前の周波数バンドの総エネル
ギーよりも所定のしきい値だけ大きい場合には短ブロッ
クサイズを選択し、そうでない場合には長ブロックサイ
ズを選択し、短ブロックサイズが選択された場合には、
長ブロックサイズの周波数変換をすでに施されているフ
レームに属するオーディオサンプルがバッファーから取
り出されて短ブロックサイズの周波数変換を施され、長
ブロックサイズが選択された場合には、先の長ブロック
サイズの周波数変換による結果がさらなる処理に使用さ
れてもよい、ステップと、 h)先に変換を施されていないより低い周波数バンドに
おけるオーディオサンプルが、それに応じて短ブロック
サイズまたは長ブロックサイズの変換を施されるステッ
プとからなる方法である。
【0018】第3の観点による本発明は、オーディオ信
号をサブクラスに識別および類別して変換符号器のブロ
ックサイズを判定する方法であって、 a)オーディオ信号を異なった周波数バンドに分割する
ステップと、 b)各周波数バンドごとのオーディオサンプルを等しい
時間間隔のフレームにグループ化するステップであっ
て、異なった周波数バンドに属するフレームにおける前
記オーディオサンプルの数は必ずしも等しくなくてもよ
い、該グループ化するステップと、 c)各周波数バンドごとのオーディオサンプルからなる
前記フレームをバッファリングするステップと、 d)各周波数バンドごとのオーディオサンプルからなる
そのフレームに長ブロックサイズの周波数変換を施すス
テップと、 e)それぞれの前記周波数バンドごとの総エネルギーを
計算するステップと、 f)現在のバンドにおける前記総エネルギーを対応する
前のバンドにおける総エネルギーと所定のしきい値によ
って比較し、判定処理が、選択された周波数バンドに対
しては短ブロックサイズを指定し、それ以外に対しては
長ブロックサイズを指定するステップと、 g)短ブロックサイズを使用することが選択された周波
数バンドにおけるオーディオサンプルが、それに応じて
短ブロックサイズの変換を施されるステップとからなる
方法である。
【0019】第4の観点による本発明は、第3の観点に
よる方法であって、上記ステップf)のブロックサイズ
判定方法は、 a)個々のバンドに対する異なる所定のしきい値を用い
て、現在のフレームにおけるそれぞれのバンドの総エネ
ルギーを前のフレームにおける対応するバンドの総エネ
ルギーとそれぞれ比較するステップと、 b)現在のフレームにおけるあるバンドの総エネルギー
が、前のフレームにおける対応するバンドの総エネルギ
ーを所定のしきい値で越える場合には、短ブロックサイ
ズを選択し、そうでない場合には、長ブロックサイズを
選択するステップとからなる方法である。
【0020】第5の観点による本発明は、あるバンド/
フレームの前記総エネルギーが、そのバンド/フレーム
に属する周波数スペクトル成分から計算され、それは、
周波数成分のいかなる形態であってもよく、所定のしき
い値の選択は、総エネルギーのその異なる形態に依存す
るものであることを特徴とする第1、2、3、4のいず
れかの観点による方法である。
【0021】第6の観点による本発明は、2つのエネル
ギー値の間の前記比較が、第1の値を第2の値で除算す
ることに基づくものであってもよく、また、第1の値か
ら第2の値を引き算することに基づくものであってもよ
く、異なる所定のしきい値が、個々の比較に対して選択
されることを特徴とする第1、2、3、4のいずれかの
観点による方法である。
【0022】
【発明の実施の形態】図2は、周波数領域においてなさ
れるブロックサイズ判定の原理および概念を示す。Aは
入力オーディオ信号であり、Eは、それぞれのフレーム
/サブバンドに対する信号Aのエネルギーである。ここ
で、Eは、MDCT後のそれぞれの周波数成分の平方で
ある。b1 、b2 、b3 、・・・は、128サンプルを
有する低域バンド信号であり、e0 、e1 、e2 、・・
・は、それぞれ、長ブロックサイズのMDCTがそれぞ
れのb1 、b2 、b3 、・・・に適用された後のb1 、
b2 、b3 、・・・のエネルギー分布であると仮定す
る。
【0023】図2は、現実に、実際のほとんどのケース
にあてはまる代表的な例である。その非アタック入力信
号b1 、b2 、b3 、・・・、bi に対しては、エネル
ギーは比較的に小さいe0 、e1 、e2 、・・・、ei
であり、そのアタック信号bi+1 およびbi+2 に対して
は、エネルギーは、ei+1 およびei+2 のようにかなり
大きいことがわかる。前のバンドが非アタック信号であ
るという条件で、総エネルギーがそれぞれのバンドにお
けるエネルギー分布から計算されて前のバンドにおける
総エネルギーと比較されるならば、長ブロックモード/
短ブロックモードを決定することができる。この処理手
順の1つが以下のように示される。
【0024】Total Eiはei の総エネルギーを
表し、Total Ei+1 はei+1の総エネルギーを表
し、threshold Lは低域バンドに対するしき
い値を表すと仮定して、以下の条件が満たされるなら
ば、短ブロックモードが選択され、満たされなければ、
長ブロックモードが選択される。 Total Ei+1 /Total Ei ≧threshold L (1) 同様の処理手順が中域バンドおよび高域バンドにも適用
される。
【0025】前のバンドがアタック信号を含む場合、そ
れは短ブロックモードと判定されることになるであろう
が、現在のバンドにおける総エネルギーは、前のバンド
でありさえすれば最近の非アタック信号バンドにおける
総エネルギーと比較されてもよい。例えば、ei+2 に対
して、 Total Ei+2 /Total Ei ≧threshold L (2) ここで、ei+1 は短ブロックモードである。
【0026】図8は、周波数領域でのブロックサイズ判
定を説明する概略ブロック図を示す。QMFフィルター
81は、(フレームごとに)入力信号をいくつかのサブ
バンドに分離するのに使用される。そして、フレーム内
のすべてのまたは選択された数のサブバンドが、長ブロ
ックサイズの変形離散コサイン変換部(MDCT)82にお
いて長ブロックMDCTを施される。短ブロックモード
/長ブロックモードの決定は、電力スペクトル判定部8
3において判定される。それと同時に、QMFフィルタ
ーを通過したサブバンド信号は、バッファー84に保存
される。
【0027】もし電力スペクトル判定部83におけるモ
ード決定が、あるサブバンドまたはフレームに対して短
ブロックモードに設定されたならば、短ブロックサイズ
の変形離散コサイン変換部(MDCT)85において、その
サブバンドまたはフレームがバッファーから取り出され
て短ブロックMDCTを施され、そして、その結果とし
て得られたMDCT係数には、ダイナミックビットアロ
ケーションおよび量子化部86においてさらなる処理が
施される。長ブロックモードを選択されたサブバンドま
たはフレームは、さらなる変換処理を必要とすることな
く、さらなる処理が施される。
【0028】図3は、本発明の第1の実施形態のフロー
チャートを示す。一般的な状況では、その性質上、ハイ
ブリッド型サブバンド変換符号器が想定される。ただ単
に変換符号化だけが使用される場合には、サブバンドの
数が1として処理されてもよい。ステップ31における
サブバンドの数およびフレームサイズの初期化の後、ブ
ロックサイズの判定が、それぞれのサブバンドに対し
て、そして、サブバンドごとに実行される。例としてA
TRACアルゴリズムを考えれば、フレームサイズは5
12サンプルであり、それは時間領域においては11.
6msである。サブバンドの数は、低域バンド、中域バ
ンド、および、高域バンドの3つである。まず、長ブロ
ックサイズの変換が、オーディオサンプルのそれぞれの
フレームに対して実施される。
【0029】ステップ32で、すべてのフレームが分析
されたかどうかを確認する。ステップ33において、長
ブロックサイズのMDCTが現在のフレームにあるすべ
てのサブバンドに適用され、それと同時に、ステップ3
4において、MDCTを施される前のすべてのサブバン
ドサンプルがバッファーに保存される。ステップ35に
おいて、それぞれのサブバンドに対するMDCT係数に
基づいてエネルギーが計算される。
【0030】ステップ36において、平方根をとること
によってこのエネルギーが正規化され、それぞれのバン
ドに対して総エネルギーが計算される。詳細な計算が以
下に示される。ASD(n)が低域バンドに対するi番
目の周波数スペクトル成分と仮定すれば、n番目の周波
数スペクトル成分のエネルギーは、 E(n)=ASD(n)*ASD(n) (3) である。n番目の周波数スペクトル成分の正規化された
エネルギーは、 E(n) Nor=SQRT(E(n)) =SQRT(ASD(n)*ASD(n)) (4) である。この低域バンド(i番目の低域バンド)に対す
る総エネルギーは、 Total E L(i)=ΣE(n) Nor (5) である。
【0031】ステップ37において、現在のバンドの総
エネルギーが、式(6)に示される所定のしきい値を用
いて、対応するそれの前のバンドにおける総エネルギー
と比較される(それの前のバンドが非アタック信号バン
ドであれば)。 Total E L(i)/Total E L(i−1) ≧Threshold L (6) もし式(6)が満たされるならば、ステップ38におい
て、短ブロックモードがこの低域バンドに選択される。
もし満たされなければ、ステップ310において、長ブ
ロックモードがこのバンドに選択される。もし前のバン
ドがアタック信号バンドであれば、現在のバンドの総エ
ネルギーは、最近かつ前の非アタック信号バンドと比較
される。
【0032】中域バンドおよび高域バンドのそれぞれに
対しても同様の処理手順が用いられ実施される。式
(3)、(4)、(5)、(6)、エネルギー、正規化
されたエネルギー、総エネルギーだけでなく、式(6)
における割り算を用いた比較方法も別の形態で実施され
てもよい。
【0033】ステップ38において短ブロックモードを
選択されたサブバンドのそれぞれが、ステップ34のバ
ッファーから取り出され、ステップ39において、短ブ
ロックMDCTを施される。その結果として得られたM
DCT係数は、ステップ311においてさらなる処理が
施される。一方、ステップ310において長ブロックモ
ードが選択されたサブバンドのそれぞれは、ステップ3
11においてすぐにさらなる処理が施される。
【0034】図4は、本発明の第2の実施形態のフロー
チャートを示す。ステップ41、42、43、および、
44は、図3の対応する方法と同じものである。ステッ
プ45において、エネルギーが、MDCT係数に基づい
て、もっとも高域のバンドだけに対して計算される。
【0035】ステップ46において、このもっとも高域
のバンドに対するエネルギーが正規化され、このもっと
も高域のバンドに対する総エネルギーが計算される。ス
テップ47において、現在のフレームにおけるもっとも
高域のバンドの総エネルギーが、前のフレームにおける
それと所定のしきい値によって比較される。ステップ4
7に示されるように、もし比較結果、 Total E H(i)/Total E H(i−1) が所定のしきい値よりも大きければ、ステップ48に示
されるように、短ブロックモードが、現在のフレームに
おけるすべてのサブバンドに選択される。もしそうでな
ければ、ステップ410に示されるように、長ブロック
モードが、現在のフレームにおけるすべてのサブバンド
に選択される。
【0036】ステップ48において短ブロックモードが
選択されたフレームのすべてのサブバンドが、ステップ
44のバッファーから取り出されて短ブロックMDCT
を施される。その結果として得られたMDCT係数は、
ステップ411において、さらなる処理を施される。一
方、ステップ410において長ブロックモードが選択さ
れたフレームのすべてのサブバンドは、ステップ411
においてさらなる処理が施される。
【0037】
【発明の効果】本発明は、オーディオ信号アタックを検
出するのに優れた効果がある。ここに記述されたブロッ
クサイズ判定技術のいずれを用いても、クリティカルな
過渡的アタック信号を非常に的確に検出することがで
き、それによって、聞き取ることのできるプリエコーを
抑制あるいは除去することができる。これは、変換符号
化のために適切なブロックサイズが使用されてはじめて
可能となる。サポートすることのできる計算処理能力、
RAM、および、ROMなどの容量に応じて、様々な技
術オプションが取り込まれてもよい。
【図面の簡単な説明】
【図1】 (a)は、低域バンド、中域バンド、およ
び、高域バンドからなる3つのサブバンドに分割された
1つのオーディオフレームを説明する図で、(b)は、
ATRACアルゴリズムにおいて使用される長ブロック
/短ブロックのMDCTを説明する図。
【図2】 周波数領域でのブロックサイズ判定方法の原
理および概念を示すグラフ。
【図3】 本発明による周波数領域でのブロックサイズ
判定方法の第1の実施形態を説明するフローチャート。
【図4】 本発明による周波数領域でのブロックサイズ
判定方法の第2の実施形態を説明するフローチャート。
【図5】 適応変換エンコーダーのフロントエンド処理
のブロック図。
【図6】 ATRACエンコーダーのフロントエンド処
理のブロック図。
【図7】 従来のブロックサイズ判定方法のフローチャ
ート。
【図8】 周波数領域でのブロックサイズ判定方法の概
略ブロック図。
【符号の説明】
51…バッファー 52…ブロックサイズ判定部 53…オーディオサンプルの窓および変換部 61…直交ミラーフィルター 62…直交ミラーフィルターセット 63…時間遅延部 64…ブロックサイズ判定部 65,66,67…窓処理および変形離散コサイン変換
処理部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 スア ホン・ネオ シンガポール534415シンガポール、タイ・ セン・アベニュー、ブロック1022、04− 3530番、タイ・セン・インダストリアル・ エステイト、パナソニック・シンガポール 研究所株式会社内 (72)発明者 アー ペン・タン シンガポール534415シンガポール、タイ・ セン・アベニュー、ブロック1022、04− 3530番、タイ・セン・インダストリアル・ エステイト、パナソニック・シンガポール 研究所株式会社内 Fターム(参考) 5D045 DA08 5J064 AA02 BA15 BC12 BC18 BC22 BC25 BD01 BD03 9A001 EE04 KK31

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 オーディオ信号をサブクラスに識別およ
    び類別して変換符号器のブロックサイズを判定する方法
    であって、 a)時間間隔で入力オーディオ信号あるいは入力音声信
    号をサンプルに標本化し、前記サンプルを等しい数のサ
    ンプルからなる各フレームにグループ化するステップ
    と、 b)オーディオサンプルからなる1つかまたはそれ以上
    の前記フレームをバッファリングするステップと、 c)オーディオサンプルからなる前記フレームに長ブロ
    ックサイズの周波数変換を施すステップと、 d)前記長ブロックサイズの周波数変換の出力のすべて
    の周波数成分または指定された周波数よりも高い周波数
    成分に対する周波数スペクトル成分の総エネルギーを計
    算するステップと、 e)現在のフレームにおける前記総エネルギーを前のフ
    レームの総エネルギーと所定のしきい値によって比較
    し、比較結果が所定のしきい値を越える場合には短ブロ
    ックサイズを選択し、そうでない場合には長ブロックサ
    イズを選択し、短ブロックサイズが選択された場合に
    は、長ブロックサイズの周波数変換をすでに施されてい
    るフレームに属するオーディオサンプルがバッファーか
    ら取り出されて短ブロックサイズの周波数変換を施さ
    れ、長ブロックサイズが選択された場合には、先の長ブ
    ロックサイズの周波数変換による結果がさらなる処理に
    使用される、ステップとからなる方法。
  2. 【請求項2】 オーディオ信号をサブクラスに識別およ
    び類別して変換符号器のブロックサイズを判定する方法
    であって、 a)オーディオ信号を異なった周波数バンドに分割する
    ステップと、 b)各周波数バンドごとのオーディオサンプルを等しい
    時間間隔のフレームにグループ化するステップであっ
    て、異なった周波数バンドに属するフレームにおける前
    記オーディオサンプルの数は必ずしも等しくなくてもよ
    い、該グループ化するステップと、 c)各周波数バンドごとのオーディオサンプルからなる
    前記フレームをバッファリングするステップと、 d)最初の長ブロックサイズの周波数変換に用いられる
    選択された数のより高い周波数バンドを指定するステッ
    プと、 e)前記選択されたより高い周波数バンドにおけるオー
    ディオサンプルからなるフレームに長ブロックサイズの
    周波数変換を施すステップと、 f)それぞれの前記より高い周波数バンドごとの総エネ
    ルギーを計算するステップと、 g)現在のより高い周波数バンドにおける前記総エネル
    ギーを前のより高い周波数バンドの総エネルギーと所定
    のしきい値によって比較し、現在のより高い周波数バン
    ドにおける総エネルギーが前の周波数バンドの総エネル
    ギーよりも所定のしきい値だけ大きい場合には短ブロッ
    クサイズを選択し、そうでない場合には長ブロックサイ
    ズを選択し、短ブロックサイズが選択された場合には、
    長ブロックサイズの周波数変換をすでに施されているフ
    レームに属するオーディオサンプルがバッファーから取
    り出されて短ブロックサイズの周波数変換を施され、長
    ブロックサイズが選択された場合には、先の長ブロック
    サイズの周波数変換による結果がさらなる処理に使用さ
    れてもよい、ステップと、 h)先に変換を施されていないより低い周波数バンドに
    おけるオーディオサンプルが、それに応じて短ブロック
    サイズまたは長ブロックサイズの変換を施されるステッ
    プとからなる方法。
  3. 【請求項3】 オーディオ信号をサブクラスに識別およ
    び類別して変換符号器のブロックサイズを判定する方法
    であって、 a)オーディオ信号を異なった周波数バンドに分割する
    ステップと、 b)各周波数バンドごとのオーディオサンプルを等しい
    時間間隔のフレームにグループ化するステップであっ
    て、異なった周波数バンドに属するフレームにおける前
    記オーディオサンプルの数は必ずしも等しくなくてもよ
    い、該グループ化するステップと、 c)各周波数バンドごとのオーディオサンプルからなる
    前記フレームをバッファリングするステップと、 d)各周波数バンドごとのオーディオサンプルからなる
    そのフレームに長ブロックサイズの周波数変換を施すス
    テップと、 e)それぞれの前記周波数バンドごとの総エネルギーを
    計算するステップと、 f)現在のバンドにおける前記総エネルギーを対応する
    前のバンドにおける総エネルギーと所定のしきい値によ
    って比較し、判定処理が、選択された周波数バンドに対
    しては短ブロックサイズを指定し、それ以外に対しては
    長ブロックサイズを指定するステップと、 g)短ブロックサイズを使用することが選択された周波
    数バンドにおけるオーディオサンプルが、それに応じて
    短ブロックサイズの変換を施されるステップとからなる
    方法。
  4. 【請求項4】 請求項3に記載の方法であって、上記ス
    テップf)のブロックサイズ判定方法は、 a)個々のバンドに対する異なる所定のしきい値を用い
    て、現在のフレームにおけるそれぞれのバンドの総エネ
    ルギーを前のフレームにおける対応するバンドの総エネ
    ルギーとそれぞれ比較するステップと、 b)現在のフレームにおけるあるバンドの総エネルギー
    が、前のフレームにおける対応するバンドの総エネルギ
    ーを所定のしきい値で越える場合には、短ブロックサイ
    ズを選択し、そうでない場合には、長ブロックサイズを
    選択するステップとからなる方法。
  5. 【請求項5】 あるバンド/フレームの前記総エネルギ
    ーが、そのバンド/フレームに属する周波数スペクトル
    成分から計算され、それは、周波数成分のいかなる形態
    であってもよく、所定のしきい値の選択は、総エネルギ
    ーのその異なる形態に依存するものであることを特徴と
    する請求項1、2、3、4のいずれかに記載の方法。
  6. 【請求項6】 2つのエネルギー値の間の前記比較が、
    第1の値を第2の値で除算することに基づくものであっ
    てもよく、また、第1の値から第2の値を引き算するこ
    とに基づくものであってもよく、異なる所定のしきい値
    が、個々の比較に対して選択されることを特徴とする請
    求項1、2、3、4のいずれかに記載の方法。
JP10308317A 1998-10-29 1998-10-29 オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法 Pending JP2000134106A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10308317A JP2000134106A (ja) 1998-10-29 1998-10-29 オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10308317A JP2000134106A (ja) 1998-10-29 1998-10-29 オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法

Publications (1)

Publication Number Publication Date
JP2000134106A true JP2000134106A (ja) 2000-05-12

Family

ID=17979607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10308317A Pending JP2000134106A (ja) 1998-10-29 1998-10-29 オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法

Country Status (1)

Country Link
JP (1) JP2000134106A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006008817A1 (ja) * 2004-07-22 2006-01-26 Fujitsu Limited オーディオ符号化装置及びオーディオ符号化方法
JPWO2006046546A1 (ja) * 2004-10-26 2008-05-22 松下電器産業株式会社 音声符号化装置および音声符号化方法
JP4794452B2 (ja) * 2003-09-29 2011-10-19 ソニー エレクトロニクス インク オーディオ符号化におけるmdctデータに基づくウィンドウタイプ決定方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4794452B2 (ja) * 2003-09-29 2011-10-19 ソニー エレクトロニクス インク オーディオ符号化におけるmdctデータに基づくウィンドウタイプ決定方法
WO2006008817A1 (ja) * 2004-07-22 2006-01-26 Fujitsu Limited オーディオ符号化装置及びオーディオ符号化方法
JPWO2006008817A1 (ja) * 2004-07-22 2008-05-01 富士通株式会社 オーディオ符号化装置及びオーディオ符号化方法
JP4533386B2 (ja) * 2004-07-22 2010-09-01 富士通株式会社 オーディオ符号化装置及びオーディオ符号化方法
JPWO2006046546A1 (ja) * 2004-10-26 2008-05-22 松下電器産業株式会社 音声符号化装置および音声符号化方法
JP5100124B2 (ja) * 2004-10-26 2012-12-19 パナソニック株式会社 音声符号化装置および音声符号化方法

Similar Documents

Publication Publication Date Title
US6424936B1 (en) Block size determination and adaptation method for audio transform coding
US5471558A (en) Data compression method and apparatus in which quantizing bits are allocated to a block in a present frame in response to the block in a past frame
JP3134455B2 (ja) 高能率符号化装置及び方法
US6308150B1 (en) Dynamic bit allocation apparatus and method for audio coding
JP3186292B2 (ja) 高能率符号化方法及び装置
EP1998321B1 (en) Method and apparatus for encoding/decoding a digital signal
JP3153933B2 (ja) データ符号化装置及び方法並びにデータ復号化装置及び方法
KR20010021226A (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
JP2000101439A (ja) 情報処理装置および方法、情報記録装置および方法、記録媒体、並びに提供媒体
US7835915B2 (en) Scalable stereo audio coding/decoding method and apparatus
EP1455344A1 (en) Mask generation process and device in an audio encoder
JP3158932B2 (ja) 信号符号化装置及び信号復号化装置
US5651089A (en) Block size determination according to differences between the peaks of adjacent and non-adjacent blocks in a transform coder
JPH08166799A (ja) 高能率符号化方法及び装置
JP2000134106A (ja) オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法
JP3297238B2 (ja) 適応的符号化システム及びビット割当方法
JP2006126372A (ja) オーディオ信号符号化装置、方法及びプログラム
JP2917766B2 (ja) 音声高能率符号化装置
JP2001077698A (ja) オーディオ符号化アプリケーションに対するブロックサイズ決定方法
Luo et al. High quality wavelet-packet based audio coder with adaptive quantization
KR100340368B1 (ko) 고능률부호화장치,복호화장치및디지털데이터도출방법
JPH07336231A (ja) 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体
JPH09261063A (ja) 信号符号化方法および装置
JPH1032494A (ja) ディジタル信号処理方法及び処理装置、ディジタル信号記録方法及び記録装置、記録媒体並びにディジタル信号送信方法及び送信装置
JP2001249699A (ja) 音声圧縮装置