JP3145339B2

JP3145339B2 - オーディオ信号処理方法

Info

Publication number: JP3145339B2
Application number: JP23455597A
Authority: JP
Inventors: ブランデンバーグカールハイツ; デビッドジョンストンジェームス
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1990-03-09
Filing date: 1997-08-29
Publication date: 2001-03-12
Anticipated expiration: 2016-03-12
Also published as: EP0446037B1; DE69127842D1; EP0446037A2; SG44675A1; JP2774203B2; KR910017780A; DE69127842T2; HK1002743A1; KR0185582B1; JPH10133699A; EP0446037A3; CA2037780C; JPH04219799A; CA2037780A1

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声または音楽情報を
表すオーディオ信号のような時間と共に変わる信号の符
号化に関する。

【０００２】

【従来の技術】近年、高品質デジタルオーディオ用の進
歩したビットレート減少アルゴリズムがいくつか提案さ
れている。これらのアルゴリズムでは、ほぼ透明な品質
を、周波数領域の試みで、下は６４キロビット／秒まで
のビットレートで達成することができる。

【０００３】図１は、周波数領域知覚符号器のすべてに
共通な基本的なブロック線図である。フィルタバンク１
０１は、入力信号をサブサンプリングされたスペクトル
成分に分解するために使用される。このサブサンプリン
グスペクトル成分は、次に、公知の仕方で心理音響学か
ら知られた規則を用いてブロック１０２において実際の
（時間依存）マスキングしきい値の推定値を計算するた
めに使用される。

【０００４】スペクトル成分は、次に、量子化により導
入される雑音をマスキングしきい値より下に保持する目
的で、ブロック１０３において量子化、そして、符号化
される。このアルゴリズムに依存して、このステップ
は、合成システムによって、簡単なブロック圧伸から、
別の無雑音圧縮を用いる分析による合成システムまで
の、さまざまな方法でなされる。

【０００５】最後に、マルチプレクサ１０４は、一般に
量子化され符号化されたスペクトル係数と、何らかの補
助情報、例えば、ビット割当て情報より構成されるビッ
トストリームを組み立てるために使用される。

【０００６】上記の構成で普通使用されるフィルタバン
クの設計には二つある。一つの形式は、いわゆるトリー
（木）構造のフィルタバンクである。これは、心理音響
学から知られる臨界帯域（クリティカルバンド）に従っ
て設定される個々の帯域のフィルタ帯域幅で設計され
る。また、変換符号器で使用されるフィルタバンクも知
られている。

【０００７】この変換符号器は、計算が複雑でない、等
しい帯域幅のフィルタを持つフィルタバンクを実現する
ためにウィンドウ変換を使用する。変換符号器は、一般
的には、１２８個ないし１０２４個のスペクトル成分を
計算する。このスペクトル成分は、また臨界帯域により
グループ化をすることもできる。

【０００８】高品質デジタル音響符号化で使用される分
析／合成システムの設計の基本的な問題は、時間領域の
挙動と周波数領域の挙動との間の妥協である。より多く
のスペクトル成分を使用すれば、マスキング機能を、よ
りよい精度で評価することができる。さらに、スペクト
ル成分のより高度な無相関性、従って、より高い符号化
利得を達成することができる。

【０００９】一方、より高度なスペクトル分解能では、
時間分解能はそれほど必要ではなくなるが、これによ
り、従来技術で公知のように、プリエコーの問題と処理
の遅れの増大が生じる。

【００１０】

【発明が解決しようとする課題】本発明が解決しようと
する問題点は、プリエコーの問題と処理の遅れの増大を
防止することである。

【００１１】

【課題を解決するための手段】本発明は、人間の耳によ
るオーディオ信号の処理にさらに似た処理を介して従来
技術の限界を克服しようとする構成および方法を提供す
る。特に、本発明は、異なる時間分解能および異なる周
波数での異なる周波数分解能をもつフィルタバンクとし
て耳をモデル化する。かくして、本発明は、人間の耳に
よりよい適合を達成する分析構造を提供する。

【００１２】代表的な実施例における本発明の混成符号
器は、適切な周波数帯域内への入力オーディオ信号の最
初の分離を行うために直交ミラーフィルタを使用する。
このフィルタ出力は、再び、ウィンドウ変換法を用いて
フィルタされて多くのチャネルを持つ計算に有効なフィ
ルタバンクの効果を与える。

【００１３】このフィルタされた信号用のマスキングし
きい値は、「スーパーブロック」技術を用いて決定され
る。本発明者による以前の発明の場合のように、適切な
マスキングしきい値を実際に生成する際に「調性」尺度
が使用される。本発明では、しかし、臨界帯域、あるい
はさらに、単一のスペクトル線に局部的な改良になる調
性尺度が使用される。好都合にも、公知のＯＣＦ符号化
と量子化技術が使用されて伝送または記憶のために知覚
符号化信号をさらに処理する。

【００１４】

【実施例】

［新規な分析／合成フィルタブロック］本発明の実施例
による混成符号器は、混成ＱＭＦ／変換フィルタバンク
を使用する。図２は、その基本的な分析／合成システム
を示す。時間領域値は、まず、従来のＱＭＦトリーフィ
ルタバンク２０１〜２０３によりフィルタされる。この
フィルタバンクは、３ｋＨｚないし１２ｋＨｚの帯域幅
（周波数分解能）、従って、２サンプル時間分解能ない
し８サンプル時間分解能を持つ４チャネルを得るために
使用される。

【００１５】ＱＭＦフィルタバンクは、本設計の目的を
満足する最適化したフィルタが容易に利用されるので、
選択されただけである。また、従来例から得られる８０
タップＱＭＦフィルタを使用することが好都合であるこ
とが分かった。この８０タップフィルタは、明らかに、
過剰設計である。すなわち、より簡単な計算で明らかに
十分である。

【００１６】古典的なＱＭＦトリーフィルタバンクが、
入力信号の「完全な再構成」をもたらさないということ
は公知である。しかし、例示的に使用された８０タップ
フィルタは、パスバンドのリプルの和が１６ビット分解
能よりも低いという意味で、分析／合成フィルタバンク
のほぼ完全な再構成をもたらす。かくして、丸め込みに
より完全な再構成が得られる。

【００１７】ＱＭＦトリーフィルタバンクの出力信号
は、多くのチャネルを持つ効果的な計算フィルタバンク
２１０ないし２１３を得るためにウィンドウ変換を使用
して再びフィルタされる。この使用されるウィンドウ
は、５０％重複の分析ブロックを使用する正弦ウィンド
ウである。このために、２つの異なる変換が使用され
た。使用しても良い第１の変換は古典的なＤＦＴであ
り、これは、６５本または１２９本の（最低周波数）の
複素線を計算する。この試みでは、分析／合成フィルタ
バンクの臨界的なサンプリングはされない。

【００１８】一方、複素周波数線の予測は、さらにデー
タ速度を減少させるために容易に使用することができ
る。あるいは、従来技術で使用された拡張ＤＣＴ（ＭＤ
ＣＴ）も使用して良い。この従来技術は、サブバンドあ
たり６４個または１２８個の周波数値を計算し、そし
て、臨界的にサンプリングを行う。このＭＤＣＴ方法を
用いれば、ＤＦＴの解法に比較してサンプルの半分だけ
が量子化され、そして、符号化されるだけでよい。

【００１９】この組み合わせのフィルタバンクは、低周
波数で２３．４Ｈｚの周波数分解能と、高周波数で１８
７．５Ｈｚの周波数分解能を有し、時間分解能は対応的
に相違している。時間分解能が例示的には２の累乗で量
子化されるが、分析／合成方法の進歩により時間／周波
数の分解能の範囲が増大され並びに量子化が少なくな
る。

【００２０】周波数帯域に依存するが、ＱＭＦトリーフ
ィルタバンクの特性は、低周波数でブロック長１０２４
および高周波でブロック長１２８のＭＤＣＴフィルタバ
ンクに類似している。かくして、低周波数での周波数分
解能は、知覚モデルにとって十分であり、高周波数での
時間分解能は、付加的なアルゴリズムを適用せずにプリ
エコー制御にとって十分に短い。リスト１は、混成符号
器で使用される組み合わせフィルタバンク用の時間およ
び周波数の分解能値を示す。

【００２１】下方周波数限界上方周波数限界周波数分解能時間分解能時間分解能ＨｚＨｚＨｚサンプルｍｓ０．０３０００．２３．４１０２４２１．３３０００．６０００．４６．８５１２１０．７６０００．１２０００．９３．６２５６５．３１２０００２４０００１８７．２１２８２．７リスト１：分析／合成フィルタバンクの時間分解能およ
び周波数分解能

【００２２】マスキングしきい値は、このフィルタバン
クの出力信号の構成を使用して評価する。この計算は、
低周波数変換区間にある高周波変換の数に対応する８個
の「時間スライス」を含む「スーパーブロック」につい
てなされる。より低い周波数帯域の信号エネルギーは、
８個の時間スライスどうしの間で等しく分配され、そし
て、中間周波数の信号エネルギーは、その変換レートに
従って分配される。「スーパーブロック」の割当ては図
３に示してある。

【００２３】次に、しきい値は、公知の方法に類似した
改良方法を用いて８個の時間スライスのそれぞれについ
て計算される。複数の時間スライスにわたり広がった変
換用のしきい値どうしは加えられて、各変換ブロックに
含まれる臨界帯域用の適切な時間分解能でマスキングし
きい値を評価する。臨界帯域の境界は、サブバンドの境
界と並べられて２５個の臨界帯域を生ずる。実際の量子
化器および符号器は、信号を分かりやすく符号化するた
めに、評価されたマスキングのしきい値により示される
以上の雑音は加えてはならない。

【００２４】［調性の計算］狭帯域信号のマスキングし
きい値用の互いに異なる値は、雑音を遮るトーンおよび
マスカとしての雑音に関する文献で報告されている。こ
の場合、スペクトルの平坦性の尺度が、信号の短時間の
スペクトルの大域的な「調性」を計算するために使用さ
れた。この調性度は、ヘルマンとシャーフの文献からの
マスキングしきい値公式どうしの間を内挿するために使
用された。大域的な調性の概念には問題があることが分
かっている。

【００２５】いくつかの信号、特に音声信号あるいは
「アカペラ」歌手（図４参照）の場合、「音色」部分
（ピッチ周波数の低調波）と高周波数のかなりのエネル
ギーの「雑音」部分を持つスペクトルを示す。大域的な
スペクトルの平坦度の測定の結果は、この信号の一部が
非常に「音色的」（すなわち、変換ブロックから変換ブ
ロックにわたりコヒーレントである）ということは示さ
ない。さらに、すなわち、調性が、このような信号の感
応（音色）部分について正しく評価されたとしても、以
前に使用された公式は、高周波では非常に保守的なマス
キングしきい値になり、それにより、過度のビットレー
トが必要となる。

【００２６】従来例で用いられた変更になる評価のマス
キングしきい値での実験と、従来方法で用いられたマス
キングしきい値の評価への別の試みの結果とにより新し
い調性尺度への探求が起こった。

【００２７】本発明の１つの態様で使用されているよう
に、信号調性によりマスキングの量を評価することは、
大域的な値としてではなく、臨界帯域またはさらに単一
のスペクトル線に局所的な特性としてモデル化される。
例示的な混成符号器の場合、この局所的な調性はコヒー
レンス度により評価される。

【００２８】各々のスペクトル成分（＝サブバンドまた
は変換係数）ごとに、コヒーレンス度が計算される。こ
れは、複素平面における極座標で計算された単純な予測
を用いて行われる。いくつかの予測子が試験され、そし
て、以下に記載するものが性能の基礎として選択され
た。時間ｔと周波数ｆにおけるスペクトル値の半径をｒ
（ｔ，ｆ）とし、ｔとｆにおける位相値をφ（ｔ，ｆ）
とする。

【００２９】すると、時間ｔにおけるｒとφの予測値ｒ
＾は次のごとく計算される：

【数１】実際の値と予測した値との間のユークリッド距離は、新
しい調性距離ｃ（ｔ，ｆ）を得るために使用される、従
って

【数２】

【００３０】予想が非常に良好であるということが分か
ると、ｃ（ｔ，ｆ）は０に近い値を有する。一方、非常
に予想しがたい（雑音）信号の場合、ｃ（ｔ，ｆ）は、
平均０．５で１までの値を有する。この「逆調性」ある
いは「混沌度」は、簡単な対数線形演算により、次のご
とく調性距離に変換される：ｔ＝αｌｎｃ＋β

【００３１】この新しい調性距離は、古い調性距離につ
いて従来例に記載されたと同じ方法で各スペクトル成分
におけるマスキングしきい値を評価するために使用され
る。以下のプログラムは、５１２個のサンプルの入力シ
ーケンスの場合におけるｃ（ｔ，ｆ）を形成するために
使用される処理を示す。以下のプログラムは、公知のフ
ォートランプログラミング言語で記載されている。 C First startup routine SUBROUTINE STRT() C sets up threshold generation tables, ITHR and BVAL REAL FREQ(0:25)/0.,100.,200.,300.,400.,510.,630.,770., 1 920.,1080.,1270.,1480.,1720.,2000.,2320.,2700., 1 3150.,3700.,4400.,5300.,6400.,7700.,9500.,12000.,15500., 1 25000./ COMMON /THRESH/ITHR(26),BVAL(257),RNORM(257) COMMON /ABSTHR/ABSLOW(257) COMMON /SIGS/IFIRST C ITHR(I) is bottom of critical band I. BVAL is bark index C of each line WRITE(*,*) 'What spl will +-32000 be -> ' READ(*,*) ABSLEV ABSLEV=ABSLEV-96. ABSLOW=5224245.*5224245./EXP(9.6*ALOG(10.)) IFIRST=0 WRITE(*,*) 'What is the sampling rate' READ(*,*) RZOTZ FNYQ=RZOTZ/2. C Nyquist frequency of interest. ITHR(1)=2. I=2 10 ITHR(I)=FREQ(I-1)/FNYQ*256.+2. I=I+1 IF(FREQ(I-1).LT.FNYQ) GO TO 10 C sets ITHR to bottom of CB ITHR(I:26)=257 C now, set up the critical band indexing array BVAL(1)=0 C first, figure out frequency, then ... DO I=2,257,1 FRE=(I-1)/256.*FNYQ C WRITE(*,*) I,FRE C FRE is now the frequency of the line. Convert C it to critical band number .. DO J=0,25,1 IF(FRE.GT.FREQ(J)) K=J END DO C so now, K = last CB lower than FRE RPART=FRE-FREQ(K) RANGE=FREQ(K+1)-FREQ(K) BVAL(I)=K+RPART/RANGE END DO RNORM=1 DO I=2,257,1 TMP=0 DO J=2,257,1 TMP=TMP+SPRDNGF(BVAL(J),BVAL(I)) END DO RNORM(I)=TMP END DO RNORM=1./RNORM C DO I=1,257,1 C WRITE(*,*) I,BVAL(I),10.*ALOG10(RNORM(I)) C END DO CALL OPENAS(0,'/usr/jj/nsrc/thrtry/freqlist',0) DO I=2,257,1 READ(0,*) II,DB IF(II.NE.I) THEN WRITE(*,*) 'freqlist is bad.' STOP END IF DB=EXP((DB-ABSLEV)/10.*ALOG(10.)) C WRITE(*,*) I,DB ABSLOW(I)=ABSLOW(I)*DB END DO ABSLOW(1)=1. WRITE(*,*) 'lowest level is ',SQRT(ABSLOW(45)) RETURN END C Threshold calculation program SUBROUTINE THRGEN(RT,PHI,THR) REAL R(257),PHI(257) REAL RT(257) REAL THR(257) COMMON /BLNK/OR(257),OPHI(257),DR(257),DPHI(257) COMMON /BLK1/OTHR(257) REAL ALPHA(257),TR(257),TPHI(257) REAL BETA(257),BCALC(257) COMMON /ABSTHR/ABSLOW(257) COMMON /THRESH/ITHR(26),BVAL(257),RNORM(257) COMMON /SIGS/IFIRST R=MAX(RT,.0005) BCALC=1. IF(IFIRST.EQ.0) THEN OR=0. OTHR=1E20 OPHI=0 DR=0 DPHI=0 IFIRST=1 END IF C This subroutine figures out the new threshold values C using line-by-line measurement. TR=OR+DR TPHI=OPHI+DPHI DR=R-OR DPHI=PHI-OPHI OR=R OPHI=PHI ALPHA=SQRT((R*COS(PHI)-TR*COS(TPHI)) 1 *(R*COS(PHI)-TR*COS(TPHI)) 2 +(R*SIN(PHI)-TR*SIN(TPHI)) 3 *(R*SIN(PHI)-TR*SIN(TPHI))) 4 /(R+ABS(TR)+1.) BETA=ALPHA C now, beta is the unweighted tonality factor ALPHA=R*R C now, the energy is in each C line. Must spread. C WRITE(*,*) 'before spreading' THR=0. BCALC=0. Cvd$l CNCALL DO I=2,257,1 Cvd$l CNCALL DO J=2,257,1 GLORCH=SPRDNGF(BVAL(J),BVAL(I)) THR(I)=ALPHA(J)*GLORCH+THR(I) BCALC(I)=ALPHA(J)*GLORCH*BETA(J)+BCALC(I) C THR is the spread energy, BCALC is the weighted chaos END DO C IF(THR(I).EQ.0) THEN C WRITE(*,*) 'zero threshold,' C STOP C END IF BCALC(I)=BCALC(I)/THR(I) IF(BCALC(I).GT.5) BCALC(I)=1.-BCALC(I) C that normalizes BCALC to 0-.5 END DO C WRITE(*,*) 'after spreading' BCALC=MAX(BCALC,.05) BCALC=MIN(BCALC,.5) C BCALC is now the chaos metric, convert to the C tonality metric BCALC=-.43*ALOG(BCALC)-.299 C now calculate DB BCALC=MAX(24.5,(15.5+BVAL))*BCALC+5.5*(1.-BCALC) BCALC=EXP((-BCALC/10.)*ALOG(10.)) C Now, BCALC is actual tonality factor, for power C space. THR=THR*RNORM*BCALC C threshold is tonality factor times energy (with normalization) THR=MAX(THR,ABSLOW) ALPHA=THR THR=MIN(THR,OTHR*2.) OTHR=ALPHA C WRITE(*,*) 'leaving THRGEN' RETURN END C And, the spreading function FUNCTION SPRDNGF(J,I) REAL I,J REAL SPRDNGF C this calculates the value of the speading function for C the i'th bark, with the center being the j'th C bark TEMP1=I-J TEMP2=15.811389+7.5*(TEMP1+.474) TEMP2=TEMP2-17.5*SQRT(1.+(TEMP1+.474)*(TEMP1+.474)) IF(TEMP2.LE.-100.) THEN TEMP3=0. ELSE TEMP2=TEMP2/10.*ALOG(10.) TEMP3=EXP(TEMP2) END IF SPRDNGF=TEMP3 RETURN END 絶対しきい値ファイル（開始ルーチンSTRT()の"freqlist"ファイル） 1 56 3. 111 16. 166 16. 221 50. 2 27. 57 4. 112 17. 167 16. 222 50. 3 18. 58 4. 113 17. 168 16. 223 50. 4 16. 59 5. 114 17. 169 16. 224 50. 5 10. 60 5. 115 17. 170 16. 225 50. 6 9. 61 5. 116 18. 171 17. 226 50. 7 8. 62 6. 117 18. 172 17. 227 50. 8 8. 63 6. 118 18. 173 17. 228 50. 9 8. 64 6. 119 18. 174 17. 229 50. 10 8. 65 6. 120 18. 175 17. 230 50. 11 8. 66 7. 121 18. 176 17. 231 50. 12 7. 67 7. 122 18. 177 18. 232 50. 13 7. 68 7. 123 18. 178 18. 233 50. 14 7. 69 8. 124 17. 179 18. 234 60. 15 7. 70 9. 125 17. 180 18. 235 60. 16 7. 71 10. 126 16. 181 18. 236 60. 17 7. 72 10. 127 16. 182 19. 237 60. 18 7. 73 10. 128 16. 183 19. 238 60. 19 7. 74 10. 129 16. 184 19. 239 60. 20 7. 75 10. 130 15. 185 19. 240 60. 21 7. 76 10. 131 15. 186 19. 241 60. 22 7. 77 10. 132 15. 187 20. 242 60. 23 7. 78 10. 133 15. 188 21. 243 60. 24 7. 79 10. 134 14. 189 22. 244 60. 25 6. 80 10. 135 14. 190 23. 245 60. 26 5. 81 11. 136 13. 191 24. 246 60. 27 5. 82 11. 137 12. 192 25. 247 60. 28 5. 83 11. 138 12. 193 26. 248 60. 29 5. 84 11. 139 12. 194 27. 249 60. 30 5. 85 11. 140 12. 195 28. 250 60. 31 4. 86 12. 141 12. 196 29. 251 60. 32 4. 87 12. 142 12. 197 30. 252 60. 33 4. 88 12. 143 12. 198 31. 253 60. 34 4. 89 12. 144 13. 199 32. 254 60. 35 4. 90 12. 145 13. 200 33. 255 60. 36 3. 91 12. 146 14. 201 34. 256 60. 37 3. 92 13. 147 14. 202 35. 257 60. 38 3. 93 13. 148 14. 203 36. 39 3. 94 13. 149 14. 204 37. 40 2. 95 13. 150 14. 205 38. 41 2. 96 13. 151 14. 206 39. 42 1. 97 13. 152 14. 207 40. 43 1. 98 14. 153 14. 208 41. 44 1. 99 14. 154 14. 209 42. 45 1. 100 14. 155 14. 210 43. 46 0. 101 14. 156 15. 211 44. 47 0. 102 15. 157 15. 212 45. 48 0. 103 15. 158 15. 213 46. 49 0. 104 15. 159 15. 214 47. 50 0. 105 15. 160 15. 215 48. 51 0. 106 15. 161 15. 216 49. 52 2. 107 16. 162 15. 217 50. 53 2. 108 16. 163 15. 218 50. 54 2. 109 16. 164 15. 219 50. 55 3. 110 16. 165 15. 220 50. このプログラムは、市販されている汎用コンピュータで
使用されるものであるが、他の汎用プロセッサまたは専
用プロセッサでの使用に容易に適合させることができ
る。

【００３２】本教示、すなわち、ＯＣＦ（周波数領域の
最適符号化）の量子化と符号化方法による混成符号器の
代表的な形では、公知の文献に記載のシステムが使用さ
れた。その合成による分析方法では、スペクトル成分
が、まず、非一様量子化器を使用して量子化される。

【００３３】その内側繰り返しループ（レートループ）
では、エントロピー符号を使用して量子化値を符号化す
るために必要とされるビットの合計数が、利用可能なビ
ットの数と比較される。利用可能なビットに対する実際
のビットの比に依存して、量子化ステップの大きさが調
整され、量子化値のブロックを符号化するに必要な別の
ビット数が得られる。

【００３４】外側反復ループ（歪制御ループ）は、各々
の臨界帯域ごとの実際の量子化雑音エネルギーを、評価
したマスキングしきい値と比較する。実際の雑音がいず
れかの臨界帯域におけるマスキングしきい値を越える
と、この臨界帯域におけるスペクトル成分の比率が調整
されてより低い量子化雑音を発生する。

【００３５】図５は、量子化および符号化に使用される
反復ループのブロック線図を示す。このアルゴリズムは
公知の論文に詳しく記載されている。図５は、伝送また
は記憶されるべき実際のビット列を発生するために心理
音響的しきい値および関連する上に述べた情報を、ＯＣ
Ｆシステムのような符号器が使用する方法を示す。

【００３６】かくして、入力点５００における入力情報
は、適切にバッファリングされ、適当にブロックに区分
けされ、そして、上記の方法で変換されていると仮定す
る。適当な可変分解能スペクトル情報はブロック５０４
にも提供される。このブロック５０４は、ブロック５０
２における量子化の前に、ブロック５０１において、重
み付け周波数信号に対し心理音響評価を与える。

【００３７】実際のエントロピーの符号化は、図５のブ
ロック５０３により表される。かくして、入力信号のス
ペクトル情報を記述する情報は、出力５１５で与えられ
る。サイクルの音響評価および量子化方法を記述する補
助情報は、出力点５２０と５２５から出力される。すべ
ての出力は、伝送または記憶のために単一のビット列へ
と適宜多重化される。

【００３８】知覚エントロピーＰＥ（公知）は、人間の
聴覚システムの能力を基準とした１つの音楽の情報内容
の評価である。これは、与えられた合成による分析方法
を用いて１つの音楽の透過的符号化に必要な最小のビッ
トレートを評価する。公知の論文に示されているよう
に、ＰＥは、マスキングしきい値における１つの音楽を
符号化するに必要な量子化レベルの数から計算される。

【００３９】混成符号器の合成による分析構成を使用し
て、ＰＥの評価が、異なる音楽ごとに計算された。リス
ト２は、その結果、および、それらと、他の合成による
分析システムを使用して測定したＰＥとの比較を示す。
これから、混成符号器が従来の結果と比較してうまく機
能することが分かる。

【００４０】音楽旧ＰＥ新ＰＥ（型）（ビット／サンプル）（ビット／サンプル）オルガン．２４．４８スザンベーガ．６９．５４カスタネット．７３．５２リスト２：ＰＥ測定の結果

【００４１】上記のＯＣＦの量子化／符号化方法を使用
して、混成符号器の代表的な結果が集められた。使用さ
れたビットレートはチャネルあたり６４キロビット／秒
であり、基本的なブロック長は、１０２４個の時間領域
サンプルであった。ＭＤＣＴは、ＱＭＦトリーからの組
み合せフィルタバンクの出力を計算するために使用され
た。試験曲のサンプリング速度は４８ｋＨｚであった。
信号は、２０ｋＨｚまでの帯域幅で符号化された。６４
キロビット／秒での各ブロックごとに利用できる１３６
２ビットの中から、２２６ビットが、補助情報を符号化
するために使用された。

【００４２】以上、改善した時間／周波数分解能を使用
する第２世代知覚符号器について説明した。大いに改良
されたしきい値を提供するために、周波数ごとに、周波
数に基づいて計算された調性距離が、各周波数ごとの符
号器の雑音しきい値の計算と組み合わされる。本発明
は、かくして、低ビットレートで高品質デジタルオーデ
ィオの公知の符号化に優る有利な性能を提供する。

【００４３】上記の教示による復号器は、上記の試みを
用いて構成することができる。本発明により提供される
改善された時間／周波数分解能のために、対応する改良
になる処理が復号器で達成される。

【００４４】符号器での元の入力信号を再構成するため
に受信器あるいは復号器で使用される情報は、もちろ
ん、図５により表されるシステムからの出力として提供
される情報である。特に、必要ならば分離化の後に、ス
ペクトル情報および補助情報は元の入力信号を再構成す
るために使用される。

【００４５】全体利得、量子化器ステップサイズ、スケ
ーリング係数、ビット割当てなどを含むサイクル音響評
価および量子化方法を記述する情報とともに、サンプリ
ングした時間領域信号を、その周波数成分から再構成す
るのに必要なすべての情報は、受信器／復号器に存在す
る。

【００４６】非一様な周波数および時間の分解能（両方
とも周波数の関数として）に関する情報も復号器で使用
される。元のアナログ信号の再生用の（例えば、拡声器
で）等価なアナログ信号を発生することが必要とされる
場合には、高忠実度での公知のデジタル−アナログ変換
も、提供される。

【００４７】以上の説明は、本発明の一実施例に関する
もので、この技術分野の当業者であれば、本発明の種々
の変形例が考え得るが、それらはいずれも本発明の技術
的範囲に包含される。尚、特許請求の範囲に記載した参
照番号は発明の容易なる理解のためで、その技術的範囲
を制限するよう解釈されるべきではない。

【００４８】

【発明の効果】以上述べたごとく、本発明によれば、従
来技術におけるプリエコーの問題と処理の遅れの増大を
防止することができる。

【図面の簡単な説明】

【図１】知覚符号器の一般的なブロック線図である。

【図２】図１に示した種類のシステムの構成における本
発明の混成符号器で使用される基本的な分析システムを
示す。

【図３】図２の混成分析構成の時間／周波数内部構成を
示す。

【図４】試験信号の短時間スペクトルを示す。

【図５】本発明の代表的な実施の場合の反復ループのブ
ロック線図を示す。

【符号の説明】

１０１分析フィルタバンク１０２心理音響学に基づくマスキングしきい値の計算１０３量子化および符号化１０４直列ビット列の多重化１０５ビット列２０１，２０２，２０３８０タップ２１０，２１１，２１２６４線ウィンドウ変換２１３１２８線ウィンドウ変換５０１スペクトル重み付け５０２量子化器５０３エントロピー符号化５０４量子化プロセスの心理音響評価

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジェームスデビッドジョンストンアメリカ合衆国 07060 ニュージャージィ、ワレン、バレービューロード８ (56)参考文献特開昭58−193598（ＪＰ，Ａ) 特開昭58−77010（ＪＰ，Ａ) 特開昭60−69699（ＪＰ，Ａ) 特開昭59−129900（ＪＰ，Ａ) 特開昭63−285032（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 19/00 G10L 19/02

Claims

(57)【特許請求の範囲】

【請求項１】第１の周波数係数セットを含む離散周波
数スペクトルをそれぞれ有するブロックの順序セットに
分割されたオーディオ信号の時系列を処理する方法にお
いて、直交ミラーフィルタによって前記第１の周波数セットを
それぞれ隣接する周波数範囲を表す複数の周波数帯域へ
とフィルタリングするステップと、ウィンドウ変換フィルタによって前記周波数帯域のうち
の少なくとも１つをそれぞれ少なくとも１つの周波数係
数を含む複数の周波数群へとフィルタリングするステッ
プと、調性に影響を与えずに周波数群に導入されうる量子化ノ
イズの量を示すノイズマスキングしきい値を、各周波数
群内の周波数係数ごとに決定するステップと、前記ノイズマスキングしきい値に基づいて、前記周波数
群のうちの少なくとも１つにおける少なくとも１つの周
波数係数を量子化するステップとからなり、前記２つのフィルタリングするステップは、相異なる周
波数で相異なる時間および相異なる分解能により前記周
波数係数を生成することにより人間の聴覚応答を近似す
るものであることを特徴とするオーディオ信号処理方
法。
【請求項２】前記ウィンドウ変換フィルタは拡張離散
コサイン変換フィルタであることを特徴とする請求項１
の方法。
【請求項３】前記ウィンドウ変換フィルタは離散フー
リエ変換フィルタであることを特徴とする請求項１の方
法。
【請求項４】前記ノイズマスキングしきい値は、各周
波数群に対する調性距離を決定するステップに基づいて
決定され、当該調性距離は、当該周波数群のオーディオ
信号の時系列が楽音品質を含む程度に対応することを特
徴とする請求項１の方法。
【請求項５】前記調性距離はコヒーレンス測度に基づ
いて生成されることを特徴とする請求項４の方法。
【請求項６】前記コヒーレンス測度は、特定の時刻に
おいて周波数係数の複素平面上の極座標で計算された予
測に基づき、実際の周波数係数と予測される周波数係数
の間のユークリッド距離に相当することを特徴とする請
求項５の方法。
【請求項７】前記周波数係数は周波数帯域内の周波数
係数に対応することを特徴とする請求項６の方法。
【請求項８】前記周波数係数は周波数群内の周波数係
数に対応することを特徴とする請求項６の方法。
【請求項９】第１の周波数係数セットを含む離散周波
数スペクトルをそれぞれ有するブロックの順序セットに
分割されたオーディオ信号の時系列を処理する方法にお
いて、少なくとも直交ミラーフィルタおよびウィンドウ変換フ
ィルタによって前記第１の周波数セットをそれぞれ少な
くとも１つの周波数係数を含む複数の周波数群へとフィ
ルタリングするステップと、調性に影響を与えずに周波数群に導入されうる量子化ノ
イズの量を示すノイズマスキングしきい値を、各周波数
群内の周波数係数ごとに決定するステップと、前記ノイズマスキングしきい値に基づいて、前記周波数
群のうちの少なくとも１つにおける少なくとも１つの周
波数係数を量子化するステップとからなり、前記フィルタリングするステップは、相異なる周波数で
相異なる時間および相異なる分解能により前記周波数係
数を生成することにより人間の聴覚応答を近似するもの
であることを特徴とするオーディオ信号処理方法。