JP3145339B2 - オーディオ信号処理方法 - Google Patents
オーディオ信号処理方法Info
- Publication number
- JP3145339B2 JP3145339B2 JP23455597A JP23455597A JP3145339B2 JP 3145339 B2 JP3145339 B2 JP 3145339B2 JP 23455597 A JP23455597 A JP 23455597A JP 23455597 A JP23455597 A JP 23455597A JP 3145339 B2 JP3145339 B2 JP 3145339B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- coefficient
- audio signal
- filter
- masking threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M1/00—Analogue/digital conversion; Digital/analogue conversion
- H03M1/12—Analogue/digital converters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
表すオーディオ信号のような時間と共に変わる信号の符
号化に関する。
歩したビットレート減少アルゴリズムがいくつか提案さ
れている。これらのアルゴリズムでは、ほぼ透明な品質
を、周波数領域の試みで、下は64キロビット/秒まで
のビットレートで達成することができる。
共通な基本的なブロック線図である。フィルタバンク1
01は、入力信号をサブサンプリングされたスペクトル
成分に分解するために使用される。このサブサンプリン
グスペクトル成分は、次に、公知の仕方で心理音響学か
ら知られた規則を用いてブロック102において実際の
(時間依存)マスキングしきい値の推定値を計算するた
めに使用される。
入される雑音をマスキングしきい値より下に保持する目
的で、ブロック103において量子化、そして、符号化
される。このアルゴリズムに依存して、このステップ
は、合成システムによって、簡単なブロック圧伸から、
別の無雑音圧縮を用いる分析による合成システムまで
の、さまざまな方法でなされる。
量子化され符号化されたスペクトル係数と、何らかの補
助情報、例えば、ビット割当て情報より構成されるビッ
トストリームを組み立てるために使用される。
クの設計には二つある。一つの形式は、いわゆるトリー
(木)構造のフィルタバンクである。これは、心理音響
学から知られる臨界帯域(クリティカルバンド)に従っ
て設定される個々の帯域のフィルタ帯域幅で設計され
る。また、変換符号器で使用されるフィルタバンクも知
られている。
しい帯域幅のフィルタを持つフィルタバンクを実現する
ためにウィンドウ変換を使用する。変換符号器は、一般
的には、128個ないし1024個のスペクトル成分を
計算する。このスペクトル成分は、また臨界帯域により
グループ化をすることもできる。
析/合成システムの設計の基本的な問題は、時間領域の
挙動と周波数領域の挙動との間の妥協である。より多く
のスペクトル成分を使用すれば、マスキング機能を、よ
りよい精度で評価することができる。さらに、スペクト
ル成分のより高度な無相関性、従って、より高い符号化
利得を達成することができる。
時間分解能はそれほど必要ではなくなるが、これによ
り、従来技術で公知のように、プリエコーの問題と処理
の遅れの増大が生じる。
する問題点は、プリエコーの問題と処理の遅れの増大を
防止することである。
るオーディオ信号の処理にさらに似た処理を介して従来
技術の限界を克服しようとする構成および方法を提供す
る。特に、本発明は、異なる時間分解能および異なる周
波数での異なる周波数分解能をもつフィルタバンクとし
て耳をモデル化する。かくして、本発明は、人間の耳に
よりよい適合を達成する分析構造を提供する。
器は、適切な周波数帯域内への入力オーディオ信号の最
初の分離を行うために直交ミラーフィルタを使用する。
このフィルタ出力は、再び、ウィンドウ変換法を用いて
フィルタされて多くのチャネルを持つ計算に有効なフィ
ルタバンクの効果を与える。
きい値は、「スーパーブロック」技術を用いて決定され
る。本発明者による以前の発明の場合のように、適切な
マスキングしきい値を実際に生成する際に「調性」尺度
が使用される。本発明では、しかし、臨界帯域、あるい
はさらに、単一のスペクトル線に局部的な改良になる調
性尺度が使用される。好都合にも、公知のOCF符号化
と量子化技術が使用されて伝送または記憶のために知覚
符号化信号をさらに処理する。
による混成符号器は、混成QMF/変換フィルタバンク
を使用する。図2は、その基本的な分析/合成システム
を示す。時間領域値は、まず、従来のQMFトリーフィ
ルタバンク201〜203によりフィルタされる。この
フィルタバンクは、3kHzないし12kHzの帯域幅
(周波数分解能)、従って、2サンプル時間分解能ない
し8サンプル時間分解能を持つ4チャネルを得るために
使用される。
満足する最適化したフィルタが容易に利用されるので、
選択されただけである。また、従来例から得られる80
タップQMFフィルタを使用することが好都合であるこ
とが分かった。この80タップフィルタは、明らかに、
過剰設計である。すなわち、より簡単な計算で明らかに
十分である。
入力信号の「完全な再構成」をもたらさないということ
は公知である。しかし、例示的に使用された80タップ
フィルタは、パスバンドのリプルの和が16ビット分解
能よりも低いという意味で、分析/合成フィルタバンク
のほぼ完全な再構成をもたらす。かくして、丸め込みに
より完全な再構成が得られる。
は、多くのチャネルを持つ効果的な計算フィルタバンク
210ないし213を得るためにウィンドウ変換を使用
して再びフィルタされる。この使用されるウィンドウ
は、50%重複の分析ブロックを使用する正弦ウィンド
ウである。このために、2つの異なる変換が使用され
た。使用しても良い第1の変換は古典的なDFTであ
り、これは、65本または129本の(最低周波数)の
複素線を計算する。この試みでは、分析/合成フィルタ
バンクの臨界的なサンプリングはされない。
タ速度を減少させるために容易に使用することができ
る。あるいは、従来技術で使用された拡張DCT(MD
CT)も使用して良い。この従来技術は、サブバンドあ
たり64個または128個の周波数値を計算し、そし
て、臨界的にサンプリングを行う。このMDCT方法を
用いれば、DFTの解法に比較してサンプルの半分だけ
が量子化され、そして、符号化されるだけでよい。
波数で23.4Hzの周波数分解能と、高周波数で18
7.5Hzの周波数分解能を有し、時間分解能は対応的
に相違している。時間分解能が例示的には2の累乗で量
子化されるが、分析/合成方法の進歩により時間/周波
数の分解能の範囲が増大され並びに量子化が少なくな
る。
ィルタバンクの特性は、低周波数でブロック長1024
および高周波でブロック長128のMDCTフィルタバ
ンクに類似している。かくして、低周波数での周波数分
解能は、知覚モデルにとって十分であり、高周波数での
時間分解能は、付加的なアルゴリズムを適用せずにプリ
エコー制御にとって十分に短い。リスト1は、混成符号
器で使用される組み合わせフィルタバンク用の時間およ
び周波数の分解能値を示す。
び周波数分解能
クの出力信号の構成を使用して評価する。この計算は、
低周波数変換区間にある高周波変換の数に対応する8個
の「時間スライス」を含む「スーパーブロック」につい
てなされる。より低い周波数帯域の信号エネルギーは、
8個の時間スライスどうしの間で等しく分配され、そし
て、中間周波数の信号エネルギーは、その変換レートに
従って分配される。「スーパーブロック」の割当ては図
3に示してある。
改良方法を用いて8個の時間スライスのそれぞれについ
て計算される。複数の時間スライスにわたり広がった変
換用のしきい値どうしは加えられて、各変換ブロックに
含まれる臨界帯域用の適切な時間分解能でマスキングし
きい値を評価する。臨界帯域の境界は、サブバンドの境
界と並べられて25個の臨界帯域を生ずる。実際の量子
化器および符号器は、信号を分かりやすく符号化するた
めに、評価されたマスキングのしきい値により示される
以上の雑音は加えてはならない。
きい値用の互いに異なる値は、雑音を遮るトーンおよび
マスカとしての雑音に関する文献で報告されている。こ
の場合、スペクトルの平坦性の尺度が、信号の短時間の
スペクトルの大域的な「調性」を計算するために使用さ
れた。この調性度は、ヘルマンとシャーフの文献からの
マスキングしきい値公式どうしの間を内挿するために使
用された。大域的な調性の概念には問題があることが分
かっている。
「アカペラ」歌手(図4参照)の場合、「音色」部分
(ピッチ周波数の低調波)と高周波数のかなりのエネル
ギーの「雑音」部分を持つスペクトルを示す。大域的な
スペクトルの平坦度の測定の結果は、この信号の一部が
非常に「音色的」(すなわち、変換ブロックから変換ブ
ロックにわたりコヒーレントである)ということは示さ
ない。さらに、すなわち、調性が、このような信号の感
応(音色)部分について正しく評価されたとしても、以
前に使用された公式は、高周波では非常に保守的なマス
キングしきい値になり、それにより、過度のビットレー
トが必要となる。
キングしきい値での実験と、従来方法で用いられたマス
キングしきい値の評価への別の試みの結果とにより新し
い調性尺度への探求が起こった。
に、信号調性によりマスキングの量を評価することは、
大域的な値としてではなく、臨界帯域またはさらに単一
のスペクトル線に局所的な特性としてモデル化される。
例示的な混成符号器の場合、この局所的な調性はコヒー
レンス度により評価される。
は変換係数)ごとに、コヒーレンス度が計算される。こ
れは、複素平面における極座標で計算された単純な予測
を用いて行われる。いくつかの予測子が試験され、そし
て、以下に記載するものが性能の基礎として選択され
た。時間tと周波数fにおけるスペクトル値の半径をr
(t,f)とし、tとfにおける位相値をφ(t,f)
とする。
^は次のごとく計算される:
しい調性距離c(t,f)を得るために使用される、従
って
ると、c(t,f)は0に近い値を有する。一方、非常
に予想しがたい(雑音)信号の場合、c(t,f)は、
平均0.5で1までの値を有する。この「逆調性」ある
いは「混沌度」は、簡単な対数線形演算により、次のご
とく調性距離に変換される: t=αlnc+β
いて従来例に記載されたと同じ方法で各スペクトル成分
におけるマスキングしきい値を評価するために使用され
る。以下のプログラムは、512個のサンプルの入力シ
ーケンスの場合におけるc(t,f)を形成するために
使用される処理を示す。以下のプログラムは、公知のフ
ォートランプログラミング言語で記載されている。 C First startup routine SUBROUTINE STRT() C sets up threshold generation tables, ITHR and BVAL REAL FREQ(0:25)/0.,100.,200.,300.,400.,510.,630.,770., 1 920.,1080.,1270.,1480.,1720.,2000.,2320.,2700., 1 3150.,3700.,4400.,5300.,6400.,7700.,9500.,12000.,15500., 1 25000./ COMMON /THRESH/ITHR(26),BVAL(257),RNORM(257) COMMON /ABSTHR/ABSLOW(257) COMMON /SIGS/IFIRST C ITHR(I) is bottom of critical band I. BVAL is bark index C of each line WRITE(*,*) 'What spl will +-32000 be -> ' READ(*,*) ABSLEV ABSLEV=ABSLEV-96. ABSLOW=5224245.*5224245./EXP(9.6*ALOG(10.)) IFIRST=0 WRITE(*,*) 'What is the sampling rate' READ(*,*) RZOTZ FNYQ=RZOTZ/2. C Nyquist frequency of interest. ITHR(1)=2. I=2 10 ITHR(I)=FREQ(I-1)/FNYQ*256.+2. I=I+1 IF(FREQ(I-1).LT.FNYQ) GO TO 10 C sets ITHR to bottom of CB ITHR(I:26)=257 C now, set up the critical band indexing array BVAL(1)=0 C first, figure out frequency, then ... DO I=2,257,1 FRE=(I-1)/256.*FNYQ C WRITE(*,*) I,FRE C FRE is now the frequency of the line. Convert C it to critical band number .. DO J=0,25,1 IF(FRE.GT.FREQ(J)) K=J END DO C so now, K = last CB lower than FRE RPART=FRE-FREQ(K) RANGE=FREQ(K+1)-FREQ(K) BVAL(I)=K+RPART/RANGE END DO RNORM=1 DO I=2,257,1 TMP=0 DO J=2,257,1 TMP=TMP+SPRDNGF(BVAL(J),BVAL(I)) END DO RNORM(I)=TMP END DO RNORM=1./RNORM C DO I=1,257,1 C WRITE(*,*) I,BVAL(I),10.*ALOG10(RNORM(I)) C END DO CALL OPENAS(0,'/usr/jj/nsrc/thrtry/freqlist',0) DO I=2,257,1 READ(0,*) II,DB IF(II.NE.I) THEN WRITE(*,*) 'freqlist is bad.' STOP END IF DB=EXP((DB-ABSLEV)/10.*ALOG(10.)) C WRITE(*,*) I,DB ABSLOW(I)=ABSLOW(I)*DB END DO ABSLOW(1)=1. WRITE(*,*) 'lowest level is ',SQRT(ABSLOW(45)) RETURN END C Threshold calculation program SUBROUTINE THRGEN(RT,PHI,THR) REAL R(257),PHI(257) REAL RT(257) REAL THR(257) COMMON /BLNK/OR(257),OPHI(257),DR(257),DPHI(257) COMMON /BLK1/OTHR(257) REAL ALPHA(257),TR(257),TPHI(257) REAL BETA(257),BCALC(257) COMMON /ABSTHR/ABSLOW(257) COMMON /THRESH/ITHR(26),BVAL(257),RNORM(257) COMMON /SIGS/IFIRST R=MAX(RT,.0005) BCALC=1. IF(IFIRST.EQ.0) THEN OR=0. OTHR=1E20 OPHI=0 DR=0 DPHI=0 IFIRST=1 END IF C This subroutine figures out the new threshold values C using line-by-line measurement. TR=OR+DR TPHI=OPHI+DPHI DR=R-OR DPHI=PHI-OPHI OR=R OPHI=PHI ALPHA=SQRT((R*COS(PHI)-TR*COS(TPHI)) 1 *(R*COS(PHI)-TR*COS(TPHI)) 2 +(R*SIN(PHI)-TR*SIN(TPHI)) 3 *(R*SIN(PHI)-TR*SIN(TPHI))) 4 /(R+ABS(TR)+1.) BETA=ALPHA C now, beta is the unweighted tonality factor ALPHA=R*R C now, the energy is in each C line. Must spread. C WRITE(*,*) 'before spreading' THR=0. BCALC=0. Cvd$l CNCALL DO I=2,257,1 Cvd$l CNCALL DO J=2,257,1 GLORCH=SPRDNGF(BVAL(J),BVAL(I)) THR(I)=ALPHA(J)*GLORCH+THR(I) BCALC(I)=ALPHA(J)*GLORCH*BETA(J)+BCALC(I) C THR is the spread energy, BCALC is the weighted chaos END DO C IF(THR(I).EQ.0) THEN C WRITE(*,*) 'zero threshold,' C STOP C END IF BCALC(I)=BCALC(I)/THR(I) IF(BCALC(I).GT.5) BCALC(I)=1.-BCALC(I) C that normalizes BCALC to 0-.5 END DO C WRITE(*,*) 'after spreading' BCALC=MAX(BCALC,.05) BCALC=MIN(BCALC,.5) C BCALC is now the chaos metric, convert to the C tonality metric BCALC=-.43*ALOG(BCALC)-.299 C now calculate DB BCALC=MAX(24.5,(15.5+BVAL))*BCALC+5.5*(1.-BCALC) BCALC=EXP((-BCALC/10.)*ALOG(10.)) C Now, BCALC is actual tonality factor, for power C space. THR=THR*RNORM*BCALC C threshold is tonality factor times energy (with normalization) THR=MAX(THR,ABSLOW) ALPHA=THR THR=MIN(THR,OTHR*2.) OTHR=ALPHA C WRITE(*,*) 'leaving THRGEN' RETURN END C And, the spreading function FUNCTION SPRDNGF(J,I) REAL I,J REAL SPRDNGF C this calculates the value of the speading function for C the i'th bark, with the center being the j'th C bark TEMP1=I-J TEMP2=15.811389+7.5*(TEMP1+.474) TEMP2=TEMP2-17.5*SQRT(1.+(TEMP1+.474)*(TEMP1+.474)) IF(TEMP2.LE.-100.) THEN TEMP3=0. ELSE TEMP2=TEMP2/10.*ALOG(10.) TEMP3=EXP(TEMP2) END IF SPRDNGF=TEMP3 RETURN END 絶対しきい値ファイル(開始ルーチンSTRT()の"freqlist"ファイル) 1 56 3. 111 16. 166 16. 221 50. 2 27. 57 4. 112 17. 167 16. 222 50. 3 18. 58 4. 113 17. 168 16. 223 50. 4 16. 59 5. 114 17. 169 16. 224 50. 5 10. 60 5. 115 17. 170 16. 225 50. 6 9. 61 5. 116 18. 171 17. 226 50. 7 8. 62 6. 117 18. 172 17. 227 50. 8 8. 63 6. 118 18. 173 17. 228 50. 9 8. 64 6. 119 18. 174 17. 229 50. 10 8. 65 6. 120 18. 175 17. 230 50. 11 8. 66 7. 121 18. 176 17. 231 50. 12 7. 67 7. 122 18. 177 18. 232 50. 13 7. 68 7. 123 18. 178 18. 233 50. 14 7. 69 8. 124 17. 179 18. 234 60. 15 7. 70 9. 125 17. 180 18. 235 60. 16 7. 71 10. 126 16. 181 18. 236 60. 17 7. 72 10. 127 16. 182 19. 237 60. 18 7. 73 10. 128 16. 183 19. 238 60. 19 7. 74 10. 129 16. 184 19. 239 60. 20 7. 75 10. 130 15. 185 19. 240 60. 21 7. 76 10. 131 15. 186 19. 241 60. 22 7. 77 10. 132 15. 187 20. 242 60. 23 7. 78 10. 133 15. 188 21. 243 60. 24 7. 79 10. 134 14. 189 22. 244 60. 25 6. 80 10. 135 14. 190 23. 245 60. 26 5. 81 11. 136 13. 191 24. 246 60. 27 5. 82 11. 137 12. 192 25. 247 60. 28 5. 83 11. 138 12. 193 26. 248 60. 29 5. 84 11. 139 12. 194 27. 249 60. 30 5. 85 11. 140 12. 195 28. 250 60. 31 4. 86 12. 141 12. 196 29. 251 60. 32 4. 87 12. 142 12. 197 30. 252 60. 33 4. 88 12. 143 12. 198 31. 253 60. 34 4. 89 12. 144 13. 199 32. 254 60. 35 4. 90 12. 145 13. 200 33. 255 60. 36 3. 91 12. 146 14. 201 34. 256 60. 37 3. 92 13. 147 14. 202 35. 257 60. 38 3. 93 13. 148 14. 203 36. 39 3. 94 13. 149 14. 204 37. 40 2. 95 13. 150 14. 205 38. 41 2. 96 13. 151 14. 206 39. 42 1. 97 13. 152 14. 207 40. 43 1. 98 14. 153 14. 208 41. 44 1. 99 14. 154 14. 209 42. 45 1. 100 14. 155 14. 210 43. 46 0. 101 14. 156 15. 211 44. 47 0. 102 15. 157 15. 212 45. 48 0. 103 15. 158 15. 213 46. 49 0. 104 15. 159 15. 214 47. 50 0. 105 15. 160 15. 215 48. 51 0. 106 15. 161 15. 216 49. 52 2. 107 16. 162 15. 217 50. 53 2. 108 16. 163 15. 218 50. 54 2. 109 16. 164 15. 219 50. 55 3. 110 16. 165 15. 220 50. このプログラムは、市販されている汎用コンピュータで
使用されるものであるが、他の汎用プロセッサまたは専
用プロセッサでの使用に容易に適合させることができ
る。
最適符号化)の量子化と符号化方法による混成符号器の
代表的な形では、公知の文献に記載のシステムが使用さ
れた。その合成による分析方法では、スペクトル成分
が、まず、非一様量子化器を使用して量子化される。
では、エントロピー符号を使用して量子化値を符号化す
るために必要とされるビットの合計数が、利用可能なビ
ットの数と比較される。利用可能なビットに対する実際
のビットの比に依存して、量子化ステップの大きさが調
整され、量子化値のブロックを符号化するに必要な別の
ビット数が得られる。
の臨界帯域ごとの実際の量子化雑音エネルギーを、評価
したマスキングしきい値と比較する。実際の雑音がいず
れかの臨界帯域におけるマスキングしきい値を越える
と、この臨界帯域におけるスペクトル成分の比率が調整
されてより低い量子化雑音を発生する。
反復ループのブロック線図を示す。このアルゴリズムは
公知の論文に詳しく記載されている。図5は、伝送また
は記憶されるべき実際のビット列を発生するために心理
音響的しきい値および関連する上に述べた情報を、OC
Fシステムのような符号器が使用する方法を示す。
は、適切にバッファリングされ、適当にブロックに区分
けされ、そして、上記の方法で変換されていると仮定す
る。適当な可変分解能スペクトル情報はブロック504
にも提供される。このブロック504は、ブロック50
2における量子化の前に、ブロック501において、重
み付け周波数信号に対し心理音響評価を与える。
ロック503により表される。かくして、入力信号のス
ペクトル情報を記述する情報は、出力515で与えられ
る。サイクルの音響評価および量子化方法を記述する補
助情報は、出力点520と525から出力される。すべ
ての出力は、伝送または記憶のために単一のビット列へ
と適宜多重化される。
聴覚システムの能力を基準とした1つの音楽の情報内容
の評価である。これは、与えられた合成による分析方法
を用いて1つの音楽の透過的符号化に必要な最小のビッ
トレートを評価する。公知の論文に示されているよう
に、PEは、マスキングしきい値における1つの音楽を
符号化するに必要な量子化レベルの数から計算される。
て、PEの評価が、異なる音楽ごとに計算された。リス
ト2は、その結果、および、それらと、他の合成による
分析システムを使用して測定したPEとの比較を示す。
これから、混成符号器が従来の結果と比較してうまく機
能することが分かる。
して、混成符号器の代表的な結果が集められた。使用さ
れたビットレートはチャネルあたり64キロビット/秒
であり、基本的なブロック長は、1024個の時間領域
サンプルであった。MDCTは、QMFトリーからの組
み合せフィルタバンクの出力を計算するために使用され
た。試験曲のサンプリング速度は48kHzであった。
信号は、20kHzまでの帯域幅で符号化された。64
キロビット/秒での各ブロックごとに利用できる136
2ビットの中から、226ビットが、補助情報を符号化
するために使用された。
する第2世代知覚符号器について説明した。大いに改良
されたしきい値を提供するために、周波数ごとに、周波
数に基づいて計算された調性距離が、各周波数ごとの符
号器の雑音しきい値の計算と組み合わされる。本発明
は、かくして、低ビットレートで高品質デジタルオーデ
ィオの公知の符号化に優る有利な性能を提供する。
用いて構成することができる。本発明により提供される
改善された時間/周波数分解能のために、対応する改良
になる処理が復号器で達成される。
に受信器あるいは復号器で使用される情報は、もちろ
ん、図5により表されるシステムからの出力として提供
される情報である。特に、必要ならば分離化の後に、ス
ペクトル情報および補助情報は元の入力信号を再構成す
るために使用される。
ーリング係数、ビット割当てなどを含むサイクル音響評
価および量子化方法を記述する情報とともに、サンプリ
ングした時間領域信号を、その周波数成分から再構成す
るのに必要なすべての情報は、受信器/復号器に存在す
る。
とも周波数の関数として)に関する情報も復号器で使用
される。元のアナログ信号の再生用の(例えば、拡声器
で)等価なアナログ信号を発生することが必要とされる
場合には、高忠実度での公知のデジタル−アナログ変換
も、提供される。
もので、この技術分野の当業者であれば、本発明の種々
の変形例が考え得るが、それらはいずれも本発明の技術
的範囲に包含される。尚、特許請求の範囲に記載した参
照番号は発明の容易なる理解のためで、その技術的範囲
を制限するよう解釈されるべきではない。
来技術におけるプリエコーの問題と処理の遅れの増大を
防止することができる。
発明の混成符号器で使用される基本的な分析システムを
示す。
示す。
ロック線図を示す。
Claims (9)
- 【請求項1】 第1の周波数係数セットを含む離散周波
数スペクトルをそれぞれ有するブロックの順序セットに
分割されたオーディオ信号の時系列を処理する方法にお
いて、 直交ミラーフィルタによって前記第1の周波数セットを
それぞれ隣接する周波数範囲を表す複数の周波数帯域へ
とフィルタリングするステップと、 ウィンドウ変換フィルタによって前記周波数帯域のうち
の少なくとも1つをそれぞれ少なくとも1つの周波数係
数を含む複数の周波数群へとフィルタリングするステッ
プと、 調性に影響を与えずに周波数群に導入されうる量子化ノ
イズの量を示すノイズマスキングしきい値を、各周波数
群内の周波数係数ごとに決定するステップと、 前記ノイズマスキングしきい値に基づいて、前記周波数
群のうちの少なくとも1つにおける少なくとも1つの周
波数係数を量子化するステップとからなり、 前記2つのフィルタリングするステップは、相異なる周
波数で相異なる時間および相異なる分解能により前記周
波数係数を生成することにより人間の聴覚応答を近似す
るものであることを特徴とするオーディオ信号処理方
法。 - 【請求項2】 前記ウィンドウ変換フィルタは拡張離散
コサイン変換フィルタであることを特徴とする請求項1
の方法。 - 【請求項3】 前記ウィンドウ変換フィルタは離散フー
リエ変換フィルタであることを特徴とする請求項1の方
法。 - 【請求項4】 前記ノイズマスキングしきい値は、各周
波数群に対する調性距離を決定するステップに基づいて
決定され、当該調性距離は、当該周波数群のオーディオ
信号の時系列が楽音品質を含む程度に対応することを特
徴とする請求項1の方法。 - 【請求項5】 前記調性距離はコヒーレンス測度に基づ
いて生成されることを特徴とする請求項4の方法。 - 【請求項6】 前記コヒーレンス測度は、特定の時刻に
おいて周波数係数の複素平面上の極座標で計算された予
測に基づき、実際の周波数係数と予測される周波数係数
の間のユークリッド距離に相当することを特徴とする請
求項5の方法。 - 【請求項7】 前記周波数係数は周波数帯域内の周波数
係数に対応することを特徴とする請求項6の方法。 - 【請求項8】 前記周波数係数は周波数群内の周波数係
数に対応することを特徴とする請求項6の方法。 - 【請求項9】 第1の周波数係数セットを含む離散周波
数スペクトルをそれぞれ有するブロックの順序セットに
分割されたオーディオ信号の時系列を処理する方法にお
いて、 少なくとも直交ミラーフィルタおよびウィンドウ変換フ
ィルタによって前記第1の周波数セットをそれぞれ少な
くとも1つの周波数係数を含む複数の周波数群へとフィ
ルタリングするステップと、 調性に影響を与えずに周波数群に導入されうる量子化ノ
イズの量を示すノイズマスキングしきい値を、各周波数
群内の周波数係数ごとに決定するステップと、 前記ノイズマスキングしきい値に基づいて、前記周波数
群のうちの少なくとも1つにおける少なくとも1つの周
波数係数を量子化するステップとからなり、 前記フィルタリングするステップは、相異なる周波数で
相異なる時間および相異なる分解能により前記周波数係
数を生成することにより人間の聴覚応答を近似するもの
であることを特徴とするオーディオ信号処理方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US49137390A | 1990-03-09 | 1990-03-09 | |
US491373 | 1990-03-09 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3068731A Division JP2774203B2 (ja) | 1990-03-09 | 1991-03-08 | オーディオ信号処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10133699A JPH10133699A (ja) | 1998-05-22 |
JP3145339B2 true JP3145339B2 (ja) | 2001-03-12 |
Family
ID=23951937
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3068731A Expired - Lifetime JP2774203B2 (ja) | 1990-03-09 | 1991-03-08 | オーディオ信号処理方法 |
JP23455597A Expired - Lifetime JP3145339B2 (ja) | 1990-03-09 | 1997-08-29 | オーディオ信号処理方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3068731A Expired - Lifetime JP2774203B2 (ja) | 1990-03-09 | 1991-03-08 | オーディオ信号処理方法 |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP0446037B1 (ja) |
JP (2) | JP2774203B2 (ja) |
KR (1) | KR0185582B1 (ja) |
CA (1) | CA2037780C (ja) |
DE (1) | DE69127842T2 (ja) |
HK (1) | HK1002743A1 (ja) |
SG (1) | SG44675A1 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE40280E1 (en) | 1988-12-30 | 2008-04-29 | Lucent Technologies Inc. | Rate loop processor for perceptual encoder/decoder |
US5502789A (en) * | 1990-03-07 | 1996-03-26 | Sony Corporation | Apparatus for encoding digital data with reduction of perceptible noise |
EP0559348A3 (en) | 1992-03-02 | 1993-11-03 | AT&T Corp. | Rate control loop processor for perceptual encoder/decoder |
PL183307B1 (pl) * | 1994-03-31 | 2002-06-28 | Arbitron Co | System kodowania sygnału dźwiękowego |
EP0720316B1 (en) * | 1994-12-30 | 1999-12-08 | Daewoo Electronics Co., Ltd | Adaptive digital audio encoding apparatus and a bit allocation method thereof |
CN1108023C (zh) * | 1995-01-27 | 2003-05-07 | 大宇电子株式会社 | 自适应数字音频编码装置及其一种位分配方法 |
US5699479A (en) * | 1995-02-06 | 1997-12-16 | Lucent Technologies Inc. | Tonality for perceptual audio compression based on loudness uncertainty |
DE19505435C1 (de) * | 1995-02-17 | 1995-12-07 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals |
WO1997014266A2 (en) * | 1995-10-10 | 1997-04-17 | Audiologic, Inc. | Digital signal processing hearing aid with processing strategy selection |
US5864820A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for mixing of encoded audio signals |
US6782365B1 (en) | 1996-12-20 | 2004-08-24 | Qwest Communications International Inc. | Graphic interface system and product for editing encoded audio data |
US6463405B1 (en) | 1996-12-20 | 2002-10-08 | Eliot M. Case | Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband |
US5864813A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for harmonic enhancement of encoded audio signals |
US6477496B1 (en) | 1996-12-20 | 2002-11-05 | Eliot M. Case | Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one |
US6516299B1 (en) | 1996-12-20 | 2003-02-04 | Qwest Communication International, Inc. | Method, system and product for modifying the dynamic range of encoded audio signals |
US5845251A (en) * | 1996-12-20 | 1998-12-01 | U S West, Inc. | Method, system and product for modifying the bandwidth of subband encoded audio data |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
DE19947877C2 (de) | 1999-10-05 | 2001-09-13 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals |
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7110941B2 (en) * | 2002-03-28 | 2006-09-19 | Microsoft Corporation | System and method for embedded audio coding with implicit auditory masking |
RU2374703C2 (ru) * | 2003-10-30 | 2009-11-27 | Конинклейке Филипс Электроникс Н.В. | Кодирование или декодирование аудиосигнала |
DE102004009949B4 (de) * | 2004-03-01 | 2006-03-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes |
US7630882B2 (en) * | 2005-07-15 | 2009-12-08 | Microsoft Corporation | Frequency segmentation to obtain bands for efficient coding of digital media |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
KR101105359B1 (ko) * | 2010-06-22 | 2012-01-16 | 연세대학교 산학협력단 | 깊이 영상에 기반한 3차원 영상의 피로도 측정 방법 및 장치 |
JP7092050B2 (ja) * | 2019-01-17 | 2022-06-28 | 日本電信電話株式会社 | 多地点制御方法、装置及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4433604A (en) * | 1981-09-22 | 1984-02-28 | Texas Instruments Incorporated | Frequency domain digital encoding technique for musical signals |
JPS58193598A (ja) * | 1982-05-07 | 1983-11-11 | 日本電気株式会社 | 音声符号化方式とそれに供する装置 |
JPS59129900A (ja) * | 1983-01-18 | 1984-07-26 | 日本電信電話株式会社 | 帯域分割符号化方式 |
JPS6069699A (ja) * | 1983-09-26 | 1985-04-20 | 株式会社リコー | 音声パタ−ン作成装置 |
-
1991
- 1991-03-06 DE DE69127842T patent/DE69127842T2/de not_active Expired - Lifetime
- 1991-03-06 EP EP91301877A patent/EP0446037B1/en not_active Expired - Lifetime
- 1991-03-06 SG SG1996005396A patent/SG44675A1/en unknown
- 1991-03-07 CA CA002037780A patent/CA2037780C/en not_active Expired - Lifetime
- 1991-03-08 KR KR1019910003725A patent/KR0185582B1/ko not_active IP Right Cessation
- 1991-03-08 JP JP3068731A patent/JP2774203B2/ja not_active Expired - Lifetime
-
1997
- 1997-08-29 JP JP23455597A patent/JP3145339B2/ja not_active Expired - Lifetime
-
1998
- 1998-02-27 HK HK98101551A patent/HK1002743A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP0446037B1 (en) | 1997-10-08 |
DE69127842D1 (de) | 1997-11-13 |
EP0446037A2 (en) | 1991-09-11 |
SG44675A1 (en) | 1997-12-19 |
JP2774203B2 (ja) | 1998-07-09 |
KR910017780A (ko) | 1991-11-05 |
DE69127842T2 (de) | 1998-01-29 |
HK1002743A1 (en) | 1998-09-11 |
KR0185582B1 (ko) | 1999-04-15 |
JPH10133699A (ja) | 1998-05-22 |
EP0446037A3 (en) | 1992-09-16 |
CA2037780C (en) | 1996-07-02 |
JPH04219799A (ja) | 1992-08-10 |
CA2037780A1 (en) | 1991-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3145339B2 (ja) | オーディオ信号処理方法 | |
Sinha et al. | Low bit rate transparent audio compression using adapted wavelets | |
KR100209870B1 (ko) | 오디오 신호의 순서화된 타임 시퀸스 처리 방법 및 오디오 신호 전송 방법 | |
EP2479750B1 (en) | Method for hierarchically filtering an input audio signal and method for hierarchically reconstructing time samples of an input audio signal | |
CN1838239B (zh) | 一种用于增强信源解码器的设备及方法 | |
Johnston | Transform coding of audio signals using perceptual noise criteria | |
US5621856A (en) | Digital encoder with dynamic quantization bit allocation | |
JP3297051B2 (ja) | 適応ビット配分符号化装置及び方法 | |
US5732189A (en) | Audio signal coding with a signal adaptive filterbank | |
US5341457A (en) | Perceptual coding of audio signals | |
JP3153933B2 (ja) | データ符号化装置及び方法並びにデータ復号化装置及び方法 | |
JP5175028B2 (ja) | デジタル信号の符号化方法及び装置ならびに復号化方法及び装置 | |
JPH08505030A (ja) | 差動符号化法を実行する伝送システム | |
KR0137472B1 (ko) | 오디오 신호 코딩 방법 | |
US6466912B1 (en) | Perceptual coding of audio signals employing envelope uncertainty | |
Mahieux et al. | High-quality audio transform coding at 64 kbps | |
JPH07261800A (ja) | 変換符号化方法、復号化方法 | |
Sen et al. | Use of an auditory model to improve speech coders | |
Lincoln | An experimental high fidelity perceptual audio coder | |
JP4618823B2 (ja) | 信号符号化装置及び方法 | |
Sablatash et al. | Compression of high-quality audio signals, including recent methods using wavelet packets | |
AU2011205144B2 (en) | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding | |
Teh et al. | Subband coding of high-fidelity quality audio signals at 128 kbps | |
Suresh et al. | Direct MDCT domain psychoacoustic modeling | |
KR100351772B1 (ko) | 디지털부호화장치,디지털기록신호도출장치및디지털신호데이터도출방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080105 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090105 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100105 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110105 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120105 Year of fee payment: 11 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120105 Year of fee payment: 11 |