JP3145339B2 - オーディオ信号処理方法 - Google Patents

オーディオ信号処理方法

Info

Publication number
JP3145339B2
JP3145339B2 JP23455597A JP23455597A JP3145339B2 JP 3145339 B2 JP3145339 B2 JP 3145339B2 JP 23455597 A JP23455597 A JP 23455597A JP 23455597 A JP23455597 A JP 23455597A JP 3145339 B2 JP3145339 B2 JP 3145339B2
Authority
JP
Japan
Prior art keywords
frequency
coefficient
audio signal
filter
masking threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP23455597A
Other languages
English (en)
Other versions
JPH10133699A (ja
Inventor
ブランデンバーグ カールハイツ
デビッド ジョンストン ジェームス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH10133699A publication Critical patent/JPH10133699A/ja
Application granted granted Critical
Publication of JP3145339B2 publication Critical patent/JP3145339B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声または音楽情報を
表すオーディオ信号のような時間と共に変わる信号の符
号化に関する。
【0002】
【従来の技術】近年、高品質デジタルオーディオ用の進
歩したビットレート減少アルゴリズムがいくつか提案さ
れている。これらのアルゴリズムでは、ほぼ透明な品質
を、周波数領域の試みで、下は64キロビット/秒まで
のビットレートで達成することができる。
【0003】図1は、周波数領域知覚符号器のすべてに
共通な基本的なブロック線図である。フィルタバンク1
01は、入力信号をサブサンプリングされたスペクトル
成分に分解するために使用される。このサブサンプリン
グスペクトル成分は、次に、公知の仕方で心理音響学か
ら知られた規則を用いてブロック102において実際の
(時間依存)マスキングしきい値の推定値を計算するた
めに使用される。
【0004】スペクトル成分は、次に、量子化により導
入される雑音をマスキングしきい値より下に保持する目
的で、ブロック103において量子化、そして、符号化
される。このアルゴリズムに依存して、このステップ
は、合成システムによって、簡単なブロック圧伸から、
別の無雑音圧縮を用いる分析による合成システムまで
の、さまざまな方法でなされる。
【0005】最後に、マルチプレクサ104は、一般に
量子化され符号化されたスペクトル係数と、何らかの補
助情報、例えば、ビット割当て情報より構成されるビッ
トストリームを組み立てるために使用される。
【0006】上記の構成で普通使用されるフィルタバン
クの設計には二つある。一つの形式は、いわゆるトリー
(木)構造のフィルタバンクである。これは、心理音響
学から知られる臨界帯域(クリティカルバンド)に従っ
て設定される個々の帯域のフィルタ帯域幅で設計され
る。また、変換符号器で使用されるフィルタバンクも知
られている。
【0007】この変換符号器は、計算が複雑でない、等
しい帯域幅のフィルタを持つフィルタバンクを実現する
ためにウィンドウ変換を使用する。変換符号器は、一般
的には、128個ないし1024個のスペクトル成分を
計算する。このスペクトル成分は、また臨界帯域により
グループ化をすることもできる。
【0008】高品質デジタル音響符号化で使用される分
析/合成システムの設計の基本的な問題は、時間領域の
挙動と周波数領域の挙動との間の妥協である。より多く
のスペクトル成分を使用すれば、マスキング機能を、よ
りよい精度で評価することができる。さらに、スペクト
ル成分のより高度な無相関性、従って、より高い符号化
利得を達成することができる。
【0009】一方、より高度なスペクトル分解能では、
時間分解能はそれほど必要ではなくなるが、これによ
り、従来技術で公知のように、プリエコーの問題と処理
の遅れの増大が生じる。
【0010】
【発明が解決しようとする課題】本発明が解決しようと
する問題点は、プリエコーの問題と処理の遅れの増大を
防止することである。
【0011】
【課題を解決するための手段】本発明は、人間の耳によ
るオーディオ信号の処理にさらに似た処理を介して従来
技術の限界を克服しようとする構成および方法を提供す
る。特に、本発明は、異なる時間分解能および異なる周
波数での異なる周波数分解能をもつフィルタバンクとし
て耳をモデル化する。かくして、本発明は、人間の耳に
よりよい適合を達成する分析構造を提供する。
【0012】代表的な実施例における本発明の混成符号
器は、適切な周波数帯域内への入力オーディオ信号の最
初の分離を行うために直交ミラーフィルタを使用する。
このフィルタ出力は、再び、ウィンドウ変換法を用いて
フィルタされて多くのチャネルを持つ計算に有効なフィ
ルタバンクの効果を与える。
【0013】このフィルタされた信号用のマスキングし
きい値は、「スーパーブロック」技術を用いて決定され
る。本発明者による以前の発明の場合のように、適切な
マスキングしきい値を実際に生成する際に「調性」尺度
が使用される。本発明では、しかし、臨界帯域、あるい
はさらに、単一のスペクトル線に局部的な改良になる調
性尺度が使用される。好都合にも、公知のOCF符号化
と量子化技術が使用されて伝送または記憶のために知覚
符号化信号をさらに処理する。
【0014】
【実施例】
[新規な分析/合成フィルタブロック]本発明の実施例
による混成符号器は、混成QMF/変換フィルタバンク
を使用する。図2は、その基本的な分析/合成システム
を示す。時間領域値は、まず、従来のQMFトリーフィ
ルタバンク201〜203によりフィルタされる。この
フィルタバンクは、3kHzないし12kHzの帯域幅
(周波数分解能)、従って、2サンプル時間分解能ない
し8サンプル時間分解能を持つ4チャネルを得るために
使用される。
【0015】QMFフィルタバンクは、本設計の目的を
満足する最適化したフィルタが容易に利用されるので、
選択されただけである。また、従来例から得られる80
タップQMFフィルタを使用することが好都合であるこ
とが分かった。この80タップフィルタは、明らかに、
過剰設計である。すなわち、より簡単な計算で明らかに
十分である。
【0016】古典的なQMFトリーフィルタバンクが、
入力信号の「完全な再構成」をもたらさないということ
は公知である。しかし、例示的に使用された80タップ
フィルタは、パスバンドのリプルの和が16ビット分解
能よりも低いという意味で、分析/合成フィルタバンク
のほぼ完全な再構成をもたらす。かくして、丸め込みに
より完全な再構成が得られる。
【0017】QMFトリーフィルタバンクの出力信号
は、多くのチャネルを持つ効果的な計算フィルタバンク
210ないし213を得るためにウィンドウ変換を使用
して再びフィルタされる。この使用されるウィンドウ
は、50%重複の分析ブロックを使用する正弦ウィンド
ウである。このために、2つの異なる変換が使用され
た。使用しても良い第1の変換は古典的なDFTであ
り、これは、65本または129本の(最低周波数)の
複素線を計算する。この試みでは、分析/合成フィルタ
バンクの臨界的なサンプリングはされない。
【0018】一方、複素周波数線の予測は、さらにデー
タ速度を減少させるために容易に使用することができ
る。あるいは、従来技術で使用された拡張DCT(MD
CT)も使用して良い。この従来技術は、サブバンドあ
たり64個または128個の周波数値を計算し、そし
て、臨界的にサンプリングを行う。このMDCT方法を
用いれば、DFTの解法に比較してサンプルの半分だけ
が量子化され、そして、符号化されるだけでよい。
【0019】この組み合わせのフィルタバンクは、低周
波数で23.4Hzの周波数分解能と、高周波数で18
7.5Hzの周波数分解能を有し、時間分解能は対応的
に相違している。時間分解能が例示的には2の累乗で量
子化されるが、分析/合成方法の進歩により時間/周波
数の分解能の範囲が増大され並びに量子化が少なくな
る。
【0020】周波数帯域に依存するが、QMFトリーフ
ィルタバンクの特性は、低周波数でブロック長1024
および高周波でブロック長128のMDCTフィルタバ
ンクに類似している。かくして、低周波数での周波数分
解能は、知覚モデルにとって十分であり、高周波数での
時間分解能は、付加的なアルゴリズムを適用せずにプリ
エコー制御にとって十分に短い。リスト1は、混成符号
器で使用される組み合わせフィルタバンク用の時間およ
び周波数の分解能値を示す。
【0021】 下方周波数限界 上方周波数限界 周波数分解能 時間分解能 時間分解能 Hz Hz Hz サンプル ms 0.0 3000. 23.4 1024 21.3 3000. 6000. 46.8 512 10.7 6000. 12000. 93.6 256 5.3 12000 24000 187.2 128 2.7 リスト1:分析/合成フィルタバンクの時間分解能およ
び周波数分解能
【0022】マスキングしきい値は、このフィルタバン
クの出力信号の構成を使用して評価する。この計算は、
低周波数変換区間にある高周波変換の数に対応する8個
の「時間スライス」を含む「スーパーブロック」につい
てなされる。より低い周波数帯域の信号エネルギーは、
8個の時間スライスどうしの間で等しく分配され、そし
て、中間周波数の信号エネルギーは、その変換レートに
従って分配される。「スーパーブロック」の割当ては図
3に示してある。
【0023】次に、しきい値は、公知の方法に類似した
改良方法を用いて8個の時間スライスのそれぞれについ
て計算される。複数の時間スライスにわたり広がった変
換用のしきい値どうしは加えられて、各変換ブロックに
含まれる臨界帯域用の適切な時間分解能でマスキングし
きい値を評価する。臨界帯域の境界は、サブバンドの境
界と並べられて25個の臨界帯域を生ずる。実際の量子
化器および符号器は、信号を分かりやすく符号化するた
めに、評価されたマスキングのしきい値により示される
以上の雑音は加えてはならない。
【0024】[調性の計算]狭帯域信号のマスキングし
きい値用の互いに異なる値は、雑音を遮るトーンおよび
マスカとしての雑音に関する文献で報告されている。こ
の場合、スペクトルの平坦性の尺度が、信号の短時間の
スペクトルの大域的な「調性」を計算するために使用さ
れた。この調性度は、ヘルマンとシャーフの文献からの
マスキングしきい値公式どうしの間を内挿するために使
用された。大域的な調性の概念には問題があることが分
かっている。
【0025】いくつかの信号、特に音声信号あるいは
「アカペラ」歌手(図4参照)の場合、「音色」部分
(ピッチ周波数の低調波)と高周波数のかなりのエネル
ギーの「雑音」部分を持つスペクトルを示す。大域的な
スペクトルの平坦度の測定の結果は、この信号の一部が
非常に「音色的」(すなわち、変換ブロックから変換ブ
ロックにわたりコヒーレントである)ということは示さ
ない。さらに、すなわち、調性が、このような信号の感
応(音色)部分について正しく評価されたとしても、以
前に使用された公式は、高周波では非常に保守的なマス
キングしきい値になり、それにより、過度のビットレー
トが必要となる。
【0026】従来例で用いられた変更になる評価のマス
キングしきい値での実験と、従来方法で用いられたマス
キングしきい値の評価への別の試みの結果とにより新し
い調性尺度への探求が起こった。
【0027】本発明の1つの態様で使用されているよう
に、信号調性によりマスキングの量を評価することは、
大域的な値としてではなく、臨界帯域またはさらに単一
のスペクトル線に局所的な特性としてモデル化される。
例示的な混成符号器の場合、この局所的な調性はコヒー
レンス度により評価される。
【0028】各々のスペクトル成分(=サブバンドまた
は変換係数)ごとに、コヒーレンス度が計算される。こ
れは、複素平面における極座標で計算された単純な予測
を用いて行われる。いくつかの予測子が試験され、そし
て、以下に記載するものが性能の基礎として選択され
た。時間tと周波数fにおけるスペクトル値の半径をr
(t,f)とし、tとfにおける位相値をφ(t,f)
とする。
【0029】すると、時間tにおけるrとφの予測値r
^は次のごとく計算される:
【数1】 実際の値と予測した値との間のユークリッド距離は、新
しい調性距離c(t,f)を得るために使用される、従
って
【数2】
【0030】予想が非常に良好であるということが分か
ると、c(t,f)は0に近い値を有する。一方、非常
に予想しがたい(雑音)信号の場合、c(t,f)は、
平均0.5で1までの値を有する。この「逆調性」ある
いは「混沌度」は、簡単な対数線形演算により、次のご
とく調性距離に変換される: t=αlnc+β
【0031】この新しい調性距離は、古い調性距離につ
いて従来例に記載されたと同じ方法で各スペクトル成分
におけるマスキングしきい値を評価するために使用され
る。以下のプログラムは、512個のサンプルの入力シ
ーケンスの場合におけるc(t,f)を形成するために
使用される処理を示す。以下のプログラムは、公知のフ
ォートランプログラミング言語で記載されている。 C First startup routine SUBROUTINE STRT() C sets up threshold generation tables, ITHR and BVAL REAL FREQ(0:25)/0.,100.,200.,300.,400.,510.,630.,770., 1 920.,1080.,1270.,1480.,1720.,2000.,2320.,2700., 1 3150.,3700.,4400.,5300.,6400.,7700.,9500.,12000.,15500., 1 25000./ COMMON /THRESH/ITHR(26),BVAL(257),RNORM(257) COMMON /ABSTHR/ABSLOW(257) COMMON /SIGS/IFIRST C ITHR(I) is bottom of critical band I. BVAL is bark index C of each line WRITE(*,*) 'What spl will +-32000 be -> ' READ(*,*) ABSLEV ABSLEV=ABSLEV-96. ABSLOW=5224245.*5224245./EXP(9.6*ALOG(10.)) IFIRST=0 WRITE(*,*) 'What is the sampling rate' READ(*,*) RZOTZ FNYQ=RZOTZ/2. C Nyquist frequency of interest. ITHR(1)=2. I=2 10 ITHR(I)=FREQ(I-1)/FNYQ*256.+2. I=I+1 IF(FREQ(I-1).LT.FNYQ) GO TO 10 C sets ITHR to bottom of CB ITHR(I:26)=257 C now, set up the critical band indexing array BVAL(1)=0 C first, figure out frequency, then ... DO I=2,257,1 FRE=(I-1)/256.*FNYQ C WRITE(*,*) I,FRE C FRE is now the frequency of the line. Convert C it to critical band number .. DO J=0,25,1 IF(FRE.GT.FREQ(J)) K=J END DO C so now, K = last CB lower than FRE RPART=FRE-FREQ(K) RANGE=FREQ(K+1)-FREQ(K) BVAL(I)=K+RPART/RANGE END DO RNORM=1 DO I=2,257,1 TMP=0 DO J=2,257,1 TMP=TMP+SPRDNGF(BVAL(J),BVAL(I)) END DO RNORM(I)=TMP END DO RNORM=1./RNORM C DO I=1,257,1 C WRITE(*,*) I,BVAL(I),10.*ALOG10(RNORM(I)) C END DO CALL OPENAS(0,'/usr/jj/nsrc/thrtry/freqlist',0) DO I=2,257,1 READ(0,*) II,DB IF(II.NE.I) THEN WRITE(*,*) 'freqlist is bad.' STOP END IF DB=EXP((DB-ABSLEV)/10.*ALOG(10.)) C WRITE(*,*) I,DB ABSLOW(I)=ABSLOW(I)*DB END DO ABSLOW(1)=1. WRITE(*,*) 'lowest level is ',SQRT(ABSLOW(45)) RETURN END C Threshold calculation program SUBROUTINE THRGEN(RT,PHI,THR) REAL R(257),PHI(257) REAL RT(257) REAL THR(257) COMMON /BLNK/OR(257),OPHI(257),DR(257),DPHI(257) COMMON /BLK1/OTHR(257) REAL ALPHA(257),TR(257),TPHI(257) REAL BETA(257),BCALC(257) COMMON /ABSTHR/ABSLOW(257) COMMON /THRESH/ITHR(26),BVAL(257),RNORM(257) COMMON /SIGS/IFIRST R=MAX(RT,.0005) BCALC=1. IF(IFIRST.EQ.0) THEN OR=0. OTHR=1E20 OPHI=0 DR=0 DPHI=0 IFIRST=1 END IF C This subroutine figures out the new threshold values C using line-by-line measurement. TR=OR+DR TPHI=OPHI+DPHI DR=R-OR DPHI=PHI-OPHI OR=R OPHI=PHI ALPHA=SQRT((R*COS(PHI)-TR*COS(TPHI)) 1 *(R*COS(PHI)-TR*COS(TPHI)) 2 +(R*SIN(PHI)-TR*SIN(TPHI)) 3 *(R*SIN(PHI)-TR*SIN(TPHI))) 4 /(R+ABS(TR)+1.) BETA=ALPHA C now, beta is the unweighted tonality factor ALPHA=R*R C now, the energy is in each C line. Must spread. C WRITE(*,*) 'before spreading' THR=0. BCALC=0. Cvd$l CNCALL DO I=2,257,1 Cvd$l CNCALL DO J=2,257,1 GLORCH=SPRDNGF(BVAL(J),BVAL(I)) THR(I)=ALPHA(J)*GLORCH+THR(I) BCALC(I)=ALPHA(J)*GLORCH*BETA(J)+BCALC(I) C THR is the spread energy, BCALC is the weighted chaos END DO C IF(THR(I).EQ.0) THEN C WRITE(*,*) 'zero threshold,' C STOP C END IF BCALC(I)=BCALC(I)/THR(I) IF(BCALC(I).GT.5) BCALC(I)=1.-BCALC(I) C that normalizes BCALC to 0-.5 END DO C WRITE(*,*) 'after spreading' BCALC=MAX(BCALC,.05) BCALC=MIN(BCALC,.5) C BCALC is now the chaos metric, convert to the C tonality metric BCALC=-.43*ALOG(BCALC)-.299 C now calculate DB BCALC=MAX(24.5,(15.5+BVAL))*BCALC+5.5*(1.-BCALC) BCALC=EXP((-BCALC/10.)*ALOG(10.)) C Now, BCALC is actual tonality factor, for power C space. THR=THR*RNORM*BCALC C threshold is tonality factor times energy (with normalization) THR=MAX(THR,ABSLOW) ALPHA=THR THR=MIN(THR,OTHR*2.) OTHR=ALPHA C WRITE(*,*) 'leaving THRGEN' RETURN END C And, the spreading function FUNCTION SPRDNGF(J,I) REAL I,J REAL SPRDNGF C this calculates the value of the speading function for C the i'th bark, with the center being the j'th C bark TEMP1=I-J TEMP2=15.811389+7.5*(TEMP1+.474) TEMP2=TEMP2-17.5*SQRT(1.+(TEMP1+.474)*(TEMP1+.474)) IF(TEMP2.LE.-100.) THEN TEMP3=0. ELSE TEMP2=TEMP2/10.*ALOG(10.) TEMP3=EXP(TEMP2) END IF SPRDNGF=TEMP3 RETURN END 絶対しきい値ファイル(開始ルーチンSTRT()の"freqlist"ファイル) 1 56 3. 111 16. 166 16. 221 50. 2 27. 57 4. 112 17. 167 16. 222 50. 3 18. 58 4. 113 17. 168 16. 223 50. 4 16. 59 5. 114 17. 169 16. 224 50. 5 10. 60 5. 115 17. 170 16. 225 50. 6 9. 61 5. 116 18. 171 17. 226 50. 7 8. 62 6. 117 18. 172 17. 227 50. 8 8. 63 6. 118 18. 173 17. 228 50. 9 8. 64 6. 119 18. 174 17. 229 50. 10 8. 65 6. 120 18. 175 17. 230 50. 11 8. 66 7. 121 18. 176 17. 231 50. 12 7. 67 7. 122 18. 177 18. 232 50. 13 7. 68 7. 123 18. 178 18. 233 50. 14 7. 69 8. 124 17. 179 18. 234 60. 15 7. 70 9. 125 17. 180 18. 235 60. 16 7. 71 10. 126 16. 181 18. 236 60. 17 7. 72 10. 127 16. 182 19. 237 60. 18 7. 73 10. 128 16. 183 19. 238 60. 19 7. 74 10. 129 16. 184 19. 239 60. 20 7. 75 10. 130 15. 185 19. 240 60. 21 7. 76 10. 131 15. 186 19. 241 60. 22 7. 77 10. 132 15. 187 20. 242 60. 23 7. 78 10. 133 15. 188 21. 243 60. 24 7. 79 10. 134 14. 189 22. 244 60. 25 6. 80 10. 135 14. 190 23. 245 60. 26 5. 81 11. 136 13. 191 24. 246 60. 27 5. 82 11. 137 12. 192 25. 247 60. 28 5. 83 11. 138 12. 193 26. 248 60. 29 5. 84 11. 139 12. 194 27. 249 60. 30 5. 85 11. 140 12. 195 28. 250 60. 31 4. 86 12. 141 12. 196 29. 251 60. 32 4. 87 12. 142 12. 197 30. 252 60. 33 4. 88 12. 143 12. 198 31. 253 60. 34 4. 89 12. 144 13. 199 32. 254 60. 35 4. 90 12. 145 13. 200 33. 255 60. 36 3. 91 12. 146 14. 201 34. 256 60. 37 3. 92 13. 147 14. 202 35. 257 60. 38 3. 93 13. 148 14. 203 36. 39 3. 94 13. 149 14. 204 37. 40 2. 95 13. 150 14. 205 38. 41 2. 96 13. 151 14. 206 39. 42 1. 97 13. 152 14. 207 40. 43 1. 98 14. 153 14. 208 41. 44 1. 99 14. 154 14. 209 42. 45 1. 100 14. 155 14. 210 43. 46 0. 101 14. 156 15. 211 44. 47 0. 102 15. 157 15. 212 45. 48 0. 103 15. 158 15. 213 46. 49 0. 104 15. 159 15. 214 47. 50 0. 105 15. 160 15. 215 48. 51 0. 106 15. 161 15. 216 49. 52 2. 107 16. 162 15. 217 50. 53 2. 108 16. 163 15. 218 50. 54 2. 109 16. 164 15. 219 50. 55 3. 110 16. 165 15. 220 50. このプログラムは、市販されている汎用コンピュータで
使用されるものであるが、他の汎用プロセッサまたは専
用プロセッサでの使用に容易に適合させることができ
る。
【0032】本教示、すなわち、OCF(周波数領域の
最適符号化)の量子化と符号化方法による混成符号器の
代表的な形では、公知の文献に記載のシステムが使用さ
れた。その合成による分析方法では、スペクトル成分
が、まず、非一様量子化器を使用して量子化される。
【0033】その内側繰り返しループ(レートループ)
では、エントロピー符号を使用して量子化値を符号化す
るために必要とされるビットの合計数が、利用可能なビ
ットの数と比較される。利用可能なビットに対する実際
のビットの比に依存して、量子化ステップの大きさが調
整され、量子化値のブロックを符号化するに必要な別の
ビット数が得られる。
【0034】外側反復ループ(歪制御ループ)は、各々
の臨界帯域ごとの実際の量子化雑音エネルギーを、評価
したマスキングしきい値と比較する。実際の雑音がいず
れかの臨界帯域におけるマスキングしきい値を越える
と、この臨界帯域におけるスペクトル成分の比率が調整
されてより低い量子化雑音を発生する。
【0035】図5は、量子化および符号化に使用される
反復ループのブロック線図を示す。このアルゴリズムは
公知の論文に詳しく記載されている。図5は、伝送また
は記憶されるべき実際のビット列を発生するために心理
音響的しきい値および関連する上に述べた情報を、OC
Fシステムのような符号器が使用する方法を示す。
【0036】かくして、入力点500における入力情報
は、適切にバッファリングされ、適当にブロックに区分
けされ、そして、上記の方法で変換されていると仮定す
る。適当な可変分解能スペクトル情報はブロック504
にも提供される。このブロック504は、ブロック50
2における量子化の前に、ブロック501において、重
み付け周波数信号に対し心理音響評価を与える。
【0037】実際のエントロピーの符号化は、図5のブ
ロック503により表される。かくして、入力信号のス
ペクトル情報を記述する情報は、出力515で与えられ
る。サイクルの音響評価および量子化方法を記述する補
助情報は、出力点520と525から出力される。すべ
ての出力は、伝送または記憶のために単一のビット列へ
と適宜多重化される。
【0038】知覚エントロピーPE(公知)は、人間の
聴覚システムの能力を基準とした1つの音楽の情報内容
の評価である。これは、与えられた合成による分析方法
を用いて1つの音楽の透過的符号化に必要な最小のビッ
トレートを評価する。公知の論文に示されているよう
に、PEは、マスキングしきい値における1つの音楽を
符号化するに必要な量子化レベルの数から計算される。
【0039】混成符号器の合成による分析構成を使用し
て、PEの評価が、異なる音楽ごとに計算された。リス
ト2は、その結果、および、それらと、他の合成による
分析システムを使用して測定したPEとの比較を示す。
これから、混成符号器が従来の結果と比較してうまく機
能することが分かる。
【0040】 音楽 旧PE 新PE (型) (ビット/サンプル) (ビット/サンプル) オルガン .24 .48 スザンベーガ .69 .54 カスタネット .73 .52 リスト2:PE測定の結果
【0041】上記のOCFの量子化/符号化方法を使用
して、混成符号器の代表的な結果が集められた。使用さ
れたビットレートはチャネルあたり64キロビット/秒
であり、基本的なブロック長は、1024個の時間領域
サンプルであった。MDCTは、QMFトリーからの組
み合せフィルタバンクの出力を計算するために使用され
た。試験曲のサンプリング速度は48kHzであった。
信号は、20kHzまでの帯域幅で符号化された。64
キロビット/秒での各ブロックごとに利用できる136
2ビットの中から、226ビットが、補助情報を符号化
するために使用された。
【0042】以上、改善した時間/周波数分解能を使用
する第2世代知覚符号器について説明した。大いに改良
されたしきい値を提供するために、周波数ごとに、周波
数に基づいて計算された調性距離が、各周波数ごとの符
号器の雑音しきい値の計算と組み合わされる。本発明
は、かくして、低ビットレートで高品質デジタルオーデ
ィオの公知の符号化に優る有利な性能を提供する。
【0043】上記の教示による復号器は、上記の試みを
用いて構成することができる。本発明により提供される
改善された時間/周波数分解能のために、対応する改良
になる処理が復号器で達成される。
【0044】符号器での元の入力信号を再構成するため
に受信器あるいは復号器で使用される情報は、もちろ
ん、図5により表されるシステムからの出力として提供
される情報である。特に、必要ならば分離化の後に、ス
ペクトル情報および補助情報は元の入力信号を再構成す
るために使用される。
【0045】全体利得、量子化器ステップサイズ、スケ
ーリング係数、ビット割当てなどを含むサイクル音響評
価および量子化方法を記述する情報とともに、サンプリ
ングした時間領域信号を、その周波数成分から再構成す
るのに必要なすべての情報は、受信器/復号器に存在す
る。
【0046】非一様な周波数および時間の分解能(両方
とも周波数の関数として)に関する情報も復号器で使用
される。元のアナログ信号の再生用の(例えば、拡声器
で)等価なアナログ信号を発生することが必要とされる
場合には、高忠実度での公知のデジタル−アナログ変換
も、提供される。
【0047】以上の説明は、本発明の一実施例に関する
もので、この技術分野の当業者であれば、本発明の種々
の変形例が考え得るが、それらはいずれも本発明の技術
的範囲に包含される。尚、特許請求の範囲に記載した参
照番号は発明の容易なる理解のためで、その技術的範囲
を制限するよう解釈されるべきではない。
【0048】
【発明の効果】以上述べたごとく、本発明によれば、従
来技術におけるプリエコーの問題と処理の遅れの増大を
防止することができる。
【図面の簡単な説明】
【図1】知覚符号器の一般的なブロック線図である。
【図2】図1に示した種類のシステムの構成における本
発明の混成符号器で使用される基本的な分析システムを
示す。
【図3】図2の混成分析構成の時間/周波数内部構成を
示す。
【図4】試験信号の短時間スペクトルを示す。
【図5】本発明の代表的な実施の場合の反復ループのブ
ロック線図を示す。
【符号の説明】
101 分析フィルタバンク 102 心理音響学に基づくマスキングしきい値の計算 103 量子化および符号化 104 直列ビット列の多重化 105 ビット列 201,202,203 80タップ 210,211,212 64線ウィンドウ変換 213 128線ウィンドウ変換 501 スペクトル重み付け 502 量子化器 503 エントロピー符号化 504 量子化プロセスの心理音響評価
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジェームス デビッド ジョンストン アメリカ合衆国 07060 ニュージャー ジィ、ワレン、バレー ビュー ロード 8 (56)参考文献 特開 昭58−193598(JP,A) 特開 昭58−77010(JP,A) 特開 昭60−69699(JP,A) 特開 昭59−129900(JP,A) 特開 昭63−285032(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 G10L 19/02

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 第1の周波数係数セットを含む離散周波
    数スペクトルをそれぞれ有するブロックの順序セットに
    分割されたオーディオ信号の時系列を処理する方法にお
    いて、 直交ミラーフィルタによって前記第1の周波数セットを
    それぞれ隣接する周波数範囲を表す複数の周波数帯域へ
    とフィルタリングするステップと、 ウィンドウ変換フィルタによって前記周波数帯域のうち
    の少なくとも1つをそれぞれ少なくとも1つの周波数係
    数を含む複数の周波数群へとフィルタリングするステッ
    プと、 調性に影響を与えずに周波数群に導入されうる量子化ノ
    イズの量を示すノイズマスキングしきい値を、各周波数
    群内の周波数係数ごとに決定するステップと、 前記ノイズマスキングしきい値に基づいて、前記周波数
    群のうちの少なくとも1つにおける少なくとも1つの周
    波数係数を量子化するステップとからなり、 前記2つのフィルタリングするステップは、相異なる周
    波数で相異なる時間および相異なる分解能により前記周
    波数係数を生成することにより人間の聴覚応答を近似す
    るものであることを特徴とするオーディオ信号処理方
    法。
  2. 【請求項2】 前記ウィンドウ変換フィルタは拡張離散
    コサイン変換フィルタであることを特徴とする請求項1
    の方法。
  3. 【請求項3】 前記ウィンドウ変換フィルタは離散フー
    リエ変換フィルタであることを特徴とする請求項1の方
    法。
  4. 【請求項4】 前記ノイズマスキングしきい値は、各周
    波数群に対する調性距離を決定するステップに基づいて
    決定され、当該調性距離は、当該周波数群のオーディオ
    信号の時系列が楽音品質を含む程度に対応することを特
    徴とする請求項1の方法。
  5. 【請求項5】 前記調性距離はコヒーレンス測度に基づ
    いて生成されることを特徴とする請求項4の方法。
  6. 【請求項6】 前記コヒーレンス測度は、特定の時刻に
    おいて周波数係数の複素平面上の極座標で計算された予
    測に基づき、実際の周波数係数と予測される周波数係数
    の間のユークリッド距離に相当することを特徴とする請
    求項5の方法。
  7. 【請求項7】 前記周波数係数は周波数帯域内の周波数
    係数に対応することを特徴とする請求項6の方法。
  8. 【請求項8】 前記周波数係数は周波数群内の周波数係
    数に対応することを特徴とする請求項6の方法。
  9. 【請求項9】 第1の周波数係数セットを含む離散周波
    数スペクトルをそれぞれ有するブロックの順序セットに
    分割されたオーディオ信号の時系列を処理する方法にお
    いて、 少なくとも直交ミラーフィルタおよびウィンドウ変換フ
    ィルタによって前記第1の周波数セットをそれぞれ少な
    くとも1つの周波数係数を含む複数の周波数群へとフィ
    ルタリングするステップと、 調性に影響を与えずに周波数群に導入されうる量子化ノ
    イズの量を示すノイズマスキングしきい値を、各周波数
    群内の周波数係数ごとに決定するステップと、 前記ノイズマスキングしきい値に基づいて、前記周波数
    群のうちの少なくとも1つにおける少なくとも1つの周
    波数係数を量子化するステップとからなり、 前記フィルタリングするステップは、相異なる周波数で
    相異なる時間および相異なる分解能により前記周波数係
    数を生成することにより人間の聴覚応答を近似するもの
    であることを特徴とするオーディオ信号処理方法。
JP23455597A 1990-03-09 1997-08-29 オーディオ信号処理方法 Expired - Lifetime JP3145339B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US49137390A 1990-03-09 1990-03-09
US491373 1990-03-09

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP3068731A Division JP2774203B2 (ja) 1990-03-09 1991-03-08 オーディオ信号処理方法

Publications (2)

Publication Number Publication Date
JPH10133699A JPH10133699A (ja) 1998-05-22
JP3145339B2 true JP3145339B2 (ja) 2001-03-12

Family

ID=23951937

Family Applications (2)

Application Number Title Priority Date Filing Date
JP3068731A Expired - Lifetime JP2774203B2 (ja) 1990-03-09 1991-03-08 オーディオ信号処理方法
JP23455597A Expired - Lifetime JP3145339B2 (ja) 1990-03-09 1997-08-29 オーディオ信号処理方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP3068731A Expired - Lifetime JP2774203B2 (ja) 1990-03-09 1991-03-08 オーディオ信号処理方法

Country Status (7)

Country Link
EP (1) EP0446037B1 (ja)
JP (2) JP2774203B2 (ja)
KR (1) KR0185582B1 (ja)
CA (1) CA2037780C (ja)
DE (1) DE69127842T2 (ja)
HK (1) HK1002743A1 (ja)
SG (1) SG44675A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE40280E1 (en) 1988-12-30 2008-04-29 Lucent Technologies Inc. Rate loop processor for perceptual encoder/decoder
US5502789A (en) * 1990-03-07 1996-03-26 Sony Corporation Apparatus for encoding digital data with reduction of perceptible noise
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
PL183307B1 (pl) * 1994-03-31 2002-06-28 Arbitron Co System kodowania sygnału dźwiękowego
EP0720316B1 (en) * 1994-12-30 1999-12-08 Daewoo Electronics Co., Ltd Adaptive digital audio encoding apparatus and a bit allocation method thereof
CN1108023C (zh) * 1995-01-27 2003-05-07 大宇电子株式会社 自适应数字音频编码装置及其一种位分配方法
US5699479A (en) * 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
DE19505435C1 (de) * 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
WO1997014266A2 (en) * 1995-10-10 1997-04-17 Audiologic, Inc. Digital signal processing hearing aid with processing strategy selection
US5864820A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for mixing of encoded audio signals
US6782365B1 (en) 1996-12-20 2004-08-24 Qwest Communications International Inc. Graphic interface system and product for editing encoded audio data
US6463405B1 (en) 1996-12-20 2002-10-08 Eliot M. Case Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
US5864813A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for harmonic enhancement of encoded audio signals
US6477496B1 (en) 1996-12-20 2002-11-05 Eliot M. Case Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one
US6516299B1 (en) 1996-12-20 2003-02-04 Qwest Communication International, Inc. Method, system and product for modifying the dynamic range of encoded audio signals
US5845251A (en) * 1996-12-20 1998-12-01 U S West, Inc. Method, system and product for modifying the bandwidth of subband encoded audio data
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
DE19947877C2 (de) 1999-10-05 2001-09-13 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
RU2374703C2 (ru) * 2003-10-30 2009-11-27 Конинклейке Филипс Электроникс Н.В. Кодирование или декодирование аудиосигнала
DE102004009949B4 (de) * 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
KR101105359B1 (ko) * 2010-06-22 2012-01-16 연세대학교 산학협력단 깊이 영상에 기반한 3차원 영상의 피로도 측정 방법 및 장치
JP7092050B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4433604A (en) * 1981-09-22 1984-02-28 Texas Instruments Incorporated Frequency domain digital encoding technique for musical signals
JPS58193598A (ja) * 1982-05-07 1983-11-11 日本電気株式会社 音声符号化方式とそれに供する装置
JPS59129900A (ja) * 1983-01-18 1984-07-26 日本電信電話株式会社 帯域分割符号化方式
JPS6069699A (ja) * 1983-09-26 1985-04-20 株式会社リコー 音声パタ−ン作成装置

Also Published As

Publication number Publication date
EP0446037B1 (en) 1997-10-08
DE69127842D1 (de) 1997-11-13
EP0446037A2 (en) 1991-09-11
SG44675A1 (en) 1997-12-19
JP2774203B2 (ja) 1998-07-09
KR910017780A (ko) 1991-11-05
DE69127842T2 (de) 1998-01-29
HK1002743A1 (en) 1998-09-11
KR0185582B1 (ko) 1999-04-15
JPH10133699A (ja) 1998-05-22
EP0446037A3 (en) 1992-09-16
CA2037780C (en) 1996-07-02
JPH04219799A (ja) 1992-08-10
CA2037780A1 (en) 1991-09-10

Similar Documents

Publication Publication Date Title
JP3145339B2 (ja) オーディオ信号処理方法
Sinha et al. Low bit rate transparent audio compression using adapted wavelets
KR100209870B1 (ko) 오디오 신호의 순서화된 타임 시퀸스 처리 방법 및 오디오 신호 전송 방법
EP2479750B1 (en) Method for hierarchically filtering an input audio signal and method for hierarchically reconstructing time samples of an input audio signal
CN1838239B (zh) 一种用于增强信源解码器的设备及方法
Johnston Transform coding of audio signals using perceptual noise criteria
US5621856A (en) Digital encoder with dynamic quantization bit allocation
JP3297051B2 (ja) 適応ビット配分符号化装置及び方法
US5732189A (en) Audio signal coding with a signal adaptive filterbank
US5341457A (en) Perceptual coding of audio signals
JP3153933B2 (ja) データ符号化装置及び方法並びにデータ復号化装置及び方法
JP5175028B2 (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
JPH08505030A (ja) 差動符号化法を実行する伝送システム
KR0137472B1 (ko) 오디오 신호 코딩 방법
US6466912B1 (en) Perceptual coding of audio signals employing envelope uncertainty
Mahieux et al. High-quality audio transform coding at 64 kbps
JPH07261800A (ja) 変換符号化方法、復号化方法
Sen et al. Use of an auditory model to improve speech coders
Lincoln An experimental high fidelity perceptual audio coder
JP4618823B2 (ja) 信号符号化装置及び方法
Sablatash et al. Compression of high-quality audio signals, including recent methods using wavelet packets
AU2011205144B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
Teh et al. Subband coding of high-fidelity quality audio signals at 128 kbps
Suresh et al. Direct MDCT domain psychoacoustic modeling
KR100351772B1 (ko) 디지털부호화장치,디지털기록신호도출장치및디지털신호데이터도출방법

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080105

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090105

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100105

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110105

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120105

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120105

Year of fee payment: 11