JP3513292B2 - 雑音荷重フィルタリング方法 - Google Patents
雑音荷重フィルタリング方法Info
- Publication number
- JP3513292B2 JP3513292B2 JP33840995A JP33840995A JP3513292B2 JP 3513292 B2 JP3513292 B2 JP 3513292B2 JP 33840995 A JP33840995 A JP 33840995A JP 33840995 A JP33840995 A JP 33840995A JP 3513292 B2 JP3513292 B2 JP 3513292B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- band
- component
- noise
- subband
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000001914 filtration Methods 0.000 title description 6
- 230000000873 masking effect Effects 0.000 claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims description 31
- 238000013139 quantization Methods 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 21
- 230000005236 sound signal Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 240000000489 Agave utahensis Species 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
音荷重フィルタリングに関する。
のディジタル・ネットワークの進歩により、電子会議や
高品質の画像や音声の送信に対する関心が再び高まって
いる。コンパクト・ディスクや高画質テレビの時代にお
いて、より高い忠実度を求める傾向は、電話をも含むよ
うになった。
い電話に対する需要が、特にビジネス社会において存在
する。従来の電話通信は、狭帯域音声の送信のための3
00〜3400Hzと帯域が限られており、電話での会
話中、聞き手を緊張させる傾向がある。これに対して、
50〜7000Hz範囲の広帯域音声は、聞き手に(5
0〜300Hzの範囲の信号を送受信することにより)
より臨場感と(3000〜7000Hzの範囲の信号を
送受信することにより)明瞭さとを提供するので、長時
間にわたって許容しやすくなる。したがって、電話サー
ビスの品質を改善するには、広帯域通話が自然な選択肢
である。
信するためには、連続的な時変数の連続的な関数として
特徴づけることができる入力通話信号を、ディジタル信
号、つまり時間と振幅との両方で不連続な信号に変換し
なければならない。この変換は2段階のプロセスであ
る。まず、入力通話信号を定期的に(すなわち特定の割
合で)サンプリングし、連続体の値をとる一続きのサン
プルを生成する。次に、サンプルを量子化して、2進数
(ビット)で表される有限の組の値にし、ディジタル信
号を生成する。ディジタル信号は、ビット伝送速度で特
徴付けられる。ビット伝送速度とは、1秒当たりの規定
ビット数で、入力信号のサンプリング頻度とサンプリン
グした値の量子化に使用されるビット数とを反映する。
品質が改善できたことによって、残念ながら、広帯域信
号を適切に符号化しない限り、通常はビット伝送速度を
上げねばならなくなった。つまり広帯域信号を大幅に圧
縮しても、量子化誤差による明瞭な歪み無しに、より少
ないビット数で表示できるようにしなければならなくな
った。最近、一部の高忠実度通話および音声符号器が依
存している概念は、不偏分散した歪みの誤差測度(たと
えば、ある信号と符号化または復号化したその信号との
間のエネルギー差の測度)は、必ずしも符号化された波
形に認められる品質を示していない、すなわちどの種類
の歪みも等しく感知されるわけではない、ということで
ある。M.R.Schroeder、B.S.Atal およびJ.L.Hallの「人
間の耳のマスキング特性の利用によるディジタル通話符
号器の最適化」(J.Acous.Soc.Am., vol.66,1647-1652,
1979) 。たとえば、s(t)と−s(t)との間の信号
対雑音比は−6dBであるが、耳はこの2つの信号を区
別できない。したがって、聴覚組織が異なった種類の雑
音をいかに許容するかについて、何らかの知識があれ
ば、量子化誤差の可聴性(必ずしもエネルギーではな
い)を最小限に抑える符号器の設計が可能であった。特
に、このような最近の符号器は、マスキングと呼ばれる
人間の聴覚組織の現象を利用している。
明瞭にしたりかき消したりする人間の聴覚現象を述べる
用語である。一般的な例は、カー・ラジオのボリューム
を十分大きくすると、エンジンの音がかき消されること
である。同様に、シャワーを浴びていて電話の呼出しが
分からないのは、シャワーの音が電話の呼出音をマスキ
ングしているからである。シャワーが出ていなければ、
呼出音は聞こえる。符号器の場合、符号器が量子化雑音
を常に元の信号によって完全にマスキングされるような
形状にすると、符号器による雑音(「符号器」または
「量子化」雑音)が元の信号によってマスキングされる
ので、知覚的に損失がない(あるいは透明な)圧縮がで
きる。通常、これには符号化雑音が信号とほぼ同じスペ
クトル形状を持っていなければならない。任意の周波数
帯域におけるマスキングの量は、その帯域における信号
エネルギーの量によって概ね決まるからである。『音声
信号処理の進歩』(S.FuruiおよびM.M.Sondhi編集、Marc
el Dekker, Inc., New York,1992)のP.KroonおよびB.S.
Atal「分析合成技術を用いた音声の予測符号化」。
縮には、商業的に重要な2つの音声源にそれぞれ対応
し、異なる特性に応じた2つの別個のアプローチがあっ
た。それはコンパクト・ディスク/高忠実度音楽と広帯
域(50〜7000Hz)通話である。高忠実度音楽
は、スペクトルがはるかに複雑なので、変換符号化戦略
を用いた最初のアプローチに非常に適していた。J.D.Jo
hnston「知覚基準を用いた音声信号の変換符号化」(IEE
E J.Sel.Areas in Comm., 314-323, June 1988) 、およ
びB.S.AtalおよびM.R.Schroeder 「通話信号の予測符号
化および主観的誤差の基準」(IEEE Trans. ASSP, 247-2
54, June 1979)。これに対して、音声処理の領域では、
符号励起線形予測符号化(CELP)や低遅延CELP(LD-CE
LP) などの時間ベースのマスキング機構を利用した2番
目のアプローチで成功することが判明している。E.Orde
ntlichおよびY.Shoham「32Kbpsの広帯域音声のコ
ード励起線形予測符号化」(Proc.ICASSP,1991)、および
J.H.Chen「16Kb/sの堅牢な低遅延CELP音声符
号器」(GLOBECOM 89, vol.2, 1237-1240, 1989)。
いて量子化騒音を整形し、マスキング効果を利用する。
変換符号器は、音声信号のフレームごとに符号器が先験
的に雑音の知覚的閾値を計算するという技術を用いる。
この閾値は、通常、信号対雑音比によって特徴付けら
れ、任意の信号パワーにおいて、この比率は閾値に適合
する信号に雑音のパワー・レベルを加算して決定され
る。一般的に用いられる知覚閾値の一つは、パワーのス
ペクトルとして測定され、弁別閾(JND) として知られ
る。弁別できる歪みを導入せずに任意の音声フレームを
追加することができる雑音の大部分を表すからである。
知覚的閾値の計算は、Johston (上記参照)で詳述さ
れ、Schroeder (上記参照)が音響心理学的実験によっ
て開発した雑音マスキング・モデルに依存する。したが
って、JNDをベースにしたシステムの量子化雑音は、
既知の耳の特性によく適合する。周波数領域または変換
符号器は、符号化された結果がオリジナルと識別できな
いよう、各スペクトル成分を表すのに必要な忠実度を最
小限にし、したがって必要なビット数を最小限にする一
つの手段として、JNDスペクトルを使用することがで
きる。
キング機構は、異なる技術を用いている。線形予測音声
符号器による量子化雑音は、予測子のオーダーが十分高
く、ピッチ・ループが含まれていれば、ほぼ白色であ
る。B.Sharf「複雑な音声とクリティカル・バンド」(Ps
ychol. Bull., vol.58, 205-217, 1961)、およびN.S.Ja
yantおよびP.Noll「波形のディジタル符号化」(Prentic
e-Hall, Englewood Cliff, NJ, 1984) 。しかし、音声
スペクトルは通常平らではないので、雑音のパワーが音
声のパワーを上回るフォルマント間領域または高周波数
では、この歪みが極めて聞こえやすくなることがある。
広帯域音声の場合は、スペクトルの動的範囲が極端(最
高100dB)なので、雑音と信号との不一致が著しい
音響欠陥を招く。
る一つの解決策は、JNDのスペクトルに適合するよう
設計された雑音荷重(または知覚的白色化)フィルタを
通して、信号を濾過することである。現在のCELPシ
ステムでは、雑音荷重フィルタは、符号化の歪みを、音
声パワーが大きい方のフォルマント領域に集中させるよ
うな方法で、システムの線形予測コード(LPC) 反転シス
テムから数学的に得られる。この解決策は、実際のシス
テムを改善するが、重要な不備が2つある。第1に、雑
音荷重フィルタはLPCフィルタに直接依存しているの
で、LPC分析そのものの精度までしか得られない。第
2に、雑音荷重フィルタのスペクトル形状は、実際のJ
NDスペクトルとおおよその近似しかとれないので、音
響心理学のモデルや実験のような、特定の関連知識から
は離れる。
スを使用して入力信号の定量化を制御すると有利であ
る。マスキング・マトリクスは「音声マスキング特性の
測定方法」と題して本出願と同時に出願され、共通の譲
受人を有し、参照によって本明細書に組み込まれている
共願出願で述べているタイプである。好ましい実施例で
は、入力信号を1組の副帯信号成分に分割し、入力信号
の量子化を、a)各副帯信号成分のパワー・レベルおよ
びb)マスキング・マトリクスに基づいて生成された制
御信号に応じて制御する。本発明の個々の実施例では、
1組の量子化ビットを1組の量子化器に割り当てること
により、制御信号を用いて入力信号の量子化を制御す
る。他の実施例では、量子化すべき信号のスペクトルを
整形するよう、入力信号の副帯信号成分に個々の利得パ
ラメータを掛け、定量化すべき入力信号を前処理するこ
とによって、制御信号を用いて量子化を制御する。いず
れの場合でも、量子化された信号の結果における量子化
雑音のレベルは、マスキング・マトリクスをいるプロセ
スで使用した雑音の知覚的閾値に適合する。本発明の利
点は、図とともに以下の記述を読むと明瞭になる。
法を使用することができるシステムのブロック図であ
る。音声符号器130によって導入された量子化雑音の
知覚的マスキングが増加されるよう、信号のスペクトル
を濾過する雑音荷重フィルタ120に音声信号を入力す
る。雑音荷重フィルタ120の出力は、副次的な情報と
して伝送されるべきあらゆる情報と同様、音声符号器1
30に入力される(以下参照)。音声符号器130は、
周波数領域または時間領域符号器でよい。音声符号器1
30は、ビット・ストリームを生成し、これは次に、チ
ャンネル145を通じて伝送するためにビット・ストリ
ームを符号化するチャンネル符号器140に入力され
る。受信された符号化ビット・ストリームは、次にチャ
ンネル復号器150に入力され、復号したビット・スト
リームを生成する。復号化されたビット・ストリーム
は、次に、音声復号器160に入力される。音声復号器
160は、加重音声信号と副次的な情報の推定値を出力
し、これが逆雑音荷重フィルタ170の入力となり、音
声信号の推定値を生成する。
する知識を利用して、入力信号をよりよく符号化でき
る、ということを認識している。特に、このような知識
を利用して、音声符号器によって導入された量子化雑音
を削減するよう、入力信号を濾過することができる。た
とえば、その知識は副帯符号器に使用することができ
る。副帯符号器では、入力信号を、たとえばフィルタバ
ンクによって副帯成分に分解し、各副帯成分を副帯量子
化器内で量子化する。すなわち、副帯成分の値の連続体
を量子化して、規定数の量子化ビットによって表される
有限の組の値にする。下記のように、音声マスキング特
性の知識を利用して、規定数の量子化ビットを副帯量子
化器に割り当てることができる。すなわち、より大量の
量子化ビット(およびより少量の量子化雑音)を、その
入力音声信号の副帯成分に関連した量子化器に割り当て
る。ここでは、適切に割り当てないと、量子化雑音が非
常に顕著になる。
を使用して、入力信号の量子化を制御する信号を生成す
ると有利である。入力信号の量子化は、たとえば利用で
きる量子化ビットの数を制御するか、量子化ビットを副
帯量子化器に割り当てることによって、量子化器のパラ
メータを制御することにより制御することができる。入
力信号の量子化は、入力信号を前処理し、量子化されて
前処理された入力信号が特定の所望の特性を有するよう
入力信号を整形することによっても制御することができ
る。たとえば、量子化中に生じた雑音が知覚的に目立た
なくなるよう、入力信号の副帯成分に利得パラメータを
掛けることができる。いずれの場合にも、結果として得
られた量子化信号の量子化雑音のレベルは、マスキング
・マトリクスを得るプロセスで使用された知覚的雑音閾
値に適合する。本発明の方法では、入力信号を、1組の
n個の副帯信号成分に分割し、マスキング・マトリクス
はn×nのマトリクスで、ここで各要素qi,j は、マス
キング閾値に適合するように信号成分iに追加される帯
域jの雑音の(パワーの)量を表す。このように、マス
キング・マトリクスQは、音声マスキング特性の知識を
取り入れる。入力信号の量子化の制御に使用される信号
は、マスキング・マトリクスの関数で、副帯信号成分の
パワーである。
発明の雑音荷重フィルタ120の第1の実施例を示す。
雑音荷重フィルタ120の開ループの量子化は、音声符
号器130の量子化プロセスの一部ではない。音声信号
は、雑音荷重フィルタ120に入力され、n個のフィル
タ121−i(i=1、2、・・・n)を含むフィルタ
バンクに適用される。各フィルタ121−iは、個々の
転送関数Hi (z)で特徴付けられる。各フィルタ12
1−iの出力は、個々の副帯成分si である。個々の出
力成分信号のパワーpi は、パワーの測定値122−i
によって測定され、測定値はマスキング・プロセッサ1
24に入力される。入力音声信号のパワーは、下記のよ
うに表される。
にかけられた時に音声符号器130が加算した雑音が知
覚的に目立たなくなるよう、個々の利得信号gi を用い
て音声入力の各副帯成分si を調節する方法を決定す
る。荷重音声信号のパワーは下記の通りである。
れ、利得パラメータも、逆雑音荷重フィルタ170で使
用するための副次的な情報として、音声符号器130に
よって符号化される。
マスキング・プロセッサ124によって決定される。g
i は、1倍率の自由度を有し、ここではすべてのgi に
固定定数を掛けることができ、結果は等しくなる。すな
わち、γg1 、γg2 ・・・γgn が選択されたら、逆
フィルタ170は単に個々の副帯に1/γg1 、1/γ
g2 ・・・1/γgn を掛けて、音声信号の推定値を生
成する。単純化のため、gi がパワーを保存するように
選択されると推定すると便利である。
述べる表記を定義すると有利である。特に、Vp は、パ
ワー測定値122−iからの入力パワーのベクトルと定
義される。
クスQの要素qi,j にアクセスもする。要素は、メモリ
素子(たとえば読み取り専用メモリまたは読み書きメモ
リ)に保存することができる。これはマスキング・プロ
セッサ124に組み込むか、マスキング・プロセッサ1
24によってアクセスされる。各qi,j は、マスキング
閾値に適合するように信号成分iに追加される帯域jの
雑音の量を表す。いかにQマスキング・マトリクスを取
得するかを述べる方法は、前述の「音声マスキング特性
の測定方法」で開示されている。ここで、フィルタバン
ク121の特性が、Qマトリクスの決定に使用されるフ
ィルタバンクの特性と等しいと有利であることに留意す
ると便利である(上記の共願の出願を参照すること)。
のに使用するマスキング閾値を近似するのに「理想的」
または所望の雑音レベルのベクトルである。
す。すなわち、次式の通りである。
化器係数βの関数である。量子化器の係数は、使用され
る特定のタイプの符号器および各帯で量子化信号に割り
当てられるビット数の関数である。
ことである。すなわち、2つの雑音パワー・ベクトルの
形状を同じくする。したがって、次式のようになる。
る。
雑音荷重フィルタは副帯パワーpiを測定し、総入力パ
ワーPを決定しなければならない。次に、式(1)を用
いて雑音ベクトルW0 を計算し、次いで式(2)を用い
て利得を求める。次いで、マスキング・プロセッサは、
副帯信号のスケーリングのための利得信号を生成する。
復号化の間に符号化音声を量子化解除するために、本実
施例では、利得を何らかの形で副次的情報として伝送し
なければならない。
合成システムにおける本発明の雑音整形フィルタを表
す。フィルタバンク321とマスキング・プロセッサ3
24とが、従来のCELPシステム内で雑音荷重フィル
タW(z)に取って代わっていることに留意されたい。
また、雑音荷重が閉ループ内で実行されるので、それ以
外の副次的な情報を伝送する必要がないことにも留意さ
れたい。
を有する副帯符号化に基づいた、本発明の別の実施例を
示す。この配置構成では、雑音荷重フィルタ120を使
用して、入力信号のスペクトルを整形し、制御信号を生
成して量子化ビットを割り当てる。ビット割当て器44
0は、荷重信号を用いて、各副帯量子化器430−iが
gi si を量子化するのに使用できるビット数を決定す
る。その目的は、全量子化器が同じ雑音パワーを発生す
るようにビットを割り当てることである。Biをi番目
の量子化器の副帯量子化器係数とする。ビット割当て手
順は、Bi Piq i が定数となるように、すべてのiにつ
いてBi を決定する。これは、すべてのiについて、全
帯の荷重音声が同様に重要だからである。
号を生成するために使用される、利得なし(すなわちg
i がすべて1)の雑音荷重フィルタのブロック図であ
る。この実施例では、タスクは、次式のように、副帯量
子化器530−i間にビットを割り当てることである。
すべてのiについて
として送信する必要がある。
および装置について述べている。方法および装置を、特
定のハードウェアまたはソフトウェアを参照せずに述べ
てきた。その代わり、方法および装置を、当業者なら利
用可能なあるいは好ましいようなハードウェアまたはソ
フトウェアに簡単に適用できるような方法で述べてき
た。本発明に関する上記の説明は、音声信号のフィルタ
リングに関するものであったが、ディジタル信号の処理
に関わる当業者であれば、この説明を、音楽信号、音響
信号、またはビデオ信号のフィルタリングなどの他の特
定の状況に適用できることを理解する。
ック図である。
タのブロック図である。
器および復号器のブロック図である。
音荷重フィルタを含む副帯符号器および復号器のブロッ
ク図である。
利得無し雑音荷重フィルタのブロック図である。
Claims (28)
- 【請求項1】 入力信号を1組のn個の副帯信号成分に
分割するステップと、前記副帯信号成分の各々のパワー
とマスキング・マトリクスとに基づいて、1組の利得信
号を生成するステップとからなり、前記1組の利得信号
の各利得信号は、前記1組の副帯信号成分の副帯信号成
分のそれぞれを増加させることを特徴とする方法。 - 【請求項2】 請求項1に記載の方法において、前記入
力信号が音声信号であることを特徴とする方法。 - 【請求項3】 請求項1に記載の方法において、前記分
割するステップは、前記入力信号をフィルタバンクへ印
可するステップからなり、前記フィルタバンクは、1組
のn個のフィルタからなり、前記1組のn個のフィルタ
の各フィルタの出力は、前記1組のn個の副帯信号成分
のそれぞれの副帯信号成分であることを特徴とする方
法。 - 【請求項4】 請求項1に記載の方法であって、さら
に、前記1組の利得信号に基づいて前記入力信号の量子
化を制御するステップからなることを特徴とする方法。 - 【請求項5】 請求項4に記載の方法において、前記制
御するステップは、量子化ビットを1組のn個の量子化
器へ割り当てるステップからなることを特徴とする方
法。 - 【請求項6】 請求項1に記載の方法において、前記マ
スキング・マトリクスはn×nのマトリクスであり、前
記マスキング・マトリクスの各要素qi,jは、帯域i
の副帯信号成分のパワーレベルによって特徴付けられる
副帯信号成分にマスク可能な帯域jの雑音パワーの比率
であることを特徴とする方法。 - 【請求項7】 請求項6に記載の方法において、前記比
率は、音声信号が雑音信号をマスクする程度を示すこと
を特徴とする方法。 - 【請求項8】 請求項7に記載の方法において、前記比
率は、前記雑音信号の帯域jの要素をマスクする前記音
声信号の帯域iの成分の測定値に基づくことを特徴とす
る方法。 - 【請求項9】 入力信号を変換して変換信号を生成する
方法であって、 前記入力信号を1組のn個の副帯信号成分へ分割するス
テップと、 各信号成分のパワーレベルとマスキング・マトリクスと
に応動して前記入力信号を量子化することで前記変換信
号を生成するステップとからなり、前記生成するステッ
プは、1組のn個の利得パラメータの利得パラメータの
それぞれでそれぞれの副帯信号成分を増加するステップ
からなり、前記1組の利得パラメータの各利得パラメー
タは、前記1組のn個の副帯信号成分の副帯信号成分の
それぞれを増加することを特徴とする方法。 - 【請求項10】 請求項9に記載の方法において、前記
変換信号は関連するスペクトルを有し、前記関連するス
ペクトルは成分からなり、前記関連するスペクトルの各
成分がパワーレベルで特徴付けられ、前記関連するスペ
クトルの各成分は雑音信号をマスクし、前記雑音信号は
成分からなる関連するスペクトルを有し、前記雑音信号
と関連するスペクトルの各成分が関連するパワーレベル
によって特徴付けられ、そして前記雑音信号と関連する
スペクトルの各成分は等しいパワーであることを特徴と
する方法。 - 【請求項11】 請求項10に記載の方法において、前
記雑音信号と関連するスペクトルの成分のパワーレベル
に対する前記変換信号と関連するスペクトルの各成分と
関連するパワーレベルの比率が弁別歪レベルであること
を特徴とする方法。 - 【請求項12】 請求項10に記載の方法において、前
記雑音信号と関連するスペクトルの成分のパワーレベル
に対する前記変換信号と関連するスペクトルの各成分と
関連するパワーレベルの比率が可聴であるが不快ではな
いレベルであることを特徴とする方法。 - 【請求項13】 請求項9に記載の方法において、前記
量子化が単一の量子化器によって実行されることを特徴
とする方法。 - 【請求項14】 請求項9に記載の方法において、前記
マスキング・マトリクスがn×nのマトリクスであり、
前記マスキング・マトリクスの各要素qi,jは、帯域
iの副帯信号成分のパワーレベルによって特徴付けられ
る副帯信号成分にマスク可能な帯域jの雑音パワーの比
率であることを特徴とする方法。 - 【請求項15】 請求項14に記載の方法において、前
記比率は、音声信号が雑音信号をマスクする程度を示す
ことを特徴とする方法。 - 【請求項16】 請求項15に記載の方法において、前
記比率は、前記雑音信号の帯域jの要素をマスクする前
記音声信号の帯域iの成分の測定値に基づくことを特徴
とする方法。 - 【請求項17】 副次的な情報からなる信号と符号化信
号とを受信するステップと、前記副次的な情報とマスキ
ング・マトリクスとに基づいて前記符号化信号を復号す
るステップからなる方法であって、前記復号するステッ
プは、 前記符号化信号を1組のn個の副帯信号成分へ分割する
ステップと、各副帯信号成分を1組のn個の利得値のう
ちの対応するもので増加して、1組のn個の増加副帯信
号成分の対応するものを生成するステップからなり、前
記1組のn個の利得値はマスキング・マトリクスに基づ
くものであり、そして、 n個の増加副帯信号成分を組み合わせて復号信号を生成
するステップからなることを特徴とする方法。 - 【請求項18】 請求項17に記載の方法において、前
記符号化信号が符号化された音声信号であることを特徴
とする方法。 - 【請求項19】 請求項17に記載の方法において、前
記副次的な情報は1組の測定値からなり、前記測定値の
各々は入力信号の副帯成分のパワーレベルを反映し、そ
して前記入力信号は、前記符号化信号を形成すべく符号
化されていることを特徴とする方法。 - 【請求項20】 請求項19に記載の方法において、前
記マスキング・マトリクスがn×nのマトリクスであ
り、前記マスキング・マトリクスの各要素qi,jは、
帯域iの副帯成分のパワーレベルにマスク可能な帯域j
の雑音パワーの比率であることを特徴とする方法。 - 【請求項21】 請求項20に記載の方法において、前
記副帯成分は、1組のn個のフィルタからなるフィルタ
バンクの出力であり、そして各フィルタの出力は、それ
ぞれ副帯信号成分であることを特徴とする方法。 - 【請求項22】 請求項17に記載の方法において、前
記副次的な情報は、前記1組のn個の利得値からなるこ
とを特徴とする方法。 - 【請求項23】 副次的な情報からなる信号と符号化信
号とを受信する受信手段と、 前記副次的な情報とマスキング・マトリクスとに基づい
て前記符号化信号を復号する復号手段とからなり、前記
復号手段は、前記符号化信号を1組のn個の副帯信号成
分へ分割する分割手段からなり、さらに、 副帯信号成分の各々を1組のn個の利得値のうちの対応
するもので増加して、1組のn個の増加副帯信号成分の
対応するものを生成する増加手段からなり、前記1組の
n個の利得値はマスキング・マトリクスに基づくもので
あり、そして、 n個の増加副帯信号成分を組み合わせて復号信号を生成
する組み合わせ手段からなることを特徴とするシステ
ム。 - 【請求項24】 請求項23に記載のシステムにおい
て、前記符号化信号が符号化された音声信号であること
を特徴とするシステム。 - 【請求項25】 請求項23に記載のシステムにおい
て、前記マスキング・マトリクスがn×nのマトリクス
であり、前記マスキング・マトリクスの各要素qi,j
は、帯域iの副帯信号成分のパワーレベルにマスク可能
な帯域jの雑音パワーの比率であることを特徴とするシ
ステム。 - 【請求項26】 請求項23に記載のシステムにおい
て、前記分割手段は、1組のn個のフィルタからなるフ
ィルタバンクからなり、各フィルタの出力は、それぞれ
副帯信号成分であることを特徴とするシステム。 - 【請求項27】 請求項23に記載のシステムにおい
て、前記副次的な情報は前記1組のn個の利得値からな
ることを特徴とする方法。 - 【請求項28】 請求項23に記載のシステムにおい
て、前記副次的な情報は1組の測定値からなり、前記測
定値の各々は入力信号の副帯成分のパワーレベルを反映
し、そして前記入力信号は、前記符号化信号を形成すべ
く符号化されていることを特徴とするシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/367526 | 1994-12-30 | ||
US08/367,526 US5646961A (en) | 1994-12-30 | 1994-12-30 | Method for noise weighting filtering |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08278799A JPH08278799A (ja) | 1996-10-22 |
JP3513292B2 true JP3513292B2 (ja) | 2004-03-31 |
Family
ID=23447544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP33840995A Expired - Lifetime JP3513292B2 (ja) | 1994-12-30 | 1995-12-26 | 雑音荷重フィルタリング方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US5646961A (ja) |
EP (1) | EP0720148B1 (ja) |
JP (1) | JP3513292B2 (ja) |
CA (1) | CA2165351C (ja) |
DE (1) | DE69529393T2 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5915235A (en) * | 1995-04-28 | 1999-06-22 | Dejaco; Andrew P. | Adaptive equalizer preprocessor for mobile telephone speech coder to modify nonideal frequency response of acoustic transducer |
US6038528A (en) * | 1996-07-17 | 2000-03-14 | T-Netix, Inc. | Robust speech processing with affine transform replicated data |
JP2891193B2 (ja) * | 1996-08-16 | 1999-05-17 | 日本電気株式会社 | 広帯域音声スペクトル係数量子化装置 |
US6128593A (en) * | 1998-08-04 | 2000-10-03 | Sony Corporation | System and method for implementing a refined psycho-acoustic modeler |
TW477119B (en) * | 1999-01-28 | 2002-02-21 | Winbond Electronics Corp | Byte allocation method and device for speech synthesis |
WO2001030049A1 (fr) * | 1999-10-19 | 2001-04-26 | Fujitsu Limited | Unite de traitement et de reproduction de son vocaux reçus |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
DE10150519B4 (de) * | 2001-10-12 | 2014-01-09 | Hewlett-Packard Development Co., L.P. | Verfahren und Anordnung zur Sprachverarbeitung |
US7050965B2 (en) * | 2002-06-03 | 2006-05-23 | Intel Corporation | Perceptual normalization of digital audio signals |
US7146316B2 (en) * | 2002-10-17 | 2006-12-05 | Clarity Technologies, Inc. | Noise reduction in subbanded speech signals |
ES2298568T3 (es) * | 2002-11-29 | 2008-05-16 | Koninklijke Philips Electronics N.V. | Descodificacion de audio. |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
US7787541B2 (en) * | 2005-10-05 | 2010-08-31 | Texas Instruments Incorporated | Dynamic pre-filter control with subjective noise detector for video compression |
EP1840875A1 (en) * | 2006-03-31 | 2007-10-03 | Sony Deutschland Gmbh | Signal coding and decoding with pre- and post-processing |
US7783123B2 (en) * | 2006-09-25 | 2010-08-24 | Hewlett-Packard Development Company, L.P. | Method and system for denoising a noisy signal generated by an impulse channel |
CN101308655B (zh) * | 2007-05-16 | 2011-07-06 | 展讯通信(上海)有限公司 | 一种音频编解码方法与装置 |
US8831936B2 (en) * | 2008-05-29 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement |
US8538749B2 (en) | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
GB2466670B (en) * | 2009-01-06 | 2012-11-14 | Skype | Speech encoding |
GB2466672B (en) * | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
GB2466674B (en) | 2009-01-06 | 2013-11-13 | Skype | Speech coding |
GB2466673B (en) * | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466669B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466671B (en) * | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
GB2466675B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
US9202456B2 (en) * | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
US8452606B2 (en) * | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
ES2924427T3 (es) | 2013-01-29 | 2022-10-06 | Fraunhofer Ges Forschung | Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta |
US10393784B2 (en) | 2017-04-26 | 2019-08-27 | Raytheon Company | Analysis of a radio-frequency environment utilizing pulse masking |
CN111313864B (zh) * | 2020-02-12 | 2023-04-18 | 电子科技大学 | 一种改进的步长组合仿射投影滤波方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4048443A (en) * | 1975-12-12 | 1977-09-13 | Bell Telephone Laboratories, Incorporated | Digital speech communication system for minimizing quantizing noise |
GB8608289D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
GB8608288D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
DE3639753A1 (de) * | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
NL8700985A (nl) * | 1987-04-27 | 1988-11-16 | Philips Nv | Systeem voor sub-band codering van een digitaal audiosignaal. |
US4831624A (en) * | 1987-06-04 | 1989-05-16 | Motorola, Inc. | Error detection method for sub-band coding |
US4802171A (en) * | 1987-06-04 | 1989-01-31 | Motorola, Inc. | Method for error correction in digitally encoded speech |
US5341457A (en) * | 1988-12-30 | 1994-08-23 | At&T Bell Laboratories | Perceptual coding of audio signals |
US4958871A (en) * | 1989-04-17 | 1990-09-25 | Hemans James W | Hand tool for picking up animal droppings |
JPH03117919A (ja) * | 1989-09-30 | 1991-05-20 | Sony Corp | ディジタル信号符号化装置 |
US5040217A (en) * | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
US5367608A (en) * | 1990-05-14 | 1994-11-22 | U.S. Philips Corporation | Transmitter, encoding system and method employing use of a bit allocation unit for subband coding a digital signal |
EP0459362B1 (en) * | 1990-05-28 | 1997-01-08 | Matsushita Electric Industrial Co., Ltd. | Voice signal processor |
US5365553A (en) * | 1990-11-30 | 1994-11-15 | U.S. Philips Corporation | Transmitter, encoding system and method employing use of a bit need determiner for subband coding a digital signal |
US5911757A (en) * | 1991-05-16 | 1999-06-15 | Seare, Jr.; William J. | Methods and apparatus for transcutaneous access |
JPH0743598B2 (ja) * | 1992-06-25 | 1995-05-15 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 音声認識方法 |
-
1994
- 1994-12-30 US US08/367,526 patent/US5646961A/en not_active Expired - Lifetime
-
1995
- 1995-12-12 DE DE69529393T patent/DE69529393T2/de not_active Expired - Lifetime
- 1995-12-12 EP EP95309006A patent/EP0720148B1/en not_active Expired - Lifetime
- 1995-12-15 CA CA002165351A patent/CA2165351C/en not_active Expired - Fee Related
- 1995-12-26 JP JP33840995A patent/JP3513292B2/ja not_active Expired - Lifetime
-
1996
- 1996-11-12 US US08/747,953 patent/US5699382A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CA2165351C (en) | 2000-12-12 |
JPH08278799A (ja) | 1996-10-22 |
US5699382A (en) | 1997-12-16 |
EP0720148B1 (en) | 2003-01-15 |
DE69529393T2 (de) | 2003-08-21 |
EP0720148A1 (en) | 1996-07-03 |
CA2165351A1 (en) | 1996-07-01 |
US5646961A (en) | 1997-07-08 |
DE69529393D1 (de) | 2003-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3513292B2 (ja) | 雑音荷重フィルタリング方法 | |
US10446162B2 (en) | System, method, and non-transitory computer readable medium storing a program utilizing a postfilter for filtering a prefiltered audio signal in a decoder | |
CA2185746C (en) | Perceptual noise masking measure based on synthesis filter frequency response | |
EP0764941B1 (en) | Speech signal quantization using human auditory models in predictive coding systems | |
Pan | Digital audio compression | |
EP0764939B1 (en) | Synthesis of speech signals in the absence of coded parameters | |
JP3881943B2 (ja) | 音響符号化装置及び音響符号化方法 | |
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
US5778335A (en) | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding | |
JP4662673B2 (ja) | 広帯域音声及びオーディオ信号復号器における利得平滑化 | |
US8391212B2 (en) | System and method for frequency domain audio post-processing based on perceptual masking | |
MXPA96004161A (en) | Quantification of speech signals using human auiditive models in predict encoding systems | |
JPH09153811A (ja) | 符号化復号方法、符号化復号装置およびそれを用いたテレビ会議装置 | |
WO2024051412A1 (zh) | 语音编码、解码方法、装置、计算机设备和存储介质 | |
JPH11504733A (ja) | 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器 | |
CA2303711C (en) | Method for noise weighting filtering | |
Hernandez-Gomez et al. | High-quality vector adaptive transform coding at 4.8 kb/s | |
JP2001100796A (ja) | オーディオ信号符号化装置 | |
Bayer | Mixing perceptual coded audio streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20031217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040109 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090116 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100116 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110116 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110116 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |