JPH04233600A - 32Kb/sワイドバンド音声の低遅延コード励起線型予測符号化 - Google Patents
32Kb/sワイドバンド音声の低遅延コード励起線型予測符号化Info
- Publication number
- JPH04233600A JPH04233600A JP3157262A JP15726291A JPH04233600A JP H04233600 A JPH04233600 A JP H04233600A JP 3157262 A JP3157262 A JP 3157262A JP 15726291 A JP15726291 A JP 15726291A JP H04233600 A JPH04233600 A JP H04233600A
- Authority
- JP
- Japan
- Prior art keywords
- filter
- correction
- frequency
- section
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012937 correction Methods 0.000 claims abstract description 28
- 230000004044 response Effects 0.000 claims abstract description 12
- 238000001228 spectrum Methods 0.000 claims abstract description 11
- 238000004891 communication Methods 0.000 claims abstract description 9
- 230000006854 communication Effects 0.000 claims abstract description 9
- 230000003595 spectral effect Effects 0.000 claims description 22
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims 1
- 230000005284 excitation Effects 0.000 abstract description 7
- 238000013139 quantization Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100445834 Drosophila melanogaster E(z) gene Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
め要約のデータは記録されません。
Description
のための方法及び装置に関する。 より具体的には,本発明は,高品質の音声信号を符号化
及び復号するための方法及び装置に関する。さらに詳細
には,本発明は,このような符号器及び復号器を含むI
SDNサービスを提供するものを含むデジタル通信シス
テムに関する。
化及び復号に多くの進歩が見られた。線型予測符号化な
どの技術を使用することにより,低減されたビット速度
にて再生された信号の品質に大きな向上が見られる。
線型予測(code excited linear
predictive,CELP)符号器と呼ばれてお
り,これらは,例えば,B.S.アトール(Atal)
及びM.R.スクルーダー(Schroeder )に
よる『非常に低ビット速度の音声信号の統計的符号化』
,Proc.IEEE int.Con.Comm.,
1984年,5月,ページ48.1;M.R.スクルー
ダー及びB.S.アトールによる『符号励起線型予測(
CELP):非常に低ビット速度の高品質音声』,Pr
oc.IEEE Int.Conf.ASSP.,19
85年,ページ937−940;P.クルーン(Kro
on )及びE.F.デプレッテレ(Deprette
re)による『4.8から16Kb/sの間の速度の高
品質音声符号化のための分析合成予測符号器のクラス』
,IEEE J. on Sel.Area in C
omm ASC−6(2), 1988年,2月,ペー
ジ353−363,及び上に引用の合衆国特許第4,8
27,517号に説明されている。これら技術は,例え
ば,移動電話チャネルを含む音声等級電話チャネルに用
途を見つけている。
重チャネル/多重ユーザー音声通信の展望は,ワイドバ
ンド音声に対する改良された符号化アルゴリズムに大き
な関心を集めている。200から3400Hzの標準の
電話バンドとは対照的に,ワイドバンド音声には50か
ら7000Hzのバンドが割り当てられ,その後のデジ
タル処理のために16000Hzの速度にてサンプリン
グされる。こうして加えられる低周波数は,音声の自然
さ,及び接近している感じを向上させ,一方こうして加
えられる高周波数は,音声音響を鮮明にし,より意味の
あるものにする。上に定義されるワイドバンド音声の総
合的な品質は,例えば,多ユーザー音響ビデオ電話会議
に要求されるような持続実況放送等級の音声通信に十分
なものである。ただし,ワイドバンド音声は,データが
高周波数の所で高度に非組織化されており,またスペク
トル ダイナミック レンジが非常に高いために符
号化が困難である。幾つかの網アプリケーションにおい
ては,短い符号化遅延に対する要求が存在するが,これ
は,処理フレームのサイズを制限し,符号化アルゴリズ
ムの効率を低減する。これはこの符号化問題の困難さに
もう一つの次元を加える。
多くは,ワイドバンド音声情報(例えば,50から70
00Hzの周波数レンジの情報)の通信に適用された場
合は,完全には実現されない。本発明は,典型的な実施
態様において,現存のCELP技術をこのようなワイド
バンド音声及び他のこのような信号の通信に拡張する道
を求める。
施態様は,ノイズ エネルギーに対する信号エネルギ
ーの相対的な大きさを周波数の関数として向上させる入
力信号の改良された補正を提供する。これに加えて,補
正フィルター応答特性の全体としてのスペクトル傾斜が
、例えば,フォルマントに対応する特定の周波数の応答
の決定から,好ましくは,切り離される。
ォルマント定数に基づく補正フィルターを採用するが,
本発明の教示によると,先行技術による補正フィルター
と複合補正フィルターのスペクトル傾斜を制御するため
の追加のフィルター セクションとを縦に接続して使
用することが望ましいことが証明される。
文献に記述されるようなCELP)の基本構造が図1に
示される。
部分は下部に示され,さらに,通信チャネル50を介し
て伝送される様々なパラメータ(j,g,M,β及びA
)が示される。CELPは従来の励起子フィルター
モデルに基づき,励起コードブック10から引かれる励
起信号がオール ポール フィルターへの入力とし
て使用される。このフィルターは,通常,LPCドライ
ブ フィルター1/A(z)(図1の20)といわゆ
るピッチ フィルター1/B(z),30が縦に接続
されたものである。LPC多項式は
によって得られる。ピッチフィルターは多項式
り,これは入力の現周期性を最も良く表わす値であり,
bj は現ピッチのタップである。殆どの場合は,ピッ
チ フィルターの次数は,q=1であり,稀に3より
も大きい。多項式A(z),B(z)は両方ともモニッ
ク(monic )である。
子,そして,場合によっては,最適のピッチ パラメ
ーターを発見するために閉ループ(分析しては合成する
)探索手順を実行する。この励起子探索ループにおいて
は,各々の励起子ベクトルが(比較器40及び最小化回
路41によって決定される)最良の一致を発見するため
にLPC及びピッチ フィルターを通じて,通常,補
正平均二乗誤差(Weightedmean−squa
red error ,WMSE)判断にて,出力へと
パスされる。図1に示されるように,WMSEマッチン
グは,ノイズ補正フィルターW(z)35を使用するこ
とによって達成される。入力音声s(n)が最初にW(
z)によって予備フィルターされ,結果としての信号
n)によって示されるx(n)の量子化されたバージョ
ンがフィルターされた励起子であり,MSE判断でx(
n)に最も近い。この探索ループにおいて使用されるフ
ィルターは,補正合成フィルター,H(z)=W(z)
/[B(z)A(z)]である。ただし,最終的に量子
化された信号は,補正されない合成フィルター,1/[
B(z)A(z)]の出力の所に得られ,これはW(z
)がこの出力を合成するために受信機によって使用され
ないことを意味することに注意する。このループは本質
的には(ただし厳密にではないが)入力と出力の間のW
MSE,つまり,信号(S(z)−S(z))W(z)
のMSEを最小化する。
高い知覚品質を達成するために重要であり,後に明らか
になるように,ここに示されるCELPベース ワイ
ドバンド コーダーの中心的な役割を演じる。
ープ探索は,通常,過去の励起子のセグメントを補正フ
ィルターを通じてパスし,目標信号X(z)との関連で
B(z)を最小WMSEに対して最適化することによっ
て行なわれる。
は,スケーリング回路15に加えられる利得係数gによ
ってスケールされる。この利得は,はっきりと最適化さ
れ,送信される場合も(順モード),前に量子化された
データから得られる場合も(逆モード)もある。逆モー
ドと順モードの組合わせも時々使用される。これに関し
ては,例えば,CCITT16Kbb/s音声符号化標
準に対するAT&T提案,COM N No.2,
調査グループN,『16Kb/s低遅延コード励起線型
予測符号化(LD−CELP)アルゴリズム』,198
9年3月,を参照すること。
の五つの実体を符号化し,送る。つまり,励起ベクトル
(j),励起利得(g),ピッチ ラグ(p),ピッ
チ タップ(s)(β),及びLPCパラメータ(A
)を符号化及び送信する。この総伝送ビット速度は,こ
れら実体を符号化するために要求される全てのビットの
総和によって決定される。こうして送信される情報は,
受信機の所で,周知の方法で,元の入力情報を回復する
ために使用される。
このメモリー内に現サンプルを処理するための”将来の
”サンプルのブロックを持つ必要があり,これは明らか
に符号化遅延を生ずる。このブロックのサイズは,コー
ダーの特定の構造に依存する。一般に,この符号化アル
ゴリズムの異なるパーツは異なるサイズの将来ブロック
を必要とする。すぐ近い将来のサンプルの最も小さなブ
ロックが,通常,コードブック探索アルゴリズムによっ
て要求され,これは,コードベクトルの大きさに等しい
。ピッチ ループはピッチ パラメータの更新速度
に依存するより長いブロック サイズを必要とする。 従来のCELPにおいては,最も長いブロック長は,L
PC分析器によって決定され,これは,通常,約20m
secに値する将来データを必要とする。従来のCEL
Pの結果としての長い符号化遅延は,従って,幾つかの
アプリケーションにおいては,耐えられないものである
。これが,低遅延CELP(LD−CELP)アルゴリ
ズムを開発する動機となった。これに関しては,上に引
用のCCITT16Kb/s音声符号化標準に対するA
T&T提案を参照すること。
最小可能なブッロク長,つまり,ベクトル サイズを
持つことに由来する。換言すれば,ピッチ及びLPC分
析器は,この限界を超えるデータを使用することを許さ
れない。従って,基本符号化遅延ユニットは,数サンプ
ル(5から10サンプル)のみのベクトル サイズに
対応する。LPC分析器は,典型的には,ベクトル
サイズよりもかなり長いデータ ブロックを必要とす
る。従って,LD−CELP内においては,LPC分析
は,最も最近の過去のデータの十分に長いブロック及び
(場合によっては)利用できる新たなデータに関して遂
行される。ただし,過去のデータの符号化されたバージ
ョンも受信機及び送信機の両方の所で使用できることに
注意する。これは,逆適応符号化(backward−
adaptive−coding)と呼ばれる非常に効
率的な符号化を示唆する。このモードにおいては,受信
機は,送信機のLPC分析を同一の量子化された過去の
データを使用して全く同じように行ない,LPCパラメ
ーターをローカル的に生成する。LPC情報は伝送され
ず,こうして節約されるビットは,励起子に割り当てら
れる。これは,一方において,励起子に対してより多く
のビットを持つことはより短い入力ブロックの使用を可
能とするために,符号化遅延をさらに短縮する。ただし
,この符号化モードは,量子化ノイズに弱い。高いレベ
ルのノイズは,LPC分析の品質に悪影響を与え,符号
化効率を落とす。従って,この方法は,低速符号器には
適さない。これは,16Kb/sLD−CELPシステ
ム(上に引用のCCITT16Kb/s音声符号化標準
に対するAT&T提案を参照)ではうまく機能するが,
ただし,これより低い速度においては,うまく機能しな
い。
が悪くなると,順方向モードLPC分析がLD−CEL
Pの構造内で使用される。このモードにおいては,LP
C分析がきれいな過去の信号に関して遂行され,LPC
情報が受信機に送られる。順方向モード及び順方向と逆
方向モードの結合されたLD−CELPシステムについ
ては現在研究中である。
化されたデータのみを使用して遂行できる。ただし,こ
の分析は,受信機の所のみに現われ,送信機と受信機の
所の不一致の原因となるチャネル エラーに非常に弱
いことが発見された。従って,LD−CELP内におい
ては,ピッチ フィルターB(z)は完全に回避され
る,あるいは逆方向−順方向モードの組合わせにて実現
され,この場合は,ピッチ遅延及び/あるいはピッチ
タップに関する幾らかの情報が受信機に送られる。
するためのここに提案されるLD−CELPは,好まし
くは,逆方向LPCを使用する。二つのバージョンのコ
ードが以下に詳細に説明される。第一のバージョンは順
方向モード ピッチ ループを使用し,第二のルー
プは,ピッチ ループを全く使用しない。この符号器
の一般構造は,図1に示される構造からLPC情報の伝
送が排除されたものである。また,ピッチ ループが
使用されないときは,B(z)=1であり,ピッチ情報
は送信されない。この符号器のアルゴリズムの詳細が以
下に説明される。
,量子化ノイズが最小化のポイントにおいて平坦なスペ
クトルを持つこと,つまり,出力と目標の間の差信号が
ホワイトであることである。一方,入力音声信号は,ホ
ワイトでなく,実際,フォルマント構造及び高周波数ロ
ール オフのために,広いスペクトル ダイナミッ
クレンジを持つ。このため,S/N比は,周波数レンジ
を通じて均一ではない。SN比は,スペクトル ピー
クの所で高く,スペクトルの谷の所で低い。この平坦の
ノイズがリシェープされない限り,この低エネルギーの
スペクトル情報がノイズによってマスクされ,聞くこと
ができる歪が発生する。この問題が認識されており,電
話バンド幅音声のCELP符号化の背景では手段が講じ
られている。これに関しては,『音声信号の予測符号化
及び主観的エラー基準』,IEEEトランザクション,
ASSP,Vol.ASSP−27,No.3,197
9年6月,ページ247−254を参照すること。この
問題の解決法は,図1に示されるように,CELP探索
ループに加えられたノイズ修正フィルターのフォームで
ある。このフィルターの標準フォームは以下のとおりで
ある。
はg2 の効果は,A(z)のルートを原点の方に移動
させ,1/A(z)のスペクトル ピークの強さを和
らげることである。式(1)のようなg1 及びg2
を持つ場合,W(z)の応答は,フォルマント位置の所
に谷(反フォルマント)を持ち,フォルマント間の領域
が強調される。これに加えて,全スペクトル ロール
オフの量が1/A(z)によって与えられる音声ス
ペクトル包絡線と比べて低減される。
されないエラー信号,E(z)=Y(z)−X(z)は
,これは実際に最小化される信号であるためにホワイト
である。最終エラー信号は,以下によって与えられ,W
−1(z)のスペクトル形状を持つ。
,フォルマントの間では減衰されることを示す。このノ
イズ成形の背後の思想は,聴覚上のマスキング効果を活
用することである。ノイズは,これが高レベルのトーン
状信号と同一のスペクトル バンドを共有する場合は
,聞こえにくくなる。この効果を利用して,フィルター
,W(z)はCELP符号器の知覚品質を大きく向上さ
せる。
ドとは対照的に,ここで,考察されるワイドバンド音声
は,50から7000Hzのスペクトル バンドを持
つことを特徴とする。こうして加えられる低周波数は,
音声サウンドの自然さ及び真正さを向上させる。また,
こうして加えられる高周波数は,サウンドをはっきりと
,より意味を持つものにする。信号は,CELPシステ
ムによってデジタル処理するために16KHzにてサン
プリングされる。このより高いサンプリング速度及び加
えられた低周波数は,両方とも信号をより予測可能なも
のとし,総予測利得は,典型的には,標準の電話音声の
それよりも高くなる。スペクトル ダイナミック
レンジは,3400から6000Hzの加えられた高周
波数領域が,通常,このレンジの底付近となる電話音声
のそれよりもかなり高くなる。前のセクションの分析か
ら,低周波数領域の符号化はより簡単になるが,高周波
数領域の符号化は,幾つかの問題を提起することが明ら
かである。初期の無補正スペクトルのSNRはこの領域
においては高度にネガティブである傾向を持つ。一方,
感覚システムはこの領域では非常に敏感であり,量子化
の歪は,パリパリ及びシューと言った形ではっきりと聞
き取れる。ノイズ補正は,従って,ワイドバンドCEL
Pでは,一層重要となる。低周波数と高周波数の符号化
のバランスがより複雑になる。この研究の主要な努力は
,このバランスのより良い制御を可能とする良好な補正
フィルターの発見に向けたものであった。
理解の出発点は,式(1)に示されるような従来のCE
LPの補正フィルターである。最初の目標は,最良の知
覚性能のためのセット(g1 ,g2 )を発見するこ
とであった。狭バンドの場合と同様に,g1 =0.9
,g2 =0.4が妥当な結果を与えることが発見され
た。ただし,この性能は,改良の余地を残した。式(1
)のフィルター,W(z)は,フォルマント構造をモデ
ル化するためには生来的な制約があり,要求されるスペ
クトルが同時に傾くことが発見された。このスペクトル
の傾きは,差,g1 −g2 によって概ね制御される
ことが発見された。この傾きは本質的にグローバルなも
のであり,これを高周波数のところで別個に強調するこ
とは簡単ではない。また,この傾きを変えると,W(z
)のフォルマントの形状が影響を受ける。顕著な傾きが
より高くより広いフォルマントに沿って見られるが,こ
れは,低周波数及びこれらフォルマントの間に多くのノ
イズを与える。結論は,このフォルマント及び傾きの問
題を切り離すべきであると言うことであった。取られた
アプローチは,W(z)をフォルマントのモデリングの
みに使用し,傾きのみを制御するためのもう一つのセク
ションを加えることであった。この新たなフィルターの
一般形式は以下によって与えられる。
実現が図2に示されるが,ここでは,図1の補正フィル
ター35がP(z)によって与えられる応答を持つフィ
ルター220と元のフィルター35の縦に接続されたも
のによって置換される。こうして縦に接続されたフィル
ター,Wp(z)は式(3)によって与えられる。様々
な形式のP(z)が使用できる。これら形式には,定3
ポール(2つの複素数,1つの実数),定3ゼロ セ
クション,適応3ポール セクション,適応3ゼロ
セクション及び適応2ポール セクションが含まれ
る。これら,定セクションは,高周波数において鋭い傾
斜を持つ,等しくはないが一定のスペクトル傾斜を持つ
ように設計された。適応セクションの係数は,P−1(
z)が現スペクトルの二次及び三次近似を持つようにL
PC分析を介して動的な計算され,これは,本質的にス
ペクトル傾斜のみを捕らえる。
た一つのモードは,中間レンジにおける周波数領域ステ
ップ関数である。これは,このレンジの下側半分の所の
応答を減衰し,上側半分の所の応答を所定の定数だけブ
ーストする。14次オールポール セクションがこの
目的のために使用された。
ル セクションが最良の選択であることが発見された
。このケースでは,このセクションは以下によって与え
られる。
PC逆フィルター(A(z))シーケンスa1 の最初
の三つの相関係数に適用することによって発見された。 パラメータδはP(z)のスペクトル傾斜を調節するた
めに使用される。δ=0.7の値が良好な選択であるこ
とが発見された。P(z)のこの形式が,W(z)と組
み合わされた場合,(ここで,g1 =0.98,g2
=0.8),この研究において調査された全ての他の
システムを通じて最良の知覚性能が得られることが発見
された。
P(z)法は,現在,音響信号の知覚変換符号化(Pe
rceptual Transform Coding
,PTC)に応用されている心理音響知覚理論に基づ
く。これに関しては,ブライアン C.J.ムーア(
BrianC.J.Moore ),『聴覚の心理学概
説(Introduction to the Psy
chology of Hearing )』,アカデ
ミック出版社,1982年,並びに,ジェームス D
.ジョンストン(James D. Johnston
),『知覚ノイズ基準を使用しての音響信号の変換符
号化』,IEEE Sel.Areas in
Comm.,6(2),1988年2月号,及びK.ブ
ランデンブルグ(K.Brandenburg ),『
高品質音楽符号化のための方法及び品質の評価に対する
寄稿』,エルランゲン ネルンベルグ大学学位論文,
1989年を参照すること。PTCにおいては,周知の
心理音響感覚マスキング効果が周波数のノイズ域値関数
(Noise Threshold Function
,NTF)を計算するために使用される。この理論によ
ると,この域値以下の全てのノイズは,聞こえなはずで
ある。このNTFは,ビット割り当て及び/あるいは個
々の変換係数に対する量子化ステップ サイズを決定
するために使用され,これらは後に,要求される量子化
ノイズ形状にて信号を再合成するために使用される。 ここでは,NTFはCELPのようなLPCをベースと
する符号器のフレームワーク内で使用される。基本的に
は,W(z)は現フレームに対するNTF形状を持つよ
うに設計される。ただし,NTFは周波数のかなり複雑
な関数であり,鋭い谷及びピークを持つ。従って,好ま
しくは,当分野において周知のように,高次ポール
ゼロ フィルターがNTFの正確なモデリングのため
に使用される。
ンドCELP符号化であるが,このアプローチでは,信
号が最初にセットの二つの四分ミラー フィルター(
QMF)によって低周波数及び高周波数バンドに分割さ
れ,次に,各々のバンドが別個にそれの符号器によって
符号化される。類似の方法が,P.メルメルステイン(
Mermelstein )によって,『G.722,
ワイドバンド音響信号のデジタル伝送のための新たなC
CITT符号化標準』,IEEE Comm.Mag
.,ページ8−15,1988年,1月号,において使
用されている。このアプローチは,異なるビット速度を
低バンド及び高バンドに割り当てる柔軟性を与え,高ス
ペクトルと低スペクトルの歪の最適バランスを達成でき
る。柔軟性は,個々のバンドで全く異なる符号化システ
ムが使用でき,個々の周波数レンジに対して性能が最適
化できると言う意味でも達成される。ただし,この一例
としての実施態様においては,LD−CELPが全ての
(二つの)バンドに対して使用される。32Kb/sの
総速度と言う制約の下で,この二つのバンドに対して様
々なビット速度の割り当てが試みられたが,低と高バン
ド ビットの最適な比は,3:1であることが発見さ
れた。
チ ループ,つまり,B(z)に対する様々な次数及
びピッチ タップに対する様々なビット数を含むこと
ができる。一つの興味深い点は,場合によってはピッチ
ループを持たないシステム,つまり,B(z)=1
のシステムを使用することが好ましいということである
。事実,幾つかのテストでは,このようなシステムが最
良の結果を与えた。ピッチループは,過去の残留シーケ
ンスを合成フィルターの初期励起として使用することに
基づく。これは,2段VQシステム内の第一の段の量子
化を構成し,ここでは,過去の残留が適応コードブック
として機能する。2段VQシステムは,少なくともMS
Eの観点からは,単一段(正規)VQよりも劣ることが
知られている。換言すれば,これらビットは,単一励起
コードブックとともに使用された時の方がうまく活用さ
れる。ピッチ ループは主に向上された周期性に起因
する知覚上の改良を与えるが,これは,MSE SN
Rがいずれにしても低い,4−8Kb/sCELPのよ
うな低速符号器には重要である。MSE SNRが高
い32Kb/sでは,ピッチ ループの寄与は,単一
VQ構成の効率を抜くことはなく,従って,これを使用
する理由はない。
行なわれたが,当業者においては,本発明はその他の具
体的背景内でも適用できることが明白である。図3は,
本発明の教示に従う全修正フィルターの周波数応答の代
表的な補正である。図3において,実線は,先行技術に
よる補正を示し,点線は,本発明の典型的な一例として
の実施態様に従う一例としての補正された応答に対応す
る。
。
を示す。
る結果としての補正された周波数応答を示す。
Claims (17)
- 【請求項1】 通信チャネルを通じて情報の指標のパ
ラメータを入力シーケンスにて通信するための方法にお
いて,該パラメータが該入力情報の周波数補正を反映す
るパラメータを含み,該周波数補正が特定の周波数にお
ける振幅に関する補正及び全体としてのスペクトル傾斜
を反映する補正を含むことを特徴とする方法。 - 【請求項2】 該入力情報が音声情報であり,該特定
の周波数における該補正が該音声情報のフォルマントと
関連する周波数における補正から成ることを特徴とする
請求項1の方法。 - 【請求項3】 該補正がW,(z)=W(z)P(z
)によって特性化されるフィルター内で行なわれ,ここ
で,P(z)が主にこのフィルターのスペクトル傾斜に
のみ影響を与えることを特徴とする請求項1の方法。 - 【請求項4】 P(z)が3−ポール フィルター
セクションであることを特徴とする請求項3の方法
。 - 【請求項5】 P(z)が3−ゼロ フィルター
セクションであることを特徴とする請求項3の方法。 - 【請求項6】 P(z)が2−ゼロ フィルター
セクションであることを特徴とする請求項3の方法。 - 【請求項7】 P(z)が2−ポール セクション
であることを特徴とする請求項3の方法。 - 【請求項8】 P(z)該入力シーケンスの現スペク
トルの線型予測分析から誘導されるパラメータによって
特性化される適応フィルター セクションであること
を特徴とする請求項3の方法。 - 【請求項9】 P(z)が該入力シーケンスのスペク
トルの実質的に中心のポイントより下の周波数レンジに
対する第一の値及び該スペクトルの他のポイントに対す
る第二の値を持つ周波数応答を持つフィルター セク
ションであることを特徴とする請求項3の方法。 - 【請求項10】 該フィルターが3より大きな次数の
オール ポール フィルターであることを特徴とす
る請求項9の方法。 - 【請求項11】 該オール ポール フィルター
が次数14のフィルターであることを特徴とする請求項
10の方法。 - 【請求項12】 該補正がスペクトル変換符号化フィ
ルター内で達成されることを特徴とする請求項2の方法
。 - 【請求項13】 該スペクトル変換フィルターが現入
力シーケンスに対するノイズ域値によって決定される周
波数応答を持つことを特徴とする請求項12の方法。 - 【請求項14】 該補正が複数の周波数バンドを持つ
四分ミラー フィルター内で達成され,該入力シーケ
ンスが個々の周波数バンドに対して別個に符号化される
ことを特徴とする請求項2の方法。 - 【請求項15】 該パラメータがCELP符号化法を
特性化することを特徴とする請求項2の方法。 - 【請求項16】 該パラメータがピッチ パラメー
タを含まないことを特徴とする請求項15の方法。 - 【請求項17】 該入力情報が不均一のスペクトルを
持ち,該特定の周波数における補正が該情報のフォルマ
ントと関連する周波数における補正から成ることを特徴
とする請求項1の方法。 【0001】
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US546627 | 1990-06-29 | ||
US07/546,627 US5235669A (en) | 1990-06-29 | 1990-06-29 | Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04233600A true JPH04233600A (ja) | 1992-08-21 |
JP3234609B2 JP3234609B2 (ja) | 2001-12-04 |
Family
ID=24181283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15726291A Expired - Lifetime JP3234609B2 (ja) | 1990-06-29 | 1991-06-28 | 32Kb/sワイドバンド音声の低遅延コード励起線型予測符号化 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5235669A (ja) |
EP (2) | EP0465057B1 (ja) |
JP (1) | JP3234609B2 (ja) |
DE (2) | DE69132885T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007513364A (ja) * | 2003-10-30 | 2007-05-24 | モトローラ・インコーポレイテッド | デジタル音声符号器における高調波ノイズ重み付け |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI95086C (fi) * | 1992-11-26 | 1995-12-11 | Nokia Mobile Phones Ltd | Menetelmä puhesignaalin tehokkaaksi koodaamiseksi |
FI96248C (fi) * | 1993-05-06 | 1996-05-27 | Nokia Mobile Phones Ltd | Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin |
JP3321971B2 (ja) * | 1994-03-10 | 2002-09-09 | ソニー株式会社 | 音声信号処理方法 |
IT1271182B (it) * | 1994-06-20 | 1997-05-27 | Alcatel Italia | Metodo per migliorare le prestazioni dei codificatori vocali |
JP3237089B2 (ja) * | 1994-07-28 | 2001-12-10 | 株式会社日立製作所 | 音響信号符号化復号方法 |
SE504010C2 (sv) * | 1995-02-08 | 1996-10-14 | Ericsson Telefon Ab L M | Förfarande och anordning för prediktiv kodning av tal- och datasignaler |
US5751907A (en) * | 1995-08-16 | 1998-05-12 | Lucent Technologies Inc. | Speech synthesizer having an acoustic element database |
EP0763818B1 (en) * | 1995-09-14 | 2003-05-14 | Kabushiki Kaisha Toshiba | Formant emphasis method and formant emphasis filter device |
US5864798A (en) * | 1995-09-18 | 1999-01-26 | Kabushiki Kaisha Toshiba | Method and apparatus for adjusting a spectrum shape of a speech signal |
US5950151A (en) * | 1996-02-12 | 1999-09-07 | Lucent Technologies Inc. | Methods for implementing non-uniform filters |
US5864820A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for mixing of encoded audio signals |
US5864813A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for harmonic enhancement of encoded audio signals |
US6477496B1 (en) | 1996-12-20 | 2002-11-05 | Eliot M. Case | Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one |
US6516299B1 (en) | 1996-12-20 | 2003-02-04 | Qwest Communication International, Inc. | Method, system and product for modifying the dynamic range of encoded audio signals |
US6782365B1 (en) | 1996-12-20 | 2004-08-24 | Qwest Communications International Inc. | Graphic interface system and product for editing encoded audio data |
US5845251A (en) * | 1996-12-20 | 1998-12-01 | U S West, Inc. | Method, system and product for modifying the bandwidth of subband encoded audio data |
US6463405B1 (en) | 1996-12-20 | 2002-10-08 | Eliot M. Case | Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband |
JP3329216B2 (ja) * | 1997-01-27 | 2002-09-30 | 日本電気株式会社 | 音声符号化装置及び音声復号装置 |
US7024355B2 (en) | 1997-01-27 | 2006-04-04 | Nec Corporation | Speech coder/decoder |
GB9714001D0 (en) * | 1997-07-02 | 1997-09-10 | Simoco Europ Limited | Method and apparatus for speech enhancement in a speech communication system |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
SE9803698L (sv) | 1998-10-26 | 2000-04-27 | Ericsson Telefon Ab L M | Metoder och anordningar i ett telekommunikationssystem |
CA2252170A1 (en) | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
DE19906223B4 (de) * | 1999-02-15 | 2004-07-08 | Siemens Ag | Verfahren und Funk-Kommunikationssystem zur Sprachübertragung, insbesondere für digitale Mobilkummunikationssysteme |
US6233552B1 (en) * | 1999-03-12 | 2001-05-15 | Comsat Corporation | Adaptive post-filtering technique based on the Modified Yule-Walker filter |
US7058572B1 (en) * | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
US6691085B1 (en) | 2000-10-18 | 2004-02-10 | Nokia Mobile Phones Ltd. | Method and system for estimating artificial high band signal in speech codec using voice activity information |
KR100503415B1 (ko) * | 2002-12-09 | 2005-07-22 | 한국전자통신연구원 | 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법 |
WO2006009074A1 (ja) * | 2004-07-20 | 2006-01-26 | Matsushita Electric Industrial Co., Ltd. | 音声復号化装置および補償フレーム生成方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4133976A (en) * | 1978-04-07 | 1979-01-09 | Bell Telephone Laboratories, Incorporated | Predictive speech signal coding with reduced noise effects |
US4472832A (en) * | 1981-12-01 | 1984-09-18 | At&T Bell Laboratories | Digital speech coder |
USRE32580E (en) * | 1981-12-01 | 1988-01-19 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech coder |
US4694298A (en) * | 1983-11-04 | 1987-09-15 | Itt Gilfillan | Adaptive, fault-tolerant narrowband filterbank |
US4701954A (en) * | 1984-03-16 | 1987-10-20 | American Telephone And Telegraph Company, At&T Bell Laboratories | Multipulse LPC speech processing arrangement |
US4617676A (en) * | 1984-09-04 | 1986-10-14 | At&T Bell Laboratories | Predictive communication system filtering arrangement |
US4811261A (en) * | 1985-03-04 | 1989-03-07 | Oki Electric Industry Co., Ltd. | Adaptive digital filter for determining a transfer equation of an unknown system |
US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
US4941178A (en) * | 1986-04-01 | 1990-07-10 | Gte Laboratories Incorporated | Speech recognition using preclassification and spectral normalization |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
FR2624675B1 (fr) * | 1987-12-15 | 1990-05-11 | Charbonnier Alain | Dispositif et procede de traitement d'un signal de base echantillonne, en particulier representatif de sons |
ATE145775T1 (de) * | 1988-02-29 | 1996-12-15 | Sony Corp | Verfahren und einrichtung zur digitalsignalverarbeitung |
-
1990
- 1990-06-29 US US07/546,627 patent/US5235669A/en not_active Expired - Lifetime
-
1991
- 1991-06-20 EP EP91305598A patent/EP0465057B1/en not_active Expired - Lifetime
- 1991-06-20 DE DE69132885T patent/DE69132885T2/de not_active Expired - Lifetime
- 1991-06-20 EP EP96107666A patent/EP0732686B1/en not_active Expired - Lifetime
- 1991-06-20 DE DE69123500T patent/DE69123500T2/de not_active Expired - Lifetime
- 1991-06-28 JP JP15726291A patent/JP3234609B2/ja not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007513364A (ja) * | 2003-10-30 | 2007-05-24 | モトローラ・インコーポレイテッド | デジタル音声符号器における高調波ノイズ重み付け |
JP4820954B2 (ja) * | 2003-10-30 | 2011-11-24 | モトローラ モビリティ インコーポレイテッド | デジタル音声符号器における高調波ノイズ重み付け |
Also Published As
Publication number | Publication date |
---|---|
DE69123500T2 (de) | 1997-04-17 |
EP0465057B1 (en) | 1996-12-11 |
EP0732686A3 (en) | 1997-03-19 |
EP0732686B1 (en) | 2001-12-19 |
DE69123500D1 (de) | 1997-01-23 |
EP0732686A2 (en) | 1996-09-18 |
DE69132885D1 (de) | 2002-01-31 |
EP0465057A1 (en) | 1992-01-08 |
DE69132885T2 (de) | 2002-08-01 |
US5235669A (en) | 1993-08-10 |
JP3234609B2 (ja) | 2001-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH04233600A (ja) | 32Kb/sワイドバンド音声の低遅延コード励起線型予測符号化 | |
JP3566652B2 (ja) | 広帯域信号の効率的な符号化のための聴覚重み付け装置および方法 | |
JP4662673B2 (ja) | 広帯域音声及びオーディオ信号復号器における利得平滑化 | |
US5778335A (en) | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding | |
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
US7020605B2 (en) | Speech coding system with time-domain noise attenuation | |
JP3678519B2 (ja) | オーディオ周波数信号の線形予測解析方法およびその応用を含むオーディオ周波数信号のコーディングならびにデコーディングの方法 | |
EP1141946B1 (en) | Coded enhancement feature for improved performance in coding communication signals | |
US6052659A (en) | Nonlinear filter for noise suppression in linear prediction speech processing devices | |
Ordentlich et al. | Low-delay code-excited linear-predictive coding of wideband speech at 32 kbps | |
Shoham et al. | pyyy. p. AY CODE-EXCITED LINEAR-PREDICTIVE (ypN (; OF WIDEBAND SPEECH AT 32 KBPS | |
Bhaskar | Adaptive predictive coding with transform domain quantization using block size adaptation and high-resolution spectral modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20010822 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080921 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090921 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100921 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110921 Year of fee payment: 10 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110921 Year of fee payment: 10 |