JP2004501391A - 可変レート音声符号器におけるフレーム消去補償方法 - Google Patents
可変レート音声符号器におけるフレーム消去補償方法 Download PDFInfo
- Publication number
- JP2004501391A JP2004501391A JP2001579292A JP2001579292A JP2004501391A JP 2004501391 A JP2004501391 A JP 2004501391A JP 2001579292 A JP2001579292 A JP 2001579292A JP 2001579292 A JP2001579292 A JP 2001579292A JP 2004501391 A JP2004501391 A JP 2004501391A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- pitch delay
- speech
- delay value
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013139 quantization Methods 0.000 claims description 20
- 238000004891 communication Methods 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 14
- 230000005236 sound signal Effects 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000003044 adaptive effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000007704 transition Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000000737 periodic effect Effects 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 206010021403 Illusion Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Analogue/Digital Conversion (AREA)
- Stereophonic System (AREA)
- Devices For Executing Special Programs (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
Description
発明の背景
1.発明の分野
本発明は、概して音声処理の分野に関し、特に、可変レート音声符号器におけるフレーム消去を補償するための方法及び装置に関する。
【0002】
2.背景
デジタル技術による音声送信は、特に、長距離及びデジタル無線電話の分野において広範に使用されるようになった。このことは、その一方で、再構成された音声の受信品質を維持しながら、チャネルを介して送信可能な最低量の情報を決定することに対する関心を作り出した。音声が単純にサンプリング及びデジタル化によって送信されるのならば、秒あたり約64Kビット(kbps)のデータレートが、通常のアナログ電話の音声品質を達成するのに要求される。しかしながら、音声解析の使用、その後の適切な符号化、送信、受信器での再合成によって、データレートを大きく減らすことが達成される。
【0003】
音声を圧縮するための装置は遠隔通信の多くの分野において使用されている。その一例はワイヤレス通信である。ワイヤレス通信の分野は、コードレス電話、ページャ、ワイヤレスローカルループ、セルラ及びPCS電話システムなどのワイヤレス電話、移動体インターネットプロトコル(IP)電話、そして、衛星通信システムである。特に重要な応用は、移動体加入者のためのワイヤレス電話である。
【0004】
例えば、周波数分割多元接続(FDMA)、時分割多元接続(TDMA)、符号分割多元接続(CDMA)を含むワイヤレス通信システムのために、種々の空中(over−the−air)インタフェースが開発されてきた。このことに関連して、例えば、最新移動体電話サービス(AMPS)、移動体通信(GSM)のためのグローバルシステム、中間標準95(IS−95)を含む種々の国内及び国際標準が確立された。IS−95標準及びその派生であるIS−95A、ANSI J−STD−008、IS−95B、及び提案された第3世代標準IS−95C及びIS−2000など(ここではIS−95と総称する)は、セルラまたはPCS電話通信システムのためのCDMA空中インタフェースの使用を特定するために、遠隔通信工業協会(TIA)及び他の良く知られた標準団体によって普及された。実質的にIS−95標準の使用に従って構成された例示的なワイヤレス通信システムは、米国特許第5103459号及び第4901307号(これらは本発明の譲受人に譲渡され、言及によりその全体がここに組み込まれている)に記載されている。
【0005】
人間の音声生成のモデルに関連するパラメータを抽出することによって音声を圧縮するための技術を使用する装置は、音声符号器と呼ばれる。音声符号器は、到来する音声信号を時間ブロックまたは解析フレームに分割する。音声符号器は概して符号器と復号器とを具備する。符号器はある種の関連パラメータを抽出するために到来する音声フレームを解析し、次に当該パラメータを二進表示すなわち、一組のビット列または二進データパケットに量子化する。データパケットは、通信チャネルを介して受信機及び復号器へと送信される。復号器はデータパケットを処理し、それらに逆量子化を行ってパラメータを生成し、逆量子化されたパラメータを使用して音声フレームを再合成する。
【0006】
音声符号器の機能は、音声に内在するすべての自然冗長性を除去することによって、デジタル化された音声信号を低ビットレートの信号に圧縮することである。デジタル圧縮は、入力音声フレームを一組のパラメータで表示し、一組のビットで当該パラメータを表示するために量子化を使用することによって達成される。入力音声フレームがビット数Ni を有し、音声符号器によって生成されたデータパケットがビット数No を有するならば、音声符号器によって達成される圧縮率は、Cr =Ni /No である。目標の圧縮率を達成しながら復号された音声の高い音声品質を維持することが課題となる。音声符号器のパフォーマンスは、(1)音声モデルまたは上記した解析及び合成処理の組み合わせがどのぐらい良く実行されるか、及び(2)パラメータ量子化処理がフレームあたりNo の目標ビットレートでどのぐらい良く実行されるか、に依存する。すなわち、音声モデルの最終目標は、音声信号の本質または目標音声品質を各フレームごとに少ない組のパラメータで把握することである。
【0007】
音声符号器の設計において最も重要なことは、音声信号を記述するのに(ベクトルを含む)良好な組のパラメータを探索することである。良好な組のパラメータは、知覚的に正確な音声信号を再構成するのに低いシステム帯域を要求する。ピッチ、信号電力、スペクトラムエンベロープ(またはフォルマント)、振幅スペクトラム、そして位相スペクトラムは音声符号化パラメータの一例である。
【0008】
音声符号器は、時間領域符号器として実現され、一度に音声の小さなセグメント(概して5ミリ秒(ms)のサブフレーム)を符号化するために高い時間解像度処理を使用することによって時間領域音声波形を捕捉することを行う。各サブフレームに対して、コードブック空間からの高精度な代表は、当業界で知られた種々の探索アルゴリズムによって見出される。その一方で、音声符号器は周波数領域符号器として実現され、一組のパラメータ(解析)で入力音声フレームの短期的な音声スペクトラムを捕捉することを行い、スペクトラムパラメータから音声波形を再生成するために対応する合成処理を使用する。パラメータ量子化器は、A.Gersho&R.M.Gray、ベクトル量子化及び信号圧縮(1992)に記載された既知の量子化技術に従って、符号ベクトルの蓄積された代表でそれらを表示することによってパラメータを保存する。
【0009】
良く知られた時間領域の音声符号器は、L.B.Rabiner&R.W.Schafer,音声信号のデジタル処理、396−453(1978)に記載された符号励起線形予測(CELP)符号器であり、言及によりここにその全体が組み込まれている。CELP符号器において、音声信号における、短期相関、すなわち、冗長度は、短期フォルマントフィルタの係数を見つける、線形予測(LP)解析によって除去される。短期予測フィルタを到来する音声フレームに適用するとLP残差信号を生成する。これはさらにモデル化されて長期予測フィルタパラメータ及び次の確率コードブックで量子化される。すなわち、CELP符号化は、時間領域音声波形を符号化する作業を、LP短期フィルタ係数を符号化する作業とLP残差を符号化する作業の別個の作業に分離する。時間領域符号化は固定レート(すなわち、各フレームに対して同じ数のビットN0 を使用して)で実行されるかあるいは、(異なるビットレートが異なるタイプのフレーム内容に対して使用される)可変レートで実行される。可変レート符号器は、コーデックパラメータを目標品質を獲得するのに十分なレベルにまで符号化するのに要するビット量のみを使用する。例示的な可変レートCELP符号器は、米国特許第5414796号に記載されている。この米国特許は本発明の譲受人に譲渡され言及によりその全体がここに組み込まれている。
【0010】
CELP符号器などの時間領域符号器は概して、時間領域音声波形の精度を維持するためにフレームあたり大きな数のビットN0 に依存している。そのような符号器は概して、フレームあたりのビット数N0 が比較的大きい(例えば8kbpsまたはそれ以上)ならば、優れた音声品質を提供する。しかしながら、低いビットレート(4kbps及びそれ以下)において、時間領域符号器は、利用可能なビット数の制限のために高い品質と強固なパフォーマンスを維持することが困難になる。低いビットレートでは、制限されたコードブック空間により、高レートの商業上の応用において順調に展開された従来の時間領域符号器の波形マッチング機能を落としてしまうことになる。すなわち、今までの改善にもかかわらず、低ビットレートで動作する多くのCELP符号化システムは、概して雑音として特徴付けられる知覚的に大きな歪みを受けてしまう。
【0011】
中間から低ビットレート(すなわち、2.4から4kbpsの範囲及びそれ以下)で動作する高品質の音声符号器を開発することに対する研究上の興味の盛り上がりと強い商業上のニーズが存在する。応用範囲は、ワイヤレス電話、衛星通信、インターネット電話、種々のマルチメディア及び音声ストリーミング、音声メール、及びその他の音声ストレージシステムを含む。高い能力に対するニーズと、パケット損失状況の下での強固なパフォーマンスに対する要求とが駆動力となる。種々の最近の音声符号化標準化への努力は、低レート音声符号化アルゴリズムの研究と開発を推進する他の直接的な駆動力である。低レート音声符号器は、利用可能なアプリケーション帯域あたりより多くのチャネルすなわちユーザを生成し、適切なチャネル符号化の付加的レイヤと結合した低レート音声符号器は、符号化仕様の全ビット予算に適合するとともに、チャネルエラー状態の下で強固なパフォーマンスを提供する。
【0012】
低ビットレートで効率よく音声を符号化する1つの効果的な技術は、マルチモード符号化である。典型的なマルチモード符号化技術は、米国特許出願第09/217341号(名称:可変レート音声符号化、出願日:1998年12月21日)に記載されている。この出願は本発明の譲受人に譲渡され、言及によりその全体がここに組み込まれている。従来のマルチモード符号器は、異なるタイプの入力音声フレームに対して異なるモード、すなわち符号化/復号化アルゴリズムを適用する。各モードすなわち符号化/復号化プロセスは、例えば有声発話、無声発話、(例えば有声と無声の間の)遷移発話、そして、背景ノイズ(沈黙または非音声)などのある種の音声セグメントを最適に表わすように最も効率の良い方法でカスタマイズされる。外部的なオープンループモードの決定機構は、入力音声フレームを検査して、当該フレームにどのモードを適用するかについての決定を行う。オープンループモード決定は概して、入力フレームから多数のパラメータを抽出し、ある一時的及びスペクトラム特性についてパラメータを評価し、この評価の後にモード決定を基礎とすることによって実行される。
【0013】
約2.4kbpsのレートで動作する符号化システムは概して、パラメータの特質を備える。すなわち、そのような符号化システムは、ピッチ周期及び音声信号のスペクトラムエンベロープ(フォルマント)を表わすパラメータを送信することによって動作する。これらのいわゆるパラメータ符号器の一例はLPボコーダシステムである。
【0014】
LPボコーダは、ピッチ周期あたりの単一パルスで発話された音声信号をモデル化する。この基本的な技術は、他のことがらに加えて、スペクトラムエンベロープについての送信情報を含むように増強される。LPボコーダは概して妥当なパフォーマンスを提供するが、それらは概して騒音として特徴付けられる知覚的に大きなひずみを引き起こす。
【0015】
近年、符号器は、波形符号器とパラメータ符号器とのハイブリッド(混成)として出現した。これらのいわゆるハイブリッド符号器の一例は、原型(prototype)波形補間(PWI)音声符号化システムである。PWI符号化システムは、原型ピッチ周期(PPP)音声符号器として知られる。PWI符号化システムは、有声発話を符号化するための効率の良い方法を提供する。PWIの基本概念は、固定間隔で代表的なピッチ周期(原型波形)を抽出してその記述を送信し、原型波形間に補間することによって音声信号を再構成することである。PWI方法は、LP残差信号に関してまたは音声信号に関して動作する。例示的なPWIまたはPPP音声符号器は、米国特許出願第09/217494号(名称:周期的音声符号化、出願日:1998年12月21日)に記載されている。この発明は本発明の譲受人に譲渡されており、言及によりその全体がここに組み込まれている。他のPWIまたはPPP音声符号器は、米国特許第5884253号及びW.Bastiaan Kleijin & Wolfgang Granzow 音声符号化における波形補間のための方法、1デジタル信号処理215−230(1991)に記載されている。
【0016】
最近の音声符号器においては、所定のピッチ原型のパラメータ、すなわち所定のフレームのパラメータはそれぞれ個々に量子化されて符号器によって送信される。さらに、各パラメータに対して異なる値が転送される。異なる値は、現在のフレームまたは原型に対するパラメータ値と、以前のフレームまたは原型に対するパラメータ値との間の相違を表わす。しかしながら、パラメータ値及び異なる値を量子化することはビット(そして帯域)の使用が必要になる。低ビットレート音声符号器においては、満足のいく音声品質を維持するのに十分な最小限の数のビットを送信することが望ましい。このため、従来の低ビットレート音声符号器では、絶対的なパラメータ値のみが量子化されて送信される。情報値を制限することなしに送信されるビットの数を減少させることが望ましい。したがって、以前のフレームに対するパラメータ値と現在のフレームに対するパラメータ値の重みつき加算値間の相違を量子化する量子化方法が関連出願(名称:有声発話を予測的に量子化するための方法及び装置)に記載されている。この発明は本発明の譲受人に譲渡され、言及によりここにその全体が組み込まれている。
【0017】
音声符号器は、悪いチャネル条件によってフレーム消去(erasure)すなわちパケット損失(loss)を受ける。従来の音声符号器において使用される1つの解決策は、フレーム消去が受信されたときに復号器に単に以前のフレームを反復させることであった。フレーム消去の直後に動的にフレームを調整する適応型コードブックの使用の中に改善点が見出された。さらなる改善として強化された可変レート符号器(EVRC)が遠隔通信工業協会中間標準EIA/TIA IS−127において標準化された。EVRC符号器は、受信されなかったフレームを符号器メモリ内で変更するために、正しく受信された低予測で符号化されたフレームに依存し、それゆえ、正しく受信されたフレームの品質を改善する。
【0018】
しかしながら、EVRC符号器に付随する問題点は、フレーム消去と次の調整された良好なフレームの到着との間の不連続性である。例えば、フレーム消去が発生しなかったならば、ピッチパルスは、相対位置と比較して近すぎる位置あるいは遠すぎる位置に配置されているだろう。そのような不連続は可聴クリック音を引き起こすであろう。
【0019】
概して、(上の段落で述べたような)低予測の音声符号器は、フレーム消去条件の下でより良いパフォーマンスを提示する。しかしながら、上記したように、そのような音声符号器は相対的に高いビットレートが必要である。これとは逆に、高い予測の音声符号器は、(特に有声発話などの高度に周期的な音声に対して)良好な品質の合成音声を達成することが可能であるが、フレーム消去条件の下では悪いパフォーマンスを提示する。両方のタイプの音声符号器の品質を合成することが望ましい。さらに、フレーム消去と次に変更された良好フレーム間の不連続を平滑化する方法を提供することは有益なことである。すなわち、フレーム消去があった場合における予測符号器のパフォーマンスを改善するとともに、フレーム消去と次の良好フレーム間の不連続を平滑化するフレーム消去補償方法に対するニーズがある。
【0020】
発明の要約
本発明は、フレーム消去時の予測符号器のパフォーマンスを改善し、フレーム消去と次の良好フレーム間の不連続を平滑化するフレーム消去補償方法に関している。したがって、本発明の一側面において、音声符号器におけるフレーム消去を補償する方法が提供される。本方法は好ましくは、消去したフレームが宣言された後に処理された現在のフレームに対するピッチ値とデルタ値とを量子化し、前記デルタ値は、現在のフレームに対するピッチ遅延値と当該現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、フレーム消去の後でかつ、現在のフレームよりも少なくとも1つ前のフレームに対するデルタ値を量子化し、前記デルタ値は、少なくとも1つのフレームに対するピッチ遅延値と、前記少なくとも1つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記消去したフレームに対するピッチ遅延値を生成するために、前記現在のフレームに対するピッチ遅延値から各デルタ値を減算することを具備する。
【0021】
本発明の他の側面において、フレーム消去を補償するように構成された音声符号器が提供される。本音声符号器は好ましくは、消去したフレームが宣言された後に処理された現在のフレームに対するピッチ値とデルタ値とを量子化する手段と、前記デルタ値は、現在のフレームに対するピッチ遅延値と当該現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、フレーム消去の後でかつ、現在のフレームよりも少なくとも1つ前のフレームに対するデルタ値を量子化する手段と、前記デルタ値は、少なくとも1つのフレームに対するピッチ遅延値と、前記少なくとも1つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記消去したフレームに対するピッチ遅延値を生成するために、前記現在のフレームに対するピッチ遅延値から各デルタ値を減算する手段とを具備する。
【0022】
本発明の他の側面において、フレーム消去を補償するように構成された加入者ユニットが提供される。加入者ユニットは好ましくは、消去したフレームが宣言された後に処理された現在のフレームに対するピッチ遅延値とデルタ値とを量子化するように構成される第1の音声符号器と、前記デルタ値は、現在のフレームに対するピッチ遅延値と当該現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、フレーム消去の後でかつ、現在のフレームよりも少なくとも1つ前のフレームに対するデルタ値を量子化する第2の音声符号器と、前記デルタ値は、少なくとも1つのフレームに対するピッチ遅延値と、前記少なくとも1つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記消去したフレームに対するピッチ遅延値を生成するために、前記現在のフレームに対するピッチ遅延値から各デルタ値を減算する制御プロセッサとを具備する。
【0023】
本発明の他の側面において、フレーム消去を補償するように構成されたインフラストラクチャ要素が提供される。インフラストラクチャ要素は好ましくは、プロセッサ、当該プロセッサに結合され、消去されたフレームが宣言された後に処理された現在のフレームに対するピッチ値及びデルタ値を量子化するために前記プロセッサによって実行可能な一組の命令を含む記憶媒体とを具備する。前記デルタ値は前記現在のフレームに対するピッチ遅延値と、前記現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記フレーム消去の後でかつ、前記現在のフレームに少なくとも1つ前のフレームに対するデルタ値を量子化し、前記デルタ値は、少なくとも1つのフレームに対するピッチ遅延値と少なくとも1つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記現在のフレームに対するピッチ遅延値から各デルタ値を減算して当該消去したフレームに対するピッチ遅延値を生成する。
【0024】
好ましい実施形態の詳細な説明
ここに記載された例示的実施形態は、CDMA空中(over−the−air) インタフェースを使用するように構成されたワイヤレス電話通信システムに属する。しかしながら、本発明の特徴を具現化する有声音声を予測符号化するための方法及び装置は、当業者に知られた広範囲の技術を使用する種々の任意の通信システムに属することを当業者によって理解されるであろう。
【0025】
図1に示すように、CDMAワイヤレス電話システムは概して、複数の移動体加入者ユニット10、複数の基地局12、基地局コントローラ(BSC)14、移動体交換局(MSC)16を含む。MSC16は、従来の公衆交換電話網(PSTN)18と接続されるように構成される。MSC16はさらに、BSC14と接続するように構成される。BSC14はバックホールラインを介して基地局12に結合される。バックホールラインは、例えば、E1/T1,ATM,IP,PPP,フレームリレイ,HDSL,ADSL,またはxDSLを含む任意の既知のインタフェースを支持するように構成される。システム内には2つ以上のBSC14が存在するであろうことが理解される。各基地局12は好ましくは少なくとも1つのセクタ(図示せぬ)を具備し、各セクタは全方向アンテナまたは基地局12から放射線方向に離れる特定の方向を向いたアンテナを具備する。一方、各セクタはダイバーシチ受信のために2つのアンテナを具備する。各基地局12は好ましくは複数の周波数割り当てを支持するように設計される。セクタの交差と周波数割り当てはCDMAチャネルと呼ばれる。基地局12は、基地局送信器サブシステム(BTS)12として知られる。一方、“基地局”は、BSC14及び1つ以上のBTS12を総称するのに業界において使用される。BTS12は“セルサイト”12とも呼ばれる。一方、所定のBTS12の個々のセクタはセルサイトと呼ばれる。移動体加入者ユニット10は概してセルラまたはPCS電話10である。システムは好ましくは、IS−95標準に従った使用のために構成される。
【0026】
セルラ電話システムの一般的動作の間に、基地局12は、移動体ユニット10の組からリバースリンク信号の組を受信する。移動体リンク10は電話呼または他の通信を行なっている。所定の基地局12によって受信された各リバースリンク信号は当該基地局12内で処理される。結果的に得られたデータは、BSC14に転送される。BSC14は、呼資源割り当て及び基地局12間のソフトハンドオフの統合を含む、移動体管理機能を提供する。BSC14はさらに、受信したデータを、PSTN18に接続するための付加的な経路制御サービスを提供するMSC16に転送する。同様にして、PSTN18は、MSC16に接続し、MSC16は、フォワードリンク信号の組を移動体ユニット10の組に送信するべく基地局12を制御するBSC14に接続する。当業者ならば、加入者ユニット10は他の実施形態において固定されたユニットであることを理解するであろう。
【0027】
図2において、第1の符号器100は、デジタル化された音声サンプルs(n)を受信して、送信媒体102すなわち通信チャネル102に関して第1の復号器104への送信のためにサンプルs(n)を符号化する。復号器104は、符号化された音声サンプルを復号して出力音声信号SSYNTH (n)を合成する。反対方向における送信のために、第2の符号器106は、通信チャネル108を介して送信されるデジタル化された音声サンプルs(n)を符号化する。音声復号器110は、符号化された音声サンプルを復号し、合成された出力音声信号SSYNTH (n)を生成する。
【0028】
音声サンプルs(n)は、例えば、パルス符号変調(PCM)、圧伸されたμ−law、またはA−lawを含む、当業界でよく知られた種々の方法に従ってデジタル化され量子化された音声信号を表わす。当業界で知られているように、音声サンプルs(n)は、入力データのフレームに構成される。各フレームは、所定の数のデジタル音声サンプルs(n)を具備する。例示的な実施形態において、8kHzのサンプリングレートが使用される。各20msフレームは160サンプルを具備する。以下の実施形態において、データ送信のレートは、好ましくは、フルレートから(1/2レート、1/4レートあるいは1/8レートへと)フレームごとに変化させる。低いビットレートは比較的少ない音声情報を含むフレームに選択的に使用されるので、データ送信レートを変化させることは望ましい。当業者により理解されるように、他のサンプリングレート及び/またはフレームサイズが使用される。以下の実施形態において示すように、音声符号化(すなわち記号化)モードは、音声情報またはフレームのエネルギに応答して、フレームごとに変化される。
【0029】
第1の符号器100及び第2の復号器110はともに、第1の音声符号器(符号器/復号器)、または音声コーデックを具備する。音声符号器は、例えば、図1に関連して記載された、加入者ユニット、BTSまたはBSCを含む、音声信号送信のための任意の通信装置において使用される。同様にして、第2の符号器106及び第1の復号器104はともに、第2の音声符号器を具備する。音声符号器は、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、離散ゲートロジック、ファームウェアあるいは任意の従来のプログラマブルソフトウェアモジュール及びマイクロプロセッサによって実現されることを当業者は理解するであろう。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、レジスタ、あるいは業界で知られた任意の形態の記憶媒体内に存在する。さらに、任意の従来のプロセッサ、コントローラ、あるいは状態マシーンはマイクロプロセッサの代わりになるであろう。音声符号化に特に設計された例示的なASICは、米国特許第5727123号(この特許は本発明の譲受人に譲渡され、言及によりここにその全体が組み込まれている)及び米国特許出願第08/197417号(名称:ボコーダASIC、出願日:1994年2月16日、本発明の譲受人に譲渡されており、言及によりここにその全体が組み込まれている)に記載されている。
【0030】
図3において、音声符号器において使用される符号器200は、モード決定モジュール202、ピッチ推定モジュール204、LP解析モジュール206、LP解析フィルタ208、LP量子化モジュール210、そして残差量子化モジュール212を含む。入力音声フレームs(n)は、モード決定モジュール202、ピッチ推定モジュール204、LP解析モジュール206、そしてLP解析フィルタ208に供給される。モード決定モジュール202は、各入力音声フレームs(n)の周期、エネルギ、信号対雑音比(SNR)あるいは零交差レート、その他の特徴に基づいて、モードインデックスIM 及びモードMを生成する。周期に従って音声フレームを区別する種々の方法は、米国特許第5911128号(この特許は本発明の譲受人に譲渡され、ここに言及によりその全体が組み込まれている)に記載されている。そのような方法は、遠隔通信工業協会TIA/EIA
IS−127及びTIA/EIA IS−733内に組み込まれている。例示的なモード決定方法は、上記した米国特許出願第09/217341号に記載されている。
【0031】
ピッチ推定モジュール204は、各入力音声フレームs(n)に基いて、ピッチインデックスIp 及び遅延値Po を生成する。LP解析モジュール206は、LPパラメータaを生成するために、各入力音声フレームs(n)に関して線形予測解析を実行する。LPパラメータaは、LP量子化モジュール210に供給される。LP量子化モジュール210はさらに、モードMを受信し、それによってモードに依存する方法で量子化プロセスを実行する。LP量子化モジュール210は、LPインデックスILP及び量子化LPパラメータ
【数1】
を生成する。LP解析フィルタ208は、入力音声フレームs(n)に加えて量子化LPパラメータa∧を受信する。LP解析フィルタ208は、量子化された線形予測パラメータa∧に基いて、入力音声フレームs(n)及び再構成された音声間の誤差を表わすLP残差信号R[n]を生成する。LP残差R[n]、モードM、そして、量子化されたLPパラメータa∧は残差量子化モジュール212に供給される。残差量子化モジュール212は、これらの値に基いて、残差インデックスIR 及び量子化された残差信号R∧[n]を生成する。
【0032】
図4において、音声符号器において使用される復号器300は、LPパラメータ復号モジュール302、残差復号モジュール304、モード復号モジュール306、そしてLP解析フィルタ308を含む。モード復号モジュール306は、モードインデックスIM を受信して復号し、それらからモードMを生成する。LPパラメータ復号モジュール302は、モードM及びLPインデックスILPを受信する。LPパラメータ復号モジュール302は、受信した値を復号して、量子化されたLPパラメータa∧を生成する。残差復号モジュール304は、残差IR 、ピッチインデックスIP 、そしてモードインデックスIM を受信する。残差復号モジュール304は、受信した値を復号して量子化された残差信号R∧[n]を生成する。量子化された残差信号R∧[n]及び量子化されたLPパラメータa∧は、それらから復号された出力音声信号s∧[n]を合成するLP合成フィルタ308に供給される。
【0033】
図3の符号器200及び図4の復号器300の種々のモジュールの動作及び実装は当業界で知られており、前述の米国特許第5414796号及びL.B.Rabiner & R.W. Schafer,音声信号のデジタル処理、396−453(1978)に記載されている。
【0034】
一実施形態において、マルチモード音声符号器400は、通信チャネルまたは送信媒体404を介してマルチモード音声復号器402に連絡する。通信チャネル404は好ましくはIS−95標準に従って構成されたRFインタフェースである。符号器400が関連する復号器(図示せず)を備えていることは当業者に理解されるであろう。符号器400及びその関連する復号器はともに第1の音声符号器を構成する。復号器402が関連する符号器(図示せず)を備えていることは当業者に理解されるであろう。復号器402及びその関連する符号器はともに第2の音声符号器を構成する。第1及び第2の音声符号器は好ましくは、第1及び第2のDSPの一部として実現され、例えば、PCSまたはセルラ電話システム内の加入者ユニット及び基地局内または、衛星システム内の加入者ユニット及びゲートウェイ内に含まれる。
【0035】
符号器400は、パラメータ計算器406、モード識別モジュール408、複数の符号化モード410そして、パケットフォーマットモジュール412を含む。符号化モード410の数はnとして示されているが、当業者ならば適切な数の符号化モード410が使用されることを理解するであろう。説明を簡単にするために、3個のみの符号化モード410が示されている。点線は他の符号化モード410の存在を示している。復号器402はパケット分離器及びパケット損失検出器モジュール414、複数の復号モード416、消去復号器418、ポストフィルタまたは音声合成器420を含む。復号モジュール416の数は、nとして示されるが、当業者ならば適切な数の復号化モジュール416が使用されることを理解するであろう。説明を簡単にするために、3個のみの復号モジュール416が示されている。点線は他の復号モード416の存在を示している。
【0036】
音声信号s(n)はパラメータ計算器406に供給される。音声信号はフレームと呼ばれるサンプルブロックに分割される。値nはフレーム番号を示している。他の実施形態において、線形予測(LP)残差誤差信号は音声信号の代わりに使用される。LP残差は、例えばCELP符号器などの音声符号器によって使用される。LP残差の計算は好ましくは、音声信号をインバースLPフィルタ(図示せず)に供給することによって実行される。インバースLPフィルタの伝達関数A(z)は、次の式に従って計算する。
【0037】
A(z)=1−a1 z−1−a2 z−2−…−ap z−p
ここで、係数al は既知の方法に従って選択された予め定められた値を有するフィルタタップである。これは前記した米国特許第5414796号及び米国特許出願第09/217494号に記載されている。数pは、インバースLPフィルタが予測目的のために以前のサンプルの数を示す。特定された実施形態において、pは10に設定される。
【0038】
パラメータ計算器406は、現在のフレームに基いて種々のパラメータを抽出する。一実施形態において、これらのパラメータは次の少なくとも1つを含む:線形予測符号化(LPC)フィルタ係数、線形スペクトラム対(LSP)係数、正規化された自己相関関数(NACF)、オープンループ遅延、零交差レート、帯域エネルギー、そしてフォルマント残差信号の計算は、上記の米国特許第5414796号に詳細に記載されている。NACF及び零交差レートの計算は、上記した米国特許第5911128号に詳細に記載されている。
【0039】
パラメータ計算器406は、モード識別モジュール408に結合される。パラメータ計算器406は、当該パラメータをモード識別モジュール408を供給する。モード識別モジュール408は、現在のフレームに対して最も適切な符号化モード410を選択するために、フレームごとに符号化モード410間を動的に切り換わるように結合される。モード識別モジュール408は、当該パラメータを所定のしきい値及び/又は上限(ceiling)値と比較することによって現在のフレームに対する特定の符号化モード410を選択する。フレームのエネルギ内容に基いて、モード識別モジュール408は当該フレームを、非音声、または不作動音声(例えば、沈黙、背景雑音、またはワード間の一時停止)、または音声として識別する。フレームの周期性に基いて、モード識別モジュール408は、音声フレームを特別のタイプの音声,例えば有声、無声または遷移発話として区別する。
【0040】
有声音声は比較的高い度合いの周期性を示す。有声音声の一部が図6のグラフに示される。図に示すように、ピッチ周期は、フレームの内容を解析して再構成するのに有利に使用される音声フレームの成分である。無声音声は概して協和音を具備する。遷移音声フレームは概して、有声音声と無声音声間の遷移である。有声音声でも無声音声でもないと分類されたフレームは遷移音声として分類される。当業者ならば、任意の適切な分類方法が使用可能であることを理解するであろう。
【0041】
異なるタイプの音声を符号化するのに異なる符号化モード410が使用可能なので、音声フレームを分類することは有意義であり、これによって、通信チャネル404などの共有チャネルにおける帯域をより効率的に使用することになる。例えば、有声音声は周期的、すなわち高い確率で予測できるので、有声音声を符号化するのに高い予測度の符号化モード410が使用可能である。分類モジュール408などの分類モジュールは、上記した米国特許出願第09/217341号及び米国特許出願第09/259151号(名称:閉ループマルチモード混合領域線形予測(MDLP)音声符号器、出願日:1999年2月26日、本発明の譲受人に譲渡されており、その全体がここに参照として組み込まれている)に詳細に記載されている。
【0042】
モード分類モジュール408は、フレームの分類に基いて現在のフレームに対する符号化モード410を選択する。種々の符号化モードが並列に結合される。1つ以上の符号化モード410が任意のときに動作可能である。しかしながら、好ましくは1つのみの符号化モード410が所定の時間に動作可能であり、現在のフレームの分類に従って選択される。
【0043】
異なる符号化モード410は好ましくは、異なる符号化ビットレート、異なる符号化方法、あるいは符号化ビットレートと符号化方法の異なる組み合わせに従って動作する。使用される種々の符号化レートは、フルレート、ハーフレート、1/4レート、及び/または1/8レートである。使用される種々の符号化方法は、CELP符号化、原型ピッチ周期(PPP)符号化(または波形補間(WI)符号化、及び/または雑音励起線形予測(NELP)符号化である。すなわち、例えば、特定の符号化モード410は、フレーレートCELPであり、他の符号化モード410は1/2レートCELPであり、他の符号化モード410は1/4レートPPPであり、他の符号化モード410はNELPである。
【0044】
CELP符号化モード410に従って、線形予測声道モデルがLP残差信号の量子化バージョンにより励起される。全体の以前のフレームに対する量子化パラメータが現在のフレームを再構成するのに使用される。すなわち、CELP符号化モード410は、音声の比較的正確な再生を提供するが、符号化ビットレートが相対的に高くなる。CELP符号化モード410は好ましくは、遷移音声としえ分類されたフレームを符号化するのに使用される。例示的な可変レートCELP音声符号器は、上記した米国特許出願第5414796号に詳細に記載されている。
【0045】
NELP符号化モード410に従って、ろ波された疑似ランダムノイズ信号が音声フレームをモデル化するのに使用される。NELP符号化モデル410は低ビットレートを達成する相対的に簡単な技術である。NELP符号化モード412は、無声音声として分類されたフレームを符号化するのに使用される。例示的なNELP符号化モードは、上記した米国特許出願第09/217494号に詳細に記載されている。
【0046】
PPP符号化モード410に従って、各フレーム内のピッチ周期のサブセットのみが符号化される。音声信号の残りの周期は、これらの原型周期間に補間することによって再構成される。PPP符号化の時間領域実装において、現在の原型周期を近似するために以前の原型周期をどのように変形するのかを記述する第1組のパラメータが計算される。1つ以上の符号ベクトルが選択され、加算されて現在の原型周期と変形された以前の原型周期間の相違を近似する。第2組のパラメータはこれらの選択された符号ベクトルを記述する。PPP符号化の周波数領域実装において、原型の振幅及び位相スペクトラムを記述するために一組のパラメータが計算される。これは、絶対的知覚または予測的に行われる。原型(または全体フレームの)振幅及び位相スペクトラムを予測的に量子化する方法は、上記したこれとともに出願された関連出願(名称:有声音声を予測的に量子化する方法及び装置)に記載されている。PPP符号化のいずれかの実装に従って、復号器は、第1及び第2の組のパラメータに基いて、現在の原型を再構成することによって、出力音声信号を合成する。音声信号は次に、現在の再構成された原型周期と以前の再構成された原型周期間の領域に渡って補間される。すなわち、原型は、復号器で音声信号またはLP残差信号を再構成するためにフレーム内に同様に配置された以前のフレームからの原型で線形補間される現在のフレームの一部である(すなわち、過去の原型周期が現在の原型周期の予測器として使用される)。例示的なPPP音声符号器は上記した米国特許出願弟09/217494号に詳細に記載されている。
【0047】
全体の音声フレームではなく原型周期を符号化することは、要求された符号化ビットレートを低減する。有声音声として分類されたフレームは好ましくは、PPP符号化モード410によって符号化される。図6に示すように、有声音声は、PPP符号化モード410による利点が利用される遅い時間変化の周期的成分を含む。有声音声の周期性を活用することによって、PPP符号化モード410は、CELP符号化モード410ではなくより低いビットレートを達成することができる。
【0048】
選択された符号化モード410は、パケットフォーマットモジュール412に結合される。選択された符号化モード410は、現在のフレームを符号化し、量子化して量子化されたフレームパラメータをパケットフォーマットモジュール412に供給する。パケットフォーマットモジュール412は好ましくは、量子化された情報をパケットに組み立てて通信チャネル404を介して送信される。一実施形態において、パケットフォーマットモジュール412は、誤差訂正符号化を提供するように構成され、当該パケットをIS−95標準に従ってフォーマットする。パケットは送信器(図示せず)に供給され、アナログ形式に変換され、変調され、通信チャネル404を介して受信器(図示せず)に送信される。受信器はパケットを受信して復調し、デジタル化し、当該パケットを復調器402に供給する。
【0049】
復号器402において、パケット分離器及びパケット損失検出器モジュール414は受信器からのパケットを受信する。パケット分離器及びパケット損失検出器モジュール414は、パケットごとに復号モード416間のスイッチに動的に結合されている。復号化モジュール416の数は、符号化モード410の数と同じであり、当業者ならば認識するように、同じ符号化ビットレート及び符号化方法を使用するように構成された、各同じ番号の符号化モード416に関連している。
【0050】
パケット分離器及びパケット損失検出器モジュール414がパケットを検出したならば、当該パケットは分離されて関連する復号化モード416に供給される。
【0051】
パケット分離器及びパケット損失検出器モジュール414がパケットを検出しなかったならば、パケット損失が宣言され、消去検出器418は好ましくは、以下に詳細に述べるように、フレーム消去処理を実行する。
【0052】
復号化モード416と消去復号器418の並列アレイはポストフィルタ420に結合される。関連する復号化モード416は復号化すなわち逆量子化を行い、パケットはポストフィルタ420に情報を提供する。ポストフィルタ420は音声フレームを再構成すなわち合成し、合成された音声フレームs∧(n)を出力する。例示的な復号モード及びポストフィルタは上記した米国特許第5414796号及び米国特許出願第09/217494号に記載されている。
【0053】
一実施形態において、量子化されたパラメータそれ自身は送信されない。その代わりに、復号器402において種々のルックアップテーブル(LUT)(図示せず)におけるアドレスを特定するコードブックインデックスが送信される。復号器402は、コードブックインデックスを受信して、適切なパラメータ値を求めるために種々のコードブックLUTを探索する。従って、例えば、ピッチ遅延、適応型コードブック利得、LSPなどのパラメータに対するコードブックインデックスが送信され、3つの関連するコードブックLUTが復号器402によって探索される。
【0054】
CELP符号化モジュール410に従って、ピッチ遅延、振幅、位相、そしてLSPパラメータが送信される。復号器402でLP残差信号が合成されることになっているので、LSPコードブックインデックスが送信される。さらに、現在のフレームに対するピッチ遅延値と以前のフレームに対するピッチ遅延値との相違が送信される。
【0055】
音声信号が復号器で合成される従来のPPP符号化モードに従って、ピッチ遅延、振幅、そして位相パラメータのみが送信される。従来のPPP音声符号化技術によって使用される低ビットレートは、絶対ピッチ遅延情報及び相対ピッチ遅延相違値の両方の送信を可能にしない。
【0056】
一実施形態において、有声音声フレームなどの高度に周期的なフレームは、現在のフレームに対するピッチ遅延値と送信すべき以前のフレームに対するピッチ遅延値間の相違を量子化する低ビットレートPPP符号化モード410で送信され、送信のための現在のフレームに対するピッチ遅延値を量子化しない。有声フレームは元来高度に周期的であるので、絶対ピッチ遅延値とは逆に相違値を送信することにより、低符号化ビットレートの達成を可能にする。一実施形態において、この量子化は、以前のフレームに対するパラメータ値の重み付き加算値が計算されるように一般化される。この場合、重みの加算値は1であり、重み付き加算値が現在のフレームに対するパラメータ値から減算される。相違は次に量子化される。この技術は、共に出願された上記の関連出願(名称:有声音声を予測的に量子化する方法及び装置)に詳細に記載されている。
【0057】
有声音声の量子化
一実施形態に従って、可変レート符号化システムは、プロセッサすなわちモード分類器によって制御される、異なる符号器すなわち異なる符号化モードをもつ制御プロセッサによって決定される、異なるタイプの音声を符号化する。符号器は、以前のフレームL−1に対するピッチ遅延値と、現在のフレームLに対するピッチ遅延値とによって特定されるピッチ輪郭に従って、現在フレーム残差信号(あるいは音声信号)を変更する。復号器に対する制御プロセッサは、現在のフレームに対する量子化された残差または音声のためのピッチメモリから、適応型コードブック寄与(contribution){P(n)}を再構成するために、同じピッチ輪郭に従う。
【0058】
以前のピッチ遅延値L−1が失われたならば、復号器は、正しいピッチ輪郭を再構成することができない。これは、適応型コードブック寄与{P(n)}にひずみを引き起こす。その代わりに、合成された音声は、パケットが現在のフレームに対して失われなくとも大きな低下を被ることになる。それを救済するために、従来の符号器は、LとL及びL−1間の相違の両方を符号化する方法を使用している。この相違、すなわちデルタピッチ値は、Δによって記述される。この場合、Δ=L−L−1はL−1が以前のフレームにおいて失われた場合に当該L−1を回復する機能をもつ。
【0059】
ここに記載された実施形態は、可変レート符号化システムにおける最良の利点を利用するのに使用される。特に、Cで記述された第1の符号器(すなわち符号化モード)は、上記したように、現在のフレームピッチ遅延値L及びデルタピッチ遅延値Δを符号化する。Qによって記述された、第2の符号器(すなわち符号化モード)は、デルタピッチ遅延値Δを符号化するが、必ずしもピッチ遅延値Lを符号化しない。これは、第2の符号器Qが、他のパラメータを符号化するためにまたはビットをすべて節約するために(すなわち、低ビットレート符号器として機能するために)、付加的なビットを使用することを可能にする。第1の符号器Cは好ましくは、例えば、フルレートCELL符号器などの相対的に非周期的な音声を符号化するのに使用される符号器である。第2の符号器Qは好ましくは、1/4レートPPP符号器などの高度に周期的な音声(例えば有声音声)を符号化するのに使用される符号器である。
【0060】
図7の例に示されるように、以前のフレーム、フレームn−1のパケットが失われたならば、ピッチメモリ寄与{P−2(n)}は、前のフレーム、フレームn−2、に先立って受信したフレームを復号した後に、符号器メモリ(図示せず)内に記憶される。フレームn−2、Ln−2に対するピッチ遅延値はさらに符号器メモリ内に記憶される。現在のフレーム、フレームn、が符号器Cによって符号化されるならば、フレームnはCフレームと呼ばれる。符号器Cは、式L−1=L−Δを使用して、デルタピッチ値Δから以前のピッチ遅延値L−1を回復することができる。すなわち、正しいピッチ輪郭が値L−1及びL−2によって再構成される。フレームn−1に対する適応型コードブック寄与は、正しいピッチ輪郭が与えられたならば、修復可能であり、続いて、フレームnに対する適応型コードブック寄与を生成するのに使用される。当業者ならば、そのような方法はEVRC符号器などの従来の符号器において使用されることを理解する。
【0061】
一実施形態に従って、上記した2つのタイプの符号器(符号器C及び符号器Q)を使用する、可変レート音声符号化システムにおけるフレーム消去パフォーマンスは、以下に記載するように強化される。図8の例において示されるように、可変レート符号化システムは、符号器C及び符号器Qの両方を使用するように設計される。現在のフレーム、フレームn、はCフレームであり、そのパケットは失われない。以前のフレーム、フレームn−1は、Qフレームである。Qフレームに先立つフレームに対するパケット(すなわち、フレームn−2に対するパケット)は失われた。
【0062】
フレームn−2に対するフレーム消去処理において、ピッチメモリ寄与{P−3(n)}は、復号化フレームn−3、L−3に対するピッチ遅延値はさらに、符号器メモリに記憶される。フレームn−1、L−1に対するピッチ遅延値は、式L−1=L−Δに従ってCフレームパケットにおいて、デルタピッチ遅延値Δ(L−L−1に等しい)を使用して回復可能である。フレームn−1はQフレームであり、それ自身の関連する符号化デルタピッチ遅延値Δ−1はL−1−L−2に等しい。すなわち、消去フレーム、フレームn−2、L−2に対するピッチ遅延値は、式L−2=L−1−Δ−1に従って回復可能である。フレームn−2及びフレームn−1に対するピッチ遅延値が正しいならば、これらのフレームに対するピッチ輪郭は好ましくは再構成可能であり、適応型コードブック寄与は同様に修復可能である。すなわち、Cフレームは、その量子化されたLP残差信号(または音声信号)に対する適応型コードブック寄与を計算するのに要するピッチメモリを改善することができる。この方法は、当業者によって容易に認識されるように、消去フレーム及びCフレーム間に複数のQフレームが存在することを可能にする。
【0063】
図9に図示して示すように、フレームが消去されるとき、消去復号器(例えば図5の要素418)は、フレームの正確な情報なしに、量子化されたLP残差(または音声信号)を再構成する。消去されたフレームのピッチ輪郭及びピッチメモリが、現在のフレームの量子化されたLP残差(または音声信号)を再構成するための上記の方法に従って再記憶されていたならば、最終的に得られる量子化されたLP残差(または音声信号)は、改竄されたピッチメモリが使用されていた場合には異なるものとなるであろう。符号器ピッチメモリにおけるそのような変化は、フレームを横切る量子化された残差(または音声信号)に不連続を引き起こす。すなわち、遷移音、すなわちクリック音がEVRC符号器などの従来の音声符号器において聞かれる。
【0064】
一実施形態に従って、ピッチ周期原型は、修復に先立って改竄されたピッチメモリから抽出される。現在のフレームに対するLP残差(または音声信号)もまた、通常の逆量子化処理に従って抽出される。現在のフレームに対する量子化されたLP残差(または音声信号)は次に、波形補間(WI)方法に従って再構成される。特定の実施形態において、WI方法は、上記したPPP符号化モードに従って動作する。この方法は好ましくは、上記した不連続を平滑化して、音声符号器のフレーム消去パフォーマンスをさらに強度にする機能をもつ。そのようなWI方法は、(例えば、上記した技術を含む(但し、それらに限定されない)修復を達成するのに使用される技術とは無関係に、消去処理によりピッチメモリが修復されるときにはいつでも使用される。
【0065】
図10のグラフは、可聴クリックを生成する、従来の技術に従って調整されたLP残差信号と、上記したWI平滑化方法に従って連続的に平滑化されたLP残差信号との間の見かけ上の相違を示す。図11のグラフは、PPPまたはWI符号化技術の原理を示す。
【0066】
すなわち、可変レート音声符号器における新規で改善されたフレーム消去補償方法が記述された。当業者ならば、上記の記載を通して言及されたデータ、指令、命令、情報、信号、ビット、符号、そしてチップは好ましくは、電圧、電流、電磁波、磁界または磁気粒子、光フィールドまたは光粒子、または前記したものの任意の組み合わせによって表わされることを理解するであろう。さらに当業者ならば、ここに開示された実施形態に関連して記述された、種々の例示的な論理ブロック、モジュール、回路、そしてアルゴリズムステップが電子的ハードウェア、コンピュータソフトウェア、またはそれらの組み合わせとして実現されることを理解するであろう。種々の例示的な要素、ブロック、モジュール、回路そしてステップが概してそれらがもつ機能の観点から記述された。機能がハードウェアとして実現されるかソフトウェアとして実現されるかは、特定の応用そして全体システムに課される設計上の拘束に依存する。熟練した技術者ならば、これらの環境の下で、ハードウェアとソフトウェアとを交換できることを認識するとともに、各特定の応用に対していかに最良の形で実行したらよいかを認識するであろう。一例として、ここで開示された実施形態に関連する、種々の例示的論理ブロック、モジュール、回路、そしてアルゴリズムステップは、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、あるいは他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジック、例えばレジスタ及びFIFOなどのディスクリートハードウェア要素、一連のファームウェア指令を実行するプロセッサ、任意の従来のプログラマブルソフトウェアモジュール及びプロセッサ、あるいはここで記述された機能を実行するように設計されたそれらの任意の組み合わせ、によって実現または実行される。プロセッサは好ましくは、マイクロプロセッサであるが、その代わりに、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態マシーンであってもよい。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、あるいは業界で知られた任意の形態の記憶媒体に格納可能である。図12に示すように、例示的プロセッサ500は好ましくは、記憶媒体502から情報を読み出すために、そして記憶媒体502に対して情報を書き込むために、記憶媒体502に結合される。その一方で、記憶媒体502は、プロセッサ500に一体化される。プロセッサ500および記憶媒体502は、(図示せぬ)ASICに格納される。ASICは(図示せぬ)電話機内に配置される。その一方で、プロセッサ500及び記憶媒体502は電話機内に格納される。プロセッサ500は、DSP及びマイクロプロセッサの組み合わせとして、または、DSPコアなどに関連する2つのマイクロプロセッサとして実現される。
【0067】
本発明の好ましい実施形態が示され記述された。しかしながら、当業者ならば、本発明の精神すなわち権利範囲から逸脱することなしに、ここに開示された実施形態に対する種々の変形例が可能であることを認識するであろう。したがって、本発明は、以下の請求の範囲に従う以外に限定されるものではない。
【図面の簡単な説明】
【図1】
ワイヤレス電話システムのブロック図である。
【図2】
音声符号器により各端部で終端された通信チャネルのブロック図である。
【図3】
音声符号器のブロック図である。
【図4】
音声符号器のブロック図である。
【図5】
符号器/送信器及び復号器/受信機部分を含む音声符号器のブロック図である。
【図6】
有声音声のセグメント(一部)に対する信号振幅対時間のグラフである。
【図7】
図5の音声符号器の復号器/受信器において使用可能な第1のフレーム消去処理方法を示す図である。
【図8】
可変レート音声符号器に適合する第2のフレーム消去処理方法を示す図である。
【図9】
破壊されたフレーム及び良好なフレーム間の推移を平滑化するのに使用可能なフレーム消去処理方法を例示するために、種々の線形予測(LP)残差波形に対する信号振幅対時間を示す図である。
【図10】
図9において示されたフレーム消去処理方法の利点を示すために種々のLP残差波形に対する信号振幅対時間を示す図である。
【図11】
ピッチ周期原型または波形補間符号化方法を示すために種々の波形に対する信号振幅対時間を示す図である。
【図12】
記憶媒体に結合されたプロセッサのブロック図である。
【符号の説明】
10 複数の移動体加入者ユニット
12 複数の基地局
14 基地局コントローラ(BSC)
16 移動体交換局(MSC)
18 従来の公衆交換電話網(PSTN)
Claims (20)
- 音声符号器におけるフレーム消去を補償するための方法であって、
ピッチ遅延値と、消去されたフレームが宣言された後に処理された現在のフレームに対するデルタ値とを量子化し、前記デルタ値は前記現在のフレームに対するピッチ遅延値と前記現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、
前記現在のフレームに先立つとともに前記フレーム消去の後に、少なくとも1つのフレームに対するデルタ値を量子化し、前記デルタ値は、少なくとも1つのフレームに対するピッチ遅延値と前記少なくとも1つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、
前記消去されたフレームに対するピッチ遅延値を生成するために、現在のフレームに対するピッチ遅延値から各デルタ値を減算することを具備する方法。 - 再構成されたフレームを生成するために消去されたフレームを再構成することをさらに具備する請求項1に記載の方法。
- 前記現在のフレーム及び前記再構成されたフレーム間に存在する不連続を平滑化するために波形補間を実行することをさらに具備する請求項2に記載の方法。
- 前記第1の量子化は、相対的に非予測的な符号化モードに従って実行されることを特徴とする請求項1記載の方法。
- 前記第2の量子化は、相対的に予測的な符号化モードに従って実行される請求項1記載の方法。
- フレーム消去を補償するように構成された音声符号器であって、
消去されたフレームが宣言された後に処理された現在のフレームに対するデルタ値とピッチ遅延値とを量子化するための手段と、前記デルタ値は、前記現在のフレームに対するピッチ遅延値と前記現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、
現在のフレームに先立つとともに前記フレーム消去の後に少なくとも1つのフレームに対するデルタ値を量子化するための手段と、前記デルタ値は少なくとも1つのフレームと少なくとも1つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、
前記消去されたフレームに対するピッチ遅延値を生成するために、前記現在のフレームに対するピッチ遅延値から各デルタ値を減算するための手段と、
を具備する音声符号器。 - 再構成されたフレームを生成するために前記消去されたフレームを再構成するための手段をさらに具備する請求項6記載の音声符号器。
- 前記現在のフレームと前記再構成されたフレーム間に存在する不連続を平滑化するために波形補間を実行するための手段をさらに具備する請求項7記載の音声符号器。
- 量子化するための前記第1の手段は、相対的に非予測的な符号化モードに従って量子化するための手段を具備する請求項6記載の音声符号器。
- 量子化するための前記第2の手段は、相対的に予測的な符号化モードに従って量子化するための手段を具備する請求項6記載の音声符号器。
- フレーム消去を補償するように構成された加入者ユニットであって、
消去されたフレームが宣言された後に処理された現在のフレームに対するデルタ値とピッチ遅延値とを量子化するように構成された第1の音声符号器と、前記デルタ値は、前記現在のフレームに対するピッチ遅延値と、前記現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、
現在のフレームに先立つとともに前記フレーム消去の後に、少なくとも1つのフレームに対するデルタ値を量子化するように構成された第2の音声符号器と、前記デルタ値は、前記少なくとも1つのフレームに対するピッチ遅延値と少なくとも1つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、
前記第1及び第2の音声符号器に結合され、前記消去されたフレームに対するピッチ遅延値を生成するために、前記現在のフレームに対するピッチ遅延値から各デルタ値を減算するように構成された制御プロセッサと、
を具備する加入者ユニット。 - 前記制御プロセッサはさらに、再構成されたフレームを生成するために、前記消去されたフレームを再構成するように構成される請求項11記載の加入者ユニット。
- 前記制御プロセッサはさらに、現在のフレームと前記再構成されたフレーム間に存在する不連続を平滑化するために波形補間を実行するように構成されている請求項13に記載の加入者ユニット。
- 前記第1の音声符号器は、相対的に非予測的な符号化モードに従って量子化するように構成されている請求項11記載の加入者ユニット。
- 前記第2の音声符号器は、相対的に予測的な符号化モードに従って量子化するように構成されている請求項15記載の加入者ユニット。
- フレーム消去を補償するように構成されたインフラストラクチャ要素であって、
プロセッサと、
このプロセッサに結合され、前記プロセッサによって実行可能な一組の命令を含む記憶媒体と、
を具備し、
前記命令は、消去されたフレームが宣言された後に処理された現在のフレームに対するピッチ遅延値とデルタ値を量子化するものであって、前記デルタ値は、現在のフレームに対するピッチ遅延値と、前記現在のフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記現在のフレームに先立ちかつ前記フレーム消去の後における少なくとも1つのフレームに対するデルタ値を量子化するものであって、前記デルタ値は、少なくとも1つのフレームに対するピッチ遅延値と、前記少なくとも1つのフレームの直前のフレームに対するピッチ遅延値間の相違に等しく、前記現在のフレームに対する前記ピッチ遅延値から各デルタ値を減算して、前記消去されたフレームに対するピッチ遅延値を生成するインフラストラクチャ要素。 - 前記一組の命令はさらに、再構成されたフレームを生成するために前記消去されたフレームを再構成するために前記プロセッサによって実行可能である請求項16記載のインフラストラクチャ要素。
- 前記一組の命令はさらに、前記現在のフレームと前記再構成されたフレーム間に存在する不連続を平滑化するために、波形補間を実行するために前記プロセッサによって実行可能である請求項17記載のインフラストラクチャ要素。
- 前記一組の命令はさらに、相対的に非予測的な符号化モードに従って前記現在のフレームに対する前記ピッチ遅延値と前記デルタ値を量子化するために、前記プロセッサによって実行可能である請求項16記載のインフラストラクチャ要素。
- 前記一組の命令はさらに、相対的に予測的な符号化モードに従って前記現在のフレームに先立ちかつ前記フレーム消去の後の少なくとも1つのフレームに対するデルタ値を量子化するために、前記プロセッサによって実行可能である請求項16記載のインフラストラクチャ要素。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/557,283 | 2000-04-24 | ||
US09/557,283 US6584438B1 (en) | 2000-04-24 | 2000-04-24 | Frame erasure compensation method in a variable rate speech coder |
PCT/US2001/012665 WO2001082289A2 (en) | 2000-04-24 | 2001-04-18 | Frame erasure compensation method in a variable rate speech coder |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004501391A true JP2004501391A (ja) | 2004-01-15 |
JP2004501391A5 JP2004501391A5 (ja) | 2008-11-20 |
JP4870313B2 JP4870313B2 (ja) | 2012-02-08 |
Family
ID=24224779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001579292A Expired - Lifetime JP4870313B2 (ja) | 2000-04-24 | 2001-04-18 | 可変レート音声符号器におけるフレーム消去補償方法 |
Country Status (13)
Country | Link |
---|---|
US (1) | US6584438B1 (ja) |
EP (3) | EP2099028B1 (ja) |
JP (1) | JP4870313B2 (ja) |
KR (1) | KR100805983B1 (ja) |
CN (1) | CN1223989C (ja) |
AT (2) | ATE502379T1 (ja) |
AU (1) | AU2001257102A1 (ja) |
BR (1) | BR0110252A (ja) |
DE (2) | DE60144259D1 (ja) |
ES (2) | ES2288950T3 (ja) |
HK (1) | HK1055174A1 (ja) |
TW (1) | TW519615B (ja) |
WO (1) | WO2001082289A2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008007699A1 (en) * | 2006-07-12 | 2008-01-17 | Panasonic Corporation | Audio decoding device and audio encoding device |
JP2009163276A (ja) * | 2009-04-24 | 2009-07-23 | Panasonic Corp | 音声符号化装置、音声復号化装置、及びこれらの方法 |
JP2010501080A (ja) * | 2006-07-31 | 2010-01-14 | クゥアルコム・インコーポレイテッド | 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法 |
JP2010515936A (ja) * | 2007-01-04 | 2010-05-13 | クゥアルコム・インコーポレイテッド | 第1のビット・レートに関連する第1のパケットを、第2のビット・レートに関連する第2のパケットにディミング(dimming)するシステム及び方法 |
JP2012042984A (ja) * | 2011-12-02 | 2012-03-01 | Panasonic Corp | Celp型音声復号化装置およびcelp型音声復号化方法 |
US8918196B2 (en) | 2005-01-31 | 2014-12-23 | Skype | Method for weighted overlap-add |
JP2016532143A (ja) * | 2013-06-21 | 2016-10-13 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | Tcx ltpについての向上した概念を実現する装置及び方法 |
US12125491B2 (en) | 2013-06-21 | 2024-10-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing improved concepts for TCX LTP |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW376611B (en) * | 1998-05-26 | 1999-12-11 | Koninkl Philips Electronics Nv | Transmission system with improved speech encoder |
ATE420432T1 (de) * | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
US7080009B2 (en) * | 2000-05-01 | 2006-07-18 | Motorola, Inc. | Method and apparatus for reducing rate determination errors and their artifacts |
US6937979B2 (en) * | 2000-09-15 | 2005-08-30 | Mindspeed Technologies, Inc. | Coding based on spectral content of a speech signal |
US7013267B1 (en) * | 2001-07-30 | 2006-03-14 | Cisco Technology, Inc. | Method and apparatus for reconstructing voice information |
US7512535B2 (en) * | 2001-10-03 | 2009-03-31 | Broadcom Corporation | Adaptive postfiltering methods and systems for decoding speech |
US7096180B2 (en) * | 2002-05-15 | 2006-08-22 | Intel Corporation | Method and apparatuses for improving quality of digitally encoded speech in the presence of interference |
US6789058B2 (en) * | 2002-10-15 | 2004-09-07 | Mindspeed Technologies, Inc. | Complexity resource manager for multi-channel speech processing |
KR100451622B1 (ko) * | 2002-11-11 | 2004-10-08 | 한국전자통신연구원 | 통신용 보코더 및 이를 이용한 통신 방법 |
WO2004068098A1 (ja) * | 2003-01-30 | 2004-08-12 | Fujitsu Limited | 音声パケット消失隠蔽装置,音声パケット消失隠蔽方法,受信端末および音声通信システム |
GB2416467B (en) * | 2003-05-14 | 2006-08-30 | Oki Electric Ind Co Ltd | Apparatus and method for concealing erased periodic signal data |
US20050049853A1 (en) * | 2003-09-01 | 2005-03-03 | Mi-Suk Lee | Frame loss concealment method and device for VoIP system |
US7433815B2 (en) * | 2003-09-10 | 2008-10-07 | Dilithium Networks Pty Ltd. | Method and apparatus for voice transcoding between variable rate coders |
US7505764B2 (en) * | 2003-10-28 | 2009-03-17 | Motorola, Inc. | Method for retransmitting a speech packet |
US7729267B2 (en) * | 2003-11-26 | 2010-06-01 | Cisco Technology, Inc. | Method and apparatus for analyzing a media path in a packet switched network |
JP5032977B2 (ja) * | 2004-04-05 | 2012-09-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチチャンネル・エンコーダ |
JP4445328B2 (ja) * | 2004-05-24 | 2010-04-07 | パナソニック株式会社 | 音声・楽音復号化装置および音声・楽音復号化方法 |
CN1989548B (zh) * | 2004-07-20 | 2010-12-08 | 松下电器产业株式会社 | 语音解码装置及补偿帧生成方法 |
US7681105B1 (en) * | 2004-08-09 | 2010-03-16 | Bakbone Software, Inc. | Method for lock-free clustered erasure coding and recovery of data across a plurality of data stores in a network |
US7681104B1 (en) | 2004-08-09 | 2010-03-16 | Bakbone Software, Inc. | Method for erasure coding data across a plurality of data stores in a network |
CA2691762C (en) | 2004-08-30 | 2012-04-03 | Qualcomm Incorporated | Method and apparatus for an adaptive de-jitter buffer |
US7519535B2 (en) * | 2005-01-31 | 2009-04-14 | Qualcomm Incorporated | Frame erasure concealment in voice communications |
US8355907B2 (en) | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
UA90506C2 (ru) * | 2005-03-11 | 2010-05-11 | Квелкомм Инкорпорейтед | Изменение масштаба времени кадров в вокодере с помощью изменения остатка |
US8155965B2 (en) | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
US9058812B2 (en) * | 2005-07-27 | 2015-06-16 | Google Technology Holdings LLC | Method and system for coding an information signal using pitch delay contour adjustment |
US8259840B2 (en) * | 2005-10-24 | 2012-09-04 | General Motors Llc | Data communication via a voice channel of a wireless communication network using discontinuities |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US7457746B2 (en) * | 2006-03-20 | 2008-11-25 | Mindspeed Technologies, Inc. | Pitch prediction for packet loss concealment |
FR2907586A1 (fr) * | 2006-10-20 | 2008-04-25 | France Telecom | Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch. |
US7738383B2 (en) * | 2006-12-21 | 2010-06-15 | Cisco Technology, Inc. | Traceroute using address request messages |
CN101226744B (zh) * | 2007-01-19 | 2011-04-13 | 华为技术有限公司 | 语音解码器中实现语音解码的方法及装置 |
US7706278B2 (en) * | 2007-01-24 | 2010-04-27 | Cisco Technology, Inc. | Triggering flow analysis at intermediary devices |
US7873064B1 (en) | 2007-02-12 | 2011-01-18 | Marvell International Ltd. | Adaptive jitter buffer-packet loss concealment |
CN101321033B (zh) * | 2007-06-10 | 2011-08-10 | 华为技术有限公司 | 帧补偿方法及系统 |
CN101325631B (zh) * | 2007-06-14 | 2010-10-20 | 华为技术有限公司 | 一种估计基音周期的方法和装置 |
BRPI0813178B1 (pt) * | 2007-06-15 | 2020-05-12 | France Telecom | Processo de codificação de um sinal de áudio de entrada, processo de decodificação escalável de um sinal de áudio, codificador de sinal de áudio de entrada, e codificador de um sinal de áudio |
ATE456130T1 (de) * | 2007-10-29 | 2010-02-15 | Harman Becker Automotive Sys | Partielle sprachrekonstruktion |
CN101437009B (zh) * | 2007-11-15 | 2011-02-02 | 华为技术有限公司 | 丢包隐藏的方法及其系统 |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
EP2239732A1 (en) | 2009-04-09 | 2010-10-13 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
RU2452044C1 (ru) | 2009-04-02 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот |
US9269366B2 (en) * | 2009-08-03 | 2016-02-23 | Broadcom Corporation | Hybrid instantaneous/differential pitch period coding |
WO2011065741A2 (ko) * | 2009-11-24 | 2011-06-03 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
GB0920729D0 (en) * | 2009-11-26 | 2010-01-13 | Icera Inc | Signal fading |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8774010B2 (en) | 2010-11-02 | 2014-07-08 | Cisco Technology, Inc. | System and method for providing proactive fault monitoring in a network environment |
US8559341B2 (en) | 2010-11-08 | 2013-10-15 | Cisco Technology, Inc. | System and method for providing a loop free topology in a network environment |
US8982733B2 (en) | 2011-03-04 | 2015-03-17 | Cisco Technology, Inc. | System and method for managing topology changes in a network environment |
US8670326B1 (en) | 2011-03-31 | 2014-03-11 | Cisco Technology, Inc. | System and method for probing multiple paths in a network environment |
US8990074B2 (en) | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
US8724517B1 (en) | 2011-06-02 | 2014-05-13 | Cisco Technology, Inc. | System and method for managing network traffic disruption |
US8830875B1 (en) | 2011-06-15 | 2014-09-09 | Cisco Technology, Inc. | System and method for providing a loop free topology in a network environment |
US9450846B1 (en) | 2012-10-17 | 2016-09-20 | Cisco Technology, Inc. | System and method for tracking packets in a network environment |
US9842598B2 (en) * | 2013-02-21 | 2017-12-12 | Qualcomm Incorporated | Systems and methods for mitigating potential frame instability |
JP6153661B2 (ja) | 2013-06-21 | 2017-06-28 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法 |
BR112015031181A2 (pt) | 2013-06-21 | 2017-07-25 | Fraunhofer Ges Forschung | aparelho e método que realizam conceitos aperfeiçoados para tcx ltp |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
CN110265058B (zh) * | 2013-12-19 | 2023-01-17 | 瑞典爱立信有限公司 | 估计音频信号中的背景噪声 |
EP2980796A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an audio signal, audio decoder, and audio encoder |
CN107112025A (zh) | 2014-09-12 | 2017-08-29 | 美商楼氏电子有限公司 | 用于恢复语音分量的系统和方法 |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
US10447430B2 (en) | 2016-08-01 | 2019-10-15 | Sony Interactive Entertainment LLC | Forward error correction for streaming data |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08293888A (ja) * | 1995-03-10 | 1996-11-05 | At & T Corp | フレーム消去補正方法 |
JPH09149421A (ja) * | 1995-09-18 | 1997-06-06 | Oki Electric Ind Co Ltd | 画像符号化装置、画像復号化装置及び画像伝送システム |
JPH09190197A (ja) * | 1995-06-07 | 1997-07-22 | At & T Ipm Corp | フレーム消失の間のピッチ遅れ修正方法 |
JPH09321783A (ja) * | 1996-03-29 | 1997-12-12 | Mitsubishi Electric Corp | 音声符号化伝送システム |
JPH1130997A (ja) * | 1997-07-11 | 1999-02-02 | Nec Corp | 音声符号化復号装置 |
JP2001249691A (ja) * | 2000-03-06 | 2001-09-14 | Oki Electric Ind Co Ltd | 音声符号化装置及び音声復号装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59153346A (ja) | 1983-02-21 | 1984-09-01 | Nec Corp | 音声符号化・復号化装置 |
US4901307A (en) | 1986-10-17 | 1990-02-13 | Qualcomm, Inc. | Spread spectrum multiple access communication system using satellite or terrestrial repeaters |
JP2707564B2 (ja) * | 1987-12-14 | 1998-01-28 | 株式会社日立製作所 | 音声符号化方式 |
US5103459B1 (en) | 1990-06-25 | 1999-07-06 | Qualcomm Inc | System and method for generating signal waveforms in a cdma cellular telephone system |
DE69232202T2 (de) | 1991-06-11 | 2002-07-25 | Qualcomm, Inc. | Vocoder mit veraendlicher bitrate |
US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
TW271524B (ja) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5550543A (en) * | 1994-10-14 | 1996-08-27 | Lucent Technologies Inc. | Frame erasure or packet loss compensation method |
JPH08254993A (ja) * | 1995-03-16 | 1996-10-01 | Toshiba Corp | 音声合成装置 |
US5724401A (en) | 1996-01-24 | 1998-03-03 | The Penn State Research Foundation | Large angle solid state position sensitive x-ray detector system |
FR2774827B1 (fr) * | 1998-02-06 | 2000-04-14 | France Telecom | Procede de decodage d'un flux binaire representatif d'un signal audio |
US6456964B2 (en) | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
US6691084B2 (en) | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6640209B1 (en) | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
WO2000063885A1 (en) * | 1999-04-19 | 2000-10-26 | At & T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
ATE420432T1 (de) | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
-
2000
- 2000-04-24 US US09/557,283 patent/US6584438B1/en not_active Expired - Lifetime
-
2001
- 2001-04-18 ES ES01930579T patent/ES2288950T3/es not_active Expired - Lifetime
- 2001-04-18 JP JP2001579292A patent/JP4870313B2/ja not_active Expired - Lifetime
- 2001-04-18 EP EP09163673A patent/EP2099028B1/en not_active Expired - Lifetime
- 2001-04-18 CN CNB018103383A patent/CN1223989C/zh not_active Expired - Lifetime
- 2001-04-18 AT AT09163673T patent/ATE502379T1/de not_active IP Right Cessation
- 2001-04-18 ES ES09163673T patent/ES2360176T3/es not_active Expired - Lifetime
- 2001-04-18 AT AT01930579T patent/ATE368278T1/de not_active IP Right Cessation
- 2001-04-18 KR KR1020027014221A patent/KR100805983B1/ko active IP Right Grant
- 2001-04-18 DE DE60144259T patent/DE60144259D1/de not_active Expired - Lifetime
- 2001-04-18 AU AU2001257102A patent/AU2001257102A1/en not_active Abandoned
- 2001-04-18 EP EP01930579A patent/EP1276832B1/en not_active Expired - Lifetime
- 2001-04-18 EP EP07013769A patent/EP1850326A3/en not_active Ceased
- 2001-04-18 BR BR0110252-4A patent/BR0110252A/pt not_active Application Discontinuation
- 2001-04-18 DE DE60129544T patent/DE60129544T2/de not_active Expired - Lifetime
- 2001-04-18 WO PCT/US2001/012665 patent/WO2001082289A2/en active IP Right Grant
- 2001-07-19 TW TW090109792A patent/TW519615B/zh not_active IP Right Cessation
-
2003
- 2003-10-15 HK HK03107440A patent/HK1055174A1/xx not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08293888A (ja) * | 1995-03-10 | 1996-11-05 | At & T Corp | フレーム消去補正方法 |
JPH09190197A (ja) * | 1995-06-07 | 1997-07-22 | At & T Ipm Corp | フレーム消失の間のピッチ遅れ修正方法 |
JPH09149421A (ja) * | 1995-09-18 | 1997-06-06 | Oki Electric Ind Co Ltd | 画像符号化装置、画像復号化装置及び画像伝送システム |
JPH09321783A (ja) * | 1996-03-29 | 1997-12-12 | Mitsubishi Electric Corp | 音声符号化伝送システム |
JPH1130997A (ja) * | 1997-07-11 | 1999-02-02 | Nec Corp | 音声符号化復号装置 |
JP2001249691A (ja) * | 2000-03-06 | 2001-09-14 | Oki Electric Ind Co Ltd | 音声符号化装置及び音声復号装置 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9270722B2 (en) | 2005-01-31 | 2016-02-23 | Skype | Method for concatenating frames in communication system |
US9047860B2 (en) | 2005-01-31 | 2015-06-02 | Skype | Method for concatenating frames in communication system |
US8918196B2 (en) | 2005-01-31 | 2014-12-23 | Skype | Method for weighted overlap-add |
WO2008007699A1 (en) * | 2006-07-12 | 2008-01-17 | Panasonic Corporation | Audio decoding device and audio encoding device |
JPWO2008007699A1 (ja) * | 2006-07-12 | 2009-12-10 | パナソニック株式会社 | 音声復号装置および音声符号化装置 |
US8812306B2 (en) | 2006-07-12 | 2014-08-19 | Panasonic Intellectual Property Corporation Of America | Speech decoding and encoding apparatus for lost frame concealment using predetermined number of waveform samples peripheral to the lost frame |
US8135047B2 (en) | 2006-07-31 | 2012-03-13 | Qualcomm Incorporated | Systems and methods for including an identifier with a packet associated with a speech signal |
CN104123946A (zh) * | 2006-07-31 | 2014-10-29 | 高通股份有限公司 | 用于在与语音信号相关联的包中包含识别符的系统及方法 |
JP2010501080A (ja) * | 2006-07-31 | 2010-01-14 | クゥアルコム・インコーポレイテッド | 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法 |
US8279889B2 (en) | 2007-01-04 | 2012-10-02 | Qualcomm Incorporated | Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate |
JP2010515936A (ja) * | 2007-01-04 | 2010-05-13 | クゥアルコム・インコーポレイテッド | 第1のビット・レートに関連する第1のパケットを、第2のビット・レートに関連する第2のパケットにディミング(dimming)するシステム及び方法 |
JP2009163276A (ja) * | 2009-04-24 | 2009-07-23 | Panasonic Corp | 音声符号化装置、音声復号化装置、及びこれらの方法 |
JP2012042984A (ja) * | 2011-12-02 | 2012-03-01 | Panasonic Corp | Celp型音声復号化装置およびcelp型音声復号化方法 |
US9916833B2 (en) | 2013-06-21 | 2018-03-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved signal fade out for switched audio coding systems during error concealment |
US10672404B2 (en) | 2013-06-21 | 2020-06-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating an adaptive spectral shape of comfort noise |
US9978376B2 (en) | 2013-06-21 | 2018-05-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing a fading of an MDCT spectrum to white noise prior to FDNS application |
US9978378B2 (en) | 2013-06-21 | 2018-05-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved signal fade out in different domains during error concealment |
US9978377B2 (en) | 2013-06-21 | 2018-05-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating an adaptive spectral shape of comfort noise |
US9997163B2 (en) | 2013-06-21 | 2018-06-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing improved concepts for TCX LTP |
US10607614B2 (en) | 2013-06-21 | 2020-03-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing a fading of an MDCT spectrum to white noise prior to FDNS application |
JP2016532143A (ja) * | 2013-06-21 | 2016-10-13 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | Tcx ltpについての向上した概念を実現する装置及び方法 |
US10679632B2 (en) | 2013-06-21 | 2020-06-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved signal fade out for switched audio coding systems during error concealment |
US10854208B2 (en) | 2013-06-21 | 2020-12-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing improved concepts for TCX LTP |
US10867613B2 (en) | 2013-06-21 | 2020-12-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved signal fade out in different domains during error concealment |
US11462221B2 (en) | 2013-06-21 | 2022-10-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating an adaptive spectral shape of comfort noise |
US11501783B2 (en) | 2013-06-21 | 2022-11-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing a fading of an MDCT spectrum to white noise prior to FDNS application |
US11776551B2 (en) | 2013-06-21 | 2023-10-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved signal fade out in different domains during error concealment |
US11869514B2 (en) | 2013-06-21 | 2024-01-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved signal fade out for switched audio coding systems during error concealment |
US12125491B2 (en) | 2013-06-21 | 2024-10-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing improved concepts for TCX LTP |
Also Published As
Publication number | Publication date |
---|---|
CN1223989C (zh) | 2005-10-19 |
EP2099028A1 (en) | 2009-09-09 |
DE60129544T2 (de) | 2008-04-17 |
BR0110252A (pt) | 2004-06-29 |
DE60144259D1 (de) | 2011-04-28 |
ES2288950T3 (es) | 2008-02-01 |
EP1276832A2 (en) | 2003-01-22 |
TW519615B (en) | 2003-02-01 |
JP4870313B2 (ja) | 2012-02-08 |
ATE368278T1 (de) | 2007-08-15 |
HK1055174A1 (en) | 2003-12-24 |
US6584438B1 (en) | 2003-06-24 |
WO2001082289A2 (en) | 2001-11-01 |
ATE502379T1 (de) | 2011-04-15 |
AU2001257102A1 (en) | 2001-11-07 |
CN1432175A (zh) | 2003-07-23 |
WO2001082289A3 (en) | 2002-01-10 |
KR100805983B1 (ko) | 2008-02-25 |
ES2360176T3 (es) | 2011-06-01 |
DE60129544D1 (de) | 2007-09-06 |
EP1850326A2 (en) | 2007-10-31 |
EP2099028B1 (en) | 2011-03-16 |
EP1276832B1 (en) | 2007-07-25 |
EP1850326A3 (en) | 2007-12-05 |
KR20020093940A (ko) | 2002-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4870313B2 (ja) | 可変レート音声符号器におけるフレーム消去補償方法 | |
JP5037772B2 (ja) | 音声発話を予測的に量子化するための方法および装置 | |
KR100898323B1 (ko) | 음성 코더용 스펙트럼 크기 양자화 방법 | |
KR100752797B1 (ko) | 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치 | |
US6397175B1 (en) | Method and apparatus for subsampling phase spectrum information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080418 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080903 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110426 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110726 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111018 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4870313 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141125 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |