JP5265553B2 - フレーム消去回復のシステム、方法、および装置 - Google Patents

フレーム消去回復のシステム、方法、および装置 Download PDF

Info

Publication number
JP5265553B2
JP5265553B2 JP2009531638A JP2009531638A JP5265553B2 JP 5265553 B2 JP5265553 B2 JP 5265553B2 JP 2009531638 A JP2009531638 A JP 2009531638A JP 2009531638 A JP2009531638 A JP 2009531638A JP 5265553 B2 JP5265553 B2 JP 5265553B2
Authority
JP
Japan
Prior art keywords
frame
excitation signal
format
encoded
gain value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009531638A
Other languages
English (en)
Other versions
JP2010506221A (ja
Inventor
クリシュナン、ベンカテシュ
カンドハダイ、アナンサパドマナブハン・アアサニパライ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2010506221A publication Critical patent/JP2010506221A/ja
Application granted granted Critical
Publication of JP5265553B2 publication Critical patent/JP5265553B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Television Systems (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Electrolytic Production Of Metals (AREA)
  • Manufacture, Treatment Of Glass Fibers (AREA)
  • Detergent Compositions (AREA)
  • Circuits Of Receivers In General (AREA)

Description

関連出願
本願は、2006年10月6日に出願した米国仮出願第60/828414号、弁理士整理番号第061680P1号、名称「SYSTEMS,METHODS,AND APPARATUS FOR FRAME ERASURE RECOVERY」の利益を主張するものである。
本開示は、音声信号の処理に関する。
音声および音楽などのオーディオのデジタル技法による伝送は、特に長距離テレフォニ、Voice over IP(VoIPとも呼ばれ、IPはInternet Protocol(インターネットプロトコル)を表す)などのパケット交換テレフォニ、およびセルラテレフォニなどのデジタルラジオテレフォニで広まってきた。そのような増殖は、再構成された音声の知覚される品質を維持しながら、伝送チャネルを介する音声通信の転送に使用される情報の量を減らすことへの関心を生み出した。例えば、使用可能な無線システム帯域幅を最もよく利用することが望ましい。システム帯域幅を効率的に使用する1つの形が信号圧縮技法を使用することである。音声信号を搬送する無線システムについて、音声圧縮(または「音声符号化」)技法が、一般にこの目的に使用されている。
人間の音声生成のモデルに関係するパラメータを抽出することによって音声を圧縮するように構成されたデバイスは、しばしば、ボコーダ、「オーディオコーダ」、または「音声コーダ」と呼ばれる。オーディオコーダは、一般に、符号器および復号器を含む。符号器は、通常、着信音声信号(オーディオ情報を表すデジタル信号)を「フレーム」と呼ばれる時間のセグメントに分割し、ある関連パラメータを抽出するために各フレームを分析し、パラメータを符号化されたフレームに量子化する。符号化されたフレームは、伝送チャネル(すなわち、有線または無線のネットワーク接続)を介して、復号器を含む受話器に伝送される。復号器は、符号化されたフレームを受け取り、処理し、パラメータを作るためにこれらを逆量子化し、逆量子化されたパラメータを使用して音声フレームを再作成する。
通常の会話では、各話者は、時間の約60%の間は無音である。音声符号器は、通常、音声を含む音声信号のフレーム(「アクティブフレーム」)を無音または背景雑音だけを含む音声信号のフレーム(「インアクティブフレーム」)から区別するように構成される。そのような符号器は、アクティブフレームおよびインアクティブフレームを符号化するのに異なるコーディングモードおよび/またはコーディングレートを使用するように構成され得る。例えば、音声符号器は、通常、インアクティブフレームを符号化するのに、アクティブフレームの符号化より少ないビットを使用するように構成される。音声コーダは、知覚される品質の損失をほとんどまたはまったく伴わずに、より低い平均ビットレートでの音声信号の転送をサポートするために、インアクティブフレームにより低いビットレートを使用することができる。
アクティブフレームを符号化するのに使用されるビットレートの例は、1フレームあたり171ビット、1フレームあたり80ビット、および1フレームあたり40ビットを含む。インアクティブフレームを符号化するのに使用されるビットレートの例は、1フレームあたり16ビットを含む。セルラテレフォニシステム(特に、米国バージニア州アーリントンのTelecommunications Industry Association社によって公表されたInterim Standard(IS)−95または類似する産業標準規格に準拠するシステム)のコンテキストでは、この4つのビットレートを、それぞれ「フルレート」、「ハーフレート」、「1/4レート」、および「1/8レート」とも称する。
セル電話機および衛星通信システムなどの音声コーダを使用する多くの通信システムは、情報を通信するために無線チャネルに依存する。そのような情報を通信する過程で、無線伝送チャネルは、マルチパスフェージングなど、誤りの深刻なソースから損害を受ける可能性がある。伝送での誤りは、「フレーム消去(frame erasure)」とも呼ばれるフレームの回復不能な破壊につながる場合がある。通常のセル電話システムでは、フレーム消去は、1〜3%の割合で発生し、5%に達するかこれを超える場合すらある。
オーディオコーディング配置(例えば、Voice over Internet Protocolすなわち「VoIP」)を使用するパケット交換ネットワークでのパケット消失の問題は、無線コンテキストでのフレーム消去に非常に似ている。すなわち、パケット消失に起因して、オーディオ復号器は、あるフレームの受信に失敗するか、かなりの数のビット誤りを有するフレームを受信する場合がある。どちらの場合でも、オーディオ復号器は、同一の問題すなわち、圧縮音声情報の消失にかかわらず、復号されたオーディオフレームを作る必要を提示される。この説明において、用語「フレーム消去」は、「パケット消失」を含むと見なされる。
フレーム消去は、CRC(巡回冗長検査)関数あるいは例えば1つまたは複数の検査合計および/もしくはパリティビットを使用する他の誤り検出関数などのチェック関数の失敗に従って、復号器で検出することができる。そのような関数は、通常、チャネル復号器によって(例えば、多重通信サブレイヤ(multiplex sublayer)内で)実行され、このチャネル復号器は、畳み込み復号および/またはデインタリービングなどの作業も実行することができる。通常の復号器では、フレーム誤り検出器が、フレーム内の訂正不能な誤りの表示を受け取ったときにフレーム消去フラグをセットする。復号器を、フレーム消去フラグがそれについてセットされたフレームを処理するためにフレーム消去回復モジュールを選択するように構成することができる。
1つの構成による音声復号の方法は、符号化された音声信号内で、継続される有声音セグメントの第2フレームの消去を検出することを含む。この方法は、また、継続される有声音セグメントの第1フレームに基づいて、第2フレームの置換フレームを計算することを含む。この方法では、置換フレームの計算は、第1フレームの対応する利得値より大きい利得値を得ることを含む。
もう1つの構成による復号された音声信号のフレームを入手する方法は、符号化された音声信号の第1の符号化されたフレームおよび第1励起信号からの情報に基づいて、復号された音声信号の第1フレームを計算することを含む。この方法は、また、前記第1の符号化されたフレームに直接に続く前記符号化された音声信号のフレームの消去の表示に応答して、第2励起信号に基づいて、前記第1フレームに直接に続く前記復号された音声信号の第2フレームを計算することを含む。この方法は、また、第3励起信号に基づいて、復号された音声信号の前記第1フレームに先行する第3フレームを計算することを含む。この方法では、第1励起信号は、(A)第3励起信号からの情報に基づく値の第1シーケンスと(B)第1利得係数との積に基づく。この方法では、第2フレームの計算は、第2励起信号が(A)前記第1励起信号からの情報に基づく値の第2シーケンスと(B)第1利得係数より大きい第2利得係数との積に基づくように、しきい値と第1利得係数に基づく値との間の関係に従って第2励起信号を生成することを含む。
もう1つの構成による復号された音声信号のフレームを入手する方法は、第1利得係数と、値の第1シーケンスとの積に基づく第1励起信号を生成することを含む。この方法は、また、第1励起信号および符号化された音声信号の第1の符号化されたフレームからの情報に基づいて、復号された音声信号の第1フレームを計算することを含む。この方法は、また、前記第1の符号化されたフレームに直接に続く前記符号化された音声信号のフレームの消去の表示に応答して、しきい値と第1利得係数に基づく値との間の関係に従って、(A)第1利得係数より大きい第2利得係数と(B)値の第2シーケンスとの積に基づいて第2励起信号を生成することを含む。この方法は、また、第2励起信号に基づいて、復号された音声信号の前記第1フレームに直接に続く第2フレームを計算することを含む。この方法は、また、第3励起信号に基づいて、復号された音声信号の前記第1フレームに先行する第3フレームを計算することを含む。この方法では、第1シーケンスは、第3励起信号からの情報に基づき、第2シーケンスは、第1励起信号からの情報に基づく。
もう1つの構成による復号された音声信号のフレームを入手する装置は、第1、第2、および第3の励起信号を生成するように構成された励起信号ジェネレータを含む。この装置は、また、(A)第1励起信号および符号化された音声信号の第1の符号化されたフレームからの情報に基づいて、復号された音声信号の第1フレームを計算し、(B)第2励起信号に基づいて、復号された音声信号の前記第1フレームに直接に続く第2フレームを計算し、(C)第3励起信号に基づいて、復号された音声信号の前記第1フレームに先行する第3フレームを計算するように構成されたスペクトルシェーパを含む。この装置は、また、(A)しきい値と第1利得係数に基づく値との間の関係を評価するように構成され、(B)前記第1の符号化されたフレームに直接に続く符号化された音声信号のフレームの消去の表示を受け取るように配置された論理モジュールを含む。この装置では、励起信号ジェネレータは、(A)第1利得係数と(B)第3励起信号からの情報に基づく値の第1シーケンスとの積に基づいて第1励起信号を生成するように構成される。この装置では、論理モジュールは、消去の表示に応答し、評価された関係に従って、励起信号ジェネレータに、(A)第1利得係数より大きい第2利得係数と(B)第1励起信号からの情報に基づく値の第2シーケンスとの積に基づいて第2励起信号を生成させるように構成される。
もう1つの構成による復号された音声信号のフレームを入手する装置は、第1利得係数と値の第1シーケンスとの積に基づく第1励起信号を生成するための手段を含む。この装置は、また、第1励起信号および符号化された音声信号の第1の符号化されたフレームからの情報に基づいて復号された音声信号の第1フレームを計算するための手段を含む。この装置は、また、前記第1の符号化されたフレームに直接に続く前記符号化された音声信号のフレームの消去の表示に応答して、しきい値と第1利得係数に基づく値との間の関係に従って、(A)第1利得係数より大きい第2利得係数と(B)値の第2シーケンスとの積に基づいて第2励起信号を生成するための手段を含む。この装置は、また、第2励起信号に基づいて、復号された音声信号の前記第1フレームに直接に続く第2フレームを計算するための手段を含む。この装置は、また、第3励起信号に基づいて、復号された音声信号の前記第1フレームに先行する第3フレームを計算するための手段を含む。この装置では、第1シーケンスは、第3励起信号からの情報に基づき、第2シーケンスは、第1励起信号からの情報に基づく。
もう1つの構成によるコンピュータプログラム製品は、コンピュータ可読媒体を含み、このコンピュータ可読媒体は、少なくとも1つのコンピュータに、第1利得係数と値の第1シーケンスとの積に基づく第1励起信号を生成させるコードを含む。この媒体は、また、少なくとも1つのコンピュータに、第1励起信号および符号化された音声信号の第1の符号化されたフレームからの情報に基づいて、復号された音声信号の第1フレームを計算させるコードを含む。この媒体は、また、少なくとも1つのコンピュータに、前記第1の符号化されたフレームに直接に続く前記符号化された音声信号のフレームの消去の表示に応答して、しきい値と第1利得係数に基づく値との間の関係に従って、(A)第1利得係数より大きい第2利得係数と(B)値の第2のシーケンスとの積に基づく第2励起信号を生成させるコードを含む。この媒体は、また、少なくとも1つのコンピュータに、第2励起信号に基づいて、復号された音声信号の前記第1フレームに直接に続く第2フレームを計算させるコードを含む。この媒体は、また、少なくとも1つのコンピュータに、第3励起信号に基づいて、復号された音声信号の前記第1フレームに先行する第3フレームを計算させるコードを含む。この製品では、第1シーケンスは、第3励起信号からの情報に基づき、第2シーケンスは、第1励起信号からの情報に基づく。
図1は、励起合成フィルタに基づく包括的音声復号器を示すブロック図。 図2は、経時的な音声の有声音セグメントの振幅を表す図。 図3は、固定コードブックおよび適応コードブックを有するCELP復号器を示すブロック図。 図4は、CELPフォーマットで符号化される一連のフレームを復号するプロセスでのデータ依存性を示す図。 図5は、マルチモード可変レート音声復号器の例を示すブロック図。 図6は、CELPフレームが続くNELPフレーム(例えば、無音または無声音の音声フレーム)のシーケンスを復号するプロセスでのデータ依存性を示す図。 図7は、CELPフォーマットで符号化されるフレームに続くフレーム消去を処理するプロセスでのデータ依存性を示す図。 図8は、EVRC Service Option 3に準拠するフレーム消去の方法を示す流れ図。 図9は、継続される有声音セグメントの始めを含むフレームの時間シーケンスを示す図。 図10aは、本開示の構成による方法M110を示す流れ図。 図10bは、本開示の構成による方法M120を示す流れ図。 図10cは、本開示の構成による方法M130を示す流れ図。 図10dは、本開示の構成による方法M140を示す流れ図。 図11は、方法M120の実施態様M180を示す流れ図。 図12は、一構成による音声復号器の例を示すブロック図。 図13Aは、包括的構成による復号された音声信号のフレームを入手する方法M200を示す流れ図。 図13Bは、包括的構成による復号された音声信号のフレームを入手する装置F200を示すブロック図。 図14は、方法M200の実施形態の応用例でのデータ依存性を示す図。 図15Aは、方法M200の実施態様方法M201を示す流れ図。 図15Bは、図15Aの方法M201に対応する装置F201を示すブロック図。 図16は、方法M201の通常の応用例でのいくつかのデータ依存性を示す図。 図17は、方法M201の実施態様の応用例でのデータ依存性を示す図。 図18は、方法M200の実施態様方法M203を示す流れ図。 図19は、図18の方法M203の通常の応用例でのいくつかのデータ依存性を示す図。 図20は、図18の方法M203の応用例のいくつかのデータ依存性を示す図。 図21Aは、包括的構成による復号された音声信号のフレームを入手する装置A100を示すブロック図。 図21Bは、装置A100の通常の応用例を示す図。 図22は、論理モジュール110の実施態様112の動作を説明する論理概略図。 図23は、論理モジュール110の実施態様114の動作を示す流れ図。 図24は、論理モジュール110のもう1つの実施態様116の動作の説明を示す図。 図25は、論理モジュール116の実施態様118の動作の説明を示す図。 図26Aは、装置A100の実施態様A100Aを示すブロック図。 図26Bは、装置A100の実施態様A100Bを示すブロック図。 図26Cは、装置A100の実施態様A100Cを示すブロック図。 図27Aは、励起信号ジェネレータ120の実施態様122を示すブロック図。 図27Bは、励起信号ジェネレータ122の実施態様124を示すブロック図。 図28は、音声パラメータカリキュレータ230の実施態様232を示すブロック図。 図29Aは、消去検出器210、フォーマット検出器220、音声パラメータカリキュレータ230、および装置A100の実施態様を含むシステムの例を示すブロック図。 図29Bは、フォーマット検出器220の実施態様222を含むシステムを示すブロック図。
発明の詳細な説明
本明細書で説明する構成は、連続する有声音セグメントの重要フレーム(significant frame)が消去される場合に改善された性能をもたらすのに使用できるフレーム消去回復のシステム、方法、および装置を含む。代替では、継続される有声音セグメントの重要フレームを、重大フレーム(crucial frame)と表す場合がある。そのような構成を、パケット交換式(例えば、VoIPなどのプロトコルに従って音声伝送を搬送するように配置された有線および/または無線のネットワーク)および/または回線交換式であるネットワーク内での使用に適合できることが特に企図され、本明細書によって開示される。また、そのような構成を、全帯域コーディングシステムおよびスプリットバンドコーディングシステムを含む狭帯域コーディングシステム(例えば、約4または5キロヘルツのオーディオ周波数範囲を符号化するシステム)ならびに広帯域コーディングシステム(例えば、5キロヘルツを超えるオーディオ周波数を符号化するシステム)での使用に適合できることが特に企図され、本明細書によって開示される。
文脈によって特に制限されない限り、用語「生成」は、本明細書で、計算することまたは他の形で作ることなど、その通常の意味のすべてを示すのに使用される。文脈によって特に制限されない限り、用語「計算」は、本明細書で、値のセットから計算すること、評価すること、および/または選択することなど、その通常の意味のすべてを示すのに使用される。文脈によって特に制限されない限り、用語「入手」は、計算すること、導出すること、受信すること(例えば、外部デバイスから)、および/または取り出すこと(例えば、ストレージ要素のアレイから)など、その通常の意味のすべてを示すのに使用される。用語「備える」は、本説明および特許請求の範囲で使用される場合に、他の要素または動作を除外しない。用語「に基づく」(「AはBに基づく」など)は、(i)「少なくとも〜に基づく」(例えば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(ii)「と等しい」(例えば、「AはBと等しい」)というケースを含む、その通常の意味のすべてを意味するのに使用される。
そうではないと示さない限り、特定の特性を有する音声復号器のすべての開示は、類似する特性を有する音声復号の方法を開示することをも特に意図され(逆も同様である)、特定の構成による音声復号器のすべての開示は、類似する構成による音声復号の方法を開示することをも特に意図される(逆も同様である)。
音声符号化において、音声信号は、通常、サンプルのストリームを得るためにデジタル化(または量子化)される。デジタル化プロセスは、例えばパルス符号変調(PCM)、コンパンデッドミュー−ロー(companded mu-law)PCM、およびコンパンデッドAロー(companded A-law)PCMを含む当技術分野で既知の様々な方法のいずれかに従って実行することができる。狭帯域音声符号器は、通常、8kHzのサンプリングレートを使用するが、広帯域音声符号器は、通常、より高いサンプリングレート(例えば、12kHzまたは16kHz)を使用する。
デジタル化された音声信号は、一連のフレームとして処理される。このシリーズは、通常、オーバーラップしないシリーズとして実施されるが、1フレームまたはフレームのセグメント(サブフレームとも呼ばれる)を処理する動作は、その入力内の1つまたは複数の隣接するフレームのセグメントを含むこともできる。音声信号のフレームは、通常、その信号のスペクトルエンベロープがフレームにわたって比較的静止したままになると期待できるのに十分に短い。フレームは、通常、5ミリ秒と35ミリ秒との間の音声信号(または約40サンプルから200サンプルまで)に対応し、10ミリ秒、20ミリ秒、および30ミリ秒が、一般的なフレームサイズである。符号化されたフレームの実際のサイズは、コーディングビットレートに伴ってフレームごとに変化する可能性がある。
20ミリ秒のフレーム長は、7キロヘルツ(kHz)のサンプリングレートで140サンプルに対応し、8kHzのサンプリングレートで160サンプルに対応し、16kHzのサンプリングレートで320サンプルに対応するが、特定の応用例に適切と思われる任意のサンプリングレートを使用することができる。音声符号化に使用できるサンプリングレートのもう1つの例は、12.8kHzであり、さらなる例は、12.8kHzから38.4kHZまでの範囲内の他のレートを含む。
通常、すべてのフレームが同一の長さを有し、均一のフレーム長が本明細書で説明する特定の例で仮定される。しかし、不均一フレーム長を使用できることも特に企図され、本明細書によって開示される。例えば、方法M100およびM200の実施態様を、アクティブフレームおよびインアクティブフレームについてならびに/あるいは有声音フレームおよび無声音フレームについて異なるフレーム長を使用する応用例に使用することもできる。
符号化されたフレームは、通常、音声信号の対応するフレームをそれから再構成できる値を含む。例えば、符号化されたフレームは、周波数スペクトルにまたがるフレーム内のエネルギの分布の記述を含む。そのようなエネルギの分布を、フレームの「周波数エンベロープ」または「スペクトルエンベロープ」とも呼ぶ。符号化されたフレームは、通常、フレームのスペクトルエンベロープを記述する値の順序付きシーケンスを含む。いくつかの場合に、順序付きシーケンスの各値は、対応する周波数でのまたは対応するスペクトル領域にわたる信号の振幅または大きさを示す。そのような記述の1つの例が、フーリエ変換係数の順序付きシーケンスである。
他の場合に、順序付きシーケンスは、コーディングモデルのパラメータの値を含む。そのような順序付きシーケンスの1つの通常の例は、線形予測符号化(LPC)分析の係数の値のセットである。これらの係数は、符号化された音声の共鳴(「フォルマント」とも呼ばれる)を符号化し、フィルタ係数または反射係数として構成する。ほとんどの現代の音声コーダの符号化部分は、各フレームのLPC係数のセットを抽出する分析フィルタを含む。セット内の係数値(通常は1つまたは複数のベクトルとして配置される)の個数を、LPC分析の「オーダー」とも呼ぶ。通信デバイス(セル電話機など)の音声符号器によって実行されるLPC分析の通常のオーダーの例は、4、6、8、10、12、16、20、24、28、および32を含む。
スペクトルエンベロープの記述は、通常、量子化された形で(例えば、対応するルックアップテーブルまたは「コードブック」への1つまたは複数のインデックスとして)符号化されたフレーム内に現れる。したがって、復号器が、線スペクトル対(line spectral pair)(LSP)、線スペクトル周波数(line spectral frequency)(LSF)、イミタンススペクトル対(immittance spectral pair)(ISP)、イミタンススペクトル周波数(immittance spectral frequency)(ISF)、ケプストラム係数(cepstral coefficient)、または対数面積比(log area ratio)の値のセットなど、量子化についてより効率的な形でLPS係数値のセットを受け取ることが通例である。音声復号器は、通常、そのようなセットをLPC係数値の対応するセットに変換するように構成される。
図1に、励起合成フィルタを含む音声復号器の包括的な例を示す。符号化されたフレームを復号するために、逆量子化されたLPC係数値が、復号器の合成フィルタを構成するのに使用される。また、符号化されたフレームは、時間情報または、時間期間内の経時的なエネルギの分布を記述する情報を含むことができる。例えば、時間情報は、音声信号を再作成するために合成フィルタを励起するのに使用される励起信号を記述することができる。
音声信号のアクティブフレームは、有声音(例えば、母音の音を表す)、無声音(例えば、摩擦の音を表す)、または移行(例えば、単語の始めまたは終りを表す)など、複数の異なるタイプのうちの1つとして分類することができる。有声音音声のフレームは、長期の(すなわち、複数のフレーム期間にわたって継続する)周期的構造を有する傾向があり、ピッチに関連し、通常、この長期スペクトル特性の記述を符号化するコーディングモードを使用して、有声音フレーム(または有声音フレームのシーケンス)を符号化することがより効率的である。そのようなコーディングモードの例は、code−excited linear prediction(CELP)、prototype pitch period(PPP)、およびprototype waveform interpolation(PWI)を含む。その一方で、無声音フレームおよびインアクティブフレームは、通常、重要な長期スペクトル特性を欠き、音声符号器を、そのような特性を記述することを試みないコーディングモードを使用してこれらのフレームを符号化するように構成することができる。Noise−excited linear prediction(NELP)が、そのようなコーディングモードの1つの例である。
図2に、経時的な有声音音声セグメント(母音など)の振幅の1つの例を示す。有声音フレームについて、励起信号は、通常、ピッチ周波数で周期的である一連のパルスに似るが、無声音フレームについて、励起信号は、通常、白色ガウス雑音に似ている。CELPコーダは、よりよいコーディング効率を達成するために、有声音音声セグメントの特性を示すより高い周期性を活用することができる。
CELPコーダは、励起信号を符号化するのに1つまたは複数のコードブックを使用するanalysis−by−synthesis音声コーダである。符号器では、1つまたは複数のコードブックエントリが選択される。復号器は、これらのエントリのコードブックインデックスを、利得係数の対応する値(1つまたは複数の利得コードブックへのインデックスとすることもできる)と一緒に受け取る。復号器は、コードブックエントリ(またはそれに基づく信号)を利得係数だけスケーリングして励起信号を入手し、この励起信号は、合成フィルタを励起し、復号された音声信号を入手するのに使用される。
いくつかのCELPシステムは、ピッチ予測フィルタ(pitch-predictive filter)を使用して周期性をモデル化する。他のCELPシステムは、例えば一連のパルス位置として、非周期的コンポーネントをモデル化するのに通常は使用される固定コードブック(「innovative codebook」とも称する)と共に、励起信号の周期関連またはピッチ関連コンポーネントをモデル化するのに適応コードブック(adaptive codebook)(ACB、「ピッチコードブック(pitch codebook)」とも呼ばれる)を使用する。一般に、非常に有声音のあるセグメントが、最も知覚的に関連する。適応CELP方式を使用して符号化される非常に有声音のある音声フレームについて、励起信号のほとんどは、ACBによってモデル化され、このACBは、ピッチラグに対応する支配的周波数成分を有して強く周期的である。
励起信号へのACB寄与は、現在のフレームの残差と1つまたは複数の過去のフレームからの情報との間の相関を表す。ACBは、通常、過去の音声信号のサンプルまたは音声残差信号もしくは励起信号などのその導関数を格納するメモリとして実施される。例えば、ACBは、異なる量だけ遅延された以前の残差のコピーを含むことができる。1つの例で、ACBは、前に合成された音声励起波形の異なるピッチ周期のセットを含む。
適応コーディングされるフレームの1つのパラメータが、ピッチラグ(遅延またはピッチ遅延とも呼ばれる)である。このパラメータは、一般に、フレームの自己相関関数を最大にする音声サンプルの個数として表され、分数成分を含むことができる。人間の音声のピッチ周波数は、一般に、40Hzから500Hzの範囲内であり、これは、約200サンプルから16サンプルまでに対応する。適応CELP復号器の1つの例は、選択されたACBエントリをピッチラグだけ並進させる。この復号器は、変換エントリを補間することもできる(例えば、有限インパルス応答フィルタすなわちFIRフィルタを使用して)。いくつかの場合に、ピッチラグは、ACBインデックスとして働くことができる。適応CELP復号器のもう1つの例は、ピッチラグパラメータの対応する連続するが異なる値に従って適応コードブックのセグメントを平滑化する(または「タイムワープさせる」)ように構成される。
適応コーディングされたフレームのもう1つのパラメータはACB利得(またはピッチ利得)であり、これは、長期周期性の強さを示し、通常はサブフレームごとに評価される。特定のサブフレームの励起信号に対するACB寄与を得るために、復号器は、補間された信号(またはその対応する部分)に対応するACB利得値を乗ずる。図3に、gおよびgがそれぞれコードブック利得およびピッチ利得を表す、ACBを有するCELP復号器の1つの例のブロック図を示す。もう1つの共通するACBパラメータが、デルタ遅延(delta delay)であり、これは、現在のフレームと以前のフレームとの間の遅延の差を示し、消去されたフレームまたは破壊されたフレームのピッチラグを計算するのに使用することができる。
周知の時間領域音声コーダは、L.B.RabinerおよびR.W.Schafer著、Digital Processing of Speech Signals、396〜453ページ(1978年)に記載のCode Excited Linear Predictive(CELP)コーダである。例示的な可変レートCELPコーダが、本発明の譲受人に譲渡され、参照によって全体的に本明細書に組み込まれている米国特許第5414796号に記載されている。CELPの多数の変形形態がある。代表的な例は、AMR Speech Codec(Adaptive Multi−Rate、Third Generation Partnership Project(3GPP)Technical Specification(TS)26.090、ch.4、5、および6、2004年12月)、AMR−WB Speech Codec(AMR−Wideband、国際電気通信連合(ITU)−T勧告G.722.2、ch.5および6、2003年7月)、およびEVRC(Enhanced Variable Rate Codec)、米国電子工業会(EIA)/通信工業会(TIA)Interim Standard IS−127、ch.4およびch.5、1997年1月)を含む。
図4は、一連のCELPフレームを復号するプロセスでのデータ依存性を示す。符号化されたフレームBは適応利得係数Bを提供し、適応コードブックは前の励起信号Aからの情報に基づいてシーケンスAを提供する。復号プロセスは適応利得係数BおよびシーケンスAに基づいて励起信号Bを生成し、励起信号Bは、復号されたフレームBを作るために、符号化されたフレームBからのスペクトル情報に従ってスペクトル的に成形される。また、復号プロセスは励起信号Bに基づいて適応コードブックを更新する。次の符号化されたフレームCは適応利得係数Cを提供し、適応コードブックは励起信号Bに基づいてシーケンスBを提供する。復号プロセスは、適応利得係数CおよびシーケンスBに基づいて励起信号Cを生成し、励起信号Cは、復号されたフレームCを作るために、符号化されたフレームCからのスペクトル情報に従ってスペクトル的に成形される。復号プロセスは、また、異なるコーディングモード(例えば、NELP)で符号化されたフレームに出会うまで、励起信号Cに基づいて適応コードブックを更新し、以下同様である。
可変レートコーディング方式を使用することが(例えば、ネットワーク需要と容量とのバランスをとるために)望ましい場合がある。フレームが例えば周期性または有声化に基づく分類に従って異なるモードを使用して符号化される、マルチモードコーディング方式を使用することが望ましい場合もある。例えば、音声コーダがアクティブフレームおよびインアクティブフレームについて異なるコーディングモードおよび/またはビットレートを使用することが望ましい場合がある。音声コーダが異なるタイプのアクティブフレームについてビットレートおよびコーディングモード(「コーディング方式」とも呼ばれる)の異なる組合せを使用することが望ましい場合もある。そのような音声コーダの1つの例は、有声音音声を含むフレームおよび過渡フレームにフルレートCELP方式を、無声音音声を含むフレームにハーフレートNELP方式を、インアクティブフレームに1/8レートNELP方式を使用する。そのような音声コーダの他の例は、フルレートおよびハーフレートのCELP方式ならびに/またはフルレートおよび1/4レートのPPP方式など、1つまたは複数のコーディング方式について複数のコーディングレートをサポートする。
図5は、パケットおよび対応するパケットタイプインジケータを受け取る(例えば多重通信サブレイヤから)マルチモード可変レート復号器の例のブロック図を示す。この例では、フレーム誤り検出器は、パケットタイプインジケータに従って対応するレート(または消去回復)を選択し、デパケッタイザは、パケットをディスアセンブルし、対応するモードを選択する。代替案では、正しいコーディング方式を選択するようにフレーム消去検出器が構成される。この例での使用可能なモードは、フルレートおよびハーフレートのCELP、フルレートおよび1/4レートのPPP(prototype pitch period、強い有声音を有するフレームに使用される)、NELP(無声音フレームに使用される)、および無音を含む。復号器は、通常、量子化雑音を減らす(例えば、フォルマント周波数を強調することおよび/またはスペクトルの谷を減衰させることによって)ように構成された後フィルタ(postfilter)を含み、また、適応利得制御を含むこともできる。
図6は、CELPフレームが続くNELPフレームを復号するプロセスでのデータ依存性を示す。符号化されたNELPフレームNを復号するために、復号プロセスは励起信号Nとして雑音信号を生成し、この励起信号Nは、復号されたフレームNを作るために符号化されたフレームNからのスペクトル情報に従ってスペクトル的に成形される。この例では、復号プロセスは励起信号Nに基づいて適応コードブックをも更新する。符号化されたCELPフレームCは適応利得係数Cを提供し、適応コードブックは励起信号Nに基づいてシーケンスNを提供する。NELPフレームNの励起信号とCELPフレームCの励起信号との間の相関は非常に小さくなる可能性が高く、シーケンスNとフレームCの励起信号との間の相関も非常に小さくなる可能性が高い。その結果、適応利得係数Cは0に近い値を有する可能性が高い。復号プロセスは、名目上は適応利得係数CおよびシーケンスNに基づくが、符号化されたフレームCからの固定コードブック情報により大きく基づく可能性が高い励起信号Cを生成し、励起信号Cは、復号されたフレームCを作るために、符号化されたフレームCからのスペクトル情報に従ってスペクトル的に成形される。復号プロセスは、また、励起信号Cに基づいて適応コードブックを更新する。
いくつかのCELPコーダではLPC係数はフレームごとに更新されるが、ピッチラグおよび/またはACB利得などの励起パラメータはサブフレームごとに更新される。例えば、AMR−WBではピッチラグおよびACB利得などのCELP励起パラメータが4つのサブフレームのそれぞれについて1回更新される。EVRCのCELPモードでは、160サンプルフレームの3つのサブフレーム(それぞれ長さ53サンプル、53サンプル、および54サンプル)のそれぞれが、対応するACB利得値およびFCB利得値ならびに対応するFCBインデックスを有する。単一のコーデック内の異なるモードが、フレームを別個に処理することもできる。EVRCコーデックでは、例えば、CELPモードは3つのサブフレームを有するフレームに従って励起信号を処理するが、NELPモードは4つのサブフレームを有するフレームに従って励起信号を処理する。2つのサブフレームを有するフレームに従って励起信号を処理するモードも存在する。
可変レート音声復号器を、符号化されたフレームのビットレートをフレームエネルギなどの1つまたは複数のパラメータから判定するように構成することができる。いくつかの応用例で、コーディングシステムは、符号化されたフレームのビットレートがコーディングモードをも示すように、特定のビットレートについて1つのコーディングモードだけを使用するように構成される。他の場合に、符号化されたフレームが、そのフレームがそれに従って符号化されたコーディングモードを識別する1つまたは複数のビットのセットなどの情報を含むことができる。そのようなビットのセットを、「コーディングインデックス」とも呼ぶ。いくつかの場合に、コーディングインデックスは、コーディングモードを明示的に示すことができる。他の場合に、コーディングインデックスは、例えば別のコーディングモードについて無効になるはずの値を示すことによって、コーディングモードを暗黙のうちに示すことができる。この説明および添付の特許請求の範囲では、用語「フォーマット」または「フレームフォーマット」は、コーディングモードをそこから判定できる符号化されたフレームの1つまたは複数の態様を示すのに使用され、この態様は、上で説明したように、ビットレートおよび/またはコーディングインデックスを含むことができる。
図7は、CELPフレームに続くフレーム消去を処理するプロセスでのデータ依存性を示す。図4と同様に、符号化されたフレームBは適応利得係数Bを提供し、適応コードブックは前の励起信号Aからの情報に基づいてシーケンスAを提供する。復号プロセスは適応利得係数BおよびシーケンスAに基づいて励起信号Bを生成し、この励起信号Bは復号されたフレームBを作るために、符号化されたフレームBからのスペクトル情報に従ってスペクトル的に成形される。また、復号プロセスは、励起信号Bに基づいて適応コードブックを更新する。次の符号化されたフレームが消去されていることの表示に応答して、復号プロセスは前のコーディングモード(すなわち、CELP)での動作を継続し、適応コードブックが励起信号Bに基づいてシーケンスBを提供するようにする。この場合に、復号プロセスは適応利得係数BおよびシーケンスBに基づいて励起信号Xを生成し、励起信号Xは、復号されたフレームXを作るために、符号化されたフレームBからのスペクトル情報に従ってスペクトル的に成形される。
図8は、3GPP2標準規格C.S0014−A v1.0(EVRC Service Option 3)、ch.5、2004年4月に準拠するフレーム消去回復の方法の流れ図を示す。米国特許出願公開第2002/0123887号(Unno)に、ITU−T勧告G.729による類似するプロセスが記載されている。そのような方法は、例えば、図5に示されたフレーム誤り回復モジュールによって実行することができる。この方法は、現在のフレームが使用不能であること(例えば、現在のフレームのフレーム消去フラグ[FER(m)]の値がTRUEであること)の検出から開始される。タスクT110は、前のフレームも使用不能であるかどうかを判定する。この実施態様では、タスクT110は、前のフレームのフレーム消去フラグ[FER(m−1)]の値もTRUEであるかどうかを判定する。
前のフレームが消去されなかった場合に、タスクT120は、現在のフレームの平均適応コードブック利得[gpavg(m)]の値に、前のフレームの平均適応コードブック利得[gpavg(m−1)]の値をセットする。そうでない場合(すなわち、前のフレームも消去された場合)に、タスクT130は、現在のフレームの平均ACB利得[gpavg(m)]の値に、前のフレームの平均ACB利得[gpavg(m−1)]の減衰されたバージョンをセットする。この例では、タスクT130は、平均ACB利得にgpavg(m−1)の値の0.75倍をセットする。次に、タスクT140は、現在のフレームのサブフレームのACB利得[g(m.i)、ただしi=0,1,2]の値にgpavg(m)の値をセットする。通常、FCB利得係数には、消去されたフレームについて0がセットされる。3GPP2標準規格C.S0014−C v1.0のセクション5.2.3.5に、EVRC Service Option 68に関するこの方法の変形形態が記載され、この場合に、現在のフレームのサブフレームのACB利得[g(m.i)、ただしi=0,1,2]の値には、前のフレームが消去されたか無音またはNELPフレームとして処理された場合に0がセットされる。
フレーム消去に続くフレームは、メモリレスシステムまたはメモリレスコーディングモードでのみ誤りなしで復号することができる。1つまたは複数の過去のフレームへの相関を活用するモードについて、フレーム消去は、誤りを後続フレームに伝搬させる可能性がある。例えば、適応復号器の状態変数が、フレーム消去から回復するのにいくらかの時間を必要とする場合がある。CELPコーダについて、適応コードブックは強いフレーム間依存性を導入し、通常、そのような誤り伝搬の主な原因である。その結果、タスクT120のように以前の平均より高くはないACB利得を使用すること、あるいは、タスクT130のようにACB利得を減衰させることさえも、通常である。しかし、ある種の場合に、そのような実践が後続フレームの再作成に悪影響する場合がある。
図9は、継続される有声音セグメントが続く非有声音セグメントを含むフレームのシーケンスの例を示す。そのような継続される有声音セグメントは、「crazy」または「feel」などの単語で発生し得る。この図に示されているように、継続される有声音セグメントの最初のフレームは、過去への少ない依存を有する。具体的に言うと、そのフレームが適応コードブックを使用して符号化される場合に、そのフレームの適応コードブック利得値は小さくなる。継続される有声音セグメント内のフレームの残りについて、ACB利得値は、隣接するフレームの間の強い相関の結果として、通常、大きい。
そのような状況で、継続される有声音セグメントの2番目のフレームが消去される場合に、問題が生じる場合がある。このフレームは、前のフレームへの強い依存を有するので、その適応コードブック利得値は大きくなければならず、周期的成分を強化する。しかし、フレーム消去回復は、通常、先行するフレームから消去されたフレームを再構成するので、回復されるフレームは小さい適応コードブック利得値を有し、前の有声音フレームからの寄与が不適切に小さくなる。この誤りが、次の複数のフレームを通って伝搬される場合がある。そのような理由から、継続される有声音セグメントの2番目のフレームを重要フレームとも呼ぶ。その代わりに、継続される有声音セグメントの2番目のフレームを重大フレームと呼ぶ場合もある。
図10a、10b、10c、および10dに、本開示のそれぞれの構成による方法M110、M120、M130、およびM140の流れ図を示す。これらの方法の最初のタスクは、(タスクT11、T12、およびT13)フレーム消去に先行する2つのフレームでのモードの1つまたは複数の特定のシーケンスを検出し、あるいは(タスクT14)継続される有声音セグメントの重要フレームの消去を検出する。タスクT11、T12、およびT13では、1つまたは複数の特定のシーケンスは、通常、これらのフレームがそれに従って符号化されるモードを参照して判定される。
方法M110では、タスクT11は、シーケンス(非有声音フレーム、有声音フレーム、フレーム消去)を検出する。「非有声音フレーム」というカテゴリは、無音フレーム(すなわち、背景雑音)ならびに摩擦音などの無声音フレームを含むことができる。例えば、カテゴリ「無声音フレーム」を、NELPモードまたは無音モード(通常はNELPモードでもある)のいずれかで符号化されるフレームを含むように実施することができる。図10bに示されているように、「有声音フレーム」というカテゴリを、タスクT12で、CELPモードを使用して符号化されるフレームに制限することができる(例えば、1つまたは複数のPPPモードをも有する復号器で)。このカテゴリを、さらに、適応コードブックを有するCELPモードを使用して符号化されるフレームに制限することもできる(例えば、固定コードブックだけを有するCELPモードをもサポートする復号器で)。
方法M130のタスクT13は、フレーム内で使用される励起信号に関してターゲットシーケンスの特性を表し、第1フレームは、非周期的励起(例えば、NELPコーディングまたは無音コーディングで使用されるランダム励起)を有し、第2フレームは、適応的で周期的な励起(例えば、適応コードブックを有するCELPモードで使用される)を有する。もう1つの例で、タスクT13は検出されるシーケンスが励起信号を有しない第1フレームをも含むように実施される。方法M140のタスクT14は継続される有声音セグメントの重要フレームの消去を検出するが、シーケンス(NELPフレームまたは無音フレーム、CELPフレーム)に直接に続くフレーム消去を検出するように実施することができる。
タスクT20は、消去の前のフレームに少なくとも部分的に基づいて利得値を入手する。例えば、入手される利得値は、消去されたフレームについて予測される(例えば、フレーム消去回復モジュールによって)利得値とすることができる。特定の例で、利得値は、フレーム消去回復モジュールによって消去されたフレームについて予測される励起利得値(ACB利得値など)である。図8のタスクT110からT140までに、複数のACB値が消去に先行するフレームに基づいて予測される1つの例を示す。
示されたシーケンス(または複数の示されたシーケンスのうちの1つ)が検出される場合に、タスクT30は入手された利得値をしきい値と比較する。入手された利得値がしきい値未満である(代替案ではしきい値を超えない)場合に、タスクT40は入手された利得値を増やす。例えば、タスクT40を入手された利得値に正の値を加算するように、あるいは入手された利得値に1より大きい係数を乗じるように構成することができる。代替案では、タスクT40を入手された利得値を1つまたは複数のより大きい値に置換するように構成することができる。
図11に、方法M120の構成M180の流れ図を示す。タスクT110、T120、T130、およびT140は、上で説明したとおりである。gpavg(m)の値がセットされた(タスクT120またはT130)後に、タスクN210、N220、およびN230が、現在のフレームおよび最近のヒストリに関するある種の条件をテストする。タスクN210は、前のフレームがCELPフレームとして符号化されたかどうかを判定する。タスクN220は、前のフレームの前のフレームが非有声音フレームとして(例えばNELPまたは無音として)符号化されたかどうかを判定する。タスクN230は、gpavg(m)の値がしきい値Tmaxより小さいかどうかを判定する。タスクN210、N220、およびN230のいずれかの結果が否定である場合には、タスクT140が、上で説明したように実行される。そうでない場合には、タスクN240が、新しい利得プロファイルを現在のフレームに割り当てる。
図11に示された特定の例では、タスクN240は、値T1、T2、およびT3、それぞれi=0,1,2のg(m.i)の値割り当てる。これらの値は、T1≧T2≧T3になるように配置することができ、これは、一定または減少のいずれかである利得プロファイルをもたらし、T1はTmaxに近い(または等しい)。
タスクN240の他の実施態様を、g(m.i)の1つまたは複数の値にそれぞれの利得係数(少なくとも1つは1より大きい)または共通の利得係数を乗じるか、g(m.i)の1つまたは複数の値に正のオフセットを加算するように構成することができる。その場合に、g(m.i)の各値に上限(例えば、Tmax)を課すことが望ましい場合がある。タスクN210からN240までを、フレーム消去回復モジュール内のハードウェア、ファームウェア、および/またはソフトウェアルーチンとして実施することができる。
いくつかの技法で、消去されたフレームは、1つまたは複数の以前のフレーム中およびおそらくは1つまたは複数の続くフレーム中に受け取られる情報から外挿される。いくつかの構成で、以前のフレームと将来のフレームとの両方の音声パラメータが、消去されたフレームの再構成に使用される。この場合に、タスクT20を、消去の前のフレームと消去の後のフレームとの両方に基づいて、入手される利得値を計算するように構成することができる。それに加えて、またはその代わりに、タスクT40の実施態様(例えば、タスクN240)は、利得プロファイルを選択するために将来のフレームからの情報を使用することができる(例えば、利得値の補間を介して)。例えば、タスクT40のそのような実施態様は、減少する利得プロファイルの代わりに一定のまたは増加する利得プロファイルを、あるいは一定の利得プロファイルの代わりに増加する利得プロファイルを選択することができる。この種の構成は、将来のフレームがそのような使用に使用可能であるかどうかを示すために、ジッタバッファ(jitter buffer)を使用することができる。
図12は、一構成によるフレーム消去回復モジュール100を含む音声復号器のブロック図を示す。そのようなモジュール100が、本明細書に記載の方法M110、M120、M130、またはM180を実行するように構成される。
図13Aに、タスクT210、T220、T230、T240、T245、およびT250を含む、包括的構成による復号された音声信号のフレームを入手する方法M200の流れ図を示す。タスクT210は、第1励起信号を生成する。第1励起信号に基づいて、タスクT220は、復号された音声信号の第1フレームを計算する。タスクT230は、第2励起信号を生成する。第2励起信号に基づいて、タスクT240は、復号された音声信号の第1フレームに直接に続く第2フレームを計算する。タスクT245は、第3励起信号を生成する。特定の応用例に応じて、タスクT245を、生成された雑音信号および/または適応コードブックからの情報に基づいて(例えば、1つまたは複数の以前の励起信号からの情報に基づいて)第3励起信号を生成するように構成することができる。第3励起信号に基づいて、タスクT250は、復号された音声信号の第1フレームに直接に先行する第3フレームを計算する。図14に、方法M200の通常の応用例でのデータ依存性の一部を示す。
タスクT210は、符号化された音声信号の第1の符号化されたフレームが第1フォーマットを有することの表示に応答して実行される。第1フォーマットは、そのフレームが過去の励起情報の記憶に基づく励起信号を使用して(例えば、CELPコーディングモードを使用して)復号されなければならないことを示す。第1の符号化されたフレームのビットレートで1つのコーディングモードのみを使用するコーディングシステムについて、ビットレートの判定をコーディングモードの判定に充分とすることができ、ビットレートの表示がフレームフォーマットをも示すように働くことができる。
第1の符号化されたフレームのビットレートで複数のコーディングモードを使用するコーディングシステムについて、符号化されたフレームは、コーディングモードを識別する1つまたは複数のビットのセットなど、コーディングインデックスを含むことができる。この場合に、フォーマット表示は、コーディングインデックスの判定に基づくものとすることができる。いくつかの場合に、コーディングインデックスはコーディングモードを明示的に示すことができる。他の場合に、コーディングインデックスは、例えば別のコーディングモードについて無効になるはずの値を示すことによって、コーディングモードを暗黙のうちに示すことができる。
フォーマット表示に応答して、タスクT210は値の第1シーケンスに基づいて第1励起信号を生成する。値の第1シーケンスは、第3励起信号のセグメントなど、第3励起信号からの情報に基づく。第1シーケンスと第3励起信号との間のこの関係は、図13Aでは点線によって示される。通常の例では、第1シーケンスは、第3励起信号の最後のサブフレームに基づく。タスクT210は、適応コードブックから第1シーケンスを取り出すことを含むことができる。
図13Bに、包括的構成による復号された音声信号のフレームを入手する装置F200のブロック図を示す。装置F200は、図13Aの方法M200の様々なタスクを実行する手段を含む。手段F210は第1励起信号を生成する。第1励起信号に基づいて、手段F220は復号された音声信号の第1フレームを計算する。手段F230は第2励起信号を生成する。第2励起信号に基づいて、手段F240は復号された音声信号の第1フレームに直接に続く第2フレームを計算する。手段F245は第3励起信号を生成する。特定の応用例に応じて、手段F245を、生成された雑音信号および/または適応コードブックからの情報に基づいて(例えば、1つまたは複数の以前の励起信号からの情報に基づいて)第3励起信号を生成するように構成することができる。第3励起信号に基づいて、手段F250は復号された音声信号の第1フレームに直接に先行する第3フレームを計算する。
図14に、タスクT210が第1利得係数および第1シーケンスに基づいて第1励起信号を生成する例を示す。その場合に、タスクT210を、第1利得係数と第1シーケンスとの積に基づいて第1励起信号を生成するように構成することができる。第1利得係数は、適応利得コードブックインデックスなど、第1の符号化されたフレームからの情報に基づくものとすることができる。タスクT210を、第1励起信号に対する固定コードブック寄与を指定する情報など(例えば、1つまたは複数のコードブックインデックスおよび対応する利得係数値または利得コードブックインデックス)、第1の符号化されたフレームからの他の情報に基づいて第1励起信号を生成するように構成することができる。
第1励起信号および第1の符号化されたフレームからの情報に基づいて、タスクT220は、復号された音声信号の第1フレームを計算する。通常、第1の符号化されたフレームからの情報は、スペクトルパラメータの値のセット(例えば、1つまたは複数のLSF係数ベクトルまたはLPC係数ベクトル)を含み、タスクT220は、スペクトルパラメータ値に従って第1励起信号のスペクトルを成形するように構成される。タスクT220は、第1励起信号、第1の符号化されたフレームからの情報、および/または計算された第1フレームに対して1つまたは複数の他の処理動作(例えば、フィルタリング、平滑化、補間)を実行することをも含むことができる。
タスク230は、符号化された音声信号内の第1の符号化されたフレームに直接に続く符号化されたフレームの消去の表示に応答して実行される。消去の表示は、次の条件すなわち、(1)フレームが回復されるためには多すぎるビット誤りを含む、(2)フレームについて示されたビットレートが無効であるかサポートされない、(3)フレームのすべてのビットが0である、(4)フレームについて示されたビットレートが1/8レート(eighth-rate)であり、フレームのすべてのビットが1である、(5)フレームが空白であり、最後の有効なビットレートが1/8ではなかった、のうちの1つまたは複数に基づくものとすることができる。
タスクT230は、また、しきい値と第1利得値(「ベースライン利得係数値」とも呼ばれる)との間の関係に従って実行される。例えば、タスクT230を、ベースライン利得係数値がしきい値未満である(代替案ではしきい値を超えない)場合に実行されるように構成することができる。ベースライン利得係数値は、特に第1の符号化されたフレームが1つの適応コードブック利得係数だけを含む応用例について、単純に第1利得係数の値とすることができる。第1の符号化されたフレームが複数の適応コードブック利得係数(例えば、サブフレームごとの異なる係数)を含む応用例について、ベースライン利得係数値を、他の適応コードブック利得係数のうちの1つまたは複数にも基づくものとすることができる。その場合に、例えば、ベースライン利得係数値を、図11を参照して述べた値gpavg(m)と同様に、第1の符号化されたフレームの適応コードブック利得係数の平均値とすることができる。
タスクT230は、第1の符号化されたフレームが第1フォーマットを有することおよび第1の符号化されたフレームに先行する符号化されたフレーム(「先行するフレーム」)が第1フォーマットと異なる第2フォーマットを有することの表示に応答して実行されるものとすることもできる。第2フォーマットは、そのフレームが、雑音信号に基づく励起信号を使用して(例えば、NELPコーディングモードを使用して)復号されなければならないことを示す。先行するフレームのビットレートで1つのコーディングモードだけを使用するコーディングシステムについて、ビットレートの判定をコーディングモードの判定に充分とすることができ、ビットレートの表示がフレームフォーマットも示すように働くことができる。代替案では、先行するフレームがコーディングモードを示すコーディングインデックスを含むことができ、フォーマット表示をコーディングインデックスの判定に基づくものとすることができる。
タスクT230は、第1利得係数より大きい第2利得係数に基づいて第2励起信号を生成する。第2利得係数はベースライン利得係数値より大きいものとすることもできる。例えば、第2利得係数を、しきい値と等しいか、しきい値を超えるものとすることもできる。タスクT230が、一連のサブフレーム励起信号として第2励起信号を生成するように構成される場合に、第2利得係数の異なる値をサブフレーム励起信号ごとに使用することができ、少なくとも1つの値はベースライン利得係数値より大きい。その場合に、第2利得係数の異なる値がフレーム期間にわたって増えるか減るように配置されることが望ましい。
タスクT230は、通常、第2利得係数と、値の第2シーケンスとの積に基づいて第2励起信号を生成するように構成される。図14に示されているように、第2シーケンスは、第1励起信号のセグメントのような第1励起信号からの情報に基づく。通常の例では、第2シーケンスは第1励起信号の最後のサブフレームに基づく。したがって、タスクT210を、第1励起信号からの情報に基づいて適応コードブックを更新するように構成することができる。relaxation CELP(RCELP)コーディングモードをサポートするコーディングシステムへの方法M200の適用について、タスクT210のそのような実施態様を、ピッチラグパラメータ(pitch lag parameter)の対応する値に従ってセグメントをタイムワープ(time-warp)させるように構成することができる。そのようなワーピング動作の例が、上で引用した3GPP2文書C.S0014−C v1.0のセクション5.2.2(セクション4.11.5への参照を伴う)に記載されている。タスクT230のさらなる実施態様は、上で説明した方法M110、M120、M130、M140、およびM180のうちの1つまたは複数を含むことができる。
第2励起信号に基づいて、タスクT240は、復号された音声信号の第1フレームに直接に続く第2フレームを計算する。図14に示されているように、タスクT240を、上で説明したスペクトルパラメータ値のセットなど、第1の符号化されたフレームからの情報に基づいて第2フレームを計算するように構成することもできる。例えば、タスクT240を、スペクトルパラメータ値のセットに従って第2励起信号のスペクトルを成形するように構成することができる。
代替案では、タスクT240を、スペクトルパラメータ値のセットに基づくスペクトルパラメータ値の第2セットに従って第2励起信号のスペクトルを成形するように構成することができる。例えば、タスクT240を、第1の符号化されたフレームからのスペクトルパラメータ値のセットとスペクトルパラメータ値の初期セットとの平均値としてスペクトルパラメータ値の第2セットを計算するように構成することができる。加重平均としてのそのような計算の例が、上で引用した3GPP2文書C.S0014−C v1.0のセクション5.2.1に記載されている。タスクT240は、第2励起信号、第1の符号化されたフレームからの情報、および計算された第2フレームのうちの1つまたは複数に対して1つまたは複数の他の処理動作(例えば、フィルタリング、平滑化、補間)を実行することをも含むことができる。
第3励起信号に基づいて、タスクT250は、復号された音声信号内で第1フレームに先行する第3フレームを計算する。タスクT250は、第1シーケンスを格納することによって適応コードブックを更新することをも含むことができ、ここで、第1シーケンスは、少なくとも第3励起信号のセグメントに基づく。relaxation CELP(RCELP)コーディングモードをサポートするコーディングシステムへの方法M200の適用について、タスクT250を、ピッチラグパラメータの対応する値に従ってセグメントをタイムワープさせるように構成することができる。そのようなワーピング動作の例が、上で引用した3GPP2文書C.S0014−C v1.0のセクション5.2.2(セクション4.11.5への参照を伴う)に記載されている。
符号化されたフレームのパラメータのうちの少なくともいくつかを、対応する復号されたフレームの一態様を一連のサブフレームとして記述するように配置することができる。例えば、CELPコーディングモードに従ってフォーマットされた符号化されたフレームが、そのフレームのスペクトルパラメータ値のセットおよびサブフレームのそれぞれの時間パラメータの別々のセット(例えば、コードブックインデックスおよび利得係数値)を含むことが一般的である。対応する復号器を、復号されたフレームをサブフレームによって増分式に計算するように構成することができる。その場合に、タスクT210を、一連のサブフレーム励起信号として第1励起信号を生成するように構成することができ、サブフレーム励起信号のそれぞれを、異なる利得係数および/またはシーケンスに基づくものとすることができる。タスクT210を、サブフレーム励起信号のそれぞれからの情報を用いて適応コードブックを直列に更新するように構成することもできる。同様に、タスクT220を、第1励起信号の異なるサブフレームに基づいて第1の復号されたフレームの各サブフレームを計算するように構成することができる。タスクT220を、フレームの間でサブフレームにまたがってスペクトルパラメータのセットを補間するか他の形で平滑化するように構成することもできる。
図15Aに、復号器を、適応コードブックを更新するために雑音信号に基づく励起信号(例えば、NELPフォーマットの表示に応答して生成された励起信号)からの情報を使用するように構成できることを示す。具体的には、図15Aは、タスクT260およびT270を含む方法M200(上で述べた、図13Aからの)の実施態様M201の流れ図を示す。タスクT260は、雑音信号(例えば、白色ガウス雑音を近似する擬似乱数信号)を生成し、タスクT270は、生成された雑音信号に基づいて第3励起信号を生成する。やはり、第1シーケンスと第3励起信号との間の関係は、図15Aでは点線によって示される。タスクT260が、対応する符号化されたフレームからの他の情報(例えば、スペクトル情報)に基づくシード値を使用して雑音信号を生成することが望ましい場合がある。というのは、そのような技法を使用して、符号器で使用されたものと同一の雑音信号の生成をサポートできるからである。方法M201は、また、第3励起信号に基づいて第3フレームを計算する、タスクT250(上で論じた、図13Aからの)の実施態様T252を含む。タスクT252は、また、第1の符号化されたフレームに直接に先行し、第2フォーマットを有する符号化されたフレーム(「先行するフレーム」)からの情報に基づいて第3フレームを計算するように構成される。その場合に、タスクT230は、(A)先行するフレームが第2フォーマットを有し、(B)第1の符号化されたフレームが第1フォーマットを有することの表示に基づくものとされる。
図15Bに、図15Aに関して上で述べた方法M201に対応する装置F201のブロック図を示す。装置F201は、方法M201の様々なタスクを実行する手段を含む。様々な要素を、本明細書で開示されるタスクを実行する構造のいずれか(例えば、命令の1つまたは複数のセット、論理要素の1つまたは複数のアレイなど)を含む、そのようなタスクを実行することのできる任意の構造に従って実施することができる。図15Bは、復号器を、適応コードブックを更新するために雑音信号に基づく励起信号(例えば、NELPフォーマットの表示に応答して生成された励起信号)からの情報を使用するように構成できることを示す。図15Bの装置F201は、手段F260、F270、およびF252を追加された、図13Bの装置F200に類似する。手段F260は、雑音信号(例えば、白色ガウス雑音を近似する擬似乱数信号)を生成し、手段F270は、生成された雑音信号に基づいて第3励起信号を生成する。やはり、第1シーケンスと第3励起信号との間の関係は、図示の点線によって示される。手段F260が、対応する符号化されたフレームからの他の情報(例えば、スペクトル情報)に基づくシード値を使用して雑音信号を生成することが望ましい。というのは、そのような技法を使用して、符号器で使用されたものと同一の雑音信号の生成をサポートできるからである。装置F201は、手段F250(上で述べた、図13Aからの)に対応する手段F252をも含む。手段F252は、第3励起信号に基づいて第3フレームを計算する。手段F252を、第1の符号化されたフレームに直接に先行し、第2フォーマットを有する符号化されたフレーム(「先行するフレーム」)からの情報に基づいて第3フレームを計算するように構成することもできる。その場合に、手段F230を、(A)先行するフレームが第2フォーマットを有し、(B)第1の符号化されたフレームが第1フォーマットを有することの表示に基づくものとすることができる。
図16に、方法M201の通常の応用例でのいくつかのデータ依存性を示す。この応用例では、第1の符号化されたフレームに直接に先行する符号化されたフレーム(この図では「第2の符号化されたフレーム」として示される)が、第2フォーマット(例えば、NELPフォーマット)を有する。図16に示されているように、タスクT252は、第2の符号化されたフレームからの情報に基づいて第3フレームを計算するように構成される。例えば、タスクT252を、第2の符号化されたフレームからの情報に基づくスペクトルパラメータ値のセットに従って第3励起信号のスペクトルを成形するように構成することができる。タスクT252は、第3励起信号、第2の符号化されたフレームからの情報、および計算された第3フレームのうちの1つまた複数に対して1つまた複数の他の処理動作(例えば、フィルタリング、平滑化、補間)を実行することをも含むことができる。タスクT252を、第3励起信号からの情報(例えば、第3励起信号のセグメント)に基づいて適応コードブックを更新するように構成することもできる。
音声信号は、通常、その間に話者が無音である期間を含む。符号器が、そのような期間中にインアクティブフレームのすべてより少ないフレームについて符号化されたフレームを送ることが望ましい。そのような動作を、discontinuous transmission(DTX)とも呼ぶ。1つの例で、音声符号器は、32個の連続するインアクティブフレームの列ごとに1つの符号化されたインアクティブフレーム(「silence descriptor」、「silence description」、またはSIDとも呼ばれる)を送ることによってDTXを実行する。他の例では、音声符号器は、異なる個数の連続するインアクティブフレーム(例えば、8個または16個)の列ごとに1つのSIDを送ることによって、および/またはフレームエネルギの変化もしくはスペクトルチルトなどのある他のイベントの際にSIDを送ることによって、DTXを実行する。対応する復号器は、SID内の情報(通常、スペクトルパラメータ値および利得プロファイル)を使用して、符号化されたフレームが受け取られない後続フレーム期間のインアクティブフレームを合成する。
DTXをもサポートするコーディングシステム内で方法M200を使用することが望ましい。図17に、第2の符号化されたフレームがSIDフレームであり、このフレームと第1の符号化されたフレームとの間のフレームが空白である(ここでは「DTXインターバル」として示される)、方法M201のそのような応用例でのいくつかのデータ依存性を示す。第2の符号化されたフレームをタスクT252に接続する線は、第2の符号化されたフレームからの情報(例えば、スペクトルパラメータ値)が、復号された音声信号の複数のフレームを計算するのに使用されることを示すために、破線にされている。
上で注記したように、タスクT230は、第1の符号化されたフレームに先行する符号化されたフレームが第2フォーマットを有することの表示に応答して実行され得る。図17に示された応用例について、この第2フォーマットの表示は、第1の符号化されたフレームに直接に先行するフレームがDTXのために空白にされていることの表示、またはNELPコーディングモードが復号された音声信号の対応するフレームを計算するのに使用されることの表示とすることができる。代替案では、この第2フォーマットの表示を、第2の符号化されたフレームのフォーマットの表示(すなわち、第1の符号化されたフレームの前の最後のSIDフレームのフォーマットの表示)とすることができる。
図17は、第3フレームが、復号された音声信号内で第1フレームに直接に先行し、DTXインターバル内の最後のフレーム周期に対応する特定の例を示す。他の例では、第3フレームは、DTXインターバル内の別のフレーム周期に対応し、1つまたは複数のフレームが、復号された音声信号内で第3フレームを第1フレームから分離するようになっている。図17には、適応コードブックがDTXインターバル中に更新されない例も示されている。他の例では、DTXインターバル中に生成される1つまたは複数の励起信号が、適応コードブックを更新するのに使用される。
雑音ベースの励起信号の記憶は、後続フレームの励起信号を生成するのに有用ではない場合がある。その結果、復号器が、適応コードブックを更新するのに雑音ベースの励起信号からの情報を使用しないことが望ましい。例えば、そのような復号器を、NELPフレームを復号するときではなく、CELPフレームを復号するときだけ、またはCELPフレーム、PPPフレーム、もしくはPWIフレームを復号するときだけ、適応コードブックを更新するように構成することができる。
図18に、タスクT260、T280、およびT290を含む方法M200(図13Aの)の実施態様方法M203の流れ図を示す。タスクT280は、タスクT260によって生成された雑音信号に基づいて第4励起信号を生成する。この特定の例では、タスクT210およびT280は、実線によって示されるように、第2の符号化されたフレームが第2フォーマットを有することの表示に従って実行されるように構成される。第4励起信号に基づいて、タスクT290は第3フレームに直接に先行する復号された音声信号の第4フレームを計算する。方法M203は、また、タスクT245からの第3励起信号に基づいて復号された音声信号の第3フレームを計算する、タスクT250(図13Aの)の実施態様T254を含む。
タスクT290は、第1の符号化されたフレームに先行する第2の符号化されたフレームからの、スペクトルパラメータ値のセットなどの情報に基づいて第4フレームを計算する。例えば、タスクT290を、スペクトルパラメータ値のセットに従って第4励起信号のスペクトルを成形するように構成することができる。タスクT254は、第2の符号化されたフレームに先行する第3の符号化されたフレームからの、スペクトルパラメータ値のセットなどの情報に基づいて第3フレームを計算する。例えば、タスクT254を、スペクトルパラメータ値のセットに従って第3励起信号のスペクトルを成形するように構成することができる。タスクT254を、第3の符号化されたフレームが第1フォーマットを有することの表示に応答して実行されるように構成することもできる。
図19に、方法M203(図18の)の通常の応用例でのいくつかのデータ依存性を示す。この応用例では、第3の符号化されたフレームを、その励起信号が適応コードブックの更新に使用されない1つまたは複数の符号化されたフレーム(例えば、NELPフォーマットを有する符号化されたフレーム)だけ第2の符号化されたフレームから分離することができる。その場合に、第3および第4の符号化されたフレームは、通常、第2および第3の符号化されたフレームを分離するフレーム数と同一の個数のフレームだけ分離される。
上で注記したように、コーディングシステム内で、DTXをもサポートする方法M200を使用することが望ましい場合がある。図20に、第2の符号化されたフレームがSIDフレームであり、このフレームと第1の符号化されたフレームとの間のフレームが空白にされる、方法M203(図18の)の応用例のいくつかのデータ依存性を示す。第2の符号化されたフレームをタスクT290に接続する線は、第2の符号化されたフレームからの情報(例えば、スペクトルパラメータ値)が、復号された音声信号の複数のフレームを計算するのに使用されることを示すために、破線にされている。
上で注記したように、タスクT230は、第1の符号化されたフレームに先行する符号化されたフレームが第2フォーマットを有することの表示に応答して実行され得る。図20に示された応用例について、この第2フォーマットの表示は、第1の符号化されたフレームに直接に先行するフレームがDTXのために空白にされることの表示、またはNELPコーディングモードが復号された音声信号の対応するフレームを計算するのに使用されることの表示とすることができる。代替案では、この第2フォーマットの表示を、第2の符号化されたフレームのフォーマットの表示(すなわち、第1の符号化されたフレームの前の最後のSIDフレームのフォーマットの表示)とすることができる。
図20は、第4フレームが、復号された音声信号内で第1フレームに直接に先行し、DTXインターバル内の最後のフレーム期間に対応する特定の例を示す。他の例では、第4フレームは、DTXインターバル内の別のフレーム期間に対応し、1つまたは複数のフレームが、復号された音声信号内で第4フレームを第1フレームから分離するようになっている。
方法M200(図13Aの)の実施態様の通常の応用例では、論理要素(例えば、論理ゲート)のアレイが、この方法の様々なタスクのうちの1つ、複数、またはすべてを実行するように構成される。タスクのうちの1つまたは複数(おそらくはすべて)を、論理要素のアレイ(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(例えば、コンピュータ)によって読み取り可能および/または実行可能であるコンピュータプログラム製品(例えば、ディスク、フラッシュメモリカード、他の不揮発性メモリカード、半導体メモリチップなどの1つまたは複数のデータ記憶媒体)内で実施されるコード(例えば、命令の1つまたは複数のセット)として実施することもできる。方法M200(図13Aの)の実施態様のタスクを、複数のそのようなアレイまたは機械によって実行することもできる。これらおよび他の実施態様では、タスクを、セル電話機などの無線通信用のデバイスまたはそのような通信機能を有する他のデバイス内で実行することができる。そのようなデバイスを、回線交換ネットワークおよび/またはパケット交換ネットワークと通信する(例えば、VoIPなどの1つまたは複数のプロトコルを使用して)ように構成することができる。例えば、そのようなデバイスは、符号化されたフレームを受信するように構成されたRF回路網を含むことができる。
図21Aに、包括的構成による復号された音声信号のフレームを入手する装置A100のブロック図を示す。例えば、装置A100を、本明細書で説明する方法M100またはM200の実施態様を含む音声復号の方法を実行するように構成することができる。図21Bに、(A)符号化された音声信号の第1の符号化されたフレームと(B)符号化された音声信号内で第1の符号化されたフレームに直接に続くフレームの消去の表示とに基づいて、復号された音声信号の連続する第1および第2のフレームを計算するように構成された、装置A100の通常の応用例を示す。装置A100は、消去の表示を受け取るように配置された論理モジュール110と、上で説明した第1、第2、および第3の励起信号を生成するように構成された励起信号ジェネレータ120と、復号された音声信号の第1および第2のフレームを計算するように構成されたスペクトルシェーパ130とを含む。
セル電話機など、装置A100を含む通信デバイスを、有線伝送チャネル、無線伝送チャネル、または光伝送チャネルから符号化された音声信号を含む送信を受信するように構成することができる。そのようなデバイスを、搬送波信号を復調し、かつ/または、デインタリービングおよび/または誤り訂正コードの復号など、符号化された音声信号を入手するために伝送に対する前処理動作を実行するように構成することができる。そのようなデバイスは、装置A100と、二重会話の他方の音声信号の符号化および/または送信の装置(例えば、トランシーバ内)との両方の実施態様を含むこともできる。
論理モジュール110は、励起信号ジェネレータ120に第2励起信号を出力させるように構成され、配置される。第2励起信号は、ベースライン利得係数値より大きい第2利得係数に基づく。例えば、論理モジュール110と励起信号ジェネレータ120との組合せを、上で説明したタスクT230を実行するように構成することができる。
論理モジュール110を、複数の条件に従って複数のオプションの中から第2利得係数を選択するように構成することができる。これらの条件は、(A)最も最近の(most recent)符号化されたフレームが第1フォーマット(例えば、CELPフォーマット)を有したこと、(B)最も最近の符号化されたフレームに先行する符号化されたフレームが第2フォーマット(例えば、NELPフォーマット)を有したこと、(C)現在の符号化されたフレームが消去されること、および(D)しきい値とベースライン利得係数値との間の関係が、特定の状態を有すること(例えば、しきい値がベースライン利得係数値より大きいこと)を含む。図22に、ANDゲート140およびセレクタ150を使用する論理モジュール110の実施態様112の動作を説明する論理概略図を示す。条件のすべてが真である場合に、論理モジュール112は、第2利得係数を選択する。そうでない場合に、論理モジュール112は、ベースライン利得係数値を選択する。
図23は、論理モジュール110のもう1つの実施態様114の動作の流れ図を示す。この例では、論理モジュール114は、図8に示されたタスクN210、N220、およびN230を実行するように構成される。論理モジュール114の実施態様を、図8に示されたタスクT110〜T140のうちの1つまたは複数(おそらくはすべて)を実行するように構成することもできる。
図24は、状態機械を含む論理モジュール110のもう1つの実施態様116の動作の説明を示す。符号化されたフレームごとに、この状態機械は、現在の符号化されたフレームのフォーマットまたは消去の表示に従ってその状態を更新する(状態1が初期状態である)。この状態機械が、現在のフレームが消去されることの表示を受け取るときに状態3である場合に、論理モジュール116は、ベースライン利得係数値がしきい値より小さい(代替案では、しきい値を超えない)かどうかを決定する。この比較の結果に応じて、論理モジュール116は、ベースライン利得係数値または第2利得係数の中の1つを選択する。
励起信号ジェネレータ120を、一連のサブフレーム励起信号として第2励起信号を生成するように構成することができる。論理モジュール110の対応する実施態様を、サブフレーム励起信号ごとに第2利得係数の異なる値を選択するか他の形で作るように構成することができ、この値のうちの少なくとも1つは、ベースライン利得係数値より大きい。例えば、図25に、図8に示されたタスクT140、T230、およびT240を実行するように構成された論理モジュール116の実施態様118の動作の説明を示す。
論理モジュール110を、装置A100内に含まれるまたは装置A100の外部(例えば、セル電話機などの装置A100を含むデバイス内)にある消去検出器から消去表示を受け取るように配置することができる。消去検出器210を、条件(1)フレームが回復されるには多すぎるビット誤りを含む、(2)フレームについて示されたビットレートが無効であるかサポートされない、(3)フレームのすべてのビットが0である、(4)フレームについて示されたビットレートが1/8レートであり、フレームのすべてのビットが1である、(5)フレームが空白であり、最後の有効なビットレートが1/8ではなかった、のうちのいずれか1つまたは複数を検出したときにフレームの消去表示を作るように構成することができる。
論理モジュール110のさらなる実施態様を、上で説明したフレーム消去回復モジュール100によって実行されるものなど、消去処理の追加の態様を実行するように構成することができる。例えば、論理モジュール110のそのような実施態様を、ベースライン利得係数値の計算および/または第2励起信号をフィルタリングするためのスペクトルパラメータ値のセットの計算などのタスクを実行するように構成することができる。第1の符号化されたフレームが1つの適応コードブック利得係数だけを含む応用例について、ベースライン利得係数値を、単純に第1利得係数の値とすることができる。第1の符号化されたフレームが複数の適応コードブック利得係数(例えば、サブフレームごとに異なる係数)を含む応用例について、ベースライン利得係数値を、他の適応コードブック利得係数のうちの1つまたは複数にも基づくものとすることができる。その場合に、例えば、論理モジュール110を、第1の符号化されたフレームの適応コードブック利得係数の平均値としてベースライン利得係数値を計算するように構成することができる。
論理モジュール110の実施態様を、それらが励起信号ジェネレータ120に第2励起信号を出力させる形に従って分類することができる。論理モジュール110の1つのクラス110Aは、第2利得係数を励起信号ジェネレータ120に供給するように構成された実施態様を含む。図26Aに、論理モジュール110のそのような実施態様および励起信号ジェネレータ120の対応する実施態様120Aを含む、装置A100の実施態様A100Aのブロック図を示す。
論理モジュール110のもう1つのクラス110Bは、励起信号ジェネレータ120に複数のオプション(例えば、入力として)の中から第2利得係数を選択させるように構成された実施態様を含む。図26Bに、論理モジュール110のそのような実施態様および励起信号ジェネレータ120の対応する実施態様120Bを含む、装置A100の実施態様A100Bのブロック図を示す。この場合に、図22の論理モジュール112内に示されたセレクタ150は、その代わりに励起信号ジェネレータ120B内に配置される。論理モジュール110の実施態様112、114、116、および118のいずれをも、クラス110Aまたはクラス110Bに従って構成でき、配置できることが特に企図され、本明細書によって開示される。
図26Cに、装置A100の実施態様A100Cのブロック図を示す。装置A100Cは、励起信号ジェネレータ120に複数の励起信号の中から第2励起信号を選択させるように配置された論理モジュール110のクラス110Bの実施態様を含む。励起信号ジェネレータ120Cは励起信号ジェネレータ120の2つの副実施態様120C1および120C2を含み、その一方は、第2利得係数に基づいて励起信号を生成するように構成され、他方は、もう1つの利得係数値(例えば、ベースライン利得係数値)に基づいて励起信号を生成するように構成される。励起信号ジェネレータ120Cは、第2利得係数に基づく励起信号を選択することによって、論理モジュール110Bからセレクタ150への制御信号に従って第2励起信号を生成するように構成される。励起信号ジェネレータ120のクラス120Cの構成がクラス120Aまたは120Bの対応する実施態様より多くの処理サイクル、電力、および/またはストレージを消費する可能性があることに留意されたい。
励起信号ジェネレータ120は、第1利得および値の第1シーケンスに基づいて第1励起信号を生成するように構成される。例えば、励起信号ジェネレータ120を、上で説明したタスクT210を実行するように構成することができる。値の第1シーケンスは、第3励起信号のセグメントなど、第3励起信号からの情報に基づく。通常の例では、第1シーケンスは、第3励起信号の最後のサブフレームに基づく。
励起信号ジェネレータ120の通常の実施態様は、第1シーケンスを受け取り、格納するように構成されたメモリ(例えば、適応コードブック)を含む。図27Aに、そのようなメモリ160を含む、励起信号ジェネレータ120の実施態様122のブロック図を示す。代替案では、適応コードブックの少なくとも一部を、装置A100内または装置A100の外部の他の場所のメモリ内に配置することができ、第1シーケンスの一部(おそらくはすべて)が、励起信号ジェネレータ120に入力として供給されるようになる。
図27Aに示されているように、励起信号ジェネレータ120は、現在の利得係数とシーケンスとの積を計算するように構成された乗算器170を含むことができる。第1利得係数は、利得コードブックインデックスなど、第1の符号化されたフレームからの情報に基づくものとすることができる。その場合に、励起信号ジェネレータ120は、利得コードブックを、このインデックスに対応する値として第1利得係数を取り出すように構成された論理と一緒に含むことができる。励起信号ジェネレータ120を、適応コードブック内の第1シーケンスの位置を示す適応コードブックインデックスを受け取るように構成することもできる。
励起信号ジェネレータ120を、第1の符号化されたフレームからの追加情報に基づいて第1励起信号を生成するように構成することができる。そのような情報は、1つまたは複数の固定コードブックインデックスと、第1励起信号への第1コードブック寄与を指定する、対応する利得係数値または利得コードブックインデックスとを含むことができる。図27Bに、生成される励起信号をそれに基づくものとすることができる他の情報を格納するように構成されたコードブック180(例えば、固定コードブック)と、固定コードブックシーケンスと固定コードブック利得係数との積を計算するように構成された乗算器190と、固定コードブック寄与と適応コードブック寄与との合計として励起信号を計算するように構成された加算器195とを含む、励起信号ジェネレータ122の実施態様124のブロック図を示す。励起信号ジェネレータ124は、対応するインデックスに従ってめいめいのコードブックからシーケンスおよび利得係数を取り出すように構成された論理をも含むことができる。
励起信号ジェネレータ120は、また、第2利得係数および値の第2シーケンスに基づいて第2励起信号を生成するように構成される。第2利得係数は、第1利得係数より大きく、ベースライン利得係数値より大きくすることができる。第2利得係数は、しきい値と等しくすることもでき、しきい値を超えるものとすることもできる。励起信号ジェネレータ120が、一連のサブフレーム励起信号として第2励起信号を生成するように構成される場合に、第2利得係数の異なる値を、サブフレーム励起信号ごとに使用することができ、この値の少なくとも1つは、ベースライン利得係数値より大きい。その場合に、第2利得係数の異なる値が、フレーム期間にわたって増えるか減るように配置されることが望ましい。
値の第2シーケンスは、第1励起信号のセグメントなど、第1励起信号からの情報に基づく。通常の例では、第2シーケンスは、第1励起信号の最後のサブフレームに基づく。したがって、励起信号ジェネレータ120を、第1励起信号からの情報に基づいて適応コードブックを更新するように構成することができる。relaxation CELP(RCELP)コーディングモードをサポートするコーディングシステムへの装置A100の適用について、励起信号ジェネレータ120のそのような実施態様を、ピッチラグパラメータの対応する値に従ってセグメントをタイムワープさせるように構成することができる。そのようなワーピング動作の例が、上で引用した3GPP2文書C.S0014−C v1.0のセクション5.2.2(セクション4.11.5への参照を伴う)に記載されている。
励起信号ジェネレータ120は、第3励起信号を生成するようにも構成される。いくつかの応用例で、励起信号ジェネレータ120は、適応コードブック(例えば、メモリ160)からの情報に基づいて第3励起信号を生成するように構成される。
励起信号ジェネレータ120を、雑音信号に基づく励起信号(例えば、NELPフォーマットの表示に応答して生成される励起信号)を生成するように構成することができる。その場合に、励起信号ジェネレータ120を、タスクT260を実行するように構成された雑音信号ジェネレータを含むように構成することができる。雑音ジェネレータが、対応する符号化されたフレームからの他の情報(例えば、スペクトル情報)に基づくシード値を使用することが望ましい場合がある。というのは、そのような技法を使用して、符号器で使用されたものと同一の雑音信号の生成をサポートできるからである。代替案では、励起信号ジェネレータ120を、生成された雑音信号を受け取るように構成することができる。特定の応用例に応じて、励起信号ジェネレータ120を、生成された雑音信号に基づいて第3励起信号を生成する(例えば、タスクT270を実行する)ように、または生成された雑音信号に基づいて第4励起信号を生成する(例えば、タスクT280を実行する)ように構成することができる。
励起信号ジェネレータ120を、フレームフォーマットの表示に従って、適応コードブックからのシーケンスに基づいて励起信号を生成するか、生成された雑音信号に基づいて励起信号を生成するように構成することができる。その場合に、励起信号ジェネレータ120は、通常、現在のフレームが消去される場合に最後の有効なフレームのコーディングモードに従って動作を継続するように構成される。
励起信号ジェネレータ122は、通常、メモリ160内に格納されたシーケンスが前のフレームの励起信号に基づくように適応コードブックを更新するように実施される。上で注記したように、適応コードブックの更新は、ピッチラグパラメータの値に従うタイムワーピング動作を実行することを含むことができる。励起信号ジェネレータ122を、各フレームに(または各サブフレームにさえ)メモリ160を更新するように構成することができる。代替案では、励起信号ジェネレータ122を、メモリからの情報に基づく励起信号を使用して復号されるフレームでのみメモリ160を更新するように実施することができる。例えば、励起信号ジェネレータ122を、NELPフレームの励起信号からの情報に基づくのではなく、CELPフレームの励起信号からの情報に基づいてメモリ160を更新するように実施することができる。メモリ160が更新されないフレーム周期について、メモリ160の内容は、未変更のままとすることができ、あるいは、初期状態にリセットする(例えば、0をセットする)こともできる。
スペクトルシェーパ130は、第1励起信号と、符号化された音声信号の第1の符号化されたフレームからの情報とに基づいて、復号された音声信号の第1フレームを計算するように構成される。例えば、スペクトルシェーパ130を、タスクT220を実行するように構成することができる。スペクトルシェーパ130は、第2励起信号に基づいて、第1フレームに直接に続く復号された音声信号の第2フレームを計算するようにも構成される。例えば、スペクトルシェーパ130を、タスクT240を実行するように構成することができる。スペクトルシェーパ130は、第3励起信号に基づいて、第1フレームに先行する復号された音声信号の第3フレームを計算するようにも構成される。例えば、スペクトルシェーパ130を、タスクT250を実行するように構成することができる。応用例に応じて、スペクトルシェーパ130を、第4励起信号に基づいて、復号された音声信号の第4フレームを計算する(例えば、タスクT290を実行する)ように構成することもできる。
スペクトルシェーパ130の通常の実施態様は、LPC係数値のセットなど、フレームのスペクトルパラメータ値のセットに従って構成される合成フィルタを含む。スペクトルシェーパ130を、本明細書で説明する音声パラメータカリキュレータからおよび/または論理モジュール110から(例えば、フレーム消去の場合に)スペクトルパラメータ値のセットを受け取るように配置することができる。スペクトルシェーパ130を、励起信号の一連の異なるサブフレームおよび/またはスペクトルパラメータ値の一連の異なるセットに従って、復号されたフレームを計算するように構成することもできる。スペクトルシェーパ130を、他のフィルタリング動作など、励起信号、成形された励起信号、および/またはスペクトルパラメータ値に対する1つまたは複数の他の処理動作を実行するように構成することもできる。
装置A100内に含まれるか装置A100の外部(例えば、セル電話機などの装置A100を含むデバイス内)にあるフォーマット検出器220を、論理モジュール110、励起信号ジェネレータ120、およびスペクトルシェーパ130のうちの1つまたは複数に第1のおよび他の符号化されたフレームのフレームフォーマットの表示を供給するように配置することができる。フォーマット検出器220は、消去検出器210を含むことができ、あるいは、この2つの要素を別々に実施することができる。いくつかの応用例で、コーディングシステムは、特定のビットレートについて1つのコーディングモードだけを使用するように構成される。これらの場合に、符号化されたフレームのビットレート(例えば、フレームエネルギなどの1つまたは複数のパラメータから判定される)は、フレームフォーマットをも示す。符号化されたフレームのビットレートで複数のコーディングモードを使用するコーディングシステムについて、フォーマット検出器220を、コーディングモードを識別する符号化されたフレーム内の1つまたは複数のビットのセットなど、コーディングインデックスからフォーマットを判定するように構成することができる。この場合に、フォーマット表示は、コーディングインデックスの判定に基づくものとすることができる。いくつかの場合に、コーディングインデックスは、コーディングモードを明示的に示すことができる。他の場合に、コーディングインデックスは、例えば別のコーディングモードについて無効になるはずの値を示すことによって、コーディングモードを暗黙のうちに示すことができる。
装置A100を、装置A100内に含まれるか装置A100の外部(例えば、セル電話機などの装置A100を含むデバイス内)にある音声パラメータカリキュレータ230から符号化されたフレームの音声パラメータ(例えば、スペクトルパラメータ値、適応コードブックインデックスおよび/または固定コードブックインデックス、利得係数値および/または利得コードブックインデックス)を受け取るように配置することができる。図28に、パーサ310(「デパケッタイザ」とも呼ばれる)、逆量子化器320および330、ならびにコンバータ340を含む、音声パラメータカリキュレータ230の実施態様232のブロック図を示す。パーサ310は、符号化されたフレームをそのフォーマットに従って解析するように構成される。例えば、パーサ310を、フォーマットによって示される、フレーム内のビット位置に従ってフレーム内の様々なタイプの情報を区別するように構成することができる。
逆量子化器320は、スペクトル情報を逆量子化するように構成される。例えば、逆量子化器320は、通常、スペクトルパラメータ値のセットを入手するために、符号化されたフレームから解析されたスペクトル情報を1つまたは複数のコードブックへのインデックスとして適用するように構成される。逆量子化器330は、時間情報を逆量子化するように構成される。例えば、逆量子化器330も、通常、時間パラメータ値(例えば、利得係数値)を入手するために、符号化されたフレームから解析された時間情報を1つまたは複数のコードブックへのインデックスとして適用するように構成される。代替案では、励起信号ジェネレータ120を、時間情報(例えば、適応コードブックインデックスおよび/または固定コードブックインデックス)の一部またはすべての逆量子化を実行するように構成することができる。図28に示されているように、逆量子化器320および330の一方または両方を、特定のフレームフォーマットに従って対応するフレーム情報を逆量子化するように構成することができる。というのは、異なるコーディングモードが、異なる量子化テーブルまたは量子化方式を使用する場合があるからである。
上で注記したように、LPC係数値は、通常、量子化の前に別の形(例えば、LSP値、LSF値、ISP値、および/またはISF値)に変換される。コンバータ340は、逆量子化されたスペクトル情報をLPC係数値に変換するように構成される。消去されたフレームについて、音声パラメータカリキュレータ230の出力は、特定の設計選択に応じて、ヌル、未定義、または無変更とすることができる。図29Aに、消去検出器210、フォーマット検出器220、音声パラメータカリキュレータ230、および装置A100の実施態様を含むシステムの例のブロック図を示す。図29Bに、消去検出をも実行するフォーマット検出器220の実施態様222を含む類似するシステムのブロック図を示す。
装置A100の実施態様の様々な要素(例えば、論理モジュール110、励起信号ジェネレータ120、およびスペクトルシェーパ130)を、所期の応用例に適すると思われる、ハードウェア、ソフトウェア、および/またはファームウェアの任意の組合せで実施することができる。例えば、そのような要素を、例えば同一チップ上またはチップセット内の複数のチップの中に存在する電子デバイスおよび/または光学デバイスとして製造することができる。そのようなデバイスの一例が、トランジスタまたは論理ゲートなどの論理要素の固定されたアレイまたはプログラマブルアレイであり、これらの要素のいずれをも、1つまたは複数のそのようなアレイとして実施することができる。これらの要素のうちの任意の複数またはすべてすら、同一の1つまたは複数のアレイ内で実施することができる。そのような1つまたは複数のアレイを、1つまたは複数のチップ内(例えば、複数のチップを含むチップセット内)で実施することができる。
本明細書で説明する装置A100の様々な実施態様の1つまたは複数の要素(例えば、論理モジュール110、励起信号ジェネレータ120、およびスペクトルシェーパ130)を、マイクロプロセッサ、組み込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(application-specific standard product)、およびASIC(特定用途向け集積回路)など、論理要素の1つまたは複数の固定されたまたはプログラマブルなアレイ上で実行されるように配置された命令の1つまたは複数のセットとして全体的にまたは部分的に実施することもできる。装置A100の実施態様の様々な要素のいずれをも、1つまたは複数のコンピュータ(例えば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)として実施することもでき、これらの要素のうちの任意の複数またはすべてすら、同一のそのような1つまたは複数のコンピュータ内で実施することができる。
装置A100の実施態様の様々な要素を、セル電話機またはそのような通信機能を有する他のデバイスなど、無線通信用のデバイス内に含めることができる。そのようなデバイスを、回線交換ネットワークおよび/またはパケット交換ネットワークと通信する(例えば、VoIPなどの1つまたは複数のプロトコルを使用して)ように構成することができる。そのようなデバイスを、デインタリービング、デパンクチャリング(de-puncturing)、1つまたは複数の畳み込み符号の復号、1つまたは複数の誤り訂正符号の復号、ネットワークプロトコル(例えば、イーサネット(登録商標)、TCP/IP、cdma2000)の1つまたは複数のレイヤの復号、無線周波数(RF)復調、および/またはRF受信など、符号化されたフレームを搬送する信号に対する動作を実行するように構成することができる。
装置A100の実施態様の1つまたは複数の要素を、その装置が組み込まれるデバイスまたはシステムの別の動作に関連するタスクなど、その装置の動作に直接には関連しないタスクを実行し、または命令の他のセットを実行するのに使用することが、可能である。装置A100の実施態様の1つまたは複数の要素が、共通の構造を有することも可能である(例えば、異なるときに異なる要素に対応するコードの部分を実行するのに使用されるプロセッサ、異なるときに異なる要素に対応するタスクを実行するために実行される命令のセット、あるいは異なるときに異なる要素の動作を実行する電子デバイスおよび/または光学デバイスの配置など)。1つのそのような例では、論理モジュール110、励起信号ジェネレータ120、およびスペクトルシェーパ130が、同一プロセッサ上で実行されるように配置された命令のセットとして実施される。もう1つのそのような例では、これらの要素と、消去検出器210、フォーマット検出器220、および音声パラメータカリキュレータ230のうちの1つまたは複数(おそらくはすべて)とが、同一プロセッサ上で実行されるように配置された命令のセットとして実施される。さらなる例では、励起信号ジェネレータ120C1および120C2が、異なるときに実行される命令の同一のセットとして実施される。さらなる例では、逆量子化器320および330が、異なるときに実行される命令の同一のセットとして実施される。
セル電話機またはそのような通信機能を有する他のデバイスなどの無線通信のデバイスを、装置A100と音声符号器との両方の実施態様を含むように構成することができる。その場合に、装置A100および音声符号器が、共通の構造を有することが可能である。1つのそのような例では、装置A100および音声符号器は、同一プロセッサ上で実行されるように配置された命令のセットを含むように実施される。
説明された構成の前述の提示は、当業者が本明細書で開示される方法および他の構造を作るか使用することを可能にするために提供されるものである。図示され、本明細書で説明される流れ図、ブロック図、状態図、および他の構造は、例にすぎず、これらの構造の他の変形形態も、本開示の範囲に含まれる。これらの構成に対する様々な変更が可能であり、本明細書で提示される包括的原理を、他の構成にも適用することができる。例えば、例は、CELPフレームに続く消去されたフレームへの適用を主に説明するが、そのような方法、装置、およびシステムを、消去されたフレームがPPPまたは他のPWIコーディングモードなどの過去の励起情報の記憶に基づく励起信号を使用する別のコーディングモードに従って符号化されたフレームに続く場合に適用することもできることが、特に企図され、本明細書によって開示される。したがって、本開示は、上で示した特定の例または構成に限定されることを意図されているのではなく、最初の開示の一部を形成する、出願された添付の特許請求の範囲に含まれる、本明細書で任意の形で開示された原理および新規の特性と一貫する最も広い範囲に従わなければならない。
本明細書で説明される音声復号器および/または音声復号の方法と共に使用することができるまたはそれと共に使用されるように適合されるコーデックの例は、文書3GPP2 C.S0014−C version 1.0、「Enhanced Variable Rate Codec,Speech Service Options 3,68,and 70 for Wideband Spread Spectrum Digital Systems」、ch.5、2007年1月に記載のEnhanced Variable Rate Codec(EVRC)と、文書ETSI TS 126 092 V6.0.0、ch.6、2004年12月に記載のAdaptive Multi Rate(AMR)音声コーデックと、文書ETSI TS 126 192 V6.0.0、ch.6、2004年12月に記載のAMR Wideband音声コーデックとを含む。
当業者は、情報および信号を、様々な異なるテクノロジおよび技法のいずれを使用しても表すことができることを理解するであろう。例えば、上の説明全体を通じて言及され得るデータ、命令、コマンド、情報、信号、ビット、および記号を、電圧、電流、電磁波、磁界、磁性粒子、光学場、光学粒子、またはこれらの任意の組合せによって表すことができる。符号化されたフレームがそれから導出される信号および復号された信号を、「音声信号」と呼ぶが、これらの信号が、アクティブフレーム中に音楽または他の非音声情報内容を搬送し得ることも、企図され、本明細書によって開示される。
当業者は、本明細書で開示される構成に関して説明された論理ブロック、モジュール、回路、および動作を、電子ハードウェア、コンピュータソフトウェア、またはこの両方の組合せとして実施できることを了解するであろう。そのような論理ブロック、モジュール、回路、および動作を、本明細書で説明する機能を実行するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASIC、FPGAまたは他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタロジック、ディスクリートハードウェアコンポーネント、あるいはそれらの任意の組合せを用いて実施し、または実行することができる。汎用プロセッサは、マイクロプロセッサとすることができるが、代替案では、プロセッサを、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械とすることができる。プロセッサは、コンピューティングデバイスの組合せとして、例えば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと一緒の1つまたは複数のマイクロプロセッサ、または任意の他のそのような構成として実施することもできる。
本明細書に記載の方法およびアルゴリズムのタスクは、ハードウェア内で直接に、プロセッサによって実行されるソフトウェアモジュールで、またはこの2つの組合せで実施することができる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当技術分野で既知の任意の他の形の記憶媒体に常駐することができる。例示的な記憶媒体は、プロセッサに結合され、プロセッサが、記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことが可能になる。代替案では、記憶媒体を、プロセッサに一体とすることができる。プロセッサおよび記憶媒体は、1つのASIC内に存在することができる。このASICは、ユーザ端末内に存在することができる。代替案では、プロセッサおよび記憶媒体が、ユーザ端末内に別個のコンポーネントとして存在することができる。
本明細書で説明した構成のそれぞれを、少なくとも部分的に、ハードワイヤド回路として、特定用途向け集積回路内に製造された回路構成として、あるいは不揮発性ストレージにロードされるファームウェアプログラムまたは機械可読コードとしてデータ記憶媒体からロードされもしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実施することができ、そのようなコードは、マイクロプロセッサまたは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である。データ記憶媒体は、半導体メモリ(限定なしにダイナミックRAM(ランダムアクセスメモリ)、スタティックRAM、ROM(読み取り専用メモリ)、および/またはフラッシュRAMを含むことができる)、または強磁性体、磁気抵抗、オボニック、ポリマ、もしくは相変化メモリなどの記憶要素のアレイ、あるいは磁気ディスクまたは光ディスクなどのディスク媒体とすることができる。用語「ソフトウェア」は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の任意の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むものと理解されるべきである。
以下に、本願発明の当初の特許請求の範囲に記載された発明を付記する。
[1]
復号された音声信号のフレームを入手する方法であって、
符号化された音声信号の第1の符号化されたフレームおよび第1励起信号からの情報に基づいて、前記復号された音声信号の第1フレームを計算することと、
前記第1の符号化されたフレームに直接に続く前記符号化された音声信号のフレームの消去の表示に応答して、第2励起信号に基づいて、前記第1フレームに直接に続く前記復号された音声信号の第2フレームを計算することと、
第3励起信号に基づいて、前記復号された音声信号の前記第1フレームに先行する第3フレームを計算することと、を備え、
前記第1励起信号は、(A)前記第3励起信号からの情報に基づく値の第1シーケンスと(B)第1利得係数との積に基づき、
第2フレームの前記計算は、前記第2励起信号が(A)前記第1励起信号からの情報に基づく値の第2シーケンスと(B)前記第1利得係数より大きい第2利得係数との積に基づくように、しきい値と前記第1利得係数に基づく値との間の関係に従って前記第2励起信号を生成することを含む、方法。
[2]
復号された音声信号のフレームを入手する方法であって、
第1利得係数と、値の第1シーケンスとの積に基づく第1励起信号を生成することと、
前記第1励起信号および符号化された音声信号の第1の符号化されたフレームからの情報に基づいて、前記復号された音声信号の第1フレームを計算することと、
前記第1の符号化されたフレームに直接に続く前記符号化された音声信号のフレームの消去の表示に応答して、しきい値と前記第1利得係数に基づく値との間の関係に従って、(A)前記第1利得係数より大きい第2利得係数と(B)値の第2シーケンスとの積に基づいて第2励起信号を生成することと、
前記第2励起信号に基づいて、前記復号された音声信号の前記第1フレームに直接に続く第2フレームを計算することと、
第3励起信号に基づいて、前記復号された音声信号の前記第1フレームに先行する第3フレームを計算することと、を備え、
前記第1シーケンスは前記第3励起信号からの情報に基づき、前記第2シーケンスは前記第1励起信号からの情報に基づく、方法。
[3]
前記第2シーケンスは、少なくとも、前記第1励起信号のセグメントに基づく、[2]に記載の復号された音声信号のフレームを入手する方法。
[4]
前記第1利得係数は前記第1の符号化されたフレームからの情報に基づく、[2]に記載の復号された音声信号のフレームを入手する方法。
[5]
前記復号された音声信号の第1フレームを計算することは、第1の複数のスペクトルパラメータ値に従って前記第1励起信号を処理することを含み、前記第1の複数のスペクトルパラメータ値は前記第1の符号化されたフレームからの前記情報に基づき、
前記復号された音声信号の第2フレームを計算することは、第2の複数のスペクトルパラメータ値に従って前記第2励起信号を処理することを含み、前記第2の複数のスペクトルパラメータ値は前記第1の複数のスペクトルパラメータ値に基づく、[2]に記載の復号された音声信号のフレームを入手する方法。
[6]
前記第1励起信号を生成することは、少なくとも1つのピッチパラメータに従って前記第1シーケンスを処理することを含み、前記少なくとも1つのピッチパラメータは前記第1の符号化されたフレームからの情報に基づく、請求項2に記載の復号された音声信号のフレームを入手する方法。
[7]
前記方法は、
雑音信号を生成することと、
前記生成された雑音信号に基づいて前記第3励起信号を生成することと、
を備える、[2]に記載の復号された音声信号のフレームを入手する方法。
[8]
前記第3フレームは、前記復号された音声信号内で前記第1フレームにすぐに先行する、[7]に記載の復号された音声信号のフレームを入手する方法。
[9]
前記第3フレームを計算することは、複数のスペクトルパラメータ値に従って前記第3励起信号を処理することを含み、前記複数のスペクトルパラメータ値は前記符号化された音声信号内で前記第1の符号化されたフレームに先行する第2の符号化されたフレームからの情報に基づく、[8]に記載の復号された音声信号のフレームを入手する方法。
[10]
少なくとも1つのフレーム周期が、前記符号化された音声信号内で前記第2の符号化されたフレームを前記第1の符号化されたフレームから分離する、[9]に記載の復号された音声信号のフレームを入手する方法。
[11]
値の第1シーケンスに基づいて前記第1励起信号を生成することは、符号化された音声信号の第1の符号化されたフレームが第1フォーマットを有することの表示の結果として発生し、
前記生成された雑音信号に基づいて前記第3励起信号を生成することは、前記符号化された音声信号の前記第1の符号化されたフレームに先行する第2の符号化されたフレームが第2フォーマットを有することの表示の結果として発生し、
前記第2利得係数に基づいて前記第2励起信号を生成することは、(A)前記第1の符号化されたフレームが前記第1フォーマットを有し(B)前記第2の符号化されたフレームが前記第2フォーマットを有することの表示の結果として発生する、請求項7に記載の復号された音声信号のフレームを入手する方法。
[12]
値の第1シーケンスに基づいて前記第1励起信号を生成することは、前記第1の符号化されたフレームが第1フォーマットを有することの表示の結果として発生し、
前記方法は、雑音信号を生成することを備え、
前記方法は、(A)前記符号化された音声信号内で前記第1の符号化されたフレームに先行する第2の符号化されたフレームからの情報および(B)前記生成された雑音信号に基づく第4励起信号に基づいて、前記復号された音声信号内で前記第3フレームにすぐに先行する第4フレームを計算することを備え、
前記第3フレームを計算することは、複数のスペクトルパラメータ値に従って前記第3励起信号を処理することを含み、前記複数のスペクトルパラメータ値は、(A)前記符号化された音声信号内で前記第2の符号化されたフレームに先行し(B)前記第1フォーマットを有する第3の符号化されたフレームからの情報に基づく、請求項2に記載の復号された音声信号のフレームを入手する方法。
[13]
前記方法は、前記第2の符号化されたフレームが第2フォーマットを有することの表示の結果として、前記生成された雑音信号に基づいて第4励起信号を生成することを備え、
前記第2利得係数に基づいて前記第2励起信号を生成することは、(A)前記第1の符号化されたフレームが前記第1フォーマットを有し(B)前記第2の符号化されたフレームが前記第2フォーマットを有することの表示の結果として発生する、[12]に記載の復号された音声信号のフレームを入手する方法。
[14]
前記方法は、
前記第1利得係数に基づく値をしきい値と比較することと、
前記比較の結果に基づいて、(A)複数の利得係数値の中から前記第2利得係数を選択することと(B)前記第1利得係数および前記第1利得係数に基づく前記値の中の少なくとも1つに基づいて前記第2利得係数を計算することとのうちの少なくとも1つを実行することと、
を備える、[2]に記載の復号された音声信号のフレームを入手する方法。
[15]
前記復号された音声信号の前記第1フレームは複数のサブフレームを含み、前記複数のサブフレームのそれぞれは、複数のサブフレーム励起信号のうちの対応する1つに基づき、
前記複数のサブフレーム励起信号のそれぞれは、(A)複数のサブフレーム利得係数のうちの対応する1つと(B)複数のサブフレームシーケンスのうちの対応する1つとの積に基づき、
前記第1励起信号は、前記複数のサブフレーム励起信号を含み、前記第1利得係数は前記複数のサブフレーム利得係数のうちの1つであり、前記第1シーケンスは前記複数のサブフレームシーケンスのうちの1つである、
[2]に記載の復号された音声信号のフレームを入手する方法。
[16]
前記第1利得係数に基づく前記値は前記サブフレーム利得係数の平均値に基づく、[15]に記載の復号された音声信号のフレームを入手する方法。
[17]
前記第2利得係数は前記サブフレーム利得係数の前記平均値より大きい、[16]に記載の復号された音声信号のフレームを入手する方法。
[18]
復号された音声信号のフレームを入手する装置であって、
第1、第2、および第3の励起信号を生成するように構成された励起信号ジェネレータと、
(A)前記第1励起信号および符号化された音声信号の第1の符号化されたフレームからの情報に基づいて、復号された音声信号の第1フレームを計算し、(B)前記第2励起信号に基づいて、前記復号された音声信号の前記第1フレームに直接に続く第2フレームを計算し、(C)前記第3励起信号に基づいて、前記復号された音声信号の前記第1フレームに先行する第3フレームを計算するように構成されたスペクトルシェーパと、
(A)しきい値と第1利得係数に基づく値との間の関係を評価するように構成され、(B)前記第1の符号化されたフレームにすぐに続く符号化された音声信号のフレームの消去の表示を受け取るように配置された論理モジュールと、
を備え、
前記励起信号ジェネレータは、(A)第1利得係数と(B)前記第3励起信号からの情報に基づく値の第1シーケンスとの積に基づいて前記第1励起信号を生成するように構成され、
消去の前記表示に応答し、前記評価された関係に従って、前記論理モジュールは前記励起信号ジェネレータに、(A)前記第1利得係数より大きい第2利得係数と(B)前記第1励起信号からの情報に基づく値の第2シーケンスとの積に基づいて前記第2励起信号を生成させるように構成される、
装置。
[19]
前記スペクトルシェーパは、第1の複数のスペクトルパラメータ値に基づいて前記第1フレームを計算するように構成され、前記第1の複数のスペクトルパラメータ値は前記第1の符号化されたフレームからの情報に基づき、
前記スペクトルシェーパは、第2の複数のスペクトルパラメータ値に基づいて前記第2フレームを計算するように構成され、前記第2の複数のスペクトルパラメータ値は前記第1の複数のスペクトルパラメータ値に基づく、[18]に記載の復号された音声信号のフレームを入手する装置。
[20]
前記論理モジュールは、前記しきい値を(A)前記第1利得係数と(B)前記第1利得係数に基づく値のうちの少なくとも1つと比較することによって、前記しきい値と前記第1利得係数に基づく前記値との間の関係を評価するように構成される、[18]に記載の復号された音声信号のフレームを入手する装置。
[21]
前記第1の復号されたフレームは複数のサブフレームを含み、前記複数のサブフレームのそれぞれは、複数のサブフレーム励起信号のうちの対応する1つに基づき、
前記複数のサブフレーム励起信号のそれぞれは、(A)複数のサブフレーム利得係数のうちの対応する1つと(B)複数のサブフレームシーケンスのうちの対応する1つとの積に基づき、
前記第1励起信号は、前記複数のサブフレーム励起信号を含み、前記第1利得係数は前記複数のサブフレーム利得係数のうちの1つであり、前記第1シーケンスは前記複数のサブフレームシーケンスのうちの1つであり、
前記第1利得係数に基づく前記値は、前記サブフレーム利得係数の平均値に基づく、[18]に記載の復号された音声信号のフレームを入手する装置。
[22]
前記励起信号ジェネレータは、前記第1の符号化されたフレームが第1フォーマットを有することの表示に応答して前記第1励起信号を生成するように構成され、
第3の符号化されたフレームが前記第1フォーマットと異なる第2フォーマットを有することの表示に応答して、前記励起信号ジェネレータは、生成された雑音信号に基づいて前記第3励起信号を生成するように構成され、
前記論理モジュールは、前記励起信号ジェネレータに、(A)前記第1の符号化されたフレームが前記第1フォーマットを有し(B)前記第3の符号化されたフレームが前記第2フォーマットを有することの表示に応答して前記第2励起信号を生成させるように構成される、[18]に記載の復号された音声信号のフレームを入手する装置。
[23]
復号された音声信号のフレームを入手する装置であって、
第1利得係数と値の第1シーケンスとの積に基づく第1励起信号を生成するための手段と、
前記第1励起信号および符号化された音声信号の第1の符号化されたフレームからの情報に基づいて前記復号された音声信号の第1フレームを計算するための手段と、
前記第1の符号化されたフレームに直接に続く前記符号化された音声信号のフレームの消去の表示に応答して、しきい値と前記第1利得係数に基づく値との間の関係に従って、(A)前記第1利得係数より大きい第2利得係数と(B)値の第2シーケンスとの積に基づいて第2励起信号を生成するための手段と、
前記第2励起信号に基づいて、前記復号された音声信号の前記第1フレームに直接に続く第2フレームを計算するための手段と、
第3励起信号に基づいて、前記復号された音声信号の前記第1フレームに先行する第3フレームを計算するための手段と、を備え、
前記第1シーケンスが、前記第3励起信号からの情報に基づき、前記第2シーケンスが、前記第1励起信号からの情報に基づく、装置。
[24]
第1励起信号を生成するための前記手段は、前記第1の符号化されたフレームが第1フォーマットを有することの表示に応答して前記第1励起信号を生成するように構成され、
前記装置は、第3の符号化されたフレームが前記第1フォーマットと異なる第2フォーマットを有することの表示に応答して、生成された雑音信号に基づいて前記第3励起信号を生成するための手段を備え、
第2励起信号を生成するための前記手段は、(A)前記第1の符号化されたフレームが前記第1フォーマットを有し(B)前記第3の符号化されたフレームが前記第2フォーマットを有することの表示に応答して前記第2励起信号を生成するように構成される、[23]に記載の復号された音声信号のフレームを入手する装置。
[25]
コンピュータ可読媒体を備えるコンピュータプログラム製品であって、前記媒体が、
少なくとも1つのコンピュータに、第1利得係数と値の第1シーケンスとの積に基づく第1励起信号を生成させるコードと、
少なくとも1つのコンピュータに、前記第1励起信号および符号化された音声信号の第1の符号化されたフレームからの情報に基づいて、前記復号された音声信号の第1フレームを計算させるコードと、
少なくとも1つのコンピュータに、前記第1の符号化されたフレームに直接に続く前記符号化された音声信号のフレームの消去の表示に応答して、しきい値と前記第1利得係数に基づく値との間の関係に従って、(A)前記第1利得係数より大きい第2利得係数と(B)値の第2のシーケンスとの積に基づく第2励起信号を生成させるコードと、
少なくとも1つのコンピュータに、前記第2励起信号に基づいて、前記復号された音声信号の前記第1フレームに直接に続く第2フレームを計算させるコードと、
少なくとも1つのコンピュータに、第3励起信号に基づいて、前記復号された音声信号の前記第1フレームに先行する第3フレームを計算させるコードと、を備え、
前記第1シーケンスは前記第3励起信号からの情報に基づき、前記第2シーケンスは前記第1励起信号からの情報に基づく、コンピュータプログラム製品。

Claims (25)

  1. 符号化された音声信号を処理する方法であって、
    前記符号化された音声信号の消去されたフレームのための利得値を、前記消去されたフレームに先行する前記符号化された音声信号の第1のフレームからの情報に基づいて予測することと、
    (A)前記第1のフレームが第1のフォーマットにしたがって構成され、かつ、(B)前記符号化された音声信号の第1のフレームに先行する第2のフレームが前記第1のフォーマットとは異なる第2のフォーマットにしたがって構成されることを示す表示に応答して、前記予測され利得値をしきい値と比較することと、
    前記比較することの結果に応答して、前記予測され利得値を増加することと、
    前記増加された利得値に基づいて前記消去されたフレームのための励起信号を生成することと、
    を備え
    前記第1のフォーマットは有声音フレームに対する符号化モードに関連付けられ、前記第2のフォーマットは無声音フレーム又はインアクティブフレームに対する符号化モードに関連付けられる、
    方法。
  2. 前記予測される利得値は、適応コードブック利得値である、請求項1に記載の方法。
  3. 前記表示に応答して比較することは、前記表示に基づいて、前記第1および第2のフレームにおいて少なくとも1つの特定のモードのシーケンスを検出することと、前記検出することに応答して前記比較することを実行することとを備える、請求項1および2のいずれか1つに記載の方法。
  4. 前記第1のフレームが第1のフォーマットにしたがって構成されることを示す表示は、前記第1のフレームが、過去の励起情報のメモリに基づく励起信号を使用して復号されるものであることを示す、請求項1乃至3のいずれか1つに記載の方法。
  5. 前記第1のフレームが第1のフォーマットにしたがって構成されることを示す表示は、前記第1のフレームがcode−excited linear prediction符号化モードを使用して復号されるものであることを示す、請求項1乃至3のいずれか1つに記載の方法。
  6. 前記第2のフレームが第2のフォーマットにしたがって構成されることを示す表示は、前記第2のフレームが非周期的励起を有することを示す、請求項1乃至3のいずれか1つに記載の方法。
  7. 前記第2のフレームが第2のフォーマットにしたがって構成されることを示す表示は、前記第2のフレームがNoise−excited linear prediction符号化モードを使用して復号されるものであることを示す、請求項1乃至3のいずれか1つに記載の方法。
  8. 前記予測される利得値を増加することは、前記予測される利得値に、前記しきい値に等しい値を割り当てることを含む、請求項1乃至7のいずれか1つに記載の方法。
  9. 前記方法は、前記比較することの結果に応答して、前記消去されたフレームのサブフレームの適応コードブック利得係数に値を割り当てることを備え、前記増加された利得値は、前記割り当てられた値のうちの1つである、請求項1乃至8のいずれか1つに記載の方法。
  10. 前記割り当てられた値は、減少する利得プロファイルとなるように配置される、請求項9に記載の方法。
  11. 求項1乃至10のいずれか1つに記載の方法を論理要素のアレイに実行させる命令群を記憶するコンピュータ読取可能な媒体。
  12. 符号化された音声信号を処理するための装置であって、
    消去されたフレームに先行する前記符号化された音声信号の第1のフレームからの情報に基づいて、前記符号化された音声信号の消去されたフレームのための利得値を予測する手段と、
    (A)前記第1のフレームが第1のフォーマットにしたがって構成され、かつ、(B)前記符号化された音声信号の第1のフレームに先行する第2のフレームが、前記第1のフォーマットとは異なる第2のフォーマットにしたがって構成されることを示す表示に応答して、前記予測され利得値をしきい値と比較する手段と、
    前記比較することの結果に応答して、前記予測され利得値を増加する手段と、
    前記増加された利得値に基づく前記消去されたフレームのための励起信号を生成する手段と、
    を備え、
    前記第1のフォーマットは有声音フレームに対する符号化モードに関連付けられ、前記第2のフォーマットは無声音フレーム又はインアクティブフレームに対する符号化モードに関連付けられる、
    る装置。
  13. 前記予測される利得値は、適応コードブック利得値である、請求項12に記載の装置。
  14. 前記比較する手段は、前記表示に基づいて、前記第1および第2のフレームにおいて、少なくとも1つの特定のモードのシーケンスを検出し、前記検出することに応答して前記比較することを実行する手段を備える、請求項12および13のいずれか1つに記載の装置。
  15. 前記第1のフレームが第1のフォーマットにしたがって構成されることを示す表示は、前記第1のフレームが、過去の励起情報のメモリに基づく例示信号を使用して復号されるものであることを示す、請求項12乃至14のいずれか1つに記載の装置。
  16. 前記第2のフレームが第2のフォーマットにしたがって構成されることを示す表示は、前記第2のフォーマットが非周期的励起を有することを示す、請求項12乃至14のいずれか1つに記載の装置。
  17. 前記第2のフレームが第2のフォーマットにしたがって構成されることを示す表示は、前記第2のフレームがNoise−excited linear prediction符号化モードを使用して復号されるものであることを示す、請求項12乃至14のいずれか1つに記載の装置。
  18. 前記予測される利得値を増加する手段は、前記予測される利得値に、前記しきい値に等しい値を割り当てる手段を含む、請求項12乃至17のいずれか1つに記載の装置。
  19. 符号化された音声信号を処理するための装置であって、
    前記符号化された音声信号の消去されたフレームのための利得値を、前記消去されたフレームに先行する前記符号化された音声信号の第1のフレームからの情報に基づいて予測し、
    (A)前記第1のフレームが第1のフォーマットにしたがって構成され、かつ、(B)前記符号化された音声信号の前記第1のフレームに先行する第2のフレームが前記第1のフォーマットとは異なる第2のフォーマットにしたがって構成されることを示す表示に応答して、前記予測され利得値をしきい値と比較し、
    前記比較することの結果に応答して、前記利得値を増加する
    ように構成された論理モジュールと、
    前記増加された利得値に基づく前記消去されたフレームのための励起信号を生成するように構成された励起信号ジェネレータと、
    を備え
    前記第1のフォーマットは有声音フレームに対する符号化モードに関連付けられ、前記第2のフォーマットは無声音フレーム又はインアクティブフレームに対する符号化モードに関連付けられる、
    装置。
  20. 前記予測される利得値は、適応コードブック利得値である請求項19に記載の装置。
  21. 前記論理モジュールは、前記表示に基づいて、前記第1および第2のフレームにおける少なくとも1つの特定のモードのシーケンスを検出し、前記検出することに応答して前記比較することを実行するように構成される、請求項19および20のいずれか1つに記載の装置。
  22. 前記第1のフレームが第1のフォーマットにしたがって構成されることを示す表示は、前記第1のフレームが、過去の励起情報のメモリに基づく励起信号を使用して復号されるものであることを示す、請求項19乃至21のいずれか1つに記載の装置。
  23. 前記第2のフレームが第2のフォーマットに従って構成されることを示す表示は、前記第2のフレームが非周期的励起を有することを示す、請求項19乃至21のいずれか1つに記載の装置。
  24. 前記第2のフレームが第2のフォーマットにしたがって構成されることを示す表示は、前記第2のフレームがNoise−excited linear prediction符号化モードを使用して復号されるものであることを示す、請求項19乃至21のいずれか1つに記載の装置。
  25. 前記論理モジュールは、前記予測される利得値に、しきい値に等しい値を割り当てることによって、前記予測される利得値を増加するように構成される、請求項19乃至24のいずれか1つに記載の装置。
JP2009531638A 2006-10-06 2007-10-07 フレーム消去回復のシステム、方法、および装置 Active JP5265553B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US82841406P 2006-10-06 2006-10-06
US60/828,414 2006-10-06
US11/868,351 2007-10-05
US11/868,351 US7877253B2 (en) 2006-10-06 2007-10-05 Systems, methods, and apparatus for frame erasure recovery
PCT/US2007/080653 WO2008043095A1 (en) 2006-10-06 2007-10-07 Systems, methods, and apparatus for frame erasure recovery

Publications (2)

Publication Number Publication Date
JP2010506221A JP2010506221A (ja) 2010-02-25
JP5265553B2 true JP5265553B2 (ja) 2013-08-14

Family

ID=39052629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009531638A Active JP5265553B2 (ja) 2006-10-06 2007-10-07 フレーム消去回復のシステム、方法、および装置

Country Status (11)

Country Link
US (2) US7877253B2 (ja)
EP (2) EP2423916B1 (ja)
JP (1) JP5265553B2 (ja)
KR (1) KR101092267B1 (ja)
CN (1) CN101523484B (ja)
AT (1) ATE548726T1 (ja)
BR (1) BRPI0717495B1 (ja)
CA (1) CA2663385C (ja)
RU (1) RU2419167C2 (ja)
TW (1) TWI362031B (ja)
WO (1) WO2008043095A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
EP2153439B1 (en) * 2007-02-21 2018-01-17 Telefonaktiebolaget LM Ericsson (publ) Double talk detector
US8607127B2 (en) * 2007-09-21 2013-12-10 France Telecom Transmission error dissimulation in a digital signal with complexity distribution
TWI350653B (en) * 2007-10-19 2011-10-11 Realtek Semiconductor Corp Automatic gain control device and method
CN101437009B (zh) * 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其系统
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
US8706479B2 (en) * 2008-11-14 2014-04-22 Broadcom Corporation Packet loss concealment for sub-band codecs
US8238861B2 (en) * 2009-01-26 2012-08-07 Qualcomm Incorporated Automatic gain control in a wireless communication network
US8838819B2 (en) * 2009-04-17 2014-09-16 Empirix Inc. Method for embedding meta-commands in normal network packets
US8924207B2 (en) * 2009-07-23 2014-12-30 Texas Instruments Incorporated Method and apparatus for transcoding audio data
US8321216B2 (en) * 2010-02-23 2012-11-27 Broadcom Corporation Time-warping of audio signals for packet loss concealment avoiding audible artifacts
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
BR112013020324B8 (pt) * 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
NO2669468T3 (ja) * 2011-05-11 2018-06-02
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
JP5805601B2 (ja) * 2011-09-30 2015-11-04 京セラ株式会社 装置、方法、及びプログラム
US9728200B2 (en) * 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
US9208775B2 (en) * 2013-02-21 2015-12-08 Qualcomm Incorporated Systems and methods for determining pitch pulse period signal boundaries
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
US10199044B2 (en) * 2013-03-20 2019-02-05 Nokia Technologies Oy Audio signal encoder comprising a multi-channel parameter selector
US9502044B2 (en) 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
CA2916150C (en) * 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
CN104299614B (zh) * 2013-07-16 2017-12-29 华为技术有限公司 解码方法和解码装置
US10614816B2 (en) * 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
US10157620B2 (en) * 2014-03-04 2018-12-18 Interactive Intelligence Group, Inc. System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation
WO2015161166A1 (en) * 2014-04-17 2015-10-22 Audimax, Llc Systems, methods and devices for electronic communications having decreased information loss
US10770087B2 (en) * 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3194481B2 (ja) * 1991-10-22 2001-07-30 日本電信電話株式会社 音声符号化法
ES2225321T3 (es) 1991-06-11 2005-03-16 Qualcomm Incorporated Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos.
SE501340C2 (sv) * 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
JP3199142B2 (ja) * 1993-09-22 2001-08-13 日本電信電話株式会社 音声の励振信号符号化方法および装置
US5502713A (en) 1993-12-07 1996-03-26 Telefonaktiebolaget Lm Ericsson Soft error concealment in a TDMA radio system
DE69633164T2 (de) * 1995-05-22 2005-08-11 Ntt Mobile Communications Network Inc. Tondekoder
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
JP3095340B2 (ja) * 1995-10-04 2000-10-03 松下電器産業株式会社 音声復号化装置
US5960386A (en) 1996-05-17 1999-09-28 Janiszewski; Thomas John Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6636829B1 (en) 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
EP1235203B1 (en) 2001-02-27 2009-08-12 Texas Instruments Incorporated Method for concealing erased speech frames and decoder therefor
JP3628268B2 (ja) * 2001-03-13 2005-03-09 日本電信電話株式会社 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体
DE60217522T2 (de) 2001-08-17 2007-10-18 Broadcom Corp., Irvine Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7379865B2 (en) * 2001-10-26 2008-05-27 At&T Corp. System and methods for concealing errors in data transmission
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
FI118834B (fi) 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
WO2005117366A1 (ja) * 2004-05-26 2005-12-08 Nippon Telegraph And Telephone Corporation 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
JP3936370B2 (ja) * 2005-05-09 2007-06-27 富士通株式会社 音声復号化装置及びその方法
FR2897977A1 (fr) 2006-02-28 2007-08-31 France Telecom Procede de limitation de gain d'excitation adaptative dans un decodeur audio
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
US8165224B2 (en) * 2007-03-22 2012-04-24 Research In Motion Limited Device and method for improved lost frame concealment

Also Published As

Publication number Publication date
ATE548726T1 (de) 2012-03-15
US8825477B2 (en) 2014-09-02
CN101523484A (zh) 2009-09-02
US20080086302A1 (en) 2008-04-10
RU2009117181A (ru) 2010-11-20
BRPI0717495B1 (pt) 2019-12-10
KR20090082383A (ko) 2009-07-30
JP2010506221A (ja) 2010-02-25
KR101092267B1 (ko) 2011-12-13
EP2423916B1 (en) 2013-09-04
CA2663385A1 (en) 2008-04-10
US7877253B2 (en) 2011-01-25
BRPI0717495A2 (pt) 2014-04-22
EP2423916A3 (en) 2012-05-16
TWI362031B (en) 2012-04-11
CN101523484B (zh) 2012-01-25
US20110082693A1 (en) 2011-04-07
WO2008043095A1 (en) 2008-04-10
EP2070082A1 (en) 2009-06-17
EP2423916A2 (en) 2012-02-29
RU2419167C2 (ru) 2011-05-20
CA2663385C (en) 2013-07-02
TW200832356A (en) 2008-08-01
EP2070082B1 (en) 2012-03-07

Similar Documents

Publication Publication Date Title
JP5265553B2 (ja) フレーム消去回復のシステム、方法、および装置
KR101034453B1 (ko) 비활성 프레임들의 광대역 인코딩 및 디코딩을 위한 시스템, 방법, 및 장치
US8532984B2 (en) Systems, methods, and apparatus for wideband encoding and decoding of active frames
KR101078625B1 (ko) 이득 계수 제한을 위한 시스템, 방법 및 장치
US8990074B2 (en) Noise-robust speech coding mode classification
KR102007972B1 (ko) 스피치 처리를 위한 무성음/유성음 결정
KR20070118170A (ko) 스펙트럼 엔벨로프 표현의 벡터 양자화를 위한 방법 및장치
BR112015018057B1 (pt) Sistemas, métodos, aparelho e mídia legível por computador para aperfeiçoamento do formante adaptativo na codificação de predição linear
KR20230129581A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111129

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120229

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130501

R150 Certificate of patent or registration of utility model

Ref document number: 5265553

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250