JP2010530084A

JP2010530084A - ピッチ調整コーディング及び非ピッチ調整コーディングを使用する信号符号化

Info

Publication number: JP2010530084A
Application number: JP2010512371A
Authority: JP
Inventors: ラジェンドラン、ビベク; カンドハダイ、アナンサパドマナブハン・エー．; クリシュナン、ベンカテシュ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2007-06-13
Filing date: 2008-06-13
Publication date: 2010-09-02
Anticipated expiration: 2028-06-13
Also published as: JP2013242579A; US20080312914A1; WO2008157296A1; JP5405456B2; EP2176860B1; BRPI0812948A2; CN101681627B; TWI405186B; JP5571235B2; RU2470384C1; EP2176860A1; KR101092167B1; CN101681627A; RU2010100875A; CA2687685A1; KR20100031742A; US9653088B2; TW200912897A

Abstract

オーディオ信号のフレームのピッチ調整（ＰＲ）符号化中に計算される時間シフトが、非ＰＲ符号化中に別のフレームのセグメントを時間シフトするために使用される。

Description

米国特許法第１１９条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡された、２００７年６月１３日出願の「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＭＯＤＥＳＥＬＥＣＴＩＯＮＩＮＡＧＥＮＥＲＡＬＩＺＥＤＡＵＤＩＯＣＯＤＩＮＧＳＹＳＴＥＭＩＮＣＬＵＤＩＮＧＭＵＬＴＩＰＬＥＣＯＤＩＮＧＭＯＤＥＳ」と題する仮出願第６０／９４３，５５８号の優先権を主張するものである。

本開示は、オーディオ信号の符号化に関する。

スピーチ及び／または音楽などのオーディオ情報のデジタル技法による伝送は、特に長距離電話通信、有声音オーバーＩＰ（ＶｏＩＰとも呼ばれ、ＩＰはインターネットプロトコルを示す）などのパケット交換電話通信、及びセルラー電話通信などのデジタル無線電話通信において普及してきた。そのような普及は、再構成されたスピーチの知覚品質を維持しながら、伝送チャネルを介して有声音通信を転送するために使用される情報量を低減することの関心を生じている。たとえば、（特にワイヤレスシステムにおいて）利用可能なシステム帯域幅を効率的に使用することが望まれている。システム帯域幅を効率的に使用する１つの方法は、信号圧縮技法を使用することである。スピーチ信号を搬送するシステムの場合、通例、スピーチ圧縮（または「スピーチコーディング」）技法がこの目的のために使用される。

人間スピーチ発生のモデルに関係するパラメータを抽出することによってスピーチを圧縮するように構成されたデバイスは、しばしば、オーディオコーダ、有声音コーダ、コーデック、ボコーダ、またはスピーチコーダと呼ばれ、以下の説明では、これらの用語を互換的に使用する。オーディオコーダは概してエンコーダとデコーダとを含む。エンコーダは、一般に、デジタルオーディオ信号を、「フレーム」と呼ばれるサンプルの一連のブロックとして受信し、いくつかの関係するパラメータを抽出するために各フレームを分析し、対応する一連の符号化フレームを生成するためにパラメータを量子化する。符号化フレームは、伝送チャネル（すなわち、有線またはワイヤレスネットワーク接続）を介して、デコーダを含む受信機に送信される。代替として、符号化オーディオ信号は、後で検索及び復号するために記憶されることができる。デコーダは、符号化フレームを受信して処理し、パラメータを生成するためにそれらを逆量子化し、そして、それら逆量子化されたパラメータを使用してスピーチフレームを再現する。

コード励振線形予測（「ＣＥＬＰ」）は、元のオーディオ信号の波形を適合させようと試みるコーディング方式である。リラックスド（relaxed）ＣＥＬＰ（「ＲＣＥＬＰ」）と呼ばれるＣＥＬＰの変形態を使用して、スピーチ信号のフレーム、特に有声音フレームを符号化することが望ましい場合がある。ＲＣＥＬＰコーディング方式では、波形適合制約は緩和される。ＲＣＥＬＰコーディング方式はピッチ調整（pitch-regularizing）（「ＰＲ」）コーディング方式であり、信号のピッチ周期間の変動（「遅延輪郭（delay contour）」とも呼ばれる）が、一般に、ピッチパルスの相対位置をより滑らかな合成遅延輪郭に一致または近似するように変化させることによって調整される。ピッチ調整により、一般に知覚品質の低下をほとんどまたはまったく伴わずにピッチ情報をより少ないビットで符号化することを可能にする。一般に、調整量を指定する情報はデコーダに送信されない。以下の文書には、ＲＣＥＬＰコーディング方式を含むコーディングシステムが記載されている；第３世代パートナーシッププロジェクト２（「３ＧＰＰ２」）文書Ｃ．Ｓ００３０−０、ｖ３．０、表題「ＳｅｌｅｃｔａｂｌｅＭｏｄｅＶｏｃｏｄｅｒ（ＳＭＶ）ＳｅｒｖｉｃｅＯｐｔｉｏｎｆｏｒＷｉｄｅｂａｎｄＳｐｒｅａｄＳｐｅｃｔｒｕｍＣｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍｓ」、２００４年１月（ｗｗｗ．３ｇｐｐ．ｏｒｇからオンラインで入手可能）；及び３ＧＰＰ２文書Ｃ．Ｓ００１４−Ｃ、ｖ１．０、表題「ＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ，ＳｐｅｅｃｈＳｅｒｖｉｃｅＯｐｔｉｏｎｓ３，６８，ａｎｄ７０ｆｏｒＷｉｄｅｂａｎｄＳｐｒｅａｄＳｐｅｃｔｒｕｍＤｉｇｉｔａｌＳｙｓｔｅｍｓ」、２００７年１月（ｗｗｗ．３ｇｐｐ．ｏｒｇからオンラインで入手可能）。プロトタイプピッチ周期（「ＰＰＰ」）などのプロトタイプ波形補間（「ＰＷＩ」）方式を含む、有声音フレーム用の他のコーディング方式は、（たとえば、上記で参照した３ＧＰＰ２文書Ｃ．Ｓ００１４−Ｃの第４．２．４．３部に記載されているように）ＰＲとして実装されることもできる。男性話者のピッチ周波数の通常の範囲は５０または７０〜１５０または２００Ｈｚを含み、女性話者のピッチ周波数の通常の範囲は１２０または１４０〜３００または４００Ｈｚを含む。＊
公衆交換電話網（「ＰＳＴＮ」）を介したオーディオ通信は、従来、帯域幅が３００〜３４００キロヘルツ（ｋＨｚ）の周波数範囲に制限されてきた。セルラー電話通信及び／またはＶｏＩＰを使用するネットワークなど、オーディオ通信用のより最近のネットワークは、同じ帯域幅制限をもたない場合があり、そのようなネットワークを使用する装置では、広帯域周波数範囲を含むオーディオ通信を送信及び受信する能力を有することが望ましい場合がある。たとえば、そのような装置では、下は５０Ｈｚまで及び／または上は７もしくは８ｋＨｚまでに及ぶ可聴周波数範囲をサポートすることが望ましい場合がある。また、そのような装置では、従来のＰＳＴＮ制限外の範囲のオーディオスピーチコンテンツを有することがある、高品質オーディオまたはオーディオ／テレビ会議、音楽及び／またはテレビジョンなどのマルチメディアサービスの配信など、他の適用例をサポートすることが望ましい場合がある。

スピーチコーダによってサポートされる範囲をより高い周波数に拡大することは、了解度を向上させることができる。たとえば、「ｓ」や「ｆ」などの摩擦音を区別するスピーチ信号中の情報は、大部分は高周波数にある。ハイバンド拡大は、臨場感など、復号されたスピーチ信号の他の品質を向上させることもできる。たとえば、有声母音でさえも、ＰＳＴＮ周波数範囲をはるかに上回るスペクトルエネルギーを有する場合がある。

概略構成によるオーディオ信号のフレームを処理する方法は、ピッチ調整（「ＰＲ」）コーディング方式に従ってオーディオ信号の第１のフレームを符号化することと；非ＰＲコーディング方式に従ってオーディオ信号の第２のフレームを符号化することと、を含む。この方法では、第２のフレームは、オーディオ信号中の第１のフレームに後続し且つ連続し、第１のフレームを符号化することは、第１のフレームに基づく第１の信号のセグメントを時間シフトに基づいて時間修正（time-modify）することを含み、時間修正することは、（Ａ）時間シフト（time-shift）に従って第１の信号のセグメントを時間シフトすることと、（Ｂ）第１の時間シフトに基づいて第１の信号のセグメントをタイムワープ（time-warp）することと、のうちの１つを含む。この方法では、第１の信号のセグメントを時間修正することは、第１の信号の別のピッチパルスに対するセグメントのピッチパルスの位置を変化させることを含む。この方法では、第２のフレームを符号化することは、第２のフレームに基づく第２の信号のセグメントを時間シフトに基づいて時間修正することを含み、時間修正することは、（Ａ）時間シフトに従って第２のフレームのセグメントを時間シフトすることと、（Ｂ）時間シフトに基づいて第２の信号のセグメントをタイムワープすることと、のうちの１つを含む。また、そのような方法でオーディオ信号のフレームを処理するための命令を有するコンピュータ可読媒体、ならびに同様の方法でオーディオ信号のフレームを処理するための装置及びシステムが説明される。

別の概略構成に従ったオーディオ信号のフレームを処理する方法は、第１のコーディング方式に従ってオーディオ信号の第１のフレームを符号化することと；ＰＲコーディング方式に従ってオーディオ信号の第２のフレームを符号化することと、を含む。この方法では、第２のフレームは、オーディオ信号中の第１のフレームに後続し且つ連続し、第１のコーディング方式は非ＰＲコーディング方式である。この方法では、第１のフレームを符号化することは、第１のフレームに基づく第１の信号のセグメントを第１の時間シフトに基づいて時間修正することを含み、時間修正することは、（Ａ）第１の時間シフトに従って第１の信号のセグメントを時間シフトすることと、（Ｂ）第１の時間シフトに基づいて第１の信号のセグメントをタイムワープすることと、のうちの１つを含む。この方法では、第２のフレームを符号化することは、第２のフレームに基づく第２の信号のセグメントを第２の時間シフトに基づいて時間修正することを含み、時間修正することは、（Ａ）第２の時間シフトに従って第２の信号のセグメントを時間シフトすることと、（Ｂ）第２の時間シフトに基づいて第２の信号のセグメントをタイムワープすることと、のうちの１つを含む。この方法では、第２の信号のセグメントを時間修正することは、第２の信号の別のピッチパルスに対するセグメントのピッチパルスの位置を変化させることを含み、第２の時間シフトは、第１の信号の時間修正されたセグメントからの情報に基づく。また、そのような方法でオーディオ信号のフレームを処理するための命令を有するコンピュータ可読媒体、ならびに同様の方法でオーディオ信号のフレームを処理するための装置及びシステムが説明される。

図１は、ワイヤレス電話システムの例を示している。図２は、パケット交換データ通信をサポートするように構成されたセルラー電話通信システムの例を示している。図３ａは、オーディオエンコーダＡＥ１０とオーディオデコーダＡＤ１０とを含むコーディングシステムのブロック図を示している。図３ｂは、１対のコーディングシステムのブロック図を示している。図４ａは、オーディオエンコーダＡＥ１０のマルチモード実装形態ＡＥ２０のブロック図を示している。図４ｂは、オーディオデコーダＡＤ１０のマルチモード実装形態ＡＤ２０のブロック図を示している。図５ａは、オーディオエンコーダＡＥ２０の実装形態ＡＥ２２のブロック図を示している。図５ｂは、オーディオエンコーダＡＥ２０の実装形態ＡＥ２４のブロック図を示している。図６ａは、オーディオエンコーダＡＥ２４の実装形態ＡＥ２５のブロック図を示している。図６ｂは、オーディオエンコーダＡＥ２０の実装形態ＡＥ２６のブロック図を示している。図７ａは、オーディオ信号のフレームを符号化する方法Ｍ１０のフローチャートを示している。図７ｂは、オーディオ信号のフレームを符号化するように構成された装置Ｆ１０のブロック図を示している。図８は、遅延輪郭に対してタイムワープされる前及び後の残差の例を示している。図９は、区分的修正の前及び後の残差の例を示している。図１０は、ＲＣＥＬＰ符号化の方法ＲＭ１００のフローチャートを示している。図１１は、ＲＣＥＬＰ符号化方法ＲＭ１００の実装形態ＲＭ１１０のフローチャートを示している。図１２ａは、ＲＣＥＬＰフレームエンコーダ（frame encoder）３４ｃの実装形態ＲＣ１００のブロック図を示している。図１２ｂは、ＲＣＥＬＰエンコーダＲＣ１００の実装形態ＲＣ１１０のブロック図を示している。図１２ｃは、ＲＣＥＬＰエンコーダＲＣ１００の実装形態ＲＣ１０５のブロック図を示している。図１２ｄは、ＲＣＥＬＰエンコーダＲＣ１１０の実装形態ＲＣ１１５のブロック図を示している。図１３は、残差発生器（residual generator）Ｒ１０の実装形態Ｒ１２のブロック図を示している。図１４は、ＲＣＥＬＰ符号化のための装置ＲＦ１００のブロック図を示している。図１５は、ＲＣＥＬＰ符号化方法ＲＭ１００の実装形態ＲＭ１２０のフローチャートを示している。図１６は、ＭＤＣＴコーディング方式のための典型的な正弦ウィンドウ形状の３つの例を示している。図１７は、ＭＤＣＴエンコーダ３４ｄの実装形態ＭＥ１００のブロック図を示している。図１７ｂは、ＭＤＣＴエンコーダ３４ｄの実装形態ＭＥ２００のブロック図を示している。図１８は、図１６に示すウィンドウ処理技法とは異なるウィンドウ処理技法の一例を示している。図１９ａは、概略構成によるオーディオ信号のフレームを処理する方法Ｍ１００のフローチャートを示している。図１９ｂは、タスクＴ１１０の実装形態Ｔ１１２のフローチャートを示している。図１９ｃは、タスクＴ１１２の実装形態Ｔ１１４のフローチャートを示している。図２０ａは、ＭＤＣＴエンコーダＭＥ１００の実装形態ＭＥ１１０のブロック図を示している。図２０ｂは、ＭＤＣＴエンコーダＭＥ２００の実装形態ＭＥ２１０のブロック図を示している。図２１ａは、ＭＤＣＴエンコーダＭＥ１００の実装形態ＭＥ１２０のブロック図を示している。図２１ｂは、ＭＤＣＴエンコーダＭＥ１００の実装形態ＭＥ１３０のブロック図を示している。図２２は、ＭＤＣＴエンコーダＭＥ１２０及びＭＥ１３０の実装形態ＭＥ１４０のブロック図を示している。図２３ａは、ＭＤＣＴ符号化の方法ＭＭ１００のフローチャートを示している。図２３ｂは、ＭＤＣＴ符号化のための装置ＭＦ１００のブロック図を示している。図２４ａは、概略構成によるオーディオ信号のフレームを処理する方法Ｍ２００のフローチャートを示している。図２４ｂは、タスクＴ６２０の実装形態Ｔ６２２のフローチャートを示している。図２４ｃは、タスクＴ６２０の実装形態Ｔ６２４のフローチャートを示している。図２４ｄは、タスクＴ６２２及びＴ６２４の実装形態Ｔ６２６のフローチャートを示している。図２５ａは、オーディオ信号の連続フレームにＭＤＣＴウィンドウを適用することから生じる重複追加領域の一例を示している。図２５ｂは、非ＰＲフレームのシーケンスに時間シフトを適用する例を示している。図２６は、オーディオ通信用のデバイス１１０８のブロック図を示している。

本明細書で説明するシステム、方法、及び装置は、マルチモードオーディオコーディングシステム、特に修正離散コサイン変換（「ＭＤＣＴ」）コーディング方式などの重複追加非ＰＲコーディング方式を含むコーディングシステムにおけるＰＲコーディング方式と非ＰＲコーディング方式との間の遷移中に、高い知覚品質をサポートするために使用されることができる。以下で説明する構成は、符号分割多元接続（「ＣＤＭＡ」）無線インターフェースを使用するように構成されたワイヤレス電話通信システム中に存在する。とはいえ、本明細書で説明する特徴を有する方法及び装置は、有線及び／またはワイヤレス（たとえば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、及び／またはＴＤ−ＳＣＤＭＡ）伝送チャネルを介した有声音オーバーＩＰ（「ＶｏＩＰ」）を使用するシステムなど、当業者に知られている広範な技術を使用する様々な通信システムのいずれにも存在できることが当業者には理解されよう。

本明細書に開示する構成は、パケット交換式であるネットワーク（たとえば、ＶｏＩＰなどのプロトコルに従ってオーディオ伝送を行なうように構成された有線及び／またはワイヤレスネットワーク）及び／または回線交換式であるネットワークにおける使用に適応され得るということが明確に企図され、本明細書によって開示される。また、本明細書に開示する構成は、狭帯域コーディングシステム（たとえば、約４または５キロヘルツのオーディオ周波数範囲を符号化するシステム）での使用、ならびに全バンド（whole-band）帯域広帯域コーディングシステム及びスプリットバンド（split-band）広帯域コーディングシステムを含む、広帯域コーディングシステム（たとえば、５キロヘルツを超えるオーディオ周波数を符号化するシステム）での使用に適応され得るということが明確に企図され、本明細書によって開示される。

文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置（またはメモリ位置の組）の状態を含む、その通常の意味のいずれをも表すのに使用される。文脈によって明確に限定されない限り、「発生（generating）」という用語は、本明細書では、コンピュータ計算（computing）または別様の生成（producing）など、その通常の意味のいずれをも表すのに使用される。文脈によって明確に限定されない限り、「計算（calculating）」という用語は、本明細書では、コンピュータ計算、評価、平滑化、及び／または複数の値からの選択など、その通常の意味のいずれをも表すのに使用される。文脈によって明確に限定されない限り、「取得」という用語は、計算、導出、（たとえば、外部デバイスからの）受信、及び／または（たとえば、記憶要素のアレイからの）検索など、その通常の意味のいずれをも表すのに使用される。「備える（comprising）」という用語は、本明細書及び特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「ＡはＢに基づく」という表現は、（特定の文脈において適切であるならば）（ｉ）「Ａは少なくともＢに基づく」及び（ｉｉ）「ＡはＢに等しい」という場合を含む、その通常の意味のいずれをも表すのに使用される。

別段の指示がない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。たとえば、別段の指定がない限り、特定の特徴を有するオーディオエンコーダのいかなる開示も、類似の特徴を有するオーディオ符号化の方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成によるオーディオエンコーダのいかなる開示も、類似の構成によるオーディオ符号化の方法を開示する（その逆も同様）ことをも明確に意図する。

文書の一部の参照によるいかなる組込みも、その部分内で言及された用語または変数の定義が文書中の他の場所に現れた場合、そのような定義を組み込んでいることをも理解されたい。

「コーダ」、「コーデック」、及び「コーディングシステム」という用語は、（場合によっては知覚的重み付け及び／または他のフィルタ処理操作などの１つまたは複数の前処理操作の後に）オーディオ信号のフレームを受信するように構成された少なくとも１つのエンコーダと、フレームの復号化表現を生成するように構成された対応するデコーダと、を含むシステムを示すのに互換的に使用される。

図１に示すように、ワイヤレス電話システム（たとえば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、及び／またはＴＤ−ＳＣＤＭＡシステム）は、概して、複数の基地局（ＢＳ）１２と１つまたは複数の基地局コントローラ（ＢＳＣ）１４とを含む無線アクセスネットワークとワイヤレスで通信するように構成された複数の移動体加入者ユニット１０を含む。そのようなシステムは、概して、ＢＳＣ１４に結合され、従来の公衆交換電話網（ＰＳＴＮ）１８に当該無線アクセスネットワークをインターフェースするように構成された、移動体交換センター（ＭＳＣ）１６をも含む。このインターフェースをサポートするために、ＭＳＣは、ネットワーク間の変換ユニットとして働くメディアゲートウェイを含むか、またはメディアゲートウェイと通信することができる。メディアゲートウェイは、異なる伝送及び／またはコーディング技法など、異なるフォーマット間で変換する（たとえば、時分割多重化（「ＴＤＭ」）有声音とＶｏＩＰとの間で変換する）ように構成され、また、エコー消去、デュアルタイム多重周波数（「ＤＴＭＦ」）、及びトーン送信などのメディアストリーミング機能を実行するように構成されることができる。ＢＳＣ１４は、迂回中継線を介して基地局１２に結合される。迂回中継線は、たとえば、Ｅ１／Ｔ１、ＡＴＭ、ＩＰ、ＰＰＰ、フレームリレー、ＨＤＳＬ、ＡＤＳＬ、またはｘＤＳＬを含む、いくつかの知られているインターフェースのいずれをもサポートするように構成されることができる。基地局１２と、ＢＳＣ１４と、ＭＳＣ１６と、もしあればメディアゲートウェイとの集合は「インフラストラクチャ」とも呼ばれる。

各基地局１２は、有利には、少なくとも１つのセクタ（図示せず）を含み、各セクタは、全方向性アンテナ、または基地局１２から径方向に離れるある特定の方向を向いたアンテナを備える。代替として、各セクタは、ダイバーシチ受信用の２つ以上のアンテナを備えることができる。各基地局１２は、有利には、複数の周波数割当てをサポートするように設計されることができる。セクタと周波数割当ての交わり（intersection）は、ＣＤＭＡチャネルと呼ばれることがある。基地局１２は、基地局トランシーバサブシステム（ＢＴＳ）１２としても知られている。代替として、「基地局」は、当業界において、ＢＳＣ１４と１つまたは複数のＢＴＳ１２とを総称するのに使用される場合がある。ＢＴＳ１２は「セルサイト」１２と表される場合もある。代替として、所与のＢＴＳ１２の個々のセクタをセルサイトと呼ぶことがある。移動体加入者ユニット１０は、一般に、セルラー及び／またはパーソナル通信サービス（「ＰＣＳ」）電話、携帯情報端末（「ＰＤＡ」）、及び／または移動電話機能を有する他のデバイスが含まれる。そのようなユニット１０は、内蔵型のスピーカ及びマイクロホン、スピーカとマイクロホンとを含むコード付きハンドセットまたはヘッドセット（たとえば、ＵＳＢハンドセット）、またはスピーカとマイクロホンとを含むワイヤレスヘッドセット（たとえば、ＢｌｕｅｔｏｏｔｈＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ（ワシントン州ベルビュー）によって公表されたＢｌｕｅｔｏｏｔｈ（登録商標）プロトコルのバージョンを使用してユニットにオーディオ情報を通信するヘッドセット）を含むことができる。そのようなシステムは、ＩＳ−９５標準の１つまたは複数のバージョン（たとえば、ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＩｎｄｕｓｔｒｙＡｌｌｉａｎｃｅ（バージニア州アーリントン）によって発表されたＩＳ−９５、ＩＳ−９５Ａ、ＩＳ−９５Ｂ、ｃｄｍａ２０００）に従う使用のために構成されることができる。

次に、セルラー電話システムの典型的な動作について説明する。基地局１２は、移動体加入者ユニット１０の組から、上りリンク信号の組を受信する。移動体加入者ユニット１０は、電話通話または他の通信を行っている。所与の基地局１２によって受信された各上りリンク信号は、その基地局１２内で処理され、得られたデータはＢＳＣ１４に転送される。ＢＳＣ１４は、コールリソース割当てと、基地局１２間のソフトハンドオフの編成を含むモビリティ管理機能とを提供する。ＢＳＣ１４はまた、ＰＳＴＮ１８とのインターフェースのための追加のルーティングサービスを提供するＭＳＣ１６に受信データをルーティングする。同様に、ＰＳＴＮ１８は、ＭＳＣ１６とインターフェースをとり、ＭＳＣ１６は、下りリンク信号の組を移動体加入者ユニット１０の組に送信するように基地局１２を制御するＢＳＣ１４とインターフェースをとる。

図１に示すセルラー電話通信システムの要素は、パケット交換データ通信をサポートするように構成されることもできる。図２に示すように、パケットデータトラフィックは、概して、パケットデータネットワークに接続されたゲートウェイルータに結合されたパケットデータサービスノード（ＰＤＳＮ）２２を使用して、移動体加入者ユニット１０と外部のパケットデータネットワーク２４（たとえば、インターネットなどの公衆網）との間をルーティングされる。ＰＤＳＮ２２は、１つまたは複数のＢＳＣ１４にサービスを提供し、パケットデータネットワークと無線アクセスネットワークとの間のリンクとして働く、１つまたは複数のパケット制御機能（ＰＣＦ）２０にデータを順次ルーティングする。パケットデータネットワーク２４はまた、ローカルエリアネットワーク（「ＬＡＮ」）、キャンパスエリアネットワーク（「ＣＡＮ」）、メトロポリタンエリアネットワーク（「ＭＡＮ」）、広域ネットワーク（「ＷＡＮ」）、リング型ネットワーク、スター型ネットワーク、トークンリングネットワークなどを含むように実装されることができる。ネットワーク２４に接続されたユーザ端末は、ＰＤＡ、ラップトップコンピュータ、パーソナルコンピュータ、ゲームデバイス（そのようなデバイスの例には、ＸＢｏｘ及びＸＢｏｘ３６０（マイクロソフト社（ワシントン州レドモンド））、プレイステーション３及びプレイステーション・ポータブル（ソニー（株）、日本国東京）、ならびにＷｉｉ及びＤＳ（任天堂、日本国京都）がある）、及び／またはオーディオ処理機能を有する任意のデバイスとすることができ、ＶｏＩＰなど、１つまたは複数のプロトコルを使用して電話通話または他の通信をサポートするように構成されることができる。そのような端末は、内蔵型のスピーカ及びマイクロホン、スピーカとマイクロホンとを含むコード付きハンドセット（たとえば、ＵＳＢハンドセット）、またはスピーカとマイクロホンとを含むワイヤレスヘッドセット（たとえば、ＢｌｕｅｔｏｏｔｈＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ（ワシントン州ベルビュー）によって公表されたＢｌｕｅｔｏｏｔｈプロトコルのバージョンを使用して端末にオーディオ情報を通信するヘッドセット）を含むことができる。そのようなシステムは、ＰＳＴＮに決して入ることなく、（たとえば、ＶｏＩＰなど、１つまたは複数のプロトコルによる）異なる無線アクセスネットワーク上の移動体加入者ユニット間、移動体加入者ユニットと非移動体ユーザ端末との間、または２つの非移動体ユーザ端末間のパケットデータトラフィックとして電話通話または他の通信を行なうように構成されることができる。移動体加入者ユニット１０または他のユーザ端末は、「アクセス端末」とも呼ばれる。

図３ａは、デジタルオーディオ信号Ｓ１００を（たとえば、一連のフレームとして）受信し、通信チャネルＣ１００（たとえば、有線、光及び／またはワイヤレス通信リンク）上でオーディオデコーダＡＤ１０に送信するための対応する符号化信号Ｓ２００を（たとえば、一連の対応する符号化フレームとして）生成するように構成されたオーディオエンコーダＡＥ１０を示している。オーディオデコーダＡＤ１０は、符号化オーディオ信号Ｓ２００の受信されたバージョンＳ３００を復号し、対応する出力スピーチ信号Ｓ４００を合成するように構成される。

オーディオ信号Ｓ１００は、デジタル化され、パルス符号変調（「ＰＣＭ」）、μ−ｌａｗ圧伸またはＡ則圧伸など当技術分野で知られている様々な方法のいずれかに従って量子化された（たとえば、マイクロホンによって捕捉された）アナログ信号を表す。この信号は、ノイズ抑圧、知覚的重み付け、及び／または他のフィルタ処理操作など、アナログ及び／またはデジタル領域における他の前処理操作を受けてもよい。追加または代替として、そのような操作は、オーディオエンコーダＡＥ１０内で実行されることができる。オーディオ信号Ｓ１００のインスタンス（instance）は、デジタル化され、量子化された（たとえば、一連のマイクロホンによって捕捉された）アナログ信号の組合せを表すこともできる。

図３ｂは、デジタル化オーディオ信号Ｓ１００の第１のインスタンスＳ１１０を受信し、通信チャネルＣ１００の第１のインスタンスＣ１１０上でオーディオデコーダＡＤ１０の第１のインスタンスＡＤ１０ａに送信するための、符号化信号Ｓ２００の対応するインスタンスＳ２１０を生成するように構成されたオーディオエンコーダＡＥ１０の第１のインスタンスＡＥ１０ａを示している。オーディオデコーダＡＤ１０ａは、符号化オーディオ信号Ｓ２１０の受信されたバージョンＳ３１０を復号し、出力スピーチ信号Ｓ４００の対応するインスタンスＳ４１０を合成するように構成される。

図３ｂはまた、デジタルオーディオ信号Ｓ１００の第２のインスタンスＳ１２０を受信し、通信チャネルＣ１００の第２のインスタンスＣ１２０上でオーディオデコーダＡＤ１０の第２のインスタンスＡＤ１０ｂに送信するための、符号化信号Ｓ２００の対応するインスタンスＳ２２０を生成するように構成されたオーディオエンコーダＡＥ１０の第２のインスタンスＡＥ１０ｂをも示している。オーディオデコーダＡＤ１０ｂは、符号化オーディオ信号Ｓ２２０の受信されたバージョンＳ３２０を復号し、出力スピーチ信号Ｓ４００の対応するインスタンスＳ４２０を合成するように構成される。

オーディオエンコーダＡＥ１０ａ及びオーディオデコーダＡＤ１０ｂ（同様に、オーディオエンコーダＡＥ１０ｂ及びオーディオデコーダＡＤ１０ａ）は、たとえば、図１及び図２に関して上述した加入者ユニット、ユーザ端末、メディアゲートウェイ、ＢＴＳ、またはＢＳＣを含む、スピーチ信号を送信及び受信するためのどんな通信デバイスにおいても一緒に使用されることができる。本明細書で説明するように、オーディオエンコーダＡＥ１０は多数の異なる方法で実装でき、オーディオエンコーダＡＥ１０ａ及びＡＥ１０ｂはオーディオエンコーダＡＥ１０の異なる実装形態のインスタンスとすることができる。同様に、オーディオデコーダＡＤ１０は多数の異なる方法で実装でき、オーディオデコーダＡＤ１０ａ及びＡＤ１０ｂはオーディオデコーダＡＤ１０の異なる実装形態のインスタンスとすることができる。

オーディオエンコーダ（たとえば、オーディオエンコーダＡＥ１０）は、オーディオ信号のデジタルサンプルを入力データの一連のフレームとして処理するもので、各フレームは所定数のサンプルを備える。フレームまたは（サブフレームとも呼ばれる）フレームのセグメントを処理する操作は、その入力中の１つまたは複数の隣接フレームのセグメントを含むこともできるとはいえ、この一連は、通常、重複しない一連として実装される。オーディオ信号のフレームは、一般に、信号のスペクトル包絡線がそのフレームにわたって比較的固定のままであることが予想できるほど十分に短い。フレームは、一般に、５ミリ秒と３５ミリ秒との間のオーディオ信号（または約４０サンプルから２００サンプルまで）に対応し、電話通信の適用例では２０ミリ秒が通常のフレームサイズである。通常のフレームサイズの他の例は、１０ミリ秒及び３０ミリ秒を含む。一般に、オーディオ信号のすべてのフレームは同じ長さをもち、本明細書で説明する特定の例では、一様のフレーム長を仮定する。ただし、一様でないフレーム長が使用され得ることも明確に企図され、本明細書によって開示される。

２０ミリ秒のフレーム長は、７キロヘルツ（ｋＨｚ）のサンプリングレートでは１４０個のサンプルに対応し、８ｋＨｚのサンプリングレート（狭帯域コーディングシステム用の１つの典型的なサンプリングレート）では１６０個のサンプルに対応し、１６ｋＨｚのサンプリングレート（広帯域コーディングシステム用の１つの典型的なサンプリングレート）では３２０個のサンプルに対応するが、特定の適用例に好適であると考えられるどんなサンプリングレートも使用され得る。スピーチコーディングに使用され得るサンプリングレートの別の例は１２．８ｋＨｚであり、さらなる例は、１２．８ｋＨｚ〜３８．４ｋＨｚの範囲の他のレートを含む。

電話通話など典型的なオーディオ通信セッションでは、各話者は約６０パーセントの時間の間沈黙している。そのような適用例のためのオーディオエンコーダは、通常、スピーチまたは他の情報を含むオーディオ信号のフレーム（「アクティブフレーム」）を、バックグラウンドノイズまたは無音のみを含むオーディオ信号のフレーム（「非アクティブフレーム」）と区別するように構成される。アクティブフレーム及び非アクティブフレームを符号化するのに異なるコーディングモード及び／またはビットレートを使用するようにオーディオエンコーダＡＥ１０を実装することが望ましい場合がある。たとえば、オーディオエンコーダＡＥ１０は、アクティブフレームを符号化するために使用するビットよりも、非アクティブフレームを符号化するために使用するビットのほうが少なくなる（すなわち、ビットレートが低くなる）ように実装されることができる。オーディオエンコーダＡＥ１０のためには、異なるタイプのアクティブフレームを符号化するのに異なるビットレートを使用することが望ましい場合もある。そのような場合、より低いビットレートが、比較的少ないスピーチ情報を含むフレームに対して選択的に使用されることができる。アクティブフレームを符号化するのに通例使用されるビットレートの例は、１フレーム当たり１７１ビット、１フレーム当たり８０ビット、及び１フレーム当たり４０ビットを含み；非アクティブフレームを符号化するのに通例使用されるビットレートの例には、１フレーム当たり１６ビットを含む。セルラー電話通信システム（特に、ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＩｎｄｕｓｔｒｙＡｓｓｏｃｉａｔｉｏｎ（バージニア州アーリントン）によって公表された暫定標準（ＩＳ）−９５または同様の業界標準に準拠するシステム）のコンテキスト（context）では、これらの４つのビットレートは、それぞれ「フルレート」、「ハーフレート」、「１／４レート」、及び「１／８レート」とも呼ばれる。

オーディオエンコーダＡＥ１０のためには、オーディオ信号の各アクティブフレームをいくつかの異なるタイプの１つとして分類することが望ましい場合がある。これらの異なるタイプは、有声音スピーチ（たとえば、母音を表すスピーチ）のフレーム、遷移フレーム（たとえば、単語の先頭または末尾を表すフレーム）、無声音スピーチ（たとえば、摩擦音を表すスピーチ）のフレーム、及び非スピーチ情報のフレーム（たとえば、歌唱及び／または楽器などの音楽、あるいは他のオーディオコンテンツ）を含むことができる。異なるタイプのフレームを符号化するのに異なるコーディングモードを使用するようにオーディオエンコーダＡＥ１０を実装することが望ましい場合がある。たとえば、有声音スピーチのフレームは、長期間であり（すなわち、複数のフレーム周期の間継続し）且つピッチに関連する周期構造を有する傾向があり、一般に、この長期間スペクトル特徴の記述を符号化するコーディングモードを使用して有声音フレーム（または一連の有声音フレーム）を符号化するのがより効率的である。そのようなコーディングモードの例は、コード励振線形予測（「ＣＥＬＰ」）、プロトタイプ波形補間（「ＰＷＩ」）、及びプロトタイプピッチ周期（「ＰＰＰ」）を含む。一方、無声音フレーム及び非アクティブフレームは、通常、著しい長期間スペクトル特徴がなく、オーディオエンコーダは、そのような特徴を記述しようと試みないコーディングモードを使用して、これらのフレームを符号化するように構成されることができる。ノイズ励起線形予測（「ＮＥＬＰ」）は、そのようなコーディングモードの一例である。音楽のフレームは、通常、異なるトーンの混合体を含み、オーディオエンコーダは、フーリエ変換またはコサイン変換などの正弦分解に基づく方法を使用して、これらのフレーム（またはこれらのフレームに対するＬＰＣ分析演算の残差）を符号化するように構成されることができる。１つのそのような例は、修正離散コサイン変換（「ＭＤＣＴ」）に基づくコーディングモードである。

オーディオエンコーダＡＥ１０、または対応するオーディオ符号化の方法は、ビットレートとコーディングモード（「コーディング方式」とも呼ばれる）の様々な組合せの中から選択するように実装されることができる。たとえば、オーディオエンコーダＡＥ１０は、有声音スピーチを含むフレーム及び遷移フレームにはフルレートＣＥＬＰ方式を、無声音スピーチを含むフレームにはハーフレートＮＥＬＰ方式を、非アクティブフレームには１／８レートＮＥＬＰ方式を、及び（たとえば、音楽を含むフレームを含んでいる）一般的なオーディオフレームにはフルレートＭＤＣＴ方式を使用するように実装されることができる。代替として、オーディオエンコーダＡＥ１０のそのような実装形態は、有声音スピーチを含む少なくともいくつかのフレーム、特に高度有声音フレームに対してフルレートＰＰＰ方式を使用するように構成され得る。

オーディオエンコーダＡＥ１０は、フルレート及びハーフレートＣＥＬＰ方式、及び／またはフルレート及び１／４レートＰＰＰ方式など、１つまたは複数のコーディング方式の各々に対して複数のビットレートをサポートするように構成されることもできる。安定した有声音スピーチの周期を含む一連のフレームは、たとえば、少なくともフレームの一部が、知覚品質を大きく損なうことなくフルレート未満で符号化されることができるように、かなり冗長になる傾向がある。

（複数のビットレート及び／またはコーディングモードをサポートするオーディオコーダを含む）マルチモードオーディオコーダは、概して、低ビットレートでの効率的なオーディオコーディングを提供する。当業者は、コーディング方式の数を増やすと、コーディング方式を選択する際の柔軟性が増し、その結果、平均ビットレートを低くできることを認識するであろう。ただし、コーディング方式の数が増えると、それに応じて全システム内の複雑さが増すことになる。所与のシステムにおいて使用される利用可能な方式の特定の組合せは、利用可能なシステムリソースと特定の信号環境とによって規定されるだろう。マルチモードコーディング技法の例は、たとえば、「ＶＡＲＩＡＢＬＥＲＡＴＥＳＰＥＥＣＨＣＯＤＩＮＧ」と題する米国特許第６，６９１，０８４号、及び「ＡＲＢＩＴＲＡＲＹＡＶＥＲＡＧＥＤＡＴＡＲＡＴＥＳＦＯＲＶＡＲＩＡＢＬＥＲＡＴＥＣＯＤＥＲＳ」と題する米国特許公開第２００７／０１７１９３１号に記載されている。

図４ａは、オーディオエンコーダＡＥ１０のマルチモード実装形態ＡＥ２０のブロック図を示している。エンコーダＡＥ２０は、コーディング方式選択器２０と、複数ｐ個のフレームエンコーダ３０ａ〜３０ｐとを含む。ｐ個のフレームエンコーダの各々は、それぞれのコーディングモードに従ってフレームを符号化するように構成され、コーディング方式選択器２０によって生成されたコーディング方式選択信号は、現在フレームに対して所望のコーディングモードを選択するようにオーディオエンコーダＡＥ２０の１対の選択器５０ａと５０ｂを制御するために使用される。コーディング方式選択器２０は、選択されたビットレートで現在フレームを符号化するように、選択されたフレームエンコーダを制御するように構成されることもできる。オーディオエンコーダＡＥ２０のソフトウェアまたはファームウェア実装形態は、実行のフローをフレームデコーダの１つまたは別の１つに導くためにコーディング方式指示を使用することができ、そのような実装形態は、選択器５０ａ及び／または選択器５０ｂの類似物を含まないことができることに留意されたい。フレームエンコーダ３０ａ〜３０ｐのうちの２つ以上（場合によってはすべて）は、（場合によっては、スピーチ及び非スピーチフレームの次数が非アクティブフレームの次数よりも高いなど、異なるコーディング方式に対して異なる次数を有する結果を生成するように構成された）ＬＰＣ係数値の計算器及び／またはＬＰＣ残差発生器など、共通の構造を共有することができる。

コーディング方式選択器２０は、一般に、入力オーディオフレームを調べ、どのコーディングモードまたは方式をそのフレームに適用するかに関する決定を行うオープンループ決定モジュールを含む。このモジュールは、一般に、フレームをアクティブまたは非アクティブとして分類するように構成され、また、有声音、無声音、遷移、または一般的なオーディオなど、２つ以上の異なるタイプのうちの１つとして、アクティブフレームを分類するように構成されることもできる。フレーム分類は、全体的なフレームエネルギー、２つ以上の異なる周波数帯域の各々におけるフレームエネルギー、信号対ノイズ比（「ＳＮＲ」）、周期性、及びゼロ交差レートなど、現在フレーム、及び／あるいは１つまたは複数の前のフレームの１つまたは複数の特性に基づかれることができる。コーディング方式選択器２０は、そのような特性の値を計算するように、オーディオエンコーダＡＥ２０の１つまたは複数の他のモジュールからそのような特性の値を受信するように、及び／またはオーディオエンコーダＡＥ２０を含むデバイス（たとえば、セルラー電話）の１つまたは複数の他のモジュールからそのような特性の値を受信するように実装されることができる。フレーム分類は、そのような特性の値または大きさを閾値と比較すること、及び／またはそのような値の変化の大きさを閾値と比較することを含むことができる。

オープンループ決定モジュールは、フレームが含んでいるスピーチのタイプに従って特定のフレームを符号化するときのビットレートを選択するように構成されることができる。そのような動作は「可変レートコーディング」と呼ばれる。たとえば、より高いビットレート（たとえば、フルレート）で遷移フレームを符号化し、より低いビットレート（たとえば、１／４レート）で無声音フレームを符号化し、中間のビットレート（たとえば、ハーフレート）でまたはより高いビットレート（たとえば、フルレート）で有声音フレームを符号化するようにオーディオエンコーダＡＤ２０を構成することが望ましい場合がある。特定のフレームに対して選択されるビットレートは、所望の平均ビットレート、（所望の平均ビットレートをサポートするために使用され得る）一連のフレームにわたるビットレートの所望のパターン、及び／または前のフレームに対して選択されたビットレートなどの基準に依存することもできる。

コーディング方式選択器２０はまた、オープンループ選択コーディング方式を使用する完全なまたは部分的な符号化の後に符号化性能の１つまたは複数の尺度が得られる、閉ループコーディング決定を実行するように実装されることもできる。閉ループテストにおいて考察される性能尺度は、たとえば、ＳＮＲ、ＰＰＰスピーチエンコーダなどの符号化方式におけるＳＮＲ予測、予測誤差量子化ＳＮＲ、位相量子化ＳＮＲ、振幅量子化ＳＮＲ、知覚ＳＮＲ、及び定常性の尺度としての現在フレームと過去のフレームとの間の正規化相互相関を含む。コーディング方式選択器２０は、そのような特性の値を計算するように、オーディオエンコーダＡＥ２０の１つまたは複数の他のモジュールからそのような特性の値を受けるように、及び／またはオーディオエンコーダＡＥ２０を含むデバイス（たとえば、セルラー電話）の１つまたは複数の他のモジュールからそのような特性の値を受けるように実装されることができる。性能尺度が閾値を下回る場合、ビットレート及び／またはコーディングモードは、より良い品質を与えることが期待されるものに変更されることができる。可変レートマルチモードオーディオコーダの品質を維持するために使用されることができる閉ループ分類方式の例は、「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＭＡＩＮＴＡＩＮＩＮＧＡＴＡＲＧＥＴＢＩＴＲＡＴＥＩＮＡＳＰＥＥＣＨＣＯＤＥＲ」と題する米国特許第６，３３０，５３２号、及び「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＰＥＲＦＯＲＭＩＮＧＳＰＥＥＣＨＦＲＡＭＥＥＮＣＯＤＩＮＧＭＯＤＥＳＥＬＥＣＴＩＯＮＩＮＡＶＡＲＩＡＢＬＥＲＡＴＲＥＥＮＣＯＤＩＮＧＳＹＳＴＥＭ」と題する米国特許第５，９１１，１２８号に記載されている。

図４ｂは、対応する復号オーディオ信号Ｓ４００を生成するために、受信された符号化オーディオ信号Ｓ３００を処理するように構成されたオーディオデコーダＡＤ１０の実装形態ＡＤ２０のブロック図を示している。オーディオデコーダＡＤ２０は、コーディング方式検出器６０と、複数ｐ個のフレームデコーダ７０ａ〜７０ｐとを含む。デコーダ７０ａ〜７０ｐは、フレームデコーダ７０ａがフレームエンコーダ３０ａによって符号化されたフレームを復号するように構成され、以下同様となるように、上述のオーディオエンコーダＡＥ２０のエンコーダに対応するように構成されることができる。フレームデコーダ７０ａ〜７０ｐのうちの２つ以上（場合によってはすべて）は、復号ＬＰＣ係数値の組に従って構成可能な合成フィルタなど、共通の構造を共有することができる。そのような場合、フレームデコーダは、主に、復号オーディオ信号を生成するために合成フィルタを励起する励起信号を発生させるために使用する技法が異なる。オーディオデコーダＡＤ２０は、一般に、（たとえば、フォルマント周波数を強調すること、及び／またはスペクトルの谷を減衰させることによって）量子化ノイズを低減するために復号オーディオ信号Ｓ４００を処理するように構成されたポストフィルタ（postfilter）をも含み、また適応利得制御を含むこともできる。オーディオデコーダＡＤ２０を含むデバイス（たとえば、セルラー電話）は、イヤホン、スピーカ、もしくは他のオーディオトランスデューサ、及び／またはデバイスの筐体内にあるオーディオ出力ジャックに出力するための、復号オーディオ信号Ｓ４００からアナログ信号を生成するように設定及び構成されたデジタルアナログ変換器（「ＤＡＣ」）を含むことができる。そのようなデバイスは、アナログ信号がジャック及び／またはトランスデューサに印加される前に、そのアナログ信号に対して１つまたは複数のアナログ処理演算（たとえば、フィルタ処理、等化、及び／または増幅）を実行するように構成されることもできる。

コーディング方式検出器６０は、受信された符号化オーディオ信号Ｓ３００の現在フレームに対応するコーディング方式を指示するように構成される。適切なコーディングビットレート及び／またはコーディングモードは、フレームのフォーマットによって指示されることができる。コーディング方式検出器６０は、レート検出を実行するように、または多重サブレイヤなど、オーディオデコーダＡＤ２０が埋め込まれている装置の別の部分からレート指示を受けるように構成されることができる。たとえば、コーディング方式検出器６０は、ビットレートを指示するパケットタイプインジケータを多重サブレイヤから受けるように構成されることができる。代替として、コーディング方式検出器６０は、フレームエネルギーなどの１つまたは複数のパラメータから符号化フレームのビットレートを判断するように構成されることができる。適用例によっては、コーディングシステムは、符号化フレームのビットレートがコーディングモードをも指示するように、特定のビットレートに対してただ１つのコーディングモードを使用するように構成される。他の場合には、符号化フレームは、フレームが符号化される際のコーディングモードを特定する１つまたは複数のビットの組などの情報を含むことができる。そのような情報（「コーディングインデックス」とも呼ばれる）は、（たとえば、他の可能なコーディングモードには無効である値を指示することによって）明示的にまたは暗示的にコーディングモードを指示することができる。

図４ｂは、コーディング方式検出器６０によって生成されたコーディング方式指示が、フレームデコーダ７０ａ〜７０ｐのうちの１つを選択するようにオーディオデコーダＡＤ２０の１対の選択器９０ａと９０ｂを制御するために使用される一例を示している。オーディオデコーダＡＤ２０のソフトウェアまたはファームウェアの実装形態は、フレームデコーダのある１つまたは別の１つに実行のフローを導くためにコーディング方式指示を使用でき、そのような実装形態は、選択器９０ａ及び／または選択器９０ｂの類似物を含まなくて良いということに留意されたい。

図５ａは、フレームエンコーダ３０ａ、３０ｂの実装形態３２ａ、３２ｂを含むマルチモードオーディオエンコーダＡＥ２０の実装形態ＡＥ２２のブロック図を示している。この例では、コーディング方式選択器２０の実装形態２２は、オーディオ信号Ｓ１００のアクティブフレームを非アクティブフレームと区別するように構成される。そのような動作は、「ボイスアクティビティ検出」とも呼ばれ、コーディング方式選択器２２は、ボイスアクティビティ検出器を含むように実装され得る。たとえば、コーディング方式選択器２２は、アクティブフレームに対しては（アクティブフレームエンコーダ３２ａの選択を指示する）ハイであり、非アクティブフレームに対しては（非アクティブフレームエンコーダ３２ｂの選択を指示する）ローである、バイナリ値コーディング方式選択信号を出力するように構成されること、またはその逆に構成されることも可能である。この例では、コーディング方式選択器２２によって生成されたコーディング方式選択信号は、オーディオ信号Ｓ１００の各フレームがアクティブフレームエンコーダ３２ａ（たとえば、ＣＥＬＰエンコーダ）及び非アクティブフレームエンコーダ３２ｂ（たとえば、ＮＥＬＰエンコーダ）のうちの選択された１つによって符号化されるように、選択器５０ａ、５０ｂの実装形態５２ａ、５２ｂを制御するために使用される。

コーディング方式選択器２２は、フレームエネルギー、信号対ノイズ比（「ＳＮＲ」）、周期性、スペクトル分布（たとえば、スペクトル傾斜）、及び／またはゼロ交差レートなど、フレームのエネルギー及び／またはスペクトル成分の１つまたは複数の特性に基づいてボイスアクティビティ検出を実行するように構成されることができる。コーディング方式選択器２２は、そのような特性の値を計算するように、オーディオエンコーダＡＥ２２の１つまたは複数の他のモジュールからそのような特性の値を受けるように、及び／またはオーディオエンコーダＡＥ２２を含むデバイス（たとえば、セルラー電話）の１つまたは複数の他のモジュールからそのような特性の値を受けるように実装されることができる。そのような検出は、そのような特性の値または大きさを閾値と比較すること、及び／または（たとえば、先行フレームに対する）そのような特性の変化の大きさを閾値と比較することを含むことができる。たとえば、コーディング方式選択器２２は、現在フレームのエネルギーを評価し、エネルギー値が閾値よりも小さい（あるいは、それ以下である）場合にフレームを非アクティブとして分類するように構成されることができる。そのような選択器は、フレームエネルギーをフレームサンプルの平方和として計算するように構成されることができる。

コーディング方式選択器２２の別の実装形態は、低周波帯域（たとえば、３００Ｈｚ〜２ｋＨｚ）及び高周波帯域（たとえば、２ｋＨｚ〜４ｋＨｚ）の各々における現在フレームのエネルギーを評価し、各帯域のエネルギー値がそれぞれの閾値よりも小さい（あるいは、それ以下である）場合にフレームが非アクティブであることを指示するように構成される。そのような選択器は、フレームに通過帯域フィルタを適用し、フィルタ処理されたフレームのサンプルの平方和を計算することによって帯域におけるフレームエネルギーを計算するように構成されることができる。そのようなボイスアクティビティ検出動作の一例は、ｗｗｗ．３ｇｐｐ２．ｏｒｇにおいてオンラインで入手可能な第３世代パートナーシッププロジェクト２（「３ＧＰＰ２」）標準文書Ｃ．Ｓ００１４−Ｃ、ｖ１．０（２００７年１月）の第４．７節に記載されている。

追加または代替として、ボイスアクティビティ検出動作は、１つまたは複数の前のフレーム及び／または１つまたは複数の後続のフレームからの情報に基づかれることができる。たとえば、２つ以上のフレームにわたって平均化されたフレーム特性の値に基づいてフレームをアクティブまたは非アクティブとして分類するようにコーディング方式選択器２２を構成することが望ましい場合がある。前のフレームからの情報（たとえば、バックグラウンドノイズレベル、ＳＮＲ）に基づく閾値を使用してフレームを分類するようにコーディング方式選択器２２を構成することが望ましい場合がある。また、アクティブフレームから非アクティブフレームへのオーディオ信号Ｓ１００における遷移に後続する第１のフレームのうちの１つまたは複数をアクティブとして分類するようにコーディング方式選択器２２を構成することが望ましい場合もある。遷移の後にそのような様式で前の分類状態を継続する行為は、「ハングオーバー」とも呼ばれる。

図５ｂは、フレームエンコーダ３０ｃ、３０ｄの実装形態３２ｃ、３２ｄを含むマルチモードオーディオエンコーダＡＥ２０の実装形態ＡＥ２４のブロック図を示している。この例では、コーディング方式選択器２０の実装形態２４は、オーディオ信号Ｓ１００のスピーチフレームを非スピーチフレーム（たとえば、音楽）と区別するように構成される。たとえば、コーディング方式選択器２４は、スピーチフレームに対しては（ＣＥＬＰエンコーダなどのスピーチフレームエンコーダ３２ｃの選択を指示する）ハイであり、非スピーチフレームに対しては（ＭＤＣＴエンコーダなどの非スピーチフレームエンコーダ３２ｄの選択を指示する）ローである、バイナリ値コーディング方式選択信号を出力するように構成されること、またはその逆に構成されることも可能である。そのような分類は、フレームエネルギー、ピッチ、周期性、スペクトル分布（たとえば、スペクトル傾斜、ＬＰＣ係数、線スペクトル周波数（「ＬＳＦ」））、及び／またはゼロ交差レートなど、フレームのエネルギー及び／またはスペクトル成分の１つまたは複数の特性に基づかれることができる。コーディング方式選択器２４は、そのような特性の値を計算するように、オーディオエンコーダＡＥ２４の１つまたは複数の他のモジュールからそのような特性の値を受けるように、及び／またはオーディオエンコーダＡＥ２４を含むデバイス（たとえば、セルラー電話）の１つまたは複数の他のモジュールからそのような特性の値を受けるように実装されることができる。そのような分類は、そのような特性の値または大きさを閾値と比較すること、及び／またはそのような特性の（たとえば、先行フレームに対する）変化の大きさを閾値と比較することを含むことができる。そのような分類は、隠れマルコフモデルなどの多状態モデルを更新するために使用され得る、１つまたは複数の前のフレーム及び／または１つまたは複数の後続のフレームからの情報に基づかれることができる）。

この例では、コーディング方式選択器２４によって生成されたコーディング方式選択信号は、オーディオ信号Ｓ１００の各フレームがスピーチフレームエンコーダ３２ｃ及び非スピーチフレームエンコーダ３２ｄのうちの選択された１つによって符号化されるように、選択器５２ａ、５２ｂを制御するために使用される。図６ａは、スピーチフレームエンコーダ３２ｃのＲＣＥＬＰ実装形態３４ｃと非スピーチフレームエンコーダ３２ｄのＭＤＣＴ実装形態３４ｄとを含むオーディオエンコーダＡＥ２４の実装形態ＡＥ２５のブロック図を示している。

図６ｂは、フレームエンコーダ３０ｂ、３０ｄ、３０ｅ、３０ｆの実装形態３２ｂ、３２ｄ、３２ｅ、３２ｆを含むマルチモードオーディオエンコーダＡＥ２０の実装形態ＡＥ２６のブロック図を示している。この例では、コーディング方式選択器２０の実装形態２６は、オーディオ信号Ｓ１００のフレームを、有声音スピーチ、無声音スピーチ、非アクティブスピーチ、及び非スピーチとして分類するように構成されることができる。そのような分類は、上記のようにフレームのエネルギー及び／またはスペクトル成分の１つまたは複数の特性に基づかれることができ、そのような特性の値または大きさを閾値と比較すること、及び／またはそのような特性の（たとえば、先行フレームに対する）変化の大きさを閾値と比較することを含むことができ、１つまたは複数の前のフレーム及び／または１つまたは複数の後続のフレームからの情報に基づかれることができる。コーディング方式選択器２６は、そのような特性の値を計算するように、オーディオエンコーダＡＥ２６の１つまたは複数の他のモジュールからそのような特性の値を受けるように、及び／またはオーディオエンコーダＡＥ２６を含むデバイス（たとえば、セルラー電話）の１つまたは複数の他のモジュールからそのような特性の値を受けるように実装されることができる。この例では、コーディング方式選択器２６によって生成されたコーディング方式選択信号は、オーディオ信号Ｓ１００の各フレームが、有声音フレームエンコーダ３２ｅ（たとえば、ＣＥＬＰまたはリラックスドＣＥＬＰ（「ＲＣＥＬＰ」）エンコーダ）、無声音フレームエンコーダ３２ｆ（たとえば、ＮＥＬＰエンコーダ）、非スピーチフレームエンコーダ３２ｄ、及び非アクティブフレームエンコーダ３２ｂ（たとえば、低レートＮＥＬＰエンコーダ）のうちの選択された１つによって符号化されるように、選択器５０ａ、５０ｂの実装形態５４ａ、５４ｂを制御するために使用される。

オーディオエンコーダＡＥ１０によって生成された符号化フレームは、一般に、オーディオ信号の対応するフレームが再構成されることができるパラメータ値の組を含む。このパラメータ値の組は、一般に、周波数スペクトルにわたるフレーム内でのエネルギーの分散の記述などのスペクトル情報を含む。そのようなエネルギーの分散は、フレームの「周波数包絡線」または「スペクトル包絡線」とも呼ばれる。フレームのスペクトル包絡線の記述は、対応するフレームを符号化するために使用される特定のコーディング方式に応じて異なる形態及び／または長さをもつことができる。オーディオエンコーダＡＥ１０は、パケットのサイズ、フォーマット、及びコンテンツが、そのフレーム用に選択された特定のコーディング方式に対応するように、パラメータ値の組をパケット中に配置するように構成されたパケッタイザ（図示せず）を含むように実装されることができる。オーディオデコーダＡＤ１０の対応する実装形態は、ヘッダ及び／または他のルーティング情報などパケット中の他の情報からパラメータ値の組を分離するように構成されたデパケッタイザ（図示せず）を含むように実装されることができる。

オーディオエンコーダＡＥ１０などのオーディオエンコーダは、一般に、フレームのスペクトル包絡線の記述を、値の順序付きシーケンスとして計算するように構成される。いくつかの実装形態では、オーディオエンコーダＡＥ１０は、各値が、対応する周波数における、または対応するスペクトル領域にわたる、信号の振幅または大きさを指示するように、順序付きシーケンスを計算するように構成される。そのような記述の一例は、フーリエ変換または離散コサイン変換係数の順序付きシーケンスである。

他の実装形態では、オーディオエンコーダＡＥ１０は、スペクトル包絡線の記述を、線形予測コーディング（ＬＰＣ）分析の係数値の組など、コーディングモデルのパラメータ値の順序付きシーケンスとして計算するように構成される。ＬＰＣ係数値は、「フォルマント」とも呼ばれる、オーディオ信号の共鳴を示す。ＬＰＣ係数値の順序付きシーケンスは、一般に、１つまたは複数のベクトルとして構成され、オーディオエンコーダは、これらの値をフィルタ係数または反射係数として計算するように実装されることができる。その組中の係数値の数は、ＬＰＣ分析の「次数」とも呼ばれ、（セルラー電話などの）通信デバイスのオーディオエンコーダによって実行されるＬＰＣ分析の典型的な次数の例は、４、６、８、１０、１２、１６、２０、２４、２８、及び３２を含む。

オーディオエンコーダＡＥ１０の実装形態を含むデバイスは、一般に、スペクトル包絡線の記述を伝送チャネル上で、量子化された形態で（たとえば、対応するルックアップテーブルまたは「コードブック」への１つまたは複数のインデックスとして）伝送するように構成される。したがって、オーディオエンコーダＡＥ１０では、ＬＰＣ係数値の組を、線スペクトル対（「ＬＳＰ」）、ＬＳＦ、イミタンススペクトル対（「ＩＳＰ」）、イミタンススペクトル周波数（「ＩＳＦ」）、ケプストラム（cepstral）係数、または対数面積比（log area ratio）の値の組など、効率的に量子化できる形態で計算することが望ましい場合がある。オーディオエンコーダＡＥ１０は、変換及び／または量子化の前の値の順序付きシーケンスに対して、知覚的重み付けまたは他のフィルタ処理演算など、１つまたは複数の他の処理演算を行うように構成されることもできる。

場合によっては、フレームのスペクトル包絡線の記述は、（たとえば、フーリエ変換係数または離散コサイン変換係数の順序付きシーケンス中などに）フレームの時間的情報の記述をも含む。他の場合には、パケットのパラメータの組は、フレームの時間的情報の記述をも含むことができる。時間的情報の記述の形態は、フレームを符号化するために使用される特定のコーディングモードに依存することができる。いくつかのコーディングモードの場合（たとえば、ＣＥＬＰまたはＰＰＰコーディングモード、及びいくつかのＭＤＣＴコーディングモードの場合）、時間的情報の記述は、ＬＰＣモデル（たとえば、スペクトル包絡線の記述に従って構成された合成フィルタ）を励起するためにオーディオデコーダによって使用されるべき励起信号の記述を含むことができる。励起信号の記述は、通常、フレームに対するＬＰＣ分析演算の残差に基づかれる。励起信号の記述は、一般に、（たとえば、対応するコードブックへの１つまたは複数のインデックスとして）量子化された形態でパケット中に現れ、励起信号の少なくとも１つのピッチ成分に関する情報を含むことができる。たとえば、ＰＰＰコーディングモードの場合、符号化された時間的情報は、励起信号のピッチ成分を再現するためにオーディオデコーダによって使用されるべきプロトタイプの記述を含むことができる。ＲＣＥＬＰまたはＰＰＰコーディングモードの場合、符号化された時間的情報は１つまたは複数のピッチ周期推定値を含むことができる。ピッチ成分に関する情報の記述は、一般に、（たとえば、対応するコードブックへの１つまたは複数のインデックスとして）量子化された形態でパケット中に現れる。

オーディオエンコーダＡＥ１０の実装形態の様々な要素は、意図された適用例に好適であると考えられるハードウェア、ソフトウェア、及び／またはファームウェアの任意の組合せで実施されることができる。たとえば、そのような要素は、たとえば同一チップ上に、またはチップセット中の２つ以上のチップの間に存在する電子デバイス及び／または光デバイスとして製造されることができる。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定またはプログラマブルなアレイであり、これらの要素のいずれも１つまたは複数のそのようなアレイとして実装されることができる。これらの要素の任意の２つ以上、さらにはすべてが、同一アレイまたは複数のアレイ内に実装されることができる。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装されることができる。同じことは、対応するオーディオデコーダＡＤ１０の実装形態の様々な要素にも当てはまる。

本明細書で説明するオーディオエンコーダＡＥ１０の様々な実装形態の１つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ（「ＦＰＧＡ」）、特定用途向け標準製品（「ＡＳＳＰ」）、及び特定用途向け集積回路（「ＡＳＩＣ」）などの論理要素の１つまたは複数の固定的なアレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数の組として実装されることもできる。オーディオエンコーダＡＥ１０の実装形態の様々な要素のいずれも、１つまたは複数のコンピュータ（たとえば、「プロセッサ」とも呼ばれる、命令の１つまたは複数の組またはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）として実施されることもでき、これらの要素の任意の２つ以上、さらにはすべてが同一のそのようなコンピュータまたは複数のコンピュータ内に実装されることができる。同じことは、対応するオーディオデコーダＡＤ１０の様々な実装形態の要素にも当てはまる。

オーディオエンコーダＡＥ１０の実装形態の様々な要素は、セルラー電話など、有線及び／または無線通信のためのデバイス、またはそのような通信機能をもつ他のデバイス内に含められることができる。そのようなデバイスは、（ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）回線交換及び／またはパケット交換ネットワークと通信するように構成されることができる。そのようなデバイスは、インターリーブ、パンクチャリング、畳込みコーディング、誤り訂正コーディング、ネットワークプロトコル（たとえば、イーサネット（登録商標）、ＴＣＰ／ＩＰ、ｃｄｍａ２０００）の１つまたは複数のレイヤのコーディング、１つまたは複数の無線周波（「ＲＦ」）搬送波及び／または光搬送波の変調、及び／またはチャネルを介した１つまたは複数の被変調搬送波の送信などの動作を、符号化フレームを搬送する信号に対して実行するように構成されることができる。

オーディオデコーダＡＤ１０の実装形態の様々な要素は、セルラー電話など、有線及び／またはワイヤレス通信を行うためのデバイス、またはそのような通信機能をもつ他のデバイス内に含められることができる。そのようなデバイスは、（ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）回線交換及び／またはパケット交換ネットワークと通信するように構成されることができる。そのようなデバイスは、デインターリーブ、デパンクチャリング、畳込みデコーディング、誤り訂正デコーディング、ネットワークプロトコル（たとえば、イーサネット、ＴＣＰ／ＩＰ、ｃｄｍａ２０００）の１つまたは複数のレイヤのデコーディング、１つまたは複数の無線周波（「ＲＦ」）搬送波及び／または光搬送波の復調、及び／またはチャネルを介した１つまたは複数の被変調搬送波の受信などの動作を、符号化フレームを搬送する信号に対して実行するように構成されることができる。

オーディオエンコーダＡＥ１０の実装形態の１つまたは複数の要素では、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関連しない命令の他の組を実行するために使用されることが可能である。また、オーディオエンコーダＡＥ１０の実装形態の１つまたは複数の要素では、共通の構造（たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するように実行される命令の組、あるいは異なる要素向けの動作を異なる時間に実施する電子デバイス及び／または光デバイスの構成）を有することが可能である。同じことは、対応するオーディオデコーダＡＤ１０の様々な実装形態の要素にも当てはまる。そのような一例では、コーディング方式選択器２０及びフレームエンコーダ３０ａ〜３０ｐは、同一プロセッサ上で実行するように構成された命令の組として実装される。そのような別の例では、コーディング方式検出器６０及びフレームデコーダ７０ａ〜７０ｐは、同一プロセッサ上で実行するように構成された命令の組として実装される。フレームエンコーダ３０ａ〜３０ｐのうちの２つ以上は、異なる時間に実行される命令の１つまたは複数の組を共有するように実装でき；同じことは、フレームデコーダ７０ａ〜７０ｐにも当てはまる。

図７ａは、オーディオ信号のフレームを符号化する方法Ｍ１０のフローチャートを示している。方法Ｍ１０は、エネルギー及び／またはスペクトル特性など、上述のようなフレーム特性の値を計算するタスクＴＥ１０を含む。計算された値に基づいて、タスクＴＥ２０は、（たとえば、コーディング方式選択器２０の様々な実装形態に関して上述したように）コーディング方式を選択する。タスクＴＥ３０は、符号化フレームを生成するために（たとえば、フレームエンコーダ３０ａ〜３０ｐの様々な実装形態に関して本明細書で説明したように）選択されたコーディング方式に従ってフレームを符号化する。随意のタスクＴＥ４０は、符号化フレームを含むパケットを発生させる。方法Ｍ１０は、オーディオ信号の一連のフレーム中の各々を符号化するように構成される（たとえば、繰り返される）ことができる。

方法Ｍ１０の実装形態の典型的な適用例では、論理要素のアレイ（たとえば、論理ゲート）は、この方法の様々なタスクの１つ、複数、さらにはすべてを実行するように構成される。タスクの１つまたは複数（場合によってはすべて）は、論理要素（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）のアレイを含む機械（たとえば、コンピュータ）によって可読及び／または実行可能であるコンピュータプログラム製品（たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの１つまたは複数のデータ記憶媒体）に埋め込まれたコード（たとえば、命令の１つまたは複数の組）として実装されることもできる。方法Ｍ１０の実装形態のタスクは、２つ以上のそのようなアレイまたは機械によって実行されることもできる。これらのまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能をもつ他のデバイス内で実行されることができる。そのようなデバイスは、（ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）回線交換ネットワーク及び／またはパケット交換ネットワークと通信するように構成されることができる。たとえば、そのようなデバイスは、符号化フレームを受信するように構成されたＲＦ回路を含むことができる。

図７ｂは、オーディオ信号のフレームを符号化するように構成された装置Ｆ１０のブロック図を示している。装置Ｆ１０は、上述のようにエネルギー及び／またはスペクトル特性など、フレーム特性の値を計算するための手段ＦＥ１０を含む。装置Ｆ１０はまた、（たとえば、コーディング方式選択器２０の様々な実装形態に関して上述したように）計算された値に基づいてコーディング方式を選択するための手段ＦＥ２０をも含む。装置Ｆ１０はまた、符号化フレームを生成するために、（たとえば、フレームエンコーダ３０ａ〜３０ｐの様々な実装形態に関して本明細書で説明したように）選択されたコーディング方式に従ってフレームを符号化するための手段ＦＥ３０をも含む。装置Ｆ１０はまた、符号化フレームを含むパケットを発生するための随意の手段ＦＥ４０をも含む。装置Ｆ１０は、オーディオ信号の一連のフレーム中の各々を符号化するように構成されることができる。

ＲＣＥＬＰコーディング方式などのＰＲコーディング方式の典型的な実装形態、またはＰＰＰコーディング方式のＰＲ実装形態では、相関に基づかれることができるピッチ推定演算を使用して、フレームまたはサブフレームごとに、ピッチ周期が１回推定される。フレームまたはサブフレームの境界におけるピッチ推定ウィンドウを中央に置くことが望ましい場合がある。サブフレームへのフレームの典型的な分割は、１フレーム当たり３つのサブフレーム（たとえば、１６０サンプルフレームの非重複サブフレームの各々について５３、５３及び５４個のサンプル）、１フレーム当たり４つのサブフレーム、ならびに１フレーム当たり５つのサブフレーム（たとえば、１６０サンプルフレームにおいて５つの３２サンプル非重複サブフレーム）を含む。ピッチ半分、ピッチ２倍、ピッチ３倍などの誤差を回避するために、推定されたピッチ周期の間の整合性について確認することが望ましい場合もある。ピッチ推定値の更新の間に、合成遅延輪郭を生成するためにピッチ周期が補間される。そのような補間は、サンプルごとに実行されるか、またはより少ない頻度で（たとえば、２つまたは３つのサンプルごとに）実行されるか、またはより多い頻度で（たとえば、サブサンプル分解能で）実行されることができる。たとえば、上記で参照した３ＧＰＰ２文書Ｃ．Ｓ００１４−Ｃに記載されているエンハンスト可変レートコーデック（「ＥＶＲＣ」）は、８倍オーバーサンプリングされた合成遅延輪郭を使用する。一般に、補間は、線形補間または双線形補間であり、１つまたは複数のポリフェーズ補間フィルタまたは別の適切な技法を使用して実行されることができる。ＲＣＥＬＰなどのＰＲコーディング方式は、一般に、１／４レートなどの他のレートで符号化する実装形態も可能であるが、フルレートまたはハーフレートでフレームを符号化するように構成される。

無声音フレームとともに連続ピッチ輪郭を使用することは、バジングなどの望ましくないアーティファクトを生じることがある。したがって、無声音フレームの場合、各サブフレーム内で一定のピッチ周期を使用して、サブフレーム境界において別の一定のピッチ周期に急激に切り替えることが望ましい場合がある。そのような技法の典型的な例は、４０ミリ秒ごとに繰り返される（８ｋＨｚサンプリングレートで）２０個のサンプルから４０個のサンプルの範囲にわたるピッチ周期の擬似ランダムシーケンスを使用する。上述のボイスアクティビティ検出（「ＶＡＤ」）動作は、有声音フレームを無声音フレームと区別するように構成されることができ、そのような動作は、一般に、スピーチ及び／または残差の自己相関、ゼロ交差レート、及び／または第１の反射係数などのファクタに基づかれる。

ＰＲコーディング方式（たとえば、ＲＣＥＬＰ）は、スピーチ信号のタイムワープを行う。「信号修正」とも呼ばれるこのタイムワープ演算では、信号の特徴（たとえば、ピッチパルス）間の元の時間関係が変更されるように、異なる時間シフトが信号の異なるセグメントに適用される。たとえば、信号のピッチ周期輪郭が合成ピッチ周期輪郭に一致するように信号をタイムワープすることが望ましい場合がある。時間シフトの値は、一般に、プラス数ミリ秒からマイナス数ミリ秒の範囲内にある。フォルマントの位置を変更するのを避けることが望ましい場合があるので、ＰＲエンコーダ（たとえば、ＲＣＥＬＰエンコーダ）では、スピーチ信号ではなく残差を修正するのが一般的である。しかしながら、以下で特許請求される構成は、スピーチ信号を修正するように構成されたＰＲエンコーダ（たとえば、ＲＣＥＬＰエンコーダ）を使用して実施されることもできるということが明確に企図され、本明細書によって開示される。

最良の結果は、連続ワーピング（warping）を使用して残差を修正することによって得られるであろうことが予想できる。そのようなワーピングは、サンプルごとに実行されることができ、あるいは残差のセグメント（たとえば、サブフレームまたはピッチ周期）を圧縮及び伸張することによって実行されることができる。

図８は、平坦な遅延輪郭に対してタイムワープされる前（波形Ａ）及び後（波形Ｂ）の残差の例を示している。この例では、垂直な点線間の間隔は規則的なピッチ周期を示している。

連続ワーピングは、非常に計算集約的なので、携帯用、組込み型、リアルタイム、及び／または電池式の適用例では実行できない場合がある。したがって、ＲＣＥＬＰまたは他のＰＲエンコーダでは、時間シフトの量が各セグメントにわたって一定となるように残差のセグメントを時間シフトすることによって残差の区分的修正を行うことがより一般的である（が、以下で特許請求される構成は、連続ワーピングを使用して、スピーチ信号を修正するか、または残差を修正するように構成されたＲＣＥＬＰまたは他のＰＲエンコーダを使用して実施されることもできることが明確に企図され、本明細書によって開示される）。そのような動作は、各ピッチパルスがターゲット残差中の対応するピッチパルスに一致するようにセグメントをシフトすることによって現在の残差を修正するように構成されることができるもので、上記ターゲット残差は、信号の前のフレーム、サブフレーム、シフトフレーム、または他のセグメントからの修正残差に基づかれる。

図９は、区分的修正の前（波形Ａ）及び後（波形Ｂ）の残差の例を示している。この図において、点線は、太線で示したセグメントが残差の残部（rest）に関してどのようにして右にシフトされるのかを示している。（たとえば、各シフトセグメントが２つ以上のピッチパルスを含まないように）各セグメントの長さはピッチ周期よりも短いことが望ましい場合がある。セグメント境界がピッチパルスにおいて生じないようにする（たとえば、セグメント境界を残差の低エネルギー領域に制限する）ことが望ましい場合もある。

区分的修正手順は、一般に、（「シフトフレーム」とも呼ばれる）ピッチパルスを含むセグメントを選択することを含む。そのような動作の一例は、上記で参照したＥＶＲＣ文書Ｃ．Ｓ００１４−Ｃの第４．１１．６．２節（４−９５〜４−９９ページ）に記載されており、この節は、一例として参照により本明細書に組み込まれる。一般に、最後に修正されたサンプル（または第１の無修正のサンプル）がシフトフレームの開始として選択される。ＥＶＲＣの例では、セグメント選択動作は、シフトすべきパルス（たとえば、まだ修正されていないサブフレームの領域における第１のピッチパルス）のための現在のサブフレーム残差を探索し、このパルスの位置に対してシフトフレームの終端を設定する。シフトフレーム選択動作（及び区分的修正手順の後続の動作）が単一のサブフレームに対して数回実行されることができるように、サブフレームは複数のシフトフレームを含むことができる。

区分的修正手順は、一般に、残差を合成遅延輪郭に一致させる動作を含む。そのような動作の一例は、上記で参照したＥＶＲＣ文書Ｃ．Ｓ００１４−Ｃの第４．１１．６．３節（４−９９〜４−１０１ページ）に記載されており、この節は、一例として参照により本明細書に組み込まれる。この例は、（たとえば、一例として参照により本明細書に組み込まれる、上記で参照したＥＶＲＣ文書Ｃ．Ｓ００１４−Ｃの第４．１１．６．１節（４−９５ページ）に記載されているように、）バッファから前のサブフレームの修正残差を検索し、それを遅延輪郭にマッピングすることによってターゲット残差を発生させる。この例では、一致判定演算は、選択されたシフトフレームのコピーをシフトすることによって一時修正残差を発生し、その一時修正残差とターゲット残差との間の相関に従って最適なシフトを決定し、その最適なシフトに基づいて時間シフトを計算する。時間シフトは一般に蓄積された値であり、したがって（たとえば、上記の参照により組み込まれる第４．１１．６．３節の第４．１１．６．３．４部に記載されているように）時間シフトを計算する演算は、蓄積された時間シフトを最適なシフトに基づいて更新することを含む。

現在の残差の各シフトフレームについて、区分的修正は、シフトフレームに対応する現在の残差のセグメントに、対応する計算された時間シフトを適用することによって、達成される。そのような修正動作の一例は、上記で参照したＥＶＲＣ文書Ｃ．Ｓ００１４−Ｃの第４．１１．６．４節（４−１０１ページ）に記載されており、この節は、一例として参照により本明細書に組み込まれる。一般に、時間シフトは、分数である値を有し、したがって修正手順は、サンプリングレートよりも高い分解能で実行される。そのような場合、１つまたは複数の多相補間フィルタまたは別の適切な技法を使用して実行され得る線形補間または双線形補間などの補間を使用して、残差の対応するセグメントに時間シフトを適用することが望ましい場合がある。

図１０は、概略構成によるＲＣＥＬＰ符号化の方法ＲＭ１００（たとえば、方法Ｍ１０のタスクＴＥ３０のＲＣＥＬＰ実装形態）のフローチャートを示している。方法ＲＭ１００は、現在フレームの残差を計算するタスクＲＴ１０を含む。タスクＲＴ１０は、一般に、オーディオ信号Ｓ１００など、（前処理されることがある）サンプリングされたオーディオ信号を受信するように構成される。タスクＲＴ１０は、一般に、線形予測コーディング（「ＬＰＣ」）分析演算を含むように実装され、線スペクトル対（「ＬＳＰ」）などＬＰＣパラメータの組を生成するように構成されることができる。タスクＲＴ１０は、１つまたは複数の知覚的重み付け及び／または他のフィルタ処理演算など、他の処理演算を含むこともできる。

方法ＲＭ１００はまた、オーディオ信号の合成遅延輪郭を計算するタスクＲＴ２０と、発生した残差からシフトフレームを選択するタスクＲＴ３０と、選択されたシフトフレーム及び遅延輪郭から情報に基づいて時間シフトを計算するタスクＲＴ４０と、計算された時間シフトに基づいて現在フレームの残差を修正するタスクＲＴ５０とを含む。

図１１は、ＲＣＥＬＰ符号化方法ＲＭ１００の実装形態ＲＭ１１０のフローチャートを示している。方法ＲＭ１１０は、時間シフト計算タスクＲＴ４０の実装形態ＲＴ４２を含む。タスクＲＴ４２は、前のサブフレームの修正残差を現在のサブフレームの合成遅延輪郭にマッピングするタスクＲＴ６０と、（たとえば、選択されたシフトフレームに基づいて）一時修正残差を発生させるタスクＲＴ７０と、（たとえば、一時修正残差とマッピングされた過去修正残差の対応するセグメントとの間の相関に基づいて）時間シフトを更新するタスクＲＴ８０とを含む。方法ＲＭ１００の実装形態は、方法Ｍ１０の実装形態内（たとえば、符号化タスクＴＥ３０内）に含められることができ、上記のように、論理要素（たとえば、論理ゲート）のアレイは、その方法の様々なタスクのうちの１つ、複数、さらにはすべてを実行するように構成されることができる。

図１２ａは、ＲＣＥＬＰフレームエンコーダ３４ｃの実装形態ＲＣ１００のブロック図を示している。エンコーダＲＣ１００は、（たとえば、ＬＰＣ分析演算に基づいて）現在フレームの残差を計算するように構成された残差発生器Ｒ１０と、（たとえば、現在及び最近のピッチ推定値に基づいて）オーディオ信号Ｓ１００の合成遅延輪郭を計算するように構成された遅延輪郭計算器Ｒ２０とを含む。エンコーダＲＣ１００はまた、現在の残差のシフトフレームを選択するように構成されたシフトフレーム選択器Ｒ３０と、（たとえば、一時修正残差に基づいて時間シフトを更新するために）時間シフトを計算するように構成された時間シフト計算器（time shift calculator）Ｒ４０と、（たとえば、計算された時間シフトをシフトフレームに対応する残差のセグメントに適用するために）時間シフトに従って残差を修正するように構成された残差修正器（residual modifier）Ｒ５０とを含む。

図１２ｂは、時間シフト計算器Ｒ４０の実装形態Ｒ４２を含むＲＣＥＬＰエンコーダＲＣ１００の実装形態ＲＣ１１０のブロック図を示している。計算器Ｒ４２は、前のサブフレームの修正残差を現在のサブフレームの合成遅延輪郭にマッピングするように構成された過去修正残差マッパーＲ６０と、選択されたシフトフレームに基づいて一時修正残差を発生させるように構成された一時修正残差発生器Ｒ７０と、一時修正残差とマッピングされた過去修正残差の対応するセグメントとの間の相関に基づいて時間シフトを計算する（たとえば、更新する）ように構成された時間シフト更新器Ｒ８０とを含む。エンコーダＲＣ１００及びＲＣ１１０の要素の各々は、１つまたは複数のプロセッサによって実行するための論理ゲート及び／または命令の組など、対応するモジュールによって実装されることができる。オーディオエンコーダＡＥ２０などのマルチモードエンコーダは、エンコーダＲＣ１００のインスタンスまたはその実装形態を含むことができ、そのような場合、ＲＣＥＬＰフレームエンコーダの要素の１つまたは複数（たとえば、残差発生器Ｒ１０）は、他のコーディングモードを実行するように構成されたフレームエンコーダと共有されることができる。

図１３は、残差発生器Ｒ１０の実装形態Ｒ１２のブロック図を示している。発生器Ｒ１２は、オーディオ信号Ｓ１００の現在フレームに基づいてＬＰＣ係数値の組を計算するように構成されたＬＰＣ分析モジュール２１０を含む。変換ブロック２２０は、ＬＰＣ係数値の組をＬＳＦの組に変換するように構成され、量子化器２３０は、ＬＰＣパラメータＳＬ１０を生成するために（たとえば、１つまたは複数のコードブックインデックスとして）ＬＳＦを量子化するように構成される。逆量子化器２４０は、量子化ＬＰＣパラメータＳＬ１０から復号ＬＳＦの組を得るように構成され、逆変換ブロック２５０は、復号ＬＳＦの組から復号ＬＰＣ係数値の組を得るように構成される。復号ＬＰＣ係数値の組に従って構成された（分析フィルタとも呼ばれる）白色化フィルタ２６０は、ＬＰＣ残差ＳＲ１０を生成するためにオーディオ信号Ｓ１００を処理する。残差発生器Ｒ１０は、特定の適用例に好適と考えられる他の設計に従って実装されることもできる。

時間シフトの値があるシフトフレームから次のシフトフレームに変化すると、間隙または重複が、シフトフレーム間の境界に生じることがあり、残差修正器Ｒ５０またはタスクＲＴ５０ではこの領域中の信号の一部を適宜に反復または省略することが望ましい場合がある。また、（たとえば、後続のフレームの残差に対する区分的修正手順の実行に使用されるべきターゲット残差を発生させるためのソースとして）バッファに修正残差を記憶するようにエンコーダＲＣ１００または方法ＲＭ１００を実装することが望ましい場合がある。そのようなバッファは、時間シフト計算器Ｒ４０（たとえば、過去修正残差マッパーＲ６０）への、または時間シフト計算タスクＲＴ４０（たとえば、マッピングタスクＲＴ６０）への入力を提供するように構成されることができる。

図１２ｃは、そのような修正残差バッファＲ９０と、バッファＲ９０からの情報に基づいて時間シフトを計算するように構成された時間シフト計算器Ｒ４０の実装形態Ｒ４４と、を含むＲＣＥＬＰエンコーダＲＣ１００の実装形態ＲＣ１０５のブロック図を示している。図１２ｄは、バッファＲ９０のインスタンスと、バッファＲ９０から過去修正残差を受けるように構成された過去修正残差マッパーＲ６０の実装形態Ｒ６２と、を含むＲＣＥＬＰエンコーダＲＣ１０５とＲＣＥＬＰエンコーダＲＣ１１０との実装形態ＲＣ１１５のブロック図を示している。

図１４は、オーディオ信号のフレームのＲＣＥＬＰ符号化（たとえば、装置Ｆ１０の手段ＦＥ３０のＲＣＥＬＰ実装形態）のための装置ＲＦ１００のブロック図を示している。装置ＲＦ１００は、残差ＲＦ１０（たとえば、ＬＰＣ残差）を発生させるための手段と、（たとえば、現在のピッチ推定値と前のピッチ推定値との間で線形補間または双線形補間を実行することによって）遅延輪郭ＲＦ２０を計算するための手段とを含む。装置ＲＦ１００はまた、（たとえば、次のピッチパルスの位置を特定することによって）シフトフレームＲＦ３０を選択するための手段と、（たとえば、一時修正残差とマッピングされた過去修正残差との間の相関に従って時間シフトを更新することによって）時間シフトＲＦ４０を計算するための手段と、（たとえば、シフトフレームに対応する残差のセグメントを時間シフトすることによって）残差ＲＦ５０を修正するための手段とを含む。

修正残差は、一般に、現在フレーム用の励起信号に対する固定のコードブックの寄与を計算するために使用される。図１５は、そのような演算をサポートするための追加のタスクを含むＲＣＥＬＰ符号化方法ＲＭ１００の実装形態ＲＭ１２０のフローチャートを示している。タスクＲＴ９０は、前のフレームからの復号励起信号のコピーを保持する適応コードブック（「ＡＣＢ」）を遅延輪郭にマッピングすることによってＡＣＢをワープする。タスクＲＴ１００は、知覚領域におけるＡＣＢ寄与を得るために、ワープされたＡＣＢに対し、現在のＬＰＣ係数値に基づいてＬＰＣ合成フィルタを適用し、タスクＲＴ１１０は、知覚領域における現在の修正残差を得るために、現在の修正残差に対し、現在のＬＰＣ係数値に基づいてＬＰＣ合成フィルタを適用する。たとえば、上記で参照した３ＧＰＰ２ＥＶＲＣ文書Ｃ．Ｓ００１４−Ｃの第４．１１．４．５節（４−８４〜４−８６ページ）に記載されているように、タスクＲＴ１００及び／またはタスクＲＴ１１０では、重み付きＬＰＣ係数値の組に基づくＬＰＣ合成フィルタを適用することが望ましい場合がある。タスクＲＴ１２０は、固定のコードブック（「ＦＣＢ」）探索のためのターゲットを得るために２つの知覚領域信号間の差を計算し、タスクＲＴ１３０は、励起信号に対するＦＣＢ寄与を得るためにＦＣＢ探索を実行する。上記のように、論理要素（たとえば、論理ゲート）のアレイは、方法ＲＭ１００のこの実装形態の様々なタスクのうちの１つ、複数、さらにはすべてを実行するように構成されることができる。

一般に、ＲＣＥＬＰコーディング方式を含む現代のマルチモードコーディングシステム（たとえば、オーディオエンコーダＡＥ２５の実装形態を含むコーディングシステム）は、無声音フレーム（たとえば、発話摩擦音）と背景ノイズのみを含むフレームとに一般に使用されるノイズ励起線形予測（「ＮＥＬＰ」）など、１つまたは複数の非ＲＣＥＬＰコーディング方式をも含む。非ＲＣＥＬＰコーディング方式の他の例は、一般により高い有声音フレームに使用される、プロトタイプ波形補間（「ＰＷＩ」）とプロトタイプピッチ周期（「ＰＰＰ」）などその変形態とを含む。ＲＣＥＬＰコーディング方式がオーディオ信号のフレームを符号化するために使用され、且つ、非ＲＣＥＬＰコーディング方式がオーディオ信号の隣接フレームを符号化するために使用される場合、合成波形中に不連続性が生じることがある。

隣接フレームからのサンプルを使用してフレームを符号化することが望ましい場合がある。そのような方法でフレーム境界にわたって符号化することは、量子化誤差、切捨て、丸め、不必要な係数の廃棄などのファクタによりフレーム間に生じることがあるアーティファクトの知覚影響を低減する傾向がある。そのようなコーディング方式の一例は、修正離散コサイン変換（「ＭＤＣＴ」）コーディング方式である。

ＭＤＣＴコーディング方式は、音楽及び他の非スピーチサウンドを符号化するために通例使用される非ＰＲコーディング方式である。たとえば、国際標準化機構（ＩＳＯ）／国際電気標準会議（ＩＥＣ）文書１４４９６−３：１９９９で明記された、ＭＰＥＧ−４第３部としても知られるＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｅｃ（「ＡＡＣ」）は、ＭＤＣＴコーディング方式である。上記で参照した３ＧＰＰ２ＥＶＲＣ文書Ｃ．Ｓ００１４−Ｃの第４．１３節（４−１４５〜４−１５１ページ）は別のＭＤＣＴコーディング方式を記載しており、この節は、一例として参照により本明細書に組み込まれる。ＭＤＣＴコーディング方式は、その構造がピッチ周期に基づく信号としてではなく、シヌソイドの混合として周波数領域中でオーディオ信号を符号化するものであり、歌唱、音楽、及びシヌソイドの他の混合を符号化するのにより適している。

ＭＤＣＴコーディング方式は、２つ以上の連続フレームにわたる（すなわち、重複する）符号化ウィンドウを使用する。フレーム長がＭの場合、ＭＤＣＴは、２Ｍ個のサンプルの入力に基づいてＭ個の係数を生成する。したがって、ＭＤＣＴコーディング方式の１つの特徴は、符号化フレームを表すために必要な変換係数の数を増加することなしに、変換ウィンドウに１つまたは複数のフレーム境界にわたることを許すことである。しかしながら、そのような重複コーディング方式が、ＰＲコーディング方式を使用して符号化されたフレームに隣接するフレームを符号化するために使用された場合、不連続性が対応する復号されたフレーム中に生じることがある。

Ｍ個のＭＤＣＴ係数の計算は、次のように表されことができる。

ここで、

ただし、ｋ＝０、１、．．．、Ｍ−１である。関数ｗ（ｎ）は、一般に、（プリンセン−ブラッドレイ条件とも呼ばれる）条件ｗ^２（ｎ）＋ｗ^２（ｎ＋Ｍ）＝１を満たすウィンドウとなるように選択される。

対応する逆ＭＤＣＴ演算は、次のように表されことができる。

ｎ＝０、１、．．．、２Ｍ−１であり、ここで、

はＭ個の受信されたＭＤＣＴ係数であり、

は２Ｍ個の復号サンプルである。

図１６は、ＭＤＣＴコーディング方式のための典型的な正弦ウィンドウ形状の３つの例を示している。プリンセン−ブラッドレイ条件を満たすこのウィンドウ形状は、次のように表されことができる。

但し、０≦ｎ≦２Ｍであり、ここで、ｎ＝０は、現在フレームの第１のサンプルを示す。

図に示すように、現在フレーム（フレームｐ）を符号化するために使用されるＭＤＣＴウィンドウ８０４は、フレームｐ及びフレーム（ｐ＋１）にわたって０でない値を有し、他の場合は０値にされる。前のフレーム（フレーム（ｐ−１））を符号化するために使用されるＭＤＣＴウィンドウ８０２は、フレーム（ｐ−１）及びフレームｐにわたって０でない値を有し、他の場合は０値にされ、次のフレーム（フレーム（ｐ＋１））を符号化するために使用されるＭＤＣＴウィンドウ８０６は同様に構成される。デコーダにおいて、復号されたシーケンスは入力シーケンスと同様に重複され、追加される。図２５ａは、図１６に示すウィンドウ８０４及び８０６を適用することから生じる重複追加領域の一例を示している。重複追加動作は、変換によってもたらされた誤差を消去し、（ｗ（ｎ）がプリンセン−ブラッドレイ条件を満たし、量子化誤差がない場合に）完全再構成を可能にする。ＭＤＣＴが重複ウィンドウ関数を使用するとしても、重複追加の後に、フレーム当たりの入力サンプルの数がフレーム当たりのＭＤＣＴ係数の数と同じであるので、それは臨海サンプリング（critically sampled）フィルタバンクである。

図１７ａは、ＭＤＣＴフレームエンコーダ３４ｄの実装形態ＭＥ１００のブロック図を示している。残差発生器Ｄ１０は、量子化ＬＰＣパラメータ（たとえば、上記の参照により組み込まれる３ＧＰＰ２ＥＶＲＣ文書Ｃ．Ｓ００１４−Ｃの第４．１３節の第４．１３．２部に記載されている量子化ＬＳＰ）を使用して残差を発生させるように構成されることができる。代替として、残差発生器Ｄ１０は、非量子化ＬＰＣパラメータを使用して残差を発生させるように構成されることができる。ＲＣＥＬＰエンコーダＲＣ１００及びＭＤＣＴエンコーダＭＥ１００の実装形態を含むマルチモードコーダでは、残差発生器Ｒ１０及び残差発生器Ｄ１０は同じ構造として実装されることができる。

エンコーダＭＥ１００は、（たとえば、式１に上記したようにＸ（ｋ）の式に従って）ＭＤＣＴ係数を計算するように構成されたＭＤＣＴモジュールＤ２０をも含む。エンコーダＭＥ１００は、量子化された符号化残差信号Ｓ３０を生成するためにＭＤＣＴ係数を処理するように構成された量子化器Ｄ３０をも含む。量子化器Ｄ３０は、正確な関数コンピュータ計算を使用してＭＤＣＴ係数の因数（factorial）コーディングを実行するように構成されることができる。代替として、量子化器Ｄ３０は、たとえば、Ｕ．Ｍｉｔｔｅｌ他の「ＬｏｗＣｏｍｐｌｅｘｉｔｙＦａｃｔｏｒｉａｌＰｕｌｓｅＣｏｄｉｎｇｏｆＭＤＣＴＣｏｅｆｆｉｃｉｅｎｔｓＵｓｉｎｇＡｐｐｒｏｘｉｍａｔｉｏｎｏｆＣｏｍｂｉｎａｔｏｒｉａｌＦｕｎｃｔｉｏｎｓ」、ＩＥＥＥＩＣＡＳＳＰ２００７、Ｉ−２８９〜Ｉ−２９２ページ、及び上記の参照により組み込まれる３ＧＰＰ２ＥＶＲＣ文書Ｃ．Ｓ００１４−Ｃの第４．１３節の第４．１３．５部に記載されている近似関数計算を使用してＭＤＣＴ係数の因数コーディングを実行するように構成されることができる。図１７ａに示すように、ＭＤＣＴエンコーダＭＥ１００は、（たとえば、式３に上記したように

の式に従って）量子化信号に基づいて復号サンプルを計算するように構成された随意の逆ＭＤＣＴ（「ＩＭＤＣＴ」）モジュールＤ４０をも含むことができる。

場合によっては、オーディオ信号Ｓ１００の残差に対してではなく、オーディオ信号Ｓ１００に対してＭＤＣＴ演算を実行することが望ましい場合がある。ＬＰＣ分析は、人間のスピーチの共鳴の符号化には好適であるが、音楽などの非スピーチ信号の特徴の符号化には効率的でない場合がある。図１７ｂは、ＭＤＣＴモジュールＤ２０が、入力としてオーディオ信号Ｓ１００のフレームを受けるように構成される、ＭＤＣＴフレームエンコーダ３４ｄの実装形態ＭＥ２００のブロック図を示している。

図１６に示す標準ＭＤＣＴ重複方式は、変換が実行され得る前に２Ｍ個のサンプルが利用可能である必要がある。そのような方式は、コーディングシステムに対して２Ｍ個のサンプル（すなわち、現在フレームのＭ個のサンプル＋ルックアヘッド（lookahead）のＭ個のサンプル）という遅延制約を効果的に加える。ＣＥＬＰ、ＲＣＥＬＰ、ＮＥＬＰ、ＰＷＩ、及び／またはＰＰＰなど、マルチモードコーダの他のコーディングモードは、一般に、より短い遅延制約（たとえば、現在フレームのＭ個のサンプル＋ルックアヘッドのＭ／２個、Ｍ／３個、またはＭ／４個のサンプル）に対して動作するように構成される。現代のマルチモードコーダ（たとえば、ＥＶＲＣ、ＳＭＶ、ＡＭＲ）では、コーディングモード間の切替えは、自動的に実行され、１秒間に数回行われることさえある。特に、特定の速度でパケットを生成するエンコーダを含む送信機を必要とする回線交換適用例では、そのようなコーダのコーディングモードでは、同じ遅延で動作することが望ましい場合がある。

図１８は、Ｍよりも短いルックアヘッド間隔を可能にするために（たとえば、図１６に示す関数ｗ（ｎ）の代わりに）ＭＤＣＴモジュールＤ２０によって適用されるウィンドウ関数ｗ（ｎ）の一例を示している。図１８に示す特定の例では、ルックアヘッド間隔はＭ／２個のサンプルの長さであるが、そのような技法は、Ｌ個のサンプルの任意のルックアヘッドを可能にするように実装されることができるもので、ここで、Ｌは０からＭまでの任意の値を有する。この技法（上記の参照により組み込まれる３ＧＰＰ２ＥＶＲＣ文書Ｃ．Ｓ００１４−Ｃの第４．１３節の第４．１３．４部（４−１４７ページ）、及び「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＭＯＤＩＦＹＩＮＧＡＷＩＮＤＯＷＷＩＴＨＡＦＲＡＭＥＡＳＳＯＣＩＡＴＥＤＷＩＴＨＡＮＡＵＤＩＯＳＩＧＮＡＬ」と題する米国特許公開第２００８／００２７７１９号に記載されている例では、ＭＤＣＴウィンドウは、長さ（Ｍ−Ｌ）／２の０パッド領域で開始及び終了し、ｗ（ｎ）はプリンセン−ブラッドレイ条件を満たす。そのようなウィンドウ関数の１つの実装形態は、次のように表されことができる。

ここで、ｎ＝（Ｍ−Ｌ）／２は現在フレームｐの第１のサンプルであり、ｎ＝（３Ｍ−Ｌ）／２は次のフレーム（ｐ＋１）の第１のサンプルである。そのような技法に従って符号化された信号は（量子化誤差及び数値誤差がない場合に）完全再構成性質を保持する。Ｌ＝Ｍの場合、このウィンドウ関数は、図１６に示すものと同じであり、Ｌ＝０の場合、Ｍ／２≦ｎ≦３Ｍ／２ならば、ｗ（ｎ）＝１であり、他の場合は、重複が生じないような０であることに留意されたい。

ＰＲコーディング方式と非ＰＲコーディング方式とを含むマルチモードコーダでは、現在のコーディングモードがＰＲコーディングモードから非ＰＲコーディングモードに（またはその逆に）切り替わるフレーム境界にわたって合成波形が連続的であるようにすることが望ましい場合がある。コーディングモード選択器は、１秒に数回、あるコーディング方式から別のコーディング方式に切り替わることができ、それらの方式間で知覚的に滑らかな遷移を行うことが望ましい。残念ながら、ＰＲコーディング方式と非ＰＲコーディング方式との間の切替えは復号信号中に可聴クリックまたは他の不連続性を生じることがあるので、調整フレームと非調整フレームとの間の境界にわたるピッチ周期は、異常に大きくなったり、小さくなったりすることがある。さらに、上記のように、非ＰＲコーディング方式は、連続フレームにわたる重複追加ウィンドウを使用してオーディオ信号のフレームを符号化することができ、それらの連続フレーム間の境界での時間シフトの変化を回避することが望ましい場合がある。これらの場合、ＰＲコーディング方式によって適用された時間シフトに従って非調整フレームを修正することが望ましい場合がある。

図１９ａは、概略構成に従ったオーディオ信号のフレームを処理する方法Ｍ１００のフローチャートを示している。方法Ｍ１００は、ＰＲコーディング方式（たとえば、ＲＣＥＬＰコーディング方式）に従って第１のフレームを符号化するタスクＴ１１０を含む。方法Ｍ１００は、非ＰＲコーディング方式（たとえば、ＭＤＣＴコーディング方式）に従ってオーディオ信号の第２のフレームを符号化するタスクＴ２１０をも含む。上記のように、第１及び第２のフレームの一方または両方は、そのような符号化の前及び／または後に知覚的に重み付けされ、及び／または別の方法で処理されることができる。

タスクＴ１１０は、時間シフトＴに従って第１の信号のセグメントを時間修正するサブタスクＴ１２０を含み、ここで第１の信号は第１のフレームに基づかれる（たとえば、第１の信号は第１のフレームまたは第１のフレームの残差である）。時間修正は、時間シフトによって、またはタイムワープによって実行されることができる。一実装形態では、タスクＴ１２０は、Ｔの値に従って時間的に前方または後方に（すなわち、フレームまたはオーディオ信号の別のセグメントに対して）セグメント全体を移動することによって、セグメントを時間シフトする。そのような動作は、断片（fractional）時間シフトを実行するためにサンプル値を補間することを含むことができる。別の実装形態では、タスクＴ１２０は、時間シフトＴに基づいてセグメントをタイムワープする。そのような動作は、Ｔの値に従ってセグメントのあるサンプル（たとえば、第１のサンプル）を移動することと、Ｔの大きさよりも小さい大きさを有する値だけセグメントの別のサンプル（たとえば、最後のサンプル）を移動することと、を含むことができる。

タスクＴ２１０は、時間シフトＴに従って第２の信号のセグメントを時間修正するサブタスクＴ２２０を含み、ここで第２の信号は第２のフレームに基づかれる（たとえば、第２の信号は、第２のフレームまたは第２のフレームの残差である）。一実装形態では、タスクＴ２２０は、Ｔの値に従って時間的に前方または後方に（すなわち、フレームまたはオーディオ信号の別のセグメントに対して）セグメント全体を移動することによって、セグメントを時間シフトする。そのような動作は、断片時間シフトを実行するためにサンプル値を補間することを含むことができる。別の実装形態では、タスクＴ２２０は、時間シフトＴに基づいてセグメントをタイムワープする。そのような動作は、セグメントを遅延輪郭にマッピングすることを含むことができる。たとえば、そのような動作は、Ｔの値に従ってセグメントのあるサンプル（たとえば、第１のサンプル）を移動することと、Ｔの大きさよりも小さい大きさを有する値だけセグメントの別のサンプル（たとえば、最後のサンプル）を移動することと、を含むことができる。たとえば、タスクＴ１２０は、フレームまたは他のセグメントを、時間シフトＴの値だけ短縮された（たとえば、Ｔが負の値の場合、延長された）対応する時間間隔にマッピングすることによってタイムワープすることができ、その場合、Ｔの値は、ワープされたセグメントの終了時に０にリセットされることができる。

タスクＴ２２０が時間修正するセグメントは、第２の信号全体を含むことができるか、または、セグメントは、残差のサブフレーム（たとえば、初期サブフレーム）など、その信号のより短い部分とすることができる。一般に、タスクＴ２２０は、図１７ａに示す残差発生器Ｄ１０の出力など非量子化残差信号のセグメントを（たとえば、オーディオ信号Ｓ１００の逆ＬＰＣフィルタ処理の後に）時間修正する。しかしながら、タスクＴ２２０は、図１７ａに示す信号Ｓ４０、またはオーディオ信号Ｓ１００のセグメントなど、復号残差のセグメントを（たとえば、ＭＤＣＴ−ＩＭＤＣＴ処理の後に）時間修正するように実装されることもできる。

時間シフトＴが、第１の信号を修正するために使用された最後の時間シフトであることが望ましい場合がある。たとえば、時間シフトＴは、第１のフレームの残差の最後に時間シフトされたセグメントに適用された時間シフト、及び／または蓄積された時間シフトの最新の更新から生じた値とすることができる。ＲＣＥＬＰエンコーダＲＣ１００の実装形態は、タスクＴ１１０を実行するように構成されることができ、その場合、時間シフトＴは、第１のフレームの符号化中にブロックＲ４０またはブロックＲ８０によって計算される最後の時間シフト値とすることができる。

図１９ｂは、タスクＴ１１０の実装形態Ｔ１１２のフローチャートを示している。タスクＴ１１２は、最新のサブフレームの修正残差など、前のサブフレームの残差からの情報に基づいて時間シフトを計算するサブタスクＴ１３０を含む。上述のように、ＲＣＥＬＰコーディング方式では前のサブフレームの修正残差に基づかれるターゲット残差を発生させ、選択されたシフトフレームとターゲット残差の対応するセグメントとの間の一致に従って時間シフトを計算することが望ましい場合がある。

図１９ｃは、タスクＴ１３０の実装形態Ｔ１３２を含むタスクＴ１１２の実装形態Ｔ１１４のフローチャートを示している。タスクＴ１３２は、前の残差のサンプルを遅延輪郭にマッピングするタスクＴ１４０を含む。上述のように、ＲＣＥＬＰコーディング方式では、前のサブフレームの修正残差を現在のサブフレームの合成遅延輪郭にマッピングすることによってターゲット残差を発生させることが望ましい場合がある。

第２の信号を時間シフトし、第２のフレームを符号化するためのルックアヘッドとして使用される後続のフレームの任意の部分をも時間シフトするようにタスクＴ２１０を構成することが望ましい場合がある。たとえば、タスクＴ２１０では、（たとえば、ＭＤＣＴ及び重複ウィンドウに関して上述したように）時間シフトＴを第２の（非ＰＲ）フレームの残差に適用し、第２のフレームを符号化するためのルックアヘッドとして使用される後続のフレームの残差の任意の部分にも適用することが望ましい場合がある。時間シフトＴを、非ＰＲコーディング方式（たとえば、ＭＤＣＴコーディング方式）を使用して符号化された任意の後続の連続フレームの残差に適用し、そのようなフレームに対応する任意のルックアヘッドセグメントに適用するように、タスクＴ２１０を構成することが望ましい場合もある。

図２５ｂは、２つのＰＲフレーム間の非ＰＲフレームのシーケンス中の各々が、第１のＰＲフレームの最後のシフトフレームに適用された時間シフトによってシフトされる例を示している。この図では、実線は元のフレームの位置を経時的に示し、破線はフレームのシフトされた位置を示し、点線は元の境界とシフトされた境界との間の対応を示す。より長い垂直線はフレーム境界を示し、第１の短い垂直線は、第１のＰＲフレームの最後のシフトフレームの開始を示し（ピークはシフトフレームのピッチパルスを示す）、最後の短い垂直線はシーケンスの最終非ＰＲフレーム用のルックアヘッドセグメントの終了を示す。一例では、ＰＲフレームはＲＣＥＬＰフレームであり、非ＰＲフレームはＭＤＣＴフレームである。別の例では、ＰＲフレームはＲＣＥＬＰフレームであり、非ＰＲフレームのいくつかはＭＤＣＴフレームであり、他の非ＰＲフレームはＮＥＬＰフレームまたはＰＷＩフレームである。

方法Ｍ１００は、ピッチ推定値が現在の非ＰＲフレームに利用できない場合に好適であり得る。しかしながら、ピッチ推定値が現在の非ＰＲフレームに利用できる場合でも、方法Ｍ１００を実行することが望ましい場合がある。（ＭＤＣＴウィンドウの場合など）連続フレーム間の重複追加を伴う非ＰＲコーディング方式では、連続フレーム、任意の対応するルックアヘッド、及びフレーム間の任意の重複領域を同じシフト値だけシフトすることが望ましい場合がある。そのような整合性は、再構成されたオーディオ信号の品質の劣化を回避するのに役立つことができる。たとえば、ＭＤＣＴウィンドウなど重複領域に寄与するフレームの両方に同じ時間シフト値を使用することが望ましい場合がある。

図２０ａは、ＭＤＣＴエンコーダＭＥ１００の実装形態ＭＥ１１０のブロック図を示している。エンコーダＭＥ１１０は、時間修正した残差信号Ｓ２０を生成するために、残差発生器Ｄ１０によって発生した残差信号のセグメントを時間修正するように構成された時間修正器（time modifier）ＴＭ１０を含む。一実装形態では、時間修正器ＴＭ１０は、Ｔの値に従って前方または後方にセグメント全体を移動することによって、セグメントを時間シフトするように構成される。そのような動作は、断片時間シフトを実行するためにサンプル値を補間することを含むことができる。別の実装形態では、時間修正器ＴＭ１０は、時間シフトＴに基づいてセグメントをタイムワープするように構成される。そのような動作は、遅延輪郭にセグメントをマッピングすることを含むことができる。たとえば、そのような動作は、Ｔの値に従ってセグメントのあるサンプル（たとえば、第１のサンプル）を移動することと、Ｔの大きさよりも小さい大きさを有する値だけ別のサンプル（たとえば、最後のサンプル）を移動することと、を含むことができる。たとえば、タスクＴ１２０は、フレームまたは他のセグメントを、時間シフトＴの値だけ短縮された（たとえば、Ｔが負の値の場合、延長された）対応する時間間隔にマッピングすることによってタイムワープすることができ、その場合、Ｔの値は、ワープされたセグメントの終了時に０にリセットされることができる。上記のように、時間シフトＴは、ＰＲコーディング方式によって時間シフトされたセグメントに最新に適用された時間シフト、及び／またはＰＲコーディング方式によって蓄積された時間シフトの最新の更新から生じた値とすることができる。ＲＣＥＬＰエンコーダＲＣ１０５とＭＤＣＴエンコーダＭＥ１１０との実装形態を含むオーディオエンコーダＡＥ１０の実装形態では、エンコーダＭＥ１１０は、時間修正された残差信号Ｓ２０をバッファＲ９０に記憶するように構成されることもできる。

図２０ｂは、ＭＤＣＴエンコーダＭＥ２００の実装形態ＭＥ２１０のブロック図を示している。エンコーダＭＥ２００は、時間修正されたオーディオ信号Ｓ２５を生成するために、オーディオ信号Ｓ１００のセグメントを時間修正するように構成された時間修正器ＴＭ１０のインスタンスを含む。上記のように、オーディオ信号Ｓ１００は、知覚的に重み付けされ、及び／または別の方法でフィルタ処理されたデジタル信号とすることができる。ＲＣＥＬＰエンコーダＲＣ１０５とＭＤＣＴエンコーダＭＥ２１０との実装形態を含むオーディオエンコーダＡＥ１０の実装形態では、エンコーダＭＥ２１０は、時間修正された残差信号Ｓ２０をバッファＲ９０に記憶するように構成されることもできる。

図２１ａは、ノイズ注入モジュールＤ５０を含むＭＤＣＴエンコーダＭＥ１１０の実装形態ＭＥ１２０のブロック図を示している。ノイズ注入モジュールＤ５０は、（たとえば、上記の参照により組み込まれる３ＧＰＰ２ＥＶＲＣ文書Ｃ．Ｓ００１４−Ｃの第４．１３節の第４．１３．７部（４−１５０ページ）に記載されている技法に従って）所定の周波数範囲内で量子化された符号化残差信号Ｓ３０の０値要素とノイズを置換するように構成される。そのような動作は、残差線スペクトルのアンダーモデリング（undermodeling）中に生じることがあるトーンアーティファクト（tonal artifacts）の知覚を低減することによって、オーディオ品質を改善することができる。

図２１ｂは、ＭＤＣＴエンコーダＭＥ１１０の実装形態ＭＥ１３０のブロック図を示している。エンコーダＭＥ１３０は、（たとえば、上記の参照により組み込まれる３ＧＰＰ２ＥＶＲＣ文書Ｃ．Ｓ００１４−Ｃの第４．１３節の第４．１３．３部（４−１４７ページ）に記載されている技法に従って）残差信号Ｓ２０の低周波フォルマント領域の知覚的重み付けを実行するように構成されたフォルマントエンファシスモジュールＤ６０と、（たとえば、３ＧＰＰ２ＥＶＲＣ文書Ｃ．Ｓ００１４−Ｃの第４．１３節の第４．１３．９部（４−１５１ページ）に記載されている技法に従って）知覚的重み付けを除去するように構成されたフォルマントデエンファシスモジュールＤ７０と、を含む。

図２２は、ＭＤＣＴエンコーダＭＥ１２０とＭＥ１３０との実装形態ＭＥ１４０のブロック図を示している。ＭＤＣＴエンコーダＭＤ１１０の他の実装形態は、残差発生器Ｄ１０と復号残差信号Ｓ４０との間の処理経路中に１つまたは複数の追加の動作を含むように構成されることができる。

図２３ａは、概略構成に従ったオーディオ信号ＭＭ１００のフレームをＭＤＣＴ符号化する方法（たとえば、方法Ｍ１０のタスクＴＥ３０のＭＤＣＴ実装形態）のフローチャートを示している。方法ＭＭ１００は、フレームの残差を発生させるタスクＭＴ１０を含む。タスクＭＴ１０は、一般に、オーディオ信号Ｓ１００など、（前処理されることがある）サンプリングされたオーディオ信号のフレームを受けるように構成される。タスクＭＴ１０は、一般に、線形予測コーディング（「ＬＰＣ」）分析演算を含むように実装され、線スペクトル対（「ＬＳＰ」）などＬＰＣパラメータの組を生成するように構成されることができる。タスクＭＴ１０は、１つまたは複数の知覚的重み付け及び／または他のフィルタ処理演算など、他の処理演算を含むこともできる。

方法ＭＭ１００は、発生された残差を時間修正するタスクＭＴ２０を含む。一実装形態では、タスクＭＴ２０は、Ｔの値に従って前方または後方にセグメント全体を移動して、残差のセグメントを時間シフトすることによって、残差を時間修正する。そのような動作は、断片時間シフトを実行するためにサンプル値を補間することを含むことができる。別の実装形態では、タスクＭＴ２０は、時間シフトＴに基づいて残差のセグメントをタイムワープすることによって残差を時間修正する。そのような動作は、遅延輪郭にセグメントをマッピングすることを含むことができる。たとえば、そのような動作は、Ｔの値に従ってセグメントのあるサンプル（たとえば、第１のサンプル）を移動することと、Ｔよりも小さい大きさを有する値だけ別のサンプル（たとえば、最後のサンプル）を移動することとを含むことができる。時間シフトＴは、ＰＲコーディング方式によって時間シフトされたセグメントに最新に適用された時間シフト、及び／またはＰＲコーディング方式によって蓄積された時間シフトの最新の更新から生じた値とすることができる。ＲＣＥＬＰ符号化方法ＲＭ１００とＭＤＣＴ符号化方法ＭＭ１００との実装形態を含む符号化方法Ｍ１０の実装形態では、タスクＭＴ２０は、（たとえば、次のフレームのためのターゲット残差を発生させるために方法ＲＭ１００によって使用することができるように）時間修正された残差信号Ｓ２０を修正残差バッファに記憶するように構成されることもできる。

方法ＭＭ１００は、ＭＤＣＴ係数の組を生成するために、（たとえば、上記のようにＸ（ｋ）のための式に従って）時間修正された残差に対してＭＤＣＴ演算を実行するタスクＭＴ３０を含む。タスクＭＴ３０は、（たとえば、図１６または図１８に示すように）本明細書で説明するウィンドウ関数ｗ（ｎ）を適用するか、またはＭＤＣＴ演算を実行するために別のウィンドウ関数またはアルゴリズムを使用することができる。方法ＭＭ４０は、因数コーディング、組合せ近似、切捨て、丸め、及び／または、特定の適用例に好適であると考えられる任意の他の量子化演算を使用してＭＤＣＴ係数を量子化するタスクＭＴ４０を含む。この例では、方法ＭＭ１００は、（たとえば、上記のように

のための式に従って）復号サンプルの組を得るために量子化係数に対してＩＭＤＣＴ演算を実行するように構成された随意のタスクＭＴ５０をも含む。

方法ＭＭ１００の実装形態は、方法Ｍ１０の実装形態内（たとえば、符号化タスクＴＥ３０内）に含められることができ、上記のように、論理要素（たとえば、論理ゲート）のアレイは、その方法の様々なタスクのうちの１つ、複数、さらにはすべてを実行するように構成されることができる。方法Ｍ１０が方法ＭＭ１００と方法ＲＭ１００の両方の実装形態を含む場合、残差計算タスクＲＴ１０と残差発生タスクＭＴ１０は、共同で演算を共有することができ（たとえば、ＬＰＣ演算の順序のみが異なり）、さらには同じタスクとして実装できる。

図２３ｂは、オーディオ信号のフレームのＭＤＣＴ符号化のための装置ＭＦ１００（たとえば、装置Ｆ１０の手段ＦＥ３０のＭＤＣＴ実装形態）のブロック図を示している。装置ＭＦ１００は、（たとえば、上述のようにタスクＭＴ１０の実装形態を実行することによって）フレームＦＭ１０の残差を発生させるための手段を含む。装置ＭＦ１００は、（たとえば、上述のようにタスクＭＴ２０の実装形態を実行することによって）発生した残差ＦＭ２０を時間修正するための手段を含む。ＲＣＥＬＰ符号化装置ＲＦ１００とＭＤＣＴ符号化装置ＭＦ１００との実装を含む符号化装置Ｆ１０の実装形態では、手段ＦＭ２０は、（たとえば、次のフレームのためのターゲット残差を発生させるために、装置ＲＦ１００によって使用することができるように）時間修正された残差信号Ｓ２０を修正残差バッファに記憶するように構成されることもできる。装置ＭＦ１００はまた、（たとえば、上述のようにタスクＭＴ３０の実装形態を実行することによって）ＭＤＣＴ係数の組を得るために時間修正された残差ＦＭ３０に対してＭＤＣＴ演算を実行するための手段と、（たとえば、上述のようにタスクＭＴ４０の実装形態を実行することによって）ＭＤＣＴ係数ＦＭ４０を量子化するための手段と、を含む。装置ＭＦ１００は、（たとえば、上述のようにタスクＭＴ５０を実行することによって）量子化係数ＦＭ５０に対してＩＭＤＣＴ演算を実行するための随意の手段をも含む。

図２４ａは、別の概略構成によるオーディオ信号のフレームを処理する方法Ｍ２００のフローチャートを示している。方法Ｍ２００のタスクＴ５１０は、非ＰＲコーディング方式（たとえば、ＭＤＣＴコーディング方式）に従って第１のフレームを符号化する。方法Ｍ２００のタスクＴ６１０は、ＰＲコーディング方式（たとえば、ＲＣＥＬＰコーディング方式）に従ってオーディオ信号の第２のフレームを符号化する。

タスクＴ５１０は、第１の時間シフトＴに従って第１の信号のセグメントを時間修正するサブタスクＴ５２０を含み、ここで第１の信号は第１のフレームに基づかれる（たとえば、第１の信号は第１の（非ＰＲ）フレームまたは第１のフレームの残差である）。一例では、時間シフトＴは、オーディオ信号中の第１のフレームに先行したフレームのＲＣＥＬＰ符号化中に計算されるような、蓄積された時間シフトの値（たとえば、最後に更新された値）である。タスクＴ５２０が時間修正するセグメントは、第１の信号全体を含むか、または、そのセグメントは、残差のサブフレーム（たとえば、最終サブフレーム）など、その信号のより短い部分とすることができる。一般に、タスクＴ５２０は、図１７ａに示す残差発生器Ｄ１０の出力など非量子化残差信号を（たとえば、オーディオ信号Ｓ１００の逆ＬＰＣフィルタ処理の後に）時間修正する。しかしながら、タスクＴ５２０は、図１７ａに示す信号Ｓ４０、またはオーディオ信号Ｓ１００のセグメントなど、復号残差のセグメントを（たとえば、ＭＤＣＴ−ＩＭＤＣＴ処理の後に）時間修正するように実装されることもできる。

一実装形態では、タスクＴ５２０は、Ｔの値に従って時間的に前方または後方に（すなわち、フレームまたはオーディオ信号の別のセグメントに対して）セグメント全体を移動することによって、セグメントを時間シフトする。そのような動作は、断片時間シフトを実行するためにサンプル値を補間することを含むことができる。別の実装形態では、タスクＴ５２０は、時間シフトＴに基づいてセグメントをタイムワープする。そのような動作は、遅延輪郭にセグメントをマッピングすることを含むことができる。たとえば、そのような動作は、Ｔの値に従ってセグメントのあるサンプル（たとえば、第１のサンプル）を移動することと、Ｔの大きさよりも小さい大きさを有する値だけセグメントの別のサンプル（たとえば、最後のサンプル）を移動することと、を含むことができる。

タスクＴ５２０は、（たとえば、次のフレームのためのターゲット残差を発生させるために）以下に説明するタスクＴ６２０によって使用することができるように、時間修正された信号をバッファ（たとえば、修正残差バッファ）に記憶するように構成されることができる。タスクＴ５２０は、ＰＲ符号化タスクの他の状態メモリを更新するように構成されることもできる。タスクＴ５２０の１つのそのような実装形態は、適応コードブック（「ＡＣＢ」）メモリへの復号残差信号Ｓ４０などの復号量子化残差信号と、ＰＲ符号化タスク（たとえば、ＲＣＥＬＰ符号化方法ＲＭ１２０）のゼロ入力応答フィルタ状態と、を記憶する。

タスクＴ６１０は、時間修正されたセグメントからの情報に基づいて第２の信号をタイムワープするサブタスクＴ６２０を含み、ここで第２の信号は第２のフレームに基づかれる（たとえば、第２の信号は、第２のＰＲフレームまたは第２のフレームの残差である）。たとえば、ＰＲコーディング方式は、過去修正残差の代わりに、時間修正された（たとえば、時間シフトされた）セグメントを含む第１のフレームの残差を使用することによって、上述のように第２のフレームを符号化するように構成されたＲＣＥＬＰコーディング方式とすることができる。

一実装形態では、タスクＴ６２０は、時間的に前方または後方に（すなわち、フレームまたはオーディオ信号の別のセグメントに対して）セグメント全体を移動することによって、第２の時間シフトをセグメントに適用する。そのような動作は、断片時間シフトを実行するためにサンプル値を補間することを含むことができる。別の実装形態では、タスクＴ６２０は、セグメントをタイムワープするもので、セグメントを遅延輪郭にマッピングすることを含むことができる。たとえば、そのような動作は、時間シフトに従ってセグメントのあるサンプル（たとえば、第１のサンプル）を移動することと、より小さい時間シフトだけセグメントの別のサンプル（たとえば、最後のサンプル）を移動することと、を含むことができる。

図２４ｂは、タスクＴ６２０の実装形態Ｔ６２２のフローチャートを示している。タスクＴ６２２は、時間修正されたセグメントからの情報に基づいて第２の時間シフトを計算するサブタスクＴ６３０を含む。タスクＴ６２２は、第２の信号のセグメントに（この例では、第２のフレームの残差に）第２の時間シフトを適用するサブタスクＴ６４０をも含む。

図２４ｃは、タスクＴ６２０の実装形態Ｔ６２４のフローチャートを示している。タスクＴ６２４は、オーディオ信号の遅延輪郭に時間修正されたセグメントのサンプルをマッピングするサブタスクＴ６５０を含む。上述のように、ＲＣＥＬＰコーディング方式では、現在のサブフレームの合成遅延輪郭に前のサブフレームの修正残差をマッピングすることによってターゲット残差を発生させることが望ましい場合がある。この場合、ＲＣＥＬＰコーディング方式は、時間修正されたセグメントを含む第１の（非ＲＣＥＬＰ）フレームの残差に基づくターゲット残差を発生させることによってタスクＴ６５０を実行するように構成されることができる。

たとえば、そのようなＲＣＥＬＰコーディング方式は、現在フレームの合成遅延輪郭に、時間修正されたセグメントを含む第１の（非ＲＣＥＬＰ）フレームの残差をマッピングすることによって、ターゲット残差を発生させるように構成されることができる。ＲＣＥＬＰコーディング方式は、ターゲット残差に基づいて時間シフトを計算し、上述のように、第２のフレームの残差をタイムワープするために計算された時間シフトを使用するように構成されることもできる。図２４ｄは、タスクＴ６５０と、時間修正されたセグメントのマッピングされたサンプルからの情報に基づいて第２の時間シフトを計算するタスクＴ６３０の実装形態Ｔ６３２と、タスクＴ６４０とを含む、タスクＴ６２２及びＴ６２４の実装形態Ｔ６２６のフローチャートを示している。

上記のように、約３００〜３４００ＨｚのＰＳＴＮ周波数範囲を超える周波数範囲を有するオーディオ信号を送信及び受信することが望ましい場合がある。そのような信号のコーディングに対する１つの手法は、（たとえば、拡張周波数範囲をカバーするようにＰＳＴＮ範囲用のコーディングシステムをスケーリングすることによって）拡張周波数範囲全体を単一の周波数帯域として符号化する「フルバンド（full-band）」技法である。別の手法は、拡張周波数範囲中にＰＳＴＮ信号からの情報を外挿すること（たとえば、ＰＳＴＮ範囲のオーディオ信号からの情報に基づいて、ＰＳＴＮ範囲を上回るハイバンド範囲用の励起信号を外挿すること）である。さらなる手法は、ＰＳＴＮ範囲の外部にあるオーディオ信号の情報（たとえば、３５００〜７０００Ｈｚまたは３５００〜８０００Ｈｚなどハイバンド周波数範囲用の情報）を別々に符号化する「スプリットバンド」技法である。スプリットバンドＰＲコーディング技法についての記述は、「ＴＩＭＥ−ＷＡＲＰＩＮＧＦＲＡＭＥＳＯＦＷＩＤＥＢＡＮＤＶＯＣＯＤＥＲ」と題する米国特許公開第２００８／００５２０６５号、及び「ＳＹＳＴＥＭＳ，ＭＥＴＨＯＤＳ，ＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＨＩＧＨＢＡＮＤＴＩＭＥＷＡＲＰＩＮＧ」と題する第２００６／０２８２２６３号などの文献に記載されている。オーディオ信号の狭帯域部分とハイバンド部分の両方に方法Ｍ１００及び／またはＭ２００の実装形態を含むようにスプリットバンドコーディング技法を拡張することが望ましい場合がある。

方法Ｍ１００及び／またはＭ２００は、方法Ｍ１０の実装形態内で実行されることができる。たとえば、タスクＴ１１０及びＴ２１０（同様に、タスクＴ５１０及びＴ６１０）は、方法Ｍ１０がオーディオ信号Ｓ１００の連続フレームを処理するように実行するとき、タスクＴＥ３０の連続反復によって実行されることができる。方法Ｍ１００及び／またはＭ２００は、装置Ｆ１０及び／または装置ＡＥ１０（たとえば、装置ＡＥ２０またはＡＥ２５）の実装形態によって実行されることもできる。上記のように、そのような装置は、セルラー電話などの携帯型通信デバイス中に含められることができる。そのような方法及び／または装置は、メディアゲートウェイなどインフラストラクチャ機器中に実装されることもできる。

説明した構成の前述の提示は、本明細書で開示した方法及び他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示及び説明したフローチャート、ブロック図、状態図、及び他の構造は例にすぎず、これらの構造の他の変形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的原理は他の構成にも同様に適用できる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願される添付の特許請求の範囲を含む、本明細書において任意の方法で開示された原理及び新規の特徴に合致する最も広い範囲を与えられるべきである。

上記で参照したＥＶＲＣ及びＳＭＶコーデックに加えて、本明細書で説明するスピーチエンコーダ、スピーチ符号化の方法、スピーチデコーダ、及び／またはスピーチ復号の方法とともに使用される、またはそれらとともに使用するように適合されるコーデックの例は、文書ＥＴＳＩＴＳ１２６０９２Ｖ６．０．０（欧州電気通信標準化機構（「ＥＴＳＩ」）、ＳｏｐｈｉａＡｎｔｉｐｏｌｉｓＣｅｄｅｘ、ＦＲ、２００４年１２月）に記載されている適応マルチレート（Adaptive Multi Rate）（「ＡＭＲ」）スピーチコーデック；及び文書ＥＴＳＩＴＳ１２６１９２Ｖ６．０．０（ＥＴＳＩ、２００４年１２月）に記載されているＡＭＲ広帯域スピーチコーデックを含む。

情報及び信号は、様々な異なる技術及び技法のいずれかを使用して表すことができることを、当業者は理解されよう。たとえば、上記の説明全体にわたって言及されるデータ、命令、コマンド、情報、信号、ビット、及びシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光粒子、あるいはそれらの任意の組合せによって表されことができる。

さらに、本明細書で開示した構成に関連して説明した様々な例示的な論理ブロック、モジュール、回路、及び動作は、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者は理解されよう。そのような論理ブロック、モジュール、回路、及び動作は、本明細書で説明した機能を実行するように設計された、汎用プロセッサ、デジタル信号プロセッサ（「ＤＳＰ」）、ＡＳＩＣまたはＡＳＳＰ、ＦＰＧＡまたは他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタロジック、個別のハードウェアコンポーネント、あるいはそれらの任意の組合せを用いて実装または実行されることができる。汎用プロセッサはマイクロプロセッサとすることができるが、代替として、プロセッサは、通常のプロセッサ、コントローラ、マイクロコントローラ、または状態機械とすることができる。プロセッサは、コンピュータ計算デバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成としても実装されることができる。

本明細書で説明した方法及びアルゴリズムのタスクは、ハードウェアで直接実施されるか、プロセッサによって実行されるソフトウェアモジュールで実施されるか、またはその２つの組合せで実施されることができる。ソフトウェアモジュールは、ランダムアクセスメモリ（「ＲＡＭ」）、読取り専用メモリ（「ＲＯＭ」）、フラッシュＲＡＭなどの不揮発性ＲＡＭ（「ＮＶＲＡＭ」）、消去可能プログラマブルＲＯＭ（「ＥＰＲＯＭ」）、電気的消去可能プログラマブルＲＯＭ（「ＥＥＰＲＯＭ」）、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、または当技術分野で知られている任意の他の形態の記憶媒体中に存在することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体は、プロセッサに一体化されることができる。プロセッサ及び記憶媒体は、ＡＳＩＣ中に存在することができる。ＡＳＩＣは、ユーザ端末内に存在することができる。代替として、プロセッサ及び記憶媒体は、ユーザ端末内に個別のコンポーネントとして存在することができる。

本明細書で説明した構成の各々は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路中に作製された回路構成として、あるいは、機械可読コードとして不揮発性記憶装置にロードされたファームウェアプログラムまたはデータ記憶媒体からロードされた、もしくはデータ記憶媒体中にロードされたソフトウェアプログラムとして実装されることができ、そのようなコードは、マイクロプロセッサまたは他のデジタル信号処理ユニットなど論理要素のアレイによって実行可能な命令である。データ記憶媒体は、（限定はしないが、ダイナミックまたはスタティックＲＡＭ、ＲＯＭ、及び／またはフラッシュＲＡＭを含む）半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、ポリマーメモリ、もしくは位相変化メモリなどの記憶要素のアレイ；あるいは磁気ディスクまたは光ディスクなどのディスク媒体とすることができる。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の任意の１つまたは複数の組またはシーケンス、及びそのような例の任意の組合せを含むものと理解されたい。

本明細書で開示した方法Ｍ１０、ＲＭ１００、ＭＭ１００、Ｍ１００、及びＭ２００の実装形態は、論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械によって読取り可能及び／または実行可能な命令の１つまたは複数の組として、（たとえば、上記に記載した１つまたは複数のデータ記憶媒体中で）有形に実施されることもできる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願される添付の特許請求の範囲を含む、本明細書において任意の方法で開示された原理及び新規の特徴に合致する最も広い範囲を与えられるべきである。

本明細書で説明した装置の様々な実装形態（たとえば、ＡＥ１０、ＡＤ１０、ＲＣ１００、ＲＦ１００、ＭＥ１００、ＭＥ２００、ＭＦ１００）の要素は、たとえば、同一チップ上またはチップセット中の２つ以上のチップ上に存在する電子デバイス及び／または光デバイスとして作製されることができる。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定またはプログラマブルなアレイである。本明細書で説明した装置の様々な実装形態の１つまたは複数の要素は、全体または一部を、マイクロプロセッサ、埋込み型プロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ、ＡＳＳＰ、及びＡＳＩＣなど論理要素の１つまたは複数の固定またはプログラマブルなアレイ上で実行するように構成された命令の１つまたは複数の組として実装されることもできる。

本明細書で説明した装置の一実装形態の１つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施するため、あるいは装置の動作に直接関係しない命令の他の組を実行するために、使用することが可能である。また、そのような装置の実装形態の１つまたは複数の要素は、共通の構造（たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令の組、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイス及び／または光デバイスの構成）を有することが可能である。

図２６は、本明細書で説明したシステム及び方法を有するアクセス端末として使用され得るオーディオ通信のためのデバイス１１０８の一例のブロック図を示している。デバイス１１０８は、デバイス１１０８の動作を制御するように構成されたプロセッサ１１０２を含む。プロセッサ１１０２は、方法Ｍ１００またはＭ２００の実装形態を実行するようにデバイス１１０８を制御するように構成されることができる。デバイス１１０８は、命令及びデータをプロセッサ１１０２に供給するように構成され、ＲＯＭ、ＲＡＭ、及び／またはＮＶＲＡＭを含むことができる、メモリ１１０４をも含む。デバイス１１０８は、トランシーバ１１２０を収容するハウジング１１２２をも含む。トランシーバ１１２０は、デバイス１１０８と遠隔地との間のデータの送信及び受信をサポートする、送信機１１１０と受信機１１１２とを含む。デバイス１１０８のアンテナ１１１８は、ハウジング１１２２に取り付けられ、トランシーバ１１２０に電気的に結合される。

デバイス１１０８は、トランシーバ１１２０によって受信された信号を検出し、信号のレベルを定量化するように構成された信号検出器１１０６を含む。たとえば、信号検出器１１０６は、総エネルギー、擬似ノイズチップ（pseudonoise chip）当たりのパイロットエネルギー（Ｅｂ／Ｎｏとも表される）、及び／または電力スペクトル密度などのパラメータの値を計算するように構成されることができる。デバイス１１０８は、デバイス１１０８の様々なコンポーネントを共に結合するように構成されたバスシステム１１２６を含む。データバスに加えて、バスシステム１１２６は、電力バス、制御信号バス、及び／またはステータス信号バスを含むことができる。デバイス１１０８は、トランシーバ１１２０によって受信された信号及び／またはトランシーバ１１２０によって送信すべき信号を処理するように構成されたＤＳＰ１１１６をも含む。

この例では、デバイス１１０８は、いくつかの異なる状態のうちのいずれか１つで動作するように構成されており、デバイスの現在の状態と、トランシーバ１１２０によって受信され、信号検出器１１０６によって検出された信号とに基づいてデバイス１１０８の状態を制御するように構成された状態変更器１１１４を含む。この例では、デバイス１１０８は、現在のサービスプロバイダが不十分であると判断し、異なるサービスプロバイダに転送するようにデバイス１１０８を制御するように構成されたシステム判断器１１２４をも含む。

Claims

オーディオ信号のフレームを処理する方法であって、
ピッチ調整（ＰＲ）コーディング方式に従って前記オーディオ信号の第１のフレームを符号化することと、
非ＰＲコーディング方式に従って前記オーディオ信号の第２のフレームを符号化することと、
を備え、
前記第２のフレームが、前記オーディオ信号中の前記第１のフレームに後続し且つ連続し、
前記第１のフレームを符号化することが、前記第１のフレームに基づく第１の信号のセグメントを、時間シフトに基づいて時間修正することを含み、前記時間修正することが、（Ａ）前記時間シフトに従って前記第１のフレームの前記セグメントを時間シフトすることと、（Ｂ）前記時間シフトに基づいて前記第１の信号の前記セグメントをタイムワープすることと、のうちの１つを含み、
前記第１の信号のセグメントを時間修正することが、前記第１の信号の別のピッチパルスに対して前記セグメントのピッチパルスの位置を変化させることを含み、
前記第２のフレームを符号化することが、前記第２のフレームに基づく第２の信号のセグメントを、前記時間シフトに基づいて時間修正することを含み、前記時間修正することが、（Ａ）前記時間シフトに従って前記第２のフレームの前記セグメントを時間シフトすることと、（Ｂ）前記時間シフトに基づいて前記第２の信号の前記セグメントをタイムワープすることと、のうちの１つを含む、方法。
前記第１のフレームを符号化することが、前記第１の信号の前記時間修正されたセグメントに基づく第１の符号化フレームを生成することを含み、
前記第２のフレームを符号化することが、前記第２の信号の前記時間修正されたセグメントに基づく第２の符号化フレームを生成することを含む、請求項１に記載の方法。
前記第１の信号が前記第１のフレームの残差であり、前記第２の信号が前記第２のフレームの残差である、請求項１に記載の方法。
前記第１及び第２の信号が重み付きオーディオ信号である、請求項１に記載の方法。
前記第１のフレームを符号化することが、前記オーディオ信号中の前記第１のフレームに先行する第３のフレームの残差からの情報に基づいて前記時間シフトを計算することを含む、請求項１に記載の方法。
前記時間シフトを計算することが、前記オーディオ信号の遅延輪郭に前記第３のフレームの前記残差のサンプルをマッピングすることを含む、請求項５に記載の方法。
前記第１のフレームを符号化することが、前記オーディオ信号のピッチ周期に関する情報に基づいて前記遅延輪郭をコンピュータ計算することを含む、請求項６に記載の方法。
前記ＰＲコーディング方式がリラックスドコード励振線形予測コーディング方式であり、
前記非ＰＲコーディング方式が、（Ａ）ノイズ励起線形予測コーディング方式と、（Ｂ）修正離散コサイン変換コーディング方式と、（Ｃ）プロトタイプ波形補間コーディング方式と、のうちの１つである、請求項１に記載の方法。
前記非ＰＲコーディング方式が修正離散コサイン変換コーディング方式である、請求項１に記載の方法。
前記第２のフレームを符号化することが、
符号化残差を得るために前記第２のフレームの残差に対して修正離散コサイン変換（ＭＤＣＴ）演算を実行することと、
復号残差を得るために前記符号化残差に基づく信号に対して逆ＭＤＣＴ演算を実行することと、
を含み、
前記第２の信号が前記復号残差に基づく、請求項１に記載の方法。
前記第２のフレームを符号化することが、
前記第２の信号である、前記第２のフレームの残差を発生させることと、
前記第２の信号のセグメントを時間修正することに続いて、符号化残差を得るために、前記時間修正されたセグメントを含む、前記発生した残差に対して修正離散コサイン変換演算を実行することと、
前記符号化残差に基づいて第２の符号化フレームを生成することと、
を含む、請求項１に記載の方法。
前記方法が、前記オーディオ信号中の前記第２のフレームに後続するフレームの残差のセグメントを、前記時間シフトに従って時間シフトすることを備える、請求項１に記載の方法。
前記方法が、前記第２のフレームに後続する前記オーディオ信号の第３のフレームに基づく第３の信号のセグメントを、前記時間シフトに基づいて時間修正することを含み、
前記第２のフレームを符号化することが、前記第２及び第３の信号の前記時間修正されたセグメントのサンプルを含むウィンドウに対して修正離散コサイン変換（ＭＤＣＴ）演算を実行することを含む、請求項１に記載の方法。
前記第２の信号がＭ個のサンプルの長さを有し、前記第３の信号がＭ個のサンプルの長さを有し、
前記ＭＤＣＴ演算を実行することが、（Ａ）前記時間修正されたセグメントを含む、前記第２の信号のＭ個のサンプルと、（Ｂ）前記第３の信号の３Ｍ／４個以下のサンプルと、に基づくＭ個のＭＤＣＴ係数の組を生成することを含む、請求項１３に記載の方法。
前記第２の信号がＭ個のサンプルの長さを有し、前記第３の信号がＭ個のサンプルの長さを有し、
前記ＭＤＣＴ演算を実行することが、（Ａ）前記時間修正されたセグメントを含む、前記第２の信号のＭ個のサンプルを含み、（Ｂ）ゼロ値の少なくともＭ／８個のサンプルのシーケンスで始まり、（Ｃ）ゼロ値の少なくともＭ／８個のサンプルのシーケンスで終わる、２Ｍ個のサンプルのシーケンスに基づくＭ個のＭＤＣＴ係数の組を生成することを含む、請求項１３に記載の方法。
オーディオ信号のフレームを処理するための装置であって、
ピッチ調整（ＰＲ）コーディング方式に従って前記オーディオ信号の第１のフレームを符号化するための手段と、
非ＰＲコーディング方式に従って前記オーディオ信号の第２のフレームを符号化するための手段と、
を備え、
前記第２のフレームが、前記オーディオ信号中の前記第１のフレームに後続し且つ連続し、
前記第１のフレームを符号化するための手段が、前記第１のフレームに基づく第１の信号のセグメントを、時間シフトに基づいて時間修正するための手段を含み、前記時間修正するための手段が、（Ａ）前記時間シフトに従って前記第１のフレームの前記セグメントを時間シフトすることと、（Ｂ）前記時間シフトに基づいて前記第１の信号の前記セグメントをタイムワープすることと、のうちの１つを実行するように構成され、
前記第１の信号のセグメントを時間修正するための手段が、前記第１の信号の別のピッチパルスに対する前記セグメントのピッチパルスの位置を変化させるように構成され、
前記第２のフレームを符号化するための手段が、前記第２のフレームに基づく第２の信号のセグメントを、前記時間シフトに基づいて時間修正するための手段を含み、前記時間修正するための手段が、（Ａ）前記時間シフトに従って前記第２のフレームの前記セグメントを時間シフトすることと、（Ｂ）前記時間シフトに基づいて前記第２の信号の前記セグメントをタイムワープすることと、のうちの１つを実行するように構成される、装置。
前記第１の信号が前記第１のフレームの残差であり、前記第２の信号が前記第２のフレームの残差である、請求項１６に記載の装置。
前記第１及び第２の信号が重み付きオーディオ信号である、請求項１６に記載の装置。
前記第１のフレームを符号化するための手段が、前記オーディオ信号中の前記第１のフレームに先行する第３のフレームの残差からの情報に基づいて前記時間シフトを計算するための手段を含む、請求項１６に記載の装置。
前記第２のフレームを符号化するための手段が、
前記第２の信号である、前記第２のフレームの残差を発生させるための手段と、
符号化残差を得るために、前記時間修正されたセグメントを含む、前記発生した残差に対して修正離散コサイン変換演算を実行するための手段と、
を含み、
前記第２のフレームを符号化するための手段が、前記符号化残差に基づいて第２の符号化フレームを生成するように構成される、請求項１６に記載の装置。
前記第２の信号のセグメントを時間修正するための手段が、前記オーディオ信号中の前記第２のフレームに後続するフレームの残差のセグメントを、前記時間シフトに従って時間シフトするように構成される、請求項１６に記載の装置。
前記第２の信号のセグメントを時間修正するための手段が、前記第２のフレームに後続する前記オーディオ信号の第３のフレームに基づく第３の信号のセグメントを、前記時間シフトに基づいて時間修正するように構成され、
前記第２のフレームを符号化するための手段が、前記第２及び第３の信号の前記時間修正されたセグメントのサンプルを含むウィンドウに対して修正離散コサイン変換（ＭＤＣＴ）演算を実行するための手段を含む、請求項１６に記載の装置。
前記第２の信号がＭ個のサンプルの長さを有し、前記第３の信号がＭ個のサンプルの長さを有し、
前記ＭＤＣＴ演算を実行するための手段が、（Ａ）前記時間修正されたセグメントを含む、前記第２の信号のＭ個のサンプルと、（Ｂ）前記第３の信号の３Ｍ／４個以下のサンプルと、に基づくＭ個のＭＤＣＴ係数の組を生成するように構成される、請求項２２に記載の装置。
オーディオ信号のフレームを処理するための装置であって、
ピッチ調整（ＰＲ）コーディング方式に従って前記オーディオ信号の第１のフレームを符号化するように構成された第１のフレームエンコーダと、
非ＰＲコーディング方式に従って前記オーディオ信号の第２のフレームを符号化するように構成された第２のフレームエンコーダと、
を備え、
前記第２のフレームが、前記オーディオ信号中の前記第１のフレームに後続し且つ連続し、
前記第１のフレームエンコーダが、前記第１のフレームに基づく第１の信号のセグメントを、時間シフトに基づいて時間修正するように構成された第１の時間修正器を含み、前記第１の時間修正器が、（Ａ）前記時間シフトに従って前記第１のフレームの前記セグメントを時間シフトすることと、（Ｂ）前記時間シフトに基づいて前記第１の信号の前記セグメントをタイムワープすることと、のうちの１つを実行するように構成され、
前記第１の時間修正器が、前記第１の信号の別のピッチパルスに対する前記セグメントのピッチパルスの位置を変化させるように構成され、
前記第２のフレームエンコーダが、前記第２のフレームに基づく第２の信号のセグメントを、前記時間シフトに基づいて時間修正するように構成された第２の時間修正器を含み、前記第２の時間修正器が、（Ａ）前記時間シフトに従って前記第２のフレームの前記セグメントを時間シフトすることと、（Ｂ）前記時間シフトに基づいて前記第２の信号の前記セグメントをタイムワープすることと、のうちの１つを実行するように構成される、装置。
前記第１の信号が前記第１のフレームの残差であり、前記第２の信号が前記第２のフレームの残差である、請求項２４に記載の装置。
前記第１及び第２の信号が重み付きオーディオ信号である、請求項２４に記載の装置。
前記第１のフレームエンコーダが、前記オーディオ信号中の前記第１のフレームに先行する第３のフレームの残差からの情報に基づいて前記時間シフトを計算するように構成された時間シフト計算器を含む、請求項２４に記載の装置。
前記第２のフレームエンコーダが、
前記第２の信号である、前記第２のフレームの残差を発生させるように構成された残差発生器と、
符号化残差を得るために、前記時間修正されたセグメントを含む、前記発生した残差に対して修正離散コサイン変換（ＭＤＣＴ）演算を実行するように構成されたＭＤＣＴモジュールと、
を含み、
前記第２のフレームエンコーダが、前記符号化残差に基づいて第２の符号化フレームを生成するように構成される、請求項２４に記載の装置。
前記第２の時間修正器が、前記オーディオ信号中の前記第２のフレームに後続するフレームの残差のセグメントを、前記時間シフトに従って時間シフトするように構成される、請求項２４に記載の装置。
前記第２の時間修正器が、前記第２のフレームに後続する前記オーディオ信号の第３のフレームに基づく第３の信号のセグメントを、前記時間シフトに基づいて時間修正するように構成され、
前記第２のフレームエンコーダが、前記第２及び第３の信号の前記時間修正されたセグメントのサンプルを含むウィンドウに対して修正離散コサイン変換（ＭＤＣＴ）演算を実行するように構成されたＭＤＣＴモジュールを含む、請求項２４に記載の装置。
前記第２の信号がＭ個のサンプルの長さを有し、前記第３の信号がＭ個のサンプルの長さを有し、
前記ＭＤＣＴモジュールが、（Ａ）前記時間修正されたセグメントを含む、前記第２の信号のＭ個のサンプルと、（Ｂ）前記第３の信号の３Ｍ／４個以下のサンプルと、に基づくＭ個のＭＤＣＴ係数の組を生成するように構成される、請求項３０に記載の装置。
プロセッサによって実行されると前記プロセッサに、
ピッチ調整（ＰＲ）コーディング方式に従って前記オーディオ信号の第１のフレームを符号化することと、
非ＰＲコーディング方式に従って前記オーディオ信号の第２のフレームを符号化することと、
を行わせる命令を備えるコンピュータ可読媒体であって、
前記第２のフレームが、前記オーディオ信号中の前記第１のフレームに後続し且つ連続し、
前記実行されると前記プロセッサに第１のフレームを符号化することを行わせる命令が、前記第１のフレームに基づく第１の信号のセグメントを、時間シフトに基づいて時間修正する命令を含み、前記時間修正する命令が、（Ａ）前記時間シフトに従って前記第１のフレームの前記セグメントを時間シフトする命令と、（Ｂ）前記時間シフトに基づいて前記第１の信号の前記セグメントをタイムワープする命令と、のうちの１つを含み、
前記第１の信号のセグメントを時間修正する命令が、前記第１の信号の別のピッチパルスに対する前記セグメントのピッチパルスの位置を変化させる命令を含み、
前記実行されると前記プロセッサに第２のフレームを符号化することを行わせる命令が、前記第２のフレームに基づく第２の信号のセグメントを、前記時間シフトに基づいて時間修正する命令を含み、前記時間修正する命令が、（Ａ）前記時間シフトに従って前記第２のフレームの前記セグメントを時間シフトする命令と、（Ｂ）前記時間シフトに基づいて前記第２の信号の前記セグメントをタイムワープする命令と、のうちの１つを含む、コンピュータ可読媒体。
オーディオ信号のフレームを処理する方法であって、
第１のコーディング方式に従って前記オーディオ信号の第１のフレームを符号化することと、
ピッチ調整（ＰＲ）コーディング方式に従って前記オーディオ信号の第２のフレームを符号化することと、
を備え、
前記第２のフレームが、前記オーディオ信号中の前記第１のフレームに後続し且つ連続し、
前記第１のコーディング方式が非ＰＲコーディング方式であり、
前記第１のフレームを符号化することが、前記第１のフレームに基づく第１の信号のセグメントを、第１の時間シフトに基づいて時間修正することを含み、前記時間修正することが、（Ａ）前記第１の時間シフトに従って前記第１の信号の前記セグメントを時間シフトすることと、（Ｂ）前記第１の時間シフトに基づいて前記第１の信号の前記セグメントをタイムワープすることと、のうちの１つを含み、
前記第２のフレームを符号化することが、前記第２のフレームに基づく第２の信号のセグメントを、第２の時間シフトに基づいて時間修正することを含み、前記時間修正することが、（Ａ）前記第２の時間シフトに従って前記第２の信号の前記セグメントを時間シフトすることと、（Ｂ）前記第２の時間シフトに基づいて前記第２の信号の前記セグメントをタイムワープすることと、のうちの１つを含み、
前記第２の信号のセグメントを時間修正することが、前記第２の信号の別のピッチパルスに対する前記セグメントのピッチパルスの位置を変化させることを含み、
前記第２の時間シフトが、前記第１の信号の前記時間修正されたセグメントからの情報に基づく、方法。
前記第１のフレームを符号化することが、前記第１の信号の前記時間修正されたセグメントに基づく第１の符号化フレームを生成することを含み、
前記第２のフレームを符号化することが、前記第２の信号の前記時間修正されたセグメントに基づく第２の符号化フレームを生成することを含む、請求項３３に記載の方法。
前記第１の信号が前記第１のフレームの残差であり、前記第２の信号が前記第２のフレームの残差である、請求項３３に記載の方法。
前記第１及び第２の信号が重み付きオーディオ信号である、請求項３３に記載の方法。
前記第２の信号のセグメントを時間修正することが、前記第１の信号の前記時間修正されたセグメントからの情報に基づいて前記第２の時間シフトを計算することを含み、
前記第２の時間シフトを計算することが、前記第２のフレームからの情報に基づく遅延輪郭に、前記第１の信号の前記時間修正されたセグメントをマッピングすることを含む、請求項３３に記載の方法。
前記第２の時間シフトが、前記マッピングされたセグメントのサンプルと一時修正残差のサンプルとの間の相関に基づかれ、
前記一時修正残差が、（Ａ）前記第２のフレームの残差のサンプルと、（Ｂ）前記第１の時間シフトと、に基づかれる、請求項３７に記載の方法。
前記第２の信号が前記第２のフレームの残差であり、
前記第２の信号のセグメントを時間修正することが、前記第２の時間シフトに従って前記残差の第１のセグメントを時間シフトすることを含み、
前記方法が、
前記第１の信号の前記時間修正されたセグメントからの情報に基づいて、前記第２の時間シフトとは異なる第３の時間シフトを計算することと、
前記第３の時間シフトに従って前記残差の第２のセグメントを時間シフトすることと、
を備える、請求項３３に記載の方法。
前記第２の信号が前記第２のフレームの残差であり、
前記第２の信号のセグメントを時間修正することが、前記第２の時間シフトに従って前記残差の第１のセグメントを時間シフトすることを含み、
前記方法が、
前記残差の前記時間修正された第１のセグメントからの情報に基づいて、前記第２の時間シフトとは異なる第３の時間シフトを計算することと、
前記第３の時間シフトに従って前記残差の第２のセグメントを時間シフトすることと、
を備える、請求項３３に記載の方法。
前記第２の信号のセグメントを時間修正することが、前記第２のフレームからの情報に基づく遅延輪郭に、前記第１の信号の前記時間修正されたセグメントのサンプルをマッピングすることを含む、請求項３３に記載の方法。
前記方法が、
適応コードブックバッファに前記第１の信号の前記時間修正されたセグメントに基づくシーケンスを記憶することと、
前記記憶することに続いて、前記第２のフレームからの情報に基づく遅延輪郭に前記適応コードブックバッファのサンプルをマッピングすることと、
を備える、請求項３３に記載の方法。
前記第２の信号が前記第２のフレームの残差であり、前記第２の信号のセグメントを時間修正することが前記第２のフレームの前記残差をタイムワープすることを含み、
前記方法が、前記第２のフレームの前記タイムワープされた残差からの情報に基づいて前記オーディオ信号の第３のフレームの残差をタイムワープすることを備え、前記第３のフレームが前記オーディオ信号中の前記第２のフレームに連続する、請求項３３に記載の方法。
前記第２の信号が前記第２のフレームの残差であり、前記第２の信号のセグメントを時間修正することが、（Ａ）前記第１の信号の前記時間修正されたセグメントからの情報と、（Ｂ）前記第２のフレームの前記残差からの情報と、に基づいて前記第２の時間シフトを計算することを含む、請求項３３に記載の方法。
前記ＰＲコーディング方式がリラックスドコード励振線形予測コーディング方式であり、前記非ＰＲコーディング方式が、（Ａ）ノイズ励起線形予測コーディング方式と、（Ｂ）修正離散コサイン変換コーディング方式と、（Ｃ）プロトタイプ波形補間コーディング方式と、のうちの１つである、請求項３３に記載の方法。
前記非ＰＲコーディング方式が修正離散コサイン変換コーディング方式である、請求項３３に記載の方法。
前記第１のフレームを符号化することが、
符号化残差を得るために前記第１のフレームの残差に対して修正離散コサイン変換（ＭＤＣＴ）演算を実行することと、
復号残差を得るために前記符号化残差に基づく信号に対して逆ＭＤＣＴ演算を実行することと、
を含み、
前記第１の信号が前記復号残差に基づく、請求項３３に記載の方法。
前記第１のフレームを符号化することが、
前記第１の信号である、前記第１のフレームの残差を発生させることと、
前記第１の信号のセグメントを時間修正することに続いて、符号化残差を得るために、前記時間修正されたセグメントを含む、前記発生した残差に対して修正離散コサイン変換演算を実行することと、
前記符号化残差に基づいて第１の符号化フレームを生成することと、
を含む、請求項３３に記載の方法。
前記第１の信号がＭ個のサンプルの長さを有し、前記第２の信号がＭ個のサンプルの長さを有し、
前記第１のフレームを符号化することが、前記時間修正されたセグメントを含む、前記第１の信号のＭ個のサンプルと、前記第２の信号の３Ｍ／４個以下のサンプルと、に基づくＭ個の修正離散コサイン変換（ＭＤＣＴ）係数の組を生成することを含む、請求項３３に記載の方法。
前記第１の信号がＭ個のサンプルの長さを有し、前記第２の信号がＭ個のサンプルの長さを有し、
前記第１のフレームを符号化することが、（Ａ）前記時間修正されたセグメントを含む、前記第１の信号のＭ個のサンプルを含み、（Ｂ）ゼロ値の少なくともＭ／８個のサンプルのシーケンスで始まり、（Ｃ）ゼロ値の少なくともＭ／８個のサンプルのシーケンスで終わる、２Ｍ個のサンプルのシーケンスに基づくＭ個の修正離散コサイン変換（ＭＤＣＴ）係数の組を生成することを含む、請求項３３に記載の方法。
オーディオ信号のフレームを処理するための装置であって、
第１のコーディング方式に従って前記オーディオ信号の第１のフレームを符号化するための手段と、
ピッチ調整（ＰＲ）コーディング方式に従って前記オーディオ信号の第２のフレームを符号化するための手段と、
を備え、
前記第２のフレームが、前記オーディオ信号中の前記第１のフレームに後続し且つ連続し、
前記第１のコーディング方式が非ＰＲコーディング方式であり、
第１のフレームを符号化するための前記手段が、前記第１のフレームに基づく第１の信号のセグメントを、第１の時間シフトに基づいて時間修正するための手段を含み、前記時間修正するための手段が、（Ａ）前記第１の時間シフトに従って前記第１の信号の前記セグメントを時間シフトすることと、（Ｂ）前記第１の時間シフトに基づいて前記第１の信号の前記セグメントをタイムワープすることと、のうちの１つを実行するように構成され、
前記第２のフレームを符号化するための手段が、前記第２のフレームに基づく第２の信号のセグメントを、第２の時間シフトに基づいて時間修正するための手段を含み、前記時間修正するための手段が、（Ａ）前記第２の時間シフトに従って前記第２の信号の前記セグメントを時間シフトすることと、（Ｂ）前記第２の時間シフトに基づいて前記第２の信号の前記セグメントをタイムワープすることと、のうちの１つを実行するように構成され、
前記第２の信号のセグメントを時間修正するための手段が、前記第２の信号の別のピッチパルスに対する前記セグメントのピッチパルスの位置を変化させるように構成され、
前記第２の時間シフトが、前記第１の信号の前記時間修正されたセグメントからの情報に基づく、方法。
前記第１の信号が前記第１のフレームの残差であり、前記第２の信号が前記第２のフレームの残差である、請求項５１に記載の装置。
前記第１及び第２の信号が重み付きオーディオ信号である、請求項５１に記載の装置。
前記第２の信号のセグメントを時間修正するための手段が、前記第１の信号の前記時間修正されたセグメントからの情報に基づいて前記第２の時間シフトを計算するための手段を含み、
前記第２の時間シフトを計算するための手段が、前記第２のフレームからの情報に基づく遅延輪郭に、前記第１の信号の前記時間修正されたセグメントをマッピングするための手段を含む、請求項５１に記載の装置。
前記第２の時間シフトが、前記マッピングされたセグメントのサンプルと一時修正残差のサンプルとの間の相関に基づき、
前記一時修正残差が、（Ａ）前記第２のフレームの残差のサンプルと、（Ｂ）前記第１の時間シフトと、に基づく、請求項５４に記載の装置。
前記第２の信号が前記第２のフレームの残差であり、
前記第２の信号のセグメントを時間修正するための手段が、前記第２の時間シフトに従って前記残差の第１のセグメントを時間シフトするように構成され、
前記方法が、
前記残差の前記時間修正された第１のセグメントからの情報に基づいて、前記第２の時間シフトとは異なる第３の時間シフトを計算するための手段と、
前記第３の時間シフトに従って前記残差の第２のセグメントを時間シフトするための手段と、
を備える、請求項５１に記載の装置。
前記第２の信号が前記第２のフレームの残差であり、第２の信号のセグメントを時間修正するための手段が、（Ａ）前記第１の信号の前記時間修正されたセグメントからの情報と、（Ｂ）前記第２のフレームの前記残差からの情報と、に基づいて前記第２の時間シフトを計算するための手段を含む、請求項５１に記載の装置。
前記第１のフレームを符号化するための手段が、
前記第１の信号である、前記第１のフレームの残差を発生させるための手段と、
符号化残差を得るために、前記時間修正されたセグメントを含む、前記発生した残差に対して修正離散コサイン変換演算を実行するための手段と、
を含み、
前記第１のフレームを符号化するための手段が、前記符号化残差に基づいて第１の符号化フレームを生成するように構成される、請求項５１に記載の装置。
前記第１の信号がＭ個のサンプルの長さを有し、前記第２の信号がＭ個のサンプルの長さを有し、
前記第１のフレームを符号化するための手段が、前記時間修正されたセグメントを含む、前記第１の信号のＭ個のサンプルと、前記第２の信号の３Ｍ／４個以下のサンプルと、に基づくＭ個の修正離散コサイン変換（ＭＤＣＴ）係数の組を生成するための手段を含む、請求項５１に記載の装置。
前記第１の信号がＭ個のサンプルの長さを有し、前記第２の信号がＭ個のサンプルの長さを有し、
前記第１のフレームを符号化するための手段が、（Ａ）前記時間修正されたセグメントを含む、前記第１の信号のＭ個のサンプルを含み、（Ｂ）ゼロ値の少なくともＭ／８個のサンプルのシーケンスで始まり、（Ｃ）ゼロ値の少なくともＭ／８個のサンプルのシーケンスで終わる、２Ｍ個のサンプルのシーケンスに基づくＭ個の修正離散コサイン変換（ＭＤＣＴ）係数の組を生成するための手段を含む、請求項５１に記載の装置。
オーディオ信号のフレームを処理するための装置であって、
第１のコーディング方式に従って前記オーディオ信号の第１のフレームを符号化するように構成された第１のフレームエンコーダと、
ピッチ調整（ＰＲ）コーディング方式に従って前記オーディオ信号の第２のフレームを符号化するように構成された第２のフレームエンコーダと、
を備え、
前記第２のフレームが、前記オーディオ信号中の前記第１のフレームに後続し且つ連続し、
前記第１のコーディング方式が非ＰＲコーディング方式であり、
前記第１のフレームエンコーダが、前記第１のフレームに基づく第１の信号のセグメントを、第１の時間シフトに基づいて時間修正するように構成された第１の時間修正器を含み、前記第１の時間修正器が、（Ａ）前記第１の時間シフトに従って前記第１の信号の前記セグメントを時間シフトすることと、（Ｂ）前記第１の時間シフトに基づいて前記第１の信号の前記セグメントをタイムワープすることと、のうちの１つを実行するように構成され、
前記第２のフレームエンコーダが、前記第２のフレームに基づく第２の信号のセグメントを、第２の時間シフトに基づいて時間修正するように構成された第２の時間修正器を含み、前記第２の時間修正器が、（Ａ）前記第２の時間シフトに従って前記第２の信号の前記セグメントを時間シフトすることと、（Ｂ）前記第２の時間シフトに基づいて前記第２の信号の前記セグメントをタイムワープすることと、のうちの１つを実行するように構成され、
前記第２の時間修正器が、前記第２の信号の別のピッチパルスに対する第２の信号の前記セグメントのピッチパルスの位置を変化させるように構成され、
前記第２の時間シフトが、前記第１の信号の前記時間修正されたセグメントからの情報に基づく、方法。
前記第１の信号が前記第１のフレームの残差であり、前記第２の信号が前記第２のフレームの残差である、請求項６１に記載の装置。
前記第１及び第２の信号が重み付きオーディオ信号である、請求項６１に記載の装置。
前記第２の時間修正器が、前記第１の信号の前記時間修正されたセグメントからの情報に基づいて前記第２の時間シフトを計算するように構成された時間シフト計算器を含み、
前記時間シフト計算器が、前記第２のフレームからの情報に基づく遅延輪郭に、前記第１の信号の前記時間修正されたセグメントをマッピングするように構成されたマッパーを含む、請求項６１に記載の装置。
前記第２の時間シフトが、前記マッピングされたセグメントのサンプルと一時修正残差のサンプルとの間の相関に基づき、
前記一時修正残差が、（Ａ）前記第２のフレームの残差のサンプルと、（Ｂ）前記第１の時間シフトとに基づく、請求項６４に記載の装置。
前記第２の信号が前記第２のフレームの残差であり、
前記第２の時間修正器が、前記第２の時間シフトに従って前記残差の第１のセグメントを時間シフトするように構成され、
前記時間シフト計算器が、前記残差の前記時間修正された第１のセグメントからの情報に基づいて、前記第２の時間シフトとは異なる第３の時間シフトを計算するように構成され、
前記第２の時間シフト器が、前記第３の時間シフトに従って前記残差の第２のセグメントを時間シフトするように構成される、請求項６１に記載の装置。
前記第２の信号が前記第２のフレームの残差であり、前記第２の時間修正器が、（Ａ）前記第１の信号の前記時間修正されたセグメントからの情報と、（Ｂ）前記第２のフレームの前記残差からの情報と、に基づいて前記第２の時間シフトを計算するように構成された時間シフト計算器を含む、請求項６１に記載の装置。
前記第１のフレームエンコーダが、
前記第１の信号である、前記第１のフレームの残差を発生させるように構成された残差発生器と、
符号化残差を得るために、前記時間修正されたセグメントを含む、前記発生した残差に対して修正離散コサイン変換（ＭＤＣＴ）演算を実行するように構成されたＭＤＣＴモジュールと、
を含み、
前記第１のフレームエンコーダが、前記符号化残差に基づいて第１の符号化フレームを生成するように構成される、請求項６１に記載の装置。
前記第１の信号がＭ個のサンプルの長さを有し、前記第２の信号がＭ個のサンプルの長さを有し、
前記第１のフレームエンコーダが、前記時間修正されたセグメントを含む、前記第１の信号のＭ個のサンプルと、前記第２の信号の３Ｍ／４個以下のサンプルと、に基づくＭ個の修正離散コサイン変換（ＭＤＣＴ）係数の組を生成するように構成されたＭＤＣＴモジュールを含む、請求項６１に記載の装置。
前記第１の信号がＭ個のサンプルの長さを有し、前記第２の信号がＭ個のサンプルの長さを有し、
前記第１のフレームエンコーダが、（Ａ）前記時間修正されたセグメントを含む、前記第１の信号のＭ個のサンプルを含み、（Ｂ）ゼロ値の少なくともＭ／８個のサンプルのシーケンスで始まり、（Ｃ）ゼロ値の少なくともＭ／８個のサンプルのシーケンスで終わる、２Ｍ個のサンプルのシーケンスに基づくＭ個の修正離散コサイン変換（ＭＤＣＴ）係数の組を生成するように構成されたＭＤＣＴモジュールを含む、請求項６１に記載の装置。
プロセッサによって実行されると前記プロセッサに、
第１のコーディング方式に従って前記オーディオ信号の第１のフレームを符号化することと、
ピッチ調整（ＰＲ）コーディング方式に従って前記オーディオ信号の第２のフレームを符号化することと、
を行わせる命令を備えるコンピュータ可読媒体であって、
前記第２のフレームが、前記オーディオ信号中の前記第１のフレームに後続し且つ連続し、
前記第１のコーディング方式が非ＰＲコーディング方式であり、
前記プロセッサによって実行されると前記プロセッサに第１のフレームを符号化することを行わせる命令が、前記第１のフレームに基づく第１の信号のセグメントを、第１の時間シフトに基づいて時間修正する命令を含み、前記時間修正する命令が、（Ａ）前記第１の時間シフトに従って前記第１の信号の前記セグメントを時間シフトする命令と、（Ｂ）前記第１の時間シフトに基づいて前記第１の信号の前記セグメントをタイムワープする命令と、のうちの１つを含み、
前記プロセッサによって実行されると前記プロセッサに第２のフレームを符号化することを行わせる命令が、前記第２のフレームに基づく第２の信号のセグメントを、第２の時間シフトに基づいて時間修正する命令を含み、前記時間修正する命令が、（Ａ）前記第２の時間シフトに従って前記第２の信号の前記セグメントを時間シフトする命令と、（Ｂ）前記第２の時間シフトに基づいて前記第２の信号の前記セグメントをタイムワープする命令と、のうちの１つを含み、
前記第２の信号のセグメントを時間修正する命令が、前記第２の信号の別のピッチパルスに対する前記セグメントのピッチパルスの位置を変化させる命令を含み、
前記第２の時間シフトが、前記第１の信号の前記時間修正されたセグメントからの情報に基づく、コンピュータ可読媒体。