JP5596189B2

JP5596189B2 - 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置

Info

Publication number: JP5596189B2
Application number: JP2013022112A
Authority: JP
Inventors: ビベク・ラジェンドラン; アナンサパドマナブハン・エー．・カンドハダイ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2006-07-31
Filing date: 2013-02-07
Publication date: 2014-09-24
Anticipated expiration: 2027-07-31
Also published as: CN103151048B; WO2008016935A2; EP2047465A2; CA2657412A1; ES2406681T3; JP2012098735A; CN101496100A; US8260609B2; BRPI0715064B1; WO2008016935A3; JP2013137557A; CA2778790C; BRPI0715064A2; CA2657412C; CN103151048A; HK1184589A1; JP2009545778A; US20080027717A1; KR101034453B1; CN101496100B

Description

本開示は、音声信号の処理に関するものである。

デジタル技術による音声伝送は、特に長距離電話、ボイスオーバーアイピー（ＶｏＩＰとも呼ばれ、ＩＰはインターネットプロトコルの略である）などのパケット交換電話、および携帯電話などのデジタル無線電話において広く使用されるようになった。こうして普及したが、再現される音声の知覚品質を維持しつつ、伝送路で音声通信を転送するために使用される情報の量を削減することに対する関心が高まってきた。

人間の音声生成のモデルに関係するパラメータを抽出することにより音声を圧縮するように構成されたデバイスは、「音声コーダ」と呼ばれる。音声コーダは、一般に、符号器と復号器とを含む。符号器は、典型的には、入力音声信号（音声情報を表すデジタル信号）を「フレーム」と呼ばれる複数の時間セグメントに分割し、それぞれのフレームを分析して特定の関連するパラメータを抽出し、それらのパラメータを量子化して１つの符号化フレームにする。これらの符号化フレームは、伝送路（つまり、有線もしくは無線ネットワーク接続）を介して復号器を備える受信機に送信される。復号器は、符号化フレームを受け取って、処理し、それらを逆量子化して、パラメータを生成し、その逆量子化されたパラメータを使用して音声フレームを再形成する。

一般的な会話では、話し手はそれぞれ、会話時間の約６０％の間沈黙している。音声符号器は、通常、音声（「アクティブフレーム」）を含む音声信号のフレームと、無音または暗騒音（「非アクティブフレーム」）のみを含む音声信号のフレームとを区別するように構成される。このような符号器は、異なる符号化モードおよび／または符号化レートを使用して、アクティブフレームと非アクティブフレームとを符号化するように構成されうる。例えば、音声符号器は、典型的には、アクティブフレームを符号化する場合と比べて少ないビットで非アクティブフレームを符号化するように構成されている。音声コーダは、非アクティブフレームに対し低いビットレートを使用することで、知覚される品質低下をほとんど、またはまったく引き起こすことなく低い平均ビットレートで音声信号を転送する方式に対応できる。

図１は、アクティブフレームと非アクティブフレームとの間の遷移を含む音声信号の一領域を符号化した結果を例示している。図中のそれぞれのバーは、対応するフレームを示しており、そのバーの高さはフレームが符号化されるときのビットレートを示し、横軸は時間を示す。この場合、アクティブフレームは、高いビットレートｒＨで符号化され、非アクティブフレームは、低いビットレートｒＬで符号化される。

ビットレートｒＨの実施例は、１フレーム当たり１７１ビット、１フレーム当たり８０ビット、１フレーム当たり４０ビットを含み、ビットレートｒＬの実施例は、１フレーム当たり１６ビットを含む。携帯電話システム（特に、バージニア州アーリントン所在のＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＩｎｄｕｓｔｒｙＡｓｓｏｃｉａｔｉｏｎにより公表されているＩｎｔｅｒｉｍＳｔａｎｄａｒｄ（ＩＳ）−９５、または類似の工業規格に準拠するシステム）の場合、これら４つのビットレートは、それぞれ「フルレート」、「ハーフレート」、「四分の一レート」、および「八分の一レート」とも呼ばれる。図１に示されている結果の特定の一実施例では、ビットレートｒＨはフルレートであり、ビットレートｒＬは八分の一レートである。

公衆交換電話網（ＰＳＴＮ）による音声通信は、従来、帯域幅を３００〜３４００キロヘルツ（ｋＨｚ）の周波数範囲に制限されていた。携帯電話および／またはＶｏＩＰを使用するネットワークなどの音声通信のための最近のネットワークは、同じ帯域幅限界を有しているとは限らず、このようなネットワークを使用する装置は広帯域の周波数範囲を含む音声通信の送受信を行う能力を有していることが望ましいと思われる。例えば、このような装置は、下は５０Ｈｚまで、および／または上は７または８ｋＨｚまでの音声周波数範囲に対応できることが望ましいであろう。また、このような装置は、従来のＰＳＴＮの限界を外れた範囲にある音声コンテンツを含みうる、高品質オーディオまたはオーディオ／ビデオ会議、音楽および／またはテレビなどのマルチメディアサービスの提供などの他の用途にも対応できることが望ましいと考えられる。

音声コーダで対応できる範囲をより高い周波数にまで拡大すると、明瞭度を改善できる。例えば、「ｓ」や「ｆ」などの摩擦音を区別する音声信号中の情報は、もっぱら高い周波数にある。また、高帯域まで拡大できれば、存在感などの復号化された音声信号の他の音声品質も改善できる。例えば、有声母音であっても、ＰＳＴＮ周波数範囲をはるかに超えるスペクトルエネルギーを有する場合がある。

音声コーダが広帯域周波数範囲に対応できることが望ましいであろうが、伝送路で音声通信を転送するために使用される情報の量を制限することも望ましい。音声コーダは、例えば、音声信号の全部ではない非アクティブフレームに対し記述が送信されるように、不連続伝送（ＤＴＸ）を実行するように構成されうる。

構成に従って音声信号のフレームを符号化する方法は、音声信号の第１のフレームに基づく、ｐをゼロでない正の整数とするｐビットの長さを有する、第１の符号化フレームを生成することと、音声信号の第２のフレームに基づく、ｑをｐと異なるゼロでない正の整数とするｑビットの長さを有する、第２の符号化フレームを生成することと、音声信号の第３のフレームに基づく、ｒをｑよりも小さいゼロでない正の整数とするｒビットの長さを有する、第３の符号化フレームを生成することとを含む。この方法では、第２のフレームは、音声信号内の第１のフレームの後に続く非アクティブフレームであり、第３のフレームは、音声信号内の第２のフレームの後に続く非アクティブフレームであり、第１のフレームと第３のフレームとの間の音声信号のフレームはすべて、非アクティブである。

他の構成に従って音声信号のフレームを符号化する方法は、音声信号の第１のフレームに基づく、ｑをゼロでない正の整数とするｑビットの長さを有する、第１の符号化フレームを生成することを含む。この方法は、さらに、音声信号の第２のフレームに基づく、ｒをｑよりも小さいゼロでない正の整数とするｒビットの長さを有する、第２の符号化フレームを生成することとを含む。この方法において、第１および第２のフレームは、非アクティブフレームである。この方法では、第１の符号化フレームは、（Ａ）第１のフレームを含む音声信号の一部の、第１の周波数帯域上のスペクトル包絡線の記述および（Ｂ）第１のフレームを含む音声信号の一部の、第１の周波数帯域と異なる第２の周波数帯域上の、スペクトル包絡線の記述を含み、第２の符号化フレームは（Ａ）第２のフレームを含む音声信号の一部の、第１の周波数帯域上の、スペクトル包絡線の記述を含み、（Ｂ）第２の周波数帯域上のスペクトル包絡線の記述を含まない。このような演算を実行するための手段も、明示的に考えられ、本明細書で開示される。少なくとも１つのコンピュータにそのような演算を実行させるコードを格納しているコンピュータ可読媒体を備えるコンピュータプログラム製品も、明示的に考えられ、本明細書で開示される。そのような演算を実行するように構成されている音声活動検出器、符号化方式選択器、および音声符号化器を備える装置も、明示的に考えられ、本明細書で開示されている。

他の構成に従って音声信号のフレームを符号化する装置は、音声信号の第１のフレームに基づき、ｐをゼロでない正の整数とするｐビットの長さを有する、第１の符号化フレームを生成するための手段と、音声信号の第２のフレームに基づき、ｑをｐと異なるゼロでない正の整数とするｑビットの長さを有する、第２の符号化フレームを生成するための手段と、音声信号の第３のフレームに基づき、ｒをｑよりも小さいゼロでない正の整数とするｒビットの長さを有する、第３の符号化フレームを生成するための手段とを備える。この装置では、第２のフレームは、音声信号内の第１のフレームの後に続く非アクティブフレームであり、第３のフレームは、音声信号内の第２のフレームの後に続く非アクティブフレームであり、第１のフレームと第３のフレームとの間の音声信号のフレームはすべて、非アクティブである。

他の構成によるコンピュータプログラム製品は、コンピュータ可読媒体を備える。このコンピュータ媒体は、音声信号の第１のフレームに基づく、ｐをゼロでない正の整数とするｐビットの長さを有する、第１の符号化フレームを少なくとも１つのコンピュータに生成させるコードと、音声信号の第２のフレームに基づく、ｑをｐと異なるゼロでない正の整数とするｑビットの長さを有する、第２の符号化フレームを少なくとも１つのコンピュータに生成させるコードと、音声信号の第３のフレームに基づく、ｒをｑよりも小さいゼロでない正の整数とするｒビットの長さを有する、第３の符号化フレームを少なくとも１つのコンピュータに生成させるコードとを格納する。この製品では、第２のフレームは、音声信号内の第１のフレームの後に続く非アクティブフレームであり、第３のフレームは、音声信号内の第２のフレームの後に続く非アクティブフレームであり、第１のフレームと第３のフレームとの間の音声信号のフレームはすべて、非アクティブである。

他の構成による音声信号のフレームを符号化する装置は、音声信号の複数のフレームのそれぞれについて、フレームがアクティブであるか、非アクティブであるかを示すように構成されている音声活動検出器と、符号化方式選択器と、音声符号器とを備える。符号化方式選択器は、（Ａ）音声信号の第１のフレームに対する音声活動検出器の指示に応じて、第１の符号化方式を、（Ｂ）音声信号内の第１のフレームの後に続く連続する非アクティブフレーム列のうちの１つである第２のフレームについて、また第２のフレームが非アクティブであることを示す音声活動検出器の指示に応じて、第２の符号化方式を、そして（Ｃ）音声信号内の第２のフレームの後に続く、音声信号内の第１のフレームの後に続く連続する非アクティブフレーム列のうちの他の１つである第３のフレームについて、また第３のフレームが非アクティブであることを示す音声活動検出器の指示に応じて、第３の符号化方式を選択するように構成される。音声符号器は、（Ｄ）第１の符号化方式に従って、第１のフレームに基づく、ｐをゼロでない正の整数とするｐビットの長さを有する、第１の符号化フレームを、（Ｅ）第２の符号化方式に従って、第２のフレームに基づく、ｑをｐと異なるゼロでない正の整数とするｑビットの長さを有する、第２の符号化フレームを、そして（Ｆ）第３の符号化方式に従って、第３のフレームに基づく、ｒをｑよりも小さいゼロでない正の整数とするｒビットの長さを有する、第３の符号化フレームを生成するように構成される。

構成により符号化音声信号を処理する方法は、符号化音声信号の第１の符号化フレームから得られる情報に基づき、（Ａ）第１の周波数帯域および（Ｂ）第１の周波数帯域と異なる第２の周波数帯域上で音声信号の第１のフレームのスペクトル包絡線の記述を取得することを含む。この方法は、さらに、符号化音声信号の第２のフレームから得られる情報に基づき、第１の周波数帯域上の音声信号の第２のフレームのスペクトル包絡線の記述を取得することを含む。この方法は、さらに、第１の符号化フレームから得られる情報に基づき、第２の周波数帯域上の第２のフレームのスペクトル包絡線の記述を取得することを含む。

他の構成により符号化音声信号を処理する装置は、符号化音声信号の第１の符号化フレームから得られる情報に基づき、（Ａ）第１の周波数帯域および（Ｂ）第１の周波数帯域と異なる第２の周波数帯域上で音声信号の第１のフレームのスペクトル包絡線の記述を取得するための手段を備える。この装置は、さらに、符号化音声信号の第２の符号化フレームから得られる情報に基づき、第１の周波数帯域上の音声信号の第２のフレームのスペクトル包絡線の記述を取得するための手段を備える。この装置は、さらに、第１の符号化フレームから得られる情報に基づき、第２の周波数帯域上の第２のフレームのスペクトル包絡線の記述を取得するための手段を備える。

他の構成によるコンピュータプログラム製品は、コンピュータ可読媒体を備える。媒体は、符号化音声信号の第１の符号化フレームから得られる情報に基づき、（Ａ）第１の周波数帯域および（Ｂ）第１の周波数帯域と異なる第２の周波数帯域上で音声信号の第１のフレームのスペクトル包絡線の記述を少なくとも１つのコンピュータに取得させるコードを格納する。この媒体は、さらに、符号化音声信号の第２の符号化フレームから得られる情報に基づき、第１の周波数帯域上の音声信号の第２のフレームのスペクトル包絡線の記述を少なくとも１つのコンピュータに取得させるコードを格納する。この媒体は、さらに、第１の符号化フレームから得られる情報に基づき、第２の周波数帯域上の第２のフレームのスペクトル包絡線の記述を少なくとも１つのコンピュータに取得させるコードを格納する。

他の構成により符号化音声信号を処理する装置は、符号化音声信号の符号化フレームの符号化インデックスに基づく値のシーケンスを備える、シーケンスのそれぞれの値が符号化音声信号の符号化フレームに対応する制御信号を生成するように構成された制御ロジックを備える。この装置は、さらに、第１の状態を有する制御信号の値に応じて、第１の周波数帯域および第２の周波数帯域上のスペクトル包絡線の、対応する符号化フレームから得られる情報に基づく記述に基づき復号化フレームを計算するように構成された音声復号器を備える。音声復号器は、さらに、第１の状態と異なる第２の状態を有する制御信号の値に応じて、（１）第１の周波数帯域上のスペクトル包絡線の、対応する符号化フレームから得られた情報に基づく記述、および（２）第２の周波数帯域上のスペクトル包絡線の、対応する符号化フレームの前に符号化音声信号中に出現する少なくとも１つの符号化フレームから得られた情報に基づく記述に基づき復号化フレームを計算するように構成されている。

アクティブフレームと非アクティブフレームとの間の遷移を含む音声信号の一領域を符号化した結果を例示する図。音声符号化器または音声符号化の方法でビットレートを選択するために使用できる決定木の一実施例を示す図。４つのフレームのハングオーバーを含む音声信号の一領域を符号化した結果を例示する図。利得形状値を計算するために使用されうる台形窓関数のプロットを示す図。１つのフレームを構成する５つのサブフレームのそれぞれに図４Ａの窓関数を適用することを示す図。広帯域音声成分を符号化するために分割帯域符号器により使用されうる非オーバーラップ周波数帯域方式の一実施例を示す図。広帯域音声成分を符号化するために分割帯域符号器により使用されうるオーバーラップ周波数帯域方式の一実施例を示す図。複数の異なるアプローチを使用して音声信号にアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。複数の異なるアプローチを使用して音声信号にアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。複数の異なるアプローチを使用して音声信号にアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。複数の異なるアプローチを使用して音声信号にアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。複数の異なるアプローチを使用して音声信号にアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。複数の異なるアプローチを使用して音声信号にアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。一般的構成により方法Ｍ１００を使用して音声信号の３つの連続フレームを符号化する演算を示す図。方法Ｍ１００の異なる実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。方法Ｍ１００の異なる実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。方法Ｍ１００の異なる実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。方法Ｍ１００の異なる実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。方法Ｍ１００の異なる実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。方法Ｍ１００の異なる実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。方法Ｍ１００の他の実装によりフレームのシーケンスを符号化した結果を示す図。方法Ｍ１００のさらに他の実装を使用して非アクティブフレーム列を符号化した結果を示す図。方法Ｍ１００の一実装Ｍ１１０の適用を示す図。方法Ｍ１１０の一実装Ｍ１２０の適用を示す図。方法Ｍ１２０の一実装Ｍ１３０の適用を示す図。方法Ｍ１３０の一実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。方法Ｍ１３０の他の実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示す図。図１７Ｂに示されているように音声符号器が結果を生成するために使用できる３つの異なる符号化方式一組を示す表。一般的構成により方法Ｍ３００を使用して音声信号の２つの連続フレームを符号化する演算を示す図。方法Ｍ３００の一実装Ｍ３１０の適用を示す図。一般的構成による装置１００を示すブロック図。音声符号器１３０の一実装１３２を示すブロック図。スペクトル包絡線記述計算器１４０の一実装１４２を示すブロック図。符号化方式選択器１２０の一実装により実行されうるテストの流れ図。符号化方式選択器１２０の他の実装が動作するように構成される際に用いる状態図。符号化方式選択器１２０のさらに他の実装が動作するように構成される際に用いる状態図。符号化方式選択器１２０のさらに他の実装が動作するように構成される際に用いる状態図。符号化方式選択器１２０のさらに他の実装が動作するように構成される際に用いる状態図。音声符号器１３２の一実装１３４を示すブロック図。時間情報記述計算器１５２の一実装１５４を示すブロック図。分割帯域符号化方式により広帯域音声信号を符号化するように構成されている装置１００の一実装１０２を示すブロック図。音声符号器１３６の一実装１３８を示すブロック図。広帯域音声符号器１３６の一実装１３９を示すブロック図。時間記述計算器１５６の一実装１５８を示すブロック図。一般的構成により符号化音声信号を処理する方法Ｍ２００の流れ図。方法Ｍ２００の一実装Ｍ２１０の流れ図。方法Ｍ２１０の一実装Ｍ２２０の流れ図。方法Ｍ２００の適用を示す図。方法Ｍ１００とＭ２００との間の関係を示す図。方法Ｍ３００とＭ２００との間の関係を示す図。方法Ｍ２１０の適用を示す図。方法Ｍ２２０の適用を示す図。タスクＴ２３０の一実装を反復した結果を示す図。タスクＴ２３０の他の実装を反復した結果を示す図。タスクＴ２３０のさらに他の実装を反復した結果を示す図。方法Ｍ２００の一実装を実行するように構成された音声復号器の状態図の一部。一般的構成により符号化音声信号を処理する装置２００を示すブロック図。装置２００の一実装２０２を示すブロック図。装置２００の一実装２０４を示すブロック図。第１のモジュール２３０の一実装２３２を示すブロック図。スペクトル包絡線記述復号器２７０の一実装２７２を示すブロック図。第２のモジュール２４０の一実装２４２を示すブロック図。第２のモジュール２４０の一実装２４４を示すブロック図。第２のモジュール２４２の一実装２４６を示すブロック図。制御ロジック２１０の一実装が動作するように構成される際に用いる状態図。方法Ｍ１００をＤＴＸと組み合わせた一実施例の結果を示す図。

本出願は、２００６年７月３１日に出願した「ＵＰＰＥＲＢＡＮＤＤＴＸＳＣＨＥＭＥ」という表題の米国仮特許出願第６０／８３４，６８８号の利益を主張するものである。

図面および随伴する説明において、同じ参照ラベルは、同じまたは類似の要素もしくは信号を指している。

明細書で説明されている構成を、広帯域音声符号化システムに適用することにより、アクティブフレームの場合に比べて低いビットレートを非アクティブフレームに使用することが可能になり、および／または転送音声信号の知覚品質を改善することができる。このような構成は、パケット交換方式のネットワーク（例えば、ＶｏＩＰなどのプロトコルに従って音声伝送を行うように配列された有線および／または無線ネットワーク）および／または回線交換方式のネットワークで使用するように適合されうることが明示的に考えられ、本明細書で開示される。

文脈上明示的に制限されていない限り、「計算（する）」という用語は、本明細書では、計算、評価、生成、発生、および／または値の集合からの選択などの通常の意味を示すために使用される。文脈上明示的に制限されていない限り、「取得（する）」という用語は、本明細書では、計算、導出、受信または受け取ること（例えば、外部デバイスから）、および／または取り出すこと（例えば、記憶素子のアレイから）などの通常の意味を示すために使用される。「含む、備える」という用語が明細書および請求項の中で使用される場合、他の要素または演算は除外されない。「Ａは、Ｂに基づく」という言いまわしは、（ｉ）「Ａは、少なくともＢに基づく」という場合および（ｉｉ）「ＡはＢに等しい」（特定の文脈において適切であれば）という場合を含む、その通常の意味のどれかを示すために使用される。

断りのない限り、特定の特徴を有する音声符号器の開示は、さらに、類似の特徴を有する音声符号化の方法を開示することを明示的に意図されており（およびその逆も同様）、特定の構成による音声符号器の開示は、さらに、類似の構成による音声符号化の方法を開示することを明示的に意図されている（およびその逆も同様）。断りのない限り、特定の特徴を有する音声復号器の開示は、さらに、類似の特徴を有する音声復号化の方法を開示することを明示的に意図されており（およびその逆も同様）、特定の構成による音声復号器の開示は、さらに、類似の構成による音声復号化の方法を開示することを明示的に意図されている（およびその逆も同様）。

音声信号のフレームは、典型的には、信号のスペクトル包絡線がフレーム上で比較的静止したままであることが予想できるくらいに短い。１つの典型的なフレーム長は、２０ミリ秒であるが、特定の用途に適しているとみなされる任意のフレーム長を使用できる。２０ミリ秒のフレーム長は、７キロヘルツ（ｋＨｚ）のサンプリングレートの１４０サンプル、８ｋＨｚのサンプリングレートの１６０サンプル、１６ｋＨｚのサンプリングレートの３２０サンプルに対応するが、特定の用途に適しているとみなされる任意のサンプリングレートを使用できる。音声符号化に使用されうるサンプリングレートの他の実施例は、１２．８ｋＨｚであり、さらなる実施例は、１２．８ｋＨｚから３８．４ｋＨｚまでの範囲内の他のサンプリングレートを含む。

典型的には、すべてのフレームは同じ長さを有し、本明細書で説明されている特定の実施例では一様なフレーム長が仮定される。しかし、非一様なフレーム長を使用できることも本明細書で明示的に考えられ開示されている。例えば、方法Ｍ１００およびＭ２００の実装は、さらに、アクティブフレームおよび非アクティブフレーム、および／または有声フレームおよび無声フレームに対し異なるフレーム長を使用する用途でも使用されうる。

いくつかの用途では、これらのフレームは、非オーバーラップであり、他の用途では、オーバーラップフレーム方式が使用される。例えば、音声コーダは、符号器側でオーバーラップフレーム方式を使用し、復号器側で非オーバーラップフレーム方式を使用するのがふつうである。また、符号器において、異なるタスクに対し異なるフレーム方式を使用することも可能である。例えば、音声符号器または音声符号化方法で、フレームのスペクトル包絡線の記述を符号化するために一方のオーバーラップフレーム方式を使用し、フレームの時間情報の記述を符号化するために異なるオーバーラップフレーム方式を使用することができる。

上述のように、異なる符号化モードおよび／またはレートを使用して、アクティブフレームと非アクティブフレームとを符号化するように音声符号器を構成することが望ましい場合がある。アクティブフレームと非アクティブフレームとを区別するために、音声符号器は、典型的には、音声活動検出器を備えるか、またはさもなければ音声活動を検出する方法を実行する。このような検出器または方法は、フレームエネルギー、信号対雑音比、周期性、およびゼロ交差率などの１つまたは複数のファクターに基づいてフレームをアクティブまたは非アクティブに分類するように構成される。このような分類は、そのようなファクターの値または大きさを閾値と比較すること、および／またはそのようなファクターの変化の大きさを閾値と比較することを含むことができる。

音声活動検出器または音声活動検出方法は、さらに、有声（例えば、母音を表す）、無声（例えば、摩擦音を表す）、または遷移（例えば、単語の先頭または末尾を表す）などの２つまたはそれ以上の異なるタイプのうちの１つとしてアクティブフレームを分類するように構成されうる。音声符号器側で、異なるビットレートを使用して異なるタイプのアクティブフレームを符号化するのが望ましい場合がある。図１の特定の実施例は、同じビットレートですべて符号化されたアクティブフレーム列を示しているが、当業者であれば、本明細書で説明されている方法および装置は、さらに、異なるビットレートでアクティブフレームを符号化するように構成されている音声符号器および音声符号化方法において使用することもできることを理解するだろう。

図２は、フレームが含む音声のタイプに応じて特定のフレームを符号化する際に使用するビットレートを選択するために音声符号器または音声符号化方法において使用できる決定木の一実施例を示している。他の場合には、特定のフレームについて選択されたビットレートは、さらに、所望の平均ビットレート、フレーム列上の所望のビットレートパターン（所望の平均ビットレートをサポートするために使用されうる）、および／または前のフレームについて選択されたビットレートなどの基準に依存しうる。

異なる符号化モードを使用して異なるタイプの音声フレームを符号化するのが望ましい場合がある。有声のフレームは、長期にわたる（つまり、複数のフレーム周期にわたって続く）、ピッチに関係する周期的構造を有する傾向があり、典型的には、この長期スペクトル特徴の記述を符号化する符号化モードを使用して有声フレーム（または有声フレームのシーケンス）を符号化するのがより効率的である。このような符号化モードの実施例としては、符号励振線形予測（ＣＥＬＰ）およびプロトタイプピッチ周期（ＰＰＰ）が挙げられる。他方、無声フレームと非アクティブフレームは、通常、著しい長期スペクトル特徴を欠いており、また音声符号器は、そのような特徴を記述しようとしない符号化モードを使用してこれらのフレームを符号化するように構成されうる。雑音励振線形予測（ＮＥＬＰ）は、このような符号化モードの一実施例である。

音声符号器または音声符号化方法は、ビットレートと符号化モードの様々な組合せ（「符号化方式」とも呼ばれる）のうちから選択するように構成されうる。例えば、方法Ｍ１００の一実装を実行するように構成されている音声符号器は、有声と遷移フレームを含むフレームにはフルレートＣＥＬＰ方式、無声を含むフレームにはハーフレートＮＥＬＰ方式、および非アクティブフレームには八分の一レートＮＥＬＰ方式を使用することができる。このような音声符号器の他の実施例では、フルレートおよびハーフレートのＣＥＬＰ方式および／またはフルレートおよび四分の一レートＰＰＰ方式などの１つまたは複数の符号化方式に対し複数の符号化レートをサポートする。

アクティブ音声（active speech）から非アクティブ音声（inactive speech）への遷移は、典型的には、複数フレームの期間にわたって行われる。その結果、アクティブフレームから非アクティブフレームに遷移した後の音声信号の第１の複数のフレームは、有声化残余要素（voicing remnants）などのアクティブ音声の残余要素を含むことがある。音声符号器が、非アクティブフレームを対象とする符号化方式を使用してそのような残余要素を有するフレームを符号化する場合、符号化された結果は、元のフレームを正確には表さないことがある。したがって、アクティブフレームから非アクティブフレームへの遷移の後に続くフレームの１つまたは複数に対するより高いビットレートおよび／またはアクティブ符号化モードを続けるのが望ましいと思われる。

図３は、アクティブフレームから非アクティブフレームへの遷移の後の複数のフレームにわたってより高いビットレートｒＨが続けられる音声信号の一領域を符号化した結果を例示している。この継続（「ハングオーバー」とも呼ばれる）の長さは、遷移の予想される長さに従って選択され、また固定でも可変でもよい。例えば、ハングオーバーの長さは、この遷移に先行するアクティブフレームのうちの１つまたは複数の、信号対雑音比などの１つまたは複数の特性に基づきうる。図３は、４つのフレームのハングオーバーを例示している。

符号化フレームは、典型的には、音声信号の対応するフレームを再現する際に使用できる音声パラメータの集合を含む。この音声パラメータの集合は、典型的には、ある周波数スペクトル上のフレーム内のエネルギーの分布の記述などの、スペクトル情報を含む。エネルギーのこのような分布は、フレームの「周波数包絡線」または「スペクトル包絡線」とも呼ばれる。音声符号器は、典型的には、フレームのスペクトル包絡線の記述を値の順序付きシーケンスとして計算するように構成されている。いくつかの場合において、音声符号器は、それぞれの値が対応する周波数で、または対応するスペクトル領域上で、信号の振幅または大きさを示すように順序付きシーケンスを計算する構成をとる。このような記述の一実施例は、フーリエ変換係数の順序付きシーケンスである。

他の場合には、音声符号器は、線形予測符号化（ＬＰＣ）分析の係数の値の集合など、符号化モデルのパラメータの値の順序付きシーケンスとしてスペクトル包絡線の記述を計算するように構成される。ＬＰＣ係数値の順序付きシーケンスは、典型的には、１つまたは複数のベクトルとして配列され、音声符号器は、これらの値をフィルタ係数または反射係数として計算するように実装されうる。この集合内の係数値の個数は、ＬＰＣ分析の「次数」とも呼ばれ、通信デバイス（携帯電話など）の音声符号器により実行されるようなＬＰＣ分析の典型的な次数として、４、６、８、１０、１２、１６、２０、２４、２８、および３２が挙げられる。

音声コーダは、典型的には、伝送路間のスペクトル包絡線の記述を量子化形式で（例えば、対応するルックアップテーブルまたは「符号帳」への１つまたは複数のインデックスとして）送信するように構成される。したがって、音声符号器が、線スペクトル対（ＬＳＰ）、線スペクトル周波数（ＬＳＦ）、イミッタンススペクトル対（ＩＳＰ）、イミッタンススペクトル周波数（ＩＳＦ）、ケプストラム係数、または対数面積比の値の集合など、効率よく量子化されうる形式でＬＰＣ係数値の集合を計算することが望ましい場合がある。音声符号器は、さらに、変換および／または量子化に先立って値の順序付きシーケンスに対し知覚加重などの他の演算を実行するように構成することもできる。

いくつかの場合において、フレームのスペクトル包絡線の記述は、さらに、フレームの時間情報の記述も含む（例えば、フーリエ変換係数の順序付きシーケンスの場合のように）。他の場合には、符号化フレームの音声パラメータの集合は、さらに、フレームの時間情報の記述を含むこともできる。時間情報の記述の形式は、フレームを符号化するために使用される特定の符号化モードに依存しうる。いくつかの符号化モード（例えば、ＣＥＬＰ符号化モード）では、時間情報の記述は、音声復号器によりＬＰＣモデルを励振するために使用される励振信号の記述を含むことができる（例えば、スペクトル包絡線の記述により定義されているように）。励振信号の記述は、典型的には、量子化形式で符号化フレーム内に出現する（例えば、対応する符号帳への１つまたは複数のインデックスとして）。時間情報の記述は、励振信号のピッチ成分に関係する情報を含むこともできる。例えば、ＰＰＰ符号化モードでは、符号化された時間情報は、励振信号のピッチ成分を再現するために音声復号器により使用されるプロトタイプの記述を含むことができる。ピッチ成分に関係する情報の記述は、典型的には、量子化形式で符号化フレーム内に出現する（例えば、対応する符号帳への１つまたは複数のインデックスとして）。

他の符号化モード（例えば、ＮＥＬＰ符号化モード）では、時間情報の記述は、フレームの時間包絡線（フレームの「エネルギー包絡線」または「利得包絡線」とも呼ばれる）の記述を含むことができる。時間包絡線の記述は、フレームの平均エネルギーに基づく値を含むことができる。このような値は、典型的には、復号化の際にフレームに適用される利得値として提示され、「利得フレーム」とも呼ばれる。いくつかの場合において、利得フレームは、（Ａ）元のフレームのエネルギーＥ_ｏｒｉｇと（Ｂ）符号化フレーム（例えば、スペクトル包絡線の記述を含む）の他のパラメータから合成されたフレームのエネルギーＥ_{ｓｙｎｔｈ}との間の比に基づく正規化係数である。例えば、利得フレームは、Ｅ_ｏｒｉｇ／Ｅ_{ｓｙｎｔｈ}として、またはＥ_ｏｒｉｇ／Ｅ_{ｓｙｎｔｈ}の平方根として表すことができる。利得フレーム、および時間包絡線の他の態様は、例えば２００６年１２月１４日に公開された「ＳＹＳＴＥＭＳ，ＭＥＴＨＯＤＳ，ＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＧＡＩＮＦＡＣＴＯＲＡＴＴＥＮＵＡＴＩＯＮ」という表題の米国特許出願公開第２００６／０２８２２６２号（Ｖｏｓら）でさらに詳しく説明されている。

それとは別に、またはそれに加えて、時間包絡線の記述は、そのフレームを構成する多数のサブフレームのそれぞれに対する相対エネルギー値を含むことができる。このような値は、典型的には、復号化の際にそれぞれのサブフレームに適用される利得値として提示され、「利得プロファイル」または「利得形状」と総称される。いくつかの場合において、利得形状値は、それぞれ（Ａ）元のサブフレームｉのエネルギーＥ_{ｏｒｉｇ．ｉ}と（Ｂ）符号化フレーム（例えば、スペクトル包絡線の記述を含む）の他のパラメータから合成されたフレームの対応するサブフレームｉのエネルギーＥ_{ｓｙｎｔｈ．ｉ}との間の比に基づく正規化係数である。このような場合、エネルギーＥ_{ｓｙｎｔｈ．ｉ}は、エネルギーＥ_{ｏｒｉｇ．ｉ}を正規化するために使用されうる。例えば、利得形状値は、Ｅ_{ｏｒｉｇ．ｉ}／Ｅ_{ｓｙｎｔｈ．ｉ}として、またはＥ_{ｏｒｉｇ．ｉ}／Ｅ_{ｓｙｎｔｈ．ｉ}の平方根として表すことができる。時間包絡線の記述の一実施例は、利得フレームおよび利得形状を含み、利得形状は２０ミリ秒フレームを構成する５つの４ミリ秒サブフレームのそれぞれに対する値を含む。利得値は、均等目盛または対数（例えば、デシベル）目盛で表すことができる。このような特徴は、例えば、上記の米国特許出願公開第２００６／０２８２２６２号においてさらに詳しく説明されている。

利得フレームの値（または利得形状の値）を計算する際に、隣接するフレーム（またはサブフレーム）とオーバーラップする窓関数を適用することが望ましい場合がある。このようにして生成される利得値は、典型的には、音声復号器のところでオーバーラップ加算方式により適用され、そのため、フレームまたはサブフレームの間の不連続を低減または回避するのがしやすくなる場合がある。図４Ａは、利得形状値のそれぞれを計算するために使用されうる台形窓関数のプロットを示している。この実施例では、窓は、２つの隣接するサブフレームのそれぞれと１ミリ秒だけオーバーラップする。図４Ｂは、この窓関数を２０ミリ秒フレームの５つのサブフレームのそれぞれに適用する方法を示している。窓関数の他の実施例は、対称的でも、非対称的でもよい異なるオーバーラップ期間および／または異なる窓形状（例えば、矩形またはハミング）を有する関数を含む。また、異なる窓関数を異なるサブフレームに適用することにより、および／または異なる長さのサブフレーム上で利得形状の異なる値を計算することにより利得形状の値を計算することも可能である。

時間包絡線の記述を含む符号化フレームは、典型的には、量子化形式のそのような記述を対応する符号帳への１つまたは複数のインデックスとして含むが、場合によっては、符号帳を使用せずに利得フレームおよび／または利得形状を量子化および／または逆量子化するためのアルゴリズムを使用することができる。時間包絡線の記述の一実施例は、フレームに対し５つの利得形状値を指定する８から１２ビットの量子化インデックスを含む（例えば、５つの連続するサブフレームのそれぞれについて１つずつ）。このような記述は、さらに、フレームに対する利得フレーム値を指定する他の量子化インデックスを含むこともできる。

上記のように、３００〜３４００ｋＨｚのＰＳＴＮ周波数範囲を超える周波数範囲を有する音声信号を送受信することが望ましい場合がある。このような信号を符号化するアプローチの１つは、拡張周波数範囲全体を単一周波数帯域として符号化することである。このようなアプローチは、狭帯域音声符号化技術（例えば、０〜４ｋＨｚまたは３００〜３４００ＨｚなどのＰＳＴＮ品質周波数範囲を符号化するように構成されたもの）をスケーリングし、０〜８ｋＨｚなどの広帯域周波数範囲をカバーすることにより実装されうる。例えば、このようなアプローチは、（Ａ）高いレートで音声信号をサンプリングして高い周波数の成分を含めるようにすることと、（Ｂ）この広帯域信号を所望の精度で表現するように狭帯域符号化技術を再構成することとを含むことができる。狭帯域符号化技術を再構成するこのような方法では、高次ＬＰＣ分析を使用する（つまり、より多くの値を有する係数ベクトルを生成する）。広帯域信号を単一周波数帯域として符号化する広帯域音声コーダは、「全帯域」コーダとも呼ばれる。

符号化された信号のトランスコーディングまたは他の何らかの著しい修正を行わなくても、符号化された信号の少なくとも狭帯域部分が狭帯域チャネル（ＰＳＴＮチャネルなど）を通して送信されるように広帯域音声コーダを実装することが望ましい場合がある。このような特徴により、狭帯域信号しか認識しないネットワークおよび／または装置との下位互換性が容易になる。また、音声信号の異なる周波数帯域に対し異なる符号化モードおよび／またはレートを使用する広帯域音声コーダを実装することが望ましい場合もある。このような特徴を使用することで、符号化効率および／または知覚品質の向上に対応することができる。広帯域音声信号の異なる周波数帯域を表す部分（例えば、それぞれ広帯域音声信号の異なる周波数帯域を表す音声パラメータの別々の集合）を有する符号化フレームを生成するように構成されている広帯域音声コーダは、「分割帯域」コーダとも呼ばれる。

図５Ａは、０Ｈｚから８ｋＨｚまでの範囲にわたる広帯域音声成分を符号化するために分割帯域符号器により使用されうる非オーバーラップ周波数帯域方式の一実施例を示している。この方式は、０Ｈｚから４ｋＨｚまで広がる第１の周波数帯域（狭帯域範囲とも呼ばれる）および４から８ｋＨｚまで広がる第２の周波数帯域（拡張、上側、または高帯域範囲とも呼ばれる）を含む。図５Ｂは、０Ｈｚから７ｋＨｚまでの範囲にわたる広帯域音声成分を符号化するために分割帯域符号器により使用されうるオーバーラップ周波数帯域方式の一実施例を示している。この方式は、０Ｈｚから４ｋＨｚまで広がる第１の周波数帯域（狭帯域範囲）および３．５から７ｋＨｚまで広がる第２の周波数帯域（拡張、上側、または高帯域範囲）を含む。

分割帯域符号器の特定の一実施例は、狭帯域範囲については１０次ＬＰＣ分析、高帯域範囲については６次ＬＰＣ分析を実行するように構成される。周波数帯域方式の他の実施例は、狭帯域範囲が３００Ｈｚ程度にのみ下方に広がるものを含む。このような方式は、さらに、約０または５０Ｈｚから上は約３００または３５０Ｈｚまでの低帯域範囲をカバーする他の周波数帯域を含むことができる。

広帯域音声信号を符号化するために使用される平均ビットレートを下げるのが望ましい場合がある。例えば、特定のサービスをサポートするために必要な平均ビットレートを下げることで、ネットワークにおいて一度にサービスを提供できるユーザーの人数を増やすことができる。しかし、対応する復号化された音声信号の知覚品質を過剰に低下させることなく、そのような引き下げを行うことも望ましい。

広帯域音声信号の平均ビットレートを下げるアプローチとして可能な１つは、低ビットレートで全帯域広帯域符号化方式を使用して非アクティブフレームを符号化することである。図６Ａは、アクティブフレームが高いビットレートｒＨで符号化され、非アクティブフレームが低いビットレートｒＬで符号化されるアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。ラベルＦは、全帯域広帯域符号化方式を使用して符号化されたフレームを示している。

平均ビットレートを十分に下げるために、非常に低いビットレートを使用して非アクティブフレームを符号化することが望ましいと思われる。例えば、１フレーム当たり１６ビット（「八分の一レート」）などの、狭帯域コーダで非アクティブフレームを符号化するために使用されるレートに匹敵するビットレートを使用するのが望ましい場合がある。しかし残念なことに、このように少ないビットだと、典型的には、広帯域範囲にわたって許容可能な程度の知覚品質で広帯域信号の非アクティブフレームを符号化する場合であっても不十分であり、そのようなレートで非アクティブフレームを符号化する全帯域広帯域コーダは、非アクティブフレームの間に音質の劣る復号化された信号を生成する可能性が高い。そのような信号は、例えば、復号化された信号の知覚された音の大きさおよび／またはスペクトル分布が、一方のフレームから次のフレームへと過剰に変化する可能性があるという点で、非アクティブフレームにおいて滑らかさを欠いている場合がある。滑らかさは、典型的には、復号化された暗雑音に対し知覚的に重要である。

図６Ｂは、アクティブフレームから非アクティブフレームへの遷移を符号化した他の結果を示す。この場合、分割帯域広帯域符号化方式が、高いビットレートでアクティブフレームを符号化するために使用され、全帯域広帯域符号化方式が、低いビットレートで非アクティブフレームを符号化するために使用される。ラベルＨおよびＮは、高帯域符号化方式および狭帯域符号化方式をそれぞれ使用して符号化される分割帯域符号化フレームの一部を示している。上記のように、全帯域広帯域符号化方式および低いビットレートを使用して非アクティブフレームを符号化することは、非アクティブフレームにおいて音質が劣る復号化された信号を生成する可能性が高い。分割帯域／全帯域符号化混合方式も、コーダの複雑さを高める可能性があるが、そのような複雑さは、結果として得られる実装の実用性に影響を及ぼす場合も及ぼさない場合もある。それに加えて、過去のフレームからの履歴情報は、ときには、符号化効率を著しく高めるために使用されることもあるが（特に有声フレームを符号化する場合）、全帯域符号化方式の演算実行時に分割帯域符号化方式により生成された履歴情報を適用することは、その逆も、実現可能でない場合がある。

広帯域信号の平均ビットレートを下げるアプローチとして可能なもう１つは、低ビットレートで分割帯域広帯域符号化方式を使用して非アクティブフレームを符号化することである。図７Ａは、高いビットレートｒＨでアクティブフレームを符号化するために全帯域広帯域符号化方式が使用され、低いビットレートｒＬで非アクティブフレームを符号化するために分割帯域広帯域符号化方式が使用されるアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。図７Ｂは、アクティブフレームを符号化するために分割帯域広帯域符号化方式が使用される関連する一実施例を示している。図６Ａおよび６Ｂを参照しつつ上で述べられているように、１フレーム当たり１６ビット（「八分の一レート」）などの、狭帯域コーダで非アクティブフレームを符号化するために使用されるビットレートに匹敵するビットレートを使用して非アクティブフレームを符号化するのが望ましい場合がある。しかし残念なことに、このように少ないビットだと、典型的には、許容可能な品質の復号化された広帯域信号が得られるように異なる周波数帯域間に分割帯域符号化方式により割り当てを行うのには不十分である。

広帯域信号の平均ビットレートを下げるさらに可能な他のアプローチは、低ビットレートで非アクティブフレームを狭帯域として符号化することである。図８Ａおよび８Ｂは、高いビットレートｒＨでアクティブフレームを符号化するために広帯域符号化方式が使用され、低いビットレートｒＬで非アクティブフレームを符号化するために狭帯域符号化方式が使用されるアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。図８Ａの実施例では、全帯域広帯域符号化方式が、アクティブフレームを符号化するために使用され、図８Ｂの実施例では、分割帯域広帯域符号化方式が、アクティブフレームを符号化するために使用される。

高ビットレート広帯域符号化方式を使用してアクティブフレームを符号化することで、典型的には、適切に符号化された広帯域暗雑音を含む符号化フレームが生成される。しかし、図８Ａおよび８Ｂの実施例のように、狭帯域符号化方式のみを使用して非アクティブフレームを符号化した場合、拡張周波数を欠いている符号化フレームを生成する。その結果、復号化された広帯域アクティブフレームから復号化された狭帯域非アクティブフレームへの遷移は、かなり大きくて耳障りである可能性が高く、この第３の可能なアプローチも、次善の結果をもたらす可能性がある。

図９は、一般的構成により方法Ｍ１００を使用して音声信号の３つの連続フレームを符号化する演算を示している。タスクＴ１１０は、第１のビットレートｒ１（１フレーム当たりｐビット）で、アクティブであるか、または非アクティブである、３つのフレームのうちの第１のフレームを符号化する。タスクＴ１２０は、ｒ１と異なる第２のビットレートｒ２（１フレーム当たりｑビット）で、第１のフレームの後に続く、非アクティブフレームである、第２のフレームを符号化する。タスクＴ１３０は、ｒ２よりも小さい第３のビットレートｒ３（１フレーム当たりｒビット）で、第２のフレームのすぐ後に続く、これもまた非アクティブフレームである、第３のフレームを符号化する。方法Ｍ１００は、典型的には、音声符号化のより大きな方法の一部として実行され、音声符号器および方法Ｍ１００を実行するように構成されている音声符号化の方法は、明示的に考えられ、ここで開示される。

対応する音声復号器は、第２の符号化フレームから得られる情報を使用して、第３の符号化フレームからの非アクティブフレームの復号化を補うように構成されうる。この説明の別のところで、１つまたは複数の後続の非アクティブフレームを復号化する際に第２の符号化フレームから得た情報を使用する音声復号器および音声信号のフレームを復号化する方法が開示されている。

図９に示されている特定の実施例では、音声信号において第２のフレームが第１のフレームのすぐ後に続き、音声信号において第３のフレームが第２のフレームのすぐ後に続く。方法Ｍ１００の他の応用では、第１および第２のフレームは、音声信号内の１つまたは複数の非アクティブフレームにより区切られ、第２および第３のフレームは、音声信号内の１つまたは複数の非アクティブフレームにより区切られる。図９に示されている特定の実施例では、ｐは、ｑよりも大きい。方法Ｍ１００は、さらに、ｐがｑよりも小さくなるように実装することもできる。図１０Ａから１２Ｂに示されている特定の実施例では、ビットレートｒＨ、ｒＭ、およびｒＬは、それぞれビットレートｒ１、ｒ２、およびｒ３に対応する。

図１０Ａは、上述のように方法Ｍ１００の一実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。この実施例では、遷移の前の最後のアクティブフレームは、３つの符号化フレームのうちの第１のものを生成するために高いビットレートｒＨで符号化され、遷移の後の第１の非アクティブフレームは、３つの符号化フレームのうちの第２のものを生成するために中間ビットレートｒＭで符号化され、次の非アクティブフレームは、３つの符号化フレームのうちの最後のものを生成するために低いビットレートｒＬで符号化される。この実施例の特定の１つの場合において、ビットレートｒＨ、ｒＭ、およびｒＬは、それぞれ、フルレート、ハーフレート、および八分の一レートである。

上記のように、アクティブ音声から非アクティブ音声への遷移は、典型的には、複数のフレームからなる１つの周期において発生し、アクティブフレームから非アクティブフレームへの遷移の後の第１の複数のフレームは、有声化残余要素などのアクティブ音声の残余要素を含むことができる。音声符号器が、非アクティブフレームを対象とする符号化方式を使用してそのような残余要素を有するフレームを符号化する場合、符号化された結果は、元のフレームを正確には表さないことがある。したがって、第２の符号化フレームのような残余要素を有するフレームを符号化するのを回避するように方法Ｍ１００を実装することが望ましい場合がある。

図１０Ｂは、ハングオーバーを含む方法Ｍ１００の一実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。方法Ｍ１００のこの特定の実施例では、遷移後も第１の３つの非アクティブフレームに対しビットレートｒＨを使用し続ける。一般に、所望の任意の長さのハングオーバーを使用することができる（例えば、１または２から５または１０個のフレームまでの範囲内）。このハングオーバーの長さは、遷移の予想される長さに従って選択され、また固定でも可変でもよい。例えば、ハングオーバーの長さは、信号対雑音比などの、この遷移に先行するアクティブフレームのうちの１つまたは複数のフレーム、および／またはハングオーバー内のフレームのうちの１つまたは複数のフレームの１つまたは複数の特性に基づきうる。一般に、「第１の符号化フレーム」というラベルは、遷移前の最後のアクティブフレーム、またはハングオーバー中の非アクティブフレームに付けることができる。

２つまたはそれ以上の連続する非アクティブフレームの系列上でビットレートｒ２を使用するように方法Ｍ１００を実装するのが好ましい場合がある。図１１Ａは、方法Ｍ１００のそのような一実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。この実施例では、３つの符号化フレームのうちの第１のフレームおよび最後のフレームは、ビットレートｒＭを使用して符号化された複数のフレームにより区切られ、第２の符号化フレームは、第１の符号化フレームの直後には続かない。対応する音声復号器は、第２の符号化フレームから得られる情報を使用して、第３の符号化フレームを復号化する（および場合によっては、１つまたは複数の後続の非アクティブフレームを復号化する）ように構成されうる。

音声復号器が、複数の符号化フレームから得られた情報を使用して後続の非アクティブフレームを復号化することが望ましい場合もある。図１１Ａに示されているような系列を参照すると、例えば、対応する音声復号器は、ビットレートｒＭで符号化された両方の非アクティブフレームから得られる情報を使用して、第３の符号化フレームを復号化する（および場合によっては、１つまたは複数の後続の非アクティブフレームを復号化する）ように構成されうる。

一般に、第２の符号化フレームが非アクティブフレームを表すことが望ましいと思われる。したがって、方法Ｍ１００は、音声信号の複数の非アクティブフレームから得られたスペクトル情報に基づき第２の符号化フレームを生成するように実装できる。図１１Ｂは、方法Ｍ１００のそのような一実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。この実施例では、第２の符号化フレームは、音声信号の２つのフレームからなる窓上で平均された情報を含む。他の場合には、平均化窓は、２から約６または８フレームの範囲内の長さを持つことができる。第２の符号化フレームは、その窓内のフレームのスペクトル包絡線の記述の平均であるスペクトル包絡線の記述を含むことができる（この場合は、音声信号の対応する非アクティブフレームとそれに先行する非アクティブフレーム）。第２の符号化フレームは、音声信号の対応するフレームに主にまたはもっぱら基づく時間情報の記述を含むことができる。それとは別に、方法Ｍ１００は、第２の符号化フレームがその窓内のフレームの時間情報の記述の平均である時間情報の記述を含むように構成されうる。

図１２Ａは、方法Ｍ１００の他の実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。この実施例では、第２の符号化フレームは、３つのフレームからなる窓上で平均された情報を含み、第２の符号化フレームはビットレートｒＭで符号化され、先行する２つの非アクティブフレームは異なるビットレートｒＨで符号化される。この特定の実施例では、平均化窓は、３フレーム遷移後ハングオーバーの後に続く。他の実施例では、方法Ｍ１００は、そのようなハングオーバーなしで、または平均化窓とオーバーラップするハングオーバーを使って実装できる。一般に、「第１の符号化フレーム」というラベルは、遷移前の最後のアクティブフレーム、ハングオーバー中の非アクティブフレーム、または第２の符号化フレームと異なるビットレートで符号化された窓内のフレームに付けることができる。

場合によっては、方法Ｍ１００の実装において、非アクティブフレームが少なくとも最低長を有する連続するアクティブフレームのシーケンス（「会話区間」とも呼ばれる）の後に続く場合にのみビットレートｒ２を使用してその非アクティブフレームを符号化することが望ましい場合がある。図１２Ｂは、方法Ｍ１００のそのような一実装を使用して音声信号の一領域を符号化した結果を示している。この実施例では、方法Ｍ１００は、先行する会話区間が少なくとも３フレームの長さを有していた場合にのみ、ビットレートｒＭを使用してアクティブフレームから非アクティブフレームへの遷移の後の第１の非アクティブフレームを符号化するように実装される。このような場合、最低会話区間長は、固定または可変としてよい。例えば、これは、信号対雑音比などの、遷移に先立つ１つまたは複数のアクティブフレームの特性に基づくことができる。方法Ｍ１００のさらなるそのような実装は、上述のようにハングオーバーおよび／または平均化窓を適用するようにも構成されうる。

図１０Ａから１２Ｂまでは、第１の符号化フレームを符号化するために使用されるビットレートｒ１が、第２の符号化フレームを符号化するために使用されるビットレートｒ２よりも大きい方法Ｍ１００の実装を適用するのを示している。しかし、方法Ｍ１００の実装の範囲は、ビットレートｒ１がビットレートｒ２よりも小さい方法も含む。場合によっては、例えば、有声フレームなどのアクティブフレームは、前のアクティブフレームと大きく重複する可能性があり、またｒ２よりも小さいビットレートを使用してそのようなフレームを符号化するのが望ましいと思われる。図１３Ａは、方法Ｍ１００のそのような実装によるフレームのシーケンスを符号化した結果を示しており、アクティブフレームは、３つの符号化フレームの集合の第１のものを生成するように低いビットレートで符号化される。

方法Ｍ１００の潜在的用途は、アクティブフレームから非アクティブフレームへの遷移を含む音声信号の領域に限定されない。いくつかの場合では、ある種の規則正しい間隔に従って方法Ｍ１００を実行することが望ましいと思われる。例えば、ｎの典型的な値を８、１６、および３２として、高いビットレートｒ２で連続する非アクティブフレームの系列においてｎフレーム毎に符号化するのが望ましいと考えられる。他の場合には、方法Ｍ１００は、イベントに応じて開始されうる。このようなイベントの一実施例は、第１の反射係数の値など、スペクトル傾斜に関係するパラメータの変化により指示されうる、暗雑音の品質の変化である。図１３Ｂは、方法Ｍ１００のそのような実装を使用して非アクティブフレーム列を符号化した結果を示している。

上記のように、広帯域フレームは、全帯域符号化方式または分割帯域符号化方式を使用して符号化することができる。全帯域として符号化されたフレームは、広帯域周波数範囲全体に広がる単一のスペクトル包絡線の記述を含むが、分割帯域として符号化されたフレームは、広帯域音声信号の異なる周波数帯域（例えば、狭帯域範囲および高帯域範囲）内の情報を表す２つまたはそれ以上の別々の部分を有する。例えば、典型的には、分割帯域符号化フレームのこれらの別々の部分のそれぞれは、対応する周波数帯域上の音声信号のスペクトル包絡線の記述を含む。分割帯域符号化フレームは、広帯域周波数範囲全体についてフレームの時間情報の１つの記述を含むことができるか、または符号化フレームの別々の部分のそれぞれが、対応する周波数帯域に対する音声信号の時間情報の記述を含むことができる。

図１４は、方法Ｍ１００の一実装Ｍ１１０の適用を示している。方法Ｍ１１０は、音声信号の３つのフレームのうちの第１のフレームに基づき第１の符号化フレームを生成するタスクＴ１１０の一実装Ｔ１１２を含む。第１のフレームは、アクティブまたは非アクティブであるものとしてよく、第１の符号化フレームはｐビットの長さを有する。図１４に示されているように、タスクＴ１１２は、第１の符号化フレームを生成し第１および第２の周波数帯域上のスペクトル包絡線の記述を格納するように構成される。この記述は、両方の周波数帯域に及ぶ単一の記述であるか、またはそれらの周波数帯域のうちのそれぞれの１つにそれぞれ及ぶ別々の記述を含むことができる。タスクＴ１１２は、さらに、第１の符号化フレームを生成し第１および第２の周波数帯域に対する時間情報（例えば、時間包絡線の）の記述を格納するように構成されうる。この記述は、両方の周波数帯域に及ぶ単一の記述であるか、またはそれらの周波数帯域のうちのそれぞれの１つにそれぞれ及ぶ別々の記述を含むことができる。

方法Ｍ１１０は、さらに、３つのフレームのうちの第２のフレームに基づき第２の符号化フレームを生成するタスクＴ１２０の一実装Ｔ１２２も含む。第２のフレームは、非アクティブフレームであり、第２の符号化フレームは、ｑビットの長さを有する（ただし、ｐおよびｑは等しくない）。図１４に示されているように、タスクＴ１２２は、第２の符号化フレームを生成し第１および第２の周波数帯域上のスペクトル包絡線の記述を格納するように構成される。この記述は、両方の周波数帯域に及ぶ単一の記述であるか、またはそれらの周波数帯域のうちのそれぞれの１つにそれぞれ及ぶ別々の記述を含むことができる。この特定の実施例では、第２の符号化フレーム内に含まれているスペクトル包絡線記述のビット単位の長さは、第１の符号化フレームに含まれるスペクトル包絡線記述のビット単位の長さよりも短い。タスクＴ１２２は、さらに、第２の符号化フレームを生成し第１および第２の周波数帯域に対する時間情報（例えば、時間包絡線の）の記述を格納するように構成されうる。この記述は、両方の周波数帯域に及ぶ単一の記述であるか、またはそれらの周波数帯域のうちのそれぞれの１つにそれぞれ及ぶ別々の記述を含むことができる。

方法Ｍ１１０は、さらに、３つのフレームのうちの最後フレームに基づき第３の符号化フレームを生成するタスクＴ１３０の一実装Ｔ１３２も含む。第３のフレームは、非アクティブフレームであり、第３の符号化フレームは、ｒビットの長さを有する（ただし、ｒはｑよりも小さい）。図１４に示されているように、タスクＴ１３２は、第３の符号化フレームを生成し第１の周波数帯域上のスペクトル包絡線の記述を格納するように構成される。この特定の実施例では、第３の符号化フレーム内に含まれているスペクトル包絡線記述の（ビット単位の）長さは、第２の符号化フレームに含まれるスペクトル包絡線記述の（ビット単位の）長さよりも短い。タスクＴ１３２は、さらに、第３の符号化フレームを生成し第１の周波数帯域に対する時間情報（例えば、時間包絡線の）の記述を格納するように構成されうる。

第２の周波数帯域は、第１の周波数帯域と異なるが、方法Ｍ１１０は、２つの周波数帯域がオーバーラップするように構成されうる。第１の周波数帯域に対する下限の例は、０、５０、１００、３００、および５００Ｈｚを含み、第１の周波数帯域に対する上限の例は、３、３．５、４、４．５、および５ｋＨｚを含む。第２の周波数帯域に対する下限の例は、２．５、３、３．５、４、および４．５ｋＨｚを含み、第２の周波数帯域に対する上限の例は、７、７．５、８、および８．５ｋＨｚを含む。上記の上下限の５００個の可能なすべての組合せは、明示的に考えられ、これにより開示され、Ｍ１１０の実装にこのような組合せを適用することも、明示的に考えられ、これにより開示される。特定の一実施例では、第１の周波数帯域は、約５０Ｈｚから約４ｋＨｚまでの範囲を含み、第２の周波数帯域は、約４から約７ｋＨｚまでの範囲を含む。他の特定の実施例では、第１の周波数帯域は、約１００Ｈｚから約４ｋＨｚまでの範囲を含み、第２の周波数帯域は、約３．５から約７ｋＨｚまでの範囲を含む。さらに他の特定の実施例では、第１の周波数帯域は、約３００Ｈｚから約４ｋＨｚまでの範囲を含み、第２の周波数帯域は、約３．５から約７ｋＨｚまでの範囲を含む。これらの実施例において、「約（ａｂｏｕｔ）」という用語はプラスマイナス５パーセントを示し、様々周波数帯域の上下限はそれぞれ３ｄＢ点により示される。

上記のように、広帯域用途では、分割帯域符号化方式は、符号化効率の向上および下位互換性のサポートなど、全帯域符号化方式に比べて有利であると考えられる。図１５は、第２の符号化フレームを生成するために分割帯域符号化方式を使用する方法Ｍ１１０の一実装Ｍ１２０の適用を示している。方法Ｍ１２０は、２つのサブタスクＴ１２６ａおよびＴ１２６ｂを有するタスクＴ１２２の一実装Ｔ１２４を含む。タスクＴ１２６ａは、第１の周波数帯域上のスペクトル包絡線の記述を計算するように構成され、タスクＴ１２６ｂは、第２の周波数帯域上のスペクトル包絡線の別の記述を計算するように構成されている。対応する音声復号器（例えば、後述のようなもの）は、タスクＴ１２６ｂおよびＴ１３２により計算されたスペクトル包絡線記述から得られる情報に基づき復号化された広帯域フレームを計算するように構成されうる。

タスクＴ１２６ａおよびＴ１３２が、同じ長さを有する第１の周波数帯域上のスペクトル包絡線の記述を計算するように構成されるか、またはタスクＴ１２６ａおよびＴ１３２のうちの一方が、他のタスクにより計算された記述よりも長い記述を計算するように構成されうる。タスクＴ１２６ａおよびＴ１２６ｂは、さらに、２つの周波数帯域上の時間情報の別の記述を計算するように構成することもできる。

タスクＴ１３２は、第３の符号化フレームが第２の周波数帯域上のスペクトル包絡線の記述を含まないように構成されうる。それとは別に、タスクＴ１３２は、第３の符号化フレームが第２の周波数帯域上のスペクトル包絡線の簡略記述を含むように構成されうる。例えば、タスクＴ１３２は、第１の周波数帯域上の第３のフレームのスペクトル包絡線の記述に比べて実質的にビット数が少ない（例えば、半分以下の）第２の周波数帯域上のスペクトル包絡線の記述を第３の符号化フレームが含むように構成されうる。他の実施例では、タスクＴ１３２は、タスク１２６ｂにより計算された第２の周波数帯域上のスペクトル包絡線の記述に比べて実質的にビット数が少ない（例えば、半分以下の）第２の周波数帯域上のスペクトル包絡線の記述を第３の符号化フレームが含むように構成されている。このような一実施例では、タスクＴ１３２は、第３の符号化フレームを生成しスペクトル傾斜値（例えば、正規化された第１の反射係数）のみを含む第２の周波数帯域上のスペクトル包絡線の記述を格納するように構成される。

全帯域符号化方式ではなく分割帯域符号化方式を使用して第１の符号化フレームを生成するように方法Ｍ１１０を実装するのが望ましい場合がある。図１６は、第１の符号化フレームを生成するために分割帯域符号化方式を使用する方法Ｍ１２０の一実装Ｍ１３０の適用を示している。方法Ｍ１３０は、２つのサブタスクＴ１１６ａおよびＴ１１６ｂを含むタスクＴ１１０の一実装Ｔ１１４を含む。タスク１１６ａは、第１の周波数帯域上のスペクトル包絡線の記述を計算するように構成され、タスクＴ１１６ｂは、第２の周波数帯域上のスペクトル包絡線の別の記述を計算するように構成されている。

タスクＴ１１６ａおよびＴ１２６ａが、同じ長さを有する第１の周波数帯域上のスペクトル包絡線の記述を計算するように構成されるか、またはタスクＴ１１６ａおよびＴ１２６ａのうちの一方が、他のタスクにより計算された記述よりも長い記述を計算するように構成されうる。タスクＴ１１６ｂおよびＴ１２６ｂが、同じ長さを有する第２の周波数帯域上のスペクトル包絡線の記述を計算するように構成されるか、またはタスクＴ１１６ｂおよびＴ１２６ｂのうちの一方が、他のタスクにより計算された記述よりも長い記述を計算するように構成されうる。タスクＴ１１６ａおよびＴ１１６ｂは、さらに、２つの周波数帯域上の時間情報の別の記述を計算するように構成することもできる。

図１７Ａは、方法Ｍ１３０の一実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。この特定の実施例は、第２の周波数帯域を表す第１および第２の符号化フレームの部分は、同じ長さを有し、第１の周波数帯域を表す第２および第３の符号化フレームの部分は、同じ長さを有する。

第２の周波数帯域を表す第２の符号化フレームの部分の長さが、第１の符号化フレームの対応する部分よりも長いことが望ましい場合がある。アクティブフレームの低周波および高周波範囲は、暗雑音を含む非アクティブフレームの低周波および高周波範囲に比べて互いの相関性が高い（特にフレームが有声の場合）。したがって、非アクティブフレームの高周波範囲は、アクティブフレームの高周波範囲に比べて伝達するフレームの情報量が比較的多く、非アクティブフレームの高周波範囲を符号化するのにより多くのビットを使用するのが望ましい場合がある。

図１７Ｂは、方法Ｍ１３０の他の実装を使用してアクティブフレームから非アクティブフレームへの遷移を符号化した結果を示している。この場合、第２の周波数帯域を表す第２の符号化フレームの部分は、第１の符号化フレームの対応する部分よりも長い（すなわち、より多くのビットを有する）。この特定の実施例は、さらに、第１の周波数帯域を表す第２の符号化フレームの部分が第３の符号化フレームの対応する部分よりも長い場合も示しているが、方法Ｍ１３０の他の実装は、これら２つの部分が同じ長さ（例えば、図１７Ａに示されているように）を有するようにフレームを符号化するように構成されうる。

方法Ｍ１００の典型的な一実施例は、広帯域ＮＥＬＰモード（図１４に示されているような全帯域であるか、または図１５および１６に示されているような分割帯域であってよい）を使用して第２のフレームを符号化し、狭帯域ＮＥＬＰモードを使用して第３のフレームを符号化するように構成されている。図１８の表は、図１７Ｂに示されているように音声符号器が結果を生成するために使用できる３つの異なる符号化方式一組を示している。この実施例では、有声フレームを符号化するためにフルレートの広帯域ＣＥＬＰ符号化方式（「符号化方式１」）が使用される。この符号化方式では、１５３ビットを使用してフレームの狭帯域部分を符号化し、１６ビットを使用して高帯域部分を符号化する。狭帯域では、符号化方式１は、２８ビットを使用してスペクトル包絡線の記述を符号化し（例えば、１つまたは複数の量子化ＬＳＰベクトルとして）、１２５ビットを使用して励振信号の記述を符号化する。高帯域では、符号化方式１は、８ビットを使用してスペクトル包絡線を符号化し（例えば、１つまたは複数の量子化ＬＳＰベクトルとして）、８ビットを使用して時間包絡線の記述を符号化する。

狭帯域励振信号から高帯域励振信号を導出するように符号化方式１を構成することが望ましい場合があり、これにより、高帯域励振信号を伝送するのに符号化フレームのビットが不要になる。また、符号化フレームの他のパラメータ（例えば、第２の周波数帯域上のスペクトル包絡線の記述を含む）から合成されるような高帯域信号の時間包絡線に相対的に高帯域時間包絡線を計算するように符号化方式１を構成することが望ましい場合もある。このような特徴は、例えば、上記の米国特許出願公開第２００６／０２８２２６２号においてさらに詳しく説明されている。

有声音声信号に比べて、無声音声信号は、典型的には、高帯域における会話に関する理解にとって重要な情報をより多く含む。したがって、有声フレームがより高い全体的ビットレートを使用して符号化される場合であっても、有声フレームの高帯域部分の符号化よりも、無声フレームの高帯域部分の符号化により多くのビット数を使用した方が望ましいと考えられる。図１８の表による実施例では、無声フレームを符号化するために、ハーフレート広帯域ＮＥＬＰ符号化方式（「符号化方式２」）が使用される。有声フレームの高帯域部分を符号化するために符号化方式１により使用されるような１６ビットの代わりに、この符号化方式では、２７ビットを使用してフレームの高帯域部分を符号化し、１２ビットを使用してスペクトル包絡線の記述を符号化し（例えば、１つまたは複数のＬＳＰベクトルとして）、１５ビットを使用して時間包絡線の記述を符号化する（例えば、量子化利得フレームおよび／または利得形状として）。狭帯域部分を符号化するために、符号化方式２は、４７ビットを使用し、そのうち２８ビットを使用してスペクトル包絡線の記述を符号化し（例えば、１つまたは複数の量子化ＬＳＰベクトルとして）、１９ビットを使用して時間包絡線の記述を符号化する（例えば、量子化利得フレームおよび／または利得形状として）。

図１８で説明されている方式は、八分の一狭帯域ＮＥＬＰ符号化方式（「符号化方式３」）を使用して１フレーム当たり１６ビットのレートで非アクティブフレームを符号化するが、そのうち１０ビットを使用してスペクトル包絡線の記述を符号化し（例えば、１つまたは複数の量子化ＬＳＰベクトルとして）、５ビットを使用して時間包絡線の記述を符号化する（例えば、量子化利得フレームおよび／または利得形状として）。符号化方式３の他の実施例は、８ビットを使用してスペクトル包絡線の記述を符号化し、６ビットを使用して時間包絡線の記述を符号化する。

音声符号器または音声符号化方法は、図１８に示されているような一組の符号化方式を使用して方法Ｍ１３０の一実装を実行するように構成されうる。例えば、そのような符号器または方法は、符号化方式３ではなく符号化方式２を使用して第２の符号化フレームを生成するように構成されうる。このような符号器または方法の様々な実装は、ビットレートｒＨが指示されている符号化方式１、ビットレートｒＭが指示されている符号化方式２、およびビットレートｒＬが指示されている符号化方式３を使用することにより、図１０Ａから１３Ｂに示されている形で結果を生成するように構成されうる。

方法Ｍ１３０の一実装を実行するために図１８に示されているような一組の符号化方式が使用される場合については、符号器または方法は、同じ符号化方式（方式２）を使用して第２の符号化フレームを生成し、符号化された無声フレームを生成するように構成される。他の場合には、方法Ｍ１００の一実装を実行するように構成される符号器または方法は、専用符号方式（つまり、符号器または方法がアクティブフレームを符号化するためにも使用することのない符号方式）を使用して第２のフレームを符号化するように構成されうる。

図１８に示されているように一組の符号化方式を使用する方法Ｍ１３０の一実装は、同じ符号化モード（つまり、ＮＥＬＰ）を使用して第２および第３の符号化フレームを生成するように構成されるが、異なる（例えば、利得を計算する方法に関して）符号化モードのバージョンを使用してこれら２つの符号化フレームを生成することも可能である。第２および第３の符号化フレームが異なる符号化モードを使用して生成される（例えば、代わりにＣＥＬＰモードを使用して第２の符号化フレームを生成する）方法Ｍ１００の他の構成も、明示的に考えられ、これにより開示される。第２の符号化フレームが異なる周波数帯域に対し異なる符号化モード（例えば、低い帯域に対してはＣＥＬＰ、高い帯域にはＮＥＬＰ、またはその逆）を使用する分割帯域広帯域モードを使用して生成される方法Ｍ１００の他の構成も、明示的に考えられ、これにより開示される。方法Ｍ１００のそのような実装を実行するように構成されている音声符号化の音声符号器および方法も、明示的に考えられ、これにより開示される。

方法Ｍ１００の一実装の典型的な適用では、ロジック素子のアレイ（例えば、ロジックゲート）は、この方法の様々なタスクのうちの１つ、複数、さらにはすべてを実行するように構成されている。これらのタスクのうちの１つまたは複数のタスク（場合によってはすべてのタスク）は、さらに、ロジック素子（例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）のアレイを含む機械（例えば、コンピュータ）により可読であり、および／または実行可能であるコンピュータプログラム製品（例えば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの１つまたは複数のデータ記憶媒体）内に具現化された、コード（例えば、１つまたは複数の命令セット）として実装されうる。方法Ｍ１００の一実装のタスクは、さらに、複数のそのようなアレイまたは機械により実行することもできる。これら、または他の実装では、タスクは、携帯電話などの無線通信を行うデバイスまたはそのような通信機能を有する他のデバイス内で実行可能である。このようなデバイスは、回線交換方式および／またはパケット交換方式のネットワークと（例えば、ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）通信するように構成されうる。例えば、このようなデバイスは、符号化フレームを送信するように構成されたＲＦ回路を備えることができる。

図１８Ｂは、本明細書で説明されているようなタスクＴ１２０およびＴ１３０を含む一般的構成により方法Ｍ３００を使用して音声信号の２つの連続フレームを符号化する演算を示している。（方法Ｍ３００のこの実装では２つのフレームのみを処理するが、「第２のフレーム」および「第３のフレーム」というラベルの使用は、便宜上続けられている。）図１８Ｂに示されている特定の実施例において、第３のフレームは第２のフレームの直後に続く。方法Ｍ３００の他の適用では、第２および第３のフレームは、非アクティブフレームにより、または２つまたはそれ以上の非アクティブフレームの連続系列により音声信号内で区切ることができる。方法Ｍ３００の他の適用では、第３のフレームは、第２のフレームではない音声信号の非アクティブフレームであってよい。方法Ｍ３００の他の一般的な適用では、第２のフレームはアクティブでも非アクティブでもよい。方法Ｍ３００の他の一般的な適用では、第２のフレームはアクティブでも非アクティブでもよく、また第３のフレームもアクティブでも非アクティブでもよい。図１８Ｃは、タスクＴ１２０およびＴ１３０が、本明細書で説明されているように、それぞれ、タスクＴ１２２およびＴ１３２として実装される方法Ｍ３００の一実装Ｍ３１０の適用を示している。方法Ｍ３００の他の実装では、タスクＴ１２０は、本明細書で説明されているようにタスクＴ１２４として実装されている。第３の符号化フレームが第２の周波数帯域上のスペクトル包絡線の記述を含まないようにタスクＴ１３２を構成するのが望ましい場合がある。

図１９Ａは、本明細書で説明されているような方法Ｍ１００の一実装および／または本明細書で説明されているような方法Ｍ３００の一実装を含む音声符号化方法を実行するように構成された装置１００のブロック図を示している。装置１００は、音声活動検出器１１０、符号化方式選択器１２０、および音声符号器１３０を含む。音声活動検出器１１０は、音声信号のフレームを受信し、符号化すべきフレーム毎に、そのフレームがアクティブであるかまたは非アクティブであるかを示すように構成される。符号化方式選択器１２０は、音声活動検出器１１０の指示に応じて、符号化すべきフレーム毎に符号化方式を選択するように構成されている。音声符号器１３０は、選択された符号方式により、音声信号のフレームに基づく符号化フレームを生成するように構成されている。携帯電話などの、装置１００を含む通信デバイスは、有線、無線、または光伝送路に送信する前に、誤り訂正および／または冗長符号化などの符号化フレームに対しさらなる処理演算を実行するように構成されうる。

音声活動検出器１１０は、符号化すべきそれぞれのフレームがアクティブであるか、または非アクティブであるかを示すように構成される。この指示は、二値信号であってよく、信号の一方の状態はフレームがアクティブであることを示し、信号の他の状態はフレームが非アクティブであることを示す。それとは別に、この指示は、アクティブおよび／または非アクティブフレームの複数のタイプを示すことができるように２つよりも多い状態を有する信号であってよい。例えば、アクティブフレームが有声であるか、無声であるかを示し、アクティブフレームを遷移、有声、または無声に分類し、場合によってはさらに、遷移フレームを立ち上がり過渡的または立ち下がり過渡的に分類するように検出器１１０を構成することが望ましい場合がある。符号化方式選択器１２０の対応する実装は、これらの指示に応じて、符号化すべきフレーム毎に符号化方式を選択するように構成される。

音声活動検出器１１０は、エネルギー、信号対雑音比、周期性、ゼロ交差率、スペクトル分布（例えば、１または複数のＬＳＦ、ＬＳＰ、および／または反射係数を使用して評価されるような）などのフレームの１つまたは複数の特性に基づきフレームがアクティブであるか、または非アクティブがあるかを示すように構成されうる。この指示を生成するために、検出器１１０は、そのような特性の１つまたは複数のそれぞれについて、そのような特性の値または大きさを閾値と比較し、および／またはそのような特性の値または大きさの変化の大きさを閾値と比較するなどの演算を実行するように構成することができ、また閾値は固定でも適応的でもよい。

音声活動検出器１１０の一実装は、現在のフレームのエネルギーを評価し、エネルギー値が閾値よりも小さい（それとは別に、それ以下である）場合にフレームが非アクティブがあることを示すように構成されうる。そのような検出器は、フレームエネルギーをフレームサンプルの平方和として計算するように構成できる。音声活動検出器１１０の他の実装は、低周波帯域と高周波帯域のそれぞれにおける現在のフレームのエネルギーを評価し、それぞれの帯域に対するエネルギー値がそれぞれの閾値よりも小さい（それとは別に、それ以下である）場合にフレームが非アクティブがあることを示すように構成される。そのような検出器は、パスバンドフィルタをフレームに適用し、フィルタ処理されたフレームのサンプルの平方和を計算することにより帯域内のフレームエネルギーを計算するように構成されうる。

上記のように、音声活動検出器１１０の一実装は、１つまたは複数の閾値を使用するように構成できる。これらの値はそれぞれは、固定、または適応的であるものとしてよい。適応的閾値は、フレームまたは帯域の雑音レベル、フレームまたは帯域の信号対雑音比、所望の符号化レートなどの１つまたは複数の係数に基づくことができる。一実施例では、低周波帯域（例えば、３００Ｈｚから２ｋＨｚまで）および高周波帯域（例えば、２ｋＨｚから４ｋＨｚまで）のそれぞれについて使用される閾値は、前のフレームに対するその帯域における暗雑音レベルの推定値、前のフレームに対するその帯域における信号対雑音比、および所望の平均データ転送速度に基づく。

符号化方式選択器１２０は、音声活動検出器１１０の指示に応じて、符号化すべきフレーム毎に符号化方式を選択するように構成されている。符号化方式選択は、現在のフレームに対する音声活動検出器１１０からの指示、および／または１つまたは複数の前のフレームのそれぞれに対する音声活動検出器１１０からの指示に基づくことができる。いくつかの場合において、符号化方式選択は、さらに、１つまたは複数の後続フレームのそれぞれに対する音声活動検出器１１０からの指示に基づく。

図２０Ａは、図１０Ａに示されているような結果を得るために符号化方式選択器１２０の一実装により実行されうるテストの流れ図である。この実施例では、選択器１２０は、有声フレームについては高レートの符号化方式１を、非アクティブフレームについては低レートの符号化方式３を、無声フレームおよびアクティブフレームから非アクティブフレームへの遷移の後の第１の非アクティブフレームについては中間レートの符号化方式２を選択するように構成される。このような適用では、符号化方式１〜３は、図１８に示されている３つの方式に準拠することができる。

符号化方式選択器１２０の代替え実装は、同等の結果を得るために図２０Ｂの状態図に従って動作するように構成されうる。この図において、ラベル「Ａ」は、アクティブフレームに応じて生じる状態遷移を示し、ラベル「Ｉ」は、非アクティブフレームに応じて生じる状態遷移を示し、様々な状態のラベルは、現在のフレームについて選択された符号化方式を示す。この場合、状態ラベル「方式１／２」は、符号化方式１または符号化方式２のいずれかが、フレームが有声であるか、無声であるかに応じて、現在のアクティブフレームについて選択されていることを示す。当業者であれば、代替えの一実装において、符号化方式選択器がアクティブフレームに対して１つの符号化方式のみ（例えば、符号化方式１）をサポートするようにこの状態が構成されうることを理解するであろう。さらなる代替え実装では、この状態は、符号化方式選択器がアクティブフレームに対し２つよりも多い異なる符号化方式のうちから選択する（例えば、有声、無声、および遷移フレームについて異なる符号化方式を選択する）ように構成できる。

図１２Ｂを参照しつつ上で述べたように、音声符号器は、一番最近のアクティブフレームが少なくとも最低長を有する会話区間の一部である場合に限りより高いビットレートｒ２で非アクティブフレームを符号化するのが望ましいと考えられる。符号化方式選択器１２０の一実装は、図１２Ｂに示されているような結果を得るために図２１Ａの状態図に従って動作するように構成されうる。この特定の実施例では、選択器は、フレームが少なくとも３フレーム分の長さを有する連続するアクティブフレームの列の直後に続く場合にのみ非アクティブフレームについて符号化方式２を選択するように構成される。この場合、状態ラベル「方式１／２」は、符号化方式１または符号化方式２のいずれかが、フレームが有声であるか、無声であるかに応じて、現在のアクティブフレームについて選択されていることを示す。当業者であれば、代替えの一実装において、符号化方式選択器がアクティブフレームに対して１つの符号化方式のみ（例えば、符号化方式１）をサポートするようにこれらの状態が構成されうることを理解するであろう。さらなる代替え実装では、これらの状態は、符号化方式選択器がアクティブフレームに対し２つよりも多い異なる符号化方式のうちから選択する（例えば、有声、無声、および遷移フレームについて異なる方式を選択する）ように構成できる。

図１０Ｂおよび１２Ａを参照しつつ上で述べたように、音声符号器がハングオーバーを適用するのが望ましい場合がある（つまり、アクティブフレームから非アクティブフレームへの遷移の後に１つまたは複数の非アクティブフレームに対しより高いビットレートを使用することを続けるために）。符号化方式選択器１２０の一実装は、３フレーム分の長さを有するハングオーバーを適用するために図２１Ｂの状態図に従って動作するように構成されうる。この図では、ハングオーバー状態は、「方式１（２）」とラベル付けされ、符号化方式１または符号化方式２のいずれかが、一番最近のアクティブフレームについて選択されている方式に応じて、現在の非アクティブフレームについて示されていることを表す。当業者であれば、代替えの一実装において、符号化方式選択器がアクティブフレームに対して１つの符号化方式のみ（例えば、符号化方式１）をサポートできることを理解するであろう。さらなる代替え実装では、ハングオーバー状態は、２つよりも多い異なる符号化方式のうちの１つを示し続けるように構成されうる（例えば、有声、無声、および遷移フレームについて、異なる方式がサポートされている場合）。さらなる代替え実装では、異なる方式（例えば、方式２）が一番最近のアクティブフレームについて選択されていた場合であっても、ハングオーバー状態の１つまたは複数が固定された方式（例えば、方式１）を示すように構成されうる。

図１１Ｂおよび１２Ａを参照しつつ上で述べたように、音声符号器が音声信号の複数の非アクティブフレーム上で平均された情報に基づき第２の符号化フレームを生成することが望ましい場合がある。符号化方式選択器１２０の一実装は、このような結果をサポートするために図２１Ｃの状態図に従って動作するように構成されうる。この特定の実施例では、選択器は、３つの非アクティブフレーム上で平均された情報に基づく第２の符号化フレームの生成を符号器に指令するように構成される。「方式２（ａｖｇを開始する）」というラベルが付いている状態は、現在のフレームが方式２で符号化され、さらに新しい平均（例えば、スペクトル包絡線の記述の平均）を計算するために使用されることを符号器に示す。「方式２（ａｖｇについて）」というラベルが付いている状態は、現在のフレームが方式２で符号化され、さらに平均を計算を続けるために使用されることを符号器に示す。「ａｖｇを送信、方式２」というラベルの付いている状態は、現在のフレームが、平均を完了するために使用され、次いで方式２を使用して送信されることを符号器に示す。当業者であれば、符号化方式選択器１２０の代替え実装は、異なる方式割り当てを使用し、および／または異なる数の非アクティブフレーム上で情報の平均をとることを示すように構成されうることを理解するであろう。

図１９Ｂは、スペクトル包絡線記述計算器１４０、時間情報記述計算器１５０、およびフォーマッタ１６０を備える音声符号器１３０の一実装１３２のブロック図を示している。スペクトル包絡線記述計算器１４０は、符号化されるフレーム毎にスペクトル包絡線の記述を計算するように構成される。時間情報記述計算器１５０は、符号化されるフレーム毎に時間情報の記述を計算するように構成される。フォーマッタ１６０は、スペクトル包絡線の計算された記述および時間情報の計算された記述を含む符号化フレームを生成するように構成される。フォーマッタ１６０は、場合によっては異なる符号化方式に対し異なるフォーマットを使用して、所望のパケットフォーマットに従い符号化フレームを生成するように構成されうる。フォーマッタ１６０は、符号化フレームを生成し、符号化方式を識別する１つまたは複数のビットの集合、またはフレームが符号化される際の符号化レートまたはモード（「符号化インデックス」とも呼ばれる）などの追加の情報を含めるように構成されうる。

スペクトル包絡線記述計算器１４０は、符号化方式選択器１２０により示される符号化方式に従って、符号化されるフレーム毎にスペクトル包絡線の記述を計算するように構成される。記述は、現在のフレームに基づいており、また１つまたは複数の他のフレームの少なくとも一部にも基づくことができる。例えば、計算器１４０は、１つまたは複数の隣接するフレーム内に広がる窓を適用し、および／または２つまたはそれ以上のフレームの記述の平均（例えば、ＬＳＰベクトルの平均）を計算するように構成されうる。

計算器１４０は、ＬＰＣ分析などのスペクトル分析を実行することによりフレームのスペクトル包絡線の記述を計算するように構成されうる。図１９Ｃは、ＬＰＣ分析モジュール１７０、変換ブロック１８０、および量子化器１９０を備えるスペクトル包絡線記述計算器１４０の一実装１４２のブロック図を示している。分析モジュール１７０は、フレームのＬＰＣ分析を実行し、モデルパラメータの対応する集合を生成するように構成される。例えば、分析モジュール１７０は、フィルタ係数または反射係数などのＬＰＣ係数のベクトルを生成するように構成することができる。分析モジュール１７０は、１つまたは複数の隣接するフレームの部分を含む窓上で分析を実行するように構成されうる。いくつかの場合には、分析モジュール１７０は、分析の次数（例えば、係数ベクトル中の要素の個数）が符号化方式選択器１２０により指示されている符号化方式に従って選択されるように構成される。

変換ブロック１８０は、モデルパラメータの集合を量子化を行うのにより効率的である形式に変換するように構成される。例えば、変換ブロック１８０は、ＬＰＣ係数ベクトルをＬＳＰの集合に変換するように構成されうる。いくつかの場合において、変換ブロック１８０は、ＬＰＣ係数の集合を符号化方式選択器１２０により指示されている符号化方式に従って特定の形式に変換するように構成される。

量子化器１９０は、変換されたモデルパラメータ集合を量子化することにより量子化形式のスペクトル包絡線の記述を生成するように構成される。量子化器１９０は、変換された集合の要素を切り詰め、および／または変換された集合を表すように１つまたは複数の量子化テーブルインデックスを選択することにより、変換された集合を量子化するように構成されうる。いくつかの場合において、量子化器１９０は、変換された集合を符号化方式選択器１２０により指示されている符号化方式に従って特定の形式および／または長さに量子化するように（例えば、図１８を参照にしつつ上で述べたように）構成される。

時間情報記述計算器１５０は、フレームの時間情報の記述を計算するように構成される。この記述は、同様に１つまたは複数の他のフレームの少なくとも一部の時間情報に基づいていてもよい。例えば、計算器１５０は、１つまたは複数の隣接するフレーム内に広がる窓上で記述を計算し、および／または２つまたはそれ以上のフレームの記述の平均を計算するように構成されうる。

時間情報記述計算器１５０は、符号化方式選択器１２０により示される符号化方式に従って、特定の形式および／または長さを有する時間情報の記述を計算するように構成されうる。例えば、計算器１５０は、選択された符号化方式に従って、ピッチ成分（例えば、ピッチ遅れ（遅延とも呼ばれる）、ピッチ利得、および／またはプロトタイプの記述）の記述を含みうる、（Ａ）フレームの時間包絡線および（Ｂ）フレームの励振信号の一方または両方を含む時間情報の記述を計算するように構成されうる。

計算器１５０は、フレームの時間包絡線を含む時間情報の記述（例えば、利得フレーム値および／または利得形状値）を計算するように構成されうる。例えば、計算器１５０は、ＮＥＬＰ符号化方式の指示に応じてそのような記述を出力するように構成されうる。本明細書で説明されているように、そのような記述を計算することは、フレームまたはサブフレーム上で信号エネルギーを信号サンプルの平方和として計算すること、他のフレームおよび／またはサブフレームの一部を含む窓上で信号エネルギーを計算すること、および／または計算された時間包絡線を量子化することを含むことができる。

計算器１５０は、フレームのピッチまたは周期に関係する情報を含むフレームの時間情報の記述を計算するように構成できる。例えば、計算器１５０は、ＣＥＬＰ符号化方式の指示に応じて、ピッチ遅れおよび／またはピッチ利得などのフレームのピッチ情報を含む記述を出力するように構成されうる。それとは別に、またはそれに加えて、計算器１５０は、ＰＰＰ符号化方式の指示に応じて、周期波形（「プロトタイプ」とも呼ばれる）を含む記述を出力するように構成されうる。ピッチおよび／またはプロトタイプ情報を計算することは、典型的には、ＬＰＣ残余成分からそのような情報を抽出することを含み、また現在のフレームからのピッチおよび／またはプロトタイプ情報を１つまたは複数の過去のフレームからのそのような情報と組み合わせることも含むことができる。計算器１５０は、さらに、時間情報のそのような記述を（例えば、１つまたは複数のテーブルインデックスとして）量子化するように構成されうる。

計算器１５０は、励振信号を含むフレームの時間情報の記述を計算するように構成できる。例えば、計算器１５０は、ＣＥＬＰ符号化方式の指示に応じて、励振信号を含む記述を出力するように構成されうる。励振信号を計算することは、典型的には、ＬＰＣ残余成分からそのような信号を導出することを含み、また現在のフレームからの励振情報を１つまたは複数の過去のフレームからのそのような情報と組み合わせることも含むことができる。計算器１５０は、さらに、時間情報のそのような記述を（例えば、１つまたは複数のテーブルインデックスとして）量子化するように構成されうる。音声符号器１３２が緩和ＣＥＬＰ（ＲＣＥＬＰ）符号化方式をサポートしている場合については、計算器１５０は、励振信号を正則化するように構成されうる。

図２２Ａは、時間情報記述計算器１５０の一実装１５２を含む音声符号器１３２の一実装１３４のブロック図を示している。計算器１５２は、スペクトル包絡線記述計算器１４０により計算されるようなフレームのスペクトル包絡線の記述に基づくフレームの時間情報の記述（例えば、励振信号、ピッチおよび／またはプロトタイプ情報）を計算するように構成されている。

図２２Ｂは、フレームに対するＬＰＣ残余成分に基づき時間情報の記述を計算するように構成されている時間情報記述計算器１５２の一実装１５４のブロック図を示している。この実施例では、計算器１５４は、スペクトル包絡線記述計算器１４２により計算されるようなフレームのスペクトル包絡線の記述を受け取るように配列される。逆量子化器Ａ１０は、記述を逆量子化するように構成され、逆変換ブロックＡ２０は、逆変換を逆量子化記述に適用してＬＰＣ係数の集合を求めるように構成されている。ホワイトニングフィルタＡ３０は、ＬＰＣ係数の集合に従って構成され、また音声信号をフィルタ処理してＬＰＣ残余成分を生成するように配列される。量子化器Ａ４０は、ＬＰＣ残余成分に基づき、また場合によってはフレームのピッチ情報および／または１つまたは複数の過去のフレームから得られた時間情報にも基づくフレームに対する時間情報の記述を（例えば、１つまたは複数のテーブルインデックスとして）量子化するように構成されている。

音声符号器１３２の一実装を使用して、分割帯域符号化方式により広帯域音声信号のフレームを符号化するのが望ましい場合がある。そのような場合、スペクトル包絡線記述計算器１４０は、直列に、および／または並列に、また場合によっては異なる符号化モードおよび／またはレートに従って、それぞれの周波数帯域上でフレームのスペクトル包絡線の様々な記述を計算するように構成されうる。時間情報記述計算器１５０は、さらに、直列に、および／または並列に、また場合によっては異なる符号化モードおよび／またはレートに従って、様々な周波数帯域上でフレームの時間情報の記述を計算するように構成することもできる。

図２３Ａは、分割帯域符号化方式により広帯域音声信号を符号化するように構成されている装置１００の一実装１０２のブロック図を示している。装置１０２は、音声信号をフィルタ処理して、第１の周波数帯域上の音声信号の成分を含むサブバンド信号（例えば、狭帯域信号）および第２の周波数帯域上の音声信号の成分を含むサブバンド信号（例えば、高帯域信号）を生成するように構成されているフィルタバンクＡ５０を備える。このようなフィルタバンクの特定の実施例は、例えば、２００７年４月１９日に公開された「ＳＹＳＴＥＭＳ，ＭＥＴＨＯＤＳ，ＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＳＰＥＥＣＨＳＩＧＮＡＬＦＩＬＴＥＲＩＮＧ」という表題の米国特許出願公開第２００７／０８８５５８号（Ｖｏｓら）で説明されている。例えば、フィルタバンクＡ５０は、音声信号をフィルタ処理して狭帯域信号を生成するように構成されたローパスフィルタおよび音声信号をフィルタ処理して高帯域信号を生成するように構成されたハイパスフィルタを備えることができる。フィルタバンクＡ５０は、さらに、例えば、米国特許出願公開第２００７／０８８５５８号（Ｖｏｓら）で説明されているように、所望のそれぞれのデシメーション係数に従って、狭帯域信号および／または高帯域信号のサンプリングレートを下げるように構成されたダウンサンプラも備えることができる。装置１０２は、さらに、例えば、２００７年４月１９日に公開された「ＳＹＳＴＥＭＳ，ＭＥＴＨＯＤＳ，ＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＨＩＧＨＢＡＮＤＢＵＲＳＴＳＵＰＰＲＥＳＳＩＯＮ」という表題の米国特許出願公開第２００７／０８８５４１号（Ｖｏｓら）で説明されているような高帯域バースト抑制演算などの、雑音抑制演算を少なくとも高帯域信号に対し実行するように構成することもできる。

装置１０２は、さらに、符号化方式選択器１２０により選択された符号化方式により別のサブバンド信号を符号化するように構成されている音声符号器１３０の一実装１３６も備える。図２３Ｂは、音声符号器１３６の一実装１３８のブロック図を示している。符号器１３８は、フィルタバンドＡ５０により生成された狭帯域信号に基づき、また選択された符号化方式により、それぞれ、スペクトル包絡線および時間情報の記述を計算するように構成されている、スペクトル包絡線計算器１４０ａ（例えば、計算器１４２のインスタンス）および時間情報計算器１５０ａ（例えば、計算器１５２または１５４のインスタンス）を備える。符号器１３８は、フィルタバンドＡ５０により生成された高帯域信号に基づき、また選択された符号化方式により、それぞれ、スペクトル包絡線および時間情報の計算された記述を生成するように構成されている、スペクトル包絡線計算器１４０ｂ（例えば、計算器１４２のインスタンス）および時間情報計算器１５０ｂ（例えば、計算器１５２または１５４のインスタンス）も備える。符号器１３８は、さらに、スペクトル包絡線および時間情報の計算された記述を含む符号化フレームを生成するように構成されているフォーマッタ１６０の一実装１６２も備える。

上述のように、広帯域音声信号の高帯域部分に対する時間情報の記述は、信号の狭帯域部分に対する時間情報の記述に基づくことができる。図２４Ａは、広帯域音声符号器１３６の対応する一実装１３９のブロック図を示している。上述の音声符号器１３８のように、符号器１３９は、スペクトル包絡線のそれぞれの記述を計算するように配列されているスペクトル包絡線記述計算器１４０ａおよび１４０ｂを備える。音声符号器１３９は、さらに、狭帯域信号に対するスペクトル包絡線の計算された記述に基づき時間情報の記述を計算するように配列されている時間情報記述計算器１５２（例えば、計算器１５４）のインスタンス１５２ａも備える。音声符号器１３９は、さらに、時間情報記述計算器１５０の一実装１５６も備える。計算器１５６は、狭帯域信号に対する時間情報の記述に基づく高帯域信号に対する時間情報の記述を計算するように構成される。

図２４Ｂは、時間記述計算器１５６の一実装１５８のブロック図を示している。計算器１５８は、計算器１５２ａにより生成されるような狭帯域励振信号に基づき高帯域励振信号を発生するように構成された高帯域励振信号発生器Ａ６０を備える。例えば、発生器Ａ６０は、スペクトル拡張、調和拡張、非線形拡張、スペクトル畳み込み、および／またはスペクトル平行移動などの演算を狭帯域励振信号（またはその１つまたは複数の成分）に対し実行して高帯域励振信号を発生させるように構成されうる。それに加えて、またはそれとは別に、発生器Ａ６０は、不規則雑音（例えば、擬似ランダムガウス雑音信号）のスペクトルおよび／または振幅整形を実行して、高帯域励振信号を発生させるように構成できる。発生器Ａ６０が擬似ランダム雑音信号を使用する場合、符号器および復号器によるこの信号の発生を同期させることが望ましい場合がある。高帯域励振信号を発生するそのような方法および装置は、例えば２００７年４月１９日に公開された「ＳＹＳＴＥＭＳ，ＭＥＴＨＯＤＳ，ＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＷＩＤＥＢＡＮＤＳＰＥＥＣＨＣＯＤＩＮＧ」という表題の米国特許出願公開第２００７／００８８５４２号（Ｖｏｓら）でさらに詳しく説明されている。図２４Ｂの実施例では、発生器Ａ６０は、量子化された狭帯域励振信号を受信するように配列される。他の実施例では、発生器Ａ６０は、他の形式で（例えば、事前量子化または逆量子化形式で）狭帯域励振信号を受信するように配列される。

計算器１５８は、さらに、（計算器１４０ｂにより生成されるような）高帯域励振信号および高帯域信号のスペクトル包絡線の記述に基づく合成された高帯域信号を発生するように構成された合成フィルタＡ７０も備える。フィルタＡ７０は、典型的には、高帯域信号のスペクトル包絡線の記述内にある値の集合（例えば、１つまたは複数のＬＳＰまたはＬＰＣ係数ベクトル）に従って、高帯域励振信号に応じて合成された高帯域信号を生成するように構成される。図２４Ｂの実施例では、合成フィルタＡ７０は、高帯域信号のスペクトル包絡線の量子化された記述を受け取るように配列され、またそれに応じて、逆量子化器および場合によっては逆変換ブロックを備えるように構成されうる。他の実施例では、フィルタＡ７０は、他の形式で（例えば、事前量子化または逆量子化形式で）高帯域信号のスペクトル包絡線の記述を受け取るように配列される。

計算器１５８は、さらに、合成された高帯域信号の時間包絡線に基づき高帯域信号の時間包絡線の記述を計算するように構成された高帯域利得係数計算器Ａ８０も備える。計算器Ａ８０は、この記述を計算することで高帯域信号の時間包絡線と合成された高帯域信号の時間包絡線との間の１つまたは複数の距離を含めるように構成することができる。例えば、計算器Ａ８０は、そのような距離を利得フレーム値として（例えば、２つの信号の対応するフレームのエネルギーの大きさの比として、またはそのような比の平方根として）計算するように構成されうる。それに加えて、またはそれとは別に、計算器Ａ８０は、多数のそのような距離を利得形状値として（例えば、２つの信号の対応するサブフレームのエネルギーの大きさの比として、またはそのような比の平方根として）計算するように構成されうる。図２４Ｂの実施例では、計算器１５８は、さらに、時間包絡線の計算された記述を（例えば、１つまたは複数の符号帳インデックスとして）量子化するように構成された量子化器Ａ９０も備える。計算器１５８の要素の様々な特徴および実装は、例えば、上で引用されているような米国特許出願公開第２００７／００８８５４２号（Ｖｏｓら）において説明されている。

装置１００の一実装の様々な要素は、対象のアプリケーションに適しているとみなされるハードウェア、ソフトウェア、および／またはファームウェアの任意の組合せで具現化されうる。例えば、そのような要素は、例えば、同じチップ上、またはチップセット内の２つまたはそれ以上のチップ間に置かれる電子および／または光デバイスとして製造できる。このようなデバイスの一実施例は、トランジスタまたはロジックゲートなどの固定された、またはプログラム可能なロジック素子のアレイであり、これらの要素はどれも、１つまたは複数のそのようなアレイとして実装されうる。これらの要素の２つまたはそれ以上、さらにはすべてが、同じ１つまたは複数のアレイ内に実装することができる。このような１つまたは複数のアレイは、１つまたは複数のチップ内に（例えば、２つまたはそれ以上のチップを含むチップセット内に）実装されうる。

本明細書で説明されているような装置１００の様々は実装の１つまたは複数の要素は、マイクロプロセッサ、組み込み型プロセッサ、ＩＰコア、デジタルシグナルプロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）などのロジック素子の１つまたは複数の固定もしくはプログラム可能なアレイ上で実行するように配置された１つまたは複数の命令セットとして全体または一部実装されうる。装置１００の一実装の様々な要素はどれも、さらに、１つまたは複数のコンピュータ（例えば、「プロセッサ」とも呼ばれる、１つまたは複数の命令セットまたは命令シーケンスを実行するようにプログラムされている１つまたは複数のアレイを備える機械）として具現化することができ、これらの要素のどれか２つまたはそれ以上、さらにはすべてが、同じそのような１つまたは複数のコンピュータ内に実装できる。

装置１００の一実装の様々な要素は、携帯電話などの無線通信を行うためのデバイスまたはそのような通信機能を有する他のデバイス内に収めることができる。このようなデバイスは、回線交換方式および／またはパケット交換方式のネットワークと（例えば、ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）通信するように構成されうる。そのようなデバイスは、インタリービング、パンクチャリング、畳み込み符号化、誤り訂正符号化、ネットワークプロトコル（例えば、Ｅｔｈｅｒｎｅｔ(登録商標）、ＴＣＰ／ＩＰ、ｃｄｍａ２０００）の１つまたは複数の層の符号化、無線周波（ＲＦ）変調、および／またはＲＦ伝送などの演算を符号化フレームを伝送する信号に実行するように構成されうる。

装置１００の一実装の１つまたは複数の要素を、装置が組み込まれるデバイスまたはシステムの他の動作に関係するタスクなど、装置の動作に直接的には関係しないタスクを実行するか、または他の命令セットを実行するために使用することが可能である。また、装置１００の一実装の１つまたは複数の要素は、構造を共通して持つことが可能である（例えば、異なる時刻に異なる要素に対応するコードの部分を実行するために使用されるプロセッサ、異なる時刻に異なる要素に対応するタスクを実行するために実行される命令セット、または異なる時刻に異なる要素に対する演算を実行する電子および／または光デバイスの配列）。このような一実施例では、音声活動検出器１１０、符号化方式選択器１２０、および音声符号器１３０は、同じプロセッサ上で実行するように配列された命令セットとして実装される。他のこのような実施例では、スペクトル包絡線記述計算器１４０ａおよび１４０ｂは、異なる時刻に実行する同じ命令セットとして実装される。

図２５Ａは、一般的構成により符号化音声信号を処理する方法Ｍ２００の流れ図である。方法Ｍ２００は、２つの符号化フレームから得られる情報を受け取り、音声信号の２つの対応するフレームのスペクトル包絡線の記述を生成するように構成される。タスクＴ２１０は、第１の符号化フレーム（「基準」符号化フレームとも呼ばれる）から得られる情報に基づき、第１および第２の周波数帯域上の音声信号の第１のフレームのスペクトル包絡線の記述を取得する。タスクＴ２２０は、第２の符号化フレームから得られる情報に基づき、第１の周波数帯域上の音声信号の第２のフレーム（「ターゲット」フレームとも呼ばれる）のスペクトル包絡線の記述を取得する。タスクＴ２３０は、基準符号化フレームから得られる情報に基づき、第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得する。

図２６は、２つの符号化フレームから得られる情報を受け取り、音声信号の２つの対応する非アクティブフレームのスペクトル包絡線の記述を生成する方法Ｍ２００の適用を示している。タスクＴ２１０は、基準符号化フレームから得られる情報に基づき、第１および第２の周波数帯域上の第１の非アクティブフレームのスペクトル包絡線の記述を取得する。この記述は、両方の周波数帯域に及ぶ単一の記述であるか、またはそれらの周波数帯域のうちのそれぞれの１つにそれぞれ及ぶ別々の記述を含むことができる。タスクＴ２２０は、第２の符号化フレームから得られる情報に基づき、第１の周波数帯域上の（例えば、狭帯域範囲上の）ターゲットの非アクティブフレームのスペクトル包絡線の記述を取得する。タスクＴ２３０は、基準符号化フレームから得られる情報に基づき、第２の周波数帯域上の（例えば、高帯域範囲上の）ターゲットの非アクティブフレームのスペクトル包絡線の記述を取得する。

図２６は、スペクトル包絡線の記述がＬＰＣ次数を有し、また第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のＬＰＣ次数が第１の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のＬＰＣ次数よりも小さい一実施例を示している。他の実施例は第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のＬＰＣ次数が第１の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のＬＰＣ次数の少なくとも５０パーセントの、少なくとも６０パーセントの、７５パーセント以下の、８０パーセント以下の、等しい、およびそれよりも大きい次数である場合を含む。特定の一実施例では、第１および第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のＬＰＣ次数は、それぞれ、１０および６である。図２６は、さらに、第１および第２の周波数帯域上の第１の非アクティブフレームのスペクトル包絡線の記述のＬＰＣ次数が、第１および第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のＬＰＣ次数の総和に等しい一実施例を示している。他の実施例では、第１および第２の周波数帯域上の第１の非アクティブフレームのスペクトル包絡線の記述のＬＰＣ次数は、第１および第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述のＬＰＣ次数の総和よりも大きいか、または小さくてもよい。

タスクＴ２１０およびＴ２２０はそれぞれ、符号化フレームを解析してスペクトル包絡線の量子化された記述を抽出する演算、およびスペクトル包絡線の量子化された記述を逆量子化してそのフレームに対する符号化モデルのパラメータの集合を取得する演算の一方または両方を含むように構成されうる。タスクＴ２１０およびＴ２２０の典型的な実装は、これらの演算の両方を含み、それぞれのタスクは、それぞれの符号化フレームを処理してスペクトル包絡線の記述をモデルパラメータ集合の形式で生成する（例えば、１つまたは複数のＬＳＦ、ＬＳＰ、ＩＳＦ、ＩＳＰ、および／またはＬＰＣ係数ベクトル）。特定の一実施例では、基準符号化フレームは、８０ビットの長さを有し、第２の符号化フレームは、１６ビットの長さを有する。他の実施例では、第２の符号化フレームの長さは、基準符号化フレームの長さの２０、２５、３０、４０、５０、または６０パーセント以下である。

基準符号化フレームは、第１および第２の周波数帯域上のスペクトル包絡線の量子化された記述を含むことができ、第２の符号化フレームは、第１の周波数帯域上のスペクトル包絡線の量子化された記述を含むことができる。特定の一実施例では、基準符号化フレーム内に含まれている第１および第２の周波数帯域上のスペクトル包絡線の量子化された記述は、４０ビットの長さを有し、第２の符号化フレーム内に含まれる第１の周波数帯域上のスペクトル包絡線の量子化された記述は、１０ビットの長さを有する。他の実施例では、第２の符号化フレーム内に含まれている第１の周波数帯域上のスペクトル包絡線の量子化された記述の長さは、基準符号化フレーム内に含まれる第１および第２の周波数帯域上のスペクトル包絡線の量子化された記述の長さの２５、３０、４０、５０、または６０パーセント以下である。

タスクＴ２１０およびＴ２２０は、さらに、それぞれの符号化フレームから得られた情報に基づき時間情報の記述を生成するように実装することも可能である。例えば、これらのタスクの一方または両方は、それぞれの符号化フレームから得られる情報に基づき、時間包絡線の記述、励振信号の記述、および／またはピッチ情報の記述を取得するように構成されうる。スペクトル包絡線の記述を取得する場合と同様に、そのようなタスクは、符号化フレームから得られる時間情報の量子化された記述を解析すること、および／または時間情報の量子化された記述を逆量子化することを含むことができる。方法Ｍ２００の実装は、さらに、タスクＴ２１０および／またはタスクＴ２２０が、１つまたは複数の前の符号化フレームから得られる情報などの、１つまたは複数の他の符号化フレームから得られる情報にも基づきスペクトル包絡線の記述および／または時間情報の記述を取得するように構成されうる。例えば、フレームの励振信号および／またはピッチ情報の記述は、典型的には、前のフレームから得られる情報に基づく。

基準符号化フレームは、第１および第２の周波数帯域に対する時間情報の量子化された記述を含むことができ、第２の符号化フレームは、第１の周波数帯域に対する時間情報の量子化された記述を含むことができる。特定の一実施例では、基準符号化フレーム内に含まれている第１および第２の周波数帯域に対する時間情報の量子化された記述は、３４ビットの長さを有し、第２の符号化フレーム内に含まれる第１の周波数帯域に対する時間情報の量子化された記述は、５ビットの長さを有する。他の実施例では、第２の符号化フレーム内に含まれている第１の周波数帯域に対する時間情報の量子化された記述の長さは、基準符号化フレーム内に含まれる第１および第２の周波数帯域に対する時間情報の量子化された記述の長さの１５、２０、２５、３０、４０、５０、または６０パーセント以下である。

方法Ｍ２００は、典型的には、音声復号化のより大きな方法の一部として実行され、音声復号器および方法Ｍ２００を実行するように構成されている音声復号化の方法は、明示的に考えられ、ここで開示される。音声コーダは、符号器のところで方法Ｍ１００の一実装を実行し、復号器のところで方法Ｍ２００の一実装を実行するように構成されうる。このような場合、タスクＴ１２０により符号化されるような「第２のフレーム」は、タスクＴ２１０およびＴ２３０により処理された情報を供給する基準符号化フレームに対応し、タスクＴ１３０により符号化されるような「第３のフレーム」は、タスクＴ２２０により処理された情報を供給する符号化フレームに対応する。図２７Ａは、方法Ｍ１００を使用して符号化され、方法Ｍ２００を使用して復号化される連続するフレームの系列の実施例を使用することで方法Ｍ１００と方法Ｍ２００との間のこのような関係を示す。それとは別に、音声コーダは、符号器のところで方法Ｍ３００の一実装を実行し、復号器のところで方法Ｍ２００の一実装を実行するように構成されうる。図２７Ｂは、方法Ｍ３００を使用して符号化され、方法Ｍ２００を使用して復号化される連続するフレームの対の実施例を使用することで方法Ｍ３００と方法Ｍ２００との間のこのような関係を示す。

しかし、方法Ｍ２００は、さらに、連続していない符号化フレームから得られる情報を処理するためにも適用できることに留意されたい。例えば、方法Ｍ２００は、タスクＴ２２０およびＴ２３０が連続していないそれぞれの符号化フレームから得られる情報を処理するように適用されうる。方法Ｍ２００は、典型的には、タスクＴ２３０が基準符号化フレームに関して繰り返し、またタスクＴ２２０が基準符号フレームの後に続く連続する符号化された非アクティブフレームの系列で繰り返し、連続するターゲットフレームの対応する系列を生成するように実装される。このような繰り返しは、例えば、新しい基準符号化フレームが受信されるまで、符号化されたアクティブフレームが受信されるまで、および／または最大数のターゲットフレームが生成されるまで、続きうる。

タスクＴ２２０は、第２の符号化フレームから得られる情報に少なくとも主に基づき、第１の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得するように構成される。例えば、タスクＴ２２０は、第２の符号化フレームから得られる情報に完全に基づき、第１の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得するように構成されうる。それとは別に、タスクＴ２２０は、１つまたは複数の前の符号化フレームから得られる情報などの、他の情報にも基づき、第１の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得するように構成されうる。このような場合、タスクＴ２２０は、第２の符号化フレームから得られる情報に対し、他の情報に比べて大きな重みを付けるように構成される。例えば、タスクＴ２２０のそのような実装は、第１の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を第２の符号化フレームから得られる情報と前の符号化フレームから得られる情報の平均として計算するように構成することができ、第２の符号化フレームから得られる情報は、前の符号化フレームから得られる情報に比べて大きな重みを付けられる。同様に、タスクＴ２２０は、第２の符号化フレームから得られる情報に少なくとも主に基づき、第１の周波数帯域に対するターゲットフレームの時間情報の記述を取得するように構成されうる。

タスクＴ２３０は、基準符号化フレームから得られる情報（本明細書では「基準スペクトル情報」とも称される）に基づき、第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得する。図２５Ｂは、タスクＴ２３０の一実装Ｔ２３２を含む方法Ｍ２００の一実装Ｍ２１０の流れ図を示している。タスクＴ２３０の一実装として、タスクＴ２３２は、基準スペクトル情報に基づき、第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得する。この場合、基準スペクトル情報は、音声信号の第１のフレームのスペクトル包絡線の記述内に含まれる。図２８は、２つの符号化フレームから得られる情報を受け取り、音声信号の２つの対応する非アクティブフレームのスペクトル包絡線の記述を生成する方法Ｍ２１０の適用を示している。

タスクＴ２３０は、基準スペクトル情報に少なくとも主に基づき、第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得するように構成される。例えば、タスクＴ２３０は、基準スペクトル情報に完全に基づき、第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得するように構成されうる。それとは別に、タスクＴ２３０は、（Ａ）基準スペクトル情報に基づく第２の周波数帯域上のスペクトル包絡線の記述、および（Ｂ）第２の符号化フレームから得られる情報に基づく第２の周波数帯域上のスペクトル包絡線の記述に基づく第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得するように構成されうる。

このような場合、タスクＴ２３０は、基準スペクトル情報に基づく記述に、第２の符号化フレームから得られる情報に基づく記述に比べて大きな重みを付けるように構成されうる。例えば、タスクＴ２３０のそのような実装は、第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を、基準スペクトル情報および第２の符号化フレームから得られる情報に基づく記述の平均として計算するように構成することができ、その際に、基準スペクトル情報に基づく記述は、第２の符号化フレームから得られる情報に基づく記述に比べて大きな重みを付けられる。他の場合には、基準スペクトル情報に基づく記述のＬＰＣ次数は、第２の符号化フレームから得られる情報に基づく記述のＬＰＣ次数よりも大きくてもよい。例えば、第２の符号化フレームから得られる情報に基づく記述のＬＰＣ次数は１としてよい（例えば、スペクトル傾斜値）。同様に、タスクＴ２３０は、基準時間情報に少なくとも主に基づき（例えば、基準時間情報に完全に基づくか、または第２の符号化フレームから得られる情報にも、また部分的に基づく）、第２の周波数帯域に対するターゲットフレームの時間情報の記述を取得するように構成されうる。

タスクＴ２１０は、基準符号化フレームから、第１および第２の周波数帯域の両方における単一の全帯域表現であるスペクトル包絡線の記述を取得するように実装されうる。しかし、第１の周波数帯域上、また第２の周波数帯域上のスペクトル包絡線の別の記述としてこの記述を取得するようにタスクＴ２１０を実装するのがより典型的である。例えば、タスクＴ２１０は、本明細書で説明されているように分割帯域符号化方式（例えば、符号化方式２）を使用して符号化されている基準符号化フレームから別の記述を取得するように構成されうる。

図２５Ｃは、タスクＴ２１０が２つのタスクＴ２１２ａおよびＴ２１２ｂとして実装される方法Ｍ２１０の一実装Ｍ２２０の流れ図を示している。タスクＴ２１２ａは、基準符号化フレームから得られる情報に基づき、第１の周波数帯域上の第１のフレームのスペクトル包絡線の記述を取得する。タスクＴ２１２ｂは、基準符号化フレームから得られる情報に基づき、第２の周波数帯域上の第１のフレームのスペクトル包絡線の記述を取得する。タスクＴ２１２ａおよびＴ２１２ｂはそれぞれ、それぞれの符号化フレームから得られるスペクトル包絡線の量子化された記述を解析すること、および／またはスペクトル包絡線の量子化された記述を逆量子化することを含むことができる。図２９は、２つの符号化フレームから得られる情報を受け取り、音声信号の２つの対応する非アクティブフレームのスペクトル包絡線の記述を生成する方法Ｍ２２０の適用を示している。

方法Ｍ２２０は、さらに、タスクＴ２３２の一実装Ｔ２３４も含む。タスクＴ２３０の一実装として、タスクＴ２３４は、基準スペクトル情報に基づく第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述を取得する。タスクＴ２３２の場合のように、基準スペクトル情報は、音声信号の第１のフレームのスペクトル包絡線の記述内に含まれる。タスクＴ２３４の特定の場合に、基準スペクトル情報は、第２の周波数帯域上の第１のフレームのスペクトル包絡線の記述内に含まれる（また場合によっては同じである）。

図２９は、スペクトル包絡線の記述がＬＰＣ次数を有し、また第１および第２の周波数帯域上の第１の非アクティブフレームのスペクトル包絡線の記述のＬＰＣ次数がそれぞれの周波数帯域上のターゲットの非アクティブフレームのスペクトル包絡線の記述のＬＰＣ次数に等しい一実施例を示している。他の実施例は、第１および第２の周波数帯域上の第１の非アクティブフレームのスペクトル包絡線の記述の一方または両方がそれぞれの周波数帯域上のターゲットの非アクティブフレームのスペクトル包絡線の対応する記述に比べて大きい場合を含む。

基準符号化フレームは、第１の周波数帯域上のスペクトル包絡線の記述の量子化された記述および第２の周波数帯域上のスペクトル包絡線の記述の量子化された記述を含むことができる。特定の一実施例では、基準符号化フレーム内に含まれている第１の周波数帯域上のスペクトル包絡線の記述の量子化された記述は、２８ビットの長さを有し、基準符号化フレーム内に含まれる第２の周波数帯域上のスペクトル包絡線の記述の量子化された記述は、１２ビットの長さを有する。他の実施例では、基準符号化フレーム内に含まれている第２の周波数帯域上のスペクトル包絡線の記述の量子化された記述の長さは、基準符号化フレーム内に含まれる第１の周波数帯域上のスペクトル包絡線の記述の量子化された記述の長さの４５、５０、６０、または７０パーセント以下である。

基準符号化フレームは、第１の周波数帯域に対する時間情報の記述の量子化された記述および第２の周波数帯域に対する時間情報の記述の量子化された記述を含むことができる。特定の一実施例では、基準符号化フレーム内に含まれている第２の周波数帯域に対する時間情報の記述の量子化された記述は、１５ビットの長さを有し、基準符号化フレーム内に含まれる第１の周波数帯域に対する時間情報の記述の量子化された記述は、１９ビットの長さを有する。他の実施例では、基準符号化フレーム内に含まれている第２の周波数帯域に対する時間情報の量子化された記述の長さは、基準符号化フレーム内に含まれる第１の周波数帯域に対する時間情報の記述の量子化された記述の長さの８０または９０パーセント以下である。

第２の符号化フレームは、第１の周波数帯域上のスペクトル包絡線の量子化された記述および／または第１の周波数帯域に対する時間情報の量子化された記述を含むことができる。特定の一実施例では、第２の符号化フレーム内に含まれる第１の周波数帯域上のスペクトル包絡線の記述の量子化された記述は、１０ビットの長さを有する。他の実施例では、第２の符号化フレーム内に含まれている第１の周波数帯域上のスペクトル包絡線の記述の量子化された記述の長さは、基準符号化フレーム内に含まれる第１の周波数帯域上のスペクトル包絡線の記述の量子化された記述の長さの４０、５０、６０、７０、または７５パーセント以下である。特定の一実施例では、第２の符号化フレーム内に含まれる第１の周波数帯域に対する時間情報の記述の量子化された記述は、５ビットの長さを有する。他の実施例では、第２の符号化フレーム内に含まれている第１の周波数帯域に対する時間情報の記述の量子化された記述の長さは、基準符号化フレーム内に含まれる第１の周波数帯域に対する時間情報の記述の量子化された記述の長さの３０、４０、５０、６０、または７０パーセント以下である。

方法Ｍ２００の典型的に一実装では、基準スペクトル情報は、第２の周波数帯域上のスペクトル包絡線の記述である。この記述は、１つまたは複数のＬＳＰ、ＬＳＦ、ＩＳＰ、ＩＳＦ、またはＬＰＣ係数ベクトルなどのモデルパラメータの集合を含むことができる。一般に、この記述は、タスクＴ２１０により基準符号化フレームから得られるような第２の周波数帯域上の第１の非アクティブフレームのスペクトル包絡線の記述である。また、基準スペクトル情報は、第１の周波数帯域上の、および／または他の周波数帯域上のスペクトル包絡線（例えば、第１の非アクティブフレーム）の記述を含むことも可能である。

タスクＴ２３０は、典型的には、半導体メモリなどの記憶素子のアレイ（本明細書では「バッファ」とも呼ばれる）から基準スペクトル情報を取り出す演算を含む。基準スペクトル情報が第２の周波数帯域上のスペクトル包絡線の記述を含む場合については、基準スペクトル情報を取り出す動作は、タスクＴ２３０を完了させるのに十分なものと考えられる。しかし、そのような場合であっても、単にそれを取り出すのではなく、第２の周波数帯域上のターゲットフレームのスペクトル包絡線の記述（本明細書では「ターゲットスペクトル記述」ともいう）を計算するようにタスクＴ２３０を構成することが望ましい場合がある。例えば、タスクＴ２３０は、基準スペクトル情報に不規則雑音を加えることによりターゲットスペクトル記述を計算するように構成されうる。それとは別に、またはそれに加えて、タスクＴ２３０は、１つまたは複数の追加の符号化フレームから得られるスペクトル情報に基づいて（例えば、複数の基準符号化フレームから得られる情報に基づいて）記述を計算するように構成されうる。例えば、タスクＴ２３０は、２つまたはそれ以上の基準符号化フレームから第２の周波数帯域上のスペクトル包絡線の記述の平均としてターゲットスペクトル記述を計算するように構成することができ、そのような計算は、不規則雑音を計算された平均に加えることを含むことができる。

タスクＴ２３０は、基準スペクトル情報からの時間に関する外挿または２つまたはそれ以上の基準符号化フレームからの第２の周波数帯域上のスペクトル包絡線の記述間の時間に関する内挿によりターゲットスペクトル記述を計算するように構成されうる。それとは別に、またはそれに加えて、タスクＴ２３０は、他の周波数帯域上の（例えば、第１の周波数帯域上の）ターゲットフレームのスペクトル包絡線の記述からの周波数に関する外挿および／または他の周波数帯域上のスペクトル包絡線の記述間の周波数に関する内挿によりターゲットスペクトル記述を計算するように構成されうる。

典型的には、基準スペクトル情報をおよびターゲットスペクトル記述は、スペクトルパラメータ値のベクトルである（または「スペクトルベクトル」）。このような一実施例では、ターゲットおよび基準スペクトルベクトルは両方ともＬＳＰベクトルである。他の実施例では、ターゲットおよび基準スペクトルベクトルは両方ともＬＰＣ係数ベクトルである。さらなる他の実施例では、ターゲットおよび基準スペクトルベクトルは両方とも反射係数ベクトルである。タスクＴ２３０は、ｓ_ｔｉ＝ｓ_ｒｉ ∀ｉ∈｛１，２，．．．，ｎ｝などの式により基準スペクトル情報からのターゲットスペクトル記述をコピーするように構成されうるが、ただし、ｓ_ｔはターゲットスペクトルベクトルであり、ｓ_ｒは、基準スペクトルベクトル（その値は、典型的には−１から＋１までの範囲内）であり、ｉは、ベクトル要素のインデックスであり、ｎは、ベクトルｓ_ｔの長さである。この演算の一変更形態として、タスクＴ２３０は、重み係数（または重み係数のベクトル）を基準スペクトルベクトルに適用するように構成される。この演算の他の変更形態では、タスクＴ２３０は、ｚをランダム値のベクトルとするｓ_ｔｉ＝ｓ_ｒｉ＋ｚ_ｉ ∀ｉ∈｛１，２，．．．，ｎ｝などの式により不規則雑音を基準スペクトルベクトルに加えることによりターゲットスペクトルベクトルを計算するように構成される。このような場合、ｚのそれぞれの要素は、値が所望の範囲にわたって（例えば一様に）分布するランダム変数とすることができる。

ターゲットスペクトル記述の値は有界である（例えば、−１から＋１の範囲内である）ことを保証するのが望ましい場合がある。このような場合、タスクＴ２３０は、ｓ_ｔｉ＝ｗｓ_ｒｉ＋ｚ_ｉ ∀ｉ∈｛１，２，．．．，ｎ｝などの式によりターゲットスペクトル記述を計算するように構成することができるが、ただし、ｗは、０と１との間（例えば、０．３から０．９までの間）の値を有し、ｚのそれぞれの要素の値は（例えば一様に）−（１−ｗ）から＋（１−ｗ）までの範囲上に分布する。

他の実施例では、タスクＴ２３０は、複数の基準符号化フレームのそれぞれから（例えば、２つの一番最近の基準符号化フレームのそれぞれから）の第２の周波数帯域上のスペクトル包絡線の記述に基づいてターゲットスペクトル記述を計算するように構成されている。このような一実施例では、タスクＴ２３０は、

などの式により基準符号化フレームから得られる情報の平均としてターゲットスペクトル記述を計算するように構成されるが、ただし、ｓ_ｒ１は、一番最近の基準符号化フレームから得られるスペクトルベクトルを表し、ｓ_ｒ２は、二番目に最近の基準符号化フレームから得られるスペクトルベクトルを表す。関連する一実施例では、基準ベクトルは、互いに異なる重みを付けられる（例えば、より最近の基準符号化フレームからのベクトルは、より大きな重みを付けられる）。

さらに他の一実施例では、タスクＴ２３０は、２つまたはそれ以上の基準符号化フレームから得られる情報に基づく範囲上のランダム値の集合としてターゲットスペクトル記述を生成するように構成される。例えば、タスクＴ２３０は、

などの式により２つの一番最近の基準符号化フレームのそれぞれからのスペクトルベクトルのランダム化された平均としてターゲットスペクトルベクトルｓ_ｔを計算するように構成することができるが、ただし、ｚのそれぞれの要素の値は、−１から＋１までの範囲上に（例えば、一様に）分布する。図３０Ａは、ランダムベクトルｚが繰り返し毎に再評価され、開円が値ｓ_ｔｉを示している、連続するターゲットフレームの系列のそれぞれに対するタスクＴ２３０のそのような一実装を繰り返した結果（ｉのｎ個の値のうちの１つについて）を例示している。

タスクＴ２３０は、２つの一番最近の基準フレームから得られた第２の周波数帯域上のスペクトル包絡線の記述間の内挿によりターゲットスペクトル記述を計算するように構成されうる。例えば、タスクＴ２３０は、ｐを調節可能なパラメータとしてｐ個のターゲットフレームの系列上で線形内挿を実行するように構成されうる。このような場合、タスクＴ２３０は、

などの式によりこの系列内のｊ番目のターゲットフレームに対するターゲットスペクトルベクトルを計算するように構成されうる。図３０Ｂは、（ｉのｎ個の値のうちの１つについて）連続するターゲットフレームの系列上でタスクＴ２３０のそのような一実装を繰り返した結果を例示しているが、ただし、ｐは、８に等しく、それぞれの開円は、対応するターゲットフレームに対する値ｓ_ｔｉを示す。ｐの値の他の実施例は、４、１６、および３２を含む。不規則雑音を内挿された記述に加えるようにタスクＴ２３０のそのような一実装を構成することが望ましいと思われる。

図３０Ｂは、さらに、タスクＴ２３０がｐよりも長い系列のそれぞれの後続のターゲットフレームについて（例えば、新しい基準符号化フレームまたは次のアクティブフレームが届くまで）基準ベクトルｓ_ｒ１をターゲットベクトルｓ_ｔにコピーするように構成されている一実施例を示している。関連する一実施例では、ターゲットフレームのこの系列は、長さｍｐを有し、ｍは１よりも大きい整数（例えば、２もしくは３）であり、ｐ個の計算されたベクトルのそれぞれは、系列内のｍ個の対応する連続するターゲットフレームのそれぞれに対するターゲットスペクトル記述として使用される。

タスクＴ２３０は、２つの一番最近の基準フレームから得られた第２の周波数帯域上のスペクトル包絡線の記述間の内挿を実行するように多くの異なる方法で実装されうる。他の実施例では、タスクＴ２３０は、０＜ｊ≦ｑとなるすべての整数ｊについて

、ｑ＜ｊ≦ｐとなるすべての整数ｊについて

などの式のペアに従って系列内のｊ番目のターゲットフレームに対するターゲットベクトルを計算することによりｐ個のターゲットフレームの系列上で線形内挿を実行するように構成されている。図３０Ｃは、ｑが値４を有し、ｐが値８を有する、連続するターゲットフレームの系列のそれぞれに対するタスクＴ２３０のそのような一実装を繰り返した結果（ｉのｎ個の値のうちの１つについて）を例示している。このような構成をとることで、第１のターゲットフレームへの遷移は図３０Ｂに示されている結果よりも滑らかになりうる。

タスクＴ２３０は、ｑおよびｐの正の整数値について類似の方法で実装することで、使用されうる（ｑ，ｐ）の値の特定の例として、（４，８）、（４，１２）、（４，１６）、（８，１６）、（８，２４）、（８，３２）、および（１６，３２）がある。上述のように関連する実施例では、ｐ個の計算されたベクトルのそれぞれが、ｍｐ個のターゲットフレームの系列内のｍ個の対応する連続するターゲットフレームのそれぞれに対するターゲットスペクトル記述として使用される。不規則雑音を内挿された記述に加えるようにタスクＴ２３０のそのような一実装を構成することが望ましいと思われる。図３０Ｃは、さらに、タスクＴ２３０がｐよりも長い系列のそれぞれの後続のターゲットフレームについて（例えば、新しい基準符号化フレームまたは次のアクティブフレームが届くまで）基準ベクトルｓ_ｒ１をターゲットベクトルｓ_ｔにコピーするように構成されている一実施例を示している。

タスクＴ２３０は、基準スペクトル情報に加えて、他の周波数帯域上の１つまたは複数のフレームのスペクトル包絡線に基づきターゲットスペクトル記述を計算するように実装することもできる。例えば、タスクＴ２３０のそのような一実装は、他の周波数帯域上の（例えば、第１の周波数帯域上の）現在のフレームおよび／または１つまたは複数の前のフレームのスペクトル包絡線からの周波数に関する外挿によりターゲットスペクトル記述を計算するように構成されうる。

タスクＴ２３０は、さらに、基準符号化フレームから得られる情報（本明細書では「基準時間情報」とも呼ばれる）に基づき、第２の周波数帯域上のターゲットの非アクティブフレームの時間情報の記述を取得するように構成されうる。基準時間情報は、典型的には、第２の周波数帯域上の時間情報の記述である。この記述は、１つまたは複数の利得フレーム値、利得プロファイル値、ピッチパラメータ値、および／または符号帳インデックスを含むことができる。一般に、この記述は、タスクＴ２１０により基準符号化フレームから得られるような第２の周波数帯域上の第１の非アクティブフレームの時間情報の記述である。また、基準時間情報は、第１の周波数帯域上の、および／または他の周波数帯域上の時間情報（例えば、第１の非アクティブフレーム）の記述を含むことも可能である。

タスクＴ２３０は、基準時間情報をコピーすることにより、第２の周波数帯域上のターゲットのフレームの時間情報の記述（本明細書では「ターゲット時間記述」とも呼ばれる）を取得するように構成されうる。それとは別に、基準時間情報に基づいて計算することによりターゲット時間記述を取得するようにタスクＴ２３０を構成することが望ましい場合がある。例えば、タスクＴ２３０は、基準時間情報に不規則雑音を加えることによりターゲット時間記述を計算するように構成されうる。タスクＴ２３０は、複数の基準符号化フレームから得られる情報に基づきターゲット時間記述を計算するように構成することもできる。例えば、タスクＴ２３０は、２つまたはそれ以上の基準符号化フレームから第２の周波数帯域上の時間情報の記述の平均としてターゲット時間記述を計算するように構成することができ、そのような計算は、不規則雑音を計算された平均に加えることを含むことができる。

ターゲット時間記述および基準時間情報はそれぞれ、時間包絡線の記述を含んでもよい。上記のように、時間包絡線の記述は、１つの利得フレーム値および／または利得形状値の集合を含むことができる。それとは別に、またはそれに加えて、ターゲット時間記述および基準時間情報は、励振信号の記述をそれぞれ含んでいてもよい。励振信号の記述は、ピッチ成分の記述（例えば、ピッチ遅れ、ピッチ利得、および／またはプロトタイプの記述）を含むことができる。

タスクＴ２３０は、典型的には、ターゲット時間記述の利得形状を平坦な形状に設定するように構成されている。例えば、タスクＴ２３０は、ターゲット時間記述の利得形状値を互いに等しい値に設定するように構成されうる。タスクＴ２３０のそのような一実装は、すべての利得形状値を係数１（例えば、０ｄＢ）に設定するように構成される。タスクＴ２３０の他のそのような実装は、ｎをターゲット時間記述内の利得形状値の個数として、すべての利得形状値を係数１／ｎに設定するように構成される。

タスクＴ２３０は、ターゲットフレームの系列のそれぞれについてターゲット時間記述を計算するように繰り返すことができる。例えば、タスクＴ２３０は、一番最近の基準符号化フレームからの利得フレーム値に基づき連続するターゲットフレームの系列のそれぞれについて利得フレーム値を計算するように構成されうる。このような場合、時間包絡線の系列はそうしないと不自然に滑らかなものとして知覚されうるので、それぞれのターゲットフレームについて不規則雑音を利得フレーム値に加える（それとは別に、系列内の第１のフレームの後のそれぞれのターゲットフレームについて不規則雑音を利得フレーム値に加える）ようにタスクＴ２３０を構成することが望ましいと場合がある。タスクＴ２３０のそのような一実装は、ｇ_ｔ＝ｚｇ_ｒまたはｇ_ｔ＝ｗｇ_ｒ＋（１−ｗ）ｚなどの式により系列内のそれぞれのターゲットフレームについて利得フレーム値ｇ_ｔを計算するように構成することができるが、ただし、ｇ_ｒは、基準符号化フレームから得られる利得フレーム値であり、ｚは、ターゲットフレームの系列のそれぞれについて再評価されるランダム値であり、ｗは、重み係数である。ｚの値に対する典型的な範囲は、０から１まで、および−１から＋１までを含む。ｗの値の典型的な範囲は、０．５（または０．６）から０．９（または１．０）までを含む。

タスクＴ２３０は、２つまたは３つの一番最近の基準符号化フレームからの利得フレーム値に基づきターゲットフレームに対する利得フレーム値を計算するように構成されうる。このような一実施例では、タスクＴ２３０は、

などの式によりターゲットフレームに対する利得フレーム値を平均として計算するように構成されるが、ただし、ｇ_ｒ１は、一番最近の基準符号化フレームから得られる利得フレーム値であり、ｇ_ｒ２は、二番目に最近の基準符号化フレームから得られる利得フレーム値である。関連する一実施例では、基準利得フレーム値は、互いに異なる重みを付けられる（例えば、より最近の値は、より大きな重みを付けられる）。そのような平均に基づきターゲットフレームの系列内のそれぞれについて利得フレーム値を計算するようにタスクＴ２３０を実装することが望ましい場合がある。例えば、タスクＴ２３０のそのような一実装は、異なる不規則雑音値を計算された平均利得フレーム値に加えることにより系列内のそれぞれのターゲットフレームについて（それとは別に、系列内の第１のフレームの後のそれぞれのターゲットフレームについて）利得フレーム値を計算するように構成されうる。

他の実施例では、タスクＴ２３０は、ターゲットフレームに対する利得フレーム値を、連続する基準符号化フレームから得られる利得フレーム値の移動平均として計算するように構成される。タスクＴ２３０のこのような一実装は、ターゲットの利得フレーム値を、ｇ_ｃｕｒ＝αｇ_ｐｒｅｖ＋（１−α）ｇ_ｒなどの自己回帰（ＡＲ）式に従って移動平均利得フレーム値の現在値として計算するように構成することができ、ただし、ｇ_ｃｕｒおよびｇ_ｐｒｅｖは、それぞれ、移動平均の現在および前の値である。平滑化係数αについて、０．５または０．７５と１（０．８または０．９など）との間の値を使用することが望ましい場合がある。そのような移動平均に基づきターゲットフレームの系列内のそれぞれについて値ｇ_ｔを計算するようにタスクＴ２３０を実装することが望ましい場合がある。例えば、タスクＴ２３０のそのような一実装は、異なる不規則雑音値を移動平均利得フレーム値ｇ_ｃｕｒに加えることにより系列内のそれぞれのターゲットフレームについて（それとは別に、系列内の第１のフレームの後のそれぞれのターゲットフレームについて）値ｇ_ｔを計算するように構成されうる。

他の実施例では、タスク２３０は、減衰係数を基準時間情報からの寄与分に適用するように構成される。例えば、タスクＴ２３０は、ｇ_ｃｕｒ＝αｇ_ｐｒｅｖ＋（１−α）βｇ_ｒなどの式により移動平均利得値を計算するように構成することができるが、ただし、減衰係数βは、０．５から０．９までの範囲内の値（例えば、０．６）など、１よりも小さい値を有する調節可能なパラメータである。そのような移動平均に基づきターゲットフレームの系列内のそれぞれについて値ｇ_ｔを計算するようにタスクＴ２３０を実装することが望ましい場合がある。例えば、タスクＴ２３０のそのような一実装は、異なる不規則雑音値を移動平均利得フレーム値ｇ_ｃｕｒに加えることにより系列内のそれぞれのターゲットフレームについて（それとは別に、系列内の第１のフレームの後のそれぞれのターゲットフレームについて）値ｇ_ｔを計算するように構成されうる。

ターゲットフレームの系列のそれぞれについてターゲットスペクトルおよび時間記述を計算するようにタスクＴ２３０を繰り返すのが望ましい場合がある。このような場合、タスクＴ２３０は、異なるレートでターゲットスペクトルおよび時間記述を更新するように構成されうる。例えば、タスクＴ２３０のそのような一実装は、それぞれのはターゲットフレームについて異なるターゲットスペクトル記述を計算するが、複数の連続するターゲットフレームに対し同じターゲット時間記述を使用するように構成することができる。

方法Ｍ２００（方法Ｍ２１０およびＭ２２０を含む）の実装は、典型的には、基準スペクトル情報をバッファに格納する演算を備えるように構成されている。方法Ｍ２００のそのような一実装は、さらに、基準時間情報をバッファに格納する演算を備えることもできる。それとは別に、方法Ｍ２００のそのような一実装は、基準スペクトル情報および基準時間情報の両方をバッファに格納する演算を備えることができる。

方法Ｍ２００の異なる実装は、基準スペクトル情報として符号化フレームに基づき情報を格納するかどうかを決定する際に異なる基準を使用することができる。基準スペクトル情報を格納する決定は、典型的には、符号化フレームの符号化方式に基づいており、また１つまたは複数の前のおよび／または後の符号化フレームの符号化方式に基づくこともできる。方法Ｍ２００のこのような一実装は、基準時間情報を格納するかどうかを決定する際に同じまたは異なる基準を使用するように構成されうる。

格納されている基準スペクトル情報が一度に複数の基準符号化フレームに利用できるように方法Ｍ２００を実装することが望ましい場合がある。例えば、タスクＴ２３０は、複数の基準フレームから得られる情報に基づくターゲットスペクトル記述を計算するように構成することができる。そのような場合、方法Ｍ２００は、どの時点においても、一番最近の基準符号化フレームから得られる基準スペクトル情報、二番目に最近の基準符号化フレームから得られる情報、および場合によっては、１つまたは複数のあまり最近のではない基準符号化フレームから得られる情報をも記憶装置内に保持するように構成されうる。このような方法は、さらに、基準時間情報に対する、同じ履歴、または異なる履歴を保持するように構成されうる。例えば、方法Ｍ２００は、２つの一番最近の基準符号化フレームのそれぞれから得られるスペクトル包絡線の記述および一番最近の基準符号化フレームのみからの時間情報の記述を保持するように構成されうる。

上記のように、符号化フレームはそれぞれ、符号化方式を識別する符号化インデックス、またはフレームが符号化される際に従う符号化レートまたはモードを含むことができる。それとは別に、音声復号器は、符号化フレームから符号化インデックスの少なくとも一部を決定するように構成されうる。例えば、音声復号器は、フレームエネルギーなどの１つまたは複数のパラメータから得られる符号化フレームのビットレートを決定するように構成される。同様に、特定の符号化レートについて複数の符号化モードをサポートするコーダでは、音声復号器は、符号化フレームのフォーマットから適切な符号化モードを決定するように構成されうる。

符号化音声信号中の符号化フレームのすべてが、基準符号化フレームとして適格であるというわけではない。例えば、第２の周波数帯域上のスペクトル包絡線の記述を含まない符号化フレームは、一般に、基準符号化フレームとして使用するのには不適である。いくつかの応用では、第２の周波数帯域上のスペクトル包絡線の記述を含む符号化フレームを基準符号化フレームとみなすのが望ましい場合がある。

方法Ｍ２００の対応する一実装は、フレームが第２の周波数帯域上のスペクトル包絡線の記述を含む場合に基準スペクトル情報として現在の符号化フレームに基づき情報を格納するように構成されうる。例えば、図１８に示されているような一組の符号化方式に関して、方法Ｍ２００のそのような一実装は、フレームの符号化インデックスが符号化方式１および２（つまり、符号化方式３ではなく）のいずれかを示している場合に基準ベクトル情報を格納するように構成されうる。より一般的には、方法Ｍ２００のそのような一実装は、フレームの符号化インデックスが、狭帯域符号化方式ではなく広帯域符号化方式を示している場合に、基準スペクトル情報を格納するように構成されうる。

非アクティブであるターゲットフレームについてのみターゲットスペクトル記述を取得するように（つまり、タスクＴ２３０を実行するように）方法Ｍ２００を実装するのは望ましい場合がある。そのような場合、基準スペクトル情報が、符号化された非アクティブフレームにのみ基づき、符号化されたアクティブフレームには基づかないようにするのが望ましいと思われる。アクティブフレームは、暗雑音を含むが、符号化されたアクティブフレームに基づく基準スペクトル情報も、ターゲットスペクトル記述を破損するおそれのある音声成分に関係する情報を含む可能性が高い。

方法Ｍ２００のそのような一実装は、フレームの符号化インデックスが特定の符号化モード（例えば、ＮＥＬＰ）を示す場合に基準スペクトル情報として現在の符号化フレームに基づき情報を格納するように構成されうる。方法Ｍ２００の他の実装は、フレームの符号化インデックスが特定の符号化レート（例えば、ハーフレート）を示す場合に基準スペクトル情報として現在の符号化フレームに基づき情報を格納するように構成される。方法Ｍ２００の他の実装は、例えば、フレームが第２の周波数帯域上のスペクトル包絡線の記述を含むことをフレームの符号化インデックスが示し、またこの符号化インデックスがさらに、特定の符号化モードおよび／またはレートを示す場合などの、条件の組合せに従って基準スペクトル情報として現在の符号化フレームに基づき情報を格納するように構成される。方法Ｍ２００のさらに他の実装は、フレームの符号化インデックスが特定の符号化方式（例えば、図１８による一実施例の符号化方式２、または他の実施例において非アクティブフレームとともに使用するように予約されている広帯域符号化方式）を示す場合に基準スペクトル情報として現在の符号化フレームに基づき情報を格納するように構成される。

その符号化インデックスだけから、フレームがアクティブであるか、または非アクティブであるかを判定することは可能でない場合がある。図１８に示されている一組の符号化方式では、例えば、符号化方式２は、アクティブフレームと非アクティブフレームの両方に使用される。このような場合、１つまたは複数の後続フレームの符号化インデックスは、符号化フレームが非アクティブかどうかを示すのに役立ちうる。例えば、上記の説明では、符号化方式２を使用して符号化されたフレームは、続くフレームが符号化方式３を使用して符号化されている場合に非アクティブである音声符号化の方法を開示している。方法Ｍ２００の対応する一実装は、フレームの符号化インデックスが符号化方式２を示し、次の符号化フレームの符号化インデックスが符号化方式３を示している場合に、基準スペクトル情報として現在の符号化フレームに基づき情報を格納するように構成されうる。関連する一実施例では、方法Ｍ２００の一実装は、フレームがハーフレートで符号化され、次のフレームが八分の一レートで符号化される場合に、基準スペクトル情報として符号化フレームに基づき情報を格納するように構成される。

基準スペクトル情報として符号化フレームに基づき情報を格納する決定が後続の符号化フレームからの情報に依存する場合、方法Ｍ２００は、基準スペクトル情報を格納する演算を２つの部分に分けて実行するように構成されうる。格納演算の第１の部分は、符号化フレームに基づき情報を仮格納する。方法Ｍ２００のそのような一実装は、すべてのフレーム、または何らかの所定の条件を満たすすべてのフレーム（例えば、特定の符号化レート、モード、または方式を有するすべてのフレーム）について、情報を仮格納するように構成されうる。このような条件の３つの異なる例は、（１）符号化インデックスがＮＥＬＰ符号化モードを示すフレーム、（２）符号化インデックスがハーフレートを示すフレーム、および（３）符号化インデックスが符号化方式２を示すフレームである（例えば、図１８による一組の符号化方式の適用において）。

格納演算の第２の部分では、所定の条件が満たされた場合に基準スペクトル情報として仮格納されている情報を格納する。方法Ｍ２００のそのような一実装は、１つまたは複数の後続フレームが受信されるまで（例えば、次の符号化フレームの符号化モード、レート、または方式が判明するまで）演算のこの部分の実行を遅らせるように構成されうる。このような条件の３つの異なる例では、（１）次の符号化フレームの符号化インデックスが八分の一レートを示し、（２）次の符号化フレームの符号化インデックスが非アクティブフレームに対してのみ使用される符号化モードを示し、（３）次の符号化フレームの符号化インデックスが符号化方式３を示す（例えば、図１８による一組の符号化方式の適用において）。格納演算の第２の部分に対する条件が、満たされていない場合、仮格納されている情報は、破棄されるか、または上書きされうる。

基準スペクトル情報を格納する２部演算の第２の部分は、複数の異なる構成のうちのどれかに従って実装されうる。一実施例では、格納演算の第２の部分は、仮格納されている情報を保持する格納場所に関連付けられたフラグの状態を変更するように構成される（例えば、「仮」を示す状態から「基準」を示す状態へ）。他の実施例では、格納演算の第２の部分は、基準スペクトル情報を格納するために予約されているバッファに仮格納されている情報を転送するように構成される。さらなる他の実施例では、格納演算の第２の部分は、仮格納されている基準スペクトル情報を保持するバッファ（例えば、循環バッファ）を指す１つまたは複数のポインタを更新するように構成される。この場合、これらのポインタは、一番最近の基準符号化フレームからの基準スペクトル情報が置かれている場所を示す読み出しポインタおよび／または仮格納されている情報の格納先となる場所を示す書き込みポインタを含んでいてもよい。

図３１は、続く符号化フレームの符号化方式が、基準スペクトル情報として符号化フレームに基づき情報を格納するかどうかを決定するために使用される方法Ｍ２００の一実装を実行するように構成された音声復号器の状態図の対応する部分を示している。この図では、経路ラベルは、現在のフレーム符号化方式に関連するフレームタイプを示しており、Ａは、アクティブフレームにのみ使用される符号化方式を示し、Ｉは、非アクティブフレームにのみ使用される符号化方式を示し、Ｍ（「混合」を意味する）は、アクティブフレームと非アクティブフレームに使用される符号化方式を示す。例えば、そのような復号器は、図１８に示されているように一組の符号化方式を使用する符号化システムに備えることが可能であり、符号化方式１、２、および３は、経路ラベルＡ、Ｍ、およびＩにそれぞれ対応する。図３１に示されているように、情報は、「混合」符号化方式を示す符号化インデックスを有するすべての符号化フレームについて仮格納される。次のフレームの符号化インデックスが、非アクティブのフレームであることを示す場合、基準スペクトル情報としての仮格納されている情報の格納は完了する。そうであることを示していない場合、仮格納されている情報は、破棄されるか、または上書きされうる。

基準スペクトル情報の選択的格納および仮格納に関係する前記の説明、および図３１の付随する状態図は、さらに、そのような情報を格納するように構成されている方法Ｍ２００の実装において基準時間情報の格納に適用可能であることは明示的に示されている。

方法Ｍ２００の一実装の典型的な適用では、ロジック素子のアレイ（例えば、ロジックゲート）は、この方法の様々なタスクのうちの１つ、複数、さらにはすべてを実行するように構成されている。これらのタスクのうちの１つまたは複数のタスク（場合によってはすべてのタスク）は、さらに、ロジック素子（例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）のアレイを含む機械（例えば、コンピュータ）により可読であり、および／または実行可能であるコンピュータプログラム製品（ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの１つまたは複数のデータ記憶媒体など）内に具現化された、コード（例えば、１つまたは複数の命令セット）として実装されうる。方法Ｍ２００の一実装のタスクは、さらに、複数のそのようなアレイまたは機械により実行することもできる。これら、または他の実装では、タスクは、携帯電話などの無線通信を行うデバイスまたはそのような通信機能を有する他のデバイス内で実行可能である。このようなデバイスは、回線交換方式および／またはパケット交換方式のネットワークと（例えば、ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）通信するように構成されうる。例えば、このようなデバイスは、符号化フレームを受信するように構成されたＲＦ回路を備えることができる。

図３２Ａは、一般的構成により符号化音声信号を処理する装置２００のブロック図を示している。例えば、装置２００は、本明細書で説明されているように方法Ｍ２００の一実装を含む音声復号化の方法を実行するように構成されうる。装置２００は、値のシーケンスを有する制御信号を発生するように構成された制御ロジック２１０を備える。装置２００は、さらに、制御信号の値および符号化音声信号の対応する符号化フレームに基づき音声信号の復号化フレームを計算するように構成された音声復号器２２０を備える。

携帯電話などの、装置２００を含む通信デバイスは、有線、無線、または光伝送路から符号化音声信号を受信するように構成できる。このようなデバイスは、誤り訂正および／または冗長コードの復号化などの、符号化音声信号に対する前処理演算を実行するように構成されうる。このようなデバイスは、さらに、装置１００および装置２００（例えば、トランシーバ内の）の両方の実装を含んでいてもよい。

制御ロジック２１０は、符号化音声信号の符号化フレームの符号化インデックスに基づく値のシーケンスを含む制御信号を発生するように構成される。このシーケンスのそれぞれの値は、符号化音声信号の符号化フレームに対応し（後述のように消去されたフレームの場合を除く）、複数の状態のうちの１つを有する。後述のような装置２００のいくつかの実装では、このシーケンスは二値形式である（つまり、高い値と低い値のシーケンス）。後述のような装置２００の他の実装では、このシーケンスの値は、２つよりも多い状態を取りうる。

制御ロジック２１０は、それぞれの符号化フレームに対する符号化インデックスを決定するように構成されうる。例えば、制御ロジック２１０は、符号化フレームから符号化インデックスの少なくとも一部を読み出し、フレームエネルギーなどの１つまたは複数のパラメータから符号化フレームのビットレートを決定し、および／または符号化フレームのフォーマットから適切な符号化モードを決定するように構成することができる。それとは別に、装置２００は、それぞれの符号化フレームに対する符号化インデックスを決定し、それを制御ロジック２１０に送るように構成された他の要素を備えるように実装することができるか、あるいは装置２００は、装置２００を含むデバイスの他のモジュールから符号化インデックスを受信するように構成することができる。

予期したとおりに受信されないか、または受信しても誤りが多すぎて復元できない符号化フレームは、フレーム消失と呼ばれる。装置２００は、第２の周波数帯域に対するスペクトルおよび時間情報を伝送する符号化フレームの一部の不在など、フレーム消失または部分的フレーム消失を示すために符号化インデックスの１つまたは複数の状態が使用されるように構成されうる。例えば、装置２００は、符号化方式２を使用して符号化されている符号化フレームに対する符号化インデックスが、フレームの高帯域部分の消失を示すように構成されうる。

音声復号器２２０は、符号化音声信号の制御信号および対応する符号化フレームの値に基づき復号化フレームを計算するように構成される。制御信号の値が第１の状態を有する場合、復号器２２０は、第１の周波数帯域および第２の周波数帯域上のスペクトル包絡線の、対応する符号化フレームから得られる情報に基づく記述に基づき復号化フレームを計算する。制御信号の値が第２の状態を有する場合、復号器２２０は、第２の周波数帯域上のスペクトル包絡線の記述を取り出し、取り出された記述および第１の周波数帯域上のスペクトル包絡線の記述に基づき復号化フレームを計算するが、ただし、第１の周波数帯域上の記述は、対応する符号化フレームから得られる情報に基づく。

図３２Ｂは、装置２００の一実装２０２のブロック図を示す。装置２０２は、第１のモジュール２３０および第２のモジュール２４０を備える音声復号器２２０の一実装２２２を備える。モジュール２３０および２４０は、復号化フレームのそれぞれのサブバンド部分を計算するように構成されている。特に、第１のモジュール２３０は、第１の周波数帯域（例えば、狭帯域信号）上のフレームの復号化部分を計算するように構成され、第２のモジュール２４０は、制御信号の値に基づき、第２の周波数帯域（例えば、高帯域信号）上のフレームの復号化部分を計算するように構成される。

図３２Ｃは、装置２００の一実装２０４のブロック図を示す。解析器２５０は、符号化フレームのビットを解析して、符号化インデックスを制御ロジック２１０に送り、スペクトル包絡線の少なくとも１つの記述を音声復号器２２０に送るように構成される。この実施例では、装置２０４は、さらに、装置２０２の一実装でもあり、したがって、解析器２５０は、それぞれの周波数帯域（利用可能な場合）上のスペクトル包絡線の記述をモジュール２３０および２４０に送るように構成されている。解析器２５０は、さらに、時間情報の少なくとも１つの記述を音声復号器２２０に送るように構成されうる。例えば、解析器２５０は、それぞれの周波数帯域（利用可能な場合）に対する時間情報の記述をモジュール２３０および２４０に送るように実装されうる。

装置２０４は、さらに、第１および第２の周波数帯域上のフレームの復号化部分を組み合わせて、広帯域音声信号を生成するように構成されたフィルタバンク２６０も備える。このようなフィルタバンクの特定の実施例は、例えば、２００７年４月１９日に公開された「ＳＹＳＴＥＭＳ，ＭＥＴＨＯＤＳ，ＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＳＰＥＥＣＨＳＩＧＮＡＬＦＩＬＴＥＲＩＮＧ」という表題の米国特許出願公開第２００７／０８８５５８号（Ｖｏｓら）で説明されている。例えば、フィルタバンク２６０は、狭帯域信号をフィルタ処理して第１のパスバンド信号を生成するように構成されたローパスフィルタおよび高帯域信号をフィルタ処理して第２のパスバンド信号を生成するように構成されたハイパスフィルタを備えることができる。フィルタバンク２６０は、さらに、例えば、米国特許出願公開第２００７／０８８５５８号（Ｖｏｓら）で説明されているように、所望の対応する内挿係数に従って、狭帯域信号および／または高帯域信号のサンプリングレートを上げるように構成されたアップサンプラも備えることができる。

図３３Ａは、スペクトル包絡線記述復号器２７０のインスタンス２７０ａおよび時間情報記述復号器２８０のインスタンス２８０ａを含む第１のモジュール２３０の一実装２３２のブロック図を示している。スペクトル包絡線記述復号器２７０ａは、第１の周波数帯域上のスペクトル包絡線の記述を復号化するように構成される（例えば、解析器２５０から受け取ったときに）。時間情報記述復号器２８０ａは、第１の周波数帯域に対する時間情報の記述を復号化するように構成される（例えば、解析器２５０から受け取ったときに）。例えば、時間情報記述復号器２８０ａは、第１の周波数帯域に対する励振信号を復号化するように構成されうる。合成フィルタ２９０のインスタンス２９０ａは、スペクトル包絡線および時間情報の復号化された記述に基づく第１の周波数帯域（例えば、狭帯域信号）上のフレームの復号化部分を生成するように構成される。例えば、合成フィルタ２９０ａは、第１の周波数帯域上のスペクトル包絡線の記述内の値の集合（例えば、１つまたは複数のＬＳＰまたはＬＰＣ係数ベクトル）に従って、第１の周波数帯域に対する励振信号に応じて復号化部分を生成するように構成されうる。

図３３Ｂは、スペクトル包絡線記述復号器２７０の一実装２７２のブロック図を示している。逆量子化器３１０は、記述を逆量子化するように構成され、逆変換ブロック３２０は、逆変換を逆量子化記述に適用してＬＰＣ係数の集合を求めるように構成されている。時間情報記述復号器２８０は、典型的には、逆量子化器を備えるようにも構成される。

図３４Ａは、第２のモジュール２４０の一実装２４２のブロック図を示している。第２のモジュール２４２は、スペクトル包絡線記述復号器２７０のインスタンス２７０ｂ、バッファ３００、および選択器３４０を備える。スペクトル包絡線記述復号器２７０ｂは、第２の周波数帯域上のスペクトル包絡線の記述を復号化するように構成される（例えば、解析器２５０から受け取ったときに）。バッファ３００は、基準スペクトル情報として第２の周波数帯域上のスペクトル包絡線の１つまたは複数の記述を格納するように構成され、選択器３４０は、制御ロジック２１０により生成された制御信号の対応する値の状態に従って、（Ａ）バッファ３００または（Ｂ）復号器２７０ｂのいずれかからスペクトル包絡線の復号化された記述を選択するように構成される。

第２のモジュール２４２は、さらに、高帯域励振信号発生器３３０、および選択器３４０を介して受信されたスペクトル包絡線の復号化された記述に基づき第２の周波数帯域（例えば、高帯域信号）上のフレームの復号化部分を生成するように構成された合成フィルタ２９０のインスタンス２９０ｂも備える。高帯域励振信号発生器３３０は、第１の周波数帯域に対する励振信号に基づき、第２の周波数帯域に対する励振信号を発生するように構成される（例えば、時間情報記述復号器２８０ａにより生成されるように）。それに加えて、またはそれとは別に、発生器３３０は、不規則雑音のスペクトルおよび／または振幅整形を実行して、高帯域励振信号を発生させるように構成できる。発生器３３０は、上述のように高帯域励振信号発生器Ａ６０のインスタンスとして実装されうる。合成フィルタ２９０ｂは、第２の周波数帯域上のスペクトル包絡線の記述内の値の集合（例えば、１つまたは複数のＬＳＰまたはＬＰＣ係数ベクトル）に従って、高帯域励振信号に応じて第２の周波数帯域上のフレームの復号化部分を生成するように構成される。

第２のモジュール２４０の一実装２４２を備える装置２０２の一実装の一実施例では、制御ロジック２１０は、二値信号を選択器３４０に出力するように構成され、これにより、シーケンスのそれぞれの値は状態Ａまたは状態Ｂを有する。この場合、現在のフレームの符号化インデックスが、それが非アクティブであることを示す場合に、制御ロジック２１０は、状態Ａを有する値を生成し、これにより、選択器３４０はバッファ３００の出力を選択する（つまり、選択Ａ）。そうでない場合、制御ロジック２１０は、状態Ｂを有する値を生成し、これにより、選択器３４０は復号器２７０ｂの出力を選択する（つまり、選択Ｂ）。

装置２０２は、制御ロジック２１０がバッファ３００の動作を制御するように配列できる。例えば、バッファ３００は、状態Ｂを有する制御信号の値により、バッファ３００が復号器２７０ｂの対応する出力を格納するように配列されうる。このような制御は、バッファ３００の書き込み許可入力に制御信号を適用することにより実装することができ、その入力は、状態Ｂがそのアクティブ状態に対応するように構成される。それとは別に、制御ロジック２１０は、符号化音声信号の符号化フレームの符号化インデックスに基づく値のシーケンスも含む第２の制御信号を発生し、バッファ３００の動作を制御するように実装されうる。

図３４Ｂは、第２のモジュール２４０の一実装２４４のブロック図を示す。第２のモジュール２４４は、スペクトル包絡線記述復号器２７０ｂ、および第２の周波数帯域に対する時間情報の記述を復号化するように（例えば、解析器２５０から受け取ったときに）構成された時間情報記述復号器２８０のインスタンス２８０ｂを備える。第２のモジュール２４４は、さらに、基準時間情報として第２の周波数帯域上の時間情報の１つまたは複数の記述を格納するようにも構成されているバッファ３００の一実装３０２も備える。

第２のモジュール２４４は、制御ロジック２１０により発生する制御信号の対応する値の状態に従って、スペクトル包絡線の復号化された記述および（Ａ）バッファ３０２または（Ｂ）復号器２７０ｂ、２８０ｂのいずれかからの時間情報の復号化された記述を選択するように構成された選択器３４０の一実装３４２を備える。合成フィルタ２９０のインスタンス２９０ｂは、選択器３４２を介して受信されたスペクトル包絡線および時間情報の復号化された記述に基づく第２の周波数帯域（例えば、高帯域信号）上のフレームの復号化部分を生成するように構成される。第２のモジュール２４４を備える装置２０２の典型的な一実装では、時間情報記述復号器２８０ｂは、第２の周波数帯域に対する励振信号を含む時間情報の復号化された記述を生成するように構成され、合成フィルタ２９０ｂは、第２の周波数帯域上のスペクトル包絡線の記述内の値の集合（例えば、１つまたは複数のＬＳＰまたはＬＰＣ係数ベクトル）に従って、励振信号に応答して第２の周波数帯域上のフレームの復号化された部分を生成するように構成される。

図３４Ｃは、バッファ３０２および選択器３４２を備える第２のモジュール２４２の一実装２４６のブロック図を示している。第２のモジュール２４６は、さらに、第２の周波数帯域に対する時間包絡線の記述を復号化するように構成された時間情報記述復号器２８０のインスタンス２８０ｃ、および選択器３４２を介して受信された時間包絡線の記述を第２の周波数帯域上のフレームの復号化された部分に適用するように構成された利得制御要素３５０（例えば、乗算器もしくは増幅器）を備える。時間包絡線の復号化された記述が、利得形状値を含む場合について、利得制御要素３５０は、利得形状値を復号化された部分のそれぞれのサブフレームに適用するように構成されたロジックを備えることができる。

図３４Ａ〜３４Ｃは、バッファ３００がスペクトル包絡線（および場合によっては、時間情報）の完全復号化された記述を受け取る第２のモジュール２４０の実装を示している。バッファ３００が完全には復号されていない記述を受け取るように、類似の実装を配列することもできる。例えば、量子化形式で（例えば、解析器２５０から受け取ったとおりに）記述を格納することにより格納に必要な容量を下げることが望ましい場合がある。このような場合、バッファ３００から選択器３４０への信号経路は、逆量子化器および／または逆変換ブロックなどの復号化ロジックを備えるように構成することができる。

図３５Ａは、制御ロジック２１０の一実装が動作するように構成される際に用いる状態図を示している。この図では、経路ラベルは、現在のフレームの符号化方式に関連するフレームタイプを示しており、Ａは、アクティブフレームにのみ使用される符号化方式を示し、Ｉは、非アクティブフレームにのみ使用される符号化方式を示し、Ｍ（「混合」を意味する）は、アクティブフレームと非アクティブフレームに使用される符号化方式を示す。例えば、そのような復号器は、図１８に示されているように一組の符号化方式を使用する符号化システムに備えることが可能であり、符号化方式１、２、および３は、経路ラベルＡ、Ｍ、およびＩにそれぞれ対応する。図３５Ａの状態ラベルは、（複数の）制御信号の（複数の）対応する値の状態を示す。

上記のように、装置２０２は、制御ロジック２１０がバッファ３００の動作を制御するように配列できる。装置２０２が、基準スペクトル情報を２つの部分に格納する演算を実行するように構成されている場合、制御ロジック２１０は、バッファ３００を制御し、（１）符号化フレームに基づき情報を仮格納するタスク、（２）基準スペクトルおよび／または時間情報として仮格納されている情報の格納を完了するタスク、および（３）格納されている基準スペクトルおよび／または時間情報出力するタスクの３つの異なるタスクのうちの選択された１つのタスクを実行するように構成することができる。

このような一実施例では、制御ロジック２１０は、選択器３４０およびバッファ３００の動作を制御する、値が少なくとも４つの可能な状態を有する、それぞれ図３５Ａに示されている図のそれぞれの状態に対応する制御信号を生成するように実装される。他のこのような実施例では、制御ロジック２１０は、（１）選択器３４０の動作を制御する、値が少なくとも２つの可能な状態を有する、制御信号および（２）バッファ３００の動作を制御する、符号化音声信号の符号化フレームの符号化インデックスに基づく値のシーケンスを含み、値が少なくとも３つの可能な状態を有する、第２の制御信号を生成するように実装される。

仮格納されている情報の格納を完了する演算が選択されたフレームの処理中に、仮格納された情報はさらに選択器３４０でそれを選択するのに利用できるようにバッファ３００を構成することが望ましい場合がある。このような場合、制御ロジック２１０は、少し異なる時刻に選択器３４０およびバッファ３００を制御するために信号の現在の値を出力するように構成されうる。例えば、制御ロジック２１０は、バッファ３００を制御して読み出しポインタをフレーム期間内の十分に前の方へ進めてバッファ３００が選択器３４０で選択するのに遅れることなく仮格納されている情報を出力するように構成されうる。

図１３Ｂを参照しつつ上で述べたように、ときには方法Ｍ１００の一実装を実行する音声符号器がより高いビットレートを使用して、他の非アクティブフレームで囲まれている非アクティブフレームを符号化するのが望ましい場合がある。そのような場合、対応する音声復号器が、基準スペクトルおよび／または時間情報として符号化されたフレームに基づき情報を格納し、情報が系列内の将来の非アクティブフレームを復号化する際に使用されるようにすることが望ましいと思われる。

装置２００の一実装の様々な要素は、対象のアプリケーションに適しているとみなされるハードウェア、ソフトウェア、および／またはファームウェアの任意の組合せで具現化されうる。例えば、そのような要素は、例えば、同じチップ上、またはチップセット内の２つまたはそれ以上のチップ間に置かれる電子および／または光デバイスとして製造できる。このようなデバイスの一実施例は、トランジスタまたはロジックゲートなどの固定された、またはプログラム可能なロジック素子のアレイであり、これらの要素はどれも、１つまたは複数のそのようなアレイとして実装されうる。これらの要素の２つまたはそれ以上、さらにはすべてが、同じ１つまたは複数のアレイ内に実装することができる。このような１つまたは複数のアレイは、１つまたは複数のチップ内に（例えば、２つまたはそれ以上のチップを含むチップセット内に）実装されうる。

本明細書で説明されているような装置２００の様々は実装の１つまたは複数の要素は、マイクロプロセッサ、組み込み型プロセッサ、ＩＰコア、デジタルシグナルプロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）などのロジック素子の１つまたは複数の固定もしくはプログラム可能なアレイ上で実行するように配置された１つまたは複数の命令セットとして全体または一部実装されうる。装置２００の一実装の様々な要素はどれも、さらに、１つまたは複数のコンピュータ（例えば、「プロセッサ」とも呼ばれる、１つまたは複数の命令セットまたは命令シーケンスを実行するようにプログラムされている１つまたは複数のアレイを備える機械）として具現化することができ、これらの要素のどれか２つまたはそれ以上、さらにはすべてが、同じそのような１つまたは複数のコンピュータ内に実装できる。

装置２００の一実装の様々な要素は、携帯電話などの無線通信を行うためのデバイスまたはそのような通信機能を有する他のデバイス内に収めることができる。このようなデバイスは、回線交換方式および／またはパケット交換方式のネットワークと（例えば、ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）通信するように構成されうる。そのようなデバイスは、逆インタリービング、逆パンクチャリング、１つまたは複数の畳み込み符号の復号化、１つまたは複数の誤り訂正符号の復号化、ネットワークプロトコル（例えば、Ｅｔｈｅｒｎｅｔ、ＴＣＰ／ＩＰ、ｃｄｍａ２０００）の１つまたは複数の層の復号化、無線周波（ＲＦ）復調、および／またはＲＦ受信などの演算を符号化フレームを伝送する信号に対し実行するように構成されうる。

装置２００の一実装の１つまたは複数の要素を、装置が組み込まれるデバイスまたはシステムの他の動作に関係するタスクなど、装置の動作に直接的には関係しないタスクを実行するか、または他の命令セットを実行するために使用することが可能である。また、装置２００の一実装の１つまたは複数の要素は、構造を共通して持つことが可能である（例えば、異なる時刻に異なる要素に対応するコードの部分を実行するために使用されるプロセッサ、異なる時刻に異なる要素に対応するタスクを実行するために実行される命令セット、または異なる時刻に異なる要素に対する演算を実行する電子および／または光デバイスの配列）。このような一実施例では、制御ロジック２１０、第１のモジュール２３０、および第２のモジュール２４０は、同じプロセッサ上で実行するように配列された命令セットとして実装される。他のこのような実施例では、スペクトル包絡線記述復号器２７０ａおよび２７０ｂは、異なる時刻に実行する同じ命令セットとして実装される。

携帯電話またはそのような通信機能を有する他のデバイスなどの、無線通信を行うためのデバイスは、装置１００と装置２００の両方の実装を含むように構成されうる。このような場合、装置１００および装置２００が構造を共通に持つことが可能である。このような一実施例では、装置１００および装置２００は、同じプロセッサ上で実行するように配列された命令セットを備えるように実装される。

全二重電話通信の任意の時点において、音声符号器の少なくとも１つへの入力が非アクティブフレームとなることが予想されうる。音声符号器が非アクティブフレームの系列内のフレームのすべてに満たない数のフレームについて符号化フレームを送信するように構成することが望ましい場合がある。このような処理は、不連続送信（ＤＴＸ）とも呼ばれる。一実施例では、音声符号器は、ｎを３２として、ｎ個の連続する非アクティブフレームの各列について１つの符号化フレーム（「無音記述子」またはＳＩＤとも呼ばれる）を送信することによりＤＴＸを実行する。対応する復号器は、ＳＩＤ内の情報を適用して、非アクティブフレームを合成するために快適雑音発生アルゴリズムにより使用される雑音発生モデルを更新する。ｎの他の典型値は、８および１６を含む。ＳＩＤを示すために当業で使用される他の名称は、「無音記述への更新」、「無音挿入記述」、「無音挿入記述子」、「快適雑音記述子フレーム」、および「快適雑音パラメータ」を含む。

方法Ｍ２００の一実装では、基準符号化フレームは、音声信号の高帯域部分の無音記述に対する不定期の更新を行うという点でＳＩＤに似ていることが理解されるであろう。ＤＴＸの潜在的利点は、典型的には、回線交換ネットワークよりもパケット交換ネットワークの方が大きいが、方法Ｍ１００およびＭ２００は、回線交換ネットワークとパケット交換ネットワークの両方に適用可能であることは明確に指摘される。

方法Ｍ１００の一実装は、ＤＴＸ（例えば、パケット交換ネットワーク内の）と組み合わせることができ、これにより符号化フレームは、非アクティブフレームのすべてに満たない数のフレームについて送信される。このような方法を実行する音声符号器は、ＳＩＤをときおり、ある規則正しい間隔で（例えば、非アクティブフレームの系列内の８フレーム毎に、１６フレーム毎に、または３２フレーム毎に）、または何らかのイベントが発生したときに送信するように構成されうる。図３５Ｂは、ＳＩＤが６フレーム毎に送信される一実施例を示している。この場合、ＳＩＤは、第１の周波数帯域上のスペクトル包絡線の記述を含む。

方法Ｍ２００の対応する一実装は、非アクティブフレームの後の１フレーム期間に符号化フレームを受信できないことに応答して、基準スペクトル情報に基づくフレームを生成するように構成されうる。図３５Ｂに示されているように、方法Ｍ２００のそのような一実装は、１つまたは複数の受信されたＳＩＤから得られる情報に基づき、それぞれの介在する非アクティブフレームに対する第１の周波数帯域上のスペクトル包絡線の記述を取得するように構成されうる。例えば、このような演算は、図３０Ａ〜３０Ｃに示されている実施例のように、２つの一番最近のＳＩＤからのスペクトル包絡線の記述同士の間の内挿を含むことができる。第２の周波数帯域では、この方法は、１つまたは複数の最近の基準符号化フレームから得られる情報に基づき（例えば、本明細書で説明されている実施例により）それぞれの介在する非アクティブフレームに対するスペクトル包絡線の記述（および場合によっては、時間包絡線の記述）を取得するように構成されうる。そのような方法は、さらに、１つまたは複数の最近のＳＩＤからの第１の周波数帯域に対する励振信号に基づく第２の周波数帯域に対する励振信号を生成するように構成されうる。

説明されている構成を前記のように提示したのは、当業者が本明細書で開示されている方法および他の構造を使用し、または構造を製作することができるようにするためである。図に示され、本明細書で説明されている流れ図、ブロック図、状態図、および他の構造は、実施例にすぎず、それらの構造の他の変更形態も、本開示の範囲内にある。これらの構成に対する様々な修正形態も可能であり、本明細書で提示されている一般原理を他の構成にも適用することができる。例えば、音声信号の狭帯域部分の範囲よりも高い周波数は含む音声信号の高帯域部分を処理することについて本明細書で説明されている様々な要素およびタスクは、それとは別に、またはそれに加えて、類似の方法で、音声信号の狭帯域部分の範囲よりも下の周波数を含む音声信号の低帯域部分を処理するために適用されうる。このような場合、狭帯域励振信号から高帯域励振信号を導出するための開示されている技術および構造は、狭帯域励振信号から低帯域励振信号を導出するために使用されうる。そのため、本開示は、上に示されている構成に限定されることを意図されておらず、むしろ、元の開示の一部をなす、出願された付属の請求項に含む、本明細書において何らかの形態で開示されている原理および新規性のある特徴と一致する最も広い範囲を与えられるべきである。

本明細書で説明されているような音声符号器、音声符号化方法、音声復号器、および／または音声復号化方法と併用されうる、または併用するように適合されうるコーデックの実施例は、文書３ＧＰＰ２Ｃ．Ｓ００１４−Ｃバージョン１．０「ＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ，ＳｐｅｅｃｈＳｅｒｖｉｃｅＯｐｔｉｏｎｓ３，６８，ａｎｄ７０ｆｏｒＷｉｄｅｂａｎｄＳｐｒｅａｄＳｐｅｃｔｒｕｍＤｉｇｉｔａｌＳｙｓｔｅｍｓ」（ＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ２、Ａｒｌｉｎｇｔｏｎ、ＶＡ、２００７年１月）において説明されているようなＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ（ＥＶＲＣ）、文書ＥＴＳＩＴＳ１２６０９２Ｖ６．０．０（ＥｕｒｏｐｅａｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ（ＥＴＳＩ）、ＳｏｐｈｉａＡｎｔｉｐｏｌｉｓＣｅｄｅｘ、ＦＲ、２００４年１２月）において説明されているようなＡｄａｐｔｉｖｅＭｕｌｔｉＲａｔｅ（ＡＭＲ）音声コーデック、および文書ＥＴＳＩＴＳ１２６１９２Ｖ６．０．０（ＥＴＳＩ、２００４年１２月）において説明されているようなＡＭＲＷｉｄｅｂａｎｄ音声コーデックを含む。

当業者であれば、情報および信号は、様々な異なる技術および技法を使用して表すことができることを理解するであろう。例えば、上の説明全体を通して参照されていると思われるデータ、命令、コマンド、情報、信号、ビット、および記号は、電圧、電流、電磁波、磁場または磁気粒子、光場または光粒子、これらの組合せにより表すことができる。符号化フレームの導出元の信号は、「音声信号」と呼ばれるが、この信号は、アクティブフレームで音楽または他の非音声情報コンテンツを伝送することができることも考えられ、また本明細書により開示されている。

さらに、当業者であれば、本明細書で開示されている構成に関して説明されている様々な例示的な論理ブロック、モジュール、回路、および演算は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装することができることを理解するであろう。このような論理ブロック、モジュール、回路、および演算は、汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、ＡＳＩＣ、ＦＰＧＡまたは他のプログラム可能論理デバイス、ディスクリートゲートまたはトランジスタロジック、ディスクリートハードウェアコンポーネント、または本明細書で説明されている機能を実行するように設計されているこれらの任意の組合せにより実装または実行することができる。汎用プロセッサは、マイクロプロセッサであってよいが、代替えとして、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってよい。プロセッサは、コンピューティングデバイスの組合せ、例えば、ＤＳＰとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、または他のそのような構成として実装することもできる。

本明細書で説明されている方法およびアルゴリズムのタスクは、ハードウェアで直接、プロセッサにより実行されるソフトウェアモジュールにより、またはこれら２つの組合せにより具現化されうる。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、取り外し可能ディスク、ＣＤ−ＲＯＭ、または当業で知られている他の形態の記憶媒体に格納することができる。例示的な記憶媒体は、プロセッサがその記憶媒体から情報を読み込み、その記憶媒体に情報を書き込めるようにプロセッサに結合される。代替え形態では、記憶媒体は、プロセッサに一体化することができる。プロセッサおよび記憶媒体は、ＡＳＩＣに収めることもできる。ＡＳＩＣは、ユーザー端末に収めることができる。代替え実施形態では、プロセッサおよび記憶媒体は、ユーザー端末内のディスクリートコンポーネントとして配置することができる。

本明細書で説明されている構成はそれぞれ、少なくとも一部は、ハード配線回路として、特定用途向け集積回路に組み込まれる回路構成として、または不揮発性記憶装置内にロードされるファームウェアプログラムまたは機械可読コードとしてデータ記憶媒体から、またはデータ記憶媒体にロードされるソフトウェアプログラムとして実装することができ、前記コードは、マイクロプロセッサまたは他のデジタル信号処理ユニットなどのロジック素子のアレイにより実行可能な命令である。データ記憶媒体としては、半導体メモリ（限定することなく、ダイナミックまたはスタティックＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読み取り専用メモリ）、および／またはフラッシュＲＡＭを含んでよい）、または強誘電体、磁気抵抗、オボニック、ポリマー、または相変化メモリなどの記憶素子のアレイ、または磁気もしくは光ディスクなどのディスク媒体が考えられる。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、ロジック素子のアレイにより実行可能な命令からなる１つまたは複数の命令セットまたは命令シーケンス、およびそのような実施例の任意の組合せを含むものと理解すべきである。
なお、以下の記載は出願当初の特許請求の範囲の記載に実質的に一致するものである。
［１］
音声信号のフレームを符号化する方法であって、
前記音声信号の第１のフレームに基づく、ｐをゼロでない正の整数とするｐビットの長さを有する、第１の符号化フレームを生成することと、
前記音声信号の第２のフレームに基づく、ｑをｐと異なるゼロでない正の整数とするｑビットの長さを有する、第２の符号化フレームを生成することと、
前記音声信号の第３のフレームに基づく、ｒをｑよりも小さいゼロでない正の整数とするｒビットの長さを有する、第３の符号化フレームを生成することとを備え、
前記第２のフレームは、前記第１のフレームの後に出現する非アクティブフレームであり、前記第３のフレームは、前記第２のフレームの後に出現する非アクティブフレームであり、前記第１のフレームと前記第３のフレームとの間の前記音声信号の前記フレームはすべて、非アクティブである方法。
［２］
ｑは、ｐよりも小さい［１］に記載の方法。
［３］
前記音声信号中で、少なくとも１つのフレームは、前記第１のフレームと前記第２のフレームとの間に出現する［１］に記載の方法。
［４］
前記第２の符号化フレームは、（Ａ）前記第２のフレームを含む前記音声信号の一部の、第１の周波数帯域上のスペクトル包絡線の記述および（Ｂ）前記第２のフレームを含む前記音声信号の一部の、前記第１の周波数帯域と異なる第２の周波数帯域上のスペクトル包絡線の記述を含む［１］に記載の方法。
［５］
前記第２の周波数帯域の少なくとも一部は、前記第１の周波数帯域よりも高い［４］に記載の方法。
［６］
前記第１および第２の周波数帯域は、少なくとも２００ヘルツオーバーラップする［５］に記載の方法。
［７］
第１の周波数帯域上のスペクトル包絡線の記述と第２の周波数帯域上のスペクトル包絡線の記述のうちの少なくとも１つは、それぞれが前記音声信号の非アクティブフレームを含む前記音声信号の対応する部分のスペクトル包絡線の少なくとも２つの記述の平均に基づく［４］に記載の方法。
［８］
前記第２の符号化フレームは、前記音声信号の少なくとも２つの非アクティブフレームから得られた情報に基づく［１］に記載の方法。
［９］
前記第２の符号化フレームは、前記第２のフレームを含む前記音声信号の一部の、第１の周波数帯域上のスペクトル包絡線の記述を含み、
前記第２の符号化フレームは、前記第２のフレームを含む前記音声信号の一部の、前記第１の周波数帯域と異なる第２の周波数帯域上のスペクトル包絡線の、長さがゼロでない正の整数のｕビットである記述を含み、
前記第１の符号化フレームは、前記第１のフレームを含む前記音声信号の一部の、前記第２の周波数帯域上のスペクトル包絡線の、長さがｕ以下のゼロでない正の整数のｖビットである記述を含む［１］に記載の方法。
［１０］
ｖは、ｕよりも小さい［９］に記載の方法。
［１１］
前記第３の符号化フレームは、前記第３のフレームを含む前記音声信号の一部のスペクトル包絡線の記述を含む［１］に記載の方法。
［１２］
前記第２の符号化フレームは、（Ａ）前記第２のフレームを含む前記音声信号の一部の、第１の周波数帯域上のスペクトル包絡線の記述および（Ｂ）前記第２のフレームを含む前記音声信号の一部の、前記第１の周波数帯域と異なる第２の周波数帯域上のスペクトル包絡線の記述を含み、
前記第３の符号化フレームは、（Ａ）前記第３のフレームを含む前記音声信号の一部の、前記第１の周波数帯域上のスペクトル包絡線の記述を含み、（Ｂ）前記第２の周波数帯域上のスペクトル包絡線の記述を含まない［１］に記載の方法。
［１３］
前記第２の符号化フレームは、前記第２のフレームを含む前記音声信号の一部の時間包絡線の記述を含み、
前記第３の符号化フレームは、前記第３のフレームを含む前記音声信号の一部の時間包絡線の記述を含む［１］に記載の方法。
［１４］
前記第２の符号化フレームは、（Ａ）前記第２のフレームを含む前記音声信号の一部の、第１の周波数帯域に対する時間包絡線の記述および（Ｂ）前記第２のフレームを含む前記音声信号の一部の、前記第１の周波数帯域と異なる第２の周波数帯域に対する時間包絡線の記述を含み、
前記第３の符号化フレームは、前記第２の周波数帯域に対する時間包絡線の記述を含まない［１］に記載の方法。
［１５］
前記第２のフレームに関する連続するアクティブフレームの一番最近のシーケンスの長さは、少なくとも所定の閾値に等しい［１］に記載の方法。
［１６］
ｑは、ｐよりも小さく、
前記第１のフレームと前記第２のフレームとの間の前記音声信号の少なくとも１つの非アクティブフレームのそれぞれについて、ｐビットの長さを有する対応する符号化フレームを生成することを備える［１］に記載の方法。
［１７］
音声信号のフレームを符号化する方法であって、
前記音声信号の第１のフレームに基づく、ｑをゼロでない正の整数とするｑビットの長さを有する、第１の符号化フレームを生成することと、
前記音声信号の第２のフレームに基づく、ｒをｑよりも小さいゼロでない正の整数とするｒビットの長さを有する、第２の符号化フレームを生成することとを備え、
前記第１の符号化フレームは、（Ａ）前記第１のフレームを含む前記音声信号の一部の、第１の周波数帯域上のスペクトル包絡線の記述および（Ｂ）前記第１のフレームを含む前記音声信号の一部の、前記第１の周波数帯域と異なる第２の周波数帯域上のスペクトル包絡線の記述を含み、
前記第２の符号化フレームは、（Ａ）前記第２のフレームを含む前記音声信号の一部の、前記第１の周波数帯域上のスペクトル包絡線の記述を含み、（Ｂ）前記第２の周波数帯域上のスペクトル包絡線の記述を含まない方法。
［１８］
前記第２のフレームは、前記音声信号中の前記第１のフレームの直後に続く［１７］に記載の方法。
［１９］
前記第１のフレームと前記第２のフレームとの間の前記音声信号の前記フレームはすべて、非アクティブである［１７］に記載の方法。
［２０］
前記第２の周波数帯域の少なくとも一部は、前記第１の周波数帯域よりも高い［１７］に記載の方法。
［２１］
前記第１および第２の周波数帯域は、少なくとも２００ヘルツだけオーバーラップする［２０］に記載の方法。
［２２］
音声信号のフレームを符号化するための装置であって、
前記音声信号の第１のフレームに基づき、ｐをゼロでない正の整数とするｐビットの長さを有する、第１の符号化フレームを生成するための手段と、
前記音声信号の第２のフレームに基づき、ｑをｐと異なるゼロでない正の整数とするｑビットの長さを有する、第２の符号化フレームを生成するための手段と、
前記音声信号の第３のフレームに基づき、ｒをｑよりも小さいゼロでない正の整数とするｒビットの長さを有する、第３の符号化フレームを生成するための手段とを備え、
前記第２のフレームは、前記第１のフレームの後に出現する非アクティブフレームであり、前記第３のフレームは、前記第２のフレームの後に出現する非アクティブフレームであり、前記第１のフレームと前記第３のフレームとの間の前記音声信号の前記フレームはすべて、非アクティブである装置。
［２３］
前記第１および第３のフレーム、および前記第１のフレームと前記第３のフレームとの間のフレームのそれぞれについて、前記フレームがアクティブであるか、または非アクティブであるかを指示するための手段と、
前記第１のフレームについて指示するための手段の指示に応答して、第１の符号化方式を選択するための手段と、
前記第２のフレームについて、前記第２のフレームが非アクティブがあること、および前記第１のフレームと前記第２のフレームとの間の任意の複数のフレームがアクティブであることを指示するための手段の指示に応答して、第２の符号化方式を選択するための手段と、
前記第３のフレームについて、前記第３のフレームが前記第１のフレームの後に出現する非アクティブフレームの連続する系列の１つであることを指示するための手段の指示に応答して、第２の符号化方式を選択するための手段とを備え、
第１の符号化フレームを生成するための前記手段は、前記第１の符号化方式に従って前記第１の符号化フレームを生成するように構成され、
第２の符号化フレームを生成するための前記手段は、前記第２の符号化方式に従って前記第２の符号化フレームを生成するように構成され、
第３の符号化フレームを生成するための前記手段は、前記第３の符号化方式に従って前記第３の符号化フレームを生成するように構成されている［２２］に記載の装置。
［２４］
前記音声信号中で、少なくとも１つのフレームは、前記第１のフレームと前記第２のフレームとの間に出現する［２２］に記載の装置。
［２５］
第２の符号化フレームを生成するための前記手段は、（Ａ）前記第２のフレームを含む前記音声信号の一部の、第１の周波数帯域上のスペクトル包絡線の記述および（Ｂ）前記第２のフレームを含む前記音声信号の一部の、前記第１の周波数帯域と異なる第２の周波数帯域上のスペクトル包絡線の記述を含む前記第２の符号化フレームを生成するように構成されている［２２］に記載の装置。
［２６］
第３の符号化フレームを生成するための前記手段は、（Ａ）前記第１の周波数帯域上のスペクトル包絡線の記述を含み、（Ｂ）前記第２の周波数帯域上のスペクトル包絡線の記述を含まない前記第３の符号化フレームを生成するように構成されている［２５］に記載の装置。
［２７］
第３の符号化フレームを生成するための前記手段は、前記第３のフレームを含む前記音声信号の一部のスペクトル包絡線の記述を含む前記第３の符号化フレームを生成するように構成されている［２２］に記載の装置。
［２８］
コンピュータ可読媒体を備えるコンピュータプログラム製品であって、前記媒体は、
前記音声信号の第１のフレームに基づく、ｐをゼロでない正の整数とするｐビットの長さを有する、第１の符号化フレームを少なくとも１つのコンピュータに生成させるためのコードと、
前記音声信号の第２のフレームに基づく、ｑをｐと異なるゼロでない正の整数とするｑビットの長さを有する、第２の符号化フレームを少なくとも１つのコンピュータに生成させるためのコードと、
前記音声信号の第３のフレームに基づく、ｒをｑよりも小さいゼロでない正の整数とするｒビットの長さを有する、第３の符号化フレームを少なくとも１つのコンピュータに生成させるためのコードとを備え、
前記第２のフレームは、前記第１のフレームの後に出現する非アクティブフレームであり、前記第３のフレームは、前記第２のフレームの後に出現する非アクティブフレームであり、前記第１のフレームと前記第３のフレームとの間の前記音声信号の前記フレームはすべて、非アクティブであるコンピュータプログラム製品。
［２９］
前記音声信号中で、少なくとも１つのフレームは、前記第１のフレームと前記第２のフレームとの間に出現する［２８］に記載のコンピュータプログラム製品。
［３０］
第２の符号化フレームを少なくとも１つのコンピュータに生成させるための前記コードは、（Ａ）前記第２のフレームを含む前記音声信号の一部の、第１の周波数帯域上のスペクトル包絡線の記述および（Ｂ）前記第２のフレームを含む前記音声信号の一部の、前記第１の周波数帯域と異なる第２の周波数帯域上のスペクトル包絡線の記述を含む前記第２の符号化フレームを前記少なくとも１つのコンピュータに生成させるように構成されている［２８］に記載のコンピュータプログラム製品。
［３１］
第３の符号化フレームを少なくとも１つのコンピュータに生成させるための前記コードは、（Ａ）前記第１の周波数帯域上のスペクトル包絡線の記述を含み、（Ｂ）前記第２の周波数帯域上のスペクトル包絡線の記述を含まない前記第３の符号化フレームを前記少なくとも１つのコンピュータに生成させるように構成されている［３０］に記載のコンピュータプログラム製品。
［３２］
第３の符号化フレームを少なくとも１つのコンピュータに生成させるための前記コードは、前記第３のフレームを含む前記音声信号の一部のスペクトル包絡線の記述を含む前記第３の符号化フレームを前記少なくとも１つのコンピュータに生成させるように構成されている［２８］に記載のコンピュータプログラム製品。
［３３］
音声信号のフレームを符号化するための装置であって、
前記音声信号の複数のフレームのそれぞれについて、前記フレームがアクティブであるか、または非アクティブであるかを指示するように構成された音声活動検出器と、
（Ａ）前記音声信号の第１のフレームに対する前記音声活動検出器の指示に応答して、第１の符号化方式を、
（Ｂ）前記第１のフレームの後に出現する非アクティブフレームの連続する系列の１つである第２のフレームについて、また前記第２のフレームが非アクティブであることを指示する前記音声活動検出器の指示に応答して、第２の符号化方式を、そして
（Ｃ）前記音声信号内の前記第２のフレームの後に続く、前記第１のフレームの後に出現する非アクティブフレームの連続する系列の他の１つである第３のフレームについて、また前記第３のフレームが非アクティブであることを指示する前記音声活動検出器の指示に応答して、第３の符号化方式を
選択するように構成された符号化方式選択器と、
（Ｄ）前記第１の符号化方式に従って、前記第１のフレームに基づく、ｐをゼロでない正の整数とするｐビットの長さを有する、第１の符号化フレームを、
（Ｅ）前記第２の符号化方式に従って、前記第２のフレームに基づく、ｑをｐと異なるゼロでない正の整数とするｑビットの長さを有する、第２の符号化フレームを、そして
（Ｆ）前記第３の符号化方式に従って、前記第３のフレームに基づく、ｒをｑよりも小さいゼロでない正の整数とするｒビットの長さを有する、第３の符号化フレームを
生成するように構成された音声符号器とを備える装置。
［３４］
前記音声信号中で、少なくとも１つのフレームは、前記第１のフレームと前記第２のフレームとの間に出現する［３３］に記載の装置。
［３５］
前記音声符号器は、（Ａ）前記第２のフレームを含む前記音声信号の一部の、第１の周波数帯域上のスペクトル包絡線の記述および（Ｂ）前記第２のフレームを含む前記音声信号の一部の、前記第１の周波数帯域と異なる第２の周波数帯域上のスペクトル包絡線の記述を含む前記第２の符号化フレームを生成するように構成されている［３３］に記載の装置。
［３６］
前記音声符号器は、（Ａ）前記第１の周波数帯域上のスペクトル包絡線の記述を含み、（Ｂ）前記第２の周波数帯域上のスペクトル包絡線の記述を含まない前記第３の符号化フレームを生成するように構成されている［３５］に記載の装置。
［３７］
前記音声符号器は、前記第３のフレームを含む前記音声信号の一部のスペクトル包絡線の記述を含む前記第３の符号化フレームを生成するように構成されている［３３］に記載の装置。
［３８］
符号化音声信号を処理する方法であって、
前記符号化音声信号の第１の符号化フレームから得られる情報に基づき、（Ａ）第１の周波数帯域および（Ｂ）前記第１の周波数帯域と異なる第２の周波数帯域上で音声信号の第１のフレームのスペクトル包絡線の記述を取得することと、
前記符号化音声信号の第２の符号化フレームから得られる情報に基づき、前記第１の周波数帯域上の前記音声信号の第２のフレームのスペクトル包絡線の記述を取得することと、
前記第１の符号化フレームから得られる情報に基づき、前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を取得することとを備える方法。
［３９］
前記第１の周波数帯域上の前記音声信号の第２のフレームのスペクトル包絡線の記述を前記取得することは、前記第２の符号化フレームから得られる情報に少なくとも主に基づく［３８］に記載の符号化音声信号を処理する方法。
［４０］
前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を前記取得することは、前記第１の符号化フレームから得られる情報に少なくとも主に基づく［３８］に記載の符号化音声信号を処理する方法。
［４１］
第１のフレームのスペクトル包絡線の前記記述は、前記第１の周波数帯域上の前記第１のフレームのスペクトル包絡線の記述および前記第２の周波数帯域上の前記第１のフレームのスペクトル包絡線の記述を含む［３８］に記載の符号化音声信号を処理する方法。
［４２］
前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を前記取得する際に基づく前記情報は、前記第２の周波数帯域上の前記第１のフレームのスペクトル包絡線の前記記述を含む［３５］に記載の符号化音声信号を処理する方法。
［４３］
前記第１の符号化フレームは、広帯域符号化方式に従って符号化され、前記第２の符号化フレームは、狭帯域符号化方式に従って符号化される［３８］に記載の符号化音声信号を処理する方法。
［４４］
前記第１の符号化フレームのビット単位の長さは、前記第２の符号化フレームのビット単位の長さの少なくとも２倍である［３８］に記載の符号化音声信号を処理する方法。
［４５］
前記第１の周波数帯域上の前記第２のフレームのスペクトル包絡線の前記記述、前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の前記記述、および少なくとも主に不規則雑音信号に基づく励振信号に基づき、前記第２のフレームを計算することを備える［３８］に記載の符号化音声信号を処理する方法。
［４６］
前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を前記取得することは、前記符号化音声信号の第３の符号化フレームから得られる情報に基づいており、前記第１および第３の符号化フレームは両方とも、前記第２の符号化フレームの前の前記符号化音声信号中に出現する［３８］に記載の符号化音声信号を処理する方法。
［４７］
第３の符号化フレームから得られる情報は、前記第２の周波数帯域上の前記音声信号の第３のフレームのスペクトル包絡線の記述を含む［４６］に記載の符号化音声信号を処理する方法。
［４８］
前記第２の周波数帯域上の前記第１のフレームのスペクトル包絡線の前記記述は、スペクトルパラメータ値のベクトルを含み、
前記第２の周波数帯域上の前記第３のフレームのスペクトル包絡線の前記記述は、スペクトルパラメータ値のベクトルを含み、
前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を前記取得することは、前記第１のフレームのスペクトルパラメータ値の前記ベクトルおよび前記第３のフレームのスペクトルパラメータ値の前記ベクトルの関数として前記第２のフレームのスペクトルパラメータ値のベクトルを計算することを含む［４６］に記載の符号化音声信号を処理する方法。
［４９］
前記第１の符号化フレームの符号化インデックスが少なくとも１つの所定の条件を満たしていることを検出したことに応答して、前記第１の符号化フレームから得られた前記情報を格納し、その後前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を前記取得することと、
前記第３の符号化フレームの符号化インデックスが少なくとも１つの所定の条件を満たしていることを検出したことに応答して、前記第３の符号化フレームから得られた前記情報を格納し、その後前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を前記取得することと、
前記第２の符号化フレームの符号化インデックスが少なくとも１つの所定の条件を満たしていることを検出したことに応答して、前記第１の符号化フレームからの前記格納されている情報と前記第３の符号化フレームからの前記格納されている情報とを取り出すこととを備える［４６］に記載の符号化音声信号を処理する方法。
［５０］
前記第２のフレームに続く前記音声信号の複数のフレームのそれぞれについて、前記第２の周波数帯域上の前記フレームのスペクトル包絡線の、前記第１の符号化フレームから得られた情報に基づく記述を取得することを備える［３８］に記載の符号化音声信号を処理する方法。
［５１］
前記第２のフレームに続く前記音声信号の複数のフレームのそれぞれについて、（Ｃ）前記第２の周波数帯域上の前記フレームのスペクトル包絡線の、前記第１の符号化フレームから得られた情報に基づく記述を取得することと、（Ｄ）前記第１の周波数帯域上の前記フレームのスペクトル包絡線の、前記第２の符号化フレームから得られた情報に基づく記述を取得することとを備える［３８］に記載の符号化音声信号を処理する方法。
［５２］
前記第１の周波数帯域上の前記第２のフレームの励振信号に基づき、前記第２の周波数帯域上の前記第２のフレームの励振信号を取得することを備える［３８］に記載の符号化音声信号を処理する方法。
［５３］
前記第１の符号化フレームから得られた情報に基づき、前記第２の周波数帯域に対する前記第２のフレームの時間情報の記述を取得することを備える［３８］に記載の符号化音声信号を処理する方法。
［５４］
前記第２のフレームの時間情報の前記記述は、前記第２の周波数帯域に対する前記第２のフレームの時間包絡線の記述を含む［３８］に記載の符号化音声信号を処理する方法。
［５５］
符号化音声信号を処理するための装置であって、
前記符号化音声信号の第１の符号化フレームから得られた情報に基づき、（Ａ）第１の周波数帯域および（Ｂ）前記第１の周波数帯域と異なる第２の周波数帯域上の音声信号の第１のフレームのスペクトル包絡線の記述を取得するための手段と、
前記符号化音声信号の第２の符号化フレームから得られた情報に基づき、前記第１の周波数帯域上の前記音声信号の第２のフレームのスペクトル包絡線の記述を取得するための手段と、
前記第１の符号化フレームから得られた情報に基づき、前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を取得するための手段とを備える装置。
［５６］
第１のフレームのスペクトル包絡線の前記記述は、前記第１の周波数帯域上の前記第１のフレームのスペクトル包絡線の記述および前記第２の周波数帯域上の前記第１のフレームのスペクトル包絡線の記述を含み、
前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を取得するための前記手段が前記記述を取得するように構成される際に基づく前記情報は、前記第２の周波数帯域上の前記第１のフレームのスペクトル包絡線の前記記述を含む［５５］に記載の符号化音声信号を処理するための装置。
［５７］
前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を取得するための前記手段は、前記符号化音声信号の第３の符号化フレームから得られた情報に基づき前記記述を取得するように構成され、前記第１および第３の符号化フレームは両方とも、前記第２の符号化フレームの前の前記符号化音声信号中に出現し、
第３の符号化フレームから得られた前記情報は、前記第２の周波数帯域上の前記音声信号の第３のフレームのスペクトル包絡線の記述を含む［５５］に記載の符号化音声信号を処理するための装置。
［５８］
前記第２のフレームに続く前記音声信号の複数のフレームのそれぞれについて、前記第２の周波数帯域上の前記フレームのスペクトル包絡線の、前記第１の符号化フレームから得られた情報に基づく記述を取得するための手段を備える［５５］に記載の符号化音声信号を処理するための装置。
［５９］
前記第２のフレームに続く前記音声信号の複数のフレームのそれぞれについて、前記第２の周波数帯域上の前記フレームのスペクトル包絡線の、前記第１の符号化フレームから得られた情報に基づく記述を取得するための手段と、
前記複数のフレームのそれぞれについて、前記第１の周波数帯域上の前記フレームのスペクトル包絡線の、前記第２の符号化フレームから得られた情報に基づく記述を取得するための手段とを備える［５５］に記載の符号化音声信号を処理するための装置。
［６０］
前記第１の周波数帯域上の前記第２のフレームの励振信号に基づき、前記第２の周波数帯域上の前記第２のフレームの励振信号を取得するための手段を備える［５５］に記載の符号化音声信号を処理するための装置。
［６１］
前記第１の符号化フレームから得られた情報に基づき、前記第２の周波数帯域に対する前記第２のフレームの時間情報の記述を取得するための手段を備え、
前記第２のフレームの時間情報の前記記述は、前記第２の周波数帯域に対する前記第２のフレームの時間包絡線の記述を含む［５５］に記載の符号化音声信号を処理するための装置。
［６２］
コンピュータ可読媒体を備えるコンピュータプログラム製品であって、前記媒体は、
前記符号化音声信号の第１の符号化フレームから得られる情報に基づき、（Ａ）第１の周波数帯域および（Ｂ）前記第１の周波数帯域と異なる第２の周波数帯域上で音声信号の第１のフレームのスペクトル包絡線の記述を少なくとも１つのコンピュータに取得させるためのコードと、
前記符号化音声信号の第２の符号化フレームから得られる情報に基づき、前記第１の周波数帯域上の前記音声信号の第２のフレームのスペクトル包絡線の記述を少なくとも１つのコンピュータに取得させるためのコードと、
前記第１の符号化フレームから得られる情報に基づき、前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を少なくとも１つのコンピュータに取得させるためのコードとを備えるコンピュータプログラム製品。
［６３］
第１のフレームのスペクトル包絡線の前記記述は、前記第１の周波数帯域上の前記第１のフレームのスペクトル包絡線の記述および前記第２の周波数帯域上の前記第１のフレームのスペクトル包絡線の記述を含み、
前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を少なくとも１つのコンピュータに取得させるための前記コードが前記記述を取得するように構成される際に基づく前記情報は、前記第２の周波数帯域上の前記第１のフレームのスペクトル包絡線の前記記述を含む［６２］に記載のコンピュータプログラム製品。
［６４］
前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を少なくとも１つのコンピュータに取得させるための前記コードは、前記符号化音声信号の第３の符号化フレームから得られた情報に基づき前記記述を取得するように構成され、前記第１および第３の符号化フレームは両方とも、前記第２の符号化フレームの前の前記符号化音声信号中に出現し、
第３の符号化フレームから得られた前記情報は、前記第２の周波数帯域上の前記音声信号の第３のフレームのスペクトル包絡線の記述を含む［６２］に記載のコンピュータプログラム製品。
［６５］
前記装置は、前記第２のフレームに続く前記音声信号の複数のフレームのそれぞれについて、前記第２の周波数帯域上の前記フレームのスペクトル包絡線の、前記第１の符号化フレームから得られた情報に基づく記述を少なくとも１つのコンピュータに取得させるためのコードを備える［６２］に記載のコンピュータプログラム製品。
［６６］
前記装置は、
前記第２のフレームに続く前記音声信号の複数のフレームのそれぞれについて、前記第２の周波数帯域上の前記フレームのスペクトル包絡線の、前記第１の符号化フレームから得られた情報に基づく記述を少なくとも１つのコンピュータに取得させるためのコードと、
前記複数のフレームのそれぞれについて、前記第１の周波数帯域上の前記フレームのスペクトル包絡線の、前記第２の符号化フレームから得られた情報に基づく記述を少なくとも１つのコンピュータに取得させるためのコードとを備える［６２］に記載のコンピュータプログラム製品。
［６７］
前記装置は、前記第１の周波数帯域上の前記第２のフレームの励振信号に基づき、前記第２の周波数帯域上の前記第２のフレームの励振信号を少なくとも１つのコンピュータに取得させるためのコードを備える［６２］に記載のコンピュータプログラム製品。
［６８］
前記装置は、前記第１の符号化フレームから得られた情報に基づき、前記第２の周波数帯域に対する前記第２のフレームの時間情報の記述を少なくとも１つのコンピュータに取得させるためのコードを備え、
前記第２のフレームの時間情報の前記記述は、前記第２の周波数帯域に対する前記第２のフレームの時間包絡線の記述を含む［６２］に記載のコンピュータプログラム製品。
［６９］
符号化音声信号を処理するための装置であって、
前記符号化音声信号の符号化フレームの符号化インデックスに基づく値のシーケンスを備える、前記シーケンスのそれぞれの値が前記符号化音声信号の符号化フレームに対応する制御信号を生成するように構成された制御ロジックと、
（Ａ）第１の状態を有する前記制御信号の値に応じて、前記第１および第２の周波数帯域上のスペクトル包絡線の、前記対応する符号化フレームから得られた情報に基づく記述に基づき復号化フレームを計算し、（Ｂ）前記第１の状態と異なる第２の状態を有する前記制御信号の値に応じて、（１）前記第１の周波数帯域上のスペクトル包絡線の、前記対応する符号化フレームから得られた情報に基づく記述、および（２）前記第２の周波数帯域上のスペクトル包絡線の、前記対応する符号化フレームの前に前記符号化音声信号中に出現する少なくとも１つの符号化フレームから得られた情報に基づく記述に基づき復号化フレームを計算するように構成されている音声復号器とを備える装置。
［７０］
前記音声復号器が前記第２の状態を有する前記制御信号の値に応じて復号化フレームを計算するように構成される際に基づく、前記第２の周波数帯域上のスペクトル包絡線の前記記述は、前記対応する符号化フレームの前の前記符号化音声信号中に出現する少なくとも２つの符号化フレームのそれぞれから得られる情報に基づく［６９］に記載の符号化音声信号を処理するための装置。
［７１］
前記制御ロジックは、対応するフレーム周期に符号化フレームを受信することに失敗したことに応答して、前記第１および第２の状態と異なる、第３の状態を有する前記制御信号の値を生成するように構成され、
前記音声復号器は、（Ｃ）前記第３の状態を有する前記制御信号の値に応じて、（１）前記第１の周波数帯域上の前記フレームのスペクトル包絡線の、前記一番最近に受信された符号化フレームから得られた情報に基づく記述、および（２）前記第２の周波数帯域上の前記フレームのスペクトル包絡線の、前記一番最近に受信された符号化フレームの前に前記符号化音声信号中に出現する符号化フレームから得られた情報に基づく記述に基づき復号化フレームを計算するように構成されている［６９］に記載の符号化音声信号を処理するための装置。
［７２］
前記音声復号器は、前記第２の状態を有する前記制御信号の値に応じて、また前記第１の周波数帯域上の前記復号化フレームの励振信号に基づき、前記第２の周波数帯域上の前記復号化フレームの励振信号を計算するように構成されている［６９］に記載の符号化音声信号を処理するための装置。
［７３］
前記音声復号器は、前記第２の状態を有する前記制御信号の値に応じて、前記第２の周波数帯域に対する時間包絡線の、前記対応する符号化フレームの前に前記符号化音声信号中に出現する少なくとも１つの符号化フレームから得られた情報に基づく記述に基づき前記復号化フレームを計算するように構成されている［６９］に記載の符号化音声信号を処理するための装置。
［７４］
前記音声復号器は、前記第２の状態を有する前記制御信号の値に応じて、少なくとも主に不規則雑音信号に基づく励振信号に基づき前記復号化フレームを計算するように構成されている［６９］に記載の符号化音声信号を処理するための装置。

Claims

符号化音声信号を処理する方法であって、
前記符号化音声信号の第１の符号化フレームから得られる情報に基づき、（Ａ）第１の周波数帯域および（Ｂ）前記第１の周波数帯域と異なる第２の周波数帯域上で音声信号の第１のフレームのスペクトル包絡線の記述を取得することと、
前記符号化音声信号の第２の符号化フレームから得られる情報に基づき、前記第１の周波数帯域上の前記音声信号の第２のフレームのスペクトル包絡線の記述を取得することと、
前記第１の符号化フレームから得られる情報に基づき、前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を取得することとを備え、
前記第１の符号化フレームは、前記第１の周波数帯域及び前記第２の周波数帯域のための広帯域符号化方式に従って符号化され、前記第２の符号化フレームは、前記第１の周波数帯域のための狭帯域符号化方式に従って符号化される方法。
符号化音声信号を処理するための装置であって、
前記符号化音声信号の第１の符号化フレームから得られた情報に基づき、（Ａ）第１の周波数帯域および（Ｂ）前記第１の周波数帯域と異なる第２の周波数帯域上の音声信号の第１のフレームのスペクトル包絡線の記述を取得するための手段と、
前記符号化音声信号の第２の符号化フレームから得られた情報に基づき、前記第１の周波数帯域上の前記音声信号の第２のフレームのスペクトル包絡線の記述を取得するための手段と、
前記第１の符号化フレームから得られた情報に基づき、前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を取得するための手段とを備え、
前記第１の符号化フレームは、前記第１の周波数帯域及び前記第２の周波数帯域のための広帯域符号化方式に従って符号化され、前記第２の符号化フレームは、前記第１の周波数帯域のための狭帯域符号化方式に従って符号化される装置。
符号化音声信号を処理するための装置であって、
前記符号化音声信号の第１の符号化フレームから得られた情報に基づき、（Ａ）第１の周波数帯域および（Ｂ）前記第１の周波数帯域と異なる第２の周波数帯域上の音声信号の第１のフレームのスペクトル包絡線の記述を取得する第１のユニットと、
前記符号化音声信号の第２の符号化フレームから得られた情報に基づき、前記第１の周波数帯域上の前記音声信号の第２のフレームのスペクトル包絡線の記述を取得する第２のユニットと、
前記第１の符号化フレームから得られた情報に基づき、前記第２の周波数帯域上の前記第２のフレームのスペクトル包絡線の記述を取得する第３のユニットとを備え、
前記第１の符号化フレームは、前記第１の周波数帯域及び前記第２の周波数帯域のための広帯域符号化方式に従って符号化され、前記第２の符号化フレームは、前記第１の周波数帯域のための狭帯域符号化方式に従って符号化される装置。