JP2009545779A

JP2009545779A - 信号変化検出のためのシステム、方法、および装置

Info

Publication number: JP2009545779A
Application number: JP2009523024A
Authority: JP
Inventors: ラジェンドラン、ビベク; カンドハダイ、アナンサパドマナブハン・エー．
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2006-07-31
Filing date: 2007-07-31
Publication date: 2009-12-24
Anticipated expiration: 2027-07-31
Also published as: US8725499B2; KR20090033461A; EP2047457B1; WO2008016942A3; JP4995913B2; RU2009107181A; CA2657420A1; WO2008016942A2; ES2733099T3; RU2417456C2; BRPI0715063B1; BRPI0715063A2; EP2047457A2; HUE042959T2; KR101060533B1; CA2657420C; US20080027716A1

Abstract

開示される構成は、音声信号の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成するように構成されたシステム、方法、および装置を含む。音声信号の複数の非アクティブフレームの各々について、伝送決定は、シーケンスの少なくとも２つの対応する値の間で計算された変化に従って行われる。伝送決定の結果は、対応する非アクティブフレームについて無音記述が伝送されるかどうかを決定する。

Description

関連出願
本出願は、２００６年７月３１日に出願された「ＳＰＥＣＴＲＡＬＴＩＬＴＢＡＳＥＤＤＴＸＳＣＨＥＭＥ」という名称の米国仮特許出願第６０／８３４，６８９号、代理人整理番号０６１６５７Ｐ１の利益を主張するものである。

本開示は、信号処理に関する。

デジタル技術による音声の伝送は、特に長距離電話通信、ボイスオーバーＩＰ（Voice over IP）（ＶｏＩＰ）などのパケット交換電話通信、携帯電話などのデジタル無線電話通信において、広く普及してきた。このような普及は、伝送チャネルを介して音声通信を転送するために使用される情報量を軽減すると同時に、復元された音声の感知品質を維持することへの関心をもたらせた。

人間の音声生成のモデルに関連するパラメータを抽出することによって音声を圧縮するように構成されるデバイスは、「音声コーダ」と呼ばれる。音声コーダは、一般に、符号器および復号器を含む。符号器は、通常、着信音声信号（オーディオ情報を表すデジタル信号）を「フレーム」と呼ばれる時間のセグメントに分割し、特定の関連するパラメータを抽出するために各フレームを分析し、パラメータを、ビットのセットまたはバイナリデータパケットなどの２進表現に量子化する。データパケットは、伝送チャネル（つまり、有線または無線のネットワーク接続）を介して、復号器を含む受信機に伝送される。復号器は、データパケットを受信して処理し、パラメータを生成するためにそれらを逆量子化し、逆量子化されたパラメータを使用して音声フレームを再作成する。

通常の会話において、各話者は、その時間の約６０パーセントの間は黙っている。音声符号器は、通常、無音または背景雑音のみを含む音声信号のフレーム（「非アクティブフレーム」）から音声を含む音声信号のフレーム（「アクティブフレーム」）を区別するように構成される。そのような符号器は、アクティブフレームおよび非アクティブフレームを符号化するために異なる符号化モードおよび／またはレートを使用するように構成されることがある。たとえば、音声符号器は、通常、符号化されたアクティブフレームよりも低いビットレートで符号化された非アクティブフレーム（「無音記述子」、「無音記述」、またはＳＩＤとも呼ばれる）を伝送するように構成される。

全二重電話通信中のいかなる時点においても、音声符号器のうちの少なくとも１つへの入力が非アクティブフレームになることが予想されることがある。符号器にとって、非アクティブフレーム全体よりも少ないＳＩＤを伝送することが望ましいことがある。このような操作も不連続伝送（ＤＴＸ）とも呼ばれる。１つの例において、音声符号器は、３２の連続する非アクティブフレームのストリングごとに、１つのＳＩＤを伝送することによってＤＴＸを実行する。対応する復号器は、非アクティブフレームを合成するために快適雑音発生アルゴリズムによって使用される雑音発生モデルを更新するために、ＳＩＤの情報を適用する。

１つの構成による音声信号を処理する方法は、音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成することを含む。この方法は、スペクトル傾斜値のシーケンスの少なくとも２つの値の間の変化を計算すること、および複数の非アクティブフレームのうちの１つの非アクティブフレームについて、フレームの記述を伝送すべきかどうかを決定することを含む。この方法において、フレームの記述を伝送すべきかどうかを決定することは、計算された変化に基づく。

もう１つの構成によるコンピュータプログラム製品は、コンピュータ可読媒体を含む。この媒体は、少なくとも１つのコンピュータに、音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成させるためのコードを含む。この媒体は、少なくとも１つのコンピュータに、スペクトル傾斜値のシーケンスの少なくとも２つの値の間の変化を計算させるためのコードと、および少なくとも１つのコンピュータに、複数の非アクティブフレームのうちの１つの非アクティブフレームについて、計算された変化に基づいて、フレームの記述を伝送すべきかどうかを決定させるためのコードと、を含む。

もう１つの構成による音声信号を処理するための装置は、音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成するように構成されたシーケンス発生器を含む。この装置は、スペクトル傾斜値のシーケンスの少なくとも２つの値の間の変化を計算するように構成された計算器と、および複数の非アクティブフレームのうちの１つの非アクティブフレームについて、計算された変化に基づいて、フレームの記述を伝送すべきかどうかを決定するように構成された比較器とを含む。

もう１つの構成による音声信号を処理する装置は、音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成するための手段を含む。この装置は、スペクトル傾斜値のシーケンスの少なくとも２つの値の間の変化を計算するための手段と、および複数の非アクティブフレームのうちの１つの非アクティブフレームについて、計算された変化に基づいて、フレームの記述を伝送すべきかどうかを決定するための手段と、を含む。

図１Ａは、１つの構成による方法Ｍ１００の流れ図を示す。図１Ｂは、１つの構成による装置Ａ１００のブロック図を示す。図１Ｃは、方法Ｍ１００の実施態様Ｍ１０１の流れ図を示す。図１Ｄは、装置Ａ１００の実施態様Ａ１０１のブロック図を示す。図２は、スムーザ１３０の実施態様１３２のブロック図を示す。図３は、各々の円が時間の経過に伴う音声信号の一連の連続フレームの１つを表す具体例を示す。図４は、計算器１４０の実施態様１４２のブロック図を示す。図５は、比較器１５０の実施態様１５２のブロック図を示す。図６は、比較器１５０の実施態様１５４のブロック図を示す。図７Ａは、装置Ａ１００の実施態様Ａ１０２のブロック図を示す。図７Ｂは、さまざまな伝送指示が１つの複合伝送指示に結合される例を示す。図８Ａは、方法Ｍ１００の実施態様を実行するために実行されうる命令のセットのソースコードリストを示す。図８Ｂは、方法Ｍ１００のもう１つの実施態様を実行するために実行されうる命令のセットのソースコードリストを示す。図９は、方法Ｍ１０１および音声符号化の組み合わせを備える方法の流れ図を示す。図１０は、装置Ａ１０１および音声符号器の組み合わせを備える装置のブロック図を示す。図１１Ａは、方法Ｍ１００の実施態様Ｍ２００の流れ図を示す。図１１Ｂは、装置Ａ１００の実施態様Ａ２００の流れ図を示す。図１２Ａは、方法Ｍ１０１の実施態様Ｍ１１０の流れ図を示す。図１２Ｂは、方法Ｍ２００の実施態様Ｍ２１０の流れ図を示す。図１２Ｃは、方法Ｍ１０１の実施態様Ｍ１２０の流れ図を示す。図１２Ｄは、方法Ｍ２００の実施態様Ｍ２２０の流れ図を示す。図１３Ａは、ハングオーバを適用しない場合の平滑化されたスペクトル傾斜曲線の例を示す。図１３Ｂは、ハングオーバを適用した場合の平滑化されたスペクトル傾斜曲線の例を示す。図１４は、方法Ｍ１００のさらなる実施態様を行うために実行されうる命令のセットのソースコードリストを示す。図１５は、ハングオーバ論理回路の例のブロック図を示す。図１６Ａは、スムーザ１３２の実施態様１３４のブロック図を示す。図１６Ｂは、スムーザ１３２の実施態様１３６のブロック図を示す。図１７Ａは、予測利得に基づいて更新制御信号を生成するように構成された制御信号発生器６０の１つの例６２のブロック図を示す。図１７Ｂは、ハングオーバを適用するように構成された制御信号発生器６２の１つの例６４のブロック図を示す。図１８は、ハングオーバ論理回路５２も含む制御信号発生器６４の１つの実施態様６６のブロック図を示す。図１９Ａは、伝送指示制御回路７０の１つの例７２のブロック図を示す。図１９Ｂは、比較器１５２の実施態様１５６のブロック図を示す。図２０は、更新制御信号を生成するように構成され、ＳＩＤ伝送指示をゲート制御するように構成された制御回路８０の１つの例８２のブロック図を示す。図２１は、方法Ｍ１００のさらなる実施態様を行うために実行されうる命令のセットのソースコードリストを示す。

本明細書に説明される構成は、音声信号の変化を検出するためのシステム、方法、および装置を含む。たとえば、信号の非アクティブ期間中の変化を検出し、そのような検出に基づいて、信号の記述の更新を開始するための構成が開示される。これらの構成は通常、パケット交換ネットワーク（たとえば、ボイスオーバーＩＰつまりＶｏＩＰなどのプロトコルに従って音声を伝送するように構成された有線および／または無線ネットワーク）において使用することが意図されているが、回路交換ネットワークにおける使用もまた明示的に検討され、本明細書に開示される。

このコンテキストによる明示的な限定がない限り、「計算（calculating）」という用語は、算出、評価、平滑化、および複数の値からの選択など、その通常の意味のいずれかを示すために本明細書で使用される。「備える（comprising）」という用語が本発明の説明および特許請求の範囲において使用される場合、それはその他の要素または操作を除外するものではない。「ＡはＢに基づく（A is based on B）」という用語は、（ｉ）「Ａは少なくともＢに基づく（A is based on at least B）」、および（ｉｉ）「ＡはＢと等しい（A is equal to B）」（特定のコンテキストにおいて適切な場合）の事例を含むその通常の意味のいずれかを示すために使用される。

ＤＴＸを実施している符号器は、帰線消去方式に従って最も非アクティブなフレームをドロップ（または「帰線消去」）するように構成されることがある。帰線消去方式の１つの例は、一定の間隔で（たとえば、１６番目または３２番目の連続する非アクティブフレームごとに１回など）、無音記述の更新を発行する。その他の帰線消去方式（「スマートブランキング」方式とも呼ばれる）は、背景雑音の変化を指示する可能性のあるエネルギーおよび／またはスペクトル特性の変動を検出すると、無音記述の更新を発行するように構成される。

エネルギーの変動のみに依存する帰線消去方式は、場合によっては、背景雑音の知覚的に重要な変化を検出することができないこともある。ある場合には、知覚的に異なる非アクティブフレームが、類似したエネルギー特性（通常、利得値として符号化される）を有することになる。たとえば、通りの背景雑音（「ストリートノイズ」）が、混雑した場所の背景雑音（「バブルノイズ」）の経時エネルギー分布と類似した経時エネルギー分布を有することがあるが、これらの２つのタイプの雑音は、通常、非常に異なったものとして感知される。知覚的に異なるタイプの雑音を区別することができない帰線消去方式は、復号器において可聴音のアーティファクトを生じさせることもある。アクティブフレームは背景雑音も含むので、たとえば、復号器が、復号化アクティブフレームから、不適切なＳＩＤから生成される快適雑音へと切り替えるとき、可聴の途切れが発生することもある。

帰線消去方式が、知覚的に重要となりうる背景雑音の変化を検出することが望ましい。たとえば、帰線消去方式が、背景雑音の１つまたは複数のスペクトル特性（たとえば、スペクトル傾斜）の突然の変化を検出することが望ましい場合がある。本明細書において説明される方法および装置は、そのような帰線消去方式を実施するために使用することができる。代替として、本明細書において説明される方法および装置は、別の帰線消去方式を補足するために使用することができる。たとえば、音声符号器または音声符号化の方法は、本明細書において説明される方法または装置と、米国特許出願公開第２００６／０１７１４１９号明細書（Ｓｐｉｎｄｏｌａ他、２００６年８月３日公開）において説明されている帰線消去方式、またはフレームエネルギーの変化および／または線スペクトルペアベクトル間の差異などの音声信号のスペクトル特性の変化を検出するように構成される別の帰線消去方式を組み合わせることができる。

図１Ａは、一般的な構成による方法Ｍ１００の流れ図を示す。音声信号の複数の非アクティブフレームに基づいて、タスクＴ２００は、スペクトル傾斜値のシーケンスを生成する。タスクＴ４００は、スペクトル傾斜値のシーケンス内の変化（たとえば、シーケンスの少なくとも２つの値の間の変化）を計算する。音声信号の非アクティブフレームについて、タスクＴ５００は、フレームの記述を伝送すべきかどうかを決定するが、ここで決定は計算された変化に基づく。たとえば、記述を伝送すべきかどうかの決定は、（Ａ）計算された変化の絶対値と（Ｂ）しきい値との間の関係に基づくことがある。

方法Ｍ１００の標準的な実施態様において、各スペクトル傾斜値のシーケンスは、対応する非アクティブフレームのスペクトル傾斜に基づく。音声信号のフレームのスペクトル傾斜は、周波数範囲にわたるフレーム内のエネルギーの分布を記述する値である。通常、スペクトル傾斜は、対応するフレームにわたる信号のスペクトルの勾配を示し、正または負である。スペクトル傾斜値のシーケンスの次の値を生成する動作はまた、シーケンスの「更新」とも呼ばれる。

スペクトル傾斜値のシーケンスの値は通常、シーケンスの継続的な値が時間的に継続的な信号のセグメントに対応するように、時間的に逐次的になるように配列される。この方法で配列されたスペクトル傾斜値のシーケンスは、時間の経過に伴う音声信号のエネルギースペクトルの勾配の変化を記述する曲線（つまり、スペクトル傾斜曲線）を表すものと言える。

タスクＴ２００は、さまざまな方法のいずれかでスペクトル傾斜値のシーケンスを生成するために実施することができる。たとえば、タスクＴ２００は、記憶素子またはアレイ（たとえば、半導体メモリユニットまたはアレイ）から、音声符号化の方法などのさらに大規模なプロセスの別のタスクから、または音声符号器などの装置の要素から、そのようなシーケンスを受信するように構成されることがある。代替として、タスクＴ２００は、本明細書において説明されるように、そのようなシーケンスを計算するように構成することもできる。

タスクＴ２００は、受信または計算されたシーケンス（本明細書においてｘとも示される）を、生成されたスペクトル傾斜値のシーケンスとして出力するように構成することができる。代替として、タスクＴ２００は、このシーケンスｘに１つまたは複数のその他の操作を実行することにより、スペクトル傾斜値のシーケンスｙを生成するように構成することができる。これらのその他の操作は、たとえば、ｎを１よりも大きい整数のとき、ｎ番目ごとに値を選択することおよび／または非アクティブフレームに対応する値のみを選択することで、シーケンスｘの値から別のシーケンスを選択することを含むことができる。これらのその他の操作はまた、本明細書において説明されるように、受信されるか、計算されるか、または選択されるシーケンスを平滑化することも含む。

音声信号の時間的な各セグメントの期間（「セグメント」または「フレーム」とも呼ばれる）は通常、信号のスペクトル包絡線が比較的定常を維持することが予測されるように十分に短く選択される。たとえば、１つの標準的なフレーム長さは２０ミリ秒であり、これは８キロヘルツ（ｋＨｚ）のサンプリングレートにおける１６０個のサンプルに対応するが、特定の適用に適切であると見なされる任意のフレーム長さまたはサンプリングレートが使用されることがある。ある適用においてフレームは非重複であるが、これに対して別の適用においては重複フレーム方式が使用される。たとえば、音声コーダが、符号器において重複フレーム方式を使用し、復号器において非重複フレーム方式を使用することが一般的である。

通常の適用において、論理ゲートのアレイは、方法Ｍ１００のさまざまなタスクのうちの１つ、複数、またはそのすべても実行するように構成される。たとえば、そのような１つのタスクまたは複数のタスクは、プロセッサなどのプログラム可能アレイによって実行されるように機械実行可能コードとして実施されることがある。方法Ｍ１００のタスクはまた、複数のそのようなアレイによって実行されることがある。これらのまたはその他の実施態様において、タスクは、携帯電話などの無線通信用のデバイスまたはそのような通信機能を有するその他のデバイス内で実行することができる。そのようなデバイスは、回線交換および／またはパケット交換ネットワークと通信するように（例えば、ＶｏＩＰのような１つまたは複数のプロトコルを使用して）構成することができる。たとえば、そのようなデバイスは、符号化アクティブフレームおよびＳＩＤを伝送するように構成されたＲＦ回路を含むことができる。方法Ｍ１００はまた、コンピュータプログラム製品（たとえば、ディスク、フラッシュまたはその他の不揮発性メモリカード、半導体メモリチップなどの１つまたは複数のデータ記憶媒体）において具現されることもある。

方法Ｍ１００の通常の適用において、タスクＴ４００は、スペクトル傾斜値の継続するペアに基づいて一連の変化を計算するためにタスクＴ２００によって生成されたスペクトル傾斜値のシーケンスにわたり反復して、およびタスクＴ５００は、一連の変化にわたり反復して、一連の伝送決定を実行する。一般に、タスクＴ２００は進行中のプロセスとして実行し、タスクＴ４００およびＴ５００は、スペクトル傾斜値ならびに対応する計算された変化および伝送指示が（たとえば、場合によっては１つまたは複数の非アクティブフレームの初期化期間後など）音声信号の非アクティブフレームごとに生成されるように、直列的または並列的に反復する。また、タスクＴ２００がすべての非アクティブフレームよりも低い頻度（たとえば、２フレームまたは３フレームごと）でスペクトル傾斜値を生成するように、タスクＴ４００がタスクＴ２００と同じ頻度またはより低い頻度（たとえば、タスクＴ２００の２番目または３番目の反復ごと）で実行されるように、および／またはタスクＴ５００がタスクＴ４００と同じ頻度またはより低い頻度（たとえば、タスクＴ４００の２番目または３番目の反復ごと）で実行されるように、方法Ｍ１００を実施することも可能である。

図１Ｂは、一般的な構成による装置Ａ１００のブロック図を示す。シーケンス発生器１２０は、音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成するように構成される。たとえば、シーケンス発生器１２０は、本明細書に開示されるように、タスクＴ２００の実施態様を実行するように構成されてもよい。計算器１４０は、スペクトル傾斜値のシーケンスの少なくとも２つの値の間の変化を計算するように構成される。たとえば、計算器１４０は、本明細書に開示されるように、タスクＴ４００の実施態様を実行するように構成されてもよい。比較器１５０は、音声信号の非アクティブセグメントの記述を伝送すべきかどうかを決定するように構成され、ここで決定は、計算された変化（たとえば、（Ａ）計算された変化の絶対値と（Ｂ）しきい値との間の関係）に基づく。たとえば、比較器１５０は、本明細書に開示されるように、タスクＴ５００の実施態様を実行するように構成されることがある。標準的な適用において、装置Ａ１００の実施態様は、スペクトル傾斜値のシーケンスを処理し、シーケンスに基づいて一連の伝送決定を生成するように構成される。

装置Ａ１００のさまざまな要素は、意図される適用に適切であると見なされるハードウェア、ソフトウェア、および／またはファームウェアの任意の組み合わせにおいて実施することができる。たとえば、これらの要素のいずれかは、論理ゲートの１つまたは複数のアレイとして実施されことがある。これらの要素のいずれか２つ以上、またはそのすべては、同一のアレイまたは複数の同一のアレイ内で実施することができる。そのような１つのアレイまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）で実施することができる。装置Ａ１００のさまざまな要素のいずれかはまた、１つまたは複数のコンピュータ（たとえば、「プロセッサ」とも呼ばれる、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされたアレイ）として実施することができ、そしてこれらの要素の任意の２つ以上またはすべてはそのような同一のコンピュータまたは複数の同一のコンピュータ内で実施することができる。装置Ａ１００のさまざまな要素を、携帯電話などの無線通信用のデバイスまたはそのような通信機能を有するその他のデバイス内に含むことができる。そのようなデバイスは、（たとえば、ＶｏＩＰのような１つまたは複数のプロトコルを使用して）回線交換および／またはパケット交換ネットワークと通信するように構成することができる。たとえば、そのようなデバイスは、対応する伝送決定の結果に従ってＳＩＤを伝送するように構成される音声符号器および／または符号化アクティブフレームおよびＳＩＤを伝送するように構成されたＲＦ回路を含むことができる。

フレームのスペクトル傾斜を指示するためにその値を使用することができるパラメータの１つの例は、第１の反射係数ｋ_０であり、そしてその他のそのようなパラメータについては以下で説明される。タスクＴ２００は、音声符号化の方法など、より大規模な手順の別のタスクからスペクトル傾斜値のシーケンスを受信するように構成することができる。代替として、タスクＴ２００は、以下で説明されるような値を計算するように構成されるタスクＴ２１０を含むように実施することができる。同様に、シーケンス発生器１２０は、音声符号器または通信デバイスなど、より大規模な装置の別の要素からスペクトル傾斜値のシーケンスを受信するように構成することができる。代替として、シーケンス発生器１２０は、以下で説明されるような値を計算するように構成される計算器１２８を含むように実施することができる。

タスクＴ２００は、スペクトル傾斜値のシーケンスを平滑化するタスクＴ３００を含むように実施することができる。タスクＴ３００の標準的な実施態様は、無限インパルス応答（ＩＩＲ）フィルタなど、自己回帰モデルに従ってスペクトル傾斜値のシーケンスをフィルタリングするように構成される。タスクＴ３００の特定の例は、平滑化されたシーケンスｙの各値を、スペクトル傾斜値の入力シーケンスｘの現行値および平滑化されたシーケンスｙの以前の値の加重平均として計算するために、以下の一次ＩＩＲフィルタリング操作を実行する。

ここで、ｎは逐次指標を示す。望ましい平滑化の度合いに応じて、利得係数ａは０から１の任意の値を有することができる。一般に、利得係数ａは、０．６以下の値を有する。たとえば、利得係数aは、０．１から（または０．１５から）０．４まで（または０．５まで）の範囲の値を有することができる。１つの特定の例において、シーケンスｘは第１の反射係数ｋ_０の一連の値であり、利得係数ａは、値０．２（zero point two）を有する。図１Ｃは、タスクＴ２００がタスクＴ３００として実施される方法Ｍ１００の実施態様Ｍ１０１の流れ図を示す。図１Ｄは、シーケンス発生器１２０が、タスクＴ３００の実施態様を実行するように構成されるスムーザ１３０として実施される装置Ａ１００の実施態様Ａ１０１のブロック図を示す。

図２は、スムーザ１３０の実施態様１３２の１つの例のブロック図を示す。スムーザ１３２は、スペクトル傾斜値の入力シーケンスの現行値ｘ［ｎ］に利得係数Ｇ１０を適用するように構成された第１の乗算器と、遅延要素Ｄから得られたスペクトル傾斜値の平滑化シーケンスの以前の値ｙ［ｎ−１］に利得係数Ｇ２０を適用するように構成された第２の乗算器と、２つの積の和としてｙ［ｎ］を出力するように構成された加算器とを含む。利得係数Ｇ１０が、タスクＴ３００を参照して説明されたように値ａを有すること、および利得係数Ｇ２０が値（１−ａ）を有することが（たとえば、安定性のために）望ましいことがある。１つの特定の例において、シーケンスｘは第１の反射係数ｋ_０の一連の値であり、利得係数Ｇ１０は値０．２（zero point two）を有し、利得係数Ｇ２０は値０．８（zero point eight）を有する。前述のように、スムーザ１３２は、意図される適用に適切であると見なされるハードウェア、ソフトウェア、および／またはファームウェアの任意の組み合わせにおいて実施することができる。

代替として、または加えて、タスクＴ３００は、スペクトル傾斜値のシーケンスｘ（またはシーケンスｘに平滑化操作を実行した結果）に１つまたは複数のその他の平均化、積分、および／または低域フィルタリング操作を実行することにより、スペクトル傾斜値の平滑化されたシーケンスｙの値を計算するように構成することができる。方法Ｍ１００の代替実施態様において、たとえば、タスクＴ３００は、有限インパルス応答（ＦＩＲ）フィルタなど、移動平均モデルに従ってシーケンスｘをフィルタリングするように構成される。方法Ｍ１００のさらなる代替実施態様において、タスクＴ３００は、自己回帰移動平均（ＡＲＭＡ）モデルに従ってシーケンスｘをフィルタリングするように構成される。同様に、スムーザ１３０は、２つ以上の入力値に基づいて平滑化された値を生成するように構成された積分器または（ＦＩＲまたはＡＲＭＡフィルタのような）その他の低域フィルタとして実施することができる。

方法Ｍ１００は通常、タスクＴ３００で平滑化されるスペクトル傾斜値のシーケンスｘの各値が、音声信号の複数の継続するフレームのうちの１つに対応するように実施される。同様に、装置Ａ１００は通常、スムーザ１３０により平滑化されるシーケンスｘの各値が、音声信号の複数の継続するフレームのうちの１つに対応するように実施される。これらの継続するフレームは、以下でさらに詳細に説明されるように、連続している必要はないことに留意されたい。

音声信号は通常、アクティブフレームならびに非アクティブフレームを含む。しかし、アクティブフレームからのエネルギー分布値が背景雑音の変化に関して信頼できる情報を提供する可能性が低いように、アクティブフレーム中のエネルギーの分布は、主として背景雑音以外の要因に起因する可能性がある。したがって、スペクトル傾斜値のシーケンスｘが非アクティブフレームに対応する値のみを含むことが望ましい場合もある。そのような場合、シーケンスｘの値は、音声信号において連続していない継続的（非アクティブ）フレームに対応することができる。

この原理を説明するため、図３は、各々の円が時間の経過に伴う音声信号の一連の連続フレームの１つを表す例を示す。非アクティブフレームを表す円は各々、スペクトル傾斜値のシーケンスｘ内の対応する値の指標番号でそれぞれマーク付けされている。この例において、値７４および７５はシーケンス内で連続している。値７４および７５に対応する非アクティブフレームは音声信号において継続しているが、これらはアクティブフレームのブロックによって分離されており、そのため相互に連続してはいない。

方法Ｍ１００は、タスクＴ３００が、非アクティブフレームに対応するシーケンスｘのスペクトル傾斜値のみを受信するように構成されることがある。代替として、タスクＴ３００は、連続フレームに対応するスペクトル傾斜値のシーケンスから、非アクティブフレームに対応する値のみを選択するように実施することができる。たとえば、タスクＴ３００のそのような実施態様は、以下に説明されるように、音声符号器、音声符号化の方法、または音声アクティビティ検出タスクＴ１００から受信された音声アクティビティ指示に基づいて、非アクティブフレームに対応するスペクトル傾斜値を選択するように（および／またはアクティブフレームに対応する値を拒否するように）構成されることがある。

同様に、装置Ａ１００は、スムーザ１３０が、非アクティブフレームに対応するシーケンスｘのスペクトル傾斜値のみを受信するように構成されことがある。代替として、スムーザ１３０は、連続フレームに対応するスペクトル傾斜値のシーケンスから、非アクティブフレームに対応する値のみを選択するように実施することができる。たとえば、スムーザ１３０のそのような実施態様は、以下に説明されるように、音声符号器、音声符号化の方法、または音声アクティビティ検波器１１０から受信された音声アクティビティ指示に基づいて、非アクティブフレームに対応するスペクトル傾斜値を選択するように（および／またはアクティブフレームに対応する値を拒否するように）構成されることがある。

タスクＴ４００は、タスクＴ２００によって生成されたスペクトル傾斜値のシーケンスの少なくとも２つの値の間の変化を計算する。たとえば、タスクＴ４００は、以下のような式に従って、平滑化されたシーケンスｙの連続する値の間の差異（「デルタ」とも呼ばれる）を計算するように構成されることがある。

ここで、ｚは出力を示し、ｂは利得係数を示す。図４は、ｂが１に等しい（つまり、一次ＦＩＲ高域フィルタリング操作によりｚ［ｎ］＝ｙ［ｎ］−ｙ［ｎ−１］）タスクＴ４００のこの例の特定の場合を実行するために使用することができる計算器１４０の実施態様１４２を示す。計算器１４０および／またはタスクＴ４００のその他の実施態様は、ｂの異なる値を使用してそのようなフィルタリング操作を適用するように構成されることがある。たとえば、ｂの値は、望ましい周波数特性に従って選択されてもよい。タスクＴ２００がシーケンスｘを生成するように構成される場合には、そのようなタスクＴ４００または計算器１４２の実施態様は、ｚ［ｎ］＝ｘ［ｎ］−ｘ［ｎ−１］のような式に従って差異を計算するように構成されることがある。前述のように、計算器１４２は、意図される適用に適切であると見なされるハードウェア、ソフトウェア、および／またはファームウェアの任意の組み合わせにおいて実施されることがある。

代替として、または加えて、タスクＴ４００は、異なる高域フィルタリング操作（たとえば、一次ＩＩＲ高域フィルタを生成されたシーケンスに適用する）、あるいは生成されたシーケンスの値の間の距離またはその他の変化を計算することなど、生成されたスペクトル傾斜値のシーケンスに１つまたは複数のその他の微分操作を実行するように構成されることがある。同様に、計算器１４０は、２つ以上の入力値の間の差異または距離または変化を計算するように構成された微分器、差分計算器、またはその他の高域ＩＩＲまたはＦＩＲフィルタとして実施されることがある。

タスクＴ４００によって計算された変化は、生成されたスペクトル傾斜値のシーケンスの変化率を指示するために使用されることがある。たとえば、前述のｚ［ｎ］の絶対値は、ある非アクティブフレームから次の非アクティブフレームまでに背景雑音のスペクトル傾斜曲線がどの程度変化したかを指示するために使用されることがある。タスクＴ４００は通常、絶対値がそれぞれのフレーム期間において平滑化された曲線の変化率を表す一連の距離を繰り返し計算するように構成される。

タスクＴ５００は、音声信号の非アクティブセグメントの記述を伝送すべきかどうかを決定し、ここで決定はタスクＴ４００によって計算された対応する変化に基づく。たとえば、タスクＴ５００は、計算された変化の絶対値をしきい値Ｔと比較することにより、記述を伝送すべきかどうかを決定するように構成されることがある。タスクＴ５００のそのような実施態様は、この比較の結果に従って２進フラグを設定するように構成されることがある。

ここで、フラグｐ［ｎ］の値は、伝送決定の結果を指示する。この場合において、１のｐ［ｎ］値または論理ＴＲＵＥは正の伝送指示であり（つまり、正の状態を有する伝送指示、伝送可能指示、伝送する決定の指示）、現行フレームについて無音記述への更新が送信されるべきであることを指示する。そして、ゼロのｐ［ｎ］値または論理ＦＡＬＳＥは負の伝送指示であり（つまり、負の状態を有する伝送指示、伝送不能指示、伝送しない決定の指示）、現行フレームについて無音記述への更新が送信されるべきではないことを指示する。１つの例において、しきい値Ｔは０．２の値を有する。より低いしきい値は、生成されたスペクトル傾斜値のシーケンスの変動により大きい感度を提供するために使用されるが、これに対して、より高いしきい値を使用は、生成されたスペクトル傾斜値のシーケンスにおける過渡事象のより大幅の除外を提供するために使用されることがある。

方法Ｍ１００の代替実施態様において、タスクＴ４００は、以下のような式に従って、変化を絶対値として計算するように構成することができることを、当業者であれば理解するであろう。

さらに、タスクＴ５００は、以下のような比較の結果に従って２進フラグを設定するように構成することができる。

方法Ｍ１００はまた、しきい値を計算された変化の２つ以上の平均絶対値（たとえば、現在と以前のフレームの計算された変化の平均絶対値）と比較する実施態様など、タスクＴ５００の異なる変形を含むように実施されることがある。

図５は、タスクＴ５００の実施態様を実行するために使用することができる比較器１５０の実施態様１５２のブロック図を示す。この例において、比較器１５２は、計算された変化の絶対値を計算して、絶対値をしきい値Ｔ１０と比較することにより、伝送決定を実行するように構成される。１つの特定の例において、しきい値Ｔ１０は０．２（zero point two）の値を有する。図６は、タスクＴ５００の実施態様を実行するために使用することができる比較器１５０のもう１つの実施態様１５４のブロック図を示す。この例において、比較器１５４は、計算された変化の符合付き値を、正しきい値Ｔ１０および負しきい値Ｔ２０とそれぞれ比較して、計算された変化がしきい値Ｔ１０よりも大きい（あるいは、以上）であるか、またはしきい値Ｔ２０よりも小さい（あるいは、以下）である場合、正の伝送指示を発行するように構成される。１つの例において、しきい値Ｔ２０は、比較器１５２および１５４が同じ結果を生成するように構成されるように、しきい値Ｔ１０の負数である値を有する。しかし、比較器１５４はまた、必要に応じて、しきい値Ｔ２０がしきい値Ｔ１０とは異なる絶対値を有するように実施されることがある。

比較器１５０のさらなる実施態様は、計算器１４０から絶対値として計算された変化を受信して、この絶対値をしきい値Ｔ１０と比較するように構成される。前述のように、比較器１５０のそのような実施態様（つまり、比較器１５２および１５４を含む）は、意図される適用に適切であると見なされるハードウェア、ソフトウェア、および／またはファームウェアの任意の組み合わせにおいて実施されることがある。図７Ａは、対応する伝送指示を生成するために、前述のさまざまな操作を入力信号ｘ［ｎ］に実行するように構成される装置Ａ１００の１つの実施態様Ａ１０２のブロック図を示す。

図８Ａは、タスクＴ３００、Ｔ４００、およびＴ５００の実施態様を含む方法Ｍ１０１の実施態様を実行するために、論理要素またはその他の状態機械（たとえば、コンピュータまたはプロセッサ）のプログラム可能アレイによって実行することができる命令のセットのソースコードリストの１つの例を示す。この例において、変数ｋ０は現行フレームのスペクトル傾斜値ｘ［ｎ］を保持し、変数ｙ＿ｃｕｒｒｅｎｔは最初にスペクトル傾斜値の平滑化されたシーケンスｙの最新の値を保持し、フラグｐは伝送指示の状態を保持する。Ｐａｒｔ１は、利得係数ａの０．２の値を使用して、前述の式（１）に従って、平滑化されたシーケンスｙの現行値を計算することにより、タスクＴ３００を実行する。Ｐａｒｔ２は、利得係数ｂの１の値を使用して、前述の式（２）に従って、平滑化されたシーケンスｙの現行値と最新値との間の変化を計算することにより、タスクＴ４００を実行する。Ｐａｒｔ３は、０．２のしきい値を使用して、計算された変化としきい値との比較の結果に従ってフラグｐを設定することにより、タスクＴ５００を実行する。通常の適用において、命令のセットは、各々の反復の変数ｙ＿ｃｕｒｒｅｎｔの初期値が以前の反復中に計算された変数ｙ＿ｃｕｒｒｅｎｔの最終値であるように、（たとえば、非アクティブフレームごとに）反復して実行される。

前述のように、タスクＴ３００は、スペクトル傾斜値のシーケンスｘの１つまたは複数の過去の値および／または平滑化されたシーケンスｙの１つまたは複数の過去の値に基づいて、スペクトル傾斜値の平滑化されたシーケンスｙの現行値を計算するように構成されることがある。しかし、平滑化されたシーケンスｙの初期値について、シーケンスｘおよび／または平滑化されたシーケンスｙの過去の値は存在しないこともある。タスクＴ３００が過去の値の代わりに任意の値またはゼロの値を使用して平滑化されたシーケンスｙの値を計算する場合、結果は、不適切に大きい計算された変化をタスクＴ４００に出力させる可能性があり、これは次にスペクトル傾斜曲線が実際には一定である場合にも、正の伝送指示をタスクＴ５００に出力させることになる可能性がある。

シーケンスｘおよび／または平滑化されたシーケンスｙの過去の値を保持するように構成される１つまたは複数の変数（たとえば、データ格納先）を初期化することが望ましい場合もある。そのような初期化は、タスクＴ３００が最初に実行される前に実行すること、および／またはタスクＴ３００内で実行されることがある。たとえば、１つまたは複数のそのような変数は、シーケンスｘの現行値に初期化されてもよい。特定の例において、平滑化されたシーケンスの過去の値を記憶するように構成された変数（上記の式（１）のｙ［ｎ−１］）は、入力シーケンスの現行値（上記の式（１）のｘ［ｎ］）に初期化される。タスクＴ４００が値ｘ［ｎ］およびｘ［ｎ−１］に基づいて変化を計算するように構成される別の例について、入力シーケンスの過去の値ｘ［ｎ−１］を記憶するように構成された変数は、入力シーケンスの現行値ｘ［ｎ］に初期化される。代替として、または加えて、方法Ｍ１００は、最初の数個の非アクティブフレームに対して（たとえば、タスクＴ５００にそれらのフレームの負の状態を有する伝送指示を強制的に出力させることにより）正の伝送指示を出力することを回避するように構成されることがある。そのような場合、タスクＴ２００（場合によってはタスクＴ３００を含む）は、本明細書に説明されるように変数を初期化するのではなく、１つまたは複数の過去の値の各々に対して任意またはゼロの初期値を使用するように構成されることがある。

図８Ｂは、タスクＴ３００の実施態様Ｔ３１０、ならびにタスクＴ４００およびＴ５００の実施態様を含む方法Ｍ１０１の実施態様を実行するために、論理要素またはその他の状態機械（たとえば、プロセッサ）のプログラム可能アレイによって実行することができる命令のセットのソースコードリストのもう１つの例を示す。この例において、タスクＴ３１０は、命令のセットが以前呼び出されたかどうか、そしてそれ故変数ｙ＿ｃｕｒｒｅｎｔに格納されている値が有効であるかどうかを指示するために変数Ｙ＿ＶＡＬＩＤを使用する初期化操作を含む。この場合、呼び出しルーチン（たとえば、音声符号化の方法など、より大規模な手順）は、命令のセットを呼び出す前に、Ｙ＿ＶＡＬＩＤの値をＦＡＬＳＥに初期化するように構成される。Ｙ＿ＶＡＬＩＤの値がＦＡＬＳＥであると命令のセットが決定した場合（つまり、命令のセットが初めて実行している場合）、このとき変数ｙ＿ｃｕｒｒｅｎｔは、変数ｋ０の現行値に初期化される。

無音記述（ＳＩＤ）は通常、フレームのスペクトル包絡線の記述および／またはフレームのエネルギー包絡線の記述を含む。これらの記述は、現在の非アクティブフレームから、および／または１つもしくは複数の以前の非アクティブフレームから導くことができる。ＳＩＤはまた、「無音記述の更新（update to the silence description）」、「無音記述子（silence descriptor）」、「無音挿入記述子（silence insertion descriptor）」、「快適雑音記述子フレーム（comfort noise descriptor frame）」、および「快適雑音パラメータ（comfort noise parameter）」などの他の名前によって呼ばれることもある。３ＧＰＰ２Ｃ．Ｓ００１４−Ｃｖｅｒｓｉｏｎ１．０、「ＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ、ＳｐｅｅｃｈＳｅｒｖｉｃｅＯｐｔｉｏｎｓ３、６８、ａｎｄ７０ｆｏｒＷｉｄｅｂａｎｄＳｐｒｅａｄＳｐｅｃｔｒｕｍＤｉｇｉｔａｌＳｙｓｔｅｍｓ」の文献において説明されている拡張変数レートコーデック（Enhanced Variable Rate Codec）（ＥＶＲＣ）の特定の例において、ＳＩＤは、雑音励起線形予測（Noise-Excited Linear Prediction）（ＮＥＬＰ）符号化モードを使用して第８レート（フレームあたり１６ビット）で符号化されるが、これに対して、アクティブフレームは、符号励起線形予測（Code-Excited Linear Prediction）（ＣＥＬＰ）、プロトタイプ周期（prototype pitch period）（ＰＰＰ）、またはＮＥＬＰ符号化モードを使用してフルレート（フレームあたり１７１ビット）、ハーフレート（フレームあたり８０ビット）、またはクォーターレート（フレームあたり４０ビット）で符号化される。

スペクトル包絡線記述は一般に、フィルタ係数、反射係数、線スペクトル周波数（ＬＳＦ）、線スペクトルペア（ＬＳＰ）、イミタンススペクトル周波数（ＩＳＦ）、イミタンススペクトルペア（ＩＳＰ）、ケプストル係数、または対数面積比（log area ratios）などの、符号化パラメータのセットを含む。１つまたは複数のベクトルとして構成されうる符号化パラメータのセットは通常、１つまたは複数の指標として対応するルックアップテーブルまたは「コードブック」に量子化される。

ＳＩＤ内のスペクトル包絡線記述の通常の長さは、現在８から２８ビットの範囲にわたる。上記で参照した３ＧＰＰ２Ｃ．Ｓ００１４−Ｃｖｅｒｓｉｏｎ１．０において説明されているＥＶＲＣの特定の例において、各１６ビットＳＩＤは、スペクトル包絡線の低周波数情報のコードブックへの４ビット指標ＬＳＰＩＤＸ１、およびスペクトル包絡線の高周波数情報のコードブックへの４ビット指標ＬＳＰＩＤＸ２を含む。ＥＴＳＩＴＳ１２６０９２Ｖ６．０．０（ＥｕｒｏｐｅａｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ（ＥＴＳＩ）、ＳｏｐｈｉａＡｎｔｉｐｏｌｉｓＣｅｄｅｘ、フランス、２００４年１２月）の文献において説明されているように、適応マルチレート（Adaptive Multi Rate）（ＡＭＲ）音声コーデックの特定の例において、各３５ビットＳＩＤは、３つのＬＳＦサブベクトルの各々について８ビットまたは９ビット長の指標を含む。ＥＴＳＩＴＳ１２６１９２Ｖ６．０．０（ＥＴＳＩ、２００４年１２月）の文献において説明されているように、ＡＭＲ広帯域（Wideband）音声コーデックの特定の例において、各３５ビットＳＩＤは、５つのＩＳＦサブベクトルの各々について５ビットまたは６ビット長の指標を含む。

エネルギー包絡線記述は、フレーム（「利得フレーム」とも呼ばれる）に適用されるべき利得値を含むことができる。代替として、または加えて、エネルギー包絡線記述は、フレームの複数のサブフレームの各々（集合的に「利得プロファイル」とも呼ばれる）に適用されるべき利得値を含むことができる。通常、利得フレームおよび／または利得プロファイルは、１つまたは複数の指標として対応するコードブックに量子化されるが、場合によっては、コードブックを使用することなく利得フレームおよび／または利得プロファイルを量子化および／または逆量子化するためにアルゴリズムが使用されてもよい。ＳＩＤ内のエネルギー包絡線記述の通常の長さは、現在５から８ビットの範囲にわたる。上記で参照した３ＧＰＰ２Ｃ．Ｓ００１４−Ｃｖ．１．０において説明されているＥＶＲＣの特定の例において、各１６ビットＳＩＤは、８ビットのエネルギー指標ＦＧＩＤＸを含む。上記で参照したＥＴＳＩＴＳ１２６０９２Ｖ６．０．０において説明されているＡＭＲ音声コーデック、および上記で参照したＥＴＳＩＴＳ１２６１９２Ｖ６．０．０において説明されているＡＭＲ広帯域音声コーデックの特定の例において、各３５ビットＳＩＤは、６ビットのエネルギー指標を含む。

方法Ｍ１００または装置Ａ１００は、ＤＴＸをサポートするために帰線消去方式として使用することがある。たとえば、方法Ｍ１００を含む手順または装置Ａ１００を含むデバイスは、タスクＴ５００によって生成される伝送指示の状態が正の場合に限りＳＩＤの伝送を実行するように構成されることがある。その他の帰線消去方式もまた、ＤＴＸをサポートするために使用することがある。そのような１つの例は、最新のＳＩＤ伝送以降に生じた連続非アクティブフレームの数がしきい値ＤＴＸ＿ＭＡＸに到達した（あるいは、超えた）とき、必ず正のＳＩＤ伝送指示を発行する方法または装置である。ＤＴＸ＿ＭＡＸの標準的な値は、１６および３２を含む。帰線消去方式のさらなる例は、最新のアクティブフレーム以降に生じた連続非アクティブフレームの数がしきい値に到達した（あるいは、超えた）とき、必ず正のＳＩＤ伝送指示を発行する。

ＤＴＸをサポートするために使用されることがあるその他の帰線消去方式は、音声信号のエネルギーおよび／またはスペクトル包絡線記述の変化を検出すると、正のＳＩＤ伝送指示を発行するように構成される方式を含む。たとえば、そのような方式は、フレームおよび最後に伝送されたＳＩＤのスペクトル包絡線記述（たとえば、ＬＳＦ、ＬＳＰ、ＩＳＦ、またはＩＳＰベクトル）の間の距離がしきい値を超える（あるいは、しきい値以上である）ことを検出すると、現在非アクティブなフレームの記述を伝送する決定を指示する正のＳＩＤ伝送指示を発行するように構成されることがある。距離を計算する前にスペクトル包絡線記述をフィルタリング（たとえば、平滑化）することが望ましい場合がある。そのような方式の変形は、現在非アクティブなフレームおよび最後に伝送されたＳＩＤのエネルギー包絡線記述の間の距離がしきい値を超える（あるいは、しきい値以上である）ことも検出した場合、正のＳＩＤ伝送指示を発行するように構成される。さらなる変形は、これらの条件のいずれかが満たされることを検出した場合に、正のＳＩＤ伝送指示を発行するように構成される。使用されることがあるその他の帰線消去方式は、しきい値と、フィルタリングおよび／または重み付けされうるフレームの平均絶対値またはフレームのエネルギー値（たとえば、サンプルの平方和）などのような値との間の比較に従って、正のＳＩＤ伝送指示を発行するように構成される方式を含む。

ＤＴＸをサポートするために使用されることがある帰線消去方式のもう１つの例は、最後に伝送されたＳＩＤおよび現在非アクティブなフレームの間の板倉距離（Itakura distance）がしきい値を超える（あるいは、しきい値以上である）ことを検出すると、正のＳＩＤ伝送指示を発行するように構成される。そのような方式の変形は、（Ａ）最後に伝送されたＳＩＤと（Ｂ）現在非アクティブなフレームおよび以前の非アクティブなフレームの平均との間の板倉距離がしきい値を超える（あるいは、しきい値以上である）ことを検出すると、正のＳＩＤ伝送指示を発行するように構成される。板倉距離は、自己相関および残留エネルギー値に基づくスペクトル変化の尺度であり、そのような方式についての説明は、ＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＧ．７２９ＡｎｎｅｘＢ（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ、ジュネーブ、スイス、１９９６年１０月）に掲載されている。

方法Ｍ１００または装置Ａ１００の実施態様は、上記で説明されているもののうちの１つまたは複数のような、１つまたは複数のその他の帰線消去方式と組み合わせることがある。たとえば、そのような実施態様を含むかまたは実行する装置は、その帰線消去方式のいずれかがそのフレームについて正のＳＩＤ伝送指示を発行する場合、ＳＩＤを伝送するように構成されることがある。図７Ｂは、さまざまな異なる伝送指示が論理ＯＲ演算を使用して１つの複合伝送指示に組み合わされる例の１つの実施態様を示す。

前述のように、ＳＩＤは、１つまたは複数の非アクティブフレームから導かれることがある。たとえば、装置Ａ１００を含むデバイスまたは方法Ｍ１００を含む手順が、単一の符号化された非アクティブフレームとしてＳＩＤを伝送するのではなく、複数の符号化された非アクティブフレームの平均を表すＳＩＤを計算して伝送することが望ましい場合もある。そのような平均は、ＦＩＲまたはＩＩＲフィルタリング操作を使用して、および／または、異常値の破棄または異常値を中央値と置き換えを含む中央値フィルタリングなどの統計的方法を使用することにより計算することができる。たとえば、デバイスまたは手順は、結果として得られるＳＩＤが最近において最も頻繁に生じた利得および周波数値を含むように、現行フレームのエネルギーおよびスペクトル包絡線記述を、１つまたは複数の非アクティブなフレームの記述で統計的に平滑化することにより、ＳＩＤを計算するように構成されることがある。

平均が計算されるフレームの数は、固定されることがあり、または、たとえば定常性の尺度に従って異なることがある。そのような尺度の１つの例は、２つの異なるフレームのセットにわたって取られたスペクトル平均の間の距離（たとえば、板倉距離）である。上記で参照したＧ．７２９ＡｎｎｅｘＢで説明されているそのような１つの例において、平均は、６つの過去のフレーム（現行フレームを含む）および２つの過去のフレームにわたり計算される。これらの２つの平均の間の距離がしきい値を超える（あるいは、しきい値以上である）場合、このとき、ＳＩＤは、２つのフレームにわたり平均化されたスペクトル記述（たとえば、信号は局所的に非定常である）を含む。それ以外の場合、ＳＩＤは、６つのフレームにわたり平均化されたスペクトル記述（たとえば、信号は局所的に定常であると想定される）を含む。上記で参照したＥＴＳＩＴＳ１２６１９２Ｖ６．０．０で説明されているＡＭＲＷｉｄｅｂａｎｄコーデックの特定の例において、ＳＩＤは、現行フレームと７つの以前のフレームとの間のスペクトル距離の合計に従うか、または現行フレームのエネルギーと過去のフレームにわたる平均エネルギー値との間の距離に従って状態が設定されるディザリング指示を含む。

方法Ｍ１００は、タスクＴ２００が、音声符号化プロセスなどの別のプロセスからスペクトル傾斜値のシーケンスを受信するように実施されることがある。たとえば、方法Ｍ１００の実施態様を実行するように構成されたデバイスまたはシステムは通常、音声信号に音声符号化の方法を実行するようにも構成される。音声符号化の方法は、線形予測符号化（ＬＰＣ）分析を含むことができるが、これは時間ｔにおける音声信号のサンプルをｔよりも前の時間における音声信号のサンプルの一次結合としてモデル化する係数のセットを計算する。通信デバイス（たとえば、携帯電話）の音声符号器によって実行されるＬＰＣ分析は通常、４、６、８、１０、１２、１６、２０、２４、２８、または３２の次数を有する。別個のＬＰＣ分析が音声信号の異なる周波数帯域に実行される場合では、タスクＴ２００は、低周波数帯域（たとえば、１ｋＨｚより低い周波数を含む）または中域周波数帯域（たとえば、少なくとも１から２ｋＨＺの周波数を含む）の分析に基づいてスペクトル傾斜値のシーケンスを受信するように構成されることがある。

タスクＴ２００は、第１または第２の反射係数のシーケンスなど、反射係数のシーケンスとしてスペクトル傾斜値のシーケンスを受信するように配置されることがある。本明細書において開示される構成の範囲は、方法Ｍ１００と（たとえば、図９に示される）音声符号化の方法の組み合わせ、ならびに方法Ｍ１００を含む音声符号化の方法を備える方法を含む。

装置Ａ１００は、シーケンス発生器１２０が、音声符号器などの別の装置からスペクトル傾斜値のシーケンスを受信するように実施されることがある。たとえば、装置Ａ１００の実施態様を含むデバイスまたはシステムは通常、音声信号にＬＰＣ分析を実行するように構成されることがある音声符号器も含む。そのような場合、シーケンス発生器１２０は、反射係数のシーケンスとしてスペクトル傾斜値のシーケンスを受信するように構成されることがある。本明細書において開示される構成の範囲は、装置Ａ１００と（たとえば、図１０に示される）音声符号器の組み合わせ、ならびに装置Ａ１００を含む音声符号器を備える装置を含む。

代替として、タスクＴ２００は、音声信号の複数の非アクティブフレームに基づいてスペクトル傾斜値のシーケンスを計算するタスクＴ２１０を含むように実施されることがある。タスクＴ２１０は、たとえば、以下で説明されるさまざまな異なる技法のうちの１つまたは複数に従って、一連のフレームの各々に対して信号のスペクトル傾斜を評価するように構成されることがある。図１１Ａは、タスクＴ２００のそのような実施態様Ｔ２０２を含む方法Ｍ１００の実施態様Ｍ２００の流れ図を示す。タスクＴ２１０はまた、音声符号化の方法など、より大規模なプロセスのその他のタスクに計算されたスペクトル傾斜値のシーケンスを供給するように構成されることがある。方法Ｍ１００はまた、タスクＴ２００がタスクＴ２１０として実施されるように実施されることがある。

図１１Ｂは、シーケンス発生器１２０の実施態様１２２を含む装置Ａ１００の実施態様Ａ２００のブロック図を示す。シーケンス発生器１２２は、音声信号の複数の非アクティブフレームに基づいてスペクトル傾斜値のシーケンスを計算するように構成される計算器１２８を含む。たとえば、計算器１２８は、本明細書に開示されるように、タスクＴ２１０の実施態様を実行するように構成されることがある。装置Ａ２００のその他の要素と同様に、計算器１２８は、意図される適用に適切であると見なされるハードウェア、ソフトウェア、および／またはファームウェアの任意の組み合わせにおいて実施すされることがある。計算器１２８はまた、音声符号器のような、より大規模な装置のその他のタスクに計算されたスペクトル傾斜値のシーケンスを供給するように構成されることがある。装置Ｍ１００はまた、シーケンス発生器１２０が計算器１２８として実施されるように実施されることがある。

タスクＴ２１０の標準的な実施態様は、音声信号の対応するフレームの第１の反射係数として、スペクトル傾斜を計算するように構成される。フレームの第１の反射係数（通常、ｋ_０と示される）は、Ｒ（１）／Ｒ（０）の比（つまり、フレームの正規化された第１の自己相関値）として計算されることがあり、これは−１から＋１の範囲のサンプル値について−１と＋１の間のスカラー値を有する。この式において、Ｒ（１）はフレームの第１の自己相関係数（つまり、１サンプルの遅延におけるフレームの自己相関関数の値）を示し、Ｒ（０）は、フレームのゼロ番目の自己相関係数（つまり、ゼロの遅延におけるフレームの自己相関関数の値）を示す。

その他の実施態様において、タスクＴ２１０は、音声信号の対応するフレームの第２の反射係数として、スペクトル傾斜を計算するように構成される。フレームの第２の反射係数（通常ｋ_１と示される）は、以下のように計算することができる。

ここで、Ｒ（２）はフレームの第２の自己相関係数（つまり、２個のサンプルの遅延におけるフレームの自己相関関数の値）を示す。タスクＴ２１０はまた、１つまたは複数のＬＰＣフィルタ係数など、１つまたは複数のその他のパラメータに基づいて、対応するフレームの１つまたは複数の反射係数（たとえば第１および／または第２の反射係数）を計算するように実施されることもある。

タスクＴ２１０の実施態様の範囲は、スペクトル傾斜を反射係数として計算するものに限定されてはいない。代替として、または加えて、タスクＴ２１０は、単一フレームまたは複数フレームのスペクトル傾斜を計算するために、１つまたは複数のその他のスペクトル評価技法を実行するように構成されることがある。そのようなスペクトル評価技法は、各フレームのスペクトル傾斜を、高周波数帯域のエネルギーと低周波数帯域のエネルギー間の比率として計算することを含むことができる。そのような計算は、離散フーリエ変換（ＤＦＴ）のように、セグメントに周波数変換を実行することを含むことができる。そのようなスペクトル評価技法は、スペクトル傾斜を、各セグメント内のゼロ交差の数として計算することを含むことができる。そのような場合、より多量の高周波数エネルギーを指示するために、より大きいゼロ交差の数を取ることができる。

スペクトル傾斜値のシーケンスの計算において、タスクＴ２１０は、上記で説明されているように１つまたは複数の反射係数を計算するなど、自己相関関数の値に基づいて計算を実行するように構成されることがある。フィルタまたは反射係数などの、ＬＰＣモデルパラメータを計算する自己相関の方法は、テップリッツ行列を含む方程式を解くために一連の反復を実行することを伴う。ある実施態様において、タスクＴ２１０は、そのような方程式を解くために、レビンソンおよび／またはダービンのよく知られた再帰アルゴリズムのいずれかに従って、自己相関の方法を実行するように構成される。そのようなアルゴリズムは通常、反射係数（偏相関（ＰＡＲＣＯＲ）係数、負のＰＡＲＣＯＲ係数、またはＳｃｈｕｒ−Ｓｚｅｇｏパラメータとも呼ばれる）を、ＬＰＣフィルタ係数のセットを生成するプロセスにおける中間物として計算する。

その他の実施態様において、タスクＴ２１０は、フィルタ係数のセットではなく、１つまたは複数の反射係数を計算するために一連の反復を実行するように構成される。たとえば、タスクＴ２１０は、Ｌｅｒｏｕｘ−Ｇｕｅｇｕｅｎアルゴリズムの実施態様を使用して１つまたは複数の反射係数を取得するように構成されることがある。代替として、タスクＴ２１０は、（効率的な並列計算のために構成されうる）Ｓｃｈｕｒ再帰アルゴリズムまたはＢｕｒｇ再帰アルゴリズムなど、自己相関値から１つまたは複数の反射係数を取得するために、別のよく知られた反復の方法を使用するように構成されることがある。

タスクＴ２１０は、音声信号の対応するフレームの自己相関関数の１つまたは複数の値を計算するように構成されることがある。たとえば、タスクＴ２１０は、以下のような式に従い、（ｍをゼロ以上の整数として、）特定の遅延値ｍについてフレームの自己相関関数を評価するように構成されることがある。

ここで、Ｎはフレーム内のサンプルの数を示す。代替として、タスクＴ２１０は、（たとえば、音声符号器または音声符号化の方法、またはその他プロセスから）自己相関関数の値を受信するように構成されることがある。

音声符号器または音声符号化の方法は、ＬＰＣモデルのパラメータ（たとえば、フィルタおよび／または反射係数）を計算するなど、符号化操作において自己相関関数の値を使用するように構成されることがある。そのような音声符号器または音声符号化の方法が、自己相関値に１つまたは複数の前処理操作を実行することが望ましい場合もある。たとえば、自己相関値Ｒ（ｍ）は、以下のような操作を実行することにより、スペクトル的に平滑化することができる。

そのような状況において、タスクＴ２１０は、自己相関値にスペクトル平滑化または別の前処理操作を実行するように、および／またはスペクトル的に平滑化されたかまたは前処理された自己相関値を使用してスペクトル傾斜パラメータの値を計算するように構成されることがある。

（たとえば、タスクＴ２１０あるいは音声符号器または音声符号化の方法によって）自己相関関数が音声信号に適用される前に、信号にウィンドウ関数ｗ［ｎ］を適用することが望ましい場合もある。たとえば、自己相関関数が現在適用されているフレームの外側の音声信号をゼロにすることが好ましい場合もある。場合によっては、ウィンドウ関数ｗ［ｎ］は長方形または三角形である。ウィンドウの各端で低いサンプル重みを有するテーパ付きウィンドウ関数を使用することが望ましい場合もあり、これはウィンドウの外部のコンポーネントの影響を低減する上で役立つ。たとえば、以下のハミングウィンドウ関数などの、二乗余弦ウィンドウを使用することが好ましい場合もある。

ここで、Ｎはフレーム内のサンプルの数である。

使用すされることがあるその他のテーパ付きウィンドウは、ハミング、ブラックマン、カイザー、およびバートレットウィンドウを含む。ウィンドウ化フレームｓ_ｗ［ｎ］は、以下のような式に従って計算されることがある。

ウィンドウ関数は対称である必要はなく、ウィンドウの半分に、もう一方の半分と異なる重み付けを行えることがある。ハミング−余弦ウィンドウ、または異なる半分のウィンドウを２つ有するウィンドウ（たとえば、異なるサイズの２つのハミングウィンドウ）など、混成のウィンドウも使用することができる。知覚重み付けのような、１つまたは複数のその他の前処理操作は、自己相関関数を評価するために使用される前に、サンプル値および／またはウィンドウ化値に（たとえば、タスクＴ２１０あるいは音声符号器または音声符号化の方法により）実行されることがある。

ウィンドウ関数ｗ［ｎ］は、現行フレームのサンプル、および１つまたは複数の隣接フレームのサンプルを含むように構成されることがある。場合によっては、ウィンドウは、現行フレームと、隣接する以前および未来のフレームからのサンプルを含む（たとえば、５ミリ秒直前および２０ミリ秒後のフレームを含む５−２０−５ウィンドウ）。その他の場合において、ウィンドウは、現行フレームと、隣接する以前のフレームからのサンプルのみを含む（たとえば、現在の２０ミリ秒のフレームおよび先行フレームの最後１０ミリ秒を含む１０−２０ウィンドウ）。

（たとえば、タスクＴ２１０あるいは音声符号器または音声符号化の方法によって）ウィンドウ関数が音声信号に適用される場合について、フレームの自己相関関数は以下のような式に従って計算することができる。

前述のように、タスクＴ３００またはスムーザ１３０が、非アクティブフレームに対応する値のみを含むシーケンスを平滑化することが望ましい場合もある。そのような場合、方法Ｍ１００または装置Ａ１００は、（たとえば、音声符号器または音声符号化の方法から）フレームの音声アクティビティのレベルの指示を受信するように構成されるこいとがある。たとえば、そのような指示（「音声アクティビティ指示」とも呼ばれる）は、対応するフレームがアクティブまたは非アクティブのいずれであるかをその状態が指示する２値変数またはフラグの形態をとることができる。

音声アクティビティ指示は、平滑化タスクＴ３００の操作を制御するために使用されることがある。たとえば、音声アクティビティ指示は、対応する非アクティブフレームから平滑化スペクトル傾斜値を生成できるようにするため、および／または対応するアクティブフレームから平滑化スペクトル傾斜値を生成できないようにするために使用されることがある。１つのそのような例において、コンピュータまたはプロセッサは、対応するフレームが非アクティブフレームであることを音声アクティビティ指示が指示する場合に限り、スペクトル傾斜値を平滑化するために、タスクＴ３００を制御するように構成される。代替として、タスクＴ３００は、対応する音声アクティビティ検出の値に従って、平滑化スペクトル傾斜値を生成するかどうか、あるいは平滑化スペクトル傾斜値を受け入れまたは拒否するかどうかの決定を含むことができる。図１２Ａは、タスクＴ３００のそのような実施態様Ｔ３２０を含む方法Ｍ１０１の実施態様Ｍ１１０の流れ図を示す。

音声アクティビティ指示は、計算タスクＴ２１０の操作を制御するために使用されることがある。たとえば、音声アクティビティ指示は、対応する非アクティブフレームのスペクトル傾斜を生成できるようにするため、および／または対応するアクティブフレームのスペクトル傾斜を生成できないようにするために使用されることがある。１つのそのような例において、プロセッサは、現行フレームが非アクティブフレームであることを音声アクティビティ指示が指示する場合に限り、スペクトル傾斜を計算するために、タスクＴ２１０を制御するように構成される。代替として、タスクＴ２１０は、対応する音声アクティビティ指示の値に従って、所定のフレームのスペクトル傾斜を生成するかどうかの決定を含むように構成されることがあり、または、（たとえば、フレームを受け入れまたは拒否するため）その入力および／または（たとえば、スペクトル傾斜値を発行するかどうか）その出力を制御するように構成されることがある。図１２Ｂは、タスクＴ２０４がタスクＴ２１０のそのような実施態様Ｔ２２０を含む、タスクＴ２０２の実施態様Ｔ２０４を含む方法Ｍ２００の実施態様Ｍ２１０の流れ図を示す。

音声アクティビティ指示を受信することの代替として、方法Ｍ１００は、フレームがアクティブまたは非アクティブのいずれであるかを指示するように構成されるタスクＴ１００を含むように実施されることがある。たとえば、タスクＴ１００は、前述のように、音声アクティビティ指示（ＶＡＩ）を計算するように構成されることがある。図１２Ｃは、タスクＴ１００を含む方法Ｍ１０１の実施態様Ｍ１２０の流れ図を示し、図１２Ｄは、タスクＴ１００を含む方法Ｍ２００の実施態様Ｍ２２０の流れ図を示す。タスクＴ１００は、全帯域エネルギー、低帯域エネルギー、高帯域エネルギー、スペクトルパラメータ（たとえば、１つもしくは複数のＬＳＦおよび／または反射係数）、周期性、およびゼロ交差率などの、１つまたは複数の因子に基づいてフレームをアクティブまたは非アクティブとして分類するように構成されることがある。たとえば、そのような分類は、そのような特性の値を固定または適用しきい値と比較すること、および／またはそのような特性の値の変化の絶対値（たとえば、２つの値の間の差異の絶対値、または値と移動平均の間の差異の絶対値）を計算し、絶対値を固定または適用しきい値と比較することを含むことができる。

タスクＴ１００は、低周波数帯域および高周波数帯域の各々における現行フレームのエネルギーを評価して、各帯域のエネルギーがそれぞれのしきい値よりも小さい（あるいは、以下である）場合、フレームが非アクティブであることを指示するように構成されることがある。そのようなしきい値は、固定または適用のいずれであってもよい。たとえば、各しきい値は、望ましい符号化レートに基づくことがある。適応しきい値のペアの１つの例は、上記で参照したＣ．Ｓ００１４−Ｃｖ．１．０のＳｅｃｔｉｏｎ４．７において説明される。この例において、各帯域のしきい値は、（望ましい平均データ転送速度から導かれた）アンカー操作ポイント、先行のフレームのその帯域における背景雑音レベルの推定、および先行のフレームのその帯域におけるシグナル対雑音の比に基づく。

アクティブな音声から非アクティブな音声への遷移は通常、複数フレームの期間にわたって生じ、アクティブな音声からの遷移後最初の複数の非アクティブなフレームは、背景雑音に加えて発声の残部を含むことがある。発声残部は、これらの遷移後の非アクティブなフレームが背景雑音のスペクトル傾斜とは異なるスペクトル傾斜を有することをもたらせ、これらの差異は、タスクＴ２００によって生成されたスペクトル傾斜値のシーケンスを破壊して、そして不必要なＳＩＤ遷移へと導くことがある。

前述のように、タスクＴ２００が、非アクティブフレームのみに基づくシーケンスｘの値を生成することが望ましい場合もある。同様に、タスクＴ３００が、非アクティブフレームのみからの１つまたは複数のスペクトル傾斜値に基づく平滑化されたシーケンスｙの値を生成することが望ましい場合もある。また、方法Ｍ１００の実施態様が、スペクトル傾斜曲線を更新するために、１つまたは複数の遷移後フレームからのスペクトル傾斜値を使用することを避けることが望ましい場合もある。そのような制限は、決定タスクＴ５００による偽の正の確立の低減に役立てることができる。

タスクＴ２００は、対応する非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、生成されたスペクトル傾斜値のシーケンスの１つまたは複数の値を生成するように構成されることがある。たとえば、タスクＴ２００またはタスクＴ３００のそのような実施態様は、１つまたは複数の非アクティブフレームに対して、アクティブな音声からの遷移に続くスペクトル傾斜曲線の更新の開始を遅延または中断するように構成されることがある。図１３Ａおよび１３Ｂはそれぞれ、そのような遷移の影響と、そのような遅延または中断の影響の例を示す。図１３Ａは、遷移後のフレームの発声残部によって生じた平滑化されたスペクトル傾斜曲線の振幅の急激な変化を示す。そのような変化は、望ましくない正のＳＩＤ伝送決定を導くことがある。この特定の例において、スペクトル傾斜パラメータは、発声残部が平滑化されたスペクトル傾斜曲線の振幅に急激な増加をもたらすが、代わりに別のスペクトル傾斜パラメータが使用される場合に発声残部が振幅の急激な減少をもたらすこともあるような第１の反射係数ｋ_０である。比較のため、図１３Ｂは、遷移後フレーム中の平滑化された曲線の更新を不可にするために遅延（「ハングオーバ」とも呼ばれる）が適用される例を示す。この場合、図１３Ａにおいて見られた急激な増加は生じることはない。１つの特定の例において、５つのフレームのハングオーバは、アクティブから非アクティブ音声への遷移に続いて使用される。

図１４は、タスクＴ３１０の実施態様Ｔ３１２、ならびにタスクＴ４００およびＴ５００の実施態様を含む方法Ｍ１００の実施態様を実行するために、論理要素またはその他の状態機械（たとえば、プロセッサ）のプログラム可能アレイによって実行されることがある命令のセットのソースコードリストの例を示す。この例において、タスクＴ３１２は、音声アクティビティ指示の現在の状態を格納する変数ＦＲＡＭＥ＿ＡＣＴＩＶＥを読み取る。ＦＲＡＭＥ＿ＡＣＴＩＶＥの値が、現行フレームがアクティブであることを示すＴＲＵＥである場合、このときハングオーバカウントが変数ｈａｎｇｏｖｅｒ＿１に記憶され、命令のセットは終了する。この特定の例において、ハングオーバカウントは５であるが、その他の任意の正の整数値を使用されることがある。ＦＲＡＭＥ＿ＡＣＴＩＶＥの値が、現行フレームが非アクティブであることを示すＦＡＬＳＥである場合、命令のセットの反復は各々、変数ｈａｎｇｏｖｅｒ＿１の値を減分して、変数ｈａｎｇｏｖｅｒ＿１の値がゼロに達するまでに早期に終了する。この例において、タスクＴ４００およびＴ５００は、図８Ｂを参照して上記で説明されているように命令を使用して実施される。

方法Ｍ１００および装置Ａ１００の例は、更新制御信号の状態に従ってスペクトル傾斜曲線の更新を制御するように構成された実施態様を含む。そのような信号は、前述のように、音声アクティビティ指示に基づくことがある。図１４に示される変数ＦＲＡＭＥ＿ＡＣＴＩＶＥは、更新制御信号の１つの例（具体的には、更新不可信号）である。ハングオーバ論理回路５０は、音声アクティビティ指示のアクティブ−非アクティブへの遷移を遅延させることによって更新制御信号を計算するために使用されることがある。図１５は、更新制御信号（具体的には、更新可能信号）を生成するように構成されるハングオーバ論理回路５０の実施態様５２を示す。この図において、音声アクティビティ指示の状態は、非アクティブフレームに対しては低であり、アクティブフレームに対しては高であり、３つの遅延要素を有するタップ付き遅延線は、３つのフレームのハングオーバを実施するために使用され、現在および遅延の音声アクティビティ指示を結合するために論理ＮＯＲ演算が使用される。その他の例において、音声アクティビティ指示の状態は、非アクティブフレームに対しては高であり、アクティブフレームに対しては低であり、この場合、現在および遅延の音声アクティビティ指示は論理ＡＮＤ演算を使用して結合される。タップ付き遅延線について、この回路のその他の例では、ハングオーバの望ましい期間に従って任意の数の遅延要素を使用することができる。代替として、ハングオーバ論理回路５０は、アクティブ−非アクティブの遷移からカウントダウン（もしくはアップ）するため、および／または更新可能信号ではなく更新不可信号を計算するために、遅延カウンタを使用するように実施されることがある。

シーケンス発生器１２０は、対応する非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、生成されたスペクトル傾斜値のシーケンスの１つまたは複数の値を生成するように構成されることがある。たとえば、シーケンス発生器１２０またはスムーザ１３０は、望ましいハングオーバに従ってアクティブ−非アクティブの遷移後にスペクトル傾斜曲線の更新の開始を中断するように構成されることがある。そのようなシーケンス発生器１２０またはスムーザ１３０の実施態様は、前述のようなハングオーバ論理回路５０の実施態様を含むように構成されることがある。図１６Ａは、スムーザ１３２の１つのそのような実施態様１３４を示す。この例において、セレクタ（たとえば、マルチプレクサ）は、更新制御信号の状態に従って、シーケンスの現行値（つまり、ｘ［ｎ］）と、平滑化されたスペクトル傾斜曲線の以前の値（つまり、ｙ［ｎ−１］）との間でスムーザの入力を切り替える。代替として、スムーザ１１０の実施態様は、更新制御信号が高のときにｘ［ｎ］の現行値を記憶し、更新制御信号が低のときにこの記憶されている値を入力に使用するように構成されることがある。

図１６Ｂは、前述のようなハングオーバ論理回路５０の実施態様を含むスムーザ１３２のもう１つの実施態様１３６を示す。この例は、更新制御信号の状態に従って、さまざまな利得係数を出力するように構成される２つのセレクタ（たとえば、マルチプレクサ）を含む。第１のセレクタは、ｘ［ｎ］に適用される利得係数を出力する。更新制御信号の状態が高の場合、このセレクタは利得係数Ｆ１０を出力し、更新制御信号の状態が低の場合、このセレクタは利得係数Ｆ１２を出力する。第２のセレクタは、ｙ［ｎ−１］に適用される利得係数を出力する。更新制御信号の状態が高の場合、このセレクタは利得係数Ｆ２０を出力し、更新制御信号の状態が低の場合、このセレクタは利得係数Ｆ２２を出力する。１つの例において、利得係数Ｆ１０およびＦ１２はそれぞれ値０．２および０を有し、利得係数Ｆ２０およびＦ２２はそれぞれ値０．８および１．０を有する。

スムーザ１３６のさらなる実施態様は、スムーザの中断動作から正常動作への遷移がより漸進的であるように、利得係数ごとに３つ以上の値の間で選択するように構成されることがある。２進制御信号を生成するハングオーバ論理回路の代わりに、たとえば、そのようなスムーザは、３つ以上の状態を有する制御信号を生成するように構成されるハングオーバ論理回路５０の実施態様を含むことができる。ハングオーバ論理回路５０のそのような例は、ｃを２よりも大きい整数として、アクティブ−非アクティブの遷移に応じてｃ個の状態を通過する更新制御信号を生成するように構成されることがある。そのような場合において、スムーザ１３６の２つのセレクタは、遷移に応じて、そして一連のｃ個のフレームにわたり、ｘ［ｎ］に適用された利得係数が最小から最大まで（たとえば、０．０から０．２まで）ｃ個の値を通過し、さらに、ｙ［ｎ−１］に適用された利得係数が最大から最小まで（たとえば、１．０から０．８まで）ｃ個の値を通過するように構成されることがある。

符号化利得の尺度は、音声符号器（または音声符号化の方法）によって受信された信号のエネルギーと、対応する符号化誤りのエネルギーとの間の関係を説明する。通常、音声符号器または音声符号化の方法は、非アクティブフレームの場合よりもアクティブフレームの場合のほうが符号化利得の尺度が高くなるように、非アクティブフレームよりもさらに効率的にアクティブフレームを符号化する。フレームの符号化利得の尺度の１つの例は、符号化残留物のエネルギーＥ_ｅｒｒに対する初期信号エネルギーＥ_ｉｎ（たとえば、ウィンドウ化フレームのエネルギー）の比率である。そのような場合、各信号のエネルギーは通常、サンプルの絶対値の和として計算される。ＬＰＣ分析の符号化利得のもう１つの一般的な尺度は予測利得であるが、これはすべてのｉ≦ｊについて（または、１＜ｉ≦ｊであるすべてのｉについて）、

の積の逆数として計算することができ、ここでｊはＬＰＣ分析の順序であり、ｋ_ｉはｉ番目の反射係数を示す。

音声符号器または音声符号化の方法により達成される符号化利得の次数は、信号変化の統計に応じてフレームごとに異なる傾向がある。しかし、一連の非アクティブフレームの間、信号は、その統計が著しく変わらないように、比較的常態となることが予想される。したがって、符号化利得の尺度の値Ｇ_ｃは、背景雑音に知覚的に著しい変化がある間も、比較的一定していると予測されることがある。

符号化利得の尺度の値Ｇ_ｃの大きな変化は、音声信号が、背景雑音の変化以外の要因により変化したことを指示できる。値Ｇ_ｃにそのような変化を生じさせる１つの要因は、符号器の音声アクティビティ検波器の検出しきい値を下回る音声アクティビティである。そのような場合、たとえ背景雑音が大きく変化していない場合であっても、大きな変化がスペクトル傾斜値にも生じて、タスクＴ５００による正のＳＩＤ伝送決定に至ることもある。

符号化利得の尺度の値Ｇ_ｃの変化に関連するスペクトル傾斜の変化を明らかにするように、方法Ｍ１００を実施することが望ましい場合もある。たとえば、タスクＴ２００の実施態様Ｔ２３０またはタスクＴ３００の実施態様Ｔ３３０は、符号化利得の尺度の値Ｇ_ｃの変動の絶対値に基づいて曲線の更新を可能または不可にするように構成されることがある。

場合によっては、符号化利得の尺度は、以下の式におけるように、符号化誤りに関して計算することができる。

同様に、予測利得は、以下の式におけるように、予測誤りとして計算することができる。

符号化利得の尺度はまた、たとえば、係数または項として、積

またはＥ_ｉｎとＥ_ｅｒｒの比も含む、その他の式に従って計算することができる。

符号化利得の尺度は、等分目盛り、または対数目盛りのような別の領域で表すことができる。そのような表現は以下のものを含む。

符号化利得の尺度は通常、フレームごとに評価されるが、それほど頻繁ではなく（たとえば、２フレームごとまたは３フレームごと）および／または長い間隔を開けて（たとえば、フレームのペアまたはトリプレットにわたり）評価されてもよい。

標準的な構成において、タスクＴ２３０またはＴ３３０は、値Ｇ_ｃが、１つの非アクティブフレームから次の非アクティブフレームまでにしきい値量よりも大きく（あるいは、しきい値量以上）変化するとき、生成されたスペクトル傾斜曲線の更新を不可にするように構成される。１つの特定の例において、タスクＴ３３０は、予測利得の値が、１つの以前の非アクティブフレームから現在の非アクティブフレームまでに０．７２ｄＢより大きく変化するとき、平滑化された曲線の更新を不可にするように構成される。タスクＴ２３０またはタスクＴ３３０の実施態様は、そのような不可が１つまたは複数の後続のフレームに及ぶようハングオーバを適用するように構成されることがある。タスクＴ２３０またはタスクＴ３３０のさらなる実施態様はまた、前述のように（たとえば、図１３Ａ〜図１６Ｂを参照して）アクティブな音声からの遷移に続くハングオーバを適用するように構成されることがある。

（前述の例の１つのように）符号化利得の尺度の値Ｇ_ｃの変化に関連するスペクトル傾斜曲線の変化を明らかにするように、装置Ａ１００を実施することが望ましい場合もある。たとえば、装置Ａ１００は、状態が予測利得の変動の絶対値に基づく更新制御信号を生成するように構成された制御信号発生器６０を含むように実施されることがある。図１７Ａは、制御信号発生器６０の１つの例６２のブロック図を示す。制御信号発生器６０はまた、図１７Ｂに示される制御信号発生器６４の例におけるように、ハングオーバを適用するように構成されることもある。１つの特定の例において、しきい値Ｔ３０の値は０．７２ｄＢである。スムーザ１３４または１３６の実施態様は、音声アクティビティ指示におけるアクティブ−非アクティブの遷移を遅延させるように構成される回路の代わりに、またはこれに加えて、制御信号発生器６０の実施態様を含むことができる。たとえば、そのような実施態様は、図１８に示されるように制御信号発生器６６を含むことができるが、これはハングオーバ論理回路６２および制御信号発生器６４の操作を結合する。

方法Ｍ１００の実施態様は、符号化利得の尺度の値の変化に従って、ＳＩＤ伝送指示の生成を制御するように構成されることがある。たとえば、方法Ｍ１００の実施態様は、符号化利得の尺度（たとえば、予測利得）の値が、非アクティブフレームから次の非アクティブフレームまでにしきい値量よりも大きく（あるいは、しきい値量以上）変化する場合、ゼロの距離を出力するように構成されるタスクＴ４００の実施態様を含むことができる。加えて、または代替として、方法Ｍ１００の実施態様は、予測利得の変動の絶対値に従って、正のＳＩＤ伝送指示の生成を可能または不可にするように構成されるタスクＴ５００の実施態様を含むことができる。タスクＴ５００の１つのそのような実施態様Ｔ５１０は、予測利得が、以前の非アクティブフレームから現在の非アクティブフレームまでにしきい値よりも小さく（または、しきい値以下）変化する場合を除いて、正のＳＩＤ伝送指示の生成を不可にするように構成される。１つのそのような特定の例において、しきい値は０．６２ｄＢである。伝送指示の生成の制御は、スペクトル傾斜曲線の更新を制御することに加えて、またはその代替として実行されることがある。

装置Ａ１００の実施態様は、符号化利得の尺度の値Ｇ_ｃの変化に従って、ＳＩＤ伝送指示の生成を制御するように構成されることがある。図１９Ａは、しきい値Ｔ４０と予測利得の変化の絶対値との間の関係に従って、正のＳＩＤ伝送指示をゲート制御するように構成される伝送指示制御回路７０の１つの例７２のブロック図を示す。１つの特定の例において、しきい値Ｔ４０の値は０．６５ｄＢである。図１９Ｂは、伝送指示制御回路７２を含む比較器１５２の実施態様１５６のブロック図を示す。

装置Ａ１００の実施態様は、符号化利得の尺度の値Ｇ_ｃの変化に基づいて、更新制御信号およびＳＩＤ伝送指示の両方の生成を制御するように構成されることがある。図２０は、これらの操作を実行するように構成される制御回路８０の１つの例８２のブロック図を示す。そのような回路は、比較器１５０からＳＩＤ伝送指示を受信して、更新制御信号をスムーザ１３０に供給するように構成されることがある。そのような回路はまた、スムーザ１３０または比較器１５０内で実施することができる。たとえば、スムーザ１３４または１３６において、制御回路８２は、ハングオーバ論理回路５２に取って代わり、予測利得に従って比較器１５０からのＳＩＤ伝送指示をゲート制御するように構成されることがある。もう１つの例において、制御回路８２は、予測利得に従ってＳＩＤ伝送指示をゲート制御し、また更新制御信号をスムーザ１３０に供給するように比較器１５２内で構成されることがある。

図２１は、タスクＴ３１２およびＴ３３０の実施態様Ｔ３３２、タスクＴ５００の実施態様Ｔ５１０、およびタスクＴ４００の実施態様を含む方法Ｍ１００の実施態様を実行するために、論理要素またはその他の状態機械（たとえば、プロセッサ）のプログラム可能アレイによって実行することができる命令のセットのソースコードリストの１つの例を示す。この例において、変数ＦＲＡＭＥ＿ＡＣＴＩＶＥの状態は、現行フレームがアクティブまたは非アクティブのいずれであるかを指示し、変数Ｙ＿ＶＡＬＩＤの状態は、命令のセットが以前呼び出されたかどうか（およびそれにより変数ｙ＿ｃｕｒｒｅｎｔに記憶されている値が有効であるかどうか）を指示し、変数Ｇｃの値は現行フレームの予測利得を指示する。

Ｙ＿ＶＡＬＩＤの値がＦＡＬＳＥであると命令のセットが決定した場合（つまり、命令のセットが初めて実行している場合）、このとき変数Ｇｃ＿ｃｕｒｒｅｎｔは、変数Ｇｃの現行値に初期化される。Ｇｃの現行および過去の値の間の絶対差は変数Ｇｃ＿ｄｉｆｆに記憶され、この差がしきい値よりも大きい場合、２つのフレームのハングオーバが適用される。Ｐａｒｔ３において、フラグｐは、Ｇｃ＿ｄｉｆｆの値がしきい値よりも小さい場合に限り設定される。

本明細書に説明される論理的実施態様の特定の例は、本開示を限定するものではなく、本開示を説明するために提示されており、当業者であれば、代替の論理的実施態様がこの開示の範囲内に含まれることを容易に理解するであろう。たとえば、入力のすべてが高である場合に限りアクティブな高の信号を生成するように構成されたＡＮＤゲートとして１つのコンテキストで実施される選択論理は、入力のすべてが低である場合に限りアクティブな低の信号を生成するように構成されたＯＲゲートとしてもう１つのコンテキストで実施されることがある。第１の値から第２の値へのカウントダウンはまた、第２の値から第１の値へのカウントアップとして実施されても、またその逆であってもよい。正またはＴＲＵＥの指示は、１つのコンテキストにおいて２進の高の値を使用して表現され、もう１つのコンテキストにおいて２進の低の値を使用して表現されることがある。これらおよびその他の実施上の等価物が本開示の範囲内に含まれることが考慮され、本明細書に開示される。

前述の例において、スペクトル傾斜値のシーケンスが、連続する非アクティブフレームのシーケンス内に各々値を含むことが想定される。しかし、方法Ｍ１００および装置Ａ１００は、スペクトル傾斜値のシーケンスが、一連の連続する非アクティブフレーム内に各々１未満の値を含むように実施されることがあることも考慮されたい。たとえば、シーケンスは、すべてのその他のフレーム（またはすべての３番目のフレームなど）の値をシーケンス内に含むことができる。そのようなシーケンスは、中間フレームを無視するか、そのようなフレームから値を廃棄することによって、またはフレームの各ペア（トリプレットなど）の値を平均化することによって得ることがある。代替として、または加えて、そのような原理は、符号化利得の尺度の値のシーケンスなど、その他のシーケンスに適用することができる。

当業者であれば、情報および信号が、多種多様な技術および技法のいずれかを使用して表現できることを理解するであろう。たとえば、上記の説明全体を通じて参照されうるデータ、命令、コマンド、情報、信号、ビット、および記号は、電圧、電流、電磁波、磁界または磁性粒子、光界または光学粒子、あるいはその任意の組み合わせにより表現することがある。生成されたスペクトル傾斜値のシーケンスが導かれる信号は「音声信号」と呼ばれるが、この信号はアクティブフレーム中に音楽またはその他の非音声情報コンテンツを搬送できることもまた考慮され、本明細書に開示される。

本明細書において説明される装置１００のさまざまな実施態様の要素は、たとえば、同一のチップまたはチップセットの２つ以上のチップ上に常駐する電子および／または光学デバイスとして作成されることがある。そのようなデバイスの１つの例は、トランジスタまたはゲートのような、論理要素の固定またはプログラム可能なアレイである。本明細書において説明される装置１００のさまざまな実施態様の１つまたは複数の要素はまた、マイクロプロセッサ、組み込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準品）、およびＡＳＩＣ（特定用途向け集積回路）などの、論理要素の１つまたは複数の固定またはプログラム可能アレイで実行するように構成された命令の１つまたは複数のセットとして全体または部分的に実施されることがある。

装置１００の実施態様の１つまたは複数の要素が、装置が組み込まれているデバイスまたはシステムの別の操作に関連するタスクなど、装置の操作に直接には関連していないタスクまたは他の命令のセットを実行するために使用されることも可能である。また、装置Ａ１００の実施態様の１つまたは複数の要素が、共通の構造を有することも可能である（たとえば、異なる時間に異なる要素に対応するコードの部分を実行するために使用されるプロセッサ、異なる時間に異なる要素に対応するタスクを行うために実行される命令のセット、または異なる時間に異なる要素の操作を実行する電子および／または光学デバイスの構成）。１つのそのような例において、スムーザ１３０、計算器１４０、および比較器１５０は、同一のプロセッサ上で実行するように配置された命令のセットとして実施される。もう１つのそのような例において、シーケンス発生器１２０、または音声符号器（装置Ａ１００を含むことができる）も、そのプロセッサ上で実行するように構成された１つまたは複数の命令のセットとして実施される。

説明される構成についての上記の提示は、任意の当業者が、本明細書において開示される方法およびその他の構造を作成または使用できるようにするために提供される。本明細書において示され説明される流れ図およびその他の構造は例示的なものに過ぎず、これらの構造のその他の変形もまた本開示の範囲内に含まれる。これらの構成にさまざまな変更を加えることは可能であり、本明細書において提示される一般的原理は、その他の構成にも適用されるものとする。

本明細書において説明される構成は、ハードワイヤード回路として、特定用途向け集積回路に加工された回路構成として、または、コードがマイクロプロセッサまたはその他のデジタル信号処理装置などの論理要素のアレイによって実行可能な命令である機械可読コードとして不揮発性記憶装置にロードされるファームウェアプログラムもしくはデータ記憶媒体からまたはデータ記憶媒体にロードされるソフトウェアプログラムとして、部分的または全体的に実施されることがある。データストレージ媒体は、半導体メモリ（ダイナミックもしくはスタティックＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読み取り専用メモリ）、および／またはフラッシュＲＡＭを含むことができるがこれらに限定されることはない）、または強誘電性、磁気抵抗の、オブシンスキー効果の、高分子、もしくは位相変化のメモリなどの記憶素子のアレイ、あるいは磁気または光ディスクのようなディスク媒体であってもよい。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、２進符号、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の１つまたは複数のセットあるいはシーケンス、およびそのような例の任意の組み合わせを含むものと理解されたい。

本明細書において説明される方法はまた、論理要素の（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、またはその他の有限状態機械）のアレイを含む機械によって読取可能および／または実行可能な１つまたは複数の命令のセットとして（たとえば、前述の１つまたは複数のデータ記憶媒体において）明白に具現することができる。したがって、本開示は、上記で示されている構成に限定されることを意図するものではなく、原開示の一部を形成する、出願された添付の特許請求の範囲を含む、本明細書において任意の方法で開示される原理および新規の特徴と一致する最大範囲を許容されるものとする。

当業者であればさらに、本明細書において開示される構成に関連して説明されるさまざまな例示的な論理ブロック、モジュール、回路、および操作が、電子ハードウェア、コンピュータソフトウェア、またはその両方の組み合わせとして実施できることを理解するであろう。そのような論理ブロック、モジュール、回路、および操作は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣ、ＦＰＧＡまたはその他のプログラム可能論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェアコンポーネント、あるいは本明細書において説明される機能を実行するように設計されたその任意の組み合わせで実施または実行することができる。汎用プロセッサはマイクロプロセッサであってもよいが、代替として、プロセッサは任意の標準的なプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってもよい。プロセッサはまた、コンピューティングデバイスの組み合わせ、たとえば、ＤＳＰおよびマイクロプロセッサ、複数のマイクロプロセッサ、ＤＳＰコアと連動する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成などの組み合わせ、として実施されることがある。

本明細書に説明される方法のタスクおよびアルゴリズムは、ハードウェア、プロセッサによって実行されるソフトウェアモジュール、またはこの２つの組み合わせにおいて直接に具現することができる。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、取り外し可能ディスク、ＣＤ−ＲＯＭ、または当技術分野において知られている他の任意の形態の記憶媒体に常駐することができる。例示的な記憶媒体は、プロセッサが、記憶媒体から情報の読み取り、および記憶媒体に書き込みを行うことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサと一体化されてもよい。プロセッサおよび記憶媒体は、ＡＳＩＣに常駐することができる。ＡＳＩＣは、ユーザ端末に常駐することができる。代替として、プロセッサおよび記憶媒体は、ユーザ端末の個別コンポーネントとして常駐することができる。

Claims

音声信号を処理する方法であって、前記方法は、
前記音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成することと、
スペクトル傾斜値の前記シーケンスの少なくとも２つの値の間の変化を計算することと、
前記複数の非アクティブフレームのうちの１つの非アクティブフレームについて、前記フレームの記述を伝送すべきかどうかを決定することと、を備え、
前記フレームの記述を伝送すべきかどうかを前記決定することは、前記計算された変化に基づく方法。
スペクトル傾斜値のシーケンスを前記生成することは、スペクトル傾斜値の前記シーケンスを生成するためにスペクトル傾斜値の別のシーケンスを平滑化することを備え、
前記別のシーケンスの前記スペクトル傾斜値の各々は、前記複数の非アクティブフレームのうちの対応する１つのスペクトル傾斜を指示する請求項１に記載の音声信号を処理する方法。
前記スペクトル傾斜値の各々は、前記音声信号の対応する非アクティブフレームの少なくとも１つの反射係数に基づく請求項１に記載の音声信号を処理する方法。
複数の前記スペクトル傾斜値の各々は、スペクトル傾斜値の前記シーケンス内の前記別のスペクトル傾斜値の少なくとも１つに基づく請求項１に記載の音声信号を処理する方法。
複数の前記スペクトル傾斜値の各々は、（Ａ）前記複数の非アクティブフレームの対応する１つのスペクトル傾斜、および（Ｂ）スペクトル傾斜値の前記シーケンス内の前記別のスペクトル傾斜値の少なくとも１つに基づく請求項１に記載の音声信号を処理する方法。
前記計算された変化は、スペクトル傾斜値の前記シーケンス内の連続する値の間の差異に基づく請求項１に記載の音声信号を処理する方法。
変化を前記計算することは、スペクトル傾斜値の前記シーケンス内の隣接する値の間の距離を計算することを備える請求項１に記載の音声信号を処理する方法。
前記フレームの記述を伝送すべきかどうかを前記決定することは、前記計算された変化をしきい値と比較することを備える請求項１に記載の音声信号を処理する方法。
前記フレームの記述を伝送すべきかどうかを前記決定することの結果は、（Ａ）前記計算された変化の絶対値と（Ｂ）しきい値との間の関係に基づく請求項１に記載の音声信号を処理する方法。
前記方法は、前記フレームの記述を伝送すべきかどうかを前記決定することの結果が、前記フレームの記述を伝送する決定である場合、スペクトル包絡線記述およびエネルギー包絡線記述のうちの少なくとも１つを含む無音記述を伝送することを備える請求項１に記載の音声信号を処理する方法。
前記方法は、（Ａ）複数の非アクティブフレームの各々のスペクトル包絡線記述、および（Ｂ）複数の非アクティブフレームの各々のエネルギー包絡線記述のうちの少なくとも１つに基づいて前記無音記述を計算することを備える請求項１０に記載の音声信号を処理する方法。
前記フレームの記述を伝送すべきかどうかを前記決定することは、（Ａ）前記フレームのスペクトル包絡線を記述するベクトル、（Ｂ）前記フレームの残留エネルギー、（Ｃ）非アクティブフレームの記述の最新の伝送までの時間の距離、（Ｄ）最新のアクティブフレームまでの時間の距離、（Ｅ）前記フレームのエネルギー包絡線の記述、（Ｆ）前記フレームの平均絶対値、および（Ｇ）前記フレームのエネルギー値のうちの少なくとも１つに基づく請求項１に記載の音声信号を処理する方法。
前記方法は、前記フレームの記述を伝送すべきかどうかを前記決定することの結果が、前記フレームの記述を伝送する決定である場合、スペクトル包絡線記述およびエネルギー包絡線記述のうちの少なくとも１つを含む無音記述を伝送することを備える請求項１２に記載の音声信号を処理する方法。
前記フレームの記述を伝送すべきかどうかを前記決定することは、符号化利得の尺度の変化がしきい値を超えると検出することに応じて、前記フレームの記述を伝送しないと決定することを備える請求項１に記載の音声信号を処理する方法。
符号化利得の前記尺度の各値は、前記音声信号の対応する非アクティブフレームの複数の反射係数の値に基づく請求項１４に記載の音声信号を処理する方法。
前記方法は、スペクトル傾斜値の前記シーケンス内の複数の前記スペクトル傾斜値の各々について、前記スペクトル傾斜値とスペクトル傾斜値の前記シーケンス内の少なくとも１つの他のスペクトル傾斜値との間の変化を計算することを備え、
前記方法は、前記音声信号の別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかを決定することを備え、
前記別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかを前記決定することの結果は、前記計算された変化のうちの少なくとも１つに基づく請求項１に記載の音声信号を処理する方法。
前記別の複数の非アクティブフレームの少なくとも一部の各々について、前記フレームの記述を伝送すべきかどうかを前記決定することの前記結果は、前記フレームの記述を伝送しない決定である請求項１６に記載の音声信号を処理する方法。
前記別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかを前記決定することは、符号化利得の尺度の変化がしきい値を超えると検出することに応じて、前記フレームの記述を伝送しないと決定することを備える請求項１６に記載の音声信号を処理する方法。
前記別の複数の非アクティブフレームの各々について、符号化利得の尺度の前記変化は、（Ａ）前記フレームに先行する前記音声信号の第１の非アクティブフレームの符号化利得の前記尺度の値、および（Ｂ）前記フレームに先行し前記第１の非アクティブフレームとは異なる前記音声信号の第２の非アクティブフレームの符号化利得の前記尺度の値に基づく請求項１８に記載の音声信号を処理する方法。
スペクトル傾斜値のシーケンスを前記生成することは、前記複数の非アクティブフレームのうちの少なくとも一部の各々について、前記音声信号の前記非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、スペクトル傾斜値の前記シーケンスのうちの対応する１つを生成することを備える請求項１に記載の音声信号を処理する方法。
スペクトル傾斜値の前記シーケンスのうちの対応する１つを前記生成することは、前記音声信号の前記非アクティブフレームと先行のアクティブフレームとの間の時間の前記距離がしきい値未満である場合に、前記スペクトル傾斜値をスペクトル傾斜値の前記シーケンスのうちの以前の１つに設定することを備える請求項２０に記載の音声信号を処理する方法。
スペクトル傾斜値のシーケンスを前記生成することは、前記複数の非アクティブフレームのうちの少なくとも一部の各々について、前記非アクティブフレームの符号化利得の尺度に従って、スペクトル傾斜値の前記シーケンスのうちの対応する１つを計算することを備える請求項１に記載の音声信号を処理する方法。
スペクトル傾斜値のシーケンスを前記生成することは、スペクトル傾斜値の前記シーケンスのうちの少なくとも１つの各々について、前記スペクトル傾斜値を、符号化利得の尺度の変化がしきい値を超えると検出することに応じて、スペクトル傾斜値の前記シーケンスのうちの以前の１つに設定することを備える請求項１に記載の音声信号を処理する方法。
コンピュータ可読媒体を備えるコンピュータプログラム製品であって、前記媒体は、
少なくとも１つのコンピュータに、音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成させるためのコードと、
少なくとも１つのコンピュータに、スペクトル傾斜値の前記シーケンスの少なくとも２つの値の間の変化を計算させるためのコードと、
少なくとも１つのコンピュータに、前記複数の非アクティブフレームのうちの１つの非アクティブフレームについて、前記計算された変化に基づいて、前記フレームの記述を伝送すべきかどうかを決定させるためのコードと、を備えるコンピュータプログラム製品。
少なくとも１つのコンピュータにスペクトル傾斜値のシーケンスを生成させるための前記コードは、前記少なくとも１つのコンピュータに、スペクトル傾斜値の前記シーケンス内の別のスペクトル傾斜値の少なくとも１つに基づいて、複数の前記スペクトル傾斜値の各々を生成させるように構成される請求項２４に記載のコンピュータプログラム製品。
少なくとも１つのコンピュータに変化を計算させるための前記コードは、前記少なくとも１つのコンピュータに、スペクトル傾斜値の前記シーケンス内の連続する値の間の差異に基づいて、前記変化を計算させるように構成される請求項２４に記載のコンピュータプログラム製品。
少なくとも１つのコンピュータに前記フレームの記述を伝送すべきかどうかを決定させるための前記コードは、前記少なくとも１つのコンピュータに、（Ａ）前記計算された変化の絶対値、および（Ｂ）しきい値の関係に基づいて、前記フレームの記述を伝送すべきかどうかを決定させるように構成される請求項２４に記載のコンピュータプログラム製品。
少なくとも１つのコンピュータに前記フレームの記述を伝送すべきかどうかを決定させるための前記コードは、前記少なくとも１つのコンピュータに、しきい値を超える符号化利得の尺度の変化に応じて、前記フレームの記述を伝送しないと決定させるためのコードを含む請求項２４に記載のコンピュータプログラム製品。
少なくとも１つのコンピュータに変化を計算させるための前記コードは、前記少なくとも１つのコンピュータに、スペクトル傾斜値の前記シーケンス内の複数の前記スペクトル傾斜値の各々について、前記スペクトル傾斜値とスペクトル傾斜値の前記シーケンス内の少なくとも１つの別のスペクトル傾斜値の間の変化を計算させるように構成され、
少なくとも１つのコンピュータに前記フレームの記述を伝送すべきかどうかを決定させるための前記コードは、前記少なくとも１つのコンピュータに、前記音声信号の別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかを決定させるように構成され、
少なくとも１つのコンピュータに前記フレームの記述を伝送すべきかどうかを決定させるための前記コードは、前記別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかの前記決定が前記計算された変化の少なくとも１つに基づくように構成される請求項２４に記載のコンピュータプログラム製品。
少なくとも１つのコンピュータにスペクトル傾斜値のシーケンスを生成させるための前記コードは、前記少なくとも１つのコンピュータに、前記複数の非アクティブフレームのうちの少なくとも一部の各々について、前記音声信号の前記非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、スペクトル傾斜値の前記シーケンスのうちの対応する１つを生成させるためのコードを備える請求項２４に記載のコンピュータプログラム製品。
少なくとも１つのコンピュータにスペクトル傾斜値のシーケンスを生成させるための前記コードは、前記少なくとも１つのコンピュータに、スペクトル傾斜値の前記シーケンスのうちの少なくとも１つの各々について、前記スペクトル傾斜値を、符号化利得の尺度の変化がしきい値を超えると検出することに応じて、スペクトル傾斜値の前記シーケンスのうちの以前の１つに設定させるように構成される請求項２４に記載のコンピュータプログラム製品。
少なくとも１つのコンピュータにスペクトル傾斜値のシーケンスを生成させるための前記コードは、前記少なくとも１つのコンピュータに、スペクトル傾斜値の前記シーケンスを生成するためにスペクトル傾斜値の別のシーケンスを平滑化させるように構成され、
前記別のシーケンスの前記スペクトル傾斜値の各々は、前記複数の非アクティブフレームのうちの対応する１つのスペクトル傾斜を指示する請求項２４に記載のコンピュータプログラム製品。
音声信号を処理する装置であって、前記装置は、
前記音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成するように構成されたシーケンス発生器と、
スペクトル傾斜値の前記シーケンスの少なくとも２つの値の間の変化を計算するように構成された計算器と、
前記複数の非アクティブフレームのうちの１つの非アクティブフレームについて、前記計算された変化に基づいて、前記フレームの記述を伝送すべきかどうかを決定するように構成された比較器と、を備える装置。
前記比較器は、（Ａ）前記計算された変化の絶対値と（Ｂ）しきい値との間の関係に基づいて前記フレームの記述を伝送すべきかどうかを決定するように構成される請求項３３に記載の音声信号を処理する装置。
前記装置は、前記シーケンス発生器、前記計算器、および前記比較器を含む無線通信のためのデバイスを備え、
前記デバイスは、前記比較器による前記フレームの記述を伝送する決定に応じて、スペクトル包絡線記述およびエネルギー包絡線記述のうちの少なくとも１つを含む無音記述を伝送するように構成される請求項３３に記載の音声信号を処理する装置。
前記比較器は、しきい値を超える符号化利得の尺度の変化に応じて、前記フレームの記述を伝送しないと決定するように構成される請求項３３に記載の音声信号を処理する装置。
前記計算器は、スペクトル傾斜値の前記シーケンス内の複数の前記スペクトル傾斜値の各々について、前記スペクトル傾斜値とスペクトル傾斜値の前記シーケンス内の少なくとも１つの他のスペクトル傾斜値との間の変化を計算するように構成され、
前記比較器は、前記音声信号の別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかを決定するように構成され、
前記比較器は、前記別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかの前記決定が前記計算された変化のうちの少なくとも１つに基づくように構成される請求項３３に記載の音声信号を処理する装置。
前記シーケンス発生器は、前記複数の非アクティブフレームのうちの少なくとも一部の各々について、前記音声信号の前記非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、スペクトル傾斜値の前記シーケンスのうちの対応する１つを生成するように構成される請求項３３に記載の音声信号を処理する装置。
前記シーケンス発生器は、スペクトル傾斜値の前記シーケンスのうちの少なくとも１つの各々について、前記スペクトル傾斜値を、符号化利得の尺度の変化がしきい値を超えると検出することに応じて、スペクトル傾斜値の前記シーケンスのうちの以前の１つに設定するように構成される請求項３３に記載の音声信号を処理する装置。
前記シーケンス発生器は、スペクトル傾斜値の別のシーケンスを平滑化することによりスペクトル傾斜値の前記シーケンスを生成するように構成され、
前記別のシーケンスの前記スペクトル傾斜値の各々は、前記複数の非アクティブフレームのうちの対応する１つのスペクトル傾斜を指示する請求項３３に記載の音声信号を処理する装置。
音声信号を処理する装置であって、前記装置は、
前記音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成するための手段と、
スペクトル傾斜値の前記シーケンスの少なくとも２つの値の間の変化を計算するための手段と、
前記複数の非アクティブフレームのうちの１つの非アクティブフレームについて、前記計算された変化に基づいて、前記フレームの記述を伝送すべきかどうかを決定するための手段と、を備える装置。
前記装置は、前記フレームの記述を伝送すべきかどうかを決定するための前記手段による決定に応じて、スペクトル包絡線記述およびエネルギー包絡線記述のうちの少なくとも１つを含む無音記述を伝送するための手段を備える請求項４１に記載の音声信号を処理する装置。
スペクトル傾斜値のシーケンスを生成するための前記手段は、前記複数の非アクティブフレームのうちの少なくとも一部の各々について、前記音声信号の前記非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、スペクトル傾斜値の前記シーケンスのうちの対応する１つを生成するように構成される請求項４１に記載の音声信号を処理する装置。
スペクトル傾斜値のシーケンスを生成するための前記手段は、スペクトル傾斜値の前記シーケンスのうちの少なくとも１つの各々について、前記スペクトル傾斜値を、符号化利得の尺度の変化がしきい値を超えると検出することに応じて、スペクトル傾斜値の前記シーケンスのうちの以前の１つに設定するように構成される請求項４１に記載の音声信号を処理する装置。
スペクトル傾斜値のシーケンスを生成するための前記手段は、スペクトル傾斜値の別のシーケンスを平滑化することによりスペクトル傾斜値の前記シーケンスを生成するように構成され、
前記別のシーケンスの前記スペクトル傾斜値の各々は、前記複数の非アクティブフレームのうちの対応する１つのスペクトル傾斜を指示する請求項４１に記載の音声信号を処理する装置。
音声信号を処理する方法であって、前記方法は、
前記音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成することと、
スペクトル傾斜値の前記シーケンスの少なくとも２つの値の間の変化を計算することと、
前記複数の非アクティブフレームのうちの１つの非アクティブフレームについて、前記フレームの記述を伝送すべきかどうかを決定することと、を備え、
前記フレームの記述を伝送すべきかどうかを前記決定することは、前記計算された変化に基づき、
スペクトル傾斜値のシーケンスを前記生成することは、前記複数の非アクティブフレームのうちの少なくとも一部の各々について、前記音声信号の前記非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、スペクトル傾斜値の前記シーケンスのうちの対応する１つを生成することを備える方法。