JP2009545779A - 信号変化検出のためのシステム、方法、および装置 - Google Patents

信号変化検出のためのシステム、方法、および装置 Download PDF

Info

Publication number
JP2009545779A
JP2009545779A JP2009523024A JP2009523024A JP2009545779A JP 2009545779 A JP2009545779 A JP 2009545779A JP 2009523024 A JP2009523024 A JP 2009523024A JP 2009523024 A JP2009523024 A JP 2009523024A JP 2009545779 A JP2009545779 A JP 2009545779A
Authority
JP
Japan
Prior art keywords
frame
sequence
values
spectral tilt
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009523024A
Other languages
English (en)
Other versions
JP4995913B2 (ja
Inventor
ラジェンドラン、ビベク
カンドハダイ、アナンサパドマナブハン・エー.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=38812761&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2009545779(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2009545779A publication Critical patent/JP2009545779A/ja
Application granted granted Critical
Publication of JP4995913B2 publication Critical patent/JP4995913B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

開示される構成は、音声信号の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成するように構成されたシステム、方法、および装置を含む。音声信号の複数の非アクティブフレームの各々について、伝送決定は、シーケンスの少なくとも2つの対応する値の間で計算された変化に従って行われる。伝送決定の結果は、対応する非アクティブフレームについて無音記述が伝送されるかどうかを決定する。

Description

関連出願
本出願は、2006年7月31日に出願された「SPECTRAL TILT BASED DTX SCHEME」という名称の米国仮特許出願第60/834,689号、代理人整理番号061657P1の利益を主張するものである。
本開示は、信号処理に関する。
デジタル技術による音声の伝送は、特に長距離電話通信、ボイスオーバーIP(Voice over IP)(VoIP)などのパケット交換電話通信、携帯電話などのデジタル無線電話通信において、広く普及してきた。このような普及は、伝送チャネルを介して音声通信を転送するために使用される情報量を軽減すると同時に、復元された音声の感知品質を維持することへの関心をもたらせた。
人間の音声生成のモデルに関連するパラメータを抽出することによって音声を圧縮するように構成されるデバイスは、「音声コーダ」と呼ばれる。音声コーダは、一般に、符号器および復号器を含む。符号器は、通常、着信音声信号(オーディオ情報を表すデジタル信号)を「フレーム」と呼ばれる時間のセグメントに分割し、特定の関連するパラメータを抽出するために各フレームを分析し、パラメータを、ビットのセットまたはバイナリデータパケットなどの2進表現に量子化する。データパケットは、伝送チャネル(つまり、有線または無線のネットワーク接続)を介して、復号器を含む受信機に伝送される。復号器は、データパケットを受信して処理し、パラメータを生成するためにそれらを逆量子化し、逆量子化されたパラメータを使用して音声フレームを再作成する。
通常の会話において、各話者は、その時間の約60パーセントの間は黙っている。音声符号器は、通常、無音または背景雑音のみを含む音声信号のフレーム(「非アクティブフレーム」)から音声を含む音声信号のフレーム(「アクティブフレーム」)を区別するように構成される。そのような符号器は、アクティブフレームおよび非アクティブフレームを符号化するために異なる符号化モードおよび/またはレートを使用するように構成されることがある。たとえば、音声符号器は、通常、符号化されたアクティブフレームよりも低いビットレートで符号化された非アクティブフレーム(「無音記述子」、「無音記述」、またはSIDとも呼ばれる)を伝送するように構成される。
全二重電話通信中のいかなる時点においても、音声符号器のうちの少なくとも1つへの入力が非アクティブフレームになることが予想されることがある。符号器にとって、非アクティブフレーム全体よりも少ないSIDを伝送することが望ましいことがある。このような操作も不連続伝送(DTX)とも呼ばれる。1つの例において、音声符号器は、32の連続する非アクティブフレームのストリングごとに、1つのSIDを伝送することによってDTXを実行する。対応する復号器は、非アクティブフレームを合成するために快適雑音発生アルゴリズムによって使用される雑音発生モデルを更新するために、SIDの情報を適用する。
1つの構成による音声信号を処理する方法は、音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成することを含む。この方法は、スペクトル傾斜値のシーケンスの少なくとも2つの値の間の変化を計算すること、および複数の非アクティブフレームのうちの1つの非アクティブフレームについて、フレームの記述を伝送すべきかどうかを決定することを含む。この方法において、フレームの記述を伝送すべきかどうかを決定することは、計算された変化に基づく。
もう1つの構成によるコンピュータプログラム製品は、コンピュータ可読媒体を含む。この媒体は、少なくとも1つのコンピュータに、音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成させるためのコードを含む。この媒体は、少なくとも1つのコンピュータに、スペクトル傾斜値のシーケンスの少なくとも2つの値の間の変化を計算させるためのコードと、および少なくとも1つのコンピュータに、複数の非アクティブフレームのうちの1つの非アクティブフレームについて、計算された変化に基づいて、フレームの記述を伝送すべきかどうかを決定させるためのコードと、を含む。
もう1つの構成による音声信号を処理するための装置は、音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成するように構成されたシーケンス発生器を含む。この装置は、スペクトル傾斜値のシーケンスの少なくとも2つの値の間の変化を計算するように構成された計算器と、および複数の非アクティブフレームのうちの1つの非アクティブフレームについて、計算された変化に基づいて、フレームの記述を伝送すべきかどうかを決定するように構成された比較器とを含む。
もう1つの構成による音声信号を処理する装置は、音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成するための手段を含む。この装置は、スペクトル傾斜値のシーケンスの少なくとも2つの値の間の変化を計算するための手段と、および複数の非アクティブフレームのうちの1つの非アクティブフレームについて、計算された変化に基づいて、フレームの記述を伝送すべきかどうかを決定するための手段と、を含む。
図1Aは、1つの構成による方法M100の流れ図を示す。 図1Bは、1つの構成による装置A100のブロック図を示す。 図1Cは、方法M100の実施態様M101の流れ図を示す。 図1Dは、装置A100の実施態様A101のブロック図を示す。 図2は、スムーザ130の実施態様132のブロック図を示す。 図3は、各々の円が時間の経過に伴う音声信号の一連の連続フレームの1つを表す具体例を示す。 図4は、計算器140の実施態様142のブロック図を示す。 図5は、比較器150の実施態様152のブロック図を示す。 図6は、比較器150の実施態様154のブロック図を示す。 図7Aは、装置A100の実施態様A102のブロック図を示す。 図7Bは、さまざまな伝送指示が1つの複合伝送指示に結合される例を示す。 図8Aは、方法M100の実施態様を実行するために実行されうる命令のセットのソースコードリストを示す。 図8Bは、方法M100のもう1つの実施態様を実行するために実行されうる命令のセットのソースコードリストを示す。 図9は、方法M101および音声符号化の組み合わせを備える方法の流れ図を示す。 図10は、装置A101および音声符号器の組み合わせを備える装置のブロック図を示す。 図11Aは、方法M100の実施態様M200の流れ図を示す。 図11Bは、装置A100の実施態様A200の流れ図を示す。 図12Aは、方法M101の実施態様M110の流れ図を示す。 図12Bは、方法M200の実施態様M210の流れ図を示す。 図12Cは、方法M101の実施態様M120の流れ図を示す。 図12Dは、方法M200の実施態様M220の流れ図を示す。 図13Aは、ハングオーバを適用しない場合の平滑化されたスペクトル傾斜曲線の例を示す。 図13Bは、ハングオーバを適用した場合の平滑化されたスペクトル傾斜曲線の例を示す。 図14は、方法M100のさらなる実施態様を行うために実行されうる命令のセットのソースコードリストを示す。 図15は、ハングオーバ論理回路の例のブロック図を示す。 図16Aは、スムーザ132の実施態様134のブロック図を示す。 図16Bは、スムーザ132の実施態様136のブロック図を示す。 図17Aは、予測利得に基づいて更新制御信号を生成するように構成された制御信号発生器60の1つの例62のブロック図を示す。 図17Bは、ハングオーバを適用するように構成された制御信号発生器62の1つの例64のブロック図を示す。 図18は、ハングオーバ論理回路52も含む制御信号発生器64の1つの実施態様66のブロック図を示す。 図19Aは、伝送指示制御回路70の1つの例72のブロック図を示す。 図19Bは、比較器152の実施態様156のブロック図を示す。 図20は、更新制御信号を生成するように構成され、SID伝送指示をゲート制御するように構成された制御回路80の1つの例82のブロック図を示す。 図21は、方法M100のさらなる実施態様を行うために実行されうる命令のセットのソースコードリストを示す。
本明細書に説明される構成は、音声信号の変化を検出するためのシステム、方法、および装置を含む。たとえば、信号の非アクティブ期間中の変化を検出し、そのような検出に基づいて、信号の記述の更新を開始するための構成が開示される。これらの構成は通常、パケット交換ネットワーク(たとえば、ボイスオーバーIPつまりVoIPなどのプロトコルに従って音声を伝送するように構成された有線および/または無線ネットワーク)において使用することが意図されているが、回路交換ネットワークにおける使用もまた明示的に検討され、本明細書に開示される。
このコンテキストによる明示的な限定がない限り、「計算(calculating)」という用語は、算出、評価、平滑化、および複数の値からの選択など、その通常の意味のいずれかを示すために本明細書で使用される。「備える(comprising)」という用語が本発明の説明および特許請求の範囲において使用される場合、それはその他の要素または操作を除外するものではない。「AはBに基づく(A is based on B)」という用語は、(i)「Aは少なくともBに基づく(A is based on at least B)」、および(ii)「AはBと等しい(A is equal to B)」(特定のコンテキストにおいて適切な場合)の事例を含むその通常の意味のいずれかを示すために使用される。
DTXを実施している符号器は、帰線消去方式に従って最も非アクティブなフレームをドロップ(または「帰線消去」)するように構成されることがある。帰線消去方式の1つの例は、一定の間隔で(たとえば、16番目または32番目の連続する非アクティブフレームごとに1回など)、無音記述の更新を発行する。その他の帰線消去方式(「スマートブランキング」方式とも呼ばれる)は、背景雑音の変化を指示する可能性のあるエネルギーおよび/またはスペクトル特性の変動を検出すると、無音記述の更新を発行するように構成される。
エネルギーの変動のみに依存する帰線消去方式は、場合によっては、背景雑音の知覚的に重要な変化を検出することができないこともある。ある場合には、知覚的に異なる非アクティブフレームが、類似したエネルギー特性(通常、利得値として符号化される)を有することになる。たとえば、通りの背景雑音(「ストリートノイズ」)が、混雑した場所の背景雑音(「バブルノイズ」)の経時エネルギー分布と類似した経時エネルギー分布を有することがあるが、これらの2つのタイプの雑音は、通常、非常に異なったものとして感知される。知覚的に異なるタイプの雑音を区別することができない帰線消去方式は、復号器において可聴音のアーティファクトを生じさせることもある。アクティブフレームは背景雑音も含むので、たとえば、復号器が、復号化アクティブフレームから、不適切なSIDから生成される快適雑音へと切り替えるとき、可聴の途切れが発生することもある。
帰線消去方式が、知覚的に重要となりうる背景雑音の変化を検出することが望ましい。たとえば、帰線消去方式が、背景雑音の1つまたは複数のスペクトル特性(たとえば、スペクトル傾斜)の突然の変化を検出することが望ましい場合がある。本明細書において説明される方法および装置は、そのような帰線消去方式を実施するために使用することができる。代替として、本明細書において説明される方法および装置は、別の帰線消去方式を補足するために使用することができる。たとえば、音声符号器または音声符号化の方法は、本明細書において説明される方法または装置と、米国特許出願公開第2006/0171419号明細書(Spindola他、2006年8月3日公開)において説明されている帰線消去方式、またはフレームエネルギーの変化および/または線スペクトルペアベクトル間の差異などの音声信号のスペクトル特性の変化を検出するように構成される別の帰線消去方式を組み合わせることができる。
図1Aは、一般的な構成による方法M100の流れ図を示す。音声信号の複数の非アクティブフレームに基づいて、タスクT200は、スペクトル傾斜値のシーケンスを生成する。タスクT400は、スペクトル傾斜値のシーケンス内の変化(たとえば、シーケンスの少なくとも2つの値の間の変化)を計算する。音声信号の非アクティブフレームについて、タスクT500は、フレームの記述を伝送すべきかどうかを決定するが、ここで決定は計算された変化に基づく。たとえば、記述を伝送すべきかどうかの決定は、(A)計算された変化の絶対値と(B)しきい値との間の関係に基づくことがある。
方法M100の標準的な実施態様において、各スペクトル傾斜値のシーケンスは、対応する非アクティブフレームのスペクトル傾斜に基づく。音声信号のフレームのスペクトル傾斜は、周波数範囲にわたるフレーム内のエネルギーの分布を記述する値である。通常、スペクトル傾斜は、対応するフレームにわたる信号のスペクトルの勾配を示し、正または負である。スペクトル傾斜値のシーケンスの次の値を生成する動作はまた、シーケンスの「更新」とも呼ばれる。
スペクトル傾斜値のシーケンスの値は通常、シーケンスの継続的な値が時間的に継続的な信号のセグメントに対応するように、時間的に逐次的になるように配列される。この方法で配列されたスペクトル傾斜値のシーケンスは、時間の経過に伴う音声信号のエネルギースペクトルの勾配の変化を記述する曲線(つまり、スペクトル傾斜曲線)を表すものと言える。
タスクT200は、さまざまな方法のいずれかでスペクトル傾斜値のシーケンスを生成するために実施することができる。たとえば、タスクT200は、記憶素子またはアレイ(たとえば、半導体メモリユニットまたはアレイ)から、音声符号化の方法などのさらに大規模なプロセスの別のタスクから、または音声符号器などの装置の要素から、そのようなシーケンスを受信するように構成されることがある。代替として、タスクT200は、本明細書において説明されるように、そのようなシーケンスを計算するように構成することもできる。
タスクT200は、受信または計算されたシーケンス(本明細書においてxとも示される)を、生成されたスペクトル傾斜値のシーケンスとして出力するように構成することができる。代替として、タスクT200は、このシーケンスxに1つまたは複数のその他の操作を実行することにより、スペクトル傾斜値のシーケンスyを生成するように構成することができる。これらのその他の操作は、たとえば、nを1よりも大きい整数のとき、n番目ごとに値を選択することおよび/または非アクティブフレームに対応する値のみを選択することで、シーケンスxの値から別のシーケンスを選択することを含むことができる。これらのその他の操作はまた、本明細書において説明されるように、受信されるか、計算されるか、または選択されるシーケンスを平滑化することも含む。
音声信号の時間的な各セグメントの期間(「セグメント」または「フレーム」とも呼ばれる)は通常、信号のスペクトル包絡線が比較的定常を維持することが予測されるように十分に短く選択される。たとえば、1つの標準的なフレーム長さは20ミリ秒であり、これは8キロヘルツ(kHz)のサンプリングレートにおける160個のサンプルに対応するが、特定の適用に適切であると見なされる任意のフレーム長さまたはサンプリングレートが使用されることがある。ある適用においてフレームは非重複であるが、これに対して別の適用においては重複フレーム方式が使用される。たとえば、音声コーダが、符号器において重複フレーム方式を使用し、復号器において非重複フレーム方式を使用することが一般的である。
通常の適用において、論理ゲートのアレイは、方法M100のさまざまなタスクのうちの1つ、複数、またはそのすべても実行するように構成される。たとえば、そのような1つのタスクまたは複数のタスクは、プロセッサなどのプログラム可能アレイによって実行されるように機械実行可能コードとして実施されることがある。方法M100のタスクはまた、複数のそのようなアレイによって実行されることがある。これらのまたはその他の実施態様において、タスクは、携帯電話などの無線通信用のデバイスまたはそのような通信機能を有するその他のデバイス内で実行することができる。そのようなデバイスは、回線交換および/またはパケット交換ネットワークと通信するように(例えば、VoIPのような1つまたは複数のプロトコルを使用して)構成することができる。たとえば、そのようなデバイスは、符号化アクティブフレームおよびSIDを伝送するように構成されたRF回路を含むことができる。方法M100はまた、コンピュータプログラム製品(たとえば、ディスク、フラッシュまたはその他の不揮発性メモリカード、半導体メモリチップなどの1つまたは複数のデータ記憶媒体)において具現されることもある。
方法M100の通常の適用において、タスクT400は、スペクトル傾斜値の継続するペアに基づいて一連の変化を計算するためにタスクT200によって生成されたスペクトル傾斜値のシーケンスにわたり反復して、およびタスクT500は、一連の変化にわたり反復して、一連の伝送決定を実行する。一般に、タスクT200は進行中のプロセスとして実行し、タスクT400およびT500は、スペクトル傾斜値ならびに対応する計算された変化および伝送指示が(たとえば、場合によっては1つまたは複数の非アクティブフレームの初期化期間後など)音声信号の非アクティブフレームごとに生成されるように、直列的または並列的に反復する。また、タスクT200がすべての非アクティブフレームよりも低い頻度(たとえば、2フレームまたは3フレームごと)でスペクトル傾斜値を生成するように、タスクT400がタスクT200と同じ頻度またはより低い頻度(たとえば、タスクT200の2番目または3番目の反復ごと)で実行されるように、および/またはタスクT500がタスクT400と同じ頻度またはより低い頻度(たとえば、タスクT400の2番目または3番目の反復ごと)で実行されるように、方法M100を実施することも可能である。
図1Bは、一般的な構成による装置A100のブロック図を示す。シーケンス発生器120は、音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成するように構成される。たとえば、シーケンス発生器120は、本明細書に開示されるように、タスクT200の実施態様を実行するように構成されてもよい。計算器140は、スペクトル傾斜値のシーケンスの少なくとも2つの値の間の変化を計算するように構成される。たとえば、計算器140は、本明細書に開示されるように、タスクT400の実施態様を実行するように構成されてもよい。比較器150は、音声信号の非アクティブセグメントの記述を伝送すべきかどうかを決定するように構成され、ここで決定は、計算された変化(たとえば、(A)計算された変化の絶対値と(B)しきい値との間の関係)に基づく。たとえば、比較器150は、本明細書に開示されるように、タスクT500の実施態様を実行するように構成されることがある。標準的な適用において、装置A100の実施態様は、スペクトル傾斜値のシーケンスを処理し、シーケンスに基づいて一連の伝送決定を生成するように構成される。
装置A100のさまざまな要素は、意図される適用に適切であると見なされるハードウェア、ソフトウェア、および/またはファームウェアの任意の組み合わせにおいて実施することができる。たとえば、これらの要素のいずれかは、論理ゲートの1つまたは複数のアレイとして実施されことがある。これらの要素のいずれか2つ以上、またはそのすべては、同一のアレイまたは複数の同一のアレイ内で実施することができる。そのような1つのアレイまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)で実施することができる。装置A100のさまざまな要素のいずれかはまた、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされたアレイ)として実施することができ、そしてこれらの要素の任意の2つ以上またはすべてはそのような同一のコンピュータまたは複数の同一のコンピュータ内で実施することができる。装置A100のさまざまな要素を、携帯電話などの無線通信用のデバイスまたはそのような通信機能を有するその他のデバイス内に含むことができる。そのようなデバイスは、(たとえば、VoIPのような1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成することができる。たとえば、そのようなデバイスは、対応する伝送決定の結果に従ってSIDを伝送するように構成される音声符号器および/または符号化アクティブフレームおよびSIDを伝送するように構成されたRF回路を含むことができる。
フレームのスペクトル傾斜を指示するためにその値を使用することができるパラメータの1つの例は、第1の反射係数kであり、そしてその他のそのようなパラメータについては以下で説明される。タスクT200は、音声符号化の方法など、より大規模な手順の別のタスクからスペクトル傾斜値のシーケンスを受信するように構成することができる。代替として、タスクT200は、以下で説明されるような値を計算するように構成されるタスクT210を含むように実施することができる。同様に、シーケンス発生器120は、音声符号器または通信デバイスなど、より大規模な装置の別の要素からスペクトル傾斜値のシーケンスを受信するように構成することができる。代替として、シーケンス発生器120は、以下で説明されるような値を計算するように構成される計算器128を含むように実施することができる。
タスクT200は、スペクトル傾斜値のシーケンスを平滑化するタスクT300を含むように実施することができる。タスクT300の標準的な実施態様は、無限インパルス応答(IIR)フィルタなど、自己回帰モデルに従ってスペクトル傾斜値のシーケンスをフィルタリングするように構成される。タスクT300の特定の例は、平滑化されたシーケンスyの各値を、スペクトル傾斜値の入力シーケンスxの現行値および平滑化されたシーケンスyの以前の値の加重平均として計算するために、以下の一次IIRフィルタリング操作を実行する。
Figure 2009545779
ここで、nは逐次指標を示す。望ましい平滑化の度合いに応じて、利得係数aは0から1の任意の値を有することができる。一般に、利得係数aは、0.6以下の値を有する。たとえば、利得係数aは、0.1から(または0.15から)0.4まで(または0.5まで)の範囲の値を有することができる。1つの特定の例において、シーケンスxは第1の反射係数kの一連の値であり、利得係数aは、値0.2(zero point two)を有する。図1Cは、タスクT200がタスクT300として実施される方法M100の実施態様M101の流れ図を示す。図1Dは、シーケンス発生器120が、タスクT300の実施態様を実行するように構成されるスムーザ130として実施される装置A100の実施態様A101のブロック図を示す。
図2は、スムーザ130の実施態様132の1つの例のブロック図を示す。スムーザ132は、スペクトル傾斜値の入力シーケンスの現行値x[n]に利得係数G10を適用するように構成された第1の乗算器と、遅延要素Dから得られたスペクトル傾斜値の平滑化シーケンスの以前の値y[n−1]に利得係数G20を適用するように構成された第2の乗算器と、2つの積の和としてy[n]を出力するように構成された加算器とを含む。利得係数G10が、タスクT300を参照して説明されたように値aを有すること、および利得係数G20が値(1−a)を有することが(たとえば、安定性のために)望ましいことがある。1つの特定の例において、シーケンスxは第1の反射係数kの一連の値であり、利得係数G10は値0.2(zero point two)を有し、利得係数G20は値0.8(zero point eight)を有する。前述のように、スムーザ132は、意図される適用に適切であると見なされるハードウェア、ソフトウェア、および/またはファームウェアの任意の組み合わせにおいて実施することができる。
代替として、または加えて、タスクT300は、スペクトル傾斜値のシーケンスx(またはシーケンスxに平滑化操作を実行した結果)に1つまたは複数のその他の平均化、積分、および/または低域フィルタリング操作を実行することにより、スペクトル傾斜値の平滑化されたシーケンスyの値を計算するように構成することができる。方法M100の代替実施態様において、たとえば、タスクT300は、有限インパルス応答(FIR)フィルタなど、移動平均モデルに従ってシーケンスxをフィルタリングするように構成される。方法M100のさらなる代替実施態様において、タスクT300は、自己回帰移動平均(ARMA)モデルに従ってシーケンスxをフィルタリングするように構成される。同様に、スムーザ130は、2つ以上の入力値に基づいて平滑化された値を生成するように構成された積分器または(FIRまたはARMAフィルタのような)その他の低域フィルタとして実施することができる。
方法M100は通常、タスクT300で平滑化されるスペクトル傾斜値のシーケンスxの各値が、音声信号の複数の継続するフレームのうちの1つに対応するように実施される。同様に、装置A100は通常、スムーザ130により平滑化されるシーケンスxの各値が、音声信号の複数の継続するフレームのうちの1つに対応するように実施される。これらの継続するフレームは、以下でさらに詳細に説明されるように、連続している必要はないことに留意されたい。
音声信号は通常、アクティブフレームならびに非アクティブフレームを含む。しかし、アクティブフレームからのエネルギー分布値が背景雑音の変化に関して信頼できる情報を提供する可能性が低いように、アクティブフレーム中のエネルギーの分布は、主として背景雑音以外の要因に起因する可能性がある。したがって、スペクトル傾斜値のシーケンスxが非アクティブフレームに対応する値のみを含むことが望ましい場合もある。そのような場合、シーケンスxの値は、音声信号において連続していない継続的(非アクティブ)フレームに対応することができる。
この原理を説明するため、図3は、各々の円が時間の経過に伴う音声信号の一連の連続フレームの1つを表す例を示す。非アクティブフレームを表す円は各々、スペクトル傾斜値のシーケンスx内の対応する値の指標番号でそれぞれマーク付けされている。この例において、値74および75はシーケンス内で連続している。値74および75に対応する非アクティブフレームは音声信号において継続しているが、これらはアクティブフレームのブロックによって分離されており、そのため相互に連続してはいない。
方法M100は、タスクT300が、非アクティブフレームに対応するシーケンスxのスペクトル傾斜値のみを受信するように構成されることがある。代替として、タスクT300は、連続フレームに対応するスペクトル傾斜値のシーケンスから、非アクティブフレームに対応する値のみを選択するように実施することができる。たとえば、タスクT300のそのような実施態様は、以下に説明されるように、音声符号器、音声符号化の方法、または音声アクティビティ検出タスクT100から受信された音声アクティビティ指示に基づいて、非アクティブフレームに対応するスペクトル傾斜値を選択するように(および/またはアクティブフレームに対応する値を拒否するように)構成されることがある。
同様に、装置A100は、スムーザ130が、非アクティブフレームに対応するシーケンスxのスペクトル傾斜値のみを受信するように構成されことがある。代替として、スムーザ130は、連続フレームに対応するスペクトル傾斜値のシーケンスから、非アクティブフレームに対応する値のみを選択するように実施することができる。たとえば、スムーザ130のそのような実施態様は、以下に説明されるように、音声符号器、音声符号化の方法、または音声アクティビティ検波器110から受信された音声アクティビティ指示に基づいて、非アクティブフレームに対応するスペクトル傾斜値を選択するように(および/またはアクティブフレームに対応する値を拒否するように)構成されることがある。
タスクT400は、タスクT200によって生成されたスペクトル傾斜値のシーケンスの少なくとも2つの値の間の変化を計算する。たとえば、タスクT400は、以下のような式に従って、平滑化されたシーケンスyの連続する値の間の差異(「デルタ」とも呼ばれる)を計算するように構成されることがある。
Figure 2009545779
ここで、zは出力を示し、bは利得係数を示す。図4は、bが1に等しい(つまり、一次FIR高域フィルタリング操作によりz[n]=y[n]−y[n−1])タスクT400のこの例の特定の場合を実行するために使用することができる計算器140の実施態様142を示す。計算器140および/またはタスクT400のその他の実施態様は、bの異なる値を使用してそのようなフィルタリング操作を適用するように構成されることがある。たとえば、bの値は、望ましい周波数特性に従って選択されてもよい。タスクT200がシーケンスxを生成するように構成される場合には、そのようなタスクT400または計算器142の実施態様は、z[n]=x[n]−x[n−1]のような式に従って差異を計算するように構成されることがある。前述のように、計算器142は、意図される適用に適切であると見なされるハードウェア、ソフトウェア、および/またはファームウェアの任意の組み合わせにおいて実施されることがある。
代替として、または加えて、タスクT400は、異なる高域フィルタリング操作(たとえば、一次IIR高域フィルタを生成されたシーケンスに適用する)、あるいは生成されたシーケンスの値の間の距離またはその他の変化を計算することなど、生成されたスペクトル傾斜値のシーケンスに1つまたは複数のその他の微分操作を実行するように構成されることがある。同様に、計算器140は、2つ以上の入力値の間の差異または距離または変化を計算するように構成された微分器、差分計算器、またはその他の高域IIRまたはFIRフィルタとして実施されることがある。
タスクT400によって計算された変化は、生成されたスペクトル傾斜値のシーケンスの変化率を指示するために使用されることがある。たとえば、前述のz[n]の絶対値は、ある非アクティブフレームから次の非アクティブフレームまでに背景雑音のスペクトル傾斜曲線がどの程度変化したかを指示するために使用されることがある。タスクT400は通常、絶対値がそれぞれのフレーム期間において平滑化された曲線の変化率を表す一連の距離を繰り返し計算するように構成される。
タスクT500は、音声信号の非アクティブセグメントの記述を伝送すべきかどうかを決定し、ここで決定はタスクT400によって計算された対応する変化に基づく。たとえば、タスクT500は、計算された変化の絶対値をしきい値Tと比較することにより、記述を伝送すべきかどうかを決定するように構成されることがある。タスクT500のそのような実施態様は、この比較の結果に従って2進フラグを設定するように構成されることがある。
Figure 2009545779
ここで、フラグp[n]の値は、伝送決定の結果を指示する。この場合において、1のp[n]値または論理TRUEは正の伝送指示であり(つまり、正の状態を有する伝送指示、伝送可能指示、伝送する決定の指示)、現行フレームについて無音記述への更新が送信されるべきであることを指示する。そして、ゼロのp[n]値または論理FALSEは負の伝送指示であり(つまり、負の状態を有する伝送指示、伝送不能指示、伝送しない決定の指示)、現行フレームについて無音記述への更新が送信されるべきではないことを指示する。1つの例において、しきい値Tは0.2の値を有する。より低いしきい値は、生成されたスペクトル傾斜値のシーケンスの変動により大きい感度を提供するために使用されるが、これに対して、より高いしきい値を使用は、生成されたスペクトル傾斜値のシーケンスにおける過渡事象のより大幅の除外を提供するために使用されることがある。
方法M100の代替実施態様において、タスクT400は、以下のような式に従って、変化を絶対値として計算するように構成することができることを、当業者であれば理解するであろう。
Figure 2009545779
さらに、タスクT500は、以下のような比較の結果に従って2進フラグを設定するように構成することができる。
Figure 2009545779
方法M100はまた、しきい値を計算された変化の2つ以上の平均絶対値(たとえば、現在と以前のフレームの計算された変化の平均絶対値)と比較する実施態様など、タスクT500の異なる変形を含むように実施されることがある。
図5は、タスクT500の実施態様を実行するために使用することができる比較器150の実施態様152のブロック図を示す。この例において、比較器152は、計算された変化の絶対値を計算して、絶対値をしきい値T10と比較することにより、伝送決定を実行するように構成される。1つの特定の例において、しきい値T10は0.2(zero point two)の値を有する。図6は、タスクT500の実施態様を実行するために使用することができる比較器150のもう1つの実施態様154のブロック図を示す。この例において、比較器154は、計算された変化の符合付き値を、正しきい値T10および負しきい値T20とそれぞれ比較して、計算された変化がしきい値T10よりも大きい(あるいは、以上)であるか、またはしきい値T20よりも小さい(あるいは、以下)である場合、正の伝送指示を発行するように構成される。1つの例において、しきい値T20は、比較器152および154が同じ結果を生成するように構成されるように、しきい値T10の負数である値を有する。しかし、比較器154はまた、必要に応じて、しきい値T20がしきい値T10とは異なる絶対値を有するように実施されることがある。
比較器150のさらなる実施態様は、計算器140から絶対値として計算された変化を受信して、この絶対値をしきい値T10と比較するように構成される。前述のように、比較器150のそのような実施態様(つまり、比較器152および154を含む)は、意図される適用に適切であると見なされるハードウェア、ソフトウェア、および/またはファームウェアの任意の組み合わせにおいて実施されることがある。図7Aは、対応する伝送指示を生成するために、前述のさまざまな操作を入力信号x[n]に実行するように構成される装置A100の1つの実施態様A102のブロック図を示す。
図8Aは、タスクT300、T400、およびT500の実施態様を含む方法M101の実施態様を実行するために、論理要素またはその他の状態機械(たとえば、コンピュータまたはプロセッサ)のプログラム可能アレイによって実行することができる命令のセットのソースコードリストの1つの例を示す。この例において、変数k0は現行フレームのスペクトル傾斜値x[n]を保持し、変数y_currentは最初にスペクトル傾斜値の平滑化されたシーケンスyの最新の値を保持し、フラグpは伝送指示の状態を保持する。Part1は、利得係数aの0.2の値を使用して、前述の式(1)に従って、平滑化されたシーケンスyの現行値を計算することにより、タスクT300を実行する。Part2は、利得係数bの1の値を使用して、前述の式(2)に従って、平滑化されたシーケンスyの現行値と最新値との間の変化を計算することにより、タスクT400を実行する。Part3は、0.2のしきい値を使用して、計算された変化としきい値との比較の結果に従ってフラグpを設定することにより、タスクT500を実行する。通常の適用において、命令のセットは、各々の反復の変数y_currentの初期値が以前の反復中に計算された変数y_currentの最終値であるように、(たとえば、非アクティブフレームごとに)反復して実行される。
前述のように、タスクT300は、スペクトル傾斜値のシーケンスxの1つまたは複数の過去の値および/または平滑化されたシーケンスyの1つまたは複数の過去の値に基づいて、スペクトル傾斜値の平滑化されたシーケンスyの現行値を計算するように構成されることがある。しかし、平滑化されたシーケンスyの初期値について、シーケンスxおよび/または平滑化されたシーケンスyの過去の値は存在しないこともある。タスクT300が過去の値の代わりに任意の値またはゼロの値を使用して平滑化されたシーケンスyの値を計算する場合、結果は、不適切に大きい計算された変化をタスクT400に出力させる可能性があり、これは次にスペクトル傾斜曲線が実際には一定である場合にも、正の伝送指示をタスクT500に出力させることになる可能性がある。
シーケンスxおよび/または平滑化されたシーケンスyの過去の値を保持するように構成される1つまたは複数の変数(たとえば、データ格納先)を初期化することが望ましい場合もある。そのような初期化は、タスクT300が最初に実行される前に実行すること、および/またはタスクT300内で実行されることがある。たとえば、1つまたは複数のそのような変数は、シーケンスxの現行値に初期化されてもよい。特定の例において、平滑化されたシーケンスの過去の値を記憶するように構成された変数(上記の式(1)のy[n−1])は、入力シーケンスの現行値(上記の式(1)のx[n])に初期化される。タスクT400が値x[n]およびx[n−1]に基づいて変化を計算するように構成される別の例について、入力シーケンスの過去の値x[n−1]を記憶するように構成された変数は、入力シーケンスの現行値x[n]に初期化される。代替として、または加えて、方法M100は、最初の数個の非アクティブフレームに対して(たとえば、タスクT500にそれらのフレームの負の状態を有する伝送指示を強制的に出力させることにより)正の伝送指示を出力することを回避するように構成されることがある。そのような場合、タスクT200(場合によってはタスクT300を含む)は、本明細書に説明されるように変数を初期化するのではなく、1つまたは複数の過去の値の各々に対して任意またはゼロの初期値を使用するように構成されることがある。
図8Bは、タスクT300の実施態様T310、ならびにタスクT400およびT500の実施態様を含む方法M101の実施態様を実行するために、論理要素またはその他の状態機械(たとえば、プロセッサ)のプログラム可能アレイによって実行することができる命令のセットのソースコードリストのもう1つの例を示す。この例において、タスクT310は、命令のセットが以前呼び出されたかどうか、そしてそれ故変数y_currentに格納されている値が有効であるかどうかを指示するために変数Y_VALIDを使用する初期化操作を含む。この場合、呼び出しルーチン(たとえば、音声符号化の方法など、より大規模な手順)は、命令のセットを呼び出す前に、Y_VALIDの値をFALSEに初期化するように構成される。Y_VALIDの値がFALSEであると命令のセットが決定した場合(つまり、命令のセットが初めて実行している場合)、このとき変数y_currentは、変数k0の現行値に初期化される。
無音記述(SID)は通常、フレームのスペクトル包絡線の記述および/またはフレームのエネルギー包絡線の記述を含む。これらの記述は、現在の非アクティブフレームから、および/または1つもしくは複数の以前の非アクティブフレームから導くことができる。SIDはまた、「無音記述の更新(update to the silence description)」、「無音記述子(silence descriptor)」、「無音挿入記述子(silence insertion descriptor)」、「快適雑音記述子フレーム(comfort noise descriptor frame)」、および「快適雑音パラメータ(comfort noise parameter)」などの他の名前によって呼ばれることもある。3GPP2 C.S0014−C version 1.0、「Enhanced Variable Rate Codec、Speech Service Options 3、68、and 70 for Wideband Spread Spectrum Digital Systems」の文献において説明されている拡張変数レートコーデック(Enhanced Variable Rate Codec)(EVRC)の特定の例において、SIDは、雑音励起線形予測(Noise-Excited Linear Prediction)(NELP)符号化モードを使用して第8レート(フレームあたり16ビット)で符号化されるが、これに対して、アクティブフレームは、符号励起線形予測(Code-Excited Linear Prediction)(CELP)、プロトタイプ周期(prototype pitch period)(PPP)、またはNELP符号化モードを使用してフルレート(フレームあたり171ビット)、ハーフレート(フレームあたり80ビット)、またはクォーターレート(フレームあたり40ビット)で符号化される。
スペクトル包絡線記述は一般に、フィルタ係数、反射係数、線スペクトル周波数(LSF)、線スペクトルペア(LSP)、イミタンススペクトル周波数(ISF)、イミタンススペクトルペア(ISP)、ケプストル係数、または対数面積比(log area ratios)などの、符号化パラメータのセットを含む。1つまたは複数のベクトルとして構成されうる符号化パラメータのセットは通常、1つまたは複数の指標として対応するルックアップテーブルまたは「コードブック」に量子化される。
SID内のスペクトル包絡線記述の通常の長さは、現在8から28ビットの範囲にわたる。上記で参照した3GPP2 C.S0014−C version 1.0において説明されているEVRCの特定の例において、各16ビットSIDは、スペクトル包絡線の低周波数情報のコードブックへの4ビット指標LSPIDX1、およびスペクトル包絡線の高周波数情報のコードブックへの4ビット指標LSPIDX2を含む。ETSI TS 126 092 V6.0.0(European Telecommunications Standards Institute(ETSI)、Sophia Antipolis Cedex、フランス、2004年12月)の文献において説明されているように、適応マルチレート(Adaptive Multi Rate)(AMR)音声コーデックの特定の例において、各35ビットSIDは、3つのLSFサブベクトルの各々について8ビットまたは9ビット長の指標を含む。ETSI TS 126 192 V6.0.0(ETSI、2004年12月)の文献において説明されているように、AMR広帯域(Wideband)音声コーデックの特定の例において、各35ビットSIDは、5つのISFサブベクトルの各々について5ビットまたは6ビット長の指標を含む。
エネルギー包絡線記述は、フレーム(「利得フレーム」とも呼ばれる)に適用されるべき利得値を含むことができる。代替として、または加えて、エネルギー包絡線記述は、フレームの複数のサブフレームの各々(集合的に「利得プロファイル」とも呼ばれる)に適用されるべき利得値を含むことができる。通常、利得フレームおよび/または利得プロファイルは、1つまたは複数の指標として対応するコードブックに量子化されるが、場合によっては、コードブックを使用することなく利得フレームおよび/または利得プロファイルを量子化および/または逆量子化するためにアルゴリズムが使用されてもよい。SID内のエネルギー包絡線記述の通常の長さは、現在5から8ビットの範囲にわたる。上記で参照した3GPP2 C.S0014−C v.1.0において説明されているEVRCの特定の例において、各16ビットSIDは、8ビットのエネルギー指標FGIDXを含む。上記で参照したETSI TS 126 092 V6.0.0において説明されているAMR音声コーデック、および上記で参照したETSI TS 126 192 V6.0.0において説明されているAMR広帯域音声コーデックの特定の例において、各35ビットSIDは、6ビットのエネルギー指標を含む。
方法M100または装置A100は、DTXをサポートするために帰線消去方式として使用することがある。たとえば、方法M100を含む手順または装置A100を含むデバイスは、タスクT500によって生成される伝送指示の状態が正の場合に限りSIDの伝送を実行するように構成されることがある。その他の帰線消去方式もまた、DTXをサポートするために使用することがある。そのような1つの例は、最新のSID伝送以降に生じた連続非アクティブフレームの数がしきい値DTX_MAXに到達した(あるいは、超えた)とき、必ず正のSID伝送指示を発行する方法または装置である。DTX_MAXの標準的な値は、16および32を含む。帰線消去方式のさらなる例は、最新のアクティブフレーム以降に生じた連続非アクティブフレームの数がしきい値に到達した(あるいは、超えた)とき、必ず正のSID伝送指示を発行する。
DTXをサポートするために使用されることがあるその他の帰線消去方式は、音声信号のエネルギーおよび/またはスペクトル包絡線記述の変化を検出すると、正のSID伝送指示を発行するように構成される方式を含む。たとえば、そのような方式は、フレームおよび最後に伝送されたSIDのスペクトル包絡線記述(たとえば、LSF、LSP、ISF、またはISPベクトル)の間の距離がしきい値を超える(あるいは、しきい値以上である)ことを検出すると、現在非アクティブなフレームの記述を伝送する決定を指示する正のSID伝送指示を発行するように構成されることがある。距離を計算する前にスペクトル包絡線記述をフィルタリング(たとえば、平滑化)することが望ましい場合がある。そのような方式の変形は、現在非アクティブなフレームおよび最後に伝送されたSIDのエネルギー包絡線記述の間の距離がしきい値を超える(あるいは、しきい値以上である)ことも検出した場合、正のSID伝送指示を発行するように構成される。さらなる変形は、これらの条件のいずれかが満たされることを検出した場合に、正のSID伝送指示を発行するように構成される。使用されることがあるその他の帰線消去方式は、しきい値と、フィルタリングおよび/または重み付けされうるフレームの平均絶対値またはフレームのエネルギー値(たとえば、サンプルの平方和)などのような値との間の比較に従って、正のSID伝送指示を発行するように構成される方式を含む。
DTXをサポートするために使用されることがある帰線消去方式のもう1つの例は、最後に伝送されたSIDおよび現在非アクティブなフレームの間の板倉距離(Itakura distance)がしきい値を超える(あるいは、しきい値以上である)ことを検出すると、正のSID伝送指示を発行するように構成される。そのような方式の変形は、(A)最後に伝送されたSIDと(B)現在非アクティブなフレームおよび以前の非アクティブなフレームの平均との間の板倉距離がしきい値を超える(あるいは、しきい値以上である)ことを検出すると、正のSID伝送指示を発行するように構成される。板倉距離は、自己相関および残留エネルギー値に基づくスペクトル変化の尺度であり、そのような方式についての説明は、ITU−T Recommendation G.729 Annex B(International Telecommunication Union、ジュネーブ、スイス、1996年10月)に掲載されている。
方法M100または装置A100の実施態様は、上記で説明されているもののうちの1つまたは複数のような、1つまたは複数のその他の帰線消去方式と組み合わせることがある。たとえば、そのような実施態様を含むかまたは実行する装置は、その帰線消去方式のいずれかがそのフレームについて正のSID伝送指示を発行する場合、SIDを伝送するように構成されることがある。図7Bは、さまざまな異なる伝送指示が論理OR演算を使用して1つの複合伝送指示に組み合わされる例の1つの実施態様を示す。
前述のように、SIDは、1つまたは複数の非アクティブフレームから導かれることがある。たとえば、装置A100を含むデバイスまたは方法M100を含む手順が、単一の符号化された非アクティブフレームとしてSIDを伝送するのではなく、複数の符号化された非アクティブフレームの平均を表すSIDを計算して伝送することが望ましい場合もある。そのような平均は、FIRまたはIIRフィルタリング操作を使用して、および/または、異常値の破棄または異常値を中央値と置き換えを含む中央値フィルタリングなどの統計的方法を使用することにより計算することができる。たとえば、デバイスまたは手順は、結果として得られるSIDが最近において最も頻繁に生じた利得および周波数値を含むように、現行フレームのエネルギーおよびスペクトル包絡線記述を、1つまたは複数の非アクティブなフレームの記述で統計的に平滑化することにより、SIDを計算するように構成されることがある。
平均が計算されるフレームの数は、固定されることがあり、または、たとえば定常性の尺度に従って異なることがある。そのような尺度の1つの例は、2つの異なるフレームのセットにわたって取られたスペクトル平均の間の距離(たとえば、板倉距離)である。上記で参照したG.729 Annex Bで説明されているそのような1つの例において、平均は、6つの過去のフレーム(現行フレームを含む)および2つの過去のフレームにわたり計算される。これらの2つの平均の間の距離がしきい値を超える(あるいは、しきい値以上である)場合、このとき、SIDは、2つのフレームにわたり平均化されたスペクトル記述(たとえば、信号は局所的に非定常である)を含む。それ以外の場合、SIDは、6つのフレームにわたり平均化されたスペクトル記述(たとえば、信号は局所的に定常であると想定される)を含む。上記で参照したETSI TS 126 192 V6.0.0で説明されているAMR Widebandコーデックの特定の例において、SIDは、現行フレームと7つの以前のフレームとの間のスペクトル距離の合計に従うか、または現行フレームのエネルギーと過去のフレームにわたる平均エネルギー値との間の距離に従って状態が設定されるディザリング指示を含む。
方法M100は、タスクT200が、音声符号化プロセスなどの別のプロセスからスペクトル傾斜値のシーケンスを受信するように実施されることがある。たとえば、方法M100の実施態様を実行するように構成されたデバイスまたはシステムは通常、音声信号に音声符号化の方法を実行するようにも構成される。音声符号化の方法は、線形予測符号化(LPC)分析を含むことができるが、これは時間tにおける音声信号のサンプルをtよりも前の時間における音声信号のサンプルの一次結合としてモデル化する係数のセットを計算する。通信デバイス(たとえば、携帯電話)の音声符号器によって実行されるLPC分析は通常、4、6、8、10、12、16、20、24、28、または32の次数を有する。別個のLPC分析が音声信号の異なる周波数帯域に実行される場合では、タスクT200は、低周波数帯域(たとえば、1kHzより低い周波数を含む)または中域周波数帯域(たとえば、少なくとも1から2kHZの周波数を含む)の分析に基づいてスペクトル傾斜値のシーケンスを受信するように構成されることがある。
タスクT200は、第1または第2の反射係数のシーケンスなど、反射係数のシーケンスとしてスペクトル傾斜値のシーケンスを受信するように配置されることがある。本明細書において開示される構成の範囲は、方法M100と(たとえば、図9に示される)音声符号化の方法の組み合わせ、ならびに方法M100を含む音声符号化の方法を備える方法を含む。
装置A100は、シーケンス発生器120が、音声符号器などの別の装置からスペクトル傾斜値のシーケンスを受信するように実施されることがある。たとえば、装置A100の実施態様を含むデバイスまたはシステムは通常、音声信号にLPC分析を実行するように構成されることがある音声符号器も含む。そのような場合、シーケンス発生器120は、反射係数のシーケンスとしてスペクトル傾斜値のシーケンスを受信するように構成されることがある。本明細書において開示される構成の範囲は、装置A100と(たとえば、図10に示される)音声符号器の組み合わせ、ならびに装置A100を含む音声符号器を備える装置を含む。
代替として、タスクT200は、音声信号の複数の非アクティブフレームに基づいてスペクトル傾斜値のシーケンスを計算するタスクT210を含むように実施されることがある。タスクT210は、たとえば、以下で説明されるさまざまな異なる技法のうちの1つまたは複数に従って、一連のフレームの各々に対して信号のスペクトル傾斜を評価するように構成されることがある。図11Aは、タスクT200のそのような実施態様T202を含む方法M100の実施態様M200の流れ図を示す。タスクT210はまた、音声符号化の方法など、より大規模なプロセスのその他のタスクに計算されたスペクトル傾斜値のシーケンスを供給するように構成されることがある。方法M100はまた、タスクT200がタスクT210として実施されるように実施されることがある。
図11Bは、シーケンス発生器120の実施態様122を含む装置A100の実施態様A200のブロック図を示す。シーケンス発生器122は、音声信号の複数の非アクティブフレームに基づいてスペクトル傾斜値のシーケンスを計算するように構成される計算器128を含む。たとえば、計算器128は、本明細書に開示されるように、タスクT210の実施態様を実行するように構成されることがある。装置A200のその他の要素と同様に、計算器128は、意図される適用に適切であると見なされるハードウェア、ソフトウェア、および/またはファームウェアの任意の組み合わせにおいて実施すされることがある。計算器128はまた、音声符号器のような、より大規模な装置のその他のタスクに計算されたスペクトル傾斜値のシーケンスを供給するように構成されることがある。装置M100はまた、シーケンス発生器120が計算器128として実施されるように実施されることがある。
タスクT210の標準的な実施態様は、音声信号の対応するフレームの第1の反射係数として、スペクトル傾斜を計算するように構成される。フレームの第1の反射係数(通常、kと示される)は、R(1)/R(0)の比(つまり、フレームの正規化された第1の自己相関値)として計算されることがあり、これは−1から+1の範囲のサンプル値について−1と+1の間のスカラー値を有する。この式において、R(1)はフレームの第1の自己相関係数(つまり、1サンプルの遅延におけるフレームの自己相関関数の値)を示し、R(0)は、フレームのゼロ番目の自己相関係数(つまり、ゼロの遅延におけるフレームの自己相関関数の値)を示す。
その他の実施態様において、タスクT210は、音声信号の対応するフレームの第2の反射係数として、スペクトル傾斜を計算するように構成される。フレームの第2の反射係数(通常kと示される)は、以下のように計算することができる。
Figure 2009545779
ここで、R(2)はフレームの第2の自己相関係数(つまり、2個のサンプルの遅延におけるフレームの自己相関関数の値)を示す。タスクT210はまた、1つまたは複数のLPCフィルタ係数など、1つまたは複数のその他のパラメータに基づいて、対応するフレームの1つまたは複数の反射係数(たとえば第1および/または第2の反射係数)を計算するように実施されることもある。
タスクT210の実施態様の範囲は、スペクトル傾斜を反射係数として計算するものに限定されてはいない。代替として、または加えて、タスクT210は、単一フレームまたは複数フレームのスペクトル傾斜を計算するために、1つまたは複数のその他のスペクトル評価技法を実行するように構成されることがある。そのようなスペクトル評価技法は、各フレームのスペクトル傾斜を、高周波数帯域のエネルギーと低周波数帯域のエネルギー間の比率として計算することを含むことができる。そのような計算は、離散フーリエ変換(DFT)のように、セグメントに周波数変換を実行することを含むことができる。そのようなスペクトル評価技法は、スペクトル傾斜を、各セグメント内のゼロ交差の数として計算することを含むことができる。そのような場合、より多量の高周波数エネルギーを指示するために、より大きいゼロ交差の数を取ることができる。
スペクトル傾斜値のシーケンスの計算において、タスクT210は、上記で説明されているように1つまたは複数の反射係数を計算するなど、自己相関関数の値に基づいて計算を実行するように構成されることがある。フィルタまたは反射係数などの、LPCモデルパラメータを計算する自己相関の方法は、テップリッツ行列を含む方程式を解くために一連の反復を実行することを伴う。ある実施態様において、タスクT210は、そのような方程式を解くために、レビンソンおよび/またはダービンのよく知られた再帰アルゴリズムのいずれかに従って、自己相関の方法を実行するように構成される。そのようなアルゴリズムは通常、反射係数(偏相関(PARCOR)係数、負のPARCOR係数、またはSchur−Szegoパラメータとも呼ばれる)を、LPCフィルタ係数のセットを生成するプロセスにおける中間物として計算する。
その他の実施態様において、タスクT210は、フィルタ係数のセットではなく、1つまたは複数の反射係数を計算するために一連の反復を実行するように構成される。たとえば、タスクT210は、Leroux−Gueguenアルゴリズムの実施態様を使用して1つまたは複数の反射係数を取得するように構成されることがある。代替として、タスクT210は、(効率的な並列計算のために構成されうる)Schur再帰アルゴリズムまたはBurg再帰アルゴリズムなど、自己相関値から1つまたは複数の反射係数を取得するために、別のよく知られた反復の方法を使用するように構成されることがある。
タスクT210は、音声信号の対応するフレームの自己相関関数の1つまたは複数の値を計算するように構成されることがある。たとえば、タスクT210は、以下のような式に従い、(mをゼロ以上の整数として、)特定の遅延値mについてフレームの自己相関関数を評価するように構成されることがある。
Figure 2009545779
ここで、Nはフレーム内のサンプルの数を示す。代替として、タスクT210は、(たとえば、音声符号器または音声符号化の方法、またはその他プロセスから)自己相関関数の値を受信するように構成されることがある。
音声符号器または音声符号化の方法は、LPCモデルのパラメータ(たとえば、フィルタおよび/または反射係数)を計算するなど、符号化操作において自己相関関数の値を使用するように構成されることがある。そのような音声符号器または音声符号化の方法が、自己相関値に1つまたは複数の前処理操作を実行することが望ましい場合もある。たとえば、自己相関値R(m)は、以下のような操作を実行することにより、スペクトル的に平滑化することができる。
Figure 2009545779
そのような状況において、タスクT210は、自己相関値にスペクトル平滑化または別の前処理操作を実行するように、および/またはスペクトル的に平滑化されたかまたは前処理された自己相関値を使用してスペクトル傾斜パラメータの値を計算するように構成されることがある。
(たとえば、タスクT210あるいは音声符号器または音声符号化の方法によって)自己相関関数が音声信号に適用される前に、信号にウィンドウ関数w[n]を適用することが望ましい場合もある。たとえば、自己相関関数が現在適用されているフレームの外側の音声信号をゼロにすることが好ましい場合もある。場合によっては、ウィンドウ関数w[n]は長方形または三角形である。ウィンドウの各端で低いサンプル重みを有するテーパ付きウィンドウ関数を使用することが望ましい場合もあり、これはウィンドウの外部のコンポーネントの影響を低減する上で役立つ。たとえば、以下のハミングウィンドウ関数などの、二乗余弦ウィンドウを使用することが好ましい場合もある。
Figure 2009545779
ここで、Nはフレーム内のサンプルの数である。
使用すされることがあるその他のテーパ付きウィンドウは、ハミング、ブラックマン、カイザー、およびバートレットウィンドウを含む。ウィンドウ化フレームs[n]は、以下のような式に従って計算されることがある。
Figure 2009545779
ウィンドウ関数は対称である必要はなく、ウィンドウの半分に、もう一方の半分と異なる重み付けを行えることがある。ハミング−余弦ウィンドウ、または異なる半分のウィンドウを2つ有するウィンドウ(たとえば、異なるサイズの2つのハミングウィンドウ)など、混成のウィンドウも使用することができる。知覚重み付けのような、1つまたは複数のその他の前処理操作は、自己相関関数を評価するために使用される前に、サンプル値および/またはウィンドウ化値に(たとえば、タスクT210あるいは音声符号器または音声符号化の方法により)実行されることがある。
ウィンドウ関数w[n]は、現行フレームのサンプル、および1つまたは複数の隣接フレームのサンプルを含むように構成されることがある。場合によっては、ウィンドウは、現行フレームと、隣接する以前および未来のフレームからのサンプルを含む(たとえば、5ミリ秒直前および20ミリ秒後のフレームを含む5−20−5ウィンドウ)。その他の場合において、ウィンドウは、現行フレームと、隣接する以前のフレームからのサンプルのみを含む(たとえば、現在の20ミリ秒のフレームおよび先行フレームの最後10ミリ秒を含む10−20ウィンドウ)。
(たとえば、タスクT210あるいは音声符号器または音声符号化の方法によって)ウィンドウ関数が音声信号に適用される場合について、フレームの自己相関関数は以下のような式に従って計算することができる。
Figure 2009545779
前述のように、タスクT300またはスムーザ130が、非アクティブフレームに対応する値のみを含むシーケンスを平滑化することが望ましい場合もある。そのような場合、方法M100または装置A100は、(たとえば、音声符号器または音声符号化の方法から)フレームの音声アクティビティのレベルの指示を受信するように構成されるこいとがある。たとえば、そのような指示(「音声アクティビティ指示」とも呼ばれる)は、対応するフレームがアクティブまたは非アクティブのいずれであるかをその状態が指示する2値変数またはフラグの形態をとることができる。
音声アクティビティ指示は、平滑化タスクT300の操作を制御するために使用されることがある。たとえば、音声アクティビティ指示は、対応する非アクティブフレームから平滑化スペクトル傾斜値を生成できるようにするため、および/または対応するアクティブフレームから平滑化スペクトル傾斜値を生成できないようにするために使用されることがある。1つのそのような例において、コンピュータまたはプロセッサは、対応するフレームが非アクティブフレームであることを音声アクティビティ指示が指示する場合に限り、スペクトル傾斜値を平滑化するために、タスクT300を制御するように構成される。代替として、タスクT300は、対応する音声アクティビティ検出の値に従って、平滑化スペクトル傾斜値を生成するかどうか、あるいは平滑化スペクトル傾斜値を受け入れまたは拒否するかどうかの決定を含むことができる。図12Aは、タスクT300のそのような実施態様T320を含む方法M101の実施態様M110の流れ図を示す。
音声アクティビティ指示は、計算タスクT210の操作を制御するために使用されることがある。たとえば、音声アクティビティ指示は、対応する非アクティブフレームのスペクトル傾斜を生成できるようにするため、および/または対応するアクティブフレームのスペクトル傾斜を生成できないようにするために使用されることがある。1つのそのような例において、プロセッサは、現行フレームが非アクティブフレームであることを音声アクティビティ指示が指示する場合に限り、スペクトル傾斜を計算するために、タスクT210を制御するように構成される。代替として、タスクT210は、対応する音声アクティビティ指示の値に従って、所定のフレームのスペクトル傾斜を生成するかどうかの決定を含むように構成されることがあり、または、(たとえば、フレームを受け入れまたは拒否するため)その入力および/または(たとえば、スペクトル傾斜値を発行するかどうか)その出力を制御するように構成されることがある。図12Bは、タスクT204がタスクT210のそのような実施態様T220を含む、タスクT202の実施態様T204を含む方法M200の実施態様M210の流れ図を示す。
音声アクティビティ指示を受信することの代替として、方法M100は、フレームがアクティブまたは非アクティブのいずれであるかを指示するように構成されるタスクT100を含むように実施されることがある。たとえば、タスクT100は、前述のように、音声アクティビティ指示(VAI)を計算するように構成されることがある。図12Cは、タスクT100を含む方法M101の実施態様M120の流れ図を示し、図12Dは、タスクT100を含む方法M200の実施態様M220の流れ図を示す。タスクT100は、全帯域エネルギー、低帯域エネルギー、高帯域エネルギー、スペクトルパラメータ(たとえば、1つもしくは複数のLSFおよび/または反射係数)、周期性、およびゼロ交差率などの、1つまたは複数の因子に基づいてフレームをアクティブまたは非アクティブとして分類するように構成されることがある。たとえば、そのような分類は、そのような特性の値を固定または適用しきい値と比較すること、および/またはそのような特性の値の変化の絶対値(たとえば、2つの値の間の差異の絶対値、または値と移動平均の間の差異の絶対値)を計算し、絶対値を固定または適用しきい値と比較することを含むことができる。
タスクT100は、低周波数帯域および高周波数帯域の各々における現行フレームのエネルギーを評価して、各帯域のエネルギーがそれぞれのしきい値よりも小さい(あるいは、以下である)場合、フレームが非アクティブであることを指示するように構成されることがある。そのようなしきい値は、固定または適用のいずれであってもよい。たとえば、各しきい値は、望ましい符号化レートに基づくことがある。適応しきい値のペアの1つの例は、上記で参照したC.S0014−C v.1.0のSection 4.7において説明される。この例において、各帯域のしきい値は、(望ましい平均データ転送速度から導かれた)アンカー操作ポイント、先行のフレームのその帯域における背景雑音レベルの推定、および先行のフレームのその帯域におけるシグナル対雑音の比に基づく。
アクティブな音声から非アクティブな音声への遷移は通常、複数フレームの期間にわたって生じ、アクティブな音声からの遷移後最初の複数の非アクティブなフレームは、背景雑音に加えて発声の残部を含むことがある。発声残部は、これらの遷移後の非アクティブなフレームが背景雑音のスペクトル傾斜とは異なるスペクトル傾斜を有することをもたらせ、これらの差異は、タスクT200によって生成されたスペクトル傾斜値のシーケンスを破壊して、そして不必要なSID遷移へと導くことがある。
前述のように、タスクT200が、非アクティブフレームのみに基づくシーケンスxの値を生成することが望ましい場合もある。同様に、タスクT300が、非アクティブフレームのみからの1つまたは複数のスペクトル傾斜値に基づく平滑化されたシーケンスyの値を生成することが望ましい場合もある。また、方法M100の実施態様が、スペクトル傾斜曲線を更新するために、1つまたは複数の遷移後フレームからのスペクトル傾斜値を使用することを避けることが望ましい場合もある。そのような制限は、決定タスクT500による偽の正の確立の低減に役立てることができる。
タスクT200は、対応する非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、生成されたスペクトル傾斜値のシーケンスの1つまたは複数の値を生成するように構成されることがある。たとえば、タスクT200またはタスクT300のそのような実施態様は、1つまたは複数の非アクティブフレームに対して、アクティブな音声からの遷移に続くスペクトル傾斜曲線の更新の開始を遅延または中断するように構成されることがある。図13Aおよび13Bはそれぞれ、そのような遷移の影響と、そのような遅延または中断の影響の例を示す。図13Aは、遷移後のフレームの発声残部によって生じた平滑化されたスペクトル傾斜曲線の振幅の急激な変化を示す。そのような変化は、望ましくない正のSID伝送決定を導くことがある。この特定の例において、スペクトル傾斜パラメータは、発声残部が平滑化されたスペクトル傾斜曲線の振幅に急激な増加をもたらすが、代わりに別のスペクトル傾斜パラメータが使用される場合に発声残部が振幅の急激な減少をもたらすこともあるような第1の反射係数kである。比較のため、図13Bは、遷移後フレーム中の平滑化された曲線の更新を不可にするために遅延(「ハングオーバ」とも呼ばれる)が適用される例を示す。この場合、図13Aにおいて見られた急激な増加は生じることはない。1つの特定の例において、5つのフレームのハングオーバは、アクティブから非アクティブ音声への遷移に続いて使用される。
図14は、タスクT310の実施態様T312、ならびにタスクT400およびT500の実施態様を含む方法M100の実施態様を実行するために、論理要素またはその他の状態機械(たとえば、プロセッサ)のプログラム可能アレイによって実行されることがある命令のセットのソースコードリストの例を示す。この例において、タスクT312は、音声アクティビティ指示の現在の状態を格納する変数FRAME_ACTIVEを読み取る。FRAME_ACTIVEの値が、現行フレームがアクティブであることを示すTRUEである場合、このときハングオーバカウントが変数hangover_1に記憶され、命令のセットは終了する。この特定の例において、ハングオーバカウントは5であるが、その他の任意の正の整数値を使用されることがある。FRAME_ACTIVEの値が、現行フレームが非アクティブであることを示すFALSEである場合、命令のセットの反復は各々、変数hangover_1の値を減分して、変数hangover_1の値がゼロに達するまでに早期に終了する。この例において、タスクT400およびT500は、図8Bを参照して上記で説明されているように命令を使用して実施される。
方法M100および装置A100の例は、更新制御信号の状態に従ってスペクトル傾斜曲線の更新を制御するように構成された実施態様を含む。そのような信号は、前述のように、音声アクティビティ指示に基づくことがある。図14に示される変数FRAME_ACTIVEは、更新制御信号の1つの例(具体的には、更新不可信号)である。ハングオーバ論理回路50は、音声アクティビティ指示のアクティブ−非アクティブへの遷移を遅延させることによって更新制御信号を計算するために使用されることがある。図15は、更新制御信号(具体的には、更新可能信号)を生成するように構成されるハングオーバ論理回路50の実施態様52を示す。この図において、音声アクティビティ指示の状態は、非アクティブフレームに対しては低であり、アクティブフレームに対しては高であり、3つの遅延要素を有するタップ付き遅延線は、3つのフレームのハングオーバを実施するために使用され、現在および遅延の音声アクティビティ指示を結合するために論理NOR演算が使用される。その他の例において、音声アクティビティ指示の状態は、非アクティブフレームに対しては高であり、アクティブフレームに対しては低であり、この場合、現在および遅延の音声アクティビティ指示は論理AND演算を使用して結合される。タップ付き遅延線について、この回路のその他の例では、ハングオーバの望ましい期間に従って任意の数の遅延要素を使用することができる。代替として、ハングオーバ論理回路50は、アクティブ−非アクティブの遷移からカウントダウン(もしくはアップ)するため、および/または更新可能信号ではなく更新不可信号を計算するために、遅延カウンタを使用するように実施されることがある。
シーケンス発生器120は、対応する非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、生成されたスペクトル傾斜値のシーケンスの1つまたは複数の値を生成するように構成されることがある。たとえば、シーケンス発生器120またはスムーザ130は、望ましいハングオーバに従ってアクティブ−非アクティブの遷移後にスペクトル傾斜曲線の更新の開始を中断するように構成されることがある。そのようなシーケンス発生器120またはスムーザ130の実施態様は、前述のようなハングオーバ論理回路50の実施態様を含むように構成されることがある。図16Aは、スムーザ132の1つのそのような実施態様134を示す。この例において、セレクタ(たとえば、マルチプレクサ)は、更新制御信号の状態に従って、シーケンスの現行値(つまり、x[n])と、平滑化されたスペクトル傾斜曲線の以前の値(つまり、y[n−1])との間でスムーザの入力を切り替える。代替として、スムーザ110の実施態様は、更新制御信号が高のときにx[n]の現行値を記憶し、更新制御信号が低のときにこの記憶されている値を入力に使用するように構成されることがある。
図16Bは、前述のようなハングオーバ論理回路50の実施態様を含むスムーザ132のもう1つの実施態様136を示す。この例は、更新制御信号の状態に従って、さまざまな利得係数を出力するように構成される2つのセレクタ(たとえば、マルチプレクサ)を含む。第1のセレクタは、x[n]に適用される利得係数を出力する。更新制御信号の状態が高の場合、このセレクタは利得係数F10を出力し、更新制御信号の状態が低の場合、このセレクタは利得係数F12を出力する。第2のセレクタは、y[n−1]に適用される利得係数を出力する。更新制御信号の状態が高の場合、このセレクタは利得係数F20を出力し、更新制御信号の状態が低の場合、このセレクタは利得係数F22を出力する。1つの例において、利得係数F10およびF12はそれぞれ値0.2および0を有し、利得係数F20およびF22はそれぞれ値0.8および1.0を有する。
スムーザ136のさらなる実施態様は、スムーザの中断動作から正常動作への遷移がより漸進的であるように、利得係数ごとに3つ以上の値の間で選択するように構成されることがある。2進制御信号を生成するハングオーバ論理回路の代わりに、たとえば、そのようなスムーザは、3つ以上の状態を有する制御信号を生成するように構成されるハングオーバ論理回路50の実施態様を含むことができる。ハングオーバ論理回路50のそのような例は、cを2よりも大きい整数として、アクティブ−非アクティブの遷移に応じてc個の状態を通過する更新制御信号を生成するように構成されることがある。そのような場合において、スムーザ136の2つのセレクタは、遷移に応じて、そして一連のc個のフレームにわたり、x[n]に適用された利得係数が最小から最大まで(たとえば、0.0から0.2まで)c個の値を通過し、さらに、y[n−1]に適用された利得係数が最大から最小まで(たとえば、1.0から0.8まで)c個の値を通過するように構成されることがある。
符号化利得の尺度は、音声符号器(または音声符号化の方法)によって受信された信号のエネルギーと、対応する符号化誤りのエネルギーとの間の関係を説明する。通常、音声符号器または音声符号化の方法は、非アクティブフレームの場合よりもアクティブフレームの場合のほうが符号化利得の尺度が高くなるように、非アクティブフレームよりもさらに効率的にアクティブフレームを符号化する。フレームの符号化利得の尺度の1つの例は、符号化残留物のエネルギーEerrに対する初期信号エネルギーEin(たとえば、ウィンドウ化フレームのエネルギー)の比率である。そのような場合、各信号のエネルギーは通常、サンプルの絶対値の和として計算される。LPC分析の符号化利得のもう1つの一般的な尺度は予測利得であるが、これはすべてのi≦jについて(または、1<i≦jであるすべてのiについて)、
Figure 2009545779
の積の逆数として計算することができ、ここでjはLPC分析の順序であり、kはi番目の反射係数を示す。
音声符号器または音声符号化の方法により達成される符号化利得の次数は、信号変化の統計に応じてフレームごとに異なる傾向がある。しかし、一連の非アクティブフレームの間、信号は、その統計が著しく変わらないように、比較的常態となることが予想される。したがって、符号化利得の尺度の値Gは、背景雑音に知覚的に著しい変化がある間も、比較的一定していると予測されることがある。
符号化利得の尺度の値Gの大きな変化は、音声信号が、背景雑音の変化以外の要因により変化したことを指示できる。値Gにそのような変化を生じさせる1つの要因は、符号器の音声アクティビティ検波器の検出しきい値を下回る音声アクティビティである。そのような場合、たとえ背景雑音が大きく変化していない場合であっても、大きな変化がスペクトル傾斜値にも生じて、タスクT500による正のSID伝送決定に至ることもある。
符号化利得の尺度の値Gの変化に関連するスペクトル傾斜の変化を明らかにするように、方法M100を実施することが望ましい場合もある。たとえば、タスクT200の実施態様T230またはタスクT300の実施態様T330は、符号化利得の尺度の値Gの変動の絶対値に基づいて曲線の更新を可能または不可にするように構成されることがある。
場合によっては、符号化利得の尺度は、以下の式におけるように、符号化誤りに関して計算することができる。
Figure 2009545779
同様に、予測利得は、以下の式におけるように、予測誤りとして計算することができる。
Figure 2009545779
符号化利得の尺度はまた、たとえば、係数または項として、積
Figure 2009545779
またはEinとEerrの比も含む、その他の式に従って計算することができる。
符号化利得の尺度は、等分目盛り、または対数目盛りのような別の領域で表すことができる。そのような表現は以下のものを含む。
Figure 2009545779
符号化利得の尺度は通常、フレームごとに評価されるが、それほど頻繁ではなく(たとえば、2フレームごとまたは3フレームごと)および/または長い間隔を開けて(たとえば、フレームのペアまたはトリプレットにわたり)評価されてもよい。
標準的な構成において、タスクT230またはT330は、値Gが、1つの非アクティブフレームから次の非アクティブフレームまでにしきい値量よりも大きく(あるいは、しきい値量以上)変化するとき、生成されたスペクトル傾斜曲線の更新を不可にするように構成される。1つの特定の例において、タスクT330は、予測利得の値が、1つの以前の非アクティブフレームから現在の非アクティブフレームまでに0.72dBより大きく変化するとき、平滑化された曲線の更新を不可にするように構成される。タスクT230またはタスクT330の実施態様は、そのような不可が1つまたは複数の後続のフレームに及ぶようハングオーバを適用するように構成されることがある。タスクT230またはタスクT330のさらなる実施態様はまた、前述のように(たとえば、図13A〜図16Bを参照して)アクティブな音声からの遷移に続くハングオーバを適用するように構成されることがある。
(前述の例の1つのように)符号化利得の尺度の値Gの変化に関連するスペクトル傾斜曲線の変化を明らかにするように、装置A100を実施することが望ましい場合もある。たとえば、装置A100は、状態が予測利得の変動の絶対値に基づく更新制御信号を生成するように構成された制御信号発生器60を含むように実施されることがある。図17Aは、制御信号発生器60の1つの例62のブロック図を示す。制御信号発生器60はまた、図17Bに示される制御信号発生器64の例におけるように、ハングオーバを適用するように構成されることもある。1つの特定の例において、しきい値T30の値は0.72dBである。スムーザ134または136の実施態様は、音声アクティビティ指示におけるアクティブ−非アクティブの遷移を遅延させるように構成される回路の代わりに、またはこれに加えて、制御信号発生器60の実施態様を含むことができる。たとえば、そのような実施態様は、図18に示されるように制御信号発生器66を含むことができるが、これはハングオーバ論理回路62および制御信号発生器64の操作を結合する。
方法M100の実施態様は、符号化利得の尺度の値の変化に従って、SID伝送指示の生成を制御するように構成されることがある。たとえば、方法M100の実施態様は、符号化利得の尺度(たとえば、予測利得)の値が、非アクティブフレームから次の非アクティブフレームまでにしきい値量よりも大きく(あるいは、しきい値量以上)変化する場合、ゼロの距離を出力するように構成されるタスクT400の実施態様を含むことができる。加えて、または代替として、方法M100の実施態様は、予測利得の変動の絶対値に従って、正のSID伝送指示の生成を可能または不可にするように構成されるタスクT500の実施態様を含むことができる。タスクT500の1つのそのような実施態様T510は、予測利得が、以前の非アクティブフレームから現在の非アクティブフレームまでにしきい値よりも小さく(または、しきい値以下)変化する場合を除いて、正のSID伝送指示の生成を不可にするように構成される。1つのそのような特定の例において、しきい値は0.62dBである。伝送指示の生成の制御は、スペクトル傾斜曲線の更新を制御することに加えて、またはその代替として実行されることがある。
装置A100の実施態様は、符号化利得の尺度の値Gの変化に従って、SID伝送指示の生成を制御するように構成されることがある。図19Aは、しきい値T40と予測利得の変化の絶対値との間の関係に従って、正のSID伝送指示をゲート制御するように構成される伝送指示制御回路70の1つの例72のブロック図を示す。1つの特定の例において、しきい値T40の値は0.65dBである。図19Bは、伝送指示制御回路72を含む比較器152の実施態様156のブロック図を示す。
装置A100の実施態様は、符号化利得の尺度の値Gの変化に基づいて、更新制御信号およびSID伝送指示の両方の生成を制御するように構成されることがある。図20は、これらの操作を実行するように構成される制御回路80の1つの例82のブロック図を示す。そのような回路は、比較器150からSID伝送指示を受信して、更新制御信号をスムーザ130に供給するように構成されることがある。そのような回路はまた、スムーザ130または比較器150内で実施することができる。たとえば、スムーザ134または136において、制御回路82は、ハングオーバ論理回路52に取って代わり、予測利得に従って比較器150からのSID伝送指示をゲート制御するように構成されることがある。もう1つの例において、制御回路82は、予測利得に従ってSID伝送指示をゲート制御し、また更新制御信号をスムーザ130に供給するように比較器152内で構成されることがある。
図21は、タスクT312およびT330の実施態様T332、タスクT500の実施態様T510、およびタスクT400の実施態様を含む方法M100の実施態様を実行するために、論理要素またはその他の状態機械(たとえば、プロセッサ)のプログラム可能アレイによって実行することができる命令のセットのソースコードリストの1つの例を示す。この例において、変数FRAME_ACTIVEの状態は、現行フレームがアクティブまたは非アクティブのいずれであるかを指示し、変数Y_VALIDの状態は、命令のセットが以前呼び出されたかどうか(およびそれにより変数y_currentに記憶されている値が有効であるかどうか)を指示し、変数Gcの値は現行フレームの予測利得を指示する。
Y_VALIDの値がFALSEであると命令のセットが決定した場合(つまり、命令のセットが初めて実行している場合)、このとき変数Gc_currentは、変数Gcの現行値に初期化される。Gcの現行および過去の値の間の絶対差は変数Gc_diffに記憶され、この差がしきい値よりも大きい場合、2つのフレームのハングオーバが適用される。Part3において、フラグpは、Gc_diffの値がしきい値よりも小さい場合に限り設定される。
本明細書に説明される論理的実施態様の特定の例は、本開示を限定するものではなく、本開示を説明するために提示されており、当業者であれば、代替の論理的実施態様がこの開示の範囲内に含まれることを容易に理解するであろう。たとえば、入力のすべてが高である場合に限りアクティブな高の信号を生成するように構成されたANDゲートとして1つのコンテキストで実施される選択論理は、入力のすべてが低である場合に限りアクティブな低の信号を生成するように構成されたORゲートとしてもう1つのコンテキストで実施されることがある。第1の値から第2の値へのカウントダウンはまた、第2の値から第1の値へのカウントアップとして実施されても、またその逆であってもよい。正またはTRUEの指示は、1つのコンテキストにおいて2進の高の値を使用して表現され、もう1つのコンテキストにおいて2進の低の値を使用して表現されることがある。これらおよびその他の実施上の等価物が本開示の範囲内に含まれることが考慮され、本明細書に開示される。
前述の例において、スペクトル傾斜値のシーケンスが、連続する非アクティブフレームのシーケンス内に各々値を含むことが想定される。しかし、方法M100および装置A100は、スペクトル傾斜値のシーケンスが、一連の連続する非アクティブフレーム内に各々1未満の値を含むように実施されることがあることも考慮されたい。たとえば、シーケンスは、すべてのその他のフレーム(またはすべての3番目のフレームなど)の値をシーケンス内に含むことができる。そのようなシーケンスは、中間フレームを無視するか、そのようなフレームから値を廃棄することによって、またはフレームの各ペア(トリプレットなど)の値を平均化することによって得ることがある。代替として、または加えて、そのような原理は、符号化利得の尺度の値のシーケンスなど、その他のシーケンスに適用することができる。
当業者であれば、情報および信号が、多種多様な技術および技法のいずれかを使用して表現できることを理解するであろう。たとえば、上記の説明全体を通じて参照されうるデータ、命令、コマンド、情報、信号、ビット、および記号は、電圧、電流、電磁波、磁界または磁性粒子、光界または光学粒子、あるいはその任意の組み合わせにより表現することがある。生成されたスペクトル傾斜値のシーケンスが導かれる信号は「音声信号」と呼ばれるが、この信号はアクティブフレーム中に音楽またはその他の非音声情報コンテンツを搬送できることもまた考慮され、本明細書に開示される。
本明細書において説明される装置100のさまざまな実施態様の要素は、たとえば、同一のチップまたはチップセットの2つ以上のチップ上に常駐する電子および/または光学デバイスとして作成されることがある。そのようなデバイスの1つの例は、トランジスタまたはゲートのような、論理要素の固定またはプログラム可能なアレイである。本明細書において説明される装置100のさまざまな実施態様の1つまたは複数の要素はまた、マイクロプロセッサ、組み込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準品)、およびASIC(特定用途向け集積回路)などの、論理要素の1つまたは複数の固定またはプログラム可能アレイで実行するように構成された命令の1つまたは複数のセットとして全体または部分的に実施されることがある。
装置100の実施態様の1つまたは複数の要素が、装置が組み込まれているデバイスまたはシステムの別の操作に関連するタスクなど、装置の操作に直接には関連していないタスクまたは他の命令のセットを実行するために使用されることも可能である。また、装置A100の実施態様の1つまたは複数の要素が、共通の構造を有することも可能である(たとえば、異なる時間に異なる要素に対応するコードの部分を実行するために使用されるプロセッサ、異なる時間に異なる要素に対応するタスクを行うために実行される命令のセット、または異なる時間に異なる要素の操作を実行する電子および/または光学デバイスの構成)。1つのそのような例において、スムーザ130、計算器140、および比較器150は、同一のプロセッサ上で実行するように配置された命令のセットとして実施される。もう1つのそのような例において、シーケンス発生器120、または音声符号器(装置A100を含むことができる)も、そのプロセッサ上で実行するように構成された1つまたは複数の命令のセットとして実施される。
説明される構成についての上記の提示は、任意の当業者が、本明細書において開示される方法およびその他の構造を作成または使用できるようにするために提供される。本明細書において示され説明される流れ図およびその他の構造は例示的なものに過ぎず、これらの構造のその他の変形もまた本開示の範囲内に含まれる。これらの構成にさまざまな変更を加えることは可能であり、本明細書において提示される一般的原理は、その他の構成にも適用されるものとする。
本明細書において説明される構成は、ハードワイヤード回路として、特定用途向け集積回路に加工された回路構成として、または、コードがマイクロプロセッサまたはその他のデジタル信号処理装置などの論理要素のアレイによって実行可能な命令である機械可読コードとして不揮発性記憶装置にロードされるファームウェアプログラムもしくはデータ記憶媒体からまたはデータ記憶媒体にロードされるソフトウェアプログラムとして、部分的または全体的に実施されることがある。データストレージ媒体は、半導体メモリ(ダイナミックもしくはスタティックRAM(ランダムアクセスメモリ)、ROM(読み取り専用メモリ)、および/またはフラッシュRAMを含むことができるがこれらに限定されることはない)、または強誘電性、磁気抵抗の、オブシンスキー効果の、高分子、もしくは位相変化のメモリなどの記憶素子のアレイ、あるいは磁気または光ディスクのようなディスク媒体であってもよい。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、2進符号、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットあるいはシーケンス、およびそのような例の任意の組み合わせを含むものと理解されたい。
本明細書において説明される方法はまた、論理要素の(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、またはその他の有限状態機械)のアレイを含む機械によって読取可能および/または実行可能な1つまたは複数の命令のセットとして(たとえば、前述の1つまたは複数のデータ記憶媒体において)明白に具現することができる。したがって、本開示は、上記で示されている構成に限定されることを意図するものではなく、原開示の一部を形成する、出願された添付の特許請求の範囲を含む、本明細書において任意の方法で開示される原理および新規の特徴と一致する最大範囲を許容されるものとする。
当業者であればさらに、本明細書において開示される構成に関連して説明されるさまざまな例示的な論理ブロック、モジュール、回路、および操作が、電子ハードウェア、コンピュータソフトウェア、またはその両方の組み合わせとして実施できることを理解するであろう。そのような論理ブロック、モジュール、回路、および操作は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASIC、FPGAまたはその他のプログラム可能論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェアコンポーネント、あるいは本明細書において説明される機能を実行するように設計されたその任意の組み合わせで実施または実行することができる。汎用プロセッサはマイクロプロセッサであってもよいが、代替として、プロセッサは任意の標準的なプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってもよい。プロセッサはまた、コンピューティングデバイスの組み合わせ、たとえば、DSPおよびマイクロプロセッサ、複数のマイクロプロセッサ、DSPコアと連動する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成などの組み合わせ、として実施されることがある。
本明細書に説明される方法のタスクおよびアルゴリズムは、ハードウェア、プロセッサによって実行されるソフトウェアモジュール、またはこの2つの組み合わせにおいて直接に具現することができる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取り外し可能ディスク、CD−ROM、または当技術分野において知られている他の任意の形態の記憶媒体に常駐することができる。例示的な記憶媒体は、プロセッサが、記憶媒体から情報の読み取り、および記憶媒体に書き込みを行うことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサと一体化されてもよい。プロセッサおよび記憶媒体は、ASICに常駐することができる。ASICは、ユーザ端末に常駐することができる。代替として、プロセッサおよび記憶媒体は、ユーザ端末の個別コンポーネントとして常駐することができる。

Claims (46)

  1. 音声信号を処理する方法であって、前記方法は、
    前記音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成することと、
    スペクトル傾斜値の前記シーケンスの少なくとも2つの値の間の変化を計算することと、
    前記複数の非アクティブフレームのうちの1つの非アクティブフレームについて、前記フレームの記述を伝送すべきかどうかを決定することと、を備え、
    前記フレームの記述を伝送すべきかどうかを前記決定することは、前記計算された変化に基づく方法。
  2. スペクトル傾斜値のシーケンスを前記生成することは、スペクトル傾斜値の前記シーケンスを生成するためにスペクトル傾斜値の別のシーケンスを平滑化することを備え、
    前記別のシーケンスの前記スペクトル傾斜値の各々は、前記複数の非アクティブフレームのうちの対応する1つのスペクトル傾斜を指示する請求項1に記載の音声信号を処理する方法。
  3. 前記スペクトル傾斜値の各々は、前記音声信号の対応する非アクティブフレームの少なくとも1つの反射係数に基づく請求項1に記載の音声信号を処理する方法。
  4. 複数の前記スペクトル傾斜値の各々は、スペクトル傾斜値の前記シーケンス内の前記別のスペクトル傾斜値の少なくとも1つに基づく請求項1に記載の音声信号を処理する方法。
  5. 複数の前記スペクトル傾斜値の各々は、(A)前記複数の非アクティブフレームの対応する1つのスペクトル傾斜、および(B)スペクトル傾斜値の前記シーケンス内の前記別のスペクトル傾斜値の少なくとも1つに基づく請求項1に記載の音声信号を処理する方法。
  6. 前記計算された変化は、スペクトル傾斜値の前記シーケンス内の連続する値の間の差異に基づく請求項1に記載の音声信号を処理する方法。
  7. 変化を前記計算することは、スペクトル傾斜値の前記シーケンス内の隣接する値の間の距離を計算することを備える請求項1に記載の音声信号を処理する方法。
  8. 前記フレームの記述を伝送すべきかどうかを前記決定することは、前記計算された変化をしきい値と比較することを備える請求項1に記載の音声信号を処理する方法。
  9. 前記フレームの記述を伝送すべきかどうかを前記決定することの結果は、(A)前記計算された変化の絶対値と(B)しきい値との間の関係に基づく請求項1に記載の音声信号を処理する方法。
  10. 前記方法は、前記フレームの記述を伝送すべきかどうかを前記決定することの結果が、前記フレームの記述を伝送する決定である場合、スペクトル包絡線記述およびエネルギー包絡線記述のうちの少なくとも1つを含む無音記述を伝送することを備える請求項1に記載の音声信号を処理する方法。
  11. 前記方法は、(A)複数の非アクティブフレームの各々のスペクトル包絡線記述、および(B)複数の非アクティブフレームの各々のエネルギー包絡線記述のうちの少なくとも1つに基づいて前記無音記述を計算することを備える請求項10に記載の音声信号を処理する方法。
  12. 前記フレームの記述を伝送すべきかどうかを前記決定することは、(A)前記フレームのスペクトル包絡線を記述するベクトル、(B)前記フレームの残留エネルギー、(C)非アクティブフレームの記述の最新の伝送までの時間の距離、(D)最新のアクティブフレームまでの時間の距離、(E)前記フレームのエネルギー包絡線の記述、(F)前記フレームの平均絶対値、および(G)前記フレームのエネルギー値のうちの少なくとも1つに基づく請求項1に記載の音声信号を処理する方法。
  13. 前記方法は、前記フレームの記述を伝送すべきかどうかを前記決定することの結果が、前記フレームの記述を伝送する決定である場合、スペクトル包絡線記述およびエネルギー包絡線記述のうちの少なくとも1つを含む無音記述を伝送することを備える請求項12に記載の音声信号を処理する方法。
  14. 前記フレームの記述を伝送すべきかどうかを前記決定することは、符号化利得の尺度の変化がしきい値を超えると検出することに応じて、前記フレームの記述を伝送しないと決定することを備える請求項1に記載の音声信号を処理する方法。
  15. 符号化利得の前記尺度の各値は、前記音声信号の対応する非アクティブフレームの複数の反射係数の値に基づく請求項14に記載の音声信号を処理する方法。
  16. 前記方法は、スペクトル傾斜値の前記シーケンス内の複数の前記スペクトル傾斜値の各々について、前記スペクトル傾斜値とスペクトル傾斜値の前記シーケンス内の少なくとも1つの他のスペクトル傾斜値との間の変化を計算することを備え、
    前記方法は、前記音声信号の別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかを決定することを備え、
    前記別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかを前記決定することの結果は、前記計算された変化のうちの少なくとも1つに基づく請求項1に記載の音声信号を処理する方法。
  17. 前記別の複数の非アクティブフレームの少なくとも一部の各々について、前記フレームの記述を伝送すべきかどうかを前記決定することの前記結果は、前記フレームの記述を伝送しない決定である請求項16に記載の音声信号を処理する方法。
  18. 前記別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかを前記決定することは、符号化利得の尺度の変化がしきい値を超えると検出することに応じて、前記フレームの記述を伝送しないと決定することを備える請求項16に記載の音声信号を処理する方法。
  19. 前記別の複数の非アクティブフレームの各々について、符号化利得の尺度の前記変化は、(A)前記フレームに先行する前記音声信号の第1の非アクティブフレームの符号化利得の前記尺度の値、および(B)前記フレームに先行し前記第1の非アクティブフレームとは異なる前記音声信号の第2の非アクティブフレームの符号化利得の前記尺度の値に基づく請求項18に記載の音声信号を処理する方法。
  20. スペクトル傾斜値のシーケンスを前記生成することは、前記複数の非アクティブフレームのうちの少なくとも一部の各々について、前記音声信号の前記非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、スペクトル傾斜値の前記シーケンスのうちの対応する1つを生成することを備える請求項1に記載の音声信号を処理する方法。
  21. スペクトル傾斜値の前記シーケンスのうちの対応する1つを前記生成することは、前記音声信号の前記非アクティブフレームと先行のアクティブフレームとの間の時間の前記距離がしきい値未満である場合に、前記スペクトル傾斜値をスペクトル傾斜値の前記シーケンスのうちの以前の1つに設定することを備える請求項20に記載の音声信号を処理する方法。
  22. スペクトル傾斜値のシーケンスを前記生成することは、前記複数の非アクティブフレームのうちの少なくとも一部の各々について、前記非アクティブフレームの符号化利得の尺度に従って、スペクトル傾斜値の前記シーケンスのうちの対応する1つを計算することを備える請求項1に記載の音声信号を処理する方法。
  23. スペクトル傾斜値のシーケンスを前記生成することは、スペクトル傾斜値の前記シーケンスのうちの少なくとも1つの各々について、前記スペクトル傾斜値を、符号化利得の尺度の変化がしきい値を超えると検出することに応じて、スペクトル傾斜値の前記シーケンスのうちの以前の1つに設定することを備える請求項1に記載の音声信号を処理する方法。
  24. コンピュータ可読媒体を備えるコンピュータプログラム製品であって、前記媒体は、
    少なくとも1つのコンピュータに、音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成させるためのコードと、
    少なくとも1つのコンピュータに、スペクトル傾斜値の前記シーケンスの少なくとも2つの値の間の変化を計算させるためのコードと、
    少なくとも1つのコンピュータに、前記複数の非アクティブフレームのうちの1つの非アクティブフレームについて、前記計算された変化に基づいて、前記フレームの記述を伝送すべきかどうかを決定させるためのコードと、を備えるコンピュータプログラム製品。
  25. 少なくとも1つのコンピュータにスペクトル傾斜値のシーケンスを生成させるための前記コードは、前記少なくとも1つのコンピュータに、スペクトル傾斜値の前記シーケンス内の別のスペクトル傾斜値の少なくとも1つに基づいて、複数の前記スペクトル傾斜値の各々を生成させるように構成される請求項24に記載のコンピュータプログラム製品。
  26. 少なくとも1つのコンピュータに変化を計算させるための前記コードは、前記少なくとも1つのコンピュータに、スペクトル傾斜値の前記シーケンス内の連続する値の間の差異に基づいて、前記変化を計算させるように構成される請求項24に記載のコンピュータプログラム製品。
  27. 少なくとも1つのコンピュータに前記フレームの記述を伝送すべきかどうかを決定させるための前記コードは、前記少なくとも1つのコンピュータに、(A)前記計算された変化の絶対値、および(B)しきい値の関係に基づいて、前記フレームの記述を伝送すべきかどうかを決定させるように構成される請求項24に記載のコンピュータプログラム製品。
  28. 少なくとも1つのコンピュータに前記フレームの記述を伝送すべきかどうかを決定させるための前記コードは、前記少なくとも1つのコンピュータに、しきい値を超える符号化利得の尺度の変化に応じて、前記フレームの記述を伝送しないと決定させるためのコードを含む請求項24に記載のコンピュータプログラム製品。
  29. 少なくとも1つのコンピュータに変化を計算させるための前記コードは、前記少なくとも1つのコンピュータに、スペクトル傾斜値の前記シーケンス内の複数の前記スペクトル傾斜値の各々について、前記スペクトル傾斜値とスペクトル傾斜値の前記シーケンス内の少なくとも1つの別のスペクトル傾斜値の間の変化を計算させるように構成され、
    少なくとも1つのコンピュータに前記フレームの記述を伝送すべきかどうかを決定させるための前記コードは、前記少なくとも1つのコンピュータに、前記音声信号の別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかを決定させるように構成され、
    少なくとも1つのコンピュータに前記フレームの記述を伝送すべきかどうかを決定させるための前記コードは、前記別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかの前記決定が前記計算された変化の少なくとも1つに基づくように構成される請求項24に記載のコンピュータプログラム製品。
  30. 少なくとも1つのコンピュータにスペクトル傾斜値のシーケンスを生成させるための前記コードは、前記少なくとも1つのコンピュータに、前記複数の非アクティブフレームのうちの少なくとも一部の各々について、前記音声信号の前記非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、スペクトル傾斜値の前記シーケンスのうちの対応する1つを生成させるためのコードを備える請求項24に記載のコンピュータプログラム製品。
  31. 少なくとも1つのコンピュータにスペクトル傾斜値のシーケンスを生成させるための前記コードは、前記少なくとも1つのコンピュータに、スペクトル傾斜値の前記シーケンスのうちの少なくとも1つの各々について、前記スペクトル傾斜値を、符号化利得の尺度の変化がしきい値を超えると検出することに応じて、スペクトル傾斜値の前記シーケンスのうちの以前の1つに設定させるように構成される請求項24に記載のコンピュータプログラム製品。
  32. 少なくとも1つのコンピュータにスペクトル傾斜値のシーケンスを生成させるための前記コードは、前記少なくとも1つのコンピュータに、スペクトル傾斜値の前記シーケンスを生成するためにスペクトル傾斜値の別のシーケンスを平滑化させるように構成され、
    前記別のシーケンスの前記スペクトル傾斜値の各々は、前記複数の非アクティブフレームのうちの対応する1つのスペクトル傾斜を指示する請求項24に記載のコンピュータプログラム製品。
  33. 音声信号を処理する装置であって、前記装置は、
    前記音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成するように構成されたシーケンス発生器と、
    スペクトル傾斜値の前記シーケンスの少なくとも2つの値の間の変化を計算するように構成された計算器と、
    前記複数の非アクティブフレームのうちの1つの非アクティブフレームについて、前記計算された変化に基づいて、前記フレームの記述を伝送すべきかどうかを決定するように構成された比較器と、を備える装置。
  34. 前記比較器は、(A)前記計算された変化の絶対値と(B)しきい値との間の関係に基づいて前記フレームの記述を伝送すべきかどうかを決定するように構成される請求項33に記載の音声信号を処理する装置。
  35. 前記装置は、前記シーケンス発生器、前記計算器、および前記比較器を含む無線通信のためのデバイスを備え、
    前記デバイスは、前記比較器による前記フレームの記述を伝送する決定に応じて、スペクトル包絡線記述およびエネルギー包絡線記述のうちの少なくとも1つを含む無音記述を伝送するように構成される請求項33に記載の音声信号を処理する装置。
  36. 前記比較器は、しきい値を超える符号化利得の尺度の変化に応じて、前記フレームの記述を伝送しないと決定するように構成される請求項33に記載の音声信号を処理する装置。
  37. 前記計算器は、スペクトル傾斜値の前記シーケンス内の複数の前記スペクトル傾斜値の各々について、前記スペクトル傾斜値とスペクトル傾斜値の前記シーケンス内の少なくとも1つの他のスペクトル傾斜値との間の変化を計算するように構成され、
    前記比較器は、前記音声信号の別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかを決定するように構成され、
    前記比較器は、前記別の複数の非アクティブフレームの各々について、前記フレームの記述を伝送すべきかどうかの前記決定が前記計算された変化のうちの少なくとも1つに基づくように構成される請求項33に記載の音声信号を処理する装置。
  38. 前記シーケンス発生器は、前記複数の非アクティブフレームのうちの少なくとも一部の各々について、前記音声信号の前記非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、スペクトル傾斜値の前記シーケンスのうちの対応する1つを生成するように構成される請求項33に記載の音声信号を処理する装置。
  39. 前記シーケンス発生器は、スペクトル傾斜値の前記シーケンスのうちの少なくとも1つの各々について、前記スペクトル傾斜値を、符号化利得の尺度の変化がしきい値を超えると検出することに応じて、スペクトル傾斜値の前記シーケンスのうちの以前の1つに設定するように構成される請求項33に記載の音声信号を処理する装置。
  40. 前記シーケンス発生器は、スペクトル傾斜値の別のシーケンスを平滑化することによりスペクトル傾斜値の前記シーケンスを生成するように構成され、
    前記別のシーケンスの前記スペクトル傾斜値の各々は、前記複数の非アクティブフレームのうちの対応する1つのスペクトル傾斜を指示する請求項33に記載の音声信号を処理する装置。
  41. 音声信号を処理する装置であって、前記装置は、
    前記音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成するための手段と、
    スペクトル傾斜値の前記シーケンスの少なくとも2つの値の間の変化を計算するための手段と、
    前記複数の非アクティブフレームのうちの1つの非アクティブフレームについて、前記計算された変化に基づいて、前記フレームの記述を伝送すべきかどうかを決定するための手段と、を備える装置。
  42. 前記装置は、前記フレームの記述を伝送すべきかどうかを決定するための前記手段による決定に応じて、スペクトル包絡線記述およびエネルギー包絡線記述のうちの少なくとも1つを含む無音記述を伝送するための手段を備える請求項41に記載の音声信号を処理する装置。
  43. スペクトル傾斜値のシーケンスを生成するための前記手段は、前記複数の非アクティブフレームのうちの少なくとも一部の各々について、前記音声信号の前記非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、スペクトル傾斜値の前記シーケンスのうちの対応する1つを生成するように構成される請求項41に記載の音声信号を処理する装置。
  44. スペクトル傾斜値のシーケンスを生成するための前記手段は、スペクトル傾斜値の前記シーケンスのうちの少なくとも1つの各々について、前記スペクトル傾斜値を、符号化利得の尺度の変化がしきい値を超えると検出することに応じて、スペクトル傾斜値の前記シーケンスのうちの以前の1つに設定するように構成される請求項41に記載の音声信号を処理する装置。
  45. スペクトル傾斜値のシーケンスを生成するための前記手段は、スペクトル傾斜値の別のシーケンスを平滑化することによりスペクトル傾斜値の前記シーケンスを生成するように構成され、
    前記別のシーケンスの前記スペクトル傾斜値の各々は、前記複数の非アクティブフレームのうちの対応する1つのスペクトル傾斜を指示する請求項41に記載の音声信号を処理する装置。
  46. 音声信号を処理する方法であって、前記方法は、
    前記音声信号の複数の非アクティブフレームに基づくスペクトル傾斜値のシーケンスを生成することと、
    スペクトル傾斜値の前記シーケンスの少なくとも2つの値の間の変化を計算することと、
    前記複数の非アクティブフレームのうちの1つの非アクティブフレームについて、前記フレームの記述を伝送すべきかどうかを決定することと、を備え、
    前記フレームの記述を伝送すべきかどうかを前記決定することは、前記計算された変化に基づき、
    スペクトル傾斜値のシーケンスを前記生成することは、前記複数の非アクティブフレームのうちの少なくとも一部の各々について、前記音声信号の前記非アクティブフレームと先行のアクティブフレームとの間の時間の距離に従って、スペクトル傾斜値の前記シーケンスのうちの対応する1つを生成することを備える方法。
JP2009523024A 2006-07-31 2007-07-31 信号変化検出のためのシステム、方法、および装置 Active JP4995913B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US83468906P 2006-07-31 2006-07-31
US60/834,689 2006-07-31
US11/830,548 2007-07-30
US11/830,548 US8725499B2 (en) 2006-07-31 2007-07-30 Systems, methods, and apparatus for signal change detection
PCT/US2007/074895 WO2008016942A2 (en) 2006-07-31 2007-07-31 Systems, methods, and apparatus for signal change detection

Publications (2)

Publication Number Publication Date
JP2009545779A true JP2009545779A (ja) 2009-12-24
JP4995913B2 JP4995913B2 (ja) 2012-08-08

Family

ID=38812761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009523024A Active JP4995913B2 (ja) 2006-07-31 2007-07-31 信号変化検出のためのシステム、方法、および装置

Country Status (10)

Country Link
US (1) US8725499B2 (ja)
EP (1) EP2047457B1 (ja)
JP (1) JP4995913B2 (ja)
KR (1) KR101060533B1 (ja)
BR (1) BRPI0715063B1 (ja)
CA (1) CA2657420C (ja)
ES (1) ES2733099T3 (ja)
HU (1) HUE042959T2 (ja)
RU (1) RU2417456C2 (ja)
WO (1) WO2008016942A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017062512A (ja) * 2011-12-30 2017-03-30 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオ・データを処理するための方法、装置、及びシステム

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
US8032359B2 (en) 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
EP2153439B1 (en) * 2007-02-21 2018-01-17 Telefonaktiebolaget LM Ericsson (publ) Double talk detector
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
KR101235830B1 (ko) * 2007-12-06 2013-02-21 한국전자통신연구원 음성코덱의 품질향상장치 및 그 방법
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
DE102008009718A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
US8463603B2 (en) * 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
WO2010044713A1 (en) * 2008-10-16 2010-04-22 Telefonaktiebolaget L M Ericsson (Publ) Apparatus and method of controlling sporadic transmissions of silence insertion descriptor (sid)
CN102804260B (zh) * 2009-06-19 2014-10-08 富士通株式会社 声音信号处理装置以及声音信号处理方法
JP5870476B2 (ja) * 2010-08-04 2016-03-01 富士通株式会社 雑音推定装置、雑音推定方法および雑音推定プログラム
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
PT2951819T (pt) * 2013-01-29 2017-06-06 Fraunhofer Ges Forschung Aparelho, método e meio computacional para sintetizar um sinal de áudio
MY180912A (en) * 2013-01-29 2020-12-11 Fraunhofer Ges Forschung Noise filling without side information for celp-like coders
US9711156B2 (en) 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9741350B2 (en) 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
US9179404B2 (en) 2013-03-25 2015-11-03 Qualcomm Incorporated Method and apparatus for UE-only discontinuous-TX smart blanking
US9263061B2 (en) * 2013-05-21 2016-02-16 Google Inc. Detection of chopped speech
CN106169297B (zh) 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
US9570093B2 (en) 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US9479272B2 (en) 2014-05-14 2016-10-25 Samsung Electronics Co., Ltd Method and apparatus for processing a transmission signal in communication system
CN106533391A (zh) * 2016-11-16 2017-03-22 上海艾为电子技术股份有限公司 无限冲激响应滤波器及其控制方法
EP3382704A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
EP3815082B1 (en) 2018-06-28 2023-08-02 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive comfort noise parameter determination
WO2020146870A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
CN117436712B (zh) * 2023-12-21 2024-04-12 山东铁鹰建设工程有限公司 一种施工挂篮运行风险实时监测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999044191A1 (en) * 1998-02-27 1999-09-02 At & T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
JP2002237785A (ja) * 2000-10-31 2002-08-23 Telogy Networks Inc 人間の聴覚補償によりsidフレームを検出する方法
JP2006502427A (ja) * 2002-10-11 2006-01-19 ノキア コーポレイション 適応マルチレート広帯域(amr−wb)コーデックとマルチモード可変ビットレート広帯域(vmr−wb)コーデック間における相互運用方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5511073A (en) 1990-06-25 1996-04-23 Qualcomm Incorporated Method and apparatus for the formatting of data for transmission
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
US5704003A (en) 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6415252B1 (en) * 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
WO2000030075A1 (en) 1998-11-13 2000-05-25 Qualcomm Incorporated Closed-loop variable-rate multimode predictive speech coder
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
JP4438127B2 (ja) 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6330532B1 (en) 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
US6687668B2 (en) * 1999-12-31 2004-02-03 C & S Technology Co., Ltd. Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same
US7167828B2 (en) * 2000-01-11 2007-01-23 Matsushita Electric Industrial Co., Ltd. Multimode speech coding apparatus and decoding apparatus
US6889186B1 (en) * 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
US20040098255A1 (en) 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
KR20050049103A (ko) 2003-11-21 2005-05-25 삼성전자주식회사 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
US8102872B2 (en) 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US7231348B1 (en) * 2005-03-24 2007-06-12 Mindspeed Technologies, Inc. Tone detection algorithm for a voice activity detector
NZ562188A (en) 2005-04-01 2010-05-28 Qualcomm Inc Methods and apparatus for encoding and decoding an highband portion of a speech signal
US8892448B2 (en) 2005-04-22 2014-11-18 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999044191A1 (en) * 1998-02-27 1999-09-02 At & T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
JP2002237785A (ja) * 2000-10-31 2002-08-23 Telogy Networks Inc 人間の聴覚補償によりsidフレームを検出する方法
JP2006502427A (ja) * 2002-10-11 2006-01-19 ノキア コーポレイション 適応マルチレート広帯域(amr−wb)コーデックとマルチモード可変ビットレート広帯域(vmr−wb)コーデック間における相互運用方法
JP2006502426A (ja) * 2002-10-11 2006-01-19 ノキア コーポレイション ソース制御された可変ビットレート広帯域音声の符号化方法および装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017062512A (ja) * 2011-12-30 2017-03-30 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオ・データを処理するための方法、装置、及びシステム
US10529345B2 (en) 2011-12-30 2020-01-07 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
US11183197B2 (en) 2011-12-30 2021-11-23 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
US11727946B2 (en) 2011-12-30 2023-08-15 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data

Also Published As

Publication number Publication date
US8725499B2 (en) 2014-05-13
KR20090033461A (ko) 2009-04-03
EP2047457B1 (en) 2019-03-27
WO2008016942A3 (en) 2008-04-10
JP4995913B2 (ja) 2012-08-08
RU2009107181A (ru) 2010-09-10
CA2657420A1 (en) 2008-02-07
WO2008016942A2 (en) 2008-02-07
ES2733099T3 (es) 2019-11-27
RU2417456C2 (ru) 2011-04-27
BRPI0715063B1 (pt) 2019-12-24
BRPI0715063A2 (pt) 2013-05-28
EP2047457A2 (en) 2009-04-15
HUE042959T2 (hu) 2019-07-29
KR101060533B1 (ko) 2011-08-30
CA2657420C (en) 2015-12-15
US20080027716A1 (en) 2008-01-31

Similar Documents

Publication Publication Date Title
JP4995913B2 (ja) 信号変化検出のためのシステム、方法、および装置
KR101092167B1 (ko) 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩
KR100986957B1 (ko) 토널 컴포넌트들을 감지하는 시스템들, 방법들, 및 장치들
JP5265553B2 (ja) フレーム消去回復のシステム、方法、および装置
US8990074B2 (en) Noise-robust speech coding mode classification
KR101034453B1 (ko) 비활성 프레임들의 광대역 인코딩 및 디코딩을 위한 시스템, 방법, 및 장치
TWI467979B (zh) 用於信號改變偵測之系統、方法及裝置
KR20160045917A (ko) 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치
AU2013377884B2 (en) Systems and methods of performing gain control

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111101

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111201

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111208

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120104

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120510

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4995913

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250