JP2010530989A

JP2010530989A - 音声区間検出および音声信号分類ための方法および装置

Info

Publication number: JP2010530989A
Application number: JP2010512474A
Authority: JP
Inventors: ウラジミール・マレノフスキー; ミラン・ジェリネク; トミー・ヴェヤンクール; レドワン・サラミ
Original assignee: ヴォイスエイジ・コーポレーション
Priority date: 2007-06-22
Filing date: 2008-06-20
Publication date: 2010-09-16
Anticipated expiration: 2028-06-20
Also published as: ES2533358T3; WO2009000073A1; EP2162880B1; US20110035213A1; EP2162880A4; CA2690433A1; WO2009000073A8; JP5395066B2; US8990073B2; CA2690433C; RU2441286C2; EP2162880A1; RU2010101881A

Abstract

本発明は、音声が有用な信号として理解される、音声区間の検出、背景雑音の推定、および音声信号の分類に関する。本発明は、対応する音声区間検出器、背景雑音推定器、および音声信号分類器にも関する。音声信号の音調を推定する装置および方法は、音声信号の現在の剰余スペクトルを計算するステップと、現在の剰余スペクトルのピークを検出するステップと、検出された各ピークについて、現在の剰余スペクトルと前の剰余スペクトルとの相関マップを計算するステップと、計算された相関マップに基づいて長期相関マップを計算するステップであって、長期相関マップは、音声信号の音調を示すステップとを含む。

Description

本発明は、音声が有用な信号として理解される、音声区間の検出、背景雑音の推定、および音声信号の分類に関する。本発明は、対応する音声区間検出器、背景雑音推定器、および音声信号分類器にも関する。

排他的にではないが、特に、
−音声区間検出は、非アクティブフレームに最適化された技法を使用して符号化されるフレームの選択に使用され、
−音声信号分類器は、異なるスピーチ信号クラスおよび音楽を区別して、音声信号をより効率的に符号化できるようにするため、すなわち、無声スピーチ信号の最適化された符号化、安定有声信号の最適化された符号化、および他の音声信号の一般的な符号化を可能にするために使用され、
−アルゴリズムが提供され、このアルゴリズムは、いくつかの関連パラメータおよび特徴を使用して、符号化モードのよりよい選択および背景雑音のよりロバストな推定を可能にし、
−音調推定が、音楽信号の存在する場合の音声区間検出の性能を向上させるため、かつ無声音と音楽とをよりよく区別するために使用され、例えば、音調推定を超広帯域コーデックに使用して、７ｋＨｚを超える信号を符号化するコーデックモデルを決定することができる。

主観的品質とビットレートとのトレードオフが良好で効率的な狭帯域および広帯域のデジタルスピーチ符号化技法に対する需要が、テレビ会議、マルチメディア、および無線通信等の様々な用途で増えつつある。最近まで、２００〜３４００Ｈｚの範囲内に制限されてきた電話帯域幅は、主にスピーチ符号化用途（信号は８ｋＨｚでサンプリングされる）に使用されてきた。しかし、広帯域スピーチ用途は、従来の電話帯域幅と比較して、了解度および自然度のより高い通信を提供する。広帯域サービスでは、入力信号は１６ｋＨｚでサンプリングされ、符号化帯域幅は５０〜７０００Ｈｚの範囲である。この帯域幅は、対面でのやりとりに近い印象を与える良好な品質をもたらすのに十分なことが分かっている。さらなる品質の改良が、いわゆる超広帯域を使用して達成され、この場合、信号は３２ｋＨｚでサンプリングされ、符号化帯域幅は５０〜１５０００Ｈｚの範囲である。スピーチ信号の場合、これは、人間の発話内の略すべてのエネルギーが１４０００Ｈｚ未満であるため、対面品質を提供する。この帯域幅は、音楽を含むオーディオ信号全般にかなりの品質改良も与える（広帯域はＡＭラジオと等価であり、超広帯域はＦＭラジオと等価である）。オーディオ信号全般には、より高い帯域幅が使用され（ＣＤ品質は４４．１ｋＨｚまたは４８ｋＨｚでサンプリングされる）、全帯域は２０〜２００００Ｈｚである。

音声エンコーダが、音声信号（スピーチまたはオーディオ）をデジタルビットストリームに変換し、デジタルビットストリームは、通信チャネル上で送信されるか、または記憶媒体に記憶される。音声信号はデジタル化される。すなわち、通常は１６ビット／サンプルでサンプリングされ量子化される。音声エンコーダは、良好な主観的品質を保ちながら、これらデジタルサンプルをより少数のビットを使用して表す役割を果たす。音声デコーダは、送信または記憶されたビットストリームに対して動作して、ビットストリームを元の音声信号に変換する。

符号励振線形予測（ＣＥＬＰ）符号化は、主観的品質とビットレートとの良好な折り合いを達成する最良の従来技術による技法の１つである。この符号化技法は、無線用途および有線用途の両方でのいくつかのスピーチ符号化規格の基本である。ＣＥＬＰ符号化では、サンプリングされたスピーチ信号は、通常はフレームと呼ばれるＬ個のサンプルの連続ブロックで処理される。但し、Ｌは通常、１０〜３０ｍｓに対応する所定の数である。線形予測（ＬＰ）フィルタが、あらゆるフレームについて計算され、送信される。Ｌサンプルのフレームは、サブフレームと呼ばれるより小さなブロックに分けられる。各サブフレームでは、通常、励振信号が、過去の励振および革新的固定コードブック励振（ｉｎｎｏｖａｔｉｖｅｆｉｘｅｄｃｏｄｅｂｏｏｋｅｘｃｉｔａｔｉｏｎ）という２つの成分から得られる。過去の励振から形成される成分は、多くの場合、適応コードブックまたはピッチ励振と呼ばれる。励振信号を特徴付けるパラメータは、符号化されてデコーダに送信され、デコーダにおいて、再構築された励振信号がＬＰフィルタの入力として使用される。

ソース制御可変ビットレート（ＶＢＲ）スピーチ符号化の使用は、システム容量をかなり向上させる。ソース制御ＶＢＲ符号化では、コーデックは信号分類モジュールを使用し、最適化符号化モデルが、スピーチフレームの性質（例えば、有声、無声、過渡（ｔｒａｎｓｉｅｎｔ）、背景雑音）に基づく各スピーチフレームの符号化に使用される。さらに、異なるビットレートを各クラスに使用することができる。ソース制御ＶＢＲ符号化の最も単純な形態は、音声区間検出（ＶＡＤ）を使用し、非アクティブスピーチフレーム（背景雑音）を非常に低いビットレートで符号化するものである。安定背景雑音の場合にデータが送信されない不連続送信（ＤＴＸ）をさらに使用することができる。デコーダは、無音区間疑似背景雑音生成（ＣＮＧ：ｃｏｍｆｏｒｔｎｏｉｓｅｇｅｎｅｒａｔｉｏｎ）を使用して、背景雑音特徴を生成する。ＶＡＤ／ＤＴＸ／ＣＮＧにより、結果として平均ビットレートがかなり低減されると共に、パケット交換用途において、ルーティングされるパケット数がかなり低減する。ＶＡＤアルゴリズムは、スピーチ信号には上手く機能するが、音楽信号の場合には重大な問題を生じさせ得る。音楽信号のセグメントが無声信号として分類され、結果として、無声最適化モードで符号化されることがあり、これは音楽品質に深刻に影響する。さらに、安定音楽信号のセグメントによっては、安定背景雑音として分類されることがあり、これは、ＶＡＤアルゴリズムでの背景雑音の更新を引き起こし、結果として、アルゴリズムの性能低下に繋がることがある。したがって、音楽信号をよりよく区別するようにＶＡＤアルゴリズムを拡張することが有利である。本開示では、このアルゴリズムは、音声区間検出（ＳＡＤ）アルゴリズムと呼ばれ、音声はスピーチ、音楽、または他の任意の有用な信号であることができる。本開示は、音楽信号の場合にＳＡＤアルゴリズムの性能を向上させるために使用される音調検出方法も記載する。

スピーチおよびオーディオの符号における別の側面は、階層符号化としても知られている埋め込み符号化の概念である。埋め込み符号化では、信号は第１の階層に符号化されて、第１のビットストリームを生成し、次に、元の信号と第１の階層からの符号化信号との誤差がさらに符号化されて、第２のビットストリームが生成される。これは、元の信号とすべての先行階層からの符号化信号との誤差を符号化することにより、より多くの階層に対して繰り返すことができる。すべての階層のビットストリームは連結されて送信される。階層符号化の利点は、ビットストリームの部分（上位階層に対応する）をネットワーク内で破棄でき（例えば、輻輳の場合に）、破棄してもなお、受信した階層の数に依存して受信器で信号を復号化することができることである。階層符号化は、エンコーダがすべての階層のビットストリームを生成し、ネットワークが、各リンクで利用可能なビットレートに依存して、異なるエンドポイントに異なるビットレートを送信することを決定するマルチキャスト用途でも有用である。

埋め込み符号化または階層符号化は、広く使用されている既存のコーデックの品質を、これらコーデックとの相互運用性をなお保ちながら、向上させるためにも有用であることができる。より多くの階層を標準のコーデックコア階層に追加することにより、品質を向上させることができると共に、さらには、符号化オーディオ信号の帯域幅を増大させることができる。例は、最近標準化されたＩＴＵ−Ｔ勧告Ｇ．７２９．１であり、ＩＴＵ−Ｔ勧告Ｇ．７２９．１では、コア層が、８キロビット／秒の広く使用されているＧ．７２９狭帯域規格と相互運用可能であり、上位階層が最高で３２キロビット／秒のビットレートを生成する（広帯域信号は１６キロビット／秒から始まる）。現在の標準化作業は、より多くの階層を追加して、超広帯域コーデック（１４ｋＨｚ帯域幅）およびステレオ拡張を生成することを目指している。別の例は、８、１２、１６、２４、および３２キロビット／秒での広帯域符号化のＩＴＵ−Ｔ勧告Ｇ７１８である。このコーデックも、より高いビットレートで超広帯域およびステレオ信号を符号化するように拡張されつつある。

埋め込みコーデックの要件は、通常、スピーチ信号およびオーディオ信号の両方の場合で良好な品質を必要とする。スピーチは、モデルベースの手法を使用して比較的低いビットレートで符号化することができるため、第１の階層（または最初の２階層）は、スピーチに特定の技法を使用して符号化され、上位階層の誤差信号は、より汎用的なオーディオ符号化技法を使用して符号化される。これにより、低ビットレートで良好なスピーチ品質が届けられると共に、ビットレートが増大するため、良好なオーディオ品質が届けられる。Ｇ．７１８およびＧ．７２９．１では、最初の２階層は、スピーチ信号の符号化に適したＡＣＥＬＰ（代数的符号励振線形予測）技法に基づく。上位階層では、オーディオ信号に適する変換ベースの符号化が使用されて、誤差信号（元の信号と最初の２階層からの出力との差）が符号化される。周知のＭＤＣＴ（変形離散コサイン変換）変換が使用され、この変換では、誤差信号は周波数領域において変換される。超広帯域階層では、７ｋＨｚを超える信号は、汎用符号化モデルまたは音調符号化モデル（ｔｏｎａｌｃｏｄｉｎｇｍｏｄｅｌ）を使用して符号化される。上述した音調検出も、使用すべき適切な符号化モデルの選択に使用することができる。

本発明の第１の態様によれば、音声信号の音調を推定する方法が提供される。この方法は、音声信号の現在の剰余スペクトルを計算するステップと、現在の剰余スペクトルのピークを検出するステップと、検出された各ピークについて、現在の剰余スペクトルと前の剰余スペクトルとの相関マップを計算するステップと、計算された相関マップに基づいて長期相関マップを計算するステップとを含み、長期相関マップは、音声信号の音調を示す。

本発明の第２の態様によれば、音声信号の音調を推定する装置が提供される。この装置は、音声信号の現在の剰余スペクトルを計算する手段と、現在の剰余スペクトルのピークを検出する手段と、検出された各ピークについて、現在の剰余スペクトルと前の剰余スペクトルとの相関マップを計算する手段と、計算された相関マップに基づいて長期相関マップを計算する手段とを備え、長期相関マップは、音声信号の音調を示す。

本発明の第３の態様によれば、音声信号の音調を推定する装置が提供される。この装置は、音声信号の現在の剰余スペクトルの計算器と、現在の剰余スペクトルのピークの検出器と、検出された各ピークについての現在の剰余スペクトルと前の剰余スペクトルとの相関マップの計算器と、計算された相関マップに基づく長期相関マップの計算器とを備え、長期相関マップは、音声信号の音調を示す。

本発明の上記および他の目的、利点、および特徴は、添付図面を参照して単なる例として与えられる本発明の例示的な実施形態の以下の限定されない説明を読めば、より明確になるであろう。

音声区間の検出、背景雑音推定の更新、および音声信号の分類を含む音声通信システムの例の部分の概略ブロック図である。スペクトル解析での窓掛け処理の非限定的な図である。スペクトルフロア（ｓｐｅｃｔｒａｌｆｌｏｏｒ）および剰余スペクトルの原理の非限定的なグラフ図である。現在のフレーム内のスペクトル相関マップの計算の非限定的な図である。信号分類アルゴリズムの機能ブロック図の例である。無声スピーチを区別するための決定木の例である。

本発明の非限定的で例示的な実施形態では、音声区間検出（ＳＡＤ）が、音声通信システム内で実行されて、信号の短期フレームを音声または背景雑音／無音として分類する。音声区間検出は、周波数に依存する信号対雑音比（ＳＮＲ）に基づき、臨界帯域毎の推定背景雑音エネルギーを使用する。背景雑音推定器の更新についての判断は、背景雑音／無音と音楽とを区別し、それにより、音楽信号についての背景雑音推定器の更新を回避するパラメータを含むいくつかのパラメータに基づく。

ＳＡＤは、信号分類の第１の段階に対応する。この第１の段階は、非アクティブ信号の最適化された符号化のために、非アクティブフレームを区別するために使用される。第２の段階において、無声スピーチフレームが、無声信号の最適化された符号化のために区別される。この第２の段階において、音楽を無声信号として分類することを回避するために、音楽検出が追加される。最後に、第３の段階において、有声信号が、フレームパラメータのさらなる調査を通して区別される。

本明細書に開示される技法は、８０００サンプル／秒でサンプリングされる狭帯域（ＮＢ）音声信号または１６０００サンプル／秒もしくは他の任意のサンプリング周波数でサンプリングされる広帯域（ＷＢ）音声信号のいずれかと共に導入することができる。本発明の非限定的で例示的な実施形態において使用されるエンコーダは、内部サンプリング変換を使用して、信号サンプリング周波数を１２８００サンプル／秒に変換する（６．４ｋＨｚ帯域幅内で動作する）ＡＭＲ−ＷＢコーデック［ＡＭＲＷｉｄｅｂａｎｄＳｐｅｅｃｈＣｏｄｅｃ：ＴｒａｎｓｃｏｄｉｎｇＦｕｎｃｔｉｏｎｓ，３ＧＰＰＴｅｃｈｎｉｃａｌＳｐｅｃｉｆｉｃａｔｉｏｎＴＳ２６．１９０（ｈｔｔｐ：／／ｗｗｗ．３ｇｐｐ．ｏｒｇ）］およびＶＭＲ−ＷＢ［Ｓｏｕｒｃｅ−ＣｏｎｔｒｏｌｌｅｄＶａｒｉａｂｌｅ−ＲａｔｅＭｕｌｔｉｍｏｄｅＷｉｄｅｂａｎｄＳｐｅｅｃｈＣｏｄｅｃ（ＶＭＲ−ＷＢ），ＳｅｒｖｉｃｅＯｐｔｉｏｎｓ６２ａｎｄ６３ｆｏｒＳｐｒｅａｄＳｐｅｃｔｒｕｍＳｙｓｔｅｍｓ，３ＧＰＰ２ＴｅｃｈｎｉｃａｌＳｐｅｃｉｆｉｃａｔｉｏｎＣ．Ｓ００５２−Ａｖ１．０，Ａｐｒｉｌ２００５（ｈｔｔｐ：／／ｗｗｗ．３ｇｐｐ２．ｏｒｇ）］コーデックに基づく。したがって、非限定的で例示的な実施形態における音声区間検出技法は、１２．８ｋＨｚへのサンプリング変換後、狭帯域信号または広帯域信号のいずれかに対して動作する。

図１は、音声区間検出を含む、本発明の非限定的で例示的な実施形態による音声通信システム１００のブロック図である。

図１の音声通信システム１００は、プリプロセッサ１０１を備える。モジュール１０１による事前処理は、以下の例（高域通過フィルタリング、再サンプリング、およびプリエンファシス）で説明するように実行することができる。

周波数変換前に、入力音声信号は高域通過フィルタリングされる。この非限定的で例示的な実施形態では、高域通過フィルタの遮断周波数は、ＷＢの場合には２５Ｈｚであり、ＮＢの場合には１００Ｈｚである。高域通過フィルタは、望ましくない低周波成分に対する防止策として機能する。例えば、以下の伝達関数を使用することができる。
式中、ＷＢの場合、ｂ_０＝０．９９３０８２０、ｂ_１＝−１．９８６１６４０７、ｂ_２＝０．９９３０８２０、ａ_１＝−１．９８６１１６２、ａ_２＝０．９８６２１１９２９２であり、ＮＢの場合、ｂ_０＝０．９４５９７６８５６、ｂ_１＝−１．８９１９５３７１２、ｂ_２＝０．９４５９７６８５６、ａ_１＝−１．８８９０３３０７９、ａ_２＝０．８９４８７４３４５である。明らかなことに、高域通過フィルタリングは、代替として、１２．８ｋＨｚに再サンプリングした後に実行することもできる。

ＷＢの場合、入力音声信号は、１６ｋＨｚから１２．８ｋＨｚに間引きされる。この間引きは、音声信号を４でアップサンプリングするアップサンプラによって実行される。結果として得られる出力は、次に、遮断周波数６．４ｋＨｚを有する低域通過ＦＩＲ（有限インパルス応答）フィルタを通してフィルタリングされる。次に、低域通過フィルタリングされた信号は、適切なダウンサンプラによって５でダウンサンプリングされる。フィルタリング遅延は、１６ｋＨｚサンプリング周波数で１６個のサンプルである。

ＮＢの場合、音声信号は８ｋＨｚから１２．８ｋＨｚにアップサンプリングされる。そのために、アップサンプラが、音声信号に対して８でのアップサンプリングを実行する。結果として得られる出力は、次に、遮断周波数６．４ｋＨｚを有する低域通過ＦＩＲフィルタを通してフィルタリングされる。次に、ダウンサンプラが低域通過フィルタリングされた信号を５でダウンサンプリングする。フィルタリング遅延は、８ｋＨｚサンプリング周波数で１６個のサンプルである。

サンプリング変換後、符号化処理前に、プリエンファシスが音声信号に適用される。プリエンファシスでは、一次高域通過フィルタが使用されて、高周波が強調される。この一次高域通過フィルタは、プリエンファサイザ（ｐｒｅ−ｅｍｐｈａｓｉｚｅｒ）を形成し、例えば、以下の伝達関数を使用する。
Ｈ_{ｐｒｅ−ｅｍｐｈ}（ｚ）＝１−０．６８ｚ^−１

プリエンファシスは、高周波数でのコーデック性能を向上させると共に、エンコーダに使用される誤差最小化処理での知覚的重み付けを向上させるために使用される。

上述したように、入力音声信号は１２．８ｋＨｚサンプリング周波数に変換され、例えば、上述したように事前処理される。しかし、開示される技法は、異なる事前処理が施されるか、または事前処理なしの、８ｋＨｚまたは１６ｋＨｚ等の他のサンプリング周波数での信号にも等しく適用することができる。

本発明の非限定的で例示的な実施形態では、音声区間検出を使用するエンコーダ１０９（図１）は、１２．８ｋＨｚサンプリング周波数での２５６個のサンプルを含む２０ｍｓフレームに対して動作する。エンコーダ１０９は、将来のフレームからの１０ｍｓの先読みを使用して、解析を実行する（図２）。音声区間検出は、同じフレーミング構造に従う。

図１を参照すると、スペクトル解析はスペクトル解析器１０２において実行される。２つの解析が、５０％の重複を有する２０ｍｓ窓を使用して各フレームで実行される。窓掛け処理の原理を図２に示す。周波数ビンおよび臨界帯域の信号エネルギーが計算される［Ｊ．Ｄ．Ｊｏｈｎｓｔｏｎ，“Ｔｒａｎｓｆｏｒｍｃｏｄｉｎｇｏｆａｕｄｉｏｓｉｇｎａｌｕｓｉｎｇｐｅｒｃｅｐｔｕａｌｎｏｉｓｅｃｒｉｔｅｒｉａ”，ＩＥＥＥＪ．Ｓｅｌｅｃｔ．ＡｒｅａｓＣｏｍｍｕｎ．，ｖｏｌ．６，ｐｐ．３１４−３２３，Ｆｅｂｒｕａｒｙ１９８８］。

音声区間検出（信号分類の第１の段階）が、前のフレームで計算された雑音エネルギー推定を使用して音声区間検出器１０３内で実行される。音声区間検出器１０３の出力は二進変数であり、この二進変数は、エンコーダ１０９によりさらに使用され、現在のフレームがアクティブとして符号化されているか、それとも非アクティブとして符号化されているかを決める。

雑音推定器１０４は、雑音推定を下方更新する（雑音推定および更新の第１のレベル）。すなわち、臨界帯域において、フレームエネルギーが背景雑音の推定エネルギーよりも低い場合、その臨界帯域の雑音推定のエネルギーが更新される。

雑音低減は、オプションとして、例えば、スペクトル減算方法を使用して、オプションの雑音低減器１０５によりスピーチ信号に適用される。このような雑音低減方式の例は、［Ｍ．ＪｅｌｉｎｅｋａｎｄＲ．Ｓａｌａｍｉ，“ＮｏｉｓｅＲｅｄｕｃｔｉｏｎＭｅｔｈｏｄｆｏｒＷｉｄｅｂａｎｄＳｐｅｅｃｈＣｏｄｉｎｇ”，ｉｎＰｒｏｃ．Ｅｕｓｉｐｃｏ，Ｖｉｅｎｎａ，Ａｕｓｔｒｉａ，Ｓｅｐｔｅｍｂｅｒ２００４］に説明されている。

線形予測（ＬＰ）解析および開ループピッチ解析が、ＬＰ解析器・ピッチ追跡器１０６によって実行される（通常、スピーチ符号化アルゴリズムの一環として）。この非限定的で例示的な実施形態では、ＬＰ解析器・ピッチ追跡器１０６から得られたパラメータは、モジュール１０７において実行される臨界帯域での雑音推定の更新の判断の際に使用される。あるいは、音声区間検出器１０３は、雑音更新判断をするために使用することもできる。さらなる代替によれば、ＬＰ解析器・ピッチ追跡器１０６により実施される機能は、音声符号化アルゴリズムの一体部分であることができる。

モジュール１０７において雑音エネルギー推定を更新する前に、音楽検出が実行されて、アクティブ音楽信号による誤った更新が回避される。音楽検出は、スペクトル解析器１０２により計算されたスペクトルパラメータを使用する。

最後に、雑音エネルギー推定がモジュール１０７において更新される（雑音推定および更新の第２のレベル）。このモジュール１０７は、モジュール１０２〜１０６においてそれまでに計算された利用可能なすべてのパラメータを使用して、雑音エネルギー推定の更新について判断する。

信号分類器１０８において、音声信号は、無声、安定有声、または一般にさらに分類される。いくつかのパラメータが、この判断をサポートするために計算される。この信号分類器において、符号化中の信号の分類を最もよく表すように、現在のフレームの音声信号を符号化するモードが選ばれる。

音声エンコーダ１０９は、音声信号分類器１０８において選択される符号化モードに基づいて音声信号の符号化を実行する。他の用途では、音声信号分類器１０８は、自動スピーチ認識システムであることができる。

スペクトル解析
スペクトル解析は、図１のスペクトル解析器１０２によって実行される。

フーリエ変換が使用されて、スペクトル解析およびスペクトルエネルギー推定が実行される。スペクトル解析は、５０％重複を使用する（図２に示すように）２５６ポイント高速フーリエ変換（ＦＦＴ）を使用してフレーム毎に２度行われる。解析窓は、すべての先読みが利用されるように配置される。第１の窓の冒頭は、エンコーダの現在のフレームの冒頭にある。第２の窓は、サンプル１２８個分、後に配置される。平方根ハニング窓（正弦窓に等しい）が使用されて、スペクトル解析のために入力音声信号が重み付けされる。この窓は重複加算法に特によく適する（したがって、この特定のスペクトル解析は、スペクトル減算および重複加算解析／合成に基づく雑音抑圧に使用される）。平方根ハニング窓は、
により与えられ、式中、Ｌ_ＦＦＴ＝２５６はＦＴＴ解析のサイズである。ここでは、この窓は対称であるため、窓の半分のみ（０からＬ_ＦＦＴ／２まで）が計算され記憶される。

両方のスペクトル解析（第１および第２のスペクトル解析）の窓掛け処理された信号が、以下の２つの関係式を使用して得られる。
ｘ_ｗ ^（１）（ｎ）＝ｗ_ＦＦＴ（ｎ）ｓ’（ｎ）ｎ＝０，．．．，Ｌ_ＦＦＴ−１
ｘ_ｗ ^（２）（ｎ）＝ｗ_ＦＦＴ（ｎ）ｓ’（ｎ＋Ｌ_ＦＦＴ／２）ｎ＝０，．．．，Ｌ_ＦＦＴ−１
式中、ｓ’（０）は現在のフレーム内の最初のサンプルである。本発明の非限定的で例示的な実施形態では、第１の窓の冒頭は、現在のフレームの冒頭に配置される。第２の窓は、サンプル１２８個分、さらに配置される。

ＦＦＴは、窓掛け処理された両方の信号に対して実行され、フレーム毎に以下の２つのスペクトルパラメータセットが得られる。
式中、Ｎ＝Ｌ_ＦＦＴである。

このＦＦＴは、Ｘ_Ｒ（ｋ）、ｋ＝０〜１２８、およびＸ_ｌ（ｋ）、ｋ＝１〜１２７で示されるスペクトルの実部および虚部を提供する。Ｘ_Ｒ（０）は０Ｈｚ（ＤＣ）でのスペクトルに対応し、Ｘ_Ｒ（１２８）は６４００Ｈｚでのスペクトルに対応する。これらポイントでのスペクトルは実数値のみである。

ＦＦＴ解析後、結果として得られたスペクトルは、以下の上限を有する間隔を使用して臨界帯域に分けられる［Ｍ．ＪｅｌｉｎｅｋａｎｄＲ．Ｓａｌａｍｉ，“ＮｏｉｓｅＲｅｄｕｃｔｉｏｎＭｅｔｈｏｄｆｏｒＷｉｄｅｂａｎｄＳｐｅｅｃｈＣｏｄｉｎｇ”，ｉｎＰｒｏｃ．Ｅｕｓｉｐｃｏ，Ｖｉｅｎｎａ，Ａｕｓｔｒｉａ，Ｓｅｐｔｅｍｂｅｒ２００４］（周波数０〜６４００Ｈｚ内の２０個の帯域）。
臨界帯域＝｛１００．０，２００．０，３００．０，４００．０，５１０．０，６３０．０，７７０．０，９２０．０，１０８０．０，１２７０．０，１４８０．０，１７２０．０，２０００．０，２３２０．０，２７００．０，３１５０．０，３７００．０，４４００．０，５３００．０，６３５０．０｝Ｈｚ

２５６ポイントＦＦＴにより、５０Ｈｚの周波数分解能になる（６４００／１２８）。したがって、スペクトルのＤＣ成分を無視した後、臨界帯域毎の周波数ビンの数のそれぞれは、ＭＣＢ＝｛２，２，２，２，２，２，３，３，３，４，４，５，６，６，８，９，１１，１４，１８，２１｝である。

臨界帯域内の平均エネルギーは、以下の関係式
を使用して計算され、式中、Ｘ_Ｒ（ｋ）およびＸ_ｌ（ｋ）のそれぞれは、ｋ番目の周波数ビンの実部および虚部であり、ｊ_ｉは、ｊ_ｉ＝｛１，３，５，７，９，１１，１３，１６，１９，２２，２６，３０，３５，４１，４７，５５，６４，７５，８９，１０７｝により与えられるｉ番目の臨界帯域内の最初のビンのインデックスである。

スペクトル解析器１０２は、以下の関係式
を使用して、範囲０〜６４００Ｈｚ内の周波数ビン毎の正規化エネルギーＥ_ＢＩＮ（ｋ）も計算する。さらに、両解析での周波数ビン毎のエネルギースペクトルは一緒に組み合わせられて、平均対数エネルギースペクトル（デシベル単位）、すなわち、
が得られ、式中、上付き文字（１）および（２）を用いて、第１および第２のスペクトル解析をそれぞれ示している。

最後に、スペクトル解析器１０２は、平均臨界帯域エネルギーＥ_ＣＢを加算することにより、２０ｍｓフレーム内の第１および第２のスペクトル解析の両方に対して平均総エネルギーを計算する。すなわち、特定のスペクトル解析のスペクトルエネルギーは、以下の関係式
を使用して計算され、総フレームエネルギーは、フレーム内の第１および第２のスペクトル解析の両方のスペクトルエネルギーの平均として計算される。すなわち、
Ｅ_ｔ＝１０ｌｏｇ（０．５（Ｅ_{ｆｒａｍｅ}（０）＋Ｅ_{ｆｒａｍｅ}（１）），ｄＢ（６）
である。

スペクトル解析器１０２の出力パラメータ、すなわち、臨界帯域毎の平均エネルギー、周波数ビン毎のエネルギー、および総エネルギーは、音声区間検出器１０３およびレート選択に使用される。平均対数エネルギースペクトルは音楽検出に使用される。

８０００サンプル／秒でサンプリングされた狭帯域入力信号では、１２８００サンプル／秒へのサンプリング変換後、スペクトルの両端には内容がないため、最初の低周波数臨界帯域ならびに最後の３つの高周波数帯域は、関連パラメータの計算に考慮されない（ｉ＝１〜１６の帯域のみが考慮される）。しかし、式（３）および式（４）は影響されない。

音声区間検出（ＳＡＤ）
音声区間検出は、図１のＳＮＲベースの音声区間検出器１０３により実行される。

上述したスペクトル解析は、解析器１０２によりフレーム毎に２回実行される。式（２）において計算される
が、第１および第２のスペクトル解析のそれぞれでの臨界帯域毎のエネルギー情報を示すものとする。全体フレームおよび前のフレームの部分の臨界帯域毎の平均エネルギーは、以下の関係式
を使用して計算され、式中、
は、前のフレームの第２のスペクトル解析からの臨界帯域毎のエネルギーの情報を示す。次に、臨界帯域毎の信号対雑音比（ＳＮＲ）が、以下の関係式
ＳＮＲ_ＣＢ≧１により境界が決まるＳＮＲ_ＣＢ（ｉ）＝Ｅ_ａｖ（ｉ）／Ｎ_ＣＢ（ｉ）（８）
を使用して計算され、式中、Ｎ_ＣＢ（ｉ）は、後述するように、臨界帯域毎の推定雑音エネルギーである。次に、フレーム毎の平均ＳＮＲが、
として計算され、式中、広帯域信号の場合、ｂ_ｍｉｎ＝０およびｂ_ｍａｘ＝１９であり、狭帯域信号の場合、ｂ_ｍｉｎ＝１であり、ｂ_ｍａｘ＝１６である。

音声区間は、フレーム毎の平均ＳＮＲを、長期ＳＮＲの関数である特定の閾値と比較することにより検出される。長期ＳＮＲは以下の関係式
により与えられ、式中、
のそれぞれは、後述する式（１３）および式（１４）を使用して計算される。
の初期値は４５ｄＢである。

閾値は、長期ＳＮＲの区分的線形関数である。２つの関数が使用され、一方は雑音の少ないスピーチに最適化され、他方は雑音の多いスピーチに最適化される。

広帯域信号の場合、ＳＮＲ_ＬＴ＜３５（雑音の多いスピーチ）の場合、閾値は、
ｔｈ_ＳＡＤ＝０．４１２８７ＳＮＲ_ＬＴ＋１３．２５９６２５
に等しく、その他（雑音の少ないスピーチ）の場合、
ｔｈ_ＳＡＤ＝１．０３３３ＳＮＲ_ＬＴ−１８
である。

狭帯域信号の場合、ＳＮＲ_ＬＴ＜２０（雑音の多いスピーチ）の場合、閾値は、
ｔｈ_ＳＡＤ＝０．１０７１ＳＮＲ_ＬＴ＋１６．５
に等しく、その他（雑音の少ないスピーチ）の場合、
ｔｈ_ＳＡＤ＝０．４７７３ＳＮＲ_ＬＴ−６．１３６４
である。

さらに、ＳＡＤ判断にヒステリシスが追加されて、アクティブ音声期間の終わりでの周波数の頻繁な切り替えが回避される。ヒステリシス戦略は、広帯域信号および狭帯域信号に対して異なり、信号に雑音が多い場合のみ実行される。

広帯域信号の場合、ヒステリシス戦略は、フレームが、以下
ＳＮＲ_ＬＴ≧３５の場合、ｌ_ｈａｎｇ＝０
１５≦ＳＮＲ_ＬＴ＜３５の場合、ｌ_ｈａｎｇ＝１
ＳＮＲ_ＬＴ＜１５の場合、ｌ_ｈａｎｇ＝２
のように、長期ＳＮＲに従って長さが変化する「ハングオーバ期間」内にある場合に適用される。

ハングオーバ期間は、３つの連続したアクティブ音声フレーム後、最初の非アクティブ音声フレームで開始される。その機能は、強制的に、ハングオーバ期間中のあらゆる非アクティブフレームをアクティブフレームにすることからなる。ＳＡＤ判断については後に説明する。

狭帯域信号の場合、ヒステリシス戦略は、以下
ＳＮＲ_ＬＴ＜１９の場合、ｔｈ_ＳＡＤ＝ｔｈ_ＳＡＤ−５．２
１９≦ＳＮＲ_ＬＴ＜３５の場合、ｔｈ_ＳＡＤ＝ｔｈ_ＳＡＤ−２
３５≦ＳＮＲ_ＬＴの場合、ｔｈ_ＳＡＤ＝ｔｈ_ＳＡＤ
のように、ＳＡＤ判断閾値を低減することからなる。したがって、低ＳＮＲを有する雑音の多い信号の場合、閾値は、アクティブ信号としての判断に有利なように低減される。狭帯域信号にはハングオーバはない。

最後に、音声区間検出器１０３は、２つの出力−ＳＡＤフラグおよびローカルＳＡＤフラグを有する。両フラグは、アクティブ信号が検出された場合には１に設定され、その他の場合は０に設定される。さらに、ＳＡＤフラグは、ハングオーバ期間中は１に設定される。ＳＡＤ判断は、フレーム毎の平均ＳＮＲをＳＡＤ判断閾値と比較することにより行われる（例えば、比較器を介して）。すなわち、
ｉｆＳＮＲ_ａｖ＞ｔｈ_ＳＡＤ
ＳＡＤ_{ｌｏｃａｌ}＝１
ＳＡＤ＝１
ｅｌｓｅ
ＳＡＤ_{ｌｏｃａｌ}＝０
ｉｆハングオーバ期間中
ＳＡＤ＝１
ｅｌｓｅ
ＳＡＤ＝０
ｅｎｄ
ｅｎｄ

雑音推定および更新の第１のレベル
図１に示す雑音推定器１０４は、総雑音エネルギー、相対フレームエネルギー、長期平均雑音エネルギーの更新、および長期平均フレームエネルギーの更新、臨界帯域毎の平均エネルギー、および雑音補正係数を計算する。さらに、雑音推定器１０４は、雑音エネルギー初期化および下方更新を実行する。

フレーム毎の総雑音エネルギーは、以下の関係式
を使用して計算され、式中、Ｎ_ＣＢ（ｉ）は、臨界帯域毎の推定雑音エネルギーである。

フレームの相対エネルギーは、ｄＢ単位のフレームエネルギーと長期平均エネルギーとの差により与えられる。相対フレームエネルギーは、以下の関係式
を使用して計算され、式中Ｅ_ｔは式（６）において与えられる。

長期平均雑音エネルギーまたは長期平均フレームエネルギーは、あらゆるフレームで更新される。アクティブ信号フレーム（ＳＡＤフラグ＝１）の場合、長期平均フレームエネルギーは、関係式
を使用して更新され、初期値
である。

非アクティブスピーチフレーム（ＳＡＤフラグ＝０）の場合、長期平均雑音エネルギーは、以下
のように更新される。

の初期値は、最初の４つのフレームのＮ_ｔｏｔに等しく設定される。最初の４つのフレームでは、
の値は
によって境界が決まる。

全体フレームの臨界帯域毎のフレームエネルギーは、以下の関係式
を使用して、フレームでの第１および第２のスペクトル解析からのエネルギーを平均化することにより計算される。

臨界帯域毎の雑音エネルギーＮ_ＣＢ（ｉ）は、０．０３に初期化される。

この段階において、雑音エネルギー下方更新のみが臨界帯域に対して実行され、それにより、エネルギーは背景雑音エネルギーよりも低い。第１に、一時更新雑音エネルギーは、以下の関係式
を使用して計算され、式中、
は、前のフレームからの第２のスペクトル解析に対応する臨界帯域毎のエネルギーを示す。

次に、ｉ＝０〜１９について、Ｎ_ｔｍｐ（ｉ）＜Ｎ_ＣＢ（ｉ）の場合、Ｎ_ＣＢ（ｉ）＝Ｎ_ｔｍｐ（ｉ）である。

雑音推定および更新の第２のレベルは、フレームが非アクティブフレームであると宣言された場合、Ｎ_ＣＢ（ｉ）＝Ｎ_ｔｍｐ（ｉ）に設定することにより、後に実行される。

雑音推定および更新の第２のレベル
パラメトリック音声区間検出・雑音推定更新モジュール１０７は、次のフレーム内の音声区間検出器１０３で使用される臨界帯域毎の雑音エネルギー推定を更新する。この更新は、非アクティブ信号期間中に実行される。しかし、臨界帯域毎のＳＮＲに基づく、上で実行されたＳＡＤ判断は、雑音エネルギー推定が更新されるか否かを判断する際に使用されない。別の判断が、臨界帯域毎のＳＮＲからむしろ独立して他のパラメータに基づいて実行される。雑音エネルギー推定の更新に使用されるパラメータは、ピッチ安定性、信号非定常性、ボイシング（ｖｏｉｃｉｎｇ）、および２次ＬＰ残余誤差エネルギーと１６次ＬＰ残余誤差エネルギーとの比であり、一般に、雑音レベルの変動の影響を受けにくい。雑音エネルギー推定の更新の判断は、スピーチ信号に対して最適化される。アクティブ音楽信号の検出を向上させるために、以下の他のパラメータが使用される：スペクトルダイバーシチ（ｓｐｅｃｔｒａｌｄｉｖｅｒｓｉｔｙ）、相補的非定常性（ｃｏｍｐｌｅｍｅｎｔａｒｙｎｏｎ−ｓｔａｔｉｏｎａｒｉｔｙ）、雑音特徴、および音調安定性。音楽検出については以下の説明において詳細に説明する。

雑音エネルギー推定の更新にＳＡＤ判断を使用しない理由は、高速変化する雑音レベルに対して雑音推定をロバストにするためである。仮にＳＡＤ判断が雑音エネルギー推定の更新に使用されたならば、雑音レベルの急激な増大が、非アクティブ信号フレームのＳＮＲさえも増大させ、雑音エネルギー推定の更新が阻止され、これにより、後続フレームでＳＮＲが高く保たれることになり、以下同様である。したがって、更新はブロックされ、雑音適合を再開するために、他の何等かのロジックが必要になる。

本発明の非限定的で例示的な実施形態では、開ループピッチ解析が、図１中の）ＬＰ解析器・ピッチ追跡器モジュール１０６において実行されて、フレーム毎に、第１の半フレーム、第２の半フレーム、および先読みのそれぞれに対応する３つの開ループピッチ推定：ｄ_０、ｄ_１、およびｄ_２が計算される。この手続きは当業者に周知であり、本開示ではこれ以上説明しない（例えば、ＶＭＲ−ＷＢ［Ｓｏｕｒｃｅ−ＣｏｎｔｒｏｌｌｅｄＶａｒｉａｂｌｅ−ＲａｔｅＭｕｌｔｉｍｏｄｅＷｉｄｅｂａｎｄＳｐｅｅｃｈＣｏｄｅｃ（ＶＭＲ−ＷＢ），ＳｅｒｖｉｃｅＯｐｔｉｏｎｓ６２ａｎｄ６３ｆｏｒＳｐｒｅａｄＳｐｅｃｔｒｕｍＳｙｓｔｅｍｓ，３ＧＰＰ２ＴｅｃｈｎｉｃａｌＳｐｅｃｉｆｉｃａｔｉｏｎＣ．Ｓ００５２−Ａｖ１．０，Ａｐｒｉｌ２００５（ｈｔｔｐ：／／ｗｗｗ．３ｇｐｐ２．ｏｒｇ）］）。ＬＰ解析器・ピッチ追跡器モジュール１０６は、以下の関係式を使用してピッチ安定性カウンタを計算する。
ｐｃ＝｜ｄ_０−ｄ_−１｜＋｜ｄ_１−ｄ_０｜＋｜ｄ_２−ｄ_１｜（１９）
式中、ｄ_−１は、前のフレームの第２の半フレームのラグである。１２２よりも大きなピッチラグの場合、ＬＰ解析器・ピッチ追跡器モジュール１０６は、ｄ_２＝ｄ_１に設定する。したがって、このようなラグの場合、式（１９）中のｐｃの値は、３／２で乗算されて、この式中の第３項の欠落を補償する。ピッチ安定性は、ｐｃの値が１４未満の場合に真である。さらに、ボイシングが低いフレームの場合、ｐｃは１４に設定され、ピッチ不安定性を示す。より具体的には、
（Ｃ_ｎｏｒｍ（ｄ_０）＋Ｃ_ｎｏｒｍ（ｄ_１）＋Ｃ_ｎｏｒｍ（ｄ_２））／３＋ｒ_ｅ＜ｔｈ_Ｃｐｃの場合、ｐｃ＝１４（２０）
であり、式中、Ｃ_ｎｏｒｍ（ｄ）は、生の正規化相関であり、ｒ_ｅは、背景雑音が存在する場合に正規化相関の低減を補償するために、正規化相関に追加されるオプションの補正である。ボイシング閾値は、ＷＢの場合、ｔｈ_Ｃｐｃ＝０．５２であり、ＮＢの場合、ｔｈ_Ｃｐｃ＝０．６５である。補正係数は、以下の関係式
を使用して計算することができ、式中、Ｎ_ｔｏｔは、式（１１）に従って計算されたフレーム毎の総雑音エネルギーである。

生の正規化相関は、以下の式
を使用して、間引きされた重み付き音声信号ｓ_ｗｄ（ｎ）に基づいて計算することができ、式中、加算限度（ｓｕｍｍａｔｉｏｎｌｉｍｉｔ）は遅延自体に依存する。重み付き信号ｓ_ｗｄ（ｎ）は、開ループピッチ解析に使用されるものであり、Ａ（ｚ／γ）／（１−μｚ^−１）の形式の重み付けフィルタを通して、プリプロセッサ１０１からの事前処理された入力音声信号をフィルタリングすることにより与えられる。重み付き信号ｓ_ｗｄ（ｎ）は２で間引きされ、加算限度は、
ｄ＝１０，．．．，１６の場合、Ｌ_ｓｅｃ＝４０
ｄ＝１７，．．．，３１の場合、Ｌ_ｓｅｃ＝４０
ｄ＝３２，．．．，６１の場合、Ｌ_ｓｅｃ＝６２
ｄ＝６２，．．．，１１５の場合、Ｌ_ｓｅｃ＝１１５
に従って与えられる。

これら長さは、相関ベクトル長が、ロバストな開ループピッチ検出を得るのを助ける少なくとも１つのピッチ周期を含むことを保証する。瞬間ｔ_{ｓｔａｒｔ}が現在のフレームの冒頭に関連し、１２．８ｋＨｚサンプリングレートで、
第１の半フレームの場合、ｔ_{ｓｔａｒｔ}＝０
第２の半フレームの場合、ｔ_{ｓｔａｒｔ}＝１２８
先読みの場合、ｔ_{ｓｔａｒｔ}＝２５６
により与えられる。

パラメトリック音声区間検出・雑音推定更新モジュール１０７は、臨界帯域毎のエネルギーと臨界帯域毎の平均長期エネルギーとの比の積に基づいて信号非定常性推定を実行する。

臨界帯域毎の平均長期エネルギーは、以下の関係式
を使用して更新され、式中、広帯域信号の場合、ｂ_ｍｉｎ＝０であり、ｂ_ｍａｘ＝１９であり、狭帯域信号の場合、ｂ_ｍｉｎ＝１であり、ｂ_ｍａｘ＝１６であり、
は、式（１５）中で定義される臨界帯域毎のフレームエネルギーである。更新係数α_ｅは、式（６）中で定義される総フレームエネルギーの線形関数であり、以下のように与えられる。
広帯域信号の場合、０．５≦α_ｅ≦０．９９で境界が決まるα_ｅ＝０．０２４５Ｅ_ｔ−０．２３５
狭帯域信号の場合、０．５≦α_ｅ≦０．９９９で境界が決まるα_ｅ＝０．０００９１Ｅ_ｔ＋０．３１８５
Ｅ_ｔは式（６）において与えられる。

フレーム非定常性は、フレームエネルギーと臨界帯域毎の平均長期エネルギーとの比の積により与えられる。より具体的には、
である。

パラメトリック音声区間検出・雑音推定更新モジュール１０７は、以下の関係式
ｖｏｉｃｉｎｇ＝（Ｃ_ｎｏｒｍ（ｄ_０）＋Ｃ_ｎｏｒｍ（ｄ_１））／２＋ｒ_ｅ（２３）
を使用して雑音更新のボイシング係数をさらに生成する。

最後に、パラメトリック音声区間検出・雑音推定更新モジュール１０７は、関係式
ｒｅｓｉｄ＿ｒａｔｉｏ＝Ｅ（２）／Ｅ（１６）（２４）
を使用して２次ＬＰ解析および１６次ＬＰ解析後のＬＰ残余エネルギーの比を計算し、式中、Ｅ（２）およびＥ（１６）は、当業者に周知の手続きであるレビンソン−ダービン帰納法を使用して、ＬＰ解析器・ピッチ追跡器モジュール１０６において計算される２次ＬＰ解析および１６次ＬＰ解析後のＬＰ残余エネルギーである。この比は、信号スペクトル包絡線を表すために、一般に、雑音よりもスピーチ信号に対して次数のより高いＬＰが必要とされることを反映する。換言すれば、Ｅ（２）とＥ（１６）との差は、アクティブスピーチよりも雑音の場合により低くなると考えられる。

パラメトリック音声区間検出・雑音推定更新モジュール１０７により行われる更新判断は、最初は６に設定され、非アクティブフレームが検出された場合には１だけ低減され、アクティブフレームが検出された場合には２だけ増分される変数ｎｏｉｓｅ＿ｕｐｄａｔｅに基づいて判断される。変数ｎｏｉｓｅ＿ｕｐｄａｔｅは、０と６との間に区切られる。雑音エネルギー推定は、ｎｏｉｓｅ＿ｕｐｄａｔｅ＝０の場合のみ更新される。

変数ｎｏｉｓｅ＿ｕｐｄａｔｅの値は、以下
Ｉｆ（ｎｏｎｓｔａｔ＜ｔｈ_ｓｔａｔ）ＯＲ（ｐｃ＜１４）ＯＲ（ｖｏｉｃｉｎｇ＞ｔｈ_{Ｃｎｏｒｍ}）ＯＲ（ｒｅｓｉｄ＿ｒａｔｉｏ＞ｔｈ_{ｒｅｓｉｄ}）
ｎｏｉｓｅ＿ｕｐｄａｔｅ＝ｎｏｉｓｅ＿ｕｐｄａｔｅ＋２
Ｅｌｓｅ
ｎｏｉｓｅ＿ｕｐｄａｔｅ＝ｎｏｉｓｅ＿ｕｐｄａｔｅ−１
のように各フレームにおいて更新され、広帯域信号の場合、ｔｈ_ｓｔａｔ＝ｔｈ_{Ｃｎｏｒｍ}＝０．８５であり、ｔｈ_{ｒｅｓｉｄ}＝１．６であり、狭帯域信号の場合、ｔｈ_ｓｔａｔ＝５０００００であり、ｔｈ_{Ｃｎｏｒｍ}＝０．７であり、ｔｈ_{ｒｅｓｉｄ}＝１０．４である。

換言すれば、フレームは、
（ｎｏｎ_ｓｔａｔ≦ｔｈ_ｓｔａｔ）ＡＮＤ（ｐｃ≦１４）ＡＮＤ（ｖｏｉｃｉｎｇ≦ｔｈ_{Ｃｎｏｒｍ}）ＡＮＤ（ｒｅｓｉｄ＿ｒａｔｉｏ≦ｔｈ_{ｒｅｓｉｄ}）
場合、雑音更新に関して非アクティブであると宣言され、雑音更新が行われる前に、フレーム６個のハングオーバが使用される。

したがって、ｎｏｉｓｅ＿ｕｐｄａｔｅ＝０の場合、
ｉ＝０〜１９について、Ｎ_ＣＢ（ｉ）＝Ｎ_ｔｍｐ（ｉ）
であり、式中、Ｎ_ｔｍｐ（ｉ）は、式（１８）ですでに計算された一時更新雑音エネルギーである。

音楽信号の雑音検出の改良
上述した雑音推定は、主にスピーチ検出に向けて開発され最適化されたため、ピアノコンサート、器楽ロック、または器楽ポップ等の特定の音楽信号の場合に制限を有する。音楽信号全般の検出を向上させるために、パラメトリック音声区間検出・雑音推定更新モジュール１０７は、既存のパラメータまたは技法と併せて他のパラメータまたは技法を使用する。これら他のパラメータまたは技法は、上述したように、スペクトルダイバーシチ、相補的非定常性、雑音特徴、および音調安定性を含み、スペクトルダイバーシチ計算器、相補的非定常性計算器、雑音特徴計算器、および音調推定器のそれぞれにより計算される。これらについて以下に詳細に説明する。

スペクトルダイバーシチ
スペクトルダイバーシチは、周波数領域での信号の大きな変化についての情報を与える。この変化は、現在のフレームの第１のスペクトル解析でのエネルギーと２フレーム分前の第２のスペクトル解析でのエネルギーとを比較することにより、臨界帯域において追跡される。現在のフレームでの第１のスペクトル解析の臨界帯域ｉ内のエネルギーは、
として示される。２フレーム分前の第２のスペクトル解析で計算された同じ臨界帯域内のエネルギーを
として示す。これらエネルギーは両方とも０．０００１に初期化される。次に、９よりも高いすべての臨界帯域について、２つのエネルギーの最大および最小が、以下
のように計算される。続けて、特定の臨界帯域内の最大エネルギーと最小エネルギーとの比が、
として計算される。最後に、パラメトリック音声区間検出・雑音推定更新モジュール１０７は、重み自体が最大エネルギーＥ_ｍａｘ（ｉ）である、比の正規化された重み付き和としてスペクトルダイバーシチパラメータを計算する。このスペクトルダイバーシチパラメータは、以下の関係式
により与えられる。

ｓｐｅｃ＿ｄｉｖパラメータは、音楽区間および雑音エネルギー更新についての最終判断に使用される。ｓｐｅｃ＿ｄｉｖパラメータは、後述する相補的非定常性パラメータを計算するための補助パラメータとしても使用される。

相補的非定常性
音楽信号内での急激なエネルギーアタック（ｅｎｅｒｇｙａｔｔａｃｋ）の後に、エネルギーがゆっくりと低減する場合、式（２２）において定義される非定常性パラメータが機能しなくなるため、相補的非定常性パラメータが含められる。この場合、式（２１）において定義される臨界帯域毎の平均長期エネルギーＥ_{ＣＢ，ＬＴ}（ｉ）は、アタック中にゆっくりと増大し、その一方で、式（１５）において定義される臨界帯域毎のフレームエネルギーはゆっくりと低減する。アタック後の特定のフレーム内では、これら２つのエネルギー値は同じになり、その結果として、ｎｏｎｓｔａｔパラメータが、アクティブ信号がないことを示す小さな値になる。これは、誤った雑音更新に繋がり、続けて、誤ったＳＡＤ判断に繋がる。

この問題を解消するために、代替の臨界帯域毎の平均長期エネルギーが、以下の関係式
を使用して計算される。変数Ｅ２_{ＣＢ，ＬＴ}（ｉ）は、すべてのｉについて０．０３に初期化される。式（２６）は式（２１）とよく似ており、違いは更新係数β_ｅのみであり、更新係数β_ｅは、以下
ｉｆ（ｓｐｅｃ＿ｄｉｖ＞ｔｈ_{ｓｐｅｃ＿ｄｉｖ}）
β_ｅ＝０
ｅｌｓｅ
β_ｅ＝α_ｅ
ｅｎｄ
のように与えられ、式中、ｔｈ_{ｓｐｅｃ＿ｄｉｖ}＝５である。したがって、エネルギーアタックが検出された場合（ｓｐｅｃ＿ｄｉｖ＞５）、代替の平均長期エネルギーはすぐに平均フレームエネルギーに設定される。すなわち、
になる。その他の場合、この代替の平均長期エネルギーは、従来の非定常性と同じように、すなわち、更新係数α_ｅを有する指数フィルタを使用して更新される。相補的非定常性パラメータは、ｎｏｎｓｔａｔと同じようにではなるが、Ｅ２_{ＣＢ，ＬＴ}（ｉ）を使用して計算される。すなわち、
である。

相補的非定常性パラメータｎｏｎｓｔａｔ２は、エネルギーアタック直後の少数のフレームでは機能しないことがあるが、ゆっくりと低減するエネルギーを特徴とする推移中は機能するはずである。ｎｏｎｓｔａｔパラメータはエネルギーアタックおよびその後の少数のフレームに対して上手く機能するため、ｎｏｎｓｔａｔとｎｏｎｓｔａｔ２との論理和が、特定の音楽信号上で非アクティブ信号を検出する問題を解消する。しかし、論理和は、「アクティブである可能性が高い」推移中のみに適用される。この可能性は、以下
ｉｆ（（ｎｏｎｓｔａｔ＞ｔｈ_ｓｔａｔ）ＯＲ（ｔｏｎａｌ＿ｓｔａｂｉｌｉｔｙ＝１））
ａｃｔ＿ｐｒｅｄ＿ＬＴ＝ｋ_ａａｃｔ＿ｐｒｅｄ＿ＬＴ＋（１−ｋ_ａ）．１
ｅｌｓｅ
ａｃｔ＿ｐｒｅｄ＿ＬＴ＝ｋ_ａａｃｔ＿ｐｒｅｄ＿ＬＴ＋（１−ｋ_ａ）．０
ｅｎｄ
のように計算される。係数ｋ_ａは０．９９に設定される。範囲＜０：１＞内にあるパラメータａｃｔ＿ｐｒｅｄ＿ＬＴは、区間の予測子として解釈することができる。これが１に近い場合、信号はアクティブである可能性が高く、０に近い場合、非アクティブである可能性が高い。ａｃｔ＿ｐｒｅｄ＿ＬＴパラメータは１に初期化される。上の状況では、ｔｏｎａｌ＿ｓｔａｂｉｌｉｔｙは、安定音調信号の検出に使用されるバイナリパラメータである。このｔｏｎａｌ＿ｓｔａｂｉｌｉｔｙパラメータについては、以下の説明において説明する。

ｎｏｎｓｔａｔ２パラメータは、ａｃｔ＿ｐｒｅｄ＿ＬＴが、０．８に設定されている特定の閾値よりも高い場合のみ、雑音エネルギーを更新する際に考慮される（ｎｏｎｓｔａｔと離れて）。雑音エネルギー更新のロジックについては、本セクションの終わりで詳細に説明する。

雑音特徴
雑音特徴は、シンバルまたは低周波ドラムとの特定の雑音のような音楽信号の検出に使用される別のパラメータである。このパラメータは、以下の関係式
を使用して計算される。ｎｏｉｓｅ＿ｃｈａｒパラメータは、式（２８）の分子および分母の両方が１００よりも大きい場合に満たされる、スペクトル内容が少なくとも最小エネルギーを有するフレームに対してのみ計算される。ｎｏｉｓｅ＿ｃｈａｒパラメータの上限は１０であり、その長期値は、以下の関係式
ｎｏｉｓｅ＿ｃｈａｒ＿ＬＴ＝α_ｎｎｏｉｓｅ＿ｃｈａｒ＿ＬＴ＋（１−α_ｎ）ｎｏｉｓｅ＿ｃｈａｒ（２９）
を使用して更新される。ｎｏｉｓｅ＿ｃｈａｒ＿ＬＴの初期値は０であり、およびα_ｎの初期値は、０．９に等しく設定される。ｎｏｉｓｅ＿ｃｈａｒ＿ＬＴパラメータは、本セクションの終わりで説明される雑音エネルギー更新についての判断に使用される。

音調安定性
音調安定性は、雑音エネルギー推定の誤った更新を回避するために使用される最後のパラメータである。音調安定性は、いくつかの音楽セグメントを無声フレームとして宣言することを回避するためにも使用される。音調安定性は、埋め込み超広帯域コーデックにおいて、どの符号化モデルが７ｋＨｚを超える音声信号の符号化に使用されるかを判断するためにさらに使用される。音調安定性の検出は、音楽信号の音調の性質を利用する。典型的な音楽信号には、いくつかの連続したフレームにわたって安定した音調がある。この特徴を利用して、強スペクトルピークが音調に対応し得るため、強スペクトルピークの位置および形状を追跡する必要がある。音調安定性検出は、現在のフレーム内のスペクトルピークと過去のフレーム内のスペクトルピークとの相関解析に基づく。入力は、式（４）において定義される平均対数エネルギースペクトルである。スペクトルビンの数はＮ_ＳＰＥＣ（ビン０はＤＣ成分であり、Ｎ_ＳＰＥＣ＝Ｌ_ＦＦＴ／２）と示される。以下の開示では、「スペクトル」という用語は、式（４）により定義される平均対数エネルギースペクトルを指す。

音調安定性の検出は３段階で進められる。さらに、音調安定性の検出は、現在の剰余スペクトルの計算器と、現在の剰余スペクトルのピークの検出器と、相関マップおよび長期相関マップの計算器とを使用し、これらについては後述する。

第１の段階では、スペクトルの極小のインデックスが、以下の式により記述されるループ内で探され（例えば、スペクトル極小特定器により）、以下
ｉ_ｍｉｎ＝（∀ｉ：（Ｅ_ｄＢ（ｉ−１）＞Ｅ_ｄＢ（ｉ））∧（Ｅ_ｄＢ（ｉ）＜Ｅ_ｄＢ（ｉ＋１））ｉ＝１，．．．，Ｎ_ＳＰＥＣ−２（３０）
のように表現することができるバッファｉ_ｍｉｎに記憶され、式中、記号∧は論理積を意味する。

式（３０）では、Ｅ_ｄＢ（ｉ）は、式（４）を通して計算された平均対数エネルギースペクトルを示す。Ｅ_ｄＢ（０）＜Ｅ_ｄＢ（１）の場合、ｉ_ｍｉｎ内の最初のインデックスは０である。したがって、Ｅ_ｄＢ（Ｎ_ＳＰＥＣ−１）＜Ｅ_ｄＢ（Ｎ_ＳＰＥＣ−２）の場合、ｉ_ｍｉｎ内の最後のインデックスはＮ_ＳＰＥＣ−１である。見つかった極小の数をＮ_ｍｉｎと示す。

第２の段階は、スペクトルフロアを計算し（例えば、スペクトルフロア推定器を通して）、スペクトルフロアをスペクトルから減算する（例えば、適した減算器を介して）ことからなる。スペクトルフロアは、検出された極小を通る区分的線形関数である。２つの連続した極小ｉ_ｍｉｎ（ｘ）とｉ_ｍｉｎ（ｘ＋１）との間のあらゆる線形区分は、
ｆｌ（ｊ）＝ｋ．（ｊ−ｉ_ｍｉｎ（ｘ））＋ｑｊ＝ｉ_ｍｉｎ（ｘ），．．．，ｉ_ｍｉｎ（ｘ＋１）
として記述することができ、式中、ｋは線の傾きであり、ｑ＝Ｅ_ｄＢ（ｉ_ｍｉｎ（ｘ））である。傾きｋは、以下の関係式
を使用して計算することができる。

したがって、スペクトルフロアは、全区間
の論理結合である。

スペクトルフロアのｉ_ｍｉｎ（０）までの先頭ビンおよびｉ_ｍｉｎ（Ｎ_ｍｉｎ−１）からの終端ビンは、スペクトル自体に設定される。最後に、スペクトルフロアは、以下の関係式
Ｅ_{ｄＢ，ｒｅｓ}（ｊ）＝Ｅ_ｄＢ（ｊ）−ｓｐ＿ｆｌｏｏｒ（ｊ）ｊ＝０，．．．，Ｎ_ＳＰＥＣ−１（３２）
を使用してスペクトルから減算され、この結果が剰余スペクトルと呼ばれる。スペクトルフロアの計算を図３に示す。

第３の段階では、相関マップおよび長期相関マップが、現在のフレームおよび前のフレームの剰余スペクトルから計算される。ここでも、これは区分的演算である。したがって、相関マップは、極小がピークを区切るため、ピーク毎に計算される。以下の開示では、「ピーク」という用語は、剰余スペクトルＥ_{ｄｂ，ｒｅｓ}内の２つの極小間の区分を示すために使用される。

前のフレームの剰余スペクトルを
と示す。現在の剰余スペクトル内のあらゆるピーク毎に、このピークの位置に対応する前の剰余スペクトル内の形状を使用して、正規化相関が計算される。信号が安定していた場合、ピークはフレーム間で大きく動くべきではなく、その位置および形状はおおよそ同じであるべきである。したがって、相関演算は、２つの連続した極小により区切られた特定のピークのすべてのインデックス（ビン）を考慮する。より具体的には、正規化相関は、以下の関係式
を使用して計算される。

ｃｏｒ＿ｍａｐのｉ_ｍｉｎ（０）までの先頭ビンおよびｉ_ｍｉｎ（Ｎ_ｍｉｎ−１）からの終端ビンｃｏｒ＿ｍａｐはゼロに設定される。相関マップを図４に示す。

現在のフレームの相関マップは、
ｃｏｒ＿ｍａｐ＿ＬＴ（ｋ）＝α_ｍａｐｃｏｒ＿ｍａｐ＿ＬＴ（ｋ）＋（１−α_ｍａｐ）ｃｏｒ＿ｍａｐ（ｋ），ｋ＝０，．．．，Ｎ_ＳＰＥＣ−１（３４）
で記述される長期値の更新に使用され、式中、α_ｍａｐ＝０．９である。ｃｏｒ＿ｍａｐ＿ＬＴは、すべてのｋについてゼロに初期化される。

最後に、ｃｏｒ＿ｍａｐ＿ＬＴのすべての値が、以下
のように一緒に合算される（例えば、合算器を通して）。ｃｏｒ＿ｍａｐ＿ＬＴ（ｊ）、ｊ＝０，．．．，Ｎ_ＳＰＥＣ−１の任意の値が、閾値０．９５を超える場合、フラグｃｏｒ＿ｓｔｒｏｎｇ（検出器として見ることができる）は１に設定され、その他の場合にはゼロに設定される。

音調安定性についての判断は、ｃｏｒ＿ｍａｐ＿ｓｕｍを適応閾値ｔｈｒ＿ｔｏｎａｌで処理することにより計算される。この閾値は５６に初期化され、以下
ｉｆ（ｃｏｒ＿ｍａｐ＿ｓｕｍ＞５６）
ｔｈｒ＿ｔｏｎａｌ＝ｔｈｒ＿ｔｏｎａｌ−０．２
ｅｌｓｅ
ｔｈｒ＿ｔｏｎａｌ＝ｔｈｒ＿ｔｏｎａｌ＋０．２
ｅｎｄ
のようにフレーム毎に更新される。

適応閾値ｔｈｒ＿ｔｏｎａｌは６０を上限とし、４９を下限とする。したがって、適応閾値ｔｈｒ＿ｔｏｎａｌは、相関が、アクティブ信号セグメントを示す比較的良好である場合、低減され、その他の場合、増大する。閾値が低いほど、特にアクティブ期間の終わりで、より多くのフレームがアクティブと分類される可能性が高い。したがって、適応閾値はハングオーバとして見ることができる。

ｔｏｎａｌ＿ｓｔａｂｉｌｉｔｙパラメータは、ｃｏｒ＿ｍａｐ＿ｓｕｍがｔｈｒ＿ｔｏｎａｌよりも高い場合、またはｃｏｒ＿ｓｔｒｏｎｇフラグが１に設定されている場合は常に１に設定される。より具体的には、
ｉｆ（（ｃｏｒ＿ｍａｐ＿ｓｕｍ＞ｔｈｒ＿ｔｏｎａｌ）ＯＲ（ｃｏｒ＿ｓｔｒｏｎｇ＝１））
ｔｏｎａｌ＿ｓｔａｂｉｌｉｔｙ＝１
ｅｌｓｅ
ｔｏｎａｌ＿ｓｔａｂｉｌｉｔｙ＝０
ｅｎｄ

雑音エネルギー更新での音楽検出パラメータの使用
すべての音楽検出パラメータは、パラメトリック音声区間検出・雑音推定更新（上方）モジュール１０７における雑音エネルギー推定の更新についての最終判断に組み込まれる。雑音エネルギー推定は、ｎｏｉｓｅ＿ｕｐｄａｔｅの値がゼロである限り、更新される。最初、ｎｏｉｓｅ＿ｕｐｄａｔｅは６に設定され、以下
ｉｆ（ｎｏｎｓｔａｔ＞ｔｈ_ｓｔａｔ）ＯＲ（ｐｃ＜１４）ＯＲ（ｖｏｉｃｉｎｇ＞ｔｈ_{Ｃｎｏｒｍ}）ＯＲ（ｒｅｓｉｄ＿ｒａｔｉｏ＞ｔｈ_{ｒｅｓｉｄ}）ＯＲ（ｔｏｎａｌ＿ｓｔａｂｉｌｉｔｙ＝１）ＯＲ（ｎｏｉｓｅ＿ｃｈａｒ＿ＬＴ＞０．３）ＯＲ（（ａｃｔ＿ｐｒｅｄ＿ＬＴ＞０．８）ＡＮＤ（ｎｏｎｓｔａｔ２＞ｔｈ_ｓｔａｔ））
ｎｏｉｓｅ＿ｕｐｄａｔｅ＝ｎｏｉｓｅ＿ｕｐｄａｔｅ＋２
ｅｌｓｅ
ｎｏｉｓｅ＿ｕｐｄａｔｅ＝ｎｏｉｓｅ＿ｕｐｄａｔｅ−１
ｅｎｄ
のように各フレームで更新される。

組み合わせた条件が肯定の結果である場合、信号はアクティブであり、ｎｏｉｓｅ＿ｕｐｄａｔｅパラメータは増大される。その他の場合、信号は非アクティブであり、パラメータは低減される。０に達したとき、雑音エネルギーは現在の信号エネルギーで更新される。

雑音エネルギーの更新に加えて、ｔｏｎａｌ＿ｓｔａｂｉｌｉｔｙパラメータは、無声音声信号の分類アルゴリズムにも使用される。特に、このパラメータは、以下のセクションに説明するように、音楽に対する無声信号分類のロバスト性を向上させるために使用される。

音声信号分類（音声信号分類器１０８）
音声信号分類器１０８（図１）の下にある一般原理を図５に示す。この手法は以下のように説明することができる。音声信号分類は、それぞれが特定の信号クラスを区別する論理モジュール５０１、５０２、および５０３において３つのステップで行われる。第１に、音声信号区間検出器（ＳＡＤ）５０１が、アクティブ信号フレームと非アクティブ信号フレームとを区別する。この音声信号区間検出器５０１は、図１において音声信号区間検出器１０３と呼ばれたものと同じである。音声信号区間検出器については上記説明ですでに説明した。

音声信号区間検出器５０１が非アクティブフレーム（背景雑音信号）を検出した場合、分類チェインは終了し、不連続送信（ＤＴＸ）がサポートされる場合、エンコーダ１０９（図１）に組み込むことができる符号化モジュール５４１が、無音区間疑似背景雑音生成（ＣＮＧ）を使用してフレームを符号化する。ＤＴＸがサポートされていない場合、フレームはアクティブ信号分類に続き、殆どの場合、無声スピーチフレームとして分類される。

アクティブ信号フレームが音声区間検出器５０１により検出された場合、フレームは、無声スピーチフレームの分類専用の第２の分類器５０２に供される。分類器５０２がフレームを無声スピーチ信号として分類した場合、分類チェインは終了し、エンコーダ１０９（図１）に組み込むことができる符号化モジュール５４２が、無声スピーチ信号に最適化された符号化方法を使用してフレームを符号化する。

その他の場合、信号フレームは「安定有声」分類器５０３を通して処理される。フレームが、分類器５０３により安定有声フレームとして分類された場合、エンコーダ１０９（図１）に組み込むことができる符号化モジュール５４３が、安定有声または準周期信号に最適化された符号化方法を使用してフレームを符号化する。

その他の場合、フレームは、有声スピーチオンセットまたは急激に発達しつつある有声スピーチまたは音楽信号等の非定常信号セグメントを含む可能性が高い。これらフレームは通常、高ビットレートでフレームを符号化して、良好な主観的品質を保つために、エンコーダ１０９（図１）に組み込むことができる汎用符号化モジュール５４４を必要とする。

以下に、無声信号フレームおよび有声信号フレームの分類を開示する。非アクティブフレームの区別に使用されるＳＡＤ検出器５０１（または図１の１０３）については、上記説明においてすでに説明した。

スピーチ信号の無声部は、周期的な成分がないことを特徴とし、エネルギーおよびスペクトルが素早く変化する不安定フレームおよびこれら特徴が比較的安定したままの安定フレームにさらに分類することができる。本発明の非限定的で例示的な実施形態は、以下のパラメータ
・平均正規化相関
として計算されるボイシング測定値、
・平均スペクトル傾斜測定値
・信号内のスピーチ破裂音を効率的に検出するように設計された低レベルからの最大短期エネルギー増大（ｄＥ０）、
・無声信号から音楽を区別する音調安定性（上記説明において説明した）、および
・非常に低いエネルギーの信号を検出するための相対フレームエネルギー（Ｅ_ｒｅｌ）
を使用して無声フレームを分類する方法を提案する。

ボイシング測定値
ボイシング測定値の決定に使用される正規化相関は、図１のＬＰ解析器・ピッチ追跡器モジュール１０６において行われる開ループピッチ解析の一環として計算される。例えば、２０ｍｓのフレームを使用することができる。ＬＰ解析器・ピッチ追跡器モジュール１０６は通常、１０ｍｓ毎に（フレーム毎に２度）開ループピッチ推定を出力する。ここで、ＬＰ解析器・ピッチ追跡器モジュール１０６は、正規化相関測定値の生成および出力にも使用される。これら正規化相関は、重み付き信号および開ループピッチ遅延にある過去の重み付き信号に対して計算される。重み付きスピーチ信号ｓ_ｗ（ｎ）は、知覚加重フィルタを使用して計算される。例えば、広帯域信号に適した、一定の分母を有する知覚加重フィルタを使用することができる。知覚荷重フィルタの伝達関数の一例は、以下の関係式
により与えられ、式中、Ａ（ｚ）は、ＬＰ解析器・ピッチ追跡器モジュール１０６において計算された線形予測（ＬＰ）フィルタの伝達関数であり、これは、以下の関係式
により与えられる。

ＬＰ解析および開ループピッチ解析の詳細については、当業者に周知であると考えられるため、本明細書ではこれ以上説明しない。

ボイシング測定値は、
として定義される平均相関
により与えられ、式中、Ｃ_ｎｏｒｍ（ｄ_０）、Ｃ_ｎｏｒｍ（ｄ_１）、およびＣ_ｎｏｒｍ（ｄ_２）のそれぞれは、現在のフレームの第１の半フレームの正規化相関、現在のフレームの第２の半フレームの正規化相関、および先読み（次のフレームの冒頭）の正規化相関である。相関への引数は、図１のＬＰ解析器・ピッチ追跡器モジュール１０６において計算された上記開ループピッチラグである。例えば、１０ｍｓの先読みを使用することができる。背景雑音を補償するために、相関係数ｒ_ｅが平均相関に加えられる（背景雑音が存在する場合、相関値は低減する）。相関係数は、以下の関係式
を使用して計算され、式中、Ｎ_ｔｏｔは、式（１１）に従って計算されたフレーム毎の総雑音エネルギーである。

スペクトル傾斜
スペクトル傾斜パラメータは、エネルギーの周波数分布についての情報を含む。スペクトル傾斜は、低周波数に集中したエネルギーと高周波数に集中したエネルギーとの比として周波数領域において推定することができる。しかし、信号の最初の２つの自動相関係数の比等の他の方法を使用して推定することも可能である。

図１のスペクトル解析器１０２を使用して、上記説明で説明したように、フレーム毎に２つのスペクトル解析を実行する。高周波数にあるエネルギーおよび低周波数にあるエネルギーは、知覚臨界帯域（ｐｅｒｃｅｐｔｕａｌｃｒｉｔｉｃａｌｂａｎｄ）に従って計算され［Ｍ．ＪｅｌｉｎｅｋａｎｄＲ．Ｓａｌａｍｉ，“ＮｏｉｓｅＲｅｄｕｃｔｉｏｎＭｅｔｈｏｄｆｏｒＷｉｄｅｂａｎｄＳｐｅｅｃｈＣｏｄｉｎｇ”ｉｎＰｒｏｃ．Ｅｕｓｉｐｃｏ，Ｖｉｅｎｎａ，Ａｕｓｔｒｉａ，Ｓｅｐｔｅｍｂｅｒ２００４］、便宜上のためここに再掲する。
臨界帯域＝｛１００．０，２００．０，３００．０，４００．０，５１０．０，６３０．０，７７０．０，９２０．０，１０８０．０，１２７０．０，１４８０．０，１７２０．０，２０００．０，２３２０．０，２７００．０，３１５０．０，３７００．０，４４００．０，５３００．０，６３５０．０｝Ｈｚ

高周波数にあるエネルギーは、以下の関係式
を使用して、最後の２つの臨界帯域のエネルギーの平均として計算され、式中、臨界帯域エネルギーＥ_ＣＢ（ｉ）は、式（２）に従って計算される。この計算は、両方のスペクトル解析に対して２回実行される。

低周波数にあるエネルギーは、以下の関係式
を使用して、最初の１０個の臨界帯域のエネルギーの平均として計算される（ＮＢ信号の場合、最初の帯域は含まれない）。

低周波数に高いエネルギー濃度を有するフレーム（一般に有音）と高周波数に高いエネルギー濃度を有するフレーム（一般に無声）との区別を向上させるために、中間の臨界帯域は計算から除外された。中間では、エネルギー量はいずれのクラスに関しても特徴的ではなく、判断の混乱を増大させる。

しかし、低周波数にあるエネルギーは、低周波数での高エネルギー量を有する高調波無声信号に対しては別様に計算される。これは、女性の有声スピーチセグメントの場合、スペクトルの高調波構造が、有声−無声の区別を向上させるために利用可能なことによる。影響を受ける信号は、ピッチ周期が１２８よりも短い信号または先験的に無声としてみなされなかった信号である。先験的無声音声信号は以下の条件を満たさなければならない。

したがって、上記条件により区別された信号について、低周波数でのエネルギーはビン毎に計算され、高調波に十分に近い周波数ビンのみが加算に考慮される。より具体的には、以下の関係式
が使用され、式中、Ｋ_ｍｉｎは最初のビンであり（ＷＢの場合、Ｋ_ｍｉｎ＝１であり、ＮＢの場合、Ｋ_ｍｉｎ＝３である）、Ｅ_ＢＩＮ（ｋ）は、最初の２５個の周波数ビン（ＤＣ成分は省かれる）の式（３）において定義されるビンエネルギーである。これら２５個のビンは、最初の１０個の臨界帯域に対応する。上記合算では、ピッチ高調波に近い項のみが考慮され、最も近い高調波間の距離が、特定の周波数閾値（例えば、５０Ｈｚ）以下の場合、ｗ_ｈ（ｉ）は１に設定され、その他の場合、０に設定され、したがって、最も近い高調波への距離が５０Ｈｚよりも短いビンのみが考慮される。カウンタｃｎｔは、加算内の非ゼロ項の数に等しい。ここで、構造が低周波における高調波である場合、高エネルギー項のみが加算に含められる。他方、構造が高調波ではない場合、項の選択はランダムであり、和はより小さくなる。したがって、低周波数に高エネルギーを含む無声音声信号であっても検出することができる。

スペクトル傾斜は以下の関係式
により与えられ、式中、
は、最後の２つの臨界帯域および最初の１０個の臨界帯域（またはＮＢの場合には最初の９個の臨界帯域）のそれぞれの平均雑音エネルギーであり、式（３９）および式（４０）での
と同じように計算される。推定雑音エネルギーは、背景雑音の存在を説明するために、傾斜の計算に含められている。ＮＢ信号の場合、欠落した帯域は、ｅ_ｔを６で乗算することにより補償される。スペクトル傾斜の計算がフレーム毎に２回実行されて、フレーム毎の第１および第２のスペクトル解析の両方に対応するｅ_ｔ（０）およびｅ_ｔ（１）が得られる。無声フレーム分類器に使用される平均スペクトル傾斜は、
により与えられ、式中、ｅ_ｏｌｄは、前のフレームの第２の半フレームでの傾斜である。

低レベルでの最大短期エネルギー増大
低レベルでの最大短期エネルギー増大ｄＥ０は、音声信号ｓ（ｎ）上で評価される。但し、ｎ＝０は、現在のフレームの冒頭に対応する。例えば、２０ｍｓのスピーチフレームが使用され、あらゆるフレームは、スピーチ符号化のために４つのサブフレームに分割される。信号エネルギーは、サンプル３２個分の長さ（１２．８ｋＨｚサンプリングレートで）の短期セグメントに基づいて、サブフレーム毎に２回、すなわちフレーム毎に８回評価される。さらに、前のフレームからの最後の３２個のサンプルの短期エネルギーも計算される。短期エネルギーは、以下の関係式
を使用して計算され、式中、ｊ＝−１およびｊ＝０，．．．，７は、前のフレームの末尾および現在のフレームのそれぞれに対応する。別の９個の最大エネルギーのセットが、式（４５）内の信号インデックスをサンプル１６個分シフトすることにより計算される。すなわち、
である。十分に低い、すなわち、１０ｌｏｇ（Ｅ_ｓｔ（ｊ））＜３７の条件を満たすエネルギーの場合、第１のインデックスセットに対して、以下の比
が計算され、同じ計算が
に対して繰り返され、２つの比のセットｒａｔ^（１）（ｊ）およびｒａｔ^（２）（ｊ）が得られる。これら２つのセット内の最大のみが、以下
ｄＥ０＝ｍａｘ（ｒａｔ^（１）（ｊ），ｒａｔ^（２）（ｊ））（４８）
のように探索され、これは、低レベルでの最大短期エネルギー増大である。

背景雑音スペクトル平坦度の測定値
この例では、非アクティブフレームは、通常、ＤＴＸ動作がない場合に無声スピーチ向けに設計された符号化モードを使用して符号化される。しかし、何等かの車の雑音のような準周期的背景雑音の場合、汎用符号化が代わりにＷＢに使用されるとき、より忠実な雑音レンダリングが達成される。

この種の背景雑音を検出するために、背景雑音スペクトル平坦度の測定値が計算され、時間にわたって平均化される。第１に、平均雑音エネルギーは、以下
のように、最初および最後の４つの臨界帯域に計算される。次に、平坦度測定値は、以下の関係式
を使用して計算され、以下の関係式
を使用して時間にわたって平均化され、式中、
は、過去のフレームの平均平坦度測定値であり、
は、現在のフレームの平均平坦度測定値の更新値である。

無声信号の分類
無声信号フレームの分類は、上述したパラメータ、すなわち、ボイシング測定値
平均スペクトル傾斜
、低レベルでの最大短期エネルギー増大ｄＥ０、および背景雑音スペクトル平坦度の測定値
に基づく。この分類は、雑音エネルギー更新段階（図１のモジュール１０７）中に計算される音調安定性パラメータおよび相対フレームエネルギーによってさらにサポートされる。相対フレームエネルギーは、以下の関係式
を使用して計算され、式中、Ｅ_ｔは、式（６）において計算される総フレームエネルギー（ｄＢ単位）であり、
は、以下の関係式
を使用して各アクティブフレームで更新される長期平均フレームエネルギーである。更新は、ＳＡＤフラグが設定されている（変数ＳＡＤが１に等しい）場合のみ行われる。

ＷＢ信号の無声分類のルールは、以下にまとめられる。

条件の１行目は、低エネルギー信号および高周波数にエネルギーが集中した低相関を有する信号に関連する。２行目は有声オフセットをカバーし、３行目は信号の爆発音のセグメントをカバーし、４行目は有声オンセットのためである。５行目は、雑音の多い非アクティブフレームの場合の平坦スペクトルを保証する。最後の行は、この条件がなければ無声と宣言されてしまう音楽信号を区別する。

ＮＢ信号の場合、無声分類条件は以下の形式をとる。
ＷＢの場合およびＮＢの場合の決定木を図６に示す。組み合わせられた条件が満たされる場合、この分類は、無声符号化モードを選択することで終了する。

有声信号の分類
フレームが非アクティブフレームまたは無声フレームとして分類されない場合、安定有声フレームであるか否かがテストされる。判断ルールは、各サブフレームの正規化相関（１／４サブサンプル分解能を使用する）、平均スペクトル傾斜、およびすべてのサブフレームの開ループピッチ推定（１／４サブサンプル分解能を使用する）に基づく。

開ループピッチ推定の手続きは、図１のＬＰ解析器・ピッチ追跡器モジュール１０６により行われる。式（１９）において、第１の半フレーム、第２の半フレーム、および先読みに対応する３つの開ループピッチ推定：ｄ_０、ｄ_１、およびｄ_２が使用される。４つすべてのサブフレームにおいて正確なピッチ情報を得るために、１／４サンプル分解能分数ピッチ改良が計算される。この改良は、重み付き音声信号ｓ_ｗｄ（ｎ）に対して計算される。この例示的な実施形態では、重み付き信号ｓ_ｗｄ（ｎ）は、開ループピッチ推定改良のために間引きされない。各サブフレームの冒頭において、１サンプル分解能を使用する短い相関解析（１２．８ｋＨｚサンプリング周波数では６４個のサンプル）が、以下の遅延を使用して間隔（−７，＋７）で行われる：１番目および２番目のサブフレームではｄ_０、３番目および４番目のサブフレームにはｄ_１。次に、この相関は分数位置ｄ_ｍａｘ−３／４、ｄ_ｍａｘ−１／２、ｄ_ｍａｘ−１／４、ｄ_ｍａｘ、ｄ_ｍａｘ＋１／４、ｄ_ｍａｘ＋１／２、ｄ_ｍａｘ＋３／４において最大の前後で補間される。最大の相関をもたらす値が、改良ピッチラグとして選ばれる。

４つすべてのサブフレームの改良開ループピッチラグをＴ（０）、Ｔ（１）、Ｔ（２）、およびＴ（３）と示し、対応する正規化相関をＣ（０）、Ｃ（１）、Ｃ（２）、およびＣ（３）と示す。そうすると、有声信号分類条件は、
により与えられる。この条件は、正規化相関がすべてのサブフレームで十分に高く、ピッチ推定がフレーム全体に分散せず、エネルギーが低周波数に集中することを述べている。この条件が満たされる場合、分類は、有声信号符号化モードを選択することにより終了し、その他の場合、信号は、汎用信号符号化モードにより符号化される。この条件は、ＷＢ信号およびＮＢ信号の両方に適用される。

超広帯域コンテンツ内の音調の推定
超広帯域信号の符号化に際して、特定の符号化モードが、音調構造を有する音声信号に使用される。対象とする周波数範囲は主に７０００〜１４０００Ｈｚであるが、異なってもよい。この目的は、音調固有の符号化モードを効率的に使用できるように、対象とする範囲内で強い音調内容を有するフレームを検出することである。これは、本開示において上述した音調安定性解析を使用して行われる。しかし、このセクションにおいて説明するいくつかの逸脱がある。

第１に、対数エネルギースペクトルから減算されるスペクトルフロアは、以下のように計算される。対数エネルギースペクトルは、長さＬ_ＭＡ＝１５サンプルである移動平均（ＭＡ）フィルタまたはＦＩＲフィルタを使用してフィルタリングされる。フィルタリングされたスペクトルは、
により与えられる。計算の複雑性の程度を下げるために、フィルタリング演算は、ｊ＝Ｌ_ＭＡの場合のみ行われ、その他のラグの場合には、
として計算される。ラグ０，．．．，Ｌ_ＭＡ−１およびＮ_ＳＰＥＣ−Ｌ_ＭＡ，．．．，Ｎ_ＳＰＥＣ−１の場合、スペクトルフロアは補外により計算される。より具体的には、以下の関係式が使用される。
ｊ＝Ｌ_ＭＡ−１，．．．，０の場合ｓｐ＿ｆｌｏｏｒ（ｊ）＝０．９ｓｐ＿ｆｌｏｏｒ（ｊ＋１）＋０．１Ｅ_ｄＢ（ｊ）
ｊ＝Ｎ_ＳＰＥＣ−Ｌ_ＭＡ，．．．，Ｎ_ＳＰＥＣ−１の場合ｓｐ＿ｆｌｏｏｒ（ｊ）＝０．９ｓｐ＿ｆｌｏｏｒ（ｊ−１）＋０．１Ｅ_ｄＢ（ｊ）
上の最初の式では、更新はＬ_ＭＡ−１から下方の０に進む。

次に、スペクトルフロアは、本開示において上述した方法と同じ方法で対数エネルギースペクトルから減算される。

Ｅ_{ｒｅｓ，ｄＢ}（ｊ）として示される剰余スペクトルは、次に、短期移動平均フィルタを使用して、以下のようにサンプル３個分にわたって平滑化される。

スペクトル極小とそのインデックスの探索、相関マップおよび長期相関マップの計算は、平滑化スペクトル
を使用して、本開示において上述した方法と同じである。

超広帯域コンテンツ内の信号音調についての判断も、本開示において上述した判断と同じである。すなわち、適応閾値に基づく。しかし、この場合、異なる一定の閾値およびステップが使用される。閾値ｔｈｒ＿ｔｏｎａｌは１３０に初期化され、以下のようにフレーム毎に更新される。
ｉｆ（ｃｏｒ＿ｍａｐ＿ｓｕｍ＞１３０）
ｔｈｒ＿ｔｏｎａｌ＝ｔｈｒ＿ｔｏｎａｌ
−１．０
ｅｌｓｅ
ｔｈｒ＿ｔｏｎａｌ＝ｔｈｒ＿ｔｏｎａｌ＋１．０
ｅｎｄ

適応閾値ｔｈｒ＿ｔｏｎａｌは１４０を上限とし、１２０を下限とする。一定の閾値は、周波数範囲７０００〜１４０００Ｈｚに関して設定された。異なる範囲の場合、調整する必要がある。一般的な経験則としては、以下の関係式：ｔｈｒ＿ｔｏｎａｌ＝Ｎ_ＳＰＥＣ／２を適用することができる。

本開示において上述した方法との最後の違いは、強音調の検出が超広帯域コンテンツでは使用されないことである。この理由は、強音調が、超広帯域コンテンツ内の音調信号を符号化するために知覚的に適さないことである。

本発明を上記開示において非限定的で例示的な実施形態として説明したが、この実施形態は、本発明の主旨および性質から逸脱せずに添付の特許請求の範囲内で、随意、変更することが可能である。

１００音声通信システム
１０１プリプロセッサ
１０２スペクトル解析器
１０３音声区間検出器
１０４雑音推定器
１０５雑音抑制器
１０６ＬＰ解析器・ピッチ追跡器
１０７パラメトリック音声区間検出・雑音推定更新モジュール
１０８音声信号分類器
１０９音声エンコーダ

Claims

音声信号の音調を推定する方法であって、
前記音声信号の現在の剰余スペクトルを計算するステップと、
前記現在の剰余スペクトルのピークを検出するステップと、
検出された各ピークについて、前記現在の剰余スペクトルと前の剰余スペクトルとの相関マップを計算するステップと、
前記計算された相関マップに基づいて長期相関マップを計算するステップと
を含み、
前記長期相関マップは、前記音声信号の音調を示す、方法。
前記現在の剰余スペクトルを計算するステップは、
現在のフレーム内の前記音声信号の前記スペクトルの極小を探すステップと、
前記極小を互いに結ぶことによりスペクトルフロアを推定するステップと、
前記推定されたスペクトルフロアを前記現在のフレーム内の前記音声信号の前記スペクトルから減算して、前記現在の剰余スペクトルを生成するステップと
を含む、請求項１に記載の方法。
前記現在の剰余スペクトルの前記ピークを検出するステップは、２つの連続した極小の各対間の最大を見つけるステップを含む、請求項１に記載の方法。
前記相関マップを計算するステップは、
前記現在の剰余スペクトルの検出された各ピークについて、前記ピークを区切る前記現在の剰余スペクトル内の２つの連続した極小間の周波数ビンにわたり、前記前の剰余スペクトルとの正規化された相関値を計算するステップと、
検出された各ピークにスコアを割り当てるステップと
を含み、
前記スコアは前記正規化された相関値に対応し、
前記相関マップを計算するステップは、
検出された各ピークについて、前記ピークを区切る前記２つの連続した極小間の前記周波数ビンにわたり、前記ピークの前記正規化された相関値を割り当て、前記相関マップを形成するステップを含む、請求項１に記載の方法。
前記長期相関マップを計算するステップは、
周波数ビン毎に単極フィルタを通して前記相関マップをフィルタリングするステップと、
前記周波数ビンにわたって前記フィルタリングされた相関マップを合算して、合算長期相関マップを生成するステップと
を含む、請求項１に記載の方法。
前記音声信号内の強音調を検出するステップをさらに含む、請求項１に記載の方法。
前記音声信号内の前記強音調を検出するステップは、前記相関マップから、所与の一定の閾値を超える大きさを有する周波数ビンを探すステップを含む、請求項６に記載の方法。
前記音声信号内の前記強音調を検出するステップは、前記合算長期相関マップを前記音声信号内の音声区間を示す適応閾値と比較するステップを含む、請求項６に記載の方法。
強音調の存在を検証するステップをさらに含む、請求項１に記載の方法。
音声信号が、前記音声信号内で検出される音声区間に従って非アクティブ音声信号およびアクティブ音声信号のうちの一方に分類される、前記音声信号内の前記音声区間を検出する方法であって、
背景雑音信号から音楽信号を区別するために使用される前記音声信号の音調に関連するパラメータを推定するステップを含み、
前記音調推定は、請求項１〜９のいずれか一項に従って実行される、方法。
音調音声信号が検出された場合、雑音エネルギー推定の更新を回避するステップをさらに含む、請求項１０に記載の方法。
前記音声信号内の前記音声区間を検出するステップは、信号対雑音比（ＳＮＲ）ベースの音声区間検出を使用するステップをさらに含む、請求項１０に記載の方法。
前記信号対雑音比（ＳＮＲ）ベースの音声区間検出を使用するステップは、周波数に依存する信号対雑音比（ＳＮＲ）に基づいて前記音声信号を検出するステップを含む、請求項１２に記載の方法。
前記信号対雑音比（ＳＮＲ）ベースの音声区間検出を使用するステップは、平均信号対雑音比（ＳＮＲ_ａｖ）を、長期信号対雑音比（ＳＮＲ_ＬＴ）に応じて計算される閾値と比較するステップを含む、請求項１２に記載の方法。
前記音声信号内で前記信号対雑音比（ＳＮＲ）ベースの音声区間検出を使用するステップは、ＳＮＲ計算において前のフレームで計算された雑音エネルギー推定を使用するステップをさらに含む、請求項１４に記載の方法。
前記信号対雑音比（ＳＮＲ）ベースの音声区間検出を使用するステップは、次のフレームの前記雑音推定を更新するステップをさらに含む、請求項１５に記載の方法。
前記次のフレームの前記雑音エネルギー推定を更新するステップは、前記音声信号のピッチ安定性、ボイシング、非定常性パラメータ、および２次線形予測残余誤差エネルギーと１６次線形予測残余誤差エネルギーとの比のうちの少なくとも１つに基づいて更新判断を計算するステップを含む、請求項１６に記載の方法。
前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類するステップを含み、前記分類するステップは、前記平均信号対雑音比（ＳＮＲ_ａｖ）が前記計算された閾値未満の場合、非アクティブ音声信号であると判断するステップを含む、請求項１４に記載の方法。
前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類するステップを含み、前記分類するステップは、前記平均信号対雑音比（ＳＮＲ_ａｖ）が前記計算された閾値を超える場合、アクティブ音声信号であると判断するステップを含む、請求項１４に記載の方法。
前記音声信号の前記音調に関連する前記パラメータを推定するステップは、音楽信号が検出された場合、雑音エネルギー推定の更新を回避する、請求項１０に記載の方法。
背景雑音信号から音楽信号を区別し、前記音楽信号上での雑音エネルギー推定の更新を回避するために、相補的非定常性パラメータおよび雑音特徴パラメータを計算するステップをさらに含む、請求項１０に記載の方法。
前記相補的非定常性パラメータを計算するステップは、スペクトルアタックが検出された場合、長期エネルギーをリセットすることにより、従来の非定常性と同様のパラメータを計算するステップを含む、請求項２１に記載の方法。
前記長期エネルギーをリセットするステップは、前記長期エネルギーを現在のフレームエネルギーに設定するステップを含む、請求項２２に記載の方法。
前記スペクトルアタックを検出するステップおよび前記長期エネルギーをリセットするステップは、スペクトルダイバーシチパラメータを計算するステップを含む、請求項２２に記載の方法。
前記スペクトルダイバーシチパラメータを計算するステップは、
所与の数よりも大きな周波数帯域について、現在のフレーム内の前記音声信号のエネルギーと前のフレーム内の前記音声信号のエネルギーとの比を計算するステップと、
前記所与の数よりも大きなすべての前記周波数帯域にわたり、前記スペクトルダイバーシチを前記計算された比の重み付き和として計算するステップと
を含む、請求項２４に記載の方法。
前記相補的非定常性パラメータを計算するステップは、前記音声信号の区間を示す区間予測パラメータを計算するステップをさらに含む、請求項２２に記載の方法。
前記区間予測パラメータを計算するステップは、前記音声信号の音調に関連するパラメータおよび前記従来の非定常性パラメータを推定することから得られる二分決定の長期値を計算するステップを含む、請求項２６に記載の方法。
前記雑音エネルギー推定の更新は、第１の所与の一定の閾値よりも大きな前記区間予測パラメータおよび第２の所与の一定の閾値よりも大きな前記相補的非定常性パラメータを同時に有することに応答して回避される、請求項２１に記載の方法。
前記雑音特徴パラメータを計算するステップは、
複数の周波数帯域を第１の周波数帯域のうちの特定の数の第１の群および前記周波数帯域の残りの第２の群に分割するステップと、
前記第１の群の周波数帯域の第１のエネルギー値および前記第２の群の周波数帯域の第２のエネルギー値を計算するステップと、
前記第１のエネルギー値と前記第２のエネルギー値との比を計算して、前記雑音特徴パラメータを生成するステップと、
前記計算された雑音特徴パラメータに基づいて前記雑音特徴パラメータの長期値を計算するステップと
を含む、請求項２１に記載の方法。
前記雑音エネルギー推定の更新は、所与の一定の閾値未満の前記雑音特徴パラメータを有することに応答して回避される、請求項２９に記載の方法。
音声信号の分類を使用して前記音声信号の符号化を最適化するために、前記音声信号を分類する方法であって、
前記音声信号内の音声区間を検出するステップと、
前記音声信号内の前記検出された音声区間に従って、前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類するステップと、
前記音声信号がアクティブ音声信号として分類されたことに応答して、前記アクティブ音声信号を無声スピーチ信号および非無声スピーチ信号のうちの一方としてさらに分類するステップと
を含み、
前記アクティブ音声信号を無声スピーチ信号として分類するステップは、前記音声信号の音調を推定して、音楽信号を無声スピーチ信号として分類することを回避するステップを含み、
前記音調推定は、請求項１〜９のいずれか一項に従って実行される、方法。
前記音声信号の前記分類に従って前記音声信号を符号化するステップをさらに含む、請求項３１に記載の方法。
前記音声信号の前記分類に従って前記音声信号を符号化するステップは、無音区間疑似背景雑音生成を使用して非アクティブ音声信号を符号化するステップを含む、請求項３２に記載の方法。
前記アクティブ音声信号を無声スピーチ信号として分類するステップは、ボイシング測定値、平均スペクトル傾斜測定値、低レベルでの最大短期エネルギー増大、音調安定性、および相対フレームエネルギーのうちの少なくとも１つに基づいて判断ルールを計算するステップを含む、請求項３１に記載の方法。
前記無声スピーチ信号を安定有声スピーチ信号および前記安定有声スピーチ信号とは異なる別の種類の信号のうちの一方として分類するステップをさらに含む、請求項３１に記載の方法。
前記無声スピーチ信号を前記安定有声スピーチ信号として分類するステップは、前記音声信号の正規化相関、平均スペクトル傾斜、および開ループピッチ推定のうちの少なくとも１つに基づいて判断ルールを計算するステップを含む、請求項３５に記載の方法。
音声信号の分類を使用して前記音声信号の高帯域を符号化する方法であって、
前記音声信号を音調音声信号および非音調音声信号のうちの一方として分類するステップを含み、
前記音声信号を音調信号として分類するステップは、請求項１〜９のいずれか一項に従って前記音声信号の音調を推定するステップを含む、方法。
請求項１〜９のいずれか一項に従って前記音声信号の音調に関連するパラメータを推定するステップは、スペクトルフロアを計算する代替の方法を使用するステップをさらに含む、請求項３７に記載の方法。
前記スペクトルフロアを計算する代替の方法を使用するステップは、移動平均フィルタを使用して現在のフレーム内の前記音声信号の対数エネルギースペクトルをフィルタリングするステップを含む、請求項３８に記載の方法。
請求項１〜９のいずれか一項に従って前記音声信号の音調を推定するステップは、短期移動平均フィルタにより前記剰余スペクトルを平滑化するステップをさらに含む、請求項３７に記載の方法。
前記音声信号の前記分類に従って前記音声信号の前記高帯域を符号化するステップをさらに含む、請求項３７に記載の方法。
前記音声信号の前記分類に従って前記音声信号の前記高帯域を符号化するステップは、このような信号に最適化されたモデルを使用して前記音調音声信号を符号化するステップを含む、請求項４１に記載の方法。
前記音声信号の前記高帯域は７ｋＨｚを超える周波数範囲を含む、請求項３７に記載の方法。
音声信号の音調を推定する装置であって、
前記音声信号の現在の剰余スペクトルを計算する手段と、
前記現在の剰余スペクトルのピークを検出する手段と、
検出された各ピークについて、前記現在の剰余スペクトルと前の剰余スペクトルとの相関マップを計算する手段と、
前記計算された相関マップに基づいて長期相関マップを計算する手段であって、前記長期相関マップは、前記音声信号の音調を示す手段と
を備える、装置。
音声信号の音調を推定する装置であって、
前記音声信号の現在の剰余スペクトルの計算器と、
前記現在の剰余スペクトルのピークの検出器と、
検出された各ピークについての前記現在の剰余スペクトルと前の剰余スペクトルとの相関マップの計算器と、
前記計算された相関マップに基づく長期相関マップの計算器と
を備え、
前記長期相関マップは、前記音声信号の音調を示す、装置。
前記現在の剰余スペクトルの計算器は、
現在のフレーム内の前記音声信号の前記スペクトル内の極小の特定器と、
前記極小を互いに結ぶスペクトルフロアの推定器と、
前記現在の剰余スペクトルを生成するための、前記スペクトルからの前記推定されたスペクトルフロアの減算器と
を備える、請求項４５に記載の装置。
前記長期相関マップの計算器は、
周波数ビン毎に前記相関マップをフィルタリングするフィルタと、
前記周波数ビンにわたって前記フィルタリングされた相関マップを合算して、合算長期相関マップを生成する合算器と
を備える、請求項４５に記載の装置。
前記音声信号内の強音調の検出器をさらに備える、請求項４５に記載の装置。
音声信号が、前記音声信号内で検出される音声区間に従って非アクティブ音声信号およびアクティブ音声信号のうちの一方に分類される、前記音声信号内の前記音声区間を検出する装置であって、
背景雑音信号から音楽信号を区別するために使用される前記音声信号の音調に関連するパラメータを推定する手段を備え、
前記音調パラメータ推定手段は、請求項４４に記載の装置を備える、装置。
音声信号が、前記音声信号内で検出される音声区間に従って非アクティブ音声信号およびアクティブ音声信号のうちの一方に分類される、前記音声信号内の前記音声区間を検出する装置であって、
背景雑音信号から音楽信号を区別するために使用される、前記音声信号の音調推定器を備え、
前記音調推定器は、請求項４５〜４８のいずれか一項に記載の装置を備える、装置。
信号対雑音比（ＳＮＲ）ベースの音声区間検出器をさらに備える、請求項５０に記載の装置。
前記（ＳＮＲ）ベースの音声区間検出器は、平均信号対雑音比（ＳＮＲ_ａｖ）と、長期信号対雑音比（ＳＮＲ_ＬＴ）に応じた閾値との比較器を備える、請求項５１に記載の装置。
前記ＳＮＲベースの音声区間検出器での信号対雑音比（ＳＮＲ）の計算での雑音エネルギー推定を更新する雑音推定器をさらに備える、請求項５０に記載の装置。
背景雑音信号から音楽信号を区別し、雑音エネルギー推定の更新を回避するために、相補的非定常性パラメータの計算器と、前記音声信号の雑音特徴の計算器とをさらに備える、請求項５０に記載の装置。
前記音声信号内のスペクトル変化およびスペクトルアタックの検出に使用されるスペクトルパラメータの計算器をさらに備える、請求項５０に記載の装置。
音声信号の分類を使用して前記音声信号の符号化を最適化するために、前記音声信号を分類する装置であって、
前記音声信号内の音声区間を検出する手段と、
前記音声信号内の前記検出された音声区間に従って、前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類する手段と、
前記音声信号がアクティブ音声信号として分類されたことに応答して、前記アクティブ音声信号を無声スピーチ信号および非無声スピーチ信号のうちの一方としてさらに分類する手段と
を備え、
前記音声信号を無声スピーチ信号としてさらに分類する手段は、音楽信号を無声スピーチ信号として分類することを回避するために、前記音声信号の音調に関連するパラメータを推定する手段を備え、
前記音調に関連するパラメータを推定する手段は、請求項４５〜４８のいずれか一項に記載の装置を備える、装置。
音声信号の分類を使用して前記音声信号の符号化を最適化するために、前記音声信号を分類する装置であって、
前記音声信号内の音声区間の検出器と、
前記音声信号内の前記検出された音声区間に従って前記音声信号を非アクティブ音声信号およびアクティブ音声信号のうちの一方として分類する第１の音声信号分類器と、
前記第１の音声信号分類器と併せて、前記アクティブ音声信号を無声スピーチ信号および非無声スピーチ信号のうちの一方として分類する第２の音声信号分類器と
を備え、
前記音声区間検出器は、音楽信号を無声スピーチ信号として分類することを回避するために、前記音声信号の音調を推定する音調推定器を備え、
前記音調推定器は、請求項４５〜４８のいずれか一項に記載の装置を備える、装置。
前記音声信号の前記分類に従って前記音声信号を符号化する音声エンコーダをさらに備える、請求項５７に記載の装置。
前記音声エンコーダは、非アクティブ音声信号を符号化する雑音エンコーダを備える、請求項５８に記載の装置。
前記音声エンコーダは無声スピーチに最適化されたコーダを備える、請求項５８に記載の装置。
前記音声エンコーダは、安定有声信号を符号化する有声スピーチに最適化されたコーダを備える、請求項５８に記載の装置。
前記音声エンコーダは、高速に発達しつつある有声信号を符号化する汎用音声信号コーダを備える、請求項５８に記載の装置。
音声信号の分類を使用して音声信号の高帯域を符号化する装置であって、
前記音声信号を音調音声信号および非音調音声信号のうちの一方として分類する手段と、
前記分類された音声信号の前記高帯域を符号化する手段と
を備え、
前記音声信号を音調信号として分類する手段は、請求項４５〜４８のいずれか一項に記載の音声信号の音調を推定する装置を備える、装置。
音声信号の分類を使用して音声信号の高帯域を符号化する装置であって、
前記音声信号を音調音声信号および非音調音声信号のうちの一方として分類する音声信号分類器と、
前記分類された音声信号の前記高帯域を符号化する音声エンコーダと
を備え、
前記音声信号分類器は、請求項４５〜４８のいずれか一項に記載の音声信号の音調を推定する装置を備える、装置。
前記音声信号から導出されるスペクトルフロアを計算する移動平均フィルタをさらに備え、前記スペクトルフロアは、前記音声信号の前記音調を推定する際に使用される、請求項６４に記載の装置。
前記音声信号の剰余スペクトルを平滑化する短期移動平均フィルタをさらに備え、前記剰余スペクトルは、前記音声信号の前記音調を推定する際に使用される、請求項６４に記載の装置。