JP5425682B2

JP5425682B2 - ロバストな音声分類のための方法および装置

Info

Publication number: JP5425682B2
Application number: JP2010072646A
Authority: JP
Inventors: ペンジュン・フアン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-12-08
Filing date: 2010-03-26
Publication date: 2014-02-26
Anticipated expiration: 2021-12-04
Also published as: KR20090026805A; CN101131817B; CN101131817A; DE60123651T2; WO2002047068A3; CN100350453C; HK1067444A1; JP2004515809A; JP4550360B2; BR0116002A; EP1340223A2; ES2276845T3; WO2002047068A2; KR20030061839A; ATE341808T1; EP1340223B1; DE60123651D1; CN1543639A; AU2002233983A1; US20020111798A1

Description

開示されている実施形態は、音声処理の分野に関する。とくに、開示されている実施形態は、ロバストな音声分類のための新規で向上した方法および装置に関する。

ディジタル技術による音声伝送は、とくに長距離のディジタル無線電話の応用において普及した。その結果として、チャンネル上で送ることができる最小情報量を判断し、一方で再構成された音声の知覚品質を維持することについての関心が生じた。音声を、単にサンプリングしてディジタル化することによって伝送するとき、従来のアナログ電話の音声品質に達するには、毎秒６４キロビット秒（kbps）のデータレートが必要である。しかしながら、適切なコード化、伝送、および受信機における再合成による音声解析を使用することで、データレートを相当に低減することができる。音声解析をより精密に行なうと、データをより適切にコード化することができ、したがってデータレートを低減することができる。

人間の音声生成モデルに関係するパラメータを抽出することによって音声を圧縮する技術を用いたデバイスは、音声コーダと呼ばれる。音声コーダは、入来する音声信号を時間ブロック、すなわち解析フレームへ分割する。音声コーダには、一般に、エンコーダおよびデコーダ、すなわちコーデックが構成されている。エンコーダは、入来する音声フレームを解析して、ある特定の関連するパラメータを抽出し、次にパラメータを二値表現へ、すなわちビットの組または二値のデータパケットへ量子化する。データパケットは通信チャンネル上で受信機およびデコーダへ送られる。デコーダは、データパケットを処理し、それらを逆量子化（de-quantize）して、パラメータを生成し、その量子化されたパラメータを使用して、音声フレームを再合成する。

音声コーダは、音声に固有の自然冗長の全てを取り除くことによって、ディジタル化された音声信号を低ビットレートの信号へ圧縮する機能を有する。ディジタル圧縮は、入力音声フレームを１組のパラメータで表現して、量子化を用いて、パラメータを１組のビットで表現することによって達成される。入力音声フレームのビット数がＮ_ｉであり、音声コーダによって生成されるデータパケットのビット数がＮ_０であるとき、音声コーダによって達成される圧縮係数は、Ｃ_ｒ＝Ｎ_ｉ／Ｎ_０である。課題は、デコードされた音声の高い音声品質を維持する一方で、目標の圧縮係数を達成することである。音声コーダの性能は、（１）音声モデル、すなわち上述の解析および合成プロセスの組合せが、どのくらい適切に働くか、および（２）パラメータ量子化プロセスが、１フレーム当りＮ_０ビットの目標のビットレートで、どのくらい適切に実行されるかに依存する。したがって、音声モデルは、音声信号の本質、すなわち目標の音声品質を、各フレームごとに少数のパラメータから成る組で捕えることを目的とする。

音声コーダは、時間領域コーダとして構成することができ、時間領域コーダでは、高度の時間分解処理を採用して、音声の小さいセグメント（通常は、５ミリ秒（millisecond, ms）のサブフレーム）を一度にコード化することによって、時間領域の音声波形を捕らえることを試みる。この技術において知られている種々のサーチアルゴリズムによって、コードブック空間から、各サブフレームごとに、高精度の表現を得ることができる。その代わりに、音声コーダは周波数領域コーダとして構成されていてもよく、周波数領域コーダでは、入力音声フレームの短時間のスペクトルを１組のパラメータで捕えて（解析）、対応する合成処理を用いて、スペクトルパラメータから音声波形を再生成することを試みる。文献（A. Gersho & R.M. Gray, Vector Quantization and Signal Compression, 1992）に記載されている既知の技術にしたがうと、パラメータ量子化器は、コードベクトルの記憶されている表現を使用してパラメータを表現することによって、パラメータを維持する。

周知の時間領域の音声コーダは、コード励起線形予測（Code Excited Linear Predictive, CELP）コーダであり、ＣＥＬＰコーダは、文献（L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453, 1978）に記載されており、本明細書では、これを参考文献として全体的に取り上げている。ＣＥＬＰコーダでは、音声信号内の短時間の相関、すなわち冗長を、線形予測（linear prediction, LP）解析によって取り除き、短時間のフォルマントフィルタの係数を検出する。短時間の予測フィルタを入来する音声フレームへ適用して、ＬＰ残差信号を生成し、さらに、これを長時間の予測フィルタのパラメータおよび次の確率コードブックでモデル化して、量子化する。したがって、ＣＥＬＰコーディングでは、時間領域の音声波形をコード化するタスクを、ＬＰの短時間のフィルタ係数をコード化するタスクと、ＬＰ残差をコード化するタスクとへ分割する。時間領域コーディングは、固定レート（すなわち、各フレームごとに同数のビット、Ｎ_０を使用して）か、または可変レート（すなわち、異なるタイプのフレーム内容に対して、異なるビットレートを使用して）で行うことができる。可変レートのコーダでは、使用するビット量を、目標品質を得るのに適したレベルへコーデックパラメータをコード化するのに必要なビット量のみにすることを試みる。例示的な可変レートのＣＥＬＰコーダは、米国特許第5,414,796号に記載されており、なお、米国特許第5,414,796号は本明細書に開示されている実施形態の譲受人に譲渡され、本明細書において参考文献として全体的に取り上げられている。

ＣＥＬＰコーダのような時間領域コーダでは、一般に、１フレーム当りに多数のビットＮ_０に依存して、時間領域の音声波形の精度を維持している。このようなコーダでは、１フレーム当りのビット数Ｎ_０が比較的に多い（例えば、８キロビット秒以上）ときは、優れた音声品質を与える。しかしながら、時間領域コーダは、低ビットレート（４キロビット秒以下）では、使用可能なビット数が制限されることにより、高品質でロバストな性能を保持できない。低ビットレートでは、コードブック空間が制限されることにより、従来の時間領域コーダの波形整合能力は削減されるが、より高いレートの市販のアプリケーションでは、この波形整合能力は正常に展開される。

一般に、ＣＥＬＰ方式では、短時間予測（short term prediction, STP）フィルタと長時間予測（long term prediction, LTP）フィルタとを使用する。エンコーダにおいて合成による解析（Analysis by Synthesis, AbS）のアプローチを用いて、ＬＴＰの遅延および利得と、最良の確率コードブックの利得および指標とを検出する。現在の最新技術のＣＥＬＰコーダ、例えば強化型可変速コーダ（Enhanced Variable Rate Coder, EVRC）では、ほぼ８キロビット秒のデータレートで良好な品質の合成された音声を実現することができる。

無声音が周期性を示さないことも知られている。有声音は、音声の周期性が強く、かつＬＴＰのフィルタリングが重要であるが、従来のＣＥＬＰ方式でＬＴＰフィルタしたものをコード化するのに費やされる帯域幅を、無声音に使用しても、有声音ほど効率的ではない。したがって、無声音のためのより効率的な（すなわち、より低いビットレートの）コーディング方式が望まれている。最も効率的なコーディング方式を選択し、かつ最も低いデータレートを実現するには、正確な音声分類が必要である。

より低いビットレートでコード化するために、スペクトル、すなわち周波数領域で音声をコード化するための種々の方法が発展し、例えば、音声信号を、時間にしたがって発展するスペクトルとして解析するといった方法がある。文献（R. J. McAulay & T.F. Quateri, Sinusoidal Coding, in Speech and Synthesis ch.4(W.B. Kleijin & K.K. Paliwal eds., 1995)）参照。スペクトルコーダの目的は、時間にしたがって変化する音声波形を精密に模倣するのではなく、各入力音声フレームの短時間の音声スペクトルを１組のスペクトルパラメータでモデル化、すなわち予測することである。次に、スペクトルパラメータをコード化して、出力音声フレームをデコードされたパラメータを使用して生成する。結果の合成された音声は、元の入力音声波形と整合しないが、同様の知覚品質を有する。この技術においてよく知られている周波数領域コーダの例には、マルチバンド励起コーダ（multiband excitation coder, MBE）、シヌソイド変形コーダ（sinusoial transform coder, STC）、および高調波コーダ（harmonic coder, HC）が含まれる。このような周波数領域コーダでは、コンパクトな組のパラメータで高品質のパラメータモデルを与え、低ビットレートで使用可能な少数のビットを使用して、正確に量子化することができる。

しかしながら、低ビットレートのコーディングでは、コーディングの分解能が制限される、すなわちコードブック空間が制限されるといった重要な制約が課され、このために単一のコーディング機構の効率が制限され、したがってコーダは、種々の背景の条件の下で、種々のタイプの音声セグメントを等しい精度で表わすことができない。例えば、従来の低ビットレートの周波数領域のコーダでは、音声フレームについての位相情報を送らない。その代わりに、位相情報は、ランダムな人工的に生成された初期位相値および線形補間技術を使用することによって再構成される。例えば、文献（H. Yang et al, Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE Model, in 29 Electric Letters 856-57, May 1993）参照。シヌソイドの振幅が量子化−逆量子化処理により完全に維持されても、位相情報は人工的に生成されるので、周波数領域コーダによって生成される出力音声は、元の入力音声と整列しない（すなわち、主パルスは同期しない）。したがって、閉ループの性能の測度、例えば周波数領域コーダにおける信号対雑音比（signal-to-noise ratio, SNR）または知覚ＳＮＲを採用することは、困難であるのが分かる。

低ビットレートで音声を効率的にコード化するための１つの効果的な技術には、マルチモードコーディングがある。マルチモードコーディング技術は、開ループモード決定プロセスと組合せて、低レートで音声をコード化するのに用いられている。１つのこのようなマルチモードのコーディング技術は、文献（Amitava Das et al., Multi mode and Variable-Rate Coding of Speech, in Speech Coding and Synhtesis ch.7 (W.B. Kleijin & K.K. Paliwal eds., 1995)）に記載されている。従来のマルチモードコーダでは、異なるモード、すなわちコーディング−デコーディングアルゴリズムを、異なるタイプの入力音声フレームへ適用する。各モード、すなわちコーディング−デコーディングプロセスは、一定のタイプの音声セグメント、例えば有声音、無声音、または背景ノイズ（非音声）を最も効率的なやり方で表現するようにカスタマイズされる。このようなマルチモードコーディング技術の成功は、正確なモード決定、すなわち音声の分類に相当に依存している。外部の開ループのモード決定機構では、入力音声フレームを調べて、フレームに何れのモードを適用するかに関して決定する。開ループのモードを決定は、一般に、入力フレームから多数のパラメータを抽出し、ある特定の仮のスペクトル特徴に関するパラメータを評価して、この評価についてのモード決定に基づくことによって行われる。したがって、モード決定は、出力音声の正確な状態、すなわち出力音声が、音声品質または他の性能の測度に関して入力音声にどのくらい近くなるかを、前もって知らなくても行なうことができる。音声コーデックにおける例示的な開ループのモード決定は、米国特許第5,414,796号に記載されており、米国特許第5,414,796号は、本発明の譲受人に譲渡され、本明細書では参考文献として全体的に取り上げられている。

マルチモードコーディングは、各フレームに同数のビットＮ_０を使用して固定レートで行われるか、または異なるモードに対して異なるビットレートを使用して可変レートで行われる。可変レートのコーディングでは、使用するビット量を、目標の品質を得るのに適したレベルへコーデックパラメータをコード化するのに必要なビット量のみにすることを目的とする。結果として、固定レート、すなわちより高いレートのコーダの音声品質と同じ目標の音声品質を、可変ビットレート（variable-bit-rate, VBR）技術を使用して、平均が相当により低いビットレートで得ることができる。例示的な可変レートの音声コーダは、米国特許第5, 414,796号に記載されている。現在は、中位から低いビットレート（すなわち、２．４ないし４キロビット秒以下の範囲）で動作する高品質の音声コーダを展開するための、研究の関心および強力な販売の必要が急増している。応用領域には、無線電話、衛星通信、インターネット電話、種々のマルチメディア、並びに音声流アプリケーション、すなわち音声メールおよび他の音声記憶システムが含まれる。高容量の必要、およびパケットを損った情況のもとでのロバストな性能への要求が、推進力となっている。別の直接的な推進力として、種々の最近の音声コーディングの標準化への努力が、低レートの音声コーディングアルゴリズムの研究および発展を進めている。低レートの音声コーダでは、許容可能なアプリケーションの帯域幅ごとに、より多くのチャンネル、すなわちユーザを生成する。低レートの音声コーダは、適切なチャンネルコーディングの追加の層と組み合わされて、コーダの仕様の全体的なビット供給に適合し、チャンネルを誤った情況においてロバストな性能を与えることができる。

したがって、マルチモードのＶＢＲの音声コーディングは、低ビットレートで音声をコード化するための効率的な機構である。従来のマルチモード方式では、種々の音声セグメント（例えば、無声音、有声音、遷移部）のための効率的なコード化方式の設計、すなわちモードと、背景ノイズ、すなわち無音のためのモードとが必要である。音声コーダの全体的な性能は、モード分類のロバスト性（robustness）と、各モードがどのくらい適切に機能するかに依存する。コーダの平均レートは、無声音、有声音、および他の音声セグメントのための異なるモードのビットレートに依存する。低い平均レートで目標の品質を実現するために、変化する条件のもとで音声モードを正確に判断することが必要である。一般に、有声音および無声音の音声セグメントは、高ビットレートで捕らえられ、背景ノイズおよび無音のセグメントは、相当に低いレートのモードで表現される。１フレームに対して最少数のビットを使用して、高い割合で音声セグメントを正確に捕らえて、コード化するために、マルチモードの可変ビットレートのエンコーダは、正確に音声分類する必要がある。音声分類がより正確に行われると、平均のコード化ビットレートはより低くなり、かつデコードされる音声の品質はより高くなる。孤立の音声フレームに対するパラメータ数を最少にする音声分類技術は、以前より検討されてきたが、音声モード分類の数が少なく、かつ不正確であった。したがって、変化する環境条件のもとで、多数の音声モードを正確に分類して、マルチモードの可変ビットレートのコード化技術の性能を最大にすることができる高性能の音声分類器が必要とされている。

開示されている実施形態は、ロバストな音声分類技術であって、種々の条件の下で、音声についての多数の特徴パラメータを評価して、種々の音声モードを高精度で分類する技術に関する。したがって、１つの態様では、音声分類方法が開示される。この方法には、外部の構成要素から音声分類器へ分類パラメータを入力して、音声分類器内で、入力パラメータの中の少なくとも１つから、内部の分類パラメータを生成して、正規化された自己相関係数の関数の閾値を設定して、信号環境にしたがってパラメータ解析器を選択して、入力パラメータおよび内部パラメータを解析して、音声モードの分類を生成することが含まれる。

別の態様では、音声分類器が開示される。音声分類器には、少なくとも１つの外部入力パラメータから内部分類パラメータを生成するための生成器と、正規化された自己相関係数の関数の閾値を設定して、かつ信号環境にしたがってパラメータ解析器を選択するための正規化された自己相関係数の関数の閾値の生成器と、少なくとも１つの外部入力パラメータと内部パラメータとを解析して、音声モードの分類を生成するためのパラメータ解析器とが構成されている。

本発明の特徴、目的、および長所は、別途記載されている詳細な説明を添付の図面と組合せて参照することによって、一致する参照符号により全体的に対応して同定され、より明らかになるであろう。

音声コーダによって各端末において終端する通信チャンネルのブロック図。図１に示されているエンコーダによって使用することができるロバストな音声分類器のブロック図。ロバストな音声分類器の音声分類ステップを示すフローチャート。音声分類についての開示されている実施形態によって使用される状態図。音声分類についての開示されている実施形態によって使用される状態図。音声分類についての開示されている実施形態によって使用される状態図。音声分類についての開示されている実施形態によって使用される決定表。音声分類についての開示されている実施形態によって使用される決定表。音声分類についての開示されている実施形態によって使用される決定表。分類パラメータおよび音声モード値とを有する音声信号についての１つの実施形態の例示的なグラフ。

開示されている実施形態では、ボコーダの応用において向上した音声分類を行うための方法および装置を提供する。既に使用可能であったパラメータよりも、より高精度でより多くの音声分類を生成するために、新規な音声パラメータを解析する。新規な決定プロセスは、フレームごとに音声を分類するのに使用される。新規な状態に基づく決定器において、元の入力音声、ＳＮＲ情報、ノイズを抑圧された出力音声、音声活動情報、線形予測係数（Linear Prediction Coefficient, LPC）解析、および開ループのピッチ推定値から求めたパラメータを使用して、種々の音声モードを正確に分類する。各音声フレームは、過去のフレーム、将来のフレーム、および現在のフレームを解析することによって分類される。開示されている実施形態によって分類することができる音声モードには、過渡部、活動状態の音声への遷移、並びに単語の終端部における有声音、無声音、および無音が含まれる。

開示されている実施形態は、周囲のノイズレベルが変化する環境における種々の音声モードのための音声分類技術を示している。音声モードは、最も効率的なやり方でコード化するために、確実で、かつ正確に識別される。

図１において、第１のエンコーダ10は、ディジタル化された音声サンプルｓ（ｎ）を受信し、サンプルｓ（ｎ）をコード化して、サンプルｓ（ｎ）は伝送媒体12、すなわち通信チャンネル12上で第１のデコーダ14へ送られる。デコーダ14は、コード化された音声サンプルをデコードして、合成出力音声信号Ｓ_{ＳＹＮＴＨ}（ｎ）を生成する。反対方向での伝送のために、第２のエンコーダ16は、ディジタル化された音声サンプルｓ（ｎ）をコード化して、サンプルｓ（ｎ）は通信チャンネル18上で送られる。第２のデコーダ20は、コード化された音声サンプルを受信して、デコードし、合成出力音声信号Ｓ_{ＳＹＮＴＨ}（ｎ）を生成する。

音声サンプルｓ（ｎ）は、この技術において知られている種々の方法、例えば、パルスコード変調（pulse code modulation, PCM）、コンパンデッドμ法（companded μ-law）、すなわちＡ法にしたがって、ディジタル化され、量子化された音声信号を表現している。この技術において知られているように、音声サンプルｓ（ｎ）は、入力データフレームへまとめられ、各フレームには、所定数のディジタル化された音声サンプルｓ（ｎ）が構成される。例示的な実施形態では、８キロヘルツのサンプリングレートを採用し、各２０ミリ秒のフレームには１６０のサンプルが構成されている。別途記載する実施形態では、データ伝送レートは、フレームごとに、８キロビット秒（フルレート）から、４キロビット秒（２分の１レート）、２キロビット秒（４分の１レート）、ないし１キロビット秒（８分の１レート）へ変更することができる。その代わりに、他のデータレートを使用してもよい。本明細書に使用されているように、“フルレート”または“高レート”という用語は、一般に、８キロビット秒以上のデータレートを指し、“２分の１レート”または“低レート”という用語は、一般に、４キロビット以下のデータレートを指す。低ビットレートは、比較的に少ない音声情報を含むフレームに対して選択的に用いられるので、データ伝送レートを変更するのが有益である。当業者には分かるように、他のサンプリングレート、フレームサイズ、およびデータ伝送レートを使用してもよい。

第１のエンコーダ10および第２のデコーダ20で、第１の音声コーダ、すなわち音声コーデックが構成される。同様に、第２のエンコーダ16および第１のデコーダ14で、第２の音声コーダが構成される。当業者には、音声コーダが、ディジタル信号プロセッサ（digital signal processor, DSP）、特定用途向け集積回路（application-specific integrated circuit, ASIC）、ディスクリートなゲート論理、ファームウエアまたは従来のプログラム可能なソフトウエアモジュール、およびマイクロプロセッサで構成されることが分かるであろう。ソフトウエアモジュールはＲＡＭメモリ、フラッシュメモリ、レジスタ、または当業者には知られている他の形態の書込み可能なメモリ媒体の中に位置する。その代わりに、マイクロプロセッサを、従来のプロセッサ、制御装置、または状態機械に置換してもよい。音声コーディングのために特別に設計されたＡＳＩＣの例は、米国特許第5,727,123号および第5,784,532号に記載されており、米国特許第5,727,123号および第5,784,532号は、本発明の譲受人に譲渡され、本明細書に参考文献として全体的に取り上げられている。

図２は、ロバストな音声分類器の例示的な実施形態を示している。１つの実施形態では、図２の音声分類装置は、図１のエンコーダ（10,16）内に位置する。別の実施形態では、ロバストな音声分類器は、スタンドアローン形であって、音声分類モードの出力を、図１のエンコーダ（10，16）のようなデバイスへ供給する。

図２では、入力音声は、ノイズ抑圧器（202）へ供給される。入力音声は、一般に、音声信号をアナログからディジタルへ変換することによって生成される。ノイズ抑圧器（202）は、入力音声信号からノイズ成分をフィルタして、ノイズを抑圧された出力音声信号、および現在の出力音声のＳＮＲ情報を生成する。ＳＮＲ情報および出力音声信号は、音声分類器（210）へ入力される。ノイズ抑圧器（202）の出力音声信号は、音声活動検出器（204）、ＬＰＣ解析器（206）、および開ループピッチ推定器（208）へも入力される。音声分類器（210）は、ＳＮＲ情報を使用して、周期性の閾値を設定し、ノイズのない音声とノイズのある音声とを区別する。以下では、ＳＮＲのパラメータをcurr ns snrと呼ぶ。以下では、出力音声信号をt inと呼ぶ。１つの実施形態において、ノイズ抑圧器（202）が構成されていないか、またはオフにされているときは、ＳＮＲパラメータcurr ns snrをデフォルト値に予め設定すべきである。

音声活動検出器（204）は、現在の音声についての音声活動情報を音声分類器（210）へ出力する。音声活動情報の出力は、現在の音声が活動状態であるか、または非活動状態であるかを示す。１つの例示的な実施形態では、音声活動情報の出力は二値であり、すなわち活動状態か、または非活動状態である。別の実施形態では、音声活動情報の出力は、多値である。本明細書では、音声活動情報のパラメータをvadと呼ぶ。

ＬＰＣ解析器（206）は、現在の出力音声のＬＰＣの反射係数を音声分類器（210）へ出力する。ＬＰＣ解析器（206）は、ＬＰＣ係数のような他のパラメータも出力する。本明細書では、ＬＣＰの反射係数のパラメータをreflと呼ぶ。

開ループピッチ推定器（208）は、正規化された自己相関係数の関数（Normalized Auto-correlation Coefficient Function, NACF）値およびＮＡＣＦの周囲のピッチの値を音声分類器（210）へ出力する。本明細書では、ＮＡＣＦのパラメータをnacfと呼び、ＮＡＣＦ周囲ピッチのパラメータをnacf at pitchと呼ぶ。より周期的な音声信号は、nacf at pitchのより大きい値を生成する。nacf at pitchの値がより大きくなると、定常音声の出力音声タイプと関係付けられている可能性が高くなる。音声分類器（210）は、nacf at pitchの値の配列を維持する。nacf at pitchは、サブフレームごとに計算される。例示的な実施形態では、１フレームに対して２つのサブフレームを測定することによって、出力音声の各フレームごとに、２つの開ループのピッチ推定値を測定する。nacf at pitchは、各サブフレームごとに、開ループのピッチ推定値から計算される。例示的な実施形態では、nacf at pitchの値の５次元配列（すなわち、nacf at pitch[5]）には、２と２分の１の出力音声フレームの値が含まれている。nacf at pitchの配列は、各出力音声フレームごとに更新される。音声分類器（210）では、nacf at pitchのパラメータの配列の新規な使用により、現在、過去、および予見（将来）の信号情報を使用して、より正確で、かつロバストな音声モードを決定することができる。

音声分類器（210）は、外部の構成要素から情報を入力されることに加えて、出力音声から、追加の新規なパラメータを内部で生成し、音声モード決定プロセスにおいて使用する。

１つの実施形態では、音声分類器（210）は、ゼロ交差レートのパラメータを内部で生成し、以下ではゼロ交差レートのパラメータをzcrと呼ぶ。現在の出力音声のzcrのパラメータは、１音声フレームに対する音声信号内の符号の変化数として定める。信号は非常にランダムであるので、有声音では、zcr値は小さく、一方で無声音（またはノイズ）では、zcr値は大きい。音声分類器（210）は、zcrのパラメータを使用して、有声音および無声音を分類する。

１つの実施形態では、音声分類器（210）は、現在のフレームのエネルギーのパラメータを内部で生成し、以下では、これをEと呼ぶ。音声分類器（210）は、Eを使用して、現在のフレームのエネルギーと、過去および将来のフレームのエネルギーとを比較することによって、過渡部の音声を識別することができる。パラメータvEprevは、Ｅから求められる前のフレームのエネルギーである。

１つの実施形態では、音声分類器（210）は、予見フレームのエネルギーのパラメータを内部で生成し、以下では、これをEnextと呼ぶ。Enextには、現在のフレームの一部分からのエネルギー値と、次の出力音声フレームの一部分からのエネルギー値とが含まれる。１つの実施形態では、Enextは、現在のフレームの後半部のエネルギーと、次の出力音声フレームの前半部のエネルギーとを表現する。音声分類器（210）は、Enextを使用して、過渡部の音声を識別する。音声の終端に、次のフレームのエネルギーは、現在のフレームのエネルギーと比較して、著しく低下する。音声分類器（210）は、現在のフレームのエネルギーと次のフレームのエネルギーとを比較して、音声の終端の状態と音声の始端の状態、または上り過渡部の音声モードと下り過渡部の音声モードとを識別することができる。

１つの実施形態では、音声分類器（210）は、帯域エネルギー比のパラメータを内部で生成する。ELを０ないし２キロヘルツの低帯域の現在のフレームのエネルギーとし、EHを２ないし４キロヘルツの高帯域の現在のフレームのエネルギーとすると、帯域エネルギー比のパラメータはlog2(EL/EH)として定められる。以下では、帯域エネルギー比のパラメータをbERと呼ぶ。一般に、有声音は低帯域にエネルギーが集中し、一方でノイズの無声音は高帯域にエネルギーが集中するので、音声分類器（210）は、bERのパラメータにより、有声音モードと無声音モードとを識別することができる。

１つの実施形態では、音声分類器（210）は、出力音声から、３つのフレームの平均の有声音のエネルギーのパラメータを内部で生成し、以下では、これをvEavと呼ぶ。別の実施形態では、vEavは、３つ以外のフレーム数の平均であってもよい。現在の音声モードが、活動状態で有声音であるときは、vEavから、最後の３つの出力音声フレームにおける連続のエネルギーの平均を計算する。最後の３つの出力音声フレームにおけるエネルギーの平均をとることにより、音声分類器（210）は、基本音声モードの決定において、単一フレームのエネルギーの計算値のみよりも、より安定した統計値を得る。音声の停止時に、現在のフレームのエネルギーEは、平均の音声エネルギーvEavと比較して相当に低下することになるので、音声分類器（210）は、vEavを使用して、有声音の終端、すなわち下り過渡部モードを分類する。vEavは、現在のフレームが有声音であるときのみ更新されるか、あるいは無声音または非活動音声の固定値へリセットされる。１つの実施形態では、固定リセット値は、０．０１である。

１つの実施形態では、音声分類器（210）は、前の３つのフレームの平均の有声音のエネルギーのパラメータを内部で生成し、以下では、これをvEprevと呼ぶ。別の実施形態では、vEprevは、３つ以外のフレーム数の平均であってもよい。音声分類器（210）は、vEprevを使用して、過渡部の音声を識別する。現在のフレームのエネルギーは、音声の始端において、前の３つの有声音のフレームの平均エネルギーと比較して、相当に高くなる。音声分類器（210）は、現在のフレームのエネルギーと、前の３つのフレームのエネルギーとを比較して、音声の始端の状態、すなわち上り過渡部の音声モードを識別することができる。同様に、現在のフレームのエネルギーは、有声音の終端において、相当に低下する。したがって、vEprevを使用して、音声の終端における遷移を分類することもできる。

１つの実施形態では、音声分類器（210）は、現在のフレームのエネルギー対前の３つのフレームの平均の有声音のエネルギーの比のパラメータを内部で生成することができ、これを10^＊log10(E/vEprev)として定める。別の実施形態では、vEprevは、３つ以外のフレーム数の平均であってもよい。以下では、現在のエネルギー対前の３つのフレームの平均の有声音のエネルギーの比をvERと呼ぶ。vERは、音声が再び始まるときに大きく、かつ有声音の終端において小さいので、音声分類器（210）では、vERを使用して、有声音の始端と有声音の終端、すなわち上り過渡部モードと下り過渡部モードとを分類する。過渡部の音声を分類するときに、vERのパラメータを、vEprevのパラメータと組合せて使用してもよい。

１つの実施形態では、音声分類器（210）は、現在のフレームのエネルギー対３つのフレームの平均の有声音のエネルギーのパラメータを内部で生成し、これをMIN(20,10^＊log10(E/vEav))と定める。以下では、現在のフレームのエネルギー対３つのフレームの平均の有声音のエネルギーのパラメータをvER2と呼ぶ。音声分類器（210）は、vER2を使用して、有声音の終端において過渡部の音声モードを分類する。

１つの実施形態では、音声分類器（210）は、最大のサブフレームのエネルギー指標のパラメータを内部で生成する。音声分類器（210）は、出力音声の現在のフレームをサブフレームへ等しく分割し、各サブフレームの二乗平均根（Root Means Squared, RMS）のエネルギー値を計算する。１つの実施形態では、現在のフレームは１０個のサブフレームへ分割される。最大のサブフレームのエネルギー指標のパラメータは、現在のフレーム内の最大のＲＭＳのエネルギー値を有するサブフレーム、すなわち現在のフレームの後半のサブフレームに対する指標である。以下では、最大のサブフレームのエネルギー指標のパラメータをmaxsfe idxと呼ぶ。現在のフレームをサブフレームへ分割し、フレーム内のピークエネルギーの位置、例えば最大のピークエネルギーの位置に関する情報を音声分類器（210）へ供給する。フレームをより多くのサブフレームへ分割することにより、より高い分解能が実現される。無声音または無音の音声モードのエネルギーは一般に安定していて、一方で過渡部の音声モードでは、エネルギーは増加するか、または漸減するので、音声分類器（210）では、maxsfe idxを他のパラメータと共に使用して、過渡部の音声モードを分類する。

音声分類器（210）は、コード化構成要素から直接に入力された新規なパラメータと、内部で生成される新規なパラメータとを使用して、以前に可能であったよりも、音声モードをより正確に、かつロバストに分類する。音声分類器（210）は、新規な決定プロセスを、直接に入力されたパラメータおよび内部で生成されたパラメータに適用して、向上した音声分類の結果を生成する。決定プロセスについては、図４ａないし４ｃと５ａないし５ｃとを参照して、別途詳しく記載する。

１つの実施形態では、音声分類器（210）によって出力される音声モードには、過渡部、上り過渡部、下り過渡部、有声音、無声音、および無音のモードが含まれる。過渡部モードは有声音であるが、周期性の低い音声であり、フルレートのＣＥＬＰで最適にコード化される。上り過渡モードは、活動状態の音声の最初の有声音のフレームであり、フルレートのＣＥＬＰで最適にコード化される。下り過渡部モードは、一般に単語の終端における低エネルギーの有声音であり、２分の１レートのＣＥＬＰで最適にコード化される。有声音モードは、非常に周期的な有声音であり、主として母音から成る。有声音モードの音声は、フルレート、２分の１レート、４分の１レート、または８分の１レートでコード化される。有声音モードの音声をコード化するためのデータレートは、平均データレート（Average Data Rate, ADR）の要件を満たすように選択される。無声音モードは、主として子音から成り、４分の１レートのノイズ励起線形予測（Noise Excited Linear Prediction, NELP）で最適にコード化される。無音モードは、非活動状態の音声であり、８分の１レートのＣＥＬＰで最適にコード化される。

当業者には、パラメータおよび音声モードが、開示されている実施形態のパラメータおよび音声モードに制限されないことが分かるであろう。開示されている実施形態の技術的範囲から逸脱することなく、追加のパラメータおよび音声モードを採用してもよい。

図３は、ロバストな音声分類技術の音声分類ステップについての１つの実施形態を示すフローチャートである。

ステップ300では、外部の構成要素から入力された分類パラメータを、ノイズを抑圧された出力音声の各フレームごとに処理される。１つの実施形態では、外部の構成要素から入力された分類パラメータには、ノイズ抑圧器の構成要素から入力されるcurr ns snrとt in、開ループのピッチ推定器の構成要素から入力されるnacf at pitchのパラメータ、および音声活動検出器の構成要素から入力されるvad、およびＬＰＣ解析の構成要素から入力されたreflが含まれる。制御フローは、ステップ302へ進む。

ステップ302では、外部の構成要素から入力される分類パラメータから、追加の内部で生成されるパラメータを計算する。例示的な実施形態では、t inから、zcr、E、Enext、bER、vEav、vEprev、vER、vER2、およびmaxsfe idxを計算する。各出力音声フレームごとに、内部で生成されるパラメータを計算するとき、制御流はステップ304へ進む。

ステップ304では、ＮＡＣＦの閾値を判断し、音声信号の環境にしたがって、パラメータ解析器を選択する。例示的な実施形態では、ステップ300において入力されたcurr ns snrの閾値をＳＮＲの閾値と比較することによって、ＮＡＣＦの閾値を判断する。ノイズ抑圧器から求められるcurr nst snrの情報により、周期性決定閾値の新規な適応制御が得られる。このようにして、音声信号の分類プロセスにおいて、異なる周期性の閾値を異なるレベルのノイズ成分へ適用する。最も適切なnacf、すなわち音声信号のノイズレベルの周期性の閾値を各出力音声フレームごとに選択するとき、音声分類がより正確に決定される。音声信号に対する最も適切な周期性の閾値が判断されると、その音声信号に対する最良のパラメータ解析器を選択することができる。

ノイズを含まない音声信号とノイズを含む音声信号とは、周期性において本質的に異なる。ノイズがあるときは、音声は破損されている。音声が破損しているときは、ノイズのない音声信号よりも、周期性の測度、すなわちnacfは、より小さい。したがって、ノイズを含む信号環境を補償するために、nacfの閾値をより小さくし、ノイズを含まない信号の環境では大きくする。開示されている実施形態の新規な音声分類技術では、ノイズレベルに関係なく、全ての環境において周期性の閾値を固定せず、より正確で、かつロバストなモード決定を行う。

例示的な実施形態では、curr ns snrの値が、２５デシベルのＳＮＲの閾値以上であるときは、ノイズのない音声に対するnacfの閾値を適用する。表１には、ノイズのない音声に対するnacfの閾値の例が定められている。

例示的な実施形態では、curr ns snrの値が、２５デシベルのＳＮＲの閾値よりも小さいときは、ノイズを含む音声に対するnacfの閾値を適用する。表２には、ノイズを含む音声に対するnacfの閾値の例が定められている。

ノイズを含む音声は、ノイズを含まない音声にノイズを加えたものと同じである。ロバストな音声分類技術では、適応周期性閾値制御を使用すると、ノイズを含まない音声とノイズを含む音声とに対する分類決定が同じになる可能性は、以前に可能であったよりも、より高くなる。各フレームごとにnacfの閾値が設定されているときは、制御フローはステップ306へ進む。

ステップ306では、外部の構成要素から入力されるパラメータと、内部で生成されたパラメータとを解析して、音声モードを分類する。状態機械または信号環境にしたがって選択される他の解析方法へパラメータを適用する。例示的な実施形態では、外部の構成要素から入力されるパラメータと、内部で生成されるパラメータとを、状態に基づくモード決定プロセスに適用し、図４ａないし４ｃおよび５ａないし５ｃを参照して詳しく記載する。決定プロセスでは、音声モードを分類する。例示的な実施形態では、過渡部、上り過渡部、下り過渡部、有声音、無声音、または無音の音声モードを分類する。音声モード決定が行われれると、制御フローはステップ308へ進む。

ステップ308では、現在のフレームを構成している状態変数および種々のパラメータを更新する。例示的な実施形態では、vEav、vEprev、および現在のフレームの有声音の状態を更新する。次のフレームを分類するために、現在のフレームエネルギーＥ、nacf at pitch、および現在のフレームの音声モードを更新する。

各音声フレームごとに、ステップ300ないし308を繰返す。

図４ａないし４ｃは、ロバストな音声分類技術の例示的な実施形態のモード決定プロセスについての実施形態を示している。決定プロセスでは、音声フレームの周期性に基づいて、音声を分類するための状態機械を選択する。決定プロセスでは、各音声フレームごとに、音声フレームの周期性の測度、すなわちnaf at pitchの値を、図３のステップ304において設定されたＮＡＣＦの閾値と比較することによって、音声フレームの周期性、またはノイズ成分に最もコンパチブルな状態機械を選択する。モード決定プロセスは、音声フレームの周期性のレベルにより状態遷移を制限され、かつ制御され、よりロバストな分類が行われる。

図４ａは、vadが１であり（音声が活動状態である）、かつnacf at pitchの第３の値（すなわち、nacf at pitch[2]、ゼロ指標）が非常に大きい、すなわちVOICEDTHよりも大きいときに、例示的な実施形態において選択される状態機械についての１つの実施形態を示している。VOICEDTHは、図３のステップ304において定められている。図５ａは、各状態によって評価されるパラメータを示している。

初期状態は、無音である。vad＝０である（すなわち、音声が活動状態でない）ときは、前の状態に関わらず、現在のフレームは、常に無音であると分類される。

前の状態が無音であるときは、現在のフレームは、常に、無声音または上り過渡部の何れかであると分類される。nacf at pitch[3]が非常に小さく、zcrが大きく、bERが小さく、かつvERが非常に小さいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは無声音であると分類される。さもなければ、分類は、デフォルトで上り過渡部になる。

前の状態が無声音であるときは、現在のフレームは無声音または上り過渡部として分類される。nacfが非常に小さく、nacf at pitch[3]が非常に小さく、nacf at pitch[4]が非常に小さく、zcrが大きく、bERが小さく、vERが非常に小さく、かつEがvEprevよりも小さいか、またはこれらの条件の組合せが満たされるときは、現在のフレームは、そのまま無声音であると分類される。さもなければ、分類は、デフォルトで上り過渡部になる。

前の状態が有声音であるときは、現在のフレームは無声音、過渡部、下り過渡部、または有声音として分類される。vERが非常に小さく、かつEがvEprevよりも小さいときは、現在のフレームは無声音として分類される。nacf at pitch[1]およびnacf at pitch[3]が小さく、かつEがvEprevの２分の１よりも大きいか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部であると分類される。vERが非常に小さく、かつnacf at pitch[3]が中位の値であるときは、現在のフレームは下り過渡部であると分類される。さもなければ、現在の分類は、デフォルトで有声音になる。

前の状態が過渡部または上り過渡部であるときは、現在のフレームは、無声音、過渡部、または下り過渡部、または有声音として分類される。vERが非常に小さく、かつEがvEprevよりも小さいときは、現在のフレームは無声音として分類される。nacf at pitch[1]が小さく、nacf at pitch[3]が中位の値であり、nacf at pitch[4]が小さく、かつ前の状態が過渡部でないときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部として分類される。nacf at pitch[3]が中位の値であり、かつEがvEavの０．０５倍よりも小さいときは、現在のフレームは下り過渡部として分類される。さもなければ、現在の分類は、デフォルトで有声音になる。

前のフレームが下り過渡部であるときは、現在のフレームは無声音、過渡部、または下り過渡部として分類される。vERが非常に小さいときは、現在のフレームは無声音として分類される。EがvEprevよりも大きいときは、現在のフレームは過渡部として分類される。さもなければ、現在の分類は、下り過渡部のままである。

図４ｂは、vadが１であり（音声が活動状態である）、かつnacf at pitchの第３の値が非常に小さい、すなわちUNVOICEDTHよりも小さいときの、例示的な実施形態において選択される状態機械についての１つの実施形態を示している。図３のステップ304において、UNVOICEDTHが定められる。図５ｂは、各状態によって評価されるパラメータを示している。

初期状態は無音である。前の状態に関わらず、vad＝0である（すなわち、音声が活動状態である）ときは、現在のフレームは、常に無音として分類される。

前の状態が無音であるときは、現在のフレームは、無声音または上り過渡部の何れかとして分類される。nacf at pitch［2-4］が増加傾向を示し、nacf at pitch［3-4］が中位の値であり、zcrが非常に小さい値から中位の値であり、bERが大きく、かつvERが中位の値であるときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは、上り過渡部であると分類される。さもなければ、分類は、デフォルトで無声音になる。

前の状態が無声音であるときは、現在のフレームがは無声音または上り過渡部として分類される。nacf at pitch［2-4］が増加傾向を示し、nacf at pitch［3-4］が中位の値から非常に大きい値であり、zcrが非常に小さいか、または中位であり、vERが小さくなく、bERが大きく、reflが小さく、nacfが中位の値であり、かつEがvEprevよりも大きいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは、上り過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。さもなければ、分類は、デフォルトで無声音になる。

前の状態が無声音、上り過渡部、または過渡部であるときは、現在のフレームは無声音、過渡部、または下り過渡部として分類される。bERがゼロ以下であり、vERが非常に小さく、bERがゼロよりも大きく、かつEがvEprevよりも小さいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは無声音として分類される。bERがゼロよりも大きく、nacf at pitch［2-4］が増加傾向を示し、zcrが大きくなく、vERが小さくなく、reflが小さく、nacf at pitch［3］およびnacfが中位であり、かつbERがゼロ以下であるときか、またはこれらの条件のある特定の組合せが満たされるときは、現在のフレームは過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。bERがゼロよりも大きく、nacf at pitch［3］が中位であり、EがvEprevよりも小さく、zcrが大きくなく、かつvER2が−１５よりも小さいときは、現在のフレームは下り過渡部として分類される。

前のフレームが下り過渡部であるとき、現在のフレームは無声音、過渡部、または下り過渡部として分類される。nacf at pitch［2-4］が増加傾向を示し、nacf at pitch［3-4］が適度に大きく、vERが小さくなく、かつEがvEprevの２倍よりも大きいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部として分類される。vERが小さくなく、かつzcrが小さいときは、現在のフレームは下り過渡部として分類される。さもなければ、現在の分類は、デフォルトで無声音になる。

図４ｃは、vadが１であり（音声が活動状態であり）、かつnacf at pitchの第３の値（すなわち、nacf at pitch［3］）が中位であり、すなわちUNVOICEDTHよりも大きく、かつVOICEDTHよりも小さいときの、例示的な実施形態において選択される状態機械についての1つの実施形態を示している。UNVOICEDTHおよびVOICETHは、図３のステップ304において定められる。図５ｃは、各状態によって評価されるパラメータを示している。

初期状態は無音である。vad＝０（すなわち、音声は活動状態でない）であるときは、前の状態に関わらず、現在のフレームは、常に、無音として分類される。

前の状態が無音であるときは、現在のフレームは、無声音または上り過渡部の何れかとして分類される。nacf at pitch［2-4］が増加傾向を示し、nacf at pitch［3-4］が適度に大きく、zcrが大きくなく、bERが大きく、vERが中位の値であり、zcrが非常に小さく、かつEがvEprevの２倍よりも大きいときか、またはこれらの状態のある特定の組合せが満たされるときは、現在のフレームは上り過渡部として分類される。さもなければ、分類は、デフォルトで無声音になる。

前の状態が無声音であるときは、現在のフレームは無声音または上り過渡部として分類される。nacf at pitch［2-4］が増加傾向を示し、nacf at pitch［3-4］が中位から非常に大きい値であり、zcrが大きくなく、vERが小さくなく、bERが大きく、reflが小さく、EがvEprevよりも大きく、zcrが非常に小さく、nacf小さくなく、maxsfe idxが最後のサブフレームを示し、かつEがvEprevの２倍よりも大きいときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは上り過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。さもなければ、分類は、デフォルトで無声音になる。

前の状態が有声音、上り過渡部、または過渡部であるときは、現在のフレームは、無声音、有声音、過渡部、下り過渡部として分類される。bERがゼロ以下であり、vERが非常に小さく、EnextがEよりも小さく、nacf at pitch[3-4]が非常に小さく、bERがゼロよりも大きく、かつEがvEprevよりも小さいときか、またはこれらの条件のある特定の組合せが満たされるときは、現在のフレームは無声音として分類される。bERがゼロよりも大きく、nacf at pitch［2-4］が増加傾向を示し、zcrが大きくなく、vERが小さくなく、reflが小さく、かつnacf at pitch［3］およびnacfが小さくないときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは過渡部として分類される。これらの条件の組合せおよび閾値は、パラメータcurr ns snrにおいて反映される音声フレームのノイズレベルに依存して変化する。bERがゼロよりも大きく、nacf at pitch［3］が大きくなく、EがvEprevよりも小さく、zcrが大きくなく、vERが−１５よりも小さく、かつvER2が−１５よりも小さいか、またはこれらの条件の組合せが満たされるときは、現在のフレームは下り過渡部として分類される。nacf at pitch［2］がLOWVOICEDTHよりも大きく、bERがゼロ以上であり、かつvERが小さくないときか、またはこれらの条件の組合せが満たされるときは、現在のフレームは有声音として分類される。

現在のフレームが下り過渡部であるときは、現在のフレームは、無声音、過渡部、または下り過渡部として分類される。bERがゼロよりも大きく、nacf at pitch［2-4］が増加傾向を示し、nacf at pitch［3-4］が適度に大きく、vERが小さくなく、かつEがvEprevの２倍よりも大きいときか、またはこれらの状態のある特定の組合せが満たされるときは、現在のフレームは過渡部として分類される。vERが小さくなく、かつzcrが小さいときは、現在のフレームは下り過渡部として分類される。さもなければ、現在の分類は、デフォルトで無声音になる。

図５ａないし５ｃは、音声分類についての開示されている実施形態によって使用される決定表についての実施形態である。

図５ａは、１つの実施形態にしたがって、nacf at pitchの第３の値（すなわち、nacf at pitch［2］）が非常に大きい、すなわちVOICEDTHよりも大きいときに、各状態によって評価されるパラメータと、状態遷移とを示している。図５ａに示されている決定表は、図４ａに示されている状態機械によって使用される。前の音声フレームの音声モードの分類は、最左列に示されている。パラメータが、各前のモードと関係付けられている列に示されているように評価されるとき、音声モードの分類は、関係付けられている列の最上行において識別されている現在のモードへ遷移する。

図５ｂは、１つの実施形態にしたがって、第３の値（nacf at pitch［2］）が非常に小さい、すなわちUNVOICEDTHよりも小さいときの、各状態によって評価されるパラメータと、状態遷移とを示している。図５ｂに示されている決定表は、図４ｂに示されている状態機械によって使用される。前の音声フレームの音声モードの分類は、最左列に示されている。パラメータが、各前のモードと関係付けられている行に示されているように評価されるとき、音声モードの分類は、関係付けられている列の最上行において識別されている現在のモードへ遷移する。

図５ｃは、１つの実施形態にしたがって、nacf at pitchの第３の値（すなわち、nacf at pitch［3］）が中位であり、すなわちUNVOICEDTHよりも大きいが、VOITHEDTHよりも小さいときに、各状態によって評価されるパラメータと、状態遷移とを示している。図５ｃに示されている決定表は、図４ｃに示されている状態機械によって使用される。前の音声フレームの音声モードの分類は、最左列に示されている。パラメータが、各前のモードと関係付けられている列に示されているように評価されるときは、音声モードの分類は、関係付けられている列の最上行において識別されている現在のモードへ遷移する。

図６は、音声信号の、関係付けられているパラメータ値と音声分類とについての例示的な実施形態の時間線のグラフである。

当業者には、音声分類器は、ＤＳＰ、ＡＳＩＣ、ディスクリートなゲート論理、ファームウエアまたは従来のプログラマブルソフトウエアモジュール、およびマイクロプロセッサで構成されていてもよいことが分かるであろう。ソフトウエアモジュールは、ＲＡＭメモリ、フラッシュメモリ、レジスタ、またはこの技術において知られている他の形態の書込み可能なメモリ媒体内にあってもよい。その代わりに、マイクロプロセッサを、従来のプロセッサ、制御装置、または状態機械に置換してもよい。

好ましい実施形態についてのこれまでの説明は、当業者が本発明を作成または使用できるように与えられている。これらの実施形態に対する種々の変更は、当業者には容易に明らかであり、本明細書において定義されている全体的な原理は、発明の能力を使用することなく、他の実施形態に適用してもよい。したがって、本発明は、本明細書に示されている実施形態に制限されることを意図されずに、本明細書に開示されている原理および新規な特徴にしたがう最も広い範囲にしたがうことを意図される。なお、本願の出願当初の請求項をその他の実施例として下記に付記する。
[その他の実施例１]
音声分類方法であって、
外部の構成要素から音声分類器へ分類パラメータを入力することと、
音声分類器において、入力パラメータの少なくとも１つから、内部分類パラメータを生成することと、
正規化された自己相関係数の関数の閾値を設定して、信号環境にしたがってパラメータ解析器を選択することと、
入力パラメータおよび内部パラメータを解析して、音声モードの分類を生成することとが含まれる音声分類方法。
[その他の実施例２]
入力パラメータには、ノイズを抑圧された音声信号が含まれるその他の実施例１記載の方法。
[その他の実施例３]
入力パラメータには、ノイズを抑圧された音声信号のための信号対雑音比の情報が含まれるその他の実施例１記載の方法。
[その他の実施例４]
入力パラメータには、音声活動情報が含まれるその他の実施例１記載の方法。
[その他の実施例５]
入力パラメータには、線形予測反射係数が含まれるその他の実施例１記載の方法。
[その他の実施例６]
入力パラメータには、正規化された自己相関係数の関数の情報が含まれるその他の実施例１記載の方法。
[その他の実施例７]
入力パラメータには、ピッチ情報における正規化された自己相関係数の関数が含まれるその他の実施例１記載の方法。
[その他の実施例８]
ピッチ情報における正規化された自己相関係数の関数は、値の配列であるその他の実施例７記載の方法。
[その他の実施例９]
内部パラメータには、ゼロ交差レートのパラメータが含まれるその他の実施例１記載の方法。
[その他の実施例１０]
内部パラメータには、現在のフレームのエネルギーのパラメータが含まれるその他の実施例１記載の方法。
[その他の実施例１１]
内部パラメータには、予見フレームのエネルギーのパラメータが含まれるその他の実施例１記載の方法。
[その他の実施例１２]
内部パラメータには、帯域エネルギー比のパラメータが含まれるその他の実施例１記載の方法。
[その他の実施例１３]
内部パラメータには、３つのフレームの平均の有声音のエネルギーのパラメータが含まれるその他の実施例１記載の方法。
[その他の実施例１４]
内部パラメータには、前の３つのフレームの平均の有声音のエネルギーのパラメータが含まれるその他の実施例１記載の方法。
[その他の実施例１５]
内部パラメータには、現在のフレームのエネルギー対前の３つのフレームの平均の有声音のエネルギーの比のパラメータが含まれるその他の実施例１記載の方法。
[その他の実施例１６]
内部パラメータには、現在のフレームのエネルギー対３つのフレームの平均の有声音のエネルギーの比のパラメータが含まれるその他の実施例１記載の方法。
[その他の実施例１７]
内部パラメータには、最大のサブフレームのエネルギーの指標のパラメータが含まれるその他の実施例１記載の方法。
[その他の実施例１８]
正規化された自己相関係数の関数の閾値を設定することには、信号対雑音比の情報のパラメータと、所定の信号対雑音比の値とを比較することが含まれるその他の実施例１記載の方法。
[その他の実施例１９]
解析することには、パラメータを状態機械に適用することが含まれるその他の実施例１記載の方法。
[その他の実施例２０]
状態機械には、各音声分類モードの状態が含まれるその他の実施例１９記載の方法。
[その他の実施例２１]
音声モード分類には、過渡部モードが含まれるその他の実施例１記載の方法。
[その他の実施例２２]
音声モード分類には、上り過渡部モードが含まれるその他の実施例１記載の方法。
[その他の実施例２３]
音声モード分類には、下り過渡部モードが含まれるその他の実施例１記載の方法。
[その他の実施例２４]
音声モード分類には、有声音モードが含まれるその他の実施例１記載の方法。
[その他の実施例２５]
音声モード分類には、無声音モードが含まれるその他の実施例１記載の方法。
[その他の実施例２６]
音声モード分類には、無音モードが含まれるその他の実施例１記載の方法。
[その他の実施例２７]
少なくとも１つのパラメータを更新することがさらに含まれるその他の実施例１記載の方法。
[その他の実施例２８]
更新パラメータには、ピッチパラメータにおける正規化された自己相関係数の関数が含まれるその他の実施例２７記載の方法。
[その他の実施例２９]
更新パラメータには、３つのフレームの平均の有声音のエネルギーのパラメータが含まれるその他の実施例２７記載の方法。
[その他の実施例３０]
更新パラメータには、予見フレームのエネルギーのパラメータが含まれるその他の実施例２７記載の方法。
[その他の実施例３１]
更新パラメータには、前の３つのフレームの平均の有声音のエネルギーのパラメータが含まれるその他の実施例２７記載の方法。
[その他の実施例３２]
更新パラメータには、音声活動検出のパラメータが含まれるその他の実施例２７記載の方法。
[その他の実施例３３]
音声分類器であって、
分類パラメータを生成するための生成器と、
正規化された自己相関係数の関数の閾値を設定し、かつ信号環境にしたがってパラメータ解析器を選択するための正規化された自己相関係数の関数の閾値の生成器と、
少なくとも１つの外部入力パラメータと内部パラメータとを解析して、音声モードを分類するためのパラメータ解析器とが構成されている音声分類器。
[その他の実施例３４]
分類パラメータを生成するための生成器が、ノイズを抑圧された音声信号からパラメータを生成するその他の実施例３３記載の音声分類器。
[その他の実施例３５]
分類パラメータを生成するための生成器が、信号対雑音比の情報からパラメータを生成するその他の実施例３３記載の音声分類器。
[その他の実施例３６]
分類パラメータを生成するための生成器が、音声活動情報からパラメータを生成するその他の実施例３３記載の音声分類器。
[その他の実施例３７]
分類パラメータを生成するための生成器が、線形予測反射係数からパラメータを生成するその他の実施例３３記載の音声分類器。
[その他の実施例３８]
分類パラメータを生成するための生成器が、正規化された自己相関係数の関数の情報からのパラメータを生成するその他の実施例３３記載の音声分類器。
[その他の実施例３９]
分類パラメータを生成するための生成器が、ピッチ情報における正規化された自己相関係数の関数の情報からパラメータを生成するその他の実施例３３記載の音声分類器。
[その他の実施例４０]
ピッチ情報における正規化された自己相関係数の関数が、値の配列であるその他の実施例３９記載の音声分類器。
[その他の実施例４１]
生成されたパラメータには、ゼロ交差レートのパラメータが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例４２]
生成されるパラメータには、現在のフレームのエネルギーのパラメータが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例４３]
生成されるパラメータには、予見フレームのエネルギーのパラメータが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例４４]
生成されるパラメータには、帯域エネルギー比のパラメータが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例４５]
生成されるパラメータには、３つのフレームの平均の有声音のエネルギーのパラメータが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例４６]
生成されるパラメータには、前の３つのフレームの平均の有声音のエネルギーのパラメータが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例４７]
生成されるパラメータには、現在のフレームのエネルギー対前の３つのフレームの平均の有声音のエネルギーの比のパラメータが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例４８]
生成されるパラメータには、現在のフレームのエネルギー対３つのフレームの平均の有声音のエネルギーの比のパラメータが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例４９]
生成されるパラメータには、最大のサブフレームのエネルギー指標のパラメータが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例５０]
正規化された自己相関係数の関数の閾値を設定することには、信号対雑音比の情報のパラメータと、所定の信号対雑音比の値とを比較することが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例５１]
解析することには、パラメータを状態機械へ適用することが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例５２]
状態機械には、各音声分類モードの状態が含まれるその他の実施例５１記載の音声分類器。
[その他の実施例５３]
音声モードの分類には、過渡部モードが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例５４]
音声モードの分類には、上り過渡部モードが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例５５]
音声モードの分類には、下り過渡部モードが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例５６]
音声モードの分類には、有声音モードが含まれるその他の実施例３３記載の音声分類。
[その他の実施例５７]
音声モードの分類には、無声音モードが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例５８]
音声モードの分類には、無音モードが含まれるその他の実施例３３記載の音声分類器。
[その他の実施例５９]
少なくとも１つのパラメータを更新することがさらに含まれるその他の実施例３３記載の音声分類器。
[その他の実施例６０]
更新パラメータには、ピッチパラメータにおける正規化された自己相関係数の関数が含まれるその他の実施例５９記載の音声分類器。
[その他の実施例６１]
更新パラメータには、３つのフレームの平均の有声音のエネルギーのパラメータが含まれるその他の実施例５９記載の音声分類器。
[その他の実施例６２]
更新パラメータには、予見フレームのエネルギーのパラメータが含まれるその他の実施例５９記載の音声分類器。
[その他の実施例６３]
更新パラメータには、前の３つのフレームの平均の有声音のエネルギーのパラメータが含まれるその他の実施例５９記載の音声分類器。
[その他の実施例６４]
更新パラメータには、音声活動検出のパラメータが含まれるその他の実施例５９記載の音声分類器。

Claims

各音声フレームの音声モードの分類を生成するために音声フレーム周期毎に下記ステップを周期的に実行する音声分類方法：
音声分類器の前段に配置された外部の構成要素から前記音声分類器へ現在の音声フレーム周期に関する分類パラメータを入力すること、ここで、前記分類パラメータは前記音声フレームを構成する入力された音声サンプル系列について計算された正規化された自己相関係数の関数（ＮＡＣＦ）のピッチ周期における値および信号対雑音比（ＳＮＲ）情報を含み、前記ＮＡＣＦの前記ピッチ周期における値は前記音声サンプル系列の周期性の測度である；
前記音声分類器において、前記分類パラメータの少なくとも１つから、前記現在の音声フレーム周期に関する内部パラメータを生成すること；
前記ＮＡＣＦの閾値を設定して、信号環境にしたがってパラメータ解析器を選択すること、ここで、前記閾値を設定することは前記信号対雑音比（ＳＮＲ）情報の値がノイズの有る音声環境に対応するか、またはノイズの無い音声環境に対応するかに応じて前記閾値に対して異なる値を設定することを含む；および、
前記分類パラメータおよび前記内部パラメータを解析して、有声音、過渡音、および無声音を含む音声モードの分類を生成すること、ここにおいて、前記解析することは、前記ピッチ周期におけるＮＡＣＦの値をＮＡＣＦの前記閾値と比較することにより複数の内部状態の中から前記音声サンプル系列の周期性に最も適合した１つの内部状態を選択し、前記選択された１つの内部状態に前記分類パラメータおよび内部パラメータを適用することを含む、
ここで、前記パラメータ解析器を選択することは、前記ＮＡＣＦの前記ピッチ周期における値を前記閾値と比較し、前記音声サンプル系列の前記周期性に最も適合した前記パラメータ解析器を選択することを含み、前記パラメータ解析器は、各々が分類される各音声モードに対応する複数の内部状態を有し、前記分類パラメータと前記内部パラメータの値および以前の音声フレーム周期において選択された内部状態に基づいて前記現在の音声フレーム周期における前記音声モードの分類を生成する状態機械である、ここにおいて、前記内部状態は、音声の前の状態が有声音、無声音、無音、過渡部またはそれらの組み合わせであることを含む。
前記分類パラメータには、ノイズを抑圧された音声信号が含まれる請求項１記載の方法。
前記分類パラメータには、ノイズを抑圧された音声信号のための信号対雑音比（ＳＮＲ）情報が含まれる請求項１記載の方法。
前記分類パラメータには、音声活動情報が含まれる請求項１記載の方法。
前記分類パラメータには、線形予測反射係数が含まれる請求項１記載の方法。
前記分類パラメータには、正規化された自己相関係数の関数の情報が含まれる請求項１記載の方法。
前記分類パラメータには、正規化された自己相関係数の関数（ＮＡＣＦ）値および前記ＮＡＣＦの周囲のピッチ情報が含まれる請求項１記載の方法。
前記正規化された自己相関係数の関数（ＮＡＣＦ）値および前記ＮＡＣＦの周囲のピッチ情報は、複数の値の配列である請求項７記載の方法。
前記内部パラメータには、ゼロ交差レートのパラメータが含まれる請求項１記載の方法。
前記内部パラメータには、現在のフレームのエネルギーのパラメータが含まれる請求項１記載の方法。
前記内部パラメータには、予見フレームのエネルギーのパラメータが含まれる請求項１記載の方法。
前記内部パラメータには、帯域エネルギー比のパラメータが含まれる請求項１記載の方法。
前記内部パラメータには、３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項１記載の方法。
前記内部パラメータには、前の３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項１記載の方法。
前記内部パラメータには、現在のフレームのエネルギー対前の３つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項１記載の方法。
前記内部パラメータには、現在のフレームのエネルギー対３つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項１記載の方法。
前記内部パラメータには、最大のサブフレームのエネルギーの指標のパラメータが含まれる請求項１記載の方法。
前記音声モードの分類には、過渡部モードが含まれる請求項１記載の方法。
前記音声モードの分類には、上り過渡部モードが含まれる請求項１記載の方法。
前記音声モードの分類には、下り過渡部モードが含まれる請求項１記載の方法。
前記音声モードの分類には、有声音モードが含まれる請求項１記載の方法。
前記音声モードの分類には、無声音モードが含まれる請求項１記載の方法。
前記音声モードの分類には、無音モードが含まれる請求項１記載の方法。
少なくとも１つのパラメータを更新することがさらに含まれる請求項１記載の方法。
更新されるパラメータには、正規化された自己相関係数の関数（ＮＡＣＦ）値および前記ＮＡＣＦの周囲のピッチパラメータが含まれる請求項２４記載の方法。
更新されるパラメータには、３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項２４記載の方法。
更新されるパラメータには、予見フレームのエネルギーのパラメータが含まれる請求項２４記載の方法。
更新されるパラメータには、前の３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項２４記載の方法。
更新されるパラメータには、音声活動検出のパラメータが含まれる請求項２４記載の方法。
各音声フレームの音声モードの分類を生成するために音声フレーム周期毎に音声モードの分類生成を周期的に実行する音声分類器、該音声分類器は下記を備える：
現在の音声フレーム周期に関する分類パラメータを生成するための生成器、ここで前記分類パラメータは前記音声フレームを構成する入力された音声サンプル系列について計算された正規化された自己相関係数の関数（ＮＡＣＦ）のピッチ周期における値および信号対雑音比（ＳＮＲ）情報を含み、前記ＮＡＣＦの前記ピッチ周期における値は前記音声サンプル系列の周期性の測度である；
前記ＮＡＣＦの閾値を設定し、かつ信号環境にしたがってパラメータ解析器を選択するための前記ＮＡＣＦの閾値の生成器、ここで、前記閾値を前記設定することは前記信号対雑音比（ＳＮＲ）情報の値がノイズの有る音声環境に対応するか、またはノイズの無い音声環境に対応するかに応じて前記閾値に対して異なる値を設定することを含む；
前記分類パラメータと前記分類パラメータから生成された前記現在の音声フレーム周期に関する内部パラメータとを解析して、有声音、過渡音、および無声音を含む音声モードの分類を生成するためのパラメータ解析器、ここにおいて、前記パラメータ解析器は、前記ピッチ周期におけるＮＡＣＦの値をＮＡＣＦの前記閾値と比較することにより複数の内部状態の中から前記音声サンプル系列の周期性に最も適合した１つの内部状態を選択し、前記選択された１つの内部状態に前記分類パラメータおよび内部パラメータを適用するパラメータ解析器を含む、
ここで、前記パラメータ解析器は、前記ＮＡＣＦの前記ピッチ周期における値と前記ＮＡＣＦの閾値との比較に応じて前記音声サンプル系列の前記周期性に最も適合するものとして複数のパラメータ解析器の中から選択された１つのパラメータ解析器であり、
前記パラメータ解析器は、各々が分類される各音声モードに対応する複数の内部状態を有し、前記分類パラメータと前記内部パラメータの値および以前の音声フレーム周期において選択された内部状態に基づいて前記現在の音声フレーム周期における前記音声モードの分類を生成する状態機械である、ここにおいて、前記内部状態は、音声の前の状態が有声音、無声音、無音、過渡部またはそれらの組み合わせであることを含む。
前記分類パラメータを生成するための生成器が、ノイズを抑圧された音声信号からパラメータを生成する請求項３０記載の音声分類器。
前記分類パラメータを生成するための生成器が、前記信号対雑音比（ＳＮＲ）情報からパラメータを生成する請求項３０記載の音声分類器。
前記分類パラメータを生成するための生成器が、音声活動情報からパラメータを生成する請求項３０記載の音声分類器。
前記分類パラメータを生成するための生成器が、線形予測反射係数からパラメータを生成する請求項３０記載の音声分類器。
前記分類パラメータを生成するための生成器が、正規化された自己相関係数の関数の情報からパラメータを生成する請求項３０記載の音声分類器。
前記分類パラメータを生成するための生成器が、正規化された自己相関係数の関数（ＮＡＣＦ）値および前記ＮＡＣＦの周囲のピッチ情報からパラメータを生成する請求項３０記載の音声分類器。
前記正規化された自己相関係数の関数（ＮＡＣＦ）値および前記ＮＡＣＦの周囲のピッチ情報が、複数の値の配列である請求項３６記載の音声分類器。
生成された内部パラメータには、ゼロ交差レートのパラメータが含まれる請求項３０記載の音声分類器。
生成される内部パラメータには、現在のフレームのエネルギーのパラメータが含まれる請求項３０記載の音声分類器。
生成される内部パラメータには、予見フレームのエネルギーのパラメータが含まれる請求項３０記載の音声分類器。
生成される内部パラメータには、帯域エネルギー比のパラメータが含まれる請求項３０記載の音声分類器。
生成される内部パラメータには、３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項３０記載の音声分類器。
生成される内部パラメータには、前の３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項３０記載の音声分類器。
生成される内部パラメータには、現在のフレームのエネルギー対前の３つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項３０記載の音声分類器。
生成される内部パラメータには、現在のフレームのエネルギー対３つのフレームの平均の有声音のエネルギーの比のパラメータが含まれる請求項３０記載の音声分類器。
生成される内部パラメータには、最大のサブフレームのエネルギー指標のパラメータが含まれる請求項３０記載の音声分類器。
前記音声モードの分類には、過渡部モードが含まれる請求項３０記載の音声分類器。
前記音声モードの分類には、上り過渡部モードが含まれる請求項３０記載の音声分類器。
前記音声モードの分類には、下り過渡部モードが含まれる請求項３０記載の音声分類器。
前記音声モードの分類には、有声音モードが含まれる請求項３０記載の音声分類。
前記音声モードの分類には、無声音モードが含まれる請求項３０記載の音声分類器。
前記音声モードの分類には、無音モードが含まれる請求項３０記載の音声分類器。
少なくとも１つのパラメータを更新することがさらに含まれる請求項３０記載の音声分類器。
更新されるパラメータには、ピッチパラメータにおける正規化された自己相関係数の関数が含まれる請求項５３記載の音声分類器。
更新されるパラメータには、３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項５３記載の音声分類器。
更新されるパラメータには、予見フレームのエネルギーのパラメータが含まれる請求項５３記載の音声分類器。
更新されるパラメータには、前の３つのフレームの平均の有声音のエネルギーのパラメータが含まれる請求項５３記載の音声分類器。
更新されるパラメータには、音声活動検出のパラメータが含まれる請求項５３記載の音声分類器。
各音声フレームに関して音声モードの分類を生成するための音声分類器、該音声分類器は下記を備える：
音声分類器の前段に配置された外部の構成要素から前記音声分類器へ現在の音声フレーム周期に関する分類パラメータを入力する手段、ここで、前記分類パラメータは前記音声フレームを構成する入力された音声サンプル系列について計算された正規化された自己相関係数の関数（ＮＡＣＦ）のピッチ周期における値および信号対雑音比（ＳＮＲ）情報を含み、前記ＮＡＣＦの前記ピッチ周期における値は前記音声サンプル系列の周期性の測度である；
前記音声分類器において、前記分類パラメータの少なくとも１つから、前記現在の音声フレーム周期に関する内部パラメータを生成する手段；
前記ＮＡＣＦの閾値を設定して、信号環境にしたがってパラメータ解析器を選択する手段、ここで、前記閾値を設定することは前記信号対雑音比（ＳＮＲ）情報の値がノイズの有る音声環境に対応するか、またはノイズの無い音声環境に対応するかに応じて前記閾値に対して異なる値を設定することを含む；および、
前記分類パラメータおよび前記内部パラメータを解析して、有声音、過渡音、および無声音を含む音声モードの分類を生成する手段、ここにおいて、前記解析する手段は、前記ピッチ周期におけるＮＡＣＦの値をＮＡＣＦの前記閾値と比較することにより複数の内部状態の中から前記音声サンプル系列の周期性に最も適合した１つの内部状態を選択し、前記選択された１つの内部状態に前記分類パラメータおよび内部パラメータを適用する手段を含む、
ここで、前記解析することは、前記ＮＡＣＦの前記ピッチ周期における値を前記閾値と比較し、前記音声サンプル系列の周期性に最も適合した前記パラメータ解析器を選択することを含み、
前記パラメータ解析器は、各々が分類される各音声モードに対応する複数の内部状態を有し、前記分類パラメータと前記内部パラメータの値および以前の音声フレーム周期において選択された内部状態に基づいて前記現在の音声フレーム周期における前記音声モードの分類を生成する状態機械である、ここにおいて、前記内部状態は、音声の前の状態が有声音、無声音、無音、過渡部またはそれらの組み合わせであることを含む。
各音声フレームに関して音声モードの分類を生成するための下記手順を実行可能な命令が記録されたコンピュータ読み出し可能記録媒体：
音声分類器の前段に配置された外部の構成要素から前記音声分類器へ現在の音声フレーム周期に関する分類パラメータを入力すること、ここで、前記分類パラメータは前記音声フレームを構成する入力された音声サンプル系列について計算された正規化された自己相関係数の関数（ＮＡＣＦ）のピッチ周期における値および信号対雑音比（ＳＮＲ）情報を含み、前記ＮＡＣＦの前記ピッチ周期における値は前記音声サンプル系列の周期性の測度である；
前記音声分類器において、前記分類パラメータの少なくとも１つから、前記現在の音声フレーム周期に関する内部パラメータを生成すること；
前記ＮＡＣＦの閾値を設定して、信号環境にしたがってパラメータ解析器を選択すること、ここで、前記閾値を設定することは前記信号対雑音比（ＳＮＲ）情報の値がノイズの有る音声環境に対応するか、またはノイズの無い音声環境に対応するかに応じて前記閾値に対して異なる値を設定することを含む；および、
前記分類パラメータおよび前記内部パラメータを解析して、有声音、過渡音、および無声音を含む音声モードの分類を生成すること、ここにおいて、前記解析することは、前記ピッチ周期におけるＮＡＣＦの値を正規化されたＮＡＣＦの前記閾値と比較することにより複数の内部状態の中から前記音声サンプル系列の周期性に最も適合した１つの内部状態を選択し、前記選択された１つの内部状態に前記分類パラメータおよび内部パラメータを適用することを含む、
ここで、前記パラメータ解析器を選択することは、前記ＮＡＣＦの前記ピッチ周期における値を前記閾値と比較し、前記音声サンプル系列の周期性に最も適合した前記パラメータ解析器を選択することを含み、
前記パラメータ解析器は、各々が分類される各音声モードに対応する複数の内部状態を有し、前記分類パラメータと前記内部パラメータの値および以前の音声フレーム周期において選択された内部状態に基づいて前記現在の音声フレーム周期における前記音声モードの分類を生成する状態機械である、ここにおいて、前記内部状態は、音声の前の状態が有声音、無声音、無音、過渡部またはそれらの組み合わせであることを含む。