JP4755585B2

JP4755585B2 - 音声信号に関する周波数領域および時間領域の複合ピッチ抽出のための方法、分散音声認識システム及びコンピュータ可読媒体

Info

Publication number: JP4755585B2
Application number: JP2006509610A
Authority: JP
Inventors: ラマバドラン、テンカシ、ヴィー; ソリン、アレクサンダー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-03-31
Filing date: 2004-03-31
Publication date: 2011-08-24
Anticipated expiration: 2024-03-31
Also published as: CN1826632A; KR100773000B1; JP2006523331A; EP1620844B1; WO2004095420A2; TW200509065A; EP1620844A4; WO2004095420A3; WO2004090865A2; CN100589178C; US20040193407A1; EP1620844A2; WO2004090865A3; US6988064B2; KR20050120696A; TWI322410B

Description

本発明は一般に、音声処理システム、たとえば、音声符号化および音声認識システムの分野に関し、詳細には、狭帯域幅通信およびワイヤレス通信用の分散音声認識システムに関する。

携帯電話およびワイヤレス通信装置の出現により、ワイヤレス・サービス業界は、数十億ドル規模の業界に成長した。ワイヤレス・サービス・プロバイダ（ＷＳＰ）の収益の大部分は加入によって生じるものである。このため、成功したネットワークを運営するＷＳＰの能力は、限られた帯域幅を有するネットワークにより加入者に提供されるサービスの品質に依存する。このために、ＷＳＰは、加入者に対する高品質のサービスを維持しながらネットワークにより伝送される情報の量を軽減するための方法を絶えず捜している。

最近、音声認識はワイヤレス・サービス業界での成功を享受している。音声認識は様々な適用業務およびサービスで使用されている。たとえば、ワイヤレス・サービス加入者には短縮ダイヤル機能を提供することができ、それにより加入者はワイヤレス装置に対して呼出しの受信者の名前を話しかける。受信者の名前は音声認識を使用して認識され、加入者と受信者との間で呼出しが開始される。もう１つの例では、発呼者情報（４１１）は音声認識を使用して、加入者が電話をかけようとしている受信者の名前を認識することができる。

音声認識がワイヤレス社会で受け入れられるにつれて、分散音声認識（ＤＳＲ）が新生技術として現れてきた。ＤＳＲは、音声認識システムの特徴抽出部分とパターン認識部分が分散されているフレームワークを指す。すなわち、音声認識システムの特徴抽出部分とパターン認識部分はそれぞれ異なった位置で異なった処理装置によって実行される。具体的には、特徴抽出プロセスはフロントエンドで、すなわち、ワイヤレス装置上で実行され、パターン認識プロセスはバックエンドで、すなわち、ワイヤレス・サービス・プロバイダ・システムによって実行される。ＤＳＲにより、ワイヤレス装置は、口頭のフライト情報による自動航空機予約または同様の特徴を備えた仲介取引などのより複雑な音声認識タスクを処理することができる。

欧州電気通信標準化機構（ＥＴＳＩ）は、ＤＳＲに関する１組の規格を発行している。ＥＴＳＩＤＳＲ規格ＥＳ２０１１０８（２０００年４月）およびＥＳ２０２０５０（２００２年７月）は、フロントエンドにおける特徴抽出および圧縮アルゴリズムを定義している。しかし、これらの規格は、適用業務によっては重要である可能性のあるバックエンドにおける音声再構築を採り入れていない。この結果、上記の規格（ＥＳ２０１１０８およびＥＳ２０２０５０）を拡張して、バックエンドにおける音声再構築ならびに声調言語認識を含めるために、新しい作業項目ＷＩ−０３０およびＷＩ−０３４がＥＴＳＩによって発表されている。

現在のＤＳＲ規格では、抽出され、圧縮され、バックエンドに伝送される特徴は、１３個のメル周波数ケプストラム係数（ＭＦＣＣ）Ｃ０〜Ｃ１２と、フレームエネルギの対数ｌｏｇ−Ｅである。これらの特徴は、１０ｍｓごとに、すなわち毎秒１００回ずつ更新される。拡張された規格に関する提案（すなわち、上述の作業項目）では、ピッチおよびクラス（または発声）情報も各フレームごとに導出され、ＭＦＣＣおよびｌｏｇ−Ｅに加えて伝送されることが意図されている。しかし、ピッチ情報抽出方法は依然として現在のＤＳＲ規格の拡張部分で定義すべきものである。

時間領域方法または周波数領域方法のいずれかを使用してピッチ推定するために様々な技法が使用されてきた。比較的短いフレーム内の有声音を表す音声信号が周期信号によって近似できることは周知のことである。この周期性は、周期サイクル持続時間（ピッチ周期）Ｔによって、または基本周波数Ｆ０と呼ばれるその逆数によって特徴付けられる。無声音は非周期音声信号によって表される。標準的なボコーダ、たとえば、ＬＰＣ−１０ボコーダおよびＭＥＬＰ（混合励起線形予測）ボコーダでは、ピッチ抽出のために時間領域方法が一般的に使用されてきた。また、時間領域ピッチ推定のための一般的な方法では、時間ｔを中心とする信号セグメントと時間ｔ−Ｔを中心とする信号セグメントとの相互相関を最大にするピッチ周期Ｔを探し求める相関タイプの方式も使用する。時間領域方法を使用するピッチ推定は、関連する複雑度および暗騒音条件に応じて、成功度が変化していた。一般に、このような時間領域方法は、所与の時間ウィンドウ内に多くのピッチ周期が含まれるため、高ピッチ音の方が良好である傾向がある。
米国特許出願第０９／６１７５８２号ＥＴＳＩＤＳＲ規格ＥＳ２０１１０８ＥＴＳＩＤＳＲ規格ＥＳ２０２０５０１９９１年１月発行のＩＥＥＥＴｒａｎｓ．Ａｃｏｕｔｓ．、ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇの第３９巻、４０〜４８ページに掲載されたＹ．Ｍｅｄａｎ、Ｅ．Ｙａｉｒ、およびＤ．Ｃｈａｚａｎによる「Ｓｕｐｅｒｒｅｓｏｌｕｔｉｏｎｐｉｔｃｈｄｅｔｅｒｍｉｎａｔｉｏｎｏｆｓｐｅｅｃｈｓｉｇｎａｌｓ」

周知の通り、無限周期信号のフーリエ・スペクトルは、基本周波数の倍数に位置するインパルス（高調波、線）の列である。その結果として、周波数領域ピッチ推定は概して、スペクトル・ピークの位置および振幅の分析に基づくものになる。基本周波数探索に関する（すなわち、ピッチの推定に関する）基準は、基本周波数値とスペクトル・ピークとの高レベルの互換性である。一般に、周波数領域方法は、分析帯域幅内に概して多数の高調波があるため、低ピッチ周波数音のピッチ推定の方が良好である傾向がある。周波数領域方法はスペクトル全体ではなくスペクトル・ピークを分析するので、音声信号内に存在する情報は、音声サンプルの基本周波数を推定するために部分的にのみ使用される。これは、周波数領域方法の利点および欠点のいずれにとっても１つの根拠になる。その利点は、正確な周期モデルからの実音声データの偏差に関する潜在的許容度、ノイズに対するロバスト性、計算の複雑度の低減に関する相対的有効性である。しかし、スペクトル情報の一部のみがテストされるので、この探索基準は十分な条件と見なすことができない。ピッチ抽出のための既知の周波数領域方法は概してスペクトル内の高調波ピークに関する情報のみを使用するので、これらの既知の周波数領域方法を単独で使用すると、ピッチ推定値はＤＳＲ適用業務には受け入れられない精度やエラーが発生しやすくなる。

簡潔に言えば、本発明の好ましい諸実施形態により、オーディオ信号に関連するピッチ情報を抽出するためのシステム、方法、およびコンピュータ可読媒体が開示される。本発明の好ましい一実施形態によれば、周波数領域方法と時間領域方法の組合せは、携帯電話または双方向無線機などのワイヤレス装置に関する低処理複雑度を維持しながら、オーディオ信号のフレームを収集し、そのオーディオ信号のフレームのそれぞれに関するピッチ情報を正確に抽出するように機能する。

本発明の好ましい一実施形態は分散音声認識システムで実施される。

さらに、好ましい一実施形態は、音声オーディオ信号に関連する音声符号化を使用する任意の情報処理システムで実施することができる。

本発明の一実施形態では、ピッチ抽出器は、装置またはシステムによって処理されるオーディオ信号のピッチ情報を抽出する。この装置またはシステムは、たとえば、オーディオ信号を受信するためのマイクロホンを含む。ピッチ抽出器は、受信したオーディオ信号に対応するピッチ情報を抽出する。

本発明の好ましい諸実施形態は、音声信号のピッチ情報を正確に抽出し、それにより通信品質を高めながら、処理性能を改善する働きをするので、有利である。また、改善された処理性能は、本発明の好ましい一実施形態を実現するバッテリ作動装置のバッテリ寿命も延長する。

添付図面では同様の参照番号は別々の図全体を通して同一または機能的に同様の要素を指し、添付図面は、以下の詳細な説明とともに本明細書に組み込まれ、本明細書の一部を形成し、様々な諸実施形態をさらに例証し、いずれも本発明による様々な原理および利点を説明する働きをする。

必要に応じて、本発明の詳細な諸実施形態が本明細書に開示されるが、開示された諸実施形態は単に本発明を例示するだけであるが、本発明は様々な形式で実施可能であることを理解されたい。したがって、本明細書に開示されている特定の構造上および機能上の詳細は限定的なものと解釈すべきではなく、単に特許請求の範囲の基礎として、ならびに実質的にすべての適切に詳細な構造で本発明を様々に使用するために当業者に教示するための代表的な基礎として解釈すべきである。さらに、本明細書で使用する用語および句は限定的であることを意図するものではなく、むしろ、本発明に関する理解可能な説明を提供することを意図するものである。

本明細書で使用する「１つ」という用語は１つまたは２つ以上として定義される。本明細書で使用する「複数」という用語は２つまたは３つ以上として定義される。本明細書で使用する「もう１つ」という用語は少なくとも２番目またはそれ以降のものとして定義される。本明細書で使用する「含む（including）」または「有する（having）」という用語はオープンランゲージの「有する（comprising）」として定義される。本明細書で使用する「結合」という用語は、必ずしも直接ではなく、必ずしも機械的ではないが、接続されたものとして定義される。本明細書で使用する「プログラム」、「ソフトウェア・アプリケーション」などの用語は、コンピュータ・システム上で実行するために設計された一連の命令として定義される。プログラム、コンピュータ・プログラム、またはソフトウェア・アプリケーションは、サブルーチン、関数、プロシージャ、オブジェクト・メソッド、オブジェクト・インプリメンテーション、実行可能アプリケーション、アプレット、サーブレット、ソース・コード、オブジェクト・コード、共用ライブラリ／動的ロード・ライブラリ、もしくはコンピュータ・システム上で実行するために設計されたその他の一連の命令、またはこれらの組合せを含むことができる。

本発明は、好ましい一実施形態により、以下で論ずるように、周波数領域技法と時間領域技法の利点を効果的に組み合わせる低複雑度で正確かつロバストなピッチ推定方法を提案することにより、従来技術に関する諸問題を有利に克服する。本発明の好ましい諸実施形態により使用される周波数領域方法および時間領域方法は、相互に補完し、正確な結果をもたらす。たとえば、周波数領域方法は、分析帯域幅内に多数の高調波ピークがあるため、低ピッチ音の方が良好に実行する傾向があり、時間領域方法は、特定の時間ウィンドウ内に多数のピッチ・サイクルがあるため、高ピッチ音の方が良好に実行する傾向がある。以下により詳細に説明するように、周波数領域と時間領域のピッチ推定方法の組合せを使用する音声オーディオ信号の分析は、ピッチ抽出プロセスのために比較的低い処理複雑度を維持しながら、音声オーディオ信号のピッチについて全体的により正確な推定を行うことになる。

ピッチ抽出方法が正確で、暗騒音に対してロバストで、しかも低複雑度であることは重要である。ピッチ抽出のための操作方法の複雑度が低減されることは、処理機能、使用可能メモリ、その他の装置リソース、小型のポータブル電源、たとえば、バッテリから使用可能な動作電力の点で著しく制限される可能性のあるフロントエンド装置、たとえば、ワイヤレス装置における処理オーバヘッドを低減するために特に重要である。音声信号からピッチ情報を抽出することなど、プロセッサが要求される処理オーバヘッドの量が少なければ少ないほど、ワイヤレス装置用の電源、たとえば、バッテリの電力の節約が大きくなる。顧客は絶えずワイヤレス装置のためにより長いバッテリ寿命を探し求めている。ワイヤレス装置用のバッテリ寿命を延長することにより、それは、顧客にとって利点および恩恵を増すことになり、したがって、このような製品の市場における商業的可能性を高めることになる。

一般に、本発明の好ましい一実施形態は、周波数領域と時間領域のピッチ推定方法の組合せを使用して、各音声信号サンプルについてピッチ推定値を決定し、それにより各音声信号サンプルに関するピッチ情報を抽出することにより、フレーム内でサンプリングした音声信号を処理する。拡張ＤＳＲ規格に関する提案では、入力音声信号のスペクトル情報（短時間フーリエ変換の形になっている周波数領域情報）はピッチ抽出方法による使用のために容易に入手可能である。したがって、本発明の好ましい一実施形態による周波数領域ピッチ推定方法は、使用可能なスペクトル情報を利用する。ピッチ推定のための好ましい一方法の概要については以下に論ずるが、新規のシステムおよび新規のピッチ推定方法に関するより詳細な説明はその後に示すことにする。

ＤＳＲフロントエンドですでに使用可能なスペクトル情報（各音声フレームに関する短時間フーリエ変換の形になっている）を使用し、各音声フレームに関する短時間フーリエ変換におけるスペクトル・ピークを備えたピッチ周波数候補の互換性の尺度である関連スペクトル・スコアとともに周波数領域方法を使用して、少数のピッチ候補が選択される。ピッチ候補のそれぞれについて、対応する時間のずれが計算され、時間領域相関方法を使用して、好ましくはピッチ推定のための時間領域相関方法について処理複雑度を低く保持するために低域フィルタリングおよびダウンサンプリングされた音声信号を使用して、正規化相関スコアが計算される。次に、現行フレームに関するピッチ推定値として最良候補を選択するために、スペクトル・スコア、相関スコア、および以前のピッチ推定値の履歴が論理装置によって処理される。本発明の代替諸実施形態を実現するための例示的なシステムを説明した後、以下の考察では、本発明の好ましい諸実施形態による特定のピッチ抽出方法について詳細に説明する。

図１は、本発明の好ましい一実施形態による分散音声認識（ＤＳＲ）のためのネットワークを示すブロック図である。図１は、サーバ／ワイヤレス・サービス・プロバイダ１０２をクライアント１０６および１０８と接続するネットワーク１０４上で動作するネットワーク・サーバまたはワイヤレス・サービス・プロバイダ１０２を示している。本発明の一実施形態では、図１は、サーバ１０２と、ネットワーク１０４と、クライアント・コンピュータ１０６〜１０８とを含むネットワーク・コンピュータ・システムを表している。第１の実施形態では、ネットワーク１０４は、公衆サービス電話網（ＰＳＴＮ）などの回線交換網である。代替例では、ネットワーク１０４はパケット交換網である。パケット交換網は、グローバル・インターネットなどの広域ネットワーク（ＷＡＮ）、私設ＷＡＮ、ローカル・エリア・ネットワーク（ＬＡＮ）、通信ネットワーク、または上述のネットワークの任意の組合せである。他の代替例では、ネットワーク１０４は、有線ネットワーク、ワイヤレス・ネットワーク、ブロードキャスト・ネットワーク、または２地点間ネットワークである。

第１の実施形態では、サーバ１０２とコンピュータ・クライアント１０６および１０８は、１つまたは複数のパーソナル・コンピュータ（ＰＣ）（たとえば、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ９５／９８／２０００／ＭＥ／ＣＥ／ＮＴ／ＸＰオペレーティング・システムを実行するＩＢＭまたは互換性のあるＰＣワークステーション、ＭａｃＯＳオペレーティング・システムを実行するＭａｃｉｎｔｏｓｈコンピュータ、ＬＩＮＵＸオペレーティング・システムを実行するＰＣ、または同等のもの）または任意の他のコンピュータ処理装置を有する。代替例として、サーバ１０２とコンピュータ・クライアント１０６および１０８は、１つまたは複数のサーバ・システム（たとえば、ＳｕｎＯＳもしくはＡＩＸオペレーティング・システムを実行するＳＵＮＵｌｔｒａワークステーション、ＡＩＸオペレーティング・システムを実行するＩＢＭＲＳ／６０００ワークステーションおよびサーバ、またはＬＩＮＵＸオペレーティング・システムを実行するサーバ）を含む。

本発明のもう１つの実施形態では、図１は、ワイヤレス・サービス・プロバイダ１０２と、ワイヤレス・ネットワーク１０４と、ワイヤレス装置１０６〜１０８とを含むワイヤレス通信システムを表している。ワイヤレス・サービス・プロバイダ１０２は、第１世代アナログ携帯電話サービス、第２世代デジタル携帯電話サービス、または第３世代インターネット対応携帯電話サービスである。

この例示的な実施形態では、ワイヤレス・ネットワーク１０４は、携帯電話ワイヤレス・ネットワーク、モバイル・テキスト・メッセージング・デバイス・ネットワーク、ページャ・ネットワークなどである。さらに、図１のワイヤレス・ネットワーク１０４の通信規格は、符号分割多重接続（ＣＤＭＡ）、時分割多元接続（ＴＤＭＡ）、モバイル通信用グローバル・システム（ＧＳＭ）、汎用パケット無線サービス（ＧＰＲＳ）、周波数分割多元接続（ＦＤＭＡ）などである。ワイヤレス・ネットワーク１０４は、任意の数のワイヤレス装置１０６〜１０８をサポートするが、このワイヤレス装置は携帯電話、テキスト・メッセージング・デバイス、ハンドヘルド・コンピュータ、ページャ、ビーパなどである。

この例示的は実施形態では、ワイヤレス・サービス・プロバイダ１０２はサーバを含み、このサーバは１つまたは複数のパーソナル・コンピュータ（ＰＣ）（たとえば、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ９５／９８／２０００／ＭＥ／ＣＥ／ＮＴ／ＸＰオペレーティング・システムを実行するＩＢＭまたは互換性のあるＰＣワークステーション、ＭａｃＯＳオペレーティング・システムを実行するＭａｃｉｎｔｏｓｈコンピュータ、ＬＩＮＵＸオペレーティング・システムを実行するＰＣ、または同等のもの）または任意の他のコンピュータ処理装置を有する。本発明のもう１つの実施形態では、ワイヤレス・サービス・プロバイダ１０２のサーバは１つまたは複数のサーバ・システム（たとえば、ＳｕｎＯＳもしくはＡＩＸオペレーティング・システムを実行するＳＵＮＵｌｔｒａワークステーション、ＡＩＸオペレーティング・システムを実行するＩＢＭＲＳ／６０００ワークステーションおよびサーバ、またはＬＩＮＵＸオペレーティング・システムを実行するサーバ）である。

上記で説明した通り、ＤＳＲは、音声認識システムの特徴抽出部分とパターン認識部分が分散されているフレームワークを指す。すなわち、音声認識システムの特徴抽出部分とパターン認識部分はそれぞれ異なった位置で異なった処理装置によって実行される。具体的には、特徴抽出プロセスはフロントエンド、たとえば、ワイヤレス装置１０６および１０８によって実行され、パターン認識プロセスはバックエンド、たとえば、ワイヤレス・サービス・プロバイダ１０２のサーバによって実行される。図１に示した通り、特徴抽出プロセッサ１０７はフロントエンド・ワイヤレス装置１０６内に位置し、パターン認識プロセッサ１０３はワイヤレス・サービス・プロバイダ・サーバ１０２内に位置する。特徴抽出プロセッサ１０７は、ピッチ情報の抽出など、音声信号から特徴情報を抽出し、次に、この抽出した情報をネットワーク１０４によりパターン認識プロセッサ１０３に伝達する。本発明の好ましい一実施形態によりフロントエンド・ワイヤレス装置１０６上の特徴抽出プロセッサ１０７によって実行される特徴抽出プロセスについては以下により詳細に説明する。

図２は、本発明の例示的な一実施形態によるＤＳＲ用のワイヤレス通信システムの詳細なブロック図である。図２は、上記の図１に関連して説明したワイヤレス通信システムのより詳細なブロック図である。図２のワイヤレス通信システムは、基地局２０２、２０３、および２０４に結合されたシステム・コントローラ２０１を含む。システム・コントローラ２０１は、当業者にとって周知のように全体的なシステム通信を制御する。加えて、図２のワイヤレス通信システムは、電話インターフェース２０６により外部電話網へのインターフェースが取られる。基地局２０２、２０３、および２０４は、加入者ユニットまたはトランシーバ（すなわち、ワイヤレス装置）１０６および１０８（図１を参照）を含む地理的カバレッジ領域の各部分を個々にサポートする。ワイヤレス装置１０６および１０８は、ＣＤＭＡ、ＦＤＭＡ、ＴＤＭＡ、ＧＰＲＳ、およびＧＳＭなどのワイヤレス通信プロトコルを使用して、基地局２０２、２０３、および２０４とのインターフェースを取る。図１に関連して図２に示した例示的なシステムでは、ワイヤレス装置１０６は特徴抽出プロセッサ１０７を含み、ＤＳＲ用のフロントエンドを提供し、基地局２０２は、ワイヤレス装置１０６とのワイヤレス通信およびインターフェースを維持しながら、ＤＳＲ用のバックエンドを提供するパターン認識プロセッサ１０３を含む。この例示的なシステムでは、基地局２０２、２０３、および２０４のそれぞれが、フロントエンド・ワイヤレス装置１０６とのワイヤレス通信およびインターフェースを維持しながら、フロントエンド・ワイヤレス装置１０６によるＤＳＲ用のバックエンドを提供することにも留意されたい。ＤＳＲバックエンドは全体的な通信システム内の他のポイントに位置することができることは当業者にとって明らかなことである。たとえば、コントローラ２０１（図２を参照）は、基地局２０２、２０３、および２０４と通信して、ワイヤレス装置１０６、１０８に関するパターン認識を処理するＤＳＲバックエンドを含むことができる。代替例として、ＤＳＲバックエンドは、インターネットなどの広域ネットワークによるかまたは電話インターフェース２０６を介する公衆交換電話網（ＰＳＴＮ）などにより、コントローラ２０１に通信可能に結合されたネットワークによりリモート・サーバに位置することもできる。ＤＳＲバックエンドは、たとえば、航空機予約サービスを提供するリモート・サーバに位置することができる。ワイヤレス装置１０６のユーザは、たとえば、リモート航空機予約サーバにボイス・コマンドおよび照会を伝達することができる。当業者には分かるように、任意のリモート・アプリケーション・サーバは、本発明の好ましい一実施形態を使用する分散音声認識システムから恩恵を受けることができる。

図２のワイヤレス通信システムの地理的カバレッジは、基地局２０２、２０３、および２０４（本明細書ではセル・サーバともいう）によって個々にサービス提供される、複数カバレッジ・エリアまたはセルに分割される。ワイヤレス通信システム内で動作するワイヤレス装置は、そのシステム内の受信動作および送信動作のための基本インターフェースとして特定のセル・サーバを選択する。たとえば、ワイヤレス装置１０６はその基本セル・サーバとしてセル・サーバ２０２を有し、ワイヤレス装置１０８はその基本セル・サーバとしてセル・サーバ２０４を有する。好ましくは、ワイヤレス装置は、ワイヤレス通信システムへの最良通信インターフェースを提供するセル・サーバを選択する。通常、これは、ワイヤレス装置と特定のセル・サーバとの間の通信信号の信号品質に依存することになる。

ワイヤレス装置はワイヤレス通信システムの地理的カバレッジ内の様々な地理的位置間またはセル間で移動するので、次に基本セル・サーバとして機能することになる他のセル・サーバへのハンドオフまたはハンドオーバが必要になる可能性がある。ワイヤレス装置は、隣接するセルにサービス提供する基地局からの通信信号をモニターして、ハンドオフのために最も適切な新しいサーバを決定する。隣接するセル・サーバからの送信信号の品質をモニターすることに加えて、この例によれば、ワイヤレス装置は、送信信号に関連する送信色分け情報もモニターして、どの隣接セル・サーバが送信信号のソースであるかを素早く識別する。

図３は、本発明の好ましい一実施形態によるワイヤレス通信システム用のワイヤレス装置を示すブロック図である。図３は、上記の図１および図２に関連して説明したワイヤレス装置のより詳細なブロック図である。図３は、図１に示したようなワイヤレス装置１０６を示している。本発明の一実施形態では、ワイヤレス装置１０６は、ＣＤＭＡ、ＦＤＭＡ、ＴＤＭＡ、ＧＰＲＳ、またはＧＳＭなどの通信プロトコルに基づく通信チャネルにより無線周波数信号を送受信可能な双方向無線機を有する。ワイヤレス装置１０６は、受信モードと送信モードとの間でワイヤレス装置１０６を切り替えるコントローラ３０２の制御下で動作する。受信モードでは、コントローラ３０２は送信／受信スイッチ３１４によりアンテナ３１６を受信機３０４に結合する。受信機３０４は受信信号をデコードし、そのデコードした信号をコントローラ３０２に提供する。送信モードでは、コントローラ３０２はスイッチ３１４によりアンテナ３１６を送信機３１２に結合する。

コントローラ３０２は、メモリ３１０内に保管されたプログラム命令により送信機および受信機を操作する。保管された命令は隣接セル測定スケジューリング・アルゴリズムを含む。この例によるメモリ３１０は、フラッシュ・メモリ、その他の不揮発性メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）などを含む。タイマ・モジュール３１１は、時刻指定イベントを追跡するためにコントローラ３０２にタイミング情報を提供する。さらに、コントローラ３０２は、タイマ・モジュール３１１からの時間情報を使用して、隣接セル・サーバ送信および送信した色分け情報に関するスケジューリングを追跡することができる。

隣接セル測定がスケジューリングされると、受信機３０４は、コントローラ３０２の制御下で隣接セル・サーバをモニターし、「受信信号品質インジケータ」（ＲＳＱＩ）を受信する。ＲＳＱＩ回路３０８は、各モニター対象セル・サーバによって送信された信号の信号品質を表すＲＳＱＩ信号を生成する。各ＲＳＱＩ信号は、アナログ・デジタル変換器３０６によってデジタル情報に変換され、コントローラ３０２への入力として提供される。カラー・コード情報および関連の受信信号品質インジケータを使用して、ワイヤレス装置１０６は、ハンドオフが必要なときに基本セル・サーバとして使用するための最も適切な隣接セル・サーバを決定する。

図３に示したプロセッサ３２０は、以下により詳細に説明する分散音声認識に帰因する機能などの様々な機能を実行する。この例によれば、様々なＤＳＲ機能を操作するプロセッサ３２０は、図１に示した特徴抽出プロセッサ１０７に対応する。本発明の代替諸実施形態では、図３に示したプロセッサ３２０は、上述の機能およびタスクを実行するための単一プロセッサまたは２つ以上のプロセッサを含む。本発明の好ましい諸実施形態による図１の特徴抽出プロセッサ１０７の有利な構造および機能については、以下により詳細に論ずる。

図４は、ワイヤレス・サービス・プロバイダ・サーバ１０２からのバックエンド・サポートによりＤＳＲ用のフロントエンドを提供するように動作するワイヤレス装置１０６のコンポーネントを示すブロック図である。図４については、図１、図２、および図３に関連して論ずる。この例では、メモリ３１０からの機能コンポーネントとともに動作するプロセッサ３２０がＤＳＲ用のフロントエンドの機能および特徴を実現することは言うまでもない。たとえば、プロセッサ３２０に通信可能に結合されている特徴抽出プロセッサ１０７は、ユーザがマイクロホン４０４に音声オーディオ４０２を提供する場合など、マイクロホン４０４を介して受信した音声信号からピッチ情報を抽出する。また、プロセッサ３２０は、図３に示した通り、ワイヤレス装置１０６の送信機３１２にも通信可能に結合され、ＤＳＲ用のバックエンドを提供するサーバ１０２およびパターン認識プロセッサ１０３による受信が予定された抽出されたピッチ情報をフロントエンド特徴抽出プロセッサ１０７からワイヤレス・ネットワーク１０４内にワイヤレスで伝達するように動作する。

この例によれば、ワイヤレス装置１０６は、装置１０６のユーザからの音声オーディオなどのオーディオ４０２を受信するためのマイクロホン４０４を含む。マイクロホン４０４は、オーディオ４０２を受信し、次に音声信号をプロセッサ３２０に結合する。プロセッサ３２０によって実行されるプロセスの中で、特徴抽出プロセッサ１０７は音声信号からピッチ情報を抽出する。抽出されたピッチ情報は、情報パケット内に含まれる少なくとも１つのコードワードにエンコードされる。次にこのパケットは、送信機３１２によってネットワーク１０４を介して、パターン認識プロセッサ１０３を含むワイヤレス・サービス・プロバイダ・サーバ１０２に送信される。本発明の好ましい諸実施形態によりピッチ情報を抽出するための有利な機能コンポーネントおよびプロセスについては、以下により詳細に説明する。

図５は、本発明の好ましい一実施形態により特徴抽出プロセッサ１０７によって実行されるピッチ抽出プロセスを示す機能ブロック図である。図５に関する考察は、図１、図２、図３、および図４の参照でより十分に理解されるであろう。

次に図５を参照すると、同図は、本発明の好ましい一実施形態により動作するピッチ推定システムを示す単純化した機能ブロック図である。図１の特徴抽出プロセッサ１０７は、たとえば、図５に図示したピッチ抽出システムを有する。図５のピッチ抽出器は、フレーマ５０２と、短時間フーリエ変換（ＳＴＦＴ）回路５０４と、周波数領域ピッチ候補発生器（ＦＤＰＣＧ）５０６と、リサンプラ５０８と、相関回路５１０と、ピッチ・ユニット変換器５１２と、論理装置５１４と、遅延装置５１６とを有する。

システムへの入力はデジタル化音声信号である。システム出力は、等間隔の時間モーメントまたはフレームに関連する一連のピッチ値（ピッチ輪郭）である。１つのピッチ値は、対応する時間モーメントの付近にある音声信号セグメントの周期性を表している。ゼロなどの予約ピッチ値は、その信号が非周期性である無声音声セグメントを示す。好ましい諸実施形態によっては、たとえば、ＥＴＳＩＤＳＲ規格の拡張に関する提案では、ピッチ推定はむしろ、音声符号化、認識、またはその他の音声処理要求に関するより一般的なシステムのサブシステムである。このような諸実施形態では、フレーマ５０２およびＳＴＦＴ回路５０４の少なくとも一方は、ピッチ推定サブシステムの機能ブロックではなく、親システムの機能ブロックになる可能性がある。これに対応して、それぞれの出力は、ピッチ推定サブシステムの外側で生成され、そのサブシステムに供給される。

フレーマ５０２は、１０ｍｓなどの定義済みオフセット分だけ相互にシフトした２５ｍｓなどの定義済み持続時間のフレームに音声信号を分割する。各フレームは、ＳＴＦＴ回路５０４およびリサンプラ５０８に並行して渡され、制御の流れは図５に示したように分岐される。

機能ブロック図の上部分岐から始めると、ＳＴＦＴ回路５０４内では、ウィンドウ処理機能、たとえば、ハミング・ウィンドウによる乗算と、ウィンドウ化フレームの高速フーリエ変換（ＦＦＴ）とを含む短時間フーリエ変換がフレームに適用される。

ＳＴＦＴ回路５０４によって得られたフレーム・スペクトルはさらにＦＤＰＣＧ５０６に渡され、それがピッチ候補についてスペクトル・ピーク・ベースの決定を実行する。ＦＤＰＣＧ５０６は、２０００年７月１４日に出願された米国特許出願第０９／６１７５８２号に記載されているような任意の既知の周波数領域ピッチ推定方法を使用することができるが、同特許出願の教示全体は参照により本明細書に組み込まれる。これらの方法のいくつかは、１つまたは複数の前のフレームから推定されたピッチ値を使用する。これに対応して、１つまたは複数の前のフレームから論理装置５１４（本明細書で以下に説明するもの）により得られ、遅延装置５１６に保管されたピッチ推定システム全体の出力は、ＦＤＰＣＧ５０６に供給される。

選択された周波数領域方法の動作モードは、この例示的な実施形態により、ピッチ候補が決定され次第、すなわち、最良候補の最終選択が行われる前に、プロセスが終了するように変更される。したがって、ＦＤＰＣＧ５０６はいくつかのピッチ候補を出力する。ＥＴＳＩＤＳＲ規格の拡張に関する提案では、６個以下のピッチ候補がＦＤＰＣＧ５０６によって生成される。しかし、任意の数のピッチ候補が同様に本発明の代替諸実施形態に適している可能性があることは当業者にとって明らかであるはずである。各ピッチ候補に関連する情報は、正規化基本周波数Ｆ０値（１をサンプルに表されたピッチ周期で割ったもの）と、スペクトルに含まれるスペクトル・ピークとその基本周波数との互換性の尺度であるスペクトル・スコアＳＳとを有する。

流れの分岐点に戻ると、各フレームはリサンプラ５０８に供給され、そこでフレームは遮断周波数Ｆｃによる低域フィルタリング（ＬＰＦ）が施され、続いてダウンサンプリングが行われる。この方法の好ましい一実施形態では、８００Ｈｚの低域通過無限インパルス応答（ＩＩＲ）６次バターワース・フィルタが１次ＩＩＲ低周波エンファシス・フィルタと組み合わされる。この複合フィルタはこのフレームの最後のＦＳ個のサンプルに適用され、ここで、ＦＳは相対フレーム・シフトである。というのは、これらは前のフレームに存在していなかった唯一の新しいサンプルであるからである。リサンプラ５０８は、前のフレームから生成されたＬＨ個のフィルタリングされたサンプルが保管される履歴バッファを維持する。

ＬＨは以下のように定義される。
ＬＨ＝２＊ＭａｘＰｉｔｃｈ−ＦＳ

ここで、事前定義数ＭａｘＰｉｔｃｈはピッチ探索範囲の上限である。フィルタリングされた信号の新しいＦＳ個のサンプルは履歴バッファの内容に付加され、その結果、２＊ＭａｘＰｉｔｃｈというサンプル長の拡張フィルタ・フレームが得られる。次に、この拡張フィルタ・フレームはダウンサンプリングが施され、これによりダウンサンプリングされた拡張フレームが生成される。ダウンサンプリング係数ＤＳＦは好ましくは、非理想低域フィルタリングによるエイリアシング効果を回避するために、以下の式によって示される理論的に正当化された最大値よりわずかに低くなるように選択される。
ＤＳＦ＝０．５＊Ｆｓ／Ｆｃ
ここで、Ｆｓは元の音声信号のサンプリング周波数である。この方法のこのような好ましい一実施形態では、Ｆｓ値がそれぞれ８０００Ｈｚ、１１０００Ｈｚ、および１６０００Ｈｚである場合に、４、５、および８というＤＳＦ値が使用される。（それぞれ、５、６．８７５、および１０という理論値と比較されたい。）

リサンプラ５０８によって生成されたダウンサンプリングされた拡張フレームは相関回路５１０に渡される。相関回路５１０のタスクは、ＦＤＰＣＧ５０６によって生成された各ピッチ候補に関する相関ベースのスコアを計算することである。したがって、ＦＤＰＣＧ５０６によって生成されたピッチ候補に関連する基本周波数値｛Ｆ０ｉ｝は、以下の式により、ピッチ・ユニット変換器５１２によって対応するダウンサンプリングされた遅れ値｛Ｔｉ｝に変換され、相関回路５１０に供給される。
Ｔｉ＝１／（Ｆ０ｉ＊ＤＳＦ）
各ピッチ候補ごとに、相関回路５１０は相関スコア値ＣＳを生成する。相関回路５１０の好ましい動作モードについては、図７に関連して本明細書で以下により詳細に説明する。

最後に、ピッチ候補のリストが論理装置５１４に供給される。各候補に関連する情報は、ａ）基本周波数値Ｆ０と、ｂ）スペクトル・スコアＳＳと、ｃ）相関スコアＣＳとを有する。論理装置は好ましくは、１つまたは複数の前のフレームから得られたピッチ推定値に関する履歴情報を内部に維持する。前述の情報をすべて使用して、論理装置５１４は、それに渡された複数のピッチ候補の中からピッチ推定値を選択するかまたはそのフレームを無声として示す。ピッチ推定値を選択する際に、論理装置５１４は、高い（すなわち、最良）相関スコアおよびスペクトル・スコアと、高い基本周波数（短いピッチ・サイクル周期）値と、前のフレームから得られたピッチ推定値のものに近い（すなわち、最良一致）基本周波数値とを有する候補を優先する。この考察を考慮すると当業者にとって明らかなように、この種の妥協を実現するものであれば、どのような論理方式も使用することができる。

図６は、この方法の好ましい一実施形態で実現された論理装置５１４の動作を示す流れ図である。

候補はステップ６０２でそのＦ０値の降順にソートされる。次にステップ６０４で、クラス１の候補が検出されるかまたはすべての候補がテストされるまで、候補は逐次走査される。候補に関連するＣＳ値とＳＳ値が以下の条件を満足する場合、その候補はクラス１のものであると定義される。
（ＣＳ＞Ｃ１ＡＮＤＳＳ＞Ｓ１）ＯＲ（ＳＳ＞Ｓ１１ＡＮＤＳＳ＋ＣＳ＞ＣＳ１）（クラス１の条件）
ここで、Ｃ１＝０．７９、Ｓ１＝０．７８、Ｓ１１＝０．６８、およびＣＳ１＝１．６である。

ステップ６０６で流れが分岐する。クラス１の候補が検出された場合、それは好ましい候補になるように選択され、制御はステップ６０８に渡され、以下に記載する付近の最良検出するプロシージャを実行する。

どれがＦ０に関して好ましい候補に近いかを決定するために、好ましい候補に続くものの中でそれらの候補がチェックされる。以下の場合、２つの値Ｆ０１およびＦ０２は相互に近いものであると定義される。
（Ｆ０１＜１．２＊Ｆ０２ＡＮＤＦ０２＜１．２＊Ｆ０１）（近さの条件）

近い候補の中で、複数のよりよい候補が決定される。よりよい候補は、それぞれ好ましい候補より高いＳＳ値および高いＣＳ値を備えていなければならない。少なくとも１つのよりよい候補が存在する場合、そのよりよい候補の中で最良候補が決定される。最良候補は、それぞれ最良候補より高いＳＳ値および高いＣＳ値を備えている他のよりよい候補がまったく存在しないことによって特徴付けられる。最良候補は、前の候補の代わりに好ましい候補になるように選択される。よりよい候補がまったく検出されない場合、好ましい候補はそのままである。

ステップ６１０で、以下のようにその平均スコアが好ましい候補より著しく高いクラス１の候補が検出されるかまたはすべての候補が走査されるまで、好ましい候補に続く候補が１つずつ走査される。
ＳＳｃａｎｄｉｄａｔｅ＋ＣＳｃａｎｄｉｄａｔｅ＞ＳＳｐｒｅｆｅｒｒｅｄ＋ＣＳｐｒｅｆｅｒｒｅｄ＋０．１８
上記の条件を満たす候補が検出された場合、ステップ６１２でそれは好ましい候補になるように選択され、ステップ６１４で付近の最良を検出するプロシージャが適用される。そうではない場合、制御はステップ６１６に直接渡される。

ピッチ推定値はステップ６１６で好ましい候補に設定され、制御はステップ６７０の履歴の更新に渡され、次にステップ６７２でこの流れ図を終了する。

条件付き分岐ステップ６０６に戻ると、クラス１の候補がまったく検出されない場合、ステップ６２０で内部に維持された履歴情報が安定トラック条件を示しているかどうかがチェックされる。

連続ピッチ・トラックは、１連の２つまたはそれ以上の結果フレーム内の各フレームに関連するピッチ推定値がＦ０に関して（上記で指定した近さ定義の意味で）前のフレームに関連するものに近い場合、その１連の２つまたはそれ以上の結果フレームとして定義される。連続ピッチ・トラックに属す最後のフレームが前のフレームであるかまたは前のフレームの直前のフレームである場合、安定トラック条件は達成されたものと見なされ、連続ピッチ・トラックは少なくとも６フレームの長さである。

安定トラック条件が当てはまる場合、制御はステップ６２２に渡され、そうではない場合、ステップ６４０に渡される。

ステップ６２２で基準基本周波数値Ｆ０ｒｅｆは、安定トラックに属す最後のフレームに関連するＦ０に設定される。次にステップ６２４で、クラス２の候補が検出されるかまたはすべての候補がテストされるまで、候補は逐次走査される。候補に関連するＦ０値とＣＳスコアおよびＳＳスコアが以下の条件を満足する場合、その候補はクラス２ものであると定義される。
（ＣＳ＞Ｃ２ＡＮＤＳＳ＞Ｓ２）ＡＮＤ（Ｆ０およびＦ０ｒｅｆが相互に近い）（クラス２の条件）
ここで、Ｃ２＝０．７、Ｓ２＝０．７である。ステップ６２６でクラス２の候補がまったく検出されない場合、ステップ６２８で無声フレームを示すようにピッチ推定値が設定される。そうではない場合、クラス２の候補は好ましい候補として選択され、ステップ６３０で付近の最良を検出するプロシージャが適用される。

次にステップ６３２でピッチ推定値は好ましい候補に設定される。ステップ６２８または６３２でピッチ推定値のいずれか１つが設定された後、制御はステップ６７０の履歴の更新に渡され、次にステップ６７２で終了する。

最後の条件付き分岐ステップ６２０に戻ると、安定トラック条件が満たされない場合、制御はステップ６４０に渡され、そこで連続ピッチ条件がテストされる。前のフレームが少なくとも２フレームの長さの連続ピッチ・トラックに属す場合、この条件は満たされたと見なされる。連続ピッチ条件が満足された場合、次にステップ６４２でＦ０ｒｅｆ基準が前のフレームについて推定された値に設定され、ステップ６４４でクラス２の候補探索が実行される。クラス２の候補が検出された場合、ステップ６４６でそれが好ましい候補として選択され、ステップ６４８で付近の最良を検出するプロシージャが適用され、ステップ６５０でピッチ推定値が好ましい候補に設定され、続いてステップ６７０で履歴の更新が行われる。そうではない場合、ステップ６４０の連続ピッチ条件テストが失敗した場合に発生するのと同様に、制御はステップ６６０に流れる。

ステップ６６０で、クラス３の候補が検出されるかまたはすべての候補がテストされるまで、候補は逐次走査される。そのスコアに関連するＣＳスコアおよびＳＳスコアが以下の条件を満足する場合、その候補はクラス３ものであると定義される。
（ＣＳ＞Ｃ３ＯＲＳＳ＞Ｓ３）（クラス３の条件）
ここで、Ｃ３＝０．８５、Ｓ３＝０．８２である。ステップ６６２でクラス３の候補がまったく検出されない場合、ステップ６６８で無声フレームを示すようにピッチ推定値が設定される。そうではない場合、クラス３の候補は好ましい候補として選択され、ステップ６６４で付近の最良を検出するプロシージャが適用される。次にステップ６６６でピッチ推定値は好ましい候補に設定される。ステップ６６８または６６６でピッチ推定値のいずれか１つが設定された後、制御はステップ６７０の履歴の更新に渡される。

ステップ６７０で前のフレームに関連するピッチ推定値が新しいピッチ推定値に設定され、それに応じてすべての履歴情報が更新される。

次に相関回路５１０（図５を参照）の動作について説明する。相関回路は入力で以下のものを取得する。
・ダウンサンプリングされた拡張フレームｓ（ｎ）、ｎ＝１，２，・・・，ＬＤＥＦ
ここでＬＤＥＦ＝ｆｌｏｏｒ（２＊ＭａｘＰｉｔｃｈ／ＤＳＦ）は、フィルタリングされた拡張フレーム長をダウンサンプリング係数で割り、下限まで切り下げるものである。
・ピッチ候補に対応する（一般に、非整数の）遅れ値のリスト｛Ｔｉ｝

相関回路５１０は、遅れ値に対応するピッチ候補に関する相関値（相関スコアＣＳ）のリストを生成する。各相関値は、フレーム・サンプルのサブセットを使用して計算される。サブセット内のサンプルの数は遅れ値に依存する。このサブセットは、それによって表される信号のエネルギを最大化することによって選択される。非整数遅れＴｉを取り囲む２つの整数遅れ、すなわち、ｆｌｏｏｒ（Ｔｉ）およびｃｅｉｌ（Ｔｉ）における相関値が計算される。次に、１９９１年１月発行のＩＥＥＥＴｒａｎｓ．Ａｃｏｕｔｓ．、ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇの第３９巻、４０〜４８ページに掲載されたＹ．Ｍｅｄａｎ、Ｅ．Ｙａｉｒ、およびＤ．Ｃｈａｚａｎによる「Ｓｕｐｅｒｒｅｓｏｌｕｔｉｏｎｐｉｔｃｈｄｅｔｅｒｍｉｎａｔｉｏｎｏｆｓｐｅｅｃｈｓｉｇｎａｌｓ」に提案されている補間技法を使用して、Ｔｉ遅れにおける相関が概算される。

次に図７および図８を参照するが、これらの図は、相関回路５１０に関する動作を示す流れ図を構成する。また、図９および図１０も参照する。初期設定ステップ７０２では、最後の整数遅れを表す内部変数ＩＴ_lastが０に設定される。すべての入力遅れ値はステップ７０４で昇順にソートされる。ステップ７０６で現在の遅れＴが最初の遅れに設定される。補間準備ステップ７０８では、整数遅れＩＴ＝ｃｅｉｌ（Ｔ）と補間係数α＝ＩＴ−Ｔが計算される。ステップ７１０で整数遅れ値ＩＴが最後の整数遅れＩＴ_lastと比較される。値が同じである場合、制御は補間ステップ７２０に流れる。そうではない場合、ステップ７１１で、相関スコアの計算に使用するためにサンプルのサブセットが決定される。サブセットは、１対（単純サブセット）または２対（複合サブセット）のパラメータ（ＯＳ，ＬＳ）によって指定される。

整数遅れＩＴは、事前定義ウィンドウ長ＬＷ＝ｒｏｕｎｄ（（７５／ＤＳＦ）＊（ＳＦ／８０００））と比較される。

整数遅れＩＴがＬＷ未満であるかまたはＬＷに等しい場合、図９に関連してさらに説明するように単純サブセットが決定される。このステップでは、ダウンサンプリングされた拡張フレームのうち、ＬＤＦ＝ＬＦ／ＤＳＦ個の最後のサンプルのみが使用され、ここでＬＦはサンプル内のフレーム持続時間である。すなわち、履歴は使用されない。ダウンサンプリングされた拡張フレームの最後のＬＤＦ個のサンプルによって構成されたウィンドウの先頭に、（ＬＷ＋ＩＴ）個のサンプル分の長さのフラグメントが位置決めされる。フラグメント・エネルギ（平方値の合計）が計算される。次に、ダウンサンプリングされた拡張フレームの末尾に向かってフラグメントがサンプル１つ分移動し、移動したフラグメントに関連するエネルギが計算される。そのフラグメントの最後のサンプルがダウンサンプリングされた拡張フレームの末尾に到達するまで、プロセスは続行する。最もエネルギのあるフラグメントの位置ｏは以下のように選択される。

サブセット・パラメータはＯＳ＝ｏ、ＬＳ＝ＬＷに設定される。

一方、整数遅れＩＴがＬＷより大きい場合、図１０に関連してさらに説明するステップ７１６でサブセットが決定される。このケースで使用すべきダウンサンプリングされた拡張フレームの一部はＩＴ値に依存する。特に、ＮＳ＝ｍａｘ（ＬＤＦ，２＊ＩＴ）個の最後のサンプルが使用され、これは十分長い遅れ値についてのみ履歴が使用されることを意味する。それぞれの長さがＩＴ−１である２つの隣接セグメントＳｅｇ１およびＳｅｇ２が、それぞれオフセットｍ１＝（ＬＤＥＦ−ＮＳ／２−ＩＴ）およびｍ２＝（ＬＤＥＦ−ＮＳ／２）でフレームから抽出される。各セグメントは周期信号を表す循環バッファであると見なされる。まず、ＬＷ個のサンプル分の長さのフラグメント１がＳｅｇ１セグメントの先頭に位置決めされる。同様に、ＬＷ個のサンプル分の長さのフラグメント２がＳｅｇ２の先頭に位置決めされる。フラグメント・エネルギの合計が計算される。次に、フラグメントがサンプル１つ分右に（セグメントの末尾に向かって）（同時に）移動し、移動したフラグメントに対応するエネルギの合計が計算される。フラグメントがそのセグメント内の最も右側の位置に到達した後もプロセスは続行し、シフト動作は循環動作として扱われる。すなわち、１つのフラグメントは２つの部分に分割され、図１０に示した通り、左側部分はセグメントの先頭に位置決めされ、右側部分はセグメントの末尾に位置決めされる。フラグメントが移動するにつれて、その左側部分の長さは減少し、左側部分の長さは増加する。最大エネルギ位置ｏは以下のように選択される。

２つの可能性が存在する。
１）オフセットｏは十分小さく、特にｏ＜ＩＴ−ＬＷになる。このケースでは、単純サブセットが定義され、そのパラメータはＯＳ＝ｏ＋ｍ１、ＬＳ＝ＬＷに設定される。
２）オフセットｏは大きく、ｏ＞＝ＩＴ−ＬＷになり、各サブセットは循環バッファのエッジで循環する。このケースでは、複合サブセットが定義され、（ＯＳ１＝ｏ＋ｍ１，ＬＳ１＝ＩＴ−ｏ）および（ＯＳ２＝ｍ１，ＬＳ２＝ＬＷ−ＩＴ＋ｏ）になる。

図８に戻ると、ステップ７１２で流れが分岐される。単純サブセットが決定された場合、制御はステップ７１３に渡され、そうではない場合、ステップ７１４および７１５が並行して実行される。３つの処理ステップ（７１３、７１４、７１５）のそれぞれは、以下に記載する同じ累積プロシージャを実現する。

このプロシージャへの入力はサブセット・パラメータ（ＯＳ，ＬＳ）である。それぞれ長さがＬＳの３つのベクトルが定義される。
Ｘ＝｛ｘ（ｉ）＝ｓ（ＯＳ＋ｉ−１）｝
Ｘ１＝｛ｘ１（ｉ）＝ｓ（ＯＳ＋ｉ）｝
Ｙ＝｛ｙ（ｉ）＝ｓ（ＯＳ＋ＩＴ＋ｉ−１）｝
ここで、ｉ＝１，２，・・・，ＬＳである。次に、各ベクトルの平方ノルム（Ｘ，Ｘ）、（Ｘ１，Ｘ１）、および（Ｙ，Ｙ）ならびに各ベクトル対の内積（Ｘ，Ｘ１）、（Ｘ，Ｙ）、および（Ｘ１，Ｙ）が計算される。また、各ベクトルについて、すべての座標の合計ＳＸ、ＳＸ１、ＳＹも計算される。

複合サブセットが決定されているケースでは、ステップ７１４で累積プロシージャが（ＯＳ１，ＬＳ１）サブセットに適用され、ステップ７１５でプロシージャが（ＯＳ２，ＬＳ２）サブセットに適用される。次に、ステップ７１６で累積プロシージャによって生成された対応する値が加算される。

ステップ７１７では平方ノルムおよび内積が以下のように変更される。
（Ｘ，Ｘ）＝（Ｘ，Ｘ）−ＳＸ²／ＬＷ
（Ｘ１，Ｘ１）＝（Ｘ１，Ｘ１）−ＳＸ１^２／ＬＷ
（Ｙ，Ｙ）＝（Ｙ，Ｙ）−ＳＹ²／ＬＷ
（Ｘ，Ｘ１）＝（Ｘ，Ｘ１）−ＳＸ・ＳＸ１／ＬＷ
（Ｘ，Ｙ）＝（Ｘ，Ｙ）−ＳＸ・ＳＹ／ＬＷ
（Ｘ，Ｘ１）＝（Ｘ，Ｘ１）−ＳＸ・ＳＸ１／ＬＷ
変更された平方ノルムおよび内積は、次の候補遅れ値を処理する間に起こり得る使用に備えて保管される。整数遅れＩＴは最後の整数遅れとして保管される。

ステップ７２０では相関スコアが以下のように計算される。

Ｄが正である場合、ＣＳ＝（（Ｘ，Ｙ）＋α（Ｘ１，Ｙ））／Ｄになり、そうではない場合、ＣＳ＝０になる。

次に制御はテスト・ステップ７２２に流れ、そこで、最後の遅れが処理されたかどうかを確かめるためにチェックが行われる。回答がＹＥＳである場合、プロセスはステップ７２４で停止する。そうではない場合、制御はステップ７０６に戻り、そこで処理すべき現在の遅れとして次の遅れが選択される。

本発明は、図１のクライアント１０６、１０８またはサーバ１０２内でハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組合せとして実現することができる。図５、図６、図７、図８、図９、および図１０に記載した通り、本発明の好ましい一実施形態によるシステムは、１台のコンピュータ・システムで集中方式で実現するか、または種々の要素が複数の相互接続コンピュータ・システム間に分散される分散方式で実現することができる。本明細書に記載された方法を実行するために適合されたものであれば、どのような種類のコンピュータ・システムまたはその他の装置でも適している。ハードウェアとソフトウェアの典型的な組合せは、ロードされ実行されたときに、本明細書に記載された方法を実行するようにコンピュータ・システムを制御するコンピュータ・プログラムを備えた汎用コンピュータ・システムにすることができるであろう。

また、本発明の一実施形態は、（クライアント１０６および１０８とサーバ１０２内で）本明細書に記載された方法の実現を可能にするすべての特徴を有し、コンピュータ・システム内でロードされたときに、これらの方法を実行することができるコンピュータ・プログラム製品として実施することもできる。本発明で使用するコンピュータ・プログラム手段またはコンピュータ・プログラムは、直接、またはａ）他の言語、コード、もしくは表記への変換、およびｂ）異なる物質形式での複製のうちのいずれか一方または両方の後で情報処理機能を有するシステムに特定の機能を実行させることが意図された１組の命令を、任意の言語、コード、または表記法で表した任意の表現を示す。

コンピュータ・システムは、とりわけ、１つまたは複数のコンピュータと、少なくとも１つのコンピュータ可読媒体とを含み、コンピュータ・システムがコンピュータ可読媒体からデータ、命令、メッセージまたはメッセージ・パケット、およびその他のコンピュータ可読情報を読み取れるようにする。コンピュータ可読媒体としては、ＲＯＭ、フラッシュ・メモリ、ディスク・ドライブ・メモリ、ＣＤ−ＲＯＭ、およびその他の永続ストレージなどの不揮発性メモリを含むことができる。さらに、コンピュータ可読媒体としては、たとえば、ＲＡＭ、バッファ、キャッシュ・メモリ、および揮発性ストレージを含むことができる。

図１１は、本発明の一実施形態を実現するために有用なコンピュータ・システムのブロック図である。図１１のコンピュータ・システムは、クライアント１０６および１０８とサーバ１０２のより詳細な表現である。図１１のコンピュータ・システムは、プロセッサ１００４などの１つまたは複数のプロセッサを含む。プロセッサ１００４は、通信インフラストラクチャ１００２（たとえば、通信バス、クロスオーバー・バー、またはネットワーク）に接続される。様々なソフトウェア実施形態について、この例示的なコンピュータ・システムに関して説明する。その他のコンピュータ・システムまたはコンピュータ・アーキテクチャを使用して本発明を実現する方法は、この説明を読んだ後、当業者にとって明白になるであろう。

このコンピュータ・システムは、ディスプレイ装置１０１０上で表示するために通信インフラストラクチャ１００２から（または図示していないフレーム・バッファから）グラフィックス、テキスト、およびその他のデータを転送するディスプレイ・インターフェース１００８を含むことができる。また、コンピュータ・システムは、メイン・メモリ１００６、好ましくはランダム・アクセス・メモリ（ＲＡＭ）も含み、２次メモリ１０１２も含むことができる。２次メモリ１０１２は、たとえば、ハード・ディスク・ドライブ１０１４、およびフレキシブル・ディスク・ドライブ、磁気テープ・ドライブ、光ディスク・ドライブなどを表す取外し可能ストレージ・ドライブ１０１６の少なくとも一方を含むことができる。取外し可能ストレージ・ドライブ１０１６は、当業者にとって周知のように取外し可能ストレージ・ユニット１０１８に対する読み書きを行う。取外し可能ストレージ・ユニット１０１８は、取外し可能ストレージ・ドライブ１０１６によって読み取られ、そこに書き込まれる、フレキシブル・ディスク、磁気テープ、光ディスクなどを表す。理解されるように、取外し可能ストレージ・ユニット１０１８は、コンピュータ・ソフトウェアおよびデータの少なくとも一方をそこに保管しているコンピュータ可用記憶媒体を含む。

代替諸実施形態では、２次メモリ１０１２は、コンピュータ・プログラムまたはその他の命令をコンピュータ・システムにロードできるようにするためのその他の同様の手段を含むことができる。このような手段としては、たとえば、取外し可能ストレージ・ユニット１０２２およびインターフェース１０２０を含むことができる。このような例としては、プログラム・カートリッジとカートリッジ・インターフェース（ビデオ・ゲーム装置に見られるものなど）、取外し可能メモリ・チップ（ＥＰＲＯＭまたはＰＲＯＭなど）と関連ソケット、その他の取外し可能ストレージ・ユニット１０２２と、ソフトウェアおよびデータを取外し可能ストレージ・ユニット１０２２からコンピュータ・システムに転送できるようにするインターフェース１０２０を含むことができる。

また、このコンピュータ・システムは、通信インターフェース１０２４も含むことができる。通信インターフェース１０２４は、ソフトウェアおよびデータをコンピュータ・システムと外部装置との間で転送できるようにする。通信インターフェース１０２４の例としては、モデム、ネットワーク・インターフェース（イーサネット・カードなど）、通信ポート、ＰＣＭＣＩＡスロットとカードなどを含むことができる。通信インターフェース１０２４を介して転送されるソフトウェアおよびデータは、たとえば、電子信号、電磁信号、光学信号、その他の通信インターフェース１０２４によって受信可能な信号の形になっている。これらの信号は、通信パス（すなわち、チャネル）１０２６を介して通信インターフェース１０２４に提供される。このチャネル１０２６は、信号を伝達し、ワイヤもしくはケーブル、光ファイバ、電話回線、携帯電話リンク、ＲＦリンク、もしくはその他の通信チャネル、またはこれらの組合せを使用して実現することができる。

この文書では、「コンピュータ・プログラム媒体」、「コンピュータ可用能媒体」、「機械可読媒体」、および「コンピュータ可読媒体」という用語は、一般に、メイン・メモリ１００６および２次メモリ１０１２、取外し可能ストレージ・ドライブ１０１６、ハード・ディスク・ドライブ１０１４にインストールされたハード・ディスク、および信号などの媒体を指すために使用される。これらのコンピュータ・プログラム製品は、コンピュータ・システムにソフトウェアを提供するための手段である。コンピュータ可読媒体は、コンピュータ・システムがコンピュータ可読媒体からデータ、命令、メッセージまたはメッセージ・パケット、およびその他のコンピュータ可読情報を読み取れるようにする。コンピュータ可読媒体としては、たとえば、フレキシブル・ディスク、ＲＯＭ、フラッシュ・メモリ、ディスク・ドライブ・メモリ、ＣＤ−ＲＯＭ、およびその他の永続ストレージなどの不揮発性メモリを含むことができる。これは、たとえば、コンピュータ・システム間でデータおよびコンピュータ命令などの情報を伝送するために有用である。

コンピュータ・プログラム（コンピュータ制御ロジックともいう）は、メイン・メモリ１００６および２次メモリ１０１２の少なくとも一方に保管される。また、コンピュータ・プログラムは、通信インターフェース１０２４を介して受信することもできる。このようなコンピュータ・プログラムは、実行されたときに、コンピュータ・システムが本明細書で論じたように本発明の特徴を実行できるようにする。特に、コンピュータ・プログラムは、実行されたときに、プロセッサ１００４がコンピュータ・システムの機能を実行できるようにする。したがって、このようなコンピュータ・プログラムはコンピュータ・システムのコントローラを表す。

音声信号からピッチ情報を抽出するための新規のシステムおよび関連方法は、音声認識システム用または音声符号化システム用など、ピッチ情報を処理するための重大な利点をもたらす。分散音声認識システムは特に本発明の新規のシステムおよびピッチ抽出方法から恩恵を受けることになる。ポータブル・ワイヤレス装置、携帯電話、および双方向無線機など、分散音声認識フロントエンド装置は概して、コンピューティング・リソースが限られ、処理機能が限られており、バッテリ作動であるので、このようなタイプの装置は特に、上記で論じたように本発明の好ましい諸実施形態から恩恵を受けることになる。

本発明の特定の諸実施形態が開示されているが、当業者であれば、本発明の精神および範囲から逸脱せずに、この特定の諸実施形態に対し変更を加えることができることを理解するであろう。したがって、本発明の範囲はこの特定の諸実施形態に制限されることはない。さらに、特許請求の範囲は、本発明の範囲内の任意かつすべてのこのような適用業務、変更例、および実施形態を包含することが意図されている。

本発明の好ましい一実施形態による分散音声認識に適したネットワーク・システムを示すブロック図である。本発明の好ましい一実施形態による分散音声認識に適したワイヤレス通信システムの詳細なブロック図である。本発明の好ましい一実施形態によるワイヤレス通信システムで動作するためのワイヤレス装置を示すブロック図である。本発明の好ましい一実施形態による分散音声認識のためのフロントエンドに適したワイヤレス装置のコンポーネントを示すブロック図である。本発明の好ましい一実施形態によるピッチ抽出プロセスを示す機能ブロック図である。本発明の好ましい一実施形態によるピッチ抽出プロセスの各部を示す操作流れ図である。本発明の好ましい一実施形態によるピッチ抽出プロセスの各部を示す操作流れ図である。本発明の好ましい一実施形態によるピッチ抽出プロセスの各部を示す操作流れ図である。本発明の好ましい一実施形態による時間領域信号分析プロセスを示す時間線対信号エネルギの図である。本発明の好ましい一実施形態による時間領域信号分析プロセスを示す時間線対信号エネルギの図である。本発明の好ましい一実施形態を実現するために適したコンピュータ・システムのブロック図である。

Claims

音声信号をサンプリングするステップと、
サンプリングされた音声信号を重複フレームに分割するステップと、
それぞれがスペクトル・スコアと結合され、前記フレームについての可能なピッチ推定値を表す少なくとも１つのピッチ候補を、周波数領域分析を使用して提供するステップと、
前記少なくとも１つのピッチ候補に関連する遅れ値を使用して時間領域の相関値を算出することにより、前記少なくとも１つのピッチ候補に関する相関スコアを提供するステップと、
前記フレームのピッチ推定値を表すために前記少なくとも１つのピッチ候補から高い相関スコアを有するピッチ候補を選択するステップとを有し、
前記相関スコアを提供するステップは、
前記フレームと前記フレームの前のフレームを結合して拡張フレームを生成するステップと、
前記拡張フレームを低減フィルタリングおよびダウンサンプリングすることにより、ダウンサンプリングされた拡張フレームを生成するステップと、
前記少なくとも１つのピッチ候補に関連するピッチ周期の値を前記ダウンサンプリングされた拡張フレームのサンプルで表すことにより、前記少なくとも１つのピッチ候補に関連するダウンサンプリングされた遅れ値を算出するステップと、
前記ダウンサンプリングされた遅れ値を使用して、前記ダウンサンプリングされた拡張フレームの相関を算出するステップとを含み、
前記相関を算出するステップは、前記ダウンサンプリングされた遅れ値に応じて、前記ダウンサンプリングされた拡張フレームから、一方のフラグメントが他方のフラグメントに対して前記遅れ値分だけ遅延し、かつフラグメントエネルギが最大となる２つのフラグメントを位置決めして、前記２つのフラグメントの間の相関を算出する、方法。
選択するステップが、
前記少なくとも１つのピッチ候補から高いスペクトル・スコアを有するピッチ候補を選択するステップを有する、請求項１に記載の方法。
前記少なくとも１つのピッチ候補が、前記フレームについて可能な６個以下のピッチ推定値を表す６個以下のピッチ候補を有する、請求項１に記載の方法。
サンプリングされた音声信号の複数のフレームの複数のピッチ推定値を選択するステップと、
前記複数のピッチ推定値を有する、サンプリングされた音声信号の表現を符号化するステップと、
をさらに有する、請求項１に記載の方法。
サンプリングされた音声信号の符号化表現が分散音声認識システムで使用される、請求項４に記載の方法。
音声信号の特徴を抽出するための分散音声認識フロントエンドを有する分散音声認識システムであって、前記分散音声認識フロントエンドが、
メモリと、
前記メモリに通信可能に結合されたプロセッサと、
前記メモリおよび前記プロセッサに通信可能に結合されたピッチ抽出プロセッサであって、
音声信号をサンプリングし、
サンプリングされた音声信号を重複フレームに分割し、
それぞれがスペクトル・スコアと結合され、前記フレームについての可能なピッチ推定値を表す少なくとも１つのピッチ候補を、周波数領域分析を使用して提供し、
前記少なくとも１つのピッチ候補に関連する遅れ値を使用して時間領域の相関値を算出することにより、前記少なくとも１つのピッチ候補に関する相関スコアを提供し、
前記フレームのピッチ推定値を表すために前記少なくとも１つのピッチ候補から高い相関スコアを有するピッチ候補を選択することによって音声信号からピッチ情報を抽出するためのピッチ抽出プロセッサとを有し、
前記ピッチ抽出プロセッサは、
前記フレームと前記フレームの前のフレームを結合して拡張フレームを生成し、前記拡張フレームを低減フィルタリングおよびダウンサンプリングすることにより、ダウンサンプリングされた拡張フレームを生成し、前記少なくとも１つのピッチ候補に関連するピッチ周期の値を前記ダウンサンプリングされた拡張フレームのサンプルで表すことにより、前記少なくとも１つのピッチ候補に関連するダウンサンプリングされた遅れ値を算出し、前記ダウンサンプリングされた遅れ値を使用して、前記ダウンサンプリングされた拡張フレームの相関を算出することにより、前記相関スコアを算出し、
前記ダウンサンプリングされた遅れ値に応じて、前記ダウンサンプリングされた拡張フレームから、一方のフラグメントが他方のフラグメントに対して前記遅れ値分だけ遅延し、かつフラグメントエネルギが最大となる２つのフラグメントを位置決めして、前記２つのフラグメントの間の相関を算出することにより、前記拡張フレームの相関を算出する、分散音声認識システム。
音声処理システムのためのコンピュータ・プログラムを有するコンピュータ可読媒体であって、前記コンピュータ・プログラムが、
音声信号をサンプリングするステップと、
サンプリングされた音声信号を重複フレームに分割するステップと、
それぞれがスペクトル・スコアと結合され、前記フレームについての可能なピッチ推定値を表す少なくとも１つのピッチ候補を、周波数領域分析を使用して提供するステップと、
前記少なくとも１つのピッチ候補に関連する遅れ値を使用して時間領域の相関値を算出することにより、前記少なくとも１つのピッチ候補に関する相関スコアを提供するステップと、
前記フレームのピッチ推定値を表すために前記少なくとも１つのピッチ候補から高い相関スコアを有するピッチ候補を選択するステップと、
をコンピュータに実行させ、
前記相関スコアを提供するステップは、
前記フレームと前記フレームの前のフレームを結合して拡張フレームを生成するステップと、
前記拡張フレームを低減フィルタリングおよびダウンサンプリングすることにより、ダウンサンプリングされた拡張フレームを生成するステップと、
前記少なくとも１つのピッチ候補に関連するピッチ周期の値を前記ダウンサンプリングされた拡張フレームのサンプルで表すことにより、前記少なくとも１つのピッチ候補に関連するダウンサンプリングされた遅れ値を算出するステップと、
前記ダウンサンプリングされた遅れ値を使用して、前記ダウンサンプリングされた拡張フレームの相関を算出するステップとを含み、
前記相関を算出するステップは、前記ダウンサンプリングされた遅れ値に応じて、前記ダウンサンプリングされた拡張フレームから、一方のフラグメントが他方のフラグメントに対して前記遅れ値分だけ遅延し、かつフラグメントエネルギが最大となる２つのフラグメントを位置決めして、前記２つのフラグメントの間の相関を算出する、コンピュータ可読媒体。