JP4755585B6 - 音声信号に関する周波数領域および時間領域の複合ピッチ抽出のための方法、分散音声認識システム及びコンピュータ可読媒体 - Google Patents
音声信号に関する周波数領域および時間領域の複合ピッチ抽出のための方法、分散音声認識システム及びコンピュータ可読媒体 Download PDFInfo
- Publication number
- JP4755585B6 JP4755585B6 JP2006509610A JP2006509610A JP4755585B6 JP 4755585 B6 JP4755585 B6 JP 4755585B6 JP 2006509610 A JP2006509610 A JP 2006509610A JP 2006509610 A JP2006509610 A JP 2006509610A JP 4755585 B6 JP4755585 B6 JP 4755585B6
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- frame
- downsampled
- correlation
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 68
- 238000000605 extraction Methods 0.000 title claims description 39
- 239000012634 fragment Substances 0.000 claims description 30
- 230000005236 sound signal Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 230000003111 delayed effect Effects 0.000 claims 3
- 238000004891 communication Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 12
- 238000003909 pattern recognition Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 239000000872 buffer Substances 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Description
本発明は一般に、音声処理システム、たとえば、音声符号化および音声認識システムの分野に関し、詳細には、狭帯域幅通信およびワイヤレス通信用の分散音声認識システムに関する。
携帯電話およびワイヤレス通信装置の出現により、ワイヤレス・サービス業界は、数十億ドル規模の業界に成長した。ワイヤレス・サービス・プロバイダ(WSP)の収益の大部分は加入によって生じるものである。このため、成功したネットワークを運営するWSPの能力は、限られた帯域幅を有するネットワークにより加入者に提供されるサービスの品質に依存する。このために、WSPは、加入者に対する高品質のサービスを維持しながらネットワークにより伝送される情報の量を軽減するための方法を絶えず捜している。
最近、音声認識はワイヤレス・サービス業界での成功を享受している。音声認識は様々な適用業務およびサービスで使用されている。たとえば、ワイヤレス・サービス加入者には短縮ダイヤル機能を提供することができ、それにより加入者はワイヤレス装置に対して呼出しの受信者の名前を話しかける。受信者の名前は音声認識を使用して認識され、加入者と受信者との間で呼出しが開始される。もう1つの例では、発呼者情報(411)は音声認識を使用して、加入者が電話をかけようとしている受信者の名前を認識することができる。
音声認識がワイヤレス社会で受け入れられるにつれて、分散音声認識(DSR)が新生技術として現れてきた。DSRは、音声認識システムの特徴抽出部分とパターン認識部分が分散されているフレームワークを指す。すなわち、音声認識システムの特徴抽出部分とパターン認識部分はそれぞれ異なった位置で異なった処理装置によって実行される。具体的には、特徴抽出プロセスはフロントエンドで、すなわち、ワイヤレス装置上で実行され、パターン認識プロセスはバックエンドで、すなわち、ワイヤレス・サービス・プロバイダ・システムによって実行される。DSRにより、ワイヤレス装置は、口頭のフライト情報による自動航空機予約または同様の特徴を備えた仲介取引などのより複雑な音声認識タスクを処理することができる。
欧州電気通信標準化機構(ETSI)は、DSRに関する1組の規格を発行している。ETSI DSR規格ES 201 108(2000年4月)およびES 202 050(2002年7月)は、フロントエンドにおける特徴抽出および圧縮アルゴリズムを定義している。しかし、これらの規格は、適用業務によっては重要である可能性のあるバックエンドにおける音声再構築を採り入れていない。この結果、上記の規格(ES 201 108およびES 202 050)を拡張して、バックエンドにおける音声再構築ならびに声調言語認識を含めるために、新しい作業項目WI−030およびWI−034がETSIによって発表されている。
現在のDSR規格では、抽出され、圧縮され、バックエンドに伝送される特徴は、13個のメル周波数ケプストラム係数(MFCC)C0〜C12と、フレームエネルギの対数log−Eである。これらの特徴は、10msごとに、すなわち毎秒100回ずつ更新される。拡張された規格に関する提案(すなわち、上述の作業項目)では、ピッチおよびクラス(または発声)情報も各フレームごとに導出され、MFCCおよびlog−Eに加えて伝送されることが意図されている。しかし、ピッチ情報抽出方法は依然として現在のDSR規格の拡張部分で定義すべきものである。
時間領域方法または周波数領域方法のいずれかを使用してピッチ推定するために様々な技法が使用されてきた。比較的短いフレーム内の有声音を表す音声信号が周期信号によって近似できることは周知のことである。この周期性は、周期サイクル持続時間(ピッチ周期)Tによって、または基本周波数F0と呼ばれるその逆数によって特徴付けられる。無声音は非周期音声信号によって表される。標準的なボコーダ、たとえば、LPC−10ボコーダおよびMELP(混合励起線形予測)ボコーダでは、ピッチ抽出のために時間領域方法が一般的に使用されてきた。また、時間領域ピッチ推定のための一般的な方法では、時間tを中心とする信号セグメントと時間t−Tを中心とする信号セグメントとの相互相関を最大にするピッチ周期Tを探し求める相関タイプの方式も使用する。時間領域方法を使用するピッチ推定は、関連する複雑度および暗騒音条件に応じて、成功度が変化していた。一般に、このような時間領域方法は、所与の時間ウィンドウ内に多くのピッチ周期が含まれるため、高ピッチ音の方が良好である傾向がある。
米国特許出願第09/617582号
ETSI DSR規格ES 201 108
ETSI DSR規格ES 202 050
1991年1月発行のIEEE Trans. Acouts.、Speech and Signal Processingの第39巻、40〜48ページに掲載されたY.Medan、E.Yair、およびD.Chazanによる「Super resolution pitch determination of speech signals」
周知の通り、無限周期信号のフーリエ・スペクトルは、基本周波数の倍数に位置するインパルス(高調波、線)の列である。その結果として、周波数領域ピッチ推定は概して、スペクトル・ピークの位置および振幅の分析に基づくものになる。基本周波数探索に関する(すなわち、ピッチの推定に関する)基準は、基本周波数値とスペクトル・ピークとの高レベルの互換性である。一般に、周波数領域方法は、分析帯域幅内に概して多数の高調波があるため、低ピッチ周波数音のピッチ推定の方が良好である傾向がある。周波数領域方法はスペクトル全体ではなくスペクトル・ピークを分析するので、音声信号内に存在する情報は、音声サンプルの基本周波数を推定するために部分的にのみ使用される。これは、周波数領域方法の利点および欠点のいずれにとっても1つの根拠になる。その利点は、正確な周期モデルからの実音声データの偏差に関する潜在的許容度、ノイズに対するロバスト性、計算の複雑度の低減に関する相対的有効性である。しかし、スペクトル情報の一部のみがテストされるので、この探索基準は十分な条件と見なすことができない。ピッチ抽出のための既知の周波数領域方法は概してスペクトル内の高調波ピークに関する情報のみを使用するので、これらの既知の周波数領域方法を単独で使用すると、ピッチ推定値はDSR適用業務には受け入れられない精度やエラーが発生しやすくなる。
簡潔に言えば、本発明の好ましい諸実施形態により、オーディオ信号に関連するピッチ情報を抽出するためのシステム、方法、およびコンピュータ可読媒体が開示される。本発明の好ましい一実施形態によれば、周波数領域方法と時間領域方法の組合せは、携帯電話または双方向無線機などのワイヤレス装置に関する低処理複雑度を維持しながら、オーディオ信号のフレームを収集し、そのオーディオ信号のフレームのそれぞれに関するピッチ情報を正確に抽出するように機能する。
本発明の好ましい一実施形態は分散音声認識システムで実施される。
さらに、好ましい一実施形態は、音声オーディオ信号に関連する音声符号化を使用する任意の情報処理システムで実施することができる。
本発明の一実施形態では、ピッチ抽出器は、装置またはシステムによって処理されるオーディオ信号のピッチ情報を抽出する。この装置またはシステムは、たとえば、オーディオ信号を受信するためのマイクロホンを含む。ピッチ抽出器は、受信したオーディオ信号に対応するピッチ情報を抽出する。
本発明の好ましい諸実施形態は、音声信号のピッチ情報を正確に抽出し、それにより通信品質を高めながら、処理性能を改善する働きをするので、有利である。また、改善された処理性能は、本発明の好ましい一実施形態を実現するバッテリ作動装置のバッテリ寿命も延長する。
添付図面では同様の参照番号は別々の図全体を通して同一または機能的に同様の要素を指し、添付図面は、以下の詳細な説明とともに本明細書に組み込まれ、本明細書の一部を形成し、様々な諸実施形態をさらに例証し、いずれも本発明による様々な原理および利点を説明する働きをする。
必要に応じて、本発明の詳細な諸実施形態が本明細書に開示されるが、開示された諸実施形態は単に本発明を例示するだけであるが、本発明は様々な形式で実施可能であることを理解されたい。したがって、本明細書に開示されている特定の構造上および機能上の詳細は限定的なものと解釈すべきではなく、単に特許請求の範囲の基礎として、ならびに実質的にすべての適切に詳細な構造で本発明を様々に使用するために当業者に教示するための代表的な基礎として解釈すべきである。さらに、本明細書で使用する用語および句は限定的であることを意図するものではなく、むしろ、本発明に関する理解可能な説明を提供することを意図するものである。
本明細書で使用する「1つ」という用語は1つまたは2つ以上として定義される。本明細書で使用する「複数」という用語は2つまたは3つ以上として定義される。本明細書で使用する「もう1つ」という用語は少なくとも2番目またはそれ以降のものとして定義される。本明細書で使用する「含む(including)」または「有する(having)」という用語はオープンランゲージの「有する(comprising)」として定義される。本明細書で使用する「結合」という用語は、必ずしも直接ではなく、必ずしも機械的ではないが、接続されたものとして定義される。本明細書で使用する「プログラム」、「ソフトウェア・アプリケーション」などの用語は、コンピュータ・システム上で実行するために設計された一連の命令として定義される。プログラム、コンピュータ・プログラム、またはソフトウェア・アプリケーションは、サブルーチン、関数、プロシージャ、オブジェクト・メソッド、オブジェクト・インプリメンテーション、実行可能アプリケーション、アプレット、サーブレット、ソース・コード、オブジェクト・コード、共用ライブラリ/動的ロード・ライブラリ、もしくはコンピュータ・システム上で実行するために設計されたその他の一連の命令、またはこれらの組合せを含むことができる。
本発明は、好ましい一実施形態により、以下で論ずるように、周波数領域技法と時間領域技法の利点を効果的に組み合わせる低複雑度で正確かつロバストなピッチ推定方法を提案することにより、従来技術に関する諸問題を有利に克服する。本発明の好ましい諸実施形態により使用される周波数領域方法および時間領域方法は、相互に補完し、正確な結果をもたらす。たとえば、周波数領域方法は、分析帯域幅内に多数の高調波ピークがあるため、低ピッチ音の方が良好に実行する傾向があり、時間領域方法は、特定の時間ウィンドウ内に多数のピッチ・サイクルがあるため、高ピッチ音の方が良好に実行する傾向がある。以下により詳細に説明するように、周波数領域と時間領域のピッチ推定方法の組合せを使用する音声オーディオ信号の分析は、ピッチ抽出プロセスのために比較的低い処理複雑度を維持しながら、音声オーディオ信号のピッチについて全体的により正確な推定を行うことになる。
ピッチ抽出方法が正確で、暗騒音に対してロバストで、しかも低複雑度であることは重要である。ピッチ抽出のための操作方法の複雑度が低減されることは、処理機能、使用可能メモリ、その他の装置リソース、小型のポータブル電源、たとえば、バッテリから使用可能な動作電力の点で著しく制限される可能性のあるフロントエンド装置、たとえば、ワイヤレス装置における処理オーバヘッドを低減するために特に重要である。音声信号からピッチ情報を抽出することなど、プロセッサが要求される処理オーバヘッドの量が少なければ少ないほど、ワイヤレス装置用の電源、たとえば、バッテリの電力の節約が大きくなる。顧客は絶えずワイヤレス装置のためにより長いバッテリ寿命を探し求めている。ワイヤレス装置用のバッテリ寿命を延長することにより、それは、顧客にとって利点および恩恵を増すことになり、したがって、このような製品の市場における商業的可能性を高めることになる。
一般に、本発明の好ましい一実施形態は、周波数領域と時間領域のピッチ推定方法の組合せを使用して、各音声信号サンプルについてピッチ推定値を決定し、それにより各音声信号サンプルに関するピッチ情報を抽出することにより、フレーム内でサンプリングした音声信号を処理する。拡張DSR規格に関する提案では、入力音声信号のスペクトル情報(短時間フーリエ変換の形になっている周波数領域情報)はピッチ抽出方法による使用のために容易に入手可能である。したがって、本発明の好ましい一実施形態による周波数領域ピッチ推定方法は、使用可能なスペクトル情報を利用する。ピッチ推定のための好ましい一方法の概要については以下に論ずるが、新規のシステムおよび新規のピッチ推定方法に関するより詳細な説明はその後に示すことにする。
DSRフロントエンドですでに使用可能なスペクトル情報(各音声フレームに関する短時間フーリエ変換の形になっている)を使用し、各音声フレームに関する短時間フーリエ変換におけるスペクトル・ピークを備えたピッチ周波数候補の互換性の尺度である関連スペクトル・スコアとともに周波数領域方法を使用して、少数のピッチ候補が選択される。ピッチ候補のそれぞれについて、対応する時間のずれが計算され、時間領域相関方法を使用して、好ましくはピッチ推定のための時間領域相関方法について処理複雑度を低く保持するために低域フィルタリングおよびダウンサンプリングされた音声信号を使用して、正規化相関スコアが計算される。次に、現行フレームに関するピッチ推定値として最良候補を選択するために、スペクトル・スコア、相関スコア、および以前のピッチ推定値の履歴が論理装置によって処理される。本発明の代替諸実施形態を実現するための例示的なシステムを説明した後、以下の考察では、本発明の好ましい諸実施形態による特定のピッチ抽出方法について詳細に説明する。
図1は、本発明の好ましい一実施形態による分散音声認識(DSR)のためのネットワークを示すブロック図である。図1は、サーバ/ワイヤレス・サービス・プロバイダ102をクライアント106および108と接続するネットワーク104上で動作するネットワーク・サーバまたはワイヤレス・サービス・プロバイダ102を示している。本発明の一実施形態では、図1は、サーバ102と、ネットワーク104と、クライアント・コンピュータ106〜108とを含むネットワーク・コンピュータ・システムを表している。第1の実施形態では、ネットワーク104は、公衆サービス電話網(PSTN)などの回線交換網である。代替例では、ネットワーク104はパケット交換網である。パケット交換網は、グローバル・インターネットなどの広域ネットワーク(WAN)、私設WAN、ローカル・エリア・ネットワーク(LAN)、通信ネットワーク、または上述のネットワークの任意の組合せである。他の代替例では、ネットワーク104は、有線ネットワーク、ワイヤレス・ネットワーク、ブロードキャスト・ネットワーク、または2地点間ネットワークである。
第1の実施形態では、サーバ102とコンピュータ・クライアント106および108は、1つまたは複数のパーソナル・コンピュータ(PC)(たとえば、Microsoft Windows 95/98/2000/ME/CE/NT/XPオペレーティング・システムを実行するIBMまたは互換性のあるPCワークステーション、Mac OSオペレーティング・システムを実行するMacintoshコンピュータ、LINUXオペレーティング・システムを実行するPC、または同等のもの)または任意の他のコンピュータ処理装置を有する。代替例として、サーバ102とコンピュータ・クライアント106および108は、1つまたは複数のサーバ・システム(たとえば、SunOSもしくはAIXオペレーティング・システムを実行するSUN Ultraワークステーション、AIXオペレーティング・システムを実行するIBM RS/6000ワークステーションおよびサーバ、またはLINUXオペレーティング・システムを実行するサーバ)を含む。
本発明のもう1つの実施形態では、図1は、ワイヤレス・サービス・プロバイダ102と、ワイヤレス・ネットワーク104と、ワイヤレス装置106〜108とを含むワイヤレス通信システムを表している。ワイヤレス・サービス・プロバイダ102は、第1世代アナログ携帯電話サービス、第2世代デジタル携帯電話サービス、または第3世代インターネット対応携帯電話サービスである。
この例示的な実施形態では、ワイヤレス・ネットワーク104は、携帯電話ワイヤレス・ネットワーク、モバイル・テキスト・メッセージング・デバイス・ネットワーク、ページャ・ネットワークなどである。さらに、図1のワイヤレス・ネットワーク104の通信規格は、符号分割多重接続(CDMA)、時分割多元接続(TDMA)、モバイル通信用グローバル・システム(GSM)、汎用パケット無線サービス(GPRS)、周波数分割多元接続(FDMA)などである。ワイヤレス・ネットワーク104は、任意の数のワイヤレス装置106〜108をサポートするが、このワイヤレス装置は携帯電話、テキスト・メッセージング・デバイス、ハンドヘルド・コンピュータ、ページャ、ビーパなどである。
この例示的は実施形態では、ワイヤレス・サービス・プロバイダ102はサーバを含み、このサーバは1つまたは複数のパーソナル・コンピュータ(PC)(たとえば、Microsoft Windows 95/98/2000/ME/CE/NT/XPオペレーティング・システムを実行するIBMまたは互換性のあるPCワークステーション、Mac OSオペレーティング・システムを実行するMacintoshコンピュータ、LINUXオペレーティング・システムを実行するPC、または同等のもの)または任意の他のコンピュータ処理装置を有する。本発明のもう1つの実施形態では、ワイヤレス・サービス・プロバイダ102のサーバは1つまたは複数のサーバ・システム(たとえば、SunOSもしくはAIXオペレーティング・システムを実行するSUN Ultraワークステーション、AIXオペレーティング・システムを実行するIBM RS/6000ワークステーションおよびサーバ、またはLINUXオペレーティング・システムを実行するサーバ)である。
上記で説明した通り、DSRは、音声認識システムの特徴抽出部分とパターン認識部分が分散されているフレームワークを指す。すなわち、音声認識システムの特徴抽出部分とパターン認識部分はそれぞれ異なった位置で異なった処理装置によって実行される。具体的には、特徴抽出プロセスはフロントエンド、たとえば、ワイヤレス装置106および108によって実行され、パターン認識プロセスはバックエンド、たとえば、ワイヤレス・サービス・プロバイダ102のサーバによって実行される。図1に示した通り、特徴抽出プロセッサ107はフロントエンド・ワイヤレス装置106内に位置し、パターン認識プロセッサ103はワイヤレス・サービス・プロバイダ・サーバ102内に位置する。特徴抽出プロセッサ107は、ピッチ情報の抽出など、音声信号から特徴情報を抽出し、次に、この抽出した情報をネットワーク104によりパターン認識プロセッサ103に伝達する。本発明の好ましい一実施形態によりフロントエンド・ワイヤレス装置106上の特徴抽出プロセッサ107によって実行される特徴抽出プロセスについては以下により詳細に説明する。
図2は、本発明の例示的な一実施形態によるDSR用のワイヤレス通信システムの詳細なブロック図である。図2は、上記の図1に関連して説明したワイヤレス通信システムのより詳細なブロック図である。図2のワイヤレス通信システムは、基地局202、203、および204に結合されたシステム・コントローラ201を含む。システム・コントローラ201は、当業者にとって周知のように全体的なシステム通信を制御する。加えて、図2のワイヤレス通信システムは、電話インターフェース206により外部電話網へのインターフェースが取られる。基地局202、203、および204は、加入者ユニットまたはトランシーバ(すなわち、ワイヤレス装置)106および108(図1を参照)を含む地理的カバレッジ領域の各部分を個々にサポートする。ワイヤレス装置106および108は、CDMA、FDMA、TDMA、GPRS、およびGSMなどのワイヤレス通信プロトコルを使用して、基地局202、203、および204とのインターフェースを取る。図1に関連して図2に示した例示的なシステムでは、ワイヤレス装置106は特徴抽出プロセッサ107を含み、DSR用のフロントエンドを提供し、基地局202は、ワイヤレス装置106とのワイヤレス通信およびインターフェースを維持しながら、DSR用のバックエンドを提供するパターン認識プロセッサ103を含む。この例示的なシステムでは、基地局202、203、および204のそれぞれが、フロントエンド・ワイヤレス装置106とのワイヤレス通信およびインターフェースを維持しながら、フロントエンド・ワイヤレス装置106によるDSR用のバックエンドを提供することにも留意されたい。DSRバックエンドは全体的な通信システム内の他のポイントに位置することができることは当業者にとって明らかなことである。たとえば、コントローラ201(図2を参照)は、基地局202、203、および204と通信して、ワイヤレス装置106、108に関するパターン認識を処理するDSRバックエンドを含むことができる。代替例として、DSRバックエンドは、インターネットなどの広域ネットワークによるかまたは電話インターフェース206を介する公衆交換電話網(PSTN)などにより、コントローラ201に通信可能に結合されたネットワークによりリモート・サーバに位置することもできる。DSRバックエンドは、たとえば、航空機予約サービスを提供するリモート・サーバに位置することができる。ワイヤレス装置106のユーザは、たとえば、リモート航空機予約サーバにボイス・コマンドおよび照会を伝達することができる。当業者には分かるように、任意のリモート・アプリケーション・サーバは、本発明の好ましい一実施形態を使用する分散音声認識システムから恩恵を受けることができる。
図2のワイヤレス通信システムの地理的カバレッジは、基地局202、203、および204(本明細書ではセル・サーバともいう)によって個々にサービス提供される、複数カバレッジ・エリアまたはセルに分割される。ワイヤレス通信システム内で動作するワイヤレス装置は、そのシステム内の受信動作および送信動作のための基本インターフェースとして特定のセル・サーバを選択する。たとえば、ワイヤレス装置106はその基本セル・サーバとしてセル・サーバ202を有し、ワイヤレス装置108はその基本セル・サーバとしてセル・サーバ204を有する。好ましくは、ワイヤレス装置は、ワイヤレス通信システムへの最良通信インターフェースを提供するセル・サーバを選択する。通常、これは、ワイヤレス装置と特定のセル・サーバとの間の通信信号の信号品質に依存することになる。
ワイヤレス装置はワイヤレス通信システムの地理的カバレッジ内の様々な地理的位置間またはセル間で移動するので、次に基本セル・サーバとして機能することになる他のセル・サーバへのハンドオフまたはハンドオーバが必要になる可能性がある。ワイヤレス装置は、隣接するセルにサービス提供する基地局からの通信信号をモニターして、ハンドオフのために最も適切な新しいサーバを決定する。隣接するセル・サーバからの送信信号の品質をモニターすることに加えて、この例によれば、ワイヤレス装置は、送信信号に関連する送信色分け情報もモニターして、どの隣接セル・サーバが送信信号のソースであるかを素早く識別する。
図3は、本発明の好ましい一実施形態によるワイヤレス通信システム用のワイヤレス装置を示すブロック図である。図3は、上記の図1および図2に関連して説明したワイヤレス装置のより詳細なブロック図である。図3は、図1に示したようなワイヤレス装置106を示している。本発明の一実施形態では、ワイヤレス装置106は、CDMA、FDMA、TDMA、GPRS、またはGSMなどの通信プロトコルに基づく通信チャネルにより無線周波数信号を送受信可能な双方向無線機を有する。ワイヤレス装置106は、受信モードと送信モードとの間でワイヤレス装置106を切り替えるコントローラ302の制御下で動作する。受信モードでは、コントローラ302は送信/受信スイッチ314によりアンテナ316を受信機304に結合する。受信機304は受信信号をデコードし、そのデコードした信号をコントローラ302に提供する。送信モードでは、コントローラ302はスイッチ314によりアンテナ316を送信機312に結合する。
コントローラ302は、メモリ310内に保管されたプログラム命令により送信機および受信機を操作する。保管された命令は隣接セル測定スケジューリング・アルゴリズムを含む。この例によるメモリ310は、フラッシュ・メモリ、その他の不揮発性メモリ、ランダム・アクセス・メモリ(RAM)、ダイナミック・ランダム・アクセス・メモリ(DRAM)などを含む。タイマ・モジュール311は、時刻指定イベントを追跡するためにコントローラ302にタイミング情報を提供する。さらに、コントローラ302は、タイマ・モジュール311からの時間情報を使用して、隣接セル・サーバ送信および送信した色分け情報に関するスケジューリングを追跡することができる。
隣接セル測定がスケジューリングされると、受信機304は、コントローラ302の制御下で隣接セル・サーバをモニターし、「受信信号品質インジケータ」(RSQI)を受信する。RSQI回路308は、各モニター対象セル・サーバによって送信された信号の信号品質を表すRSQI信号を生成する。各RSQI信号は、アナログ・デジタル変換器306によってデジタル情報に変換され、コントローラ302への入力として提供される。カラー・コード情報および関連の受信信号品質インジケータを使用して、ワイヤレス装置106は、ハンドオフが必要なときに基本セル・サーバとして使用するための最も適切な隣接セル・サーバを決定する。
図3に示したプロセッサ320は、以下により詳細に説明する分散音声認識に帰因する機能などの様々な機能を実行する。この例によれば、様々なDSR機能を操作するプロセッサ320は、図1に示した特徴抽出プロセッサ107に対応する。本発明の代替諸実施形態では、図3に示したプロセッサ320は、上述の機能およびタスクを実行するための単一プロセッサまたは2つ以上のプロセッサを含む。本発明の好ましい諸実施形態による図1の特徴抽出プロセッサ107の有利な構造および機能については、以下により詳細に論ずる。
図4は、ワイヤレス・サービス・プロバイダ・サーバ102からのバックエンド・サポートによりDSR用のフロントエンドを提供するように動作するワイヤレス装置106のコンポーネントを示すブロック図である。図4については、図1、図2、および図3に関連して論ずる。この例では、メモリ310からの機能コンポーネントとともに動作するプロセッサ320がDSR用のフロントエンドの機能および特徴を実現することは言うまでもない。たとえば、プロセッサ320に通信可能に結合されている特徴抽出プロセッサ107は、ユーザがマイクロホン404に音声オーディオ402を提供する場合など、マイクロホン404を介して受信した音声信号からピッチ情報を抽出する。また、プロセッサ320は、図3に示した通り、ワイヤレス装置106の送信機312にも通信可能に結合され、DSR用のバックエンドを提供するサーバ102およびパターン認識プロセッサ103による受信が予定された抽出されたピッチ情報をフロントエンド特徴抽出プロセッサ107からワイヤレス・ネットワーク104内にワイヤレスで伝達するように動作する。
この例によれば、ワイヤレス装置106は、装置106のユーザからの音声オーディオなどのオーディオ402を受信するためのマイクロホン404を含む。マイクロホン404は、オーディオ402を受信し、次に音声信号をプロセッサ320に結合する。プロセッサ320によって実行されるプロセスの中で、特徴抽出プロセッサ107は音声信号からピッチ情報を抽出する。抽出されたピッチ情報は、情報パケット内に含まれる少なくとも1つのコードワードにエンコードされる。次にこのパケットは、送信機312によってネットワーク104を介して、パターン認識プロセッサ103を含むワイヤレス・サービス・プロバイダ・サーバ102に送信される。本発明の好ましい諸実施形態によりピッチ情報を抽出するための有利な機能コンポーネントおよびプロセスについては、以下により詳細に説明する。
図5は、本発明の好ましい一実施形態により特徴抽出プロセッサ107によって実行されるピッチ抽出プロセスを示す機能ブロック図である。図5に関する考察は、図1、図2、図3、および図4の参照でより十分に理解されるであろう。
次に図5を参照すると、同図は、本発明の好ましい一実施形態により動作するピッチ推定システムを示す単純化した機能ブロック図である。図1の特徴抽出プロセッサ107は、たとえば、図5に図示したピッチ抽出システムを有する。図5のピッチ抽出器は、フレーマ502と、短時間フーリエ変換(STFT)回路504と、周波数領域ピッチ候補発生器(FDPCG)506と、リサンプラ508と、相関回路510と、ピッチ・ユニット変換器512と、論理装置514と、遅延装置516とを有する。
システムへの入力はデジタル化音声信号である。システム出力は、等間隔の時間モーメントまたはフレームに関連する一連のピッチ値(ピッチ輪郭)である。1つのピッチ値は、対応する時間モーメントの付近にある音声信号セグメントの周期性を表している。ゼロなどの予約ピッチ値は、その信号が非周期性である無声音声セグメントを示す。好ましい諸実施形態によっては、たとえば、ETSI DSR規格の拡張に関する提案では、ピッチ推定はむしろ、音声符号化、認識、またはその他の音声処理要求に関するより一般的なシステムのサブシステムである。このような諸実施形態では、フレーマ502およびSTFT回路504の少なくとも一方は、ピッチ推定サブシステムの機能ブロックではなく、親システムの機能ブロックになる可能性がある。これに対応して、それぞれの出力は、ピッチ推定サブシステムの外側で生成され、そのサブシステムに供給される。
フレーマ502は、10msなどの定義済みオフセット分だけ相互にシフトした25msなどの定義済み持続時間のフレームに音声信号を分割する。各フレームは、STFT回路504およびリサンプラ508に並行して渡され、制御の流れは図5に示したように分岐される。
機能ブロック図の上部分岐から始めると、STFT回路504内では、ウィンドウ処理機能、たとえば、ハミング・ウィンドウによる乗算と、ウィンドウ化フレームの高速フーリエ変換(FFT)とを含む短時間フーリエ変換がフレームに適用される。
STFT回路504によって得られたフレーム・スペクトルはさらにFDPCG506に渡され、それがピッチ候補についてスペクトル・ピーク・ベースの決定を実行する。FDPCG506は、2000年7月14日に出願された米国特許出願第09/617582号に記載されているような任意の既知の周波数領域ピッチ推定方法を使用することができるが、同特許出願の教示全体は参照により本明細書に組み込まれる。これらの方法のいくつかは、1つまたは複数の前のフレームから推定されたピッチ値を使用する。これに対応して、1つまたは複数の前のフレームから論理装置514(本明細書で以下に説明するもの)により得られ、遅延装置516に保管されたピッチ推定システム全体の出力は、FDPCG506に供給される。
選択された周波数領域方法の動作モードは、この例示的な実施形態により、ピッチ候補が決定され次第、すなわち、最良候補の最終選択が行われる前に、プロセスが終了するように変更される。したがって、FDPCG506はいくつかのピッチ候補を出力する。ETSI DSR規格の拡張に関する提案では、6個以下のピッチ候補がFDPCG506によって生成される。しかし、任意の数のピッチ候補が同様に本発明の代替諸実施形態に適している可能性があることは当業者にとって明らかであるはずである。各ピッチ候補に関連する情報は、正規化基本周波数F0値(1をサンプルに表されたピッチ周期で割ったもの)と、スペクトルに含まれるスペクトル・ピークとその基本周波数との互換性の尺度であるスペクトル・スコアSSとを有する。
流れの分岐点に戻ると、各フレームはリサンプラ508に供給され、そこでフレームは遮断周波数Fcによる低域フィルタリング(LPF)が施され、続いてダウンサンプリングが行われる。この方法の好ましい一実施形態では、800Hzの低域通過無限インパルス応答(IIR)6次バターワース・フィルタが1次IIR低周波エンファシス・フィルタと組み合わされる。この複合フィルタはこのフレームの最後のFS個のサンプルに適用され、ここで、FSは相対フレーム・シフトである。というのは、これらは前のフレームに存在していなかった唯一の新しいサンプルであるからである。リサンプラ508は、前のフレームから生成されたLH個のフィルタリングされたサンプルが保管される履歴バッファを維持する。
LHは以下のように定義される。
LH=2*MaxPitch−FS
LH=2*MaxPitch−FS
ここで、事前定義数MaxPitchはピッチ探索範囲の上限である。フィルタリングされた信号の新しいFS個のサンプルは履歴バッファの内容に付加され、その結果、2*MaxPitchというサンプル長の拡張フィルタ・フレームが得られる。次に、この拡張フィルタ・フレームはダウンサンプリングが施され、これによりダウンサンプリングされた拡張フレームが生成される。ダウンサンプリング係数DSFは好ましくは、非理想低域フィルタリングによるエイリアシング効果を回避するために、以下の式によって示される理論的に正当化された最大値よりわずかに低くなるように選択される。
DSF=0.5*Fs/Fc
ここで、Fsは元の音声信号のサンプリング周波数である。この方法のこのような好ましい一実施形態では、Fs値がそれぞれ8000Hz、11000Hz、および16000Hzである場合に、4、5、および8というDSF値が使用される。(それぞれ、5、6.875、および10という理論値と比較されたい。)
DSF=0.5*Fs/Fc
ここで、Fsは元の音声信号のサンプリング周波数である。この方法のこのような好ましい一実施形態では、Fs値がそれぞれ8000Hz、11000Hz、および16000Hzである場合に、4、5、および8というDSF値が使用される。(それぞれ、5、6.875、および10という理論値と比較されたい。)
リサンプラ508によって生成されたダウンサンプリングされた拡張フレームは相関回路510に渡される。相関回路510のタスクは、FDPCG506によって生成された各ピッチ候補に関する相関ベースのスコアを計算することである。したがって、FDPCG506によって生成されたピッチ候補に関連する基本周波数値{F0i}は、以下の式により、ピッチ・ユニット変換器512によって対応するダウンサンプリングされた遅れ値{Ti}に変換され、相関回路510に供給される。
Ti=1/(F0i*DSF)
各ピッチ候補ごとに、相関回路510は相関スコア値CSを生成する。相関回路510の好ましい動作モードについては、図7に関連して本明細書で以下により詳細に説明する。
Ti=1/(F0i*DSF)
各ピッチ候補ごとに、相関回路510は相関スコア値CSを生成する。相関回路510の好ましい動作モードについては、図7に関連して本明細書で以下により詳細に説明する。
最後に、ピッチ候補のリストが論理装置514に供給される。各候補に関連する情報は、a)基本周波数値F0と、b)スペクトル・スコアSSと、c)相関スコアCSとを有する。論理装置は好ましくは、1つまたは複数の前のフレームから得られたピッチ推定値に関する履歴情報を内部に維持する。前述の情報をすべて使用して、論理装置514は、それに渡された複数のピッチ候補の中からピッチ推定値を選択するかまたはそのフレームを無声として示す。ピッチ推定値を選択する際に、論理装置514は、高い(すなわち、最良)相関スコアおよびスペクトル・スコアと、高い基本周波数(短いピッチ・サイクル周期)値と、前のフレームから得られたピッチ推定値のものに近い(すなわち、最良一致)基本周波数値とを有する候補を優先する。この考察を考慮すると当業者にとって明らかなように、この種の妥協を実現するものであれば、どのような論理方式も使用することができる。
図6は、この方法の好ましい一実施形態で実現された論理装置514の動作を示す流れ図である。
候補はステップ602でそのF0値の降順にソートされる。次にステップ604で、クラス1の候補が検出されるかまたはすべての候補がテストされるまで、候補は逐次走査される。候補に関連するCS値とSS値が以下の条件を満足する場合、その候補はクラス1のものであると定義される。
(CS>C1 AND SS>S1) OR (SS>S11 AND SS+CS>C S1) (クラス1の条件)
ここで、C1=0.79、S1=0.78、S11=0.68、およびCS1=1.6である。
(CS>C1 AND SS>S1) OR (SS>S11 AND SS+CS>C S1) (クラス1の条件)
ここで、C1=0.79、S1=0.78、S11=0.68、およびCS1=1.6である。
ステップ606で流れが分岐する。クラス1の候補が検出された場合、それは好ましい候補になるように選択され、制御はステップ608に渡され、以下に記載する付近の最良検出するプロシージャを実行する。
どれがF0に関して好ましい候補に近いかを決定するために、好ましい候補に続くものの中でそれらの候補がチェックされる。以下の場合、2つの値F01およびF02は相互に近いものであると定義される。
(F01<1.2*F02 AND F02<1.2*F01) (近さの条件)
(F01<1.2*F02 AND F02<1.2*F01) (近さの条件)
近い候補の中で、複数のよりよい候補が決定される。よりよい候補は、それぞれ好ましい候補より高いSS値および高いCS値を備えていなければならない。少なくとも1つのよりよい候補が存在する場合、そのよりよい候補の中で最良候補が決定される。最良候補は、それぞれ最良候補より高いSS値および高いCS値を備えている他のよりよい候補がまったく存在しないことによって特徴付けられる。最良候補は、前の候補の代わりに好ましい候補になるように選択される。よりよい候補がまったく検出されない場合、好ましい候補はそのままである。
ステップ610で、以下のようにその平均スコアが好ましい候補より著しく高いクラス1の候補が検出されるかまたはすべての候補が走査されるまで、好ましい候補に続く候補が1つずつ走査される。
SScandidate+CScandidate>SSpreferred+CSpreferred+0.18
上記の条件を満たす候補が検出された場合、ステップ612でそれは好ましい候補になるように選択され、ステップ614で付近の最良を検出するプロシージャが適用される。そうではない場合、制御はステップ616に直接渡される。
SScandidate+CScandidate>SSpreferred+CSpreferred+0.18
上記の条件を満たす候補が検出された場合、ステップ612でそれは好ましい候補になるように選択され、ステップ614で付近の最良を検出するプロシージャが適用される。そうではない場合、制御はステップ616に直接渡される。
ピッチ推定値はステップ616で好ましい候補に設定され、制御はステップ670の履歴の更新に渡され、次にステップ672でこの流れ図を終了する。
条件付き分岐ステップ606に戻ると、クラス1の候補がまったく検出されない場合、ステップ620で内部に維持された履歴情報が安定トラック条件を示しているかどうかがチェックされる。
連続ピッチ・トラックは、1連の2つまたはそれ以上の結果フレーム内の各フレームに関連するピッチ推定値がF0に関して(上記で指定した近さ定義の意味で)前のフレームに関連するものに近い場合、その1連の2つまたはそれ以上の結果フレームとして定義される。連続ピッチ・トラックに属す最後のフレームが前のフレームであるかまたは前のフレームの直前のフレームである場合、安定トラック条件は達成されたものと見なされ、連続ピッチ・トラックは少なくとも6フレームの長さである。
安定トラック条件が当てはまる場合、制御はステップ622に渡され、そうではない場合、ステップ640に渡される。
ステップ622で基準基本周波数値F0refは、安定トラックに属す最後のフレームに関連するF0に設定される。次にステップ624で、クラス2の候補が検出されるかまたはすべての候補がテストされるまで、候補は逐次走査される。候補に関連するF0値とCSスコアおよびSSスコアが以下の条件を満足する場合、その候補はクラス2ものであると定義される。
(CS>C2 AND SS>S2) AND (F0およびF0refが相互に近い) (クラス2の条件)
ここで、C2=0.7、S2=0.7である。ステップ626でクラス2の候補がまったく検出されない場合、ステップ628で無声フレームを示すようにピッチ推定値が設定される。そうではない場合、クラス2の候補は好ましい候補として選択され、ステップ630で付近の最良を検出するプロシージャが適用される。
(CS>C2 AND SS>S2) AND (F0およびF0refが相互に近い) (クラス2の条件)
ここで、C2=0.7、S2=0.7である。ステップ626でクラス2の候補がまったく検出されない場合、ステップ628で無声フレームを示すようにピッチ推定値が設定される。そうではない場合、クラス2の候補は好ましい候補として選択され、ステップ630で付近の最良を検出するプロシージャが適用される。
次にステップ632でピッチ推定値は好ましい候補に設定される。ステップ628または632でピッチ推定値のいずれか1つが設定された後、制御はステップ670の履歴の更新に渡され、次にステップ672で終了する。
最後の条件付き分岐ステップ620に戻ると、安定トラック条件が満たされない場合、制御はステップ640に渡され、そこで連続ピッチ条件がテストされる。前のフレームが少なくとも2フレームの長さの連続ピッチ・トラックに属す場合、この条件は満たされたと見なされる。連続ピッチ条件が満足された場合、次にステップ642でF0ref基準が前のフレームについて推定された値に設定され、ステップ644でクラス2の候補探索が実行される。クラス2の候補が検出された場合、ステップ646でそれが好ましい候補として選択され、ステップ648で付近の最良を検出するプロシージャが適用され、ステップ650でピッチ推定値が好ましい候補に設定され、続いてステップ670で履歴の更新が行われる。そうではない場合、ステップ640の連続ピッチ条件テストが失敗した場合に発生するのと同様に、制御はステップ660に流れる。
ステップ660で、クラス3の候補が検出されるかまたはすべての候補がテストされるまで、候補は逐次走査される。そのスコアに関連するCSスコアおよびSSスコアが以下の条件を満足する場合、その候補はクラス3ものであると定義される。
(CS>C3 OR SS>S3) (クラス3の条件)
ここで、C3=0.85、S3=0.82である。ステップ662でクラス3の候補がまったく検出されない場合、ステップ668で無声フレームを示すようにピッチ推定値が設定される。そうではない場合、クラス3の候補は好ましい候補として選択され、ステップ664で付近の最良を検出するプロシージャが適用される。次にステップ666でピッチ推定値は好ましい候補に設定される。ステップ668または666でピッチ推定値のいずれか1つが設定された後、制御はステップ670の履歴の更新に渡される。
(CS>C3 OR SS>S3) (クラス3の条件)
ここで、C3=0.85、S3=0.82である。ステップ662でクラス3の候補がまったく検出されない場合、ステップ668で無声フレームを示すようにピッチ推定値が設定される。そうではない場合、クラス3の候補は好ましい候補として選択され、ステップ664で付近の最良を検出するプロシージャが適用される。次にステップ666でピッチ推定値は好ましい候補に設定される。ステップ668または666でピッチ推定値のいずれか1つが設定された後、制御はステップ670の履歴の更新に渡される。
ステップ670で前のフレームに関連するピッチ推定値が新しいピッチ推定値に設定され、それに応じてすべての履歴情報が更新される。
次に相関回路510(図5を参照)の動作について説明する。相関回路は入力で以下のものを取得する。
・ダウンサンプリングされた拡張フレームs(n)、n=1,2,・・・,LDEF
ここでLDEF=floor(2*MaxPitch/DSF)は、フィルタリングされた拡張フレーム長をダウンサンプリング係数で割り、下限まで切り下げるものである。
・ピッチ候補に対応する(一般に、非整数の)遅れ値のリスト{Ti}
・ダウンサンプリングされた拡張フレームs(n)、n=1,2,・・・,LDEF
ここでLDEF=floor(2*MaxPitch/DSF)は、フィルタリングされた拡張フレーム長をダウンサンプリング係数で割り、下限まで切り下げるものである。
・ピッチ候補に対応する(一般に、非整数の)遅れ値のリスト{Ti}
相関回路510は、遅れ値に対応するピッチ候補に関する相関値(相関スコアCS)のリストを生成する。各相関値は、フレーム・サンプルのサブセットを使用して計算される。サブセット内のサンプルの数は遅れ値に依存する。このサブセットは、それによって表される信号のエネルギを最大化することによって選択される。非整数遅れTiを取り囲む2つの整数遅れ、すなわち、floor(Ti)およびceil(Ti)における相関値が計算される。次に、1991年1月発行のIEEE Trans. Acouts.、Speech and Signal Processingの第39巻、40〜48ページに掲載されたY.Medan、E.Yair、およびD.Chazanによる「Super resolution pitch determination of speech signals」に提案されている補間技法を使用して、Ti遅れにおける相関が概算される。
次に図7および図8を参照するが、これらの図は、相関回路510に関する動作を示す流れ図を構成する。また、図9および図10も参照する。初期設定ステップ702では、最後の整数遅れを表す内部変数ITlastが0に設定される。すべての入力遅れ値はステップ704で昇順にソートされる。ステップ706で現在の遅れTが最初の遅れに設定される。補間準備ステップ708では、整数遅れIT=ceil(T)と補間係数α=IT−Tが計算される。ステップ710で整数遅れ値ITが最後の整数遅れITlastと比較される。値が同じである場合、制御は補間ステップ720に流れる。そうではない場合、ステップ711で、相関スコアの計算に使用するためにサンプルのサブセットが決定される。サブセットは、1対(単純サブセット)または2対(複合サブセット)のパラメータ(OS,LS)によって指定される。
整数遅れITは、事前定義ウィンドウ長LW=round((75/DSF)*(SF/8000))と比較される。
整数遅れITがLW未満であるかまたはLWに等しい場合、図9に関連してさらに説明するように単純サブセットが決定される。このステップでは、ダウンサンプリングされた拡張フレームのうち、LDF=LF/DSF個の最後のサンプルのみが使用され、ここでLFはサンプル内のフレーム持続時間である。すなわち、履歴は使用されない。ダウンサンプリングされた拡張フレームの最後のLDF個のサンプルによって構成されたウィンドウの先頭に、(LW+IT)個のサンプル分の長さのフラグメントが位置決めされる。フラグメント・エネルギ(平方値の合計)が計算される。次に、ダウンサンプリングされた拡張フレームの末尾に向かってフラグメントがサンプル1つ分移動し、移動したフラグメントに関連するエネルギが計算される。そのフラグメントの最後のサンプルがダウンサンプリングされた拡張フレームの末尾に到達するまで、プロセスは続行する。最もエネルギのあるフラグメントの位置oは以下のように選択される。
サブセット・パラメータはOS=o、LS=LWに設定される。
一方、整数遅れITがLWより大きい場合、図10に関連してさらに説明するステップ716でサブセットが決定される。このケースで使用すべきダウンサンプリングされた拡張フレームの一部はIT値に依存する。特に、NS=max(LDF,2*IT)個の最後のサンプルが使用され、これは十分長い遅れ値についてのみ履歴が使用されることを意味する。それぞれの長さがIT−1である2つの隣接セグメントSeg1およびSeg2が、それぞれオフセットm1=(LDEF−NS/2−IT)およびm2=(LDEF−NS/2)でフレームから抽出される。各セグメントは周期信号を表す循環バッファであると見なされる。まず、LW個のサンプル分の長さのフラグメント1がSeg1セグメントの先頭に位置決めされる。同様に、LW個のサンプル分の長さのフラグメント2がSeg2の先頭に位置決めされる。フラグメント・エネルギの合計が計算される。次に、フラグメントがサンプル1つ分右に(セグメントの末尾に向かって)(同時に)移動し、移動したフラグメントに対応するエネルギの合計が計算される。フラグメントがそのセグメント内の最も右側の位置に到達した後もプロセスは続行し、シフト動作は循環動作として扱われる。すなわち、1つのフラグメントは2つの部分に分割され、図10に示した通り、左側部分はセグメントの先頭に位置決めされ、右側部分はセグメントの末尾に位置決めされる。フラグメントが移動するにつれて、その左側部分の長さは減少し、左側部分の長さは増加する。最大エネルギ位置oは以下のように選択される。
2つの可能性が存在する。
1)オフセットoは十分小さく、特にo<IT−LWになる。このケースでは、単純サブセットが定義され、そのパラメータはOS=o+m1、LS=LWに設定される。
2)オフセットoは大きく、o>=IT−LWになり、各サブセットは循環バッファのエッジで循環する。このケースでは、複合サブセットが定義され、(OS1=o+m1,LS1=IT−o)および(OS2=m1,LS2=LW−IT+o)になる。
1)オフセットoは十分小さく、特にo<IT−LWになる。このケースでは、単純サブセットが定義され、そのパラメータはOS=o+m1、LS=LWに設定される。
2)オフセットoは大きく、o>=IT−LWになり、各サブセットは循環バッファのエッジで循環する。このケースでは、複合サブセットが定義され、(OS1=o+m1,LS1=IT−o)および(OS2=m1,LS2=LW−IT+o)になる。
図8に戻ると、ステップ712で流れが分岐される。単純サブセットが決定された場合、制御はステップ713に渡され、そうではない場合、ステップ714および715が並行して実行される。3つの処理ステップ(713、714、715)のそれぞれは、以下に記載する同じ累積プロシージャを実現する。
このプロシージャへの入力はサブセット・パラメータ(OS,LS)である。それぞれ長さがLSの3つのベクトルが定義される。
X={x(i)=s(OS+i−1)}
X1={x1(i)=s(OS+i)}
Y={y(i)=s(OS+IT+i−1)}
ここで、i=1,2,・・・,LSである。次に、各ベクトルの平方ノルム(X,X)、(X1,X1)、および(Y,Y)ならびに各ベクトル対の内積(X,X1)、(X,Y)、および(X1,Y)が計算される。また、各ベクトルについて、すべての座標の合計SX、SX1、SYも計算される。
X={x(i)=s(OS+i−1)}
X1={x1(i)=s(OS+i)}
Y={y(i)=s(OS+IT+i−1)}
ここで、i=1,2,・・・,LSである。次に、各ベクトルの平方ノルム(X,X)、(X1,X1)、および(Y,Y)ならびに各ベクトル対の内積(X,X1)、(X,Y)、および(X1,Y)が計算される。また、各ベクトルについて、すべての座標の合計SX、SX1、SYも計算される。
複合サブセットが決定されているケースでは、ステップ714で累積プロシージャが(OS1,LS1)サブセットに適用され、ステップ715でプロシージャが(OS2,LS2)サブセットに適用される。次に、ステップ716で累積プロシージャによって生成された対応する値が加算される。
ステップ717では平方ノルムおよび内積が以下のように変更される。
(X,X)=(X,X)−SX2/LW
(X1,X1)=(X1,X1)−SX12/LW
(Y,Y)=(Y,Y)−SY2/LW
(X,X1)=(X,X1)−SX・SX1/LW
(X,Y)=(X,Y)−SX・SY/LW
(X,X1)=(X,X1)−SX・SX1/LW
変更された平方ノルムおよび内積は、次の候補遅れ値を処理する間に起こり得る使用に備えて保管される。整数遅れITは最後の整数遅れとして保管される。
(X,X)=(X,X)−SX2/LW
(X1,X1)=(X1,X1)−SX12/LW
(Y,Y)=(Y,Y)−SY2/LW
(X,X1)=(X,X1)−SX・SX1/LW
(X,Y)=(X,Y)−SX・SY/LW
(X,X1)=(X,X1)−SX・SX1/LW
変更された平方ノルムおよび内積は、次の候補遅れ値を処理する間に起こり得る使用に備えて保管される。整数遅れITは最後の整数遅れとして保管される。
Dが正である場合、CS=((X,Y)+α(X1,Y))/Dになり、そうではない場合、CS=0になる。
次に制御はテスト・ステップ722に流れ、そこで、最後の遅れが処理されたかどうかを確かめるためにチェックが行われる。回答がYESである場合、プロセスはステップ724で停止する。そうではない場合、制御はステップ706に戻り、そこで処理すべき現在の遅れとして次の遅れが選択される。
本発明は、図1のクライアント106、108またはサーバ102内でハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組合せとして実現することができる。図5、図6、図7、図8、図9、および図10に記載した通り、本発明の好ましい一実施形態によるシステムは、1台のコンピュータ・システムで集中方式で実現するか、または種々の要素が複数の相互接続コンピュータ・システム間に分散される分散方式で実現することができる。本明細書に記載された方法を実行するために適合されたものであれば、どのような種類のコンピュータ・システムまたはその他の装置でも適している。ハードウェアとソフトウェアの典型的な組合せは、ロードされ実行されたときに、本明細書に記載された方法を実行するようにコンピュータ・システムを制御するコンピュータ・プログラムを備えた汎用コンピュータ・システムにすることができるであろう。
また、本発明の一実施形態は、(クライアント106および108とサーバ102内で)本明細書に記載された方法の実現を可能にするすべての特徴を有し、コンピュータ・システム内でロードされたときに、これらの方法を実行することができるコンピュータ・プログラム製品として実施することもできる。本発明で使用するコンピュータ・プログラム手段またはコンピュータ・プログラムは、直接、またはa)他の言語、コード、もしくは表記への変換、およびb)異なる物質形式での複製のうちのいずれか一方または両方の後で情報処理機能を有するシステムに特定の機能を実行させることが意図された1組の命令を、任意の言語、コード、または表記法で表した任意の表現を示す。
コンピュータ・システムは、とりわけ、1つまたは複数のコンピュータと、少なくとも1つのコンピュータ可読媒体とを含み、コンピュータ・システムがコンピュータ可読媒体からデータ、命令、メッセージまたはメッセージ・パケット、およびその他のコンピュータ可読情報を読み取れるようにする。コンピュータ可読媒体としては、ROM、フラッシュ・メモリ、ディスク・ドライブ・メモリ、CD−ROM、およびその他の永続ストレージなどの不揮発性メモリを含むことができる。さらに、コンピュータ可読媒体としては、たとえば、RAM、バッファ、キャッシュ・メモリ、および揮発性ストレージを含むことができる。
図11は、本発明の一実施形態を実現するために有用なコンピュータ・システムのブロック図である。図11のコンピュータ・システムは、クライアント106および108とサーバ102のより詳細な表現である。図11のコンピュータ・システムは、プロセッサ1004などの1つまたは複数のプロセッサを含む。プロセッサ1004は、通信インフラストラクチャ1002(たとえば、通信バス、クロスオーバー・バー、またはネットワーク)に接続される。様々なソフトウェア実施形態について、この例示的なコンピュータ・システムに関して説明する。その他のコンピュータ・システムまたはコンピュータ・アーキテクチャを使用して本発明を実現する方法は、この説明を読んだ後、当業者にとって明白になるであろう。
このコンピュータ・システムは、ディスプレイ装置1010上で表示するために通信インフラストラクチャ1002から(または図示していないフレーム・バッファから)グラフィックス、テキスト、およびその他のデータを転送するディスプレイ・インターフェース1008を含むことができる。また、コンピュータ・システムは、メイン・メモリ1006、好ましくはランダム・アクセス・メモリ(RAM)も含み、2次メモリ1012も含むことができる。2次メモリ1012は、たとえば、ハード・ディスク・ドライブ1014、およびフレキシブル・ディスク・ドライブ、磁気テープ・ドライブ、光ディスク・ドライブなどを表す取外し可能ストレージ・ドライブ1016の少なくとも一方を含むことができる。取外し可能ストレージ・ドライブ1016は、当業者にとって周知のように取外し可能ストレージ・ユニット1018に対する読み書きを行う。取外し可能ストレージ・ユニット1018は、取外し可能ストレージ・ドライブ1016によって読み取られ、そこに書き込まれる、フレキシブル・ディスク、磁気テープ、光ディスクなどを表す。理解されるように、取外し可能ストレージ・ユニット1018は、コンピュータ・ソフトウェアおよびデータの少なくとも一方をそこに保管しているコンピュータ可用記憶媒体を含む。
代替諸実施形態では、2次メモリ1012は、コンピュータ・プログラムまたはその他の命令をコンピュータ・システムにロードできるようにするためのその他の同様の手段を含むことができる。このような手段としては、たとえば、取外し可能ストレージ・ユニット1022およびインターフェース1020を含むことができる。このような例としては、プログラム・カートリッジとカートリッジ・インターフェース(ビデオ・ゲーム装置に見られるものなど)、取外し可能メモリ・チップ(EPROMまたはPROMなど)と関連ソケット、その他の取外し可能ストレージ・ユニット1022と、ソフトウェアおよびデータを取外し可能ストレージ・ユニット1022からコンピュータ・システムに転送できるようにするインターフェース1020を含むことができる。
また、このコンピュータ・システムは、通信インターフェース1024も含むことができる。通信インターフェース1024は、ソフトウェアおよびデータをコンピュータ・システムと外部装置との間で転送できるようにする。通信インターフェース1024の例としては、モデム、ネットワーク・インターフェース(イーサネット・カードなど)、通信ポート、PCMCIAスロットとカードなどを含むことができる。通信インターフェース1024を介して転送されるソフトウェアおよびデータは、たとえば、電子信号、電磁信号、光学信号、その他の通信インターフェース1024によって受信可能な信号の形になっている。これらの信号は、通信パス(すなわち、チャネル)1026を介して通信インターフェース1024に提供される。このチャネル1026は、信号を伝達し、ワイヤもしくはケーブル、光ファイバ、電話回線、携帯電話リンク、RFリンク、もしくはその他の通信チャネル、またはこれらの組合せを使用して実現することができる。
この文書では、「コンピュータ・プログラム媒体」、「コンピュータ可用能媒体」、「機械可読媒体」、および「コンピュータ可読媒体」という用語は、一般に、メイン・メモリ1006および2次メモリ1012、取外し可能ストレージ・ドライブ1016、ハード・ディスク・ドライブ1014にインストールされたハード・ディスク、および信号などの媒体を指すために使用される。これらのコンピュータ・プログラム製品は、コンピュータ・システムにソフトウェアを提供するための手段である。コンピュータ可読媒体は、コンピュータ・システムがコンピュータ可読媒体からデータ、命令、メッセージまたはメッセージ・パケット、およびその他のコンピュータ可読情報を読み取れるようにする。コンピュータ可読媒体としては、たとえば、フレキシブル・ディスク、ROM、フラッシュ・メモリ、ディスク・ドライブ・メモリ、CD−ROM、およびその他の永続ストレージなどの不揮発性メモリを含むことができる。これは、たとえば、コンピュータ・システム間でデータおよびコンピュータ命令などの情報を伝送するために有用である。
コンピュータ・プログラム(コンピュータ制御ロジックともいう)は、メイン・メモリ1006および2次メモリ1012の少なくとも一方に保管される。また、コンピュータ・プログラムは、通信インターフェース1024を介して受信することもできる。このようなコンピュータ・プログラムは、実行されたときに、コンピュータ・システムが本明細書で論じたように本発明の特徴を実行できるようにする。特に、コンピュータ・プログラムは、実行されたときに、プロセッサ1004がコンピュータ・システムの機能を実行できるようにする。したがって、このようなコンピュータ・プログラムはコンピュータ・システムのコントローラを表す。
音声信号からピッチ情報を抽出するための新規のシステムおよび関連方法は、音声認識システム用または音声符号化システム用など、ピッチ情報を処理するための重大な利点をもたらす。分散音声認識システムは特に本発明の新規のシステムおよびピッチ抽出方法から恩恵を受けることになる。ポータブル・ワイヤレス装置、携帯電話、および双方向無線機など、分散音声認識フロントエンド装置は概して、コンピューティング・リソースが限られ、処理機能が限られており、バッテリ作動であるので、このようなタイプの装置は特に、上記で論じたように本発明の好ましい諸実施形態から恩恵を受けることになる。
本発明の特定の諸実施形態が開示されているが、当業者であれば、本発明の精神および範囲から逸脱せずに、この特定の諸実施形態に対し変更を加えることができることを理解するであろう。したがって、本発明の範囲はこの特定の諸実施形態に制限されることはない。さらに、特許請求の範囲は、本発明の範囲内の任意かつすべてのこのような適用業務、変更例、および実施形態を包含することが意図されている。
Claims (7)
- 音声信号をサンプリングするステップと、
サンプリングされた音声信号を重複フレームに分割するステップと、
それぞれがスペクトル・スコアと結合され、前記フレームについての可能なピッチ推定値を表す少なくとも1つのピッチ候補を、周波数領域分析を使用して提供するステップと、
前記少なくとも1つのピッチ候補に関連する遅れ値を使用して時間領域の相関値を算出することにより、前記少なくとも1つのピッチ候補に関する相関スコアを提供するステップと、
前記フレームのピッチ推定値を表すために前記少なくとも1つのピッチ候補から高い相関スコアを有するピッチ候補を選択するステップとを有し、
前記相関スコアを提供するステップは、
前記フレームと前記フレームの前のフレームを結合して拡張フレームを生成するステップと、
前記拡張フレームを低減フィルタリングおよびダウンサンプリングすることにより、ダウンサンプリングされた拡張フレームを生成するステップと、
前記少なくとも1つのピッチ候補に関連するピッチ周期の値を前記ダウンサンプリングされた拡張フレームのサンプルで表すことにより、前記少なくとも1つのピッチ候補に関連するダウンサンプリングされた遅れ値を算出するステップと、
前記ダウンサンプリングされた遅れ値を使用して、前記ダウンサンプリングされた拡張フレームの相関を算出するステップとを含み、
前記相関を算出するステップは、前記ダウンサンプリングされた遅れ値に応じて、前記ダウンサンプリングされた拡張フレームから、一方のフラグメントが他方のフラグメントに対して前記遅れ値分だけ遅延し、かつフラグメントエネルギが最大となる2つのフラグメントを位置決めして、前記2つのフラグメントの間の相関を算出する、方法。 - 選択するステップが、
前記少なくとも1つのピッチ候補から高いスペクトル・スコアを有するピッチ候補を選択するステップを有する、請求項1に記載の方法。 - 前記少なくとも1つのピッチ候補が、前記フレームについて可能な6個以下のピッチ推定値を表す6個以下のピッチ候補を有する、請求項1に記載の方法。
- サンプリングされた音声信号の複数のフレームの複数のピッチ推定値を選択するステップと、
前記複数のピッチ推定値を有する、サンプリングされた音声信号の表現を符号化するステップと、
をさらに有する、請求項1に記載の方法。 - サンプリングされた音声信号の符号化表現が分散音声認識システムで使用される、請求項4に記載の方法。
- 音声信号の特徴を抽出するための分散音声認識フロントエンドを有する分散音声認識システムであって、前記分散音声認識フロントエンドが、
メモリと、
前記メモリに通信可能に結合されたプロセッサと、
前記メモリおよび前記プロセッサに通信可能に結合されたピッチ抽出プロセッサであって、
音声信号をサンプリングし、
サンプリングされた音声信号を重複フレームに分割し、
それぞれがスペクトル・スコアと結合され、前記フレームについての可能なピッチ推定値を表す少なくとも1つのピッチ候補を、周波数領域分析を使用して提供し、
前記少なくとも1つのピッチ候補に関連する遅れ値を使用して時間領域の相関値を算出することにより、前記少なくとも1つのピッチ候補に関する相関スコアを提供し、
前記フレームのピッチ推定値を表すために前記少なくとも1つのピッチ候補から高い相関スコアを有するピッチ候補を選択することによって音声信号からピッチ情報を抽出するためのピッチ抽出プロセッサとを有し、
前記ピッチ抽出プロセッサは、
前記フレームと前記フレームの前のフレームを結合して拡張フレームを生成し、前記拡張フレームを低減フィルタリングおよびダウンサンプリングすることにより、ダウンサンプリングされた拡張フレームを生成し、前記少なくとも1つのピッチ候補に関連するピッチ周期の値を前記ダウンサンプリングされた拡張フレームのサンプルで表すことにより、前記少なくとも1つのピッチ候補に関連するダウンサンプリングされた遅れ値を算出し、前記ダウンサンプリングされた遅れ値を使用して、前記ダウンサンプリングされた拡張フレームの相関を算出することにより、前記相関スコアを算出し、
前記ダウンサンプリングされた遅れ値に応じて、前記ダウンサンプリングされた拡張フレームから、一方のフラグメントが他方のフラグメントに対して前記遅れ値分だけ遅延し、かつフラグメントエネルギが最大となる2つのフラグメントを位置決めして、前記2つのフラグメントの間の相関を算出することにより、前記拡張フレームの相関を算出する、分散音声認識システム。 - 音声処理システムのためのコンピュータ・プログラムを有するコンピュータ可読媒体であって、前記コンピュータ・プログラムが、
音声信号をサンプリングするステップと、
サンプリングされた音声信号を重複フレームに分割するステップと、
それぞれがスペクトル・スコアと結合され、前記フレームについての可能なピッチ推定値を表す少なくとも1つのピッチ候補を、周波数領域分析を使用して提供するステップと、
前記少なくとも1つのピッチ候補に関連する遅れ値を使用して時間領域の相関値を算出することにより、前記少なくとも1つのピッチ候補に関する相関スコアを提供するステップと、
前記フレームのピッチ推定値を表すために前記少なくとも1つのピッチ候補から高い相関スコアを有するピッチ候補を選択するステップと、
をコンピュータに実行させ、
前記相関スコアを提供するステップは、
前記フレームと前記フレームの前のフレームを結合して拡張フレームを生成するステップと、
前記拡張フレームを低減フィルタリングおよびダウンサンプリングすることにより、ダウンサンプリングされた拡張フレームを生成するステップと、
前記少なくとも1つのピッチ候補に関連するピッチ周期の値を前記ダウンサンプリングされた拡張フレームのサンプルで表すことにより、前記少なくとも1つのピッチ候補に関連するダウンサンプリングされた遅れ値を算出するステップと、
前記ダウンサンプリングされた遅れ値を使用して、前記ダウンサンプリングされた拡張フレームの相関を算出するステップとを含み、
前記相関を算出するステップは、前記ダウンサンプリングされた遅れ値に応じて、前記ダウンサンプリングされた拡張フレームから、一方のフラグメントが他方のフラグメントに対して前記遅れ値分だけ遅延し、かつフラグメントエネルギが最大となる2つのフラグメントを位置決めして、前記2つのフラグメントの間の相関を算出する、コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/403,792 | 2003-03-31 | ||
US10/403,792 US6988064B2 (en) | 2003-03-31 | 2003-03-31 | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
PCT/US2004/010119 WO2004090865A2 (en) | 2003-03-31 | 2004-03-31 | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
Publications (4)
Publication Number | Publication Date |
---|---|
JP2006523331A JP2006523331A (ja) | 2006-10-12 |
JP2006523331A5 JP2006523331A5 (ja) | 2007-05-10 |
JP4755585B2 JP4755585B2 (ja) | 2011-08-24 |
JP4755585B6 true JP4755585B6 (ja) | 2011-12-28 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1620844B1 (en) | System and method for combined frequency-domain and time-domain pitch extraction for speech signals | |
US9875752B2 (en) | Voice profile management and speech signal generation | |
EP2176860B1 (en) | Processing of frames of an audio signal | |
US8660840B2 (en) | Method and apparatus for predictively quantizing voiced speech | |
US6018706A (en) | Pitch determiner for a speech analyzer | |
CN1969319B (zh) | 在通信系统中对帧进行编码的方法和编码器 | |
KR100391287B1 (ko) | 압축된 음성 데이터를 이용하는 음성인식방법 및 시스템과 그 시스템을 이용한 디지탈 셀룰러 전화 | |
US20110099004A1 (en) | Determining an upperband signal from a narrowband signal | |
CN102047321A (zh) | 用于提供改进的语音合成的方法、设备和计算机程序产品 | |
JP2003517157A (ja) | 位相スペクトル情報をサブサンプリングする方法および装置 | |
RU2682851C2 (ru) | Усовершенствованная коррекция потери кадров с помощью речевой информации | |
JP4755585B6 (ja) | 音声信号に関する周波数領域および時間領域の複合ピッチ抽出のための方法、分散音声認識システム及びコンピュータ可読媒体 | |
CN102334156A (zh) | 音调判定装置及音调判定方法 | |
JP2002527796A (ja) | 音声処理方法および音声処理装置 | |
JP2002099298A (ja) | 音声認識システム |