JP2004287447A

JP2004287447A - モバイル通信デバイスのための分散音声認識

Info

Publication number: JP2004287447A
Application number: JP2004087790A
Authority: JP
Inventors: Xuedong Huang; シェドンハン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-03-24
Filing date: 2004-03-24
Publication date: 2004-10-14
Also published as: CN1538383A; KR20040084759A; US20030182113A1; EP1463032A1

Abstract

【課題】音声認識を実行する方法、および、これを実施するモバイルコンピューティングデバイスを提供する。
【解決手段】この方法は、モバイルコンピューティングデバイスのマイクロフォンで可聴音声を受信することを含む。可聴音声は音声信号に、モバイルコンピューティングデバイスで変換される。またモバイルコンピューティングデバイスで、予備および２次音声認識機能が音声信号において実行されて、モジュールからの結果についてのリクエストが得られる。次いで、結果についてのリクエストがモバイルコンピューティングデバイスから、モバイルコンピューティングデバイスからリモートに位置する第２のコンピューティングデバイスに送信されて結果が得られ、この結果が次いでモバイルコンピューティングデバイスに戻るように、音声認識プロセスの完了のために送信される。
【選択図】図１

Description

本発明は、一般にハンドヘルドポータブルコンピュータとして知られるパーソナルモバイルコンピューティングデバイスに関する。より詳細には、本発明は、モバイルコンピューティングデバイスの使用により実行される音声認識を向上させるためのシステムおよび方法に関する。

モバイルデバイスは小型の電子コンピューティングデバイスであり、時として携帯情報端末（ＰＤＡ）と呼ばれる。このようなモバイルデバイスの多数は、ハンドヘルドデバイスまたはパームサイズのデバイスであり、手の中にうまく納まる。１つの市販のモバイルデバイスは、ハンドヘルドＰＣ（またはＨ／ＰＣ）という商用名の下で販売されており、これは、ワシントン州レドモンドのＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎによって提供されたソフトウェアを有する。

一般に、モバイルデバイスは、プロセッサ、ランダムアクセスメモリ（ＲＡＭ）、ならびに、キーボードおよびディスプレイなどの入力デバイスを含み、キーボードを、タッチセンシティブディスプレイなどのディスプレイと統合することができる。通信インターフェースがオプショナルで提供され、一般にデスクトップコンピュータと通信するために使用される。交換可能または再充電可能なバッテリがモバイルデバイスに電力供給を行う。オプショナルで、モバイルデバイスは電力を外部電源から受けることができ、この外部電源は、適切なＡＣもしくはＤＣアダプタ、または電力ドッキングクレードルなどの内蔵バッテリに優先し、あるいは内蔵バッテリを再充電する。

１つの一般的な応用例では、モバイルデバイスがデスクトップコンピュータと共に使用される。例えば、モバイルデバイスのユーザはまた、職場または自宅で、デスクトップコンピュータへのアクセスを有し、これを使用する可能性もある。ユーザは通常、同じタイプのアプリケーションをデスクトップコンピュータおよびモバイルデバイスで実行する。したがって、モバイルデバイスがデスクトップコンピュータに結合されて、モバイルデバイスと情報を交換し、情報を共有するように設計されることは、大変有利である。

モバイルコンピューティングデバイス市場が成長し続けているので、新しい発展を予想することができる。例えば、モバイルデバイスをセルラーまたはデジタルワイヤレス通信技術と統合して、携帯電話としても機能するモバイルコンピューティングデバイスを提供することができる。したがって、セルラーまたはデジタルワイヤレス通信技術は、モバイルデバイスとデスクトップ（または他の）コンピュータの間の通信リンクを提供することができる。さらに、音声認識を使用して、モバイルコンピューティングデバイスおよびデスクトップコンピュータのうち一方またはその両方のデータを記録するか、あるいは機能をコントロールすることができ、ユーザはモバイルデバイス上のマイクロフォンに発話し、信号がデスクトップコンピュータに、マイクロフォンによって検出された音声に基づいて送信される。

デスクトップコンピュータで、モバイルデバイス上に位置付けられたマイクロフォンなど、リモートのマイクロフォンに発話された単語の音声認識を実行しようと試みている場合、いくつかの問題が生じる。第１に、マイクロフォンによって提供された音声信号（ｓｐｅｅｃｈｓｉｇｎａｌ）の信号対雑音比は、マイクロフォンとユーザの口の間の距離が長くなるにつれて低下する。通常のモバイルデバイスは、ユーザの口から最長１フィート（３０．４８ｃｍ）のユーザの手のひらに保持されるので、結果として生じる信号対雑音比の低下は、著しい音声認識の障害となる可能性がある。また、モバイルデバイス内の内部雑音も、音声信号の信号対雑音比を低下させ、これは、内部雑音が、通常はモバイルデバイスのハウジング上に位置付けられるマイクロフォンに、非常に近接しているためである。第２に、デジタル、および、ワイヤレス通信ネットワークなどの他の通信ネットワークの帯域幅制限により、デスクトップコンピュータで受信された音声信号は、デスクトップのマイクロフォンからの音声信号と比較すると、より低い品質となる。したがって、デスクトップのマイクロフォンではなく、モバイルコンピューティングデバイスのマイクロフォンを使用する場合、異なるデスクトップおよびテレフォニーの帯域幅により、音声認識結果が異なるようになる。

音声認識を実行する方法、および、これを実施するモバイルコンピューティングデバイスを開示する。

この方法は、モバイルコンピューティングデバイスのマイクロフォンで可聴音声を受信することを含む。可聴音声は音声信号に、モバイルコンピューティングデバイスで変換される。またモバイルコンピューティングデバイスで、予備音声認識機能が音声信号において実行されて、中間音声認識結果が得られる。次いで、２次音声認識機能が実行されて、第２のコンピューティングデバイスからの結果についてのリクエストが得られる。これらの結果についてのリクエストがモバイルコンピューティングデバイスから、モバイルコンピューティングデバイスからリモートに位置する第２のコンピューティングデバイスに送信される。第２のコンピューティングデバイスはこの結果を得て、これらの結果をモバイルデバイスに、音声認識プロセスの完了のために送信する。

本発明のいくつかの実施形態では、モバイルコンピューティングデバイスは、第２のコンピューティングデバイスで実行される機能と同じ予備音声認識機能を、音声信号において実行する。中間音声認識結果を、音声信号から抽出された音声認識特徴にすることができる。この特徴には、例えば、メルケプストラム係数、ベクトル量子化（ＶＱ）インデックス、隠れマルコフモデル（ＨＭＭ）スコア、ＨＭＭ状態出力確率密度関数、ケプストラル係数、または、音声信号から抽出することができる他のタイプの音声認識特徴が含まれる可能性がある。

音声信号自体を第２のコンピューティングデバイスでの音声認識のために送信するのではなく、結果についてのリクエストをモバイルコンピューティングデバイスから第２のコンピューティングデバイスに送信することにより、一様な音声認識モデルを、通信ネットワークが広帯域であるか狭帯域であるかにかかわらず、使用することができる。さらに、通信ネットワークがモバイルコンピューティングデバイスのマイクロフォンが有するよりも狭い帯域幅を有する場合、音声認識特徴をより狭い帯域幅の通信ネットワークを介して送信する場合により広い帯域幅の音声情報は失われない。

図１は、例示的ポータブルコンピューティングデバイス、ここでは本発明によるモバイルデバイス１０のブロック図である。図１に例示するように、一実施形態では、モバイルデバイス１０は、デスクトップコンピュータ１２、データトランスポート１４、またはその両方との接続のため、およびそれから情報を受信するために適切である。データトランスポート１４をワイヤレストランスポートにすることができ、これは、ページングネットワーク、セルラーデジタルパケットデータ（ＣＤＰＤ）、ＦＭ側波帯、または他の適切なワイヤレス通信などである。しかし、モバイルデバイス１０がデスクトップコンピュータ１２に接続されるように装備されない可能性があり、本発明は、モバイルデバイス１０がこの機能を備えるかどうかにかかわらず適用されることにも留意されたい。モバイルデバイス１０を、携帯情報端末（ＰＤＡ）、または、セルラーまたはデジタルワイヤレスホン機能を有するハンドヘルドポータブルコンピュータにすることができ、従来のＰＤＡ機能を実行するように、および、ワイヤレス電話としての機能を果たすように適合させることができる。他の実施形態では、データトランスポート１４は、ケーブルネットワーク、電話網、または他の非ワイヤレス通信ネットワークである。

例示的実施形態では、モバイルデバイス１０は、マイクロフォン１７、アナログ−デジタル（Ａ／Ｄ）コンバータ１５、および音声認識プログラム１９を含む。デバイス１０のユーザからの口頭によるコマンド、命令または情報に応答して、マイクロフォン１７は音声信号を提供し、これがＡ／Ｄコンバータ１５によってデジタル化される。音声認識プログラム１９は特徴抽出機能を、デジタル化された音声信号において実行して、中間音声認識結果を得る。アンテナ１１を使用して、デバイス１０は中間音声認識結果を、トランスポート１４を介してデスクトップコンピュータ１２に送信し、ここで追加の音声認識プログラムが使用されて、音声認識プロセスが完了される。本発明の音声認識特徴抽出の態様を以下でより詳細に説明する。

いくつかの実施形態では、モバイルデバイス１０は１つまたは複数の他のアプリケーションプログラム１６およびオブジェクトスコア１８を含む。アプリケーションプログラム１６を、例えば、パーソナルインフォメーションマネージャ（ＰＩＭ）１６Ａにすることができ、これは、ユーザの電子メール（ｅメール）に関係するオブジェクト、および、スケジューリングまたはカレンダリング情報を格納する。アプリケーションプログラム１６はまた、コンテンツビューア１６Ｂも含むことができ、これは、インターネットなど、ワイドエリアネットワークから得られた情報を閲覧するために使用される。一実施形態では、コンテンツビューア１６Ｂは「オフライン」のビューアであり、情報が閲覧される前に最初に格納され、ユーザは情報のソースとリアルタイムで対話しない。他の実施形態では、モバイルデバイス１０はリアルタイム環境で動作し、トランスポート１４は双方向通信を提供する。ＰＩＭ１６Ａ、コンテンツビューア１６Ｂおよびオブジェクトストア１８は、本発明のすべての実施形態において必要とされるとは限らない。

ＰＩＭ１６Ａ、コンテンツビューア１６Ｂおよびオブジェクトストア１８を含む実施形態では、ワイヤレストランスポート１４をまた使用して、情報をモバイルデバイス１０へ、オブジェクトストア１８に格納するために、また、アプリケーションプログラム１６により使用するために、送信することもできる。トランスポート１４は、情報ソースプロバイダ１３から送信されるべき情報を受信し、情報ソースプロバイダ１３は、例えば、ニュース、天候、スポーツ、交通または地域のイベント情報のソースにすることができる。同様に、情報ソースプロバイダ１３は、ｅメールおよび／またはスケジューリング情報をデスクトップコンピュータ１２から受信することができ、これはモバイルデバイス１０へ、トランスポート１４を通じて送信されるべきである。デスクトップコンピュータ１２からの情報を情報ソースプロバイダ１３に、直接モデム接続など、いずれかの適切な通信リンクを通じて供給することができる。もう１つの実施形態では、デスクトップコンピュータ１２および情報ソースプロバイダ１３を共に接続して、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を形成することができる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネットおよびインターネットにおいて一般的である。望むなら、デスクトップコンピュータ１２をまたトランスポート１４に直接接続することもできる。

一実施形態では、モバイルデバイス１０をデスクトップコンピュータ１２に、いずれかの適切な市販の通信リンクを使用して、また、適切な通信プロトコルを使用して、結合させることができることにも留意されたい。例えば、一実施形態では、モバイルデバイス１０はデスクトップコンピュータ１２と、シリアル通信プロトコルを使用して通信する物理ケーブルにより通信する。他の通信メカニズムには、赤外線（ＩＲ）通信および直接モデム通信が含まれる。

モバイルデバイス１０を、一実施形態では、デスクトップコンピュータ１２と同期化させることができることにも留意されたい。その場合、オブジェクトストア１８に格納されたオブジェクトのプロパティは、デスクトップコンピュータ１２またはモバイルデバイス１０上のオブジェクトストアに格納された同じオブジェクトの他のインスタンスのプロパティに類似している。したがって、例えば、オブジェクトのあるインスタンスがデスクトップ１２上のオブジェクトストアに格納される場合、モバイルデバイス１０のオブジェクトストア１８内のそのオブジェクトの第２のインスタンスは、次にモバイルデバイス１０がデスクトップコンピュータ１２に接続される際に更新されて、同じオブジェクトの両方のインスタンスが最新のデータを含むようにされる。これは一般に同期化と呼ばれる。同期化を実施するために、同期化コンポーネントはモバイルデバイス１０およびデスクトップコンピュータ１２において実行する。同期化コンポーネントは互いに明確なインターフェースを通じて通信して、通信および同期化を管理する。

図２は、モバイルデバイス１０のより詳細なブロック図である。図のように、モバイルデバイス１０は、プロセッサ２０、メモリ２２、入力／出力（Ｉ／Ｏ）コンポーネント２４、デスクトップコンピュータ通信インターフェース２６、トランシーバ２７、およびアンテナ１１を含む。一実施形態では、モバイルデバイス１０のこれらのコンポーネントが、適切なバス２８を介して互いに通信するために結合される。図２に示さないが、モバイルデバイス１０は、図１に例示したようなマイクロフォン１７を含み、これを以下で図３〜７を参照して説明する。

メモリ２２は不揮発性電子メモリとして実施され、これはランダムアクセスメモリ（ＲＡＭ）などであり、バッテリバックアップモジュール（図示せず）を有して、モバイルデバイス１０への全体的な電力が停止される場合にメモリ２２に格納された情報が失われないようにする。メモリ２２の一部がプログラム実行のためにアドレス指定可能メモリとして割り振られ、メモリ２２の残りの部分を、ディスクドライブにおけるストレージをシミュレートするためなど、ストレージのために使用することができる。

メモリ２２は、オペレーティングシステム３０、アプリケーションプログラム１６（図１に関して説明したＰＩＭ１６Ａおよび音声認識プログラム１９など）、およびオブジェクトストア１８を含む。オペレーション中に、オペレーティングシステム３０がプロセッサ２０へメモリ２２からロードされ、プロセッサ２０によって実行される。オペレーティングシステム３０は、一実施形態では、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎから市販されているＷｉｎｄｏｗｓ（登録商標）ＣＥブランドのオペレーティングシステムである。オペレーティングシステム３０をモバイルデバイス向けに設計することができ、これは、ＰＩＭ１６Ａ、コンテンツビューア１６Ｂおよび音声認識機能１９によって、エクスポーズされたアプリケーションプログラミングインターフェースおよびメソッドのセットを通じて利用することができる機能を実施する。オブジェクトストア１８内のオブジェクトは、ＰＩＭ１６Ａ、コンテンツビューア１６Ｂおよびオペレーティングシステム３０によって、少なくとも部分的には、エクスポーズされたアプリケーションプログラミングインターフェースおよびメソッドのへのコールに応答して、維持される。

Ｉ／Ｏコンポーネント２４は、一実施形態では、モバイルデバイス１０のユーザからの入力および出力オペレーションを実行するために設けられる。デスクトップコンピュータ通信インターフェース２６はオプショナルで、いずれかの適切な市販の通信インターフェースとして設けられる。インターフェース２６は、ワイヤレストランシーバ２７がそのために使用されない場合に、デスクトップコンピュータ１２と通信するために使用される。

トランシーバ２７はワイヤレスまたは他のタイプのトランシーバであり、音声信号または中間音声認識結果を、トランスポート１４を介して送信するように適合される。トランシーバ２７がワイヤレストランシーバである実施形態では、中間音声認識結果を、アンテナ１１を使用して送信することができる。トランシーバ２７はまた他のデータも、トランスポート１４を介して送信することができる。いくつかの実施形態では、トランシーバ２７は情報を、デスクトップコンピュータ１２、情報ソースプロバイダ１３、または、他のモバイルもしくは非モバイルのデバイスもしくは電話から受信する。トランシーバ２７はバス２８に結合され、これは、プロセッサ２０およびオブジェクトストア１８と通信して、トランスポート１４から受信された情報を格納するためである。

電源３５は、モバイルデバイス１０に電力供給するためのバッテリ３７を含む。オプショナルで、モバイルデバイス１０は電力を外部電源４１から受けることができ、これは内蔵バッテリ３７に優先し、あるいは内蔵バッテリ３７を再充電する。例えば、外部電源４１には、モバイルデバイス１０のために適切なＡＣもしくはＤＣアダプタ、または電力ドッキングクレードルが含まれる可能性がある。

図３は、本発明により使用することができるモバイルデバイス１０の一実施形態の簡易化した絵図である。この実施形態では、アンテナ１１およびマイクロフォン１７に加えて、モバイルデバイス１０は、小型キーボード３２、ディスプレイ３４、スタイラス３６、第２のマイクロフォン８５およびスピーカ８６を含む。図３に示す実施形態では、ディスプレイ３４は液晶ディスプレイ（ＬＣＤ）であり、コンタクトセンシティブ表示画面をスタイラス３６と共に使用する。スタイラス３６は、ディスプレイ３４の指定された座標を押すか、あるいはこれに接触して、あるユーザ入力機能を実施するために使用される。小型キーボード３２は小型英数字キーボードとして実施され、これはいずれかの適切な所望のファンクションキーを有し、これもまたあるユーザ入力機能を実施するために設けられる。

マイクロフォン１７はアンテナ１１の末端に位置付けられる。アンテナ１１は、ユーザの口に向かって回転し、それにより、モバイルデバイス１０がユーザの手のひらに保持される間にユーザの口とマイクロフォン１７の間の距離を縮めるように適合される。上述のように、この距離を縮めることは、マイクロフォンによって提供された音声信号の信号対雑音比を高める助けとなる。さらに、マイクロフォン１７をアンテナ１１の端に配置することにより、マイクロフォンがモバイルデバイス１０のハウジングから移動される。これにより、信号対雑音比における内部デバイス雑音の影響が低減される。本発明のいくつかの実施形態では、マイクロフォン１７はアンテナ１１の末端に位置するが、他の実施形態では、マイクロフォン１７をアンテナ１１の他の位置に配置することができる。

いくつかの実施形態では、モバイルデバイス１０または第２のマイクロフォン８５も含み、これをモバイルデバイス１０のハウジング上に位置付けることができる。第１のマイクロフォン１７から遠ざけられる第２のマイクロフォン８５を設けることにより、２つのマイクロフォンが共に使用される場合に結果として生じるマイクロフォンアレイのパフォーマンスが向上される。いくつかの実施形態では、スピーカ８６が含められて、モバイルデバイス１０をモバイル電話として使用できるようになる。

図４は、本発明のもう１つの実施形態によるモバイルデバイス１０のもう１つの簡易化した絵図である。モバイルデバイス１０は、図４に例示するように、図３に関して説明されるアイテムに類似し、同様に付番されるいくつかのアイテムを含む。例えば、モバイルデバイス１０はまた、図４のように、アンテナ１１上に位置付けられたマイクロフォン１７、およびデバイスのハウジング上に位置付けられたスピーカ８６を含む。また、モバイルデバイス１０はタッチセンシティブディスプレイ３４を含み、これをスタイラス３６と共に使用してあるユーザ入力機能を実施することができる。図３および４に示すモバイルデバイスのためのディスプレイ３４は同じサイズであるか、異なるサイズである可能性があるが、通常は、デスクトップコンピュータで使用される従来のディスプレイよりもはるかに小さくなることに留意されたい。例えば、図３および４に示すディスプレイ３４を、２４０ｘ３２０座標のみ、または１６０ｘ１６０座標、または他のいずれかの適切なサイズの行列によって定義することができる。

図４に示すモバイルデバイス１０はまた、いくつかのユーザ入力キーまたはボタン（スクロールボタン３８および／またはキーボード３２）も含み、これらによりユーザがデータを入力すること、または、メニューオプション、もしくは、ディスプレイ３４上に表示される他の表示オプションを通じてスクロールすることが、ディスプレイ３４に接触することなく可能となる。加えて、図４に示すモバイルデバイス１０はまた電源ボタン４０も含み、これを使用してモバイルデバイス１０への全体的な電力をオンおよびオフにすることができる。

図４に例示した実施形態では、モバイルデバイス１０は手書きエリア４２を含むことにも留意されたい。手書きエリア４２をスタイラス３６と共に使用して、ユーザがメッセージを書くことを可能にすることができ、メッセージは、後にモバイルデバイス１０によって使用するためにメモリ２２に格納される。一実施形態では、手書きのメッセージは単に手書きの形態で格納され、また、ユーザによって呼び戻し、ディスプレイ３４上に表示して、ユーザがモバイルデバイス１０に入力された手書きのメッセージを見直すことを可能にすることができる。もう１つの実施形態では、モバイルデバイス１０は文字認識モジュールを備えて、ユーザが英数字情報をモバイルデバイス１０へ、英数字情報をエリア４２上でスタイラス３６により書き込むことによって、入力できるようにする。その場合、モバイルデバイス１０内の文字認識モジュールは英数字文字を認識し、この文字をコンピュータ認識可能な英数字文字に変換し、これをモバイルデバイス１０内のアプリケーションプログラム１６によって使用することができる。

図５および関係する考察は、本発明の一部を実施することができる、適切なデスクトップコンピュータ１２の簡単な全体的説明を提供するように意図される。必要ではないが、本発明を少なくとも部分的には一般に、プログラムモジュールなど、パーソナルコンピュータ１２またはモバイルデバイス１０によって実行されるコンピュータ実行可能命令に関連して説明する。一般に、プログラムモジュールには、ルーチンプログラム、オブジェクト、コンポーネント、データ構造などが含まれ、これらは特定のタスクを実行するか、あるいは特定の抽象データ型を実施する。デスクトップコンピュータと称するが、図５に例示するコンピューティング環境は、他の非デスクトップコンピュータにおいて実施することができる。また、デスクトップコンピュータ１２を他のコンピュータシステム構成により実施することができ、これには、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラマブルなコンシューマエレクトロニクス、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータなどが含まれることは、当業者には理解されよう。本発明をまた分散コンピューティング環境において実施することもでき、これにおいて、タスクは、通信ネットワークを通じてリンクされるリモート処理デバイスによって実行される。分散コンピューティング環境では、プログラムモジュールはローカルおよびリモートのメモリストレージデバイス内に位置することができる。

図５を参照すると、デスクトップコンピュータ１２を実施するための例示的システムは、従来のパーソナルコンピュータの形態における汎用コンピューティングデバイスを含み、これは、処理装置４８、システムメモリ５０、およびシステムバス５２を含み、システムバス５２は、システムメモリ５０を含む様々なシステムコンポーネントを処理装置４８に結合する。システムバス５２を、いくつかのタイプのバス構造のいずれかにすることができ、これには、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バスおよびローカルバスが含まれる。システムメモリ５０は、読み取り専用メモリ（ＲＯＭ）５４およびランダムアクセスメモリ（ＲＡＭ）５５を含む。基本入出力システム（ＢＩＯＳ）５６は、起動中など、デスクトップコンピュータ１２内の複数の要素の間で情報を転送するための助けとなる基本ルーチンを含み、ＲＯＭ５４に格納される。デスクトップコンピュータ１２はさらに、ハードディスク（図示せず）に対する読み書きを行うためのハードディスクドライブ５７、リムーバブル磁気ディスク５９に対する読み書きを行うための磁気ディスクドライブ５８、および、ＣＤＲＯＭなどのリムーバブル光ディスク６１または他の光メディアに対する読み書きを行うための光ディスクドライブ６０を含む。ハードディスクドライブ５７、磁気ディスクドライブ５８および光ディスクドライブ６０はシステムバス５２へ、ハードディスクドライブインターフェース６２、磁気ディスクドライブインターフェース６３および光ドライブインターフェース６４によってそれぞれ接続される。これらのドライブおよび関連付けられたコンピュータ可読媒体は、デスクトップコンピュータ１２のためのコンピュータ可読命令、データ構造、プログラムモジュールおよび他のデータの不揮発性ストレージを提供する。

本明細書で説明する例示的環境は、ハードディスク、リムーバブル磁気ディスク５９およびリムーバブル光ディスク６１を使用するが、コンピュータによってアクセス可能であるデータを格納することができる他のタイプのコンピュータ可読媒体もまた、例示的オペレーティング環境内で使用することができ、これらは、磁気カセット、フラッシュメモリカード、デジタルビデオディスク（ＤＶＤ）、ベルヌーイカートリッジ、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）などであることを、当業者には理解されたい。

いくつかのプログラムモジュールを、ハードディスク、磁気ディスク５９、光ディスク６１、ＲＯＭ５４またはＲＡＭ５５上に格納することができ、これらのプログラムモジュールには、オペレーティングシステム６５、１つまたは複数のアプリケーションプログラム６６（ＰＩＭを含む可能性がある）、他のプログラムモジュール６７（同期化コンポーネント２６を含む可能性がある）、およびプログラムデータ６８が含まれる。ユーザはコマンドおよび情報をデスクトップコンピュータ１２へ、入力デバイスを通じて入力することができ、これは、キーボード７０、ポインティングデバイス７２、およびマイクロフォン９２などである。他の入力デバイス（図示せず）には、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどが含まれる可能性がある。これらおよび他の入力デバイスはしばしば処理装置４８へ、システムバス５２に結合されるシリアルポートインターフェース７６を通じて接続されるが、これらを他のインターフェースによって接続することができ、これらのインターフェースは、サウンドカード、パラレルポート、ゲームポートまたはユニバーサルシリアルバス（ＵＳＢ）などである。モニタ７７、または他のタイプの表示デバイスもまたシステムバス５２に、ビデオアダプタ７８など、インターフェースを介して接続される。モニタ７７に加えて、デスクトップコンピュータは通常、スピーカ７１およびプリンタなど、他の周辺出力デバイスを含むことができる。

デスクトップコンピュータ１２はネットワーク環境において、リモートコンピュータ７９など、１つまたは複数のリモートコンピュータ（モバイルデバイス１０以外）への論理接続を使用して動作することができる。リモートコンピュータ７９を、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ピアデバイスまたは他のネットワークノードにすることができ、これは通常、デスクトップコンピュータ１２に関連して上述した要素の多数またはすべてを含むが、メモリストレージデバイス８０のみを図５に例示した。図５に示す論理接続には、ローカルエリアネットワーク（ＬＡＮ）８１およびワイドエリアネットワーク（ＷＡＮ）８２が含まれる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネットおよびインターネットにおいて一般的である。

ＬＡＮネットワーキング環境において使用する場合、デスクトップコンピュータ１２がローカルエリアネットワーク８１へ、ネットワークインターフェースまたはアダプタ８３を通じて接続される。ＷＡＮネットワーキング環境において使用する場合、デスクトップコンピュータ１２は通常、モデム８４、またはインターネットなどのワイドエリアネットワーク８２を介して通信を確立するための他の手段を含む。モデム８４を内部または外部にすることができ、これはシステムバス５２へ、シリアルポートインターフェース７６を介して接続される。ネットワーク環境では、デスクトップコンピュータ１２に関連して示したプログラムモジュールまたはその一部を、リモートメモリストレージデバイスに格納することができる。図示のネットワーク接続は例示的であり、複数のコンピュータの間で通信リンクを確立する他の手段を使用できることは理解されよう。

デスクトップコンピュータ１２はオペレーティングシステム６５を実行し、これは通常、不揮発性メモリ５４に格納され、プロセッサ４８上で実行する。１つの適切なオペレーティングシステムは、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎによって販売されているＷｉｎｄｏｗｓ（登録商標）ブランドのオペレーティングシステムであり、Ｗｉｎｄｏｗｓ（登録商標）９５またはＷｉｎｄｏｗｓ（登録商標）ＮＴ、オペレーティングシステム、Ｗｉｎｄｏｗｓ（登録商標）ブランドオペレーティングシステムの他の派生バージョン、または別の適切なオペレーティングシステムなどである。他の適切なオペレーティングシステムには、ＡｐｐｌｅＣｏｒｐｏｒａｔｉｏｎから販売されているＭａｃｉｎｔｏｓｈＯＳ、ニューヨーク州アーモンクのＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓ（ＩＢＭ）によって販売されているＯＳ／２ＰｒｅｓｅｎｔａｔｉｏｎＭａｎａｇｅｒなどのシステムが含まれる。アプリケーションプログラムを、揮発性メモリまたは不揮発性メモリにおいてプログラムモジュール６７に格納することができ、あるいは図５に示すコンポーネントのいずれかに、フロッピー（登録商標）ディスケット５９、ＣＤＲＯＭドライブ６１からロードすることができ、ネットワークからネットワークアダプタ８３を介してダウンロードすることができ、あるいは別の適切なメカニズムを使用してロードすることができる。

本発明の方法を例示する流れ図を図６に示す。図６に示す方法を、図７Ａ〜７Ｄで提供するモバイルコンピューティングデバイスおよびデスクトップコンピュータの例示的実施形態を参照して説明する。図７Ａ〜７Ｄは、モバイルデバイス１０内で実行された音声認識特徴抽出プロセスを、コンピュータ１２内で実行された他の音声認識機能から分離させることを例示する。例示の実施形態では、音声認識中に、音声が入力としてモバイルデバイス１０のマイクロフォンへ、可聴音声信号の形態でユーザによって提供される。このステップを図６のブロック２０５に例示する。マイクロフォン１７は可聴音声信号をアナログ信号に変換し、これがＡ／Ｄコンバータ１０１に提供される。Ａ／Ｄコンバータ１０１はアナログ音声信号をデジタル信号のシーケンスに変換し、これが特徴抽出モジュール１０３に提供される。このステップを図６のブロック２１０に例示する。

特徴抽出モジュール１０３を、連続音声認識プロセスの「フロントエンド」と見なすことができ、これは出力として中間音声認識結果を提供し、これが音声認識サーチエンジン１０５に提供される。特徴抽出モジュール１０３によって提供された結果は、特徴認識サーチエンジン１０５が利用するように適合される特徴のタイプに相関させられる。例えば、特徴抽出モジュール１０３によって提供された中間音声認識結果を、メルケプストラム係数（ＭＦＣＣ係数）またはベクトル量子化（ＶＱ）インデックスにすることができる。中間結果をまた、隠れマルコフモデル（ＨＭＭ）スコア、ＨＭＭ状態出力確率密度関数（ｐｄｆ）、ケプストラル係数、または、音声信号から抽出することができる他のタイプの音声認識特徴にすることもできる。

一実施形態では、特徴抽出モジュール１０３は従来のアレイプロセッサであり、スペクトル解析をデジタル信号において実行し、周波数スペクトルの各周波数帯域についての大きさの値を計算する。他の実施形態では、特徴抽出モジュール１０３はまた特徴ベクトルを１つまたは複数のコードワードに、ベクトル量子化技術、および、トレーニングデータから導出されたコードブックを使用して符号化することもできる。したがって、特徴抽出モジュール１０３は、その出力で、各発話の発声についての特徴ベクトル（またはコードワード）を提供する。いくつかの実施形態では、中間結果が特徴抽出モジュール１０３によって、解析中の特定のフレームの特徴ベクトル（またはコードワード）を使用して隠れマルコフモデルに対して計算された出力確率分布を決定することによって、計算される。これらの確率分布を次いで、Ｖｉｔｅｒｂｉまたは類似のタイプの処理技術をデスクトップコンピュータ１２内で実行することにおいて、使用することができる。特徴抽出モジュール１０３によって実施された特徴抽出機能を、一般に図６の流れ図のブロック２１５に例示する。

マイクロフォン１７によって提供された帯域幅は通常、データトランスポート１４によって提供された帯域幅よりも広くなるので、特徴抽出モジュール１０３によって提供された内部表現または中間結果は、音声信号がトランスポート１４を介してコンピュータ１２内の特徴抽出のために送信されている場合よりも、正確になる。音声認識サーチエンジン１０５によって提供された音声認識結果は、マイクロフォン１７がデスクトップコンピュータ１２に直接接続された場合に得られた結果と同じであるべきである。したがって、デスクトップおよびテレフォニーの帯域幅の間で異なる規格を有する問題が取り除かれる。

図６のブロック２１７に例示するのは、２次音声認識機能を中間音声認識結果において、モバイルデバイス１０を使用して実行して、結果についてのリクエストを得るステップである。

モバイルデバイス１０から第２のコンピューティングデバイス１２への結果についてのリクエストの送信を、図６のブロック２２０に例示する。結果についてのリクエストを第２のコンピューティングデバイス１２によって受信することを、ブロック２２５に例示する。第２のコンピューティングデバイス１２からの結果をモバイルデバイス１０によって受信して、可聴音声を表す出力テキストをモバイルデバイス１０上に提供することを、ブロック２３０に例示する。これらの特定のステップの詳細を、以下で図７Ａ〜７Ｄに関して概説する。モバイルデバイス１０の構成に応じて、結果についてのリクエストのすべてを送信することができ、あるいはこれらのリクエストの一部を送信することができる。

図７Ａ〜７Ｄを参照すると、音声認識サーチエンジン１０５はモバイルデバイス１０内のアプリケーションプログラムとして実施され、これは「２次」音声認識機能を実施して、中間音声認識結果に応じて音声認識結果についてのリクエストを得る。図７Ａの実施形態では、音響モデル１０７および言語モデル１０９がデスクトップコンピュータ１２のメモリ内に格納される。中間音声認識結果を特徴抽出モジュール１０３から受信すると、音声認識サーチエンジン１０５は、デスクトップコンピュータ１２上の音響モデル１０７に格納された情報に、トランシーバ２７およびデータトランスポート１４を使用することによってアクセスするために、結果についてのリクエストを生成して、これらのリクエストをコンピュータ１２に提供する。

音響モデル１０７は、隠れマルコフモデルなどの音響モデルを格納し、これはコンピュータ１２によって検出される音声単位を表す。この情報（リクエストされた結果）は音声認識サーチエンジン１０５へ、データトランスポート１４においてバックチャネル通信リンク１１０を介して送信される。一実施形態では、音響モデル１０７は、隠れマルコフモデル内の各マルコフ状態に関連付けられたセノネツリー（ｓｅｎｏｎｅｔｒｅｅ）を含む。各隠れマルコフモデルは、１つの例示的実施形態では、音素を表す。音響モデル１０７内のセノネ（ｓｅｎｏｎｅｓ）に基づいて、サーチエンジン１０５は、特徴抽出モジュール１０３から受信された特徴ベクトル（またはコードワード）によって表され、よってシステムのユーザから受信された発声を表す、最も可能性の高い音素を決定する。音響モデルは次いで結果として、上記の実施例では、隠れマルコフモデルおよびセノネツリーに基づいた音素を戻す。しかし、結果を他のモデルに基づかせることができる。音響モデル１０７は、いくつかの実施形態では、コンピュータ１２内で（モバイルデバイス１０から）リモートに位置するが、代替実施形態では、音響モデル１０７は、図７Ｂに例示するようにモバイルデバイス上に位置することができる。これらの実施形態では、他の結果についてのリクエストが、中間音声認識結果に応じて生成され、リモートコンピュータ１２に送信される。図７Ｂに例示した場合では、リモートコンピュータ１２を、言語モデル１０９をホストするウェブサーバにすることができる。この実施例では、モバイルデバイスによって実行される音声認識は、ウェブサーバに依拠して、必要とされた言語モデルまたは文脈情報を供給する。

音声認識サーチエンジン１０５はまた、デスクトップコンピュータ１２上の言語モデル１０９に格納された情報にも、トランシーバ２７およびデータトランスポート１４を使用することによってアクセスする。サーチエンジン１０５によってデータトランスポート１４を通じて受信された情報を、音響モデル１０７のそのアクセスおよびリクエストされた結果の受信に基づいて、言語モデル１０９をサーチして、モジュール１０３から受信された中間音声認識結果を表す可能性が最も高い単語を決定することにおいて、使用することができる。この単語が、モバイルデバイス１０および音声認識サーチエンジン１０５へ戻るように、データトランスポート１４においてバックチャネル通信リンク１１０を介して送信される。音響モデル１０７および言語モデル１０９、ならびに当技術分野で知られているタイプの他の音声認識モデルまたはデータベースを使用して、音声認識サーチエンジン１０５は、モバイルデバイス１０のマイクロフォン１７によって受信された元の発声信号（ｖｏｃａｌｓｉｇｎａｌ）に対応する出力テキストを提供する。音声認識エンジン１０５によって、出力テキストを音声認識中間結果の内部表現に応じて生成するために実施された特定の方法は、上述の例示的実施形態とは異なる可能性がある。

他の実施形態では、図７Ｃおよび７Ｄに例示するように、モバイルデバイス１０はまたローカル言語モデル１１１も含む。ローカル言語モデル１１１がモバイルデバイス上に含まれる場合、音声認識サーチエンジン１０５は結果についてのリクエストを、リモートコンピュータ１２上の言語モデル１０９およびローカル言語モデル１１１へ提供する。ローカル言語モデル１１１は上述の言語モデル１０９に類似しており、ローカル言語モデル１１１をサーチして、特徴抽出モジュール１０３から受信された中間音声認識結果を表す可能性が最も高い単語を決定することができる。音声認識サーチエンジン１０５は、２つの言語モデルから受信されたどの結果がリクエストへの最良のマッチであるかを決定するように構成される。最良の結果は、認識された出力テキストとしてユーザに出力されるように選択される。いくつかの実施形態では、リモート言語モデル１０９はローカル言語モデル１１１を、更新手順を使用して更新する。この更新を、ウェブベースの更新手順を通じて、更新ディスクを通じて、あるいは、ファイルの更新を可能にする他のいずれかのデバイスを通じて行うことができる。もう１つの実施形態では、言語モデル１０９はローカル言語モデル１１１を、追加の言語モデル容量を提供することによって補い、したがって、より小さいローカル言語モジュールをモバイルデバイス１０に含めることを可能とする。

図７Ｄに例示した実施形態では、モバイルデバイス１０はまたローカル音響モデル１１３も含む。この実施形態では、リモートコンピュータ１２はまた音響モデル１０７も含む。ローカル音響モデル１１３は上述の音響モデル１０７に類似しており、ローカル音響モデル１１３は、モバイルデバイス１０によって検出される音声単位を表す音響モデルを格納する。ローカル音響モデル１１３がモバイルデバイス１０上に含まれる場合、音声認識サーチエンジン１０５は結果についてのリクエストを、リモートコンピュータ１２上の音響モデル１０７およびローカル音響モデル１１３へ提供する。音響モデルは結果として、一実施形態では、隠れマルコフモデルおよびセノネツリーに基づいた音素を戻す。しかし、結果を他のモデルに基づかせることができる。音声認識サーチエンジン１０５は、２つの音響モデルから受信されたどの結果がリクエストへの最良のマッチであるかを決定するように構成される。次いで、リクエストへの最良のマッチが言語モデル１０９および１１１によって使用されて、ユーザによって発話された単語が決定される。

上述のように、本発明は、パッケージプロトコルを使用してデジタルワイヤレスネットワークを利用して、特徴抽出モジュール１０３からの中間音声認識結果、および、音声認識サーチエンジン１０５からの結果についてのリクエストを送信する。広帯域幅音声信号をマイクロフォン１７から中間音声認識結果へ、モバイルデバイス１０を使用して変換することにより、トランスポート１４を介して信号を送信する場合に発生する可能性のあるデータの損失が防止される。これにより、モバイルコンピューティングデバイスのための統一されたデスクトップ品質のオーディオ音声認識が提供される。いくつかの実施形態では、本発明のモバイルデバイスは、２つのモードで動作するようにプログラムされる「スマート」フォンである。モバイルデバイス１０のユーザが別の人物に話をしている場合、オーディオ信号がトランスポート１４を介して送信される。モバイルデバイス１０のユーザがコンピュータ１２または他のマシンに通信中である場合、特徴抽出モジュール１０３によって提供された中間結果または特徴、および、音声認識サーチエンジン１０５からの結果についてのリクエストが送信される。続いて、デスクトップコンピュータ１２、または他の対応するマシンは、送信された特徴を利用して音声認識を実行する。

要約すると、結果についてのリクエストは、音響モジュールデータについてのリクエスト、および／または、言語モジュールデータについてのリクエストを含むことができる。結果についてのリクエストは、音声認識サーチエンジン１０５によって生成され、これはモバイルデバイス１０上に位置する。音響および言語モジュールの場所にかかわらず、これらの結果についてのリクエストの少なくとも一部が、第２のコンピューティングデバイス１２に送信されなければならない。一実施形態では、言語モジュールおよび音響モジュールは第２のコンピューティングデバイス１２上に存在し、結果についてのリクエストは、言語モジュールデータおよび音響モジュールデータについての両方のリクエストを含む。もう１つの実施形態では、音響モジュールはモバイルコンピューティングデバイス１０上に存在し、言語モジュールはリモートコンピューティングデバイス１２上に存在する。この実施形態では、音声認識サーチエンジン１０５からの結果についてのリクエストの一部がローカル音響モジュールに送信される。結果が音声認識サーチエンジンに戻るように送信された後、言語モジュールデータ結果についてのリクエストは音声認識サーチエンジン１０５から、第２のコンピューティングデバイス１２上に位置する言語モジュールに送信される。さらにもう１つの実施形態では、音声認識サーチエンジンは、音響モジュール結果についてのリクエストを、モバイルコンピューティングデバイス１０上の音響モジュール、および、第２のコンピューティングデバイス１２上に位置する音響モジュールに送信する。これらの結果を両方の音響モジュールから受信すると、音声認識サーチエンジン１０５は、言語モジュール結果についてのリクエストを、リモートコンピューティングデバイス１２上に位置する言語モジュールに送信する。もう１つの実施形態では、音声認識サーチエンジン１０５は、音響モジュールデータ結果についてのリクエスト、および、言語モジュールデータ結果についてのリクエストを、ローカル音響または言語モジュール、および、第２のコンピューティングデバイス１２上に位置するリモート音響または言語モジュールに送信する。

本発明を、様々な実施形態を参照して説明したが、本発明の精神および範囲から逸脱することなく、形態および詳細において変更を行うことができることは、当業者には理解されよう。

本発明によるモバイルデバイスの一実施形態を例示する簡易ブロック図である。図１のモバイルデバイスの一実施形態のより詳細なブロック図である。本発明によるモバイルデバイスの一実施形態の簡易化した絵図である。本発明によるモバイルデバイスのもう１つの実施形態の簡易化した絵図である。本発明の音声認識プロセスの部分を実施することができる、デスクトップコンピュータの例示的実施形態のブロック図である。本発明の方法を例示する流れ図である。本発明の実施形態による音声認識システムを例示するブロック図である。本発明の実施形態による音声認識システムを例示するブロック図である。本発明の実施形態による音声認識システムを例示するブロック図である。本発明の実施形態による音声認識システムを例示するブロック図である。

符号の説明

１０モバイルデバイス
１２デスクトップコンピュータ
１４データトランスポート
１５アナログ−デジタル（Ａ／Ｄ）コンバータ
１７マイクロフォン
２７トランシーバ
１０１Ａ／Ｄコンバータ
１０３特徴抽出モジュール
１０５音声認識サーチエンジン
１０７音響モデル
１０９言語モデル
１１０バックチャネル通信リンク
１１１ローカル言語モデル
１１３ローカル音響モデル

Claims

音声認識を実行する方法であって、
モバイルコンピューティングデバイスのマイクロフォンで可聴音声を受信するステップと、
前記可聴音声を音声信号に、前記モバイルコンピューティングデバイスを使用して変換するステップと、
予備音声認識機能を前記音声信号において、前記モバイルコンピューティングデバイスを使用して実行して、中間音声認識結果を得るステップとを備え、前記予備音声認識機能を前記音声信号において実行して、前記中間音声認識結果を得るステップはさらに、特徴抽出機能を前記音声信号において実行して、前記音声信号の特徴を示す前記中間音声認識結果を得るステップを備え、さらに、
２次音声認識機能を前記音声信号において、前記モバイルコンピューティングデバイスを使用して実行して、認識された可聴音声を示す音声認識結果についてのリクエストを得るステップと、
前記音声認識結果についてのリクエストの少なくとも一部を、前記モバイルコンピューティングデバイスからリモートに位置する第２のコンピューティングデバイスに、前記第２のコンピューティングデバイス上に位置する少なくとも１つのモジュールにアクセスして前記リクエストされた音声認識結果を得るために、送信するステップと、
前記リクエストされた音声認識結果を、前記第２のコンピューティングデバイスから、前記モバイルコンピューティングデバイスで受信して、前記可聴音声を表す出力テキストを提供するステップと
を備えることを特徴とする方法。
前記結果についてのリクエストの前記少なくとも一部を、前記第２のコンピューティングデバイスで受信するステップと、
前記第２のコンピューティングデバイス上の前記少なくとも１つのモジュールにアクセスして、前記リクエストされた結果を得るステップと、
前記リクエストされた結果を前記モバイルコンピューティングデバイスに送信するステップと
をさらに備えることを特徴とする請求項１に記載の方法。
前記結果についてのリクエストの一部を、前記モバイルコンピューティングデバイス上に位置する音響モデルに送信するステップをさらに備えることを特徴とする請求項２に記載の方法。
前記結果についてのリクエストの前記少なくとも一部を、前記第２のコンピューティングデバイスに送信するステップは、前記結果についてのリクエストの前記少なくとも一部を、前記リモートコンピュータ上に位置する言語モデルに送信するステップをさらに備え、
前記結果についてのリクエストの一部を、前記モバイルコンピューティングデバイス上に位置する言語モデルに送信するステップをさらに備えることを特徴とする請求項３に記載の方法。
前記モバイルコンピューティングデバイス上の前記言語モデルを、前記第２のコンピューティングデバイス上の前記言語モデルに含まれた情報により更新するステップをさらに備えることを特徴とする請求項４に記載の方法。
前記第２のコンピューティングデバイス上の前記少なくとも１つのモジュールにアクセスするステップは、前記第２のコンピューティングデバイスのメモリに格納された音響モデル情報にアクセスして、前記モバイルコンピューティングデバイス上で、前記可聴音声を表す前記出力テキストを、前記中間音声認識結果および前記音響モデル情報に応じて提供するステップをさらに備えることを特徴とする請求項２に記載の方法。
前記第２のコンピューティングデバイス上の前記少なくとも１つのモジュールにアクセスするステップは、前記第２のコンピューティングデバイスのメモリに格納された言語モデル情報にアクセスして、前記モバイルコンピューティングデバイス上で、前記可聴音声を表す前記出力テキストを、前記中間音声認識結果および前記言語モデル情報に応じて提供するステップをさらに備えることを特徴とする請求項２に記載の方法。
前記可聴音声を音声信号に、前記モバイルコンピューティングデバイスで変換するステップは、
前記可聴音声をアナログ信号に変換するステップと、
前記アナログ信号をデジタル化して前記音声信号を得るステップと
をさらに備えることを特徴とする請求項１に記載の方法。
予備音声認識機能を前記音声信号において実行するステップは、メルケプストラム係数を前記音声信号から決定するステップをさらに備え、２次音声認識機能を実行するステップは、前記結果についてのリクエストを前記メルケプストラム係数に基づいて決定するステップをさらに備え、前記結果についてのリクエストの少なくとも一部を送信するステップは、前記メルケプストラム係数に基づいた前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピューティングデバイスから前記第２のコンピューティングデバイスに送信するステップをさらに備えることを特徴とする請求項１に記載の方法。
予備音声認識機能を前記音声信号において実行するステップは、ベクトル量子化インデックスを前記音声信号から決定するステップをさらに備え、２次音声認識機能を実行するステップは、前記結果についてのリクエストを前記ベクトル量子化インデックスに基づいて決定するステップをさらに備え、リクエストを送信するステップは、前記ベクトル量子化インデックスに基づいたリクエストを、前記モバイルコンピューティングデバイスから前記第２のコンピューティングデバイスに送信するステップをさらに備えることを特徴とする請求項１に記載の方法。
予備音声認識機能を前記音声信号において実行するステップは、隠れマルコフモデル（ＨＭＭ）スコアを前記音声信号から決定するステップをさらに備え、２次音声認識機能を実行するステップは、前記結果についてのリクエストを前記ＨＭＭスコアに基づいて決定するステップをさらに備え、リクエストを送信するステップは、前記ＨＭＭスコアに基づいたリクエストを、前記モバイルコンピューティングデバイスから前記第２のコンピューティングデバイスに送信するステップをさらに備えることを特徴とする請求項１に記載の方法。
予備音声認識機能を前記音声信号において実行するステップは、隠れマルコフモデル（ＨＭＭ）状態出力確率密度関数を前記音声信号から決定するステップをさらに備え、２次音声認識機能を実行するステップは、前記結果についてのリクエストを前記ＨＭＭ状態出力確率に基づいて決定するステップをさらに備え、リクエストを送信するステップは、前記ＨＭＭ状態出力確率密度関数に基づいたリクエストを、前記モバイルコンピューティングデバイスから前記第２のコンピューティングデバイスに送信するステップをさらに備えることを特徴とする請求項１に記載の方法。
予備音声認識機能を前記音声信号において実行するステップは、ケプストラル係数を前記音声信号から決定するステップをさらに備え、２次音声認識機能を実行するステップは、前記結果についてのリクエストを前記ケプストラル係数に基づいて決定するステップをさらに備え、リクエストを送信するステップは、前記ケプストラル係数に基づいたリクエストを、前記モバイルコンピューティングデバイスから前記第２のコンピューティングデバイスに送信するステップをさらに備えることを特徴とする請求項１に記載の方法。
予備音声認識機能を前記音声信号において実行するステップは、特徴ベクトルを前記音声信号から決定するステップをさらに備え、２次音声認識機能を実行するステップは、前記結果についてのリクエストを前記特徴ベクトルに基づいて決定するステップをさらに備え、前記中間音声認識結果を前記モバイルデバイスから前記第２のコンピューティングデバイスに送信するステップは、前記特徴ベクトルを、前記モバイルコンピューティングデバイスから前記第２のコンピューティングデバイスに送信するステップをさらに備えることを特徴とする請求項１に記載の方法。
前記結果についてのリクエストの前記少なくとも一部を送信するステップは、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピューティングデバイスから前記第２のコンピューティングデバイスへ、ワイヤレス通信ネットワークを介して送信するステップをさらに備えることを特徴とする請求項１に記載の方法。
前記結果についてのリクエストの前記少なくとも一部を送信するステップは、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピューティングデバイスから前記第２のコンピューティングデバイスへ、前記モバイルコンピューティングデバイスの前記マイクロフォンの帯域幅より少ない帯域幅を有する通信ネットワークを介して送信するステップをさらに備えることを特徴とする請求項１に記載の方法。
前記出力テキストを、前記モバイルコンピューティングデバイスで、前記受信されたリクエストされた結果に応じて提供するステップをさらに備えることを特徴とする請求項１に記載の方法。
予備および２次音声認識機能を、マイクロフォンを有するモバイルコンピュータのユーザからの可聴音声に対応する、音声信号において実施して、結果についてのリクエストを得るステップと、
前記結果についてのリクエストの少なくとも一部を、前記モバイルコンピュータのトランスミッタに送信して、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータから、前記モバイルコンピュータからリモートに位置する第２のコンピュータに送信するステップと、
前記結果を前記第２のコンピュータから受信して、前記音声認識機能を前記モバイルデバイスにおいて終了するステップと
を実行するためのモバイルコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。
前記予備および２次音声認識機能を前記音声信号において実施する前記ステップを実行するための前記コンピュータ実行可能命令は、特徴抽出機能を前記音声信号において実行して、前記音声信号の特徴を示す中間音声認識結果を得るためのコンピュータ実行可能命令をさらに含み、前記コンピュータ実行可能命令は、前記中間音声認識結果を使用して、前記結果についてのリクエストを前記特徴抽出機能に基づいて得るステップをさらに備えることを特徴とする請求項１８に記載のコンピュータ可読媒体。
前記特徴抽出機能を前記音声信号において実行するための前記コンピュータ実行可能命令は、メルケプストラム係数を前記音声信号から決定するためのコンピュータ実行可能命令をさらに含み、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータの前記トランスミッタに送信するための前記コンピュータ実行可能命令は、前記メルケプストラム係数に基づいた前記結果についてのリクエストの前記少なくとも一部を送信するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項１９に記載のコンピュータ可読媒体。
前記特徴抽出機能を前記音声信号において実行するための前記コンピュータ実行可能命令は、ベクトル量子化インデックスを前記音声信号から決定するためのコンピュータ実行可能命令をさらに含み、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータの前記トランスミッタに送信するための前記コンピュータ実行可能命令は、前記ベクトル量子化インデックスに基づいた前記結果についてのリクエストの前記少なくとも一部を送信するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項１９に記載のコンピュータ可読媒体。
前記特徴抽出機能を前記音声信号において実行するための前記コンピュータ実行可能命令は、隠れマルコフモデル（ＨＭＭ）スコアを前記音声信号から決定するためのコンピュータ実行可能命令をさらに含み、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータの前記トランスミッタに送信するための前記コンピュータ実行可能命令は、前記ＨＭＭスコアに基づいた前記結果についてのリクエストの前記少なくとも一部を送信するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項１９に記載のコンピュータ可読媒体。
前記特徴抽出機能を前記音声信号において実行するための前記コンピュータ実行可能命令は、隠れマルコフモデル（ＨＭＭ）状態出力確率密度関数を前記音声信号から決定するためのコンピュータ実行可能命令をさらに含み、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータの前記トランスミッタに送信するための前記コンピュータ実行可能命令は、前記ＨＭＭ状態出力確率密度関数に基づいた前記結果についてのリクエストの前記少なくとも一部を送信するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項１９に記載のコンピュータ可読媒体。
前記特徴抽出機能を前記音声信号において実行するための前記コンピュータ実行可能命令は、ケプストラル係数を前記音声信号から決定するためのコンピュータ実行可能命令をさらに含み、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータの前記トランスミッタに送信するための前記コンピュータ実行可能命令は、前記ケプストラル係数に基づいた前記結果についてのリクエストの前記少なくとも一部を送信するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項１９に記載のコンピュータ可読媒体。
前記特徴抽出機能を前記音声信号において実行するための前記コンピュータ実行可能命令は、特徴ベクトルを前記音声信号から決定するためのコンピュータ実行可能命令をさらに含み、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータの前記トランスミッタに送信するための前記コンピュータ実行可能命令は、特徴ベクトルに基づいた前記結果についてのリクエストの前記少なくとも一部を送信するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項１９に記載のコンピュータ可読媒体。
可聴音声をアナログ信号に変換するように適合されたマイクロフォンと、
前記マイクロフォンに結合され、前記可聴音声をデジタル化して音声信号を提供するように適合されたアナログ−デジタルコンバータと、
予備音声認識機能を前記音声信号において実行して、中間音声認識結果を提供するように適合された特徴抽出モジュールであって、前記中間音声認識結果は前記音声信号の特徴を示す、特徴抽出モジュールと、
２次音声認識機能を実行して、認識された可聴音声を示す音声認識結果についてのリクエストを得るように構成された音声認識モジュールと、
前記音声認識モジュールに結合され、前記音声認識結果についてのリクエストの少なくとも一部を、前記モバイルコンピュータから、前記モバイルコンピュータからリモートに位置する第２のコンピュータに送信するように、および、前記リクエストされた音声認識結果を前記第２のコンピュータから受信するように適合されたトランシーバと
を備えることを特徴とするモバイルコンピュータ。
前記特徴抽出モジュールが、前記音声信号からメルケプストラム係数を決定するように、および、前記メルケプストラム係数を、前記中間音声認識結果として提供するように適合されることを特徴とする請求項２６に記載のモバイルコンピュータ。
前記特徴抽出モジュールが、前記音声信号からベクトル量子化インデックスを決定するように、および、前記ベクトル量子化インデックスを、前記中間音声認識結果として提供するように適合されることを特徴とする請求項２６に記載のモバイルコンピュータ。
前記特徴抽出モジュールが、前記音声信号から隠れマルコフモデル（ＨＭＭ）スコアを決定するように、および、前記ＨＭＭスコアを、前記中間音声認識結果として提供するように適合されることを特徴とする請求項２６に記載のモバイルコンピュータ。
前記特徴抽出モジュールが、前記音声信号から隠れマルコフモデル（ＨＭＭ）状態出力確率密度関数を決定するように、および、前記ＨＭＭ状態出力確率密度関数を、前記中間音声認識結果として提供するように適合されることを特徴とする請求項２６に記載のモバイルコンピュータ。
前記特徴抽出モジュールが、前記音声信号からケプストラル係数を決定するように、および、前記ケプストラル係数を、前記中間音声認識結果として提供するように適合されることを特徴とする請求項２６に記載のモバイルコンピュータ。
前記特徴抽出モジュールが、前記音声信号から特徴ベクトルを決定するように、および、前記特徴ベクトルを、前記中間音声認識結果として提供するように適合されることを特徴とする請求項２６に記載のモバイルコンピュータ。
音響モデル結果を前記音声認識モジュールに、前記結果についてのリクエストに応答して提供するように構成された音響モデルをさらに備えることを特徴とする請求項２６に記載のモバイルコンピュータ。
結果を前記音声認識モジュールに、前記結果についてのリクエストに応答して提供するように構成された言語モデルをさらに備えることを特徴とする請求項２６に記載のモバイルコンピュータ。
結果を前記音声認識モジュールに、前記結果についてのリクエストに応答して提供するように構成された言語モデルをさらに備え、
前記言語モデルがリモート言語モデルから更新されるように構成されることを特徴とする請求項３２または３３に記載のモバイルコンピュータ。