JP2004287447A - モバイル通信デバイスのための分散音声認識 - Google Patents
モバイル通信デバイスのための分散音声認識 Download PDFInfo
- Publication number
- JP2004287447A JP2004287447A JP2004087790A JP2004087790A JP2004287447A JP 2004287447 A JP2004287447 A JP 2004287447A JP 2004087790 A JP2004087790 A JP 2004087790A JP 2004087790 A JP2004087790 A JP 2004087790A JP 2004287447 A JP2004287447 A JP 2004287447A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- computing device
- result
- speech recognition
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000010295 mobile communication Methods 0.000 title 1
- 230000006870 function Effects 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims description 38
- 230000005236 sound signal Effects 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 21
- 238000013139 quantization Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 13
- 230000003287 optical effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 4
- 230000006855 networking Effects 0.000 description 4
- 238000012905 input function Methods 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 241001422033 Thestylus Species 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003490 calendering Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
【課題】 音声認識を実行する方法、および、これを実施するモバイルコンピューティングデバイスを提供する。
【解決手段】 この方法は、モバイルコンピューティングデバイスのマイクロフォンで可聴音声を受信することを含む。可聴音声は音声信号に、モバイルコンピューティングデバイスで変換される。またモバイルコンピューティングデバイスで、予備および2次音声認識機能が音声信号において実行されて、モジュールからの結果についてのリクエストが得られる。次いで、結果についてのリクエストがモバイルコンピューティングデバイスから、モバイルコンピューティングデバイスからリモートに位置する第2のコンピューティングデバイスに送信されて結果が得られ、この結果が次いでモバイルコンピューティングデバイスに戻るように、音声認識プロセスの完了のために送信される。
【選択図】 図1
【解決手段】 この方法は、モバイルコンピューティングデバイスのマイクロフォンで可聴音声を受信することを含む。可聴音声は音声信号に、モバイルコンピューティングデバイスで変換される。またモバイルコンピューティングデバイスで、予備および2次音声認識機能が音声信号において実行されて、モジュールからの結果についてのリクエストが得られる。次いで、結果についてのリクエストがモバイルコンピューティングデバイスから、モバイルコンピューティングデバイスからリモートに位置する第2のコンピューティングデバイスに送信されて結果が得られ、この結果が次いでモバイルコンピューティングデバイスに戻るように、音声認識プロセスの完了のために送信される。
【選択図】 図1
Description
本発明は、一般にハンドヘルドポータブルコンピュータとして知られるパーソナルモバイルコンピューティングデバイスに関する。より詳細には、本発明は、モバイルコンピューティングデバイスの使用により実行される音声認識を向上させるためのシステムおよび方法に関する。
モバイルデバイスは小型の電子コンピューティングデバイスであり、時として携帯情報端末(PDA)と呼ばれる。このようなモバイルデバイスの多数は、ハンドヘルドデバイスまたはパームサイズのデバイスであり、手の中にうまく納まる。1つの市販のモバイルデバイスは、ハンドヘルドPC(またはH/PC)という商用名の下で販売されており、これは、ワシントン州レドモンドのMicrosoft Corporationによって提供されたソフトウェアを有する。
一般に、モバイルデバイスは、プロセッサ、ランダムアクセスメモリ(RAM)、ならびに、キーボードおよびディスプレイなどの入力デバイスを含み、キーボードを、タッチセンシティブディスプレイなどのディスプレイと統合することができる。通信インターフェースがオプショナルで提供され、一般にデスクトップコンピュータと通信するために使用される。交換可能または再充電可能なバッテリがモバイルデバイスに電力供給を行う。オプショナルで、モバイルデバイスは電力を外部電源から受けることができ、この外部電源は、適切なACもしくはDCアダプタ、または電力ドッキングクレードルなどの内蔵バッテリに優先し、あるいは内蔵バッテリを再充電する。
1つの一般的な応用例では、モバイルデバイスがデスクトップコンピュータと共に使用される。例えば、モバイルデバイスのユーザはまた、職場または自宅で、デスクトップコンピュータへのアクセスを有し、これを使用する可能性もある。ユーザは通常、同じタイプのアプリケーションをデスクトップコンピュータおよびモバイルデバイスで実行する。したがって、モバイルデバイスがデスクトップコンピュータに結合されて、モバイルデバイスと情報を交換し、情報を共有するように設計されることは、大変有利である。
モバイルコンピューティングデバイス市場が成長し続けているので、新しい発展を予想することができる。例えば、モバイルデバイスをセルラーまたはデジタルワイヤレス通信技術と統合して、携帯電話としても機能するモバイルコンピューティングデバイスを提供することができる。したがって、セルラーまたはデジタルワイヤレス通信技術は、モバイルデバイスとデスクトップ(または他の)コンピュータの間の通信リンクを提供することができる。さらに、音声認識を使用して、モバイルコンピューティングデバイスおよびデスクトップコンピュータのうち一方またはその両方のデータを記録するか、あるいは機能をコントロールすることができ、ユーザはモバイルデバイス上のマイクロフォンに発話し、信号がデスクトップコンピュータに、マイクロフォンによって検出された音声に基づいて送信される。
デスクトップコンピュータで、モバイルデバイス上に位置付けられたマイクロフォンなど、リモートのマイクロフォンに発話された単語の音声認識を実行しようと試みている場合、いくつかの問題が生じる。第1に、マイクロフォンによって提供された音声信号(speech signal)の信号対雑音比は、マイクロフォンとユーザの口の間の距離が長くなるにつれて低下する。通常のモバイルデバイスは、ユーザの口から最長1フィート(30.48cm)のユーザの手のひらに保持されるので、結果として生じる信号対雑音比の低下は、著しい音声認識の障害となる可能性がある。また、モバイルデバイス内の内部雑音も、音声信号の信号対雑音比を低下させ、これは、内部雑音が、通常はモバイルデバイスのハウジング上に位置付けられるマイクロフォンに、非常に近接しているためである。第2に、デジタル、および、ワイヤレス通信ネットワークなどの他の通信ネットワークの帯域幅制限により、デスクトップコンピュータで受信された音声信号は、デスクトップのマイクロフォンからの音声信号と比較すると、より低い品質となる。したがって、デスクトップのマイクロフォンではなく、モバイルコンピューティングデバイスのマイクロフォンを使用する場合、異なるデスクトップおよびテレフォニーの帯域幅により、音声認識結果が異なるようになる。
音声認識を実行する方法、および、これを実施するモバイルコンピューティングデバイスを開示する。
この方法は、モバイルコンピューティングデバイスのマイクロフォンで可聴音声を受信することを含む。可聴音声は音声信号に、モバイルコンピューティングデバイスで変換される。またモバイルコンピューティングデバイスで、予備音声認識機能が音声信号において実行されて、中間音声認識結果が得られる。次いで、2次音声認識機能が実行されて、第2のコンピューティングデバイスからの結果についてのリクエストが得られる。これらの結果についてのリクエストがモバイルコンピューティングデバイスから、モバイルコンピューティングデバイスからリモートに位置する第2のコンピューティングデバイスに送信される。第2のコンピューティングデバイスはこの結果を得て、これらの結果をモバイルデバイスに、音声認識プロセスの完了のために送信する。
本発明のいくつかの実施形態では、モバイルコンピューティングデバイスは、第2のコンピューティングデバイスで実行される機能と同じ予備音声認識機能を、音声信号において実行する。中間音声認識結果を、音声信号から抽出された音声認識特徴にすることができる。この特徴には、例えば、メルケプストラム係数、ベクトル量子化(VQ)インデックス、隠れマルコフモデル(HMM)スコア、HMM状態出力確率密度関数、ケプストラル係数、または、音声信号から抽出することができる他のタイプの音声認識特徴が含まれる可能性がある。
音声信号自体を第2のコンピューティングデバイスでの音声認識のために送信するのではなく、結果についてのリクエストをモバイルコンピューティングデバイスから第2のコンピューティングデバイスに送信することにより、一様な音声認識モデルを、通信ネットワークが広帯域であるか狭帯域であるかにかかわらず、使用することができる。さらに、通信ネットワークがモバイルコンピューティングデバイスのマイクロフォンが有するよりも狭い帯域幅を有する場合、音声認識特徴をより狭い帯域幅の通信ネットワークを介して送信する場合により広い帯域幅の音声情報は失われない。
図1は、例示的ポータブルコンピューティングデバイス、ここでは本発明によるモバイルデバイス10のブロック図である。図1に例示するように、一実施形態では、モバイルデバイス10は、デスクトップコンピュータ12、データトランスポート14、またはその両方との接続のため、およびそれから情報を受信するために適切である。データトランスポート14をワイヤレストランスポートにすることができ、これは、ページングネットワーク、セルラーデジタルパケットデータ(CDPD)、FM側波帯、または他の適切なワイヤレス通信などである。しかし、モバイルデバイス10がデスクトップコンピュータ12に接続されるように装備されない可能性があり、本発明は、モバイルデバイス10がこの機能を備えるかどうかにかかわらず適用されることにも留意されたい。モバイルデバイス10を、携帯情報端末(PDA)、または、セルラーまたはデジタルワイヤレスホン機能を有するハンドヘルドポータブルコンピュータにすることができ、従来のPDA機能を実行するように、および、ワイヤレス電話としての機能を果たすように適合させることができる。他の実施形態では、データトランスポート14は、ケーブルネットワーク、電話網、または他の非ワイヤレス通信ネットワークである。
例示的実施形態では、モバイルデバイス10は、マイクロフォン17、アナログ−デジタル(A/D)コンバータ15、および音声認識プログラム19を含む。デバイス10のユーザからの口頭によるコマンド、命令または情報に応答して、マイクロフォン17は音声信号を提供し、これがA/Dコンバータ15によってデジタル化される。音声認識プログラム19は特徴抽出機能を、デジタル化された音声信号において実行して、中間音声認識結果を得る。アンテナ11を使用して、デバイス10は中間音声認識結果を、トランスポート14を介してデスクトップコンピュータ12に送信し、ここで追加の音声認識プログラムが使用されて、音声認識プロセスが完了される。本発明の音声認識特徴抽出の態様を以下でより詳細に説明する。
いくつかの実施形態では、モバイルデバイス10は1つまたは複数の他のアプリケーションプログラム16およびオブジェクトスコア18を含む。アプリケーションプログラム16を、例えば、パーソナルインフォメーションマネージャ(PIM)16Aにすることができ、これは、ユーザの電子メール(eメール)に関係するオブジェクト、および、スケジューリングまたはカレンダリング情報を格納する。アプリケーションプログラム16はまた、コンテンツビューア16Bも含むことができ、これは、インターネットなど、ワイドエリアネットワークから得られた情報を閲覧するために使用される。一実施形態では、コンテンツビューア16Bは「オフライン」のビューアであり、情報が閲覧される前に最初に格納され、ユーザは情報のソースとリアルタイムで対話しない。他の実施形態では、モバイルデバイス10はリアルタイム環境で動作し、トランスポート14は双方向通信を提供する。PIM16A、コンテンツビューア16Bおよびオブジェクトストア18は、本発明のすべての実施形態において必要とされるとは限らない。
PIM16A、コンテンツビューア16Bおよびオブジェクトストア18を含む実施形態では、ワイヤレストランスポート14をまた使用して、情報をモバイルデバイス10へ、オブジェクトストア18に格納するために、また、アプリケーションプログラム16により使用するために、送信することもできる。トランスポート14は、情報ソースプロバイダ13から送信されるべき情報を受信し、情報ソースプロバイダ13は、例えば、ニュース、天候、スポーツ、交通または地域のイベント情報のソースにすることができる。同様に、情報ソースプロバイダ13は、eメールおよび/またはスケジューリング情報をデスクトップコンピュータ12から受信することができ、これはモバイルデバイス10へ、トランスポート14を通じて送信されるべきである。デスクトップコンピュータ12からの情報を情報ソースプロバイダ13に、直接モデム接続など、いずれかの適切な通信リンクを通じて供給することができる。もう1つの実施形態では、デスクトップコンピュータ12および情報ソースプロバイダ13を共に接続して、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を形成することができる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネットおよびインターネットにおいて一般的である。望むなら、デスクトップコンピュータ12をまたトランスポート14に直接接続することもできる。
一実施形態では、モバイルデバイス10をデスクトップコンピュータ12に、いずれかの適切な市販の通信リンクを使用して、また、適切な通信プロトコルを使用して、結合させることができることにも留意されたい。例えば、一実施形態では、モバイルデバイス10はデスクトップコンピュータ12と、シリアル通信プロトコルを使用して通信する物理ケーブルにより通信する。他の通信メカニズムには、赤外線(IR)通信および直接モデム通信が含まれる。
モバイルデバイス10を、一実施形態では、デスクトップコンピュータ12と同期化させることができることにも留意されたい。その場合、オブジェクトストア18に格納されたオブジェクトのプロパティは、デスクトップコンピュータ12またはモバイルデバイス10上のオブジェクトストアに格納された同じオブジェクトの他のインスタンスのプロパティに類似している。したがって、例えば、オブジェクトのあるインスタンスがデスクトップ12上のオブジェクトストアに格納される場合、モバイルデバイス10のオブジェクトストア18内のそのオブジェクトの第2のインスタンスは、次にモバイルデバイス10がデスクトップコンピュータ12に接続される際に更新されて、同じオブジェクトの両方のインスタンスが最新のデータを含むようにされる。これは一般に同期化と呼ばれる。同期化を実施するために、同期化コンポーネントはモバイルデバイス10およびデスクトップコンピュータ12において実行する。同期化コンポーネントは互いに明確なインターフェースを通じて通信して、通信および同期化を管理する。
図2は、モバイルデバイス10のより詳細なブロック図である。図のように、モバイルデバイス10は、プロセッサ20、メモリ22、入力/出力(I/O)コンポーネント24、デスクトップコンピュータ通信インターフェース26、トランシーバ27、およびアンテナ11を含む。一実施形態では、モバイルデバイス10のこれらのコンポーネントが、適切なバス28を介して互いに通信するために結合される。図2に示さないが、モバイルデバイス10は、図1に例示したようなマイクロフォン17を含み、これを以下で図3〜7を参照して説明する。
メモリ22は不揮発性電子メモリとして実施され、これはランダムアクセスメモリ(RAM)などであり、バッテリバックアップモジュール(図示せず)を有して、モバイルデバイス10への全体的な電力が停止される場合にメモリ22に格納された情報が失われないようにする。メモリ22の一部がプログラム実行のためにアドレス指定可能メモリとして割り振られ、メモリ22の残りの部分を、ディスクドライブにおけるストレージをシミュレートするためなど、ストレージのために使用することができる。
メモリ22は、オペレーティングシステム30、アプリケーションプログラム16(図1に関して説明したPIM16Aおよび音声認識プログラム19など)、およびオブジェクトストア18を含む。オペレーション中に、オペレーティングシステム30がプロセッサ20へメモリ22からロードされ、プロセッサ20によって実行される。オペレーティングシステム30は、一実施形態では、Microsoft Corporationから市販されているWindows(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム30をモバイルデバイス向けに設計することができ、これは、PIM16A、コンテンツビューア16Bおよび音声認識機能19によって、エクスポーズされたアプリケーションプログラミングインターフェースおよびメソッドのセットを通じて利用することができる機能を実施する。オブジェクトストア18内のオブジェクトは、PIM16A、コンテンツビューア16Bおよびオペレーティングシステム30によって、少なくとも部分的には、エクスポーズされたアプリケーションプログラミングインターフェースおよびメソッドのへのコールに応答して、維持される。
I/Oコンポーネント24は、一実施形態では、モバイルデバイス10のユーザからの入力および出力オペレーションを実行するために設けられる。デスクトップコンピュータ通信インターフェース26はオプショナルで、いずれかの適切な市販の通信インターフェースとして設けられる。インターフェース26は、ワイヤレストランシーバ27がそのために使用されない場合に、デスクトップコンピュータ12と通信するために使用される。
トランシーバ27はワイヤレスまたは他のタイプのトランシーバであり、音声信号または中間音声認識結果を、トランスポート14を介して送信するように適合される。トランシーバ27がワイヤレストランシーバである実施形態では、中間音声認識結果を、アンテナ11を使用して送信することができる。トランシーバ27はまた他のデータも、トランスポート14を介して送信することができる。いくつかの実施形態では、トランシーバ27は情報を、デスクトップコンピュータ12、情報ソースプロバイダ13、または、他のモバイルもしくは非モバイルのデバイスもしくは電話から受信する。トランシーバ27はバス28に結合され、これは、プロセッサ20およびオブジェクトストア18と通信して、トランスポート14から受信された情報を格納するためである。
電源35は、モバイルデバイス10に電力供給するためのバッテリ37を含む。オプショナルで、モバイルデバイス10は電力を外部電源41から受けることができ、これは内蔵バッテリ37に優先し、あるいは内蔵バッテリ37を再充電する。例えば、外部電源41には、モバイルデバイス10のために適切なACもしくはDCアダプタ、または電力ドッキングクレードルが含まれる可能性がある。
図3は、本発明により使用することができるモバイルデバイス10の一実施形態の簡易化した絵図である。この実施形態では、アンテナ11およびマイクロフォン17に加えて、モバイルデバイス10は、小型キーボード32、ディスプレイ34、スタイラス36、第2のマイクロフォン85およびスピーカ86を含む。図3に示す実施形態では、ディスプレイ34は液晶ディスプレイ(LCD)であり、コンタクトセンシティブ表示画面をスタイラス36と共に使用する。スタイラス36は、ディスプレイ34の指定された座標を押すか、あるいはこれに接触して、あるユーザ入力機能を実施するために使用される。小型キーボード32は小型英数字キーボードとして実施され、これはいずれかの適切な所望のファンクションキーを有し、これもまたあるユーザ入力機能を実施するために設けられる。
マイクロフォン17はアンテナ11の末端に位置付けられる。アンテナ11は、ユーザの口に向かって回転し、それにより、モバイルデバイス10がユーザの手のひらに保持される間にユーザの口とマイクロフォン17の間の距離を縮めるように適合される。上述のように、この距離を縮めることは、マイクロフォンによって提供された音声信号の信号対雑音比を高める助けとなる。さらに、マイクロフォン17をアンテナ11の端に配置することにより、マイクロフォンがモバイルデバイス10のハウジングから移動される。これにより、信号対雑音比における内部デバイス雑音の影響が低減される。本発明のいくつかの実施形態では、マイクロフォン17はアンテナ11の末端に位置するが、他の実施形態では、マイクロフォン17をアンテナ11の他の位置に配置することができる。
いくつかの実施形態では、モバイルデバイス10または第2のマイクロフォン85も含み、これをモバイルデバイス10のハウジング上に位置付けることができる。第1のマイクロフォン17から遠ざけられる第2のマイクロフォン85を設けることにより、2つのマイクロフォンが共に使用される場合に結果として生じるマイクロフォンアレイのパフォーマンスが向上される。いくつかの実施形態では、スピーカ86が含められて、モバイルデバイス10をモバイル電話として使用できるようになる。
図4は、本発明のもう1つの実施形態によるモバイルデバイス10のもう1つの簡易化した絵図である。モバイルデバイス10は、図4に例示するように、図3に関して説明されるアイテムに類似し、同様に付番されるいくつかのアイテムを含む。例えば、モバイルデバイス10はまた、図4のように、アンテナ11上に位置付けられたマイクロフォン17、およびデバイスのハウジング上に位置付けられたスピーカ86を含む。また、モバイルデバイス10はタッチセンシティブディスプレイ34を含み、これをスタイラス36と共に使用してあるユーザ入力機能を実施することができる。図3および4に示すモバイルデバイスのためのディスプレイ34は同じサイズであるか、異なるサイズである可能性があるが、通常は、デスクトップコンピュータで使用される従来のディスプレイよりもはるかに小さくなることに留意されたい。例えば、図3および4に示すディスプレイ34を、240x320座標のみ、または160x160座標、または他のいずれかの適切なサイズの行列によって定義することができる。
図4に示すモバイルデバイス10はまた、いくつかのユーザ入力キーまたはボタン(スクロールボタン38および/またはキーボード32)も含み、これらによりユーザがデータを入力すること、または、メニューオプション、もしくは、ディスプレイ34上に表示される他の表示オプションを通じてスクロールすることが、ディスプレイ34に接触することなく可能となる。加えて、図4に示すモバイルデバイス10はまた電源ボタン40も含み、これを使用してモバイルデバイス10への全体的な電力をオンおよびオフにすることができる。
図4に例示した実施形態では、モバイルデバイス10は手書きエリア42を含むことにも留意されたい。手書きエリア42をスタイラス36と共に使用して、ユーザがメッセージを書くことを可能にすることができ、メッセージは、後にモバイルデバイス10によって使用するためにメモリ22に格納される。一実施形態では、手書きのメッセージは単に手書きの形態で格納され、また、ユーザによって呼び戻し、ディスプレイ34上に表示して、ユーザがモバイルデバイス10に入力された手書きのメッセージを見直すことを可能にすることができる。もう1つの実施形態では、モバイルデバイス10は文字認識モジュールを備えて、ユーザが英数字情報をモバイルデバイス10へ、英数字情報をエリア42上でスタイラス36により書き込むことによって、入力できるようにする。その場合、モバイルデバイス10内の文字認識モジュールは英数字文字を認識し、この文字をコンピュータ認識可能な英数字文字に変換し、これをモバイルデバイス10内のアプリケーションプログラム16によって使用することができる。
図5および関係する考察は、本発明の一部を実施することができる、適切なデスクトップコンピュータ12の簡単な全体的説明を提供するように意図される。必要ではないが、本発明を少なくとも部分的には一般に、プログラムモジュールなど、パーソナルコンピュータ12またはモバイルデバイス10によって実行されるコンピュータ実行可能命令に関連して説明する。一般に、プログラムモジュールには、ルーチンプログラム、オブジェクト、コンポーネント、データ構造などが含まれ、これらは特定のタスクを実行するか、あるいは特定の抽象データ型を実施する。デスクトップコンピュータと称するが、図5に例示するコンピューティング環境は、他の非デスクトップコンピュータにおいて実施することができる。また、デスクトップコンピュータ12を他のコンピュータシステム構成により実施することができ、これには、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラマブルなコンシューマエレクトロニクス、ネットワークPC、ミニコンピュータ、メインフレームコンピュータなどが含まれることは、当業者には理解されよう。本発明をまた分散コンピューティング環境において実施することもでき、これにおいて、タスクは、通信ネットワークを通じてリンクされるリモート処理デバイスによって実行される。分散コンピューティング環境では、プログラムモジュールはローカルおよびリモートのメモリストレージデバイス内に位置することができる。
図5を参照すると、デスクトップコンピュータ12を実施するための例示的システムは、従来のパーソナルコンピュータの形態における汎用コンピューティングデバイスを含み、これは、処理装置48、システムメモリ50、およびシステムバス52を含み、システムバス52は、システムメモリ50を含む様々なシステムコンポーネントを処理装置48に結合する。システムバス52を、いくつかのタイプのバス構造のいずれかにすることができ、これには、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バスおよびローカルバスが含まれる。システムメモリ50は、読み取り専用メモリ(ROM)54およびランダムアクセスメモリ(RAM)55を含む。基本入出力システム(BIOS)56は、起動中など、デスクトップコンピュータ12内の複数の要素の間で情報を転送するための助けとなる基本ルーチンを含み、ROM54に格納される。デスクトップコンピュータ12はさらに、ハードディスク(図示せず)に対する読み書きを行うためのハードディスクドライブ57、リムーバブル磁気ディスク59に対する読み書きを行うための磁気ディスクドライブ58、および、CD ROMなどのリムーバブル光ディスク61または他の光メディアに対する読み書きを行うための光ディスクドライブ60を含む。ハードディスクドライブ57、磁気ディスクドライブ58および光ディスクドライブ60はシステムバス52へ、ハードディスクドライブインターフェース62、磁気ディスクドライブインターフェース63および光ドライブインターフェース64によってそれぞれ接続される。これらのドライブおよび関連付けられたコンピュータ可読媒体は、デスクトップコンピュータ12のためのコンピュータ可読命令、データ構造、プログラムモジュールおよび他のデータの不揮発性ストレージを提供する。
本明細書で説明する例示的環境は、ハードディスク、リムーバブル磁気ディスク59およびリムーバブル光ディスク61を使用するが、コンピュータによってアクセス可能であるデータを格納することができる他のタイプのコンピュータ可読媒体もまた、例示的オペレーティング環境内で使用することができ、これらは、磁気カセット、フラッシュメモリカード、デジタルビデオディスク(DVD)、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)などであることを、当業者には理解されたい。
いくつかのプログラムモジュールを、ハードディスク、磁気ディスク59、光ディスク61、ROM54またはRAM55上に格納することができ、これらのプログラムモジュールには、オペレーティングシステム65、1つまたは複数のアプリケーションプログラム66(PIMを含む可能性がある)、他のプログラムモジュール67(同期化コンポーネント26を含む可能性がある)、およびプログラムデータ68が含まれる。ユーザはコマンドおよび情報をデスクトップコンピュータ12へ、入力デバイスを通じて入力することができ、これは、キーボード70、ポインティングデバイス72、およびマイクロフォン92などである。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどが含まれる可能性がある。これらおよび他の入力デバイスはしばしば処理装置48へ、システムバス52に結合されるシリアルポートインターフェース76を通じて接続されるが、これらを他のインターフェースによって接続することができ、これらのインターフェースは、サウンドカード、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB)などである。モニタ77、または他のタイプの表示デバイスもまたシステムバス52に、ビデオアダプタ78など、インターフェースを介して接続される。モニタ77に加えて、デスクトップコンピュータは通常、スピーカ71およびプリンタなど、他の周辺出力デバイスを含むことができる。
デスクトップコンピュータ12はネットワーク環境において、リモートコンピュータ79など、1つまたは複数のリモートコンピュータ(モバイルデバイス10以外)への論理接続を使用して動作することができる。リモートコンピュータ79を、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイスまたは他のネットワークノードにすることができ、これは通常、デスクトップコンピュータ12に関連して上述した要素の多数またはすべてを含むが、メモリストレージデバイス80のみを図5に例示した。図5に示す論理接続には、ローカルエリアネットワーク(LAN)81およびワイドエリアネットワーク(WAN)82が含まれる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネットおよびインターネットにおいて一般的である。
LANネットワーキング環境において使用する場合、デスクトップコンピュータ12がローカルエリアネットワーク81へ、ネットワークインターフェースまたはアダプタ83を通じて接続される。WANネットワーキング環境において使用する場合、デスクトップコンピュータ12は通常、モデム84、またはインターネットなどのワイドエリアネットワーク82を介して通信を確立するための他の手段を含む。モデム84を内部または外部にすることができ、これはシステムバス52へ、シリアルポートインターフェース76を介して接続される。ネットワーク環境では、デスクトップコンピュータ12に関連して示したプログラムモジュールまたはその一部を、リモートメモリストレージデバイスに格納することができる。図示のネットワーク接続は例示的であり、複数のコンピュータの間で通信リンクを確立する他の手段を使用できることは理解されよう。
デスクトップコンピュータ12はオペレーティングシステム65を実行し、これは通常、不揮発性メモリ54に格納され、プロセッサ48上で実行する。1つの適切なオペレーティングシステムは、Microsoft Corporationによって販売されているWindows(登録商標)ブランドのオペレーティングシステムであり、Windows(登録商標)95またはWindows(登録商標)NT、オペレーティングシステム、Windows(登録商標)ブランドオペレーティングシステムの他の派生バージョン、または別の適切なオペレーティングシステムなどである。他の適切なオペレーティングシステムには、Apple Corporationから販売されているMacintosh OS、ニューヨーク州アーモンクのInternational Business Machines(IBM)によって販売されているOS/2 Presentation Managerなどのシステムが含まれる。アプリケーションプログラムを、揮発性メモリまたは不揮発性メモリにおいてプログラムモジュール67に格納することができ、あるいは図5に示すコンポーネントのいずれかに、フロッピー(登録商標)ディスケット59、CDROMドライブ61からロードすることができ、ネットワークからネットワークアダプタ83を介してダウンロードすることができ、あるいは別の適切なメカニズムを使用してロードすることができる。
本発明の方法を例示する流れ図を図6に示す。図6に示す方法を、図7A〜7Dで提供するモバイルコンピューティングデバイスおよびデスクトップコンピュータの例示的実施形態を参照して説明する。図7A〜7Dは、モバイルデバイス10内で実行された音声認識特徴抽出プロセスを、コンピュータ12内で実行された他の音声認識機能から分離させることを例示する。例示の実施形態では、音声認識中に、音声が入力としてモバイルデバイス10のマイクロフォンへ、可聴音声信号の形態でユーザによって提供される。このステップを図6のブロック205に例示する。マイクロフォン17は可聴音声信号をアナログ信号に変換し、これがA/Dコンバータ101に提供される。A/Dコンバータ101はアナログ音声信号をデジタル信号のシーケンスに変換し、これが特徴抽出モジュール103に提供される。このステップを図6のブロック210に例示する。
特徴抽出モジュール103を、連続音声認識プロセスの「フロントエンド」と見なすことができ、これは出力として中間音声認識結果を提供し、これが音声認識サーチエンジン105に提供される。特徴抽出モジュール103によって提供された結果は、特徴認識サーチエンジン105が利用するように適合される特徴のタイプに相関させられる。例えば、特徴抽出モジュール103によって提供された中間音声認識結果を、メルケプストラム係数(MFCC係数)またはベクトル量子化(VQ)インデックスにすることができる。中間結果をまた、隠れマルコフモデル(HMM)スコア、HMM状態出力確率密度関数(pdf)、ケプストラル係数、または、音声信号から抽出することができる他のタイプの音声認識特徴にすることもできる。
一実施形態では、特徴抽出モジュール103は従来のアレイプロセッサであり、スペクトル解析をデジタル信号において実行し、周波数スペクトルの各周波数帯域についての大きさの値を計算する。他の実施形態では、特徴抽出モジュール103はまた特徴ベクトルを1つまたは複数のコードワードに、ベクトル量子化技術、および、トレーニングデータから導出されたコードブックを使用して符号化することもできる。したがって、特徴抽出モジュール103は、その出力で、各発話の発声についての特徴ベクトル(またはコードワード)を提供する。いくつかの実施形態では、中間結果が特徴抽出モジュール103によって、解析中の特定のフレームの特徴ベクトル(またはコードワード)を使用して隠れマルコフモデルに対して計算された出力確率分布を決定することによって、計算される。これらの確率分布を次いで、Viterbiまたは類似のタイプの処理技術をデスクトップコンピュータ12内で実行することにおいて、使用することができる。特徴抽出モジュール103によって実施された特徴抽出機能を、一般に図6の流れ図のブロック215に例示する。
マイクロフォン17によって提供された帯域幅は通常、データトランスポート14によって提供された帯域幅よりも広くなるので、特徴抽出モジュール103によって提供された内部表現または中間結果は、音声信号がトランスポート14を介してコンピュータ12内の特徴抽出のために送信されている場合よりも、正確になる。音声認識サーチエンジン105によって提供された音声認識結果は、マイクロフォン17がデスクトップコンピュータ12に直接接続された場合に得られた結果と同じであるべきである。したがって、デスクトップおよびテレフォニーの帯域幅の間で異なる規格を有する問題が取り除かれる。
図6のブロック217に例示するのは、2次音声認識機能を中間音声認識結果において、モバイルデバイス10を使用して実行して、結果についてのリクエストを得るステップである。
モバイルデバイス10から第2のコンピューティングデバイス12への結果についてのリクエストの送信を、図6のブロック220に例示する。結果についてのリクエストを第2のコンピューティングデバイス12によって受信することを、ブロック225に例示する。第2のコンピューティングデバイス12からの結果をモバイルデバイス10によって受信して、可聴音声を表す出力テキストをモバイルデバイス10上に提供することを、ブロック230に例示する。これらの特定のステップの詳細を、以下で図7A〜7Dに関して概説する。モバイルデバイス10の構成に応じて、結果についてのリクエストのすべてを送信することができ、あるいはこれらのリクエストの一部を送信することができる。
図7A〜7Dを参照すると、音声認識サーチエンジン105はモバイルデバイス10内のアプリケーションプログラムとして実施され、これは「2次」音声認識機能を実施して、中間音声認識結果に応じて音声認識結果についてのリクエストを得る。図7Aの実施形態では、音響モデル107および言語モデル109がデスクトップコンピュータ12のメモリ内に格納される。中間音声認識結果を特徴抽出モジュール103から受信すると、音声認識サーチエンジン105は、デスクトップコンピュータ12上の音響モデル107に格納された情報に、トランシーバ27およびデータトランスポート14を使用することによってアクセスするために、結果についてのリクエストを生成して、これらのリクエストをコンピュータ12に提供する。
音響モデル107は、隠れマルコフモデルなどの音響モデルを格納し、これはコンピュータ12によって検出される音声単位を表す。この情報(リクエストされた結果)は音声認識サーチエンジン105へ、データトランスポート14においてバックチャネル通信リンク110を介して送信される。一実施形態では、音響モデル107は、隠れマルコフモデル内の各マルコフ状態に関連付けられたセノネツリー(senone tree)を含む。各隠れマルコフモデルは、1つの例示的実施形態では、音素を表す。音響モデル107内のセノネ(senones)に基づいて、サーチエンジン105は、特徴抽出モジュール103から受信された特徴ベクトル(またはコードワード)によって表され、よってシステムのユーザから受信された発声を表す、最も可能性の高い音素を決定する。音響モデルは次いで結果として、上記の実施例では、隠れマルコフモデルおよびセノネツリーに基づいた音素を戻す。しかし、結果を他のモデルに基づかせることができる。音響モデル107は、いくつかの実施形態では、コンピュータ12内で(モバイルデバイス10から)リモートに位置するが、代替実施形態では、音響モデル107は、図7Bに例示するようにモバイルデバイス上に位置することができる。これらの実施形態では、他の結果についてのリクエストが、中間音声認識結果に応じて生成され、リモートコンピュータ12に送信される。図7Bに例示した場合では、リモートコンピュータ12を、言語モデル109をホストするウェブサーバにすることができる。この実施例では、モバイルデバイスによって実行される音声認識は、ウェブサーバに依拠して、必要とされた言語モデルまたは文脈情報を供給する。
音声認識サーチエンジン105はまた、デスクトップコンピュータ12上の言語モデル109に格納された情報にも、トランシーバ27およびデータトランスポート14を使用することによってアクセスする。サーチエンジン105によってデータトランスポート14を通じて受信された情報を、音響モデル107のそのアクセスおよびリクエストされた結果の受信に基づいて、言語モデル109をサーチして、モジュール103から受信された中間音声認識結果を表す可能性が最も高い単語を決定することにおいて、使用することができる。この単語が、モバイルデバイス10および音声認識サーチエンジン105へ戻るように、データトランスポート14においてバックチャネル通信リンク110を介して送信される。音響モデル107および言語モデル109、ならびに当技術分野で知られているタイプの他の音声認識モデルまたはデータベースを使用して、音声認識サーチエンジン105は、モバイルデバイス10のマイクロフォン17によって受信された元の発声信号(vocal signal)に対応する出力テキストを提供する。音声認識エンジン105によって、出力テキストを音声認識中間結果の内部表現に応じて生成するために実施された特定の方法は、上述の例示的実施形態とは異なる可能性がある。
他の実施形態では、図7Cおよび7Dに例示するように、モバイルデバイス10はまたローカル言語モデル111も含む。ローカル言語モデル111がモバイルデバイス上に含まれる場合、音声認識サーチエンジン105は結果についてのリクエストを、リモートコンピュータ12上の言語モデル109およびローカル言語モデル111へ提供する。ローカル言語モデル111は上述の言語モデル109に類似しており、ローカル言語モデル111をサーチして、特徴抽出モジュール103から受信された中間音声認識結果を表す可能性が最も高い単語を決定することができる。音声認識サーチエンジン105は、2つの言語モデルから受信されたどの結果がリクエストへの最良のマッチであるかを決定するように構成される。最良の結果は、認識された出力テキストとしてユーザに出力されるように選択される。いくつかの実施形態では、リモート言語モデル109はローカル言語モデル111を、更新手順を使用して更新する。この更新を、ウェブベースの更新手順を通じて、更新ディスクを通じて、あるいは、ファイルの更新を可能にする他のいずれかのデバイスを通じて行うことができる。もう1つの実施形態では、言語モデル109はローカル言語モデル111を、追加の言語モデル容量を提供することによって補い、したがって、より小さいローカル言語モジュールをモバイルデバイス10に含めることを可能とする。
図7Dに例示した実施形態では、モバイルデバイス10はまたローカル音響モデル113も含む。この実施形態では、リモートコンピュータ12はまた音響モデル107も含む。ローカル音響モデル113は上述の音響モデル107に類似しており、ローカル音響モデル113は、モバイルデバイス10によって検出される音声単位を表す音響モデルを格納する。ローカル音響モデル113がモバイルデバイス10上に含まれる場合、音声認識サーチエンジン105は結果についてのリクエストを、リモートコンピュータ12上の音響モデル107およびローカル音響モデル113へ提供する。音響モデルは結果として、一実施形態では、隠れマルコフモデルおよびセノネツリーに基づいた音素を戻す。しかし、結果を他のモデルに基づかせることができる。音声認識サーチエンジン105は、2つの音響モデルから受信されたどの結果がリクエストへの最良のマッチであるかを決定するように構成される。次いで、リクエストへの最良のマッチが言語モデル109および111によって使用されて、ユーザによって発話された単語が決定される。
上述のように、本発明は、パッケージプロトコルを使用してデジタルワイヤレスネットワークを利用して、特徴抽出モジュール103からの中間音声認識結果、および、音声認識サーチエンジン105からの結果についてのリクエストを送信する。広帯域幅音声信号をマイクロフォン17から中間音声認識結果へ、モバイルデバイス10を使用して変換することにより、トランスポート14を介して信号を送信する場合に発生する可能性のあるデータの損失が防止される。これにより、モバイルコンピューティングデバイスのための統一されたデスクトップ品質のオーディオ音声認識が提供される。いくつかの実施形態では、本発明のモバイルデバイスは、2つのモードで動作するようにプログラムされる「スマート」フォンである。モバイルデバイス10のユーザが別の人物に話をしている場合、オーディオ信号がトランスポート14を介して送信される。モバイルデバイス10のユーザがコンピュータ12または他のマシンに通信中である場合、特徴抽出モジュール103によって提供された中間結果または特徴、および、音声認識サーチエンジン105からの結果についてのリクエストが送信される。続いて、デスクトップコンピュータ12、または他の対応するマシンは、送信された特徴を利用して音声認識を実行する。
要約すると、結果についてのリクエストは、音響モジュールデータについてのリクエスト、および/または、言語モジュールデータについてのリクエストを含むことができる。結果についてのリクエストは、音声認識サーチエンジン105によって生成され、これはモバイルデバイス10上に位置する。音響および言語モジュールの場所にかかわらず、これらの結果についてのリクエストの少なくとも一部が、第2のコンピューティングデバイス12に送信されなければならない。一実施形態では、言語モジュールおよび音響モジュールは第2のコンピューティングデバイス12上に存在し、結果についてのリクエストは、言語モジュールデータおよび音響モジュールデータについての両方のリクエストを含む。もう1つの実施形態では、音響モジュールはモバイルコンピューティングデバイス10上に存在し、言語モジュールはリモートコンピューティングデバイス12上に存在する。この実施形態では、音声認識サーチエンジン105からの結果についてのリクエストの一部がローカル音響モジュールに送信される。結果が音声認識サーチエンジンに戻るように送信された後、言語モジュールデータ結果についてのリクエストは音声認識サーチエンジン105から、第2のコンピューティングデバイス12上に位置する言語モジュールに送信される。さらにもう1つの実施形態では、音声認識サーチエンジンは、音響モジュール結果についてのリクエストを、モバイルコンピューティングデバイス10上の音響モジュール、および、第2のコンピューティングデバイス12上に位置する音響モジュールに送信する。これらの結果を両方の音響モジュールから受信すると、音声認識サーチエンジン105は、言語モジュール結果についてのリクエストを、リモートコンピューティングデバイス12上に位置する言語モジュールに送信する。もう1つの実施形態では、音声認識サーチエンジン105は、音響モジュールデータ結果についてのリクエスト、および、言語モジュールデータ結果についてのリクエストを、ローカル音響または言語モジュール、および、第2のコンピューティングデバイス12上に位置するリモート音響または言語モジュールに送信する。
本発明を、様々な実施形態を参照して説明したが、本発明の精神および範囲から逸脱することなく、形態および詳細において変更を行うことができることは、当業者には理解されよう。
10 モバイルデバイス
12 デスクトップコンピュータ
14 データトランスポート
15 アナログ−デジタル(A/D)コンバータ
17 マイクロフォン
27 トランシーバ
101 A/Dコンバータ
103 特徴抽出モジュール
105 音声認識サーチエンジン
107 音響モデル
109 言語モデル
110 バックチャネル通信リンク
111 ローカル言語モデル
113 ローカル音響モデル
12 デスクトップコンピュータ
14 データトランスポート
15 アナログ−デジタル(A/D)コンバータ
17 マイクロフォン
27 トランシーバ
101 A/Dコンバータ
103 特徴抽出モジュール
105 音声認識サーチエンジン
107 音響モデル
109 言語モデル
110 バックチャネル通信リンク
111 ローカル言語モデル
113 ローカル音響モデル
Claims (35)
- 音声認識を実行する方法であって、
モバイルコンピューティングデバイスのマイクロフォンで可聴音声を受信するステップと、
前記可聴音声を音声信号に、前記モバイルコンピューティングデバイスを使用して変換するステップと、
予備音声認識機能を前記音声信号において、前記モバイルコンピューティングデバイスを使用して実行して、中間音声認識結果を得るステップとを備え、前記予備音声認識機能を前記音声信号において実行して、前記中間音声認識結果を得るステップはさらに、特徴抽出機能を前記音声信号において実行して、前記音声信号の特徴を示す前記中間音声認識結果を得るステップを備え、さらに、
2次音声認識機能を前記音声信号において、前記モバイルコンピューティングデバイスを使用して実行して、認識された可聴音声を示す音声認識結果についてのリクエストを得るステップと、
前記音声認識結果についてのリクエストの少なくとも一部を、前記モバイルコンピューティングデバイスからリモートに位置する第2のコンピューティングデバイスに、前記第2のコンピューティングデバイス上に位置する少なくとも1つのモジュールにアクセスして前記リクエストされた音声認識結果を得るために、送信するステップと、
前記リクエストされた音声認識結果を、前記第2のコンピューティングデバイスから、前記モバイルコンピューティングデバイスで受信して、前記可聴音声を表す出力テキストを提供するステップと
を備えることを特徴とする方法。 - 前記結果についてのリクエストの前記少なくとも一部を、前記第2のコンピューティングデバイスで受信するステップと、
前記第2のコンピューティングデバイス上の前記少なくとも1つのモジュールにアクセスして、前記リクエストされた結果を得るステップと、
前記リクエストされた結果を前記モバイルコンピューティングデバイスに送信するステップと
をさらに備えることを特徴とする請求項1に記載の方法。 - 前記結果についてのリクエストの一部を、前記モバイルコンピューティングデバイス上に位置する音響モデルに送信するステップをさらに備えることを特徴とする請求項2に記載の方法。
- 前記結果についてのリクエストの前記少なくとも一部を、前記第2のコンピューティングデバイスに送信するステップは、前記結果についてのリクエストの前記少なくとも一部を、前記リモートコンピュータ上に位置する言語モデルに送信するステップをさらに備え、
前記結果についてのリクエストの一部を、前記モバイルコンピューティングデバイス上に位置する言語モデルに送信するステップをさらに備えることを特徴とする請求項3に記載の方法。 - 前記モバイルコンピューティングデバイス上の前記言語モデルを、前記第2のコンピューティングデバイス上の前記言語モデルに含まれた情報により更新するステップをさらに備えることを特徴とする請求項4に記載の方法。
- 前記第2のコンピューティングデバイス上の前記少なくとも1つのモジュールにアクセスするステップは、前記第2のコンピューティングデバイスのメモリに格納された音響モデル情報にアクセスして、前記モバイルコンピューティングデバイス上で、前記可聴音声を表す前記出力テキストを、前記中間音声認識結果および前記音響モデル情報に応じて提供するステップをさらに備えることを特徴とする請求項2に記載の方法。
- 前記第2のコンピューティングデバイス上の前記少なくとも1つのモジュールにアクセスするステップは、前記第2のコンピューティングデバイスのメモリに格納された言語モデル情報にアクセスして、前記モバイルコンピューティングデバイス上で、前記可聴音声を表す前記出力テキストを、前記中間音声認識結果および前記言語モデル情報に応じて提供するステップをさらに備えることを特徴とする請求項2に記載の方法。
- 前記可聴音声を音声信号に、前記モバイルコンピューティングデバイスで変換するステップは、
前記可聴音声をアナログ信号に変換するステップと、
前記アナログ信号をデジタル化して前記音声信号を得るステップと
をさらに備えることを特徴とする請求項1に記載の方法。 - 予備音声認識機能を前記音声信号において実行するステップは、メルケプストラム係数を前記音声信号から決定するステップをさらに備え、2次音声認識機能を実行するステップは、前記結果についてのリクエストを前記メルケプストラム係数に基づいて決定するステップをさらに備え、前記結果についてのリクエストの少なくとも一部を送信するステップは、前記メルケプストラム係数に基づいた前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピューティングデバイスから前記第2のコンピューティングデバイスに送信するステップをさらに備えることを特徴とする請求項1に記載の方法。
- 予備音声認識機能を前記音声信号において実行するステップは、ベクトル量子化インデックスを前記音声信号から決定するステップをさらに備え、2次音声認識機能を実行するステップは、前記結果についてのリクエストを前記ベクトル量子化インデックスに基づいて決定するステップをさらに備え、リクエストを送信するステップは、前記ベクトル量子化インデックスに基づいたリクエストを、前記モバイルコンピューティングデバイスから前記第2のコンピューティングデバイスに送信するステップをさらに備えることを特徴とする請求項1に記載の方法。
- 予備音声認識機能を前記音声信号において実行するステップは、隠れマルコフモデル(HMM)スコアを前記音声信号から決定するステップをさらに備え、2次音声認識機能を実行するステップは、前記結果についてのリクエストを前記HMMスコアに基づいて決定するステップをさらに備え、リクエストを送信するステップは、前記HMMスコアに基づいたリクエストを、前記モバイルコンピューティングデバイスから前記第2のコンピューティングデバイスに送信するステップをさらに備えることを特徴とする請求項1に記載の方法。
- 予備音声認識機能を前記音声信号において実行するステップは、隠れマルコフモデル(HMM)状態出力確率密度関数を前記音声信号から決定するステップをさらに備え、2次音声認識機能を実行するステップは、前記結果についてのリクエストを前記HMM状態出力確率に基づいて決定するステップをさらに備え、リクエストを送信するステップは、前記HMM状態出力確率密度関数に基づいたリクエストを、前記モバイルコンピューティングデバイスから前記第2のコンピューティングデバイスに送信するステップをさらに備えることを特徴とする請求項1に記載の方法。
- 予備音声認識機能を前記音声信号において実行するステップは、ケプストラル係数を前記音声信号から決定するステップをさらに備え、2次音声認識機能を実行するステップは、前記結果についてのリクエストを前記ケプストラル係数に基づいて決定するステップをさらに備え、リクエストを送信するステップは、前記ケプストラル係数に基づいたリクエストを、前記モバイルコンピューティングデバイスから前記第2のコンピューティングデバイスに送信するステップをさらに備えることを特徴とする請求項1に記載の方法。
- 予備音声認識機能を前記音声信号において実行するステップは、特徴ベクトルを前記音声信号から決定するステップをさらに備え、2次音声認識機能を実行するステップは、前記結果についてのリクエストを前記特徴ベクトルに基づいて決定するステップをさらに備え、前記中間音声認識結果を前記モバイルデバイスから前記第2のコンピューティングデバイスに送信するステップは、前記特徴ベクトルを、前記モバイルコンピューティングデバイスから前記第2のコンピューティングデバイスに送信するステップをさらに備えることを特徴とする請求項1に記載の方法。
- 前記結果についてのリクエストの前記少なくとも一部を送信するステップは、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピューティングデバイスから前記第2のコンピューティングデバイスへ、ワイヤレス通信ネットワークを介して送信するステップをさらに備えることを特徴とする請求項1に記載の方法。
- 前記結果についてのリクエストの前記少なくとも一部を送信するステップは、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピューティングデバイスから前記第2のコンピューティングデバイスへ、前記モバイルコンピューティングデバイスの前記マイクロフォンの帯域幅より少ない帯域幅を有する通信ネットワークを介して送信するステップをさらに備えることを特徴とする請求項1に記載の方法。
- 前記出力テキストを、前記モバイルコンピューティングデバイスで、前記受信されたリクエストされた結果に応じて提供するステップをさらに備えることを特徴とする請求項1に記載の方法。
- 予備および2次音声認識機能を、マイクロフォンを有するモバイルコンピュータのユーザからの可聴音声に対応する、音声信号において実施して、結果についてのリクエストを得るステップと、
前記結果についてのリクエストの少なくとも一部を、前記モバイルコンピュータのトランスミッタに送信して、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータから、前記モバイルコンピュータからリモートに位置する第2のコンピュータに送信するステップと、
前記結果を前記第2のコンピュータから受信して、前記音声認識機能を前記モバイルデバイスにおいて終了するステップと
を実行するためのモバイルコンピュータ実行可能命令を有することを特徴とするコンピュータ可読媒体。 - 前記予備および2次音声認識機能を前記音声信号において実施する前記ステップを実行するための前記コンピュータ実行可能命令は、特徴抽出機能を前記音声信号において実行して、前記音声信号の特徴を示す中間音声認識結果を得るためのコンピュータ実行可能命令をさらに含み、前記コンピュータ実行可能命令は、前記中間音声認識結果を使用して、前記結果についてのリクエストを前記特徴抽出機能に基づいて得るステップをさらに備えることを特徴とする請求項18に記載のコンピュータ可読媒体。
- 前記特徴抽出機能を前記音声信号において実行するための前記コンピュータ実行可能命令は、メルケプストラム係数を前記音声信号から決定するためのコンピュータ実行可能命令をさらに含み、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータの前記トランスミッタに送信するための前記コンピュータ実行可能命令は、前記メルケプストラム係数に基づいた前記結果についてのリクエストの前記少なくとも一部を送信するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項19に記載のコンピュータ可読媒体。
- 前記特徴抽出機能を前記音声信号において実行するための前記コンピュータ実行可能命令は、ベクトル量子化インデックスを前記音声信号から決定するためのコンピュータ実行可能命令をさらに含み、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータの前記トランスミッタに送信するための前記コンピュータ実行可能命令は、前記ベクトル量子化インデックスに基づいた前記結果についてのリクエストの前記少なくとも一部を送信するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項19に記載のコンピュータ可読媒体。
- 前記特徴抽出機能を前記音声信号において実行するための前記コンピュータ実行可能命令は、隠れマルコフモデル(HMM)スコアを前記音声信号から決定するためのコンピュータ実行可能命令をさらに含み、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータの前記トランスミッタに送信するための前記コンピュータ実行可能命令は、前記HMMスコアに基づいた前記結果についてのリクエストの前記少なくとも一部を送信するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項19に記載のコンピュータ可読媒体。
- 前記特徴抽出機能を前記音声信号において実行するための前記コンピュータ実行可能命令は、隠れマルコフモデル(HMM)状態出力確率密度関数を前記音声信号から決定するためのコンピュータ実行可能命令をさらに含み、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータの前記トランスミッタに送信するための前記コンピュータ実行可能命令は、前記HMM状態出力確率密度関数に基づいた前記結果についてのリクエストの前記少なくとも一部を送信するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項19に記載のコンピュータ可読媒体。
- 前記特徴抽出機能を前記音声信号において実行するための前記コンピュータ実行可能命令は、ケプストラル係数を前記音声信号から決定するためのコンピュータ実行可能命令をさらに含み、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータの前記トランスミッタに送信するための前記コンピュータ実行可能命令は、前記ケプストラル係数に基づいた前記結果についてのリクエストの前記少なくとも一部を送信するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項19に記載のコンピュータ可読媒体。
- 前記特徴抽出機能を前記音声信号において実行するための前記コンピュータ実行可能命令は、特徴ベクトルを前記音声信号から決定するためのコンピュータ実行可能命令をさらに含み、前記結果についてのリクエストの前記少なくとも一部を、前記モバイルコンピュータの前記トランスミッタに送信するための前記コンピュータ実行可能命令は、特徴ベクトルに基づいた前記結果についてのリクエストの前記少なくとも一部を送信するためのコンピュータ実行可能命令をさらに含むことを特徴とする請求項19に記載のコンピュータ可読媒体。
- 可聴音声をアナログ信号に変換するように適合されたマイクロフォンと、
前記マイクロフォンに結合され、前記可聴音声をデジタル化して音声信号を提供するように適合されたアナログ−デジタルコンバータと、
予備音声認識機能を前記音声信号において実行して、中間音声認識結果を提供するように適合された特徴抽出モジュールであって、前記中間音声認識結果は前記音声信号の特徴を示す、特徴抽出モジュールと、
2次音声認識機能を実行して、認識された可聴音声を示す音声認識結果についてのリクエストを得るように構成された音声認識モジュールと、
前記音声認識モジュールに結合され、前記音声認識結果についてのリクエストの少なくとも一部を、前記モバイルコンピュータから、前記モバイルコンピュータからリモートに位置する第2のコンピュータに送信するように、および、前記リクエストされた音声認識結果を前記第2のコンピュータから受信するように適合されたトランシーバと
を備えることを特徴とするモバイルコンピュータ。 - 前記特徴抽出モジュールが、前記音声信号からメルケプストラム係数を決定するように、および、前記メルケプストラム係数を、前記中間音声認識結果として提供するように適合されることを特徴とする請求項26に記載のモバイルコンピュータ。
- 前記特徴抽出モジュールが、前記音声信号からベクトル量子化インデックスを決定するように、および、前記ベクトル量子化インデックスを、前記中間音声認識結果として提供するように適合されることを特徴とする請求項26に記載のモバイルコンピュータ。
- 前記特徴抽出モジュールが、前記音声信号から隠れマルコフモデル(HMM)スコアを決定するように、および、前記HMMスコアを、前記中間音声認識結果として提供するように適合されることを特徴とする請求項26に記載のモバイルコンピュータ。
- 前記特徴抽出モジュールが、前記音声信号から隠れマルコフモデル(HMM)状態出力確率密度関数を決定するように、および、前記HMM状態出力確率密度関数を、前記中間音声認識結果として提供するように適合されることを特徴とする請求項26に記載のモバイルコンピュータ。
- 前記特徴抽出モジュールが、前記音声信号からケプストラル係数を決定するように、および、前記ケプストラル係数を、前記中間音声認識結果として提供するように適合されることを特徴とする請求項26に記載のモバイルコンピュータ。
- 前記特徴抽出モジュールが、前記音声信号から特徴ベクトルを決定するように、および、前記特徴ベクトルを、前記中間音声認識結果として提供するように適合されることを特徴とする請求項26に記載のモバイルコンピュータ。
- 音響モデル結果を前記音声認識モジュールに、前記結果についてのリクエストに応答して提供するように構成された音響モデルをさらに備えることを特徴とする請求項26に記載のモバイルコンピュータ。
- 結果を前記音声認識モジュールに、前記結果についてのリクエストに応答して提供するように構成された言語モデルをさらに備えることを特徴とする請求項26に記載のモバイルコンピュータ。
- 結果を前記音声認識モジュールに、前記結果についてのリクエストに応答して提供するように構成された言語モデルをさらに備え、
前記言語モデルがリモート言語モデルから更新されるように構成されることを特徴とする請求項32または33に記載のモバイルコンピュータ。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/395,609 US20030182113A1 (en) | 1999-11-22 | 2003-03-24 | Distributed speech recognition for mobile communication devices |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004287447A true JP2004287447A (ja) | 2004-10-14 |
Family
ID=32824941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004087790A Withdrawn JP2004287447A (ja) | 2003-03-24 | 2004-03-24 | モバイル通信デバイスのための分散音声認識 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20030182113A1 (ja) |
EP (1) | EP1463032A1 (ja) |
JP (1) | JP2004287447A (ja) |
KR (1) | KR20040084759A (ja) |
CN (1) | CN1538383A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015179287A (ja) * | 2010-12-16 | 2015-10-08 | ネイバー コーポレーションNAVER Corporation | オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法 |
KR20160004886A (ko) * | 2014-07-04 | 2016-01-13 | 한국전자통신연구원 | 모바일 기기를 이용한 음성인식 시스템 |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6560445B1 (en) * | 1999-10-22 | 2003-05-06 | General Dynamics Decision Systems, Inc. | Radio communication system and method of operation |
US8205237B2 (en) | 2000-09-14 | 2012-06-19 | Cox Ingemar J | Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
FR2853127A1 (fr) * | 2003-03-25 | 2004-10-01 | France Telecom | Systeme de reconnaissance de parole distribuee |
US20060095266A1 (en) * | 2004-11-01 | 2006-05-04 | Mca Nulty Megan | Roaming user profiles for speech recognition |
WO2006051180A1 (fr) * | 2004-11-08 | 2006-05-18 | France Telecom | Procede de construction distribuee d'un modele de reconnaissance vocale , dispositif, serveur et programmes d'ordinateur pour mettre en œuvre un tel procede |
US8706501B2 (en) * | 2004-12-09 | 2014-04-22 | Nuance Communications, Inc. | Method and system for sharing speech processing resources over a communication network |
DE102005005536A1 (de) * | 2005-02-07 | 2006-08-10 | Sick Ag | Codeleser |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US8635073B2 (en) * | 2005-09-14 | 2014-01-21 | At&T Intellectual Property I, L.P. | Wireless multimodal voice browser for wireline-based IPTV services |
WO2007117626A2 (en) | 2006-04-05 | 2007-10-18 | Yap, Inc. | Hosted voice recognition system for wireless devices |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US20080086311A1 (en) * | 2006-04-11 | 2008-04-10 | Conwell William Y | Speech Recognition, and Related Systems |
US9123343B2 (en) * | 2006-04-27 | 2015-09-01 | Mobiter Dicta Oy | Method, and a device for converting speech by replacing inarticulate portions of the speech before the conversion |
WO2008004663A1 (fr) * | 2006-07-07 | 2008-01-10 | Nec Corporation | Dispositif de mise à jour de modèle de langage, procédé de mise à jour de modèle de langage, et programme de mise à jour de modèle de langage |
US8214208B2 (en) * | 2006-09-28 | 2012-07-03 | Reqall, Inc. | Method and system for sharing portable voice profiles |
US8116746B2 (en) * | 2007-03-01 | 2012-02-14 | Microsoft Corporation | Technologies for finding ringtones that match a user's hummed rendition |
US8352264B2 (en) * | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US9053489B2 (en) | 2007-08-22 | 2015-06-09 | Canyon Ip Holdings Llc | Facilitating presentation of ads relating to words of a message |
US8335830B2 (en) | 2007-08-22 | 2012-12-18 | Canyon IP Holdings, LLC. | Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
JP5149737B2 (ja) * | 2008-08-20 | 2013-02-20 | 株式会社ユニバーサルエンターテインメント | 自動会話システム、並びに会話シナリオ編集装置 |
US20100088096A1 (en) * | 2008-10-02 | 2010-04-08 | Stephen John Parsons | Hand held speech recognition device |
KR101829865B1 (ko) | 2008-11-10 | 2018-02-20 | 구글 엘엘씨 | 멀티센서 음성 검출 |
US8494852B2 (en) | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US20120059655A1 (en) * | 2010-09-08 | 2012-03-08 | Nuance Communications, Inc. | Methods and apparatus for providing input to a speech-enabled application program |
US8239366B2 (en) * | 2010-09-08 | 2012-08-07 | Nuance Communications, Inc. | Method and apparatus for processing spoken search queries |
EP2678861B1 (en) | 2011-02-22 | 2018-07-11 | Speak With Me, Inc. | Hybridized client-server speech recognition |
US20120245936A1 (en) * | 2011-03-25 | 2012-09-27 | Bryan Treglia | Device to Capture and Temporally Synchronize Aspects of a Conversation and Method and System Thereof |
JP5699749B2 (ja) * | 2011-03-31 | 2015-04-15 | 富士通株式会社 | 携帯端末装置の位置判定システムおよび携帯端末装置 |
US9009041B2 (en) * | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
US9514739B2 (en) * | 2012-06-06 | 2016-12-06 | Cypress Semiconductor Corporation | Phoneme score accelerator |
US9171066B2 (en) * | 2012-11-12 | 2015-10-27 | Nuance Communications, Inc. | Distributed natural language understanding and processing using local data sources |
DE102013216427B4 (de) * | 2013-08-20 | 2023-02-02 | Bayerische Motoren Werke Aktiengesellschaft | Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung |
DE102013219649A1 (de) * | 2013-09-27 | 2015-04-02 | Continental Automotive Gmbh | Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher |
US9817881B2 (en) * | 2013-10-16 | 2017-11-14 | Cypress Semiconductor Corporation | Hidden markov model processing engine |
US9530416B2 (en) | 2013-10-28 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for managing models for embedded speech and language processing |
US9666188B2 (en) * | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
KR102325724B1 (ko) * | 2015-02-28 | 2021-11-15 | 삼성전자주식회사 | 다수의 기기에서 텍스트 데이터 동기화 |
CN104702791A (zh) * | 2015-03-13 | 2015-06-10 | 安徽声讯信息技术有限公司 | 长时间录音并同步转写文字的智能手机及其信息处理方法 |
EP3089159B1 (en) | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
US9761227B1 (en) | 2016-05-26 | 2017-09-12 | Nuance Communications, Inc. | Method and system for hybrid decoding for enhanced end-user privacy and low latency |
CN105913840A (zh) * | 2016-06-20 | 2016-08-31 | 西可通信技术设备(河源)有限公司 | 一种语音识别装置及移动终端 |
US10140987B2 (en) * | 2016-09-16 | 2018-11-27 | International Business Machines Corporation | Aerial drone companion device and a method of operating an aerial drone companion device |
US10147428B1 (en) | 2018-05-30 | 2018-12-04 | Green Key Technologies Llc | Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57201926A (en) * | 1981-06-05 | 1982-12-10 | Hitachi Ltd | "kanji" selecting method for "kanji" input device |
JPS60163156A (ja) * | 1984-02-04 | 1985-08-26 | Casio Comput Co Ltd | 文書作成編集方法 |
US4783807A (en) * | 1984-08-27 | 1988-11-08 | John Marley | System and method for sound recognition with feature selection synchronized to voice pitch |
US4914704A (en) * | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
JPS6231467A (ja) * | 1985-08-01 | 1987-02-10 | Toshiba Corp | 文章作成装置 |
DE3850885D1 (de) * | 1987-10-09 | 1994-09-01 | Sound Entertainment Inc | Spracherzeugung aus digital gespeicherten koartikulierten sprachsegmenten. |
US4852173A (en) * | 1987-10-29 | 1989-07-25 | International Business Machines Corporation | Design and construction of a binary-tree system for language modelling |
US4979216A (en) * | 1989-02-17 | 1990-12-18 | Malsheen Bathsheba J | Text to speech synthesis system and method using context dependent vowel allophones |
US5282267A (en) * | 1991-08-09 | 1994-01-25 | Woo Jr John | Data entry and error embedding system |
US5380428A (en) * | 1992-04-22 | 1995-01-10 | Product Research & Development | Pump for reverse osmosis system |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
US5576955A (en) * | 1993-04-08 | 1996-11-19 | Oracle Corporation | Method and apparatus for proofreading in a computer system |
US5794197A (en) * | 1994-01-21 | 1998-08-11 | Micrsoft Corporation | Senone tree representation and evaluation |
AU684872B2 (en) * | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
US6289213B1 (en) * | 1996-02-14 | 2001-09-11 | International Business Machines Corporation | Computers integrated with a cordless telephone |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US6188985B1 (en) * | 1997-01-06 | 2001-02-13 | Texas Instruments Incorporated | Wireless voice-activated device for control of a processor-based host system |
US6308158B1 (en) * | 1999-06-30 | 2001-10-23 | Dictaphone Corporation | Distributed speech recognition system with multi-user input stations |
US6633846B1 (en) * | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
AU3083201A (en) * | 1999-11-22 | 2001-06-04 | Microsoft Corporation | Distributed speech recognition for mobile communication devices |
US20020077814A1 (en) * | 2000-12-18 | 2002-06-20 | Harinath Garudadri | Voice recognition system method and apparatus |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
-
2003
- 2003-03-24 US US10/395,609 patent/US20030182113A1/en not_active Abandoned
-
2004
- 2004-03-22 EP EP04006885A patent/EP1463032A1/en not_active Withdrawn
- 2004-03-23 CN CNA2004100326924A patent/CN1538383A/zh active Pending
- 2004-03-24 KR KR1020040019928A patent/KR20040084759A/ko not_active Application Discontinuation
- 2004-03-24 JP JP2004087790A patent/JP2004287447A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015179287A (ja) * | 2010-12-16 | 2015-10-08 | ネイバー コーポレーションNAVER Corporation | オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法 |
KR20160004886A (ko) * | 2014-07-04 | 2016-01-13 | 한국전자통신연구원 | 모바일 기기를 이용한 음성인식 시스템 |
KR102262421B1 (ko) * | 2014-07-04 | 2021-06-08 | 한국전자통신연구원 | 모바일 기기를 이용한 음성인식 시스템 |
Also Published As
Publication number | Publication date |
---|---|
CN1538383A (zh) | 2004-10-20 |
KR20040084759A (ko) | 2004-10-06 |
US20030182113A1 (en) | 2003-09-25 |
EP1463032A1 (en) | 2004-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004287447A (ja) | モバイル通信デバイスのための分散音声認識 | |
RU2352979C2 (ru) | Синхронное понимание семантических объектов для высокоинтерактивного интерфейса | |
US9761241B2 (en) | System and method for providing network coordinated conversational services | |
US7873654B2 (en) | Multimodal natural language query system for processing and analyzing voice and proximity-based queries | |
US7624018B2 (en) | Speech recognition using categories and speech prefixing | |
US9619572B2 (en) | Multiple web-based content category searching in mobile search application | |
US9495956B2 (en) | Dealing with switch latency in speech recognition | |
RU2349969C2 (ru) | Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения | |
US8019606B2 (en) | Identification and selection of a software application via speech | |
US7957975B2 (en) | Voice controlled wireless communication device system | |
US20090006097A1 (en) | Pronunciation correction of text-to-speech systems between different spoken languages | |
US20090319267A1 (en) | Method, a system and a device for converting speech | |
US20110066634A1 (en) | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search in mobile search application | |
US20110054899A1 (en) | Command and control utilizing content information in a mobile voice-to-speech application | |
US20110054897A1 (en) | Transmitting signal quality information in mobile dictation application | |
JP2002116796A (ja) | 音声処理装置、音声処理方法及び記憶媒体 | |
Huang et al. | MiPad: A multimodal interaction prototype | |
KR100917552B1 (ko) | 대화 시스템의 충실도를 향상시키는 방법 및 컴퓨터이용가능 매체 | |
CN109636524A (zh) | 一种车辆信息获取方法、装置及系统 | |
JP2002049390A (ja) | 音声認識方法およびサーバならびに音声認識システム | |
WO2001039177A2 (en) | Distributed speech recognition for mobile communication devices | |
JP2000276188A (ja) | 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体 | |
CN116453521A (zh) | 处理方法、智能终端及存储介质 | |
KR101093311B1 (ko) | 데이터 수집 시스템 및 방법 | |
Moser et al. | Voice-Enabled User Interfaces for Mobile Devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070605 |