JP2009505142A

JP2009505142A - 音声制御型ワイヤレス通信デバイス・システム

Info

Publication number: JP2009505142A
Application number: JP2008526257A
Authority: JP
Inventors: バーンズ，スティーブン・エス; コウィッツ，ミッキー・ダブリュー
Original assignee: モバイル・ヴォイス・コントロール・エルエルシー
Priority date: 2005-08-09
Filing date: 2006-08-09
Publication date: 2009-02-05
Anticipated expiration: 2026-08-09
Also published as: CA2618626A1; CN101366075A; JP5320064B2; EP1922717A4; US8812325B2; CN101366073B; US20070156411A1; US7957975B2; CA2618623A1; US8775189B2; CN101366074B; US8315878B1; EP1922719A4; CA2618547C; WO2007055766A3; WO2007061466A2; CA2618626C; US7822610B2; US20130073294A1; US20070174058A1

Abstract

エンド・ユーザからの記録オーディオ・データを受け入れるワイヤレス通信デバイスを開示する。オーディオ・データは、ユーザの行為を要求するコマンドの形態とすることができる。同様に、オーディオ・データはテキスト・ファイルに変換するテキストとすることができる。オーディオ・データを.wav、.mp3、vnfファイル等の、デバイスのハードウェアが対応するフォーマットのディジタル音声データに還元する。更に処理するために、保証のある又は保証のないワイヤレス通信を通じて１つ以上のサーバ・コンピュータにディジタル声音ファイルファイルを送る。本発明の重要な態様によれば、本システムは音声認識プロセスの信頼度レベルを評価する。信頼度レベルが高い場合、システムは自動的にアプリケーション・コマンドを構築するか、又はテキスト・ファイルを作成し、通信デバイスに送信する。逆に、音声認識の信頼度が低い場合、記録オーディオ・データ・ファイルを、電気通信サービスが雇っている転記者に引き渡し、転記者が手作業でディジタル声音ファイルを見直して、アプリケーション・コマンド又はテキスト・ファイルを構築する。一旦アプリケーション・コマンドを作成したなら、これを通信デバイスに送信する。本発明の結果、通信デバイスに関しては、音声認識は９０％以上の時間高精度であった。

Description

本発明は、声音コマンド(voice command)を通じて種々のワイヤレス通信デバイスを制御するための、ワイヤレス・サーバに基づく音声認識ツールの使用に関する。
なお、本願は、２００５年８月９日に出願した米国仮特許出願第６０／７０６，８０６号の優先権及び恩典を主張する。その内容は、ここで引用したことにより、本願にも含まれるものとする。

音声制御型のシステムは、長年にわたり利用可能であり、使用されている。これらのシステムは、通例、コンピュータ・ハードウェア及びソフトウェアの組み合わせを組み込み、被制御デバイス上に配置されており、エンド・ユーザは、口頭コマンドの口述(recitation)によって、デバイスを制御することができる。口頭コマンドは、実行可能なコマンドに変換されて、電子デバイスを制御することができる。今日、音声制御型デバイスを駆動する音声認識システムは、コンピュータ・インターフェース、自動車、セルラ電話機、及びその他のハンド・ヘルド・デバイスに及ぶ様々な種類の技術において見出すことができる。

ワイヤレス通信デバイスは、特に、音声制御に向いている。これらのワイヤレス・デバイスは、通例、セルラ電話機、電子メール、連絡先リスト、カレンダ作成、インターネット・ウェブ閲覧、マルチメディア・プレーヤ、及び多くのその他の同様の電子的用途を組み合わせて、ポケット又は財布に納まる程度に小さい１つの電子パッケージに纏めている。ワイヤレス・デバイスとの相互作用は、通常、ワイヤレス・デバイスに取り付けられている小型のキーボードを通じて行われる。キーボードは標準的なキーボードよりもかなり小さいので、誤りは珍しいことではなく、破壊的となる可能性もある。更に、運転中というような、これらのデバイスの典型的な使用では、デバイスを監視し、手作業でコマンドを入力することは非実用的となる。結局、これらの問題により、意図した目的用としてデバイスの使用を諦めることになる。したがって、キーボードの代わりに音声制御を用いてワイヤレス・デバイスを制御できることが望ましい。

現行のワイヤレス通信デバイスは、デバイスに全てが配置されているプログラミングに左右される。これらのシステムの能力は、移動体音声制御デバイス上で一般に利用可能なメモリ及び計算能力が少ないために著しく制限される。しかしながら、主に、背景ノイズ、ユーザのなまりのような移動体ユーザに直面する環境的課題、ならびに高品質のオーディオを提供できないマイクロフォンのようなコスト効率的なハードウェアのために、音声認識の精度は劣っている。

米国特許第７，０２７，９８７号（’９８７特許）は、検索エンジンの音声インターフェース方法を開示している。しかしながら、’９８７特許の発明者は、彼らの論文において、実験の結果、発話された単語を正しく認識できたのはわずか６０％の時間に過ぎないことを報告した。Alex Franz and Brian Milch. Searching the Web by Voice（音声によるウェブ検索）、 Proc. 19th International Conference non Computational Linguistics, 1213-1217 (2002) を参照のこと。

したがって、発話された単語を非常に高い精度で認識することを維持しつつ、種々のアプリケーションを実行することができる、音声制御型のワイヤレス通信デバイスを提供することが望まれている。

本発明のワイヤレス通信デバイスは、エンド・ユーザからの記録されたオーディオ・データを受け入れる。オーディオ・データは、行為を要求するコマンドの形態とすることができる。この行為は、電子メールの送付、約束の予定組み入れ、通話開始、インターネット検索、ＭＰ３歌曲のようなマルチメディア・ファイルの再生、あるいはスポーツの得点又は株式見積もりのようなニュース関連情報の要求というような、デバイス上で手動で行われる。同様に、オーディオ・データは、テキスト・ファイルに変換するテキストであり、メモ、手紙、又はその他のテキスト・データとして保持することができる。オーディオ・データを、.wav、.mp3、vnfファイル等のような、デバイスのハードウェアが対応するフォーマットのディジタル音声データに還元(reduce)する。更に処理するために、保証のある(secured)又は保証のない(unsecured)ワイヤレス通信を通じて１又は複数のサーバ・コンピュータにディジタル・声音ファイルを送る。サーバ・コンピュータは、通例、通信デバイスに電話及び電子メール・アクセスを提供するのと同じ電気通信サービスによって管理されている。一旦オーディオ・データを認識したなら、サーバは、アプリケーション・コマンド又はテキスト・ファイルを組み立てることによってデータを処理し、その結果得られた情報を、適正な実行のために、ワイヤレス・デバイスに送る。

音声認識のためにオーディオ・データをサーバに移送することにより、一層強力な音声エンジンによって要求を処理することが可能になる。しかしながら、これでは、解釈しようとするデータの品質は改善しない。多くの研究や失敗したシステムが証明しているように(http://www.cs.berkeley.edu%7Emilch/papers/gvs.pdf)、オーディオの品質が劣ると、音声認識が最良であっても、高精度の結果は得られない。このために、ユーザはシステムを使用するのを止めてしまう。

このため、本発明は、音声認識を実行するサーバ・コンピュータのパワーを利用するだけでなく、音声認識プロセスの信頼性レベルも評価することによって、単語認識精度の問題を克服する。信頼性レベルが高い場合、システムはアプリケーション・コマンドを自動的に組み立てるか、又は通信デバイスに送信するためにテキスト・ファイルを作成する。逆に、音声認識の信頼度が低い場合、電気通信サービスが雇っている転記者に、記録したオーディオ・データ・ファイルを引き渡し、転記者が手作業でディジタル声音ファイルを見直し、アプリケーション・コマンド又はテキスト・ファイルを組み立てる。一旦アプリケーション・コマンドを作成したならば、これを通信デバイスに送信する。本発明の結果、通信デバイスに関する音声認識では、９０％以上の時間で高精度であることが示された。

ワイヤレス通信デバイス用の音声制御システムを図１に示す。本システムは、１又は複数のサーバ・コンピュータ２０とワイヤレスで通信するハンドヘルド通信デバイス１０を備えている。通信デバイス１０は、少なくともプログラムを実行することができるものである。プログラムのことをアプリケーションとも称する。また、通信デバイス１０は、マイクロフォンのような、オーディオ記録能力も有し、ユーザからの声音コマンドの形態のオーディオ・データを記録し、記録声音コマンド・ファイル３０としてコマンドを保存することができる。

通信デバイス１０のユーザは、デバイス１０上にある声音コマンド・アプリケーションにアクセスし、デバイス１０を制御するためのコマンドを、デバイスのマイクロフォンに向かって発する。デバイス１０は、声音コマンドを記録し、記録声音コマンド・ファイル３０を作成する。デバイス１０は、任意に、記録声音コマンド・ファイルを、今後の使用のために内部に格納することができる。次いで、通信デバイス１０は、記録声音コマンド・ファイル３０をワイヤレスでサーバ・コンピュータ２０に送り、サーバの応答を待つ。

記録声音コマンド・ファイル３０を受信すると、サーバ・コンピュータ２０は一連のプログラム・モジュールを実行して、記録声音コマンド・ファイル３０を処理する。最初に、サーバ・コンピュータ２０は、記録声音コマンド・ファイル３０に対して音声認識（ボックス４０）を実行し、解釈声音コマンド５０を生成する。多数のサーバが同時に音声認識プロセスを実行している場合、システムは、個々のサーバのアクティビティ(activities)を含むが、限定されない種々のパラメータに基づいて、音声認識を記録声音コマンド・ファイル３０に指令するサーバ・コンピュータ２０をどれにするか決定する。サーバ・コンピュータ２０は、記録声音コマンド・ファイル３０を今後の使用のために内部に格納することができる。サーバ・コンピュータ２０は、音声認識プロセスの信頼度レベルを評価して（ボックス６０）、音声認識の精度を判定する。信頼度レベルが既定レベル以上である場合、サーバ２０は機械読み取り可能コマンドの自動作成を呼び出して、アプリケーション・コマンド８０を作成する（ボックス７０）。

一方、音声認識プロセス（ボックス４０）の信頼度レベルが既定レベルに満たない場合、機械読み取り可能コマンドの手作業による見直し及び作成（ボックス９０）のために、サーバ２０は記録声音コマンド・ファイル３０を転記者に引き渡す。
機械読み取り可能コマンド（ボックス８０）を作成したならば、サーバ・コンピュータ２０は、アプリケーション・コマンド（ボックス８０）を通信デバイス１０に送信する。通信デバイス１０は、受信したアプリケーション・コマンドを実行するために、適正なアプリケーションに送出する。

通信デバイス１０は、今日入手可能な多くの類似した種類のデバイスの１つとすることができる。典型的な通信デバイス１０は、種々のアプリケーションを実行することができる。これらのアプリケーションは、限定ではなく、ワイヤレス電話通信、ワイヤレス電子メール、カレンダ作成、連絡先リスト、ワイヤレス・インターネット・ウェブ閲覧、及びマルチメディア・プレゼンテーションを含む。通例、アプリケーションを書く言語は、Ｃ＋＋、Ｓｙｍｂｉａｎ、Ｊａｖａ、Ｌｉｎｕｘ等のように、ネイティブなデバイス・ハードウェアが対応することができる。加えて、デバイス１０は、デバイスの販売業者が提供するアプリケーション以外のアプリケーションも実行することができる。

図２は、通信デバイス上での声音コマンド・アプリケーションの実行を示している。ユーザは、種々の方法でアプリケーションを起動する（ボックス１００）が、アプリケーションを開始するデバイス上のボタンを押下することが好ましい。アプリケーションは、ユーザに発語コマンドのようなオーディオ記録を促し、これを受け取り（ボックス１１０）、.wav、.mp3、又はvnfファイルのような、デバイスが対応するフォーマットで、記録声音コマンド・ファイル１３０として保存する。用いるハードウェアに基づいて、他のファイル・フォーマットが好ましいこともある。ユーザが声音コマンドを記録しているときに、アプリケーションは任意に可能なコマンドのリストを呈示することができる（ボックス１０５）。

次に、デバイスは、サーバ・コンピュータとのワイヤレス・データ接続を確立し、記録声音コマンド・ファイル１３０をサーバに送信する。接続は、ユーザの、そしてシステム管理者の好みに基づいて、保証のある又は保証のない通信のどちらでもよい。好ましくは、デバイスは、サーバが応答する（ボックス１４０）まで、サーバ・コンピュータとの接続を維持する。場合によっては、応答に要する時間が長すぎて、応答を受信する前にデータ接続が終了する可能性もある。このような場合、デバイス又はサーバは、後の時点に通信を再度確立して、アプリケーション・コマンド（ボックス１８０）の形態でサーバの応答を送信（又は受信）し、接続を終了する。

通信デバイスは、アプリケーション・コマンド・ファイル１８０を受信し、通信デバイスが取らなければならない行為を決定するように、アプリケーション・コマンドに質問する。アプリケーション・コマンド・ファイル１８０に基づいて、実行のためにしかるべきアプリケーションにコマンドを送出する（ボックス１６０）。

更に、声音コマンドに基づいて、アプリケーションの実行を特定のコンテンツ・プロバイダに指令することができる。例えば、インターネット・コンテンツの要求が、インターネット上にある多数のソースから来る可能性がある。システムを実行する電気通信サービスは、インターネット・コンテンツ・プロバイダと、このような要求全てをそのインターネット・コンテンツ・プロバイダに送出することに同意することができる。このような同意は、電気通信サービスにとっては金銭的に利益となることができる。同様に、ユーザは、使用するインターネット・コンテンツ・プロバイダに好みがある可能性があり、そのプロバイダをこのようなソースとして予め定義しておくことができる。

オーディオ記録が声音コマンドである場合、声音コマンドは、全てのコマンドが従う標準的フォーマットを有することが好ましい。声音コマンドのフォーマットを標準化することにより、追加コマンドを実施し易くすることできる。声音コマンドは、コマンドの種類を識別するキー・フレーズ(key phrase)で始まるとよい。キー・フレーズの例には、限定ではなく、「連絡先に発呼」、「電子メール」、「ウェブ検索」、「ムービー発見「、又は「歌曲再生」が含まれる。キー・フレーズの次には、声音コマンドの種類に基づいて、追加のパラメータがある。例えば、キー・フレーズが「連絡先に発呼」である場合、追加パラメータは、連絡先の名称になる。更に精巧な例では、電子メール・コマンドを含むことができ、この電子メール・コマンドは、連絡先の名称、電子メール・アドレス、主題、及び本文のような、追加のパラメータを多数含む。一部のパラメータはパラメータ・フレーズ（電子メール声音コマンドにたいする「主題」等）で始めることもでき、あるいは、キー・フレーズ「連絡先に発呼」に続く連絡先の名称におけるように、パラメータ・フレーズを用いずに、単にキー・フレーズに添付してもよい。

一旦ユーザが声音コマンドを通信デバイスに向けて発語すると、デバイスは、サーバ・コンピュータに送信するために、記録した声音コマンドをしかるべきディジタル・ファイル・フォーマットで保存する。任意に、システムは、どの通信デバイスから記録声音コマンドを受信したかを示す一意のデバイス識別子を添付することもできる。一意のデバイス識別子に基づいて、システムは、以下に述べる追加の有用な情報を識別することができる。

連絡先リストを通信デバイスに保持する場合、記録したオーディオ・ファイルと共にこのリストを周期的に送信し、サーバ・コンピュータ上で維持することができる。保存した連絡先リストは、音声変換の精度を高めるために用いられる。このリストは、音声認識プロセスが、連絡先リストからの入力を必要とする声音コマンドの自動変換において補助するために用いられる。加えて、声音コマンドを見直しのために転記者に送る場合、転記者は特定のユーザの連絡先リストにアクセスすることができ、あるいは連絡先リストを自動的に転記者に呈示することができる。

連絡先リストをサーバ・コンピュータに送る場合、必要に応じてリストを操作することができる。例えば、サーバ・コンピュータは、中間名の頭文字がある連絡先名及び中間名の頭文字がない連絡先名の双方を管理し、中間名の頭文字がないレコードが再度中間名の頭文字があるレコードに転換することができる。例えば、連絡先リストではRobert Smithとなっている連絡先をユーザが要求したが、データベースにはRobert T. Smithというレコードしかない場合、システムはRobert T. Smithを発見し、その結果をユーザに戻すことができる。

図３は、通信デバイスから送信する記録声音コマンド・ファイルのサーバ・コンピュータの処理を示す。サーバ・コンピュータ、及び声音コマンドの処理全ては、通例、通信デバイスにワイヤレス通信を提供する電気通信サービスによって制御する。通信デバイスは、サーバ・コンピュータとのワイヤレス・データ接続を確立し、記録声音コマンド・ファイルをサーバ・コンピュータ２００に送信する。サーバ・コンピュータは、記録声音コマンド・ファイル２３０に対して音声認識を行う（ボックス２１０）。Nuance, Inc.,から入手可能なDragon Naturally Speakingのような市販の音声認識プログラムを用いることができ、あるいは汎用の音声認識プログラムを用いることもできる。音声認識プロセスの結果、解釈声音コマンド・ファイル２５０が作成される。音声認識ソフトウェアは、声音コマンドの高精度認識のソフトウェア信頼度を測定する信頼度レベルを提供できなければならない。このような信頼度測定は、通例、認識プロセスに組み込まれている。

限界信頼度レベル、即ち、認識プロセスの信頼度が不十分な場合に追加の処理を行わなければならないレベルは、システム・アドミニストレータ又はシステム自体で調節することができる。音声認識の結果得られた信頼度レベルが限界信頼度レベル以上の場合、音声認識プロセス２１０からの解釈した声音コマンド（ボックス２５０）を用いて、アプリケーション・コマンド（２８０）を自動的に作成する（ボックス２４０）。逆に、音声認識の結果得られた信頼度レベルが限界信頼度レベルに満たない場合、記録声音コマンド・ファイル２３０を転記者に引き渡し、機械読み取り可能コマンド・ファイル２８０を手作業で作成する。

機械読み取り可能コマンド・ファイル８０は、XMLのような標準フォーマットとするとよい。標準フォーマットによって、新しいコマンドを含めやすくすることができる。例えば、声音コマンドが「連絡先Bob Jonesに発呼する」である場合、システムは「連絡先に発呼する」をキー・フレーズとして特定し、通話型のXMLコードを組み立てる（例えば、<commandtype> call）。コマンド形式が分かると、システムは次に名前を解析し、XMLコードを作成する（例えば、<contact> Bob Jones）。このように、アプリケーション・コマンド・ファイル２８０は、<commandtype> call <contact> Bob Jonesとなる。当業者には他のフォーマットも周知であり、XMLフォーマットの代わりに容易に用いることができる。

一旦アプリケーション・コマンド・ファイル２８０を作成したならば、それを作成するために採用したプロセスには係わらず、サーバ・コンピュータはファイル２８０を、確立したワイヤレス・データ接続を通じて、通信デバイスに戻す。前述のように、データ接続が既に終了している場合、サーバ・コンピュータは、ファイル２８０を通信デバイスに送信するために、接続を再度確立することができる。

図４は、１つの音声認識プロセスの代わりに、異なる音声認識プロセスを同時に用いた、本発明の別の実施形態を示す。この方法は、異なる音声認識システムにおける差を利用して、最も精度が高い音声認識を得る。全ての音声認識プロセス（ボックス３１０）が完了すると、システムは各プロセスの信頼度レベルを評価する（ボックス３２０）。音声認識プロセス（ボックス３１０）の信頼度レベルの少なくとも１つが限界信頼度レベル以上である場合、システムは、信頼度レベルが最も高い解釈声音コマンド・ファイルを選択し（ボックス３４０）、この解釈声音コマンド・ファイル３９５に基づいて自動的にアプリケーション・コマンドを作成する（ボックス３９０）。限界信頼度レベル以上の信頼度レベルが得られたプロセスが１つもない場合、記録声音コマンドを転記者に引き渡し、アプリケーション・コマンドを手作業で作成する（ボックス３６０）。

追加のコンテンツ指向音声認識プロセス（ボックス３３５）を必要としてもよい。コンテンツ指向音声認識プロセス（ボックス３３５）は、法律用語集のような特定の用語集、又はスペイン語用語集のような特定の言語を用いるプロセスである。初期音声認識プロセス（ボックス３１０）の結果に基づいて、そして音声認識プロセスが限界信頼度レベルよりも高い場合（ボックス３２０）と、記録声音コマンドは、コンテンツ指向音声認識プロセス（ボックス３３５）による追加処理を必要とすると判断することができる。同様に、追加のコンテンツ指向音声認識プロセス（ボックス３３５）を、ユーザが選択した追加のコンテンツ指向音声認識プロセスに基づいて呼び出してもよい。本システムは、エンコードした一意の識別子に基づいて、個々のユーザが必要とした追加のコンテンツ指向音声認識プロセスは何か判断することができる。

本発明の一実施形態では、記録声音コマンド・ファイルを転記者に引き渡す場合、システムは記録声音コマンド・ファイルを最も適した転記者に送出しようとする。適した転記者の選択は、ユーザが定義した多数の判断基準に基づくことができる。例えば、システムは個々の転記者の作業負荷を評価して、最も暇な転記者にファイルを割り当てることができる。他の選択肢は、コマンドの種類を判定して、その特定の種類のコマンドに最も適した転記者に記録声音コマンド・ファイルを割り当てることである。これは、電子メール・コマンドのように、コマンドが大量のタイプ入力を必要とする可能性がある場合に、特に有用である。電子メール・コマンドは、通例、電子メールの本文のように、タイプ入力する追加情報を必要とする。つまり、タイプ入力しなければならない量が多い程、優れたタイピストと認められている転記者に送出する。

また、記録声音コマンド・ファイルは、声音コマンドを作成したユーザと過去に経験がある転記者に送出することもできる。一意の識別子を任意に各記録声音コマンド・ファイルに添付するので、システムは、声音コマンドを記録したユーザからの声音コマンドを以前に見直したことがある転記者を判定することができる。方言やなまりのために、同じユーザからの声音コマンドを同じ転記者に見直させることが望ましい場合もある。このようにして、転記者はユーザのなまりに馴染んで行き、今後の転記がこの転記者にとって容易になっていく。

また、コマンドのタイムラインに基づいて、コマンドに優先順位を付けることもできる。例えば、発呼するコマンドのように、直ちに応答が必要なコマンドの優先度を高くし、したがって、電子メールを送るためのような、通例直ちに応答を必要としないコマンドよりも素早く転記者に割り当てる。

記録声音コマンド・ファイルが転記者に引き渡されたならば、転記者には自動画面を呈示することができる。この画面は、ユーザの過去の履歴やこの転記者による処理を促進するように設計された別の音声技法を含む、転記者のための視覚的糸口(visual clue)を含む。転記者が手作業でアプリケーション・コマンド・ファイルを作成した後、転記者にユーザの音声認識文法ファイルを更新するように、システムによって促すことができる。文法ファイルは、声音コマンドを認識する際に、音声認識プロセスを補助する。これについては、以下で更に詳しく説明する。

別の実施形態を図５に示す。この実施形態では、ユーザは、例えば、注釈、手紙、メモ、防備録として保存するテキスト情報を記録し、得られたテキスト・ファイルを通信デバイス４１０に格納する。これまでの実施形態と同様、オーディオ・データを記録オーディオ・ファイル４３０に格納し、サーバ・コンピュータ４２０に送信する。音声認識サーバ・モジュール（ボックス４４０）によって記録オーディオ・ファイル４３０を処理して、テキスト・ファイル４５０を作成する。サーバ・コンピュータ４２０は、音声認識プロセスの信頼度レベルを評価し（ボックス４６０）、音声認識の精度を判定する。信頼度レベルが既定レベル以上である場合、自動的に作成したテキスト・ファイル４５０をサーバ・モジュール４８０に転送し、通信デバイス４１０に送信する。逆に、音声認識プロセス（ボックス４４０）の信頼度レベルが既定レベルに満たない場合、サーバ４２０は記録オーディオ・ファイル４３０を転記者に引き渡し、手作業で見直してテキスト・ファイル４５５を作成する（ボックス４５５）。

テキスト・ファイル４５０又は４５５を作成するために用いる方法には関係なく、テキスト・ファイルは、既に確立してあるワイヤレス・データ接続に沿って送信する（ボックス４８０）。一旦通信デバイス４１０に返されると、テキスト・ファイルを通信デバイスに保存し、ノートブック、又はワード・プロセッサのような、テキスト・データの表示に適したアプリケーションを用いて表示することができる。

別の実施形態では、本システムは１又は複数のアプリケーション・プログラム・インターフェースを有し、これらは、声音コマンドの種類を判定して、アプリケーション・コマンドの作成を他の組織に指令することができる。このように、通信デバイス上で実行するアプリケーションに一意の、それ自体の声音コマンド集合を組織が構築することができる。これは、組織が容易にアクセス可能にすることができる情報を有するが、本システムを利用する電気通信サービスにこの情報を入手可能にしたくない、又はすることができない場合に有利である。例えば、販売組織が、通信デバイスを通じて販売陣に会社の機密情報へのアクセスを与えたいが、電気通信デバイスにはこの情報をアクセス可能にはしたくない場合がある。声音コマンドがこれら特殊な種類のコマンドの１つであるとシステムが判断した場合、記録声音コマンド・ファイルを組織に転送し、アプリケーション・コマンド・ファイルを作成する。その結果得られたアプリケーション・コマンド・ファイルは、当業者には周知の広く知られている暗号方法論のいずれかを用いて暗号化することが好ましい。暗号化したアプリケーション・コマンド・ファイルを再度電気通信デバイスに転送し、通信デバイスに送信する。一旦通信デバイス上で受信すると、暗号化したアプリケーション・コマンドを、組織が提供する通信デバイス上の一意のアプリケーションに送出する。

別の実施形態では、記録声音コマンドに添付した通信デバイスの一意の識別子を用いて、声音コマンドを発語するユーザを特定する。つまり、サーバ・コンピュータが通信デバイスから記録声音コマンドを受信すると、システムはユーザが誰か、そして電気通信サービスによる声音コマンド・サービスを受ける適格性がユーザにあるか否か判定することができる。加えて、音声認識プロセスは、特定のユーザに作成したユーザの文法ファイルにアクセスすることができる。文法ファイルは、ユーザの音声パターンの例を収容し、音声認識プロセスにおいて補助するために用いることができる。特定のユーザに合わせた文法ファイルは、当技術分野では周知であり、殆どの市販の音声認識システムの標準的な構成要素である。文法ファイルの構築は、ユーザによって行うことができ、あるいは転記者が前述のように文法ファイルを作成することもできる。

本発明に係るワイヤレス通信システムのブロック図である。本発明に係る、通信デバイス上で実行される声音コマンド・アプリケーションの動作を示すブロック図である。本発明に係る、通信デバイスからの声音コマンド・ファイルを処理するサーバの動作を示すフロー図である。本発明の別の実施例に係る、同時スピーチ認識プロセスの使用を示すフロー図である。本発明の別の実施例に係る、テキスト・ファイルとして通信デバイス上に格納されるテキスト情報の使用を示すフロー図である。

Claims

音声により制御されるワイヤレス通信デバイス・システムであって、
ユーザが発語する声音コマンドを記録し、内部にあるソフトウェア・アプリケーションを実行することができるワイヤレス通信デバイスと、
前記ワイヤレス通信デバイスと通信することができる１又は複数のサーバ・コンピュータであって、前記通信デバイス上で実行するコマンドを作成するための少なくとも１つのサーバ・モジュールを備えている１又は複数のサーバ・コンピュータと
を備えており、
前記ソフトウェア・アプリケーションにより、前記声音コマンドが前記サーバ・コンピュータに通信され、
前記サーバ・コンピュータが、前記声音コマンドを特定するために、少なくとも１つの音声認識プロセスを開始し、前記声音コマンドに基づいてアプリケーション・コマンドを構築し、該アプリケーション・コマンドを前記ワイヤレス通信デバイスに伝達し、
前記ソフトウェア・アプリケーションにより、前記サーバ・コンピュータから伝達されたアプリケーション・コマンドを、その実行のために、前記ワイヤレス通信デバイス上の該当するソフトウェア・アプリケーションに送出するよう構成されている
ことを特徴とするワイヤレス通信デバイス・システム。
請求項１記載のワイヤレス通信デバイス・システムにおいて、前記声音コマンドは、前記ワイヤレス通信デバイスの特定のために、一意のデバイス識別子を含むことを特徴とするワイヤレス通信デバイス・システム。
請求項２記載のシステムにおいて、前記一意のデバイス識別子を、システムの使用を追跡し、かつシステムの使用に対して課金するために利用することを特徴とするワイヤレス通信デバイス・システム。
請求項１記載のワイヤレス通信デバイス・システムにおいて、
該システムは、少なくとも１つの音声認識プロセスを実行する少なくとも１つの追加のサーバ・コンピュータを含み、
ユーザに基づくサーバ判断基準に基づいて、前記声音コマンドを前記追加のサーバ・コンピュータに送出する
ことを特徴とするワイヤレス通信デバイス・システム。
請求項４記載のワイヤレス通信デバイス・システムにおいて、前記ユーザに基づくサーバ判断基準の少なくとも１つは、サーバのアクティビティを含むことを特徴とするワイヤレス通信デバイス・システム。
請求項４記載のワイヤレス通信デバイス・システムにおいて、前記ユーザに基づくサーバ判断基準の少なくとも１つは、前記声音コマンドの種類を含むことを特徴とするワイヤレス通信デバイス・システム。
請求項１記載のワイヤレス通信デバイス・システムにおいて、前記通信デバイス上の記憶媒体に前記声音コマンドを格納することを特徴とするワイヤレス通信デバイス・システム。
請求項１記載のワイヤレス通信デバイス・システムにおいて、前記サーバ・コンピュータ上に前記声音コマンドを格納することを特徴とするワイヤレス通信デバイス・システム。
請求項１記載のワイヤレス通信デバイス・システムにおいて、該システムは、前記声音コマンドに応答して、前記要求を特定のコンテンツ・プロバイダに送出することを特徴とするワイヤレス通信デバイス・システム。
請求項１記載のワイヤレス通信デバイス・システムにおいて、前記声音コマンドは、マルチメディア・コンテンツを受信するコマンドを含むことを特徴とするワイヤレス通信デバイス・システム。
請求項１記載のワイヤレス通信デバイス・システムにおいて、前記ソフトウェア・アプリケーションは、記録すべき潜在的なコマンドのリストを呈示することを特徴とするワイヤレス通信デバイス・システム。
請求項１記載のワイヤレス通信デバイス・システムにおいて、前記ソフトウェア・アプリケーションは、実行すべき潜在的なコマンドのリストを呈示する、システム。
請求項１記載のワイヤレス通信デバイス・システムにおいて、前記ワイヤレス通信デバイスは、連絡先リストを保持し、該連絡先リストを周期的に送信し、前記サーバ・コンピュータに格納することを特徴とするワイヤレス通信デバイス・システム。
請求項１記載のワイヤレス通信デバイス・システムにおいて、
該システムは、追加のサーバ・コンピュータを含み、
前記声音コマンドの種類に基づいて、前記サーバ・コンピュータは前記コマンドを、処理のために前記追加のサーバ・コンピュータに送出する
ことを特徴とするワイヤレス通信デバイス・システム。
音声により制御されるワイヤレス通信デバイス・システムであって、
ユーザが発語する声音コマンドを記録し、内部にあるソフトウェア・アプリケーションを実行することができるワイヤレス通信デバイスと、
前記ワイヤレス通信デバイスと通信することができる１又は複数のサーバ・コンピュータであって、前記通信デバイス上で実行するコマンドの作成のために、少なくとも１つのサーバ・モジュールを備えている１又は複数のサーバ・コンピュータと
を備えており、
前記ソフトウェア・アプリケーションにより前記声音コマンドが前記サーバ・コンピュータに通信され、
前記サーバ・コンピュータが、音声認識ソフトウェアを実行して、前記声音コマンドを認識し且つ、該声音コマンドの認識に対して信頼度レベルを割り当て、
前記割り当てられた信頼度レベルに応答して、アプリケーション・コマンドを自動的に構築するか、又は前記声音コマンドを転記者に引き渡し、該転記者が手作業で前記声音コマンドを見直し、アプリケーション・コマンドを構築し、
前記アプリケーション・コマンドを前記ワイヤレス通信デバイスに伝達し、
前記ソフトウェア・アプリケーションにより、実行のために、前記ワイヤレス通信デバイス上の該当するソフトウェア・アプリケーションに、前記アプリケーション・コマンドが送出される
ことを特徴とするワイヤレス通信デバイス・システム。
請求項１５記載のワイヤレス通信デバイス・システムにおいて、前記音声認識ソフトウェアは、ユーザの声音コマンドの理解を高めるために学習することができ、前記転記者は、前記音声認識ソフトウェアが割り当てる信頼度に応答して、前記音声認識ソフトウェアを学習する
ことを特徴とするワイヤレス通信デバイス・システム。
請求項１５記載のワイヤレス通信デバイス・システムにおいて、前記転記者の判断基準に基づいて、前記転記者への引き渡しが実行されることを特徴とするワイヤレス通信デバイス・システム。
請求項１７記載のワイヤレス通信デバイス・システムにおいて、前記転記者の判断基準の少なくとも１つは、声音コマンドの種類を含むことを特徴とするワイヤレス通信デバイス・システム。
声音コマンドを通じてワイヤレス通信デバイスを制御する方法であって、
前記ユーザに声音コマンドを入力するように促すために、ワイヤレス通信デバイス上にあるソフトウェア・アプリケーションをユーザが開始するステップと、
前記通信デバイス上にユーザ声音コマンドを記録し、該声音コマンドをサーバ・コンピュータに通信するステップと、
前記サーバ・コンピュータ上で前記ユーザ声音コマンドを受信し、該ユーザ声音コマンドを識別するために音声認識ソフトウェアを開始し、前記声音コマンドの認識に応答して、前記通信デバイス上で実行するアプリケーション・コマンドを構築するステップと、
前記アプリケーション・コマンドを前記通信デバイスに通信するステップと、
前記アプリケーション・コマンドの受信に応答して、前記通信デバイスが前記アプリケーション・コマンドを実行するステップと
からなることを特徴とする制御方法。
請求項１９記載の制御方法において、前記音声認識ソフトウェアは、前記声音コマンドの認識に対して信頼度レベルを割り当て、該信頼度レベルに応答して、見直し及びアプリケーション・コマンドの構築のために前記声音コマンドを転記者に引き渡すよう構成されていることを特徴とする制御方法。
音声制御ワイヤレス通信デバイス・システムであって、
ユーザが発する声音コマンドを記録し、内部にあるソフトウェア・アプリケーションを実行することができるワイヤレス通信デバイスと、
前記ワイヤレス通信デバイスと通信することができ、前記オーディオ・データのテキスト版作成のために少なくとも１つのサーバ型モジュールを備えている１又は複数のサーバ・コンピュータと、
を備えており、
前記ソフトウェア・アプリケーションは、前記オーディオ・データを前記サーバ・コンピュータに伝達し、
前記サーバ・コンピュータは、前記オーディオ・データを認識し、前記オーディオ・データのテキスト版を構築し、前記オーディオ・データのテキスト版を前記ワイヤレス通信デバイスに伝達するために、音声認識ソフトウェアを開始し、
前記ソフトウェア・アプリケーションは、前記オーディオ・データのテキスト版を、前記ワイヤレス通信デバイス上の該当するソフトウェア・アプリケーションに送出する
ことを特徴とするワイヤレス通信デバイス・システム。
請求項２１記載のワイヤレス通信デバイス・システムにおいて、前記音声認識ソフトウェアは、前記オーディオ・データの認識に対して信頼度を割り当て、該信頼度レベルに応答して、前記オーディオ・データのテキスト版の見直し及び構築のために、前記オーディオ・データを転記者に引き渡すよう構成されていることを特徴とするワイヤレス通信デバイス・システム。