JP5394738B2 - 音声制御型ワイヤレス通信デバイス・システム - Google Patents

音声制御型ワイヤレス通信デバイス・システム Download PDF

Info

Publication number
JP5394738B2
JP5394738B2 JP2008526224A JP2008526224A JP5394738B2 JP 5394738 B2 JP5394738 B2 JP 5394738B2 JP 2008526224 A JP2008526224 A JP 2008526224A JP 2008526224 A JP2008526224 A JP 2008526224A JP 5394738 B2 JP5394738 B2 JP 5394738B2
Authority
JP
Japan
Prior art keywords
communication device
application
speech recognition
command
wireless communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008526224A
Other languages
English (en)
Other versions
JP2009505140A (ja
Inventor
バーンズ,スティーブン・エス
コウィッツ,ミッキー・ダブリュー
Original Assignee
モバイル・ヴォイス・コントロール・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US70680605P priority Critical
Priority to US60/706,806 priority
Application filed by モバイル・ヴォイス・コントロール・エルエルシー filed Critical モバイル・ヴォイス・コントロール・エルエルシー
Priority to PCT/US2006/031334 priority patent/WO2007092044A1/en
Publication of JP2009505140A publication Critical patent/JP2009505140A/ja
Application granted granted Critical
Publication of JP5394738B2 publication Critical patent/JP5394738B2/ja
Application status is Expired - Fee Related legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services, time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Description

本発明は、声音コマンド(voice command)を通じて種々のワイヤレス通信デバイスを制御するための、ワイヤレス・サーバに基づく音声認識ツールの使用に関する。
なお、本願は、2005年8月9日に出願した米国仮特許出願第60/706,806号の優先権及び恩典を主張する。その内容は、ここで引用したことにより、本願にも含まれるものとする。

音声制御型のシステムは、長年にわたり利用可能であり、使用されている。これらのシステムは、通例、コンピュータ・ハードウェア及びソフトウェアの組み合わせを組み込み、被制御デバイス上に配置されており、エンド・ユーザは、口頭コマンドの口述(recitation)によって、デバイスを制御することができる。口頭コマンドは、実行可能なコマンドに変換されて、電子デバイスを制御することができる。今日、音声制御型デバイスを駆動する音声認識システムは、コンピュータ・インターフェース、自動車、セルラ電話機、及びその他のハンド・ヘルド・デバイスに及ぶ様々な種類の技術において見出すことができる。

ワイヤレス通信デバイスは、特に、音声制御に向いている。これらのワイヤレス・デバイスは、通例、セルラ電話機、電子メール、連絡先リスト、カレンダ作成、インターネット・ウェブ閲覧、マルチメディア・プレーヤ、及び多くのその他の同様の電子的用途を組み合わせて、ポケット又は財布に納まる程度に小さい1つの電子パッケージに纏めている。ワイヤレス・デバイスとの相互作用は、通常、ワイヤレス・デバイスに取り付けられている小型のキーボードを通じて行われる。キーボードは標準的なキーボードよりもかなり小さいので、誤りは珍しいことではなく、破壊的となる可能性もある。更に、運転中というような、これらのデバイスの典型的な使用では、デバイスを監視し、手作業でコマンドを入力することは非実用的となる。結局、これらの問題により、意図した目的用としてデバイスの使用を諦めることになる。したがって、キーボードの代わりに音声制御を用いてワイヤレス・デバイスを制御できることが望ましい。

現行のワイヤレス通信デバイスは、デバイスに全てが配置されているプログラミングに左右される。これらのシステムの能力は、移動体音声制御デバイス上で一般に利用可能なメモリ及び計算能力が少ないために著しく制限される。しかしながら、主に、背景ノイズ、ユーザのなまりのような移動体ユーザに直面する環境的課題、ならびに高品質のオーディオを提供できないマイクロフォンのようなコスト効率的なハードウェアのために、音声認識の精度は劣っている。

米国特許第7,027,987号(’987特許)は、検索エンジンの音声インターフェース方法を開示している。しかしながら、’987特許の発明者は、彼らの論文において、実験の結果、発話された単語を正しく認識できたのはわずか60%の時間に過ぎないことを報告した。Alex Franz and Brian Milch. Searching the Web by Voice(音声によるウェブ検索)、 Proc. 19th International Conference non Computational Linguistics, 1213-1217 (2002) を参照のこと。

したがって、発話された単語を非常に高い精度で認識することを維持しつつ、種々のアプリケーションを実行することができる、音声制御型のワイヤレス通信デバイスを提供することが望まれている。

本発明のワイヤレス通信デバイスは、エンド・ユーザからの記録されたオーディオ・データを受け入れる。オーディオ・データは、行為を要求するコマンドの形態とすることができる。この行為は、電子メールの送付、約束の予定組み入れ、通話開始、インターネット検索、MP3歌曲のようなマルチメディア・ファイルの再生、あるいはスポーツの得点又は株式見積もりのようなニュース関連情報の要求というような、デバイス上で手動で行われる。同様に、オーディオ・データは、テキスト・ファイルに変換するテキストであり、メモ、手紙、又はその他のテキスト・データとして保持することができる。オーディオ・データを、.wav、.mp3、vnfファイル等のような、デバイスのハードウェアが対応するフォーマットのディジタル音声データに還元(reduce)する。更に処理するために、保証のある(secured)又は保証のない(unsecured)ワイヤレス通信を通じて1又は複数のサーバ・コンピュータにディジタル声音ファイルを送る。サーバ・コンピュータは、通例、通信デバイスに電話及び電子メール・アクセスを提供するのと同じ電気通信サービスによって管理されている。一旦オーディオ・データを認識したなら、サーバは、アプリケーション・コマンド又はテキスト・ファイルを組み立てることによってデータを処理し、その結果得られた情報を、適正な実行のために、ワイヤレス・デバイスに送る。

音声認識のためにオーディオ・データをサーバに移送することにより、一層強力な音声認識エンジンによって要求を処理することが可能になる。しかしながら、これでは、解釈しようとするデータの品質は改善しない。多くの研究や失敗したシステムが証明しているように(http://www.cs.berkeley.edu%7Emilch/papers/gvs.pdf)、オーディオの品質が劣ると、音声認識が最良であっても、高精度の結果は得られない。このために、ユーザはシステムを使用するのを止めてしまう。

このため、本発明は、音声認識を実行するサーバ・コンピュータのパワーを利用するだけでなく、音声認識プロセスの信頼性レベルも評価することによって、単語認識精度の問題を克服する。信頼性レベルが高い場合、システムはアプリケーション・コマンドを自動的に組み立てるか、又は通信デバイスに送信するためにテキスト・ファイルを作成する。逆に、音声認識の信頼度が低い場合、電気通信サービスが雇っている転記者に、記録したオーディオ・データ・ファイルを引き渡し、転記者が手作業でディジタル声音ファイルを見直し、アプリケーション・コマンド又はテキスト・ファイルを組み立てる。一旦アプリケーション・コマンドを作成したならば、これを通信デバイスに送信する。本発明の結果、通信デバイスに関する音声認識では、90%以上の時間で高精度であることが示された。

ワイヤレス通信デバイス用の音声制御システムを図1に示す。本システムは、1又は複数のサーバ・コンピュータ20とワイヤレスで通信するハンドヘルド通信デバイス10を備えている。通信デバイス10は、少なくともプログラムを実行することができるものである。プログラムのことをアプリケーションとも称する。また、通信デバイス10は、マイクロフォンのような、オーディオ記録能力も有し、ユーザからの声音コマンドの形態のオーディオ・データを記録し、記録声音コマンド・ファイル30としてコマンドを保存することができる。

通信デバイス10のユーザは、デバイス10上にある声音コマンド・アプリケーションにアクセスし、デバイス10を制御するためのコマンドを、デバイスのマイクロフォンに向かって発する。デバイス10は、声音コマンドを記録し、記録声音コマンド・ファイル30を作成する。デバイス10は、任意に、記録声音コマンド・ファイルを、今後の使用のために内部に格納することができる。次いで、通信デバイス10は、記録声音コマンド・ファイル30をワイヤレスでサーバ・コンピュータ20に送り、サーバの応答を待つ。

記録声音コマンド・ファイル30を受信すると、サーバ・コンピュータ20は一連のプログラム・モジュールを実行して、記録声音コマンド・ファイル30を処理する。最初に、サーバ・コンピュータ20は、記録声音コマンド・ファイル30に対して音声認識(ボックス40)を実行し、解釈声音コマンド50を生成する。多数のサーバが同時に音声認識プロセスを実行している場合、システムは、個々のサーバのアクティビティ(activities)を含むが、限定されない種々のパラメータに基づいて、音声認識を記録声音コマンド・ファイル30に指令するサーバ・コンピュータ20をどれにするか決定する。サーバ・コンピュータ20は、記録声音コマンド・ファイル30を今後の使用のために内部に格納することができる。サーバ・コンピュータ20は、音声認識プロセスの信頼度レベルを評価して(ボックス60)、音声認識の精度を判定する。信頼度レベルが既定レベル以上である場合、サーバ20は機械読み取り可能コマンドの自動作成を呼び出して、アプリケーション・コマンド80を作成する(ボックス70)。

一方、音声認識プロセス(ボックス40)の信頼度レベルが既定レベルに満たない場合、機械読み取り可能コマンドの手作業による見直し及び作成(ボックス90)のために、サーバ20は記録声音コマンド・ファイル30を転記者に引き渡す。
機械読み取り可能コマンド(ボックス80)を作成したならば、サーバ・コンピュータ20は、アプリケーション・コマンド(ボックス80)を通信デバイス10に送信する。通信デバイス10は、受信したアプリケーション・コマンドを実行するために、適正なアプリケーションに送出する。

通信デバイス10は、今日入手可能な多くの類似した種類のデバイスの1つとすることができる。典型的な通信デバイス10は、種々のアプリケーションを実行することができる。これらのアプリケーションは、限定ではなく、ワイヤレス電話通信、ワイヤレス電子メール、カレンダ作成、連絡先リスト、ワイヤレス・インターネット・ウェブ閲覧、及びマルチメディア・プレゼンテーションを含む。通例、アプリケーションを書く言語は、C++、Symbian、Java、Linux等のように、ネイティブなデバイス・ハードウェアが対応することができる。加えて、デバイス10は、デバイスの販売業者が提供するアプリケーション以外のアプリケーションも実行することができる。

図2は、通信デバイス上での声音コマンド・アプリケーションの実行を示している。ユーザは、種々の方法でアプリケーションを起動する(ボックス100)が、アプリケーションを開始するデバイス上のボタンを押下することが好ましい。アプリケーションは、ユーザに発語コマンドのようなオーディオ記録を促し、これを受け取り(ボックス110)、.wav、.mp3、又はvnfファイルのような、デバイスが対応するフォーマットで、記録声音コマンド・ファイル130として保存する。用いるハードウェアに基づいて、他のファイル・フォーマットが好ましいこともある。ユーザが声音コマンドを記録しているときに、アプリケーションは任意に可能なコマンドのリストを呈示することができる(ボックス105)。

次に、デバイスは、サーバ・コンピュータとのワイヤレス・データ接続を確立し、記録声音コマンド・ファイル130をサーバに送信する。接続は、ユーザの、そしてシステム管理者の好みに基づいて、保証のある又は保証のない通信のどちらでもよい。好ましくは、デバイスは、サーバが応答する(ボックス140)まで、サーバ・コンピュータとの接続を維持する。場合によっては、応答に要する時間が長すぎて、応答を受信する前にデータ接続が終了する可能性もある。このような場合、デバイス又はサーバは、後の時点に通信を再度確立して、アプリケーション・コマンド(ボックス180)の形態でサーバの応答を送信(又は受信)し、接続を終了する。

通信デバイスは、アプリケーション・コマンド・ファイル180を受信し、通信デバイスが取らなければならない行為を決定するように、アプリケーション・コマンドに質問する。アプリケーション・コマンド・ファイル180に基づいて、実行のためにしかるべきアプリケーションにコマンドを送出する(ボックス160)。

更に、声音コマンドに基づいて、アプリケーションの実行を特定のコンテンツ・プロバイダに指令することができる。例えば、インターネット・コンテンツの要求が、インターネット上にある多数のソースから来る可能性がある。システムを実行する電気通信サービスは、インターネット・コンテンツ・プロバイダと、このような要求全てをそのインターネット・コンテンツ・プロバイダに送出することに同意することができる。このような同意は、電気通信サービスにとっては金銭的に利益となることができる。同様に、ユーザは、使用するインターネット・コンテンツ・プロバイダに好みがある可能性があり、そのプロバイダをこのようなソースとして予め定義しておくことができる。

オーディオ記録が声音コマンドである場合、声音コマンドは、全てのコマンドが従う標準的フォーマットを有することが好ましい。声音コマンドのフォーマットを標準化することにより、追加コマンドを実施し易くすることできる。声音コマンドは、コマンドの種類を識別するキー・フレーズ(key phrase)で始まるとよい。キー・フレーズの例には、限定ではなく、「連絡先に発呼」、「電子メール」、「ウェブ検索」、「ムービー発見「、又は「歌曲再生」が含まれる。キー・フレーズの次には、声音コマンドの種類に基づいて、追加のパラメータがある。例えば、キー・フレーズが「連絡先に発呼」である場合、追加パラメータは、連絡先の名称になる。更に精巧な例では、電子メール・コマンドを含むことができ、この電子メール・コマンドは、連絡先の名称、電子メール・アドレス、主題、及び本文のような、追加のパラメータを多数含む。一部のパラメータはパラメータ・フレーズ(電子メール声音コマンドにたいする「主題」等)で始めることもでき、あるいは、キー・フレーズ「連絡先に発呼」に続く連絡先の名称におけるように、パラメータ・フレーズを用いずに、単にキー・フレーズに添付してもよい。

一旦ユーザが声音コマンドを通信デバイスに向けて発語すると、デバイスは、サーバ・コンピュータに送信するために、記録した声音コマンドをしかるべきディジタル・ファイル・フォーマットで保存する。任意に、システムは、どの通信デバイスから記録声音コマンドを受信したかを示す一意のデバイス識別子を添付することもできる。一意のデバイス識別子に基づいて、システムは、以下に述べる追加の有用な情報を識別することができる。

連絡先リストを通信デバイスに保持する場合、記録したオーディオ・ファイルと共にこのリストを周期的に送信し、サーバ・コンピュータ上で維持することができる。保存した連絡先リストは、音声変換の精度を高めるために用いられる。このリストは、音声認識プロセスが、連絡先リストからの入力を必要とする声音コマンドの自動変換において補助するために用いられる。加えて、声音コマンドを見直しのために転記者に送る場合、転記者は特定のユーザの連絡先リストにアクセスすることができ、あるいは連絡先リストを自動的に転記者に呈示することができる。

連絡先リストをサーバ・コンピュータに送る場合、必要に応じてリストを操作することができる。例えば、サーバ・コンピュータは、中間名の頭文字がある連絡先名及び中間名の頭文字がない連絡先名の双方を管理し、中間名の頭文字がないレコードが再度中間名の頭文字があるレコードに転換することができる。例えば、連絡先リストではRobert Smithとなっている連絡先をユーザが要求したが、データベースにはRobert T. Smithというレコードしかない場合、システムはRobert T. Smithを発見し、その結果をユーザに戻すことができる。

図3は、通信デバイスから送信する記録声音コマンド・ファイルのサーバ・コンピュータの処理を示す。サーバ・コンピュータ、及び声音コマンドの処理全ては、通例、通信デバイスにワイヤレス通信を提供する電気通信サービスによって制御する。通信デバイスは、サーバ・コンピュータとのワイヤレス・データ接続を確立し、記録声音コマンド・ファイルをサーバ・コンピュータ200に送信する。サーバ・コンピュータは、記録声音コマンド・ファイル230に対して音声認識を行う(ボックス210)。Nuance, Inc.,から入手可能なDragon Naturally Speakingのような市販の音声認識プログラムを用いることができ、あるいは汎用の音声認識プログラムを用いることもできる。音声認識プロセスの結果、解釈声音コマンド・ファイル250が作成される。音声認識ソフトウェアは、声音コマンドの高精度認識のソフトウェア信頼度を測定する信頼度レベルを提供できなければならない。このような信頼度測定は、通例、認識プロセスに組み込まれている。

限界信頼度レベル、即ち、認識プロセスの信頼度が不十分な場合に追加の処理を行わなければならないレベルは、システム・アドミニストレータ又はシステム自体で調節することができる。音声認識の結果得られた信頼度レベルが限界信頼度レベル以上の場合、音声認識プロセス210からの解釈した声音コマンド(ボックス250)を用いて、アプリケーション・コマンド(280)を自動的に作成する(ボックス240)。逆に、音声認識の結果得られた信頼度レベルが限界信頼度レベルに満たない場合、記録声音コマンド・ファイル230を転記者に引き渡し、機械読み取り可能コマンド・ファイル280を手作業で作成する。

機械読み取り可能コマンド・ファイル80は、XMLのような標準フォーマットとするとよい。標準フォーマットによって、新しいコマンドを含めやすくすることができる。例えば、声音コマンドが「連絡先Bob Jonesに発呼する」である場合、システムは「連絡先に発呼する」をキー・フレーズとして特定し、通話型のXMLコードを組み立てる(例えば、<commandtype> call)。コマンド形式が分かると、システムは次に名前を解析し、XMLコードを作成する(例えば、<contact> Bob Jones)。このように、アプリケーション・コマンド・ファイル280は、<commandtype> call <contact> Bob Jonesとなる。当業者には他のフォーマットも周知であり、XMLフォーマットの代わりに容易に用いることができる。

一旦アプリケーション・コマンド・ファイル280を作成したならば、それを作成するために採用したプロセスには係わらず、サーバ・コンピュータはファイル280を、確立したワイヤレス・データ接続を通じて、通信デバイスに戻す。前述のように、データ接続が既に終了している場合、サーバ・コンピュータは、ファイル280を通信デバイスに送信するために、接続を再度確立することができる。

図4は、1つの音声認識プロセスの代わりに、異なる音声認識プロセスを同時に用いた、本発明の別の実施形態を示す。この方法は、異なる音声認識システムにおける差を利用して、最も精度が高い音声認識を得る。全ての音声認識プロセス(ボックス310)が完了すると、システムは各プロセスの信頼度レベルを評価する(ボックス320)。音声認識プロセス(ボックス310)の信頼度レベルの少なくとも1つが限界信頼度レベル以上である場合、システムは、信頼度レベルが最も高い解釈声音コマンド・ファイルを選択し(ボックス340)、この解釈声音コマンド・ファイル395に基づいて自動的にアプリケーション・コマンドを作成する(ボックス390)。限界信頼度レベル以上の信頼度レベルが得られたプロセスが1つもない場合、記録声音コマンドを転記者に引き渡し、アプリケーション・コマンドを手作業で作成する(ボックス360)。

追加のコンテンツ指向音声認識プロセス(ボックス335)を必要としてもよい。コンテンツ指向音声認識プロセス(ボックス335)は、法律用語集のような特定の用語集、又はスペイン語用語集のような特定の言語を用いるプロセスである。初期音声認識プロセス(ボックス310)の結果に基づいて、そして音声認識プロセスが限界信頼度レベルよりも高い場合(ボックス320)と、記録声音コマンドは、コンテンツ指向音声認識プロセス(ボックス335)による追加処理を必要とすると判断することができる。同様に、追加のコンテンツ指向音声認識プロセス(ボックス335)を、ユーザが選択した追加のコンテンツ指向音声認識プロセスに基づいて呼び出してもよい。本システムは、エンコードした一意の識別子に基づいて、個々のユーザが必要とした追加のコンテンツ指向音声認識プロセスは何か判断することができる。

本発明の一実施形態では、記録声音コマンド・ファイルを転記者に引き渡す場合、システムは記録声音コマンド・ファイルを最も適した転記者に送出しようとする。適した転記者の選択は、ユーザが定義した多数の判断基準に基づくことができる。例えば、システムは個々の転記者の作業負荷を評価して、最も暇な転記者にファイルを割り当てることができる。他の選択肢は、コマンドの種類を判定して、その特定の種類のコマンドに最も適した転記者に記録声音コマンド・ファイルを割り当てることである。これは、電子メール・コマンドのように、コマンドが大量のタイプ入力を必要とする可能性がある場合に、特に有用である。電子メール・コマンドは、通例、電子メールの本文のように、タイプ入力する追加情報を必要とする。つまり、タイプ入力しなければならない量が多い程、優れたタイピストと認められている転記者に送出する。

また、記録声音コマンド・ファイルは、声音コマンドを作成したユーザと過去に経験がある転記者に送出することもできる。一意の識別子を任意に各記録声音コマンド・ファイルに添付するので、システムは、声音コマンドを記録したユーザからの声音コマンドを以前に見直したことがある転記者を判定することができる。方言やなまりのために、同じユーザからの声音コマンドを同じ転記者に見直させることが望ましい場合もある。このようにして、転記者はユーザのなまりに馴染んで行き、今後の転記がこの転記者にとって容易になっていく。

また、コマンドのタイムラインに基づいて、コマンドに優先順位を付けることもできる。例えば、発呼するコマンドのように、直ちに応答が必要なコマンドの優先度を高くし、したがって、電子メールを送るためのような、通例直ちに応答を必要としないコマンドよりも素早く転記者に割り当てる。

記録声音コマンド・ファイルが転記者に引き渡されたならば、転記者には自動画面を呈示することができる。この画面は、ユーザの過去の履歴やこの転記者による処理を促進するように設計された別の音声技法を含む、転記者のための視覚的糸口(visual clue)を含む。転記者が手作業でアプリケーション・コマンド・ファイルを作成した後、転記者にユーザの音声認識文法ファイルを更新するように、システムによって促すことができる。文法ファイルは、声音コマンドを認識する際に、音声認識プロセスを補助する。これについては、以下で更に詳しく説明する。

別の実施形態を図5に示す。この実施形態では、ユーザは、例えば、注釈、手紙、メモ、防備録として保存するテキスト情報を記録し、得られたテキスト・ファイルを通信デバイス410に格納する。これまでの実施形態と同様、オーディオ・データを記録オーディオ・ファイル430に格納し、サーバ・コンピュータ420に送信する。音声認識サーバ・モジュール(ボックス440)によって記録オーディオ・ファイル430を処理して、テキスト・ファイル450を作成する。サーバ・コンピュータ420は、音声認識プロセスの信頼度レベルを評価し(ボックス460)、音声認識の精度を判定する。信頼度レベルが既定レベル以上である場合、自動的に作成したテキスト・ファイル450をサーバ・モジュール480に転送し、通信デバイス410に送信する。逆に、音声認識プロセス(ボックス440)の信頼度レベルが既定レベルに満たない場合、サーバ420は記録オーディオ・ファイル430を転記者に引き渡し、手作業で見直してテキスト・ファイル455を作成する(ボックス455)。

テキスト・ファイル450又は455を作成するために用いる方法には関係なく、テキスト・ファイルは、既に確立してあるワイヤレス・データ接続に沿って送信する(ボックス480)。一旦通信デバイス410に返されると、テキスト・ファイルを通信デバイスに保存し、ノートブック、又はワード・プロセッサのような、テキスト・データの表示に適したアプリケーションを用いて表示することができる。

別の実施形態では、本システムは1又は複数のアプリケーション・プログラム・インターフェースを有し、これらは、声音コマンドの種類を判定して、アプリケーション・コマンドの作成を他の組織に指令することができる。このように、通信デバイス上で実行するアプリケーションに一意の、それ自体の声音コマンド集合を組織が構築することができる。これは、組織が容易にアクセス可能にすることができる情報を有するが、本システムを利用する電気通信サービスにこの情報を入手可能にしたくない、又はすることができない場合に有利である。例えば、販売組織が、通信デバイスを通じて販売陣に会社の機密情報へのアクセスを与えたいが、電気通信デバイスにはこの情報をアクセス可能にはしたくない場合がある。声音コマンドがこれら特殊な種類のコマンドの1つであるとシステムが判断した場合、記録声音コマンド・ファイルを組織に転送し、アプリケーション・コマンド・ファイルを作成する。その結果得られたアプリケーション・コマンド・ファイルは、当業者には周知の広く知られている暗号方法論のいずれかを用いて暗号化することが好ましい。暗号化したアプリケーション・コマンド・ファイルを再度電気通信デバイスに転送し、通信デバイスに送信する。一旦通信デバイス上で受信すると、暗号化したアプリケーション・コマンドを、組織が提供する通信デバイス上の一意のアプリケーションに送出する。

別の実施形態では、記録声音コマンドに添付した通信デバイスの一意の識別子を用いて、声音コマンドを発語するユーザを特定する。つまり、サーバ・コンピュータが通信デバイスから記録声音コマンドを受信すると、システムはユーザが誰か、そして電気通信サービスによる声音コマンド・サービスを受ける適格性がユーザにあるか否か判定することができる。加えて、音声認識プロセスは、特定のユーザに作成したユーザの文法ファイルにアクセスすることができる。文法ファイルは、ユーザの音声パターンの例を収容し、音声認識プロセスにおいて補助するために用いることができる。特定のユーザに合わせた文法ファイルは、当技術分野では周知であり、殆どの市販の音声認識システムの標準的な構成要素である。文法ファイルの構築は、ユーザによって行うことができ、あるいは転記者が前述のように文法ファイルを作成することもできる。

本発明に係るワイヤレス通信システムのブロック図である。 本発明に係る、通信デバイス上で実行される声音コマンド・アプリケーションの動作を示すブロック図である。 本発明に係る、通信デバイスからの声音コマンド・ファイルを処理するサーバの動作を示すフロー図である。 本発明の別の実施例に係る、同時スピーチ認識プロセスの使用を示すフロー図である。 本発明の別の実施例に係る、テキスト・ファイルとして通信デバイス上に格納されるテキスト情報の使用を示すフロー図である。

Claims (1)

  1. コンピュータ・サーバにおいて実行される方法であって、ワイヤレス通信デバイス上でアプリケーションを実行するための機械読み取り可能なアプリケーション・コマンドを、前記ワイヤレス通信デバイスからのオーディオ・データに対応して生成して返送する方法において、
    ワイヤレス通信デバイスからオーディオ・データを受信し、複数の音声認識処理を実行して該オーディオ・データに対応する複数の解釈音声コマンド・ファイルを生成させるステップと、
    前記音声認識処理のそれぞれの音声認識の結果の信頼度レベルを受け取るステップと、
    前記音声認識処理の全ての前記信頼度レベルを受け取ったとき、
    少なくとも1つの信頼度レベルが所定の限界値以上の場合に、最も高い信頼度レベルに対応する解釈音声コマンド・ファイルを選択し、該選択された解釈音声コマンド・ファイルに基づいて、前記ワイヤレス通信デバイス上でアプリケーションを実行するための機械読み取り可能なアプリケーション・コマンドを生成するステップと、
    全ての信頼度レベルが前記限界値未満の場合に、前記オーディオ・データを転記者に送信し、該転記者から、前記オーディオ・データに対応し、かつ前記ワイヤレス通信デバイス上でアプリケーションを実行するための機械読み取り可能なアプリケーション・コマンドを受信するステップと、
    生成されたアプリケーション・コマンド又は前記転記者から受信したアプリケーション・コマンドを、前記ワイヤレス通信デバイスに送信するステップと
    を備えていることを特徴とする方法。
JP2008526224A 2005-08-09 2006-08-09 音声制御型ワイヤレス通信デバイス・システム Expired - Fee Related JP5394738B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US70680605P true 2005-08-09 2005-08-09
US60/706,806 2005-08-09
PCT/US2006/031334 WO2007092044A1 (en) 2005-08-09 2006-08-09 Use of multiple speech recognition software instances

Publications (2)

Publication Number Publication Date
JP2009505140A JP2009505140A (ja) 2009-02-05
JP5394738B2 true JP5394738B2 (ja) 2014-01-22

Family

ID=38023732

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2008526224A Expired - Fee Related JP5394738B2 (ja) 2005-08-09 2006-08-09 音声制御型ワイヤレス通信デバイス・システム
JP2008526257A Active JP5394739B2 (ja) 2005-08-09 2006-08-09 音声制御型ワイヤレス通信デバイス・システム
JP2008526207A Active JP5320064B2 (ja) 2005-08-09 2006-08-09 音声制御型ワイヤレス通信デバイス・システム

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2008526257A Active JP5394739B2 (ja) 2005-08-09 2006-08-09 音声制御型ワイヤレス通信デバイス・システム
JP2008526207A Active JP5320064B2 (ja) 2005-08-09 2006-08-09 音声制御型ワイヤレス通信デバイス・システム

Country Status (6)

Country Link
US (7) US7957975B2 (ja)
EP (3) EP1920432A4 (ja)
JP (3) JP5394738B2 (ja)
CN (3) CN101366075B (ja)
CA (3) CA2618547C (ja)
WO (3) WO2007092044A1 (ja)

Families Citing this family (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9037451B2 (en) * 1998-09-25 2015-05-19 Rpx Corporation Systems and methods for multiple mode voice and data communications using intelligently bridged TDM and packet buses and methods for implementing language capabilities using the same
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8239197B2 (en) * 2002-03-28 2012-08-07 Intellisist, Inc. Efficient conversion of voice messages into text
US20150371629A9 (en) * 2005-01-03 2015-12-24 Luc Julia System and method for enabling search and retrieval operations to be performed for data items and records using data obtained from associated voice files
CN101366075B (zh) 2005-08-09 2016-04-20 移动声控有限公司 话音控制式无线通信装置系统的控制中心
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9086737B2 (en) * 2006-06-15 2015-07-21 Apple Inc. Dynamically controlled keyboard
US20080063156A1 (en) * 2006-08-28 2008-03-13 Sony Ericsson Mobile Communications Ab System and method for coordinating audiovisual content with contact list information
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9794348B2 (en) * 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US9026447B2 (en) * 2007-11-16 2015-05-05 Centurylink Intellectual Property Llc Command and control of devices and applications by voice using a communication base system
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
CN101474132B (zh) * 2008-01-03 2011-11-09 仝小林 煎煮中药用的中药先煎后下机构
US8067701B2 (en) * 2008-01-07 2011-11-29 Apple Inc. I/O connectors with extendable faraday cage
US20090234655A1 (en) * 2008-03-13 2009-09-17 Jason Kwon Mobile electronic device with active speech recognition
US8676577B2 (en) * 2008-03-31 2014-03-18 Canyon IP Holdings, LLC Use of metadata to post process speech recognition output
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
JP2010008601A (ja) * 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8110744B2 (en) * 2008-08-19 2012-02-07 Apple Inc. Flexible shielded cable
CN101780011B (zh) * 2009-01-20 2013-11-13 仝小林 一种中药煎煮装置
CN101502476B (zh) * 2009-03-12 2012-03-21 陈国涛 一种中药元素提取壶
CN101564352B (zh) * 2009-05-26 2012-07-04 上海大学 便捷可调式中药煎锅
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9865263B2 (en) * 2009-12-01 2018-01-09 Nuance Communications, Inc. Real-time voice recognition on a handheld device
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8645136B2 (en) * 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
CN101884594B (zh) * 2010-07-21 2012-08-22 朱梅如 电动晃动和提液为一体装置的中药煎药机
US9472185B1 (en) 2011-01-05 2016-10-18 Interactions Llc Automated recognition system for natural language understanding
JP6025785B2 (ja) * 2013-07-08 2016-11-16 インタラクションズ リミテッド ライアビリティ カンパニー 自然言語理解のための自動音声認識プロキシシステム
US9245525B2 (en) 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9620122B2 (en) * 2011-12-08 2017-04-11 Lenovo (Singapore) Pte. Ltd Hybrid speech recognition
US9931116B2 (en) 2012-02-10 2018-04-03 Covidien Lp Buttress composition
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
US9002702B2 (en) 2012-05-03 2015-04-07 International Business Machines Corporation Confidence level assignment to information from audio transcriptions
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9715879B2 (en) * 2012-07-02 2017-07-25 Salesforce.Com, Inc. Computer implemented methods and apparatus for selectively interacting with a server to build a local database for speech recognition at a device
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20140072927A (ko) * 2012-11-15 2014-06-16 엘지전자 주식회사 이동 단말기 및 이의 제어방법
TWI515719B (zh) * 2012-12-28 2016-01-01 財團法人工業技術研究院 基於目標名稱辨識之共用語音操控方法、裝置、其記錄媒體與程式產品
US9894312B2 (en) 2013-02-22 2018-02-13 The Directv Group, Inc. Method and system for controlling a user receiving device using voice commands
US9384732B2 (en) * 2013-03-14 2016-07-05 Microsoft Technology Licensing, Llc Voice command definitions used in launching application with a command
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10186262B2 (en) * 2013-07-31 2019-01-22 Microsoft Technology Licensing, Llc System with multiple simultaneous speech recognizers
US9646613B2 (en) 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
US20150278737A1 (en) * 2013-12-30 2015-10-01 Google Inc. Automatic Calendar Event Generation with Structured Data from Free-Form Speech
US20170004829A1 (en) * 2014-01-06 2017-01-05 Ntt Docomo, Inc. Terminal apparatus, program, and server apparatus for providing information according to user data input
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10418034B1 (en) 2014-06-20 2019-09-17 Nvoq Incorporated Systems and methods for a wireless microphone to access remotely hosted applications
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9548066B2 (en) * 2014-08-11 2017-01-17 Amazon Technologies, Inc. Voice application architecture
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
CN105096952A (zh) * 2015-09-01 2015-11-25 联想(北京)有限公司 一种语音识别的辅助处理方法和服务器
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
CN105446489B (zh) 2015-12-08 2017-09-22 广州神马移动信息科技有限公司 语音双模控制方法、装置及用户终端
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10484484B2 (en) 2016-02-05 2019-11-19 International Business Machines Corporation Context-aware task processing for multiple devices
US10044798B2 (en) 2016-02-05 2018-08-07 International Business Machines Corporation Context-aware task offloading among multiple devices
WO2017138777A1 (en) * 2016-02-12 2017-08-17 Samsung Electronics Co., Ltd. Method and electronic device for performing voice based actions
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US9619202B1 (en) 2016-07-07 2017-04-11 Intelligently Interactive, Inc. Voice command-driven database
KR20180022021A (ko) * 2016-08-23 2018-03-06 삼성전자주식회사 음성 인식 방법 및 이를 수행하는 전자 장치
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10360914B2 (en) * 2017-01-26 2019-07-23 Essence, Inc Speech recognition based on context and multiple recognition engines
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
KR20180101926A (ko) * 2017-03-06 2018-09-14 삼성전자주식회사 전자 장치 및 전자 장치의 어플리케이션 제어 방법
CN106936908A (zh) * 2017-03-10 2017-07-07 广州华多网络科技有限公司 一种基于web的语音告警方法及相关装置
KR20180109631A (ko) * 2017-03-27 2018-10-08 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
US10547729B2 (en) 2017-03-27 2020-01-28 Samsung Electronics Co., Ltd. Electronic device and method of executing function of electronic device
KR20180109625A (ko) * 2017-03-28 2018-10-08 삼성전자주식회사 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. User interface for correcting recognition errors
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
KR20190007504A (ko) * 2017-05-16 2019-01-22 애플 인크. 디지털 어시스턴트 서비스의 원거리 확장
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance

Family Cites Families (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5153905A (en) 1989-11-27 1992-10-06 Dictaphone Corporation Priority voice message delivery system
CN1020365C (zh) * 1991-08-15 1993-04-21 北京海淀志远开发公司 用户电话交换机自动应答、转接的方法和装置
WO1994014270A1 (en) * 1992-12-17 1994-06-23 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US6594628B1 (en) * 1995-09-21 2003-07-15 Qualcomm, Incorporated Distributed voice recognition system
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
GB2323693B (en) * 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
WO1999021172A2 (en) * 1997-10-20 1999-04-29 Koninklijke Philips Electronics N.V. Pattern recognition enrolment in a distributed system
US6151572A (en) * 1998-04-27 2000-11-21 Motorola, Inc. Automatic and attendant speech to text conversion in a selective call radio system and method
US6614885B2 (en) * 1998-08-14 2003-09-02 Intervoice Limited Partnership System and method for operating a highly distributed interactive voice response system
US6839410B2 (en) * 1998-09-01 2005-01-04 At&T Corp. Method and apparatus for setting user communication parameters based on voice identification of users
US6167251A (en) * 1998-10-02 2000-12-26 Telespree Communications Keyless portable cellular phone system having remote voice recognition
US8275617B1 (en) * 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
FI116991B (fi) * 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
US6643622B2 (en) * 1999-02-19 2003-11-04 Robert O. Stuart Data retrieval assistance system and method utilizing a speech recognition system and a live operator
US6243684B1 (en) * 1999-02-19 2001-06-05 Usada, Inc. Directory assistance system and method utilizing a speech recognition system and a live operator
DE19910234A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren mit mehreren Spracherkennern
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
GB9911971D0 (en) * 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
US6865258B1 (en) * 1999-08-13 2005-03-08 Intervoice Limited Partnership Method and system for enhanced transcription
US6738803B1 (en) * 1999-09-03 2004-05-18 Cisco Technology, Inc. Proxy browser providing voice enabled web application audio control for telephony devices
US6990514B1 (en) * 1999-09-03 2006-01-24 Cisco Technology, Inc. Unified messaging system using web based application server for management of messages using standardized servers
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP3444486B2 (ja) * 2000-01-26 2003-09-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識手段を使用する自動音声応答システムおよび方法
US6438215B1 (en) 2000-02-29 2002-08-20 Ameritech Corporation Method and system for filter based message processing in a unified messaging system
US6578007B1 (en) * 2000-02-29 2003-06-10 Dictaphone Corporation Global document creation system including administrative server computer
US6760699B1 (en) * 2000-04-24 2004-07-06 Lucent Technologies Inc. Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels
US6778961B2 (en) * 2000-05-17 2004-08-17 Wconect, Llc Method and system for delivering text-to-speech in a real time telephony environment
WO2001097213A1 (en) * 2000-06-12 2001-12-20 L & H Holdings Usa, Inc. Speech recognition using utterance-level confidence estimates
US6621892B1 (en) * 2000-07-14 2003-09-16 America Online, Inc. System and method for converting electronic mail text to audio for telephonic delivery
US7624010B1 (en) * 2000-07-31 2009-11-24 Eliza Corporation Method of and system for improving accuracy in a speech recognition system
JP2002150039A (ja) * 2000-08-31 2002-05-24 Hitachi Ltd サービス仲介装置
US7236932B1 (en) * 2000-09-12 2007-06-26 Avaya Technology Corp. Method of and apparatus for improving productivity of human reviewers of automatically transcribed documents generated by media conversion systems
JP2002116796A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
US6980953B1 (en) * 2000-10-31 2005-12-27 International Business Machines Corp. Real-time remote transcription or translation service
JP2002140243A (ja) * 2000-10-31 2002-05-17 Arcadia:Kk ネットワークシステム、処理管理装置
JP2002182691A (ja) * 2000-12-14 2002-06-26 Matsushita Electric Ind Co Ltd 音を出力する機器を制御する制御装置
US6671354B2 (en) * 2001-01-23 2003-12-30 Ivoice.Com, Inc. Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs, for telephones without private branch exchanges
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US20020178003A1 (en) * 2001-03-09 2002-11-28 Motorola, Inc. Method and apparatus for providing voice recognition service to a wireless communication device
US7593920B2 (en) * 2001-04-04 2009-09-22 West Services, Inc. System, method, and software for identifying historically related legal opinions
US20020152071A1 (en) * 2001-04-12 2002-10-17 David Chaiken Human-augmented, automatic speech recognition engine
US6760705B2 (en) * 2001-05-31 2004-07-06 Motorola, Inc. Virtual speech interface system and method of using same
US6701293B2 (en) * 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
US20030046350A1 (en) * 2001-09-04 2003-03-06 Systel, Inc. System for transcribing dictation
WO2003023558A2 (en) * 2001-09-06 2003-03-20 Copytalk, Llc System and method for remote delivery of email
US20030050783A1 (en) * 2001-09-13 2003-03-13 Shinichi Yoshizawa Terminal device, server device and speech recognition method
US7313525B1 (en) * 2001-09-26 2007-12-25 Sprint Spectrum L.P. Method and system for bookmarking navigation points in a voice command title platform
US20030065724A1 (en) * 2001-09-28 2003-04-03 Openwave Systems Inc. Managing messages in unified messaging systems
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
JP2003140691A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US8170197B2 (en) * 2002-03-15 2012-05-01 Intellisist, Inc. System and method for providing automated call center post-call processing
US7099825B1 (en) * 2002-03-15 2006-08-29 Sprint Communications Company L.P. User mobility in a voice recognition environment
US8239197B2 (en) * 2002-03-28 2012-08-07 Intellisist, Inc. Efficient conversion of voice messages into text
US7330538B2 (en) * 2002-03-28 2008-02-12 Gotvoice, Inc. Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
JPWO2003093766A1 (ja) * 2002-04-30 2005-09-08 株式会社日立製作所 通信型ナビゲーションシステムおよびナビゲーション方法
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7502737B2 (en) * 2002-06-24 2009-03-10 Intel Corporation Multi-pass recognition of spoken dialogue
US7421390B2 (en) * 2002-09-13 2008-09-02 Sun Microsystems, Inc. Method and system for voice control of software applications
US7184957B2 (en) * 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system
US7016844B2 (en) * 2002-09-26 2006-03-21 Core Mobility, Inc. System and method for online transcription services
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
JP4059059B2 (ja) * 2002-10-29 2008-03-12 日産自動車株式会社 情報取得装置および情報提供システム
US6714631B1 (en) * 2002-10-31 2004-03-30 Sbc Properties, L.P. Method and system for an automated departure strategy
CA2419526A1 (en) * 2002-12-16 2004-06-16 John Taschereau Voice recognition system
JP2004198597A (ja) * 2002-12-17 2004-07-15 Advanced Telecommunication Research Institute International 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
US7822612B1 (en) * 2003-01-03 2010-10-26 Verizon Laboratories Inc. Methods of processing a voice command from a caller
US20040138885A1 (en) * 2003-01-09 2004-07-15 Xiaofan Lin Commercial automatic speech recognition engine combinations
US7426468B2 (en) * 2003-03-01 2008-09-16 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US20040181467A1 (en) 2003-03-14 2004-09-16 Samir Raiyani Multi-modal warehouse applications
US20040204941A1 (en) * 2003-03-28 2004-10-14 Wetype4U Digital transcription system and method
JP2004310692A (ja) * 2003-04-10 2004-11-04 Mitsubishi Electric Corp 障害解決支援装置
GB2422275B (en) * 2003-04-22 2007-03-14 Spinvox Ltd A method of providing voice-mails to a mobile telephone
JP2005003997A (ja) * 2003-06-12 2005-01-06 Toyota Infotechnology Center Co Ltd 音声認識装置および音声認識方法ならびに車両
US20040264677A1 (en) * 2003-06-30 2004-12-30 Horvitz Eric J. Ideal transfer of call handling from automated systems to human operators based on forecasts of automation efficacy and operator load
DE602004017024D1 (de) * 2003-08-29 2008-11-20 Johnson Controls Tech Co System und verfahren zum betrieb eines spracherkennungssystems in einem fahrzeug
US7917364B2 (en) * 2003-09-23 2011-03-29 Hewlett-Packard Development Company, L.P. System and method using multiple automated speech recognition engines
US7376561B2 (en) * 2004-02-23 2008-05-20 Louis Ralph Rennillo Real-time transcription system
US7340395B2 (en) * 2004-04-23 2008-03-04 Sap Aktiengesellschaft Multiple speech recognition engines
US20060004570A1 (en) * 2004-06-30 2006-01-05 Microsoft Corporation Transcribing speech data with dialog context and/or recognition alternative information
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US7437297B2 (en) * 2005-01-27 2008-10-14 International Business Machines Corporation Systems and methods for predicting consequences of misinterpretation of user commands in automated systems
US20060171775A1 (en) * 2005-01-31 2006-08-03 Mclaughlin Ronald Articulated torque rod with elastomer retainer
US7548977B2 (en) * 2005-02-11 2009-06-16 International Business Machines Corporation Client / server application task allocation based upon client resources
US8265930B1 (en) * 2005-04-13 2012-09-11 Sprint Communications Company L.P. System and method for recording voice data and converting voice data to a text file
US20060235684A1 (en) * 2005-04-14 2006-10-19 Sbc Knowledge Ventures, Lp Wireless device to access network-based voice-activated services using distributed speech recognition
CN101366075B (zh) 2005-08-09 2016-04-20 移动声控有限公司 话音控制式无线通信装置系统的控制中心
US8121838B2 (en) * 2006-04-11 2012-02-21 Nuance Communications, Inc. Method and system for automatic transcription prioritization
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks

Also Published As

Publication number Publication date
CN101366073A (zh) 2009-02-11
JP2009505142A (ja) 2009-02-05
US20130073294A1 (en) 2013-03-21
US20070156412A1 (en) 2007-07-05
EP1922717A4 (en) 2011-03-23
CA2618547C (en) 2014-02-18
EP1922717A1 (en) 2008-05-21
CA2618626A1 (en) 2007-05-31
US8812325B2 (en) 2014-08-19
CN101366075A (zh) 2009-02-11
CA2618547A1 (en) 2007-08-16
JP5394739B2 (ja) 2014-01-22
CA2618623C (en) 2015-01-06
WO2007061466A3 (en) 2007-11-01
CN101366073B (zh) 2016-01-20
US20110010170A1 (en) 2011-01-13
US8315878B1 (en) 2012-11-20
US8682676B2 (en) 2014-03-25
CN101366074A (zh) 2009-02-11
CA2618626C (en) 2016-10-18
EP1920432A2 (en) 2008-05-14
US20140163995A1 (en) 2014-06-12
US7822610B2 (en) 2010-10-26
JP2009505140A (ja) 2009-02-05
EP1922719A4 (en) 2011-03-16
US20070174058A1 (en) 2007-07-26
CA2618623A1 (en) 2007-05-18
US20070156411A1 (en) 2007-07-05
JP2009505139A (ja) 2009-02-05
US8775189B2 (en) 2014-07-08
EP1922719A2 (en) 2008-05-21
CN101366075B (zh) 2016-04-20
EP1920432A4 (en) 2011-03-16
WO2007092044A1 (en) 2007-08-16
WO2007055766A2 (en) 2007-05-18
US9293139B2 (en) 2016-03-22
WO2007061466A2 (en) 2007-05-31
CN101366074B (zh) 2013-09-04
JP5320064B2 (ja) 2013-10-23
US7957975B2 (en) 2011-06-07
WO2007055766A3 (en) 2007-11-22

Similar Documents

Publication Publication Date Title
US9911418B2 (en) Systems and methods for speech command processing
US10297252B2 (en) Predicting and learning carrier phrases for speech input
US9761241B2 (en) System and method for providing network coordinated conversational services
JP6285883B2 (ja) バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用
US9959129B2 (en) Headless task completion within digital personal assistants
US20190095050A1 (en) Application Gateway for Providing Different User Interfaces for Limited Distraction and Non-Limited Distraction Contexts
US8996375B1 (en) Speech interface system and method for control and interaction with applications on a computing system
US9189197B1 (en) Multiple shell multi faceted graphical user interface
EP2761860B1 (en) Automatically adapting user interfaces for hands-free interaction
US9824150B2 (en) Systems and methods for providing information discovery and retrieval
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
US10546067B2 (en) Platform for creating customizable dialog system engines
US10152964B2 (en) Audio output of a document from mobile device
US8630858B2 (en) Methods and apparatus for initiating actions using a voice-controlled interface
TWI594139B (zh) 修正語音應答的方法及自然語言對話系統
US10025781B2 (en) Network based speech to speech translation
US20150170641A1 (en) System and method for providing a natural language content dedication service
US20140297284A1 (en) Using context information to facilitate processing of commands in a virtual assistant
US10181322B2 (en) Multi-user, multi-domain dialog system
TWI610186B (zh) 特性資料庫、回報答案的方法、自然語言對話方法及其系統
US9015693B2 (en) System and method for modifying and updating a speech recognition program
US20180197543A1 (en) Mixed model speech recognition
KR20180134994A (ko) 적절한 에이전트의 자동화된 어시스턴트 호출
US9183843B2 (en) Configurable speech recognition system using multiple recognizers
US20140149121A1 (en) Method of Handling Frequently Asked Questions in a Natural Language Dialog Service

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090727

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120302

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120601

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130425

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130507

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130528

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130604

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130918

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131017

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees