JP2013541042A - 音声対応アプリケーション・プログラムに入力を与える方法および装置 - Google Patents
音声対応アプリケーション・プログラムに入力を与える方法および装置 Download PDFInfo
- Publication number
- JP2013541042A JP2013541042A JP2013528268A JP2013528268A JP2013541042A JP 2013541042 A JP2013541042 A JP 2013541042A JP 2013528268 A JP2013528268 A JP 2013528268A JP 2013528268 A JP2013528268 A JP 2013528268A JP 2013541042 A JP2013541042 A JP 2013541042A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- server
- identifier
- recognition result
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000010295 mobile communication Methods 0.000 claims abstract description 91
- 230000004044 response Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000012678 infectious agent Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
Abstract
いくつかの実施形態は、音声対応アプリケーション・プログラムのために意図された音声入力を、スマートフォンのような、前記音声対応アプリケーション・プログラムを実行するコンピュータに接続されていないモバイル通信装置に与えることを許容することに向けられる。モバイル通信装置は、ユーザーの音声入力をオーディオ・データとして、サーバー上で実行されているブローカー・アプリケーションに与えてもよい。ブローカー・アプリケーションは、受領されたオーディオ・データがどのコンピュータに与えられるべきかを判別する。ブローカー・アプリケーションは、オーディオ・データを与えられるべきコンピュータを判別したら、オーディオ・データをそのコンピュータに送る。いくつかの実施形態では、オーディオ・データが該コンピュータに与えられる前に、オーディオ・データに対して自動音声認識が実行されてもよい。そのような実施形態では、オーディオ・データを与える代わりに、ブローカー・アプリケーションは自動音声認識を実行することから生成された認識結果を同定されたコンピュータに送ってもよい。
Description
本稿に記載される技法は、概括的には、音声対応アプリケーション・プログラムとのユーザー対話を容易にすることに向けられる。
音声対応の(speech-enabled)ソフトウェア・アプリケーション・プログラムは、ユーザーから与えられる音声入力を介してユーザーと対話することのできるおよび/または音声の形で人間のユーザーに出力を提供することのできるソフトウェア・アプリケーション・プログラムである。音声対応アプリケーションは多くの異なるコンテキストにおいて使われている。たとえば、ワードプロセシング・アプリケーション、電子メール・アプリケーション、テキスト・メッセージングおよびウェブ・ブラウズ・アプリケーション、ハンドヘルド・デバイス・コマンドおよび制御およびその他多数がある。そのようなアプリケーションは、音声入力のみのアプリケーションであることもあるし、あるいは複数の型のユーザー対話(たとえば、視覚的、テキストおよび/または他の型の対話)機能のあるマルチモーダル・アプリケーションであってもよい。
ユーザーが話すことによって音声対応アプリケーションとやりとりするとき、ユーザーの発話の内容を判別するために、自動音声認識が典型的には使われる。音声対応アプリケーションは次いで、ユーザーの発話の判別された内容に基づいて取るべき適切なアクションを決定しうる。
図1は、音声対応アプリケーション・プログラム105および自動音声認識(ASR: automated speech recognition)エンジン103を実行するコンピュータ101を含む通常のシステムを示している。ユーザー107は、有線接続または無線接続を介してコンピュータ101に直接接続されるマイクロホン109を介してアプリケーション・プログラム105に音声入力を与えてもよい。ユーザーがマイクロホン109に話すと、音声入力がASRエンジン103に与えられ、ASRエンジン103がその音声入力に対して自動音声認識を実行し、テキスト認識結果をアプリケーション・プログラム105に与える。
ある実施形態は、コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与える方法に向けられる。本方法は、少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し;前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し;前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送ることを含む。もう一つの実施形態は、実行されたときに上記方法を実行する命令をエンコードされた少なくとも一つの非一時的な有形のコンピュータ可読媒体に向けられる。
あるさらなる実施形態は、コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与えるためのプロセッサ実行可能命令を記憶した少なくとも一つの有形の記憶媒体と、少なくとも一つのハードウェア・プロセッサとを有する少なくとも一つのサーバー・コンピュータであって、前記少なくとも一つのハードウェア・プロセッサは、前記プロセッサ実行可能命令を実行して:前記少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し;前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し;前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る、サーバー・コンピュータに向けられる。
音声対応アプリケーションに音声入力を与えるために、ユーザーは典型的には、ユーザーがその音声対応アプリケーションと対話するためにコンピュータに(有線でまたは無線で)接続されているまたはコンピュータに組み込まれているマイクロホンに向かって話す。本発明者は、音声対応アプリケーションに音声入力を与えるためにユーザーがそのようなマイクロホンを使わなければならないことは、いくつかの不便を来すことを認識するに至った。
具体的には、一部のコンピュータは組み込みのマイクロホンを有さないことがある。よって、ユーザーはマイクロホンを入手して、発話を介して音声対応アプリケーションにアクセスするために使おうとしているコンピュータに接続しなければならない。さらに、コンピュータが共有コンピュータであれば、接続されたマイクロホンは多くの異なる人々によって共有されるマイクロホンであることがある。よって、マイクロホンは、人々の間で病原体(たとえば、ウイルス、細菌および/または他の感染体)を伝達する導路となることがある。
下記で論じる実施形態のいくつかは上記で論じた不便や欠点のすべてに対処するものの、すべての実施形態がこれらの不便および欠点のすべてに対処するわけではなく、いくつかの実施形態はそのいずれにも対処しないこともありうる。よって、本発明は上記の不便または欠点の全部またはいずれかに対処する実施形態に限定されるものではない。
いくつかの実施形態は、ユーザーが。音声対応アプリケーション・プログラムにアクセスするためにユーザーが使うコンピュータに直接接続された専用マイクロホンを使う必要なしに、携帯電話または他のハンドヘルド・モバイル通信装置を介して音声対応アプリケーション・プログラムのための音声入力を与えることができるシステムおよび/または方法に向けられる。これは、多様な方法のうちの任意のもので達成されうる。そのうちいくつかの限定しない詳細な例が以下に記述される。
本発明者は、多くの人が、典型的には組み込みのマイクロホンを有する自分自身の個人的な装置(たとえば携帯電話または他のハンドヘルド・モバイル・コンピューティング装置)を所有しているので、そのような装置のマイクロホンが、それらの装置とは別個のコンピュータ上で実行されている音声対応アプリケーション・プログラムに入力として与えられるべきユーザーの発話を受け取るために使用されうることを認識するに至った。このようにして、ユーザーは、声を介して音声対応アプリケーション・プログラムと対話するために、専用のマイクロホンをみつけて、音声対応アプリケーションを実行しているコンピュータに接続したり、そのコンピュータに接続された共有のマイクロホンを使用したりする必要がなくなる。
図2は、ユーザーが、音声対応アプリケーション・プログラムと対話するためにハンドヘルド・モバイル通信装置に音声入力を与えることができるコンピュータ・システムを示している。該音声対応アプリケーション・プログラムは、ハンドヘルド・モバイル通信装置とは別個のコンピュータ上で実行されている。
図2に示されるコンピュータ・システムは、モバイル通信装置203、コンピュータ205および一つまたは複数のサーバー211を有する。コンピュータ205は少なくとも一つの音声対応アプリケーション・プログラム207および少なくとも一つの自動音声認識(ASR)エンジン209を実行する。いくつかの実施形態では、コンピュータ205は、ユーザー217のパーソナル・コンピュータであってもよく、それを介して、ユーザー217は、一つまたは複数の入力/出力(I/O)装置(たとえば、マウス、キーボード、ディスプレイ装置および/または他の任意の好適なI/O装置)と対話しうる。コンピュータは組み込みのマイクロホンを有していてもいなくてもよい。何らかの実施形態では、コンピュータ205は、ユーザーの家庭コンピュータのはたらきをするパーソナル・コンピュータであってもよく、あるいはユーザーがアカウント(たとえば企業アカウント)をもち、ユーザーが音声対応アプリケーション・プログラムにアクセスするためのインターフェースとして使うワークステーションまたは端末であってもよい。他の実施形態では、コンピュータ205は、ユーザー217のパーソナル・コンピュータ(図示せず)上の仮想化クライアントに音声対応アプリケーション207を送達するアプリケーションをホストするサーバーまたは仮想化サーバーであってもよい。
モバイル通信装置203は、たとえばスマートフォン(たとえばセルラー携帯電話)、携帯情報端末(personal digital assistant)および/または他の任意の好適な型のモバイル通信装置を含む多様な可能な型のモバイル通信装置のいずれであってもよい。いくつかの実施形態では、モバイル通信装置はハンドヘルドおよび/または手のひらサイズの装置であってもよい。いくつかの実施形態では、モバイル通信装置は、インターネットを通じて情報を送受信できる装置であってもよい。さらに、いくつかの実施形態では、モバイル通信装置は、アプリケーション・プログラムを実行する機能のある(および/またはアプリケーション・プログラムを実行するよう構成された)汎用プロセッサと、該汎用プロセッサによって実行されるアプリケーション・プログラムを記憶する機能のある有形なメモリまたは他の型の有形なコンピュータ可読媒体を有する装置であってもよい。いくつかの実施形態では、モバイル通信装置は、情報をユーザーに対して表示することのできるディスプレイを含んでいてもよい。モバイル通信装置203はいくつかの実施形態では組み込みマイクロホンを含んでいるが、該モバイル通信装置は、単に音響としての音を電気信号に変換してその電気信号を有線または無線接続を通じて提供することのほかに何らかの追加的な機能を提供する。
サーバー(単数または複数)211は、ブローカー・アプリケーション219を実行する一つまたは複数のサーバー・コンピュータを有していてもよい。ブローカー・アプリケーション219は、モバイル通信装置からのオーディオを受領すると、受領されたオーディオがどのコンピュータまたは他の装置に送られるべきかを決定し、オーディオをその宛先装置に送るアプリケーションであってもよい。下記でより詳細に説明するように、オーディオは、宛先装置に「プッシュ」されても、宛先装置によって「プル」されてもよい。
単一のモバイル通信装置203および単一のコンピュータ205のみが図2には示されているが、サーバー211によって実行されるブローカー・アプリケーションは、多数(たとえば数万、数十万またはそれ以上)のモバイル通信装置と、音声対応アプリケーションを実行するコンピュータとの間のブローカーとしてはたらくことができることは認識しておくべきである。この点で、サーバー211上で実行されているブローカー・アプリケーション219は、多くのモバイル通信装置の任意のものからオーディオを受領し、受領されたオーディオが、音声対応アプリケーションを実行している複数の宛先コンピュータまたは装置のうちのどれに送られるべきかを決定し、オーディオを(たとえばインターネット201を介して)適切な宛先コンピュータまたは装置に送ってもよい。
図3は、いくつかの実施形態において、ユーザーが、音声対応アプリケーション・プログラムにモバイル通信装置を介して発話を与えることができるようにするために使用されうるプロセスのフローチャートである。下記の議論から理解できるように、図3に示されるプロセスは音声対応アプリケーション・プログラムのユーザーが、自分のモバイル通信装置に向かって話し、たとえ携帯電話が有線接続でも無線接続でも音声対応アプリケーション・プログラムを実行しているコンピュータまたはユーザーが音声対応アプリケーション・プログラムにアクセスするために介するコンピュータ(たとえば、それを通じてユーザーが該アプリケーションにアクセスするユーザー・インターフェースをもつコンピュータ)に接続されていなくても、自分の発話がリアルタイムまたは実質的にリアルタイムで音声対応アプリケーション・プログラムにおいてテキストとして現れるようにすることができるようにする。
図3のプロセスは工程301で始まる。ここでは、ユーザー(たとえば図2のユーザー217)はモバイル通信装置(たとえばモバイル通信装置203)のマイクロホンに向かって、音声対応アプリケーション・プログラムのために意図された発話を提供する。モバイル通信装置は、いかなる好適な仕方で発話を受け取ってもよく、本発明はこの点に関して限定されるものではない。たとえば、モバイル通信装置は、ユーザーから発話を受け取ってその発話をサーバー211に提供するよう構成されたアプリケーション・プログラムを実行していてもよい。いくつかの実施形態では、モバイル通信装置は、発話を、組み込みのマイクロホンを介して、アナログ・オーディオ信号として受け取ってもよく、該オーディオをサーバー211に提供する前にデジタル化してもよい。こうして、工程301では、ユーザーはモバイル通信装置上でこのアプリケーション・プログラムを立ち上げ、モバイル通信装置のマイクロホンに向かって話してもよい。
プロセスは次に工程303に進む。工程303では、モバイル通信装置はマイクロホンを介してユーザーの音声を受信する。次いで、プロセスは工程305に進む。ここでは、モバイル通信装置は受領された発話をオーディオ・データとして、ブローカー・アプリケーション(たとえばブローカー・アプリケーション219)を実行するサーバー(たとえばサーバー211の一つ)に送信する。オーディオは、いかなる好適なフォーマットで送信されてもよく、送信に先立って圧縮されてもよいし、あるいは圧縮されずに送信されてもよい。いくつかの実施形態では、オーディオは、モバイル通信装置によって、ブローカー・アプリケーションを実行するサーバーにストリームされてもよい。このようにして、ユーザーがモバイル通信装置のマイクロホンに向かって話す際に、モバイル通信装置がユーザーの発話のオーディオをブローカー・アプリケーションにストリームする。
モバイル通信装置によるオーディオの送信後、プロセスは工程307に進み、サーバー上で実行されているブローカー・アプリケーションが、モバイル通信装置から送信されたオーディオを受信する。プロセスは次に工程309に進み、ブローカー・アプリケーションが、オーディオ・データの宛先であるコンピュータまたは装置を判別する。これは、多様な可能な仕方のいずれで達成されてもよく、その例については下記で論じる。
たとえば、いくつかの実施形態では、モバイル通信装置がサーバーにオーディオ・データを送信するとき、そのオーディオとともに、ユーザーおよび/またはモバイル通信装置を同定する識別子を送ってもよい。そのような識別子は、多様な可能な形のいずれを取ってもよい。たとえば、いくつかの実施形態では、識別子は、オーディオを提供するためにユーザーがモバイル通信装置上でアプリケーション・プログラムに入力するユーザー名および/またはパスワードであってもよい。モバイル通信装置が携帯電話である代替的な実施形態では、識別子は携帯電話の電話番号であってもよい。いくつかの実施携帯では、識別子は、モバイル通信装置にその製造業者または他の何らかのエンティティによって割り当てられた、普遍一意識別子(UUID: universally unique identifier)または保証された一意識別子(GUID: guaranteed unique identifier)であってもよい。他のいかなる好適な識別子が使用されてもよい。
下記でより詳細に述べるように、サーバー上で実行されているブローカー・アプリケーションは、受領されたオーディオ・データがどのコンピュータまたは装置に送られるべきかを決定する際に、モバイル通信装置によってオーディオ・データとともに送信される識別子を使ってもよい。
いくつかの実施形態では、モバイル通信装置は、オーディオ・データの各送信とともに識別子を送る必要はない。たとえば、識別子は、モバイル通信装置とサーバーとの間のセッションを確立するために使われてもよく、識別子はそのセッションに関連付けられてもよい。このようにして、セッションの一部として送られるいかなるオーディオ・データもその識別子に関連付けられてもよい。
ブローカー・アプリケーションは、受領されたオーディオ・データをどのコンピュータまたは装置に送るかを決定するために、ユーザーおよび/またはモバイル通信装置を同定する識別子をいかなる好適な仕方で使ってもよい。ここではその限定しない例を述べる。たとえば、図2を参照するに、いくつかの実施形態では、コンピュータ205は、サーバー211がモバイル通信装置203から何らかのオーディオ・データを受け取ったかどうかを判定するために定期的にサーバー211をポーリングしてもよい。サーバー211をポーリングするとき、コンピュータ205は、モバイル通信装置203によってサーバー211に提供されたオーディオ・データに関連付けられた識別子またはサーバーがその識別子にマッピングするために使用できる他の何らかの識別子をサーバー211に提供してもよい。このように、サーバー211がコンピュータ205から識別子を受信するとき、サーバーは、受信された識別子に関連付けられたオーディオ・データを同定し、受信された識別子に関連付けられたオーディオ・データがポーリングするコンピュータに与えられるべきであると判別してもよい。このようにして、ユーザー217の発話から生成されたオーディオ(他のユーザーのモバイル通信装置から提供されたオーディオ・データではなく)が、ユーザーのコンピュータに提供される。
コンピュータ205は、ユーザー217のモバイル通信装置(すなわち、モバイル通信装置203)によってサーバー211に提供される識別子を、多様な可能な仕方のうちのいずれで取得してもよい。たとえば、いくつかの実施形態では、音声対応アプリケーション207および/またはコンピュータ205は、音声対応アプリケーションの各ユーザーについてのレコードを記憶してもよい。レコードの一つのフィールドは、ユーザーのモバイル通信装置に関連付けられた識別子を含んでいてもよい。該識別子は、たとえば、手動で提供され、ユーザーによって入力されてもよい(たとえば、ユーザーが装置を音声対応アプリケーションに登録する一度きりの登録プロセスを介して)。このように、ユーザーがコンピュータ205にログインするとき、そのユーザーについてのレコードに記憶されている識別子が、オーディオ・データがあるかどうかサーバー211をポーリングするときに使用されてもよい。たとえば、ユーザー217についてのレコードは、モバイル通信装置203に関連付けられた識別子を記憶してもよい。ユーザー217がコンピュータ205にログインされるとき、コンピュータ205は、ユーザー217についてのレコードからの識別子を使ってサーバー211をポーリングする。このようにして、サーバー211は、モバイル通信装置から受信されたオーディオ・データがどのコンピュータに送られるべきかを決定してもよい。
上記で論じたように、サーバー211は、多数の異なるユーザーからおよび多数の異なる装置から提供されるオーディオ・データを受信してもよい。各オーディオ・データについて、サーバー211は、オーディオ・データに関連付けられた識別子を宛先装置に関連付けられた識別子と照合またはマッピングすることによって、オーディオ・データがどの宛先装置に提供されるべきかを決定してもよい。オーディオ・データは、オーディオ・データとともに提供された識別子が合致したまたはマッピングされた識別子に関連付けられた宛先装置に提供されてもよい。
上記の例においては、サーバー上で実行されるブローカー・アプリケーションが、コンピュータまたは装置からのポーリング要求に応答して、モバイル通信装置から受信されるオーディオ・データがどのコンピュータまたは装置に送られるべきかを決定する。この点で、該コンピュータまたは装置は、サーバーからオーディオ・データを「プル」していると見ることができる。しかしながら、いくつかの実施形態では、コンピュータまたは装置がオーディオ・データをサーバーからプルするのではなく、サーバーがオーディオ・データをコンピュータまたは装置に「プッシュ」してもよい。たとえば、コンピュータまたは装置は、音声対応アプリケーションが立ち上げられたとき、コンピュータが電源投入されたときまたは他の任意の好適な時点において、セッションを確立してもよく、オーディオを提供するユーザーおよび/またはモバイル通信装置を同定するためにブローカー・アプリケーションにいかなる好適な識別子(その例は上記で論じた)を提供してもよい。ブローカー・アプリケーションがモバイル通信装置からオーディオ・データを受信するとき、ブローカー・アプリケーションは対応するセッションを同定し、オーディオ・データを合致するセッションをもつコンピュータまたは装置に送ってもよい。
工程309後、図3のプロセスは工程311に進む。ここでは、サーバー上のブローカー・アプリケーションはオーディオ・データを、工程309において決定されたコンピュータまたは装置に送る。これは、いかなる好適な仕方で行われてもよい。たとえば、ブローカー・アプリケーションはインターネットを通じて、企業イントラネットを介してまたは他の任意の好適な仕方で、そのコンピュータまたは装置にオーディオ・データを送ってもよい。プロセスは次に工程313に進む。ここでは、工程309において同定されたコンピュータまたは装置は、サーバー上のブローカー・アプリケーションから送られたオーディオ・データを受信する。プロセスは次いで工程315に進む。ここでは、そのコンピュータまたは装置上のまたはそのコンピュータまたは装置に結合された自動音声認識(ASR)エンジンが、受領されたオーディオ・データに対して自動音声認識を実行して認識結果を生成する。プロセスは次に工程317に進む。ここでは、ASRエンジンから、コンピュータ上で実行されている音声対応アプリケーションに、認識結果が渡される。
音声対応アプリケーションは、認識結果を受け取るために、そのコンピュータ上のまたはそのコンピュータに結合されたASRエンジンといかなる好適な仕方で通信してもよい。本発明の諸側面はこの点に関して限定されるものではない。たとえば、いくつかの実施形態では、音声対応アプリケーションおよびASRエンジンは、連絡するために音声アプリケーション・プログラミング・インターフェース(API: application programming interface)を使ってもよい。
いくつかの実施形態では、音声対応アプリケーションは、音声認識を実行する際にASRエンジンを支援しうるコンテキストをASRエンジンに提供してもよい。たとえば、図2に示されるように、音声対応アプリケーション207はコンテキスト213をASRエンジン209に提供してもよい。ASRエンジン209はそのコンテキストを使って結果215を生成してもよく、結果215を音声対応アプリケーションに提供してもよい。音声対応アプリケーションから提供されたコンテキストは、音声対応アプリケーションに向けられるオーディオ・データの自動音声認識において支援するためにASRエンジン209によって使用可能な任意の情報であってよい。たとえば、いくつかの実施形態では、音声対応アプリケーションに向けられるオーディオ・データは、音声対応アプリケーションによって提供または表示されるフォームにおける特定のフィールドに入れられることが意図された単語であってもよい。たとえば、オーディオ・データは、そのようなフォームにおける「住所」フィールドに記入するために意図された発話であってもよい。音声対応アプリケーションはASRエンジンにフィールド名(たとえば「住所」)または当該フィールドについての他の情報を、コンテキスト情報として供給してもよく、ASRエンジンは、音声認識において支援するためにこのコンテキストをいかなる好適な仕方で使ってもよい。
上記の例示的な実施形態では、ASRエンジンおよび音声対応アプリケーションは同じコンピュータ上で実行される。しかしながら、本発明はこの点に関して限定されるものではなく、いくつかの実施形態では、ASRエンジンおよび音声対応アプリケーションは異なるコンピュータ上で実行されてもよい。たとえば、いくつかの実施形態では、ASRエンジンは、ブローカー・アプリケーションを実行するサーバーとは別個の、別のサーバー上で実行されてもよい。たとえば、企業は一つまたは複数の専用のASRサーバーを有していてもよく、ブローカー・アプリケーションは、そのようなサーバーと通信して、オーディオ・データに対する音声認識結果を取得してもよい。
図4に示される代替的な実施形態では、ASRエンジンは、ブローカー・アプリケーションと同じサーバー上で実行されてもよい。図4は、ユーザーが、ハンドヘルド・モバイル通信装置に音声入力を提供し、該ハンドヘルド・モバイル通信装置とは別個のコンピュータ上で実行されている音声対応アプリケーションと対話しうるコンピュータ・システムを示している。図2におけるように、ユーザー217は音声対応アプリケーション207(コンピュータ205上で実行されている)のために意図された発話を、モバイル通信装置203のマイクロホンに提供してもよい。モバイル通信装置203は、サーバー211の一つで実行されているブローカー・アプリケーション219に前記発話のオーディオを送る。しかしながら、図2のシステムとは異なり、受信したオーディオをコンピュータ205に提供するのではなく、ブローカー・アプリケーション219は受信したオーディオを、やはりサーバー211で実行されているASRエンジン403に送る。いくつかの実施形態では、ASRエンジン403は、ブローカー・アプリケーション219と同じサーバー上で動作してもよい。他の実施形態では、ASRエンジン403は、ブローカー・アプリケーション219とは異なるサーバー上で実行されてもよい。この点に関し、ブローカー・アプリケーションおよびASR機能は、いかなる好適な仕方で一つまたは複数のコンピュータの間で分散されることもできる(たとえば、一つまたは複数のサーバーがブローカーまたはASRエンジンとしてのみはたらくよう専用にされており、一つまたは複数のコンピュータは両方の機能を果たすなど)。本発明はこの点で限定されるものではない。
図4に示されるように、ブローカー・アプリケーション219は、モバイル通信装置203から受領されたオーディオ・データ(すなわちオーディオ・データ405)をASRエンジン403に送ってもよい。ASRエンジンは、一つまたは複数の認識結果409をブローカー・アプリケーション219に返してもよい。ブローカー・アプリケーション219は次いで、ASRエンジン403から受領された認識結果409を、コンピュータ205上の音声対応アプリケーション207に送信してもよい。このようにして、コンピュータ205は、音声対応アプリケーション207がユーザーから提供される音声入力を受け取ることができるようにするASRエンジンを実行する必要がない。
代替的な実施形態では、ブローカー・アプリケーションは、どの宛先装置に認識結果が提供されるべきかをASRエンジンに通知してもよく、ASRエンジンは、認識結果をブローカー・アプリケーションに返送するのではなく、認識結果をその装置に提供してもよい。
上記で論じたように、いくつかの実施形態では、音声対応アプリケーション207は、音声認識において支援するための、ASRエンジンによって使用されるコンテキストを提供してもよい。こうして、図4に示されるように、いくつかの実施形態では、音声対応アプリケーション207はコンテキスト407をブローカー・アプリケーション219に提供してもよく、ブローカー・アプリケーション219はオーディオ405とともにコンテキストをASRエンジン403に提供してもよい。
図4では、コンテキスト407は、205上の音声対応アプリケーション207からブローカー・アプリケーション219に直接提供されるように示されており、結果409はローカー・アプリケーション219から音声対応アプリケーション207に直接提供されるように示されている。しかしながら、これらの情報は、音声対応アプリケーションとブローカー・アプリケーションとの間で、インターネット201を介して、イントラネットを介してまたは他の任意の好適な通信媒体を介して通信されてもよい。同様に、ブローカー・アプリケーション219およびASRエンジン403が異なるサーバー上で実行される実施形態では、それらのサーバーの間で情報は、インターネット、イントラネットまたは他の任意の好適な仕方を介して交換されてもよい。
図2〜図4との関連で上記で論じた例において、モバイル通信装置203は、インターネットまたは企業イントラネットのようなデータ・ネットワークを介してオーディオ・データをサーバー211に提供するものとして描かれている。しかしながら、本発明はこの点において限定されるものではなく、いくつかの実施形態では、オーディオ・データをサーバー211に提供するために、ユーザーはモバイル通信装置203を使ってある電話番号をダイヤルして、オーディオ・データを受け入れてそのオーディオ・データをサーバー211に提供するサービスに電話をかけてもよい。このように、ユーザーは、サービスに関連付けられた電話番号をダイヤルして、オーディオ・データを与えるために電話に向かって話してもよい。いくつかのそのような実施形態では、オーディオ・データを提供するために、モバイル通信装置203の代わりに、地上線ベースの電話が使用されてもよい。
図2〜図4との関連で上記で論じた例において、コンピュータ上で実行されている音声対応アプリケーションのための音声入力を提供するために、ユーザーは、有線接続でも無線接続でもそのコンピュータに接続されていないモバイル通信装置に向かって話す。しかしながら、いくつかの実施形態では、モバイル通信装置は、そのコンピュータに有線または無線接続を介して接続されていてもよい。そのような実施形態では、オーディオがモバイル通信装置203からコンピュータ205にこれらの装置間の無線または有線接続を介して提供されるので、どの宛先装置にオーディオ・データが提供されるべきかを判別するためにブローカー・アプリケーションは必要ではない。このように、そのような実施形態では、オーディオ・データに対してASRが実行できるようコンピュータ205がオーディオ・データをサーバーに提供し、サーバーはASRの結果をコンピュータ205に返送する。サーバーは多様な異なるコンピュータからASR機能の要求を受け取ってもよいが、上記で論じたブローカー機能を提供する必要はない。オーディオ・データからの認識結果は、サーバーにオーディオ・データを送ったその同じ装置に返送されるからである。
図5は、モバイル通信装置203が有線接続または無線接続でありうる接続503を介してコンピュータ205に接続されるシステムのブロック図である。こうして、ユーザー217は音声対応アプリケーションのために意図された発話を、モバイル通信装置203のマイクロホンに向かって提供してもよい。モバイル通信装置203は受け取った発話をオーディオ・データ501としてコンピュータ205に送ってもよい。コンピュータ205は、モバイル通信装置から受け取ったオーディオ・データを、サーバー211上で実行されるASRエンジン505に送ってもよい。ASRエンジン505は受け取ったオーディオ・データに対して自動音声認識を実行し、認識結果511を音声対応アプリケーション511に送ってもよい。
いくつかの実施形態では、コンピュータ205は、音声認識の実行においてASRエンジンを支援するために、オーディオ・データ501とともに、音声対応アプリケーション207からのコンテキスト507をASRエンジン505に提供してもよい。
図5では、モバイル通信装置203は、インターネットに接続されているものとして示されている。しかしながら、図5に描かれた実施形態では、装置203は、有線または無線接続を介して直接、コンピュータ205にオーディオ・データを提供したので、インターネットに接続される必要はない。
上記で論じた各コンピューティング装置(たとえば、コンピュータ、モバイル通信装置、サーバーおよび/または他の任意の上記で論じたコンピューティング装置)はいかなる好適な仕方で実装されてもよい。図6は、上記で論じたコンピューティング装置の任意のものを実装するために使用されうる例示的なコンピューティング装置600のブロック図である。
コンピューティング装置600は、一つまたは複数のプロセッサ601および一つまたは複数の有形な、非一時的なコンピュータ可読記憶媒体(たとえば、有形なコンピュータ可読記憶媒体603)を含んでいてもよい。コンピュータ可読記憶媒体603は、有形な非一時的コンピュータ可読記憶媒体において、上記の機能のいずれかを実装するコンピュータ命令を記憶していてもよい。プロセッサ601はメモリ603に結合されていてもよく、上記機能を実現および実行させるそのようなコンピュータ命令を実行してもよい。
コンピューティング装置600はまた、ネットワーク入出力(I/O)インターフェース605をも含んでいてもよく、それを介してコンピューティング装置は他のコンピュータと(たとえばネットワークを通じて)通信してもよく、コンピューティング装置の型に依存して、一つまたは複数のユーザーI/Oインターフェースをも含んでいてもよく、それを介してユーザーに出力を提供し、ユーザーから入力を受け取ってもよい。ユーザーI/Oインターフェースは、キーボード、マウス、マイクロホン、ディスプレイ装置(たとえばモニタまたはタッチスクリーン)、スピーカー、カメラおよび/またはさまざまな他の型のI/O装置のような装置を含んでいてもよい。
図2〜図4との関連での上記の議論から理解されるはずであるが、上記のシステムおよび方法により、ユーザーは、自分のコンピュータ上で音声対応アプリケーションを立ち上げ、有線または無線接続を介して前記コンピュータに接続されていないモバイル通信装置にオーディオを提供し、そのオーディオ・データから得られた認識結果を前記コンピュータ上でリアルタイムでまたは実質的にリアルタイムで見ることができる。本稿での用法では、リアルタイムで結果を見るとは、オーディオ・データに対する認識結果がユーザーのコンピュータ上に、ユーザーがオーディオ・データを提供したあと1分以内に、より好ましくはユーザーがオーディオ・データを提供したあと10秒以内に現れることを意味する。
さらに、図2〜図4との関連での上記のシステムおよび方法を使うと、モバイル通信装置はユーザーからオーディオ・データを受け取り(たとえば組み込みマイクロホンを介して)、該オーディオ・データをサーバーに送り、サーバーがそのオーディオ・データの受け取りを確認したのちは、サーバーからのいかなる応答も期待しない。すなわち、オーディオ・データおよび/または認識結果は、モバイル通信装置とは別個の宛先装置に提供されるので、モバイル通信装置は、オーディオ・データの内容に基づくサーバーからの認識結果や応答を待ったり、期待したり、受け取ったりすることはないのである。
上記の議論から認識されるはずであるが、サーバー211上のブローカー・アプリケーション(単数または複数)は、多くのユーザーおよび多くの宛先装置のためにブローカー・サービスを提供してもよい。この点に関し、サーバー211は、「クラウドにおいて」ブローカー・サービスを提供していると考えてもよい。クラウドにあるサーバーは、多数の異なるユーザーからのオーディオ・データを受信し、該オーディオ・データおよび/または該オーディオ・データから(たとえば該オーディオ・データに対してASRを実行することによって)得られる結果が送られるべき宛先装置を決定し、適切な宛先装置にオーディオ・データおよび/または結果を送ってもよい。あるいはまた、サーバー211は、企業において運用されるサーバーであってもよく、ブローカー・サービスを企業内のユーザーに提供してもよい。
上記の議論から、サーバー211の一つで実行されているブローカー・アプリケーションがある装置(たとえばモバイル通信装置)からオーディオ・データを受け取って該オーディオ・データおよび/または該オーディオ・データから(たとえば該オーディオ・データに対してASRを実行することによって)得られる結果を異なる装置(たとえば、ユーザーが音声対応アプリケーション・プログラムにアクセスできるユーザー・インターフェースを実行または提供するコンピュータ)に提供してもよいことが理解されるはずである。ブローカー・アプリケーションがオーディオ・データを受け取るもとの装置およびブローカー・アプリケーションがオーディオ・データおよび/または結果を提供する先の装置は、ブローカー・アプリケーションを実行するサーバーを所有または運営するのと同じエンティティによって所有または管理される必要はない。たとえば、モバイル装置の所有者は、サーバーを所有または運営するエンティティの従業員であってもよいし、あるいはそのようなエンティティの顧客であってもよい。
本発明の上記の実施形態は多数の仕方のいずれで実装されることもできる。たとえば、実施形態は、ハードウェア、ソフトウェアまたはそれらの組み合わせを使って実装されてもよい。ソフトウェアで実装されるときは、ソフトウェア・コードは、いかなる好適なプロセッサまたは単一のコンピュータに設けられていようと複数コンピュータの間に分散されていようとプロセッサの集合上で、実行されることもできる。上記の機能を実行する任意のコンポーネントまたはコンポーネントの集合が一般に、上記で論じられた機能を制御する一つまたは複数のコントローラと考えられることができることは理解されるはずである。該一つまたは複数のコントローラは、専用ハードウェアを用いる、または上記の機能を実行するようマイクロコードまたはソフトウェアを使ってプログラムされる汎用ハードウェア(たとえば一つまたは複数のプロセッサ)を用いるなど、多数の仕方で実装できる。
この点に関し、本発明のさまざまな実施形態の一つの実装は、一つまたは複数のコンピュータまたは他のプロセッサ上で実行されたときに本発明のさまざまな実施形態の上記で論じた機能を実行する一つまたは複数のコンピュータ・プログラム(すなわち複数の命令)をエンコードされた少なくとも一つの有形な非一時的なコンピュータ可読記憶媒体(たとえば、コンピュータ・メモリ、フロッピー(登録商標)ディスク、コンパクトディスクおよび光ディスク、磁気テープ、フラッシュメモリ、フィールド・プログラム可能なゲート・アレイ(Field Programmable Gate Array)における回路構成または他の半導体デバイスなど)を有することは理解されるはずである。該コンピュータ可読記憶媒体は、それに記憶されたプログラム(単数または複数)が本稿で論じた本発明のさまざまな側面を実装するために任意のコンピュータ上にロードされることができるよう、可搬であってもよい。さらに、実行されたときに上記で論じた機能を実行するコンピュータ・プログラムへの言及は、ホスト・コンピュータ上で走るアプリケーション・プログラムに限定されないことは理解しておくべきである。むしろ、コンピュータ・プログラムの用語は本稿では、本発明の上記で論じた側面を実装するためにプロセッサをプログラムするために用いることのできる任意の型のコンピュータ・コード(たとえばソフトウェアまたはマイクロコード)を指して一般的な意味で使われる。
本発明のさまざまな側面は、単独で使用されても、組み合わせて使用されても、あるいは以上で記載された実施形態において具体的に論じられていない多様な構成で使用されてもよく、したがって、その応用において、以上の記述において述べられているまたは図面において例解されている詳細およびコンポーネントの構成に限定されるものではない。たとえば、ある実施形態において記述される側面は他の実施形態において記述される側面といかなる仕方で組み合わされてもよい。
また、本発明の実施形態は、一つまたは複数の方法として実装されてもよい。それについて例を提供した。該方法の一部として実行される工程は、いかなる好適な仕方で順序付けされてもよい。よって、たとえ例示的な実施形態において逐次的な諸工程として示されていたとしても、工程が例解したのとは異なる順序で実行される実施形態が構築されてもよく、いくつかの工程を同時に実行することを含んでいてもよい。
請求項の要素を修飾する、請求項における「第一」「第二」「第三」などの序数の使用は、それ自身が、ある請求項の要素の他の要素に対する優先、先行もしくは順序または方法の工程が実行される時間的順序を含意するものではない。そのような用語は単に、ある名称をもつ請求項要素を(序数の使用を除いて)同じ名称をもつ別の要素から区別するためのラベルとして使われている。
本稿で使われる表現および用語は説明のためであって、限定すると見なされるべきではない。「含む」「有する」「もつ」「含有する」「関わる」およびその変形は、挙げられている項目および追加的な項目を包含することを意図されている。
本発明のいくつかの実施形態を詳細に記載してきたが、さまざまな修正および改善が当業者には思いつくであろう。そのような修正および改善は、本発明の精神および範囲内であることが意図される。よって、以上の記述は単に例であって、限定として意図されてはいない。本発明は、以下の請求項およびその等価物によってのみ定義される。
Claims (20)
- コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与える方法であって:
少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し;
前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し;
前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送ることを含む、
方法。 - 前記モバイル通信装置がスマートフォンを有する、請求項1記載の方法。
- 前記少なくとも一つのサーバーが少なくとも一つの第一のサーバーであり、前記認識結果を取得する動作がさらに:
前記オーディオ・データを少なくとも一つの第二のサーバー上で実行される自動音声認識(ASR)エンジンに送り;
前記少なくとも一つの第二のサーバー上の前記少なくとも一つのASRエンジンからの前記認識結果を受領することを含む、
請求項1記載の方法。 - 前記認識結果を取得する動作がさらに:
前記少なくとも一つのサーバー上で実行される少なくとも一つの自動音声認識(ASR)エンジンを使って前記認識結果を生成することを含む、
請求項1記載の方法。 - 前記コンピュータが複数のコンピュータのうちの第一のコンピュータであり、当該方法がさらに:
前記モバイル通信装置から、前記オーディオ・データに関連付けられた識別子を受け取り;
前記識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
請求項1記載の方法。 - 前記識別子が第一の識別子であり、前記第一の識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別する動作がさらに:
前記第一のコンピュータから、第二の識別子を含むオーディオ・データの要求を受領し;
前記第一の識別子が前記第二の識別子に一致するまたは対応するかどうかを判定し;
前記第一の識別子が前記第二の識別子に一致するまたは対応すると判定される場合、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
請求項5記載の方法。 - 前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る動作が、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することに応答して実行される、請求項6記載の方法。
- 少なくとも一つのサーバー・コンピュータの少なくとも一つのプロセッサによって実行されたときに、コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与える方法を実行する命令をエンコードされた少なくとも一つの非一時的な有形のコンピュータ可読媒体であって、前記方法は、
前記少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し;
前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し;
前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送ることを含む、
コンピュータ可読媒体。 - 前記モバイル通信装置がスマートフォンを有する、請求項8記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
- 前記少なくとも一つのサーバーが少なくとも一つの第一のサーバーであり、前記認識結果を取得する動作がさらに:
前記オーディオ・データを少なくとも一つの第二のサーバー上で実行される自動音声認識(ASR)エンジンに送り;
前記少なくとも一つの第二のサーバー上の前記少なくとも一つのASRエンジンからの前記認識結果を受領することを含む、
請求項8記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。 - 前記認識結果を取得する動作がさらに:
前記少なくとも一つのサーバー上で実行される少なくとも一つの自動音声認識(ASR)エンジンを使って前記認識結果を生成することを含む、
請求項8記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。 - 前記コンピュータが複数のコンピュータのうちの第一のコンピュータであり、前記方法がさらに:
前記モバイル通信装置から、前記オーディオ・データに関連付けられた識別子を受け取り;
前記識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
請求項8記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。 - 前記識別子が第一の識別子であり、前記第一の識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別する動作がさらに:
前記第一のコンピュータから、第二の識別子を含むオーディオ・データの要求を受領し;
前記第一の識別子が前記第二の識別子に一致するまたは対応するかどうかを判定し;
前記第一の識別子が前記第二の識別子に一致するまたは対応すると判定される場合、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
請求項12記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。 - 前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る動作が、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することに応答して実行される、請求項13記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
- コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与えるためのプロセッサ実行可能命令を記憶した少なくとも一つの有形の記憶媒体と;
少なくとも一つのハードウェア・プロセッサとを有する少なくとも一つのサーバー・コンピュータであって、前記少なくとも一つのハードウェア・プロセッサは、前記プロセッサ実行可能命令を実行して:
前記少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し;
前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し;
前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る、
サーバー・コンピュータ。 - 前記少なくとも一つのサーバーが少なくとも一つの第一のサーバーであり、前記少なくとも一つのハードウェア・プロセッサが前記プロセッサ実行可能命令を実行して前記認識結果を取得することを:
前記オーディオ・データを少なくとも一つの第二のサーバー上で実行される自動音声認識(ASR)エンジンに送り;
前記少なくとも一つの第二のサーバー上の前記少なくとも一つのASRエンジンからの前記認識結果を受領することによって行う、
請求項15記載の少なくとも一つのサーバー・コンピュータ。 - 前記少なくとも一つのサーバーが少なくとも一つの第一のサーバーであり、前記少なくとも一つのハードウェア・プロセッサが前記プロセッサ実行可能命令を実行して前記認識結果を取得することを:
前記少なくとも一つのサーバー上で実行される少なくとも一つの自動音声認識(ASR)エンジンを使って前記認識結果を生成することによって行う、
請求項15記載の少なくとも一つのサーバー・コンピュータ。 - 前記コンピュータが複数のコンピュータのうちの第一のコンピュータであり、前記少なくとも一つのハードウェア・プロセッサが前記命令を実行して:
前記モバイル通信装置から、前記オーディオ・データに関連付けられた識別子を受け取り;
前記識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別する、
請求項15記載の少なくとも一つのサーバー・コンピュータ。 - 前記識別子が第一の識別子であり、少なくとも一つのハードウェア・プロセッサが、前記第一の識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを:
前記第一のコンピュータから、第二の識別子を含むオーディオ・データの要求を受領し;
前記第一の識別子が前記第二の識別子に一致するまたは対応するかどうかを判定し;
前記第一の識別子が前記第二の識別子に一致するまたは対応すると判定される場合、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
請求項18記載の少なくとも一つのサーバー・コンピュータ。 - 前記少なくとも一つのハードウェア・プロセッサが、前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る動作が、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することに応答して実行される、請求項19記載の少なくとも一つのサーバー・コンピュータ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/877,347 | 2010-09-08 | ||
US12/877,347 US20120059655A1 (en) | 2010-09-08 | 2010-09-08 | Methods and apparatus for providing input to a speech-enabled application program |
PCT/US2011/050676 WO2012033825A1 (en) | 2010-09-08 | 2011-09-07 | Methods and apparatus for providing input to a speech-enabled application program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013541042A true JP2013541042A (ja) | 2013-11-07 |
Family
ID=44764212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013528268A Withdrawn JP2013541042A (ja) | 2010-09-08 | 2011-09-07 | 音声対応アプリケーション・プログラムに入力を与える方法および装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20120059655A1 (ja) |
EP (1) | EP2591469A1 (ja) |
JP (1) | JP2013541042A (ja) |
KR (1) | KR20130112885A (ja) |
CN (1) | CN103081004B (ja) |
WO (1) | WO2012033825A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017157204A (ja) * | 2016-03-04 | 2017-09-07 | 株式会社リコー | インタラクティブ・ホワイトボード機器の音声制御 |
US10417021B2 (en) | 2016-03-04 | 2019-09-17 | Ricoh Company, Ltd. | Interactive command assistant for an interactive whiteboard appliance |
Families Citing this family (163)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8341142B2 (en) | 2010-09-08 | 2012-12-25 | Nuance Communications, Inc. | Methods and apparatus for searching the Internet |
US8239366B2 (en) | 2010-09-08 | 2012-08-07 | Nuance Communications, Inc. | Method and apparatus for processing spoken search queries |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812474B2 (en) | 2011-07-14 | 2014-08-19 | Nuance Communications, Inc. | Methods and apparatus for identifying and providing information sought by a user |
US9489457B2 (en) | 2011-07-14 | 2016-11-08 | Nuance Communications, Inc. | Methods and apparatus for initiating an action |
US8635201B2 (en) | 2011-07-14 | 2014-01-21 | Nuance Communications, Inc. | Methods and apparatus for employing a user's location in providing information to the user |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9646610B2 (en) | 2012-10-30 | 2017-05-09 | Motorola Solutions, Inc. | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition |
US9144028B2 (en) | 2012-12-31 | 2015-09-22 | Motorola Solutions, Inc. | Method and apparatus for uplink power control in a wireless communication system |
CN103915095B (zh) * | 2013-01-06 | 2017-05-31 | 华为技术有限公司 | 语音识别的方法、交互设备、服务器和系统 |
CN103971688B (zh) * | 2013-02-01 | 2016-05-04 | 腾讯科技(深圳)有限公司 | 一种语音数据采集服务系统及方法 |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10956433B2 (en) | 2013-07-15 | 2021-03-23 | Microsoft Technology Licensing, Llc | Performing an operation relative to tabular data based upon voice input |
US20160004502A1 (en) * | 2013-07-16 | 2016-01-07 | Cloudcar, Inc. | System and method for correcting speech input |
US10267405B2 (en) | 2013-07-24 | 2019-04-23 | Litens Automotive Partnership | Isolator with improved damping structure |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
KR102262421B1 (ko) * | 2014-07-04 | 2021-06-08 | 한국전자통신연구원 | 모바일 기기를 이용한 음성인식 시스템 |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
CN104683456B (zh) * | 2015-02-13 | 2017-06-23 | 腾讯科技(深圳)有限公司 | 业务处理方法、服务器及终端 |
US9865280B2 (en) * | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
GB2552995A (en) * | 2016-08-19 | 2018-02-21 | Nokia Technologies Oy | Learned model data processing |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9961642B2 (en) * | 2016-09-30 | 2018-05-01 | Intel Corporation | Reduced power consuming mobile devices method and apparatus |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
JP6928842B2 (ja) * | 2018-02-14 | 2021-09-01 | パナソニックIpマネジメント株式会社 | 制御情報取得システム、及び、制御情報取得方法 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11087754B2 (en) | 2018-09-27 | 2021-08-10 | Coretronic Corporation | Intelligent voice system and method for controlling projector by using the intelligent voice system |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11100926B2 (en) * | 2018-09-27 | 2021-08-24 | Coretronic Corporation | Intelligent voice system and method for controlling projector by using the intelligent voice system |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US10841424B1 (en) | 2020-05-14 | 2020-11-17 | Bank Of America Corporation | Call monitoring and feedback reporting using machine learning |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3402100B2 (ja) * | 1996-12-27 | 2003-04-28 | カシオ計算機株式会社 | 音声制御ホスト装置 |
EP0911808B1 (en) * | 1997-10-23 | 2002-05-08 | Sony International (Europe) GmbH | Speech interface in a home network environment |
US6492999B1 (en) * | 1999-02-25 | 2002-12-10 | International Business Machines Corporation | Connecting and optimizing audio input devices |
US7219123B1 (en) * | 1999-10-08 | 2007-05-15 | At Road, Inc. | Portable browser device with adaptive personalization capability |
US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
US6721705B2 (en) * | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
US7558735B1 (en) * | 2000-12-28 | 2009-07-07 | Vianeta Communication | Transcription application infrastructure and methodology |
US20060149556A1 (en) * | 2001-01-03 | 2006-07-06 | Sridhar Krishnamurthy | Sequential-data correlation at real-time on multiple media and multiple data types |
US7318031B2 (en) * | 2001-05-09 | 2008-01-08 | International Business Machines Corporation | Apparatus, system and method for providing speech recognition assist in call handover |
JP2002333895A (ja) * | 2001-05-10 | 2002-11-22 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、並びにプログラム |
US7174323B1 (en) * | 2001-06-22 | 2007-02-06 | Mci, Llc | System and method for multi-modal authentication using speaker verification |
US20030078777A1 (en) * | 2001-08-22 | 2003-04-24 | Shyue-Chin Shiau | Speech recognition system for mobile Internet/Intranet communication |
US7023498B2 (en) * | 2001-11-19 | 2006-04-04 | Matsushita Electric Industrial Co. Ltd. | Remote-controlled apparatus, a remote control system, and a remote-controlled image-processing apparatus |
US20030191629A1 (en) * | 2002-02-04 | 2003-10-09 | Shinichi Yoshizawa | Interface apparatus and task control method for assisting in the operation of a device using recognition technology |
KR100434545B1 (ko) * | 2002-03-15 | 2004-06-05 | 삼성전자주식회사 | 홈네트워크로 연결된 가전기기들을 제어하는 방법 및 장치 |
JP2003295890A (ja) * | 2002-04-04 | 2003-10-15 | Nec Corp | 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム |
US7016845B2 (en) * | 2002-11-08 | 2006-03-21 | Oracle International Corporation | Method and apparatus for providing speech recognition resolution on an application server |
WO2004044887A1 (ja) * | 2002-11-11 | 2004-05-27 | Matsushita Electric Industrial Co., Ltd. | 音声認識用辞書作成装置および音声認識装置 |
FR2853126A1 (fr) * | 2003-03-25 | 2004-10-01 | France Telecom | Procede de reconnaissance de parole distribuee |
US9710819B2 (en) * | 2003-05-05 | 2017-07-18 | Interactions Llc | Real-time transcription system utilizing divided audio chunks |
US7363228B2 (en) * | 2003-09-18 | 2008-04-22 | Interactive Intelligence, Inc. | Speech recognition system and method |
US8014765B2 (en) * | 2004-03-19 | 2011-09-06 | Media Captioning Services | Real-time captioning framework for mobile devices |
EP1751916A1 (en) * | 2004-05-21 | 2007-02-14 | Cablesedge Software Inc. | Remote access system and method and intelligent agent therefor |
JP2006033795A (ja) * | 2004-06-15 | 2006-02-02 | Sanyo Electric Co Ltd | リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。 |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US7581034B2 (en) * | 2004-11-23 | 2009-08-25 | Microsoft Corporation | Sending notifications to auxiliary displays |
KR100636270B1 (ko) * | 2005-02-04 | 2006-10-19 | 삼성전자주식회사 | 홈 네트워크 시스템 및 그 제어방법 |
KR100703696B1 (ko) * | 2005-02-07 | 2007-04-05 | 삼성전자주식회사 | 제어 명령 인식 방법 및 이를 이용한 제어 장치 |
US20060242589A1 (en) * | 2005-04-26 | 2006-10-26 | Rod Cooper | System and method for remote examination services |
US20080086311A1 (en) * | 2006-04-11 | 2008-04-10 | Conwell William Y | Speech Recognition, and Related Systems |
US20080091432A1 (en) * | 2006-10-17 | 2008-04-17 | Donald Dalton | System and method for voice control of electrically powered devices |
US20080153465A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
US8412522B2 (en) * | 2007-12-21 | 2013-04-02 | Nvoq Incorporated | Apparatus and method for queuing jobs in a distributed dictation /transcription system |
US9177551B2 (en) * | 2008-01-22 | 2015-11-03 | At&T Intellectual Property I, L.P. | System and method of providing speech processing in user interface |
US8407048B2 (en) * | 2008-05-27 | 2013-03-26 | Qualcomm Incorporated | Method and system for transcribing telephone conversation to text |
US8265671B2 (en) * | 2009-06-17 | 2012-09-11 | Mobile Captions Company Llc | Methods and systems for providing near real time messaging to hearing impaired user during telephone calls |
US9570078B2 (en) * | 2009-06-19 | 2017-02-14 | Microsoft Technology Licensing, Llc | Techniques to provide a standard interface to a speech recognition platform |
US20110067059A1 (en) * | 2009-09-15 | 2011-03-17 | At&T Intellectual Property I, L.P. | Media control |
CA2779289A1 (en) * | 2009-10-28 | 2011-05-19 | Google Inc. | Computer-to-computer communication |
US20110099507A1 (en) * | 2009-10-28 | 2011-04-28 | Google Inc. | Displaying a collection of interactive elements that trigger actions directed to an item |
US9865263B2 (en) * | 2009-12-01 | 2018-01-09 | Nuance Communications, Inc. | Real-time voice recognition on a handheld device |
US20110195739A1 (en) * | 2010-02-10 | 2011-08-11 | Harris Corporation | Communication device with a speech-to-text conversion function |
US8522283B2 (en) * | 2010-05-20 | 2013-08-27 | Google Inc. | Television remote control data transfer |
-
2010
- 2010-09-08 US US12/877,347 patent/US20120059655A1/en not_active Abandoned
-
2011
- 2011-09-07 KR KR1020137008770A patent/KR20130112885A/ko not_active Application Discontinuation
- 2011-09-07 JP JP2013528268A patent/JP2013541042A/ja not_active Withdrawn
- 2011-09-07 EP EP11767100.8A patent/EP2591469A1/en not_active Withdrawn
- 2011-09-07 WO PCT/US2011/050676 patent/WO2012033825A1/en active Application Filing
- 2011-09-07 CN CN201180043215.6A patent/CN103081004B/zh active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017157204A (ja) * | 2016-03-04 | 2017-09-07 | 株式会社リコー | インタラクティブ・ホワイトボード機器の音声制御 |
JP2019049985A (ja) * | 2016-03-04 | 2019-03-28 | 株式会社リコー | インタラクティブ・ホワイトボード機器の音声制御 |
US10417021B2 (en) | 2016-03-04 | 2019-09-17 | Ricoh Company, Ltd. | Interactive command assistant for an interactive whiteboard appliance |
Also Published As
Publication number | Publication date |
---|---|
KR20130112885A (ko) | 2013-10-14 |
CN103081004B (zh) | 2016-08-10 |
WO2012033825A1 (en) | 2012-03-15 |
US20120059655A1 (en) | 2012-03-08 |
EP2591469A1 (en) | 2013-05-15 |
CN103081004A (zh) | 2013-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013541042A (ja) | 音声対応アプリケーション・プログラムに入力を与える方法および装置 | |
US11922925B1 (en) | Managing dialogs on a speech recognition platform | |
US10930277B2 (en) | Configuration of voice controlled assistant | |
JP6414241B2 (ja) | インタラクティブ・ホワイトボード機器の音声制御 | |
US9666190B2 (en) | Speech recognition using loosely coupled components | |
US10134395B2 (en) | In-call virtual assistants | |
US20170046124A1 (en) | Responding to Human Spoken Audio Based on User Input | |
US10178185B2 (en) | Load-balanced, persistent connection techniques | |
US10827065B2 (en) | Systems and methods for providing integrated computerized personal assistant services in telephony communications | |
US10057421B1 (en) | Utilizing virtual user records for device management | |
KR102304086B1 (ko) | 대화형 콘텐츠를 제공하는 전자 장치, 서버 및 이를 위한 방법 | |
US20080181141A1 (en) | Enhanced voicemail processing | |
US11012573B2 (en) | Interactive voice response using a cloud-based service | |
CN108028044A (zh) | 使用多个识别器减少延时的语音识别系统 | |
JP2015169768A (ja) | 対話履歴管理装置、対話装置および対話履歴管理方法 | |
US20180268344A1 (en) | Virtual dialogue crowdsourcing | |
US10178230B1 (en) | Methods and systems for communicating supplemental data to a callee via data association with a software-as-a-service application | |
KR20150088532A (ko) | 통화 중 서비스 제공 장치 및 이를 이용하는 방법 | |
US20200075014A1 (en) | Systems and methods for a wireless microphone to access remotely hosted applications | |
US11722572B2 (en) | Communication platform shifting for voice-enabled device | |
US20180176385A1 (en) | Supplementing telephony calls with conversational bots |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20141202 |