JP2013541042A - 音声対応アプリケーション・プログラムに入力を与える方法および装置 - Google Patents

音声対応アプリケーション・プログラムに入力を与える方法および装置 Download PDF

Info

Publication number
JP2013541042A
JP2013541042A JP2013528268A JP2013528268A JP2013541042A JP 2013541042 A JP2013541042 A JP 2013541042A JP 2013528268 A JP2013528268 A JP 2013528268A JP 2013528268 A JP2013528268 A JP 2013528268A JP 2013541042 A JP2013541042 A JP 2013541042A
Authority
JP
Japan
Prior art keywords
computer
server
identifier
recognition result
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2013528268A
Other languages
English (en)
Inventor
カーテイルズ,ジョン,マイケル
Original Assignee
ニュアンス コミュニケーションズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ,インコーポレイテッド filed Critical ニュアンス コミュニケーションズ,インコーポレイテッド
Publication of JP2013541042A publication Critical patent/JP2013541042A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

いくつかの実施形態は、音声対応アプリケーション・プログラムのために意図された音声入力を、スマートフォンのような、前記音声対応アプリケーション・プログラムを実行するコンピュータに接続されていないモバイル通信装置に与えることを許容することに向けられる。モバイル通信装置は、ユーザーの音声入力をオーディオ・データとして、サーバー上で実行されているブローカー・アプリケーションに与えてもよい。ブローカー・アプリケーションは、受領されたオーディオ・データがどのコンピュータに与えられるべきかを判別する。ブローカー・アプリケーションは、オーディオ・データを与えられるべきコンピュータを判別したら、オーディオ・データをそのコンピュータに送る。いくつかの実施形態では、オーディオ・データが該コンピュータに与えられる前に、オーディオ・データに対して自動音声認識が実行されてもよい。そのような実施形態では、オーディオ・データを与える代わりに、ブローカー・アプリケーションは自動音声認識を実行することから生成された認識結果を同定されたコンピュータに送ってもよい。

Description

本稿に記載される技法は、概括的には、音声対応アプリケーション・プログラムとのユーザー対話を容易にすることに向けられる。
音声対応の(speech-enabled)ソフトウェア・アプリケーション・プログラムは、ユーザーから与えられる音声入力を介してユーザーと対話することのできるおよび/または音声の形で人間のユーザーに出力を提供することのできるソフトウェア・アプリケーション・プログラムである。音声対応アプリケーションは多くの異なるコンテキストにおいて使われている。たとえば、ワードプロセシング・アプリケーション、電子メール・アプリケーション、テキスト・メッセージングおよびウェブ・ブラウズ・アプリケーション、ハンドヘルド・デバイス・コマンドおよび制御およびその他多数がある。そのようなアプリケーションは、音声入力のみのアプリケーションであることもあるし、あるいは複数の型のユーザー対話(たとえば、視覚的、テキストおよび/または他の型の対話)機能のあるマルチモーダル・アプリケーションであってもよい。
ユーザーが話すことによって音声対応アプリケーションとやりとりするとき、ユーザーの発話の内容を判別するために、自動音声認識が典型的には使われる。音声対応アプリケーションは次いで、ユーザーの発話の判別された内容に基づいて取るべき適切なアクションを決定しうる。
図1は、音声対応アプリケーション・プログラム105および自動音声認識(ASR: automated speech recognition)エンジン103を実行するコンピュータ101を含む通常のシステムを示している。ユーザー107は、有線接続または無線接続を介してコンピュータ101に直接接続されるマイクロホン109を介してアプリケーション・プログラム105に音声入力を与えてもよい。ユーザーがマイクロホン109に話すと、音声入力がASRエンジン103に与えられ、ASRエンジン103がその音声入力に対して自動音声認識を実行し、テキスト認識結果をアプリケーション・プログラム105に与える。
ある実施形態は、コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与える方法に向けられる。本方法は、少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し;前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し;前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送ることを含む。もう一つの実施形態は、実行されたときに上記方法を実行する命令をエンコードされた少なくとも一つの非一時的な有形のコンピュータ可読媒体に向けられる。
あるさらなる実施形態は、コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与えるためのプロセッサ実行可能命令を記憶した少なくとも一つの有形の記憶媒体と、少なくとも一つのハードウェア・プロセッサとを有する少なくとも一つのサーバー・コンピュータであって、前記少なくとも一つのハードウェア・プロセッサは、前記プロセッサ実行可能命令を実行して:前記少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し;前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し;前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る、サーバー・コンピュータに向けられる。
音声対応アプリケーション・プログラムを実行する従来技術のコンピュータのブロック図である。 いくつかの実施形態に基づく、コンピュータ上で実行される音声対応アプリケーション・プログラムのために意図された音声入力が、前記コンピュータに接続されていないモバイル通信装置を介して提供されうるコンピュータ・システムのブロック図である。 いくつかの実施形態に基づく、モバイル通信装置を使って音声対応アプリケーションに、音声入力から生成された入力を提供するためのプロセスのフローチャートである。 いくつかの実施形態に基づく、コンピュータ上で実行される音声対応アプリケーション・プログラムのために意図された音声入力が、前記コンピュータに接続されていないモバイル通信装置を介して提供されることができ、前記音声対応アプリケーション・プログラムを実行している前記コンピュータとは異なるコンピュータ上で自動音声認識が実行される、コンピュータ・システムのブロック図である。 いくつかの実施形態に基づく、コンピュータ上で実行される音声対応アプリケーション・プログラムのために意図された音声入力が、前記コンピュータに接続されているモバイル通信装置を介して提供されうるコンピュータ・システムのブロック図である。 図2、図4および図5に描かれたコンピュータおよび装置を実装するためにいくつかの実施形態において使われうるコンピューティング・デバイスのブロック図である。
音声対応アプリケーションに音声入力を与えるために、ユーザーは典型的には、ユーザーがその音声対応アプリケーションと対話するためにコンピュータに(有線でまたは無線で)接続されているまたはコンピュータに組み込まれているマイクロホンに向かって話す。本発明者は、音声対応アプリケーションに音声入力を与えるためにユーザーがそのようなマイクロホンを使わなければならないことは、いくつかの不便を来すことを認識するに至った。
具体的には、一部のコンピュータは組み込みのマイクロホンを有さないことがある。よって、ユーザーはマイクロホンを入手して、発話を介して音声対応アプリケーションにアクセスするために使おうとしているコンピュータに接続しなければならない。さらに、コンピュータが共有コンピュータであれば、接続されたマイクロホンは多くの異なる人々によって共有されるマイクロホンであることがある。よって、マイクロホンは、人々の間で病原体(たとえば、ウイルス、細菌および/または他の感染体)を伝達する導路となることがある。
下記で論じる実施形態のいくつかは上記で論じた不便や欠点のすべてに対処するものの、すべての実施形態がこれらの不便および欠点のすべてに対処するわけではなく、いくつかの実施形態はそのいずれにも対処しないこともありうる。よって、本発明は上記の不便または欠点の全部またはいずれかに対処する実施形態に限定されるものではない。
いくつかの実施形態は、ユーザーが。音声対応アプリケーション・プログラムにアクセスするためにユーザーが使うコンピュータに直接接続された専用マイクロホンを使う必要なしに、携帯電話または他のハンドヘルド・モバイル通信装置を介して音声対応アプリケーション・プログラムのための音声入力を与えることができるシステムおよび/または方法に向けられる。これは、多様な方法のうちの任意のもので達成されうる。そのうちいくつかの限定しない詳細な例が以下に記述される。
本発明者は、多くの人が、典型的には組み込みのマイクロホンを有する自分自身の個人的な装置(たとえば携帯電話または他のハンドヘルド・モバイル・コンピューティング装置)を所有しているので、そのような装置のマイクロホンが、それらの装置とは別個のコンピュータ上で実行されている音声対応アプリケーション・プログラムに入力として与えられるべきユーザーの発話を受け取るために使用されうることを認識するに至った。このようにして、ユーザーは、声を介して音声対応アプリケーション・プログラムと対話するために、専用のマイクロホンをみつけて、音声対応アプリケーションを実行しているコンピュータに接続したり、そのコンピュータに接続された共有のマイクロホンを使用したりする必要がなくなる。
図2は、ユーザーが、音声対応アプリケーション・プログラムと対話するためにハンドヘルド・モバイル通信装置に音声入力を与えることができるコンピュータ・システムを示している。該音声対応アプリケーション・プログラムは、ハンドヘルド・モバイル通信装置とは別個のコンピュータ上で実行されている。
図2に示されるコンピュータ・システムは、モバイル通信装置203、コンピュータ205および一つまたは複数のサーバー211を有する。コンピュータ205は少なくとも一つの音声対応アプリケーション・プログラム207および少なくとも一つの自動音声認識(ASR)エンジン209を実行する。いくつかの実施形態では、コンピュータ205は、ユーザー217のパーソナル・コンピュータであってもよく、それを介して、ユーザー217は、一つまたは複数の入力/出力(I/O)装置(たとえば、マウス、キーボード、ディスプレイ装置および/または他の任意の好適なI/O装置)と対話しうる。コンピュータは組み込みのマイクロホンを有していてもいなくてもよい。何らかの実施形態では、コンピュータ205は、ユーザーの家庭コンピュータのはたらきをするパーソナル・コンピュータであってもよく、あるいはユーザーがアカウント(たとえば企業アカウント)をもち、ユーザーが音声対応アプリケーション・プログラムにアクセスするためのインターフェースとして使うワークステーションまたは端末であってもよい。他の実施形態では、コンピュータ205は、ユーザー217のパーソナル・コンピュータ(図示せず)上の仮想化クライアントに音声対応アプリケーション207を送達するアプリケーションをホストするサーバーまたは仮想化サーバーであってもよい。
モバイル通信装置203は、たとえばスマートフォン(たとえばセルラー携帯電話)、携帯情報端末(personal digital assistant)および/または他の任意の好適な型のモバイル通信装置を含む多様な可能な型のモバイル通信装置のいずれであってもよい。いくつかの実施形態では、モバイル通信装置はハンドヘルドおよび/または手のひらサイズの装置であってもよい。いくつかの実施形態では、モバイル通信装置は、インターネットを通じて情報を送受信できる装置であってもよい。さらに、いくつかの実施形態では、モバイル通信装置は、アプリケーション・プログラムを実行する機能のある(および/またはアプリケーション・プログラムを実行するよう構成された)汎用プロセッサと、該汎用プロセッサによって実行されるアプリケーション・プログラムを記憶する機能のある有形なメモリまたは他の型の有形なコンピュータ可読媒体を有する装置であってもよい。いくつかの実施形態では、モバイル通信装置は、情報をユーザーに対して表示することのできるディスプレイを含んでいてもよい。モバイル通信装置203はいくつかの実施形態では組み込みマイクロホンを含んでいるが、該モバイル通信装置は、単に音響としての音を電気信号に変換してその電気信号を有線または無線接続を通じて提供することのほかに何らかの追加的な機能を提供する。
サーバー(単数または複数)211は、ブローカー・アプリケーション219を実行する一つまたは複数のサーバー・コンピュータを有していてもよい。ブローカー・アプリケーション219は、モバイル通信装置からのオーディオを受領すると、受領されたオーディオがどのコンピュータまたは他の装置に送られるべきかを決定し、オーディオをその宛先装置に送るアプリケーションであってもよい。下記でより詳細に説明するように、オーディオは、宛先装置に「プッシュ」されても、宛先装置によって「プル」されてもよい。
単一のモバイル通信装置203および単一のコンピュータ205のみが図2には示されているが、サーバー211によって実行されるブローカー・アプリケーションは、多数(たとえば数万、数十万またはそれ以上)のモバイル通信装置と、音声対応アプリケーションを実行するコンピュータとの間のブローカーとしてはたらくことができることは認識しておくべきである。この点で、サーバー211上で実行されているブローカー・アプリケーション219は、多くのモバイル通信装置の任意のものからオーディオを受領し、受領されたオーディオが、音声対応アプリケーションを実行している複数の宛先コンピュータまたは装置のうちのどれに送られるべきかを決定し、オーディオを(たとえばインターネット201を介して)適切な宛先コンピュータまたは装置に送ってもよい。
図3は、いくつかの実施形態において、ユーザーが、音声対応アプリケーション・プログラムにモバイル通信装置を介して発話を与えることができるようにするために使用されうるプロセスのフローチャートである。下記の議論から理解できるように、図3に示されるプロセスは音声対応アプリケーション・プログラムのユーザーが、自分のモバイル通信装置に向かって話し、たとえ携帯電話が有線接続でも無線接続でも音声対応アプリケーション・プログラムを実行しているコンピュータまたはユーザーが音声対応アプリケーション・プログラムにアクセスするために介するコンピュータ(たとえば、それを通じてユーザーが該アプリケーションにアクセスするユーザー・インターフェースをもつコンピュータ)に接続されていなくても、自分の発話がリアルタイムまたは実質的にリアルタイムで音声対応アプリケーション・プログラムにおいてテキストとして現れるようにすることができるようにする。
図3のプロセスは工程301で始まる。ここでは、ユーザー(たとえば図2のユーザー217)はモバイル通信装置(たとえばモバイル通信装置203)のマイクロホンに向かって、音声対応アプリケーション・プログラムのために意図された発話を提供する。モバイル通信装置は、いかなる好適な仕方で発話を受け取ってもよく、本発明はこの点に関して限定されるものではない。たとえば、モバイル通信装置は、ユーザーから発話を受け取ってその発話をサーバー211に提供するよう構成されたアプリケーション・プログラムを実行していてもよい。いくつかの実施形態では、モバイル通信装置は、発話を、組み込みのマイクロホンを介して、アナログ・オーディオ信号として受け取ってもよく、該オーディオをサーバー211に提供する前にデジタル化してもよい。こうして、工程301では、ユーザーはモバイル通信装置上でこのアプリケーション・プログラムを立ち上げ、モバイル通信装置のマイクロホンに向かって話してもよい。
プロセスは次に工程303に進む。工程303では、モバイル通信装置はマイクロホンを介してユーザーの音声を受信する。次いで、プロセスは工程305に進む。ここでは、モバイル通信装置は受領された発話をオーディオ・データとして、ブローカー・アプリケーション(たとえばブローカー・アプリケーション219)を実行するサーバー(たとえばサーバー211の一つ)に送信する。オーディオは、いかなる好適なフォーマットで送信されてもよく、送信に先立って圧縮されてもよいし、あるいは圧縮されずに送信されてもよい。いくつかの実施形態では、オーディオは、モバイル通信装置によって、ブローカー・アプリケーションを実行するサーバーにストリームされてもよい。このようにして、ユーザーがモバイル通信装置のマイクロホンに向かって話す際に、モバイル通信装置がユーザーの発話のオーディオをブローカー・アプリケーションにストリームする。
モバイル通信装置によるオーディオの送信後、プロセスは工程307に進み、サーバー上で実行されているブローカー・アプリケーションが、モバイル通信装置から送信されたオーディオを受信する。プロセスは次に工程309に進み、ブローカー・アプリケーションが、オーディオ・データの宛先であるコンピュータまたは装置を判別する。これは、多様な可能な仕方のいずれで達成されてもよく、その例については下記で論じる。
たとえば、いくつかの実施形態では、モバイル通信装置がサーバーにオーディオ・データを送信するとき、そのオーディオとともに、ユーザーおよび/またはモバイル通信装置を同定する識別子を送ってもよい。そのような識別子は、多様な可能な形のいずれを取ってもよい。たとえば、いくつかの実施形態では、識別子は、オーディオを提供するためにユーザーがモバイル通信装置上でアプリケーション・プログラムに入力するユーザー名および/またはパスワードであってもよい。モバイル通信装置が携帯電話である代替的な実施形態では、識別子は携帯電話の電話番号であってもよい。いくつかの実施携帯では、識別子は、モバイル通信装置にその製造業者または他の何らかのエンティティによって割り当てられた、普遍一意識別子(UUID: universally unique identifier)または保証された一意識別子(GUID: guaranteed unique identifier)であってもよい。他のいかなる好適な識別子が使用されてもよい。
下記でより詳細に述べるように、サーバー上で実行されているブローカー・アプリケーションは、受領されたオーディオ・データがどのコンピュータまたは装置に送られるべきかを決定する際に、モバイル通信装置によってオーディオ・データとともに送信される識別子を使ってもよい。
いくつかの実施形態では、モバイル通信装置は、オーディオ・データの各送信とともに識別子を送る必要はない。たとえば、識別子は、モバイル通信装置とサーバーとの間のセッションを確立するために使われてもよく、識別子はそのセッションに関連付けられてもよい。このようにして、セッションの一部として送られるいかなるオーディオ・データもその識別子に関連付けられてもよい。
ブローカー・アプリケーションは、受領されたオーディオ・データをどのコンピュータまたは装置に送るかを決定するために、ユーザーおよび/またはモバイル通信装置を同定する識別子をいかなる好適な仕方で使ってもよい。ここではその限定しない例を述べる。たとえば、図2を参照するに、いくつかの実施形態では、コンピュータ205は、サーバー211がモバイル通信装置203から何らかのオーディオ・データを受け取ったかどうかを判定するために定期的にサーバー211をポーリングしてもよい。サーバー211をポーリングするとき、コンピュータ205は、モバイル通信装置203によってサーバー211に提供されたオーディオ・データに関連付けられた識別子またはサーバーがその識別子にマッピングするために使用できる他の何らかの識別子をサーバー211に提供してもよい。このように、サーバー211がコンピュータ205から識別子を受信するとき、サーバーは、受信された識別子に関連付けられたオーディオ・データを同定し、受信された識別子に関連付けられたオーディオ・データがポーリングするコンピュータに与えられるべきであると判別してもよい。このようにして、ユーザー217の発話から生成されたオーディオ(他のユーザーのモバイル通信装置から提供されたオーディオ・データではなく)が、ユーザーのコンピュータに提供される。
コンピュータ205は、ユーザー217のモバイル通信装置(すなわち、モバイル通信装置203)によってサーバー211に提供される識別子を、多様な可能な仕方のうちのいずれで取得してもよい。たとえば、いくつかの実施形態では、音声対応アプリケーション207および/またはコンピュータ205は、音声対応アプリケーションの各ユーザーについてのレコードを記憶してもよい。レコードの一つのフィールドは、ユーザーのモバイル通信装置に関連付けられた識別子を含んでいてもよい。該識別子は、たとえば、手動で提供され、ユーザーによって入力されてもよい(たとえば、ユーザーが装置を音声対応アプリケーションに登録する一度きりの登録プロセスを介して)。このように、ユーザーがコンピュータ205にログインするとき、そのユーザーについてのレコードに記憶されている識別子が、オーディオ・データがあるかどうかサーバー211をポーリングするときに使用されてもよい。たとえば、ユーザー217についてのレコードは、モバイル通信装置203に関連付けられた識別子を記憶してもよい。ユーザー217がコンピュータ205にログインされるとき、コンピュータ205は、ユーザー217についてのレコードからの識別子を使ってサーバー211をポーリングする。このようにして、サーバー211は、モバイル通信装置から受信されたオーディオ・データがどのコンピュータに送られるべきかを決定してもよい。
上記で論じたように、サーバー211は、多数の異なるユーザーからおよび多数の異なる装置から提供されるオーディオ・データを受信してもよい。各オーディオ・データについて、サーバー211は、オーディオ・データに関連付けられた識別子を宛先装置に関連付けられた識別子と照合またはマッピングすることによって、オーディオ・データがどの宛先装置に提供されるべきかを決定してもよい。オーディオ・データは、オーディオ・データとともに提供された識別子が合致したまたはマッピングされた識別子に関連付けられた宛先装置に提供されてもよい。
上記の例においては、サーバー上で実行されるブローカー・アプリケーションが、コンピュータまたは装置からのポーリング要求に応答して、モバイル通信装置から受信されるオーディオ・データがどのコンピュータまたは装置に送られるべきかを決定する。この点で、該コンピュータまたは装置は、サーバーからオーディオ・データを「プル」していると見ることができる。しかしながら、いくつかの実施形態では、コンピュータまたは装置がオーディオ・データをサーバーからプルするのではなく、サーバーがオーディオ・データをコンピュータまたは装置に「プッシュ」してもよい。たとえば、コンピュータまたは装置は、音声対応アプリケーションが立ち上げられたとき、コンピュータが電源投入されたときまたは他の任意の好適な時点において、セッションを確立してもよく、オーディオを提供するユーザーおよび/またはモバイル通信装置を同定するためにブローカー・アプリケーションにいかなる好適な識別子(その例は上記で論じた)を提供してもよい。ブローカー・アプリケーションがモバイル通信装置からオーディオ・データを受信するとき、ブローカー・アプリケーションは対応するセッションを同定し、オーディオ・データを合致するセッションをもつコンピュータまたは装置に送ってもよい。
工程309後、図3のプロセスは工程311に進む。ここでは、サーバー上のブローカー・アプリケーションはオーディオ・データを、工程309において決定されたコンピュータまたは装置に送る。これは、いかなる好適な仕方で行われてもよい。たとえば、ブローカー・アプリケーションはインターネットを通じて、企業イントラネットを介してまたは他の任意の好適な仕方で、そのコンピュータまたは装置にオーディオ・データを送ってもよい。プロセスは次に工程313に進む。ここでは、工程309において同定されたコンピュータまたは装置は、サーバー上のブローカー・アプリケーションから送られたオーディオ・データを受信する。プロセスは次いで工程315に進む。ここでは、そのコンピュータまたは装置上のまたはそのコンピュータまたは装置に結合された自動音声認識(ASR)エンジンが、受領されたオーディオ・データに対して自動音声認識を実行して認識結果を生成する。プロセスは次に工程317に進む。ここでは、ASRエンジンから、コンピュータ上で実行されている音声対応アプリケーションに、認識結果が渡される。
音声対応アプリケーションは、認識結果を受け取るために、そのコンピュータ上のまたはそのコンピュータに結合されたASRエンジンといかなる好適な仕方で通信してもよい。本発明の諸側面はこの点に関して限定されるものではない。たとえば、いくつかの実施形態では、音声対応アプリケーションおよびASRエンジンは、連絡するために音声アプリケーション・プログラミング・インターフェース(API: application programming interface)を使ってもよい。
いくつかの実施形態では、音声対応アプリケーションは、音声認識を実行する際にASRエンジンを支援しうるコンテキストをASRエンジンに提供してもよい。たとえば、図2に示されるように、音声対応アプリケーション207はコンテキスト213をASRエンジン209に提供してもよい。ASRエンジン209はそのコンテキストを使って結果215を生成してもよく、結果215を音声対応アプリケーションに提供してもよい。音声対応アプリケーションから提供されたコンテキストは、音声対応アプリケーションに向けられるオーディオ・データの自動音声認識において支援するためにASRエンジン209によって使用可能な任意の情報であってよい。たとえば、いくつかの実施形態では、音声対応アプリケーションに向けられるオーディオ・データは、音声対応アプリケーションによって提供または表示されるフォームにおける特定のフィールドに入れられることが意図された単語であってもよい。たとえば、オーディオ・データは、そのようなフォームにおける「住所」フィールドに記入するために意図された発話であってもよい。音声対応アプリケーションはASRエンジンにフィールド名(たとえば「住所」)または当該フィールドについての他の情報を、コンテキスト情報として供給してもよく、ASRエンジンは、音声認識において支援するためにこのコンテキストをいかなる好適な仕方で使ってもよい。
上記の例示的な実施形態では、ASRエンジンおよび音声対応アプリケーションは同じコンピュータ上で実行される。しかしながら、本発明はこの点に関して限定されるものではなく、いくつかの実施形態では、ASRエンジンおよび音声対応アプリケーションは異なるコンピュータ上で実行されてもよい。たとえば、いくつかの実施形態では、ASRエンジンは、ブローカー・アプリケーションを実行するサーバーとは別個の、別のサーバー上で実行されてもよい。たとえば、企業は一つまたは複数の専用のASRサーバーを有していてもよく、ブローカー・アプリケーションは、そのようなサーバーと通信して、オーディオ・データに対する音声認識結果を取得してもよい。
図4に示される代替的な実施形態では、ASRエンジンは、ブローカー・アプリケーションと同じサーバー上で実行されてもよい。図4は、ユーザーが、ハンドヘルド・モバイル通信装置に音声入力を提供し、該ハンドヘルド・モバイル通信装置とは別個のコンピュータ上で実行されている音声対応アプリケーションと対話しうるコンピュータ・システムを示している。図2におけるように、ユーザー217は音声対応アプリケーション207(コンピュータ205上で実行されている)のために意図された発話を、モバイル通信装置203のマイクロホンに提供してもよい。モバイル通信装置203は、サーバー211の一つで実行されているブローカー・アプリケーション219に前記発話のオーディオを送る。しかしながら、図2のシステムとは異なり、受信したオーディオをコンピュータ205に提供するのではなく、ブローカー・アプリケーション219は受信したオーディオを、やはりサーバー211で実行されているASRエンジン403に送る。いくつかの実施形態では、ASRエンジン403は、ブローカー・アプリケーション219と同じサーバー上で動作してもよい。他の実施形態では、ASRエンジン403は、ブローカー・アプリケーション219とは異なるサーバー上で実行されてもよい。この点に関し、ブローカー・アプリケーションおよびASR機能は、いかなる好適な仕方で一つまたは複数のコンピュータの間で分散されることもできる(たとえば、一つまたは複数のサーバーがブローカーまたはASRエンジンとしてのみはたらくよう専用にされており、一つまたは複数のコンピュータは両方の機能を果たすなど)。本発明はこの点で限定されるものではない。
図4に示されるように、ブローカー・アプリケーション219は、モバイル通信装置203から受領されたオーディオ・データ(すなわちオーディオ・データ405)をASRエンジン403に送ってもよい。ASRエンジンは、一つまたは複数の認識結果409をブローカー・アプリケーション219に返してもよい。ブローカー・アプリケーション219は次いで、ASRエンジン403から受領された認識結果409を、コンピュータ205上の音声対応アプリケーション207に送信してもよい。このようにして、コンピュータ205は、音声対応アプリケーション207がユーザーから提供される音声入力を受け取ることができるようにするASRエンジンを実行する必要がない。
代替的な実施形態では、ブローカー・アプリケーションは、どの宛先装置に認識結果が提供されるべきかをASRエンジンに通知してもよく、ASRエンジンは、認識結果をブローカー・アプリケーションに返送するのではなく、認識結果をその装置に提供してもよい。
上記で論じたように、いくつかの実施形態では、音声対応アプリケーション207は、音声認識において支援するための、ASRエンジンによって使用されるコンテキストを提供してもよい。こうして、図4に示されるように、いくつかの実施形態では、音声対応アプリケーション207はコンテキスト407をブローカー・アプリケーション219に提供してもよく、ブローカー・アプリケーション219はオーディオ405とともにコンテキストをASRエンジン403に提供してもよい。
図4では、コンテキスト407は、205上の音声対応アプリケーション207からブローカー・アプリケーション219に直接提供されるように示されており、結果409はローカー・アプリケーション219から音声対応アプリケーション207に直接提供されるように示されている。しかしながら、これらの情報は、音声対応アプリケーションとブローカー・アプリケーションとの間で、インターネット201を介して、イントラネットを介してまたは他の任意の好適な通信媒体を介して通信されてもよい。同様に、ブローカー・アプリケーション219およびASRエンジン403が異なるサーバー上で実行される実施形態では、それらのサーバーの間で情報は、インターネット、イントラネットまたは他の任意の好適な仕方を介して交換されてもよい。
図2〜図4との関連で上記で論じた例において、モバイル通信装置203は、インターネットまたは企業イントラネットのようなデータ・ネットワークを介してオーディオ・データをサーバー211に提供するものとして描かれている。しかしながら、本発明はこの点において限定されるものではなく、いくつかの実施形態では、オーディオ・データをサーバー211に提供するために、ユーザーはモバイル通信装置203を使ってある電話番号をダイヤルして、オーディオ・データを受け入れてそのオーディオ・データをサーバー211に提供するサービスに電話をかけてもよい。このように、ユーザーは、サービスに関連付けられた電話番号をダイヤルして、オーディオ・データを与えるために電話に向かって話してもよい。いくつかのそのような実施形態では、オーディオ・データを提供するために、モバイル通信装置203の代わりに、地上線ベースの電話が使用されてもよい。
図2〜図4との関連で上記で論じた例において、コンピュータ上で実行されている音声対応アプリケーションのための音声入力を提供するために、ユーザーは、有線接続でも無線接続でもそのコンピュータに接続されていないモバイル通信装置に向かって話す。しかしながら、いくつかの実施形態では、モバイル通信装置は、そのコンピュータに有線または無線接続を介して接続されていてもよい。そのような実施形態では、オーディオがモバイル通信装置203からコンピュータ205にこれらの装置間の無線または有線接続を介して提供されるので、どの宛先装置にオーディオ・データが提供されるべきかを判別するためにブローカー・アプリケーションは必要ではない。このように、そのような実施形態では、オーディオ・データに対してASRが実行できるようコンピュータ205がオーディオ・データをサーバーに提供し、サーバーはASRの結果をコンピュータ205に返送する。サーバーは多様な異なるコンピュータからASR機能の要求を受け取ってもよいが、上記で論じたブローカー機能を提供する必要はない。オーディオ・データからの認識結果は、サーバーにオーディオ・データを送ったその同じ装置に返送されるからである。
図5は、モバイル通信装置203が有線接続または無線接続でありうる接続503を介してコンピュータ205に接続されるシステムのブロック図である。こうして、ユーザー217は音声対応アプリケーションのために意図された発話を、モバイル通信装置203のマイクロホンに向かって提供してもよい。モバイル通信装置203は受け取った発話をオーディオ・データ501としてコンピュータ205に送ってもよい。コンピュータ205は、モバイル通信装置から受け取ったオーディオ・データを、サーバー211上で実行されるASRエンジン505に送ってもよい。ASRエンジン505は受け取ったオーディオ・データに対して自動音声認識を実行し、認識結果511を音声対応アプリケーション511に送ってもよい。
いくつかの実施形態では、コンピュータ205は、音声認識の実行においてASRエンジンを支援するために、オーディオ・データ501とともに、音声対応アプリケーション207からのコンテキスト507をASRエンジン505に提供してもよい。
図5では、モバイル通信装置203は、インターネットに接続されているものとして示されている。しかしながら、図5に描かれた実施形態では、装置203は、有線または無線接続を介して直接、コンピュータ205にオーディオ・データを提供したので、インターネットに接続される必要はない。
上記で論じた各コンピューティング装置(たとえば、コンピュータ、モバイル通信装置、サーバーおよび/または他の任意の上記で論じたコンピューティング装置)はいかなる好適な仕方で実装されてもよい。図6は、上記で論じたコンピューティング装置の任意のものを実装するために使用されうる例示的なコンピューティング装置600のブロック図である。
コンピューティング装置600は、一つまたは複数のプロセッサ601および一つまたは複数の有形な、非一時的なコンピュータ可読記憶媒体(たとえば、有形なコンピュータ可読記憶媒体603)を含んでいてもよい。コンピュータ可読記憶媒体603は、有形な非一時的コンピュータ可読記憶媒体において、上記の機能のいずれかを実装するコンピュータ命令を記憶していてもよい。プロセッサ601はメモリ603に結合されていてもよく、上記機能を実現および実行させるそのようなコンピュータ命令を実行してもよい。
コンピューティング装置600はまた、ネットワーク入出力(I/O)インターフェース605をも含んでいてもよく、それを介してコンピューティング装置は他のコンピュータと(たとえばネットワークを通じて)通信してもよく、コンピューティング装置の型に依存して、一つまたは複数のユーザーI/Oインターフェースをも含んでいてもよく、それを介してユーザーに出力を提供し、ユーザーから入力を受け取ってもよい。ユーザーI/Oインターフェースは、キーボード、マウス、マイクロホン、ディスプレイ装置(たとえばモニタまたはタッチスクリーン)、スピーカー、カメラおよび/またはさまざまな他の型のI/O装置のような装置を含んでいてもよい。
図2〜図4との関連での上記の議論から理解されるはずであるが、上記のシステムおよび方法により、ユーザーは、自分のコンピュータ上で音声対応アプリケーションを立ち上げ、有線または無線接続を介して前記コンピュータに接続されていないモバイル通信装置にオーディオを提供し、そのオーディオ・データから得られた認識結果を前記コンピュータ上でリアルタイムでまたは実質的にリアルタイムで見ることができる。本稿での用法では、リアルタイムで結果を見るとは、オーディオ・データに対する認識結果がユーザーのコンピュータ上に、ユーザーがオーディオ・データを提供したあと1分以内に、より好ましくはユーザーがオーディオ・データを提供したあと10秒以内に現れることを意味する。
さらに、図2〜図4との関連での上記のシステムおよび方法を使うと、モバイル通信装置はユーザーからオーディオ・データを受け取り(たとえば組み込みマイクロホンを介して)、該オーディオ・データをサーバーに送り、サーバーがそのオーディオ・データの受け取りを確認したのちは、サーバーからのいかなる応答も期待しない。すなわち、オーディオ・データおよび/または認識結果は、モバイル通信装置とは別個の宛先装置に提供されるので、モバイル通信装置は、オーディオ・データの内容に基づくサーバーからの認識結果や応答を待ったり、期待したり、受け取ったりすることはないのである。
上記の議論から認識されるはずであるが、サーバー211上のブローカー・アプリケーション(単数または複数)は、多くのユーザーおよび多くの宛先装置のためにブローカー・サービスを提供してもよい。この点に関し、サーバー211は、「クラウドにおいて」ブローカー・サービスを提供していると考えてもよい。クラウドにあるサーバーは、多数の異なるユーザーからのオーディオ・データを受信し、該オーディオ・データおよび/または該オーディオ・データから(たとえば該オーディオ・データに対してASRを実行することによって)得られる結果が送られるべき宛先装置を決定し、適切な宛先装置にオーディオ・データおよび/または結果を送ってもよい。あるいはまた、サーバー211は、企業において運用されるサーバーであってもよく、ブローカー・サービスを企業内のユーザーに提供してもよい。
上記の議論から、サーバー211の一つで実行されているブローカー・アプリケーションがある装置(たとえばモバイル通信装置)からオーディオ・データを受け取って該オーディオ・データおよび/または該オーディオ・データから(たとえば該オーディオ・データに対してASRを実行することによって)得られる結果を異なる装置(たとえば、ユーザーが音声対応アプリケーション・プログラムにアクセスできるユーザー・インターフェースを実行または提供するコンピュータ)に提供してもよいことが理解されるはずである。ブローカー・アプリケーションがオーディオ・データを受け取るもとの装置およびブローカー・アプリケーションがオーディオ・データおよび/または結果を提供する先の装置は、ブローカー・アプリケーションを実行するサーバーを所有または運営するのと同じエンティティによって所有または管理される必要はない。たとえば、モバイル装置の所有者は、サーバーを所有または運営するエンティティの従業員であってもよいし、あるいはそのようなエンティティの顧客であってもよい。
本発明の上記の実施形態は多数の仕方のいずれで実装されることもできる。たとえば、実施形態は、ハードウェア、ソフトウェアまたはそれらの組み合わせを使って実装されてもよい。ソフトウェアで実装されるときは、ソフトウェア・コードは、いかなる好適なプロセッサまたは単一のコンピュータに設けられていようと複数コンピュータの間に分散されていようとプロセッサの集合上で、実行されることもできる。上記の機能を実行する任意のコンポーネントまたはコンポーネントの集合が一般に、上記で論じられた機能を制御する一つまたは複数のコントローラと考えられることができることは理解されるはずである。該一つまたは複数のコントローラは、専用ハードウェアを用いる、または上記の機能を実行するようマイクロコードまたはソフトウェアを使ってプログラムされる汎用ハードウェア(たとえば一つまたは複数のプロセッサ)を用いるなど、多数の仕方で実装できる。
この点に関し、本発明のさまざまな実施形態の一つの実装は、一つまたは複数のコンピュータまたは他のプロセッサ上で実行されたときに本発明のさまざまな実施形態の上記で論じた機能を実行する一つまたは複数のコンピュータ・プログラム(すなわち複数の命令)をエンコードされた少なくとも一つの有形な非一時的なコンピュータ可読記憶媒体(たとえば、コンピュータ・メモリ、フロッピー(登録商標)ディスク、コンパクトディスクおよび光ディスク、磁気テープ、フラッシュメモリ、フィールド・プログラム可能なゲート・アレイ(Field Programmable Gate Array)における回路構成または他の半導体デバイスなど)を有することは理解されるはずである。該コンピュータ可読記憶媒体は、それに記憶されたプログラム(単数または複数)が本稿で論じた本発明のさまざまな側面を実装するために任意のコンピュータ上にロードされることができるよう、可搬であってもよい。さらに、実行されたときに上記で論じた機能を実行するコンピュータ・プログラムへの言及は、ホスト・コンピュータ上で走るアプリケーション・プログラムに限定されないことは理解しておくべきである。むしろ、コンピュータ・プログラムの用語は本稿では、本発明の上記で論じた側面を実装するためにプロセッサをプログラムするために用いることのできる任意の型のコンピュータ・コード(たとえばソフトウェアまたはマイクロコード)を指して一般的な意味で使われる。
本発明のさまざまな側面は、単独で使用されても、組み合わせて使用されても、あるいは以上で記載された実施形態において具体的に論じられていない多様な構成で使用されてもよく、したがって、その応用において、以上の記述において述べられているまたは図面において例解されている詳細およびコンポーネントの構成に限定されるものではない。たとえば、ある実施形態において記述される側面は他の実施形態において記述される側面といかなる仕方で組み合わされてもよい。
また、本発明の実施形態は、一つまたは複数の方法として実装されてもよい。それについて例を提供した。該方法の一部として実行される工程は、いかなる好適な仕方で順序付けされてもよい。よって、たとえ例示的な実施形態において逐次的な諸工程として示されていたとしても、工程が例解したのとは異なる順序で実行される実施形態が構築されてもよく、いくつかの工程を同時に実行することを含んでいてもよい。
請求項の要素を修飾する、請求項における「第一」「第二」「第三」などの序数の使用は、それ自身が、ある請求項の要素の他の要素に対する優先、先行もしくは順序または方法の工程が実行される時間的順序を含意するものではない。そのような用語は単に、ある名称をもつ請求項要素を(序数の使用を除いて)同じ名称をもつ別の要素から区別するためのラベルとして使われている。
本稿で使われる表現および用語は説明のためであって、限定すると見なされるべきではない。「含む」「有する」「もつ」「含有する」「関わる」およびその変形は、挙げられている項目および追加的な項目を包含することを意図されている。
本発明のいくつかの実施形態を詳細に記載してきたが、さまざまな修正および改善が当業者には思いつくであろう。そのような修正および改善は、本発明の精神および範囲内であることが意図される。よって、以上の記述は単に例であって、限定として意図されてはいない。本発明は、以下の請求項およびその等価物によってのみ定義される。

Claims (20)

  1. コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与える方法であって:
    少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し;
    前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し;
    前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送ることを含む、
    方法。
  2. 前記モバイル通信装置がスマートフォンを有する、請求項1記載の方法。
  3. 前記少なくとも一つのサーバーが少なくとも一つの第一のサーバーであり、前記認識結果を取得する動作がさらに:
    前記オーディオ・データを少なくとも一つの第二のサーバー上で実行される自動音声認識(ASR)エンジンに送り;
    前記少なくとも一つの第二のサーバー上の前記少なくとも一つのASRエンジンからの前記認識結果を受領することを含む、
    請求項1記載の方法。
  4. 前記認識結果を取得する動作がさらに:
    前記少なくとも一つのサーバー上で実行される少なくとも一つの自動音声認識(ASR)エンジンを使って前記認識結果を生成することを含む、
    請求項1記載の方法。
  5. 前記コンピュータが複数のコンピュータのうちの第一のコンピュータであり、当該方法がさらに:
    前記モバイル通信装置から、前記オーディオ・データに関連付けられた識別子を受け取り;
    前記識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
    請求項1記載の方法。
  6. 前記識別子が第一の識別子であり、前記第一の識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別する動作がさらに:
    前記第一のコンピュータから、第二の識別子を含むオーディオ・データの要求を受領し;
    前記第一の識別子が前記第二の識別子に一致するまたは対応するかどうかを判定し;
    前記第一の識別子が前記第二の識別子に一致するまたは対応すると判定される場合、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
    請求項5記載の方法。
  7. 前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る動作が、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することに応答して実行される、請求項6記載の方法。
  8. 少なくとも一つのサーバー・コンピュータの少なくとも一つのプロセッサによって実行されたときに、コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与える方法を実行する命令をエンコードされた少なくとも一つの非一時的な有形のコンピュータ可読媒体であって、前記方法は、
    前記少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し;
    前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し;
    前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送ることを含む、
    コンピュータ可読媒体。
  9. 前記モバイル通信装置がスマートフォンを有する、請求項8記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
  10. 前記少なくとも一つのサーバーが少なくとも一つの第一のサーバーであり、前記認識結果を取得する動作がさらに:
    前記オーディオ・データを少なくとも一つの第二のサーバー上で実行される自動音声認識(ASR)エンジンに送り;
    前記少なくとも一つの第二のサーバー上の前記少なくとも一つのASRエンジンからの前記認識結果を受領することを含む、
    請求項8記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
  11. 前記認識結果を取得する動作がさらに:
    前記少なくとも一つのサーバー上で実行される少なくとも一つの自動音声認識(ASR)エンジンを使って前記認識結果を生成することを含む、
    請求項8記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
  12. 前記コンピュータが複数のコンピュータのうちの第一のコンピュータであり、前記方法がさらに:
    前記モバイル通信装置から、前記オーディオ・データに関連付けられた識別子を受け取り;
    前記識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
    請求項8記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
  13. 前記識別子が第一の識別子であり、前記第一の識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別する動作がさらに:
    前記第一のコンピュータから、第二の識別子を含むオーディオ・データの要求を受領し;
    前記第一の識別子が前記第二の識別子に一致するまたは対応するかどうかを判定し;
    前記第一の識別子が前記第二の識別子に一致するまたは対応すると判定される場合、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
    請求項12記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
  14. 前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る動作が、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することに応答して実行される、請求項13記載の少なくとも一つの非一時的な有形のコンピュータ可読媒体。
  15. コンピュータ上で実行される音声対応アプリケーション・プログラムに入力を与えるためのプロセッサ実行可能命令を記憶した少なくとも一つの有形の記憶媒体と;
    少なくとも一つのハードウェア・プロセッサとを有する少なくとも一つのサーバー・コンピュータであって、前記少なくとも一つのハードウェア・プロセッサは、前記プロセッサ実行可能命令を実行して:
    前記少なくとも一つのサーバー・コンピュータにおいて、有線または無線接続によって前記コンピュータに接続されていないモバイル通信装置から与えられるオーディオ・データを受領し;
    前記少なくとも一つのサーバー・コンピュータにおいて、前記オーディオ・データに対して自動音声認識を実行することから生成される認識結果を取得し;
    前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る、
    サーバー・コンピュータ。
  16. 前記少なくとも一つのサーバーが少なくとも一つの第一のサーバーであり、前記少なくとも一つのハードウェア・プロセッサが前記プロセッサ実行可能命令を実行して前記認識結果を取得することを:
    前記オーディオ・データを少なくとも一つの第二のサーバー上で実行される自動音声認識(ASR)エンジンに送り;
    前記少なくとも一つの第二のサーバー上の前記少なくとも一つのASRエンジンからの前記認識結果を受領することによって行う、
    請求項15記載の少なくとも一つのサーバー・コンピュータ。
  17. 前記少なくとも一つのサーバーが少なくとも一つの第一のサーバーであり、前記少なくとも一つのハードウェア・プロセッサが前記プロセッサ実行可能命令を実行して前記認識結果を取得することを:
    前記少なくとも一つのサーバー上で実行される少なくとも一つの自動音声認識(ASR)エンジンを使って前記認識結果を生成することによって行う、
    請求項15記載の少なくとも一つのサーバー・コンピュータ。
  18. 前記コンピュータが複数のコンピュータのうちの第一のコンピュータであり、前記少なくとも一つのハードウェア・プロセッサが前記命令を実行して:
    前記モバイル通信装置から、前記オーディオ・データに関連付けられた識別子を受け取り;
    前記識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別する、
    請求項15記載の少なくとも一つのサーバー・コンピュータ。
  19. 前記識別子が第一の識別子であり、少なくとも一つのハードウェア・プロセッサが、前記第一の識別子を使って、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを:
    前記第一のコンピュータから、第二の識別子を含むオーディオ・データの要求を受領し;
    前記第一の識別子が前記第二の識別子に一致するまたは対応するかどうかを判定し;
    前記第一の識別子が前記第二の識別子に一致するまたは対応すると判定される場合、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することを含む、
    請求項18記載の少なくとも一つのサーバー・コンピュータ。
  20. 前記少なくとも一つのハードウェア・プロセッサが、前記認識結果を前記少なくとも一つのサーバー・コンピュータから前記音声対応アプリケーション・プログラムを実行している前記コンピュータに送る動作が、前記第一のコンピュータが、前記複数のコンピュータのうちの前記認識結果が送られるべきものであることを判別することに応答して実行される、請求項19記載の少なくとも一つのサーバー・コンピュータ。
JP2013528268A 2010-09-08 2011-09-07 音声対応アプリケーション・プログラムに入力を与える方法および装置 Withdrawn JP2013541042A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/877,347 2010-09-08
US12/877,347 US20120059655A1 (en) 2010-09-08 2010-09-08 Methods and apparatus for providing input to a speech-enabled application program
PCT/US2011/050676 WO2012033825A1 (en) 2010-09-08 2011-09-07 Methods and apparatus for providing input to a speech-enabled application program

Publications (1)

Publication Number Publication Date
JP2013541042A true JP2013541042A (ja) 2013-11-07

Family

ID=44764212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013528268A Withdrawn JP2013541042A (ja) 2010-09-08 2011-09-07 音声対応アプリケーション・プログラムに入力を与える方法および装置

Country Status (6)

Country Link
US (1) US20120059655A1 (ja)
EP (1) EP2591469A1 (ja)
JP (1) JP2013541042A (ja)
KR (1) KR20130112885A (ja)
CN (1) CN103081004B (ja)
WO (1) WO2012033825A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017157204A (ja) * 2016-03-04 2017-09-07 株式会社リコー インタラクティブ・ホワイトボード機器の音声制御
US10417021B2 (en) 2016-03-04 2019-09-17 Ricoh Company, Ltd. Interactive command assistant for an interactive whiteboard appliance

Families Citing this family (163)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8341142B2 (en) 2010-09-08 2012-12-25 Nuance Communications, Inc. Methods and apparatus for searching the Internet
US8239366B2 (en) 2010-09-08 2012-08-07 Nuance Communications, Inc. Method and apparatus for processing spoken search queries
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812474B2 (en) 2011-07-14 2014-08-19 Nuance Communications, Inc. Methods and apparatus for identifying and providing information sought by a user
US9489457B2 (en) 2011-07-14 2016-11-08 Nuance Communications, Inc. Methods and apparatus for initiating an action
US8635201B2 (en) 2011-07-14 2014-01-21 Nuance Communications, Inc. Methods and apparatus for employing a user's location in providing information to the user
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9646610B2 (en) 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US9144028B2 (en) 2012-12-31 2015-09-22 Motorola Solutions, Inc. Method and apparatus for uplink power control in a wireless communication system
CN103915095B (zh) * 2013-01-06 2017-05-31 华为技术有限公司 语音识别的方法、交互设备、服务器和系统
CN103971688B (zh) * 2013-02-01 2016-05-04 腾讯科技(深圳)有限公司 一种语音数据采集服务系统及方法
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10956433B2 (en) 2013-07-15 2021-03-23 Microsoft Technology Licensing, Llc Performing an operation relative to tabular data based upon voice input
US20160004502A1 (en) * 2013-07-16 2016-01-07 Cloudcar, Inc. System and method for correcting speech input
US10267405B2 (en) 2013-07-24 2019-04-23 Litens Automotive Partnership Isolator with improved damping structure
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102262421B1 (ko) * 2014-07-04 2021-06-08 한국전자통신연구원 모바일 기기를 이용한 음성인식 시스템
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
CN104683456B (zh) * 2015-02-13 2017-06-23 腾讯科技(深圳)有限公司 业务处理方法、服务器及终端
US9865280B2 (en) * 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
GB2552995A (en) * 2016-08-19 2018-02-21 Nokia Technologies Oy Learned model data processing
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9961642B2 (en) * 2016-09-30 2018-05-01 Intel Corporation Reduced power consuming mobile devices method and apparatus
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
JP6928842B2 (ja) * 2018-02-14 2021-09-01 パナソニックIpマネジメント株式会社 制御情報取得システム、及び、制御情報取得方法
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11087754B2 (en) 2018-09-27 2021-08-10 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11100926B2 (en) * 2018-09-27 2021-08-24 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US10841424B1 (en) 2020-05-14 2020-11-17 Bank Of America Corporation Call monitoring and feedback reporting using machine learning
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3402100B2 (ja) * 1996-12-27 2003-04-28 カシオ計算機株式会社 音声制御ホスト装置
EP0911808B1 (en) * 1997-10-23 2002-05-08 Sony International (Europe) GmbH Speech interface in a home network environment
US6492999B1 (en) * 1999-02-25 2002-12-10 International Business Machines Corporation Connecting and optimizing audio input devices
US7219123B1 (en) * 1999-10-08 2007-05-15 At Road, Inc. Portable browser device with adaptive personalization capability
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6721705B2 (en) * 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
US7558735B1 (en) * 2000-12-28 2009-07-07 Vianeta Communication Transcription application infrastructure and methodology
US20060149556A1 (en) * 2001-01-03 2006-07-06 Sridhar Krishnamurthy Sequential-data correlation at real-time on multiple media and multiple data types
US7318031B2 (en) * 2001-05-09 2008-01-08 International Business Machines Corporation Apparatus, system and method for providing speech recognition assist in call handover
JP2002333895A (ja) * 2001-05-10 2002-11-22 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
US7174323B1 (en) * 2001-06-22 2007-02-06 Mci, Llc System and method for multi-modal authentication using speaker verification
US20030078777A1 (en) * 2001-08-22 2003-04-24 Shyue-Chin Shiau Speech recognition system for mobile Internet/Intranet communication
US7023498B2 (en) * 2001-11-19 2006-04-04 Matsushita Electric Industrial Co. Ltd. Remote-controlled apparatus, a remote control system, and a remote-controlled image-processing apparatus
US20030191629A1 (en) * 2002-02-04 2003-10-09 Shinichi Yoshizawa Interface apparatus and task control method for assisting in the operation of a device using recognition technology
KR100434545B1 (ko) * 2002-03-15 2004-06-05 삼성전자주식회사 홈네트워크로 연결된 가전기기들을 제어하는 방법 및 장치
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7016845B2 (en) * 2002-11-08 2006-03-21 Oracle International Corporation Method and apparatus for providing speech recognition resolution on an application server
WO2004044887A1 (ja) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
FR2853126A1 (fr) * 2003-03-25 2004-10-01 France Telecom Procede de reconnaissance de parole distribuee
US9710819B2 (en) * 2003-05-05 2017-07-18 Interactions Llc Real-time transcription system utilizing divided audio chunks
US7363228B2 (en) * 2003-09-18 2008-04-22 Interactive Intelligence, Inc. Speech recognition system and method
US8014765B2 (en) * 2004-03-19 2011-09-06 Media Captioning Services Real-time captioning framework for mobile devices
EP1751916A1 (en) * 2004-05-21 2007-02-14 Cablesedge Software Inc. Remote access system and method and intelligent agent therefor
JP2006033795A (ja) * 2004-06-15 2006-02-02 Sanyo Electric Co Ltd リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US7581034B2 (en) * 2004-11-23 2009-08-25 Microsoft Corporation Sending notifications to auxiliary displays
KR100636270B1 (ko) * 2005-02-04 2006-10-19 삼성전자주식회사 홈 네트워크 시스템 및 그 제어방법
KR100703696B1 (ko) * 2005-02-07 2007-04-05 삼성전자주식회사 제어 명령 인식 방법 및 이를 이용한 제어 장치
US20060242589A1 (en) * 2005-04-26 2006-10-26 Rod Cooper System and method for remote examination services
US20080086311A1 (en) * 2006-04-11 2008-04-10 Conwell William Y Speech Recognition, and Related Systems
US20080091432A1 (en) * 2006-10-17 2008-04-17 Donald Dalton System and method for voice control of electrically powered devices
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
US8412522B2 (en) * 2007-12-21 2013-04-02 Nvoq Incorporated Apparatus and method for queuing jobs in a distributed dictation /transcription system
US9177551B2 (en) * 2008-01-22 2015-11-03 At&T Intellectual Property I, L.P. System and method of providing speech processing in user interface
US8407048B2 (en) * 2008-05-27 2013-03-26 Qualcomm Incorporated Method and system for transcribing telephone conversation to text
US8265671B2 (en) * 2009-06-17 2012-09-11 Mobile Captions Company Llc Methods and systems for providing near real time messaging to hearing impaired user during telephone calls
US9570078B2 (en) * 2009-06-19 2017-02-14 Microsoft Technology Licensing, Llc Techniques to provide a standard interface to a speech recognition platform
US20110067059A1 (en) * 2009-09-15 2011-03-17 At&T Intellectual Property I, L.P. Media control
CA2779289A1 (en) * 2009-10-28 2011-05-19 Google Inc. Computer-to-computer communication
US20110099507A1 (en) * 2009-10-28 2011-04-28 Google Inc. Displaying a collection of interactive elements that trigger actions directed to an item
US9865263B2 (en) * 2009-12-01 2018-01-09 Nuance Communications, Inc. Real-time voice recognition on a handheld device
US20110195739A1 (en) * 2010-02-10 2011-08-11 Harris Corporation Communication device with a speech-to-text conversion function
US8522283B2 (en) * 2010-05-20 2013-08-27 Google Inc. Television remote control data transfer

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017157204A (ja) * 2016-03-04 2017-09-07 株式会社リコー インタラクティブ・ホワイトボード機器の音声制御
JP2019049985A (ja) * 2016-03-04 2019-03-28 株式会社リコー インタラクティブ・ホワイトボード機器の音声制御
US10417021B2 (en) 2016-03-04 2019-09-17 Ricoh Company, Ltd. Interactive command assistant for an interactive whiteboard appliance

Also Published As

Publication number Publication date
KR20130112885A (ko) 2013-10-14
CN103081004B (zh) 2016-08-10
WO2012033825A1 (en) 2012-03-15
US20120059655A1 (en) 2012-03-08
EP2591469A1 (en) 2013-05-15
CN103081004A (zh) 2013-05-01

Similar Documents

Publication Publication Date Title
JP2013541042A (ja) 音声対応アプリケーション・プログラムに入力を与える方法および装置
US11922925B1 (en) Managing dialogs on a speech recognition platform
US10930277B2 (en) Configuration of voice controlled assistant
JP6414241B2 (ja) インタラクティブ・ホワイトボード機器の音声制御
US9666190B2 (en) Speech recognition using loosely coupled components
US10134395B2 (en) In-call virtual assistants
US20170046124A1 (en) Responding to Human Spoken Audio Based on User Input
US10178185B2 (en) Load-balanced, persistent connection techniques
US10827065B2 (en) Systems and methods for providing integrated computerized personal assistant services in telephony communications
US10057421B1 (en) Utilizing virtual user records for device management
KR102304086B1 (ko) 대화형 콘텐츠를 제공하는 전자 장치, 서버 및 이를 위한 방법
US20080181141A1 (en) Enhanced voicemail processing
US11012573B2 (en) Interactive voice response using a cloud-based service
CN108028044A (zh) 使用多个识别器减少延时的语音识别系统
JP2015169768A (ja) 対話履歴管理装置、対話装置および対話履歴管理方法
US20180268344A1 (en) Virtual dialogue crowdsourcing
US10178230B1 (en) Methods and systems for communicating supplemental data to a callee via data association with a software-as-a-service application
KR20150088532A (ko) 통화 중 서비스 제공 장치 및 이를 이용하는 방법
US20200075014A1 (en) Systems and methods for a wireless microphone to access remotely hosted applications
US11722572B2 (en) Communication platform shifting for voice-enabled device
US20180176385A1 (en) Supplementing telephony calls with conversational bots

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20141202