JP2014179067A - 音声インターフェースシステム及び方法 - Google Patents
音声インターフェースシステム及び方法 Download PDFInfo
- Publication number
- JP2014179067A JP2014179067A JP2014024192A JP2014024192A JP2014179067A JP 2014179067 A JP2014179067 A JP 2014179067A JP 2014024192 A JP2014024192 A JP 2014024192A JP 2014024192 A JP2014024192 A JP 2014024192A JP 2014179067 A JP2014179067 A JP 2014179067A
- Authority
- JP
- Japan
- Prior art keywords
- user
- data
- computing device
- mobile computing
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004891 communication Methods 0.000 claims description 49
- 238000003058 natural language processing Methods 0.000 claims description 29
- 235000012054 meals Nutrition 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000001413 cellular effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000005674 electromagnetic induction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】車両ベースの音声インターフェースのシステム及び方法を提供すること。
【解決手段】モバイルコンピューティング装置からアクセスすることのできる音声制御式システムが記載される。ユーザは自然言語発声を使用して要求を伝えることができる。マイクロフォンは発声を集め、集めた発声をモバイルコンピューティング装置に提供することができる。モバイルコンピューティング装置は、人の発声を音声インターフェースシステムに送ることができる。音声インターフェースシステムは、要求を実行するときに、ユーザ設定を利用してパーソナライズされたユーザ体験を提供することができる。また、コンピュータ実装方法も提供される。
【選択図】図1
【解決手段】モバイルコンピューティング装置からアクセスすることのできる音声制御式システムが記載される。ユーザは自然言語発声を使用して要求を伝えることができる。マイクロフォンは発声を集め、集めた発声をモバイルコンピューティング装置に提供することができる。モバイルコンピューティング装置は、人の発声を音声インターフェースシステムに送ることができる。音声インターフェースシステムは、要求を実行するときに、ユーザ設定を利用してパーソナライズされたユーザ体験を提供することができる。また、コンピュータ実装方法も提供される。
【選択図】図1
Description
本発明は、音声認識の分野に関し、詳しくは、車両ベースの音声インターフェースのシステム及び方法に関する。
スマートフォン、タブレットなどといったモバイルコンピューティング装置が流行り、機器の機能性が高まるにつれて、ユーザが車両内にいる間にこのようなパーソナル機器を操作することが多くなる。これらのモバイルコンピューティング装置は、多くの場合、無線エアインターフェース上でデータネットワークに接続されたままである。グラフィカル・ユーザ・インターフェースを備える車両の中には、乗員のモバイルコンピューティング装置とグラフィカル・ユーザ・インターフェースとの間のデータ接続を提供し、それによって、セルラネットワーク無線エアインターフェース上で受け取られる情報が車両のグラフィカル・ユーザ・インターフェースに提供されることを可能にするものがある。
本発明の実施形態によれば、音声制御式システムが提供される。音声制御式システムは、ユーザ選好データを記憶するように構成されたユーザ選好データベースと、ユーザ選好データベースと通信する音声インターフェース・コンピューティング・システムと、を備える。音声インターフェース・コンピューティング・システムは、無線通信ネットワークを介してモバイルコンピューティング装置からオーディオデータを受け取るように構成されており、オーディオデータは人の発声を含む。また音声インターフェース・コンピューティング・システムは、オーディオデータを音声認識モジュールに送り、音声認識モジュールからテキストデータを受け取り、テキストデータを自然言語処理モジュールに送り、自然言語処理モジュールからコマンドセットを受け取るようにも構成されている。音声インターフェース・コンピューティング・システムは、コマンドセット及びユーザ選好データベースに記憶されたユーザ選好データに基づいてコマンドを実行するように更に構成されており、コマンドの実行は、リモートアプリケーションとの通信と、無線通信ネットワークを介したモバイルコンピューティング装置との通信とを含む。
本発明の別の実施形態によれば、コンピューティングシステムがユーザ選好データを受け取るステップと、コンピューティングシステムがモバイルコンピューティング装置から人の発声を含むオーディオデータを受け取るステップと、コンピューティングシステムがオーディオデータを音声認識モジュールに送ってオーディオデータと関連付けられたテキストデータを得るステップとを含む方法が提供される。またこの方法は、コンピューティングシステムがテキストデータを自然言語処理部に送るステップと、コンピューティングシステムが自然言語処理部からコマンドセットを受け取るステップと、コマンドセット及びユーザ設定データに基づいてコマンドを実行するステップとをも含む。
本発明の更なる別の実施形態によれば、ユーザ選好データを記憶するように構成されたユーザ選好データベースと、ユーザ選好データベースと通信する音声インターフェース・コンピューティング・システムと、を備えるシステムが提供される。音声インターフェース・コンピューティング・システムは、車載ネットワークに接続されたモバイルコンピューティング装置から車両の乗員の自然言語の人の発声を含むオーディオデータを受け取るように構成されている。また音声インターフェース・コンピューティング・システムは、人の発声の意図に基づいて音声インターフェース・コンピューティング・システムにコマンドセットを送るように構成された自然言語処理モジュールと通信し、コマンドセット及びユーザ選好データベースに記憶されたユーザ設定データに基づいてコマンドを実行し、モバイルコンピューティング装置により車両の乗員に情報を表示するようにも構成されている。
様々な実施形態は、以下の説明、添付の特許請求の範囲、及び添付の図面を考慮すればより良く理解されるであろう。
次に、本書で開示する音声インターフェースのシステム及び方法の構造、機能、及び使用の原理の全般的理解を提供するために、本開示の様々な非限定的実施形態を説明する。添付の図面にはこれらの非限定的実施形態のうちの1つもしくは複数が図示されている。当業者は、本書で具体的に説明され、添付の図面に図示されているシステム及び方法が非限定的実施形態であることを理解するであろう。ある非限定的実施形態との関連で図示され、又は説明される特徴は、他の非限定的実施形態の特徴と組み合わされてよい。そのような改変及び変形は本開示の範囲内に含まれるものであることが意図されている。
本書全体を通して、「様々な実施形態」、「いくつかの実施形態」、「ある実施形態」、「いくつかの例示的実施形態」、「ある例示的実施形態」、又は「一実施形態」という場合、それは、任意の実施形態との関連で説明される特定の特徴、構造、又は特性が少なくとも1つの実施形態に含まれることを意味するものである。よって、本書全体で「様々な実施形態において」、「いくつかの実施形態において」、「ある実施形態において」、「いくつかの例示的実施形態」、「ある例示的実施形態」、又は「一実施形態において」の各語句が使用されている場合、それは、必ずしもすべてが同じ実施形態を指すものであるとは限らない。更に、特定の特徴、構造、又は特性は、1つもしくは複数の実施形態において任意の適切なやり方で組み合わされてもよい。
本開示全体を通して、構成要素又はモジュールという場合、一般的には、論理的に一機能又は関連機能を果たすようにまとめてグループ化することのできる項目を指す。類似の参照番号(例えば、108、208、308など)は、一般的に、同じ構成要素又は類似の構成要素を指すものであることを意図する。構成要素及びモジュールは、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアの組み合わせとして実装することができる。ソフトウェアという用語は、実行可能コードのみならず、データ構造、データストア、ならびに任意の電子形式、ファームウェア、及び埋め込みソフトウェア内のコンピューティング命令も含むように広義で使用される。情報及びデータの各用語は広義で使用され、それだけに限らないが、機械実行可能命令又は機械解釈可能命令;特にテキスト、ビデオデータ、オーディオデータといったコンテンツ;及び様々なコード又はフラグを含む多種多様な電子情報を含むことができる。情報、データ、及びコンテンツの各用語は、文脈上許容されるときには、区別なく使用される場合もある。
本書で論じる各例は例示にすぎず、本書で説明する装置、機器、システム、及び方法の説明に役立つように提示されるものである。図面に示し、又は以下で論じる特徴又は構成要素のいずれも、特に必須であると指定しない限り、これらの装置、機器、システム、又は方法のいずれのいかなる特定の実装形態にも必須であるとみなすべきではない。読みやすさと明確さのために、ある特定の構成要素、モジュール、又は方法を、もっぱら特定の図だけとの関連で説明する場合もある。構成要素の組み合わせ又は部分的な組み合わせが具体的に記載されない場合があっても、それを、いかなる組み合わせも部分的な組み合わせも不可能であることを指示するものであると理解すべきではない。また、記載するいかなる方法についても、その方法が流れ図と併せて記載されるかどうかにかかわらず、特に指定されない限り、又は文脈上別の解釈が要求されない限り、方法の実行に際して行われるステップのいかなる明示的又は暗黙的な順序付けも、それらのステップが提示される順序で行われなければならないことを示唆するものではなく、異なる順序で、又は並列に行われてもよいことを理解すべきである。
車両は、様々な種類の情報を乗員室の乗員に提示するための1つもしくは複数のグラフィカル・ユーザ・インターフェースを備えることができる。情報の例としては、ナビゲーション情報、車載娯楽情報、車両診断情報、及びインターネットもしくは別の種類のネットワークへの無線接続を介して受け取られる情報などが含まれる。車両は、スマートフォン、タブレットコンピュータなどといったモバイルコンピューティング装置がユニバーサル・シリアル・バス(Universal Serial Bus:USB)、Wi‐Fi、BLUETOOTH(登録商標)、ZIGBEE、IEEE802.11xファミリのネットワークプロトコルのうちの1つ、又は任意の別の適切な無線もしくは有線ネットワークプロトコルといった車載ネットワークに接続されることが可能となっている。この接続によって、モバイルコンピューティング装置が受け取った情報を車両のグラフィカル・ユーザ・インターフェースに提供することができ、これにより、その情報を乗員室の乗員に見せ、又はそれ以外に車両が利用することができるようになる。いくつかの実施形態では、車両と通信するモバイルコンピューティング装置は、適切な無線通信プロトコルによってリモートサーバと通信する「app」と呼ばれることもあるソフトウェアアプリケーションも実行することができる。従って、モバイルコンピューティング装置上でのアプリケーションの実行中にリモートサーバから受け取られる情報を、車両のグラフィカル・ユーザ・インターフェースに中継し、又はそれ以外のやり方で車両に提供することができる。
本書に記載するシステム及び方法は、概して、車両の乗員が自然言語音声コマンドによって車両のグラフィカル・ユーザ・インターフェースと対話することを可能にするための技術を提供する。いくつかの実施形態では、非車載式の(例えばクラウドベースの)リアルタイム音声認識を利用して車両の乗員の自然言語コマンドを解釈して、乗員の選考に従ってコマンドを実行する。その結果、リモート音声認識システムとの自然言語コミュニケーションに基づくパーソナライズ又はカスタマイズされた機能を車両の乗員に提供することができる。
図1は、音声制御式システムの例示的な簡略化ブロック図を示す。モバイルコンピューティング装置108は、車載ネットワーク(図4に示す車載ネットワーク454など)を介して車両110と通信するものとして示されている。モバイルコンピューティング装置108は、スマートフォン、タブレットコンピュータ、ゲームシステム、ラップトップコンピュータなどといったネットワーク通信を行うことのできる任意の適切な機器とすることができる。以下で詳細に説明するように、モバイルコンピューティング装置108は、任意の適切な通信プロトコルを使用して任意の適切な種類のデータ接続によって車両110と通信することができる。例えばある実施形態では、モバイルコンピューティング装置108は有線接続によって車両110と通信し、別の実施形態では、モバイルコンピューティング装置108は無線接続によって車両110と通信する。いずれにしても、モバイルコンピューティング装置108は、音声インターフェースシステム100とも通信することができる。いくつかの実施形態では、音声インターフェースシステム100は、ウェブベースの通信によって、例えば、モバイルコンピューティング装置108上のウェブ・ブラウザ・アプリケーションによって生成されるコマンドによってアクセスされる。いくつかの実施形態では、音声インターフェースシステム100は、ウェブベースの通信によって、例えば、モバイルコンピューティング装置108にインストールされて実行される専用アプリケーションによってアクセスされる。
車両110は、車両の運転者又は(1名もしくは複数の)同乗者による発声112を受け取ることのできるマイクロフォン、又は別の種類の音声変換器を備えることができ、運転者又は同乗者の誰でも本書では「ユーザ」と呼ぶ。人の発声112は、更に、電子オーディオファイルの形式で車載ネットワークによってモバイルコンピューティング装置108に提供される。いくつかの実施形態では、車両110によって受け取られる音声は、データをモバイルコンピューティング装置108に提供する前に、非可逆コーデック又は他のデータ圧縮技術を利用して圧縮される。オーディオファイルの圧縮には、特に、待ち時間を低減させることができるという利点があることは理解されたい。
ユーザによって提供される人の発声112は、自然言語形式とすることができ、もって、ユーザは、所望の機能を実行するのに必ずしも特定のコマンド又は語句を発することを求められるとは限らない。更に、人の発声112は、多種多様な話題又はコマンドに関するものとすることができる。例えば、人の発声112は、「腹が減った」や「最寄りのイタリアンレストランはどこにあるか」といった目的地ベースの要求とすることができる。また人の発声112は、「明日の会合での天気はどうなるか」といった、目的地及び天気に関連した要求とすることもできる。人の発声112は、「いくつか最新情報を示せ」といった、ソーシャルネットワークウェブサイト又は別の種類の第三者アプリケーションに関するものとすることさえもできる。また人の発声112は、「お気に入りの歌を再生せよ」や「この歌を歌っているのは誰?」といった車内娯楽に関するものとすることもできる。本開示の範囲を逸脱することなく、多数の別の種類の人の発声112を車両110に提供することができることは理解されたい。
図1を更に参照して、人の発声112を受け取ると、モバイルコンピューティング装置108は、オーディオデータを音声インターフェースシステム100に中継することができる。オーディオデータは、例えば、セルラネットワークやWi‐Fiネットワークといった任意の適切な無線エアインターフェース上で中継される。モバイルコンピューティング装置108からオーディオデータを受け取ると、音声インターフェースシステム100は、ユーザの意図を大まかに判定し、次いで、ユーザの意図と、利用可能な場合にはユーザの個人的な嗜好とに基づいて1つもしくは複数のコマンドを実行する。この処理の様々な側面を実行するために、音声インターフェースシステム100は、様々なモジュールと通信することができ、モジュールのうちのいくつかは、音声インターフェースシステム100から見て遠隔であり、例えばアプリケーション・プログラミング・インターフェース(application programming interface:API)を介してアクセス可能なものとすることができる。
図示の実施形態では、音声インターフェースシステム100は、音声認識モジュール104と通信し、音声認識モジュール104は、概して、オーディオデータをテキストデータに変換するよう機能する。音声認識モジュール104は、従来の音声テキスト変換処理アルゴリズムを利用して人の発声112をテキストベース形式に変換することができる。テキストデータが音声インターフェースシステム100によって音声認識モジュール104から受け取られた後で、テキストデータは、自然言語処理部102に提供されて更に処理される。自然言語処理部102は、自然言語理解(natural language understanding:NLU)のアルゴリズム及び技術を利用して人の発声112の意図を判定するように構成される。いくつかの実施形態では、自然言語処理部102は、参照によりその全体が本書に組み込まれる、「Lexical Acquisition Apparatus,Multi Dialogue Behavior System,and Lexical Acquisition Program」という名称の米国特許出願第2010/0332231号明細書に記載されている処理技術を利用する。
図1を更に参照して、自然言語処理部102は、人の発声112の意図に基づき、ユーザの要求を全体として満たすはずのコマンドセットを決定する。このコマンドセットは、次いで、音声インターフェースシステム100に提供されて実行される。いくつかの実施形態では、コマンドセット内のコマンドの実行は、音声インターフェースシステム100によって記憶された又は別の方法で音声インターフェースシステム100からアクセス可能な様々なユーザの嗜好又は個人データを利用してユーザの体験をパーソナライズすることができる。以下で詳細に説明するように、ユーザの選考には、食事の選考、ナビゲーションの選考、予約データ、履歴データ、ラジオ局の選考、娯楽の選考、環境制御の選考、温度設定の選考、シート位置の選考などが含まれるが、これらに限定されない。場合によっては、コマンドセット内のコマンドの実行は、ソーシャル・ネットワーキング・アプリケーション、ウェブ検索アプリケーション、カレンダアプリケーション、GPSアプリケーション、又は任意の他の適切な種類のアプリケーション、ウェブサイト、もしくはネットワークアクセス可能データといった1つもしくは複数のアプリケーション114との通信を必要とする。
関連付けられたアプリケーション114との通信に基づき、人の発声112に関連したデータ又は情報は、アプリケーション114のうちの1つから又は音声インターフェースシステム100によってモバイルコンピューティング装置108に提供される。いずれにしても、データ又は情報は、それがモバイルコンピューティング装置108によって受け取られた後で、続けて、車載ネットワークを使用して車両110に送られる。車両110は、次いで、情報をグラフィカル・ユーザ・ディスプレイ上に表示し又はそれ以外では情報を利用することができる。
図1に示される音声制御式システムの様々な構成要素をまとめてグループ化できることは理解されたい。例えば、いくつかの実施形態では、音声認識モジュール104及び/又は自然言語処理部102を音声インターフェースシステム100の構成要素とすることができる。更に、いくつかの実施形態では、音声認識モジュール104及び自然言語処理部102を組み合わせて、単一構成要素として機能させることができる。
図2は、別の音声制御式システムの例示的ブロック図を示す。音声制御式システムは、モバイルコンピューティング装置208からオーディオコンテンツを受け取り、処理する音声インターフェースシステム200を備える。音声インターフェースシステム200は、例えば、パーソナルコンピュータ、ラップトップ、サーバ、メインフレーム、又は複数のコンピュータの集合体(ネットワークなど)といった任意の適切なプロセッサベースの機器又はシステムを使用して設けることができる。音声インターフェースシステム200は、1つもしくは複数のプロセッサ(220など)と、1つもしくは複数のコンピュータ記憶部(222など)とを備える。便宜上、図2には1つのプロセッサ220と1つの記憶部222だけが示されている。プロセッサ220は、記憶部222に記憶されたソフトウェア命令を実行することができる。プロセッサ220は、1つもしくは複数のコアを有する集積回路(integrated circuit:IC)として実装できる。記憶部222は、揮発性記憶部及び/又は不揮発性記憶部を含む。揮発性記憶部は、例えばランダム・アクセス・メモリ(random access memory:RAM)を含む。不揮発性記憶部は、例えば、読取り専用メモリ(read only memory:ROM)や、例えばハード・ディスク・ドライブ、光ディスクドライブなどといった機械的不揮発性記憶システムを含む。RAM及び/又はROM記憶部は、例えば、ディスクリートメモリICとして実装できる。
記憶部222は、実行可能ソフトウェア及びデータを記憶することができ、もって、音声インターフェースシステム200のプロセッサ220がソフトウェアを実行すると、以下で詳細に論じるように、プロセッサ220は、コンピュータ機器から情報を受け取る、コンピュータ機器から受け取ったコマンドを処理する、ユーザデータベースに情報を記憶し、ユーザデータベース内の情報を取り出すといった、音声インターフェースシステム200の様々な動作を行うことができる。音声インターフェースシステム200によって使用されるデータは、データベース228からや別の種類の電子データストアといった様々なソースからのものとすることができる。データベース228は、例えば、ユーザ選好データベースを含む。データベース228に記憶されたデータは、ハード・ディスク・ドライブ、読取り専用メモリ(ROM ICなど)、別の種類の不揮発性メモリといった不揮発性コンピュータメモリに記憶される。またデータベース228と関連付けられたデータを、例えば、リモート電子コンピュータシステム上に記憶することもできる。
ユーザ設定218として図示されているユーザ選考データは、コンピューティング装置216と対話するユーザから音声インターフェースシステム200に受け取られる。いくつかの実施形態では、ユーザ設定218は、コンピューティング装置216によってユーザに提示されるウェブポータルを介して受け取られる。いくつかの実施形態では、コンピュータ機器216上で、ユーザが音声インターフェースシステム200にユーザ設定を提供することを可能にする専用アプリケーションを実行することができる。いくつかの実施形態では、コンピューティング装置216は、モバイルコンピューティング装置208であるが、本開示はそれだけに限定されない。以下で詳細に説明するように、ユーザは、概して、任意の適切なコンピューティング装置216を使用して音声インターフェースシステム200と対話して、ユーザの選考を記憶させて、パーソナライズされた音声対話体験がユーザに提供されるようにすることができる。ユーザ設定218に含まれるデータの種類は様々なものとすることができるが、例としては、お気に入りのレストラン、好ましい運転経路、カレンダ予約、連絡先アドレス、ソーシャルネットワーク情報、娯楽関連情報などが含まれる。またユーザ設定218は、例えば、音声インターフェースシステム200と関連付けられた専用アプリケーションが実行されるときにモバイルコンピューティング装置208上で表示される特定のアイコンの順序といった、グラフィカル表示設定も含むことができる。
図2に示すように、音声インターフェースシステム200はいくつかのコンピュータサーバを含むことができる。例えば、音声インターフェースシステム200は、1つもしくは複数のウェブサーバ(226など)及びアプリケーションサーバ(224など)を備えることができる。便宜上、図2には1台のウェブサーバ226及び1台のアプリケーションサーバ224だけしか示されていないが、本開示はそれだけに限定されないことを理解されたい。ウェブサーバ226は、システムのユーザが音声インターフェースシステム200と対話するためのグラフィカル・ウェブ・ユーザ・インターフェースを提供することができる。ウェブサーバ226は、クライアント(モバイルコンピューティング装置208上のウェブブラウザなど)からHTTP要求といった要求を受け入れ、HTTP応答といったクライアント応答を、ウェブページ(HTML文書など)やリンクオブジェクト(画像など)といった任意選択のデータコンテンツと一緒に供給することができる。
アプリケーションサーバ224は、ウェブブラウザを使用して音声インターフェースシステム200と通信しないユーザに対してユーザインターフェースを提供することができる。そのようなユーザは、通信ネットワークを介してアプリケーションサーバ224と通信することを可能にする専用ソフトウェアをモバイルコンピューティング装置208にインストールさせることができる。そのようなソフトウェアは、例えば、音声インターフェースシステム200や他のソフトウェアアプリケーション提供者(すなわち、Apple(商標)iStore(商標))から、例えばネットワークを通じて、モバイルコンピューティング装置208にダウンロードされる。
図2には例示の目的で限られた数の要素だけが図示されているが、音声インターフェースシステム200は、より多数又は小数の要素を含むことも、前述の実施形態に従った別の種類の要素を含むこともできることは理解されたい。音声インターフェースシステム200の要素は、所与の設計パラメータもしくは性能制約条件について求められるような、ハードウェア構成要素(コンピューティング装置、プロセッサ、論理回路など)として実装される情報を伝えるための物理エンティティ若しくは論理エンティティ、様々なハードウェア構成要素によって実行されるべき実行可能コンピュータプログラム命令(ファームウェア、ソフトウェアなど)、又は、それらの組み合わせを含む。
以下で詳細に説明するように、音声インターフェースシステム200は、音声認識(SR)モジュール204、自然言語処理モジュール202、及び/又はテキスト音声変換(text−to−speech:TTS)モジュール232といった他のモジュールと通信する(又は場合によってはこれらを含む)こともできる。音声インターフェースシステム200は、第三者アプリケーション214として大まかに図示されている様々な他のコンピュータベースのシステムとも通信することができる。第三者アプリケーション214の例としては、FACEBOOK(登録商標)、GOOGLE(登録商標)、LINKEDIN(登録商標)、PANDORA(登録商標)、IHEARTRADIO(登録商標)、TWITTER(登録商標)などが含まれる。音声インターフェースシステム200は、例えばAPIプロトコルを使用するなどの任意の適切な種類の通信を使用して、様々なモジュール及びアプリケーションと通信することができる。
音声インターフェースシステム200は、電子通信ネットワーク(不図示)を介してモバイルコンピューティング装置208と通信することができる。通信ネットワークは、インターネット、LAN、WAN、GPRSネットワークなどを含むいくつかのコンピュータネットワーク及び/又はデータネットワークを含むことができ、有線通信リンク及び/又は無線通信リンクを備えることができる。音声インターフェースシステム200と通信するモバイルコンピューティング装置208は、例えば、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、携帯情報端末(personal digital assistant:PDA)、携帯電話/PDAの組み合わさったもの、ゲーム機器、メッセージング機器、メディアプレーヤ、ページャ、タブレットコンピュータ、ノートブックコンピュータといったネットワーク上の無線通信に適した任意の種類のクライアント機器とすることができる。
モバイルコンピューティング装置208の中には、インターネットアクセスを含む無線広域ネットワーク(wireless wide area network:WWAN)データ通信サービスもサポートすることができるものもある。WWANデータ通信サービスの例には、EV−DO(Evolution−Data OptimizedもしくはEvolution−Data only)、EV−DV(Evolution For Data and Voice)、CDMA/1xRTT、GSM(登録商標)/GPRS(GSM(登録商標) with General Packet Radio Service systems)、EDGE(Enhanced Data Rates for Global Evolution)、HSDPA(High Speed Downlink Packet Access)、HSUPA(High Speed Uplink Packet Access)他が含まれる。モバイルコンピューティング装置208は、IEEE(Institute of Electrical and Electronics Engineers)802.xxシリーズのプロトコル、例えば、IEEE802.11a/b/g/nシリーズの標準プロトコル及びその変形(「Wi‐Fi」ともいう)、IEEE802.16シリーズの標準プロトコル及びその変形(「WiMAX」ともいう)、IEEE802.20シリーズの標準プロトコル及びその変形他に従った無線ローカル・エリア・ネットワーク(wireless local area network:WLAN)データ通信機能を提供することができる。
いくつかの実施形態では、モバイルコンピューティング装置208は、BLUETOOTH(登録商標)SIG(Special Interest Group)シリーズのプロトコル、仕様、プロファイルなどに従ったBLUETOOTH(登録商標)データ通信サービスを提供する無線パーソナル・エリア・ネットワーク(personal area network:PAN)といった短距離無線ネットワークに従ったデータ通信機能を果たすように構成することもできる。短距離無線ネットワークの別の例は、赤外線(infrared:IR)技術、又は受動もしくは能動の無線周波数識別(radio−frequency identification:RFID)のプロトコル及び機器を含む電磁誘導(electromagnetic induction:EMI)技術といった近距離無線通信の技術及びプロトコルを用いることができる。モバイルコンピューティング装置208は、例えば、ユニバーサル・シリアル・バス(USB)接続といった有線接続を利用したデータ通信機能を果たすように構成することもできる。
モバイルコンピューティング装置208は、音声及び/又はデータ通信機能を提供するための無線プロセッサ、1つもしくは複数の送受信機、増幅器、フィルタ、スイッチなどを含む様々な無線要素を備えることができる。モバイルコンピューティング装置208は、異なる無線要素を利用して異なる通信技術を実装する異なる種類の無線ネットワークシステムに従って動作することもできることは理解されたい。またモバイルコンピューティング装置208は、シリアル接続ポート、IRポート、Bluetooth(登録商標)インターフェース、ネットワークインターフェース、Wi‐Fiインターフェース、WiMAXインターフェース、セルラ・ネットワーク・インターフェース、無線ネットワーク・インターフェース・カード(wireless network interface card:WNIC)、送受信機などといった異なる種類の接続をサポートするための様々な入出力(input/output:I/O)インターフェースも備えることができる。モバイルコンピューティング装置208は、Wi‐Fi及びBLUETOOTH(登録商標)通信のためのISM周波数帯域の2.4GHz;GSM(登録商標)、CDMA、TDMA、NAMPS、セルラ、及び/又はPCS通信のための850MHz、900MHZ、1800MHz、及び1900MHzの各周波数帯域のうちの1つもしくは複数;CDMA2000/EV−DO及び/又はWCDMA(登録商標)/JMTS通信のための2100MHz周波数帯域;全地球測位システム(Global Positioning System:GPS)動作のための1575MHz周波数帯域他、といった複数の周波数帯域又はサブバンドでの動作をサポートするための1つもしくは複数の内部アンテナ及び/又は外部アンテナを備えることができる。
モバイルコンピューティング装置208は、ユーザが音声インターフェースシステム200を使用して1つもしくは複数の特定のタスクを遂行できるようにするための様々なアプリケーションを提供することができる。アプリケーションは、ウェブ・ブラウザ・アプリケーション(INTERNET EXPLORER(登録商標)、MOZILLA(登録商標)、FIREFOX(登録商標)、SAFARI(登録商標)、OPERA(登録商標)、NETSCAPE NAVIGATOR(登録商標)など)、電話アプリケーション(セルラ、VoIP、PTTなど)、ネットワーク接続アプリケーション、メッセージングアプリケーション(電子メール、IM、SMS、MMS、BLACKBERRY(登録商標)Messengerなど)、連絡先アプリケーション、カレンダアプリケーションなどであるが、これらに限定されない。モバイルコンピューティング装置208は、前述の実施形態に従ったコンピューティング機能を提供するためのシステムプログラムやアプリケーションといった様々なソフトウェアプログラムを備えることができる。システムプログラムは、オペレーティングシステム(operating system:OS)、デバイスドライバ、プログラミングツール、ユーティリティプログラム、ソフトウェアライブラリ、アプリケーション・プログラミング・インターフェース(API)などが含まれるが、これらに限定されない。オペレーティングシステムの例としては、例えば、PALM(登録商標)OS、MICROSOFT(登録商標)OS、APPLE(登録商標)OS、CHROME(登録商標)OS他が含まれる。
モバイルコンピューティング装置208は、ユーザインターフェースを提示するためのディスプレイやデータ及び/又はコマンドを入力するためのキーパッドといったアプリケーションと対話するための様々な構成要素を含むことができる。モバイルコンピューティング装置208は、スタイラス、タッチ式画面、キー(入力キー、プリセット・プログラマブル・ホット・キーなど)、ボタン(アクションボタン、多方向ナビゲーションボタン、プリセット・プログラマブル・ショートカット・ボタンなど)、スイッチ、マイクロフォン、スピーカ、オーディオヘッドセット、カメラなどといった1つもしくは複数のアプリケーションと共に使用するための他の構成要素を含むことができる。インターフェースを介して、ユーザはモバイルコンピューティング装置208と対話することができる。
いくつかの例示的動作条件では、モバイルコンピューティング装置208は、車両の乗員室といったモバイル環境210内で動作する。モバイルコンピューティング装置208は、モバイルコンピューティング装置インターフェース240と通信することができる。モバイルコンピューティング装置インターフェース240は、例えば、(例えば、Wi‐Fiプロトコル、BLUETOOTH(登録商標)プロトコル、ZIGBEEプロトコルなどを使用した)無線インターフェースや、(例えばUSBプロトコルを使用した)有線インターフェースとすることができる。概して、モバイルコンピューティング装置インターフェース240は、車載ネットワークを介したモバイルコンピューティング装置208とモバイル環境210の様々な構成要素との間のデータ通信を可能にする。構成要素の例としては、スピーカ242、オーディオ圧縮エンジン244、マイクロフォン246、及びグラフィカルディスプレイ248が含まれるが、これらに限定されない。いくつかの実施形態では、モバイルコンピューティング装置208の表示画面上に提示されるコンテンツをモバイル環境210のグラフィカルディスプレイ248に送ることができる。グラフィカルディスプレイ248は、例えば、車両「情報娯楽(infotainment)」システム、ヘッド・アップ・ディスプレイ、又はモバイル環境210でユーザに見える別の種類のディスプレイの構成要素とすることができる。
概して、音声インターフェースシステム200は、ユーザの選好に基づくモバイルコンピューティング装置208の自然言語音声起動式操作をモバイル環境210内のユーザに提供することができる。その結果、パーソナライズされた体験がシステムと対話するユーザに提供される。次に、図2に示されている音声インターフェースシステム200の例示的な動作を詳細に説明する。モバイルコンピューティング装置208は、モバイルコンピューティング装置208と音声インターフェースシステム200との間の通信チャネルを全般的に確立するアプリケーションを実行することができる。モバイルコンピューティング装置インターフェース240を介して、モバイルコンピューティング装置208によって受け取られたグラフィカルコンテンツをグラフィカルディスプレイ248上に表示することができる。モバイルコンピューティング装置208がモバイルコンピューティング装置インターフェース240と音声インターフェースシステム200の両方と通信状態になった後で、ユーザは、自然言語文形式で要求を口頭で伝えることによってシステムを利用することができる。
人の発声212がモバイル環境内に配置されたマイクロフォン246によって受け取られる。マイクロフォン246は、SPEEX、OPUS他によって提供される圧縮エンジンといったオーディオ圧縮エンジン244にオーディオ(音声)を提供する。圧縮されたオーディオは、例えば、近距離無線通信(near field communications:NFC)や、他のデータ伝送技術を使用してモバイルコンピューティング装置208に渡される。オーディオデータを受け取ると、モバイルコンピューティング装置208は、情報を音声インターフェースシステム200に送る。音声インターフェースシステム200は、次いで、任意の適切な音声認識技術(Dragon Naturally Speaking(登録商標)、Siri(登録商標)など)を使用して音声データのテキスト転写体(text transcription)を得る。図示の実施形態では、オーディオデータは、APIを介して音声認識モジュール204に提供され、テキストデータが返される。テキストデータは、次いで、近隣又は遠隔にある自然言語処理モジュール202に渡すことができる。自然言語処理モジュール202は、テキストベースのデータ内にある人の発声212の意図を判定する。次いで、この意図に基づいて、1つもしくは複数のコマンド(本書ではコマンドセットと称する)が音声インターフェースシステム200に供給される。このコマンドセットは、音声インターフェースシステム200によって実行された場合、人の発声212で表現された意図を満足させる。次に、自然言語処理モジュール202から受け取ったコマンドセットに基づき、音声インターフェースシステム200は、いずれかのユーザ設定218がコマンドセットと関連性を有するかどうか判定する。
例えば、人の発声212が「近くに私が好むようなレストランはあるか?」である場合、自然言語処理モジュール202は、「半径5マイル以内のレストランのリストを作成する」や「リストとユーザ設定内の好ましいレストランとを相互参照する」といったコマンドを発行できる。音声インターフェースシステム200は、次いで、例えば、少なくとも1つの第三者アプリケーション214によって利用可能なオンライン検索ツールとの通信によって、半径5マイル以内のレストランのリストを取得する。次いで、音声インターフェースシステム200は、近くのレストランのリストと、ユーザがユーザ設定218で提供したレストランの名前と、を比較する。一致した場合、音声インターフェースシステム200は、「1マイル先にPanera Bread Co.があります。そこに行きたいですか?」といったテキスト文字列を生成し、それをテキスト音声変換モジュール232に提供する。関連付けられた音声を受け取ると、音声はモバイル環境210内のモバイルコンピューティング装置208に送られる。関連付けられた音声は、モバイルコンピューティング装置インターフェース240によってモバイル環境210内のスピーカ242に渡される。いくつかの実施形態では、マップ、又は他の関連情報も、モバイルコンピューティング装置208及びグラフィカルディスプレイ248上に表示することができる。質問を聞き取ると、ユーザは、音声インターフェースシステム200によって提示された質問に答えることができる。答えは、図2に人の発声212として示されており、次いで、音声インターフェースシステム200に提供され、更に、自然言語処理モジュール202に提供されて処理される。自然言語処理モジュール202は、例えば、ユーザが提案されたレストランで食事をしたがっていると判定することができる。自然言語処理モジュール202は、例えば選択されたレストランへの経路案内を提供するために、音声インターフェースシステム200に適切なコマンドを発送することができる。次いで経路案内をモバイルコンピューティング装置208に送ってグラフィカルディスプレイ248上に表示させることができる。
図3は、本書に記載された音声インターフェースシステムを利用した例示的なプロセスフロー300を示している。302で、ユーザ選好データが受け取られる。いくつかの実施形態では、ユーザ選好データは、コンピューティング装置216(図2)から受け取られ、データベース228(図2)等のデータベースに記憶される。ユーザ選好データは、ユーザにパーソナライズされたユーザ体験を提供するために音声インターフェースシステムに使用される任意の種類の情報を含むことができる。304で、人の発声がモバイルコンピューティング装置から受け取られる。人の発声は、圧縮されたオーディオ波形といったオーディオデータの形式とすることができる。人の発声は、特に、セルラネットワークやWi‐Fiネットワークといった適切な通信ネットワーク上でモバイルコンピューティング装置から受け取ることができる。
306で、人の発声がテキストに変換される。いくつかの実施形態では、音声認識モジュールを使用して、人の発声において発せられた言葉をテキストに変換することができる。テキストは、次いで、308で自然言語処理部に送られる。自然言語処理部は、概して、テキストを解釈して、304で受け取られた人の発声で表現されたユーザの意図を収集する自然言語理解(NLU)機能を実装することができる。人の発声で表現された意図に基づき、コマンドセットが自然言語処理部によって識別される。310で、自然言語処理部からコマンドセットが受け取られる。コマンドセットは、人の発声で表現された意図に基づく処理を行うように実行される1つもしくは複数のコマンドを含むことができる。312で、コマンドセット及び302で受け取ったユーザ設定データに基づいて動作が実行される。従って、実行される特定の動作は、ユーザ選好データに基づくものであるため、音声インターフェースシステムのユーザには、パーソナライズされたユーザ体験を提供することができる。
図4は、例示的な音声制御式システムの例示的なメッセージシーケンス図を示す。図示のように、音声制御式システムは、ヘッド部406と通信するマイクロフォン446を備える。マイクロフォン446及びヘッド部406は、車両の構成要素とすることができる。ヘッド部406は、グラフィカルディスプレイを、関連付けられたハードウェア及びソフトウェアと共に含むことができる。モバイルコンピューティング装置408は、車載ネットワーク454を介してヘッド部406と通信することができる。いくつかの実施形態では、例えば、モバイルコンピューティング装置408は、BLUETOOTH(登録商標)プロトコルによってヘッド部406と通信することができる。モバイルコンピューティング装置408は、通信ネットワーク450を介して音声インターフェースシステム400と通信することができる。いくつかの実施形態では、音声インターフェースシステム400は、一般的に、「クラウドベースの」サービスとみなすことができる。というのは、モバイルコンピューティング装置408は、ネットワーク通信によって音声ベースの処理を音声インターフェースシステム400にオフロードすることができるからである。図2に示す実施形態と同様に、音声インターフェースシステム400は、音声認識モジュール404、自然言語処理部402、ユーザ選好データベース428、リモートサーバ414といった様々なエンティティ、モジュールなどと通信することができる。
音声インターフェースシステム400の例示的な動作の際に、マイクロフォン446は、人の発声をオーディオデータとして含むメッセージ460をヘッド部406に送る。ヘッド部406は、オーディオデータを圧縮し、圧縮されたオーディオデータをメッセージ462でモバイルコンピューティング装置408に送ることができる。メッセージ462は、車載ネットワーク454を介して送られる。モバイルコンピューティング装置408は、次いで、通信ネットワーク450を介して音声インターフェースシステム400にメッセージ464を送ることができる。メッセージ464に含まれるオーディオデータを受け取ると、音声インターフェースシステム400は、音声認識モジュール404にオーディオデータを含むメッセージ466を送る。メッセージ466は、メッセージシーケンス図内の他のメッセージと共に、XML、JSONなどといった当分野で公知の任意の適切なメッセージ形式を使用することができる。いずれにしても、音声認識モジュール404は、オーディオデータをテキストデータに変換し、テキストデータをメッセージ468で音声インターフェースシステム400に返す。音声インターフェースシステム400は、テキストデータを含むメッセージ470を自然言語処理部402に送る。自然言語処理部402は、テキストベースのデータ内で表現された意図を判定し、音声インターフェースシステム400にコマンドセット472を提供する。コマンドセットに基づき、音声インターフェースシステム400は、メッセージ474を使用してユーザ選好データベース428に問合せする。ユーザ選好データベース428からのリターンメッセージ476は、コマンドセットと関連付けられた設定を含むことができる。選好が利用できない場合には、いくつかの実施形態では、音声インターフェースシステム400によりデフォルト値を使用してコマンドセットが実行される。いずれにしても、ユーザの選好が獲得された後で、メッセージ478がリモートサーバ414に送られてコマンドが実行される。リモートサーバ414はメッセージ480で応答し、音声インターフェースシステム400はメッセージ482によってメッセージ480をモバイルコンピューティング装置408に提供することができる。メッセージ482を受け取ると、モバイルコンピューティング装置408は、車載ネットワーク454を介してヘッド部406にメッセージ484を提供することができる。ヘッド部406は次いで、グラフィカルディスプレイ上に、最初にマイクロフォン446によって受け取られた元の人の発声と関連付けられた情報を表示する。
一般に当業者には、本書に記載する実施形態のうちの少なくともいくつかは、ソフトウェア、ファームウェア、及び/又はハードウェアの多くの異なる実施形態において実施することができることが明らかであろう。ソフトウェアコード及びファームウェアのコードは、プロセッサ又は任意の他の類似のコンピューティング装置によって実行することができる。実施形態を実装するのに使用することのできるソフトウェアコード又は専用制御ハードウェアは限定されない。例えば、本書に記載する実施形態は、例えば、従来の技術やオブジェクト指向技術といった任意の適切な種類のコンピュータソフトウェア言語を使用したコンピュータソフトウェアとして実装することができる。そのようなソフトウェアは、例えば、磁気記憶媒体や光記憶媒体といった任意の種類の適切な1つもしくは複数のコンピュータ可読媒体に記憶することができる。各実施形態の動作及び挙動は、具体的なソフトウェアコード又は専用のハードウェア構成要素に具体的に言及せずに記述することができる。そのような具体的言及を欠くことは可能である。というのは、当業者は、妥当な努力により、必要以上の実験を行わずに、本書に基づいて各実施形態を実装するためのソフトウェアを設計し、ハードウェアを制御することができるはずであることが明確に理解されるからである。
更に、本書に記載するプロセスは、コンピュータ又はコンピュータシステム及び/又はプロセッサといったプログラマブル設備によって実行することができる。プログラマブル設備にプロセスを実行させることのできるソフトウェアは、例えば、コンピュータシステム(不揮発性)メモリ、光ディスク、磁気テープ、磁気ディスクといった任意の記憶装置に記憶することができる。更に、プロセスのうちの少なくともいくつかは、コンピュータシステムが製造されるときにプログラムし、又は様々な種類のコンピュータ可読媒体に記憶することができる。
また、本書に記載するプロセスのある特定の部分は、コンピュータシステムにプロセスステップを実行するよう指図する1つもしくは複数のコンピュータ可読媒体上に記憶された命令を使用して実行することができることも理解できる。コンピュータ可読媒体には、例えば、ディスケット、コンパクトディスク(compact disc:CD)、ディジタル多用途ディスク(digital versatile disc:DVD)、光ディスクドライブ、ハード・ディスク・ドライブといった記憶装置が含まれうる。またコンピュータ可読媒体は、物理的、仮想的、永続的、一時的、半永続的、かつ/又は半一時的なメモリ記憶も含むことができる。
「コンピュータ」、「コンピュータシステム」、「ホスト」、「サーバ」、又は「プロセッサ」とは、例えば、それだけに限らないが、プロセッサ、マイクロコンピュータ、ミニコンピュータ、サーバ、メインフレーム、ラップトップ、携帯情報端末(PDA)、無線電子メール機器、セルラ電話機、ページャ、プロセッサ、ファックス機、スキャナ、又はネットワーク上でデータを送信し、かつ/もしくは受信するように構成された任意の他のプログラマブル機器とすることができる。本書で開示するコンピュータシステム及びコンピュータベースの機器は、情報を獲得し、処理し、伝達する際に使用されるある特定のソフトウェアモジュールを記憶するためのメモリを含むことができる。そのようなメモリは、開示の実施形態の動作に対して内部にあっても外部にあってもよいことが理解できる。メモリは、ハードディスク、光ディスク、フロッピー(登録商標)ディスク、ROM(読取り専用メモリ)、RAM(ランダム・アクセス・メモリ)、PROM(プログラマブルROM)、EEPROM(電気的消去可能PROM)、及び/又は他のコンピュータ可読媒体を含む、ソフトウェアを記憶するための任意の手段も含むことができる。非一時的なコンピュータ可読媒体とは、本書で使用する場合、一時的な伝搬信号を除くすべてのコンピュータ可読媒体を含むものである。
本書で開示する様々な実施形態では、所与の1つもしくは複数の機能を果たすために、単一の構成要素を複数の構成要素で置き換えることができ、複数の構成要素を単一の構成要素で置き換えることができる。そのような置換が有効に作用しないはずである場合を除き、そのような置換は実施形態の意図される範囲内に含まれる。コンピュータシステムは、1つもしくは複数のデータバスを介してメモリ(RAMやROMなど)と通信する1つもしくは複数のプロセッサを備えることができる。データバスは、(1つもしくは複数の)プロセッサとメモリとの間で電気信号を搬送することができる。プロセッサ及びメモリは、電流を伝える電気回路を備えることができる。(1つもしくは複数の)プロセッサ及び/又は(1つもしくは複数の)メモリ回路のソリッド・ステート・トランジスタといった回路の様々な構成要素の電荷状態は回路の動作中に変化しうる。
図の中には流れ図を含むものがある。そのような図は特定の論理フローを含みうるが、論理フローは単に一般的な機能の例示的実施態様を提供するにすぎないことが理解できる。更に、論理フローは、特に指示しない限り、必ずしも提示の順序で実行される必要があるとは限らない。加えて、論理フローは、ハードウェア要素、コンピュータによって実行されるソフトウェア要素、ハードウェアに埋め込まれたファームウェア要素、又はこれらの任意の組み合わせによって実装することができる。
以上の実施形態及び例の説明は、例示及び説明を目的として提示したものである。網羅的であることも前述の形態だけに限定することも意図するものではない。上記の教示に照らして多くの改変が可能である。それらの改変のいくつかは論じられており、別の改変は当業者によって理解されるであろう。実施形態は、企図される特定の用途に適する様々な実施形態の原理を最適に例示するために選択し、記載したものである。本発明の範囲は、当然ながら、本書で示した例だけに限定されるものではなく、当業者によって任意の数のアプリケーション及び等価の機器において用いられうるものである。よって本発明の範囲は添付の特許請求の範囲によって定義されるべきものである。
Claims (20)
- 音声制御式システムであって、
ユーザ選好データを記憶するように構成されたユーザ選好データベースと、
前記ユーザ選好データベースと通信する音声インターフェース・コンピューティング・システムと、
を備えており、
前記音声インターフェース・コンピューティング・システムは、
人の発声を含むオーディオデータを無線通信ネットワークを介してモバイルコンピューティング装置から受け取り、
前記オーディオデータを音声認識モジュールに送り、
前記音声認識モジュールからテキストデータを受け取り、
前記テキストデータを自然言語処理モジュールに送り、
前記自然言語処理モジュールからコマンドセットを受け取り、
前記コマンドセット及び前記ユーザ選好データベースに記憶された前記ユーザ選好データに基づいてコマンドを実行し、
前記コマンドの実行は、リモートアプリケーションとの通信と、前記無線通信ネットワークを介した前記モバイルコンピューティング装置との通信とを含むことを特徴とする音声制御式システム。 - 前記音声インターフェース・コンピューティング・システムは、ユーザコンピューティング装置から前記ユーザ選好データを受け取るように構成されている請求項1に記載の音声制御式システム。
- 前記ユーザコンピューティング装置は、前記モバイルコンピューティング装置である請求項2に記載の音声制御式システム。
- 前記コマンドセットは、判定された前記人の発声の意図に基づく請求項3に記載の音声制御式システム。
- 前記ユーザ選好データは、ユーザの食事の選好、ユーザのナビゲーションの選好、及びユーザの目的地の選好のうちの任意の1つもしくは複数を識別する請求項1に記載の音声制御式システム。
- 前記音声インターフェース・コンピューティング・システムは、前記ユーザの食事の選好、前記ユーザのナビゲーションの選好、及び前記ユーザの目的地の選好のうちの少なくとも1つを受け取るためのポータルを生成するように構成されている請求項5に記載の音声制御式システム。
- 前記音声インターフェース・コンピューティング・システムは、前記ユーザ選好データが前記コマンドセットと関連付けられているかどうか判定し、
前記自然言語処理モジュールから受け取った前記コマンドセットに基づき、
前記ユーザ設定データが前記コマンドセットと関連付けられているときには、前記関連付けられたユーザ選好データに基づいて前記コマンドを実行し、
前記ユーザ設定データが前記コマンドセットと関連付けられていないときには、デフォルトデータに基づいて前記コマンドを実行するように構成されている請求項1に記載の音声制御式システム。 - コンピューティングシステムがユーザ選好データを受け取るステップと、
前記コンピューティングシステムが人の発声を含むオーディオデータをモバイルコンピューティング装置から受け取るステップと、
前記コンピューティングシステムが前記オーディオデータを音声認識モジュールに送って、前記オーディオデータと関連付けられたテキストデータを得るステップと、
前記コンピューティングシステムが前記テキストデータを自然言語処理部に送るステップと、
前記コンピューティングシステムが前記自然言語処理部からコマンドセットを受け取るステップと、
前記コマンドセット及び前記ユーザ選好データに基づいてコマンドを実行するステップと、
を含むことを特徴とする方法。 - 前記コンピューティングシステムによって受け取られた前記オーディオデータは、車両に結合されるように構成されたマイクロフォンによって取り込まれる請求項8に記載の方法。
- 前記オーディオデータは、前記モバイルコンピューティング装置から受け取られ、前記モバイルコンピューティング装置は、前記車両の乗員室内に位置する請求項9に記載の方法。
- 前記コマンドセットは、判定された前記人の発声の意図に基づく請求項8に記載の方法。
- 前記ユーザ選好データは、ユーザの食事の選好、ユーザのナビゲーションの選好、及びユーザの目的地の選好のうちの任意の1つもしくは複数を識別する請求項8に記載の方法。
- システムであって、
ユーザ選好データを記憶するように構成されたユーザ選好データベースと、
前記ユーザ選好データベースと通信する音声インターフェース・コンピューティング・システムと、
を備えており、
前記音声インターフェース・コンピューティング・システムは、
車載ネットワークに接続されたモバイルコンピューティング装置から車両の乗員の自然言語の人の発声を含むオーディオデータを受け取り、
前記人の発声の意図に基づいて前記音声インターフェース・コンピューティング・システムにコマンドセットを送るように構成されている自然言語処理モジュールと通信し、
前記コマンドセット及び前記ユーザ選好データベースに記憶された前記ユーザ選好データに基づいてコマンドを実行し、
前記モバイルコンピューティング装置により前記車両の前記乗員に情報を表示するように構成されていることを特徴とするシステム。 - 前記音声インターフェース・コンピューティング・システムは、前記オーディオデータを音声認識モジュールに送り、前記音声認識モジュールからテキストデータを受け取るように構成されている請求項13に記載のシステム。
- 前記音声インターフェース・コンピューティング・システムは、前記テキストデータを前記自然言語処理モジュールに送るように構成されている請求項14に記載のシステム。
- 前記モバイルコンピューティング装置上で実行されるアプリケーションから通信を受け取るように構成されたアプリケーションサーバを備える請求項13に記載のシステム。
- 前記モバイルコンピューティング装置上で実行されるウェブブラウザから通信を受け取るように構成されたウェブサーバを備える請求項13に記載のシステム。
- 前記ユーザ選好データは、前記車両の前記乗員によって供給されるユーザ選好データを含む請求項13に記載のシステム。
- 前記音声インターフェース・コンピューティング・システムは、前記モバイルコンピューティング装置からユーザ選好データを取得するように構成されている請求項18に記載のシステム。
- 前記音声インターフェース・コンピューティング・システムは、前記モバイルコンピューティング装置からカレンダ予約データを取得するように構成されている請求項19に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/802,910 US9123345B2 (en) | 2013-03-14 | 2013-03-14 | Voice interface systems and methods |
US13/802,910 | 2013-03-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014179067A true JP2014179067A (ja) | 2014-09-25 |
Family
ID=51419237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014024192A Pending JP2014179067A (ja) | 2013-03-14 | 2014-02-12 | 音声インターフェースシステム及び方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9123345B2 (ja) |
JP (1) | JP2014179067A (ja) |
CN (1) | CN104050967A (ja) |
DE (1) | DE102014204108A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11453411B2 (en) * | 2017-08-28 | 2022-09-27 | Kabushiki Kaisha Toshiba | Moving body operation support system |
Families Citing this family (122)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9961442B2 (en) | 2011-11-21 | 2018-05-01 | Zero Labs, Inc. | Engine for human language comprehension of intent and command execution |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US20140303982A1 (en) * | 2013-04-09 | 2014-10-09 | Yally Inc. | Phonetic conversation method and device using wired and wiress communication |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9509799B1 (en) * | 2014-06-04 | 2016-11-29 | Grandios Technologies, Llc | Providing status updates via a personal assistant |
US8995972B1 (en) | 2014-06-05 | 2015-03-31 | Grandios Technologies, Llc | Automatic personal assistance between users devices |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
KR102304052B1 (ko) * | 2014-09-05 | 2021-09-23 | 엘지전자 주식회사 | 디스플레이 장치 및 그의 동작 방법 |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
CN106202079A (zh) * | 2015-04-30 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 信息获取方法、装置和系统 |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10580079B1 (en) * | 2015-06-23 | 2020-03-03 | Allstate Insurance Company | Enterprise nervous system |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
WO2017044964A1 (en) * | 2015-09-10 | 2017-03-16 | Zero Labs, Inc. | Engine for human language comprehension of intent and command execution |
US10209851B2 (en) | 2015-09-18 | 2019-02-19 | Google Llc | Management of inactive windows |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10891106B2 (en) | 2015-10-13 | 2021-01-12 | Google Llc | Automatic batch voice commands |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
WO2017100167A1 (en) * | 2015-12-06 | 2017-06-15 | Voicebox Technologies Corporation | System and method of conversational adjustment based on user's cognitive state and/or situational state |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10133612B2 (en) * | 2016-03-17 | 2018-11-20 | Nuance Communications, Inc. | Session processing interaction between two or more virtual assistants |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10261830B2 (en) * | 2016-06-14 | 2019-04-16 | Microsoft Technology Licensing, Llc | Cross-device task execution |
US20180039478A1 (en) * | 2016-08-02 | 2018-02-08 | Google Inc. | Voice interaction services |
US9691384B1 (en) | 2016-08-19 | 2017-06-27 | Google Inc. | Voice action biasing system |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10320583B2 (en) * | 2016-10-07 | 2019-06-11 | Verizon Patent And Licensing Inc. | System and method for facilitating interoperability across internet of things (IOT) domains |
US10171675B1 (en) | 2016-10-10 | 2019-01-01 | Open Invention Network, Llc | Automated intelligent personal representative |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
CN107146623B (zh) * | 2017-04-07 | 2021-03-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音识别方法、装置和系统 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10395659B2 (en) * | 2017-05-16 | 2019-08-27 | Apple Inc. | Providing an auditory-based interface of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
WO2019051805A1 (en) * | 2017-09-15 | 2019-03-21 | Bayerische Motoren Werke Aktiengesellschaft | DATA PROCESSING DEVICE AND METHOD FOR REALIZING SPEECH-BASED MAN-MACHINE INTERACTION |
CN107785019A (zh) * | 2017-10-26 | 2018-03-09 | 西安Tcl软件开发有限公司 | 车载设备及其语音识别方法、可读存储介质 |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
CN108399463A (zh) * | 2018-03-15 | 2018-08-14 | 奇瑞汽车股份有限公司 | 一种预约充电系统及充电方法 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US20190311713A1 (en) * | 2018-04-05 | 2019-10-10 | GM Global Technology Operations LLC | System and method to fulfill a speech request |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
CN110753927B (zh) * | 2018-05-07 | 2023-08-11 | 谷歌有限责任公司 | 在计算设备之间同步访问控制 |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
CN112513845A (zh) * | 2018-06-06 | 2021-03-16 | 亚马逊技术股份有限公司 | 与语音使能设备的暂时账户关联 |
CN110866094B (zh) * | 2018-08-13 | 2021-04-09 | 珠海格力电器股份有限公司 | 指令识别方法、装置、存储介质、电子装置 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11264025B2 (en) * | 2019-07-23 | 2022-03-01 | Cdw Llc | Automated graphical user interface control methods and systems using voice commands |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11514896B2 (en) * | 2019-11-27 | 2022-11-29 | Google Llc | Interfacing with applications via dynamically updating natural language processing |
US11574634B2 (en) | 2019-11-27 | 2023-02-07 | Google Llc | Interfacing with applications via dynamically updating natural language processing |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112037790B (zh) * | 2020-08-10 | 2024-02-23 | 上汽大众汽车有限公司 | 基于车载语音识别系统控制第三方应用的方法、系统和车辆 |
CN115114508A (zh) * | 2021-03-17 | 2022-09-27 | 博泰车联网科技(上海)股份有限公司 | 云平台的用户偏好查询方法、装置、存储介质和终端 |
CN113581070A (zh) * | 2021-06-11 | 2021-11-02 | 广汽本田汽车有限公司 | 汽车提示音设置系统、方法、运行控制装置及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259183A (ja) * | 1999-03-10 | 2000-09-22 | Sony Corp | 情報提供システム、クライアント、情報提供サーバ及び情報提供方法 |
JP2001202310A (ja) * | 2000-01-20 | 2001-07-27 | Square Co Ltd | 情報提供方法およびその方法を実現するためのプログラムを記録した記録媒体、ならびに、情報提供システム |
JP2003006223A (ja) * | 2001-06-25 | 2003-01-10 | Sony Corp | 情報提供システムおよび方法、受信装置および方法、送信装置および方法、記録媒体、並びにプログラム |
JP2003036221A (ja) * | 2001-07-23 | 2003-02-07 | Cai Kk | 情報提供方法及び情報システム及び記録媒体及び伝送媒体 |
JP2003115929A (ja) * | 2001-10-02 | 2003-04-18 | Hitachi Ltd | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
JP2003140688A (ja) * | 2001-11-07 | 2003-05-16 | Matsushita Electric Ind Co Ltd | 情報配信システムおよび情報配信方法 |
JP2003533909A (ja) * | 2000-03-21 | 2003-11-11 | クアック.コム | インターネットに基づく情報への音声アクセスのためのシステム及び方法 |
JP2006195637A (ja) * | 2005-01-12 | 2006-07-27 | Toyota Motor Corp | 車両用音声対話システム |
JP2007323612A (ja) * | 2006-06-05 | 2007-12-13 | Kenwood Corp | 情報取得装置、プログラム、及び情報取得方法 |
JP2010527467A (ja) * | 2007-04-02 | 2010-08-12 | グーグル・インコーポレーテッド | 電話による要求への位置を基にした応答 |
WO2010092662A1 (ja) * | 2009-02-10 | 2010-08-19 | トヨタ自動車株式会社 | 車載情報処理装置及び方法 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850252B1 (en) * | 1999-10-05 | 2005-02-01 | Steven M. Hoffberg | Intelligent electronic appliance system and method |
US6335927B1 (en) * | 1996-11-18 | 2002-01-01 | Mci Communications Corporation | System and method for providing requested quality of service in a hybrid network |
US6909708B1 (en) * | 1996-11-18 | 2005-06-21 | Mci Communications Corporation | System, method and article of manufacture for a communication system architecture including video conferencing |
US6731625B1 (en) * | 1997-02-10 | 2004-05-04 | Mci Communications Corporation | System, method and article of manufacture for a call back architecture in a hybrid network with support for internet telephony |
WO2000011571A1 (en) * | 1998-08-24 | 2000-03-02 | Bcl Computers, Inc. | Adaptive natural language interface |
US7904187B2 (en) * | 1999-02-01 | 2011-03-08 | Hoffberg Steven M | Internet appliance system and method |
JP2001289661A (ja) | 2000-04-07 | 2001-10-19 | Alpine Electronics Inc | ナビゲーション装置 |
JP2002168645A (ja) | 2000-11-29 | 2002-06-14 | Sharp Corp | ナビゲーション装置と通信基地局、およびそれらを用いたナビゲーションシステムとナビゲーション方法 |
US6882974B2 (en) * | 2002-02-15 | 2005-04-19 | Sap Aktiengesellschaft | Voice-control for a user interface |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7289904B2 (en) | 2004-04-06 | 2007-10-30 | Honda Motor Co., Ltd. | Vehicle navigation system and methods for incorporating user preferences into same |
US9224394B2 (en) | 2009-03-24 | 2015-12-29 | Sirius Xm Connected Vehicle Services Inc | Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same |
US20120253823A1 (en) | 2004-09-10 | 2012-10-04 | Thomas Barton Schalk | Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing |
US8131718B2 (en) * | 2005-12-13 | 2012-03-06 | Muse Green Investments LLC | Intelligent data retrieval system |
US9318108B2 (en) * | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7970381B2 (en) * | 2007-08-13 | 2011-06-28 | General Motors Llc | Method of authenticating a short message service (sms) message |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
CN101231660A (zh) * | 2008-02-19 | 2008-07-30 | 林超 | 电话自然对话中关键信息的挖掘系统及其方法 |
JP2010282199A (ja) | 2009-06-02 | 2010-12-16 | Honda Motor Co Ltd | 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9183560B2 (en) * | 2010-05-28 | 2015-11-10 | Daniel H. Abelow | Reality alternate |
US20120029758A1 (en) * | 2010-07-28 | 2012-02-02 | General Motors Llc | Telematics unit and method and system for initiating vehicle control using telematics unit information |
US9332397B2 (en) * | 2010-07-30 | 2016-05-03 | General Motors Llc | Method of communicating voice and data transmissions for telematics applications |
US8781838B2 (en) * | 2010-08-09 | 2014-07-15 | General Motors, Llc | In-vehicle text messaging experience engine |
US8532674B2 (en) * | 2010-12-10 | 2013-09-10 | General Motors Llc | Method of intelligent vehicle dialing |
US20120191291A1 (en) * | 2011-01-21 | 2012-07-26 | General Motors Llc | Aftermarket telematics system and method for controlling a communicatively paired device |
CN102543082B (zh) * | 2012-01-19 | 2014-01-15 | 北京赛德斯汽车信息技术有限公司 | 使用自然语言的车载信息服务系统语音操作方法及系统 |
-
2013
- 2013-03-14 US US13/802,910 patent/US9123345B2/en not_active Expired - Fee Related
-
2014
- 2014-02-12 JP JP2014024192A patent/JP2014179067A/ja active Pending
- 2014-03-06 DE DE102014204108.2A patent/DE102014204108A1/de not_active Ceased
- 2014-03-12 CN CN201410089906.5A patent/CN104050967A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259183A (ja) * | 1999-03-10 | 2000-09-22 | Sony Corp | 情報提供システム、クライアント、情報提供サーバ及び情報提供方法 |
JP2001202310A (ja) * | 2000-01-20 | 2001-07-27 | Square Co Ltd | 情報提供方法およびその方法を実現するためのプログラムを記録した記録媒体、ならびに、情報提供システム |
JP2003533909A (ja) * | 2000-03-21 | 2003-11-11 | クアック.コム | インターネットに基づく情報への音声アクセスのためのシステム及び方法 |
JP2003006223A (ja) * | 2001-06-25 | 2003-01-10 | Sony Corp | 情報提供システムおよび方法、受信装置および方法、送信装置および方法、記録媒体、並びにプログラム |
JP2003036221A (ja) * | 2001-07-23 | 2003-02-07 | Cai Kk | 情報提供方法及び情報システム及び記録媒体及び伝送媒体 |
JP2003115929A (ja) * | 2001-10-02 | 2003-04-18 | Hitachi Ltd | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
JP2003140688A (ja) * | 2001-11-07 | 2003-05-16 | Matsushita Electric Ind Co Ltd | 情報配信システムおよび情報配信方法 |
JP2006195637A (ja) * | 2005-01-12 | 2006-07-27 | Toyota Motor Corp | 車両用音声対話システム |
JP2007323612A (ja) * | 2006-06-05 | 2007-12-13 | Kenwood Corp | 情報取得装置、プログラム、及び情報取得方法 |
JP2010527467A (ja) * | 2007-04-02 | 2010-08-12 | グーグル・インコーポレーテッド | 電話による要求への位置を基にした応答 |
WO2010092662A1 (ja) * | 2009-02-10 | 2010-08-19 | トヨタ自動車株式会社 | 車載情報処理装置及び方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11453411B2 (en) * | 2017-08-28 | 2022-09-27 | Kabushiki Kaisha Toshiba | Moving body operation support system |
Also Published As
Publication number | Publication date |
---|---|
US20140278436A1 (en) | 2014-09-18 |
US9123345B2 (en) | 2015-09-01 |
CN104050967A (zh) | 2014-09-17 |
DE102014204108A1 (de) | 2014-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9123345B2 (en) | Voice interface systems and methods | |
US11676601B2 (en) | Voice assistant tracking and activation | |
JP6571118B2 (ja) | 音声認識処理のための方法、車載システム及び不揮発性記憶媒体 | |
US11205421B2 (en) | Selection system and method | |
KR102342623B1 (ko) | 음성 및 연결 플랫폼 | |
US10679620B2 (en) | Speech recognition arbitration logic | |
KR102518543B1 (ko) | 사용자의 발화 에러 보정 장치 및 그 방법 | |
CN110018735A (zh) | 智能个人助理接口系统 | |
US20150199965A1 (en) | System and method for recognition and automatic correction of voice commands | |
JP5548541B2 (ja) | 情報提供システムおよび車載装置 | |
KR20190100334A (ko) | 문맥상의 핫워드들 | |
US20140380240A1 (en) | System and Method for a Human Machine Interface | |
US20150193090A1 (en) | Method and system for application category user interface templates | |
Husnjak et al. | Possibilities of using speech recognition systems of smart terminal devices in traffic environment | |
CN106453483B (zh) | 基于电子日历定制车辆计算系统的方法和系统 | |
JP2013140269A (ja) | 音声認識装置 | |
US9369425B2 (en) | Email and instant messaging agent for dialog system | |
US20160004502A1 (en) | System and method for correcting speech input | |
JP5606951B2 (ja) | 音声認識システムおよびこれを用いた検索システム | |
US9167394B2 (en) | In-vehicle messaging | |
US20240075944A1 (en) | Localized voice recognition assistant | |
US20230298581A1 (en) | Dialogue management method, user terminal and computer-readable recording medium | |
JP5376072B1 (ja) | 車載情報システムおよび音声認識適応方法 | |
RU2705769C1 (ru) | Распознавание речи транспортным средством вместе с носимым устройством | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150210 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150609 |