JP2014179067A

JP2014179067A - 音声インターフェースシステム及び方法

Info

Publication number: JP2014179067A
Application number: JP2014024192A
Authority: JP
Inventors: Khanna Rahul; ラフル・カンナ; Tatsuya Kyomitsu; 達哉京光; Xin Guan; シン・クァン
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-03-14
Filing date: 2014-02-12
Publication date: 2014-09-25
Also published as: US20140278436A1; US9123345B2; CN104050967A; DE102014204108A1

Abstract

【課題】車両ベースの音声インターフェースのシステム及び方法を提供すること。
【解決手段】モバイルコンピューティング装置からアクセスすることのできる音声制御式システムが記載される。ユーザは自然言語発声を使用して要求を伝えることができる。マイクロフォンは発声を集め、集めた発声をモバイルコンピューティング装置に提供することができる。モバイルコンピューティング装置は、人の発声を音声インターフェースシステムに送ることができる。音声インターフェースシステムは、要求を実行するときに、ユーザ設定を利用してパーソナライズされたユーザ体験を提供することができる。また、コンピュータ実装方法も提供される。
【選択図】図１

Description

本発明は、音声認識の分野に関し、詳しくは、車両ベースの音声インターフェースのシステム及び方法に関する。

スマートフォン、タブレットなどといったモバイルコンピューティング装置が流行り、機器の機能性が高まるにつれて、ユーザが車両内にいる間にこのようなパーソナル機器を操作することが多くなる。これらのモバイルコンピューティング装置は、多くの場合、無線エアインターフェース上でデータネットワークに接続されたままである。グラフィカル・ユーザ・インターフェースを備える車両の中には、乗員のモバイルコンピューティング装置とグラフィカル・ユーザ・インターフェースとの間のデータ接続を提供し、それによって、セルラネットワーク無線エアインターフェース上で受け取られる情報が車両のグラフィカル・ユーザ・インターフェースに提供されることを可能にするものがある。

本発明の実施形態によれば、音声制御式システムが提供される。音声制御式システムは、ユーザ選好データを記憶するように構成されたユーザ選好データベースと、ユーザ選好データベースと通信する音声インターフェース・コンピューティング・システムと、を備える。音声インターフェース・コンピューティング・システムは、無線通信ネットワークを介してモバイルコンピューティング装置からオーディオデータを受け取るように構成されており、オーディオデータは人の発声を含む。また音声インターフェース・コンピューティング・システムは、オーディオデータを音声認識モジュールに送り、音声認識モジュールからテキストデータを受け取り、テキストデータを自然言語処理モジュールに送り、自然言語処理モジュールからコマンドセットを受け取るようにも構成されている。音声インターフェース・コンピューティング・システムは、コマンドセット及びユーザ選好データベースに記憶されたユーザ選好データに基づいてコマンドを実行するように更に構成されており、コマンドの実行は、リモートアプリケーションとの通信と、無線通信ネットワークを介したモバイルコンピューティング装置との通信とを含む。

本発明の別の実施形態によれば、コンピューティングシステムがユーザ選好データを受け取るステップと、コンピューティングシステムがモバイルコンピューティング装置から人の発声を含むオーディオデータを受け取るステップと、コンピューティングシステムがオーディオデータを音声認識モジュールに送ってオーディオデータと関連付けられたテキストデータを得るステップとを含む方法が提供される。またこの方法は、コンピューティングシステムがテキストデータを自然言語処理部に送るステップと、コンピューティングシステムが自然言語処理部からコマンドセットを受け取るステップと、コマンドセット及びユーザ設定データに基づいてコマンドを実行するステップとをも含む。

本発明の更なる別の実施形態によれば、ユーザ選好データを記憶するように構成されたユーザ選好データベースと、ユーザ選好データベースと通信する音声インターフェース・コンピューティング・システムと、を備えるシステムが提供される。音声インターフェース・コンピューティング・システムは、車載ネットワークに接続されたモバイルコンピューティング装置から車両の乗員の自然言語の人の発声を含むオーディオデータを受け取るように構成されている。また音声インターフェース・コンピューティング・システムは、人の発声の意図に基づいて音声インターフェース・コンピューティング・システムにコマンドセットを送るように構成された自然言語処理モジュールと通信し、コマンドセット及びユーザ選好データベースに記憶されたユーザ設定データに基づいてコマンドを実行し、モバイルコンピューティング装置により車両の乗員に情報を表示するようにも構成されている。

様々な実施形態は、以下の説明、添付の特許請求の範囲、及び添付の図面を考慮すればより良く理解されるであろう。

音声制御式システムの例示的な簡略化ブロック図。別の音声制御式システムの例示的ブロック図。音声インターフェースシステムを利用した例示的プロセスフローの図。例示的音声制御式システムの例示的メッセージシーケンス図。

次に、本書で開示する音声インターフェースのシステム及び方法の構造、機能、及び使用の原理の全般的理解を提供するために、本開示の様々な非限定的実施形態を説明する。添付の図面にはこれらの非限定的実施形態のうちの１つもしくは複数が図示されている。当業者は、本書で具体的に説明され、添付の図面に図示されているシステム及び方法が非限定的実施形態であることを理解するであろう。ある非限定的実施形態との関連で図示され、又は説明される特徴は、他の非限定的実施形態の特徴と組み合わされてよい。そのような改変及び変形は本開示の範囲内に含まれるものであることが意図されている。

本書全体を通して、「様々な実施形態」、「いくつかの実施形態」、「ある実施形態」、「いくつかの例示的実施形態」、「ある例示的実施形態」、又は「一実施形態」という場合、それは、任意の実施形態との関連で説明される特定の特徴、構造、又は特性が少なくとも１つの実施形態に含まれることを意味するものである。よって、本書全体で「様々な実施形態において」、「いくつかの実施形態において」、「ある実施形態において」、「いくつかの例示的実施形態」、「ある例示的実施形態」、又は「一実施形態において」の各語句が使用されている場合、それは、必ずしもすべてが同じ実施形態を指すものであるとは限らない。更に、特定の特徴、構造、又は特性は、１つもしくは複数の実施形態において任意の適切なやり方で組み合わされてもよい。

本開示全体を通して、構成要素又はモジュールという場合、一般的には、論理的に一機能又は関連機能を果たすようにまとめてグループ化することのできる項目を指す。類似の参照番号（例えば、１０８、２０８、３０８など）は、一般的に、同じ構成要素又は類似の構成要素を指すものであることを意図する。構成要素及びモジュールは、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアの組み合わせとして実装することができる。ソフトウェアという用語は、実行可能コードのみならず、データ構造、データストア、ならびに任意の電子形式、ファームウェア、及び埋め込みソフトウェア内のコンピューティング命令も含むように広義で使用される。情報及びデータの各用語は広義で使用され、それだけに限らないが、機械実行可能命令又は機械解釈可能命令；特にテキスト、ビデオデータ、オーディオデータといったコンテンツ；及び様々なコード又はフラグを含む多種多様な電子情報を含むことができる。情報、データ、及びコンテンツの各用語は、文脈上許容されるときには、区別なく使用される場合もある。

本書で論じる各例は例示にすぎず、本書で説明する装置、機器、システム、及び方法の説明に役立つように提示されるものである。図面に示し、又は以下で論じる特徴又は構成要素のいずれも、特に必須であると指定しない限り、これらの装置、機器、システム、又は方法のいずれのいかなる特定の実装形態にも必須であるとみなすべきではない。読みやすさと明確さのために、ある特定の構成要素、モジュール、又は方法を、もっぱら特定の図だけとの関連で説明する場合もある。構成要素の組み合わせ又は部分的な組み合わせが具体的に記載されない場合があっても、それを、いかなる組み合わせも部分的な組み合わせも不可能であることを指示するものであると理解すべきではない。また、記載するいかなる方法についても、その方法が流れ図と併せて記載されるかどうかにかかわらず、特に指定されない限り、又は文脈上別の解釈が要求されない限り、方法の実行に際して行われるステップのいかなる明示的又は暗黙的な順序付けも、それらのステップが提示される順序で行われなければならないことを示唆するものではなく、異なる順序で、又は並列に行われてもよいことを理解すべきである。

車両は、様々な種類の情報を乗員室の乗員に提示するための１つもしくは複数のグラフィカル・ユーザ・インターフェースを備えることができる。情報の例としては、ナビゲーション情報、車載娯楽情報、車両診断情報、及びインターネットもしくは別の種類のネットワークへの無線接続を介して受け取られる情報などが含まれる。車両は、スマートフォン、タブレットコンピュータなどといったモバイルコンピューティング装置がユニバーサル・シリアル・バス（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ：ＵＳＢ）、Ｗｉ‐Ｆｉ、ＢＬＵＥＴＯＯＴＨ（登録商標）、ＺＩＧＢＥＥ、ＩＥＥＥ８０２．１１ｘファミリのネットワークプロトコルのうちの１つ、又は任意の別の適切な無線もしくは有線ネットワークプロトコルといった車載ネットワークに接続されることが可能となっている。この接続によって、モバイルコンピューティング装置が受け取った情報を車両のグラフィカル・ユーザ・インターフェースに提供することができ、これにより、その情報を乗員室の乗員に見せ、又はそれ以外に車両が利用することができるようになる。いくつかの実施形態では、車両と通信するモバイルコンピューティング装置は、適切な無線通信プロトコルによってリモートサーバと通信する「ａｐｐ」と呼ばれることもあるソフトウェアアプリケーションも実行することができる。従って、モバイルコンピューティング装置上でのアプリケーションの実行中にリモートサーバから受け取られる情報を、車両のグラフィカル・ユーザ・インターフェースに中継し、又はそれ以外のやり方で車両に提供することができる。

本書に記載するシステム及び方法は、概して、車両の乗員が自然言語音声コマンドによって車両のグラフィカル・ユーザ・インターフェースと対話することを可能にするための技術を提供する。いくつかの実施形態では、非車載式の（例えばクラウドベースの）リアルタイム音声認識を利用して車両の乗員の自然言語コマンドを解釈して、乗員の選考に従ってコマンドを実行する。その結果、リモート音声認識システムとの自然言語コミュニケーションに基づくパーソナライズ又はカスタマイズされた機能を車両の乗員に提供することができる。

図１は、音声制御式システムの例示的な簡略化ブロック図を示す。モバイルコンピューティング装置１０８は、車載ネットワーク（図４に示す車載ネットワーク４５４など）を介して車両１１０と通信するものとして示されている。モバイルコンピューティング装置１０８は、スマートフォン、タブレットコンピュータ、ゲームシステム、ラップトップコンピュータなどといったネットワーク通信を行うことのできる任意の適切な機器とすることができる。以下で詳細に説明するように、モバイルコンピューティング装置１０８は、任意の適切な通信プロトコルを使用して任意の適切な種類のデータ接続によって車両１１０と通信することができる。例えばある実施形態では、モバイルコンピューティング装置１０８は有線接続によって車両１１０と通信し、別の実施形態では、モバイルコンピューティング装置１０８は無線接続によって車両１１０と通信する。いずれにしても、モバイルコンピューティング装置１０８は、音声インターフェースシステム１００とも通信することができる。いくつかの実施形態では、音声インターフェースシステム１００は、ウェブベースの通信によって、例えば、モバイルコンピューティング装置１０８上のウェブ・ブラウザ・アプリケーションによって生成されるコマンドによってアクセスされる。いくつかの実施形態では、音声インターフェースシステム１００は、ウェブベースの通信によって、例えば、モバイルコンピューティング装置１０８にインストールされて実行される専用アプリケーションによってアクセスされる。

車両１１０は、車両の運転者又は（１名もしくは複数の）同乗者による発声１１２を受け取ることのできるマイクロフォン、又は別の種類の音声変換器を備えることができ、運転者又は同乗者の誰でも本書では「ユーザ」と呼ぶ。人の発声１１２は、更に、電子オーディオファイルの形式で車載ネットワークによってモバイルコンピューティング装置１０８に提供される。いくつかの実施形態では、車両１１０によって受け取られる音声は、データをモバイルコンピューティング装置１０８に提供する前に、非可逆コーデック又は他のデータ圧縮技術を利用して圧縮される。オーディオファイルの圧縮には、特に、待ち時間を低減させることができるという利点があることは理解されたい。

ユーザによって提供される人の発声１１２は、自然言語形式とすることができ、もって、ユーザは、所望の機能を実行するのに必ずしも特定のコマンド又は語句を発することを求められるとは限らない。更に、人の発声１１２は、多種多様な話題又はコマンドに関するものとすることができる。例えば、人の発声１１２は、「腹が減った」や「最寄りのイタリアンレストランはどこにあるか」といった目的地ベースの要求とすることができる。また人の発声１１２は、「明日の会合での天気はどうなるか」といった、目的地及び天気に関連した要求とすることもできる。人の発声１１２は、「いくつか最新情報を示せ」といった、ソーシャルネットワークウェブサイト又は別の種類の第三者アプリケーションに関するものとすることさえもできる。また人の発声１１２は、「お気に入りの歌を再生せよ」や「この歌を歌っているのは誰？」といった車内娯楽に関するものとすることもできる。本開示の範囲を逸脱することなく、多数の別の種類の人の発声１１２を車両１１０に提供することができることは理解されたい。

図１を更に参照して、人の発声１１２を受け取ると、モバイルコンピューティング装置１０８は、オーディオデータを音声インターフェースシステム１００に中継することができる。オーディオデータは、例えば、セルラネットワークやＷｉ‐Ｆｉネットワークといった任意の適切な無線エアインターフェース上で中継される。モバイルコンピューティング装置１０８からオーディオデータを受け取ると、音声インターフェースシステム１００は、ユーザの意図を大まかに判定し、次いで、ユーザの意図と、利用可能な場合にはユーザの個人的な嗜好とに基づいて１つもしくは複数のコマンドを実行する。この処理の様々な側面を実行するために、音声インターフェースシステム１００は、様々なモジュールと通信することができ、モジュールのうちのいくつかは、音声インターフェースシステム１００から見て遠隔であり、例えばアプリケーション・プログラミング・インターフェース（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｍｉｎｇｉｎｔｅｒｆａｃｅ：ＡＰＩ）を介してアクセス可能なものとすることができる。

図示の実施形態では、音声インターフェースシステム１００は、音声認識モジュール１０４と通信し、音声認識モジュール１０４は、概して、オーディオデータをテキストデータに変換するよう機能する。音声認識モジュール１０４は、従来の音声テキスト変換処理アルゴリズムを利用して人の発声１１２をテキストベース形式に変換することができる。テキストデータが音声インターフェースシステム１００によって音声認識モジュール１０４から受け取られた後で、テキストデータは、自然言語処理部１０２に提供されて更に処理される。自然言語処理部１０２は、自然言語理解（ｎａｔｕｒａｌｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ：ＮＬＵ）のアルゴリズム及び技術を利用して人の発声１１２の意図を判定するように構成される。いくつかの実施形態では、自然言語処理部１０２は、参照によりその全体が本書に組み込まれる、「ＬｅｘｉｃａｌＡｃｑｕｉｓｉｔｉｏｎＡｐｐａｒａｔｕｓ，ＭｕｌｔｉＤｉａｌｏｇｕｅＢｅｈａｖｉｏｒＳｙｓｔｅｍ，ａｎｄＬｅｘｉｃａｌＡｃｑｕｉｓｉｔｉｏｎＰｒｏｇｒａｍ」という名称の米国特許出願第２０１０／０３３２２３１号明細書に記載されている処理技術を利用する。

図１を更に参照して、自然言語処理部１０２は、人の発声１１２の意図に基づき、ユーザの要求を全体として満たすはずのコマンドセットを決定する。このコマンドセットは、次いで、音声インターフェースシステム１００に提供されて実行される。いくつかの実施形態では、コマンドセット内のコマンドの実行は、音声インターフェースシステム１００によって記憶された又は別の方法で音声インターフェースシステム１００からアクセス可能な様々なユーザの嗜好又は個人データを利用してユーザの体験をパーソナライズすることができる。以下で詳細に説明するように、ユーザの選考には、食事の選考、ナビゲーションの選考、予約データ、履歴データ、ラジオ局の選考、娯楽の選考、環境制御の選考、温度設定の選考、シート位置の選考などが含まれるが、これらに限定されない。場合によっては、コマンドセット内のコマンドの実行は、ソーシャル・ネットワーキング・アプリケーション、ウェブ検索アプリケーション、カレンダアプリケーション、ＧＰＳアプリケーション、又は任意の他の適切な種類のアプリケーション、ウェブサイト、もしくはネットワークアクセス可能データといった１つもしくは複数のアプリケーション１１４との通信を必要とする。

関連付けられたアプリケーション１１４との通信に基づき、人の発声１１２に関連したデータ又は情報は、アプリケーション１１４のうちの１つから又は音声インターフェースシステム１００によってモバイルコンピューティング装置１０８に提供される。いずれにしても、データ又は情報は、それがモバイルコンピューティング装置１０８によって受け取られた後で、続けて、車載ネットワークを使用して車両１１０に送られる。車両１１０は、次いで、情報をグラフィカル・ユーザ・ディスプレイ上に表示し又はそれ以外では情報を利用することができる。

図１に示される音声制御式システムの様々な構成要素をまとめてグループ化できることは理解されたい。例えば、いくつかの実施形態では、音声認識モジュール１０４及び／又は自然言語処理部１０２を音声インターフェースシステム１００の構成要素とすることができる。更に、いくつかの実施形態では、音声認識モジュール１０４及び自然言語処理部１０２を組み合わせて、単一構成要素として機能させることができる。

図２は、別の音声制御式システムの例示的ブロック図を示す。音声制御式システムは、モバイルコンピューティング装置２０８からオーディオコンテンツを受け取り、処理する音声インターフェースシステム２００を備える。音声インターフェースシステム２００は、例えば、パーソナルコンピュータ、ラップトップ、サーバ、メインフレーム、又は複数のコンピュータの集合体（ネットワークなど）といった任意の適切なプロセッサベースの機器又はシステムを使用して設けることができる。音声インターフェースシステム２００は、１つもしくは複数のプロセッサ（２２０など）と、１つもしくは複数のコンピュータ記憶部（２２２など）とを備える。便宜上、図２には１つのプロセッサ２２０と１つの記憶部２２２だけが示されている。プロセッサ２２０は、記憶部２２２に記憶されたソフトウェア命令を実行することができる。プロセッサ２２０は、１つもしくは複数のコアを有する集積回路（ｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ：ＩＣ）として実装できる。記憶部２２２は、揮発性記憶部及び／又は不揮発性記憶部を含む。揮発性記憶部は、例えばランダム・アクセス・メモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ：ＲＡＭ）を含む。不揮発性記憶部は、例えば、読取り専用メモリ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ：ＲＯＭ）や、例えばハード・ディスク・ドライブ、光ディスクドライブなどといった機械的不揮発性記憶システムを含む。ＲＡＭ及び／又はＲＯＭ記憶部は、例えば、ディスクリートメモリＩＣとして実装できる。

記憶部２２２は、実行可能ソフトウェア及びデータを記憶することができ、もって、音声インターフェースシステム２００のプロセッサ２２０がソフトウェアを実行すると、以下で詳細に論じるように、プロセッサ２２０は、コンピュータ機器から情報を受け取る、コンピュータ機器から受け取ったコマンドを処理する、ユーザデータベースに情報を記憶し、ユーザデータベース内の情報を取り出すといった、音声インターフェースシステム２００の様々な動作を行うことができる。音声インターフェースシステム２００によって使用されるデータは、データベース２２８からや別の種類の電子データストアといった様々なソースからのものとすることができる。データベース２２８は、例えば、ユーザ選好データベースを含む。データベース２２８に記憶されたデータは、ハード・ディスク・ドライブ、読取り専用メモリ（ＲＯＭＩＣなど）、別の種類の不揮発性メモリといった不揮発性コンピュータメモリに記憶される。またデータベース２２８と関連付けられたデータを、例えば、リモート電子コンピュータシステム上に記憶することもできる。

ユーザ設定２１８として図示されているユーザ選考データは、コンピューティング装置２１６と対話するユーザから音声インターフェースシステム２００に受け取られる。いくつかの実施形態では、ユーザ設定２１８は、コンピューティング装置２１６によってユーザに提示されるウェブポータルを介して受け取られる。いくつかの実施形態では、コンピュータ機器２１６上で、ユーザが音声インターフェースシステム２００にユーザ設定を提供することを可能にする専用アプリケーションを実行することができる。いくつかの実施形態では、コンピューティング装置２１６は、モバイルコンピューティング装置２０８であるが、本開示はそれだけに限定されない。以下で詳細に説明するように、ユーザは、概して、任意の適切なコンピューティング装置２１６を使用して音声インターフェースシステム２００と対話して、ユーザの選考を記憶させて、パーソナライズされた音声対話体験がユーザに提供されるようにすることができる。ユーザ設定２１８に含まれるデータの種類は様々なものとすることができるが、例としては、お気に入りのレストラン、好ましい運転経路、カレンダ予約、連絡先アドレス、ソーシャルネットワーク情報、娯楽関連情報などが含まれる。またユーザ設定２１８は、例えば、音声インターフェースシステム２００と関連付けられた専用アプリケーションが実行されるときにモバイルコンピューティング装置２０８上で表示される特定のアイコンの順序といった、グラフィカル表示設定も含むことができる。

図２に示すように、音声インターフェースシステム２００はいくつかのコンピュータサーバを含むことができる。例えば、音声インターフェースシステム２００は、１つもしくは複数のウェブサーバ（２２６など）及びアプリケーションサーバ（２２４など）を備えることができる。便宜上、図２には１台のウェブサーバ２２６及び１台のアプリケーションサーバ２２４だけしか示されていないが、本開示はそれだけに限定されないことを理解されたい。ウェブサーバ２２６は、システムのユーザが音声インターフェースシステム２００と対話するためのグラフィカル・ウェブ・ユーザ・インターフェースを提供することができる。ウェブサーバ２２６は、クライアント（モバイルコンピューティング装置２０８上のウェブブラウザなど）からＨＴＴＰ要求といった要求を受け入れ、ＨＴＴＰ応答といったクライアント応答を、ウェブページ（ＨＴＭＬ文書など）やリンクオブジェクト（画像など）といった任意選択のデータコンテンツと一緒に供給することができる。

アプリケーションサーバ２２４は、ウェブブラウザを使用して音声インターフェースシステム２００と通信しないユーザに対してユーザインターフェースを提供することができる。そのようなユーザは、通信ネットワークを介してアプリケーションサーバ２２４と通信することを可能にする専用ソフトウェアをモバイルコンピューティング装置２０８にインストールさせることができる。そのようなソフトウェアは、例えば、音声インターフェースシステム２００や他のソフトウェアアプリケーション提供者（すなわち、Ａｐｐｌｅ（商標）ｉＳｔｏｒｅ（商標））から、例えばネットワークを通じて、モバイルコンピューティング装置２０８にダウンロードされる。

図２には例示の目的で限られた数の要素だけが図示されているが、音声インターフェースシステム２００は、より多数又は小数の要素を含むことも、前述の実施形態に従った別の種類の要素を含むこともできることは理解されたい。音声インターフェースシステム２００の要素は、所与の設計パラメータもしくは性能制約条件について求められるような、ハードウェア構成要素（コンピューティング装置、プロセッサ、論理回路など）として実装される情報を伝えるための物理エンティティ若しくは論理エンティティ、様々なハードウェア構成要素によって実行されるべき実行可能コンピュータプログラム命令（ファームウェア、ソフトウェアなど）、又は、それらの組み合わせを含む。

以下で詳細に説明するように、音声インターフェースシステム２００は、音声認識（ＳＲ）モジュール２０４、自然言語処理モジュール２０２、及び／又はテキスト音声変換（ｔｅｘｔ−ｔｏ−ｓｐｅｅｃｈ：ＴＴＳ）モジュール２３２といった他のモジュールと通信する（又は場合によってはこれらを含む）こともできる。音声インターフェースシステム２００は、第三者アプリケーション２１４として大まかに図示されている様々な他のコンピュータベースのシステムとも通信することができる。第三者アプリケーション２１４の例としては、ＦＡＣＥＢＯＯＫ（登録商標）、ＧＯＯＧＬＥ（登録商標）、ＬＩＮＫＥＤＩＮ（登録商標）、ＰＡＮＤＯＲＡ（登録商標）、ＩＨＥＡＲＴＲＡＤＩＯ（登録商標）、ＴＷＩＴＴＥＲ（登録商標）などが含まれる。音声インターフェースシステム２００は、例えばＡＰＩプロトコルを使用するなどの任意の適切な種類の通信を使用して、様々なモジュール及びアプリケーションと通信することができる。

音声インターフェースシステム２００は、電子通信ネットワーク（不図示）を介してモバイルコンピューティング装置２０８と通信することができる。通信ネットワークは、インターネット、ＬＡＮ、ＷＡＮ、ＧＰＲＳネットワークなどを含むいくつかのコンピュータネットワーク及び／又はデータネットワークを含むことができ、有線通信リンク及び／又は無線通信リンクを備えることができる。音声インターフェースシステム２００と通信するモバイルコンピューティング装置２０８は、例えば、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、携帯情報端末（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ：ＰＤＡ）、携帯電話／ＰＤＡの組み合わさったもの、ゲーム機器、メッセージング機器、メディアプレーヤ、ページャ、タブレットコンピュータ、ノートブックコンピュータといったネットワーク上の無線通信に適した任意の種類のクライアント機器とすることができる。

モバイルコンピューティング装置２０８の中には、インターネットアクセスを含む無線広域ネットワーク（ｗｉｒｅｌｅｓｓｗｉｄｅａｒｅａｎｅｔｗｏｒｋ：ＷＷＡＮ）データ通信サービスもサポートすることができるものもある。ＷＷＡＮデータ通信サービスの例には、ＥＶ−ＤＯ（Ｅｖｏｌｕｔｉｏｎ−ＤａｔａＯｐｔｉｍｉｚｅｄもしくはＥｖｏｌｕｔｉｏｎ−Ｄａｔａｏｎｌｙ）、ＥＶ−ＤＶ（ＥｖｏｌｕｔｉｏｎＦｏｒＤａｔａａｎｄＶｏｉｃｅ）、ＣＤＭＡ／１ｘＲＴＴ、ＧＳＭ（登録商標）／ＧＰＲＳ（ＧＳＭ（登録商標）ｗｉｔｈＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅｓｙｓｔｅｍｓ）、ＥＤＧＥ（ＥｎｈａｎｃｅｄＤａｔａＲａｔｅｓｆｏｒＧｌｏｂａｌＥｖｏｌｕｔｉｏｎ）、ＨＳＤＰＡ（ＨｉｇｈＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、ＨＳＵＰＡ（ＨｉｇｈＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）他が含まれる。モバイルコンピューティング装置２０８は、ＩＥＥＥ（ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ）８０２．ｘｘシリーズのプロトコル、例えば、ＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎシリーズの標準プロトコル及びその変形（「Ｗｉ‐Ｆｉ」ともいう）、ＩＥＥＥ８０２．１６シリーズの標準プロトコル及びその変形（「ＷｉＭＡＸ」ともいう）、ＩＥＥＥ８０２．２０シリーズの標準プロトコル及びその変形他に従った無線ローカル・エリア・ネットワーク（ｗｉｒｅｌｅｓｓｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ：ＷＬＡＮ）データ通信機能を提供することができる。

いくつかの実施形態では、モバイルコンピューティング装置２０８は、ＢＬＵＥＴＯＯＴＨ（登録商標）ＳＩＧ（ＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ）シリーズのプロトコル、仕様、プロファイルなどに従ったＢＬＵＥＴＯＯＴＨ（登録商標）データ通信サービスを提供する無線パーソナル・エリア・ネットワーク（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ：ＰＡＮ）といった短距離無線ネットワークに従ったデータ通信機能を果たすように構成することもできる。短距離無線ネットワークの別の例は、赤外線（ｉｎｆｒａｒｅｄ：ＩＲ）技術、又は受動もしくは能動の無線周波数識別（ｒａｄｉｏ−ｆｒｅｑｕｅｎｃｙｉｄｅｎｔｉｆｉｃａｔｉｏｎ：ＲＦＩＤ）のプロトコル及び機器を含む電磁誘導（ｅｌｅｃｔｒｏｍａｇｎｅｔｉｃｉｎｄｕｃｔｉｏｎ：ＥＭＩ）技術といった近距離無線通信の技術及びプロトコルを用いることができる。モバイルコンピューティング装置２０８は、例えば、ユニバーサル・シリアル・バス（ＵＳＢ）接続といった有線接続を利用したデータ通信機能を果たすように構成することもできる。

モバイルコンピューティング装置２０８は、音声及び／又はデータ通信機能を提供するための無線プロセッサ、１つもしくは複数の送受信機、増幅器、フィルタ、スイッチなどを含む様々な無線要素を備えることができる。モバイルコンピューティング装置２０８は、異なる無線要素を利用して異なる通信技術を実装する異なる種類の無線ネットワークシステムに従って動作することもできることは理解されたい。またモバイルコンピューティング装置２０８は、シリアル接続ポート、ＩＲポート、Ｂｌｕｅｔｏｏｔｈ（登録商標）インターフェース、ネットワークインターフェース、Ｗｉ‐Ｆｉインターフェース、ＷｉＭＡＸインターフェース、セルラ・ネットワーク・インターフェース、無線ネットワーク・インターフェース・カード（ｗｉｒｅｌｅｓｓｎｅｔｗｏｒｋｉｎｔｅｒｆａｃｅｃａｒｄ：ＷＮＩＣ）、送受信機などといった異なる種類の接続をサポートするための様々な入出力（ｉｎｐｕｔ／ｏｕｔｐｕｔ：Ｉ／Ｏ）インターフェースも備えることができる。モバイルコンピューティング装置２０８は、Ｗｉ‐Ｆｉ及びＢＬＵＥＴＯＯＴＨ（登録商標）通信のためのＩＳＭ周波数帯域の２．４ＧＨｚ；ＧＳＭ（登録商標）、ＣＤＭＡ、ＴＤＭＡ、ＮＡＭＰＳ、セルラ、及び／又はＰＣＳ通信のための８５０ＭＨｚ、９００ＭＨＺ、１８００ＭＨｚ、及び１９００ＭＨｚの各周波数帯域のうちの１つもしくは複数；ＣＤＭＡ２０００／ＥＶ−ＤＯ及び／又はＷＣＤＭＡ（登録商標）／ＪＭＴＳ通信のための２１００ＭＨｚ周波数帯域；全地球測位システム（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ：ＧＰＳ）動作のための１５７５ＭＨｚ周波数帯域他、といった複数の周波数帯域又はサブバンドでの動作をサポートするための１つもしくは複数の内部アンテナ及び／又は外部アンテナを備えることができる。

モバイルコンピューティング装置２０８は、ユーザが音声インターフェースシステム２００を使用して１つもしくは複数の特定のタスクを遂行できるようにするための様々なアプリケーションを提供することができる。アプリケーションは、ウェブ・ブラウザ・アプリケーション（ＩＮＴＥＲＮＥＴＥＸＰＬＯＲＥＲ（登録商標）、ＭＯＺＩＬＬＡ（登録商標）、ＦＩＲＥＦＯＸ（登録商標）、ＳＡＦＡＲＩ（登録商標）、ＯＰＥＲＡ（登録商標）、ＮＥＴＳＣＡＰＥＮＡＶＩＧＡＴＯＲ（登録商標）など）、電話アプリケーション（セルラ、ＶｏＩＰ、ＰＴＴなど）、ネットワーク接続アプリケーション、メッセージングアプリケーション（電子メール、ＩＭ、ＳＭＳ、ＭＭＳ、ＢＬＡＣＫＢＥＲＲＹ（登録商標）Ｍｅｓｓｅｎｇｅｒなど）、連絡先アプリケーション、カレンダアプリケーションなどであるが、これらに限定されない。モバイルコンピューティング装置２０８は、前述の実施形態に従ったコンピューティング機能を提供するためのシステムプログラムやアプリケーションといった様々なソフトウェアプログラムを備えることができる。システムプログラムは、オペレーティングシステム（ｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ：ＯＳ）、デバイスドライバ、プログラミングツール、ユーティリティプログラム、ソフトウェアライブラリ、アプリケーション・プログラミング・インターフェース（ＡＰＩ）などが含まれるが、これらに限定されない。オペレーティングシステムの例としては、例えば、ＰＡＬＭ（登録商標）ＯＳ、ＭＩＣＲＯＳＯＦＴ（登録商標）ＯＳ、ＡＰＰＬＥ（登録商標）ＯＳ、ＣＨＲＯＭＥ（登録商標）ＯＳ他が含まれる。

モバイルコンピューティング装置２０８は、ユーザインターフェースを提示するためのディスプレイやデータ及び／又はコマンドを入力するためのキーパッドといったアプリケーションと対話するための様々な構成要素を含むことができる。モバイルコンピューティング装置２０８は、スタイラス、タッチ式画面、キー（入力キー、プリセット・プログラマブル・ホット・キーなど）、ボタン（アクションボタン、多方向ナビゲーションボタン、プリセット・プログラマブル・ショートカット・ボタンなど）、スイッチ、マイクロフォン、スピーカ、オーディオヘッドセット、カメラなどといった１つもしくは複数のアプリケーションと共に使用するための他の構成要素を含むことができる。インターフェースを介して、ユーザはモバイルコンピューティング装置２０８と対話することができる。

いくつかの例示的動作条件では、モバイルコンピューティング装置２０８は、車両の乗員室といったモバイル環境２１０内で動作する。モバイルコンピューティング装置２０８は、モバイルコンピューティング装置インターフェース２４０と通信することができる。モバイルコンピューティング装置インターフェース２４０は、例えば、（例えば、Ｗｉ‐Ｆｉプロトコル、ＢＬＵＥＴＯＯＴＨ（登録商標）プロトコル、ＺＩＧＢＥＥプロトコルなどを使用した）無線インターフェースや、（例えばＵＳＢプロトコルを使用した）有線インターフェースとすることができる。概して、モバイルコンピューティング装置インターフェース２４０は、車載ネットワークを介したモバイルコンピューティング装置２０８とモバイル環境２１０の様々な構成要素との間のデータ通信を可能にする。構成要素の例としては、スピーカ２４２、オーディオ圧縮エンジン２４４、マイクロフォン２４６、及びグラフィカルディスプレイ２４８が含まれるが、これらに限定されない。いくつかの実施形態では、モバイルコンピューティング装置２０８の表示画面上に提示されるコンテンツをモバイル環境２１０のグラフィカルディスプレイ２４８に送ることができる。グラフィカルディスプレイ２４８は、例えば、車両「情報娯楽（ｉｎｆｏｔａｉｎｍｅｎｔ）」システム、ヘッド・アップ・ディスプレイ、又はモバイル環境２１０でユーザに見える別の種類のディスプレイの構成要素とすることができる。

概して、音声インターフェースシステム２００は、ユーザの選好に基づくモバイルコンピューティング装置２０８の自然言語音声起動式操作をモバイル環境２１０内のユーザに提供することができる。その結果、パーソナライズされた体験がシステムと対話するユーザに提供される。次に、図２に示されている音声インターフェースシステム２００の例示的な動作を詳細に説明する。モバイルコンピューティング装置２０８は、モバイルコンピューティング装置２０８と音声インターフェースシステム２００との間の通信チャネルを全般的に確立するアプリケーションを実行することができる。モバイルコンピューティング装置インターフェース２４０を介して、モバイルコンピューティング装置２０８によって受け取られたグラフィカルコンテンツをグラフィカルディスプレイ２４８上に表示することができる。モバイルコンピューティング装置２０８がモバイルコンピューティング装置インターフェース２４０と音声インターフェースシステム２００の両方と通信状態になった後で、ユーザは、自然言語文形式で要求を口頭で伝えることによってシステムを利用することができる。

人の発声２１２がモバイル環境内に配置されたマイクロフォン２４６によって受け取られる。マイクロフォン２４６は、ＳＰＥＥＸ、ＯＰＵＳ他によって提供される圧縮エンジンといったオーディオ圧縮エンジン２４４にオーディオ（音声）を提供する。圧縮されたオーディオは、例えば、近距離無線通信（ｎｅａｒｆｉｅｌｄｃｏｍｍｕｎｉｃａｔｉｏｎｓ：ＮＦＣ）や、他のデータ伝送技術を使用してモバイルコンピューティング装置２０８に渡される。オーディオデータを受け取ると、モバイルコンピューティング装置２０８は、情報を音声インターフェースシステム２００に送る。音声インターフェースシステム２００は、次いで、任意の適切な音声認識技術（ＤｒａｇｏｎＮａｔｕｒａｌｌｙＳｐｅａｋｉｎｇ（登録商標）、Ｓｉｒｉ（登録商標）など）を使用して音声データのテキスト転写体（ｔｅｘｔｔｒａｎｓｃｒｉｐｔｉｏｎ）を得る。図示の実施形態では、オーディオデータは、ＡＰＩを介して音声認識モジュール２０４に提供され、テキストデータが返される。テキストデータは、次いで、近隣又は遠隔にある自然言語処理モジュール２０２に渡すことができる。自然言語処理モジュール２０２は、テキストベースのデータ内にある人の発声２１２の意図を判定する。次いで、この意図に基づいて、１つもしくは複数のコマンド（本書ではコマンドセットと称する）が音声インターフェースシステム２００に供給される。このコマンドセットは、音声インターフェースシステム２００によって実行された場合、人の発声２１２で表現された意図を満足させる。次に、自然言語処理モジュール２０２から受け取ったコマンドセットに基づき、音声インターフェースシステム２００は、いずれかのユーザ設定２１８がコマンドセットと関連性を有するかどうか判定する。

例えば、人の発声２１２が「近くに私が好むようなレストランはあるか？」である場合、自然言語処理モジュール２０２は、「半径５マイル以内のレストランのリストを作成する」や「リストとユーザ設定内の好ましいレストランとを相互参照する」といったコマンドを発行できる。音声インターフェースシステム２００は、次いで、例えば、少なくとも１つの第三者アプリケーション２１４によって利用可能なオンライン検索ツールとの通信によって、半径５マイル以内のレストランのリストを取得する。次いで、音声インターフェースシステム２００は、近くのレストランのリストと、ユーザがユーザ設定２１８で提供したレストランの名前と、を比較する。一致した場合、音声インターフェースシステム２００は、「１マイル先にＰａｎｅｒａＢｒｅａｄＣｏ．があります。そこに行きたいですか？」といったテキスト文字列を生成し、それをテキスト音声変換モジュール２３２に提供する。関連付けられた音声を受け取ると、音声はモバイル環境２１０内のモバイルコンピューティング装置２０８に送られる。関連付けられた音声は、モバイルコンピューティング装置インターフェース２４０によってモバイル環境２１０内のスピーカ２４２に渡される。いくつかの実施形態では、マップ、又は他の関連情報も、モバイルコンピューティング装置２０８及びグラフィカルディスプレイ２４８上に表示することができる。質問を聞き取ると、ユーザは、音声インターフェースシステム２００によって提示された質問に答えることができる。答えは、図２に人の発声２１２として示されており、次いで、音声インターフェースシステム２００に提供され、更に、自然言語処理モジュール２０２に提供されて処理される。自然言語処理モジュール２０２は、例えば、ユーザが提案されたレストランで食事をしたがっていると判定することができる。自然言語処理モジュール２０２は、例えば選択されたレストランへの経路案内を提供するために、音声インターフェースシステム２００に適切なコマンドを発送することができる。次いで経路案内をモバイルコンピューティング装置２０８に送ってグラフィカルディスプレイ２４８上に表示させることができる。

図３は、本書に記載された音声インターフェースシステムを利用した例示的なプロセスフロー３００を示している。３０２で、ユーザ選好データが受け取られる。いくつかの実施形態では、ユーザ選好データは、コンピューティング装置２１６（図２）から受け取られ、データベース２２８（図２）等のデータベースに記憶される。ユーザ選好データは、ユーザにパーソナライズされたユーザ体験を提供するために音声インターフェースシステムに使用される任意の種類の情報を含むことができる。３０４で、人の発声がモバイルコンピューティング装置から受け取られる。人の発声は、圧縮されたオーディオ波形といったオーディオデータの形式とすることができる。人の発声は、特に、セルラネットワークやＷｉ‐Ｆｉネットワークといった適切な通信ネットワーク上でモバイルコンピューティング装置から受け取ることができる。

３０６で、人の発声がテキストに変換される。いくつかの実施形態では、音声認識モジュールを使用して、人の発声において発せられた言葉をテキストに変換することができる。テキストは、次いで、３０８で自然言語処理部に送られる。自然言語処理部は、概して、テキストを解釈して、３０４で受け取られた人の発声で表現されたユーザの意図を収集する自然言語理解（ＮＬＵ）機能を実装することができる。人の発声で表現された意図に基づき、コマンドセットが自然言語処理部によって識別される。３１０で、自然言語処理部からコマンドセットが受け取られる。コマンドセットは、人の発声で表現された意図に基づく処理を行うように実行される１つもしくは複数のコマンドを含むことができる。３１２で、コマンドセット及び３０２で受け取ったユーザ設定データに基づいて動作が実行される。従って、実行される特定の動作は、ユーザ選好データに基づくものであるため、音声インターフェースシステムのユーザには、パーソナライズされたユーザ体験を提供することができる。

図４は、例示的な音声制御式システムの例示的なメッセージシーケンス図を示す。図示のように、音声制御式システムは、ヘッド部４０６と通信するマイクロフォン４４６を備える。マイクロフォン４４６及びヘッド部４０６は、車両の構成要素とすることができる。ヘッド部４０６は、グラフィカルディスプレイを、関連付けられたハードウェア及びソフトウェアと共に含むことができる。モバイルコンピューティング装置４０８は、車載ネットワーク４５４を介してヘッド部４０６と通信することができる。いくつかの実施形態では、例えば、モバイルコンピューティング装置４０８は、ＢＬＵＥＴＯＯＴＨ（登録商標）プロトコルによってヘッド部４０６と通信することができる。モバイルコンピューティング装置４０８は、通信ネットワーク４５０を介して音声インターフェースシステム４００と通信することができる。いくつかの実施形態では、音声インターフェースシステム４００は、一般的に、「クラウドベースの」サービスとみなすことができる。というのは、モバイルコンピューティング装置４０８は、ネットワーク通信によって音声ベースの処理を音声インターフェースシステム４００にオフロードすることができるからである。図２に示す実施形態と同様に、音声インターフェースシステム４００は、音声認識モジュール４０４、自然言語処理部４０２、ユーザ選好データベース４２８、リモートサーバ４１４といった様々なエンティティ、モジュールなどと通信することができる。

音声インターフェースシステム４００の例示的な動作の際に、マイクロフォン４４６は、人の発声をオーディオデータとして含むメッセージ４６０をヘッド部４０６に送る。ヘッド部４０６は、オーディオデータを圧縮し、圧縮されたオーディオデータをメッセージ４６２でモバイルコンピューティング装置４０８に送ることができる。メッセージ４６２は、車載ネットワーク４５４を介して送られる。モバイルコンピューティング装置４０８は、次いで、通信ネットワーク４５０を介して音声インターフェースシステム４００にメッセージ４６４を送ることができる。メッセージ４６４に含まれるオーディオデータを受け取ると、音声インターフェースシステム４００は、音声認識モジュール４０４にオーディオデータを含むメッセージ４６６を送る。メッセージ４６６は、メッセージシーケンス図内の他のメッセージと共に、ＸＭＬ、ＪＳＯＮなどといった当分野で公知の任意の適切なメッセージ形式を使用することができる。いずれにしても、音声認識モジュール４０４は、オーディオデータをテキストデータに変換し、テキストデータをメッセージ４６８で音声インターフェースシステム４００に返す。音声インターフェースシステム４００は、テキストデータを含むメッセージ４７０を自然言語処理部４０２に送る。自然言語処理部４０２は、テキストベースのデータ内で表現された意図を判定し、音声インターフェースシステム４００にコマンドセット４７２を提供する。コマンドセットに基づき、音声インターフェースシステム４００は、メッセージ４７４を使用してユーザ選好データベース４２８に問合せする。ユーザ選好データベース４２８からのリターンメッセージ４７６は、コマンドセットと関連付けられた設定を含むことができる。選好が利用できない場合には、いくつかの実施形態では、音声インターフェースシステム４００によりデフォルト値を使用してコマンドセットが実行される。いずれにしても、ユーザの選好が獲得された後で、メッセージ４７８がリモートサーバ４１４に送られてコマンドが実行される。リモートサーバ４１４はメッセージ４８０で応答し、音声インターフェースシステム４００はメッセージ４８２によってメッセージ４８０をモバイルコンピューティング装置４０８に提供することができる。メッセージ４８２を受け取ると、モバイルコンピューティング装置４０８は、車載ネットワーク４５４を介してヘッド部４０６にメッセージ４８４を提供することができる。ヘッド部４０６は次いで、グラフィカルディスプレイ上に、最初にマイクロフォン４４６によって受け取られた元の人の発声と関連付けられた情報を表示する。

一般に当業者には、本書に記載する実施形態のうちの少なくともいくつかは、ソフトウェア、ファームウェア、及び／又はハードウェアの多くの異なる実施形態において実施することができることが明らかであろう。ソフトウェアコード及びファームウェアのコードは、プロセッサ又は任意の他の類似のコンピューティング装置によって実行することができる。実施形態を実装するのに使用することのできるソフトウェアコード又は専用制御ハードウェアは限定されない。例えば、本書に記載する実施形態は、例えば、従来の技術やオブジェクト指向技術といった任意の適切な種類のコンピュータソフトウェア言語を使用したコンピュータソフトウェアとして実装することができる。そのようなソフトウェアは、例えば、磁気記憶媒体や光記憶媒体といった任意の種類の適切な１つもしくは複数のコンピュータ可読媒体に記憶することができる。各実施形態の動作及び挙動は、具体的なソフトウェアコード又は専用のハードウェア構成要素に具体的に言及せずに記述することができる。そのような具体的言及を欠くことは可能である。というのは、当業者は、妥当な努力により、必要以上の実験を行わずに、本書に基づいて各実施形態を実装するためのソフトウェアを設計し、ハードウェアを制御することができるはずであることが明確に理解されるからである。

更に、本書に記載するプロセスは、コンピュータ又はコンピュータシステム及び／又はプロセッサといったプログラマブル設備によって実行することができる。プログラマブル設備にプロセスを実行させることのできるソフトウェアは、例えば、コンピュータシステム（不揮発性）メモリ、光ディスク、磁気テープ、磁気ディスクといった任意の記憶装置に記憶することができる。更に、プロセスのうちの少なくともいくつかは、コンピュータシステムが製造されるときにプログラムし、又は様々な種類のコンピュータ可読媒体に記憶することができる。

また、本書に記載するプロセスのある特定の部分は、コンピュータシステムにプロセスステップを実行するよう指図する１つもしくは複数のコンピュータ可読媒体上に記憶された命令を使用して実行することができることも理解できる。コンピュータ可読媒体には、例えば、ディスケット、コンパクトディスク（ｃｏｍｐａｃｔｄｉｓｃ：ＣＤ）、ディジタル多用途ディスク（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｃ：ＤＶＤ）、光ディスクドライブ、ハード・ディスク・ドライブといった記憶装置が含まれうる。またコンピュータ可読媒体は、物理的、仮想的、永続的、一時的、半永続的、かつ／又は半一時的なメモリ記憶も含むことができる。

「コンピュータ」、「コンピュータシステム」、「ホスト」、「サーバ」、又は「プロセッサ」とは、例えば、それだけに限らないが、プロセッサ、マイクロコンピュータ、ミニコンピュータ、サーバ、メインフレーム、ラップトップ、携帯情報端末（ＰＤＡ）、無線電子メール機器、セルラ電話機、ページャ、プロセッサ、ファックス機、スキャナ、又はネットワーク上でデータを送信し、かつ／もしくは受信するように構成された任意の他のプログラマブル機器とすることができる。本書で開示するコンピュータシステム及びコンピュータベースの機器は、情報を獲得し、処理し、伝達する際に使用されるある特定のソフトウェアモジュールを記憶するためのメモリを含むことができる。そのようなメモリは、開示の実施形態の動作に対して内部にあっても外部にあってもよいことが理解できる。メモリは、ハードディスク、光ディスク、フロッピー（登録商標）ディスク、ＲＯＭ（読取り専用メモリ）、ＲＡＭ（ランダム・アクセス・メモリ）、ＰＲＯＭ（プログラマブルＲＯＭ）、ＥＥＰＲＯＭ（電気的消去可能ＰＲＯＭ）、及び／又は他のコンピュータ可読媒体を含む、ソフトウェアを記憶するための任意の手段も含むことができる。非一時的なコンピュータ可読媒体とは、本書で使用する場合、一時的な伝搬信号を除くすべてのコンピュータ可読媒体を含むものである。

本書で開示する様々な実施形態では、所与の１つもしくは複数の機能を果たすために、単一の構成要素を複数の構成要素で置き換えることができ、複数の構成要素を単一の構成要素で置き換えることができる。そのような置換が有効に作用しないはずである場合を除き、そのような置換は実施形態の意図される範囲内に含まれる。コンピュータシステムは、１つもしくは複数のデータバスを介してメモリ（ＲＡＭやＲＯＭなど）と通信する１つもしくは複数のプロセッサを備えることができる。データバスは、（１つもしくは複数の）プロセッサとメモリとの間で電気信号を搬送することができる。プロセッサ及びメモリは、電流を伝える電気回路を備えることができる。（１つもしくは複数の）プロセッサ及び／又は（１つもしくは複数の）メモリ回路のソリッド・ステート・トランジスタといった回路の様々な構成要素の電荷状態は回路の動作中に変化しうる。

図の中には流れ図を含むものがある。そのような図は特定の論理フローを含みうるが、論理フローは単に一般的な機能の例示的実施態様を提供するにすぎないことが理解できる。更に、論理フローは、特に指示しない限り、必ずしも提示の順序で実行される必要があるとは限らない。加えて、論理フローは、ハードウェア要素、コンピュータによって実行されるソフトウェア要素、ハードウェアに埋め込まれたファームウェア要素、又はこれらの任意の組み合わせによって実装することができる。

以上の実施形態及び例の説明は、例示及び説明を目的として提示したものである。網羅的であることも前述の形態だけに限定することも意図するものではない。上記の教示に照らして多くの改変が可能である。それらの改変のいくつかは論じられており、別の改変は当業者によって理解されるであろう。実施形態は、企図される特定の用途に適する様々な実施形態の原理を最適に例示するために選択し、記載したものである。本発明の範囲は、当然ながら、本書で示した例だけに限定されるものではなく、当業者によって任意の数のアプリケーション及び等価の機器において用いられうるものである。よって本発明の範囲は添付の特許請求の範囲によって定義されるべきものである。

Claims

音声制御式システムであって、
ユーザ選好データを記憶するように構成されたユーザ選好データベースと、
前記ユーザ選好データベースと通信する音声インターフェース・コンピューティング・システムと、
を備えており、
前記音声インターフェース・コンピューティング・システムは、
人の発声を含むオーディオデータを無線通信ネットワークを介してモバイルコンピューティング装置から受け取り、
前記オーディオデータを音声認識モジュールに送り、
前記音声認識モジュールからテキストデータを受け取り、
前記テキストデータを自然言語処理モジュールに送り、
前記自然言語処理モジュールからコマンドセットを受け取り、
前記コマンドセット及び前記ユーザ選好データベースに記憶された前記ユーザ選好データに基づいてコマンドを実行し、
前記コマンドの実行は、リモートアプリケーションとの通信と、前記無線通信ネットワークを介した前記モバイルコンピューティング装置との通信とを含むことを特徴とする音声制御式システム。
前記音声インターフェース・コンピューティング・システムは、ユーザコンピューティング装置から前記ユーザ選好データを受け取るように構成されている請求項１に記載の音声制御式システム。
前記ユーザコンピューティング装置は、前記モバイルコンピューティング装置である請求項２に記載の音声制御式システム。
前記コマンドセットは、判定された前記人の発声の意図に基づく請求項３に記載の音声制御式システム。
前記ユーザ選好データは、ユーザの食事の選好、ユーザのナビゲーションの選好、及びユーザの目的地の選好のうちの任意の１つもしくは複数を識別する請求項１に記載の音声制御式システム。
前記音声インターフェース・コンピューティング・システムは、前記ユーザの食事の選好、前記ユーザのナビゲーションの選好、及び前記ユーザの目的地の選好のうちの少なくとも１つを受け取るためのポータルを生成するように構成されている請求項５に記載の音声制御式システム。
前記音声インターフェース・コンピューティング・システムは、前記ユーザ選好データが前記コマンドセットと関連付けられているかどうか判定し、
前記自然言語処理モジュールから受け取った前記コマンドセットに基づき、
前記ユーザ設定データが前記コマンドセットと関連付けられているときには、前記関連付けられたユーザ選好データに基づいて前記コマンドを実行し、
前記ユーザ設定データが前記コマンドセットと関連付けられていないときには、デフォルトデータに基づいて前記コマンドを実行するように構成されている請求項１に記載の音声制御式システム。
コンピューティングシステムがユーザ選好データを受け取るステップと、
前記コンピューティングシステムが人の発声を含むオーディオデータをモバイルコンピューティング装置から受け取るステップと、
前記コンピューティングシステムが前記オーディオデータを音声認識モジュールに送って、前記オーディオデータと関連付けられたテキストデータを得るステップと、
前記コンピューティングシステムが前記テキストデータを自然言語処理部に送るステップと、
前記コンピューティングシステムが前記自然言語処理部からコマンドセットを受け取るステップと、
前記コマンドセット及び前記ユーザ選好データに基づいてコマンドを実行するステップと、
を含むことを特徴とする方法。
前記コンピューティングシステムによって受け取られた前記オーディオデータは、車両に結合されるように構成されたマイクロフォンによって取り込まれる請求項８に記載の方法。
前記オーディオデータは、前記モバイルコンピューティング装置から受け取られ、前記モバイルコンピューティング装置は、前記車両の乗員室内に位置する請求項９に記載の方法。
前記コマンドセットは、判定された前記人の発声の意図に基づく請求項８に記載の方法。
前記ユーザ選好データは、ユーザの食事の選好、ユーザのナビゲーションの選好、及びユーザの目的地の選好のうちの任意の１つもしくは複数を識別する請求項８に記載の方法。
システムであって、
ユーザ選好データを記憶するように構成されたユーザ選好データベースと、
前記ユーザ選好データベースと通信する音声インターフェース・コンピューティング・システムと、
を備えており、
前記音声インターフェース・コンピューティング・システムは、
車載ネットワークに接続されたモバイルコンピューティング装置から車両の乗員の自然言語の人の発声を含むオーディオデータを受け取り、
前記人の発声の意図に基づいて前記音声インターフェース・コンピューティング・システムにコマンドセットを送るように構成されている自然言語処理モジュールと通信し、
前記コマンドセット及び前記ユーザ選好データベースに記憶された前記ユーザ選好データに基づいてコマンドを実行し、
前記モバイルコンピューティング装置により前記車両の前記乗員に情報を表示するように構成されていることを特徴とするシステム。
前記音声インターフェース・コンピューティング・システムは、前記オーディオデータを音声認識モジュールに送り、前記音声認識モジュールからテキストデータを受け取るように構成されている請求項１３に記載のシステム。
前記音声インターフェース・コンピューティング・システムは、前記テキストデータを前記自然言語処理モジュールに送るように構成されている請求項１４に記載のシステム。
前記モバイルコンピューティング装置上で実行されるアプリケーションから通信を受け取るように構成されたアプリケーションサーバを備える請求項１３に記載のシステム。
前記モバイルコンピューティング装置上で実行されるウェブブラウザから通信を受け取るように構成されたウェブサーバを備える請求項１３に記載のシステム。
前記ユーザ選好データは、前記車両の前記乗員によって供給されるユーザ選好データを含む請求項１３に記載のシステム。
前記音声インターフェース・コンピューティング・システムは、前記モバイルコンピューティング装置からユーザ選好データを取得するように構成されている請求項１８に記載のシステム。
前記音声インターフェース・コンピューティング・システムは、前記モバイルコンピューティング装置からカレンダ予約データを取得するように構成されている請求項１９に記載のシステム。