JP2015509204A

JP2015509204A - 直接的文法アクセス

Info

Publication number: JP2015509204A
Application number: JP2014548779A
Authority: JP
Inventors: グラウマン、デーヴィッド、エル．; ロサリオ、バーバラ
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2015-03-26
Anticipated expiration: 2031-12-29
Also published as: EP2798632A1; CN104040620B; JP5916888B2; WO2013101066A1; EP2798632A4; US9487167B2; US20140229174A1; CN104040620A

Abstract

選択された機能を文法要素および／またはスピーチ入力の目標とする音声認識システムおよび／または技術を提供する。１つまたは複数の入力キャプチャデバイスは車両と関係するユーザー入力の収集を容易にし、車両機能は受け取ったユーザー入力に基づいて選択することができる。それから、選択された機能のための可聴コマンドと関係する利用可能な文法要素のサブセットを識別することができ、受け取った音声入力を評価するために利用することができる。この点に関しては、音声認識は選択された機能を目標とすることができる。【選択図】図２

Description

本開示の態様は、一般的には音声認識に関し、より詳しくは、車両と関係する特定の機能を目標とする音声認識に関する。

音声認識技術は、様々な目的のためにますます展開され、電子ディクテーション、ボイスコマンド認識および電話ベースの顧客サービスエンジンを含んでいる。音声認識は、典型的にはマイクロホンを介して受け取られる音響信号の処理を必要とする。これを行う際に、音響信号を単語または文法要素に翻訳するために、音声認識エンジンが典型的に利用される。特定の環境、例えば車両環境では、音声認識技術の使用によって、ドライバが手を使わずに命令を与えることができるので、安全性が高まる。

従来の車内音声インターフェースは、典型的には、様々な車両機能を制御するために文法要素の階層構造を利用する。例えば、ラジオをチューニングするために、ユーザーは、「ラジオ」と言って、確認のために聞き、「チャンネル」と言って、確認のために聞き、そして「１０１．９」と言うだろう。従来の階層的なアプローチは、典型的に、ユーザーにとって扱いにくく時間がかかるものである。より多くの直接的コマンドを可能にするために、音声階層構造をフラットにするためのいくつかの試みが成された。これらの試みは、より大きい語彙サイズの使用および自然言語処理の追加を含む。しかし、わずかな改良しか得られていない。実際、豊かな音素の特徴を有する比較的小さい語彙の使用は、車両と関係する様々な音響条件の下でより正確な音声認識結果を提供するように見える。したがって、車両と関係する特定の機能を目標とする音声認識にとって、改良されたシステムおよび方法の機会がある。

ここで添付の図面を参照するが、それらは必ずしも一定の比率で描かれているわけではない。

本開示の例示的実施形態による、様々な車両機能をスピーチ入力の目標とするために利用することができる例示的システムまたはアーキテクチャのブロック図である。目標とする音声認識と関係するユーザー入力を取得するための例示的技術を示す簡略化した概略図である。本開示の様々な実施形態において利用することができる例示的音声認識システムまたはアーキテクチャのブロック図である。車両機能を音声認識の目標とするためにユーザー入力を評価するための例示的方法のフローチャートである。音声認識の目標と関係するジェスチャを識別するための例示的方法のフローチャートである。音声認識の目標と関係する近接情報を識別するための例示的方法のフローチャートである。ユーザー入力を音声認識のための文法要素と関係づけるための例示的方法のフローチャートである。

本開示の実施形態は、車両または他の環境と関係する任意の数の機能を音声認識の目標とするためのシステム、方法、および装置を提供することができる。この点に関しては、複数の異なる機能および／または応用と関係する文法要素の階層構造を回避することができ、それによって最終的なコマンドの比較的より速い処理および利用者満足度のより高いレベルに導く。ある実施形態では、機能に特有の文法要素のサブセットまたはクラスタが各機能と関係する。例えば、文法要素の第１のサブセットはラジオ機能（または他の機能）と関係し、文法要素の第２のサブセットは空調機能（または他の機能）と関係する。スピーチ入力以外のユーザー入力であってもよいが、ユーザー入力の識別および評価に基づいて、望ましい機能およびそれと関係する文法要素のサブセットを選択することができる。それから、文法要素のサブセットは、選択された機能と関係し、それを目標とするスピーチ入力を処理するために利用することができる。

様々な実施形態は、多種多様な異なる動作環境と連動して利用することができる。例えば、ある実施形態は、車両環境で利用することができる。要求に応じて、車両内の音響モデルは、特定のハードウェアおよび様々な内部および／または外部の音響で用いるために、最適化することができる。好適な車両の例としては、自動車、トラック、軽トラック、大型トラック、ピックアップトラック、ミニバン、クロスオーバー車両、バン、商用車、私用車、スポーツ用車両、トラクタ−トレーラ、航空機、飛行機、ジェット、ヘリコプタ、宇宙船、船舶、または通信および知覚の能力を有する他のいかなる好適な車両が挙げられるが、これらに限定されるものではない。しかし、２つのシステム間の電子通信を実装することができる他の輸送または非輸送に関連する応用においても、本開示の実施形態を利用することができることはいうまでもない。

１つの例示的実施形態では、可聴コマンド（例えば、ボイスコマンド）と関係する複数の文法要素が車両と関係することができる。例えば、文法要素は、車両の好適な音声認識システムまたはコンポーネントと関係して記憶することができる。複数の文法要素は、任意の数の車両機能と関係するそれぞれの文法要素を含むことができる。車両機能は、例えば、車両制御機能、空調制御機能、オーディオシステム機能、ウィンドウ（例えば、ウィンドウ、サンルーフなど）制御機能、座席制御機能、ディスプレイ制御機能、ナビゲーション制御機能、ウェブまたは他のネットワーク機能、通信制御機能、ならびに／または多種多様な車両システム、コンポーネント、および／もしくは応用と関係する他の任意の機能を含むことができる。ある実施形態では、複数の文法要素のサブセットが車両機能の各々と関係することができる。例えば、文法要素の比較的小さい語彙は、各機能と関係することができる。

本開示の一態様によれば、ユーザー入力を識別することができ、所望の車両機能を選択するために評価することができる。この点に関して、選択された機能と関係する文法要素は、複数の文法要素のサブセットであってもよく（または、別々に記憶してもよく、および／または任意の数の好適なデータソースから取得してもよく）、これらを識別することができる。多種多様な異なるタイプのユーザー入力は、様々な実施形態において所望するように識別することができる。ユーザー入力は、ユーザージェスチャ、入力要素に対するユーザー近接、および／または入力要素のユーザー選択を含むが、これらに限定されない。例えば、関心のある対象物（例えばユーザーの手など）の画像を収集するために、画像キャプチャデバイス（例えばカメラなど）を利用することができ、ユーザーによって成されたジェスチャを識別するために、収集した画像を評価し、および／または処理することができる。多種多様な異なるタイプのジェスチャは、例えば、手の動き（例えば、完全な手の動き、指の動きなど）と関係するジェスチャ、および／または車両内の定められた関心領域の指示（例えば、接触、近接、指さしなど）と関係するジェスチャであって、所望するように識別することができる。それから、少なくとも部分的にはジェスチャの評価に基づいて、所望の機能を識別または選択することができる。別の例として、ユーザー（例えば、ユーザーの手など）が入力要素（例えば、スイッチ、ボタン、ノブ、入力領域など）にいつ近接するかを判定するために、１つまたは複数の近接検出器および／または近接センサを利用することができる。そして、判定された近接に基づいて、所望の機能を識別または選択することができる。さらに別の例として、入力要素（例えば、スイッチ、ノブなど）のユーザー選択を識別し、入力要素と関係する機能を識別または選択するために利用することができる。

一旦所望の機能が識別されると、機能と関係する文法要素のセットを、受け取った音声入力（例えばスピーチ入力）を処理するために利用することができる。音声入力は、１つまたは複数のマイクロホンなどの任意の数の好適な音声キャプチャデバイスによって収集することができる。ある実施形態では、音声入力の収集または取込みは、少なくとも部分的には識別されたユーザー入力に基づいて開始することができる。例えば、入力要素選択またはジェスチャが識別される（または、ジェスチャの開始が識別される）と、マイクロホンをオンにすることができる。他の実施形態では、識別されたユーザー入力を、関連する収集した音声入力を識別するために利用することができる。例えば、最近収集した音声入力を記憶するために、バッファを利用することができる。一旦、ユーザー入力が識別されると、ユーザー入力の直前に、その間に、および／またはその直後に取り込まれた音声入力が識別され得る。いずれの場合でも、収集した音声は、識別された機能と関係する文法要素を利用して評価することができる。この点に関しては、機能と関係する文法要素（もしくは複数の文法要素）またはコマンドは、収集した音声入力に対応するものとして識別することができる。一旦、文法要素（または複数の文法要素）が音声入力に一致するかまたは対応するものとして識別されると、例えば識別された文法要素の指示または機能と関係する制御信号などの多種多様な好適な情報を出力することができる。例えば、オーディオシステム機能が識別された場合には、「上げる」コマンドを識別して、ラジオの音量を上げるために処理することができる。別の例として、ウィンドウ機能が識別された場合には、「上げる」コマンドを識別して、ウィンドウを閉めるために処理することができる。

さらに、ある実施形態では、ユーザーは、所望のユーザー入力および／または文法要素を様々な機能と関係づけることができる。例えば、新規入力学習機能または指示を識別する（例えば、ユーザー入力に基づいて識別する）ことができ、１つまたは複数のユーザー入力（例えば、ジェスチャ、入力要素に対する近接、入力要素の選択など）を、新規入力学習指示に基づいて追跡することができる。それから、追跡した１つまたは複数のユーザー入力を、例えばユーザーによって選択および／または指定された機能などの所望の機能と関係づけることができる。さらに、所望するように、ユーザーによって提供される音声入力（例えば、話された単語および／またはフレーズなど）を収集し、所望の機能と関係する１つまたは複数の文法要素を生成するために利用することができる。

特定の実施形態について、以下では、添付の図面を参照してより完全に記載しており、添付の図面には様々な実施形態および／または態様を示している。しかし、様々な態様は多くの異なる形式で実現することができ、本明細書に記載される実施形態に限定されるように解釈してはならない。むしろ、これらの実施形態は、本開示が徹底的で完全なものであるように提供されており、当業者に本開示の範囲を完全に伝えるであろう。類似の符号は、全体にわたって類似の要素を示す。

＜システムの概要＞
図１は、本開示の例示的実施形態による、様々な車両機能をスピーチ入力の目標とするために利用することができる例示的システム１００またはアーキテクチャのブロック図である。システム１００は、多種多様なハードウェアおよび／または機能コンポーネント、例えばユーザー入力コンポーネント１０５、選択コンポーネント１１０、機能に特有の文法１１５の任意の数のセットまたはクラスタ、音声キャプチャコンポーネント１２０、スピーチエンジン１２５、および／または操作コンポーネント１３０などを含むことができる。これらのコンポーネントの各々は、後でさらに詳細に説明する。さらに、図１のシステム１００が、様々なシステム、装置、および／または１つまたは複数のプロセッサによって実行されるコンピュータ可読媒体を含むがこれに限定されない多種多様な好適な形式で実現することができることはいうまでもない。図１に示すシステム１００の１つの例示的な詳細な実施形態について、図３を参照して後でさらに詳細に説明する。

図１に示すように、ユーザー入力コンポーネント１０５は、車両と関係する１つまたは複数のユーザー入力の収集、判定、および／または識別を容易にすることができる。多種多様な異なるタイプのユーザー入力を、所望するように収集および／または識別することができ、ユーザー入力は、ユーザーによって成されたジェスチャ、１つまたは複数の入力要素に対するユーザー近接、および／または１つまたは複数の入力要素（例えば、スイッチ、ノブ、ボタンなどの物理入力要素）のユーザー選択を含むが、これらに限定されない。所望するように、多種多様な好適なユーザー入力収集デバイスは、例えば１つまたは複数の画像キャプチャデバイス、１つまたは複数の近接センサ、および／または１つまたは複数の入力要素などのユーザー入力を収集および／または識別するために、利用することができる。

少なくとも部分的にはユーザー入力コンポーネント１０５によって収集および／または判定される情報の評価に基づいて、選択コンポーネント１１０は、車両と関係する機能を識別または判定することができる。それから、多種多様な機能に特有の情報は、選択コンポーネント１１０によって識別および／または選択することができる。例えば、機能と関係する文法要素（例えば、ボイスコマンドなど）のセットを選択することができる。ある実施形態では、機能と関係する機能に特有の文法１１５のセットまたはクラスタを選択することができる。この点に関しては、所望の機能と関係する文法要素を音声認識の目標とするために、受け取ったユーザー入力を利用することができる。

ユーザーと関係する音声入力を収集し、または取り込むために、音声キャプチャコンポーネント１２０を利用することができる。例えば、ユーザーによって話されたボイスコマンド（例えば、単語、フレーズなど）を含む音声信号を収集するために、マイクロホンを利用することができる。スピーチエンジン１２５は、音声入力を受け取って、選択されたまたは所望の機能と関係する文法要素を利用して受け取った音声入力を評価することができる。この点に関しては、スピーチエンジン１２５は、選択された機能と関係する文法要素またはボイスコマンドを識別することができる。ユーザーによって話された文法要素またはボイスコマンドを識別するために、多種多様な好適な音声認識アルゴリズムおよび／または技術を、所望するように利用することができる。さらに、一旦文法要素が識別されれば、多種多様な好適な出力、命令、および／または制御操作を行うことができる。例えば、操作コンポーネント１３０は、選択された機能と関係するいかなる数の車両応用および／またはコンポーネントに提供される１つまたは複数の制御信号を生成することができる。別の例として、操作コンポーネント１３０は、受け取って識別したボイスコマンドを、選択された機能と関係するアプリケーションによって処理することができるフォーマットに変換することができる。

図２は、目標とする音声認識と関係するユーザー入力を取得するための例示的技術を示す簡略化した概略図２００である。図２を参照すると、ユーザーの手２０５、車両オーディオ制御パネル２１０、および車両空調制御パネル２１５が表されている。車両オーディオ制御パネル２１０は１つまたは複数の音声制御機能性と関係することができ、車両空調制御パネル２１５は１つまたは複数の空調制御機能性と関係することができる。所望するように、制御パネル２１０、２１５の各々は、様々なノブ、ボタン、スイッチ、および／またはタッチスクリーンディスプレイなどの任意の数の物理入力要素を含むことができる。他の実施形態では、制御パネルの各々は、ユーザーの手２０５（または他の対象物）の近接を検出するように構成される１つまたは複数の近接センサを含む、またはそれと関係することができる。さらに他の実施形態では、制御パネル（および／またはそれらの基礎となる機能）の各々は、車両内の１つまたは複数の指定された入力領域と関係することができる。例えば、ダッシュボード、コンソール、または車両内の他の場所の指定された入力領域は、音声制御と関係することができる。ある実施形態では、指定された入力領域は、１つまたは複数の近接センサを含むことができる。

制御パネル２１０、２１５および／またはそれらの基礎となる機能と関係するユーザー入力を識別し、収集し、および／または取得するために、多種多様な好適な方法または技術を、所望するように利用することができる。例えば、制御パネルまたは基礎となる機能を表すジェスチャを識別するために、ユーザーの手の動作を追跡することができる。多種多様な異なるタイプのジェスチャを識別することができる。一例として、オーディオ制御機能と関係する所定の動作（または一連の動作）は、手２０５および／または指の動きに基づいて識別することができる。別の例として、ユーザーは制御パネルまたは関係する入力領域を指さすことができ、その指さしはジェスチャとして識別することができる。さらに別の例として、手２０５と制御パネルまたは関係する入力領域との間の近接は、画像データの評価に基づいてジェスチャとして識別することができる。制御パネル２１０、２１５の１つと関係する機能などの所望の基礎となる機能を選択するために、識別されたジェスチャのいずれかを評価することができる。

別の例示的ユーザー入力として、ユーザーの手２０５と制御パネルおよび／または制御パネルと関係する入力要素（例えば、物理入力要素、入力領域など）との間の近接を検出および／または判定するために、１つまたは複数の近接センサを利用することができる。それから、所望の機能は、少なくとも部分的には判定された近接の評価に基づいて選択することができる。例えば、オーディオ制御機能は、ユーザーの手２０５と車両オーディオ制御パネル２１０との間の判定された近接に基づいて選択することができる。別の例として、オーディオチューニング機能（例えば、ラジオチューニング、衛星ラジオチューニングなど）は、ユーザーの手２０５と車両オーディオ制御パネル２１０と関係するチューニング入力要素（例えばチューニングノブなど）との間の判定された近接に基づいて選択することができる。実際、ユーザー入力の記載したタイプのいずれかを用いて、ある機能に適用可能な文法要素のサブセットを、様々な程度の特殊性によって識別することができる。

さらに別の例示的ユーザー入力として、１つまたは複数の物理入力要素（例えば、ノブ、ボタン、スイッチ、および／または１つもしくは複数のタッチスクリーンディスプレイの要素）を選択するために、ユーザーは自分の手を利用することができる。それから、所望の機能を、少なくとも部分的には選択された物理入力要素に基づいて選択することができる。例えば、車両オーディオ制御パネル２１０と関係する１つまたは複数の入力要素が選択される場合には、オーディオ制御機能が選択され得る。別の例として、例えば音量入力要素２２０などの特定の選択された入力要素を識別することができ、選択された入力要素（例えば音量調整機能など）と関係する機能を識別することができる。あるいは、より高いレベルの機能と関係する文法要素は、選択された入力要素と関係する特定の低いレベルの機能に重み付けされてもよい。例えば、音量入力要素２２０が選択される場合には、オーディオ制御機能を選択することができる。しかし、オーディオ制御機能性と関係する文法要素の識別されたセットが識別されるが、特定のコマンドが音量制御に重み付けされてもよい。例えば、「上げる」というコマンド受け取ると、オーディオの音量を上げることができる。しかし、依然として非音量音声コマンドが処理される。別の例として、チューニング入力要素が選択された場合には、「上げる」というコマンド受け取ると、オーディオコンポーネントを上方にチューニングすることができる。

図２を参照して上述した方法および／または技術は、例としてのみ提供するものである。多種多様な他のタイプのユーザー入力および／またはユーザー入力の様々な組合せを識別し、音声認識を目標とするために利用することができる。

図３は、本開示の様々な実施形態において利用することができる例示的音声認識システム３００またはアーキテクチャのブロック図である。ある実施形態では、音声認識システム３００は、音声認識システムとして実装または実現することができる。他の実施形態では、音声認識システム３００は、例えば車両と関係する車内情報エンターテイメント（「ＩＶＩ」）システムなどの別のシステムまたはデバイスのコンポーネントとして実装または実現することができる。さらに他の実施形態では、１つまたは複数の好適なコンピュータ可読媒体を、ユーザー入力および／またはスピーチ入力を処理するために提供することができる。これらのコンピュータ可読媒体は、ユーザー入力および／または関係するスピーチ入力を処理するために、１つまたは複数の処理デバイスによって実行されるコンピュータ実行可能命令を含むことができる。本明細書において、「コンピュータ可読媒体」という用語は、様々な種類の記憶デバイス（例えば、磁気的、光学的、静的なものなど）を含む、任意の形式で情報を保持するための好適なメモリまたはメモリデバイスの任意の形式を意味する。実際、本開示の様々な実施形態は、多種多様な好適な形式で実装することができる。

所望するように、音声認識システム３００は、ユーザー入力および／または関係するスピーチ入力を処理するための好適なハードウェアおよび／またはソフトウェアと関係する任意の数の好適なコンピューティングデバイスを含むことができる。これらのコンピューティングデバイスは、データを処理し、コンピュータ実行可能命令を実行するための任意の数のプロセッサ、ならびに周知の技術である他の内部および周辺コンポーネントを含むこともできる。さらに、これらのコンピューティングデバイスは、データおよび／またはコンピュータ実行可能命令を記憶するように動作可能な任意の数の好適なメモリデバイスを含むことができるか、あるいはそれらと通信することができる。コンピュータ実行可能命令を実行することによって、様々な車両機能を目標とするスピーチ入力のための専用コンピュータまたは特別なマシンを形成することができる。

図３を参照すると、音声認識システム３００は、１つまたは複数のプロセッサ３０５およびメモリデバイス３１０（一般にメモリ３１０と呼ばれる）を含むことができる。さらに、システムは、例えば任意の数の入力／出力（「Ｉ／Ｏ」）デバイス３１５、任意の数の車両音声キャプチャデバイス３２０（例えば、マイクロホン）、および／または任意の数の好適な車両アプリケーション３２５などの、プロセッサ３０５と通信する任意の数の他のコンポーネントを含むことができる。Ｉ／Ｏデバイス３１５は、例えば１つまたは複数の画像キャプチャデバイスもしくは画像センサ３３０、任意の数の近接センサ３３５、および／または任意の数の入力要素３４０（例えば、ボタン、ノブ、スイッチ、タッチスクリーンディスプレイなど）などの、音声認識を目標とするために利用されるユーザー入力を取り込むために利用される任意の好適なデバイスおよび／またはコンポーネントを含むことができる。さらに、所望するように、Ｉ／Ｏデバイス３１５は、例えば１つまたは複数のディスプレイデバイスなどの、ユーザーとの対話を容易にする多種多様な他のコンポーネントを含むことができる。

プロセッサ３０５は、例えば中央処理ユニット（「ＣＰＵ」）、デジタル信号プロセッサ（「ＤＳＰ」）、縮小命令セットコンピュータ（「ＲＩＳＣ」）、複合命令セットコンピュータ（「ＣＩＳＣ」）、マイクロプロセッサ、マイクロコントローラ、フィールドプログラマブルゲートアレイ（「ＦＰＧＡ」）、またはそれらの任意の組み合わせなどの、任意の数の好適な処理デバイスを含むことができる。所望するように、プロセッサ３０５と音声認識システム３００の他のコンポーネントの１つまたは複数との間の通信を制御するために、チップセット（図示せず）を設けることができる。一実施形態では、音声認識システム３００はインテル（登録商標）のアーキテクチャシステムに基づいてもよく、プロセッサ３０５およびチップセットは、例えばインテル（登録商標）のＡｔｏｍ（登録商標）プロセッサファミリーなどの、インテル（登録商標）のプロセッサおよびチップセットのファミリーから採用してもよい。プロセッサ３０５は、特定のデータ処理機能またはタスクを扱うための１つもしくは複数の特定用途向け集積回路（「ＡＳＩＣ」）または特定用途向け標準製品（「ＡＳＳＰ」）の一部として、１つまたは複数のプロセッサを含むこともできる。さらに、任意の数の好適なＩ／Ｏインターフェースおよび／または通信インターフェース（例えば、ネットワークインターフェース、データバスインターフェースなど）は、プロセッサ３０５間および／または音声認識システム３００の他のコンポーネント間の通信を容易にすることができる。

メモリ３１０は、任意の数の好適なメモリデバイスを含むことができ、これらのメモリデバイスとしては、例えばキャッシュ、読出し専用メモリデバイス、ランダムアクセスメモリ（「ＲＡＭ」）、ダイナミックＲＡＭ（「ＤＲＡＭ」）、スタティックＲＡＭ（「ＳＲＡＭ」）、同期式ダイナミックＲＡＭ（「ＳＤＲＡＭ」）、ダブルデータレート（「ＤＤＲ」）ＳＤＲＡＭ（「ＤＤＲＳＤＲＡＭ」）、ラムバスＤＲＡＭ（「ＲＤＲＡＭ」）、フラッシュメモリデバイス、電気的消去可能なプログラム可能読出し専用メモリ（「ＥＥＰＲＯＭ」）、不揮発性ＲＡＭ（「ＮＶＲＡＭ」）、汎用シリアルバス（「ＵＳＢ」）着脱可能メモリ、磁気記憶デバイス、着脱可能記憶デバイス（例えばメモリーカードなど）、および／または取り外し不可能な記憶デバイスなどがある。要望に応じて、メモリ３１０は、内部メモリデバイスおよび／または音声認識システム３００と通信する外部メモリデバイスを含むことができる。メモリ３１０は、プロセッサ３０５によって利用されるデータ、実行命令、および／または様々なプログラムモジュールを記憶することができる。メモリ３１０によって記憶することができるデータの例としては、データファイル３４２、文法要素と関係する情報（文法要素情報）３４４、１つもしくは複数のユーザープロファイル３４６と関係する情報、ならびに／またはプロセッサ３０５によって実行することができる任意の数の好適なプログラムモジュールおよび／もしくはアプリケーション、例えばオペレーティングシステム（「ＯＳ」）３４８、１つまたは複数の入力処理モジュール３５０、および／または１つまたは複数の音声認識モジュール３５２などが挙げられる。

データファイル３４２は、音声認識システム３００の動作、ユーザー入力の識別および処理、ならびに／またはスピーチ入力の処理を容易にする任意の好適なデータを含むことができる。例えば、記憶されたデータファイル３４２は、ユーザーの識別と関係する情報、車両機能と関係する情報、車両機能のためのそれぞれの文法要素と関係する情報、様々なタイプのユーザー入力の識別と関係する情報、車両アプリケーション３２５と関係する情報、ならびに／または多種多様な他の車両および／もしくは音声認識と関係する情報を含むことができるが、これらに限定されない。文法要素情報３４４は、音声認識モジュール３５２によって認識することができる複数の異なる文法要素（例えば、コマンド、スピーチ入力など）と関係する多種多様な情報を含むことができる。例えば、文法要素情報３４４は、任意の数の機能と関係する複数の文法要素を含むことができる。複数の文法要素は、様々な機能と関係する任意の数のサブセットに分類することができる。ユーザープロファイル３４６は、様々なユーザー（例えば、車両の様々なドライバなど）と関係する多種多様なユーザーの好みおよび／またはパラメータを含むことができ、これらは１つまたは複数のユーザーの識別情報、スピーチ入力の処理と関係するユーザーの好み、様々な機能と関係する文法要素と関係するユーザーの好み、および／または様々な機能と関係する入力と関係するユーザーの好みを含むが、これらに限定されない。

ＯＳ３４８は、音声認識システム３００の一般的な動作、ならびに例えば入力処理モジュール３５０および／または音声認識モジュール３５２などの他のプログラムモジュールの実行を容易にする好適なモジュールまたはアプリケーションであってもよい。入力処理モジュール３５０は、ユーザー入力の識別および／または少なくとも部分的にはユーザー入力に基づく機能の選択を容易にする任意の数の好適なソフトウェアモジュールおよび／またはアプリケーションを含むことができる。動作において、入力処理モジュール３５０は、ユーザー入力データならびに／または１つもしくは複数のＩ／Ｏデバイス３１５からのデータ、例えば測定データ、画像データ、および／または選択された入力要素と関係するデータなどを受け取ることができる。要望に応じて、入力処理モジュール３５０は、ユーザー入力と関係する機能を識別するために、受け取ったデータを評価することができる。この点に関しては、機能と関係する文法要素を、識別しおよび／または判定することができる。さらに、機能の識別を、音声認識モジュール３５２に提供することができる。この点に関しては、機能に特有の文法要素は受け取った音声入力に関連して評価することができ、目標とする音声認識を実行することができる。

多種多様な異なるタイプのユーザー入力は、入力処理モジュール３５０によって、様々な実施形態において所望するように識別することができ、ユーザー入力は、ユーザージェスチャ、入力要素に対するユーザー近接、および／または入力要素のユーザー選択を含むが、これらに限定されない。例えば、関心のある対象物（例えばユーザーの手など）の画像を収集するために、画像センサ３３０（例えばカメラなど）を利用することができ、ユーザーによって成されたジェスチャを識別するために、収集した画像を入力処理モジュール３５０によって評価し、および／または処理することができる。多種多様な異なるタイプのジェスチャは、例えば、手の動き（例えば、完全な手の動き、指の動きなど）と関係するジェスチャ、および／または車両内の定められた関心領域の指示（例えば、接触、近接、指さしなど）と関係するジェスチャであって、所望するように識別することができる。それから、少なくとも部分的にはジェスチャの評価に基づいて、所望の機能を識別または選択することができる。別の例として、ユーザー（例えば、ユーザーの手など）が入力要素（例えば、スイッチ、ボタン、ノブ、入力領域など）にいつ近接するかを判定するために、１つまたは複数の近接センサ３３５を利用することができる。そして、判定された近接に基づいて、所望の機能を識別または選択することができる。さらに別の例として、１つまたは複数の入力要素３４０（例えば、スイッチ、ノブなど）のユーザー選択を識別し、１つまたは複数の入力要素３４０と関係する機能を識別または選択するために利用することができる。

音声認識モジュール３５２は、受け取ったスピーチ入力の処理を容易にする任意の数の好適なソフトウェアモジュールおよび／またはアプリケーションを含むことができる。動作において、音声認識モジュール３５２は、例えばユーザー入力の評価に基づいて選択された機能などの車両機能と関係する適用可能な文法要素を識別することができる。ある実施形態では、ある機能に適用可能な文法要素は、音声認識モジュール３５２による処理が利用できる複数の文法要素のサブセットであってもよい。さらに、文法要素は、例えば内部メモリおよび／または任意の数の外部デバイス（例えば、ネットワークサーバー、クラウドサーバー、ユーザーデバイスなど）などの多種多様な好適なソースからアクセスし、および／または取得することができる。

一旦音声入力またはスピーチ入力を処理のために受け取ると、受け取ったスピーチ入力と文法要素との間の対応関係を判定または識別するために、音声認識モジュール３５２は機能に特有の文法要素を考慮してスピーチ入力を評価することができる。一旦、文法要素（または複数の文法要素）がスピーチ入力に一致するものとして識別されると、音声認識モジュール３５２は、文法要素と関係する多種多様な情報を生成し、および／または出力することができる。例えば、識別された文法要素は、実行する車両アプリケーション３２５に提供される入力に変換することができる。この点に関しては、ボイスコマンドを識別して、車両に関連するアプリケーション３２５に送ることができる。別の例として、車両アプリケーション３２５、車両システム、および／または車両コンポーネントに提供される１つまたは複数の制御信号および／またはコマンドを生成するために、識別された文法要素を処理することができる。ある実施形態では、ユーザーに提示するための出力情報（例えば、音声出力情報、ディスプレイ情報、通信用メッセージなど）を生成するために、認識されたスピーチ入力を処理することができる。例えば、ボイスコマンドの認識および／または処理と関係する音声出力を生成し出力することができる。別の例として、ボイスコマンドの処理に基づいて、視覚的ディスプレイを更新することができる。

所望するように、入力処理モジュール３５０および／または音声認識モジュール３５２は、任意の数の好適なモジュールとして実装することができる。あるいは、単一モジュールが、入力処理モジュール３５０および音声認識モジュール３５２の両方の機能を実行することができる。入力処理モジュール３５０および／または音声認識モジュール３５２のいくつかの動作の例は、図４〜図７を参照して後でさらに詳細に説明する。

図３の参照を続けると、Ｉ／Ｏデバイス３１５は、プロセッサ３０５および／または入力処理モジュール３５０に提供される情報の収集を容易にする任意の数の好適なデバイスおよび／またはコンポーネントを含むことができる。好適な入力デバイスの例としては、１つまたは複数の画像センサ３３０または画像収集デバイス（例えばカメラなど）、任意の数の近接センサ３３５、任意の数の好適な入力要素３４０が挙げられるが、これらに限定されない。所望するように、Ｉ／Ｏデバイス３１５は、ユーザーに対する情報の出力を容易にする任意の数の好適な出力デバイスをさらに含むことができる。好適な出力デバイスの例としては、１つまたは複数のスピーカーおよび／または１つまたは複数のディスプレイを含むが、これらに限定されない。ディスプレイは、例えば液晶ディスプレイ（「ＬＣＤ」）、発光ダイオード（「ＬＥＤ」）ディスプレイ、有機発光ダイオード（「ＯＬＥＤ」）ディスプレイ、および／またはタッチスクリーンディスプレイなどの任意の数の好適なディスプレイデバイスが挙げられる。他の好適な入力および／または出力ディスプレイを、所望するように利用することができる。

画像センサ３３０は、例えばカメラ、電荷結合デバイス（「ＣＣＤ」）、相補型金属酸化物半導体（「ＣＭＯＳ」）センサなどの、光学像を電子信号に変換する任意の既知のデバイスを含むことができる。動作において、画像センサ３３０によって収集されたデータは、多種多様な好適な情報を判定または識別するために処理することができる。例えば、ユーザーを識別し、ユーザーの指示を検出し、および／またはユーザーのジェスチャを検出するために、画像データを評価することができる。

近接センサ３３５は、例えばユーザーの手などの近くの対象物の存在を検出するように構成される任意の既知のデバイスを含むことができる。ある実施形態では、対象物と近接センサとの間にいかなる物理的接触がなくても、存在を検出することができる。ある近接センサ３３５は、電磁場または電磁放射（例えば赤外線など）のビームを放射することができる。それから、対象物の存在および／または近接を識別するために、放射された電磁場の変化および／または帰還信号の識別を判定し、利用することができる。さらに、所望するように、近接センサ３３５は、対象物または目標の検出と関係する任意の好適な公称範囲と関係づけることができる。

入力要素３４０は、ユーザー入力、およびユーザー入力の受け取りと関係する任意の数の定められた入力領域を受け取るように構成される任意の数の好適な物理コンポーネントおよび／またはデバイスを含むことができる。好適な物理入力要素の例としては、ボタン、ノブ、スイッチ、タッチスクリーン、容量検知素子などが挙げられるが、これらに限定されない。ユーザーによる操作および／または選択に応じて、物理入力要素は、評価のために入力処理モジュール３５０に直接または間接に提供されるデータ（例えば電気信号など）を生成することができる。あるいは、ユーザー選択と関係する識別情報（例えば、選択された入力要素および／または関係する機能の識別など）を、入力処理モジュール３５０に提供することができる。入力領域は、機能と関係する車両内の好適な領域または関心領域であってもよい。例えば、ダッシュボード、コンソール、または車両内の他の場所の指定された入力領域は、様々な機能と関係することができる。ある実施形態では、入力領域と関係するジェスチャ（例えば、入力領域に対するユーザーの指さし、入力領域に近接したユーザーの動きなど）は、入力領域と関係する機能を選択するために、識別し、評価することができる。他の実施形態では、指定された入力領域は、１つまたは複数の近接センサを含むことができる。

車両音声キャプチャデバイス３２０は、例えば話された単語および／またはフレーズなどの音声信号および／または音声入力を取り込むための、例えばマイクロホンなどの任意の数の好適なデバイスを含むことができる。車両音声キャプチャデバイス３２０は、任意の既知のタイプのマイクロホンを含むことができ、それらはコンデンサマイクロホン、ダイナミックマイクロホン、容量ダイアフラムマイクロホン、圧電マイクロホン、光ピックアップマイクロホン、および／またはそれらの様々な組み合わせを含むが、これらに限定されない。動作において、車両音声キャプチャデバイス３２０は、音波および／または圧力波を収集し、評価のためにプロセッサ３０５および／または音声認識モジュール３５２に収集した音声データ（例えばボイスデータ）を提供することができる。この点に関しては、様々なスピーチ入力を認識することができる。さらに、ある実施形態では、収集したボイスデータは、１人または複数のユーザーを識別するために、記憶されたプロファイル情報と比較することができる。

図３の参照を続けると、任意の数の車両アプリケーション３２５を、音声認識システム３００と関係づけることができる。所望するように、認識されたスピーチ入力と関係する情報を、車両アプリケーション３２５に提供することができる。ある実施形態では、車両アプリケーション３２５の１つまたは複数は、プロセッサ３０５によって実行することができる。所望するように、車両アプリケーション３２５の１つまたは複数は、プロセッサ３０５と通信する（例えばネットワーク通信）他の処理デバイスによって実行することができる。例示的な車両の実施形態では、車両アプリケーション３２５は、車両と関係する任意の数の車両アプリケーションを含むことができ、それらは１つもしくは複数の車両制御アプリケーション、空調制御アプリケーション、オーディオシステムアプリケーション、ウィンドウ（例えば、ウィンドウ、サンルーフなど）制御アプリケーション、座席制御アプリケーション、ディスプレイ制御アプリケーション、ナビゲーション制御アプリケーション、ウェブもしくは他のネットワークアプリケーション、通信制御アプリケーション、メンテナンスアプリケーション、ユーザーデバイスおよび／もしくは他の車両との通信を管理するアプリケーション、車両パラメータをモニタするアプリケーション、ならびに／または他の任意の好適なアプリケーションを含むが、これらに限定されない。

図３を参照して上述した音声認識システム３００またはアーキテクチャは、例としてのみ提供するものである。所望するように、多種多様な他のシステムおよび／またはアーキテクチャを、スピーチ入力の目標とする処理を実行するために利用することができる。これらのシステムおよび／またはアーキテクチャは、図３に示したものと異なるコンポーネントおよび／またはコンポーネントの配置を含むことができる。

＜動作の概要＞
図４は、車両機能を音声認識の目標とするためにユーザー入力を評価するための例示的方法４００のフローチャートである。ある実施形態では、方法４００の動作は、例えば、図３に示す音声認識システム３００および／または関係する入力処理モジュール３５０および／または音声認識モジュール３５２などの、好適な音声認識システムおよび／または１つもしくは複数の関係するモジュールおよび／またはアプリケーションによって実行することができる。方法４００はブロック４０５から開始することができる。

ブロック４０５では、複数の車両機能および／またはアプリケーションのための任意の数のそれぞれの可聴コマンドと関係する文法要素を記憶することができる。あるいは、文法要素のソースを識別することができる。ある実施形態では、文法要素のそれぞれのサブセットを、様々な車両機能および／またはアプリケーションと関係づけることができる。さらに、ある実施形態では、多種多様な異なるタイプの構成情報を、文法要素の構成および／または文法要素と関係する音声認識の間に考慮することができる。例えば、車両の１人または複数のユーザー（例えばドライバ）を識別することができ、１人または複数のユーザーについてのユーザープロファイル情報を取得することができる。ユーザーに特有の文法要素および／または様々な機能と関係する入力（例えば、ジェスチャ、入力要素識別、入力要素選択など）を識別するために、ユーザープロファイル情報を利用することができる。

所望するように、多種多様な好適な方法および／または技術を、ユーザーを識別するために利用することができる。例えば、ユーザーのボイスサンプルを収集し、記憶されたボイスサンプルと比較することができる。別の例として、ユーザーの画像データを収集し、好適な顔認識技術を利用して評価することができる。別の例として、他のバイオメトリック入力（例えば指紋など）を、ユーザーを識別するために評価することができる。さらに別の例として、車両とユーザーデバイス（例えばモバイルデバイスなど）との間のペアを判定することに基づいて、および／またはユーザーによって入力されたユーザー識別情報（例えば個人識別番号など）の受け取りおよび評価に基づいて、ユーザーを識別することができる。

ブロック４１０では、車両と関係するユーザー入力を受け取りおよび／または識別することができる。多種多様な異なるタイプのユーザー入力を、様々な実施形態において所望するように識別することができる。例えば、ブロック４１５では、少なくとも部分的には画像センサから受け取った画像データの評価に基づいて、ユーザージェスチャ（例えば、ユーザーの手によって成されるジェスチャ、入力要素などの指示など）を識別することができる。別の例として、ブロック４２０では、少なくとも部分的には１つまたは複数の近接センサから受け取ったデータに基づいて、入力要素（例えば、物理入力要素、入力領域など）に対するユーザー（例えばユーザーの手など）の近接を判定することができる。さらに別の例として、ブロック４２５では、１つまたは複数の入力要素（例えば物理入力要素）のユーザー選択を識別することができる。

ブロック４３０では、少なくとも部分的には識別されたユーザー入力の評価に基づいて、車両機能を選択または識別することができる。それから、ブロック４３５では、選択された機能と関係する文法要素のサブセットを識別することができる。ある実施形態では、機能のための文法要素のサブセットは、少なくとも部分的にはユーザー入力に基づいて削減することができる。例えば、ユーザー入力がオーディオシステムの音量を変えることと関係する場合には、その機能は音声制御文法要素と関係する音声制御機能として識別することができる。ユーザー入力が音量制御と関係するという判定に基づいて、音声制御文法要素を音量制御文法要素に限定することができる。他の実施形態では、選択された機能と関係する文法要素のサブセットは、受け取ったユーザー入力に基づいて、バイアスされ、および／または重み付けされ得る。音声制御機能の上記の例を用いて、音声制御文法要素を選択し、音量制御にバイアスすることができる。

ブロック４４０では、音声入力を、任意の数の好適な音声収集デバイス（例えばマイクロホン）から受け取ることができる。ある実施形態では、少なくとも部分的には識別されたユーザー入力に基づいて、音声入力の収集を開始することができる。例えば、機能が選択されると、マイクロホンをオンにする、または起動することができる。他の実施形態では、関連する収集した音声入力を識別するために、識別されたユーザー入力を利用することができる。例えば、最近収集した音声入力を記憶するために、バッファを利用することができる。一旦、ユーザー入力が識別されると、ユーザー入力の直前に、その間に、および／またはその直後に取り込まれた音声入力を処理のために識別することができる。いずれの場合でも、ブロック４４５では、収集した音声は、識別された機能と関係する文法要素を利用して評価することができる。この点に関しては、識別された機能と関係する文法要素（もしくは複数の文法要素）またはコマンドは、収集した音声入力に対応するものとして識別することができる。

ブロック４５０では、一旦、機能と関係する文法要素（または複数の文法要素）が音声入力に一致するかまたは対応するものとして識別されると、例えば識別された文法要素の表示または機能と関係する制御信号などの、文法要素と関係する多種多様な好適な情報を出力することができる。例えば、オーディオシステム機能が識別された場合には、「上げる」コマンドを識別して、ラジオの音量を上げるために処理することができる。別の例として、ウィンドウ機能が識別された場合には、「上げる」コマンドを識別して、ウィンドウを閉めるために処理することができる。さらに別の例として、座席制御機能が識別された場合、「より堅い」、「より柔らかい」、または「より多くのランバーサポート」コマンドを、座席制御を調整するために処理することができる。実際、多種多様な好適なコマンドは、様々な車両機能について処理することができる。方法４００は、ブロック４５０の後、終了することができる。

図５は、音声認識の目標と関係するジェスチャを識別するための例示的方法５００のフローチャートである。方法５００は、受け取った音声入力のその後の評価だけでなく、図４に示すブロック４１５の動作の１つの例示的な実装を示す。このように、方法５００の動作は、例えば、図３に示す音声認識システム３００および／または関係する入力処理モジュール３５０および／または音声認識モジュール３５２などの、好適な音声認識システムおよび／または１つもしくは複数の関係するモジュールおよび／またはアプリケーションによって実行することができる。方法５００は、ブロック５０５から開始することができる。

ブロック５０５では、ジェスチャ認識のために関心のある対象物を識別することができる。例えば、任意の数の好適な画像認識技術を利用している１つまたは複数の画像センサによって収集された画像データの評価に基づいて、ユーザーの手（例えばドライバの手など）を識別することができる。ブロック５１０では、関心のある識別された対象物と関係する画像データを受け取ることができる。例えば、画像センサは関心のある対象物の動きと関係する画像を取り込むことができ、取り込んだ画像を処理のために受け取ることができる。あるいは、画像センサは取り込んだ画像を処理することができ、実行された処理と関係する情報（例えば、識別されたジェスチャと関係する情報など）を受け取ることができる。

ブロック５１５では、関心のある対象物と関係するジェスチャを識別することができる。多種多様な異なるタイプのジェスチャは、本発明の様々な実施形態において所望するように識別することができる。例えば、ブロック５２０では、ジェスチャを識別するために、関心のある対象物の動きを追跡し評価することができる。この動きは、例えば、ユーザーの任意の数の動きおよび／または対象物の配置など（例えば、サンルーフの制御を示す前後の動き、ウィンドウの制御を示す上下の動き、オーディオシステムまたは空調制御システムの制御と関係する一連の動きおよび／または手の配置など）である。別の例として、ブロック５２５では、関心のある領域または対象物に対する対象物の近接および／またはそれらの指示を識別することができる。例えば、入力要素または他の対象物に対するユーザーの指さし（例えば、ウィンドウに対する指さし、オーディオ制御パネルに対する指さし、入力領域などに対する指さし）、あるいはユーザーが入力要素もしくは他の対象物の近くの位置に関心のある対象物を配置するかまたはそれにさわることなどを識別することができる。

ブロック５３０では、識別されたジェスチャと関係する機能を識別し、または判定することができる。この点に関しては、機能と関係する文法要素を識別し、および／またはそれにアクセスすることができる。さらに、ブロック５３５では、音声の取り込みを開始し、および／または評価することができる。そして、ブロック５４０では、機能と関係するボイスコマンドを識別し、および／または処理するために、受け取った音声入力を処理することができる。方法は、ブロック５４０の後、終了することができる。

図６は、音声認識の目標と関係する近接情報を識別するための例示的方法のフローチャートである。方法６００は、受け取った音声入力のその後の評価だけでなく、図４に示すブロック４２０の動作の１つの例示的な実装を示す。このように、方法６００の動作は、例えば、図３に示す音声認識システム３００および／または関係する入力処理モジュール３５０および／または音声認識モジュール３５２などの、好適な音声認識システムおよび／または１つもしくは複数の関係するモジュールおよび／またはアプリケーションによって実行することができる。方法６００は、ブロック６０５から開始することができる。

ブロック６０５では、ユーザーおよび／またはユーザーと関係する対象物（例えば、ユーザーの手、ユーザーの指など）の、入力要素（例えば、物理入力要素、入力領域など）に対する近接を、任意の数の好適な近接センサを利用して検出することができる。ブロック６１０では、入力要素と関係する機能を識別し、または判定することができる。この点に関しては、機能と関係する文法要素を識別し、および／またはそれにアクセスすることができる。さらに、ブロック６１５では、音声の取り込みを開始し、および／または評価することができる。そして、ブロック６２０では、機能と関係するボイスコマンドを識別し、および／または処理するために、受け取った音声入力を処理することができる。方法６００は、ブロック６２０の後、終了することができる。

図７は、ユーザー入力を音声認識のための文法要素と関係づけるための例示的方法７００のフローチャートである。ある実施形態では、方法７００の動作は、例えば、図３に示す音声認識システム３００および／または関係する入力処理モジュール３５０および／または音声認識モジュール３５２などの、好適な音声認識システムおよび／または１つもしくは複数の関係するモジュールおよび／またはアプリケーションによって実行することができる。方法７００は、ブロック７０５から開始することができる。

ブロック７０５では、学習指示を識別することができる。例えば、新規入力学習機能または指示を、受け取ったユーザー入力（例えば、学習ジェスチャ、ボイスコマンド、関係する入力要素の選択など）に基づいて識別することができる。ある実施形態では、学習指示は、指定された機能に関係して識別することができる。他の実施形態では、学習指示を識別することができ、続いて機能を指定し、選択し、または定義することができる。一旦学習指示が識別されると、学習モードに入ることができる。

ブロック７１０では、１つまたは複数のユーザー入力（例えば、ジェスチャ、入力要素に対する近接、入力要素の選択など）を追跡し、および／または識別することができる。それから、ブロック７１５では、追跡した１つまたは複数のユーザー入力を、例えばユーザーによって選択および／または指定された機能などの所望の機能と関係づけることができる。この点に関しては、ユーザーは、目標とする音声認識のための特別の機能の選択と関係するユーザー入力を定義し、または特定することができる。

さらに、ある実施形態では、ブロック７２０で、ユーザーに対して、機能と関係する音声入力のためのプロンプトを出すことができる。この点に関しては、機能のための文法要素を修正することができ、および／または、機能のための新規な文法要素を定めることができる。音声入力のためのプロンプトを出した後、ブロック７２５では、音声データを受け取ることができる（例えば、１つまたは複数の好適な音声キャプチャデバイスなどから収集する）。ブロック７３０では、受け取った音声データの少なくとも一部は、機能のための文法要素（例えば、修正される文法要素、新規な文法要素など）と関係づけることができる。実際、様々な実施形態において所望するように、多種多様なカスタマイズをユーザーのために実行することができる。方法７００の動作は、ブロック７３０の後、終了することができる。

図４〜図７の方法４００、５００、６００、および７００に記載し示した動作は、本発明の様々な実施形態において所望するように、任意の好適な順序で行い、または実行することができる。さらに、ある実施形態では、動作の少なくとも一部は、並行して行うことができる。さらにまた、ある実施形態では、図４〜図７に記載した動作より少ないかまたはより多くの動作を実行することができる。

本明細書に記載した開示のある実施形態は、少なくとも部分的には受け取ったユーザー入力の評価に基づいて、目標とする音声認識の技術的な効果を有することができる。例えば、車両環境では、ジェスチャ、入力要素の選択、および／またはユーザーによって成された他の入力を、所望の機能を識別するために利用することができ、機能と関係する文法要素を音声認識目的のために識別することができる。その結果、ユーザーがスピーチコマンドの階層構造の中を移動することなく、比較的効率的で直観的な音声認識を実行することができる。

本開示のある態様について、例示的実施形態によるシステム、方法、装置、および／またはコンピュータプログラム製品のブロックおよびフローチャートを参照して上記に記載している。ブロック図およびフローチャートの１つまたは複数のブロック、ならびにブロック図およびフローチャートのブロックの組合せは、それぞれ、コンピュータ実行可能プログラム命令によって実行することができることが理解されよう。同様に、いくつかの実施形態によれば、ブロック図およびフローチャートのいくつかのブロックは、必ずしも提示された順序で実行する必要があるわけではなく、あるいは必ずしも全て実行する必要があるわけではない。

これらのコンピュータ実行可能プログラム命令は、特定のマシンを生成するために、専用計算機もしくは他の特定のマシン、プロセッサ、または他のプログラム可能なデータ処理装置にロードすることができる。そのようにして、コンピュータ、プロセッサ、または他のプログラム可能なデータ処理装置で実行する命令が、フローチャートの１つまたは複数のブロックで指定される１つまたは複数の機能を実現するための手段を作成する。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置を特定の方法で機能に向けることができるコンピュータ可読メモリに記憶することもできる。そうすると、コンピュータ可読メモリに記憶された命令が、フローチャートの１つまたは複数のブロックで指定される１つまたは複数の機能を実現する命令手段を含む製品を生成する。例えば、ある実施形態は、そこで実行されるコンピュータ可読プログラムコードまたはプログラム命令を有するコンピュータ使用可能媒体を含むコンピュータプログラム製品を提供することができ、コンピュータ可読プログラムコードは、フローチャートの１つまたは複数のブロックで指定される１つまたは複数の機能を実現するために実行されるのに適する。コンピュータプログラム命令は、コンピュータまたは他のプログラム可能な装置において一連の動作要素またはステップを実行して、コンピュータ実行プロセスを生成するために、コンピュータまたは他のプログラム可能なデータ処理装置にロードすることもできる。そのようにして、コンピュータまたは他のプログラム可能な装置で実行する命令が、フローチャートの１つまたは複数のブロックで指定される機能を実現するための要素またはステップを提供する。

したがって、ブロック図およびフローチャートのブロックは、指定された機能を実行するための手段の組合せ、または指定された機能を実行するための要素もしくはステップの組み合わせ、および指定された機能を実行するためのプログラム命令手段をサポートする。ブロック図およびフローチャートの各ブロック、ならびにブロック図およびフローチャートのブロックの組合せは、指定された機能、要素もしくはステップを実行する特別な目的のハードウェアベースのコンピュータシステム、または特別な目的のハードウェアおよびコンピュータ命令の組合せによって実現することができることが理解されよう。

例えば、とりわけ「することができる」または「してもよい」などの条件的言語は、特に明言されるか、あるいは用いられる文脈内で理解されない限り、他の実施形態は含まないが、特定の実施形態が特定の特徴、要素、および／または動作を含み得ることを意味することを一般的に意図している。したがって、このような条件的言語は、一般的には、特徴、要素、および／または動作が１つまたは複数の実施形態のためにいかなる形であれ必要とされることを意味することを意図していないし、あるいは、１つまたは複数の実施形態が、ユーザー入力またはプロンプトの有無にかかわらず、これらの特徴、要素、および／または動作が特定の実施形態に含まれるか、または実行されるかどうかを判定するための論理を必然的に含むことを意図するものでもない。

上述した説明および関連する図面に示した教示によって、本明細書に記載した開示の多くの変形例および他の実施形態が明白になろう。したがって、本開示が開示された特定の実施形態に限定されないこと、ならびに、変形例および他の実施形態が添付の特許請求の範囲に含まれることを意図していることを理解すべきである。本明細書において特定の用語が用いられているが、それらは一般的および記述的な意味でのみ用いられ、限定するためではない。

Claims

車両のための可聴コマンドと関係する複数の文法要素を記憶する少なくとも１つのメモリと、
少なくとも１つのマイクロホンと、
少なくとも１つのユーザー入力キャプチャデバイスと、
前記少なくとも１つのユーザー入力キャプチャデバイスから受け取った情報に基づいて、前記車両と関係するユーザー入力を識別し、
少なくとも部分的には前記識別されたユーザー入力の評価に基づいて、前記車両と関係する機能であって前記複数の記憶された文法要素のサブセットと関係する前記機能を選択し、
前記少なくとも１つのマイクロホンから音声入力を受け取り、
前記受け取った音声入力の評価に基づいて、前記選択された機能と関係する文法要素を識別し、
前記識別された文法要素と関係する情報を出力する１つまたは複数のプロセッサと、
を含む車両。
前記識別されたユーザー入力は、（ｉ）ユーザージェスチャまたは（ｉｉ）入力要素に対するユーザー近接の一方を含む、請求項１に記載の車両。
前記少なくとも１つの入力キャプチャデバイスは、少なくとも１つの画像キャプチャデバイスを含み、
前記１つまたは複数のプロセッサは、さらに、前記少なくとも１つの画像キャプチャデバイスから１つまたは複数の画像を受け取って、前記１つまたは複数の画像から前記ユーザージェスチャを判定する、請求項２に記載の車両。
前記ユーザージェスチャは、少なくとも部分的には（ｉ）手の動きを追跡すること、または（ｉｉ）前記車両内の定められた領域に対する手もしくは指の接触もしくは近接を判定すること、の一方に基づいて判定される、請求項２または３に記載の車両。
前記１つまたは複数のプロセッサは、さらに、前記ユーザー入力の前記識別に基づいて、音声入力の前記受け取りを開始する、請求項１から４のいずれか一項に記載の車両。
前記出力された情報は、車両制御コマンド、空調制御コマンド、オーディオシステムコマンド、ウィンドウ制御コマンド、座席制御コマンド、ディスプレイ制御コマンド、ウェブコマンド、および通信制御コマンドのうちの１つまたは複数を含む、請求項１から５のいずれか一項に記載の車両。
前記１つまたは複数のプロセッサは、さらに、
新規入力学習指示を識別し、
少なくとも部分的には前記新規入力学習指示を識別することに基づいて、１つまたは複数のユーザー入力を追跡し、
前記追跡した１つまたは複数のユーザー入力を機能と関係づける、請求項１から６のいずれか一項に記載の車両。
前記１つまたは複数のプロセッサは、さらに、
ユーザーが前記機能の制御と関係する文法要素と関係する１つまたは複数の単語を話すためのプロンプトの出力を指示し、
前記プロンプトに応答して収集された音声データを受け取り、
前記受け取った音声データの少なくとも一部を前記文法要素と関係づける、請求項７に記載の車両。
１つまたは複数のプロセッサによって、コンピュータ実行可能命令を実行するステップを含む方法であって、前記方法は、
車両のための可聴コマンドと関係する複数の文法要素を記憶するステップと、
前記車両と関係するユーザー入力を識別するステップと、
少なくとも部分的には前記識別されたユーザー入力の評価に基づいて、前記車両と関係する機能であって前記複数の記憶された文法要素のサブセットと関係する前記機能を選択するステップと、
前記車両と関係する少なくとも１つの音声キャプチャデバイスからの音声入力を受け取るステップと、
前記受け取った音声入力の評価に基づいて、前記選択された機能と関係する文法要素を識別するステップと、
前記識別された文法要素と関係する情報を出力するステップと、
をさらに含む方法。
ユーザー入力を識別するステップは、（ｉ）ユーザージェスチャまたは（ｉｉ）入力要素に対するユーザー近接の一方を識別するステップを含む、請求項９に記載の方法。
ユーザー入力を識別するステップは、
少なくとも１つの画像キャプチャデバイスから１つまたは複数の画像を受け取るステップと、
前記１つまたは複数の画像から前記ユーザージェスチャを判定するステップと、
を含む、請求項１０に記載の方法。
前記ユーザージェスチャを判定するステップは、（ｉ）少なくとも部分的には手の動きを追跡することに基づいて前記ジェスチャを判定するステップ、または（ｉｉ）少なくとも部分的には前記車両内の定められた領域に対する手もしくは指の接触もしくは近接に基づいて前記ジェスチャを判定するステップ、の一方を含む、請求項１０または１１に記載の方法。
前記ユーザー入力の前記識別に基づいて、音声入力の前記受け取りを開始するステップをさらに含む、請求項９から１２のいずれか一項に記載の方法。
情報を出力するステップは、車両制御コマンド、空調制御コマンド、オーディオシステムコマンド、ウィンドウ制御コマンド、座席制御コマンド、ディスプレイ制御コマンド、ウェブコマンド、および通信制御コマンドのうちの１つまたは複数を出力するステップを含む、請求項９から１３のいずれか一項に記載の方法。
新規入力学習指示を識別するステップと、
少なくとも部分的には前記新規入力学習指示を識別することに基づいて、１つまたは複数のユーザー入力を追跡するステップと、
前記追跡した１つまたは複数のユーザー入力を機能と関係づけるステップと、
をさらに含む、請求項９から１４のいずれか一項に記載の方法。
前記機能の制御と関係する文法要素と関係する１つまたは複数の単語を話すようにユーザーに対してプロンプトを出すステップと、
前記プロンプトに応答する音声データを受け取るステップと、
前記受け取った音声データの少なくとも一部を前記文法要素と関係づけるステップと、
をさらに含む、請求項１５に記載の方法。
１つまたは複数のプロセッサを含む装置であって、
車両のための可聴コマンドと関係する複数の文法要素を記憶し、
前記車両と関係するユーザー入力を識別し、
少なくとも部分的には前記識別されたユーザー入力の評価に基づいて、前記車両と関係する機能であって前記複数の記憶された文法要素のサブセットと関係する前記機能を選択し、
音声入力を受け取り、
前記受け取った音声入力の評価に基づいて、前記選択された機能と関係する文法要素を識別し、
前記識別された文法要素と関係する情報を出力する装置。
前記識別されたユーザー入力は、（ｉ）ユーザージェスチャまたは（ｉｉ）入力要素に対するユーザー近接の一方を含む、請求項１７に記載の装置。
さらに、少なくとも１つの画像キャプチャデバイスから１つまたは複数の画像を受け取り、
前記１つまたは複数の画像から前記ユーザージェスチャを判定する、請求項１８に記載の装置。
前記ユーザージェスチャは、少なくとも部分的には（ｉ）手の動きを追跡すること、または（ｉｉ）前記車両内の定められた領域に対する手もしくは指の接触もしくは近接を判定すること、の一方に基づいて判定される、請求項１８または１９に記載の装置。
さらに、前記ユーザー入力の前記識別に基づいて、音声入力の前記受け取りを開始する、請求項１７から２０のいずれか一項に記載の装置。
前記出力された情報は、車両制御コマンド、空調制御コマンド、オーディオシステムコマンド、ウィンドウ制御コマンド、座席制御コマンド、ディスプレイ制御コマンド、ウェブコマンド、および通信制御コマンドのうちの１つまたは複数を含む、請求項１７から２１のいずれか一項に記載の装置。
さらに、新規入力学習指示を識別し、
少なくとも部分的には前記新規入力学習指示を識別することに基づいて、１つまたは複数のユーザー入力を追跡し、
前記追跡した１つまたは複数のユーザー入力を機能と関係づける、請求項１７から２２のいずれか一項に記載の装置。
コンピュータに、
車両のための可聴コマンドと関係する複数の記憶された文法要素を識別する手順と、
前記車両と関係するユーザー入力を識別する手順と、
少なくとも部分的には前記識別されたユーザー入力の評価に基づいて、前記車両と関係する機能であって前記複数の記憶された文法要素のサブセットと関係する前記機能を選択する手順と、
音声入力を受け取る手順と、
前記受け取った音声入力の評価に基づいて、前記選択された機能と関係する文法要素を識別する手順と、
前記識別された文法要素と関係する情報を出力する手順と、を実行させるためのプログラム。
前記識別されたユーザー入力は、（ｉ）ユーザージェスチャまたは（ｉｉ）入力要素に対するユーザー近接の一方を含む、請求項２４に記載のプログラム。
前記コンピュータにさらに、
少なくとも１つの画像キャプチャデバイスから１つまたは複数の画像を受け取る手順と、
前記１つまたは複数の画像から前記ユーザージェスチャを判定する手順と、を実行させるための、請求項２５に記載のプログラム。
前記ユーザージェスチャは、少なくとも部分的には（ｉ）手の動きを追跡すること、または（ｉｉ）前記車両内の定められた領域に対する手もしくは指の接触もしくは近接を判定すること、の一方に基づいて判定される、請求項２５または２６に記載のプログラム。
前記コンピュータにさらに、前記ユーザー入力の前記識別に基づいて、音声入力の前記受け取りを開始する手順を実行させるための、請求項２４から２７のいずれか一項に記載のプログラム。
前記出力された情報は、車両制御コマンド、空調制御コマンド、オーディオシステムコマンド、ウィンドウ制御コマンド、座席制御コマンド、ディスプレイ制御コマンド、ウェブコマンド、および通信制御コマンドのうちの１つまたは複数を含む、請求項２４から２８のいずれか一項に記載のプログラム。
前記コンピュータにさらに、
新規入力学習指示を識別する手順と、
少なくとも部分的には前記新規入力学習指示を識別することに基づいて、１つまたは複数のユーザー入力を追跡する手順と、
前記追跡した１つまたは複数のユーザー入力を機能と関係づける手順と、を実行させるための、請求項２４から２９のいずれか一項に記載のプログラム。