JP2011059676A

JP2011059676A - 発話入力に基づいて複数の機能を有効にするためのシステム及び方法

Info

Publication number: JP2011059676A
Application number: JP2010178664A
Authority: JP
Inventors: Garrett L Weinberg; ガレット・エル・ウェインバーグ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2009-09-10
Filing date: 2010-08-09
Publication date: 2011-03-24
Also published as: EP2309492A1; US20110060588A1; CN102024454A

Abstract

【課題】発話入力に基づいて複数の機能を有効にするための方法及びシステムを開示する。
【解決手段】システムは、複数の状態を格納するメモリを備える。各状態は、複数の機能からの少なくとも１つの機能に関連付けられる。システムは、データモデルのセットに動作可能に接続される自動音声認識（ＡＳＲ）エンジンであって、状態毎に１つのデータモデルが存在し、該ＡＳＲエンジンは、システムが或る状態にある間、該状態に関連付けられるデータモデルを使用して発話入力を解釈して機能入力にするように構成され、それによって機能が該機能入力に従って有効にされる、自動音声認識エンジンを備える。。システムは、複数の制御部であって、状態毎に１つの制御部が存在し、各制御部は、該状態に関連付けられる信号を生成するように構成される、複数の制御部と、信号に基づいてシステムを上記状態に遷移させるように構成される、状態遷移モジュールとを備える。
【選択図】図２

Description

本発明は包括的には自動音声認識に関し、より詳細には複数のコンテキストを用いた自動音声認識に関する。

自動音声認識（ＡＳＲ）
自動音声認識の目的は、発話（音声）、すなわち発話信号を表す音響信号を取得し、パターンマッチングによって、発話された単語を確定することである。音声認識器は通常、コンピュータデータベース内に、パターンとして表現される、格納された音響モデル及び言語モデルのセットを有する。そして、これらのモデルは、取得した信号と比較される。コンピュータデータベースのコンテンツ、データベースをトレーニングする方法、及び最良のマッチを確定するのに使用される技法は、異なる複数のタイプの音声認識システムの際立った特徴である。

様々な音声認識方法が既知である。セグメントモデル法は、発話言語内に、発話信号内の特性のセットによって時間にわたって特徴付けることができる明確な音標単位、たとえば音素が存在すると想定する。入力発話信号は、複数の別個のセクションに分割される。それらのセクションにおいて、音響特性は、１つ又は複数の音標単位を表し、これらの特性に従ってこれらの領域にラベルが付けられる。次に、一連の割り当てられた音標ラベルから、音声認識タスクの制約条件と一致する適正な用語が確定される。

テンプレートベースの方法は、明示的な特徴の決定及び分割を行うことなく発話パターンを直接使用する。テンプレートベースの音声認識システムは、初期状態において、既知の発話パターンを使用してトレーニングされる。認識中、未知の発話信号は、トレーニング中に取得された各可能性のあるパターンと比較され、それらの未知のパターンが既知のパターンとどの程度良好にマッチするかに従って分類される。

混成（ハイブリッド）方法は、上述したセグメントモデル法及びテンプレートベースの方法の幾つかの特徴を組み合わせる。或る特定のシステムでは、単なる音響情報以上のものが認識プロセスにおいて使用される。また、音声認識には神経回路が使用されてきた。たとえば、１つのそのようなネットワークでは、パターン分類器が音響特徴ベクトルを検出し、ベクトルを、音響特徴にマッチするフィルタを用いて畳み込み、結果を時間にわたって合計する。

ＡＳＲ対応システム
ＡＳＲ対応システムは２つの主要なカテゴリ、すなわち情報検索（ＩＲ）システムと、コマンド及び制御（command and control：指揮統制）（ＣＣ）システムとを含む。

情報検索（ＩＲ）
一般的に、情報検索（ＩＲ）システムは、発話クエリに基づいてデータベース内に格納されているコンテンツを探索する。コンテンツは、限定ではないが、テキスト、画像、音声、及びビデオのような任意のタイプのマルチメディアコンテンツを含むことができる。クエリはキーワード又はキーフレーズを含む。多くのＩＲシステムは、ユーザが、探索中に適用されるさらなる制約条件を指定することを許可している。たとえば、制約条件は、返される全てのコンテンツが或る範囲の属性を有することを指定することができる。通常、クエリ及び制約条件はテキストとして指定される。

用途によっては、テキストによる入出力が、不可能でないにしても困難である。これらの用途は、たとえば、機械若しくは車両を操作しながらデータベースを探索すること、又は電話のような機能性が限られたキーボード若しくはディスプレイを用いる用途を含む。そのような用途の場合、ＡＳＲ対応ＩＲシステムが好まれる。

ＡＳＲ対応ＩＲシステムの例は、２００９年６月２日付けでWolf他に対して発行された、米国特許第７，５４２，９６６号明細書、「Method and system for retrieving documents with spoken queries」に記載されている。

コマンド及び制御（ＣＣ）
ＡＳＲ対応ＣＣシステムは、発話コマンドを認識及び解釈し、機械が理解可能なコマンドにする。発話コマンドの非限定的な例は、指定された電話番号に「発呼」すること、又は指定された楽曲を「再生」することである。音声認識ソフトウェアの近年の進歩に起因して、多数のＡＳＲ対応ＣＣシステムが開発されてきた。通常、これらのシステムは、発話コマンドのための特定のコンテキストを使用して特定の環境において動作する。

コンテキスト型ＡＳＲ対応システム
大規模な語彙及び複雑な言語モデルは、ＡＳＲ対応システムを低速にし、メモリのようなさらなる資源及びさらなる処理を必要とする。大規模な語彙はシステムの正確度も低減し得る。したがって、ほとんどのＡＳＲ対応システムは、関連するコンテキストに通常関連付けられる、小規模な語彙及び単純な言語モデルを有する。たとえば、米国特許４，９８９，２５３号明細書は、顕微鏡を動かし、焦点を合わせるためのＡＳＲ対応システムを開示している。このシステムは、顕微鏡に関連付けられるコンテキストを使用する。また、米国特許第５，９７０，４５７号明細書は、適切なコンテキストに関連付けられる発話コマンドに従って、手術道具のような医療機器を操作するためのＡＳＲ対応システムを開示している。

しかしながら、多数のＡＳＲ対応システムが、異なる複数のコンテキストに関して有用な複数の語彙及び言語モデルを備える必要がある。そのようなシステムは通例、ユーザによって選択される特定の対象コンテキストに基づいて、適切な語彙及び言語モデルを有効にするように構成される。

本明細書において定義されるように、ＡＳＲ対応システムのコンテキストは、限定ではないが、語彙、言語モデル、文法、ドメイン、データベース、及び／又は関連するコンテキスト機能性を有するサブシステムである。たとえば、音楽、連絡、レストラン、又は古跡に関連する機能性は、それぞれ別個の識別可能なコンテキストを有するであろう。複数のコンテキストを利用するＡＳＲ対応システムは、コンテキスト型ＡＳＲ対応システムである。

したがって、コンテキスト型ＡＳＲ対応システムの場合、発話クエリ又は発話コマンドに関するコンテキストを指定することが必要である。

ＰＴＴ機能性を利用するＡＳＲ対応システム
意図される発話入力を背景雑音又は背景発話と識別する異なる複数のタイプのＡＳＲシステムが存在する。常時リスン式のシステムは、認識される音声信号の語彙的分析を利用して、ＡＳＲ対応システムをさらなる入力のために有効にすることが意図されるキーワード、たとえば「コンピュータ」を検出する。

別のタイプのＡＳＲ対応システムは、人同士の会話の後にモデリングされる、視線の方向のような他の入力手掛りを利用する。

さらに別のタイプのＡＳＲシステムは、プッシュ・トゥー・トーク（ＰＴＴ）機能性を使用する。ＰＴＴ制御部、たとえばボタンを使用して、意図される発話入力としての音声信号ストリームの開始をマーキングする。幾つかの実施態様では、発話入力の終了は、たとえば取得される信号の振幅又は信号対雑音比（ＳＮＲ）を分析することによって自動的に確定される。他の実施態様では、ユーザは、発話を終了するまでボタンを押下したままにする必要があり、ボタンを放すことによって、入力信号の終了が明示的にマーキングされる。

埋込み式ＡＳＲシステム
場合によって、ＡＳＲ対応システムを、ネットワークベースの演算資源上に実装するのではなく、物理デバイス内に直接埋め込むことが必要である。そのような埋め込みが必要である場合があるシナリオは、持続的なネットワーク接続を想定することができないシナリオを含む。これらのシナリオにおいて、ＡＳＲ対応システムがネットワークコンピュータ上のデータベースを更新することを要する場合であっても、デバイス上で独立して遂行される人対機械の対話を通じて情報を得る必要がある。次に、ネットワーク通信チャネルが回復した後、デバイス上で収集された更新情報を、ネットワークベースのデータベースと同期させることができる。

本明細書において定義されるように、埋込み式ＡＳＲシステムは、ＣＣ又はＩＲを実施する必要がある全ての発話信号処理が、通常、取り付けられた有線マイク又は無線マイクを有するデバイス上で発生するシステムである。埋め込みＡＳＲシステムを生成するか、変更するか、又は有効にするのに必要とされるデータのうちの幾つかは、有線データチャネル又は無線データチャネルを介して異なる複数のデバイスからダウンロードすることができる。しかしながら、ＡＳＲ処理の時点において、全てのデータが、デバイスと関連付けられるメモリ内にある。

上記で説明されたように、ＩＲシステム及びＣＣシステムのような異なる複数のタイプのＡＳＲシステムを、特定のコンテキスト又は複数のコンテキストと組み合わせて使用することが有利である。また、それらの制限されたメモリ資源及びＣＰＵ資源に起因して、幾つかの埋込み式ＡＳＲシステムは、必ずしもデスクトップベースのＡＳＲシステム又はサーバベースのＡＳＲシステムに当てはまるとは限らない制限を有する。たとえば、デスクトップベースのシステム又はサーバベースのシステムは、システムの任意の状態から、特定のアーティストの探索のような音楽検索命令を処理することが可能な場合がある。しかしながら、埋込み式ＡＳＲシステム、たとえば車両内のＡＳＲシステムは、まず適切なコンテキスト状態に切り換えることをユーザに要求する場合があり、その特定のコンテキスト状態にのみ関連する発話入力を提供することをユーザに許可する。

通常、埋込み式ＡＳＲシステムは、異なる複数のコンテキストに関連付けられる。たとえば、音楽を１つのコンテキストとすることができる。埋込み式ＡＳＲシステムが音楽コンテキスト状態にある間、システムは、ユーザ発話入力が音楽に関連することを予期し、システムは音楽検索にのみ関連する機能を実行するように構成される。ナビゲーション及び連絡は、ＡＳＲシステムのコンテキストの他の非限定的な例である。

たとえば、ＰＴＴボタンを利用するユーザインタフェースを有する埋込み式ＡＳＲシステムでは、音楽演奏者を探索するために、ユーザはＰＴＴボタンを押下し、コンテキスト命令、たとえば「音楽」のようなコード単語を発音してＡＳＲシステムを音楽コンテキスト状態に切り換える。コード単語を発話した後、ユーザは音楽検索のための発話命令を入力することができる。ユーザが、何らかの他のコンテキスト状態にある間に音楽に関連する発話命令を入力する場合、ＡＳＲシステムは失敗する。

図１は従来の埋込み式ＡＳＲシステムを示している。ＰＴＴボタン１０５が押下された後、システムはコンテキスト命令１１０〜１１２を含む発話入力を予期する。コンテキスト命令を認識（１２０）した後、システムは適切なコンテキスト状態１３０〜１３２に遷移する。それに応じて、システムは、後続の発話入力１３３〜１３５を認識した後、適切な機能１３６〜１３８を有効にする。

しかしながら、音楽検索及び目的地入力のような複雑なタスクは、特にタスクの持続時間が増大すると、他のユーザ動作、たとえば車両の運転を妨げる。したがって、埋込み式ＡＳＲシステムにおいて、発話入力を用いて機能を有効にするためのステップ数を低減することが多くの場合に望まれている。

本発明の実施の形態は、発話入力に基づいて複数の機能を有効にするための方法及びシステムを開示する。システムは、電話、ナビゲーションシステム、車両のインストルメンタルパネル等のような機器内に埋め込まれる。

システムは、複数の状態を格納するメモリであって、各状態は、複数の機能からの少なくとも１つの機能に関連付けられる、メモリと、データモデルのセットに動作可能に接続される自動音声認識（ＡＳＲ）エンジンであって、状態毎に１つのデータモデルが存在し、該ＡＳＲエンジンは、システムが或る状態にある間、該状態に関連付けられるデータモデルを使用して発話入力を解釈して機能入力にするように構成され、それによって機能が該機能入力に従って有効にされる、自動音声認識エンジンと、複数の制御部であって、状態毎に１つの制御部が存在し、各制御部は、該状態に関連付けられる信号を生成するように構成される、複数の制御部と、信号に基づいてシステムを上記状態に遷移させるように構成される状態遷移モジュールであって、機能は、システムが該機能に関連付けられる状態にあるときのみ有効にされるように構成される、状態遷移モジュールとを備える。

一実施の形態では、複数の制御部は、多目的制御部を含み、該多目的制御部は、少なくとも２つの有効化様式を用いて有効にされ、それによって特定の有効化様式を示す信号を生成するように構成される。この実施の形態は、特定の有効化様式に基づいて第１の機能又は第２の機能のいずれかを有効にするように構成される制御装置をさらに備える。第１の機能は、有効化様式にのみ基づいて実行されるように構成され、第２の機能は発話入力に基づいて実行されるようにさらに構成される。

本方法は、メモリ内に複数の状態を格納するステップであって、各状態は、複数の機能からの少なくとも１つの機能に関連付けられる、格納するステップと、複数の制御部を設けるステップであって、状態毎に１つの制御部が存在し、各制御部は、該状態に関連付けられる信号を生成するように構成される、設けるステップと、信号を受信すると、システムを該信号に関連付けられる状態に遷移させるステップであって、発話入力に従って機能を有効にし、該機能は、システムが該機能に関連付けられる状態に遷移されているときのみ有効にされるように構成される、遷移させるステップとを含む。

従来の自動音声認識システムのブロック図である。本発明の異なる複数の実施の形態のうちの１つによる、埋込み式自動音声認識の方法及びシステムのブロック図である。本発明の異なる複数の実施の形態のうちの１つによる、埋込み式自動音声認識の方法及びシステムのブロック図である。本発明の幾つかの実施の形態によるシステムを備える車両のインストルメンタルパネルの部分正面図である。

コンテキスト型ＰＴＴ制御部
本発明の実施の形態は、複数の専用コンテキスト型プッシュ・トゥー・トーク（ＰＴＴ）制御部によって、埋込み式自動音声認識（ＡＳＲ）システムにおいて適切な機能の有効化が容易になるという認識に基づく。

図２は、本発明の一実施の形態による埋込み式ＡＳＲシステムを示している。システムはプロセッサ２０１を備え、プロセッサ２０１は、当該技術分野において既知のメモリ２０２と、入力／出力インタフェースと、信号プロセッサとを備える。

システム２００は、メモリ２０２内に格納される複数の状態２３１〜２３３を含む。通常、各状態は特定のコンテキストに関連付けられる。たとえば、一つの状態は音楽コンテキストに関連付けられ、別の状態は連絡コンテキストに関連付けられる。各状態は、機能２３７〜２３９のうちの少なくとも１つの機能にも関連付けられる。機能２３７〜２３９は、発話入力２３３〜２３５に基づいて有効にされるように構成される。通常、機能は、コンテキストと状態との関連付けと同様にして、状態と関連付けられる。たとえば、音楽を選択及び再生するように構成される機能は、音楽コンテキストに関連付けられる状態に関連付けられる。しかし、特定の電話番号を選択すると共に、該電話番号に発呼するように構成される機能は、連絡コンテキストに関連付けられる状態に関連付けられる。

通常、発話入力は、機能の識別子と、実行される機能のパラメータとを含む。たとえば、発話入力は「Ｊｏｅに発呼」である。機能の識別子は、入力の「発呼」部分である。この識別子に基づいて、「電話」状態に関連付けられる複数の機能から、電話の発呼を実行するための機能が選択される。発話入力の「Ｊｏｅ」部分は、識別子に基づいて選択される機能に対するパラメータである。したがって、システムはこのパラメータを使用して、選択された機能を実行する、すなわち名前「Ｊｏｅ」に基づいて電話帳から選択される電話番号に発呼する。

システム２００は、システムがその状態に遷移されるときのみ、該状態に関連付けられる機能を有効にするように構成される。たとえば、音楽機能を有効にするために、システムはまず、音楽機能に関連付けられると共に、それに応じて音楽コンテキストに関連付けられる状態に遷移されなくてはならない。

システム２００は、１つの従来のＰＴＴボタンを有する代わりに、制御パネル２１０を提供する。制御パネル２１０は、複数の制御部２２１〜２２３、たとえばコンテキスト型ＰＴＴ制御部を備える。各コンテキスト型ＰＴＴ制御部は、ボタン、ジョイスティック、又はタッチセンサ式表面のような、触知可能に有効にされるように構成される任意の入力制御部とすることができる。

各コンテキスト型ＰＴＴ制御部２２１〜２２３は、状態２３１〜２３３と１対１に対応する。コンテキスト型ＰＴＴ制御部は、有効にされると、信号２４２〜２４４を生成する。信号は、有効にされたコンテキスト型ＰＴＴ制御部に関する情報を搬送する任意のタイプの信号、たとえば二値信号とすることができる。

状態遷移モジュール２２０は、信号を受信すると、システム２００を、信号に関連付けられる状態に遷移させて機能を有効にする。たとえば、一実施の形態では、状態への遷移は、データモデルのセット２５５からのデータモデルを、ＡＳＲエンジン２５０に関連付ける（２５６）ことによって達成される。データモデルは、ＡＳＲエンジンが発話入力を解釈することを可能にする、語彙、及び／又は所定のコマンドのセット若しくは探索用語を含む。ＡＳＲエンジンは、発話入力２３３〜２３５を解釈して、機能２３７〜２３９によって予期される複数の入力２６１〜２６３にする。したがって、データモデル２５６が、たとえば音楽コンテキストの語彙を含む場合、ＡＳＲエンジンは音楽に関連する発話入力２３４しか解釈することができない。代替的に又は付加的に、状態遷移モジュールが、対応する状態内に含める機能を予め選択する、たとえば、プロセッサ２０１のメモリ内にアップロードする。

これらの実施の形態は、単一のＰＴＴボタンを有する従来のシステムに勝る大きな利点を提供する。従来のシステムは、特定の状態に遷移するために追加の発話入力を必要とする。しかしながら、本発明の実施の形態は、制御部の有効化に基づいて、該制御部に関連付けられる状態にシステムを直接遷移させる。

このため、システム２００は、従来のシステムと対照的に、タッチタイピング及びギアシフトに類似した、同様の動きが反復されることによって強化される筋肉記憶を活用する。したがって、制御部は、ユーザが主要なタスク、たとえば車両の運転から最低限にしか気を逸らされずに該制御部を有効にすることができるように構成される。

一実施の形態において、各制御部は状態に関連付けられるコンテキストの識別子２２５〜２２７を伝達する。たとえば、識別子は、「発呼」又は「音楽」のようなコンテキスト名を有する、制御部上にレンダリングされるキャプションを有することができる。付加的に又は代替的に、識別子は、制御部の色、制御部の形、デバイス上の制御部の位置、及びそれらの組み合わせとすることができる。この実施の形態によって、人間のオペレータが埋込み式ＡＳＲシステムの操作方法を習得するのに通常必要とされるトレーニング時間を低減する。

図４に示すように、システム２００は、車両４００のインストルメンタルパネル４１０内に埋め込むことができる。コンテキスト型ＰＴＴ制御部４３２及び４３３を、ハンドル４３０上に配置することができる。代替的に又は付加的に、コンテキスト型ＰＴＴ制御部４２５を、制御モジュール４２０上に設置することができる。複数のコンテキスト型ＰＴＴ制御部によって探索が単純化されると共に、必要とされるユーザ対話が少なくなり、それによってユーザは車両の操作に集中することができる。

多目的制御部
図３は、本発明の別の実施の形態によるシステム及び方法３００のブロック図を示している。この実施の形態では、制御部３１０は多目的ＰＴＴ制御部であり、制御装置３２０を介して少なくとも機能３３０及び３４０に接続される。制御部３１０は、複数の有効化様式３１７から選択される特定の有効化様式３１５を示す信号を生成するように構成される。有効化様式は、たとえばシングルクリック、ダブルクリック、及び長押しの有効化様式を含む。

制御装置３２０は、特定の有効化様式３１５に基づいて、第１の機能３４０又は第２の機能３３０を有効にする（３２５）。機能３４０及び３３０間の主な違いは、第１の機能３４０が有効化様式３１５にのみ基づいて有効にすることができるということである。一方、第２の機能３３０は、発話対応の作動を必要とする、すなわち、発話入力３３３を予期するようにさらに構成される。

この実施の形態は、任意の従来の制御部を多目的ＰＴＴ制御部として利用することを可能にする。ユーザが「標準的な」有効化様式、たとえばシングルクリックで制御部を有効にする場合、システムは第１の機能を有効にし（３４２）、実行する（３４４）。そうでない場合、ユーザは「特殊な」有効化様式、たとえばダブルクリックを用いて制御部を有効にし、発話入力３３３を予期する機能３３７を起動する。

たとえば、電話機上の緑色の発話ボタン上をシングルクリックすることによって、最近の発話が表示される。一方で、同じ緑色の発話ボタン上をダブルクリックすることによって、システムが発話入力、たとえば「ＪｏｈｎＤｏｅ」のような電話帳探索を検出し、該発話入力に従って「発話」機能を実行する。この例では、機能３４０は最近の発呼を表示する機能である。容易に理解されるように、機能３４０は、シングルクリック有効化様式を用いて有効にされる場合、追加の入力を一切必要としない。また一方で、特定の電話番号に発呼する機能は機能３３０であり、追加の入力、たとえば電話帳からの連絡先名を必要とする。この実施の形態において、この追加の入力は、発話入力に基づいて埋込み式ＡＳＲシステムによって解釈される。

同様に、ラジオ上の「再生／一時停止」及び「シャッフル」ボタンは、発話入力を受け付けることができる。標準的な作動が単純なトグル操作、すなわち再生又は一時停止、ランダムプレイバックオン又はオフとして作用する場合、発話対応の作動は、操作のための発話入力、すなわち何を再生するか、何をシャッフルするかを検出する。

一実施の形態において、機能３３０の、発話対応の有効化の実施態様は、システム２００の状態の実施態様に類似する。ユーザがシステム３００に第２の機能３３０を有効にすることを命令する場合、システム３００は、状態２３１〜２３３に類似した、第２の機能３３０に関連付けられる状態に遷移される。

別の実施の形態において、システム２００及び３００は組み合わされ、複数の多目的コンテキスト型ＰＴＴ制御部を提供する。この実施の形態では、制御パネル２１０は複数の多目的ＰＴＴ制御部を備える。この実施の形態は、従来のボタンを有するデバイス内にＡＳＲシステムを埋め込み、該デバイスを多目的コンテキスト型埋込み式ＡＳＲシステムに変化させることを可能にする。

本発明を、好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で他のさまざまな適合及び変更を行えることが理解されるべきである。したがって、本発明の真の精神及び範囲内に入るすべての変形及び変更を包含することが、添付の特許請求の範囲の目的である。

Claims

機器内に埋め込まれ、発話入力に基づいて複数の機能を有効にするためのシステムであって、
各状態が前記複数の機能からの少なくとも１つの機能に関連付けられる、複数の状態を格納するメモリと、
データモデルのセットに動作可能に接続され、状態毎に１つのデータモデルが存在し、システムが或る状態にある間、状態に関連付けられるデータモデルを使用して前記発話入力を解釈して機能入力にするように構成されて、機能が前記機能入力に従って有効にされる自動音声認識エンジンと、
状態毎に１つの制御部が存在し、各制御部が状態に関連付けられる信号を生成するように構成される複数の制御部と、
前記信号に基づいてシステムを前記状態に遷移させるように構成され、システムが前記機能に関連付けられる状態にあるときのみ、前記機能が有効にされるように構成される状態遷移モジュールと
を備える、発話入力に基づいて複数の機能を有効にするためのシステム。
状態毎に１つのコンテキストが存在し、各状態は１つのコンテキストに関連付けられる
請求項１記載のシステム。
前記コンテキストは、音楽コンテキスト、連絡コンテキスト、及びナビゲーションコンテキストから選択される
請求項２記載のシステム。
１つの状態に関連付けられる１つの制御部は、前記状態に関連付けられるコンテキストの識別子を伝達する
請求項２記載のシステム。
前記識別子は、前記制御部上にレンダリングされるキャプション、前記制御部の色、前記制御部の形、前記制御部の位置、及びそれらの組み合わせから選択される
請求項４記載のシステム。
前記発話入力は、前記機能の識別子と、前記機能のパラメータとを含んで、前記機能は、前記識別子に基づいて選択され、前記パラメータに基づいて実行される
請求項１記載のシステム。
前記状態は、１つのみの機能に関連付けられ、前記発話入力は前記機能のパラメータを含んで、前記機能は前記パラメータに基づいて実行される
請求項１記載のシステム。
前記制御部は、プッシュ・トゥー・トークボタンである
請求項１記載のシステム。
前記システムは、触知可能な有効化のみに基づいて前記状態に遷移するように構成される
請求項１記載のシステム。
前記複数の制御部は、多目的制御部を含む
請求項１記載のシステム。
前記複数の制御部を含む制御パネルをさらに備える
請求項１記載のシステム。
前記機器は、車両のインストルメンタルパネルである
請求項１記載のシステム。
前記機器は、電話、音楽プレーヤ、ナビゲーションデバイス、及びそれらの組み合わせから選択される
請求項１記載のシステム。
前記複数の制御部は、少なくとも２つの有効化様式を用いて有効にされて特定の有効化様式を示す信号を生成するように構成される多目的制御部を含み、
前記特定の有効化様式に基づいて、前記有効化様式にのみ基づいて実行されるように構成される第１の機能、又は前記発話入力に基づいて実行されるように構成される第２の機能のいずれかを有効にするように構成される制御装置をさらに備える
請求項１記載のシステム。
前記複数の制御部は、前記多目的制御部のみを含む
請求項１４記載のシステム。
各機能が発話入力に基づいて有効にされるように構成され、複数の機能を有効にするための方法であって、
各状態が前記複数の機能からの少なくとも１つの機能に関連付けられる、複数の状態をメモリ内に格納するステップと、
状態毎に１つの制御部が存在し、各制御部が状態に関連付けられる信号を生成するように構成される、複数の制御部を設けるステップと、
前記信号の受信に応答して、システムを前記信号に関連付けられる状態に遷移させるステップであって、前記発話入力に従って前記機能を有効にし、前記機能は、前記システムが前記機能に関連付けられる状態に遷移されているときのみ有効にされるように構成される、遷移させるステップと
を含む、複数の機能を有効にするための方法。
前記機能は、入力に基づいて実行されるように構成され、
データモデルのセットに動作可能に接続され、状態毎に１つのデータモデルが存在し、システムが前記状態に遷移されている間、前記状態に関連付けられるデータモデルを使用して前記発話入力を解釈して前記入力にするように構成される、自動音声認識エンジンを設けるステップをさらに含む
請求項１６記載の方法。
前記複数の制御部のうちの少なくとも１つの制御部は、多目的制御部である
請求項１６記載の方法。
１つの制御部を１つのコンテキストに関連付けるステップと、
前記コンテキストの識別子を前記制御部上に設けるステップとをさらに含む
請求項１６記載の方法。
前記複数の制御部を車両内に配置するステップをさらに含む
請求項１６記載の方法。