JP2011059676A - 発話入力に基づいて複数の機能を有効にするためのシステム及び方法 - Google Patents
発話入力に基づいて複数の機能を有効にするためのシステム及び方法 Download PDFInfo
- Publication number
- JP2011059676A JP2011059676A JP2010178664A JP2010178664A JP2011059676A JP 2011059676 A JP2011059676 A JP 2011059676A JP 2010178664 A JP2010178664 A JP 2010178664A JP 2010178664 A JP2010178664 A JP 2010178664A JP 2011059676 A JP2011059676 A JP 2011059676A
- Authority
- JP
- Japan
- Prior art keywords
- state
- function
- input
- context
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006870 function Effects 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000003213 activating effect Effects 0.000 title abstract 2
- 238000013499 data model Methods 0.000 claims abstract description 16
- 230000007704 transition Effects 0.000 claims abstract description 15
- 230000004913 activation Effects 0.000 claims description 18
- 238000010200 validation analysis Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】発話入力に基づいて複数の機能を有効にするための方法及びシステムを開示する。
【解決手段】システムは、複数の状態を格納するメモリを備える。各状態は、複数の機能からの少なくとも1つの機能に関連付けられる。システムは、データモデルのセットに動作可能に接続される自動音声認識(ASR)エンジンであって、状態毎に1つのデータモデルが存在し、該ASRエンジンは、システムが或る状態にある間、該状態に関連付けられるデータモデルを使用して発話入力を解釈して機能入力にするように構成され、それによって機能が該機能入力に従って有効にされる、自動音声認識エンジンを備える。。システムは、複数の制御部であって、状態毎に1つの制御部が存在し、各制御部は、該状態に関連付けられる信号を生成するように構成される、複数の制御部と、信号に基づいてシステムを上記状態に遷移させるように構成される、状態遷移モジュールとを備える。
【選択図】図2
【解決手段】システムは、複数の状態を格納するメモリを備える。各状態は、複数の機能からの少なくとも1つの機能に関連付けられる。システムは、データモデルのセットに動作可能に接続される自動音声認識(ASR)エンジンであって、状態毎に1つのデータモデルが存在し、該ASRエンジンは、システムが或る状態にある間、該状態に関連付けられるデータモデルを使用して発話入力を解釈して機能入力にするように構成され、それによって機能が該機能入力に従って有効にされる、自動音声認識エンジンを備える。。システムは、複数の制御部であって、状態毎に1つの制御部が存在し、各制御部は、該状態に関連付けられる信号を生成するように構成される、複数の制御部と、信号に基づいてシステムを上記状態に遷移させるように構成される、状態遷移モジュールとを備える。
【選択図】図2
Description
本発明は包括的には自動音声認識に関し、より詳細には複数のコンテキストを用いた自動音声認識に関する。
自動音声認識(ASR)
自動音声認識の目的は、発話(音声)、すなわち発話信号を表す音響信号を取得し、パターンマッチングによって、発話された単語を確定することである。音声認識器は通常、コンピュータデータベース内に、パターンとして表現される、格納された音響モデル及び言語モデルのセットを有する。そして、これらのモデルは、取得した信号と比較される。コンピュータデータベースのコンテンツ、データベースをトレーニングする方法、及び最良のマッチを確定するのに使用される技法は、異なる複数のタイプの音声認識システムの際立った特徴である。
自動音声認識の目的は、発話(音声)、すなわち発話信号を表す音響信号を取得し、パターンマッチングによって、発話された単語を確定することである。音声認識器は通常、コンピュータデータベース内に、パターンとして表現される、格納された音響モデル及び言語モデルのセットを有する。そして、これらのモデルは、取得した信号と比較される。コンピュータデータベースのコンテンツ、データベースをトレーニングする方法、及び最良のマッチを確定するのに使用される技法は、異なる複数のタイプの音声認識システムの際立った特徴である。
様々な音声認識方法が既知である。セグメントモデル法は、発話言語内に、発話信号内の特性のセットによって時間にわたって特徴付けることができる明確な音標単位、たとえば音素が存在すると想定する。入力発話信号は、複数の別個のセクションに分割される。それらのセクションにおいて、音響特性は、1つ又は複数の音標単位を表し、これらの特性に従ってこれらの領域にラベルが付けられる。次に、一連の割り当てられた音標ラベルから、音声認識タスクの制約条件と一致する適正な用語が確定される。
テンプレートベースの方法は、明示的な特徴の決定及び分割を行うことなく発話パターンを直接使用する。テンプレートベースの音声認識システムは、初期状態において、既知の発話パターンを使用してトレーニングされる。認識中、未知の発話信号は、トレーニング中に取得された各可能性のあるパターンと比較され、それらの未知のパターンが既知のパターンとどの程度良好にマッチするかに従って分類される。
混成(ハイブリッド)方法は、上述したセグメントモデル法及びテンプレートベースの方法の幾つかの特徴を組み合わせる。或る特定のシステムでは、単なる音響情報以上のものが認識プロセスにおいて使用される。また、音声認識には神経回路が使用されてきた。たとえば、1つのそのようなネットワークでは、パターン分類器が音響特徴ベクトルを検出し、ベクトルを、音響特徴にマッチするフィルタを用いて畳み込み、結果を時間にわたって合計する。
ASR対応システム
ASR対応システムは2つの主要なカテゴリ、すなわち情報検索(IR)システムと、コマンド及び制御(command and control:指揮統制)(CC)システムとを含む。
ASR対応システムは2つの主要なカテゴリ、すなわち情報検索(IR)システムと、コマンド及び制御(command and control:指揮統制)(CC)システムとを含む。
情報検索(IR)
一般的に、情報検索(IR)システムは、発話クエリに基づいてデータベース内に格納されているコンテンツを探索する。コンテンツは、限定ではないが、テキスト、画像、音声、及びビデオのような任意のタイプのマルチメディアコンテンツを含むことができる。クエリはキーワード又はキーフレーズを含む。多くのIRシステムは、ユーザが、探索中に適用されるさらなる制約条件を指定することを許可している。たとえば、制約条件は、返される全てのコンテンツが或る範囲の属性を有することを指定することができる。通常、クエリ及び制約条件はテキストとして指定される。
一般的に、情報検索(IR)システムは、発話クエリに基づいてデータベース内に格納されているコンテンツを探索する。コンテンツは、限定ではないが、テキスト、画像、音声、及びビデオのような任意のタイプのマルチメディアコンテンツを含むことができる。クエリはキーワード又はキーフレーズを含む。多くのIRシステムは、ユーザが、探索中に適用されるさらなる制約条件を指定することを許可している。たとえば、制約条件は、返される全てのコンテンツが或る範囲の属性を有することを指定することができる。通常、クエリ及び制約条件はテキストとして指定される。
用途によっては、テキストによる入出力が、不可能でないにしても困難である。これらの用途は、たとえば、機械若しくは車両を操作しながらデータベースを探索すること、又は電話のような機能性が限られたキーボード若しくはディスプレイを用いる用途を含む。そのような用途の場合、ASR対応IRシステムが好まれる。
ASR対応IRシステムの例は、2009年6月2日付けでWolf他に対して発行された、米国特許第7,542,966号明細書、「Method and system for retrieving documents with spoken queries」に記載されている。
コマンド及び制御(CC)
ASR対応CCシステムは、発話コマンドを認識及び解釈し、機械が理解可能なコマンドにする。発話コマンドの非限定的な例は、指定された電話番号に「発呼」すること、又は指定された楽曲を「再生」することである。音声認識ソフトウェアの近年の進歩に起因して、多数のASR対応CCシステムが開発されてきた。通常、これらのシステムは、発話コマンドのための特定のコンテキストを使用して特定の環境において動作する。
ASR対応CCシステムは、発話コマンドを認識及び解釈し、機械が理解可能なコマンドにする。発話コマンドの非限定的な例は、指定された電話番号に「発呼」すること、又は指定された楽曲を「再生」することである。音声認識ソフトウェアの近年の進歩に起因して、多数のASR対応CCシステムが開発されてきた。通常、これらのシステムは、発話コマンドのための特定のコンテキストを使用して特定の環境において動作する。
コンテキスト型ASR対応システム
大規模な語彙及び複雑な言語モデルは、ASR対応システムを低速にし、メモリのようなさらなる資源及びさらなる処理を必要とする。大規模な語彙はシステムの正確度も低減し得る。したがって、ほとんどのASR対応システムは、関連するコンテキストに通常関連付けられる、小規模な語彙及び単純な言語モデルを有する。たとえば、米国特許4,989,253号明細書は、顕微鏡を動かし、焦点を合わせるためのASR対応システムを開示している。このシステムは、顕微鏡に関連付けられるコンテキストを使用する。また、米国特許第5,970,457号明細書は、適切なコンテキストに関連付けられる発話コマンドに従って、手術道具のような医療機器を操作するためのASR対応システムを開示している。
大規模な語彙及び複雑な言語モデルは、ASR対応システムを低速にし、メモリのようなさらなる資源及びさらなる処理を必要とする。大規模な語彙はシステムの正確度も低減し得る。したがって、ほとんどのASR対応システムは、関連するコンテキストに通常関連付けられる、小規模な語彙及び単純な言語モデルを有する。たとえば、米国特許4,989,253号明細書は、顕微鏡を動かし、焦点を合わせるためのASR対応システムを開示している。このシステムは、顕微鏡に関連付けられるコンテキストを使用する。また、米国特許第5,970,457号明細書は、適切なコンテキストに関連付けられる発話コマンドに従って、手術道具のような医療機器を操作するためのASR対応システムを開示している。
しかしながら、多数のASR対応システムが、異なる複数のコンテキストに関して有用な複数の語彙及び言語モデルを備える必要がある。そのようなシステムは通例、ユーザによって選択される特定の対象コンテキストに基づいて、適切な語彙及び言語モデルを有効にするように構成される。
本明細書において定義されるように、ASR対応システムのコンテキストは、限定ではないが、語彙、言語モデル、文法、ドメイン、データベース、及び/又は関連するコンテキスト機能性を有するサブシステムである。たとえば、音楽、連絡、レストラン、又は古跡に関連する機能性は、それぞれ別個の識別可能なコンテキストを有するであろう。複数のコンテキストを利用するASR対応システムは、コンテキスト型ASR対応システムである。
したがって、コンテキスト型ASR対応システムの場合、発話クエリ又は発話コマンドに関するコンテキストを指定することが必要である。
PTT機能性を利用するASR対応システム
意図される発話入力を背景雑音又は背景発話と識別する異なる複数のタイプのASRシステムが存在する。常時リスン式のシステムは、認識される音声信号の語彙的分析を利用して、ASR対応システムをさらなる入力のために有効にすることが意図されるキーワード、たとえば「コンピュータ」を検出する。
意図される発話入力を背景雑音又は背景発話と識別する異なる複数のタイプのASRシステムが存在する。常時リスン式のシステムは、認識される音声信号の語彙的分析を利用して、ASR対応システムをさらなる入力のために有効にすることが意図されるキーワード、たとえば「コンピュータ」を検出する。
別のタイプのASR対応システムは、人同士の会話の後にモデリングされる、視線の方向のような他の入力手掛りを利用する。
さらに別のタイプのASRシステムは、プッシュ・トゥー・トーク(PTT)機能性を使用する。PTT制御部、たとえばボタンを使用して、意図される発話入力としての音声信号ストリームの開始をマーキングする。幾つかの実施態様では、発話入力の終了は、たとえば取得される信号の振幅又は信号対雑音比(SNR)を分析することによって自動的に確定される。他の実施態様では、ユーザは、発話を終了するまでボタンを押下したままにする必要があり、ボタンを放すことによって、入力信号の終了が明示的にマーキングされる。
埋込み式ASRシステム
場合によって、ASR対応システムを、ネットワークベースの演算資源上に実装するのではなく、物理デバイス内に直接埋め込むことが必要である。そのような埋め込みが必要である場合があるシナリオは、持続的なネットワーク接続を想定することができないシナリオを含む。これらのシナリオにおいて、ASR対応システムがネットワークコンピュータ上のデータベースを更新することを要する場合であっても、デバイス上で独立して遂行される人対機械の対話を通じて情報を得る必要がある。次に、ネットワーク通信チャネルが回復した後、デバイス上で収集された更新情報を、ネットワークベースのデータベースと同期させることができる。
場合によって、ASR対応システムを、ネットワークベースの演算資源上に実装するのではなく、物理デバイス内に直接埋め込むことが必要である。そのような埋め込みが必要である場合があるシナリオは、持続的なネットワーク接続を想定することができないシナリオを含む。これらのシナリオにおいて、ASR対応システムがネットワークコンピュータ上のデータベースを更新することを要する場合であっても、デバイス上で独立して遂行される人対機械の対話を通じて情報を得る必要がある。次に、ネットワーク通信チャネルが回復した後、デバイス上で収集された更新情報を、ネットワークベースのデータベースと同期させることができる。
本明細書において定義されるように、埋込み式ASRシステムは、CC又はIRを実施する必要がある全ての発話信号処理が、通常、取り付けられた有線マイク又は無線マイクを有するデバイス上で発生するシステムである。埋め込みASRシステムを生成するか、変更するか、又は有効にするのに必要とされるデータのうちの幾つかは、有線データチャネル又は無線データチャネルを介して異なる複数のデバイスからダウンロードすることができる。しかしながら、ASR処理の時点において、全てのデータが、デバイスと関連付けられるメモリ内にある。
上記で説明されたように、IRシステム及びCCシステムのような異なる複数のタイプのASRシステムを、特定のコンテキスト又は複数のコンテキストと組み合わせて使用することが有利である。また、それらの制限されたメモリ資源及びCPU資源に起因して、幾つかの埋込み式ASRシステムは、必ずしもデスクトップベースのASRシステム又はサーバベースのASRシステムに当てはまるとは限らない制限を有する。たとえば、デスクトップベースのシステム又はサーバベースのシステムは、システムの任意の状態から、特定のアーティストの探索のような音楽検索命令を処理することが可能な場合がある。しかしながら、埋込み式ASRシステム、たとえば車両内のASRシステムは、まず適切なコンテキスト状態に切り換えることをユーザに要求する場合があり、その特定のコンテキスト状態にのみ関連する発話入力を提供することをユーザに許可する。
通常、埋込み式ASRシステムは、異なる複数のコンテキストに関連付けられる。たとえば、音楽を1つのコンテキストとすることができる。埋込み式ASRシステムが音楽コンテキスト状態にある間、システムは、ユーザ発話入力が音楽に関連することを予期し、システムは音楽検索にのみ関連する機能を実行するように構成される。ナビゲーション及び連絡は、ASRシステムのコンテキストの他の非限定的な例である。
たとえば、PTTボタンを利用するユーザインタフェースを有する埋込み式ASRシステムでは、音楽演奏者を探索するために、ユーザはPTTボタンを押下し、コンテキスト命令、たとえば「音楽」のようなコード単語を発音してASRシステムを音楽コンテキスト状態に切り換える。コード単語を発話した後、ユーザは音楽検索のための発話命令を入力することができる。ユーザが、何らかの他のコンテキスト状態にある間に音楽に関連する発話命令を入力する場合、ASRシステムは失敗する。
図1は従来の埋込み式ASRシステムを示している。PTTボタン105が押下された後、システムはコンテキスト命令110〜112を含む発話入力を予期する。コンテキスト命令を認識(120)した後、システムは適切なコンテキスト状態130〜132に遷移する。それに応じて、システムは、後続の発話入力133〜135を認識した後、適切な機能136〜138を有効にする。
しかしながら、音楽検索及び目的地入力のような複雑なタスクは、特にタスクの持続時間が増大すると、他のユーザ動作、たとえば車両の運転を妨げる。したがって、埋込み式ASRシステムにおいて、発話入力を用いて機能を有効にするためのステップ数を低減することが多くの場合に望まれている。
本発明の実施の形態は、発話入力に基づいて複数の機能を有効にするための方法及びシステムを開示する。システムは、電話、ナビゲーションシステム、車両のインストルメンタルパネル等のような機器内に埋め込まれる。
システムは、複数の状態を格納するメモリであって、各状態は、複数の機能からの少なくとも1つの機能に関連付けられる、メモリと、データモデルのセットに動作可能に接続される自動音声認識(ASR)エンジンであって、状態毎に1つのデータモデルが存在し、該ASRエンジンは、システムが或る状態にある間、該状態に関連付けられるデータモデルを使用して発話入力を解釈して機能入力にするように構成され、それによって機能が該機能入力に従って有効にされる、自動音声認識エンジンと、複数の制御部であって、状態毎に1つの制御部が存在し、各制御部は、該状態に関連付けられる信号を生成するように構成される、複数の制御部と、信号に基づいてシステムを上記状態に遷移させるように構成される状態遷移モジュールであって、機能は、システムが該機能に関連付けられる状態にあるときのみ有効にされるように構成される、状態遷移モジュールとを備える。
一実施の形態では、複数の制御部は、多目的制御部を含み、該多目的制御部は、少なくとも2つの有効化様式を用いて有効にされ、それによって特定の有効化様式を示す信号を生成するように構成される。この実施の形態は、特定の有効化様式に基づいて第1の機能又は第2の機能のいずれかを有効にするように構成される制御装置をさらに備える。第1の機能は、有効化様式にのみ基づいて実行されるように構成され、第2の機能は発話入力に基づいて実行されるようにさらに構成される。
本方法は、メモリ内に複数の状態を格納するステップであって、各状態は、複数の機能からの少なくとも1つの機能に関連付けられる、格納するステップと、複数の制御部を設けるステップであって、状態毎に1つの制御部が存在し、各制御部は、該状態に関連付けられる信号を生成するように構成される、設けるステップと、信号を受信すると、システムを該信号に関連付けられる状態に遷移させるステップであって、発話入力に従って機能を有効にし、該機能は、システムが該機能に関連付けられる状態に遷移されているときのみ有効にされるように構成される、遷移させるステップとを含む。
コンテキスト型PTT制御部
本発明の実施の形態は、複数の専用コンテキスト型プッシュ・トゥー・トーク(PTT)制御部によって、埋込み式自動音声認識(ASR)システムにおいて適切な機能の有効化が容易になるという認識に基づく。
本発明の実施の形態は、複数の専用コンテキスト型プッシュ・トゥー・トーク(PTT)制御部によって、埋込み式自動音声認識(ASR)システムにおいて適切な機能の有効化が容易になるという認識に基づく。
図2は、本発明の一実施の形態による埋込み式ASRシステムを示している。システムはプロセッサ201を備え、プロセッサ201は、当該技術分野において既知のメモリ202と、入力/出力インタフェースと、信号プロセッサとを備える。
システム200は、メモリ202内に格納される複数の状態231〜233を含む。通常、各状態は特定のコンテキストに関連付けられる。たとえば、一つの状態は音楽コンテキストに関連付けられ、別の状態は連絡コンテキストに関連付けられる。各状態は、機能237〜239のうちの少なくとも1つの機能にも関連付けられる。機能237〜239は、発話入力233〜235に基づいて有効にされるように構成される。通常、機能は、コンテキストと状態との関連付けと同様にして、状態と関連付けられる。たとえば、音楽を選択及び再生するように構成される機能は、音楽コンテキストに関連付けられる状態に関連付けられる。しかし、特定の電話番号を選択すると共に、該電話番号に発呼するように構成される機能は、連絡コンテキストに関連付けられる状態に関連付けられる。
通常、発話入力は、機能の識別子と、実行される機能のパラメータとを含む。たとえば、発話入力は「Joeに発呼」である。機能の識別子は、入力の「発呼」部分である。この識別子に基づいて、「電話」状態に関連付けられる複数の機能から、電話の発呼を実行するための機能が選択される。発話入力の「Joe」部分は、識別子に基づいて選択される機能に対するパラメータである。したがって、システムはこのパラメータを使用して、選択された機能を実行する、すなわち名前「Joe」に基づいて電話帳から選択される電話番号に発呼する。
システム200は、システムがその状態に遷移されるときのみ、該状態に関連付けられる機能を有効にするように構成される。たとえば、音楽機能を有効にするために、システムはまず、音楽機能に関連付けられると共に、それに応じて音楽コンテキストに関連付けられる状態に遷移されなくてはならない。
システム200は、1つの従来のPTTボタンを有する代わりに、制御パネル210を提供する。制御パネル210は、複数の制御部221〜223、たとえばコンテキスト型PTT制御部を備える。各コンテキスト型PTT制御部は、ボタン、ジョイスティック、又はタッチセンサ式表面のような、触知可能に有効にされるように構成される任意の入力制御部とすることができる。
各コンテキスト型PTT制御部221〜223は、状態231〜233と1対1に対応する。コンテキスト型PTT制御部は、有効にされると、信号242〜244を生成する。信号は、有効にされたコンテキスト型PTT制御部に関する情報を搬送する任意のタイプの信号、たとえば二値信号とすることができる。
状態遷移モジュール220は、信号を受信すると、システム200を、信号に関連付けられる状態に遷移させて機能を有効にする。たとえば、一実施の形態では、状態への遷移は、データモデルのセット255からのデータモデルを、ASRエンジン250に関連付ける(256)ことによって達成される。データモデルは、ASRエンジンが発話入力を解釈することを可能にする、語彙、及び/又は所定のコマンドのセット若しくは探索用語を含む。ASRエンジンは、発話入力233〜235を解釈して、機能237〜239によって予期される複数の入力261〜263にする。したがって、データモデル256が、たとえば音楽コンテキストの語彙を含む場合、ASRエンジンは音楽に関連する発話入力234しか解釈することができない。代替的に又は付加的に、状態遷移モジュールが、対応する状態内に含める機能を予め選択する、たとえば、プロセッサ201のメモリ内にアップロードする。
これらの実施の形態は、単一のPTTボタンを有する従来のシステムに勝る大きな利点を提供する。従来のシステムは、特定の状態に遷移するために追加の発話入力を必要とする。しかしながら、本発明の実施の形態は、制御部の有効化に基づいて、該制御部に関連付けられる状態にシステムを直接遷移させる。
このため、システム200は、従来のシステムと対照的に、タッチタイピング及びギアシフトに類似した、同様の動きが反復されることによって強化される筋肉記憶を活用する。したがって、制御部は、ユーザが主要なタスク、たとえば車両の運転から最低限にしか気を逸らされずに該制御部を有効にすることができるように構成される。
一実施の形態において、各制御部は状態に関連付けられるコンテキストの識別子225〜227を伝達する。たとえば、識別子は、「発呼」又は「音楽」のようなコンテキスト名を有する、制御部上にレンダリングされるキャプションを有することができる。付加的に又は代替的に、識別子は、制御部の色、制御部の形、デバイス上の制御部の位置、及びそれらの組み合わせとすることができる。この実施の形態によって、人間のオペレータが埋込み式ASRシステムの操作方法を習得するのに通常必要とされるトレーニング時間を低減する。
図4に示すように、システム200は、車両400のインストルメンタルパネル410内に埋め込むことができる。コンテキスト型PTT制御部432及び433を、ハンドル430上に配置することができる。代替的に又は付加的に、コンテキスト型PTT制御部425を、制御モジュール420上に設置することができる。複数のコンテキスト型PTT制御部によって探索が単純化されると共に、必要とされるユーザ対話が少なくなり、それによってユーザは車両の操作に集中することができる。
多目的制御部
図3は、本発明の別の実施の形態によるシステム及び方法300のブロック図を示している。この実施の形態では、制御部310は多目的PTT制御部であり、制御装置320を介して少なくとも機能330及び340に接続される。制御部310は、複数の有効化様式317から選択される特定の有効化様式315を示す信号を生成するように構成される。有効化様式は、たとえばシングルクリック、ダブルクリック、及び長押しの有効化様式を含む。
図3は、本発明の別の実施の形態によるシステム及び方法300のブロック図を示している。この実施の形態では、制御部310は多目的PTT制御部であり、制御装置320を介して少なくとも機能330及び340に接続される。制御部310は、複数の有効化様式317から選択される特定の有効化様式315を示す信号を生成するように構成される。有効化様式は、たとえばシングルクリック、ダブルクリック、及び長押しの有効化様式を含む。
制御装置320は、特定の有効化様式315に基づいて、第1の機能340又は第2の機能330を有効にする(325)。機能340及び330間の主な違いは、第1の機能340が有効化様式315にのみ基づいて有効にすることができるということである。一方、第2の機能330は、発話対応の作動を必要とする、すなわち、発話入力333を予期するようにさらに構成される。
この実施の形態は、任意の従来の制御部を多目的PTT制御部として利用することを可能にする。ユーザが「標準的な」有効化様式、たとえばシングルクリックで制御部を有効にする場合、システムは第1の機能を有効にし(342)、実行する(344)。そうでない場合、ユーザは「特殊な」有効化様式、たとえばダブルクリックを用いて制御部を有効にし、発話入力333を予期する機能337を起動する。
たとえば、電話機上の緑色の発話ボタン上をシングルクリックすることによって、最近の発話が表示される。一方で、同じ緑色の発話ボタン上をダブルクリックすることによって、システムが発話入力、たとえば「John Doe」のような電話帳探索を検出し、該発話入力に従って「発話」機能を実行する。この例では、機能340は最近の発呼を表示する機能である。容易に理解されるように、機能340は、シングルクリック有効化様式を用いて有効にされる場合、追加の入力を一切必要としない。また一方で、特定の電話番号に発呼する機能は機能330であり、追加の入力、たとえば電話帳からの連絡先名を必要とする。この実施の形態において、この追加の入力は、発話入力に基づいて埋込み式ASRシステムによって解釈される。
同様に、ラジオ上の「再生/一時停止」及び「シャッフル」ボタンは、発話入力を受け付けることができる。標準的な作動が単純なトグル操作、すなわち再生又は一時停止、ランダムプレイバックオン又はオフとして作用する場合、発話対応の作動は、操作のための発話入力、すなわち何を再生するか、何をシャッフルするかを検出する。
一実施の形態において、機能330の、発話対応の有効化の実施態様は、システム200の状態の実施態様に類似する。ユーザがシステム300に第2の機能330を有効にすることを命令する場合、システム300は、状態231〜233に類似した、第2の機能330に関連付けられる状態に遷移される。
別の実施の形態において、システム200及び300は組み合わされ、複数の多目的コンテキスト型PTT制御部を提供する。この実施の形態では、制御パネル210は複数の多目的PTT制御部を備える。この実施の形態は、従来のボタンを有するデバイス内にASRシステムを埋め込み、該デバイスを多目的コンテキスト型埋込み式ASRシステムに変化させることを可能にする。
本発明を、好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で他のさまざまな適合及び変更を行えることが理解されるべきである。したがって、本発明の真の精神及び範囲内に入るすべての変形及び変更を包含することが、添付の特許請求の範囲の目的である。
Claims (20)
- 機器内に埋め込まれ、発話入力に基づいて複数の機能を有効にするためのシステムであって、
各状態が前記複数の機能からの少なくとも1つの機能に関連付けられる、複数の状態を格納するメモリと、
データモデルのセットに動作可能に接続され、状態毎に1つのデータモデルが存在し、システムが或る状態にある間、状態に関連付けられるデータモデルを使用して前記発話入力を解釈して機能入力にするように構成されて、機能が前記機能入力に従って有効にされる自動音声認識エンジンと、
状態毎に1つの制御部が存在し、各制御部が状態に関連付けられる信号を生成するように構成される複数の制御部と、
前記信号に基づいてシステムを前記状態に遷移させるように構成され、システムが前記機能に関連付けられる状態にあるときのみ、前記機能が有効にされるように構成される状態遷移モジュールと
を備える、発話入力に基づいて複数の機能を有効にするためのシステム。 - 状態毎に1つのコンテキストが存在し、各状態は1つのコンテキストに関連付けられる
請求項1記載のシステム。 - 前記コンテキストは、音楽コンテキスト、連絡コンテキスト、及びナビゲーションコンテキストから選択される
請求項2記載のシステム。 - 1つの状態に関連付けられる1つの制御部は、前記状態に関連付けられるコンテキストの識別子を伝達する
請求項2記載のシステム。 - 前記識別子は、前記制御部上にレンダリングされるキャプション、前記制御部の色、前記制御部の形、前記制御部の位置、及びそれらの組み合わせから選択される
請求項4記載のシステム。 - 前記発話入力は、前記機能の識別子と、前記機能のパラメータとを含んで、前記機能は、前記識別子に基づいて選択され、前記パラメータに基づいて実行される
請求項1記載のシステム。 - 前記状態は、1つのみの機能に関連付けられ、前記発話入力は前記機能のパラメータを含んで、前記機能は前記パラメータに基づいて実行される
請求項1記載のシステム。 - 前記制御部は、プッシュ・トゥー・トークボタンである
請求項1記載のシステム。 - 前記システムは、触知可能な有効化のみに基づいて前記状態に遷移するように構成される
請求項1記載のシステム。 - 前記複数の制御部は、多目的制御部を含む
請求項1記載のシステム。 - 前記複数の制御部を含む制御パネルをさらに備える
請求項1記載のシステム。 - 前記機器は、車両のインストルメンタルパネルである
請求項1記載のシステム。 - 前記機器は、電話、音楽プレーヤ、ナビゲーションデバイス、及びそれらの組み合わせから選択される
請求項1記載のシステム。 - 前記複数の制御部は、少なくとも2つの有効化様式を用いて有効にされて特定の有効化様式を示す信号を生成するように構成される多目的制御部を含み、
前記特定の有効化様式に基づいて、前記有効化様式にのみ基づいて実行されるように構成される第1の機能、又は前記発話入力に基づいて実行されるように構成される第2の機能のいずれかを有効にするように構成される制御装置をさらに備える
請求項1記載のシステム。 - 前記複数の制御部は、前記多目的制御部のみを含む
請求項14記載のシステム。 - 各機能が発話入力に基づいて有効にされるように構成され、複数の機能を有効にするための方法であって、
各状態が前記複数の機能からの少なくとも1つの機能に関連付けられる、複数の状態をメモリ内に格納するステップと、
状態毎に1つの制御部が存在し、各制御部が状態に関連付けられる信号を生成するように構成される、複数の制御部を設けるステップと、
前記信号の受信に応答して、システムを前記信号に関連付けられる状態に遷移させるステップであって、前記発話入力に従って前記機能を有効にし、前記機能は、前記システムが前記機能に関連付けられる状態に遷移されているときのみ有効にされるように構成される、遷移させるステップと
を含む、複数の機能を有効にするための方法。 - 前記機能は、入力に基づいて実行されるように構成され、
データモデルのセットに動作可能に接続され、状態毎に1つのデータモデルが存在し、システムが前記状態に遷移されている間、前記状態に関連付けられるデータモデルを使用して前記発話入力を解釈して前記入力にするように構成される、自動音声認識エンジンを設けるステップをさらに含む
請求項16記載の方法。 - 前記複数の制御部のうちの少なくとも1つの制御部は、多目的制御部である
請求項16記載の方法。 - 1つの制御部を1つのコンテキストに関連付けるステップと、
前記コンテキストの識別子を前記制御部上に設けるステップとをさらに含む
請求項16記載の方法。 - 前記複数の制御部を車両内に配置するステップをさらに含む
請求項16記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/557,035 US20110060588A1 (en) | 2009-09-10 | 2009-09-10 | Method and System for Automatic Speech Recognition with Multiple Contexts |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011059676A true JP2011059676A (ja) | 2011-03-24 |
Family
ID=43066815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010178664A Pending JP2011059676A (ja) | 2009-09-10 | 2010-08-09 | 発話入力に基づいて複数の機能を有効にするためのシステム及び方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20110060588A1 (ja) |
EP (1) | EP2309492A1 (ja) |
JP (1) | JP2011059676A (ja) |
CN (1) | CN102024454A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011059659A (ja) * | 2009-09-10 | 2011-03-24 | Mitsubishi Electric Research Laboratories Inc | 第1の機能及び第2の機能を含む複数の機能を有効にするためのシステムおよび方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140057574A1 (en) * | 2012-08-24 | 2014-02-27 | Motorola Solutions, Inc. | Method and apparatus for controlling receive volume in a two-way radio system |
CN103871408B (zh) * | 2012-12-14 | 2017-05-24 | 联想(北京)有限公司 | 一种语音识别方法及装置、电子设备 |
TWI515719B (zh) * | 2012-12-28 | 2016-01-01 | 財團法人工業技術研究院 | 基於目標名稱辨識之共用語音操控方法、裝置、其記錄媒體與程式產品 |
CN104238379B (zh) * | 2013-06-07 | 2017-07-28 | 艾默生过程控制流量技术有限公司 | 变送器、现场仪表以及用于控制变送器的方法 |
CN104182124B (zh) * | 2014-08-25 | 2017-11-03 | 广东欧珀移动通信有限公司 | 移动终端的操作方法和装置 |
CN104239043B (zh) * | 2014-09-04 | 2017-10-31 | 百度在线网络技术(北京)有限公司 | 指令的执行方法和装置 |
US10360909B2 (en) | 2017-07-27 | 2019-07-23 | Intel Corporation | Natural machine conversing method and apparatus |
US10867623B2 (en) * | 2017-11-14 | 2020-12-15 | Thomas STACHURA | Secure and private processing of gestures via video input |
US10002259B1 (en) | 2017-11-14 | 2018-06-19 | Xiao Ming Mai | Information security/privacy in an always listening assistant device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934488A (ja) * | 1995-07-18 | 1997-02-07 | Mazda Motor Corp | 車載機器の音声操作装置 |
JP2003195890A (ja) * | 2001-12-25 | 2003-07-09 | Nippon Seiki Co Ltd | 音声操作装置 |
JP2006162782A (ja) * | 2004-12-03 | 2006-06-22 | Mitsubishi Electric Corp | 音声認識装置 |
JP2011059659A (ja) * | 2009-09-10 | 2011-03-24 | Mitsubishi Electric Research Laboratories Inc | 第1の機能及び第2の機能を含む複数の機能を有効にするためのシステムおよび方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4989253A (en) * | 1988-04-15 | 1991-01-29 | The Montefiore Hospital Association Of Western Pennsylvania | Voice activated microscope |
US5450525A (en) * | 1992-11-12 | 1995-09-12 | Russell; Donald P. | Vehicle accessory control with manual and voice response |
US5970457A (en) * | 1995-10-25 | 1999-10-19 | Johns Hopkins University | Voice command and control medical care system |
US6075534A (en) * | 1998-03-26 | 2000-06-13 | International Business Machines Corporation | Multiple function graphical user interface minibar for speech recognition |
CN101355680B (zh) * | 1999-05-06 | 2011-12-07 | 京瓷株式会社 | 便携式通信终端及用该通信终端的电视电话系统 |
US7219123B1 (en) * | 1999-10-08 | 2007-05-15 | At Road, Inc. | Portable browser device with adaptive personalization capability |
AU2474300A (en) * | 1999-11-23 | 2001-06-04 | Intervoice Limited Partnership | Voice activated hyperlinks |
GB2358987B (en) * | 2000-02-01 | 2003-10-29 | Ericsson Telefon Ab L M | Electronic devices |
US6917373B2 (en) * | 2000-12-28 | 2005-07-12 | Microsoft Corporation | Context sensitive labels for an electronic device |
US6230138B1 (en) * | 2000-06-28 | 2001-05-08 | Visteon Global Technologies, Inc. | Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system |
KR100457509B1 (ko) * | 2001-07-07 | 2004-11-17 | 삼성전자주식회사 | 터치스크린과 음성인식을 통해 동작 제어되는 정보단말기 및 그의 명령 실행 방법 |
US7542966B2 (en) * | 2002-04-25 | 2009-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for retrieving documents with spoken queries |
JP4363076B2 (ja) * | 2002-06-28 | 2009-11-11 | 株式会社デンソー | 音声制御装置 |
JP4802962B2 (ja) * | 2006-10-03 | 2011-10-26 | 日本電気株式会社 | 携帯端末装置及び携帯端末装置の機能起動方法 |
-
2009
- 2009-09-10 US US12/557,035 patent/US20110060588A1/en not_active Abandoned
-
2010
- 2010-08-09 EP EP10008295A patent/EP2309492A1/en not_active Withdrawn
- 2010-08-09 JP JP2010178664A patent/JP2011059676A/ja active Pending
- 2010-09-08 CN CN2010102779854A patent/CN102024454A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934488A (ja) * | 1995-07-18 | 1997-02-07 | Mazda Motor Corp | 車載機器の音声操作装置 |
JP2003195890A (ja) * | 2001-12-25 | 2003-07-09 | Nippon Seiki Co Ltd | 音声操作装置 |
JP2006162782A (ja) * | 2004-12-03 | 2006-06-22 | Mitsubishi Electric Corp | 音声認識装置 |
JP2011059659A (ja) * | 2009-09-10 | 2011-03-24 | Mitsubishi Electric Research Laboratories Inc | 第1の機能及び第2の機能を含む複数の機能を有効にするためのシステムおよび方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011059659A (ja) * | 2009-09-10 | 2011-03-24 | Mitsubishi Electric Research Laboratories Inc | 第1の機能及び第2の機能を含む複数の機能を有効にするためのシステムおよび方法 |
Also Published As
Publication number | Publication date |
---|---|
EP2309492A1 (en) | 2011-04-13 |
US20110060588A1 (en) | 2011-03-10 |
CN102024454A (zh) | 2011-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8788267B2 (en) | Multi-purpose contextual control | |
JP2011059676A (ja) | 発話入力に基づいて複数の機能を有効にするためのシステム及び方法 | |
US10706853B2 (en) | Speech dialogue device and speech dialogue method | |
KR101418163B1 (ko) | 컨텍스트 정보를 이용한 음성 인식 복구 | |
US9123341B2 (en) | System and method for multi-modal input synchronization and disambiguation | |
US20120253823A1 (en) | Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing | |
EP1739546A2 (en) | Automobile interface | |
JP5637131B2 (ja) | 音声認識装置 | |
KR20060037228A (ko) | 음성인식을 위한 방법, 시스템 및 프로그램 | |
CN105448293B (zh) | 语音监听及处理方法和设备 | |
US8126715B2 (en) | Facilitating multimodal interaction with grammar-based speech applications | |
CN110544473A (zh) | 语音交互方法和装置 | |
JP5189858B2 (ja) | 音声認識装置 | |
CN112346570A (zh) | 基于语音和手势进行人机交互的方法和设备 | |
JP2007240688A (ja) | 音声認識装置及びそれを用いたナビゲーション装置、音声認証装置、方法及びプログラム | |
WO2012174515A1 (en) | Hybrid dialog speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same | |
JP2007127896A (ja) | 音声認識装置及び音声認識方法 | |
JP4212947B2 (ja) | 音声認識システムおよび音声認識の訂正・学習方法 | |
WO2021254838A1 (en) | Driving companion comprising a natural language understanding system and method for training the natural language understanding system | |
CN112823047A (zh) | 用于控制网络应用程序的系统和设备 | |
JP2006162782A (ja) | 音声認識装置 | |
JP7010585B2 (ja) | 音コマンド入力装置 | |
Rudžionis et al. | Control of computer and electric devices by voice | |
JP2008233009A (ja) | カーナビゲーション装置及びカーナビゲーション装置用プログラム | |
JP2009271835A (ja) | 機器操作制御装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131224 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140527 |