JP2015509204A - 直接的文法アクセス - Google Patents

直接的文法アクセス Download PDF

Info

Publication number
JP2015509204A
JP2015509204A JP2014548779A JP2014548779A JP2015509204A JP 2015509204 A JP2015509204 A JP 2015509204A JP 2014548779 A JP2014548779 A JP 2014548779A JP 2014548779 A JP2014548779 A JP 2014548779A JP 2015509204 A JP2015509204 A JP 2015509204A
Authority
JP
Japan
Prior art keywords
input
user
vehicle
control command
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014548779A
Other languages
English (en)
Other versions
JP5916888B2 (ja
Inventor
グラウマン、デーヴィッド、エル.
ロサリオ、バーバラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2015509204A publication Critical patent/JP2015509204A/ja
Application granted granted Critical
Publication of JP5916888B2 publication Critical patent/JP5916888B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/041Indexing scheme relating to G06F3/041 - G06F3/045
    • G06F2203/04108Touchless 2D- digitiser, i.e. digitiser detecting the X/Y position of the input means, finger or stylus, also when it does not touch, but is proximate to the digitiser's interaction surface without distance measurement in the Z direction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Mechanical Engineering (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

選択された機能を文法要素および/またはスピーチ入力の目標とする音声認識システムおよび/または技術を提供する。1つまたは複数の入力キャプチャデバイスは車両と関係するユーザー入力の収集を容易にし、車両機能は受け取ったユーザー入力に基づいて選択することができる。それから、選択された機能のための可聴コマンドと関係する利用可能な文法要素のサブセットを識別することができ、受け取った音声入力を評価するために利用することができる。この点に関しては、音声認識は選択された機能を目標とすることができる。【選択図】図2

Description

本開示の態様は、一般的には音声認識に関し、より詳しくは、車両と関係する特定の機能を目標とする音声認識に関する。
音声認識技術は、様々な目的のためにますます展開され、電子ディクテーション、ボイスコマンド認識および電話ベースの顧客サービスエンジンを含んでいる。音声認識は、典型的にはマイクロホンを介して受け取られる音響信号の処理を必要とする。これを行う際に、音響信号を単語または文法要素に翻訳するために、音声認識エンジンが典型的に利用される。特定の環境、例えば車両環境では、音声認識技術の使用によって、ドライバが手を使わずに命令を与えることができるので、安全性が高まる。
従来の車内音声インターフェースは、典型的には、様々な車両機能を制御するために文法要素の階層構造を利用する。例えば、ラジオをチューニングするために、ユーザーは、「ラジオ」と言って、確認のために聞き、「チャンネル」と言って、確認のために聞き、そして「101.9」と言うだろう。従来の階層的なアプローチは、典型的に、ユーザーにとって扱いにくく時間がかかるものである。より多くの直接的コマンドを可能にするために、音声階層構造をフラットにするためのいくつかの試みが成された。これらの試みは、より大きい語彙サイズの使用および自然言語処理の追加を含む。しかし、わずかな改良しか得られていない。実際、豊かな音素の特徴を有する比較的小さい語彙の使用は、車両と関係する様々な音響条件の下でより正確な音声認識結果を提供するように見える。したがって、車両と関係する特定の機能を目標とする音声認識にとって、改良されたシステムおよび方法の機会がある。
ここで添付の図面を参照するが、それらは必ずしも一定の比率で描かれているわけではない。
本開示の例示的実施形態による、様々な車両機能をスピーチ入力の目標とするために利用することができる例示的システムまたはアーキテクチャのブロック図である。 目標とする音声認識と関係するユーザー入力を取得するための例示的技術を示す簡略化した概略図である。 本開示の様々な実施形態において利用することができる例示的音声認識システムまたはアーキテクチャのブロック図である。 車両機能を音声認識の目標とするためにユーザー入力を評価するための例示的方法のフローチャートである。 音声認識の目標と関係するジェスチャを識別するための例示的方法のフローチャートである。 音声認識の目標と関係する近接情報を識別するための例示的方法のフローチャートである。 ユーザー入力を音声認識のための文法要素と関係づけるための例示的方法のフローチャートである。
本開示の実施形態は、車両または他の環境と関係する任意の数の機能を音声認識の目標とするためのシステム、方法、および装置を提供することができる。この点に関しては、複数の異なる機能および/または応用と関係する文法要素の階層構造を回避することができ、それによって最終的なコマンドの比較的より速い処理および利用者満足度のより高いレベルに導く。ある実施形態では、機能に特有の文法要素のサブセットまたはクラスタが各機能と関係する。例えば、文法要素の第1のサブセットはラジオ機能(または他の機能)と関係し、文法要素の第2のサブセットは空調機能(または他の機能)と関係する。スピーチ入力以外のユーザー入力であってもよいが、ユーザー入力の識別および評価に基づいて、望ましい機能およびそれと関係する文法要素のサブセットを選択することができる。それから、文法要素のサブセットは、選択された機能と関係し、それを目標とするスピーチ入力を処理するために利用することができる。
様々な実施形態は、多種多様な異なる動作環境と連動して利用することができる。例えば、ある実施形態は、車両環境で利用することができる。要求に応じて、車両内の音響モデルは、特定のハードウェアおよび様々な内部および/または外部の音響で用いるために、最適化することができる。好適な車両の例としては、自動車、トラック、軽トラック、大型トラック、ピックアップトラック、ミニバン、クロスオーバー車両、バン、商用車、私用車、スポーツ用車両、トラクタ−トレーラ、航空機、飛行機、ジェット、ヘリコプタ、宇宙船、船舶、または通信および知覚の能力を有する他のいかなる好適な車両が挙げられるが、これらに限定されるものではない。しかし、2つのシステム間の電子通信を実装することができる他の輸送または非輸送に関連する応用においても、本開示の実施形態を利用することができることはいうまでもない。
1つの例示的実施形態では、可聴コマンド(例えば、ボイスコマンド)と関係する複数の文法要素が車両と関係することができる。例えば、文法要素は、車両の好適な音声認識システムまたはコンポーネントと関係して記憶することができる。複数の文法要素は、任意の数の車両機能と関係するそれぞれの文法要素を含むことができる。車両機能は、例えば、車両制御機能、空調制御機能、オーディオシステム機能、ウィンドウ(例えば、ウィンドウ、サンルーフなど)制御機能、座席制御機能、ディスプレイ制御機能、ナビゲーション制御機能、ウェブまたは他のネットワーク機能、通信制御機能、ならびに/または多種多様な車両システム、コンポーネント、および/もしくは応用と関係する他の任意の機能を含むことができる。ある実施形態では、複数の文法要素のサブセットが車両機能の各々と関係することができる。例えば、文法要素の比較的小さい語彙は、各機能と関係することができる。
本開示の一態様によれば、ユーザー入力を識別することができ、所望の車両機能を選択するために評価することができる。この点に関して、選択された機能と関係する文法要素は、複数の文法要素のサブセットであってもよく(または、別々に記憶してもよく、および/または任意の数の好適なデータソースから取得してもよく)、これらを識別することができる。多種多様な異なるタイプのユーザー入力は、様々な実施形態において所望するように識別することができる。ユーザー入力は、ユーザージェスチャ、入力要素に対するユーザー近接、および/または入力要素のユーザー選択を含むが、これらに限定されない。例えば、関心のある対象物(例えばユーザーの手など)の画像を収集するために、画像キャプチャデバイス(例えばカメラなど)を利用することができ、ユーザーによって成されたジェスチャを識別するために、収集した画像を評価し、および/または処理することができる。多種多様な異なるタイプのジェスチャは、例えば、手の動き(例えば、完全な手の動き、指の動きなど)と関係するジェスチャ、および/または車両内の定められた関心領域の指示(例えば、接触、近接、指さしなど)と関係するジェスチャであって、所望するように識別することができる。それから、少なくとも部分的にはジェスチャの評価に基づいて、所望の機能を識別または選択することができる。別の例として、ユーザー(例えば、ユーザーの手など)が入力要素(例えば、スイッチ、ボタン、ノブ、入力領域など)にいつ近接するかを判定するために、1つまたは複数の近接検出器および/または近接センサを利用することができる。そして、判定された近接に基づいて、所望の機能を識別または選択することができる。さらに別の例として、入力要素(例えば、スイッチ、ノブなど)のユーザー選択を識別し、入力要素と関係する機能を識別または選択するために利用することができる。
一旦所望の機能が識別されると、機能と関係する文法要素のセットを、受け取った音声入力(例えばスピーチ入力)を処理するために利用することができる。音声入力は、1つまたは複数のマイクロホンなどの任意の数の好適な音声キャプチャデバイスによって収集することができる。ある実施形態では、音声入力の収集または取込みは、少なくとも部分的には識別されたユーザー入力に基づいて開始することができる。例えば、入力要素選択またはジェスチャが識別される(または、ジェスチャの開始が識別される)と、マイクロホンをオンにすることができる。他の実施形態では、識別されたユーザー入力を、関連する収集した音声入力を識別するために利用することができる。例えば、最近収集した音声入力を記憶するために、バッファを利用することができる。一旦、ユーザー入力が識別されると、ユーザー入力の直前に、その間に、および/またはその直後に取り込まれた音声入力が識別され得る。いずれの場合でも、収集した音声は、識別された機能と関係する文法要素を利用して評価することができる。この点に関しては、機能と関係する文法要素(もしくは複数の文法要素)またはコマンドは、収集した音声入力に対応するものとして識別することができる。一旦、文法要素(または複数の文法要素)が音声入力に一致するかまたは対応するものとして識別されると、例えば識別された文法要素の指示または機能と関係する制御信号などの多種多様な好適な情報を出力することができる。例えば、オーディオシステム機能が識別された場合には、「上げる」コマンドを識別して、ラジオの音量を上げるために処理することができる。別の例として、ウィンドウ機能が識別された場合には、「上げる」コマンドを識別して、ウィンドウを閉めるために処理することができる。
さらに、ある実施形態では、ユーザーは、所望のユーザー入力および/または文法要素を様々な機能と関係づけることができる。例えば、新規入力学習機能または指示を識別する(例えば、ユーザー入力に基づいて識別する)ことができ、1つまたは複数のユーザー入力(例えば、ジェスチャ、入力要素に対する近接、入力要素の選択など)を、新規入力学習指示に基づいて追跡することができる。それから、追跡した1つまたは複数のユーザー入力を、例えばユーザーによって選択および/または指定された機能などの所望の機能と関係づけることができる。さらに、所望するように、ユーザーによって提供される音声入力(例えば、話された単語および/またはフレーズなど)を収集し、所望の機能と関係する1つまたは複数の文法要素を生成するために利用することができる。
特定の実施形態について、以下では、添付の図面を参照してより完全に記載しており、添付の図面には様々な実施形態および/または態様を示している。しかし、様々な態様は多くの異なる形式で実現することができ、本明細書に記載される実施形態に限定されるように解釈してはならない。むしろ、これらの実施形態は、本開示が徹底的で完全なものであるように提供されており、当業者に本開示の範囲を完全に伝えるであろう。類似の符号は、全体にわたって類似の要素を示す。
<システムの概要>
図1は、本開示の例示的実施形態による、様々な車両機能をスピーチ入力の目標とするために利用することができる例示的システム100またはアーキテクチャのブロック図である。システム100は、多種多様なハードウェアおよび/または機能コンポーネント、例えばユーザー入力コンポーネント105、選択コンポーネント110、機能に特有の文法115の任意の数のセットまたはクラスタ、音声キャプチャコンポーネント120、スピーチエンジン125、および/または操作コンポーネント130などを含むことができる。これらのコンポーネントの各々は、後でさらに詳細に説明する。さらに、図1のシステム100が、様々なシステム、装置、および/または1つまたは複数のプロセッサによって実行されるコンピュータ可読媒体を含むがこれに限定されない多種多様な好適な形式で実現することができることはいうまでもない。図1に示すシステム100の1つの例示的な詳細な実施形態について、図3を参照して後でさらに詳細に説明する。
図1に示すように、ユーザー入力コンポーネント105は、車両と関係する1つまたは複数のユーザー入力の収集、判定、および/または識別を容易にすることができる。多種多様な異なるタイプのユーザー入力を、所望するように収集および/または識別することができ、ユーザー入力は、ユーザーによって成されたジェスチャ、1つまたは複数の入力要素に対するユーザー近接、および/または1つまたは複数の入力要素(例えば、スイッチ、ノブ、ボタンなどの物理入力要素)のユーザー選択を含むが、これらに限定されない。所望するように、多種多様な好適なユーザー入力収集デバイスは、例えば1つまたは複数の画像キャプチャデバイス、1つまたは複数の近接センサ、および/または1つまたは複数の入力要素などのユーザー入力を収集および/または識別するために、利用することができる。
少なくとも部分的にはユーザー入力コンポーネント105によって収集および/または判定される情報の評価に基づいて、選択コンポーネント110は、車両と関係する機能を識別または判定することができる。それから、多種多様な機能に特有の情報は、選択コンポーネント110によって識別および/または選択することができる。例えば、機能と関係する文法要素(例えば、ボイスコマンドなど)のセットを選択することができる。ある実施形態では、機能と関係する機能に特有の文法115のセットまたはクラスタを選択することができる。この点に関しては、所望の機能と関係する文法要素を音声認識の目標とするために、受け取ったユーザー入力を利用することができる。
ユーザーと関係する音声入力を収集し、または取り込むために、音声キャプチャコンポーネント120を利用することができる。例えば、ユーザーによって話されたボイスコマンド(例えば、単語、フレーズなど)を含む音声信号を収集するために、マイクロホンを利用することができる。スピーチエンジン125は、音声入力を受け取って、選択されたまたは所望の機能と関係する文法要素を利用して受け取った音声入力を評価することができる。この点に関しては、スピーチエンジン125は、選択された機能と関係する文法要素またはボイスコマンドを識別することができる。ユーザーによって話された文法要素またはボイスコマンドを識別するために、多種多様な好適な音声認識アルゴリズムおよび/または技術を、所望するように利用することができる。さらに、一旦文法要素が識別されれば、多種多様な好適な出力、命令、および/または制御操作を行うことができる。例えば、操作コンポーネント130は、選択された機能と関係するいかなる数の車両応用および/またはコンポーネントに提供される1つまたは複数の制御信号を生成することができる。別の例として、操作コンポーネント130は、受け取って識別したボイスコマンドを、選択された機能と関係するアプリケーションによって処理することができるフォーマットに変換することができる。
図2は、目標とする音声認識と関係するユーザー入力を取得するための例示的技術を示す簡略化した概略図200である。図2を参照すると、ユーザーの手205、車両オーディオ制御パネル210、および車両空調制御パネル215が表されている。車両オーディオ制御パネル210は1つまたは複数の音声制御機能性と関係することができ、車両空調制御パネル215は1つまたは複数の空調制御機能性と関係することができる。所望するように、制御パネル210、215の各々は、様々なノブ、ボタン、スイッチ、および/またはタッチスクリーンディスプレイなどの任意の数の物理入力要素を含むことができる。他の実施形態では、制御パネルの各々は、ユーザーの手205(または他の対象物)の近接を検出するように構成される1つまたは複数の近接センサを含む、またはそれと関係することができる。さらに他の実施形態では、制御パネル(および/またはそれらの基礎となる機能)の各々は、車両内の1つまたは複数の指定された入力領域と関係することができる。例えば、ダッシュボード、コンソール、または車両内の他の場所の指定された入力領域は、音声制御と関係することができる。ある実施形態では、指定された入力領域は、1つまたは複数の近接センサを含むことができる。
制御パネル210、215および/またはそれらの基礎となる機能と関係するユーザー入力を識別し、収集し、および/または取得するために、多種多様な好適な方法または技術を、所望するように利用することができる。例えば、制御パネルまたは基礎となる機能を表すジェスチャを識別するために、ユーザーの手の動作を追跡することができる。多種多様な異なるタイプのジェスチャを識別することができる。一例として、オーディオ制御機能と関係する所定の動作(または一連の動作)は、手205および/または指の動きに基づいて識別することができる。別の例として、ユーザーは制御パネルまたは関係する入力領域を指さすことができ、その指さしはジェスチャとして識別することができる。さらに別の例として、手205と制御パネルまたは関係する入力領域との間の近接は、画像データの評価に基づいてジェスチャとして識別することができる。制御パネル210、215の1つと関係する機能などの所望の基礎となる機能を選択するために、識別されたジェスチャのいずれかを評価することができる。
別の例示的ユーザー入力として、ユーザーの手205と制御パネルおよび/または制御パネルと関係する入力要素(例えば、物理入力要素、入力領域など)との間の近接を検出および/または判定するために、1つまたは複数の近接センサを利用することができる。それから、所望の機能は、少なくとも部分的には判定された近接の評価に基づいて選択することができる。例えば、オーディオ制御機能は、ユーザーの手205と車両オーディオ制御パネル210との間の判定された近接に基づいて選択することができる。別の例として、オーディオチューニング機能(例えば、ラジオチューニング、衛星ラジオチューニングなど)は、ユーザーの手205と車両オーディオ制御パネル210と関係するチューニング入力要素(例えばチューニングノブなど)との間の判定された近接に基づいて選択することができる。実際、ユーザー入力の記載したタイプのいずれかを用いて、ある機能に適用可能な文法要素のサブセットを、様々な程度の特殊性によって識別することができる。
さらに別の例示的ユーザー入力として、1つまたは複数の物理入力要素(例えば、ノブ、ボタン、スイッチ、および/または1つもしくは複数のタッチスクリーンディスプレイの要素)を選択するために、ユーザーは自分の手を利用することができる。それから、所望の機能を、少なくとも部分的には選択された物理入力要素に基づいて選択することができる。例えば、車両オーディオ制御パネル210と関係する1つまたは複数の入力要素が選択される場合には、オーディオ制御機能が選択され得る。別の例として、例えば音量入力要素220などの特定の選択された入力要素を識別することができ、選択された入力要素(例えば音量調整機能など)と関係する機能を識別することができる。あるいは、より高いレベルの機能と関係する文法要素は、選択された入力要素と関係する特定の低いレベルの機能に重み付けされてもよい。例えば、音量入力要素220が選択される場合には、オーディオ制御機能を選択することができる。しかし、オーディオ制御機能性と関係する文法要素の識別されたセットが識別されるが、特定のコマンドが音量制御に重み付けされてもよい。例えば、「上げる」というコマンド受け取ると、オーディオの音量を上げることができる。しかし、依然として非音量音声コマンドが処理される。別の例として、チューニング入力要素が選択された場合には、「上げる」というコマンド受け取ると、オーディオコンポーネントを上方にチューニングすることができる。
図2を参照して上述した方法および/または技術は、例としてのみ提供するものである。多種多様な他のタイプのユーザー入力および/またはユーザー入力の様々な組合せを識別し、音声認識を目標とするために利用することができる。
図3は、本開示の様々な実施形態において利用することができる例示的音声認識システム300またはアーキテクチャのブロック図である。ある実施形態では、音声認識システム300は、音声認識システムとして実装または実現することができる。他の実施形態では、音声認識システム300は、例えば車両と関係する車内情報エンターテイメント(「IVI」)システムなどの別のシステムまたはデバイスのコンポーネントとして実装または実現することができる。さらに他の実施形態では、1つまたは複数の好適なコンピュータ可読媒体を、ユーザー入力および/またはスピーチ入力を処理するために提供することができる。これらのコンピュータ可読媒体は、ユーザー入力および/または関係するスピーチ入力を処理するために、1つまたは複数の処理デバイスによって実行されるコンピュータ実行可能命令を含むことができる。本明細書において、「コンピュータ可読媒体」という用語は、様々な種類の記憶デバイス(例えば、磁気的、光学的、静的なものなど)を含む、任意の形式で情報を保持するための好適なメモリまたはメモリデバイスの任意の形式を意味する。実際、本開示の様々な実施形態は、多種多様な好適な形式で実装することができる。
所望するように、音声認識システム300は、ユーザー入力および/または関係するスピーチ入力を処理するための好適なハードウェアおよび/またはソフトウェアと関係する任意の数の好適なコンピューティングデバイスを含むことができる。これらのコンピューティングデバイスは、データを処理し、コンピュータ実行可能命令を実行するための任意の数のプロセッサ、ならびに周知の技術である他の内部および周辺コンポーネントを含むこともできる。さらに、これらのコンピューティングデバイスは、データおよび/またはコンピュータ実行可能命令を記憶するように動作可能な任意の数の好適なメモリデバイスを含むことができるか、あるいはそれらと通信することができる。コンピュータ実行可能命令を実行することによって、様々な車両機能を目標とするスピーチ入力のための専用コンピュータまたは特別なマシンを形成することができる。
図3を参照すると、音声認識システム300は、1つまたは複数のプロセッサ305およびメモリデバイス310(一般にメモリ310と呼ばれる)を含むことができる。さらに、システムは、例えば任意の数の入力/出力(「I/O」)デバイス315、任意の数の車両音声キャプチャデバイス320(例えば、マイクロホン)、および/または任意の数の好適な車両アプリケーション325などの、プロセッサ305と通信する任意の数の他のコンポーネントを含むことができる。I/Oデバイス315は、例えば1つまたは複数の画像キャプチャデバイスもしくは画像センサ330、任意の数の近接センサ335、および/または任意の数の入力要素340(例えば、ボタン、ノブ、スイッチ、タッチスクリーンディスプレイなど)などの、音声認識を目標とするために利用されるユーザー入力を取り込むために利用される任意の好適なデバイスおよび/またはコンポーネントを含むことができる。さらに、所望するように、I/Oデバイス315は、例えば1つまたは複数のディスプレイデバイスなどの、ユーザーとの対話を容易にする多種多様な他のコンポーネントを含むことができる。
プロセッサ305は、例えば中央処理ユニット(「CPU」)、デジタル信号プロセッサ(「DSP」)、縮小命令セットコンピュータ(「RISC」)、複合命令セットコンピュータ(「CISC」)、マイクロプロセッサ、マイクロコントローラ、フィールドプログラマブルゲートアレイ(「FPGA」)、またはそれらの任意の組み合わせなどの、任意の数の好適な処理デバイスを含むことができる。所望するように、プロセッサ305と音声認識システム300の他のコンポーネントの1つまたは複数との間の通信を制御するために、チップセット(図示せず)を設けることができる。一実施形態では、音声認識システム300はインテル(登録商標)のアーキテクチャシステムに基づいてもよく、プロセッサ305およびチップセットは、例えばインテル(登録商標)のAtom(登録商標)プロセッサファミリーなどの、インテル(登録商標)のプロセッサおよびチップセットのファミリーから採用してもよい。プロセッサ305は、特定のデータ処理機能またはタスクを扱うための1つもしくは複数の特定用途向け集積回路(「ASIC」)または特定用途向け標準製品(「ASSP」)の一部として、1つまたは複数のプロセッサを含むこともできる。さらに、任意の数の好適なI/Oインターフェースおよび/または通信インターフェース(例えば、ネットワークインターフェース、データバスインターフェースなど)は、プロセッサ305間および/または音声認識システム300の他のコンポーネント間の通信を容易にすることができる。
メモリ310は、任意の数の好適なメモリデバイスを含むことができ、これらのメモリデバイスとしては、例えばキャッシュ、読出し専用メモリデバイス、ランダムアクセスメモリ(「RAM」)、ダイナミックRAM(「DRAM」)、スタティックRAM(「SRAM」)、同期式ダイナミックRAM(「SDRAM」)、ダブルデータレート(「DDR」)SDRAM(「DDR SDRAM」)、ラムバスDRAM(「RDRAM」)、フラッシュメモリデバイス、電気的消去可能なプログラム可能読出し専用メモリ(「EEPROM」)、不揮発性RAM(「NVRAM」)、汎用シリアルバス(「USB」)着脱可能メモリ、磁気記憶デバイス、着脱可能記憶デバイス(例えばメモリーカードなど)、および/または取り外し不可能な記憶デバイスなどがある。要望に応じて、メモリ310は、内部メモリデバイスおよび/または音声認識システム300と通信する外部メモリデバイスを含むことができる。メモリ310は、プロセッサ305によって利用されるデータ、実行命令、および/または様々なプログラムモジュールを記憶することができる。メモリ310によって記憶することができるデータの例としては、データファイル342、文法要素と関係する情報(文法要素情報)344、1つもしくは複数のユーザープロファイル346と関係する情報、ならびに/またはプロセッサ305によって実行することができる任意の数の好適なプログラムモジュールおよび/もしくはアプリケーション、例えばオペレーティングシステム(「OS」)348、1つまたは複数の入力処理モジュール350、および/または1つまたは複数の音声認識モジュール352などが挙げられる。
データファイル342は、音声認識システム300の動作、ユーザー入力の識別および処理、ならびに/またはスピーチ入力の処理を容易にする任意の好適なデータを含むことができる。例えば、記憶されたデータファイル342は、ユーザーの識別と関係する情報、車両機能と関係する情報、車両機能のためのそれぞれの文法要素と関係する情報、様々なタイプのユーザー入力の識別と関係する情報、車両アプリケーション325と関係する情報、ならびに/または多種多様な他の車両および/もしくは音声認識と関係する情報を含むことができるが、これらに限定されない。文法要素情報344は、音声認識モジュール352によって認識することができる複数の異なる文法要素(例えば、コマンド、スピーチ入力など)と関係する多種多様な情報を含むことができる。例えば、文法要素情報344は、任意の数の機能と関係する複数の文法要素を含むことができる。複数の文法要素は、様々な機能と関係する任意の数のサブセットに分類することができる。ユーザープロファイル346は、様々なユーザー(例えば、車両の様々なドライバなど)と関係する多種多様なユーザーの好みおよび/またはパラメータを含むことができ、これらは1つまたは複数のユーザーの識別情報、スピーチ入力の処理と関係するユーザーの好み、様々な機能と関係する文法要素と関係するユーザーの好み、および/または様々な機能と関係する入力と関係するユーザーの好みを含むが、これらに限定されない。
OS348は、音声認識システム300の一般的な動作、ならびに例えば入力処理モジュール350および/または音声認識モジュール352などの他のプログラムモジュールの実行を容易にする好適なモジュールまたはアプリケーションであってもよい。入力処理モジュール350は、ユーザー入力の識別および/または少なくとも部分的にはユーザー入力に基づく機能の選択を容易にする任意の数の好適なソフトウェアモジュールおよび/またはアプリケーションを含むことができる。動作において、入力処理モジュール350は、ユーザー入力データならびに/または1つもしくは複数のI/Oデバイス315からのデータ、例えば測定データ、画像データ、および/または選択された入力要素と関係するデータなどを受け取ることができる。要望に応じて、入力処理モジュール350は、ユーザー入力と関係する機能を識別するために、受け取ったデータを評価することができる。この点に関しては、機能と関係する文法要素を、識別しおよび/または判定することができる。さらに、機能の識別を、音声認識モジュール352に提供することができる。この点に関しては、機能に特有の文法要素は受け取った音声入力に関連して評価することができ、目標とする音声認識を実行することができる。
多種多様な異なるタイプのユーザー入力は、入力処理モジュール350によって、様々な実施形態において所望するように識別することができ、ユーザー入力は、ユーザージェスチャ、入力要素に対するユーザー近接、および/または入力要素のユーザー選択を含むが、これらに限定されない。例えば、関心のある対象物(例えばユーザーの手など)の画像を収集するために、画像センサ330(例えばカメラなど)を利用することができ、ユーザーによって成されたジェスチャを識別するために、収集した画像を入力処理モジュール350によって評価し、および/または処理することができる。多種多様な異なるタイプのジェスチャは、例えば、手の動き(例えば、完全な手の動き、指の動きなど)と関係するジェスチャ、および/または車両内の定められた関心領域の指示(例えば、接触、近接、指さしなど)と関係するジェスチャであって、所望するように識別することができる。それから、少なくとも部分的にはジェスチャの評価に基づいて、所望の機能を識別または選択することができる。別の例として、ユーザー(例えば、ユーザーの手など)が入力要素(例えば、スイッチ、ボタン、ノブ、入力領域など)にいつ近接するかを判定するために、1つまたは複数の近接センサ335を利用することができる。そして、判定された近接に基づいて、所望の機能を識別または選択することができる。さらに別の例として、1つまたは複数の入力要素340(例えば、スイッチ、ノブなど)のユーザー選択を識別し、1つまたは複数の入力要素340と関係する機能を識別または選択するために利用することができる。
音声認識モジュール352は、受け取ったスピーチ入力の処理を容易にする任意の数の好適なソフトウェアモジュールおよび/またはアプリケーションを含むことができる。動作において、音声認識モジュール352は、例えばユーザー入力の評価に基づいて選択された機能などの車両機能と関係する適用可能な文法要素を識別することができる。ある実施形態では、ある機能に適用可能な文法要素は、音声認識モジュール352による処理が利用できる複数の文法要素のサブセットであってもよい。さらに、文法要素は、例えば内部メモリおよび/または任意の数の外部デバイス(例えば、ネットワークサーバー、クラウドサーバー、ユーザーデバイスなど)などの多種多様な好適なソースからアクセスし、および/または取得することができる。
一旦音声入力またはスピーチ入力を処理のために受け取ると、受け取ったスピーチ入力と文法要素との間の対応関係を判定または識別するために、音声認識モジュール352は機能に特有の文法要素を考慮してスピーチ入力を評価することができる。一旦、文法要素(または複数の文法要素)がスピーチ入力に一致するものとして識別されると、音声認識モジュール352は、文法要素と関係する多種多様な情報を生成し、および/または出力することができる。例えば、識別された文法要素は、実行する車両アプリケーション325に提供される入力に変換することができる。この点に関しては、ボイスコマンドを識別して、車両に関連するアプリケーション325に送ることができる。別の例として、車両アプリケーション325、車両システム、および/または車両コンポーネントに提供される1つまたは複数の制御信号および/またはコマンドを生成するために、識別された文法要素を処理することができる。ある実施形態では、ユーザーに提示するための出力情報(例えば、音声出力情報、ディスプレイ情報、通信用メッセージなど)を生成するために、認識されたスピーチ入力を処理することができる。例えば、ボイスコマンドの認識および/または処理と関係する音声出力を生成し出力することができる。別の例として、ボイスコマンドの処理に基づいて、視覚的ディスプレイを更新することができる。
所望するように、入力処理モジュール350および/または音声認識モジュール352は、任意の数の好適なモジュールとして実装することができる。あるいは、単一モジュールが、入力処理モジュール350および音声認識モジュール352の両方の機能を実行することができる。入力処理モジュール350および/または音声認識モジュール352のいくつかの動作の例は、図4〜図7を参照して後でさらに詳細に説明する。
図3の参照を続けると、I/Oデバイス315は、プロセッサ305および/または入力処理モジュール350に提供される情報の収集を容易にする任意の数の好適なデバイスおよび/またはコンポーネントを含むことができる。好適な入力デバイスの例としては、1つまたは複数の画像センサ330または画像収集デバイス(例えばカメラなど)、任意の数の近接センサ335、任意の数の好適な入力要素340が挙げられるが、これらに限定されない。所望するように、I/Oデバイス315は、ユーザーに対する情報の出力を容易にする任意の数の好適な出力デバイスをさらに含むことができる。好適な出力デバイスの例としては、1つまたは複数のスピーカーおよび/または1つまたは複数のディスプレイを含むが、これらに限定されない。ディスプレイは、例えば液晶ディスプレイ(「LCD」)、発光ダイオード(「LED」)ディスプレイ、有機発光ダイオード(「OLED」)ディスプレイ、および/またはタッチスクリーンディスプレイなどの任意の数の好適なディスプレイデバイスが挙げられる。他の好適な入力および/または出力ディスプレイを、所望するように利用することができる。
画像センサ330は、例えばカメラ、電荷結合デバイス(「CCD」)、相補型金属酸化物半導体(「CMOS」)センサなどの、光学像を電子信号に変換する任意の既知のデバイスを含むことができる。動作において、画像センサ330によって収集されたデータは、多種多様な好適な情報を判定または識別するために処理することができる。例えば、ユーザーを識別し、ユーザーの指示を検出し、および/またはユーザーのジェスチャを検出するために、画像データを評価することができる。
近接センサ335は、例えばユーザーの手などの近くの対象物の存在を検出するように構成される任意の既知のデバイスを含むことができる。ある実施形態では、対象物と近接センサとの間にいかなる物理的接触がなくても、存在を検出することができる。ある近接センサ335は、電磁場または電磁放射(例えば赤外線など)のビームを放射することができる。それから、対象物の存在および/または近接を識別するために、放射された電磁場の変化および/または帰還信号の識別を判定し、利用することができる。さらに、所望するように、近接センサ335は、対象物または目標の検出と関係する任意の好適な公称範囲と関係づけることができる。
入力要素340は、ユーザー入力、およびユーザー入力の受け取りと関係する任意の数の定められた入力領域を受け取るように構成される任意の数の好適な物理コンポーネントおよび/またはデバイスを含むことができる。好適な物理入力要素の例としては、ボタン、ノブ、スイッチ、タッチスクリーン、容量検知素子などが挙げられるが、これらに限定されない。ユーザーによる操作および/または選択に応じて、物理入力要素は、評価のために入力処理モジュール350に直接または間接に提供されるデータ(例えば電気信号など)を生成することができる。あるいは、ユーザー選択と関係する識別情報(例えば、選択された入力要素および/または関係する機能の識別など)を、入力処理モジュール350に提供することができる。入力領域は、機能と関係する車両内の好適な領域または関心領域であってもよい。例えば、ダッシュボード、コンソール、または車両内の他の場所の指定された入力領域は、様々な機能と関係することができる。ある実施形態では、入力領域と関係するジェスチャ(例えば、入力領域に対するユーザーの指さし、入力領域に近接したユーザーの動きなど)は、入力領域と関係する機能を選択するために、識別し、評価することができる。他の実施形態では、指定された入力領域は、1つまたは複数の近接センサを含むことができる。
車両音声キャプチャデバイス320は、例えば話された単語および/またはフレーズなどの音声信号および/または音声入力を取り込むための、例えばマイクロホンなどの任意の数の好適なデバイスを含むことができる。車両音声キャプチャデバイス320は、任意の既知のタイプのマイクロホンを含むことができ、それらはコンデンサマイクロホン、ダイナミックマイクロホン、容量ダイアフラムマイクロホン、圧電マイクロホン、光ピックアップマイクロホン、および/またはそれらの様々な組み合わせを含むが、これらに限定されない。動作において、車両音声キャプチャデバイス320は、音波および/または圧力波を収集し、評価のためにプロセッサ305および/または音声認識モジュール352に収集した音声データ(例えばボイスデータ)を提供することができる。この点に関しては、様々なスピーチ入力を認識することができる。さらに、ある実施形態では、収集したボイスデータは、1人または複数のユーザーを識別するために、記憶されたプロファイル情報と比較することができる。
図3の参照を続けると、任意の数の車両アプリケーション325を、音声認識システム300と関係づけることができる。所望するように、認識されたスピーチ入力と関係する情報を、車両アプリケーション325に提供することができる。ある実施形態では、車両アプリケーション325の1つまたは複数は、プロセッサ305によって実行することができる。所望するように、車両アプリケーション325の1つまたは複数は、プロセッサ305と通信する(例えばネットワーク通信)他の処理デバイスによって実行することができる。例示的な車両の実施形態では、車両アプリケーション325は、車両と関係する任意の数の車両アプリケーションを含むことができ、それらは1つもしくは複数の車両制御アプリケーション、空調制御アプリケーション、オーディオシステムアプリケーション、ウィンドウ(例えば、ウィンドウ、サンルーフなど)制御アプリケーション、座席制御アプリケーション、ディスプレイ制御アプリケーション、ナビゲーション制御アプリケーション、ウェブもしくは他のネットワークアプリケーション、通信制御アプリケーション、メンテナンスアプリケーション、ユーザーデバイスおよび/もしくは他の車両との通信を管理するアプリケーション、車両パラメータをモニタするアプリケーション、ならびに/または他の任意の好適なアプリケーションを含むが、これらに限定されない。
図3を参照して上述した音声認識システム300またはアーキテクチャは、例としてのみ提供するものである。所望するように、多種多様な他のシステムおよび/またはアーキテクチャを、スピーチ入力の目標とする処理を実行するために利用することができる。これらのシステムおよび/またはアーキテクチャは、図3に示したものと異なるコンポーネントおよび/またはコンポーネントの配置を含むことができる。
<動作の概要>
図4は、車両機能を音声認識の目標とするためにユーザー入力を評価するための例示的方法400のフローチャートである。ある実施形態では、方法400の動作は、例えば、図3に示す音声認識システム300および/または関係する入力処理モジュール350および/または音声認識モジュール352などの、好適な音声認識システムおよび/または1つもしくは複数の関係するモジュールおよび/またはアプリケーションによって実行することができる。方法400はブロック405から開始することができる。
ブロック405では、複数の車両機能および/またはアプリケーションのための任意の数のそれぞれの可聴コマンドと関係する文法要素を記憶することができる。あるいは、文法要素のソースを識別することができる。ある実施形態では、文法要素のそれぞれのサブセットを、様々な車両機能および/またはアプリケーションと関係づけることができる。さらに、ある実施形態では、多種多様な異なるタイプの構成情報を、文法要素の構成および/または文法要素と関係する音声認識の間に考慮することができる。例えば、車両の1人または複数のユーザー(例えばドライバ)を識別することができ、1人または複数のユーザーについてのユーザープロファイル情報を取得することができる。ユーザーに特有の文法要素および/または様々な機能と関係する入力(例えば、ジェスチャ、入力要素識別、入力要素選択など)を識別するために、ユーザープロファイル情報を利用することができる。
所望するように、多種多様な好適な方法および/または技術を、ユーザーを識別するために利用することができる。例えば、ユーザーのボイスサンプルを収集し、記憶されたボイスサンプルと比較することができる。別の例として、ユーザーの画像データを収集し、好適な顔認識技術を利用して評価することができる。別の例として、他のバイオメトリック入力(例えば指紋など)を、ユーザーを識別するために評価することができる。さらに別の例として、車両とユーザーデバイス(例えばモバイルデバイスなど)との間のペアを判定することに基づいて、および/またはユーザーによって入力されたユーザー識別情報(例えば個人識別番号など)の受け取りおよび評価に基づいて、ユーザーを識別することができる。
ブロック410では、車両と関係するユーザー入力を受け取りおよび/または識別することができる。多種多様な異なるタイプのユーザー入力を、様々な実施形態において所望するように識別することができる。例えば、ブロック415では、少なくとも部分的には画像センサから受け取った画像データの評価に基づいて、ユーザージェスチャ(例えば、ユーザーの手によって成されるジェスチャ、入力要素などの指示など)を識別することができる。別の例として、ブロック420では、少なくとも部分的には1つまたは複数の近接センサから受け取ったデータに基づいて、入力要素(例えば、物理入力要素、入力領域など)に対するユーザー(例えばユーザーの手など)の近接を判定することができる。さらに別の例として、ブロック425では、1つまたは複数の入力要素(例えば物理入力要素)のユーザー選択を識別することができる。
ブロック430では、少なくとも部分的には識別されたユーザー入力の評価に基づいて、車両機能を選択または識別することができる。それから、ブロック435では、選択された機能と関係する文法要素のサブセットを識別することができる。ある実施形態では、機能のための文法要素のサブセットは、少なくとも部分的にはユーザー入力に基づいて削減することができる。例えば、ユーザー入力がオーディオシステムの音量を変えることと関係する場合には、その機能は音声制御文法要素と関係する音声制御機能として識別することができる。ユーザー入力が音量制御と関係するという判定に基づいて、音声制御文法要素を音量制御文法要素に限定することができる。他の実施形態では、選択された機能と関係する文法要素のサブセットは、受け取ったユーザー入力に基づいて、バイアスされ、および/または重み付けされ得る。音声制御機能の上記の例を用いて、音声制御文法要素を選択し、音量制御にバイアスすることができる。
ブロック440では、音声入力を、任意の数の好適な音声収集デバイス(例えばマイクロホン)から受け取ることができる。ある実施形態では、少なくとも部分的には識別されたユーザー入力に基づいて、音声入力の収集を開始することができる。例えば、機能が選択されると、マイクロホンをオンにする、または起動することができる。他の実施形態では、関連する収集した音声入力を識別するために、識別されたユーザー入力を利用することができる。例えば、最近収集した音声入力を記憶するために、バッファを利用することができる。一旦、ユーザー入力が識別されると、ユーザー入力の直前に、その間に、および/またはその直後に取り込まれた音声入力を処理のために識別することができる。いずれの場合でも、ブロック445では、収集した音声は、識別された機能と関係する文法要素を利用して評価することができる。この点に関しては、識別された機能と関係する文法要素(もしくは複数の文法要素)またはコマンドは、収集した音声入力に対応するものとして識別することができる。
ブロック450では、一旦、機能と関係する文法要素(または複数の文法要素)が音声入力に一致するかまたは対応するものとして識別されると、例えば識別された文法要素の表示または機能と関係する制御信号などの、文法要素と関係する多種多様な好適な情報を出力することができる。例えば、オーディオシステム機能が識別された場合には、「上げる」コマンドを識別して、ラジオの音量を上げるために処理することができる。別の例として、ウィンドウ機能が識別された場合には、「上げる」コマンドを識別して、ウィンドウを閉めるために処理することができる。さらに別の例として、座席制御機能が識別された場合、「より堅い」、「より柔らかい」、または「より多くのランバーサポート」コマンドを、座席制御を調整するために処理することができる。実際、多種多様な好適なコマンドは、様々な車両機能について処理することができる。方法400は、ブロック450の後、終了することができる。
図5は、音声認識の目標と関係するジェスチャを識別するための例示的方法500のフローチャートである。方法500は、受け取った音声入力のその後の評価だけでなく、図4に示すブロック415の動作の1つの例示的な実装を示す。このように、方法500の動作は、例えば、図3に示す音声認識システム300および/または関係する入力処理モジュール350および/または音声認識モジュール352などの、好適な音声認識システムおよび/または1つもしくは複数の関係するモジュールおよび/またはアプリケーションによって実行することができる。方法500は、ブロック505から開始することができる。
ブロック505では、ジェスチャ認識のために関心のある対象物を識別することができる。例えば、任意の数の好適な画像認識技術を利用している1つまたは複数の画像センサによって収集された画像データの評価に基づいて、ユーザーの手(例えばドライバの手など)を識別することができる。ブロック510では、関心のある識別された対象物と関係する画像データを受け取ることができる。例えば、画像センサは関心のある対象物の動きと関係する画像を取り込むことができ、取り込んだ画像を処理のために受け取ることができる。あるいは、画像センサは取り込んだ画像を処理することができ、実行された処理と関係する情報(例えば、識別されたジェスチャと関係する情報など)を受け取ることができる。
ブロック515では、関心のある対象物と関係するジェスチャを識別することができる。多種多様な異なるタイプのジェスチャは、本発明の様々な実施形態において所望するように識別することができる。例えば、ブロック520では、ジェスチャを識別するために、関心のある対象物の動きを追跡し評価することができる。この動きは、例えば、ユーザーの任意の数の動きおよび/または対象物の配置など(例えば、サンルーフの制御を示す前後の動き、ウィンドウの制御を示す上下の動き、オーディオシステムまたは空調制御システムの制御と関係する一連の動きおよび/または手の配置など)である。別の例として、ブロック525では、関心のある領域または対象物に対する対象物の近接および/またはそれらの指示を識別することができる。例えば、入力要素または他の対象物に対するユーザーの指さし(例えば、ウィンドウに対する指さし、オーディオ制御パネルに対する指さし、入力領域などに対する指さし)、あるいはユーザーが入力要素もしくは他の対象物の近くの位置に関心のある対象物を配置するかまたはそれにさわることなどを識別することができる。
ブロック530では、識別されたジェスチャと関係する機能を識別し、または判定することができる。この点に関しては、機能と関係する文法要素を識別し、および/またはそれにアクセスすることができる。さらに、ブロック535では、音声の取り込みを開始し、および/または評価することができる。そして、ブロック540では、機能と関係するボイスコマンドを識別し、および/または処理するために、受け取った音声入力を処理することができる。方法は、ブロック540の後、終了することができる。
図6は、音声認識の目標と関係する近接情報を識別するための例示的方法のフローチャートである。方法600は、受け取った音声入力のその後の評価だけでなく、図4に示すブロック420の動作の1つの例示的な実装を示す。このように、方法600の動作は、例えば、図3に示す音声認識システム300および/または関係する入力処理モジュール350および/または音声認識モジュール352などの、好適な音声認識システムおよび/または1つもしくは複数の関係するモジュールおよび/またはアプリケーションによって実行することができる。方法600は、ブロック605から開始することができる。
ブロック605では、ユーザーおよび/またはユーザーと関係する対象物(例えば、ユーザーの手、ユーザーの指など)の、入力要素(例えば、物理入力要素、入力領域など)に対する近接を、任意の数の好適な近接センサを利用して検出することができる。ブロック610では、入力要素と関係する機能を識別し、または判定することができる。この点に関しては、機能と関係する文法要素を識別し、および/またはそれにアクセスすることができる。さらに、ブロック615では、音声の取り込みを開始し、および/または評価することができる。そして、ブロック620では、機能と関係するボイスコマンドを識別し、および/または処理するために、受け取った音声入力を処理することができる。方法600は、ブロック620の後、終了することができる。
図7は、ユーザー入力を音声認識のための文法要素と関係づけるための例示的方法700のフローチャートである。ある実施形態では、方法700の動作は、例えば、図3に示す音声認識システム300および/または関係する入力処理モジュール350および/または音声認識モジュール352などの、好適な音声認識システムおよび/または1つもしくは複数の関係するモジュールおよび/またはアプリケーションによって実行することができる。方法700は、ブロック705から開始することができる。
ブロック705では、学習指示を識別することができる。例えば、新規入力学習機能または指示を、受け取ったユーザー入力(例えば、学習ジェスチャ、ボイスコマンド、関係する入力要素の選択など)に基づいて識別することができる。ある実施形態では、学習指示は、指定された機能に関係して識別することができる。他の実施形態では、学習指示を識別することができ、続いて機能を指定し、選択し、または定義することができる。一旦学習指示が識別されると、学習モードに入ることができる。
ブロック710では、1つまたは複数のユーザー入力(例えば、ジェスチャ、入力要素に対する近接、入力要素の選択など)を追跡し、および/または識別することができる。それから、ブロック715では、追跡した1つまたは複数のユーザー入力を、例えばユーザーによって選択および/または指定された機能などの所望の機能と関係づけることができる。この点に関しては、ユーザーは、目標とする音声認識のための特別の機能の選択と関係するユーザー入力を定義し、または特定することができる。
さらに、ある実施形態では、ブロック720で、ユーザーに対して、機能と関係する音声入力のためのプロンプトを出すことができる。この点に関しては、機能のための文法要素を修正することができ、および/または、機能のための新規な文法要素を定めることができる。音声入力のためのプロンプトを出した後、ブロック725では、音声データを受け取ることができる(例えば、1つまたは複数の好適な音声キャプチャデバイスなどから収集する)。ブロック730では、受け取った音声データの少なくとも一部は、機能のための文法要素(例えば、修正される文法要素、新規な文法要素など)と関係づけることができる。実際、様々な実施形態において所望するように、多種多様なカスタマイズをユーザーのために実行することができる。方法700の動作は、ブロック730の後、終了することができる。
図4〜図7の方法400、500、600、および700に記載し示した動作は、本発明の様々な実施形態において所望するように、任意の好適な順序で行い、または実行することができる。さらに、ある実施形態では、動作の少なくとも一部は、並行して行うことができる。さらにまた、ある実施形態では、図4〜図7に記載した動作より少ないかまたはより多くの動作を実行することができる。
本明細書に記載した開示のある実施形態は、少なくとも部分的には受け取ったユーザー入力の評価に基づいて、目標とする音声認識の技術的な効果を有することができる。例えば、車両環境では、ジェスチャ、入力要素の選択、および/またはユーザーによって成された他の入力を、所望の機能を識別するために利用することができ、機能と関係する文法要素を音声認識目的のために識別することができる。その結果、ユーザーがスピーチコマンドの階層構造の中を移動することなく、比較的効率的で直観的な音声認識を実行することができる。
本開示のある態様について、例示的実施形態によるシステム、方法、装置、および/またはコンピュータプログラム製品のブロックおよびフローチャートを参照して上記に記載している。ブロック図およびフローチャートの1つまたは複数のブロック、ならびにブロック図およびフローチャートのブロックの組合せは、それぞれ、コンピュータ実行可能プログラム命令によって実行することができることが理解されよう。同様に、いくつかの実施形態によれば、ブロック図およびフローチャートのいくつかのブロックは、必ずしも提示された順序で実行する必要があるわけではなく、あるいは必ずしも全て実行する必要があるわけではない。
これらのコンピュータ実行可能プログラム命令は、特定のマシンを生成するために、専用計算機もしくは他の特定のマシン、プロセッサ、または他のプログラム可能なデータ処理装置にロードすることができる。そのようにして、コンピュータ、プロセッサ、または他のプログラム可能なデータ処理装置で実行する命令が、フローチャートの1つまたは複数のブロックで指定される1つまたは複数の機能を実現するための手段を作成する。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置を特定の方法で機能に向けることができるコンピュータ可読メモリに記憶することもできる。そうすると、コンピュータ可読メモリに記憶された命令が、フローチャートの1つまたは複数のブロックで指定される1つまたは複数の機能を実現する命令手段を含む製品を生成する。例えば、ある実施形態は、そこで実行されるコンピュータ可読プログラムコードまたはプログラム命令を有するコンピュータ使用可能媒体を含むコンピュータプログラム製品を提供することができ、コンピュータ可読プログラムコードは、フローチャートの1つまたは複数のブロックで指定される1つまたは複数の機能を実現するために実行されるのに適する。コンピュータプログラム命令は、コンピュータまたは他のプログラム可能な装置において一連の動作要素またはステップを実行して、コンピュータ実行プロセスを生成するために、コンピュータまたは他のプログラム可能なデータ処理装置にロードすることもできる。そのようにして、コンピュータまたは他のプログラム可能な装置で実行する命令が、フローチャートの1つまたは複数のブロックで指定される機能を実現するための要素またはステップを提供する。
したがって、ブロック図およびフローチャートのブロックは、指定された機能を実行するための手段の組合せ、または指定された機能を実行するための要素もしくはステップの組み合わせ、および指定された機能を実行するためのプログラム命令手段をサポートする。ブロック図およびフローチャートの各ブロック、ならびにブロック図およびフローチャートのブロックの組合せは、指定された機能、要素もしくはステップを実行する特別な目的のハードウェアベースのコンピュータシステム、または特別な目的のハードウェアおよびコンピュータ命令の組合せによって実現することができることが理解されよう。
例えば、とりわけ「することができる」または「してもよい」などの条件的言語は、特に明言されるか、あるいは用いられる文脈内で理解されない限り、他の実施形態は含まないが、特定の実施形態が特定の特徴、要素、および/または動作を含み得ることを意味することを一般的に意図している。したがって、このような条件的言語は、一般的には、特徴、要素、および/または動作が1つまたは複数の実施形態のためにいかなる形であれ必要とされることを意味することを意図していないし、あるいは、1つまたは複数の実施形態が、ユーザー入力またはプロンプトの有無にかかわらず、これらの特徴、要素、および/または動作が特定の実施形態に含まれるか、または実行されるかどうかを判定するための論理を必然的に含むことを意図するものでもない。
上述した説明および関連する図面に示した教示によって、本明細書に記載した開示の多くの変形例および他の実施形態が明白になろう。したがって、本開示が開示された特定の実施形態に限定されないこと、ならびに、変形例および他の実施形態が添付の特許請求の範囲に含まれることを意図していることを理解すべきである。本明細書において特定の用語が用いられているが、それらは一般的および記述的な意味でのみ用いられ、限定するためではない。

Claims (30)

  1. 車両のための可聴コマンドと関係する複数の文法要素を記憶する少なくとも1つのメモリと、
    少なくとも1つのマイクロホンと、
    少なくとも1つのユーザー入力キャプチャデバイスと、
    前記少なくとも1つのユーザー入力キャプチャデバイスから受け取った情報に基づいて、前記車両と関係するユーザー入力を識別し、
    少なくとも部分的には前記識別されたユーザー入力の評価に基づいて、前記車両と関係する機能であって前記複数の記憶された文法要素のサブセットと関係する前記機能を選択し、
    前記少なくとも1つのマイクロホンから音声入力を受け取り、
    前記受け取った音声入力の評価に基づいて、前記選択された機能と関係する文法要素を識別し、
    前記識別された文法要素と関係する情報を出力する1つまたは複数のプロセッサと、
    を含む車両。
  2. 前記識別されたユーザー入力は、(i)ユーザージェスチャまたは(ii)入力要素に対するユーザー近接の一方を含む、請求項1に記載の車両。
  3. 前記少なくとも1つの入力キャプチャデバイスは、少なくとも1つの画像キャプチャデバイスを含み、
    前記1つまたは複数のプロセッサは、さらに、前記少なくとも1つの画像キャプチャデバイスから1つまたは複数の画像を受け取って、前記1つまたは複数の画像から前記ユーザージェスチャを判定する、請求項2に記載の車両。
  4. 前記ユーザージェスチャは、少なくとも部分的には(i)手の動きを追跡すること、または(ii)前記車両内の定められた領域に対する手もしくは指の接触もしくは近接を判定すること、の一方に基づいて判定される、請求項2または3に記載の車両。
  5. 前記1つまたは複数のプロセッサは、さらに、前記ユーザー入力の前記識別に基づいて、音声入力の前記受け取りを開始する、請求項1から4のいずれか一項に記載の車両。
  6. 前記出力された情報は、車両制御コマンド、空調制御コマンド、オーディオシステムコマンド、ウィンドウ制御コマンド、座席制御コマンド、ディスプレイ制御コマンド、ウェブコマンド、および通信制御コマンドのうちの1つまたは複数を含む、請求項1から5のいずれか一項に記載の車両。
  7. 前記1つまたは複数のプロセッサは、さらに、
    新規入力学習指示を識別し、
    少なくとも部分的には前記新規入力学習指示を識別することに基づいて、1つまたは複数のユーザー入力を追跡し、
    前記追跡した1つまたは複数のユーザー入力を機能と関係づける、請求項1から6のいずれか一項に記載の車両。
  8. 前記1つまたは複数のプロセッサは、さらに、
    ユーザーが前記機能の制御と関係する文法要素と関係する1つまたは複数の単語を話すためのプロンプトの出力を指示し、
    前記プロンプトに応答して収集された音声データを受け取り、
    前記受け取った音声データの少なくとも一部を前記文法要素と関係づける、請求項7に記載の車両。
  9. 1つまたは複数のプロセッサによって、コンピュータ実行可能命令を実行するステップを含む方法であって、前記方法は、
    車両のための可聴コマンドと関係する複数の文法要素を記憶するステップと、
    前記車両と関係するユーザー入力を識別するステップと、
    少なくとも部分的には前記識別されたユーザー入力の評価に基づいて、前記車両と関係する機能であって前記複数の記憶された文法要素のサブセットと関係する前記機能を選択するステップと、
    前記車両と関係する少なくとも1つの音声キャプチャデバイスからの音声入力を受け取るステップと、
    前記受け取った音声入力の評価に基づいて、前記選択された機能と関係する文法要素を識別するステップと、
    前記識別された文法要素と関係する情報を出力するステップと、
    をさらに含む方法。
  10. ユーザー入力を識別するステップは、(i)ユーザージェスチャまたは(ii)入力要素に対するユーザー近接の一方を識別するステップを含む、請求項9に記載の方法。
  11. ユーザー入力を識別するステップは、
    少なくとも1つの画像キャプチャデバイスから1つまたは複数の画像を受け取るステップと、
    前記1つまたは複数の画像から前記ユーザージェスチャを判定するステップと、
    を含む、請求項10に記載の方法。
  12. 前記ユーザージェスチャを判定するステップは、(i)少なくとも部分的には手の動きを追跡することに基づいて前記ジェスチャを判定するステップ、または(ii)少なくとも部分的には前記車両内の定められた領域に対する手もしくは指の接触もしくは近接に基づいて前記ジェスチャを判定するステップ、の一方を含む、請求項10または11に記載の方法。
  13. 前記ユーザー入力の前記識別に基づいて、音声入力の前記受け取りを開始するステップをさらに含む、請求項9から12のいずれか一項に記載の方法。
  14. 情報を出力するステップは、車両制御コマンド、空調制御コマンド、オーディオシステムコマンド、ウィンドウ制御コマンド、座席制御コマンド、ディスプレイ制御コマンド、ウェブコマンド、および通信制御コマンドのうちの1つまたは複数を出力するステップを含む、請求項9から13のいずれか一項に記載の方法。
  15. 新規入力学習指示を識別するステップと、
    少なくとも部分的には前記新規入力学習指示を識別することに基づいて、1つまたは複数のユーザー入力を追跡するステップと、
    前記追跡した1つまたは複数のユーザー入力を機能と関係づけるステップと、
    をさらに含む、請求項9から14のいずれか一項に記載の方法。
  16. 前記機能の制御と関係する文法要素と関係する1つまたは複数の単語を話すようにユーザーに対してプロンプトを出すステップと、
    前記プロンプトに応答する音声データを受け取るステップと、
    前記受け取った音声データの少なくとも一部を前記文法要素と関係づけるステップと、
    をさらに含む、請求項15に記載の方法。
  17. 1つまたは複数のプロセッサを含む装置であって、
    車両のための可聴コマンドと関係する複数の文法要素を記憶し、
    前記車両と関係するユーザー入力を識別し、
    少なくとも部分的には前記識別されたユーザー入力の評価に基づいて、前記車両と関係する機能であって前記複数の記憶された文法要素のサブセットと関係する前記機能を選択し、
    音声入力を受け取り、
    前記受け取った音声入力の評価に基づいて、前記選択された機能と関係する文法要素を識別し、
    前記識別された文法要素と関係する情報を出力する装置。
  18. 前記識別されたユーザー入力は、(i)ユーザージェスチャまたは(ii)入力要素に対するユーザー近接の一方を含む、請求項17に記載の装置。
  19. さらに、少なくとも1つの画像キャプチャデバイスから1つまたは複数の画像を受け取り、
    前記1つまたは複数の画像から前記ユーザージェスチャを判定する、請求項18に記載の装置。
  20. 前記ユーザージェスチャは、少なくとも部分的には(i)手の動きを追跡すること、または(ii)前記車両内の定められた領域に対する手もしくは指の接触もしくは近接を判定すること、の一方に基づいて判定される、請求項18または19に記載の装置。
  21. さらに、前記ユーザー入力の前記識別に基づいて、音声入力の前記受け取りを開始する、請求項17から20のいずれか一項に記載の装置。
  22. 前記出力された情報は、車両制御コマンド、空調制御コマンド、オーディオシステムコマンド、ウィンドウ制御コマンド、座席制御コマンド、ディスプレイ制御コマンド、ウェブコマンド、および通信制御コマンドのうちの1つまたは複数を含む、請求項17から21のいずれか一項に記載の装置。
  23. さらに、新規入力学習指示を識別し、
    少なくとも部分的には前記新規入力学習指示を識別することに基づいて、1つまたは複数のユーザー入力を追跡し、
    前記追跡した1つまたは複数のユーザー入力を機能と関係づける、請求項17から22のいずれか一項に記載の装置。
  24. コンピュータに、
    車両のための可聴コマンドと関係する複数の記憶された文法要素を識別する手順と、
    前記車両と関係するユーザー入力を識別する手順と、
    少なくとも部分的には前記識別されたユーザー入力の評価に基づいて、前記車両と関係する機能であって前記複数の記憶された文法要素のサブセットと関係する前記機能を選択する手順と、
    音声入力を受け取る手順と、
    前記受け取った音声入力の評価に基づいて、前記選択された機能と関係する文法要素を識別する手順と、
    前記識別された文法要素と関係する情報を出力する手順と、を実行させるためのプログラム。
  25. 前記識別されたユーザー入力は、(i)ユーザージェスチャまたは(ii)入力要素に対するユーザー近接の一方を含む、請求項24に記載のプログラム。
  26. 前記コンピュータにさらに、
    少なくとも1つの画像キャプチャデバイスから1つまたは複数の画像を受け取る手順と、
    前記1つまたは複数の画像から前記ユーザージェスチャを判定する手順と、を実行させるための、請求項25に記載のプログラム。
  27. 前記ユーザージェスチャは、少なくとも部分的には(i)手の動きを追跡すること、または(ii)前記車両内の定められた領域に対する手もしくは指の接触もしくは近接を判定すること、の一方に基づいて判定される、請求項25または26に記載のプログラム。
  28. 前記コンピュータにさらに、前記ユーザー入力の前記識別に基づいて、音声入力の前記受け取りを開始する手順を実行させるための、請求項24から27のいずれか一項に記載のプログラム。
  29. 前記出力された情報は、車両制御コマンド、空調制御コマンド、オーディオシステムコマンド、ウィンドウ制御コマンド、座席制御コマンド、ディスプレイ制御コマンド、ウェブコマンド、および通信制御コマンドのうちの1つまたは複数を含む、請求項24から28のいずれか一項に記載のプログラム。
  30. 前記コンピュータにさらに、
    新規入力学習指示を識別する手順と、
    少なくとも部分的には前記新規入力学習指示を識別することに基づいて、1つまたは複数のユーザー入力を追跡する手順と、
    前記追跡した1つまたは複数のユーザー入力を機能と関係づける手順と、を実行させるための、請求項24から29のいずれか一項に記載のプログラム。
JP2014548779A 2011-12-29 2011-12-29 直接的文法アクセス Active JP5916888B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/067847 WO2013101066A1 (en) 2011-12-29 2011-12-29 Direct grammar access

Publications (2)

Publication Number Publication Date
JP2015509204A true JP2015509204A (ja) 2015-03-26
JP5916888B2 JP5916888B2 (ja) 2016-05-11

Family

ID=48698302

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014548779A Active JP5916888B2 (ja) 2011-12-29 2011-12-29 直接的文法アクセス

Country Status (5)

Country Link
US (1) US9487167B2 (ja)
EP (1) EP2798632A4 (ja)
JP (1) JP5916888B2 (ja)
CN (1) CN104040620B (ja)
WO (1) WO2013101066A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017090613A (ja) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 音声認識制御システム
KR20190004308A (ko) * 2016-04-26 2019-01-11 뷰, 인크. 광학적으로 스위칭 가능한 장치 제어
US11592723B2 (en) 2009-12-22 2023-02-28 View, Inc. Automated commissioning of controllers in a window network
US11687045B2 (en) 2012-04-13 2023-06-27 View, Inc. Monitoring sites containing switchable optical devices and controllers
US11735183B2 (en) 2012-04-13 2023-08-22 View, Inc. Controlling optically-switchable devices
US11733660B2 (en) 2014-03-05 2023-08-22 View, Inc. Monitoring sites containing switchable optical devices and controllers

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104040620B (zh) 2011-12-29 2017-07-14 英特尔公司 用于进行直接语法存取的装置和方法
US20240046928A1 (en) * 2012-04-13 2024-02-08 View, Inc. Controlling optically-switchable devices
EP2862163A4 (en) * 2012-06-18 2015-07-29 Ericsson Telefon Ab L M METHOD AND NODE FOR ACTIVATING AND MANUFACTURING INPUTS FOR APPLICATION
US9798799B2 (en) * 2012-11-15 2017-10-24 Sri International Vehicle personal assistant that interprets spoken natural language input based upon vehicle context
US8818716B1 (en) 2013-03-15 2014-08-26 Honda Motor Co., Ltd. System and method for gesture-based point of interest search
EP2857239A1 (en) * 2013-10-03 2015-04-08 Volvo Car Corporation Digital sunshade for automotive glass
KR20150066156A (ko) * 2013-12-06 2015-06-16 삼성전자주식회사 디스플레이 장치 및 이의 제어 방법
US9751406B2 (en) * 2014-04-03 2017-09-05 Audi Ag Motor vehicle and method for controlling a climate control system in a motor vehicle
EP3037916B1 (en) * 2014-12-24 2021-02-24 Nokia Technologies Oy Monitoring
DE102015200006A1 (de) * 2015-01-02 2016-07-07 Volkswagen Ag Vorrichtung und Verfahren zur Unterstützung eines Anwenders vor einer Bedienung eines Schalters zur elektromotorischen Verstellung eines Teils eines Fortbewegungsmittels
DE102015007361B3 (de) * 2015-06-10 2016-02-18 Audi Ag Verfahren zum Betreiben wenigstens einer Funktionseinrichtung eines Kraftfahrzeugs
US9921805B2 (en) * 2015-06-17 2018-03-20 Lenovo (Singapore) Pte. Ltd. Multi-modal disambiguation of voice assisted input
US10388280B2 (en) * 2016-01-27 2019-08-20 Motorola Mobility Llc Method and apparatus for managing multiple voice operation trigger phrases
JP2020144275A (ja) * 2019-03-07 2020-09-10 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
CN110022427A (zh) * 2019-05-22 2019-07-16 乐山师范学院 汽车使用智能辅助系统
KR20210133600A (ko) * 2020-04-29 2021-11-08 현대자동차주식회사 차량 음성 인식 방법 및 장치
US11967306B2 (en) 2021-04-14 2024-04-23 Honeywell International Inc. Contextual speech recognition methods and systems
KR20220150640A (ko) * 2021-05-04 2022-11-11 현대자동차주식회사 차량 및 그의 제어방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934488A (ja) * 1995-07-18 1997-02-07 Mazda Motor Corp 車載機器の音声操作装置
JP2001216069A (ja) * 2000-02-01 2001-08-10 Toshiba Corp 操作入力装置および方向検出方法
JP2003005781A (ja) * 2001-06-20 2003-01-08 Denso Corp 音声認識機能付き制御装置及びプログラム

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
US7085710B1 (en) * 1998-01-07 2006-08-01 Microsoft Corporation Vehicle computer system audio entertainment system
KR100259918B1 (ko) * 1998-03-05 2000-06-15 윤종용 핸즈프리키트의 쇼트메시지 음성합성 장치 및 방법
KR100754497B1 (ko) * 1998-05-07 2007-09-03 뉘앙스 커뮤니케이션스 이스라엘, 리미티드 수기 및 음성으로 자동차 부속 장치를 제어하는 장치 및방법
ES2198758T3 (es) * 1998-09-22 2004-02-01 Nokia Corporation Procedimiento y sistema de configuracion de un sistema de reconocimiento por voz.
US20050131695A1 (en) * 1999-02-04 2005-06-16 Mark Lucente System and method for bilateral communication between a user and a system
US6430531B1 (en) * 1999-02-04 2002-08-06 Soliloquy, Inc. Bilateral speech system
US6574595B1 (en) * 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition
US7139709B2 (en) * 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
US7085723B2 (en) * 2001-01-12 2006-08-01 International Business Machines Corporation System and method for determining utterance context in a multi-context speech application
US6868383B1 (en) * 2001-07-12 2005-03-15 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
US7149694B1 (en) * 2002-02-13 2006-12-12 Siebel Systems, Inc. Method and system for building/updating grammars in voice access systems
US7548847B2 (en) * 2002-05-10 2009-06-16 Microsoft Corporation System for automatically annotating training data for a natural language understanding system
US7986974B2 (en) * 2003-05-23 2011-07-26 General Motors Llc Context specific speaker adaptation user interface
US20050091036A1 (en) * 2003-10-23 2005-04-28 Hazel Shackleton Method and apparatus for a hierarchical object model-based constrained language interpreter-parser
US7395206B1 (en) * 2004-01-16 2008-07-01 Unisys Corporation Systems and methods for managing and building directed dialogue portal applications
US7778830B2 (en) * 2004-05-19 2010-08-17 International Business Machines Corporation Training speaker-dependent, phrase-based speech grammars using an unsupervised automated technique
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
US7630900B1 (en) * 2004-12-01 2009-12-08 Tellme Networks, Inc. Method and system for selecting grammars based on geographic information associated with a caller
CN1815556A (zh) * 2005-02-01 2006-08-09 松下电器产业株式会社 可利用语音命令操控车辆的方法及系统
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7729911B2 (en) * 2005-09-27 2010-06-01 General Motors Llc Speech recognition method and system
US8311836B2 (en) * 2006-03-13 2012-11-13 Nuance Communications, Inc. Dynamic help including available speech commands from content contained within speech grammars
US8301448B2 (en) * 2006-03-29 2012-10-30 Nuance Communications, Inc. System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
US7778837B2 (en) * 2006-05-01 2010-08-17 Microsoft Corporation Demographic based classification for local word wheeling/web search
US7721207B2 (en) 2006-05-31 2010-05-18 Sony Ericsson Mobile Communications Ab Camera based control
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US8214219B2 (en) * 2006-09-15 2012-07-03 Volkswagen Of America, Inc. Speech communications system for a vehicle and method of operating a speech communications system for a vehicle
US20080140390A1 (en) * 2006-12-11 2008-06-12 Motorola, Inc. Solution for sharing speech processing resources in a multitasking environment
US20080154604A1 (en) * 2006-12-22 2008-06-26 Nokia Corporation System and method for providing context-based dynamic speech grammar generation for use in search applications
US20090055178A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
US9031843B2 (en) * 2007-09-28 2015-05-12 Google Technology Holdings LLC Method and apparatus for enabling multimodal tags in a communication device by discarding redundant information in the tags training signals
WO2009045861A1 (en) * 2007-10-05 2009-04-09 Sensory, Incorporated Systems and methods of performing speech recognition using gestures
DE102008051757A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
CN101323305A (zh) * 2008-05-14 2008-12-17 奇瑞汽车股份有限公司 车载语音识别控制系统及其控制方法
US8407057B2 (en) * 2009-01-21 2013-03-26 Nuance Communications, Inc. Machine, system and method for user-guided teaching and modifying of voice commands and actions executed by a conversational learning system
US20100312469A1 (en) * 2009-06-05 2010-12-09 Telenav, Inc. Navigation system with speech processing mechanism and method of operation thereof
WO2011082340A1 (en) * 2009-12-31 2011-07-07 Volt Delta Resources, Llc Method and system for processing multiple speech recognition results from a single utterance
US8296151B2 (en) * 2010-06-18 2012-10-23 Microsoft Corporation Compound gesture-speech commands
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US8893054B2 (en) * 2010-12-08 2014-11-18 At&T Intellectual Property I, L.P. Devices, systems, and methods for conveying gesture commands
US9008904B2 (en) * 2010-12-30 2015-04-14 GM Global Technology Operations LLC Graphical vehicle command system for autonomous vehicles on full windshield head-up display
US20120226498A1 (en) * 2011-03-02 2012-09-06 Microsoft Corporation Motion-based voice activity detection
CN104040620B (zh) 2011-12-29 2017-07-14 英特尔公司 用于进行直接语法存取的装置和方法
US9092394B2 (en) * 2012-06-15 2015-07-28 Honda Motor Co., Ltd. Depth based context identification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934488A (ja) * 1995-07-18 1997-02-07 Mazda Motor Corp 車載機器の音声操作装置
JP2001216069A (ja) * 2000-02-01 2001-08-10 Toshiba Corp 操作入力装置および方向検出方法
JP2003005781A (ja) * 2001-06-20 2003-01-08 Denso Corp 音声認識機能付き制御装置及びプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11592723B2 (en) 2009-12-22 2023-02-28 View, Inc. Automated commissioning of controllers in a window network
US11687045B2 (en) 2012-04-13 2023-06-27 View, Inc. Monitoring sites containing switchable optical devices and controllers
US11735183B2 (en) 2012-04-13 2023-08-22 View, Inc. Controlling optically-switchable devices
US11733660B2 (en) 2014-03-05 2023-08-22 View, Inc. Monitoring sites containing switchable optical devices and controllers
JP2017090613A (ja) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 音声認識制御システム
KR20190004308A (ko) * 2016-04-26 2019-01-11 뷰, 인크. 광학적으로 스위칭 가능한 장치 제어
JP2019521411A (ja) * 2016-04-26 2019-07-25 ビュー, インコーポレイテッド 光学的に切り換え可能なデバイスの制御
JP7078206B2 (ja) 2016-04-26 2022-05-31 ビュー, インコーポレイテッド 光学的に切り換え可能なデバイスの制御
KR102521231B1 (ko) * 2016-04-26 2023-04-12 뷰, 인크. 광학적으로 스위칭 가능한 장치 제어

Also Published As

Publication number Publication date
EP2798632A1 (en) 2014-11-05
CN104040620B (zh) 2017-07-14
JP5916888B2 (ja) 2016-05-11
WO2013101066A1 (en) 2013-07-04
EP2798632A4 (en) 2015-10-07
US9487167B2 (en) 2016-11-08
US20140229174A1 (en) 2014-08-14
CN104040620A (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
JP5916888B2 (ja) 直接的文法アクセス
EP3497546B1 (en) Radar-based gestural interface
US9953634B1 (en) Passive training for automatic speech recognition
US20140244259A1 (en) Speech recognition utilizing a dynamic set of grammar elements
US11495222B2 (en) Method for processing voice signals of multiple speakers, and electronic device according thereto
US10353495B2 (en) Personalized operation of a mobile device using sensor signatures
CN114127665A (zh) 多模态用户界面
CN105355202A (zh) 语音识别装置、具有语音识别装置的车辆及其控制方法
JP2017090613A (ja) 音声認識制御システム
US20230102157A1 (en) Contextual utterance resolution in multimodal systems
JP2017090612A (ja) 音声認識制御システム
JP2016062129A (ja) 車両用機器制御装置、制御内容検索方法
US9772815B1 (en) Personalized operation of a mobile device using acoustic and non-acoustic information
CN114678021B (zh) 音频信号的处理方法、装置、存储介质及车辆
US11830501B2 (en) Electronic device and operation method for performing speech recognition
KR20220041831A (ko) 음성 인식의 활성화
US20170287476A1 (en) Vehicle aware speech recognition systems and methods
US20240126503A1 (en) Interface control method and apparatus, and system
US11996099B2 (en) Dialogue system, vehicle, and method of controlling dialogue system
JP2008233009A (ja) カーナビゲーション装置及びカーナビゲーション装置用プログラム
KR20200021400A (ko) 음성 인식을 수행하는 전자 장치 및 그 동작 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160405

R150 Certificate of patent or registration of utility model

Ref document number: 5916888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250