JP2007505365A - 音声制御ナビゲーションシステムの操作方法 - Google Patents
音声制御ナビゲーションシステムの操作方法 Download PDFInfo
- Publication number
- JP2007505365A JP2007505365A JP2006530859A JP2006530859A JP2007505365A JP 2007505365 A JP2007505365 A JP 2007505365A JP 2006530859 A JP2006530859 A JP 2006530859A JP 2006530859 A JP2006530859 A JP 2006530859A JP 2007505365 A JP2007505365 A JP 2007505365A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- user
- geographical
- voice
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000004044 response Effects 0.000 claims abstract description 61
- 238000011156 evaluation Methods 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 2
- 239000003550 marker Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
Abstract
地理的基準(GK)を考慮して自動的に進行される対話において入力要求(P)が生成されてユーザーに向けて出力され、前記ユーザーによって話された応答(S)が検出される、音声制御ナビゲーションシステム(1)を操作する方法が記載される。音声応答(S)は前記地理的基準(GK)を考慮に入れて自動音声認識法を使って位置データの認識のために解析される。さらに、対応するナビゲーションシステム用音声データユーザーインターフェースが記載される。
Description
本発明は音声制御ナビゲーションシステムを操作する方法に関するものである。さらに、本発明はナビゲーションシステムのための音声データユーザーインターフェース、この種の音声データユーザーインターフェースをもつナビゲーションシステム、そしてナビゲーションシステムの音声データインターフェースのプロセッサ上で当該方法を実行するためのコンピュータプログラムに関するものでもある。さらに、本発明は音声制御ナビゲーションシステムを操作するために前記方法において使用するための地理的データベースを生成する方法に関するものでもある。
現代の自動車はナビゲーションシステムを使うものがますます多くなっている。この種のナビゲーションシステムは、ユーザーが特定の目的地への経路を割り出したり、行程の間ユーザーに道を案内したりすることを可能にする。これらの機能を提供できるようにするため、ナビゲーションシステムは地理的データを使用し、それに含まれる情報としてはなかんずく地理的領域、町、位置、建物、通り、交差点、道路の特定の区間に沿った好適な所要時間、道路の速度制限などがある。この地理的データを使って、ナビゲーションシステムはある出発点から特定の目的地までの最適経路、すなわち最短もしくは最速またはその両方である経路を見出す。出発点や目的地は、ユーザーが好適なユーザーインターフェースを通じて入力することができる。あるいはまた、一部のナビゲーションシステムでは、出発点はGPSのような自動位置決定装置を使って決定することもできる――それがその時点での出発点となるということである。
ユーザーインターフェースは一般に位置データを入力するためのキーボードを有する。ここで「位置データ」とは任意の位置、地域、建物、道路などについての地理的データのことであるとする。高機能のナビゲーションシステムは、その代わりに、あるいはそれに追加して、ユーザーが自然言語で意思疎通できる音声データユーザーインターフェースを備えている。音声データユーザーインターフェースを使えば特定の装置の手ぶらでの操作が可能となるので、自動車のナビゲーションシステムをそのようにして制御することは安全面からも好ましい。ドライバーは、行程中、自動車のハンドルから手を離すことなくナビゲーションシステムを操作できるのである。
この種の音声データユーザーインターフェースを使用する場合、ユーザーがたとえば位置を指定したり命令を出したりして表現する音声応答は、マイクロホンによって音声信号として検出される。音声応答は次に音声認識装置に送られ、そこで位置や命令が認識されて機械可読な形でナビゲーションシステムの制御装置に伝えられる。音声認識システムの一般的な動作では、音声応答(以下では音声信号ともいう)が最初にスペクトルで、あるいは時間領域で解析され、解析された音声信号が次に区画ごとに既知の音声情報を持つ可能な信号列のさまざまなモデルと比較される。この目的のため、音声認識システムは一般に、さまざまな可能な信号列の包括的なライブラリを備えている。受け取った音声信号と用意されているモデルとの比較を使うことで、音声信号のある特定の区画に最もよく一致するモデルが認識結果に達するために選択される。各モデルが当該音声信号の着目している区画に一致する確率がここで普通に計算される。個々のモデルがある音声信号の着目している区画にどのくらいよく一致するかの確率の解析および計算の間、一般に文法上もしくは言語学上またはその両方の規則が参照される。これにより、長い音声信号の個々の区画が前後の脈絡なく用意されている特定のモデルと一致する可能性が避けられ、全体として有用な認識結果に到達し、音声信号の区画が置かれているコンテキストが考慮され、それにより誤り率を減らすことが保証される。しかし、ナビゲーションシステムにおいて音声認識システムを使うことに関する一つの問題は、位置データ、すなわち町、連邦州、通り、建物などの名称はしばしば固有名詞を含むという事実にある。固有名詞の綴りや発音はきわめて特異でありうる。あらゆる可能な位置データを制限された有効語彙として音声認識システムに利用できるようにすることによって、認識結果を向上させることができる。しかしながら、可能性が膨大な数に上るため、音声認識装置の語彙を使われる可能性のある世界規模で完全なあらゆる位置データに制限することは実用的ではない。他方、ナビゲーションシステムのための音声データユーザーインターフェースの場合には特に、音声応答の入力は一般には好適でない条件下で、すなわち比較的背景雑音が大きい環境で行われる必要があるという問題がある。この点からも、音声認識における認識品質の向上のためのさらなる条件はきわめて有益である。
本発明の目的の一つは、簡単な仕方で音声認識の品質を向上させるような、音声制御ナビゲーションシステムを操作する改善された方法および対応するナビゲーションシステム用音声データユーザーインターフェースを指定することである。
この目的は、自動的に進行される対話において、入力要求が地理的基準を考慮に入れて生成されてユーザーに向けて出力され、前記ユーザーによって話された応答が検出され、前記音声応答が前記地理的基準を考慮に入れて自動音声認識法を使って位置データの認識のために解析される、音声制御ナビゲーションシステムを操作する方法によって達成される。
装置の面では、前記目的は、ユーザーの音声応答を検出するための音声入力装置と、地理的基準を考慮に入れてユーザーとの対話を制御するための対話制御装置と、地理的基準を考慮に入れて入力要求を生成するプロンプト生成ユニットと、地理的基準を考慮に入れて位置データを認識するための前記検出された音声応答を解析する、音声認識装置および解析ユニットと、前記対話制御装置および/または前記プロンプト生成装置および/または前記音声認識装置および/または前記解析ユニットのために地理的基準および/または地理的データを利用可能にする地理的データベースおよび/または地理的データベースにアクセスするデータインターフェースとを有する、入力要求をユーザーに向けて出力するための出力装置をもつナビゲーションシステムのための音声データユーザーインターフェースによって達成される。
ここで、前記対話制御装置による対話シーケンスの制御は、特殊な対話記述言語の形でシステム内に保存されている対話記述システムを用いて行われる。これはいかなる対話記述言語でもよい。通常の言語の例としては、CまたはC++といったメソッド指向プログラミング言語や、Voice XMLやPSP HDDLといった宣言型でありメソッド指向でもあるいわゆるハイブリッド言語がある。Voice XMLとPSP HDDLは、インターネットサイトを記述するのに一般に使われている言語であるHTMLに似た構造をもつ言語である。ここで、制御は本質的には、対応する入力要求(一般にプロンプトとしても知られる)をユーザーに向けて出力することで行われる。
自動的に進行される対話を使って、所望の目的地が逐次的に多段の問い合わせステップによって決定される。個々のプロンプトは自動対話において地理的基準を考慮に入れて出力されるので、これらの地理的基準が特定のプロンプトに続く音声応答を認識するための音声認識方法内においても有効な語彙を制限したり、言語仮設を評価したりすることなどに使える。結果として、対話の個々の段階における認識結果は著しく改善され、それは全体としてきわめて信頼性の高い、正しい位置の認識につながる。
対応する入力要求の生成は、たとえば、すでに指定されている可能な入力要求の群から特定の入力要求が選択されるような仕方で行われうる。同様に、入力要求はまた、その対話シーケンス内で特定の場所に応じて完全に新規に生成されることもありうる。
この種のプロンプトは、原則としては、前記プロンプト生成ユニットによっていかなる仕方で生成され、ユーザーに出力されてもよい。すなわち、画面上に書かれた形その他などでもよい。ただし、好ましくは前記出力は音声の形で行われる。これは、ユーザーが交通を注視し続けながら同時にプロンプトに留意することができるという利点があり、その結果としてナビゲーションシステムの操作はいっそう安全なものとなる。音声出力と文字出力を両方同時に行うことも可能である。音声出力には、出力されるプロンプトをテキストの形から音声の形に変換するために、たとえば、音声合成器(テキスト−音声変換器)が使われていてもよい。あらかじめ用意されているプロンプトを使う限りにおいては、これらもまたオーディオデータベースに保存しておくこともできる。また、プロンプト生成ユニットが用意されている音声データ(たとえば文の特定の部分など)から一区画ずつプロンプトを組み立てることも可能で、ここでまた必要な箇所では個々の部分を音声合成器によって生成してもよい。
従属請求項は本発明の特に有利な実施形態およびさらなる実施形態を含んでいる。さらに、方法に関する請求項と同様にして、本発明に基づく音声データユーザーインターフェースがさらに展開される。
プロンプトを生成する際の基礎とした地理的基準をのちに音声応答を認識する際に利用する上ではさまざまな選択肢がある。
ある好ましい実施形態では、入力要求の生成において考慮に入れられた地理的基準を使用して単語リストが作成され、それがそのユーザーによるその後の音声応答の音声認識の際に制限された有効語彙の役割を果たす。よって、たとえば、「目的地はどの連邦州にありますか」という入力要求を発生したときには(この例では、ドイツ全土をカバーする現用の地理的データベースを用いたナビゲーションシステムであるとしている)、ユーザーによるその後の音声応答の音声認識において、国内の連邦州の名前をすべて含むだけの比較的短い単語リストが使われることになる。
これに代わって、あるいはこれに加えて、現在有効な単語リストはまたユーザーとの対話における先の音声応答の認識結果に応じて作成されてもよい。ここで一つの例を挙げると、対話の先の段階でユーザーがすでに目的地はノルトライン・ヴェストファーレン連邦州にあると入力していたとする。続く入力要求「目的地はどの町にありますか」へのユーザーの音声応答の音声認識のためには、単語リストにノルトライン・ヴェストファーレン連邦州にあるすべての町の名前が含まれていれば十分である。
同様にして、その対話におけるユーザーのその後の音声応答の認識結果もやはり、ユーザーによる音声応答の新たな認識のための有効語彙を制限し、それによって認識を改善するために、あるいはそもそも認識ができるようにするために使われうる。ここで一つの例となるのが、「目的地はどの町にありますか」というプロンプトがまず出力された対話であろう。音声認識がそこで信頼できる認識結果を与えることができない――たとえば認識仮設のどれも十分な信頼水準に至らないなどのため――場合、対話の次の段階で「近くにある大都市圏を挙げてください」のようなプロンプトを出力することが考えられる。その場合、この第二のプロンプトに続く音声応答に対しては大都市圏の制限単語リストが使われうる。この質問から得られた認識結果が次に認識された大都市圏の近郊に位置する町だけからなる単語リストを作成し、最初のプロンプトへの音声応答の認識を今一度試みるための役に立つ。以前の音声応答を音声データとして保存しておきこのように繰り返し認識を試みることは、――望むなら――既定のこととして行われるようにしてもよい。
特定の認識結果だけが許容されるようになるこの種の有効語彙の制限は「ハードな」認識として知られている。
その代わり、あるいはそれに加えて、ユーザーによる音声応答の音声認識の過程で決定されたさまざまな認識仮設を、地理的データベースを用い、以前のプロンプトの生成において考慮に入れられた地理的基準によって評価してもよい。このような評価は、その対話におけるその前もしくはその後またはその両方の当該ユーザーによる音声応答の認識結果に応じて行われるようにすることができる。
この事後評価は「ソフトな」形で行われてもよい。その場合、ある特定の数n個の最も可能性の高い認識仮設を順番に並べたものからなる「ベストnリスト」が作成される。ベストnリストを作成するために諸仮設を評価する際、地理的基準に関して、認識仮設が以前のおよび/または以後の認識結果および/または入力要求の地理的基準と矛盾しないことが保証されるようにする。このようなベストnリストは、先に有効語彙が制限された場合にも生成されることが好ましい。そうでなければ、「ハードな」除外基準に従って評価が行われて、それ以後有効語彙は準制限されるようにしてもよい。
特に、対話においてユーザーに要求するデータが連邦州、国などの名前のような明確に定義された事項に関するものでなく、町の大きさなどの「ソフトな」基準に関するものである場合、あるいはある大都市圏への近さなどといったさまざまな地理的位置相互の関係を含むものである場合、このような種類の地理的基準の考慮は、有効語彙の制限のようなハードな除外基準よりも、認識仮設の評価の形のほうが役に立つことが多い。
同一の対話において、地理的音声認識基準を組み合わせて利用する方法も全く問題なく可能である。たとえば、第一のプロンプトに対する音声応答の音声認識のためには有効語彙を制限して、第二のプロンプトに対する音声応答の音声認識のためには認識仮設を評価するために地理的基準を用いてもよい。ある特定の音声応答の音声認識について、ある基準に基づく有効語彙の制限とそれに加えての他のさまざまな基準に基づく認識仮設の評価の両方が行われてもよい。
また、対話シーケンスそのものの選択についてもさまざまな選択肢がある。
たとえば、対話は原則として地理的基準に基づいて厳密に階層的に構成される。すなわち、対話シーケンスにおいては地理的基準に従って階層的に構成された一連のプロンプトが生成される。ここで典型的な例では、まず目的地が位置する国について質問がなされ、次にたとえばもし該当するなら連邦州について、次に地方、そして最後に町、そして通りと続く。ここで、地域は各段階ごとに絞り込まれ、したがってその地域において可能な応答だけが単語リストに作成される。
ある代替的な手順では、地理的基準に関する入力要求は対話においてユーザーによる以前の音声応答の認識結果に応じて生成される。たとえば、第一段階において目的地に関する質問への応答の認識結果が良好でなかった場合に、いちばん近い大都市圏についての質問がされるようにできる。他方、もしもたとえば目的地のある町が第一段階で明確に認識された場合には、対話のすぐ次の段階で通りを尋ねてもよい。
階層的に構成される地理的基準に基づいて対話を構成する際にはまた、さらに、以前の音声応答の認識結果を利用してその対話シーケンスにおけるその後の段階を決めることも可能である。典型的な例は、目的地の位置する連邦州についての質問に対する応答で連邦州「ベルリン」が指定された場合である。その後の入力要求においては、連邦州の中の町を尋ねるよりは、たとえば市内で目的地の位置する行政区を尋ねたほうが有用だろう。
どちらの場合にも、ベルリン市の行政区や連邦州内の特定の地域などについての特定の質問にユーザーが答えられない場合には、「わからない」のような適当な応答によってその対話ステップをスキップしたり、地域を絞り込める別の質問に換えたりできる可能性があることが好ましい。
対話においてたとえば単語リストを作成したり認識仮設を評価したりするのに使われる地理的データベースは、好ましくは、できる限り以前の入力要求もしくは以前の音声応答の認識結果に基づいてある種のデータ項目に制限される。先行するステップにおいてその後のステップのためにデータベースを制限することにより、適切な単語リストの抽出が著しくスピードアップできる。単語リスト作成のために検索する必要のあるデータ項目の数がそれに応じて少なくなるからである。
さらに、使われる地理的データベースのデータ項目に、それぞれ当該データ項目の種類を表す一つまたは複数のマーカーが割り当てられていることがとりわけ好ましい。データ項目の地理的種類とは、たとえば、当該データ項目が国、連邦州、町、大都市圏のどれを表すのか、あるいは当該町がどの連邦州に属するのか、などである。マーカーはまた地理的階層レベルを表してもよい。これらのマーカーを使うことで、検索が特定のマーカーがある項目に限定されるため、さらなるステップのためのデータベースの制限が著しく高速に達成できたり、単語リストがより迅速に抽出できたりより効率的に後処理できたりする。ここで、現在の階層レベルだとか現在尋ねられている地理的種類などといったマーカーの種類は、以前のプロンプトまたは対話段階によって特定の対話応答の認識または評価のために定義されている。
対話制御装置、プロンプト生成装置、音声認識装置および解析ユニットはそれぞれ、たとえばナビゲーションシステムの音声データユーザーインターフェースのプロセッサなど好適なハードウェア上で実装されたソフトウェアコンポーネントでもよい。ここで、音声データユーザーインターフェースはこの目的のための自前のプロセッサを備えていることが絶対必要なわけではない。むしろ、音声データユーザーインターフェースは当該ナビゲーションシステムの残りの機能にも使われるプロセッサの使用を共有するのでもよい。特に、この点に関し、ナビゲーションシステムは一つの構造単位である必要はなく、システムのさまざまなコンポーネントを相互接続されたさまざまな装置の上で実現することも可能であることを指摘しておく。これは特に音声データユーザーインターフェース自身にもあてはまり、そのコンポーネントはやはり空間的に別個の複数のプロセッサ上で実装されていてもよい。よってたとえば、音声認識装置は解析ユニットと一緒にインターネット上の特に大容量のサーバー上で実装され、ユーザーの自動車などに搭載されているナビゲーションシステムのその他のコンポーネントとはデータ接続を介して接続されるようにすることができる。
対話制御装置、プロンプト生成装置、音声認識装置、解析ユニットはそれぞれソフトウェアモジュールの形をとることもできるので、スピーカーやディスプレイといった適切な出力装置を備えた既存のナビゲーションシステムを、本発明に基づく音声データユーザーインターフェースを用いて更新することもできる。必要なのは、システムが音声入力ユニット――単なるマイクロホンでよい――を備えていて、十分強力なプロセッサが利用可能か強力なプロセッサへの適切な接続が存在するということだけである。地理的データベースへのアクセスは本来的にナビゲーションシステム内に存在する。ナビゲーションシステムというものは経路を計算するためにデータベースを必要としているからである。そのデータベースはナビゲーションシステムにあるCDのような大容量記憶装置上に保存されていてもいいが、インターネットなどのネットワークを通じて問い合わせをするものでもよい。
そのデータベースは好ましくは前処理段階の一部としてあらかじめ修正される。たとえば、当該データベース項目の種類および/または地理的階層レベルおよび/または川の位置などその他の地理的特徴などを表すマーカーがその段階で個々のデータ項目にそれぞれ割り当てられてもよい。さらに、そのデータベースはまた、階層的に整列されていたり、個々のデータベース項目間の関係が確立されていたり、あるいはその両方であったりして、それにより地理的基準が決定されるようになっていてもよい。この種の地理的基準はデータベース内の別個の位置に保存されてもよいし、データベース項目に直接含まれてもよい。たとえば、「アーヘンの近くのアイレンドルフ」というデータベース項目は同時に二つの町の関係をも含んでいる。本発明に基づく使用のためにこの種のデータベースを用意して用いれば、本発明に基づくナビゲーションシステムはより高速かつ効率的なものとなる。
本発明は図面に示された実施形態の例を参照しつつさらに説明されるが、本発明はそれに限定されるものではない。
図1に示したナビゲーションシステム1は、大枠では伝統的なナビゲーションシステムで、ナビゲーションシステムが必要な機能を保証するため通常備えている要素を一通り備えているものと思ってよい。簡単のため、ナビゲーションシステム1のそうした要素はここでは単一のブロック13で示されている。ユーザーとのコミュニケーションのため、ナビゲーションシステム1は本発明に基づく音声データユーザーインターフェース2を備えており、図1ではその要素をより詳細に示している。
この音声データユーザーインターフェース2の一つの構成要素は入出力インターフェース10である。これに音声入力装置11(ここではマイクロホン11)と音声出力装置12(ここではスピーカー12)とが接続されている。マイクロホン11を通じて、音声データユーザーインターフェース2はユーザーによる音声応答Sを検出することができる。スピーカー12を通じて、音声データユーザーインターフェース2はプロンプトPを出力することができる。これはたとえば、ユーザーに音声応答Sを行うよう促すために行う。
ユーザーインターフェース2のもう一つの重要な構成要素は音声認識装置6である。これが入力された音声応答Sを前処理し、処理し、認識仮設EHを出力する。こうした認識仮設EHは次に、音声応答――たとえば命令や位置の詳細――が理解されうるよう、さらに解析ユニット7で処理される。
音声データユーザーインターフェース2はさらにプロンプト生成ユニット5を備えており、ユーザーに出力すべきプロンプトPがこれによって生成される。システムによって出力されるプロンプトPによって音声データユーザーインターフェース2とユーザーとの間の対話を制御する役割を担い、応答としてユーザーから入力される音声応答Sを扱うのが対話制御装置3(以下では対話マネージャ3とも呼ぶ)であり、これは所定の対話プログラムに基づいて対話を制御する。この目的のため、対話制御装置3はプロンプト生成ユニット5、音声認識装置6、解析ユニット7、入出力インターフェース10に接続されている。結果として、対話制御装置3はたとえばプロンプト生成命令PBをプロンプト生成装置5に送信し、それにより特定のプロンプトPを出力するよう仕向ける。マイクロホンによって音声応答Sが検出されるとすぐ、対話制御装置3は入出力インターフェース10を通じて通知され、開始命令ASを音声認識装置6および解析ユニット7に送る。
本発明にとって重要な音声データユーザーインターフェース2のさらなる構成要素は、地理的データベース8である。このデータベース8はここでは音声データユーザーインターフェース2と一体の構成要素として示されている。ただし、これはナビゲーションシステム1の汎用地理的データベースで、それがナビゲーションシステム1の特に音声データユーザーインターフェース2によって――可能性としては部分的にのみ――使用されるのであっても全く問題ない。
このように構成された音声データユーザーインターフェース2の動作様式について、以下、図2に示した対話ブロック図を参照することによって説明する。
対話は一般に――音声命令や装置の手動操作などによって通常の形で起動したのち――ある特定のプロンプトPがユーザーに出力されるよう、対話マネージャ3がプロンプト出力命令PBをプロンプト生成装置5に対して出力することによって開始される。このプロンプトPの生成は特定の地理的基準GKを考慮に入れる。この地理的基準GKは、対話プログラム内であらかじめ決められているか、あるいは対話マネージャ3が地理的データベース8から取得できるものである。
このデータベース8に含まれるデータ項目DEは、たとえば国、地方、連邦州、町、通り、顕著な目印、完全な番地などについての名前およびさらなる地理的データである。ここで、データベース8はデータ項目DEをさまざまな仕方で入力されていてもよい。たとえば、個々のデータ項目DEはそれぞれ、地理的カテゴリーすなわちデータ項目DEが属する種類を示すマーカーMを含んでいてもよい。マーカーはたとえば、<国>、<連邦州>、<町>、<市の行政区>など、あるいは<小さな町>、<大都市圏>、<百万都市>などである。代替または追加として、データベースは階層的に構成されたり、異なる部分に分割されたり、その両方であったりしてもよい。たとえばドイツのような地域では、個々の連邦州のための別々の部分データベースが利用可能な場合があり、そこにはさらに町が入れられる。階層上、町の下にくるのは町の行政区で、それから町の個々の行政区の下には通りの名前などがくる。
さらに、個々のデータ項目DEの間の関係(たとえば二つの町の近さ)などといったある地理的基準もデータベース8に保存されていてもよい。特に、データベース8は、当該データベースからどの地理的基準がたやすく決定できるか、あるいはどの地理的基準には既成のデータレコードが利用可能かといったことを記録する領域を有していてもよい。
前記プロンプト出力命令PBと同時に、対話マネージャ3はリスト作成命令LBを単語リスト生成装置9に対して出力する。この単語リスト生成装置9は、地理的データベース8から、現在求められている地理的基準に従ってデータ項目DEを取得し、そこから単語リストWLを作成する。この単語リストがユーザーによるその後の音声入力の音声認識のための有効語彙となる。さらに、対話マネージャ3は開始命令ASを音声認識装置6および解析装置7に送信する。この両者はここでは一つのブロックとして示されている。単語リスト生成装置9は別個のモジュールであってもよいが、図1の例で示していたように音声認識装置6のサブルーチンであってもよい。
次いで音声認識装置6は、プロンプトPに続く音声応答Sについて評価した結果の諸仮設を決定する。この際、音声応答はそれぞれ、単語リスト生成装置9によって作成された単語リストWLに含まれる単語の保存されている音声モデルと比較される。比較的制限された単語リストWLを使っているため、あらゆる地理的固有名詞の完全な単語リストを用いる場合よりは認識確率が高くなる。
評価が最良だった認識結果EEまたは複数の認識仮設EHは、次に、該当するなら、地理的データベース8内のデータ項目とおよび/または以前の認識結果と、ならびに直前のプロンプトと矛盾しないかどうか、解析装置7によって再度検査される。この目的のため、解析装置7は該当するならデータベース8から整合性検査データKCDを取得する。認識結果EEが確実であれば、データベース8は、該当するなら、その対話の続きにおいては制限される。これはたとえば、認識結果EEまたは諸仮設EHに基づいて、データベース8の一部のデータ項目DEがその後の音声応答において起こる可能性が安全に排除できる場合である。よって、たとえば、「目的地のある連邦州を入力してください」という入力要求への応答として「ニーダーザクセン」の語の認識が信頼できるとすれば、その対話の以後のステップでは他の連邦州にある位置データはみな無視できる。
認識結果EEはまた、対話マネージャ3にも報告として返され、そこで「スロット充填モジュール」4に入力される。このモジュールはシステムの知識の現在の全体的な状態を記述するものである。対話マネージャ3のこのスロット充填モジュール4は情報が十分になった時、すなわち、たとえば目的地または出発点を精密に指定できるためにすべての問い合わせのポイントがはっきりした時を判断する。情報がまだ十分でなければさらなる対話ステップが続くことになり、次の音声応答が認識できるよう、プロンプト出力命令PBが再びプロンプト生成装置5に、リスト作成命令LBが単語リスト生成装置9に、そして開始信号ASが音声認識システム6に対して出力される。このステップでは、先に制限されたデータベース8だけが用いられるので、後続の対話ステップではシステム全体は著しく速く動作する。
スロット充填モジュール4がすべての必要な情報が揃ったと判断したら、プロンプト生成装置5は所望の目的地を確認する対応するプロンプトを発するよう促され、その目的地がさらなる処理のためナビゲーションシステム1のさらなる構成要素(ここではやはりブロック13で示されている)に送信される。
このシーケンスは二つの例を参照しつつ以下でより具体的に記述される。
第一の例では、対話シーケンスが地理的基準に従って階層的に構成されているものとする。この場合、第一のステップで、たとえば「目的地はどの国にありますか」といったプロンプトがプロンプト生成装置5によって出力される。この入力要求への音声応答としては、さまざまな国名だけが期待されるので、可能な国名の単語リストがデータベース8に基づいて単語リスト生成装置9によって生成される。こうしてこの単語リストはその後の音声応答についての音声認識の間利用可能となる。これがこの対話の第一階層レベルである。一致する国が正しく認識されたら、たとえば国名「ドイツ」が述べられたら、次いで第二の階層レベルで「目的地はどの連邦州にありますか」というプロンプトが生成される。すると、ドイツの連邦州すべてを列挙した単語リストが作成される。次いで、さらなる階層レベルにおいて、町が尋ねられるか、あるいはもし該当するなら途中の階層段階で特定の地方が尋ねられる。町が確定したら、大都市の場合には行政区が尋ねられる場合もある。そして最後に、下層段階の一つにおいて、通りの名と住宅または特定の建物などの番地が尋ねられる。
第二の実施例では、データベース8における個々のデータベース項目にマーカーが付いているものとする。マーカーは特定の種類のデータベース項目またはデータベース項目間の特定の関係を表す。この変形では、本来的に、対話シーケンスは厳密に階層的に大きな地理的単位から小さな地理的単位へと構成されるわけではなく、比較的柔軟である。この種の対話シーケンスは、ある種の状況では、すなわち良好な認識条件のもとでは、厳密に階層的な構造の対話シーケンスよりも少ないステップ数で目的地にたどりつく。この場合、対話制御ユニット3はまずたとえば「どの町に行きたいですか」というプロンプトを選択する。そして、もし該当するなら、データベース8で利用可能なすべての町の項目の単語リストが作成される。以前にそれ以上の制限がなされていない限り、これはもちろん比較的長いリストになる。換言すれば、音声認識システムの有効語彙がきわめて広く、国、連邦州などについての先の問い合わせによってあらかじめ制限された単語リストの場合よりも、音声認識はかなり困難になる。音声認識システムが許容できる認識結果を出せば、目的地の町は一度の質問だけで確定され、その場合、続く対話ステップでは通りや家屋の番地などより細かい住所データの入力を行うことができる。
しかしながら、さまざまな認識仮設について計算された信頼水準が十分でないなどのためシステムが認識結果に確証がもてない場合、その事実が対話制御装置3に(仮の)認識結果として返されうる。すると対話制御装置3はその後の対話ステップでさらなるプロンプト、たとえば「近くにある大都市圏を挙げてください」といったものを出力する。そして大都市圏に制限された有効単語リストが作成される。これは、データベース8から<大都市圏>というマーカーを含むデータ項目DEをすべて検索すればいいので比較的容易にできる。この単語リストは最初の対話ステップにおける単語リストよりも著しく短いので、有効語彙が少ないため、この第二の質問の場合、第一の場合より認識結果EEは良好であろう。
次に、前記認識結果EEを用いて、データベース8において、前記大都市圏の近くに位置するすべてのデータ項目DEが抽出できる。もし適用可能ならまた、前記認識された大都市圏の近くに位置するという条件を満たすすべてのデータ項目DEを第一段階においてマークして、それからその条件を満たす町すべてを含む新しい単語リストを作成するようにしてもよい。行きたい町についての先の質問に対するユーザーの音声応答が保存されていれば、この第一の音声応答についての音声認識を、よりよい認識結果に到達するために今再び、制限された単語リストを用いて実行することが可能である。あるいはまた、対話マネージャ3はまたプロンプト生成装置5が最初のプロンプト「どの町に行きたいですか」を今一度出力するよう促し、それからその後の音声応答の音声認識を前記制限された単語リストを用いて実行するようにすることができる。
締めくくりに、本発明が上述した実施例――特に音声データユーザーインターフェースの詳細な構造や説明された対話の詳細な順列――に限定されるものではなく、当業者には本発明の範囲を外れることなく大幅に変更を加えうることを今一度指摘しておく。
特に、さらなる基準、特に補助的な地理的知識を音声認識のために利用することが可能である。たとえば、現在位置からの距離を認識仮設の評価もしくは単語リストの作成またはその両方において考慮してもいい。特定のユーザーがこれまである目的地に何度訪れたかを考慮してもいい。多くの場合、ユーザーは同じ場所に頻繁に行くからである。複数の質問を一つのプロンプトでカバーして、たとえば「行きたい目的地と近くにある大都市を教えてください」のような質問をすることも可能である。すると、その後の音声認識では、さまざまな町の地理的関係が認識仮設をよりよく評価するために用いることができる。さらに、スロット充填モジュールはたとえば対話マネージャではなく解析装置の中に配置することもできる。
本発明は主として目的地を決定しなければならない例を参照しつつ記載されてきた。同様にして出発点または中間停止点のようなその他の位置データもユーザーとシステムとの間の対話において決定することができる。換言すれば、複数の同じような対話を逐次行うことができる。
完全性のために指摘しておくと、単数形の表現は当該特徴が複数存在するかもしれない可能性を排除するものではない。「有する」の語を使用していることは、他の要素やステップの存在を除外するものではない。
Claims (11)
- 自動的に進行される対話において
・入力要求が地理的基準を考慮に入れて生成されてユーザーに出力され、
・前記ユーザーによって話された応答が検出され、
・前記音声応答が前記地理的基準を考慮に入れて自動音声認識法を使って位置データの認識のために解析される、
ことを特徴とする、音声制御ナビゲーションシステムを操作する方法。 - 入力要求の生成において考慮に入れられた地理的基準を使用して、ならびに/またはその対話における以前および/または以後の当該ユーザーによる音声応答の認識結果に応じて、地理的データベースから単語リストが作成されて当該ユーザーによるその後の音声応答の音声認識の際に有効語彙の役割を果たす、ことを特徴とする、請求項1記載の方法。
- 当該ユーザーによる音声応答の音声認識の間に決定された認識仮設が、地理的データベースを用い、以前の入力要求の生成において考慮に入れられた地理的基準によって、ならびに/またはその対話における以前および/または以後の当該ユーザーによる音声応答の認識結果に応じて、評価されることを特徴とする、請求項1または2記載の方法。
- 対話において地理的基準に従って階層的に構成された入力要求が生成されることを特徴とする、請求項1ないし3のうちいずれか一項記載の方法。
- 対話において地理的基準に関する前記入力要求が当該ユーザーによる以前の音声応答の認識結果に応じて生成されることを特徴とする、請求項1ないし4のうちいずれか一項記載の方法。
- 対話において、単語リストの作成および/または認識仮設の評価のために、以前の入力要求および/または以前の音声応答の認識結果に基づいて一部のデータ項目に制限されている地理的データベースが利用されることを特徴とする、請求項1ないし5のうちいずれか一項記載の方法。
- 単語リストの作成および/または認識仮設の評価のために、データ項目のそれぞれが当該データ項目の種類および/または地理的階層レベルおよび/または他のデータ項目との関係および/またはその他の地理的特徴を表す一つまたは複数のマーカーを割り当てられている地理的データベースが利用されることを特徴とする、請求項2ないし6のうちいずれか一項記載の方法。
- ・入力要求をユーザーに出力するための出力装置と、
・当該ユーザーによる音声応答を検出するための音声入力装置と、
・地理的基準を考慮に入れて当該ユーザーとの対話を制御するための対話制御装置と、
・地理的基準を考慮に入れて入力要求を生成するためのプロンプト生成ユニットと、
・地理的基準を考慮に入れて位置データの認識のために検出された前記音声応答を解析するための音声認識装置および解析ユニットと、
・前記対話制御装置および/または前記プロンプト生成装置および/または前記音声認識装置および/または前記解析ユニットのために地理的基準および/または地理的データを利用できるようにする、地理的データベースおよび/または地理的データベースにアクセスするためのデータインターフェースとを、
有することを特徴とする、ナビゲーションシステムのための音声データユーザーインターフェース。 - 請求項8記載の音声データユーザーインターフェースを有するナビゲーションシステム。
- ナビゲーションシステムの音声データインターフェースのプロセッサ上で実行されたときに、請求項1ないし7のうちいずれか一項記載の方法のすべてのステップを実行するためのプログラムコード手段を有するコンピュータプログラム。
- 請求項1ないし7のうちいずれか一項記載の方法で使うための、個々のデータ項目のそれぞれが当該データ項目の種類および/または他のデータ項目との関係および/または地理的階層レベルおよび/またはその他の地理的特徴を表す一つまたは複数のマーカーを割り当てられているような地理的データベースを生成する方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03101523 | 2003-05-26 | ||
PCT/IB2004/050706 WO2004104520A1 (en) | 2003-05-26 | 2004-05-14 | Method of operating a voice-controlled navigation system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007505365A true JP2007505365A (ja) | 2007-03-08 |
Family
ID=33462217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006530859A Pending JP2007505365A (ja) | 2003-05-26 | 2004-05-14 | 音声制御ナビゲーションシステムの操作方法 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1631791A1 (ja) |
JP (1) | JP2007505365A (ja) |
CN (1) | CN1795367A (ja) |
WO (1) | WO2004104520A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6250121B1 (ja) * | 2016-09-16 | 2017-12-20 | ヤフー株式会社 | 地図検索装置、地図検索方法、および地図検索プログラム |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2003641B1 (en) * | 2006-03-31 | 2013-03-06 | Pioneer Corporation | Voice input support device, method thereof, program thereof, recording medium containing the program, and navigation device |
EP1860918B1 (en) * | 2006-05-23 | 2017-07-05 | Harman Becker Automotive Systems GmbH | Communication system and method for controlling the output of an audio signal |
GB2440766B (en) | 2006-08-10 | 2011-02-16 | Denso Corp | Control system |
ATE426233T1 (de) * | 2006-11-30 | 2009-04-15 | Harman Becker Automotive Sys | Interaktives spracherkennungssystem |
US8938211B2 (en) | 2008-12-22 | 2015-01-20 | Qualcomm Incorporated | Providing and utilizing maps in location determination based on RSSI and RTT data |
US8938355B2 (en) * | 2009-03-13 | 2015-01-20 | Qualcomm Incorporated | Human assisted techniques for providing local maps and location-specific annotated data |
US9080882B2 (en) | 2012-03-02 | 2015-07-14 | Qualcomm Incorporated | Visual OCR for positioning |
US9500492B2 (en) | 2014-03-03 | 2016-11-22 | Apple Inc. | Map application with improved navigation tools |
US10113879B2 (en) | 2014-03-03 | 2018-10-30 | Apple Inc. | Hierarchy of tools for navigation |
CN105302082A (zh) * | 2014-06-08 | 2016-02-03 | 上海能感物联网有限公司 | 非特定人外语语音现场自动导航并驾驶汽车的控制器装置 |
CN105302079A (zh) * | 2014-06-08 | 2016-02-03 | 上海能感物联网有限公司 | 汉语语音现场控制汽车驾驶的控制器装置 |
US9464913B2 (en) * | 2015-02-16 | 2016-10-11 | Jaybridge Robotics, Inc. | Assistive vehicular guidance system and method |
CN113364920B (zh) * | 2021-06-09 | 2023-01-20 | 中国银行股份有限公司 | 一种进线请求处理方法、装置及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19709518C5 (de) * | 1997-03-10 | 2006-05-04 | Harman Becker Automotive Systems Gmbh | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb |
DE19962048A1 (de) * | 1999-12-22 | 2001-07-12 | Detlef Zuendorf | Zielführungssystem |
US20020111810A1 (en) * | 2001-02-15 | 2002-08-15 | Khan M. Salahuddin | Spatially built word list for automatic speech recognition program and method for formation thereof |
DE10147734A1 (de) * | 2001-09-27 | 2003-04-10 | Bosch Gmbh Robert | Verfahren zum Einstellen einer Datenstruktur, insbesondere von phonetischen Transkriptionen für ein sprachbedientes Navigationssystem |
-
2004
- 2004-05-14 EP EP04733066A patent/EP1631791A1/en not_active Withdrawn
- 2004-05-14 JP JP2006530859A patent/JP2007505365A/ja active Pending
- 2004-05-14 WO PCT/IB2004/050706 patent/WO2004104520A1/en not_active Application Discontinuation
- 2004-05-14 CN CNA2004800143866A patent/CN1795367A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6250121B1 (ja) * | 2016-09-16 | 2017-12-20 | ヤフー株式会社 | 地図検索装置、地図検索方法、および地図検索プログラム |
JP2018045636A (ja) * | 2016-09-16 | 2018-03-22 | ヤフー株式会社 | 地図検索装置、地図検索方法、および地図検索プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN1795367A (zh) | 2006-06-28 |
WO2004104520A1 (en) | 2004-12-02 |
EP1631791A1 (en) | 2006-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5334178B2 (ja) | 音声認識装置およびデータ更新方法 | |
US6598018B1 (en) | Method for natural dialog interface to car devices | |
US8694323B2 (en) | In-vehicle apparatus | |
JP4928701B2 (ja) | 目的案内システム内に定義されている入力ダイアログを使って目的地を言語入力するための方法 | |
KR20180086718A (ko) | 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법 | |
JP3278222B2 (ja) | 情報処理方法及び装置 | |
JP2007505365A (ja) | 音声制御ナビゲーションシステムの操作方法 | |
JP2001013991A (ja) | 音声認識支援方法及び音声認識システム | |
WO2007088877A1 (ja) | 会話システムおよび会話ソフトウェア | |
JP2002073075A (ja) | 音声認識装置ならびにその方法 | |
US20120253822A1 (en) | Systems and Methods for Managing Prompts for a Connected Vehicle | |
KR20190131741A (ko) | 대화 시스템 및 대화 처리 방법 | |
JP2005030982A (ja) | 音声入力方法及び、車載装置 | |
KR20200000604A (ko) | 대화 시스템 및 대화 처리 방법 | |
KR20200098079A (ko) | 대화 시스템 및 대화 처리 방법 | |
JP2002123290A (ja) | 音声認識装置ならびに音声認識方法 | |
KR101063607B1 (ko) | 음성인식을 이용한 명칭 검색 기능을 가지는 네비게이션시스템 및 그 방법 | |
JP2001022779A (ja) | 対話型情報検索装置、コンピュータを用いた対話型情報検索方法及び対話型情報検索処理を行うプログラムを記録したコンピュータ読取り可能な媒体 | |
KR102487669B1 (ko) | 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법 | |
KR20200006738A (ko) | 대화 시스템 및 대화 처리 방법 | |
JP2001027540A (ja) | 音声認識機能を用いたナビゲーション方法 | |
JP5455355B2 (ja) | 音声認識装置及びプログラム | |
JP4639990B2 (ja) | 音声対話装置及び音声理解結果生成方法 | |
CN111798842B (zh) | 对话系统和对话处理方法 | |
Baca et al. | Dialog systems for automotive environments. |