JP2007505365A

JP2007505365A - 音声制御ナビゲーションシステムの操作方法

Info

Publication number: JP2007505365A
Application number: JP2006530859A
Authority: JP
Inventors: マイヤー，カルステン
Original assignee: コニンクリユケフィリップスエレクトロニクスエヌ．ブイ．
Priority date: 2003-05-26
Filing date: 2004-05-14
Publication date: 2007-03-08
Also published as: CN1795367A; WO2004104520A1; EP1631791A1

Abstract

地理的基準（ＧＫ）を考慮して自動的に進行される対話において入力要求（Ｐ）が生成されてユーザーに向けて出力され、前記ユーザーによって話された応答（Ｓ）が検出される、音声制御ナビゲーションシステム（１）を操作する方法が記載される。音声応答（Ｓ）は前記地理的基準（ＧＫ）を考慮に入れて自動音声認識法を使って位置データの認識のために解析される。さらに、対応するナビゲーションシステム用音声データユーザーインターフェースが記載される。

Description

本発明は音声制御ナビゲーションシステムを操作する方法に関するものである。さらに、本発明はナビゲーションシステムのための音声データユーザーインターフェース、この種の音声データユーザーインターフェースをもつナビゲーションシステム、そしてナビゲーションシステムの音声データインターフェースのプロセッサ上で当該方法を実行するためのコンピュータプログラムに関するものでもある。さらに、本発明は音声制御ナビゲーションシステムを操作するために前記方法において使用するための地理的データベースを生成する方法に関するものでもある。

現代の自動車はナビゲーションシステムを使うものがますます多くなっている。この種のナビゲーションシステムは、ユーザーが特定の目的地への経路を割り出したり、行程の間ユーザーに道を案内したりすることを可能にする。これらの機能を提供できるようにするため、ナビゲーションシステムは地理的データを使用し、それに含まれる情報としてはなかんずく地理的領域、町、位置、建物、通り、交差点、道路の特定の区間に沿った好適な所要時間、道路の速度制限などがある。この地理的データを使って、ナビゲーションシステムはある出発点から特定の目的地までの最適経路、すなわち最短もしくは最速またはその両方である経路を見出す。出発点や目的地は、ユーザーが好適なユーザーインターフェースを通じて入力することができる。あるいはまた、一部のナビゲーションシステムでは、出発点はＧＰＳのような自動位置決定装置を使って決定することもできる――それがその時点での出発点となるということである。

ユーザーインターフェースは一般に位置データを入力するためのキーボードを有する。ここで「位置データ」とは任意の位置、地域、建物、道路などについての地理的データのことであるとする。高機能のナビゲーションシステムは、その代わりに、あるいはそれに追加して、ユーザーが自然言語で意思疎通できる音声データユーザーインターフェースを備えている。音声データユーザーインターフェースを使えば特定の装置の手ぶらでの操作が可能となるので、自動車のナビゲーションシステムをそのようにして制御することは安全面からも好ましい。ドライバーは、行程中、自動車のハンドルから手を離すことなくナビゲーションシステムを操作できるのである。

この種の音声データユーザーインターフェースを使用する場合、ユーザーがたとえば位置を指定したり命令を出したりして表現する音声応答は、マイクロホンによって音声信号として検出される。音声応答は次に音声認識装置に送られ、そこで位置や命令が認識されて機械可読な形でナビゲーションシステムの制御装置に伝えられる。音声認識システムの一般的な動作では、音声応答（以下では音声信号ともいう）が最初にスペクトルで、あるいは時間領域で解析され、解析された音声信号が次に区画ごとに既知の音声情報を持つ可能な信号列のさまざまなモデルと比較される。この目的のため、音声認識システムは一般に、さまざまな可能な信号列の包括的なライブラリを備えている。受け取った音声信号と用意されているモデルとの比較を使うことで、音声信号のある特定の区画に最もよく一致するモデルが認識結果に達するために選択される。各モデルが当該音声信号の着目している区画に一致する確率がここで普通に計算される。個々のモデルがある音声信号の着目している区画にどのくらいよく一致するかの確率の解析および計算の間、一般に文法上もしくは言語学上またはその両方の規則が参照される。これにより、長い音声信号の個々の区画が前後の脈絡なく用意されている特定のモデルと一致する可能性が避けられ、全体として有用な認識結果に到達し、音声信号の区画が置かれているコンテキストが考慮され、それにより誤り率を減らすことが保証される。しかし、ナビゲーションシステムにおいて音声認識システムを使うことに関する一つの問題は、位置データ、すなわち町、連邦州、通り、建物などの名称はしばしば固有名詞を含むという事実にある。固有名詞の綴りや発音はきわめて特異でありうる。あらゆる可能な位置データを制限された有効語彙として音声認識システムに利用できるようにすることによって、認識結果を向上させることができる。しかしながら、可能性が膨大な数に上るため、音声認識装置の語彙を使われる可能性のある世界規模で完全なあらゆる位置データに制限することは実用的ではない。他方、ナビゲーションシステムのための音声データユーザーインターフェースの場合には特に、音声応答の入力は一般には好適でない条件下で、すなわち比較的背景雑音が大きい環境で行われる必要があるという問題がある。この点からも、音声認識における認識品質の向上のためのさらなる条件はきわめて有益である。

本発明の目的の一つは、簡単な仕方で音声認識の品質を向上させるような、音声制御ナビゲーションシステムを操作する改善された方法および対応するナビゲーションシステム用音声データユーザーインターフェースを指定することである。

この目的は、自動的に進行される対話において、入力要求が地理的基準を考慮に入れて生成されてユーザーに向けて出力され、前記ユーザーによって話された応答が検出され、前記音声応答が前記地理的基準を考慮に入れて自動音声認識法を使って位置データの認識のために解析される、音声制御ナビゲーションシステムを操作する方法によって達成される。

装置の面では、前記目的は、ユーザーの音声応答を検出するための音声入力装置と、地理的基準を考慮に入れてユーザーとの対話を制御するための対話制御装置と、地理的基準を考慮に入れて入力要求を生成するプロンプト生成ユニットと、地理的基準を考慮に入れて位置データを認識するための前記検出された音声応答を解析する、音声認識装置および解析ユニットと、前記対話制御装置および／または前記プロンプト生成装置および／または前記音声認識装置および／または前記解析ユニットのために地理的基準および／または地理的データを利用可能にする地理的データベースおよび／または地理的データベースにアクセスするデータインターフェースとを有する、入力要求をユーザーに向けて出力するための出力装置をもつナビゲーションシステムのための音声データユーザーインターフェースによって達成される。

ここで、前記対話制御装置による対話シーケンスの制御は、特殊な対話記述言語の形でシステム内に保存されている対話記述システムを用いて行われる。これはいかなる対話記述言語でもよい。通常の言語の例としては、ＣまたはＣ＋＋といったメソッド指向プログラミング言語や、ＶｏｉｃｅＸＭＬやＰＳＰＨＤＤＬといった宣言型でありメソッド指向でもあるいわゆるハイブリッド言語がある。ＶｏｉｃｅＸＭＬとＰＳＰＨＤＤＬは、インターネットサイトを記述するのに一般に使われている言語であるＨＴＭＬに似た構造をもつ言語である。ここで、制御は本質的には、対応する入力要求（一般にプロンプトとしても知られる）をユーザーに向けて出力することで行われる。

自動的に進行される対話を使って、所望の目的地が逐次的に多段の問い合わせステップによって決定される。個々のプロンプトは自動対話において地理的基準を考慮に入れて出力されるので、これらの地理的基準が特定のプロンプトに続く音声応答を認識するための音声認識方法内においても有効な語彙を制限したり、言語仮設を評価したりすることなどに使える。結果として、対話の個々の段階における認識結果は著しく改善され、それは全体としてきわめて信頼性の高い、正しい位置の認識につながる。

対応する入力要求の生成は、たとえば、すでに指定されている可能な入力要求の群から特定の入力要求が選択されるような仕方で行われうる。同様に、入力要求はまた、その対話シーケンス内で特定の場所に応じて完全に新規に生成されることもありうる。

この種のプロンプトは、原則としては、前記プロンプト生成ユニットによっていかなる仕方で生成され、ユーザーに出力されてもよい。すなわち、画面上に書かれた形その他などでもよい。ただし、好ましくは前記出力は音声の形で行われる。これは、ユーザーが交通を注視し続けながら同時にプロンプトに留意することができるという利点があり、その結果としてナビゲーションシステムの操作はいっそう安全なものとなる。音声出力と文字出力を両方同時に行うことも可能である。音声出力には、出力されるプロンプトをテキストの形から音声の形に変換するために、たとえば、音声合成器（テキスト−音声変換器）が使われていてもよい。あらかじめ用意されているプロンプトを使う限りにおいては、これらもまたオーディオデータベースに保存しておくこともできる。また、プロンプト生成ユニットが用意されている音声データ（たとえば文の特定の部分など）から一区画ずつプロンプトを組み立てることも可能で、ここでまた必要な箇所では個々の部分を音声合成器によって生成してもよい。

従属請求項は本発明の特に有利な実施形態およびさらなる実施形態を含んでいる。さらに、方法に関する請求項と同様にして、本発明に基づく音声データユーザーインターフェースがさらに展開される。

プロンプトを生成する際の基礎とした地理的基準をのちに音声応答を認識する際に利用する上ではさまざまな選択肢がある。

ある好ましい実施形態では、入力要求の生成において考慮に入れられた地理的基準を使用して単語リストが作成され、それがそのユーザーによるその後の音声応答の音声認識の際に制限された有効語彙の役割を果たす。よって、たとえば、「目的地はどの連邦州にありますか」という入力要求を発生したときには（この例では、ドイツ全土をカバーする現用の地理的データベースを用いたナビゲーションシステムであるとしている）、ユーザーによるその後の音声応答の音声認識において、国内の連邦州の名前をすべて含むだけの比較的短い単語リストが使われることになる。

これに代わって、あるいはこれに加えて、現在有効な単語リストはまたユーザーとの対話における先の音声応答の認識結果に応じて作成されてもよい。ここで一つの例を挙げると、対話の先の段階でユーザーがすでに目的地はノルトライン・ヴェストファーレン連邦州にあると入力していたとする。続く入力要求「目的地はどの町にありますか」へのユーザーの音声応答の音声認識のためには、単語リストにノルトライン・ヴェストファーレン連邦州にあるすべての町の名前が含まれていれば十分である。

同様にして、その対話におけるユーザーのその後の音声応答の認識結果もやはり、ユーザーによる音声応答の新たな認識のための有効語彙を制限し、それによって認識を改善するために、あるいはそもそも認識ができるようにするために使われうる。ここで一つの例となるのが、「目的地はどの町にありますか」というプロンプトがまず出力された対話であろう。音声認識がそこで信頼できる認識結果を与えることができない――たとえば認識仮設のどれも十分な信頼水準に至らないなどのため――場合、対話の次の段階で「近くにある大都市圏を挙げてください」のようなプロンプトを出力することが考えられる。その場合、この第二のプロンプトに続く音声応答に対しては大都市圏の制限単語リストが使われうる。この質問から得られた認識結果が次に認識された大都市圏の近郊に位置する町だけからなる単語リストを作成し、最初のプロンプトへの音声応答の認識を今一度試みるための役に立つ。以前の音声応答を音声データとして保存しておきこのように繰り返し認識を試みることは、――望むなら――既定のこととして行われるようにしてもよい。

特定の認識結果だけが許容されるようになるこの種の有効語彙の制限は「ハードな」認識として知られている。

その代わり、あるいはそれに加えて、ユーザーによる音声応答の音声認識の過程で決定されたさまざまな認識仮設を、地理的データベースを用い、以前のプロンプトの生成において考慮に入れられた地理的基準によって評価してもよい。このような評価は、その対話におけるその前もしくはその後またはその両方の当該ユーザーによる音声応答の認識結果に応じて行われるようにすることができる。

この事後評価は「ソフトな」形で行われてもよい。その場合、ある特定の数ｎ個の最も可能性の高い認識仮設を順番に並べたものからなる「ベストｎリスト」が作成される。ベストｎリストを作成するために諸仮設を評価する際、地理的基準に関して、認識仮設が以前のおよび／または以後の認識結果および／または入力要求の地理的基準と矛盾しないことが保証されるようにする。このようなベストｎリストは、先に有効語彙が制限された場合にも生成されることが好ましい。そうでなければ、「ハードな」除外基準に従って評価が行われて、それ以後有効語彙は準制限されるようにしてもよい。

特に、対話においてユーザーに要求するデータが連邦州、国などの名前のような明確に定義された事項に関するものでなく、町の大きさなどの「ソフトな」基準に関するものである場合、あるいはある大都市圏への近さなどといったさまざまな地理的位置相互の関係を含むものである場合、このような種類の地理的基準の考慮は、有効語彙の制限のようなハードな除外基準よりも、認識仮設の評価の形のほうが役に立つことが多い。

同一の対話において、地理的音声認識基準を組み合わせて利用する方法も全く問題なく可能である。たとえば、第一のプロンプトに対する音声応答の音声認識のためには有効語彙を制限して、第二のプロンプトに対する音声応答の音声認識のためには認識仮設を評価するために地理的基準を用いてもよい。ある特定の音声応答の音声認識について、ある基準に基づく有効語彙の制限とそれに加えての他のさまざまな基準に基づく認識仮設の評価の両方が行われてもよい。

また、対話シーケンスそのものの選択についてもさまざまな選択肢がある。

たとえば、対話は原則として地理的基準に基づいて厳密に階層的に構成される。すなわち、対話シーケンスにおいては地理的基準に従って階層的に構成された一連のプロンプトが生成される。ここで典型的な例では、まず目的地が位置する国について質問がなされ、次にたとえばもし該当するなら連邦州について、次に地方、そして最後に町、そして通りと続く。ここで、地域は各段階ごとに絞り込まれ、したがってその地域において可能な応答だけが単語リストに作成される。

ある代替的な手順では、地理的基準に関する入力要求は対話においてユーザーによる以前の音声応答の認識結果に応じて生成される。たとえば、第一段階において目的地に関する質問への応答の認識結果が良好でなかった場合に、いちばん近い大都市圏についての質問がされるようにできる。他方、もしもたとえば目的地のある町が第一段階で明確に認識された場合には、対話のすぐ次の段階で通りを尋ねてもよい。

階層的に構成される地理的基準に基づいて対話を構成する際にはまた、さらに、以前の音声応答の認識結果を利用してその対話シーケンスにおけるその後の段階を決めることも可能である。典型的な例は、目的地の位置する連邦州についての質問に対する応答で連邦州「ベルリン」が指定された場合である。その後の入力要求においては、連邦州の中の町を尋ねるよりは、たとえば市内で目的地の位置する行政区を尋ねたほうが有用だろう。

どちらの場合にも、ベルリン市の行政区や連邦州内の特定の地域などについての特定の質問にユーザーが答えられない場合には、「わからない」のような適当な応答によってその対話ステップをスキップしたり、地域を絞り込める別の質問に換えたりできる可能性があることが好ましい。

対話においてたとえば単語リストを作成したり認識仮設を評価したりするのに使われる地理的データベースは、好ましくは、できる限り以前の入力要求もしくは以前の音声応答の認識結果に基づいてある種のデータ項目に制限される。先行するステップにおいてその後のステップのためにデータベースを制限することにより、適切な単語リストの抽出が著しくスピードアップできる。単語リスト作成のために検索する必要のあるデータ項目の数がそれに応じて少なくなるからである。

さらに、使われる地理的データベースのデータ項目に、それぞれ当該データ項目の種類を表す一つまたは複数のマーカーが割り当てられていることがとりわけ好ましい。データ項目の地理的種類とは、たとえば、当該データ項目が国、連邦州、町、大都市圏のどれを表すのか、あるいは当該町がどの連邦州に属するのか、などである。マーカーはまた地理的階層レベルを表してもよい。これらのマーカーを使うことで、検索が特定のマーカーがある項目に限定されるため、さらなるステップのためのデータベースの制限が著しく高速に達成できたり、単語リストがより迅速に抽出できたりより効率的に後処理できたりする。ここで、現在の階層レベルだとか現在尋ねられている地理的種類などといったマーカーの種類は、以前のプロンプトまたは対話段階によって特定の対話応答の認識または評価のために定義されている。

対話制御装置、プロンプト生成装置、音声認識装置および解析ユニットはそれぞれ、たとえばナビゲーションシステムの音声データユーザーインターフェースのプロセッサなど好適なハードウェア上で実装されたソフトウェアコンポーネントでもよい。ここで、音声データユーザーインターフェースはこの目的のための自前のプロセッサを備えていることが絶対必要なわけではない。むしろ、音声データユーザーインターフェースは当該ナビゲーションシステムの残りの機能にも使われるプロセッサの使用を共有するのでもよい。特に、この点に関し、ナビゲーションシステムは一つの構造単位である必要はなく、システムのさまざまなコンポーネントを相互接続されたさまざまな装置の上で実現することも可能であることを指摘しておく。これは特に音声データユーザーインターフェース自身にもあてはまり、そのコンポーネントはやはり空間的に別個の複数のプロセッサ上で実装されていてもよい。よってたとえば、音声認識装置は解析ユニットと一緒にインターネット上の特に大容量のサーバー上で実装され、ユーザーの自動車などに搭載されているナビゲーションシステムのその他のコンポーネントとはデータ接続を介して接続されるようにすることができる。

対話制御装置、プロンプト生成装置、音声認識装置、解析ユニットはそれぞれソフトウェアモジュールの形をとることもできるので、スピーカーやディスプレイといった適切な出力装置を備えた既存のナビゲーションシステムを、本発明に基づく音声データユーザーインターフェースを用いて更新することもできる。必要なのは、システムが音声入力ユニット――単なるマイクロホンでよい――を備えていて、十分強力なプロセッサが利用可能か強力なプロセッサへの適切な接続が存在するということだけである。地理的データベースへのアクセスは本来的にナビゲーションシステム内に存在する。ナビゲーションシステムというものは経路を計算するためにデータベースを必要としているからである。そのデータベースはナビゲーションシステムにあるＣＤのような大容量記憶装置上に保存されていてもいいが、インターネットなどのネットワークを通じて問い合わせをするものでもよい。

そのデータベースは好ましくは前処理段階の一部としてあらかじめ修正される。たとえば、当該データベース項目の種類および／または地理的階層レベルおよび／または川の位置などその他の地理的特徴などを表すマーカーがその段階で個々のデータ項目にそれぞれ割り当てられてもよい。さらに、そのデータベースはまた、階層的に整列されていたり、個々のデータベース項目間の関係が確立されていたり、あるいはその両方であったりして、それにより地理的基準が決定されるようになっていてもよい。この種の地理的基準はデータベース内の別個の位置に保存されてもよいし、データベース項目に直接含まれてもよい。たとえば、「アーヘンの近くのアイレンドルフ」というデータベース項目は同時に二つの町の関係をも含んでいる。本発明に基づく使用のためにこの種のデータベースを用意して用いれば、本発明に基づくナビゲーションシステムはより高速かつ効率的なものとなる。

本発明は図面に示された実施形態の例を参照しつつさらに説明されるが、本発明はそれに限定されるものではない。

図１に示したナビゲーションシステム１は、大枠では伝統的なナビゲーションシステムで、ナビゲーションシステムが必要な機能を保証するため通常備えている要素を一通り備えているものと思ってよい。簡単のため、ナビゲーションシステム１のそうした要素はここでは単一のブロック１３で示されている。ユーザーとのコミュニケーションのため、ナビゲーションシステム１は本発明に基づく音声データユーザーインターフェース２を備えており、図１ではその要素をより詳細に示している。

この音声データユーザーインターフェース２の一つの構成要素は入出力インターフェース１０である。これに音声入力装置１１（ここではマイクロホン１１）と音声出力装置１２（ここではスピーカー１２）とが接続されている。マイクロホン１１を通じて、音声データユーザーインターフェース２はユーザーによる音声応答Ｓを検出することができる。スピーカー１２を通じて、音声データユーザーインターフェース２はプロンプトＰを出力することができる。これはたとえば、ユーザーに音声応答Ｓを行うよう促すために行う。

ユーザーインターフェース２のもう一つの重要な構成要素は音声認識装置６である。これが入力された音声応答Ｓを前処理し、処理し、認識仮設ＥＨを出力する。こうした認識仮設ＥＨは次に、音声応答――たとえば命令や位置の詳細――が理解されうるよう、さらに解析ユニット７で処理される。

音声データユーザーインターフェース２はさらにプロンプト生成ユニット５を備えており、ユーザーに出力すべきプロンプトＰがこれによって生成される。システムによって出力されるプロンプトＰによって音声データユーザーインターフェース２とユーザーとの間の対話を制御する役割を担い、応答としてユーザーから入力される音声応答Ｓを扱うのが対話制御装置３（以下では対話マネージャ３とも呼ぶ）であり、これは所定の対話プログラムに基づいて対話を制御する。この目的のため、対話制御装置３はプロンプト生成ユニット５、音声認識装置６、解析ユニット７、入出力インターフェース１０に接続されている。結果として、対話制御装置３はたとえばプロンプト生成命令ＰＢをプロンプト生成装置５に送信し、それにより特定のプロンプトＰを出力するよう仕向ける。マイクロホンによって音声応答Ｓが検出されるとすぐ、対話制御装置３は入出力インターフェース１０を通じて通知され、開始命令ＡＳを音声認識装置６および解析ユニット７に送る。

本発明にとって重要な音声データユーザーインターフェース２のさらなる構成要素は、地理的データベース８である。このデータベース８はここでは音声データユーザーインターフェース２と一体の構成要素として示されている。ただし、これはナビゲーションシステム１の汎用地理的データベースで、それがナビゲーションシステム１の特に音声データユーザーインターフェース２によって――可能性としては部分的にのみ――使用されるのであっても全く問題ない。

このように構成された音声データユーザーインターフェース２の動作様式について、以下、図２に示した対話ブロック図を参照することによって説明する。

対話は一般に――音声命令や装置の手動操作などによって通常の形で起動したのち――ある特定のプロンプトＰがユーザーに出力されるよう、対話マネージャ３がプロンプト出力命令ＰＢをプロンプト生成装置５に対して出力することによって開始される。このプロンプトＰの生成は特定の地理的基準ＧＫを考慮に入れる。この地理的基準ＧＫは、対話プログラム内であらかじめ決められているか、あるいは対話マネージャ３が地理的データベース８から取得できるものである。

このデータベース８に含まれるデータ項目ＤＥは、たとえば国、地方、連邦州、町、通り、顕著な目印、完全な番地などについての名前およびさらなる地理的データである。ここで、データベース８はデータ項目ＤＥをさまざまな仕方で入力されていてもよい。たとえば、個々のデータ項目ＤＥはそれぞれ、地理的カテゴリーすなわちデータ項目ＤＥが属する種類を示すマーカーＭを含んでいてもよい。マーカーはたとえば、＜国＞、＜連邦州＞、＜町＞、＜市の行政区＞など、あるいは＜小さな町＞、＜大都市圏＞、＜百万都市＞などである。代替または追加として、データベースは階層的に構成されたり、異なる部分に分割されたり、その両方であったりしてもよい。たとえばドイツのような地域では、個々の連邦州のための別々の部分データベースが利用可能な場合があり、そこにはさらに町が入れられる。階層上、町の下にくるのは町の行政区で、それから町の個々の行政区の下には通りの名前などがくる。

さらに、個々のデータ項目ＤＥの間の関係（たとえば二つの町の近さ）などといったある地理的基準もデータベース８に保存されていてもよい。特に、データベース８は、当該データベースからどの地理的基準がたやすく決定できるか、あるいはどの地理的基準には既成のデータレコードが利用可能かといったことを記録する領域を有していてもよい。

前記プロンプト出力命令ＰＢと同時に、対話マネージャ３はリスト作成命令ＬＢを単語リスト生成装置９に対して出力する。この単語リスト生成装置９は、地理的データベース８から、現在求められている地理的基準に従ってデータ項目ＤＥを取得し、そこから単語リストＷＬを作成する。この単語リストがユーザーによるその後の音声入力の音声認識のための有効語彙となる。さらに、対話マネージャ３は開始命令ＡＳを音声認識装置６および解析装置７に送信する。この両者はここでは一つのブロックとして示されている。単語リスト生成装置９は別個のモジュールであってもよいが、図１の例で示していたように音声認識装置６のサブルーチンであってもよい。

次いで音声認識装置６は、プロンプトＰに続く音声応答Ｓについて評価した結果の諸仮設を決定する。この際、音声応答はそれぞれ、単語リスト生成装置９によって作成された単語リストＷＬに含まれる単語の保存されている音声モデルと比較される。比較的制限された単語リストＷＬを使っているため、あらゆる地理的固有名詞の完全な単語リストを用いる場合よりは認識確率が高くなる。

評価が最良だった認識結果ＥＥまたは複数の認識仮設ＥＨは、次に、該当するなら、地理的データベース８内のデータ項目とおよび／または以前の認識結果と、ならびに直前のプロンプトと矛盾しないかどうか、解析装置７によって再度検査される。この目的のため、解析装置７は該当するならデータベース８から整合性検査データＫＣＤを取得する。認識結果ＥＥが確実であれば、データベース８は、該当するなら、その対話の続きにおいては制限される。これはたとえば、認識結果ＥＥまたは諸仮設ＥＨに基づいて、データベース８の一部のデータ項目ＤＥがその後の音声応答において起こる可能性が安全に排除できる場合である。よって、たとえば、「目的地のある連邦州を入力してください」という入力要求への応答として「ニーダーザクセン」の語の認識が信頼できるとすれば、その対話の以後のステップでは他の連邦州にある位置データはみな無視できる。

認識結果ＥＥはまた、対話マネージャ３にも報告として返され、そこで「スロット充填モジュール」４に入力される。このモジュールはシステムの知識の現在の全体的な状態を記述するものである。対話マネージャ３のこのスロット充填モジュール４は情報が十分になった時、すなわち、たとえば目的地または出発点を精密に指定できるためにすべての問い合わせのポイントがはっきりした時を判断する。情報がまだ十分でなければさらなる対話ステップが続くことになり、次の音声応答が認識できるよう、プロンプト出力命令ＰＢが再びプロンプト生成装置５に、リスト作成命令ＬＢが単語リスト生成装置９に、そして開始信号ＡＳが音声認識システム６に対して出力される。このステップでは、先に制限されたデータベース８だけが用いられるので、後続の対話ステップではシステム全体は著しく速く動作する。

スロット充填モジュール４がすべての必要な情報が揃ったと判断したら、プロンプト生成装置５は所望の目的地を確認する対応するプロンプトを発するよう促され、その目的地がさらなる処理のためナビゲーションシステム１のさらなる構成要素（ここではやはりブロック１３で示されている）に送信される。

このシーケンスは二つの例を参照しつつ以下でより具体的に記述される。

第一の例では、対話シーケンスが地理的基準に従って階層的に構成されているものとする。この場合、第一のステップで、たとえば「目的地はどの国にありますか」といったプロンプトがプロンプト生成装置５によって出力される。この入力要求への音声応答としては、さまざまな国名だけが期待されるので、可能な国名の単語リストがデータベース８に基づいて単語リスト生成装置９によって生成される。こうしてこの単語リストはその後の音声応答についての音声認識の間利用可能となる。これがこの対話の第一階層レベルである。一致する国が正しく認識されたら、たとえば国名「ドイツ」が述べられたら、次いで第二の階層レベルで「目的地はどの連邦州にありますか」というプロンプトが生成される。すると、ドイツの連邦州すべてを列挙した単語リストが作成される。次いで、さらなる階層レベルにおいて、町が尋ねられるか、あるいはもし該当するなら途中の階層段階で特定の地方が尋ねられる。町が確定したら、大都市の場合には行政区が尋ねられる場合もある。そして最後に、下層段階の一つにおいて、通りの名と住宅または特定の建物などの番地が尋ねられる。

第二の実施例では、データベース８における個々のデータベース項目にマーカーが付いているものとする。マーカーは特定の種類のデータベース項目またはデータベース項目間の特定の関係を表す。この変形では、本来的に、対話シーケンスは厳密に階層的に大きな地理的単位から小さな地理的単位へと構成されるわけではなく、比較的柔軟である。この種の対話シーケンスは、ある種の状況では、すなわち良好な認識条件のもとでは、厳密に階層的な構造の対話シーケンスよりも少ないステップ数で目的地にたどりつく。この場合、対話制御ユニット３はまずたとえば「どの町に行きたいですか」というプロンプトを選択する。そして、もし該当するなら、データベース８で利用可能なすべての町の項目の単語リストが作成される。以前にそれ以上の制限がなされていない限り、これはもちろん比較的長いリストになる。換言すれば、音声認識システムの有効語彙がきわめて広く、国、連邦州などについての先の問い合わせによってあらかじめ制限された単語リストの場合よりも、音声認識はかなり困難になる。音声認識システムが許容できる認識結果を出せば、目的地の町は一度の質問だけで確定され、その場合、続く対話ステップでは通りや家屋の番地などより細かい住所データの入力を行うことができる。

しかしながら、さまざまな認識仮設について計算された信頼水準が十分でないなどのためシステムが認識結果に確証がもてない場合、その事実が対話制御装置３に（仮の）認識結果として返されうる。すると対話制御装置３はその後の対話ステップでさらなるプロンプト、たとえば「近くにある大都市圏を挙げてください」といったものを出力する。そして大都市圏に制限された有効単語リストが作成される。これは、データベース８から＜大都市圏＞というマーカーを含むデータ項目ＤＥをすべて検索すればいいので比較的容易にできる。この単語リストは最初の対話ステップにおける単語リストよりも著しく短いので、有効語彙が少ないため、この第二の質問の場合、第一の場合より認識結果ＥＥは良好であろう。

次に、前記認識結果ＥＥを用いて、データベース８において、前記大都市圏の近くに位置するすべてのデータ項目ＤＥが抽出できる。もし適用可能ならまた、前記認識された大都市圏の近くに位置するという条件を満たすすべてのデータ項目ＤＥを第一段階においてマークして、それからその条件を満たす町すべてを含む新しい単語リストを作成するようにしてもよい。行きたい町についての先の質問に対するユーザーの音声応答が保存されていれば、この第一の音声応答についての音声認識を、よりよい認識結果に到達するために今再び、制限された単語リストを用いて実行することが可能である。あるいはまた、対話マネージャ３はまたプロンプト生成装置５が最初のプロンプト「どの町に行きたいですか」を今一度出力するよう促し、それからその後の音声応答の音声認識を前記制限された単語リストを用いて実行するようにすることができる。

締めくくりに、本発明が上述した実施例――特に音声データユーザーインターフェースの詳細な構造や説明された対話の詳細な順列――に限定されるものではなく、当業者には本発明の範囲を外れることなく大幅に変更を加えうることを今一度指摘しておく。

特に、さらなる基準、特に補助的な地理的知識を音声認識のために利用することが可能である。たとえば、現在位置からの距離を認識仮設の評価もしくは単語リストの作成またはその両方において考慮してもいい。特定のユーザーがこれまである目的地に何度訪れたかを考慮してもいい。多くの場合、ユーザーは同じ場所に頻繁に行くからである。複数の質問を一つのプロンプトでカバーして、たとえば「行きたい目的地と近くにある大都市を教えてください」のような質問をすることも可能である。すると、その後の音声認識では、さまざまな町の地理的関係が認識仮設をよりよく評価するために用いることができる。さらに、スロット充填モジュールはたとえば対話マネージャではなく解析装置の中に配置することもできる。

本発明は主として目的地を決定しなければならない例を参照しつつ記載されてきた。同様にして出発点または中間停止点のようなその他の位置データもユーザーとシステムとの間の対話において決定することができる。換言すれば、複数の同じような対話を逐次行うことができる。

完全性のために指摘しておくと、単数形の表現は当該特徴が複数存在するかもしれない可能性を排除するものではない。「有する」の語を使用していることは、他の要素やステップの存在を除外するものではない。

本発明に基づくナビゲーションシステムのある実施例のシステム構成の概略図である。本発明に基づく、ユーザーとシステムとの間のある可能な対話シーケンスを説明する対話ブロック図である。

Claims

自動的に進行される対話において
・入力要求が地理的基準を考慮に入れて生成されてユーザーに出力され、
・前記ユーザーによって話された応答が検出され、
・前記音声応答が前記地理的基準を考慮に入れて自動音声認識法を使って位置データの認識のために解析される、
ことを特徴とする、音声制御ナビゲーションシステムを操作する方法。
入力要求の生成において考慮に入れられた地理的基準を使用して、ならびに／またはその対話における以前および／または以後の当該ユーザーによる音声応答の認識結果に応じて、地理的データベースから単語リストが作成されて当該ユーザーによるその後の音声応答の音声認識の際に有効語彙の役割を果たす、ことを特徴とする、請求項１記載の方法。
当該ユーザーによる音声応答の音声認識の間に決定された認識仮設が、地理的データベースを用い、以前の入力要求の生成において考慮に入れられた地理的基準によって、ならびに／またはその対話における以前および／または以後の当該ユーザーによる音声応答の認識結果に応じて、評価されることを特徴とする、請求項１または２記載の方法。
対話において地理的基準に従って階層的に構成された入力要求が生成されることを特徴とする、請求項１ないし３のうちいずれか一項記載の方法。
対話において地理的基準に関する前記入力要求が当該ユーザーによる以前の音声応答の認識結果に応じて生成されることを特徴とする、請求項１ないし４のうちいずれか一項記載の方法。
対話において、単語リストの作成および／または認識仮設の評価のために、以前の入力要求および／または以前の音声応答の認識結果に基づいて一部のデータ項目に制限されている地理的データベースが利用されることを特徴とする、請求項１ないし５のうちいずれか一項記載の方法。
単語リストの作成および／または認識仮設の評価のために、データ項目のそれぞれが当該データ項目の種類および／または地理的階層レベルおよび／または他のデータ項目との関係および／またはその他の地理的特徴を表す一つまたは複数のマーカーを割り当てられている地理的データベースが利用されることを特徴とする、請求項２ないし６のうちいずれか一項記載の方法。
・入力要求をユーザーに出力するための出力装置と、
・当該ユーザーによる音声応答を検出するための音声入力装置と、
・地理的基準を考慮に入れて当該ユーザーとの対話を制御するための対話制御装置と、
・地理的基準を考慮に入れて入力要求を生成するためのプロンプト生成ユニットと、
・地理的基準を考慮に入れて位置データの認識のために検出された前記音声応答を解析するための音声認識装置および解析ユニットと、
・前記対話制御装置および／または前記プロンプト生成装置および／または前記音声認識装置および／または前記解析ユニットのために地理的基準および／または地理的データを利用できるようにする、地理的データベースおよび／または地理的データベースにアクセスするためのデータインターフェースとを、
有することを特徴とする、ナビゲーションシステムのための音声データユーザーインターフェース。
請求項８記載の音声データユーザーインターフェースを有するナビゲーションシステム。
ナビゲーションシステムの音声データインターフェースのプロセッサ上で実行されたときに、請求項１ないし７のうちいずれか一項記載の方法のすべてのステップを実行するためのプログラムコード手段を有するコンピュータプログラム。
請求項１ないし７のうちいずれか一項記載の方法で使うための、個々のデータ項目のそれぞれが当該データ項目の種類および／または他のデータ項目との関係および／または地理的階層レベルおよび／またはその他の地理的特徴を表す一つまたは複数のマーカーを割り当てられているような地理的データベースを生成する方法。