JP2007530327A

JP2007530327A - 対話プロセス制御方法

Info

Publication number: JP2007530327A
Application number: JP2006520055A
Authority: JP
Inventors: ショル，ホルガー
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-07-18
Filing date: 2004-07-06
Publication date: 2007-11-01
Also published as: US20070043570A1; EP1649451A1; CN1823369A; WO2005008627A1

Abstract

現在状況パラメータが自動決定され、対話プロセスの制御が、現在状況に対話プロセスが適応されるように状況パラメータに基づき実行される対話プロセス制御方法が説明される。

Description

本発明は、特に音声制御アプリケーションにおける対話プロセス制御方法及び対応する対話システムに関する。

マンマシーンインタフェースの技術分野の発達は、技術的装置の動作が当該装置と装置のユーザとの間の対話により実行されることが多くなってきていることを意味する。このように、合成された音声の出力によりナビゲーションシステムのユーザに当該ナビゲーションシステムが質問やコマンドを与え、ユーザがコマンドや質問を発することによりナビゲーションシステムと対話するようにすることによって、ナビゲーションシステムが動作するということが特に知られている。しかしながら、音声に基づくものでない操作対話もまた知られている。このようにして、ほとんど全ての携帯電話は、例えば、当該携帯電話に付属するグラフィックディスプレイ上の選択肢の表示と、ユーザにより押下される適切なキーの結果としての選択肢の１つの選択とに基づく操作対話により現在は設定されている。

人間とマシーンとの間のこの種の操作対話は、人間の間で行われる対話と異なり、そこで行われるプロセスは常に同じになるという問題点をもたらす。長い間、ユーザや周囲への適応に対する備えはされていなかった。この問題点を解決するため、いくつかの解決のアプローチが考えられ、実現されてきている。このように、第１動作ステップにおいて、ユーザが初めて操作する装置を使用しているか、あるいは、ユーザが装置の操作方法について既に精通しているか通知する入力を行う操作対話がすでにある。ユーザによるこの最初の入力に基づき、操作対話の継続は、例えば、装置の操作に絶対的には必要でない選択肢を、ユーザが選択するために最初にユーザには提示せず、使用経験のあるユーザに対してこれを行うことにより、ユーザが有する経験に適応される。他の解決のアプローチは、全く異なる方向を指向するものであり、すなわち、対話出力を周囲にのみ適応させるものである。このため例えば、周囲の雑音が判断され、操作対話の一部として、この周囲の雑音の音量が高いときには出力の音量を高くし、またはその反対に雑音の音量が低いときには出力の音量を低くするようにして音声出力の音量が周囲の雑音に適応されることが知られている。

上記既知の解法は人間とマシーンとの間の操作対話を大きく向上させるが、実際には依然として、それらは特に人間同士の対話と比較して、満足な結果を与えるものではない。

従って、本発明の課題は、技術的装置と当該装置のユーザとの間で信頼性の高い通信が行われることを可能にする対話プロセスを制御する方法を特定することである。

上記課題は、導入部で説明したような対話プロセスを制御する方法であって、現在状況パラメータが自動決定され、当該対話プロセスの制御が、前記現在状況に当該対話プロセスが適応されるように前記状況パラメータに基づき実行されることを特徴とする方法により解決される。従属クレームは、各場合において本発明の効果的な実施例及び精緻化したものに関連する。

本発明は、この場合にはまず、制御対象となる対話が実行されている現在状況を、連続的に又は固定的又は可変的間隔で自動的に検知するアイデアに基づくものとされる。特に、対話プロセスは、現在状況に定期的に適応されるようにしてもよい。このため、制御対象となる対話に関する限り、現在状況を特徴付ける１以上の状況パラメータが決定される。

制御対象となる対話又は制御対象となる対話が実行されているアプリケーションに応じて、考慮可能な多様な状況パラメータが存在する。しかしながら好ましくは、位置情報、位置座標、時間情報、日時、画像情報、音声情報、映像情報、温度情報、照度情報（例えば、明るさや外部の照度など）、周囲の情報（例えば、周囲の雑音など）、ユーザ情報（例えば、血圧、脈拍数、発汗レート、ユーザの移動量など）、速度情報、運転状況情報（例えば、加速度情報、傾斜情報、ブレーキングシステム情報、ステアリングシステム情報、アクセルペダル情報、ブレーキアンチロックシステム情報、ＥＳＰ（ＥｌｅｃｔｒｏｎｉｃＳｔａｂｉｌｉｔｙＳｙｓｔｅｍ）情報、ヘッドライト情報、渋滞状況、路面特徴など）、及び／又は社会活動標識（例えば、周囲エリアの人数、やりとりの量など）の状況パラメータの１以上が決定される。

上記状況パラメータに加えて、又はそれらの代わりに、好ましくは、音声認識システムのパーツなどの対話システムの一部又は対話システム自体のシステムパラメータにより状況パラメータが構成されるように準備される。このようにして、以下の音声認識パラメータ、すなわち、信号対雑音比（ＳＮＲ）、アーティキュレイション（ａｒｔｉｃｕｌａｔｉｏｎ）スピード、声調又は言語ストレス標識、認識により達成される信頼度、ユーザによる以前の発話、対話プロセスで同時にオープンされるシステムのセマティックコンセプト数、ユーザの発話の虚辞の割合、及び／又は発話インパクト標識（例えば、ためらいの回数など）もまた状況パラメータとして利用されてもよい。このように実現されるものは、現在状況がほとんど追加的なコスト及び複雑さなく検知可能であるということである。なぜならば、状況パラメータとして利用されるものは、他の用途のため対話プロセスにおいて何れかの方法により生成されるシステムパラメータであるからである。

検知される状況パラメータに基づき、その後、対話プロセスは、現在状況に適応するように制御される。対話プロセスは、例えば、この場合には対話ステップにより規定されてもよい。対話ステップは、対話入力ステップ（ユーザによる対話システムへの入力）及び／又は対話出力ステップ（対話システムからユーザへの出力）を有するかもしれない。対話プロセスの適応化は、例えば、対話ステップ自体を変更することにより実行されてもよい。対話ステップへの変更は、好ましくは、対話ステップ及び／又は選択肢において出力される情報の量及び／又は性質の変更として実現されるであろう。対話ステップ自体の変更に加えて、又はその代わりに、対話プロセスが対話ステップシーケンスを変更することによって、あるいは最大限の対話ステップ群から選択される対話ステップを変更することによって、適応可能となる。例えば、重大な操作状況において対話プロセスを簡単化するため、個々の対話出力ステップにおいて提供される選択肢の個数は減らされるか、あるいは、対象となる状況において操作するのに必要であるか、あるいは容易に把握できる選択肢のみが表示されるようにしてもよく、及び／又は、提示される選択肢はユーザが把握するのに特に容易となるように示されるようにしてもよい。これに加えて、又はその代わりに、実行される対話出力ステップは、好ましくは、対象となる状況における操作に必要なもののみとされる。

本発明は、それが音声認識及び音声出力を有する音声制御アプリケーションに埋め込まれた場合に特に効果を与える。これは、マンマシーン対話が大部分の変更された状況において可能であり、現在状況への適応が特に効果的である環境において適しているためである。このようにして、車両のナビゲーションシステムは、当該車両の停止時及び高速道路走行中の両方において、基本的に音声による操作が可能である。しかしながら、高速道路の走行は、運転手からのより大きな注意を求めるものとなり、このため、対話プロセスがこの状況において簡単化されることは効果的である。このため、対話出力ステップで用いられる言語は、例えば、理解するのが容易な意味又は音声を有する単語の出力を優先させることにより、わずかな単語で選択肢を規定し、及び／又は「はい」又は「いいえ」などの簡単な回答によりユーザが返答可能な質問を出力するよう簡単化されてもよい。この場合、対話入力ステップ、すなわち、ユーザにより発話されたコマンドに適用される音声認識は、好ましくは、動作ミスを回避するため、重大でない状況より重大な状況においてより高い信頼性を認識に要求することにより現在状況に適応される。これに加えて、又はその代わりに、対話入力ステップに適用される音声認識は、出力ステップに対応する発話された入力情報を予想させることにより、当該状況に適応され、前の対話出力ステップにおいて出力された選択肢に適応される。従って、重大操作状況に対話プロセスが適応された結果として、「はい」又は「いいえ」の回答を予想する質問が対話出力ステップにおいて出力される場合、音声認識システムは、ユーザから「はい」又は「いいえ」が発話されたことを確かめるため好ましくは入力をチェックするように制御される。

音声制御システムが利用されているとき、状況パラメータとして好ましくは利用されるものは、上述された方法によりユーザの発話を特徴付けるシステムパラメータ（音声認識パラメータ）である。例えば、速いアーティキュレーションスピード、大きな発話、理解するのが困難な発話、及び／又は大きなバックグラウンドノイズもまた、重大状況の標識とされてもよい。

自動音声認識が組み込まれる対話プロセスは、例えば、対話システムに重大状況では少ない語彙、短い単語及び／又は簡単な単語を出力させ、及び／又は当該状況でははっきりした、すなわち、特に明確な言明を用いさせることによって、現在状況に適応させるようにしてもよい。これに加えて、又はその代わりに、短い回答のみを求める質問を出力することに出力ステップでは優先するようにしてもよい。予備的調査において効果的であると判明したものは、さらなる処理が行われる前のチェックのため再び出力させることによって、明示的な検証を行うように重大状況において特に重要な音声認識システムにより検出された入力に対するものである。他方、重大でないか、あるいはリラックスした状況では、音声認識システム又は音声出力は、ユーザがより多い語彙を用いてシステムと通信可能であり、ユーザ入力が例えば、以降の対話ステップにおいて非明示的にのみ検証される従来モードにスイッチ可能である。また、重大状況では、例えば、システムが対話プロセスの正確なコースを指示し、それに対する変更が可能でないシステムによって決定される動作モードに自動的にスイッチすることが可能である。他方、よりリラックスした状況では、システムは、ユーザが自分の直感によりシステムに問い合わせされていない入力をすることが可能な「合成直感」動作モードと呼ばれるものにおいて実行されてもよい。この種の促されていない入力はシステムにより理解され、必要に応じて、対話プロセスはこれに応じて変更される。この種の動作モードの変更は、例えば、対話中にオープンにされているセマティックコンセプトの個数を調整することにより可能となる。オープンとされるセマティックコンセプトの個数は、好ましくは重大状況では減らされるか、あるいは必要に応じて、オープンにされた１つのみのセマティックコンセプトにより処理が進められてもよい。

対話状況を可能な限り包括的に検知することを可能にし、対話プロセスをほとんどコスト及び複雑さを要することなく検知される状況に安定的かつ実践的に適応されるのを可能にするため、多くのコストを伴う調査は、現在状況プロファイルが決定された状況パラメータに基づき状況分類の一部として決定され、対話プロセスの現在状況への適応化が決定された状況プロファイルに基づき実行されることが特に効果的であることを証明している。車両において利用されるとき、状況プロファイルとして提供されるものは、例えば、「重大運転状況」、「非重大運転状況」及び「駐車状況」などがある。状況プロファイルは、好ましくは、１以上の状況パラメータの範囲にそれぞれ割当てられた論理「ＡＮＤ」又は「ＯＲ」を適用することによって規定される。このようにして、「重大運転状況」は、例えば、速度が１００ｋｍ／ｈを超過するか、あるいは、加速度レベルが所定の加速度閾値レベルを超えた場合には、存在すると検出される。「非重大運転状況」は、好ましくは、速度が１００ｋｍ／ｈ未満であって、かつ周囲の雑音が静かな場合には、存在すると検出される。「駐車状況」は、典型的には、スイッチオフされたエンジンにより規定することができる。

上述の現在状況に対話プロセスを「離散的」適応（現在状況を個々の状況プロファイルに変換する）するのに加えて、又はその代わりに、現在状況の変化が小さいときには、対話プロセスもまた所望の小さなサイズのステップにより変更される現在状況への対話プロセスの「連続的な」適応化（現在状況の連続する状況関連値への変換）が、好ましくは用意される。このため、現在状況を特徴付ける現在の状況関連値が、例えば、数学的変換により状況パラメータから決定される。好ましくは、この場合、大きな状況関連値が重大状況を表し、小さな状況関連値が重大でない状況を表すように、数学的変換が定義される。車両ナビゲーションシステムにより出力される合成された音声のスピードは、例えば、当該車両の速度の増大に線形的に低下されるようにしてもよい。「離散的」適応化と「連続的」適応化とを合成した結果は、特に安定的かつユーザフレンドリーな、急峻でない状況分類となる。

特定の選好として、存在する状況がプライベートなものであるか、それとは反対にパブリックなものであるかに基づき、対話プロセスが変更される。プライベートな状況とは、例えば、周囲の雑音が静かなときに存在し、パブリックな状況とは周囲の雑音が大きな時に存在するかもしれない。例えば家庭などのプライベートな状況におけるユーザの認証は、例えば、シークレット番号を明示的に発することにより対話ステップの一部として実行されてもよい。プライベート情報がバスや支払機を利用するため待っている列などのパブリックな状況における対話プロセス中に発せられなければならないように、対話プロセスは、ＰＩＮパッドなどを介した非発話的入力のみが求められるように制御される。

本発明はまた、対話入出力インタフェース、状況パラメータインタフェース及び対話制御手段を有し、現在状況パラメータが自動決定され、当該対話プロセスの制御が、前記現在状況に適応するように前記状況パラメータに基づき実行されるよう構成されることを特徴とする対話システムをカバーする。状況パラメータインタフェースを介し、対話システムは、特にこの場合、例えば各種センサ手段や測定手段などの状況検知手段に接続されるようにしてもよい。対話システムは、好ましくは、マイクロフォンやキーボードなどの入力手段及び／又はラウドスピーカーや表示装置などの出力手段と対話入出力インタフェースを介し接続される。対話システムが生のセンサデータを処理する必要を回避するため、さらなる信号処理手段又は情報処理手段が、インタフェースと状況検知手段又は入出力手段との間に設けられる。

本発明はまた、方法のクレームに従属する請求項と同様に実現される対話システムをカバーする。

本発明の上記及び他の特徴は、以降に説明される実施例を参照することにより明らかにされる。

事実を明確化するため、図１において、特に本システムのハードウェア構成の要部となるコンポーネントのみが示される。本システムは、例えば、適切な接続ライン、増幅手段、コントロールまたは表示手段などの対話システムの一部を通常構成するその他すべてのコンポーネントを有するようにしてもよいということは明らかである。

図１は、対話システムＤＳの一部として、当該対話システムＤＳがセンサ手段Ｓ１，．．．，Ｓｎと測定手段Ｍ１，．．．，Ｍｍとに接続されるのを介する状況パラメータインタフェースＰＳＳを示す。対話システムＤＳはまた、入出力インタフェースＥ／ＡＳＳを介しラウドスピーカーＬＳ及びマイクロフォンＭＩＣに接続される。対話システムＤＳはまた、状況評価ユニットＳＡを有する。この状況評価ユニットＳＡには、センサ手段Ｓ１，．．．，Ｓｎからセンサデータｓｉと、測定手段Ｍ１，．．．，Ｍｎから測定データｍｉとが供給され、当該データは状況パラメータインタフェースＰＳＳを介し入力される。また、状況評価ユニットＳＡには、音声制御プロセスの一部として中間又は最終結果として何れかの方法により決定される音声認識システムパラメータｓｙｓｐが供給される。

現在決定された状況パラメータ（センサデータｓｉ、測定データｍｉ及び音声認識システムパラメータｓｙｓｐ）に基づき、現在状況プロファイルｓｐと、より精度の高い評価のためにさらに加えて、現在状況関連値ｓｗとが、状況評価ユニットＳＡにおいて決定され、対話システムＤＳの中枢を形成する対話制御手段ＤＳＴＥにわたされる。その後、制御パラメータｓｔｐが、決定された状況プロファイル及び／又は決定された状況関連値とに基づき、対話制御手段ＤＳＴＥにおいて決定される。制御パラメータｓｔｐは、音声制御システムＳＳｔの各部と対話マネージャＤＭとの両方にわたされる。この場合、音声制御システムＳＳｔは、自動音声認識ユニットＡＳＲ、音声解釈ユニットＡＳＵ、言語生成ユニットＬＧ及び音声合成手段ＳＳを用いて実現される。入出力インタフェースを介し、音声合成手段ＳＳは、ラウドスピーカーＬＳ、音声認識ユニットＡＳＲ及びマイクロフォンＭＩＣに接続される。対話マネージャは、例えば、入出力ステップシーケンスや選択などの対話プロセスを主として調整する。制御パラメータｓｔｐが対話マネージャＤＭに対して作用する結果、対話プロセスは現在の状況に適応される。これに加えて、対話プロセスはまた、音声制御システムＳＳｔの各部ＡＳＲ、ＡＳＵ、ＬＧ及びＳＳに対して制御パラメータｓｔｐが有する効果により現在状況に適応される。

対話マネージャＤＭ、対話制御手段ＤＳＴＥ及び／又は状況評価手段ＳＡは、特にこの用途のために備えられ、本発明による方法を実行するよう構成されたプログラミングを有する１以上のプログラム制御コンピュータユニット及び他の回路構成によって、個々に又はまとめて構成されてもよい。このため、コンピュータユニットには、プロセッサ手段とメモリ手段とが備えられてもよい。メモリ手段には、プログラムデータだけでなく、各種状況プロファイルｓｐ及び状況関連値ｓｗの定義とそれらの制御パラメータｓｔｐに対するマッピングが格納されてもよい。対話システムＤＳのユーザにより行われる対話システムＤＳの設定がまた、格納手段に格納されてもよい。この補充として、ユーザによる発話された入力を解釈したり、又は対話プロセスを制御するのに用いられる情報もまた、例えば、何れもが対話マネージャＤＭにアクセス可能なアプリケーションデータベースＡＤＢと知識データベースＷＫなどの当該用途のために特別に備えられたデータベースに格納されてもよい。

またこの場合、当該コンピュータユニットの一部として、又はそれとは独立に、測定値ｍｉ、センサデータｓｉ又は音声認識システムパラメータｓｙｓｐを前処理し、又は制御パラメータｓｔｐにさらなる処理を適用する他の情報処理手段が設けられてもよい。

図２を参照することにより、音声制御車両ナビゲーションシステムの対話プロセスが現在状況に適応される方法により従う例示的処理が説明される。

まず始めに、当該車両が高速道路の追い越し車線にいるとする。第１ステップでは、状況パラメータを与えるため、車両の速度ｖ１が測定され、車両の加速度ａ１が加速度センサにより感知され、バックグランドノイズｇ１が音声認識プロセスの一部として音声認識システムパラメータとして決定される。これらの状況パラメータｖ１、ａ１及びｇ１は、状況評価ユニットに供給される。車両の高スピードｖ１、大きな加速度ａ１及び大きなエンジンノイズｇ１のため、重大な状況が、状況プロファイルｓｐ１として存在するとわかる。また上記３つの入力状況パラメータｖ１、ａ１及びｇ１から、これら３つすべての状況パラメータｖ１、ａ１及びｇ１が重大状況に対して特に高くなるという事実を反映する大きな状況関連値ｓｗ１が決定される。

その後、状況プロファイルｓｐ１と状況関連値ｓｗ１が制御パラメータｓｔｐ１又は制御パラメータ群に変換され、その後、対話マネージャ及び音声認識システムに供給される。制御パラメータｓｔｐ１が対話マネージャ及び音声認識システムにおいて処理される結果、対話システムは現在状況に適応される。存在するとわかった重大状況のため、例えば、ナビゲーションシステムとユーザとの間の対話は、ユーザが「はい」又は「いいえ」の単語を発することにより応答することが可能な容易に理解できる情報のみをナビゲーションシステムが出力するように設定される。

第２ステップでは、当該車両がエンジンをオフにして駐車スペースにあるとする。再び状況パラメータを与えるため、速度ｖ２が測定され、加速度ａ２が感知され、バックグラウンドノイズｇ２が音声認識システムパラメータとして決定される。再び、状況パラメータｖ２、ａ２及びｇ２が状況評価ユニットに供給され、現在存在するとわかったものは、非重大状況又は「駐車状況」である。また、車両が停車しているだけでなく、特に静かな状況でそうしているという事実を反映する小さな状況関連値ｓｗ２が、上記３つの入力状況パラメータｖ２、ａ２及びｇ２から決定される。

その後再び、状況プロファイルｓｐ２と状況関連値ｓｗ２が、制御パラメータｓｔｐ２、又はこの場合には制御パラメータ群に変換され、その後に、対話マネージャ及び音声認識システムに供給される。対話マネージャ及び音声認識システムにおいて制御パラメータｓｔｐ２が処理された結果として、再び対話プロセスが現在状況に適応される。存在すると判明押した「駐車状況」のため、ナビゲーションシステムとユーザとの間の対話は、例えば、対話プロセスの一部として、ナビゲーションシステムが比較的理解するのが困難であって、ユーザが単なる「はい」又は「いいえ」以外の意味を有する回答により応答する比較的複雑なメッセージを伝達する情報を出力するように設定される。

最後に、図面に図示され、本発明に記載されるシステム及び方法は、本発明の範囲を逸脱することなく当業者により広範に変更可能な単なる例示的実施例であるということが指摘される。このように、自動音声認識を有する対話システムが、図面を参照することにより説明された。しかしながら、これに加えて又はこれの代わりに、対話システムはまた、グラフィックディスプレイなどの表示手段と、キーボードやタッチ画面などのコントロールを有するようにしてもよい。本発明による対話システムは、携帯電話、電子ノート、音声／映像プレーヤーなどの家庭での娯楽に用いられる携帯型電子装置に搭載されたり、又は洗濯機や調理器具などの家電機器や自動現金預払機などに用いられてもよい。

万全を期するため、不定冠詞「ある」の使用は対象となる特徴が複数回登場する可能性を排除するものでなく、「有する」という用語の使用は他のアイテム又はステップの存在の可能性を排除するものでないということが指摘されるべきである。

図１は、対話システムの簡単化された一般的構成の図である。図２は、対話システムの制御方法の各ステップの概略図である。

Claims

対話プロセスを制御する方法であって、
現在状況パラメータが自動決定され、
当該対話プロセスの制御が、前記現在状況に当該対話プロセスが適応されるように前記状況パラメータに基づき実行される、
ことを特徴とする方法。
請求項１記載の方法であって、
当該対話プロセスは、音声制御アプリケーションの枠組みに埋め込まれ、
当該対話プロセスにおいて自動音声認識ユニットが利用される。
ことを特徴とする方法。
請求項１又は２記載の方法であって、
当該対話プロセスにおいて音声合成手段が利用されることを特徴とする方法。
請求項１乃至３何れか一項記載の方法であって、
前記決定された状況パラメータに基づき、現在状況プロファイルが決定され、
当該対話プロセスの制御は、前記現在状況に当該対話プロセスが適応するように状況プロファイルに基づき実行される、
ことを特徴とする方法。
請求項４記載の方法であって、
各種状況プロファイルが広範な状況パラメータに割当てられ、
前記現在状況プロファイルとして決定されたものは、前記決定された状況パラメータが存在する状況パラメータの範囲に割当てられた状況プロファイルである、
ことを特徴とする方法。
請求項１乃至５何れか一項記載の方法であって、
前記決定された状況パラメータから、現在状況関連値が決定され、
当該対話プロセスの制御は、前記現在状況に当該対話プロセスが適応されるように前記状況関連値に基づき実行される、
ことを特徴とする方法。
請求項１乃至６何れか一項記載の方法であって、
状況パラメータとして利用されるものは、他の用途に対して当該対話プロセスに関して何れかの方法により生成されるシステムパラメータであることを特徴とする方法。
請求項７記載の方法であって、
自動音声認識の一部として生成される音声認識システムパラメータは、状況パラメータとして利用されることを特徴とする方法。
請求項１乃至８何れか一項記載の方法であって、
当該対話プロセスの制御は、プライベート状況におけるユーザ認証が公衆状況において必要とされないようにユーザデータオブジェクトの入力を求めるように、状況パラメータに基づき実行されることを特徴とする方法。
対話入出力インタフェース、状況パラメータインタフェース及び対話制御手段を有し、
現在状況パラメータが自動決定され、
当該対話プロセスの制御が、前記現在状況に適応するように前記状況パラメータに基づき実行される、
よう構成されることを特徴とする対話システム。
請求項１０記載の対話システムであって、
センサデータ及び測定データをそれぞれ決定するため、前記状況パラメータインタフェースに接続されるセンサ手段、及び／又は前記状況パラメータインタフェースに接続される測定手段により特徴付けされる対話システム。