JP4408490B2

JP4408490B2 - データベース照会を実行する方法及びその装置

Info

Publication number: JP4408490B2
Application number: JP23002999A
Authority: JP
Inventors: ヤーコプリューバーベルンハルト; ケルナーアンドレーアス; ザイデフランク
Original assignee: ニュアンスコミュニケーションズ，インコーポレイテッド
Priority date: 1998-08-17
Filing date: 1999-08-16
Publication date: 2010-02-03
Anticipated expiration: 2019-08-16
Also published as: EP0981129A2; US6513037B1; EP0981129A3; DE19837102A1; JP2000105776A

Description

【０００１】
【発明の属する技術分野】
本発明は、データ処理装置によりデータベース照会を実行する方法に関し、照会は自然音声での複数の音声発言の形でユーザにより入力され、データ処理装置は各音声発言に応じて音声出力を発生させ、認識装置は各音声発言を言語モデルを利用して音響的に最も高い確率の少なくとも１組のステートメントに変換させ、そのステートメントは整合性がテストされ、一致したステートメントは本目的に適する装置に保存される。
【０００２】
【従来の技術】
かかる方法及び対応する装置は、ＤＥ１９６３９８４３.
６Ａ１（ＰＨＤ96.167）に開示されている。各音声発言から引き出され、巧く整合性がテストされた最も高い確率のステートメントは、装置内に保存される。上記ステートメントは次の音声発言から引き出されたステートメントの整合性をテストするために利用され、最終的にデータベース照会用に利用される。システムにより発せられる音声出力により、データベース照会に必要な全てのステートメントが得られるまで、ユーザは音声応答を与えるように何度も催促される。よって、システムにより発せられる各音声出力は、先行する音声発言及びそれから引き出されたステートメントに限られた程度に依存する。
【０００３】
しかしながら、本方法では音声発言を通してユーザにより意図された正しいステートメントは、例えばユーザによる不十分な発音に起因して、最も高い確率ではなく低い確率で認識されることが起こり得る。上記の低い確率のステートメントはもはや追跡されないので、ユーザとの対話が最も高い確率で間違って認識され続け、このステートメントが正しくない場合には、最終のデータベース照会は間違ったステートメントから引き出されることが最終的に起こり得る。
【０００４】
ＷＯ96/13030において、電話照会サービス用の装置及びその方法が開示され、複数のステートメントはユーザの各音声発言から引き出され、保存される。しかしながら、システムによりユーザへ提供される音声出力は、固定スキームに従って進行し、次の音声発言から引き出されるステートメントと比較されるデータベースからのデータ量を減少させるために、今までに引き出されたステートメントが利用される。
【０００５】
【発明が解決しようとする課題】
本発明は上述の点に鑑みてなされたものであり、ユーザにとってできる限り信頼でき、かつできる限り便利である方法で、データベース照会に必要な全てのステートメントを引き出すことが幅広い応用分野において可能であり、オープニングパラグラフで定義されたタイプの方法を提供することを目的とする。
【０００６】
【課題を解決するための手段】
上記の目的は、言語モデルを利用して各音声発言から少なくとも１組のステートメントを引き出し、前記少なくとも１組のステートメントを与える認識装置と、前記認識装置により与えられた各組のステートメントの整合性をテストし、音声出力を発生させる制御装置から成る自然音声での音声発言の形でユーザからのデータベース照会を実行する方法であって、前記制御装置によって、前記ユーザからの自然音声から得られる音声発言に対して前記認識装置により引き出された全ての組のステートメントと、全ての保存された組のステートメントとの整合性をテストし、整合性のあるステートメントを保存し、少なくとも一つの音声出力を保存ステートメントから引き出すことを特徴とし、更に、幾つかの同じ分類のステートメントが前記認識装置により割り当てられた異なる確率で引き出され、前記幾つかの同じ分類のステートメントのうち、少なくともあるステートメントは既に保存されている場合、前記制御装置によって、前記幾つかの同じ分類のステートメントは、最後の音声発言から引き出されたステートメントの確率、及び従来から保存されていたステートメントの確率により決定される混合型確率で保存することにより達成される。
【０００７】
よって、一致し、結果として有用である全てのステートメントが保存されるわけではないが、上記ステートメントからシステムにより発せられる次の音声出力を引き出すために、従来からの所定ステートメントと同様に上記ステートメントも各対話段階で利用されることが好ましい。この結果として、例えば電話照会サービスの場合における所望の加入者の都市及び通り、又は列車スケジュールサービスの場合における駅若しくは出発時間又は目的地に関する一般の音声出力を発するだけでなく、代わりの形態が望ましいのなら、例えば特定のステートメントを調べるために、つまりユーザにかかるステートメントを繰り返し行うように特定の質問を尋ねることも、同様に可能である。
【０００８】
個々のステートメントは、音声信号で若しくはＥＰ702353Ａ2 （ＰＨＤ94.120）に説明された方法で、個々の十分な確率のある全ての言葉を決定することにより、音声発言から引き出すことが可能である。前記方法において、ワードグラフが音声発言から引き出され、端からデータベース照会に関係するステートメント若しくはその情報が抽出される。さらに、一般言語モデル及び専用ルールが採用される。例えば、ステートメント“ｐ. ｍ. ”及び“３時”はステートメント“１５. ００時”と同意義である。
【０００９】
特に音声発言からステートメントを引き出す上記既知方法では、異なるステートメントが、例えば名前、時間指摘などのような同じ分類のステートメントに対して得られるが、これらは音声発言と異なる類似の結果として、言語モデルのような更なるルールによりさまざまな可能性を有する。よって、本発明の実施例は、各ステートメントが、ステートメントに割り当てられた確率及び整合性を巧くテストされた保存ステートメントの最も高い確率から引き出された確率で保存されることを特徴とする。認識中に、例えば幾つかの名前が異なる確率で引き出され、少なくともある名前が既に保存されており、それらの名前は、最後の音声発言から引き出されたステートメントの、及び従来から保存さえていたステートメントの確率により決定された混合型確率で保存される。
【００１０】
ステートメントが音声信号から引き出される際に、認識装置は、例えば一定の数のステートメント若しくは一定の閾値以上の確率を有するステートメントという限られた数のステートメントを与える。一般に、このことは各対話段階で、つまり各新しい音声発言で、全てのステートメントの全数は増加するという結果をもたらす。この効果を制限させるために、本発明の更なる実施例によれば、閾値を超えた確率を有するステートメントのみを保存することが効果的である。これはステートメント自身の確率から生じる混合型確率と、保存されたステートメントと一致する最も高い確率との双方に関係する。
【００１１】
ステートメントの幾つかの順序が音声発言により引き出される際に、上記ステートメントを含むステートメントの組の個々の確率から、上記ステートメントへの信頼性の値を形成することも可能である。この場合、閾値を超えた信頼性の値のある上記ステートメントのみを保存することは、本発明の更なる実施例において効果的である。この結果として、データベース照会の最終発生まで保存され処理されるステートメントの数は制限される。
【００１２】
本発明の別の目的は、ユーザにとって便利である最も信頼できる方法で、データベース照会用のステートメントが決定されることを可能にする装置を提供することである。この目的は、更に独立した請求項で定義される特徴的性質により達成される。
【００１３】
【発明の実施の形態】
図１はかかる装置の例を示す。図１はユーザによる音声発言をひろい、それを装置１２へ加えるマイクロフォン１０を示し、上記音声発言は繰り返してサンプリングされ、サンプル音声信号は、例えば異なる周波数帯における振幅から引き出された音声信号を特徴付ける特徴的な値であるデジタル値に変換される。上記特徴的な値は装置１３へ加えられ、メモリ１４からの参照値と上記値を比較し、比較結果からのワード仮説を引き出す。
【００１４】
装置１３は、更なる装置１５に加えられるワードグラフとして、終了ワード仮説を出力し、前述のＥＰ 0701353Ａ2 （ＰＨＤ94.120）に説明されているように、いわゆる概念グラフはメモリ１６に保存されたルールによるワードグラフから引き出される。概念グラフにおいて、さまざまなスコアを有する数多くの異なる経路は、概念グラフの始めから最後まで可能である。上記スコアはワードグラフ及びルールのスコアから形成され、概念グラフを通した関係する経路での一連の概念が、ユーザにより実際に話された音声発言に相当する音響的確率の尺度を提供する。
【００１５】
上記組のステートメントは更なる装置２０に加えられ、ステートメントは整合性をテストされる。この目的のために、ステートメントはまず相互整合性、つまり矛盾の自由がテストされる。さらに、ステートメントは、ユーザとシステムとの間の対話の前の段階中に決定され、メモリ２４に一時的に保存された対応するステートメントと比較される。最後に、装置１により与えられた組の中のステートメントは、メモリ２２に保存されたデータベースの少なくとも幾つかの情報アイテムと比較される。上記メモリ２２は高記憶能力を有するディスクメモリとして、従来から実施されている。例えば、列車スケジュール情報システムの場合における特定の駅名、若しくは電話登録名簿システムにおける特定の加入者の名前などの特定のステートメントが、メモリ２２のデータベースに実際に存在しているかどうかが、チェックされる。
【００１６】
装置１５による個々の組のステートメントに与えられる確率に対応するスコアは、整合性が巧くテストされたステートメントに対する新しいスコアとして、装置２０において利用され、新しい確率は上記確率から決定され、整合性のあるステートメントの最善の確率は検出され、新しい確率はメモリ２４のステートメントと共に保存される。保存される前に、新しい確率は一定若しくは対話中に適応された閾値と比較される。あるいは、音声発言から引き出された全ての組のステートメントの確率から信頼性の値を作り出すこと、及び同様な方法で閾値と上記信頼性の値が比較され、ステートメントと共に保存することが可能である。確率値若しくは信頼性の値を有する保存されたステートメントは、音声発言から引き出されるステートメントを次の音声発言のテストに用いている間に、再び利用される。
【００１７】
各音声発言の処理後、装置２０は、完全なデータベース照会用の全てのステートメントが利用可能かどうかを調べる。そうでないのなら、装置２０はメモリ２４に保存されたステートメント及び確率に応じて音声出力を発生し、増幅器２６及び拡声器３０を経由して、ユーザにある種の更なるステートメントを有する音声発言を音響的に発するように催促する。このためには、メモリ２４からの各時間の高い確率を有するステートメントが利用される。個々のステートメントが正しく、例えばユーザからの次の音声発言の結果として無視された際には、夫々のステートメントはその後の上記音声発言の処理中に消去され、例えば名前のような同じ分類のステートメントは、対話が進行するにつれ、次の低い確率若しくは信頼性で利用される。上記処理は、完全なデータベース照会用の全てのステートメントが満足のいく確率若しくは信頼性で、最終的に利用可能であるまで繰り返される。
【図面の簡単な説明】
【図１】図１は、本発明のよるデータベース照会を実行する装置を示す。
【符号の説明】
１０マイクロフォン
１２装置
１３装置
１４メモリ
１５装置
１６メモリ
２０装置
２２メモリ
２４メモリ
２６増幅器
３０拡声器

Claims

言語モデルを利用して各音声発言から少なくとも１組のステートメントを引き出し、前記少なくとも１組のステートメントを与える認識装置と、前記認識装置により与えられた各組のステートメントの整合性をテストし、音声出力を発生させる制御装置から成る自然音声での音声発言の形でユーザからのデータベース照会を実行する方法であって、
前記制御装置によって、前記ユーザからの自然音声から得られる音声発言に対して前記認識装置により引き出された全ての組のステートメントと、全ての保存された組のステートメントとの整合性をテストし、整合性のあるステートメントを保存し、少なくとも一つの音声出力を保存ステートメントから引き出すことを特徴とし、
更に、幾つかの同じ分類のステートメントが前記認識装置により割り当てられた異なる確率で引き出され、前記幾つかの同じ分類のステートメントのうち、少なくともあるステートメントは既に保存されている場合、前記制御装置によって、前記幾つかの同じ分類のステートメントは、最後の音声発言から引き出されたステートメントの確率、及び従来から保存されていたステートメントの確率により決定される混合型確率で保存することを特徴とする方法。
前記整合性のあるステートメントを保存する場合、前記認識装置により各ステートメントに割り当てられた確率及び整合性がテストされた保存ステートメントの最も高い確率から引き出された確率で保存することを特徴とする請求項１記載の方法。
前記整合性のあるステートメントを保存する場合、予め設定された閾値を超える確率を有するステートメントのみを保存することを特徴とする請求項２記載の方法。
前記整合性のあるステートメントを保存する場合、各ステートメントに対して信頼性が夫々のステートメントを含む組のステートメントの確率から引き出され、予め設定された閾値を超える信頼性を有するステートメントのみを保存すること特徴とする請求項２記載の方法。
言語モデルを利用して各音声発言から少なくとも１組のステートメントを引き出し、前記少なくとも１組のステートメントを与える認識装置と、前記認識装置により与えられた各組のステートメントの整合性をテストし、音声出力を発生させる制御装置から成る自然音声での音声発言の形でユーザからのデータベース照会を実行する装置であって、
認識装置は各音声発言から複数の組の減少した確率のステートメントを引き出すように改造され、認識装置は複数の異なる組のステートメントを保存させるメモリ装置を含み、制御装置は
- 音声発言から引き出された各組のステートメントを全ての保存された組のステートメントの対応するステートメントと整合性をテストし、
- 一致した組のステートメントをメモリ装置に保存し、
- 保存ステートメントから少なくとも一つの音声出力を発生させるように改造されたことを特徴とし、
更に、幾つかの同じ分類のステートメントが前記認識装置により割り当てられた異なる確率で引き出され、前記幾つかの同じ分類のステートメントのうち、少なくともあるステートメントは既に保存されている場合、前記制御装置は、前記幾つかの同じ分類のステートメントに対して、最後の音声発言から引き出されたステートメントの確率、及び従来から保存されていたステートメントの確率により決定される混合型確率で保存することを特徴とする装置。