JP4741777B2

JP4741777B2 - データベースのエントリを決定する方法

Info

Publication number: JP4741777B2
Application number: JP2002118436A
Authority: JP
Inventors: クラースシュテファニー; ホーダムヘンリク
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-04-20
Filing date: 2002-04-19
Publication date: 2011-08-10
Anticipated expiration: 2022-04-19
Also published as: ATE311649T1; CN1326074C; EP1251491B1; EP1251491A3; JP2003029784A; EP1251491A2; US7496508B2; DE50205081D1; CN1384453A; DE10119677A1; US20020169751A1

Description

【０００１】
【発明の属する技術分野】
本発明は自動対話システムによってデータベースのデータベースエントリを決定する方法に関する。
【０００２】
【従来の技術】
対話システムの自動的な動作を保証するため、一般的に、辞書エントリ（音声認識装置の語彙）を用いて辞書にアクセスし、隠れマルコフモデルに基づいて動作する自動音声認識装置が用いられる。辞書エントリは、音声認識手順において音声入力と比較される音声認識装置用の音響リファレンスを含む。音響リファレンスは、例えば一連の音素を表わす。本発明による方法は、例えば「イエローページ」サービスに関連する。このようなサービスを用いて、各ユーザは、要求されている地区の利用可能な提供者から、例えば医者、販売者又は他の企業についての情報、また、警察、プール、学校等の公共の設備についての情報を得ることができる。電話を通じたこのような地区情報システム、即ち職業別電話情報の形式のシステムは周知である。
【０００３】
更に、例えばインターネット又はイントラネットのためのデータネットワークにおいてかかる情報システムが既に知られている。端末は、情報システムの種別に応じて、電話機、移動電話機、適切な電話機能を有するコンピュータ又はオーガナイザ等であるか、純粋なデータネットワーク中の情報システムが使用される場合は例えばＷＡＰ移動電話機といった関連するネットワークへの対応するアクセス機能を有するＰＣ又はオーガナイザ又は移動電話機が使用される。サーチパラメータは、例えば、地区、職業分野、或いは場所、又は、例えば「医師」或いは「ホメオパシー」或いは「ミュンヘン」といった関連するサーチ概念といった種々のサーチ規準である。加入者データは、例えば、情報システムに加入している供給者にユーザが接触すること又は連絡をとることを可能とする電話番号、住所、又は他の情報、即ち情報システムのデータベースに含まれる情報でありうる。公知のシステムでは、辞書は例えば地区の入力といったあるカテゴリの音声入力のために使用され、この辞書は計算上の費用を制限するために音声認識システム上の要求に応じて調整される。
【０００４】
【発明が解決しようとする課題】
ここで、当該の音声認識の結果について行われるデータベースのサーチにおいて、ユーザへ出力されうる関連するデータベースエントリが見いだせないという問題が生ずる。本発明は、ユーザによる使い心地ができる限り影響を受けないよう追加的な計算上の費用を最小限としつつ上述の問題を解決することを目的とする。
【０００５】
【課題を解決するための手段】
上述の目的は、
（１）音声入力を一時的に記憶する段階と、
（２）音声入力を自動音声認識装置によって処理し、各辞書エントリが少なくとも１つの音響リファレンスを含む第１の辞書エントリ集合を有する第１の辞書を用いて音声認識結果を生成する段階と、
（３）音声認識結果に対応するデータベースエントリについてサーチする段階と、
（４）段階（３）においてデータベースエントリが見つからない場合は、
少なくとも１つの辞書エントリが第１の辞書エントリ集合とは異なる第２の辞書エントリ集合を有するよう、第１の辞書を適応し、
一時的に記憶された音声発話と適応された第１の辞書とを用いて段階（２）及び（３）を繰り返す段階とを含む上述の方法によって達成される。
【０００６】
最初のデータベースのサーチが成功しなかった場合でも、ユーザは音声の発話によって生成される音声入力を繰り返す必要がない。一時的に記憶された音声入力は、適応された辞書を用いた第２の音声認識動作にも使用される。辞書は動的に適応される。辞書の適用の方法は、出来る限り小さい辞書で考慮されている音声認識結果に対してデータベースの入力の割当てが成功する確率を最大とすることを保証するよう選択される。特に、第１の辞書を適応するためにそのエントリが使用されうる総合辞書が使用される（請求項２）。
【０００７】
請求項３は、音声入力の質が低く割当て可能なデータベースエントリがない場合に本発明による方法が予め設定された基準に従って中断されることを保証する。
【０００８】
請求項４及び請求項５は、音声認識のために使用される第１の辞書がデータベースエントリのカテゴリに関連付けられる実施例を示す。請求項４に記載のように辞書を適応するとき、データベースエントリのカテゴリ（例えば地区）の制限内で、追加的な辞書エントリが追加されるか、辞書エントリが変更される。請求項４は、第１の辞書の適応のために、辞書のエントリがカテゴリの外で適応される実施例を開示する。適応される前の第１の辞書がデータベースエントリの特定のカテゴリに属する辞書エントリを含む場合、適応された後は、第１の辞書は関連するカテゴリ（例えば関連する地区）に属する少なくとも１つの辞書エントリを含む。
【０００９】
請求項６に記載の実施例では、音声入力に対してデータベースエントリを割り当てることができない場合、辞書は個々の音声認識結果の選択肢に対して適応されるだけでなく、音声認識の選択肢は辞書が適応されるときにも考慮される。従って、新規な音声認識動作により、データベースエントリが一時的に記憶された音声入力に対して割り当てられうる確率が高まる。
【００１０】
本発明による方法は、特に、対話システムへのアクセスが特に電話インタフェース（請求項８）を通じて行われるイエローページのデータの集合（請求項７）においてエントリを決定するために使用される。
【００１１】
また、本発明は、本発明による方法を実施するために使用される自動対話システムに関する。
【００１２】
【発明の実施の形態】
以下、本発明の実施例について図面を参照して詳述する。図１は、本実施例では電話インタフェースであるインタフェース２を有する対話システム１を示す。
対話システム１は、インタフェース２を通じて、また構内交換機が利用可能であればこれを介して、電話網に接続される。メモリ３が設けられ、これに受信される音声入力が音声ファイルとして一時的に記憶されうる。自動音声認識装置４は、メモリ３に記憶された音声認識の自動認識を行う。音声認識装置４は、音声認識モジュール５と辞書６とを含み、辞書のエントリは音声認識装置４によって利用可能な語彙を構成する。各辞書エントリは、語又は単語を示す少なくとも１つの音響リファレンスを含む。各音響リファレンスは、少なくとも１つの状態を有する隠れマルコフモデル（ＨＭＭ）に対応する。音声認識モジュール５は、ここでは辞書６を除く音声認識装置４の全ての機能を含む。音声認識装置４は、例えばフィリップス社製のシステム「Speech Pearl」を用いて実施されうる。
【００１３】
本発明による対話システム１では、音声認識装置４によって用いられる辞書６は、設定されているものではなく、動的に適応可能である。本例では、辞書６の辞書エントリは、総合辞書７の部分集合を構成する。総合辞書７は、辞書６のための辞書エントリの貯蔵部を構成する。中央対話制御・管理ユニット８は、ユーザとの対話を制御すると共に辞書６の適応を制御する。ユニット８は特定用途向けデータを有するデータベース９にアクセス可能であり、音声出力を生成しこれをインタフェース２を介してユーザへ出力する音声出力ユニット１０を制御する。
【００１４】
データベース９に記憶された特定用途向けデータは、各用途に対して予め設定されうる対話構造を定義する。従って、例えばユーザとの対話は、挨拶から始まり続いて特定の音声入力のアクティブ化の要求がなされうる。ユーザによる続く音声入力は、インタフェース２を介して受信されメモリ３に一時的に記憶される。一時的に記憶された音声入力３は、自動音声認識装置４によって音声認識結果へ変化され、音声認識結果はユニット８へ与えられ、音声認識結果に応じて、データベース９に記憶されたデータに従って予め指定されたようなユーザとの対話を続けるか、対話を終了する。
【００１５】
図２は、本発明の更なる説明のためのフローチャートを示す図である。本発明について、ユーザが地区情報を検索しうるイエローページデータ集合へのアクセスの例を用いて説明する。本例では、地区情報はデータベース９に記憶され、例えば複数の企業名、夫々の場所、関連する地区、通りの名前、電話番号、及び郵便番号を含む。電話の呼によりユーザにより対話システム１へアクセスした後、対話システム１はユーザへの挨拶定型文を出力し、町名を入力するよう求める。ステップ２０において町名が入力され正しく検出されると、ステップ２１においてユーザに対して地区を入力するよう要求する。ステップ２２において音声入力によって地区を入力した後、ステップ２３においてこの音声入力はメモリ中に音声ファイルとして一時的に記憶される。ステップ２４において、音声認識装置４を用いて一時的に記憶された音声入力に対して音声認識手順が実行される。このために、限られた数の地区名を表わす辞書ＬＥＸ（１）が使用され、即ち音声認識装置によって使用される語彙はこのようにステップ２４において制限される。ステップ２４において発生した音声認識結果を用いて、つづくステップ２５において、認識されたセクタ名及び町名に対してデータベース９に記憶された企業名を探すために対話制御・管理ユニット８によってデータベース９におけるデータベースサーチが実行される。
【００１６】
ステップ２６において、認識されたブランチ名に属する少なくとも１つのデータベースエントリが見つかると、ステップ３５において対応する企業名及び存在する場合は更なる関連する企業情報がユーザへ出力されるか、必要な情報をより詳細に指定するよう（例えば郵便番号又は通りの名前を入力することによって行われる）ユーザに求める音声出力を用いてユーザとの対話を続ける。しかしながら、ステップ２６において、データベース９には認識された町名及びセクタ名に対応するデータベースエントリが見つからない場合、ステップ２７において、先行する音声認識手順で使用される辞書６のバージョンを示すために用いられるパラメータｎは、ｎ＝１に設定される。ステップ２８において、辞書６は、辞書バージョンＬＥＸ（ｎ）が少なくとも１つの辞書エントリについて辞書バージョンＬＥＸ（ｎ）とは異なる辞書バージョンＬＥＸ（ｎ＋１）へ変形されるよう、適応される。辞書バージョンＬＥＸ（ｎ＋１）と比較して、辞書バージョンＬＥＸ（ｎ）は限られた数のセクタ名を表わす辞書エントリを含み、ｎが増加するにつれあまり頻繁に探されない地区名も考慮される。辞書の拡張は、データベース９に記憶された割当てテーブルによって決まる。
【００１７】
総合辞書７の利用可能な辞書エントリがカテゴリに分割されると、辞書は、カテゴリ内及び／又はカテゴリ間で適応されうる。辞書エントリの特定のカテゴリについての例は、例えば特定の町に対する地区名の数である。カテゴリ内の辞書適応は、その町に割り当てられた他の及び／又は追加的な地区名が辞書６の作成のために考慮された場合に生じうる。カテゴリ間の辞書の適応の場合、すなわち本例では辞書の適応の場合、例えば認識された町に近い他の町に割り当てられた地区名も考慮に入れられる。この場合も、割当てはデータベース９に記憶された割当てテーブル中で定義される。原理的には、当該の用途及び辞書の適応についての要求から生ずる多数のカテゴリが存在することが可能であり、このために最適化される。
【００１８】
ステップ２８において辞書を適応させた後、ステップ２９において、変更された辞書ＬＥＸ（ｎ＋１）を用いて音声認識方法が行われる。既知の地区を表わす音声認識結果が決定され、町が既に知られているときに、対話制御・管理ユニット８によってデータベース９の更なるデータベースサーチが行われる。ステップ３１において、データベースのサーチによって認識された町に対するエントリ（地区名）が与えられることがわかると、方法は、ステップ３５と同様にデータ出力を行うステップ３６へ進む。
【００１９】
ステップ３１において、やはり割り当てられうるデータベースがないことがわかると、ステップ３２においてパラメータｎは１ずつインクリメントされる。ステップ３３において、中断判定基準が満たされているかチェックする。本例では、中断判定基準は先験的に設定される数字Ｎによって表わされる。数字Ｎは、辞書の所望の適応の回数を表わす。ステップ３３において中断判定基準がまだ満たされてない場合（ｎ≦Ｎ）、システムはステップ２８へ戻る。ステップ３３において、中断判定基準が満たされた、即ちｎ＞Ｎであるとわかると、対話システム１によるユーザ入力の処理は中断される。本例では、対話システム１とユーザとの間の対話は中断され、ステップ３４において所望のデータをユーザによって利用可能とするために、ユーザは電話オペレータに接続される。
【００２０】
本発明の実施例では、音声認識装置１は、個々の音声認識結果を供給するだけでなく、Ｎ≧１の最善の認識結果の選択肢の数Ｎも与える。この場合、辞書６の適応は、音声認識装置４によって供給される１以上の認識結果の選択肢に依存する。このように、音声認識装置６は、例えば地区名の入力の後に認識結果として２つの同様の音の地区名を出力し、２つの音声認識結果の選択肢はそれらの信頼性に従って順序付けられる。データベース９に、その中に記憶された割当てテーブルに、音声認識結果の選択肢として決定された２つの地区名について辞書６の適応のための異なる割当てが与えられ、これらは辞書６の適応にも考慮される。
【図面の簡単な説明】
【図１】対話システムを示すブロック回路図である。
【図２】本発明による方法を説明するためのフローチャートである。
【符号の説明】
１対話システム
２インタフェース
３メモリ
４音声認識装置
５音声認識モジュール
６辞書
７総合辞書
８対話制御・管理ユニット
９データベース
１０音声出力ユニット

Claims

（１）音声入力を一時的に記憶する段階と、
（２）上記音声入力を自動音声認識装置によって処理し、各辞書エントリが少なくとも１つの音響リファレンスを含む第１の辞書エントリ集合を有する第１の辞書を用いて音声認識結果を生成する段階と、
（３）上記音声認識結果に対応するデータベースエントリについてサーチする段階と、
（４）上記段階（３）においてデータベースエントリが見つからない場合は、
少なくとも１つの辞書エントリが上記第１の辞書エントリ集合とは異なる第２の辞書エントリ集合を有するように上記第１の辞書を拡張し、
上記一時的に記憶された音声発話と上記拡張された第１の辞書とを用いて上記段階（２）及び（３）を繰り返す段階とを含む、
自動対話システムによってデータベースのデータベースエントリを決定する方法。
上記辞書エントリは総合辞書として用いられる第２の辞書から得られることを特徴とする、請求項１記載の方法。
上記段階（４）は、中断判定基準に達するまで繰り返されることを特徴とする、請求項１又は２記載の方法。
辞書エントリのカテゴリに関して適応された後の第１の辞書は、適応される前の第１の辞書とは異なる少なくとも１つの辞書エントリを含むことを特徴とする、請求項１乃至３のうちいずれか一項記載の方法。
前記適応される前の第１の辞書が少なくとも部分集合を含む少なくとも１つの辞書エントリのカテゴリに割り当てられ、前記適応された後の第１の辞書は少なくとも部分集合を含む第２の辞書エントリのカテゴリに割り当てられることを特徴とする、請求項１乃至４のうちいずれか一項記載の方法。
音声認識装置によって与えられる音声認識結果は、Ｎ個（Ｎ≧１）の最善の認識結果の選択肢を含み、
上記辞書の適応は、少なくとも１つの認識結果の選択肢に依存することを特徴とする、請求項１乃至５のうちいずれか一項記載の方法。
上記データベースエントリはイエローページデータの集まりの部分であることを特徴とする、請求項１乃至６のうちいずれか一項記載の方法。
上記対話システムは電話インタフェースを有し、前記電話インタフェースを通じて音声入力及び音声出力が伝送されることを特徴とする、請求項１乃至７のうちいずれか一項記載の方法。
（１）入力されるべき音声発話を一時的に記憶する段階と、
（２）上記音声発話を自動音声認識装置によって処理し、各辞書エントリが少なくとも１つの音響リファレンスを含む第１の辞書エントリ集合を有する第１の辞書を用いて音声認識結果を生成する段階と、
（３）上記音声認識結果に対応するデータベースエントリについてサーチする段階と、
（４）上記段階（３）においてデータベースエントリが見つからない場合は、
少なくとも１つの辞書エントリが上記第１の辞書エントリ集合とは異なる第２の辞書エントリ集合を有するように上記第１の辞書を拡張し、
上記一時的に記憶された音声発話と上記拡張された第１の辞書とを用いて上記段階（２）及び（３）を繰り返す段階とを含む方法を実行するためのシステム構成要素を有するデータベースのデータベースエントリを決定する自動対話システム。