JP2005181442A

JP2005181442A - 音声対話装置、その方法、プログラム

Info

Publication number: JP2005181442A
Application number: JP2003418436A
Authority: JP
Inventors: Koji Nishida; 廣治西田
Original assignee: Fuji Electric Holdings Ltd
Current assignee: Fuji Electric Co Ltd
Priority date: 2003-12-16
Filing date: 2003-12-16
Publication date: 2005-07-07

Abstract

【課題】アプリケーション側に負担を掛けないようにでき、また認識結果の確認を間違いなく行うことができるようにする。
【解決手段】予め質問別候補辞書ＤＢ１２に、各質問別に、その質問に対して想定される回答候補として、正規の用語等である各主回答候補と、各主回答候補の同義語等とが対応付けられて格納されている。音声認識部１５は質問別候補辞書ＤＢ１２等を用いて音声認識する。候補評価部１７は、この音声認識結果が同義語等である場合には、これに対応する主回答候補を質問別候補辞書ＤＢ１２から求め、この主回答候補を認識結果としてアプリケーション２２に渡す。その前に、この主回答候補を用いてユーザに認識結果の正／誤の確認をとるようにしてもよい。
【選択図】図１

Description

本発明は、音声対話装置等に関する。

従来、電話を用いた音声対話装置については、例えば特許文献１記載の発明が知られている。この発明は、例えば図１４に示す音声対話装置３００を提案している。尚、音声対話装置とは、一般的に、不特定話者を対象として、音声認識・音声応答によって話者との間のＱ＆Ａ会話シーケンスを構築するものであり、例えばアンケート調査、世論調査、予約受け付けシステム、通信販売など様々な業務に利用される。

図１４の音声対話装置３００は、電話回線３１０等のネットワークを介して、任意の電話装置３１１（各家庭や企業等の固定電話、携帯電話等）に電話を掛け、音声により任意の質問を行い、電話装置３１１のユーザが音声により質問に答えると、これを音声認識する装置である。

図示の音声対話装置３００は、音声応答装置３０１、切替装置３０２、音声認識装置３０３、認識応答制御部３０４、認識辞書ＤＢ３０５、認識辞書ファイル３０６を有する。
音声応答装置３０２は、予め設定される所定の質問を、音声により、切替装置３０２、電話回線３１０を介して、任意の各電話装置３１１に伝達する。電話装置３１１を使用する話者は、この音声による質問事項を聞いて、声による回答を行う。この回答は、電話回線３１０、切替装置３０２を経由して、音声認識装置３０３に伝達される。音声認識装置３０３は音声認識を行い、認識結果を認識応答制御部３０４へ渡す。認識応答制御部３０４は、この認識結果に基づいて、Ｑ＆Ａ会話シーケンスにおける各会話場面に応じて、発音が類似した認識候補単語を登録した認識辞書ファイル３０６を備えた認識辞書ＤＢ３０５を参照して、回答の認識を行っていた。

このように、特許文献１記載の発明における音声対話装置では、会話場面に応じて想定される回答及び当該回答と発音の類似した単語を登録した認識辞書により音声認識率を高めていた。

また、従来、特許文献２記載の音声対話システムが知られている。
特許文献２記載の発明は、音声対話による自動車等の機器の自動制御方法が適用される音声対話システムに関し、雑音を伴う環境の中での作動のために形成され、一般的命令の認識のためにユーザによるトレーニングは不要であり、音声入力のために１つの命令を形成する単度の数が可変であり、音声対話の実時間処理及び実時間実行が可能であり、音声入出力がハンドフリーモードで行われることを特徴としている。また、特許文献２には、音声範囲が前もってテキストの形で記憶され、実時間音声出力作動で“テキストツウスピーチ”合成にかけられること、前もって与えられている同義単語が利用可能であること、認識結果を確認応答すること等が開示されている。

また、従来、電話を用いた音声対話装置については、例えば特許文献３記載の発明が知られえている。この発明は、例えば図１５に示す音声対話装置３２０を提案している。
図示の音声対話装置３２０は、ネットワーク３３２（電話回線、ＩＰネットワーク等）を介して、任意の電話器のユーザと対話する音声利用システムである。図示の装置３２０では、ユーザが話したことを音声認識エンジン３２２によって音声認識し、認識結果を対話管理部３２４に渡す。対話管理部３２４は、音声応答テキストを選定し、これを音声応答エンジン３２３に渡す。音声応答エンジン３２３は、この音声応答テキストを音声に変換する。この音声は、ネットワーク３３２を介して電話器３３１に伝達される。

ここで、特許文献３の発明では、図１５には表していないが、音声認識エンジン３２２を複数備えている。そして、音声分配器３２１が、この複数の音声認識エンジン３２２にユーザの声を分配する。複数の音声認識エンジン３２２は、例えば数字認識用、単語認識用等のように特性が異なるものであり、それぞれの特性にあった語を認識して、各々の認識結果を統合したものを認識結果とする。あるいは、電話番号とユーザＩＤの関係を管理するユーザ管理部（不図示）を更に備え、着信電話番号からユーザＩＤを導出し、このユーザＩＤによってそのユーザに適した音声認識エンジンを選択する。
特開平９−３２６８５６号公報特表平１１−５０６８４５号公報特開２００３−１４０６９１号公報

上述した特許文献１記載の発明では認識辞書は想定される回答及びこの回答に発音が類似した単語を登録した認識辞書により音声認識率を高めていたが、例えば同義語（例えば性別を質問された場合の“男（おとこ）”と“男性（だんせい）”、大学名を質問された場合の“とうきょうだいがく”と“とうだい”等）のように意味的には同じであるが発音が全く異なる回答があった場合には対応できなかった。

これに対して、特許文献２記載の発明では、前もって与えられている同義単語が利用可能であることが開示されているが、これによってたとえ同義語による回答が認識できたとしても、同義語は正規の回答とは別の回答と認識され、そのまま所定のアプリケーションへ渡されることになる。尚、所定のアプリケーションとは、基本的には音声対話装置が適用されるシステムに依存するものであり、例えば、電話で音声による列車座席予約が行えるシステムがあったとすると、音声対話装置によって予約希望日時、区間等が認識されるが、この場合に認識結果が渡される所定のアプリケーションとは、例えば希望の予約がとれるか否かを検索により判定する処理を行うアプリケーション等となる。

上記の例では、例えば、“とうきょうだいがく”が正規の回答とした場合に、ユーザが“とうだい”と回答し、これを認識して、アプリケーションには認識結果として“とうだい”を渡した場合、もし、アプリケーションが正規の回答にのみ対応できる内容であった場合、処理できないことになる。一方、もしアプリケーションを同義語（略語も含まれるものとする）にも対応できるように作成した場合、上記の例では“とうだい”の正規の回答が“とうきょうだいがく”であることを識別する処理機能がアプリケーションに必要となるので、プログラムが複雑になり、処理時間も掛かることになる。

また、特許文献１、特許文献２では、認識結果について話者に確認をとることが行われている。例えば、特許文献１では回答“富士”に対して認識結果が“宇治”であっても、「“宇治”ですか」と確認することで誤認識したままとなることを防いでいる。しかしながら、この確認も音声により行うので、ユーザが“うじ”を“ふじ”と聞き間違えて、ＯＫを出してしまう可能性があり、誤認識が是正されず、最終的な認識率（アプリケーションに渡す認識結果が正しい割合）が悪くなってしまう。

また、上記特許文献３の発明の場合、認識精度は向上するかもしれないが、複数の認識エンジンを用意しなければならない為、開発の手間／コストが掛かることになる。また、音声対話装置の場合、認識精度をいくら向上させても解決できない問題がある。すなわち、話者の回答自体が曖昧な回答である場合、認識精度の向上では対応できず、結果として認識率が低下してしまう。あるいは、ユーザが対話を途中で止めてしまう場合があり、この場合も認識精度の向上では対応できない。このように、曖昧な回答となってしまったり、対話を途中で止めてしまう原因は、主に、質問・応答のコンテキストと各ユーザのレベルとが合っていないことにある。すなわち、コンピュータによる自動音声対話に慣れていない初心者の場合、質問の意味が分からずに、回答が曖昧になってしまう場合がある。そうかといって、質問・応答のコンテキストを初心者向けにすると、つまり例えば質問の内容を細かく分けて、何回も質問することで、初心者でも質問の意味が分かるようにした場合、今度は、中・上級者にとっては、本来ならば一回で済む質問を何回も行われると操作が煩雑となり、途中で面倒になってしまい、対話を中断してしまう場合があった。

本発明の課題は、音声対話装置において正規の回答等である主回答とその同義語等とを対応付けて登録しておくことで、同義語等による回答でも認識できると共にアプリケーションには同義語に対応する主回答を認識結果として渡すことで、アプリケーション側に負担を掛けないようにでき、また回答候補との一致度を評価し主回答による確認を行うことで最終的な認識率を向上させ、あるいは各ユーザ毎に、時間経過／経験蓄積に伴うユーザの対話レベルの変化等にも対応しつつ、そのときのユーザの対話レベルに合った質問の仕方・質問内容で質問することができ、以って質問・応答のコンテキストのミスマッチに起因する認識率の低下や、対話中断を防止できる音声対話装置、その方法、プログラム等を提供することである。

本発明による第１の音声対話装置は、各質問と、各質問別に想定される各回答候補として、各主回答候補と、該各主回答候補毎に対応付けてその主回答候補と意味的に同様である１又は複数の同様語を格納する質問別候補辞書格納手段と、前記質問別候補辞書格納手段に格納される任意の質問を用いて、ネットワークを介して任意の電話機に対して音声による質問を送信する音声応答手段と、前記音声応答手段による質問に対して前記電話機を介して入力される音声による回答を受信して、該音声による回答を前記質問別候補辞書格納手段または標準認識辞書を参照して音声認識する音声認識手段と、該音声認識結果が前記同様語である場合には、前記質問別候補辞書格納手段より、該同様語に対応する主回答候補を求め、該主回答候補を所定のアプリケーションに渡すように構成する。

前記第１の音声対話装置では、予め主回答候補と同義語等の同様語とを対応付けて登録しており、ユーザが同義語等の同様語で回答した場合でもこれを認識できると共に、アプリケーションへはこの同様語に対応する主回答候補を認識結果として渡す。これにより、アプリケーションは、主回答候補の用語のみに対応して作成され処理実行できるので、アプリケーション側に負担を掛けないようにできる。

また、上記第１の音声対話装置において、例えば、前記音声認識手段による音声認識結果から接頭語／接尾語を削除したものを回答認識結果とし、前記回答認識結果及び前記質問別候補辞書格納手段に格納される各回答候補はテキストデータであり、該テキストデータのままで前記回答認識結果と各回答候補とを文字列探索により比較・評価して、少なくとも該各回答候補の中に該回答認識結果と完全一致する回答候補がない場合には、一致度が最も高い回答候補を仮の回答結果として、前記所定のアプリケーションに渡す前に、ユーザに正／誤の確認をとるように前記音声応答手段に指示する候補評価手段を更に有するように構成してもよい。

音声認識結果と各回答候補とをテキストデータ同士の比較により検証・評価することで、誤認識した可能性があるか否かを判定できる。誤認識した可能性がある場合、すなわち上記完全一致する回答候補がない場合には、ユーザに正／誤の確認をとるようにすればよい。これによって、誤認識結果をアプリケーションに渡してしまう可能性は極めて低くなる。すなわち、最終的な認識率を向上させることができる。

また、更に、上記候補評価手段は、前記仮の回答結果が前記主回答候補ではない場合には、該仮の回答結果に対応する主回答候補を求め、該主回答候補を用いて前記ユーザへの正／誤の確認を行わせるようにしてもよい。

認識結果についてユーザに正／誤の確認をとること自体は従来でも行われていたが、上記音声対話装置では、この確認は、たとえユーザが同様語によって回答したとしても主回答候補を用いて行う。これによって認識結果の確認を間違いなく行うことができ、以って上記最終的な認識率の更なる向上に役立つ。

また、上記第１の音声対話装置において、例えば、前記回答認識結果及び前記質問別候補辞書格納手段に格納される各回答候補はテキストデータであり、前記候補評価手段は、該テキストデータのままで前記回答認識結果と各回答候補とを比較して文字列探索により前記評価を行うように構成してもよい。

また、本発明の第２の音声対話装置は、任意のユーザに対して質問を出し応答を受ける対話を管理・制御する対話管理手段と、該対話管理手段から出される各質問を音声に変換して出力する音声応答手段と、該音声応答手段から出力される音声の質問をネットワークを介して前記任意のユーザの電話機に送信し、該電話機より入力される該音声の質問に対する音声の応答を受信する送受信手段と、該送受信手段により受信した音声の応答を音声認識して該音声認識結果を前記対話管理手段に渡す音声認識手段と、前記対話管理手段の対話相手のユーザを識別し、該ユーザの前記対話に関するレベルである対話レベルを該ユーザの過去又は現在の対話における各質問に対する応答時間に基づいて判定し、予め用意される、各対話レベルに応じた質問の仕方・質問内容を規定した各コンテキストの中から、該判定結果の対話レベルに応じたコンテキストを選択・取得して前記対話管理手段に渡す対話支援手段とを有し、前記対話管理手段は、該対話支援手段から渡されたコンテキストを用いて前記対話を実行するように構成する。

各対話レベルに応じた質問の仕方・質問内容を規定した各コンテキストを予め用意しておき、そのときの対話相手のユーザの対話レベルに応じた内容のコンテキストを選択して用いる。また、対話相手のユーザの対話レベルは、その対話時点でのレベルを判定できる。これにより、各ユーザ毎に、対話相手のユーザのレベルに合った内容で質問・応答等が行えるようになるので、質問・応答のコンテキストのミスマッチに起因する認識率の低下や、対話中断を防止できる。また、同じユーザであっても当該音声対話を何度も行うことでレベルが変化する（通常はレベルが上がる）が、この様なレベルの変化にも対応して、対話相手のユーザの現在のレベルに合った内容で質問・応答等が行えるようになる。

上記第２の音声対話装置において、例えば、対話支援手段による対話の管理・制御は、予め用意される会話シーケンスに従って行われ、該会話シーケンスは複数の対話単位で構成され、前記対話支援手段において予め用意される前記各コンテキストは、前記各対話単位毎にそれぞれ前記各対話レベル毎に用意されるものであり、前記対話レベルの判定は各対話単位毎に行われ、各対話単位毎に、判定された対話レベル用のコンテキストを選択・取得して前記対話管理手段に渡すようにしてもよい。

上記対話レベルの判定、及び判定に応じたコンテキストの選択は、対話単位毎に実行する。同じ一人のユーザであっても、全ての質問について対話レベルが一定であるとは限らない。質問のジャンル等によって得意／不得意があったり、過去に何度も経験した質問である場合と、経験回数が少なかったり初めて受ける質問である場合とでは、対話レベルが異なることが想定される。上記第２の音声対話装置によれば、この様な想定に対応して、木目細かいユーザ対応が行えるようになる。

また、上記第２の音声対話装置において、例えば、前記対話支援手段は、各質問毎に、前記ユーザの応答時間と予め登録されている各質問毎のエキスパートの応答時間とを用いてＮＥＭ法によるＮＥ比算出を行い、該ＮＥ比と予め設定される閾値との比較結果と予め設定されている対策ルールとに基づいて各質問毎のユーザレベルを判定・記録し、該各質問毎のユーザレベルと予め設定されている判定ルールとに基づいて前記対話レベルの判定を行うように構成してもよい。

なお、上述した本発明の各構成により行なわれる機能と同様の制御をコンピュータに行なわせるプログラムを記憶したコンピュータ読み取り可能な記憶媒体から、そのプログラムをコンピュータに読み出させて実行させることによっても、前述した課題を解決することができる。つまり、本発明は、上記装置の形態に限らず、その方法、あるいは上記記憶媒体自体または上記プログラム自体として構成することもできる。

上記音声対話装置、その方法、プログラム等によれば、音声対話装置において正規の回答等である主回答とその同義語等とを対応付けて登録しておくことで、同義語等による回答でも認識できると共にアプリケーションには同義語に対応する主回答を認識結果として渡すことで、アプリケーション側に負担を掛けないようにできる。また、回答候補との一致度を評価し主回答による確認を行うことで最終的な認識率を向上させることができる。あるいは各ユーザ毎に、時間経過／経験蓄積に伴うユーザレベルの変化等にも対応しつつ、そのときのユーザのレベルに合った質問の仕方で質問することができ、以って応答質問・応答のコンテキストに起因する認識率の低下や、対話中断を防止できる。

以下、図面を参照して、本発明の実施の形態について説明する。
尚、以下の説明では同義語を例にするが、本発明は同義語に限らず、類義語、類似語等であってもよい。すなわち、後述する主回答（正規の用語等）と意味的に略同様である用語であれば何でもよく、これを「同様語」と定義するものとする。また、尚、以下の説明における同義語には略称（例えば“東京大学”に対する“東大”等）も含まれるものとする。

図１は、第１の実施例による音声対話装置１０の構成ブロック図である。
図１に示す音声対話装置１０は、認識応答制御部１１、質問別候補辞書ＤＢ１２、音声応答部１３、切替部１４、音声認識部１５、標準認識辞書ＤＢ１６、候補評価部１７、質問別候補辞書作成部１８を有する。また、当該音声対話装置１０に係わるものとして、同義語検索装置２１、アプリケーション２２が存在する。アプリケーション２２は、上述した所定のアプリケーションのことであり、基本的には音声対話装置１０が適用されるシステムに依存するものである。

音声対話装置１０は、電話回線３１（公衆電話回線やＩＰネットワーク等）を介して、任意の各電話機３２と通信可能となっている。また、音声対話装置１０は、同義語検索装置２１と不図示のネットワーク（例えばＬＡＮ等）を介して接続されている。また、音声対話装置１０は、認識結果をアプリケーション２２に渡す。これは、不図示のネットワークを介してアプリケーション２２が存在する不図示のシステムにデータ送信してもよいし、あるいは装置１０内／外の不図示のデータベースへ認識結果を記録し、後にこれをアプリケーション２２が読み出して処理するようにしてもよい。

図示の音声対話装置１０では、まず予めシステム管理者等が、質問別候補辞書作成部１８において、各質問毎に、その回答として想定し得る認識候補を登録する。例えば、質問が「出身大学名は？」である場合には、全ての大学名を登録する。その際、同義語検索装置２１等を利用することで、正規の用語だけでなく、その同義語も一緒に登録する。例えば、正規の認識候補として“ほっかいどうだいがく”、“とうきょうだいがく”を登録するだけでなく、これらに対応付けて、同義語“ほくだい”、“とうだい”等を登録する。尚、同義語検索装置２１は、例えば電子辞書等であり、ここでは別の装置として示しているが、音声対話装置１０の機能の一部としてもよい。登録内容は、質問別候補辞書ＤＢ（データベース）１２に格納される。

図２に質問別候補辞書ＤＢ１２に格納されるデータのデータ項目の一例を示す。
図２に示す質問別候補辞書ＤＢ１２は、質問項目５１と回答候補５２とに大区分され、質問項目５１には質問ＩＤ５３と質問テキスト５４、回答候補５２には回答群５５、主回答テキスト５６、同義語回答テキスト５７の各データ項目を有する。

質問項目５１には会話シーケンス（不図示の記憶部に記憶されている）の流れの中の個々の質問項目を格納する。例えば住所と学歴を聞く会話シーケンスであった場合には、「都道府県名は？」→「市／区名は？」→「町名は？」→「番地は？」→「大卒ですか？」→（ＹＥＳの場合）「出身大学名は？」等という会話シーケンスの各質問項目が格納される。尚、実際には、会話シーケンス中には各質問の質問ＩＤが記されており、この質問ＩＤを用いて質問別候補辞書ＤＢ１２から実際の質問内容を取得することになる。

質問ＩＤ５３は各質問毎に予め割り当てられているユニークな識別番号であり、質問テキスト５４には質問ＩＤ５３に対応する質問の実際の内容がテキストデータとして格納される（尚、具体例については図５に示してある）。

回答候補５２には、各質問項目５１に対応して想定される複数の回答候補が格納される。この回答候補は、正規の用語等である主回答候補（主回答テキスト５６）と、各主回答候補毎に対応付けてその主回答候補と意味的に同様である１又は複数の同様語（同義語等；同義語回答テキスト５７）が格納されている。

回答群５５は、主回答テキスト５６及び同義語回答テキスト５７の回答群に対して付けられる回答群名であるが、これは無くてもよい。
主回答テキスト５６には、各質問（質問テキスト５４の内容）に対して想定される回答候補として、正規の用語、代表的な用語、あるいは任意の用語（但し、アプリケーション２２で用いる用語）等である主回答候補が、テキストデータとして格納されている。

同義語回答テキスト５７には各主回答候補に対応付けてその同様語（上述した通り、同義語、類義語、類似語等のことであり、ここでは同義語を例にしている）を格納する。同義語回答テキスト５７には、各主回答候補毎に通常は１または複数の同義語が格納されるが、対応する同義語が無い主回答候補が存在してもよい。

また、特に図示しないが、質問別候補辞書ＤＢ１２には、更に、質問別ではなく、後述する接頭語、接尾語等も登録されている。
また、質問と回答は一問一答を前提としているが、答えに複数キーワードを含む場合もあり、これに対応して１つの質問項目５１に対して回答候補５２がキーワードの数だけ格納されるようにしてもよい。この場合、後述する候補評価部１７の文字列探索処理において複数キーワードから各キーワードを切り出すことになる。

また、標準認識辞書ＤＢ１６には、音声認識の為の標準的な単語テキスト群が予め格納されている。
以下、認識応答制御部１１、音声応答部１３、切替部１４、音声認識部１５、及び候補評価部１７の処理動作について、図３のフローチャート図も参照しつつ説明する。図３は、音声対話装置１０の処理フローチャート図である。

認識応答制御部１１は、会話シーケンスを管理して、音声対話装置１０による音声対話処理全体を制御するものである。認識応答制御部１１は、例えば不図示のアドレス帳を保持しており、このアドレス帳より任意のユーザの電話番号を取得して、この電話番号を音声応答部１３に渡して、任意のユーザの電話機３２への接続を指示する。電話番号を受け取った音声応答部１３は、切替部１４に対してこの電話番号の電話機３２へダイヤルするように指示する（ステップＳ１１）。

切替部１４は、この電話番号の電話機３２へダイヤルする（ステップＳ１２）。切替部１４は、ダイヤルした結果を検出して、接続成功か、不成功か、話し中かを判定する。その結果、接続できた場合（ユーザが電話に出た場合）には（ステップＳ１３、ＹＥＳ）、ステップＳ１７以降の処理に移る。接続できなかった場合であって（ステップＳ１３，ＮＯ）、話し中でもない（ステップＳ１４，ＮＯ）（例えば、留守である為、所定回数ベルを鳴らしても電話に出なかった場合等）には、音声応答部１３を介して認識応答制御部１１に対して、接続できなかった旨を通知する（ステップＳ１６）。話し中であった場合には（ステップＳ１４，ＹＥＳ）、少し時間を置いて再ダイヤルする（ステップＳ１５）。もし、再ダイヤルを所定回数繰り返しても接続できなかった場合には、ステップＳ１６の処理を行う。

切替部１４は、接続が成功したら（上記ステップＳ１３，ＹＥＳ）、その旨を認識応答制御部１１に通知する。これに応じて、認識応答制御部１１は、質問別候補辞書ＤＢ１２を用いて、任意の質問テキスト５４を取得し、これをその質問ＩＤ５３と共に音声応答部１３に渡す。音声応答部１３は、この質問テキスト５４を音声データに変換する。そして、切替部１４、電話回線３１を介して、電話機３２に対して音声の質問を送信する（ステップＳ１７）。尚、電話回線３１は、通常のアナログ公衆回線網であってもよいが、これに限らず、例えばＩＰネットワーク等であってもよい。ＩＰネットワークの場合は、公知のＶＯＩＰ(Voice over IP)技術を用いればよい。

また、音声応答部１３は、上記質問を送信すると共に、音声認識部１５に対してダイヤル接続成功を通知すると共に上記質問ＩＤ５３を渡す。音声認識部１５は、この通知をトリガとして音声認識を開始する。

上記質問に対してユーザが電話機３２より音声による回答を行うと、この回答は、電話回線３１、切替部１４を介して音声認識部１５に送られる。
音声認識部１５は、質問別候補辞書ＤＢ１２を参照して、上記渡された質問ＩＤ５３に対応する回答候補（主回答テキスト５６、同義語回答テキスト５７）を全て取得し、これら回答候補を用いて音声の回答を認識し、音声認識結果（テキストデータ）をその質問ＩＤ５３と共に認識応答制御部１１に渡す（ステップＳ１８）。尚、例えば既存のVoiceXML対応の音声サーバ等ではテキストデータで辞書を構成しており、これを認識装置内で音声波形に変換して音声認識する方式が採られており、音声認識部１５でも同様の方式を用いている。よって、特に図示していないが、「辞書」と対となっている「音響モデル」、「文法」等も予めデータベースに格納されており、実際には上記辞書ＤＢ１２の辞書だけでなく、これらも用いて音声認識を行うことになる。

また、もし上記渡された質問ＩＤ５３に対応する主回答テキスト５６、同義語回答テキスト５７（回答候補）の中に上記音声回答と完全一致するものがない場合には、標準認識辞書ＤＢ１６を参照して、この辞書を用いて各語毎に音声認識してこれら各語を組み合わせて（例えば「ふじ」、「すぎ」、「なみ」や、「く」、「し」、「まち」等の語を組み合わせて）、これを音声認識結果とする。この場合、例えばユーザが「ふじまち」と回答したが「ふしまち」と誤認識してしまうかもしれないが、この認識結果は後述する候補評価部１７が質問別候補辞書ＤＢ１２を参照してテキストデータ同士で評価して、回答候補の中から最も近いものを選び出すので、誤認識したままとなる可能性は非常に低くなる。更に、対応する主回答候補によってユーザに確認をとることで、間違った認識結果をアプリケーション２２に渡す可能性は極めて低くなる。尚、標準認識辞書ＤＢ１６を参照しても音声認識できなかった場合には、音声応答部１３に対して再質問を依頼する。尚、所定回数再質問しても尚、音声認識できなかった場合には、認識応答制御部１１にその旨を通知する。

上記音声認識結果と質問ＩＤ５３を受け取った認識応答制御部１１は、質問別候補辞書ＤＢ１２を参照して当該音声認識結果から余計な言葉（接頭語、接尾語等）を削除し、これを回答認識結果として質問ＩＤ５３と共に候補評価部１７に渡す（ステップＳ１９）。

候補評価部１７は、質問別候補辞書ＤＢ１２から、上記受け取った質問ＩＤ５３の質問に対応する全ての回答候補を取得し、これに基づいて上記回答認識結果を評価し、評価結果に応じた処理を実行する（ステップＳ２０）。ステップＳ２０の処理の詳細は、図４に示してあり、後に詳細に説明する。

認識応答制御部１１は、上記会話シーケンスに沿った複数の質問（１つでもよいが）を行い、１つの質問毎にステップＳ１７〜Ｓ２０の処理を行い、全ての質問を実行したら（ステップＳ２１，ＮＯ）、当該処理を終了する。

図４は、上記ステップＳ２０の詳細フローチャート図である。
図４において、候補評価部１７は、上記の通り認識応答制御部１１から回答認識結果と質問ＩＤ５３を受け取ると（ステップＳ３１）、まず、質問別候補辞書ＤＢ１２から当該質問ＩＤ５３に対応する全ての回答候補、すなわち当該質問ＩＤ５３に対応する主回答テキスト５６及び同義語回答テキスト５７にある全ての用語を取得する（ステップＳ３２）。

そして、一般的な手法により、回答認識結果ｘと各回答候補ｙ（何れもテキストデータ）との差異（距離）を算出する（ステップＳ３２）。これは、例えば、双方のテキストをユニコード等のローマ字コードに変換し、各回答候補ｙに対して例えばＢｏｙｅｒ−Ｍｏｏｒｅ法等の文字列探索法を用いて文字列探索を行い、ｘ−ｙ双方間の距離（例えばＨａｍｍｉｎｇ距離：Ｈ（ｘ、ｙ））を演算する。

そして、各回答候補ｙの中に回答認識結果ｘと完全一致するもの（Ｈａｍｍｉｎｇ距離：Ｈ（ｘ、ｙ）＝０のもの）があった場合には（ステップＳ３４，ＹＥＳ）、当該完全一致した回答候補ｙを回答結果として質問項目５１と共にアプリケーション２２に通知するが（ステップＳ３５）、その際、当該回答結果が主回答テキスト５６であった場合にはそのままそれをアプリケーション２２に通知し、同義語回答テキスト５７であった場合にはそれに対応する主回答テキスト５６を質問別候補辞書ＤＢ１２から求めてアプリケーション２２に通知する。つまり、ユーザが例えば“ほくだい”等のような同義語で回答したとしても、アプリケーション２２には正規の用語“ほっかいどうだいがく”で通知するようにする。尚、アプリケーション２２には、上記質問項目５１ではなく、質問ＩＤ５３のみ又は質問テキスト５４のみを通知するようにしてもよい。この様にすることで、アプリケーション２２には必ず正規の用語で通知されるので、アプリケーション２２において同義語等に対応する処理は必要なくなり、プログラムが簡素化され、アプリケーション２２の処理負荷が軽減できる。

一方、各回答候補ｙの中に回答認識結果ｘと完全一致するものが無かった場合には（ステップＳ３４，ＮＯ）、各回答候補ｙの中で回答認識結果ｘとの一致度が最も高かったもの（Ｈａｍｍｉｎｇ距離が最も小さいもの）を仮の回答結果とする。そして、当該仮の回答結果が主回答テキスト５６であった場合にはそのまま、同義語回答テキスト５７であった場合にはそれに対応する主回答テキスト５６を質問別候補辞書ＤＢ１２から求めて、この主回答テキスト５６を認識応答制御部１１に渡してユーザへの確認を依頼する。これを受けて認識応答制御部１１は更に音声応答部１３に対してユーザへの確認を依頼する。これを受けて、音声応答部１３は、切替部１４、電話回線３１を介して、電話機３２に対して、上記仮の回答結果が正しいか否かを問う確認の質問を伝送する（ステップＳ３６）。

このステップＳ３６の確認の質問は、上記の通り必ず主回答テキスト５６で行う。つまり、ユーザが例えば“ほくだい”等のような同義語で回答したとしても、例えば「“ほっかいどうだいがく”ですか？」等のように確認の質問を行う。これによって、仮にユーザが元々“おくだい”（ここでは奥利根大学の略称であるものとする）と回答したが“ほくだい”と誤認識した場合、従来では「“ほくだい”ですか？」と確認の質問をしたところ、これをユーザが「“おくだい”ですか？」と聞き違えて、誤ってＯＫを出してしまう可能性があったが、このような間違いが生じる可能性は極めて低くなる。

上記ステップＳ３６の質問に対してユーザが「はい」と回答した場合には（ステップＳ３７，ＹＥＳ）、上記仮の回答結果が正しい回答であるとし、ステップＳ３５と同様にして当該仮の回答結果に対応する主回答テキスト５６を質問ＩＤ５３等と共にアプリケーション２２に通知する（ステップＳ３８）。

一方、回答が「いいえ」の場合には（ステップＳ３７，ＮＯ）、認識応答制御部１１に対して、認識失敗（ＮＧ）を通知する（ステップＳ３９）。認識応答制御部１１は、認識失敗を通知された場合には、通常の会話シーケンスではなく、ＮＧの場合の会話シーケンスを実施する。すなわち、例えば、音声応答部１３に対して再度同じ質問を行うように指示する。

ここで、上記「はい」か「いいえ」かの回答についても、ユーザが「はい」か「いいえ」かで回答するとは限らない。例えば、「はい」の意味で、「ええ」、「うん」、「オーケー」等の肯定を示す回答を行う場合もある。これに対して本手法では、予め、「はい」、「いいえ」各々について同義語ファイル（不図示）を用意しておく。そして、候補評価部１７等が音声認識結果を同義語ファイルと照らし合わせることで、ユーザが「ええ」、「うん」等の回答を行っても、これが「はい」を意味するものと判定できる。

尚、アプリケーション２２の処理内容は、上記の通り、本装置１０を適用するシステムに依るので、処理内容は特定できないが、例えば音声対話装置１０が列車等の座席予約システムに適用される場合には、ユーザに希望日時、区間等を質問して回答を得たら、この希望日時、区間で予約が取れるか否かを検索して求める処理等となる。

以下、上記ステップＳ１７〜Ｓ２０の処理について、図５〜図７に具体例を示して説明する。
図５に質問別候補辞書ＤＢ１２に格納される辞書データの具体例を示す。

この例では、質問ＩＤ５３＝‘0012'に対応する質問テキスト５４は「じゅうしょのちょうめいは」（住所の町名は）であり、この質問に対して想定される全ての町名の正式名称等が主回答テキスト５６に格納されるが、図５では「ふじまち」１つのみを例として示してある。そして、この「ふじまち」に関して想定される同義語等が同義語回答テキスト５７に格納され、図示の例では「ふじちょう」、「ふじ」等が格納されている。同様に、質問ＩＤ５３＝‘0011'に対応する質問テキスト５４は「しゅっしんだいがくは」（出身大学は）であり、主回答テキスト５６は「ほっかいどうだいがく」、同義語回答テキスト５７は「ほくだい」、「ほっかいどうだい」が一例として示されている。

図６に、ステップＳ１７において上記質問ＩＤ５３＝‘0012'の質問を行った場合であって、回答が完全一致ではない場合の対話例を示す。
図６において、まず音声応答部１３が電話機３２に対して「じゅうしょのちょうめいは」との質問を送信し、ユーザが「えーとふしまちです」と回答すると、音声認識部１５は標準認識辞書ＤＢ１６と質問別候補辞書ＤＢ１２を用いて音声認識を行う。その際、“ふしまち”が図５の例では質問別候補辞書ＤＢ１２に格納されていないので、完全一致する認識候補が無い為、続いて標準認識辞書ＤＢ１６を用いると、ここでは、例えば、「ふし」と「まち」がそれぞれ完全一致したものとして、これらを組み合わせて「ふしまち」と認識されたものとする。また、“えーと”と“です”も当然認識される。尚、“えーと”と“です”は、それぞれ、標準認識辞書ＤＢ１６によって認識してもよいし、質問別候補辞書ＤＢ１２によって認識してもよい。これらを組み合わせて、音声認識部１５の認識結果は「えーとふしまちです」となる。

この認識結果は、認識応答制御部１１に渡され、上記の通り接頭語、接尾語が削除された結果、認識結果として「ふしまち」が候補評価部１７に渡されることになる。
そして、候補評価部１７は、質問別候補辞書ＤＢ１２を参照するが、「ふしまち」に完全一致するものはないので、一致度が一番高いものとして、ここでは「ふじまち」が仮の回答結果になったものとして、認識応答制御部１１に確認を依頼する。

これより、音声応答部１３が「ふじまちですか？」とユーザに確認質問し、ユーザが「ええ」と答えたものとし、これを音声認識部１５が「ええ」と認識し、認識応答制御部１１がこれをそのまま候補評価部１７に渡すが、上記の通り、例えば質問別候補辞書ＤＢ１２には「はい」、「いいえ」に対する同義語も登録されており、これより候補評価部１７は、「ええ」が「はい」を意味するものと判定し、アプリケーションに対して回答結果として「ふじまち」を通知する。

図７に、ステップＳ１７において上記質問ＩＤ５３＝‘0011'の質問を行った場合であって、回答が同義語による回答であった場合の対話例を示す。
この例では、音声認識部１５、認識応答制御部１１を経て候補評価部１７に渡される認識結果は「ほくだい」であり、図５に示す例ではこの質問に対応する同義語回答テキスト５７に「ほくだい」が含まれているので、これと完全一致と判定し（ステップＳ３４，ＹＥＳ）、ユーザに確認を行うことなく、その正規の用語である「ほっかいどうだいがく」をアプリケーションに通知する。尚、これは一例であり、例えば、同義語等で回答された場合には完全一致であってもユーザに確認を行うようにしてもよいし、全ての回答について必ずユーザ確認を行うようにしてもよい。

以上説明したように、上記音声対話装置１０によれば、質問別に、想定される回答候補を設定・登録しておくと共にこの回答候補には回答の正規の用語等である主回答候補だけでなくその同義語（略称等も含む）、類義語、類似語等である同様語も設定・登録しておくことで、これら同義語等のように正規の用語とは発音が異なる言葉により回答されても、問題なく認識できるようになる。更に、各主回答候補毎に同様語が対応付けられており、たとえユーザが同様語で回答したとしてもアプリケーション２２へは対応する主回答候補を回答結果として渡すので、アプリケーション２２において同義語、類似語等の識別処理が不要になり、アプリケーション２２でのデータ処理が容易になる。更に、音声認識結果（テキストデータ）を上記登録されている各回答候補（テキストデータ）と比較して一致度を評価するので、つまりテキストデータ同士で比較して回答候補の中から音声認識結果と完全一致するものを探し、完全一致するものがない場合には音声認識結果に最も近いものを選択すると共にユーザに確認をとるので、たとえ音声認識結果が誤認識であったとしても、この誤認識を是正することが可能となり、最終的な認識率（アプリケーション２２に渡す認識結果が正しい割合）を向上させることができる。特に、正規の用語以外で回答された場合等でも、ユーザへの確認は正規の用語により行うので、的確な確認取りが出来るようになり、上記最終的な認識率を更に向上させることができる。

以下、第２の実施例について説明する。
図８に、第２の実施例による音声対話装置６０の構成ブロック図を示す。
図示の音声対話装置６０は、図１の場合と同様、公衆電話回線網、ＩＰネットワーク等のネットワーク８２を介して、任意の各ユーザの電話機８１と接続して、ユーザからの音声入力を音声認識して、音声による応答（質問、確認等）を行うことで、自動的に音声による対話を行う装置である。

図示の音声対話装置６０は、送受信部６１、音声認識エンジン６２、音声応答エンジン６３、対話管理部６４、コンテキスト交換部６７、質問・応答部品交換部６８、及び対話支援部７０を有する。

対話管理部６４は、質問文またはこの質問に対する応答の選択肢である応答文が記述された質問・応答部品６５と、この質問・応答部品を用いた対話シナリオを有するコンテキスト６６とを対話支援部７０から取得して、これらを用いて一般的な対話制御を行う。本手法の特徴は、対話支援部７０によって、これら質問・応答部品６５、コンテキスト６６の内容が、対話相手のユーザ毎にそのユーザの現在のレベル（慣れ、習熟度等）に応じた内容となるように随時変更されることである。尚、質問・応答部品６５はコンテキスト６６のシナリオ中の各質問の実際の質問・応答文であるので、「コンテキスト６６＋質問・応答部品６５」をコンテキストと呼んでもよい。このコンテキストは、質問の仕方・質問内容を規定したものであると言える。また、送受信部６１、音声認識エンジン６２、音声応答エンジン６３も一般的な構成であってよく、特許文献３等のように複数の音声認識エンジンを設けたり、音声分配する必要はない。

また、対話管理部６４は、不図示の会話シーケンス情報を保持しており、これに基づいてユーザとの対話を管理・制御する。会話シーケンスは、特に図示しないが、複数の対話単位の組み合わせによって構成される。そして、対話単位毎に、対話相手のユーザの現在のレベルに応じたコンテキスト６６等を上記の通り対話支援部７０から取得することになる。尚、対話単位とはコンテキストを意味するが、コンテキスト６６や後述するコンテキストａ，ｃ等と区別し難くなりまぎらわしいので、ここでは対話単位と呼ぶものとする。換言すれば、対話単位とは中身がないコンテキストであり、この中身がコンテキスト６６等であるとも言える。

対話支援部７０は、入力部７１、操作履歴評価部７２、コンテキスト／質問・応答部品生成部７３の各機能部（所定のプログラムロジックにより実現される機能）と、操作履歴ＤＢ７４、メタ知識ＤＢ７５、コンテキストＤＢ７６、及び質問・応答部品ＤＢ７７の各種データベースを有している。尚、図８に示す例に限らず、例えば対話支援部７０を上記音声対話装置１０に追加する構成としてもよい。

また、音声対話装置６０は、何らかのネットワーク８３を介して、管理サーバ８４との間でデータ送受信可能な構成にもなっている。
以下、上記音声対話装置６０の各構成について詳細に説明する。

まず、上記送受信部６１は、任意の電話機８１にダイヤルして接続し、音声応答エンジン６３の音声出力（質問、確認等）をネットワーク８２を介して当該電話機８１に伝送し、あるいは電話機８１からユーザによる音声入力があると、これを受信して音声認識エンジン６２に渡す、という図１の切替部１４と略同様の機能を有するが、これに加えて更に、ユーザに電話を掛けた時（またはユーザ側から電話が掛かってきた時）の時刻と、当該ユーザの電話番号（受信開始時刻、受信電話番号）を対話支援部７０に通知する機能も備える。

音声認識エンジン６２は、ネットワーク８２、送受信部６１を介して入力したユーザの音声を、音声認識して、認識結果（テキストデータ）を対話管理部６４に渡す。
音声応答エンジン６３は、対話管理部６４から渡される任意の質問・応答部品本体（テキストデータ）を音声データに変換して、これを送受信部６１に出力する。

質問・応答部品６５は、実際にユーザに質問する各質問内容やその回答の選択肢の内容等を記述したテキストデータ（質問・応答部品本体）であり、これらは質問・応答部品番号と対応付けられている。そして、対話管理部６４がコンテキスト６６に従ってユーザと対話する際に、その都度必要な質問・応答部品を、質問・応答部品６５の中から取得することになる。

コンテキスト６６は、対話単位毎に、上記対話支援部７０から取得したコンテキスト（後述するコンテキストａ，ｃ等）のことである。後述するように、各コンテキストは、シナリオ情報と、このシナリオで用いる各質問を構成する質問・応答部品の番号等の情報等より構成される。尚、コンテキストとは、“一連のまとまった質問”に対応するものであり、上記シナリオ情報は１又は複数の質問とこれら質問を用いた対話シナリオ（例えば、質問Ａ，Ｂ，Ｃを用いて、質問Ａには選択肢ａ，ｂがあり、選択肢ａが選択された場合には質問Ｂ、選択肢ｂが選択された場合には質問Ｃを質問する等）とから成る。対話管理部６４は、質問・応答部品６５及びコンテキスト６６を用いて、上記コンテキスト６６のシナリオ情報に沿って、質問を行って回答を得て、この回答（上記音声認識結果）に応じて次の質問を判定して対応する質問・応答部品６５を選択して音声応答エンジン６３に渡す、という処理を進捗状況を把握しつつ行うことで、ユーザとの対話を管理・制御する。

ここで、上記各質問には、ユニークな識別番号である操作ＩＤが割り当てられている。但し、ここでいう“質問”とは、質問自体だけでなく、その質問に対して予め用意される回答候補（回答の選択肢）までも含むものとする。よって、厳密には、操作ＩＤ９６は、各質問とその質問に対して予め用意される回答候補（回答の選択肢）との組に対して割り当てられるものである。例えば、質問Ａに対して回答の選択肢ｐ、ｑがあり、質問Ｂに対して回答の選択肢ｒ、ｓがあったとすると、Ａとｐとｑ、Ｂとｒとｓの２組に対して各々操作ＩＤが割り当てられる（１つの質問単位毎に１つの操作ＩＤが割り当てられているとも言える）。

また、対話管理部６４は、各質問毎に、音声応答エンジン６３に質問を渡してから、音声認識エンジン６２から音声認識結果を得るまでの時間（以下、応答時間と呼ぶものとする）を計測しており、この計測した応答時間をその質問の操作ＩＤと共に対話支援部７０に通知する。あるいは、もし予め設定される所定時間内に回答が得られなかった場合には、回答が得られなかった旨を対話支援部７０に通知する。

次に、以下、対話支援部７０について説明する。まず、各種データベース７４〜７７について説明する。また、各種データベース７４〜７７の具体例について、図９（ａ）〜（ｄ）に示す。

尚、操作履歴とメタ知識のデータは、各対話単位毎に区分して格納されるものであり、図９（ａ）、図９（ｂ）に示す例は任意の１つの対話単位に関するデータであって更にその一部を示すものとする。

まず、操作履歴ＤＢ７４は、各ユーザ毎にそのユーザの現在のレベルやそのユーザの各質問に対する上記応答時間等を記録したユーザ情報と、各質問毎のエキスパートによる上記応答時間等を記録したエキスパート操作情報とから成る。エキスパート操作情報は、後述するＮＥＭ法によってＮＥ比を算出する際に必要となるデータであり、全ての質問についてエキスパート操作情報が予め測定されて不図示の記憶部等に記憶されており、操作履歴ＤＢ７４に記録されるエキスパート操作情報は、ユーザ情報が追加される毎にその質問に対応するエキスパート操作情報を上記不図示の記憶部から取得して記録するものである。

上記操作履歴ＤＢ７４の具体例を図９（ａ）に示す。この例では、操作履歴は、ユーザ情報９１とエキスパート情報９２より成る。ユーザ情報９１は、各ユーザ毎且つ各質問毎の操作履歴であり、電話番号／ユーザＩＤ９３、ユーザレベル９４、開始時刻９５、操作ＩＤ９６、及び応答時間履歴９７の各データ項目より成る。

電話番号／ユーザＩＤ９３は各ユーザ（履歴対象者）を識別する為の情報である。電話機８１が携帯電話の場合にはその電話番号によってほぼユーザを特定できるが、家庭／企業等の固定電話の場合には、複数のユーザ（家族）が共用する為、ユーザＩＤにより識別する。ユーザＩＤは例えばそのユーザが初めて本装置を利用したときに任意に割り当て、このユーザＩＤをユーザに知らせておき、以後、本装置を利用するときはユーザにユーザＩＤを音声入力させるようにする。あるいは、不図示のユーザＩＤ−ユーザ名対応テーブルを保持しておき（初めて利用する際に登録する）、本装置を利用するときはユーザに名前を音声入力させるようにしてもよい。

ユーザレベル９４は、各ユーザ毎の各質問毎の現在のユーザのレベル（初心者／中級者／上級者等）であり、各質問毎（操作ＩＤ９６毎）にそれぞれレベルが後述する図１０の処理によって判定されて格納されるものである。ユーザレベル９４は、図１０の判定により随時変更されていく。ここで、ユーザレベル９４によって、当該対話単位のユーザのレベルが直ちに決まるとは限らない。通常は、各対話単位は、複数の質問により構成される。よって、図９（ａ）では各ユーザ毎に１つの質問（操作ＩＤ９６）に関するデータ（応答時間履歴９７、ユーザレベル９４等）のみ示しているが、実際には当該対話単位を構成する複数の質問に関するデータが格納されることになる。そして、格納されている全ての質問のユーザレベル９４を用いて、後述する判定ルール（例えば多数決等）を用いて、そのユーザの当該対話単位に関するレベルを判定し、判定したレベルに応じたコンテキスト名をメタ知識ＤＢ７５を参照して取得することになる。尚、ユーザレベル９４と区別する為に、以下、上記判定ルールにより判定されたレベルを“対話単位のレベル”又は“対話レベル”と呼ぶものとする。尚、ある対話単位を構成する質問が１つである場合には、その質問に関するユーザレベル９４がそのまま対話レベルとなってよい。

開始時刻９５は、操作履歴を識別するため一連の操作の開始時刻を格納する。
操作ＩＤ９６については、上述してある通りである。尚、操作ＩＤは、例えば管理サーバ８４で割り当て管理される。

応答時間履歴９７は、各操作ＩＤ９６毎に対応付けて上記応答時間を格納する。つまり、各質問毎の応答時間を格納する。
エキスパート操作ＩＤ９８は、操作ＩＤ９６と同じであり、図には参考の為に示しているだけであり、特に必要ないものである。つまり、上記不図示の記憶部には、各操作ＩＤ（エキスパート操作ＩＤ）と対応付けてエキスパート応答時間が登録されており、これにより新たに記録したユーザ情報９１の操作ＩＤ９６に対応するエキスパート応答時間を不図示の記憶部から検索・取得してこれをエキスパート操作ＩＤ９８に格納できることを参考の為に示しているだけである。

エキスパート応答時間９９は、上記の通り、記録された各操作ＩＤに対応するエキスパートによる応答時間である。
メタ知識ＤＢ７５は、後述する図１０の処理において各質問毎のユーザレベル９４を判定する際に用いられる各種対策ルールを格納する。また、各レベル（初心者／中級者／上級者）毎に対応したコンテキストのコンテキスト名を格納する。

メタ知識ＤＢ７５は、図９（ｂ）に示す例では、対策ルール１０１、初心者ルール１０２、中級者ルール１０３、上級者ルール１０４より成る。対策ルール１０１は、上記の通り、図１０の処理により各質問毎にユーザレベルを判定する際に参照するルールである。初心者ルール１０２には、上記対話レベルが初心者である場合に対話管理部６４に使用させるべきコンテキストのコンテキスト名が格納される。中級者ルール１０３、上級者ルール１０４も同様に、中級者向け、上級者向けのコンテキストのコンテキスト名が格納される。尚、これら対策ルール１０１〜上級者ルール１０４は、各々独立して存在するのであり、互いに対応付けられているわけではないが、図では一緒に示しているだけである。また、尚、上記の通り、メタ知識のデータは、各対話単位毎に区分して格納されるが、対策ルール１０１については全ての対話単位の共通のものとしてもよい。

コンテキストＤＢ７６には、各コンテキスト毎に、そのコンテキストを構成する各質問・応答部品の質問・応答部品番号と、シナリオ情報が格納される。尚、シナリオ情報とは、例えば当該コンテキストを構成する各質問と質問の流れ（最初にどの質問を行い、ユーザの応答内容に応じて次にどの質問を行うのか等）を操作ＩＤを用いて記述し、また各質問毎にその質問で用いる質問・応答部品番号を記述したものである。

コンテキストＤＢ７６は、図９（ｃ）に示す例では、コンテキスト名１１１とコンテキスト本体１１２より成る。コンテキスト名１１１は、各コンテキストに予め割り当てられている番号や名称である。コンテキスト本体１１２は、各コンテキスト名１１１に対応するコンテキスト本体であり、上記の通り質問・応答部品番号とシナリオ情報である。

質問・応答部品ＤＢ７７には、各質問・応答内容を記述したテキストデータ（質問・応答部品本体）が、質問・応答部品番号と対応付けて格納されている。
質問・応答部品ＤＢ７７は、図９（ｄ）に示す例では、質問・応答部品名１２１と部品本体１２２より成る。質問・応答部品名１２１は、各質問・応答部品に予め割り当てられている番号や名称である。部品本体１２２は、各質問・応答部品名１２１に対応する質問・応答部品本体であり、上記の通りユーザへの質問、応答の選択肢の実際の内容が記述されたテキストデータである。

再び図８に戻り、対話支援部７０の各機能部７１〜７３について説明する。
入力部７１は、送受信部６１から渡される上記受信開始時刻、受信電話番号を、それぞれ、操作履歴ＤＢ７４の開始時刻９５、電話番号／ユーザＩＤ９３に格納する。あるいは、電話番号ではユーザを特定できない場合であって、例えば対話管理部６４がユーザに対してユーザＩＤを問い合わせる等した場合には、対話管理部６４がこのユーザＩＤを通知してくると、これを電話番号／ユーザＩＤ９３に格納する。勿論、既に登録済みのユーザである場合には、上記受け取った受信電話番号又はユーザＩＤを用いて操作履歴ＤＢ７４を検索し、該当するユーザ情報の格納位置を求める。

また、入力部７１は、上記受信電話番号又はユーザＩＤが通知されると、このユーザとの対話処理が開始されるものと判定するが、その際、このユーザが初めての利用ではなく、既に操作履歴ＤＢ７４にユーザ情報９１が格納されている状態であって且つ既に少なくとも１回はユーザレベルの判定を受けてユーザレベル９４にユーザレベルが格納されている場合には、このユーザレベル９４を取得して、これをコンテキスト／質問・応答部品生成部７３に通知するようにしてもよい。尚、既に述べた通り、操作履歴ＤＢ７４には各対話単位別に操作履歴が格納されるが、通常、対話処理開始時の最初の対話単位が何であるかは決まっているので、この対話単位に対応する操作履歴を参照して、上記ユーザに関する全てのユーザレベル９４（格納されている全ての操作ＩＤに関する全てのユーザレベル９４）を取得する。あるいは、もし、このユーザが初めての利用である場合には（操作履歴ＤＢ７４にユーザ情報９１が格納されていない場合には）、その旨をコンテキスト／質問・応答部品生成部７３に通知する。

コンテキスト／質問・応答部品生成部７３は、この入力部７１からのユーザレベルの通知を受けると、例えば上記判定ルール（多数決等）により、上記対話単位に関する当該ユーザの対話レベルを判定する。また、もし、このユーザが初めての利用である旨の通知を受けた場合には、対話レベルは、一律、初心者であると判定する。そして、メタ知識ＤＢ７５における上記対話単位に対応するメタ知識を参照して、上記判定した対話レベルに応じたコンテキスト名を取得し（もし対話レベルが初心者であれば、図９（ｂ）の例ではコンテキスト名ａを取得）、取得した各コンテキスト名に対応するコンテキスト本体１１２をコンテキストＤＢ７６から取得し、取得したコンテキスト本体１１２に記述された、そのコンテキストで使用する質問・応答部品の質問・応答部品名に基づいて、質問・応答部品ＤＢ７７から対応する部品本体１２２を取得し、以上取得したデータを上記質問・応答部品６５、コンテキスト６６として対話管理部６４に渡す。

また、対話管理部６４は、上記渡された質問・応答部品６５、コンテキスト６６を用いてユーザとの対話を行い、当該対話単位の質問が終了すると、次の対話単位が何であるか（対話単位名等）を入力部７１に通知する。入力部７１、コンテキスト／質問・応答部品生成部７３は、通知された対話単位名に対応して、上述した処理を実行し、当該対話単位に関するそのユーザの対話レベルに応じた内容の質問・応答部品６５、コンテキスト６６を対話管理部６４に渡す。

尚、一人のユーザに対して１つの対話レベルを規定するのではなく、上記の様に各対話単位で対話レベルを規定するようにしたのは、ある一人のユーザであっても、質問の内容によって得意・不得意があったり、あるいは慣れている質問、初めての質問等がある為であり、これによって木目細かいユーザ対応が可能となる。但し、これに限定する必要はなく、一人のユーザに対して１つの対話レベルを規定するようにしてもよい。

また、入力部７１は、対話管理部６４から上記質問から回答までの計測時間（応答時間）とその操作ＩＤが通知される毎に、これらを操作履歴ＤＢ７４の応答時間履歴９７、操作ＩＤ９６に格納する。更に、この操作ＩＤ９６に対応するエキスパート応答時間を不図示の予め作成されている操作ＩＤ−エキスパート応答時間対応テーブルから取得し、これを操作履歴ＤＢ７４のエキスパート応答時間９９に格納する。一方、もし、通知された操作ＩＤと同じものが既に操作ＩＤ９６に格納されていた場合には、この操作ＩＤ９６に対応する応答時間履歴９７の内容を上記通知された応答時間により更新する（上書きする。または過去のデータも消去せずに残し、随時追加していく）。

そして、入力部７１は、任意のときに（ここでは応答時間が通知される毎に）、操作履歴評価部７２を起動して、後述する図１０の処理を実行させる。
尚、操作履歴評価部７２の起動条件は、上記「応答時間が通知される毎」に限らない。例えば、上記の様に対話管理部６４から所定時間内に回答が無かった旨の通知があった場合に起動してもよいし、あるいは上記受信電話番号又はユーザＩＤが通知された時に起動してもよいし、全ての対話完了時点、あるいは各対話単位毎の対話開始又は終了時点で起動してもよいし、その他任意の条件をシステム管理者が設定してもよい。但し、ここでは、上記「応答時間が通知される毎」又は「所定時間内に回答が無かった旨の通知があった場合」に起動するものとする。

操作履歴評価部７２は、起動すると、図１０に示す処理を実行して、各質問（操作ＩＤ）毎のユーザレベルを判定する。
図１０は、操作履歴評価部７２の処理フローチャート図である。

図１０において、操作履歴評価部７２は、まず、上記所定時間内に回答が無かった旨の通知があった為に起動された場合には（ステップＳ４１，ＹＥＳ）、これに対応する対策ルール１０１をメタ知識ＤＢ７５から求め（図９（ｂ）には示していないが存在する）、求めた対策ルールを実行する。この状況に対応する対策ルールとしては、例えば「所定時間内に回答が無かった場合は、強制的にユーザレベルを一段下げる」、「所定時間内に回答が無かった場合は、再度現在の操作ＩＤを実施する」等が考えられる。もし対策ルールが「強制的にユーザレベルを一段下げる」であった場合には、操作履歴評価部７２は、現在のユーザレベル９４を参照して、現在のレベルから一段レベルを下げたものを新たにユーザレベル９４に上書きする。また、対策ルールが「再度現在の操作ＩＤを実施する」であった場合には、操作履歴評価部７２は、対話管理部６４にその旨を通知する。これによって、対話管理部６４は再度同じ質問を行うことになる。

一方、「応答時間が通知される毎」の起動においては（ステップＳ４１，ＮＯ）、まず、ステップＳ４２〜Ｓ４４の処理、すなわちＮＥＭ法による評価を行う。
ここで、ＮＥＭ（Novice Expert ratio Method）とは公知の評価手法である。

ＮＥＭとは、ある一定のタスクにおいて、設計者（エキスバート）と初心者ユーザの操作に要する時間を比較し、ユーザビリティに問題のある操作ステップを把握する評価手法である。

ＮＥ比は以下の公式により計算され、各操作タスクの難易度が示されることになる。
NE比＝ Tn / Te
Tn : 初心者ユーザが要した平均時間
Te : エキスパートユーザが要した平均時間
ＮＥ比が大きいほど、操作に対するモデルのギャップが大きいということになる。

これより、まず、処理対象の操作ＩＤに対応する応答時間を、ユーザ、エキスパートのそれぞれについて求める。つまり応答時間履歴９７とエキスパート応答時間９９とを取得する（ステップＳ４２，Ｓ４３）。取得した応答時間履歴９７をＴｎｋとし、取得したエキスパート応答時間９９はＴｅｋとする（ｋは、操作ＩＤ９６）。

そして、以下の（１）式によりＮＥ比を演算する（ステップＳ４４）。
ＮＥｋ＝Ｔｎｋ／Ｔｅｋ・・・（１）式
尚、上記の様に、ＮＥｋ、Ｔｎｋ、Ｔｅｋとしているのは、複数の質問（操作ＩＤ）について一度に処理する場合も想定している為であり、上記のように「応答時間が通知される毎」に本処理を行う場合には、単純に「応答時間履歴９７／エキスパート応答時間９９」によってＮＥ比を求めればよい。

そして、ステップＳ４４で求めたＮＥｋについて、ステップＳ４５、Ｓ４６の処理を行う。
まず、算出したＮＥｋを、予め設定されている閾値と比較して、閾値との関係を判定する（ステップＳ４５）。例えば、図１０に示すように、中級境界閾値、上級境界閾値の２つの閾値が予め設定されているものとする。ＮＥ比は、ユーザがエキスパートレベルに近づくほど、値が小さくなる。これより、ＮＥｋが、ＮＥｋ＜上級境界閾値、中級境界閾値＞ＮＥｋ≧上級境界閾値、中級境界閾値≦ＮＥｋの何れになるかを判定する。尚、閾値は、予めデフォルトで設定されているが、システム管理者等が設定変更できるものとする。

そして、ステップＳ４５の判定結果と対策ルール１０１とに基づいて、ユーザレベルを決定し又はユーザレベルを変更すべきかを判定する（ステップＳ４６）。すなわち、図９（ｂ）に示す対策ルール１０１の具体例にあるように、ステップＳ４５の処理で例えば中級境界閾値を下回る（中級境界閾値＞ＮＥｋ≧上級境界閾値）と判定された場合でも、直ちにユーザレベルを中級者に変更するとは限らないからである。

上述したように、随時、操作履歴評価部７２が各操作ＩＤ９６毎のユーザレベル９４を決定／変更していき、必要に応じて上記の通りコンテキスト／質問・応答部品生成部７３が各ユーザレベル９４に基づいて対話レベルを判定して、判定した対話レベルに応じたコンテキストを対話管理部６４に渡すことになる。尚、この対話レベルの判定の為の判定ルールは、上記「多数決」に限らない。例えば「一番低いレベルに合わせる」等であってもよい。

図１１に、ユーザレベル変更前、変更後の質問内容の例を示す。
図９（ｂ）に示す例では、ある対話単位に関して対話レベルが初心者である場合にはコンテキストａ、中級者である場合にはコンテキストｃとｄを用いるので、図１１にはこれに対応して、あるユーザが当該対話単位に関して最初は初心者であったが後に中級者になった場合を例を示す。

図１１（ａ）に示すように、ユーザレベル変更前の初心者向けの質問内容では、図示の様に「次の３つの中から選んでお答え下さい」として３つの選択肢を逐一読み上げて、この選択肢の中から回答を求めるような丁寧な質問の仕方をしている。これによって、初心者でも判断に迷うことなく回答できるようになる。しかしながら、最初は音声対話装置によるサービスに慣れていない初心者であっても、何度か本サービスを利用することで、通常は段々と慣れていくものである。その為、今度は、徐々に、図１１（ａ）の様な質問の仕方が煩わしくなってきて、最悪、途中で面倒になり、対話を中断してしまう可能性もあった。

これに対して、上記音声対話装置６０では、ユーザの習熟度が向上したとき等には対話レベルを変更するので、例えば図１１（ｂ）に示すような中級者向け質問内容に変更される。図示の様に、中級者向けの場合は質問の仕方が簡略化される。もし初めて利用するユーザ等にこの様な中級者向けの質問の仕方をすると、質問の内容または答え方が理解できずに、答えられなかったり、曖昧な回答となってしまう場合があったが、本手法ではこの様な事態が起こらないようにできる。尚、特に図示していないが、上級者向けのコンテキストｅ等の場合は例えば「どの様なご用件ですか？」等、更に質問の仕方が簡略化されることになる。

最後に、図８のコンテキスト交換部６７、質問・応答部品交換部６８について説明する。
コンテキスト交換部６７は、定期的に、各ユーザのユーザ情報９１を、ネットワーク８３を介して管理サーバ８４に転送する。

管理サーバ８４は、各音声対話装置６０の音声認識率や操作性のモニタ、認識率の悪化に対する対策等の全体管理を行うサーバである。管理サーバ８４側では、そのサーバ管理者等が、これら複数のユーザのユーザ情報９１（特に応答時間履歴９７）に基づいて、例えばＮＥ比の高い操作ステップ（質問内容）の統計をとる。これに基づいて、開発者等がＮＥ比の高い操作ステップの分析を行って、対策ルールの内容を変更したり、コンテキストを変更したり、質問・応答部品を変更したりする。管理サーバ８４は、変更後の対策ルール、コンテキストを、ネットワーク８３を介してコンテキスト交換部６７に送信する。コンテキスト交換部６７は、これに応じて、メタ知識ＤＢ７５、コンテキストＤＢ７６の内容を更新する。

また、管理サーバ８４は、変更後の質問・応答部品を、ネットワーク８３を介して質問・応答部品交換部６８に送信する。質問・応答部品交換部６８は、これに応じて、質問・応答部品ＤＢ７７の内容を更新する。

図１２（ａ）に変更前、（ｂ）に変更後のコンテキスト（その質問・応答部品）の一例を示す。
図示の例では、ユーザの住所を聞く為のコンテキストを、コンテキストｘからコンテキストｙに変更した例を示す。変更前のコンテキストｘは、「住所をお答え下さい」という内容の質問・応答部品１つから成り、ユーザの回答パターンが多岐にわたるため（例えば都道府県から答えたり、市町村名から答えたりする）、統計の結果、全体的に認識率が悪くＮＥ比も悪かったとする。

この為、管理サーバ８４側の開発者等が、図１２（ｂ）に示すコンテキストｙ（その質問・応答部品）を作成したとする。コンテキストｙは、「市町村名」、「番地」、「ビル名／部屋番号」を問う３つの質問・応答部品から成り、具体的、段階的に質問するので、ユーザは判断に迷うことなく、的確に回答できるようになる。よって、認識率、ＮＥ比が向上するようになる。

以上説明したように、第２の実施例の音声対話装置６０によれば、各ユーザ毎に、そのユーザの各質問毎の応答時間（質問開始から回答完了までに掛かる時間）を収集・蓄積し、これをＮＥＭ法等の評価手法によって評価して、評価結果に基づいて各質問毎のユーザレベルを決定・変更する処理を継続的に随時実行する。そして、必要に応じて、例えば対話単位毎に、この各質問毎のユーザレベルに基づいてそのユーザのそのときの対話レベルを判定し、この対話レベルに応じて質問の仕方（コンテキスト、質問・応答部品）で対話を行うので、ユーザが習熟によりユーザレベルが向上していくこと等にも対応して随時そのときのユーザの対話レベルに合った質問の仕方で対話を行うことができる。よって、質問・応答のコンテキストに起因する認識率の低下や対話中断が起こる可能性は非常に低くなる。更に、対話単位毎に対話レベルを決定して対話レベルに合った質問の仕方で対話を行うので、例えば質問のジャンルによるユーザの得意／不得意や、過去に何度も経験した質問か初めての質問か等によるユーザの慣れの違い等にも対応でき、木目細かいユーザサービスが可能となる。また、特許文献３等のように音声認識エンジンを複数設ける必要はないので、低コストでシステム構築することができる。
図１３は、上述した音声対話装置１０、６０を実現するコンピュータ２００のハードウェア構成の一例を示す図である。

同図に示すコンピュータ２００は、ＣＰＵ２０１、メモリ２０２、入力部２０３、出力部２０４、記憶部２０５、記録媒体駆動部２０６、及びネットワーク接続部２０７を有し、これらがバス２０８に接続された構成となっている。同図に示す構成は一例であり、これに限るものではない。

ＣＰＵ２０１は、当該コンピュータ２００全体を制御する中央処理装置である。
メモリ２０２は、プログラム実行、データ更新等の際に、記憶部２０５（あるいは可搬型記録媒体２０９）に記憶されているプログラムあるいはデータを一時的に格納するＲＡＭ等のメモリである。ＣＰＵ２０１は、メモリ２０２に読み出したプログラム／データを用いて、上述してある各種処理・機能（図１、図８に示す各種機能部の処理機能、図３，図４、図１０のフローチャートの処理）を実行する。

入力部２０３は、例えば、キーボード、マウス等である。
出力部２０４は、例えばディスプレイである。
記憶部２０５は、例えばハードディスク等であり、上述した様々な処理・機能を、コンピュータ２００に実行させるためのプログラム／データが格納されている。

ネットワーク接続部２０７は、例えばイントラネットやインターネット等のネットワークに接続して、他の情報処理装置とのコマンド／データ送受信を行う為の構成である。
あるいは、これらプログラム／データは、可搬型記録媒体２０９に記憶されているものであってもよい。この場合、可搬型記録媒体２０９に記憶されているプログラム／データは、記録媒体駆動部２０６によって読み出される。可搬型記録媒体２０９とは、例えば、ＦＤ（フレキシブル・ディスク）２０９ａ、ＣＤ−ＲＯＭ２０９ｂ、その他、ＤＶＤ、光磁気ディスク等である。

あるいは、また、上記プログラム／データは、ネットワーク接続部２０７により接続しているネットワークを介して、他の装置内に記憶されているものをダウンロードするものであってもよい。あるいは、更に、インターネットを介して、外部の他の装置内に記憶されているものをダウンロードするものであってもよい。

また、本発明は、上記本発明の各種処理をコンピュータ上で実現するプログラムを記録した可搬型記憶媒体として構成できるだけでなく、当該プログラム自体として構成することもできる。

第１の実施例による音声対話装置の構成ブロック図である。質問別候補辞書ＤＢに格納されるデータのデータ項目の一例を示す。第１の実施例の音声対話装置の処理フローチャート図である。図３のステップＳ２０の処理の詳細フローチャート図である。質問別候補辞書ＤＢに格納される辞書データの具体例を示す図である。具体的な対話処理例を示す図（その１）である。具体的な対話処理例を示す図（その２）である。第２の実施例による音声対話装置の構成ブロック図を示す。（ａ）は操作履歴ＤＢ、（ｂ）はメタ知識ＤＢ、（ｃ）はコンテキストＤＢ、（ｄ）は質問・応答部品ＤＢに格納されるデータの具体例を示す図である。図８の操作履歴評価部の処理フローチャート図である。対話レベル変更前、変更後の質問内容の例を示す図である。（ａ）に変更前、（ｂ）に変更後のコンテキスト（その質問・応答部品）の一例を示す。コンピュータのハードウェア構成図である。従来の音声対話装置の構成図（その１）である。従来の音声対話装置の構成図（その２）である。

符号の説明

１０音声対話装置
１１認識応答制御部
１２質問別候補辞書ＤＢ
１３音声応答部
１４切替部
１５音声認識部
１６標準認識辞書ＤＢ
１７候補評価部
１８質問別候補辞書作成部
２１同義語検索装置
２２アプリケーション
３１電話回線
３２電話機
５１質問項目
５２回答候補
５３質問ＩＤ
５４質問テキスト
５５回答群
５６主回答テキスト
５７同義語回答テキスト
６０音声対話装置
６１送受信部
６２音声認識エンジン
６３音声応答エンジン
６４対話管理部
６５応答部品
６６コンテキスト
６７コンテキスト交換部
６８質問・応答部品交換部
７０対話支援部
７１入力部
７２操作履歴評価部
７３コンテキスト／質問・応答部品生成部７３
７４操作履歴ＤＢ
７５メタ知識ＤＢ
７６コンテキストＤＢ
７７質問・応答部品ＤＢ
８１電話機
８２ネットワーク
８３ネットワーク
８４管理サーバ
９１ユーザ情報
９２エキスパート情報
９３電話番号／ユーザＩＤ
９４ユーザのレベル
９５開始時刻
９６操作ＩＤ
９７応答時間履歴
９８エキスパート操作ＩＤ
９９エキスパート応答時間
１０１対策ルール
１０２初心者ルール
１０３中級者ルール
１０４上級者ルール
１１１コンテキスト名
１１２コンテキスト本体
１２１質問・応答部品名
１２２部品本体
２００コンピュータ
２０１ＣＰＵ
２０２メモリ
２０３入力部
２０４出力部
２０５記憶部
２０６記録媒体駆動部
２０７ネットワーク接続部
２０８バス
２０９可搬型記録媒体
２０９ａＦＤ（フレキシブル・ディスク）
２０９ｂＣＤ−ＲＯＭ

Claims

各質問と、各質問別に想定される各回答候補として、各主回答候補と、該各主回答候補毎に対応付けてその主回答候補と意味的に同様である１又は複数の同様語を格納する質問別候補辞書格納手段と、
前記質問別候補辞書格納手段に格納される任意の質問を用いて、ネットワークを介して任意の電話機に対して音声による質問を送信する音声応答手段と、
前記音声応答手段による質問に対して前記電話機を介して入力される音声による回答を受信して、該音声による回答を前記質問別候補辞書格納手段または標準認識辞書を参照して音声認識する音声認識手段と、
該音声認識結果が前記同様語である場合には、前記質問別候補辞書格納手段より、該同様語に対応する主回答候補を求め、該主回答候補を所定のアプリケーションに渡すことを特徴とする音声対話装置。
前記音声認識手段による音声認識結果から接頭語／接尾語を削除したものを回答認識結果とし、
前記回答認識結果及び前記質問別候補辞書格納手段に格納される各回答候補はテキストデータであり、
該テキストデータのままで前記回答認識結果と各回答候補とを文字列探索により比較・評価して、少なくとも該各回答候補の中に該回答認識結果と完全一致する回答候補がない場合には、一致度が最も高い回答候補を仮の回答結果として、前記所定のアプリケーションに渡す前に、ユーザに正／誤の確認をとるように前記音声応答手段に指示する候補評価手段を更に有することを特徴とする請求項１記載の音声対話装置。
前記候補評価手段は、前記仮の回答結果が前記主回答候補ではない場合には、該仮の回答結果に対応する主回答候補を求め、該主回答候補を用いて前記ユーザへの正／誤の確認を行わせることを特徴とする請求項２記載の音声対話装置。
任意のユーザに対して質問を出し応答を受ける対話を管理・制御する対話管理手段と、
該対話管理手段から出される各質問を音声に変換して出力する音声応答手段と、
該音声応答手段から出力される音声の質問をネットワークを介して前記任意のユーザの電話機に送信し、該電話機より入力される該音声の質問に対する音声の応答を受信する送受信手段と、
該送受信手段により受信した音声の応答を音声認識して該音声認識結果を前記対話管理手段に渡す音声認識手段と、
前記対話管理手段の対話相手のユーザを識別し、該ユーザの前記対話に関するレベルである対話レベルを該ユーザの過去又は現在の対話における各質問に対する応答時間に基づいて判定し、予め用意される、各対話レベルに応じた質問の仕方・質問内容を規定した各コンテキストの中から、該判定結果の対話レベルに応じたコンテキストを選択・取得して前記対話管理手段に渡す対話支援手段とを有し、
前記対話管理手段は、該対話支援手段から渡されたコンテキストを用いて前記対話を実行することを特徴とする音声対話装置。
前記対話支援手段による対話の管理・制御は、予め用意される会話シーケンスに従って行われ、該会話シーケンスは複数の対話単位で構成され、
前記対話支援手段において予め用意される前記各コンテキストは、前記各対話単位毎にそれぞれ前記各対話レベル毎に用意されるものであり、前記対話レベルの判定は各対話単位毎に行われ、各対話単位毎に、判定された対話レベル用のコンテキストを選択・取得して前記対話管理手段に渡すことを特徴とする請求項４記載の音声対話装置。
前記対話支援手段は、各質問毎に、前記ユーザの応答時間と予め登録されている各質問毎のエキスパートの応答時間とを用いてＮＥＭ法によるＮＥ比算出を行い、該ＮＥ比と予め設定される閾値との比較結果と予め設定されている対策ルールとに基づいて各質問毎のユーザレベルを判定・記録し、該各質問毎のユーザレベルと予め設定されている判定ルールとに基づいて前記対話レベルの判定を行うことを特徴とする請求項４又は５記載の音声対話装置。
各質問と、各質問別に想定される各回答候補として、各主回答候補と、該各主回答候補毎に対応付けてその主回答候補と意味的に同様である１又は複数の同様語を格納した認識辞書を用いて、
任意のときに任意の前記質問を用いて、ネットワークを介して任意の電話機に対して音声による質問を送信し、
該質問に対して前記電話機を介して入力される音声による回答を受信して、該音声による回答を前記認識辞書を用いて音声認識し、
該音声認識結果が前記同様語である場合には、前記認識辞書により、該同様語に対応する主回答候補を求め、該主回答候補を所定のアプリケーションに渡すことを特徴とする音声対話方法。
任意のユーザ側の電話機に対して音声による質問を出し応答を受ける対話を行う音声対話システムにおける対話支援方法であって、
対話相手のユーザを識別して、該ユーザの前記対話に関するレベルである対話レベルを該ユーザの過去又は現在の対話における各質問に対する応答時間に基づいて判定し、
予め用意される、各対話レベルに応じた質問の仕方・質問内容を規定した各コンテキストの中から、該判定結果の対話レベルに応じたコンテキストを選択し、
該選択したコンテキストを用いて前記対話を実行させることを特徴とする音声対話支援方法。
コンピュータに、
各質問と、各質問別に想定される各回答候補として、各主回答候補と、該各主回答候補毎に対応付けてその主回答候補と意味的に同様である１又は複数の同様語を格納した認識辞書を用いて、
任意のときに任意の前記質問を用いて、ネットワークを介して任意の電話機に対して音声による質問を送信する機能と、
該質問に対して前記電話機を介して入力される音声による回答を受信して、該音声による回答を前記認識辞書を用いて音声認識する機能と、
該音声認識結果が前記同様語である場合には、前記認識辞書により、該同様語に対応する主回答候補を求め、該主回答候補を所定のアプリケーションに渡す機能と、
を実現させるためのプログラム。
任意のユーザ側の電話機に対して音声による質問を出し応答を受ける対話を行うコンピュータに、
対話相手のユーザを識別して、該ユーザの前記対話に関するレベルである対話レベルを該ユーザの過去又は現在の対話における各質問に対する応答時間に基づいて判定する機能と、
予め用意される、各対話レベルに応じた質問の仕方・質問内容を規定した各コンテキストの中から、該判定結果の対話レベルに応じたコンテキストを選択する機能と、
該選択したコンテキストを用いて前記対話を実行する機能と、
を実現させるためのプログラム。