JP2005181442A - 音声対話装置、その方法、プログラム - Google Patents

音声対話装置、その方法、プログラム Download PDF

Info

Publication number
JP2005181442A
JP2005181442A JP2003418436A JP2003418436A JP2005181442A JP 2005181442 A JP2005181442 A JP 2005181442A JP 2003418436 A JP2003418436 A JP 2003418436A JP 2003418436 A JP2003418436 A JP 2003418436A JP 2005181442 A JP2005181442 A JP 2005181442A
Authority
JP
Japan
Prior art keywords
question
voice
dialogue
answer
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003418436A
Other languages
English (en)
Inventor
Koji Nishida
廣治 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Holdings Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Holdings Ltd filed Critical Fuji Electric Holdings Ltd
Priority to JP2003418436A priority Critical patent/JP2005181442A/ja
Publication of JP2005181442A publication Critical patent/JP2005181442A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 アプリケーション側に負担を掛けないようにでき、また認識結果の確認を間違いなく行うことができるようにする。
【解決手段】 予め質問別候補辞書DB12に、各質問別に、その質問に対して想定される回答候補として、正規の用語等である各主回答候補と、各主回答候補の同義語等とが対応付けられて格納されている。音声認識部15は質問別候補辞書DB12等を用いて音声認識する。候補評価部17は、この音声認識結果が同義語等である場合には、これに対応する主回答候補を質問別候補辞書DB12から求め、この主回答候補を認識結果としてアプリケーション22に渡す。その前に、この主回答候補を用いてユーザに認識結果の正/誤の確認をとるようにしてもよい。
【選択図】図1

Description

本発明は、音声対話装置等に関する。
従来、電話を用いた音声対話装置については、例えば特許文献1記載の発明が知られている。この発明は、例えば図14に示す音声対話装置300を提案している。尚、音声対話装置とは、一般的に、不特定話者を対象として、音声認識・音声応答によって話者との間のQ&A会話シーケンスを構築するものであり、例えばアンケート調査、世論調査、予約受け付けシステム、通信販売など様々な業務に利用される。
図14の音声対話装置300は、電話回線310等のネットワークを介して、任意の電話装置311(各家庭や企業等の固定電話、携帯電話等)に電話を掛け、音声により任意の質問を行い、電話装置311のユーザが音声により質問に答えると、これを音声認識する装置である。
図示の音声対話装置300は、音声応答装置301、切替装置302、音声認識装置303、認識応答制御部304、認識辞書DB305、認識辞書ファイル306を有する。
音声応答装置302は、予め設定される所定の質問を、音声により、切替装置302、電話回線310を介して、任意の各電話装置311に伝達する。電話装置311を使用する話者は、この音声による質問事項を聞いて、声による回答を行う。この回答は、電話回線310、切替装置302を経由して、音声認識装置303に伝達される。音声認識装置303は音声認識を行い、認識結果を認識応答制御部304へ渡す。認識応答制御部304は、この認識結果に基づいて、Q&A会話シーケンスにおける各会話場面に応じて、発音が類似した認識候補単語を登録した認識辞書ファイル306を備えた認識辞書DB305を参照して、回答の認識を行っていた。
このように、特許文献1記載の発明における音声対話装置では、会話場面に応じて想定される回答及び当該回答と発音の類似した単語を登録した認識辞書により音声認識率を高めていた。
また、従来、特許文献2記載の音声対話システムが知られている。
特許文献2記載の発明は、音声対話による自動車等の機器の自動制御方法が適用される音声対話システムに関し、雑音を伴う環境の中での作動のために形成され、一般的命令の認識のためにユーザによるトレーニングは不要であり、音声入力のために1つの命令を形成する単度の数が可変であり、音声対話の実時間処理及び実時間実行が可能であり、音声入出力がハンドフリーモードで行われることを特徴としている。また、特許文献2には、音声範囲が前もってテキストの形で記憶され、実時間音声出力作動で“テキストツウスピーチ”合成にかけられること、前もって与えられている同義単語が利用可能であること、認識結果を確認応答すること等が開示されている。
また、従来、電話を用いた音声対話装置については、例えば特許文献3記載の発明が知られえている。この発明は、例えば図15に示す音声対話装置320を提案している。
図示の音声対話装置320は、ネットワーク332(電話回線、IPネットワーク等)を介して、任意の電話器のユーザと対話する音声利用システムである。図示の装置320では、ユーザが話したことを音声認識エンジン322によって音声認識し、認識結果を対話管理部324に渡す。対話管理部324は、音声応答テキストを選定し、これを音声応答エンジン323に渡す。音声応答エンジン323は、この音声応答テキストを音声に変換する。この音声は、ネットワーク332を介して電話器331に伝達される。
ここで、特許文献3の発明では、図15には表していないが、音声認識エンジン322を複数備えている。そして、音声分配器321が、この複数の音声認識エンジン322にユーザの声を分配する。複数の音声認識エンジン322は、例えば数字認識用、単語認識用等のように特性が異なるものであり、それぞれの特性にあった語を認識して、各々の認識結果を統合したものを認識結果とする。あるいは、電話番号とユーザIDの関係を管理するユーザ管理部(不図示)を更に備え、着信電話番号からユーザIDを導出し、このユーザIDによってそのユーザに適した音声認識エンジンを選択する。
特開平9−326856号公報 特表平11−506845号公報 特開2003−140691号公報
上述した特許文献1記載の発明では認識辞書は想定される回答及びこの回答に発音が類似した単語を登録した認識辞書により音声認識率を高めていたが、例えば同義語(例えば性別を質問された場合の“男(おとこ)”と“男性(だんせい)”、大学名を質問された場合の“とうきょうだいがく”と“とうだい”等)のように意味的には同じであるが発音が全く異なる回答があった場合には対応できなかった。
これに対して、特許文献2記載の発明では、前もって与えられている同義単語が利用可能であることが開示されているが、これによってたとえ同義語による回答が認識できたとしても、同義語は正規の回答とは別の回答と認識され、そのまま所定のアプリケーションへ渡されることになる。尚、所定のアプリケーションとは、基本的には音声対話装置が適用されるシステムに依存するものであり、例えば、電話で音声による列車座席予約が行えるシステムがあったとすると、音声対話装置によって予約希望日時、区間等が認識されるが、この場合に認識結果が渡される所定のアプリケーションとは、例えば希望の予約がとれるか否かを検索により判定する処理を行うアプリケーション等となる。
上記の例では、例えば、“とうきょうだいがく”が正規の回答とした場合に、ユーザが“とうだい”と回答し、これを認識して、アプリケーションには認識結果として“とうだい”を渡した場合、もし、アプリケーションが正規の回答にのみ対応できる内容であった場合、処理できないことになる。一方、もしアプリケーションを同義語(略語も含まれるものとする)にも対応できるように作成した場合、上記の例では“とうだい”の正規の回答が“とうきょうだいがく”であることを識別する処理機能がアプリケーションに必要となるので、プログラムが複雑になり、処理時間も掛かることになる。
また、特許文献1、特許文献2では、認識結果について話者に確認をとることが行われている。例えば、特許文献1では回答“富士”に対して認識結果が“宇治”であっても、「“宇治”ですか」と確認することで誤認識したままとなることを防いでいる。しかしながら、この確認も音声により行うので、ユーザが“うじ”を“ふじ”と聞き間違えて、OKを出してしまう可能性があり、誤認識が是正されず、最終的な認識率(アプリケーションに渡す認識結果が正しい割合)が悪くなってしまう。
また、上記特許文献3の発明の場合、認識精度は向上するかもしれないが、複数の認識エンジンを用意しなければならない為、開発の手間/コストが掛かることになる。また、音声対話装置の場合、認識精度をいくら向上させても解決できない問題がある。すなわち、話者の回答自体が曖昧な回答である場合、認識精度の向上では対応できず、結果として認識率が低下してしまう。あるいは、ユーザが対話を途中で止めてしまう場合があり、この場合も認識精度の向上では対応できない。このように、曖昧な回答となってしまったり、対話を途中で止めてしまう原因は、主に、質問・応答のコンテキストと各ユーザのレベルとが合っていないことにある。すなわち、コンピュータによる自動音声対話に慣れていない初心者の場合、質問の意味が分からずに、回答が曖昧になってしまう場合がある。そうかといって、質問・応答のコンテキストを初心者向けにすると、つまり例えば質問の内容を細かく分けて、何回も質問することで、初心者でも質問の意味が分かるようにした場合、今度は、中・上級者にとっては、本来ならば一回で済む質問を何回も行われると操作が煩雑となり、途中で面倒になってしまい、対話を中断してしまう場合があった。
本発明の課題は、音声対話装置において正規の回答等である主回答とその同義語等とを対応付けて登録しておくことで、同義語等による回答でも認識できると共にアプリケーションには同義語に対応する主回答を認識結果として渡すことで、アプリケーション側に負担を掛けないようにでき、また回答候補との一致度を評価し主回答による確認を行うことで最終的な認識率を向上させ、あるいは各ユーザ毎に、時間経過/経験蓄積に伴うユーザの対話レベルの変化等にも対応しつつ、そのときのユーザの対話レベルに合った質問の仕方・質問内容で質問することができ、以って質問・応答のコンテキストのミスマッチに起因する認識率の低下や、対話中断を防止できる音声対話装置、その方法、プログラム等を提供することである。
本発明による第1の音声対話装置は、各質問と、各質問別に想定される各回答候補として、各主回答候補と、該各主回答候補毎に対応付けてその主回答候補と意味的に同様である1又は複数の同様語を格納する質問別候補辞書格納手段と、前記質問別候補辞書格納手段に格納される任意の質問を用いて、ネットワークを介して任意の電話機に対して音声による質問を送信する音声応答手段と、前記音声応答手段による質問に対して前記電話機を介して入力される音声による回答を受信して、該音声による回答を前記質問別候補辞書格納手段または標準認識辞書を参照して音声認識する音声認識手段と、該音声認識結果が前記同様語である場合には、前記質問別候補辞書格納手段より、該同様語に対応する主回答候補を求め、該主回答候補を所定のアプリケーションに渡すように構成する。
前記第1の音声対話装置では、予め主回答候補と同義語等の同様語とを対応付けて登録しており、ユーザが同義語等の同様語で回答した場合でもこれを認識できると共に、アプリケーションへはこの同様語に対応する主回答候補を認識結果として渡す。これにより、アプリケーションは、主回答候補の用語のみに対応して作成され処理実行できるので、アプリケーション側に負担を掛けないようにできる。
また、上記第1の音声対話装置において、例えば、前記音声認識手段による音声認識結果から接頭語/接尾語を削除したものを回答認識結果とし、前記回答認識結果及び前記質問別候補辞書格納手段に格納される各回答候補はテキストデータであり、該テキストデータのままで前記回答認識結果と各回答候補とを文字列探索により比較・評価して、少なくとも該各回答候補の中に該回答認識結果と完全一致する回答候補がない場合には、一致度が最も高い回答候補を仮の回答結果として、前記所定のアプリケーションに渡す前に、ユーザに正/誤の確認をとるように前記音声応答手段に指示する候補評価手段を更に有するように構成してもよい。
音声認識結果と各回答候補とをテキストデータ同士の比較により検証・評価することで、誤認識した可能性があるか否かを判定できる。誤認識した可能性がある場合、すなわち上記完全一致する回答候補がない場合には、ユーザに正/誤の確認をとるようにすればよい。これによって、誤認識結果をアプリケーションに渡してしまう可能性は極めて低くなる。すなわち、最終的な認識率を向上させることができる。
また、更に、上記候補評価手段は、前記仮の回答結果が前記主回答候補ではない場合には、該仮の回答結果に対応する主回答候補を求め、該主回答候補を用いて前記ユーザへの正/誤の確認を行わせるようにしてもよい。
認識結果についてユーザに正/誤の確認をとること自体は従来でも行われていたが、上記音声対話装置では、この確認は、たとえユーザが同様語によって回答したとしても主回答候補を用いて行う。これによって認識結果の確認を間違いなく行うことができ、以って上記最終的な認識率の更なる向上に役立つ。
また、上記第1の音声対話装置において、例えば、前記回答認識結果及び前記質問別候補辞書格納手段に格納される各回答候補はテキストデータであり、前記候補評価手段は、該テキストデータのままで前記回答認識結果と各回答候補とを比較して文字列探索により前記評価を行うように構成してもよい。
また、本発明の第2の音声対話装置は、任意のユーザに対して質問を出し応答を受ける対話を管理・制御する対話管理手段と、該対話管理手段から出される各質問を音声に変換して出力する音声応答手段と、該音声応答手段から出力される音声の質問をネットワークを介して前記任意のユーザの電話機に送信し、該電話機より入力される該音声の質問に対する音声の応答を受信する送受信手段と、該送受信手段により受信した音声の応答を音声認識して該音声認識結果を前記対話管理手段に渡す音声認識手段と、前記対話管理手段の対話相手のユーザを識別し、該ユーザの前記対話に関するレベルである対話レベルを該ユーザの過去又は現在の対話における各質問に対する応答時間に基づいて判定し、予め用意される、各対話レベルに応じた質問の仕方・質問内容を規定した各コンテキストの中から、該判定結果の対話レベルに応じたコンテキストを選択・取得して前記対話管理手段に渡す対話支援手段とを有し、前記対話管理手段は、該対話支援手段から渡されたコンテキストを用いて前記対話を実行するように構成する。
各対話レベルに応じた質問の仕方・質問内容を規定した各コンテキストを予め用意しておき、そのときの対話相手のユーザの対話レベルに応じた内容のコンテキストを選択して用いる。また、対話相手のユーザの対話レベルは、その対話時点でのレベルを判定できる。これにより、各ユーザ毎に、対話相手のユーザのレベルに合った内容で質問・応答等が行えるようになるので、質問・応答のコンテキストのミスマッチに起因する認識率の低下や、対話中断を防止できる。また、同じユーザであっても当該音声対話を何度も行うことでレベルが変化する(通常はレベルが上がる)が、この様なレベルの変化にも対応して、対話相手のユーザの現在のレベルに合った内容で質問・応答等が行えるようになる。
上記第2の音声対話装置において、例えば、対話支援手段による対話の管理・制御は、予め用意される会話シーケンスに従って行われ、該会話シーケンスは複数の対話単位で構成され、前記対話支援手段において予め用意される前記各コンテキストは、前記各対話単位毎にそれぞれ前記各対話レベル毎に用意されるものであり、前記対話レベルの判定は各対話単位毎に行われ、各対話単位毎に、判定された対話レベル用のコンテキストを選択・取得して前記対話管理手段に渡すようにしてもよい。
上記対話レベルの判定、及び判定に応じたコンテキストの選択は、対話単位毎に実行する。同じ一人のユーザであっても、全ての質問について対話レベルが一定であるとは限らない。質問のジャンル等によって得意/不得意があったり、過去に何度も経験した質問である場合と、経験回数が少なかったり初めて受ける質問である場合とでは、対話レベルが異なることが想定される。上記第2の音声対話装置によれば、この様な想定に対応して、木目細かいユーザ対応が行えるようになる。
また、上記第2の音声対話装置において、例えば、前記対話支援手段は、各質問毎に、前記ユーザの応答時間と予め登録されている各質問毎のエキスパートの応答時間とを用いてNEM法によるNE比算出を行い、該NE比と予め設定される閾値との比較結果と予め設定されている対策ルールとに基づいて各質問毎のユーザレベルを判定・記録し、該各質問毎のユーザレベルと予め設定されている判定ルールとに基づいて前記対話レベルの判定を行うように構成してもよい。
なお、上述した本発明の各構成により行なわれる機能と同様の制御をコンピュータに行なわせるプログラムを記憶したコンピュータ読み取り可能な記憶媒体から、そのプログラムをコンピュータに読み出させて実行させることによっても、前述した課題を解決することができる。つまり、本発明は、上記装置の形態に限らず、その方法、あるいは上記記憶媒体自体または上記プログラム自体として構成することもできる。
上記音声対話装置、その方法、プログラム等によれば、音声対話装置において正規の回答等である主回答とその同義語等とを対応付けて登録しておくことで、同義語等による回答でも認識できると共にアプリケーションには同義語に対応する主回答を認識結果として渡すことで、アプリケーション側に負担を掛けないようにできる。また、回答候補との一致度を評価し主回答による確認を行うことで最終的な認識率を向上させることができる。あるいは各ユーザ毎に、時間経過/経験蓄積に伴うユーザレベルの変化等にも対応しつつ、そのときのユーザのレベルに合った質問の仕方で質問することができ、以って応答質問・応答のコンテキストに起因する認識率の低下や、対話中断を防止できる。
以下、図面を参照して、本発明の実施の形態について説明する。
尚、以下の説明では同義語を例にするが、本発明は同義語に限らず、類義語、類似語等であってもよい。すなわち、後述する主回答(正規の用語等)と意味的に略同様である用語であれば何でもよく、これを「同様語」と定義するものとする。また、尚、以下の説明における同義語には略称(例えば“東京大学”に対する“東大”等)も含まれるものとする。
図1は、第1の実施例による音声対話装置10の構成ブロック図である。
図1に示す音声対話装置10は、認識応答制御部11、質問別候補辞書DB12、音声応答部13、切替部14、音声認識部15、標準認識辞書DB16、候補評価部17、質問別候補辞書作成部18を有する。また、当該音声対話装置10に係わるものとして、同義語検索装置21、アプリケーション22が存在する。アプリケーション22は、上述した所定のアプリケーションのことであり、基本的には音声対話装置10が適用されるシステムに依存するものである。
音声対話装置10は、電話回線31(公衆電話回線やIPネットワーク等)を介して、任意の各電話機32と通信可能となっている。また、音声対話装置10は、同義語検索装置21と不図示のネットワーク(例えばLAN等)を介して接続されている。また、音声対話装置10は、認識結果をアプリケーション22に渡す。これは、不図示のネットワークを介してアプリケーション22が存在する不図示のシステムにデータ送信してもよいし、あるいは装置10内/外の不図示のデータベースへ認識結果を記録し、後にこれをアプリケーション22が読み出して処理するようにしてもよい。
図示の音声対話装置10では、まず予めシステム管理者等が、質問別候補辞書作成部18において、各質問毎に、その回答として想定し得る認識候補を登録する。例えば、質問が「出身大学名は?」である場合には、全ての大学名を登録する。その際、同義語検索装置21等を利用することで、正規の用語だけでなく、その同義語も一緒に登録する。例えば、正規の認識候補として“ほっかいどうだいがく”、“とうきょうだいがく”を登録するだけでなく、これらに対応付けて、同義語“ほくだい”、“とうだい”等を登録する。尚、同義語検索装置21は、例えば電子辞書等であり、ここでは別の装置として示しているが、音声対話装置10の機能の一部としてもよい。登録内容は、質問別候補辞書DB(データベース)12に格納される。
図2に質問別候補辞書DB12に格納されるデータのデータ項目の一例を示す。
図2に示す質問別候補辞書DB12は、質問項目51と回答候補52とに大区分され、質問項目51には質問ID53と質問テキスト54、回答候補52には回答群55、主回答テキスト56、同義語回答テキスト57の各データ項目を有する。
質問項目51には会話シーケンス(不図示の記憶部に記憶されている)の流れの中の個々の質問項目を格納する。例えば住所と学歴を聞く会話シーケンスであった場合には、「都道府県名は?」→「市/区名は?」→「町名は?」→「番地は?」→「大卒ですか?」→(YESの場合)「出身大学名は?」等という会話シーケンスの各質問項目が格納される。尚、実際には、会話シーケンス中には各質問の質問IDが記されており、この質問IDを用いて質問別候補辞書DB12から実際の質問内容を取得することになる。
質問ID53は各質問毎に予め割り当てられているユニークな識別番号であり、質問テキスト54には質問ID53に対応する質問の実際の内容がテキストデータとして格納される(尚、具体例については図5に示してある)。
回答候補52には、各質問項目51に対応して想定される複数の回答候補が格納される。この回答候補は、正規の用語等である主回答候補(主回答テキスト56)と、各主回答候補毎に対応付けてその主回答候補と意味的に同様である1又は複数の同様語(同義語等;同義語回答テキスト57)が格納されている。
回答群55は、主回答テキスト56及び同義語回答テキスト57の回答群に対して付けられる回答群名であるが、これは無くてもよい。
主回答テキスト56には、各質問(質問テキスト54の内容)に対して想定される回答候補として、正規の用語、代表的な用語、あるいは任意の用語(但し、アプリケーション22で用いる用語)等である主回答候補が、テキストデータとして格納されている。
同義語回答テキスト57には各主回答候補に対応付けてその同様語(上述した通り、同義語、類義語、類似語等のことであり、ここでは同義語を例にしている)を格納する。同義語回答テキスト57には、各主回答候補毎に通常は1または複数の同義語が格納されるが、対応する同義語が無い主回答候補が存在してもよい。
また、特に図示しないが、質問別候補辞書DB12には、更に、質問別ではなく、後述する接頭語、接尾語等も登録されている。
また、質問と回答は一問一答を前提としているが、答えに複数キーワードを含む場合もあり、これに対応して1つの質問項目51に対して回答候補52がキーワードの数だけ格納されるようにしてもよい。この場合、後述する候補評価部17の文字列探索処理において複数キーワードから各キーワードを切り出すことになる。
また、標準認識辞書DB16には、音声認識の為の標準的な単語テキスト群が予め格納されている。
以下、認識応答制御部11、音声応答部13、切替部14、音声認識部15、及び候補評価部17の処理動作について、図3のフローチャート図も参照しつつ説明する。図3は、音声対話装置10の処理フローチャート図である。
認識応答制御部11は、会話シーケンスを管理して、音声対話装置10による音声対話処理全体を制御するものである。認識応答制御部11は、例えば不図示のアドレス帳を保持しており、このアドレス帳より任意のユーザの電話番号を取得して、この電話番号を音声応答部13に渡して、任意のユーザの電話機32への接続を指示する。電話番号を受け取った音声応答部13は、切替部14に対してこの電話番号の電話機32へダイヤルするように指示する(ステップS11)。
切替部14は、この電話番号の電話機32へダイヤルする(ステップS12)。切替部14は、ダイヤルした結果を検出して、接続成功か、不成功か、話し中かを判定する。その結果、接続できた場合(ユーザが電話に出た場合)には(ステップS13、YES)、ステップS17以降の処理に移る。接続できなかった場合であって(ステップS13,NO)、話し中でもない(ステップS14,NO)(例えば、留守である為、所定回数ベルを鳴らしても電話に出なかった場合等)には、音声応答部13を介して認識応答制御部11に対して、接続できなかった旨を通知する(ステップS16)。話し中であった場合には(ステップS14,YES)、少し時間を置いて再ダイヤルする(ステップS15)。もし、再ダイヤルを所定回数繰り返しても接続できなかった場合には、ステップS16の処理を行う。
切替部14は、接続が成功したら(上記ステップS13,YES)、その旨を認識応答制御部11に通知する。これに応じて、認識応答制御部11は、質問別候補辞書DB12を用いて、任意の質問テキスト54を取得し、これをその質問ID53と共に音声応答部13に渡す。音声応答部13は、この質問テキスト54を音声データに変換する。そして、切替部14、電話回線31を介して、電話機32に対して音声の質問を送信する(ステップS17)。尚、電話回線31は、通常のアナログ公衆回線網であってもよいが、これに限らず、例えばIPネットワーク等であってもよい。IPネットワークの場合は、公知のVOIP(Voice over IP)技術を用いればよい。
また、音声応答部13は、上記質問を送信すると共に、音声認識部15に対してダイヤル接続成功を通知すると共に上記質問ID53を渡す。音声認識部15は、この通知をトリガとして音声認識を開始する。
上記質問に対してユーザが電話機32より音声による回答を行うと、この回答は、電話回線31、切替部14を介して音声認識部15に送られる。
音声認識部15は、質問別候補辞書DB12を参照して、上記渡された質問ID53に対応する回答候補(主回答テキスト56、同義語回答テキスト57)を全て取得し、これら回答候補を用いて音声の回答を認識し、音声認識結果(テキストデータ)をその質問ID53と共に認識応答制御部11に渡す(ステップS18)。尚、例えば既存のVoiceXML対応の音声サーバ等ではテキストデータで辞書を構成しており、これを認識装置内で音声波形に変換して音声認識する方式が採られており、音声認識部15でも同様の方式を用いている。よって、特に図示していないが、「辞書」と対となっている「音響モデル」、「文法」等も予めデータベースに格納されており、実際には上記辞書DB12の辞書だけでなく、これらも用いて音声認識を行うことになる。
また、もし上記渡された質問ID53に対応する主回答テキスト56、同義語回答テキスト57(回答候補)の中に上記音声回答と完全一致するものがない場合には、標準認識辞書DB16を参照して、この辞書を用いて各語毎に音声認識してこれら各語を組み合わせて(例えば「ふじ」、「すぎ」、「なみ」や、「く」、「し」、「まち」等の語を組み合わせて)、これを音声認識結果とする。この場合、例えばユーザが「ふじまち」と回答したが「ふしまち」と誤認識してしまうかもしれないが、この認識結果は後述する候補評価部17が質問別候補辞書DB12を参照してテキストデータ同士で評価して、回答候補の中から最も近いものを選び出すので、誤認識したままとなる可能性は非常に低くなる。更に、対応する主回答候補によってユーザに確認をとることで、間違った認識結果をアプリケーション22に渡す可能性は極めて低くなる。尚、標準認識辞書DB16を参照しても音声認識できなかった場合には、音声応答部13に対して再質問を依頼する。尚、所定回数再質問しても尚、音声認識できなかった場合には、認識応答制御部11にその旨を通知する。
上記音声認識結果と質問ID53を受け取った認識応答制御部11は、質問別候補辞書DB12を参照して当該音声認識結果から余計な言葉(接頭語、接尾語等)を削除し、これを回答認識結果として質問ID53と共に候補評価部17に渡す(ステップS19)。
候補評価部17は、質問別候補辞書DB12から、上記受け取った質問ID53の質問に対応する全ての回答候補を取得し、これに基づいて上記回答認識結果を評価し、評価結果に応じた処理を実行する(ステップS20)。ステップS20の処理の詳細は、図4に示してあり、後に詳細に説明する。
認識応答制御部11は、上記会話シーケンスに沿った複数の質問(1つでもよいが)を行い、1つの質問毎にステップS17〜S20の処理を行い、全ての質問を実行したら(ステップS21,NO)、当該処理を終了する。
図4は、上記ステップS20の詳細フローチャート図である。
図4において、候補評価部17は、上記の通り認識応答制御部11から回答認識結果と質問ID53を受け取ると(ステップS31)、まず、質問別候補辞書DB12から当該質問ID53に対応する全ての回答候補、すなわち当該質問ID53に対応する主回答テキスト56及び同義語回答テキスト57にある全ての用語を取得する(ステップS32)。
そして、一般的な手法により、回答認識結果xと各回答候補y(何れもテキストデータ)との差異(距離)を算出する(ステップS32)。これは、例えば、双方のテキストをユニコード等のローマ字コードに変換し、各回答候補yに対して例えばBoyer−Moore法等の文字列探索法を用いて文字列探索を行い、x−y双方間の距離(例えばHamming距離:H(x、y))を演算する。
そして、各回答候補yの中に回答認識結果xと完全一致するもの(Hamming距離:H(x、y)=0のもの)があった場合には(ステップS34,YES)、当該完全一致した回答候補yを回答結果として質問項目51と共にアプリケーション22に通知するが(ステップS35)、その際、当該回答結果が主回答テキスト56であった場合にはそのままそれをアプリケーション22に通知し、同義語回答テキスト57であった場合にはそれに対応する主回答テキスト56を質問別候補辞書DB12から求めてアプリケーション22に通知する。つまり、ユーザが例えば“ほくだい”等のような同義語で回答したとしても、アプリケーション22には正規の用語“ほっかいどうだいがく”で通知するようにする。尚、アプリケーション22には、上記質問項目51ではなく、質問ID53のみ又は質問テキスト54のみを通知するようにしてもよい。この様にすることで、アプリケーション22には必ず正規の用語で通知されるので、アプリケーション22において同義語等に対応する処理は必要なくなり、プログラムが簡素化され、アプリケーション22の処理負荷が軽減できる。
一方、各回答候補yの中に回答認識結果xと完全一致するものが無かった場合には(ステップS34,NO)、各回答候補yの中で回答認識結果xとの一致度が最も高かったもの(Hamming距離が最も小さいもの)を仮の回答結果とする。そして、当該仮の回答結果が主回答テキスト56であった場合にはそのまま、同義語回答テキスト57であった場合にはそれに対応する主回答テキスト56を質問別候補辞書DB12から求めて、この主回答テキスト56を認識応答制御部11に渡してユーザへの確認を依頼する。これを受けて認識応答制御部11は更に音声応答部13に対してユーザへの確認を依頼する。これを受けて、音声応答部13は、切替部14、電話回線31を介して、電話機32に対して、上記仮の回答結果が正しいか否かを問う確認の質問を伝送する(ステップS36)。
このステップS36の確認の質問は、上記の通り必ず主回答テキスト56で行う。つまり、ユーザが例えば“ほくだい”等のような同義語で回答したとしても、例えば「“ほっかいどうだいがく”ですか?」等のように確認の質問を行う。これによって、仮にユーザが元々“おくだい”(ここでは奥利根大学の略称であるものとする)と回答したが“ほくだい”と誤認識した場合、従来では「“ほくだい”ですか?」と確認の質問をしたところ、これをユーザが「“おくだい”ですか?」と聞き違えて、誤ってOKを出してしまう可能性があったが、このような間違いが生じる可能性は極めて低くなる。
上記ステップS36の質問に対してユーザが「はい」と回答した場合には(ステップS37,YES)、上記仮の回答結果が正しい回答であるとし、ステップS35と同様にして当該仮の回答結果に対応する主回答テキスト56を質問ID53等と共にアプリケーション22に通知する(ステップS38)。
一方、回答が「いいえ」の場合には(ステップS37,NO)、認識応答制御部11に対して、認識失敗(NG)を通知する(ステップS39)。認識応答制御部11は、認識失敗を通知された場合には、通常の会話シーケンスではなく、NGの場合の会話シーケンスを実施する。すなわち、例えば、音声応答部13に対して再度同じ質問を行うように指示する。
ここで、上記「はい」か「いいえ」かの回答についても、ユーザが「はい」か「いいえ」かで回答するとは限らない。例えば、「はい」の意味で、「ええ」、「うん」、「オーケー」等の肯定を示す回答を行う場合もある。これに対して本手法では、予め、「はい」、「いいえ」各々について同義語ファイル(不図示)を用意しておく。そして、候補評価部17等が音声認識結果を同義語ファイルと照らし合わせることで、ユーザが「ええ」、「うん」等の回答を行っても、これが「はい」を意味するものと判定できる。
尚、アプリケーション22の処理内容は、上記の通り、本装置10を適用するシステムに依るので、処理内容は特定できないが、例えば音声対話装置10が列車等の座席予約システムに適用される場合には、ユーザに希望日時、区間等を質問して回答を得たら、この希望日時、区間で予約が取れるか否かを検索して求める処理等となる。
以下、上記ステップS17〜S20の処理について、図5〜図7に具体例を示して説明する。
図5に質問別候補辞書DB12に格納される辞書データの具体例を示す。
この例では、質問ID53=‘0012'に対応する質問テキスト54は「じゅうしょのちょうめいは」(住所の町名は)であり、この質問に対して想定される全ての町名の正式名称等が主回答テキスト56に格納されるが、図5では「ふじまち」1つのみを例として示してある。そして、この「ふじまち」に関して想定される同義語等が同義語回答テキスト57に格納され、図示の例では「ふじちょう」、「ふじ」等が格納されている。同様に、質問ID53=‘0011'に対応する質問テキスト54は「しゅっしんだいがくは」(出身大学は)であり、主回答テキスト56は「ほっかいどうだいがく」、同義語回答テキスト57は「ほくだい」、「ほっかいどうだい」が一例として示されている。
図6に、ステップS17において上記質問ID53=‘0012'の質問を行った場合であって、回答が完全一致ではない場合の対話例を示す。
図6において、まず音声応答部13が電話機32に対して「じゅうしょのちょうめいは」との質問を送信し、ユーザが「えーとふしまちです」と回答すると、音声認識部15は標準認識辞書DB16と質問別候補辞書DB12を用いて音声認識を行う。その際、“ふしまち”が図5の例では質問別候補辞書DB12に格納されていないので、完全一致する認識候補が無い為、続いて標準認識辞書DB16を用いると、ここでは、例えば、「ふし」と「まち」がそれぞれ完全一致したものとして、これらを組み合わせて「ふしまち」と認識されたものとする。また、“えーと”と“です”も当然認識される。尚、“えーと”と“です”は、それぞれ、標準認識辞書DB16によって認識してもよいし、質問別候補辞書DB12によって認識してもよい。これらを組み合わせて、音声認識部15の認識結果は「えーとふしまちです」となる。
この認識結果は、認識応答制御部11に渡され、上記の通り接頭語、接尾語が削除された結果、認識結果として「ふしまち」が候補評価部17に渡されることになる。
そして、候補評価部17は、質問別候補辞書DB12を参照するが、「ふしまち」に完全一致するものはないので、一致度が一番高いものとして、ここでは「ふじまち」が仮の回答結果になったものとして、認識応答制御部11に確認を依頼する。
これより、音声応答部13が「ふじまちですか?」とユーザに確認質問し、ユーザが「ええ」と答えたものとし、これを音声認識部15が「ええ」と認識し、認識応答制御部11がこれをそのまま候補評価部17に渡すが、上記の通り、例えば質問別候補辞書DB12には「はい」、「いいえ」に対する同義語も登録されており、これより候補評価部17は、「ええ」が「はい」を意味するものと判定し、アプリケーションに対して回答結果として「ふじまち」を通知する。
図7に、ステップS17において上記質問ID53=‘0011'の質問を行った場合であって、回答が同義語による回答であった場合の対話例を示す。
この例では、音声認識部15、認識応答制御部11を経て候補評価部17に渡される認識結果は「ほくだい」であり、図5に示す例ではこの質問に対応する同義語回答テキスト57に「ほくだい」が含まれているので、これと完全一致と判定し(ステップS34,YES)、ユーザに確認を行うことなく、その正規の用語である「ほっかいどうだいがく」をアプリケーションに通知する。尚、これは一例であり、例えば、同義語等で回答された場合には完全一致であってもユーザに確認を行うようにしてもよいし、全ての回答について必ずユーザ確認を行うようにしてもよい。
以上説明したように、上記音声対話装置10によれば、質問別に、想定される回答候補を設定・登録しておくと共にこの回答候補には回答の正規の用語等である主回答候補だけでなくその同義語(略称等も含む)、類義語、類似語等である同様語も設定・登録しておくことで、これら同義語等のように正規の用語とは発音が異なる言葉により回答されても、問題なく認識できるようになる。更に、各主回答候補毎に同様語が対応付けられており、たとえユーザが同様語で回答したとしてもアプリケーション22へは対応する主回答候補を回答結果として渡すので、アプリケーション22において同義語、類似語等の識別処理が不要になり、アプリケーション22でのデータ処理が容易になる。更に、音声認識結果(テキストデータ)を上記登録されている各回答候補(テキストデータ)と比較して一致度を評価するので、つまりテキストデータ同士で比較して回答候補の中から音声認識結果と完全一致するものを探し、完全一致するものがない場合には音声認識結果に最も近いものを選択すると共にユーザに確認をとるので、たとえ音声認識結果が誤認識であったとしても、この誤認識を是正することが可能となり、最終的な認識率(アプリケーション22に渡す認識結果が正しい割合)を向上させることができる。特に、正規の用語以外で回答された場合等でも、ユーザへの確認は正規の用語により行うので、的確な確認取りが出来るようになり、上記最終的な認識率を更に向上させることができる。
以下、第2の実施例について説明する。
図8に、第2の実施例による音声対話装置60の構成ブロック図を示す。
図示の音声対話装置60は、図1の場合と同様、公衆電話回線網、IPネットワーク等のネットワーク82を介して、任意の各ユーザの電話機81と接続して、ユーザからの音声入力を音声認識して、音声による応答(質問、確認等)を行うことで、自動的に音声による対話を行う装置である。
図示の音声対話装置60は、送受信部61、音声認識エンジン62、音声応答エンジン63、対話管理部64、コンテキスト交換部67、質問・応答部品交換部68、及び対話支援部70を有する。
対話管理部64は、質問文またはこの質問に対する応答の選択肢である応答文が記述された質問・応答部品65と、この質問・応答部品を用いた対話シナリオを有するコンテキスト66とを対話支援部70から取得して、これらを用いて一般的な対話制御を行う。本手法の特徴は、対話支援部70によって、これら質問・応答部品65、コンテキスト66の内容が、対話相手のユーザ毎にそのユーザの現在のレベル(慣れ、習熟度等)に応じた内容となるように随時変更されることである。尚、質問・応答部品65はコンテキスト66のシナリオ中の各質問の実際の質問・応答文であるので、「コンテキスト66+質問・応答部品65」をコンテキストと呼んでもよい。このコンテキストは、質問の仕方・質問内容を規定したものであると言える。また、送受信部61、音声認識エンジン62、音声応答エンジン63も一般的な構成であってよく、特許文献3等のように複数の音声認識エンジンを設けたり、音声分配する必要はない。
また、対話管理部64は、不図示の会話シーケンス情報を保持しており、これに基づいてユーザとの対話を管理・制御する。会話シーケンスは、特に図示しないが、複数の対話単位の組み合わせによって構成される。そして、対話単位毎に、対話相手のユーザの現在のレベルに応じたコンテキスト66等を上記の通り対話支援部70から取得することになる。尚、対話単位とはコンテキストを意味するが、コンテキスト66や後述するコンテキストa,c等と区別し難くなりまぎらわしいので、ここでは対話単位と呼ぶものとする。換言すれば、対話単位とは中身がないコンテキストであり、この中身がコンテキスト66等であるとも言える。
対話支援部70は、入力部71、操作履歴評価部72、コンテキスト/質問・応答部品生成部73の各機能部(所定のプログラムロジックにより実現される機能)と、操作履歴DB74、メタ知識DB75、コンテキストDB76、及び質問・応答部品DB77の各種データベースを有している。尚、図8に示す例に限らず、例えば対話支援部70を上記音声対話装置10に追加する構成としてもよい。
また、音声対話装置60は、何らかのネットワーク83を介して、管理サーバ84との間でデータ送受信可能な構成にもなっている。
以下、上記音声対話装置60の各構成について詳細に説明する。
まず、上記送受信部61は、任意の電話機81にダイヤルして接続し、音声応答エンジン63の音声出力(質問、確認等)をネットワーク82を介して当該電話機81に伝送し、あるいは電話機81からユーザによる音声入力があると、これを受信して音声認識エンジン62に渡す、という図1の切替部14と略同様の機能を有するが、これに加えて更に、ユーザに電話を掛けた時(またはユーザ側から電話が掛かってきた時)の時刻と、当該ユーザの電話番号(受信開始時刻、受信電話番号)を対話支援部70に通知する機能も備える。
音声認識エンジン62は、ネットワーク82、送受信部61を介して入力したユーザの音声を、音声認識して、認識結果(テキストデータ)を対話管理部64に渡す。
音声応答エンジン63は、対話管理部64から渡される任意の質問・応答部品本体(テキストデータ)を音声データに変換して、これを送受信部61に出力する。
質問・応答部品65は、実際にユーザに質問する各質問内容やその回答の選択肢の内容等を記述したテキストデータ(質問・応答部品本体)であり、これらは質問・応答部品番号と対応付けられている。そして、対話管理部64がコンテキスト66に従ってユーザと対話する際に、その都度必要な質問・応答部品を、質問・応答部品65の中から取得することになる。
コンテキスト66は、対話単位毎に、上記対話支援部70から取得したコンテキスト(後述するコンテキストa,c等)のことである。後述するように、各コンテキストは、シナリオ情報と、このシナリオで用いる各質問を構成する質問・応答部品の番号等の情報等より構成される。尚、コンテキストとは、“一連のまとまった質問”に対応するものであり、上記シナリオ情報は1又は複数の質問とこれら質問を用いた対話シナリオ(例えば、質問A,B,Cを用いて、質問Aには選択肢a,bがあり、選択肢aが選択された場合には質問B、選択肢bが選択された場合には質問Cを質問する等)とから成る。対話管理部64は、質問・応答部品65及びコンテキスト66を用いて、上記コンテキスト66のシナリオ情報に沿って、質問を行って回答を得て、この回答(上記音声認識結果)に応じて次の質問を判定して対応する質問・応答部品65を選択して音声応答エンジン63に渡す、という処理を進捗状況を把握しつつ行うことで、ユーザとの対話を管理・制御する。
ここで、上記各質問には、ユニークな識別番号である操作IDが割り当てられている。但し、ここでいう“質問”とは、質問自体だけでなく、その質問に対して予め用意される回答候補(回答の選択肢)までも含むものとする。よって、厳密には、操作ID96は、各質問とその質問に対して予め用意される回答候補(回答の選択肢)との組に対して割り当てられるものである。例えば、質問Aに対して回答の選択肢p、qがあり、質問Bに対して回答の選択肢r、sがあったとすると、Aとpとq、Bとrとsの2組に対して各々操作IDが割り当てられる(1つの質問単位毎に1つの操作IDが割り当てられているとも言える)。
また、対話管理部64は、各質問毎に、音声応答エンジン63に質問を渡してから、音声認識エンジン62から音声認識結果を得るまでの時間(以下、応答時間と呼ぶものとする)を計測しており、この計測した応答時間をその質問の操作IDと共に対話支援部70に通知する。あるいは、もし予め設定される所定時間内に回答が得られなかった場合には、回答が得られなかった旨を対話支援部70に通知する。
次に、以下、対話支援部70について説明する。まず、各種データベース74〜77について説明する。また、各種データベース74〜77の具体例について、図9(a)〜(d)に示す。
尚、操作履歴とメタ知識のデータは、各対話単位毎に区分して格納されるものであり、図9(a)、図9(b)に示す例は任意の1つの対話単位に関するデータであって更にその一部を示すものとする。
まず、操作履歴DB74は、各ユーザ毎にそのユーザの現在のレベルやそのユーザの各質問に対する上記応答時間等を記録したユーザ情報と、各質問毎のエキスパートによる上記応答時間等を記録したエキスパート操作情報とから成る。エキスパート操作情報は、後述するNEM法によってNE比を算出する際に必要となるデータであり、全ての質問についてエキスパート操作情報が予め測定されて不図示の記憶部等に記憶されており、操作履歴DB74に記録されるエキスパート操作情報は、ユーザ情報が追加される毎にその質問に対応するエキスパート操作情報を上記不図示の記憶部から取得して記録するものである。
上記操作履歴DB74の具体例を図9(a)に示す。この例では、操作履歴は、ユーザ情報91とエキスパート情報92より成る。ユーザ情報91は、各ユーザ毎且つ各質問毎の操作履歴であり、電話番号/ユーザID93、ユーザレベル94、開始時刻95、操作ID96、及び応答時間履歴97の各データ項目より成る。
電話番号/ユーザID93は各ユーザ(履歴対象者)を識別する為の情報である。電話機81が携帯電話の場合にはその電話番号によってほぼユーザを特定できるが、家庭/企業等の固定電話の場合には、複数のユーザ(家族)が共用する為、ユーザIDにより識別する。ユーザIDは例えばそのユーザが初めて本装置を利用したときに任意に割り当て、このユーザIDをユーザに知らせておき、以後、本装置を利用するときはユーザにユーザIDを音声入力させるようにする。あるいは、不図示のユーザID−ユーザ名対応テーブルを保持しておき(初めて利用する際に登録する)、本装置を利用するときはユーザに名前を音声入力させるようにしてもよい。
ユーザレベル94は、各ユーザ毎の各質問毎の現在のユーザのレベル(初心者/中級者/上級者等)であり、各質問毎(操作ID96毎)にそれぞれレベルが後述する図10の処理によって判定されて格納されるものである。ユーザレベル94は、図10の判定により随時変更されていく。ここで、ユーザレベル94によって、当該対話単位のユーザのレベルが直ちに決まるとは限らない。通常は、各対話単位は、複数の質問により構成される。よって、図9(a)では各ユーザ毎に1つの質問(操作ID96)に関するデータ(応答時間履歴97、ユーザレベル94等)のみ示しているが、実際には当該対話単位を構成する複数の質問に関するデータが格納されることになる。そして、格納されている全ての質問のユーザレベル94を用いて、後述する判定ルール(例えば多数決等)を用いて、そのユーザの当該対話単位に関するレベルを判定し、判定したレベルに応じたコンテキスト名をメタ知識DB75を参照して取得することになる。尚、ユーザレベル94と区別する為に、以下、上記判定ルールにより判定されたレベルを“対話単位のレベル”又は“対話レベル”と呼ぶものとする。尚、ある対話単位を構成する質問が1つである場合には、その質問に関するユーザレベル94がそのまま対話レベルとなってよい。
開始時刻95は、操作履歴を識別するため一連の操作の開始時刻を格納する。
操作ID96については、上述してある通りである。尚、操作IDは、例えば管理サーバ84で割り当て管理される。
応答時間履歴97は、各操作ID96毎に対応付けて上記応答時間を格納する。つまり、各質問毎の応答時間を格納する。
エキスパート操作ID98は、操作ID96と同じであり、図には参考の為に示しているだけであり、特に必要ないものである。つまり、上記不図示の記憶部には、各操作ID(エキスパート操作ID)と対応付けてエキスパート応答時間が登録されており、これにより新たに記録したユーザ情報91の操作ID96に対応するエキスパート応答時間を不図示の記憶部から検索・取得してこれをエキスパート操作ID98に格納できることを参考の為に示しているだけである。
エキスパート応答時間99は、上記の通り、記録された各操作IDに対応するエキスパートによる応答時間である。
メタ知識DB75は、後述する図10の処理において各質問毎のユーザレベル94を判定する際に用いられる各種対策ルールを格納する。また、各レベル(初心者/中級者/上級者)毎に対応したコンテキストのコンテキスト名を格納する。
メタ知識DB75は、図9(b)に示す例では、対策ルール101、初心者ルール102、中級者ルール103、上級者ルール104より成る。対策ルール101は、上記の通り、図10の処理により各質問毎にユーザレベルを判定する際に参照するルールである。初心者ルール102には、上記対話レベルが初心者である場合に対話管理部64に使用させるべきコンテキストのコンテキスト名が格納される。中級者ルール103、上級者ルール104も同様に、中級者向け、上級者向けのコンテキストのコンテキスト名が格納される。尚、これら対策ルール101〜上級者ルール104は、各々独立して存在するのであり、互いに対応付けられているわけではないが、図では一緒に示しているだけである。また、尚、上記の通り、メタ知識のデータは、各対話単位毎に区分して格納されるが、対策ルール101については全ての対話単位の共通のものとしてもよい。
コンテキストDB76には、各コンテキスト毎に、そのコンテキストを構成する各質問・応答部品の質問・応答部品番号と、シナリオ情報が格納される。尚、シナリオ情報とは、例えば当該コンテキストを構成する各質問と質問の流れ(最初にどの質問を行い、ユーザの応答内容に応じて次にどの質問を行うのか等)を操作IDを用いて記述し、また各質問毎にその質問で用いる質問・応答部品番号を記述したものである。
コンテキストDB76は、図9(c)に示す例では、コンテキスト名111とコンテキスト本体112より成る。コンテキスト名111は、各コンテキストに予め割り当てられている番号や名称である。コンテキスト本体112は、各コンテキスト名111に対応するコンテキスト本体であり、上記の通り質問・応答部品番号とシナリオ情報である。
質問・応答部品DB77には、各質問・応答内容を記述したテキストデータ(質問・応答部品本体)が、質問・応答部品番号と対応付けて格納されている。
質問・応答部品DB77は、図9(d)に示す例では、質問・応答部品名121と部品本体122より成る。質問・応答部品名121は、各質問・応答部品に予め割り当てられている番号や名称である。部品本体122は、各質問・応答部品名121に対応する質問・応答部品本体であり、上記の通りユーザへの質問、応答の選択肢の実際の内容が記述されたテキストデータである。
再び図8に戻り、対話支援部70の各機能部71〜73について説明する。
入力部71は、送受信部61から渡される上記受信開始時刻、受信電話番号を、それぞれ、操作履歴DB74の開始時刻95、電話番号/ユーザID93に格納する。あるいは、電話番号ではユーザを特定できない場合であって、例えば対話管理部64がユーザに対してユーザIDを問い合わせる等した場合には、対話管理部64がこのユーザIDを通知してくると、これを電話番号/ユーザID93に格納する。勿論、既に登録済みのユーザである場合には、上記受け取った受信電話番号又はユーザIDを用いて操作履歴DB74を検索し、該当するユーザ情報の格納位置を求める。
また、入力部71は、上記受信電話番号又はユーザIDが通知されると、このユーザとの対話処理が開始されるものと判定するが、その際、このユーザが初めての利用ではなく、既に操作履歴DB74にユーザ情報91が格納されている状態であって且つ既に少なくとも1回はユーザレベルの判定を受けてユーザレベル94にユーザレベルが格納されている場合には、このユーザレベル94を取得して、これをコンテキスト/質問・応答部品生成部73に通知するようにしてもよい。尚、既に述べた通り、操作履歴DB74には各対話単位別に操作履歴が格納されるが、通常、対話処理開始時の最初の対話単位が何であるかは決まっているので、この対話単位に対応する操作履歴を参照して、上記ユーザに関する全てのユーザレベル94(格納されている全ての操作IDに関する全てのユーザレベル94)を取得する。あるいは、もし、このユーザが初めての利用である場合には(操作履歴DB74にユーザ情報91が格納されていない場合には)、その旨をコンテキスト/質問・応答部品生成部73に通知する。
コンテキスト/質問・応答部品生成部73は、この入力部71からのユーザレベルの通知を受けると、例えば上記判定ルール(多数決等)により、上記対話単位に関する当該ユーザの対話レベルを判定する。また、もし、このユーザが初めての利用である旨の通知を受けた場合には、対話レベルは、一律、初心者であると判定する。そして、メタ知識DB75における上記対話単位に対応するメタ知識を参照して、上記判定した対話レベルに応じたコンテキスト名を取得し(もし対話レベルが初心者であれば、図9(b)の例ではコンテキスト名aを取得)、取得した各コンテキスト名に対応するコンテキスト本体112をコンテキストDB76から取得し、取得したコンテキスト本体112に記述された、そのコンテキストで使用する質問・応答部品の質問・応答部品名に基づいて、質問・応答部品DB77から対応する部品本体122を取得し、以上取得したデータを上記質問・応答部品65、コンテキスト66として対話管理部64に渡す。
また、対話管理部64は、上記渡された質問・応答部品65、コンテキスト66を用いてユーザとの対話を行い、当該対話単位の質問が終了すると、次の対話単位が何であるか(対話単位名等)を入力部71に通知する。入力部71、コンテキスト/質問・応答部品生成部73は、通知された対話単位名に対応して、上述した処理を実行し、当該対話単位に関するそのユーザの対話レベルに応じた内容の質問・応答部品65、コンテキスト66を対話管理部64に渡す。
尚、一人のユーザに対して1つの対話レベルを規定するのではなく、上記の様に各対話単位で対話レベルを規定するようにしたのは、ある一人のユーザであっても、質問の内容によって得意・不得意があったり、あるいは慣れている質問、初めての質問等がある為であり、これによって木目細かいユーザ対応が可能となる。但し、これに限定する必要はなく、一人のユーザに対して1つの対話レベルを規定するようにしてもよい。
また、入力部71は、対話管理部64から上記質問から回答までの計測時間(応答時間)とその操作IDが通知される毎に、これらを操作履歴DB74の応答時間履歴97、操作ID96に格納する。更に、この操作ID96に対応するエキスパート応答時間を不図示の予め作成されている操作ID−エキスパート応答時間対応テーブルから取得し、これを操作履歴DB74のエキスパート応答時間99に格納する。一方、もし、通知された操作IDと同じものが既に操作ID96に格納されていた場合には、この操作ID96に対応する応答時間履歴97の内容を上記通知された応答時間により更新する(上書きする。または過去のデータも消去せずに残し、随時追加していく)。
そして、入力部71は、任意のときに(ここでは応答時間が通知される毎に)、操作履歴評価部72を起動して、後述する図10の処理を実行させる。
尚、操作履歴評価部72の起動条件は、上記「応答時間が通知される毎」に限らない。例えば、上記の様に対話管理部64から所定時間内に回答が無かった旨の通知があった場合に起動してもよいし、あるいは上記受信電話番号又はユーザIDが通知された時に起動してもよいし、全ての対話完了時点、あるいは各対話単位毎の対話開始又は終了時点で起動してもよいし、その他任意の条件をシステム管理者が設定してもよい。但し、ここでは、上記「応答時間が通知される毎」又は「所定時間内に回答が無かった旨の通知があった場合」に起動するものとする。
操作履歴評価部72は、起動すると、図10に示す処理を実行して、各質問(操作ID)毎のユーザレベルを判定する。
図10は、操作履歴評価部72の処理フローチャート図である。
図10において、操作履歴評価部72は、まず、上記所定時間内に回答が無かった旨の通知があった為に起動された場合には(ステップS41,YES)、これに対応する対策ルール101をメタ知識DB75から求め(図9(b)には示していないが存在する)、求めた対策ルールを実行する。この状況に対応する対策ルールとしては、例えば「所定時間内に回答が無かった場合は、強制的にユーザレベルを一段下げる」、「所定時間内に回答が無かった場合は、再度現在の操作IDを実施する」等が考えられる。もし対策ルールが「強制的にユーザレベルを一段下げる」であった場合には、操作履歴評価部72は、現在のユーザレベル94を参照して、現在のレベルから一段レベルを下げたものを新たにユーザレベル94に上書きする。また、対策ルールが「再度現在の操作IDを実施する」であった場合には、操作履歴評価部72は、対話管理部64にその旨を通知する。これによって、対話管理部64は再度同じ質問を行うことになる。
一方、「応答時間が通知される毎」の起動においては(ステップS41,NO)、まず、ステップS42〜S44の処理、すなわちNEM法による評価を行う。
ここで、NEM(Novice Expert ratio Method)とは公知の評価手法である。
NEMとは、ある一定のタスクにおいて、設計者(エキスバート)と初心者ユーザの操作に要する時間を比較し、ユーザビリティに問題のある操作ステップを把握する評価手法である。
NE比は以下の公式により計算され、各操作タスクの難易度が示されることになる。
NE比 = Tn / Te
Tn : 初心者ユーザが要した平均時間
Te : エキスパートユーザが要した平均時間
NE比が大きいほど、操作に対するモデルのギャップが大きいということになる。
これより、まず、処理対象の操作IDに対応する応答時間を、ユーザ、エキスパートのそれぞれについて求める。つまり応答時間履歴97とエキスパート応答時間99とを取得する(ステップS42,S43)。取得した応答時間履歴97をTnkとし、取得したエキスパート応答時間99はTekとする(kは、操作ID96)。
そして、以下の(1)式によりNE比を演算する(ステップS44)。
NEk=Tnk/Tek ・・・(1)式
尚、上記の様に、NEk、Tnk、Tekとしているのは、複数の質問(操作ID)について一度に処理する場合も想定している為であり、上記のように「応答時間が通知される毎」に本処理を行う場合には、単純に「応答時間履歴97/エキスパート応答時間99」によってNE比を求めればよい。
そして、ステップS44で求めたNEkについて、ステップS45、S46の処理を行う。
まず、算出したNEkを、予め設定されている閾値と比較して、閾値との関係を判定する(ステップS45)。例えば、図10に示すように、中級境界閾値、上級境界閾値の2つの閾値が予め設定されているものとする。NE比は、ユーザがエキスパートレベルに近づくほど、値が小さくなる。これより、NEkが、NEk<上級境界閾値、中級境界閾値>NEk≧上級境界閾値、中級境界閾値≦NEkの何れになるかを判定する。尚、閾値は、予めデフォルトで設定されているが、システム管理者等が設定変更できるものとする。
そして、ステップS45の判定結果と対策ルール101とに基づいて、ユーザレベルを決定し又はユーザレベルを変更すべきかを判定する(ステップS46)。すなわち、図9(b)に示す対策ルール101の具体例にあるように、ステップS45の処理で例えば中級境界閾値を下回る(中級境界閾値>NEk≧上級境界閾値)と判定された場合でも、直ちにユーザレベルを中級者に変更するとは限らないからである。
上述したように、随時、操作履歴評価部72が各操作ID96毎のユーザレベル94を決定/変更していき、必要に応じて上記の通りコンテキスト/質問・応答部品生成部73が各ユーザレベル94に基づいて対話レベルを判定して、判定した対話レベルに応じたコンテキストを対話管理部64に渡すことになる。尚、この対話レベルの判定の為の判定ルールは、上記「多数決」に限らない。例えば「一番低いレベルに合わせる」等であってもよい。
図11に、ユーザレベル変更前、変更後の質問内容の例を示す。
図9(b)に示す例では、ある対話単位に関して対話レベルが初心者である場合にはコンテキストa、中級者である場合にはコンテキストcとdを用いるので、図11にはこれに対応して、あるユーザが当該対話単位に関して最初は初心者であったが後に中級者になった場合を例を示す。
図11(a)に示すように、ユーザレベル変更前の初心者向けの質問内容では、図示の様に「次の3つの中から選んでお答え下さい」として3つの選択肢を逐一読み上げて、この選択肢の中から回答を求めるような丁寧な質問の仕方をしている。これによって、初心者でも判断に迷うことなく回答できるようになる。しかしながら、最初は音声対話装置によるサービスに慣れていない初心者であっても、何度か本サービスを利用することで、通常は段々と慣れていくものである。その為、今度は、徐々に、図11(a)の様な質問の仕方が煩わしくなってきて、最悪、途中で面倒になり、対話を中断してしまう可能性もあった。
これに対して、上記音声対話装置60では、ユーザの習熟度が向上したとき等には対話レベルを変更するので、例えば図11(b)に示すような中級者向け質問内容に変更される。図示の様に、中級者向けの場合は質問の仕方が簡略化される。もし初めて利用するユーザ等にこの様な中級者向けの質問の仕方をすると、質問の内容または答え方が理解できずに、答えられなかったり、曖昧な回答となってしまう場合があったが、本手法ではこの様な事態が起こらないようにできる。尚、特に図示していないが、上級者向けのコンテキストe等の場合は例えば「どの様なご用件ですか?」等、更に質問の仕方が簡略化されることになる。
最後に、図8のコンテキスト交換部67、質問・応答部品交換部68について説明する。
コンテキスト交換部67は、定期的に、各ユーザのユーザ情報91を、ネットワーク83を介して管理サーバ84に転送する。
管理サーバ84は、各音声対話装置60の音声認識率や操作性のモニタ、認識率の悪化に対する対策等の全体管理を行うサーバである。管理サーバ84側では、そのサーバ管理者等が、これら複数のユーザのユーザ情報91(特に応答時間履歴97)に基づいて、例えばNE比の高い操作ステップ(質問内容)の統計をとる。これに基づいて、開発者等がNE比の高い操作ステップの分析を行って、対策ルールの内容を変更したり、コンテキストを変更したり、質問・応答部品を変更したりする。管理サーバ84は、変更後の対策ルール、コンテキストを、ネットワーク83を介してコンテキスト交換部67に送信する。コンテキスト交換部67は、これに応じて、メタ知識DB75、コンテキストDB76の内容を更新する。
また、管理サーバ84は、変更後の質問・応答部品を、ネットワーク83を介して質問・応答部品交換部68に送信する。質問・応答部品交換部68は、これに応じて、質問・応答部品DB77の内容を更新する。
図12(a)に変更前、(b)に変更後のコンテキスト(その質問・応答部品)の一例を示す。
図示の例では、ユーザの住所を聞く為のコンテキストを、コンテキストxからコンテキストyに変更した例を示す。変更前のコンテキストxは、「住所をお答え下さい」という内容の質問・応答部品1つから成り、ユーザの回答パターンが多岐にわたるため(例えば都道府県から答えたり、市町村名から答えたりする)、統計の結果、全体的に認識率が悪くNE比も悪かったとする。
この為、管理サーバ84側の開発者等が、図12(b)に示すコンテキストy(その質問・応答部品)を作成したとする。コンテキストyは、「市町村名」、「番地」、「ビル名/部屋番号」を問う3つの質問・応答部品から成り、具体的、段階的に質問するので、ユーザは判断に迷うことなく、的確に回答できるようになる。よって、認識率、NE比が向上するようになる。
以上説明したように、第2の実施例の音声対話装置60によれば、各ユーザ毎に、そのユーザの各質問毎の応答時間(質問開始から回答完了までに掛かる時間)を収集・蓄積し、これをNEM法等の評価手法によって評価して、評価結果に基づいて各質問毎のユーザレベルを決定・変更する処理を継続的に随時実行する。そして、必要に応じて、例えば対話単位毎に、この各質問毎のユーザレベルに基づいてそのユーザのそのときの対話レベルを判定し、この対話レベルに応じて質問の仕方(コンテキスト、質問・応答部品)で対話を行うので、ユーザが習熟によりユーザレベルが向上していくこと等にも対応して随時そのときのユーザの対話レベルに合った質問の仕方で対話を行うことができる。よって、質問・応答のコンテキストに起因する認識率の低下や対話中断が起こる可能性は非常に低くなる。更に、対話単位毎に対話レベルを決定して対話レベルに合った質問の仕方で対話を行うので、例えば質問のジャンルによるユーザの得意/不得意や、過去に何度も経験した質問か初めての質問か等によるユーザの慣れの違い等にも対応でき、木目細かいユーザサービスが可能となる。また、特許文献3等のように音声認識エンジンを複数設ける必要はないので、低コストでシステム構築することができる。
図13は、上述した音声対話装置10、60を実現するコンピュータ200のハードウェア構成の一例を示す図である。
同図に示すコンピュータ200は、CPU201、メモリ202、入力部203、出力部204、記憶部205、記録媒体駆動部206、及びネットワーク接続部207を有し、これらがバス208に接続された構成となっている。同図に示す構成は一例であり、これに限るものではない。
CPU201は、当該コンピュータ200全体を制御する中央処理装置である。
メモリ202は、プログラム実行、データ更新等の際に、記憶部205(あるいは可搬型記録媒体209)に記憶されているプログラムあるいはデータを一時的に格納するRAM等のメモリである。CPU201は、メモリ202に読み出したプログラム/データを用いて、上述してある各種処理・機能(図1、図8に示す各種機能部の処理機能、図3,図4、図10のフローチャートの処理)を実行する。
入力部203は、例えば、キーボード、マウス等である。
出力部204は、例えばディスプレイである。
記憶部205は、例えばハードディスク等であり、上述した様々な処理・機能を、コンピュータ200に実行させるためのプログラム/データが格納されている。
ネットワーク接続部207は、例えばイントラネットやインターネット等のネットワークに接続して、他の情報処理装置とのコマンド/データ送受信を行う為の構成である。
あるいは、これらプログラム/データは、可搬型記録媒体209に記憶されているものであってもよい。この場合、可搬型記録媒体209に記憶されているプログラム/データは、記録媒体駆動部206によって読み出される。可搬型記録媒体209とは、例えば、FD(フレキシブル・ディスク)209a、CD−ROM209b、その他、DVD、光磁気ディスク等である。
あるいは、また、上記プログラム/データは、ネットワーク接続部207により接続しているネットワークを介して、他の装置内に記憶されているものをダウンロードするものであってもよい。あるいは、更に、インターネットを介して、外部の他の装置内に記憶されているものをダウンロードするものであってもよい。
また、本発明は、上記本発明の各種処理をコンピュータ上で実現するプログラムを記録した可搬型記憶媒体として構成できるだけでなく、当該プログラム自体として構成することもできる。
第1の実施例による音声対話装置の構成ブロック図である。 質問別候補辞書DBに格納されるデータのデータ項目の一例を示す。 第1の実施例の音声対話装置の処理フローチャート図である。 図3のステップS20の処理の詳細フローチャート図である。 質問別候補辞書DBに格納される辞書データの具体例を示す図である。 具体的な対話処理例を示す図(その1)である。 具体的な対話処理例を示す図(その2)である。 第2の実施例による音声対話装置の構成ブロック図を示す。 (a)は操作履歴DB、(b)はメタ知識DB、(c)はコンテキストDB、(d)は質問・応答部品DBに格納されるデータの具体例を示す図である。 図8の操作履歴評価部の処理フローチャート図である。 対話レベル変更前、変更後の質問内容の例を示す図である。 (a)に変更前、(b)に変更後のコンテキスト(その質問・応答部品)の一例を示す。 コンピュータのハードウェア構成図である。 従来の音声対話装置の構成図(その1)である。 従来の音声対話装置の構成図(その2)である。
符号の説明
10 音声対話装置
11 認識応答制御部
12 質問別候補辞書DB
13 音声応答部
14 切替部
15 音声認識部
16 標準認識辞書DB
17 候補評価部
18 質問別候補辞書作成部
21 同義語検索装置
22 アプリケーション
31 電話回線
32 電話機
51 質問項目
52 回答候補
53 質問ID
54 質問テキスト
55 回答群
56 主回答テキスト
57 同義語回答テキスト
60 音声対話装置
61 送受信部
62 音声認識エンジン
63 音声応答エンジン
64 対話管理部
65 応答部品
66 コンテキスト
67 コンテキスト交換部
68 質問・応答部品交換部
70 対話支援部
71 入力部
72 操作履歴評価部
73 コンテキスト/質問・応答部品生成部73
74 操作履歴DB
75 メタ知識DB
76 コンテキストDB
77 質問・応答部品DB
81 電話機
82 ネットワーク
83 ネットワーク
84 管理サーバ
91 ユーザ情報
92 エキスパート情報
93 電話番号/ユーザID
94 ユーザのレベル
95 開始時刻
96 操作ID
97 応答時間履歴
98 エキスパート操作ID
99 エキスパート応答時間
101 対策ルール
102 初心者ルール
103 中級者ルール
104 上級者ルール
111 コンテキスト名
112 コンテキスト本体
121 質問・応答部品名
122 部品本体
200 コンピュータ
201 CPU
202 メモリ
203 入力部
204 出力部
205 記憶部
206 記録媒体駆動部
207 ネットワーク接続部
208 バス
209 可搬型記録媒体
209a FD(フレキシブル・ディスク)
209b CD−ROM

Claims (10)

  1. 各質問と、各質問別に想定される各回答候補として、各主回答候補と、該各主回答候補毎に対応付けてその主回答候補と意味的に同様である1又は複数の同様語を格納する質問別候補辞書格納手段と、
    前記質問別候補辞書格納手段に格納される任意の質問を用いて、ネットワークを介して任意の電話機に対して音声による質問を送信する音声応答手段と、
    前記音声応答手段による質問に対して前記電話機を介して入力される音声による回答を受信して、該音声による回答を前記質問別候補辞書格納手段または標準認識辞書を参照して音声認識する音声認識手段と、
    該音声認識結果が前記同様語である場合には、前記質問別候補辞書格納手段より、該同様語に対応する主回答候補を求め、該主回答候補を所定のアプリケーションに渡すことを特徴とする音声対話装置。
  2. 前記音声認識手段による音声認識結果から接頭語/接尾語を削除したものを回答認識結果とし、
    前記回答認識結果及び前記質問別候補辞書格納手段に格納される各回答候補はテキストデータであり、
    該テキストデータのままで前記回答認識結果と各回答候補とを文字列探索により比較・評価して、少なくとも該各回答候補の中に該回答認識結果と完全一致する回答候補がない場合には、一致度が最も高い回答候補を仮の回答結果として、前記所定のアプリケーションに渡す前に、ユーザに正/誤の確認をとるように前記音声応答手段に指示する候補評価手段を更に有することを特徴とする請求項1記載の音声対話装置。
  3. 前記候補評価手段は、前記仮の回答結果が前記主回答候補ではない場合には、該仮の回答結果に対応する主回答候補を求め、該主回答候補を用いて前記ユーザへの正/誤の確認を行わせることを特徴とする請求項2記載の音声対話装置。
  4. 任意のユーザに対して質問を出し応答を受ける対話を管理・制御する対話管理手段と、
    該対話管理手段から出される各質問を音声に変換して出力する音声応答手段と、
    該音声応答手段から出力される音声の質問をネットワークを介して前記任意のユーザの電話機に送信し、該電話機より入力される該音声の質問に対する音声の応答を受信する送受信手段と、
    該送受信手段により受信した音声の応答を音声認識して該音声認識結果を前記対話管理手段に渡す音声認識手段と、
    前記対話管理手段の対話相手のユーザを識別し、該ユーザの前記対話に関するレベルである対話レベルを該ユーザの過去又は現在の対話における各質問に対する応答時間に基づいて判定し、予め用意される、各対話レベルに応じた質問の仕方・質問内容を規定した各コンテキストの中から、該判定結果の対話レベルに応じたコンテキストを選択・取得して前記対話管理手段に渡す対話支援手段とを有し、
    前記対話管理手段は、該対話支援手段から渡されたコンテキストを用いて前記対話を実行することを特徴とする音声対話装置。
  5. 前記対話支援手段による対話の管理・制御は、予め用意される会話シーケンスに従って行われ、該会話シーケンスは複数の対話単位で構成され、
    前記対話支援手段において予め用意される前記各コンテキストは、前記各対話単位毎にそれぞれ前記各対話レベル毎に用意されるものであり、前記対話レベルの判定は各対話単位毎に行われ、各対話単位毎に、判定された対話レベル用のコンテキストを選択・取得して前記対話管理手段に渡すことを特徴とする請求項4記載の音声対話装置。
  6. 前記対話支援手段は、各質問毎に、前記ユーザの応答時間と予め登録されている各質問毎のエキスパートの応答時間とを用いてNEM法によるNE比算出を行い、該NE比と予め設定される閾値との比較結果と予め設定されている対策ルールとに基づいて各質問毎のユーザレベルを判定・記録し、該各質問毎のユーザレベルと予め設定されている判定ルールとに基づいて前記対話レベルの判定を行うことを特徴とする請求項4又は5記載の音声対話装置。
  7. 各質問と、各質問別に想定される各回答候補として、各主回答候補と、該各主回答候補毎に対応付けてその主回答候補と意味的に同様である1又は複数の同様語を格納した認識辞書を用いて、
    任意のときに任意の前記質問を用いて、ネットワークを介して任意の電話機に対して音声による質問を送信し、
    該質問に対して前記電話機を介して入力される音声による回答を受信して、該音声による回答を前記認識辞書を用いて音声認識し、
    該音声認識結果が前記同様語である場合には、前記認識辞書により、該同様語に対応する主回答候補を求め、該主回答候補を所定のアプリケーションに渡すことを特徴とする音声対話方法。
  8. 任意のユーザ側の電話機に対して音声による質問を出し応答を受ける対話を行う音声対話システムにおける対話支援方法であって、
    対話相手のユーザを識別して、該ユーザの前記対話に関するレベルである対話レベルを該ユーザの過去又は現在の対話における各質問に対する応答時間に基づいて判定し、
    予め用意される、各対話レベルに応じた質問の仕方・質問内容を規定した各コンテキストの中から、該判定結果の対話レベルに応じたコンテキストを選択し、
    該選択したコンテキストを用いて前記対話を実行させることを特徴とする音声対話支援方法。
  9. コンピュータに、
    各質問と、各質問別に想定される各回答候補として、各主回答候補と、該各主回答候補毎に対応付けてその主回答候補と意味的に同様である1又は複数の同様語を格納した認識辞書を用いて、
    任意のときに任意の前記質問を用いて、ネットワークを介して任意の電話機に対して音声による質問を送信する機能と、
    該質問に対して前記電話機を介して入力される音声による回答を受信して、該音声による回答を前記認識辞書を用いて音声認識する機能と、
    該音声認識結果が前記同様語である場合には、前記認識辞書により、該同様語に対応する主回答候補を求め、該主回答候補を所定のアプリケーションに渡す機能と、
    を実現させるためのプログラム。
  10. 任意のユーザ側の電話機に対して音声による質問を出し応答を受ける対話を行うコンピュータに、
    対話相手のユーザを識別して、該ユーザの前記対話に関するレベルである対話レベルを該ユーザの過去又は現在の対話における各質問に対する応答時間に基づいて判定する機能と、
    予め用意される、各対話レベルに応じた質問の仕方・質問内容を規定した各コンテキストの中から、該判定結果の対話レベルに応じたコンテキストを選択する機能と、
    該選択したコンテキストを用いて前記対話を実行する機能と、
    を実現させるためのプログラム。

JP2003418436A 2003-12-16 2003-12-16 音声対話装置、その方法、プログラム Pending JP2005181442A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003418436A JP2005181442A (ja) 2003-12-16 2003-12-16 音声対話装置、その方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003418436A JP2005181442A (ja) 2003-12-16 2003-12-16 音声対話装置、その方法、プログラム

Publications (1)

Publication Number Publication Date
JP2005181442A true JP2005181442A (ja) 2005-07-07

Family

ID=34780651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003418436A Pending JP2005181442A (ja) 2003-12-16 2003-12-16 音声対話装置、その方法、プログラム

Country Status (1)

Country Link
JP (1) JP2005181442A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257509A (ja) * 2006-03-24 2007-10-04 Fujitsu Ltd 集計処理装置、集計処理方法、集計処理プログラム及び集計処理システム
WO2007116712A1 (ja) * 2006-04-07 2007-10-18 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP2008026621A (ja) * 2006-07-21 2008-02-07 Fujitsu Ltd 音声対話機能を有する情報処理装置
JP2008046570A (ja) * 2006-08-21 2008-02-28 Aioi Kiso Kenkyusho:Kk 音声入力システム
JP2008268450A (ja) * 2007-04-18 2008-11-06 Matsushita Electric Works Ltd 音声認識機能付き操作器
JP2009080579A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 検索装置、方法及びプログラム
JP2014191567A (ja) * 2013-03-27 2014-10-06 Nippon Telegraph & Telephone East Corp 応募システム、応募受付方法及びコンピュータプログラム
JP2015087728A (ja) * 2013-11-01 2015-05-07 富士ソフト株式会社 音声認識システムおよび音声認識システムの制御方法
JP2017207610A (ja) * 2016-05-18 2017-11-24 シャープ株式会社 応答制御装置、制御プログラム、情報処理方法、および通信システム
JP2017228030A (ja) * 2016-06-21 2017-12-28 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
WO2018066258A1 (ja) * 2016-10-06 2018-04-12 シャープ株式会社 対話装置、対話装置の制御方法、および制御プログラム
KR20180126358A (ko) * 2017-05-17 2018-11-27 주식회사 에이아이리소프트 음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법
JP2020027514A (ja) * 2018-08-15 2020-02-20 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム
CN112652301A (zh) * 2019-10-12 2021-04-13 阿里巴巴集团控股有限公司 语音处理方法和分布式系统、及语音交互设备和方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257509A (ja) * 2006-03-24 2007-10-04 Fujitsu Ltd 集計処理装置、集計処理方法、集計処理プログラム及び集計処理システム
US8010517B2 (en) 2006-03-24 2011-08-30 Fujitsu Limited Apparatus, method and system for tabulation processing, and recording medium
WO2007116712A1 (ja) * 2006-04-07 2007-10-18 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP2008026621A (ja) * 2006-07-21 2008-02-07 Fujitsu Ltd 音声対話機能を有する情報処理装置
JP2008046570A (ja) * 2006-08-21 2008-02-28 Aioi Kiso Kenkyusho:Kk 音声入力システム
JP2008268450A (ja) * 2007-04-18 2008-11-06 Matsushita Electric Works Ltd 音声認識機能付き操作器
JP2009080579A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 検索装置、方法及びプログラム
US8374845B2 (en) 2007-09-25 2013-02-12 Kabushiki Kaisha Toshiba Retrieving apparatus, retrieving method, and computer program product
JP2014191567A (ja) * 2013-03-27 2014-10-06 Nippon Telegraph & Telephone East Corp 応募システム、応募受付方法及びコンピュータプログラム
JP2015087728A (ja) * 2013-11-01 2015-05-07 富士ソフト株式会社 音声認識システムおよび音声認識システムの制御方法
JP2017207610A (ja) * 2016-05-18 2017-11-24 シャープ株式会社 応答制御装置、制御プログラム、情報処理方法、および通信システム
JP2017228030A (ja) * 2016-06-21 2017-12-28 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
WO2017221916A1 (ja) * 2016-06-21 2017-12-28 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
WO2018066258A1 (ja) * 2016-10-06 2018-04-12 シャープ株式会社 対話装置、対話装置の制御方法、および制御プログラム
JPWO2018066258A1 (ja) * 2016-10-06 2019-09-05 シャープ株式会社 対話装置、対話装置の制御方法、および制御プログラム
KR20180126358A (ko) * 2017-05-17 2018-11-27 주식회사 에이아이리소프트 음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법
KR102116047B1 (ko) * 2017-05-17 2020-05-27 주식회사 에이아이리소프트 음성 인식 시스템의 음성 인식 기능을 향상시키기 위한 시스템 및 방법
JP2020027514A (ja) * 2018-08-15 2020-02-20 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム
JP7210933B2 (ja) 2018-08-15 2023-01-24 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム
CN112652301A (zh) * 2019-10-12 2021-04-13 阿里巴巴集团控股有限公司 语音处理方法和分布式系统、及语音交互设备和方法

Similar Documents

Publication Publication Date Title
US10331784B2 (en) System and method of disambiguating natural language processing requests
US7702512B2 (en) Natural error handling in speech recognition
JP2005181442A (ja) 音声対話装置、その方法、プログラム
KR100668297B1 (ko) 음성인식방법 및 장치
US8090080B2 (en) Method and system for an automated departure strategy
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
US9710819B2 (en) Real-time transcription system utilizing divided audio chunks
US7016844B2 (en) System and method for online transcription services
US8095371B2 (en) Computer-implemented voice response method using a dialog state diagram to facilitate operator intervention
US7236932B1 (en) Method of and apparatus for improving productivity of human reviewers of automatically transcribed documents generated by media conversion systems
US20060287868A1 (en) Dialog system
US20020143548A1 (en) Automated database assistance via telephone
US20070208579A1 (en) System and Method for Closed Loop Decisionmaking in an Automated Care System
US7369988B1 (en) Method and system for voice-enabled text entry
JP2007504490A (ja) 補足情報を用いた改良型音声認識の方法および装置
US7447636B1 (en) System and methods for using transcripts to train an automated directory assistance service
US20060259294A1 (en) Voice recognition system and method
US7552221B2 (en) System for communicating with a server through a mobile communication device
JP2016212541A (ja) 対話装置、対話方法、及びそのコンピュータプログラム
US7401023B1 (en) Systems and methods for providing automated directory assistance using transcripts
US7424428B2 (en) Automatic dialog system with database language model
US6961414B2 (en) Telephone network-based method and system for automatic insertion of enhanced personal address book contact data
KR100803900B1 (ko) 음성 인식 ars 서비스 방법 및 시스템
EP1377000B1 (en) Method used in a speech-enabled automatic directory system
WO2023148772A1 (en) A system and method to reduce ambiguity in natural language understanding by user expectation handling

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060615

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090818

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100105