JP4197344B2

JP4197344B2 - 音声対話システム

Info

Publication number: JP4197344B2
Application number: JP2006042422A
Authority: JP
Inventors: 勝堀岡; 義徳阿竹; 義則田原
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-02-20
Filing date: 2006-02-20
Publication date: 2008-12-17
Anticipated expiration: 2026-02-20
Also published as: US8095371B2; US8145494B2; US20090141871A1; US20070198272A1; JP2007219385A

Description

本発明は、音声対話システムに関する。更に詳しくは、音声対話システムにおける対話状態を直感的に判断するためのシステム、方法、およびプログラムに関する。

電話環境における音声対話システムでは、音声認識に失敗したり、利用者がシステムに対して応答不可能な質問を行った場合など、システムが自動応答を行うことが困難であると判断した場合、利用者からの呼は、オペレータに転送され、オペレータが音声対話システムに代わって、引き続き対応を行う。この場合、オペレータが利用者に対して、最初から用件を聞き直したりするのでは、利用者にとってもオペレータにとっても不便である。

そのため、例えば、特許文献１では、音声認識に失敗した場合に、録音音声ファイルを添付したメールを選択されたＳＯＨＯ作業者などに送信し、このＳＯＨＯ作業者が音声ファイルを文字変換することによりサービスを継続するシステムが開示されている。しかし、これらの行為自体に時間がかかるようであれば、利用者が待たされることになるため、利用者にとって不便であるとともに、サービス提供者からの観点から見ても各問い合わせに対する処理時間が長くなるという点で非効率である。

このように、利用者の呼が転送されたときや、利用者がオペレータとの会話を求める場合などにおいて、そのオペレータをサポートするための様々なシステムや手法が開発されている。例えば、利用者がシステムの利用方法を理解できず迷っているときなどに、オペレータを呼び出してオペレータに支援してもらうシステム（特許文献２）、音声認識精度が高く、オペレータの作業の負担を軽減するシステム（特許文献３）、利用者の知識レベルに対応して、オペレータが介在するタイミングを自動的に制御することができるシステム（特許文献４）などが開示されている。また、特許文献５では、音声認識により変換されたテキストについて、その変換がどの程度正確であるかを示すシステム信頼性レベルに従って表示するシステムが開示されている。
特開２００２−１４０２４３号公報特開平８−７６９６５号公報特開平１０−３２２４５０号公報特開２００２−２０２８８２号公報特開平１１−２３１８９１号公報

従来、コールセンター業務などで採用されている自動音声対話システムでは、以下の対話例１に示すような、いわゆる「一問一答」形式で、システム主導により対話が進められる。
＜対話例１＞
システム：列車案内です。問い合わせ内容を、料金、時刻、始発、終電の４つの中よりお選びください。
利用者：時刻。
システム：出発駅をどうぞ。
利用者：東京。
システム：到着駅をどうぞ。
利用者：大阪。
システム：出発時刻、到着時刻のどちらを指定しますか？
利用者：出発時刻。
システム：出発時刻は何時ですか？

このようなシステムでは、認識可能な語彙を処理の段階毎に制限することにより、対話の遷移が制限されている。このようなシステムでは、ある項目（例：到着駅）の入力を完了しないと、次の項目（例：出発時刻、到着時刻の指定）の入力へ進むことが出来ないため、入力済みの項目から対話状態を把握することは容易に可能である。

しかしながら、近年研究開発が進められており、かつ普及が進みつつある自由対話を可能にするシステムにおいては、以下の対話例２に示すような対話が可能である。このようなシステムでは、従来型のシステムにあったような認識可能な語彙の制約は無く、任意の順番で項目の入力が行われたり、一度の発話で複数の項目の入力が行われたり、ある問い合わせの入力中に別の問い合わせに変更するといったことが可能である。

また、自由対話が可能なシステムでは、応答対象となる問い合わせのパターンや入力可能な項目の数が、従来のシステムと比較して多くなる場合があるので、単に入力済みの項目を表示するだけでは、現在の対話状態を短い時間で判断することは難しい。

＜対話例２＞
システム：列車案内です。ご質問をどうぞ。
利用者：東京から京都までいくらかかりますか？［料金に関する問い合わせ］
システム：東京から京都までの料金でよろしいですか？
利用者：やっぱり大阪までの時刻を調べたいのですが。［時刻に関する問い合わせ］
システム：出発時刻、または、到着時刻は何時ですか？
利用者：２１時ごろ出発で。
システム：東京から大阪まで、２１時ごろ出発でよろしいですか？
利用者：新幹線の終電を教えてください。［終電に関する問い合わせ］
システム：東京から大阪まで、新幹線の終電でよろしいですか？
利用者：はい。

前述の特許文献１にあるように、オペレータへの転送発生時にシステムからオペレータに対して情報を提示するものに関して、既に入力済みの項目をオペレータ転送時に表示するという技術は存在する。しかしながら、音声認識を用いたシステムの場合、音声認識エンジンの精度の問題から、誤認識された結果が表示される可能性もあるので、単に表示するだけでは十分であるとは言えない。また、既に入力済みの項目を表示するだけでは、下記の理由から対話状態の把握という観点からも不十分である。以降、対話状態とは、利用者のシステムに対する問い合わせ内容、および、利用者がシステムを利用して目的を達成するために、サービス開始から終了までに必要な一連の手順において、どの段階にあるかということを指す。

そこで、オペレータが利用者への応答を効率的に行うためには、転送発生時にシステムがオペレータに対して、既に利用者とシステムとの間で行われた対話に関する情報を理解が容易な形で提示する必要があるが、前述の特許文献１〜５には、このような課題に対しては十分な機能を備えたシステムおよび解決のための手法は開示されていない。

本発明は、上記の課題を解決するためになされたものであり、オペレータ転送発生時に、音声対話システムの対話履歴ログを利用して、利用者の問い合わせ内容や、利用者と音声対話システムの対話状態を推定し、転送されたオペレータに視覚的に理解が容易な形で提示することにより、オペレータが現在の対話状態を迅速に判断し、利用者への応答をスムーズに行うことを可能にするものである。

本発明の一つの形態によれば、
（１）利用者からの音声による問い合わせに応答する音声対話システムであって、
前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話部と、
前記音声対話部と前記利用者の対話内容を記憶する対話履歴ログと、
各対話状態をあらかじめ定義する対話状態図定義ファイルと、
前記利用者と前記音声対話部との対話状態を推定するための対話状態判別モデルと、
前記音声対話部が応答不能と判断したことに応じて、前記対話履歴ログ、前記対話状態図定義ファイル、および前記対話状態判別モデルから前記利用者と前記音声対話部との現在の対話状態を推定する対話情報解析部と、
前記推定した対話状態を視覚的にオペレータに提示する対話状態表示部と、
を備える音声対話システムを提供する。

更に、
（２）前記対話履歴ログは、前記利用者との対話内容として、サービス開始からオペレータ転送発生までの音声認識結果、前記音声認識結果に対する信頼度、前記音声認識結果の入力済みとなった項目、応答文またはそのＩＤ、サービスの開始、およびサービス終了のうち少なくともいずれか一つを含む、（１）に記載の音声対話システムを提供する。

（３）前記対話状態図定義ファイルは、各対話状態とその表示のための配置情報、表示対象となる入力項目、および各対話状態において表示すべき入力項目を定義する、（１）に記載の音声対話システムを提供する。

（４）前記対話状態判別モデルは、前記対話履歴ログから現在の対話状態を推定するための経験的なデータの集合またはアルゴリズムの集合を含む、（１）に記載の音声対話システムを提供する。

（５）前記対話情報解析部は、前記利用者の入力済みの項目の信頼度の計算、および、入力履歴の推定を行う、（１）に記載の音声対話システムを提供する。

（６）前記対話状態表示部は、前記対話状態の遷移図の上で前記現在の対話状態を強調表示する、（１）に記載の音声対話システムを提供する。

（７）前記対話状態表示部は、前記利用者の入力済みの項目に対して、前記対話履歴ログを用いて前記音声対話部の音声認識結果の信頼度を取得し、前記信頼度に応じて色を変えて表示する、（１）に記載の音声対話システムを提供する。

（８）前記対話状態表示部は、前記利用者の入力済みの項目に対して、前記対話履歴ログを用いて前記利用者の入力履歴を取得し、前記入力履歴の順に応じて文字サイズを変えて表示する、（１）に記載の音声対話システムを提供する。

本発明の別の形態によれば、
利用者からの音声による問い合わせに応答する音声対話のための方法であって、
前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話ステップと、
前記音声対話ステップにおける前記利用者との対話履歴を対話履歴ログに記憶する対話履歴ログ記憶ステップと、
前記音声対話ステップにおいて応答不能と判断したことに応じて、前記対話履歴ログと、各対話状態をあらかじめ定義する対話状態図定義ファイルと、前記利用者と前記音声対話ステップにおける対話状態を推定するための対話状態判別モデルと、から前記利用者の前記音声対話ステップにおける現在の対話状態を推定する対話情報解析ステップと、
前記推定した対話状態を視覚的にオペレータに提示する対話状態表示ステップと、
を含む方法を提供する。

本発明の更に別の形態によれば、
利用者からの音声による問い合わせに応答する音声対話のためのコンピュータ・プログラムであって、
前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話ステップと、
前記音声対話ステップにおける前記利用者との対話履歴を対話履歴ログに記憶する対話履歴ログ記憶ステップと、
前記音声対話ステップにおいて応答不能と判断したことに応じて、前記対話履歴ログと、前記利用者と前記音声対話ステップにおける対話状態を推定するための対話状態判別モデルと、各対話状態をあらかじめ定義する対話状態図定義ファイルとから、前記利用者の前記音声対話ステップにおける現在の対話状態を推定する対話情報解析ステップと、
前記推定した対話状態を視覚的にオペレータに提示する対話状態表示ステップと、
をコンピュータに実行させる、コンピュータ・プログラムを提供する。
また、本発明は、このようなコンピュータ・プログラムを記録したコンピュータ可読媒体を含むプログラム製品も提供する。

以上の解決手段をまとめると、本発明は、オペレータ転送発生時に、音声対話システムの対話履歴ログを利用して、利用者と対話内容（問い合わせ内容）や音声対話システムの状態を推定し、視覚的に理解が容易な形で提示することにより、オペレータが現在の状態を迅速に判断し、利用者への応答をスムーズに行うことを可能にするものである。具体的には、以下の手順により現在の対話状態を視覚的に表示する。
（１）システムの仕様などからオペレータに表示するための対話状態を定義し、サービス開始から終了までの遷移図を作成する。
（２）システムの対話履歴ログから現在の対話状態を判別するモデルを作成する。
（３）（１）、（２）の手順を用いてオペレータ転送発生時に現在の対話状態を推定し、遷移図上で現在の対話状態を強調表示する。
（４）オペレータ転送発生時に、入力済みの項目に対して、対話履歴ログを用いて、その信頼度を計算し、信頼度に応じて色を変えて表示する。
（５）オペレータ転送発生時に、入力済みの項目に対して、対話履歴ログを用いて、入力履歴を取得し、過去Ｎ回（Ｎ＞１）の履歴に対して、時間的に古いものに関しては、文字サイズを例えば小さく変えて表示する。

本発明によれば、オペレータは転送時の対話状態が、サービスの開始から終了までのどの段階にあるかを、短い時間で知ることができる。また、オペレータは転送時に入力済みの項目について、その信頼度を短い時間で知ることができる。これにより、オペレータは、例えば、信頼度の高いものに対しては確認を省略したり、信頼度の低いものに関しては再度問い合わせて確認するといったことが可能になる。更に、オペレータは転送時に入力済みの項目について、過去Ｎ回の入力履歴を短い時間で知ることができる。

以下、本発明の実施形態について図面を参照しながら説明する。

図１は、本発明の好適な実施形態に係る、音声対話システム１の機能ブロック図を示している。

音声対話システム１は、図示するように、音声対話部１１、対話履歴ログ１２、対話状態判別モデル１３、対話状態図定義ファイル１４、対話情報解析部１５、対話情報表示部１６で主に構成される。各構成要素は、通常はネットワークに接続された、一つまたは複数のコンピュータ内に実現される。このような構成は一例であり、同等な機能を有するものであれば、他の構成であってもよい。

音声対話部１１は、利用者１０からの電話を受信し、利用者の発話による音声を認識して、利用者の問い合わせに対する応答を行う音声対話サービスを提供する。利用者への応答は、音声合成によって行うこともできる。音声認識・合成については、公知の技術を用いてよい。音声対話部１１は、なんらかの理由により利用者への自動応答が不可能な場合は、利用者からの呼をオペレータ１７へ転送する。

対話履歴ログ１２は、サービス開始からオペレータへの転送時までの利用者の音声に対する音声認識の結果やシステム側からの応答文などの情報が記録されたデータの集合である。例えば、対話履歴ログ１２には、以下の項目が記録されている。
・音声認識結果
・音声認識結果に対するスコア（音声認識スコア）
・音声認識の結果入力済みとなっている項目（正しく認識されたどうかにはよらない）
・応答文、または応答文を表すＩＤ（応答文ＩＤ）
・システムのサービス開始、終了を示す情報

以下に対話履歴ログ１２の例を示す。
＜対話履歴ログ１２の例＞
２００５０７１７１４：３０：２１サービス開始
２００５０７１７１４：３０：２２システム応答文ＩＤ：１
２００５０７１７１４：３０：２２システム応答：列車案内システムにようこそ。質問をどうぞ。
２００５０７１７１４：３０：２９音声認識結果：料金を教えてください。
２００５０７１７１４：３０：２９音声認識スコア：料金＝０、を＝５０、教えて＝５０、ください＝７０、全体＝７３
２００５０７１７１４：３０：２９入力済項目：検索内容＝料金、出発駅＝指定なし、到着駅＝指定なし、時刻＝指定なし
２００５０７１７１４：３０：３３システム応答文ＩＤ：２
２００５０７１７１４：３０：３３システム応答：料金案内ですね。出発駅をどうぞ。
２００５０７１７１４：３０：４０音声認識結果：出発は東京です。
２００５０７１７１４：３０：４０音声認識スコア：出発＝８０、は＝５０、東京＝９０、全体＝７８
２００５０７１７１４：３０：４０入力済項目：検索内容＝料金、出発駅＝東京、到着駅＝指定なし
２００５０７１７１４：３１：３５システム応答文ＩＤ：９９
２００５０７１７１４：３１：３５システム応答：ご利用ありがとうございました。
２００５０７１７１４：３１：４０サービス終了

対話状態判別モデル１３は、対話履歴ログ１２から現在の対話状態を推定するためのモデルである。つまり、対話状態判別モデルとは、現在の対話状態を推定するための経験的なデータの集合、またはアルゴリズムの集合である。ここで、アルゴリズムには規則（ルール）が含まれる。

対話状態図定義ファイル１４は、各対話状態とその表示に関する情報（配置情報など）、表示対象となる入力項目の定義、および、各対話状態において表示すべき入力項目が定義されている。詳しくは後述の例で説明する。

対話情報解析部１５は、対話履歴ログ１２と対話状態判別モデル１３を用いて、オペレータへの転送発生時の対話状態の推定を行う。また、対話履歴ログ１２から、入力済み項目の信頼度の計算、および、入力履歴の取得を行う。

対話情報表示部１６は、対話情報解析部１５で得られた対話状態、入力項目に関する情報を、オペレータに対して視覚的に理解が容易な形式（状態図において、強調、色分け、表示する文字サイズの変換など）で表示を行う。

図２は、本音声対話システム１の様々なサービスにおける位置づけを示したものである。音声認識を用いたサービスの例としては、後述の実施例で説明する列車料金・時刻検索システムの他、銀行預金残高照会システム、電話番号案内システム、劇場等チケット予約システム、医療機関予約システム、および、商品問い合わせに応答するヘルプデスク・システム、など広範な分野に応用が可能である。

図２において、利用者からの電話は、公衆回線を利用した電話機２ａ（固定電話、携帯電話、ＰＨＳ）の他、パソコン２ｂなどを用い、インターネット網を利用したいわゆるＩＰ電話であってよい。これらの通話は、回線制御部３を介して、音声対話システム１に接続される。既に述べたように、音声対話システム１は、一般的には一または複数のコンピュータ・システムで構成される。音声対話システム１は、利用者からの音声の認識に失敗した場合、あるいは利用者の求めに応じて、最適なオペレータが使用するオペレータ端末５ａ〜５ｃを選択するオペレータ端末選択部４に接続される。図２は、オペレータ端末選択部４を音声対話システム１とは別構成として示したが、音声対話システム１にオペレータ端末選択部４を含む構成としてもよい。

以下では、列車料金・時刻検索システムを一つの実施例として、本発明の［課題を解決する手段］で述べた手順（１）−（５）それぞれについて具体的に説明する。

まず、「（１）システムの仕様などからオペレータに表示するための対話状態を定義し、サービス開始から終了までの遷移図を作成する手順」について説明する。

まず、システムの仕様などから、オペレータに表示するための対話状態を定義する。例えば、列車料金・時刻検索システムの仕様は以下のとおりとする。

列車料金・時刻検索システムは、利用者からの音声による問い合わせに対して、列車の料金案内、発着時刻案内を行う。案内の対象は、料金案内、時刻案内、始発案内、終電案内、定期料金案内の５つである。サービスが開始されるとシステムは「お調べしたい検索内容をどうぞ」などのように、検索条件の入力を促す。利用者は、「料金を調べたい」や「東京から大阪までの料金」のように発話により、検索条件を入力する。各案内において、検索に必要な条件が全て入力されると、システムは「東京から大阪までの料金でよろしいですか？」のように、入力された検索条件の確認を行う。

ここで、利用者が「はい」などのように検索条件が正しいことを発話により入力すると、検索が実行され、「東京から大阪まで新幹線のぞみをご利用の場合、料金は１３０００円です」などのように結果が返される。

一方、利用者が「いいえ」などのように、検索条件が正しくないことを発話により入力すると、「訂正したい検索条件をどうぞ」などのように、再度検索条件の入力を促す。一旦検索結果が案内されると、システムは「他にお問い合わせはありますか」のように、サービスを継続して利用するかどうかの問い合わせを行う。

ここで、利用者が「はい」などのように利用継続することを発話により入力すると、システムは「お調べしたい検索内容をどうぞ」などのように、検索条件の入力を促す。一方、利用者が「いいえ」などのように利用継続を望まないことを発話により入力すると、システムは「ご利用ありがとうございました」などのように応答し、サービス終了となる。

＜対話状態の例＞
ここでは、上記列車料金・時刻検索システムの仕様を元に以下のように対話状態を定義する。
・サービス開始
・サービス選択中
・料金検索入力中
・料金検索確認中
・時刻検索入力中
・時刻検索確認中
・始発検索入力中
・始発検索確認中
・終電検索入力中
・終電検索確認中
・定期検索入力中
・定期検索確認中
・サービス継続確認中
・サービス終了

次に、定義した状態を元に対話情報表示部１６で表示される表示レイアウトを作成する。図３の上段２１に示すように、音声対話アプリケーションのサービスの開始から終了までの間の適切な箇所に対話状態を示すボックスをそれぞれ配置する（これを対話状態図、または対話状態の遷移図と呼ぶこともある）。各対話状態の配置情報は、対話状態図定義ファイル１４に保存される。

また、図３の下段２２に示すように、オペレータに対して表示すべき入力項目の定義を行う。以下に表示すべき入力項目の例を示す。
＜表示すべき入力項目例＞
・出発駅
・到着駅
・ご利用日
・時刻
・列車名
・列車種別
・人数
・定期種別
・定期期間

同時に、以下の例に示すように、各状態に対応する表示すべき入力項目の関連付けを行う。
＜状態と表示すべき入力項目の関連付けの例＞
・時刻検索入力中＝｛出発駅、到着駅、ご利用日、時刻、列車名、列車種別｝
・定期検索入力中＝｛出発駅、到着駅、定期種別、定期期間｝

次に、「（２）システムの対話履歴ログから現在の対話状態を判別するモデルを作成する手順」について説明する。

まず、ログから現在の対話状態を推定する対話状態判別モデル１３を作成する。対話情報解析部１５が、オペレータへの転送発生時にそのモデルを用いて、実行時のサービス開始から転送直前までのログより現在の対話状態を算出する。

ここでは例として、現在の対話状態Ｓ（ｔ）を、時刻ｔから遡って直近の２回分の応答文ＩＤと現在より一つ前の対話状態Ｓ（ｔ−１）より推定する対話状態判別モデル１３を作成する。時刻ｔにおける応答文ＩＤをＲｅｓＩＤ（ｔ）、現在の対話状態を推定する関数をＦとすると、
Ｓ（ｔ）＝Ｆ（ＲｅｓＩＤ（ｔ），ＲｅｓＩＤ（ｔ−１），Ｓ（ｔ−１））
と表せる。
ここで、
Ｐｒ（Ｓｉ｜ＲｅｓＩＤ（ｔ），ＲｅｓＩＤ（ｔ−１））：対話ログ履歴より求められた、時刻ｔにおける応答文ＩＤがＲｅｓＩＤ（ｔ），時刻ｔ−１における応答文ＩＤがＲｅｓＩＤ（ｔ−１）であるときの、対話状態がＳｉである確率。
Ｐｒ（Ｓｉ｜ＲｅｓＩＤ（ｔ））：対話ログ履歴より求められた、時刻ｔにおける応答文ＩＤがＲｅｓＩＤ（ｔ）であるときの、対話状態がＳｉである確率。
対話ログ履歴より推定する関数Ｆの例としては、図４のフローチャートに示すような関数を考える。

図４では、ステップＳ１１において、Ｐｒ（Ｓｉ｜ＲｅｓＩＤ（ｔ），ＲｅｓＩＤ（ｔ−１））＞０となるＳｉが存在するかを判断し、そのようなＳｉが存在する場合は、ステップＳ１２において、Ｐｒ（Ｓｉ｜ＲｅｓＩＤ（ｔ），ＲｅｓＩＤ（ｔ−１））が最大となるＳｉを出力とし、処理を終了する。

ステップＳ１１の判断がＮｏの場合は更に、
Ｐｒ（Ｓｉ｜ＲｅｓＩＤ（ｔ））＞０となるＳｉが存在するかどうかを判断し（ステップＳ１３）、そのようなＳｉが存在すれば、Ｐｒ（Ｓｉ｜ＲｅｓＩＤ（ｔ））が最大となるＳｉを出力とし、処理を終了する。

ステップＳ１３の判断がＮｏの場合、ステップＳ１５において、一つ前の対話状態Ｓ（ｔ−１）を現在の対話状態Ｓ（ｔ）として処理を終了する。

以上、図４で示した対話状態判別モデル１３の動作例は以下のようになる。

＜動作例１＞
Ｐｒ（状態１｜ＲｅｓＩＤ（ｔ），ＲｅｓＩＤ（ｔ−１））＝０．５、
Ｐｒ（状態２｜ＲｅｓＩＤ（ｔ），ＲｅｓＩＤ（ｔ−１））＝０．３、
Ｐｒ（状態３｜ＲｅｓＩＤ（ｔ），ＲｅｓＩＤ（ｔ−１））＝０．２の場合、
ｍａｘ（０．５，０．３，０．２）＝０．５なので、Ｓ（ｔ）＝状態１となる。

＜動作例２＞
Ｐｒ（Ｓｉ｜ＲｅｓＩＤ（ｔ），ＲｅｓＩＤ（ｔ−１））＞０となるＳｉが存在せず、
Ｐｒ（状態１｜ＲｅｓＩＤ（ｔ））＝０．２、
Ｐｒ（状態２｜ＲｅｓＩＤ（ｔ））＝０．７、
Ｐｒ（状態３｜ＲｅｓＩＤ（ｔ））＝０．２の場合、
ｍａｘ（０．２，０．７，０．２）＝０．７なので、Ｓ（ｔ）＝状態２となる。

一般的には、作成する対話状態判別モデル１３は、サービス開始時刻をｔ０、現在時刻をｔ、現在の対話状態をＳ（ｔ）、現在の対話状態を推定する関数をＦとすると、
Ｓ（ｔ）＝Ｆ（時刻ｔ０から時刻ｔまでのログ，時刻ｔ０から時刻ｔまでの対話状態）と表すことができる。先の例では、Ｆの入力パラメータは、ＲｅｓＩＤ（応答文ＩＤ）と過去の状態Ｓであったが、これに利用者の発話の認識結果などを追加することなども考えられる。また、対話状態判別モデル１３は、先の例のように既存のログから学習を行う統計モデルでもよいし、後述するようなルールベースであってもよい。

次に、「（３）前述した手順（１）、（２）を用いてオペレータ転送発生時に現在の対話状態を推定し、遷移図上で現在の対話状態を強調表示する手順」について説明する。

対話情報表示部１６はシステムの利用開始から終了までの流れを表す対話状態図を表示する。ここで、（２）で作成した対話状態判別モデル１３と対話履歴ログ１２から対話情報解析部１５が出力した現在の対話状態を、状態図上で強調して表示する。この表示例を図５に示す。図５の例の場合、利用者は現在、「時刻検索入力中」４３が強調表示（図では白抜きで表示）されているので、現時点（オペレータに転送された時点）の状態が、「時刻検索入力中」での状態であることが容易に判断できる。また、現在の状態に、「サービス開始」４１と「サービス選択中」４２を経由して至ったことも経由した状態が強調表示（図では太枠で表示）され、容易に判断できる。更に、画面下部の入力済み項目から、「出発駅」５１、「ご利用日」５３、「時刻」５４が既に入力済みであることも判断できる。

一方、対話状態判別モデル１３の結果からでは、現在の対話状態があいまいである場合、すなわち図４のステップＳ１２またはＳ１４において、最大確率が同じまたはほぼ同じである複数のＳｉが見つかった場合は、候補となる状態を強調表示する。これを図６の例で示す。図６の例では、対話状態が時刻検索入力中４３と始発検索入力中４４のどちらであるのか、あいまいである様子を表している。

次に、「（４）オペレータ転送発生時に、入力済みの項目に対して、対話履歴ログ１２を用いて、その信頼度を計算し、信頼度に応じて色を変えて表示する手順」について説明する。

各入力済みの項目に対して、過去の入力履歴と共に、対話履歴ログ１２に含まれる音声認識エンジンのスコア、各入力済みの項目の更新回数、対話状態の履歴などから信頼度を算出し、算出された信頼度により表示する。

入力済みの項目の信頼度の定義は、アプリケーションにより異なるが、ここでは、音声対話部１１が提供する音声認識のスコア、入力済みの項目の更新履歴、対話状態の履歴より求めることとし、以下の４段階とする。

＜入力済み項目の信頼度の定義＞
初期値として入力済み：初期値としてシステムにより入力されている。
入力済み（信頼度低）：音声認識のスコアが閾値以下である。または、入力済みの項
目が直近のＮ発話において、一定回数以上更新されている。
入力済み（信頼度高）：音声認識のスコアが閾値以上である。
確認済み：指定された情報が確認済みである。

ここで「情報が確認済みである」とは、音声対話部１１の実行中に、「指定された情報に対して確認を行うプロセス」が存在し、利用者により確認が行われた状態を指す。

以下に示す対話例３および対話例４では、音声による列車案内を提供するアプリケーションにおいて、「指定された情報に対して確認を行うプロセス」として「終電検索のための発着駅を確認する」というプロセスが存在し、「出発駅」と「到着駅」は、利用者により確認が行われている。一方、別の発話により入力された「利用日：今日」、システムが初期値として入力した「列車種別：新幹線」、「列車名：のぞみ」は音声対話部１１が確認済みではない。

システムに音声入力された情報の対話履歴ログ１２から、既に入力された情報の信頼度を算出し、各々の情報を信頼度に従って表示する。図７、図８では、信頼度を色により表示している（緑：初期値として入力済み、黄色：入力済み（信頼度低）、白色：入力済み（信頼度高）、水色：確認済み）としている例である（ただし、図中では、緑色、黄色、白色、水色はそれぞれ異なるハッチングで表現している）。

＜対話例３＞
システム：列車案内です。ご用件をどうぞ。
利用者：東京から神戸までの終電を知りたいんだけど。
システム：東京から神目までの終電でよろしいですか？
利用者：神戸までにして。
システム：東京から神目までの終電でよろしいですか？
利用者：神戸まで。
システム：東京から甲奴までの終電でよろしいですか？＜対話状態１＞

図７は、対話例３で対話状態１での対話状態を表示したものである。対話状態は「終電検索確認中」４６であり、入力済みの項目のうち、「出発駅」５１は信頼度高、「到着駅」５２は信頼度低、「ご利用日」５３、「列車名」５５、「列車種別」５６は初期値として入力済み、であることを表している。また、現在の対話状態「終電検索確認中」４６に至るまでの経路として、「サービス開始」４１、「サービス選択中」４２、「終電検索入力中」４５の各状態を経由したことが示されている。この例では、利用者の求める「到着駅」５２である「神戸」を、音声対話部１１は、「神目」、「神目」、「甲奴」と三度認識している（この例では、入力に対して認識された順に、文字の大きさを変化させて表示している）が、入力回数から誤認識の可能性が高いため、信頼度低として表示されている。この例では、音声対話部１１は、音声認識の信頼度が低くなったので、応答不能と判断し、利用者からの呼をオペレータに転送する。

＜対話例４＞
システム：列車案内です。ご用件をどうぞ。
利用者：東京から大阪までの終電を知りたいんだけど。
システム：東京から大阪までの終電でよろしいですか？
利用者：はい。
システム：ご利用日は今日でよろしいですか？
利用者：明日でお願いします。
システム：ご利用日は明日、新幹線、のぞみのご利用でよろしいですか？
利用者：オペレータに代わってくれますか？＜対話状態２＞

図８は、対話例４で対話状態２での対話状態を表示したものである。対話状態は、図７同様、「終電検索確認中」４６であり、入力済みの項目のうち、「出発駅」５１、「到着駅」５２は確認済み、「ご利用日」５３は信頼度高、「列車名」５５、「列車種別」５６は初期値として入力済み、であることを表している。この例では、音声対話部１１は、利用者の要求で自動応答が不能になったとして、呼をオペレータに転送する。

これ以外にも、信頼度の表示方法としては、信頼度の低い項目を太枠で強調表示するなど様々な方法が考えられる。これにより、オペレータは、音声認識で失敗した可能性の高い場所を知ることや、既に入力済みの項目に対して確認済みの項目を知ることが可能となる。

最後に、「（５）オペレータ転送発生時に、入力済みの項目に対して、対話履歴ログを用いて、入力履歴を取得し、過去Ｎ回（Ｎ＞１）の履歴に対して、時間的に古いものに関しては、文字サイズを小さく変えて表示する手順」について説明する。

ある入力項目に対して誤認識の訂正などのために複数回入力が行われた場合は、図７の到着駅の項目で示したように、過去Ｎ回までの入力履歴を表示する。表示される入力項目は、過去のものであればあるほど小さく表示される。Ｎは表示領域などの制限などに応じて、適切に設定されるものとする。

＜対話状態判別モデルの別の例＞
以下、ルールベースの対話状態判別モデル１３の例を示す。ルールベースの対話状態判別モデル１３では、関数Ｆは対話状態を決定するルールによりＳ（ｔ）を得る。以下では単純な例として、転送発生時ｔの応答文ＩＤ（ＲｅｓＩＤ（ｔ））、時刻ｔ−１の対話状態Ｓ（ｔ−１）から、転送発生時の対話状態Ｓ（ｔ）を得るものを紹介する。図９は、転送発生時の応答文ＩＤと対応する応答文、およびそのときの対話状態の関係を表で表したものである。

ルールベースの対話状態判別モデル１３における関数Ｆの動作を図１０に示す。関数Ｆは、転送発生時刻ｔにおける応答文ＩＤ（ＲｅｓＩＤ（ｔ））に対して、上記表で表される関係をルールとして用い、対話状態Ｓ（ｔ）を決定する（ステップＳ６１〜Ｓ６５）。入力された応答文ＩＤが上記表中に存在しない場合、ステップＳ６５に示すように、対話状態Ｓ（ｔ）は、Ｓ（ｔ−１）となる（ただし、Ｓ（０）すなわち初期対話状態は事前に与えられるものとする）。また例えば、転送発生時の応答文ＩＤ（ＲｅｓＩＤ（ｔ））が“２”であった場合は（ステップＳ６３）、図９の表により、関数Ｆにより出力される対話状態Ｓ（ｔ）は“料金検索入力中”となる。

本発明は、ハードウエア、ソフトウエア、またはハードウエアおよびソフトウエアの組み合わせとして実現可能である。ハードウエアとソフトウエアの組み合わせによる実施では、所定のプログラムを有するコンピュータ・システムでの実施が典型的な例として挙げられる。かかる場合、該所定プログラムが該コンピュータ・システムにロードされ実行されることにより、該プログラムは、コンピュータ・システムに本発明にかかる処理を実行させる。このプログラムは、任意の言語、コード、または表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接実行すること、または（１）他の言語、コード、もしくは表記への変換、（２）他の媒体への複製、のいずれか一方もしくは双方が行われた後に、実行することを可能にするものである。もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体を含むプログラム製品もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ、ハード・ディスク装置、ＲＯＭ、ＭＲＡＭ、ＲＡＭ等の任意のコンピュータ可読媒体に格納することができる。かかるプログラムは、コンピュータ可読媒体への格納のために、通信回線で接続する他のコンピュータ・システムからダウンロードしたり、他の媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、または複数に分割して、単一または複数の記録媒体に格納することもできる。

以上、本発明を好適な実施形態、および実施例を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲に限定されるものではない。上記実施形態に多様な変更または改良を加えることが可能である。また、そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

本発明の好適な一つの実施形態に係る機能ブロック図を示す図である。本発明の好適な一つの実施形態に係る音声対話システムのサービスの中の位置づけを示すブロック図である。本発明の好適な一つの実施例における対話状態および入力項目の表示例を示す図である。本発明の好適な一つの実施例における対話状態判別モデルの例を示すフローチャート図である。本発明の好適な一つの実施例における現在の対話状態を強調表示している例を示す図である。本発明の好適な一つの実施例における現在の対話状態があいまいである様子を表示している例を示す図である。本発明の好適な一つの実施例における対話例３の対話状態１における対話状態を示す図である。本発明の好適な一つの実施例における対話例３の対話状態２における対話状態を示す図である。本発明の好適な一つの実施例における応答文ＩＤから対話状態を決定するルールを示す表である。本発明の好適な一つの実施例におけるルールによる対話状態判別モデルの例を示すフローチャート図である。

符号の説明

１音声対話システム
２ａ電話機
２ｂパソコン
３回線制御部
４オペレータ端末選択部
５ａ、５ｂ、５ｃオペレータ端末
１０利用者
１１音声対話部
１２対話履歴ログ
１３対話状態判別モデル
１４対話状態図定義ファイル
１５対話情報解析部
１６対話情報表示部
１７オペレータ
２１対話状態遷移図の例
２２入力項目

Claims

利用者からの音声による問い合わせに応答する音声対話システムであって、
前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話部と、
前記音声対話部と前記利用者の対話内容を記憶する対話履歴ログと、
各対話状態と少なくとも表示に関する情報とを定義づける対話状態図定義ファイルと、
現在の対話状態を、サービス開始時刻から現在時刻までの対話履歴ログと前記サービス開始時刻から前記現在時刻までの対話状態とに応じて判別するための対話状態判別モデルと、
前記音声対話部が応答不能と判断したことに応じて、前記対話履歴ログおよび前記対話状態判別モデルに基づいて前記利用者と前記音声対話部との現在の対話状態を推定する対話情報解析部と、
前記対話状態図定義ファイルに応じた対話状態図が表示され、該対話状態図に前記推定した対話状態を視覚的にオペレータに提示する対話状態表示部と、
を備える音声対話システム。
前記対話履歴ログは、前記利用者との対話内容として、サービス開始からオペレータ転送発生までの音声認識結果、前記音声認識結果に対する信頼度、前記音声認識結果の入力済みとなった項目、応答文またはそのＩＤ、サービスの開始、およびサービス終了のうち少なくともいずれか一つを含む、請求項１に記載の音声対話システム。
前記対話状態図定義ファイルは、各対話状態とその表示のための配置情報、表示対象となる入力項目、および各対話状態において表示すべき入力項目を定義する、請求項１に記載の音声対話システム。
前記対話状態判別モデルは、前記対話履歴ログから現在の対話状態を推定するための経験的なデータの集合またはアルゴリズムの集合を含む、請求項１に記載の音声対話システム。
前記対話情報解析部は、前記利用者の入力済みの項目の信頼度の計算、および、入力履歴の推定を行う、請求項１に記載の音声対話システム。
前記対話状態表示部は、前記対話状態図の上で前記現在の対話状態を強調表示する、請求項１に記載の音声対話システム。
前記対話状態表示部は、前記利用者の入力済みの項目に対して、前記対話履歴ログを用いて前記音声対話部の音声認識結果の信頼度を取得し、前記信頼度に応じて色を変えて表示する、請求項１に記載の音声対話システム。
前記対話状態表示部は、前記利用者の入力済みの項目に対して、前記対話履歴ログを用いて前記利用者の入力履歴を取得し、前記入力履歴の順に応じて文字サイズを変えて表示する、請求項１に記載の音声対話システム。
利用者からの音声による問い合わせに応答する音声対話のための方法であって、
前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話ステップと、
前記音声対話ステップにおける前記利用者のとの対話履歴を対話履歴ログに記憶する対話履歴ログ記憶ステップと、
前記音声対話ステップにおいて応答不能と判断したことに応じて、前記対話履歴ログと、現在の対話状態を、サービス開始時刻から現在時刻までの対話履歴ログと前記サービス開始時刻から前記現在時刻までの対話状態とに応じて判別するための対話状態判別モデルと、に基づいて前記利用者の前記音声対話ステップにおける現在の対話状態を推定する対話情報解析ステップと、
各対話状態と少なくとも表示に関する情報とを定義づける対話状態図定義ファイルに応じた対話状態図を表示して、該対話状態図に前記推定した対話状態を視覚的にオペレータに提示する対話状態表示ステップと、
を含む方法。
前記対話履歴ログは、前記利用者の問い合わせ内容として、サービス開始からオペレータ転送発生までの音声認識結果、前記音声認識結果に対する信頼度、前記音声認識結果の入力済みとなった項目、応答文またはそのＩＤ、サービスの開始、およびサービス終了のうち少なくともいずれか一つを含む、請求項９に記載の方法。
前記対話状態図定義ファイルは、各対話状態とその表示のための配置情報、表示対象となる入力項目、および各対話状態において表示すべき入力項目を定義する、請求項９に記載の方法。
前記対話状態判別モデルは、前記対話履歴ログから現在の対話状態を推定するための経験的なデータの集合またはアルゴリズムの集合を含む、請求項９に記載の方法。
前記対話情報解析ステップは、前記利用者の入力済みの項目の信頼度の計算、および、入力履歴の推定を行う、請求項９に記載の方法。
前記対話状態表示ステップは、前記対話状態図の上で前記現在の対話状態を強調表示する、請求項９に記載の方法。
利用者からの音声による問い合わせに応答する音声対話のためのコンピュータ・プログラムであって、
前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話ステップと、
前記音声対話ステップにおける前記利用者との対話履歴を対話履歴ログに記憶する対話履歴ログ記憶ステップと、
前記音声対話ステップにおいて応答不能と判断したことに応じて、前記対話履歴ログと、現在の対話状態を、サービス開始時刻から現在時刻までの対話履歴ログと前記サービス開始時刻から前記現在時刻までの対話状態とに応じて判別するための対話状態判別モデルとに基づいて、前記利用者の前記音声対話ステップにおける現在の対話状態を推定する対話情報解析ステップと、
各対話状態と少なくとも表示に関する情報とを定義づける対話状態図定義ファイルに応じた対話状態図を表示して、該対話状態図に前記推定した対話状態を視覚的にオペレータに提示する対話状態表示ステップと、
をコンピュータに実行させる、コンピュータ・プログラム。
前記対話履歴ログは、前記利用者との対話内容として、サービス開始からオペレータ転送発生までの音声認識結果、前記音声認識結果に対する信頼度、前記音声認識結果の入力済みとなった項目、応答文またはそのＩＤ、サービスの開始、およびサービス終了のうち少なくともいずれか一つを含む、請求項１５に記載のコンピュータ・プログラム。
前記対話状態図定義ファイルは、各対話状態とその表示のための配置情報、表示対象となる入力項目、および各対話状態において表示すべき入力項目を定義する、請求項１５に記載のコンピュータ・プログラム。
前記対話状態判別モデルは、前記対話履歴ログから現在の対話状態を推定するための経験的なデータの集合またはアルゴリズムの集合を含む、請求項１５に記載のコンピュータ・プログラム。
前記対話情報解析ステップは、前記利用者の入力済みの項目の信頼度の計算、および、入力履歴の推定を行う、請求項１５に記載のコンピュータ・プログラム。
前記対話状態表示ステップは、前記対話状態図の上で前記現在の対話状態を強調表示する、請求項１５に記載のコンピュータ・プログラム。
利用者からの音声による問い合わせに応答する音声対話のためのコンピュータ・プログラムが記録されたコンピュータ可読媒体であって、
コンピュータを、
前記利用者からの音声を認識して前記問い合わせに対する応答を行う音声対話コード手段と、
前記音声対話コード手段における前記利用者との対話履歴を対話履歴ログに記憶する対話履歴ログ記憶コード手段と、
前記音声対話コード手段において応答不能と判断したことに応じて、前記対話履歴ログと、現在の対話状態を、サービス開始時刻から現在時刻までの対話履歴ログと前記サービス開始時刻から前記現在時刻までの対話状態とに応じて判別するための対話状態判別モデルとに基づいて、前記利用者の前記音声対話コード手段における現在の対話状態を推定する対話情報解析コード手段と、
各対話状態と少なくとも表示に関する情報とを定義づける対話状態図定義ファイルに応じた対話状態図を表示して、該対話状態図に前記推定した対話状態を視覚的にオペレータに提示する対話状態表示コード手段と、
して機能させるための前記コンピュータ・プログラムを記録した、コンピュータ可読媒体。