JP2005181386A

JP2005181386A - 音声対話処理装置及び音声対話処理方法並びにプログラム

Info

Publication number: JP2005181386A
Application number: JP2003417909A
Authority: JP
Inventors: Koichi Tanigaki; 宏一谷垣; Keisuke Watanabe; 圭輔渡邉; Katsushi Suzuki; 克志鈴木
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-12-16
Filing date: 2003-12-16
Publication date: 2005-07-07

Abstract

【課題】従来の入力音声の抽出情報信頼度から抽出誤りを検出し確認動作等を低減する装置は、音声認識尤度だけで信頼度を求めるため、システム設計時と条件が異なると適切な信頼度計算での誤り特定ができない。
【解決手段】入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解部と、意味項目の信頼度を計算する信頼度計算部と、意味項目信頼度補正用の補正パラメータと、信頼度から意味項目の補正信頼度を計算する信頼度補正部と、補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理部と、対話履歴データを用いて、前記補正パラメータを更新する補正パラメータ調整部を備える。
【選択図】図１

Description

本発明は、マン・マシン・インタフェースとして音声認識を利用する対話処理装置に係り、特に利用者の入力音声から抽出した情報の信頼度を用いて、情報の抽出誤りを高精度に検出することにより、対話装置の誤動作や冗長な確認動作を低減し、利用者の利便性を向上させる音声対話処理装置及び音声対話処理方法並びに該音声対話処理をコンピュータに実行させるプログラムに関するものである。

ユーザと音声で対話を行い、データベース検索やチケット予約などのタスクを行う音声対話システムでは、日にちや料金などタスクに必要な情報（以下、意味項目と呼ぶ）を、ユーザの入力音声から抽出する必要がある。

図２は、ホテル予約をタスクとする音声対話システムが抽出した意味項目の例である。こうした意味項目の抽出は、入力音声を文字列に変換する音声認識処理を介して実現されるが、音声認識結果には誤りが避けられないため、意味項目を常に正しく抽出することはできない。同図の例では、入力音声において「東横イン横浜関内」の部分を誤認識したため、ユーザの意図に反し、誤った意味項目「人数=5」「場所=横浜」が抽出されている。

こうした意味項目の誤りをそのまま受理してしまうと、システムとユーザの間で誤解が生じ、タスク達成に重大な支障を来たすことがある。そこで一般に音声対話システムでは、抽出した意味項目を復唱してシステムの理解状態をユーザに開示することにより、システムの誤りをユーザが訂正するように誘導する。あるいは、システムが正しく理解していることをユーザに伝えることで、ユーザの不安感をなくす。これを確認対話と呼ぶ。

確認対話には大別して2種類の方法がある。1つは間接確認と呼ばれる方法である。これは例えば図２の意味項目を抽出したとき、「横浜で5人で1泊ご利用できる宿泊施設は、○○ホテル、××ホテルなど20件あります。料金のご希望はございますか？」などのように、検索結果の通知や、ユーザの次入力の誘導などを行う応答文に埋め込んで、抽出した意味項目を復唱する方法である。もう1つは直接確認と呼ばれる方法である。システムは「人数は5人でよろしいですか？」「場所は横浜でよろしいですか？」などの質問をしてユーザの肯定や否定を明示的に求める。否定された場合には、更にユーザの訂正や再発声を誘導する。

これらの確認方法には、次のような性質がある。

間接確認を図３に示すように、正しく抽出した意味項目に適用した場合、円滑さをあまり損なわずに本来のタスクを遂行するための対話を進行できる。しかし、図４に示すように、誤った意味項目に適用した場合、ユーザは意図しない検索結果などを聞かされた後、誤りを訂正して検索などをやり直すことになるため、ユーザにとって煩わしい対話となる。

一方、図６に示すように、誤って抽出した意味項目に直接確認を適用した場合、ユーザは訂正のための対話に即座かつ自然に入れるため、間接確認に比べて煩わしさは小さくて済む。しかし、図５に示すように、正しく抽出した意味項目に適用した場合、タスクの進行が遮られるため、ユーザにとって煩わしい対話となってしまう。

したがって、利便性の高い音声対話システムを実現するためには、一律にいずれかの確認方法を適用するのではなく、意味項目の正誤を推定し、確認方法を切り替える必要がある。
（従来方式1）

そこで従来、抽出した意味項目の確からしさを表わす信頼度を求め、信頼度に応じて確認対話の制御を行う音声対話方式として、下記文献１に示された方式がある（以後、従来方式１と呼ぶ）。
文献１： "Incorporating confidence measures in the Dutch train timetable information system developed in ARISE project" (G。 Bouwman， J． Sturm， and L． Boves，Proc． ICASSP99， pp． 493-496， 1999)

図３４は、この従来方式1を適用した音声対話処理装置の一構成例を示すブロック図である。以下、同図を用いて、従来方式1の実施の形態について説明する。

音声理解部10はユーザの入力音声を受け取り、音声認識処理と意味理解処理を行うことにより、尤もらしい意味項目の候補を、予め設定した候補数N個生成し、意味項目候補データとして信頼度計算部20に送る。図２に示す入力音声から生成される意味項目候補データの例を図７に示す。図７において、人数=5、場所=横浜、などの意味項目は誤りであり、音声認識誤りに起因して抽出されたものである。図中の尤度は、音声認識処理により各認識候補に付与されたスコアを表している。

信頼度計算部20は、意味項目候補データを受け取り、順位1位の意味項目候補に含まれる各意味項目の信頼度を計算する。この計算法では、或る意味項目の信頼度は、その意味項目を含む候補の数が多いほど、更に、それら候補の尤度が高いほど、高い値となる。具体的には以下のようにして計算する。まず、意味項目候補の尤度を正規化する。第i位の候補の尤度をLiとすると、正規化後の尤度（事後確率）Piは数1より求める。式中、ZはN個の候補に対しPiの総和が1となるように導入する正規化係数であり、数2により与える。また、αは予め定めた重み係数（定数）である。式中のNは候補数を表す。

然る後、数3により各意味項目tの信頼度CMtを求める。式中、Tiは、第i位の仮説となる意味項目候補を表す。すなわち、意味項目tの信頼度CMtは、意味項目tを含む候補Tiの尤度和により与える。

この結果、図８に例示するような意味項目の信頼度データが得られる。これを対話管理部30に送る。

対話管理部30では、意味項目の信頼度を、予め設定した閾値0．5と比較する。信頼度が閾値より高い意味項目は正しい可能性が高いとして間接確認を行う。一方、閾値より低い意味項目は誤りの可能性が高いとして、正誤をユーザに直接確認するための応答文を生成する。例えば、図８の信頼度データに対しては、意味項目「場所=横浜」の正誤を直接確認するため、応答文として「場所は横浜でよろしいですか？」を生成する。これを受けたユーザが「はい」「そうです」などを入力した場合には該意味項目を受理するが、「いいえ」「違います」などを入力した場合には、該意味項目を棄却して「もう一度発声してください」などの応答文を生成する。生成された応答文は、音声合成部40で出力音声に変換され、ユーザに出力される。

このように構成された音声対話処理装置は、抽出された意味項目のうち、誤りの可能性が高い意味項目に絞り込んで直接確認を行うため、一律に直接確認または間接確認を行う方法と比べて円滑に対話を進めることが可能となる。

また、更に高い精度で意味項目の誤りを特定する従来方式として、特開2003-29782号公報に示された音声対話方式（以後、従来方式2と呼ぶ）がある。

図３５は、この従来方式2を適用した音声対話処理装置の一構成例を示すブロック図である。以下、同図を用いて従来方式2の実施の形態について説明する。なお、同図中、図３４と同じ番号を付与した構成要素は従来方式1のものと同等であるため、以下では説明を省略する。

関連度計算部50は、音声理解部10が出力する前記意味項目候補データを受け取り、意味項目間の関連度を計算する。或る2つの意味項目の関連度は、両者を共通に含む候補の数が多いほど、更に、それら候補の尤度が高いほど、高い値となる。例えば図７の意味項目候補データにおいて、意味項目「場所=横浜」を含む候補は順位が1位、4位の候補であり、「人数=5」を含む候補（1位、3位、4位）とほぼ共通するから、両意味項目の関連度は高い。このように関連度が高い２つの意味項目は、候補中での出現が互いに強く依存しているため、一方の意味項目が誤りであった場合、他方も同様に誤りである可能性が高い。

対話管理部31は、関連度計算部50と信頼度計算部20の結果を受け取り、関連度計算部50により互いに関連度の高い意味項目が見つかり、かつ、信頼度計算部20より一方の意味項目の信頼度が予め設定した閾値0．5より低かったとき、他方の意味項目の信頼度が閾値0．5以上であっても、同時に正誤を確認する。すなわち、「人数は5人で、場所は横浜でよろしいですか？」のような応答文を生成する。

補正信頼度計算部60は、対話管理部31から前記意味項目候補データ、および、既にユーザに確認を行った結果から誤りが確定している意味項目のリストとを受け取り、まだ確認していない意味項目の信頼度を再計算する。例えば図8において、まず、信頼度が閾値0．5より低い意味項目「場所=横浜」の正誤をユーザに確認した結果、ユーザが否定したため、誤りであることが確定したとする。このとき、補正信頼度計算部60は、誤りが確定した意味項目「場所=横浜」を含まない候補だけを用いて信頼度を再計算し、補正信頼度とする。その結果、「場所=横浜」とほぼ同じ候補だけに出現していた意味項目「人数=5」に対し、低い補正信頼度が得られる。対話管理部31は、補正信頼度が低い「人数=5」の正誤を確認するため、「では人数は5人でよろしいですか？」と応答文を生成する。

このように構成された音声対話処理装置は、意味項目の候補群中での共起情報を利用して、従来方式1では検出できない誤り意味項目を検出することにより、誤りの確認漏れを防ぎ、誤りをそのまま受理して誤動作することを防ぐことが可能となる。

特開2003-29782号公報 G．Bouwman，J．Sturm，and L． Boves，"Incorporating confidence measures in the Dutch train timetable information system developed in ARISE project" Proc．ICASSP99，1999，pp．493-496

しかし、上述した従来方式1、2では次のような課題がある。まず、従来方式1は、音声認識尤度だけを用いて信頼度を求める方式である。このため、ユーザの声質や発話内容、背景雑音、回線ノイズなどの条件がシステム設計時に想定した条件と異なる場合には、適切な信頼度を計算して誤りを特定することができず、確認や訂正のためのやり取りが増え、ユーザにとって煩わしい対話になるという問題がある。

また、従来方式2では、或る発話から抽出した複数の意味項目が誤りであった場合に限り、誤り意味項目どうしの共起情報を利用して誤り検出率を高めることが可能となる。逆に、発話から抽出した意味項目が1つだけ誤っている場合には、共起情報を利用した検出はできず、音声認識尤度だけを用いた信頼度で誤りを検出することになるため、従来方式１と同一の問題が生じる。

本発明は、上述のような課題を解決するためになされたもので、音声認識尤度だけに基づく信頼度や、意味項目の共起からは検出できない誤りを検出することにより、不必要な確認や訂正のためのやり取りを減らし、利用者の利便性を向上させる音声対話処理装置を得ることを目的とする。

本発明に係る音声対話処理装置は、入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解部と、
意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算部と、
意味項目の信頼度を補正するための補正パラメータを記憶する補正パラメータ記憶部と、
信頼度と補正パラメータから、意味項目の補正信頼度を計算する信頼度補正部と、
入力された個々の意味項目に対し、補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理部と、
対話履歴データを用いて、前記補正パラメータ記憶部に記憶された補正パラメータを更新する補正パラメータ調整部とを備える。

また、本発明に係る音声対話処理方法は、入力音声に対し音声認識処理と意味理解処理を行い、意味項目候補の抽出とその尤度計算を行う音声理解ステップと、
意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算ステップと、
信頼度と補正パラメータから、意味項目の補正信頼度を計算する信頼度補正ステップと、
入力された個々の意味項目に対し、補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を生成し、更にユーザとのやり取りを対話履歴データとして生成する対話管理ステップと、
対話履歴データを用いて、補正パラメータを更新する補正パラメータ調整ステップと
を備える。

また、本発明に係るプログラムは、入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解手段、
意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算手段、
意味項目の信頼度を補正するための補正パラメータを記憶する補正パラメータ記憶部からの補正パラメータと、前記信頼度計算手段からの信頼度とから、意味項目の補正信頼度を計算する信頼度補正手段、
入力された個々の意味項目に対し、前記信頼度補正手段からの補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理手段、
対話履歴記憶部に書き込まれた対話履歴データを用いて、前記補正パラメータ記憶部に記憶された補正パラメータを更新する補正パラメータ調整手段としてコンピュータを機能させる。

本発明に係る音声対話処理装置は、対話管理部による確認対話の結果を用いて意味項目の正誤を判定し、意味項目の信頼度を補正するための補正パラメータを更新するため、信頼度と実際の正誤のズレを最小化するよう補正するでき、従来方式である音声認識尤度だけに基づく信頼度や、意味項目の共起では検出できない誤りを検出して確認を行うことが可能であり、不必要な確認や訂正のためのやり取りを減らし、利用者の利便性を向上させる音声対話処理装置を得ることできる。

実施の形態１．
図１は、本発明の一実施の形態として、本発明を適用したホテルの検索と予約を行う音声対話処理装置の一構成例を示すブロック図である。
図において、10は（概要）
入力音声に対し、音声認識・理解処理を行い意味項目候補データを生成する音声理解部、20は意味項目候補データを受け取り、その順位1位の意味項目候補に含まれる各意味項目の信頼度を計算し、信頼度データを得る信頼度計算部、90は意味項目の信頼度を補正するための補正パラメータを記憶する補正パラメータ記憶部、61は信頼度データを受け取り、前記補正パラメータ記憶部90が保持する補正パラメータを参照して、各意味項目の補正信頼度を計算する信頼度補正部、71は後述の対話管理部33により対話履歴が更新されたときその内容71を保管する対話履歴記憶部、80は同じく対話履歴が更新されたとき、対話履歴記憶部71の内容71を参照し、補正パラメータ記憶部90に記憶された補正パラメータを再計算し、更新する補正パラメータ調整部、110は名称、住所、最寄り駅、料金等のホテル情報を保持するホテルデータベース、33は信頼度補正部61から補正信頼度データを受け取り、対話状況記憶部100の対話状況データと、ホテルデータベース110を参照して、ユーザに出力する応答文を生成すると共に、対話状況記憶部100の対話状況データと対話履歴記憶部71の対話履歴データの更新を行なう対話管理部、100は対話管理部33より書き込まれた対話状況データを保持する対話状況記憶部、40は対話管理部33からの応答文を、音声に変換してユーザに出力する音声合成部であり、音声対話処理装置は以上の要素から構成される。

まず、このように構成された該音声対話処理装置の動作概略を、図９を参照して説明する。同図は、該音声対話処理装置（システム）とユーザとの対話例を示すものである。S1、S2、などはシステムの出力した応答文である。U1、U2、などはユーザの入力音声である。ただし、誤認識が生じるため、認識結果と入力音声は必ずしも一致しない。”>>”で始める行は、音声理解部10において尤度1位で得られる意味項目、および、信頼度計算部20で得られる信頼度(CM)、信頼度補正部61で得られる補正信頼度(RCM)を示している。

意味項目の補正信頼度は、信頼度を元に計算する。計算に用いるパラメータは、日にち、人数など、意味項目の属性ごとに用意されている。これらのパラメータは、システムが確認を行った結果に基づいて設定・更新されるようになっている。

確認は、直接確認、間接確認のいずれかにより行う。システムは、補正信頼度を予め設定された閾値θ=0．40と比較し、θより低いときには意味項目が誤っている可能性が高いとして、S1、S9のように直接確認を行う。補正信頼度がθ以上のときはS3、S5、S7のように間接確認を行う。

補正信頼度計算のパラメータ更新は次のようにして行う。ある意味項目の正誤をユーザに確認し、ユーザの応答から該意味項目が正しく抽出できていたと判断すると、以後、同じ属性の意味項目に対しては、より高い補正信頼度が計算されるようにパラメータを調整する。逆に、ユーザの応答から該意味項目が誤って抽出されたものと判断すると、以後、同じ属性の意味項目に対しては、より低い補正信頼度が計算されるようにパラメータを調整する。

図では、対話開始時点のU1で、日にちの補正信頼度が閾値θより低いため直接確認を行うが、U2から日にちが正しく抽出できていることがわかる。そこで、以後は日にちの補正信頼度が高く計算されるようにパラメータが調整される。その結果、U3〜S3のように、正しく抽出した日にちに関して、元の信頼度が低く、従来方式1、2では直接確認を行ってしまうような場合でも、直接確認を行うことなく円滑に対話を進めることが可能になる。

また、U4では、人数の補正信頼度が閾値θより高いため、システムは確認を間接確認に留めてホテルの検索を進めようとするが、U5でユーザが訂正するため、誤っていたことがわかる。そこで、以後は人数の補正信頼度が低く計算されるようにパラメータが調整される。その結果、U6で再度人数を誤って抽出した場合のように、元の信頼度が高いため従来方式1では誤りとして検出できない意味項目に対しても、直接確認を行い、誤りの訂正を誘導することができる。なお、従来方式2を用いても、U6の発話から抽出された意味項目の誤りは高々１つであるため、この誤りを検出することはできない。

次に、図１に示す各構成要素の動作について説明する。

まず、音声理解部10の動作について説明する。音声理解部10は、装置に入力されたユーザの入力音声に対し、音声認識・理解処理を行うことで、意味項目の候補とそれらの尤度からなる意味項目候補データを生成し、後述する信頼度計算部20に送る。

図１０は、音声理解部10の一構成例を示す図である。以下、同図を用いて該音声理解部10の動作を詳細に説明する。音響分析部10aは、入力音声の音響分析を行い、得られた特徴ベクトルの時系列を音声認識部10bに送る。音声認識部10bは、この特徴ベクトルの時系列に対し認識処理を施すことで、尤度の高い単語列を5種類生成し、尤度と共に言語理解部10cに送る。言語理解部10cは、受け取った5種類の単語系列それぞれに対し、意味解析を行うことで意味項目の組み合わせを生成する。得られた意味項目の組み合わせと認識処理で得られた尤度とを、図７に示す意味項目候補データとして出力する。

前記言語理解部10cによる意味解析は、一例として図１１にその一部を示す意味項目抽出ルールを適用して行ってもよい。同図は属性が「日にち」「人数」「泊数」「客室タイプ」「発話タイプ」の意味項目に対し、属性値を抽出するためのルールである。各ルールの左辺は意味項目の属性（「人数」など）を表す。右辺は‘|’で区切られた複数のパタン（「一人」など）と属性値（‘@’に後続する「1」など）を定義したものである。単語系列をこれらのパタンとの照合し、合致したパタンに対応する属性値を用いて意味項目を生成する。例えば、単語列「ゴールデンウィーク/の/五/月/五/日/頃/に/… 」に対して「日にち」のルールを適用すると、パタン「五月五日」に合致することから、意味項目「人数=5」が抽出される。

音声理解部10の処理結果としては、図７に示すような意味項目候補データが出力される。

信頼度計算部20は、意味項目候補データを受け取り、順位1位の意味項目候補に含まれる各意味項目の信頼度を計算する。ただし、属性が発話タイプの意味項目は、後述する対話管理部33の基本動作を決定するためのものであり、曖昧性を持たせると処理が煩雑化するため、常に確定値として扱い、信頼度を求めない。

信頼度計算部20の動作の詳細は、従来方式1の説明で述べたとおりであるため、説明を省略する。信頼度計算部20により、図８に例示するような意味項目の信頼度データが得られる。これを信頼度補正部61に送る。

次に、補正パラメータ記憶部90について説明する。
補正パラメータ記憶部90は、後述の補正パラメータ調整部80より書き込まれた補正パラメータを保持する。この補正パラメータは、後述の信頼度補正部61により読み出され、補正信頼度の計算に用いられる。図１２は、補正パラメータ記憶部90が保持する補正パラメータの一例を示す図である。図中の属性とは、意味項目の属性を表している。

次に、信頼度補正部61の動作について説明する。
信頼度補正部61は、前記信頼度計算部20から図８に例示した信頼度データを受け取り、前記補正パラメータ記憶部90が保持する補正パラメータを参照して、各意味項目の補正信頼度を計算する。補正信頼度は一例として、数４に示すシグモイド関数により求める。式中のパラメータa、bとしては、図１２に例示した補正パラメータのリストから、補正信頼度を求めようとする意味項目の属性に応じた値を読み出して用いる。計算した補正信頼度と、元の信頼度と、意味項目とを合わせ、補正信頼度データとして、後述する対話管理部33に送る。

次に、対話状況記憶部100について説明する。
対話状況記憶部100は、後述する対話管理部33より書き込まれた対話状況データを保持する。図１３に対話状況データの一例を示す。

図中の四角枠はスロット（変数）を表している。うち、波線より上の8段のスロットは、意味項目の属性に対応している。例えば「日にち」スロットの値は、ユーザの入力音声から意味項目「日にち=5月5日」が信頼度0．42、補正信頼度0．38で抽出されたことを表している。また確認状態の「承認待ち（直接）」とは、意味項目の正誤を直接確認するため、システムがユーザに質問し、現在ユーザの肯定、否定などの回答を待っていることを表している。直前の確定属性値「5月4日」は、日にちの属性値に「5月5日」が指定される前には、「5月4日」が入っており、かつ、確認状態が「確定」であったことを表している。スロット名に＊印が付いているものは必須スロットであり、ホテルを予約するためには該スロットの属性値が必須であることを表している。

一方、最下段の「予約状況」スロットは、対話管理部33で対話の終了判定に用いるためのもので、意味項目とは対応していない。該スロットは、対話開始時点では空になっており、ホテルの予約が行われると、値「完了」が書き込まれる。

次に、ホテルデータベース110について説明する。
該ホテルデータベース110は、後述する対話管理部33が検索するためのホテル情報を保持する。図１４に該ホテルデータベース110が保持するホテル情報の一例を示す。
（音声合成部40）

音声合成部40は、後述する対話管理部33から受け取る応答文を、音声に変換してユーザに出力する。

次に、対話履歴記憶部71について説明する。
対話履歴記憶部71は、後述の対話管理部33により書き込まれる対話履歴を記憶する。図１５は、対話履歴の一部を示す例である。対話IDは、システムがこれまで行ってきた対話に対しシステムが付与した通し番号である。一連の処理対話には同じ対話IDが付与される。

次に、対話管理部33の動作について説明する。
対話管理部33は、信頼度補正部61から補正信頼度データを受け取り、対話状況記憶部100の対話状況データと、ホテルデータベース110のホテルデータを参照して、ユーザに出力する応答文を生成する。生成した応答文は音声合成部40に送る。また、対話状況記憶部100の対話状況データ（図１３）と対話履歴記憶部71の対話履歴データ（図１５）の更新を行なう。

図１６は、対話管理部33の動作処理の例を示すフローチャートである。以下、同図を参照して対話管理部33の動作を詳細に説明する。

ステップS0では、対話管理部33は信頼度補正部61から音声理解部10よりの入力音声に対する補正信頼度データとして、意味項目と、その信頼度、補正信頼度を受け取る。

ステップS1では、信頼度補正部61から受け取った補正信頼度データに基づいて、図１３に示す対話状況データの現在のスロット値を参照しながら、スロット値を更新する。
ステップS1の動作処理の一例を図１７のフローチャートに示す。以下、同図を参照してステップS1の動作を詳細に説明する。

ステップS1-1は繰り返し処理の終了判定を行なう。もし、補正信頼度データに含まれる全ての意味項目について、後述のステップS1-2からS1-6の処理が終了したら、ステップS1-7に進む。そうでなければ、ステップS1-2に進み、ステップS1-6までの処理を繰り返す。

まず、ステップS1-2で、補正信頼度データに含まれる意味項目tを１つ取り出す。次に、ステップS1-3で、該意味項目tの属性について、対話状況データ（図１３）の確認状態スロットを調べる。確認状態が「確定」であればステップS1-4に進む。そうでなければステップS1-5に進む。

ステップS1-4では、該意味項目tの属性について、対話状況データの属性値スロットに記憶された値を、直前の確定属性値スロットにコピーしておく。

ステップS1-5では、該意味項目tの属性値、信頼度、および、補正信頼度を、対話状況データ（図１３）の各該当するスロットにコピーする。更に、ステップS1-6で、確認状態スロットを「未確認」にした後、ステップS1-1に戻る。

ステップS1-7は繰り返し処理の終了判定を行なう。もし、対話状況データにおける「予約状況」以外の属性スロットについて、後述のステップS1-8以降の処理が終了したら、図１７に示したステップS１の全動作処理が終了する。そうでなければステップS1-8に進む。

ステップS1-8では、対話状況データ（図１３）における「予約状況」以外の属性を選択する。次にステップS1-9で、対話状況データにおける属性の確認状況スロットを調べる。もし、確認状況スロットの値が「承認待ち（直接）」であれば、ステップS1-10に進む。「承認待ち（間接）」であれば、ステップS1-13に進む。それ以外なら、ステップS1-7に戻る。

ステップS1-10では、補正信頼度データから属性が「発話タイプ」の意味項目を取り出し、その属性値を調べる。もし、属性値が「肯定」であればステップS1-13に進む。属性値が「否定」であればステップS1-12に進む。それ以外なら、ステップS1-11に進む。

ステップS1-11、S1-12、S1-13では、属性の確認状態スロットをそれぞれ「未確認」「否認」「確定」にしてから、ステップS1-7に戻る。

以上が図１６のステップS1における対話管理部３３の動作処理である。

図１６のステップS2では、後述する対話履歴記憶部71の更新を行う。ステップS1において新たに確認状態が「確定」か「否認」になった属性があれば、対話履歴に該属性と信頼度を書き込む。対話履歴の正誤欄には、確認状態が「確定」であれば「正」を、確認状態が「否認」であれば「誤」を書き込む。対話ID欄には、現在の対話番号を書き込む。

ステップS3では、確認状態が「否認」になっている属性があるか調べる。もし、ある場合にはステップS14に処理を移し、無い場合にはステップS4に処理を移す。

ステップS4では、対話状況データ（図１３）のスロットを調べる。もし、確認状態が「未確認」で、補正信頼度が予め設定された閾値θ=0．4よりも低い属性があれば、直接確認の対象として選択する。また、確認状態が「未確認」で、補正信頼度が閾値θ=0．4以上の属性があれば、間接確認の対象として選択する。

ステップS5では、ステップS4において直接確認の対象として選択した属性があれば処理をステップS12に移し、無ければステップS6に移す。

ステップS6では、対話状況データ（図１３）の属性値スロットを参照してホテルデータベース110を検索し、応答文を生成する。ステップS6における該対話管理部33の動作処理の一例を図１８のフローチャートに示す。以下、同図を参照してステップS6の動作を詳細に説明する。

ステップS6-1では、ステップS1で得られた意味項目のうち、「発話タイプ」属性の属性値による分岐を行う。「予約要求」であればステップS6-3へ、「検索要求」であればステップS6-6へ、それ以外であればステップS6-2へ進む。

ステップS6-2では、前記対話状況データ（図１３）から、必須属性の属性値スロットを調べる。もし、予約に必要な全ての必須属性について属性値スロットが充足されているなら、ステップS6-4に進む。そうでない場合は、ステップS6-6に進む。

ステップS6-3もステップS6-2と同じ判定を行なう。もし、全て充足されている場合はステップS6-8に進む。そうでない場合は、ステップS6-4に進む。

ステップS6-4では、前記対話状況データ（図１３）における必須属性の属性値スロットの値と、前記ホテルデータベース110のホテル情報とを比較し、実際に予約可能であるかどうかを調べる。もし、空室が見つかり予約可能である場合には、ステップS6-9に進む。そうでない場合は、ステップS6-10に進む。

ステップS6-8では、ユーザに必須属性の属性値スロットの充足を求める応答文を生成する。例えば、必須スロット「客室タイプ」が未充足であった場合は、応答文として「客室タイプはいかがしますか。」を生成する。

ステップS6-9では、ユーザに予約要求が受理されたことを通知する応答文として「ご予約承りました。」を生成する。

ステップS6-16では、前記対話状況データ（図１３）のスロット「予約状況」に値「完了」を書き込む。

ステップS6-10では、応答文として「あいにく全室ふさがっております。」を生成する。

ステップS6-2から分岐したステップS6-6では、前記対話状況データ（図１３）の属性値スロットに充足されている値を条件として、前記ホテルデータベース110を検索し、該条件に合致するホテルを探す。

ステップS6-7では、ステップS6-6の検索件数に応じた分岐を行う。もし、条件に合致するホテルが見つからない場合には、ステップS6-11に進む。1件だけ見つかった場合にはステップS6-12 に進む。2件以上見つかった場合にはステップS6-13に進む。

ステップS6-11では、応答として「条件に合うホテルは見つかりませんでした。」を生成する。

ステップS6-12では、ユーザに検索結果を示す応答文を生成する。例えば、条件に合致するホテルが横浜ベイシェラトンであった場合、「横浜ベイシェラトンの１件です。」を生成する。同様にして、ステップS6-13では、「横浜ベイシェラトン、東横イン横浜関内の2件がご利用頂けます。」を生成する。

ステップS6-14では、対話状況データ（図１３）を参照し、属性値スロットが未充足の属性があるか調べる。もしあればステップS6-15に進む。
ステップS6-15では、属性値スロットが未充足の属性のうち、対話状況データ（図１３）で最上段にある属性を選択し、該属性値を指定するようユーザに要求する応答文を生成する。例えば、該属性が「料金」であった場合、「料金のご希望はございますか」を生成する。

以上が、ステップS6における該対話管理部33の動作処理である。

図１６に戻り、対話管理部33の動作説明を続ける。

ステップS7では条件分岐を行なう。もしステップS4において間接確認の対象として選択した属性があれば処理をステップS10に進み、無ければステップS8に進む。

ステップS8では、ステップS6で生成した応答文を音声合成部40に送る。

ステップS9では、対話の終了判定を行う。もし、前記対話状況データ（図１３）の「予約状況」スロットに値「完了」が入っていれば、対話を終了する。そうでない場合はステップS1に戻り、対話を継続する。

ステップS10では、間接確認の対象として選択した属性とその属性値を用いて、ステップS6で生成した応答文の先頭に「○○（属性値）ですと、」を付与することにより、間接確認を含む応答文を生成する。

ステップS11では、対話状況データ（図１３）の更新を行う。間接確認の対象として選択した属性の確認状態を「承認待ち（間接）」に更新する。

ステップS12では、直接確認の対象として選択した属性とその属性値を用いて、直接確認のための応答文「××（属性値）でよろしいですか」を生成する。

ステップS13では、対話状況データ（図１３）の更新を行う。直接確認の対象として選択した属性の確認状態を「承認待ち（直接）」に更新する。

ステップS14では、応答文「ご希望の条件をもう一度お願いします」を生成する。

ステップS15では、対話状況データ（図１３）の更新を行う。確認状態が「否認」となっている属性の属性値、信頼度、補正信頼度、確認状態を空にする。更に、直前の確定属性値に値が入っているなら、その値を属性値に移し、補正信頼度を1に、確認状態を「未確認」にする。

次に、補正パラメータ調整部80について説明する。
補正パラメータ調整部80は、図１５に示す前記対話履歴記憶部71の内容71を参照し、対話履歴が更新されたとき、図１２に示す補正パラメータ記憶部90に記憶された補正パラメータを再計算し、更新する。すなわち、前記数4により、信頼度CMの関数として定義した補正信頼度について、信頼度を“x”、その関数を“f(x)”と置き換えたとき、数5に示す、目標出力t(x)との重み付き自乗誤差Eを最小化するように、各属性の補正パラメータa、 bを求める。補正信頼度の目標出力t(x)としては、対話履歴が保持する正誤（確認対話の結果からシステムが判別した正誤）が「正」の場合には1を、「誤」の場合には0を用いる。式中のwは、現行対話に関する信頼度のずれを重視して補正するための重み係数であり、予め設定した値50を用いる。

数5より、公知の最急勾配法を用いて補正パラメータa、ｂを求める。

以上述べたように、本実施の形態によれば、確認対話の結果を用いて意味項目の正誤を判定し、信頼度と実際の正誤のズレを最小化するよう補正するため、従来方式である音声認識尤度だけに基づく信頼度や、意味項目の共起では検出できない誤りを検出して確認を行うことが可能であり、不必要な確認や訂正のためのやり取りを減らし、利用者の利便性を向上させる音声対話処理装置を得ることできる。

実施の形態２．
本実施の形態では、実施の形態1と比べ、信頼度補正部61、対話管理部33、補正パラメータ調整部80の動作処理と、補正パラメータ記憶部90、対話履歴記憶部100の記憶内容が異なるが構成は、実施の形態1と同様の構成を有する。したがって、以下では、前記図１の構成図を参照して本実施の形態について説明する。

まず、本実施の形態で得られる音声対話処理装置の動作の概要について、図１９を参照して説明する。同図は、該音声対話処理装置（システム）とユーザとの対話例を示すものである。S1、S2、などはシステムの出力した応答文である。U1、U2、などはユーザの入力音声である。ただし、誤認識が生じるため、認識結果と入力音声は必ずしも一致しない。”>>”で始める行は、音声理解部10において尤度1位で得られる意味項目、および、信頼度計算部20で得られる信頼度(CM)、信頼度補正部61で得られる補正信頼度(RCM)を示している。

このシステムは、或る属性の意味項目を入力するようユーザに要求したとき、その属性を記憶しておく。これに続くユーザの入力音声から該属性の意味項目が得られなければ、誤認識の可能性が高いとして意味項目の信頼度を下げるよう補正する。逆に、該属性の意味項目が含まれていれば、元の信頼度をそのまま用いる。

得られた補正信頼度を予め設定した閾値θ＝0．40と比較し、θより低いときには意味項目が誤っている可能性が高いとして直接確認を行い、補正信頼度がθ以上のときは間接確認に留める。

図１９では、S1でシステムは属性が客室タイプの意味項目をユーザに要求する。U1でユーザは要求に従って客室タイプの希望を発話するが、誤認識が生じたため、「客室タイプ＝ツイン」の変わりに「人数＝9」が抽出されている。この意味項目の信頼度0．48であり、上記閾値θより高い。このため、もし補正を行わなかった場合、間接確認が行われ、「9人ですと、○○○○ホテル、□□□□ホテルなど7件がご利用頂けます。客室タイプはいかがしますか？」のように、ユーザにとって不要な情報通知が行われることとなり、ユーザの不満度が増大する。これに対し、このシステムでは信頼度が0．34に補正されるため、S2〜U2に示すように、ユーザは即座に誤りを訂正することが可能となる。

次に、図１に示す各構成要素の動作について説明する。なお、前述のとおり、本実施の形態では実施の形態1と比べ、信頼度補正部61、対話管理部33、補正パラメータ調整部80の動作処理と、補正パラメータ記憶部90、対話履歴記憶部71の記憶内容のみが異なり、その他の構成要素は実施の形態１と同一である。したがって、以下では、信頼度補正部61、対話管理部33、補正パラメータ調整部80、補正パラメータ記憶部90、対話履歴記憶部71について説明し、その他の構成要素については説明を省略する。

まず、対話履歴記憶部71について説明する。
対話履歴記憶部71は、後述する対話管理部33により書き込まれる対話履歴データを記憶する。図２０に対話履歴データの一例を示す。同図において、要求属性は、現在システムがユーザに要求している意味項目の属性を表している。種別は、その属性の値がホテルを予約するために必須のものか、そうでないかを表しており、「必須」または「非必須」が書き込まれる。

次に、対話管理部33の動作について説明する。
図２１は、該対話管理部の動作処理の一例を示すフローチャートである。同図において、前記図１６と同じ番号を付与したステップは、図１６と同じ乃至相当の動作処理を行い、内容は前述の通りであるため説明を省略し、以下、図２１に示すステップS2a、S11aの動作について説明する。

ステップS2aでは、対話履歴記憶部71に記録された対話履歴データの内容をクリアする。

ステップS11aでは、ステップS6で生成した応答文が意味項目をユーザに要求する応答文であるとき、該意味項目の属性と、その必須・非必須種別とを対話履歴記憶部71の対話履歴データに書き込む。

次に、補正パラメータ記憶部90について説明する。
図２２は、補正パラメータ記憶部90の内容の一例を示す図である。同図に示すように、補正パラメータ記憶部90は、意味項目の属性に対応するパラメータkを後述の補正パラメータ調整部80から書き込まれて保持している。

次に、補正パラメータ調整部80の動作について説明する。
補正パラメータ調整部80は、前記対話履歴データ（図２０）を参照し、前記補正パラメータ記憶部90に記憶されている内容にパラメータk（図２２）を書き込む。パラメータkの値は以下のように決定する。対話履歴記憶部71に記憶されていない属性に対してはk=1．0を与える。対話履歴記憶部に記憶されている属性に対しては、種別が「必須」になっていればk=0．7を与え、種別が「非必須」になっていればk=0．9を与える。

次に、信頼度補正部61の動作について説明する。
信頼度補正部61は、信頼度計算部20から信頼度データを受け取り、補正パラメータ記憶部90が保持する補正パラメータを参照して、各意味項目の補正信頼度を計算する。

補正信頼度は以下のようにして計算する。まず補正パラメータ記憶部90に記憶された属性（図２２）のうち、受け取った信頼度データにはその属性の意味項目が含まれていない属性を探す。次に、それら属性に対応するパラメータkのなかで、値が最も小さいパラメータk_minを選択する。各意味項目t_iの補正信頼度RCM_iは、t_iの信頼度をCM_iとして数６により計算する。

各意味項目と、計算した補正信頼度とを、補正信頼度データとして前記対話管理部33に送る。

以上述べたように、本実施の形態によれば、システムの質問と矛盾する音声理解結果が得られたとき、得られた意味項目の信頼度を下げるよう補正するため、従来方式である音声認識尤度だけに基づく信頼度や、意味項目の共起では検出できない誤りを検出して確認を行うことが可能であり、不必要な確認や訂正のためのやり取りを減らし、利用者の利便性を向上させる音声対話処理装置を得ることできる。

実施の形態３．
図２３は、本発明の一実施の形態として、本発明を適用したホテルの検索と予約を行う音声対話処理装置の一構成例を示すブロック図である。
図１に示す実施の形態１と異なる点は対話長計算部130を設けたことと、対話管理部36の処理動作が対話管理部33と異なることである。

まず、この音声対話処理装置の概要について、以下に説明する。

この音声対話処理装置は、意味項目の確認方法を決定する際、補正信頼度を固定的な閾値と比較して決定する代わりに、各確認方法で対話を行ったときの対話長期待値を求め、対話長期待値が最小になる確認方法を選択することで、より円滑に誤りを解消して対話を進めることが可能となる。

ここで対話長とは、システムが確認のための応答文を出力してから、必要に応じて誤りの訂正などを行い、ユーザが正しい応答文を得るまでの間にやり取りされるシステム応答とユーザ発話の長さの合計である。前記図３〜図６の対話例において、対話長はユーザの第1発話を除いた、システム発話とユーザ発話の長さの合計に相当する。この対話長が長いほど、やり取りは冗長でユーザにとって煩わしいものとなる。

対話長と補正信頼度の関係を図２４に示す。図中の点A、B、C、Dは、確認対象となる意味項目が正しいとき／誤りであるときに、直接確認／間接確認を行なった場合を表している。いま、意味項目が正しい確率をpとし、補正信頼度がpと一致することと仮定する。このとき、直接確認を行うと、確率pで点Cの対話が行なわれ、確率(1-p)で点Dの対話が行なわれるから、対話長の期待値は線分CD上の点で与えられる。同様に、間接確認の場合は線分ABのようになる。したがって、両線分が交差する補正信頼度p0よりpが低い場合は直接確認を選択し、p0よりpが高い場合は間接確認を選択すれば、より少ないやり取りで対話を進めることができる。

なお、確認方法の切替点p0は、システムが生成しようとする応答文の長さにも依存する。例えば前記の対話例図３、図４、図５、図６（点A、 B、 C、 D）において、検索結果の通知部分が短くなると、これを二度通知する図４の対話例、すなわち点Ｂが最も下がる。この結果、線分は図２４の点線A'B'およびC'D'のようになり、確認方法の切替点p0も補正信頼度の低域へと移動する。

次に、図２３に示す各構成要素の動作について説明する。なお、同図において前記図１のブロック図と同じ番号を付与した構成要素は、前記実施の形態1と同じ乃至相当の動作を行い、動作内容は前述のとおりであるため以下では説明を省略する。以下、図２３に示す対話管理部36、対話長計算部130の動作について説明する。

まず、対話管理部36の動作について説明する。

本実施の形態による対話管理部36の動作は、実施の形態１と比べ、ステップS4の動作のみが異なり、その他のステップは同一の動作を行う。したがって、以下では図１６を参照し、ステップS4の動作についてのみ説明する。

ステップS4では、対話状況データ（図１３）のスロットを調べ、確認状態が「未確認」になっている意味項目に対して、直接確認を行うか、間接確認を行うかを決定する。まず、該意味項目とその補正信頼度を後述する対話長計算部130に送り、対話長計算部130より、直接確認、間接確認それぞれを行った場合の対話長期待値を受け取る。その結果、対話長期待値が短くなる方の確認方法を選択する。

次に、対話長計算部130の動作について説明する。
対話長計算部130では、前記対話管理部36から意味項目とその補正信頼度を受け取り、該意味項目を直接確認した場合、間接確認した場合のそれぞれにおける対話長の期待値を計算する。求めた対話長期待値は対話管理部36に戻す。

対話長期待値は次のようにして求める。まず、直接確認を行う場合は、図２５に示す状態遷移図に用いる。図中、アークに記したS「…」はシステムの応答文を表す。鍵括弧内の丸括弧は対話状況データ（図１３）の内容に応じて変わる部分であり、前記対話管理部36の応答文生成処理と同一の方法で決定される。また、アークに記したＵ「…」はユーザの入力文を表す。ユーザは図に記載された以外の表現は発話しないものと仮定する。また、状態S8では、システムの誤りを訂正するため、ユーザは「△△（意味項目）です」と正しい意味項目を発声するが、該意味項目の長さは、現在システムが保持している誤った意味項目を使って近似する。

点線のアークは確率付きの遷移を表す。状態S1からの遷移に記した確率pは、状態S0で確認した意味項目が正しい確率である。ｐの値には、該意味項目の補正信頼度を用いる。

状態S0で確認した意味項目が誤っていたとき、状態S5でユーザは、確率qで「いいえ」と発声し、確率1 - qで正しい意味項目を再発声して確認内容を訂正する。ここではq = 0．5とする。

状態S00は、システムの誤解を訂正するため、ユーザが正しい意味項目を再発声した状態である。再発声された意味項目に対しては、その補正信頼度に応じて、再度、直接確認を行うか、間接確認を行うかの判定を行い、いずれかの確認対話を行う。

したがって、直接確認を行う場合の対話長期待値は下記数７より求める。同様にして、間接確認を行う場合の対話長期待値は、図２６の状態遷移図を参照し、下記数８により求める。式中のL(S0→S1)やL(S2→S3→S4)などは、対話状態をアークに沿って遷移するときの部分対話長であり、アークに付与された発話の文字列を合計して求めることができる。

なお、両式中、状態S00以降の部分対話長L(S00→…)は計算できないが、両式に共通するため、L1とL2の大小比較には影響しない。そこで、L(S00→…) = 0として計算した値を対話管理部36に送る。

このように構成した音声対話処理装置では、補正信頼度に対し固定的な閾値を設定して確認方法を決定する代わりに、システムが生成しようとする応答文の長さに応じて補正信頼度に対する閾値を動的に変化させ、最も少ないやり取りで対話が進行する確認方法を選択するため、より円滑に誤りを解消して対話を進めることが可能となる。

実施の形態４．
図２７は、本発明の一実施の形態として、本発明を適用したホテルの検索と予約を行う音声対話処理装置の一構成例を示すブロック図である。
図１に示す実施の形態１と異なる点はグラフィカル・ユーザ・インタフェース（以下GUIと称する）140を設けたこと、補正パラメータ調整部83、信頼度補正部64の処理動作が補正パラメータ調整部80、信頼度補正部61と異なることである。

まず、この音声対話処理装置の概要を説明する。
この音声対話処理装置では、GUI140にユーザが直接操作できるボタンを備えている。ユーザは対話中、システムの意味項目の誤り検出精度が不足しており、システムの間接確認を訂正することが多いと感じた場合には、誤り検出の感度を上げるよう、該ボタンを操作する。逆に、意味項目を過剰に検出しており、直接確認が多いと感じた場合、ユーザは誤り検出感度を下げるよう、該ボタンを操作する。

次に、図２７に示す各構成要素の動作について説明する。なお、同図において前記図１と同じ番号を付与した構成要素は、実施の形態1と同じ乃至相当の動作を行い、動作内容は前述のとおりであるため、以下では説明を省略する。以下、図２７に示す、GUI140、補正パラメータ記憶部92、補正パラメータ調整部83、信頼度補正部64の動作について説明する。

まず、GUI140について説明する。

該GUI140は、ボタン、スライダ乃至ダイヤルを有し、ユーザの操作入力を受け取り、該操作入力を補正パラメータ調整部83に送る。ボタンの一例を図２８に示す。このボタンはディスプレイ上に表示されており、ユーザがマウスでクリックすることにより、「慎重」「標準」「性急」を切り替えることができるようになっている。

該ボタンは、対話開始時点では「標準」の位置になっている。ユーザは対話中、システムの直接確認が多いと感じた場合には、「性急」ボタンをクリックすることで、直接確認をできるだけ省略してホテル予約の手順を性急に進めるよう、システムを制御する。逆に、システムの間接確認をユーザが訂正する頻度が多いと感じた場合には、「慎重」ボタンをクリックすることで、直接確認を増やし、意味項目の誤りをできるだけ検出し、訂正してから対話を進めるようにシステムを制御する。

該ボタンがクリックされると、GUI140は補正パラメータ調整部83に対し、「慎重」「標準」「性急」のいずれが選択されているかを通知する。

次に、補正パラメータ記憶部92について説明する。
補正パラメータ記憶部92は、後述する補正パラメータ調整部83より書き込まれた補正パラメータを保持する。補正パラメータは、信頼度補正部64により読み出され、補正信頼度の計算に用いられる。図２９は、補正パラメータ記憶部92が保持する補正パラメータの一例を示す図である。図中の属性とは、意味項目の属性を表している。

次に、信頼度補正部64の動作について説明する。
信頼度補正部64は、前記信頼度計算部20から図８に例示した信頼度データを受け取り、前記補正パラメータ記憶部92が保持する補正パラメータを参照して、各意味項目の補正信頼度を計算する。補正信頼度は一例として次式、数９に示すシグモイド関数により求める。式中のパラメータa、b、cとしては、図２９に例示したパラメータリストから、補正信頼度を求めようとする意味項目の属性に応じた値を読み出して用いる。各意味項目と、元の信頼度と、計算した補正信頼度とを、補正信頼度データとして、後述する対話管理部33に送る。

次に、補正パラメータ調整部83の動作について説明する。
補正パラメータ調整部83は、まず、前記実施の形態1同様、対話履歴記憶部100を参照して、図２９に示す補正パラメータ記憶部92に記憶された補正パラメータa、 bを更新する。

更に、前記GUI140より図２８に示すボタンの状態を受け取り、補正パラメータcを次のように更新する。

ボタンが「標準」の場合には補正パラメータc = 0．0とする。このとき、前記実施の形態1と同様の補正信頼度が計算される。

ボタンが「慎重」の場合には補正パラメータc = −0．2とする。このとき、補正信頼度は前記実施の形態1より低い値が計算されるため、意味項目に対する直接確認が増える。

ボタンが「性急」の場合には補正パラメータc = 0．2 とする。このとき、補正信頼度は前記実施の形態1より高い値が計算されるため、意味項目の直接確認が減り、間接確認が増える。

このように構成された音声対話処理装置では、対話中、ユーザが実際に体感するシステムの誤り検出感度が適切になるよう直接操作することが可能となる。このため、従来方式の課題であった、誤りの検出漏れや過剰な確認によるやり取りが増えるという問題が解消され、ユーザにとって利便性の高い対話を行うことが可能となる。

実施の形態５．
図３０は、本発明の一実施の形態として、本発明を適用したホテルの検索と予約を行う音声対話処理装置の一構成例を示すブロック図である。
図１に示す実施の形態１と異なる点は信頼度補正部61、補正パラメータ調整部80、補正パラメータ記憶部90を省き代わりに閾値記憶部150と閾値調整部160が設けられていることと、対話管理部37の処理動作が異なることである。

前記実施の形態1は、確認対話の結果に基づいて意味項目の信頼度を補正するものであったが、本実施の形態は、同様に確認対話の結果に基づいて、信頼度閾値を動的に調整するものである。本実施の形態においても、前記実施の形態1と同等の効果を奏する音声対話処理装置を得ることができる。

以下、図３０に示す各構成要素の動作について説明する。なお、同図において、前記図１と同じ番号を付与した構成要素は、実施の形態1と同じ乃至相当の動作を行う。動作内容は前述のとおりであるため、以下では説明を省略する。以下、図３０に示す、対話管理部37、閾値記憶部150、閾値調整部160の動作について説明する。

まず、閾値記憶部150について説明する。
閾値記憶部150は、図３１に一例を示すように、意味項目の各属性に対する信頼度閾値を記憶する。各属性の信頼度閾値は、対話開始時点で0．4が与えられ、以後、後述する閾値調整部160により更新される。

次に、対話管理部37の動作について説明する。
本実施の形態では、実施の形態1による対話管理部33と基本的に同一の動作処理を行うものであり、図１６に示した動作フローにおいて、ステップS0とS4の動作のみが異なる。以下、ステップS0、S4の動作について説明する。

ステップS0では、信頼度計算部20より図８に例示する意味項目の信頼度データを受け取る。

ステップS4では、対話状況データ（図１３）のスロットを調べる。もし、確認状態が「未確認」で、かつ、信頼度が閾値記憶部150に記憶された当該属性の信頼度閾値よりも低い属性があれば、直接確認の対象として選択する。また、確認状態が「未確認」で、信頼度が該閾値以上の属性があれば、間接確認の対象として選択する。

次に、閾値調整部160の動作について説明する。
閾値調整部160は、対話履歴記憶部100に記憶された図１５に示す対話履歴データを参照し、対話履歴データが更新されたとき、閾値記憶部150に記憶された図３１に示す信頼度閾値を更新する。属性aの意味項目に対する現在の信頼度閾値をθaとし、更新後の信頼度閾値をθ'aとするとき、θ'aは次式により求める。

ただし、xは図１５に示す対話履歴データの各行に対応するデータ（事例）を表し、CMxはxの信頼度を表す。Xcurは現在の対話IDを持つxの集合を表す。Xaは属性がaであるxの集合を表す。 Xdir、 Xindirは信頼度CMxがそれぞれCMx＜θa（直接確認の対象となるx）、CMx≧θa（間接確認の対象となるx）であるxの集合を表す。Xerr、Xcrrは正誤がそれぞれ正、誤であるxの集合を表す。w1、w2は予め定める重み係数であり、w1=w2=0．2とする。|…|は集合の要素数を表す。

すなわち、右辺第2項では、正解を直接確認したために煩らわしさの原因となった事例に対し、以後、間接確認に回すよう信頼度閾値θ'aを下方修正する。また、右辺第2項では、誤りを間接確認したために煩わしさの原因となった事例に対し、以後、直接確認に回すよう信頼度閾値θ'aを上方修正する。

以上述べたように、本実施の形態によれば、確認対話の結果を用いて意味項目の正誤を判定し、信頼度閾値を実際の正誤のズレが小さくなるよう補正するため、従来方式である音声認識尤度だけに基づく信頼度と固定的な閾値では検出できない誤りを検出して確認を行うことが可能であり、不必要な確認や訂正のためのやり取りを減らし、利用者の利便性を向上させる音声対話処理装置を得ることできる。

実施の形態６．
前記実施の形態2は、システムの質問と入力音声から抽出した意味項目を比較することにより、意味項目の信頼度を補正するものであったが、本実施の形態では、同様にシステムの質問と入力音声から抽出した意味項目を比較することにより、信頼度閾値を動的に調整する。本実施の形態においても、前記実施の形態2と同等の効果を奏する音声対話処理装置を得ることができる。

本実施の形態は、対話履歴記憶部71、閾値記憶部150、閾値調整部160、対話管理部37の動作のみが前記実施の形態5と異なり、他の構成要素は同一である。したがって、構成図は図３０を参照する。また、対話履歴記憶部71は、前記実施の形態2と同一のものを用いる。詳細は前述のとおりであるため、以下、閾値記憶部150、閾値調整部160、対話管理部37の動作についてのみ説明する。

まず、閾値記憶部150について説明する。
図３２は、閾値記憶部150の内容の一例を示す図である。同図に示すように、閾値記憶部150は、意味項目の属性に対応する信頼度閾値を後述の閾値調整部160から書き込まれて保持している。

次に、閾値調整部160の動作について説明する。
閾値調整部160は、対話履歴記憶部71が記憶する対話履歴データ（図２０）を参照し、閾値記憶部150が記憶している図３２に示すデータに信頼度閾値θを書き込む。信頼度閾値θは以下のように決定する。対話履歴記憶部71に記憶されていない属性に対してはθ=0．4とする。対話履歴記憶部に記憶されている属性に対しては、種別が「必須」になっていればθ=０．６とし、種別が「非必須」になっていればθ=0．5とする。

次に、対話管理部37の動作について説明する。
本実施の形態では、実施の形態2による対話管理部33と基本的に同一の動作処理を行うものであり、図２１に示した動作フローにおいて、ステップS0とS4の動作のみが異なる。以下、ステップS0、S4の動作について説明する。

ステップS0では、信頼度計算部20より図８に例示する、意味項目の信頼度データを受け取る。

ステップS4では、対話状況データ（図１３）のスロットで属性値が空になっている属性の信頼度閾値を調べ、その中で最も高い信頼度閾値θmaxを選択する。もし、確認状態が「未確認」で、かつ、信頼度がθmaxよりも低い属性があれば、直接確認の対象として選択する。また、確認状態が「未確認」で、信頼度がθmax以上の属性があれば、間接確認の対象として選択する。

以上述べたように、本実施の形態によれば、システムの質問と矛盾する音声理解結果が得られたとき、得られた意味項目の信頼度に対する確認閾値を上げるため、従来方式である音声認識尤度だけに基づく信頼度や、意味項目の共起では検出できない誤りを検出して確認を行うことが可能であり、不必要な確認や訂正のためのやり取りを減らし、利用者の利便性を向上させる音声対話処理装置を得ることできる。

実施の形態７．
図３３は、本発明の一実施の形態として、本発明を適用したホテルの検索と予約を行う音声対話処理装置の一構成例を示すブロック図である。

前記実施の形態4では、ユーザによるGUI140のボタン操作に応じて、意味項目の信頼度を補正したが、本実施の形態では、同様にユーザによるGUI140のボタン操作に応じて、信頼度閾値を動的に調整する。本実施の形態においても、前記実施の形態4と同等の効果を奏する音声対話処理装置を得ることができる。

以下、図３３に示す各構成要素の動作について説明する。なお、同図において、実施の形態4の構成図２７または、実施の形態5の構成図３０と同じ番号を付与した構成要素は、実施の形態4または5と同一乃至は同等の動作を行うものであり、詳細は前述のとおりであるので説明を省略する。以下、図３３に示す閾値調整部161の動作について説明する。

閾値調整部161では、実施の形態5と同様にして、対話履歴記憶部71が記憶する対話履歴が更新された際、閾値記憶部150の信頼度閾値を更新する。更に、GUI140よりボタンの状態を受け取り信頼度閾値を次のように更新する。

ボタンが「標準」の場合には信頼度閾値を変更しない。このとき、対話装置は前記実施の形態5と同様の動作をする。

ボタンが「慎重」の場合には信頼度閾値に0．1を加算する。このとき、前記実施の形態5と比べて、意味項目に対する直接確認が増える。

ボタンが「性急」の場合には信頼度閾値から0．1を減算する。このとき、前記実施の形態5と比べて、意味項目の直接確認が減り間接確認が増える。

このように構成された音声対話処理装置では、対話中、ユーザが実際に体感するシステムの誤り検出感度が適切になるよう操作することが可能となる。このため、従来技術の課題であった、誤りの検出漏れや過剰な確認によるやり取りが増えるという問題が解消され、ユーザにとって利便性の高い対話を行うことが可能となる。

なお、上記実施の形態１〜７に記載の処理はプログラムによりコンピュータを動作させることによっても実現することが可能である。

本発明を適用した音声対話処理装置は、ホテルの検索と予約を行うシステムや、映画館や劇場における上映や上演の検索とそのチケット予約を行うシステム等に適用すると、利用者の利便性を向上させるシステムを構築できる。

本発明の実施の形態１による音声対話処理装置の構成図。意味項目例の説明図。正しく抽出した意味項目に間接確認を適用した場合の説明図。誤抽出の意味項目に間接確認を適用した場合の説明図。正しく抽出した意味項目に直接確認を適用した場合の説明図。誤抽出の意味項目に直接確認を適用した場合の説明図。意味項目候補データの例の説明図。信頼度データの例の説明図。実施の形態１における対話例の説明図。実施の形態１における音声理解部の構成図。意味項目の抽出ルールの例の説明図。補正パラメータ記憶部の保持内容例の説明図。対話状況データ例の説明図。ホテルデータベース例の説明図。対話履歴データの例の説明図。実施の形態１における対話管理部の動作処理のフロー図。対話管理部の対話状況更新動作処理のフロー図。対話管理部の応答文生成動作処理のフロー図。実施の形態２における対話例の説明図。実施の形態２における対話履歴データの説明図。実施の形態２における対話管理部の動作処理例のフロー図。実施の形態２における補正パラメータ記憶部の保持内容の説明図。本発明の実施の形態３による音声対話処理装置の構成図。対話長と補正信頼度の関係説明図。直接確認を行ったときの対話状態遷移図。間接確認を行ったときの対話状態遷移図。本発明の実施の形態４による音声対話処理装置の構成図。グラフィカル・ユーザ・インタフェースにおけるユーザ操作ボタンの配置図。実施の形態４における補正パラメータ記憶部の保持内容説明図。本発明の実施の形態５による音声対話処理装置の構成図。実施の形態５における閾値記憶部の記憶内容の説明図。実施の形態6における閾値記憶部の記憶内容の説明図。本発明の実施の形態７による音声対話処理装置の構成図。従来方式1による音声対話処理装置の構成図。従来方式2による音声対話処理装置の構成図。

符号の説明

10：音声理解部、20：信頼度計算部、33、36、37：対話管理部、40：音声合成部、61、64：信頼度補正部、71：対話履歴記憶部、80、83：補正パラメータ調整部、90、92：補正パラメータ記憶部、100：対話状況記憶部、110：ホテルデータベース、130：対話長計算部、140：グラフィカル・ユーザ・インタフェース、150：閾値記憶部、160、161：閾値調整部。

Claims

入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解部と、
意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算部と、
意味項目の信頼度を補正するための補正パラメータを記憶する補正パラメータ記憶部と、
信頼度と補正パラメータから、意味項目の補正信頼度を計算する信頼度補正部と、
入力された個々の意味項目に対し、補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理部と、
対話履歴データを用いて、前記補正パラメータ記憶部に記憶された補正パラメータを更新する補正パラメータ調整部とを備えることを特徴とする音声対話処理装置。
前記補正パラメータとしては、意味項目の属性に依存した値を用いることを特徴とする請求項1に記載の音声対話処理装置。
前記対話管理部は、意味項目の正誤をユーザに確認するため出力した応答文に対する入力音声より得られた新たな意味項目を受け取り、該新たな意味項目より前記正誤を確認した意味項目の正誤を判定し、該判定した正誤と、前記正誤を確認した意味項目の信頼度とを前記対話履歴データとして対話履歴記憶部に書き込み、
前記補正パラメータ調整部は、前記判定した正誤を用いて補正パラメータを更新する構成にされたことを特徴とする請求項1または請求項2に記載の音声対話処理装置。
前記対話管理部は、ユーザに意味項目を入力するように要求する応答文を出力したときには、要求した意味項目の属性を前記対話履歴データとして対話履歴記憶部に書き込み、
前記補正パラメータ調整部は、要求した意味項目の属性と、意味項目を入力するように要求する応答文に対する入力音声より得られた意味項目の属性とを比較して、補正パラメータを更新する構成にされたことを特徴とする請求項1または請求項2に記載の音声対話処理装置。
意味項目に対するユーザの要求操作入力を受け取るグラフィカル・ユーザ・インタフェースを備え、
前記補正パラメータ調整部は、前記ユーザの要求操作入力、および、前記対話履歴データを用いて、補正パラメータ記憶部に記憶された補正パラメータを更新する構成にされたことを特徴とする請求項1から請求項4のいずれかに記載の音声対話処理装置。
対話長計算部をさらに備え、
前記対話管理部は、確認のために利用可能な応答文の候補を複数種類保持し、該応答文の候補と、補正信頼度とを前記対話長計算部に送り、対話長計算部から得られる対話長データより、ユーザに出力する応答文を決定し、
前記対話長計算部は、前記対話管理部からの応答文の候補と、補正信頼度から、各応答文の候補をユーザに出力したときの対話長を計算する構成にされたことを特徴とする請求項1から請求項5のいずれかに記載の音声対話処理装置。
入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解部と、
意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算部と、
意味項目の信頼度閾値を記憶する閾値記憶部と、
入力された個々の意味項目に対し、信頼度と信頼度閾値を比較して、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理部と、
該対話履歴データを用いて、閾値記憶部に記憶された信頼度閾値を更新する閾値調整部とを備えることを特徴とする音声対話処理装置。
前記信頼度閾値としては、意味項目の属性に依存した値を用いることを特徴とする請求項7に記載の音声対話処理装置。
前記対話管理部は、意味項目の正誤をユーザに確認するため出力した応答文に対する入力音声より得られた新たな意味項目を受け取り、該新たな意味項目より前記正誤を確認した意味項目の正誤を判定し、該判定した正誤と、前記正誤を確認した意味項目の信頼度とを前記対話履歴データとして対話履歴記憶部に書き込み、
前記閾値調整部は、前記判定した正誤を用いて信頼度閾値を更新する構成にされたことを特徴とする請求項7または請求項8に記載の音声対話処理装置。
前記対話管理部は、ユーザに意味項目を入力するように要求する応答文を出力したときには、要求した意味項目の属性を前記対話履歴データとして対話履歴記憶部に書き込み、
前記閾値調整部は、要求した意味項目の属性と、意味項目を入力するように要求する応答文に対する入力音声より得られた意味項目の属性とを比較して、信頼度閾値を更新する構成にされたことを特徴とする、請求項7または請求項8に記載の音声対話処理装置。
意味項目に対するユーザの操作入力を受け取るグラフィカル・ユーザ・インタフェースを備え、
前記閾値調整部は前記ユーザの操作入力、および、前記対話履歴データを用いて、閾値記憶部に記憶された信頼度閾値を更新する構成にされたことを特徴とする請求項7から請求項10のいずれかに記載の音声対話処理装置。
入力音声に対し音声認識処理と意味理解処理を行い、意味項目候補の抽出とその尤度計算を行う音声理解ステップと、
意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算ステップと、
補正パラメータ記憶部が記憶する意味項目の信頼度を補正するための補正パラメータと、
前記信頼度計算ステップの信頼度から、意味項目の補正信頼度を計算する信頼度補正ステップと、
入力された個々の意味項目に対し、補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を生成し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理ステップと、
対話履歴データを用いて、補正パラメータ記憶部の補正パラメータを更新する補正パラメータ調整ステップとを備えることを特徴とする音声対話処理方法。
入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補の抽出とその尤度計算を行う音声理解ステップと、
意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算ステップと、
入力された個々の意味項目に対し、信頼度計算ステップの信頼度と閾値記憶部が記憶する信頼度閾値を比較して、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を生成し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理ステップと、
該対話履歴データを用いて、閾値記憶部の信頼度閾値を更新する閾値調整ステップとを備えることを特徴とする音声対話処理方法。
入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解手段、
意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算手段、
意味項目の信頼度を補正するための補正パラメータを記憶する補正パラメータ記憶部からの補正パラメータと、前記信頼度計算手段からの信頼度とから、意味項目の補正信頼度を計算する信頼度補正手段、
入力された個々の意味項目に対し、前記信頼度補正手段からの補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理手段、
対話履歴記憶部に書き込まれた対話履歴データを用いて、前記補正パラメータ記憶部に記憶された補正パラメータを更新する補正パラメータ調整手段としてコンピュータを機能させる為のプログラム。
入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解手段、
意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算手段、
入力された個々の意味項目に対し、信頼度と閾値記憶部に記憶された意味項目の信頼度閾値を比較して、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理手段、
対話履歴記憶部に書き込まれた対話履歴データを用いて、閾値記憶部に記憶された信頼度閾値を更新する閾値調整手段としてコンピュータを機能させる為のプログラム。