JP3941299B2

JP3941299B2 - 音声対話装置

Info

Publication number: JP3941299B2
Application number: JP28931699A
Authority: JP
Inventors: 圭輔渡邉; 明人永井; 泰石川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-10-12
Filing date: 1999-10-12
Publication date: 2007-07-04
Anticipated expiration: 2019-10-12
Also published as: JP2001109493A

Description

【０００１】
【産業上の利用分野】
この発明は，自然言語によるマン・マシン・インタフェースに用いられる音声対話処理装置に関するものである。
【０００２】
【従来の技術】
音声での対話により，利用者が必要とする情報を得るような音声対話装置の重要性が高まっている。このような音声対話装置においては，利用者の入力中に含まれるキーワードを高い精度で認識し，かつ必要な情報を利用者が効率的に得るための対話制御を行うことが重要である。
【０００３】
従来，高い正解率でキーワードを認識するために，入力音声に含まれる複数のキーワード間の関連性を利用する方法が提案されている。例えば，図１４は特開平7-92994号に示された認識候補抽出装置である。このように構成された従来の認識候補抽出装置においては，音声認識装置が，関連性を持った複数のキーワードを含んだ連続音声から複数のキーワードを認識し，認識尤度の高い順に各キーワードの認識結果を複数出力する。
【０００４】
候補抽出処理装置が，音声認識装置から出力される認識結果から，予め定めたキーワード間の組合わせ情報を用いて，組合わせ情報と一致するキーワードの組のみを抽出して認識候補として出力し，関連性のないキーワードの組合わせを棄却することで認識候補の正解率が向上する。
【０００５】
さらに，確定処理装置が，候補抽出処理装置から出力される認識候補を利用者に復唱確認することで確定し，復唱した認識候補が正しくないと判定された場合には，複数のキーワードのうち第1のキーワードを音声認識装置で認識し，この認識結果を確定処理装置で確定した後，第2のキーワード以降の認識では確定したキーワードと組合わせ可能なキーワードのみを認識候補として抽出するため認識候補の正解率が向上する。
【０００６】
【発明が解決しようとする課題】
しかしながら，上記のような従来の候補抽出処理装置では，複数の発話に跨ったキーワード相互の関係は考慮しておらず，利用者との数回のやり取りによって得られる全入力項目の認識率を向上させ対話成功率を高めるためには，一発話毎に利用者へ確認を行い確定的に対話を進める必要があり，確認対話が多くなり利用者の利便性および対話の自然性を損なうという課題があった。
【０００７】
この発明は，上述のような課題を解決するためになされたもので，一つの発話毎に確定処理を行わずとも認識率を向上できる音声対話装置を得ることを目的とするものである。
【０００８】
【課題を解決するための手段】
この発明に係る音声対話装置は，音声認識部と，対話手順記憶部と，遷移先対話状態確定動作決定部と，対話動作実行部とを備え，音声での対話により，利用者が必要とする情報を得る音声対話装置であって，
対話手順記憶部は，各対話状態における認識対象語彙，システム応答と，システム応答に想定される答え及びその答えに応じた遷移先対話状態を規定して記憶し，
音声認識部は，入力音声に対して，対話手順記憶部に記憶された各対話状態に応じた認識対象語彙を用いて音声認識を行って，複数の認識結果を出力し，
遷移先対話状態確定動作決定部は，前記音声認識部からの認識結果と対話手順記憶部の内容により遷移先対話状態を定め、その遷移先対話状態の仮説が予め定められた所定条件を満たす場合は一つに確定し、所定条件を満たさない場合は確定を保留する決定をすると共に遷移先対話状態仮説を出力し，
対話動作実行部は、仮説を一つに確定する場合、遷移先対話状態確定動作決定部からの遷移先対話状態仮説の認識結果を確認するシステム応答を出力し、確定を保留する場合は、遷移先対話状態仮説のシステム応答を出力するものである。
【０００９】
また，この発明に係る音声対話装置は，対話状態遷移記憶部と，遷移先対話状態確定部と，暫定遷移先対話状態決定部とを付加し、
遷移先対話状態確定動作決定部は，音声認識部からの認識結果と対話状態遷移記憶部又は対話手順記憶部の内容とから定まる遷移先対話状態の仮説を一つに確定するか、確定を保留するかを決定し，遷移先対話状態仮説を出力し，
遷移先対話状態確定部は，遷移先対話状態確定動作決定部からの遷移先対話状態仮説を一つに確定する場合にその遷移先対話状態仮説を入力とし，利用者に認識結果を確認することにより遷移先対話状態を確定して出力するとともに，対話状態遷移記憶部に対し，記憶されている遷移先対話状態仮説をを書変え，
暫定遷移先対話状態決定部は，遷移先対話状態確定動作決定部からの遷移先対話状態仮説を保留する場合にその遷移先対話状態仮説を入力とし，暫定的な遷移先対話状態を決定して出力するとともに，対話状態遷移記憶部に対し遷移先対話状態仮説を書変え，
対話状態遷移記憶部は，対話開始時点からの対話状態遷移履歴と遷移先対話状態確定部又は，暫定遷移先対話状態決定部からの遷移先対話状態仮説を記憶し，
対話動作実行部は，前記遷移先対話状態確定部または暫定遷移先対話状態決定部からの遷移先対話状態を入力とし，該遷移先対話状態に規定されたシステム応答を出力するとともに，該遷移先対話状態に規定された認識対象語彙を前記音声認識部に出力し，
音声認識部は，入力音声に対して，対話動作実行部から入力される認識対象語彙を用いて音声認識を行い，複数の認識結果を出力するものである。
【００１０】
また，この発明に係る音声対話装置は，音声認識部は，複数の認識結果とその認識結果のスコアを出力するように構成され、
遷移先対話状態確定動作決定部は，音声認識部からの入力された認識結果のスコアに応じて確定動作を行うか否かを決定するものである。
【００１１】
また，この発明に係る音声対話装置は，対話手順記憶部に記憶された各対話状態には，他の対話状態から該対話状態へ状態遷移を行うために予め確定動作を行う必要があるか否かを記述し，遷移先対話状態確定動作決定部は，前記音声認識部から入力される認識結果と前記対話状態遷移記憶部の内容と前記対話手順とから定まる遷移先対話状態の仮説が，予め確定動作を行う必要があるものの場合に確定動作を行うと決定するものである。
【００１２】
また，この発明に係る音声対話装置は，遷移先対話状態確定動作決定部は，利用者からの入力項目がすべて入力されていなくても，音声認識部からの認識結果を確定することにより未入力項目に対する項目値が一意に定まる場合に確定動作を行うと決定するものである。
【００１３】
また，この発明に係る音声対話装置は，遷移先対話状態確定動作決定部は，遷移先対話状態仮説に規定されたシステム応答に応じて確定動作を行うか否かを決定するものである。
【００１４】
また，この発明に係る音声対話装置は，遷移先対話状態確定動作決定部は，遷移先対話状態仮説に共通のシステム応答が存在しない場合に確定動作を行うと決定し，遷移先対話状態仮説に共通のシステム応答が存在する場合には，共通のシステム発話を持つ遷移先対話状態仮説のみを遷移先対話状態仮説として出力するものである。
【００１５】
また，この発明に係る音声対話装置は，対話手順記憶部に記憶された各対話状態には，複数のシステム応答を記述でき，対話動作実行部は，暫定遷移先対話状態決定部から遷移先対話状態が入力された場合，入力された遷移先対話状態に規定されたシステム応答のうち，前記対話状態遷移記憶部に記憶された遷移先対話状態仮説に規定されたシステム応答と共通のものを出力するものである。
【００１６】
また，この発明に係る音声対話装置は，遷移先対話状態確定動作決定部は，遷移先対話状態仮説の全ての認識対象語彙を合計した語彙の規模が予め定めた基準より大きい場合に確定動作を行うと決定するものである。
【００１７】
また，この発明に係る音声対話装置は，遷移先対話状態確定動作決定部は，前記対話状態遷移記憶部を参照して，確定した対話状態から遷移先対話状態仮説までの遷移系列の長さが予め定めた基準値以上の場合に確定動作を行うと決定するものである。
【００１８】
【発明の実施の形態】
実施の形態１.
図１はこの発明の音声対話装置の実施の形態１の構成図を示すものである。
1は，入力音声に対して，後述する対話動作実行部から入力される認識対象語彙を用いて音声認識を行い，複数の認識結果および認識結果のスコアを出力する音声認識部，2は，各対話状態における認識対象語彙，システム応答，音声認識結果に応じた遷移先対話状態を規定した対話手順記憶部，3は，対話開始時点からの対話状態遷移履歴および遷移先対話状態仮説を記憶する対話状態遷移記憶部，4は，前記音声認識部からの認識結果を入力とし，該認識結果と前記対話状態遷移記憶部の内容と前記対話手順とから定まる遷移先対話状態の仮説を一つに確定するか否かを決定し，確定する場合には後述する遷移先対話状態確定部に遷移先対話状態仮説を出力し，確定を保留する場合には暫定遷移先対話状態決定部に遷移先対話状態仮説を出力する遷移先対話状態確定動作決定部である。
【００１９】
５は，前記遷移先対話状態確定動作決定部からの遷移先対話状態仮説を入力とし，利用者へ認識結果を確認することにより遷移先対話状態を確定して出力するとともに，前記対話状態遷移記憶部に対し，記憶されている遷移先対話状態仮説をすべて削除し，該確定した遷移先対話状態を書き加える遷移先対話状態確定部である。
【００２０】
６は，前記確定動作決定部からの遷移先対話状態仮説を入力とし，認識結果のスコアに基づいて暫定的な遷移先対話状態を決定して出力するとともに，前記対話状態遷移記憶部に対し遷移先対話状態仮説を書き加える暫定遷移先対話状態決定部，7は，前記遷移先対話状態確定部あるいは暫定遷移先対話状態決定部からの遷移先対話状態を入力とし，該遷移先対話状態に規定されたシステム応答を出力するとともに，該遷移先対話状態に規定された認識対象語彙と，前記対話状態遷移記憶部に記憶された遷移先対話状態仮説に規定された認識対象語彙を前記音声認識部に出力する対話動作実行部である。
【００２１】
以下，この発明を電話番号案内音声対話装置として用いた場合について具体的な動作説明を行う。電話番号案内音声対話装置とは，利用者が装置と音声で対話することで，電話番号案内に必要な都道府県名，市区町村名，業種，対象名などの項目値を入力し，装置は入力された項目値に基づき電話番号の検索を行い，利用者に電話番号を案内するものである。
【００２２】
図２は対話手順記憶部に保持された対話状態の一例を示すものである。例えば，対話状態S1においては，システム応答としてR1「県名をどうぞ」が，認識対象語彙V1として都道府県名が規定されている。また，認識結果が「北海道」の場合の遷移先対話状態としてS2が規定されている。以下，音声認識部が出力する認識結果の個数Nを5，遷移先対話状態確定動作決定部で用いる一位の認識結果のスコアに対する閾値を0.5，対話開始状態がS1の場合を例に説明する。
【００２３】
対話開始状態S1に基づいて，対話動作実行部がシステム応答R1「都道府県名をどうぞ」を利用者に出力し，認識対象語彙V1を音声認識部に出力することにより対話を開始する。
【００２４】
利用者が音声入力を行うと，音声認識部は認識対象語彙V1を用いて音声認識処理を行い認識結果とスコアを出力する。例えば利用者が「佐賀です」と入力した場合，認識結果として「滋賀(0.88)，佐賀(0.87)，香川(0.73)，神奈川(0.52)，鹿児島(0.50)」の5つの候補を出力する。括弧内の数値は各認識候補に対するスコアであり1に近いほど良いスコアを表す。
【００２５】
認識結果が入力されると，遷移先対話状態確定動作決定部は現在の対話状態S1に規定された遷移テーブル T1 を参照して，前述の5つの認識結果に対する遷移先対話状態の仮説として 5つの対話状態 S15, S16, S17, S18, S19 を得る。次に，一位の認識結果「滋賀」のスコアが 0.88 で閾値以上であるため確定を保留すると決定し，5つの遷移先対話状態仮説を暫定遷移先対話状態決定部に出力する。
【００２６】
暫定遷移先対話状態決定部は，入力された遷移先対話状態仮説から認識結果のスコアに基づいて暫定的な遷移先対話状態仮説を一つ選択する。例えば，前述の5つの遷移先対話状態仮説 S15, S16, S17, S18, S19 に対しては，スコアの最も良い「滋賀」に対する遷移先対話状態仮説S16を選択し，対話動作実行部へ出力する。さらに，すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加える．例えば，図３は5つの遷移先対話状態仮説 S15, S16, S17, S18,S19 を対話状態遷移記憶部に書き加えた結果を示している。
【００２７】
暫定遷移先対話状態決定部から対話状態S16が入力されると，対話動作実行部はシステム応答R16「市名をどうぞ」を利用者に出力するとともに，対話状態S16に規定された認識対象語彙V16と，対話状態遷移記憶部に記憶された4つの遷移先対話状態仮説S15,S17,S18,S19に規定された認識対象語彙V15,V17,V18,V19を音声認識部に出力する。
【００２８】
対話動作実行部が出力したシステム応答「市名をどうぞ」に対して，利用者が「伊万里市です」と入力した場合，音声認識部は認識対象語彙V15,V16,V17,V18,V19を用いて音声認識処理を行い，認識結果として「伊万里(0.91)，出水(0.76)，伊勢原(0.30)，八日市(0.11)，平塚(0.09)」を出力する。
【００２９】
遷移先対話状態確定動作決定部は，遷移先対話状態仮説 S15, S16, S17, S18,S19 に規定された遷移テーブル T15, T16, T17, T18, T19 を参照して，認識結果に対する遷移先対話状態の仮説として5つの対話状態 S152, S153, S163,S182, S192 を得る。現在の対話状態S16からの遷移先対話状態仮説であるS163 に対する認識結果「八日市」のスコアは0.11で閾値以下のため，遷移先対話状態確定動作決定部は遷移先対話状態の確定を行うと決定し，遷移先対話状態仮説S152, S153, S163, S182, S192 を遷移先対話状態確定部に出力する。
【００３０】
遷移先対話状態確定部は，遷移先対話状態の仮説が入力されると，例えばスコアの良い認識結果から順に利用者に確認を行い遷移先対話状態を確定する。遷移先対話状態仮説 S152, S153, S163, S182, S192 が入力された場合には，利用者にまず「伊万里市ですか」と確認を行い，利用者がこれに対して「はい」と応答することにより遷移先対話状態が S182 に確定する。
【００３１】
遷移先対話状態が確定した後，遷移先対話状態確定部は確定した対話状態 S182 を対話動作実行部に出力するとともに対話状態 S182 を対話状態遷移記憶部に書き加え，さらに対話状態遷移記憶部に記憶されていた遷移先対話状態仮説 S15, S16, S17, S19 を対話状態遷移記憶部から削除する。以上の動作を行った後の対話状態遷移記憶部は図4に示すものとなる。
【００３２】
対話状態 S182 が入力されると，対話動作実行部はシステム応答 R182「町名をどうぞ」を利用者に出力するとともに，対話状態 S182 に規定された認識対象語彙 V182 を音声認識部に出力し対話を継続する。
【００３３】
以上の動作により，対話状態遷移記憶部が利用者の入力に対する対話状態遷移の仮説を複数保持し，遷移先対話状態確定動作決定部が，現在選択している仮説に対する認識スコアが閾値より悪くなったときに遷移先対話状態を一つに確定するため，一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき，さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【００３４】
なお、上記実施の形態１の構成から対話状態遷移記憶部と，遷移先対話状態確定部と，暫定遷移先対話状態決定部とを省き，音声認識部と，対話手順記憶部と，遷移先対話状態確定動作決定部と，対話動作実行部とで構成することも可能である。
この音声対話装置にあって，対話手順記憶部は，各対話状態における認識対象語彙，システム応答と，システム応答に想定される答え及びその答えに応じた遷移先対話状態を規定して記憶する。
【００３５】
音声認識部は，入力音声に対して，対話手順記憶部に記憶された各対話状態に応じた認識対象語彙を用いて音声認識を行って，複数の認識結果を出力する。
遷移先対話状態確定動作決定部は，前記音声認識部からの認識結果と対話手順記憶部の内容により遷移先対話状態を定め、その遷移先対話状態の仮説が予め定められた所定条件を満たす場合は一つに確定し、所定条件を満たさない場合は確定を保留する決定をすると共に遷移先対話状態仮説を出力する。
対話動作実行部は、仮説を一つに確定する場合、遷移先対話状態確定動作決定部からの遷移先対話状態仮説の認識結果を確認するシステム応答を出力し、確定を保留する場合は、遷移先対話状態仮説のシステム応答を出力する。
【００３６】
以上のような構成の音声対話装置にあっては，利用者が音声入力を行うと，音声認識部は対話手順記憶部に記憶された認識対象語彙V1を用いて音声認識処理を行い認識結果を出力する。例えば利用者が「佐賀です」と入力した場合，認識結果として「滋賀(0.88)，佐賀(0.87)，香川(0.73)，神奈川(0.52)，鹿児島(0.50)」の5つの候補を出力する。括弧内の数値は予め定められた所定条件としての各認識候補に対するスコアであり1に近いほど良いスコアを表す。
【００３７】
認識結果が入力されると，遷移先対話状態確定動作決定部は現在の対話状態S1に規定された遷移テーブル T1 を参照して，前述の5つの認識結果に対する遷移先対話状態の仮説として 5つの対話状態 S15, S16, S17, S18, S19 を得，フラグをたてる。次に，予め定められた所定条件が認識結果のスコアであるとすると，一位の認識結果「滋賀」のスコアが 0.88 で所定条件の閾値以上であるため確定を保留すると決定する。
【００３８】
次に遷移先対話状態確定動作決定部は，遷移先対話状態仮説から認識結果のスコアに基づいて暫定的な遷移先対話状態仮説を一つ選択する。例えば，前述の5つの遷移先対話状態仮説 S15, S16, S17, S18, S19 に対しては，スコアの最も良い「滋賀」に対する遷移先対話状態仮説S16を選択し，対話動作実行部へ出力する。
【００３９】
対話動作実行部は遷移先対話状態仮説S16のシステム応答R16「市名をどうぞ」を利用者に出力する。
【００４０】
対話動作実行部が出力したシステム応答「市名をどうぞ」に対して，利用者が「伊万里市です」と入力した場合，音声認識部は対話手順記憶部の認識対象語彙V15,V16,V17,V18,V19を用いて音声認識処理を行い，認識結果として「伊万里(0.91)，出水(0.76)，伊勢原(0.30)，八日市(0.11)，平塚(0.09)」を出力する。
【００４１】
遷移先対話状態確定動作決定部は，遷移先対話状態仮説 S15, S16, S17, S18,S19 に規定された遷移テーブル T15, T16, T17, T18, T19 を参照して，認識結果に対する遷移先対話状態の仮説として5つの対話状態 S152, S153, S163,S182, S192 を得る。
【００４２】
現在の対話状態S16からの遷移先対話状態仮説であるS163 に対する認識結果「八日市」のスコアは0.11で所定条件の閾値以下のため，遷移先対話状態確定動作決定部は遷移先対話状態の確定を行うと決定する。
【００４３】
対話動作実行部は、例えばスコアの良い認識結果から順に利用者に確認を行い遷移先対話状態を確定する。遷移先対話状態仮説 S152, S153, S163, S182, S192 が入力された場合には，利用者にまず「伊万里市ですか」と確認を行い，利用者がこれに対して「はい」と応答することにより遷移先対話状態が S182 に確定する。
【００４４】
対話状態 S182 が入力されると，対話動作実行部はシステム応答 R182「町名をどうぞ」を利用者に出力するとともに，対話状態 S182 に規定された認識対象語彙 V182 を音声認識部に出力し対話を継続する。
以上のように，遷移先対話状態確定動作決定部が遷移先対話状態の仮説を一つに確定するまで、動作を繰り返す。
【００４５】
実施の形態２．
実施の形態２は上述の実施の形態１とは遷移先対話状態確定動作決定部の動作が異なるものであり、他は上述の実施の形態１と同様である。以下，図１の対話手順記憶部と遷移先対話状態確定動作決定部の動作について説明する。
【００４６】
図２，図５および図６は対話手順記憶部に保持された対話状態の一例である。図６の対話状態 S18231,S18241, S18251, S18281 に規定された語彙 V18231, V18241, V18251, V18281の規模は大きく，他の対話状態の認識対象語彙と同時に音声認識処理を行うことが望ましくなくいため，これらの対話状態に遷移する前に対話状態の確定動作を行う必要があるという条件が規定されている。
【００４７】
以下，装置と利用者が対話状態 S1 から対話を開始した後，実施の形態1と同様に対話を行い，現在の対話状態が S182 である場合を例に説明する。
【００４８】
対話動作実行部が出力したシステム応答「町名をどうぞ」に対して，利用者が「黒川です」と入力した場合，音声認識部は認識対象語彙 V182 を用いて音声認識処理を行い，認識結果として「黒川(0.95)，大川(0.88)，大川内(0.70)，大坪(0.11)，立花(0.03)」を出力する。
【００４９】
遷移先対話状態確定動作決定部は遷移テーブル T182 を参照して遷移先対話状態仮説 S1825, S1822, S1823, S1824, S1828 を得る。次に，一位の認識結果「黒川」のスコアが閾値以上であるため，遷移先対話状態の確定動作の保留を決定して遷移先対話状態仮説を暫定遷移先対話状態決定部に出力する。
【００５０】
暫定遷移先対話状態決定部は，スコアの最も良い「黒川」に対する遷移先対話状態仮説 S1825 を選択して対話動作実行部へ出力するとともに，すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加える。これらの処理後，対話状態遷移記憶部は図7に示すものとなる。
【００５１】
暫定遷移先対話状態決定部から対話状態 S1825 が入力されると，対話動作実行部はシステム応答 R1825「業種をどうぞ」を利用者に出力するとともに，対話状態 S1825 に規定された認識対象語彙 V1825 と，対話状態遷移記憶部に記憶された4つの遷移先対話状態仮説に規定された認識対象語彙 V1822, V1823, V1824,V1828 を音声認識部に出力する。
【００５２】
システム応答「業種をどうぞ」に対して，利用者が「旅館です」と入力した場合，音声認識部は認識対象語彙 V1825, V1822, V1823, V1824, V1828 を用いて音声認識処理を行い，認識結果として「旅館(0.95)，理容(0.62)，旅行業(0.51)，リュウマチ科(0.27)，療養所(0.10)，猟銃(0.02)」を出力する。
【００５３】
遷移先対話状態確定動作決定部は遷移テーブル T1825, T1822, T1823, T1824,T1828 を参照して，認識結果に対する遷移先対話状態の仮説として9つの対話状態 S18231, S18232, S18241, S18242, S18243, S18251, S18252, S18281, S18282 を得る。スコアの最もよい認識結果「旅館」のスコアは0.95で閾値以上であるが，「旅館」に対する遷移先対話状態仮説 S18231, S18241, S18251, S18281 はすべて予め確定動作を行う必要がある対話状態のため，遷移先対話状態確定動作決定部は遷移先対話状態の確定を行うと決定し，遷移先対話状態仮説を遷移先対話状態確定部に出力する。
【００５４】
遷移先対話状態確定部は利用者に「業種は旅館ですか」と確認を行い，利用者がこれに対して「はい」と応答することにより遷移先対話状態がS18231,S18241, S18251, S18281 に確定されるため，対話状態遷移記憶部に記憶された遷移先対話状態仮説 S1822を削除する。さらに，遷移対話状態仮説 S1823,S1824, S1825, S1828 が存在するため，遷移先対話状態確定部は利用者に町名を確認することにより仮説の確定を行う。まず，最もスコアの良い対話状態S1825 に対する認識結果について「町名は黒川ですか」と利用者に確認する。この確認に対し利用者が「はい」と応答し対話状態S182が確定する。これにより最終的な遷移先対話状態は S18251 に決定される。
【００５５】
対話状態 S18251 が入力されると，対話動作実行部は認識対象語彙 V18251 を音声認識部に出力し，システム応答R18251「旅館の名前は何ですか」を利用者に出力して対話を継続する。
【００５６】
以上の動作により，規定された認識対象語彙が大きいため他の対話状態の認識対象語彙と同時に音声認識処理を行うことが望ましくなく，該対話状態に遷移する直前に予め確定動作を行う必要がある対話状態に対して，遷移先対話状態確定動作決定部が確定動作実行を決定し，遷移先対話状態決定部が遷移先対話状態を確定するため，認識対象語彙を限定でき認識率が向上する。
【００５７】
実施の形態３．
実施の形態３は上述の実施の形態１とは遷移先対話状態確定動作決定部の動作が異なるものであり、他は上述の実施の形態１と同様である。以下，図１の遷移先対話状態確定動作決定部の動作について，対話手順記憶部に記憶された対話状態が図８，電話番号データベースが図９，音声認識部が出力する認識結果の個数Nが3 の場合を例に説明する。
【００５８】
対話開始状態S1に基づいて，対話動作実行部がシステム応答R1「どこの電話番号をお調べですか」を利用者に出力し，認識対象語彙V1を音声認識部に出力することにより対話を開始する。
【００５９】
利用者が音声入力を行うと，音声認識部は認識対象語彙V1を用いて音声認識処理を行い認識結果とスコアを出力する。例えば利用者が「甘太郎です」と入力した場合，認識結果として「アマタ(0.88)，甘太郎(0.87)，天城(0.73)」の3つの候補を出力する。
【００６０】
認識結果が入力されると，遷移先対話状態確定動作決定部は遷移テーブル T1 を参照して，遷移先対話状態仮説として S2, S3, S4 を得る。次に，音声認識部からの認識結果を確定することにより未入力項目に対する項目値が一意に定まるか否かを検査する。本実施の形態においては利用者の入力項目は，都道府県名，市区町村名，業種，対象名である。現時点では対象名のみが入力された状態であり，図９の電話番号データベースを参照することにより，認識結果として得られた対象名のみから未入力項目が一意に定まるか否かを検査すればよい。認識候補「アマタ」に対しては，データ番号 5, 6 の二つのデータが存在するが，未入力項目である県名は認識結果を確定しただけでは一意には定まらない。他の認識結果「甘太郎」「天城」についても同様であり，すべての認識候補に対して未入力項目が一意には定まらないため，遷移先対話状態の確定を保留すると決定し，3つの遷移先対話状態仮説を暫定遷移先対話状態決定部に出力する。
【００６１】
暫定遷移先対話状態決定部は，例えばスコアの最も良い「アマタ」に対する遷移先対話状態仮説S3を選択して対話動作実行部へ出力する。さらに，すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加える。
【００６２】
暫定遷移先対話状態決定部から対話状態S3が入力されると，対話動作実行部はシステム応答R3「何県でしょうか」を利用者に出力するとともに，対話状態S3に規定された認識対象語彙V3と，対話状態遷移記憶部に記憶された2つの遷移先対話状態仮説 S2, S4 に規定された認識対象語彙 V2, V4 を音声認識部に出力する。
【００６３】
対話動作実行部が出力したシステム応答「何県でしょうか」に対して，利用者が「神奈川県です」と入力した場合，音声認識部は認識対象語彙 V2, V3, V4 を用いて音声認識処理を行い，認識結果として「神奈川(0.95)，香川(0.72)，佐賀(0.41)」を出力する。
【００６４】
遷移先対話状態確定動作決定部は，遷移テーブル T2, T3, T4 を参照して，認識結果に対する遷移先対話状態の仮説として9つの対話状態 S22, S23, S24,S32, S33, S34, S42, S43, S44 を得る。次に，音声認識部からの認識結果を確定することにより未入力項目に対する項目値が一意に定まるか否かを検査する。現時点では対象名と県名が入力された状態であり，図９の電話番号データベースを参照すると，名称「アマタ」，県名「神奈川」であるデータはデータ番号 5, 6 の二つであるが，県名を確定しただけでは未入力項目である市名は一意に確定しない。同様に，名称が「甘太郎」，県名が「神奈川」のデータ 1,2, 3も市名が一意に確定しないため，遷移先対話状態の確定を保留すると決定し，9つの遷移先対話状態仮説を暫定遷移先対話状態決定部に出力する。
【００６５】
暫定遷移先対話状態決定部は，現在の対話状態 S2 からスコアの最も良い「神奈川」に対する遷移先対話状態仮説 S32 を選択して対話動作実行部へ出力する。さらに，すべての9つの遷移先対話状態仮説を対話状態遷移記憶部に書き加える。
【００６６】
暫定遷移先対話状態決定部から対話状態S32が入力されると，対話動作実行部はシステム応答R32「何市ですか」を利用者に出力するとともに，対話状態S32に規定された認識対象語彙V32と，対話状態遷移記憶部に記憶された8つの遷移先対話状態仮説 S22, S42, S23, S33, S43, S24, S34, S44 に規定された認識対象語彙 V22, V42, V23, V33, V43, V24, V34, V44 を音声認識部に出力する。
【００６７】
対話動作実行部が出力したシステム応答「何市ですか」に対して，利用者が「鎌倉市です」と入力した場合，音声認識部は認識対象語彙 V22, V32, V42, V23,V33, V43, V24, V34, V44 を用いて音声認識処理を行い，認識結果として「鎌倉(0.87)，川崎(0.66)，唐津(0.28)」を出力する。
【００６８】
遷移先対話状態確定動作決定部は，遷移テーブル T22, T32, T42, T23, T33,T43, T24, T34, T44 を参照して，認識結果に対する遷移先対話状態の仮説として9つの対話状態 S222, S223, S322, S323, S422, S423, S243, S343, S443 を得る。次に，音声認識部からの認識結果を確定することにより未入力項目に対する項目値が一意に定まるか否かを検査する。現時点では対象名，県名，市名が入力された状態であり，図９の電話番号データベースを参照すると，名称「アマタ」，県名「神奈川」，市名「鎌倉」というデータは存在しない。
【００６９】
一方，名称「甘太郎」，県名「神奈川」，市名「鎌倉」に対しては，データ番号 1のデータが存在し，市名を確定することにより，未入力項目である町名，業種が一意に確定する。したがって，遷移先対話状態の確定を行うと決定し，遷移先対話状態仮説 S222, S223, S322, S323, S422, S423, S243, S343, S443 を遷移先対話状態確定部に出力する。
【００７０】
遷移先対話状態確定部は，遷移先対話状態の仮説が入力されると，最もスコアの良い認識結果である「鎌倉」を確認することで遷移先対話状態を S223 に確定し，対話動作実行部に対話状態S223を出力する。
【００７１】
対話動作実行部は対話状態 S223 が入力されると，対話状態遷移記憶部に記憶された対話遷移系列と，図の電話番号データベースから，全入力項目に対する項目値が，名称「甘太郎」，県名「神奈川」，市名「鎌倉」，町名「大船」，業種「居酒屋」と決定し，電話番号「0467-00-0000」が一意に定まるため，該電話番号を利用者に応答する。
【００７２】
以上の動作により，利用者の入力に対する対話状態遷移の仮説を複数保持し，利用者からの入力項目がすべて入力されていなくても，認識結果を確定することにより未入力項目に対する項目値が一意に定まる場合に遷移先対話状態を一つに確定するため，一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき，さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【００７３】
実施の形態4.
実施の形態４は上述の実施の形態１とは遷移先対話状態確定動作決定部の動作が異なるものであり、他は上述の実施の形態１と同様である。以下，図１の遷移先対話状態確定動作決定部の動作について，対話手順記憶部に図１０の対話状態が保持されている場合を例に説明する。
【００７４】
対話開始状態S1に基づいて，対話動作実行部がシステム応答R1「都道府県名をどうぞ」を利用者に出力し，認識対象語彙V1を音声認識部に出力することにより対話を開始する。
【００７５】
利用者が音声入力を行うと，音声認識部は認識対象語彙V1を用いて音声認識処理を行い認識結果とスコアを出力する。例えば利用者が「佐賀です」と入力した場合，認識結果として「佐賀(0.92)，滋賀(0.80)，香川(0.73)，神奈川(0.52)，鹿児島(0.50)」の5つの候補を出力する。
【００７６】
認識結果が入力されると，遷移先対話状態確定動作決定部は現在の対話状態S1に規定された遷移テーブルT1を参照して，前述の5つの認識結果に対する遷移先対話状態の仮説として5つの対話状態 S15, S16, S17, S18, S19 を得る。次に，一位の認識結果「佐賀」のスコアが0.92で閾値以上であるため確定を保留すると決定し，共通のシステム応答を持つ5つの遷移先対話状態仮説すべてを暫定遷移先対話状態決定部に出力する。
【００７７】
暫定遷移先対話状態決定部は，スコアの最も良い「佐賀」に対する遷移先対話状態仮説 S18 を選択し対話動作実行部へ出力し，すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加える。
【００７８】
暫定遷移先対話状態決定部から対話状態 S18 が入力されると，対話動作実行部はシステム応答 R18 「市名をどうぞ」を利用者に出力するとともに，認識対象語彙 V18と，対話状態遷移記憶部に記憶された4つの遷移先対話状態仮説 S15,S16, S17, S19 に規定された認識対象語彙 V15, V16, V17, V19 を音声認識部に出力する。
【００７９】
対話動作実行部が出力したシステム応答「市名をどうぞ」に対して，利用者が「伊万里市です」と入力した場合，音声認識部は認識対象語彙 V15, V16,V17, V18, V19 を用いて音声認識処理を行い，認識結果として「伊万里(0.91)，出水(0.76)，伊勢原(0.30)，八日市(0.11)，平塚(0.09)」を出力する。
【００８０】
遷移先対話状態確定動作決定部は，遷移テーブル T15, T16, T17, T18, T19 を参照して，認識結果に対する遷移先対話状態の仮説として5つの対話状態 S152, S153, S163, S182, S192 を得る。スコアの最も良い認識結果「伊万里」のスコアは閾値以上であるが，遷移先対話状態仮説 S152, S153, S163, S182,S192 に共通のシステム応答が存在しないため，遷移先対話状態確定動作決定部は遷移先対話状態の確定を行うと決定し，遷移先対話状態仮説 S152, S153, S163, S182, S192 を遷移先対話状態確定部に出力する。
【００８１】
遷移先対話状態確定部は実施例1と同様に動作し，遷移先対話状態を S182に確定して対話動作実行部に出力する。遷移先対話状態 S182 が入力されると，対話動作実行部も実施例1と同様に動作して利用者との対話を継続する。
【００８２】
以上の動作により，対話状態遷移記憶部が利用者の入力に対する対話状態遷移の仮説を複数保持し，遷移先対話状態確定動作決定部が，遷移先対話状態仮説に共通のシステム発話が存在しなくなった場合に遷移先対話状態を一つに確定するため，一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき，さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【００８３】
実施の形態５.
実施の形態５は上述の実施の形態１とは遷移先対話状態確定動作決定部の動作が異なるものであり、他は上述の実施の形態１と同様である。以下，図１の遷移先対話状態確定動作決定部の動作を，対話手順記憶部に図１１の対話状態が保持されている場合を例に説明する。図１１に示した例では，対話状態 S152 において複数のシステム応答 R152-1「伊勢原市の何町ですか」とR152-2「町名をどうぞ」が規定されている。
【００８４】
まず，実施の形態４と同様に，対話開始状態S1から対話を開始し，対話状態 S18 に至り，利用者がシステム応答 R18 「市名をどうぞ」に対し「伊万里市です」と応答して音声認識部が認識結果「伊万里(0.91)，出水(0.76)，伊勢原(0.30)，八日市(0.11)，平塚(0.09)」を出力した場合について説明する。
【００８５】
遷移先対話状態確定動作決定部は，遷移テーブル T15, T16, T17, T18, T19 を参照して，実施の形態４と同様に認識結果に対する遷移先対話状態の仮説として5つの対話状態 S152, S153, S163, S182, S192 を得る。スコアの最も良い認識結果「伊万里」のスコアは閾値以上であり，かつ遷移先対話状態仮説 S152,
S153, S163, S182, S192 に共通のシステム応答「町名をどうぞ」が存在するため，遷移先対話状態確定動作決定部は遷移先対話状態の確定を保留すると決定し，遷移先対話状態仮説 S152, S153, S163, S182, S192 を暫定遷移先対話状態決定部に出力する。
【００８６】
暫定遷移先対話状態決定部は遷移先対話状態仮説 S152, S153, S163, S182,S192 が入力されると，最もスコアのよい認識結果「伊万里」に対する対話状態S182 を暫定遷移先対話状態と決定して対話動作実行部に出力する。
【００８７】
対話動作実行部は対話状態 S182 が入力されると，対話状態 S182 に規定された複数のシステム応答のなかから，遷移先対話状態仮説 S152, S153, S163,S192に規定されたシステム応答と共通の R182-2「町名をどうぞ」をシステム応答として出力して対話を継続する。
【００８８】
一方，実施の形態１と同様に，対話開始状態S1から対話を開始し，対話状態 S16 に至り，システム応答 R16「市名をどうぞ」に対し利用者が「伊万里市です」と応答したため，遷移先対話状態決定部が利用者に確認を行い，遷移先対話状態を S182 に決定した場合について説明する。
【００８９】
対話状態 S182 が入力されると，対話動作実行部は対話状態 S182 に規定されたシステム応答 R182-1「伊万里市の何町ですか」およびR182-2「町名をどうぞ」のうち，例えば，最初に定義されている R182-1 をシステム応答として出力し対話を継続する。
【００９０】
以上の動作により，対話手順記憶部に記憶された各対話状態に複数のシステム応答を記述することで，遷移先対話状態仮説に共通のシステム発話が存在する場合は，遷移先対話状態確定動作決定部は確認による確定動作を行わず，各遷移先対話状態仮説に共通のシステム発話を出力して対話を継続し，一方，遷移先対話状態確定部で遷移先対話状態が確定した場合には，確定した対話状態に固有のシステム応答を行えるため，一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき，さらに対話状態遷移に応じた自然な応答を行えるため，利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【００９１】
実施の形態６．
実施の形態６は上述の実施の形態１とは遷移先対話状態確定動作決定部の動作が異なるものであり、他は上述の実施の形態１と同様である。以下，図１の遷移先対話状態確定動作決定部の動作について，対話手順記憶部に図２，５の対話状態が保持されている場合を例に，遷移先対話状態確定動作決定部で確定動作決定に用いる語彙規模の閾値が 300の場合について説明する。
【００９２】
対話開始状態 S1 に基づいて，対話動作実行部がシステム応答 R1 「都道府県名をどうぞ」を利用者に出力し，認識対象語彙 V1 を音声認識部に出力することにより対話を開始する。
【００９３】
利用者が音声入力を行うと，音声認識部は認識対象語彙V1を用いて音声認識処理を行い認識結果とスコアを出力する。例えば利用者が「佐賀です」と入力した場合，認識結果として「佐賀(0.92)，滋賀(0.80)，香川(0.73)，神奈川(0.52)，鹿児島(0.50)」の5つの候補を出力する。
【００９４】
認識結果が入力されると，遷移先対話状態確定動作決定部は現在の対話状態S1に規定された遷移テーブルT1を参照して，前述の5つの認識結果に対する遷移先対話状態の仮説として5つの対話状態 S15, S16, S17, S18, S19 を得る。次に，遷移先対話状態仮説の全ての認識対象語彙 V15, V16, V17, V18, V19 を合計した語彙を求める。V15, V16, V17, V18, V19 はそれぞれ，神奈川県の市名，滋賀県の市名，香川県の市名，佐賀県の市名，鹿児島県の市名のため，合計の語彙はこれら5県のすべての市名であり，これらの異なる5県で同一の市名は存在しないため，その語彙の規模は 52である。
【００９５】
これは閾値の 300 より小さいため，遷移先対話状態確定動作決定部は遷移先対話状態仮説の確定を保留すると決定し，共通のシステム応答を持つ5つの遷移先対話状態仮説すべてを暫定遷移先対話状態決定部に出力する。
【００９６】
暫定遷移先対話状態決定部は，スコアの最も良い「佐賀」に対する遷移先対話状態仮説 S18 を選択し対話動作実行部へ出力し，すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加える。
【００９７】
暫定遷移先対話状態決定部から対話状態 S18 が入力されると，対話動作実行部はシステム応答 R18 「市名をどうぞ」を利用者に出力するとともに，認識対象語彙 V18 と，対話状態遷移記憶部に記憶された4つの遷移先対話状態仮説 S15, S16, S17, S19 に規定された認識対象語彙 V15, V16, V17, V19 を音声認識部に出力する。
【００９８】
対話動作実行部が出力したシステム応答「市名をどうぞ」に対して，利用者が「伊万里市です」と入力した場合，音声認識部は認識対象語彙 V15, V16,V17, V18, V19 を用いて音声認識処理を行い，認識結果として「伊万里(0.91)，出水(0.76)，伊勢原(0.30)，八日市(0.11)，平塚(0.09)」を出力する。
【００９９】
遷移先対話状態確定動作決定部は，遷移テーブル T15, T16, T17, T18, T19 を参照して，認識結果に対する遷移先対話状態の仮説として5つの対話状態 S152, S153, S163, S182, S192 を得る。次に，遷移先対話状態仮説の全ての認識対象語彙 V152, V153, V163, V182, V192 を合計した語彙を求める。V152,V153, V163, V182, V192 はそれぞれ，神奈川県伊勢原市の町名，神奈川県平塚市の町名，滋賀県八日市市の町名，佐賀県伊万里市の町名，鹿児島県出水市の町名のため，合計の語彙はこれら5市のすべての町名である。その総数は 332 であるが，これら異なる5市に同一の町名が存在するため異なり語数は 327 である。
【０１００】
これは閾値の 300 より大きいため，遷移先対話状態確定動作決定部は遷移先対話状態の確定を行うと決定し，遷移先対話状態仮説 S152, S153, S163, S182,S192 を遷移先対話状態確定部に出力する。
【０１０１】
遷移先対話状態確定部は実施例1と同様に動作し，遷移先対話状態を S182に確定して対話動作実行部に出力する。遷移先対話状態 S182 が入力されると，対話動作実行部も実施例1と同様に動作して利用者との対話を継続する。
【０１０２】
以上の動作により，遷移先対話状態仮説に規定された認識対象語彙の規模が大きく，認識率が低下する恐れがある場合に遷移先対話状態確定動作決定部が確定動作実行を決定し，遷移先対話状態決定部が遷移先対話状態を確定するため，認識対象語彙を限定でき認識率が向上する。
【０１０３】
実施の形態７．
実施の形態７は上述の実施の形態１とは遷移先対話状態確定動作決定部の動作が異なるものであり、他は上述の実施の形態１と同様である。以下，図１の遷移先対話状態確定動作決定部の動作について，対話手順記憶部に図２および図５の対話状態が保持されており，遷移先対話状態確定動作決定部が確定動作決定に用いる遷移系列の長さの閾値が 2 である場合について説明する。
【０１０４】
対話開始状態S1に基づいて，対話動作実行部がシステム応答R1「都道府県名をどうぞ」を利用者に出力し，認識対象語彙V1を音声認識部に出力することにより対話を開始する。
【０１０５】
利用者が音声入力を行うと，音声認識部は認識対象語彙V1を用いて音声認識処理を行い認識結果とスコアを出力する。例えば利用者が「佐賀です」と入力した場合，認識結果として「佐賀(0.92)，滋賀(0.80)，香川(0.73)，神奈川(0.52)，鹿児島(0.50)」の5つの候補を出力する。
【０１０６】
認識結果が入力されると，遷移先対話状態確定動作決定部は現在の対話状態S1に規定された遷移テーブルT1を参照して，前述の5つの認識結果に対する遷移先対話状態の仮説として5つの対話状態 S15, S16, S17, S18, S19 を得る。遷移先対話状態確定動作決定部は，遷移先対話状態仮説の遷移系列の長さを対話状態遷移記憶部を参照して得る。この時点では対話開始状態 S1 からの遷移先対話状態仮説は対話状態遷移記憶部にはなにも記憶されていないため，遷移系列の長さは 0 であり閾値の 2 より小さい。したがって，遷移先対話状態確定動作決定部は遷移先対話状態の確定を保留すると決定し，5つの遷移先対話状態仮説すべてを暫定遷移先対話状態決定部に出力する。
【０１０７】
暫定遷移先対話状態決定部は，スコアの最も良い「佐賀」に対する遷移先対話状態仮説 S18 を選択し対話動作実行部へ出力し，すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加える。以上の動作の結果，対話状態遷移記憶部の内容は図１２に示すものとなる。
【０１０８】
暫定遷移先対話状態決定部から対話状態 S18 が入力されると，対話動作実行部はシステム応答 R18 「市名をどうぞ」を利用者に出力するとともに，認識対象語彙V18と，対話状態遷移記憶部に記憶された4つの遷移先対話状態仮説 S15,S16, S17, S19 に規定された認識対象語彙 V15, V16, V17, V19 を音声認識部に出力する。
【０１０９】
対話動作実行部が出力したシステム応答「市名をどうぞ」に対して，利用者が「伊万里市です」と入力した場合，音声認識部は認識対象語彙 V15, V16,V17, V18, V19 を用いて音声認識処理を行い，認識結果として「伊万里(0.91)，出水(0.76)，伊勢原(0.30)，八日市(0.11)，平塚(0.09)」を出力する。
【０１１０】
遷移先対話状態確定動作決定部は，遷移テーブル T15, T16, T17, T18, T19 を参照して，認識結果に対する遷移先対話状態の仮説として5つの対話状態 S152, S153, S163, S182, S192 を得る。次に，図１２に示す対話状態遷移記憶部の内容を参照すると，対話開始状態S1から現在の対話状態 S18 までの遷移系列の長さは 1 であり，閾値である 2 より小さい。したがって，遷移先対話状態確定動作決定部は遷移先対話状態の確定を保留すると決定し，5つの遷移先対話状態仮説すべてを暫定遷移先対話状態決定部に出力する。
【０１１１】
暫定遷移先対話状態決定部は遷移先対話状態仮説 S152, S153, S163, S182,S192 が入力されると，最もスコアのよい認識結果「伊万里」に対する対話状態 S182 を暫定遷移先対話状態と決定して対話動作実行部に出力する。さらに，すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加え，対話状態遷移記憶部の内容は図13に示すものとなる。
【０１１２】
暫定遷移先対話状態決定部から対話状態 S182 が入力されると，対話動作実行部はシステム応答 R182 「町名をどうぞ」を利用者に出力するとともに，認識対象語彙 V182 と，対話状態遷移記憶部に記憶された4つの遷移先対話状態仮説 S152, S153, S163, S192 に規定された認識対象語彙 V152, V153, V163, V192 を音声認識部に出力する。
【０１１３】
対話動作実行部が出力したシステム応答「町名をどうぞ」に対して，利用者が「黒川です」と入力した場合，音声認識部は認識対象語彙 V182, V152, V153,V163, V192 を用いて音声認識処理を行い，認識結果として「黒川(0.90)，広川(0.64)，大川(0.42)，串橋(0.13)，黒部丘(0.11)」を出力する。
【０１１４】
遷移先対話状態確定動作決定部は遷移テーブル T182 を参照して遷移先対話状態仮説 S1825, S1822, S1823, S1824, S1828 を得る。次に，図１３に示す対話状態遷移記憶部の内容を参照すると，対話開始対話状態 S1 から現在の対話状態 S182 までの遷移系列の長さは 2 であり閾値と等しい。したがって，遷移先対話状態確定動作決定部は遷移先対話状態の確定を行うと決定し，5つの遷移先対話状態仮説を遷移先対話状態確定部に出力する。
【０１１５】
遷移先対話状態確定部は遷移先対話状態仮説 S1825, S1822, S1823, S1824,S1828 が入力されると，最もスコアのよい「黒川」を利用者に確認することで遷移先対話状態を S1825 に確定し，対話動作実行部に出力する。
【０１１６】
対話動作実行部は，対話状態 S1825 が入力されると，認識対象語彙 V1825 を音声認識部に出力し，システム応答 R1825 「業種をどうぞ」を利用者に出力して対話を継続する。
【０１１７】
以上の動作により，対話状態遷移記憶部が利用者の入力に対する対話状態遷移の仮説を複数保持し，遷移先対話状態確定動作決定部が，最も最近に確定した対話状態からの対話状態遷移仮説系列の長さが閾値以上になった場合に遷移先対話状態を一つに確定するため，一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき，さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【０１１８】
【発明の効果】
【０１１９】
以上のように、この発明によれば，遷移先対話状態確定動作決定部が，現在選択している仮説が所定の条件を満たすときに遷移先対話状態を一つに確定するため，一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき，さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【０１２０】
また、この発明によれば，対話状態遷移記憶部が利用者の入力に対する対話状態遷移の仮説を複数保持し，遷移先対話状態確定動作決定部が，現在選択している仮説に対する認識スコアが閾値より悪くなったときに遷移先対話状態を一つに確定するため，一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき，さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【０１２１】
また、この発明によれば，規定された認識対象語彙が大きいため他の対話状態の認識対象語彙と同時に音声認識処理を行うことが望ましくなく，該対話状態に遷移する直前に予め確定動作を行う必要がある対話状態に対して，遷移先対話状態確定動作決定部が確定動作実行を決定し，遷移先対話状態決定部が遷移先対話状態を確定するため，認識対象語彙を限定でき認識率が向上する。
【０１２２】
また、この発明によれば，利用者の入力に対する対話状態遷移の仮説を複数保持し，利用者からの入力項目がすべて入力されていなくても，認識結果を確定することにより未入力項目に対する項目値が一意に定まる場合に遷移先対話状態を一つに確定するため，一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき，さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【０１２３】
また、この発明によれば，対話状態遷移記憶部が利用者の入力に対する対話状態遷移の仮説を複数保持し，遷移先対話状態確定動作決定部が，遷移先対話状態仮説に共通のシステム発話が存在しなくなった場合に遷移先対話状態を一つに確定するため，一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき，さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【０１２４】
また、この発明によれば，対話手順記憶部に記憶された各対話状態に複数のシステム応答を記述することで，遷移先対話状態仮説に共通のシステム発話が存在する場合は，遷移先対話状態確定動作決定部は確認による確定動作を行わず，各遷移先対話状態仮説に共通のシステム発話を出力して対話を継続し，一方，遷移先対話状態確定部で遷移先対話状態が確定した場合には，確定した対話状態に固有のシステム応答を行えるため，一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき，さらに対話状態遷移に応じた自然な応答を行えるため，利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【０１２５】
また、この発明によれば，遷移先対話状態仮説に規定された認識対象語彙の規模が大きく，認識率が低下する恐れがある場合に遷移先対話状態確定動作決定部が確定動作実行を決定し，遷移先対話状態決定部が遷移先対話状態を確定するため，認識対象語彙を限定でき認識率が向上する。
【０１２６】
また、この発明によれば，対話状態遷移記憶部が利用者の入力に対する対話状態遷移の仮説を複数保持し，遷移先対話状態確定動作決定部が，最も最近に確定した対話状態からの対話状態遷移仮説系列の長さが閾値以上になった場合に遷移先対話状態を一つに確定するため，一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき，さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【図面の簡単な説明】
【図１】この発明の実施の形態１である音声対話装置の構成図。
【図２】実施の形態１における対話手順記憶部に保持された対話状態の一例を示す説明図。
【図３】実施の形態１における遷移先対話状態仮説を対話状態遷移記憶部に書き加えた結果の説明図。
【図４】実施の形態１における遷移先対話状態仮説確定結果の対話状態遷移記憶部の説明図。
【図５】実施の形態２における対話手順記憶部に保持された対話状態の一例を示す説明図。
【図６】実施の形態２における対話手順記憶部に保持された対話状態の一例を示す説明図。
【図７】実施の形態２における遷移先対話状態仮説を対話状態遷移記憶部に書き加えた結果の説明図。
【図８】実施の形態３における対話手順記憶部に記憶された対話状態の説明図。
【図９】実施の形態３における電話番号データベースの説明図。
【図１０】実施の形態４における対話手順記憶部に記憶された対話状態の説明図。
【図１１】実施の形態５における対話手順記憶部に記憶された対話状態の説明図。
【図１２】実施の形態７における遷移先対話状態仮説を対話状態遷移記憶部に書き加えた結果の説明図。
【図１３】実施の形態７における対話状態遷移記憶部の対話開始対話状態から現対話状態までの遷移系列の説明図。
【図１４】従来の認識候補抽出装置の構成図。
【符号の説明】
1：音声認識部，2：対話手順記憶部，3：対話状態遷移記憶部，4：遷移先対話状態確定動作決定部，5：遷移先対話状態確定部，6：暫定遷移先対話状態決定部，7：対話動作実行部。

Claims

音声認識部と，対話手順記憶部と，遷移先対話状態確定動作決定部と，対話動作実行部とを備え，音声での対話により，利用者が必要とする情報を得る音声対話装置であって，
対話手順記憶部は，各対話状態における認識対象語彙，システム応答と，システム応答に想定される答え及びその答えに応じた遷移先対話状態を規定して記憶し，
音声認識部は，入力音声に対して，対話手順記憶部に記憶された各対話状態に応じた認識対象語彙を用いて音声認識を行って，複数の認識結果を出力し，
遷移先対話状態確定動作決定部は，前記音声認識部からの認識結果と対話手順記憶部の内容により遷移先対話状態を定め、その遷移先対話状態の仮説が予め定められた所定条件を満たす場合は一つに確定し、所定条件を満たさない場合は確定を保留する決定をすると共に遷移先対話状態仮説を出力し，
対話動作実行部は、仮説を一つに確定する場合、遷移先対話状態確定動作決定部からの遷移先対話状態仮説の認識結果を確認するシステム応答を出力し、確定を保留する場合は、遷移先対話状態仮説のシステム応答を出力することを特徴とする音声対話装置。
対話状態遷移記憶部と，遷移先対話状態確定部と，暫定遷移先対話状態決定部とを付加し、
遷移先対話状態確定動作決定部は，音声認識部からの認識結果と対話状態遷移記憶部又は対話手順記憶部の内容とから定まる遷移先対話状態の仮説を一つに確定するか、確定を保留するかを決定し，遷移先対話状態仮説を出力し，
遷移先対話状態確定部は，遷移先対話状態確定動作決定部からの遷移先対話状態仮説を一つに確定する場合にその遷移先対話状態仮説を入力とし，利用者に認識結果を確認することにより遷移先対話状態を確定して出力するとともに，対話状態遷移記憶部に対し，記憶されている遷移先対話状態仮説をを書変え，
暫定遷移先対話状態決定部は，遷移先対話状態確定動作決定部からの遷移先対話状態仮説を保留する場合にその遷移先対話状態仮説を入力とし，暫定的な遷移先対話状態を決定して出力するとともに，対話状態遷移記憶部に対し遷移先対話状態仮説を書変え，
対話状態遷移記憶部は，対話開始時点からの対話状態遷移履歴と遷移先対話状態確定部又は，暫定遷移先対話状態決定部からの遷移先対話状態仮説を記憶し，
対話動作実行部は，遷移先対話状態確定部または暫定遷移先対話状態決定部からの遷移先対話状態を入力とし，該遷移先対話状態に規定されたシステム応答を出力するとともに，該遷移先対話状態に規定された認識対象語彙を前記音声認識部に出力し，
音声認識部は，入力音声に対して，対話動作実行部から入力される認識対象語彙を用いて音声認識を行い，複数の認識結果を出力することを特徴とする請求項１記載の音声対話装置。
音声認識部は，複数の認識結果とその認識結果のスコアを出力するように構成され、
遷移先対話状態確定動作決定部は，音声認識部からの入力された認識結果のスコアに応じて確定動作を行うか否かを決定することを特徴とする請求項１又は２記載の音声対話装置。
対話手順記憶部に記憶された各対話状態には，他の対話状態から該対話状態へ状態遷移を行うために予め確定動作を行う必要があるか否かを記述し，遷移先対話状態確定動作決定部は，音声認識部から入力される認識結果と対話状態遷移記憶部の内容と対話手順とから定まる遷移先対話状態の仮説が，予め確定動作を行う必要があるものの場合に確定動作を行うと決定することを特徴とする請求項１〜３いずれか記載の音声対話装置。
遷移先対話状態確定動作決定部は，利用者からの入力項目がすべて入力されていなくても，音声認識部からの認識結果を確定することにより未入力項目に対する項目値が一意に定まる場合に確定動作を行うと決定することを特徴とする請求項１〜４いずれか記載の音声対話装置。
遷移先対話状態確定動作決定部は，遷移先対話状態仮説に規定されたシステム応答に応じて確定動作を行うか否かを決定する
ことを特徴とする請求項１〜５いずれか記載の音声対話装置。
遷移先対話状態確定動作決定部は，遷移先対話状態仮説に共通のシステム応答が存在しない場合に確定動作を行うと決定し，遷移先対話状態仮説に共通のシステム応答が存在する場合には，共通のシステム発話を持つ遷移先対話状態仮説のみを遷移先対話状態仮説として出力する
ことを特徴とする請求項６記載の音声対話装置。
対話手順記憶部に記憶された各対話状態には，複数のシステム応答を記述でき，対話動作実行部は，暫定遷移先対話状態決定部から遷移先対話状態が入力された場合，入力された遷移先対話状態に規定されたシステム応答のうち，対話状態遷移記憶部に記憶された遷移先対話状態仮説に規定されたシステム応答と共通のものを出力する
ことを特徴とする請求項５または６記載の音声対話装置。
遷移先対話状態確定動作決定部は，遷移先対話状態仮説の全ての認識対象語彙を合計した語彙の規模が予め定めた基準より大きい場合に確定動作を行うと決定する
ことを特徴とする請求項１〜７いずれか記載の音声対話装置。
遷移先対話状態確定動作決定部は，対話状態遷移記憶部を参照して，確定した対話状態から遷移先対話状態仮説までの遷移系列の長さが予め定めた基準値以上の場合に確定動作を行うと決定する
ことを特徴とする請求項１〜８いずれか記載の音声対話装置。