JP2014077969A

JP2014077969A - 対話システム及び対話システム向け発話の判別方法

Info

Publication number: JP2014077969A
Application number: JP2012227014A
Authority: JP
Inventors: Mikio Nakano; 幹生中野; Kazunori Komatani; 和範駒谷; Akira Hirano; 平野　　明
Original assignee: Honda Motor Co Ltd; Nagoya University NUC
Current assignee: Honda Motor Co Ltd; Nagoya University NUC
Priority date: 2012-10-12
Filing date: 2012-10-12
Publication date: 2014-05-01
Anticipated expiration: 2032-10-12
Also published as: JP6066471B2; US20140156276A1

Abstract

【課題】特別な信号を必要とせず、音声認識結果以外の情報を含む種々の情報を使用して対話システムに向けられた発話を正確に識別する対話システムを提供する。
【解決手段】対話システム（１００）は、発話を検出し、音声を認識する発話検出・音声認識部（１０１）と、発話の特徴を抽出する発話特徴抽出部（１０３）と、を備えている。前記発話特徴抽出部は、対象とする発話の長さ、対象とする発話と直前の発話との時間関係、及びシステム状態を含む特徴に基づいて、対象とする発話が前記対話システムに向けられたものであるかどうかを判別する。
【選択図】図１

Description

本発明は、対話システム及び対話システム向け発話の判別方法に関する。

対話システムは、基本的に入力された発話に対して応答すべきである。しかし、話者（ユーザ）の独り言や相槌などに対して、対話システムは応答すべきではない。たとえば、ユーザが対話中に独り言を言った場合に対話システムがユーザに対して聞き返すなどの応答を行うと、ユーザは、その応答に対して本来必要でない対応をする必要が生じる。このように、対話システムが対話システムに向けられた発話を正確に判別することは重要である。

従来の対話システムにおいて、一定の発話長よりも短い入力は雑音とみなして無視する方法が採用されている（非特許文献１）。また、音声認識結果の言語的特徴や音響的特徴、他話者の発話情報を用いて、対話システムに向けた発話を検出する研究も行われている（非特許文献２）。一般的に、従来の対話システムに入力された発話を対話システムが扱うべきか否かの判断は、音声認識結果が正しいかどうかの観点から行われている。他方、ユーザが、対話システムに向けた発話であることを示す特別な信号を対話システムに送る方法も開発されている（特許文献１）。

しかし、特別な信号を必要とせず、発話長や音声認識結果以外の情報を含む種々の情報を使用して対話システムに向けられた発話を正確に識別する対話システム、及び識別方法は開発されていない。

特開２００７―１２１５７９号公報 Lee, A., Kawahara, T.: Recent Development of Open-Source Speech Recognition Engine Julius, in Proc. APSIPA ASC, pp. 131-137 (2009) Yamagata, T., Sako, A., Takiguchi, T., and Ariki, Y.: System request detection in conversation based on acoustic and speaker alternation features, in Proc. INTER-SPEECH, pp. 2789-2792 (2007)

したがって、特別な信号を必要とせず、発話長や音声認識結果以外の情報を含む種々の情報を使用して対話システムに向けられた発話を正確に識別する対話システム、及び識別方法に対するニーズがある。

本発明の第１の態様による対話システムは、発話を検出し、音声を認識する発話検出・音声認識部と、発話の特徴を抽出する発話特徴抽出部と、を備えている。前記発話特徴抽出部は、対象とする発話の長さ、対象とする発話と直前の発話との時間関係、及びシステム状態を含む特徴に基づいて、対象とする発話が前記対話システムに向けられたものであるかどうかを判別する。

本態様による対話システムは、対象とする発話の長さの他に、対象とする発話と直前の発話との時間関係、及びシステム状態を考慮して対象とする発話が対話システムに向けられたものであるかどうか判別するので、対象とする発話の長さのみを使用して判別する場合と比較してより高い精度で判別を行うことができる。

本発明の第１の実施形態による対話システムにおいて、前記特徴が発話内容及び音声認識結果から得る特徴をさらに含む。

本実施形態による対話システムは、発話内容及び音声認識結果から得る特徴を考慮して対象とする発話が対話システムに向けられたものであるかどうか判別するので、音声認識が首尾よく機能する場合にはさらに高い精度で判別を行うことができる。

本発明の第２の実施形態による対話システムにおいて、前記発話特徴抽出部が、正規化した各特徴を説明変数とするロジスティック関数を使用して判別を行う。

本実施形態による対話システムは、ロジスティック関数を使用するので、判別のためのトレーニングを容易に行うことができる。また、判別精度をさらに向上させるために特徴選択を行うことができる。

本発明の第３の実施形態による対話システムにおいて、前記発話検出・音声認識部が、発話間の無音区間が所定時間以下の発話をマージして一発話とするように構成されている。

本実施形態による対話システムは、発話間の無音区間が所定時間以下の発話をマージして一発話とするように構成されているので、発話区間を確実に検出することができる。

本発明の第２の態様による判別方法は、発話検出・音声認識部と、発話特徴抽出部と、を備えた対話システムが、発話が前記対話システムに向けられたものであるかどうかを判断する判別方法である。該判別方法は、発話検出・音声認識部が発話を検出し、音声を認識するステップと、前記発話特徴抽出部が対象とする発話の長さ、対象とする発話と直前の発話との時間関係、及びシステム状態を含む特徴に基づいて、対象とする発話が前記対話システムに向けられたものであるかどうかを判別するステップと、を含む。

本態様による判別方法は、対象とする発話の長さの他に、対象とする発話と直前の発話との時間関係、及びシステム状態を考慮して対象とする発話が対話システムに向けられたものであるかどうか判別するので、対象とする発話の長さのみを使用して判別する場合と比較してより高い精度で判別を行うことができる。

本発明の一実施形態による対話システムの構成を示す図である。発話の長さ（発話長）を説明するための図である。発話時間間隔（インターバル）を説明するための図である。ｘ_４＝１となる例を示す図である。システム発話を、ユーザが発話により遮る一般的なバージインの例を示す図である。本発明の一実施形態による対話システムの動作を示す流れ図である。特徴選択の手順を示す流れ図である。

図１は、本発明の一実施形態による対話システム１００の構成を示す図である。対話システム１００は、発話検出・音声認識部１０１と、発話特徴抽出部１０３と、対話管理部１０５と、言語理解処理部１０７と、を含む。発話検出・音声認識部１０１は、ユーザ（話者）の発話の検出と音声認識とを同時に行う。発話特徴抽出部１０３は、発話検出・音声認識部１０１によって検出されたユーザの発話の特徴を抽出し、ユーザの発話が対話システム１００に向けられたものであるかどうかを判別する。発話検出・音声認識部１０１及び発話特徴抽出部１０３については後で詳細に説明する。言語理解処理部１０７は、発話検出・音声認識部１０１によって得られた音声認識の結果に基づいて、ユーザの発話の内容を理解するための処理を行う。対話管理部１０５は、発話特徴抽出部１０３によって対話システム１００に向けられた発話であると判別された発話について、言語理解処理部１０７によって得られた発話の内容に基づいて、ユーザに対する応答を作成するための処理を行う。ユーザの独り言や相槌などは、発話特徴抽出部１０３によって、対話システム１００に向けられた発話ではないと判別されるので、対話管理部１０５がユーザに対する応答を作成することはない。対話システム１００は、他にユーザ向けの言語を生成する言語生成処理部、ユーザ向けの言語の音声を合成する音声合成部などを含むが、本発明には関係がないので図１には示していない。

発話検出・音声認識部１０１は、一例として、Juliusのdecoder-vadモードによる発話区間検出及び音声認識を行う。Juliusのdecoder-vadとは、Julius ver.4で実装されたコンパイル時のオプションの一つであり（李晃伸．大語彙連続音声認識エンジンJulius ver.4. 情報処理学会研究報告報、2007-SLP-69-53.一般社団法人情報処理学会、2007.）、デコーディング結果を用いて発話区間検出を行う。つまり、デコーディングの結果、最尤結果が無音単語である区間が一定フレーム以上続くとき、そこを無音区間と決定し、辞書中の単語が最尤であった場合は、それを認識結果として採用する（酒井啓行、ツィンツアレクトビアス、川波弘道、猿渡洋、鹿野清宏、李晃伸．実環境ハンズフリー音声認識のための音響モデルと言語モデルに基づく音声区間検出と認識アルゴリズム（電子情報通信学会技術研究報告．SP,音声、Vol. 103,No.632, pp.13-18,2004-01-22.））。この結果、発話区間検出と音声認識を同時に行うこととなるため、振幅レベルや零交差数など事前設定するパラメータに依存せず、高精度な発話区間検出が可能となる。

発話特徴抽出部１０３は、最初に発話の特徴を抽出する。つぎに、発話特徴抽出部１０３は、対象とする発話に対して受諾（システムに向けた発話）か棄却（そうでない発話）かを判断する。一例として、具体的に、発話特徴抽出部１０３は、各特徴を説明変数とする以下のロジスティック回帰関数を使用する。

ロジスティック回帰関数の目的変数として、受諾に１、棄却に０を割り当てる。ｘ_ｋは、以下に説明する各特徴の値、ａ_ｋは、各特徴の係数であり、ａ_０は定数項である。

表１は、特徴の一覧を示す表である。ｘ_ｉは特徴を表す。実際の対話中で利用するため、特徴にはその発話までに得られる情報のみを使用した。値の区間が定まっていない特徴の値は、値を算出した後、平均が０、分散が１となるように正規化した。

発話の長さ
ｘ_１は入力された発話の長さを表す。単位は秒である。発話が長いほどユーザが意図して行った発話である可能性が高い。

図２は発話の長さ（発話長）を説明するための図である。図２乃至図５において、太い線は発話区間を示し、細い線は非発話区間を示す。

直前の発話との時間関係
特徴ｘ_２からｘ_５は、対象とする現在の発話と直前の発話との時間関係を表す。ｘ_２は発話時間間隔（インターバル）であり、現在の発話の開始時刻と、その前のシステム発話の終了時刻との差と定義される。単位は秒とする。

図３は発話時間間隔（インターバル）を説明するための図である。

ｘ_３は、ユーザ発話が連続していることを表す。つまり、直前の発話がユーザによる発話であった場合に１とする。なお、一発話は、機械的に一定長の無音区間で区切ることで認定しているため、ユーザ発話やシステム発話が連続することがしばしば起こる。

ｘ_４及びｘ_５は、バージインに関する特徴である。バージインは、システムの発話中に、ユーザが割り込んで話し始める現象である。ｘ_４は、バージインのうち、ユーザの発話区間が、システムの発話区間に含まれている場合に１とする。つまり、ユーザがシステムの発話中に割り込んだが、システムより先に発話を止めた場合である。ｘ_５は、バージインタイミングである。システム発話の長さに対する、システム発話の開始時刻からユーザ発話の開始時刻までの間の時間の比である。つまり、ｘ_５は、システムの発話開始時刻を０、システムの発話終了時刻を１として、システムの発話のどの部分でユーザが割り込んだかを０と１の間の数値で表している。

図４は、ｘ_４＝１となる例を示す図である。ユーザの独り言や相槌などはこの例に該当する。

図５は、システム発話を、ユーザが発話により遮る一般的なバージインの例を示す図である。この場合、ｘ_４＝０となる。

システムの状態
ｘ_６はシステムの状態を表す。システムの状態は、直前のシステム発話が、ターン（発言権）を譲与するものである場合に１とし、ターンを保持する場合に０とする。

表２は、ターンを譲与または保持するシステム発話の例を示す表である。１番目及び２番目の発話は、システムの応答に続きがあるため、システムがターンを保持していると考える。一方、３番目の発話は、システムが話し終えてユーザに質問をしているため、システムが発言権をユーザに譲与しているとする。この保持と譲与の認定は、システム発話に対して付与していた１４種類のタグを分類することにより行った。

表２においてＳとＵは、それぞれ、システムとユーザを表す。「ｘｘ−ｙｙ」は、発話の開始および終了時刻（単位：秒）を表す。

発話の内容（発話の言語表現）
特徴ｘ_７からｘ_１１は、発話の表現中に、以下に挙げる表現が含まれていることを表す。ｘ_７は、「はい」、「いいえ」、「そうです」など、システムの発話に対する返答を表す表現１１種類が含まれているときに１とする。ｘ_８は、「教えてください」などの要求の表現が含まれているときに１とする。ｘ_９は、システムによる一連の説明を中断させる、「おわり」という単語が含まれている場合に１とする。ｘ_１０は、フィラーを表す「えーっと」や「へー」などの表現が含まれる場合に１とする。ここで、フィラーとは、対話中の話し手（ユーザ）の心的な情報処理操作を表す表現である。フィラーは人手で２１種類を用意した。ｘ_１１は、内容語を表す２４４後のどれかが含まれる場合を１、それ以外を０とする。内容語は、地域名や建物など、システムで使用される固有名詞である。

音声認識結果から得る特徴
ｘ_１２は、当該発話に対する音声認識結果と検証用音声認識器との間の、音響尤度差スコアの差である（Komatani, K., Fukubayashi, Y., Ogata, T., and Okuno, H. G.,: Introducing Utterance Verification in Spoken Dialogue System to Improve Dynamic Help Generation for Novice Users, in Proc. 8^th SIGdial Workshop on Discourse and Dialogue, pp. 202-205 (2007)）。検証用音声認識器の言語モデルには、julius ディクテーション実行キットに含まれる、ウェブから学習した言語モデル（語彙サイズ６万）を使用した。上記の差を発話長で正規化したものを本特徴とする。

図６は、本発明の一実施形態による対話システムの動作を示す流れ図である。

図６のステップＳ１０１０において、発話検出・音声認識部１０１が、発話検出及び音声認識を行う。

図６のステップＳ１０２０において、発話特徴抽出部１０３が、発話の特徴を抽出する。具体的には、現在の発話について、上述のｘ_１乃至ｘ_１２の値を定める。

図６のステップＳ１０３０において、発話特徴抽出部１０３が、発話の特徴に基づいて、発話が対話システムに向けられたものであるかどうか判別する。具体的には、式（１）のロジスティック回帰関数を使用して、対象とする発話に対して受諾（システムに向けた発話）か棄却（そうでない発話）かを判断する。

対話システムの評価実験について以下に説明する。

最初に評価実験の対象データについて説明する。本実験では、音声対話システムを用いて収集した対話データ（Nakano, M., Sato, S., Komatani, K., Matsuyama, K., Funakoshi, K., and Okuno, H. G.: A Two-Stage Domain Selection Framework for Extensible Multi-Domain Spoken Dialogue Systems, in Proc. SIGDAL Conference, pp. 18-29 (2011)）を対象とする。以下においては、データ収集の方法と、書き起こしの作成基準について説明する。ユーザは１９歳乃至５７歳の一般男女３５名（男性１７名、女性１８名）である。１回８分の対話を、一人当たり４回収録した。対話方法についてあらかじめ指定せず、自由に対話するように指示した。その結果、１９４１５発話（ユーザ：５３９５発話、対話システム：１４０２０発話）を得た。収集した音声データを、４００ミリ秒の無音区間で機械的に区切って書き起こしを作成した。ただし、促音など、形態素内部では、４００ミリ秒以上の無音区間があっても、区切らず一発話に含めた。４００ミリ秒よりも短いポーズは、当該部分に＜ｐ＞を挿入して表記した。この発話ごとに、発話の内容を表すタグ２１種類（要求、応答、独り言など）を人手で付与した。

この書き起こしの単位と、受諾／棄却を判断すべきユーザ意図の単位は必ずしも合致しない。このため、短い無音区間を挟んで連続する発話を、マージして一発話とみなすという前処理を行う。ここでは、他の手法（たとえば、Sato, R., Higashinaka, R., Tamoto, M., Nakano, M. and Aikawa, K.: Learning decision trees to determine turn-taking by spoken dialogue systems, in Proc. ICSLP (2002)）で発話の修了認定が正しく行えると仮定している。上記の前処理は、書き起こしと音声認識結果それぞれについて別に行った。

書き起こしについては、ユーザの発話に対して付与したタグの中に、発話が複数に分かれていることを示すものがあるため、これが付与されている場合、二発話をマージして一発話とする。この結果、ユーザ発話数は５１９３発話となった。受諾または棄却の正解ラベルの付与は、これも人手で付与しておいたユーザ発話タグをもとに行った。その結果、受諾が４２５７発話、棄却が９３６発話となった。

一方、音声認識結果に対しては、発話間の無音区間が１１００ミリ秒以下のものをマージした。この結果、発話数は４２９８発話となった。音声認識結果に対する正解ラベルは、書き起こしと音声認識結果の時間的な対応関係に基づき付与した。具体的には、音声認識結果の発話開始または終了時刻が、書き起こしにおける発話の区間内にある場合、その音声認識結果と書き起こしデータ内の発話は対応するとする。その後、書き起こしデータにおける正解ラベルを、対応する音声認識結果に付与した。

表３は、実験対象の発話数を示す表である。書き起こしの発話数と比較して、音声認識結果の発話数が少ないのは、発話断片が前後の発話とマージされたことや、人手では書き起こされていた発話の中で音声認識結果では発話区間が検出されないものが存在したためである。

つぎに、評価実験の条件について説明する。実験における評価基準は、受諾すべき発話と棄却すべき発話を正しく判断できた精度とする。ロジスティック回帰の実装には、”weka.classifiers.functions.Logistic”（Hall, M., Frank, E., Holmes, G., Pfharinger, B., Reutemann, P., and Witten, I., H.: The WEKA data mining software: an update, SIGKDD Explor. Newsl., Vol. 97, No. 1-2, pp.10-18 (2009)）を用いた。式（１）中の係数ａ_ｋは、１０分割交差検定により推定した。学習データの中で、受諾すべき発話吸うと棄却すべき発話数に偏りがあるため、棄却に対して発話数の日に対応する重みを与え、学習と評価を行った。このため、マジョリティべースラインは５０％である。

実験条件として、以下の４個の実験条件を設定した。

１．発話長のみを用いる場合
特徴ｘ１のみで判別を行う。これは、音声認識エンジンJuliusのオプション-rejectshotを用いる場合に相当し、簡便に実現できる方法であるため、ベースラインの一つとした。発話長の閾値は、学習データに対して判別精度が最高となるように定めた。具体的には、書き起こしに対しては１．１０秒、音声認識結果に対しては１．５８秒とし、それよりも発話長が長い場合を受諾とした。

２．全特徴を用いる場合
表１に挙げた特徴をすべて用いて判別を行う。書き起こしの場合は、音声認識から得られる特徴（ｘ_１２）以外をすべて用いる。

３．音声対話システム特有の特徴を除いた場合
上記の「全特徴を用いる場合」から、音声対話システム特有の特徴、つまりｘ_２からｘ_６を使用しない場合である。この条件をもう一つのベースラインとした。

４．特徴選択を行った場合
利用可能な全特徴に対して、backward stepwise feature selection による特徴選択（Kohavi, R., and John, G. H.: Wrappers for feature subset selection, Artificial Intelignce, Vol. 97, No. 1-2, pp. 273-324 (1997)）を行った場合である。つまり、特徴を一つずつ取り除いて判別精度を計算し、判別精度が悪化しない場合はその特徴を取り除くという手順を、いずれの特徴を取り除いても判別精度が悪化するようになるまで繰り返した場合の結果である。

図７は特徴選択の手順を示す流れ図である。

図７のステップＳ２０１０において、特徴集合Ｓから０または１個の特徴を除外した特徴集合をＳ_ｋとする。ここで、ｋは除外した特徴番号を表す。特徴の数をｎとして、ｋは１からｎまでの整数である。ただし、特徴を除外しない場合は、ｋ＝φとする。

図７のステップＳ２０２０において、集合Ｓ_ｋを用いた判別精度をＤ_ｋとしてｋについての最大値Ｄ_{ｋ_ｍａｘ}を求める。

図７のステップＳ２０３０において、Ｄ_{ｋ_ｍａｘ}に対応するｋをｋｍａｘとして、
ｋｍａｘ＝φ
であるかどうか判断する。判断の結果が肯定的であれば、処理を終了する。判断の結果が否定的であれば、ステップＳ２０４０に進む。

図７のステップＳ２０４０において、
Ｓ＝Ｓ_{ｋ_ｍａｘ}
として、ステップＳ２０１０に戻る。ここで、Ｓ_{ｋ_ｍａｘ}は、現在の特徴集合から特徴番号ｋｍａｘの特徴を除外した特徴集合である。

つぎに、書き起こしデータに対する判別性能について説明する。表３に記載されているユーザ発話５１９３発話（受諾４２５７、棄却９３６）に対して、１０分割交差検定により判別精度を計算した。正解ラベルの偏りを考慮して、棄却すべき発話に４．５５（＝４２５７／９３６）の重みを与えて学習を行った。

表４は、４個の実験条件について書き起こしデータに対する判別精度を示す表である。全特徴を用いた場合の方が、音声対話システム特有の特徴を除いた場合よりも判別精度が高い。このことより、音声対話システム特有の特徴により判別精度が向上したことがわかる。特徴選択の結果、特徴ｘ３とｘ５が取り除かれた。発話長のみを用いるベースラインと特徴選択を行った場合を比較すると、判別精度は全体で１１．０ポイント向上した。

つぎに、音声認識結果に対する判別精度について説明する。ユーザ発話の音声認識結果４２９８個（受諾４０９６個、棄却２０２個）に対して、同様に１０分割交差検定による判別精度を計算した。音声認識にはJuliusを使用した。言語モデルの語彙サイズは５１７発話、音素正解率は６９．５％であった。正解ラベルの偏りを考慮して棄却に２０．３（＝４０９６／２０２）の重みを与えて学習を行った。

表５は、４個の実験条件について音声認識結果に対する判別精度を示す表である。書き起こしデータの場合と同様に、全特徴を用いた場合の方が、音声対話システム特有の特徴を除いた場合よりも判別精度が高い。この差は、マクネマー検定により統計的に有意であった。このことは、音声対話システムの特徴が、受諾と棄却の判別に優位であったことを示している。特徴選択では、ｘ_３、ｘ_７、ｘ_９、ｘ_１０、ｘ_１２の５個の特徴が取り除かれた。

表６は、各特徴の係数の性質を示す表である。係数ａ_ｋが正であった特徴は、値が１、または大きいほど、その発話が受諾とされる傾向がある。係数ａ_ｋが負であった特徴は、値が１、または大きいほど、その発話が棄却とされる傾向がある。たとえば、特徴ｘ_５の係数は正であるので、バージインがシステムの発話の後半に対するものであれば、受諾と判別される可能性が高くなる。特徴ｘ_４の係数は負であるので、ユーザの発話区間がシステムの発話区間に包含されていた場合には、棄却と判別される可能性が高くなる。

表４と表５とを比較すると、音声認識結果に対する判別精度は、書き起こしデータ見対する判別精度よりも低い。これは、音声認識誤りによるものである。また、音声認識結果に対する判別では、発話内容を示す特徴（ｘ_７、ｘ_９、ｘ_１０）が特徴選択によって除外されている。これらの特徴は音声認識結果に強く依存するため、音声認識誤りが多く生じた場合には有効でなくなり、特徴選択により除外されている。

たとえば、対話システムの発話中のユーザのフィラーが音声認識誤りにより内容語を含んでいると判断された場合は、そのままでは受諾と判断される可能性が高い。ここで、ユーザ発話がシステム発話の前半で始まっているとすると、特徴ｘ５の値は小さくなる。また、ユーザ発話の発話区間がシステム発話の発話区間に包含されているとすると、特徴ｘ４の値は１となる。音声対話システムにおいて、これらの音声対話システム特有の特徴を使用することにより、フィラーが誤認識された場合にも、棄却と判断することができる。音声対話システム特有の特徴は音声認識結果に依存しないため、音声認識結果が誤りがちである場合でも、発話の判別に有用である。

本実施形態の対話システムでは、前発話との時間関係や対話の状態などの、対話システム特有の特徴を使用して受諾と棄却の判別を行った。対話システム特有の特徴を使用することで、発話長のみを使用するベースラインと比較して、受諾と棄却の判別率は、書き起こしデータで１１．４ポイント、音声認識結果で４．１ポイントそれぞれ向上した。

Claims

発話を検出し、音声を認識する発話検出・音声認識部と、発話の特徴を抽出する発話特徴抽出部と、を備えた対話システムであって、
前記発話特徴抽出部は、対象とする発話の長さ、対象とする発話と直前の発話との時間関係、及びシステム状態を含む特徴に基づいて、対象とする発話が前記対話システムに向けられたものであるかどうかを判別する対話システム。
前記特徴が発話内容及び音声認識結果から得る特徴をさらに含む請求項１に記載の対話システム。
前記発話特徴抽出部が、正規化した各特徴を説明変数とするロジスティック関数を使用して判別を行う請求項１または２に記載の対話システム。
前記発話検出・音声認識部が、発話間の無音区間が所定時間以下のものをマージして一発話とするように構成された請求項１から３のいずれかに記載の対話システム。
発話検出・音声認識部と、発話特徴抽出部と、を備えた対話システムが、発話が前記対話システムに向けられたものであるかどうかを判別する判別方法であって、
発話検出・音声認識部が発話を検出し、音声を認識するステップと、
前記発話特徴抽出部が対象とする発話の長さ、対象とする発話と直前の発話との時間関係、及びシステム状態を含む特徴に基づいて、対象とする発話が前記対話システムに向けられたものであるかどうかを判別するステップと、を含む判別方法。