JP2018109663A

JP2018109663A - 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法

Info

Publication number: JP2018109663A
Application number: JP2016256286A
Authority: JP
Inventors: 木付　英士; Eiji Kitsuke; 英士木付
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2018-07-12

Abstract

【課題】過去の対話状況に応じて適切な応答をする対話システムに用いられる音声処理装置等を提供する。【解決手段】サーバ（２０）は、制御部（２０２）を備え、制御部（２０２）は、コンテキスト情報を取得し、ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、コンテキスト情報を参照して変更する。【選択図】図１

Description

本発明は、擬似的なコミュニケーションを提供する音声処理装置、対話システム、端末装置、プログラム及び音声処理方法に関する。

ユーザにより入力された言葉に対応する応答を出力することにより、ユーザとの模擬対話を実行する模擬対話システムが知られている。特許文献１には、音声認識結果以外の情報を含む種々の情報を使用して対話システムに向けられた発話を識別する対話システムが記載されている。特許文献２には、対話が円滑に行われていない場合には、第三者又はオペレータ等の参加を許可する音声対話システムが記載されている。

特開２０１４−０７７９６９号公報（２０１４年５月１日公開）特開２００２−２０２８８２号公報（２００２年７月１９日公開）

ところで、疑似対話システムにおいては、対話の状況に応じて応答を変えないという問題がある。このため、過去の対話状況に応じて適切な応答をする対話システムに用いられる音声処理装置等が求められている。

しかしながら、上述の先行技術は、過去の対話状況に応じて、適切な応答をするには十分ではない。特許文献１に記載の発明は、対象とする発話の長さ、及び、対象とする発話と直前の発話との時間関係等に基づいて、対象とする発話が対話システムに向けられたものであるかどうかを判別するものである。すなわち、特許文献１に記載の発明は、過去の対話状況に基づき、適切な応答をするものではない。また、特許文献２に記載の発明は、対話が円滑に行われていないかどうかを判断する手段について具体的に記載しているものの、円滑に行われていない場合には、単に、その対話内容に詳しい第三者又はオペレータ等が対話に参加することしか記載されていない。すなわち、特許文献２には、対話が円滑に行われていない場合に、どのように適切な応答内容を決定するかについては、具体的に記載されていない。

本発明は、上記課題を踏まえたものであり、その目的は、過去の対話状況に応じて適切な応答をする対話システムに用いられる音声処理装置等を提供することにある。

上記の課題を解決するために、本発明の一態様に係る音声処理装置は、ユーザとの対話を行う対話システムに用いられる音声処理装置であって、１又は複数の制御部を備え、上記１又は複数の制御部は、過去の対話のコンテキストを示すコンテキスト情報を取得し、上記ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、上記コンテキスト情報を参照して変更する。

上記の課題を解決するために、本発明の一態様に係る音声処理装置は、ユーザとの対話を行う対話システムに用いられる音声処理装置であって、１又は複数の制御部を備え、上記１又は複数の制御部は、過去の対話のコンテキストを示すコンテキスト情報を取得し、上記ユーザに対する応答フレーズの長さを、上記コンテキスト情報を参照して変更する。

上記の課題を解決するために、本発明の一態様に係る音声処理装置は、ユーザとの対話を行う対話システムに用いられる音声処理装置であって、１又は複数の制御部を備え、上記１又は複数の制御部は、過去の対話のコンテキストを示すコンテキスト情報を取得し、上記ユーザに対する応答の頻度を、上記コンテキスト情報を参照して変更する。

上記の課題を解決するために、本発明の一態様に係る対話システムは、ユーザとの対話を行う対話システムであって、音声を取得する音声取得部と、１又は複数の制御部と、上記ユーザに対する応答内容を出力する出力部とを備えており、上記１又は複数の制御部は、過去の対話のコンテキストを示すコンテキスト情報を取得し、上記音声取得部が取得する音声から認識対象音声区間の切り出しを行い、上記切り出しにおいて参照される閾値を、上記コンテキスト情報を参照して変更し、上記切り出しによって切り出された認識対象音声区間の音声認識を行い、上記音声認識によって認識された認識内容を参照し、上記ユーザに対する応答内容を決定する。

上記の課題を解決するために、本発明の一態様に係る対話システムは、ユーザとの対話を行う対話システムであって、音声を取得する音声取得部と、１又は複数の制御部と、上記ユーザに対する応答内容を出力する出力部とを備えており、上記１又は複数の制御部は、過去の対話のコンテキストを示すコンテキスト情報を取得し、上記ユーザに対する応答フレーズの長さを、上記コンテキスト情報を参照して変更し、上記音声取得部が取得する音声から認識対象音声区間の切り出しを行い、上記切り出しによって切り出された認識対象音声区間の音声認識を行い、上記音声認識によって認識された認識内容と上記応答フレーズの長さとを参照し、上記ユーザに対する応答内容を決定する。

上記の課題を解決するために、本発明の一態様に係る対話システムは、ユーザとの対話を行う対話システムであって、音声を取得する音声取得部と、１又は複数の制御部と、上記ユーザに対する応答内容を出力する出力部とを備えており、上記１又は複数の制御部は、過去の対話のコンテキストを示すコンテキスト情報を取得し、上記ユーザに対する応答の頻度を、上記コンテキスト情報を参照して変更し、上記音声取得部が取得する音声から認識対象音声区間の切り出しを行い、上記切り出しによって切り出された認識対象音声区間の音声認識を行い、上記音声認識によって認識された認識内容と上記応答の頻度とを参照し、上記ユーザに対する応答内容を決定する。

上記の課題を解決するために、本発明の一態様に係る端末装置は、ユーザとの対話を行う端末装置であって、音声を取得する音声取得部と、上記ユーザに対する応答内容を出力する出力部と、制御部とを備え、上記制御部は、上記音声取得部が取得する音声から、上記ユーザとの過去の対話のコンテキストに応じて変更された閾値を用いて切り出された認識対象音声区間に含まれる上記ユーザの発話内容に対する応答内容を、上記出力部を介して出力する。

上記の課題を解決するために、本発明の一態様に係る端末装置は、ユーザとの対話を行う端末装置であって、音声を取得する音声取得部と、上記ユーザに対する応答内容を出力する出力部と、制御部とを備え、上記制御部は、上記音声取得部が取得する音声に含まれる上記ユーザの発話内容に対して、上記ユーザとの過去の対話のコンテキストに応じて応答フレーズの長さを変更された応答内容を、上記出力部を介して出力する。

上記の課題を解決するために、本発明の一態様に係る端末装置は、ユーザとの対話を行う端末装置であって、音声を取得する音声取得部と、上記ユーザに対する応答内容を出力する出力部と、制御部とを備え、上記制御部は、上記音声取得部が取得する音声に含まれる上記ユーザの発話内容に対して、上記ユーザとの過去の対話のコンテキストに応じて変更された上記ユーザに対する応答の頻度にて、上記出力部を介して応答内容を出力する。

上記の課題を解決するために、本発明の一態様に係る音声処理方法は、ユーザとの対話を行う対話システムに用いられる音声処理方法であって、過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、上記ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、上記コンテキスト情報を参照して変更する閾値変更工程とを備えている。

上記の課題を解決するために、本発明の一態様に係る音声処理方法は、ユーザとの対話を行う対話システムに用いられる音声処理方法であって、過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、上記ユーザに対する応答フレーズの長さを、上記コンテキスト情報を参照して変更する応答長さ変更工程とを備えている。

上記の課題を解決するために、本発明の一態様に係る音声処理方法は、ユーザとの対話を行う対話システムに用いられる音声処理方法であって、過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、上記ユーザに対する応答の頻度を、上記コンテキスト情報を参照して変更する応答頻度変更工程とを備えている。

本発明の一態様によれば、過去の対話状況に応じて適切な応答をする対話システムに用いられる音声処理装置等を提供することができるという効果を奏する。

本発明の実施形態１に係る対話システムの要部構成を示すブロック図である。本発明の実施形態１に係る対話システムの概要を示す外観図である。本発明の実施形態１に係る対話システムのロボット家電における制御部の切り出し部に格納されている盛り上がり度と閾値との関係についてのテーブルを示す図である。本発明の実施形態１に係る対話システムにおける応答音声出力処理の流れを示すシーケンス図である。本発明の実施形態１に係るサーバの記憶部に格納されている通常応答データベースの一例を示す図である。本発明の実施形態１に係るサーバの記憶部に格納されている曖昧応答データベースの一例を示す図である。本発明の実施形態２に係る対話システムの要部構成を示すブロック図である。本発明の実施形態２に係るサーバの記憶部に格納されている通常応答データベースの一例を示す図である。本発明の実施形態２に係る対話システムにおける応答音声出力処理の流れを示すシーケンス図である。本発明の実施形態３に係る対話システムの要部構成を示すブロック図である。本発明の実施形態３に係る対話システムの制御部の応答頻度変更部に格納されている盛り上がり度と曖昧応答確率との関係についてのテーブルを示す図である。本発明の実施形態３に係る対話システムにおける応答音声出力処理の流れを示すシーケンス図である。本発明の実施形態４に係る対話システムの要部構成を示すブロック図である。本発明の実施形態５に係る対話システムの要部構成を示すブロック図である。本発明の実施形態６に係る対話システムの要部構成を示すブロック図である。本発明の実施形態７に係る対話システムの要部構成を示すブロック図である。

＜実施形態１＞
本実施形態に係る対話システム１について、図１から図６を参照して以下に説明する。ただし、この実施形態に記載されている構成は、特に特定的な記載がない限り、この発明の範囲をそれのみに限定する趣旨ではなく、単なる説明例に過ぎない。

〔対話システムの概要〕
まず、本実施形態に対話システム１の概要について、図２を参照して説明する。図２は、本実施形態に係る対話システム１の概要を示す外観図である。

図２に示すように、本実施形態に係る対話システム１は、ロボット家電（端末装置）１０、及び、サーバ（音声処理装置）２０により構成されている。

対話システム１においては、ロボット家電１０に人間（ユーザ）が発した音声が入力されると、サーバ２０が、入力された音声に対する応答内容を表す音声（応答音声）を決定する。当該応答音声は、ロボット家電１０から出力される。これによって、本実施形態に係る対話システム１は、ユーザと、ロボット家電１０との疑似的な会話を実現する。

なお、上述の例では、サーバ２０が１つのサーバによって実現される構成を例に挙げて説明するが、本実施形態はこれに限定されない。本実施形態では、サーバ２０の備える各部（各機能）の少なくとも一部を、他のサーバにより実現する構成を採用してもよい。

次に、本実施形態に係る対話システム１の要部構成について、図１を参照して説明する。図１は、本実施形態に係る対話システム１の要部構成を示すブロック図である。

〔ロボット家電〕
本実施形態に係るロボット家電１０の構成について、図１を参照して説明する。図１に示すように、本実施形態に係るロボット家電１０は、通信部１０１、制御部１０２、マイク（音声取得部）１０３、スピーカ（出力部）１０４、及び、駆動部１０５を備えている。

なお、ロボット家電１０としては、対話機能を有する端末装置であれば、特に限定されない。例えば、ロボット家電１０は、掃除ロボット等のロボット、音声出力機能を有する人形、冷蔵庫、電子レンジ、シーリングライト、エアコン、時計、テレビ、パーソナルコンピュータ及びスマートフォン等の任意の形態を取ることができる。

また、ロボット家電１０を利用する環境は家に限定されず、例えば、企業のサービス用の対話ロボットとして利用することもできる。すなわち、ロボット家電１０は、家電機能を有していない端末装置であってもよい。

（通信部）
通信部１０１は、外部との通信を行う手段である。具体的には、通信部１０１は、例えばインターネット等のネットワークを介してサーバ２０と無線通信を行ってもよく、サーバ２０と有線接続され、有線通信を行ってもよい。ロボット家電１０の通信部１０１と、サーバ２０の通信部２０１とが有線接続される場合としては、例えば、ロボット家電１０とサーバ２０とが両方とも家庭内にある場合が挙げられる。

（マイク）
マイク１０３は、外部から音の入力を受け付ける。なお、本実施形態では、マイク１０３が入力を受け付ける音を示す「音声」には、主に人間の発する音声及びその他の音のデータが含まれる。

マイク１０３は、入力された音を示す音声を、制御部１０２に逐次供給する。

（スピーカ）
スピーカ１０４は、制御部１０２から供給される応答内容データの示す応答音声を出力する。以降では、ロボット家電１０がスピーカ１０４を介して行う応答音声の出力を、「発話」とも記載する。なお、応答内容の詳細については、後述する。

このように、上述の例では、スピーカ１０４から応答音声を出力しているが、本実施形態では、スピーカ１０４は、このような形態に限定されない。例えば、スピーカ１０４の代わりに、音声を出力せず、単に画面に音声テキスト等の応答内容を表示するディスプレイのようなものであってもよい。

（駆動部）
駆動部１０５は、制御部１０２からの指示に基づいて、ロボット家電１０を駆動させる。

このように、駆動部１０５は、ロボット家電１０を駆動させることができる。このため、スピーカ１０４による応答音声の出力とともに、駆動部１０５によりロボット家電１０自体又はロボット家電１０の各部を動かすことができる。例えば、駆動部１０５は、スピーカ１０４が「うん」と曖昧応答するときに、頷くようにロボット家電１０を動かしてもよい。これにより、ロボット家電１０は、過去の対話状況に応じて、より適切な応答をすることができる。このように、駆動部１０５は、ユーザに応答内容を出力する構成であるともいえるので、駆動部１０５を出力部と呼ぶこともある。

（制御部）
制御部１０２は、ロボット家電１０の各部を統括的に制御する。例えば、制御部１０２は、スピーカ１０４を制御することにより、応答音声の出力を制御したり、駆動部１０５を制御することにより、ロボット家電１０の動作を制御したりする。

また、制御部１０２は、切り出し部１２１として機能する。切り出し部１２１は、マイク１０３によって外部から取得された音声を切り出す切り出し処理を行う。より具体的には、切り出し部１２１は、対話の盛り上がり度によって決定される閾値を参照しながら、音声から、認識対象音声区間の切り出しを行う。ここで、閾値が高い場合は、音声を拾いにくいようになっており、閾値が低い場合には音声を拾い易いようになっている。制御部１０２は、切り出し部１２１による切り出し後の音声を、通信部１０１を介してサーバ２０に逐次送信する。

このように、切り出し部１２１が閾値を参照しながら切り出し処理を行うことにより、サーバ２０の通信部２０１に送信する切り出し後の音声の内容が限定される。これにより、例えば、ユーザがロボット家電１０と集中して対話したい場合、閾値を高くして、音声を拾いにくくさせることで、ロボット家電１０をノイズに反応させにくくすることができる。

そして、制御部１０２は、サーバ２０から通信部１０１を介して応答内容データを取得し、取得した応答内容データを示す音声が出力されるよう、スピーカ１０４を制御する。

ここで、制御部１０２は、切り出し部１２１によって切り出した認識対象音声区間の切り出し後の音声を、ストリーミングによってサーバ２０に送信してもよいし、ローカルで音声認識してテキスト形式でサーバ２０に送信してもよい。

なお、対話の盛り上がり度によってどのように閾値を決定するかについては、後述する。

制御部１０２の機能は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）及びフラッシュメモリ等の記憶装置に記憶されたプログラムを、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が実行することによって実現される（何れも不図示）。

〔サーバ〕
次に、本実施形態に係るサーバ２０の構成について、図１を参照して説明する。図１に示すように、本実施形態に係るサーバ２０は、通信部２０１、制御部２０２、及び、記憶部２０３を備えている。

（通信部）
通信部２０１は、外部との通信を行う手段である。具体的には、通信部２０１は、例えばインターネット等のネットワークを介してロボット家電１０と無線通信を行ってもよく、家庭内のロボット家電１０と有線接続され、有線通信を行ってもよい。

（制御部）
制御部２０２は、サーバ２０の各部を統括的に制御する。制御部２０２の機能は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）及びフラッシュメモリ等の記憶装置に記憶されたプログラムを、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が実行することによって実現される（何れも不図示）。

なお、制御部２０２の構成の詳細については、後述する。

（記憶部）
記憶部２０３は、後述する制御部２０２において参照される各種のデータを格納している。各種のデータとしては、例えば、通常応答データベース２３１、曖昧応答データベース２３２、対話ログ２３３、及び、個々のロボット家電１０を識別するＩＤ等を挙げることができる。

なお、通常応答データベース２３１及び曖昧応答データベース２３２の詳細については、図面を変えて後述する。

〔制御部の構成〕
次に、サーバ２０の備える制御部２０２の構成について、図１を参照して説明する。図１に示すように、制御部２０２は、音声認識部２２１、コンテキスト情報生成部２２２、コンテキスト情報取得部２２３、閾値変更部２２４、及び、応答内容決定部２２５として機能する。このように、上述の例では、１つの制御部２０２が、音声認識部２２１、コンテキスト情報生成部２２２、コンテキスト情報取得部２２３、閾値変更部２２４、及び、応答内容決定部２２５として機能するが、本実施形態では、これに限定されない。本実施形態では、複数の制御部が、これらの部材のうちの一部として機能してもよい。

（音声認識部２２１）
音声認識部２２１は、ロボット家電１０の通信部１０１から送信される、切り出し後の音声の内容（音声内容）を音声認識する。音声内容としては、例えば、ユーザの発話内容を挙げることができる。そして、音声認識部２２１は、切り出し後の音声から認識した音声内容の認識結果を、応答内容決定部２２５に供給する。

（コンテキスト情報生成部）
コンテキスト情報生成部２２２は、過去の対話のコンテキストとして、
・最後の対話が終了してからの経過時間、
・最後の対話における連続対話回数、
・所定の期間における対話回数、
・所定の期間における、対話システムによる発話からユーザによる発話までの平均時間、及び、
・所定の期間において特定の音声が含まれている回数
の少なくとも何れかを参照してコンテキスト情報を生成する。本実施形態では、これらのコンテキストは、記憶部２０３における、過去から現在までの対話情報を記憶している対話ログ２３３の情報を元に算出される。例えば、コンテキストは、対話ログ２３３における所定の期間の対話情報を元に算出される。

本実施形態では、コンテキスト情報生成部２２２は、「盛り上がり度」を、例えば、記憶部２０３に格納されているロボット家電１０のＩＤを参照しながら、個々のロボット家電１０毎に算出する。ここで、盛り上がり度とは、コンテキスト情報の１つであり、どの程度対話が盛り上がっているかの指標である。

上述の例では、コンテキスト情報生成部２２２は、盛り上がり度を、個々のロボット家電１０毎に算出しているが、本実施形態では、これに限定されない。本実施形態では、コンテキスト情報生成部２２２は、同一室内の複数のロボット家電１０毎に盛り上がり度を、室内の盛り上がり度として算出してもよい。この場合、例えば、制御部２０２は、同一室内に存在する複数のロボット家電１０を識別する機能をさらに備えていることが好ましい。これにより、コンテキスト情報生成部２２２は、制御部２０２によって同一室内の複数のロボット家電１０を識別した情報を元に、同一室内の複数のロボット家電１０の盛り上がり度を算出することができる。

本実施形態では、盛り上がり度を０〜１０の１１段階に設定している。この１１段階の設定の仕方は、上述のコンテキスト毎に任意に設定してよい。また、盛り上がり度は、１１段階に限定されず、任意の数の段階に設定してよい。

例えば、コンテキストとして、最後の対話が終了してからの経過時間を参照する場合、当該経過時間が長ければ長いほど、盛り上がり度が０に近づくように設定してもよい。また、最後の対話における連続対話回数、所定の期間における対話回数及び所定の期間において特定の音声が含まれている回数が多ければ多いほど、盛り上がり度が１０に近づくように設定してもよい。また、所定の期間における、対話システムによる発話からユーザによる発話までの平均時間が短ければ短いほど、盛り上がり度が１０に近づくように設定してもよい。

なお、コンテキスト情報生成部２２２は、これらのコンテキストを１つのみ用いて盛り上がり度を算出してもよいし、２つ以上組み合わせて盛り上がり度を算出してもよい。

盛り上がり度を算出後、コンテキスト情報生成部２２２は、盛り上がり度の情報を、コンテキスト情報取得部２２３に供給する。

コンテキスト情報生成部２２２が盛り上がり度を算出するタイミングとしては、例えば、制御部２０２が、通信部２０１を介して切り出し後の音声を取得したときが挙げられる。すなわち、コンテキスト情報生成部２２２が盛り上がり度を算出するタイミングは、ユーザがロボット家電１０と話しかけたときと実質的に同時であってもよい。

また、コンテキスト情報生成部２２２が盛り上がり度を算出するタイミングとしては上述の例に限定されず、基本的には、任意のタイミングであってもよい。ただし、コンテキスト情報生成部２２２により算出した盛り上がり度を元に、閾値変更部２２４が、次回の切り出し部１２１による切り出し処理までに、変更された閾値のデータを切り出し部１２１に送信することができるようにする必要がある。

（コンテキスト情報取得部）
コンテキスト情報取得部２２３は、コンテキスト情報生成部２２２からコンテキスト情報の１つである盛り上がり度の情報を取得する。

そして、コンテキスト情報取得部２２３は、取得した盛り上がり度の情報を、閾値変更部２２４に供給する。

（閾値変更部）
閾値変更部２２４は、音声から認識対象音声区間の切り出しを行う切り出し処理に参照される閾値を、盛り上がり度を参照して変更する。閾値変更部２２４は、変更された閾値のデータを、通信部２０１を介してロボット家電１０に送信する。ロボット家電１０は、通信部１０１を介して制御部１０２の切り出し部１２１に変更された閾値のデータを送信する。閾値変更部２２４が変更された閾値のデータを送信するタイミングは、例えば、応答内容決定部２２５から応答内容データを送信するのと同時が好ましい。ただし、変更された閾値のデータは、次回の切り出し部１２１による切り出し処理までに、切り出し部１２１に送信されていればよい。

（閾値の変更例１）
閾値変更部２２４は、例えば、家庭内でロボット家電１０を使用する場合には、図３の（ａ）に示す盛り上がり度と閾値との関係を示すテーブルを参照し、各盛り上がり度に対応する閾値に変更してもよい。

すなわち、閾値変更部２２４は、図３の（ａ）に示すように、盛り上がり度が高ければ高いほど、閾値を小さな値に設定する。例えば、盛り上がり度が４〜６の場合、閾値変更部２２４は、盛り上がり度が０〜３の場合に比べて、小さな閾値に設定する。また、盛り上がり度が７〜１０の場合、閾値変更部２２４は、盛り上がり度が４〜６の場合に比べて、小さな閾値に設定する。

すなわち、盛り上がり度が高ければ高いほど、ロボット家電１０は、音声を拾い易くなる。結果的に、ロボット家電１０は、盛り上がり度が高ければ高いほど音に反応し易くなる。

これにより、ある程度対話を継続している間は、閾値を低くして、ロボット家電１０がユーザに応答し易い状態にし、対話をスムーズに進めることができる。一方、しばらくロボット家電１０とユーザとが対話しないときは、閾値を高くして、ユーザが目の前で大きな音量で話さない限り、ロボット家電１０が反応しないようにすることができる。その結果、ロボット家電１０は、ノイズに反応しにくくなる。例えば、ユーザの家族が会話をしたり、テレビの音が鳴ったりしてもロボット家電１０に反応させないようにすることができる。

（閾値の変更例２）
また、閾値変更部２２４は、例えば、植物館等で子供たちに案内をする等、お客様サービス用にロボット家電１０を使用する場合には、図３の（ｂ）に示す盛り上がり度と閾値との関係を示すテーブルを参照してもよい。

すなわち、閾値変更部２２４は、図３の（ｂ）に示すように、盛り上がり度が高ければ高いほど、図３の（ａ）とは逆に、閾値を大きな値に設定する。例えば、盛り上がり度が４〜６の場合、閾値変更部２２４は、盛り上がり度が０〜３の場合に比べて、大きな閾値に設定する。また、盛り上がり度が７〜１０の場合、閾値変更部２２４は、盛り上がり度が４〜６の場合に比べて、大きな閾値に設定する。

すなわち、盛り上がり度が高ければ高いほど、ロボット家電１０は、音声を拾いにくくなる。結果的に、ロボット家電１０は、盛り上がり度が高ければ高いほど音に反応しにくくなる。

これにより、例えば、ロボット家電１０が、対話がない間は様々な音に反応し、対話が継続し始めるとユーザの音に集中するために、ノイズに応答しないように設定することができる。

（閾値の変更例３）
なお、盛り上がり度が、上述のコンテキストのうち、最後の対話が終了してからの経過時間を参照するときには、閾値変更部２２４は、音声を拾いにくい状態から、音声を拾い易い状態に、閾値を大きく変更することが好ましい。

例えば、最後の対話が終了してから所定の時間だけ経過したときに、ユーザが話し始めた場合、閾値変更部２２４が、図３の（ａ）に示すテーブルを参照し、閾値を大きな値から小さな値に変更することが好ましい。そのために、最後の対話が終了してから所定の時間だけ経過したときに、ユーザが話し始めた場合、例えば、コンテキスト情報生成部２２２が盛り上がり度を４以上上昇させるように設定することが好ましい。

これにより、無言の状態が続いた後に、小さな音でユーザが発話した場合、無言の状態のときに、盛り上がり度が３の場合であっても、コンテキスト情報生成部２２２は、盛り上がり度を７以上に上昇させる。これにより、閾値変更部２２４は、閾値を大きい値から小さい値に変更し、ロボット家電１０は、音声を拾い易い状態になる。その結果、ロボット家電１０は、無言の状態が続いた後に、小さな音でユーザが発話した場合でも、その音を逃さずに適切に応答することができる。

上述の例では、図３の（ａ）に示す盛り上がり度と閾値との関係を示すテーブルを用いる場合について説明したが、本実施形態では、これに限定されない。本実施形態では、盛り上がり度が、上述のコンテキストのうち、最後の対話が終了してからの経過時間を参照するときに、図３の（ｂ）に示すような、盛り上がり度が高くなった場合に、音声を拾いにくいように設定する閾値との関係を示すテーブルを参照してもよい。

（応答内容決定部２２５）
応答内容決定部２２５は、音声認識部２２１から供給される音声内容の認識結果に基づいて、応答内容を決定する。

具体的には、応答内容決定部２２５は、まず、音声内容に対する応答の方針（応答方針）を決定する。そして、応答内容決定部２２５は、記憶部２０３に格納されている通常応答データベース２３１及び曖昧応答データベース２３２を参照し、応答内容を決定する。記憶部２０３に格納されている各データベースの詳細については、図面を変えて後述する。

なお、詳細については後述するが、本実施形態では、応答内容決定部２２５において決定される応答方針には、認識内容に対して正常に応答する「通常応答」、認識内容に対して曖昧に応答する「曖昧応答」、及び、応答をしない「応答なし」がある。

次に、応答内容決定部２２５は、決定した応答内容を示す応答内容データを音声合成した合成音声データを、通信部２０１を介してロボット家電１０に送信する。

なお、上述の例では、応答内容決定部２２５は、応答内容を決定し、さらにその応答内容データを音声合成しているが、本実施形態はこれに限定されない。本実施形態では、ロボット家電１０が応答内容データを受信し、音声合成を行ってもよい。また、ロボット家電１０が、スピーカ１０４から音声を出力する代わりに、単にディスプレイに応答内容データを表示する場合には、サーバ２０の応答内容決定部２２５も、ロボット家電１０のスピーカ１０４も音声合成を行わなくてもよい。

また、上述の例では、応答内容決定部２２５は、合成音声データをロボット家電１０に送信しているが、本実施形態ではこれに限定されない。本実施形態では、合成音声データの送信ではなく、ＵＲＬのみロボット家電１０に送信し、当該ＵＲＬによって示される合成音声データをロボット家電１０においてストリーミング再生する構成としてもよい。

〔応答音声出力処理〕
次に、本実施形態に係る対話システム１における応答音声出力処理（音声処理方法）について、図４を参照して説明する。図４は、本実施形態に係る対話システム１における応答音声出力処理の流れを示すシーケンス図である。

ステップＳ１０１：図４に示すように、まず、対話システム１のロボット家電１０の備えるマイク１０３は、外部からの音の入力を受け付ける。

ステップＳ１０２：マイク１０３において音の入力を受け付けると、制御部１０２は、入力された音声から、切り出し部１２１によって認識対象音声区間を切り出す。制御部１０２は、切り出し後の音声を、通信部１０１を介してサーバ２０に送信する。切り出し部１２１が音声を切り出した後、切り出し後の音声をサーバ２０に送信する前に、マイク１０３の電源をオフしてもよい。これにより、マイク１０３から必要以上の音声を受け取らないようにすることができる。

ステップＳ１０３：ロボット家電１０から通信部２０１を介して切り出し後の音声を取得すると、音声認識部２２１は、認識対象音声区間の音声内容を認識する。そして、音声認識部２２１は、認識した音声内容の認識結果を、応答内容決定部２２５に供給する。

ステップＳ１０４：次に、コンテキスト情報生成部２２２は、上述のコンテキストの少なくとも何れかを参照し、コンテキスト情報の１つである盛り上がり度を算出する。盛り上がり度を算出後、コンテキスト情報生成部２２２は、盛り上がり度の情報を、コンテキスト情報取得部２２３に供給する。

ステップＳ１０５（コンテキスト情報取得工程）：コンテキスト情報取得部２２３は、コンテキスト情報生成部２２２から盛り上がり度の情報を取得する。コンテキスト情報取得部２２３は、当該盛り上がり度の情報を、閾値変更部２２４に供給する。

ステップＳ１０６：応答内容決定部２２５は、音声認識部２２１から供給される音声内容の認識結果に基づいて、応答方針及び応答内容を決定する。応答内容決定部２２５は、決定した応答内容を示す応答内容データを音声合成する。

ステップＳ１０７（閾値変更工程）：閾値変更部２２４は、盛り上がり度を参照して閾値を変更する。

ステップＳ１０８：応答内容決定部２２５は、通信部２０１を介して応答内容データをロボット家電１０に送信する。また、このとき、閾値変更部２２４も、通信部２０１を介して変更した閾値のデータをロボット家電１０に送信する。

ステップＳ１０９：ロボット家電１０の制御部１０２は、通信部１０１を介して応答内容データを受信すると、受信した応答内容データの示す応答音声を、スピーカ１０４を介して出力する。また、制御部１０２は、通信部１０１を介して受信した、変更された閾値のデータを元に、次回、マイク１０３から受け付けた音声から、切り出し部１２１による切り出し処理のときに参照する閾値を再設定する。

なお、上述の例では、音声認識部２２１が音声内容を認識した後に、盛り上がり度を算出しているが、本実施形態では、これに限定されない。コンテキスト情報生成部２２２は、通信部２０１を介して制御部２０２が切り出し後の音声を取得したときに盛り上がり度を算出してもよい。また、コンテキスト情報生成部２２２は、制御部１０２が、次回の切り出し処理のときに参照する閾値を再設定する前であれば、任意のタイミングで盛り上がり度を算出してもよい。

また、上述の例では、ユーザの発話に対して、ロボット家電１０が応答する形態のみについて説明しているが、本実施形態ではこのような形態に限定されない。例えば、サーバ２０又はロボット家電１０の制御部等に、音声を切り出す音声切り出しトリガーとなるデータベース等（不図示）を格納し、当該音声切り出しトリガーによって、ロボット家電１０からユーザに対して話しかけてもよい。

〔応答データベース〕
ここで、応答内容決定部２２５における応答内容の決定について、図５及び６を参照して説明する。

図５は、本実施形態に係るサーバ２０の記憶部２０３に格納されている通常応答データベース２３１の一例を示す図である。図６は、本実施形態に係るサーバ２０の記憶部２０３に格納されている曖昧応答データベース２３２の一例を示す図である。

ここで、「通常応答」とは、認識内容に対して正常に応答する応答方針である。より具体的には、「通常応答」とは、認識内容に対応した（換言すれば、認識内容に関連した）フレーズ（通常応答フレーズ）を応答内容として応答する応答方針である。図５に示すように、通常応答データベース２３１には、認識内容（認識フレーズ）と応答内容（回答フレーズ）とが関連付けられて格納されている。

「曖昧応答」とは、認識内容に対して曖昧に応答する応答処理のことを指す。「曖昧応答」の一例として、認識内容との関連性の低いフレーズ（曖昧フレーズ）を応答内容として応答する応答処理が挙げられる。「曖昧応答」は、ユーザの意図を特定しなくても対話が継続するように相槌等の曖昧な回答フレーズを応答する応答処理であると表現することもできる。応答内容決定部２２５は、通常応答データベース２３１に認識フレーズが見つからない場合に曖昧応答データベース２３２を参照して、曖昧応答を選択する。

応答内容決定部２２５は、まず、音声認識部２２１によって認識された認識内容が、図５に示される通常応答データベース２３１における「ユーザ入力の意図」の何れかに該当するかを調べる。何れかに該当した場合には、応答内容決定部２２５は、応答方針を通常応答に決定する。例えば、ユーザ入力の意図が図５の「天気が悪いね」に該当した場合、応答内容決定部２２５は、「天気が悪いですね。こんなときは家の中で掃除をするのがいいですよ。」とロボット家電１０が応答することを決定する。

また、ユーザが、図５に示すユーザの意図のいずれにも該当しない発話を行った場合、又は、音声認識部２２１が、音声を認識できなかった場合、応答内容決定部２２５は、応答方針を曖昧応答に決定する。

応答内容決定部２２５は、応答方針を曖昧応答に決定した場合には、例えば、図６に示すように、認識内容に関わらず、「うん」、「え？」、「なるほどー」及び「はくしょん」のうち、何れかのフレーズを応答内容として決定すればよい。つまり、応答内容決定部２２５は、応答方針を曖昧応答に決定した場合には、曖昧応答データベース２３２から応答内容をランダムに選択してもよい。なお、曖昧応答は、音声だけでなく、例えば、頷く動作等であってもよい。その場合には、ロボット家電の駆動部１０５により、ロボットに頷き動作させることを応答内容として決定してもよい。

なお、図６に、本実施形態に係るサーバ２０の備える記憶部２０３に格納されている曖昧応答データベース２３２の一例を示している。図６に示すように、応答内容のみが格納されている。

上述の例では、応答内容決定部２２５は、上述のように、通常応答及び曖昧応答のみを応答方針として決定している。ただし、本実施形態では、例えば、「ねえねえ、今日はどうだった？」及び「雑学聞きたくない？」等、ユーザに対話を促すフレーズを応答する「会話促し」、及び、ユーザに応答しない「応答なし」を応答方針としてさらに備えていてもよい。この場合、記憶部２０３に、さらに促し応答データベース等を備えていてもよい。

なお、上述の例では、サーバ２０からロボット家電１０に対して応答内容を示す応答内容データを送信する構成を例に挙げて説明したが、本実施形態はこれに限定されない。例えば、ロボット家電１０が記憶部（不図示）に上述した各データベースを格納しており、サーバ２０からロボット家電１０に対して、何れのデータベースの何れのフレーズを応答内容とするかを指定するためのデータを送信する構成を採用してもよい。上述の構成により、サーバ２０は、ロボット家電１０に入力された音に対する応答内容データを、不適切なタイミングでロボット家電１０に送信することを防止することができる。

このように、本実施形態に係るサーバ２０は、ユーザとの対話を行う対話システム１に用いられるサーバ２０であって、１又は複数の制御部２０２を備え、１又は複数の制御部２０２は、過去の対話のコンテキストを示すコンテキスト情報を取得し、ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、コンテキスト情報を参照して変更する。

そのため、切り出し処理を行う際に参照される閾値を変更することで、切り出し後の音声の内容が限定される。これにより、例えば、ユーザが対話システム１と集中して対話したい場合、閾値を高くして、音声を拾いにくくさせることで、対話システム１をノイズに反応させにくくすることができる。

また、本実施形態に係るサーバ２０では、１又は複数の制御部２０２は、過去の対話のコンテキストとして、
・最後の対話が終了してからの経過時間、
・最後の対話における連続対話回数、
・所定の期間における対話回数、
・所定の期間における、対話システムによる発話からユーザによる発話までの平均時間、及び、
・所定の期間において特定の音声が含まれている回数
の少なくとも何れかを参照してコンテキスト情報を生成する。

そのため、例えば、コンテキストとして、最後の対話が終了してからの経過時間を参照する場合、当該経過時間が長ければ長いほど、コンテキスト情報が低くなるように設定することができる。また、最後の対話における連続対話回数、所定の期間における対話回数及び所定の期間において特定の音声が含まれている回数が多ければ多いほど、コンテキスト情報が高くなるように設定することができる。また、所定の期間における、対話システム１による発話からユーザによる発話までの平均時間が短ければ短いほど、コンテキスト情報が高くなるように設定することができる。

また、本実施形態に係る対話システム１は、ユーザとの対話を行う対話システム１であって、ユーザの音声を取得するマイク１０３と、１又は複数の制御部２０２と、ユーザに対する応答内容を出力するスピーカ１０４とを備えており、１又は複数の制御部２０２は、過去の対話のコンテキストを示すコンテキスト情報を取得し、マイク１０３が取得する音声から認識対象音声区間の切り出しを行い、切り出し部において参照される閾値を、コンテキスト情報を参照して変更し、切り出し部によって切り出された認識対象音声区間の音声認識を行い、音声認識によって認識された認識内容を参照し、ユーザに対する応答内容を決定する。

そのため、切り出し処理を行う際に参照される閾値を変更することで、切り出し後の音声の内容が限定される。これにより、例えば、ユーザが対話システム１と集中して対話したい場合、閾値を高くすることで、対話システム１をノイズに反応させにくくすることができる。

また、本実施形態に係る音声処理方法は、ユーザとの対話を行う対話システム１に用いられる音声処理方法であって、過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、コンテキスト情報を参照して変更する閾値変更工程とを備えている。

そのため、閾値変更工程によって、切り出し処理を行う際に参照される閾値を変更することで、切り出し後の音声の内容が限定される。これにより、例えば、ユーザが対話システム１と集中して対話したい場合、閾値を高くすることで、対話システム１をノイズに反応させにくくすることができる。

＜実施形態２＞
実施形態１では、サーバ２０の制御部２０２は閾値変更部２２４として機能するが、実施形態２のように、制御部２０２は、閾値変更部２２４の代わりに、応答の長さを変更する応答長さ変更部２２７として機能してもよい。

実施形態２について、図７〜９を参照して説明する。なお、説明の便宜上、実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

〔対話システムの構成〕
図７は、本実施形態に係る対話システム２の要部構成を示すブロック図である。図７に示すように、本実施形態に係る対話システム２は、ロボット家電１０、及び、サーバ２１を備えている。

図７に示すように、サーバ２１は、制御部２０４が、閾値変更部２２４の代わりに、応答長さ変更部２２７を含む応答内容決定部２２６として機能し、記憶部２０５が、通常応答データベース２３１の代わりに通常応答データベース２３４を備えている点以外は、実施形態１に係るサーバ２０と同様の構成である。

（サーバの構成）
サーバ２１の制御部２０４の応答内容決定部２２６内における応答長さ変更部２２７は、コンテキスト情報取得部２２３が取得した盛り上がり度を参照して、ユーザに対する応答フレーズの長さを変更する。例えば、応答長さ変更部２２７は、盛り上がり度が所定の範囲の値のときは、ユーザの発話に対して候補となる応答フレーズのうち、所定の範囲の長さの応答フレーズを抽出する。

ここで、応答長さ変更部２２７を含む応答内容決定部２２６の応答内容の仕方について、図６及び図８を参照して説明する。

図８は、実施形態２に係るサーバ２１の記憶部２０５に格納されている通常応答データベース２３４の一例を示す図である。

（応答長さの変更例１）
最初に、通常応答データベース２３４が図８の（ａ）の場合について具体的に説明する。

応答内容決定部２２６は、まず、音声認識部２２１によって認識された認識内容が、図８の（ａ）に示される通常応答データベース２３４における「ユーザ入力の意図」の何れかに該当するかを調べる。何れかに該当した場合には、応答内容決定部２２６は、応答方針を通常応答に決定する。

次に、応答内容決定部２２６は、応答長さ変更部２２７を用いて応答内容を決定する。例えば、ユーザ入力の意図が図８の（ａ）の「天気が悪いね」に該当し、盛り上がり度が６〜１０と高い場合、応答長さ変更部２２７は、「天気が悪いね」に対して候補となる応答フレーズのうち、１０字以上１５字以下の応答フレーズを抽出する。応答長さ変更部２２７は、抽出した応答フレーズを、応答内容決定部２２６に供給する。応答内容決定部２２６は、「天気が悪いね」に対する応答フレーズのうち、１０字以上１５字以下の応答フレーズである「ホントだね、何しようか？」を応答内容に決定する。これにより、実施形態１と異なり、対話の盛り上がり度が高い場合には、「天気が悪いですね。こんなときは家の中で掃除をするのがいいですよ。」に比べて、ロボット家電１０に短い応答をさせる。

このように、盛り上がり度が高い場合には、ユーザの応答の機会を逃さないように、ロボット家電１０に、短めに応答させることができる。逆に、盛り上がり度が低い場合には、シンプルな応答をして機械的に対話が終わってしまわないように、ロボット家電１０に長めに応答させることができる。

（応答長さの変更例２）
また、応答内容決定部２２６は、盛り上がり度によって、上述の形態とは逆に応答の長さを変更する応答長さ変更部２２７として機能してもよい。

例えば、図８の（ｂ）に示すように、応答長さ変更部２２７は、盛り上がり度が０〜５と低い場合には、応答長さが短い応答フレーズを抽出し、盛り上がり度が６〜１０と高い場合には、応答長さが長い応答フレーズを抽出してもよい。

これにより、盛り上がり度が低い場合には、ロボット家電１０に短めに応答させ、簡単な質問を聞きたいだけのユーザに適切に応答させることができる。逆に、盛り上がり度が高い場合には、ロボット家電１０に長めに応答させ、熱を込めて話しているように見せることができる。

図８に示すユーザの意図のいずれにも該当しない発話をユーザが行った場合、又は、音声認識部２２１が音声を認識できなかった場合、応答内容決定部２２６は、実施形態１と同様に、図６に示すような曖昧応答データベース２３２を参照して曖昧応答を行う。

なお、上述の例では、応答長さ変更部２２７は、１つのユーザの意図に対し、２択の応答案から、所定の範囲の文字数の応答フレーズを抽出しているが、本実施形態ではこれに限定されない。すなわち、ユーザの意図毎に応答案の選択肢の数が異なっていたり、応答長さ変更部２２７に、盛り上がり度に応じて、予め応答フレーズの長さの異なる応答案を用意する選出アルゴリズム等が含まれていたりしてもよい。また、本実施形態では、応答長さ変更部２２７は、所定の範囲の文字数の応答フレーズを抽出する代わりに、ユーザの発話に対して候補となる応答フレーズのうち、合成音声が所定の長さとなる応答フレーズを抽出してもよい。

〔応答音声出力処理〕
次に、本実施形態に係る対話システム２における応答音声出力処理（音声処理方法）について、図９を参照して説明する。図９は、本実施形態に係る対話システム２における応答音声出力処理の流れを示すシーケンス図である。

図９に示すステップＳ２０１〜〜Ｓ２０４の処理は、図４に示すステップＳ１０１〜Ｓ１０４と同様であるため、ここではその説明は省略する。

ステップＳ２０５（コンテキスト情報取得工程）：コンテキスト情報取得部２２３は、コンテキスト情報生成部２２２から盛り上がり度の情報を取得し、当該盛り上がり度の情報を、応答内容決定部２２６内の応答長さ変更部２２７に供給する。

ステップＳ２０６（応答長さ変更工程）：応答内容決定部２２６は、音声認識部２２１から供給される音声内容の認識結果、及び、応答長さ変更部２２７に基づき、応答方針及び応答内容を決定する。応答内容決定部２２６は、決定した応答内容を示す応答内容データを音声合成する。

ステップＳ２０７：応答内容決定部２２６は、応答内容データを、通信部２０１を介してロボット家電１０に送信する。

ステップＳ２０８：ロボット家電１０の制御部１０２は、通信部１０１を介して応答内容データを受信すると、受信した応答内容データの示す応答音声を、スピーカ１０４を介して出力する。

なお、本実施形態では、サーバ２１の制御部２０４は、閾値変更部２２４を有していないため、切り出し部１２１から音声を切り出すときに参照する閾値は一定である。ただし、実施形態２は、上述の実施形態１及び以下の実施形態３と適宜組み合わせることができるため、サーバ２１の制御部２０４は、閾値変更部２２４を備えていてもよい。この場合、閾値変更部２２４による閾値の変更は、例えば、ステップＳ２０６と、ステップＳ２０７との間に行ってよい。

このように、本実施形態に係るサーバ２１は、ユーザとの対話を行う対話システム２に用いられるサーバ２１であって、１又は複数の制御部２０４を備え、１又は複数の制御部２０４は、過去の対話のコンテキストを示すコンテキスト情報を取得し、ユーザに対する応答フレーズの長さを、コンテキスト情報を参照して変更する。

そのため、応答フレーズの長さを変更することができる。これにより、例えば、盛り上がり度が高い場合には、ユーザの応答の機会を逃さないように、対話システム２に短めに応答させ、低い場合には、機械的に対話が終わってしまわないように、対話システム２に長めに応答させることができる。逆に、盛り上がり度が低い場合には、簡単な質問を聞きたいだけのユーザに対して、対話システム２に短めに応答させ、高い場合には、対話システム２に長めに話させて、熱を込めて話しているように見せることができる。

また、本実施形態に係る対話システム２は、ユーザとの対話を行う対話システム２であって、ユーザの音声を取得するマイク１０３と、１又は複数の制御部２０４と、ユーザに対する応答内容を出力するスピーカ１０４とを備えており、１又は複数の制御部２０４は、過去の対話のコンテキストを示すコンテキスト情報を取得し、ユーザに対する応答フレーズの長さを、コンテキスト情報を参照して変更し、マイク１０３が取得する音声から認識対象音声区間の切り出しを行い、切り出しによって切り出された認識対象音声区間の音声認識を行い、音声認識によって認識された認識内容と応答フレーズの長さとを参照し、ユーザに対する応答内容を決定する。

また、本実施形態に係る音声処理方法は、ユーザとの対話を行う対話システム２に用いられる音声処理方法であって、過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、ユーザに対する応答フレーズの長さを、コンテキスト情報を参照して変更する応答長さ変更工程とを備えている。

そのため、応答長さ変更工程によって応答フレーズの長さを変更することができる。これにより、例えば、盛り上がり度が高い場合には、ユーザの応答の機会を逃さないように、対話システム２に短めに応答させ、低い場合には、機械的に対話が終わってしまわないように、対話システム２に長めに応答させることができる。逆に、盛り上がり度が低い場合には、簡単な質問を聞きたいだけのユーザに対して、対話システム２に短めに応答させ、高い場合には、対話システム２に長めに話させて、熱を込めて話しているように見せることができる。

＜実施形態３＞
実施形態１では、サーバ２０の制御部２０２は閾値変更部２２４として機能するが、実施形態３のように、制御部２０２は、閾値変更部２２４の代わりに応答頻度変更部２２８として機能してもよい。

実施形態３について、図１０〜１２を参照して説明する。なお、説明の便宜上、実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

〔対話システムの構成〕
図１０は、本実施形態に係る対話システム３の要部構成を示すブロック図である。図１０に示すように、本実施形態に係る対話システム３は、ロボット家電１０、及び、サーバ２２を備えている。

図１０に示すように、本実施形態に係るサーバ２２は、サーバ２２の制御部２０６が、閾値変更部２２４の代わりに、応答頻度変更部２２８として機能する以外は、実施形態１に係るサーバ２０と同様の構成である。

（サーバの構成）
サーバ２２の制御部２０６の応答頻度変更部２２８は、ユーザに対する応答の頻度を、盛り上がり度を参照して変更する。本実施形態では、応答頻度変更部２２８は、曖昧応答の頻度を、盛り上がり度の情報を参照して変更する。変更された曖昧応答の頻度のデータは、応答内容決定部２２５に供給される。

以下に、応答頻度変更部２２８について、図１１を参照して説明する。

図１１は、応答頻度変更部２２８に格納されている盛り上がり度と曖昧応答確率との関係についてのテーブルの一例を示す図である。このテーブルは、応答内容決定部２２５により、応答方針が曖昧応答となった場合に、応答頻度変更部２２８によって参照される。

ここで、図１１に示すように、応答頻度変更部２２８は、盛り上がり度が低いほど、曖昧発話確率を低く設定する。例えば、盛り上がり度が０と低い場合、応答頻度変更部２２８は、曖昧発話確率を０％に設定する。この場合、応答頻度変更部２２８は、マイク１０３から音声を受け取っても、ロボット家電１０が反応しないように応答内容決定部２２５に指示を送る。一方、盛り上がり度が１０と高い場合、応答頻度変更部２２８は、曖昧発話確率を１００％に設定する。この場合、応答頻度変更部２２８は、ロボット家電１０が図６に示す曖昧応答の何れかを必ず行うように、応答内容決定部２２５に指示を送る。盛り上がり度が１〜９の場合、応答頻度変更部２２８は、各曖昧発話確率にて、曖昧応答をするように、応答内容決定部２２５に指示を送る。応答内容決定部２２５は、曖昧応答をすべきか、ユーザに反応しないかを決定し、曖昧応答する場合は、その内容を決定する。

なお、上述の例では、応答頻度変更部２２８は、盛り上がり度が低いほど、曖昧発話確率を低く設定し、盛り上がり度が高いほど、曖昧発話確率が高くなるように設定しているが、本実施形態では、これに限定されない。本実施形態では、応答頻度変更部２２８は、盛り上がり度が低いほど、曖昧発話確率を高く設定し、盛り上がり度が高いほど、曖昧発話確率が低くなるように設定してもよい。

ロボット家電１０が、家族との会話又はテレビの音等のロボット家電１０に対する呼びかけではない音声を拾った場合、上述の実施形態では、ロボット家電１０に曖昧応答をさせるように設定するのが一般的である。これにより、ロボット家電１０は、適切な応答内容が見つからなくてもユーザに応答することができる。その結果、ユーザに対して、ロボット家電１０に無視されていると感じさせないようにすることができる。

一方で、ユーザが家族のみと集中して話したいとき等、明らかにロボット家電１０がユーザに対して応答すらする必要のない場合もある。このような場合、曖昧応答するよりも、応答しないほうがユーザにとって好ましい。そこで、本実施形態の上述の構成によれば、対話が盛り上がっていない場合には、曖昧応答の頻度を変えることで、ロボット家電１０に曖昧応答させないようにすることもできる。これにより、曖昧応答することによる好ましい効果と、応答しないことによる好ましい効果との両方を得ることができる。

上述の例では、応答頻度変更部２２８が曖昧発話確率を決定するタイミングは、応答内容決定部２２５が応答方針を曖昧応答に決定した後であり、応答内容を決定する前であるが、本実施形態ではこれに限定されない。本実施形態では、ロボット家電１０が、スピーカ１０４を介して応答音声を出力する前であれば任意のタイミングであってもよい。例えば、応答内容決定部２２５が、応答内容を決定した後であっても、応答方針を通常応答か曖昧応答かに決定する前であってもよい。

なお、応答内容決定部２２５が、応答方針を通常応答及び曖昧応答の何れかに決定する前に応答頻度変更部２２８が曖昧発話確率を決定した場合、本実施形態は、応答内容決定部２２５は、曖昧発話確率を参照しながら応答方針を決定してもよい。すなわち、応答内容決定部２２５は、ユーザに対し通常応答することが可能な場合でも、応答方針を曖昧応答に決定してもよい。

このように、本実施形態では、上述の例のように、曖昧応答するか応答しないかの何れかを決定するために、応答頻度変更部２２８が曖昧応答発話確率を算出する形態に限定されない。本実施形態では、通常応答するか曖昧応答するかの何れかを決定するために、応答頻度変更部２２８は、曖昧応答発話確率を算出してもよい。なお、通常応答可能な場合に曖昧応答をする構成にする場合には、応答内容決定部２２５が、通常の代わりに曖昧応答した場合であっても影響が少ない曖昧応答、例えば、図６の「うん」又は「なるほどー」等を選択するように設定することが好ましい。

〔応答音声出力処理〕
次に、本実施形態に係る対話システム３における応答音声出力処理（音声処理方法）について、図１２を参照して説明する。図１２は、本実施形態に係る対話システム３における応答音声出力処理の流れを示すシーケンス図である。

図１２に示すステップＳ３０１〜〜Ｓ３０４の処理は、図４に示すステップＳ１０１〜Ｓ１０４と同様であるため、ここではその説明は省略する。

ステップＳ３０５（コンテキスト情報取得工程）：コンテキスト情報取得部２２３は、コンテキスト情報生成部２２２から盛り上がり度の情報を取得し、当該盛り上がり度の情報を、応答頻度変更部２２８に供給する。

ステップＳ３０６：応答内容決定部２２５は、音声認識部２２１から供給される音声内容の認識結果に基づき、応答方針を通常応答にするか曖昧応答にするかを決定する。応答方針が通常応答となった場合、応答内容決定部２２５は、応答頻度変更部２２８に指示を送ることなく応答内容を決定する。応答方針が曖昧応答となった場合、応答内容決定部２２５は、応答頻度変更部２２８に曖昧発話確率を算出するように指示を送る。

ステップＳ３０７（応答頻度変更工程）：応答方針が曖昧応答となった場合、応答頻度変更部２２８は、コンテキスト情報取得部２２３から受け取った盛り上がり度の情報、及び、応答内容決定部２２５からの指示に基づき、曖昧発話確率を算出する。応答頻度変更部２２８は、応答内容決定部２２５に曖昧発話確率のデータを供給する。

ステップＳ３０８：応答頻度変更部２２８から曖昧発話確率のデータを供給された場合、応答内容決定部２２５は、当該データに基づき、曖昧応答をするか、応答しないかを決定する。応答内容決定部２２５は、通常応答又は曖昧応答する場合は、決定した応答内容を示す応答内容データを音声合成する。応答しない場合は、応答内容データを作成せず、作業を中断する。

ステップＳ３０９：応答内容決定部２２５は、通常応答又は曖昧応答する場合は、応答内容データを、通信部２０１を介してロボット家電１０に送信する。応答しない場合は、応答内容データを送信しない。

ステップＳ３１０：ロボット家電１０の制御部１０２は、通信部１０１を介して応答内容データを受信すると、受信した応答内容データの示す応答音声を、スピーカ１０４を介して出力する。

なお、上述の例では、応答内容決定部２２５が、応答方針を曖昧応答に決定した後に、応答頻度変更部２２８が曖昧発話確率を算出しているが、本実施形態では、これに限定されない。応答頻度変更部２２８が曖昧発話確率を決定するタイミングは、ロボット家電１０が、スピーカ１０４を介して応答音声を出力する前であれば任意のタイミングであってよい。

なお、実施形態１〜３では、制御部２０２、２０４及び２０６のそれぞれが、閾値変更部２２４、応答長さ変更部２２７、及び、応答頻度変更部２２８の１つのみとして機能する形態について説明してきたが、実施形態１〜３を適宜組み合わせてもよい。すなわち、１つの制御部が、閾値変更部２２４、応答長さ変更部２２７、及び、応答頻度変更部２２８のうちの２つ以上として機能する対話システムであってもよい。これにより、１つの制御部が、閾値変更部２２４、応答長さ変更部２２７、及び、応答頻度変更部２２８のうちの１つのみとして機能する場合に比べて、より過去の対話に適切に応じた応答をロボット家電１０が行うことができる。

また、１つの制御部が、閾値変更部２２４、応答長さ変更部２２７、及び、応答頻度変更部２２８のうちの２つ以上として機能する対話システムである場合に、応答音声出力処理のステップの順番は、応答音声出力処理が実施できる範囲で任意に設定することができる。すなわち、実施形態１〜３の応答音声出力処理のステップを適宜組み合わせることができる。

また、１つの制御部が、閾値変更部２２４、応答長さ変更部２２７、及び、応答頻度変更部２２８のうちの２つ以上の部材として機能する対話システムである場合、対話環境に応じて、対話の途中で、使用する部材を切り換えてもよい。これにより、対話環境に応じて、ロボット家電１０に、ユーザに対してより適切な応答をさせることができる。

このように、本実施形態に係るサーバ２２は、ユーザとの対話を行う対話システム３に用いられるサーバ２２であって、１又は複数の制御部２０６を備え、１又は複数の制御部２０６は、過去の対話のコンテキストを示すコンテキスト情報を取得し、ユーザに対する応答の頻度を、コンテキスト情報を参照して変更する。

そのため、対話システム３は、例えば、ユーザに曖昧応答することと、応答しないようにすることの両方をすることができる。その結果、ユーザに対して、曖昧応答することによる好ましい効果と、応答しないことによる好ましい効果との両方を得ることができる。

また、本実施形態に係るサーバ２２では、１又は複数の制御部２０６は、ユーザによる発話が含まれる音声から認識対象音声区間を切り出し、切り出された音声認識によって認識した認識内容と関連性の低いフレーズを応答内容として応答する曖昧応答の頻度を、コンテキスト情報を参照して変更する。

そのため、特に、対話システム３に曖昧応答させたくない場合に、好適に利用することができる。

また、本実施形態に係る対話システム３は、ユーザとの対話を行う対話システム３であって、ユーザの音声を取得するマイク１０３と、１又は複数の制御部２０６と、ユーザに対する応答内容を出力するスピーカ１０４とを備えており、１又は複数の制御部２０６は、過去の対話のコンテキストを示すコンテキスト情報を取得し、ユーザに対する応答の頻度を、コンテキスト情報を参照して変更し、マイク１０３が取得する音声から認識対象音声区間の切り出しを行い、切り出しによって切り出された認識対象音声区間の音声認識を行い、音声認識によって認識された認識内容と応答の頻度とを参照し、ユーザに対する応答内容を決定する。

また、本実施形態に係る音声処理方法は、ユーザとの対話を行う対話システム３に用いられる音声処理方法であって、過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、ユーザに対する応答の頻度を、コンテキスト情報を参照して変更する応答頻度変更工程とを備えている。

＜実施形態４＞
上述した例では、ロボット家電１０、及び、サーバ２０、２１又は２２を備える対話システム１〜３について説明したが、ロボット家電１０、及び、サーバ２０、２１又は２２の何れかを含まなくてもよい。

すなわち、全ての部材をロボット家電１０が含んでいてもよく、全ての部材をサーバ２０、２１又は２２が含んでいてもよい。

以下に、サーバ２０、２１又は２２を含まない対話システム４について説明する。

〔対話システムの構成〕
本実施形態に係る対話システム４は、ロボット家電１１を備えている。

図１３は、本実施形態に係る対話システム４の要部構成を示すブロック図である。図１３に示すように、本実施形態に係るロボット家電１１は、上述したロボット家電１０の構成に加えて、実施形態１においてサーバ２０が備えている記憶部２０３を、記憶部１０７として備えている。また、ロボット家電１１は、切り出し部１２１に加え、実施形態１におけるサーバ２０の制御部２０２の各部材も含む制御部１０６を備えている。

実施形態４に係る対話システム４においても、実施形態１に係る対話システム１と同様の効果を奏することができる。

上述の実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

〔応答音声出力処理〕
本実施形態に係る対話システム４における応答音声出力処理（音声処理方法）は、通信部１０１と通信部２０１とのデータのやり取りがない点、及び、サーバ２０の制御部２０２の代わりに、ロボット家電１１の制御部１０６で制御する点以外は、実施形態１に係る対話システム１の応答音声出力処理と同様に行う。

このように、本実施形態に係るロボット家電１１は、ユーザとの対話を行うロボット家電１１であって、ユーザの音声を取得するマイク１０３と、ユーザに対する応答内容を出力するスピーカ１０４と、制御部１０６とを備え、制御部１０６は、マイク１０３が取得する音声から、ユーザとの過去の対話のコンテキストに応じて変更された閾値を用いて切り出された認識対象音声区間に含まれるユーザの発話内容に対する応答内容を、スピーカ１０４を介して出力する。

そのため、ユーザとの過去の対話のコンテキストに応じて変更された閾値を用いることで、切り出し後の音声の内容が限定される。これにより、例えば、ユーザがロボット家電１１と集中して対話したい場合、閾値を高くすることで、ロボット家電１１をノイズに反応しにくくすることができる。

＜実施形態５＞
実施形態４では、ロボット家電１１の制御部１０６は閾値変更部２２４として機能するが、実施形態５に係る対話システム５のように、閾値変更部２２４の代わりに応答の長さを変更する応答長さ変更部２２７として機能してもよい。

本実施形態に係る対話システム５は、ロボット家電１２を備えている。

図１４は、本実施形態に係る対話システム５の要部構成を示すブロック図である。図１４に示すように、本実施形態に係るロボット家電１２は、上述したロボット家電１０の構成に加えて、実施形態２においてサーバ２１が備えている記憶部２０５を、記憶部１０９として備えている。また、ロボット家電１２は、切り出し部１２１に加え、実施形態２におけるサーバ２１の制御部２０４の各部材も含む制御部１０８を備えている。

実施形態５に係る対話システム５においても、実施形態２に係る対話システム２と同様の効果を奏することができる。

〔応答音声出力処理〕
本実施形態に係る対話システム５における応答音声出力処理（音声処理方法）は、通信部１０１と通信部２０１とのデータのやり取りがない点、及び、サーバ２１の制御部２０４の代わりに、ロボット家電１２の制御部１０８で制御する点以外は、実施形態２に係る対話システム２の応答音声出力処理と同様に行う。

このように、本実施形態に係るロボット家電１２は、ユーザとの対話を行うロボット家電１２であって、ユーザの音声を取得するマイク１０３と、ユーザに対する応答内容を出力するスピーカ１０４と、制御部１０８とを備え、制御部１０８は、マイク１０３が取得する音声に含まれるユーザの発話内容に対して、ユーザとの過去の対話のコンテキストに応じて応答フレーズの長さを変更された応答内容を、スピーカ１０４を介して出力する。

そのため、過去の対話のコンテキストに応じて応答フレーズの長さを変更された応答内容を出力することができる。これにより、例えば、盛り上がり度が高い場合には、ユーザの応答の機会を逃さないように、ロボット家電１２に短めに応答させ、低い場合には、機械的に対話が終わってしまわないように、ロボット家電１２に長めに応答させることができる。逆に、盛り上がり度が低い場合には、簡単な質問を聞きたいだけのユーザに対して、ロボット家電１２に短めに応答させ、高い場合には、ロボット家電１２に長めに話させて、熱を込めて話しているように見せることができる。

＜実施形態６＞
実施形態４では、ロボット家電１１の制御部１０６は閾値変更部２２４として機能するが、実施形態５に係る対話システム６のように、閾値変更部２２４の代わりに応答頻度変更部２２８として機能してもよい。

本実施形態に係る対話システム６は、ロボット家電１３を備えている。

図１５は、本実施形態に係る対話システム６の要部構成を示すブロック図である。図１５に示すように、本実施形態に係るロボット家電１３は、上述したロボット家電１０の構成に加えて、実施形態３においてサーバ２２が備えている記憶部２０３を、記憶部１０７として備えている。また、ロボット家電１３は、切り出し部１２１に加え、実施形態３におけるサーバ２２の制御部２０６の各部材も含む制御部１１０を備えている。

実施形態６に係る対話システム６においても、実施形態３に係る対話システム３と同様の効果を奏することができる。

〔応答音声出力処理〕
本実施形態に係る対話システム６における応答音声出力処理（音声処理方法）は、通信部１０１と通信部２０１とのデータのやり取りがない点、及び、サーバ２２の制御部２０６の代わりに、ロボット家電の制御部１１０で制御する点以外は、実施形態３に係る対話システム３の応答音声出力処理と同様に行う。

このように、本実施形態に係るロボット家電１３は、ユーザとの対話を行うロボット家電１３であって、ユーザの音声を取得するマイク１０３と、ユーザに対する応答内容を出力するスピーカ１０４と、制御部１１０とを備え、制御部１１０は、マイク１０３が取得する音声に含まれるユーザの発話内容に対して、ユーザとの過去の対話のコンテキストに応じて変更されたユーザに対する応答の頻度にて、スピーカ１０４を介して応答内容を出力する。

ロボット家電１３は、例えば、ユーザに曖昧応答することと、応答しないようにすることの両方をすることができる。その結果、ユーザに対して、曖昧応答することによる好ましい効果と、応答しないことによる好ましい効果との両方を得ることができる。

＜実施形態７＞
ロボット家電１０〜１３及びサーバ２０〜２２の各ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、ロボット家電１０〜１３及びサーバ２０〜２２のそれぞれを、図１６に示すようなコンピュータ（電子計算機）を用いて構成することができる。

図１６は、ロボット家電１０〜１３又はサーバ２０〜２２して利用可能なコンピュータ９１０の構成を例示したブロック図である。コンピュータ９１０は、バス９１１を介して互いに接続された演算装置９１２と、主記憶装置９１３と、補助記憶装置９１４と、入出力インターフェース９１５と、通信インターフェース９１６とを備えている。演算装置９１２、主記憶装置９１３、および補助記憶装置９１４は、それぞれ、例えばＣＰＵ、ＲＡＭ（random access memory）、ハードディスクドライブ及びフラッシュメモリ等のストレージであってもよい。入出力インターフェース９１５には、ユーザがコンピュータ９１０に各種情報を入力するための入力装置９２０、および、コンピュータ９１０がユーザに各種情報を出力するための出力装置９３０が接続される。入力装置９２０および出力装置９３０は、コンピュータ９１０に内蔵されたものであってもよいし、コンピュータ９１０に接続された（外付けされた）ものであってもよい。例えば、入力装置９２０は、キーボード、マウス、タッチセンサ等であってもよく、出力装置９３０は、ディスプレイ、プリンタ、スピーカ等であってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置９２０および出力装置９３０の双方の機能を有する装置を適用してもよい。そして、通信インターフェース９１６は、コンピュータ９１０が外部の装置と通信するためのインターフェースである。

補助記憶装置９１４には、コンピュータ９１０をロボット家電１０〜１３又はサーバ２０〜２２として動作させるための各種のプログラムが格納されている。そして、演算装置９１２は、補助記憶装置９１４に格納された上述のプログラムを主記憶装置９１３上に展開して該プログラムに含まれる命令を実行する。これによって、コンピュータ９１０を、ロボット家電１０〜１３又はサーバ２０〜２２が備える各部として機能させる。なお、補助記憶装置９１４が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路等であってもよい。

また、上述のプログラムは、コンピュータ９１０の外部から取得してもよく、この場合、任意の伝送媒体（通信ネットワークや放送波等）を介して取得してもよい。そして、本実施形態は、上述のプログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

このように、本実施形態に係る、コンピュータ９１０を制御部２０２として機能させるためのプログラムは、実施形態１に係るサーバ２０としてコンピュータ９１０を機能させるためのプログラムである。

コンピュータ９１０を制御部２０２として機能させるためのプログラムは、サーバ２０としてコンピュータ９１０を機能させるためのプログラムに好適に利用することができる。

また、本実施形態に係る、コンピュータ９１０を制御部２０４として機能させるためのプログラムは、実施形態２に係るサーバ２１としてコンピュータ９１０を機能させるためのプログラムである。

コンピュータ９１０を制御部２０４として機能させるためのプログラムは、サーバ２１としてコンピュータ９１０を機能させるためのプログラムに好適に利用することができる。

また、本実施形態に係る、コンピュータ９１０を制御部２０６として機能させるためのプログラムは、実施形態３に係るサーバ２２としてコンピュータ９１０を機能させるためのプログラムであってもよい。

コンピュータ９１０を制御部２０６として機能させるためのプログラムは、サーバ２２としてコンピュータ９１０を機能させるためのプログラムに好適に利用することができる。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、掃除ロボット、冷蔵庫、電子レンジ、パーソナルコンピュータ、テレビ等の音声の入出力機能を備えた家電、及び、企業のサービス用対話ロボット等の家電以外の対話ロボット、並びに、これらを制御するサーバに好適に利用することができる。

１〜６対話システム
１０〜１３ロボット家電（端末装置）
２０〜２２サーバ（音声処理装置）
１０１、２０１通信部
１０３マイク（音声取得部）
１０４スピーカ（出力部）
１０５駆動部（出力部）
１０７、１０９、２０３、２０５記憶部
１２１切り出し部
１０２、１０６、１０８、１１０、２０２、２０３、２０４、２０６制御部
２２１音声認識部
２２２コンテキスト情報生成部
２２３コンテキスト情報取得部
２２４閾値変更部
２２５、２２６応答内容決定部
２２７応答長さ変更部
２２８応答頻度変更部
２３１、２３４通常応答データベース
２３２曖昧応答データベース
２３３対話ログ
９１０コンピュータ
９１１バス
９１２演算装置
９１３主記憶装置
９１４補助記憶装置
９１５入出力インターフェース
９１６通信インターフェース
９２０入力装置
９３０出力装置

Claims

ユーザとの対話を行う対話システムに用いられる音声処理装置であって、
１又は複数の制御部を備え、
上記１又は複数の制御部は、
過去の対話のコンテキストを示すコンテキスト情報を取得し、
上記ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、上記コンテキスト情報を参照して変更する
ことを特徴とする音声処理装置。
ユーザとの対話を行う対話システムに用いられる音声処理装置であって、
１又は複数の制御部を備え、
上記１又は複数の制御部は、
過去の対話のコンテキストを示すコンテキスト情報を取得し、
上記ユーザに対する応答フレーズの長さを、上記コンテキスト情報を参照して変更する
ことを特徴とする音声処理装置。
ユーザとの対話を行う対話システムに用いられる音声処理装置であって、
１又は複数の制御部を備え、
上記１又は複数の制御部は、
過去の対話のコンテキストを示すコンテキスト情報を取得し、
上記ユーザに対する応答の頻度を、上記コンテキスト情報を参照して変更する
ことを特徴とする音声処理装置。
上記１又は複数の制御部は、
上記ユーザによる発話が含まれる音声から認識対象音声区間を切り出し、
切り出された上記認識対象音声区間に対する音声認識を行い、
上記音声認識によって認識した認識内容と関連性の低いフレーズを応答内容として応答する曖昧応答の頻度を、上記コンテキスト情報を参照して変更することを特徴とする請求項３に記載の音声処理装置。
上記１又は複数の制御部は、
過去の対話のコンテキストとして、
最後の対話が終了してからの経過時間、
最後の対話における連続対話回数、
所定の期間における対話回数、
所定の期間における、上記対話システムによる発話から上記ユーザによる発話までの平均時間、及び、
所定の期間において特定の音声が含まれている回数
の少なくとも何れかを参照して上記コンテキスト情報を生成する
ことを特徴とする請求項１〜４の何れか１項に記載の音声処理装置。
ユーザとの対話を行う対話システムであって、
音声を取得する音声取得部と、
１又は複数の制御部と、
上記ユーザに対する応答内容を出力する出力部と
を備えており、
上記１又は複数の制御部は、
過去の対話のコンテキストを示すコンテキスト情報を取得し、
上記音声取得部が取得する音声から認識対象音声区間の切り出しを行い、
上記切り出しにおいて参照される閾値を、上記コンテキスト情報を参照して変更し、
上記切り出しによって切り出された認識対象音声区間の音声認識を行い、
上記音声認識によって認識された認識内容を参照し、上記ユーザに対する応答内容を決定する
ことを特徴とする対話システム。
ユーザとの対話を行う対話システムであって、
音声を取得する音声取得部と、
１又は複数の制御部と、
上記ユーザに対する応答内容を出力する出力部と
を備えており、
上記１又は複数の制御部は、
過去の対話のコンテキストを示すコンテキスト情報を取得し、
上記ユーザに対する応答フレーズの長さを、上記コンテキスト情報を参照して変更し、
上記音声取得部が取得する音声から認識対象音声区間の切り出しを行い、
上記切り出しによって切り出された認識対象音声区間の音声認識を行い、
上記音声認識によって認識された認識内容と上記応答フレーズの長さとを参照し、上記ユーザに対する応答内容を決定する
ことを特徴とする対話システム。
ユーザとの対話を行う対話システムであって、
音声を取得する音声取得部と、
１又は複数の制御部と、
上記ユーザに対する応答内容を出力する出力部と
を備えており、
上記１又は複数の制御部は、
過去の対話のコンテキストを示すコンテキスト情報を取得し、
上記ユーザに対する応答の頻度を、上記コンテキスト情報を参照して変更し、
上記音声取得部が取得する音声から認識対象音声区間の切り出しを行い、
上記切り出しによって切り出された認識対象音声区間の音声認識を行い、
上記音声認識によって認識された認識内容と上記応答の頻度とを参照し、上記ユーザに対する応答内容を決定する
ことを特徴とする対話システム。
ユーザとの対話を行う端末装置であって、
音声を取得する音声取得部と、
上記ユーザに対する応答内容を出力する出力部と、
制御部と
を備え、
上記制御部は、
上記音声取得部が取得する音声から、上記ユーザとの過去の対話のコンテキストに応じて変更された閾値を用いて切り出された認識対象音声区間に含まれる上記ユーザの発話内容に対する応答内容を、上記出力部を介して出力する
ことを特徴とする端末装置。
ユーザとの対話を行う端末装置であって、
音声を取得する音声取得部と、
上記ユーザに対する応答内容を出力する出力部と、
制御部と
を備え、
上記制御部は、
上記音声取得部が取得する音声に含まれる上記ユーザの発話内容に対して、上記ユーザとの過去の対話のコンテキストに応じて応答フレーズの長さを変更された応答内容を、上記出力部を介して出力する
ことを特徴とする端末装置。
ユーザとの対話を行う端末装置であって、
音声を取得する音声取得部と、
上記ユーザに対する応答内容を出力する出力部と、
制御部と
を備え、
上記制御部は、
上記音声取得部が取得する音声に含まれる上記ユーザの発話内容に対して、上記ユーザとの過去の対話のコンテキストに応じて変更された上記ユーザに対する応答の頻度にて、上記出力部を介して応答内容を出力する
ことを特徴とする端末装置。
請求項１に記載の音声処理装置としてコンピュータを機能させるためのプログラムであって、当該コンピュータを上記制御部として機能させるためのプログラム。
請求項２に記載の音声処理装置としてコンピュータを機能させるためのプログラムであって、当該コンピュータを上記制御部として機能させるためのプログラム。
請求項３に記載の音声処理装置としてコンピュータを機能させるためのプログラムであって、当該コンピュータを上記制御部として機能させるためのプログラム。
ユーザとの対話を行う対話システムに用いられる音声処理方法であって、
過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、
上記ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、上記コンテキスト情報を参照して変更する閾値変更工程と
を備えていることを特徴とする音声処理方法。
ユーザとの対話を行う対話システムに用いられる音声処理方法であって、
過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、
上記ユーザに対する応答フレーズの長さを、上記コンテキスト情報を参照して変更する応答長さ変更工程と
を備えていることを特徴とする音声処理方法。
ユーザとの対話を行う対話システムに用いられる音声処理方法であって、
過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、
上記ユーザに対する応答の頻度を、上記コンテキスト情報を参照して変更する応答頻度変更工程と
を備えていることを特徴とする音声処理方法。