JP6122816B2

JP6122816B2 - 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム

Info

Publication number: JP6122816B2
Application number: JP2014161376A
Authority: JP
Inventors: 広瀬　斉志; 斉志広瀬
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2014-08-07
Filing date: 2014-08-07
Publication date: 2017-04-26
Anticipated expiration: 2034-08-07
Also published as: JP2016036500A; US20160042749A1; US9653097B2

Description

本発明は、ロボットやスマートフォンなどの音声出力装置に音声を出力させるための技術に関する。特に、マイクを介してメッセージを受け付け、スピーカを介してメッセージを出力することが可能な音声出力装置の技術に関する。

従来から、ロボットやスマートフォンなどの音声出力装置に音声を出力させるための技術が知られている。さらに、マイクを介してメッセージを受け付け、スピーカを介してメッセージを出力することができる音声出力装置も提案されている。

たとえば、特開２００２−０９１４８２号公報（特許文献１）には、感情検出方法及び感情検出装置ならびに記録媒体が開示されている。特開２００２−０９１４８２号公報（特許文献１）によると、被験者の感情を検出するための感情検出方法であって、音声信号を入力し、入力した音声信号から音声の強度，音声の出現速度を表すテンポ及び音声の各単語内の強度変化パターンを表す抑揚をそれぞれ検出し、検出された音声の強度，音声のテンポ及び音声の抑揚のそれぞれについて変化量を求め、求めた変化量に基づいて、少なくとも怒り，悲しみ及び喜びのそれぞれの感情状態を表す信号を生成することを特徴とする。

また、特開２００７−２９６１６９号公報（特許文献２）には、心的状態判定装置、およびプログラムが開示されている。特開２００７−２９６１６９号公報（特許文献２）によると、本発明の心的状態判定装置は、生体情報に基づいて被験者の生理的な興奮度（以下『生体興奮度』という）を判断する。また、被験者の音声信号に基づいて、被験者の音声的な興奮度（以下『音声興奮度』という）を判断する。これら２種類の興奮度（生体興奮度、音声興奮度）を比較対照することによって、被験者の心的状態を推定する。

また、特許第４８５１４４７号明細書（特許文献３）には、ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラムが開示されている。特許第４８５１４４７号明細書（特許文献３）によると、音声解析装置は、被験者の音声信号を取り込む音声取得部と、前記音声信号を周波数スペクトルに変換する周波数変換部と、前記周波数スペクトルを周波数軸上でずらしながら自己相関波形を求める自己相関部と、前記自己相関波形における複数の極値の出現順番と前記複数の極値の出現位置を示すずらし周波数量である出現周波数との分布を回帰分析し、回帰直線の傾きに基づいてピッチ周波数を求めるピッチ検出部と、を備えたことを特徴とする。

また、特開２００９−２９４６４７号公報（特許文献４）には、行動分析装置及びコールセンターシステムが開示されている。特開２００９−２９４６４７号公報（特許文献４）によると、被験者の発話の音声信号を受け付ける音声入力部と、音声信号から複数の音声特徴量を算出する演算部と、被験者の複数の感情の各々と複数の音声特徴量とを関連付けた感情テーブル及び複数の感情の出現パターンと被験者の行動とを関連付けた行動テーブルを記憶する記憶部と、感情テーブル及び行動テーブルを用い、複数の音声特徴量に基づいて被験者の感情を分析し被験者の行動を予測する分析部と、分析部によって予測された被験者の行動の結果を出力表示する表示部と、を備える。

また、特開２０１２−４４９号公報（特許文献５）には、行動分析方法および行動分析装置が開示されている。特開２０１２−４４９号公報（特許文献５）によると、被験者の発話を音声信号として取得する入力手順と、音声信号から複数の音声特徴量を算出する演算手順と、複数の音声特徴量に基づいて、被験者の生理活動および感情状態を分析し、被験者の行動を予測する予測手順と、を備える。

特開２００２−０９１４８２号公報特開２００７−２９６１６９号公報特許第４８５１４４７号明細書特開２００９−２９４６４７号公報特開２０１２−４４９号公報

ユーザにとって心地よい会話を提供するためには、会話の終わらせ方が非常に重要である。しかしながら、従来の音声出力装置は、一方的に会話を終わらせたり、そもそも会話を終了させるためのメッセージが準備されていなかったりする。そこで、本発明の目的は、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムを提供することにある。

この発明のある態様に従うと、マイクと、スピーカと、プロセッサとを備える、音声出力装置が提供される。プロセッサは、マイクを介して受け付けたメッセージが第１の感情に対応するものである場合に、直接的に、あるいは間接的に会話を終了するための処理を実行し、マイクを介して受け付けたメッセージが第１の感情に対応するものでない場合にスピーカを介して会話を継続する。

好ましくは、プロセッサは、受け付けたメッセージが第１の感情に対応するものである場合にスピーカに所定のメッセージを出力させ、所定のメッセージに対応する回答が第１の感情に対応するものである場合に会話を終了し、所定のメッセージに対応する回答が第１の感情に対応するものでない場合にスピーカに会話を継続させる。

好ましくは、プロセッサは、マイクを介して受け付けた複数のメッセージが第１の感情に対応するものである場合に会話を終了し、マイクを介して受け付けた複数のメッセージが第１の感情に対応するものでない場合にスピーカを介して会話を継続する。

好ましくは、プロセッサは、マイクを介して所定時間の間に受け付けた少なくとも１つのメッセージが第１の感情に対応するものである場合に会話を終了し、マイクを介して所定時間の間に受け付けた少なくとも１つのメッセージが第１の感情に対応するものでない場合にスピーカを介して会話を継続する。

好ましくは、プロセッサは、スピーカを介して受け付けた所定回数のメッセージのうちの所定割合以上が第１の感情に対応するものである場合に会話を終了し、スピーカを介して受け付けた所定回数のメッセージのうちの所定割合以上が第１の感情に対応するものでない場合にスピーカを介して会話を継続する。

好ましくは、プロセッサは、マイクを介して所定時間の間に受け付けた少なくとも１つのメッセージのうちの所定割合以上が第１の感情に対応するものである場合に会話を終了し、マイクを介して所定時間の間に受け付けた少なくとも１つのメッセージのうちの所定割合以上が第１の感情に対応するものでない場合にスピーカを介して会話を継続する。

好ましくは、プロセッサは、マイクを介して入力されたメッセージに同調するメッセージをスピーカに出力させる。

好ましくは、プロセッサは、マイクを介して受け付けたメッセージと実質的に同じ意味のメッセージをスピーカに出力させる。

好ましくは、プロセッサは、マイクを介して受け付けたメッセージに対応する感情を表す言葉をスピーカに出力させる。

好ましくは、プロセッサは、会話を終了する際に、音声出力装置の次の動作を示すメッセージをスピーカに出力させる。

好ましくは、音声出力装置は、サーバと通信するための通信インターフェイスをさらに備える。プロセッサは、スピーカから出力するためのメッセージを、通信インターフェイスを介してサーバから受信する。

この発明の別の態様に従うと、マイクと、スピーカと、プロセッサとを含む音声出力装置における音声出力方法が提供される。音声出力方法は、プロセッサが、マイクを介して受け付けたメッセージが第１の感情に対応するものである場合に、直接的に、あるいは間接的に会話を終了するための処理を実行するステップと、プロセッサが、マイクを介して受け付けたメッセージが第１の感情に対応するものでない場合にスピーカを介して会話を継続するステップとを備える。

この発明の別の態様に従うと、マイクと、スピーカと、プロセッサとを含む音声出力装置における音声出力プログラムが提供される。音声出力プログラムは、マイクを介して受け付けたメッセージが第１の感情に対応するものである場合に、直接的に、あるいは間接的に会話を終了するための処理を実行するステップと、マイクを介して受け付けたメッセージが第１の感情に対応するものでない場合にスピーカを介して会話を継続するステップとをプロセッサに実行させる。

この発明の別の態様に従うと、音声出力装置と、音声出力装置と通信するサーバとを備えるネットワークシステムが提供される。サーバは、音声出力装置が受け付けたメッセージが第１の感情に対応するものである場合に音声出力装置に会話を終了させ、音声出力装置が受け付けたメッセージが第１の感情に対応するものでない場合に音声出力装置に会話を継続させる。

この発明の別の態様に従うと、音声出力装置と、音声出力装置と通信可能なサーバと、を含むネットワークシステムにおける音声出力方法が提供される。音声出力方法は、音声出力装置が、メッセージを受け付けるステップと、サーバが、メッセージが第１の感情に対応するものであるか否かを判断するステップと、メッセージが第１の感情に対応するものである場合に、サーバが音声出力装置に会話を終了させるステップと、メッセージが第１の感情に対応するものでない場合に、サーバが音声出力装置に会話を継続させるステップとを備える。

この発明の別の態様に従うと、音声出力装置と通信するための通信インターフェイスと、プロセッサとを備えるサーバが提供される。プロセッサは、通信インターフェイスを介して、音声出力装置からメッセージを受信し、メッセージが第１の感情に対応するものである場合に、通信インターフェイスを介して音声出力装置に会話を終了させ、メッセージが第１の感情に対応するものでない場合に、通信インターフェイスを介して音声出力装置に会話を継続させる。

この発明の別の態様に従うと、音声出力装置と通信するための通信インターフェイスと、プロセッサとを含むサーバにおける音声出力方法が提供される。音声出力方法は、プロセッサが、通信インターフェイスを介して、音声出力装置からメッセージを受信するステップと、プロセッサが、メッセージが第１の感情に対応するか否かを判断するステップと、プロセッサが、メッセージが第１の感情に対応するものである場合に、通信インターフェイスを介して音声出力装置に会話を終了させるステップと、プロセッサが、メッセージが第１の感情に対応するものでない場合に、通信インターフェイスを介して音声出力装置に会話を継続させるステップとを備える。

この発明の別の態様に従うと、音声出力装置と通信するための通信インターフェイスと、プロセッサとを含むサーバのための音声出力プログラムが提供される。音声出力プログラムは、通信インターフェイスを介して、音声出力装置からメッセージを受信するステップと、メッセージが第１の感情に対応するか否かを判断するステップと、メッセージが第１の感情に対応するものである場合に、通信インターフェイスを介して音声出力装置に会話を終了させるステップと、メッセージが第１の感情に対応するものでない場合に、通信インターフェイスを介して音声出力装置に会話を継続させるステップとをプロセッサに実行させる。

以上のように、この発明によれば、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムが提供される。

本実施の形態にかかるネットワークシステム１の全体構成と第１の動作概要を示すイメージ図である。本実施の形態にかかるポジティブな感情とネガティブな感情の例を示す表である。本実施の形態にかかるネットワークシステム１の全体構成と第２の動作概要を示すイメージ図である。本実施の形態にかかるサーバ１００のハードウェア構成を表わすブロック図である。本実施の形態にかかる感情データベース１２１のデータ構造を示すイメージ図である。本実施の形態にかかる音声出力装置２００のハードウェア構成を表わすブロック図である。本実施の形態にかかるサーバ１００の機能構成を示すブロック図である。本実施の形態にかかるサーバ１００における音声出力処理を示すイメージ図である。第１の実施の形態にかかるサーバ１００の音声出力処理を示すフローチャートである。第２の実施の形態にかかるサーバ１００の音声出力処理を示すフローチャートである。第３の実施の形態にかかるサーバ１００の音声出力処理を示すフローチャートである。第４の実施の形態にかかるサーバ１００の音声出力処理を示すフローチャートである。第５の実施の形態にかかる音声出力装置２００の動作概要を示すイメージ図である。第５の実施の形態にかかる音声出力装置２００の機能構成を示すブロック図である。第５の実施の形態にかかる音声出力装置２００における音声出力処理を示すイメージ図である。第６の実施の形態にかかる感情データベース１２１のデータ構造を示すイメージ図である。

以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
＜第１の実施の形態＞
＜ネットワークシステムの全体構成＞

まず、図１を参照して、本実施の形態にかかるネットワークシステム１の全体構成について説明する。なお、図１は、本実施の形態にかかるネットワークシステム１の全体構成と第１の動作概要を示すイメージ図である。

ネットワークシステム１は、主な構成として、サーバ１００と、インターネットなどのネットワークを介してサーバ１００とデータ通信可能な音声出力装置２００とを含む。なお、ネットワークシステム１は、複数の音声出力装置２００を含んでもよい。

なお、本実施の形態においては、音声出力装置２００としての自走式の掃除機について説明する。ただし、音声出力装置２００は、掃除機に限らず、たとえば、エアコン、冷蔵庫、空気清浄器、加湿器、除湿器、自走式掃除機、照明、時計などの家電、テレビ、ハードディスクレコーダ、ゲーム機、音楽プレーヤー、パーソナルコンピュータなどのＡＶ（オーディオ・ビジュアル）機器、太陽光発電機、インターホン、給湯器などの住宅設備、などであってもよい。音声出力装置２００は、住居またはオフィス内に設置されることが多いが、店舗やイベント会場や駅などの他の場所に設置することもできる。
＜ネットワークシステムの第１の動作概要＞

次に、図１を参照して、本実施の形態にかかるネットワークシステム１の第１の動作概要について説明する。なお、第１の動作概要として、音声出力装置２００は、ユーザがネガティブな感情を持っている場合に、会話によってポジティブな感情へと誘導し、ポジティブな感情を持たせたままで会話を終了する場合について説明する。

ここで、ポジティブな感情（第１の感情）とネガティブな感情（第２の感情）について説明する。なお、図２は、本実施の形態にかかるポジティブな感情とネガティブな感情の例を示す表である。図２を参照して、本実施の形態においては、ポジティブな感情とは、心地良い感情であって、たとえば、安心、満足、好奇心、意欲、幸福、愛、尊敬などを含む。一方、ネガティブな感情とは、たとえば、恐怖、怒り、不快、苛立ち、苦しみ、焦燥、執着、不満、無念、悲しみ、切なさ、嫌悪、憎悪、軽蔑、怨み、嫉妬などを含む。

図１に戻って、まず、ユーザが音声出力装置２００に、「今日、新しい車が来るんだ。」と話しかける。この場合、ユーザは、長年乗っていた車を手放さなければならないという寂しい気持ち、すなわちネガティブな感情と、新しい車を手に入れる嬉しい気持ち、すなわちポジティブな感情とを有している（図１における（１）および（２））。

音声出力装置２００は、ユーザからのメッセージの内容に基づいて、あるいはユーザの音声の抑揚・アクセント・話す速度などに基づいて、ポジティブな感情およびネガティブな感情を検知する。音声出力装置２００は、ユーザのネガティブな感情を検知すると、ユーザがポジティブな感情を有するまで、会話を継続する。一方、音声出力装置２００は、ユーザのポジティブな感情を検知すると、ユーザのポジティブな感情を維持するようにしながら、会話を終了へと導く（図１における（１）および（２））。

何度か会話を繰り返したのち、ユーザが音声出力装置２００に、「新しい車がくるから気持ちを切り替えなきゃね。」と話す。すると、音声出力装置２００は、ユーザの前向きな気持ち、すなわちユーザのポジティブな気持ちを検知する（図１における（３））。

音声出力装置２００は、会話を終了させてもよいかを判断するために、終話前メッセージを出力する。たとえば、音声出力装置２００は、「少しは気が晴れた？」とユーザに問いかける（図１における（３））。

ユーザが、「大丈夫だよ。」と肯定的な返答をすると、音声出力装置２００は、別れの挨拶と、自身がこれから行う動作を示すメッセージとを出力する。たとえば、音声出力装置２００は、「良かった。じゃあ、僕はリビングの掃除を頑張るよ。また、お話してね。」と出力して、会話を終了する（図１における（４））。
＜ネットワークシステムの第２の動作概要＞

次に、図３を参照して、本実施の形態にかかるネットワークシステム１の第２の動作概要について説明する。図３は、本実施の形態にかかるネットワークシステム１の全体構成と第２の動作概要を示すイメージ図である。なお、第２の動作概要として、音声出力装置２００は、ユーザがポジティブな感情を持っている場合に、会話によってポジティブな感情を持たせたままで会話を終了する場合について説明する。

まず、ユーザが音声出力装置２００に、「今日、テスト良く出来たよ。」と話しかける。この場合、ユーザは、テストが良かったことに対する嬉しい気持ち、すなわちポジティブな感情を有している（図３における（１）および（２））。

音声出力装置２００は、ユーザからのメッセージの内容に基づいて、あるいはユーザの音声の抑揚・アクセント・話す速度などに基づいて、ポジティブな感情およびネガティブな感情を検知する。音声出力装置２００は、ユーザのネガティブな感情を検知すると会話を継続する。一方、音声出力装置２００は、ユーザのポジティブな感情を検知すると、ユーザのポジティブな感情を維持するようにしながら、会話を終了へと導く（図３における（１）および（２））。

何度か会話を繰り返したのち、ユーザが音声出力装置２００に、「頑張ってみたよ。」と話す。すると、音声出力装置２００は、ユーザの前向きな気持ち、すなわちユーザのポジティブな気持ちを検知する（図３における（３））。

音声出力装置２００は、ユーザのポジティブな感情を検知すると、会話を終了させてもよいかを判断するために、終話前メッセージを出力する。たとえば、音声出力装置２００は、「気分いいよね。」とユーザに問いかける（図３における（３））。

ユーザが、「気分いいね。」と肯定的な返答をすると、音声出力装置２００は、別れの挨拶と、自身がこれから行う動作を示すメッセージとを出力する。たとえば、音声出力装置２００は、「そうだよね。楽しいお話ありがとう。じゃあ、僕はリビングの掃除を頑張るよ。また、お話してね。」と出力して、会話を終了する（図３における（４））。

このように、本実施の形態にかかるネットワークシステム１は、音声出力装置２００が、ユーザがポジティブな気持ちになってから会話を終了するため、従来よりもユーザが心地よい気持ちで会話を終了することができる。

なお、より詳細には、ユーザがネガティブな感情からポジティブな感情に移行した場合には、自分がこれから行う動作を示すメッセージを出力してもよい。これによって、ユーザは、「音声出力装置２００も頑張っているんだから、自分も頑張らなければっ！！」と励まされた気持ちになる。換言すれば、初めからユーザがポジティブな感情を持っているときは、別れの挨拶を出力するにとどめ、自分がこれから行う動作を示すメッセージを出力しなくてもよい。

以下では、このような機能を実現するためのネットワークシステム１について詳細に説明する。
＜サーバ１００のハードウェア構成＞

まず、ネットワークシステム１を構成するサーバ１００のハードウェア構成の一態様について説明する。なお、図４は、本実施の形態にかかるサーバ１００のハードウェア構成を表わすブロック図である。

図４を参照して、サーバ１００は、主たる構成要素として、プロセッサ１１０と、メモリ１２０と、各種ライト１３０と、各種スイッチ１４０と、通信インターフェイス１６０とを含む。

プロセッサ１１０は、メモリ１２０あるいは外部の記憶媒体に記憶されているプログラムを実行することによって、サーバ１００の各部を制御する。すなわち、プロセッサ１１０は、メモリ１２０に格納されている音声出力プログラムを実行することによって、後述する各種の処理を実行する。

メモリ１２０は、各種のＲＡＭ（Random Access Memory）、各種のＲＯＭ（Read-Only Memory）、フラッシュメモリーなどによって実現される。なお、メモリ１２０は、インターフェイスを介して利用される、ＵＳＢ（Universal Serial Bus）（登録商標）メモリ、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、メモリカード、ハードディスク、ＩＣ（Integrated Circuit）カード、光カード、マスクＲＯＭ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electronically Erasable Programmable Read-Only Memory）などの記憶媒体などによっても実現される。

メモリ１２０は、プロセッサ１１０によって実行される音声出力プログラムや他のプログラムや、プロセッサ１１０によるプログラムの実行により生成されたデータ、入力されたデータ、サーバ１００から受信したデータを記憶する。具体的には、たとえば、メモリ１２０は、感情データベース１２１を格納する。

ただし、サーバ１００とは別の装置が、感情データベース１２１やその他のデータを格納してもよい。この場合は、サーバ１００のプロセッサ１１０が、通信インターフェイス１６０を介して、感情データベース１２１を参照可能に構成されている。

また、音声出力装置２００のメモリが、感情データベース１２１やその他のデータベースの一部を格納してもよい。

ここで、感情データベース１２１について説明する。図５は、本実施の形態にかかる感情データベース１２１のデータ構造を示すイメージ図である。図５を参照して、本実施の形態においては、感情データベース１２１は、４種類の感情と複数のキーワードとの対応関係を格納する。

本実施の形態にかかる４種類の感情は、喜び、怒り、悲しみ、楽しみである。このうち、喜びと楽しみがポジティブな感情であり、怒りと悲しみがネガティブな感情である。これによって、プロセッサ１１０は、感情データベース１２１を参照することによって、ユーザが話したキーワードからユーザの感情を特定し、ユーザがポジティブな感情を有しているかネガティブな感情を有しているかを判断することができる。

他にも、メモリ１２０は、ユーザからメッセージに対して、ユーザの感情を音声出力するためのデータベースを記憶していることが好ましい。データベースには、たとえば、ユーザからの「今日は忙しかったよ。」というメッセージや疲れた時の音声の抑揚に対して、「疲れているんだね。」というメッセージが対応付けられている。あるいは、たとえば、ユーザからの「今日、友達とケンカしたよ。」というメッセージや荒い口調の抑揚に対して、「腹がたっているんだね。」というメッセージが対応付けられている。

図４に戻って、ライト１３０は、プロセッサ１１０からの信号によって点灯・点滅・消灯することによって、サーバ１００の各種の状態を外部に伝える。

スイッチ１４０は、管理者からの命令を受け付けて、当該命令をプロセッサ１１０に入力する。

通信インターフェイス１６０は、プロセッサ１１０からのデータを、インターネット、キャリア網、ルータなどを介して音声出力装置２００に送信する。逆に、通信インターフェイス１６０は、インターネット、キャリア網、ルータなどを介して音声出力装置２００からのデータを受信して、プロセッサ１１０に受け渡す。
＜音声出力装置２００のハードウェア構成＞

まず、本実施の形態にかかる音声出力装置２００のハードウェア構成の一態様について説明する。なお、図６は、本実施の形態にかかる音声出力装置２００のハードウェア構成を表わすブロック図である。

図６を参照して、音声出力装置２００は、主たる構成要素として、プロセッサ２１０と、メモリ２２０と、各種ライト２３０と、各種スイッチ２４０と、通信インターフェイス２６０と、マイク２７０と、スピーカ２８０と、機器駆動部２９０とを含む。

プロセッサ２１０は、メモリ２２０あるいは外部の記憶媒体に記憶されているプログラムを実行することによって、音声出力装置２００の各部を制御する。すなわち、プロセッサ２１０は、メモリ２２０に格納されている音声出力プログラムを実行することによって、後述する各種の処理を実行する。

メモリ２２０の具体例は、サーバ１００のメモリ１２０と同様であるため、ここでは説明を繰り返さない。

メモリ２２０は、プロセッサ２１０によって実行される音声出力プログラムや他のプログラム、プロセッサ２１０によるプログラムの実行により生成されたデータ、入力されたデータ、サーバ１００から受信したデータなどを記憶する。

ライト２３０は、プロセッサ２１０からの信号によって点灯・点滅・消灯することによって、音声出力装置２００の各種の状態を外部に伝える。

スイッチ２４０は、ユーザからの命令を受け付けて、当該命令をプロセッサ２１０に入力する。

通信インターフェイス２６０は、プロセッサ２１０からのデータ、たとえば、音声出力装置２００がユーザから受け付けた命令など、をアダプタ、ルータ、インターネットなどを介してサーバ１００に送信する。逆に、通信インターフェイス２６０は、インターネット、ルータ、アダプタなどを介してサーバ１００からのデータなどを受信してプロセッサ２１０に受け渡す。

マイク２７０は、ユーザからのメッセージ、すなわち音声の入力を受け付けて、音声信号に変換し、音声信号をプロセッサ２１０に入力する。

スピーカ２８０は、プロセッサ２１０からの音声信号に基づいて、ユーザへのメッセージ、通話音声、音楽、動画などの様々な音声を出力する。

機器駆動部２９０は、プロセッサ２１０からの制御命令に基づいて、モータ、アクチュエータ、センサ、などを制御することによって、音声出力装置２００の主要な役割を実現する。
＜サーバ１００の機能構成＞

次に、図７を参照しながら、本実施の形態にかかるサーバ１００の機能構成について説明する。なお、図７は、本実施の形態にかかるサーバ１００の機能構成を示すブロック図である。

プロセッサ１１０は、メモリ１２０のプログラムを実行することによって、会話認識部１１１と、ユーザの感情認識部１１２と、終話判定部１１３と、応答生成部１１４と、音声合成部１１５と、制御部１１９とを実現する。

音声入力部は１６１と音声出力部１６２とは、プロセッサ１１０が、メモリ１２０のプログラムを実行しながら通信インターフェイス１６０を制御することよって、実現される。

まず、音声入力部１６１は、ユーザが発した音声の音声データを音声出力装置２００から受け付ける。より詳細には、ユーザがメッセージを発すると、音声出力装置２００はマイク２７０を介して受け付けた音声を音声データに変換する。そして、音声出力装置２００が、取得した音声データをサーバ１００に送信する。

制御部１１９は、音声入力部１６１が受信した音声データを会話認識部１１１に受け渡す。

会話認識部１１１は、音声出力装置２００からの音声データに基づいて、会話の内容を認識する。たとえば会話認識部１１１は、音声データをテキストデータに変換する。

具体的には、本実施の形態においては、会話認識部１１１は、音声特徴抽出部１１１１と、音声認識部１１１２と、キーワード抽出部１１１３とを含む。音声特徴抽出部１１１１は、受信した音声データから、音声の特徴的なパラメータを抽出する。音声認識部１１１２は、抽出したパラメータから、メッセージを示すテキストを作成する。キーワード抽出部１１１３は、テキストから感情に対応するキーワードを抽出する。

感情認識部１１２は、受け付けた音声データに基づいて、メッセージの内容や抑揚から、現在のユーザの感情を判定する。

終話判定部１１３は、ユーザの感情に基づいて、このまま会話を継続するか、会話を終了するための確認メッセージを送信するか、会話を終了するためのメッセージを送信するか、の判断を行う。

応答生成部１１４は、終話判定に基づいて、音声出力装置２００に送信するための様々な種類のメッセージを作成する。

具体的には、応答生成部１１４は、ユーザの話したセリフをオウム返しするためのメッセージを作成する。たとえば、ユーザが、「今日、怒られたんだよ。」と言うと、応答生成部１１４は、「今日、怒られちゃったんだ。」と返事をする。

また、応答生成部１１４は、応答ＤＢを参照して、ユーザの感情を示すメッセージを作成する。たとえば、ユーザが、「あんなこと言われたって、納得いかないよ。」と言うと、応答生成部１１４は、「本当に腹が立つよね。」と返事をする。

なお、応答ＤＢは、ユーザからのメッセージに含まれるキーワードと、当該キーワードに対応する感情と、の対応関係を格納する。応答生成部１１４は、オウム返しするためのメッセージと、ユーザの感情を示すメッセージと、を組み合わせた会話文を作成する。

また、応答生成部１１４は、ユーザがポジティブな感情であるか否かを確認するためのメッセージも作成する。たとえば、ポジティブな感情を複数回検知した際に、応答生成部１１４は、「元気でたかな？」というメッセージを出力する。

また、応答生成部１１４は、会話を終了する際のメッセージも作成する。たとえば、応答生成部１１４は、「そうだよね。楽しいお話ありがとう。じゃあ、僕はリビングの掃除を頑張るよ。また、お話してね。」というメッセージを出力する。

なお、本実施の形態においては、音声合成部１１５は、応答生成部１１４が作成したテキスト形式の会話文に基づいて音声データを作成する。ただし、サーバ１００がテキストデータを音声出力装置２００に送信し、音声合成部を有する音声出力装置２００がテキストデータから音声データを作成してもよい。

制御部１１９は、作成した音声データを音声出力部１６２に受け渡す。音声出力部１６２は、音声データを機器に送信する。
＜サーバ１００における音声出力処理の概略＞

次に、図８を参照しながら、本実施の形態にかかるサーバ１００における音声出力処理について説明する。なお、図８は、本実施の形態にかかるサーバ１００における音声出力処理を示すイメージ図である。

まず、ユーザがメッセージを発すると、音声出力装置２００がマイク２７０を介して音声データを取得する。音声出力装置２００は、取得した音声データをルータやインターネットなどを介してサーバ１００に送信する。サーバ１００のプロセッサ１１０は、通信インターフェイス１６０を介して音声データを受信する。

プロセッサ１１０は、メモリ１２０のプログラムを実行することによって、音声データに基づいて会話の内容を認識する（ステップＳ００２）。

プロセッサ１１０は、受け付けた音声データに基づいて、メッセージの内容や抑揚から、現在のユーザの感情を判定する（ステップＳ００４）。

プロセッサ１１０は、ユーザの感情に基づいて、このまま会話を継続するか、会話を終了するための確認メッセージを送信する、会話を終了するためのメッセージを送信するか、の判断を行う（ステップＳ００６）。

プロセッサ１１０は、終話判定に基づいて、会話を継続するためのメッセージを作成する（ステップＳ００８）。たとえば、プロセッサ１１０は、ユーザの話したセリフをオウム返しするためのメッセージやユーザの気持ちを示すメッセージを作成して、それらを組み合わせた会話文を作成する。たとえば、ユーザが「今日は大変だったよ。」と言った場合、プロセッサ１１０は、「今日は大変だったんだね。」というメッセージと、「とっても疲れているね。」というメッセージとを組み合わせる。

あるいは、プロセッサ１１０は、終話判定に基づいて、ユーザがポジティブな感情であるか否かを確認するためのメッセージを作成する（ステップＳ０１０）。たとえば、プロセッサ１１０は、「少しは楽になったかな？」というメッセージを作成する。

あるいは、プロセッサ１１０は、終話判定に基づいて、会話を終了する際のメッセージを作成する（ステップＳ０１２）。たとえば、プロセッサ１１０は、音声出力装置２００がこれから実行する動作を示すメッセージを作成する。プロセッサ１１０は、「じゃあ、頑張ってね。僕はそろそろリビングを掃除するよ。」というメッセージを作成する。

プロセッサ１１０は、作成したメッセージを、通信インターフェイス１６０を介して音声出力装置２００に送信する（ステップＳ０１４）。音声出力装置２００は、受信したメッセージを音声出力する。
＜サーバ１００における音声出力処理の詳細＞

次に、図９を参照しながら、本実施の形態にかかるサーバ１００の音声出力処理について説明する。なお、図９は、本実施の形態にかかるサーバ１００の音声出力処理を示すフローチャートである。

サーバ１００のプロセッサ１１０は、通信インターフェイス１６０を介して音声出力装置２００から音声データを受信すると、以下の音声出力処理を実行する。

まず、プロセッサ１１０は、音声データに基づいて会話の内容を認識する（ステップＳ１０２）。プロセッサ１１０は、感情データベース１２２や図示しない抑揚テーブルを参照することによって、認識した会話の内容や会話の抑揚に基づいてユーザの感情を判定する（ステップＳ１０４）。

プロセッサ１１０は、ユーザがポジティブな感情を有しているか否かを判断する（ステップＳ１０６）。ユーザがポジティブな感情を有していない場合（ステップＳ１０６にてＮＯである場合）、プロセッサ１１０は、ユーザのセリフをオウム返しするための復唱文を生成する（ステップＳ１０８）。

プロセッサ１１０は、判定したユーザの感情に基づいて、ユーザの感情を音声出力するための感情文を生成する（ステップＳ１１０）。プロセッサ１１０は、復唱文と感情文とを組み合わせて応答メッセージを作成し、通信インターフェイス１６０を介して当該応答メッセージを音声出力装置２００に送信する（ステップＳ１１２）。プロセッサ１１０は、今回の音声出力処理を終了する。

一方、ユーザがポジティブな感情を有している場合（ステップＳ１０６にてＹＥＳの場合）、プロセッサ１１０は、第１の所定回数、連続してポジティブなメッセージを受け付けたか否かを判断する（ステップＳ１１６）。プロセッサ１１０は、第１の所定回数、連続してポジティブなメッセージを受け付けたわけではない場合（ステップＳ１１６にてＮＯの場合）、ステップＳ１０８からの処理を繰り返す。

プロセッサ１１０は、第１の所定回数、連続してポジティブなメッセージを受け付けた場合（ステップＳ１１６にてＹＥＳである場合）、通信インターフェイス１６０を介して終話確認メッセージ、たとえば「元気かな？」というメッセージ、を音声出力装置２００に送信する（ステップＳ１２０）。

プロセッサ１１０は、通信インターフェイス１６０を介して、終話確認メッセージに対する返答があるか否かを判断する（ステップＳ１２２）。プロセッサ１１０は、終話確認メッセージに対する返答がない場合（ステップＳ１２２にてＮＯの場合）、再度終話確認メッセージ、あるいは「大丈夫？」といったメッセージを通信インターフェイス１６０を介して音声出力装置２００に送信する。プロセッサ１１０は、ステップＳ１２２からの処理を繰り返す。

プロセッサ１１０は、終話確認メッセージに対する返答を受信した場合（ステップＳ１２２にてＹＥＳである場合）、ユーザからの返答メッセージが肯定的なものであるか否かを判断する（ステップＳ１２６）。

ユーザからの返答メッセージが肯定的なものである場合（ステップＳ１２６にてＹＥＳである場合）、プロセッサ１１０は、会話を終了させるためのメッセージ、たとえば「良かったね。じゃあ、頑張ってね。僕はそろそろリビングを掃除するよ。」というメッセージ、を通信インターフェイス１６０を介して音声出力装置２００に送信する（ステップＳ１２８）。プロセッサ１１０は、音声出力処理を終了する。

ユーザからの返答メッセージが肯定的なものでない場合（ステップＳ１２６にてＮＯの場合）、プロセッサ１１０は、ユーザのセリフをオウム返しするための復唱文を生成する（ステップＳ１３２）。プロセッサ１１０は、判定したユーザの感情に基づいて、ユーザの感情を音声出力するための感情文を生成する（ステップＳ１３４）。プロセッサ１１０は、復唱文と感情文とを組み合わせて応答メッセージを作成し、通信インターフェイス１６０を介して当該応答メッセージを音声出力装置２００に送信する（ステップＳ１３６）。

プロセッサ１１０は、ユーザがポジティブな感情を有しているか否かを判断する（ステップＳ１３８）。ユーザがポジティブな感情を有していない場合（ステップＳ１３８にてＮＯである場合）、プロセッサ１１０は、ステップＳ１３２からの処理を繰り返す。

一方、ユーザがポジティブな感情を有している場合（ステップＳ１３８にてＹＥＳの場合）、プロセッサ１１０は、第２の所定回数、連続してポジティブなメッセージを受け付けたか否かを判断する（ステップＳ１４０）。なお、本実施の形態においては、第２の所定回数は、第１の所定回数よりも少ない。プロセッサ１１０は、第２の所定回数、連続してポジティブなメッセージを受け付けたわけではない場合（ステップＳ１４０にてＮＯの場合）、ステップＳ１３２からの処理を繰り返す。

プロセッサ１１０は、第２の所定回数、連続してポジティブなメッセージを受け付けた場合（ステップＳ１４０にてＹＥＳである場合）、ステップＳ１２０からの処理を繰り返す。

このように、本実施の形態においては、ユーザがポジティブな気分でいる間に会話を終了するため、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムが提供される。
＜第２の実施の形態＞

第１の実施の形態においては、第１の所定回数、連続して、ユーザのポジティブな感情が検知された際に、会話を終了するための処理を実行するものであった。しかしながら、他の条件に基づいて、会話を終了するための処理を実行してもよい。たとえば、本実施の形態のように、第１の所定時間の間、ポジティブな感情が持続したら会話を終了するものであってもよい。

以下では、図１０を参照しながら、本実施の形態にかかるサーバ１００の音声出力処理の一部について説明するものとし、ネットワークシステム１の全体構成やサーバ１００および音声出力装置２００のハードウェア構成などについては第１の実施の形態のそれらと同様であるため、説明を繰り返さない。なお、図１０は、本実施の形態にかかるサーバ１００の音声出力処理を示すフローチャートである。
＜サーバ１００における音声出力処理の詳細＞

次に、図１０を参照して、ステップＳ２１６とステップＳ２４０について説明する。その他のステップは、それぞれ、図９に示す処理と同様であるためここでは説明を繰り返さない。

まず、ステップＳ２１６においては、ユーザがポジティブな感情を有している場合（ステップＳ２０６にてＹＥＳの場合）、プロセッサ１１０は、第１の所定時間の間、連続してポジティブなメッセージを受け付けたか否かを判断する（ステップＳ２１６）。プロセッサ１１０は、第１の所定時間、連続してポジティブなメッセージを受け付けたわけではない場合（ステップＳ２１６にてＮＯの場合）、ステップＳ２０８からの処理を繰り返す。

プロセッサ１１０は、第１の所定時間、連続してポジティブなメッセージを受け付けた場合（ステップＳ２１６にてＹＥＳである場合）、通信インターフェイス１６０を介して終話確認メッセージ、たとえば「元気でたかな？」というメッセージ、を音声出力装置２００に送信する（ステップＳ２２０）。

また、ステップＳ２４０においては、ユーザがポジティブな感情を有している場合（ステップＳ２３８にてＹＥＳの場合）、プロセッサ１１０は、第２の所定時間、連続してポジティブなメッセージを受け付けたか否かを判断する（ステップＳ２４０）。なお、本実施の形態においては、第２の所定時間は、第１の所定時間よりも短い。プロセッサ１１０は、第２の所定回数、連続してポジティブなメッセージを受け付けたわけではない場合（ステップＳ２４０にてＮＯの場合）、ステップＳ２３２からの処理を繰り返す。

プロセッサ１１０は、第２の所定時間、連続してポジティブなメッセージを受け付けた場合（ステップＳ２４０にてＹＥＳである場合）、ステップＳ２２０からの処理を繰り返す。

このように、本実施の形態においても、ユーザがポジティブな気分でいる間に会話を終了するため、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムが提供される。
＜第３の実施の形態＞

第１の実施の形態においては、第１の所定回数、連続して、ユーザのポジティブな感情が検知された際に、会話を終了するための処理を実行するものであった。しかしながら、他の条件に基づいて、会話を終了するための処理を実行してもよい。たとえば、本実施の形態のように、第１の所定回数において、第１の所定割合以上ポジティブな感情が検知されたときに会話を終了するものであってもよい。

以下では、図１１を参照しながら、本実施の形態にかかるサーバ１００の音声出力処理の一部について説明するものとし、ネットワークシステム１の全体構成やサーバ１００および音声出力装置２００のハードウェア構成などについては第１の実施の形態のそれらと同様であるため、説明を繰り返さない。なお、図１１は、本実施の形態にかかるサーバ１００の音声出力処理を示すフローチャートである。
＜サーバ１００における音声出力処理の詳細＞

次に、図１１を参照して、ステップＳ３１６、ステップＳ３１８、ステップＳ３４０、ステップＳ３４２について説明する。その他のステップは、それぞれ、図９に示す処理と同様であるためここでは説明を繰り返さない。

まず、ステップＳ３１６においては、ユーザがポジティブな感情を有している場合（ステップＳ３０６にてＹＥＳの場合）、プロセッサ１１０は、既に第１の所定回数以上、ポジティブな感情を検知したか否かを判断する（ステップＳ３１６）。プロセッサ１１０は、未だ、第１の所定回数、ポジティブなメッセージを受け付けたわけではない場合（ステップＳ３１６にてＮＯの場合）、ステップＳ３０８からの処理を繰り返す。

プロセッサ１１０は、第１の所定回数以上、連続してポジティブなメッセージを受け付けた場合（ステップＳ３１６にてＹＥＳである場合）、ポジティブなメッセージの割合がその間に検知した両感情のメッセージのうちの第１の所定割合、たとえば７割、以上であるか否かを判断する（ステップＳ３１８）。プロセッサ１１０は、ポジティブなメッセージの割合が両感情のメッセージのうちの第１の所定割合未満である場合（ステップＳ３１８にてＮＯの場合）、ステップＳ３０８からの処理を繰り返す。

プロセッサ１１０は、ポジティブなメッセージの割合が両感情のメッセージのうちの第１の所定割合以上である場合（ステップＳ３１８にてＹＥＳの場合）、通信インターフェイス１６０を介して終話確認メッセージ、たとえば「元気でたかな？」というメッセージ、を音声出力装置２００に送信する（ステップＳ３２０）。

また、ステップＳ３４０においては、ユーザがポジティブな感情を有している場合（ステップＳ３３８にてＹＥＳの場合）、プロセッサ１１０は、第２の所定回数以上、ポジティブな感情を受け付けたか否かを判断する（ステップＳ３４０）。なお、本実施の形態においては、第２の所定回数は、第１の所定回数よりも少ない。プロセッサ１１０は、未だ、第２の所定回数以上、ポジティブなメッセージを受け付けたわけではない場合（ステップＳ３４０にてＮＯの場合）、ステップＳ３３２からの処理を繰り返す。

プロセッサ１１０は、第２の所定回数以上、ポジティブなメッセージを受け付けた場合（ステップＳ３４０にてＹＥＳである場合）、ポジティブなメッセージの割合がその間に検知した両感情のメッセージのうちの第２の所定割合、たとえば６割、以上である否かを判断する（ステップＳ３４２）。プロセッサ１１０は、ポジティブなメッセージの割合が両感情のメッセージのうちの第２の所定割合未満である場合（ステップＳ３４２にてＮＯの場合）、ステップＳ３３２からの処理を繰り返す。

プロセッサ１１０は、ポジティブなメッセージの割合が両感情のメッセージのうちの第２の所定割合以上である場合（ステップＳ３４２にてＹＥＳの場合）、ステップＳ３２０からの処理を繰り返す。

このように、本実施の形態においても、ユーザがポジティブな気分でいる間に会話を終了するため、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムが提供される。

なお、ステップＳ３１６においては、プロセッサ１１０は、ポジティブな感情とネガティブな感情を合わせて第１の所定回数以上検知したか否かを判断してもよい。同様に、ステップＳ３４０においても、プロセッサ１１０は、ポジティブな感情とネガティブな感情を合わせて第２の所定回数以上検知したか否かを判断してもよい。
＜第４の実施の形態＞

第１の実施の形態においては、第１の所定回数、連続して、ユーザのポジティブな感情が検知された際に、会話を終了するための処理を実行するものであった。しかしながら、他の条件に基づいて、会話を終了するための処理を実行してもよい。たとえば、本実施の形態のように、第１の所定時間の間、第１の所定割合以上ポジティブな感情が検知されたときに会話を終了するものであってもよい。

以下では、図１２を参照しながら、本実施の形態にかかるサーバ１００の音声出力処理の一部について説明するものとし、ネットワークシステム１の全体構成やサーバ１００および音声出力装置２００のハードウェア構成などについては、第１の実施の形態のそれらと同様であるため、説明を繰り返さない。なお、図１２は、本実施の形態にかかるサーバ１００の音声出力処理を示すフローチャートである。
＜サーバ１００における音声出力処理の詳細＞

次に、図１２を参照して、ステップＳ４１６、ステップＳ４１８、ステップＳ４４０、ステップＳ４４２について説明する。その他のステップは、それぞれ、図９に示すステップと同様であるためここでは説明を繰り返さない。

まず、ステップＳ３１６においては、ユーザがポジティブな感情を有している場合（ステップＳ４０６にてＹＥＳの場合）、プロセッサ１１０は、ポジティブまたはネガティブな感情を合わせて、既に第１の所定時間以上、受け付けたか否かを判断する（ステップＳ４１６）。プロセッサ１１０は、未だ、第１の所定時間、ポジティブまたはネガティブなメッセージを受け付けたわけではない場合（ステップＳ４１６にてＮＯの場合）、ステップＳ４０８からの処理を繰り返す。

プロセッサ１１０は、第１の所定時間以上、ポジティブまたはネガティブなメッセージを受け付けた場合（ステップＳ４１６にてＹＥＳである場合）、ポジティブなメッセージの割合がその間に検知した両感情のメッセージのうちの第１の所定割合、たとえば７割、以上であるか否かを判断する（ステップＳ４１８）。プロセッサ１１０は、ポジティブなメッセージの割合が両感情のメッセージのうちの第１の所定割合未満である場合（ステップＳ４１８にてＮＯの場合）、ステップＳ４０８からの処理を繰り返す。

プロセッサ１１０は、ポジティブなメッセージの割合が両感情のメッセージのうちの第１の所定割合以上である場合（ステップＳ４１８にてＹＥＳの場合）、通信インターフェイス１６０を介して終話確認メッセージ、たとえば「元気でたかな？」というメッセージ、を音声出力装置２００に送信する（ステップＳ４２０）。

また、ステップＳ４４０においては、ユーザがポジティブな感情を有している場合（ステップＳ４３８にてＹＥＳの場合）、プロセッサ１１０は、既に第２の所定時間以上、ポジティブまたはネガティブな感情を受け付けたか否かを判断する（ステップＳ４４０）。なお、本実施の形態においては、第２の所定時間は、第１の所定時間よりも短い。プロセッサ１１０は、未だ、第２の所定時間以上、ポジティブなメッセージを受け付けたわけではない場合（ステップＳ４４０にてＮＯの場合）、ステップＳ４３２からの処理を繰り返す。

プロセッサ１１０は、第２の所定時間以上、ポジティブまたはネガティブなメッセージを受け付けた場合（ステップＳ４４０にてＹＥＳである場合）、ポジティブなメッセージの割合が両感情のメッセージのうちの第２の所定割合、たとえば６割、以上である否かを判断する（ステップＳ４４２）。プロセッサ１１０は、ポジティブなメッセージの割合が両感情のメッセージのうちの第２の所定割合未満である場合（ステップＳ４４２にてＮＯの場合）、ステップＳ４３２からの処理を繰り返す。

プロセッサ１１０は、ポジティブなメッセージの割合が両メッセージのうちの第２の所定割合以上である場合（ステップＳ４４２にてＹＥＳの場合）、ステップＳ４２０からの処理を繰り返す。

このように、本実施の形態においても、ユーザがポジティブな気分でいる間に会話を終了するため、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムが提供される。
＜第５の実施の形態＞

第１〜第４の実施の形態においては、音声出力装置２００がユーザのメッセージを受け付けて、サーバ１００が返答メッセージを作成するものであった。しかしながら、音声出力装置２００が、ローカルで、すなわち自身で回答用のメッセージを作成してもよい。

本実施の形態においては、音声出力装置２００としての自走式の掃除機について説明する。ただし、音声出力装置２００は、掃除機に限らず、たとえば、エアコン、冷蔵庫、空気清浄器、加湿器、除湿器、自走式掃除機、照明、時計などの家電、テレビ、ハードディスクレコーダ、ゲーム機、音楽プレーヤー、パーソナルコンピュータなどのＡＶ（オーディオ・ビジュアル）機器、太陽光発電機、インターホン、給湯器などの住宅設備、などであってもよい。音声出力装置２００は、住居またはオフィス内に設置されることが多いが、店舗やイベント会場や駅などの他の場所に設置することもできる。
＜音声出力装置２００の動作概要＞

まず、図１３を参照して、本実施の形態にかかる音声出力装置２００の動作概要について説明する。なお、図１３は、本実施の形態にかかる音声出力装置２００の動作概要を示すイメージ図である。

以下では、音声出力装置２００は、ユーザがネガティブな感情を持っている場合に、会話によってポジティブな感情へと誘導し、ポジティブな感情を持たせたままで会話を終了する場合について説明する。なお、ポジティブな感情とネガティブな感情については、図２に示したものと同様であるため、ここでは説明を繰り返さない。

まず、ユーザが音声出力装置２００に、「今日、新しい車が来るんだ。」と話しかける。この場合、ユーザは、長年乗っていた車を手放さなければならないという寂しい気持ち、すなわちネガティブな感情と、新しい車を手に入れる嬉しい気持ち、すなわちポジティブな感情とを有している（図１３における（１）および（２））。

音声出力装置２００は、ユーザからのメッセージの内容に基づいて、あるいはユーザの音声の抑揚・アクセント・話す速度などに基づいて、ポジティブな感情およびネガティブな感情を検知する。音声出力装置２００は、ユーザのネガティブな感情を検知すると会話を継続する。一方、音声出力装置２００は、ユーザのポジティブな感情を検知すると、ユーザのポジティブな感情を維持するようにしながら、会話を終了へと導く（図１３における（１）および（２））。

何度か会話を繰り返したのち、ユーザが音声出力装置２００に、「新しい車がくるから気持ちを切り替えなきゃね。」と話す。すると、音声出力装置２００は、ユーザの前向きな気持ち、すなわちユーザのポジティブな気持ちを検知する（図１３における（３））。

ユーザが、「大丈夫だよ。」と肯定的な返答をすると、音声出力装置２００は、別れの挨拶と、自身がこれから行う動作を示すメッセージとを出力する。たとえば、音声出力装置２００は、「良かった。じゃあ、僕はリビングの掃除を頑張るよ。また、お話してね。」と出力して、会話を終了する（図１における（４））。

なお、既にユーザがポジティブな感情を持っている場合に、ポジティブな感情を持たせたままで会話を終了する場合については、図３に示したものと同様であるため、ここでは説明を繰り返さない。

以下では、このような機能を実現するための音声出力装置２００について詳細に説明する。なお、本実施の形態にかかる音声出力装置２００のハードウェア構成の一態様については、図６に示したものと同様であるため、ここでは説明を繰り返さない。

ただし、本実施の形態においては、音声出力装置２００のメモリ２２０が、感情データベース１２１やその他のデータを格納する。あるいは、音声出力装置２００とは別の装置が、感情データベース１２１やその他のデータを格納してもよい。この場合は、音声出力装置２００のプロセッサ２１０が、通信インターフェイス２６０を介して、外部の感情データベース１２１を参照可能に構成されている。

なお、感情データベース１２１については、図５に示すものと同様であるため、ここでは説明を繰り返さない。

また、第１から第４の実施の形態と同様に、メモリ２２０は、ユーザからメッセージに対して、ユーザの感情を音声出力するためのデータベースを記憶していることが好ましい。データベースには、たとえば、ユーザからの「今日は忙しかったよ。」というメッセージや疲れた時の音声の抑揚に対して、「疲れているんだね。」というメッセージが対応付けられている。あるいは、たとえば、ユーザからの「今日、友達とケンカしたよ。」というメッセージや荒い口調の抑揚に対して、「腹がたっているんだね。」というメッセージが対応付けられている。
＜音声出力装置２００の機能構成＞

次に、図１４を参照しながら、本実施の形態にかかる音声出力装置２００の機能構成について説明する。なお、図１４は、本実施の形態にかかる音声出力装置２００の機能構成を示すブロック図である。

プロセッサ２１０は、メモリ２２０のプログラムを実行することによって、会話認識部２１１と、ユーザの感情認識部２１２と、終話判定部２１３と、応答生成部２１４と、音声合成部２１５と、制御部２１９とを実現する。

音声入力部２６１は、プロセッサ２１０が、メモリ２２０のプログラムを実行することによってマイク２７０を制御することよって実現される。そして、音声出力部２６２は、プロセッサ２１０が、メモリ２２０のプログラムを実行することによってスピーカ２８０を制御することよって実現される。

まず、音声入力部２６１は、ユーザが発した音声を受け付ける。より詳細には、ユーザがメッセージを発すると、音声入力部２６１はマイク２７０を介して受け付けた音声を音声データに変換する。音声入力部２６１は、取得した音声データを制御部２１９に受け渡す。

制御部２１９は、音声入力部２６１が取得した音声データを会話認識部２１１に受け渡す。

会話認識部２１１は、音声出力装置２００からの音声データに基づいて、たとえばテキストデータに変換する。具体的には、本実施の形態においては、会話認識部２１１は、音声特徴抽出部２１１１と、音声認識部２１１２と、キーワード抽出部２１１３とを含む。音声特徴抽出部２１１１は、受信した音声データから、音声の特徴的なパラメータを抽出する。音声認識部２１１２は、抽出したパラメータから、メッセージを示すテキストを作成する。キーワード抽出部２１１３は、テキストからキーワードを抽出する。

感情認識部２１２は、受け付けた音声データに基づいて、メッセージの内容や抑揚から、現在のユーザの感情を判定する。

終話判定部２１３は、ユーザの感情に基づいて、このまま会話を継続するか、会話を終了するための確認メッセージを送信する、会話を終了するためのメッセージを送信するか、の判断を行う。

応答生成部２１４は、終話判定に基づいて、様々な種類の会話を継続するためのメッセージを作成する。

たとえば、応答生成部２１４は、ユーザの話したセリフをオウム返しするためのメッセージを作成する。また、応答生成部２１４は、応答ＤＢを参照して、ユーザの感情を示すメッセージを作成する。応答生成部２１４は、それらを組み合わせた会話文を作成する。

また、応答生成部２１４は、ユーザがポジティブな感情であるか否かを確認するためのメッセージも作成する。

また、応答生成部２１４は、会話を終了する際のメッセージも作成する。

なお、本実施の形態においては、音声合成部２１５は、応答生成部２１４が作成したテキスト形式の会話文に基づいて音声データを作成する。

制御部２１９は、作成した音声データを音声出力部２６２に受け渡す。音声出力部２６２は、音声データに基づいてメッセージを音声出力する。
＜音声出力装置２００における音声出力処理の概略＞

次に、図１５を参照しながら、本実施の形態にかかる音声出力装置２００における音声出力処理について説明する。なお、図１５は、本実施の形態にかかる音声出力装置２００における音声出力処理を示すイメージ図である。

まず、ユーザがメッセージを発すると、プロセッサ２１０は、マイク２７０を介して音声データを取得する。プロセッサ２１０は、メモリ２２０のプログラムを実行することによって、音声データに基づいて会話の内容を認識する（ステップＳ０５２）。

プロセッサ２１０は、受け付けた音声データに基づいて、メッセージの内容や抑揚から、現在のユーザの感情を判定する（ステップＳ０５４）。

プロセッサ２１０は、ユーザの感情に基づいて、このまま会話を継続するか、会話を終了するための確認メッセージを送信する、会話を終了するためのメッセージを送信するか、の判断を行う（ステップＳ０５６）。

プロセッサ２１０は、終話判定に基づいて、会話を継続するためのメッセージを作成する（ステップＳ０５８）。たとえば、プロセッサ２１０は、ユーザの話したセリフをオウム返しするためのメッセージやユーザの気持ちを示すメッセージを作成して、それらを組み合わせた会話文を作成する。たとえば、ユーザが「今日は大変だったよ。」と言った場合、プロセッサ２１０は、「今日は大変だったんだね。」というメッセージと、「とっても疲れているね。」というメッセージとを組み合わせる。

あるいは、プロセッサ２１０は、終話判定に基づいて、ユーザがポジティブな感情であるか否かを確認するためのメッセージを作成する（ステップＳ０６０）。たとえば、プロセッサ２１０は、「少しは楽になったかな？」というメッセージを作成する。

あるいは、プロセッサ２１０は、終話判定に基づいて、会話を終了する際のメッセージを作成する（ステップＳ０６２）。たとえば、プロセッサ２１０は、音声出力装置２００がこれから実行する動作を示すメッセージを作成する。プロセッサ２１０は、「じゃあ、頑張ってね。僕はそろそろリビングを掃除するよ。」というメッセージを作成する。

プロセッサ２１０は、作成したメッセージを、スピーカ２８０を介して音声出力する。
＜音声出力装置２００における音声出力処理の詳細＞

次に、音声出力装置２００における音声出力処理に関しては、第１から第４の実施の形態に関する図９〜図１２に記載の音声出力処理と同様であるため、ここでは説明を繰り返さない。なお、より詳細には、本実施の形態においては、音声出力装置２００のプロセッサ２１０は、マイク２７０を介して音声を受信すると、図９から図１２に記載の音声出力処理を実行する。

また、ステップＳ１１２，Ｓ２１２，Ｓ３１２，Ｓ４１２においては、プロセッサ１１０は、復唱文と感情文とを組み合わせて応答メッセージを作成し、スピーカ２８０を介して当該応答メッセージを音声出力する（ステップＳ４１２）。そして、プロセッサ２１０は、今回の音声出力処理を終了する。

また、ステップＳ１２０，Ｓ２２０，Ｓ３２０，Ｓ４２０においては、プロセッサ２１０は、スピーカ２８０を介して終話確認メッセージ、たとえば「元気でたかな？」というメッセージ、を音声出力する。

また、ステップＳ１２８，Ｓ２２８，Ｓ３２８，Ｓ４２８においては、プロセッサ２１０は、会話を終了させるためのメッセージ、たとえば「良かったね。じゃあ、頑張ってね。僕はそろそろリビングを掃除するよ。」というメッセージ、をスピーカ２８０を介して音声出力する。

このように、本実施の形態においても、ユーザがポジティブな気分でいる間に会話を終了するため、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムが提供される。
＜第６の実施の形態＞

第１〜第５の実施の形態においては、感情データベース１２１が、喜び、怒り、悲しみ、楽しみという４種類の感情と、それに対応するキーワードとを格納するものであった。しかしながら、感情データベースは、別の組み合わせを格納するものであってもよい。

たとえば、図１６に示すように、感情データベース１２２が、怒り、悲しみ、不安、喜びという４種類の感情と、それに対応するキーワードとを格納してもよい。この場合は、喜びに対応するキーワードを受け付けたときにユーザがポジティブな感情を有していると判断し、怒り、悲しみ、不安に対応するキーワードを受け付けたときにユーザがネガティブな感情を有していると判断する。

さらに、感情データベースは、５種類以上の感情と、それに対応するキーワードを格納するものであってもよい。
＜その他の応用例＞

本発明は、システム或いは装置にプログラムを供給することによって達成される場合にも適用できることはいうまでもない。そして、本発明を達成するためのソフトウェアによって表されるプログラムを格納した記憶媒体（あるいはメモリ）を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、本発明の効果を享受することが可能となる。

この場合、記憶媒体から読出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わる他の記憶媒体に書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることは言うまでもない。

そして、上記の複数の実施の形態に記載の構成は、互いに組み合わせたり、一部のみを採用したり、一部のみを省いたりすることができる。
＜上記の複数の実施の形態のまとめ＞

第１から第６の実施の形態においては、マイク２７０と、スピーカ２８０と、プロセッサ２１０とを備える、音声出力装置２００が提供される。プロセッサ２１０は、マイク２７０を介して受け付けたメッセージが第１の感情に対応するものである場合に、直接的に、あるいは間接的に会話を終了するための処理を実行し、マイク２７０を介して受け付けたメッセージが第１の感情に対応するものでない場合にスピーカ２８０を介して会話を継続する。

第１から第６の実施の形態においては、プロセッサ２１０は、受け付けたメッセージが第１の感情に対応するものである場合にスピーカ２８０に所定のメッセージを出力させ、所定のメッセージに対応する回答が第１の感情に対応するものである場合に会話を終了し、所定のメッセージに対応する回答が第１の感情に対応するものでない場合にスピーカ２８０に会話を継続させる。

第１、第５、第６の実施の形態においては、プロセッサ２１０は、マイク２７０を介して受け付けた複数のメッセージが第１の感情に対応するものである場合に会話を終了し、マイク２７０を介して受け付けた複数のメッセージが第１の感情に対応するものでない場合にスピーカ２８０を介して会話を継続する。

第２、第５、第６の実施の形態においては、プロセッサ２１０は、マイク２７０を介して所定時間の間に受け付けた少なくとも１つのメッセージが第１の感情に対応するものである場合に会話を終了し、マイク２７０を介して所定時間の間に受け付けた少なくとも１つのメッセージが第１の感情に対応するものでない場合にスピーカ２８０を介して会話を継続する。

第３、第５、第６の実施の形態においては、プロセッサ２１０は、スピーカ２８０を介して受け付けた所定回数のメッセージのうちの所定割合以上が第１の感情に対応するものである場合に会話を終了し、スピーカ２８０を介して受け付けた所定回数のメッセージのうちの所定割合以上が第１の感情に対応するものでない場合にスピーカ２８０を介して会話を継続する。

第４、第５、第６の実施の形態においては、プロセッサ２１０は、マイク２７０を介して所定時間の間に受け付けた少なくとも１つのメッセージのうちの所定割合以上が第１の感情に対応するものである場合に会話を終了し、マイク２７０を介して所定時間の間に受け付けた少なくとも１つのメッセージのうちの所定割合以上が第１の感情に対応するものでない場合にスピーカ２８０を介して会話を継続する。

第１から第６の実施の形態においては、プロセッサ２１０は、マイク２７０を介して入力されたメッセージに同調するメッセージをスピーカ２８０に出力させる。

第１から第６の実施の形態においては、プロセッサ２１０は、マイク２７０を介して受け付けたメッセージと実質的に同じ意味のメッセージをスピーカ２８０に出力させる。

第１から第６の実施の形態においては、プロセッサ２１０は、マイク２７０を介して受け付けたメッセージに対応する感情を表す言葉をスピーカ２８０に出力させる。

第１から第６の実施の形態においては、プロセッサ２１０は、会話を終了する際に、音声出力装置２００の次の動作を示すメッセージをスピーカに出力させる。

第１、第２、第３、第４、第６の実施の形態においては、音声出力装置２００は、サーバ１００と通信するための通信インターフェイス２６０をさらに備える。プロセッサ２１０は、スピーカ２８０から出力するためのメッセージを、通信インターフェイス２６０を介してサーバ１００から受信する。

第１から第６の実施の形態においては、マイク２７０と、スピーカ２８０と、プロセッサ２１０とを含む音声出力装置２００における音声出力方法が提供される。音声出力方法は、プロセッサ２１０が、マイク２７０を介して受け付けたメッセージが第１の感情に対応するものである場合に会話を終了するステップと、プロセッサ２１０が、マイク２７０を介して受け付けたメッセージが第１の感情に対応するものでない場合にスピーカ２８０を介して会話を継続するステップとを備える。

第１から第６の実施の形態においては、マイク２７０と、スピーカ２８０と、プロセッサ２１０とを含む音声出力装置２００における音声出力プログラムが提供される。音声出力プログラムは、マイク２７０を介して受け付けたメッセージが第１の感情に対応するものである場合に会話を終了するステップと、マイク２７０を介して受け付けたメッセージが第１の感情に対応するものでない場合にスピーカ２８０を介して会話を継続するステップとをプロセッサ２１０に実行させる。

第１から第６の実施の形態においては、音声出力装置２００と、音声出力装置２００と通信するサーバ１００とを備えるネットワークシステム１が提供される。サーバ１００は、音声出力装置２００が受け付けたメッセージが第１の感情に対応するものである場合に音声出力装置２００に会話を終了させ、音声出力装置２００が受け付けたメッセージが第１の感情に対応するものでない場合に音声出力装置２００に会話を継続させる。

第１から第６の実施の形態においては、音声出力装置２００と、音声出力装置２００と通信可能なサーバ１００と、を含むネットワークシステム１における音声出力方法が提供される。音声出力方法は、音声出力装置２００が、メッセージを受け付けるステップと、サーバ１００が、メッセージが第１の感情に対応するものであるか否かを判断するステップと、メッセージが第１の感情に対応するものである場合に、サーバ１００が音声出力装置２００に会話を終了させるステップと、メッセージが第１の感情に対応するものでない場合に、サーバ１００が音声出力装置２００に会話を継続させるステップとを備える。

第１から第６の実施の形態においては、音声出力装置２００と通信するための通信インターフェイス１６０と、プロセッサ１１０とを備えるサーバ１００が提供される。プロセッサ１１０は、通信インターフェイス１６０を介して、音声出力装置２００からメッセージを受信し、メッセージが第１の感情に対応するものである場合に、通信インターフェイス１６０を介して音声出力装置２００に会話を終了させ、メッセージが第１の感情に対応するものでない場合に、通信インターフェイス１６０を介して音声出力装置２００に会話を継続させる。

第１から第６の実施の形態においては、音声出力装置２００と通信するための通信インターフェイス１６０と、プロセッサ１１０とを含むサーバ１００における音声出力方法が提供される。音声出力方法は、プロセッサ１１０が、通信インターフェイス１６０を介して、音声出力装置２００からメッセージを受信するステップと、プロセッサ１１０が、メッセージが第１の感情に対応するか否かを判断するステップと、プロセッサ１１０が、メッセージが第１の感情に対応するものである場合に、通信インターフェイス１６０を介して音声出力装置２００に会話を終了させるステップと、プロセッサ１１０が、メッセージが第１の感情に対応するものでない場合に、通信インターフェイス１６０を介して音声出力装置２００に会話を継続させるステップとを備える。

第１から第６の実施の形態においては、音声出力装置２００と通信するための通信インターフェイス１６０と、プロセッサ１１０とを含むサーバ１００のための音声出力プログラムが提供される。音声出力プログラムは、通信インターフェイス１６０を介して、音声出力装置２００からメッセージを受信するステップと、メッセージが第１の感情に対応するか否かを判断するステップと、メッセージが第１の感情に対応するものである場合に、通信インターフェイス１６０を介して音声出力装置２００に会話を終了させるステップと、メッセージが第１の感情に対応するものでない場合に、通信インターフェイス１６０を介して音声出力装置２００に会話を継続させるステップとをプロセッサに実行させる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１：ネットワークシステム
１００：サーバ
１１０：プロセッサ
１１１：会話認識部
１１２：感情認識部
１１３：終話判定部
１１４：応答生成部
１１５：音声合成部
１１９：制御部
１２０：メモリ
１２１：感情データベース
１２２：感情データベース
１３０：ライト
１４０：スイッチ
１６０：通信インターフェイス
１６１：音声入力部
１６２：音声出力部
２００：音声出力装置
２１０：プロセッサ
２１１：会話認識部
２１２：感情認識部
２１３：終話判定部
２１４：応答生成部
２１５：音声合成部
２１９：制御部
２２０：メモリ
２３０：ライト
２４０：スイッチ
２６０：通信インターフェイス
２６１：音声入力部
２６２：音声出力部
２７０：マイク
２８０：スピーカ
２９０：機器駆動部
１１１１：音声特徴抽出部
１１１２：音声認識部
１１１３：キーワード抽出部
２１１１：音声特徴抽出部
２１１２：音声認識部
２１１３：キーワード抽出部

Claims

マイクと、
スピーカと、
プロセッサとを備える、音声出力装置であって、
前記プロセッサは、
前記マイクを介して受け付けたメッセージが第１の感情に対応するものである場合に前記スピーカに所定のメッセージを出力させ、
前記所定のメッセージに対応する回答が前記第１の感情に対応するものである場合に会話を終了し、
前記マイクを介して受け付けたメッセージが第１の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第１の感情に対応するものでない場合に前記スピーカを介して会話を継続する、音声出力装置。
前記プロセッサは、
前記マイクを介して受け付けた複数のメッセージが前記第１の感情に対応するものである場合に会話を終了し、
前記マイクを介して受け付けた複数のメッセージが前記第１の感情に対応するものでない場合に前記スピーカを介して会話を継続する、請求項１に記載の音声出力装置。
前記プロセッサは、
前記マイクを介して所定時間の間に受け付けた少なくとも１つのメッセージが前記第１の感情に対応するものである場合に会話を終了し、
前記マイクを介して所定時間の間に受け付けた少なくとも１つのメッセージが前記第１の感情に対応するものでない場合に前記スピーカを介して会話を継続する、請求項１に記載の音声出力装置。
前記プロセッサは、
前記スピーカを介して受け付けた所定回数のメッセージのうちの所定割合以上が前記第１の感情に対応するものである場合に会話を終了し、
前記スピーカを介して受け付けた所定回数のメッセージのうちの所定割合以上が前記第１の感情に対応するものでない場合に前記スピーカを介して会話を継続する、請求項１に記載の音声出力装置。
前記プロセッサは、
前記マイクを介して所定時間の間に受け付けた少なくとも１つのメッセージのうちの所定割合以上が前記第１の感情に対応するものである場合に会話を終了し、
前記マイクを介して所定時間の間に受け付けた少なくとも１つのメッセージのうちの所定割合以上が前記第１の感情に対応するものでない場合に前記スピーカを介して会話を継続する、請求項１に記載の音声出力装置。
前記プロセッサは、
前記マイクを介して入力されたメッセージに同調するメッセージを前記スピーカに出力させる、請求項１から５のいずれか１項に記載の音声出力装置。
前記プロセッサは、
前記マイクを介して受け付けたメッセージと実質的に同じ意味のメッセージを前記スピーカに出力させる、請求項１から５のいずれか１項に記載の音声出力装置。
前記プロセッサは、
前記マイクを介して受け付けたメッセージに対応する感情を表す言葉を前記スピーカに出力させる、請求項１から７のいずれか１項に記載の音声出力装置。
前記プロセッサは、
前記会話を終了する際に、前記音声出力装置の次の動作を示すメッセージを前記スピーカに出力させる、請求項１から８のいずれか１項に記載の音声出力装置。
サーバと通信するための通信インターフェイスをさらに備え、
前記プロセッサは、前記スピーカから出力するための前記メッセージを、前記通信インターフェイスを介して前記サーバから受信する、請求項１から９のいずれか１項に記載の音声出力装置。
マイクと、スピーカと、プロセッサとを含む音声出力装置における音声出力方法であって、
前記プロセッサが、前記マイクを介して受け付けたメッセージが第１の感情に対応するものである場合に前記スピーカに所定のメッセージを出力させるステップと、
前記プロセッサが、前記所定のメッセージに対応する回答が前記第１の感情に対応するものである場合に会話を終了するステップと、
前記プロセッサが、前記マイクを介して受け付けたメッセージが第１の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第１の感情に対応するものでない場合に前記スピーカを介して会話を継続するステップとを備える、音声出力方法。
マイクと、スピーカと、プロセッサとを含む音声出力装置における音声出力プログラムであって、
前記マイクを介して受け付けたメッセージが第１の感情に対応するものである場合に前記スピーカに所定のメッセージを出力させるステップと、
前記所定のメッセージに対応する回答が前記第１の感情に対応するものである場合に会話を終了するステップと、
前記マイクを介して受け付けたメッセージが第１の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第１の感情に対応するものでない場合に前記スピーカを介して会話を継続するステップとを前記プロセッサに実行させる、音声出力プログラム。
音声出力装置と、
前記音声出力装置と通信するサーバとを備え、前記サーバは、
前記音声出力装置が受け付けたメッセージが第１の感情に対応するものである場合に前記音声出力装置に所定のメッセージを出力させ、
前記所定のメッセージに対応する回答が前記第１の感情に対応するものである場合に前記音声出力装置に会話を終了させ、
前記音声出力装置が受け付けたメッセージが第１の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第１の感情に対応するものでない場合に前記音声出力装置に会話を継続させる、ネットワークシステム。
音声出力装置と前記音声出力装置と通信可能なサーバとを含むネットワークシステムにおける音声出力方法であって、
前記音声出力装置が、メッセージを受け付けるステップと、
前記サーバが、前記メッセージが第１の感情に対応するものであるか否かを判断するステップと、
前記メッセージが第１の感情に対応するものである場合に、前記サーバが前記音声出力装置に所定のメッセージを出力させるステップと、
前記所定のメッセージに対応する回答が前記第１の感情に対応するものである場合に前記サーバが前記音声出力装置に会話を終了させるステップと、
前記メッセージが第１の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第１の感情に対応するものでない場合に、前記サーバが前記音声出力装置に会話を継続させるステップとを備える、音声出力方法。
音声出力装置と通信するための通信インターフェイスと、
プロセッサとを備えるサーバであって、
前記プロセッサは、
前記通信インターフェイスを介して、前記音声出力装置からメッセージを受信し、
前記メッセージが第１の感情に対応するものである場合に、前記通信インターフェイスを介して前記音声出力装置に所定のメッセージを出力させ、
前記所定のメッセージに対応する回答が前記第１の感情に対応するものである場合に前記通信インターフェイスを介して前記音声出力装置に会話を終了させ、
前記メッセージが前記第１の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第１の感情に対応するものでない場合に、前記通信インターフェイスを介して前記音声出力装置に会話を継続させる、サーバ。
音声出力装置と通信するための通信インターフェイスと、プロセッサとを含むサーバにおける音声出力方法であって、
前記プロセッサが、前記通信インターフェイスを介して、前記音声出力装置からメッセージを受信するステップと、
前記プロセッサが、前記メッセージが第１の感情に対応するか否かを判断するステップと、
前記プロセッサが、前記メッセージが前記第１の感情に対応するものである場合に、前記通信インターフェイスを介して前記音声出力装置に所定のメッセージを出力させるステップと、
前記プロセッサが、前記所定のメッセージに対応する回答が前記第１の感情に対応するものである場合に、前記通信インターフェイスを介して前記音声出力装置に会話を終了させるステップと、
前記プロセッサが、前記メッセージが前記第１の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第１の感情に対応するものでない場合に、前記通信インターフェイスを介して前記音声出力装置に会話を継続させるステップとを備える、音声出力方法。
音声出力装置と通信するための通信インターフェイスと、プロセッサとを含むサーバのための音声出力プログラムであって、
前記通信インターフェイスを介して、前記音声出力装置からメッセージを受信するステップと、
前記メッセージが第１の感情に対応するか否かを判断するステップと、
前記メッセージが前記第１の感情に対応するものである場合に、前記通信インターフェイスを介して前記音声出力装置に所定のメッセージを出力させるステップと、
前記所定のメッセージに対応する回答が前記第１の感情に対応するものである場合に、前記通信インターフェイスを介して前記音声出力装置に会話を終了させるステップと、
前記メッセージが前記第１の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第１の感情に対応するものでない場合に、前記通信インターフェイスを介して前記音声出力装置に会話を継続させるステップとを前記プロセッサに実行させる、音声出力プログラム。