JP6122816B2 - 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム - Google Patents

音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム Download PDF

Info

Publication number
JP6122816B2
JP6122816B2 JP2014161376A JP2014161376A JP6122816B2 JP 6122816 B2 JP6122816 B2 JP 6122816B2 JP 2014161376 A JP2014161376 A JP 2014161376A JP 2014161376 A JP2014161376 A JP 2014161376A JP 6122816 B2 JP6122816 B2 JP 6122816B2
Authority
JP
Japan
Prior art keywords
message
emotion
output device
processor
audio output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014161376A
Other languages
English (en)
Other versions
JP2016036500A (ja
Inventor
広瀬 斉志
斉志 広瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2014161376A priority Critical patent/JP6122816B2/ja
Priority to US14/820,688 priority patent/US9653097B2/en
Publication of JP2016036500A publication Critical patent/JP2016036500A/ja
Application granted granted Critical
Publication of JP6122816B2 publication Critical patent/JP6122816B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、ロボットやスマートフォンなどの音声出力装置に音声を出力させるための技術に関する。特に、マイクを介してメッセージを受け付け、スピーカを介してメッセージを出力することが可能な音声出力装置の技術に関する。
従来から、ロボットやスマートフォンなどの音声出力装置に音声を出力させるための技術が知られている。さらに、マイクを介してメッセージを受け付け、スピーカを介してメッセージを出力することができる音声出力装置も提案されている。
たとえば、特開2002−091482号公報(特許文献1)には、感情検出方法及び感情検出装置ならびに記録媒体が開示されている。特開2002−091482号公報(特許文献1)によると、被験者の感情を検出するための感情検出方法であって、音声信号を入力し、入力した音声信号から音声の強度,音声の出現速度を表すテンポ及び音声の各単語内の強度変化パターンを表す抑揚をそれぞれ検出し、検出された音声の強度,音声のテンポ及び音声の抑揚のそれぞれについて変化量を求め、求めた変化量に基づいて、少なくとも怒り,悲しみ及び喜びのそれぞれの感情状態を表す信号を生成することを特徴とする。
また、特開2007−296169号公報(特許文献2)には、心的状態判定装置、およびプログラムが開示されている。特開2007−296169号公報(特許文献2)によると、本発明の心的状態判定装置は、生体情報に基づいて被験者の生理的な興奮度(以下『生体興奮度』という)を判断する。また、被験者の音声信号に基づいて、被験者の音声的な興奮度(以下『音声興奮度』という)を判断する。これら2種類の興奮度(生体興奮度、音声興奮度)を比較対照することによって、被験者の心的状態を推定する。
また、特許第4851447号明細書(特許文献3)には、ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラムが開示されている。特許第4851447号明細書(特許文献3)によると、音声解析装置は、被験者の音声信号を取り込む音声取得部と、前記音声信号を周波数スペクトルに変換する周波数変換部と、前記周波数スペクトルを周波数軸上でずらしながら自己相関波形を求める自己相関部と、前記自己相関波形における複数の極値の出現順番と前記複数の極値の出現位置を示すずらし周波数量である出現周波数との分布を回帰分析し、回帰直線の傾きに基づいてピッチ周波数を求めるピッチ検出部と、を備えたことを特徴とする。
また、特開2009−294647号公報(特許文献4)には、行動分析装置及びコールセンターシステムが開示されている。特開2009−294647号公報(特許文献4)によると、被験者の発話の音声信号を受け付ける音声入力部と、音声信号から複数の音声特徴量を算出する演算部と、被験者の複数の感情の各々と複数の音声特徴量とを関連付けた感情テーブル及び複数の感情の出現パターンと被験者の行動とを関連付けた行動テーブルを記憶する記憶部と、感情テーブル及び行動テーブルを用い、複数の音声特徴量に基づいて被験者の感情を分析し被験者の行動を予測する分析部と、分析部によって予測された被験者の行動の結果を出力表示する表示部と、を備える。
また、特開2012−449号公報(特許文献5)には、行動分析方法および行動分析装置が開示されている。特開2012−449号公報(特許文献5)によると、被験者の発話を音声信号として取得する入力手順と、音声信号から複数の音声特徴量を算出する演算手順と、複数の音声特徴量に基づいて、被験者の生理活動および感情状態を分析し、被験者の行動を予測する予測手順と、を備える。
特開2002−091482号公報 特開2007−296169号公報 特許第4851447号明細書 特開2009−294647号公報 特開2012−449号公報
ユーザにとって心地よい会話を提供するためには、会話の終わらせ方が非常に重要である。しかしながら、従来の音声出力装置は、一方的に会話を終わらせたり、そもそも会話を終了させるためのメッセージが準備されていなかったりする。そこで、本発明の目的は、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムを提供することにある。
この発明のある態様に従うと、マイクと、スピーカと、プロセッサとを備える、音声出力装置が提供される。プロセッサは、マイクを介して受け付けたメッセージが第1の感情に対応するものである場合に、直接的に、あるいは間接的に会話を終了するための処理を実行し、マイクを介して受け付けたメッセージが第1の感情に対応するものでない場合にスピーカを介して会話を継続する。
好ましくは、プロセッサは、受け付けたメッセージが第1の感情に対応するものである場合にスピーカに所定のメッセージを出力させ、所定のメッセージに対応する回答が第1の感情に対応するものである場合に会話を終了し、所定のメッセージに対応する回答が第1の感情に対応するものでない場合にスピーカに会話を継続させる。
好ましくは、プロセッサは、マイクを介して受け付けた複数のメッセージが第1の感情に対応するものである場合に会話を終了し、マイクを介して受け付けた複数のメッセージが第1の感情に対応するものでない場合にスピーカを介して会話を継続する。
好ましくは、プロセッサは、マイクを介して所定時間の間に受け付けた少なくとも1つのメッセージが第1の感情に対応するものである場合に会話を終了し、マイクを介して所定時間の間に受け付けた少なくとも1つのメッセージが第1の感情に対応するものでない場合にスピーカを介して会話を継続する。
好ましくは、プロセッサは、スピーカを介して受け付けた所定回数のメッセージのうちの所定割合以上が第1の感情に対応するものである場合に会話を終了し、スピーカを介して受け付けた所定回数のメッセージのうちの所定割合以上が第1の感情に対応するものでない場合にスピーカを介して会話を継続する。
好ましくは、プロセッサは、マイクを介して所定時間の間に受け付けた少なくとも1つのメッセージのうちの所定割合以上が第1の感情に対応するものである場合に会話を終了し、マイクを介して所定時間の間に受け付けた少なくとも1つのメッセージのうちの所定割合以上が第1の感情に対応するものでない場合にスピーカを介して会話を継続する。
好ましくは、プロセッサは、マイクを介して入力されたメッセージに同調するメッセージをスピーカに出力させる。
好ましくは、プロセッサは、マイクを介して受け付けたメッセージと実質的に同じ意味のメッセージをスピーカに出力させる。
好ましくは、プロセッサは、マイクを介して受け付けたメッセージに対応する感情を表す言葉をスピーカに出力させる。
好ましくは、プロセッサは、会話を終了する際に、音声出力装置の次の動作を示すメッセージをスピーカに出力させる。
好ましくは、音声出力装置は、サーバと通信するための通信インターフェイスをさらに備える。プロセッサは、スピーカから出力するためのメッセージを、通信インターフェイスを介してサーバから受信する。
この発明の別の態様に従うと、マイクと、スピーカと、プロセッサとを含む音声出力装置における音声出力方法が提供される。音声出力方法は、プロセッサが、マイクを介して受け付けたメッセージが第1の感情に対応するものである場合に、直接的に、あるいは間接的に会話を終了するための処理を実行するステップと、プロセッサが、マイクを介して受け付けたメッセージが第1の感情に対応するものでない場合にスピーカを介して会話を継続するステップとを備える。
この発明の別の態様に従うと、マイクと、スピーカと、プロセッサとを含む音声出力装置における音声出力プログラムが提供される。音声出力プログラムは、マイクを介して受け付けたメッセージが第1の感情に対応するものである場合に、直接的に、あるいは間接的に会話を終了するための処理を実行するステップと、マイクを介して受け付けたメッセージが第1の感情に対応するものでない場合にスピーカを介して会話を継続するステップとをプロセッサに実行させる。
この発明の別の態様に従うと、音声出力装置と、音声出力装置と通信するサーバとを備えるネットワークシステムが提供される。サーバは、音声出力装置が受け付けたメッセージが第1の感情に対応するものである場合に音声出力装置に会話を終了させ、音声出力装置が受け付けたメッセージが第1の感情に対応するものでない場合に音声出力装置に会話を継続させる。
この発明の別の態様に従うと、音声出力装置と、音声出力装置と通信可能なサーバと、を含むネットワークシステムにおける音声出力方法が提供される。音声出力方法は、音声出力装置が、メッセージを受け付けるステップと、サーバが、メッセージが第1の感情に対応するものであるか否かを判断するステップと、メッセージが第1の感情に対応するものである場合に、サーバが音声出力装置に会話を終了させるステップと、メッセージが第1の感情に対応するものでない場合に、サーバが音声出力装置に会話を継続させるステップとを備える。
この発明の別の態様に従うと、音声出力装置と通信するための通信インターフェイスと、プロセッサとを備えるサーバが提供される。プロセッサは、通信インターフェイスを介して、音声出力装置からメッセージを受信し、メッセージが第1の感情に対応するものである場合に、通信インターフェイスを介して音声出力装置に会話を終了させ、メッセージが第1の感情に対応するものでない場合に、通信インターフェイスを介して音声出力装置に会話を継続させる。
この発明の別の態様に従うと、音声出力装置と通信するための通信インターフェイスと、プロセッサとを含むサーバにおける音声出力方法が提供される。音声出力方法は、プロセッサが、通信インターフェイスを介して、音声出力装置からメッセージを受信するステップと、プロセッサが、メッセージが第1の感情に対応するか否かを判断するステップと、プロセッサが、メッセージが第1の感情に対応するものである場合に、通信インターフェイスを介して音声出力装置に会話を終了させるステップと、プロセッサが、メッセージが第1の感情に対応するものでない場合に、通信インターフェイスを介して音声出力装置に会話を継続させるステップとを備える。
この発明の別の態様に従うと、音声出力装置と通信するための通信インターフェイスと、プロセッサとを含むサーバのための音声出力プログラムが提供される。音声出力プログラムは、通信インターフェイスを介して、音声出力装置からメッセージを受信するステップと、メッセージが第1の感情に対応するか否かを判断するステップと、メッセージが第1の感情に対応するものである場合に、通信インターフェイスを介して音声出力装置に会話を終了させるステップと、メッセージが第1の感情に対応するものでない場合に、通信インターフェイスを介して音声出力装置に会話を継続させるステップとをプロセッサに実行させる。
以上のように、この発明によれば、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムが提供される。
本実施の形態にかかるネットワークシステム1の全体構成と第1の動作概要を示すイメージ図である。 本実施の形態にかかるポジティブな感情とネガティブな感情の例を示す表である。 本実施の形態にかかるネットワークシステム1の全体構成と第2の動作概要を示すイメージ図である。 本実施の形態にかかるサーバ100のハードウェア構成を表わすブロック図である。 本実施の形態にかかる感情データベース121のデータ構造を示すイメージ図である。 本実施の形態にかかる音声出力装置200のハードウェア構成を表わすブロック図である。 本実施の形態にかかるサーバ100の機能構成を示すブロック図である。 本実施の形態にかかるサーバ100における音声出力処理を示すイメージ図である。 第1の実施の形態にかかるサーバ100の音声出力処理を示すフローチャートである。 第2の実施の形態にかかるサーバ100の音声出力処理を示すフローチャートである。 第3の実施の形態にかかるサーバ100の音声出力処理を示すフローチャートである。 第4の実施の形態にかかるサーバ100の音声出力処理を示すフローチャートである。 第5の実施の形態にかかる音声出力装置200の動作概要を示すイメージ図である。 第5の実施の形態にかかる音声出力装置200の機能構成を示すブロック図である。 第5の実施の形態にかかる音声出力装置200における音声出力処理を示すイメージ図である。 第6の実施の形態にかかる感情データベース121のデータ構造を示すイメージ図である。
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
<第1の実施の形態>
<ネットワークシステムの全体構成>
まず、図1を参照して、本実施の形態にかかるネットワークシステム1の全体構成について説明する。なお、図1は、本実施の形態にかかるネットワークシステム1の全体構成と第1の動作概要を示すイメージ図である。
ネットワークシステム1は、主な構成として、サーバ100と、インターネットなどのネットワークを介してサーバ100とデータ通信可能な音声出力装置200とを含む。なお、ネットワークシステム1は、複数の音声出力装置200を含んでもよい。
なお、本実施の形態においては、音声出力装置200としての自走式の掃除機について説明する。ただし、音声出力装置200は、掃除機に限らず、たとえば、エアコン、冷蔵庫、空気清浄器、加湿器、除湿器、自走式掃除機、照明、時計などの家電、テレビ、ハードディスクレコーダ、ゲーム機、音楽プレーヤー、パーソナルコンピュータなどのAV(オーディオ・ビジュアル)機器、太陽光発電機、インターホン、給湯器などの住宅設備、などであってもよい。音声出力装置200は、住居またはオフィス内に設置されることが多いが、店舗やイベント会場や駅などの他の場所に設置することもできる。
<ネットワークシステムの第1の動作概要>
次に、図1を参照して、本実施の形態にかかるネットワークシステム1の第1の動作概要について説明する。なお、第1の動作概要として、音声出力装置200は、ユーザがネガティブな感情を持っている場合に、会話によってポジティブな感情へと誘導し、ポジティブな感情を持たせたままで会話を終了する場合について説明する。
ここで、ポジティブな感情(第1の感情)とネガティブな感情(第2の感情)について説明する。なお、図2は、本実施の形態にかかるポジティブな感情とネガティブな感情の例を示す表である。図2を参照して、本実施の形態においては、ポジティブな感情とは、心地良い感情であって、たとえば、安心、満足、好奇心、意欲、幸福、愛、尊敬などを含む。一方、ネガティブな感情とは、たとえば、恐怖、怒り、不快、苛立ち、苦しみ、焦燥、執着、不満、無念、悲しみ、切なさ、嫌悪、憎悪、軽蔑、怨み、嫉妬などを含む。
図1に戻って、まず、ユーザが音声出力装置200に、「今日、新しい車が来るんだ。」と話しかける。この場合、ユーザは、長年乗っていた車を手放さなければならないという寂しい気持ち、すなわちネガティブな感情と、新しい車を手に入れる嬉しい気持ち、すなわちポジティブな感情とを有している(図1における(1)および(2))。
音声出力装置200は、ユーザからのメッセージの内容に基づいて、あるいはユーザの音声の抑揚・アクセント・話す速度などに基づいて、ポジティブな感情およびネガティブな感情を検知する。音声出力装置200は、ユーザのネガティブな感情を検知すると、ユーザがポジティブな感情を有するまで、会話を継続する。一方、音声出力装置200は、ユーザのポジティブな感情を検知すると、ユーザのポジティブな感情を維持するようにしながら、会話を終了へと導く(図1における(1)および(2))。
何度か会話を繰り返したのち、ユーザが音声出力装置200に、「新しい車がくるから気持ちを切り替えなきゃね。」と話す。すると、音声出力装置200は、ユーザの前向きな気持ち、すなわちユーザのポジティブな気持ちを検知する(図1における(3))。
音声出力装置200は、会話を終了させてもよいかを判断するために、終話前メッセージを出力する。たとえば、音声出力装置200は、「少しは気が晴れた?」とユーザに問いかける(図1における(3))。
ユーザが、「大丈夫だよ。」と肯定的な返答をすると、音声出力装置200は、別れの挨拶と、自身がこれから行う動作を示すメッセージとを出力する。たとえば、音声出力装置200は、「良かった。じゃあ、僕はリビングの掃除を頑張るよ。また、お話してね。」と出力して、会話を終了する(図1における(4))。
<ネットワークシステムの第2の動作概要>
次に、図3を参照して、本実施の形態にかかるネットワークシステム1の第2の動作概要について説明する。図3は、本実施の形態にかかるネットワークシステム1の全体構成と第2の動作概要を示すイメージ図である。なお、第2の動作概要として、音声出力装置200は、ユーザがポジティブな感情を持っている場合に、会話によってポジティブな感情を持たせたままで会話を終了する場合について説明する。
まず、ユーザが音声出力装置200に、「今日、テスト良く出来たよ。」と話しかける。この場合、ユーザは、テストが良かったことに対する嬉しい気持ち、すなわちポジティブな感情を有している(図3における(1)および(2))。
音声出力装置200は、ユーザからのメッセージの内容に基づいて、あるいはユーザの音声の抑揚・アクセント・話す速度などに基づいて、ポジティブな感情およびネガティブな感情を検知する。音声出力装置200は、ユーザのネガティブな感情を検知すると会話を継続する。一方、音声出力装置200は、ユーザのポジティブな感情を検知すると、ユーザのポジティブな感情を維持するようにしながら、会話を終了へと導く(図3における(1)および(2))。
何度か会話を繰り返したのち、ユーザが音声出力装置200に、「頑張ってみたよ。」と話す。すると、音声出力装置200は、ユーザの前向きな気持ち、すなわちユーザのポジティブな気持ちを検知する(図3における(3))。
音声出力装置200は、ユーザのポジティブな感情を検知すると、会話を終了させてもよいかを判断するために、終話前メッセージを出力する。たとえば、音声出力装置200は、「気分いいよね。」とユーザに問いかける(図3における(3))。
ユーザが、「気分いいね。」と肯定的な返答をすると、音声出力装置200は、別れの挨拶と、自身がこれから行う動作を示すメッセージとを出力する。たとえば、音声出力装置200は、「そうだよね。楽しいお話ありがとう。じゃあ、僕はリビングの掃除を頑張るよ。また、お話してね。」と出力して、会話を終了する(図3における(4))。
このように、本実施の形態にかかるネットワークシステム1は、音声出力装置200が、ユーザがポジティブな気持ちになってから会話を終了するため、従来よりもユーザが心地よい気持ちで会話を終了することができる。
なお、より詳細には、ユーザがネガティブな感情からポジティブな感情に移行した場合には、自分がこれから行う動作を示すメッセージを出力してもよい。これによって、ユーザは、「音声出力装置200も頑張っているんだから、自分も頑張らなければっ!!」と励まされた気持ちになる。換言すれば、初めからユーザがポジティブな感情を持っているときは、別れの挨拶を出力するにとどめ、自分がこれから行う動作を示すメッセージを出力しなくてもよい。
以下では、このような機能を実現するためのネットワークシステム1について詳細に説明する。
<サーバ100のハードウェア構成>
まず、ネットワークシステム1を構成するサーバ100のハードウェア構成の一態様について説明する。なお、図4は、本実施の形態にかかるサーバ100のハードウェア構成を表わすブロック図である。
図4を参照して、サーバ100は、主たる構成要素として、プロセッサ110と、メモリ120と、各種ライト130と、各種スイッチ140と、通信インターフェイス160とを含む。
プロセッサ110は、メモリ120あるいは外部の記憶媒体に記憶されているプログラムを実行することによって、サーバ100の各部を制御する。すなわち、プロセッサ110は、メモリ120に格納されている音声出力プログラムを実行することによって、後述する各種の処理を実行する。
メモリ120は、各種のRAM(Random Access Memory)、各種のROM(Read-Only Memory)、フラッシュメモリーなどによって実現される。なお、メモリ120は、インターフェイスを介して利用される、USB(Universal Serial Bus)(登録商標)メモリ、CD(Compact Disc)、DVD(Digital Versatile Disk)、メモリカード、ハードディスク、IC(Integrated Circuit)カード、光カード、マスクROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electronically Erasable Programmable Read-Only Memory)などの記憶媒体などによっても実現される。
メモリ120は、プロセッサ110によって実行される音声出力プログラムや他のプログラムや、プロセッサ110によるプログラムの実行により生成されたデータ、入力されたデータ、サーバ100から受信したデータを記憶する。具体的には、たとえば、メモリ120は、感情データベース121を格納する。
ただし、サーバ100とは別の装置が、感情データベース121やその他のデータを格納してもよい。この場合は、サーバ100のプロセッサ110が、通信インターフェイス160を介して、感情データベース121を参照可能に構成されている。
また、音声出力装置200のメモリが、感情データベース121やその他のデータベースの一部を格納してもよい。
ここで、感情データベース121について説明する。図5は、本実施の形態にかかる感情データベース121のデータ構造を示すイメージ図である。図5を参照して、本実施の形態においては、感情データベース121は、4種類の感情と複数のキーワードとの対応関係を格納する。
本実施の形態にかかる4種類の感情は、喜び、怒り、悲しみ、楽しみである。このうち、喜びと楽しみがポジティブな感情であり、怒りと悲しみがネガティブな感情である。これによって、プロセッサ110は、感情データベース121を参照することによって、ユーザが話したキーワードからユーザの感情を特定し、ユーザがポジティブな感情を有しているかネガティブな感情を有しているかを判断することができる。
他にも、メモリ120は、ユーザからメッセージに対して、ユーザの感情を音声出力するためのデータベースを記憶していることが好ましい。データベースには、たとえば、ユーザからの「今日は忙しかったよ。」というメッセージや疲れた時の音声の抑揚に対して、「疲れているんだね。」というメッセージが対応付けられている。あるいは、たとえば、ユーザからの「今日、友達とケンカしたよ。」というメッセージや荒い口調の抑揚に対して、「腹がたっているんだね。」というメッセージが対応付けられている。
図4に戻って、ライト130は、プロセッサ110からの信号によって点灯・点滅・消灯することによって、サーバ100の各種の状態を外部に伝える。
スイッチ140は、管理者からの命令を受け付けて、当該命令をプロセッサ110に入力する。
通信インターフェイス160は、プロセッサ110からのデータを、インターネット、キャリア網、ルータなどを介して音声出力装置200に送信する。逆に、通信インターフェイス160は、インターネット、キャリア網、ルータなどを介して音声出力装置200からのデータを受信して、プロセッサ110に受け渡す。
<音声出力装置200のハードウェア構成>
まず、本実施の形態にかかる音声出力装置200のハードウェア構成の一態様について説明する。なお、図6は、本実施の形態にかかる音声出力装置200のハードウェア構成を表わすブロック図である。
図6を参照して、音声出力装置200は、主たる構成要素として、プロセッサ210と、メモリ220と、各種ライト230と、各種スイッチ240と、通信インターフェイス260と、マイク270と、スピーカ280と、機器駆動部290とを含む。
プロセッサ210は、メモリ220あるいは外部の記憶媒体に記憶されているプログラムを実行することによって、音声出力装置200の各部を制御する。すなわち、プロセッサ210は、メモリ220に格納されている音声出力プログラムを実行することによって、後述する各種の処理を実行する。
メモリ220の具体例は、サーバ100のメモリ120と同様であるため、ここでは説明を繰り返さない。
メモリ220は、プロセッサ210によって実行される音声出力プログラムや他のプログラム、プロセッサ210によるプログラムの実行により生成されたデータ、入力されたデータ、サーバ100から受信したデータなどを記憶する。
ライト230は、プロセッサ210からの信号によって点灯・点滅・消灯することによって、音声出力装置200の各種の状態を外部に伝える。
スイッチ240は、ユーザからの命令を受け付けて、当該命令をプロセッサ210に入力する。
通信インターフェイス260は、プロセッサ210からのデータ、たとえば、音声出力装置200がユーザから受け付けた命令など、をアダプタ、ルータ、インターネットなどを介してサーバ100に送信する。逆に、通信インターフェイス260は、インターネット、ルータ、アダプタなどを介してサーバ100からのデータなどを受信してプロセッサ210に受け渡す。
マイク270は、ユーザからのメッセージ、すなわち音声の入力を受け付けて、音声信号に変換し、音声信号をプロセッサ210に入力する。
スピーカ280は、プロセッサ210からの音声信号に基づいて、ユーザへのメッセージ、通話音声、音楽、動画などの様々な音声を出力する。
機器駆動部290は、プロセッサ210からの制御命令に基づいて、モータ、アクチュエータ、センサ、などを制御することによって、音声出力装置200の主要な役割を実現する。
<サーバ100の機能構成>
次に、図7を参照しながら、本実施の形態にかかるサーバ100の機能構成について説明する。なお、図7は、本実施の形態にかかるサーバ100の機能構成を示すブロック図である。
プロセッサ110は、メモリ120のプログラムを実行することによって、会話認識部111と、ユーザの感情認識部112と、終話判定部113と、応答生成部114と、音声合成部115と、制御部119とを実現する。
音声入力部は161と音声出力部162とは、プロセッサ110が、メモリ120のプログラムを実行しながら通信インターフェイス160を制御することよって、実現される。
まず、音声入力部161は、ユーザが発した音声の音声データを音声出力装置200から受け付ける。より詳細には、ユーザがメッセージを発すると、音声出力装置200はマイク270を介して受け付けた音声を音声データに変換する。そして、音声出力装置200が、取得した音声データをサーバ100に送信する。
制御部119は、音声入力部161が受信した音声データを会話認識部111に受け渡す。
会話認識部111は、音声出力装置200からの音声データに基づいて、会話の内容を認識する。たとえば会話認識部111は、音声データをテキストデータに変換する。
具体的には、本実施の形態においては、会話認識部111は、音声特徴抽出部1111と、音声認識部1112と、キーワード抽出部1113とを含む。音声特徴抽出部1111は、受信した音声データから、音声の特徴的なパラメータを抽出する。音声認識部1112は、抽出したパラメータから、メッセージを示すテキストを作成する。キーワード抽出部1113は、テキストから感情に対応するキーワードを抽出する。
感情認識部112は、受け付けた音声データに基づいて、メッセージの内容や抑揚から、現在のユーザの感情を判定する。
終話判定部113は、ユーザの感情に基づいて、このまま会話を継続するか、会話を終了するための確認メッセージを送信するか、会話を終了するためのメッセージを送信するか、の判断を行う。
応答生成部114は、終話判定に基づいて、音声出力装置200に送信するための様々な種類のメッセージを作成する。
具体的には、応答生成部114は、ユーザの話したセリフをオウム返しするためのメッセージを作成する。たとえば、ユーザが、「今日、怒られたんだよ。」と言うと、応答生成部114は、「今日、怒られちゃったんだ。」と返事をする。
また、応答生成部114は、応答DBを参照して、ユーザの感情を示すメッセージを作成する。たとえば、ユーザが、「あんなこと言われたって、納得いかないよ。」と言うと、応答生成部114は、「本当に腹が立つよね。」と返事をする。
なお、応答DBは、ユーザからのメッセージに含まれるキーワードと、当該キーワードに対応する感情と、の対応関係を格納する。応答生成部114は、オウム返しするためのメッセージと、ユーザの感情を示すメッセージと、を組み合わせた会話文を作成する。
また、応答生成部114は、ユーザがポジティブな感情であるか否かを確認するためのメッセージも作成する。たとえば、ポジティブな感情を複数回検知した際に、応答生成部114は、「元気でたかな?」というメッセージを出力する。
また、応答生成部114は、会話を終了する際のメッセージも作成する。たとえば、応答生成部114は、「そうだよね。楽しいお話ありがとう。じゃあ、僕はリビングの掃除を頑張るよ。また、お話してね。」というメッセージを出力する。
なお、本実施の形態においては、音声合成部115は、応答生成部114が作成したテキスト形式の会話文に基づいて音声データを作成する。ただし、サーバ100がテキストデータを音声出力装置200に送信し、音声合成部を有する音声出力装置200がテキストデータから音声データを作成してもよい。
制御部119は、作成した音声データを音声出力部162に受け渡す。音声出力部162は、音声データを機器に送信する。
<サーバ100における音声出力処理の概略>
次に、図8を参照しながら、本実施の形態にかかるサーバ100における音声出力処理について説明する。なお、図8は、本実施の形態にかかるサーバ100における音声出力処理を示すイメージ図である。
まず、ユーザがメッセージを発すると、音声出力装置200がマイク270を介して音声データを取得する。音声出力装置200は、取得した音声データをルータやインターネットなどを介してサーバ100に送信する。サーバ100のプロセッサ110は、通信インターフェイス160を介して音声データを受信する。
プロセッサ110は、メモリ120のプログラムを実行することによって、音声データに基づいて会話の内容を認識する(ステップS002)。
プロセッサ110は、受け付けた音声データに基づいて、メッセージの内容や抑揚から、現在のユーザの感情を判定する(ステップS004)。
プロセッサ110は、ユーザの感情に基づいて、このまま会話を継続するか、会話を終了するための確認メッセージを送信する、会話を終了するためのメッセージを送信するか、の判断を行う(ステップS006)。
プロセッサ110は、終話判定に基づいて、会話を継続するためのメッセージを作成する(ステップS008)。たとえば、プロセッサ110は、ユーザの話したセリフをオウム返しするためのメッセージやユーザの気持ちを示すメッセージを作成して、それらを組み合わせた会話文を作成する。たとえば、ユーザが「今日は大変だったよ。」と言った場合、プロセッサ110は、「今日は大変だったんだね。」というメッセージと、「とっても疲れているね。」というメッセージとを組み合わせる。
あるいは、プロセッサ110は、終話判定に基づいて、ユーザがポジティブな感情であるか否かを確認するためのメッセージを作成する(ステップS010)。たとえば、プロセッサ110は、「少しは楽になったかな?」というメッセージを作成する。
あるいは、プロセッサ110は、終話判定に基づいて、会話を終了する際のメッセージを作成する(ステップS012)。たとえば、プロセッサ110は、音声出力装置200がこれから実行する動作を示すメッセージを作成する。プロセッサ110は、「じゃあ、頑張ってね。僕はそろそろリビングを掃除するよ。」というメッセージを作成する。
プロセッサ110は、作成したメッセージを、通信インターフェイス160を介して音声出力装置200に送信する(ステップS014)。音声出力装置200は、受信したメッセージを音声出力する。
<サーバ100における音声出力処理の詳細>
次に、図9を参照しながら、本実施の形態にかかるサーバ100の音声出力処理について説明する。なお、図9は、本実施の形態にかかるサーバ100の音声出力処理を示すフローチャートである。
サーバ100のプロセッサ110は、通信インターフェイス160を介して音声出力装置200から音声データを受信すると、以下の音声出力処理を実行する。
まず、プロセッサ110は、音声データに基づいて会話の内容を認識する(ステップS102)。プロセッサ110は、感情データベース122や図示しない抑揚テーブルを参照することによって、認識した会話の内容や会話の抑揚に基づいてユーザの感情を判定する(ステップS104)。
プロセッサ110は、ユーザがポジティブな感情を有しているか否かを判断する(ステップS106)。ユーザがポジティブな感情を有していない場合(ステップS106にてNOである場合)、プロセッサ110は、ユーザのセリフをオウム返しするための復唱文を生成する(ステップS108)。
プロセッサ110は、判定したユーザの感情に基づいて、ユーザの感情を音声出力するための感情文を生成する(ステップS110)。プロセッサ110は、復唱文と感情文とを組み合わせて応答メッセージを作成し、通信インターフェイス160を介して当該応答メッセージを音声出力装置200に送信する(ステップS112)。プロセッサ110は、今回の音声出力処理を終了する。
一方、ユーザがポジティブな感情を有している場合(ステップS106にてYESの場合)、プロセッサ110は、第1の所定回数、連続してポジティブなメッセージを受け付けたか否かを判断する(ステップS116)。プロセッサ110は、第1の所定回数、連続してポジティブなメッセージを受け付けたわけではない場合(ステップS116にてNOの場合)、ステップS108からの処理を繰り返す。
プロセッサ110は、第1の所定回数、連続してポジティブなメッセージを受け付けた場合(ステップS116にてYESである場合)、通信インターフェイス160を介して終話確認メッセージ、たとえば「元気かな?」というメッセージ、を音声出力装置200に送信する(ステップS120)。
プロセッサ110は、通信インターフェイス160を介して、終話確認メッセージに対する返答があるか否かを判断する(ステップS122)。プロセッサ110は、終話確認メッセージに対する返答がない場合(ステップS122にてNOの場合)、再度終話確認メッセージ、あるいは「大丈夫?」といったメッセージを通信インターフェイス160を介して音声出力装置200に送信する。プロセッサ110は、ステップS122からの処理を繰り返す。
プロセッサ110は、終話確認メッセージに対する返答を受信した場合(ステップS122にてYESである場合)、ユーザからの返答メッセージが肯定的なものであるか否かを判断する(ステップS126)。
ユーザからの返答メッセージが肯定的なものである場合(ステップS126にてYESである場合)、プロセッサ110は、会話を終了させるためのメッセージ、たとえば「良かったね。じゃあ、頑張ってね。僕はそろそろリビングを掃除するよ。」というメッセージ、を通信インターフェイス160を介して音声出力装置200に送信する(ステップS128)。プロセッサ110は、音声出力処理を終了する。
ユーザからの返答メッセージが肯定的なものでない場合(ステップS126にてNOの場合)、プロセッサ110は、ユーザのセリフをオウム返しするための復唱文を生成する(ステップS132)。プロセッサ110は、判定したユーザの感情に基づいて、ユーザの感情を音声出力するための感情文を生成する(ステップS134)。プロセッサ110は、復唱文と感情文とを組み合わせて応答メッセージを作成し、通信インターフェイス160を介して当該応答メッセージを音声出力装置200に送信する(ステップS136)。
プロセッサ110は、ユーザがポジティブな感情を有しているか否かを判断する(ステップS138)。ユーザがポジティブな感情を有していない場合(ステップS138にてNOである場合)、プロセッサ110は、ステップS132からの処理を繰り返す。
一方、ユーザがポジティブな感情を有している場合(ステップS138にてYESの場合)、プロセッサ110は、第2の所定回数、連続してポジティブなメッセージを受け付けたか否かを判断する(ステップS140)。なお、本実施の形態においては、第2の所定回数は、第1の所定回数よりも少ない。プロセッサ110は、第2の所定回数、連続してポジティブなメッセージを受け付けたわけではない場合(ステップS140にてNOの場合)、ステップS132からの処理を繰り返す。
プロセッサ110は、第2の所定回数、連続してポジティブなメッセージを受け付けた場合(ステップS140にてYESである場合)、ステップS120からの処理を繰り返す。
このように、本実施の形態においては、ユーザがポジティブな気分でいる間に会話を終了するため、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムが提供される。
<第2の実施の形態>
第1の実施の形態においては、第1の所定回数、連続して、ユーザのポジティブな感情が検知された際に、会話を終了するための処理を実行するものであった。しかしながら、他の条件に基づいて、会話を終了するための処理を実行してもよい。たとえば、本実施の形態のように、第1の所定時間の間、ポジティブな感情が持続したら会話を終了するものであってもよい。
以下では、図10を参照しながら、本実施の形態にかかるサーバ100の音声出力処理の一部について説明するものとし、ネットワークシステム1の全体構成やサーバ100および音声出力装置200のハードウェア構成などについては第1の実施の形態のそれらと同様であるため、説明を繰り返さない。なお、図10は、本実施の形態にかかるサーバ100の音声出力処理を示すフローチャートである。
<サーバ100における音声出力処理の詳細>
次に、図10を参照して、ステップS216とステップS240について説明する。その他のステップは、それぞれ、図9に示す処理と同様であるためここでは説明を繰り返さない。
まず、ステップS216においては、ユーザがポジティブな感情を有している場合(ステップS206にてYESの場合)、プロセッサ110は、第1の所定時間の間、連続してポジティブなメッセージを受け付けたか否かを判断する(ステップS216)。プロセッサ110は、第1の所定時間、連続してポジティブなメッセージを受け付けたわけではない場合(ステップS216にてNOの場合)、ステップS208からの処理を繰り返す。
プロセッサ110は、第1の所定時間、連続してポジティブなメッセージを受け付けた場合(ステップS216にてYESである場合)、通信インターフェイス160を介して終話確認メッセージ、たとえば「元気でたかな?」というメッセージ、を音声出力装置200に送信する(ステップS220)。
また、ステップS240においては、ユーザがポジティブな感情を有している場合(ステップS238にてYESの場合)、プロセッサ110は、第2の所定時間、連続してポジティブなメッセージを受け付けたか否かを判断する(ステップS240)。なお、本実施の形態においては、第2の所定時間は、第1の所定時間よりも短い。プロセッサ110は、第2の所定回数、連続してポジティブなメッセージを受け付けたわけではない場合(ステップS240にてNOの場合)、ステップS232からの処理を繰り返す。
プロセッサ110は、第2の所定時間、連続してポジティブなメッセージを受け付けた場合(ステップS240にてYESである場合)、ステップS220からの処理を繰り返す。
このように、本実施の形態においても、ユーザがポジティブな気分でいる間に会話を終了するため、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムが提供される。
<第3の実施の形態>
第1の実施の形態においては、第1の所定回数、連続して、ユーザのポジティブな感情が検知された際に、会話を終了するための処理を実行するものであった。しかしながら、他の条件に基づいて、会話を終了するための処理を実行してもよい。たとえば、本実施の形態のように、第1の所定回数において、第1の所定割合以上ポジティブな感情が検知されたときに会話を終了するものであってもよい。
以下では、図11を参照しながら、本実施の形態にかかるサーバ100の音声出力処理の一部について説明するものとし、ネットワークシステム1の全体構成やサーバ100および音声出力装置200のハードウェア構成などについては第1の実施の形態のそれらと同様であるため、説明を繰り返さない。なお、図11は、本実施の形態にかかるサーバ100の音声出力処理を示すフローチャートである。
<サーバ100における音声出力処理の詳細>
次に、図11を参照して、ステップS316、ステップS318、ステップS340、ステップS342について説明する。その他のステップは、それぞれ、図9に示す処理と同様であるためここでは説明を繰り返さない。
まず、ステップS316においては、ユーザがポジティブな感情を有している場合(ステップS306にてYESの場合)、プロセッサ110は、既に第1の所定回数以上、ポジティブな感情を検知したか否かを判断する(ステップS316)。プロセッサ110は、未だ、第1の所定回数、ポジティブなメッセージを受け付けたわけではない場合(ステップS316にてNOの場合)、ステップS308からの処理を繰り返す。
プロセッサ110は、第1の所定回数以上、連続してポジティブなメッセージを受け付けた場合(ステップS316にてYESである場合)、ポジティブなメッセージの割合がその間に検知した両感情のメッセージのうちの第1の所定割合、たとえば7割、以上であるか否かを判断する(ステップS318)。プロセッサ110は、ポジティブなメッセージの割合が両感情のメッセージのうちの第1の所定割合未満である場合(ステップS318にてNOの場合)、ステップS308からの処理を繰り返す。
プロセッサ110は、ポジティブなメッセージの割合が両感情のメッセージのうちの第1の所定割合以上である場合(ステップS318にてYESの場合)、通信インターフェイス160を介して終話確認メッセージ、たとえば「元気でたかな?」というメッセージ、を音声出力装置200に送信する(ステップS320)。
また、ステップS340においては、ユーザがポジティブな感情を有している場合(ステップS338にてYESの場合)、プロセッサ110は、第2の所定回数以上、ポジティブな感情を受け付けたか否かを判断する(ステップS340)。なお、本実施の形態においては、第2の所定回数は、第1の所定回数よりも少ない。プロセッサ110は、未だ、第2の所定回数以上、ポジティブなメッセージを受け付けたわけではない場合(ステップS340にてNOの場合)、ステップS332からの処理を繰り返す。
プロセッサ110は、第2の所定回数以上、ポジティブなメッセージを受け付けた場合(ステップS340にてYESである場合)、ポジティブなメッセージの割合がその間に検知した両感情のメッセージのうちの第2の所定割合、たとえば6割、以上である否かを判断する(ステップS342)。プロセッサ110は、ポジティブなメッセージの割合が両感情のメッセージのうちの第2の所定割合未満である場合(ステップS342にてNOの場合)、ステップS332からの処理を繰り返す。
プロセッサ110は、ポジティブなメッセージの割合が両感情のメッセージのうちの第2の所定割合以上である場合(ステップS342にてYESの場合)、ステップS320からの処理を繰り返す。
このように、本実施の形態においても、ユーザがポジティブな気分でいる間に会話を終了するため、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムが提供される。
なお、ステップS316においては、プロセッサ110は、ポジティブな感情とネガティブな感情を合わせて第1の所定回数以上検知したか否かを判断してもよい。同様に、ステップS340においても、プロセッサ110は、ポジティブな感情とネガティブな感情を合わせて第2の所定回数以上検知したか否かを判断してもよい。
<第4の実施の形態>
第1の実施の形態においては、第1の所定回数、連続して、ユーザのポジティブな感情が検知された際に、会話を終了するための処理を実行するものであった。しかしながら、他の条件に基づいて、会話を終了するための処理を実行してもよい。たとえば、本実施の形態のように、第1の所定時間の間、第1の所定割合以上ポジティブな感情が検知されたときに会話を終了するものであってもよい。
以下では、図12を参照しながら、本実施の形態にかかるサーバ100の音声出力処理の一部について説明するものとし、ネットワークシステム1の全体構成やサーバ100および音声出力装置200のハードウェア構成などについては、第1の実施の形態のそれらと同様であるため、説明を繰り返さない。なお、図12は、本実施の形態にかかるサーバ100の音声出力処理を示すフローチャートである。
<サーバ100における音声出力処理の詳細>
次に、図12を参照して、ステップS416、ステップS418、ステップS440、ステップS442について説明する。その他のステップは、それぞれ、図9に示すステップと同様であるためここでは説明を繰り返さない。
まず、ステップS316においては、ユーザがポジティブな感情を有している場合(ステップS406にてYESの場合)、プロセッサ110は、ポジティブまたはネガティブな感情を合わせて、既に第1の所定時間以上、受け付けたか否かを判断する(ステップS416)。プロセッサ110は、未だ、第1の所定時間、ポジティブまたはネガティブなメッセージを受け付けたわけではない場合(ステップS416にてNOの場合)、ステップS408からの処理を繰り返す。
プロセッサ110は、第1の所定時間以上、ポジティブまたはネガティブなメッセージを受け付けた場合(ステップS416にてYESである場合)、ポジティブなメッセージの割合がその間に検知した両感情のメッセージのうちの第1の所定割合、たとえば7割、以上であるか否かを判断する(ステップS418)。プロセッサ110は、ポジティブなメッセージの割合が両感情のメッセージのうちの第1の所定割合未満である場合(ステップS418にてNOの場合)、ステップS408からの処理を繰り返す。
プロセッサ110は、ポジティブなメッセージの割合が両感情のメッセージのうちの第1の所定割合以上である場合(ステップS418にてYESの場合)、通信インターフェイス160を介して終話確認メッセージ、たとえば「元気でたかな?」というメッセージ、を音声出力装置200に送信する(ステップS420)。
また、ステップS440においては、ユーザがポジティブな感情を有している場合(ステップS438にてYESの場合)、プロセッサ110は、既に第2の所定時間以上、ポジティブまたはネガティブな感情を受け付けたか否かを判断する(ステップS440)。なお、本実施の形態においては、第2の所定時間は、第1の所定時間よりも短い。プロセッサ110は、未だ、第2の所定時間以上、ポジティブなメッセージを受け付けたわけではない場合(ステップS440にてNOの場合)、ステップS432からの処理を繰り返す。
プロセッサ110は、第2の所定時間以上、ポジティブまたはネガティブなメッセージを受け付けた場合(ステップS440にてYESである場合)、ポジティブなメッセージの割合が両感情のメッセージのうちの第2の所定割合、たとえば6割、以上である否かを判断する(ステップS442)。プロセッサ110は、ポジティブなメッセージの割合が両感情のメッセージのうちの第2の所定割合未満である場合(ステップS442にてNOの場合)、ステップS432からの処理を繰り返す。
プロセッサ110は、ポジティブなメッセージの割合が両メッセージのうちの第2の所定割合以上である場合(ステップS442にてYESの場合)、ステップS420からの処理を繰り返す。
このように、本実施の形態においても、ユーザがポジティブな気分でいる間に会話を終了するため、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムが提供される。
<第5の実施の形態>
第1〜第4の実施の形態においては、音声出力装置200がユーザのメッセージを受け付けて、サーバ100が返答メッセージを作成するものであった。しかしながら、音声出力装置200が、ローカルで、すなわち自身で回答用のメッセージを作成してもよい。
本実施の形態においては、音声出力装置200としての自走式の掃除機について説明する。ただし、音声出力装置200は、掃除機に限らず、たとえば、エアコン、冷蔵庫、空気清浄器、加湿器、除湿器、自走式掃除機、照明、時計などの家電、テレビ、ハードディスクレコーダ、ゲーム機、音楽プレーヤー、パーソナルコンピュータなどのAV(オーディオ・ビジュアル)機器、太陽光発電機、インターホン、給湯器などの住宅設備、などであってもよい。音声出力装置200は、住居またはオフィス内に設置されることが多いが、店舗やイベント会場や駅などの他の場所に設置することもできる。
<音声出力装置200の動作概要>
まず、図13を参照して、本実施の形態にかかる音声出力装置200の動作概要について説明する。なお、図13は、本実施の形態にかかる音声出力装置200の動作概要を示すイメージ図である。
以下では、音声出力装置200は、ユーザがネガティブな感情を持っている場合に、会話によってポジティブな感情へと誘導し、ポジティブな感情を持たせたままで会話を終了する場合について説明する。なお、ポジティブな感情とネガティブな感情については、図2に示したものと同様であるため、ここでは説明を繰り返さない。
まず、ユーザが音声出力装置200に、「今日、新しい車が来るんだ。」と話しかける。この場合、ユーザは、長年乗っていた車を手放さなければならないという寂しい気持ち、すなわちネガティブな感情と、新しい車を手に入れる嬉しい気持ち、すなわちポジティブな感情とを有している(図13における(1)および(2))。
音声出力装置200は、ユーザからのメッセージの内容に基づいて、あるいはユーザの音声の抑揚・アクセント・話す速度などに基づいて、ポジティブな感情およびネガティブな感情を検知する。音声出力装置200は、ユーザのネガティブな感情を検知すると会話を継続する。一方、音声出力装置200は、ユーザのポジティブな感情を検知すると、ユーザのポジティブな感情を維持するようにしながら、会話を終了へと導く(図13における(1)および(2))。
何度か会話を繰り返したのち、ユーザが音声出力装置200に、「新しい車がくるから気持ちを切り替えなきゃね。」と話す。すると、音声出力装置200は、ユーザの前向きな気持ち、すなわちユーザのポジティブな気持ちを検知する(図13における(3))。
音声出力装置200は、会話を終了させてもよいかを判断するために、終話前メッセージを出力する。たとえば、音声出力装置200は、「少しは気が晴れた?」とユーザに問いかける(図1における(3))。
ユーザが、「大丈夫だよ。」と肯定的な返答をすると、音声出力装置200は、別れの挨拶と、自身がこれから行う動作を示すメッセージとを出力する。たとえば、音声出力装置200は、「良かった。じゃあ、僕はリビングの掃除を頑張るよ。また、お話してね。」と出力して、会話を終了する(図1における(4))。
なお、既にユーザがポジティブな感情を持っている場合に、ポジティブな感情を持たせたままで会話を終了する場合については、図3に示したものと同様であるため、ここでは説明を繰り返さない。
以下では、このような機能を実現するための音声出力装置200について詳細に説明する。なお、本実施の形態にかかる音声出力装置200のハードウェア構成の一態様については、図6に示したものと同様であるため、ここでは説明を繰り返さない。
ただし、本実施の形態においては、音声出力装置200のメモリ220が、感情データベース121やその他のデータを格納する。あるいは、音声出力装置200とは別の装置が、感情データベース121やその他のデータを格納してもよい。この場合は、音声出力装置200のプロセッサ210が、通信インターフェイス260を介して、外部の感情データベース121を参照可能に構成されている。
なお、感情データベース121については、図5に示すものと同様であるため、ここでは説明を繰り返さない。
また、第1から第4の実施の形態と同様に、メモリ220は、ユーザからメッセージに対して、ユーザの感情を音声出力するためのデータベースを記憶していることが好ましい。データベースには、たとえば、ユーザからの「今日は忙しかったよ。」というメッセージや疲れた時の音声の抑揚に対して、「疲れているんだね。」というメッセージが対応付けられている。あるいは、たとえば、ユーザからの「今日、友達とケンカしたよ。」というメッセージや荒い口調の抑揚に対して、「腹がたっているんだね。」というメッセージが対応付けられている。
<音声出力装置200の機能構成>
次に、図14を参照しながら、本実施の形態にかかる音声出力装置200の機能構成について説明する。なお、図14は、本実施の形態にかかる音声出力装置200の機能構成を示すブロック図である。
プロセッサ210は、メモリ220のプログラムを実行することによって、会話認識部211と、ユーザの感情認識部212と、終話判定部213と、応答生成部214と、音声合成部215と、制御部219とを実現する。
音声入力部261は、プロセッサ210が、メモリ220のプログラムを実行することによってマイク270を制御することよって実現される。そして、音声出力部262は、プロセッサ210が、メモリ220のプログラムを実行することによってスピーカ280を制御することよって実現される。
まず、音声入力部261は、ユーザが発した音声を受け付ける。より詳細には、ユーザがメッセージを発すると、音声入力部261はマイク270を介して受け付けた音声を音声データに変換する。音声入力部261は、取得した音声データを制御部219に受け渡す。
制御部219は、音声入力部261が取得した音声データを会話認識部211に受け渡す。
会話認識部211は、音声出力装置200からの音声データに基づいて、たとえばテキストデータに変換する。具体的には、本実施の形態においては、会話認識部211は、音声特徴抽出部2111と、音声認識部2112と、キーワード抽出部2113とを含む。音声特徴抽出部2111は、受信した音声データから、音声の特徴的なパラメータを抽出する。音声認識部2112は、抽出したパラメータから、メッセージを示すテキストを作成する。キーワード抽出部2113は、テキストからキーワードを抽出する。
感情認識部212は、受け付けた音声データに基づいて、メッセージの内容や抑揚から、現在のユーザの感情を判定する。
終話判定部213は、ユーザの感情に基づいて、このまま会話を継続するか、会話を終了するための確認メッセージを送信する、会話を終了するためのメッセージを送信するか、の判断を行う。
応答生成部214は、終話判定に基づいて、様々な種類の会話を継続するためのメッセージを作成する。
たとえば、応答生成部214は、ユーザの話したセリフをオウム返しするためのメッセージを作成する。また、応答生成部214は、応答DBを参照して、ユーザの感情を示すメッセージを作成する。応答生成部214は、それらを組み合わせた会話文を作成する。
また、応答生成部214は、ユーザがポジティブな感情であるか否かを確認するためのメッセージも作成する。
また、応答生成部214は、会話を終了する際のメッセージも作成する。
なお、本実施の形態においては、音声合成部215は、応答生成部214が作成したテキスト形式の会話文に基づいて音声データを作成する。
制御部219は、作成した音声データを音声出力部262に受け渡す。音声出力部262は、音声データに基づいてメッセージを音声出力する。
<音声出力装置200における音声出力処理の概略>
次に、図15を参照しながら、本実施の形態にかかる音声出力装置200における音声出力処理について説明する。なお、図15は、本実施の形態にかかる音声出力装置200における音声出力処理を示すイメージ図である。
まず、ユーザがメッセージを発すると、プロセッサ210は、マイク270を介して音声データを取得する。プロセッサ210は、メモリ220のプログラムを実行することによって、音声データに基づいて会話の内容を認識する(ステップS052)。
プロセッサ210は、受け付けた音声データに基づいて、メッセージの内容や抑揚から、現在のユーザの感情を判定する(ステップS054)。
プロセッサ210は、ユーザの感情に基づいて、このまま会話を継続するか、会話を終了するための確認メッセージを送信する、会話を終了するためのメッセージを送信するか、の判断を行う(ステップS056)。
プロセッサ210は、終話判定に基づいて、会話を継続するためのメッセージを作成する(ステップS058)。たとえば、プロセッサ210は、ユーザの話したセリフをオウム返しするためのメッセージやユーザの気持ちを示すメッセージを作成して、それらを組み合わせた会話文を作成する。たとえば、ユーザが「今日は大変だったよ。」と言った場合、プロセッサ210は、「今日は大変だったんだね。」というメッセージと、「とっても疲れているね。」というメッセージとを組み合わせる。
あるいは、プロセッサ210は、終話判定に基づいて、ユーザがポジティブな感情であるか否かを確認するためのメッセージを作成する(ステップS060)。たとえば、プロセッサ210は、「少しは楽になったかな?」というメッセージを作成する。
あるいは、プロセッサ210は、終話判定に基づいて、会話を終了する際のメッセージを作成する(ステップS062)。たとえば、プロセッサ210は、音声出力装置200がこれから実行する動作を示すメッセージを作成する。プロセッサ210は、「じゃあ、頑張ってね。僕はそろそろリビングを掃除するよ。」というメッセージを作成する。
プロセッサ210は、作成したメッセージを、スピーカ280を介して音声出力する。
<音声出力装置200における音声出力処理の詳細>
次に、音声出力装置200における音声出力処理に関しては、第1から第4の実施の形態に関する図9〜図12に記載の音声出力処理と同様であるため、ここでは説明を繰り返さない。なお、より詳細には、本実施の形態においては、音声出力装置200のプロセッサ210は、マイク270を介して音声を受信すると、図9から図12に記載の音声出力処理を実行する。
また、ステップS112,S212,S312,S412においては、プロセッサ110は、復唱文と感情文とを組み合わせて応答メッセージを作成し、スピーカ280を介して当該応答メッセージを音声出力する(ステップS412)。そして、プロセッサ210は、今回の音声出力処理を終了する。
また、ステップS120,S220,S320,S420においては、プロセッサ210は、スピーカ280を介して終話確認メッセージ、たとえば「元気でたかな?」というメッセージ、を音声出力する。
また、ステップS128,S228,S328,S428においては、プロセッサ210は、会話を終了させるためのメッセージ、たとえば「良かったね。じゃあ、頑張ってね。僕はそろそろリビングを掃除するよ。」というメッセージ、をスピーカ280を介して音声出力する。
このように、本実施の形態においても、ユーザがポジティブな気分でいる間に会話を終了するため、従来よりも心地よくユーザが会話を終了することができる音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラムが提供される。
<第6の実施の形態>
第1〜第5の実施の形態においては、感情データベース121が、喜び、怒り、悲しみ、楽しみという4種類の感情と、それに対応するキーワードとを格納するものであった。しかしながら、感情データベースは、別の組み合わせを格納するものであってもよい。
たとえば、図16に示すように、感情データベース122が、怒り、悲しみ、不安、喜びという4種類の感情と、それに対応するキーワードとを格納してもよい。この場合は、喜びに対応するキーワードを受け付けたときにユーザがポジティブな感情を有していると判断し、怒り、悲しみ、不安に対応するキーワードを受け付けたときにユーザがネガティブな感情を有していると判断する。
さらに、感情データベースは、5種類以上の感情と、それに対応するキーワードを格納するものであってもよい。
<その他の応用例>
本発明は、システム或いは装置にプログラムを供給することによって達成される場合にも適用できることはいうまでもない。そして、本発明を達成するためのソフトウェアによって表されるプログラムを格納した記憶媒体(あるいはメモリ)を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、本発明の効果を享受することが可能となる。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わる他の記憶媒体に書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることは言うまでもない。
そして、上記の複数の実施の形態に記載の構成は、互いに組み合わせたり、一部のみを採用したり、一部のみを省いたりすることができる。
<上記の複数の実施の形態のまとめ>
第1から第6の実施の形態においては、マイク270と、スピーカ280と、プロセッサ210とを備える、音声出力装置200が提供される。プロセッサ210は、マイク270を介して受け付けたメッセージが第1の感情に対応するものである場合に、直接的に、あるいは間接的に会話を終了するための処理を実行し、マイク270を介して受け付けたメッセージが第1の感情に対応するものでない場合にスピーカ280を介して会話を継続する。
第1から第6の実施の形態においては、プロセッサ210は、受け付けたメッセージが第1の感情に対応するものである場合にスピーカ280に所定のメッセージを出力させ、所定のメッセージに対応する回答が第1の感情に対応するものである場合に会話を終了し、所定のメッセージに対応する回答が第1の感情に対応するものでない場合にスピーカ280に会話を継続させる。
第1、第5、第6の実施の形態においては、プロセッサ210は、マイク270を介して受け付けた複数のメッセージが第1の感情に対応するものである場合に会話を終了し、マイク270を介して受け付けた複数のメッセージが第1の感情に対応するものでない場合にスピーカ280を介して会話を継続する。
第2、第5、第6の実施の形態においては、プロセッサ210は、マイク270を介して所定時間の間に受け付けた少なくとも1つのメッセージが第1の感情に対応するものである場合に会話を終了し、マイク270を介して所定時間の間に受け付けた少なくとも1つのメッセージが第1の感情に対応するものでない場合にスピーカ280を介して会話を継続する。
第3、第5、第6の実施の形態においては、プロセッサ210は、スピーカ280を介して受け付けた所定回数のメッセージのうちの所定割合以上が第1の感情に対応するものである場合に会話を終了し、スピーカ280を介して受け付けた所定回数のメッセージのうちの所定割合以上が第1の感情に対応するものでない場合にスピーカ280を介して会話を継続する。
第4、第5、第6の実施の形態においては、プロセッサ210は、マイク270を介して所定時間の間に受け付けた少なくとも1つのメッセージのうちの所定割合以上が第1の感情に対応するものである場合に会話を終了し、マイク270を介して所定時間の間に受け付けた少なくとも1つのメッセージのうちの所定割合以上が第1の感情に対応するものでない場合にスピーカ280を介して会話を継続する。
第1から第6の実施の形態においては、プロセッサ210は、マイク270を介して入力されたメッセージに同調するメッセージをスピーカ280に出力させる。
第1から第6の実施の形態においては、プロセッサ210は、マイク270を介して受け付けたメッセージと実質的に同じ意味のメッセージをスピーカ280に出力させる。
第1から第6の実施の形態においては、プロセッサ210は、マイク270を介して受け付けたメッセージに対応する感情を表す言葉をスピーカ280に出力させる。
第1から第6の実施の形態においては、プロセッサ210は、会話を終了する際に、音声出力装置200の次の動作を示すメッセージをスピーカに出力させる。
第1、第2、第3、第4、第6の実施の形態においては、音声出力装置200は、サーバ100と通信するための通信インターフェイス260をさらに備える。プロセッサ210は、スピーカ280から出力するためのメッセージを、通信インターフェイス260を介してサーバ100から受信する。
第1から第6の実施の形態においては、マイク270と、スピーカ280と、プロセッサ210とを含む音声出力装置200における音声出力方法が提供される。音声出力方法は、プロセッサ210が、マイク270を介して受け付けたメッセージが第1の感情に対応するものである場合に会話を終了するステップと、プロセッサ210が、マイク270を介して受け付けたメッセージが第1の感情に対応するものでない場合にスピーカ280を介して会話を継続するステップとを備える。
第1から第6の実施の形態においては、マイク270と、スピーカ280と、プロセッサ210とを含む音声出力装置200における音声出力プログラムが提供される。音声出力プログラムは、マイク270を介して受け付けたメッセージが第1の感情に対応するものである場合に会話を終了するステップと、マイク270を介して受け付けたメッセージが第1の感情に対応するものでない場合にスピーカ280を介して会話を継続するステップとをプロセッサ210に実行させる。
第1から第6の実施の形態においては、音声出力装置200と、音声出力装置200と通信するサーバ100とを備えるネットワークシステム1が提供される。サーバ100は、音声出力装置200が受け付けたメッセージが第1の感情に対応するものである場合に音声出力装置200に会話を終了させ、音声出力装置200が受け付けたメッセージが第1の感情に対応するものでない場合に音声出力装置200に会話を継続させる。
第1から第6の実施の形態においては、音声出力装置200と、音声出力装置200と通信可能なサーバ100と、を含むネットワークシステム1における音声出力方法が提供される。音声出力方法は、音声出力装置200が、メッセージを受け付けるステップと、サーバ100が、メッセージが第1の感情に対応するものであるか否かを判断するステップと、メッセージが第1の感情に対応するものである場合に、サーバ100が音声出力装置200に会話を終了させるステップと、メッセージが第1の感情に対応するものでない場合に、サーバ100が音声出力装置200に会話を継続させるステップとを備える。
第1から第6の実施の形態においては、音声出力装置200と通信するための通信インターフェイス160と、プロセッサ110とを備えるサーバ100が提供される。プロセッサ110は、通信インターフェイス160を介して、音声出力装置200からメッセージを受信し、メッセージが第1の感情に対応するものである場合に、通信インターフェイス160を介して音声出力装置200に会話を終了させ、メッセージが第1の感情に対応するものでない場合に、通信インターフェイス160を介して音声出力装置200に会話を継続させる。
第1から第6の実施の形態においては、音声出力装置200と通信するための通信インターフェイス160と、プロセッサ110とを含むサーバ100における音声出力方法が提供される。音声出力方法は、プロセッサ110が、通信インターフェイス160を介して、音声出力装置200からメッセージを受信するステップと、プロセッサ110が、メッセージが第1の感情に対応するか否かを判断するステップと、プロセッサ110が、メッセージが第1の感情に対応するものである場合に、通信インターフェイス160を介して音声出力装置200に会話を終了させるステップと、プロセッサ110が、メッセージが第1の感情に対応するものでない場合に、通信インターフェイス160を介して音声出力装置200に会話を継続させるステップとを備える。
第1から第6の実施の形態においては、音声出力装置200と通信するための通信インターフェイス160と、プロセッサ110とを含むサーバ100のための音声出力プログラムが提供される。音声出力プログラムは、通信インターフェイス160を介して、音声出力装置200からメッセージを受信するステップと、メッセージが第1の感情に対応するか否かを判断するステップと、メッセージが第1の感情に対応するものである場合に、通信インターフェイス160を介して音声出力装置200に会話を終了させるステップと、メッセージが第1の感情に対応するものでない場合に、通信インターフェイス160を介して音声出力装置200に会話を継続させるステップとをプロセッサに実行させる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 :ネットワークシステム
100 :サーバ
110 :プロセッサ
111 :会話認識部
112 :感情認識部
113 :終話判定部
114 :応答生成部
115 :音声合成部
119 :制御部
120 :メモリ
121 :感情データベース
122 :感情データベース
130 :ライト
140 :スイッチ
160 :通信インターフェイス
161 :音声入力部
162 :音声出力部
200 :音声出力装置
210 :プロセッサ
211 :会話認識部
212 :感情認識部
213 :終話判定部
214 :応答生成部
215 :音声合成部
219 :制御部
220 :メモリ
230 :ライト
240 :スイッチ
260 :通信インターフェイス
261 :音声入力部
262 :音声出力部
270 :マイク
280 :スピーカ
290 :機器駆動部
1111 :音声特徴抽出部
1112 :音声認識部
1113 :キーワード抽出部
2111 :音声特徴抽出部
2112 :音声認識部
2113 :キーワード抽出部

Claims (17)

  1. マイクと、
    スピーカと、
    プロセッサとを備える、音声出力装置であって、
    前記プロセッサは、
    前記マイクを介して受け付けたメッセージが第1の感情に対応するものである場合に前記スピーカに所定のメッセージを出力させ、
    前記所定のメッセージに対応する回答が前記第1の感情に対応するものである場合に会話を終了し、
    前記マイクを介して受け付けたメッセージが第1の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第1の感情に対応するものでない場合に前記スピーカを介して会話を継続する、音声出力装置。
  2. 前記プロセッサは、
    前記マイクを介して受け付けた複数のメッセージが前記第1の感情に対応するものである場合に会話を終了し、
    前記マイクを介して受け付けた複数のメッセージが前記第1の感情に対応するものでない場合に前記スピーカを介して会話を継続する、請求項に記載の音声出力装置。
  3. 前記プロセッサは、
    前記マイクを介して所定時間の間に受け付けた少なくとも1つのメッセージが前記第1の感情に対応するものである場合に会話を終了し、
    前記マイクを介して所定時間の間に受け付けた少なくとも1つのメッセージが前記第1の感情に対応するものでない場合に前記スピーカを介して会話を継続する、請求項に記載の音声出力装置。
  4. 前記プロセッサは、
    前記スピーカを介して受け付けた所定回数のメッセージのうちの所定割合以上が前記第1の感情に対応するものである場合に会話を終了し、
    前記スピーカを介して受け付けた所定回数のメッセージのうちの所定割合以上が前記第1の感情に対応するものでない場合に前記スピーカを介して会話を継続する、請求項に記載の音声出力装置。
  5. 前記プロセッサは、
    前記マイクを介して所定時間の間に受け付けた少なくとも1つのメッセージのうちの所定割合以上が前記第1の感情に対応するものである場合に会話を終了し、
    前記マイクを介して所定時間の間に受け付けた少なくとも1つのメッセージのうちの所定割合以上が前記第1の感情に対応するものでない場合に前記スピーカを介して会話を継続する、請求項1に記載の音声出力装置。
  6. 前記プロセッサは、
    前記マイクを介して入力されたメッセージに同調するメッセージを前記スピーカに出力させる、請求項1からのいずれか1項に記載の音声出力装置。
  7. 前記プロセッサは、
    前記マイクを介して受け付けたメッセージと実質的に同じ意味のメッセージを前記スピーカに出力させる、請求項1からのいずれか1項に記載の音声出力装置。
  8. 前記プロセッサは、
    前記マイクを介して受け付けたメッセージに対応する感情を表す言葉を前記スピーカに出力させる、請求項1からのいずれか1項に記載の音声出力装置。
  9. 前記プロセッサは、
    前記会話を終了する際に、前記音声出力装置の次の動作を示すメッセージを前記スピーカに出力させる、請求項1からのいずれか1項に記載の音声出力装置。
  10. サーバと通信するための通信インターフェイスをさらに備え、
    前記プロセッサは、前記スピーカから出力するための前記メッセージを、前記通信インターフェイスを介して前記サーバから受信する、請求項1からのいずれか1項に記載の音声出力装置。
  11. マイクと、スピーカと、プロセッサとを含む音声出力装置における音声出力方法であって、
    前記プロセッサが、前記マイクを介して受け付けたメッセージが第1の感情に対応するものである場合に前記スピーカに所定のメッセージを出力させるステップと、
    前記プロセッサが、前記所定のメッセージに対応する回答が前記第1の感情に対応するものである場合に会話を終了するステップと、
    前記プロセッサが、前記マイクを介して受け付けたメッセージが第1の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第1の感情に対応するものでない場合に前記スピーカを介して会話を継続するステップとを備える、音声出力方法。
  12. マイクと、スピーカと、プロセッサとを含む音声出力装置における音声出力プログラムであって、
    前記マイクを介して受け付けたメッセージが第1の感情に対応するものである場合に前記スピーカに所定のメッセージを出力させるステップと、
    前記所定のメッセージに対応する回答が前記第1の感情に対応するものである場合に会話を終了するステップと、
    前記マイクを介して受け付けたメッセージが第1の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第1の感情に対応するものでない場合に前記スピーカを介して会話を継続するステップとを前記プロセッサに実行させる、音声出力プログラム。
  13. 音声出力装置と、
    前記音声出力装置と通信するサーバとを備え、前記サーバは、
    前記音声出力装置が受け付けたメッセージが第1の感情に対応するものである場合に前記音声出力装置に所定のメッセージを出力させ、
    前記所定のメッセージに対応する回答が前記第1の感情に対応するものである場合に前記音声出力装置に会話を終了させ、
    前記音声出力装置が受け付けたメッセージが第1の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第1の感情に対応するものでない場合に前記音声出力装置に会話を継続させる、ネットワークシステム。
  14. 音声出力装置と前記音声出力装置と通信可能なサーバとを含むネットワークシステムにおける音声出力方法であって、
    前記音声出力装置が、メッセージを受け付けるステップと、
    前記サーバが、前記メッセージが第1の感情に対応するものであるか否かを判断するステップと、
    前記メッセージが第1の感情に対応するものである場合に、前記サーバが前記音声出力装置に所定のメッセージを出力させるステップと、
    前記所定のメッセージに対応する回答が前記第1の感情に対応するものである場合に前記サーバが前記音声出力装置に会話を終了させるステップと、
    前記メッセージが第1の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第1の感情に対応するものでない場合に、前記サーバが前記音声出力装置に会話を継続させるステップとを備える、音声出力方法。
  15. 音声出力装置と通信するための通信インターフェイスと、
    プロセッサとを備えるサーバであって、
    前記プロセッサは、
    前記通信インターフェイスを介して、前記音声出力装置からメッセージを受信し、
    前記メッセージが第1の感情に対応するものである場合に、前記通信インターフェイスを介して前記音声出力装置に所定のメッセージを出力させ、
    前記所定のメッセージに対応する回答が前記第1の感情に対応するものである場合に前記通信インターフェイスを介して前記音声出力装置に会話を終了させ、
    前記メッセージが前記第1の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第1の感情に対応するものでない場合に、前記通信インターフェイスを介して前記音声出力装置に会話を継続させる、サーバ。
  16. 音声出力装置と通信するための通信インターフェイスと、プロセッサとを含むサーバにおける音声出力方法であって、
    前記プロセッサが、前記通信インターフェイスを介して、前記音声出力装置からメッセージを受信するステップと、
    前記プロセッサが、前記メッセージが第1の感情に対応するか否かを判断するステップと、
    前記プロセッサが、前記メッセージが前記第1の感情に対応するものである場合に、前記通信インターフェイスを介して前記音声出力装置に所定のメッセージを出力させるステップと、
    前記プロセッサが、前記所定のメッセージに対応する回答が前記第1の感情に対応するものである場合に、前記通信インターフェイスを介して前記音声出力装置に会話を終了させるステップと、
    前記プロセッサが、前記メッセージが前記第1の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第1の感情に対応するものでない場合に、前記通信インターフェイスを介して前記音声出力装置に会話を継続させるステップとを備える、音声出力方法。
  17. 音声出力装置と通信するための通信インターフェイスと、プロセッサとを含むサーバのための音声出力プログラムであって、
    前記通信インターフェイスを介して、前記音声出力装置からメッセージを受信するステップと、
    前記メッセージが第1の感情に対応するか否かを判断するステップと、
    前記メッセージが前記第1の感情に対応するものである場合に、前記通信インターフェイスを介して前記音声出力装置に所定のメッセージを出力させるステップと、
    前記所定のメッセージに対応する回答が前記第1の感情に対応するものである場合に、前記通信インターフェイスを介して前記音声出力装置に会話を終了させるステップと、
    前記メッセージが前記第1の感情に対応するものでない場合および前記所定のメッセージに対応する回答が前記第1の感情に対応するものでない場合に、前記通信インターフェイスを介して前記音声出力装置に会話を継続させるステップとを前記プロセッサに実行させる、音声出力プログラム。
JP2014161376A 2014-08-07 2014-08-07 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム Expired - Fee Related JP6122816B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014161376A JP6122816B2 (ja) 2014-08-07 2014-08-07 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム
US14/820,688 US9653097B2 (en) 2014-08-07 2015-08-07 Sound output device, network system, and sound output method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014161376A JP6122816B2 (ja) 2014-08-07 2014-08-07 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム

Publications (2)

Publication Number Publication Date
JP2016036500A JP2016036500A (ja) 2016-03-22
JP6122816B2 true JP6122816B2 (ja) 2017-04-26

Family

ID=55267887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014161376A Expired - Fee Related JP6122816B2 (ja) 2014-08-07 2014-08-07 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム

Country Status (2)

Country Link
US (1) US9653097B2 (ja)
JP (1) JP6122816B2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169008A1 (en) * 2015-12-15 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and electronic device for sentiment classification
CN107645523A (zh) * 2016-07-21 2018-01-30 北京快乐智慧科技有限责任公司 一种情绪交互的方法和系统
CN106372059B (zh) * 2016-08-30 2018-09-11 北京百度网讯科技有限公司 信息输入方法和装置
JP6774018B2 (ja) * 2016-09-15 2020-10-21 富士ゼロックス株式会社 対話装置
US11302317B2 (en) * 2017-03-24 2022-04-12 Sony Corporation Information processing apparatus and information processing method to attract interest of targets using voice utterance
JP2018173763A (ja) * 2017-03-31 2018-11-08 積水化学工業株式会社 行動支援システム、行動支援方法
JP6811158B2 (ja) * 2017-10-26 2021-01-13 株式会社日立ビルシステム ロボット制御システム、ロボット制御方法及び統合サーバー装置
JP6828667B2 (ja) 2017-11-28 2021-02-10 トヨタ自動車株式会社 音声対話装置、音声対話方法及びプログラム
JP6943158B2 (ja) * 2017-11-28 2021-09-29 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
CN108010540A (zh) * 2017-12-14 2018-05-08 上海惠诚科教器械股份有限公司 一种语音交互情绪调节系统
JP2021052812A (ja) * 2018-01-26 2021-04-08 久和 正岡 感情分析システム
CN108670128A (zh) * 2018-05-21 2018-10-19 深圳市沃特沃德股份有限公司 语音控制扫地机器人的方法和扫地机器人
JP7131077B2 (ja) * 2018-05-24 2022-09-06 カシオ計算機株式会社 会話装置、ロボット、会話装置制御方法及びプログラム
US11244684B2 (en) * 2018-09-11 2022-02-08 International Business Machines Corporation Communication agent to conduct a communication session with a user and generate organizational analytics
US20220031239A1 (en) * 2018-09-21 2022-02-03 Steve Curtis System and method for collecting, analyzing and sharing biorhythm data among users
KR20210099556A (ko) * 2018-09-21 2021-08-12 스티브 커티스 사용자의 감정 상태의 모니터링 및 목표 상태 보강을 통해 사용자 간의 상호 작용의 향상을 위한 시스템 및 방법
JP6651146B1 (ja) * 2019-02-21 2020-02-19 Blue Ocean&Company株式会社 未来型データの個別閲覧システム
US20210005207A1 (en) 2019-07-05 2021-01-07 Talkdesk, Inc. System and method for querying multiple information sources using agent assist within a cloud-based contact center
US11328205B2 (en) 2019-08-23 2022-05-10 Talkdesk, Inc. Generating featureless service provider matches
US20210117882A1 (en) 2019-10-16 2021-04-22 Talkdesk, Inc Systems and methods for workforce management system deployment
US20210136220A1 (en) 2019-10-31 2021-05-06 Talkdesk, Inc. Monitoring and listening tools across omni-channel inputs in a graphically interactive voice response system
US11736615B2 (en) 2020-01-16 2023-08-22 Talkdesk, Inc. Method, apparatus, and computer-readable medium for managing concurrent communications in a networked call center
JP7405660B2 (ja) * 2020-03-19 2023-12-26 Lineヤフー株式会社 出力装置、出力方法及び出力プログラム
US11677875B2 (en) 2021-07-02 2023-06-13 Talkdesk Inc. Method and apparatus for automated quality management of communication records
JP7551579B2 (ja) 2021-08-23 2024-09-17 Kddi株式会社 ネガティブな発話をポジティブなオウム返しで返答するプログラム、装置及び方法
US11856140B2 (en) 2022-03-07 2023-12-26 Talkdesk, Inc. Predictive communications system
US11736616B1 (en) 2022-05-27 2023-08-22 Talkdesk, Inc. Method and apparatus for automatically taking action based on the content of call center communications
US11971908B2 (en) 2022-06-17 2024-04-30 Talkdesk, Inc. Method and apparatus for detecting anomalies in communication data
US11943391B1 (en) 2022-12-13 2024-03-26 Talkdesk, Inc. Method and apparatus for routing communications within a contact center

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6157913A (en) * 1996-11-25 2000-12-05 Bernstein; Jared C. Method and apparatus for estimating fitness to perform tasks based on linguistic and other aspects of spoken responses in constrained interactions
GB9930731D0 (en) * 1999-12-22 2000-02-16 Ibm Voice processing apparatus
JP3676969B2 (ja) 2000-09-13 2005-07-27 株式会社エイ・ジー・アイ 感情検出方法及び感情検出装置ならびに記録媒体
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
US20060215824A1 (en) * 2005-03-28 2006-09-28 David Mitby System and method for handling a voice prompted conversation
US8054951B1 (en) * 2005-04-29 2011-11-08 Ignite Media Solutions, Llc Method for order taking using interactive virtual human agents
KR101248353B1 (ko) 2005-06-09 2013-04-02 가부시키가이샤 에이.지.아이 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US8082499B2 (en) * 2006-03-21 2011-12-20 Electronic Arts, Inc. Graphical interface for interactive dialog
JP4704952B2 (ja) 2006-05-01 2011-06-22 株式会社エイ・ジー・アイ 心的状態判定装置、およびプログラム
US20080240379A1 (en) * 2006-08-03 2008-10-02 Pudding Ltd. Automatic retrieval and presentation of information relevant to the context of a user's conversation
US8195457B1 (en) * 2007-01-05 2012-06-05 Cousins Intellectual Properties, Llc System and method for automatically sending text of spoken messages in voice conversations with voice over IP software
JP5441087B2 (ja) * 2007-12-26 2014-03-12 株式会社バンダイナムコゲームス プログラム及び画像表示制御装置
US8407049B2 (en) * 2008-04-23 2013-03-26 Cogi, Inc. Systems and methods for conversation enhancement
JP5394118B2 (ja) 2008-05-09 2014-01-22 株式会社Agi 行動分析装置及びコールセンターシステム
US8054964B2 (en) * 2009-04-30 2011-11-08 Avaya Inc. System and method for detecting emotions at different steps in a communication
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US20110282662A1 (en) * 2010-05-11 2011-11-17 Seiko Epson Corporation Customer Service Data Recording Device, Customer Service Data Recording Method, and Recording Medium
JP5714411B2 (ja) 2010-05-17 2015-05-07 株式会社光吉研究所 行動分析方法および行動分析装置
US8848882B2 (en) * 2010-07-07 2014-09-30 Verizon Patent And Licensing Inc. System for and method of measuring caller interactions during a call session
JP5539842B2 (ja) * 2010-10-27 2014-07-02 Mtiジャパン株式会社 対話処理装置
US8819154B2 (en) * 2011-10-14 2014-08-26 Blackberry Limited User interface methods and apparatus for use in communicating text and photo messages
US20130212501A1 (en) * 2012-02-10 2013-08-15 Glen J. Anderson Perceptual computing with conversational agent
WO2014069076A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 会話分析装置及び会話分析方法
US20150262574A1 (en) * 2012-10-31 2015-09-17 Nec Corporation Expression classification device, expression classification method, dissatisfaction detection device, dissatisfaction detection method, and medium
US9093081B2 (en) * 2013-03-10 2015-07-28 Nice-Systems Ltd Method and apparatus for real time emotion detection in audio interactions
US20140280296A1 (en) * 2013-03-14 2014-09-18 Google Inc. Providing help information based on emotion detection
US9477823B1 (en) * 2013-03-15 2016-10-25 Smart Information Flow Technologies, LLC Systems and methods for performing security authentication based on responses to observed stimuli
US20140288939A1 (en) * 2013-03-20 2014-09-25 Navteq B.V. Method and apparatus for optimizing timing of audio commands based on recognized audio patterns
JP2014219594A (ja) * 2013-05-09 2014-11-20 ソフトバンクモバイル株式会社 会話処理システム及びプログラム
WO2014197336A1 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9361589B2 (en) * 2013-11-28 2016-06-07 Akademia Gorniczo-Hutnicza Im. Stanislawa Staszira W. Krakowie System and a method for providing a dialog with a user
US20150302423A1 (en) * 2014-04-17 2015-10-22 Xerox Corporation Methods and systems for categorizing users

Also Published As

Publication number Publication date
US9653097B2 (en) 2017-05-16
JP2016036500A (ja) 2016-03-22
US20160042749A1 (en) 2016-02-11

Similar Documents

Publication Publication Date Title
JP6122816B2 (ja) 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム
WO2015029304A1 (ja) 音声認識方法及び音声認識装置
WO2014112226A1 (ja) 電子機器及び掃除機
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
KR20200113105A (ko) 응답을 제공하는 전자 장치와 이의 동작 방법
CN107851436A (zh) 语音交互方法和语音交互设备
JP6464703B2 (ja) 会話評価装置およびプログラム
JP2018109663A (ja) 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法
JP5083033B2 (ja) 感情推定装置及びプログラム
JP2002169590A (ja) 模擬会話システム、模擬会話方法、および情報記憶媒体
JP2004021121A (ja) 音声対話制御装置
JP2006155157A (ja) 自動選曲装置
CN111429882B (zh) 播放语音的方法、装置及电子设备
CN107239822B (zh) 信息互动方法、系统及机器人
JP6569588B2 (ja) 音声対話装置およびプログラム
WO2018173295A1 (ja) ユーザインタフェース装置及び方法、並びに音操作システム
CN114822551A (zh) 一种基于智能耳机的交互方法
JP2018132623A (ja) 音声対話装置
WO2021102647A1 (zh) 数据处理方法、装置和存储介质
JP2017106989A (ja) 音声対話装置およびプログラム
JP2017106990A (ja) 音声対話装置およびプログラム
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
JP2016090776A (ja) 応答生成装置、応答生成方法およびプログラム
JP2008249893A (ja) 音声応答装置及びその方法
CN113870902B (zh) 一种语音交互毛绒玩具的情绪识别系统、装置及方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170403

R150 Certificate of patent or registration of utility model

Ref document number: 6122816

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees