JP5996603B2

JP5996603B2 - サーバ、発話制御方法、発話装置、発話システムおよびプログラム

Info

Publication number: JP5996603B2
Application number: JP2014212602A
Authority: JP
Inventors: 靖典山下; 平田　真章; 真章平田; 木付　英士; 英士木付; 新開　誠; 誠新開
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-10-31
Filing date: 2014-10-17
Publication date: 2016-09-21
Anticipated expiration: 2034-10-17
Also published as: CN104601538A; US20150120304A1; JP2015111253A

Description

本発明は、擬似的なコミュニケーションを提供するサーバ、発話制御方法、発話装置、発話システムおよびプログラムに関する。

ユーザにより入力された言葉に対応する返答を出力することにより、ユーザとの模擬会話を実行する模擬会話システムが知られている。特許文献１には、このような模擬会話システムであって、ユーザにより入力された言葉に対する評価の累積値が含まれる模擬会話における会話履歴を更新記憶し、上記会話履歴に含まれる評価の累積値が会話変更条件を満たす場合には、実行中の模擬会話における話題と異なる話題の返答を出力する技術が記載されている。また、上記模擬会話システムは、上記ユーザによって入力された言葉を認識できない場合、または、上記ユーザによって入力された言葉に対応する返答が存在しない場合には、上記会話履歴に応じた履歴を出力して模擬会話を継続させる。

特開２００２−１６９８０４号公報（２００２年６月１４日公開）

一方、上記模擬会話システムとは別に、ネットワークに接続可能な家電機器を含むシステムであって、当該家電機器のユーザとの間において擬似的なコミュニケーションを実現する発話システムが、盛んに研究されている。このような発話システムは、通常、発話システム全体の動作を制御するサーバと、音声データの入出力を行う発話装置（家電機器）とを備えている。発話装置はユーザからの問い掛け（音声入力）をサーバへ送信し、サーバは音声データを音声認識し対応する回答データを返信、発話装置が回答データを音声出力することによってユーザへ伝える。

このような発話システムにおいて、発話装置は、ユーザが発話装置に対して音声入力する音だけでなく、日常会話、ペットの鳴き声、テレビから出力される音声など、発話装置の近傍において生じるさまざまな音を音データとして取得する可能性がある。このときサーバが誤って音声認識を行い、ユーザから音声を入力されていない（問い掛けを受けていない）にも関わらず、期待しない回答データを出力してしまう課題がある。

本発明は上記課題を鑑みてなされたものであり、その目的は、適切な音声コミュニケーションとなるサーバを実現することである。

上記の課題を解決するために、本発明の一態様に係るサーバは、判定対象の音データの音量が、第１の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替手段を備える。

上記の課題を解決するために、本発明の一態様に係る発話制御方法は、判定対象の音データの音量が、第１の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替工程を含む。

上記の課題を解決するために、本発明の一態様に係る発話装置は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段と、上記音声データ抽出手段が抽出した音声データの音量を判定する音量判定手段と、上記音量判定手段が判定した音量が所定の範囲内に含まれる場合、上記音声データ抽出手段が抽出した音声データの示す音声の内容を認識内容として認識する音声認識手段と、上記音声認識手段が上記音声データが示す内容を認識できた場合と、上記音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段と、上記回答方針切替手段が決定した回答内容の示す音声を出力する回答出力部と、を備える。

上記の課題を解決するために、本発明の一態様に係る発話システムは、発話装置と、サーバとを備えている発話システムであって、上記発話装置は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部と、上記音声データに対する回答データを受信する回答データ受信部と、上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部と、を備えており、上記サーバは、上記発話装置から、上記音声データを受信する音声データ受信部と、上記音声データ受信部が受信した音声データの音量を判定する音量判定手段と、上記音量判定手段によって判定された上記音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段と、上記回答方針切替手段が決定した回答内容を示す回答データを送信する回答送信手段と、を備える。

上記の課題を解決するために、本発明の一態様に係る発話装置は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部と、上記音声データに対する回答データを受信する回答データ受信部と、上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部と、を備えており、上記回答データは、上記音声データ送信部が送信した音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、決定された回答内容を示す回答データである。

本発明の一態様によれば、不適切なタイミングによる返答を防止し、より適切な会話コミュニケーションを実現することができる。

本発明の実施形態１に係る発話システムの要部構成を示すブロック図である。本発明の実施形態１に係る発話システムの概要を示す外観図である。本発明の実施形態１に係る発話システムにおける返答音声出力処理の流れを示すシーケンス図である。本発明の実施形態１に係るサーバの記憶部に格納されている返答方針テーブルの一例を示す。本発明の実施形態１に係るサーバの記憶部に格納されている通常返答データベースの一例を示す図である。本発明の実施形態１に係るサーバの記憶部に格納されている曖昧返答データベースの一例を示す図である。本発明の実施形態１に係るサーバの記憶部に格納されている促し返答データベースの一例を示す図である。本発明の実施形態２に係る発話システムの要部構成を示すブロック図である。本発明の実施形態２に係る発話システムにおける返答音声出力処理の流れを示すシーケンス図である。本発明の実施形態３に係る発話システムの要部構成を示すブロック図である。本発明の実施形態３に係る発話システムにおける返答音声出力処理の流れを示すシーケンス図である。本発明の実施形態４に係る発話システムの要部構成を示すブロック図である。本発明の実施形態４に係る発話システムにおける返答音声出力処理の流れを示すシーケンス図である。本発明の実施形態５に係る発話システムの要部構成を示すブロック図である。

＜実施形態１＞
本実施形態に係る発話システム１について、図１から図７を参照して以下に説明する。但し、この実施形態に記載されている構成は、特に特定的な記載がない限り、この発明の範囲をそれのみに限定する趣旨ではなく、単なる説明例に過ぎない。

〔発話システムの概要〕
まず、本実施形態に発話システム１の概要について、図２を参照して説明する。図２は、本実施形態に係る発話システム１の概要を示す外観図である。

図２に示すように、本実施形態に係る発話システム１は、掃除ロボット（発話装置）１０、及び、サーバ２０により構成されている。

発話システム１は、掃除ロボット１０に人間（ユーザ）が発した音声が入力されると、サーバ２０において決定される、入力された音声に対する返答内容を表す音声（以降では、「返答音声」とも記載）を、掃除ロボット１０から出力する。これによって、本実施形態に係る発話システム１は、ユーザと、掃除ロボット１０との疑似的な会話を実現する。

なお、本実施形態では、ユーザに対して返答音声を出力する音声出力装置として掃除ロボット１０を例に挙げて説明するが、本発明はこれに限定されるものではない。例えば、音声出力機能を有する人形や、掃除ロボット１０以外の家電（例えば、テレビ、電子レンジなど）などを、音声出力装置として採用することもできる。

また、本実施形態では、サーバ２０が１つのサーバによって実現される構成を例に挙げて説明するが、本発明はこれに限定されるものではなく、サーバ２０の備える各部（各機能）の少なくとも一部を、他のサーバにより実現する構成を採用してもよい。

次に、本実施形態に係る発話システム１の要部構成について、図１を参照して説明する。図１は、本実施形態に係る発話システム１の要部構成を示すブロック図である。

〔掃除ロボット〕
本実施形態に係る掃除ロボット１０の構成について、図１を参照して説明する。図１に示すように、本実施形態に係る掃除ロボット１０は、通信部（音声データ送信部、回答データ受信部）１０１、制御部１０２、マイク１０３、スピーカ（回答出力部）１０４、掃除部１０５、及び、駆動部１０６を備えている。

（通信部）
通信部１０１は、外部との通信を行う手段である。具体的には、通信部１０１は、サーバ２０と、例えばインターネットなどのネットワークを介して無線通信を行う。

（マイク）
マイク１０３は、外部から音の入力を受け付ける。なお、本実施形態では、マイク１０３が入力を受け付ける音を示す「音データ」には、主に人間の発する音声の周波数帯域に含まれる音のデータ（以降では、「音声データ」とも記載する）、及び、音声データの周波数帯域以外の周波数帯域を含む音のデータ（以降では、「その他の音データ」とも記載する）とが含まれる。

マイク１０３は、入力された音を示す音データを、制御部１０２に逐次供給する。

（スピーカ）
スピーカ１０４は、制御部１０２から供給される返答内容データの示す返答内容を表す返答音声を出力する。以降では、掃除ロボット１０がスピーカ１０４を介して行う返答音声の出力を、「発話」とも記載する。なお、返答内容の詳細については、後述する。

（掃除部、駆動部）
掃除部１０５は、制御部１０２からの指示に基づいて、掃除機としての機能を実現する。また、駆動部１０６は、制御部１０２からの指示に基づいて、掃除ロボット１０を移動させる。

掃除部１０５および駆動部１０６が共同して動作することによって、掃除ロボット１０は、自動的に部屋の掃除を行うことができる。

（制御部）
制御部１０２は、掃除ロボット１０の各部を統括的に制御する。具体的には、制御部１０２は、掃除部１０５及び駆動部１０６を制御することにより、掃除ロボット１０の掃除動作を制御する。また、制御部１０２は、マイク１０３によって外部から取得された音を示す音データを、通信部１０１を介してサーバ２０に逐次送信する。

制御部１０２の機能は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）及びフラッシュメモリなどの記憶装置に記憶されたプログラムを、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が実行することによって実現される（何れも不図示）。

また、制御部１０２は、サーバ２０から通信部１０１を介して返答内容データを取得する。そして、制御部１０２は、取得した返答内容データの示す返答内容を表す音声が出力されるよう、スピーカ１０４を制御（駆動）する。

〔サーバ〕
次に、本実施形態に係るサーバ２０の構成について、図１を参照して説明する。図１に示すように、本実施形態に係るサーバ２０は、通信部（音声データ受信部）２０１、制御部２０２、及び、記憶部２０３を備えている。

（通信部）
通信部２０１は、外部との通信を行う手段である。具体的には、通信部２０１は、掃除ロボット１０と、例えばインターネットなどのネットワークを介して無線通信を行う。

（制御部）
制御部２０２は、サーバ２０の各部を統括的に制御する。制御部２０２の機能は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）及びフラッシュメモリなどの記憶装置に記憶されたプログラムを、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が実行することによって実現される（何れも不図示）。

なお、制御部２０２の構成の詳細については、後述する。

（記憶部）
記憶部２０３は、後述する制御部２０２において参照される各種のデータが格納されている。各種のデータとしては、例えば、確度判定部２２４によって参照される、所定の言葉を示す音声波形モデル（不図示）、並びに、返答制御部２２５によって参照される、返答方針テーブル（不図示）、通常返答データベース２３１、曖昧返答データベース２３２及び促し返答データベース２３３などが格納されている。

なお、返答方針テーブル、及び、各データベース２３１〜２３３の詳細については、図面を変えて後述する。

〔制御部の構成〕
次に、サーバ２０の備える制御部２０２の構成について、図１を参照して説明する。制御部２０２は、図１に示すように、音声検出部２２１（抽出部）、音量判定部（音量判定手段）２２２、音声認識部（認識確度判定手段）２２３、確度判定部（認識確度判定手段）２２４、及び、返答制御部（回答送信手段、回答方針切替手段）２２５を備えている。

（音声検出部）
音声検出部２２１は、掃除ロボット１０から送信される音データから、音声データを検出（抽出）する。換言すれば、音声検出部２２１は、外部から受信した音データから、人間の発する音声の周波数帯域を抽出することによって、後述する音量判定部２２２において判定対象となる音データ（音声データ）を生成する抽出手段として機能する。

音声検出部２２１における、音データから音声データを検出する方法としては、例えば、音データから人間の発する音声の周波数帯域（例えば、１００Ｈｚ以上かつ１ｋＨｚ以下の周波数帯域）を抽出することによって音声データを検出する方法を挙げることができる。この場合には、音声検出部２２１は、音データから人間の発する音声の周波数帯域を抽出するために、例えば、バンドパスフィルタ、又は、ハイパスフィルタ及びローパスフィルタを組み合わせたフィルタなどを備えていればよい。

音声検出部２２１は、音データから検出した音声データを、音量判定部２２２、及び、音声認識部２２３に供給する。

（音量判定部）
音量判定部２２２は、音声検出部２２１によって検出された音声データ（判断対象となる音データ）の示す音声の音量を判定する。具体的には、音量判定部２２２は、まず、音声の音量を示す値と、２つの閾値（閾値ａ（第２の音量閾値）及び閾値ｂ（第１の音量閾値）、閾値ａ＞閾値ｂ）とを比較する。そして、音量判定部２２２は、音声の音量が（１）音量＞閾値ａ、（２）閾値ａ≧音量≧閾値ｂ、又は（３）閾値ｂ＞音量の、何れの範囲に属しているかを判定する。なお、（２）の範囲は、第１の音量閾値（閾値ｂ）以上、第２の音量閾値（閾値ａ）以下である音量範囲に相当する。換言すると、音量判定部２２２は、音声データの示す音声の音量が、第１の所定の音量範囲内（閾値ａ≧音量≧閾値ｂ）に含まれるか否か、および、第１の所定の音量範囲よりも音量が低い第２の所定の音量範囲内（閾値ｂ＞音量）に含まれるか否かを判定する。

なお、閾値ａの値は「−２０ｄＢ」であり、閾値ｂの値は「−３９ｄＢ」であることが好ましいが、本発明はこれらの値に限定されるものではない。閾値ａとしては、人間が通常発する音声の音量の最大値を設定し、閾値ｂとしては、人間が通常発する音声の音量の最小値を設定すればよい。これにより、例えば、人間の発する音声の周波数帯域と近い周波数帯域を含む音（例えば、犬が吠えたときの音（一般的に、４５０Ｈｚ〜１．１ｋＨｚ）が掃除ロボット１０から供給され、音声検出部２２１によって人間の発する音声として検出された場合であっても、より正確に人間の発する音声であるか否かを判定することができる。

また、本実施形態では、判断対象となる音データが音声データである場合を例に挙げて説明しているが、本発明はこれに限定されるものではない。例えば、音量判定部２２２は、掃除ロボット１０から取得した音データを、そのまま判断対象となる音データとして用いることもできる。

音量判定部２２２は、音声の音量の判定結果を、返答制御部２２５に供給する。

（音声認識部）
音声認識部２２３は、音声検出部２２１によって検出された音声データの示す音声の内容（音声内容）を認識内容として認識する。そして、音声認識部２２３は、音声データから認識した音声内容の認識結果を、確度判定部２２４に供給する。

（確度判定部）
確度判定部２２４は、音声認識部２２３から供給された音声内容の認識結果の確からしさ（換言すれば、音声内容を認識する認識処理の確からしさ）を示す認識確度を判定する。つまり、確度判定部２２４は、音声認識部２２３と共に、認識確度判定手段として機能する。

具体的には、確度判定部２２４は、音声内容の認識結果の確度と、２つの閾値（閾値ｃ（第１の確度閾値）及び閾値ｄ（第２の確度閾値）、閾値ｃ＞閾値ｄ）とを比較する。そして、確度判定部２２４は、認識結果の確度が、（Ａ）閾値ｃ≦認識確度、（Ｂ）閾値ｄ≦認識確度＜閾値ｃ、又は（Ｃ）認識確度＜閾値ｄの何れの範囲に属しているかを判定する。なお、（Ｂ）の範囲は、第１の確度閾値（閾値ｃ）より小さく、第２の確度閾値（閾値ｄ）以上である確度範囲に相当する。

なお、認識確度の最小値を「０」とし、最大値を「１」とした場合、閾値ｃの値は「０．６」であり、閾値ｄの値は「０．４３」であることが好ましいが、本発明はこれらの値に限定されるものではない。

ここで、確度判定部２２４における認識結果の認識確度の判定方法としては、例えば、予め複数用意されている、所定の言葉（フレーズ）を示す音声波形モデル（音響モデル）と音声データの示す波形との一致度を判定し、最も高い一致度を認識確度とする判定方法などを用いることができる。なお、本発明はこれに限定されるものではなく、例えば、パターンマッチングなどを用いることもできる。

確度判定部２２４は、認識確度の判定結果を、音声認識部２２３から供給された音声内容の認識結果と共に、返答制御部２２５に供給する。

（返答制御部）
返答制御部２２５は、音量判定部２２２から供給される音声の音量の判定結果と、確度判定部２２４から供給される認識確度の判定結果とに基づいて、返答内容を決定する。換言すると、返答制御部２２５は、音声認識部２２３から供給された音声内容を認識できた場合と、当該音声内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える。

具体的には、返答制御部２２５は、後述する返答方針テーブルを参照し、音量の判定結果が上記（１）〜（３）の何れの範囲に属するか、及び、認識確度の判定結果が上記（Ａ）〜（Ｃ）の何れの範囲に属するかに基づいて音声データの示す音声内容に対する返答の方針（返答方針）を決定する。そして、返答制御部２２５は、記憶部２０３に格納されている各データベース２３１〜２３３を参照し、決定した返答方針に沿った返答内容を決定する。なお、返答方針テーブルを参照して行われる返答制御部２２５における返答方針の決定、及び、記憶部２０３に格納されているデータベースの詳細については、図面を変えて後述する。

なお、詳細については後述するが、本実施形態では、返答制御部２２５において決定される返答方針には、認識内容に対して正常に返答する「通常返答」、認識内容に対して曖昧に返答する「曖昧返答」、ユーザに会話（発言）を促す「会話促し」、及び、返答をしない「返答なし」がある。

返答制御部２２５は、返答内容を決定すると、決定した返答内容を示す返答内容データを、通信部２０１を介して掃除ロボット１０に送信する。

なお、本実施形態では、返答制御部２２５が、音声の音量の判定結果と認識確度の判定結果とに基づいて返答内容を決定する構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、返答制御部２２５は、音声認識部２２３から供給された音声内容の認識結果に基づいて返答内容を決定してもよい。また、返答制御部２２５は、音量の判定結果及び音声内容の認識結果に基づいて返答内容を決定してもよいし、認識確度の判定結果及び音声内容の認識結果に基づいて返答内容を決定してもよい。

〔返答音声出力処理〕
次に、本実施形態に係る発話システム１における返答音声出力処理（発話制御方法）について、図３を参照して説明する。図３は、本実施形態に係る発話システム１における返答音声出力処理の流れを示すシーケンス図である。

ステップＳ１０１：図３に示すように、まず、発話システム１の掃除ロボット１０の備えるマイク１０３は、外部からの音の入力を受け付ける。

ステップＳ１０２：マイク１０３において音の入力を受け付けると、制御部１０２は、入力された音声を示す音データを、通信部１０１を介してサーバ２０に送信する。

ステップＳ１０３：掃除ロボット１０から通信部２０１を介して音データを取得すると、サーバ２０の制御部２０２の備える音声検出部２２１は、取得した音データから、音声データを検出する。音声データを検出すると、音声検出部２２１は、検出した音声データを音量判定部２２２及び音声認識部２２３に供給する。

ステップＳ１０４：音量判定部２２２は、音声データを取得すると、取得した音声データの示す音声の音量を判定する。具体的には、音量判定部２２２は、音声データの示す音声の音量と、閾値ａ及び閾値ｂとを比較し、音声の音量が上述した（１）〜（３）の何れの範囲に属しているかを判定し、判定結果を返答制御部２２５に供給する。

ステップＳ１０５：音声認識部２２３は、音声データを取得すると、取得した音声データの示す音声の内容を認識する。音声認識部２２３は、音声内容の認識結果を確度判定部２２４に供給する。

ステップＳ１０６：音声内容の認識結果を取得すると、確度判定部２２４は、取得した音声内容の認識結果の確度を判定する。具体的には、確度判定部２２４は、音声内容の認識結果の確度が、上述した（Ａ）〜（Ｃ）の何れの範囲に属しているかを判定し、判定結果を返答制御部２２５に供給する。

ステップＳ１０７（回答方針切替工程）：返答制御部２２５は、音量判定部２２２から取得した音声の音量の判定結果、及び、確度判定部２２４から取得した確度の判定結果に基づき、返答方針及び返答内容を決定する。

ステップＳ１０８（回答送信工程）：返答制御部２２５において返答内容が決定されると、制御部２０２は、決定された返答内容を示す返答内容データを、通信部２０１を介して掃除ロボット１０に送信する。

ステップＳ１０９：掃除ロボット１０の制御部１０２は、通信部１０１を介して返答内容データを受信すると、受信した返答内容データの示す返答音声を、スピーカ１０４を介して出力する。

上述のように、発話システム１において返答音声出力処理が実行されることによって、掃除ロボット１０は、人間の発した音声に対して返答するように発話する。

〔返答方針テーブル〕
ここで、返答方針テーブルを参照して行われる返答制御部２２５における返答方針の決定について、図４から図７を参照して説明する。図４は、本実施形態に係るサーバ２０の記憶部２０３に格納されている返答方針テーブルの一例を示す。

図５は、本実施形態に係るサーバ２０の記憶部２０３に格納されている通常返答データベース２３１の一例を示す図である。図６は、本実施形態に係るサーバ２０の記憶部２０３に格納されている曖昧返答データベース２３２の一例を示す図である。また、図７は、本実施形態に係るサーバ２０の記憶部２０３に格納されている促し返答データベース２３３の一例を示す図である。

図４に示すように、返答制御部２２５は、音声の音量の判定結果が、音量＞閾値ａである場合（すなわち、上述の（１）の場合）、認識確度の判定結果に関わらず、応答方針を「返答なし」に決定する。

また、返答制御部２２５は、音声の音量の判定結果が、閾値ｂ＞音量である場合（すなわち、上述の（３）の場合、第２の所定の音量範囲内に含まれる場合）、認識確度の判定結果に関わらず、応答方針を「返答なし」又は「会話促し」に決定する。

そして、返答制御部２２５は、音声の音量の判定結果が（３）の場合、所定の確率で応答方針を「会話促し」に決定する。換言すれば、音量判定部２２２によって判定された音声の音量が閾値ｂより小さい場合、返答制御部２２５は、会話を促すフレーズ（会話を促す内容を示す回答データ）（詳細については後述する）を、所定の確率で送信する。なお、本実施形態では、所定の確率は、１／１０であることが好ましいが、例えば、１／１００であってもよく、本発明においては特に限定されるものではない。

また、返答制御部２２５は、音声の音量の判定結果が、閾値ａ≧音量≧閾値ｂである場合（すなわち、上述の（２）の場合、第１の所定の音量範囲内に含まれる場合）には、認識確度の判定結果に応じて応答方針を決定する。換言すると、返答制御部２２５は、音声が示す内容を認識できた場合と、認識できなかった場合とで、応答方針（回答方針）を切り替える。

より具体的には、認識確度の判定結果が閾値ｄ≦認識確度の場合（認識確度が第１の所定の認識確度範囲内に含まれる場合）、音声が示す内容を認識できた場合として、応答方針を「通常返答」または「曖昧返答」に決定する。より詳細には、認識確度の判定結果が、閾値ｃ≦認識確度（すなわち、上記（Ａ））の場合（認識確度が第１の所定の認識確度範囲内であって、当該第１の所定の認識確度範囲において相対的に認識確度が高い範囲を示す第２の所定の認識確度範囲内に含まれる場合）、応答方針を「通常返答」に決定し、閾値ｄ≦認識確度＜閾値ｃ（すなわち、上記（Ｂ））の場合、応答方針を「曖昧返答」に決定し、認識確度＜閾値ｄすなわち、上記（Ｃ））の場合、応答方針を「返答なし」に決定する。このように、返答制御部２２５は、音声が示す内容を認識内容として認識する認識処理の確からしさを示す認識確度に応じて、ユーザに対する回答内容を決定するために参照するデータベースを変更する。

また、閾値ｄ≦認識確度＜閾値ｃ（すなわち、上記（Ｂ））の場合、返答制御部２２５は、応答方針を「曖昧返答」に決定するため、「音声が示す内容を認識できなかった場合」と表現することもできる。換言すると、返答制御部２２５は、音声が示す内容を認識できなかった場合、当該音声が示す内容に対する回答内容が１対１または１対多に定まらないフレーズを含むデータベース（曖昧返答データベース）を参照する構成であってもよい。

ここで、「通常返答」とは、認識内容に対して正常に返答する返答方針である。より具体的には、「通常返答」とは、認識内容に対して返答内容が１対１（又は、１対多）に定まるフレーズであって認識内容に対応した（換言すれば、認識内容に関連した）フレーズ（通常返答フレーズ）を返答内容として返答する応答方針である。

返答制御部２２５は、返答方針を通常返答に決定した場合には、例えば、図５に示すように、認識内容（図５における「認識フレーズ」）が「今日は怒られたよ」であるとき、「大変だったねぇ」、「忘れちゃおう」、「怒られちゃったの？元気出して？」、及び、「そうなんだぁ」のうち、何れか１つ又は複数のフレーズ（図５における「回答フレーズ」）を返答内容として決定すればよい。

なお、図５に、本実施形態に係るサーバ２０の備える記憶部２０３に格納されている通常返答データベース２３１の一例を示している。図５に示すように、通常返答データベース２３１には、認識内容（認識フレーズ）と返答内容（回答フレーズ）とが関連付けられて格納されている。

「曖昧返答」とは、認識内容に対して曖昧に返答する返答方針である。より具体的には、「曖昧返答」とは、いわゆる相槌などの、認識内容に対して返答内容が１対１（又は、１対多）に定まらないフレーズ（換言すれば、認識内容との関連性の低いフレーズ）（曖昧フレーズ）を応答内容として返答する返答方針である。また、曖昧フレーズは、換言すれば、認識確度が閾値ｃ以上である場合に参照する通常返答データベース２３１とは異なるカテゴリーの回答データ（返答内容）を含む曖昧返答データベース２３２から決定（選択）されるフレーズ（返答内容）であるとも表現できる。さらに、曖昧フレーズとは、音声データの内容が認識できない、または認識できたが対応する回答データがないということを暗示するフレーズであると表現することもできる。

返答制御部２２５は、返答方針を曖昧返答に決定した場合には、例えば、図６に示すように、認識内容に関わらず、「ほんとー」、「ほうほう」及び「へぇー」などのうち、何れかのフレーズを返答内容として決定すればよい。つまり、返答制御部２２５は、返答方針を曖昧返答に決定した場合には、曖昧返答データベース２３２から返答内容をランダムに選択してもよい。

なお、図６に、本実施形態に係るサーバ２０の備える記憶部２０３に格納されている曖昧返答データベース２３２の一例を示している。図６に示すように、返答内容のみが格納されている。

また、「会話促し」とは、ユーザ（掃除ロボット１０の近傍に存在する人間）に会話（発言）を促すフレーズを返答する返答方針である。会話を促すフレーズとしては、例えば、図７に示すように、「ねえねえ、今日はどうだった？」及び「雑学聞きたくない？」などを挙げることができ、これらの会話を促すフレーズは、サーバ２０の備える記憶部２０３に促し返答データベース２３３として格納されている。

なお、本実施形態では、サーバ２０から掃除ロボット１０に対して返答内容を示す返答内容データを送信する（換言すれば、掃除ロボット１０が発話する返答内容を示す返答内容データをサーバ２０が供給する）構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、掃除ロボット１０が記憶部（不図示）に上述した各データベースを格納しており、サーバ２０から掃除ロボット１０に対して、何れのデータベースの何れのフレーズを返答内容とするかを指定するためのデータを送信する構成を採用してもよい。

上述の構成により、サーバ２０は、掃除ロボット１０に入力された音に対する返答内容データを、不適切なタイミングで掃除ロボット１０に送信することを防止することができる。

＜実施形態２＞
実施形態１では、サーバ２０において、掃除ロボット１０から受信した音データから音声データを検出する構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、掃除ロボットにおいて音声データを検出した後、検出した音声データをサーバに送信する構成を採用することもできる。

本発明の他の実施形態について、図８及び図９を参照して説明する。なお、説明の便宜上、実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

〔発話システムの構成〕
図８は、本実施形態に係る発話システム２の要部構成を示すブロック図である。図８に示すように、本実施形態に係る発話システム２は、掃除ロボット１１、及び、サーバ２１を備えている。

図８に示すように、本実施形態に係る掃除ロボット１１及びサーバ２１は、サーバ２１の制御部２０２ａの代わりに、掃除ロボット１１の制御部１０２ａが音声検出部（音声データ抽出手段）１２１を備えていること以外は、実施形態１に係る掃除ロボット１０及びサーバ２０と同様の構成である。

（掃除ロボット、及び、サーバの構成）
掃除ロボット１１の制御部１０２ａの備える音声検出部１２１は、マイク１０３を介して取得した音を示す音データから音声データを検出する。換言すれば、音声検出部１２１は、人間の発する音声の周波数帯域のみを含む音データ（音声データ）を受信する受信手段として機能する。制御部１０２ａは、音声検出部１２１によって検出された音声データを、通信部１０１を介してサーバ２１に逐次送信する。

サーバ２１の備える制御部２０２ａは、通信部２０１を介して掃除ロボット１１から音声データを取得すると、音量判定部２２２〜返答制御部２２５において音声データから返答内容を決定する。制御部２０２ａは、決定した返答内容を示す返答内容データを、通信部２０１を介して掃除ロボット１１に送信する。

そして、掃除ロボット１１は、サーバ２１から受信した返答内容データに従って発話する。

〔返答音声出力処理〕
次に、本実施形態に係る発話システム２における返答音声出力処理について、図９を参照して説明する。図９は、本実施形態に係る発話システム２における返答音声出力処理の流れを示すシーケンス図である。

ステップＳ２０１：図９に示すように、まず、発話システム２の掃除ロボット１１の備えるマイク１０３は、外部からの音の入力を受け付ける。

ステップＳ２０２：マイク１０３において音の入力を受け付けると、制御部１０２ａの備える音声検出部１２１は、入力された音を示す音データから、音声データを検出（抽出）する。

ステップＳ２０３：音声検出部１２１によって音声データが検出されると、制御部１０２ａは、検出され音声データを、通信部１０１を介してサーバ２１に送信する。音声データを受信すると、サーバ２１の備える制御部２０２ａは、受信した音声データを音量判定部２２２及び音声認識部２２３に供給する。

なお、図９に示すステップＳ２０４〜Ｓ２０９の処理は、図３に示すステップＳ１０４〜Ｓ１０９と同様であるため、ここではその説明は省略する。

上述のように発話システム２において返答音声出力処理が実行されることによって、掃除ロボット１１は、人間の発した音声に対して返答するように発話することができる。

＜実施形態３＞
実施形態１では、サーバ２０において、音声データの示す音声の音量を判定する構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、掃除ロボットにおいて音声の音量を判定した後、音声の音量の判定結果を音声データと共にサーバに送信する構成を採用することもできる。

本発明の他の実施形態について、図１０及び図１１を参照して説明する。なお、説明の便宜上、実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

〔発話システムの構成〕
図１０は、本実施形態に係る発話システム３の要部構成を示すブロック図である。図１０に示すように、本実施形態に係る発話システム３は、掃除ロボット１２、及び、サーバ２２を備えている。

図１０に示すように、本実施形態に係る掃除ロボット１２及びサーバ２２は、サーバ２２の制御部２０２ｂの代わりに、掃除ロボット１２の制御部１０２ｂが音声検出部１２１及び音量判定部１２２を備えていること以外は、実施形態１に係る掃除ロボット１０及びサーバ２０と同様の構成である。

（掃除ロボット、及び、サーバの構成）
掃除ロボット１２の制御部１０２ｂの備える音声検出部１２１は、マイク１０３を介して取得した音を示す音データから音声データを検出する。換言すれば、音声検出部１２１は、人間の発する音声の周波数帯域のみを含む音データ（音声データ）を受信する受信手段として機能する。音声検出部１２１は、検出した音声データを、音量判定部１２２に供給する。

音量判定部１２２は、音声検出部１２１によって検出された音声データの示す音声の音量を判定する。なお、音量判定部１２２における音量の判定方法は、実施形態１に係るサーバ２０の備える音量判定部２２２と同様であるため、ここではその詳細な説明は省略する。音量判定部１２２は、音声の音量の判定結果を、音声検出部１２１によって検出された音声データと共に、通信部１０１を介してサーバ２２に逐次送信する。

サーバ２２の備える制御部２０２ｂは、通信部２０１を介して掃除ロボット１２から音声データ及び音声の音量の判定結果を取得すると、音声認識部２２３〜返答制御部２２５において音声データから返答内容を決定する。制御部２０２ｂは、決定した返答内容を示す返答内容データを、通信部２０１を介して掃除ロボット１２に送信する。

そして、掃除ロボット１２は、サーバ２２から受信した返答内容データに従って発話する。

〔返答音声出力処理〕
次に、本実施形態に係る発話システム３における返答音声出力処理について、図１１を参照して説明する。図１１は、本実施形態に係る発話システム３における返答音声出力処理の流れを示すシーケンス図である。

ステップＳ３０１：図１１に示すように、まず、発話システム３の掃除ロボット１２の備えるマイク１０３は、外部からの音の入力を受け付ける。

ステップＳ３０２：マイク１０３において音の入力を受け付けると、制御部１０２ｂの備える音声検出部１２１は、入力された音を示す音データから、音声データを検出（抽出）する。音声データを検出すると、音声検出部１２１は、検出した音声データを、音量判定部１２２に供給する。

ステップＳ３０３：音声検出部１２１から音声データを取得すると、音量判定部１２２は、音声データの示す音声の音量を判定する。

ステップＳ３０４：制御部１０２ｂは、音声の音量の判定結果を、音声データと共に、通信部１０１を介してサーバ２１に送信する。音声の音量の判定結果及び音声データを受信すると、サーバ２１の備える制御部２０２ａは、受信した音声データを音声認識部２２３に供給すると共に、音声の音量の判定結果を、返答制御部２２５に供給する。

なお、図１１に示すステップＳ３０５〜Ｓ３０９の処理は、図３に示すステップＳ１０５〜Ｓ１０９の処理と同様であるため、ここではその説明は省略する。

上述のように発話システム３において返答音声出力処理が実行されることによって、掃除ロボット１２は、人間の発した音声に対して返答するように発話することができる。

＜実施形態４＞
実施形態１では、サーバ２０において、音声データから認識した音声内容の認識確度を判定する構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、掃除ロボットにおいて音声の音量を判定した後、音声内容の認識確度の判定結果を音声データと共にサーバに送信する構成を採用することもできる。

本発明の他の実施形態について、図１２及び図１３を参照して説明する。なお、説明の便宜上、実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

〔発話システムの構成〕
図１２は、本実施形態に係る発話システム４の要部構成を示すブロック図である。図１２に示すように、本実施形態に係る発話システム４は、掃除ロボット１３、及び、サーバ２３を備えている。

図１２に示すように、本実施形態に係る掃除ロボット１３及びサーバ２３は、サーバ２３の制御部２０２ｃの代わりに、掃除ロボット１３の制御部１０２ｃが音声検出部１２１、音量判定部１２２、音声認識部（音声認識手段）１２３、及び、確度判定部１２４を備えていること以外は、実施形態１に係る掃除ロボット１０及びサーバ２０と同様の構成である。

（掃除ロボット、及び、サーバの構成）
掃除ロボット１３の制御部１０２ｃの備える音声検出部１２１は、マイク１０３を介して取得した音を示す音データから音声データを検出する。換言すれば、音声検出部１２１は、人間の発する音声の周波数帯域のみを含む音データ（音声データ）を受信する受信手段として機能する。音声検出部１２１は、検出した音声データを、音量判定部１２２及び音声認識部１２３に供給する。

音量判定部１２２は、音声検出部１２１によって検出された音声データの示す音声の音量を判定する。なお、音量判定部１２２における音量の判定方法は、実施形態１に係るサーバ２０の備える音量判定部２２２と同様であるため、ここではその詳細な説明は省略する。

音声認識部１２３は、音声検出部１２１によって検出された音声データの示す音声の内容（音声内容）を認識内容として認識する。そして、音声認識部１２３は、音声データから認識した音声内容の認識結果を、確度判定部１２４に供給する。

（確度判定部）
確度判定部１２４は、音声認識部１２３から供給された音声内容の認識結果の確からしさ（換言すれば、音声内容を認識する認識処理の確からしさ）を示す認識確度を判定する。つまり、確度判定部１２４は、音声認識部１２３と共に、認識確度判定手段として機能する。なお、確度判定部１２４における認識確度の判定方法は、実施形態１に係るサーバ２０の備える確度判定部２２４と同様であるため、ここではその詳細な説明は省略する。

制御部１０２ｃは、音声の音量の判定結果、音声内容の認識結果、及び、認識確度の判定結果を、音声データと共に、通信部１０１を介してサーバ２３に逐次送信する。

サーバ２３の備える制御部２０２ｃは、通信部２０１を介して掃除ロボット１３から音声データ、音声の音量の判定結果、音声内容の認識結果、及び、認識確度の判定結果を取得すると、返答制御部２２５において返答内容を決定する。制御部２０２ｃは、決定した返答内容を示す返答内容データを、通信部２０１を介して掃除ロボット１３に送信する。

そして、掃除ロボット１３は、サーバ２３から受信した返答内容データに従って発話する。

〔返答音声出力処理〕
次に、本実施形態に係る発話システム４における返答音声出力処理について、図１３を参照して説明する。図１３は、本実施形態に係る発話システム４における返答音声出力処理の流れを示すシーケンス図である。

ステップＳ４０１：図１３に示すように、まず、発話システム４の掃除ロボット１３の備えるマイク１０３は、外部からの音の入力を受け付ける。

ステップＳ４０２：マイク１０３において音の入力を受け付けると、制御部１０２ｃの備える音声検出部１２１は、入力された音を示す音データから、音声データを検出（抽出）する。音声データを検出すると、音声検出部１２１は、検出した音声データを音量判定部１２２及び音声認識部１２３に供給する。

ステップＳ４０３：音声データを取得すると、音量判定部１２２は、音声データの示す音声の音量を判定する。

ステップＳ４０４：音声データを取得すると、音声認識部１２３は、取得した音声データの示す音声内容を認識する。音声認識部１２３は、音声内容の認識結果を確度判定部１２４に供給する。

ステップＳ４０５：音声内容の認識結果を取得すると、確度判定部１２４は、取得した音声内容の認識結果の確度を判定する。

ステップＳ４０６：制御部１０２ｃは、音声の音量の判定結果、音声内容の認識結果、及び、認識確度の判定結果を、音声データと共に、通信部１０１を介してサーバ２３に逐次送信する。

なお、図１３に示すステップＳ４０７〜Ｓ４０９の処理は、図３に示すステップＳ１０７〜Ｓ１０９の処理と同様であるため、ここではその説明は省略する。

上述のように発話システム４において返答音声出力処理が実行されることによって、掃除ロボット１３は、人間の発した音声に対して返答するように発話することができる。

＜実施形態５＞
上述した実施形態では、掃除ロボットとサーバとを備える発話システムについて説明したが、本発明はこれに限定されるものではない。例えば、本発明は、サーバを含まない発話システムを採用することもできる。

〔発話システムの構成〕
図１４は、本実施形態に係る発話システム５の要部構成を示すブロック図である。図１４に示すように、本実施形態に係る発話システム５は、掃除ロボット１４を備えている。

図１４に示すように、本実施形態に係る掃除ロボット１４は、上述した掃除ロボット１３の構成に加えて、上述した実施形態においてサーバが備えていた記憶部２０３を、記憶部１０７として備えている。また、掃除ロボット１４は、上述の掃除ロボット１３の制御部１０２ｃに含まれる部材に加えて、返答制御部１２５も備える。

（返答制御部）
返答制御部１２５は、音量判定部１２２から供給される音声の音量の判定結果と、確度判定部１２４から供給される認識確度の判定結果とに基づいて、返答内容を決定する。なお、返答制御部１２５における返答内容を決定する方法は、実施形態１に係るサーバ２０の備える返答制御部２２５と同様であるため、ここではその詳細な説明は省略する。

〔返答音声出力処理〕
次に、本実施形態に係る発話システム５における返答音声出力処理について、説明する。なお、ステップＳ４０１〜Ｓ４０５の処理については、図１３を用いて説明した処理と同じ処理であるため、詳細な説明は省略する。

ステップＳ４０５の処理の後、返答制御部１２５は、音量判定部１２２から取得した音声の音量の判定結果、及び、確度判定部１２４から取得した確度の判定結果に基づき、返答方針及び返答内容を決定する。返答制御部１２５は、決定した返答内容を示す返答音声を、スピーカ１０４を介して出力する。

上述のように発話システム５では、サーバを備えない構成であっても、掃除ロボット１４が人間の発した音声に対して返答するように発話することができる。

＜実施形態６＞
掃除ロボット１０〜１４及びサーバ２０〜２３の制御ブロック（特に制御部１０２、１０２ａ〜ｄ及び制御部２０２、２０２ａ〜ｃ）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、掃除ロボット１０〜１４及びサーバ２０〜２３は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係るサーバ（サーバ２０〜２３）は、判定対象の音データの音量が、第１の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替手段（返答制御部２２５）を備える。

上記の構成によれば、判定対象の音データの音量が、第１の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、認識できなかった場合とで、ユーザに対する回答方針を切り替える。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。また、上記サーバは、音データが示す内容を認識できたか否かを、ユーザに対して認識させることができる。

本発明の態様２に係るサーバは、上記態様１において、上記音データが示す内容を認識できなかった場合、上記回答方針切替手段は、上記音データが示す内容に対する回答内容が１対１または１対多に定まらないフレーズを含むデータベースを参照してもよい。

上記の構成によれば、上記サーバは、音データが示す内容を認識できなかった場合、上記音データが示す内容に対する回答内容が１対１または１対多に定まらないフレーズ、換言すると、曖昧に返答する曖昧なフレーズを含むデータベースを参照する。したがって、上記サーバは、音データが示す内容を認識できなかった場合、認識できなかったことをユーザに対して認識させることができる。

本発明の態様３に係るサーバは、上記態様１または２において、上記回答方針切替手段は、上記音データが示す内容を認識内容として認識する認識処理の確からしさを示す認識確度に応じて、ユーザに対する回答内容を決定するために参照するデータベースを変更してもよい。

上記の構成によれば、上記サーバは、音データが示す内容を認識内容として認識する認識処理の確からしさを示す認識確度に応じて、ユーザに対する回答内容を決定するために参照するデータベースを変更する。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。また、上記サーバは、音データが示す内容を認識できたか否かを、ユーザに対して認識させることができる。

本発明の態様４に係るサーバは、上記態様３において、上記回答方針切替手段は、上記認識確度が第１の所定の認識確度範囲内に含まれる場合、上記音データが示す内容を認識できた場合の処理を行うものであり、上記認識できた場合の処理として、上記回答方針切替手段は、上記認識内容に対する回答内容が１対１または１対多に定まるフレーズであって、上記認識内容に関連したフレーズを含むデータベース、または、上記認識内容に対する回答内容が１対１または１対多に定まらないフレーズを含むデータベース、の何れかを参照してもよい。

上記の構成によれば、上記サーバは、音データが示す内容を認識できた場合、通常フレーズを含むデータベースまたは曖昧フレーズを含むデータベースを参照する。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。また、上記サーバは、音データが示す内容を認識できたことを、ユーザに対して認識させることができる。

本発明の態様５に係るサーバは、上記態様３において、上記回答方針切替手段は、上記認識確度が第１の所定の認識確度範囲内であって、当該第１の所定の認識確度範囲において相対的に認識確度が高い範囲を示す第２の所定の認識確度範囲内に含まれる場合、上記音データが示す内容を認識できた場合の処理を行うものであり、上記認識できた場合の処理として、上記回答方針切替手段は、上記認識内容に対する回答内容が１対１または１対多に定まるフレーズであって、上記認識内容に関連したフレーズを含むデータベース、を参照してもよい。

上記の構成によれば、上記サーバは、音データが示す内容を認識できた場合、通常フレーズを含むデータベースを参照する。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。また、上記サーバは、ユーザとより適切な会話コミュニケーションをすることができる。

本発明の態様６に係るサーバは、上記態様２から５の何れかにおいて、上記回答方針切替手段は、参照するデータベースから上記ユーザに対する回答を示す回答データをランダムに選択してもよい。

上記の構成によれば、上記サーバは、各データベースからランダムに回答データを選択するので、ユーザとより適切な会話コミュニケーションをすることができる。

本発明の態様７に係るサーバは、上記態様１から６の何れかにおいて、上記回答方針切替手段は、上記音データの音量が、第１の所定の音量範囲よりも音量が低い第２の所定の音量範囲に含まれる場合、上記ユーザへの回答方針として、ユーザに回答しない、及び、ユーザへ会話を促す回答を行う、の何れを選択してもよい。

上記の構成によれば、上記サーバは、音データの音量が低い場合、ユーザに回答しない、及び、ユーザへ会話を促す回答を行う、の何れを選択する。したがって、上記サーバは、ユーザとより適切な会話コミュニケーションをすることができる。

本発明の態様８に係る発話制御方法は、判定対象の音データの音量が、第１の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替工程を含む。

上記の構成によれば、上記発話制御方法は、上記態様１に係るサーバと同じ効果を奏する。

本発明の態様９に係る発話装置（掃除ロボット１４）は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段（音声検出部１２１）と、上記音声データ抽出手段が抽出した音声データの音量を判定する音量判定手段（音量判定部１２２）と、上記音量判定手段が判定した音量が所定の範囲内に含まれる場合、上記音声データ抽出手段が抽出した音声データの示す音声の内容を認識内容として認識する音声認識手段（音声認識部１２３）と、上記音声認識手段が上記音声データが示す内容を認識できた場合と、上記音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段（返答制御部１２５）と、上記回答方針切替手段が決定した回答内容の示す音声を出力する回答出力部（スピーカ１０４）と、を備える。

上記の構成によれば、上記発話装置は、上記態様１に係るサーバと同じ効果を奏する。

本発明の態様１０に係る発話システム（２〜４）は、発話装置（掃除ロボット１１〜１３）と、サーバ（２０〜４０）とを備えている発話システムであって、上記発話装置は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段（音声検出部１２１）と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部（通信部１０１）と、上記音声データに対する回答データを受信する回答データ受信部（通信部１０１）と、上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部（スピーカ１０４）と、を備えており、上記サーバは、上記発話装置から、上記音声データを受信する音声データ受信部（通信部２０１）と、上記音声データ受信部が受信した音声データの音量を判定する音量判定手段（音量判定部２２２）と、上記音量判定手段によって判定された上記音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段（返答制御部２２５）と、上記回答方針切替手段が決定した回答内容を示す回答データを送信する回答送信手段（返答制御部２２５）と、を備える。

上記の構成によれば、上記発話システムは、上記態様１に係るサーバと同じ効果を奏する。

本発明の態様１１に係る発話装置（２〜４）は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段（音声検出部１２１）と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部（通信部１０１）と、上記音声データに対する回答データを受信する回答データ受信部（通信部１０１）と、上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部（スピーカ１０４）と、を備えており、上記回答データは、上記音声データ送信部が送信した音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、決定された回答内容を示す回答データである。

上記の構成によれば、上記態様１０に係る発話システムが備える発話装置を実現することができる。

本発明の態様１２に係るサーバ（サーバ２０〜２３）は、判定対象の音データの音量が、第１の音量閾値（閾値ｂ）以上、第２の音量閾値（閾値ａ）以下である音量範囲内に含まれる場合、上記音データの示す内容に対する回答データを送信する回答送信手段（返答制御部２２５）を備えている。

上記の構成によれば、判定対象の音データの音量が、第１の音量閾値以上、第２の音量閾値以下である音量範囲内に含まれている場合に、回答送信手段は、音データの示す内容に対する回答を送信する。言い換えれば、音データの音量が上記音量範囲を上回る場合、および、下回る場合のいずれも回答送信手段は回答データを送信しない。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。

本発明の態様１３に係るサーバ（サーバ２１〜２３）は、上記態様１２において、上記判定対象の音データとして、人間の発する音声の周波数帯域のみを含む音データ（音声データ）を受信する受信手段（通信部２０１）を更に含んでもよい。

本発明の態様１４に係るサーバ（サーバ２０）は、上記態様１２において、外部から受信した音データから、人間の発する音声の周波数帯域を抽出することによって、上記判定対象の音データ（音声データ）を生成する抽出手段（音声検出部２２１）を更に備えていてもよい。

本発明の態様１５に係るサーバは、上記態様１２から１４において、上記判定対象の音データの音量を判定する音量判定手段をさらに備え、上記音量判定手段によって判定された上記音データの音量が、第１の音量閾値より小さい場合、上記回答送信手段は、会話を促す内容を示す回答データを、所定の確率で送信してもよい。

本発明の態様１６に係るサーバは、上記態様１２から１５において、上記判定対象の音データの音量を判定する音量判定手段と、上記判定対象の音データが示す内容を認識内容として認識し、当該認識処理の確からしさを示す認識確度を判定する認識確度判定手段（音声認識部２２３、確度判定部２２４）と、をさらに備え、上記音量判定手段によって判定された上記音データの音量が、上記音量範囲内に含まれており、かつ、上記認識確度が、第１の確度閾値（閾値ｃ）以上である場合、上記回答送信手段は、上記認識内容に対応付けられている１または複数の回答データを送信してもよい。

本発明の態様１７に係るサーバは、上記態様１６において、上記音量判定手段によって判定された上記音データの音量が、上記音量範囲内に含まれており、かつ、上記認識確度が、上記第１の確度閾値より小さく、第２の確度閾値（閾値ｄ）以上である確度範囲内に含まれる場合、上記回答送信手段は、上記認識確度が、第１の確度閾値以上である場合に参照するデータベース（通常返答データベース２３１）とは異なるカテゴリーの回答データを含むデータベース（曖昧返答データベース２３２）から回答データを選択して送信してもよい。

本発明の態様１８に係るサーバの上記回答送信手段は、上記態様１７において、上記異なるカテゴリーの回答データを含むデータベースから回答データをランダムに選択してもよい。

本発明の態様１９に係るサーバは、上記態様１７から１８において、上記音量判定手段によって判定された上記音データの音量が、上記音量範囲内に含まれており、かつ、上記認識確度が上記第２の確度閾値より小さい場合、上記回答送信手段は、上記音データの示す内容に対する回答データを送信しなくてもよい。

本発明の態様２０に係る発話制御方法は、サーバによる発話制御方法であって、判定対象の音データの音量が、第１の音量閾値以上、第２の音量閾値以下である音量範囲内に含まれる場合、上記音データの示す内容に対する回答データを送信する回答送信工程を含んでいる。

上記の構成によれば、判定対象の音データの音量が、第１の音量閾値以上、第２の音量閾値以下である音量範囲内に含まれている場合に、回答送信工程において、音データの示す内容に対する回答を送信する。言い換えれば、音データの音量が上記音量範囲を上回る場合、および、下回る場合のいずれも、回答送信工程において回答データが送信されない。したがって、上記発話制御方法は、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。

本発明の態様２１に係る発話装置（掃除ロボット１１〜１３）は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段（音声検出部１２１）と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部（通信部１０１）と、上記音声データに対する回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部（スピーカ１０４）と、を備えており、上記回答データは、上記音声データの音量が、第１の音量閾値より大きく、当該第１の音量閾値より大きな第２の音量閾値より小さい場合に選択された回答データである。

上記の構成によれば、判定対象の音データの音量が、第１の音量閾値以上、第２の音量閾値以下である音量範囲内に含まれている場合に、回答出力部は、音データの示す内容に対する回答を出力する。言い換えれば、音データの音量が上記音量範囲を上回る場合、および、下回る場合のいずれも回答出力部は回答データの示す音声を出力しない。したがって、上記発話装置は、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。

本発明の態様２２に係る発話システム（２〜４）は、発話装置（掃除ロボット１１〜１３）と、サーバ（サーバ２１〜２３）とを備えている発話システムであって、上記発話装置は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段（音声検出部１２１）と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部（通信部１０１）と、上記音声データに対する回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部（スピーカ１０４）と、を備えており、上記サーバは、判定対象の音声データの音量を判定する音量判定手段（音量判定部２２２）と、上記音量判定手段によって判定された上記音声データの音量が、第１の音量閾値以上、第２の音量閾値以下である音量範囲内に含まれる場合、上記音声データの示す内容に対する回答データを送信する回答送信手段（返答制御部２２５）と、を備えている。

上記の構成によれば、判定対象の音データの音量が、第１の音量閾値以上、第２の音量閾値以下である音量範囲内に含まれている場合に、回答送信手段は、音データの示す内容に対する回答を送信する。言い換えれば、音データの音量が上記音量範囲を上回る場合、および、下回る場合のいずれも回答送信手段は回答データを送信しない。したがって、上記発話システムは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。

本発明の各態様に係るサーバ（２０〜２３）および発話装置（掃除ロボット１０〜１４）は、コンピュータによって実現してもよく、この場合には、コンピュータを上記サーバが備える各手段として動作させることにより上記サーバをコンピュータにて実現させるサーバのプログラムも、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、掃除ロボット、冷蔵庫、電子レンジ、パーソナルコンピュータ、及び、テレビジョン受像機などの音声の入出力機能を備えた家電、及び、これらの家電を制御するサーバに好適に利用することができる。

１〜５発話システム
１０〜１４掃除ロボット（発話装置）
２０〜２３サーバ
１０１通信部（音声データ送信部、回答データ受信部）
１０２、１０２ａ〜ｄ制御部
１０３マイク
１０４スピーカ（回答出力部）
１０５掃除部
１０６駆動部
１２１音声検出部（音声データ抽出手段）
１２２音量判定部（音量判定手段）
１２３音声認識部（音声認識手段）
１２４確度判定部
１２５返答制御部（回答方針切替手段）
２０１通信部（音声データ受信部）
２０２、２０２ａ〜ｃ制御部
２０３記憶部
２２１音声検出部（抽出部）
２２２音量判定部（音量判定手段）
２２３音声認識部（認識確度判定手段）
２２４確度判定部（認識確度判定手段）
２２５返答制御部（回答送信手段、回答方針切替手段）
２３１通常返答データベース
２３２曖昧返答データベース
２３３促し返答データベース

Claims

判定対象の音データの音量が、第１の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替手段を備え、
上記回答方針切替手段は、
上記音データの音量が、第１の所定の音量範囲よりも音量が低い第２の所定の音量範囲に含まれる場合、上記ユーザへの回答方針として、返答しないか、又はユーザへ会話を促す回答を行うかを所定の確率で決定する、
ことを特徴とするサーバ。
上記音データが示す内容を認識内容として認識できなかった場合、上記回答方針切替手段は、
認識内容に関連付けられていないフレーズを含むデータベースを参照する、ことを特徴とする請求項１に記載のサーバ。
上記回答方針切替手段は、
上記音データが示す内容を認識内容として認識する認識処理の確からしさを示す認識確度に応じて、ユーザに対する回答内容を決定するために参照するデータベースを変更する、ことを特徴とする請求項１または２に記載のサーバ。
上記回答方針切替手段は、上記認識確度が第１の所定の認識確度範囲内に含まれる場合、上記音データが示す内容を認識できた場合の処理を行うものであり、
上記認識できた場合の処理として、上記回答方針切替手段は、
上記認識内容に対する回答内容が１対１または１対多に定まるフレーズであって、上記認識内容に関連したフレーズを含むデータベース、または、
上記認識内容に関連付けられていないフレーズを含むデータベース、
の何れかを参照する、ことを特徴とする請求項３に記載のサーバ。
上記回答方針切替手段は、上記認識確度が第１の所定の認識確度範囲内であって、当該第１の所定の認識確度範囲において相対的に認識確度が高い範囲を示す第２の所定の認識確度範囲内に含まれる場合、上記音データが示す内容を認識できた場合の処理を行うものであり、
上記認識できた場合の処理として、上記回答方針切替手段は、
上記認識内容に対する回答内容が１対１または１対多に定まるフレーズであって、上記認識内容に関連したフレーズを含むデータベース、
を参照する、ことを特徴とする請求項３に記載のサーバ。
上記回答方針切替手段は、参照するデータベースから上記ユーザに対する回答を示す回答データをランダムに選択する、ことを特徴とする請求項２から５の何れか１項に記載のサーバ。
判定対象の音データの音量が、第１の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替工程を含み、
上記回答方針切替工程では、
上記音データの音量が、第１の所定の音量範囲よりも音量が低い第２の所定の音量範囲に含まれる場合、上記ユーザへの回答方針として、返答しないか、又はユーザへ会話を促す回答を行うかを所定の確率で決定する、
ことを特徴とする発話制御方法。
取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段と、
上記音声データ抽出手段が抽出した音声データの音量を判定する音量判定手段と、
上記音量判定手段が判定した音量が所定の範囲内に含まれる場合、上記音声データ抽出手段が抽出した音声データの示す音声の内容を認識内容として認識する音声認識手段と、
上記音声認識手段が上記音声データが示す内容を認識できた場合と、上記音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段と、
上記回答方針切替手段が決定した回答内容の示す音声を出力する回答出力部と、を備え、
上記回答方針切替手段は、
上記音声データの音量が、第１の所定の音量範囲よりも音量が低い第２の所定の音量範囲に含まれる場合、上記ユーザへの回答方針として、返答しないか、又はユーザへ会話を促す回答を行うかを所定の確率で決定する、
ことを特徴とする発話装置。
請求項８に記載の発話装置としてコンピュータを機能させるためのプログラムであって、コンピュータを上記各手段として機能させるためのプログラム。
発話装置と、サーバとを備えている発話システムであって、
上記発話装置は、
取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段と、
上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部と、
上記音声データに対する回答データを受信する回答データ受信部と、
上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部と、を備えており、
上記サーバは、
上記発話装置から、上記音声データを受信する音声データ受信部と、
上記音声データ受信部が受信した音声データの音量を判定する音量判定手段と、
上記音量判定手段によって判定された上記音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段と、
上記回答方針切替手段が決定した回答内容を示す回答データを送信する回答送信手段と、を備え、
上記回答方針切替手段は、
上記音声データの音量が、第１の所定の音量範囲よりも音量が低い第２の所定の音量範囲に含まれる場合、上記ユーザへの回答方針として、返答しないか、又はユーザへ会話を促す回答を行うかを所定の確率で決定する、
ことを特徴とする発話システム。