JP2015111253A - サーバ、発話制御方法、発話装置、発話システムおよびプログラム - Google Patents

サーバ、発話制御方法、発話装置、発話システムおよびプログラム Download PDF

Info

Publication number
JP2015111253A
JP2015111253A JP2014212602A JP2014212602A JP2015111253A JP 2015111253 A JP2015111253 A JP 2015111253A JP 2014212602 A JP2014212602 A JP 2014212602A JP 2014212602 A JP2014212602 A JP 2014212602A JP 2015111253 A JP2015111253 A JP 2015111253A
Authority
JP
Japan
Prior art keywords
data
answer
voice
content
volume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014212602A
Other languages
English (en)
Other versions
JP5996603B2 (ja
Inventor
靖典 山下
Yasunori Yamashita
靖典 山下
平田 真章
Masaaki Hirata
真章 平田
木付 英士
Eiji Kitsuke
英士 木付
新開 誠
Makoto Shinkai
誠 新開
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2014212602A priority Critical patent/JP5996603B2/ja
Priority to US14/527,117 priority patent/US20150120304A1/en
Priority to CN201410598535.3A priority patent/CN104601538A/zh
Publication of JP2015111253A publication Critical patent/JP2015111253A/ja
Application granted granted Critical
Publication of JP5996603B2 publication Critical patent/JP5996603B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】より適切な会話コミュニケーションとなるサーバを実現する。
【解決手段】判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える返答制御部(225)を備えることを特徴とするサーバ。
【選択図】図1

Description

本発明は、擬似的なコミュニケーションを提供するサーバ、発話制御方法、発話装置、発話システムおよびプログラムに関する。
ユーザにより入力された言葉に対応する返答を出力することにより、ユーザとの模擬会話を実行する模擬会話システムが知られている。特許文献1には、このような模擬会話システムであって、ユーザにより入力された言葉に対する評価の累積値が含まれる模擬会話における会話履歴を更新記憶し、上記会話履歴に含まれる評価の累積値が会話変更条件を満たす場合には、実行中の模擬会話における話題と異なる話題の返答を出力する技術が記載されている。また、上記模擬会話システムは、上記ユーザによって入力された言葉を認識できない場合、または、上記ユーザによって入力された言葉に対応する返答が存在しない場合には、上記会話履歴に応じた履歴を出力して模擬会話を継続させる。
特開2002−169804号公報(2002年6月14日公開)
一方、上記模擬会話システムとは別に、ネットワークに接続可能な家電機器を含むシステムであって、当該家電機器のユーザとの間において擬似的なコミュニケーションを実現する発話システムが、盛んに研究されている。このような発話システムは、通常、発話システム全体の動作を制御するサーバと、音声データの入出力を行う発話装置(家電機器)とを備えている。発話装置はユーザからの問い掛け(音声入力)をサーバへ送信し、サーバは音声データを音声認識し対応する回答データを返信、発話装置が回答データを音声出力することによってユーザへ伝える。
このような発話システムにおいて、発話装置は、ユーザが発話装置に対して音声入力する音だけでなく、日常会話、ペットの鳴き声、テレビから出力される音声など、発話装置の近傍において生じるさまざまな音を音データとして取得する可能性がある。このときサーバが誤って音声認識を行い、ユーザから音声を入力されていない(問い掛けを受けていない)にも関わらず、期待しない回答データを出力してしまう課題がある。
本発明は上記課題を鑑みてなされたものであり、その目的は、適切な音声コミュニケーションとなるサーバを実現することである。
上記の課題を解決するために、本発明の一態様に係るサーバは、判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替手段を備える。
上記の課題を解決するために、本発明の一態様に係る発話制御方法は、判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替工程を含む。
上記の課題を解決するために、本発明の一態様に係る発話装置は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段と、上記音声データ抽出手段が抽出した音声データの音量を判定する音量判定手段と、上記音量判定手段が判定した音量が所定の範囲内に含まれる場合、上記音声データ抽出手段が抽出した音声データの示す音声の内容を認識内容として認識する音声認識手段と、上記音声認識手段が上記音声データが示す内容を認識できた場合と、上記音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段と、上記回答方針切替手段が決定した回答内容の示す音声を出力する回答出力部と、を備える。
上記の課題を解決するために、本発明の一態様に係る発話システムは、発話装置と、サーバとを備えている発話システムであって、上記発話装置は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部と、上記音声データに対する回答データを受信する回答データ受信部と、上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部と、を備えており、上記サーバは、上記発話装置から、上記音声データを受信する音声データ受信部と、上記音声データ受信部が受信した音声データの音量を判定する音量判定手段と、上記音量判定手段によって判定された上記音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段と、上記回答方針切替手段が決定した回答内容を示す回答データを送信する回答送信手段と、を備える。
上記の課題を解決するために、本発明の一態様に係る発話装置は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部と、上記音声データに対する回答データを受信する回答データ受信部と、上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部と、を備えており、上記回答データは、上記音声データ送信部が送信した音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、決定された回答内容を示す回答データである。
本発明の一態様によれば、不適切なタイミングによる返答を防止し、より適切な会話コミュニケーションを実現することができる。
本発明の実施形態1に係る発話システムの要部構成を示すブロック図である。 本発明の実施形態1に係る発話システムの概要を示す外観図である。 本発明の実施形態1に係る発話システムにおける返答音声出力処理の流れを示すシーケンス図である。 本発明の実施形態1に係るサーバの記憶部に格納されている返答方針テーブルの一例を示す。 本発明の実施形態1に係るサーバの記憶部に格納されている通常返答データベースの一例を示す図である。 本発明の実施形態1に係るサーバの記憶部に格納されている曖昧返答データベースの一例を示す図である。 本発明の実施形態1に係るサーバの記憶部に格納されている促し返答データベースの一例を示す図である。 本発明の実施形態2に係る発話システムの要部構成を示すブロック図である。 本発明の実施形態2に係る発話システムにおける返答音声出力処理の流れを示すシーケンス図である。 本発明の実施形態3に係る発話システムの要部構成を示すブロック図である。 本発明の実施形態3に係る発話システムにおける返答音声出力処理の流れを示すシーケンス図である。 本発明の実施形態4に係る発話システムの要部構成を示すブロック図である。 本発明の実施形態4に係る発話システムにおける返答音声出力処理の流れを示すシーケンス図である。 本発明の実施形態5に係る発話システムの要部構成を示すブロック図である。
<実施形態1>
本実施形態に係る発話システム1について、図1から図7を参照して以下に説明する。但し、この実施形態に記載されている構成は、特に特定的な記載がない限り、この発明の範囲をそれのみに限定する趣旨ではなく、単なる説明例に過ぎない。
〔発話システムの概要〕
まず、本実施形態に発話システム1の概要について、図2を参照して説明する。図2は、本実施形態に係る発話システム1の概要を示す外観図である。
図2に示すように、本実施形態に係る発話システム1は、掃除ロボット(発話装置)10、及び、サーバ20により構成されている。
発話システム1は、掃除ロボット10に人間(ユーザ)が発した音声が入力されると、サーバ20において決定される、入力された音声に対する返答内容を表す音声(以降では、「返答音声」とも記載)を、掃除ロボット10から出力する。これによって、本実施形態に係る発話システム1は、ユーザと、掃除ロボット10との疑似的な会話を実現する。
なお、本実施形態では、ユーザに対して返答音声を出力する音声出力装置として掃除ロボット10を例に挙げて説明するが、本発明はこれに限定されるものではない。例えば、音声出力機能を有する人形や、掃除ロボット10以外の家電(例えば、テレビ、電子レンジなど)などを、音声出力装置として採用することもできる。
また、本実施形態では、サーバ20が1つのサーバによって実現される構成を例に挙げて説明するが、本発明はこれに限定されるものではなく、サーバ20の備える各部(各機能)の少なくとも一部を、他のサーバにより実現する構成を採用してもよい。
次に、本実施形態に係る発話システム1の要部構成について、図1を参照して説明する。図1は、本実施形態に係る発話システム1の要部構成を示すブロック図である。
〔掃除ロボット〕
本実施形態に係る掃除ロボット10の構成について、図1を参照して説明する。図1に示すように、本実施形態に係る掃除ロボット10は、通信部(音声データ送信部、回答データ受信部)101、制御部102、マイク103、スピーカ(回答出力部)104、掃除部105、及び、駆動部106を備えている。
(通信部)
通信部101は、外部との通信を行う手段である。具体的には、通信部101は、サーバ20と、例えばインターネットなどのネットワークを介して無線通信を行う。
(マイク)
マイク103は、外部から音の入力を受け付ける。なお、本実施形態では、マイク103が入力を受け付ける音を示す「音データ」には、主に人間の発する音声の周波数帯域に含まれる音のデータ(以降では、「音声データ」とも記載する)、及び、音声データの周波数帯域以外の周波数帯域を含む音のデータ(以降では、「その他の音データ」とも記載する)とが含まれる。
マイク103は、入力された音を示す音データを、制御部102に逐次供給する。
(スピーカ)
スピーカ104は、制御部102から供給される返答内容データの示す返答内容を表す返答音声を出力する。以降では、掃除ロボット10がスピーカ104を介して行う返答音声の出力を、「発話」とも記載する。なお、返答内容の詳細については、後述する。
(掃除部、駆動部)
掃除部105は、制御部102からの指示に基づいて、掃除機としての機能を実現する。また、駆動部106は、制御部102からの指示に基づいて、掃除ロボット10を移動させる。
掃除部105および駆動部106が共同して動作することによって、掃除ロボット10は、自動的に部屋の掃除を行うことができる。
(制御部)
制御部102は、掃除ロボット10の各部を統括的に制御する。具体的には、制御部102は、掃除部105及び駆動部106を制御することにより、掃除ロボット10の掃除動作を制御する。また、制御部102は、マイク103によって外部から取得された音を示す音データを、通信部101を介してサーバ20に逐次送信する。
制御部102の機能は、例えば、RAM(Random Access Memory)及びフラッシュメモリなどの記憶装置に記憶されたプログラムを、CPU(Central Processing Unit)が実行することによって実現される(何れも不図示)。
また、制御部102は、サーバ20から通信部101を介して返答内容データを取得する。そして、制御部102は、取得した返答内容データの示す返答内容を表す音声が出力されるよう、スピーカ104を制御(駆動)する。
〔サーバ〕
次に、本実施形態に係るサーバ20の構成について、図1を参照して説明する。図1に示すように、本実施形態に係るサーバ20は、通信部(音声データ受信部)201、制御部202、及び、記憶部203を備えている。
(通信部)
通信部201は、外部との通信を行う手段である。具体的には、通信部201は、掃除ロボット10と、例えばインターネットなどのネットワークを介して無線通信を行う。
(制御部)
制御部202は、サーバ20の各部を統括的に制御する。制御部202の機能は、例えば、RAM(Random Access Memory)及びフラッシュメモリなどの記憶装置に記憶されたプログラムを、CPU(Central Processing Unit)が実行することによって実現される(何れも不図示)。
なお、制御部202の構成の詳細については、後述する。
(記憶部)
記憶部203は、後述する制御部202において参照される各種のデータが格納されている。各種のデータとしては、例えば、確度判定部224によって参照される、所定の言葉を示す音声波形モデル(不図示)、並びに、返答制御部225によって参照される、返答方針テーブル(不図示)、通常返答データベース231、曖昧返答データベース232及び促し返答データベース233などが格納されている。
なお、返答方針テーブル、及び、各データベース231〜233の詳細については、図面を変えて後述する。
〔制御部の構成〕
次に、サーバ20の備える制御部202の構成について、図1を参照して説明する。制御部202は、図1に示すように、音声検出部221(抽出部)、音量判定部(音量判定手段)222、音声認識部(認識確度判定手段)223、確度判定部(認識確度判定手段)224、及び、返答制御部(回答送信手段、回答方針切替手段)225を備えている。
(音声検出部)
音声検出部221は、掃除ロボット10から送信される音データから、音声データを検出(抽出)する。換言すれば、音声検出部221は、外部から受信した音データから、人間の発する音声の周波数帯域を抽出することによって、後述する音量判定部222において判定対象となる音データ(音声データ)を生成する抽出手段として機能する。
音声検出部221における、音データから音声データを検出する方法としては、例えば、音データから人間の発する音声の周波数帯域(例えば、100Hz以上かつ1kHz以下の周波数帯域)を抽出することによって音声データを検出する方法を挙げることができる。この場合には、音声検出部221は、音データから人間の発する音声の周波数帯域を抽出するために、例えば、バンドパスフィルタ、又は、ハイパスフィルタ及びローパスフィルタを組み合わせたフィルタなどを備えていればよい。
音声検出部221は、音データから検出した音声データを、音量判定部222、及び、音声認識部223に供給する。
(音量判定部)
音量判定部222は、音声検出部221によって検出された音声データ(判断対象となる音データ)の示す音声の音量を判定する。具体的には、音量判定部222は、まず、音声の音量を示す値と、2つの閾値(閾値a(第2の音量閾値)及び閾値b(第1の音量閾値)、閾値a>閾値b)とを比較する。そして、音量判定部222は、音声の音量が(1)音量>閾値a、(2)閾値a≧音量≧閾値b、又は(3)閾値b>音量の、何れの範囲に属しているかを判定する。なお、(2)の範囲は、第1の音量閾値(閾値b)以上、第2の音量閾値(閾値a)以下である音量範囲に相当する。換言すると、音量判定部222は、音声データの示す音声の音量が、第1の所定の音量範囲内(閾値a≧音量≧閾値b)に含まれるか否か、および、第1の所定の音量範囲よりも音量が低い第2の所定の音量範囲内(閾値b>音量)に含まれるか否かを判定する。
なお、閾値aの値は「−20dB」であり、閾値bの値は「−39dB」であることが好ましいが、本発明はこれらの値に限定されるものではない。閾値aとしては、人間が通常発する音声の音量の最大値を設定し、閾値bとしては、人間が通常発する音声の音量の最小値を設定すればよい。これにより、例えば、人間の発する音声の周波数帯域と近い周波数帯域を含む音(例えば、犬が吠えたときの音(一般的に、450Hz〜1.1kHz)が掃除ロボット10から供給され、音声検出部221によって人間の発する音声として検出された場合であっても、より正確に人間の発する音声であるか否かを判定することができる。
また、本実施形態では、判断対象となる音データが音声データである場合を例に挙げて説明しているが、本発明はこれに限定されるものではない。例えば、音量判定部222は、掃除ロボット10から取得した音データを、そのまま判断対象となる音データとして用いることもできる。
音量判定部222は、音声の音量の判定結果を、返答制御部225に供給する。
(音声認識部)
音声認識部223は、音声検出部221によって検出された音声データの示す音声の内容(音声内容)を認識内容として認識する。そして、音声認識部223は、音声データから認識した音声内容の認識結果を、確度判定部224に供給する。
(確度判定部)
確度判定部224は、音声認識部223から供給された音声内容の認識結果の確からしさ(換言すれば、音声内容を認識する認識処理の確からしさ)を示す認識確度を判定する。つまり、確度判定部224は、音声認識部223と共に、認識確度判定手段として機能する。
具体的には、確度判定部224は、音声内容の認識結果の確度と、2つの閾値(閾値c(第1の確度閾値)及び閾値d(第2の確度閾値)、閾値c>閾値d)とを比較する。そして、確度判定部224は、認識結果の確度が、(A)閾値c≦認識確度、(B)閾値d≦認識確度<閾値c、又は(C)認識確度<閾値dの何れの範囲に属しているかを判定する。なお、(B)の範囲は、第1の確度閾値(閾値c)より小さく、第2の確度閾値(閾値d)以上である確度範囲に相当する。
なお、認識確度の最小値を「0」とし、最大値を「1」とした場合、閾値cの値は「0.6」であり、閾値dの値は「0.43」であることが好ましいが、本発明はこれらの値に限定されるものではない。
ここで、確度判定部224における認識結果の認識確度の判定方法としては、例えば、予め複数用意されている、所定の言葉(フレーズ)を示す音声波形モデル(音響モデル)と音声データの示す波形との一致度を判定し、最も高い一致度を認識確度とする判定方法などを用いることができる。なお、本発明はこれに限定されるものではなく、例えば、パターンマッチングなどを用いることもできる。
確度判定部224は、認識確度の判定結果を、音声認識部223から供給された音声内容の認識結果と共に、返答制御部225に供給する。
(返答制御部)
返答制御部225は、音量判定部222から供給される音声の音量の判定結果と、確度判定部224から供給される認識確度の判定結果とに基づいて、返答内容を決定する。換言すると、返答制御部225は、音声認識部223から供給された音声内容を認識できた場合と、当該音声内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える。
具体的には、返答制御部225は、後述する返答方針テーブルを参照し、音量の判定結果が上記(1)〜(3)の何れの範囲に属するか、及び、認識確度の判定結果が上記(A)〜(C)の何れの範囲に属するかに基づいて音声データの示す音声内容に対する返答の方針(返答方針)を決定する。そして、返答制御部225は、記憶部203に格納されている各データベース231〜233を参照し、決定した返答方針に沿った返答内容を決定する。なお、返答方針テーブルを参照して行われる返答制御部225における返答方針の決定、及び、記憶部203に格納されているデータベースの詳細については、図面を変えて後述する。
なお、詳細については後述するが、本実施形態では、返答制御部225において決定される返答方針には、認識内容に対して正常に返答する「通常返答」、認識内容に対して曖昧に返答する「曖昧返答」、ユーザに会話(発言)を促す「会話促し」、及び、返答をしない「返答なし」がある。
返答制御部225は、返答内容を決定すると、決定した返答内容を示す返答内容データを、通信部201を介して掃除ロボット10に送信する。
なお、本実施形態では、返答制御部225が、音声の音量の判定結果と認識確度の判定結果とに基づいて返答内容を決定する構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、返答制御部225は、音声認識部223から供給された音声内容の認識結果に基づいて返答内容を決定してもよい。また、返答制御部225は、音量の判定結果及び音声内容の認識結果に基づいて返答内容を決定してもよいし、認識確度の判定結果及び音声内容の認識結果に基づいて返答内容を決定してもよい。
〔返答音声出力処理〕
次に、本実施形態に係る発話システム1における返答音声出力処理(発話制御方法)について、図3を参照して説明する。図3は、本実施形態に係る発話システム1における返答音声出力処理の流れを示すシーケンス図である。
ステップS101:図3に示すように、まず、発話システム1の掃除ロボット10の備えるマイク103は、外部からの音の入力を受け付ける。
ステップS102:マイク103において音の入力を受け付けると、制御部102は、入力された音声を示す音データを、通信部101を介してサーバ20に送信する。
ステップS103:掃除ロボット10から通信部201を介して音データを取得すると、サーバ20の制御部202の備える音声検出部221は、取得した音データから、音声データを検出する。音声データを検出すると、音声検出部221は、検出した音声データを音量判定部222及び音声認識部223に供給する。
ステップS104:音量判定部222は、音声データを取得すると、取得した音声データの示す音声の音量を判定する。具体的には、音量判定部222は、音声データの示す音声の音量と、閾値a及び閾値bとを比較し、音声の音量が上述した(1)〜(3)の何れの範囲に属しているかを判定し、判定結果を返答制御部225に供給する。
ステップS105:音声認識部223は、音声データを取得すると、取得した音声データの示す音声の内容を認識する。音声認識部223は、音声内容の認識結果を確度判定部224に供給する。
ステップS106:音声内容の認識結果を取得すると、確度判定部224は、取得した音声内容の認識結果の確度を判定する。具体的には、確度判定部224は、音声内容の認識結果の確度が、上述した(A)〜(C)の何れの範囲に属しているかを判定し、判定結果を返答制御部225に供給する。
ステップS107(回答方針切替工程):返答制御部225は、音量判定部222から取得した音声の音量の判定結果、及び、確度判定部224から取得した確度の判定結果に基づき、返答方針及び返答内容を決定する。
ステップS108(回答送信工程):返答制御部225において返答内容が決定されると、制御部202は、決定された返答内容を示す返答内容データを、通信部201を介して掃除ロボット10に送信する。
ステップS109:掃除ロボット10の制御部102は、通信部101を介して返答内容データを受信すると、受信した返答内容データの示す返答音声を、スピーカ104を介して出力する。
上述のように、発話システム1において返答音声出力処理が実行されることによって、掃除ロボット10は、人間の発した音声に対して返答するように発話する。
〔返答方針テーブル〕
ここで、返答方針テーブルを参照して行われる返答制御部225における返答方針の決定について、図4から図7を参照して説明する。図4は、本実施形態に係るサーバ20の記憶部203に格納されている返答方針テーブルの一例を示す。
図5は、本実施形態に係るサーバ20の記憶部203に格納されている通常返答データベース231の一例を示す図である。図6は、本実施形態に係るサーバ20の記憶部203に格納されている曖昧返答データベース232の一例を示す図である。また、図7は、本実施形態に係るサーバ20の記憶部203に格納されている促し返答データベース233の一例を示す図である。
図4に示すように、返答制御部225は、音声の音量の判定結果が、音量>閾値aである場合(すなわち、上述の(1)の場合)、認識確度の判定結果に関わらず、応答方針を「返答なし」に決定する。
また、返答制御部225は、音声の音量の判定結果が、閾値b>音量である場合(すなわち、上述の(3)の場合、第2の所定の音量範囲内に含まれる場合)、認識確度の判定結果に関わらず、応答方針を「返答なし」又は「会話促し」に決定する。
そして、返答制御部225は、音声の音量の判定結果が(3)の場合、所定の確率で応答方針を「会話促し」に決定する。換言すれば、音量判定部222によって判定された音声の音量が閾値bより小さい場合、返答制御部225は、会話を促すフレーズ(会話を促す内容を示す回答データ)(詳細については後述する)を、所定の確率で送信する。なお、本実施形態では、所定の確率は、1/10であることが好ましいが、例えば、1/100であってもよく、本発明においては特に限定されるものではない。
また、返答制御部225は、音声の音量の判定結果が、閾値a≧音量≧閾値bである場合(すなわち、上述の(2)の場合、第1の所定の音量範囲内に含まれる場合)には、認識確度の判定結果に応じて応答方針を決定する。換言すると、返答制御部225は、音声が示す内容を認識できた場合と、認識できなかった場合とで、応答方針(回答方針)を切り替える。
より具体的には、認識確度の判定結果が閾値d≦認識確度の場合(認識確度が第1の所定の認識確度範囲内に含まれる場合)、音声が示す内容を認識できた場合として、応答方針を「通常返答」または「曖昧返答」に決定する。より詳細には、認識確度の判定結果が、閾値c≦認識確度(すなわち、上記(A))の場合(認識確度が第1の所定の認識確度範囲内であって、当該第1の所定の認識確度範囲において相対的に認識確度が高い範囲を示す第2の所定の認識確度範囲内に含まれる場合)、応答方針を「通常返答」に決定し、閾値d≦認識確度<閾値c(すなわち、上記(B))の場合、応答方針を「曖昧返答」に決定し、認識確度<閾値dすなわち、上記(C))の場合、応答方針を「返答なし」に決定する。このように、返答制御部225は、音声が示す内容を認識内容として認識する認識処理の確からしさを示す認識確度に応じて、ユーザに対する回答内容を決定するために参照するデータベースを変更する。
また、閾値d≦認識確度<閾値c(すなわち、上記(B))の場合、返答制御部225は、応答方針を「曖昧返答」に決定するため、「音声が示す内容を認識できなかった場合」と表現することもできる。換言すると、返答制御部225は、音声が示す内容を認識できなかった場合、当該音声が示す内容に対する回答内容が1対1または1対多に定まらないフレーズを含むデータベース(曖昧返答データベース)を参照する構成であってもよい。
ここで、「通常返答」とは、認識内容に対して正常に返答する返答方針である。より具体的には、「通常返答」とは、認識内容に対して返答内容が1対1(又は、1対多)に定まるフレーズであって認識内容に対応した(換言すれば、認識内容に関連した)フレーズ(通常返答フレーズ)を返答内容として返答する応答方針である。
返答制御部225は、返答方針を通常返答に決定した場合には、例えば、図5に示すように、認識内容(図5における「認識フレーズ」)が「今日は怒られたよ」であるとき、「大変だったねぇ」、「忘れちゃおう」、「怒られちゃったの?元気出して?」、及び、「そうなんだぁ」のうち、何れか1つ又は複数のフレーズ(図5における「回答フレーズ」)を返答内容として決定すればよい。
なお、図5に、本実施形態に係るサーバ20の備える記憶部203に格納されている通常返答データベース231の一例を示している。図5に示すように、通常返答データベース231には、認識内容(認識フレーズ)と返答内容(回答フレーズ)とが関連付けられて格納されている。
「曖昧返答」とは、認識内容に対して曖昧に返答する返答方針である。より具体的には、「曖昧返答」とは、いわゆる相槌などの、認識内容に対して返答内容が1対1(又は、1対多)に定まらないフレーズ(換言すれば、認識内容との関連性の低いフレーズ)(曖昧フレーズ)を応答内容として返答する返答方針である。また、曖昧フレーズは、換言すれば、認識確度が閾値c以上である場合に参照する通常返答データベース231とは異なるカテゴリーの回答データ(返答内容)を含む曖昧返答データベース232から決定(選択)されるフレーズ(返答内容)であるとも表現できる。さらに、曖昧フレーズとは、音声データの内容が認識できない、または認識できたが対応する回答データがないということを暗示するフレーズであると表現することもできる。
返答制御部225は、返答方針を曖昧返答に決定した場合には、例えば、図6に示すように、認識内容に関わらず、「ほんとー」、「ほうほう」及び「へぇー」などのうち、何れかのフレーズを返答内容として決定すればよい。つまり、返答制御部225は、返答方針を曖昧返答に決定した場合には、曖昧返答データベース232から返答内容をランダムに選択してもよい。
なお、図6に、本実施形態に係るサーバ20の備える記憶部203に格納されている曖昧返答データベース232の一例を示している。図6に示すように、返答内容のみが格納されている。
また、「会話促し」とは、ユーザ(掃除ロボット10の近傍に存在する人間)に会話(発言)を促すフレーズを返答する返答方針である。会話を促すフレーズとしては、例えば、図7に示すように、「ねえねえ、今日はどうだった?」及び「雑学聞きたくない?」などを挙げることができ、これらの会話を促すフレーズは、サーバ20の備える記憶部203に促し返答データベース233として格納されている。
なお、本実施形態では、サーバ20から掃除ロボット10に対して返答内容を示す返答内容データを送信する(換言すれば、掃除ロボット10が発話する返答内容を示す返答内容データをサーバ20が供給する)構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、掃除ロボット10が記憶部(不図示)に上述した各データベースを格納しており、サーバ20から掃除ロボット10に対して、何れのデータベースの何れのフレーズを返答内容とするかを指定するためのデータを送信する構成を採用してもよい。
上述の構成により、サーバ20は、掃除ロボット10に入力された音に対する返答内容データを、不適切なタイミングで掃除ロボット10に送信することを防止することができる。
<実施形態2>
実施形態1では、サーバ20において、掃除ロボット10から受信した音データから音声データを検出する構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、掃除ロボットにおいて音声データを検出した後、検出した音声データをサーバに送信する構成を採用することもできる。
本発明の他の実施形態について、図8及び図9を参照して説明する。なお、説明の便宜上、実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
〔発話システムの構成〕
図8は、本実施形態に係る発話システム2の要部構成を示すブロック図である。図8に示すように、本実施形態に係る発話システム2は、掃除ロボット11、及び、サーバ21を備えている。
図8に示すように、本実施形態に係る掃除ロボット11及びサーバ21は、サーバ21の制御部202aの代わりに、掃除ロボット11の制御部102aが音声検出部(音声データ抽出手段)121を備えていること以外は、実施形態1に係る掃除ロボット10及びサーバ20と同様の構成である。
(掃除ロボット、及び、サーバの構成)
掃除ロボット11の制御部102aの備える音声検出部121は、マイク103を介して取得した音を示す音データから音声データを検出する。換言すれば、音声検出部121は、人間の発する音声の周波数帯域のみを含む音データ(音声データ)を受信する受信手段として機能する。制御部102aは、音声検出部121によって検出された音声データを、通信部101を介してサーバ21に逐次送信する。
サーバ21の備える制御部202aは、通信部201を介して掃除ロボット11から音声データを取得すると、音量判定部222〜返答制御部225において音声データから返答内容を決定する。制御部202aは、決定した返答内容を示す返答内容データを、通信部201を介して掃除ロボット11に送信する。
そして、掃除ロボット11は、サーバ21から受信した返答内容データに従って発話する。
〔返答音声出力処理〕
次に、本実施形態に係る発話システム2における返答音声出力処理について、図9を参照して説明する。図9は、本実施形態に係る発話システム2における返答音声出力処理の流れを示すシーケンス図である。
ステップS201:図9に示すように、まず、発話システム2の掃除ロボット11の備えるマイク103は、外部からの音の入力を受け付ける。
ステップS202:マイク103において音の入力を受け付けると、制御部102aの備える音声検出部121は、入力された音を示す音データから、音声データを検出(抽出)する。
ステップS203:音声検出部121によって音声データが検出されると、制御部102aは、検出され音声データを、通信部101を介してサーバ21に送信する。音声データを受信すると、サーバ21の備える制御部202aは、受信した音声データを音量判定部222及び音声認識部223に供給する。
なお、図9に示すステップS204〜S209の処理は、図3に示すステップS104〜S109と同様であるため、ここではその説明は省略する。
上述のように発話システム2において返答音声出力処理が実行されることによって、掃除ロボット11は、人間の発した音声に対して返答するように発話することができる。
<実施形態3>
実施形態1では、サーバ20において、音声データの示す音声の音量を判定する構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、掃除ロボットにおいて音声の音量を判定した後、音声の音量の判定結果を音声データと共にサーバに送信する構成を採用することもできる。
本発明の他の実施形態について、図10及び図11を参照して説明する。なお、説明の便宜上、実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
〔発話システムの構成〕
図10は、本実施形態に係る発話システム3の要部構成を示すブロック図である。図10に示すように、本実施形態に係る発話システム3は、掃除ロボット12、及び、サーバ22を備えている。
図10に示すように、本実施形態に係る掃除ロボット12及びサーバ22は、サーバ22の制御部202bの代わりに、掃除ロボット12の制御部102bが音声検出部121及び音量判定部122を備えていること以外は、実施形態1に係る掃除ロボット10及びサーバ20と同様の構成である。
(掃除ロボット、及び、サーバの構成)
掃除ロボット12の制御部102bの備える音声検出部121は、マイク103を介して取得した音を示す音データから音声データを検出する。換言すれば、音声検出部121は、人間の発する音声の周波数帯域のみを含む音データ(音声データ)を受信する受信手段として機能する。音声検出部121は、検出した音声データを、音量判定部122に供給する。
音量判定部122は、音声検出部121によって検出された音声データの示す音声の音量を判定する。なお、音量判定部122における音量の判定方法は、実施形態1に係るサーバ20の備える音量判定部222と同様であるため、ここではその詳細な説明は省略する。音量判定部122は、音声の音量の判定結果を、音声検出部121によって検出された音声データと共に、通信部101を介してサーバ22に逐次送信する。
サーバ22の備える制御部202bは、通信部201を介して掃除ロボット12から音声データ及び音声の音量の判定結果を取得すると、音声認識部223〜返答制御部225において音声データから返答内容を決定する。制御部202bは、決定した返答内容を示す返答内容データを、通信部201を介して掃除ロボット12に送信する。
そして、掃除ロボット12は、サーバ22から受信した返答内容データに従って発話する。
〔返答音声出力処理〕
次に、本実施形態に係る発話システム3における返答音声出力処理について、図11を参照して説明する。図11は、本実施形態に係る発話システム3における返答音声出力処理の流れを示すシーケンス図である。
ステップS301:図11に示すように、まず、発話システム3の掃除ロボット12の備えるマイク103は、外部からの音の入力を受け付ける。
ステップS302:マイク103において音の入力を受け付けると、制御部102bの備える音声検出部121は、入力された音を示す音データから、音声データを検出(抽出)する。音声データを検出すると、音声検出部121は、検出した音声データを、音量判定部122に供給する。
ステップS303:音声検出部121から音声データを取得すると、音量判定部122は、音声データの示す音声の音量を判定する。
ステップS304:制御部102bは、音声の音量の判定結果を、音声データと共に、通信部101を介してサーバ21に送信する。音声の音量の判定結果及び音声データを受信すると、サーバ21の備える制御部202aは、受信した音声データを音声認識部223に供給すると共に、音声の音量の判定結果を、返答制御部225に供給する。
なお、図11に示すステップS305〜S309の処理は、図3に示すステップS105〜S109の処理と同様であるため、ここではその説明は省略する。
上述のように発話システム3において返答音声出力処理が実行されることによって、掃除ロボット12は、人間の発した音声に対して返答するように発話することができる。
<実施形態4>
実施形態1では、サーバ20において、音声データから認識した音声内容の認識確度を判定する構成を例に挙げて説明したが、本発明はこれに限定されるものではない。例えば、掃除ロボットにおいて音声の音量を判定した後、音声内容の認識確度の判定結果を音声データと共にサーバに送信する構成を採用することもできる。
本発明の他の実施形態について、図12及び図13を参照して説明する。なお、説明の便宜上、実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
〔発話システムの構成〕
図12は、本実施形態に係る発話システム4の要部構成を示すブロック図である。図12に示すように、本実施形態に係る発話システム4は、掃除ロボット13、及び、サーバ23を備えている。
図12に示すように、本実施形態に係る掃除ロボット13及びサーバ23は、サーバ23の制御部202cの代わりに、掃除ロボット13の制御部102cが音声検出部121、音量判定部122、音声認識部(音声認識手段)123、及び、確度判定部124を備えていること以外は、実施形態1に係る掃除ロボット10及びサーバ20と同様の構成である。
(掃除ロボット、及び、サーバの構成)
掃除ロボット13の制御部102cの備える音声検出部121は、マイク103を介して取得した音を示す音データから音声データを検出する。換言すれば、音声検出部121は、人間の発する音声の周波数帯域のみを含む音データ(音声データ)を受信する受信手段として機能する。音声検出部121は、検出した音声データを、音量判定部122及び音声認識部123に供給する。
音量判定部122は、音声検出部121によって検出された音声データの示す音声の音量を判定する。なお、音量判定部122における音量の判定方法は、実施形態1に係るサーバ20の備える音量判定部222と同様であるため、ここではその詳細な説明は省略する。
音声認識部123は、音声検出部121によって検出された音声データの示す音声の内容(音声内容)を認識内容として認識する。そして、音声認識部123は、音声データから認識した音声内容の認識結果を、確度判定部124に供給する。
(確度判定部)
確度判定部124は、音声認識部123から供給された音声内容の認識結果の確からしさ(換言すれば、音声内容を認識する認識処理の確からしさ)を示す認識確度を判定する。つまり、確度判定部124は、音声認識部123と共に、認識確度判定手段として機能する。なお、確度判定部124における認識確度の判定方法は、実施形態1に係るサーバ20の備える確度判定部224と同様であるため、ここではその詳細な説明は省略する。
制御部102cは、音声の音量の判定結果、音声内容の認識結果、及び、認識確度の判定結果を、音声データと共に、通信部101を介してサーバ23に逐次送信する。
サーバ23の備える制御部202cは、通信部201を介して掃除ロボット13から音声データ、音声の音量の判定結果、音声内容の認識結果、及び、認識確度の判定結果を取得すると、返答制御部225において返答内容を決定する。制御部202cは、決定した返答内容を示す返答内容データを、通信部201を介して掃除ロボット13に送信する。
そして、掃除ロボット13は、サーバ23から受信した返答内容データに従って発話する。
〔返答音声出力処理〕
次に、本実施形態に係る発話システム4における返答音声出力処理について、図13を参照して説明する。図13は、本実施形態に係る発話システム4における返答音声出力処理の流れを示すシーケンス図である。
ステップS401:図13に示すように、まず、発話システム4の掃除ロボット13の備えるマイク103は、外部からの音の入力を受け付ける。
ステップS402:マイク103において音の入力を受け付けると、制御部102cの備える音声検出部121は、入力された音を示す音データから、音声データを検出(抽出)する。音声データを検出すると、音声検出部121は、検出した音声データを音量判定部122及び音声認識部123に供給する。
ステップS403:音声データを取得すると、音量判定部122は、音声データの示す音声の音量を判定する。
ステップS404:音声データを取得すると、音声認識部123は、取得した音声データの示す音声内容を認識する。音声認識部123は、音声内容の認識結果を確度判定部124に供給する。
ステップS405:音声内容の認識結果を取得すると、確度判定部124は、取得した音声内容の認識結果の確度を判定する。
ステップS406:制御部102cは、音声の音量の判定結果、音声内容の認識結果、及び、認識確度の判定結果を、音声データと共に、通信部101を介してサーバ23に逐次送信する。
なお、図13に示すステップS407〜S409の処理は、図3に示すステップS107〜S109の処理と同様であるため、ここではその説明は省略する。
上述のように発話システム4において返答音声出力処理が実行されることによって、掃除ロボット13は、人間の発した音声に対して返答するように発話することができる。
<実施形態5>
上述した実施形態では、掃除ロボットとサーバとを備える発話システムについて説明したが、本発明はこれに限定されるものではない。例えば、本発明は、サーバを含まない発話システムを採用することもできる。
〔発話システムの構成〕
図14は、本実施形態に係る発話システム5の要部構成を示すブロック図である。図14に示すように、本実施形態に係る発話システム5は、掃除ロボット14を備えている。
図14に示すように、本実施形態に係る掃除ロボット14は、上述した掃除ロボット13の構成に加えて、上述した実施形態においてサーバが備えていた記憶部203を、記憶部107として備えている。また、掃除ロボット14は、上述の掃除ロボット13の制御部102cに含まれる部材に加えて、返答制御部125も備える。
(返答制御部)
返答制御部125は、音量判定部122から供給される音声の音量の判定結果と、確度判定部124から供給される認識確度の判定結果とに基づいて、返答内容を決定する。なお、返答制御部125における返答内容を決定する方法は、実施形態1に係るサーバ20の備える返答制御部225と同様であるため、ここではその詳細な説明は省略する。
〔返答音声出力処理〕
次に、本実施形態に係る発話システム5における返答音声出力処理について、説明する。なお、ステップS401〜S405の処理については、図13を用いて説明した処理と同じ処理であるため、詳細な説明は省略する。
ステップS405の処理の後、返答制御部125は、音量判定部122から取得した音声の音量の判定結果、及び、確度判定部124から取得した確度の判定結果に基づき、返答方針及び返答内容を決定する。返答制御部125は、決定した返答内容を示す返答音声を、スピーカ104を介して出力する。
上述のように発話システム5では、サーバを備えない構成であっても、掃除ロボット14が人間の発した音声に対して返答するように発話することができる。
<実施形態6>
掃除ロボット10〜14及びサーバ20〜23の制御ブロック(特に制御部102、102a〜d及び制御部202、202a〜c)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、掃除ロボット10〜14及びサーバ20〜23は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係るサーバ(サーバ20〜23)は、判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替手段(返答制御部225)を備える。
上記の構成によれば、判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、認識できなかった場合とで、ユーザに対する回答方針を切り替える。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。また、上記サーバは、音データが示す内容を認識できたか否かを、ユーザに対して認識させることができる。
本発明の態様2に係るサーバは、上記態様1において、上記音データが示す内容を認識できなかった場合、上記回答方針切替手段は、上記音データが示す内容に対する回答内容が1対1または1対多に定まらないフレーズを含むデータベースを参照してもよい。
上記の構成によれば、上記サーバは、音データが示す内容を認識できなかった場合、上記音データが示す内容に対する回答内容が1対1または1対多に定まらないフレーズ、換言すると、曖昧に返答する曖昧なフレーズを含むデータベースを参照する。したがって、上記サーバは、音データが示す内容を認識できなかった場合、認識できなかったことをユーザに対して認識させることができる。
本発明の態様3に係るサーバは、上記態様1または2において、上記回答方針切替手段は、上記音データが示す内容を認識内容として認識する認識処理の確からしさを示す認識確度に応じて、ユーザに対する回答内容を決定するために参照するデータベースを変更してもよい。
上記の構成によれば、上記サーバは、音データが示す内容を認識内容として認識する認識処理の確からしさを示す認識確度に応じて、ユーザに対する回答内容を決定するために参照するデータベースを変更する。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。また、上記サーバは、音データが示す内容を認識できたか否かを、ユーザに対して認識させることができる。
本発明の態様4に係るサーバは、上記態様3において、上記回答方針切替手段は、上記認識確度が第1の所定の認識確度範囲内に含まれる場合、上記音データが示す内容を認識できた場合の処理を行うものであり、上記認識できた場合の処理として、上記回答方針切替手段は、上記認識内容に対する回答内容が1対1または1対多に定まるフレーズであって、上記認識内容に関連したフレーズを含むデータベース、または、上記認識内容に対する回答内容が1対1または1対多に定まらないフレーズを含むデータベース、の何れかを参照してもよい。
上記の構成によれば、上記サーバは、音データが示す内容を認識できた場合、通常フレーズを含むデータベースまたは曖昧フレーズを含むデータベースを参照する。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。また、上記サーバは、音データが示す内容を認識できたことを、ユーザに対して認識させることができる。
本発明の態様5に係るサーバは、上記態様3において、上記回答方針切替手段は、上記認識確度が第1の所定の認識確度範囲内であって、当該第1の所定の認識確度範囲において相対的に認識確度が高い範囲を示す第2の所定の認識確度範囲内に含まれる場合、上記音データが示す内容を認識できた場合の処理を行うものであり、上記認識できた場合の処理として、上記回答方針切替手段は、上記認識内容に対する回答内容が1対1または1対多に定まるフレーズであって、上記認識内容に関連したフレーズを含むデータベース、を参照してもよい。
上記の構成によれば、上記サーバは、音データが示す内容を認識できた場合、通常フレーズを含むデータベースを参照する。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。また、上記サーバは、ユーザとより適切な会話コミュニケーションをすることができる。
本発明の態様6に係るサーバは、上記態様2から5の何れかにおいて、上記回答方針切替手段は、参照するデータベースから上記ユーザに対する回答を示す回答データをランダムに選択してもよい。
上記の構成によれば、上記サーバは、各データベースからランダムに回答データを選択するので、ユーザとより適切な会話コミュニケーションをすることができる。
本発明の態様7に係るサーバは、上記態様1から6の何れかにおいて、上記回答方針切替手段は、上記音データの音量が、第1の所定の音量範囲よりも音量が低い第2の所定の音量範囲に含まれる場合、上記ユーザへの回答方針として、ユーザに回答しない、及び、ユーザへ会話を促す回答を行う、の何れを選択してもよい。
上記の構成によれば、上記サーバは、音データの音量が低い場合、ユーザに回答しない、及び、ユーザへ会話を促す回答を行う、の何れを選択する。したがって、上記サーバは、ユーザとより適切な会話コミュニケーションをすることができる。
本発明の態様8に係る発話制御方法は、判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替工程を含む。
上記の構成によれば、上記発話制御方法は、上記態様1に係るサーバと同じ効果を奏する。
本発明の態様9に係る発話装置(掃除ロボット14)は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段(音声検出部121)と、上記音声データ抽出手段が抽出した音声データの音量を判定する音量判定手段(音量判定部122)と、上記音量判定手段が判定した音量が所定の範囲内に含まれる場合、上記音声データ抽出手段が抽出した音声データの示す音声の内容を認識内容として認識する音声認識手段(音声認識部123)と、上記音声認識手段が上記音声データが示す内容を認識できた場合と、上記音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段(返答制御部125)と、上記回答方針切替手段が決定した回答内容の示す音声を出力する回答出力部(スピーカ104)と、を備える。
上記の構成によれば、上記発話装置は、上記態様1に係るサーバと同じ効果を奏する。
本発明の態様10に係る発話システム(2〜4)は、発話装置(掃除ロボット11〜13)と、サーバ(20〜40)とを備えている発話システムであって、上記発話装置は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段(音声検出部121)と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部(通信部101)と、上記音声データに対する回答データを受信する回答データ受信部(通信部101)と、上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部(スピーカ104)と、を備えており、上記サーバは、上記発話装置から、上記音声データを受信する音声データ受信部(通信部201)と、上記音声データ受信部が受信した音声データの音量を判定する音量判定手段(音量判定部222)と、上記音量判定手段によって判定された上記音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段(返答制御部225)と、上記回答方針切替手段が決定した回答内容を示す回答データを送信する回答送信手段(返答制御部225)と、を備える。
上記の構成によれば、上記発話システムは、上記態様1に係るサーバと同じ効果を奏する。
本発明の態様11に係る発話装置(2〜4)は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段(音声検出部121)と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部(通信部101)と、上記音声データに対する回答データを受信する回答データ受信部(通信部101)と、上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部(スピーカ104)と、を備えており、上記回答データは、上記音声データ送信部が送信した音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、決定された回答内容を示す回答データである。
上記の構成によれば、上記態様10に係る発話システムが備える発話装置を実現することができる。
本発明の態様12に係るサーバ(サーバ20〜23)は、判定対象の音データの音量が、第1の音量閾値(閾値b)以上、第2の音量閾値(閾値a)以下である音量範囲内に含まれる場合、上記音データの示す内容に対する回答データを送信する回答送信手段(返答制御部225)を備えている。
上記の構成によれば、判定対象の音データの音量が、第1の音量閾値以上、第2の音量閾値以下である音量範囲内に含まれている場合に、回答送信手段は、音データの示す内容に対する回答を送信する。言い換えれば、音データの音量が上記音量範囲を上回る場合、および、下回る場合のいずれも回答送信手段は回答データを送信しない。したがって、上記サーバは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。
本発明の態様13に係るサーバ(サーバ21〜23)は、上記態様12において、上記判定対象の音データとして、人間の発する音声の周波数帯域のみを含む音データ(音声データ)を受信する受信手段(通信部201)を更に含んでもよい。
本発明の態様14に係るサーバ(サーバ20)は、上記態様12において、外部から受信した音データから、人間の発する音声の周波数帯域を抽出することによって、上記判定対象の音データ(音声データ)を生成する抽出手段(音声検出部221)を更に備えていてもよい。
本発明の態様15に係るサーバは、上記態様12から14において、上記判定対象の音データの音量を判定する音量判定手段をさらに備え、上記音量判定手段によって判定された上記音データの音量が、第1の音量閾値より小さい場合、上記回答送信手段は、会話を促す内容を示す回答データを、所定の確率で送信してもよい。
本発明の態様16に係るサーバは、上記態様12から15において、上記判定対象の音データの音量を判定する音量判定手段と、上記判定対象の音データが示す内容を認識内容として認識し、当該認識処理の確からしさを示す認識確度を判定する認識確度判定手段(音声認識部223、確度判定部224)と、をさらに備え、上記音量判定手段によって判定された上記音データの音量が、上記音量範囲内に含まれており、かつ、上記認識確度が、第1の確度閾値(閾値c)以上である場合、上記回答送信手段は、上記認識内容に対応付けられている1または複数の回答データを送信してもよい。
本発明の態様17に係るサーバは、上記態様16において、上記音量判定手段によって判定された上記音データの音量が、上記音量範囲内に含まれており、かつ、上記認識確度が、上記第1の確度閾値より小さく、第2の確度閾値(閾値d)以上である確度範囲内に含まれる場合、上記回答送信手段は、上記認識確度が、第1の確度閾値以上である場合に参照するデータベース(通常返答データベース231)とは異なるカテゴリーの回答データを含むデータベース(曖昧返答データベース232)から回答データを選択して送信してもよい。
本発明の態様18に係るサーバの上記回答送信手段は、上記態様17において、上記異なるカテゴリーの回答データを含むデータベースから回答データをランダムに選択してもよい。
本発明の態様19に係るサーバは、上記態様17から18において、上記音量判定手段によって判定された上記音データの音量が、上記音量範囲内に含まれており、かつ、上記認識確度が上記第2の確度閾値より小さい場合、上記回答送信手段は、上記音データの示す内容に対する回答データを送信しなくてもよい。
本発明の態様20に係る発話制御方法は、サーバによる発話制御方法であって、判定対象の音データの音量が、第1の音量閾値以上、第2の音量閾値以下である音量範囲内に含まれる場合、上記音データの示す内容に対する回答データを送信する回答送信工程を含んでいる。
上記の構成によれば、判定対象の音データの音量が、第1の音量閾値以上、第2の音量閾値以下である音量範囲内に含まれている場合に、回答送信工程において、音データの示す内容に対する回答を送信する。言い換えれば、音データの音量が上記音量範囲を上回る場合、および、下回る場合のいずれも、回答送信工程において回答データが送信されない。したがって、上記発話制御方法は、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。
本発明の態様21に係る発話装置(掃除ロボット11〜13)は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段(音声検出部121)と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部(通信部101)と、上記音声データに対する回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部(スピーカ104)と、を備えており、上記回答データは、上記音声データの音量が、第1の音量閾値より大きく、当該第1の音量閾値より大きな第2の音量閾値より小さい場合に選択された回答データである。
上記の構成によれば、判定対象の音データの音量が、第1の音量閾値以上、第2の音量閾値以下である音量範囲内に含まれている場合に、回答出力部は、音データの示す内容に対する回答を出力する。言い換えれば、音データの音量が上記音量範囲を上回る場合、および、下回る場合のいずれも回答出力部は回答データの示す音声を出力しない。したがって、上記発話装置は、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。
本発明の態様22に係る発話システム(2〜4)は、発話装置(掃除ロボット11〜13)と、サーバ(サーバ21〜23)とを備えている発話システムであって、上記発話装置は、取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段(音声検出部121)と、上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部(通信部101)と、上記音声データに対する回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部(スピーカ104)と、を備えており、上記サーバは、判定対象の音声データの音量を判定する音量判定手段(音量判定部222)と、上記音量判定手段によって判定された上記音声データの音量が、第1の音量閾値以上、第2の音量閾値以下である音量範囲内に含まれる場合、上記音声データの示す内容に対する回答データを送信する回答送信手段(返答制御部225)と、を備えている。
上記の構成によれば、判定対象の音データの音量が、第1の音量閾値以上、第2の音量閾値以下である音量範囲内に含まれている場合に、回答送信手段は、音データの示す内容に対する回答を送信する。言い換えれば、音データの音量が上記音量範囲を上回る場合、および、下回る場合のいずれも回答送信手段は回答データを送信しない。したがって、上記発話システムは、不適切なタイミングで判定対象の音データに対する回答データを送信することを防止することができる。
本発明の各態様に係るサーバ(20〜23)および発話装置(掃除ロボット10〜14)は、コンピュータによって実現してもよく、この場合には、コンピュータを上記サーバが備える各手段として動作させることにより上記サーバをコンピュータにて実現させるサーバのプログラムも、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
本発明は、掃除ロボット、冷蔵庫、電子レンジ、パーソナルコンピュータ、及び、テレビジョン受像機などの音声の入出力機能を備えた家電、及び、これらの家電を制御するサーバに好適に利用することができる。
1〜5 発話システム
10〜14 掃除ロボット(発話装置)
20〜23 サーバ
101 通信部(音声データ送信部、回答データ受信部)
102、102a〜d 制御部
103 マイク
104 スピーカ(回答出力部)
105 掃除部
106 駆動部
121 音声検出部(音声データ抽出手段)
122 音量判定部(音量判定手段)
123 音声認識部(音声認識手段)
124 確度判定部
125 返答制御部(回答方針切替手段)
201 通信部(音声データ受信部)
202、202a〜c 制御部
203 記憶部
221 音声検出部(抽出部)
222 音量判定部(音量判定手段)
223 音声認識部(認識確度判定手段)
224 確度判定部(認識確度判定手段)
225 返答制御部(回答送信手段、回答方針切替手段)
231 通常返答データベース
232 曖昧返答データベース
233 促し返答データベース

Claims (12)

  1. 判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替手段を備えることを特徴とするサーバ。
  2. 上記音データが示す内容を認識できなかった場合、上記回答方針切替手段は、
    上記音データが示す内容に対する回答内容が1対1または1対多に定まらないフレーズを含むデータベースを参照する、ことを特徴とする請求項1に記載のサーバ。
  3. 上記回答方針切替手段は、
    上記音データが示す内容を認識内容として認識する認識処理の確からしさを示す認識確度に応じて、ユーザに対する回答内容を決定するために参照するデータベースを変更する、ことを特徴とする請求項1または2に記載のサーバ。
  4. 上記回答方針切替手段は、上記認識確度が第1の所定の認識確度範囲内に含まれる場合、上記音データが示す内容を認識できた場合の処理を行うものであり、
    上記認識できた場合の処理として、上記回答方針切替手段は、
    上記認識内容に対する回答内容が1対1または1対多に定まるフレーズであって、上記認識内容に関連したフレーズを含むデータベース、または、
    上記認識内容に対する回答内容が1対1または1対多に定まらないフレーズを含むデータベース、
    の何れかを参照する、ことを特徴とする請求項3に記載のサーバ。
  5. 上記回答方針切替手段は、上記認識確度が第1の所定の認識確度範囲内であって、当該第1の所定の認識確度範囲において相対的に認識確度が高い範囲を示す第2の所定の認識確度範囲内に含まれる場合、上記音データが示す内容を認識できた場合の処理を行うものであり、
    上記認識できた場合の処理として、上記回答方針切替手段は、
    上記認識内容に対する回答内容が1対1または1対多に定まるフレーズであって、上記認識内容に関連したフレーズを含むデータベース、
    を参照する、ことを特徴とする請求項3に記載のサーバ。
  6. 上記回答方針切替手段は、参照するデータベースから上記ユーザに対する回答を示す回答データをランダムに選択する、ことを特徴とする請求項2から5の何れか1項に記載のサーバ。
  7. 上記回答方針切替手段は、上記音データの音量が、第1の所定の音量範囲よりも音量が低い第2の音量範囲に含まれる場合、上記ユーザへの回答方針として、
    ユーザに回答しない、及び、
    ユーザへ会話を促す回答を行う、
    の何れを選択する、ことを特徴とする請求項1から6の何れか1項に記載のサーバ。
  8. 判定対象の音データの音量が、第1の所定の音量範囲内に含まれる場合、当該音データが示す内容を認識できた場合と、当該音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替える回答方針切替工程を含むことを特徴とする発話制御方法。
  9. 取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段と、
    上記音声データ抽出手段が抽出した音声データの音量を判定する音量判定手段と、
    上記音量判定手段が判定した音量が所定の範囲内に含まれる場合、上記音声データ抽出手段が抽出した音声データの示す音声の内容を認識内容として認識する音声認識手段と、
    上記音声認識手段が上記音声データが示す内容を認識できた場合と、上記音データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段と、
    上記回答方針切替手段が決定した回答内容の示す音声を出力する回答出力部と、を備えることを特徴とする発話装置。
  10. 請求項9に記載の発話装置としてコンピュータを機能させるためのプログラムであって、コンピュータを上記各手段として機能させるためのプログラム。
  11. 発話装置と、サーバとを備えている発話システムであって、
    上記発話装置は、
    取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段と、
    上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部と、
    上記音声データに対する回答データを受信する回答データ受信部と、
    上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部と、を備えており、
    上記サーバは、
    上記発話装置から、上記音声データを受信する音声データ受信部と、
    上記音声データ受信部が受信した音声データの音量を判定する音量判定手段と、
    上記音量判定手段によって判定された上記音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、回答内容を決定する回答方針切替手段と、
    上記回答方針切替手段が決定した回答内容を示す回答データを送信する回答送信手段と、を備えることを特徴とする発話システム。
  12. 取得した音データから、人間の発する音声の周波数帯域のみを含む音声データを抽出する音声データ抽出手段と、
    上記音声データ抽出手段によって抽出された音声データを送信する音声データ送信部と、
    上記音声データに対する回答データを受信する回答データ受信部と、
    上記回答データ受信部が回答データを受信した場合に、当該回答データの示す音声を出力する回答出力部と、を備えており、
    上記回答データは、上記音声データ送信部が送信した音声データの音量が、所定の範囲内に含まれる場合、当該音声データが示す内容を認識できた場合と、当該音声データが示す内容を認識できなかった場合とで、ユーザに対する回答方針を切り替え、決定された回答内容を示す回答データであることを特徴とする発話装置。
JP2014212602A 2013-10-31 2014-10-17 サーバ、発話制御方法、発話装置、発話システムおよびプログラム Active JP5996603B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014212602A JP5996603B2 (ja) 2013-10-31 2014-10-17 サーバ、発話制御方法、発話装置、発話システムおよびプログラム
US14/527,117 US20150120304A1 (en) 2013-10-31 2014-10-29 Speaking control method, server, speaking device, speaking system, and storage medium
CN201410598535.3A CN104601538A (zh) 2013-10-31 2014-10-30 服务器、发话控制方法、发话装置以及发话系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013227569 2013-10-31
JP2013227569 2013-10-31
JP2014212602A JP5996603B2 (ja) 2013-10-31 2014-10-17 サーバ、発話制御方法、発話装置、発話システムおよびプログラム

Publications (2)

Publication Number Publication Date
JP2015111253A true JP2015111253A (ja) 2015-06-18
JP5996603B2 JP5996603B2 (ja) 2016-09-21

Family

ID=52996385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014212602A Active JP5996603B2 (ja) 2013-10-31 2014-10-17 サーバ、発話制御方法、発話装置、発話システムおよびプログラム

Country Status (3)

Country Link
US (1) US20150120304A1 (ja)
JP (1) JP5996603B2 (ja)
CN (1) CN104601538A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019013335A1 (ja) * 2017-07-14 2019-01-17 ダイキン工業株式会社 機器制御システム
JP2019113820A (ja) * 2017-12-25 2019-07-11 カシオ計算機株式会社 音声認識装置、ロボット、音声認識方法及び記録媒体
JP2020030271A (ja) * 2018-08-21 2020-02-27 清水建設株式会社 会話音声レベル通知システム及び会話音声レベル通知方法
US10910001B2 (en) 2017-12-25 2021-02-02 Casio Computer Co., Ltd. Voice recognition device, robot, voice recognition method, and storage medium
JPWO2022215284A1 (ja) * 2021-04-09 2022-10-13

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD813761S1 (en) * 2015-07-29 2018-03-27 Lr Acquisition, Llc Controller of an unmanned aerial vehicle
CN106782535A (zh) * 2016-12-26 2017-05-31 深圳前海勇艺达机器人有限公司 基于智能家电的数据处理方法及装置
JP6707671B2 (ja) * 2017-01-19 2020-06-10 シャープ株式会社 言動制御装置、ロボット、制御プログラムおよび言動制御装置の制御方法
JP6610610B2 (ja) * 2017-04-27 2019-11-27 トヨタ自動車株式会社 音声入出力装置、無線接続方法、音声対話システム
KR20180124564A (ko) * 2017-05-12 2018-11-21 네이버 주식회사 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
JP6929811B2 (ja) * 2018-03-13 2021-09-01 Tvs Regza株式会社 音声対話端末、および音声対話端末制御方法
JP6489670B1 (ja) * 2018-10-30 2019-03-27 Jeインターナショナル株式会社 チャットシステム、チャットボットサーバー装置、チャットボットid管理装置、チャット仲介サーバー装置、プログラム、チャット方法、およびチャット仲介方法
KR20190087355A (ko) * 2019-07-05 2019-07-24 엘지전자 주식회사 영역별 인체 활동 데이터를 이용하여 주행하는 청소로봇 및 청소로봇을 주행시키는 방법
CN111601156A (zh) * 2020-05-21 2020-08-28 广州欢网科技有限责任公司 基于时间配置的直播频道切换方法、装置及控制器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096389A (ja) * 1995-06-22 1997-01-10 Seiko Epson Corp 音声認識対話処理方法および音声認識対話装置
JP2006276283A (ja) * 2005-03-28 2006-10-12 Matsushita Electric Works Ltd 宅内システム
JP2008152637A (ja) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc 応答生成装置及び応答生成プログラム
JP2008233305A (ja) * 2007-03-19 2008-10-02 Toyota Central R&D Labs Inc 音声対話装置、音声対話方法及びプログラム
JP2011227236A (ja) * 2010-04-19 2011-11-10 Honda Motor Co Ltd 音声対話装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP5149737B2 (ja) * 2008-08-20 2013-02-20 株式会社ユニバーサルエンターテインメント 自動会話システム、並びに会話シナリオ編集装置
EP2194525A1 (en) * 2008-12-05 2010-06-09 Alcatel, Lucent Conversational subjective quality test tool
JP5622744B2 (ja) * 2009-11-06 2014-11-12 株式会社東芝 音声認識装置
FR2963132A1 (fr) * 2010-07-23 2012-01-27 Aldebaran Robotics Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
CN102647525A (zh) * 2012-04-16 2012-08-22 中兴通讯股份有限公司 一种移动终端及其异常通话的处理方法
CN103472994B (zh) * 2013-09-06 2017-02-08 网易乐得科技有限公司 一种基于语音实现操作控制的方法、装置和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096389A (ja) * 1995-06-22 1997-01-10 Seiko Epson Corp 音声認識対話処理方法および音声認識対話装置
JP2006276283A (ja) * 2005-03-28 2006-10-12 Matsushita Electric Works Ltd 宅内システム
JP2008152637A (ja) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc 応答生成装置及び応答生成プログラム
JP2008233305A (ja) * 2007-03-19 2008-10-02 Toyota Central R&D Labs Inc 音声対話装置、音声対話方法及びプログラム
JP2011227236A (ja) * 2010-04-19 2011-11-10 Honda Motor Co Ltd 音声対話装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019013335A1 (ja) * 2017-07-14 2019-01-17 ダイキン工業株式会社 機器制御システム
JPWO2019013335A1 (ja) * 2017-07-14 2020-08-27 ダイキン工業株式会社 機器制御システム
JP2022020777A (ja) * 2017-07-14 2022-02-01 ダイキン工業株式会社 機器制御システム
JP2019113820A (ja) * 2017-12-25 2019-07-11 カシオ計算機株式会社 音声認識装置、ロボット、音声認識方法及び記録媒体
US10910001B2 (en) 2017-12-25 2021-02-02 Casio Computer Co., Ltd. Voice recognition device, robot, voice recognition method, and storage medium
JP2020030271A (ja) * 2018-08-21 2020-02-27 清水建設株式会社 会話音声レベル通知システム及び会話音声レベル通知方法
JP7162470B2 (ja) 2018-08-21 2022-10-28 清水建設株式会社 会話音声レベル通知システム及び会話音声レベル通知方法
JPWO2022215284A1 (ja) * 2021-04-09 2022-10-13
JP7398683B2 (ja) 2021-04-09 2023-12-15 パナソニックIpマネジメント株式会社 発話機器を制御する方法、サーバ、発話機器、およびプログラム

Also Published As

Publication number Publication date
JP5996603B2 (ja) 2016-09-21
CN104601538A (zh) 2015-05-06
US20150120304A1 (en) 2015-04-30

Similar Documents

Publication Publication Date Title
JP5996603B2 (ja) サーバ、発話制御方法、発話装置、発話システムおよびプログラム
US9583102B2 (en) Method of controlling interactive system, method of controlling server, server, and interactive device
US10861450B2 (en) Method and apparatus for managing voice-based interaction in internet of things network system
KR102543693B1 (ko) 전자 장치 및 그의 동작 방법
EP3171359B1 (en) Hotword detection on multiple devices
JP6739907B2 (ja) 機器特定方法、機器特定装置及びプログラム
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6257368B2 (ja) 情報処理装置
US11367443B2 (en) Electronic device and method for controlling electronic device
CN114080589A (zh) 自动主动降噪(anr)控制以改善用户交互
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
JP2018109663A (ja) 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法
FI128000B (en) Speech recognition method and device based on a wake up word
CN110555981A (zh) 响应方法与装置、寻找方法与装置、遥控器、终端和介质
JP7456387B2 (ja) 情報処理装置、及び情報処理方法
EP3493200B1 (en) Voice-controllable device and method of voice control
CN115811681A (zh) 一种耳机工作模式控制方法、装置、终端及介质
KR20190043576A (ko) 통신 장치
US11081128B2 (en) Signal processing apparatus and method, and program
JP2018081147A (ja) コミュニケーション装置、サーバ、制御方法、および情報処理プログラム
JP2008249893A (ja) 音声応答装置及びその方法
US11917386B2 (en) Estimating user location in a system including smart audio devices
US20240079007A1 (en) System and method for detecting a wakeup command for a voice assistant
CN118262748A (en) Method and device for setting voice volume and intelligent sound box
US20200058319A1 (en) Information processing device, electronic apparatus, control method, and storage medium

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160623

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20160701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160824

R150 Certificate of patent or registration of utility model

Ref document number: 5996603

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150