JP2016130800A - システム、サーバ、電子機器、サーバの制御方法、およびプログラム - Google Patents

システム、サーバ、電子機器、サーバの制御方法、およびプログラム Download PDF

Info

Publication number
JP2016130800A
JP2016130800A JP2015005190A JP2015005190A JP2016130800A JP 2016130800 A JP2016130800 A JP 2016130800A JP 2015005190 A JP2015005190 A JP 2015005190A JP 2015005190 A JP2015005190 A JP 2015005190A JP 2016130800 A JP2016130800 A JP 2016130800A
Authority
JP
Japan
Prior art keywords
utterance
server
electronic device
command
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015005190A
Other languages
English (en)
Other versions
JP6316214B2 (ja
Inventor
靖典 山下
Yasunori Yamashita
靖典 山下
岩野 裕利
Hirotoshi Iwano
裕利 岩野
礼 徳永
Rei Tokunaga
礼 徳永
新開 誠
Makoto Shinkai
誠 新開
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2015005190A priority Critical patent/JP6316214B2/ja
Publication of JP2016130800A publication Critical patent/JP2016130800A/ja
Application granted granted Critical
Publication of JP6316214B2 publication Critical patent/JP6316214B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electric Vacuum Cleaner (AREA)

Abstract

【課題】対話による動作の設定が容易なシステムを提供する。【解決手段】システム100は、発話(たとえば未来の動作の指示)の入力を受け付ける音声入力部210と、音声入力部210から送られる信号に基づいて識別情報と未来の動作の指示とを音声認識処理する音声認識処理部220と、認識処理の結果から当該発話の識別情報と未来の動作の指示の内容とを抽出する抽出部230と、識別情報と指示の内容とを格納する記憶部240と、命令に応じた動作を実行する動作部250と、当該命令を生成する命令生成部260と、100における時刻を計測する計時部270とを備える。【選択図】図2

Description

本開示は、音声認識に基づく機器の動作制御に関し、より特定的には、対話により機器の動作を制御する技術に関する。
対話機能を持つロボットが知られている。例えば、特開2003−69732号公報(特許文献1)は、「携帯可能な、対話機能を持つ、ネットワークの情報を取込める、使用者の感情に対し特定メッセージを与え、スケジュール機能を持つロボット」を開示している([要約]の[課題]参照)。このロボットは、「使用者の音声を認識し入力する音声入力部4と、合成した音声を出力する音声出力部5と、記憶部22と、制御部2とを備え、使用者の音声に対し、応答する音声を出力する様に、対話機能を実行する構成とする。記憶部は、使用者の音声により入力されたスケジュールデータを記憶し、使用者の問いかけに対し、スケジュールデータに従い、スケジュールの内容を音声にて出力する。」というものである([要約]の[解決手段])。
また、特開2002−344573号公報(特許文献2)は、「予め設定した時刻になるとタレントや有名人の声でその時刻が到来したことを知らせてくれると共に、その声を自由に選択することが可能な音声再生タイマ及び音声再生タイマを有する携帯電話」を開示している([要約]の[課題])。
特開2003−69732号公報 特開2002−344573号公報
対話機能を備えるロボットに対して、スケジュールの音声出力や時刻の到来の通知等の設定を容易に行う技術が必要とされている。また、単なる対話ではなく、ユーザに興趣をもたらし得る対話を提供するための技術が必要とされている。さらには、発話される音声を変更可能な技術が必要とされている。
本開示は、上述のような問題点を解決するためになされたものであって、ある局面における目的は、対話機能を備えるロボットによるスケジュールの音声出力や時刻の到来の通知等を容易に行うことができるシステムを提供することである。他の局面における目的は、単なる対話ではなく、ユーザに興趣をもたらし得る対話を提供できるシステムを提供することである。さらに別の局面における目的は、発話される音声を変更可能なシステムを提供することである。
別の局面における目的は、対話機能を備えるロボットによるスケジュールの音声出力や時刻の到来の通知の設定等を容易に行うことができるサーバ、電子機器、サーバの制御方法、または当該方法を実現するためのプログラムを提供することである。他の局面における目的は、単なる対話ではなく、ユーザに興趣をもたらし得る対話を提供できるサーバ、電子機器、サーバの制御方法または当該方法を実現するためのプログラムを提供することである。さらに別の局面における目的は、発話される音声を変更可能なサーバ、電子機器、サーバの制御方法、または当該方法を実現するためのプログラムを提供することである。
一実施の形態に従うと、発話により電子機器を動作させるシステムが提供される。このシステムは、発話を受け付ける複数の電子機器と、複数の電子機器と通信可能なサーバとを備える。電子機器は、発話を受け付けるための音声入力手段と、当該電子機器の識別情報および受け付けられた発話の内容をサーバに送信するための送信手段とを備える。サーバは、識別情報および発話の内容を保持するための格納手段と、発話内容に応じた命令を生成するための生成手段と、識別情報および命令を当該電子機器に送信するための送信手段とを備える。電子機器は、サーバから、命令を受信するための受信手段と、命令に基づいて動作を実行する動作手段とを備える。
他の実施の形態に従うと、電子機器を制御するサーバが提供される。このサーバは、複数の電子機器を介して発話の内容を受け付けるための入力手段と、電子機器の識別情報および発話の内容を対応づけて保持するための格納手段と、発話の内容に応じた命令を生成するための生成手段と、命令を、当該命令を生成するための発話の内容に対応づけられた識別情報により特定される電子機器に送信するための送信手段とを備える。
他の実施の形態に従うと、電子機器が提供される。この電子機器は、サーバと通信するための通信手段と、発話を受け付けるための音声入力手段と、電子機器の動作を実行する動作手段とを備える。通信手段は、音声入力手段が受け付けた発話の発話内容をサーバに送信し、発話内容に応じた命令をサーバから受信する。動作手段は、受信した命令に基づいて動作を実行する。
他の実施の形態に従うと、サーバの制御方法が提供される。この制御方法は、少なくとも1つの電子機器による未来の動作の指示を含む発話を受け付けるステップと、少なくとも1つの電子機器の識別情報および指示の内容を保持するステップと、指示の内容に応じた命令を生成するステップと、未来の動作が行なわれる時機の到来に基づいて、識別情報および命令を当該1つ以上の電子機器に送信するステップとを備える。
さらに他の局面に従うと、上記の方法をコンピュータに実行させるためのプログラムが提供される。
この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。
ユーザが本実施形態に係るシステム100を使用する一態様を表わす図である。 システム100の構成の一例を表わすブロック図である。 サーバ120を実現するコンピュータシステムの構成を表わすブロック図である。 サーバ120のハードディスク5におけるデータの格納の一態様を表わす図である。 システム100によって出力されるメッセージを表わす図である。 システム100に出力される時刻を規定するデータである。 ロボット110のハードウェア構成を表わすブロック図である。 システム100が目覚まし設定の登録を行なうときに実行する処理の一部を表わすフローチャートである。 目覚まし設定の変更を行なうための処理を表わすフローチャートである。 目覚まし設定の確認処理を表わすフローチャートである。 目覚まし設定を取り消す処理を表わすフローチャートである。 サーバ120が備えるハードディスク5が格納するデータの一態様を概念的に表わす図である。 システム100が実行する処理の一部を表すフローチャートである。
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
<第1の実施の形態>
図1を参照して、本実施の形態に係る技術思想について説明する。図1は、ユーザが本実施形態に係るシステム100を使用する一態様を表わす図である。システム100は、複数の電子機器(たとえば、ロボット110A,110B,…110N)と、サーバ120とを備える。ロボット110A,110B,110Nを総称するときは、ロボット110という。サーバ120とロボット110とはインターネット130その他のネットワークによって互いに繋がれている。ロボット110は、たとえば、自走機能を備えた掃除機として実現される。なお、電子機器は、ロボットに限られず、電子レンジ、エアコンその他の機器であってもよい。電子機器は、少なくとも、音声入力機能と、サーバ120との通信機能と、動作機能とを備えていればよい。
(目覚まし設定)
ある局面において、目覚まし設定の時刻は、たとえば、24時間単位で設定可能であり、また、10分単位で指定可能である。目覚まし機能を利用したい場合には、ユーザ150は、毎回声をかけることにより時刻を設定することができる。ユーザ150が、一度時刻を設定すると、2回目以降は簡単に同じ時刻に設定することができる。
ロボット110が設定したい時刻を聞いてから、たとえば、約30秒以内に希望時刻が把握できなかった場合、タイムアウトとなり、目覚まし機能の設定は完了しない。なお、当該タイムアウトまでの時間は、例示された時間に限られず、その他の時間が用いられてもよい。また、タイムアウトまでの時間は、システム100のユーザによって設定されてもよい。この場合のユーザは、サーバ120の運営者およびロボット110のユーザのいずれであってもよい。
なお、別の局面において、ロボット110は、設定時刻に「目覚ましソング」を歌い得る。この場合、ロボット110のユーザは、途中で歌を止めたい場合には、ロボット110の本体のスタート/停止ボタン(図示しない)を予め定められた時間(たとえば2秒)以上長押しすることにより、ロボット110による歌唱を止めることができる。
より具体的には、ある局面において、ユーザ150は、「目覚まし設定して」と発話する(メッセージ151)。ロボット110Aまたはサーバ120がメッセージ151の音声の内容を認識すると、ロボット110Aは、「わかった。設定したい時刻を言ってね。」という応答(メッセージ152)を出力する。ユーザは、メッセージ152を認識すると、「7時20分」と発話する(メッセージ153)。ロボット110Aまたはサーバ110が、メッセージ153の音声の内容を認識すると、ロボット110Aは、「目覚まし設定したよ。7時20分に起こすからね。」と発話する(メッセージ154)。
このようにして、ユーザは、ロボット110の発話により心地よく目覚めたいと望むとき、音声による会話で時刻を指定して目覚ましをセットすることができる。
その後、設定された時刻が到来すると、ロボット110は、サーバ120からのデータに基づいて、メッセージあるいは歌を音声で出力する。この音声は、目覚まし設定の時に使用された声優の音声でもよく、別の局面において、当該声優とは異なる人の歌声が出力されてもよい。
(2回目以降の設定)
ユーザが目覚ましを一度設定している場合には、音声会話により簡単に同じ時刻に目覚まし機能を再度設定することができる。たとえば、ユーザが「目覚まし設定して」と発話すると、ロボット110は「目覚まし設定したよ。7時20分に起こすからね♪」と発話する。この場合、ロボット110の発話は、既に設定されている時刻に基づいて行なわれる。当該目覚ましの時刻は、ロボット110に、あるいは、サーバ120に保存される。
(目覚まし時刻の変更)
ユーザは、ロボット110による目覚まし時刻を音声会話により変更することができる。たとえば、ユーザが「目覚まし設定して」と発話する。ユーザの発話の内容がロボット110またはサーバ120によって認識されると、ロボット110は「わかった♪ 設定したい時刻を言ってね。」と発話する。ユーザが「6時20分」と発話する。ユーザの発話の内容がロボット110またはサーバ120によって認識されると、ロボット110は、「目覚まし設定したよ。6時20分に起こすからね♪」と発話する。このようにして、目覚まし時刻の設定が変更される。
なお、目覚まし時刻の設定は、上記の態様に限られない。たとえば、ユーザが変更後の時刻(たとえば、6時20分)と発話する代わりに、「いつもより1時間早く起こして」と発話してもよい。ロボット110は、当該ユーザの標準の目覚まし設定時刻として7時20分を記憶している場合には、上記発話の内容を認識したとき、新たな時刻として6時20分を算出し、目覚まし設定時刻として登録し得る。
(目覚まし設定時刻の確認)
ユーザは、ロボット110の目覚まし設定時刻を音声会話で確認することができる。たとえば、ユーザが「目覚まし確認して」と発話する。当該発話がロボット110またはサーバ120によって認識されると、ロボット110は、ロボット110またはサーバ120に保存されているデータに基づき、「目覚まし設定してるよ♪ 7時に起こすからね。」と発話する。
別の局面において、目覚ましが設定されていない場会がある得る。この場合、ユーザが「目覚まし設定して」と発話して当該発話が認識されても、ロボット110は、当該ユーザの目覚ましがロボット110またはサーバ120に保存されていないことを検知する。ロボット110は、その検知の結果に基づいて、「目覚まし設定していないよ。」と発話する。
(目覚まし設定の取り消し)
ユーザは、ロボット110の目覚まし機能を、音声会話で取り消すことができる。たとえば、ユーザが「目覚まし取り消して」と発話する。当該発話がロボット110またはサーバ120によって認識されると、ロボット110は、「わかった。目覚まし取り消していい?」と発話する。ユーザが、確認の結果を伝えるメッセージ(たとえば「いいよ」)を発話すると、ロボット110は「目覚まし設定を取り消したよ。」と発話する。
別の局面において、ユーザは目覚まし設定の取り消しの指示をキャンセルすることができる。たとえば、ユーザが「目覚まし取り消して」と発話する。当該発話がロボット110またはサーバ120によって認識されると、ロボット110は、「わかった。目覚まし取り消していい?」と発話する。気が変わったユーザが、「やめる」と発話する。当該発話がロボット110またはサーバ120によって認識されると、ロボット110は、「目覚まし設定したままです。7時に起こすからね♪」と発話する。
図2を参照して、本実施の形態に係るシステム100の構成について説明する。図2は、システム100の構成の一例を表わすブロック図である。システム100は、音声入力部210と、音声認識処理部220と、抽出部230と、記憶部240と、動作部250と、命令生成部260と、計時部270とを備える。
音声入力部210は、システム100に対する発話(たとえば目覚ましを設定する指示、変更する指示等)の入力を受け付ける。音声入力部210は、その発話に応じた信号を音声認識処理部220に出力する。当該信号は、たとえば発話の識別情報、発話に含まれる当該指示とを含む。当該指示は、音声データおよび文字データのいずれであってもよい。
音声認識処理部220は、音声入力部210から送られる信号に基づいて識別情報と発話に含まれる指示とを音声認識処理し、その処理の結果を抽出部230に出力する。
抽出部230は、音声認識処理部220から送られた認識処理の結果から当該発話の識別情報と発話に含まれる指示の内容とを抽出し、抽出したデータを記憶部240に格納する。
記憶部240は、システム100に対して与えられたデータ、システム100において生成されたデータ等を保持する。
動作部250は音声出力部251を含む。動作部250は、音声認識処理部220からの出力の結果に基づいて、命令生成部260によって生成された命令により指定された動作を実行する。動作部250により行なわれる動作は、たとえば、アラーム音声の出力、その他音声の出力、掃除機能がシステム100に含まれている場合には、掃除のための機構の運転などを含み得る。
音声出力部251は、命令生成部260から命令を受信したことに基づいて、音声認識処理部220から与えられた信号に基づき応答を音声により出力する。
命令生成部260は、動作部250に動作を実行させるための命令を生成する。たとえば、命令生成部260は、記憶部240に保持されているデータと、計時部270によって計測される時間データとを用いて、当該命令を生成する。命令生成部260は、生成した命令を動作部250に送る。当該命令は、機器の識別情報と動作の具体的な指示内容とを含む。
計時部270は、システム100における時刻を計測する。計時部270は、予め保持しているクロックに基づいて時間を計測し、あるいは、システム100に接続されている他の情報通信装置から正確な時刻情報を受信し得る。正確な時刻情報は、たとえば、GPS(Global Positioning System)信号その他の測位信号によって取得された時刻情報を含み得る。
[サーバの構成]
図3を参照して、本実施の形態に係るサーバ120の構成について説明する。図3は、サーバ120を実現するコンピュータシステムの構成を表わすブロック図である。
サーバ120は、主たる構成要素として、プログラムを実行するCPU(Central Processing Unit)1と、サーバ120のユーザによる指示の入力を受けるマウス2およびキーボード3と、CPU1によるプログラムの実行により生成されたデータ、又はマウス2若しくはキーボード3を介して入力されたデータを揮発的に格納するRAM(Random Access Memory)4と、データを不揮発的に格納するハードディスク5と、光ディスク駆動装置6と、通信IF(Interface)7と、モニタ8とを備える。各構成要素は、相互にバスによって接続されている。光ディスク駆動装置6には、CD−ROM9その他の光ディスクが装着される。通信IF7は、USB(Universal Serial Bus)インターフェイス、有線LAN(Local Area Network)、無線LAN、Bluetooth(登録商標)インターフェイス等を含むが、これらに限られない。
サーバ120における処理は、各ハードウェアおよびCPU1により実行されるソフトウェアによって実現される。このようなソフトウェアは、ハードディスク5に予め格納されている場合がある。また、ソフトウェアは、CD−ROM9その他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、光ディスク駆動装置6その他のデータ読取装置によってデータ記録媒体から読み取られて、あるいは、通信IF7を介してダウンロードされた後、ハードディスク5に一旦格納される。そのソフトウェアは、CPU1によってハードディスク5から読み出され、RAM4に実行可能なプログラムの形式で格納される。CPU1は、そのプログラムを実行する。
図3に示されるサーバ120を構成する各モジュールは、一般的なものである。したがって、本実施の形態に係る本質的な部分の一つは、サーバ120に格納されたプログラムであるともいえる。なお、サーバ120のハードウェアの動作は周知であるので、詳細な説明は繰り返さない。
データ記録媒体としては、CD−ROM、FD(Flexible Disk)、ハードディスクに限られず、磁気テープ、カセットテープ、光ディスク(MO(Magnetic Optical Disc)/MD(Mini Disc)/DVD(Digital Versatile Disc))、IC(Integrated Circuit)カード(メモリカードを含む)、光カード、マスクROM、EPROM(Electronically Programmable Read-Only Memory)、EEPROM(Electronically Erasable Programmable Read-Only Memory)、フラッシュROMなどの半導体メモリ等の固定的にプログラムを担持する不揮発性のデータ記録媒体でもよい。
ここでいうプログラムとは、CPUにより直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含み得る。
[データ構造]
図4〜図6を参照して、本実施の形態に係るサーバ120のデータ構造について説明する。図4は、サーバ120のハードディスク5におけるデータの格納の一態様を表わす図である。図5は、システム100によって出力されるメッセージを表わす図である。図6は、システム100に出力される時刻を規定するデータである。
図4に示されるように、ある局面において、ハードディスク5は、タイプ410と、テンプレート420とを保持している。タイプ410は、テンプレート420の種類を表わす。たとえば、タイプ410は、予め設定された「標準」を表す情報と、当該標準の変形例を表わす「派生」の種類を表わす情報とを含み得る。タイプ410は、その他の分類を含み得る。
テンプレート420は、システム100による出力として規定されたメッセージを表わす。テンプレートの内容は、たとえば、本実施の形態に係るシステム100の提供者によって規定される。派生タイプのテンプレートは、標準のテンプレートの内容に類似する、あるいは関連すると考えられる発話内容として規定される。
図5を参照して、ある局面において、サーバ120のハードディスク5は、メッセージID(Identification)510とテンプレート520とを保持している。メッセージID510は、テンプレート520として保持されている各テンプレートのそれぞれを識別する。テンプレート520は、たとえば、声優その他実際の一人以上の人間の発話から得られたデータを用いて作成される。テンプレート520は、定期的に、あるいは、不定期に変更され得る。さらに他の局面において、システム100のユーザの発話がテンプレート520として登録されてもよい。
なお、図5に示される例は、目覚ましに関する発話の内容であるが、本実施の形態に係る技術思想を実現するための例は、目覚ましに関する発話に限られない。たとえば、エアコンの動作設定(ON、OFF、温度設定、タイマー設定等)、炊飯器の動作設定(開始時刻のタイマー設定、炊飯モード等)、電子レンジの動作設定(出力、調理時間等)のように、機器の動作設定のための発話が用いられてもよい。
図6を参照して、ある局面において、ハードディスク5は、データID610と、時刻データ620とを保持している。データID610は、時刻データ620において規定されている各時刻データを識別する。時刻データ620は、図5に示されるメッセージのテンプレート520と同様に、声優その他の実際の人間により発話としてサーバ120に入力される。他の局面において、時刻データ620は、合成音によって、あるいは、システム100のユーザによる発話によって実現されてもよい。
図7を参照して、本実施の形態に係るロボット110の構成について説明する。図7は、ロボット110のハードウェア構成を表わすブロック図である。ある局面において、ロボット110は、操作パネル710と、マイク720と、スピーカ730と、モニタ740と、コントローラ750と、メモリ760と、モータ770と、車輪780と、通信I/F790とを備える。コントローラ750は、音声認識処理プロセッサ755を含む。
操作パネル710は、ロボット110に対する命令の入力を受け付ける。操作パネル710は、たとえば、タッチパネル、トグルスイッチその他の物理的なスイッチとして実現される。
マイク720は、ロボット110に対する音声の入力を受け付けて、当該音声に応じた信号をコントローラ750に出力する。
スピーカ730は、コントローラ750から送られる信号に基づいて音声を出力する。
モニタ740は、コントローラ750から送られる信号に基づいてロボット110の動作の状態その他の情報などを表示する。モニタ740は、たとえば、液晶モニタ、有機EL(Electro Luminescence)モニタとして実践される。
コントローラ750は、操作パネル710から送られる命令に基づいてロボット110の動作を制御する。別の局面において、コントローラ750は、マイク720から送られる信号に含まれる命令に基づいて、ロボット110の動作を制御し得る。さらに別の局面において、コントローラ750は、メモリ760に保持されているデータ、通信I/F790を介してロボット110の外部から受信したデータに基づいて、ロボット110の動作を制御し得る。
音声認識処理プロセッサ755は、マイク720から送られる信号に対して音声認識処理を実行し、その処理の結果をメモリ760に格納する。音声認識処理プロセッサ755は、CPUその他のプロセッサとして実現される。また、音声認識処理プロセッサ755は、コントローラ750に与えられる信号を音声信号に変換し、当該音声信号をスピーカ730に送る。スピーカ730は、その音声信号に基づいて音声を出力する。
メモリ760は、ロボット110に予め規定された動作を実行させるためのプログラムおよび当該プログラムの実行に必要なデータを保持している。メモリ760は、フラッシュメモリ、ハードディスクその他の記憶装置によって実現される。たとえば、メモリ760は、機器ID761と、ユーザID762とを保持している。機器ID761は、ロボット110に与えられた固有の識別番号を表わす。ユーザID762は、ロボット110のユーザとして登録されたユーザを識別する。当該ユーザは、たとえばロボット110の購入者、使用者などである。ユーザID762は、たとえば、当該ユーザによって任意に入力される。
モータ770は、コントローラ750から送られる信号に基づいて駆動する。モータ770は、その回転力を車輪780に与える。車輪780は、ロボット110の動作を360度移動できるように構成されている。車輪780が回転すると、ロボット110はその方向に移動する。
通信I/F790は、ネットワークに接続されて、当該ネットワークを介して他の装置とロボット110との通信を仲介する。通信I/F790は、たとえば、無線LAN(Local Area Network)によって実現される。通信の種類は特に限定されない。
[制御構造]
図8から図11を参照して、本実施の形態に係るにシステム100の制御構造について説明する。図8は、システム100が目覚まし設定の登録を行なうときに実行する処理の一部を表わすフローチャートである。図9は、目覚まし設定の変更を行なうための処理を表わすフローチャートである。図10は、目覚まし設定の確認処理を表わすフローチャートである。図11は、目覚まし設定を取り消す処理を表わすフローチャートである。以下の処理は、たとえば、システム100に含まれる1つ以上のプロセッサによって実現され得る。1つ以上のプロセッサは、たとえば、ロボット110やサーバ120に含まれるものである。
(目覚まし設定の登録)
図8を参照して、ステップS810にて、システム100は、目覚まし設定を要求する発話の入力を受け付ける。たとえば、ロボット110のコントローラ750は、マイク720を介して、ロボット110のユーザによる目覚まし設定を要求する発話(たとえばメッセージ151)の入力を受ける。
ステップS820にて、システム100は、発話の内容を音声認識処理する。たとえば、ある局面において、サーバ120のCPU1は、音声認識処理部220として発話の内容を音声認識処理する。別の局面において、ロボット110の音声認識処理プロセッサ755は、音声認識処理部220として、当該発話の内容を音声認識処理してもよい。
ステップS830にて、システム100は、当該発話の内容に基づいて、設定時刻の入力を促す音声(たとえばメッセージ152)を出力する。当該音声データは、たとえば、システム100において予め登録されている声優の音声を録音したデータその他人間の音声を録音したデータとして実現される。他の局面において、当該音声データは、システム100のユーザの音声を録音することによって得られたデータとして、あるいは、合成音のデータとして実現されてもよい。以下の処理においてシステム100が音声を出力するためのデータも同様である。
ある局面において、サーバ120のCPU1は、ロボット110のスピーカ730を介して当該音声を出力する。ロボット110のユーザは、ロボット110の近傍にいる場合には、当該音声を聴取できる。
ステップS840にて、システム100は、音声認識処理の結果に基づいて、設定時刻を認識できたか否かを判断する。より具体的には、たとえば、コントローラ750またはCPU1は、入力された設定時刻を認識できたかどうかを判断する。システム100は、設定時刻を認識できたと判断すると(ステップS840にてYES)、制御をステップS870に切り換える。そうでない場合には(ステップS840にNO)、システム100は、制御をステップS850に切り換える。
ステップS850にて、システム100は、内部のクロックによる計測の結果に基づいて、設定時刻の認識処理がタイムアウトになったか否かを判断する。システム100は、設定時刻の認識処理がタイムアウトになったと判断すると(ステップS850にてYES)、処理を終了する。そうでない場合には(ステップS850にてNO)、システム100は、制御をステップS860に切り換える。
ステップS860にて、システム100は、再度発話を促すメッセージ(たとえばメッセージ152)を音声で出力する。その後、制御は、ステップS840に戻される。
ステップS870にて、システム100は、機器(たとえばロボット110)の識別情報(たとえば機器ID761)と目覚まし設定の時刻とを関連付けて保存する。たとえば、ある局面において、CPU1は、ハードディスク5に、当該識別情報と目覚まし設定の時刻とを保存する。別の局面において、ロボット110のコントローラ750が、メモリ760に機器の識別情報と目覚まし設定の時刻とを保存してもよい。
ステップS880にて、システム100は、発話された時刻で目覚まし設定ができた旨のメッセージ(命令内容を確認するための情報)を音声で出力する(たとえばメッセージ154)。ある局面において、ロボット110のスピーカ730は、サーバ120から送られる信号に基づき当該メッセージを音声で出力する。その後、システム100は、登録処理を終了する。
(設定の変更)
図9を参照して、ステップS910にて、システム100は、ユーザによる発話の音声認識処理の結果に基づいて、目覚まし設定の変更を促すメッセージの入力を検出する。
ステップS920にて、システム100は、予め保存されているデータに基づいて、設定したい時刻の発話のメッセージを音声で出力する。当該音声データは、たとえば、システム100において予め登録されている声優の音声を録音したデータその他人間の音声を録音したデータとして実現される。他の局面において、当該音声データは、システム100のユーザの音声を録音することによって得られたデータとして、あるいは、合成音のデータとして実現されてもよい。
ステップS930にて、システム100は、当該メッセージの音声認識処理の結果に基づいて、設定時刻を認識できたか否かを判断する。システム100は、設定時刻を認識できたと判断すると(ステップS930にてYES)、制御をステップS960に切り換える。そうでない場合には(ステップS930にてNO)、システム100は、制御をステップS940に切り換える。
ステップS940にて、システム100は、設定時刻の認識処理がタイムアウトしたか否かを判断する。システム100は、設定時刻の認識処理がタイムアウトしたと判断すると(ステップS940にてYES)、変更ができない旨のメッセージを出力して、当該変更処理を終了する。そうでない場合には(ステップS940にてNO)、システム100は、制御をステップS950に切り換える。
ステップS950にて、システム100は、再度、時刻の入力を促すメッセージを音声で出力する。その後、制御は、ステップS930に戻される。
ステップS960にて、システム100は、音声認識処理の結果に基づいて、設定を止める等の入力を検出したか否かを判断する。この判断は、たとえば、設定を止める旨の命令がシステム100に対して与えられたか否かに基づいて行なわれる。システム100は、当該入力を検出したと判断すると(ステップS960にてYES)、制御をステップS980に切り換える。そうでない場合には(ステップS960にてNO)、システム100は、制御をステップS970に切り換える。
ステップS970にて、システム100は、時刻が設定中であるか否かを判断する。より具体的には、システム100は目覚ましを設定する時刻が記憶部240に保存されているか否かを判断する。システム100は、時刻が設定中であると判断すると(ステップS970にてYES)、制御をステップS990に切り換える。そうでない場合には(ステップS970にてNO)、システム100は、制御をステップS980に切り換える。
ステップS980にて、システム100は、予め準備されている音声データに基づいて、目覚まし設定を中止した旨のメッセージを音声で出力する。
ステップS990にて、システム100は、予め準備されている音声データに基づいて、たとえば「目覚まし設定したままです。○○時○○分に起こすからね。」とのメッセージを音声で出力する。
(目覚まし設定の確認処理)
図10を参照して、ステップS1010にて、システム100は、音声認識処理の結果に基づいて、目覚ましを確認すべき旨の命令を表すユーザ発話を検出する。
ステップS1020にて、システム100は、検出されたユーザ発話に基づいて、記憶部240を参照して目覚まし設定の内容を確認する。たとえば、CPU1は、ハードディスク5を参照して、当該ユーザに関連付けられた目覚まし設定の有無を確認する。
ステップS1030にて、システム100は、記憶部240に保存されている内容に基づいて、目覚まし設定が存在しているか否かを判断する。システム100は、目覚まし設定が存在していると判断すると(ステップS1030にてYES)、制御をステップS1040に切り換える。そうでない場合には(ステップS1030にてNO)、システム100は、制御をステップS1050に切り換える。
ステップS1040にて、システム100は、予め保存されている音声データに基づいて、目覚まし設定している旨のメッセージを音声で出力する。
ステップS1050にて、システム100は、予め保存されている音声データに基づいて、目覚まし設定していない旨のメッセージを音声で出力する。
(目覚まし設定の取り消し)
図11を参照して、ステップS1110にて、システム100は、音声認識処理の結果に基づいて、目覚まし設定を取り消す旨を表すユーザ発話の入力を検出する。
ステップS1120にて、システム100は、当該ユーザ発話が検出されたことに基づいて、目覚ましが設定されているか否かを判断する。たとえば、CPU1は、ハードディスク5を参照して、当該ユーザに関連付けられている目覚まし設定の有無を確認する。システム100は、目覚ましが設定されていると判断すると(ステップS1120にてYES)、制御をステップS1130に切り換える。そうでない場合には(ステップS1120にてNO)、システム100は、制御をステップS1125に切り換える。
ステップS1125にて、システム100は、予め保存されている音声データに基づいて、目覚ましが設定されていない旨のメッセージを音声で出力する。
ステップS1130にて、システム100は、予め保存されている音声データに基づいて、目覚まし設定の取り消しを確認するメッセージを音声で出力する。
ステップS1140にて、システム100は、取り消しを実行する旨の指示が入力されたか否かを判断する。この判断は、システム100に対する信号の内容に基づいて行なわれる。システム100は、当該指示が入力されたと判断すると(ステップS1140にてYES)、制御をステップS1160に切り換える。そうでない場合には(ステップS1140にてNO)、システム100は、制御をステップS1150に切り換える。
ステップS1150にて、システム100は、現在の時刻がタイムアウトしたか否かを判断する。システム100は、現在の時刻がタイムアウトしたと判断すると(ステップS1150にてYES)、制御をステップS1180に切り換える。そうでない場合には(ステップS1150にてNO)、システム100は、制御をステップS1155に切り換える。
ステップS1155にて、システム100は、予め保存されている音声データに基づいて、指示の入力を促すメッセージを音声で出力する。その後、制御は、ステップS1140に戻される。
ステップS1160にて、システム100は、目覚まし設定のデータを消去する。たとえば、CPU1は、ハードディスク5に保存されている当該ユーザに関連するデータを削除する。
ステップS1170にて、システム100は、予め保存されている音声データに基づいて、目覚まし設定を取り消した旨のメッセージを音声で出力する。
ステップS1180にて、システム100は、予め保存されている音声データに基づいて、目覚まし設定が残っている旨のメッセージを音声で出力する。
[データ構造]
図12を参照して、本実施の形態に係るシステム100を実現するサーバ120のデータ構造について説明する。図12は、サーバ120が備えるハードディスク5が格納するデータの一態様を概念的に表わす図である。ある局面において、ハードディスク5は、ユーザID210と、機器ID1220と、目覚まし設定時刻1230と、音声バージョン1240とを保持している。
ユーザID1210は、ロボット110のユーザを識別する。機器ID1220は、当該ロボットを識別する。
目覚まし設定時刻1230は、機器ID1220によって特定される機器(たとえばロボット110Aなど)が目覚ましを鳴動すべき時刻を表わす。音声バージョン1240は、目覚ましが鳴動するときに出力される音声を発話するときの発話方法を表わす。たとえばユーザID1210が「user001」で特定される機器(robot0010)については、声優Aによる音声が出力される。
[制御構造]
図13を参照して、システム100の制御構造についてさらに説明する。図13は、システム100において実行される処理の一部を表すフローチャートである。
ステップS1310にて、サーバ120は、内蔵するクロックからの出力に基づいて、目覚まし設定された時刻の到来を検知する。
ステップS1320にて、サーバ120は、音声再生用のコンテンツデータを記憶部240から読み出す。コンテンツデータは、たとえば、楽曲等を含み得る。
ステップS1330にて、サーバ120は、コンテンツデータおよび目覚まし設定を用いてロボット110に再生させるための音声を生成する。
ステップS1340にて、サーバ120は、生成した音声と機器IDとを含む信号を生成する。
ステップS1350にて、サーバ120は、生成した信号を当該機器IDによって識別されるロボット110に送信する。
ステップS1360にて、ロボット110は、受信した信号に基づいて、コンテンツを目覚まし音声として再生する。より具体的には、たとえば、ロボット110のスピーカ730は、サーバ120から送られた信号に基づいて、ある声優によるメッセージを目覚まし音声として出力する。
なお、システム100から出力される音声は、特定の声優の音声に限られない。また、出力される音声は、同一人物による音声に限られず、複数の人物の各々による音声が用いられてもよい。たとえば、システム100は、目覚ましの設定時、変更時、確認時、設定された時刻の到来時の各々を異なる音声で出力してもよい。
また、他の局面において、設定された時刻が到来したときに、ロボット110は、発話に代えて、他の動作を実行してもよい。たとえば、ロボット110が掃除機能を備えている場合、ロボット110は、掃除運転を開始してもよい。
<第2の実施の形態>
以下、第2の実施の形態について説明する。第2の実施の形態に係るシステムは、後述する点を除いて、第1の実施の形態に係るシステム100の構成と同様の構成によって実現される。したがって、本実施の形態に係るシステムの構成の説明は繰り返さない。
第2の実施の形態に係るシステムは、エアコン、電子レンジその他の機器を用いて実現される。当該機器は、当該機器に固有な機能(たとえば、冷暖房機能、加熱機能等)に加えて、少なくとも、音声認識機能と、サーバ120との通信機能と、音声出力機能とを備える。
たとえば、当該機器がエアコンの場合、ある局面において、ユーザは、エアコンの動作(運転開始時刻の設定、確認、変更、削除など)を対話で設定することができる。この場合、ロボット110の代わりに、通信機能と音声認識機能とを備えるエアコンまたは当該エアコンのリモートコントローラ、もしくは、エアコンとの通信機能および音声認識機能を備える通信端末が、エアコンのユーザと対話し得る。
別の局面において、電子レンジが音声認識機能を備えてもよい。たとえば、ユーザが食材を電子レンジに入れた後に、食材の名称、出力および調理時間を電子レンジに発話する。たとえば、最初に、ユーザは「グラタンを加熱して。」と発話する。その発話が電子レンジあるいはサーバ120によって認識されると、電子レンジは、たとえば「わかった。グラタンを加熱するよ。標準の調理でいい?」と発話する。ユーザが、「いいよ。」と発話すると、電子レンジは「了解。グラタンを1000wで3分間加熱するね。」と発話し、電子レンジは運転を開始する。その後、指定された時間が経過すると、電子レンジは、「グラタンができたよ。熱いから気を付けて。」と発話する。このようにすると、たとえば、一人暮らしのユーザは食事を楽しむことができる。なお、運転時間の確認、変更、キャンセルなどは、第1の実施の形態における目覚まし設定時刻の確認、変更、キャンセルと同様に実現可能である。
別の局面において、炊飯器が用いられてもよい。当該炊飯器は、ロボット110と同様に、音声認識機能と、音声出力機能と、サーバ120との通信機能とを備える。この場合、ユーザは炊飯器にコメを入れる。ユーザは「ご飯を炊いて」と発話する。その発話が炊飯器あるいはサーバ120によって認識されると、炊飯器は、「わかった。何合炊くの?」と発話する。ユーザが、たとえば「3合」と発話する。その発話が炊飯器あるいはサーバ120によって認識されると、炊飯器は、「わかった。何時に食べるの?」と発話する。ユーザが、たとえば「7時」と発話する。その発話が炊飯器あるいはサーバ120によって認識されると、炊飯器は、「わかった。7時までに3合炊くよ。」と発話する。その後、炊飯器は、炊飯に必要な水が満たされていることを確認すると、タイマー設定を行ない、7時にユーザがご飯を食べられるように炊飯する。
以上のようにして、本実施の形態によれば、機器が発話するため、その機器のユーザは楽しみながら機器を使用することができる。
<第3の実施の形態>
以下、第3の実施の形態について説明する。第3の実施の形態に係るシステムは、後述する点を除いて、第1の実施の形態に係るシステム100の構成と同様の構成によって実現される。したがって、本実施の形態に係るシステムの構成の説明は繰り返さない。
第3の実施の形態に係るシステムは、スーパーマーケット、ブティックその他の商業施設にも用いられる。たとえば、閉店前のタイムサービスが行なわれる場合、当該商業施設の管理者は、ロボット110に対して、タイムサービスを開始する時刻を設定し、変更し、確認し、解除(消去)することができる。あるいは、ロボット110は、潜在的な顧客からの発話に対してプロモーション(宣伝)を行なうように構成されてもよい。
<第4の実施の形態>
以下、第4の実施の形態について説明する。第4の実施の形態に係るシステムは、後述する点を除いて、第1の実施の形態に係るシステム100の構成と同様の構成によって実現される。したがって、本実施の形態に係るシステムの構成の説明は繰り返さない。
本実施の形態に係るシステムは、複数のロボットに一斉に通知を発話させることができる。すなわち、目覚ましその他の通知機能の実現の対象者は一人のユーザに限られない。たとえば、システム100は、予め作成されたグループに含まれる複数のロボットの各々に対して上記通知機能を実現してもよい。この場合、サーバ120は、当該グループに含まれる各ロボットのネットワークアドレスを保持しており、指定された時刻が到来すると、各ネットワークアドレスに対して、目覚ましのための信号を送信する。このようにすると、効率的に複数ユーザに対する通知が実現される。
さらに別の局面において、あるユーザが通知に対する応答を発話で行った場合に、その旨を、当該グループに含まれる他のユーザにも通知される構成が用いられてもよい。
<第5の実施の形態>
以下、第5の実施の形態について説明する。第5の実施の形態に係るシステムは、後述する点を除いて、第1の実施の形態に係るシステム100の構成と同様の構成によって実現される。したがって、本実施の形態に係るシステムの構成の説明は繰り返さない。
本実施の形態に係るシステムにおいて、ロボット110が発話する内容は、目覚ましの時刻設定に関するメッセージに限られない。ロボット110は、目覚まし以外のメッセージを発話することができる。たとえば、ロボット110は、「今日は電気設備の点検があります。1時から2時まで停電します。」というメッセージのように、お知らせのためのメッセージを発話してもよい。
このような発話は、プッシュ型およびプル型のいずれの態様でも実現できる。たとえば、プッシュ型の場合、サーバ120が当該ユーザのスケジュールを読み出して、該当するスケジュールを当該ユーザのロボット110に通知する。プル型の場合、ユーザがたとえば、「今日の予定は何かある?」というようにスケジュールを問いかける発話を行ない、その発話がサーバ120またはロボット110によって認識されると、サーバ120は当該ユーザのスケジュールを検索して、該当するスケジュールが存在した場合に、スケジュールの内容を音声で出力する。このような構成により、ユーザは、ロボット110を秘書として使用することができる。
別の局面において、他のユーザも関与するスケジュールが検索された場合、ロボット110は、ユーザに「Aさんとの約束があります。」という発話をする。ユーザが「了解。」と返答すると、その返答はロボット110からサーバ120に送られる。サーバ120は、ユーザの返答を認識すると、当該他のユーザが使用する他のロボットを通じて、「Xさん(ロボット110のユーザ)との約束があります。」と発話する。Aさんが「了解」と返答すると、その返答は、Aさんが使用するロボットからサーバ120に送られる。サーバ120は、ロボット110に対して、「Aさんが約束を確認したよ。」と発話する。このようにすると、複数のユーザが共有するスケジュールが履行されることが確実になる。
<第6の実施の形態>
以下、第6の実施の形態について説明する。第6の実施の形態に係るシステムは、後述する点を除いて、第1の実施の形態に係るシステム100の構成と同様の構成によって実現される。したがって、本実施の形態に係るシステムの構成の説明は繰り返さない。
本実施の形態に係るシステムは、学習機能を備える。たとえば、システムは、各ユーザの目覚まし設定の履歴を保存していてもよい。その上で、システムは、ユーザによる目覚まし設定の時刻が通常と異なる場合には、その履歴に基づいて、その目覚まし設定の時刻が正しいかどうかを確認するメッセージ(たとえば「本当?その時刻でいいの?」)と発話してもよい。このような発話が出力されると、ユーザは、発話した時刻が正しいかどうかを再度確認することになるので、誤った時刻設定を防止することができる。
<第7の実施の形態>
以下、第7の実施の形態について説明する。第7の実施の形態に係るシステムは、後述する点を除いて、第1の実施の形態に係るシステム100の構成と同様の構成によって実現される。したがって、本実施の形態に係るシステムの構成の説明は繰り返さない。
本実施の形態に係るシステムは、サーバ120からロボット110に一度送信されてロボット110によって使用された音声データがロボット110に保存され、ロボット110によって再度利用される点で、前述の実施の形態と異なる。
すなわち、ロボット110は、声優その他の人の発話を含むメッセージと、当該メッセージを識別するIDとを保存する。ロボット110は、予め設定された目覚まし時刻の到来に基づいて、メッセージを音声で出力し、あるいは、予め指定された歌を歌う。その後、ロボット110が、IDを含む命令を受信すると、当該受信した命令に含まれるIDがロボット110に保存されているか否かを確認する。ロボット110は、当該IDがロボット110に保存されていることを確認すると、保存されているIDに関連付けられているメッセージあるいは楽曲を音声で出力する。このようにすると、サーバ120とロボット110との間の通信が不安定な場合であっても、ロボット110は、ローカルに保存されたデータを用いて、設定された時刻に確実にメッセージを発話することができる。
<第8の実施の形態>
以下、第8の実施の形態について説明する。第8の実施の形態に係るシステムは、後述する点を除いて、第1の実施の形態に係るシステム100の構成と同様の構成によって実現される。したがって、本実施の形態に係るシステムの構成の説明は繰り返さない。
本実施の形態に係るシステムは、ロボット110が複数種類の音声を出力できる点で前述の各実施の形態に係るシステムと異なる。たとえば、サーバ120は、複数の声優の各々の音声を出力するための音声データを予め保持している。ユーザは、どの声優の音声による発話を望むかを示す情報をサーバ120に送信する。当該情報は、声優のIDを含む。サーバ120は、その情報を受信すると、声優のIDを取り出し、当該ユーザに対するメッセージとして、当該声優の音声を用いたメッセージを生成し、そのメッセージをロボット110に送信する。このようにして、ユーザは、希望の声優の音声による目覚ましを楽しむことができる。
別の局面において、サーバ120は、複数の声優のいずれかの音声による発話をランダムにロボット110に出力し得る。ランダムな出力は、たとえば乱数発生器により発生される乱数を用いて実現され得る。このようにすると、ロボット110のユーザは、どの声優による目覚まし音声がロボット110から出力されるか事前に知ることができないので、通常のアラーム機能に加えて、ちょっとしたサプライズを享受し得る。
[構成の要約]
以上より、本開示に係る技術的特徴は、たとえば、システム100、サーバ120、ロボット110として、以下のように要約し得る。
(1)ある実施の形態に従うと、発話によりロボット110を動作させるシステム100が提供される。システム100は、発話を受け付ける複数のロボット(たとえば、ロボット110A,110B,・・・,110N)と、複数のロボット110と通信可能なサーバ120とを備える。ロボット110は、発話を受け付けるための音声入力部(たとえば、マイク720)と、ロボット110の識別情報および受け付けられた発話の内容をサーバに送信するための送信部(たとえば、通信I/F790)とを備える。サーバは、識別情報および発話の内容を保持するためのハードディスク5と、発話の内容に応じた命令を生成するための生成部(たとえばCPU1)と、識別情報および命令を当該ロボット110に送信するための送信部(たとえば通信I/F7)とを備える。ロボット110は、サーバから、命令を受信するための受信部(たとえば通信I/F790)と、命令に基づいて動作を実行する動作部(たとえばモータ770,車輪780)とを備える。
(2)別の実施の形態に従うと、ロボット110を制御するサーバ120が提供される。このサーバ120は、複数のロボット110を介して発話の内容を受け付けるための通信I/F7と、ロボット110の識別情報および発話の内容を対応づけて保持するためのハードディスク5と、発話の内容に応じた命令を生成するためのCPU1と、命令を、当該命令を生成するための発話の内容に対応づけられた識別情報により特定されるロボット110に送信するための通信I/F7とを備える。
(3)別の局面において、通信I/F7は、命令を確認するための情報をロボット110に送信する。
(4)別の局面において、通信I/F7は、ロボット110からの発話の内容に基づいて、命令を、当該命令を生成するための発話の内容に対応づけられた識別情報により特定されるロボット110に送信する。
(5)別の局面において、サーバ120は、少なくとも1つのロボット110に音声を出力させるための音声データをさらに保持するように構成されている。通信I/F7は、少なくとも1つのロボット110に対して、音声データをさらに送信する。
(6)別の局面において、サーバは、複数の音声データを保持するように構成されている。通信I/F7は、当該複数の音声データのうちのいずれかの音声データを選択する発話の入力を受け付けるように構成されている。CPU1は、選択された音声データを用いて命令を生成する。
(7)別の局面において、ロボット110は、発話に基づいて、当該発話者が当該ロボット110に登録されたユーザであるか否かを判断するように構成されている。当該発話者がユーザである場合に、サーバ120の通信I/F7は、当該ロボット110の識別情報および受け付けられた発話を受信する。
(8)別の実施の形態に従うと、ある局面において、ロボット110は、サーバ120と通信するための通信I/F790と、発話を受け付けるためのマイク720と、ロボット110の動作を実行する動作部(たとえば、モータ770、車輪780)とを備える。
通信I/F790は、マイク720が受け付けた発話の内容をサーバ120に送信し、発話の内容に応じた命令をサーバ120から受信する。動作部は、受信した命令に基づいて動作を実行する。たとえば、車輪780は、モータ770の運転に応じて回転し、ロボット110を移動する。
(9)別の局面において、ロボット110は、音声を出力するための音声データをサーバから受信するように構成された受信部(たとえば通信I/F790)をさらに備える。動作部は、音声データに基づいて音声を出力するための音声出力部(たとえば、スピーカ730)を含む。
(10)別の局面において、ロボット110は、音声データを保存するためのメモリと、次の発話がロボット110に与えられた場合に、次の発話を出力するための音声データがメモリに保存されているか否かを確認するための確認部(たとえばコントローラ750)とをさらに備える。送信されるべき音声データが当該ロボット110に保存されている場合に、スピーカ730は、メモリに保存されている音声データに基づいて音声を出力する。
(11)別の局面において、サーバ120は、複数の音声データを保持するように構成されている。マイク720は、当該複数の音声データのうちのいずれかの音声データを選択する発話の入力を受け付ける。コントローラ750は、生成部として、選択された音声データを用いて命令を生成する。スピーカ730は、選択された音声データに基づく音声を出力する。
(12)別の局面において、ロボット110は、命令に基づいて、サーバと通信可能な他の機器(たとえば、他のロボット)に対して、当該機器を制御するための信号を送信する。
(13)別の局面において、ロボット110は、発話に基づいて、当該発話者が当該ロボット110に登録されたユーザであるか否かを判断するための認証部をさらに備える。認証部は、たとえば、コントローラ750が認証処理を実行することにより実現される。当該発話者がユーザである場合に、通信I/F790は、ロボット110の識別情報および受け付けられた発話をサーバ120に送信する。
(14)別の局面において、ロボット110は、人感センサーと、人感センサーからの出力に基づいてユーザの近傍に移動するための移動部(たとえば、車輪780)とをさらに備える。
(15)好ましくは、人感センサーは、サーバからの指示に従って起動するように構成されている。
(16)他の実施の形態に従うと、電子機器を制御するサーバの制御方法が提供される。制御方法は、複数のロボット110を介して発話の内容を受け付けるステップと、ロボット110の識別情報および発話の内容を対応付けて保持するステップと、発話の内容に応じた命令を生成するステップと、前記命令を、当該命令を生成するための発話の内容に対応付けられた識別情報により特定されるロボット110に送信するステップとを備える。
以上から、上述の各実施の形態によれば、1つのサーバ120が複数の電子機器(たとえばロボット110A,110B・・・110N)に対し、それぞれ命令を送信し、それぞれの電子機器からの発話内容に応じた動作を実行させる。
また、別の局面において、サーバ120の中の1つの機能を複数の電子機器にそれぞれ動作させるものであってもよい。その際、当該機能の諸設定は各電子機器毎に行われるものであってもよい。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 CPU、2 マウス、3 キーボード、4 RAM、5 ハードディスク、6 光ディスク駆動装置、8,740 モニタ、9 ROM、100 システム、110,110A,110B,110N ロボット、120 サーバ、130 インターネット、210 音声入力部、220 音声認識処理部、230 抽出部、240 記憶部、250 動作部、251 音声出力部、260 命令生成部、270 計時部、410 タイプ、420,520 テンプレート、620 時刻データ、710 操作パネル、720 マイク、730 スピーカ、750 コントローラ、755 音声認識処理プロセッサ、760 メモリ、770 モータ、780 車輪。

Claims (17)

  1. 発話により電子機器を動作させるシステムであって、
    前記発話を受け付ける複数の電子機器と、
    前記複数の電子機器と通信可能なサーバとを備え、
    前記電子機器は、
    前記発話を受け付けるための音声入力手段と、
    当該電子機器の識別情報および前記受け付けられた発話の内容を前記サーバに送信するための送信手段とを備え、
    前記サーバは、
    前記識別情報および前記発話の内容を保持するための格納手段と、
    前記発話の内容に応じた命令を生成するための生成手段と、
    前記識別情報および前記命令を当該電子機器に送信するための送信手段とを備え、
    前記電子機器は、
    前記サーバから、前記命令を受信するための受信手段と、
    前記命令に基づいて動作を実行する動作手段とを備える、システム。
  2. 電子機器を制御するサーバであって、
    複数の前記電子機器を介して発話の内容を受け付けるための入力手段と、
    前記電子機器の識別情報および前記発話の内容を対応づけて保持するための格納手段と、
    前記発話の内容に応じた命令を生成するための生成手段と、
    前記命令を、当該命令を生成するための前記発話の内容に対応づけられた前記識別情報により特定される電子機器に送信するための送信手段とを備える、サーバ。
  3. 前記送信手段は、前記命令を確認するための情報を前記電子機器に送信する、請求項2記載のサーバ。
  4. 前記送信手段は、前記電子機器からの前記発話の内容に基づいて、前記命令を、当該命令を生成するための前記発話の内容に対応づけられた前記識別情報により特定される電子機器に送信する、請求項2に記載のサーバ。
  5. 前記サーバは、少なくとも1つの前記電子機器に音声を出力させるための音声データをさらに保持するように構成されており、
    前記送信手段は、前記少なくとも1つの電子機器に対して、前記音声データをさらに送信するように構成されている、請求項2に記載のサーバ。
  6. 前記サーバは、複数の前記音声データを保持するように構成されており、
    前記音声入力手段は、当該複数の音声データのうちのいずれかの音声データを選択する発話の入力を受け付けるように構成されており、
    前記生成手段は、前記選択された音声データを用いて前記命令を生成するように構成されている、請求項5に記載のサーバ。
  7. 前記電子機器は、前記発話に基づいて、当該発話者が当該電子機器に登録されたユーザであるか否かを判断するように構成されており、
    当該発話者が前記ユーザである場合に、前記入力手段は、当該電子機器の識別情報および前記受け付けられた発話を受信するように構成されている、請求項2〜6のいずれかに記載の音声認識サーバ。
  8. 電子機器であって、
    サーバと通信するための通信手段と、
    発話を受け付けるための音声入力手段と、
    電子機器の動作を実行する動作手段と、を備え、
    前記通信手段は、
    前記音声入力手段が受け付けた前記発話の内容をサーバに送信し、
    前記発話の内容に応じた命令を前記サーバから受信し、
    前記動作手段は、受信した命令に基づいて動作を実行する、電子機器。
  9. 音声を出力するための音声データを前記サーバから受信するように構成された受信手段をさらに備え、
    前記動作手段は、前記音声データに基づいて音声を出力するための音声出力手段を含む、請求項8に記載の電子機器。
  10. 前記音声データを保存するためのメモリと、
    次の発話が前記電子機器に与えられた場合に、前記次の発話を出力するための音声データが前記メモリに保存されているか否かを確認するための確認手段とをさらに備え、
    前記送信されるべき音声データが当該電子機器に保存されている場合に、前記音声出力手段は、前記メモリに保存されている音声データに基づいて音声を出力するように構成されている、請求項9に記載の電子機器。
  11. 前記サーバは、複数の前記音声データを保持するように構成されており、
    前記音声入力手段は、当該複数の音声データのうちのいずれかの音声データを選択する発話の入力を受け付けるように構成されており、
    前記生成手段は、前記選択された音声データを用いて前記命令を生成し、
    前記音声出力手段は、前記選択された音声データに基づく音声を出力するように構成されている、請求項9または10に記載の電子機器。
  12. 前記命令に基づいて、前記サーバと通信可能な他の機器に対して、当該機器を制御するための信号を送信するように構成された送信手段をさらに備える、請求項8〜11のいずれかに記載の電子機器。
  13. 前記発話に基づいて、当該発話者が当該電子機器に登録されたユーザであるか否かを判断するための認証手段をさらに備え、
    当該発話者が前記ユーザである場合に、前記通信手段は、当該電子機器の識別情報および前記受け付けられた発話を前記サーバに送信するように構成されている、請求項8〜12のいずれかに記載の電子機器。
  14. 人感センサーと、
    前記人感センサーからの出力に基づいてユーザの近傍に移動するための移動手段とをさらに備える、請求項8〜13のいずれかに記載の電子機器。
  15. 前記人感センサーは、前記サーバからの指示に従って起動するように構成されている、請求項14に記載の電子機器。
  16. 電子機器を制御するサーバの制御方法であって、
    複数の前記電子機器を介して発話の内容を受け付けるステップと、
    前記電子機器の識別情報および前記発話の内容を対応付けて保持するステップと、
    前記発話の内容に応じた命令を生成するステップと、
    前記命令を、当該命令を生成するための前記発話の内容に対応付けられた前記識別情報により特定される電子機器に送信するステップとを備える、サーバの制御方法。
  17. 請求項16に記載の方法をコンピュータに実行させるためのプログラム。
JP2015005190A 2015-01-14 2015-01-14 システム、サーバ、電子機器、サーバの制御方法、およびプログラム Active JP6316214B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015005190A JP6316214B2 (ja) 2015-01-14 2015-01-14 システム、サーバ、電子機器、サーバの制御方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015005190A JP6316214B2 (ja) 2015-01-14 2015-01-14 システム、サーバ、電子機器、サーバの制御方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016130800A true JP2016130800A (ja) 2016-07-21
JP6316214B2 JP6316214B2 (ja) 2018-04-25

Family

ID=56415363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015005190A Active JP6316214B2 (ja) 2015-01-14 2015-01-14 システム、サーバ、電子機器、サーバの制御方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6316214B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019045455A3 (ko) * 2017-08-31 2019-04-18 삼성전자주식회사 가전 기기의 음성 인식을 위한 시스템과 서버, 방법
JP2019128384A (ja) * 2018-01-22 2019-08-01 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム
JP2019204173A (ja) * 2018-05-21 2019-11-28 富士ゼロックス株式会社 情報処理装置及びプログラム
CN111640416A (zh) * 2019-02-13 2020-09-08 夏普株式会社 电子设备、控制装置、控制方法及记录介质
WO2020203067A1 (ja) * 2019-03-29 2020-10-08 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2021062627A (ja) * 2021-01-06 2021-04-22 ブラザー工業株式会社 タンク

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096389A (ja) * 1995-06-22 1997-01-10 Seiko Epson Corp 音声認識対話処理方法および音声認識対話装置
JP2002073831A (ja) * 2000-08-25 2002-03-12 Canon Inc 情報処理システム、情報処理方法およびインターネットサービスシステムならびにインターネットサービス提供方法
JP2004029354A (ja) * 2002-06-25 2004-01-29 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2004184161A (ja) * 2002-12-02 2004-07-02 Ntt Docomo Inc 電子機器、時計装置および携帯端末
JP2012117887A (ja) * 2010-11-30 2012-06-21 Kureo:Kk 目覚ましシステム、目覚まし装置、サーバ装置、およびプログラム
JP2013250683A (ja) * 2012-05-30 2013-12-12 Nec Corp 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096389A (ja) * 1995-06-22 1997-01-10 Seiko Epson Corp 音声認識対話処理方法および音声認識対話装置
JP2002073831A (ja) * 2000-08-25 2002-03-12 Canon Inc 情報処理システム、情報処理方法およびインターネットサービスシステムならびにインターネットサービス提供方法
JP2004029354A (ja) * 2002-06-25 2004-01-29 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2004184161A (ja) * 2002-12-02 2004-07-02 Ntt Docomo Inc 電子機器、時計装置および携帯端末
JP2012117887A (ja) * 2010-11-30 2012-06-21 Kureo:Kk 目覚ましシステム、目覚まし装置、サーバ装置、およびプログラム
JP2013250683A (ja) * 2012-05-30 2013-12-12 Nec Corp 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019045455A3 (ko) * 2017-08-31 2019-04-18 삼성전자주식회사 가전 기기의 음성 인식을 위한 시스템과 서버, 방법
US11501770B2 (en) 2017-08-31 2022-11-15 Samsung Electronics Co., Ltd. System, server, and method for speech recognition of home appliance
JP2019128384A (ja) * 2018-01-22 2019-08-01 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム
JP2019204173A (ja) * 2018-05-21 2019-11-28 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7176228B2 (ja) 2018-05-21 2022-11-22 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN111640416A (zh) * 2019-02-13 2020-09-08 夏普株式会社 电子设备、控制装置、控制方法及记录介质
WO2020203067A1 (ja) * 2019-03-29 2020-10-08 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2021062627A (ja) * 2021-01-06 2021-04-22 ブラザー工業株式会社 タンク

Also Published As

Publication number Publication date
JP6316214B2 (ja) 2018-04-25

Similar Documents

Publication Publication Date Title
JP6316214B2 (ja) システム、サーバ、電子機器、サーバの制御方法、およびプログラム
KR102513297B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
US10930277B2 (en) Configuration of voice controlled assistant
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2019109510A (ja) 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム
US20080263451A1 (en) Method for Driving Multiple Applications by a Common Diaglog Management System
KR20190031785A (ko) 복수의 사용자 각각에 대응하는 개인화 레이어를 이용하여 복수의 사용자 각각의 음성 신호를 인식하는 음성 신호 인식 시스템
CN107112014A (zh) 在基于语音的系统中的应用焦点
JP2015184563A (ja) 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム
US11120792B2 (en) System for processing user utterance and controlling method thereof
KR20190114326A (ko) 챗봇을 이용한 서비스 제공 방법 및 그 장치
JP2016090655A (ja) 音声認識ロボットシステム、音声認識ロボット、音声認識ロボットの制御装置、音声認識ロボットを制御するための通信端末、およびプログラム
EP3794809B1 (en) Electronic device for performing task including call in response to user utterance and operation method thereof
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
JP6559079B2 (ja) 対話型家電システム、および発話者との対話に基づいてメッセージを出力するためにコンピュータが実行する方法
KR102629796B1 (ko) 음성 인식의 향상을 지원하는 전자 장치
JP2016099469A (ja) 音声認識動作機器、音声認識動作機器の制御装置、音声認識動作機器の動作方法、プログラム、および、音声認識動作機器の制御システム
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
KR20200016547A (ko) 등록된 사용자에 의한 인증을 통해 새로운 사용자를 등록하기 위한 전자 장치 및 방법
JP2019045831A (ja) 音声処理装置、方法およびプログラム
JP6945734B2 (ja) 音声出力装置、機器制御システム、音声出力方法、及び、プログラム
JP2010206365A (ja) 対話装置
JP7018850B2 (ja) 端末装置、決定方法、決定プログラム及び決定装置
US11461779B1 (en) Multi-speechlet response
CN113314115A (zh) 终端设备的语音处理方法、终端设备及可读存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161025

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170418

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170524

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171031

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180116

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180327

R150 Certificate of patent or registration of utility model

Ref document number: 6316214

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150