以下、本発明の実施形態について、詳細に説明する。なお、説明の便宜上、各実施形態に示した部材と同一の機能を有する部材については、同一の符号を付記し、適宜その説明を省略する。
〔実施形態1〕
本発明の一実施形態について、図1〜図6に基づいて説明すれば以下のとおりである。
(音声対話システム100の概要)
図2は、音声対話システム100の概要を示す図である。音声対話システム100は、ユーザと家庭用電子機器(以下、家電と称する。図2の例では冷蔵庫4)との音声対話を実現するものである。具体的には、音声対話システム100は、図2に示すように、ユーザが冷蔵庫4に向かって「おはよう」と発話した場合、ユーザに対して冷蔵庫4が「おはよう、今日はいい天気だね」と応答音声を出力することで、音声対話を実現するシステムである。なお、図2に示すユーザの発話の内容と、応答音声の内容とは一例であり、図2の例に限定されるものではない。
音声対話システム100は、クラウドサーバ2(サーバ)および冷蔵庫4(対話機器)を含み、冷蔵庫4内には音声対話装置1(対話装置)が組み込まれている。すなわち、冷蔵庫4と音声対話装置1とは一体となっている。これにより、冷蔵庫4はユーザが発話した音声を取得し、当該音声の音声データをクラウドサーバ2に送信することができる。また、クラウドサーバ2が生成した音声を受信することができるので、応答音声を出力することができる。
なお、音声対話装置1と冷蔵庫4とは別々の装置であって、冷蔵庫4の表面に音声対話装置1を設ける構成であってもよい。具体的には、冷蔵庫4がクラウドサーバ2との通信機能を有していない場合、当該通信機能を有する通信アダプタを冷蔵庫4に取り付けて電気的に接続すればよい。このとき、通信アダプタは例えば、図1に示す音声対話装置1のすべての部材を備える構成であってもよいし、通信アダプタが、制御部10、通信部14、および記憶部16を備える一方、冷蔵庫4が、操作部11、音声入力部12、および音声出力部13を備える構成であってもよい。これにより、当該通信アダプタを冷蔵庫4に取り付けるだけで、本実施形態の音声対話装置1の音声対話機能を実現することができる。また、この構成は後述する他の実施形態にも適用可能である。
クラウドサーバ2は、音声対話装置1の外部の装置であり、音声対話装置1から音声データを取得して、音声認識を行う。そして、音声認識の結果に基づいて応答音声データを生成し、音声対話装置1に送信する。なお、図2において、音声対話装置1が組み込まれた家電を冷蔵庫4としたのは一例である。当該家電は、冷蔵庫4以外、例えば、空調装置(いわゆるエアコン)、テレビ、電子レンジなどであってもよい。
(音声対話システム100にて実行される処理の概要)
図3および図4は、音声対話システム100にて実行される処理の概要を示すシーケンス図である。
図3に示すように、音声入力可能な状態となっている音声対話装置1に対して、「おはよう」と発話(音声入力)すると(ステップT1、以下「ステップ」を省略)、音声対話装置1は、当該音声の音声データを生成し(T2)、クラウドサーバ2に送信する。そして、音声対話装置1は、クラウドサーバ2への音声データの送信が完了すると(音声データの取得後)、音声入力を受け付けない状態となり、音声入力不可期間が開始される。
クラウドサーバ2は、受信した音声データについて、音声認識を実行する(T3)。具体的には、まず、音声認識可能な音声データであるか否かを判定する。そして、音声認識可能であると判定した場合、図3に示すように、その旨を示す判定結果を音声対話装置1に送信し、音声認識を継続する。音声認識が完了すると、クラウドサーバ2は応答音声データの生成を開始する(T4)。
音声対話装置1は、音声認識可能であるとの判定結果を受信すると、応答音声が出力されることをユーザに報知するための報知サウンド(受付情報)を出力する(T5)。そして、応答音声データの受信を待機する状態となる。
クラウドサーバ2は、応答音声データの生成が完了すると、音声対話装置1に応答音声データを送信する。音声対話装置1は、受信した応答音声データを用いて、応答音声を出力する(T6)。図3の例では、「おはよう、今日はいい天気だね」と出力する。そして、音声入力不可期間を終了させる。以上のように、音声対話システム100では、ユーザが「おはよう」と発話したことに対して、音声対話装置1(冷蔵庫4)が、「おはよう、今日はいい天気だね」と応答する。
一方、音声対話装置1は、ユーザが発した音声以外の音声も取得してしまう。たとえば、音声対話装置1の周囲で発せられた生活音や、音声対話装置1が接続された冷蔵庫4の使用によって発せられた音(使用音)などの雑音も取得してしまう。雑音の音声データもクラウドサーバ2に送信されるが、このような音声データはクラウドサーバ2にとっては音声認識不可能な音声である。以下、このような場合の処理の概要について説明する。
図4に示すように、音声入力可能な状態となっている音声対話装置1に対して、雑音(図4では「ガヤガヤ」で示している)が入力されると(T11)、音声対話装置1は、図3で示した例と同様に、音声データを生成し(T12)、クラウドサーバ2に送信する。そして、音声入力不可期間が開始される。クラウドサーバ2は、受信した音声データについて、音声認識を実行し(T13)、音声認識不可能な音声データであると判定する。そして、その旨を示す判定結果を音声対話装置1に送信する。
音声対話装置1は、音声認識不可能であるとの判定結果を受信すると、音声入力不可期間を終了する。これにより、音声対話装置1は再び音声入力可能な状態となる。この後、ユーザが音声対話装置1に対して、「おはよう」と発話(音声入力)すると、図3で示した例と同様の流れで処理が進む。以降の処理(T1〜T6)については、図3を参照して既に説明しているため、ここでの説明を省略する。
以上のように、音声対話装置1は、取得した音声の音声データについて、クラウドサーバ2が音声認識不可能と判定した場合、応答音声を出力することを示す報知サウンドを出力する。これにより、ユーザに応答音声が出力されることを認識させることができる。一方、音声認識不可能と判定した場合、報知サウンドを出力せず、音声入力可能な状態に復帰する。これにより、生活音や使用音などの雑音を取得した場合に、ユーザに無意味な報知をすることなく、速やかに音声入力可能な状態に復帰することができる。
(音声対話装置1の要部構成)
図1は、音声対話システム100に含まれる音声対話装置1およびクラウドサーバ2の要部構成の一例を示すブロック図である。
音声対話装置1は、制御部10、操作部11、音声入力部12(入力装置)、音声出力部13(出力装置)、通信部14、および記憶部16を備える。なお、操作部11、音声入力部12、および音声出力部13は、音声対話装置1ではなく、冷蔵庫4に備えられていてもよいし、それぞれが音声対話装置1と別装置であってもよい。
操作部11は、ユーザの操作を受け付けて当該操作に基づく操作信号を出力する。具体的には、操作部11はボタン(物理ボタンであってもよいし、タッチパネル上に表示されたボタンを模した画像であってもよい)であり、当該ボタンは、押下(画像の場合はタッチ)されると、操作信号を制御部10に出力する。なお、操作部11がボタンであることは一例である。例えば、操作部11は、冷蔵庫4のドアであってもよい。具体的には、冷蔵庫4のドアは、ユーザによって開けられると、操作信号を制御部10に出力する。
音声入力部12は、音声対話装置1の周囲で発せられた音声を取得して、当該音声の音声データを出力する、いわゆるマイクロフォンである。音声出力部13は、音声データを音声に変換して出力する、いわゆるスピーカである。
通信部14は、クラウドサーバ2との通信を行い、各種情報を送受信する。具体的には、通信部14は、上記音声データを音声取得制御部101から取得し、クラウドサーバ2に送信する。また、通信部14は、クラウドサーバ2から、受信した音声データが音声認識可能か否かの判定結果、および、応答音声データを受信し、制御部10に出力する。
制御部10は、音声対話装置1の機能を統括して制御する。制御部10は、音声取得制御部101(音声取得部)、通信制御部102(判定結果取得部、応答音声取得部)、および出力制御部103を含む。
音声取得制御部101は、音声対話装置1の音声取得機能を制御する。具体的には、音声取得制御部101は、操作部11から取得した操作信号に従って、音声入力部12を起動し、音声入力を受け付ける状態とする。また、音声取得制御部101は、音声入力部12を起動後に、操作部11から音声対話を終了するための操作信号を受け付けると、音声対話を終了し、音声入力部12を停止させる。なお、音声取得制御部101は、音声データを最後に取得してから所定時間経過した場合に、音声対話を終了してもよい。また、音声取得制御部101は、音声入力部12から音声データを取得すると、当該音声データを、通信部14を介してクラウドサーバ2に送信する。
また、音声取得制御部101は、音声データのクラウドサーバ2への送信が完了すると、音声対話装置1を、その後に発せられた音声について、応答音声を出力しない状態とする。本実施形態では、音声取得制御部101は、音声入力部12を停止して、音声入力を受け付けない状態とする。なお、この例には限定されず、例えば、音声取得制御部101は、音声入力部12を制御して、取得した音声を音声データに変換しないようにしてもよい。
また、音声取得制御部101は、クラウドサーバ2へ送信した音声データが音声認識不可能であることを示す判定結果を取得した通信制御部102からの指示に従って、また、応答音声を出力したことを示す出力制御部103からの通知を受けて、音声対話装置1を、その後に発せられた音声について、応答音声を出力可能な状態とする。本実施形態では、音声入力部12を再度起動して、音声入力を受け付ける状態とする。なお、ここで音声取得制御部101が実行する処理は、応答音声を出力しない状態とする処理に応じたものとなる。例えば、応答音声を出力しない状態とする処理が、音声入力部12を制御して、取得した音声を音声データに変換しないようにする処理である場合、取得した音声を音声データに変換するようにする。
通信制御部102は、クラウドサーバ2から受信した情報に基づいて、制御部10の各部に処理の実行を指示する。具体的には、通信制御部102は、クラウドサーバ2へ送信した音声データが音声認識不可能であることを示す判定結果を取得した場合、音声取得制御部101に、音声対話装置1を、その後に発せられた音声について、応答音声を出力可能な状態とするよう指示する。
また、通信制御部102は、クラウドサーバ2へ送信した音声データが音声認識可能であることを示す判定結果を取得した場合、出力制御部103へ、報知サウンドの出力を指示する。また、通信制御部102は、クラウドサーバ2から応答音声データを取得した場合、当該応答音声データを出力制御部103に出力するとともに、応答音声の出力を指示する。
出力制御部103は、音声対話装置1の音声出力機能を制御する。具体的には、出力制御部103は、クラウドサーバ2へ送信した音声データが音声認識可能であることを示す判定結果を取得した通信制御部102からの指示に従って、記憶部16から報知サウンドデータ161を読み出し、音声出力部13から報知サウンドを出力させる。なお、報知サウンドデータ161とは、報知サウンドの音声データである。報知サウンドは、ユーザに、応答音声が出力されることを報知するサウンドであり、例えば、「ポン」という音であるが、音の種類についてはこの例に限定されない。
また、出力制御部103は、通信制御部102から応答音声データを取得し、応答音声を出力するよう指示されると、取得した応答音声データを用いて、音声出力部13から応答音声を出力する。応答音声を出力すると、出力制御部103は、応答音声を出力したことを音声取得制御部101に通知する。また、出力制御部103は、所定のタイミングで、記憶部16から定型音声データ162を読み出し、音声出力部13から定型音声を出力してもよい。ここで定型音声データとは、定型音声の音声データである。定型音声としては、例えば、音声対話を終了するときに出力される、「またね」という音声が挙げられるが、この例に限定されるものではない。
記憶部16は、音声対話装置1が使用する各種データを記憶する。本実施形態に係る記憶部16は少なくとも、報知サウンドデータ161および定型音声データ162を記憶している。なお、報知サウンドデータ161および定型音声データ162については既に説明しているため、ここでの説明を省略する。
(クラウドサーバ2の要部構成)
クラウドサーバ2は、制御部20、通信部21および記憶部22を備える。
通信部21は、音声対話装置1および後述する情報提供サーバ3との通信を行い、各種情報を送受信する。具体的には、通信部21は、音声データを音声対話装置1から受信し、制御部20に出力する。また、通信部21は、制御部20から取得した、音声データが音声認識可能であるか否かの判定結果、および、制御部20から取得した応答音声データを、音声対話装置1へ送信する。また、通信部21は、情報提供サーバ3から取得した情報を制御部20に出力する。
制御部20は、クラウドサーバ2の機能を統括して制御する。制御部20は、音声認識部201、応答生成部202、および音声合成部203を含む。
音声認識部201は、受信した音声データに対して音声認識を行う。具体的には、音声認識部201は、受信した音声データをテキストデータに変換し、そのテキストデータを解析して単語やフレーズを抽出する。このとき、音声認識部201は、単語やフレーズの抽出が可能であるか否か、すなわち、音声認識が可能であるか否かを判定し、通信部21を介して、判定結果を音声対話装置1に送信する。なお、音声認識の処理については、公知技術を用いることができるので、その詳細な説明は省略する。音声認識部201は、音声認識の結果を応答生成部202に出力する。
応答生成部202は、ユーザが発した音声に対する応答音声の内容を示すテキストデータ生成する。具体的には、応答生成部202は、音声認識部201から取得した音声認識の結果を参照し、記憶部22に格納されている応答情報221から適切な応答情報を読み出したり、情報提供サーバ3にアクセスして情報を取得し、取得した情報を応答情報としたり、取得した情報を参照して応答情報221から適切な応答情報を読み出したりする。なお、応答情報とは、応答音声の内容を示すテキストデータを生成するための単語やフレーズであり、応答情報221は、複数の単語やフレーズのテキストデータである。そして、応答生成部202は、応答音声の内容を示すテキストデータを生成し、音声合成部203に出力する。
例えば、ユーザが発した「おはよう」という音声に対する応答である、「おはよう、今日はいい天気だね」という内容のテキストデータを生成する場合、応答生成部202は、音声認識の結果(「おはよう」)を参照して、応答情報221から「おはよう」という応答情報を読み出す。また、応答生成部202は、情報提供サーバ3、具体的には天気予報の情報を管理する天気予報サーバにアクセスし、本日の天気の情報を取得する。そして、天気の情報が「晴れ」を示していたため、応答情報221から「今日はいい天気だね」という応答情報を読み出す。そして、読み出した応答情報から、「おはよう、きょうはいい天気だね」という内容のテキストデータを生成する。
音声合成部203は、音声データを生成する。具体的には、音声合成部203は、応答生成部202から取得したテキストデータを音声データに変換し、応答音声データを生成する。そして、音声合成部203は、通信部21を介して、当該応答音声データを音声対話装置1に送信する。
記憶部22は、クラウドサーバ2が使用する各種データを記憶する。本実施形態に係る記憶部22は少なくとも、応答情報221を記憶している。なお、応答情報221については既に説明しているため、ここでの説明を省略する。
情報提供サーバ3は、上述したように、クラウドサーバ2が応答音声データを生成するための情報を提供するサーバである。上述の例では、情報提供サーバ3として天気予報サーバを例に挙げて説明したが、情報提供サーバは天気予報サーバに限定されない。
(音声対話装置1が実行する処理の流れ)
図5は、音声対話装置1が実行する処理の流れの一例を示すフローチャートである。
まず、音声取得制御部101は、取得した操作信号に従って、音声入力部12を、音声入力を受け付ける状態とする(ステップS1、以下、「ステップ」を省略)。そして、音声データの取得を待機する状態となる(S2、音声取得ステップ)。音声データを取得すると、音声取得制御部101は、音声データをクラウドサーバ2へ送信する(S3)。音声データの送信が完了すると、音声取得制御部101は、音声入力部12を、音声入力を受け付けない状態とする(S4、取得停止ステップ)。
続いて、通信制御部102は、音声データが音声認識可能であるか否かの判定結果の受信を待機する状態となる(S5、判定結果取得ステップ)。判定結果を受信すると(S5でYES)、通信制御部102は、判定結果を確認する(S6)。判定結果が「音声認識可能」である場合(S6でYES)、通信制御部102は、報知サウンドの出力を出力制御部103に指示する。出力制御部103は、通信制御部102の指示に従って、報知サウンドを音声出力部13から出力させる(S7、受付情報出力ステップ)。
続いて、通信制御部102は、応答音声データの受信を待機する状態となる(S8)。応答音声データを受信すると(S8でYES)、通信制御部102は、応答音声データを出力制御部103に出力するとともに、応答音声の出力を指示する。出力制御部103は、通信制御部102の指示に従って、応答音声を出力する(S9、出力制御ステップ)。そして、この処理(図5に示すフローチャート)はステップS1に戻る。すなわち、出力制御部103は、応答音声を出力したことを音声取得制御部101に通知する。そして、音声取得制御部101は当該通知を受けて、音声入力部12を、音声入力を受け付ける状態とする(S1、取得再開ステップ)。
一方、判定結果が「音声認識不可能」である場合(S6でNO)、通信制御部102は、音声入力部12を、音声入力を受け付ける状態とするよう音声取得制御部101に指示する。そして、音声取得制御部101は、当該指示に従って、音声入力部12を、音声入力を受け付ける状態とする(S1)。
(クラウドサーバ2が実行する処理の流れ)
図6は、クラウドサーバ2が実行する処理の流れの一例を示すフローチャートである。
まず、音声認識部201は音声データの受信を待機する状態となっている(S21)。音声データを受信すると(S21でYES)、音声認識部201は音声認識を実行する(S22)。そして、音声認識部201は、受信した音声データが音声認識可能であるか否かを判定する(S23)。音声認識可能であると判定した場合(S23でYES)、音声認識部201は判定結果、すなわち、音声認識可能である旨を音声対話装置1に通知する(S24)。そして、音声認識部201は、音声認識の結果を応答生成部202に出力する。
続いて、応答生成部202は、音声認識の結果に基づいて、応答内容を示すテキストデータを生成する。そして、生成したテキストデータを音声合成部203に出力する。続いて、音声合成部203は応答音声データを生成する(S25)。そして、音声合成部203は、生成した応答音声データを音声対話装置1に送信する(S26)。以上で、クラウドサーバ2が実行する処理は終了する。
一方、音声認識可能でないと判定した場合(S23でNO)、音声認識部201は判定結果、すなわち、音声認識不可能である旨を音声対話装置1に通知し(S27)、処理を終了する。
〔実施形態2〕
本発明の他の実施形態について、図7〜図9に基づいて説明すれば、以下のとおりである。
(音声対話システム100aにて実行される処理の概要)
図8は、音声対話システム100aにて実行される処理の概要を示すシーケンス図である。
本実施形態に係る音声対話装置1aは、図8に示すように、音声認識不可能であるとの判定結果を3回連続で受信すると、「またね」という、音声対話を終了することを示す音声を出力し、音声対話を終了する(T21)。これにより、ユーザが音声対話装置1aに対して音声を発する気が無いにもかかわらず、音声対話装置1aが雑音(図8では「ガヤガヤ」で示している)を取得し続けてしまうという状況を防ぐことができる。これは、音声対話装置1aが、最後に音声(音声データ)を取得してから所定時間(例えば、30秒)が経過した場合に、音声対話を終了する構成である場合において、雑音を取得し続ける状況であっても音声対話を終了させることができるため、特に有用である。
なお、音声対話装置1aは、当該構成を備えているものとして説明する。すなわち、音声対話装置1aは、最後に音声データを取得してから30秒径が経過した場合(換言すれば、音声入力が30秒間ない場合)、音声対話を終了する。また、音声対話装置1aは、音声を一度に取得できる時間が定められていてもよい。例えば、当該時間が60秒である場合、3回連続で音声認識不可能な音声データを取得するのにかかる時間の最大値は、270秒前後となる。つまり、音声対話装置1aにおいて、最初に音声認識不可能な音声データを取得してから、3回連続で音声認識不可能な音声データを取得したことにより音声対話を終了するまでにかかる時間の最大値は270秒前後である。
なお、「3回」というのは一例であり、音声対話を終了する条件において、音声認識不可能であるとの判定結果を連続して受信する回数は、3回に限定されない。また、音声認識不可能であるとの判定結果を連続で取得しなくてもよい。すなわち、所定時間(例えば、5分)内に、音声認識不可能であるとの判定結果を所定回数受信することで、音声対話を終了する構成であってもよい。
また、雑音を受信してから音声認識不可能であるとの判定結果を受信するまでの処理については、実施形態1にて図4を参照して既に説明しているため、ここでの説明を省略する。
(音声対話装置1aの要部構成)
図7は、音声対話システム100aに含まれる音声対話装置1aおよびクラウドサーバ2の要部構成の一例を示すブロック図である。なお、クラウドサーバ2については、実施形態1にて図1を参照して既に説明しているため、ここでの説明を省略する。
音声対話装置1aは、実施形態1にて説明した音声対話装置1と異なり、制御部10に代えて制御部10aを備える。また、記憶部16に代えて記憶部16aを備える。
制御部10aは、音声対話装置1aの機能を統括して制御する。制御部10aは、制御部10と異なり、音声取得制御部101に代えて音声取得制御部101aを含む。また、通信制御部102に代えて通信制御部102aを含む。
音声取得制御部101aは、音声対話装置1aの音声取得機能を制御する。音声取得制御部101aは、実施形態1にて説明した音声取得制御部101の機能に加え、通信制御部102aから、音声対話終了を指示されると、音声入力部12を停止し、音声対話を終了する。
通信制御部102aは、クラウドサーバ2から受信した情報に基づいて、制御部10の各部に処理の実行を指示する。通信制御部102aは、実施形態1にて説明した通信制御部102の機能に加え、クラウドサーバ2から、音声データが音声認識可能であるか否かの判定結果を受信すると、記憶部16aに記憶されている判定履歴163を更新する。具体的には、受信した判定結果を判定履歴163に追加する。なお、判定履歴163は、判定結果を、取得した時刻に対応付けて時系列順に格納しているデータベースである。
そして、通信制御部102aは、更新した判定履歴163を参照して、音声対話を終了する条件を満たしているか否かを判定する。本実施形態の場合、音声認識不可能であることを示す判定結果を、5分以内に3回連続で取得しているか否かを判定する。そして、音声対話を終了する条件を満たしていると判定した場合、音声対話を終了するよう音声取得制御部101aに指示する。
記憶部16aは、音声対話装置1aが使用する各種データを記憶する。本実施形態に係る記憶部16aは、実施形態1にて説明した記憶部16に記憶されているデータに加え、判定履歴163を記憶している。なお、判定履歴163については既に説明しているため、ここでの説明を省略する。
(音声対話装置1aが実行する処理の流れ)
図9は、音声対話装置1aが実行する処理の流れの一例を示すフローチャートである。なお、図5と同様の処理については、その説明を省略する。
通信制御部102aは、音声データが音声認識可能であるか否かの判定結果の受信を待機する状態となる(S5)。判定結果を受信すると(S5でYES)、通信制御部102aは、判定履歴163を更新する(S31)。具体的には、通信制御部102aは当該判定結果を判定履歴163に追加する。続いて、通信制御部102は、判定結果を確認する(S6)。判定結果が「音声認識不可能」である場合(S6でNO)、通信制御部102aは、判定履歴163を確認して、「音声認識不可能」が5分以内に3回続いたか否かを判定する(S32)。3回続いたと判定した場合(S32でYES)、通信制御部102aは、音声対話を終了するよう音声取得制御部101aに指示する。続いて、音声取得制御部101aは通信制御部102aからの指示に従って、音声対話を終了する(S33)。このとき、定型音声(例えば、「またね」)を出力してもよい。
一方、3回続いていないと判定した場合(S32でNO)、通信制御部102aは、音声入力部12を、音声入力を受け付ける状態とするよう音声取得制御部101aに指示する。そして、音声取得制御部101aは、当該指示に従って、音声入力部12を、音声入力を受け付ける状態とする(S1)。
〔実施形態3〕
本発明のさらに別の実施形態について、図10〜図13に基づいて説明すれば、以下のとおりである。
(音声対話システム100bにて実行される処理の概要)
図11は、音声対話システム100bにて実行される処理の概要を示すシーケンス図である。
本実施形態に係る音声対話装置1bは、図11に示すように、音声データをクラウドサーバ2に送信してから(すなわち、クラウドサーバ2において音声認識が実行可能となってから)所定時間t1(本実施形態ではt1=2秒とする)が経過した時点で、音声データを音声認識可能か否かの判定結果を受信していない場合、報知サウンドを出力する(T31)。換言すれば、音声データを取得してから所定期間内に上記判定結果を受信しない場合、報知サウンドを出力する。これにより、応答音声を出力するための処理を実行中であることをユーザに伝えることができる。
さらに、音声対話装置1bは、報知サウンドを出力してから所定時間t2(本実施形態ではt2=6秒とする)が経過した時点で、応答音声を出力可能な状態になっていない場合、すなわち、上記判定結果または応答音声データを受信していない場合、応答に時間がかかっていることを示す定型音声を出力する(T32)。換言すれば、報知サウンドを出力してから所定期間内に応答音声を出力させることができない場合、対話の間を持たせるための音声を出力する。これにより、応答に時間がかかっていることをユーザに伝えることができる。なお、図11の例では、「えーっと…」という定型音声を出力しているが、この例に限定されない。
さらに、音声対話装置1bは、報知サウンドを出力してから所定時間t3(本実施形態では、t3=20秒とする)が経過するまでの間に、応答音声を出力可能な状態になっていない場合、すなわち、上記判定結果または応答音声データを受信していない場合、音声対話が継続できないことを伝えるための定型音声を出力し、音声対話を終了する(T33)。これにより、音声対話が継続できないことをユーザに伝えることができるとともに、応答音声の受信が期待できない状況において、無駄に応答音声を待機することを防ぐことができる。なお、図11の例では、「通信状態が良くないみたい。確かめてみてね。」という定型音声を出力しているが、この例に限定されない。また、音声対話が継続できないことを伝えるための定型音声を出力し、音声対話を終了する処理は、「応答に時間がかかっていることを示す定型音声の出力から所定時間t4(本実施形態では、t4=14秒)が経過するまでの間に、応答音声を出力可能な状態になっていない場合に実行される」と表現することもできる。換言すれば、音声対話装置1bは、対話の間を持たせるための音声を出力させてから所定期間内に応答音声を出力させることができない場合、応答音声を出力できない旨を示す音声を出力し、対話の実行を停止する。
(音声対話装置1bの要部構成)
図10は、音声対話システム100bに含まれる音声対話装置1bおよびクラウドサーバ2の要部構成の一例を示すブロック図である。なお、クラウドサーバ2については、実施形態1にて図1を参照して既に説明しているため、ここでの説明を省略する。
音声対話装置1bは、実施形態1にて説明した音声対話装置1と異なり、制御部10に代えて制御部10bを備える。また、記憶部16に代えて記憶部16bを備える。また、新たにタイマ15を備える。タイマ15は出力制御部103bによって制御され、時間経過をカウントする。
制御部10bは、音声対話装置1bの機能を統括して制御する。制御部10bは、制御部10と異なり、音声取得制御部101に代えて音声取得制御部101bを含む。また、出力制御部103に代えて出力制御部103bを含む。
音声取得制御部101bは、音声対話装置1bの音声取得機能を制御する。音声取得制御部101bは、実施形態1にて説明した音声取得制御部101の機能に加え、音声データのクラウドサーバ2への送信が完了すると、その旨を出力制御部103bに通知する。また、音声取得制御部101bは、「通信状態が良くないみたい。確かめてみてね。」という定型音声を出力したことを出力制御部103bから通知されると、音声入力部12を停止し、音声対話を終了する。
出力制御部103bは、音声対話装置1bの音声出力機能を制御する。出力制御部103bは、実施形態1にて説明した出力制御部103の機能に加え、音声取得制御部101bからの通知を受けると、タイマ15を起動し、時間経過の測定を開始する。また、出力制御部103bは、タイマ15を起動してから2秒が経過した時点で、音声データを音声認識可能か否かの判定結果を受信していない場合、報知サウンドデータ161を読み出し、報知サウンドを音声出力部13に出力させる。出力制御部103bは、報知サウンドを出力すると、時間経過の測定を一度リセットし、再度時間経過の測定を開始する。
また、出力制御部103bは、報知サウンドを出力してから(すなわち、時間経過の測定を再開してから)6秒が経過した時点で、判定結果または応答音声データを受信していない場合、定型音声データ162bから、「えーっと・・・」という定型音声を出力するための定型音声データを読み出し、当該定型音声を音声出力部13に出力させる。
また、出力制御部103bは、報知サウンドを出力してから20秒が経過した時点で、判定結果または応答音声データを受信していない場合、定型音声データ162bから、「通信状態が良くないみたい。確かめてみてね。」という定型音声を出力するための定型音声データを読み出し、当該定型音声を音声出力部13に出力させる。そして、出力制御部103bは、「通信状態が良くないみたい。確かめてみてね。」という定型音声を出力したことを、音声取得制御部101bに通知する。
記憶部16bは、音声対話装置1bが使用する各種データを記憶する。本実施形態に係る記憶部16bは、実施形態1にて説明した記憶部16と異なり、定型音声データ162に代えて、定型音声データ162bを記憶している。
定型音声データ162bは、実施形態1にて説明した、音声対話を終了するときに出力する音声である「またね」の定型音声データに加え、上述した、「えーっと…」および「通信状態が良くないみたい。確かめてみてね。」定型音声データを含む。
(音声対話装置1bが実行する処理の流れ)
図12は、音声対話装置1bが実行する処理の流れの一例を示すフローチャートであり、図13は、図12に示す「A」以降の処理の流れの一例を示すフローチャートである。なお、図5と同様の処理については、その説明を省略する。
音声取得制御部101bは、音声データのクラウドサーバ2への送信が完了すると、その旨を出力制御部103bに通知する。出力制御部103bは、タイマを起動し(S41)、時間経過の測定を開始する。
出力制御部103bは、通信制御部102が、音声データが音声認識可能であるか否かの判定結果を受信していない状況(S42でNO)、すなわち、通信制御部102から報知サウンドの出力を指示されていない状況で、音声データを送信してから2秒が経過した場合(S44でYES)、音声出力部13に報知サウンドを出力させる(S45)。
ステップS46で出力制御部103bが報知サウンドを出力させた後も、通信制御部102は、判定結果の受信を待機している状態を継続している(S46)。ここで、判定結果を受信した場合(S46でYES)、通信制御部102は、判定結果を確認する(S47)。判定結果が「音声認識可能」である場合(S47でYES)、通信制御部102は、報知サウンドの出力を出力制御部103bに指示する。ただし、報知サウンドは既に出力済であるため、出力制御部103bは報知サウンドを出力させない。続いて、通信制御部102は、応答音声データの受信を待機する状態となる(S48)。なお、報知サウンドが出力済の状況で「音声認識可能」の判定結果を受信した場合、通信制御部102が報知サウンドの出力を出力制御部103に指示せず、応答音声データを待機する状態となってもよい。
応答音声データを受信した場合(S48でYES)、この処理はステップS9へ進む。一方、応答音声データを受信していない場合(S48でNO、またはS43でNO)、この処理は後述するステップS48へ進む。
一方、ステップS45で報知サウンドを出力した後、判定結果を受信していない状況(S46でNO)、または、応答音声データを受信していない状況(S48でNO)で、報知サウンドの出力から6秒が経過した場合(S49でYES)、出力制御部103bは、応答に時間がかかる旨の定型音声(例えば、「えーっと…」という定型音声)を出力したか否かを確認する(S50)。出力していない場合(S50でNO)、当該定型音声を音声出力部13に出力させる(S51)。これに対して、出力している場合(S50でYES)は、ステップS51は省略される。
続いて、判定結果または応答音声データを受信しないまま、報知サウンドの出力から20秒が経過した場合(S52でYES)、出力制御部103bは、音声対話が継続できない旨の定型音声(例えば、「通信状態が良くないみたい。確かめてみてね」という定型音声)を音声出力部13に出力させ、音声対話を終了する(S53)。
〔実施形態4〕
本発明のさらに別の実施形態について、図14に基づいて説明すれば、以下のとおりである。
本実施形態に係る音声対話装置1cは、音声対話を開始してから終了するまでの間における、音声データのクラウドサーバ2への送信が完了してから、応答音声の出力を開始するまでにかかった時間の平均値を算出し、記憶する。さらに、音声データを取得してから過去に遡って所定時間以内(本実施形態では過去30分以内であるが、この例に限定されない)に上記平均値が算出され、記憶されていれば、当該平均値が閾値(本実施形態では8秒であるが、この例に限定されない)を超えるか否かを判定する。そして、8秒を超える場合、実施形態3にて説明した所定時間t1(2秒)、所定時間t2(6秒)、所定時間t3(20秒)を延長する。本実施形態では、所定時間t1、所定時間t2、所定時間t3をそれぞれ1.5倍にするため、それぞれ3秒、9秒、30秒となる。ただし、所定時間t1、所定時間t2、所定時間t3はこの例に限定されず、また、延長の度合いも1.5倍に限定されない。
これにより、音声対話装置1cとクラウドサーバ2との通信状態が不安定であると予想される場合に、報知サウンドの出力、応答に時間がかかっていることを示す定型音声の出力、および音声対話の終了までの時間を延ばすことができる。よって、応答音声が出力される可能性を上げることができる。
(音声対話装置1cの要部構成)
図14は、音声対話システム100cに含まれる音声対話装置1cおよびクラウドサーバ2の要部構成の一例を示すブロック図である。なお、クラウドサーバ2については、実施形態1にて図1を参照して既に説明しているため、ここでの説明を省略する。
音声対話装置1cは、実施形態3にて説明した音声対話装置1bと異なり、制御部10bに代えて制御部10cを備える。また、記憶部16bに代えて記憶部16cを備える。
制御部10cは、音声対話装置1cの機能を統括して制御する。制御部10cは、制御部10bと異なり、音声取得制御部101bに代えて音声取得制御部101cを含む。出力制御部103bに代えて出力制御部103cを含む。また、新たに出力時間決定部104(期間調整部)を含む。
音声取得制御部101cは、音声対話装置1cの音声取得機能を制御する。音声取得制御部101cは、実施形態3にて説明した音声取得制御部101bの機能に加え、音声データを取得すると、音声データを取得した時刻を出力制御部103cに通知する。
出力制御部103cは、音声対話装置1cの音声出力機能を制御する。出力制御部103cは、実施形態3にて説明した出力制御部103bの機能に加え、音声対話を開始してから終了するまでの間における、音声データのクラウドサーバ2への送信が完了してから、応答音声の出力を開始するまでにかかった時間の平均値を算出し、記憶部16cに記憶されている出力時間履歴164を更新する(算出した平均値を出力時間履歴164に追加する)。なお、出力時間履歴164は、上記平均値が、出力時間履歴164に当該平均値を追加した時刻の情報と対応付けられて、時系列順に格納されているデータベースである。また、出力制御部103cは、音声取得制御部101cから、音声データを取得した時刻の通知を受けると、出力時間決定部104に、所定時間t1、所定時間t2、所定時間t3を決定するよう指示するとともに、通知された時刻を出力時間決定部104に出力する。
出力時間決定部104は、実施形態3にて説明した所定時間t1、所定時間t2、所定時間t3を決定(調整)する。具体的には、出力時間決定部104は、出力制御部103cからの指示を受けると、出力時間履歴164を読み出す。そして、出力制御部103cから取得した時刻から過去30分以内に格納された平均値があるか否かを判定する。過去30分以内に格納された平均値がある場合、当該平均値が8秒を超えるか否かを判定する。8秒を超える場合、所定時間t1、所定時間t2、所定時間t3を延長し、それぞれ3秒、9秒、30秒と決定し、出力制御部103cに通知する。
一方、過去30分以内に格納された平均値が無い場合、または、過去30分以内に格納された平均値が8秒未満である場合、所定時間t1、所定時間t2、所定時間t3を延長せず、それぞれ2秒、6秒、20秒と決定し、出力制御部103cに通知する。これにより、出力制御部103cは、出力時間決定部104が決定した所定時間に合わせて、報知サウンドや定型音声(「えーっと…」など)を音声出力部13から出力させることができ、また、出力時間決定部104が決定した所定時間に合わせて、「通信状態が良くないみたい。確かめてみてね」という定型音声を出力して、音声対話を終了させることができる。
〔実施形態5〕
本発明のさらに別の実施形態について、図15に基づいて説明すれば、以下のとおりである。
本実施形態に係る音声対話装置1dは、実施形態4にて説明した音声対話装置1cと同様に、所定時間t1、所定時間t2、所定時間t3を延長することができる。ただし、音声対話装置1dは、音声対話装置1cと異なり、本実施形態に係るクラウドサーバ2dと、クラウドサーバ2dと通信可能に接続された空調装置5との通信状態に応じて所定時間t1、所定時間t2、所定時間t3を延長する。
これにより、音声対話装置1dとクラウドサーバ2との通信状態が不安定であると予想される場合に、報知サウンドの出力、応答に時間がかかっていることを示す定型音声の出力、および音声対話の終了までの時間を延ばすことができる。よって、応答音声が出力される可能性を上げることができる。
(空調装置5)
空調装置5は、音声対話装置1が内蔵された家電(例えば冷蔵庫4)のユーザが所有する、音声対話装置1が内蔵された家電とは異なる家電である。本実施形態では、クラウドサーバ2dは自装置と通信可能に接続された家電について、家電を識別するための機器IDと、家電を所有するユーザを識別するユーザIDとを対応付けて管理している。つまり、冷蔵庫4および空調装置5の機器IDは、クラウドサーバ2dにおいて同一のユーザIDと対応付けられて管理されている。
空調装置5は、上述したようにクラウドサーバ2dと通信可能に接続されており、クラウドサーバ2dからの指示に応じて各種処理を実行する。例えば、ユーザが、自身が所有する端末装置(スマートフォンなど)から空調装置の運転開始を指示した場合、当該指示は端末装置からクラウドサーバ2dを介して、空調装置5に伝達される。そして、空調装置5は当該指示に応じて運転を開始する。なお、クラウドサーバ2dと通信可能に接続された家電は空調装置5に限定されるものではない。
また、空調装置5は、指示に応じて処理を実行すると、処理を実行した旨を、自装置の機器IDとともにクラウドサーバ2dに通知する。このとき、クラウドサーバ2dは、当該通知を端末装置に伝達してもよい。
(クラウドサーバ2dの要部構成)
図15は、音声対話システム100dに含まれる音声対話装置1dおよびクラウドサーバ2dの要部構成の一例を示すブロック図である。
クラウドサーバ2dは、実施形態1〜4にて説明したクラウドサーバ2と異なり、制御部20に代えて制御部20dを備える。また、通信部21に代えて通信部21dを備える。また、記憶部22に代えて記憶部22dを備える。
通信部21dは、音声対話装置1および情報提供サーバ3に加え、空調装置5との通信を行い、各種情報を送受信する。具体的には、通信部21dは、ユーザの端末装置(不図示)から受信した空調装置5に対する指示、および指示対象の空調装置5の機器IDを、機器特定部204に出力する。また、通信部21dは、端末装置から受信した指示を、機器特定部204が特定した空調装置5に送信する。また、通信部21dは、空調装置5から受信した通知と機器IDとを出力時間制御部205に出力する。さらに、通信部21dは、出力時間制御部205から取得した、所定時間t1、所定時間t2、所定時間t3の延長指示を、音声対話装置1dに送信する。
制御部20dは、クラウドサーバ2dの機能を統括して制御する。制御部20dは、制御部20と異なり、新たに機器特定部204および出力時間制御部205を備える。
機器特定部204は、指示対象の家電(本実施形態では空調装置5)を特定する。機器特定部204は、通信部21dから指示および機器IDを取得すると、当該機器IDを用いて空調装置5を特定し、通信部21dを介して、取得した指示を空調装置5に送信する。そして、機器特定部204は、指示の送信が完了すると、その旨を出力時間制御部205に通知する。
出力時間制御部205は、実施形態3にて説明した所定時間t1、所定時間t2、所定時間t3を延長するか否かを決定する。具体的には、出力時間制御部205は、空調装置5に指示を伝達してから(機器特定部204から通知を取得してから)、空調装置5からの通知を受信するまで(通信部21dから通知を取得するまで)の時間(通信時間)を、タイマ(不図示)を用いて計測する。そして、通信時間が閾値(本実施形態では8秒であるが、この例に限定されない)を超えるか否かを判定する。8秒を超える場合、所定時間t1、所定時間t2、所定時間t3を延長するための延長指示を、判定した時刻を示す時刻情報とともに、通信部21dを介して音声対話装置1dに送信する。具体的には、出力時間制御部205は、機器データベース222を参照して、取得した機器IDが対応付けられているユーザIDと、同一のユーザIDが対応付けられた機器IDが示す音声対話装置1d(または、音声対話装置1dが接続された家電(冷蔵庫4))を特定する。そして、特定した音声対話装置1dに、延長指示および時刻情報を送信する。
記憶部22dは、クラウドサーバ2dが使用する各種データを記憶する。本実施形態に係る記憶部22dは、実施形態1にて説明した応答情報221に加え、機器データベース222を記憶している。機器データベース222は、クラウドサーバ2dと通信可能に接続されている家電(冷蔵庫4および空調装置5)の機器IDと、機器IDが示す家電を所有するユーザを示すユーザIDとを対応付けて管理しているデータベースである。
(音声対話装置1dの要部構成)
次に、図15を参照して、音声対話装置1dの要部構成について説明する。音声対話装置1dは、実施形態4にて説明した音声対話装置1cと異なり、制御部10cに代えて制御部10dを備える。また、通信部14に代えて通信部14dを備える。
通信部14dは、クラウドサーバ2dとの通信を行い、各種情報を送受信する。通信部14dは、通信部14が備える機能に加え、クラウドサーバ2dから受信した延長指示および時刻情報を出力時間決定部104dに出力する。
制御部10dは、音声対話装置1dの機能を統括して制御する。制御部10dは、制御部10cと異なり、出力時間決定部104に代えて出力時間決定部104dを含む。
出力時間決定部104dは、実施形態3にて説明した所定時間t1、所定時間t2、所定時間t3を決定する。出力時間決定部104dは、出力制御部103cからの所定時間t1、所定時間t2、所定時間t3を決定するための指示を待機する状態となっている。そして、当該指示を受けると、まず出力時間決定部104dは、通信部14dから延長指示および時刻情報を取得しているか否かを確認する。取得している場合、取得した時刻情報と現在時刻とを比較し、2つの時刻の差が所定時間以内(本実施形態では30分以内であるが、この例に限定されない)であるか否かを判定する。30分以内である場合、出力時間決定部104dは、所定時間t1(2秒)、所定時間t2(6秒)、所定時間t3(20秒)を延長する。延長の度合いは特に限定されない。例えば、実施形態4と同様にそれぞれを1.5倍してもよい。一方、延長指示および時刻情報を取得していない場合、または、2つの時刻の差が30分を超える場合、各所定時間を延長しない。そして、出力時間決定部104dは、決定した所定時間t1、所定時間t2、所定時間t3を出力制御部103cに通知する。
(実施形態3〜5の変形例)
実施形態3〜5では、所定時間t1が経過した時点で判定結果を受信していない場合に報知サウンドを出力し、所定時間t2が経過した時点で応答音声データを出力可能な状態となっていない場合に定型音声(例えば「えーっと…」)を出力し、所定時間t3が経過した時点で応答音声データを出力可能な状態となっていない場合に定型音声(例えば「通信状態が良くないみたい。確かめてみてね」)を出力するとともに音声対話を終了する構成を説明した。しかしながら、音声対話装置1b、1c、1dは、これら3つの処理の少なくとも1つを実行する構成であってもよい。
また、実施形態4および5では、所定時間t1、所定時間t2、所定時間t3のすべてを延長する構成を説明したが、これら3つの所定時間のうち、少なくとも1つを延長する構成であってもよい。
〔各実施形態に共通の変形例〕
上述した各実施形態では、応答音声が出力される旨をユーザに報知するために、報知サウンドを出力する例を説明した。しかしながら、当該報知は音声出力に限定されない。例えば、応答音声が出力される旨を表示部(不図示)に表示したり、LEDなどの点灯部(不図示)を点灯または点滅させることで、応答音声が出力されることをユーザに報知したりしてもよい。当該表示部および点灯部は、音声対話装置1、1a〜1dに設けられていてもよいし、家電(冷蔵庫4)に設けられていてもよいし、音声対話装置1、1a〜1dまたは冷蔵庫4に接続されるものであってもよい。
また、上述した各実施形態では、音声認識および応答音声データの生成を音声対話装置1、1a〜1dとは異なる装置であるクラウドサーバ2、2dが実行する例を説明した。しかしながら、音声認識および応答音声データの生成を音声対話装置1、1a〜1dが実行してもよい。この場合、音声対話装置1、1a〜1dは情報提供サーバ3(音声対話装置1dの場合、さらに空調装置5)と通信可能に接続される。
〔ソフトウェアによる実現例〕
音声対話装置1、1a〜1d、クラウドサーバ2、2dの制御ブロック(特に制御部10、10a〜10d、制御部20、20d)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、音声対話装置1、1a〜1d、クラウドサーバ2、2dは、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る対話装置(音声対話装置1)は、ユーザと対話を実行する対話装置であって、入力装置(音声入力部12)に入力された音声のデータを取得する音声取得部(音声取得制御部101)と、当該音声に対する応答音声を出力装置(音声出力部13)に出力させる出力制御部(出力制御部103)と、を備え、上記音声取得部は、上記データの取得後に上記データの取得を停止し、当該音声が認識可能であるか否かを示す判定結果を取得する判定結果取得部(通信制御部102)をさらに備え、上記判定結果が認識可能であることを示している場合、上記出力制御部は、上記音声を受け付けた旨を示す受付情報を上記出力装置に出力させる一方、上記判定結果が認識不可能であることを示している場合、上記出力制御部は、上記受付情報を上記出力装置に出力させず、上記音声取得部は、上記データの取得を再開する。
上記の構成によれば、音声が認識不可能であると判定された場合、受付情報を出力せず、停止していた音声データの取得を再開する。これにより、ユーザと対話装置とが対話をしていないときに、雑音などの認識不可能な音声のデータを取得しても、ユーザに対して何ら報知せず、次の音声データを取得する状態に戻ることができる。よって、ユーザと対話をしていない場合に、ユーザが不快に感じることを防ぐことができる。
なお、受付情報の出力方法としては、音声出力、ディスプレイなどへの表示、LEDなどの点灯や点滅などが挙げられる。
本発明の態様2に係る対話装置は、上記態様1において、上記認識不可能との判定結果を上記判定結果取得部が連続して所定回数取得した場合、または、所定期間内に所定回数取得した場合、上記対話の実行を終了してもよい。
上記の構成によれば、認識不可能な音声を連続して所定回数取得した場合、または、所定期間内に所定回数取得した場合、対話の実行を終了する。これにより、雑音などの認識不可能な音声のデータを短期間に何度も取得するような状況の場合、換言すれば、ユーザが対話しようとしていないと判断できる場合、自動的に対話を終了することができる。
本発明の態様3に係る対話装置は、上記態様1または2において、上記音声取得部が上記データを取得してから所定期間内に上記判定結果取得部が上記判定結果を取得しない場合、上記出力制御部は、上記受付情報を上記出力装置に出力させてもよい。
上記の構成によれば、音声のデータを取得してから所定時間が経過しても判定結果を取得しない場合、受付情報を出力させる。これにより、ユーザが音声を発した後、対話装置から何ら反応が無いということが無くなるので、ユーザが不安に思うことが無くなる。
本発明の態様4に係る対話装置は、上記態様3において、上記出力制御部は、上記受付情報を上記出力装置に出力させてから所定期間内に上記応答音声を出力装置に出力させることができない場合、上記対話の間を持たせるための音声を上記出力装置に出力させてもよい。
上記の構成によれば、受付情報を出力させてから所定時間が経過しても応答音声を出力させることができない場合、対話の間を持たせるための音声を出力させる。これにより、ユーザが音声を発した後、対話装置が何も発話しないという状況を防ぐことができるので、ユーザが不安に思うことが無くなる。また、音声を出力しない場合に比べて、ユーザの待ち時間を長くとることができるので、応答音声を出力できない原因が、短時間で復帰可能な問題の発生である場合に、ユーザが不快に感じることを防ぐことができる。
本発明の態様5に係る対話装置は、上記態様4において、上記出力制御部は、上記対話の間を持たせるための音声を上記出力装置に出力させてから所定期間内に上記応答音声を出力装置に出力させることができない場合、上記応答音声を出力できない旨を示す音声を上記出力装置に出力させると共に、上記対話の実行を停止してもよい。
上記の構成によれば、対話の間を持たせるための音声を出力させてから所定時間が経過しても応答音声を出力させることができない場合、すなわち、応答音声の出力の目処が立たない場合、応答音声を出力できない旨を示す音声を出力させ、対話の実行を停止する。これにより、ユーザを長時間待たせると予想される場合は、ユーザに対話の終了を認識させたうえで、対話を終了することができる。これにより、応答音声の出力の目処が立たない場合、ユーザを不必要に待たせることを防ぐことができる。
本発明の態様6に係る対話装置は、上記態様3から5のいずれかにおいて、取得した音声のデータを外部のサーバに送信することにより、当該音声に対する判定結果および応答音声のデータを上記サーバから取得する応答音声取得部(通信制御部102)と、上記サーバとの通信状態に応じて、上記所定期間を調整する期間調整部(出力時間決定部104)と、をさらに備えてもよい。
上記の構成によれば、サーバとの通信状態に応じて、所定期間を調整するので、対話装置とサーバとの通信状態に応じたタイミングで、受付情報および音声の出力、並びに、対話の終了を実行することができる。
本発明の態様7に係る対話機器(冷蔵庫4)は、上記態様1から6のいずれかに係る対話装置と、上記入力装置と、上記出力装置とを備えてもよい。
上記の構成によれば、態様1に係る対話装置と同様の作用効果を奏する。
本発明の態様8に係る対話装置の制御方法は、ユーザと対話を実行する対話装置の制御方法であって、入力装置に入力された音声のデータを取得する音声取得ステップ(S2)と、当該音声に対する応答音声を出力装置に出力させる出力制御ステップ(S9)と、上記データの取得後に上記データの取得を停止する取得停止ステップ(S4)と、当該音声が認識可能であるか否かを示す判定結果を取得する判定結果取得ステップ(S5)と、上記判定結果が認識可能であることを示している場合、上記音声を受け付けた旨を示す受付情報を上記出力装置に出力させる受付情報出力ステップ(S7)と、上記判定結果が認識不可能であることを示している場合、上記受付情報を上記出力装置に出力させず、上記データの取得を再開する取得再開ステップ(S1)と、を含む。
上記の構成によれば、態様1に係る対話装置と同様の作用効果を奏する。
本発明の各態様に係る対話装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記対話装置が備える各部(ソフトウェア要素)として動作させることにより上記対話装置をコンピュータにて実現させる対話装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。