JP6636303B2

JP6636303B2 - 対話装置、対話機器、対話装置の制御方法、制御プログラム、および記録媒体

Info

Publication number: JP6636303B2
Application number: JP2015213246A
Authority: JP
Inventors: 永井出; 赤羽　俊夫; 俊夫赤羽; 昭広岡崎
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2015-10-29
Filing date: 2015-10-29
Publication date: 2020-01-29
Anticipated expiration: 2035-10-29
Also published as: JP2017083713A

Description

本発明は、入力部に入力された音声に対する応答音声を出力部から出力させる対話装置に関する。

近年、ユーザが発した音声に対して応答する対話装置が開発されている。また、対話装置に、より高度な応答を行わせるために、対話装置を、通信ネットワークを介してサーバ装置と接続させ、音声認識および認識結果に基づく応答に関する情報の生成をサーバ装置にて実行させる対話システムも開発されている。この対話システムでは、対話装置はサーバ装置から応答に関する情報を取得し、出力（応答）する。

ここで、従来の対話装置および対話システムでは、音声認識ができない場合、その旨をユーザに通知する。特許文献１には、音声認識に失敗した場合、認識失敗をユーザに告知するためのエラーメッセージを作成し、当該エラーメッセージを音声出力、または表示する技術が開示されている。

特開２０１０−７２５７８号公報（２０１０年４月２日公開）

しかしながら、特許文献１の技術では、ユーザが対話しようとしていない場合でも、雑音などを取得してしまうことによってエラーメッセージが出力されてしまうため、ユーザが不快に感じるという問題がある。

本発明は、前記の問題点に鑑みてなされたものであり、その目的は、対話していない場合にユーザが不快に感じることを防ぐ対話装置などを提供することにある。

上記の課題を解決するために、本発明の一態様に係る対話装置は、ユーザと対話を実行する対話装置であって、入力装置に入力された音声のデータを取得する音声取得部と、当該音声に対する応答音声を出力装置に出力させる出力制御部と、を備え、上記音声取得部は、上記データの取得後に上記データの取得を停止し、当該音声が認識可能であるか否かを示す判定結果を取得する判定結果取得部をさらに備え、上記判定結果が認識可能であることを示している場合、上記出力制御部は、上記音声を受け付けた旨を示す受付情報を上記出力装置に出力させる一方、上記判定結果が認識不可能であることを示している場合、上記出力制御部は、上記受付情報を上記出力装置に出力させず、上記音声取得部は、上記データの取得を再開する。

また、上記の課題を解決するために、本発明の一態様に係る対話装置の制御方法は、ユーザと対話を実行する対話装置の制御方法であって、入力装置に入力された音声のデータを取得する音声取得ステップと、当該音声に対する応答音声を出力装置に出力させる出力制御ステップと、上記データの取得後に上記データの取得を停止する取得停止ステップと、当該音声が認識可能であるか否かを示す判定結果を取得する判定結果取得ステップと、上記判定結果が認識可能であることを示している場合、上記音声を受け付けた旨を示す受付情報を上記出力装置に出力させる受付情報出力ステップと、上記判定結果が認識不可能であることを示している場合、上記受付情報を上記出力装置に出力させず、上記データの取得を再開する取得再開ステップと、を含む。

本発明の一態様によれば、対話していない場合にユーザが不快に感じることを防ぐという効果を奏する。

本発明の実施形態１に係る音声対話システムに含まれる音声対話装置およびクラウドサーバの要部構成の一例を示すブロック図である。本発明の音声対話システムの概要を示す図である。本発明の実施形態１に係る音声対話システムで実行される処理の流れの一例を示す図であり、クラウドサーバが音声認識可能と判定した場合のシーケンス図である。本発明の実施形態１に係る音声対話システムで実行される処理の流れの一例を示す図であり、クラウドサーバが音声認識不可能と判定した場合のシーケンス図である。本発明の実施形態１に係る音声対話装置が実行する処理の流れの一例を示すフローチャートである。本発明の実施形態１に係るクラウドサーバが実行する処理の流れの一例を示すフローチャートである。本発明の実施形態２に係る音声対話システムに含まれる音声対話装置およびクラウドサーバの要部構成の一例を示すブロック図である。本発明の実施形態２に係る音声対話システムで実行される処理の流れの一例を示すシーケンス図である。本発明の実施形態２に係る音声対話装置が実行する処理の流れの一例を示すフローチャートである。本発明の実施形態３に係る音声対話システムに含まれる音声対話装置およびクラウドサーバの要部構成の一例を示すブロック図である。本発明の実施形態３に係る音声対話システムで実行される処理の流れの一例を示すシーケンス図である。本発明の実施形態３に係る音声対話装置が実行する処理の流れの一例を示すフローチャートである。図１２に示す「Ａ」以降の処理の流れの一例を示すフローチャートである。本発明の実施形態４に係る音声対話システムに含まれる音声対話装置およびクラウドサーバの要部構成の一例を示すブロック図である。本発明の実施形態５に係る音声対話システムに含まれる音声対話装置およびクラウドサーバの要部構成の一例を示すブロック図である。

以下、本発明の実施形態について、詳細に説明する。なお、説明の便宜上、各実施形態に示した部材と同一の機能を有する部材については、同一の符号を付記し、適宜その説明を省略する。

〔実施形態１〕
本発明の一実施形態について、図１〜図６に基づいて説明すれば以下のとおりである。

（音声対話システム１００の概要）
図２は、音声対話システム１００の概要を示す図である。音声対話システム１００は、ユーザと家庭用電子機器（以下、家電と称する。図２の例では冷蔵庫４）との音声対話を実現するものである。具体的には、音声対話システム１００は、図２に示すように、ユーザが冷蔵庫４に向かって「おはよう」と発話した場合、ユーザに対して冷蔵庫４が「おはよう、今日はいい天気だね」と応答音声を出力することで、音声対話を実現するシステムである。なお、図２に示すユーザの発話の内容と、応答音声の内容とは一例であり、図２の例に限定されるものではない。

音声対話システム１００は、クラウドサーバ２（サーバ）および冷蔵庫４（対話機器）を含み、冷蔵庫４内には音声対話装置１（対話装置）が組み込まれている。すなわち、冷蔵庫４と音声対話装置１とは一体となっている。これにより、冷蔵庫４はユーザが発話した音声を取得し、当該音声の音声データをクラウドサーバ２に送信することができる。また、クラウドサーバ２が生成した音声を受信することができるので、応答音声を出力することができる。

なお、音声対話装置１と冷蔵庫４とは別々の装置であって、冷蔵庫４の表面に音声対話装置１を設ける構成であってもよい。具体的には、冷蔵庫４がクラウドサーバ２との通信機能を有していない場合、当該通信機能を有する通信アダプタを冷蔵庫４に取り付けて電気的に接続すればよい。このとき、通信アダプタは例えば、図１に示す音声対話装置１のすべての部材を備える構成であってもよいし、通信アダプタが、制御部１０、通信部１４、および記憶部１６を備える一方、冷蔵庫４が、操作部１１、音声入力部１２、および音声出力部１３を備える構成であってもよい。これにより、当該通信アダプタを冷蔵庫４に取り付けるだけで、本実施形態の音声対話装置１の音声対話機能を実現することができる。また、この構成は後述する他の実施形態にも適用可能である。

クラウドサーバ２は、音声対話装置１の外部の装置であり、音声対話装置１から音声データを取得して、音声認識を行う。そして、音声認識の結果に基づいて応答音声データを生成し、音声対話装置１に送信する。なお、図２において、音声対話装置１が組み込まれた家電を冷蔵庫４としたのは一例である。当該家電は、冷蔵庫４以外、例えば、空調装置（いわゆるエアコン）、テレビ、電子レンジなどであってもよい。

（音声対話システム１００にて実行される処理の概要）
図３および図４は、音声対話システム１００にて実行される処理の概要を示すシーケンス図である。

図３に示すように、音声入力可能な状態となっている音声対話装置１に対して、「おはよう」と発話（音声入力）すると（ステップＴ１、以下「ステップ」を省略）、音声対話装置１は、当該音声の音声データを生成し（Ｔ２）、クラウドサーバ２に送信する。そして、音声対話装置１は、クラウドサーバ２への音声データの送信が完了すると（音声データの取得後）、音声入力を受け付けない状態となり、音声入力不可期間が開始される。

クラウドサーバ２は、受信した音声データについて、音声認識を実行する（Ｔ３）。具体的には、まず、音声認識可能な音声データであるか否かを判定する。そして、音声認識可能であると判定した場合、図３に示すように、その旨を示す判定結果を音声対話装置１に送信し、音声認識を継続する。音声認識が完了すると、クラウドサーバ２は応答音声データの生成を開始する（Ｔ４）。

音声対話装置１は、音声認識可能であるとの判定結果を受信すると、応答音声が出力されることをユーザに報知するための報知サウンド（受付情報）を出力する（Ｔ５）。そして、応答音声データの受信を待機する状態となる。

クラウドサーバ２は、応答音声データの生成が完了すると、音声対話装置１に応答音声データを送信する。音声対話装置１は、受信した応答音声データを用いて、応答音声を出力する（Ｔ６）。図３の例では、「おはよう、今日はいい天気だね」と出力する。そして、音声入力不可期間を終了させる。以上のように、音声対話システム１００では、ユーザが「おはよう」と発話したことに対して、音声対話装置１（冷蔵庫４）が、「おはよう、今日はいい天気だね」と応答する。

一方、音声対話装置１は、ユーザが発した音声以外の音声も取得してしまう。たとえば、音声対話装置１の周囲で発せられた生活音や、音声対話装置１が接続された冷蔵庫４の使用によって発せられた音（使用音）などの雑音も取得してしまう。雑音の音声データもクラウドサーバ２に送信されるが、このような音声データはクラウドサーバ２にとっては音声認識不可能な音声である。以下、このような場合の処理の概要について説明する。

図４に示すように、音声入力可能な状態となっている音声対話装置１に対して、雑音（図４では「ガヤガヤ」で示している）が入力されると（Ｔ１１）、音声対話装置１は、図３で示した例と同様に、音声データを生成し（Ｔ１２）、クラウドサーバ２に送信する。そして、音声入力不可期間が開始される。クラウドサーバ２は、受信した音声データについて、音声認識を実行し（Ｔ１３）、音声認識不可能な音声データであると判定する。そして、その旨を示す判定結果を音声対話装置１に送信する。

音声対話装置１は、音声認識不可能であるとの判定結果を受信すると、音声入力不可期間を終了する。これにより、音声対話装置１は再び音声入力可能な状態となる。この後、ユーザが音声対話装置１に対して、「おはよう」と発話（音声入力）すると、図３で示した例と同様の流れで処理が進む。以降の処理（Ｔ１〜Ｔ６）については、図３を参照して既に説明しているため、ここでの説明を省略する。

以上のように、音声対話装置１は、取得した音声の音声データについて、クラウドサーバ２が音声認識不可能と判定した場合、応答音声を出力することを示す報知サウンドを出力する。これにより、ユーザに応答音声が出力されることを認識させることができる。一方、音声認識不可能と判定した場合、報知サウンドを出力せず、音声入力可能な状態に復帰する。これにより、生活音や使用音などの雑音を取得した場合に、ユーザに無意味な報知をすることなく、速やかに音声入力可能な状態に復帰することができる。

（音声対話装置１の要部構成）
図１は、音声対話システム１００に含まれる音声対話装置１およびクラウドサーバ２の要部構成の一例を示すブロック図である。

音声対話装置１は、制御部１０、操作部１１、音声入力部１２（入力装置）、音声出力部１３（出力装置）、通信部１４、および記憶部１６を備える。なお、操作部１１、音声入力部１２、および音声出力部１３は、音声対話装置１ではなく、冷蔵庫４に備えられていてもよいし、それぞれが音声対話装置１と別装置であってもよい。

操作部１１は、ユーザの操作を受け付けて当該操作に基づく操作信号を出力する。具体的には、操作部１１はボタン（物理ボタンであってもよいし、タッチパネル上に表示されたボタンを模した画像であってもよい）であり、当該ボタンは、押下（画像の場合はタッチ）されると、操作信号を制御部１０に出力する。なお、操作部１１がボタンであることは一例である。例えば、操作部１１は、冷蔵庫４のドアであってもよい。具体的には、冷蔵庫４のドアは、ユーザによって開けられると、操作信号を制御部１０に出力する。

音声入力部１２は、音声対話装置１の周囲で発せられた音声を取得して、当該音声の音声データを出力する、いわゆるマイクロフォンである。音声出力部１３は、音声データを音声に変換して出力する、いわゆるスピーカである。

通信部１４は、クラウドサーバ２との通信を行い、各種情報を送受信する。具体的には、通信部１４は、上記音声データを音声取得制御部１０１から取得し、クラウドサーバ２に送信する。また、通信部１４は、クラウドサーバ２から、受信した音声データが音声認識可能か否かの判定結果、および、応答音声データを受信し、制御部１０に出力する。

制御部１０は、音声対話装置１の機能を統括して制御する。制御部１０は、音声取得制御部１０１（音声取得部）、通信制御部１０２（判定結果取得部、応答音声取得部）、および出力制御部１０３を含む。

音声取得制御部１０１は、音声対話装置１の音声取得機能を制御する。具体的には、音声取得制御部１０１は、操作部１１から取得した操作信号に従って、音声入力部１２を起動し、音声入力を受け付ける状態とする。また、音声取得制御部１０１は、音声入力部１２を起動後に、操作部１１から音声対話を終了するための操作信号を受け付けると、音声対話を終了し、音声入力部１２を停止させる。なお、音声取得制御部１０１は、音声データを最後に取得してから所定時間経過した場合に、音声対話を終了してもよい。また、音声取得制御部１０１は、音声入力部１２から音声データを取得すると、当該音声データを、通信部１４を介してクラウドサーバ２に送信する。

また、音声取得制御部１０１は、音声データのクラウドサーバ２への送信が完了すると、音声対話装置１を、その後に発せられた音声について、応答音声を出力しない状態とする。本実施形態では、音声取得制御部１０１は、音声入力部１２を停止して、音声入力を受け付けない状態とする。なお、この例には限定されず、例えば、音声取得制御部１０１は、音声入力部１２を制御して、取得した音声を音声データに変換しないようにしてもよい。

また、音声取得制御部１０１は、クラウドサーバ２へ送信した音声データが音声認識不可能であることを示す判定結果を取得した通信制御部１０２からの指示に従って、また、応答音声を出力したことを示す出力制御部１０３からの通知を受けて、音声対話装置１を、その後に発せられた音声について、応答音声を出力可能な状態とする。本実施形態では、音声入力部１２を再度起動して、音声入力を受け付ける状態とする。なお、ここで音声取得制御部１０１が実行する処理は、応答音声を出力しない状態とする処理に応じたものとなる。例えば、応答音声を出力しない状態とする処理が、音声入力部１２を制御して、取得した音声を音声データに変換しないようにする処理である場合、取得した音声を音声データに変換するようにする。

通信制御部１０２は、クラウドサーバ２から受信した情報に基づいて、制御部１０の各部に処理の実行を指示する。具体的には、通信制御部１０２は、クラウドサーバ２へ送信した音声データが音声認識不可能であることを示す判定結果を取得した場合、音声取得制御部１０１に、音声対話装置１を、その後に発せられた音声について、応答音声を出力可能な状態とするよう指示する。

また、通信制御部１０２は、クラウドサーバ２へ送信した音声データが音声認識可能であることを示す判定結果を取得した場合、出力制御部１０３へ、報知サウンドの出力を指示する。また、通信制御部１０２は、クラウドサーバ２から応答音声データを取得した場合、当該応答音声データを出力制御部１０３に出力するとともに、応答音声の出力を指示する。

出力制御部１０３は、音声対話装置１の音声出力機能を制御する。具体的には、出力制御部１０３は、クラウドサーバ２へ送信した音声データが音声認識可能であることを示す判定結果を取得した通信制御部１０２からの指示に従って、記憶部１６から報知サウンドデータ１６１を読み出し、音声出力部１３から報知サウンドを出力させる。なお、報知サウンドデータ１６１とは、報知サウンドの音声データである。報知サウンドは、ユーザに、応答音声が出力されることを報知するサウンドであり、例えば、「ポン」という音であるが、音の種類についてはこの例に限定されない。

また、出力制御部１０３は、通信制御部１０２から応答音声データを取得し、応答音声を出力するよう指示されると、取得した応答音声データを用いて、音声出力部１３から応答音声を出力する。応答音声を出力すると、出力制御部１０３は、応答音声を出力したことを音声取得制御部１０１に通知する。また、出力制御部１０３は、所定のタイミングで、記憶部１６から定型音声データ１６２を読み出し、音声出力部１３から定型音声を出力してもよい。ここで定型音声データとは、定型音声の音声データである。定型音声としては、例えば、音声対話を終了するときに出力される、「またね」という音声が挙げられるが、この例に限定されるものではない。

記憶部１６は、音声対話装置１が使用する各種データを記憶する。本実施形態に係る記憶部１６は少なくとも、報知サウンドデータ１６１および定型音声データ１６２を記憶している。なお、報知サウンドデータ１６１および定型音声データ１６２については既に説明しているため、ここでの説明を省略する。

（クラウドサーバ２の要部構成）
クラウドサーバ２は、制御部２０、通信部２１および記憶部２２を備える。

通信部２１は、音声対話装置１および後述する情報提供サーバ３との通信を行い、各種情報を送受信する。具体的には、通信部２１は、音声データを音声対話装置１から受信し、制御部２０に出力する。また、通信部２１は、制御部２０から取得した、音声データが音声認識可能であるか否かの判定結果、および、制御部２０から取得した応答音声データを、音声対話装置１へ送信する。また、通信部２１は、情報提供サーバ３から取得した情報を制御部２０に出力する。

制御部２０は、クラウドサーバ２の機能を統括して制御する。制御部２０は、音声認識部２０１、応答生成部２０２、および音声合成部２０３を含む。

音声認識部２０１は、受信した音声データに対して音声認識を行う。具体的には、音声認識部２０１は、受信した音声データをテキストデータに変換し、そのテキストデータを解析して単語やフレーズを抽出する。このとき、音声認識部２０１は、単語やフレーズの抽出が可能であるか否か、すなわち、音声認識が可能であるか否かを判定し、通信部２１を介して、判定結果を音声対話装置１に送信する。なお、音声認識の処理については、公知技術を用いることができるので、その詳細な説明は省略する。音声認識部２０１は、音声認識の結果を応答生成部２０２に出力する。

応答生成部２０２は、ユーザが発した音声に対する応答音声の内容を示すテキストデータ生成する。具体的には、応答生成部２０２は、音声認識部２０１から取得した音声認識の結果を参照し、記憶部２２に格納されている応答情報２２１から適切な応答情報を読み出したり、情報提供サーバ３にアクセスして情報を取得し、取得した情報を応答情報としたり、取得した情報を参照して応答情報２２１から適切な応答情報を読み出したりする。なお、応答情報とは、応答音声の内容を示すテキストデータを生成するための単語やフレーズであり、応答情報２２１は、複数の単語やフレーズのテキストデータである。そして、応答生成部２０２は、応答音声の内容を示すテキストデータを生成し、音声合成部２０３に出力する。

例えば、ユーザが発した「おはよう」という音声に対する応答である、「おはよう、今日はいい天気だね」という内容のテキストデータを生成する場合、応答生成部２０２は、音声認識の結果（「おはよう」）を参照して、応答情報２２１から「おはよう」という応答情報を読み出す。また、応答生成部２０２は、情報提供サーバ３、具体的には天気予報の情報を管理する天気予報サーバにアクセスし、本日の天気の情報を取得する。そして、天気の情報が「晴れ」を示していたため、応答情報２２１から「今日はいい天気だね」という応答情報を読み出す。そして、読み出した応答情報から、「おはよう、きょうはいい天気だね」という内容のテキストデータを生成する。

音声合成部２０３は、音声データを生成する。具体的には、音声合成部２０３は、応答生成部２０２から取得したテキストデータを音声データに変換し、応答音声データを生成する。そして、音声合成部２０３は、通信部２１を介して、当該応答音声データを音声対話装置１に送信する。

記憶部２２は、クラウドサーバ２が使用する各種データを記憶する。本実施形態に係る記憶部２２は少なくとも、応答情報２２１を記憶している。なお、応答情報２２１については既に説明しているため、ここでの説明を省略する。

情報提供サーバ３は、上述したように、クラウドサーバ２が応答音声データを生成するための情報を提供するサーバである。上述の例では、情報提供サーバ３として天気予報サーバを例に挙げて説明したが、情報提供サーバは天気予報サーバに限定されない。

（音声対話装置１が実行する処理の流れ）
図５は、音声対話装置１が実行する処理の流れの一例を示すフローチャートである。

まず、音声取得制御部１０１は、取得した操作信号に従って、音声入力部１２を、音声入力を受け付ける状態とする（ステップＳ１、以下、「ステップ」を省略）。そして、音声データの取得を待機する状態となる（Ｓ２、音声取得ステップ）。音声データを取得すると、音声取得制御部１０１は、音声データをクラウドサーバ２へ送信する（Ｓ３）。音声データの送信が完了すると、音声取得制御部１０１は、音声入力部１２を、音声入力を受け付けない状態とする（Ｓ４、取得停止ステップ）。

続いて、通信制御部１０２は、音声データが音声認識可能であるか否かの判定結果の受信を待機する状態となる（Ｓ５、判定結果取得ステップ）。判定結果を受信すると（Ｓ５でＹＥＳ）、通信制御部１０２は、判定結果を確認する（Ｓ６）。判定結果が「音声認識可能」である場合（Ｓ６でＹＥＳ）、通信制御部１０２は、報知サウンドの出力を出力制御部１０３に指示する。出力制御部１０３は、通信制御部１０２の指示に従って、報知サウンドを音声出力部１３から出力させる（Ｓ７、受付情報出力ステップ）。

続いて、通信制御部１０２は、応答音声データの受信を待機する状態となる（Ｓ８）。応答音声データを受信すると（Ｓ８でＹＥＳ）、通信制御部１０２は、応答音声データを出力制御部１０３に出力するとともに、応答音声の出力を指示する。出力制御部１０３は、通信制御部１０２の指示に従って、応答音声を出力する（Ｓ９、出力制御ステップ）。そして、この処理（図５に示すフローチャート）はステップＳ１に戻る。すなわち、出力制御部１０３は、応答音声を出力したことを音声取得制御部１０１に通知する。そして、音声取得制御部１０１は当該通知を受けて、音声入力部１２を、音声入力を受け付ける状態とする（Ｓ１、取得再開ステップ）。

一方、判定結果が「音声認識不可能」である場合（Ｓ６でＮＯ）、通信制御部１０２は、音声入力部１２を、音声入力を受け付ける状態とするよう音声取得制御部１０１に指示する。そして、音声取得制御部１０１は、当該指示に従って、音声入力部１２を、音声入力を受け付ける状態とする（Ｓ１）。

（クラウドサーバ２が実行する処理の流れ）
図６は、クラウドサーバ２が実行する処理の流れの一例を示すフローチャートである。

まず、音声認識部２０１は音声データの受信を待機する状態となっている（Ｓ２１）。音声データを受信すると（Ｓ２１でＹＥＳ）、音声認識部２０１は音声認識を実行する（Ｓ２２）。そして、音声認識部２０１は、受信した音声データが音声認識可能であるか否かを判定する（Ｓ２３）。音声認識可能であると判定した場合（Ｓ２３でＹＥＳ）、音声認識部２０１は判定結果、すなわち、音声認識可能である旨を音声対話装置１に通知する（Ｓ２４）。そして、音声認識部２０１は、音声認識の結果を応答生成部２０２に出力する。

続いて、応答生成部２０２は、音声認識の結果に基づいて、応答内容を示すテキストデータを生成する。そして、生成したテキストデータを音声合成部２０３に出力する。続いて、音声合成部２０３は応答音声データを生成する（Ｓ２５）。そして、音声合成部２０３は、生成した応答音声データを音声対話装置１に送信する（Ｓ２６）。以上で、クラウドサーバ２が実行する処理は終了する。

一方、音声認識可能でないと判定した場合（Ｓ２３でＮＯ）、音声認識部２０１は判定結果、すなわち、音声認識不可能である旨を音声対話装置１に通知し（Ｓ２７）、処理を終了する。

〔実施形態２〕
本発明の他の実施形態について、図７〜図９に基づいて説明すれば、以下のとおりである。

（音声対話システム１００ａにて実行される処理の概要）
図８は、音声対話システム１００ａにて実行される処理の概要を示すシーケンス図である。

本実施形態に係る音声対話装置１ａは、図８に示すように、音声認識不可能であるとの判定結果を３回連続で受信すると、「またね」という、音声対話を終了することを示す音声を出力し、音声対話を終了する（Ｔ２１）。これにより、ユーザが音声対話装置１ａに対して音声を発する気が無いにもかかわらず、音声対話装置１ａが雑音（図８では「ガヤガヤ」で示している）を取得し続けてしまうという状況を防ぐことができる。これは、音声対話装置１ａが、最後に音声（音声データ）を取得してから所定時間（例えば、３０秒）が経過した場合に、音声対話を終了する構成である場合において、雑音を取得し続ける状況であっても音声対話を終了させることができるため、特に有用である。

なお、音声対話装置１ａは、当該構成を備えているものとして説明する。すなわち、音声対話装置１ａは、最後に音声データを取得してから３０秒径が経過した場合（換言すれば、音声入力が３０秒間ない場合）、音声対話を終了する。また、音声対話装置１ａは、音声を一度に取得できる時間が定められていてもよい。例えば、当該時間が６０秒である場合、３回連続で音声認識不可能な音声データを取得するのにかかる時間の最大値は、２７０秒前後となる。つまり、音声対話装置１ａにおいて、最初に音声認識不可能な音声データを取得してから、３回連続で音声認識不可能な音声データを取得したことにより音声対話を終了するまでにかかる時間の最大値は２７０秒前後である。

なお、「３回」というのは一例であり、音声対話を終了する条件において、音声認識不可能であるとの判定結果を連続して受信する回数は、３回に限定されない。また、音声認識不可能であるとの判定結果を連続で取得しなくてもよい。すなわち、所定時間（例えば、５分）内に、音声認識不可能であるとの判定結果を所定回数受信することで、音声対話を終了する構成であってもよい。

また、雑音を受信してから音声認識不可能であるとの判定結果を受信するまでの処理については、実施形態１にて図４を参照して既に説明しているため、ここでの説明を省略する。

（音声対話装置１ａの要部構成）
図７は、音声対話システム１００ａに含まれる音声対話装置１ａおよびクラウドサーバ２の要部構成の一例を示すブロック図である。なお、クラウドサーバ２については、実施形態１にて図１を参照して既に説明しているため、ここでの説明を省略する。

音声対話装置１ａは、実施形態１にて説明した音声対話装置１と異なり、制御部１０に代えて制御部１０ａを備える。また、記憶部１６に代えて記憶部１６ａを備える。

制御部１０ａは、音声対話装置１ａの機能を統括して制御する。制御部１０ａは、制御部１０と異なり、音声取得制御部１０１に代えて音声取得制御部１０１ａを含む。また、通信制御部１０２に代えて通信制御部１０２ａを含む。

音声取得制御部１０１ａは、音声対話装置１ａの音声取得機能を制御する。音声取得制御部１０１ａは、実施形態１にて説明した音声取得制御部１０１の機能に加え、通信制御部１０２ａから、音声対話終了を指示されると、音声入力部１２を停止し、音声対話を終了する。

通信制御部１０２ａは、クラウドサーバ２から受信した情報に基づいて、制御部１０の各部に処理の実行を指示する。通信制御部１０２ａは、実施形態１にて説明した通信制御部１０２の機能に加え、クラウドサーバ２から、音声データが音声認識可能であるか否かの判定結果を受信すると、記憶部１６ａに記憶されている判定履歴１６３を更新する。具体的には、受信した判定結果を判定履歴１６３に追加する。なお、判定履歴１６３は、判定結果を、取得した時刻に対応付けて時系列順に格納しているデータベースである。

そして、通信制御部１０２ａは、更新した判定履歴１６３を参照して、音声対話を終了する条件を満たしているか否かを判定する。本実施形態の場合、音声認識不可能であることを示す判定結果を、５分以内に３回連続で取得しているか否かを判定する。そして、音声対話を終了する条件を満たしていると判定した場合、音声対話を終了するよう音声取得制御部１０１ａに指示する。

記憶部１６ａは、音声対話装置１ａが使用する各種データを記憶する。本実施形態に係る記憶部１６ａは、実施形態１にて説明した記憶部１６に記憶されているデータに加え、判定履歴１６３を記憶している。なお、判定履歴１６３については既に説明しているため、ここでの説明を省略する。

（音声対話装置１ａが実行する処理の流れ）
図９は、音声対話装置１ａが実行する処理の流れの一例を示すフローチャートである。なお、図５と同様の処理については、その説明を省略する。

通信制御部１０２ａは、音声データが音声認識可能であるか否かの判定結果の受信を待機する状態となる（Ｓ５）。判定結果を受信すると（Ｓ５でＹＥＳ）、通信制御部１０２ａは、判定履歴１６３を更新する（Ｓ３１）。具体的には、通信制御部１０２ａは当該判定結果を判定履歴１６３に追加する。続いて、通信制御部１０２は、判定結果を確認する（Ｓ６）。判定結果が「音声認識不可能」である場合（Ｓ６でＮＯ）、通信制御部１０２ａは、判定履歴１６３を確認して、「音声認識不可能」が５分以内に３回続いたか否かを判定する（Ｓ３２）。３回続いたと判定した場合（Ｓ３２でＹＥＳ）、通信制御部１０２ａは、音声対話を終了するよう音声取得制御部１０１ａに指示する。続いて、音声取得制御部１０１ａは通信制御部１０２ａからの指示に従って、音声対話を終了する（Ｓ３３）。このとき、定型音声（例えば、「またね」）を出力してもよい。

一方、３回続いていないと判定した場合（Ｓ３２でＮＯ）、通信制御部１０２ａは、音声入力部１２を、音声入力を受け付ける状態とするよう音声取得制御部１０１ａに指示する。そして、音声取得制御部１０１ａは、当該指示に従って、音声入力部１２を、音声入力を受け付ける状態とする（Ｓ１）。

〔実施形態３〕
本発明のさらに別の実施形態について、図１０〜図１３に基づいて説明すれば、以下のとおりである。

（音声対話システム１００ｂにて実行される処理の概要）
図１１は、音声対話システム１００ｂにて実行される処理の概要を示すシーケンス図である。

本実施形態に係る音声対話装置１ｂは、図１１に示すように、音声データをクラウドサーバ２に送信してから（すなわち、クラウドサーバ２において音声認識が実行可能となってから）所定時間ｔ_１（本実施形態ではｔ_１＝２秒とする）が経過した時点で、音声データを音声認識可能か否かの判定結果を受信していない場合、報知サウンドを出力する（Ｔ３１）。換言すれば、音声データを取得してから所定期間内に上記判定結果を受信しない場合、報知サウンドを出力する。これにより、応答音声を出力するための処理を実行中であることをユーザに伝えることができる。

さらに、音声対話装置１ｂは、報知サウンドを出力してから所定時間ｔ_２（本実施形態ではｔ_２＝６秒とする）が経過した時点で、応答音声を出力可能な状態になっていない場合、すなわち、上記判定結果または応答音声データを受信していない場合、応答に時間がかかっていることを示す定型音声を出力する（Ｔ３２）。換言すれば、報知サウンドを出力してから所定期間内に応答音声を出力させることができない場合、対話の間を持たせるための音声を出力する。これにより、応答に時間がかかっていることをユーザに伝えることができる。なお、図１１の例では、「えーっと…」という定型音声を出力しているが、この例に限定されない。

さらに、音声対話装置１ｂは、報知サウンドを出力してから所定時間ｔ_３（本実施形態では、ｔ_３＝２０秒とする）が経過するまでの間に、応答音声を出力可能な状態になっていない場合、すなわち、上記判定結果または応答音声データを受信していない場合、音声対話が継続できないことを伝えるための定型音声を出力し、音声対話を終了する（Ｔ３３）。これにより、音声対話が継続できないことをユーザに伝えることができるとともに、応答音声の受信が期待できない状況において、無駄に応答音声を待機することを防ぐことができる。なお、図１１の例では、「通信状態が良くないみたい。確かめてみてね。」という定型音声を出力しているが、この例に限定されない。また、音声対話が継続できないことを伝えるための定型音声を出力し、音声対話を終了する処理は、「応答に時間がかかっていることを示す定型音声の出力から所定時間ｔ_４（本実施形態では、ｔ_４＝１４秒）が経過するまでの間に、応答音声を出力可能な状態になっていない場合に実行される」と表現することもできる。換言すれば、音声対話装置１ｂは、対話の間を持たせるための音声を出力させてから所定期間内に応答音声を出力させることができない場合、応答音声を出力できない旨を示す音声を出力し、対話の実行を停止する。

（音声対話装置１ｂの要部構成）
図１０は、音声対話システム１００ｂに含まれる音声対話装置１ｂおよびクラウドサーバ２の要部構成の一例を示すブロック図である。なお、クラウドサーバ２については、実施形態１にて図１を参照して既に説明しているため、ここでの説明を省略する。

音声対話装置１ｂは、実施形態１にて説明した音声対話装置１と異なり、制御部１０に代えて制御部１０ｂを備える。また、記憶部１６に代えて記憶部１６ｂを備える。また、新たにタイマ１５を備える。タイマ１５は出力制御部１０３ｂによって制御され、時間経過をカウントする。

制御部１０ｂは、音声対話装置１ｂの機能を統括して制御する。制御部１０ｂは、制御部１０と異なり、音声取得制御部１０１に代えて音声取得制御部１０１ｂを含む。また、出力制御部１０３に代えて出力制御部１０３ｂを含む。

音声取得制御部１０１ｂは、音声対話装置１ｂの音声取得機能を制御する。音声取得制御部１０１ｂは、実施形態１にて説明した音声取得制御部１０１の機能に加え、音声データのクラウドサーバ２への送信が完了すると、その旨を出力制御部１０３ｂに通知する。また、音声取得制御部１０１ｂは、「通信状態が良くないみたい。確かめてみてね。」という定型音声を出力したことを出力制御部１０３ｂから通知されると、音声入力部１２を停止し、音声対話を終了する。

出力制御部１０３ｂは、音声対話装置１ｂの音声出力機能を制御する。出力制御部１０３ｂは、実施形態１にて説明した出力制御部１０３の機能に加え、音声取得制御部１０１ｂからの通知を受けると、タイマ１５を起動し、時間経過の測定を開始する。また、出力制御部１０３ｂは、タイマ１５を起動してから２秒が経過した時点で、音声データを音声認識可能か否かの判定結果を受信していない場合、報知サウンドデータ１６１を読み出し、報知サウンドを音声出力部１３に出力させる。出力制御部１０３ｂは、報知サウンドを出力すると、時間経過の測定を一度リセットし、再度時間経過の測定を開始する。

また、出力制御部１０３ｂは、報知サウンドを出力してから（すなわち、時間経過の測定を再開してから）６秒が経過した時点で、判定結果または応答音声データを受信していない場合、定型音声データ１６２ｂから、「えーっと・・・」という定型音声を出力するための定型音声データを読み出し、当該定型音声を音声出力部１３に出力させる。

また、出力制御部１０３ｂは、報知サウンドを出力してから２０秒が経過した時点で、判定結果または応答音声データを受信していない場合、定型音声データ１６２ｂから、「通信状態が良くないみたい。確かめてみてね。」という定型音声を出力するための定型音声データを読み出し、当該定型音声を音声出力部１３に出力させる。そして、出力制御部１０３ｂは、「通信状態が良くないみたい。確かめてみてね。」という定型音声を出力したことを、音声取得制御部１０１ｂに通知する。

記憶部１６ｂは、音声対話装置１ｂが使用する各種データを記憶する。本実施形態に係る記憶部１６ｂは、実施形態１にて説明した記憶部１６と異なり、定型音声データ１６２に代えて、定型音声データ１６２ｂを記憶している。

定型音声データ１６２ｂは、実施形態１にて説明した、音声対話を終了するときに出力する音声である「またね」の定型音声データに加え、上述した、「えーっと…」および「通信状態が良くないみたい。確かめてみてね。」定型音声データを含む。

（音声対話装置１ｂが実行する処理の流れ）
図１２は、音声対話装置１ｂが実行する処理の流れの一例を示すフローチャートであり、図１３は、図１２に示す「Ａ」以降の処理の流れの一例を示すフローチャートである。なお、図５と同様の処理については、その説明を省略する。

音声取得制御部１０１ｂは、音声データのクラウドサーバ２への送信が完了すると、その旨を出力制御部１０３ｂに通知する。出力制御部１０３ｂは、タイマを起動し（Ｓ４１）、時間経過の測定を開始する。

出力制御部１０３ｂは、通信制御部１０２が、音声データが音声認識可能であるか否かの判定結果を受信していない状況（Ｓ４２でＮＯ）、すなわち、通信制御部１０２から報知サウンドの出力を指示されていない状況で、音声データを送信してから２秒が経過した場合（Ｓ４４でＹＥＳ）、音声出力部１３に報知サウンドを出力させる（Ｓ４５）。

ステップＳ４６で出力制御部１０３ｂが報知サウンドを出力させた後も、通信制御部１０２は、判定結果の受信を待機している状態を継続している（Ｓ４６）。ここで、判定結果を受信した場合（Ｓ４６でＹＥＳ）、通信制御部１０２は、判定結果を確認する（Ｓ４７）。判定結果が「音声認識可能」である場合（Ｓ４７でＹＥＳ）、通信制御部１０２は、報知サウンドの出力を出力制御部１０３ｂに指示する。ただし、報知サウンドは既に出力済であるため、出力制御部１０３ｂは報知サウンドを出力させない。続いて、通信制御部１０２は、応答音声データの受信を待機する状態となる（Ｓ４８）。なお、報知サウンドが出力済の状況で「音声認識可能」の判定結果を受信した場合、通信制御部１０２が報知サウンドの出力を出力制御部１０３に指示せず、応答音声データを待機する状態となってもよい。

応答音声データを受信した場合（Ｓ４８でＹＥＳ）、この処理はステップＳ９へ進む。一方、応答音声データを受信していない場合（Ｓ４８でＮＯ、またはＳ４３でＮＯ）、この処理は後述するステップＳ４８へ進む。

一方、ステップＳ４５で報知サウンドを出力した後、判定結果を受信していない状況（Ｓ４６でＮＯ）、または、応答音声データを受信していない状況（Ｓ４８でＮＯ）で、報知サウンドの出力から６秒が経過した場合（Ｓ４９でＹＥＳ）、出力制御部１０３ｂは、応答に時間がかかる旨の定型音声（例えば、「えーっと…」という定型音声）を出力したか否かを確認する（Ｓ５０）。出力していない場合（Ｓ５０でＮＯ）、当該定型音声を音声出力部１３に出力させる（Ｓ５１）。これに対して、出力している場合（Ｓ５０でＹＥＳ）は、ステップＳ５１は省略される。

続いて、判定結果または応答音声データを受信しないまま、報知サウンドの出力から２０秒が経過した場合（Ｓ５２でＹＥＳ）、出力制御部１０３ｂは、音声対話が継続できない旨の定型音声（例えば、「通信状態が良くないみたい。確かめてみてね」という定型音声）を音声出力部１３に出力させ、音声対話を終了する（Ｓ５３）。

〔実施形態４〕
本発明のさらに別の実施形態について、図１４に基づいて説明すれば、以下のとおりである。

本実施形態に係る音声対話装置１ｃは、音声対話を開始してから終了するまでの間における、音声データのクラウドサーバ２への送信が完了してから、応答音声の出力を開始するまでにかかった時間の平均値を算出し、記憶する。さらに、音声データを取得してから過去に遡って所定時間以内（本実施形態では過去３０分以内であるが、この例に限定されない）に上記平均値が算出され、記憶されていれば、当該平均値が閾値（本実施形態では８秒であるが、この例に限定されない）を超えるか否かを判定する。そして、８秒を超える場合、実施形態３にて説明した所定時間ｔ_１（２秒）、所定時間ｔ_２（６秒）、所定時間ｔ_３（２０秒）を延長する。本実施形態では、所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３をそれぞれ１．５倍にするため、それぞれ３秒、９秒、３０秒となる。ただし、所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３はこの例に限定されず、また、延長の度合いも１．５倍に限定されない。

これにより、音声対話装置１ｃとクラウドサーバ２との通信状態が不安定であると予想される場合に、報知サウンドの出力、応答に時間がかかっていることを示す定型音声の出力、および音声対話の終了までの時間を延ばすことができる。よって、応答音声が出力される可能性を上げることができる。

（音声対話装置１ｃの要部構成）
図１４は、音声対話システム１００ｃに含まれる音声対話装置１ｃおよびクラウドサーバ２の要部構成の一例を示すブロック図である。なお、クラウドサーバ２については、実施形態１にて図１を参照して既に説明しているため、ここでの説明を省略する。

音声対話装置１ｃは、実施形態３にて説明した音声対話装置１ｂと異なり、制御部１０ｂに代えて制御部１０ｃを備える。また、記憶部１６ｂに代えて記憶部１６ｃを備える。

制御部１０ｃは、音声対話装置１ｃの機能を統括して制御する。制御部１０ｃは、制御部１０ｂと異なり、音声取得制御部１０１ｂに代えて音声取得制御部１０１ｃを含む。出力制御部１０３ｂに代えて出力制御部１０３ｃを含む。また、新たに出力時間決定部１０４（期間調整部）を含む。

音声取得制御部１０１ｃは、音声対話装置１ｃの音声取得機能を制御する。音声取得制御部１０１ｃは、実施形態３にて説明した音声取得制御部１０１ｂの機能に加え、音声データを取得すると、音声データを取得した時刻を出力制御部１０３ｃに通知する。

出力制御部１０３ｃは、音声対話装置１ｃの音声出力機能を制御する。出力制御部１０３ｃは、実施形態３にて説明した出力制御部１０３ｂの機能に加え、音声対話を開始してから終了するまでの間における、音声データのクラウドサーバ２への送信が完了してから、応答音声の出力を開始するまでにかかった時間の平均値を算出し、記憶部１６ｃに記憶されている出力時間履歴１６４を更新する（算出した平均値を出力時間履歴１６４に追加する）。なお、出力時間履歴１６４は、上記平均値が、出力時間履歴１６４に当該平均値を追加した時刻の情報と対応付けられて、時系列順に格納されているデータベースである。また、出力制御部１０３ｃは、音声取得制御部１０１ｃから、音声データを取得した時刻の通知を受けると、出力時間決定部１０４に、所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３を決定するよう指示するとともに、通知された時刻を出力時間決定部１０４に出力する。

出力時間決定部１０４は、実施形態３にて説明した所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３を決定（調整）する。具体的には、出力時間決定部１０４は、出力制御部１０３ｃからの指示を受けると、出力時間履歴１６４を読み出す。そして、出力制御部１０３ｃから取得した時刻から過去３０分以内に格納された平均値があるか否かを判定する。過去３０分以内に格納された平均値がある場合、当該平均値が８秒を超えるか否かを判定する。８秒を超える場合、所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３を延長し、それぞれ３秒、９秒、３０秒と決定し、出力制御部１０３ｃに通知する。

一方、過去３０分以内に格納された平均値が無い場合、または、過去３０分以内に格納された平均値が８秒未満である場合、所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３を延長せず、それぞれ２秒、６秒、２０秒と決定し、出力制御部１０３ｃに通知する。これにより、出力制御部１０３ｃは、出力時間決定部１０４が決定した所定時間に合わせて、報知サウンドや定型音声（「えーっと…」など）を音声出力部１３から出力させることができ、また、出力時間決定部１０４が決定した所定時間に合わせて、「通信状態が良くないみたい。確かめてみてね」という定型音声を出力して、音声対話を終了させることができる。

〔実施形態５〕
本発明のさらに別の実施形態について、図１５に基づいて説明すれば、以下のとおりである。

本実施形態に係る音声対話装置１ｄは、実施形態４にて説明した音声対話装置１ｃと同様に、所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３を延長することができる。ただし、音声対話装置１ｄは、音声対話装置１ｃと異なり、本実施形態に係るクラウドサーバ２ｄと、クラウドサーバ２ｄと通信可能に接続された空調装置５との通信状態に応じて所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３を延長する。

これにより、音声対話装置１ｄとクラウドサーバ２との通信状態が不安定であると予想される場合に、報知サウンドの出力、応答に時間がかかっていることを示す定型音声の出力、および音声対話の終了までの時間を延ばすことができる。よって、応答音声が出力される可能性を上げることができる。

（空調装置５）
空調装置５は、音声対話装置１が内蔵された家電（例えば冷蔵庫４）のユーザが所有する、音声対話装置１が内蔵された家電とは異なる家電である。本実施形態では、クラウドサーバ２ｄは自装置と通信可能に接続された家電について、家電を識別するための機器ＩＤと、家電を所有するユーザを識別するユーザＩＤとを対応付けて管理している。つまり、冷蔵庫４および空調装置５の機器ＩＤは、クラウドサーバ２ｄにおいて同一のユーザＩＤと対応付けられて管理されている。

空調装置５は、上述したようにクラウドサーバ２ｄと通信可能に接続されており、クラウドサーバ２ｄからの指示に応じて各種処理を実行する。例えば、ユーザが、自身が所有する端末装置（スマートフォンなど）から空調装置の運転開始を指示した場合、当該指示は端末装置からクラウドサーバ２ｄを介して、空調装置５に伝達される。そして、空調装置５は当該指示に応じて運転を開始する。なお、クラウドサーバ２ｄと通信可能に接続された家電は空調装置５に限定されるものではない。

また、空調装置５は、指示に応じて処理を実行すると、処理を実行した旨を、自装置の機器ＩＤとともにクラウドサーバ２ｄに通知する。このとき、クラウドサーバ２ｄは、当該通知を端末装置に伝達してもよい。

（クラウドサーバ２ｄの要部構成）
図１５は、音声対話システム１００ｄに含まれる音声対話装置１ｄおよびクラウドサーバ２ｄの要部構成の一例を示すブロック図である。

クラウドサーバ２ｄは、実施形態１〜４にて説明したクラウドサーバ２と異なり、制御部２０に代えて制御部２０ｄを備える。また、通信部２１に代えて通信部２１ｄを備える。また、記憶部２２に代えて記憶部２２ｄを備える。

通信部２１ｄは、音声対話装置１および情報提供サーバ３に加え、空調装置５との通信を行い、各種情報を送受信する。具体的には、通信部２１ｄは、ユーザの端末装置（不図示）から受信した空調装置５に対する指示、および指示対象の空調装置５の機器ＩＤを、機器特定部２０４に出力する。また、通信部２１ｄは、端末装置から受信した指示を、機器特定部２０４が特定した空調装置５に送信する。また、通信部２１ｄは、空調装置５から受信した通知と機器ＩＤとを出力時間制御部２０５に出力する。さらに、通信部２１ｄは、出力時間制御部２０５から取得した、所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３の延長指示を、音声対話装置１ｄに送信する。

制御部２０ｄは、クラウドサーバ２ｄの機能を統括して制御する。制御部２０ｄは、制御部２０と異なり、新たに機器特定部２０４および出力時間制御部２０５を備える。

機器特定部２０４は、指示対象の家電（本実施形態では空調装置５）を特定する。機器特定部２０４は、通信部２１ｄから指示および機器ＩＤを取得すると、当該機器ＩＤを用いて空調装置５を特定し、通信部２１ｄを介して、取得した指示を空調装置５に送信する。そして、機器特定部２０４は、指示の送信が完了すると、その旨を出力時間制御部２０５に通知する。
出力時間制御部２０５は、実施形態３にて説明した所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３を延長するか否かを決定する。具体的には、出力時間制御部２０５は、空調装置５に指示を伝達してから（機器特定部２０４から通知を取得してから）、空調装置５からの通知を受信するまで（通信部２１ｄから通知を取得するまで）の時間（通信時間）を、タイマ（不図示）を用いて計測する。そして、通信時間が閾値（本実施形態では８秒であるが、この例に限定されない）を超えるか否かを判定する。８秒を超える場合、所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３を延長するための延長指示を、判定した時刻を示す時刻情報とともに、通信部２１ｄを介して音声対話装置１ｄに送信する。具体的には、出力時間制御部２０５は、機器データベース２２２を参照して、取得した機器ＩＤが対応付けられているユーザＩＤと、同一のユーザＩＤが対応付けられた機器ＩＤが示す音声対話装置１ｄ（または、音声対話装置１ｄが接続された家電（冷蔵庫４））を特定する。そして、特定した音声対話装置１ｄに、延長指示および時刻情報を送信する。

記憶部２２ｄは、クラウドサーバ２ｄが使用する各種データを記憶する。本実施形態に係る記憶部２２ｄは、実施形態１にて説明した応答情報２２１に加え、機器データベース２２２を記憶している。機器データベース２２２は、クラウドサーバ２ｄと通信可能に接続されている家電（冷蔵庫４および空調装置５）の機器ＩＤと、機器ＩＤが示す家電を所有するユーザを示すユーザＩＤとを対応付けて管理しているデータベースである。

（音声対話装置１ｄの要部構成）
次に、図１５を参照して、音声対話装置１ｄの要部構成について説明する。音声対話装置１ｄは、実施形態４にて説明した音声対話装置１ｃと異なり、制御部１０ｃに代えて制御部１０ｄを備える。また、通信部１４に代えて通信部１４ｄを備える。

通信部１４ｄは、クラウドサーバ２ｄとの通信を行い、各種情報を送受信する。通信部１４ｄは、通信部１４が備える機能に加え、クラウドサーバ２ｄから受信した延長指示および時刻情報を出力時間決定部１０４ｄに出力する。

制御部１０ｄは、音声対話装置１ｄの機能を統括して制御する。制御部１０ｄは、制御部１０ｃと異なり、出力時間決定部１０４に代えて出力時間決定部１０４ｄを含む。

出力時間決定部１０４ｄは、実施形態３にて説明した所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３を決定する。出力時間決定部１０４ｄは、出力制御部１０３ｃからの所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３を決定するための指示を待機する状態となっている。そして、当該指示を受けると、まず出力時間決定部１０４ｄは、通信部１４ｄから延長指示および時刻情報を取得しているか否かを確認する。取得している場合、取得した時刻情報と現在時刻とを比較し、２つの時刻の差が所定時間以内（本実施形態では３０分以内であるが、この例に限定されない）であるか否かを判定する。３０分以内である場合、出力時間決定部１０４ｄは、所定時間ｔ_１（２秒）、所定時間ｔ_２（６秒）、所定時間ｔ_３（２０秒）を延長する。延長の度合いは特に限定されない。例えば、実施形態４と同様にそれぞれを１．５倍してもよい。一方、延長指示および時刻情報を取得していない場合、または、２つの時刻の差が３０分を超える場合、各所定時間を延長しない。そして、出力時間決定部１０４ｄは、決定した所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３を出力制御部１０３ｃに通知する。

（実施形態３〜５の変形例）
実施形態３〜５では、所定時間ｔ_１が経過した時点で判定結果を受信していない場合に報知サウンドを出力し、所定時間ｔ_２が経過した時点で応答音声データを出力可能な状態となっていない場合に定型音声（例えば「えーっと…」）を出力し、所定時間ｔ_３が経過した時点で応答音声データを出力可能な状態となっていない場合に定型音声（例えば「通信状態が良くないみたい。確かめてみてね」）を出力するとともに音声対話を終了する構成を説明した。しかしながら、音声対話装置１ｂ、１ｃ、１ｄは、これら３つの処理の少なくとも１つを実行する構成であってもよい。

また、実施形態４および５では、所定時間ｔ_１、所定時間ｔ_２、所定時間ｔ_３のすべてを延長する構成を説明したが、これら３つの所定時間のうち、少なくとも１つを延長する構成であってもよい。

〔各実施形態に共通の変形例〕
上述した各実施形態では、応答音声が出力される旨をユーザに報知するために、報知サウンドを出力する例を説明した。しかしながら、当該報知は音声出力に限定されない。例えば、応答音声が出力される旨を表示部（不図示）に表示したり、ＬＥＤなどの点灯部（不図示）を点灯または点滅させることで、応答音声が出力されることをユーザに報知したりしてもよい。当該表示部および点灯部は、音声対話装置１、１ａ〜１ｄに設けられていてもよいし、家電（冷蔵庫４）に設けられていてもよいし、音声対話装置１、１ａ〜１ｄまたは冷蔵庫４に接続されるものであってもよい。

また、上述した各実施形態では、音声認識および応答音声データの生成を音声対話装置１、１ａ〜１ｄとは異なる装置であるクラウドサーバ２、２ｄが実行する例を説明した。しかしながら、音声認識および応答音声データの生成を音声対話装置１、１ａ〜１ｄが実行してもよい。この場合、音声対話装置１、１ａ〜１ｄは情報提供サーバ３（音声対話装置１ｄの場合、さらに空調装置５）と通信可能に接続される。

〔ソフトウェアによる実現例〕
音声対話装置１、１ａ〜１ｄ、クラウドサーバ２、２ｄの制御ブロック（特に制御部１０、１０ａ〜１０ｄ、制御部２０、２０ｄ）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、音声対話装置１、１ａ〜１ｄ、クラウドサーバ２、２ｄは、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る対話装置（音声対話装置１）は、ユーザと対話を実行する対話装置であって、入力装置（音声入力部１２）に入力された音声のデータを取得する音声取得部（音声取得制御部１０１）と、当該音声に対する応答音声を出力装置（音声出力部１３）に出力させる出力制御部（出力制御部１０３）と、を備え、上記音声取得部は、上記データの取得後に上記データの取得を停止し、当該音声が認識可能であるか否かを示す判定結果を取得する判定結果取得部（通信制御部１０２）をさらに備え、上記判定結果が認識可能であることを示している場合、上記出力制御部は、上記音声を受け付けた旨を示す受付情報を上記出力装置に出力させる一方、上記判定結果が認識不可能であることを示している場合、上記出力制御部は、上記受付情報を上記出力装置に出力させず、上記音声取得部は、上記データの取得を再開する。

上記の構成によれば、音声が認識不可能であると判定された場合、受付情報を出力せず、停止していた音声データの取得を再開する。これにより、ユーザと対話装置とが対話をしていないときに、雑音などの認識不可能な音声のデータを取得しても、ユーザに対して何ら報知せず、次の音声データを取得する状態に戻ることができる。よって、ユーザと対話をしていない場合に、ユーザが不快に感じることを防ぐことができる。

なお、受付情報の出力方法としては、音声出力、ディスプレイなどへの表示、ＬＥＤなどの点灯や点滅などが挙げられる。

本発明の態様２に係る対話装置は、上記態様１において、上記認識不可能との判定結果を上記判定結果取得部が連続して所定回数取得した場合、または、所定期間内に所定回数取得した場合、上記対話の実行を終了してもよい。

上記の構成によれば、認識不可能な音声を連続して所定回数取得した場合、または、所定期間内に所定回数取得した場合、対話の実行を終了する。これにより、雑音などの認識不可能な音声のデータを短期間に何度も取得するような状況の場合、換言すれば、ユーザが対話しようとしていないと判断できる場合、自動的に対話を終了することができる。

本発明の態様３に係る対話装置は、上記態様１または２において、上記音声取得部が上記データを取得してから所定期間内に上記判定結果取得部が上記判定結果を取得しない場合、上記出力制御部は、上記受付情報を上記出力装置に出力させてもよい。

上記の構成によれば、音声のデータを取得してから所定時間が経過しても判定結果を取得しない場合、受付情報を出力させる。これにより、ユーザが音声を発した後、対話装置から何ら反応が無いということが無くなるので、ユーザが不安に思うことが無くなる。

本発明の態様４に係る対話装置は、上記態様３において、上記出力制御部は、上記受付情報を上記出力装置に出力させてから所定期間内に上記応答音声を出力装置に出力させることができない場合、上記対話の間を持たせるための音声を上記出力装置に出力させてもよい。

上記の構成によれば、受付情報を出力させてから所定時間が経過しても応答音声を出力させることができない場合、対話の間を持たせるための音声を出力させる。これにより、ユーザが音声を発した後、対話装置が何も発話しないという状況を防ぐことができるので、ユーザが不安に思うことが無くなる。また、音声を出力しない場合に比べて、ユーザの待ち時間を長くとることができるので、応答音声を出力できない原因が、短時間で復帰可能な問題の発生である場合に、ユーザが不快に感じることを防ぐことができる。

本発明の態様５に係る対話装置は、上記態様４において、上記出力制御部は、上記対話の間を持たせるための音声を上記出力装置に出力させてから所定期間内に上記応答音声を出力装置に出力させることができない場合、上記応答音声を出力できない旨を示す音声を上記出力装置に出力させると共に、上記対話の実行を停止してもよい。

上記の構成によれば、対話の間を持たせるための音声を出力させてから所定時間が経過しても応答音声を出力させることができない場合、すなわち、応答音声の出力の目処が立たない場合、応答音声を出力できない旨を示す音声を出力させ、対話の実行を停止する。これにより、ユーザを長時間待たせると予想される場合は、ユーザに対話の終了を認識させたうえで、対話を終了することができる。これにより、応答音声の出力の目処が立たない場合、ユーザを不必要に待たせることを防ぐことができる。

本発明の態様６に係る対話装置は、上記態様３から５のいずれかにおいて、取得した音声のデータを外部のサーバに送信することにより、当該音声に対する判定結果および応答音声のデータを上記サーバから取得する応答音声取得部（通信制御部１０２）と、上記サーバとの通信状態に応じて、上記所定期間を調整する期間調整部（出力時間決定部１０４）と、をさらに備えてもよい。

上記の構成によれば、サーバとの通信状態に応じて、所定期間を調整するので、対話装置とサーバとの通信状態に応じたタイミングで、受付情報および音声の出力、並びに、対話の終了を実行することができる。

本発明の態様７に係る対話機器（冷蔵庫４）は、上記態様１から６のいずれかに係る対話装置と、上記入力装置と、上記出力装置とを備えてもよい。

上記の構成によれば、態様１に係る対話装置と同様の作用効果を奏する。

本発明の態様８に係る対話装置の制御方法は、ユーザと対話を実行する対話装置の制御方法であって、入力装置に入力された音声のデータを取得する音声取得ステップ（Ｓ２）と、当該音声に対する応答音声を出力装置に出力させる出力制御ステップ（Ｓ９）と、上記データの取得後に上記データの取得を停止する取得停止ステップ（Ｓ４）と、当該音声が認識可能であるか否かを示す判定結果を取得する判定結果取得ステップ（Ｓ５）と、上記判定結果が認識可能であることを示している場合、上記音声を受け付けた旨を示す受付情報を上記出力装置に出力させる受付情報出力ステップ（Ｓ７）と、上記判定結果が認識不可能であることを示している場合、上記受付情報を上記出力装置に出力させず、上記データの取得を再開する取得再開ステップ（Ｓ１）と、を含む。

本発明の各態様に係る対話装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記対話装置が備える各部（ソフトウェア要素）として動作させることにより上記対話装置をコンピュータにて実現させる対話装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１、１ａ〜１ｄ音声対話装置（対話装置）
２、２ｄクラウドサーバ（サーバ）
４冷蔵庫（対話機器）
１２音声入力部（入力装置）
１３音声出力部（出力装置）
１０１音声取得制御部（音声取得部）
１０２通信制御部（判定結果取得部、応答音声取得部）
１０３出力制御部
１０４出力時間決定部（期間調整部）
Ｓ１取得再開ステップ
Ｓ２音声取得ステップ
Ｓ４取得停止ステップ
Ｓ５判定結果取得ステップ
Ｓ７受付情報出力ステップ
Ｓ９出力制御ステップ

Claims

ユーザと対話を実行する対話装置であって、
入力装置に入力された音声のデータを取得する音声取得部と、
当該音声に対する応答音声を出力装置に出力させる出力制御部と、を備え、
上記音声取得部は、上記データの取得後に上記データの取得を停止し、
当該音声が認識可能であるか否かを示す判定結果を取得する判定結果取得部をさらに備え、
上記判定結果が認識可能であることを示している場合、上記出力制御部は、上記音声を受け付けた旨を示す受付情報を上記出力装置に出力させる一方、上記判定結果が認識不可能であることを示している場合、上記出力制御部は、上記受付情報を上記出力装置に出力させず、上記音声取得部は、上記データの取得を再開し、
上記音声取得部が上記データを取得してから所定期間内に上記判定結果取得部が上記判定結果を取得しない場合、上記出力制御部は、上記受付情報を上記出力装置に出力させることを特徴とする対話装置。
上記認識不可能との判定結果を上記判定結果取得部が連続して所定回数取得した場合、または、所定期間内に所定回数取得した場合、上記対話の実行を終了することを特徴とする請求項１に記載の対話装置。
上記出力制御部は、上記受付情報を上記出力装置に出力させてから所定期間内に上記応答音声を出力装置に出力させることができない場合、上記対話の間を持たせるための音声を上記出力装置に出力させることを特徴とする請求項１または２に記載の対話装置。
上記出力制御部は、上記対話の間を持たせるための音声を上記出力装置に出力させてから所定期間内に上記応答音声を出力装置に出力させることができない場合、上記応答音声を出力できない旨を示す音声を上記出力装置に出力させると共に、上記対話の実行を停止することを特徴とする請求項３に記載の対話装置。
取得した音声のデータを外部のサーバに送信することにより、当該音声に対する判定結果および応答音声のデータを上記サーバから取得する応答音声取得部と、
上記サーバとの通信状態に応じて、上記所定期間を調整する期間調整部と、をさらに備えることを特徴とする請求項１から４のいずれか１項に記載の対話装置。
請求項１から５のいずれか１項に記載の対話装置と、上記入力装置と、上記出力装置とを備えることを特徴とする対話機器。
ユーザと対話を実行する対話装置の制御方法であって、
入力装置に入力された音声のデータを取得する音声取得ステップと、
当該音声に対する応答音声を出力装置に出力させる出力制御ステップと、
上記データの取得後に上記データの取得を停止する取得停止ステップと、
当該音声が認識可能であるか否かを示す判定結果を取得する判定結果取得ステップと、
上記判定結果が認識可能であることを示している場合、上記音声を受け付けた旨を示す受付情報を上記出力装置に出力させる受付情報出力ステップと、
上記判定結果が認識不可能であることを示している場合、上記受付情報を上記出力装置に出力させず、上記データの取得を再開する取得再開ステップと、を含み、
上記出力制御ステップは、上記音声取得ステップにて上記データを取得してから所定期間内に上記判定結果取得ステップにて上記判定結果を取得しない場合、上記受付情報を上記出力装置に出力させることを特徴とする対話装置の制御方法。
請求項１に記載の対話装置としてコンピュータを機能させるための制御プログラムであって、上記音声取得部、上記出力制御部、および上記判定結果取得部としてコンピュータを機能させるための制御プログラム。
請求項８に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。