JP6054283B2

JP6054283B2 - 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法

Info

Publication number: JP6054283B2
Application number: JP2013244885A
Authority: JP
Inventors: 平田　真章; 真章平田; 戸嶋　朗; 朗戸嶋; 岩野　裕利; 裕利岩野
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-11-27
Filing date: 2013-11-27
Publication date: 2016-12-27
Anticipated expiration: 2033-11-27
Also published as: US20150149175A1; JP2015102795A; CN104681026B; US9626964B2; CN104681026A

Description

本発明は、擬似的なコミュニケーションを提供する音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法に関する。

音声認識装置として、携帯型端末等によるクライアント装置（端末装置とも称する）と、ネットワークで接続されたサーバ装置とを用いて音声認識処理を実行するクライアント・サーバ型の音声認識システムが利用されている（特許文献１−３）。

当該音声認識システムでは、端末装置での音声認識が難しい場合等に当該音声認識結果をサーバ装置に出力して、サーバ装置側で音声認識して、その結果を端末装置から出力する方式が採用されている。

特開２００９−２３７４３９号公報国際公開第２００９／０１９７８３号国際公開第１３／０２７３６０号

一方で、上記音声認識システムでは、端末装置での音声認識結果に基づいて、サーバ装置での音声認識処理が実行されるため、サーバ装置から得られる音声認識結果に時間がかかり、端末装置を利用するユーザにとって、端末装置からの応答出力時間が長くなりコミュニケーションが円滑に行えないという問題があった。

本発明は上記課題を解決するためになされたものであって、円滑なコミュニケーションが可能な音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法を提供することを目的とすることである。

本発明のある局面に従う音声認識端末は、音声を認識する音声認識が可能なサーバと通信可能に設けられた音声認識端末であって、ユーザからの音声入力を受け付ける音声入力受付部と、音声入力受付部で受け付けた音声入力に対して音声認識する音声認識部と、音声入力受付部で受け付けた音声入力に対する音声認識結果に基づいてユーザに対する応答処理を実行する応答処理実行部と、サーバに音声入力受付部で受け付けた音声入力を送信し、サーバでの音声認識結果を受信する通信部とを備える。応答処理実行部は、音声認識部による音声認識結果とサーバから受信した音声認識結果とのうち先に得られた音声認識結果に基づいて、ユーザに対する応答処理を実行する。

好ましくは、応答処理実行部は、後に得られた音声認識結果に基づくユーザに対する応答処理を実行しない。

好ましくは、音声認識は、音声を認識するとともに当該認識の確度を示す信頼度を算出し、応答処理実行部は、音声認識部による音声認識結果に含まれる信頼度に関し、後に得られた音声認識結果に含まれる信頼度が先に得られた音声認識結果に含まれる信頼度よりも大きい場合に、後に得られた音声認識結果に基づいて、ユーザに対する応答処理をさらに実行する。

特に、応答処理実行部は、音声認識部による音声認識結果に含まれる信頼度に関し、先に得られた音声認識結果に含まれる信頼度が所定の信頼度以下の場合に、後に得られた音声認識結果に含まれる信頼度が先に得られた音声認識結果に含まれる信頼度よりも大きい場合に、後に得られた音声認識結果に基づいて、ユーザに対する応答処理をさらに実行する。

好ましくは、音声入力受付部に入力された音声入力に対する音声認識結果に基づいてサーバの指示に従って音声認識端末が動作するサーバモードと、音声認識端末がサーバの指示を選択的に利用して動作する通常モードとを切り換える動作モード切替部をさらに備える。

特に、応答処理実行部は、サーバモードの場合に音声認識部による音声認識結果を無効とする。

本発明のある局面に従う音声を認識する音声認識が可能な音声認識端末と通信可能に設けられたサーバであって、音声認識端末を介してユーザからの音声入力を受信する音声入力受信部と、音声入力受信部で受信した音声入力に対して音声認識する音声認識部と、音声入力受信部で受信した音声入力に対する音声認識結果に基づいて、音声認識端末に対してユーザに対する応答処理の実行を指示する応答処理実行指示部とを備え、応答処理実行指示部は、音声認識端末に対して音声認識端末がサーバの指示を選択的に利用して動作する通常モードから、サーバの指示に従って音声認識端末が動作するように指示するサーバモードに切り替わるように指示する。

好ましくは、応答処理実行指示部は、音声入力受信部で受け付けた音声入力に対する音声認識結果としてユーザからの所定情報の問い合わせの要求であるか否かを判断し、所定情報の問い合わせの要求であると判断した場合には、当該所定情報を取得するためのデータが登録されているか否かを判断し、判断結果に基づいて当該所定情報を取得するためのデータが登録されていない場合に、ユーザに対してデータの入力を促す応答処理の実行を指示する。

本発明のある局面に従う音声を認識する音声認識が可能な音声認識端末と通信可能に設けられたサーバの制御方法であって、音声認識端末を介してユーザからの音声入力を受信するステップと、受信した音声入力に対して音声認識するステップと、受信した音声入力に対する音声認識結果に基づいて、音声認識端末に対してユーザに対する応答処理の実行を指示するステップとを備え、応答処理の実行を指示するステップは、音声認識端末がサーバの指示を選択的に利用して動作する通常モードから、音声認識端末がサーバの指示に従って動作するように指示するサーバモードに切り替わるように指示するステップを含む。

本発明のある局面に従う音声認識システムであって、音声を認識する音声認識が可能なサーバと、サーバと通信可能に設けられた音声認識端末とを備える。音声認識端末は、ユーザからの音声入力を受け付ける音声入力受付部と、音声入力受付部で受け付けた音声入力に対して音声認識する音声認識部と、音声入力受付部で受け付けた音声入力に対する音声認識結果に基づいてユーザに対する応答処理を実行する応答処理実行部と、サーバに音声入力受付部で受け付けた音声入力を送信し、サーバでの音声認識結果を受信する通信部とを含む。応答処理実行部は、音声認識部による音声認識結果とサーバから受信した音声認識結果とのうち先に得られた音声認識結果に基づいて、ユーザに対する応答処理を実行する。

本発明のある局面に従う音声を認識する音声認識が可能なサーバと通信可能に設けられた音声認識端末のコンピュータにおいて実行される制御プログラムであって、制御プログラムは、コンピュータに対して、ユーザからの音声入力を受け付けるステップと、受け付けた音声入力に対して音声認識するステップと、受け付けた音声入力に対する音声認識結果に基づいてユーザに対する応答処理を実行するステップと、サーバに受け付けた音声入力を送信し、サーバでの音声認識結果を受信するステップとを備え、応答処理を実行するステップは、音声認識するステップに基づく音声認識結果とサーバから受信した音声認識結果とのうち先に得られた音声認識結果に基づいて、ユーザに対する応答処理を実行する、処理を実行させる。

本発明の別の局面に従う音声を認識する音声認識が可能な音声認識端末と通信可能に設けられたサーバのコンピュータにおいて実行される制御プログラムであって、制御プログラムは、コンピュータに対して、音声認識端末を介してユーザからの音声入力を受信するステップと、受信した音声入力に対して音声認識するステップと、受信した音声入力に対する音声認識結果に基づいて、音声認識端末に対してユーザに対する応答処理の実行を指示するステップとを備え、応答処理の実行を指示するステップは、音声認識端末がサーバの指示を選択的に利用して動作する通常モードから、音声認識端末がサーバの指示に従って動作するように指示するサーバモードに切り替わるように指示するステップを含む、処理を実行させる。

本発明の一態様によれば、より円滑なコミュニケーションが可能である。

本実施形態に基づく音声認識システム１について説明する図である。本実施形態に係る音声認識システム１の要部構成について説明する図である。本実施形態に基づく発話内容データベースについて説明する図である。実施形態１に基づく音声認識システム１における応答処理の流れを示すシーケンス図である。本実施形態１に基づく掃除ロボット１０の音声認識処理を実行するフロー図である。本実施形態２に基づく掃除ロボット１０の音声認識処理を実行するフロー図である。本実施形態２に基づく信頼度判定処理について説明するフロー図である。本実施形態３に基づく発話内容データベース２３２を説明する図である。本実施形態３に基づく複数の動作モードについて説明する図である。本実施形態３に基づく通常辞書について説明する図である。本実施形態３に基づくしりとり辞書について説明する図である。本実施形態３に基づく状態記憶部２３３に格納されている情報を説明する図である。実施形態３に基づく音声認識システム１におけるしりとりゲーム開始の応答処理の流れを示すシーケンス図である。実施形態３に基づく音声認識システム１におけるしりとりゲーム終了の応答処理（その１）の流れを示すシーケンス図である。実施形態３に基づく音声認識システム１におけるしりとりゲーム終了の応答処理（その２）の流れを示すシーケンス図である。実施形態３に基づく音声認識システム１におけるしりとりゲーム終了の応答処理（その３）の流れを示すシーケンス図である。本実施形態３に基づくサーバ２０の音声認識処理を実行するフロー図である。本実施形態４に基づく郵便番号辞書およびはい／いいえ辞書について説明する図である。実施形態４に基づく音声認識システム１における天気情報取得（その１）の応答処理の流れを示すシーケンス図である。実施形態４に基づく音声認識システム１における天気情報取得（その２）の応答処理の流れを示すシーケンス図である。本実施形態４に基づくサーバ２０の音声認識処理を実行するフロー図である。本実施形態４に基づく回答フレーズを決定する処理のサブフロー図である。本実施形態５に基づくサーバの構成について説明する図である。

本実施の形態について、以下、図面を参照しながら説明する。実施の形態の説明において、個数および量などに言及する場合、特に記載がある場合を除き、本発明の範囲は必ずしもその個数およびその量などに限定されない。実施の形態の説明において、同一の部品および相当部品に対しては、同一の参照番号を付し、重複する説明は繰り返さない場合がある。特に制限が無い限り、実施の形態に示す構成に示す構成を適宜組み合わせて用いることは、当初から予定されていることである。

＜実施形態１＞
（音声認識システム１の構成）
図１は、本実施形態に基づく音声認識システム１について説明する図である。

図１を参照して、本実施形態に基づく音声認識システム１は、掃除ロボット（音声認識端末）１０、ネットワーク５、サーバ２０とにより構成されている。

掃除ロボット１０は、ネットワーク５を介してサーバ２０と通信可能に設けられている。なお、本例においては、ネットワーク５を介してサーバ２０と通信する場合について説明するが、直接、サーバ２０と通信する方式としてもよい。

音声認識システム１は、掃除ロボット１０に人間（ユーザ）が発した音声が入力されると、掃除ロボット１０あるいはサーバ２０において音声認識されて、入力された音声に対する応答内容を表す音声（以降では、「応答音声」とも記載）を、掃除ロボット１０から出力する。

これによって、本実施形態に係る音声認識システム１は、ユーザと、掃除ロボット１０との疑似的な会話を実現する。

なお、本実施形態では、音声認識端末の一例として、音声を認識してユーザに対して返答音声を出力する掃除ロボット１０を例に挙げて説明するが、本発明はこれに限定されるものではない。例えば、音声認識機能を有する人形や、掃除ロボット１０以外の家電（例えば、テレビ、電子レンジなど）などを、音声認識端末として採用することもできる。

また、本実施形態では、サーバ２０が１つのサーバによって実現される構成を例に挙げて説明するが、本発明はこれに限定されるものではなく、サーバ２０の備える各部（各機能）の少なくとも一部を、他のサーバにより実現する構成を採用してもよい。

（音声認識システム１の要部構成）
図２は、本実施形態に係る音声認識システム１の要部構成について説明する図である。

図２を参照して、まず、掃除ロボット１０の構成について説明する。
本実施形態に基づく掃除ロボット１０は、通信部１０１、制御部１０２、マイク１０３、スピーカ１０４、掃除部１０５、駆動部１０６、表示部１０８および記憶部１０９を含む。

通信部１０１は、外部との通信を行う手段である。具体的には、通信部１０１は、サーバ２０と例えばインターネットなどのネットワーク５を介して通信する。なお、無線あるいは有線のいずれの通信も可能である。

マイク１０３は、外部から音の入力を受け付ける。なお、本実施形態では、マイク１０３が入力を受け付ける音を示す音データには、主に人間の発する音声の周波数帯域に含まれる音のデータ（音声データとも称する）の入力を受け付ける場合について説明するが、音声データの周波数帯域以外の周波数帯域を含む音のデータが含まれていてもよい。マイク１０３は、入力された音を示す音声データを、制御部１０２に出力する。

スピーカ１０４は、制御部１０２から出力される応答内容を表す応答音声を出力する。以降では、掃除ロボット１０がスピーカ１０４を介して行う応答音声の出力を、「発話」とも記載する。なお、応答内容の詳細については、後述する。

掃除部１０５は、制御部１０２からの指示に基づいて、掃除機としての機能を実現する。

駆動部１０６は、制御部１０２からの指示に基づいて、掃除ロボット１０を移動させる。

掃除部１０５および駆動部１０６が協働して動作することによって、掃除ロボット１０は、自動的に部屋の掃除を行うことが可能である。

表示部１０８は、制御部１０２からの指示に従って各種表示機能を実現する。
記憶部１０９は、ＲＡＭ（Random Access Memory）及びフラッシュメモリなどの記憶装置であり、掃除ロボット１０の各種機能を実現するためのプログラム等が格納されている。また、記憶部１０９は、一例として音声応答の出力に関する情報である発話内容データベース１２０を有している。

制御部１０２は、主にＣＰＵ（Central Processing Unit）で構成され、記憶部１０９に格納されているプログラムを当該ＣＰＵが実行する各部の機能を実現する。

制御部１０２は、掃除ロボット１０の各部を統括的に制御する。具体的には、制御部１０２は、掃除部１０５および駆動部１０６を制御することにより、掃除ロボット１０の掃除動作を制御する。また、制御部１０２は、マイク１０３によって外部から取得された音を示す音声データを、通信部１０１を介してサーバ２０に送信する。

また、制御部１０２は、サーバ２０に送信した音声データに対して、サーバ２０で音声認識した音声認識結果データを通信部１０１を介して受信する。そして、制御部１０２は、受信した音声認識結果データに従って応答内容を表す音声応答をスピーカ１０４から出力することが可能である。

制御部１０２の主な機能構成について説明する。
制御部１０２は、音声認識部１１１と、応答処理実行部１１２と、動作モード切替部１１３と、音声入力受付部１１４とを含む。

音声入力受付部１１４は、音声データを検出（抽出）する。換言すれば、音声入力受付部１１４は、外部から受信した音データから、人間の発する音声の周波数帯域を抽出することによって、音データ（音声データ）を検出する。

音声入力受付部１１４における、音データから音声データを検出する方法としては、例えば、音データから人間の発する音声の周波数帯域（例えば、１００Ｈｚ以上かつ１ｋＨｚ以下の周波数帯域）を抽出することによって音声データを検出する方法を挙げることができる。この場合には、音声入力受付部１１４は、音データから人間の発する音声の周波数帯域を抽出するために、例えば、バンドパスフィルタ、又は、ハイパスフィルタ及びローパスフィルタを組み合わせたフィルタなどを備えていればよい。

音声入力受付部１１４は、音データから検出した音声データを、音声認識部１１１に出力するとともに、通信部１０１を介してサーバ２０に送信する。

音声認識部１１１は、音声入力受付部１１４によって受け付けた音声データの示す音声の内容（音声内容）を認識内容として認識する。そして、音声認識部１１１は、音声データから認識した音声内容の認識結果を、応答処理実行部１１２に出力する。

なお、後述するが、音声認識部１１１は、音声内容の認識結果（音声認識結果）として得られる認識の確度（確からしさを示す度合）を示す信頼度を算出することも可能である。

なお、認識確度の最小値を「０」とし、最大値を「１」とした場合、例えば、信頼度が高い場合とは「０．６」以上とすることが可能であるが、本発明はこれらの値に限定されるものではない。

なお、音声認識部１１１における音声認識結果の信頼度の判定方法としては、例えば、予め複数用意されている、所定の言葉（フレーズ）を示す音声波形モデル（音響モデル）と音声データの示す波形との一致度を判定し、最も高い一致度を信頼度とする判定方法などを用いることができる。なお、本発明はこれに限定されるものではなく、例えば、パターンマッチングなどを用いることもできる。

応答処理実行部１１２は、音声認識部１１１の音声内容の認識結果に基づいて、応答内容を決定する。具体的には、応答処理実行部１１２は、記憶部１０９に格納されている発話内容データベース１２０を参照して、音声データの示す音声内容に対する応答内容を決定する。応答処理実行部１１２は、音声認識部１１１の音声内容の認識結果に基づいて応答内容を決定すると、決定した応答内容に基づいて一例としてスピーカ１０４を介してユーザに発話する。また、応答処理実行部１１２は、通信部１０１を介してサーバ２０から送信された音声認識の認識結果である音声認識結果データに基づいて一例としてスピーカ１０４を介してユーザに発話することが可能である。

動作モード切替部１１３は、掃除ロボット１０が有する複数の動作モードの切り替えを実行する。動作モードの切り替えについては後述する。

次に、本実施形態に基づくサーバ２０の構成について説明する。
本実施形態に基づくサーバ２０は、通信部２０１、制御部２０２および記憶部２０３を含む。

通信部２０１は、外部との通信を行う手段である。具体的には、通信部２０１は、掃除ロボット１０と、例えばインターネットなどのネットワーク５を介して通信する。なお、無線あるいは有線のいずれの通信でも可能である。

記憶部２０３は、ＲＡＭ（Random Access Memory）及びフラッシュメモリなどの記憶装置であり、サーバ２０の各種機能を実現するためのプログラム等が格納されている。また、記憶部２０３は、一例として音声応答の出力に関する情報である発話内容データベース２３２、掃除ロボット１０の状態を記憶する状態記憶部２３３を有している。

制御部２０２は、主にＣＰＵ（Central Processing Unit）で構成され、記憶部２０３に格納されているプログラムを当該ＣＰＵが実行することによって実現される。

制御部２０２は、サーバ２０の各部を統括的に制御する。具体的には、制御部２０２は、掃除ロボット１０からの通信部２０１を介して受信した音声データについて、音声認識した結果を音声認識結果データとして通信部２０１を介して掃除ロボット１０に出力する。

次に、サーバ２０の制御部２０２の主な機能構成について説明する。
制御部２０２は、音声入力受信部２２１、音声認識部２２２および応答処理実行指示部２２４を有する。

音声入力受信部２２１は、通信部２０１を介して掃除ロボット１０から送信された音声データを受信する。

音声認識部２２２は、音声入力受信部２２１によって受信した音声データの示す音声の内容（音声内容）を認識内容として認識する。そして、音声認識部２２２は、音声データから認識した音声内容の認識結果を、応答処理実行指示部２２４に出力する。

なお、後述するが、音声認識部２２２は、音声内容の認識結果（音声認識結果）として得られる認識の確度（確からしさを示す度合）を示す信頼度を算出することも可能である。

なお、信頼度の最小値を「０」とし、最大値を「１」とした場合、例えば、信頼度が高い場合とは「０．６」以上とすることが可能であるが、本発明はこれらの値に限定されるものではない。

なお、音声認識部２２２における音声認識結果の信頼度の判定方法としては、例えば、予め複数用意されている、所定の言葉（フレーズ）を示す音声波形モデル（音響モデル）と音声データの示す波形との一致度を判定し、最も高い一致度を信頼度とする判定方法などを用いることができる。なお、本発明はこれに限定されるものではなく、例えば、パターンマッチングなどを用いることもできる。

応答処理実行指示部２２４は、音声認識部２２２の音声内容の認識結果に基づいて、応答内容を決定する。具体的には、応答処理実行指示部２２４は、記憶部２０３に格納されている発話内容データベース２３２を参照して、音声データの示す音声内容に対する応答内容を決定する。なお、記憶部２０３に格納されているデータベースの詳細については後述する。

応答処理実行指示部２２４は、音声認識部２２２の音声内容の認識結果に基づいて、応答内容を決定すると、音声認識の認識結果である音声認識結果データとして決定した応答内容を示す応答内容データを含めて、通信部２０１を介して掃除ロボット１０に送信する。

また、応答処理実行指示部２２４は、必要に応じて掃除ロボット１０が有する複数の動作モードの切り替えの指示を実行する。動作モードの切り替えの指示については後述する。

（発話内容データベース）
図３は、本実施形態に基づく発話内容データベースについて説明する図である。

図３を参照して、当該発話内容データベース１２０は、一例として本実施形態に基づく掃除ロボット１０の備える記憶部１０９に格納されている。

具体的には、発話内容データベース２３２には、認識内容（認識フレーズ）と応答内容（回答フレーズ）とが関連付けられて登録されている。

一例として、ここでは認識フレーズとして、「疲れた」、「眠いよ」、「ただいま」、「今日は怒られたよ」、「今日は喧嘩したよ」、「いってきます」に対応して回答フレーズが関連付けられて格納されている。例えば、認識フレーズ「疲れた」に対応して回答フレーズ「大変だったねぇ」が関連付けられて登録されている場合が示されている。

また、認識フレーズとして、制御コマンドを登録することも可能である。本例においては、一例として、「お掃除して」に対応して回答フレーズ「掃除開始」とが関連付けられて格納されている。ここで、「掃除開始」は、掃除ロボット１０に対する掃除機能の開始を指示するコマンドを意味する。これにより掃除ロボット１０は、掃除部１０５による掃除を開始する。

なお、同じ認識フレーズに対して、複数の回答フレーズが有る場合には複数の中からランダムに回答フレーズが選択されるものとする。なお、優先度を付けて選択させるようにしてもよい。当該複数の回答フレーズを設けることにより、パターン化された応答内容になることなく、ユーザとの間での円滑なコミュニケーションを図ることが可能である。

本例においては、掃除ロボット１０およびサーバ２０にともに発話内容データベース１２０、２３２を設ける。そして、それぞれの装置で並列的に音声認識処理を実行して音声認識結果の早い方を優先して応答処理を実行する。なお、本例においては、一例としてサーバ２０の発話内容データベース２３２には、掃除ロボット１０の発話内容データベース１２０の情報が少なくとも含まれているものとする。

（応答処理）
図４は、実施形態１に基づく音声認識システム１における応答処理の流れを示すシーケンス図である。

図４に示されるように、ユーザは、掃除ロボット１０に対して発話（ユーザ発話とも称する）する（シーケンスｓｑ０）。

掃除ロボット１０は、ユーザ発話に対して音声の入力を受け付ける（シーケンスｓｑ１）。具体的には、音声入力受付部１１４は、マイク１０３を介して外部からの音の入力を受け付ける。

次に、掃除ロボット１０は、音声データをサーバ２０に出力する（シーケンスｓｑ２）。具体的には、音声入力受付部１１４は、通信部１０１を介してサーバ２０に出力する。

次に、サーバ２０は、掃除ロボット１０から送信された音声データを受信して音声認識を実行する（シーケンスｓｑ３）。具体的には、音声入力受信部２２１は、通信部２０１を介して音声データを受信して、音声認識部２２２に出力する。そして、音声認識部２２２は、音声内容を認識する。

次に、サーバ２０は、音声認識した音声認識結果データを掃除ロボット１０に送信する（シーケンスｓｑ４）。具体的には、音声認識部２２２は、音声内容の認識結果を応答処理実行指示部２２４に出力する。応答処理実行指示部２２４は、音声内容に対する応答内容を決定して、通信部２０１を介して応答内容を示す応答内容データを含めた音声認識結果データを掃除ロボット１０に送信する。

一方、掃除ロボット１０は、シーケンスｓｑ１の後、音声データの音声認識を実行する（シーケンスｓｑ５）。具体的には、音声認識部１１１は、音声入力受付部１１４で生成した音声データに従って音声内容を認識する。そして、音声内容の認識結果を応答処理実行部１１２に出力する。

次に、掃除ロボット１０は、音声応答処理を実行する（シーケンスｓｑ６）。
具体的には、応答処理実行部１１２は、音声認識部１１１から出力された音声内容の認識結果あるいはサーバ２０から送信された音声認識結果データに基づいてスピーカ１０４を介してユーザに応答（発話）する。

すなわち、本実施形態１においては、掃除ロボット１０は、音声認識部１１１による音声内容の認識結果に基づく応答処理あるいはサーバ２０の音声認識部２２２による音声内容の認識結果である音声認識結果データに基づく応答処理を実行し、本例においては、より早い応答処理を優先して実行する。

具体的には、掃除ロボット１０は、音声認識部１１１による音声内容の認識結果がサーバ２０から送信される音声認識結果データよりも早く得られた場合には、当該音声認識部１１１による音声内容の認識結果を優先して応答処理を実行する。一方で、サーバ２０から送信される音声認識結果データが音声認識部１１１による音声内容の認識結果よりも早く得られた場合には、当該音声認識結果データを優先して応答処理を実行する。なお、遅い認識結果については応答処理を実行しないようにすることにより重複する応答処理を回避することが可能である。

上記の構成により、本実施形態１においては、音声認識を掃除ロボット１０およびサーバ２０で並列的に実行して処理が早い方を優先して、優先した結果を用いて応答処理を実行する。したがって、掃除ロボット１０での音声認識結果の後に、サーバで音声認識処理が実行されることはなく、それぞれで音声認識した最先の音声認識結果が応答処理に利用されるため掃除ロボット１０からの応答出力時間が短縮され、ユーザにストレスを与えることなく円滑なコミュニケーションを実行することが可能である。

（フロー図）
図５は、本実施形態１に基づく掃除ロボット１０の音声認識処理を実行するフロー図である。

図５を参照して、当該フロー図は、記憶部１０９に格納されているプログラムを実行して制御部１０２の各部が機能することにより実行される処理である。

まず、音声の入力が有るかどうかを判断する（ステップＳ１）。具体的には、音声入力受付部１１４は、マイク１０３を介して音声データを検出したかどうかを判断する。

ステップＳ１において、音声の入力が有るまで待機（ステップＳ１においてＮＯ）し、音声の入力が有ると判定した場合（ステップＳ１においてＹＥＳ）には、出力フラグをオフに設定する（ステップＳ２）。具体的には、音声入力受付部１１４は、音声データを検出したと判断した場合には、出力処理が実行されたことを示すフラグ値をリセットする。たとえば、フラグ値が「１」の場合に初期値「０」に設定する。当該出力フラグは、掃除ロボット１０からの重複する応答処理を回避するためのデータであり、記憶部１０９の所定の領域に格納するようにすればよい。

次に、音声データを送信する（ステップＳ３）。具体的には、音声入力受付部１１４は、通信部１０１を介して検出した音声データを通信部１０１を介してサーバ２０に送信する。

そして、次に、音声認識を実行する（ステップＳ４）。具体的には、音声認識部１１１は、音声入力受付部１１４で検出した音声データについて音声内容を認識する。そして、音声認識部１１１は、音声認識が完了した場合に音声認識結果を応答処理実行部１１２に出力する。

次に、音声認識が完了したかどうかを判断する（ステップＳ５）。具体的には、応答処理実行部１１２は、音声認識部１１１から音声認識結果の出力を受けたか否かを判断する。

ステップＳ５において、音声認識処理が完了したと判断した場合（ステップＳ５においてＹＥＳ）には、認識フレーズが有るかどうかを判断する（ステップＳ６）。具体的には、応答処理実行部１１２は、音声認識部１１１から受けた音声認識結果に従う認識フレーズが有るか否かを判断する。すなわち、発話内容データベース２３２（図３）を参照して、認識内容に対応する認識フレーズが登録されているか否かを判断する。

ステップＳ６において、認識フレーズが有ると判断した場合（ステップＳ６においてＹＥＳ）には、回答フレーズを決定する（ステップＳ７）。具体的には、応答処理実行部１１２は、発話内容データベース１２０（図３）を参照して認識フレーズに対応する回答フレーズを決定する。

そして、次に、出力処理を実行する（ステップＳ８）。具体的には、応答処理実行部１１２は、一例として回答フレーズの応答内容を発話するようにスピーカ１０４に指示する。

そして、次に、出力フラグをオンに設定する（ステップＳ９）。具体的には、応答処理実行部１１２は、記憶部１０９の所定の領域に格納されている出力フラグを一例として「１」に設定する。

一方、ステップＳ６において、認識フレーズが無いと判断した場合（ステップＳ６においてＮＯ）には、ステップＳ７〜Ｓ９をスキップしてステップＳ１０に進む。

次に、音声認識結果データを受信したかどうかを判断する（ステップＳ１０）。具体的には、応答処理実行部１１２は、通信部１０１を介してサーバ２０から音声認識結果データを受信したかどうかを判断する。

ステップＳ１０において、音声認識結果データを受信するまで待機（ステップＳ１０においてＮＯ）し、音声認識結果データを受信したと判断した場合（ステップＳ１０においてＹＥＳ）には、次に出力フラグがオン（「１」）であるかどうかを判断する（ステップＳ１１）。

具体的には、応答処理実行部１１２は、サーバ２０からの音声認識結果データを受信したと判断した場合には、所定の領域に格納されている出力フラグを確認して出力フラグが「１」に設定されているか否かを判断する。

ステップＳ１１において、出力フラグがオン（「１」）であると判断した場合（ステップＳ１１においてＹＥＳ）には、キャンセル処理を実行する（ステップＳ１４）。具体的には、応答処理実行部１１２は、出力フラグが「１」に設定されている場合にはサーバ２０からの音声認識結果データを無効として処理する。

そして、処理を終了する（エンド）。すなわち、当該キャンセル処理により、既に出力フラグが「１」に設定されて出力処理が完了しているため重複した応答処理を実行しないようにすることが可能である。

一方、ステップＳ１１において、出力フラグがオン（「１」）で無いと判断した場合（ステップＳ１１においてＮＯ）には、出力処理を実行する（ステップＳ１２）。具体的には、応答処理実行部１１２は、出力フラグが「１」に設定されていない、すなわち「０」に設定されている場合には音声認識結果データに含まれている応答内容データに基づいて一例として回答フレーズの応答内容を発話するようにスピーカ１０４に指示する。

そして、次に、出力フラグをオン（「１」）に設定する（ステップＳ１３）。具体的には、応答処理実行部１１２は、記憶部１０９の所定の領域に格納されている出力フラグを一例として「１」に設定する。

そして、処理を終了する（エンド）。
一方、ステップＳ５において、音声認識処理が完了していないと判断した場合（ステップＳ５においてＮＯ）には、音声認識結果データを受信したかどうかを判断する（ステップＳ１５）。具体的には、応答処理実行部１１２は、通信部１０１を介してサーバ２０からの音声認識結果データを受信したかどうかを判断する。

ステップＳ１５において、音声認識結果データを受信したと判断した場合（ステップＳ１５においてＹＥＳ）には、出力処理を実行する（ステップＳ１６）。具体的には、応答処理実行部１１２は音声認識結果データに含まれている応答内容データに基づいて一例として回答フレーズの応答内容を発話するようにスピーカ１０４に指示する。

そして、次に、出力フラグをオン（「１」）に設定する（ステップＳ１７）。具体的には、応答処理実行部１１２は、記憶部１０９の所定の領域に格納されている出力フラグを一例として「１」に設定する。

次に、音声認識が完了したかどうかを判断する（ステップＳ１８）。具体的には、応答処理実行部１１２は、音声認識部１１１から音声認識結果の出力を受けたか否かを判断する。

ステップＳ１８において、音声認識が完了するまで待機（ステップＳ１８においてＮＯ）し、音声認識が完了したと判断した場合（ステップＳ１８においてＹＥＳ）には、キャンセル処理を実行する（ステップＳ１９）。具体的には、応答処理実行部１１２は、音声認識部１１１からの音声認識結果の出力を無効として処理する。

一方、ステップＳ１５において、音声認識結果データを受信していないと判断した場合（ステップＳ１５においてＮＯ）には、ステップＳ５に戻り、音声認識処理が完了したかどうかを判断する（ステップＳ５）。以降の処理については同様である。

当該処理により、掃除ロボット１０は、音声認識部１１１による音声内容の認識結果がサーバ２０から送信される音声認識結果データよりも早く得られた場合には、当該音声認識部１１１による音声内容の認識結果を優先して応答処理を実行し、サーバ２０から送信される音声認識結果データが音声認識部１１１による音声内容の認識結果よりも早く得られた場合には、当該音声認識結果データを優先して応答処理を実行することが可能である。

なお、本例においては、応答処理の一例として掃除ロボット１０が音声認識結果に基づいて発話する場合について説明したが、発話（音声応答）に限られず、他の応答処理、例えば、表示あるいは走行動作等、他の応答処理を実行するようにしても良い。

なお、本例においては、認識フレーズが無いと判断した場合（ステップＳ６においてＮＯ）には、掃除ロボット１０から何も出力せずにステップＳ１０に進む場合について説明したが、サーバ２０からの音声認識結果データを受信するまでの間に、例えば「え〜っと」等のつなぎの音声を発話あるいは他の応答処理を実行させるようにしても良い。また、サーバ２０からの音声認識結果データに基づいて応答処理を実行させる場合、掃除ロボット１０の音声内容の認識結果に基づく応答処理よりも時間がかかることが想定される。したがって、「え〜っと」等の音声を発話させたり、他の応答処理をさせることで、ユーザに違和感を与えることを軽減し、掃除ロボット１０に対して親近感を抱かせることが可能となる。すなわち、より円滑なコミュニケーションを図ることが可能である。例えば、ステップＳ１０におけるサーバ２０からの音声認識結果データの受信待ちの場合（ステップＳ１０においてＮＯ）に、このようなつなぎの音声を発話する等の応答処理を一定時間ごとに実行してもよい。このような応答処理は、予め定められた応答でもよいし、いくつかのパターンの中から選択されるものでもよく、また、その選択はランダムに選択されるものでもよい。

このようなつなぎの音声を発話する等の応答処理は応答速度の面で掃除ロボット１０により実行させる方がより好ましいが、サーバ２０の指示により実行する方式を採用することも可能である。具体的には、図１３のシーケンス図のシーケンスｓｑ１２において、サーバ２０が掃除ロボット１０からの音声データを受信した際に、当該つなぎの音声を発話する等の応答処理を実行するように、サーバ２０から掃除ロボット１０に対して指示する構成を採用するようにしても良い。なお、以下の形態についても同様に適用可能である。

＜実施形態２＞
上記の実施形態１では、音声認識部１１１による音声内容の認識結果、サーバ２０から送信される音声認識結果データのいずれか早い方の認識結果に基づいて応答処理を実行する方式について説明した。一方で、掃除ロボット１０とサーバ２０とで実行される音声認識に関して、サーバ２０から得られる音声認識結果の方が精度として適切な場合も考えられる。

本実施形態２においては、音声認識結果として得られる認識の確度（確からしさの度合い）を示す信頼度に基づいて適切な応答処理を実行する場合について説明する。一例として、信頼度は「０〜１」の値で示され、「１」に近いほど信頼度は高いとすることが可能である。

図６は、本実施形態２に基づく掃除ロボット１０の音声認識処理を実行するフロー図である。

図６を参照して、当該フロー図は、記憶部１０９に格納されているプログラムを実行して制御部１０２の各部が機能することにより実行される処理である。

図５のフロー図と比較して、ステップＳ１４の代わりにステップＳ２０を設けた点が異なる。その他の点については同様であるのでその詳細な説明については繰り返さない。

ステップＳ１１において出力フラグがオンであると判断した場合（ステップＳ１１においてＹＥＳ）には、信頼度判定処理を実行する（ステップＳ２０）。具体的には、応答処理実行部１１２は、出力フラグがオン（「１」）に設定されている場合には音声認識の認識確度（信頼度）を判定する処理を実行する。

図７は、本実施形態２に基づく信頼度判定処理について説明するフロー図である。
図７を参照して、当該処理は、応答処理実行部１１２が処理するものとする。

まず、出力した音声認識結果に含まれる信頼度が閾値αよりも大きいかどうかを判定する（ステップＳ２１）。一例として閾値αとして「０．６」とする。なお、当該閾値は一例であり、他の値に設定することも当然に可能である。

次に、ステップＳ２１において、出力した音声認識結果に含まれる信頼度が閾値αよりも大きいと判定した場合（ステップＳ２１においてＹＥＳ）には、キャンセル処理を実行する（ステップＳ２２）。

そして、処理を終了する（エンド）。具体的には、応答処理実行部１１２は、出力フラグが「１」に設定されており、かつ、出力した音声認識結果に含まれる信頼度が閾値αよりも大きい場合にはサーバ２０からの音声認識結果データを無効として処理する。

一方、ステップＳ２１において、出力した音声認識結果に含まれる信頼度が閾値αよりも大きくないすなわち閾値α以下であると判定した場合（ステップＳ２１においてＮＯ）には、出力した音声認識結果に含まれる信頼度が音声認識結果データに含まれる信頼度以上であるかどうかを判定する（ステップＳ２３）。

ステップＳ２３において、出力した音声認識結果に含まれる信頼度が音声認識結果データに含まれる信頼度以上であると判定した場合（ステップＳ２３においてＹＥＳ）には、キャンセル処理を実行する（ステップＳ２２）。

そして、処理を終了する（エンド）。具体的には、応答処理実行部１１２は、出力フラグが「１」に設定されており、かつ、出力した音声認識結果に含まれる信頼度が閾値α以下であり、また、出力した音声認識結果に含まれる信頼度と音声認識結果データに含まれる信頼度とを比較して、出力した音声認識結果に含まれる信頼度が音声認識結果データに含まれる信頼度以上である場合にはサーバ２０からの音声認識結果データを無効として処理する。

一方、ステップＳ２３において、出力した音声認識結果に含まれる信頼度が音声認識結果データに含まれる信頼度未満であると判定した場合（ステップＳ２３においてＮＯ）には、再出力処理を実行する（ステップＳ２４）。具体的には、音声認識結果データに含まれている応答内容データに基づいて一例として回答フレーズの応答内容を発話するようにスピーカ１０４に指示する。なお、その際、「もう一度いうね」という再応答であることを示す発話とともにスピーカ１０４から応答内容を発話するようにしてもよい。

そして、処理を終了する（エンド）。
当該処理により、掃除ロボット１０は、出力した音声認識結果の信頼度が低い場合に、後に受信した音声認識結果データの方が高い場合には、再出力処理を実行する。これにより、掃除ロボット１０とサーバ２０とで実行される音声認識に関して、サーバ２０から得られる音声認識結果の方が適切な場合には、再度出力処理を実行することにより、ユーザにストレスを与えることなく円滑なコミュニケーションを実行することが可能である。

なお、本例においては、出力した音声認識結果の信頼度が低い場合に、後に受信した音声認識結果データの方が高い場合には、再出力処理を実行する場合について説明したが、例えば、図７のステップＳ２１を削除して後に受信した音声認識結果データの信頼度が出力した音声認識結果の信頼度よりも方が高い場合には、再出力処理を実行する構成とするようにしても良い。

＜実施形態３＞
上記の実施形態１および２においては、掃除ロボット１０およびサーバ２０とがそれぞれ音声認識を並列的に実行して、処理が早い方を優先して、優先した結果を用いて応答処理を実行する場合について説明した。

一方で、音声認識の内容によってはサーバ２０で処理する方が適切な場合も考えられる。

本実施形態３においては、掃除ロボット１０が有する動作モードとして通常モードとサーバモードとを有する場合にそのモードを切り替える場合について説明する。

本例にいう通常モードとは、掃除ロボット１０およびサーバ２０とがそれぞれ音声認識を並列的に実行して、処理が早い方を優先して、優先した結果を用いて応答処理を実行するモードを意味する。言い換えるならばサーバ２０から与えられる結果すなわち指示を選択的に利用して応答処理を実行するモードである。

一方で、サーバモードは、サーバ２０の音声認識を優先して、サーバ２０での音声認識結果を用いて応答処理を実行するモードを意味する。言い換えるならばサーバ２０から与えられる結果すなわち指示に従って応答処理を実行するモードである。

通常モードは、掃除ロボット１０が予め有する機能を利用するモードであり、例えば掃除機能や通常の発話機能を利用する場合が挙げられる。

サーバモードは、サーバ２０の機能を利用することにより掃除ロボット１０が有する通常モードの機能を拡張するモードである。

本実施形態３に基づく掃除ロボット１０は、サーバモードが有する機能の一例として「しりとりゲーム」を実行することが可能である。

当該処理を実行するためのサーバモードで利用される辞書等について説明する。
図８は、本実施形態３に基づく発話内容データベース２３２を説明する図である。

図８を参照して、ここでは、音声認識の結果に利用される複数の音声認識辞書が格納されている場合が示されている。具体的には、一例として通常辞書２３２Ａ、しりとり辞書２３２Ｂ、郵便番号辞書２３２Ｃ、はい／いいえ辞書２３２Ｄが示されている。

各辞書は、掃除ロボットの状態に関して複数の動作モードでそれぞれ切り替えられる。
図９は、本実施形態３に基づく複数の動作モードについて説明する図である。

図９を参照して、ここでは、通常モードと、サーバモードとが設けられている場合が示されている。また、サーバモードは、さらにサーバモード（しりとり）、サーバモード（郵便番号）、サーバモード（はい／いいえ）に分けることが可能である。

具体的には、通常モードの場合には、音声認識辞書として、通常辞書を用いる。
通常辞書は、掃除ロボットを動作させる一般的なフレーズが登録されており、当該フレーズに対応する回答フレーズまたは制御フレーズ等が登録されている。

サーバモード（しりとり）の場合には、しりとり辞書が用いられる。
しりとり辞書には、しりとりゲームを実施するためのフレーズと制御フレーズとが登録されている。例えば、動物しりとりの場合には、フレーズとして「ゴリラ」、「らくだ」や、制御フレーズとして「しりとり終了」等が登録されている。

サーバモード（郵便番号）の場合には、郵便番号辞書が用いられる。例えば、フレーズとして「１」、「２」、「３」や、制御フレーズとして「設定終了」等が登録されている。

サーバモード（はい／いいえ）の場合には、はい／いいえ辞書が用いられる。例えば、フレーズとして「はい」、「いいえ」や、制御フレーズとして「設定終了等」が登録されている。

各辞書について具体的に説明する。
（通常辞書）
図１０は、本実施形態３に基づく通常辞書について説明する図である。

図１０を参照して、認識内容（認識フレーズ）と応答内容（回答フレーズ）と状態とが関連付けて登録されている。

一例として、ここでは認識フレーズとして、「しりとりしよう」、「お掃除して」、「今日の天気は」等に対応して回答フレーズが関連付けられて格納されている。

例えば、認識フレーズ「しりとりしよう」に対応して回答フレーズ「しりとりを始めるよ。ゴリラ」と「サーバモード変更」とが関連付けられて登録されている場合が示されている。そして、状態はサーバモード（しりとり）が関連付けられて登録されている場合が示されている。

ここで、「サーバモード変更」は、掃除ロボット１０の動作モードを通常モードからサーバモードに変更するように指示するコマンドを意味する。

また、状態がサーバモード（しりとり）は、サーバ２０における掃除ロボット１０の状態をサーバモード（しりとり）に設定することを意味する。当該掃除ロボット１０の状態を設定することにより掃除ロボット１０からの音声データの入力を受信した場合に適切な音声認識辞書に変更することが可能である。

また、認識フレーズ「お掃除して」に対応して回答フレーズ「掃除開始」とが関連付けられて登録されている場合が示されている。

ここで、「掃除開始」は、掃除ロボット１０に対する掃除機能の開始を指示するコマンドを意味する。これにより掃除ロボット１０は、掃除部１０５による掃除を開始する。

また、認識フレーズ「今日の天気は」に対応して回答フレーズは２つのパターンが設けられている。具体的には、郵便番号の登録が有る場合と無い場合とに分けられている。郵便番号の登録が有る場合（登録有）には、登録された郵便番号により特定される天気情報が回答フレーズとして回答される。一方、郵便番号の登録が無い場合（登録無）には、「まず、郵便番号を設定するよ。イチ、ニー、サン、みたいに言ってね」と「サーバモード変更」とが関連付けられて登録されている場合が示されている。そして、状態はサーバモード（郵便番号）が関連付けられて登録されている場合が示されている。

状態がサーバモード（郵便番号）は、サーバ２０における掃除ロボット１０の状態をサーバモード（郵便番号）に設定することを意味する。この点については後述するが当該掃除ロボットの状態を設定することにより掃除ロボット１０からの音声データの入力を受信した場合に適切な音声認識辞書に変更することが可能である。

（しりとり辞書）
図１１は、本実施形態３に基づくしりとり辞書について説明する図である。

図１１を参照して、認識内容（認識フレーズ）と応答内容（回答フレーズ）と状態とが関連付けられて登録されている。

一例として、ここでは認識フレーズとして、「ラッコ」、「ラクダ」、「しりとり終了」、「お掃除して」等に対応して回答フレーズが関連付けられて格納されている。

例えば、認識フレーズ「ラッコ」、「ラクダ」に対応して回答フレーズ「ラッコだね。コアラ」、「ラクダだね。ダチョウ」がそれぞれ関連付けられて登録されている場合が示されている。

また、認識フレーズ「しりとり終了」に対応して回答フレーズ「しりとりを終わるね。」と「通常モード変更」とが関連付けられて登録されている場合が示されている。そして、状態は通常モードが関連付けられて登録されている場合が示されている。

ここで、「通常モード変更」は、掃除ロボット１０の動作モードを通常モードに変更するように指示するコマンドを意味する。

状態が通常モードは、サーバ２０における掃除ロボット１０の状態を通常モードに設定することを意味する。当該掃除ロボット１０の状態を設定することにより掃除ロボット１０からの音声データの入力を受信した場合に適切な音声認識辞書に変更することが可能である。

また、認識フレーズ「お掃除して」に対応して回答フレーズ「しりとりは終わったよ」と、「掃除開始」と、「通常モード変更」とが関連付けられて登録されている場合が示されている。そして、状態は通常モードが関連付けられて登録されている場合が示されている。

（掃除ロボット状態）
本実施形態３に基づくサーバ２０は、状態記憶部２３３において掃除ロボット１０の状態に関する情報を格納している。

図１２は、本実施形態３に基づく状態記憶部２３３に格納されている情報を説明する図である。

図１２を参照して、ここでは、複数の掃除ロボット１０が管理されている場合が示されている。具体的には、複数の掃除ロボット１０に対してそれぞれ識別番号が割り当てられている。一例として、掃除ロボットＩＤとしてＩＤ１〜ＩＤ４がそれぞれ割り当てられて登録されており、それぞれの「掃除ロボットの状態」、「郵便番号」、「前回認識時刻」の情報が登録されている場合が示されている。

「掃除ロボットの状態」は、掃除ロボットを制御するモードに関する情報である。
「郵便番号」は、後述するが掃除ロボットの地理的な位置を特定するために登録される情報である。

「前回認識時刻」は、音声認識に対する応答処理を指示した際に更新されるタイムスタンプであり、新たな音声データの入力が有った場合に前回認識時刻から所定期間が経過している場合には初期状態に設定するために用いられる情報である。

例えば、「ＩＤ１」の掃除ロボットは、「掃除ロボットの状態」、「郵便番号」、「前回認識時刻」として「通常モード」、「未設定」、「２０１３／１１／１３１７：３０：０５」がそれぞれ設定されている場合が示されている。

同様に、「ＩＤ２」の掃除ロボットは、「掃除ロボットの状態」、「郵便番号」、「前回認識時刻」として「サーバモード（しりとり）」、「２６１−００１３」、「２０１３／１１／１３１６：００：１０」がそれぞれ設定されている場合が示されている。

同様に、「ＩＤ３」の掃除ロボットは、「掃除ロボットの状態」、「郵便番号」、「前回認識時刻」として「サーバモード（郵便番号）」、「未設定」、「２０１３／１１／１３１７：４０：１５」がそれぞれ設定されている場合が示されている。

同様に、「ＩＤ４」の掃除ロボットは、「掃除ロボットの状態」、「郵便番号」、「前回認識時刻」として「サーバモード（はい／いいえ）」、「未設定」、「２０１３／１１／１３１７：２０：１４」がそれぞれ設定されている場合が示されている。

以下、本実施形態３に基づく音声認識システム１における応答処理の流れについて説明する。まず、しりとりゲームを実行する場合について説明する。

（しりとりゲーム開始）
図１３は、実施形態３に基づく音声認識システム１におけるしりとりゲーム開始の応答処理の流れを示すシーケンス図である。

図１３に示されるように、まず、掃除ロボット１０は、通常モードに設定されているものとする（シーケンスｓｑ１０Ａ）。

次に、ユーザ発話「しりとりしよう」があるものとする（シーケンスｓｑ１０）。
次に、掃除ロボット１０は、ユーザからの音声の入力を受け付ける（シーケンスｓｑ１１）。具体的には、掃除ロボット１０の音声入力受付部１１４は、マイク１０３を介して外部からの音の入力を受け付ける。

次に、サーバ２０は、掃除ロボット１０から送信された音声データを受信して、音声認識を実行する（シーケンスｓｑ１２Ａ）。具体的には、音声認識部２２２は、認識フレーズ「しりとりしよう」を取得する。そして、音声認識部２２２は、その結果を応答処理実行指示部２２４に出力する。

次に、サーバ２０は、モード判定を実行する（シーケンスｓｑ１２Ａ）。具体的には、応答処理実行指示部２２４は、掃除ロボット１０の状態を判断するモード判定を実行する。モード判定は、状態記憶部２３３において格納されている掃除ロボット１０の状態に従って状態に応じた音声認識辞書に設定する処理である。

例えば、図１２で説明した「ＩＤ１」の掃除ロボットの場合には、「掃除ロボットの状態」が「通常モード」であるため音声認識辞書を「通常辞書」に設定する。また、「ＩＤ２」の掃除ロボットの場合には、「掃除ロボットの状態」が「サーバモード（しりとり）」であるため音声認識辞書を「しりとり辞書」に設定する。「ＩＤ３」の掃除ロボットの場合には、「掃除ロボットの状態」が「サーバモード（郵便番号）」であるため音声認識辞書を「郵便番号辞書」に設定する。また、「ＩＤ４」の掃除ロボットの場合には、「掃除ロボットの状態」が「サーバモード（はい／いいえ）」であるため音声認識辞書を「はい／いいえ辞書」に設定する。

本例においては、一例として「ＩＤ１」の掃除ロボットの場合、すなわち「通常モード」である場合に「通常辞書」に設定する。

次に、サーバ２０は、回答フレーズを決定する（シーケンスｓｑ１４）。
具体的には、応答処理実行指示部２２４は、音声認識部２２２から得られた結果である音声内容に対する応答内容を決定する。

本例においては、例えば、図１０で説明した通常辞書を用いた場合、認識フレーズ「しりとりしよう」に対応して回答フレーズ「しりとりを始めるよ。ゴリラ」と、「サーバモード変更」とが応答内容として決定される。本例においては、「しりとりを始めるよ。ゴリラ」は一例として音声ファイルであるものとする。なお、テキスト形式のファイルであっても良い。他の例においても同様である。

次に、サーバ２０は、サーバモード（しりとり）に設定する（シーケンスｓｑ１５）。
具体的には、応答処理実行指示部２２４は、認識フレーズ「しりとりしよう」に関連付けられた「掃除ロボットの状態」をサーバモード（しりとり）に設定する。応答処理実行指示部２２４は、状態記憶部２３３の「ＩＤ１」の「掃除ロボットの状態」を「サーバモード（しりとり）」に変更する。これにより、次の応答の際に利用する適切な音声認識辞書（しりとり辞書）を利用することが可能である。

次に、サーバ２０は、音声認識した音声認識結果データを掃除ロボット１０に送信する（シーケンスｓｑ１６）。具体的には、応答処理実行指示部２２４は、通信部２０１を介して音声認識結果データとして、音声「しりとりを始めるよ。ゴリラ」と、サーバモード変更指示を掃除ロボット１０に送信する。

一方、掃除ロボット１０は、シーケンスｓｑ１１の後、音声データの音声認識を実行する（シーケンスｓｑ１７）。具体的には、音声認識部１１１は、音声入力受付部１１４で生成した音声データに従って音声内容を認識する。そして、音声内容の認識結果を応答処理実行部１１２に出力する。

次に、掃除ロボット１０は、認識を失敗する（シーケンスｓｑ１８）。本例における掃除ロボット１０の発話内容データベース１２０には、認識フレーズ「しりとりしよう」に対応する回答フレーズが設けられていないため認識失敗となった場合が示されている。

次に、掃除ロボット１０は、サーバモードに設定する（シーケンスｓｑ１９）。具体的には、動作モード切替部１１３は、サーバ２０から送信された音声認識結果データ（「サーバモード変更指示））に基づいて通常モードをサーバモードに変更する。

また、掃除ロボット１０は、サーバ２０から送信された音声認識結果データに基づいて音声応答処理を実行する（シーケンスｓｑ２０）。具体的には、応答処理実行部１１２は、音声認識結果データ（「しりとりを始めるよ。ゴリラ」）の音声ファイルを再生する。すなわち、スピーカ１０４により音声（「しりとりを始めるよ。ゴリラ」）をユーザに応答（発話）する（シーケンスｓｑ２１）。

次に、しりとりのルールに基づいてユーザ発話「ラッコ」があるものとする（シーケンスｓｑ２２）。

次に、掃除ロボット１０は、ユーザからの音声の入力を受け付ける（シーケンスｓｑ２３）。具体的には、掃除ロボット１０の音声入力受付部１１４は、マイク１０３を介して外部からの音の入力を受け付ける。

次に、掃除ロボット１０は、音声データをサーバ２０に出力する（シーケンスｓｑ２４）。具体的には、音声入力受付部１１４は、通信部１０１を介してサーバ２０に出力する。

次に、サーバ２０は、掃除ロボット１０から送信された音声データを受信して、音声認識を実行する（シーケンスｓｑ２４Ａ）。具体的には、音声認識部２２２は、認識フレーズ「ラッコ」を取得する。そして、音声認識部２２２は、その結果を応答処理実行指示部２２４に出力する。

次に、サーバ２０は、モード判定を実行する（シーケンスｓｑ２５）。具体的には、応答処理実行指示部２２４は、掃除ロボット１０の状態を判断するモード判定を実行する。モード判定は、状態記憶部２３３において格納されている掃除ロボット１０の状態に従って状態に応じた辞書に設定する処理である。本例においては、シーケンスｓｑ１５により、サーバ２０の状態記憶部２３３の「ＩＤ１」の「掃除ロボットの状態」は「サーバモード（しりとり）」に変更されている。これにより、音声認識辞書を「しりとり辞書」に設定する。

次に、サーバ２０は、回答フレーズを決定する（シーケンスｓｑ２６）。具体的には、応答処理実行指示部２２４は、音声内容に対する応答内容を決定する。本例においては、例えば、図１１で説明したしりとり辞書を用いた場合、認識フレーズ「ラッコ」に対応して回答フレーズ「ラッコだね。コアラ」が応答内容として決定される。

次に、サーバ２０は、音声認識した音声認識結果データを掃除ロボット１０に送信する（シーケンスｓｑ２６Ａ）。具体的には、応答処理実行指示部２２４は、通信部２０１を介して音声認識結果データとして、音声ファイル（「ラッコだね。コアラ」）を掃除ロボット１０に送信する。

一方、掃除ロボット１０は、シーケンスｓｑ２４の後、音声データの音声認識を実行する（シーケンスｓｑ２５Ａ）。具体的には、音声認識部１１１は、音声入力受付部１１４で生成した音声データに従って音声内容を認識する。そして、音声内容の認識結果を応答処理実行部１１２に出力する。

次に、掃除ロボット１０は、認識を失敗する（シーケンスｓｑ２５Ｂ）。本例における掃除ロボット１０は、認識フレーズ「ラッコ」に対応する回答フレーズが設けられていないため認識失敗となった場合が示されている。

次に、掃除ロボット１０は、サーバ２０から送信された音声認識結果データに基づいて音声応答処理を実行する（シーケンスｓｑ２７）。具体的には、応答処理実行部１１２は、音声認識結果データ（「ラッコだね。コアラ」）の音声ファイルを再生する。すなわち、スピーカ１０４により音声（「ラッコだね。コアラ」）をユーザに応答（発話）する（シーケンスｓｑ２８）。

次に、しりとりのルールに基づいてユーザ発話「ラクダ」があるものとする（シーケンスｓｑ２９）。以降、同様の処理に従ってしりとりゲームを実行することが可能である。

したがって、当該構成により、「しりとりゲーム」のようなサーバ２０にのみ機能が設けられているような場合に、掃除ロボット１０の状態を通常モードからサーバモードに切り替えてサーバ２０の機能を利用することにより掃除ロボット１０が有する通常モードの機能を拡張することが可能である。そして、サーバ２０の音声認識を優先することによって、掃除ロボット１０から出力される応答時間が短縮され、ユーザにストレスを与えることなく円滑なコミュニケーションを実行することが可能である。

なお、本例においては、ユーザが発話した音声内容を音声認識して、音声認識結果に基づいて掃除ロボット１０の状態を通常モードからサーバモードに設定を変更する場合について説明したが、特に音声認識結果に基づいて状態を変更させる必要はなく、他の手段により行うことも可能である。具体的には、掃除ロボット１０の操作部（図示せず）に対してサーバモードに切り替える操作入力を行うことで、掃除ロボット１０を通常モードからサーバモードに変更するとともに、当該サーバモードへの切り替えをサーバ２０に通知することにより、図１２で説明した掃除ロボット状態をサーバモードに変更することが可能である。また、掃除ロボット１０に対してサーバモードへの変更の指示を入力するのではなく、サーバ２０に対して所定の命令を与えることにより、通常モードからサーバモードへの変更を指示することも可能である。そして、サーバ２０から掃除ロボット１０に対して通常モードからサーバモードに切り替わるようにサーバモード変更指示を送信するようにしてもよい。なお、以下の形態についても同様に適用可能である。

（しりとりゲーム終了（その１））
図１４は、実施形態３に基づく音声認識システム１におけるしりとりゲーム終了の応答処理（その１）の流れを示すシーケンス図である。

図１４に示されるように、まず、掃除ロボット１０は、サーバモードに設定されているものとする（シーケンスｓｑ３０Ａ）。

次に、ユーザ発話「しりとり終了」があるものとする（シーケンスｓｑ３０）。
次に、掃除ロボット１０は、ユーザからの音声の入力を受け付ける（シーケンスｓｑ３１）。具体的には、掃除ロボット１０の音声入力受付部１１４は、マイク１０３を介して外部からの音の入力を受け付ける。

次に、掃除ロボット１０は、音声データをサーバ２０に出力する（シーケンスｓｑ３２）。具体的には、音声入力受付部１１４は、通信部１０１を介してサーバ２０に出力する。

次に、サーバ２０は、掃除ロボット１０から送信された音声データを受信して、音声認識を実行する（シーケンスｓｑ３２Ａ）。具体的には、音声認識部２２２は、認識フレーズとして「しりとり終了」を取得する。そして、音声認識部２２２は、その結果を応答処理実行指示部２２４に出力する。

次に、サーバ２０は、モード判定を実行する（シーケンスｓｑ３３）。具体的には、応答処理実行指示部２２４は、掃除ロボット１０の状態を判断するモード判定を実行する。モード判定は、状態記憶部２３３において格納されている掃除ロボット１０の状態に従って状態に応じた辞書に設定する処理である。本例においては、シーケンスｓｑ１５により、サーバ２０の状態記憶部２３３の「ＩＤ１」の「掃除ロボットの状態」は「サーバモード（しりとり）」に設定されているものとする。これにより、音声認識辞書を「しりとり辞書」に設定する。

次に、サーバ２０は、回答フレーズを決定する（シーケンスｓｑ３４）。具体的には、応答処理実行指示部２２４は、音声認識部２２２から得られた結果である音声内容に対する応答内容を決定する。

本例においては、例えば、図１１で説明したしりとり辞書を用いた場合、認識フレーズ「しりとり終了」に対応して回答フレーズ「しりとりを終わるね」と、「通常モード変更」とが応答内容として決定される。

次に、サーバ２０は、通常モードに設定する（シーケンスｓｑ３５）。具体的には、応答処理実行指示部２２４は、認識フレーズ「しりとり終了」に関連付けられた「掃除ロボットの状態」を通常モードに設定する。具体的には、状態記憶部２３３の「ＩＤ１」の「掃除ロボットの状態」を「通常モード」に変更する。これにより、次の応答の際に利用する適切な音声認識辞書（通常辞書）を利用することが可能である。

次に、サーバ２０は、音声認識した音声認識結果データを掃除ロボット１０に送信する（シーケンスｓｑ３６）。具体的には、応答処理実行指示部２２４は、通信部２０１を介して音声認識結果データとして、音声「しりとりを終わるね」と、通常モード変更指示を掃除ロボット１０に送信する。

一方、掃除ロボット１０は、シーケンスｓｑ３２の後、音声データの音声認識を実行する（シーケンスｓｑ３３Ａ）。具体的には、音声認識部１１１は、音声入力受付部１１４で生成した音声データに従って音声内容を認識する。そして、音声内容の認識結果を応答処理実行部１１２に出力する。

次に、掃除ロボット１０は、認識を無効とする（シーケンスｓｑ３３Ｂ）。本例における掃除ロボット１０は、サーバモードの場合にサーバ２０からの指示を優先し、掃除ロボット１０の音声認識の認識結果を無効とする場合が示されている。

次に、掃除ロボット１０は、通常モードに設定する（シーケンスｓｑ３７）。具体的には、動作モード切替部１１３は、サーバ２０から送信された音声認識結果データ（「通常モード変更指示」）に基づいてサーバモードを通常モードに変更する。

また、掃除ロボット１０は、サーバ２０から送信された音声認識結果データに基づいて音声応答処理を実行する（シーケンスｓｑ３８）。具体的には、応答処理実行部１１２は、音声認識結果データ（「しりとりを終わるね」）の音声ファイルを再生する。すなわち、スピーカ１０４により音声（「しりとりを終わるね」）をユーザに応答（発話）する（シーケンスｓｑ３９）。

これにより、しりとりゲームを終了することが可能である。
なお、本例においては、ユーザが発話した音声内容を音声認識して、音声認識結果に基づいて掃除ロボット１０の状態をサーバモードから通常モードに設定を変更する場合について説明したが、特に音声認識結果に基づいて状態を変更させる必要はなく、他の手段により行うことも可能である。具体的には、掃除ロボット１０の操作部（図示せず）に対して通常モードに切り替える操作入力を行うことで、掃除ロボット１０をサーバモードから通常モードに変更するとともに、当該通常モードへの切り替えをサーバ２０に通知することにより、図１２で説明した掃除ロボット状態を通常モードに変更することが可能である。また、掃除ロボット１０に対して通常モードへの変更の指示を入力するのではなく、サーバ２０に対して所定の命令を与えることにより、サーバモードから通常モードへの変更を指示することも可能である。そして、サーバ２０から掃除ロボット１０に対してサーバモードから通常モードに切り替わるように通常モード変更指示を送信するようにしてもよい。なお、以下の形態についても同様に適用可能である。

（しりとりゲーム終了（その２））
ここでは、しりとりゲームが開始されてから所定時間（一例として５分）以上継続して音声認識が無い場合について説明する。そして、所定時間以上、経過した後、ユーザ発話がある場合について説明する。

図１５は、実施形態３に基づく音声認識システム１におけるしりとりゲーム終了の応答処理（その２）の流れを示すシーケンス図である。

図１５に示されるように、まず、掃除ロボット１０は、サーバモードに設定されているものとする（シーケンスｓｑ４０）。

次に、前回の認識から５分以上経過しているものとする（シーケンスｓｑ４０Ａ）。
そして、掃除ロボット１０は、前回の認識から５分以上経過しているためサーバモードから通常モードに変更する（シーケンスｓｑ４１）。

そして、ユーザ発話「お掃除して」があるものとする（シーケンスｓｑ４２）。
次に、掃除ロボット１０は、ユーザからの音声の入力を受け付ける（シーケンスｓｑ４３）。具体的には、掃除ロボット１０の音声入力受付部１１４は、マイク１０３を介して外部からの音の入力を受け付ける。

次に、掃除ロボット１０は、音声データをサーバ２０に出力する（シーケンスｓｑ４４）。具体的には、音声入力受付部１１４は、通信部１０１を介してサーバ２０に出力する。

次に、サーバ２０は、掃除ロボット１０から送信された音声データを受信して、音声認識を実行する（シーケンスｓｑ４４Ａ）。具体的には、音声認識部２２２は、認識フレーズとして「お掃除して」を取得する。そして、音声認識部２２２は、その結果を応答処理実行指示部２２４に出力する。

次に、サーバ２０は、モード判定を実行する（シーケンスｓｑ４５）。具体的には、応答処理実行指示部２２４は、掃除ロボット１０の状態を判断するモード判定を実行する。モード判定は、状態記憶部２３３において格納されている掃除ロボット１０の状態に従って状態に応じた音声認識辞書に設定する処理である。

一方、本例においては、前回の認識から５分以上経過した状態である。当該モード判定において、状態記憶部２３３に格納されている前回認識時刻が参照される。そして、今回の音声認識時刻と前回認識時刻とを比較して所定時間経過しているか否かを判定して、所定時間経過していると判定した場合には、初期状態（通常モード）にリセットする。

これにより、サーバ２０は、通常モードに設定する（シーケンスｓｑ４６）。すなわち、音声認識辞書として「通常辞書」に設定する。具体的には、応答処理実行指示部２２４は、状態記憶部２３３の「ＩＤ１」の「掃除ロボットの状態」を「通常モード」に変更する。

次に、サーバ２０は、回答フレーズを決定する（シーケンスｓｑ４８）。具体的には、応答処理実行指示部２２４は、音声認識部２２２から得られた結果である音声内容に対する応答内容を決定する。

本例においては、例えば、図１０で説明した通常辞書を用いた場合、認識フレーズ「お掃除して」に対応して回答フレーズ「掃除開始」が応答内容として決定される。

次に、サーバ２０は、音声認識した音声認識結果データを掃除ロボット１０に送信する（シーケンスｓｑ４９）。具体的には、応答処理実行指示部２２４は、通信部２０１を介して音声認識結果データとして、掃除開始指示マンドを掃除ロボット１０に送信する。

一方、掃除ロボット１０は、シーケンスｓｑ４４の後、音声データの音声認識を実行する（シーケンスｓｑ５１）。具体的には、音声認識部１１１は、音声入力受付部１１４で生成した音声データに従って音声内容を認識する。そして、音声内容の認識結果を応答処理実行部１１２に出力する。

次に、掃除ロボット１０は、掃除機能の実行と判定する（シーケンスｓｑ５２）。
本例においては、例えば、図３で説明した通常辞書を用いた場合、認識フレーズ「お掃除して」に対応して回答フレーズ「掃除開始」が応答内容として決定される。

次に、掃除ロボット１０は、掃除を開始する（シーケンスｓｑ５３）。具体的には、応答処理実行部１１２は、回答フレーズ「掃除開始」に従って掃除部１０５に指示して掃除機能の実行を指示する。

なお、掃除ロボット１０が音声認識済みなら、サーバ２０の音声認識結果データはキャンセルされる。また、サーバ２０からの音声認識結果データが、掃除ロボット１０の音声認識より早ければ、サーバ２０からの音声認識結果データ（掃除開始指示コマンド）に基づいて掃除が開始される（シーケンスｓｑ５０）。

したがって、しりとりゲームが開始されてから所定時間（一例として５分）以上継続して音声認識が無い場合には、通常モードにリセットされることにより、しりとりゲームを終了することが可能である。

また、通常モードにおいて、掃除ロボット１０は、音声認識部１１１による音声内容の認識結果がサーバ２０から送信される音声認識結果データよりも早く得られた場合には、当該音声認識部１１１による音声内容の認識結果を優先して応答処理（掃除機能）を実行する。一方で、サーバ２０から送信される音声認識結果データが音声認識部１１１による音声内容の認識結果よりも早く得られた場合には、当該音声認識結果データを優先して応答処理（掃除機能）を実行する。なお、遅い認識結果については応答処理を実行しないようにすることにより重複する応答処理（掃除機能）の実行を回避することが可能である。

（しりとりゲーム終了（その３））
ここでは、しりとりゲームの途中でしりとりゲームが終了する場合について説明する。

図１６は、実施形態３に基づく音声認識システム１におけるしりとりゲーム終了の応答処理（その３）の流れを示すシーケンス図である。

図１６に示されるように、まず、掃除ロボット１０は、サーバモードに設定されているものとする（シーケンスｓｑ６０）。

そして、ユーザ発話「お掃除して」があるものとする（シーケンスｓｑ６１）。
次に、掃除ロボット１０は、ユーザからの音声の入力を受け付ける（シーケンスｓｑ６２）。具体的には、掃除ロボット１０の音声入力受付部１１４は、マイク１０３を介して外部からの音の入力を受け付ける。

次に、掃除ロボット１０は、音声データをサーバ２０に出力する（シーケンスｓｑ６３）。具体的には、音声入力受付部１１４は、通信部１０１を介してサーバ２０に出力する。

次に、サーバ２０は、掃除ロボット１０から送信された音声データを受信して、音声認識を実行する（シーケンスｓｑ６３Ａ）。具体的には、音声認識部２２２は、認識フレーズ「お掃除して」を取得する。そして、音声認識部２２２は、その結果を応答処理実行指示部２２４に出力する。

次に、サーバ２０は、モード判定を実行する（シーケンスｓｑ６４）。具体的には、応答処理実行指示部２２４は、掃除ロボット１０の状態を判断するモード判定を実行する。モード判定は、状態記憶部２３３において格納されている掃除ロボット１０の状態に従って状態に応じた音声認識辞書に設定する処理である。本例においては、シーケンスｓｑ１５により、サーバ２０の状態記憶部２３３の「ＩＤ１」の「掃除ロボットの状態」は「サーバモード（しりとり）」に設定されているものとする。これにより、音声認識辞書を「しりとり辞書」に設定する。

次に、サーバ２０は、回答フレーズを決定する（シーケンスｓｑ６５）。具体的には、応答処理実行指示部２２４は、音声認識部２２２から得られた結果である音声内容に対する応答内容を決定する。

本例においては、例えば、図１１で説明したしりとり辞書を用いた場合、認識フレーズ「お掃除して」に対応して回答フレーズ「しりとりは終わったよ」と、「掃除開始」と、「通常モード変更」とが応答内容として決定される。

次に、サーバ２０は、通常モードに設定する（シーケンスｓｑ６６）。
また、応答処理実行指示部２２４は、認識フレーズ「お掃除して」に関連付けられた「掃除ロボットの状態」を通常モードに変更する。これにより、次の応答の際に利用する適切な音声認識辞書（通常辞書）を利用することが可能である。

次に、サーバ２０は、音声認識した音声認識結果データを掃除ロボット１０に送信する（シーケンスｓｑ６７）。具体的には、応答処理実行指示部２２４は、通信部２０１を介して音声認識結果データとして、音声「しりとりは終わったよ」と、掃除開始指示マンドと、通常モード変更指示を掃除ロボット１０に送信する。

一方、掃除ロボット１０は、シーケンスｓｑ６３の後、音声データの音声認識を実行する（シーケンスｓｑ６３Ａ）。具体的には、音声認識部１１１は、音声入力受付部１１４で生成した音声データに従って音声内容を認識する。そして、音声内容の認識結果を応答処理実行部１１２に出力する。

次に、掃除ロボット１０は、認識を無効とする（シーケンスｓｑ６３Ｂ）。本例における掃除ロボット１０は、サーバモードの場合にサーバ２０からの指示を優先し、掃除ロボット１０の音声認識の認識結果を無効とする場合が示されている。

次に、掃除ロボット１０は、通常モードに設定する（シーケンスｓｑ６８）。具体的には、動作モード切替部１１３は、サーバ２０から送信された音声認識結果データ（「通常モード変更指示」）に基づいてサーバモードを通常モードに変更する。

また、掃除ロボット１０は、サーバ２０から送信された音声認識結果データに基づいて音声応答処理を実行する（シーケンスｓｑ６９）。具体的には、応答処理実行部１１２は、音声認識結果データ（「しりとりを終わるね」）の音声ファイルを再生する。すなわち、スピーカ１０４により音声（「しりとりを終わったよ」）をユーザに応答（発話）する（シーケンスｓｑ７０）。

そして、次に、掃除ロボット１０は、掃除機能の実行と判定する（シーケンスｓｑ７１）。応答処理実行部１１２は、音声認識結果データ（掃除開始指示コマンド）に基づいて、掃除機能の実行と判定する。

次に、掃除ロボット１０は、掃除を開始する（シーケンスｓｑ７２）。具体的には、応答処理実行部１１２は、回答フレーズ「掃除開始」に従って掃除部１０５に指示して掃除機能の実行を指示する。

したがって、しりとりゲームが開始されてから、所定のユーザ発話に従ってしりとりゲームを終了することが可能である。

（フロー図）
図１７は、本実施形態３に基づくサーバ２０の音声認識処理を実行するフロー図である。

図１７を参照して、当該フロー図は、記憶部２０３に格納されているプログラムを実行して制御部２０２の各部が機能することにより実行される処理である。

まず、音声データを受信したかどうかを判定する（ステップＳ３０）。具体的には、音声入力受信部２２１は、音声データを受信したかどうかを判定する。

ステップＳ３０において、音声データの受信が有るまで待機（ステップＳ３０においてＮＯ）し、音声データの受信が有ると判定した場合（ステップＳ３０においてＹＥＳ）には、音声認識を実行する（ステップＳ３１）。具体的には、音声認識部２２２は、音声入力受信部２２１で受信した音声データに従って音声内容を認識する。そして、音声内容の認識結果を応答処理実行指示部２２４に出力する。

次に、モード判定を実行する（ステップＳ３２）。具体的には、応答処理実行指示部２２４は、図１２で説明したようにサーバ２０の記憶部２０３に格納されている状態記憶部２３３の掃除ロボット１０の状態を確認する。また、前回の認識から所定時間経過しているか否かを判定して、所定時間経過していると判定した場合には初期状態（通常モード）にリセットする。

そして、次に、取得したモード（状態）に従って音声認識辞書を設定する（ステップＳ３３）。具体的には、応答処理実行指示部２２４は、応答内容を決定するための音声認識辞書を設定する。

次に、認識フレーズが有るかどうかを判断する（ステップＳ３４）。具体的には、応答処理実行指示部２２４は、設定した音声認識辞書に音声認識部２２２で認識した認識フレーズが含まれているか否かを判断する。

ステップＳ３４において、認識フレーズが有ると判断した場合（ステップＳ３４においてＹＥＳ）には、回答フレーズを決定する（ステップＳ３５）。具体的には、応答処理実行指示部２２４は、設定した音声認識辞書に音声認識部２２２で認識した認識フレーズが含まれていると判断した場合には、当該認識フレーズに対応する回答フレーズを決定する。

そして、次に、モードを設定する（ステップＳ３６）。具体的には、応答処理実行指示部２２４は、認識フレーズに対応するモードが設定されている場合には、必要に応じて状態記憶部２３３のモードを更新する。

そして、次に、出力処理を実行する（ステップＳ８）。具体的には、応答処理実行指示部２２４は、決定した回答フレーズを音声認識結果データとして通信部２０１を介して掃除ロボット１０に送信する。また、状態記憶部２３３の掃除ロボット１０の状態の前回認識時刻を更新する。

そして、処理を終了する（エンド）。
一方、ステップＳ３４において、認識フレーズが無いと判断した場合（ステップＳ３４においてＮＯ）には、ステップＳ３５〜Ｓ３７をスキップして処理を終了する（エンド）。具体的には、応答処理実行指示部２２４は、設定した音声認識辞書に音声認識部２２２で認識した認識フレーズが含まれていないと判断した場合には、認識失敗として処理を終了する。

なお、本例においては、サーバモードに切り替える場合として「しりとりゲーム」を実行する場合について説明したが、特に「しりとりゲーム」に限られるわけではなく、サーバ２０の機能を優先的に利用する処理であればどのような処理でも適用することが可能である。

＜実施形態４＞
上記の実施形態３では、掃除ロボット１０の状態に関して複数の動作モードを切り替える場合について説明した。本実施形態４においては、さらに拡張した機能について説明する。

本例においては、一例として天気情報を取得して掃除ロボット１０が発話する場合について説明する。

具体的には、サーバモード（郵便番号）、サーバモード（はい／いいえ）の音声認識辞書（郵便番号辞書、はい／いいえ辞書）を利用する場合について説明する。

（郵便番号辞書）
図１８は、本実施形態４に基づく郵便番号辞書およびはい／いいえ辞書について説明する図である。

図１８（Ａ）を参照して、郵便番号辞書に関して、認識内容（認識フレーズ）と応答内容（回答フレーズ）と状態とが関連付けて登録されている。

一例として、ここでは認識フレーズとして、「ニー、ロク、イチ」、「設定終了」等に対応して回答フレーズが関連付けられて格納されている。

例えば、認識フレーズ「ニー、ロク、イチ」に対応して回答フレーズ「ＸＸＸでいいですか？はい、か、いいえ、で答えてね。」とが関連付けられて登録されている場合が示されている。そして、状態はサーバモード（はい／いいえ）が関連付けられて登録されている場合が示されている。なお、「ＸＸＸ」は、認識フレーズと同様の内容を意味している。

状態がサーバモード（はい／いいえ）は、サーバ２０における掃除ロボット１０の状態をサーバモード（はい／いいえ）に設定することを意味する。当該掃除ロボット１０の状態を設定することにより掃除ロボット１０からの音声データの入力を受信した場合に適切な音声認識辞書に変更することが可能である。

また、認識フレーズ「設定終了」に対応して回答フレーズ「設定を終了するね」とが関連付けられて登録されている場合が示されている。

また、状態が通常モードは、サーバ２０における掃除ロボット１０の状態を通常モードに設定することを意味する。

（はい／いいえ辞書）
図１８（Ｂ）を参照して、はい／いいえ辞書に関して、認識内容（認識フレーズ）と応答内容（回答フレーズ）と状態とが関連付けて登録されている。

一例として、ここでは認識フレーズとして、「はい」、「いいえ」、「設定終了」等に対応して回答フレーズが関連付けられて格納されている。

例えば、認識フレーズ「はい」に対応して回答フレーズ「ＹＹＹを登録したよ」と、「天気情報」と、「通常モード変更」とが関連付けられて登録されている場合が示されている。そして、状態は通常モードが関連付けられて登録されている場合が示されている。なお、「ＹＹＹ」は、登録した郵便番号の内容と同様の内容を意味している。

また、状態が通常モードは、サーバ２０における掃除ロボット１０の状態を通常モードに設定することを意味する。当該掃除ロボット１０の状態を設定することにより掃除ロボット１０からの音声データの入力を受信した場合に適切な音声認識辞書に変更することが可能である。

また、認識フレーズ「いいえ」に対応して回答フレーズ「もう一度ゆってね」とが関連付けられて登録されている場合が示されている。

また、状態がサーバモード（郵便番号）は、サーバ２０における掃除ロボット１０の状態をサーバモード（郵便番号）に設定することを意味する。当該掃除ロボット１０の状態を設定することにより掃除ロボット１０からの音声データの入力を受信した場合に適切な音声認識辞書に変更することが可能である。

（天気情報取得）
図１９は、実施形態４に基づく音声認識システム１における天気情報取得（その１）の応答処理の流れを示すシーケンス図である。

図１９に示されるように、まず、掃除ロボット１０は、通常モードに設定されているものとする（シーケンスｓｑ８０）。

次に、ユーザ発話「今日の天気は」があるものとする（シーケンスｓｑ８１）。
次に、掃除ロボット１０は、ユーザからの音声の入力を受け付ける（シーケンスｓｑ８２）。具体的には、掃除ロボット１０の音声入力受付部１１４は、マイク１０３を介して外部からの音の入力を受け付ける。

次に、掃除ロボット１０は、音声データをサーバ２０に出力する（シーケンスｓｑ８３）。具体的には、音声入力受付部１１４は、通信部１０１を介してサーバ２０に出力する。

次に、サーバ２０は、掃除ロボット１０から送信された音声データを受信して、音声認識を実行する（シーケンスｓｑ８３Ａ）。具体的には、音声認識部２２２は、認識フレーズ「今日の天気は」を取得する。そして、音声認識部２２２は、その結果を応答処理実行指示部２２４に出力する。

次に、サーバ２０は、モード判定を実行する（シーケンスｓｑ８４）。具体的には、応答処理実行指示部２２４は、掃除ロボット１０の状態を判断するモード判定を実行する。モード判定は、状態記憶部２３３において格納されている掃除ロボット１０の状態に従って状態に応じた音声認識辞書に設定する処理である。本例においては、一例として「ＩＤ１」の掃除ロボットの場合、すなわち「通常モード」である場合に「通常辞書」に設定する。

次に、サーバ２０は、登録無を確認する（シーケンスｓｑ８６）。具体的には、応答処理実行指示部２２４は、応答処理実行指示部２２４は、音声認識部２２２から得られた結果である音声内容に対する応答内容を決定する。

本例においては、例えば、図１０で説明した通常辞書を用いた場合、認識フレーズ「今日の天気は」に対応して回答フレーズとして２つのパターンが設けられている。具体的には、郵便番号の登録が有る場合「登録有：天気情報」と、郵便番号の登録が無い場合「登録無：まず郵便番号を設定するよ。イチ、マル、サン、みたいに言ってね」とに分けられている。

したがって、応答処理実行指示部２２４は、状態記憶部２３３において格納されている掃除ロボット１０の郵便番号が設定されているか否かを確認する。そして、本例においては、一例として「未設定」すなわち登録無であることを確認する。

次に、サーバ２０は、回答フレーズを決定する（シーケンスｓｑ８６Ａ）。
具体的には、応答処理実行指示部２２４は、例えば、図１０で説明した通常辞書を用いた場合、認識フレーズ「今日の天気は」の登録無に対応して回答フレーズ「まず郵便番号を設定するよ。イチ、マル、サン、みたいに言ってね」と、「サーバモード変更」とを応答内容として決定する。

次に、サーバ２０は、サーバモード（郵便番号）に設定する（シーケンスｓｑ８７）。具体的には、応答処理実行指示部２２４は、認識フレーズ「今日の天気は」に関連付けられた「掃除ロボットの状態」をサーバモード（郵便番号）に設定する。応答処理実行指示部２２４は、一例として状態記憶部２３３の「ＩＤ１」の「掃除ロボットの状態」を「サーバモード（郵便番号）」に変更する。これにより、次の応答の際に利用する適切な音声認識辞書（郵便番号辞書）を利用することが可能である。

次に、サーバ２０は、音声認識した音声認識結果データを掃除ロボット１０に送信する（シーケンスｓｑ９０）。具体的には、応答処理実行指示部２２４は、通信部２０１を介して音声認識結果データとして、音声「まず郵便番号を設定するよ。イチ、マル、サン、みたいに言ってね」と、サーバモード変更指示を掃除ロボット１０に送信する。

一方、掃除ロボット１０は、シーケンスｓｑ８３の後、音声データの音声認識を実行する（シーケンスｓｑ８８）。具体的には、音声認識部１１１は、音声入力受付部１１４で生成した音声データに従って音声内容を認識する。そして、音声内容の認識結果を応答処理実行部１１２に出力する。

次に、掃除ロボット１０は、認識を失敗する（シーケンスｓｑ８９）。本例における掃除ロボット１０の発話内容データベース１２０には、認識フレーズ「今日の天気は」に対応する回答フレーズが設けられていないため認識失敗となった場合が示されている。

次に、掃除ロボット１０は、サーバモードに設定する（シーケンスｓｑ９１）。具体的には、動作モード切替部１１３は、サーバ２０から送信された音声認識結果データ（「サーバモード変更指示」）に基づいて通常モードをサーバモードに変更する。

また、掃除ロボット１０は、サーバ２０から送信された音声認識結果データに基づいて音声応答処理を実行する（シーケンスｓｑ９２）。具体的には、応答処理実行部１１２は、音声認識結果データ（「まず郵便番号を設定するよ。イチ、マル、サン、みたいに言ってね」）の音声ファイルを再生する。すなわち、スピーカ１０４により音声（「まず郵便番号を設定するよ。イチ、マル、サン、みたいに言ってね」）をユーザに応答（発話）する（シーケンスｓｑ９３）。

次に、郵便番号の設定方式に基づいてユーザ発話「ニー、ロク、イチ」があるものとする（シーケンスｓｑ９４）。

次に、掃除ロボット１０は、ユーザからの音声の入力を受け付ける（シーケンスｓｑ９５）。具体的には、掃除ロボット１０の音声入力受付部１１４は、マイク１０３を介して外部からの音の入力を受け付ける。

次に、掃除ロボット１０は、音声データをサーバ２０に出力する（シーケンスｓｑ９６）。具体的には、音声入力受付部１１４は、通信部１０１を介してサーバ２０に出力する。

次に、サーバ２０は、掃除ロボット１０から送信された音声データを受信して、音声認識を実行する（シーケンスｓｑ９６Ａ）。具体的には、音声認識部２２２は、認識フレーズ「ニー、ロク、イチ」を取得する。そして、音声認識部２２２は、その結果を応答処理実行指示部２２４に出力する。

次に、サーバ２０は、モード判定を実行する（シーケンスｓｑ９７）。具体的には、応答処理実行指示部２２４は、掃除ロボット１０の状態を判断するモード判定を実行する。モード判定は、状態記憶部２３３において格納されている掃除ロボット１０の状態に従って状態に応じた辞書に設定する処理である。本例においては、シーケンスｓｑ８７により、サーバ２０の状態記憶部２３３の「ＩＤ１」の「掃除ロボットの状態」は「サーバモード（郵便番号）」に変更されている。これにより、音声認識辞書を「郵便番号辞書」に設定する。

次に、サーバ２０は、回答フレーズを決得知する（シーケンスｓｑ９７Ａ）。
具体的には、応答処理実行指示部２２４は、音声認識部２２２から得られた結果である音声内容に対する応答内容を決定する。

本例においては、例えば、図１８（Ａ）で説明した郵便番号辞書を用いた場合、認識フレーズ「ニー、ロク、イチ」に対応して回答フレーズ「ＸＸＸでいいですか？はい、か、いいえで応えてね」が応答内容として決定される。

次に、サーバ２０は、サーバモード（はい／いいえ）に設定する（シーケンスｓｑ９８）。

具体的には、応答処理実行指示部２２４は、認識フレーズ「ニー、ロク、イチ」に関連付けられた「掃除ロボットの状態」を「サーバモード（はい／いいえ）」に変更する。応答処理実行指示部２２４は、一例として状態記憶部２３３の「ＩＤ１」の「掃除ロボットの状態」を「サーバモード（はい／いいえ）」に変更する。これにより、次の応答の際に利用する適切な音声認識辞書（はい／いいえ辞書）を利用することが可能である。

次に、サーバ２０は、音声認識した音声認識結果データを掃除ロボット１０に送信する（シーケンスｓｑ１０１）。具体的には、応答処理実行指示部２２４は、通信部２０１を介して音声認識結果データとして、音声「ニー、ロク、イチでいいですか？はい、か、いいえで応えてね」を掃除ロボット１０に送信する。

一方、掃除ロボット１０は、シーケンスｓｑ９６の後、音声データの音声認識を実行する（シーケンスｓｑ９９）。具体的には、音声認識部１１１は、音声入力受付部１１４で生成した音声データに従って音声内容を認識する。そして、音声内容の認識結果を応答処理実行部１１２に出力する。

次に、掃除ロボット１０は、認識を無効とする（シーケンスｓｑ１００）。本例における掃除ロボット１０は、サーバモードの場合にサーバ２０からの指示を優先し、掃除ロボット１０の音声認識の認識結果を無効とする場合が示されている。

次に、掃除ロボット１０は、サーバ２０から送信された音声認識結果データに基づいて音声応答処理を実行する（シーケンスｓｑ１０２）。具体的には、応答処理実行部１１２は、音声認識結果データ（「ニー、ロク、イチでいいですか？はい、か、いいえで応えてね」）の音声ファイルを再生する。すなわち、スピーカ１０４により音声（「ニー、ロク、イチでいいですか？はい、か、いいえで応えてね」）をユーザに応答（発話）する（シーケンスｓｑ１０３）。

次に、はい、いいえの回答ルールに基づいてユーザ発話「はい」があるものとする（シーケンスｓｑ１０４）。

次に、掃除ロボット１０は、ユーザからの音声の入力を受け付ける（シーケンスｓｑ１０５）。具体的には、掃除ロボット１０の音声入力受付部１１４は、マイク１０３を介して外部からの音の入力を受け付ける。

次に、掃除ロボット１０は、音声データをサーバ２０に出力する（シーケンスｓｑ１０６）。具体的には、音声入力受付部１１４は、通信部１０１を介してサーバ２０に出力する。

次に、サーバ２０は、掃除ロボット１０から送信された音声データを受信して、音声認識を実行する（シーケンスｓｑ１０６Ａ）。具体的には、音声認識部２２２は、認識フレーズ「はい」を取得する。そして、音声認識部２２２は、その結果を応答処理実行指示部２２４に出力する。

次に、モード判定を実行する（シーケンスｓｑ１０７）。具体的には、応答処理実行指示部２２４は、掃除ロボット１０の状態を判断するモード判定を実行する。モード判定は、状態記憶部２３３において格納されている掃除ロボット１０の状態に従って状態に応じた辞書に設定する処理である。本例においては、シーケンスｓｑ９８により、サーバ２０の状態記憶部２３３の「ＩＤ１」の「掃除ロボットの状態」は「サーバモード（はい／いいえ）」に変更されている。これにより、音声認識辞書を「はい／いいえ辞書」に設定する。

次に、サーバ２０は、設定登録する（シーケンスｓｑ１０８）。具体的には、応答処理実行指示部２２４は、音声認識部２２２から得られた結果である音声内容を郵便番号として設定登録する。具体的には、状態記憶部２３３に格納されている掃除ロボットの状態の「郵便番号」に関して、得られた結果を登録する。

次に、サーバ２０は、天気情報を取得する（シーケンスｓｑ１０９）。具体的には、応答処理実行指示部２２４は、設定登録された郵便番号に従って天気情報を取得する。この点で公知の天気情報を取得可能な外部サーバに設定登録された郵便番号の情報を送信して、当該外部サーバから送信した郵便番号に関連付けられた天気情報を取得する。

次に、サーバ２０は、回答フレーズを決定する（シーケンスｓｑ１０９Ａ）。
具体的には、応答処理実行指示部２２４は、音声認識部２２２から得られた結果である音声内容に対する応答内容を決定する。本例においては、例えば、図１８（Ｂ）で説明したはい／いいえ辞書を用いた場合、認識フレーズ「はい」に対応して回答フレーズ「ＹＹＹを登録したよ」と、「天気情報」と、「通常モード変更」が応答内容として決定される。「ＹＹＹ」は、「ニー、ロク、イチ」である。「天気情報」は、「今日の天気はＺＺＺだよ」である。「ＺＺＺ」は、外部サーバから取得した天気に関する情報、例えば、「晴れ」、「雨」、「くもり」等である。なお、気温や降水確率等の情報を含めるようにしても良い。

そして、サーバ２０は、通常モードに設定する（シーケンスｓｑ１１０）。
具体的には、応答処理実行指示部２２４は、認識フレーズ「はい」に関連付けられた「掃除ロボットの状態」を通常モードに設定する。応答処理実行部指示部２２４は、状態記憶部２３３の「ＩＤ１」の「掃除ロボットの状態」を「通常モード」に変更する。これにより、次の応答の際に利用する適切な音声認識辞書（通常辞書）を利用することが可能である。

次に、サーバ２０は、音声認識した音声認識結果データを掃除ロボット１０に送信する（シーケンスｓｑ１１３）。具体的には、応答処理実行指示部２２４は、通信部２０１を介して音声認識結果データとして、音声「ニー、ロク、イチを登録したよ。今日の天気は晴れだよ」と、通常モード変更指示を掃除ロボット１０に送信する。

一方、掃除ロボット１０は、シーケンスｓｑ１０６の後、音声データの音声認識を実行する（シーケンスｓｑ１１１）。具体的には、音声認識部１１１は、音声入力受付部１１４で生成した音声データに従って音声内容を認識する。そして、音声内容の認識結果を応答処理実行部１１２に出力する。

次に、掃除ロボット１０は、認識を無効とする（シーケンスｓｑ１１２）。本例における掃除ロボット１０は、サーバモードの場合にサーバ２０からの指示を優先し、掃除ロボット１０の音声認識の認識結果を無効とする場合が示されている。

次に、掃除ロボット１０は、通常モードに設定する（シーケンスｓｑ１１４）。具体的には、動作モード切替部１１３は、サーバ２０から送信された音声認識結果データ（「通常モード変更指示」）に基づいてサーバモードを通常モードに変更する。

次に、掃除ロボット１０は、サーバ２０から送信された音声認識結果データに基づいて音声応答処理を実行する（シーケンスｓｑ１１５）。具体的には、応答処理実行部１１２は、音声認識結果データ（「ニー、ロク、イチを登録したよ。今日の天気は晴れだよ」）の音声ファイルを再生する。すなわち、スピーカ１０４により音声（「ニー、ロク、イチを登録したよ。今日の天気は晴れだよ」）をユーザに応答（発話）する（シーケンスｓｑ１１６）。

これにより、郵便番号を設定して、当該郵便番号に対応する天気情報を取得して発話することが可能となる。

（天気情報取得（その２））
図２０は、実施形態４に基づく音声認識システム１における天気情報取得（その２）の応答処理の流れを示すシーケンス図である。

図２０に示されるように、まず、掃除ロボット１０は、通常モードに設定されているものとする（シーケンスｓｑ１２０）。

次に、ユーザ発話「今日の天気は」があるものとする（シーケンスｓｑ１２１）。
次に、掃除ロボット１０は、ユーザからの音声の入力を受け付ける（シーケンスｓｑ１２２）。具体的には、掃除ロボット１０の音声入力受付部１１４は、マイク１０３を介して外部からの音の入力を受け付ける。

次に、掃除ロボット１０は、音声データをサーバ２０に出力する（シーケンスｓｑ１２３）。具体的には、音声入力受付部１１４は、通信部１０１を介してサーバ２０に出力する。

次に、サーバ２０は、掃除ロボット１０から送信された音声データを受信して、音声認識を実行する（シーケンスｓｑ１２３Ａ）。具体的には、音声認識部２２２は、認識フレーズ「今日の天気は」を取得する。そして、音声認識部２２２は、その結果を応答処理実行指示部２２４に出力する。

次に、サーバ２０は、モード判定を実行する（シーケンスｓｑ１２４）。具体的には、応答処理実行指示部２２４は、掃除ロボット１０の状態を判断するモード判定を実行する。モード判定は、状態記憶部２３３において格納されている掃除ロボット１０の状態に従って状態に応じた音声認識辞書に設定する処理である。本例においては、一例として「ＩＤ１」の掃除ロボットの場合、すなわち「通常モード」である場合に「通常辞書」に設定する。

次に、サーバ２０は、登録有を確認する（シーケンスｓｑ１２６）。具体的には、応答処理実行指示部２２４は、応答処理実行指示部２２４は、音声認識部２２２から得られた結果である音声内容に対する応答内容を決定する。

したがって、応答処理実行指示部２２４は、状態記憶部２３３において格納されている掃除ロボット１０の郵便番号が設定されているか否かを確認する。そして、本例においては、一例として登録有であることを確認する。

次に、サーバ２０は、天気情報を取得する（シーケンスｓｑ１２７）。具体的には、応答処理実行指示部２２４は、設定登録されている郵便番号に従って天気情報を取得する。具体的には、公知の天気情報を取得可能な外部サーバに設定登録された郵便番号の情報を送信して、当該外部サーバから送信した郵便番号に関連付けられた天気情報を取得する。

次に、サーバ２０は、回答フレーズを決定する（シーケンスｓｑ１２７Ａ）。
具体的には、応答処理実行指示部２２４は、音声認識部２２２から得られた結果である音声内容に対する応答内容を決定する。本例においては、例えば、図１０で説明した通常辞書を用いた場合、認識フレーズ「今日の天気は」に対応して、「登録有」の回答フレーズ「天気情報」が応答内容として決定される。「天気情報」は、「今日の天気はＺＺＺだよ」である。「ＺＺＺ」は、外部サーバから取得した天気に関する情報、例えば、「晴れ」、「雨」、「くもり」等である。なお、気温や降水確率等の情報を含めるようにしても良い。

次に、サーバ２０は、音声認識した音声認識結果データを掃除ロボット１０に送信する（シーケンスｓｑ１３０）。具体的には、応答処理実行指示部２２４は、通信部２０１を介して音声認識結果データとして、音声「今日の天気は晴れだよ」を掃除ロボット１０に送信する。

一方、掃除ロボット１０は、シーケンスｓｑ１２３の後、音声データの音声認識を実行する（シーケンスｓｑ１２８）。具体的には、音声認識部１１１は、音声入力受付部１１４で生成した音声データに従って音声内容を認識する。そして、音声内容の認識結果を応答処理実行部１１２に出力する。

次に、掃除ロボット１０は、認識を失敗する（シーケンスｓｑ１２９）。本例における掃除ロボット１０の発話内容データベース１２０には、認識フレーズ「今日の天気は」に対応する回答フレーズが設けられていないため認識失敗となった場合が示されている。

次に、掃除ロボット１０は、サーバ２０から送信された音声認識結果データに基づいて音声応答処理を実行する（シーケンスｓｑ１３１）。具体的には、応答処理実行部１１２は、音声認識結果データ（今日の天気は晴れだよ」）の音声ファイルを再生する。すなわち、スピーカ１０４により音声（「今日の天気は晴れだよ」）をユーザに応答（発話）する（シーケンスｓｑ１３２）。

これにより、郵便番号が設定されている場合には、当該郵便番号に対応する天気情報を取得して発話することが可能となる。

（フロー図）
図２１は、本実施形態４に基づくサーバ２０の音声認識処理を実行するフロー図である。

図２１を参照して、当該フロー図は、記憶部２０３に格納されているプログラムを実行して制御部２０２の各部が機能することにより実行される処理である。

図１７のフロー図と比較して、回答フレーズを決定する処理が異なる（ステップＳ３５＃）。その他の流れについては、図１７と同様であるのでその詳細な説明は繰り返さない。

図２２は、本実施形態４に基づく回答フレーズを決定する処理のサブフロー図である。
図２２を参照して、認識フレーズが「今日の天気は」であるかどうかを判定する（ステップＳ４０）。具体的には、音声認識部２２２で認識した認識内容が「今日の天気は」か否かを判定する。

ステップＳ４０において、認識フレーズが「今日の天気は」であると判定した場合（ステップＳ４０においてＹＥＳ）には、郵便番号の登録が有るかどうかを判定する（ステップＳ４１）。

ステップＳ４１において、郵便番号の登録が有ると判定した場合（ステップＳ４１においてＹＥＳ）には、天気情報取得処理を実行する（ステップＳ４２）。

そして、ステップＳ４３において、回答フレーズとして「今日の天気はＺＺＺだよ」に決定する。そして、処理を終了する（リターン）。

一方、ステップＳ４１において、郵便番号の登録が無いと判定した場合（ステップＳ４１においてＮＯ）には、回答フレーズとして「まず郵便番号を設定するよ。イチ、マル、サン、みたいに言ってね」に決定する。そして、処理を終了する（リターン）。

また、認識フレーズが「今日の天気は」でないと判定した場合（ステップＳ４０においてＮＯ）には、認識フレーズが「はい」で有るかどうかを判定する（ステップＳ４５）。

ステップＳ４５において、認識フレーズが「はい」で有ると判定した場合（ステップＳ４５においてＹＥＳ）には、情報を登録する（ステップＳ４６）。具体的には、ユーザ発話により得られた郵便番号に関する情報を状態記憶部２３３において格納されている掃除ロボット１０の郵便番号の欄に登録する。

そして、次に、天気情報取得処理を実行する（ステップＳ４７）。具体的には、設定登録された郵便番号に従って天気情報を取得する。この点で公知の天気情報を取得可能な外部サーバに設定登録された郵便番号の情報を送信して、当該外部サーバから送信した郵便番号に関連付けられた天気情報を取得する。

そして、ステップＳ４８において、回答フレーズとして「ＹＹＹを登録したよ。今日の天気はＺＺＺだよ」に決定する。そして、処理を終了する（リターン）。

一方、ステップＳ４５において、認識フレーズが「はい」でないと判定した場合（ステップＳ４５においてＮＯ）には、その他の回答フレーズに決定する（ステップＳ４９）。具体的には、認識フレーズに対応する回答フレーズを決定する。

そして、処理を終了する。
なお、本例においては、サーバモードとして、外部サーバにアクセスして天気情報を取得して掃除ロボット１０から発話する場合について説明したが、特に取得可能な情報は「天気情報」に限られるわけではなく、他の外部サーバから取得可能な情報であればどのような情報にも適用することが可能である。例えば、最近のニュースやトピックスを掃除ロボット１０から発話させることも可能であるし、ユーザの質問に対する回答情報を取得して掃除ロボット１０から発話させることも可能である。

＜実施形態５＞
図２３は、本実施形態５に基づくサーバの構成について説明する図である。

図２３を参照して、本例においては、サーバが複数設けられている場合が示されている。

本例においては、一例としてサーバ２０Ａと、サーバ２０Ｂとが設けられている場合が示されている。

上記の構成においては、音声認識と音声認識に対する回答フレーズを決定する処理とを同じサーバで実行する場合について説明したが、一方で、当該処理をそれぞれ独立のサーバで実行することも可能である。

具体的には、サーバ２０Ａにおいて音声データに対する音声認識を実行し、サーバ２０Ｂにおいて回答フレーズである音声認識結果データを掃除ロボット１０に出力する構成としてもよい。

例えば、掃除ロボット１０から音声データをサーバ２０Ａに送信する（１）。サーバ２０Ａが音声データの音声認識を実行する（２）。そして、サーバ２０Ａが掃除ロボット１０に対して認識フレーズを送信する（３）。

掃除ロボット１０がサーバ２０Ａから認識フレーズを受信して、別のサーバ２０Ｂに当該認識フレーズを送信する（４）。

サーバ２０Ｂは、掃除ロボット１０から認識フレーズを受信して、当該認識フレーズに対応する回答フレーズを決定する（５）。そして、サーバ２０Ｂは、掃除ロボットに対して音声認識結果データを送信する（６）。

なお、本例においては、サーバ２０Ａが音声データの音声認識を実行した認識フレーズを掃除ロボット１０に対して送信する場合について説明したが、認識フレーズに限られず音声認識の結果を示す情報であればどのようなものでも良い。例えば、サーバ２０Ｂに格納されている回答フレーズにアクセスするために必要なアクセス情報（ＵＲＬ（Uniform Resource Locator）等）であってもよい。例えば、当該アクセス情報（ＵＲＬ）を掃除ロボット１０は、サーバ２０Ａから受信して、サーバ２０Ｂにアクセスすることにより回答フレーズをサーバ２０Ｂから取得する構成としてもよい。また、アクセス情報に限られず、サーバ２０Ｂに格納されている回答フレーズがファイル形式で保存されている場合には、サーバ２０Ａからの音声認識の結果を示す情報として、ファイル名を指定する情報であってもよい。例えば、当該ファイル名を掃除ロボット１０は、サーバ２０Ａから受信して、サーバ２０Ｂに対してファイル名を指定して情報を要求することにより、回答フレーズに関連するファイルをサーバ２０Ｂから取得することが可能である。

また、同様に、サーバ２０Ａからの音声認識の結果を示す情報として、認識フレーズをテキスト化したテキスト情報を送信するようにしてもよい。掃除ロボット１０は、当該テキスト情報から認識フレーズを抽出して、サーバ２０Ｂにアクセスして回答フレーズを取得するようにしてもよいし、当該テキスト情報をサーバ２０Ｂに送信して、サーバ２０Ｂで認識フレーズを含むテキスト情報を解析して、解析結果に基づいて回答フレーズを決定して、掃除ロボット１０に送信する構成としてもよい。

また、サーバ２０Ｂから掃除ロボット１０に送信する音声認識結果データとして回答フレーズを送信する構成について説明した。具体的には、回答フレーズに対応する音声ファイルを送信して掃除ロボット１０が当該音声ファイルに従って発話する場合について説明したが、音声ファイルに限られず、回答フレーズを含むテキスト情報を送信して、掃除ロボット１０で当該テキスト情報を解析（いわゆる読み上げ機能等）して発話するようにしてもよい。

また、本例においては、掃除ロボット１０での音声認識の結果に対する回答フレーズを掃除ロボット１０内で決定する場合について説明したが、掃除ロボット１０で音声認識した後、回答フレーズをサーバ２０Ｂから取得するようにしてもよい。その場合、認識フレーズに対するサーバ２０Ｂの回答フレーズにアクセスするアクセス情報（ＵＲＬ）が対応付けられたＵＲＬ対応テーブルを記憶部１０９に設けることにより実現することが可能である。

また、掃除ロボット１０内に保存されている情報を利用して音声認識の結果に対する回答フレーズを取得することも可能である。

例えば、一時的に情報を格納することが可能なキャッシュメモリに以前に利用された認識フレーズに対する回答フレーズの情報が含まれている場合には、当該キャッシュメモリに格納されている回答フレーズの情報を利用することにより、例えば、サーバ２０Ｂにアクセスすることなく回答フレーズを取得して掃除ロボット１０から発話することも可能である。これによりキャッシュメモリに格納されている情報を利用して早期に発話することが可能である。

また、掃除ロボット１０内に回答フレーズに対応する音声ファイルが保存されている場合に、サーバ２０Ａが当該掃除ロボット１０内に保存されている音声ファイルを音声認識の結果を示す情報として指定するようにしても良い。当該処理により、サーバ２０Ｂにアクセスすることなく、掃除ロボット１０内に保存されている音声ファイルを利用して早期に発話することが可能である。なお、当該音声ファイルが掃除ロボット１０内に保存されていない場合には、サーバ２０Ｂに対して当該指定された音声ファイルを要求して、サーバ２０Ｂから音声ファイルを取得して発話するようにしても良い。

本実施形態５のサーバの構成については、上記の実施形態１〜４のいずれにも適用可能である。

＜実施形態６＞
掃除ロボット１０及びサーバ２０の制御ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、掃除ロボット１０及びサーバ２０は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

（まとめ）
本発明の態様１に係る音声認識端末（掃除ロボット１０）は、音声を認識する音声認識が可能なサーバ２０と通信可能に設けられた音声認識端末であって、ユーザからの音声入力を受け付ける音声入力受付部１１４と、音声入力受付部１１４で受け付けた音声入力に対して音声認識する音声認識部１１１と、音声入力受付部１１４で受け付けた音声入力に対する音声認識結果に基づいてユーザに対する応答処理を実行する応答処理実行部１１２と、サーバに音声入力受付部１１４で受け付けた音声入力を送信し、サーバでの音声認識結果を受信する通信部１０１とを備える。応答処理実行部１１２は、音声認識部１１１による音声認識結果とサーバから受信した音声認識結果とのうち先に得られた音声認識結果に基づいて、ユーザに対する応答処理を実行する。

上記の構成によれば、応答処理実行部１１２は、音声認識部１１１による音声認識結果とサーバから受信した音声認識結果とのうち先に得られた音声認識結果に基づいて、ユーザに対する応答処理を実行するため音声認識端末からの応答時間が短縮され、ユーザにストレスを与えることなく円滑なコミュニケーションを実行することが可能である。

本発明の態様２に係る音声認識端末（掃除ロボット１０）の応答処理実行部１１２は、後に得られた音声認識結果に基づくユーザに対する応答処理を実行しなくても良い。

本発明の態様３に係る音声認識端末（掃除ロボット１０）において、音声認識は、音声を認識するとともに当該認識の確度を示す信頼度を算出し、応答処理実行部１１２は、音声認識部１１１による音声認識結果に含まれる信頼度に関し、後に得られた音声認識結果に含まれる信頼度が先に得られた音声認識結果に含まれる信頼度よりも大きい場合に、後に得られた音声認識結果に基づいて、ユーザに対する応答処理をさらに実行しても良い。

本発明の態様４に係る音声認識端末（掃除ロボット１０）の応答処理実行部１１２は、音声認識部１１１による音声認識結果に含まれる信頼度に関し、先に得られた音声認識結果に含まれる信頼度が所定の信頼度以下の場合に、後に得られた音声認識結果に含まれる信頼度が先に得られた音声認識結果に含まれる信頼度よりも大きい場合に、後に得られた音声認識結果に基づいて、ユーザに対する応答処理をさらに実行しても良い。

本発明の態様５に係る音声認識端末（掃除ロボット１０）の音声入力受付部１１４に入力された音声入力に対する音声認識結果に基づいてサーバの指示に従って音声認識端末が動作するサーバモードと、音声認識端末がサーバの指示を選択的に利用して動作する通常モードとを切り換える動作モード切替部１１３をさらに備えても良い。

本発明の態様６に係る音声認識端末（掃除ロボット１０）の応答処理実行部１１２は、サーバモードの場合に音声認識部による音声認識結果を無効としても良い。

本発明の態様７に係るサーバ２０は、音声を認識する音声認識が可能な音声認識端末（掃除ロボット１０）と通信可能に設けられたサーバであって、音声認識端末を介してユーザからの音声入力を受信する音声入力受信部２２１と、音声入力受信部２２１で受信した音声入力に対して音声認識する音声認識部２２２と、音声入力受信部２２１で受信した音声入力に対する音声認識結果に基づいて、音声認識端末に対しユーザに対する応答処理の実行を指示する応答処理実行指示部２２４とを備え、応答処理実行指示部２２４は、音声認識端末に対して音声認識端末がサーバの指示を選択的に利用して動作する通常モードから、サーバの指示に従って音声認識端末が動作するように指示するサーバモードに切り替わるように指示する。

上記の構成によれば、応答処理実行指示部２２４は、通常モードからサーバモードに切り替わるように指示するため、音声認識の内容によってはサーバ２０で処理する方が適切な場合には、当該切り替え処理により、音声認識端末からの応答時間が短縮され、ユーザにストレスを与えることなく円滑なコミュニケーションを実行することが可能である。

本発明の態様８に係るサーバ２０の応答処理実行指示部２２４は、音声入力受信部２２１で受け付けた音声入力に対する音声認識結果としてユーザからの所定情報の問い合わせの要求であるか否かを判断し、所定情報の問い合わせの要求であると判断した場合には、当該所定情報を取得するためのデータが登録されているか否かを判断し、判断結果に基づいて当該所定情報を取得するためのデータが登録されていない場合に、ユーザに対してデータの入力を促す応答処理の実行を指示する。

本発明の態様９に係るサーバ２０の制御方法は、音声を認識する音声認識が可能な音声認識端末（掃除ロボット１０）と通信可能に設けられたサーバ２０の制御方法であって、音声認識端末を介してユーザからの音声入力を受信するステップ（ステップＳ３０）と、受信した音声入力に対して音声認識するステップ（ステップＳ３１）と、受信した音声入力に対する音声認識結果に基づいて、音声認識端末に対してユーザに対する応答処理の実行を指示するステップ（ステップＳ３５〜Ｓ３７）とを備え、応答処理の実行を指示するステップは、音声認識端末がサーバの指示を選択的に利用して動作する通常モードから、音声認識端末がサーバの指示に従って動作するように指示するサーバモードに切り替わるように指示するステップを含む。

上記の構成によれば、通常モードからサーバモードに切り替わるように指示するため、音声認識の内容によってはサーバ２０で処理する方が適切な場合には、当該切り替え処理により、音声認識端末からの応答時間が短縮され、ユーザにストレスを与えることなく円滑なコミュニケーションを実行することが可能である。

本発明の態様１０に係る音声認識システム１は、音声を認識する音声認識が可能なサーバ２０と、サーバ２０と通信可能に設けられた音声認識端末（掃除ロボット１０）とを備える。音声認識端末は、ユーザからの音声入力を受け付ける音声入力受付部１１４と、音声入力受付部１１４で受け付けた音声入力に対して音声認識する音声認識部１１１と、音声入力受付部１１４で受け付けた音声入力に対する音声認識結果に基づいてユーザに対する応答処理を実行する応答処理実行部１１２と、サーバに音声入力受付部１１４で受け付けた音声入力を送信し、サーバでの音声認識結果を受信する通信部１０１とを含む。応答処理実行部１１２は、音声認識部１１１による音声認識結果とサーバから受信した音声認識結果とのうち先に得られた音声認識結果に基づいて、ユーザに対する応答処理を実行する。

本発明の態様１１に係る制御プログラムは、音声を認識する音声認識が可能なサーバと通信可能に設けられた音声認識端末のコンピュータにおいて実行される制御プログラムであって、制御プログラムは、コンピュータに対して、ユーザからの音声入力を受け付けるステップ（ステップＳ１）と、受け付けた音声入力に対して音声認識するステップ（ステップＳ４）と、受け付けた音声入力に対する音声認識結果に基づいてユーザに対する応答処理を実行するステップ（ステップＳ５〜Ｓ８，Ｓ１５，Ｓ１６）と、サーバに受け付けた音声入力を送信し、サーバでの音声認識結果を受信するステップ（ステップＳ３）とを備え、応答処理を実行するステップは、音声認識するステップに基づく音声認識結果とサーバから受信した音声認識結果とのうち先に得られた音声認識結果に基づいて、ユーザに対する応答処理を実行する、処理を実行させる。

上記の構成によれば、応答処理を実行するステップについて、音声認識結果とサーバから受信した音声認識結果とのうち先に得られた音声認識結果に基づいて、ユーザに対する応答処理を実行するため音声認識端末からの応答時間が短縮され、ユーザにストレスを与えることなく円滑なコミュニケーションを実行することが可能である。

本発明の態様１２に係る制御プログラムは、音声を認識する音声認識が可能な音声認識端末と通信可能に設けられたサーバのコンピュータにおいて実行される制御プログラムであって、制御プログラムは、コンピュータに対して、音声認識端末を介してユーザからの音声入力を受信するステップ（ステップＳ３０）と、受信した音声入力に対して音声認識するステップ（ステップＳ３１）と、受信した音声入力に対する音声認識結果に基づいて、音声認識端末に対してユーザに対する応答処理の実行を指示するステップ（ステップＳ３５〜Ｓ３７）とを備え、応答処理の実行を指示するステップは、音声認識端末がサーバの指示を選択的に利用して動作する通常モードから、音声認識端末がサーバの指示に従って動作するように指示するサーバモードに切り替わるように指示するステップを含む、処理を実行させる。

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１音声認識システム、５ネットワーク、１０掃除ロボット、２０，２０Ａ，２０Ｂサーバ、１０１，２０１通信部、１０２，２０２制御部、１０３マイク、１０４スピーカ、１０５掃除部、１０６駆動部、１０８表示部、１０９，２０３記憶部、１１１，２２２音声認識部、１１２応答処理実行部、１１３動作モード切替部、１１４音声入力受付部、１２０，２３２発話内容データベース、２２１音声入力受信部、２２４応答処理実行指示部、２３２Ａ通常辞書、２３２Ｂしりとり辞書、２３２Ｃ郵便番号辞書、２３２Ｄはい／いいえ辞書、２３３状態記憶部。

Claims

音声を認識する音声認識が可能なサーバと通信可能に設けられた音声認識端末であって、
ユーザからの音声入力を受け付ける音声入力受付部と、
前記音声入力受付部で受け付けた音声入力に対して音声認識する音声認識部と、
前記音声入力受付部で受け付けた音声入力に対する音声認識結果に基づいて前記ユーザに対する応答処理を実行する応答処理実行部と、
前記サーバに前記音声入力受付部で受け付けた音声入力を送信し、前記サーバでの音声認識結果を受信する通信部とを備え、
前記音声認識部は、前記音声を認識するとともに当該認識の確度を示す信頼度を算出し、
前記応答処理実行部は、前記音声認識部による音声認識結果に含まれる信頼度に関し、後に得られた音声認識結果に含まれる信頼度が先に得られた音声認識結果に含まれる信頼度よりも大きい場合に、後に得られた音声認識結果に基づいて、前記ユーザに対する応答処理をさらに実行する、音声認識端末。
前記応答処理実行部は、前記音声認識部による音声認識結果に含まれる信頼度に関し、先に得られた音声認識結果に含まれる信頼度が所定の信頼度以下の場合に、後に得られた音声認識結果に含まれる信頼度が先に得られた音声認識結果に含まれる信頼度よりも大きい場合に、後に得られた音声認識結果に基づいて、前記ユーザに対する応答処理をさらに実行する、請求項１記載の音声認識端末。
前記サーバの指示に従って前記音声認識端末が応答処理を実行するサーバモードと、前記音声認識端末が前記サーバの指示を選択的に利用して応答処理を実行する通常モードとを、前記音声入力受付部に入力された音声入力に対する音声認識結果に基づいて切り換える動作モード切替部をさらに備える、請求項１または２に記載の音声認識端末。
前記応答処理実行部は、前記サーバモードの場合に前記音声認識部による音声認識結果を無効とする、請求項３に記載の音声認識端末。
音声を認識する音声認識が可能な音声認識端末と通信可能に設けられたサーバであって、
前記音声認識端末を介してユーザからの音声入力を受信する音声入力受信部と、
前記音声入力受信部で受信した音声入力に対して音声認識する音声認識部と、
前記音声入力受信部で受信した音声入力に対する音声認識結果に基づいて、前記音声認識端末に対して前記ユーザに対する応答処理の実行を指示する応答処理実行指示部とを備え、
前記応答処理実行指示部は、前記音声認識端末に対して前記音声認識端末が前記サーバの指示を選択的に利用して応答処理を実行する通常モードから、前記サーバの指示に従って前記音声認識端末が応答処理を実行するサーバモードに切り替わるように指示する、サーバ。
前記応答処理実行指示部は、
前記音声入力受信部で受け付けた音声入力に対する音声認識結果として前記ユーザからの所定情報の問い合わせの要求であるか否かを判断し、
前記所定情報の問い合わせの要求であると判断した場合には、当該所定情報を取得するためのデータが登録されているか否かを判断し、
判断結果に基づいて当該所定情報を取得するためのデータが登録されていない場合に、前記ユーザに対して前記データの入力を促す応答処理の実行を指示する、請求項５に記載のサーバ。
音声を認識する音声認識が可能な音声認識端末と通信可能に設けられたサーバの制御方法であって、
前記音声認識端末を介してユーザからの音声入力を受信するステップと、
受信した音声入力に対して音声認識するステップと、
受信した音声入力に対する音声認識結果に基づいて、前記音声認識端末に対して前記ユーザに対する応答処理の実行を指示するステップとを備え、
前記応答処理の実行を指示するステップは、前記音声認識端末が前記サーバの指示を選択的に利用して応答処理を実行する通常モードから、前記音声認識端末が前記サーバの指示に従って応答処理を実行するサーバモードに切り替わるように指示するステップを含む、サーバの制御方法。
音声を認識する音声認識が可能なサーバと、
前記サーバと通信可能に設けられた音声認識端末とを備え、
前記音声認識端末は、
ユーザからの音声入力を受け付ける音声入力受付部と、
前記音声入力受付部で受け付けた音声入力に対して音声認識する音声認識部と、
前記音声入力受付部で受け付けた音声入力に対する音声認識結果に基づいて前記ユーザに対する応答処理を実行する応答処理実行部と、
前記サーバに前記音声入力受付部で受け付けた音声入力を送信し、前記サーバでの音声認識結果を受信する通信部とを含み、
前記音声認識部は、前記音声を認識するとともに当該認識の確度を示す信頼度を算出し、
前記応答処理実行部は、前記音声認識部による音声認識結果に含まれる信頼度に関し、後に得られた音声認識結果に含まれる信頼度が先に得られた音声認識結果に含まれる信頼度よりも大きい場合に、後に得られた音声認識結果に基づいて、前記ユーザに対する応答処理をさらに実行する、音声認識システム。
音声を認識する音声認識が可能なサーバと通信可能に設けられた音声認識端末のコンピュータにおいて実行される制御プログラムであって、
前記制御プログラムは、前記コンピュータに対して、
ユーザからの音声入力を受け付けるステップと、
受け付けた音声入力に対して音声認識するステップと、
受け付けた音声入力に対する音声認識結果に基づいて前記ユーザに対する応答処理を実行するステップと、
前記サーバに受け付けた音声入力を送信し、前記サーバでの音声認識結果を受信するステップとを備え、
前記音声認識するステップは、前記音声を認識するとともに当該認識の確度を示す信頼度を算出するステップを含み、
前記応答処理を実行するステップは、前記音声認識するステップによる音声認識結果に含まれる信頼度に関し、後に得られた音声認識結果に含まれる信頼度が先に得られた音声認識結果に含まれる信頼度よりも大きい場合に、後に得られた音声認識結果に基づいて、前記ユーザに対する応答処理をさらに実行する、音声認識端末の制御プログラム。
音声を認識する音声認識が可能な音声認識端末と通信可能に設けられたサーバのコンピュータにおいて実行される制御プログラムであって、
前記制御プログラムは、前記コンピュータに対して、
前記音声認識端末を介してユーザからの音声入力を受信するステップと、
受信した音声入力に対して音声認識するステップと、
受信した音声入力に対する音声認識結果に基づいて、前記音声認識端末に対して前記ユーザに対する応答処理の実行を指示するステップとを備え、
前記応答処理の実行を指示するステップは、前記音声認識端末が前記サーバの指示を選択的に応答処理を実行する通常モードから、前記音声認識端末が前記サーバの指示に従って応答処理を実行する、サーバの制御プログラム。
音声を認識する音声認識が可能なサーバと通信可能に設けられた音声認識端末の制御方法であって、
ユーザからの音声入力を受け付けるステップと、
受け付けた音声入力に対して音声認識するステップと、
受け付けた音声入力に対する音声認識結果に基づいて前記ユーザに対する応答処理を実行するステップと、
前記サーバに受け付けた音声入力を送信し、前記サーバでの音声認識結果を受信するステップとを備え、
前記音声認識するステップは、前記音声を認識するとともに当該認識の確度を示す信頼度を算出するステップを含み、
前記応答処理を実行するステップは、前記音声認識するステップによる音声認識結果に含まれる信頼度に関し、後に得られた音声認識結果に含まれる信頼度が先に得られた音声認識結果に含まれる信頼度よりも大きい場合に、後に得られた音声認識結果に基づいて、前記ユーザに対する応答処理をさらに実行する、音声認識端末の制御方法。