JP5973030B2

JP5973030B2 - 音声認識システム、および音声処理装置

Info

Publication number: JP5973030B2
Application number: JP2015103920A
Authority: JP
Inventors: 戸嶋　朗; 朗戸嶋; 一則安田; 赤羽　俊夫; 俊夫赤羽; 毅築地; 平田　真章; 真章平田; 千葉　雅裕; 雅裕千葉
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2015-05-21
Filing date: 2015-05-21
Publication date: 2016-08-17
Anticipated expiration: 2033-03-19
Also published as: JP2015146055A

Description

本発明は、ユーザの音声に対応する処理を実行する音声認識システム等に関する。

従来、自動的に会話等の処理を行うロボットが普及している。特に、近年では、会話だけではなく、ユーザの音声に対応して自動的に様々な処理を実行するロボットも存在する。また、スマートフォンを介して制御可能なロボットや、カメラを備え、撮影した画像を、ネットワークを介してスマートフォンに送信するロボットも存在する。

ＳＨＡＲＰロボット家電（電気掃除機）取扱説明書RX-V100 ２０１２年

上述したロボット（ロボット家電）では、ロボット単体でユーザとの会話を実行するため、認識可能な語彙が限定的であったり、ユーザの音声を正確に認識できなかったりする可能性がある。

本発明は、上記問題点に鑑みてなされたものであり、その目的は、認識可能な語彙を増加させるとともに、認識の精度を向上させた音声認識システム等を実現することにある。

上記の課題を解決するために、本発明の一態様に係る音声認識システムは、音声を取得し、取得した音声に対する音声認識処理を行う音声処理装置と、該音声処理装置と通信可能なサーバとにより構成された音声認識システムであって、上記音声処理装置には、上記取得した音声の音声認識処理を行う第１音声認識手段と、上記取得した音声を上記サーバに送信する音声送信手段と、上記サーバから、上記サーバによる上記音声の音声認識処理の結果である第２認識結果および該第２認識結果に対応付けられた音声応答処理内容を取得する音声認識結果取得手段と、上記第１音声認識手段が音声認識処理を行った結果である第１認識結果に対応付けられた応答を音声出力すると共に、上記音声認識結果取得手段が上記サーバから取得した、上記第２認識結果に対応付けられた上記音声応答処理内容を音声出力する音声対応手段と、が備えられており、上記サーバには、上記音声処理装置が取得した音声を受信する音声受信手段と、上記音声受信手段が受信した上記音声の音声認識処理を行い、上記第２認識結果を生成する第２音声認識手段と、上記第２音声認識手段が音声認識処理を行った結果である上記第２認識結果を上記音声処理装置に送信する音声認識結果送信手段と、が備えられており、さらに、上記音声処理装置は、スリープ機能を有しており、上記スリープ機能が設定されている場合、上記音声送信手段は、上記音声送信手段が取得した上記音声を上記サーバに送信せず、上記音声対応手段は、上記第１音声認識手段が音声認識処理を行った結果である上記第１認識結果に対応付けられた応答を音声出力することを特徴としている。

本発明の一態様によれば、認識可能な語彙を増加させるとともに、認識の精度を向上させた音声認識システム等を実現することができるとともに、サーバにユーザが意図しない音声が通知されてしまうことを防止することができるという効果を奏する。

本発明の実施形態に係る情報処理装置の要部構成を示すブロック図である。本発明の実施形態に係る音声応答システムの概要を示す図である。本発明に実施形態に係る音声認識サーバ、配信サーバ、および双方向通信サーバの要部構成を示すブロック図である。上記情報処理装置に格納されている音声テーブルの例を示す図である。（ａ）、（ｂ）は、上記配信サーバに格納されている会話テーブルの例を示す図である。上記実施形態における処理の例を一覧としてまとめた図である。（ａ）、（ｂ）は、上記音声認識サーバにおいて合成音声を生成する場合における、配信情報と生成する音声との対応例を示す図である。上記音声応答システムにおける処理の流れを示すシーケンス図である。上記音声応答システムにおける処理の流れを示すシーケンス図である。本発明の別の実施形態に係る音声認識部の要部構成を示すブロック図である。上記別の実施形態において、音声に応じて認識閾値を変える場合の処理の流れを示すフローチャートである。上記別の実施形態において、音声に応じて認識閾値を変える場合の処理の流れを示すフローチャートである。上記別の実施形態において用いる判定テーブルの例を示す図である。本発明のさらに別の実施形態において、ユーザが情報処理装置に話しかけたときに、情報処理装置が発話する処理の流れを示すシーケンス図である。上記別の実施形態において、情報処理装置の近傍に人を検知したときに、情報処理装置が発話する処理の流れを示すシーケンス図である。上記別の実施形態において、情報処理装置から呼びかけを行う場合における情報処理装置の発話処理の流れを示すシーケンス図である。

〔実施形態１〕
〔音声応答システム１００の概要〕
以下、本発明の一実施形態について、図１〜図９を参照して説明する。まず、図２を参照して、本実施形態に係る音声応答システム１００の概要を説明する。図２は、音声応答システム１００の概要を示す図である。

図２に示すように、本実施形態に係る音声応答システム１００は、情報処理装置１、音声認識サーバ２、配信サーバ３、および双方向通信サーバ４を含む構成であり、情報処理装置１と、音声認識サーバ２、配信サーバ３、および双方向通信サーバ４とは通信可能となっている。本実施の形態では、情報処理装置１と音声認識サーバ２、配信サーバ３とは、ＨＴＴＰ（Hyper Text transfer Protocol）による通信を行い、情報処理装置１と双方向通信サーバ４とはＷｅｂＳｏｃｋｅｔによる双方向通信を行うことを想定している。

そして、本実施形態では、情報処理装置１と音声認識サーバ２との２装置で音声認識処理を行うことにより、従来であれば認識不可能であった語彙を認識可能とするとともに、認識の精度を向上させるものである。さらに、単に挨拶等を返すのみでなく、ユーザにとって有益となると考えられる情報を音声で出力するものである。

例えば、ユーザが情報処理装置１に対し「おはよう」と呼びかけると、ユーザに対し、「おはよう」と返事を行うとともに、付加情報（例えば、「今日は晴れだよ。」、「今日は燃えるゴミの日だよ。」等）を音声で出力するものである。

おおまかな処理の流れとしては、以下の通りである。情報処理装置１は検知した音声を認識処理するとともに、音声データを音声認識サーバ２に送信する。ここで、情報処理装置１が「おはよう」の認識に成功すれば、「おはよう」と音声で出力する。さらに、音声認識サーバ２は認識した音声を情報処理装置１に通知するとともに、配信サーバ３に通知する。ここでは、音声認識サーバ２から取得した認識結果は、自装置で認識した結果と同じなので、情報処理装置１は何もしない。

一方、配信サーバ３は音声認識サーバ２が認識した音声と対応する情報を出力させるためのコマンドを送信する指示を双方向通信サーバ４に行う。双方向通信サーバ４は、該情報を出力するためのコマンドを情報処理装置１に送信する。情報処理装置１は、受信したコマンドが示す音声を予め格納しており、該コマンドを受信して、音声（例えば、「今日は晴れだよ」）を出力する。

〔音声応答システム１００の詳細〕
〔情報処理装置１〕
次に、音声応答システム１００の詳細について、説明する。まず、情報処理装置１について、図１を参照して説明する。図１は、情報処理装置１の要部構成を示すブロック図である。図１に示すように、情報処理装置１は、制御部１０、記憶部１１、マイク１２、スピーカ１３、およびＩＲ部１４を含む構成である。

マイク１２は、外部からの音声等を電気信号に変換して通信部２１、音声認識部２２に通知するものである。スピーカ１３は、出力処理部２３から通知された音声情報を音声として外部に出力するものである。ＩＲ部１４は、動作処理部２４から通知された動作指示情報に基づいて、外部機器（テレビ、エアコン等）を制御するための赤外線（信号）を出力するものである。

記憶部１１は、情報処理装置１が使用する各種データを格納するものである。記憶部１１は、情報処理装置１の制御部１０が実行する（１）制御プログラム、（２）ＯＳプログラム、（３）各種機能を実行するためのアプリケーションプログラム、および、（４）該アプリケーションプログラムを実行するときに読み出す各種データを記憶するものである。上記の（１）〜（４）のデータは、例えば、ＲＯＭ（read only memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable ROM）、ＥＥＰＲＯＭ（登録商標）（Electrically EPROM）、ＨＤＤ（Hard Disc Drive）等の不揮発性記憶装置に記憶される。

また、記憶部１１には、後述する出力処理部２３が用いる音声テーブル３１が格納されている。音声テーブル３１の例を図４に示す。図４に示すように、音声テーブル３１には、音声ＩＤと出力する音声とが対応づけられたものである。図４に示す例では、音声ＩＤ“１０１”に音声“今日は曇り時々雨だよ”が対応付けられ、音声ＩＤ“２０１”に音声“傘を持って行った方がいいよ”が対応づけられている。以下、同様である。

制御部１０は、音声認識処理、出力処理、動作処理を含む情報処理装置１の機能を統括して制御するものであり、通信部２１、音声認識部２２、出力処理部２３、および動作処理部２４を含む。

通信部２１は、外部サーバ（音声認識サーバ２、配信サーバ３、双方向通信サーバ４）との通信を行うものである。なお、外部サーバとは、音声認識サーバ２、配信サーバ３、および双方向通信サーバ４を含むサーバの総称である。上述したように本実施形態では、音声認識サーバ２、および配信サーバ３とはＨＴＴＰによる通信、双方向通信サーバ４とはＷｅｂＳｏｃｋｅｔによつ双方向通信により通信している。

より詳細には、通信部２１は、（１）マイク１２から通知された音声データの音声認識サーバ２への送信、（２）音声認識サーバ２による音声認識処理を求める音声認識要求の配信サーバ３への送信、（３）配信サーバ３からの音声認識結果の受信、（４）音声認識サーバ２により生成された音声データの受信、（５）双方向通信サーバ４から音声再生指示の受信を行う。

音声認識部２２は、マイク１２から通知された音声データの音声認識を行い、認識した結果を出力処理部２３に通知する。なお、音声認識処理そのものは従来技術を用いて可能であるので、説明は省略する。

出力処理部２３は、音声認識部２２から通知された音声認識結果に基づく音声出力処理、通信部２１から通知された、双方向通信サーバ４から送信された音声再生指示に基づく音声出力処理、通信部２１から通知された、配信サーバ３から送信された音声認識結果に基づく音声出力処理を行う。なお、具体的な処理の内容については後述する。

また、出力処理部２３は、音声認識部２２から通知された音声認識結果、または配信サーバ３から送信された音声認識結果を動作処理部２４に通知する。

動作処理部２４は、出力処理部２３から通知された音声認識結果に基づいて、情報処理装置１が動作すべき内容を決定し、決定した動作を行うための処理を実行する。例えば、テレビ、エアコン等の家電を制御する動作を行う場合、ＩＲ部１４に対し、テレビ、エアコンを制御するための赤外線信号を送信させるための指示を通知する。

〔外部サーバ（音声認識サーバ２、配信サーバ３、双方向通信サーバ４）〕
次に、音声認識サーバ２、配信サーバ３、および双方向通信サーバ４の要部構成について、図３を参照して説明する。図３は、音声認識サーバ２、配信サーバ３、および双方向通信サーバ４の要部構成を示すブロック図である。

図３に示すように、音声認識サーバ２は、音声認識部６１および合成音声生成部６２を含む。また、配信サーバ３は、記憶部５１、応答判断処理部５２、音声認識要求取得部５３、配信情報取得部５４、および出力部５５を含む。

音声認識サーバ２は、音声認識処理および合成音声の生成処理を行うものである。

音声認識部６１は、配信サーバ３から通知された音声認識要求に基づいて、情報処理装置１から通知された音声データの音声認識処理を実行する。そして、音声認識結果を配信サーバ３に通知する。

合成音声生成部６２は、配信サーバ３から通知された配信情報に基づいて、通知すべき内容を示す合成音声を生成し、音声ＩＤと対応づけて情報処理装置１に通知する。

生成する合成音声の例について、図７を参照して説明する。図７は、配信情報と生成する音声とを対応例を示す図である。図７（ａ）に示すように、例えば、配信情報が「晴れ」というものであれば、合成音声として「いい天気だね、洗濯日和だよ」を生成する。また、配信情報が「晴れ一時雨」というものであれば、合成音声として「傘を持って行った方がいいよ」を生成する。以下、同様である。

また、図７（ｂ）に示すように、配信情報が「最低気温（明日）０°以下」というものであれば、合成音声として「今夜はすごく寒くなるよ」を生成する。以下、同様である。

配信サーバ３は、再生すべき音声を決定し、その指示をするものである。

記憶部５１は、会話テーブル５６等、配信サーバ３で用いる情報を記憶している。会話テーブル５６は、音声認識された内容、再生すべき音声、再生条件を対応付けたものである。会話テーブル５６の例を図５（ａ）、（ｂ）に示す。図５（ａ）の会話テーブル５６Ａに示すように、認識された音声を示すＩＤ（認識音声ＩＤ）と再生すべき音声のカテゴリとが対応付けられているとともに、図５（ｂ）の会話テーブル５６Ｂに示すように、カテゴリと再生すべき音声を示す音声ＩＤ、条件が対応付けられている。

例えば、火曜日の朝９時に認識された音声が「おはよう」であれば、再生すべき音声として対応するものは、認識音声ＩＤ“２１（おはよう）”と対応する“天気＋生活”のうち、音声ＩＤ“１０１「今日の天気は曇時々雨だよ」”、“２０１「傘を持って行った方がいいよ」”、“４０１「今日は燃えるゴミの日だよ」”となる。

また、会話テーブル５６Ｂに優先順位を対応付け、優先順位が高いものがまず選択されるようにしてもよい。

例えば、電車の遅延を示す通知の優先順位を最も高くし、どのような状況であっても、まず、電車の遅延を通知するというものであってもよい。

また、同じ内容の情報について、詳細情報と簡易情報とで対応付ける時間の条件を変えるという構成であってもよい。例えば、「６時」に対応づけられている天気予報は詳細情報で、「７時半」に対応づけられている天気予報は簡易情報というようにしてもよい。

また、再生指示の履歴と優先順位を利用して生成すべき通知を応答判断しても良い。すなわち、優先度の高いものを通知した後に同じ問いかけがあった場合は、履歴を見て既に生成した通知とは異なる音声を再生指示するように判断しても良い。

これにより、ユーザに対して同じ返答が繰り返されることを避けることができる。例えば、「おはよう」に対し「優先順位高：天気情報」「優先順位中：路線情報」「優先順位低：ゴミ情報」が対応付けられていると仮定する。この場合に、「おはよう」という音声を検知し、「天気情報」について通知した後、再度「おはよう」という音声を検知した場合、履歴を確認し、「天気予報」について再度配信することなく、例えば「路線情報」を通知する。

また、音声認識サーバ２で「もう一度」という問いかけを認識した場合は、履歴を確認し、一定時間内の最新の音声を再生指示しても良い。これにより、ユーザが聞き取れなかった場合、同じ配信情報をユーザに通知することができる。

また、情報処理装置１で「もう一度」という問いかけを認識した場合は、履歴を確認し、一定時間以内の再生内容をもう一度再生しても良い。これにより、ユーザが聞き取れなかった場合に、同じ配信情報をユーザに通知することを、情報処理装置１単体で実行することができる。

応答判断処理部５２は、会話テーブル５６を用いて、音声認識サーバ２から通知された音声認識結果と対応する再生音声を決定し、再生すべき音声を示す音声ＩＤを双方向通信サーバ４に通知する。

音声認識要求取得部５３は、情報処理装置１から通知された音声認識要求を音声認識サーバ２に通知する。

配信情報取得部５４は、外部機器より配信情報（ニュース、天気予報、交通情報等）を取得し、その内容を音声認識サーバ２に通知する。

出力部５５は、音声認識サーバ２から通知された音声認識結果を情報処理装置１に通知する。

双方向通信サーバ４は、情報処理装置１と常時接続し、音声の再生指示等を送信する。

〔音声応答システム１００における処理の流れ〕
次に、図８、９を参照して音声応答システム１００における処理の流れについて説明する。図８、９は、音声応答システム１００における処理の流れを示すシーケンス図である。

〔合成音声格納処理〕
本実施形態に係る音声応答システム１００では、情報処理装置１より発話される合成音声が、予め音声認識サーバ２で生成され、情報処理装置１に格納されている。まず、この予め合成音声が格納される処理の流れについて、図８を参照して説明する。

図８に示すように、配信サーバ３の配信情報取得部５４が、外部機器から配信情報を取得すると（Ｓ８０１）、配信情報取得部５４は、取得した配信情報を音声認識サーバ２の合成音声生成部６２に通知する（Ｓ８０２）。

配信情報を取得した合成音声生成部６２は、上述したように、配信情報に基づいて再生すべき合成音声を生成する（Ｓ８０３）。そして、生成した合成音声に再生音声ＩＤを付し、再生音声ＩＤを配信サーバ３に通知する（Ｓ８０４）。

再生音声ＩＤを通知された配信サーバ３は、双方向通信サーバ４に通知し（Ｓ８０５）、双方向通信サーバ４は、双方向通信にて情報処理装置１に再生音声ＩＤを通知する（Ｓ８０６）。

再生音声ＩＤを取得した情報処理装置１は、音声認識サーバ２に対し当該再生音声ＩＤが示す合成音声の送信を求める合成音声送信指示を音声認識サーバ２に通知し（Ｓ８０７）、合成音声を取得する（Ｓ８０８）。

そして、情報処理装置１は、再生音声ＩＤと合成音声とを対応付けて記憶する（Ｓ８０９）。以上で、合成音声を情報処理装置１に格納する処理が終了する。

〔応答処理〕
次に、ユーザが情報処理装置１に対し何らかの発話を行った場合の処理の流れについて、図９を参照して説明する。

図９に示すように、情報処理装置１において音声を検知すると（Ｓ９０１）、通信部２１は、検知した音声を示す音声データを音声認識サーバ２に通知する（Ｓ９０２）とともに、音声認識要求を配信サーバ３に通知する（Ｓ９０３）。そして、配信サーバ３は、通知された音声認識要求を音声認識サーバ２に通知する（Ｓ９０４）。音声認識要求を通知された音声認識サーバ２は、情報処理装置１から通知された音声データの音声認識処理を実行する（Ｓ９０５）。

また、通信部２１の処理と並行して、音声認識部２２は、検知した音声の音声認識処理を実行する（Ｓ９０６）。

音声認識部２２による音声認識処理が成功し、かつ、即答すべき音声がある場合、出力処理部２３は、即答すべき音声をスピーカ１３から出力させる（Ｓ９０７）。例えば、「おはよう」に対し「おはよう」と応える挨拶等は、即答すべき音声となる。

一方、音声認識サーバ２の音声認識部６１で実行されていた音声認識処理の結果も、音声認識サーバ２から配信サーバ３に通知され（Ｓ９０８）、配信サーバ３から情報処理装置１に通知される（Ｓ９０９）。音声認識結果は、認識できた音声そのものを通知するのではなく、認識できた音声を示すＩＤを通知する。

ここで、情報処理装置１の出力処理部２３は、音声認識サーバ２から通知された音声認識結果が、音声認識部２２に実行した音声認識結果と同じであれば、何の処理も行わない。また、ステップＳ９０６での音声認識処理で音声認識ができず、音声認識サーバ２において音声認識処理が成功した場合は、音声認識サーバ２からの音声認識結果が通知されたときに、出力処理部２３は、即答すべき音声をスピーカ１３から出力させる（Ｓ９０７’）。

なお、音声認識部２２による音声認識結果と音声認識サーバ２による音声認識結果とが異なる場合は、音声認識部２２を優先させてもよいし、音声認識部２２による音声認識結果に対応した音声を出力後、音声認識サーバ２による音声認識結果に対応した音声を、訂正音声とともに出力してもよい（例えば、音声認識部２２において「おはよう」と認識し、音声認識サーバ２において「おやすみ」と認識した場合、「おはよう」と出力し、その後、「さっきは間違えたよ。おやすみ」というようにする）。

また、ステップＳ９０６での音声認識処理が終了する前に、ステップＳ９０９の音声認識結果を受信した場合は、受信した音声認識結果に対応する発話処理を行ってもよい。すなわち、先に取得した音声認識結果を用いて発話処理を行う構成であってもよい。

さらに、ステップＳ９０８で音声認識結果を通知された配信サーバ３は、応答判断処理部５２において、音声認識結果に対応する再生音声を決定する（Ｓ９１０）。そして、決定した再生音声を示す再生音声ＩＤを双方向通信サーバ４に通知し（Ｓ９１１）、双方向通信サーバ４は、情報処理装置１に対し再生音声ＩＤが示す音声を再生させる指示を通知する（Ｓ９１２）。

再生音声ＩＤを通知された情報処理装置１は、該再生音声ＩＤが示す音声を再生する（Ｓ９１３）。ここで再生される音声は、予め音声認識サーバ２によって生成されていた合成音声である。以上で、ユーザが何らかの発話を行った場合の処理が終了する。

〔付記事項１〕
上述した実施形態では、音声認識サーバ２において合成音声を生成する構成としたが、情報処理装置１に合成音声を生成する機能を持たせてもよい。これにより、音声認識サーバ２から合成音声が通知されてない場合であっても、情報処理装置１で生成した合成音声を出力することにより対応することができる。

〔付記事項２〕
また、上述した実施形態では、音声の内容に応じた処理を実行する構成を説明したが、これに限られず、音声の種類（男女、大人、子供、高齢者）に応じて、実行する処理を異ならせる（出力する音声の内容や口調（音声の高さや速さ等）を異ならせる）構成であってもよい。例えば、取得した音声が子供であれば、天気予報のみを通知し、大人の男性（父親）であれば、天気予報に加えて交通情報も通知し、大人の女性（母親）であれば、天気予報に加えて買い物情報も通知するという構成であってもよい。また、大人に対する通知は、やや早口（音声の速度大）で行い、高齢者に対する通知は、ゆっくり（音声の速度小）と行うという構成であってもよい。

〔小括〕
以上のように、本実施形態では、情報処理装置１と音声認識サーバ２との２つ装置で音声認識処理を行うとともに、認識した音声に対し即答すべき音声がある場合は、まず即答し、さらに、配信サーバ３で決定した再生音声を情報処理装置１で出力させるものである。検知した音声、これに対する応答、その他の条件の例を一覧としてまとめると図６のようになる。

図６に示すように、「おはよう」という音声を認識した場合は、即答すべき音声として「おはよう」をまず出力し、さらに、天気（「今日の天気は曇時々雨だよ」「傘を持って行った方がいいよ」）や、生活（「今日は燃えるゴミの日だよ」）の情報を示す再生音声を出力する。

また、認識可能な音声はあいさつに限られるものではなく、家電を制御するための指示（「エアコンつけて（消して）」）や、交通状況を尋ねるもの（「電車はどう？」）などであってもよい。

また、再生音声は、予め情報処理装置１に格納されている。これにより、双方向通信サーバ４から再生指示を送信するのみで再生音声を再生することが可能となり、ユーザの発話に対する応答を早めることができる。

〔実施形態２〕
本発明の他の実施形態について説明する。上述した実施形態では、音声認識サーバ２が音声認識処理を実行する場合について限定していない。これに対し、本実施形態では、音声認識サーバ２が音声認識する場合を制御するものである。

具体的には、音声認識部２２がスリープ機能を有し、スリープ機能がオンの状態、すなわち、検知した音声を音声認識サーバ２に通知しない場合は、音声認識部２２は、情報処理装置１で検知した音声を通信部２１が音声認識サーバ２に通知しないように制御するものである。

そして、特定の音声を検知したときに、スリープ機能をオフとし、情報処理装置１で検知した音声を通信部２１が音声認識サーバ２に通知するように制御する。

これにより、外部のサーバである音声認識サーバ２に、ユーザが意図しない音声が通知されてしまうことを防止することができる。

〔付記事項３〕
また、通信部２１が、情報処理装置１が検知した音声を音声認識サーバ２に送信する場合は、音や光等でユーザに対し報知する構成を備えていてもよい。これにより、ユーザに対し、発した音声が音声認識サーバ２に通知されていることを認識させることができる。

〔実施形態３〕
本発明のさらに他の実施形態について、図１０〜図１３に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

本実施形態は、音声に応じて認識閾値を変えるものである。例えば、挨拶のような音声であれば、認識閾値を低く設定して容易に会話が可能となるようにするとともに、家電の制御等の音声であれば、認識閾値を高く設定して、家電の誤動作を防止するものである。

〔音声認識部の構成〕
図１０に、本実施形態における音声認識部２２の要部構成を示す。図１０に示すように、音声認識部２２は、音声取得部２０１、音声判定部２０２、音声認識処理部２０３、確度算出部２０４、対話処理実行部２０５、認識結果決定部２０６、および判定テーブル２０７を含む。

判定テーブル２０７の例を図１３に示す。図１３に示すように、判定テーブル２０７は、認識フレーズ（認識した音声）、認識番号、認識した音声に対応する動作、認識確度閾値、対話確認要否、および対話確認フレーズが対応付けられたテーブルである。例えば、認識した音声が「おはよう」であれば、認識番号が「１０」、認識した音声に対応する動作が「おはよう音声再生」、認識確度閾値が「６０」、対話確認要否が「不要」、対話確認フレーズが「無し」と対応付けられている。また、認識した音声が「エアコンつけて」であれば、認識番号が「１４」、認識した音声に対応する動作が「エアコンＯＮ」、認識確度閾値が「８０」、対話確認要否が「要」、および対話確認フレーズが「エアコンつけてもいい？」と対応付けられている。これ以外のものについても同様である。

これにより、音声に対応して、認識確度閾値、および対話確認要否を設定することができるので、音声の内容に応じて認識の精度を変えることができる。図１３に示す判定テーブル２０７のように設定すれば、単なる挨拶については、認識の精度が多少低くても、会話を成立させることができるとともに、清掃を実行させる場合は、認識精度が少し上げて確実なものとすることができ、さらに、エアコンの制御のように重要なものは認識の精度を上げるだけでなく、再確認を求めることにより、さらに確実性を向上させることができる。

音声取得部２０１は、マイク１２から音声データを取得し、音声判定部２０２に通知する。音声判定部２０２は、通知された音声データが、人による発話なのか、単なる物音なのかを判定する。具体的には、音声データが示す音声の大きさ、周波数および長さが閾値を超える場合を音声と判定する。そして、音声と判定した音声データを音声認識処理部２０３に通知する。

音声認識処理部２０３は、通知された音声データについて音声認識処理を実行し、音声認識結果を確度算出部２０４に通知する。確度算出部２０４は、音声認識処理部２０３が実行した音声認識処理の認識確度を算出し対話処理実行部２０５に通知する。なお、認識確度とは、認識結果となりえる複数の候補との比較が可能な相対的な値あるいは、認識結果を絶対的に判断する値を算出することにより、音声認識した結果がどのくらい確からしいかを示す数値である。

対話処理実行部２０５は、判定テーブル２０７を用いて、音声認識処理部２０３が認識処理を実行した結果である認識音声について、確度算出部２０４が算出した認識確度が閾値を超えているかと判定するとともに、対話確認が必要か否かを判定する。そして、対話確認が必要と判定した場合は、対話処理を実行する。具体的には、判定テーブル２０７において対応付けられている対話確認フレーズを出力させ、回答を確認する。そして、対話処理の結果を認識結果決定部２０６に通知する。

認識結果決定部２０６は、対話処理実行部２０５の結果に基づいて、認識結果を決定し、出力する。

〔処理の流れ〕
次に、音声に応じて認識閾値を変える場合の処理の流れについて、図１１、図１２を参照して説明する。図１１、図１２は、音声に応じて認識閾値を変える場合の処理の流れを示すフローチャートである。

図１０に示すように、情報処理装置１が音声を検知すると（Ｓ１１０１）、音声判定部２０２は、音声の大きさ、長さが所定値以上か否かを判定する（Ｓ１１０２）。音声の大きさおよび長さが所定値以上であれば（Ｓ１１０２でＹＥＳ）、音声認識処理部２０３は音声認識処理を実行する（Ｓ１１０３）。そして、音声認識処理が成功すれば（Ｓ１１０４でＹＥＳ）、音声認識部２２は動作テーブルを読み込み（Ｓ１１０５）、対話処理実行部２０５は認識確度が閾値を超えているか否かを判定する（Ｓ１１０６）。

そして、認識確度が閾値を超えていれば、確度算出部２０４は、対話確認の要否を判定し（Ｓ１１０７）、必要であれば（Ｓ１１０７でＹＥＳ）、対話確認処理を実行する（Ｓ１１０８）。対話確認処理の詳細については後述する。そして、対話確認処理が終了すると、または対話確認が不要の場合（Ｓ１１０７でＮＯ）、認識した音声に対応する動作を実行する（Ｓ１１０９）。

対話確認処理の流れについて、図１２を参照して説明する。対話処理実行部２０５は、まず、出力処理部２３を介し、スピーカ１３から対話確認フレーズを出力させる（Ｓ１２０１）。そして、音声を検知すると（Ｓ１２０２）、音声判定部２０２が検知した音声の大きさ、および長さが所定値以上か否かを判定する（Ｓ１２０３）。音声の大きさ、および長さが所定値以上であれば（Ｓ１２０３でＹＥＳ）、音声認識処理部２０３は音声認識処理を実行する（Ｓ１２０４）。音声認識処理に成功すると（Ｓ１２０５でＹＥＳ）、対話処理実行部２０５は、音声の内容が肯定回答か否かを判定し（Ｓ１２０６）、肯定回答であれば（Ｓ１２０６でＹＥＳ）、ステップＳ１１０９に進む。一方、否定回答であれば（Ｓ１２０６でＮＯ）、ステップＳ１１０１へ戻る。以上が、対話処理の流れである。

〔実施形態４〕
本発明のさらに他の実施形態について、図１４に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

本実施形態では、情報処理装置１が音声を出力するタイミングについて、ユーザが情報処理装置１に話しかけたときとなっている。具体的な処理の流れについて図１４を参照して説明する。図１４は、ユーザが情報処理装置１に話しかけたときに、情報処理装置１が発話する処理の流れを示すシーケンス図である。

図１４に示すように、まず、情報処理装置１に合成音声が格納される（Ｓ１４０１〜Ｓ１４０４、図８に示す合成音声の格納処理と同様）。なお、合成音声の格納は必須ではない。

そして、情報処理装置１において音声を検知すると（Ｓ１４０５）、音声データが情報処理装置１から音声認識サーバ２に通知される（Ｓ１４０６）とともに、音声認識要求が情報処理装置１から配信サーバ３に通知され（Ｓ１４０７）、配信サーバ３から音声認識サーバ２へ通知される（Ｓ１４０８）。そして、音声認識サーバ２において音声認識処理が実行される（Ｓ１４０９）。そして、音声認識処理の結果、音声であると判定されると、音声認識結果が音声認識サーバ２から配信サーバ３に通知され（Ｓ１４１１）、配信サーバ３から情報処理装置１に通知される（Ｓ１４１２）。

音声認識結果を通知された情報処理装置１は、音声認識結果に対応した動作（光る、振動する等）を行う（Ｓ１４１３）。さらに、配信サーバ３から双方向通信サーバ４に音声再生指示が通知され（Ｓ１４１４）、双方向通信サーバ４から情報処理装置１に音声再生指示が通知されると（Ｓ１４１５）、情報処理装置１は音声を出力（発話）する（Ｓ１４１６）。

なお、音声認識処理を情報処理装置１でも行う（Ｓ１４１０）構成であってもよい。

〔実施形態５〕
本発明のさらに他の実施形態について、図１５に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

本実施形態では、情報処理装置１が音声を出力するタイミングについて、情報処理装置１の近傍に人を検知したときとなっている。具体的な処理の流れについて図１５を参照して説明する。図１５は、情報処理装置１の近傍に人を検知したときに、情報処理装置１が発話する処理の流れを示すシーケンス図である。

図１５に示すように、まず、情報処理装置１に合成音声が格納される（Ｓ１５０１〜Ｓ１５０４、図８に示す合成音声の格納処理と同様）。なお、合成音声の格納は必須ではない。

そして、情報処理装置１において音声を検知すると（Ｓ１５０５）、音声データが情報処理装置１から音声認識サーバ２に通知される（Ｓ１５０６）とともに、音声認識要求が情報処理装置１から配信サーバ３に通知され（Ｓ１５０７）、配信サーバ３から音声認識サーバ２へ通知される（Ｓ１５０８）。そして、音声認識サーバ２において音声認識処理が実行される（Ｓ１５０９）。そして、音声認識処理の結果、人の存在（気配）を示す音であると判定されると、音声認識結果が音声認識サーバ２から配信サーバ３に通知され（Ｓ１５１１）、配信サーバ３から双方向通信サーバ４に音声再生指示が通知され（Ｓ１５１２）、双方向通信サーバ４から情報処理装置１に音声再生指示が通知される（Ｓ１５１３）。そして、情報処理装置１は音声を出力（発話）する（Ｓ１５１４）。

なお、音声認識処理を情報処理装置１でも行う（Ｓ１５１０）構成であってもよい。

〔実施形態６〕
本発明のさらに他の実施形態について、図１６に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

本実施形態では、情報処理装置１が音声を出力するタイミングについて、情報処理装置１から呼びかけを行い、呼びかけに対する応答があった場合となっている。具体的な処理の流れについて図１６を参照して説明する。図１６は、情報処理装置１から呼びかけを行う場合における情報処理装置１の発話処理の流れを示すシーケンス図である。

図１６に示すように、まず、情報処理装置１に合成音声Ａが格納される（Ｓ１６０１〜Ｓ１６０４、図８に示す合成音声の格納処理と同様）。なお、合成音声Ａの格納は必須ではない。

さらに、音声認識サーバ２から情報処理装置１に合成音声Ｂ（呼びかけ用の音声）が通知され、情報処理装置１に格納される（Ｓ１６０５）。

そして、配信サーバ３から双方向通信サーバ４に呼びかけ指示（呼びかけ用の合成音声を再生させる指示）が通知され（Ｓ１６０６）、双方向通信サーバ４から情報処理装置１に呼びかけ指示が通知される（Ｓ１６０７）。この呼びかけ指示は、ランダムに実行されてもよいし、定期的に実行されるものであってもよい。また、優先順位の高い内容については、その呼びかけ指示の頻度を高くしても良い。

呼びかけ指示が通知された情報処理装置１は、呼びかけ用音声（合成音声Ｂ）を出力する（Ｓ１６０８）。

そして、情報処理装置１において音声を検知すると（Ｓ１６０９）、音声データが情報処理装置１から音声認識サーバ２に通知される（Ｓ１６１０）とともに、音声認識要求が情報処理装置１から配信サーバ３に通知され（Ｓ１６１１）、配信サーバ３から音声認識サーバ２へ通知される（Ｓ１６１２）。そして、音声認識サーバ２において音声認識処理が実行される（Ｓ１６１３）。そして、音声認識処理の結果、呼びかけに対して応答している音声であると判定すると、音声認識結果が音声認識サーバ２から配信サーバ３に通知され（Ｓ１６１５）、配信サーバ３から双方向通信サーバ４に音声再生指示が通知され（Ｓ１６１６）、双方向通信サーバ４から情報処理装置１に音声再生指示が通知される（Ｓ１６１７）。そして、音声再生指示が通知された情報処理装置１は音声を出力（発話）する（Ｓ１６１８）。

なお、音声認識処理を情報処理装置１でも行う（Ｓ１６１４）構成であってもよい。

〔実施形態７〕
情報処理装置１、音声認識サーバ２、配信サーバ３、および双方向通信サーバ４の制御ブロック（制御部１０（通信部２１、音声認識部２２、出力処理部２３、動作処理部２４）、応答判断処理部５２、音声認識要求取得部５３、配信情報取得部５４、出力部５５）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、情報処理装置１、音声認識サーバ２、配信サーバ３、双方向通信サーバ４は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る音声認識システム（音声応答システム１００）は、音声を取得し、取得した音声に対応した処理を行う音声処理装置（情報処理装置１）と、該音声処理装置と通信可能なサーバ（音声認識サーバ２、配信サーバ３、双方向通信サーバ４）とにより構成された音声認識システムであって、上記音声処理装置には、上記取得した音声の認識処理を行う第１音声認識手段（音声認識部２２）と、上記取得した音声を上記サーバに送信する音声送信手段（通信部２１）と、上記サーバから上記音声の認識結果を取得する音声認識結果取得手段（通信部２１）と、上記第１音声認識手段が認識処理を行った結果である第１認識結果と、上記音声認識結果取得手段が取得した、上記サーバによる音声認識処理の結果である第２認識結果とに基づいて、該音声に対応した処理を実行する音声対応手段（出力処理部２３）と、が備えられており、上記サーバには、上記音声処理装置が取得した音声を受信する音声受信手段（音声認識部６１）と、上記音声受信手段が受信した上記音声の認識処理を行う第２音声認識手段（音声認識部６１）と、上記第２音声認識手段が認識処理を行った結果を上記音声処理装置に送信する音声認識結果送信手段（出力部５５）と、が備えられていることを特徴としている。

上記の構成によれば、音声処理装置が取得した音声について、音声処理装置とサーバとの両方で認識処理を行うことができる。よって、音声処理装置のみで音声認識を行う場合と比較して、音声認識可能な語彙数を増加させることができる。また、サーバにより音声認識可能な語彙を更新することにより、音声認識可能な語彙の常に最新とすることもできる。また、サーバにより音声認識可能な語彙のみ更新すればよいので更新が容易となる。

また、音声処理装置とサーバとの両方で音声認識処理を行うことにより、音声認識そのものの精度も向上させることができる。

なお、音声対応手段が実行する処理としては、例えば、音声による応答が挙げられる。

本発明の態様２に係る音声認識システムでは、上記態様１において、上記サーバには、上記音声処理装置に実行させる、上記第２認識結果と対応する処理を決定する処理内容決定手段と、上記処理内容決定手段が決定した処理内容を上記音声処理装置に送信する処理内容送信手段と、が備えられ、上記音声処理装置の上記音声対応手段は、上記第１認識結果に対応した処理を実行した後、上記処理内容決定手段が決定した処理を実行するものであってもよい。

上記の構成によれば、音声対応手段が実行する処理を２段階に分けることができる。これにより、即応すべき処理とそうでない処理とを分けて実行することが可能となる。例えば、取得した音声が挨拶だった場合、返す挨拶は、即応すべき処理として音声処理装置が認識処理した結果に基づいて行い、サーバが認識処理した結果に基づいて付加情報を通知するということが可能となる。

本発明の態様３に係る音声認識システムでは、上記態様２において、上記処理内容決定手段は、上記処理内容が複数存在する場合に、それぞれの処理内容に優先順位を設定し、優先順位の高い処理内容を、上記音声処理装置に実行させる処理内容として決定するものであってもよい。

上記の構成によれば、優先順位に基づいて処理内容を決定することができるので、緊急性の高い処理を優先して処理することが可能となる。例えば、優先順位の高い処理として、電車の遅延情報の通知を設定すれば、まず、電車の遅延情報の通知を行うということができる。

本発明の態様４に係る音声認識システムでは、上記態様１〜３において、上記サーバには、上記音声処理装置に配信する情報を取得する配信情報取得手段と、上記配信情報取得手段が取得した配信情報を音声情報として出力するための合成音声を生成する合成音声生成手段と、上記合成音声生成手段が生成した合成音声を上記音声処理装置に送信する合成音声送信手段と、が備えられているものであってもよい。

上記の構成によれば、音声により配信情報を通知することができる。

本発明の態様５に係る音声認識システムでは、上記態様４において、上記合成音声送信手段は、上記音声処理装置の上記音声対応手段が処理を実行する前に、上記合成音声を該音声処理装置に送信するものであってもよい。

上記の構成によれば、合成音声が予め音声処理装置に格納されているので、合成音声の出力を行うとき、その都度、サーバから取得する場合と比較して、速やかに処理することができる。

本発明の態様６に係る音声認識システムは、上記態様１〜５において、上記第１音声認識手段、および上記第２音声認識手段は、認識結果の精度を示す認識結果精度が閾値を超えた場合、当該認識結果を自手段による認識処理の結果として出力するものであり、該閾値は、認識結果となる音声の内容によって異なるものであってもよい。

上記の構成によれば、音声の内容に応じて、認識結果の精度を示す認識結果精度の閾値を変えることができるので、重要と考えられる音声の認識処理を、より確実なものとすることができる。

本発明の態様７に係る音声認識システムでは、上記態様１〜６において、上記音声処理装置には、所定の条件を満たした場合、上記音声送信手段による音声の送信を許可する音声送信制御手段が備えられ、上記音声送信手段は、上記音声送信制御手段の許可があった場合のみ、上記音声を上記サーバに送信するものであってもよい。

上記の構成によれば、音声送信手段による音声の送信を制御することができるので、サーバに送信されることを意図していない音声が、サーバに送信されてしまうことを防止することができる。

本発明の態様８に係る音声認識システムでは、上記態様１〜７において、上記音声処理装置には、上記音声送信手段が上記音声を上記サーバに送信するときに、報知を行う報知手段が備えられているものであってもよい。

上記の構成によれば、音声がサーバに送信されていることを、ユーザに認識させることができる。

本発明の態様９に係る発話システムは、ユーザに対し発話する発話装置と、該発話装置と通信可能なサーバとにより構成された発話システムであって、上記発話装置には、音を取得する音取得手段と、上記音取得手段が取得した音を上記サーバに送信する音送信手段と、上記サーバから上記音の判定結果を取得する判定結果取得手段と、上記判定結果取得手段が取得した判定結果が、人がいることを示すものである場合、ユーザに対し発話を行う発話手段と、が備えられ、上記サーバには、上記発話装置が取得した音を受信する音受信手段と、上記音受信手段が取得した音が、人がいることを示すものであるか否かを判定する音判定手段と、上記音判定手段が判定した結果を上記発話装置に送信する判定結果送信手段と、が備えられていることを特徴としている。

上記の構成によれば、人がいることをサーバによって検知されたときに、発話するので、誰も人がいないときに発話してしまうということを防止することができる。

本発明の態様１０に係る発話システムは、ユーザに対し発話する発話装置と、該発話装置と通信可能なサーバとにより構成された発話システムであって、上記発話装置には、呼びかけを行う発話手段と、音声を取得する音声取得手段と、上記音声取得手段が取得した音声を上記サーバに送信する音声送信手段と、上記サーバから上記音声の認識結果を取得する認識結果取得手段と、が備えられ、上記サーバには、上記発話装置が取得した音声を受信する音声受信手段と、上記音声受信手段が取得した音声の認識処理を行う音声認識手段と、上記音声認識手段が認識した結果を上記発話装置に送信する認識結果送信手段と、が備えられ、上記発話装置の上記発話手段は、上記認識結果取得手段が取得した認識結果が、上記呼びかけに対応する返答であることを示すものである場合、ユーザに対し発話を行うことを特徴としている。

上記の構成によれば、呼びかけに対し返答があった場合に発話するので、誰も人がいないときに発話してしまうということを防止することができる。

本発明の態様１１に係る音声認識システムは、音声を取得し、取得した音声に対する音声認識処理を行う音声処理装置と、該音声処理装置と通信可能なサーバとにより構成された音声認識システムであって、上記音声処理装置には、上記取得した音声の音声認識処理を行う第１音声認識手段と、上記取得した音声を上記サーバに送信する音声送信手段と、上記サーバから、上記サーバによる上記音声の音声認識処理の結果である第２認識結果および該第２認識結果に対応付けられた音声応答処理内容を取得する音声認識結果取得手段と、上記第１音声認識手段が音声認識処理を行った結果である第１認識結果に対応付けられた応答を音声出力すると共に、上記音声認識結果取得手段が上記サーバから取得した、上記第２認識結果に対応付けられた上記音声応答処理内容を音声出力する音声対応手段と、が備えられており、上記サーバには、上記音声処理装置が取得した音声を受信する音声受信手段と、上記音声受信手段が受信した上記音声の音声認識処理を行い、上記第２認識結果を生成する第２音声認識手段と、上記第２音声認識手段が音声認識処理を行った結果である上記第２認識結果を上記音声処理装置に送信する音声認識結果送信手段と、が備えられており、さらに、上記音声処理装置は、スリープ機能を有しており、上記スリープ機能が設定されている場合、上記音声送信手段は、上記音声送信手段が取得した上記音声を上記サーバに送信せず、上記音声対応手段は、上記第１音声認識手段が音声認識処理を行った結果である上記第１認識結果に対応付けられた応答を音声出力する。

上記の構成によれば、サーバにユーザが意図しない音声が通知されてしまうことを防止することができる。

本発明の態様１２に係る音声認識システムは、上記態様１１において、上記音声処理装置は、上記スリープ機能の設定状態をユーザに報知するものであってもよい。

上記の構成によれば、ユーザに対し音声がサーバに通知されるか否かを認識させることができる。

本発明の態様１３に係る音声認識システムは、上記態様１２において、上記音声処理装置は、上記報知を光で行うものであってもよい。

上記の構成によれば、ユーザに対し音声がサーバに通知されていることを認識させることができる。

本発明の態様１４に係る音声認識システムは、上記態様１１〜１３の何れかにおいて、上記音声処理装置は、特定の音声を取得したときに上記スリープ機能を解除するものであってもよい。

上記の構成によれば、特定の音声を取得したときにスリープ機能をオフとすることができる。

本発明の態様１５に係る音声処理装置は、音声を取得し、取得した音声に対する音声認識処理を行う音声処理装置であって、上記取得した音声の音声認識処理を行う第１音声認識手段と、上記取得した音声を、自装置と通信可能なサーバに送信する音声送信手段と、上記サーバから、上記サーバによる上記音声の音声認識処理の結果である第２認識結果および該第２認識結果に対応付けられた音声応答処理内容を取得する音声認識結果取得手段と、上記第１音声認識手段が音声認識処理を行った結果である第１認識結果に対応付けられた応答を音声出力すると共に、上記音声認識結果取得手段が上記サーバから取得した、上記第２認識結果に対応付けられた上記音声応答処理内容を音声出力する音声対応手段と、を備え、さらに、取得した上記音声を上記音声送信手段が上記サーバに送信しないスリープ機能を有しており、上記スリープ機能が設定されている場合、上記音声送信手段は、上記音声送信手段が取得した上記音声を上記サーバに送信せず、上記音声対応手段は、上記第１音声認識手段が音声認識処理を行った結果である上記第１認識結果に対応付けられた応答を音声出力する。

上記の構成によれば、上記態様１１と同様の効果を奏する。

本発明の各態様に係る音声認識システム（音声処理装置、サーバ）は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声認識システムが備える各手段として動作させることにより上記音声認識システムをコンピュータにて実現させる音声認識しシステムの制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、人の発話を認識し、それに対して応答する音声認識システムに広く利用することができる。

１情報処理装置（音声処理装置、発話装置）
２音声認識サーバ（サーバ）
３配信サーバ（サーバ）
４双方向通信サーバ（サーバ、処理内容送信手段）
２１通信部（音声受信手段、音声送信手段、音声認識結果取得手段）
２２音声認識部（音声受信手段、第１音声認識手段、音声送信制御手段）
２３出力処理部（音声対応手段、発話手段）
５２応答判断処理部（処理内容決定手段）
５４配信情報取得部（配信情報取得手段）
５５出力部（音声認識結果送信手段）
６１音声認識部（第２音声認識手段）
６２合成音声生成部（合成音声生成手段、合成音声送信手段）
１００音声応答システム（音声認識システム、発話システム）

Claims

音声を取得し、取得した音声に対する音声認識処理を行う音声処理装置と、該音声処理装置と通信可能なサーバとにより構成された音声認識システムであって、
上記音声処理装置には、
上記取得した音声の音声認識処理を行う第１音声認識手段と、
上記取得した音声を上記サーバに送信する音声送信手段と、
上記サーバから、上記サーバによる上記音声の音声認識処理の結果である第２認識結果および該第２認識結果に対応付けられた音声応答処理内容を取得する音声認識結果取得手段と、
上記第１音声認識手段が音声認識処理を行った結果である第１認識結果に対応付けられた応答を音声出力すると共に、上記音声認識結果取得手段が上記サーバから取得した、上記第２認識結果に対応付けられた上記音声応答処理内容を音声出力する音声対応手段と、が備えられており、
上記サーバには、
上記音声処理装置が取得した音声を受信する音声受信手段と、
上記音声受信手段が受信した上記音声の音声認識処理を行い、上記第２認識結果を生成する第２音声認識手段と、
上記第２音声認識手段が音声認識処理を行った結果である上記第２認識結果を上記音声処理装置に送信する音声認識結果送信手段と、
が備えられており、
さらに、上記音声処理装置は、スリープ機能を有しており、
上記スリープ機能が設定されている場合、
上記音声送信手段は、上記音声送信手段が取得した上記音声を上記サーバに送信せず、
上記音声対応手段は、上記第１音声認識手段が音声認識処理を行った結果である上記第１認識結果に対応付けられた応答を音声出力する音声認識システム。
上記音声処理装置は、上記スリープ機能の設定状態をユーザに報知する請求項１に記載の音声認識システム。
上記音声処理装置は、上記報知を光で行う請求項２に記載の音声認識システム。
上記音声処理装置は、特定の音声を取得したときに上記スリープ機能を解除する請求項１〜３のいずれか１項に記載の音声認識システム。
音声を取得し、取得した音声に対する音声認識処理を行う音声処理装置であって、
上記取得した音声の音声認識処理を行う第１音声認識手段と、
上記取得した音声を、自装置と通信可能なサーバに送信する音声送信手段と、
上記サーバから、上記サーバによる上記音声の音声認識処理の結果である第２認識結果および該第２認識結果に対応付けられた音声応答処理内容を取得する音声認識結果取得手段と、
上記第１音声認識手段が音声認識処理を行った結果である第１認識結果に対応付けられた応答を音声出力すると共に、上記音声認識結果取得手段が上記サーバから取得した、上記第２認識結果に対応付けられた上記音声応答処理内容を音声出力する音声対応手段と、を備え、
さらに、取得した上記音声を上記音声送信手段が上記サーバに送信しないスリープ機能を有しており、上記スリープ機能が設定されている場合、
上記音声送信手段は、上記音声送信手段が取得した上記音声を上記サーバに送信せず、
上記音声対応手段は、上記第１音声認識手段が音声認識処理を行った結果である上記第１認識結果に対応付けられた応答を音声出力する音声処理装置。