〔実施形態1〕
〔音声応答システム100の概要〕
以下、本発明の一実施形態について、図1〜図9を参照して説明する。まず、図2を参照して、本実施形態に係る音声応答システム100の概要を説明する。図2は、音声応答システム100の概要を示す図である。
図2に示すように、本実施形態に係る音声応答システム100は、情報処理装置1、音声認識サーバ2、配信サーバ3、および双方向通信サーバ4を含む構成であり、情報処理装置1と、音声認識サーバ2、配信サーバ3、および双方向通信サーバ4とは通信可能となっている。本実施の形態では、情報処理装置1と音声認識サーバ2、配信サーバ3とは、HTTP(Hyper Text transfer Protocol)による通信を行い、情報処理装置1と双方向通信サーバ4とはWeb Socketによる双方向通信を行うことを想定している。
そして、本実施形態では、情報処理装置1と音声認識サーバ2との2装置で音声認識処理を行うことにより、従来であれば認識不可能であった語彙を認識可能とするとともに、認識の精度を向上させるものである。さらに、単に挨拶等を返すのみでなく、ユーザにとって有益となると考えられる情報を音声で出力するものである。
例えば、ユーザが情報処理装置1に対し「おはよう」と呼びかけると、ユーザに対し、「おはよう」と返事を行うとともに、付加情報(例えば、「今日は晴れだよ。」、「今日は燃えるゴミの日だよ。」等)を音声で出力するものである。
おおまかな処理の流れとしては、以下の通りである。情報処理装置1は検知した音声を認識処理するとともに、音声データを音声認識サーバ2に送信する。ここで、情報処理装置1が「おはよう」の認識に成功すれば、「おはよう」と音声で出力する。さらに、音声認識サーバ2は認識した音声を情報処理装置1に通知するとともに、配信サーバ3に通知する。ここでは、音声認識サーバ2から取得した認識結果は、自装置で認識した結果と同じなので、情報処理装置1は何もしない。
一方、配信サーバ3は音声認識サーバ2が認識した音声と対応する情報を出力させるためのコマンドを送信する指示を双方向通信サーバ4に行う。双方向通信サーバ4は、該情報を出力するためのコマンドを情報処理装置1に送信する。情報処理装置1は、受信したコマンドが示す音声を予め格納しており、該コマンドを受信して、音声(例えば、「今日は晴れだよ」)を出力する。
〔音声応答システム100の詳細〕
〔情報処理装置1〕
次に、音声応答システム100の詳細について、説明する。まず、情報処理装置1について、図1を参照して説明する。図1は、情報処理装置1の要部構成を示すブロック図である。図1に示すように、情報処理装置1は、制御部10、記憶部11、マイク12、スピーカ13、およびIR部14を含む構成である。
マイク12は、外部からの音声等を電気信号に変換して通信部21、音声認識部22に通知するものである。スピーカ13は、出力処理部23から通知された音声情報を音声として外部に出力するものである。IR部14は、動作処理部24から通知された動作指示情報に基づいて、外部機器(テレビ、エアコン等)を制御するための赤外線(信号)を出力するものである。
記憶部11は、情報処理装置1が使用する各種データを格納するものである。記憶部11は、情報処理装置1の制御部10が実行する(1)制御プログラム、(2)OSプログラム、(3)各種機能を実行するためのアプリケーションプログラム、および、(4)該アプリケーションプログラムを実行するときに読み出す各種データを記憶するものである。上記の(1)〜(4)のデータは、例えば、ROM(read only memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(登録商標)(Electrically EPROM)、HDD(Hard Disc Drive)等の不揮発性記憶装置に記憶される。
また、記憶部11には、後述する出力処理部23が用いる音声テーブル31が格納されている。音声テーブル31の例を図4に示す。図4に示すように、音声テーブル31には、音声IDと出力する音声とが対応づけられたものである。図4に示す例では、音声ID“101”に音声“今日は曇り時々雨だよ”が対応付けられ、音声ID“201”に音声“傘を持って行った方がいいよ”が対応づけられている。以下、同様である。
制御部10は、音声認識処理、出力処理、動作処理を含む情報処理装置1の機能を統括して制御するものであり、通信部21、音声認識部22、出力処理部23、および動作処理部24を含む。
通信部21は、外部サーバ(音声認識サーバ2、配信サーバ3、双方向通信サーバ4)との通信を行うものである。なお、外部サーバとは、音声認識サーバ2、配信サーバ3、および双方向通信サーバ4を含むサーバの総称である。上述したように本実施形態では、音声認識サーバ2、および配信サーバ3とはHTTPによる通信、双方向通信サーバ4とはWeb Socketによつ双方向通信により通信している。
より詳細には、通信部21は、(1)マイク12から通知された音声データの音声認識サーバ2への送信、(2)音声認識サーバ2による音声認識処理を求める音声認識要求の配信サーバ3への送信、(3)配信サーバ3からの音声認識結果の受信、(4)音声認識サーバ2により生成された音声データの受信、(5)双方向通信サーバ4から音声再生指示の受信を行う。
音声認識部22は、マイク12から通知された音声データの音声認識を行い、認識した結果を出力処理部23に通知する。なお、音声認識処理そのものは従来技術を用いて可能であるので、説明は省略する。
出力処理部23は、音声認識部22から通知された音声認識結果に基づく音声出力処理、通信部21から通知された、双方向通信サーバ4から送信された音声再生指示に基づく音声出力処理、通信部21から通知された、配信サーバ3から送信された音声認識結果に基づく音声出力処理を行う。なお、具体的な処理の内容については後述する。
また、出力処理部23は、音声認識部22から通知された音声認識結果、または配信サーバ3から送信された音声認識結果を動作処理部24に通知する。
動作処理部24は、出力処理部23から通知された音声認識結果に基づいて、情報処理装置1が動作すべき内容を決定し、決定した動作を行うための処理を実行する。例えば、テレビ、エアコン等の家電を制御する動作を行う場合、IR部14に対し、テレビ、エアコンを制御するための赤外線信号を送信させるための指示を通知する。
〔外部サーバ(音声認識サーバ2、配信サーバ3、双方向通信サーバ4)〕
次に、音声認識サーバ2、配信サーバ3、および双方向通信サーバ4の要部構成について、図3を参照して説明する。図3は、音声認識サーバ2、配信サーバ3、および双方向通信サーバ4の要部構成を示すブロック図である。
図3に示すように、音声認識サーバ2は、音声認識部61および合成音声生成部62を含む。また、配信サーバ3は、記憶部51、応答判断処理部52、音声認識要求取得部53、配信情報取得部54、および出力部55を含む。
音声認識サーバ2は、音声認識処理および合成音声の生成処理を行うものである。
音声認識部61は、配信サーバ3から通知された音声認識要求に基づいて、情報処理装置1から通知された音声データの音声認識処理を実行する。そして、音声認識結果を配信サーバ3に通知する。
合成音声生成部62は、配信サーバ3から通知された配信情報に基づいて、通知すべき内容を示す合成音声を生成し、音声IDと対応づけて情報処理装置1に通知する。
生成する合成音声の例について、図7を参照して説明する。図7は、配信情報と生成する音声とを対応例を示す図である。図7(a)に示すように、例えば、配信情報が「晴れ」というものであれば、合成音声として「いい天気だね、洗濯日和だよ」を生成する。また、配信情報が「晴れ一時雨」というものであれば、合成音声として「傘を持って行った方がいいよ」を生成する。以下、同様である。
また、図7(b)に示すように、配信情報が「最低気温(明日)0°以下」というものであれば、合成音声として「今夜はすごく寒くなるよ」を生成する。以下、同様である。
配信サーバ3は、再生すべき音声を決定し、その指示をするものである。
記憶部51は、会話テーブル56等、配信サーバ3で用いる情報を記憶している。会話テーブル56は、音声認識された内容、再生すべき音声、再生条件を対応付けたものである。会話テーブル56の例を図5(a)、(b)に示す。図5(a)の会話テーブル56Aに示すように、認識された音声を示すID(認識音声ID)と再生すべき音声のカテゴリとが対応付けられているとともに、図5(b)の会話テーブル56Bに示すように、カテゴリと再生すべき音声を示す音声ID、条件が対応付けられている。
例えば、火曜日の朝9時に認識された音声が「おはよう」であれば、再生すべき音声として対応するものは、認識音声ID“21(おはよう)”と対応する“天気+生活”のうち、音声ID“101「今日の天気は曇時々雨だよ」”、“201「傘を持って行った方がいいよ」”、“401「今日は燃えるゴミの日だよ」”となる。
また、会話テーブル56Bに優先順位を対応付け、優先順位が高いものがまず選択されるようにしてもよい。
例えば、電車の遅延を示す通知の優先順位を最も高くし、どのような状況であっても、まず、電車の遅延を通知するというものであってもよい。
また、同じ内容の情報について、詳細情報と簡易情報とで対応付ける時間の条件を変えるという構成であってもよい。例えば、「6時」に対応づけられている天気予報は詳細情報で、「7時半」に対応づけられている天気予報は簡易情報というようにしてもよい。
また、再生指示の履歴と優先順位を利用して生成すべき通知を応答判断しても良い。すなわち、優先度の高いものを通知した後に同じ問いかけがあった場合は、履歴を見て既に生成した通知とは異なる音声を再生指示するように判断しても良い。
これにより、ユーザに対して同じ返答が繰り返されることを避けることができる。例えば、「おはよう」に対し「優先順位高:天気情報」「優先順位中:路線情報」「優先順位低:ゴミ情報」が対応付けられていると仮定する。この場合に、「おはよう」という音声を検知し、「天気情報」について通知した後、再度「おはよう」という音声を検知した場合、履歴を確認し、「天気予報」について再度配信することなく、例えば「路線情報」を通知する。
また、音声認識サーバ2で「もう一度」という問いかけを認識した場合は、履歴を確認し、一定時間内の最新の音声を再生指示しても良い。これにより、ユーザが聞き取れなかった場合、同じ配信情報をユーザに通知することができる。
また、情報処理装置1で「もう一度」という問いかけを認識した場合は、履歴を確認し、一定時間以内の再生内容をもう一度再生しても良い。これにより、ユーザが聞き取れなかった場合に、同じ配信情報をユーザに通知することを、情報処理装置1単体で実行することができる。
応答判断処理部52は、会話テーブル56を用いて、音声認識サーバ2から通知された音声認識結果と対応する再生音声を決定し、再生すべき音声を示す音声IDを双方向通信サーバ4に通知する。
音声認識要求取得部53は、情報処理装置1から通知された音声認識要求を音声認識サーバ2に通知する。
配信情報取得部54は、外部機器より配信情報(ニュース、天気予報、交通情報等)を取得し、その内容を音声認識サーバ2に通知する。
出力部55は、音声認識サーバ2から通知された音声認識結果を情報処理装置1に通知する。
双方向通信サーバ4は、情報処理装置1と常時接続し、音声の再生指示等を送信する。
〔音声応答システム100における処理の流れ〕
次に、図8、9を参照して音声応答システム100における処理の流れについて説明する。図8、9は、音声応答システム100における処理の流れを示すシーケンス図である。
〔合成音声格納処理〕
本実施形態に係る音声応答システム100では、情報処理装置1より発話される合成音声が、予め音声認識サーバ2で生成され、情報処理装置1に格納されている。まず、この予め合成音声が格納される処理の流れについて、図8を参照して説明する。
図8に示すように、配信サーバ3の配信情報取得部54が、外部機器から配信情報を取得すると(S801)、配信情報取得部54は、取得した配信情報を音声認識サーバ2の合成音声生成部62に通知する(S802)。
配信情報を取得した合成音声生成部62は、上述したように、配信情報に基づいて再生すべき合成音声を生成する(S803)。そして、生成した合成音声に再生音声IDを付し、再生音声IDを配信サーバ3に通知する(S804)。
再生音声IDを通知された配信サーバ3は、双方向通信サーバ4に通知し(S805)、双方向通信サーバ4は、双方向通信にて情報処理装置1に再生音声IDを通知する(S806)。
再生音声IDを取得した情報処理装置1は、音声認識サーバ2に対し当該再生音声IDが示す合成音声の送信を求める合成音声送信指示を音声認識サーバ2に通知し(S807)、合成音声を取得する(S808)。
そして、情報処理装置1は、再生音声IDと合成音声とを対応付けて記憶する(S809)。以上で、合成音声を情報処理装置1に格納する処理が終了する。
〔応答処理〕
次に、ユーザが情報処理装置1に対し何らかの発話を行った場合の処理の流れについて、図9を参照して説明する。
図9に示すように、情報処理装置1において音声を検知すると(S901)、通信部21は、検知した音声を示す音声データを音声認識サーバ2に通知する(S902)とともに、音声認識要求を配信サーバ3に通知する(S903)。そして、配信サーバ3は、通知された音声認識要求を音声認識サーバ2に通知する(S904)。音声認識要求を通知された音声認識サーバ2は、情報処理装置1から通知された音声データの音声認識処理を実行する(S905)。
また、通信部21の処理と並行して、音声認識部22は、検知した音声の音声認識処理を実行する(S906)。
音声認識部22による音声認識処理が成功し、かつ、即答すべき音声がある場合、出力処理部23は、即答すべき音声をスピーカ13から出力させる(S907)。例えば、「おはよう」に対し「おはよう」と応える挨拶等は、即答すべき音声となる。
一方、音声認識サーバ2の音声認識部61で実行されていた音声認識処理の結果も、音声認識サーバ2から配信サーバ3に通知され(S908)、配信サーバ3から情報処理装置1に通知される(S909)。音声認識結果は、認識できた音声そのものを通知するのではなく、認識できた音声を示すIDを通知する。
ここで、情報処理装置1の出力処理部23は、音声認識サーバ2から通知された音声認識結果が、音声認識部22に実行した音声認識結果と同じであれば、何の処理も行わない。また、ステップS906での音声認識処理で音声認識ができず、音声認識サーバ2において音声認識処理が成功した場合は、音声認識サーバ2からの音声認識結果が通知されたときに、出力処理部23は、即答すべき音声をスピーカ13から出力させる(S907’)。
なお、音声認識部22による音声認識結果と音声認識サーバ2による音声認識結果とが異なる場合は、音声認識部22を優先させてもよいし、音声認識部22による音声認識結果に対応した音声を出力後、音声認識サーバ2による音声認識結果に対応した音声を、訂正音声とともに出力してもよい(例えば、音声認識部22において「おはよう」と認識し、音声認識サーバ2において「おやすみ」と認識した場合、「おはよう」と出力し、その後、「さっきは間違えたよ。おやすみ」というようにする)。
また、ステップS906での音声認識処理が終了する前に、ステップS909の音声認識結果を受信した場合は、受信した音声認識結果に対応する発話処理を行ってもよい。すなわち、先に取得した音声認識結果を用いて発話処理を行う構成であってもよい。
さらに、ステップS908で音声認識結果を通知された配信サーバ3は、応答判断処理部52において、音声認識結果に対応する再生音声を決定する(S910)。そして、決定した再生音声を示す再生音声IDを双方向通信サーバ4に通知し(S911)、双方向通信サーバ4は、情報処理装置1に対し再生音声IDが示す音声を再生させる指示を通知する(S912)。
再生音声IDを通知された情報処理装置1は、該再生音声IDが示す音声を再生する(S913)。ここで再生される音声は、予め音声認識サーバ2によって生成されていた合成音声である。以上で、ユーザが何らかの発話を行った場合の処理が終了する。
〔付記事項1〕
上述した実施形態では、音声認識サーバ2において合成音声を生成する構成としたが、情報処理装置1に合成音声を生成する機能を持たせてもよい。これにより、音声認識サーバ2から合成音声が通知されてない場合であっても、情報処理装置1で生成した合成音声を出力することにより対応することができる。
〔付記事項2〕
また、上述した実施形態では、音声の内容に応じた処理を実行する構成を説明したが、これに限られず、音声の種類(男女、大人、子供、高齢者)に応じて、実行する処理を異ならせる(出力する音声の内容や口調(音声の高さや速さ等)を異ならせる)構成であってもよい。例えば、取得した音声が子供であれば、天気予報のみを通知し、大人の男性(父親)であれば、天気予報に加えて交通情報も通知し、大人の女性(母親)であれば、天気予報に加えて買い物情報も通知するという構成であってもよい。また、大人に対する通知は、やや早口(音声の速度大)で行い、高齢者に対する通知は、ゆっくり(音声の速度小)と行うという構成であってもよい。
〔小括〕
以上のように、本実施形態では、情報処理装置1と音声認識サーバ2との2つ装置で音声認識処理を行うとともに、認識した音声に対し即答すべき音声がある場合は、まず即答し、さらに、配信サーバ3で決定した再生音声を情報処理装置1で出力させるものである。検知した音声、これに対する応答、その他の条件の例を一覧としてまとめると図6のようになる。
図6に示すように、「おはよう」という音声を認識した場合は、即答すべき音声として「おはよう」をまず出力し、さらに、天気(「今日の天気は曇時々雨だよ」「傘を持って行った方がいいよ」)や、生活(「今日は燃えるゴミの日だよ」)の情報を示す再生音声を出力する。
また、認識可能な音声はあいさつに限られるものではなく、家電を制御するための指示(「エアコンつけて(消して)」)や、交通状況を尋ねるもの(「電車はどう?」)などであってもよい。
また、再生音声は、予め情報処理装置1に格納されている。これにより、双方向通信サーバ4から再生指示を送信するのみで再生音声を再生することが可能となり、ユーザの発話に対する応答を早めることができる。
〔実施形態2〕
本発明の他の実施形態について説明する。上述した実施形態では、音声認識サーバ2が音声認識処理を実行する場合について限定していない。これに対し、本実施形態では、音声認識サーバ2が音声認識する場合を制御するものである。
具体的には、音声認識部22がスリープ機能を有し、スリープ機能がオンの状態、すなわち、検知した音声を音声認識サーバ2に通知しない場合は、音声認識部22は、情報処理装置1で検知した音声を通信部21が音声認識サーバ2に通知しないように制御するものである。
そして、特定の音声を検知したときに、スリープ機能をオフとし、情報処理装置1で検知した音声を通信部21が音声認識サーバ2に通知するように制御する。
これにより、外部のサーバである音声認識サーバ2に、ユーザが意図しない音声が通知されてしまうことを防止することができる。
〔付記事項3〕
また、通信部21が、情報処理装置1が検知した音声を音声認識サーバ2に送信する場合は、音や光等でユーザに対し報知する構成を備えていてもよい。これにより、ユーザに対し、発した音声が音声認識サーバ2に通知されていることを認識させることができる。
〔実施形態3〕
本発明のさらに他の実施形態について、図10〜図13に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本実施形態は、音声に応じて認識閾値を変えるものである。例えば、挨拶のような音声であれば、認識閾値を低く設定して容易に会話が可能となるようにするとともに、家電の制御等の音声であれば、認識閾値を高く設定して、家電の誤動作を防止するものである。
〔音声認識部の構成〕
図10に、本実施形態における音声認識部22の要部構成を示す。図10に示すように、音声認識部22は、音声取得部201、音声判定部202、音声認識処理部203、確度算出部204、対話処理実行部205、認識結果決定部206、および判定テーブル207を含む。
判定テーブル207の例を図13に示す。図13に示すように、判定テーブル207は、認識フレーズ(認識した音声)、認識番号、認識した音声に対応する動作、認識確度閾値、対話確認要否、および対話確認フレーズが対応付けられたテーブルである。例えば、認識した音声が「おはよう」であれば、認識番号が「10」、認識した音声に対応する動作が「おはよう音声再生」、認識確度閾値が「60」、対話確認要否が「不要」、対話確認フレーズが「無し」と対応付けられている。また、認識した音声が「エアコンつけて」であれば、認識番号が「14」、認識した音声に対応する動作が「エアコンON」、認識確度閾値が「80」、対話確認要否が「要」、および対話確認フレーズが「エアコンつけてもいい?」と対応付けられている。これ以外のものについても同様である。
これにより、音声に対応して、認識確度閾値、および対話確認要否を設定することができるので、音声の内容に応じて認識の精度を変えることができる。図13に示す判定テーブル207のように設定すれば、単なる挨拶については、認識の精度が多少低くても、会話を成立させることができるとともに、清掃を実行させる場合は、認識精度が少し上げて確実なものとすることができ、さらに、エアコンの制御のように重要なものは認識の精度を上げるだけでなく、再確認を求めることにより、さらに確実性を向上させることができる。
音声取得部201は、マイク12から音声データを取得し、音声判定部202に通知する。音声判定部202は、通知された音声データが、人による発話なのか、単なる物音なのかを判定する。具体的には、音声データが示す音声の大きさ、周波数および長さが閾値を超える場合を音声と判定する。そして、音声と判定した音声データを音声認識処理部203に通知する。
音声認識処理部203は、通知された音声データについて音声認識処理を実行し、音声認識結果を確度算出部204に通知する。確度算出部204は、音声認識処理部203が実行した音声認識処理の認識確度を算出し対話処理実行部205に通知する。なお、認識確度とは、認識結果となりえる複数の候補との比較が可能な相対的な値あるいは、認識結果を絶対的に判断する値を算出することにより、音声認識した結果がどのくらい確からしいかを示す数値である。
対話処理実行部205は、判定テーブル207を用いて、音声認識処理部203が認識処理を実行した結果である認識音声について、確度算出部204が算出した認識確度が閾値を超えているかと判定するとともに、対話確認が必要か否かを判定する。そして、対話確認が必要と判定した場合は、対話処理を実行する。具体的には、判定テーブル207において対応付けられている対話確認フレーズを出力させ、回答を確認する。そして、対話処理の結果を認識結果決定部206に通知する。
認識結果決定部206は、対話処理実行部205の結果に基づいて、認識結果を決定し、出力する。
〔処理の流れ〕
次に、音声に応じて認識閾値を変える場合の処理の流れについて、図11、図12を参照して説明する。図11、図12は、音声に応じて認識閾値を変える場合の処理の流れを示すフローチャートである。
図10に示すように、情報処理装置1が音声を検知すると(S1101)、音声判定部202は、音声の大きさ、長さが所定値以上か否かを判定する(S1102)。音声の大きさおよび長さが所定値以上であれば(S1102でYES)、音声認識処理部203は音声認識処理を実行する(S1103)。そして、音声認識処理が成功すれば(S1104でYES)、音声認識部22は動作テーブルを読み込み(S1105)、対話処理実行部205は認識確度が閾値を超えているか否かを判定する(S1106)。
そして、認識確度が閾値を超えていれば、確度算出部204は、対話確認の要否を判定し(S1107)、必要であれば(S1107でYES)、対話確認処理を実行する(S1108)。対話確認処理の詳細については後述する。そして、対話確認処理が終了すると、または対話確認が不要の場合(S1107でNO)、認識した音声に対応する動作を実行する(S1109)。
対話確認処理の流れについて、図12を参照して説明する。対話処理実行部205は、まず、出力処理部23を介し、スピーカ13から対話確認フレーズを出力させる(S1201)。そして、音声を検知すると(S1202)、音声判定部202が検知した音声の大きさ、および長さが所定値以上か否かを判定する(S1203)。音声の大きさ、および長さが所定値以上であれば(S1203でYES)、音声認識処理部203は音声認識処理を実行する(S1204)。音声認識処理に成功すると(S1205でYES)、対話処理実行部205は、音声の内容が肯定回答か否かを判定し(S1206)、肯定回答であれば(S1206でYES)、ステップS1109に進む。一方、否定回答であれば(S1206でNO)、ステップS1101へ戻る。以上が、対話処理の流れである。
〔実施形態4〕
本発明のさらに他の実施形態について、図14に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本実施形態では、情報処理装置1が音声を出力するタイミングについて、ユーザが情報処理装置1に話しかけたときとなっている。具体的な処理の流れについて図14を参照して説明する。図14は、ユーザが情報処理装置1に話しかけたときに、情報処理装置1が発話する処理の流れを示すシーケンス図である。
図14に示すように、まず、情報処理装置1に合成音声が格納される(S1401〜S1404、図8に示す合成音声の格納処理と同様)。なお、合成音声の格納は必須ではない。
そして、情報処理装置1において音声を検知すると(S1405)、音声データが情報処理装置1から音声認識サーバ2に通知される(S1406)とともに、音声認識要求が情報処理装置1から配信サーバ3に通知され(S1407)、配信サーバ3から音声認識サーバ2へ通知される(S1408)。そして、音声認識サーバ2において音声認識処理が実行される(S1409)。そして、音声認識処理の結果、音声であると判定されると、音声認識結果が音声認識サーバ2から配信サーバ3に通知され(S1411)、配信サーバ3から情報処理装置1に通知される(S1412)。
音声認識結果を通知された情報処理装置1は、音声認識結果に対応した動作(光る、振動する等)を行う(S1413)。さらに、配信サーバ3から双方向通信サーバ4に音声再生指示が通知され(S1414)、双方向通信サーバ4から情報処理装置1に音声再生指示が通知されると(S1415)、情報処理装置1は音声を出力(発話)する(S1416)。
なお、音声認識処理を情報処理装置1でも行う(S1410)構成であってもよい。
〔実施形態5〕
本発明のさらに他の実施形態について、図15に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本実施形態では、情報処理装置1が音声を出力するタイミングについて、情報処理装置1の近傍に人を検知したときとなっている。具体的な処理の流れについて図15を参照して説明する。図15は、情報処理装置1の近傍に人を検知したときに、情報処理装置1が発話する処理の流れを示すシーケンス図である。
図15に示すように、まず、情報処理装置1に合成音声が格納される(S1501〜S1504、図8に示す合成音声の格納処理と同様)。なお、合成音声の格納は必須ではない。
そして、情報処理装置1において音声を検知すると(S1505)、音声データが情報処理装置1から音声認識サーバ2に通知される(S1506)とともに、音声認識要求が情報処理装置1から配信サーバ3に通知され(S1507)、配信サーバ3から音声認識サーバ2へ通知される(S1508)。そして、音声認識サーバ2において音声認識処理が実行される(S1509)。そして、音声認識処理の結果、人の存在(気配)を示す音であると判定されると、音声認識結果が音声認識サーバ2から配信サーバ3に通知され(S1511)、配信サーバ3から双方向通信サーバ4に音声再生指示が通知され(S1512)、双方向通信サーバ4から情報処理装置1に音声再生指示が通知される(S1513)。そして、情報処理装置1は音声を出力(発話)する(S1514)。
なお、音声認識処理を情報処理装置1でも行う(S1510)構成であってもよい。
〔実施形態6〕
本発明のさらに他の実施形態について、図16に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本実施形態では、情報処理装置1が音声を出力するタイミングについて、情報処理装置1から呼びかけを行い、呼びかけに対する応答があった場合となっている。具体的な処理の流れについて図16を参照して説明する。図16は、情報処理装置1から呼びかけを行う場合における情報処理装置1の発話処理の流れを示すシーケンス図である。
図16に示すように、まず、情報処理装置1に合成音声Aが格納される(S1601〜S1604、図8に示す合成音声の格納処理と同様)。なお、合成音声Aの格納は必須ではない。
さらに、音声認識サーバ2から情報処理装置1に合成音声B(呼びかけ用の音声)が通知され、情報処理装置1に格納される(S1605)。
そして、配信サーバ3から双方向通信サーバ4に呼びかけ指示(呼びかけ用の合成音声を再生させる指示)が通知され(S1606)、双方向通信サーバ4から情報処理装置1に呼びかけ指示が通知される(S1607)。この呼びかけ指示は、ランダムに実行されてもよいし、定期的に実行されるものであってもよい。また、優先順位の高い内容については、その呼びかけ指示の頻度を高くしても良い。
呼びかけ指示が通知された情報処理装置1は、呼びかけ用音声(合成音声B)を出力する(S1608)。
そして、情報処理装置1において音声を検知すると(S1609)、音声データが情報処理装置1から音声認識サーバ2に通知される(S1610)とともに、音声認識要求が情報処理装置1から配信サーバ3に通知され(S1611)、配信サーバ3から音声認識サーバ2へ通知される(S1612)。そして、音声認識サーバ2において音声認識処理が実行される(S1613)。そして、音声認識処理の結果、呼びかけに対して応答している音声であると判定すると、音声認識結果が音声認識サーバ2から配信サーバ3に通知され(S1615)、配信サーバ3から双方向通信サーバ4に音声再生指示が通知され(S1616)、双方向通信サーバ4から情報処理装置1に音声再生指示が通知される(S1617)。そして、音声再生指示が通知された情報処理装置1は音声を出力(発話)する(S1618)。
なお、音声認識処理を情報処理装置1でも行う(S1614)構成であってもよい。
〔実施形態7〕
情報処理装置1、音声認識サーバ2、配信サーバ3、および双方向通信サーバ4の制御ブロック(制御部10(通信部21、音声認識部22、出力処理部23、動作処理部24)、応答判断処理部52、音声認識要求取得部53、配信情報取得部54、出力部55)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、情報処理装置1、音声認識サーバ2、配信サーバ3、双方向通信サーバ4は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る音声認識システム(音声応答システム100)は、音声を取得し、取得した音声に対応した処理を行う音声処理装置(情報処理装置1)と、該音声処理装置と通信可能なサーバ(音声認識サーバ2、配信サーバ3、双方向通信サーバ4)とにより構成された音声認識システムであって、上記音声処理装置には、上記取得した音声の認識処理を行う第1音声認識手段(音声認識部22)と、上記取得した音声を上記サーバに送信する音声送信手段(通信部21)と、上記サーバから上記音声の認識結果を取得する音声認識結果取得手段(通信部21)と、上記第1音声認識手段が認識処理を行った結果である第1認識結果と、上記音声認識結果取得手段が取得した、上記サーバによる音声認識処理の結果である第2認識結果とに基づいて、該音声に対応した処理を実行する音声対応手段(出力処理部23)と、が備えられており、上記サーバには、上記音声処理装置が取得した音声を受信する音声受信手段(音声認識部61)と、上記音声受信手段が受信した上記音声の認識処理を行う第2音声認識手段(音声認識部61)と、上記第2音声認識手段が認識処理を行った結果を上記音声処理装置に送信する音声認識結果送信手段(出力部55)と、が備えられていることを特徴としている。
上記の構成によれば、音声処理装置が取得した音声について、音声処理装置とサーバとの両方で認識処理を行うことができる。よって、音声処理装置のみで音声認識を行う場合と比較して、音声認識可能な語彙数を増加させることができる。また、サーバにより音声認識可能な語彙を更新することにより、音声認識可能な語彙の常に最新とすることもできる。また、サーバにより音声認識可能な語彙のみ更新すればよいので更新が容易となる。
また、音声処理装置とサーバとの両方で音声認識処理を行うことにより、音声認識そのものの精度も向上させることができる。
なお、音声対応手段が実行する処理としては、例えば、音声による応答が挙げられる。
本発明の態様2に係る音声認識システムでは、上記態様1において、上記サーバには、上記音声処理装置に実行させる、上記第2認識結果と対応する処理を決定する処理内容決定手段と、上記処理内容決定手段が決定した処理内容を上記音声処理装置に送信する処理内容送信手段と、が備えられ、上記音声処理装置の上記音声対応手段は、上記第1認識結果に対応した処理を実行した後、上記処理内容決定手段が決定した処理を実行するものであってもよい。
上記の構成によれば、音声対応手段が実行する処理を2段階に分けることができる。これにより、即応すべき処理とそうでない処理とを分けて実行することが可能となる。例えば、取得した音声が挨拶だった場合、返す挨拶は、即応すべき処理として音声処理装置が認識処理した結果に基づいて行い、サーバが認識処理した結果に基づいて付加情報を通知するということが可能となる。
本発明の態様3に係る音声認識システムでは、上記態様2において、上記処理内容決定手段は、上記処理内容が複数存在する場合に、それぞれの処理内容に優先順位を設定し、優先順位の高い処理内容を、上記音声処理装置に実行させる処理内容として決定するものであってもよい。
上記の構成によれば、優先順位に基づいて処理内容を決定することができるので、緊急性の高い処理を優先して処理することが可能となる。例えば、優先順位の高い処理として、電車の遅延情報の通知を設定すれば、まず、電車の遅延情報の通知を行うということができる。
本発明の態様4に係る音声認識システムでは、上記態様1〜3において、上記サーバには、上記音声処理装置に配信する情報を取得する配信情報取得手段と、上記配信情報取得手段が取得した配信情報を音声情報として出力するための合成音声を生成する合成音声生成手段と、上記合成音声生成手段が生成した合成音声を上記音声処理装置に送信する合成音声送信手段と、が備えられているものであってもよい。
上記の構成によれば、音声により配信情報を通知することができる。
本発明の態様5に係る音声認識システムでは、上記態様4において、上記合成音声送信手段は、上記音声処理装置の上記音声対応手段が処理を実行する前に、上記合成音声を該音声処理装置に送信するものであってもよい。
上記の構成によれば、合成音声が予め音声処理装置に格納されているので、合成音声の出力を行うとき、その都度、サーバから取得する場合と比較して、速やかに処理することができる。
本発明の態様6に係る音声認識システムは、上記態様1〜5において、上記第1音声認識手段、および上記第2音声認識手段は、認識結果の精度を示す認識結果精度が閾値を超えた場合、当該認識結果を自手段による認識処理の結果として出力するものであり、該閾値は、認識結果となる音声の内容によって異なるものであってもよい。
上記の構成によれば、音声の内容に応じて、認識結果の精度を示す認識結果精度の閾値を変えることができるので、重要と考えられる音声の認識処理を、より確実なものとすることができる。
本発明の態様7に係る音声認識システムでは、上記態様1〜6において、上記音声処理装置には、所定の条件を満たした場合、上記音声送信手段による音声の送信を許可する音声送信制御手段が備えられ、上記音声送信手段は、上記音声送信制御手段の許可があった場合のみ、上記音声を上記サーバに送信するものであってもよい。
上記の構成によれば、音声送信手段による音声の送信を制御することができるので、サーバに送信されることを意図していない音声が、サーバに送信されてしまうことを防止することができる。
本発明の態様8に係る音声認識システムでは、上記態様1〜7において、上記音声処理装置には、上記音声送信手段が上記音声を上記サーバに送信するときに、報知を行う報知手段が備えられているものであってもよい。
上記の構成によれば、音声がサーバに送信されていることを、ユーザに認識させることができる。
本発明の態様9に係る発話システムは、ユーザに対し発話する発話装置と、該発話装置と通信可能なサーバとにより構成された発話システムであって、上記発話装置には、音を取得する音取得手段と、上記音取得手段が取得した音を上記サーバに送信する音送信手段と、上記サーバから上記音の判定結果を取得する判定結果取得手段と、上記判定結果取得手段が取得した判定結果が、人がいることを示すものである場合、ユーザに対し発話を行う発話手段と、が備えられ、上記サーバには、上記発話装置が取得した音を受信する音受信手段と、上記音受信手段が取得した音が、人がいることを示すものであるか否かを判定する音判定手段と、上記音判定手段が判定した結果を上記発話装置に送信する判定結果送信手段と、が備えられていることを特徴としている。
上記の構成によれば、人がいることをサーバによって検知されたときに、発話するので、誰も人がいないときに発話してしまうということを防止することができる。
本発明の態様10に係る発話システムは、ユーザに対し発話する発話装置と、該発話装置と通信可能なサーバとにより構成された発話システムであって、上記発話装置には、呼びかけを行う発話手段と、音声を取得する音声取得手段と、上記音声取得手段が取得した音声を上記サーバに送信する音声送信手段と、上記サーバから上記音声の認識結果を取得する認識結果取得手段と、が備えられ、上記サーバには、上記発話装置が取得した音声を受信する音声受信手段と、上記音声受信手段が取得した音声の認識処理を行う音声認識手段と、上記音声認識手段が認識した結果を上記発話装置に送信する認識結果送信手段と、が備えられ、上記発話装置の上記発話手段は、上記認識結果取得手段が取得した認識結果が、上記呼びかけに対応する返答であることを示すものである場合、ユーザに対し発話を行うことを特徴としている。
上記の構成によれば、呼びかけに対し返答があった場合に発話するので、誰も人がいないときに発話してしまうということを防止することができる。
本発明の態様11に係る音声認識システムは、音声を取得し、取得した音声に対する音声認識処理を行う音声処理装置と、該音声処理装置と通信可能なサーバとにより構成された音声認識システムであって、上記音声処理装置には、上記取得した音声の音声認識処理を行う第1音声認識手段と、上記取得した音声を上記サーバに送信する音声送信手段と、上記サーバから、上記サーバによる上記音声の音声認識処理の結果である第2認識結果および該第2認識結果に対応付けられた音声応答処理内容を取得する音声認識結果取得手段と、上記第1音声認識手段が音声認識処理を行った結果である第1認識結果に対応付けられた応答を音声出力すると共に、上記音声認識結果取得手段が上記サーバから取得した、上記第2認識結果に対応付けられた上記音声応答処理内容を音声出力する音声対応手段と、が備えられており、上記サーバには、上記音声処理装置が取得した音声を受信する音声受信手段と、上記音声受信手段が受信した上記音声の音声認識処理を行い、上記第2認識結果を生成する第2音声認識手段と、上記第2音声認識手段が音声認識処理を行った結果である上記第2認識結果を上記音声処理装置に送信する音声認識結果送信手段と、が備えられており、さらに、上記音声処理装置は、スリープ機能を有しており、上記スリープ機能が設定されている場合、上記音声送信手段は、上記音声送信手段が取得した上記音声を上記サーバに送信せず、上記音声対応手段は、上記第1音声認識手段が音声認識処理を行った結果である上記第1認識結果に対応付けられた応答を音声出力する。
上記の構成によれば、サーバにユーザが意図しない音声が通知されてしまうことを防止することができる。
本発明の態様12に係る音声認識システムは、上記態様11において、上記音声処理装置は、上記スリープ機能の設定状態をユーザに報知するものであってもよい。
上記の構成によれば、ユーザに対し音声がサーバに通知されるか否かを認識させることができる。
本発明の態様13に係る音声認識システムは、上記態様12において、上記音声処理装置は、上記報知を光で行うものであってもよい。
上記の構成によれば、ユーザに対し音声がサーバに通知されていることを認識させることができる。
本発明の態様14に係る音声認識システムは、上記態様11〜13の何れかにおいて、上記音声処理装置は、特定の音声を取得したときに上記スリープ機能を解除するものであってもよい。
上記の構成によれば、特定の音声を取得したときにスリープ機能をオフとすることができる。
本発明の態様15に係る音声処理装置は、音声を取得し、取得した音声に対する音声認識処理を行う音声処理装置であって、上記取得した音声の音声認識処理を行う第1音声認識手段と、上記取得した音声を、自装置と通信可能なサーバに送信する音声送信手段と、上記サーバから、上記サーバによる上記音声の音声認識処理の結果である第2認識結果および該第2認識結果に対応付けられた音声応答処理内容を取得する音声認識結果取得手段と、上記第1音声認識手段が音声認識処理を行った結果である第1認識結果に対応付けられた応答を音声出力すると共に、上記音声認識結果取得手段が上記サーバから取得した、上記第2認識結果に対応付けられた上記音声応答処理内容を音声出力する音声対応手段と、を備え、さらに、取得した上記音声を上記音声送信手段が上記サーバに送信しないスリープ機能を有しており、上記スリープ機能が設定されている場合、上記音声送信手段は、上記音声送信手段が取得した上記音声を上記サーバに送信せず、上記音声対応手段は、上記第1音声認識手段が音声認識処理を行った結果である上記第1認識結果に対応付けられた応答を音声出力する。
上記の構成によれば、上記態様11と同様の効果を奏する。
本発明の各態様に係る音声認識システム(音声処理装置、サーバ)は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声認識システムが備える各手段として動作させることにより上記音声認識システムをコンピュータにて実現させる音声認識しシステムの制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。