JP2013257418A

JP2013257418A - 情報処理装置、および情報処理方法、並びにプログラム

Info

Publication number: JP2013257418A
Application number: JP2012132941A
Authority: JP
Inventors: Tsutomu Sawada; 務澤田; Katsuki Minamino; 活樹南野; Yukinori Maeda; 幸徳前田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-06-12
Filing date: 2012-06-12
Publication date: 2013-12-26

Abstract

【課題】ユーザ位置およびユーザ識別情報に基づいて処理態様を変更して高精度の音声認識処理を行う構成を実現する。
【解決手段】実空間における画像情報および音声情報を入力する複数の情報入力部と、情報入力部からの入力情報の解析により、実空間に存在するユーザ位置および識別ユーザの推定情報と、登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出部と、イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、小語彙辞書対応音声認識結果と、大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する。
【選択図】図４

Description

本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。さらに詳細には、外界からの入力情報、例えば画像、音声などの情報を入力し、入力情報に基づく外界環境の解析、具体的には言葉を発している人物の位置や誰であるか、さらに発話内容等の解析を実行する情報処理装置、および情報処理方法、並びにプログラムに関する。

人とＰＣやロボットなどの情報処理装置との相互間の処理、例えばコミュニケーションやインタラクティブ処理を行うシステムはマン−マシンインタラクションシステムと呼ばれる。このマン−マシンインタラクションシステムにおいて、ＰＣやロボット等の情報処理装置は、人のアクション例えば人の動作や言葉を認識するために画像情報や音声情報を入力して入力情報に基づく解析を行う。

人が情報を伝達する場合、言葉のみならずしぐさ、視線、表情など様々なチャネルを情報伝達チャネルとして利用する。このようなすべてのチャネルの解析をマシンにおいて行うことができれば、人とマシンとのコミュニケーションも人と人とのコミュニケーションと同レベルに到達することができる。このような複数のチャネル（モダリティ、モーダルとも呼ばれる）からの入力情報の解析を行うインタフェースは、マルチモーダルインタフェースと呼ばれ、近年、開発、研究が盛んに行われている。

例えばカメラによって撮影された画像情報、マイクによって取得された音声情報を入力して解析を行う場合、より詳細な解析を行うためには、様々なポイントに設置した複数のカメラおよび複数のマイクから多くの情報を入力することが有効である。

具体的なシステムとしては、例えば以下のようなシステムが想定される。情報処理装置（テレビ）が、カメラおよびマイクを介して、テレビの前のユーザ（父、母、姉、弟）の画像および音声を入力し、それぞれのユーザの位置やどのユーザが発した言葉であるか等を解析し、テレビが解析情報に応じた処理、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対する的確な応答を行うなどのシステムが実現可能となる。

従来の一般的なマン−マシンインタラクションシステムの多くは、複数チャネル（モーダル）からの情報を決定論的に統合して、複数のユーザが、それぞれどこにいて、それらは誰で、誰がシグナルを発したのかを決定するという処理を行っていた。このようなシステムを開示した従来技術として、例えば特許文献１（特開２００５−２７１１３７号公報）、特許文献２（特開２００２−２６４０５１号公報）がある。

しかし、従来のシステムにおいて行われるマイクやカメラから入力される不確実かつ非同期なデータを利用した決定論的な統合処理方法ではロバスト性にかけ、精度の低いデータしか得られないという問題がある。実際のシステムにおいて、実環境で取得可能なセンサ情報、すなわちカメラからの入力画像やマイクから入力される音声情報には様々な余分な情報、例えばノイズや不要な情報が含まれる不確実なデータであり、画像解析や音声解析処理を行う場合には、このようなセンサ情報から有効な情報を効率的に統合する処理が重要となる。

なお、本出願人は、画像、音声情報などの様々な入力情報に含まれる不確実な情報に対する確率的な処理を行って、精度の高い情報を取得する情報処理装置について、特許文献３（特開２００９−３１９５１号公報）において開示した。
この特許文献３に記載の構成を用いれば、画像、音声情報などの入力情報の解析により、例えば音声を発する各ユーザの位置や、各ユーザが誰であるか、何を発話したかなどの識別処理を高精度に実行することが可能となる。

なお、この特許文献３に記載のシステムは、例えば、ユーザがテレビに向かって、口頭でチャンネルを変える指示を出す場合や、ボリュームを上げる指示を出す場合などに、テレビ側の情報処理部が誰のどのような指示を入力したかを解析するために利用可能となる。

しかし、この特許文献３に記載の構成は、カメラの入力画像やマイクによって取得される音声情報などについて一律の処理を実行している。
このような一律の処理を行うと、ユーザの発話解析、すなわち何を発話したかの音声認識を実行する場合に認識誤りの発生可能性が高くなる場合がある。

例えば、マイクから離れた位置からのユーザ発話の音声認識を行う場合に、多数の登録語を含む大語彙の認識辞書を用いると誤認識が発生しやすいという問題がある。
具体的には、例えばユーザが「動画ファイルからソニーを検索」と発話しても「動画ファイルからソニンを検索」と認識されたり、「都市の世界遺産を見せて」と発話しても「年の瀬解散を見せて」と誤認識されたりする場合がある。

これは、大語彙の認識辞書には多数の単語が登録されており、類似する発音の単語から、実際の発話に対応する単語を正確に選択することが困難になるためである。
逆に、登録語数の少ない小語彙の認識辞書を利用した音声認識を行うと、ユーザの発話に対応する単語が認識辞書に登録されていない場合が発生し、この場合も正確な音声認識を行うことができなくなるという問題が発生する。

特開２００５−２７１１３７号公報特開２００２−２６４０５１号公報特開２００９−０３１９５１号公報

本開示は、例えば上記問題点に鑑みてなされたものであり、画像、音声情報などの様々な入力情報に含まれる不確実な情報に対する確率的な処理を行ってより精度の高いと推定される情報に統合して精度の高い解析を行う情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。

さらに、本開示は、ユーザの位置等に応じてユーザ発話に対する音声認識処理の態様を変更することで、より精度の高い音声認識を実現する情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。

本開示の第１の側面は、
実空間における画像情報および音声情報を入力する複数の情報入力部と、
前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出部と、
前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する情報統合処理部と、
を有することを特徴とする情報処理装置にある。

さらに、本開示の情報処理装置の一実施態様において、前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値未満の近い（ＮｅａｒＦｉｅｌｄ）位置にある場合、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、前記ユーザ装置間距離が既定閾値以上の遠い（ＦａｒＦｉｅｌｄ）位置にある場合、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する。

さらに、本開示の情報処理装置の一実施態様において、前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置が不明である場合、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する。

さらに、本開示の情報処理装置の一実施態様において、前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値未満の近い（ＮｅａｒＦｉｅｌｄ）位置にある場合、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、さらに、前記大語彙辞書対応音声認識結果をユーザ識別子と対応付けてユーザ発話管理データとして登録する。

さらに、本開示の情報処理装置の一実施態様において、前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値以上の遠い（ＦａｒＦｉｅｌｄ）位置にある場合、またはユーザ位置が不明である場合、前記ユーザ発話管理データを参照し、識別されたユーザのユーザ識別子と前記大語彙辞書対応音声認識結果との対応データが前記ユーザ発話管理データに登録されているか否かを判定し、登録されている場合は、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、登録されていない場合は、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する。

さらに、本開示の情報処理装置の一実施態様において、前記情報統合処理部は、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかから選択した最終音声認識結果に応じた処理の実行可能性に応じて、音声認識結果の受理または棄却メッセージの出力を実行する。

さらに、本開示の第２の側面は、
情報処理装置において実行する情報処理方法であり、
複数の情報入力部が、実空間における画像情報および音声情報を入力する情報入力ステップと、
イベント検出部が、
前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出ステップと、
情報統合処理部が、
前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する情報統合処理ステップと、
を実行することを特徴とする情報処理方法にある。

さらに、本開示の第３の側面は、
情報処理装置において情報処理を実行させるプログラムであり、
複数の情報入力部に、実空間における画像情報および音声情報を入力させる情報入力ステップと、
イベント検出部に、
前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成させるイベント検出ステップと、
情報統合処理部に、
前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行させ、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成させる情報統合処理ステップと、
を実行させることを特徴とするプログラムにある。

なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本開示の一実施例の構成によれば、ユーザ位置およびユーザ識別情報に基づいて処理態様を変更して高精度の音声認識処理を行う構成が実現される。
具体的には、実空間における画像情報および音声情報を入力する複数の情報入力部と、情報入力部からの入力情報の解析により、実空間に存在するユーザ位置および識別ユーザの推定情報と、登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出部と、イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、小語彙辞書対応音声認識結果と、大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する。
本構成により、例えば発話ユーザの位置が装置に近い場合は、大語彙音声認識辞書を適用し、遠い場合は小語彙音声認識辞書を適用することで、認識誤りを抑えた精度の高い音声認識処理が実現される。

本開示に係る情報処理装置の実行する処理の概要について説明する図である。本開示の一実施例の情報処理装置の構成および処理について説明する図である。音声イベント検出部１２２および画像イベント検出部１１２が生成し音声・画像統合処理部１３１に入力する情報の例について説明する図である。本開示の一実施例の情報処理装置の構成および処理について説明する図である。小語彙音声認識辞書と大語彙音声認識辞書の構成例について説明する図である。小語彙音声認識辞書と大語彙音声認識辞書を適用した音声認識処理例について説明する図である。ユーザ位置と、小語彙音声認識辞書と大語彙音声認識辞書の選択適用例について説明する図である。ユーザ発話管理データの登録データ例について説明する図である。音声・画像統合処理部１３１における処理シーケンスについて説明するフローチャートを示す図である。本開示に係る情報処理装置の実行する具体的な処理例について説明する図である。本開示に係る情報処理装置の実行する具体的な処理例について説明する図である。本開示に係る情報処理装置の実行する具体的な処理例について説明する図である。本開示に係る情報処理装置の実行する具体的な処理例について説明する図である。

以下、図面を参照しながら本開示の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行う。
１．本開示の情報処理装置の実行する処理の概要について
２．本開示の情報処理装置の構成と処理について
３．ユーザ位置判定処理とユーザ識別処理について
４．発話内容の解析処理としての音声認識処理について
５．本開示の構成のまとめ

［１．本開示の情報処理装置の実行する処理の概要について］
まず、図１を参照して本開示に係る情報処理装置の実行する処理の概要について説明する。
本開示の情報処理装置は、本出願人が先に出願した前述の特許文献３（特開２００９−０３１９５１号公報）を基本構成としている。すなわち、ユーザの位置判定やユーザ識別処理の基本的な処理の流れは、特開２００９−０３１９５１号公報と同様の処理である。
本開示の情報処理装置は、例えば上記特許文献において開示されたユーザの位置判定やユーザ識別処理において得られたユーザ位置やユーザ識別情報等に応じて、ユーザが何を発話したかを解析する音声認識処理の処理態様を適宜変更して実行する。

まず、図１を参照して、本開示の情報処理装置１００の実行する処理の概要について説明する。
本開示の情報処理装置１００は、環境情報を入力するセンサ、ここでは一例としてカメラ２１と、複数のマイク３１〜３２から画像情報、音声情報を入力し、これらの入力情報に基づいて環境の解析を行う。具体的には、複数のユーザ１，１１〜４，１４の位置の解析、およびその位置にいるユーザの識別を行う。
さらに、ユーザ発話の解析処理を行う。

図に示す例において、例えばユーザ１，１１〜ユーザ４，１４が家族である父、母、姉、弟であるとき、情報処理装置１００は、カメラ２１と、複数のマイク３１〜３２から入力する画像情報、音声情報の解析を行い、４人のユーザ１〜４の存在する位置、各位置にいるユーザが父、母、姉、弟のいずれであるかを識別する。識別処理結果は様々な処理に利用される。例えば、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対してテレビから応答を行うなどの処理に利用される。

なお、本開示に係る情報処理装置１００の１つの主要な処理は、複数の情報入力部（カメラ２１，マイク３１〜３２）からの入力情報に基づいて、ユーザの位置識別およびユーザの特定処理としてのユーザ識別処理を行うことである。この識別結果の利用処理については特に限定するものではない。カメラ２１と、複数のマイク３１〜３２から入力する画像情報、音声情報には様々な不確実な情報が含まれる。本開示の情報処理装置１００では、これらの入力情報に含まれる不確実な情報に対する確率的な処理を行って、精度の高いと推定される情報に統合する処理を行う。この推定処理によりロバスト性を向上させ、精度の高い解析を行う。

さらに、本開示に係る情報処理装置１００のもう１つの主要な処理は、ユーザの発話を正しく解析する音声認識処理を行うことである。
例えば、上記処理によって識別されたユーザあるいはユーザ位置に応じて、使用する辞書の変更など、音声認識処理の態様を変更して精度の高い音声認識処理を実行する。

［２．本開示の情報処理装置の構成と処理について］
図２に情報処理装置１００の構成例を示す。情報処理装置１００は、入力デバイスとして画像入力部（カメラ）１１１、複数の音声入力部（マイク）１２１ａ〜ｂを有する。画像入力部（カメラ）１１１から画像情報を入力し、音声入力部（マイク）１２１から音声情報を入力し、これらの入力情報に基づいて解析を行う。複数の音声入力部（マイク）１２１ａ〜ｂの各々は、図１に示すように様々な位置に配置されている。

複数のマイク１２１ａ〜ｂから入力された音声情報は、音声イベント検出部１２２を介して音声・画像統合処理部１３１に入力される。音声イベント検出部１２２は、複数の異なるポジションに配置された複数の音声入力部（マイク）１２１ａ〜ｂから入力する音声情報を解析し統合する。具体的には、音声入力部（マイク）１２１ａ〜ｂから入力する音声情報に基づいて、例えば以下の情報を含む音声イベント情報を生成して、音声・画像統合処理部１３１に入力する。
（１）音声区間情報
（２）音源方向情報
（３）話者識別情報
（４ａ）第１の音声認識辞書（小語彙音声認識辞書）を適用した第１の音声認識結果
（４ｂ）第２の音声認識辞書（大語彙音声認識辞書）を適用した第２の音声認識結果
これらの情報を含む音声イベント情報を生成して、音声・画像統合処理部１３１に入力する。

なお、情報処理装置１００の実行する具体的な処理は、例えば図１に示すように複数のユーザが存在する環境で、ユーザ１〜４がどの位置にいて、会話を行ったユーザがどのユーザであるかを識別し、その発話内容を解析すること、すなわち、ユーザ位置およびユーザ識別と発話内容を把握する処理である。

音声イベント検出部１２２は、複数の音声入力部（マイク）１２１ａ〜ｂから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データとして生成する。具体的には、音源方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。音声イベント検出部１２２には、予め検証すべき複数のユーザの声についての特徴情報が登録されており、入力音声と登録音声との比較処理を実行して、どのユーザの声である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。
なお、これらの処理は、前述の特許文献３（特開２００９−０３１９５１号公報）に記載の処理と同様の処理である。

本開示の構成では、さらに、音声イベント検出部１２２は、上記の（４ａ），（４ｂ）の音声認識結果を生成する。すなわち、
（４ａ）第１の音声認識辞書（小語彙音声認識辞書）を適用した第１の音声認識結果
（４ｂ）第２の音声認識辞書（大語彙音声認識辞書）を適用した第２の音声認識結果
これらの音声認識結果である。
この音声認識結果の生成処理の詳細については後段で説明する。

このように、音声イベント検出部１２２は、複数の異なる位置に配置された複数の音声入力部（マイク）１２１ａ〜ｂから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データと、確率的な推定値からなるユーザ識別情報、さらに異なる辞書を用いた複数の音声認識結果によって構成される［統合音声イベント情報］を生成して音声・画像統合処理部１３１に入力する。

一方、画像入力部（カメラ）１１１から入力された画像情報は、画像イベント検出部１１２を介して音声・画像統合処理部１３１に入力される。画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力する画像情報を解析し、画像に含まれる人物の顔を抽出し、顔の位置情報を確率分布データとして生成する。具体的には、顔の位置や方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの顔の特徴情報との比較処理に基づいてユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。画像イベント検出部１１２には、予め検証すべき複数のユーザの顔についての特徴情報が登録されており、入力画像から抽出した顔領域の画像の特徴情報と登録された顔画像の特徴情報との比較処理を実行して、どのユーザの顔である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。

なお、音声イベント検出部１２２や画像イベント検出部１１２において実行する音声識別や、顔検出、顔識別処理は従来から知られる技術を適用可能である。例えば顔検出、顔識別処理としては以下の文献に開示された技術の適用が可能である。
佐部浩太郎，日台健一，"ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習"，第１０回画像センシングシンポジウム講演論文集，ｐｐ．５４７−５５２，２００４
特開２００４−３０２６４４（Ｐ２００４−３０２６４４Ａ）［発明の名称：顔識別装置、顔識別方法、記録媒体、及びロボット装置］

音声・画像統合処理部１３１は、音声イベント検出部１２２や画像イベント検出部１１２からの入力情報に基づいて、少なくとも以下の２種類の処理を実行する。
（Ａ）ユーザ位置判定処理とユーザ識別処理
（Ｂ）発話内容の解析処理としての音声認識処理

（Ａ）ユーザ位置判定処理とユーザ識別処理は、前述の特許文献３（特開２００９−０３１９５１号公報）に記載の処理と同様の処理である。この処理は、複数のユーザが、それぞれどこにいて、それらは誰で、誰が音声等のシグナルを発したのかを確率的に推定する処理である。

本開示の構成では、音声・画像統合処理部１３１は、さらに、上記の、
（Ｂ）発話内容の解析処理
を実行する。
すなわち、音声イベント検出部１２２から入力する上記の（４ａ），（４ｂ）の音声認識結果、すなわち、
（４ａ）第１の音声認識辞書（小語彙音声認識辞書）を適用した第１の音声認識結果
（４ｂ）第２の音声認識辞書（大語彙音声認識辞書）を適用した第２の音声認識結果
これらの情報を利用して、（Ｂ）発話内容の解析処理を実行して、最終的な音声認識結果を生成する。
具体的には、ユーザの位置を区分し、各区分位置に応じて上記のいずれかの音声認識結果を選択して最終的な音声認識結果とする処理などを行う。
この処理の詳細については後述する。

このように、音声・画像統合処理部１３１は、音声イベント検出部１２２や画像イベント検出部１１２からの入力情報に基づいて、
（Ａ）ユーザ位置判定処理とユーザ識別処理
（Ｂ）発話内容の解析処理としての音声認識処理
これらの処理を行い、処理結果を処理決定部１３２に出力する。

これらの処理結果を受領した処理決定部１３２は、識別処理結果を利用した処理を実行する、例えば、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対してテレビから応答を行うなどの処理を行う。

上述したように、音声イベント検出部１２２は、音声の発生源の位置情報を確率分布データ、具体的には、音源方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。
また、複数の異なる辞書を用いた音声認識結果を生成して音声・画像統合処理部１３１に入力する。

また、画像イベント検出部１１２は、画像に含まれる人物の顔を抽出し、顔の位置情報を確率分布データとして生成する。具体的には、顔の位置や方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの顔の特徴情報との比較処理に基づいてユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。

以下、音声・画像統合処理部１３１の実行する以下の処理について順次説明する。
（Ａ）ユーザ位置判定処理とユーザ識別処理
（Ｂ）発話内容の解析処理としての音声認識処理

［３．ユーザ位置判定処理とユーザ識別処理について］
まず、音声・画像統合処理部１３１の実行するユーザ位置判定処理とユーザ識別処理について説明する。
なお、この処理は、前述したように、前述の特許文献３（特開２００９−０３１９５１号公報）に記載の処理と同様の処理であるので、その概略について説明する。詳細処理については、特開２００９−０３１９５１号公報を参照されたい。

図３を参照して、音声イベント検出部１２２および画像イベント検出部１１２が生成し音声・画像統合処理部１３１に入力する情報の例について説明する。図３（Ａ）は図１を参照して説明したと同様のカメラやマイクが備えられた実環境の例を示し、複数のユーザ１〜ｋ，２０１〜２０ｋが存在する。この環境で、あるユーザが話しをしたとすると、マイクで音声が入力される。また、カメラは連続的に画像を撮影している。

音声イベント検出部１２２および画像イベント検出部１１２が生成し音声・画像統合処理部１３１に入力する情報には、基本的に同様の情報が含まれる。これらは、図３（Ｂ）に示す２つの情報によって構成される。すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらの２つの情報である。

これらの２つの情報は、イベントの発生毎に生成される。音声イベント検出部１２２は、音声入力部（マイク）１２１ａ〜ｂから音声情報が入力された場合に、その音声情報に基づいて上記の（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。画像イベント検出部１１２は、例えば予め定めた一定のフレーム間隔で、画像入力部（カメラ）１１１から入力された画像情報に基づいて（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。なお、本例では、画像入力部（カメラ）１１１は１台のカメラを設定した例を示しており、１つのカメラに複数のユーザの画像が撮影される設定であり、この場合、１つの画像に含まれる複数の顔の各々について（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。

音声イベント検出部１２２が音声入力部（マイク）１２１ａ〜ｂから入力する音声情報に基づいて、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（話者識別情報）
これらの情報を生成する処理について説明する。

音声イベント検出部１２２による（ａ）ユーザ位置情報の生成処理
音声イベント検出部１２２は、音声入力部（マイク）１２１ａ〜ｂから入力された音声情報に基づいて解析された声を発したユーザ、すなわち［話者］の位置の推定情報を生成する。すなわち、話者が存在すると推定される位置を、期待値（平均）［ｍ_ｅ］と分散情報［σ_ｅ］からなるガウス分布（正規分布）データＮ（ｍ_ｅ，σｅ）として生成する。

音声イベント検出部１２２による（ｂ）ユーザ識別情報（話者識別情報）の生成処理
音声イベント検出部１２２は、音声入力部（マイク）１２１ａ〜ｂから入力された音声情報に基づいて話者が誰であるかを、入力音声と予め登録されたユーザ１〜ｋの声の特徴情報との比較処理により推定する。具体的には話者が各ユーザ１〜ｋである確率を算出する。この算出値を（ｂ）ユーザ識別情報（話者識別情報）とする。例えば入力音声の特徴と最も近い登録された音声特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア（例えば０）を配分する処理によって各ユーザである確率を設定したデータを生成して、これを（ｂ）ユーザ識別情報（話者識別情報）とする。

画像イベント検出部１１２が画像入力部（カメラ）１１１から入力する画像情報に基づいて、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報）
これらの情報を生成する処理について説明する。

画像イベント検出部１１２による（ａ）ユーザ位置情報の生成処理
画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像情報に含まれる顔の各々について顔の位置の推定情報を生成する。すなわち、画像から検出された顔が存在すると推定される位置を、期待値（平均）［ｍ_ｅ］と分散情報［σ_ｅ］からなるガウス分布（正規分布）データＮ（ｍ_ｅ，σ_ｅ）として生成する。

画像イベント検出部１１２による（ｂ）ユーザ識別情報（顔識別情報）の生成処理
画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像情報に基づいて、画像情報に含まれる顔を検出し、各顔が誰であるかを、入力画像情報と予め登録されたユーザ１〜ｋの顔の特徴情報との比較処理により推定する。具体的には抽出された各顔が各ユーザ１〜ｋである確率を算出する。この算出値を（ｂ）ユーザ識別情報（顔識別情報）とする。例えば入力画像に含まれる顔の特徴と最も近い登録された顔の特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア（例えば０）を配分する処理によって各ユーザである確率を設定したデータを生成して、これを（ｂ）ユーザ識別情報（顔識別情報）とする。

なお、カメラの撮影画像から複数の顔が検出された場合には、各検出顔に応じて、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報）
これらの情報を生成して、音声・画像統合処理部１３１に入力する。
また、本例では、画像入力部１１１として１台のカメラを利用した例を説明するが、複数のカメラの撮影画像を利用してもよく、その場合は、画像イベント検出部１１２は、各カメラの撮影画像の各々に含まれる各顔について、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報）
これらの情報を生成して、音声・画像統合処理部１３１に入力する。

次に、音声・画像統合処理部１３１の実行する処理について説明する。音声・画像統合処理部１３１は、上述したように、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す２つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらの情報を逐次入力する。なお、これらの各情報の入力タイミングは様々な設定が可能であるが、例えば、音声イベント検出部１２２は新たな音声が入力された場合に上記（ａ），（ｂ）の各情報を音声イベント情報として生成して入力し、画像イベント検出部１１２は、一定のフレーム周期単位で、上記（ａ），（ｂ）の各情報を音声イベント情報として生成して入力するといった設定が可能である。

音声・画像統合処理部１３１は、その仮説を入力情報に基づいて更新することで、より確からしい仮説のみを残す処理を行う。この処理手法として、例えば、パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した処理を実行する。
この処理は、前述の特許文献３（特開２００９−０３１９５１号公報）に記載の処理であるので詳細については省略する。

パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した処理は、様々な仮説、本例では、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定し、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す２つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらの入力情報に基づいて、より確からしいパーティクルのウェイトを高めていくという処理を行う。

本開示に従った処理は、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらの入力情報に基づいて、複数のユーザの位置と複数のユーザがそれぞれ誰であるかを判別する処理を行うことになる。従って、本開示におけるパーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した処理では、音声・画像統合処理部１３１が、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定して、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す２つの情報に基づいて、パーティクル更新を行うことになる。

音声・画像統合処理部１３１、これらの更新処理を実行して、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］、
これらを生成して処理決定部１３２に出力する。

［４．発話内容の解析処理としての音声認識処理について］
次に、本開示の情報処理装置の実行する発話内容の解析処理、すなわち音声認識処理の詳細について説明する。
前述したように、音声イベント検出部１２２は、上記の（４ａ），（４ｂ）の音声認識結果を生成する。すなわち、
（４ａ）第１の音声認識辞書（小語彙音声認識辞書）を適用した第１の音声認識結果
（４ｂ）第２の音声認識辞書（大語彙音声認識辞書）を適用した第２の音声認識結果
これらの音声認識結果である。

音声・画像統合処理部１３１は、音声イベント検出部１２２から上記の（４ａ），（４ｂ）の音声認識結果を入力して発話内容の解析処理を実行して、最終的な音声認識結果を生成する。

この処理に際しては、画像イベント検出部１２１、音声イベント検出部１２２からの入力情報に基づく解析結果、例えばユーザ位置情報やユーザ識別情報を利用する。
画像イベント検出部１２１から入力する画像イベント情報には、前述したように、例えば、「顔検出位置情報、顔識別情報」が含まれる。音声・画像統合処理部１３１は、これらの画像イベントを時系列処理して、「いつ、どこに、だれが」存在するのかを推定する。
また、音声イベント検出部１２２から入力する音声イベント情報には、「音声区間、音源方向、話者識別、音声認識、使用認識辞書」、これらの情報が含まれる。

音声・画像統合処理部１３１は、画像イベントによって推定された「いつ、どこに、だれが」の情報から、音声イベント「音声区間、音源方向、話者識別」の情報を用いて時間的／位置的／識別的に近いユーザを発話者として推定する。

音声・画像統合処理部１３１は、発話を行ったユーザの位置を、ユーザ発話に対応した処理を実行する装置（例えば図１に示すテレビ）の相対位置に応じて以下の３つの位置に区分する。
（１）近い位置（ＮｅａｒＦｉｅｌｄ）であるか、
（２）遠い位置（ＦａｒＦｉｅｌｄ）であるか、
（３）位置不明（ＯｕｔＯｆＦｉｅｌｄ）であるか、

音声・画像統合処理部１３１は、発話を行ったユーザの位置が上記（１）〜（３）のいずれにあるかに応じて、処理シーケンスを決定し、決定した処理シーケンスに従った音声認識処理やユーザ発話管理データの生成、更新処理を実行する。なお、音声・画像統合処理部１３１は、ユーザの位置とユーザ発話に対する処理を実行する装置（例えば図１に示すテレビ）との距離が予め設定した閾値未満である場合は、ユーザ位置を、近い位置（ＮｅａｒＦｉｅｌｄ）と判定し、閾値以上の距離である場合は、遠い位置（ＦａｒＦｉｅｌｄ）と判定する。ユーザが移動する場合は閾値にヒステリシスを持たせて安定化させてもよい。

このように、音声・画像統合処理部１３１は、発話を行ったユーザの位置を区分し、各区分位置に応じて上記のいずれかの音声認識結果を選択して最終的な音声認識結果とする処理などを行う。

図４は、図２を参照して説明した情報処理装置１００の構成に以下の構成を明示的に示した情報処理装置１００の構成図である。
（Ａ）音声イベント検出部１２２が実行する音声認識に適用する辞書としての小語彙音声認識辞書２０１と大語彙音声認識辞書２０２、
（Ｂ）音声・画像統合処理部１３１の処理結果として生成するユーザ発話管理データ２０３、

情報処理装置１００の音声イベント検出部１２２は、小語彙音声認識辞書２０１と大語彙音声認識辞書２０２を記憶部から取得して、これらを利用してユーザ発話の解析処理としての音声認識処理を実行する。
また、情報処理装置１００の音声・画像統合処理部１３１は、音声イベント検出部１２２から入力する音声認識結果、さらに、解析結果として得られるユーザ位置情報やユーザ識別情報に応じて、最終的なユーザ発話の解析結果を生成し、その結果に応じてユーザ発話管理データ２０３の生成、更新を実行する。

図４に示すように、音声イベント検出部１２２が実行する音声認識に適用する辞書には、
（１）小語彙音声認識辞書２０１、
（２）大語彙音声認識辞書２０２、
これら、２種類の辞書がある。

小語彙音声認識辞書２０１は、このシステム（例えば図１に示すテレビ）に対してユーザが要求する処理に対応する基本的な発話内容に対応する語彙が登録された辞書である。
具体的には、「電源」、「オン」、「ボリューム」、「アップ」などの基本語彙からなる辞書であり、１０００単語程度（以下）のオーダーの単語からなる辞書である。

大語彙音声認識辞書２０２は、このシステム（例えば図１に示すテレビ）に対してユーザが要求する処理に対応するより広範囲な発話内容に対応する語彙が登録された辞書である。
具体的には、上記の基本語彙の他、「歌番組」や「録画番組」、「リスト」などの広範囲な語彙からなる辞書であり、１００００単語程度（以上）のオーダーの単語からなる辞書である。

小語彙音声認識辞書２０１と、大語彙音声認識辞書２０２の登録データの例を図５に示す。
小語彙音声認識辞書２０１には、図５に示すように、例えば、以下の単語が登録される。
「電源」、
「ボリューム」、
「チャンネル」、
「オン」、
：

このように、小語彙音声認識辞書２０１には、ユーザ発話に対する処理を実行する装置（テレビ）に対してユーザが発すると推定される基本的な語が登録されている。
なお、この図５に示す登録語の例は、本実施例におけるシステムがテレビである場合の例であり、登録される語はシステムに応じて変更される。
小語彙音声認識辞書２０１には、このように、例えば１０００単語程度（以下）のオーダーの基本的な単語からなる辞書である。

一方、大語彙音声認識辞書２０２には、図５に示すように、上記の小語彙音声認識辞書２０１に登録された単語の他、例えば、以下の単語が登録される。
「画像」、
「世界」、
「一覧」、
「おすすめ」、
「リスト」、
：

このように、大語彙音声認識辞書２０２には、ユーザ発話に対する処理を実行する装置（テレビ）に対してユーザが発すると推定される、より広範囲の様々な語が登録されている。
なお、この図５に示す登録語の例は、本実施例におけるシステムがテレビである場合の例であり、登録される語はシステムに応じて変更される。
大語彙音声認識辞書２０２には、このように、例えば１００００単語程度（以上）のオーダーの単語からなる辞書である。

音声イベント検出部１２２は、マイクから取得する音声情報に応じて、これら２つの辞書、すなわち小語彙音声認識辞書２０１、大語彙音声認識辞書２０２、これらを個別に利用した音声認識処理を並列に実行する。
例えば、ユーザ発話の構文解析を実行して、単語を取り出して取得単語に最も近い登録単語を辞書から選択して、ユーザ発話の内容を推定する。

小語彙音声認識辞書２０１を適用した音声認識処理によって解析可能な発話内容の例と、大語彙音声認識辞書２０２を適用した音声認識処理によって解析可能な発話内容の例を図６に示す。

小語彙音声認識辞書２０１を適用した音声認識処理によって解析可能な発話内容の例としては、図６（ａ）に示すように、例えば、以下の発話がある。
「電源オン」、
「電源オフ」、
「ボリュームアップ」、
音声イベント検出部１２２は、マイクから取得する音声情報に対する小語彙音声認識辞書２０１を適用した音声認識処理によって、例えばこれらの発話内容を取得することができる。

一方、大語彙音声認識辞書２０２を適用した音声認識処理によって解析可能な発話内容の例としては、図６（ａ）に示す小語彙音声認識辞書２０１を適用した音声認識処理によって解析可能な発話内容の他、図６（ｂ）に示すように、例えば、以下の発話がある。
「画像ファイルから人物を検索して」、
「歌番組を見せて」、
音声イベント検出部１２２は、マイクから取得する音声情報に対する大語彙音声認識辞書２０２を適用した音声認識処理によって、例えばこれらの発話内容を取得することができる。

音声イベント検出部１２２は、マイクから取得する音声情報に応じて、これら２つの辞書、すなわち小語彙音声認識辞書２０１、大語彙音声認識辞書２０２、これらを個別に利用した音声認識処理を並列に実行し、それぞれの辞書を適用した２つの音声認識結果を適用辞書の識別子に対応付けて音声・画像統合処理部１３１に出力する。

音声・画像統合処理部１３１は、
（ａ）第１の音声認識辞書（小語彙音声認識辞書）を適用した第１の音声認識結果、
（ｂ）第２の音声認識辞書（大語彙音声認識辞書）を適用した第２の音声認識結果、
これら２つの音声認識結果を音声イベント検出部１２２から受領する。

音声・画像統合処理部１３１は、前述した項目［２．ユーザ位置判定処理とユーザ識別処理について］において説明したように、画像イベント検出部１２１、音声イベント検出部１２２からの入力情報に基づいて、各ユーザの位置判定とユーザ識別処理を実行し、各ユーザがどこにいてそれが誰であるかの識別結果を取得している。

音声・画像統合処理部１３１は、これらのユーザ位置やユーザ識別結果を用いて、最終的な果音声認識処理結果を生成し、さらに、図４に示すユーザ発話管理データ２０３の生成、更新を実行する。

具体的には、例えば、音声認識対象となる発話を行ったユーザのユーザ位置に応じて、音声イベント検出部１２２から入力する以下の２つの音声認識結果、すなわち、
（ａ）小語彙音声認識辞書２０１を適用した第１の音声認識結果、
（ｂ）大語彙音声認識辞書２０２を適用した第２の音声認識結果、
これらの２つの音声認識結果のいずれかを最終的な音声認識結果として選択する処理を実行する。

例えば、音声認識対象となる発話を行ったユーザのユーザ位置が、ユーザ発話に対する処理を実行する装置（本実施例では図１に示すテレビ）あるいはマイクからに近い位置（ＮｅａｒＦｉｅｌｄ）にある場合は、音声イベント検出部１２２から入力する、
（ｂ）大語彙音声認識辞書２０２を適用した第２の音声認識結果、
を最終的な音声認識結果として選択する処理を実行する。

あるいは、
（ａ）小語彙音声認識辞書２０１を適用した第１の音声認識結果、
（ｂ）大語彙音声認識辞書２０２を適用した第２の音声認識結果、
これら２つの音声認識結果を比較し、異なる認識結果が得られている場合は、各音声認識結果に設定された信頼度情報に応じて信頼度の高い認識結果を選択する処理を行う構成としてもよい。
なお、信頼度情報は、音声イベント検出部１２２において音声認識を実行した際に認識結果の属性データとして付与され、音声認識結果に併せて音声・画像統合処理部１３１に提供される。

一方、音声認識対象となる発話を行ったユーザのユーザ位置が、ユーザ発話に対する処理を実行する装置（図１に示すテレビ）あるいはマイクからに遠い位置（ＦａｒＦｉｅｌｄ）、もしくはユーザ位置が認識できない場合（ＯｕｔｏｆＦｉｅｌｄ）は、音声イベント検出部１２２から入力する、
（ａ）小語彙音声認識辞書２０１を適用した第１の音声認識結果、
を最終的な音声認識結果として選択する処理を実行する。

このように、音声・画像統合処理部１３１は、音声認識対象となる発話を行ったユーザのユーザ位置に応じて、音声イベント検出部１２２から入力する以下の２つの音声認識結果、すなわち、
（ａ）小語彙音声認識辞書２０１を適用した第１の音声認識結果、
（ｂ）大語彙音声認識辞書２０２を適用した第２の音声認識結果、
基本的には、これらの２つの音声認識結果のいずれかを最終的な音声認識結果として選択する処理を実行する。

図７は、上述したユーザ位置と音声認識に適用する辞書との対応関係を示した図である。
ユーザ（Ａ）は、ユーザ発話に応じた処理を実行する装置（ＴＶ）、またはマイクからの距離が遠い（ＦａｒＦｉｅｌｄ）であり、小語彙音声認識辞書２０１を適用した音声認識結果が採用される。
ユーザ（Ｂ）は、ユーザ発話に応じた処理を実行する装置（ＴＶ）、またはマイクからの距離が近い（ＮｅａｒＦｉｅｌｄ）であり、大語彙音声認識辞書２０２を適用した音声認識結果が採用される。
ユーザ（Ｃ）は、ユーザ発話に応じた処理を実行する装置（ＴＶ）、またはマイクからの距離が不明であり、小語彙音声認識辞書を適用した音声認識結果が採用される。

ただし、ユーザ位置が遠い位置（ＦａｒＦｉｅｌｄ）にある場合であっても、図４に示すユーザ発話管理データ２０３に登録データがある場合は、この限りではない。すなわち、ユーザ位置が遠い位置（ＦａｒＦｉｅｌｄ）にある場合であっても、大語彙音声認識辞書２０２を適用した音声認識結果を採用する場合がある。
すなわち、ユーザ位置が遠い位置（ＦａｒＦｉｅｌｄ）にあっても、図４に示すユーザ発話管理データ２０３に登録データがある場合には、大語彙音声認識辞書２０２を適用した第２の音声認識結果を最終音声認識結果とする場合がある。
以下、この処理について説明する。

音声・画像統合処理部１３１は、音声認識対象となる発話を行ったユーザのユーザ位置が、システム（本実施例では図１に示すテレビ）あるいはマイクからに近い位置（ＮｅａｒＦｉｅｌｄ）にあり、大語彙音声認識辞書２０２を適用した音声認識結果を最終的な音声認識結果とする処理を実行した場合、そのユーザのユーザ識別子と、認識した語との対応データを図４に示すユーザ発話管理データ２０３に登録する。

音声・画像統合処理部１３１が生成、更新を行うユーザ発話管理データ２０３の登録データの一例を図８に示す。
ユーザ発話管理データ２０３は、各ユーザのユーザ識別子と、そのユーザが近い位置（ＮｅａｒＦｉｅｌｄ）にある時の大語彙音声認識辞書２０２を適用した音声認識結果との対応データを登録している。

例えば、ユーザＡは、ユーザＡが近い位置（ＮｅａｒＦｉｅｌｄ）にある時に、
「画像ファイルから人物を検索して」
「歌番組を見せて」
これらの発話が、大語彙音声認識辞書２０２を適用した音声認識結果として得られており、この認識結果が登録されている。

音声・画像統合処理部１３１は、この管理データを参照して再私有的な音声認識結果の判断を実行することになる。
音声・画像統合処理部１３１は、
音声認識対象としての発話を行ったユーザがユーザ発話管理データ２０３に登録されたユーザであり、
発話ユーザが、システム（ＴＶ）、またはマイクからの距離が遠い（ＦａｒＦｉｅｌｄ）位置にある、
これらの２条件が満たされた場合、以下の処理を実行する。

音声・画像統合処理部１３１は、上記の２条件が満たされた場合、ユーザ発話管理データ２０３の登録データと、音声イベント検出部２０２から入力する大語彙音声認識辞書２０２を適用した音声認識結果とを比較する。
この比較の結果、音声イベント検出部２０２から入力する大語彙音声認識辞書２０２を適用した音声認識結果と一致する登録データ（発話内容）が検出された場合、その一致したし発話内容、すなわち、大語彙音声認識辞書２０２を適用した音声認識結果を最終的な音声認識結果として設定する。

音声イベント検出部２０２から入力する大語彙音声認識辞書２０２を適用した音声認識結果と一致する登録データ（発話内容）が検出されなかった場合は、前述の基本処理として説明した遠い（ＦａｒＦｉｅｌｄ）位置にあるユーザに対応する処理、すなわち、小語彙音声認識辞書２０１を適用した音声認識結果を最終的な音声認識結果として設定する。

このように、音声・画像統合処理部１３１は、ユーザ識別結果が得られており、その識別されたユーザの発話として、大語彙音声認識辞書２０２を適用した音声認識結果がユーザ発話管理データ２０３に登録されている場合には、そのユーザ位置が遠い場合でも、その大語彙音声認識辞書２０２を適用した音声認識結果を最終認識結果として採用する処理を行う。

図９に、音声・画像統合処理部１３１の実行する発話内容の最終判定処理と、判定結果に基づく音声認識結果の受理、棄却判定シーケンスを説明するフローチャートを示す。

なお、音声・画像統合処理部１３１の実行する発話内容の最終判定処理とは、音声イベント検出部２０２から入力する小語彙音声認識辞書２０１を適用した音声認識結果、あるいは大語彙音声認識辞書２０２を適用した音声認識結果のいずれをユーザ発話内容として選択するかの処理である。

なお、この図９に示すフローは、音声・画像統合処理部１３１において、画像イベント検出部１１２から画像イベント情報を入力し、音声イベント検出部１２２から音声イベント情報を入力し、これらの入力情報に基づいて、発話を行ったユーザの位置の判定、およびユーザ識別処理が実行された後の処理シーケンスを説明するフローである。
ユーザ位置判定とユーザ識別処理は、前述の特許文献３（特開２００９−０３１９５１号公報）に記載の処理に従って行われる。

図９に示すフローの各ステップの処理について説明する。
まず、ステップＳ１０１において、発話内容の解析対象となるユーザ位置が、下記のいずれであるかを判別する。
（１）ユーザ発話に対応した処理を実行する装置から近い（ＮｅａｒＦｉｅｌｄ）、
（２）ユーザ発話に対応した処理を実行する装置から遠い（ＦａｒＦｉｅｌｄ）、
（３）ユーザ位置が不明
なお、これらのユーザ位置が近い、遠いの判定は、予め設定した閾値に従って判定する。また、音声入力部であるマイクは、ユーザ発話に対応した処理を実行する装置の近傍に設置されているものとする。

まず、ユーザ位置が近い（ＮｅａｒＦｉｅｌｄ）と判定した場合の処理について説明する。
ユーザ位置が近い（ＮｅａｒＦｉｅｌｄ）と判定した場合は、ステップＳ１０６に進む。
ステップＳ１０６では、音声イベント検出部２０２から入力した大語彙音声認識辞書２０２を適用した音声認識結果を選択する。

さらに、ステップＳ１０７において、このステップＳ１０６で選択した大語彙音声認識辞書２０２を適用した音声認識結果が、ユーザ発話管理データ、すなわち、先に図８を参照して説明したユーザ発話管理データ２０３に登録されているか否かを判定する。

大語彙音声認識辞書２０２を適用した音声認識結果がユーザ発話管理データ２０３に登録されていない場合は、ステップＳ１０８に進み、ステップＳ１０６において選択した大語彙音声認識辞書２０２を適用した音声認識結果を新規エントリとして、ユーザ発話管理データ２０３に登録する処理を実行した後、ステップＳ１０９に進む。
なお、新規登録エントリの構成データは、図８に示すユーザ発話管理データ２０３に示すように、ユーザ識別子と、ユーザ発話内容との対応データである。

一方、ステップＳ１０７において、大語彙音声認識辞書２０２を適用した音声認識結果がユーザ発話管理データ２０３に登録されていることを確認した場合は、ステップＳ１０８の登録処理を省略し、ステップＳ１０９に進む。

ステップＳ１０９では、ステップＳ１０６において選択した大語彙音声認識辞書２０２を適用した音声認識結果を、受理可能か否かを判定する。この判定処理は、ユーザ発話に応じた処理を実行する装置に予め設定された判定アルゴリズムに従って実行する。
例えば、システム（例えば図１に示すテレビ）が実行可能な処理であるか否かに応じた判定処理として、受理または棄却いずれかの判定を行う。

なお、大語彙音声認識辞書２０２を適用した音声認識結果は、より多くの単語に基づく音声認識が実行されるため、より精度の高い音声認識が実行されることになる。従って、その音声認識結果に対応する発話内容に対応する処理は処理可能な要求である可能性が高く、「受理」される可能性が高くなる。
しかし、小語彙音声認識辞書２０１を適用した音声認識結果は、少ない単語に基づく音声認識が実行されるため、精度の低い誤った音声認識が実行される場合がある。

例えば、ユーザ発話が「画像ファイルから人物を検索して」という内容である場合、小語彙音声認識辞書２０１を適用した音声認識処理では、この内容が正確に把握できず、音声認識結果として、「認識不能」、あるいは誤った認識結果を音声・画像統合処理部１３１に出力することになる。
このような場合は、発話内容に対応する処理は処理不可能と判定され、「棄却」される。

ステップＳ１０９の判定処理において、音声認識結果を受理可能と判定した場合は、ステップＳ１１０に進み、音声認識結果を受理する。この場合、例えば図１に示すテレビの画面に受理したことを通知するメッセージ表示、あるいは音声で通知する処理などを行ってもよい。

一方、ステップＳ１０９の判定処理において、音声認識結果を受理不可能と判定した場合は、ステップＳ１１１に進み、音声認識結果を棄却する。この場合、例えば図１に示すテレビの画面に棄却したことを通知するメッセージ表示、あるいは音声で通知する処理などを行ってもよい。

次に、ステップＳ１０１の判定処理において、発話内容の解析対象となるユーザ位置が、ユーザ発話に対応した処理を実行する装置から遠い（ＦａｒＦｉｅｌｄ）、またはユーザ位置が不明と判定した場合の処理について説明する。

ユーザ位置が遠い（ＦａｒＦｉｅｌｄ）、または不明であると判定した場合は、ステップＳ１０２に進む。
ステップＳ１０２では、先に図８を参照して説明したユーザ発話管理データ２０３を参照して、識別されたユーザの発話が登録されているか否かを判定する。この時点ですでにユーザ識別は完了しており、発話を行ったユーザがだれであるかの識別がなされているものとする。

識別されたユーザの発話内容が、図８を参照して説明したユーザ発話管理データ２０３に登録されている場合はステップＳ１０３に進む。
一方、識別されたユーザの発話内容が、図８を参照して説明したユーザ発話管理データ２０３に登録されていない場合はステップＳ１０４に進む。

識別されたユーザの発話内容が、図８を参照して説明したユーザ発話管理データ２０３に登録されている場合はステップＳ１０３に進み、ステップＳ１０３において、さらに、ユーザ発話管理データ２０３に登録されている発話内容と、音声イベント検出部１２２から入力した大語彙音声認識辞書２０２を適用した音声認識結果とが一致するか否かを判定する。

一致する場合は、ステップＳ１０５に進み、大語彙音声認識辞書２０２を適用した音声認識結果を最終的な音声認識結果として選択する。

一方、ステップＳ１０２において、識別されたユーザの発話内容が、図８を参照して説明したユーザ発話管理データ２０３に登録されていないと判定した場合はステップＳ１０４に進む。
また、ステップＳ１０３において、ユーザ発話管理データ２０３に登録されている発話内容と、音声イベント検出部１２２から入力した大語彙音声認識辞書２０２を適用した音声認識結果とが一致しないと判定した場合もステップＳ１０４に進む。

ステップＳ１０４では、小語彙音声認識辞書２０１を適用した音声認識結果を最終的な音声認識結果として選択する。

ステップＳ１０４における小語彙音声認識辞書２０１を適用した音声認識結果を最終的な音声認識結果として選択する処理、または、
ステップＳ１０５における大語彙音声認識辞書２０２を適用した音声認識結果を最終的な音声認識結果として選択する処理、
これらの処理が終了すると、ステップＳ１０９に進む。

ステップＳ１０９以下の処理は、既に説明した通りである。
すなわち、各辞書を適用して得られた音声認識結果が受理可能か否かの判定を実行し、受理または棄却処理を実行する。

図１０〜図１３は、ユーザ位置と辞書の選択適用処理、さらに音声認識結果の受理または棄却処理の対応関係を説明した図である。
ユーザの発話が、以下の発話であるとする。
「画像ファイルから人物を検索して」
この発話は、ユーザ発話管理データ２０３に登録されていないものとする。

まず、図１０に示すように、ユーザ（Ａ）が、ユーザ発話に応じた処理を実行する装置およびマイクから距離が遠い（ＦａｒＦｉｅｌｄ）位置において、
「画像ファイルから人物を検索して」
上記発話を行ったものとする。

この場合、図９に示すフローチャートのステップＳ１０１→ステップＳ１０２→ステップＳ１０４と進む。
ステップＳ１０４において、小語彙音声認識辞書２０１を適用した音声認識結果が選択されるが、この音声認識結果は、「認識不能」または「誤認識」のいずれかの認識結果となる。

この「認識不能」または「誤認識」のいずれかの認識結果に応じて、ステップＳ１０９の音声認識結果の受理可能性の判定が行われる。
この結果として、音声認識結果に対応する処理を実行する装置は、処理不可能と判定し、ステップＳ１１１に進み、音声認識結果の棄却を行い、図１０に示すように、ユーザに対して棄却メッセージを通知する。

次に、図１１に示すように、ユーザ（Ａ）がユーザ発話に応じた処理を実行する装置およびマイクから距離が遠い（ＦａｒＦｉｅｌｄ）位置から近い（ＮｅａｒＦｉｅｌｄ）に移動して、同じ発話、すなわち、
「画像ファイルから人物を検索して」
上記発話を行ったものとする。

この場合、図９に示すフローチャートのステップＳ１０１→ステップＳ１０６と進む。
ステップＳ１０６において、大語彙音声認識辞書２０２を適用した音声認識結果が選択される。
大語彙音声認識辞書２０２を適用した音声認識結果は、ユーザ（Ａ）の発話、すなわち、
「画像ファイルから人物を検索して」
上記発話を正確に認識した結果となる。

さらに、ステップＳ１０６から、ステップＳ１０７→ステップＳ１０８と進む。
ステップＳ１０８において、大語彙音声認識辞書２０２を適用した音声認識結果をユーザ発話管理データ２０３に登録する処理が行われる。
すなわち、以下のユーザ識別子と発話内容の対応データが登録される。
ユーザ（Ａ）：「画像ファイルから人物を検索して」

その後、ステップＳ１０９において、音声認識結果の受理可能性の判定が行われる。
この判定では、大語彙音声認識辞書２０２を適用した音声認識結果、すなわち、
「画像ファイルから人物を検索して」
このユーザ発話を正確に反映した音声認識結果に基づく処理となり、この結果として、音声認識結果に対応する処理を実行する装置は、処理可能と判定し、ステップＳ１１０に進み、音声認識結果の受理を行い、図１１に示すように、ユーザに対して受理メッセージを通知する。

次に、図１２に示すように、ユーザ（Ａ）がユーザ発話に応じた処理を実行する装置およびマイクから距離が近い（ＮｅａｒＦｉｅｌｄ）位置から、再度、遠い（ＦａｒＦｉｅｌｄ）位置に移動して、同じ発話、すなわち、
「画像ファイルから人物を検索して」
上記発話を行ったものとする。
この位置関係は、図１０に示す設定と同様である。ただし、図１２に示す設定では、先に図１１をも参照して説明した処理により、ユーザ発話管理データ２０３に以下のエントリが登録されている。
ユーザＡ：「画像ファイルから人物を検索して」
上記のユーザ識別子と発話内容との対応データが、ユーザ発話管理データ２０３に登録されている。

この場合、図９に示すフローチャートのステップＳ１０１→ステップＳ１０２→ステップＳ１０３と進む。
ステップＳ１０３において、ユーザ発話管理データ２０３に登録されている発話内容と、音声イベント検出部１２２から入力した大語彙音声認識辞書２０２を適用した音声認識結果とが一致するか否かを判定する。
この場合は一致することになり、ステップＳ１０５に進み、大語彙音声認識辞書２０２を適用した音声認識結果を最終的な音声認識結果として選択する。

その後、ステップＳ１０９において、音声認識結果の受理可能性の判定が行われる。
この判定では、大語彙音声認識辞書２０２を適用した音声認識結果、すなわち、
「画像ファイルから人物を検索して」
このユーザ発話を正確に反映した音声認識結果に基づく処理となり、この結果として、音声認識結果に対応する処理を実行する装置は、処理可能と判定し、ステップＳ１１０に進み、音声認識結果の受理を行い、図１２に示すように、ユーザに対して受理メッセージを通知する。

このように、ユーザ位置がユーザ発話に応じた処理を実行する装置およびマイクから距離が遠い（ＦａｒＦｉｅｌｄ）位置にある場合であっても、ユーザ発話管理データ２０３に登録されている発話内容と、音声イベント検出部１２２から入力した大語彙音声認識辞書２０２を適用した音声認識結果とが一致する場合は、大語彙音声認識辞書２０２を適用した音声認識結果を適用した処理が実行される。

図１３は、ユーザ（Ａ）と異なるユーザ（Ｂ）が、ユーザ発話に応じた処理を実行する装置およびマイクから距離が遠い（ＦａｒＦｉｅｌｄ）位置において、
「画像ファイルから人物を検索して」
上記発話を行った場合の処理例を示している。

ユーザ発話管理データ２０３には、以下のユーザ識別子と発話内容の対応データが登録されている。
ユーザ（Ａ）：「画像ファイルから人物を検索して」
このデータが、ユーザ発話管理データ２０３に登録されている。

しかし、ユーザ（Ｂ）についての登録データ、すなわち、
ユーザ（Ｂ）：「画像ファイルから人物を検索して」
このデータは、ユーザ発話管理データ２０３に登録されていない。

この場合の処理は、先に図１０を参照して説明した処理と同様となる。
すなわち、図９に示すフローチャートのステップＳ１０１→ステップＳ１０２→ステップＳ１０４と進む。
ステップＳ１０４において、小語彙音声認識辞書２０１を適用した音声認識結果が選択されるが、この音声認識結果は、「認識不能」または「誤認識」のいずれかの認識結果となる。

この「認識不能」または「誤認識」のいずれかの認識結果に応じて、ステップＳ１０９の音声認識結果の受理可能性の判定が行われる。
この結果として、音声認識結果に対応する処理を実行する装置は、処理不可能と判定し、ステップＳ１１１に進み、音声認識結果の棄却を行い、図１３に示すように、ユーザに対して棄却メッセージを通知する。

このように、本開示の処理に従えば、ユーザの位置情報や、ユーザ識別情報に応じた最適な音声認識処理および発話確認が可能となり、ユーザ要求に対する正確な応答処理が可能となる。

［５．本開示の構成のまとめ］
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

なお、本明細書において開示した技術は、以下のような構成をとることができる。
（１）実空間における画像情報および音声情報を入力する複数の情報入力部と、
前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出部と、
前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する情報統合処理部と、
を有することを特徴とする情報処理装置。

（２）前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値未満の近い（ＮｅａｒＦｉｅｌｄ）位置にある場合、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、前記ユーザ装置間距離が既定閾値以上の遠い（ＦａｒＦｉｅｌｄ）位置にある場合、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する前記（１）に記載の情報処理装置。
（３）前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置が不明である場合、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する前記（１）または（２）に記載の情報処理装置。

（４）前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値未満の近い（ＮｅａｒＦｉｅｌｄ）位置にある場合、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、さらに、前記大語彙辞書対応音声認識結果をユーザ識別子と対応付けてユーザ発話管理データとして登録する前記（１）〜（３）いずれかに記載の情報処理装置。

（５）前記情報統合処理部は、音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値以上の遠い（ＦａｒＦｉｅｌｄ）位置にある場合、またはユーザ位置が不明である場合、前記ユーザ発話管理データを参照し、識別されたユーザのユーザ識別子と前記大語彙辞書対応音声認識結果との対応データが前記ユーザ発話管理データに登録されているか否かを判定し、登録されている場合は、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、登録されていない場合は、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する前記（４）に記載の情報処理装置。

（６）前記情報統合処理部は、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかから選択した最終音声認識結果に応じた処理の実行可能性に応じて、音声認識結果の受理または棄却メッセージの出力を実行する前記（１）〜（５）いずれかに記載の情報処理装置。

さらに、上記した装置において実行する処理の方法や、処理を実行させるプログラムおよびプログラムを記録した記録媒体も本開示の構成に含まれる。

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本開示の一実施例の構成によれば、ユーザ位置およびユーザ識別情報に基づいて処理態様を変更して高精度の音声認識処理を行う構成が実現される。
具体的には、実空間における画像情報および音声情報を入力する複数の情報入力部と、情報入力部からの入力情報の解析により、実空間に存在するユーザ位置および識別ユーザの推定情報と、登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出部と、イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、小語彙辞書対応音声認識結果と、大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する。
本構成により、例えば発話ユーザの位置が装置に近い場合は、大語彙音声認識辞書を適用し、遠い場合は小語彙音声認識辞書を適用することで、認識誤りを抑えた精度の高い音声認識処理が実現される。

１１〜１４ユーザ
２１カメラ
３１〜３２マイク
１００情報処理装置
１１１画像入力部
１１２画像イベント検出部
１２１音声入力部
１２２音声イベント検出部
１３１音声・画像統合処理部
１３２処理決定部
２０１小語彙音声認識辞書
２０２大語彙音声認識辞書
２０３ユーザ発話管理データ

Claims

実空間における画像情報および音声情報を入力する複数の情報入力部と、
前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出部と、
前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する情報統合処理部と、
を有することを特徴とする情報処理装置。
前記情報統合処理部は、
音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値未満の近い（ＮｅａｒＦｉｅｌｄ）位置にある場合、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、
前記ユーザ装置間距離が既定閾値以上の遠い（ＦａｒＦｉｅｌｄ）位置にある場合、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する請求項１に記載の情報処理装置。
前記情報統合処理部は、
音声認識処理対象となる発話ユーザのユーザ位置が不明である場合、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する請求項１に記載の情報処理装置。
前記情報統合処理部は、
音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値未満の近い（ＮｅａｒＦｉｅｌｄ）位置にある場合、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、
さらに、前記大語彙辞書対応音声認識結果をユーザ識別子と対応付けてユーザ発話管理データとして登録する請求項１に記載の情報処理装置。
前記情報統合処理部は、
音声認識処理対象となる発話ユーザのユーザ位置と、発話に対する処理を行う装置との距離であるユーザ装置間距離が既定閾値以上の遠い（ＦａｒＦｉｅｌｄ）位置にある場合、またはユーザ位置が不明である場合、
前記ユーザ発話管理データを参照し、識別されたユーザのユーザ識別子と前記大語彙辞書対応音声認識結果との対応データが前記ユーザ発話管理データに登録されているか否かを判定し、登録されている場合は、前記大語彙辞書対応音声認識結果を最終音声認識結果として選択し、
登録されていない場合は、前記小語彙辞書対応音声認識結果を最終音声認識結果として選択する請求項４に記載の情報処理装置。
前記情報統合処理部は、
前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかから選択した最終音声認識結果に応じた処理の実行可能性に応じて、音声認識結果の受理または棄却メッセージの出力を実行する請求項１に記載の情報処理装置。
情報処理装置において実行する情報処理方法であり、
複数の情報入力部が、実空間における画像情報および音声情報を入力する情報入力ステップと、
イベント検出部が、
前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成するイベント検出ステップと、
情報統合処理部が、
前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行し、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成する情報統合処理ステップと、
を実行することを特徴とする情報処理方法。
情報処理装置において情報処理を実行させるプログラムであり、
複数の情報入力部に、実空間における画像情報および音声情報を入力させる情報入力ステップと、
イベント検出部に、
前記情報入力部からの入力情報の解析により、前記実空間に存在するユーザ位置および識別ユーザの推定情報と、
登録語数が相対的に少ない小語彙音声認識辞書を適用した小語彙辞書対応音声認識結果と、
登録語数が相対的に多い大語彙音声認識辞書を適用した大語彙辞書対応音声認識結果を生成させるイベント検出ステップと、
情報統合処理部に、
前記イベント検出部からの入力情報に基づいて、ユーザ位置およびユーザ識別処理を実行させ、取得したユーザ位置およびユーザ識別情報を適用して、前記小語彙辞書対応音声認識結果と、前記大語彙辞書対応音声認識結果のいずれかを選択して最終音声認識結果を生成させる情報統合処理ステップと、
を実行させることを特徴とするプログラム。