JP2009140366A

JP2009140366A - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Info

Publication number: JP2009140366A
Application number: JP2007317711A
Authority: JP
Inventors: Tsutomu Sawada; 務澤田; Takeshi Ohashi; 武史大橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-12-07
Filing date: 2007-12-07
Publication date: 2009-06-25
Anticipated expiration: 2027-12-07
Also published as: CN101452529A; CN101452529B; US20090147995A1; JP4462339B2

Abstract

【課題】不確実で非同期な入力情報に基づく情報解析により、ユーザ位置や識別情報、発話者情報などを生成する構成を実現する。
【解決手段】画像情報や音声情報に基づいてユーザの推定位置および推定識別データを含むイベント情報を入力し、ターゲットを設定した複数パーティクルを適用したパーティクルフィルタリング処理による仮説の更新および取捨選択に基づいてユーザの位置および識別情報を生成する。ターゲットをイベント、例えば顔画像に対応して設定する構成とし、不確実非同期な位置情報、識別情報から正しい情報を残存させ、ユーザ位置やユーザ識別情報を効率的に確実に生成可能となり、また発話者の特定などにおいても精度の高い処理が実現される。
【選択図】図２

Description

本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに詳細には、外界からの入力情報、例えば画像、音声などの情報を入力し、入力情報に基づく外界環境の解析、具体的には言葉を発している人物の位置や誰であるか等の解析処理を実行する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。

人とＰＣやロボットなどの情報処理装置との相互間の処理、例えばコミュニケーションやインタラクティブ処理を行うシステムはマン−マシンインタラクションシステムと呼ばれる。このマン−マシンインタラクションシステムにおいて、ＰＣやロボット等の情報処理装置は、人のアクション例えば人の動作や言葉を認識するために画像情報や音声情報を入力して入力情報に基づく解析を行う。

人が情報を伝達する場合、言葉のみならずしぐさ、視線、表情など様々なチャネルを情報伝達チャネルとして利用する。このようなすべてのチャネルの解析をマシンにおいて行うことができれば、人とマシンとのコミュニケーションも人と人とのコミュニケーションと同レベルに到達することができる。このような複数のチャネル（モダリティ、モーダルとも呼ばれる）からの入力情報の解析を行うインタフェースは、マルチモーダルインタフェースと呼ばれ、近年、開発、研究が盛んに行われている。

例えばカメラによって撮影された画像情報、マイクによって取得された音声情報を入力して解析を行う場合、より詳細な解析を行うためには、様々なポイントに設置した複数のカメラおよび複数のマイクから多くの情報を入力することが有効である。

具体的なシステムとしては、例えば以下のようなシステムが想定される。情報処理装置（テレビ）が、カメラおよびマイクを介して、テレビの前のユーザ（父、母、姉、弟）の画像および音声を入力し、それぞれのユーザの位置やどのユーザが発した言葉であるか等を解析し、テレビが解析情報に応じた処理、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対する的確な応答を行うなどのシステムが実現可能となる。

従来の一般的なマン−マシンインタラクションシステムの多くは、複数チャネル（モーダル）からの情報を決定論的に統合して、複数のユーザが、それぞれどこにいて、それらは誰で、誰がシグナルを発したのかを決定するという処理を行っていた。このようなシステムを開示した従来技術として、例えば特許文献１（特開２００５−２７１１３７号公報）、特許文献２（特開２００２−２６４０５１号公報）がある。

しかし、従来のシステムにおいて行われるマイクやカメラから入力される不確実かつ非同期なデータを利用した決定論的な統合処理方法ではロバスト性にかけ、精度の低いデータしか得られないという問題がある。実際のシステムにおいて、実環境で取得可能なセンサ情報、すなわちカメラからの入力画像やマイクから入力される音声情報には様々な余分な情報、例えばノイズや不要な情報が含まれる不確実なデータであり、画像解析や音声解析処理を行う場合には、このようなセンサ情報から有効な情報を効率的に統合する処理が重要となる。
特開２００５−２７１１３７号公報特開２００２−２６４０５１号公報

本発明は、上述の問題点に鑑みてなされたものであり、複数のチャネル（モダリティ、モーダル）からの入力情報の解析、具体的には、例えば周囲にいる人物の位置などの特定処理を行うシステムにおいて、画像、音声情報などの様々な入力情報に含まれる不確実な情報に対する確率的な処理を行ってより精度の高いと推定される情報に統合する処理を行うことによりロバスト性を向上させ、精度の高い解析を行う情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。

本発明の第１の側面は、
実空間の観測情報を入力する複数の情報入力部と、
前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出部と、
ユーザの位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザの位置情報を含む解析情報を生成する情報統合処理部と、
を有し、
前記情報統合処理部は、
仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザの位置情報を含む解析情報を生成する構成であり、
前記パーティクルに設定するターゲットデータの各々を前記イベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行う構成を有することを特徴とする情報処理装置にある。

さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記イベント検出部において検出された顔画像単位のイベント各々にターゲットを対応付けて処理を行なう構成を有することを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記パーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記イベント検出部は、画像情報入力部から入力する画像フレームから顔領域を検出し、検出した顔領域から顔属性情報を抽出して抽出した顔属性情報に対応する顔属性スコアを算出して前記情報統合処理部に出力する構成であり、前記情報統合処理部は、前記イベント検出部から入力する顔属性スコアを適用して、前記ターゲット各々に対応する顔属性期待値を算出することを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記イベント検出部の検出する顔属性スコアは、顔領域の口の動き検出に基づいて生成されるスコアであり、前記情報統合処理部の生成する顔属性期待値は、ターゲットが発話者である確率値に対応する値であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記イベント検出部は、ＶＳＤ（ＶｉｓｕａｌＳｐｅｅｃｈＤｅｔｅｃｔｉｏｎ）を適用した処理により顔領域の口の動き検出を実行することを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記イベント検出部から入力するイベント情報に顔属性スコアが含まれない場合、予め設定された事前知識の値［Ｓ_{ｐｒｉｏｒ}］を用いることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記イベント検出部の検出情報から得られる音声入力期間中のユーザ位置情報とユーザ識別情報から算出するターゲットの発話源確率Ｐ（ｔＩＤ）と前記顔属性スコアの値を適用して、各ターゲットの発話者確率を算出する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、音声入力期間をΔｔとしたとき、前記発話源確率Ｐ［（ｔＩＤ）］と、顔属性スコア［Ｓ（ｔＩＤ）］を適用した重み付け加算により各ターゲットの発話者確率［Ｐｓ（ｔＩＤ）］を算出する構成であり、下式、
Ｐｓ（ｔＩＤ）＝Ｗｓ（ｔＩＤ）／ΣＷｓ（ｔＩＤ）
ただし、
Ｗｓ（ｔＩＤ）＝（１−α）Ｐ（ｔＩＤ）Δｔ＋αＳ_Δｔ（ｔＩＤ）
αは重み係数、
上記式により、各ターゲットの発話者確率［Ｐｓ（ｔＩＤ）］を算出する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、音声入力期間をΔｔとしたとき、前記発話源確率Ｐ［（ｔＩＤ）］と、顔属性スコア［Ｓ（ｔＩＤ）］を適用した重み付け乗算により各ターゲットの発話者確率［Ｐｐ（ｔＩＤ）］を算出する構成であり、下式、
Ｐｐ（ｔＩＤ）＝Ｗｐ（ｔＩＤ）／ΣＷｐ（ｔＩＤ）
ただし、
Ｗｐ（ｔＩＤ）＝（Ｐ（ｔＩＤ）Δｔ）^{（１−α）}×Ｓ_Δｔ（ｔＩＤ）^α
αは重み係数、
上記式により、各ターゲットの発話者確率［Ｐｐ（ｔＩＤ）］を算出する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記イベント検出部は、ガウス分布からなるユーザの推定位置情報と、ユーザ対応の確率値を示すユーザ確信度情報を含むイベント情報を生成する構成であり、前記情報統合処理部は、仮想的なユーザに対応するガウス分布からなるユーザ位置情報と、ユーザ対応の確率値を示すユーザの確信度情報を有するターゲットを複数設定したパーティクルを保持した構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、各パーティクルに設定したイベント発生源仮説ターゲットと、前記イベント検出部から入力するイベント情報との尤度を算出し、該尤度の大小に応じた値をパーティクル重みとして各パーティクルに設定する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記パーティクル重みの大きいパーティクルを優先的に再選択するリサンプリング処理を実行して、パーティクルの更新処理を行う構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、各パーティクルに設定したターゲットについて、経過時間を考慮した更新処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記パーティクルの各々に設定したイベント発生源仮説ターゲットの数に応じて、イベント発生源の確率値としてのシグナル情報の生成を行う構成であることを特徴とする。

さらに、本発明の第２の側面は、
情報処理装置において、情報解析処理を実行する情報処理方法であり、
複数の情報入力部が、実空間における観測情報を入力する情報入力ステップと、
イベント検出部が、前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出ステップと、
情報統合処理部が、ユーザの位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザの位置情報を含む解析情報を生成する情報統合処理ステップと、
を有し、
前記情報統合処理ステップは、
仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザの位置情報を含む解析情報を生成するステップであり、
前記パーティクルに設定するターゲットデータの各々を前記イベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行うことを特徴とする情報処理方法にある。

さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記イベント検出部において検出された顔画像単位のイベント各々にターゲットを対応付けて処理を行なうことを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記パーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記イベント検出ステップは、画像情報入力部から入力する画像フレームから顔領域を検出し、検出した顔領域から顔属性情報を抽出して抽出した顔属性情報に対応する顔属性スコアを算出して前記情報統合処理部に出力するステップを含み、前記情報統合処理ステップは、前記イベント検出部から入力する顔属性スコアを適用して、前記ターゲット各々に対応する顔属性期待値を算出することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記イベント検出部の検出する顔属性スコアは、顔領域の口の動き検出に基づいて生成されるスコアであり、前記情報統合処理ステップにおいて生成する顔属性期待値は、ターゲットが発話者である確率値に対応する値であることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記イベント検出ステップは、ＶＳＤ（ＶｉｓｕａｌＳｐｅｅｃｈＤｅｔｅｃｔｉｏｎ）を適用した処理により顔領域の口の動き検出を実行することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記イベント検出部から入力するイベント情報に顔属性スコアが含まれない場合、予め設定された事前知識の値［Ｓ_{ｐｒｉｏｒ}］を用いることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記イベント検出部の検出情報から得られる音声入力期間中のユーザ位置情報とユーザ識別情報から算出するターゲットの発話源確率Ｐ（ｔＩＤ）と前記顔属性スコアの値を適用して、各ターゲットの発話者確率を算出する構成であることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、音声入力期間をΔｔとしたとき、前記発話源確率Ｐ［（ｔＩＤ）］と、顔属性スコア［Ｓ（ｔＩＤ）］を適用した重み付け加算により各ターゲットの発話者確率［Ｐｓ（ｔＩＤ）］を算出するステップであり、下式、
Ｐｓ（ｔＩＤ）＝Ｗｓ（ｔＩＤ）／ΣＷｓ（ｔＩＤ）
ただし、
Ｗｓ（ｔＩＤ）＝（１−α）Ｐ（ｔＩＤ）Δｔ＋αＳ_Δｔ（ｔＩＤ）
αは重み係数、
上記式により、各ターゲットの発話者確率［Ｐｓ（ｔＩＤ）］を算出することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、音声入力期間をΔｔとしたとき、前記発話源確率Ｐ［（ｔＩＤ）］と、顔属性スコア［Ｓ（ｔＩＤ）］を適用した重み付け乗算により各ターゲットの発話者確率［Ｐｐ（ｔＩＤ）］を算出するステップであり、下式、
Ｐｐ（ｔＩＤ）＝Ｗｐ（ｔＩＤ）／ΣＷｐ（ｔＩＤ）
ただし、
Ｗｐ（ｔＩＤ）＝（Ｐ（ｔＩＤ）Δｔ）^{（１−α）}×Ｓ_Δｔ（ｔＩＤ）^α
αは重み係数、
上記式により、各ターゲットの発話者確率［Ｐｐ（ｔＩＤ）］を算出することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記イベント検出ステップは、ガウス分布からなるユーザの推定位置情報と、ユーザ対応の確率値を示すユーザ確信度情報を含むイベント情報を生成するステップであり、前記情報統合処理ステップは、仮想的なユーザに対応するガウス分布からなるユーザ位置情報と、ユーザ対応の確率値を示すユーザの確信度情報を有するターゲットを複数設定したパーティクルにおけるターゲット更新を実行することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、各パーティクルに設定したイベント発生源仮説ターゲットと、前記イベント検出部から入力するイベント情報との尤度を算出し、該尤度の大小に応じた値をパーティクル重みとして各パーティクルに設定することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記パーティクル重みの大きいパーティクルを優先的に再選択するリサンプリング処理を実行して、パーティクルの更新処理を行うことを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、各パーティクルに設定したターゲットについて、経過時間を考慮した更新処理を実行することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記パーティクルの各々に設定したイベント発生源仮説ターゲットの数に応じて、イベント発生源の確率値としてのシグナル情報の生成を行うことを特徴とする。

さらに、本発明の第３の側面は、
情報処理装置において、情報解析処理を実行させるコンピュータ・プログラムであり、
複数の情報入力部に、実空間における観測情報を入力させる情報入力ステップと、
イベント検出部に、前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成させるイベント検出ステップと、
情報統合処理部に、ユーザの位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザの位置情報を含む解析情報を生成させる情報統合処理ステップと、
を有し、
前記情報統合処理ステップは、
仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザの位置情報を含む解析情報を生成させるステップであり、
前記パーティクルに設定するターゲットデータの各々を前記イベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行わせることを特徴とするコンピュータ・プログラムにある。

なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本発明の一実施例の構成によれば、カメラやマイクによって取得される画像情報や音声情報に基づいてユーザの推定位置および推定識別データを含むイベント情報を入力して、複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を行い、フィルタリングによる仮説の更新および取捨選択に基づいてユーザの位置および識別情報を生成する。特に各パーティクルに設定するターゲットをイベント情報入力部の入力するイベント、例えば顔画像に対応して設定する構成としたので、不確実で非同期な位置情報、識別情報を入力情報としても確からしい情報を効率的に残存させることが可能となり、ユーザ位置やユーザ識別情報を効率的に確実に生成することが可能となり、また発話者の特定などにおいても精度の高い処理が実現される。

以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。

まず、図１を参照して本発明に係る情報処理装置の実行する処理の概要について説明する。本発明の情報処理装置１００は、実空間における観測情報を入力するセンサ、ここでは一例としてカメラ２１と、複数のマイク３１〜３４から画像情報、音声情報を入力し、これらの入力情報に基づいて環境の解析を行う。具体的には、複数のユーザ１，１１〜４，１４の位置の解析、およびその位置にいるユーザの識別を行う。

図に示す例において、例えばユーザ１，１１〜ユーザ４，１４が家族である父、母、姉、弟であるとき、情報処理装置１００は、カメラ２１と、複数のマイク３１〜３４から入力する画像情報、音声情報の解析を行い、４人のユーザ１〜４の存在する位置、各位置にいるユーザが父、母、姉、弟のいずれであるかを識別する。識別処理結果は様々な処理に利用される。例えば、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対してテレビから応答を行うなどの処理に利用される。

なお、本発明に係る情報処理装置１００の主要な処理は、複数の情報入力部（カメラ２１，マイク３１〜３４）からの入力情報に基づいて、ユーザの位置識別およびユーザの特定処理としてのユーザ識別処理を行うことである。この識別結果の利用処理については特に限定するものではない。カメラ２１と、複数のマイク３１〜３４から入力する画像情報、音声情報には様々な不確実な情報が含まれる。本発明の情報処理装置１００では、これらの入力情報に含まれる不確実な情報に対する確率的な処理を行って、精度の高いと推定される情報に統合する処理を行う。この推定処理によりロバスト性を向上させ、精度の高い解析を行う。

図２に情報処理装置１００の構成例を示す。情報処理装置１００は、入力デバイスとして画像入力部（カメラ）１１１、複数の音声入力部（マイク）１２１ａ〜ｄを有する。画像入力部（カメラ）１１１から画像情報を入力し、音声入力部（マイク）１２１から音声情報を入力し、これらの入力情報に基づいて解析を行う。複数の音声入力部（マイク）１２１ａ〜ｄの各々は、図１に示すように様々な位置に配置されている。

複数のマイク１２１ａ〜ｄから入力された音声情報は、音声イベント検出部１２２を介して音声・画像統合処理部１３１に入力される。音声イベント検出部１２２は、複数の異なるポジションに配置された複数の音声入力部（マイク）１２１ａ〜ｄから入力する音声情報を解析し統合する。具体的には、音声入力部（マイク）１２１ａ〜ｄから入力する音声情報に基づいて、発生した音の位置およびどのユーザの発生させた音であるかのユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。

なお、情報処理装置１００の実行する具体的な処理は、例えば図１に示すように複数のユーザが存在する環境で、ユーザＡ〜Ｄがどの位置にいて、会話を行ったユーザがどのユーザであるかを識別すること、すなわち、ユーザ位置およびユーザ識別を行うことであり、さらに声を発した人物（発話者）などのイベント発生源を特定する処理である。

音声イベント検出部１２２は、複数の異なるポジションに配置された複数の音声入力部（マイク）１２１ａ〜ｄから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データとして生成する。具体的には、音源方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。音声イベント検出部１２２には、予め検証すべき複数のユーザの声についての特徴情報が登録されており、入力音声と登録音声との比較処理を実行して、どのユーザの声である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。

このように、音声イベント検出部１２２は、複数の異なるポジションに配置された複数の音声入力部（マイク）１２１ａ〜ｄから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データと、確率的な推定値からなるユーザ識別情報とによって構成される［統合音声イベント情報］を生成して音声・画像統合処理部１３１に入力する。

一方、画像入力部（カメラ）１１１から入力された画像情報は、画像イベント検出部１１２を介して音声・画像統合処理部１３１に入力される。画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力する画像情報を解析し、画像に含まれる人物の顔を抽出し、顔の位置情報を確率分布データとして生成する。具体的には、顔の位置や方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。

また、画像イベント検出部１１２は、予め登録されたユーザの顔の特徴情報との比較処理に基づいて顔を識別してユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。画像イベント検出部１１２には、予め検証すべき複数のユーザの顔についての特徴情報が登録されており、入力画像から抽出した顔領域の画像の特徴情報と登録された顔画像の特徴情報との比較処理を実行して、どのユーザの顔である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。

さらに、画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像に含まれる顔に対応する属性スコア、例えば口領域の動きに基づいて生成される顔属性スコアを算出する。

顔属性スコアは、例えば、
（ａ）画像に含まれる顔の口領域の動きに対応するスコア、
（ｂ）画像に含まれる顔が笑顔か否かに応じて設定するスコア、
（ｃ）画像に含まれる顔が男であるか女であるかに応じて設定するスコア、
（ｄ）画像に含まれる顔が大人であるか子供であるかに応じて設定するスコア、
このような様々な顔属性スコアを算出する設定が可能である。
以下に説明する実施例では、
（ａ）画像に含まれる顔の口領域の動きに対応するスコアを顔属性スコアとして算出して利用する例について説明する。すなわち、顔の口領域の動きに対応するスコアを顔属性スコアとして算出し、この顔属性スコアに基づいて発話者の特定を行なう。

画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像に含まれる顔領域から口領域を識別して、口領域の動き検出を行い、口領域の動き検出結果に対応したスコア、例えば口の動きがあると判定された場合に高いスコアとするスコアを算出する。

なお、口領域の動き検出処理は、例えばＶＳＤ（ＶｉｓｕａｌＳｐｅｅｃｈＤｅｔｅｃｔｉｏｎ）を適用した処理として実行する。本発明の出願人と同一の出願に係る特開２００５−１５７６７９に開示の方法を適用することができる。具体的には、例えば、画像入力部（カメラ）１１１からの入力画像から検出された顔画像から唇の左右端点を検出し、Ｎ番目のフレームとＮ＋１番目のフレームにおいて唇の左右端点をそれぞれそろえてから輝度の差分を算出し、この差分値を閾値処理することで、口の動きを検出することができる。

なお、音声イベント検出部１２２や画像イベント検出部１１２において実行する音声識別や、顔検出、顔識別処理は従来から知られる技術を適用する。例えば顔検出、顔識別処理としては以下の文献に開示された技術の適用が可能である。
佐部浩太郎，日台健一，"ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習"，第１０回画像センシングシンポジウム講演論文集，ｐｐ．５４７−５５２，２００４
特開２００４−３０２６４４（Ｐ２００４−３０２６４４Ａ）［発明の名称：顔識別装置、顔識別方法、記録媒体、及びロボット装置］

音声・画像統合処理部１３１は、音声イベント検出部１２２や画像イベント検出部１１２からの入力情報に基づいて、複数のユーザが、それぞれどこにいて、それらは誰で、誰が音声等のシグナルを発したのかを確率的に推定する処理を実行する。この処理については後段で詳細に説明する。音声・画像統合処理部１３１は、音声・画像統合処理部１３１は、音声イベント検出部１２２や画像イベント検出部１１２からの入力情報に基づいて、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］
（ｂ）例えば話しをしたユーザなどのイベント発生源を［シグナル情報］として、処理決定部１３２に出力する。

これらの識別処理結果を受領した処理決定部１３２は、識別処理結果を利用した処理を実行する、例えば、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対してテレビから応答を行うなどの処理を行う。

上述したように、音声イベント検出部１２２は、音声の発生源の位置情報の確率分布データ、具体的には、音源方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。

また、画像イベント検出部１１２は、画像に含まれる人物の顔を抽出し、顔の位置情報を確率分布データとして生成する。具体的には、顔の位置や方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）を生成する。また、予め登録されたユーザの顔の特徴情報との比較処理に基づいてユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。さらに、画像入力部（カメラ）１１１から入力された画像中の顔領域から顔属性情報としての顔属性スコア、例えば口領域の動き検出を行い、口領域の動き検出結果に対応したスコア、具体的には口の動きが大きいと判定された場合に高いスコアとする顔属性スコアを算出して音声・画像統合処理部１３１に入力する。

図３を参照して、音声イベント検出部１２２および画像イベント検出部１１２が生成し音声・画像統合処理部１３１に入力する情報の例について説明する。

本発明の構成では、画像イベント検出部１１２は、
（Ｖａ）顔の位置や方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）、
（Ｖｂ）顔画像の特徴情報に基づくユーザ識別情報、
（Ｖｃ）検出された顔の属性に対応するスコア、例えば口領域の動きに基づいて生成される顔属性スコア、
これらのデータを生成して音声・画像統合処理部１３１に入力し、
音声イベント検出部１２２が、
（Ａａ）音源方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）、
（Ａｂ）声の特徴情報に基づくユーザ識別情報、
これらのデータを音声・画像統合処理部１３１に入力する。

図３（Ａ）は図１を参照して説明したと同様のカメラやマイクが備えられた実環境の例を示し、複数のユーザ１〜ｋ，２０１〜２０ｋが存在する。この環境で、あるユーザが話しをしたとすると、マイクで音声が入力される。また、カメラは連続的に画像を撮影している。

音声イベント検出部１２２および画像イベント検出部１１２が生成して、音声・画像統合処理部１３１に入力する情報は、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これら３種類に大別できる。

すなわち、
（ａ）ユーザ位置情報は、
画像イベント検出部１１２の生成する
（Ｖａ）顔の位置や方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）と、
音声イベント検出部１２２の生成する
（Ａａ）音源方向に関する期待値と分散データＮ（ｍ_ｅ，σ_ｅ）、
これらの統合データである。

また、
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）は、
画像イベント検出部１１２の生成する
（Ｖｂ）顔画像の特徴情報に基づくユーザ識別情報と、
音声イベント検出部１２２の生成する
（Ａｂ）声の特徴情報に基づくユーザ識別情報、
これらの統合データである。

（ｃ）顔属性情報（顔属性スコア）は、
画像イベント検出部１１２の生成する
（Ｖｃ）検出された顔の属性に対応するスコア、例えば口領域の動きに基づいて生成される顔属性スコア、
に対応する。

（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）、
これらの３つの情報は、イベントの発生毎に生成される。音声イベント検出部１２２は、音声入力部（マイク）１２１ａ〜ｄから音声情報が入力された場合に、その音声情報に基づいて上記の（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。画像イベント検出部１１２は、例えば予め定めた一定のフレーム間隔で、画像入力部（カメラ）１１１から入力された画像情報に基づいて（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報、（ｃ）顔属性情報（顔属性スコア）を生成して音声・画像統合処理部１３１に入力する。なお、本例では、画像入力部（カメラ）１１１は１台のカメラを設定した例を示しており、１つのカメラに複数のユーザの画像が撮影される設定であり、この場合、１つの画像に含まれる複数の顔の各々について（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報を生成して音声・画像統合処理部１３１に入力する。

音声イベント検出部１２２が音声入力部（マイク）１２１ａ〜ｄから入力する音声情報に基づいて、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（話者識別情報）
これらの情報を生成する処理について説明する。

［音声イベント検出部１２２による（ａ）ユーザ位置情報の生成処理）］
音声イベント検出部１２２は、音声入力部（マイク）１２１ａ〜ｄから入力された音声情報に基づいて解析された声を発したユーザ、すなわち［話者］の位置の推定情報を生成する。すなわち、話者が存在すると推定される位置を、期待値（平均）［ｍ_ｅ］と分散情報［σ_ｅ］からなるガウス分布（正規分布）データＮ（ｍ_ｅ，σｅ）として生成する。

［音声イベント検出部１２２による（ｂ）ユーザ識別情報（話者識別情報）の生成処理］
音声イベント検出部１２２は、音声入力部（マイク）１２１ａ〜ｄから入力された音声情報に基づいて話者が誰であるかを、入力音声と予め登録されたユーザ１〜ｋの声の特徴情報との比較処理により推定する。具体的には話者が各ユーザ１〜ｋである確率を算出する。この算出値を（ｂ）ユーザ識別情報（話者識別情報）とする。例えば入力音声の特徴と最も近い登録された音声特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア（例えば０）を配分する処理によって各ユーザである確率を設定したデータを生成して、これを（ｂ）ユーザ識別情報（話者識別情報）とする。

次に、画像イベント検出部１１２が画像入力部（カメラ）１１１から入力する画像情報に基づいて、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらの情報を生成する処理について説明する。

［画像イベント検出部１１２による（ａ）ユーザ位置情報の生成処理）］
画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像情報に含まれる顔の各々について顔の位置の推定情報を生成する。すなわち、画像から検出された顔が存在すると推定される位置を、期待値（平均）［ｍ_ｅ］と分散情報［σ_ｅ］からなるガウス分布（正規分布）データＮ（ｍ_ｅ，σ_ｅ）として生成する。

［画像イベント検出部１１２による（ｂ）ユーザ識別情報（顔識別情報）の生成処理］
画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像情報に基づいて、画像情報に含まれる顔を検出し、各顔が誰であるかを、入力画像情報と予め登録されたユーザ１〜ｋの顔の特徴情報との比較処理により推定する。具体的には抽出された各顔が各ユーザ１〜ｋである確率を算出する。この算出値を（ｂ）ユーザ識別情報（顔識別情報）とする。例えば入力画像に含まれる顔の特徴と最も近い登録された顔の特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア（例えば０）を配分する処理によって各ユーザである確率を設定したデータを生成して、これを（ｂ）ユーザ識別情報（顔識別情報）とする。

［画像イベント検出部１１２による（ｃ）顔属性情報（顔属性スコア）の生成処理］
画像イベント検出部１１２は、画像入力部（カメラ）１１１から入力された画像情報に基づいて、画像情報に含まれる顔領域を検出し、検出された各顔の属性、具体的には先に説明したように顔の口領域の動き、笑顔か否か、男であるか女であるか、大人であるかこどもであるかなどの属性スコアを算出することが可能であるが、本処理例では、画像に含まれる顔の口領域の動きに対応するスコアを顔属性スコアとして算出して利用する例について説明する。

顔の口領域の動きに対応するスコアを算出する処理として、前述したように画像イベント検出部１１２は、例えば、画像入力部（カメラ）１１１からの入力画像から検出された顔画像から唇の左右端点を検出し、Ｎ番目のフレームとＮ＋１番目のフレームにおいて唇の左右端点をそれぞれそろえてから輝度の差分を算出し、この差分値を閾値処理する。この処理により、口の動きを検出し、口の動きが大きいほど高いスコアとする顔属性スコアを設定する。

なお、カメラの撮影画像から複数の顔が検出された場合、画像イベント検出部１１２は、各検出顔に応じてそれぞれ個別のイベントとして、各顔対応のイベント情報を生成する。すなわち、以下の情報を含むイベント情報を生成して音声・画像統合処理部１３１に入力する。
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらの情報を生成して、音声・画像統合処理部１３１に入力する。

本例では、画像入力部１１１として１台のカメラを利用した例を説明するが、複数のカメラの撮影画像を利用してもよく、その場合は、画像イベント検出部１１２は、各カメラの撮影画像の各々に含まれる各顔について、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらの情報を生成して、音声・画像統合処理部１３１に入力する。

次に、音声・画像統合処理部１３１の実行する処理について説明する。音声・画像統合処理部１３１は、上述したように、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す３つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらの情報を逐次入力する。なお、これらの各情報の入力タイミングは様々な設定が可能であるが、例えば、音声イベント検出部１２２は新たな音声が入力された場合に上記（ａ），（ｂ）の各情報を音声イベント情報として生成して入力し、画像イベント検出部１１２は、一定のフレーム周期単位で、上記（ａ），（ｂ），（ｃ）の各情報を音声イベント情報として生成して入力するといった設定が可能である。

音声・画像統合処理部１３１の実行する処理について、図４以下を参照して説明する。音声・画像統合処理部１３１は、ユーザの位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）の確率分布データを設定し、その仮説を入力情報に基づいて更新することで、より確からしい仮説のみを残す処理を行う。この処理手法として、パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した処理を実行する。

パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した処理は、様々な仮説に対応するパーティクルを多数設定して行なわれる。本例では、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定し、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す３つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらの入力情報に基づいて、より確からしいパーティクルの重み（ウェイト）を高めていくという処理を行う。

パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した基本的な処理例について図４を参照して説明する。例えば、図４に示す例は、あるユーザに対応する存在位置をパーティクル・フィルタにより推定する処理例を示している。図４に示す例は、ある直線上の１次元領域におけるユーザ３０１の存在する位置を推定する処理である。

初期的な仮説（Ｈ）は、図４（ａ）に示すように均一なパーティクル分布データとなる。次に、画像データ３０２が取得され、取得画像に基づくユーザ３０１の存在確率分布データが図４（ｂ）のデータとして取得される。この取得画像に基づく確率分布データに基づいて、図４（ａ）のパーティクル分布データが更新され、図４（ｃ）の更新された仮説確率分布データが得られる。このような処理を、入力情報に基づいて繰り返し実行して、ユーザのより確からしい位置情報を得る。

なお、パーティクル・フィルタを用いた処理の詳細については、例えば［Ｄ．Ｓｃｈｕｌｚ，Ｄ．Ｆｏｘ，ａｎｄＪ．Ｈｉｇｈｔｏｗｅｒ．ＰｅｏｐｌｅＴｒａｃｋｉｎｇｗｉｔｈＡｎｏｎｙｍｏｕｓａｎｄＩＤ−ｓｅｎｓｏｒｓＵｓｉｎｇＲａｏ−ＢｌａｃｋｗｅｌｌｉｓｅｄＰａｒｔｉｃｌｅＦｉｌｔｅｒｓ．Ｐｒｏｃ．ｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＩＪＣＡＩ−０３）］に記載されている。

図４に示す処理例は、ユーザの存在位置のみについて、入力情報を画像データのみとした処理例として説明しており、パーティクルの各々は、ユーザ３０１の存在位置のみの情報を有している。

一方、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す２つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらの入力情報に基づいて、複数のユーザの位置と複数のユーザがそれぞれ誰であるかを判別する処理を行うことになる。従って、パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した処理では、音声・画像統合処理部１３１が、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定して、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す２つの情報に基づいて、パーティクル更新を行うことになる。

音声・画像統合処理部１３１が、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示す３つの情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらを入力して実行するパーティクル更新処理例について図５を参照して説明する。

パーティクルの構成について説明する。音声・画像統合処理部１３１は、予め設定した数＝ｍのパーティクルを有する。図５に示すパーティクル１〜ｍである。各パーティクルには識別子としてのパーティクルＩＤ（ＰＩＤ＝１〜ｍ）が設定されている。

各パーティクルに、仮想的なオブジェクトに対応する複数のターゲットｔＩＤ＝１，２，・・・ｎを設定する。本例では、例えば実空間に存在すると推定される人数以上の仮想のユーザに対応する複数（ｎ個）のターゲットを各パーティクルに設定する。ｍ個のパーティクルの各々はターゲット単位でデータをターゲット数分保持する。図５に示す例では、１つのパーティクルにｎ個（ｎ＝２）のターゲットが含まれる。

音声・画像統合処理部１３１は、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア［Ｓ_ｅＩＤ］）
これらのイベント情報を入力してｍ個のパーティクル（ＰＩＤ＝１〜ｍ）の更新処理を行う。

図５に示す音声・画像統合処理部１３１に設定される各パーティクル１〜ｍに含まれるターゲット１〜ｎの各々は、入力するイベント情報の各々（ｅＩＤ＝１〜ｋ）に予め対応付けられており、その対応に従って、入力イベントに対応する選択されたターゲットの更新が実行される。具体的には、例えば画像イベント検出部１１２において検出された顔画像を個別のイベントとして、この顔画像イベント各々にターゲットを対応付けて処理を行なう。

具体的な更新処理について説明する。例えば、画像イベント検出部１１２は、予め定めた一定のフレーム間隔で、画像入力部（カメラ）１１１から入力された画像情報に基づいて（ａ）ユーザ位置情報、（ｂ）ユーザ識別情報、（ｃ）顔属性情報（顔属性スコア）を生成して音声・画像統合処理部１３１に入力する。

このとき、図５に示す画像フレーム３５０がイベントの検出対象フレームである場合、画像フレームに含まれる顔画像の数に応じたイベントが検出される。すなわち、図５に示す第１顔画像３５１に対応するイベント１（ｅＩＤ＝１）と、第２顔画像３５２に対応するイベント２（ｅＩＤ＝２）である。

画像イベント検出部１１２は、これらの各イベントの各々（ｅＩＤ＝１，２，・・・）について、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらを生成して音声・画像統合処理部１３１に入力する。すなわち、図５に示すイベント対応情報３６１，３６２である。

音声・画像統合処理部１３１に設定されたパーティクル１〜ｍの各々に含まれるターゲット１〜ｎの各々は、イベント（ｅＩＤ＝１〜ｋ）の各々に予め対応付けられており、それぞれのパーティクルに含まれるどのターゲットを更新するかを予め設定した構成としている。なお、イベント（ｅＩＤ＝１〜ｋ）各々に対するターゲット（ｔＩＤ）の対応付けは、重複しない設定とする。すなわち、各パーティクルで重複がないように取得イベント分のイベント発生源仮説を生成する。
図５に示す例では、
（１）パーティクル１（ｐＩＤ＝１）は、
［イベントＩＤ＝１（ｅＩＤ＝１）］の対応ターゲット＝［ターゲットＩＤ＝１（ｔＩＤ＝１）］、
［イベントＩＤ＝２（ｅＩＤ＝２）］の対応ターゲット＝［ターゲットＩＤ＝２（ｔＩＤ＝２）］、
（２）パーティクル２（ｐＩＤ＝２）は、
［イベントＩＤ＝１（ｅＩＤ＝１）］の対応ターゲット＝［ターゲットＩＤ＝１（ｔＩＤ＝１）］、
［イベントＩＤ＝２（ｅＩＤ＝２）］の対応ターゲット＝［ターゲットＩＤ＝２（ｔＩＤ＝２）］、
：
（ｍ）パーティクルｍ（ｐＩＤ＝ｍ）は、
［イベントＩＤ＝１（ｅＩＤ＝１）］の対応ターゲット＝［ターゲットＩＤ＝２（ｔＩＤ＝２）］、
［イベントＩＤ＝２（ｅＩＤ＝２）］の対応ターゲット＝［ターゲットＩＤ＝１（ｔＩＤ＝１）］、

このように、音声・画像統合処理部１３１に設定されたパーティクル１〜ｍの各々に含まれるターゲット１〜ｎの各々は、イベント（ｅＩＤ＝１〜ｋ）の各々に予め対応付けられており、各イベントＩＤに応じて各パーティクルに含まれるどのターゲットを更新するかが決定された構成を持つ。例えば、図５に示す［イベントＩＤ＝１（ｅＩＤ＝１）］のイベント対応情報３６１によって、パーティクル１（ｐＩＤ＝１）では、ターゲットＩＤ＝１（ｔＩＤ＝１）のデータのみが選択的に更新される。

同様に、図５に示す［イベントＩＤ＝１（ｅＩＤ＝１）］のイベント対応情報３６１によって、パーティクル２（ｐＩＤ＝２）も、ターゲットＩＤ＝１（ｔＩＤ＝１）のデータのみが選択的に更新される。また、図５に示す［イベントＩＤ＝１（ｅＩＤ＝１）］のイベント対応情報３６１によって、パーティクルｍ（ｐＩＤ＝ｍ）では、ターゲットＩＤ＝２（ｔＩＤ＝２）のデータのみが選択的に更新される。

図５に示すイベント発生源仮設データ３７１，３７２が、各パーティクルに設定されたイベント発生源仮設データであり、これらが各パーティクルに設定されており、この情報に従ってイベントＩＤに対応する更新ターゲットが決定される。

各パーティクルに含まれる各ターゲットデータについて図６を参照して説明する。図６は、図５に示すパーティクル１（ｐＩＤ＝１）に含まれる１つのターゲット（ターゲットＩＤ：ｔＩＤ＝ｎ）３７５のターゲットデータの構成である。ターゲット３７５のターゲットデータは、図６に示すように、以下のデータ、すなわち、
（ａ）各ターゲット各々に対応する存在位置の確率分布［ガウス分布：Ｎ（ｍ_１ｎ，σ_１ｎ）］、
（ｂ）各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）
ｕＩＤ_１ｎ１＝０．０
ｕＩＤ_１ｎ２＝０．１
：
ｕＩＤ_１ｎｋ＝０．５
これらのデータによって構成される。

なお、（ａ）に示すガウス分布：Ｎ（ｍ_１ｎ，σ_１ｎ）における［ｍ_１ｎ，σ_１ｎ］の（１ｎ）は、パーティクルＩＤ：ｐＩＤ＝１におけるターゲットＩＤ：ｔＩＤ＝ｎに対応する存在確率分布としてのガウス分布であることを意味する。
また、（ｂ）に示すユーザ確信度情報（ｕＩＤ）における、［ｕＩＤ_１ｎ１］に含まれる（１ｎ１）は、パーティクルＩＤ：ｐＩＤ＝１におけるターゲットＩＤ：ｔＩＤ＝ｎの、ユーザ＝ユーザ１である確率を意味する。すなわちターゲットＩＤ＝ｎのデータは、
ユーザ１である確率が０．０、
ユーザ２である確率が０．１、
：
ユーザｋである確率が０．５、
であることを意味している。

図５に戻り、音声・画像統合処理部１３１の設定するパーティクルについての説明を続ける。図５に示すように、音声・画像統合処理部１３１は、予め決定した数＝ｍのパーティクル（ＰＩＤ＝１〜ｍ）を設定し、各パーティクルは、実空間に存在すると推定されるターゲット（ｔＩＤ＝１〜ｎ）各々について、
（ａ）各ターゲット各々に対応する存在位置の確率分布［ガウス分布：Ｎ（ｍ，σ）］、
（ｂ）各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）
これらのターゲットデータを有する。

音声・画像統合処理部１３１は、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア［Ｓ_ｅＩＤ］）
これらのイベント情報（ｅＩＤ＝１，２・・・）を入力し、各パーティクルにおいて予め設定されたイベント対応のターゲットの更新を実行する。

なお、更新対象は各ターゲットデータに含まれる以下のデータ、すなわち、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
これらのデータである。

（ｃ）顔属性情報（顔属性スコア［Ｓ_ｅＩＤ］）は、イベント発生源を示す［シグナル情報］として最終的に利用される。ある程度の数のイベントが入力されると、各パーティクルの重み（ウェイト）も更新され、実空間の情報に最も近いデータを持つパーティクルの重みが大きくなり、実空間の情報に適合しないデータを持つパーティクルの重みが小さくなっていく。このようにパーティクルの重みに偏りが発生し収束した段階で、顔属性情報（顔属性スコア）に基づくシグナル情報、すなわち、イベント発生源を示す［シグナル情報］が算出される。

ある特定のターゲットｘ（ｔＩＤ＝ｘ）が、あるイベント（ｅＩＤ＝ｙ）の発生源である確率を、
Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）
として示す。例えば、図５に示すようにｍ個のパーティクル（ｐＩＤ＝１〜ｍ）が設定され、各パーティクルに２つのターゲット（ｔＩＤ＝１，２）が設定されている場合、
第１ターゲット（ｔＩＤ＝１）が第１イベント（ｅＩＤ＝１）の発生源である確率は、
Ｐ_{ｅＩＤ＝１}（ｔＩＤ＝１）
第２ターゲット（ｔＩＤ＝２）が第１イベント（ｅＩＤ＝１）の発生源である確率は、
Ｐ_{ｅＩＤ＝１}（ｔＩＤ＝２）
である。
また、
第１ターゲット（ｔＩＤ＝１）が第２イベント（ｅＩＤ＝２）の発生源である確率は、
Ｐ_{ｅＩＤ＝２}（ｔＩＤ＝１）
第２ターゲット（ｔＩＤ＝２）が第２イベント（ｅＩＤ＝２）の発生源である確率は、
Ｐ_{ｅＩＤ＝２}（ｔＩＤ＝２）
である。

イベント発生源を示す［シグナル情報］は、あるイベント（ｅＩＤ＝ｙ）の発生源が特定のターゲットｘ（ｔＩＤ＝ｘ）である確率、
Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）
であり、これは、音声・画像統合処理部１３１に設定されたパーティクル数：ｍと、各イベントに対するターゲットの割り当て数との比に相当し、図５に示す例では、
Ｐ_{ｅＩＤ＝１}（ｔＩＤ＝１）＝［第１イベント（ｅＩＤ＝１）にｔＩＤ＝１を割り当てたパーティクル数）／（ｍ）］
Ｐ_{ｅＩＤ＝１}（ｔＩＤ＝２）＝［第１イベント（ｅＩＤ＝１）にｔＩＤ＝２を割り当てたパーティクル数）／（ｍ）］
Ｐ_{ｅＩＤ＝２}（ｔＩＤ＝１）＝［第２イベント（ｅＩＤ＝２）にｔＩＤ＝１を割り当てたパーティクル数）／（ｍ）］
Ｐ_{ｅＩＤ＝２}（ｔＩＤ＝２）＝［第２イベント（ｅＩＤ＝２）にｔＩＤ＝２を割り当てたパーティクル数）／（ｍ）］
このような対応関係となる。
このデータがイベント発生源を示す［シグナル情報］として最終的に利用される。

さらに、あるイベント（ｅＩＤ＝ｙ）の発生源が特定のターゲットｘ（ｔＩＤ＝ｘ）である確率、
Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）
このデータは、ターゲット情報に含まれる顔属性情報の算出にも適用される。すなわち、
顔属性情報Ｓ_{ｔＩＤ＝１〜ｎ}の算出の際に利用される。顔属性情報Ｓ_{ｔＩＤ＝ｘ}は、ターゲットＩＤ＝ｘのターゲットの最終的な顔属性の期待値、すなわち、発話者である可能性を示す値に相当する。

音声・画像統合処理部１３１は、音声イベント検出部１２２および画像イベント検出部１１２から、イベント情報（ｅＩＤ＝１，２・・・）を入力し、各パーティクルにおいて予め設定されたイベント対応のターゲットの更新を実行して、
（ａ）複数のユーザが、それぞれどこにいるかを示す位置推定情報と、誰であるかの推定情報（ｕＩＤ推定情報）、さらに、顔属性情報（Ｓ_ｔＩＤ）の期待値、例えば口を動かして話しをしていることを示す顔属性期待値を含む［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］、
これらを生成して処理決定部１３２に出力する。

［ターゲット情報］は、図７の右端のターゲット情報３８０に示すように、各パーティクル（ＰＩＤ＝１〜ｍ）に含まれる各ターゲット（ｔＩＤ＝１〜ｎ）対応データの重み付き総和データとして生成される。図７には、音声・画像統合処理部１３１の有するｍ個のパーティクル（ｐＩＤ＝１〜ｍ）と、これらのｍ個のパーティクル（ｐＩＤ＝１〜ｍ）から生成されるターゲット情報３８０を示している。各パーティクルの重みについては後述する。

ターゲット情報３８０は、音声・画像統合処理部１３１が予め設定した仮想的なユーザに対応するターゲット（ｔＩＤ＝１〜ｎ）の
（ａ）存在位置
（ｂ）誰であるか（ｕＩＤ１〜ｕＩＤｋのいずれであるか）
（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））
これらを示す情報である。

各ターゲットの（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））は、前述したようにイベント発生源を示す［シグナル情報］に相当する確率、
Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）
と、各イベントに対応する顔属性スコアＳ_{ｅＩＤ＝ｉ}に基づいて算出される。ｉはイベントＩＤである。
例えばターゲットＩＤ＝１の顔属性の期待値：Ｓ_{ｔＩＤ＝１}は、以下の式で算出される。
Ｓ_{ｔＩＤ＝１}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝１）×Ｓ_{ｅＩＤ＝ｉ}
一般化して示すと、
ターゲットの顔属性の期待値：Ｓ_ｔＩＤは、以下の式で算出される。
Ｓ_ｔＩＤ＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ）×Ｓ_ｅＩＤ
・・・（式１）
として示される。

例えば、図５に示すように、システム内部にターゲットが２つ存在する場合、画像１フレーム内の画像イベント検出部１１２から、顔画像イベント２つ（ｅＩＤ＝１，２）が音声・画像統合処理部１３１に入力された際の各ターゲット（ｔＩＤ＝１，２）顔属性の期待値計算例を図８に示す。

図８に示す右端のデータは、図７に示すターゲット情報３８０に相当するターゲット情報３９０であり、各パーティクル（ＰＩＤ＝１〜ｍ）に含まれる各ターゲット（ｔＩＤ＝１〜ｎ）対応データの重み付き総和データとして生成される情報に相当する。

このターゲット情報３９０における各ターゲットの顔属性は、前述したようにイベント発生源を示す［シグナル情報］に相当する確率［Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）］と、各イベントに対応する顔属性スコア［Ｓ_{ｅＩＤ＝ｉ}］に基づいて算出される。ｉはイベントＩＤである。
ターゲットＩＤ＝１の顔属性の期待値：Ｓ_{ｔＩＤ＝１}は、
Ｓ_{ｔＩＤ＝１}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝１）×Ｓ_{ｅＩＤ＝ｉ}
ターゲットＩＤ＝２の顔属性の期待値：Ｓ_{ｔＩＤ＝２}は、
Ｓ_{ｔＩＤ＝２}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝２）×Ｓ_{ｅＩＤ＝ｉ}
このように示される。
これら各ターゲットの顔属性の期待値：Ｓ_ｔＩＤの全ターゲットの総和は［１］になる。本処理例では、各ターゲットについて１〜０の顔属性の期待値：Ｓ_ｔＩＤが設定され、期待値が高いターゲットは発話者である確率が高いと判定される。

なお、顔画像イベントｅＩＤに（顔属性スコア［Ｓ_ｅＩＤ］）が存在しない場合（例えば、顔検出できても口が手で覆われていて口の動き検出ができない場合）は顔属性スコア［Ｓ_ｅＩＤ］に事前知識の値［Ｓ_{ｐｒｉｏｒ}］等を用いる。事前知識の値としては、各ターゲット毎に直前に取得した値が存在する場合はその値を用いたり、事前にオフラインで所得した顔画像イベントから顔属性の平均値計算しておきその値を用いたりする構成が可能である。

ターゲット数と画像１フレーム内の顔画像イベントは常に同数とは限らない。ターゲット数が顔画像イベント数よりも多いときには、前述したイベント発生源を示す［シグナル情報］に相当する確率［Ｐ_ｅＩＤ（ｔＩＤ）］の総和が［１］にならないため、前述した各ターゲットの顔属性の期待値算出式、すなわち、
Ｓ_ｔＩＤ＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ）×Ｓ_ｅＩＤ
・・・（式１）
上記式の各ターゲットについての期待値総和も［１］にならず、精度の高い期待値が計算できない。

図９に示すように、画像フレーム３５０に前の処理レームには存在していた第３イベント対応の第３顔画像３９５が検出されなくなった場合には、上記式（式１）の各ターゲットについての期待値総和も［１］にならず、精度の高い期待値が計算できない。このような場合、各ターゲットの顔属性の期待値算出式を変更する。すなわち、各ターゲットの顔属性の期待値［Ｓ_ｔＩＤ］の総和を［１］にするために、補数［１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ）］と事前知識の値［Ｓ_{ｐｒｉｏｒ}］を用いて顔イベント属性の期待値Ｓ_ｔＩＤを次式（式２）で計算する。
Ｓ_ｔＩＤ＝Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ）×Ｓ_ｅＩＤ＋（１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ））×Ｓ_{ｐｒｉｏｒ}
・・・（式２）

図９は、システム内部にイベント対応のターゲットが３つ設定されているが、画像１フレーム内の顔画像イベントとして２つのみが画像イベント検出部１１２から、音声・画像統合処理部１３１に入力された際の顔属性の期待値計算例を示している。

ターゲットＩＤ＝１の顔属性の期待値：Ｓ_{ｔＩＤ＝１}は、
Ｓ_{ｔＩＤ＝１}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝１）×Ｓ_{ｅＩＤ＝ｉ}＋（１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ＝１）×Ｓ_{ｐｒｉｏｒ}
ターゲットＩＤ＝２の顔属性の期待値：Ｓ_{ｔＩＤ＝２}は、
Ｓ_{ｔＩＤ＝２}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝２）×Ｓ_{ｅＩＤ＝ｉ}＋（１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ＝２）×Ｓ_{ｐｒｉｏｒ}
ターゲットＩＤ＝３の顔属性の期待値：Ｓ_{ｔＩＤ＝３}は、
Ｓ_{ｔＩＤ＝３}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝３）×Ｓ_{ｅＩＤ＝ｉ}＋（１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ＝３）×Ｓ_{ｐｒｉｏｒ}
このように計算される。

なお、逆に、ターゲット数が顔画像イベント数よりも少ないときは、イベント数と同数になるようにターゲットを生成して前述の（式１）を適用して各ターゲットの顔属性の期待値［Ｓ_{ｔＩＤ＝１}］を算出する。

なお、顔属性は、本処理例では、口の動きに対応するスコアに基づく顔属性期待値、すなわち各ターゲットが発話者である期待値を示すデータとして説明しているが、前述したように、顔属性スコアは、笑顔や年齢などのスコアとして算出することが可能であり、この場合の顔属性期待値は、そのスコアに対応する属性に対応するデータとして算出されることになる。

ターゲット情報は、パーティクルの更新に伴い、順次更新されることになり、例えばユーザ１〜ｋが実環境内で移動しない場合、ユーザ１〜ｋの各々が、ｎ個のターゲット（ｔＩＤ＝１〜ｎ）から選択されたｋ個にそれぞれ対応するデータとして収束することになる。

例えば、図７に示すターゲット情報３８０中の最上段のターゲット１（ｔＩＤ＝１）のデータ中に含まれるユーザ確信度情報（ｕＩＤ）は、ユーザ２（ｕＩＤ_１２＝０．７）について最も高い確率を有している。従って、このターゲット１（ｔＩＤ＝１）のデータは、ユーザ２に対応するものであると推定されることになる。なお、ユーザ確信度情報（ｕＩＤ）を示すデータ［ｕＩＤ_１２＝０．７］中の（ｕＩＤ_１２）内の（１２）は、ターゲットＩＤ＝１のユーザ＝２のユーザ確信度情報（ｕＩＤ）に対応する確率であることを示している。

このターゲット情報３８０中の最上段のターゲット１（ｔＩＤ＝１）のデータは、ユーザ２である確率が最も高く、このユーザ２は、その存在位置が、ターゲット情報３８０中の最上段のターゲット１（ｔＩＤ＝１）のデータに含まれる存在確率分布データに示す範囲にいると推定されることなる。

このように、ターゲット情報３８０は、初期的に仮想的なオブジェクト（仮想ユーザ）として設定した各ターゲット（ｔＩＤ＝１〜ｎ）の各々について、
（ａ）存在位置
（ｂ）誰であるか（ｕＩＤ１〜ｕＩＤｋのいずれであるか）
（ｃ）顔属性期待値（本処理例では発話者である期待値（確率））
の各情報を示す。従って、各ターゲット（ｔＩＤ＝１〜ｎ）のｋ個のターゲット情報の各々は、ユーザが移動しない場合は、ユーザ１〜ｋに対応するように収束する。

先に説明したように、音声・画像統合処理部１３１は、入力情報に基づくパーティクルの更新処理を実行して、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］、
これらを生成して処理決定部１３２に出力する。

このように、音声・画像統合処理部１３１は、仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して実空間に存在するユーザの位置情報を含む解析情報を生成する。すなわち、パーティクルに設定するターゲットデータの各々をイベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行う。

また、音声・画像統合処理部１３１は、各パーティクルに設定したイベント発生源仮説ターゲットと、イベント検出部から入力するイベント情報との尤度を算出し、該尤度の大小に応じた値をパーティクル重みとして各パーティクルに設定し、パーティクル重みの大きいパーティクルを優先的に再選択するリサンプリング処理を実行して、パーティクルの更新処理を行う。この処理については後述する。さらに、各パーティクルに設定したターゲットについて、経過時間を考慮した更新処理を実行する。また、パーティクルの各々に設定したイベント発生源仮説ターゲットの数に応じて、イベント発生源の確率値としてのシグナル情報の生成を行う。

音声・画像統合処理部１３１が、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報、すなわち、ユーザ位置情報と、ユーザ識別情報（顔識別情報または話者識別情報）、これらのイベント情報を入力して、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］、
これらの情報を生成して処理決定部１３２に出力する処理シーケンスについて、図１０に示すフローチャートを参照して説明する。

まず、ステップＳ１０１において、音声・画像統合処理部１３１は、音声イベント検出部１２２および画像イベント検出部１１２から、
（ａ）ユーザ位置情報
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）
（ｃ）顔属性情報（顔属性スコア）
これらのイベント情報を入力する。

イベント情報の取得に成功した場合は、ステップＳ１０２に進み、イベント情報の取得に失敗した場合は、ステップＳ１２１に進む。ステップＳ１２１の処理については後段で説明する。

イベント情報の取得に成功した場合は、音声・画像統合処理部１３１は、ステップＳ１０２以下において、入力情報に基づくパーティクル更新処理を行うことになるが、パーティクル更新処理の前に、まずステップＳ１０２において、各パーティクルに対する新たなターゲットの設定が必要であるか否かを判定する。本発明の構成では、先に、図５を参照して説明したように、音声・画像統合処理部１３１に設定される各パーティクル１〜ｍに含まれるターゲット１〜ｎの各々は、入力するイベント情報の各々（ｅＩＤ＝１〜ｋ）に予め対応付けられており、その対応に従って、入力イベントに対応する選択されたターゲットの更新が実行する構成としている。

従って、例えば画像イベント検出部１１２から入力するイベント数が、ターゲット数より多い場合には、新たなターゲットの設定を行なうことが必要となる。具体的には、例えば図５に示す画像フレーム３５０にこれまで存在しなかった顔が出現した場合などである。このような場合は、ステップＳ１０３に進み、各パーティクルに新たなターゲットを設定する。このターゲットはこの新たなイベントに対応して更新されるターゲットとして設定される。

次に、ステップＳ１０４において、音声・画像統合処理部１３１に設定されたパーティクル１〜ｍのｍ個のパーティクル（ｐＩＤ＝１〜ｍ）の各々にイベントの発生源の仮説を設定する。イベント発生源とは、例えば、音声イベントであれば、話をしたユーザがイベント発生源であり、画像イベントであれば、抽出した顔を持つユーザがイベント発生源である。

本発明の仮説設定処理は、先に図５等を参照して説明したように、各パーティクル１〜ｍに含まれるターゲット１〜ｎの各々に、入力するイベント情報の各々（ｅＩＤ＝１〜ｋ）を対応付けて設定する。

すなわち、先に図５を参照して説明したように、パーティクル１〜ｍの各々に含まれるターゲット１〜ｎの各々は、イベント（ｅＩＤ＝１〜ｋ）の各々に対応付けて、それぞれのパーティクルに含まれるどのターゲットを更新するかが予め設定される。このように各パーティクルで、重複がないように取得イベント分のイベント発生源仮説を生成する。なお、初期的には例えば各イベントが均等に配分されるような設定としてよい。パーティクルの数：ｍは、ターゲットの数：ｎより大きく設定されるので、複数のパーティクルが同一のイベントＩＤ−ターゲットＩＤの対応をもつパーティクルとして設定される。例えば、ターゲットの数：ｎが１０とした場合、パーティクル数：ｍ＝１００〜１０００程度に設定した処理などが行われる。

ステップＳ１０４における仮説設定の後、ステップＳ１０５に進む。ステップＳ１０５では、各パーティクル対応の重み、すなわちパーティクル重み［Ｗ_ｐＩＤ］の算出を行う。このパーティクル重み［Ｗ_ｐＩＤ］は初期的には各パーティクルに均一な値が設定されるが、イベント入力に応じて更新される。

図１１、図１２を参照して、パーティクル重み［Ｗ_ｐＩＤ］の算出処理の詳細について説明する。パーティクル重み［Ｗ_ｐＩＤ］は、イベント発生源の仮説ターゲットを生成した各パーティクルの仮説の正しさの指標に相当する。パーティクル重み［Ｗ_ｐＩＤ］は、ｍ個のパーティクル（ｐＩＤ＝１〜ｍ）の各々において設定された複数のターゲット各々に対応付けられたイベント発生源の入力イベントとの類似度であるイベント−ターゲット間尤度として算出される。

図１１には、音声・画像統合処理部１３１が、音声イベント検出部１２２および画像イベント検出部１１２から入力する１つのイベント（ｅＩＤ＝１）に対応するイベント情報４０１と、音声・画像統合処理部１３１が保持する１つのパーティクル４２１を示している。パーティクル４２１のターゲット（ｔＩＤ＝２）は、イベント（ｅＩＤ＝１）に対応付けられているターゲットである。

図１１下段には、イベント−ターゲット間尤度の算出処理例を示している。パーティクル重み［Ｗ_ｐＩＤ］は、各パーティクルにおいて算出されるイベント−ターゲットとの類似度指標としてのイベント−ターゲット間尤度の総和に対応する値として算出される。

図１１の下段に示す尤度算出処理は、
（ａ）ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度［ＤＬ］、
（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］
これらを個別に算出する例を示している。

（ａ）ユーザ位置情報についてのイベントと、仮説ターゲットとの類似度データとしてのガウス分布間尤度［ＤＬ］の算出処理は以下の処理となる。
入力イベント情報中の、ユーザ位置情報に対応するガウス分布をＮ（ｍ_ｅ，σ_ｅ）、
パーティクルから選択された仮説ターゲットのユーザ位置情報に対応するガウス分布をＮ（ｍ_ｔ，σ_ｔ）、
として、ガウス分布間尤度［ＤＬ］を、以下の式によって算出する。
ＤＬ＝Ｎ（ｍ_ｔ，σ_ｔ＋σ_ｅ）ｘ｜ｍ_ｅ
上記式は、中心ｍ_ｔで分散σ_ｔ＋σ_ｅのガウス分布においてｘ＝ｍ_ｅの位置の値を算出する式である。

（ｂ）ユーザ識別情報（顔識別情報または話者識別情報）についてのイベントと、仮説ターゲットとの類似度データとしてのユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］の算出処理は以下の処理となる。
入力イベント情報中の、ユーザ確信度情報（ｕＩＤ）の各ユーザ１〜ｋの確信度の値（スコア）をＰｅ［ｉ］とする。なお、ｉはユーザ識別子１〜ｋに対応する変数である。
パーティクルから選択された仮説ターゲットのユーザ確信度情報（ｕＩＤ）の各ユーザ１〜ｋの確信度の値（スコア）をＰｔ［ｉ］として、ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］は、以下の式によって算出する。
ＵＬ＝ΣＰ_ｅ［ｉ］×Ｐ_ｔ［ｉ］
上記式は、２つのデータのユーザ確信度情報（ｕＩＤ）に含まれる各対応ユーザの確信度の値（スコア）の積の総和を求める式であり、この値をユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］とする。

パーティクル重み［Ｗ_ｐＩＤ］は、上記の２つの尤度、すなわち、
ガウス分布間尤度［ＤＬ］と、
ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］
これら２つの尤度を利用し、重みα（α＝０〜１）を用いて下式によって算出する。
パーティクル重み［Ｗ_ｐＩＤ］＝Σ_ｎＵＬ^α×ＤＬ^１−α
ｎは、パーティクルに含まれるイベント対応ターゲットの数である。
上記式により、パーティクル重み［Ｗ_ｐＩＤ］を算出する。
ただし、α＝０〜１とする。
このパーティクル重み［Ｗ_ｐＩＤ］は、各パーティクルについて各々算出する。

なお、パーティクル重み［Ｗ_ｐＩＤ］の算出に適用する重み［α］は、予め固定された値としてもよいし、入力イベントに応じて値を変更する設定としてもよい。例えば入力イベントが画像である場合において、顔検出に成功し位置情報は取得できたが顔識別に失敗した場合などは、α＝０の設定として、ユーザ確信度情報（ｕＩＤ）間尤度：ＵＬ＝１としてガウス分布間尤度［ＤＬ］のみに依存してパーティクル重み［Ｗ_ｐＩＤ］を算出する構成としてもよい。また、入力イベントが音声である場合において、話者識別に成功し話者情報破取得できたが、位置情報の取得に失敗した場合などは、α＝０の設定として、ガウス分布間尤度［ＤＬ］＝１として、ユーザ確信度情報（ｕＩＤ）間尤度［ＵＬ］のみに依存してパーティクル重み［Ｗ_ｐＩＤ］を算出する構成としてもよい。

図１０のフローにおけるステップＳ１０５の各パーティクル対応の重み［Ｗ_ｐＩＤ］の算出は、このように図１１を参照して説明した処理として実行される。次に、ステップＳ１０６において、ステップＳ１０５で設定した各パーティクルのパーティクル重み［Ｗ_ｐＩＤ］に基づくパーティクルのリサンプリング処理を実行する。

このパーティクルリサンプリング処理は、ｍ個のパーティクルから、パーティクル重み［Ｗ_ｐＩＤ］に応じてパーティクルを取捨選択する処理として実行される。具体的には、例えば、パーティクル数：ｍ＝５のとき、
パーティクル１：パーティクル重み［Ｗ_ｐＩＤ］＝０．４０
パーティクル２：パーティクル重み［Ｗ_ｐＩＤ］＝０．１０
パーティクル３：パーティクル重み［Ｗ_ｐＩＤ］＝０．２５
パーティクル４：パーティクル重み［Ｗ_ｐＩＤ］＝０．０５
パーティクル５：パーティクル重み［Ｗ_ｐＩＤ］＝０．２０
これらのパーティクル重みが各々設定されていた場合、
パーティクル１は、４０％の確率でリサンプリングされ、パーティクル２は１０％の確率でリサンプリングされる。なお、実際にはｍ＝１００〜１０００といった多数であり、リサンプリングされた結果は、パーティクルの重みに応じた配分比率のパーティクルによって構成されることになる。

この処理によって、パーティクル重み［Ｗ_ｐＩＤ］の大きなパーティクルがより多く残存することになる。なお、リサンプリング後もパーティクルの総数［ｍ］は変更されない。また、リサンプリング後は、各パーティクルの重み［Ｗ_ｐＩＤ］はリセットされ、新たなイベントの入力に応じてステップＳ１０１から処理が繰り返される。

ステップＳ１０７では、各パーティクルに含まれるターゲットデータ（ユーザ位置およびユーザ確信度）の更新処理を実行する。各ターゲットは、先に図７等を参照して説明したように、
（ａ）ユーザ位置：各ターゲット各々に対応する存在位置の確率分布［ガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）］、
（ｂ）ユーザ確信度：各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）として各ユーザ１〜ｋである確立値（スコア）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）、すなわち、
ｕＩＤ_ｔ１＝Ｐｔ［１］
ｕＩＤ_ｔ２＝Ｐｔ［２］
：
ｕＩＤ_ｔｋ＝Ｐｔ［ｋ］
さらに、
（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））
これらのデータによって構成される。

（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））は、前述したようにイベント発生源を示す［シグナル情報］に相当する確率、
Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）
と、各イベントに対応する顔属性スコアＳ_{ｅＩＤ＝ｉ}に基づいて算出される。ｉはイベントＩＤである。
例えばターゲットＩＤ＝１の顔属性の期待値：Ｓ_{ｔＩＤ＝１}は、以下の式で算出される。
Ｓ_{ｔＩＤ＝１}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝１）×Ｓ_{ｅＩＤ＝ｉ}
一般化して示すと、
ターゲットの顔属性の期待値：Ｓ_ｔＩＤは、以下の式で算出される。
Ｓ_ｔＩＤ＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ）×Ｓ_ｅＩＤ
・・・（式１）
として示される。

なお、ターゲット数が顔画像イベント数よりも多いときには、各ターゲットの顔属性の期待値［Ｓ_ｔＩＤ］の総和を［１］にするために、補数［１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ）］と事前知識の値［Ｓ_{ｐｒｉｏｒ}］を用いて顔イベント属性の期待値［Ｓ_ｔＩＤ］は、を次式（式２）で計算される。
Ｓ_ｔＩＤ＝Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ）×Ｓ_ｅＩＤ＋（１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ））×Ｓ_{ｐｒｉｏｒ}
・・・（式２）

ステップＳ１０７におけるターゲットデータの更新は、（ａ）ユーザ位置、（ｂ）ユーザ確信度、（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））の各々について実行する。まず、（ａ）ユーザ位置の更新処理について説明する。

ユーザ位置の更新は、
（ａ１）全パーティクルの全ターゲットを対象とする更新処理、
（ａ２）各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理、
これらの２段階の更新処理として実行する。

（ａ１）全パーティクルの全ターゲットを対象とする更新処理は、イベント発生源仮説ターゲットとして選択されたターゲットおよびその他のターゲットのすべてを対象として実行する。この処理は、時間経過に伴うユーザ位置の分散が拡大するという仮定に基づいて実行され、前回の更新処理からの経過時間とイベントの位置情報によってカルマン・フィルタ（ＫａｌｍａｎＦｉｌｔｅｒ）を用い更新される。

以下、位置情報が１次元の場合の更新処理例について説明する。まず、前回の更新処理時間からの経過時間［ｄｔ］とし、全ターゲットについての、ｄｔ後のユーザ位置の予測分布を計算する。すなわち、ユーザ位置の分布情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）の期待値（平均）：［ｍ_ｔ］、分散［σ_ｔ］について、以下の更新を行う。
ｍ_ｔ＝ｍ_ｔ＋ｘｃ×ｄｔ
σ_ｔ ^２＝σ_ｔ ^２＋σｃ^２×ｄｔ
なお、
ｍ_ｔ：予測期待値（ｐｒｅｄｉｃｔｅｄｓｔａｔｅ）
σ_ｔ ^２：予測共分散（ｐｒｅｄｉｃｔｅｄｅｓｔｉｍａｔｅｃｏｖａｒｉａｎｃｅ）
ｘｃ：移動情報（ｃｏｎｔｒｏｌｍｏｄｅｌ）
σｃ^２：ノイズ（ｐｒｏｃｅｓｓｎｏｉｓｅ）
である。
なお、ユーザが移動しない条件の下で処理する場合は、ｘｃ＝０として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）を更新する。

（ａ２）各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理、
次に、各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理について説明する。
ステップＳ１０３において設定したイベントの発生源の仮説に従って選択されたターゲットを更新する。先に図５を参照して説明したように、パーティクル１〜ｍの各々に含まれるターゲット１〜ｎの各々は、イベント（ｅＩＤ＝１〜ｋ）の各々に対応付けられたターゲットとして設定されている。

すなわち、イベントＩＤ（ｅＩＤ）に応じてそれぞれのパーティクルに含まれるどのターゲットを更新するかが予め設定されており、その設定に従って各入力イベントに対応付けられたターゲットのみを更新する。例えば、図５に示す［イベントＩＤ＝１（ｅＩＤ＝１）］のイベント対応情報３６１によって、パーティクル１（ｐＩＤ＝１）では、ターゲットＩＤ＝１（ｔＩＤ＝１）のデータのみが選択的に更新される。

このイベントの発生源の仮説に従った更新処理では、このようにイベントに対応付けられたターゲットの更新を行なう。音声イベント検出部１２２や画像イベント検出部１１２から入力するイベント情報に含まれるユーザ位置を示すガウス分布：Ｎ（ｍ_ｅ，σ_ｅ）などを用いた更新処理を実行する。
例えば、
Ｋ：カルマンゲイン（ＫａｌｍａｎＧａｉｎ）
ｍ_ｅ：入力イベント情報：Ｎ（ｍ_ｅ，σ_ｅ）に含まれる観測値（Ｏｂｓｅｒｖｅｄｓｔａｔｅ）
σ_ｅ ^２：入力イベント情報：Ｎ（ｍ_ｅ，σ_ｅ）に含まれる観測値（Ｏｂｓｅｒｖｅｄｃｏｖａｒｉａｎｃｅ）
として、以下の更新処理を行う。
Ｋ＝σ_ｔ ^２／（σ_ｔ ^２＋σ_ｅ ^２）
ｍ_ｔ＝ｍ_ｔ＋Ｋ（ｘｃ−ｍ_ｔ）
σ_ｔ ^２＝（１−Ｋ）σ_ｔ ^２

次に、ターゲットデータの更新処理として実行する（ｂ）ユーザ確信度の更新処理について説明する。ターゲットデータには上記のユーザ位置情報の他に、各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）として各ユーザ１〜ｋである確率値（スコア）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）が含まれている。ステップＳ１０７では、このユーザ確信度情報（ｕＩＤ）についても更新処理を行う。

各パーティクルに含まれるターゲットのユーザ確信度情報（ｕＩＤ）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）についての更新は、登録ユーザ全員分の事後確率と、音声イベント検出部１２２や画像イベント検出部１１２から入力するイベント情報に含まれるユーザ確信度情報（ｕＩＤ）：Ｐｅ［ｉ］（ｉ＝１〜ｋ）によって、予め設定した０〜１の範囲の値を持つ更新率［β］を適用して更新する。

ターゲットのユーザ確信度情報（ｕＩＤ）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）についての更新は、以下の式によって実行する。
Ｐｔ［ｉ］＝（１−β）×Ｐｔ［ｉ］＋β＊Ｐｅ［ｉ］
ただし、
ｉ＝１〜ｋ
β：０〜１
である。なお、更新率［β］は、０〜１の範囲の値であり予め設定する。

ステップＳ１０７では、この更新されたターゲットデータに含まれる以下のデータ、すなわち、
（ａ）ユーザ位置：各ターゲット各々に対応する存在位置の確率分布［ガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）］、
（ｂ）ユーザ確信度：各ターゲットが誰であるかを示すユーザ確信度情報（ｕＩＤ）として各ユーザ１〜ｋである確立値（スコア）：Ｐｔ［ｉ］（ｉ＝１〜ｋ）、すなわち、
ｕＩＤ_ｔ１＝Ｐｔ［１］
ｕＩＤ_ｔ２＝Ｐｔ［２］
：
ｕＩＤ_ｔｋ＝Ｐｔ［ｋ］
（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））
これらのデータによって構成される。
これらのデータと、各パーティクル重み［Ｗ_ｐＩＤ］とに基づいて、ターゲット情報を生成して、処理決定部１３２に出力する。

なお、ターゲット情報は、各パーティクル（ＰＩＤ＝１〜ｍ）に含まれる各ターゲット（ｔＩＤ＝１〜ｎ）対応データの重み付き総和データとして生成される。図７の右端のターゲット情報３８０に示すデータである。ターゲット情報は、各ターゲット（ｔＩＤ＝１〜ｎ）各々の
（ａ）ユーザ位置情報、
（ｂ）ユーザ確信度情報、
（ｃ）顔属性の期待値（本処理例では発話者である期待値（確率））
これらの情報を含む情報として生成される。

例えば、ターゲット（ｔＩＤ＝１）に対応するターゲット情報中の、ユーザ位置情報は、

上記式で表される。上記式において、Ｗ_ｉは、パーティクル重み［Ｗ_ｐＩＤ］を示している。

また、ターゲット（ｔＩＤ＝１）に対応するターゲット情報中の、ユーザ確信度情報は、

また、ターゲット（ｔＩＤ＝１）に対応するターゲット情報中の、顔属性の期待値（本処理例では発話者である期待値（確率））は、
Ｓ_{ｔＩＤ＝１}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝１）×Ｓ_{ｅＩＤ＝ｉ}
上記式、または、
Ｓ_{ｔＩＤ＝１}＝Σ_ｅＩＤＰ_{ｅＩＤ＝ｉ}（ｔＩＤ＝１）×Ｓ_{ｅＩＤ＝ｉ}＋（１−Σ_ｅＩＤＰ_ｅＩＤ（ｔＩＤ＝１）×Ｓ_{ｐｒｉｏｒ}
で表される。

音声・画像統合処理部１３１は、これらのターゲット情報をｎ個の各ターゲット（ｔＩＤ＝１〜ｎ）各々について算出し、算出したターゲット情報を処理決定部１３２に出力する。

次に、図８に示すフローのステップＳ１０８の処理について説明する。音声・画像統合処理部１３１は、ステップＳ１０８において、ｎ個のターゲット（ｔＩＤ＝１〜ｎ）の各々がイベントの発生源である確率を算出し、これをシグナル情報として処理決定部１３２に出力する。

先に説明したように、イベント発生源を示す［シグナル情報］は、音声イベントについては、誰が話をしたか、すなわち［発話者］を示すデータであり、画像イベントについては、画像に含まれる顔が誰であるかおよび［発話者］を示すデータである。

音声・画像統合処理部１３１は、各パーティクルに設定されたイベント発生源の仮説ターゲットの数に基づいて、各ターゲットがイベント発生源である確率を算出する。すなわち、ターゲット（ｔＩＤ＝１〜ｎ）の各々がイベント発生源である確率を［Ｐ（ｔＩＤ＝ｉ）とする。ただしｉ＝１〜ｎである。例えば、あるイベント（ｅＩＤ＝ｙ）の発生源が特定のターゲットｘ（ｔＩＤ＝ｘ）である確率は、先に説明したように、
Ｐ_{ｅＩＤ＝ｘ}（ｔＩＤ＝ｙ）
として示され、これは、音声・画像統合処理部１３１に設定されたパーティクル数：ｍと、各イベントに対するターゲットの割り当て数との比に相当する。例えば、図５に示す例では、
Ｐ_{ｅＩＤ＝１}（ｔＩＤ＝１）＝［第１イベント（ｅＩＤ＝１）にｔＩＤ＝１を割り当てたパーティクル数）／（ｍ）］
Ｐ_{ｅＩＤ＝１}（ｔＩＤ＝２）＝［第１イベント（ｅＩＤ＝１）にｔＩＤ＝２を割り当てたパーティクル数）／（ｍ）］
Ｐ_{ｅＩＤ＝２}（ｔＩＤ＝１）＝［第２イベント（ｅＩＤ＝２）にｔＩＤ＝１を割り当てたパーティクル数）／（ｍ）］
Ｐ_{ｅＩＤ＝２}（ｔＩＤ＝２）＝［第２イベント（ｅＩＤ＝２）にｔＩＤ＝２を割り当てたパーティクル数）／（ｍ）］
このような対応関係となる。
このデータがイベント発生源を示す［シグナル情報］として、処理決定部１３２に出力される。

ステップＳ１０８の処理が終了したら、ステップＳ１０１に戻り、音声イベント検出部１２２および画像イベント検出部１１２からのイベント情報の入力の待機状態に移行する。

以上が、図１０に示すフローのステップＳ１０１〜Ｓ１０８の説明である。ステップＳ１０１において、音声・画像統合処理部１３１が、音声イベント検出部１２２および画像イベント検出部１１２から、図３（Ｂ）に示すイベント情報を取得できなかった場合も、ステップＳ１２１において、各パーティクルに含まれるターゲットの構成データの更新が実行される。この更新は、時間経過に伴うユーザ位置の変化を考慮した処理である。

このターゲット更新処理は、先のステップＳ１０７の説明における（ａ１）全パーティクルの全ターゲットを対象とする更新処理と同様の処理であり、時間経過に伴うユーザ位置の分散が拡大するという仮定に基づいて実行され、前回の更新処理からの経過時間とイベントの位置情報によってカルマン・フィルタ（ＫａｌｍａｎＦｉｌｔｅｒ）を用い更新される。

位置情報が１次元の場合の更新処理例について説明する。まず、前回の更新処理時間からの経過時間［ｄｔ］とし、全ターゲットについての、ｄｔ後のユーザ位置の予測分布を計算する。すなわち、ユーザ位置の分布情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）の期待値（平均）：［ｍ_ｔ］、分散［σ_ｔ］について、以下の更新を行う。
ｍ_ｔ＝ｍ_ｔ＋ｘｃ×ｄｔ
σ_ｔ ^２＝σ_ｔ ^２＋σｃ^２×ｄｔ
なお、
ｍ_ｔ：予測期待値（ｐｒｅｄｉｃｔｅｄｓｔａｔｅ）
σ_ｔ ^２：予測共分散（ｐｒｅｄｉｃｔｅｄｅｓｔｉｍａｔｅｃｏｖａｒｉａｎｃｅ）
ｘｃ：移動情報（ｃｏｎｔｒｏｌｍｏｄｅｌ）
σｃ^２：ノイズ（ｐｒｏｃｅｓｓｎｏｉｓｅ）
である。
なお、ユーザが移動しない条件の下で処理する場合は、ｘｃ＝０として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布：Ｎ（ｍ_ｔ，σ_ｔ）を更新する。

なお、各パーティクルのターゲットに含まれるユーザ確信度情報（ｕＩＤ）については、イベントの登録ユーザ全員分の事後確率、もしくはイベント情報からスコア［Ｐｅ］が取得できない限りは更新しない。

ステップＳ１２１の処理が終了したら、ステップＳ１２２において、ターゲットの削除要否を判定し必要であればステップＳ１２３においてターゲットを削除する。ターゲット削除は、例えば、ターゲットに含まれるユーザ位置情報にピークが検出されない場合など、特定のユーザ位置が得られていないようなデータを削除する処理として実行される。このようなターゲットがない場合は削除処理は不要であるステップＳ１２２〜Ｓ１２３の処理後にステップＳ１０１に戻り、音声イベント検出部１２２および画像イベント検出部１１２からのイベント情報の入力の待機状態に移行する。

以上、図１０を参照して音声・画像統合処理部１３１の実行する処理について説明した。音声・画像統合処理部１３１は、図１０に示すフローに従った処理を音声イベント検出部１２２および画像イベント検出部１１２からのイベント情報の入力ごとに繰り返し実行する。この繰り返し処理により、より信頼度の高いターゲットを仮説ターゲットとして設定したパーティクルの重みが大きくなり、パーティクル重みに基づくリサンプリング処理により、より重みの大きいパーティクルが残存することになる。結果として音声イベント検出部１２２および画像イベント検出部１１２から入力するイベント情報に類似する信頼度の高いデータが残存することになり、最終的に信頼度の高い以下の各情報、すなわち、
（ａ）複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての［ターゲット情報］、
（ｂ）例えば話をしたユーザなどのイベント発生源を示す［シグナル情報］、
これらが生成されて処理決定部１３２に出力される。

［発話者の特定処理（ダイアリゼーション）］
上述した実施例において、音声・画像統合処理部１３１では、画像イベント検出部１１２が処理する画像フレーム毎に各パーティクルのイベント対応ターゲットの顔属性スコア［Ｓ（ｔＩＤ）］を逐次更新する。なお、この顔属性値［Ｓ（ｔＩＤ）］の値は必要に応じて正規化しながら更新する。顔属性スコア［Ｓ（ｔＩＤ）］は本処理例では口の動きに応じたスコアであり、ＶＳＤ（ＶｉｓｕａｌＳｐｅｅｃｈＤｅｔｅｃｔｉｏｎ）を適用して算出されたスコアである。

この処理過程において、例えばある時刻間、
Δｔ＝ｔ＿ｅｎｄ〜ｔ＿ｂｅｇｉｎ
この時刻間Δｔに音声イベントが入力され、音声イベントの音源方向情報、話者識別情報が得られたとする。音声イベントの音源方向情報、話者識別情報から得られるユーザ位置情報と、ユーザ識別情報のみから得られるターゲットｔＩＤの発話源確率をＰ（ｔＩＤ）とする。

音声・画像統合処理部１３１は、この発話源確率［Ｐ（ｔＩＤ）］と、各パーティクルのイベント対応ターゲットの顔属性値［Ｓ（ｔＩＤ）］を以下に示す方法で統合してカクターゲットの発話者確率を算出することができる。この方法により、発話者の特定処理としてのダイアリゼーションの性能を向上させることが可能となる。

この処理について、図１２、図１３を参照して説明する。
時刻ｔにおけるターゲットｔＩＤの顔属性スコア［Ｓ（ｔＩＤ）］をＳ（ｔＩＤ）ｔとし、図１２右上段の［観測値ｚ］に示すように、音声イベントの区間を［ｔ＿ｂｅｇｉｎ，〜ｔ＿ｅｎｄ］とし、図１２中段に示すｍ個のイベント対応ターゲット（ｔＩＤ＝１，２，・・・ｍ）の顔属性スコア［Ｓ（ｔＩＤ）］のスコア値を、音声イベントの入力期間［ｔ＿ｂｅｇｉｎ，〜ｔ＿ｅｎｄ］並べた時系列データを図１２の下段に示す顔属性スコア時系列データ５１１，５１２，・・・５１ｍとする。これらの時系列データの顔属性スコア［Ｓ（ｔＩＤ）］の面積をＳ_Δｔ（ｔＩＤ）とする。

（ａ）音声イベントの音源方向情報、話者識別情報から得られるユーザ位置情報と、ユーザ識別情報のみから得られるターゲットｔＩＤの発話源確率Ｐ（ｔＩＤ）と、
（ｂ）顔属性スコア［Ｓ（ｔＩＤ）］の面積であるＳ_Δｔ（ｔＩＤ）
これら２つの値を統合するために、
まずＰ（ｔＩＤ）はΔｔを乗じて、
Ｐ（ｔＩＤ）×Δｔ
を算出し、
Ｓ_Δｔ（ｔＩＤ）は次式で正規化を行う。
Ｓ_Δｔ（ｔＩＤ）＜＝Ｓ_Δｔ（ｔＩＤ）／Σ_ｔＩＤＳ_Δｔ（ｔＩＤ）
・・・（式３）

図１３の上段には、このようにして算出された各ターゲット（ｔＩＤ＝１，２，ｍ）についての以下の各値、すなわち、
Ｐ（ｔＩＤ）×Δｔ
Ｓ_Δｔ（ｔＩＤ）
を示している。

さらに、
（ａ）音声イベントの音源方向情報、話者識別情報から得られるユーザ位置情報と、ユーザ識別情報のみから得られるターゲットｔＩＤの発話源確率Ｐ（ｔＩＤ）と、
（ｂ）顔属性スコア［Ｓ（ｔＩＤ）］の面積であるＳ_Δｔ（ｔＩＤ）
これらの（ａ），（ｂ）の配分重み係数としてのαを用いて重みを考慮した加算または乗算によって、各ターゲット（ｔＩＤ＝１〜ｍ）の発話者確率Ｐｓ（ｔＩＤ）またはＰｐ（ｔＩＤ）を算出する。

重みαを考慮した加算によって算出されるターゲットの発話者確率Ｐｓ（ｔＩＤ）は、下式（式４）によって算出される。
Ｐｓ（ｔＩＤ）＝Ｗｓ（ｔＩＤ）／ΣＷｓ（ｔＩＤ）・・・（式４）
ただし、Ｗｓ（ｔＩＤ）＝（１−α）Ｐ（ｔＩＤ）Δｔ＋αＳ_Δｔ（ｔＩＤ）

また、重みαを考慮した乗算によって算出されるターゲットの発話者確率Ｐｐ（ｔＩＤ）は、下式（式５）によって算出される。
Ｐｐ（ｔＩＤ）＝Ｗｐ（ｔＩＤ）／ΣＷｐ（ｔＩＤ）・・・（式５）
ただし、Ｗｐ（ｔＩＤ）＝（Ｐ（ｔＩＤ）Δｔ）^{（１−α）}×Ｓ_Δｔ（ｔＩＤ）^α

これらの式が図１３の下端に示す式である。
これらの式のいずれかを適用することで、各ターゲットがイベント発生源である確率推定の性能が向上する。すなわち、音声イベントの音源方向情報、話者識別情報から得られるユーザ位置情報と、ユーザ識別情報のみから得られるターゲットｔＩＤの発話源確率［Ｐ（ｔＩＤ）］と、各パーティクルのイベント対応ターゲットの顔属性値［Ｓ（ｔＩＤ）］を統合して発話源の推定を行なうことで、発話者の特定処理としてのダイアリゼーションの性能を向上させることが可能となる。

以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本発明の一実施例の構成によれば、カメラやマイクによって取得される画像情報や音声情報に基づいてユーザの推定位置および推定識別データを含むイベント情報を入力して、複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を行い、フィルタリングによる仮説の更新および取捨選択に基づいてユーザの位置および識別情報を生成する。特に各パーティクルに設定するターゲットをイベント情報入力部の入力するイベント、例えば顔画像に対応して設定する構成としたので、不確実で非同期な位置情報、識別情報を入力情報としても確からしい情報を効率的に残存させることが可能となり、ユーザ位置やユーザ識別情報を効率的に確実に生成することが可能となり、また発話者の特定などにおいても精度の高い処理が実現される。

本発明に係る情報処理装置の実行する処理の概要について説明する図である。本発明の一実施例の情報処理装置の構成および処理について説明する図である。音声イベント検出部１２２および画像イベント検出部１１２が生成し音声・画像統合処理部１３１に入力する情報の例について説明する図である。パーティクル・フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）を適用した基本的な処理例について説明する図である。本処理例で設定するパーティクルの構成について説明する図である。各パーティクルに含まれるターゲット各々が有するターゲットデータの構成について説明する図である。ターゲット情報の構成および生成処理について説明する図である。ターゲット情報の構成および生成処理について説明する図である。ターゲット情報の構成および生成処理について説明する図である。音声・画像統合処理部１３１の実行する処理シーケンスを説明するフローチャートを示す図である。パーティクル重み［Ｗ_ｐＩＤ］の算出処理の詳細について説明する図である。顔属性情報を適用した発話者特定処理について説明する図である。顔属性情報を適用した発話者特定処理について説明する図である。

符号の説明

１１〜１４ユーザ
２１カメラ
３１〜３４マイク
１００情報処理装置
１１１画像入力部
１１２画像イベント検出部
１２１音声入力部
１２２音声イベント検出部
１３１音声・画像統合処理部
１３２処理決定部
２０１〜２０ｋユーザ
３０１ユーザ
３０２画像データ
３５０画像フレーム
３５１第１顔画像
３５２第２顔画像
３６１，３６２イベント情報
３７１，３７２イベント発生源仮設データ
３７５ターゲットデータ
３８０ターゲット情報
３９０ターゲット情報
３９５第３顔画像
４０１イベント情報
４２１パーティクル
５１１〜５１ｍ顔属性スコア時系列データ

Claims

実空間の観測情報を入力する複数の情報入力部と、
前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出部と、
ユーザの位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザの位置情報を含む解析情報を生成する情報統合処理部と、
を有し、
前記情報統合処理部は、
仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザの位置情報を含む解析情報を生成する構成であり、
前記パーティクルに設定するターゲットデータの各々を前記イベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行う構成を有することを特徴とする情報処理装置。
前記情報統合処理部は、
前記イベント検出部において検出された顔画像単位のイベント各々にターゲットを対応付けて処理を行なう構成を有することを特徴とする請求項１に記載の情報処理装置。
前記情報統合処理部は、
前記パーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成であることを特徴とする請求項１に記載の情報処理装置。
前記イベント検出部は、
画像情報入力部から入力する画像フレームから顔領域を検出し、検出した顔領域から顔属性情報を抽出して抽出した顔属性情報に対応する顔属性スコアを算出して前記情報統合処理部に出力する構成であり、
前記情報統合処理部は、
前記イベント検出部から入力する顔属性スコアを適用して、前記ターゲット各々に対応する顔属性期待値を算出することを特徴とする請求項１に記載の情報処理装置。
前記イベント検出部の検出する顔属性スコアは、顔領域の口の動き検出に基づいて生成されるスコアであり、
前記情報統合処理部の生成する顔属性期待値は、ターゲットが発話者である確率値に対応する値であることを特徴とする請求項４に記載の情報処理装置。
前記イベント検出部は、
ＶＳＤ（ＶｉｓｕａｌＳｐｅｅｃｈＤｅｔｅｃｔｉｏｎ）を適用した処理により顔領域の口の動き検出を実行することを特徴とする請求項５に記載の情報処理装置。
前記情報統合処理部は、
前記イベント検出部から入力するイベント情報に顔属性スコアが含まれない場合、予め設定された事前知識の値［Ｓ_{ｐｒｉｏｒ}］を用いることを特徴とする請求項４に記載の情報処理装置。
前記情報統合処理部は、
前記イベント検出部の検出情報から得られる音声入力期間中のユーザ位置情報とユーザ識別情報から算出するターゲットの発話源確率Ｐ（ｔＩＤ）と前記顔属性スコアの値を適用して、各ターゲットの発話者確率を算出する構成であることを特徴とする請求項４に記載の情報処理装置。
前記情報統合処理部は、
音声入力期間をΔｔとしたとき、
前記発話源確率Ｐ［（ｔＩＤ）］と、顔属性スコア［Ｓ（ｔＩＤ）］を適用した重み付け加算により各ターゲットの発話者確率［Ｐｓ（ｔＩＤ）］を算出する構成であり、下式、
Ｐｓ（ｔＩＤ）＝Ｗｓ（ｔＩＤ）／ΣＷｓ（ｔＩＤ）
ただし、
Ｗｓ（ｔＩＤ）＝（１−α）Ｐ（ｔＩＤ）Δｔ＋αＳ_Δｔ（ｔＩＤ）
αは重み係数、
上記式により、各ターゲットの発話者確率［Ｐｓ（ｔＩＤ）］を算出する構成であることを特徴とする請求項８に記載の情報処理装置。
前記情報統合処理部は、
音声入力期間をΔｔとしたとき、
前記発話源確率Ｐ［（ｔＩＤ）］と、顔属性スコア［Ｓ（ｔＩＤ）］を適用した重み付け乗算により各ターゲットの発話者確率［Ｐｐ（ｔＩＤ）］を算出する構成であり、下式、
Ｐｐ（ｔＩＤ）＝Ｗｐ（ｔＩＤ）／ΣＷｐ（ｔＩＤ）
ただし、
Ｗｐ（ｔＩＤ）＝（Ｐ（ｔＩＤ）Δｔ）^{（１−α）}×Ｓ_Δｔ（ｔＩＤ）^α
αは重み係数、
上記式により、各ターゲットの発話者確率［Ｐｐ（ｔＩＤ）］を算出する構成であることを特徴とする請求項８に記載の情報処理装置。
前記イベント検出部は、
ガウス分布からなるユーザの推定位置情報と、ユーザ対応の確率値を示すユーザ確信度情報を含むイベント情報を生成する構成であり、
前記情報統合処理部は、
仮想的なユーザに対応するガウス分布からなるユーザ位置情報と、ユーザ対応の確率値を示すユーザの確信度情報を有するターゲットを複数設定したパーティクルを保持した構成であることを特徴とする請求項１に記載の情報処理装置。
前記情報統合処理部は、
各パーティクルに設定したイベント発生源仮説ターゲットと、前記イベント検出部から入力するイベント情報との尤度を算出し、該尤度の大小に応じた値をパーティクル重みとして各パーティクルに設定する構成であることを特徴とする請求項１に記載の情報処理装置。
前記情報統合処理部は、
前記パーティクル重みの大きいパーティクルを優先的に再選択するリサンプリング処理を実行して、パーティクルの更新処理を行う構成であることを特徴とする請求項１に記載の情報処理装置。
前記情報統合処理部は、
各パーティクルに設定したターゲットについて、経過時間を考慮した更新処理を実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記情報統合処理部は、
前記パーティクルの各々に設定したイベント発生源仮説ターゲットの数に応じて、イベント発生源の確率値としてのシグナル情報の生成を行う構成であることを特徴とする請求項１に記載の情報処理装置。
情報処理装置において、情報解析処理を実行する情報処理方法であり、
複数の情報入力部が、実空間における観測情報を入力する情報入力ステップと、
イベント検出部が、前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出ステップと、
情報統合処理部が、ユーザの位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザの位置情報を含む解析情報を生成する情報統合処理ステップと、
を有し、
前記情報統合処理ステップは、
仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザの位置情報を含む解析情報を生成するステップであり、
前記パーティクルに設定するターゲットデータの各々を前記イベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行うことを特徴とする情報処理方法。
前記情報統合処理ステップは、
前記イベント検出部において検出された顔画像単位のイベント各々にターゲットを対応付けて処理を行なうことを特徴とする請求項１６に記載の情報処理方法。
前記情報統合処理ステップは、
前記パーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成するステップであることを特徴とする請求項１６に記載の情報処理方法。
前記イベント検出ステップは、
画像情報入力部から入力する画像フレームから顔領域を検出し、検出した顔領域から顔属性情報を抽出して抽出した顔属性情報に対応する顔属性スコアを算出して前記情報統合処理部に出力するステップを含み、
前記情報統合処理ステップは、
前記イベント検出部から入力する顔属性スコアを適用して、前記ターゲット各々に対応する顔属性期待値を算出することを特徴とする請求項１６に記載の情報処理方法。
前記イベント検出部の検出する顔属性スコアは、顔領域の口の動き検出に基づいて生成されるスコアであり、
前記情報統合処理ステップにおいて生成する顔属性期待値は、ターゲットが発話者である確率値に対応する値であることを特徴とする請求項１９に記載の情報処理方法。
前記イベント検出ステップは、
ＶＳＤ（ＶｉｓｕａｌＳｐｅｅｃｈＤｅｔｅｃｔｉｏｎ）を適用した処理により顔領域の口の動き検出を実行することを特徴とする請求項２０に記載の情報処理方法。
前記情報統合処理ステップは、
前記イベント検出部から入力するイベント情報に顔属性スコアが含まれない場合、予め設定された事前知識の値［Ｓ_{ｐｒｉｏｒ}］を用いることを特徴とする請求項１９に記載の情報処理方法。
前記情報統合処理ステップは、
前記イベント検出部の検出情報から得られる音声入力期間中のユーザ位置情報とユーザ識別情報から算出するターゲットの発話源確率Ｐ（ｔＩＤ）と前記顔属性スコアの値を適用して、各ターゲットの発話者確率を算出する構成であることを特徴とする請求項１９に記載の情報処理方法。
前記情報統合処理ステップは、
音声入力期間をΔｔとしたとき、
前記発話源確率Ｐ［（ｔＩＤ）］と、顔属性スコア［Ｓ（ｔＩＤ）］を適用した重み付け加算により各ターゲットの発話者確率［Ｐｓ（ｔＩＤ）］を算出するステップであり、下式、
Ｐｓ（ｔＩＤ）＝Ｗｓ（ｔＩＤ）／ΣＷｓ（ｔＩＤ）
ただし、
Ｗｓ（ｔＩＤ）＝（１−α）Ｐ（ｔＩＤ）Δｔ＋αＳ_Δｔ（ｔＩＤ）
αは重み係数、
上記式により、各ターゲットの発話者確率［Ｐｓ（ｔＩＤ）］を算出することを特徴とする請求項２３に記載の情報処理方法。
前記情報統合処理ステップは、
音声入力期間をΔｔとしたとき、
前記発話源確率Ｐ［（ｔＩＤ）］と、顔属性スコア［Ｓ（ｔＩＤ）］を適用した重み付け乗算により各ターゲットの発話者確率［Ｐｐ（ｔＩＤ）］を算出するステップであり、下式、
Ｐｐ（ｔＩＤ）＝Ｗｐ（ｔＩＤ）／ΣＷｐ（ｔＩＤ）
ただし、
Ｗｐ（ｔＩＤ）＝（Ｐ（ｔＩＤ）Δｔ）^{（１−α）}×Ｓ_Δｔ（ｔＩＤ）^α
αは重み係数、
上記式により、各ターゲットの発話者確率［Ｐｐ（ｔＩＤ）］を算出することを特徴とする請求項２３に記載の情報処理方法。
前記イベント検出ステップは、
ガウス分布からなるユーザの推定位置情報と、ユーザ対応の確率値を示すユーザ確信度情報を含むイベント情報を生成するステップであり、
前記情報統合処理ステップは、
仮想的なユーザに対応するガウス分布からなるユーザ位置情報と、ユーザ対応の確率値を示すユーザの確信度情報を有するターゲットを複数設定したパーティクルにおけるターゲット更新を実行することを特徴とする請求項１６に記載の情報処理方法。
前記情報統合処理ステップは、
各パーティクルに設定したイベント発生源仮説ターゲットと、前記イベント検出部から入力するイベント情報との尤度を算出し、該尤度の大小に応じた値をパーティクル重みとして各パーティクルに設定することを特徴とする請求項１６に記載の情報処理方法。
前記情報統合処理ステップは、
前記パーティクル重みの大きいパーティクルを優先的に再選択するリサンプリング処理を実行して、パーティクルの更新処理を行うことを特徴とする請求項１６に記載の情報処理方法。
前記情報統合処理ステップは、
各パーティクルに設定したターゲットについて、経過時間を考慮した更新処理を実行することを特徴とする請求項１７に記載の情報処理方法。
前記情報統合処理ステップは、
前記パーティクルの各々に設定したイベント発生源仮説ターゲットの数に応じて、イベント発生源の確率値としてのシグナル情報の生成を行うことを特徴とする請求項１６に記載の情報処理方法。
情報処理装置において、情報解析処理を実行させるコンピュータ・プログラムであり、
複数の情報入力部に、実空間における観測情報を入力させる情報入力ステップと、
イベント検出部に、前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成させるイベント検出ステップと、
情報統合処理部に、ユーザの位置および識別情報についての仮説（Ｈｙｐｏｔｈｅｓｉｓ）の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザの位置情報を含む解析情報を生成させる情報統合処理ステップと、
を有し、
前記情報統合処理ステップは、
仮想的なユーザに対応する複数のターゲットデータを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザの位置情報を含む解析情報を生成させるステップであり、
前記パーティクルに設定するターゲットデータの各々を前記イベント検出部から入力するイベント各々に対応付けて設定し、入力イベント識別子に応じて各パーティクルから選択されるイベント対応ターゲットデータの更新を行わせることを特徴とするコンピュータ・プログラム。