JP4905651B2

JP4905651B2 - 情報分析装置、情報分析方法及び情報分析プログラム

Info

Publication number: JP4905651B2
Application number: JP2006071976A
Authority: JP
Inventors: 昭一郎岩澤; 朋二鳥山; 健二間瀬
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2006-03-16
Filing date: 2006-03-16
Publication date: 2012-03-28
Anticipated expiration: 2026-03-16
Also published as: JP2007249604A

Description

本発明は、複数のオブジェクトを観測した観測情報を分析する情報分析装置、情報分析方法及び情報分析プログラムに関するものである。

ビデオカメラレコーダやビデオ撮影機能を有する携帯電話機の普及が進んでおり、ビデオ映像を撮影したり、被写体になったりする機会が増加傾向にあり、日常的に記録して取り扱われる映像情報が増大してきているが、再利用性の面から考えてみると、それほど上手な仕組みが整えられているわけではない。このため、撮影された映像の大部分は、再利用されないままに蓄積され続ける（忘れ去られる）か、消去されるかのどちらかである。

映像を再利用するためには、どの時点に何が写っているのか、どこに重点があるのかといった情報が欠けているということが問題点の一つである。この場合、記録したビデオ映像を最初から全て見返して映像内容を書き起こすなどすればよいが、この作業は、大変手間が必要な上に、相当の時間が掛かるために実行されないことが多い。このように、映像情報は、本質である映像以外にメタ情報が存在しないと、情報量の多さゆえに再利用性が著しく損なわれる。

また、ＣＡＲＰＥ（Ｃａｐｕｔｕｒｅ，ＡｒｃｈｉｖａｌａｎｄＲｅｔｒｉｅｖａｌｏｆＰｅｒｓｏｎａｌＥｘｐｅｒｉｅｎｃｅｓ）と名付けられた、個人の日常的な体験を記録して活用することに取り組む最新の研究分野において、日常の記録としてウェアラブルカメラなどを身体に装着して長時間に渡って連続的に記録することが行われている。その利点としては、ビデオカメラレコーダや携帯電話内蔵カメラを使う場合と異なり、突発的に起こった事象を含めて網羅することができ、事後に判明する記録し忘れや判断ミスの回避可能などが挙げられる。

しかしながら、上記のように記録すると、ビデオ記録しているという意識自体が薄くなるため、メタ情報をこまめに記録するなどという作業はあまり期待できない。また、そのような作業に気をとられていては、肝心の体験に集中できないので、そもそもよい体験となり得ない。また、複数人で同時に記録したり、環境側でも記録システムが運用されたりしているような場合、ビデオリソースが膨大となり、さらに再利用が厳しくなる。

このため、手動ではなく、ビデオ記録された映像情報や音声情報から自動的にメタ情報を抽出してインデクスを付与するための研究が、画像データベース、検索などの分野を中心に取り組まれている（例えば、非特許文献１参照）。
河野恭之、他５名、「ウェアラブル日記の実現に向けて−日常記憶の検索・編集・整理・共有機構」、電子情報通信学会研究報告ＰＲＭＵ、２００３年、ｐ．５５−ｐ．６０

しかしながら、画像等の解析によると、当然であるが、当該モダリティから読み取れない情報を利用することはできない。例えば、動画像から、動きの激しい、色変化に富むなどという情報は、比較的容易に検出できるが、このような情報はユーザにとって重要な映像を抽出するための指標としては適当ではない。特に、テレビ放送などのように意図をもって制作された映像コンテンツではなく、単に連続記録した場合では、時間的近傍の変化が滑らかであったり、動きが激しいところでは移動中であったりするため、ユーザにとって重要な映像を抽出するための指標を抽出することができない。

本発明の目的は、複数のオブジェクトを観測した観測情報の中から、任意のオブジェクトにとって重要な観測情報を抽出するための適切な指標を自動的に表示することができる情報分析装置、情報分析方法及び情報分析プログラムを提供することである。

本発明に係る情報分析装置は、複数のオブジェクトを観測した観測情報を分析する情報分析装置であって、複数のオブジェクトの中から一のオブジェクトを主オブジェクトとして受け付ける受付手段と、２つのオブジェクト間の動作状態を基準に分類されたプリミティブ情報と、前記プリミティブ情報を組み合わせることにより作成され且つ３つ以上のオブジェクト間の動作状態を基準に分類されたコンポジット情報とに階層化された観測情報を、観測されたオブジェクト及び観測時間を特定可能な形式で記録している記録手段から、主オブジェクトが関与したすべてのコンポジット情報を抽出するとともに、抽出した各コンポジット情報を構成するすべてのプリミティブ情報を抽出する抽出手段と、前記抽出手段により抽出されたコンポジット情報及びプリミティブ情報を基に、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合を算出する算出手段と、前記プリミティブ情報割合を観測時間軸上に表示する表示手段とを備えるものである。

本発明に係る情報分析装置では、記録されている観測情報の中から、主オブジェクトが関与したすべてのコンポジット情報が抽出されるとともに、抽出された各コンポジット情報を構成するすべてのプリミティブ情報が抽出され、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合が算出され、このプリミティブ情報割合が観測時間軸上に表示される。

ここで、プリミティブ情報は、２つのオブジェクト間の動作状態を基準に分類された情報であり、コンポジット情報は、このプリミティブ情報を組み合わせることにより作成され、３つ以上のオブジェクト間の動作状態を基準に分類された情報であるから、プリミティブ情報割合は、主オブジェクトが関与した３つ以上のオブジェクト間の動作状態において主オブジェクトが主体的に行動した動作状態の時間割合を表す指標となる。したがって、このプリミティブ情報割合を基準に主オブジェクトにとって重要な観測情報がどの観測時刻の情報かを容易に知ることができるので、プリミティブ情報割合は、主オブジェクトにとって重要な観測情報を抽出するための適切な指標となる。この結果、複数のオブジェクトを観測した観測情報の中から任意のオブジェクトにとって重要な観測情報を抽出するための適切な指標を自動的に表示することができる。

前記算出手段は、前記抽出手段により抽出されたコンポジット情報を基に、主オブジェクトが関与したすべてのコンポジット情報の総継続時間に対する主オブジェクトが関与した各コンポジット情報の継続時間の単位時間当たりの割合を表すコンポジット情報割合を算出し、前記表示手段は、前記コンポジット情報割合を観測時間軸上に表示することが好ましい。

この場合、主オブジェクトが関与したすべてのコンポジット情報の総継続時間に対する主オブジェクトが関与した各コンポジット情報の継続時間の単位時間当たりの割合を表すコンポジット情報割合を観測時間軸上に表示することができるので、このコンポジット情報割合を基準に、主オブジェクトが関与した３つ以上のオブジェクト間の動作状態の中から継続時間の長い動作状態を観測している観測情報が、どの観測時刻の情報かを容易に知ることができる。

前記算出手段は、前記抽出手段により抽出されたプリミティブ情報を基に、主オブジェクトが関与したすべてのプリミティブ情報の単位時間当たりの発生量を表すプリミティブ情報発生量を算出し、前記表示手段は、前記プリミティブ情報発生量を観測時間軸上に表示することが好ましい。

この場合、主オブジェクトが関与したすべてのプリミティブ情報の単位時間当たりの発生量を表すプリミティブ情報発生量を観測時間軸上に表示することができるので、このプリミティブ情報発生量を基準に、主オブジェクトが主体的に関与した動作状態を観測している観測情報が、どの観測時刻の情報かを容易に知ることができる。

前記抽出手段は、オブジェクトが発話した状態を表す発話プリミティブ情報をプリミティブ情報として抽出し、前記算出手段は、前記抽出手段により抽出された発話プリミティブ情報を基に、主オブジェクトが関与したすべての発話プリミティブ情報の単位時間当たりの発生量を表す発話プリミティブ情報発生量を算出し、前記表示手段は、前記発話プリミティブ情報発生量を観測時間軸上に表示することが好ましい。

この場合、主オブジェクトが関与したすべての発話プリミティブ情報の単位時間当たりの発生量を表す発話プリミティブ情報発生量を観測時間軸上に表示することができるので、この発話プリミティブ情報発生量を基準に、主オブジェクトが主体的に発話している状態を観測している観測情報が、どの観測時刻の情報かを容易に知ることができる。

前記観測情報は、少なくとも一のオブジェクトを含む動画像を撮影した映像情報及び音声情報を含むことが好ましい。

この場合、複数のオブジェクトを観測した長時間の映像情報及び音声情報の中から任意のオブジェクトにとって重要な映像情報及び音声情報を抽出するための適切な指標を自動的に表示することができる。

本発明に係る情報分析方法は、受付手段と、抽出手段と、算出手段と、表示手段とを備える情報分析装置を用いて、複数のオブジェクトを観測した観測情報を分析する情報分析方法であって、前記受付手段が、複数のオブジェクトの中から一のオブジェクトを主オブジェクトとして受け付けるステップと、前記抽出手段が、２つのオブジェクト間の動作状態を基準に分類されたプリミティブ情報と、前記プリミティブ情報を組み合わせることにより作成され、３つ以上のオブジェクト間の動作状態を基準に分類されたコンポジット情報とに階層化された観測情報を、観測されたオブジェクト及び観測時間を特定可能な形式で記録している記録手段から、主オブジェクトが関与したすべてのコンポジット情報を抽出するとともに、抽出した各コンポジット情報を構成するすべてのプリミティブ情報を抽出するステップと、前記算出手段が、抽出されたコンポジット情報及びプリミティブ情報を基に、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合を算出するステップと、前記表示手段が、前記プリミティブ情報割合を観測時間軸上に表示するステップとを含むものである。

本発明に係る情報分析プログラムは、複数のオブジェクトを観測した観測情報を分析するための情報分析プログラムであって、複数のオブジェクトの中から一のオブジェクトを主オブジェクトとして受け付ける受付手段と、２つのオブジェクト間の動作状態を基準に分類されたプリミティブ情報と、前記プリミティブ情報を組み合わせることにより作成され且つ３つ以上のオブジェクト間の動作状態を基準に分類されたコンポジット情報とに階層化された観測情報を、観測されたオブジェクト及び観測時間を特定可能な形式で記録している記録手段から、主オブジェクトが関与したすべてのコンポジット情報を抽出するとともに、抽出した各コンポジット情報を構成するすべてのプリミティブ情報を抽出する抽出手段と、前記抽出手段により抽出されたコンポジット情報及びプリミティブ情報を基に、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合を算出する算出手段と、前記プリミティブ情報割合を観測時間軸上に表示する表示手段としてコンピュータを機能させるものである。

本発明によれば、主オブジェクトが関与した３つ以上のオブジェクト間の動作状態において主オブジェクトが主体的に行動した動作状態の時間割合を表す指標となるプリミティブ情報割合を基準に主オブジェクトにとって重要な観測情報がどの観測時刻の情報かを容易に知ることができるので、複数のオブジェクトを観測した観測情報の中から任意のオブジェクトにとって重要な観測情報を抽出するための適切な指標を自動的に表示することができる。

以下、本発明の一実施の形態による情報分析装置を用いた情報管理システムについて図面を参照しながら説明する。図１は、本発明の一実施の形態による情報分析装置を用いた情報管理システムの構成を示すブロック図である。なお、本実施の形態では、展示会場において説明員が見学者に展示内容を説明しているときに、観測されるオブジェクトである説明員及び見学者のインタラクション（相互作用）等に関する観測情報を分析する場合について説明するが、本発明はこの例に特に限定されず、ラウンドテーブルを囲んだ自由討論等の打合せ、ある物体や書類を囲んで複数人が作業を行う共同作業等の種々のコンポジットにおける、人間と人間、人間とロボット、人間と環境を構成する人工物等の間の種々のインタラクション等に関する観測情報の分析に同様に適用することができる。

図１に示す情報管理システムは、人間用観測装置１、周囲状況観測装置２、ロボット型観測装置３、情報管理装置４、アプリケーションサーバ５、情報分析装置６、アプリケーションサーバ７、ＡＶ（オーディオ・ビデオ）ファイルサーバ８及び赤外線タグ９を備える。情報管理装置４は、クライアントコンピュータ部４１及びデータ管理用サーバ４５を備え、クライアントコンピュータ部４１は、クライアントコンピュータ４２〜４４を含む。

なお、図１では、図示を容易にするために人間用観測装置１、周囲状況観測装置２、ロボット型観測装置３及び赤外線タグ９をそれぞれ１個のみ図示しているが、人間用観測装置１は説明員及び見学者ごとに設けられ、周囲状況観測装置２は複数の観測位置に設けられ、ロボット型観測装置３は必要数だけ設けられ、赤外線タグ９は説明員及び見学者等のインタラクションに使用される対象物ごとに設けられている。また、クライアントコンピュータ４２〜４４は人間用観測装置１、周囲状況観測装置２及びロボット型観測装置３に対応してそれぞれ設けられ、アプリケーションサーバ５、７は、アプリケーションごとに設けられる。

本実施の形態では、説明員、見学者等の人間、ロボット及び展示物等がインタラクションに参加するオブジェクトに該当し、オブジェクトの型を「ＨＵＭＡＮ」、「ＵＢＩＱ」及び「ＲＯＢＯＴ」の３種類に分類し、「ＨＵＭＡＮ」には説明員、見学者等の人間、「ＵＢＩＱ」には展示物等の人工物（ユビキタス）、「ＲＯＢＯＴ」には説明を補助するロボット（ロボット型観測装置３）がそれぞれ該当する。また、本実施の形態では、上記のインタラクションのうち、２つのオブジェクト間（人間と人間、人間と物等）のインタラクションをプリミティブ（Ｐｒｉｍｉｔｉｖｅ）といい、３つの以上のオブジェクト間（人間と人間と人間、人間と人間と物等）のインタラクションをコンポジット（Ｃｏｍｐｏｓｉｔｅ）といい、プリミティブを特定するための情報をプリミティブ情報といい、コンポジットを特定するための情報をコンポジット情報という。

赤外線タグ９は、人間用観測装置１、周囲状況観測装置２及びロボット型観測装置３により観測される対象物となる展示物自体又はその近傍若しくは展示会場の壁又は天井等に取り付けられ、対象物に対して一意的に割り付けられたＩＤ番号（識別情報）を赤外線の点滅により送信する。

人間用観測装置１は、説明員又は見学者に装着され、装着している説明員又は見学者のＩＤ番号を赤外線の点滅により送信する。また、人間用観測装置１は、説明員等の視界内に位置する赤外線タグ９等から送信される対象物のＩＤ番号及び赤外線タグ９等の赤外線画像内のＸＹ座標を検出するとともに、赤外線タグ９を含む可視光画像を撮影し、検出したＩＤ番号及びＸＹ座標等の観測情報及び撮影した可視光画像データ（映像データ）等の観測情報をクライアントコンピュータ４２へ出力する。また、人間用観測装置１は、人間用観測装置１を装着している説明員又は見学者の発話を検出して音声データ等の観測情報をクライアントコンピュータ４２へ出力するとともに、生体データを検出してクライアントコンピュータ４２へ出力する。

クライアントコンピュータ４２は、ＲＯＭ（リードオンリメモリ）、ＣＰＵ（中央演算処理装置）、ＲＡＭ（ランダムアクセスメモリ）、外部記憶装置、通信装置等を備えるクライアントコンピュータから構成され、人間用観測装置１により取得された映像データ及び音声データ等の観測情報であるローデータ（ＲａｗＤａｔａ）情報をその取得時間とともにオブジェクトごとに記録するとともに、記録している観測情報のうち取得時間が所定間隔以下の複数の観測情報を一つのセグメンテーション（Ｓｅｇｍｅｎｔａｔｉｏｎ）情報として抽出し、抽出したセグメンテーション情報をオブジェクトごとに記録し、データ管理用サーバ４５及びアプリケーションサーバ５，７へ無線等により送信する。また、クライアントコンピュータ４２は、人間用観測装置１から出力される映像データ及び音声データをデータ管理用サーバ４５へ無線等により送信する。

周囲状況観測装置２は、説明員及び見学者が位置する空間を構成する構造物、例えば展示会場の天井及び壁に固定され、撮影範囲内に位置する人間用観測装置１及び赤外線タグ９等から送信されるＩＤ番号並びに人間用観測装置１及び赤外線タグ９等の赤外線画像内のＸＹ座標を検出するとともに、撮影範囲内に位置する人間用観測装置１及び赤外線タグ９等を含む可視光画像を撮影し、検出したＩＤ番号及びＸＹ座標等の観測情報及び撮影した映像データ等の観測情報をクライアントコンピュータ４３へ出力する。また、周囲状況観測装置２は、撮影範囲内に位置する説明員又は見学者の発話等を集音して音声データ等の観測情報をクライアントコンピュータ４３へ出力する。

クライアントコンピュータ４３は、ＲＯＭ、ＣＰＵ、ＲＡＭ、外部記憶装置、通信装置等を備えるクライアントコンピュータから構成され、周囲状況観測装置２により取得された観測情報であるローデータ情報をその取得時間とともにオブジェクトごとに記録するとともに、記録している観測情報のうち取得時間が所定間隔以下の複数の観測情報を一つのセグメンテーション情報として抽出し、抽出したセグメンテーション情報をオブジェクトごとに記録し、データ管理用サーバ４５及びアプリケーションサーバ５，７へ有線等により送信する。また、クライアントコンピュータ４３は、周囲状況観測装置２から出力される映像データ及び音声データをデータ管理用サーバ４５へ有線等により送信する。

ロボット型観測装置３は、例えば、視覚、聴覚及び触覚を有するヒューマノイド型自律移動ロボット等から構成され、ロボット自身のＩＤ番号を赤外線の点滅により送信する。また、ロボット型観測装置３は、ロボット自身の視界内に位置する赤外線タグ９等から送信される対象物のＩＤ番号及び赤外線タグ９等の赤外線画像内のＸＹ座標を検出するとともに、赤外線タグ９を含む可視光画像を撮影し、検出したＩＤ番号及びＸＹ座標等の観測情報及び撮影した映像データ等の観測情報をクライアントコンピュータ４４へ出力する。また、ロボット型観測装置３は、ロボット自身の周辺に位置する説明員又は見学者の発話等を集音して音声データ等の観測情報をクライアントコンピュータ４４へ出力する。

クライアントコンピュータ４４は、ＲＯＭ、ＣＰＵ、ＲＡＭ、外部記憶装置、通信装置等を備えるクライアントコンピュータから構成され、ロボット型観測装置３により取得された観測情報であるローデータ情報をその取得時間とともにオブジェクトごとに記録するとともに、記録している観測情報のうち取得時間が所定間隔以下の複数の観測情報を一つのセグメンテーション情報として抽出し、抽出したセグメンテーション情報をオブジェクトごとに記録し、データ管理用サーバ４５及びアプリケーションサーバ５，７へ無線又は有線等により送信する。また、クライアントコンピュータ４４は、ロボット型観測装置３から出力される映像データ及び音声データをデータ管理用サーバ４５へ無線又は有線等により送信する。

なお、観測装置は上記の例に特に限定されず、例えば、視覚、聴覚、触覚及び体勢感覚等を有するぬいぐるみ型観測装置等を用い、ぬいぐるみ自身の視点から説明員及び見学者の状況等を撮影するようにしてもよい。また、観測装置として赤外線タグを用いているが、対象物を特定できれば、他の観測装置を用いてもよい。

データ管理用サーバ４５は、ＲＯＭ、ＣＰＵ、ＲＡＭ、外部記憶装置、通信装置等を備えるサーバコンピュータから構成され、有線又は無線を介して各クライアントコンピュータ４２〜４４と通信可能に接続される。データ管理用サーバ４５は、各クライアントコンピュータ４２〜４４に記録されているセグメンテーション情報を基に、予め定められた決定木に従ってオブジェクトの動作状態を推定し、推定したオブジェクトの動作状態を記録するとともに、記録しているオブジェクトの動作状態を基にオブジェクト間のインタラクションをプリミティブ及びコンポジットとして抽出し、抽出したプリミティブ及びコンポジットを特定するためのプリミティブ情報及びコンポジット情報を記録する。また、データ管理用サーバ４５は、入力される各データのうち映像データ及び音声データをＡＶファイルサーバ８に蓄積させる。

ＡＶファイルサーバ８は、ＲＯＭ、ＣＰＵ、ＲＡＭ、外部記憶装置、通信装置等を備えるサーバコンピュータから構成され、ＡＶファイルサーバ８は、映像データ及び音声データ等をデータベース化して記録する。

アプリケーションサーバ５は、ＲＯＭ、ＣＰＵ、ＲＡＭ、外部記憶装置、通信装置等を備えるサーバコンピュータから構成され、各クライアントコンピュータ４２〜４４に記録されているセグメンテーション情報等を用いて各ブースの盛況情報や人間に関する情報等を人間用観測装置１に設けられたヘッドマウントディスプレイに表示して種々の情報を提示する。

情報分析装置６は、入力装置、ＲＯＭ、ＣＰＵ、ＲＡＭ、外部記憶装置、通信装置及び表示装置等を備えるサーバコンピュータから構成され、データ管理用サーバ４５に記録されているプリミティブ情報及びコンポジット情報と、ＡＶファイルサーバ８に記録されている映像データ及び音声データと等を用いて、任意のユーザ（例えば、一の見学者）のインタラクションを分析して、当該ユーザのインタラクションに対する種々の指標を表示するシーンスコアリング画面を作成して表示し、ユーザの操作に応じた日記オーサリング処理を実行する。

アプリケーションサーバ７は、ＲＯＭ、ＣＰＵ、ＲＡＭ、外部記憶装置、通信装置等を備えるサーバコンピュータから構成され、各クライアントコンピュータ４２〜４４に記録されているセグメンテーション情報及びデータ管理用サーバ４５に記録されているオブジェクトの状態等を用いて、ロボット型観測装置３が見学者等とのインタラクションを積極的に演出するようにロボット型観測装置３の動作を制御する。

図２は、図１に示す赤外線タグ９及び人間用観測装置１の構成を示すブロック図である。人間用観測装置１は、赤外線検出部１１、画像撮影部１２、赤外線タグ１３、マイク部１４、生体検出部１５及び情報提示部１６を備える。人間用観測装置１は、耳かけ式ネックバンド方式ヘッドセットとヘッドマウントディスプレイとが一体にされたヘッドセット一体型ヘッドマウントディスプレイとして構成され、説明員又は見学者の頭部に装着される。赤外線検出部１１及び画像撮影部１２は直方体形状の筺体に一体に内蔵され、赤外線タグ１３は筺体の側面に一体に固定され、マイク部１４はユーザの口元付近に配置され、生体検出部１５は、説明員又は見学者の指に装着され、情報提示部１６は、説明員又は見学者の眼前に配置され、クライアントコンピュータ４２は、説明員又は見学者に背負われて使用される。

赤外線タグ９は、ＬＥＤ９１及び駆動回路９２を備える。ＬＥＤ９１は、赤外線ＬＥＤ等から構成され、例えば、光通信用高出力発光ダイオード（スタンレイ社製ＤＮ３１１）等を用いることができ、指向性が弱く且つ可視光に近い８００ｎｍ程度の赤外ＬＥＤを好適に用いることができる。

駆動回路９２は、マイクロコンピュータ等から構成され、例えば、Ａｔｍｅｌ社製４ＭＨｚ駆動マイコンＡＴ９０Ｓ２２２３等を用いることができ、赤外線タグ９が取り付けられた対象物に対して一意的に割り付けられたＩＤ番号が識別可能なようにＬＥＤ９１を点滅制御する。なお、ＬＥＤ９１及び駆動回路９２は、内部電池（図示省略）から電源を供給されている。

具体的には、駆動回路９２は、マンチェスタ符号化方式によりエンコードしたＩＤ番号（６ｂｉｔ）及びパリティビットと、スタートビット（１ｂｉｔ）及びエンドビット（２ｂｉｔ）とを２００Ｈｚ周期の点滅により繰り返し送信する。例えば、ＩＤ番号６２の場合、ＩＤ：６２→“０１１００１０１０１０１０１１０１１１１”（ここで、スタートビット（０１）、ＩＤ番号６ビット、パリティビット(偶数１０、奇数０１)、エンドビット（１１１１））となる。

赤外線検出部１１は、赤外線フィルタ１１１、レンズ１１２、ＣＭＯＳイメージセンサ１１３及び画像処理装置１１４を備える。赤外線フィルタ１１１は、赤外線タグ９のＬＥＤ９１から発光される赤外線のうち主に近赤外線のみ透過させてレンズ１１２に近赤外線を導く。赤外線フィルタ１１１としては、例えば、可視光をブロックし、近赤外光をパスするエドモンド社製プラスチックＩＲパスフィルタを用いることができる。

レンズ１１２は、赤外線フィルタ１１１を透過した近赤外線をＣＭＯＳイメージセンサ１１３上に結像させる。レンズ１１２の画角は９０度である。この場合、対面での会話状態等において比較的近距離で広範囲に位置する赤外線タグを容易に検出することができる。

ＣＭＯＳイメージセンサ１１３は、レンズ１１２により結像された近赤外線から構成される近赤外線画像を撮影して画像処理装置１１４へ出力する。ＣＭＯＳイメージセンサ１１３としては、例えば、三菱電機社製人口網膜ＬＳＩ（Ｍ６４２８３ＦＰ）等を用いることができ、この場合の解像度は１２８×１２８ｐｉｘｅｌである。

画像処理装置１１４は、ＣＭＯＳイメージセンサ１１３の制御及びデータ処理を行い、ＣＭＯＳイメージセンサ１１３に撮影された近赤外線画像から赤外線タグ９を検出し、検出した赤外線タグ９の点滅状態からＩＤ番号を検出するとともに、赤外線画像上の赤外線タグ９のＸＹ座標を検出し、ＩＤ番号及びＸＹ座標等のデータをＲＳ２３２Ｃ等のデータ伝送規格に従ってクライアントコンピュータ４２へ出力する。画像処理装置１１４としては、例えば、Ｃｙｇｎａｌ社製４９ＭＨｚ駆動マイコンＣ８０５１Ｆ１１４を用いることができる。

この場合、ＣＭＯＳイメージセンサ１１３を１１４２００Ｈｚのクロックで駆動させ、撮像(シャッター開放)後、１クロック毎に１ｐｉｘｅｌの明るさがアナログ値でシリアル出力される。このため、全画素撮影時の最短フレームレートは、（シャッタースピード）＋（１２８×１２８×クロックスピード）となるが、１２８×１２８ｐｉｘｅｌのうち８×８ｐｉｘｅｌを検出領域に設定して５００Ｈｚのシャッタースピードで撮像した場合、４００Ｈｚのフレームレートを実現することができ、読み出し速度を高速化することができる。このように、赤外線タグ９の点滅周期（２００Ｈｚ）の２倍のフレームレート（４００Ｈｚ）で読み込むため、単一ＬＥＤを用いて非同期通信を行うことができる。なお、画角９０度のレンズ１１２を使用したときに２ｍの距離で１ｐｉｘｅｌは、２．２ｃｍ×２．２ｃｍの範囲に相当する。

画像撮影部１２は、レンズ１２１及びＣＣＤカメラ１２２を備える。レンズ１２１は、説明員又は見学者の視線方向に位置する、赤外線タグ９が取り付けられた対象物を含む可視光像をＣＣＤカメラ１２２上に結像させる。ＣＣＤカメラ１２２は、可視光画像を撮影して映像データをクライアントコンピュータ４２へ出力する。レンズ１２１及びＣＣＤカメラ１２２としては、例えば、アナログビデオ出力を有するキーエンス社製小型ＣＣＤカメラ(水平画角４４度)を用いることができる。ここで、レンズ１２１の光軸は、赤外線検出部１１のレンズ１１２の光軸に合わせられており、説明員又は見学者の視線方向に位置する対象物を識別するだけでなく、当該対象物の画像も同時に撮影することができる。

赤外線タグ１３は、ＬＥＤ１３１及び駆動回路１３２を備える。赤外線タグ１３は、人間用観測装置１に一体に構成され、人間用観測装置１を装着する説明員又は見学者のＩＤ番号を送信する点を除き、赤外線タグ９と同様のハードウエアから構成され、同様に動作する。

マイク部１４は、音声処理回路１４１及びスロートマイク１４２を備える。スロートマイク１４２は、説明員又は見学者の発話を検出して音声処理回路１４１へ出力し、音声処理回路１４１は録音された音声データをクライアントコンピュータ４２へ出力する。

生体検出部１５は、生体データ処理回路１５１及び生体センサ１５２を備え、例えば、人間の脈拍、手の表面の伝導性(発汗)、温度の３個のセンサを備える生体データ記録用モジュール（Ｐｒｏｃｏｍｐ＋）等から構成される。生体センサ１５２は、説明員又は見学者の脈拍、発汗状態及び体温を検出し、生体データ処理回路１５１は、検出された各データの平均値を数秒ごとに計算し、リアルタイムに生体データをＡＤ変換してクライアントコンピュータ４２へ送信する。

情報提示部１６は、ヘッドマウントディスプレイ１６１等から構成され、ヘッドマウントディスプレイ１６１は、アプリケーションサーバ５から無線等により送信された各ブースの盛況情報や人間に関する情報等を表示し、説明員又は見学者に当該情報を提示する。

上記の赤外線検出部１１等の各センサ類には、１オブジェクトが装着する単位すなわち人間用観測装置１を装着する人間ごとにまとめて一意のセンサＩＤ番号が付与され、センサＩＤ番号及び赤外線タグ１３のＩＤ番号は、人間用観測装置１を装着するオブジェクトを特定するための一意のオブジェクトＩＤ番号と関連付けられ、オブジェクトＩＤ番号に対してオブジェクトの型が指定される。

したがって、人間用観測装置１が各観測情報とともにオブジェクトＩＤ番号をクライアントコンピュータ４２へ出力し、クライアントコンピュータ４２がセグメンテーション情報等とともにオブジェクトＩＤ番号をデータ管理用サーバ４５等へ出力することにより、データ管理用サーバ４５等の各装置においてセグメンテーション情報等がどのオブジェクトのものであるか及びオブジェクトの型を特定できるようにしている。周囲状況観測装置２及びロボット型観測装置３も、この点に関して同様である。

図３は、図１に示す周囲状況観測装置２の構成を示すブロック図である。図３に示す周囲状況観測装置２は、固定検出部２１、画像撮影部２２及びマイク部２３を備える。固定検出部２１は、赤外線フィルタ２１１、レンズ２１２、ＣＭＯＳイメージセンサ２１３及び画像処理装置２１４を備える。画像撮影部２２は、レンズ２２１及びＣＣＤカメラ２２２を備える。マイク部２３は、音声処理回路２３１及びマイクロホン２３２を備える。固定検出部２１、画像撮影部２２及びマイク部２３は、上記の赤外線検出部１１、画像撮影部１２及びマイク部１４と同様に構成され、同様に動作する。但し、周囲状況観測装置２のレンズ２１２の画角は６０度であり、人間用観測装置１のレンズ１１２の画角より狭く設定され、マイクロホン２３２には無指向性のマイクロホンを用いている。

この場合、ＣＭＯＳイメージセンサ２１３のピクセル当りの集光率が高くなり、遠距離に位置する赤外線タグ９，１３を容易に発見することができる。また、説明員又は見学者の頭部に装着された人間用観測装置１だけでなく、説明員及び見学者が位置する空間を構成する構造物に固定された周囲状況観測装置２により、説明員、見学者並びに説明員及び見学者の視線方向の対象物を検出することができるので、異なる視点から説明員及び見学者の周囲の状況を観測することができる。なお、ロボット型観測装置３も、図３に示す周囲状況観測装置２と同様に構成され、同様に動作する。

次に、人間用観測装置１の赤外線タグ検出処理について説明する。この赤外線タグ検出処理は、画像処理装置１１４が予め記録されている検出処理プログラムを実行することにより行われる処理であり、周囲状況観測装置２及びロボット型観測装置３でも同様の処理が行われる。

まず、画像処理装置１１４は、ＣＭＯＳイメージセンサ１１３等を初期化し、全画面（１２８×１２８ｐｉｘｅｌ）の赤外線画像を撮影する。次に、画像処理装置１１４は、赤外線画像の中から所定サイズの光点、例えば１ｐｉｘｅｌの光点を赤外線タグ９（ＬＥＤ９１）として抽出し、所定サイズより大きな光点を排除する。このように、赤外線画像の中から所定サイズの光点を検出するという簡便な処理により赤外線タグ９を検出することができるので、画像処理装置１１４による赤外線タグ検出処理を高速化することができる。

次に、画像処理装置１１４は、抽出した光点を中心とする８×８ｐｉｘｅｌの領域を検出領域として決定し、ＣＭＯＳイメージセンサ１１３により検出領域を既定回数、例えば、（（送信ビット数＋スタートビット数＋エンドビット数）×２×２）回読み込み、読み込んだ赤外線画像から赤外線タグ９の点滅状態を検出してＩＤ番号を検出するとともに、パリティチェックを行い、読み込みデータの判定処理を行う。

このように、赤外線画像から光点を含む検出領域を決定し、この検出領域の赤外線画像のみを用いて赤外線タグ９の点滅状態を検出しているので、処理対象となる赤外線画像を必要最小限に限定することができ、画像処理装置１１４による赤外線タグ検出処理を高速化することができる。この赤外線タグ検出処理の高速化により、人の動きに充分に追従することができ、動き予測等の演算コストの高い処理を省略することができる。ここで、パリティチェックが正しければ、画像処理装置１１４は、赤外線タグ９のＩＤ番号及びＸＹ座標を出力し、パリティチェックが正しくなければ、検出領域の読み込みを再度行い、上記の赤外線検出処理を検出されたすべての光点に対して行う。

このようにして、赤外線タグ９が取り付けられた対象物に対して一意的に割り付けられたＩＤ番号をＬＥＤ９１の点滅により送信し、説明員又は見学者に装着された人間用観測装置１により、説明員又は見学者の視線方向に位置する対象物を含む所定の撮影領域の赤外線画像が撮影され、撮影された赤外線画像を用いて赤外線タグ９のＩＤ番号が検出されるので、説明員又は見学者の視線方向に位置する対象物を識別することができる。

図４は、図１に示すクライアントコンピュータ４２の構成を示すブロック図である。なお、他のクライアントコンピュータ４３，４４も、図４に示すクライアントコンピュータ４２と同様に構成され、同様に動作するので、詳細な説明は省略する。

図４に示すクライアントコンピュータ４２は、通信部４１１、データ管理部４１２、ローデータ記録部４１３、セグメンテーション処理部４１４及びセグメンテーション記録部４１５を備える。通信部４１１は、無線及び有線の通信インターフェースボード等から構成され、ローデータ記録部４１３及びセグメンテーション記録部４１５は、ハードディスクドライブ等の外部記憶装置等から構成され、データ管理部４１２及びセグメンテーション処理部４１４は、ＣＰＵが後述する情報管理プログラムを実行することにより実現される。

通信部４１１は、人間用観測装置１の画像処理装置１１４、ＣＣＤカメラ１２２及び音声処理回路１４１、アプリケーションサーバ５並びにデータ管理用サーバ４５との間のデータ通信を制御する。通信部４１１は、画像処理装置１１４から出力されるＩＤ番号及びＸＹ座標及び音声処理回路１４１から出力される音声データを観測情報としてデータ管理部４１２へ出力し、ＣＣＤカメラ１２２から出力される映像データ及び音声処理回路１４１から出力される音声データをデータ管理用サーバ４５へ出力する。

データ管理部４１２は、観測情報の一例である視覚情報として、通信部４１１から出力されるＩＤ番号及びＸＹ座標を取得時間とともにローデータ記録部４１３のトラッカーテーブルに記録させる。また、データ管理部４１２は、観測情報の一例である聴覚情報として、通信部４１１から出力される音声データから発話の開始時間及び終了時間を特定し、特定した発話の開始時間及び終了時間をローデータ記録部４１３のボイステーブルに記録させる。なお、ローデータ記録部４１３に記録される観測情報（生データ）は上記の例に特に限定されず、生体検出部１５で検出された生体データ等を同様に記録してもよい。

図５は、図４に示すローデータ記録部４１３のトラッカーテーブルのデータ構造を示す図である。ローデータ記録部４１３では、図５に示すフィールド構成及びデータタイプのトラッカーテーブルが作成され、「ｔｉｍｅ」に取得時間が、「ｘ」にオブジェクトのＸ座標値が、「ｙ」にオブジェクトのＹ座標値が、「ｔａｇｎａｍｅ」にオブジェクトのＩＤ番号がそれぞれ記録される。これらのデータにより、ＩＤ番号がｔａｇｎａｍｅである赤外線タグが時間ｔｉｍｅに座標（ｘ，ｙ）において捕らえられたことがわかる。

図６は、図４に示すローデータ記録部４１３のボイステーブルのデータ構造を示す図である。ローデータ記録部４１３では、図６に示すフィールド構成及びデータタイプのボイステーブルが作成され、「ｔｉｍｅ」に会話の開始時間又は終了時間が記録され、開始時間が記録された場合は「ｓｔａｔｕｓ」に「ＴＵＲＮ＿ＯＮ」が設定され、終了時間が記録された場合は「ｓｔａｔｕｓ」に「ＴＵＲＮ＿ＯＦＦ」が設定される。これらのデータにより、会話の開始時間及び終了時間がわかる。

セグメンテーション処理部４１４は、ローデータ記録部４１３のトラッカーテーブル及びボイステーブルから視覚情報及び聴覚情報の取得時間を読み出し、オブジェクトごとに取得間隔が予め設定されている最大間隔以下の視覚情報及び聴覚情報をクラスタリングして視覚セグメンテーション情報及び聴覚セグメンテーション情報を作成し、作成した視覚セグメンテーション情報及び聴覚セグメンテーション情報をセグメンテーション記録部４１５のルックテーブル及びトークテーブルに記録させる。

図７は、図４に示すセグメンテーション記録部４１５のルックテーブルのデータ構造を示す図である。セグメンテーション記録部４１５では、図７に示すフィールド構成及びデータタイプのルックテーブルが作成され、「ｓｔａｒｔ」に視覚セグメンテーション情報を構成する複数の視覚情報のうち最初の視覚情報の取得時間が、「ｅｎｄ」に最後の視覚情報の取得時間が、「ｉｄ」にオブジェクトのＩＤ番号がそれぞれ記録される。これらのデータにより、いつから（ｓｔａｒｔ）いつまで（ｅｎｄ）何（ｉｄ）を捕らえていたかがわかる。

また、ルックテーブルには、アプリケーションサーバ５等の要求を満たすために視覚セグメンテーション情報の抽出終了を表す終了情報の格納領域が設けられ、「ｆｉｎａｌｉｚｅ」に“１”（真）又は“０”（偽）の終了情報が格納される。すなわち、セグメンテーション処理部４１４は、人間用観測装置１が赤外線タグを捕らえ始めたとき、その時間を「ｓｔａｒｔ」に格納するとともに、赤外線タグのＩＤ番号を「ｉｄ」に格納し、その区間が続いている間は、「ｆｉｎａｌｉｚｅ」を“０”（偽）に設定する。その後、セグメンテーション処理部４１４は、現在の時間と人間用観測装置１から視覚情報が得られた時間との差が最大間隔以上になった場合、その区間が終了したものと判断して「ｆｉｎａｌｉｚｅ」を“１”（真）に設定し、その時間を「ｅｎｄ」に格納する。したがって、アプリケーションサーバ５等では、「ｆｉｎａｌｉｚｅ」の値が“０”（偽）である間は、人間用観測装置１が赤外線タグを捕らえていると判断することができる。

図８は、図４に示すセグメンテーション記録部４１５のトークテーブルのデータ構造を示す図である。セグメンテーション記録部４１５では、図８に示すフィールド構成及びデータタイプのトークテーブルが作成され、「ｓｔａｒｔ」に聴覚セグメンテーション情報を構成する複数の聴覚情報のうち最初の聴覚情報の開始時間が、「ｅｎｄ」に最後の聴覚情報の終了時間がそれぞれ記録され、上記と同様に、「ｆｉｎａｌｉｚｅ」に聴覚セグメンテーション情報の抽出終了を表す終了情報として“１”（真）又は“０”（偽）が格納される。すなわち、セグメンテーション処理部４１４は、ボイステーブルの「ｓｔａｔｕｓ」に“ＴＵＲＮ＿ＯＮ”が格納されると、その時間を「ｓｔａｒｔ」に格納するとともに、その区間が続いている間は、「ｆｉｎａｌｉｚｅ」を“０”（偽）に設定する。その後、ボイステーブルの「ｓｔａｔｕｓ」に“ＴＵＲＮ＿ＯＦＦ”が格納されると、セグメンテーション処理部４１４は、その区間が終了したものと判断して「ｆｉｎａｌｉｚｅ」を“１”（真）に設定し、その時間を「ｅｎｄ」に格納する。したがって、アプリケーションサーバ５等では、「ｆｉｎａｌｉｚｅ」の値が“０”（偽）である間は、発話が行われていると判断することができる。

本実施の形態では、人間用観測装置１の視覚情報の最小取得間隔は１００ｍｓｅｃ、聴覚情報の最小取得間隔は３ｓｅｃであるため、上記のセグメンテーション処理に使用される最大間隔として２０秒を用いているが、この例に特に限定されず、他の時間間隔を用いたり、視覚情報と聴覚情報とで異なる最大間隔を用いる等の種々の変更が可能である。

なお、セグメンテーション記録部４１５では、ローデータ記録部４１３と同様に人間用観測装置１等が観測情報を取得すると即座にデータ更新が行われるが、ルックテーブルのセグメンテーションリングが終了するのは実際の時間より最大間隔だけ後になるため、「ｆｉｎａｌｉｚｅ」が真に設定されるまでには最大間隔だけの遅延が生じる。

また、データ管理部４１２は、ローデータ記録部４１３及びセグメンテーション記録部４１５に記録されているローデータ情報及びセグメンテーション情報を読み出し、通信部４１１を用いてアプリケーションサーバ５及びデータ管理用サーバ４５へ出力する。

図９は、図１に示すデータ管理用サーバ４５の構成を示すブロック図である。図９に示すデータ管理用サーバ４５は、通信部４５１、データ管理部４５２、プリミティブ処理部４５３、プリミティブ記録部４５４、コンポジット処理部４５５及びコンポジット記録部４５６を備える。通信部４５１は、無線及び有線の通信インターフェースボード等から構成され、プリミティブ記録部４５４及びコンポジット記録部４５６は、ハードディスクドライブ等の外部記憶装置等から構成され、データ管理部４５２、プリミティブ処理部４５３及びコンポジット処理部４５５は、ＣＰＵが後述する情報管理プログラムを実行することにより実現される。

通信部４５１は、クライアントコンピュータ４２〜４４、情報分析装置６、アプリケーションサーバ７及びＡＶファイルサーバ８との間のデータ通信を制御する。通信部４５１は、クライアントコンピュータ４２〜４４から出力されるセグメンテーション情報をデータ管理部４５２へ出力し、クライアントコンピュータ４２〜４４から出力される映像データ及び音声データをＡＶファイルサーバ８へ出力する。

データ管理部４５２は、通信部４５１から出力されるセグメンテーション情報をプリミティブ処理部４５３へ出力する。プリミティブ処理部４５３は、セグメンテーション情報を基に決定木に従ってオブジェクトの動作状態を推定し、推定したオブジェクトの動作状態をプリミティブ情報としてプリミティブ記録部４５４に記録させる。ここで、各セグメンテーション情報は、オブジェクトが他の一つのオブジェクトを捕らえていることを示すものであり、プリミティブ処理部４５３は、オブジェクトの型を考慮した決定木を用いて２つのオブジェクト間のインタラクションとなるプリミティブを推定し、推定した２つのオブジェクト間のプリミティブを表すプリミティブ情報をオブジェクトの動作状態としてプリミティブ記録部４５４のステータステーブルに格納する。

図１０は、図９に示すプリミティブ記録部４５４のステータステーブルのデータ構造を示す図である。プリミティブ記録部４５４では、図１０に示すフィールド構成及びデータタイプのステータステーブルがオブジェクトごとに作成され、「ｓｔａｔｕｓ」に２つのオブジェクト間のプリミティブが、「ｓｔａｒｔ」にその開始時間が、「ｅｎｄ」にその終了時間が、「ｉｄ」にプリミティブの対象となるオブジェクトのＩＤ番号がそれぞれ記録される。これらのデータにより、いつから（ｓｔａｒｔ）いつまで（ｅｎｄ）何（ｉｄ）に対してとのような動作状態（ｓｔａｔｕｓ）であったかがわかる。

また、プリミティブ処理部４５３は、セグメンテーション記録部４１５に記録されているセグメンテーション情報のうち最小継続時間以上継続しているセグメンテーション情報のみを用いて２つのオブジェクト間のプリミティブを推定する。図１１は、セグメンテーション情報のうち最小継続時間以上継続しているセグメンテーション情報のみを抽出する処理を模式的に説明する図である。

図１１の（ａ）に示すように、ローデータＲＤが図示の時間間隔で得られた場合、セグメンテーション処理部４１４では、最大間隔Ｔ１以下のローデータをクラスタリングするため、セグメンテーション記録部４１５には６個のセグメンテーション情報Ｃ１〜Ｃ６が記録される。このとき、図１１の（ｂ）に示すように、プリミティブ処理部４５３は、セグメンテーション情報Ｃ１〜Ｃ６のうち最小継続時間Ｔ２以上継続している２個のセグメンテーション情報Ｃ１,Ｃ４のみを抽出し、２個のセグメンテーション情報Ｃ１,Ｃ４のみを用いて２つのオブジェクト間のプリミティブを推定する。したがって、「ｆｉｎａｌｉｚｅ」が真となったセグメンテーション情報のうち、最小継続時間より短いセグメンテーション情報を意味のないものとして排除することができる。

図１２は、図９に示すプリミティブ処理部４５３において用いられる決定木の一例を示す図である。図１２に示すように、プリミティブ処理部４５３は、セグメンテーション情報を有するオブジェクトの型すなわち自分の型が「ＨＵＭＡＮ」、「ＵＢＩＱ」及び「ＲＯＢＯＴ」のいずれであるかをオブジェクトのＩＤ番号により判断する。

自分の型が「ＵＢＩＱ」の場合、プリミティブ処理部４５３は、セグメンテーション情報により特定されるプリミティブの対象となるオブジェクトすなわち相手の型が「ＨＵＭＡＮ」及び「ＲＯＢＯＴ」のいずれであるかを視覚セグメンテーション情報の「ｉｄ」により判断する。プリミティブ処理部４５３は、相手の型が「ＨＵＭＡＮ」の場合、自分の「ｓｔａｔｕｓ」に自分が相手を捕らえていることを表す「ＣＡＰＴＵＲＥ」を格納するとともに、相手の「ｓｔａｔｕｓ」に相手から自分が捕らえられていることを表す「ＣＡＰＴＵＲＥＤ」を格納する。相手の型が「ＲＯＢＯＴ」の場合も同様である。

自分の型が「ＨＵＭＡＮ」の場合、プリミティブ処理部４５３は、相手の型が「ＨＵＭＡＮ」、「ＵＢＩＱ」及び「ＲＯＢＯＴ」のいずれであるかを判断する。相手の型が「ＵＢＩＱ」の場合、プリミティブ処理部４５３は、自分の「ｓｔａｔｕｓ」に自分が相手を見ていることを表す「ＬＯＯＫＡＴ」を格納するとともに、相手の「ｓｔａｔｕｓ」に相手から自分が見られていることを表す「ＬＯＯＫＥＤＡＴ」を格納する。

相手の型が「ＨＵＭＡＮ」の場合、プリミティブ処理部４５３は、お互いを捕らえているか否かを判断する。お互いを捕らえている場合、プリミティブ処理部４５３は、自分が発話しているか否かを判断し、発話している場合は自分の「ｓｔａｔｕｓ」に自分が相手に話し掛けていることを表す「ＴＡＬＫＴＯ」を格納し、発話していない場合は自分の「ｓｔａｔｕｓ」にお互いを捕らえていることを表す「ＬＯＯＫＴＯＧＥＴＨＥＲ」を格納する。ここで、相手の状態を判断していないのは、相手の決定木でも自らの状態の判定が行われるため、ここでの書き込みが不要だからである。他の判断も、上記と同様にして行われる。

なお、プリミティブ記録部４５４では、セグメンテーション記録部４１５に対して「ｆｉｎａｌｉｚｅ」が真となると即座にデータ更新が行われ、データ更新は実際の時間より最大間隔だけ遅延が生じる。

コンポジット処理部４５５は、プリミティブ記録部４５４に記録されているオブジェクトの動作状態を基に３つ以上のオブジェクト間のインタラクションとなるコンポジットを抽出し、抽出したコンポジットを表すコンポジット情報をコンポジット記録部４５６に記録させる。すなわち、コンポジット処理部４５５は、複数オブジェクトの状態に関して時間及び空間の重なりを調べ、予め決定した所定の規則を用いてそれらの区間に意味を与えることで３つ以上のオブジェクト間のインタラクションをコンポジットとして抽出し、抽出したコンポジットを表すコンポジット情報をコンポジット記録部４５６のコンポジットネームテーブル及びコンポジットテーブルに格納する。

図１３は、図９に示すコンポジット記録部４５６のコンポジットネームテーブルのデータ構造を示す図である。コンポジット記録部４５６では、図１３に示すフィールド構成及びデータタイプのコンポジットネームテーブルが作成される。コンポジットネームテーブルは、発生したコンポジットの一覧であり、一つのみ作成される。各コンポジットには一意のコンポジットＩＤ番号が割り付けられ、コンポジットＩＤ番号が「ｅｖｅｎｔｉｄ」に、コンポジットの名前が「ｎａｍｅ」に、その時間帯の開示時間が「ｓｔａｒｔ」に、終了時間が「ｅｎｄ」にそれぞれ格納される。

図１４は、図９に示すコンポジット記録部４５６のコンポジットテーブルのデータ構造を示す図である。コンポジット記録部４５６では、図１４に示すフィールド構成及びデータタイプのコンポジットテーブルがオブジェクトごとに作成され、オブジェクトが参加したコンポジットのコンポジットＩＤ番号が「ｅｖｅｎｔｉｄ」に、コンポジットの開示時間が「ｓｔａｒｔ」に、終了時間が「ｅｎｄ」にそれぞれ格納される。これらのデータにより、オブジェクトがどのコンポジット（ｅｖｅｎｔｉｄ）にいつから（ｓｔａｒｔ）いつまで（ｅｎｄ）参加したかがわかる。また、上記のようにコンポジットネームテーブル及びコンポジットテーブルの二つのテーブルを用いることにより、コンポジットに参加するオブジェクトの数が変化する場合に対処することができる。

図１５は、図９に示すコンポジット処理部４５５において抽出されるコンポジットの例を示す模式図である。図１５の（ａ）はコンポジット「ＴＯＧＥＴＨＥＲ＿ＷＩＴＨ」を、（ｂ）はコンポジット「ＬＯＯＫＷＩＴＨ」、「ＴＡＬＫＡＢＯＵＴ」を、（ｃ）はコンポジット「ＪＯＩＮＴＡＴＴＥＮＴＩＯＮ」を、（ｄ）はコンポジット「ＧＲＯＵＰＤＩＳＣＵＳＳＩＯＮ」をそれぞれ示している。

まず、周囲状況観測装置２が複数の人間Ａ，Ｂを捕らえている場合、人間が同じ場所に共存していることがわかるため、コンポジット処理部４５５は、このコンポジットをコンポジット「ＴＯＧＥＴＨＥＲＷＩＴＨ」と判断する。この場合、ある時点で近くにいた人物がわかる。

このように、「ＴＯＧＥＴＨＥＲＷＩＴＨ」では、人間が環境に設置された周囲状況観測装置２等に捉えられることにより、一定のエリアＺに滞在していることが判明し、人間ＡがエリアＺに滞在する場合、同時にエリアＺに滞在している人間Ｂや人間Ｃが存在すれば、人々は一同に会していたと解釈される。

上記の状態で、一緒にいた人間Ａ，Ｂがそれぞれその区間内において周囲状況観測装置２が取り付けられた展示物の赤外線タグ９を見ていた場合、コンポジット処理部４５５は、発話していないときは、一緒に展示物を見ていることを表すコンポジット「ＬＯＯＫＷＩＴＨ」であると判断し、発話しているときは、その展示物についての話をしていることを表すコンポジット「ＴＡＬＫＡＢＯＵＴ」であると判断する。これは、人間は会話をするときにお互いを見ているとは限らず、この場合のように展示物を見ながらそれについて話すことが多いからである。

このように、「ＬＯＯＫＷＩＴＨ」では、複数の人間が同一エリアに居る場合で、さらに、これらの人々がそのエリア内に存在する物体に対して共同注視を注いでいれば、人々は一緒に物体を閲覧していると解釈される。また、「ＴＡＬＫＡＢＯＵＴ」では、複数の人間が一緒に展示物の閲覧を行っている場合、これら人々がお互いに会話を行っていれば、その展示物の話題であると解釈される。このとき、必ずしもお互いに向かい合って会話が行われる必要はなく（そのような場合はむしろ不自然であるが）、展示物に向かって発話を行っている場合もこの解釈が採用される。

また、一緒にいた人間Ａ，Ｂがそれぞれその区間内において周囲状況観測装置２が取り付けられた展示物の赤外線タグ９を見ているが、周囲状況観測装置２が人間Ａ，Ｂを捕らえていない場合、コンポジット処理部４５５は、一緒に見ていることを単に表すコンポジット「ＪＯＩＮＴＡＴＴＥＮＴＩＯＮ」であると判断する。

このように、「ＪＯＩＮＴＡＴＴＥＮＴＩＯＮ」では、人間ＡがオブジェクトＸを見ていると同時に、人間Ｂや人間ＣがオブジェクトＸを見ていることがわかれば、オブジェクトＸの周辺で起こるできごとが多くの人の注目を集めている、すなわちこれら人々は共同注視を行っていると解釈される。

さらに、人間がある期間内に話している他の人間を特定することにより、コンポジット処理部４５５は、複数の人間が会話を行っていることを表すコンポジット「ＧＲＯＵＰＤＩＳＣＵＳＳＩＯＮ」を抽出する。このように、「ＧＲＯＵＰＤＩＳＣＵＳＳＩＯＮ」では、人間Ａと人間Ｂとが会話を行っていて、その時間的・空間的な近傍で人間Ａや人間Ｂがその他の人間Ｃや人間Ｄに話しかけていたり、視線を向けているならば、その人々はグループで討論していると解釈される。

ここで、コンポジット処理部４５５がコンポジット「ＧＲＯＵＰＤＩＳＣＵＳＳＩＯＮ」を抽出する処理について詳細に説明する。図１６は、図９に示すプリミティブ記録部４５４のステータステーブルの一例を示す図である。図１６に示す例は、５つのオブジェクト１〜５があり、オブジェクト１〜４の型が「ＨＵＭＡＮ」、オブジェクト５の型が「ＵＢＩＱ」であり、図１６の（ａ）はオブジェクト１のステータステーブル、（ｂ）はオブジェクト２のステータステーブル、（ｃ）はオブジェクト３のステータステーブル、（ｄ）はオブジェクト４のステータステーブルをそれぞれ示している。

まず、コンポジット処理部４５５は、コンポジットの時間「ｓｔａｒｔ」、「ｅｎｄ」及びコンポジットの参加者リスト「ｌｉｓｔ」を用意し、「ｌｉｓｔ」を初期化する。次に、コンポジット処理部４５５は、プリミティブ記録部４５４のオブジェクト１のステータステーブル（図１６の（ａ））を調べ、オブジェクト２と話したというデータを見つける。その継続時間（この場合、４５０−２４０＝２１０（ｓｅｃ））が所定時間より充分長ければ、「ｓｔａｒｔ」及び「ｅｎｄ」に２４０，４５０を設定し、「ｌｉｓｔ」にオブジェクト１，２を追加する。さらに、コンポジット処理部４５５は、前後のデータを参照して同じ人間と話したデータを検索する。ここでは、７００〜７８０（ｓｅｃ）までオブジェクト２と話したというデータが存在するため、コンポジット処理部４５５は、このデータとコンポジットとの間隔（この場合、７００−４５０＝２５０（ｓｅｃ））が所定間隔より小さければ同じコンポジットとみなし、「ｓｔａｒｔ」及び「ｅｎｄ」を更新し、「ｓｔａｒｔ」及び「ｅｎｄ」は２４０，７８０となる。

さらに、この区間に他の人間と話したデータがあれば、コンポジット処理部４５５は、「ｓｔａｒｔ」から「ｅｎｄ」までの時間の重なりを調べ、これが所定時間より充分に大きければ、このオブジェクトもコンポジットの参加者であるとみなして「ｌｉｓｔ」に追加し、「ｓｔａｒｔ」及び「ｅｎｄ」を更新する。この結果、「ｓｔａｒｔ」＝２４０、「ｅｎｄ」＝７８０、「ｌｉｓｔ」＝〔１，２，３〕となる。

次に、コンポジット処理部４５５は、オブジェクト１が見ていた人間（オブジェクト２，３）のステータステーブル（図１６の（ｂ）、（ｃ））を調べる。まず、コンポジット処理部４５５は、オブジェクト２のステータステーブルを参照して「ｓｔａｒｔ」から「ｅｎｄ」までの区間に近いデータのうち「ｓｔａｔｕｓ」が「ＴＡＬＫＴＯ」であるデータを取り出し、その継続時間が所定時間より充分長ければ、「ｓｔａｒｔ」及び「ｅｎｄ」を更新し、そのデータのオブジェクトが「ｌｉｓｔ」に含まれていない場合は追加する。ここでは、「ｓｔａｒｔ」及び「ｅｎｄ」が更新され、「ｓｔａｒｔ」及び「ｅｎｄ」は１２０，７８０となり、「ｌｉｓｔ」は変更されない。

上記と同様に、オブジェクト３のステータステーブルが処理され、オブジェクト４が追加され、「ｌｉｓｔ」＝〔１，２，３，４〕となる。次に、オブジェクト４のステータステーブルが調べられ、この場合、更新されるデータがないため、処理が終了される。

上記の処理が終了した後、コンポジット処理部４５５は、「ｌｉｓｔ」の大きさが３以上になった場合（３人以上の人間が会話を行っている場合）、コンポジット「ＧＲＯＵＰＤＩＳＣＵＳＳＩＯＮ」を発生させる。この結果、「ｓｔａｒｔ」＝１２０から「ｅｎｄ」＝７８０までの区間においてオブジェクト１〜４がコンポジット「ＧＲＯＵＰＤＩＳＣＵＳＳＩＯＮ」に参加したことがわかる。

他のコンポジットに関しても、上記と同様に処理が行われ、例えば、コンポジット「ＴＯＧＥＴＨＥＲＷＩＴＨ」については、人間であるオブジェクトのステータステーブルのうち「ｓｔａｔｕｓ」が「ＣＡＰＴＵＲＥＤ」であるデータを検索してその近くにあるデータを統合し、その人間を捕らえた周囲状況観測装置２のステータステーブルを調べて同じ区間内に重複して捕らえられた人間が複数いれば、コンポジット「ＴＯＧＥＴＨＥＲＷＩＴＨ」を発生させる。

なお、コンポジット処理部４５５が抽出するコンポジットは、上記の例に特に限定されず、他のコンポジットを抽出するようにしてもよい。また、コンポジット記録部４５６では、プリミティブ情報がプリミティブ記録部４５４にある程度蓄積されなければ、コンポジットを抽出できないため、ある程度の時間の遅延が生じる。

また、データ管理部４５２は、プリミティブ記録部４５４及びコンポジット記録部４５６に記録されているプリミティブ情報及びコンポジット情報を読み出し、通信部４５１を用いて情報分析装置６及びアプリケーションサーバ７へ出力する。

図１７は、図１に示す情報管理装置４において構築されるデータベースの階層構造を示す模式図である。上記の構成により、情報管理装置４において、観測情報を記録するローデータ層が各クライアントコンピュータ４２〜４４のローデータ記録部４１３から構成され、観測情報より抽象度の高いセグメンテーション情報を記録するセグメンテーション層がセグメンテーション記録部４１５から構成され、セグメンテーション情報より抽象度の高いプリミティブ情報を記録するプリミティブ層がデータ管理用サーバ４５のプリミティブ記録部４５４から構成され、プリミティブ情報より抽象度の高いコンポジット情報を記録するコンポジット層がコンポジット記録部４５６から構成される。

このように、情報管理装置４では、記録される情報の抽象度に応じて各情報が階層的に管理され、観測データからボトムアップ的に解釈の抽象化が行われ、データベースに上位レイヤとして記録される。

また、人間の発話や注視といった個々の動作状態が識別され、さらにそれらの情報同士がつき合わされ、インタラクションの掛かり受け構造が発見されていく。ここで、「見る」や「話しかける」といった動作状態は、ドメインに依存しにくくインタラクションの基本単位に相当する普遍的要素となるので、上記のように、インタラクションのプリミティブと呼ぶ。

さらに、「共同注視」や「グループ討論」といったプリミティブの組み合わせから構成されるインタラクションが、上位のコンポジット層となり、上位の解釈を行うためには、時空間的に幅の広いデータを参照することになるため、より下位の解釈ほど逐次的に解釈を進めることが可能になっている。このコンポジット層で解釈されるインタラクションは、適用するドメインに依存する傾向が下位レイヤに比べて強い。これは、ドメインによく観測されるインタラクションをトップダウンで予め決定してしまうことによる。

図１８は、図１に示す情報分析装置６の構成を示すブロック図である。図１８に示す情報分析装置６は、入力部６１、情報抽出部６２、通信部６３、指標算出部６４及び表示部６５を備える。入力部６１は、マウス、キーボード等から構成され、ユーザが種々の入力を行うために使用され、情報抽出部６２及び指標算出部６４は、ＣＰＵが後述する情報分析プログラムを実行することにより実現され、通信部６３は、無線及び有線の通信インターフェースボード等から構成され、表示部６５は、液晶表示装置等から構成され、種々の操作画面、シーンスコアリング画面等を表示する。

入力部６１は、ユーザがシーンスコアリング画面のスコアの対象者となる主オブジェクトとして、例えば、自身のＩＤ番号を入力すると、入力されたＩＤ番号のシーンスコアリング画面を作成するように情報抽出部６２に指示する。

情報抽出部６２は、通信部６３を用いて、データ管理用サーバ４５から当該ＩＤ番号に対応付けられているすべてのコンポジット情報を抽出するとともに、抽出した各コンポジット情報を構成するすべてのプリミティブ情報を抽出して指標算出部６４へ出力する。

指標算出部６４は、抽出されたコンポジット情報及びプリミティブ情報に含まれる開始時間及び終了時間等を基に、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合を算出する。

また、指標算出部６４は、抽出されたコンポジット情報に含まれる開始時間及び終了時間等を基に、主オブジェクトが関与したすべてのコンポジット情報の総継続時間に対する主オブジェクトが関与した各コンポジット情報の継続時間の単位時間当たりの割合を表すコンポジット情報割合を算出する。また、指標算出部６４は、抽出されたプリミティブ情報に含まれる開始時間及び終了時間等を基に、主オブジェクトが関与したすべてのプリミティブ情報の単位時間当たりの発生量を表すプリミティブ情報発生量を算出する。さらに、指標算出部６４は、抽出されたプリミティブ情報のうち「ＴＡＬＫＴＯ」が格納されている発話プリミティブ情報に含まれる開始時間及び終了時間等を基に、主オブジェクトが関与したすべての発話プリミティブ情報の単位時間当たりの発生量を表す発話プリミティブ情報発生量を算出する。

表示部６５は、指標算出部６４により算出されたプリミティブ情報割合、コンポジット情報割合、プリミティブ情報発生量及び発話プリミティブ情報発生量を観測時間軸上に表示するシーンスコアリング画面を表示する。

本実施の形態では、情報分析装置６が情報分析装置の一例に相当し、データ管理用サーバ４５が記録手段の一例に相当し、入力部６１が受付手段の一例に相当し、情報抽出部６２が抽出手段の一例に相当し、指標算出部６４が算出手段の一例に相当し、表示部６５が表示手段の一例に相当する。

次に、上記のように構成された情報管理システムの情報管理装置４による情報管理処理について説明する。図１９は、図１に示す情報管理装置４の情報管理処理を説明するためのフローチャートである。なお、図１９に示す情報管理処理は、クライアントコンピュータ４２〜４４及びデータ管理用サーバ４５が予め記録されている情報管理プログラムを実行することにより行われる処理である。

まず、ステップＳ１１において、クライアントコンピュータ４２〜４４のデータ管理部４１２は、観測情報として、画像処理装置１１４から出力されるＩＤ番号及びＸＹ座標及び音声処理回路１４１から出力される音声データを、通信部４１１を介して取得する。

次に、ステップＳ１２において、データ管理部４１２は、観測情報として、ＩＤ番号及びＸＹ座標を取得時間とともにローデータ記録部４１３のトラッカーテーブルに記録させ、音声データから発話の開始時間及び終了時間を特定し、特定した発話の開始時間及び終了時間をローデータ記録部４１３のボイステーブルに記録させる。

次に、ステップＳ１３において、セグメンテーション処理部４１４は、ローデータ記録部４１３のトラッカーテーブル等から取得時間を読み出し、オブジェクトごとに取得間隔が最大間隔以下の観測情報をクラスタリングしてセグメンテーション情報を作成し、作成したセグメンテーション情報をセグメンテーション記録部４１５のルックテーブル及びトークテーブルに記録させる。

次に、ステップＳ１４において、セグメンテーション処理部４１４は、クラスタ区間が確定したか否かすなわち現在の時間と人間用観測装置１等から視覚情報が得られた時間との差が最大間隔以上になったか否かを判断し、クラスタ区間が確定していない場合はステップＳ１１以降の処理を繰り返し、クラスタ区間が確定した場合はステップＳ１５へ処理を移行する。

クラスタ区間が確定した場、ステップＳ１５において、セグメンテーション処理部４１４は、ルックテーブルの「ｆｉｎａｌｉｚｅ」を“１”（真）に設定し、その時間を「ｅｎｄ」に格納してセグメンテーション情報をファイナライズする。

次に、ステップＳ１６において、データ管理用サーバ４５のデータ管理部４５２は、通信部４５１及び通信部４１１を介してデータ管理部４１２に対してセグメンテーション記録部４１５のセグメンテーション情報を送信するように要求し、送信されたセグメンテーション情報をプリミティブ処理部４５３へ出力する。プリミティブ処理部４５３は、図１２に示す決定木に従ってセグメンテーション情報から２つのオブジェクト間のプリミティブを推定する。

次に、ステップＳ１７において、プリミティブ処理部４５３は、推定した２つのオブジェクト間のプリミティブを特定するためのプリミティブ情報をプリミティブ記録部４５４のステータステーブルに記録する。

次に、ステップＳ１８において、コンポジット処理部４５５は、プリミティブ記録部４５４に記録されている２つのオブジェクト間のプリミティブ情報に関して時間及び空間の重なりを調べてコンポジットを順次抽出し、抽出したコンポジットが確定したか否かすなわちコンポジットとして予め設定されている抽出条件を満たすか否かを判断し、コンポジットが確定していない場合はステップＳ１１以降の処理を繰り返し、コンポジットが確定した場合はステップＳ１９へ処理を移行する。

コンポジットが確定した場合、ステップＳ１９において、コンポジット処理部４５５は、確定したコンポジットを特定するためのコンポジット情報をコンポジット記録部４５６のコンポジットネームテーブル及びコンポジットテーブルに記録し、その後、ステップＳ１１以降の処理を継続する。

上記の処理により、情報の抽象度に応じて各観測情報が階層的に記録されるので、アプリケーションの特徴に応じてアクセスする階層を選択することができ、即時性の高い情報を用いるアプリケーションに対して下位の記録層から即時性の高い情報を提供することができるとともに、抽象性の高い情報を用いるアプリケーションに対して上位の記録層から抽象性の高い情報を提供することができ、種々のアプリケーションに対して適切な情報を適切なタイミングで提供することができる。

例えば、アプリケーションサーバ５は、各クライアントコンピュータ４２〜４４のセグメンテーション記録部４１５にアクセスしてセグメンテーション情報を読み出し、「ｆｉｎａｌｉｚｅ」が“０”（偽）のデータを有する人間のヘッドマウントディスプレイ１６１に各ブースの盛況情報や人に関する情報等を時間的な遅延なしに表示して提示することができる。

さらに、アプリケーションサーバ７は、各クライアントコンピュータ４２〜４４のセグメンテーション記録部４１５にアクセスしてセグメンテーション情報を読み出し、「ｆｉｎａｌｉｚｅ」が“０”（偽）のデータを有する人間を時間的な遅延なしに抽出するとともに、データ管理用サーバ４５のプリミティブ記録部４５４にアクセスして、抽出した人間のプリミティブ情報を読み出してこれまでの行動履歴を取得し、この行動履歴等に基づいてロボット型観測装置３が人間とのプリミティブを積極的に演出するようにロボット型観測装置３の動作を制御することができる。

また、本実施の形態では、ローデータ記録部４１３及びセグメンテーション記録部４１５を各クライアントコンピュータ４２〜４４に実装してローデータ情報及びセグメンテーション情報に関する処理を各クライアントコンピュータ４２〜４４で実行し、プリミティブ記録部４５４及びコンポジット記録部４５６をデータ管理用サーバ４５に実装してプリミティブ情報及びコンポジット情報に関する処理をデータ管理用サーバ４５で実行しているので、データ管理用サーバ４５の負荷を軽減することができるとともに、情報管理装置４へのアクセスに伴うネットワークのトラフィック量を低減することができる。

なお、上記の説明では、ローデータ情報及びセグメンテーション情報に関する処理とプリミティブ情報及びコンポジット情報に関する処理とを分散して実行しているが、この例に特に限定されず、一つのコンピュータで全ての処理を実行したり、各情報ごとに異なるコンピュータで実行する等の種々の変更が可能である。

次に、上記のように構成された情報管理システムの情報分析装置６による情報分析処理について説明する。図２０は、図１に示す情報分析装置６の情報分析処理を説明するためのフローチャートである。なお、図２０に示す情報分析処理は、情報分析装置６が予め記録されている情報分析プログラムを実行することにより行われる処理である。

まず、ユーザがシーンスコアリング画面の対象者となる主オブジェクトのＩＤ番号及び表示時間帯を入力すると、ステップＳ２１において、情報分析装置６の入力部６１は、入力されたＩＤ番号及び表示時間帯を取得し、入力された表示時間帯の観測情報を用いて、当該ＩＤ番号を有するオブジェクトを主オブジェクトとするシーンスコアリング画面を作成するように情報抽出部６２に指示する。

ここで、本実施の形態に使用されるシーンスコアについて説明する。本実施の形態では、ビデオのシーンをコンポジットに対応させ、シーン長をコンポジット継続長とし、解釈されたインタラクションによってビデオシーンを評価するための各スコアとして、下記のスコアを用いている。なお、以下の説明では、上記のようにして、体験記録等に参加した中から任意のユーザが選択され（例えば、後述の体験日記オーサリングの制作を行うユーザ）、当該ユーザの参与した全てのコンポジットの集合をＳｃとする。

第１スコア（コンポジット情報割合）は、Ｓｃに含まれる全コンポジットの総時間長に対して、Ｓｃ中の各コンポジットの継続時間長の占める割合（単位時間当たり）であり、第２スコア（プリミティブ情報発生量）は、Ｓｃに含まれる全てのコンポジットに包含される全プリミティブの、単位時間当たりの発生量であり、第３スコア（プリミティブ情報割合）は、Ｓｃに含まれる各コンポジットにおいて、継続時間長に対する、当該ユーザの参与するプリミティブの継続時間長の占める割合（単位時間当たり）であり、第４スコア（発話プリミティブ情報発生量）は、Ｓｃに含まれる全てのコンポジットに包含される発話プリミティブの、単位時間当たりの発生量である。

第１スコアは、体験時間に対して参与コンポジットの長さを相対的に評価したものであり、絶対体験時間の長短による影響を取り除いた上でコンポジット長を示すようになっている。それに対して、第３スコアは、参与したコンポジットであっても、実際にプリミティブの長さを調べ、参与割合を算出するものであり、例えば、長いディスカッションに参与していても、発言時間がごく短かった場合に、低いスコアとなる。また、プリミティブ層でのインタラクションの量を見るための指標が第２スコアである。そして、第４スコアは、プリミティブのうち発話量に焦点を絞ったものであり、第２スコアのサブセットである。

次に、ステップＳ２２において、情報抽出部６２は、通信部６３を用いて、データ管理用サーバ４５から当該ＩＤ番号に対応付けられているすべてのコンポジット情報を抽出するとともに、抽出した各コンポジット情報を構成するすべてのプリミティブ情報を抽出する。

次に、ステップＳ２３において、指標算出部６４は、抽出したコンポジット情報の開始時間及び終了時間等を基に、主オブジェクトが関与したすべてのコンポジット情報の総継続時間に対する主オブジェクトが関与した各コンポジット情報の継続時間の単位時間当たりの割合を表すコンポジット情報割合を算出する。

次に、ステップＳ２４において、指標算出部６４は、抽出したプリミティブ情報の開始時間及び終了時間等を基に、主オブジェクトが関与したすべてのプリミティブ情報の単位時間当たりの発生量を表すプリミティブ情報発生量を算出する。

次に、ステップＳ２５において、指標算出部６４は、抽出したコンポジット情報及びプリミティブ情報の開始時間及び終了時間等を基に、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合を算出する。

次に、ステップＳ２６において、指標算出部６４は、抽出したプリミティブ情報のうち「ＴＡＬＫＴＯ」が格納されている発話プリミティブ情報の開始時間及び終了時間等を基に、主オブジェクトが関与したすべての発話プリミティブ情報の単位時間当たりの発生量を表す発話プリミティブ情報発生量を算出する。

次に、ステップＳ２７において、指標算出部６４は、算出したコンポジット情報割合、プリミティブ情報発生量、プリミティブ情報割合及び発話プリミティブ情報を用いてシーンスコアリング画面を作成して表示部６５に表示させる。このとき、指標算出部６４は、ＡＶファイルサーバ８の映像データ等を読み出して各プリミティブ及びコンポジットのビデオサムネイルなどの表示用データ等を作成する。

次に、ステップ２８において、指標算出部６４は、入力部６１を用いてユーザがシーンスコアリング画面に対して操作入力を行ったか否かを判断し、操作入力があった場合は、ステップＳ２９において、操作入力に対応する処理を実行してシーンスコアリング画面を更新し、その後、ステップＳ２８以降の処理を継続する。

図２１は、シーンスコアリング画面の一例を示す図であり、図２２は、図２１に示すスコアグラフの拡大図である。図２１において、シーンスコアリング画面の左下側の領域ＳＣは、シーンスコアの表示部分であり、図２２に示す領域ＣＲ、ＰＯ、ＲＲ、ＴＲが各シーンスコアの表示部分であり、かつタイムスライダＴＳとしての機能も実装されている。図２１に示すシーンスコアの上部の領域ＳＧには、タイムスライダＴＳのプレイヘッド（スライダカーソル）が指し示している時刻に掛かるシーン（コンポジットに等価）を構成するビデオサムネイルが表示される。タイムスライダＴＳの位置が移動されれば、表示されるビデオサムネイルの内容も逐次的に更新される。

また、図２１に示す領域ＣＰは、領域ＳＧに表示されたビデオサムネイルを一時的に置いておくパレットになっており、日記に採用しようと思うシーン候補をリストすることができる。さらに、右半分の領域ＶＳ及び領域ＴＡは、日記の制作スペースであり、そのまま完成した日記の表示部分としても役割も兼ねるものであり、左側の領域ＶＳは、選択したシーンのビデオサムネイルを表示するエリアであり、右側の領域ＴＡは、テキストエリアであり、ユーザが自由にアノテーションを書き込める。

領域ＶＳのビデオサムネイルは、候補パレットの領域ＣＰからドラッグアンドドロップで持ってくることができ、その際には、シーンに対応するコンポジットを参照し、自動的に生成されたアノテーションが表示されるようになっている。また、候補パレットの領域ＣＰ及び日記スペースの領域ＶＳのビデオサムネイルは、消去やコピーをサポートしている。

図２２に示すように、シーンスコアのグラフ表示している領域ＣＲ、ＰＯ、ＲＲ、ＴＲでは、タイムスライダＴＳをポインティングデバイス等でスクラブすることができる。タイムスライダＴＳのプレイヘッドを表すヘアラインカーソルは、全てのスコアグラフを貫いて表示され、各グラフの横軸は観測時間軸を示し、縦軸は各スコアに従って百分率など適当な尺度で表示されている。

図２２中の各グラフは、上からそれぞれ第１スコア、第２スコア、第３スコア、第４スコアの順に並んでいる。タイムスライダＴＳを左右にスクラブすると、上部のビデオサムネイルが逐次更新され、プレイヘッドに応じたシーンのビデオサムネイルをパラパラマンガ風表示により確認することができる。また、日記スペースの領域ＶＳに表示されたビデオサムネイルをポインティングデバイスによってダブルクリックすると、サムネイル表示ではなく、ビデオが再生され、音声とともに視聴できる。

このようなシーンスコアを援用したシナリオとしては、例えば、展示会の体験記録後に、自分が質問をしたのは、いつ、どのブースだったろうか、さらにはどんな内容を質問してどのような回答を得たのかを、第２スコアのグラフを参照しながら探索したり、今日のミーティングでは、色々な人と議論したが、実際に自分は積極的に加わっていたのかを調べたい場合、第３スコアのグラフのピークにあたるシーンを中心にして議事録的に日記を構成することができる。

上記のような利点により、原体験を記録したビデオを材料として用い、特定の目的に沿ってビデオのシーンを構成し、日記風の形式として制作する体験日記オーサリングを容易に行うことができる。したがって、ある時間長を有するビデオ映像から一定時間おきにビデオフレームを抽出してパラパラマンガ風にアニメーションするビデオサムネイルに自動変換し、これを日記制作者の手で一次元的に並べ、各間欠ビデオに沿って日記制作者自身により感想やコメントなどをテキスト情報として入力することができる。

このように、日記を構成するのは、あくまでも日記制作者に任せ、その制作過程を支援するため、ＡＶファイルサーバ８等から得られる一人称視点を含むビデオリソースの中から、日記のために使用するシーンを探索しようとする際に手掛かりとなりうる各シーンのスコア群（インタラクションの生起状況に由来する）を提示する。日記制作者は、このスコア群を参考にすることにより、あらかじめシーンに人手でインデクスを割り当てることもなく、原体験における様々なインタラクションの生起状況を反映したスコアを参照することができ、膨大なビデオリソースの中から効率的にシーンを選択して日記を容易に構成することができる。

上記の処理により、本実施の形態では、主オブジェクトが関与したすべてのコンポジット情報が抽出されるとともに、抽出された各コンポジット情報を構成するすべてのプリミティブ情報が抽出され、主オブジェクトが関与したすべてのコンポジット情報の総継続時間に対する主オブジェクトが関与した各コンポジット情報の継続時間の単位時間当たりの割合を表すコンポジット情報割合と、主オブジェクトが関与したすべてのプリミティブ情報の単位時間当たりの発生量を表すプリミティブ情報発生量と、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合と、主オブジェクトが関与したすべての発話プリミティブ情報の単位時間当たりの発生量を表す発話プリミティブ情報発生量とが算出され、算出されたコンポジット情報割合、プリミティブ情報発生量、プリミティブ情報割合及び発話プリミティブ情報を観測時間が特定可能なように可視的に表示するシーンスコアリング画面が表示されるので、表示されたコンポジット情報割合、プリミティブ情報発生量、プリミティブ情報割合及び発話プリミティブ情報を基準に主オブジェクトにとって重要な観測情報がどの観測時刻の情報かを容易に知ることができるので、プリミティブ情報割合は、主オブジェクトにとって重要な観測情報を抽出するための適切な指標となる。この結果、複数のオブジェクトを観測した観測情報の中から任意のオブジェクトにとって重要な観測情報を抽出するための適切な指標を自動的に表示することができる。

なお、本実施の形態では、データ管理用サーバ４５に蓄積したプリミティブ情報及びコンポジット情報を用いて、コンポジット情報割合等を表示したが、プリミティブ情報及びコンポジット情報の取得方法はこの例に特に限定されず、所定のネットワークを介して接続可能なデータサーバ等に蓄積されたプリミティブ情報及びコンポジット情報を用いてもよい。また、コンポジット情報割合等の表示形態も、上記の例に特に限定されず、種々の変更が可能である。

本発明の一実施の形態による情報分析装置を用いた情報管理システムの構成を示すブロック図である。図１に示す赤外線タグ及び人間用観測装置の構成を示すブロック図である。図１に示す周囲状況観測装置の構成を示すブロック図である。図１に示すクライアントコンピュータの構成を示すブロック図である。図４に示すローデータ記録部のトラッカーテーブルのデータ構造を示す図である。図４に示すローデータ記録部のボイステーブルのデータ構造を示す図である。図４に示すセグメンテーション記録部のルックテーブルのデータ構造を示す図である。図４に示すセグメンテーション記録部のトークテーブルのデータ構造を示す図である。図１に示すデータ管理用サーバの構成を示すブロック図である。図９に示すプリミティブ記録部のステータステーブルのデータ構造を示す図である。セグメンテーション情報のうち最小継続時間以上継続しているセグメンテーション情報のみを抽出する処理を模式的に説明する図である。図９に示すプリミティブ処理部において用いられる決定木の一例を示す図である。図９に示すコンポジット記録部のコンポジットネームテーブルのデータ構造を示す図である。図９に示すコンポジット記録部のコンポジットテーブルのデータ構造を示す図である。図９に示すコンポジット処理部において抽出されるコンポジットの例を示す模式図である。図９に示すプリミティブ記録部のステータステーブルの一例を示す図である。図１に示す情報管理装置において構築されるデータベースの階層構造を示す模式図である。図１に示す情報分析装置の構成を示すブロック図である。図１に示す情報管理装置の情報管理処理を説明するためのフローチャートである。図１に示す情報分析装置の情報分析処理を説明するためのフローチャートである。シーンスコアリング画面の一例を示す図である。図２１に示すスコアグラフの拡大図である。

符号の説明

１人間用観測装置
２周囲状況観測装置
３ロボット型観測装置
４情報管理装置
５、７アプリケーションサーバ
６情報分析装置
８ＡＶファイルサーバ
９赤外線タグ
４１クライアントコンピュータ部
４２〜４４クライアントコンピュータ
４５データ管理用サーバ
６１入力部
６２情報抽出部
６３通信部
６４指標算出部
６５表示部
４１１通信部
４１２データ管理部
４１３ローデータ記録部
４１４セグメンテーション処理部
４１５セグメンテーション記録部
４５１通信部
４５２データ管理部
４５３プリミティブ処理部
４５４プリミティブ記録部
４５５コンポジット処理部
４５６コンポジット記録部

Claims

複数のオブジェクトを観測した観測情報を分析する情報分析装置であって、
複数のオブジェクトの中から一のオブジェクトを主オブジェクトとして受け付ける受付手段と、
２つのオブジェクト間の動作状態を基準に分類されたプリミティブ情報と、前記プリミティブ情報を組み合わせることにより作成され且つ３つ以上のオブジェクト間の動作状態を基準に分類されたコンポジット情報とに階層化された観測情報を、観測されたオブジェクト及び観測時間を特定可能な形式で記録している記録手段から、主オブジェクトが関与したすべてのコンポジット情報を抽出するとともに、抽出した各コンポジット情報を構成するすべてのプリミティブ情報を抽出する抽出手段と、
前記抽出手段により抽出されたコンポジット情報及びプリミティブ情報を基に、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合を算出する算出手段と、
前記プリミティブ情報割合を観測時間軸上に表示する表示手段とを備えることを特徴とする情報分析装置。
前記算出手段は、前記抽出手段により抽出されたコンポジット情報を基に、主オブジェクトが関与したすべてのコンポジット情報の総継続時間に対する主オブジェクトが関与した各コンポジット情報の継続時間の単位時間当たりの割合を表すコンポジット情報割合を算出し、
前記表示手段は、前記コンポジット情報割合を観測時間軸上に表示することを特徴とする請求項１記載の情報分析装置。
前記算出手段は、前記抽出手段により抽出されたプリミティブ情報を基に、主オブジェクトが関与したすべてのプリミティブ情報の単位時間当たりの発生量を表すプリミティブ情報発生量を算出し、
前記表示手段は、前記プリミティブ情報発生量を観測時間軸上に表示することを特徴とする請求項１又は２記載の情報分析装置。
前記抽出手段は、オブジェクトが発話した状態を表す発話プリミティブ情報をプリミティブ情報として抽出し、
前記算出手段は、前記抽出手段により抽出された発話プリミティブ情報を基に、主オブジェクトが関与したすべての発話プリミティブ情報の単位時間当たりの発生量を表す発話プリミティブ情報発生量を算出し、
前記表示手段は、前記発話プリミティブ情報発生量を観測時間軸上に表示することを特徴とする請求項１〜３のいずれかに記載の情報分析装置。
前記観測情報は、少なくとも一のオブジェクトを含む動画像を撮影した映像情報及び音声情報を含むことを特徴とする請求項１〜４のいずれかに記載の情報分析装置。
受付手段と、抽出手段と、算出手段と、表示手段とを備える情報分析装置を用いて、複数のオブジェクトを観測した観測情報を分析する情報分析方法であって、
前記受付手段が、複数のオブジェクトの中から一のオブジェクトを主オブジェクトとして受け付けるステップと、
前記抽出手段が、２つのオブジェクト間の動作状態を基準に分類されたプリミティブ情報と、前記プリミティブ情報を組み合わせることにより作成され、３つ以上のオブジェクト間の動作状態を基準に分類されたコンポジット情報とに階層化された観測情報を、観測されたオブジェクト及び観測時間を特定可能な形式で記録している記録手段から、主オブジェクトが関与したすべてのコンポジット情報を抽出するとともに、抽出した各コンポジット情報を構成するすべてのプリミティブ情報を抽出するステップと、
前記算出手段が、抽出されたコンポジット情報及びプリミティブ情報を基に、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合を算出するステップと、
前記表示手段が、前記プリミティブ情報割合を観測時間軸上に表示するステップとを含むことを特徴とする情報分析方法。
複数のオブジェクトを観測した観測情報を分析するための情報分析プログラムであって、
複数のオブジェクトの中から一のオブジェクトを主オブジェクトとして受け付ける受付手段と、
２つのオブジェクト間の動作状態を基準に分類されたプリミティブ情報と、前記プリミティブ情報を組み合わせることにより作成され且つ３つ以上のオブジェクト間の動作状態を基準に分類されたコンポジット情報とに階層化された観測情報を、観測されたオブジェクト及び観測時間を特定可能な形式で記録している記録手段から、主オブジェクトが関与したすべてのコンポジット情報を抽出するとともに、抽出した各コンポジット情報を構成するすべてのプリミティブ情報を抽出する抽出手段と、
前記抽出手段により抽出されたコンポジット情報及びプリミティブ情報を基に、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合を算出する算出手段と、
前記プリミティブ情報割合を観測時間軸上に表示する表示手段としてコンピュータを機能させることを特徴とする情報分析プログラム。