以下、本発明の一実施の形態による情報分析装置を用いた情報管理システムについて図面を参照しながら説明する。図1は、本発明の一実施の形態による情報分析装置を用いた情報管理システムの構成を示すブロック図である。なお、本実施の形態では、展示会場において説明員が見学者に展示内容を説明しているときに、観測されるオブジェクトである説明員及び見学者のインタラクション(相互作用)等に関する観測情報を分析する場合について説明するが、本発明はこの例に特に限定されず、ラウンドテーブルを囲んだ自由討論等の打合せ、ある物体や書類を囲んで複数人が作業を行う共同作業等の種々のコンポジットにおける、人間と人間、人間とロボット、人間と環境を構成する人工物等の間の種々のインタラクション等に関する観測情報の分析に同様に適用することができる。
図1に示す情報管理システムは、人間用観測装置1、周囲状況観測装置2、ロボット型観測装置3、情報管理装置4、アプリケーションサーバ5、情報分析装置6、アプリケーションサーバ7、AV(オーディオ・ビデオ)ファイルサーバ8及び赤外線タグ9を備える。情報管理装置4は、クライアントコンピュータ部41及びデータ管理用サーバ45を備え、クライアントコンピュータ部41は、クライアントコンピュータ42〜44を含む。
なお、図1では、図示を容易にするために人間用観測装置1、周囲状況観測装置2、ロボット型観測装置3及び赤外線タグ9をそれぞれ1個のみ図示しているが、人間用観測装置1は説明員及び見学者ごとに設けられ、周囲状況観測装置2は複数の観測位置に設けられ、ロボット型観測装置3は必要数だけ設けられ、赤外線タグ9は説明員及び見学者等のインタラクションに使用される対象物ごとに設けられている。また、クライアントコンピュータ42〜44は人間用観測装置1、周囲状況観測装置2及びロボット型観測装置3に対応してそれぞれ設けられ、アプリケーションサーバ5、7は、アプリケーションごとに設けられる。
本実施の形態では、説明員、見学者等の人間、ロボット及び展示物等がインタラクションに参加するオブジェクトに該当し、オブジェクトの型を「HUMAN」、「UBIQ」及び「ROBOT」の3種類に分類し、「HUMAN」には説明員、見学者等の人間、「UBIQ」には展示物等の人工物(ユビキタス)、「ROBOT」には説明を補助するロボット(ロボット型観測装置3)がそれぞれ該当する。また、本実施の形態では、上記のインタラクションのうち、2つのオブジェクト間(人間と人間、人間と物等)のインタラクションをプリミティブ(Primitive)といい、3つの以上のオブジェクト間(人間と人間と人間、人間と人間と物等)のインタラクションをコンポジット(Composite)といい、プリミティブを特定するための情報をプリミティブ情報といい、コンポジットを特定するための情報をコンポジット情報という。
赤外線タグ9は、人間用観測装置1、周囲状況観測装置2及びロボット型観測装置3により観測される対象物となる展示物自体又はその近傍若しくは展示会場の壁又は天井等に取り付けられ、対象物に対して一意的に割り付けられたID番号(識別情報)を赤外線の点滅により送信する。
人間用観測装置1は、説明員又は見学者に装着され、装着している説明員又は見学者のID番号を赤外線の点滅により送信する。また、人間用観測装置1は、説明員等の視界内に位置する赤外線タグ9等から送信される対象物のID番号及び赤外線タグ9等の赤外線画像内のXY座標を検出するとともに、赤外線タグ9を含む可視光画像を撮影し、検出したID番号及びXY座標等の観測情報及び撮影した可視光画像データ(映像データ)等の観測情報をクライアントコンピュータ42へ出力する。また、人間用観測装置1は、人間用観測装置1を装着している説明員又は見学者の発話を検出して音声データ等の観測情報をクライアントコンピュータ42へ出力するとともに、生体データを検出してクライアントコンピュータ42へ出力する。
クライアントコンピュータ42は、ROM(リードオンリメモリ)、CPU(中央演算処理装置)、RAM(ランダムアクセスメモリ)、外部記憶装置、通信装置等を備えるクライアントコンピュータから構成され、人間用観測装置1により取得された映像データ及び音声データ等の観測情報であるローデータ(Raw Data)情報をその取得時間とともにオブジェクトごとに記録するとともに、記録している観測情報のうち取得時間が所定間隔以下の複数の観測情報を一つのセグメンテーション(Segmentation)情報として抽出し、抽出したセグメンテーション情報をオブジェクトごとに記録し、データ管理用サーバ45及びアプリケーションサーバ5,7へ無線等により送信する。また、クライアントコンピュータ42は、人間用観測装置1から出力される映像データ及び音声データをデータ管理用サーバ45へ無線等により送信する。
周囲状況観測装置2は、説明員及び見学者が位置する空間を構成する構造物、例えば展示会場の天井及び壁に固定され、撮影範囲内に位置する人間用観測装置1及び赤外線タグ9等から送信されるID番号並びに人間用観測装置1及び赤外線タグ9等の赤外線画像内のXY座標を検出するとともに、撮影範囲内に位置する人間用観測装置1及び赤外線タグ9等を含む可視光画像を撮影し、検出したID番号及びXY座標等の観測情報及び撮影した映像データ等の観測情報をクライアントコンピュータ43へ出力する。また、周囲状況観測装置2は、撮影範囲内に位置する説明員又は見学者の発話等を集音して音声データ等の観測情報をクライアントコンピュータ43へ出力する。
クライアントコンピュータ43は、ROM、CPU、RAM、外部記憶装置、通信装置等を備えるクライアントコンピュータから構成され、周囲状況観測装置2により取得された観測情報であるローデータ情報をその取得時間とともにオブジェクトごとに記録するとともに、記録している観測情報のうち取得時間が所定間隔以下の複数の観測情報を一つのセグメンテーション情報として抽出し、抽出したセグメンテーション情報をオブジェクトごとに記録し、データ管理用サーバ45及びアプリケーションサーバ5,7へ有線等により送信する。また、クライアントコンピュータ43は、周囲状況観測装置2から出力される映像データ及び音声データをデータ管理用サーバ45へ有線等により送信する。
ロボット型観測装置3は、例えば、視覚、聴覚及び触覚を有するヒューマノイド型自律移動ロボット等から構成され、ロボット自身のID番号を赤外線の点滅により送信する。また、ロボット型観測装置3は、ロボット自身の視界内に位置する赤外線タグ9等から送信される対象物のID番号及び赤外線タグ9等の赤外線画像内のXY座標を検出するとともに、赤外線タグ9を含む可視光画像を撮影し、検出したID番号及びXY座標等の観測情報及び撮影した映像データ等の観測情報をクライアントコンピュータ44へ出力する。また、ロボット型観測装置3は、ロボット自身の周辺に位置する説明員又は見学者の発話等を集音して音声データ等の観測情報をクライアントコンピュータ44へ出力する。
クライアントコンピュータ44は、ROM、CPU、RAM、外部記憶装置、通信装置等を備えるクライアントコンピュータから構成され、ロボット型観測装置3により取得された観測情報であるローデータ情報をその取得時間とともにオブジェクトごとに記録するとともに、記録している観測情報のうち取得時間が所定間隔以下の複数の観測情報を一つのセグメンテーション情報として抽出し、抽出したセグメンテーション情報をオブジェクトごとに記録し、データ管理用サーバ45及びアプリケーションサーバ5,7へ無線又は有線等により送信する。また、クライアントコンピュータ44は、ロボット型観測装置3から出力される映像データ及び音声データをデータ管理用サーバ45へ無線又は有線等により送信する。
なお、観測装置は上記の例に特に限定されず、例えば、視覚、聴覚、触覚及び体勢感覚等を有するぬいぐるみ型観測装置等を用い、ぬいぐるみ自身の視点から説明員及び見学者の状況等を撮影するようにしてもよい。また、観測装置として赤外線タグを用いているが、対象物を特定できれば、他の観測装置を用いてもよい。
データ管理用サーバ45は、ROM、CPU、RAM、外部記憶装置、通信装置等を備えるサーバコンピュータから構成され、有線又は無線を介して各クライアントコンピュータ42〜44と通信可能に接続される。データ管理用サーバ45は、各クライアントコンピュータ42〜44に記録されているセグメンテーション情報を基に、予め定められた決定木に従ってオブジェクトの動作状態を推定し、推定したオブジェクトの動作状態を記録するとともに、記録しているオブジェクトの動作状態を基にオブジェクト間のインタラクションをプリミティブ及びコンポジットとして抽出し、抽出したプリミティブ及びコンポジットを特定するためのプリミティブ情報及びコンポジット情報を記録する。また、データ管理用サーバ45は、入力される各データのうち映像データ及び音声データをAVファイルサーバ8に蓄積させる。
AVファイルサーバ8は、ROM、CPU、RAM、外部記憶装置、通信装置等を備えるサーバコンピュータから構成され、AVファイルサーバ8は、映像データ及び音声データ等をデータベース化して記録する。
アプリケーションサーバ5は、ROM、CPU、RAM、外部記憶装置、通信装置等を備えるサーバコンピュータから構成され、各クライアントコンピュータ42〜44に記録されているセグメンテーション情報等を用いて各ブースの盛況情報や人間に関する情報等を人間用観測装置1に設けられたヘッドマウントディスプレイに表示して種々の情報を提示する。
情報分析装置6は、入力装置、ROM、CPU、RAM、外部記憶装置、通信装置及び表示装置等を備えるサーバコンピュータから構成され、データ管理用サーバ45に記録されているプリミティブ情報及びコンポジット情報と、AVファイルサーバ8に記録されている映像データ及び音声データと等を用いて、任意のユーザ(例えば、一の見学者)のインタラクションを分析して、当該ユーザのインタラクションに対する種々の指標を表示するシーンスコアリング画面を作成して表示し、ユーザの操作に応じた日記オーサリング処理を実行する。
アプリケーションサーバ7は、ROM、CPU、RAM、外部記憶装置、通信装置等を備えるサーバコンピュータから構成され、各クライアントコンピュータ42〜44に記録されているセグメンテーション情報及びデータ管理用サーバ45に記録されているオブジェクトの状態等を用いて、ロボット型観測装置3が見学者等とのインタラクションを積極的に演出するようにロボット型観測装置3の動作を制御する。
図2は、図1に示す赤外線タグ9及び人間用観測装置1の構成を示すブロック図である。人間用観測装置1は、赤外線検出部11、画像撮影部12、赤外線タグ13、マイク部14、生体検出部15及び情報提示部16を備える。人間用観測装置1は、耳かけ式ネックバンド方式ヘッドセットとヘッドマウントディスプレイとが一体にされたヘッドセット一体型ヘッドマウントディスプレイとして構成され、説明員又は見学者の頭部に装着される。赤外線検出部11及び画像撮影部12は直方体形状の筺体に一体に内蔵され、赤外線タグ13は筺体の側面に一体に固定され、マイク部14はユーザの口元付近に配置され、生体検出部15は、説明員又は見学者の指に装着され、情報提示部16は、説明員又は見学者の眼前に配置され、クライアントコンピュータ42は、説明員又は見学者に背負われて使用される。
赤外線タグ9は、LED91及び駆動回路92を備える。LED91は、赤外線LED等から構成され、例えば、光通信用高出力発光ダイオード(スタンレイ社製DN311)等を用いることができ、指向性が弱く且つ可視光に近い800nm程度の赤外LEDを好適に用いることができる。
駆動回路92は、マイクロコンピュータ等から構成され、例えば、Atmel社製4MHz駆動マイコンAT90S2223等を用いることができ、赤外線タグ9が取り付けられた対象物に対して一意的に割り付けられたID番号が識別可能なようにLED91を点滅制御する。なお、LED91及び駆動回路92は、内部電池(図示省略)から電源を供給されている。
具体的には、駆動回路92は、マンチェスタ符号化方式によりエンコードしたID番号(6bit)及びパリティビットと、スタートビット(1bit)及びエンドビット(2bit)とを200Hz周期の点滅により繰り返し送信する。例えば、ID番号62の場合、ID:62→“01100101010101101111”(ここで、スタートビット(01)、ID番号6ビット、パリティビット(偶数10、奇数01)、エンドビット(1111))となる。
赤外線検出部11は、赤外線フィルタ111、レンズ112、CMOSイメージセンサ113及び画像処理装置114を備える。赤外線フィルタ111は、赤外線タグ9のLED91から発光される赤外線のうち主に近赤外線のみ透過させてレンズ112に近赤外線を導く。赤外線フィルタ111としては、例えば、可視光をブロックし、近赤外光をパスするエドモンド社製プラスチックIRパスフィルタを用いることができる。
レンズ112は、赤外線フィルタ111を透過した近赤外線をCMOSイメージセンサ113上に結像させる。レンズ112の画角は90度である。この場合、対面での会話状態等において比較的近距離で広範囲に位置する赤外線タグを容易に検出することができる。
CMOSイメージセンサ113は、レンズ112により結像された近赤外線から構成される近赤外線画像を撮影して画像処理装置114へ出力する。CMOSイメージセンサ113としては、例えば、三菱電機社製人口網膜LSI(M64283FP)等を用いることができ、この場合の解像度は128×128pixelである。
画像処理装置114は、CMOSイメージセンサ113の制御及びデータ処理を行い、CMOSイメージセンサ113に撮影された近赤外線画像から赤外線タグ9を検出し、検出した赤外線タグ9の点滅状態からID番号を検出するとともに、赤外線画像上の赤外線タグ9のXY座標を検出し、ID番号及びXY座標等のデータをRS232C等のデータ伝送規格に従ってクライアントコンピュータ42へ出力する。画像処理装置114としては、例えば、Cygnal社製49MHz駆動マイコンC8051F114を用いることができる。
この場合、CMOSイメージセンサ113を114200Hzのクロックで駆動させ、撮像(シャッター開放)後、1クロック毎に1pixelの明るさがアナログ値でシリアル出力される。このため、全画素撮影時の最短フレームレートは、(シャッタースピード)+(128×128×クロックスピード)となるが、128×128pixelのうち8×8pixelを検出領域に設定して500Hzのシャッタースピードで撮像した場合、400Hzのフレームレートを実現することができ、読み出し速度を高速化することができる。このように、赤外線タグ9の点滅周期(200Hz)の2倍のフレームレート(400Hz)で読み込むため、単一LEDを用いて非同期通信を行うことができる。なお、画角90度のレンズ112を使用したときに2mの距離で1pixelは、2.2cm×2.2cmの範囲に相当する。
画像撮影部12は、レンズ121及びCCDカメラ122を備える。レンズ121は、説明員又は見学者の視線方向に位置する、赤外線タグ9が取り付けられた対象物を含む可視光像をCCDカメラ122上に結像させる。CCDカメラ122は、可視光画像を撮影して映像データをクライアントコンピュータ42へ出力する。レンズ121及びCCDカメラ122としては、例えば、アナログビデオ出力を有するキーエンス社製小型CCDカメラ(水平画角44度)を用いることができる。ここで、レンズ121の光軸は、赤外線検出部11のレンズ112の光軸に合わせられており、説明員又は見学者の視線方向に位置する対象物を識別するだけでなく、当該対象物の画像も同時に撮影することができる。
赤外線タグ13は、LED131及び駆動回路132を備える。赤外線タグ13は、人間用観測装置1に一体に構成され、人間用観測装置1を装着する説明員又は見学者のID番号を送信する点を除き、赤外線タグ9と同様のハードウエアから構成され、同様に動作する。
マイク部14は、音声処理回路141及びスロートマイク142を備える。スロートマイク142は、説明員又は見学者の発話を検出して音声処理回路141へ出力し、音声処理回路141は録音された音声データをクライアントコンピュータ42へ出力する。
生体検出部15は、生体データ処理回路151及び生体センサ152を備え、例えば、人間の脈拍、手の表面の伝導性(発汗)、温度の3個のセンサを備える生体データ記録用モジュール(Procomp+)等から構成される。生体センサ152は、説明員又は見学者の脈拍、発汗状態及び体温を検出し、生体データ処理回路151は、検出された各データの平均値を数秒ごとに計算し、リアルタイムに生体データをAD変換してクライアントコンピュータ42へ送信する。
情報提示部16は、ヘッドマウントディスプレイ161等から構成され、ヘッドマウントディスプレイ161は、アプリケーションサーバ5から無線等により送信された各ブースの盛況情報や人間に関する情報等を表示し、説明員又は見学者に当該情報を提示する。
上記の赤外線検出部11等の各センサ類には、1オブジェクトが装着する単位すなわち人間用観測装置1を装着する人間ごとにまとめて一意のセンサID番号が付与され、センサID番号及び赤外線タグ13のID番号は、人間用観測装置1を装着するオブジェクトを特定するための一意のオブジェクトID番号と関連付けられ、オブジェクトID番号に対してオブジェクトの型が指定される。
したがって、人間用観測装置1が各観測情報とともにオブジェクトID番号をクライアントコンピュータ42へ出力し、クライアントコンピュータ42がセグメンテーション情報等とともにオブジェクトID番号をデータ管理用サーバ45等へ出力することにより、データ管理用サーバ45等の各装置においてセグメンテーション情報等がどのオブジェクトのものであるか及びオブジェクトの型を特定できるようにしている。周囲状況観測装置2及びロボット型観測装置3も、この点に関して同様である。
図3は、図1に示す周囲状況観測装置2の構成を示すブロック図である。図3に示す周囲状況観測装置2は、固定検出部21、画像撮影部22及びマイク部23を備える。固定検出部21は、赤外線フィルタ211、レンズ212、CMOSイメージセンサ213及び画像処理装置214を備える。画像撮影部22は、レンズ221及びCCDカメラ222を備える。マイク部23は、音声処理回路231及びマイクロホン232を備える。固定検出部21、画像撮影部22及びマイク部23は、上記の赤外線検出部11、画像撮影部12及びマイク部14と同様に構成され、同様に動作する。但し、周囲状況観測装置2のレンズ212の画角は60度であり、人間用観測装置1のレンズ112の画角より狭く設定され、マイクロホン232には無指向性のマイクロホンを用いている。
この場合、CMOSイメージセンサ213のピクセル当りの集光率が高くなり、遠距離に位置する赤外線タグ9,13を容易に発見することができる。また、説明員又は見学者の頭部に装着された人間用観測装置1だけでなく、説明員及び見学者が位置する空間を構成する構造物に固定された周囲状況観測装置2により、説明員、見学者並びに説明員及び見学者の視線方向の対象物を検出することができるので、異なる視点から説明員及び見学者の周囲の状況を観測することができる。なお、ロボット型観測装置3も、図3に示す周囲状況観測装置2と同様に構成され、同様に動作する。
次に、人間用観測装置1の赤外線タグ検出処理について説明する。この赤外線タグ検出処理は、画像処理装置114が予め記録されている検出処理プログラムを実行することにより行われる処理であり、周囲状況観測装置2及びロボット型観測装置3でも同様の処理が行われる。
まず、画像処理装置114は、CMOSイメージセンサ113等を初期化し、全画面(128×128pixel)の赤外線画像を撮影する。次に、画像処理装置114は、赤外線画像の中から所定サイズの光点、例えば1pixelの光点を赤外線タグ9(LED91)として抽出し、所定サイズより大きな光点を排除する。このように、赤外線画像の中から所定サイズの光点を検出するという簡便な処理により赤外線タグ9を検出することができるので、画像処理装置114による赤外線タグ検出処理を高速化することができる。
次に、画像処理装置114は、抽出した光点を中心とする8×8pixelの領域を検出領域として決定し、CMOSイメージセンサ113により検出領域を既定回数、例えば、((送信ビット数+スタートビット数+エンドビット数)×2×2)回読み込み、読み込んだ赤外線画像から赤外線タグ9の点滅状態を検出してID番号を検出するとともに、パリティチェックを行い、読み込みデータの判定処理を行う。
このように、赤外線画像から光点を含む検出領域を決定し、この検出領域の赤外線画像のみを用いて赤外線タグ9の点滅状態を検出しているので、処理対象となる赤外線画像を必要最小限に限定することができ、画像処理装置114による赤外線タグ検出処理を高速化することができる。この赤外線タグ検出処理の高速化により、人の動きに充分に追従することができ、動き予測等の演算コストの高い処理を省略することができる。ここで、パリティチェックが正しければ、画像処理装置114は、赤外線タグ9のID番号及びXY座標を出力し、パリティチェックが正しくなければ、検出領域の読み込みを再度行い、上記の赤外線検出処理を検出されたすべての光点に対して行う。
このようにして、赤外線タグ9が取り付けられた対象物に対して一意的に割り付けられたID番号をLED91の点滅により送信し、説明員又は見学者に装着された人間用観測装置1により、説明員又は見学者の視線方向に位置する対象物を含む所定の撮影領域の赤外線画像が撮影され、撮影された赤外線画像を用いて赤外線タグ9のID番号が検出されるので、説明員又は見学者の視線方向に位置する対象物を識別することができる。
図4は、図1に示すクライアントコンピュータ42の構成を示すブロック図である。なお、他のクライアントコンピュータ43,44も、図4に示すクライアントコンピュータ42と同様に構成され、同様に動作するので、詳細な説明は省略する。
図4に示すクライアントコンピュータ42は、通信部411、データ管理部412、ローデータ記録部413、セグメンテーション処理部414及びセグメンテーション記録部415を備える。通信部411は、無線及び有線の通信インターフェースボード等から構成され、ローデータ記録部413及びセグメンテーション記録部415は、ハードディスクドライブ等の外部記憶装置等から構成され、データ管理部412及びセグメンテーション処理部414は、CPUが後述する情報管理プログラムを実行することにより実現される。
通信部411は、人間用観測装置1の画像処理装置114、CCDカメラ122及び音声処理回路141、アプリケーションサーバ5並びにデータ管理用サーバ45との間のデータ通信を制御する。通信部411は、画像処理装置114から出力されるID番号及びXY座標及び音声処理回路141から出力される音声データを観測情報としてデータ管理部412へ出力し、CCDカメラ122から出力される映像データ及び音声処理回路141から出力される音声データをデータ管理用サーバ45へ出力する。
データ管理部412は、観測情報の一例である視覚情報として、通信部411から出力されるID番号及びXY座標を取得時間とともにローデータ記録部413のトラッカーテーブルに記録させる。また、データ管理部412は、観測情報の一例である聴覚情報として、通信部411から出力される音声データから発話の開始時間及び終了時間を特定し、特定した発話の開始時間及び終了時間をローデータ記録部413のボイステーブルに記録させる。なお、ローデータ記録部413に記録される観測情報(生データ)は上記の例に特に限定されず、生体検出部15で検出された生体データ等を同様に記録してもよい。
図5は、図4に示すローデータ記録部413のトラッカーテーブルのデータ構造を示す図である。ローデータ記録部413では、図5に示すフィールド構成及びデータタイプのトラッカーテーブルが作成され、「time」に取得時間が、「x」にオブジェクトのX座標値が、「y」にオブジェクトのY座標値が、「tagname」にオブジェクトのID番号がそれぞれ記録される。これらのデータにより、ID番号がtagnameである赤外線タグが時間timeに座標(x,y)において捕らえられたことがわかる。
図6は、図4に示すローデータ記録部413のボイステーブルのデータ構造を示す図である。ローデータ記録部413では、図6に示すフィールド構成及びデータタイプのボイステーブルが作成され、「time」に会話の開始時間又は終了時間が記録され、開始時間が記録された場合は「status」に「TURN_ON」が設定され、終了時間が記録された場合は「status」に「TURN_OFF」が設定される。これらのデータにより、会話の開始時間及び終了時間がわかる。
セグメンテーション処理部414は、ローデータ記録部413のトラッカーテーブル及びボイステーブルから視覚情報及び聴覚情報の取得時間を読み出し、オブジェクトごとに取得間隔が予め設定されている最大間隔以下の視覚情報及び聴覚情報をクラスタリングして視覚セグメンテーション情報及び聴覚セグメンテーション情報を作成し、作成した視覚セグメンテーション情報及び聴覚セグメンテーション情報をセグメンテーション記録部415のルックテーブル及びトークテーブルに記録させる。
図7は、図4に示すセグメンテーション記録部415のルックテーブルのデータ構造を示す図である。セグメンテーション記録部415では、図7に示すフィールド構成及びデータタイプのルックテーブルが作成され、「start」に視覚セグメンテーション情報を構成する複数の視覚情報のうち最初の視覚情報の取得時間が、「end」に最後の視覚情報の取得時間が、「id」にオブジェクトのID番号がそれぞれ記録される。これらのデータにより、いつから(start)いつまで(end)何(id)を捕らえていたかがわかる。
また、ルックテーブルには、アプリケーションサーバ5等の要求を満たすために視覚セグメンテーション情報の抽出終了を表す終了情報の格納領域が設けられ、「finalize」に“1”(真)又は“0”(偽)の終了情報が格納される。すなわち、セグメンテーション処理部414は、人間用観測装置1が赤外線タグを捕らえ始めたとき、その時間を「start」に格納するとともに、赤外線タグのID番号を「id」に格納し、その区間が続いている間は、「finalize」を“0”(偽)に設定する。その後、セグメンテーション処理部414は、現在の時間と人間用観測装置1から視覚情報が得られた時間との差が最大間隔以上になった場合、その区間が終了したものと判断して「finalize」を“1”(真)に設定し、その時間を「end」に格納する。したがって、アプリケーションサーバ5等では、「finalize」の値が“0”(偽)である間は、人間用観測装置1が赤外線タグを捕らえていると判断することができる。
図8は、図4に示すセグメンテーション記録部415のトークテーブルのデータ構造を示す図である。セグメンテーション記録部415では、図8に示すフィールド構成及びデータタイプのトークテーブルが作成され、「start」に聴覚セグメンテーション情報を構成する複数の聴覚情報のうち最初の聴覚情報の開始時間が、「end」に最後の聴覚情報の終了時間がそれぞれ記録され、上記と同様に、「finalize」に聴覚セグメンテーション情報の抽出終了を表す終了情報として“1”(真)又は“0”(偽)が格納される。すなわち、セグメンテーション処理部414は、ボイステーブルの「status」に“TURN_ON”が格納されると、その時間を「start」に格納するとともに、その区間が続いている間は、「finalize」を“0”(偽)に設定する。その後、ボイステーブルの「status」に“TURN_OFF”が格納されると、セグメンテーション処理部414は、その区間が終了したものと判断して「finalize」を“1”(真)に設定し、その時間を「end」に格納する。したがって、アプリケーションサーバ5等では、「finalize」の値が“0”(偽)である間は、発話が行われていると判断することができる。
本実施の形態では、人間用観測装置1の視覚情報の最小取得間隔は100msec、聴覚情報の最小取得間隔は3secであるため、上記のセグメンテーション処理に使用される最大間隔として20秒を用いているが、この例に特に限定されず、他の時間間隔を用いたり、視覚情報と聴覚情報とで異なる最大間隔を用いる等の種々の変更が可能である。
なお、セグメンテーション記録部415では、ローデータ記録部413と同様に人間用観測装置1等が観測情報を取得すると即座にデータ更新が行われるが、ルックテーブルのセグメンテーションリングが終了するのは実際の時間より最大間隔だけ後になるため、「finalize」が真に設定されるまでには最大間隔だけの遅延が生じる。
また、データ管理部412は、ローデータ記録部413及びセグメンテーション記録部415に記録されているローデータ情報及びセグメンテーション情報を読み出し、通信部411を用いてアプリケーションサーバ5及びデータ管理用サーバ45へ出力する。
図9は、図1に示すデータ管理用サーバ45の構成を示すブロック図である。図9に示すデータ管理用サーバ45は、通信部451、データ管理部452、プリミティブ処理部453、プリミティブ記録部454、コンポジット処理部455及びコンポジット記録部456を備える。通信部451は、無線及び有線の通信インターフェースボード等から構成され、プリミティブ記録部454及びコンポジット記録部456は、ハードディスクドライブ等の外部記憶装置等から構成され、データ管理部452、プリミティブ処理部453及びコンポジット処理部455は、CPUが後述する情報管理プログラムを実行することにより実現される。
通信部451は、クライアントコンピュータ42〜44、情報分析装置6、アプリケーションサーバ7及びAVファイルサーバ8との間のデータ通信を制御する。通信部451は、クライアントコンピュータ42〜44から出力されるセグメンテーション情報をデータ管理部452へ出力し、クライアントコンピュータ42〜44から出力される映像データ及び音声データをAVファイルサーバ8へ出力する。
データ管理部452は、通信部451から出力されるセグメンテーション情報をプリミティブ処理部453へ出力する。プリミティブ処理部453は、セグメンテーション情報を基に決定木に従ってオブジェクトの動作状態を推定し、推定したオブジェクトの動作状態をプリミティブ情報としてプリミティブ記録部454に記録させる。ここで、各セグメンテーション情報は、オブジェクトが他の一つのオブジェクトを捕らえていることを示すものであり、プリミティブ処理部453は、オブジェクトの型を考慮した決定木を用いて2つのオブジェクト間のインタラクションとなるプリミティブを推定し、推定した2つのオブジェクト間のプリミティブを表すプリミティブ情報をオブジェクトの動作状態としてプリミティブ記録部454のステータステーブルに格納する。
図10は、図9に示すプリミティブ記録部454のステータステーブルのデータ構造を示す図である。プリミティブ記録部454では、図10に示すフィールド構成及びデータタイプのステータステーブルがオブジェクトごとに作成され、「status」に2つのオブジェクト間のプリミティブが、「start」にその開始時間が、「end」にその終了時間が、「id」にプリミティブの対象となるオブジェクトのID番号がそれぞれ記録される。これらのデータにより、いつから(start)いつまで(end)何(id)に対してとのような動作状態(status)であったかがわかる。
また、プリミティブ処理部453は、セグメンテーション記録部415に記録されているセグメンテーション情報のうち最小継続時間以上継続しているセグメンテーション情報のみを用いて2つのオブジェクト間のプリミティブを推定する。図11は、セグメンテーション情報のうち最小継続時間以上継続しているセグメンテーション情報のみを抽出する処理を模式的に説明する図である。
図11の(a)に示すように、ローデータRDが図示の時間間隔で得られた場合、セグメンテーション処理部414では、最大間隔T1以下のローデータをクラスタリングするため、セグメンテーション記録部415には6個のセグメンテーション情報C1〜C6が記録される。このとき、図11の(b)に示すように、プリミティブ処理部453は、セグメンテーション情報C1〜C6のうち最小継続時間T2以上継続している2個のセグメンテーション情報C1,C4のみを抽出し、2個のセグメンテーション情報C1,C4のみを用いて2つのオブジェクト間のプリミティブを推定する。したがって、「finalize」が真となったセグメンテーション情報のうち、最小継続時間より短いセグメンテーション情報を意味のないものとして排除することができる。
図12は、図9に示すプリミティブ処理部453において用いられる決定木の一例を示す図である。図12に示すように、プリミティブ処理部453は、セグメンテーション情報を有するオブジェクトの型すなわち自分の型が「HUMAN」、「UBIQ」及び「ROBOT」のいずれであるかをオブジェクトのID番号により判断する。
自分の型が「UBIQ」の場合、プリミティブ処理部453は、セグメンテーション情報により特定されるプリミティブの対象となるオブジェクトすなわち相手の型が「HUMAN」及び「ROBOT」のいずれであるかを視覚セグメンテーション情報の「id」により判断する。プリミティブ処理部453は、相手の型が「HUMAN」の場合、自分の「status」に自分が相手を捕らえていることを表す「CAPTURE」を格納するとともに、相手の「status」に相手から自分が捕らえられていることを表す「CAPTURED」を格納する。相手の型が「ROBOT」の場合も同様である。
自分の型が「HUMAN」の場合、プリミティブ処理部453は、相手の型が「HUMAN」、「UBIQ」及び「ROBOT」のいずれであるかを判断する。相手の型が「UBIQ」の場合、プリミティブ処理部453は、自分の「status」に自分が相手を見ていることを表す「LOOK AT」を格納するとともに、相手の「status」に相手から自分が見られていることを表す「LOOKED AT」を格納する。
相手の型が「HUMAN」の場合、プリミティブ処理部453は、お互いを捕らえているか否かを判断する。お互いを捕らえている場合、プリミティブ処理部453は、自分が発話しているか否かを判断し、発話している場合は自分の「status」に自分が相手に話し掛けていることを表す「TALK TO」を格納し、発話していない場合は自分の「status」にお互いを捕らえていることを表す「LOOK TOGETHER」を格納する。ここで、相手の状態を判断していないのは、相手の決定木でも自らの状態の判定が行われるため、ここでの書き込みが不要だからである。他の判断も、上記と同様にして行われる。
なお、プリミティブ記録部454では、セグメンテーション記録部415に対して「finalize」が真となると即座にデータ更新が行われ、データ更新は実際の時間より最大間隔だけ遅延が生じる。
コンポジット処理部455は、プリミティブ記録部454に記録されているオブジェクトの動作状態を基に3つ以上のオブジェクト間のインタラクションとなるコンポジットを抽出し、抽出したコンポジットを表すコンポジット情報をコンポジット記録部456に記録させる。すなわち、コンポジット処理部455は、複数オブジェクトの状態に関して時間及び空間の重なりを調べ、予め決定した所定の規則を用いてそれらの区間に意味を与えることで3つ以上のオブジェクト間のインタラクションをコンポジットとして抽出し、抽出したコンポジットを表すコンポジット情報をコンポジット記録部456のコンポジットネームテーブル及びコンポジットテーブルに格納する。
図13は、図9に示すコンポジット記録部456のコンポジットネームテーブルのデータ構造を示す図である。コンポジット記録部456では、図13に示すフィールド構成及びデータタイプのコンポジットネームテーブルが作成される。コンポジットネームテーブルは、発生したコンポジットの一覧であり、一つのみ作成される。各コンポジットには一意のコンポジットID番号が割り付けられ、コンポジットID番号が「eventid」に、コンポジットの名前が「name」に、その時間帯の開示時間が「start」に、終了時間が「end」にそれぞれ格納される。
図14は、図9に示すコンポジット記録部456のコンポジットテーブルのデータ構造を示す図である。コンポジット記録部456では、図14に示すフィールド構成及びデータタイプのコンポジットテーブルがオブジェクトごとに作成され、オブジェクトが参加したコンポジットのコンポジットID番号が「eventid」に、コンポジットの開示時間が「start」に、終了時間が「end」にそれぞれ格納される。これらのデータにより、オブジェクトがどのコンポジット(eventid)にいつから(start)いつまで(end)参加したかがわかる。また、上記のようにコンポジットネームテーブル及びコンポジットテーブルの二つのテーブルを用いることにより、コンポジットに参加するオブジェクトの数が変化する場合に対処することができる。
図15は、図9に示すコンポジット処理部455において抽出されるコンポジットの例を示す模式図である。図15の(a)はコンポジット「TOGETHER_WITH」を、(b)はコンポジット「LOOK WITH」、「TALK ABOUT」を、(c)はコンポジット「JOINT ATTENTION」を、(d)はコンポジット「GROUP DISCUSSION」をそれぞれ示している。
まず、周囲状況観測装置2が複数の人間A,Bを捕らえている場合、人間が同じ場所に共存していることがわかるため、コンポジット処理部455は、このコンポジットをコンポジット「TOGETHER WITH」と判断する。この場合、ある時点で近くにいた人物がわかる。
このように、「TOGETHER WITH」では、人間が環境に設置された周囲状況観測装置2等に捉えられることにより、一定のエリアZに滞在していることが判明し、人間AがエリアZに滞在する場合、同時にエリアZに滞在している人間Bや人間Cが存在すれば、人々は一同に会していたと解釈される。
上記の状態で、一緒にいた人間A,Bがそれぞれその区間内において周囲状況観測装置2が取り付けられた展示物の赤外線タグ9を見ていた場合、コンポジット処理部455は、発話していないときは、一緒に展示物を見ていることを表すコンポジット「LOOK WITH」であると判断し、発話しているときは、その展示物についての話をしていることを表すコンポジット「TALK ABOUT」であると判断する。これは、人間は会話をするときにお互いを見ているとは限らず、この場合のように展示物を見ながらそれについて話すことが多いからである。
このように、「LOOK WITH」では、複数の人間が同一エリアに居る場合で、さらに、これらの人々がそのエリア内に存在する物体に対して共同注視を注いでいれば、人々は一緒に物体を閲覧していると解釈される。また、「TALK ABOUT」では、複数の人間が一緒に展示物の閲覧を行っている場合、これら人々がお互いに会話を行っていれば、その展示物の話題であると解釈される。このとき、必ずしもお互いに向かい合って会話が行われる必要はなく(そのような場合はむしろ不自然であるが)、展示物に向かって発話を行っている場合もこの解釈が採用される。
また、一緒にいた人間A,Bがそれぞれその区間内において周囲状況観測装置2が取り付けられた展示物の赤外線タグ9を見ているが、周囲状況観測装置2が人間A,Bを捕らえていない場合、コンポジット処理部455は、一緒に見ていることを単に表すコンポジット「JOINT ATTENTION」であると判断する。
このように、「JOINT ATTENTION」では、人間AがオブジェクトXを見ていると同時に、人間Bや人間CがオブジェクトXを見ていることがわかれば、オブジェクトXの周辺で起こるできごとが多くの人の注目を集めている、すなわちこれら人々は共同注視を行っていると解釈される。
さらに、人間がある期間内に話している他の人間を特定することにより、コンポジット処理部455は、複数の人間が会話を行っていることを表すコンポジット「GROUP DISCUSSION」を抽出する。このように、「GROUP DISCUSSION」では、人間Aと人間Bとが会話を行っていて、その時間的・空間的な近傍で人間Aや人間Bがその他の人間Cや人間Dに話しかけていたり、視線を向けているならば、その人々はグループで討論していると解釈される。
ここで、コンポジット処理部455がコンポジット「GROUP DISCUSSION」を抽出する処理について詳細に説明する。図16は、図9に示すプリミティブ記録部454のステータステーブルの一例を示す図である。図16に示す例は、5つのオブジェクト1〜5があり、オブジェクト1〜4の型が「HUMAN」、オブジェクト5の型が「UBIQ」であり、図16の(a)はオブジェクト1のステータステーブル、(b)はオブジェクト2のステータステーブル、(c)はオブジェクト3のステータステーブル、(d)はオブジェクト4のステータステーブルをそれぞれ示している。
まず、コンポジット処理部455は、コンポジットの時間「start」、「end」及びコンポジットの参加者リスト「list」を用意し、「list」を初期化する。次に、コンポジット処理部455は、プリミティブ記録部454のオブジェクト1のステータステーブル(図16の(a))を調べ、オブジェクト2と話したというデータを見つける。その継続時間(この場合、450−240=210(sec))が所定時間より充分長ければ、「start」及び「end」に240,450を設定し、「list」にオブジェクト1,2を追加する。さらに、コンポジット処理部455は、前後のデータを参照して同じ人間と話したデータを検索する。ここでは、700〜780(sec)までオブジェクト2と話したというデータが存在するため、コンポジット処理部455は、このデータとコンポジットとの間隔(この場合、700−450=250(sec))が所定間隔より小さければ同じコンポジットとみなし、「start」及び「end」を更新し、「start」及び「end」は240,780となる。
さらに、この区間に他の人間と話したデータがあれば、コンポジット処理部455は、「start」から「end」までの時間の重なりを調べ、これが所定時間より充分に大きければ、このオブジェクトもコンポジットの参加者であるとみなして「list」に追加し、「start」及び「end」を更新する。この結果、「start」=240、「end」=780、「list」=〔1,2,3〕となる。
次に、コンポジット処理部455は、オブジェクト1が見ていた人間(オブジェクト2,3)のステータステーブル(図16の(b)、(c))を調べる。まず、コンポジット処理部455は、オブジェクト2のステータステーブルを参照して「start」から「end」までの区間に近いデータのうち「status」が「TALK TO」であるデータを取り出し、その継続時間が所定時間より充分長ければ、「start」及び「end」を更新し、そのデータのオブジェクトが「list」に含まれていない場合は追加する。ここでは、「start」及び「end」が更新され、「start」及び「end」は120,780となり、「list」は変更されない。
上記と同様に、オブジェクト3のステータステーブルが処理され、オブジェクト4が追加され、「list」=〔1,2,3,4〕となる。次に、オブジェクト4のステータステーブルが調べられ、この場合、更新されるデータがないため、処理が終了される。
上記の処理が終了した後、コンポジット処理部455は、「list」の大きさが3以上になった場合(3人以上の人間が会話を行っている場合)、コンポジット「GROUP DISCUSSION」を発生させる。この結果、「start」=120から「end」=780までの区間においてオブジェクト1〜4がコンポジット「GROUP DISCUSSION」に参加したことがわかる。
他のコンポジットに関しても、上記と同様に処理が行われ、例えば、コンポジット「TOGETHER WITH」については、人間であるオブジェクトのステータステーブルのうち「status」が「CAPTURED」であるデータを検索してその近くにあるデータを統合し、その人間を捕らえた周囲状況観測装置2のステータステーブルを調べて同じ区間内に重複して捕らえられた人間が複数いれば、コンポジット「TOGETHER WITH」を発生させる。
なお、コンポジット処理部455が抽出するコンポジットは、上記の例に特に限定されず、他のコンポジットを抽出するようにしてもよい。また、コンポジット記録部456では、プリミティブ情報がプリミティブ記録部454にある程度蓄積されなければ、コンポジットを抽出できないため、ある程度の時間の遅延が生じる。
また、データ管理部452は、プリミティブ記録部454及びコンポジット記録部456に記録されているプリミティブ情報及びコンポジット情報を読み出し、通信部451を用いて情報分析装置6及びアプリケーションサーバ7へ出力する。
図17は、図1に示す情報管理装置4において構築されるデータベースの階層構造を示す模式図である。上記の構成により、情報管理装置4において、観測情報を記録するローデータ層が各クライアントコンピュータ42〜44のローデータ記録部413から構成され、観測情報より抽象度の高いセグメンテーション情報を記録するセグメンテーション層がセグメンテーション記録部415から構成され、セグメンテーション情報より抽象度の高いプリミティブ情報を記録するプリミティブ層がデータ管理用サーバ45のプリミティブ記録部454から構成され、プリミティブ情報より抽象度の高いコンポジット情報を記録するコンポジット層がコンポジット記録部456から構成される。
このように、情報管理装置4では、記録される情報の抽象度に応じて各情報が階層的に管理され、観測データからボトムアップ的に解釈の抽象化が行われ、データベースに上位レイヤとして記録される。
また、人間の発話や注視といった個々の動作状態が識別され、さらにそれらの情報同士がつき合わされ、インタラクションの掛かり受け構造が発見されていく。ここで、「見る」や「話しかける」といった動作状態は、ドメインに依存しにくくインタラクションの基本単位に相当する普遍的要素となるので、上記のように、インタラクションのプリミティブと呼ぶ。
さらに、「共同注視」や「グループ討論」といったプリミティブの組み合わせから構成されるインタラクションが、上位のコンポジット層となり、上位の解釈を行うためには、時空間的に幅の広いデータを参照することになるため、より下位の解釈ほど逐次的に解釈を進めることが可能になっている。このコンポジット層で解釈されるインタラクションは、適用するドメインに依存する傾向が下位レイヤに比べて強い。これは、ドメインによく観測されるインタラクションをトップダウンで予め決定してしまうことによる。
図18は、図1に示す情報分析装置6の構成を示すブロック図である。図18に示す情報分析装置6は、入力部61、情報抽出部62、通信部63、指標算出部64及び表示部65を備える。入力部61は、マウス、キーボード等から構成され、ユーザが種々の入力を行うために使用され、情報抽出部62及び指標算出部64は、CPUが後述する情報分析プログラムを実行することにより実現され、通信部63は、無線及び有線の通信インターフェースボード等から構成され、表示部65は、液晶表示装置等から構成され、種々の操作画面、シーンスコアリング画面等を表示する。
入力部61は、ユーザがシーンスコアリング画面のスコアの対象者となる主オブジェクトとして、例えば、自身のID番号を入力すると、入力されたID番号のシーンスコアリング画面を作成するように情報抽出部62に指示する。
情報抽出部62は、通信部63を用いて、データ管理用サーバ45から当該ID番号に対応付けられているすべてのコンポジット情報を抽出するとともに、抽出した各コンポジット情報を構成するすべてのプリミティブ情報を抽出して指標算出部64へ出力する。
指標算出部64は、抽出されたコンポジット情報及びプリミティブ情報に含まれる開始時間及び終了時間等を基に、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合を算出する。
また、指標算出部64は、抽出されたコンポジット情報に含まれる開始時間及び終了時間等を基に、主オブジェクトが関与したすべてのコンポジット情報の総継続時間に対する主オブジェクトが関与した各コンポジット情報の継続時間の単位時間当たりの割合を表すコンポジット情報割合を算出する。また、指標算出部64は、抽出されたプリミティブ情報に含まれる開始時間及び終了時間等を基に、主オブジェクトが関与したすべてのプリミティブ情報の単位時間当たりの発生量を表すプリミティブ情報発生量を算出する。さらに、指標算出部64は、抽出されたプリミティブ情報のうち「TALK TO」が格納されている発話プリミティブ情報に含まれる開始時間及び終了時間等を基に、主オブジェクトが関与したすべての発話プリミティブ情報の単位時間当たりの発生量を表す発話プリミティブ情報発生量を算出する。
表示部65は、指標算出部64により算出されたプリミティブ情報割合、コンポジット情報割合、プリミティブ情報発生量及び発話プリミティブ情報発生量を観測時間軸上に表示するシーンスコアリング画面を表示する。
本実施の形態では、情報分析装置6が情報分析装置の一例に相当し、データ管理用サーバ45が記録手段の一例に相当し、入力部61が受付手段の一例に相当し、情報抽出部62が抽出手段の一例に相当し、指標算出部64が算出手段の一例に相当し、表示部65が表示手段の一例に相当する。
次に、上記のように構成された情報管理システムの情報管理装置4による情報管理処理について説明する。図19は、図1に示す情報管理装置4の情報管理処理を説明するためのフローチャートである。なお、図19に示す情報管理処理は、クライアントコンピュータ42〜44及びデータ管理用サーバ45が予め記録されている情報管理プログラムを実行することにより行われる処理である。
まず、ステップS11において、クライアントコンピュータ42〜44のデータ管理部412は、観測情報として、画像処理装置114から出力されるID番号及びXY座標及び音声処理回路141から出力される音声データを、通信部411を介して取得する。
次に、ステップS12において、データ管理部412は、観測情報として、ID番号及びXY座標を取得時間とともにローデータ記録部413のトラッカーテーブルに記録させ、音声データから発話の開始時間及び終了時間を特定し、特定した発話の開始時間及び終了時間をローデータ記録部413のボイステーブルに記録させる。
次に、ステップS13において、セグメンテーション処理部414は、ローデータ記録部413のトラッカーテーブル等から取得時間を読み出し、オブジェクトごとに取得間隔が最大間隔以下の観測情報をクラスタリングしてセグメンテーション情報を作成し、作成したセグメンテーション情報をセグメンテーション記録部415のルックテーブル及びトークテーブルに記録させる。
次に、ステップS14において、セグメンテーション処理部414は、クラスタ区間が確定したか否かすなわち現在の時間と人間用観測装置1等から視覚情報が得られた時間との差が最大間隔以上になったか否かを判断し、クラスタ区間が確定していない場合はステップS11以降の処理を繰り返し、クラスタ区間が確定した場合はステップS15へ処理を移行する。
クラスタ区間が確定した場、ステップS15において、セグメンテーション処理部414は、ルックテーブルの「finalize」を“1”(真)に設定し、その時間を「end」に格納してセグメンテーション情報をファイナライズする。
次に、ステップS16において、データ管理用サーバ45のデータ管理部452は、通信部451及び通信部411を介してデータ管理部412に対してセグメンテーション記録部415のセグメンテーション情報を送信するように要求し、送信されたセグメンテーション情報をプリミティブ処理部453へ出力する。プリミティブ処理部453は、図12に示す決定木に従ってセグメンテーション情報から2つのオブジェクト間のプリミティブを推定する。
次に、ステップS17において、プリミティブ処理部453は、推定した2つのオブジェクト間のプリミティブを特定するためのプリミティブ情報をプリミティブ記録部454のステータステーブルに記録する。
次に、ステップS18において、コンポジット処理部455は、プリミティブ記録部454に記録されている2つのオブジェクト間のプリミティブ情報に関して時間及び空間の重なりを調べてコンポジットを順次抽出し、抽出したコンポジットが確定したか否かすなわちコンポジットとして予め設定されている抽出条件を満たすか否かを判断し、コンポジットが確定していない場合はステップS11以降の処理を繰り返し、コンポジットが確定した場合はステップS19へ処理を移行する。
コンポジットが確定した場合、ステップS19において、コンポジット処理部455は、確定したコンポジットを特定するためのコンポジット情報をコンポジット記録部456のコンポジットネームテーブル及びコンポジットテーブルに記録し、その後、ステップS11以降の処理を継続する。
上記の処理により、情報の抽象度に応じて各観測情報が階層的に記録されるので、アプリケーションの特徴に応じてアクセスする階層を選択することができ、即時性の高い情報を用いるアプリケーションに対して下位の記録層から即時性の高い情報を提供することができるとともに、抽象性の高い情報を用いるアプリケーションに対して上位の記録層から抽象性の高い情報を提供することができ、種々のアプリケーションに対して適切な情報を適切なタイミングで提供することができる。
例えば、アプリケーションサーバ5は、各クライアントコンピュータ42〜44のセグメンテーション記録部415にアクセスしてセグメンテーション情報を読み出し、「finalize」が“0”(偽)のデータを有する人間のヘッドマウントディスプレイ161に各ブースの盛況情報や人に関する情報等を時間的な遅延なしに表示して提示することができる。
さらに、アプリケーションサーバ7は、各クライアントコンピュータ42〜44のセグメンテーション記録部415にアクセスしてセグメンテーション情報を読み出し、「finalize」が“0”(偽)のデータを有する人間を時間的な遅延なしに抽出するとともに、データ管理用サーバ45のプリミティブ記録部454にアクセスして、抽出した人間のプリミティブ情報を読み出してこれまでの行動履歴を取得し、この行動履歴等に基づいてロボット型観測装置3が人間とのプリミティブを積極的に演出するようにロボット型観測装置3の動作を制御することができる。
また、本実施の形態では、ローデータ記録部413及びセグメンテーション記録部415を各クライアントコンピュータ42〜44に実装してローデータ情報及びセグメンテーション情報に関する処理を各クライアントコンピュータ42〜44で実行し、プリミティブ記録部454及びコンポジット記録部456をデータ管理用サーバ45に実装してプリミティブ情報及びコンポジット情報に関する処理をデータ管理用サーバ45で実行しているので、データ管理用サーバ45の負荷を軽減することができるとともに、情報管理装置4へのアクセスに伴うネットワークのトラフィック量を低減することができる。
なお、上記の説明では、ローデータ情報及びセグメンテーション情報に関する処理とプリミティブ情報及びコンポジット情報に関する処理とを分散して実行しているが、この例に特に限定されず、一つのコンピュータで全ての処理を実行したり、各情報ごとに異なるコンピュータで実行する等の種々の変更が可能である。
次に、上記のように構成された情報管理システムの情報分析装置6による情報分析処理について説明する。図20は、図1に示す情報分析装置6の情報分析処理を説明するためのフローチャートである。なお、図20に示す情報分析処理は、情報分析装置6が予め記録されている情報分析プログラムを実行することにより行われる処理である。
まず、ユーザがシーンスコアリング画面の対象者となる主オブジェクトのID番号及び表示時間帯を入力すると、ステップS21において、情報分析装置6の入力部61は、入力されたID番号及び表示時間帯を取得し、入力された表示時間帯の観測情報を用いて、当該ID番号を有するオブジェクトを主オブジェクトとするシーンスコアリング画面を作成するように情報抽出部62に指示する。
ここで、本実施の形態に使用されるシーンスコアについて説明する。本実施の形態では、ビデオのシーンをコンポジットに対応させ、シーン長をコンポジット継続長とし、解釈されたインタラクションによってビデオシーンを評価するための各スコアとして、下記のスコアを用いている。なお、以下の説明では、上記のようにして、体験記録等に参加した中から任意のユーザが選択され(例えば、後述の体験日記オーサリングの制作を行うユーザ)、当該ユーザの参与した全てのコンポジットの集合をScとする。
第1スコア(コンポジット情報割合)は、Scに含まれる全コンポジットの総時間長に対して、Sc中の各コンポジットの継続時間長の占める割合(単位時間当たり)であり、第2スコア(プリミティブ情報発生量)は、Scに含まれる全てのコンポジットに包含される全プリミティブの、単位時間当たりの発生量であり、第3スコア(プリミティブ情報割合)は、Scに含まれる各コンポジットにおいて、継続時間長に対する、当該ユーザの参与するプリミティブの継続時間長の占める割合(単位時間当たり)であり、第4スコア(発話プリミティブ情報発生量)は、Scに含まれる全てのコンポジットに包含される発話プリミティブの、単位時間当たりの発生量である。
第1スコアは、体験時間に対して参与コンポジットの長さを相対的に評価したものであり、絶対体験時間の長短による影響を取り除いた上でコンポジット長を示すようになっている。それに対して、第3スコアは、参与したコンポジットであっても、実際にプリミティブの長さを調べ、参与割合を算出するものであり、例えば、長いディスカッションに参与していても、発言時間がごく短かった場合に、低いスコアとなる。また、プリミティブ層でのインタラクションの量を見るための指標が第2スコアである。そして、第4スコアは、プリミティブのうち発話量に焦点を絞ったものであり、第2スコアのサブセットである。
次に、ステップS22において、情報抽出部62は、通信部63を用いて、データ管理用サーバ45から当該ID番号に対応付けられているすべてのコンポジット情報を抽出するとともに、抽出した各コンポジット情報を構成するすべてのプリミティブ情報を抽出する。
次に、ステップS23において、指標算出部64は、抽出したコンポジット情報の開始時間及び終了時間等を基に、主オブジェクトが関与したすべてのコンポジット情報の総継続時間に対する主オブジェクトが関与した各コンポジット情報の継続時間の単位時間当たりの割合を表すコンポジット情報割合を算出する。
次に、ステップS24において、指標算出部64は、抽出したプリミティブ情報の開始時間及び終了時間等を基に、主オブジェクトが関与したすべてのプリミティブ情報の単位時間当たりの発生量を表すプリミティブ情報発生量を算出する。
次に、ステップS25において、指標算出部64は、抽出したコンポジット情報及びプリミティブ情報の開始時間及び終了時間等を基に、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合を算出する。
次に、ステップS26において、指標算出部64は、抽出したプリミティブ情報のうち「TALK TO」が格納されている発話プリミティブ情報の開始時間及び終了時間等を基に、主オブジェクトが関与したすべての発話プリミティブ情報の単位時間当たりの発生量を表す発話プリミティブ情報発生量を算出する。
次に、ステップS27において、指標算出部64は、算出したコンポジット情報割合、プリミティブ情報発生量、プリミティブ情報割合及び発話プリミティブ情報を用いてシーンスコアリング画面を作成して表示部65に表示させる。このとき、指標算出部64は、AVファイルサーバ8の映像データ等を読み出して各プリミティブ及びコンポジットのビデオサムネイルなどの表示用データ等を作成する。
次に、ステップ28において、指標算出部64は、入力部61を用いてユーザがシーンスコアリング画面に対して操作入力を行ったか否かを判断し、操作入力があった場合は、ステップS29において、操作入力に対応する処理を実行してシーンスコアリング画面を更新し、その後、ステップS28以降の処理を継続する。
図21は、シーンスコアリング画面の一例を示す図であり、図22は、図21に示すスコアグラフの拡大図である。図21において、シーンスコアリング画面の左下側の領域SCは、シーンスコアの表示部分であり、図22に示す領域CR、PO、RR、TRが各シーンスコアの表示部分であり、かつタイムスライダTSとしての機能も実装されている。図21に示すシーンスコアの上部の領域SGには、タイムスライダTSのプレイヘッド(スライダカーソル)が指し示している時刻に掛かるシーン(コンポジットに等価)を構成するビデオサムネイルが表示される。タイムスライダTSの位置が移動されれば、表示されるビデオサムネイルの内容も逐次的に更新される。
また、図21に示す領域CPは、領域SGに表示されたビデオサムネイルを一時的に置いておくパレットになっており、日記に採用しようと思うシーン候補をリストすることができる。さらに、右半分の領域VS及び領域TAは、日記の制作スペースであり、そのまま完成した日記の表示部分としても役割も兼ねるものであり、左側の領域VSは、選択したシーンのビデオサムネイルを表示するエリアであり、右側の領域TAは、テキストエリアであり、ユーザが自由にアノテーションを書き込める。
領域VSのビデオサムネイルは、候補パレットの領域CPからドラッグアンドドロップで持ってくることができ、その際には、シーンに対応するコンポジットを参照し、自動的に生成されたアノテーションが表示されるようになっている。また、候補パレットの領域CP及び日記スペースの領域VSのビデオサムネイルは、消去やコピーをサポートしている。
図22に示すように、シーンスコアのグラフ表示している領域CR、PO、RR、TRでは、タイムスライダTSをポインティングデバイス等でスクラブすることができる。タイムスライダTSのプレイヘッドを表すヘアラインカーソルは、全てのスコアグラフを貫いて表示され、各グラフの横軸は観測時間軸を示し、縦軸は各スコアに従って百分率など適当な尺度で表示されている。
図22中の各グラフは、上からそれぞれ第1スコア、第2スコア、第3スコア、第4スコアの順に並んでいる。タイムスライダTSを左右にスクラブすると、上部のビデオサムネイルが逐次更新され、プレイヘッドに応じたシーンのビデオサムネイルをパラパラマンガ風表示により確認することができる。また、日記スペースの領域VSに表示されたビデオサムネイルをポインティングデバイスによってダブルクリックすると、サムネイル表示ではなく、ビデオが再生され、音声とともに視聴できる。
このようなシーンスコアを援用したシナリオとしては、例えば、展示会の体験記録後に、自分が質問をしたのは、いつ、どのブースだったろうか、さらにはどんな内容を質問してどのような回答を得たのかを、第2スコアのグラフを参照しながら探索したり、今日のミーティングでは、色々な人と議論したが、実際に自分は積極的に加わっていたのかを調べたい場合、第3スコアのグラフのピークにあたるシーンを中心にして議事録的に日記を構成することができる。
上記のような利点により、原体験を記録したビデオを材料として用い、特定の目的に沿ってビデオのシーンを構成し、日記風の形式として制作する体験日記オーサリングを容易に行うことができる。したがって、ある時間長を有するビデオ映像から一定時間おきにビデオフレームを抽出してパラパラマンガ風にアニメーションするビデオサムネイルに自動変換し、これを日記制作者の手で一次元的に並べ、各間欠ビデオに沿って日記制作者自身により感想やコメントなどをテキスト情報として入力することができる。
このように、日記を構成するのは、あくまでも日記制作者に任せ、その制作過程を支援するため、AVファイルサーバ8等から得られる一人称視点を含むビデオリソースの中から、日記のために使用するシーンを探索しようとする際に手掛かりとなりうる各シーンのスコア群(インタラクションの生起状況に由来する)を提示する。日記制作者は、このスコア群を参考にすることにより、あらかじめシーンに人手でインデクスを割り当てることもなく、原体験における様々なインタラクションの生起状況を反映したスコアを参照することができ、膨大なビデオリソースの中から効率的にシーンを選択して日記を容易に構成することができる。
上記の処理により、本実施の形態では、主オブジェクトが関与したすべてのコンポジット情報が抽出されるとともに、抽出された各コンポジット情報を構成するすべてのプリミティブ情報が抽出され、主オブジェクトが関与したすべてのコンポジット情報の総継続時間に対する主オブジェクトが関与した各コンポジット情報の継続時間の単位時間当たりの割合を表すコンポジット情報割合と、主オブジェクトが関与したすべてのプリミティブ情報の単位時間当たりの発生量を表すプリミティブ情報発生量と、主オブジェクトが関与した各コンポジット情報の継続時間に対する当該コンポジット情報を構成し且つ主オブジェクトが関与した各プリミティブ情報の継続時間の単位時間当たりの割合を表すプリミティブ情報割合と、主オブジェクトが関与したすべての発話プリミティブ情報の単位時間当たりの発生量を表す発話プリミティブ情報発生量とが算出され、算出されたコンポジット情報割合、プリミティブ情報発生量、プリミティブ情報割合及び発話プリミティブ情報を観測時間が特定可能なように可視的に表示するシーンスコアリング画面が表示されるので、表示されたコンポジット情報割合、プリミティブ情報発生量、プリミティブ情報割合及び発話プリミティブ情報を基準に主オブジェクトにとって重要な観測情報がどの観測時刻の情報かを容易に知ることができるので、プリミティブ情報割合は、主オブジェクトにとって重要な観測情報を抽出するための適切な指標となる。この結果、複数のオブジェクトを観測した観測情報の中から任意のオブジェクトにとって重要な観測情報を抽出するための適切な指標を自動的に表示することができる。
なお、本実施の形態では、データ管理用サーバ45に蓄積したプリミティブ情報及びコンポジット情報を用いて、コンポジット情報割合等を表示したが、プリミティブ情報及びコンポジット情報の取得方法はこの例に特に限定されず、所定のネットワークを介して接続可能なデータサーバ等に蓄積されたプリミティブ情報及びコンポジット情報を用いてもよい。また、コンポジット情報割合等の表示形態も、上記の例に特に限定されず、種々の変更が可能である。