JP2006228150A

JP2006228150A - インタラクションデータ抽出装置

Info

Publication number: JP2006228150A
Application number: JP2005044631A
Authority: JP
Inventors: Tomoyuki Morita; 友幸森田; Kenji Mase; 健二間瀬
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-02-21
Filing date: 2005-02-21
Publication date: 2006-08-31
Anticipated expiration: 2025-02-21
Also published as: JP4604225B2

Abstract

【課題】この発明は、センサ群から得られたデータを元に作成されたインタラクション・コーパスの中で、重要なインタラクションのパターンを抽出することを目的とする。
【解決手段】この発明のインタラクションデータ抽出装置は、インタラクションデータを格納する記憶データベース３と、記憶データベース３に格納されたインタラクションデータからパターンのモデル化を行いインタラクションのパターンを抽出するインタラクション抽出手段６と、このインタラクション抽出手段６から抽出されたパターンの集合の情報に基づき分析対象とするデータの「特異さ」に応じてインタラクションデータの重要度を評価するインタラクション評価手段７と、を備え、インタラクション評価手段７から得られた「特異さ」に基づき、インタラクションデータの特徴的パターンを抽出する。
【選択図】図１

Description

この発明は、インタラクションデータ抽出装置、特にインタラクション・コーパスのパターン抽出に関するものである。

人が装着するウェアラブルセンサセットに加えて、環境に偏在するセンサ群を利用して、映像、音声、注視状況といった情報を複合的に観測し蓄積することでインタラクションのコーパス（インタラクション・コーパス）を構築する試みが進められている。また、センサ群を利用してデータを蓄積するだけでは再利用性に乏しいため、人のインタラクションの構造を体系化し、記録された生データに対してインデックスをつけることで、さらに可用性の高いコーパスとして構築する試みがなされている。

これらの試みにおいて、インデックスを付与する対象となるインタラクションの種類の選別は設計者の直感に頼っている。このような方法は、人間にとって知覚しやすく直感的に重要と思えるものは選別できるが、そこで選んだものが重要なインタラクションを全て網羅しているかどうかなどを確かめる方法は存在せず、見落としや間違いが含まれる可能性がある。

近年、データを元に知識発見を行うデータマイニング手法が盛んに開発・利用されてきており、医療など様々な分野で専門家の全く想像できなかったような知識が発見されている。人と人、人と物のインタラクションを記録したデータに対してもそこにインタラクションを分析する上で重要な情報が記録されているならば、データを元にインタラクションに関する知識を発見することが可能であり有用である。

データマイニングの分野では「サポート」又は「サポート率」と呼ばれる指標が利用される（例えば、非特許文献１参照）。サポートは基本的には全体の数と対象の数の比である。

パターンの評価にサポートを用いるとすれば、パターンＡのサポート＝（パターンＡに含まれるエピソード数）／（抽出された全エピソード数）、又はパターンＡのサポート＝（パターンＡに含まれるエピソードの合計発生時間）／（抽出された全エピソードの合計発生時間）、という２種類の評価手法が考えられる。
宮下真一、宮野悟、「発見科学とデータマイニング」、ｂｉｔ別冊、共立出版（２０００）

上記したデータマイニングの手法は、実質的に対象パターンの発生数もしくは発生時間を比較するためにしか用いることができない。基本的に多く発生するパターンほど重要であろうと考えられるが、単純に数や時間でそのパターンの重要さを測定することは適切でない場合も多い。例えば、観測されうる各事象の確率が異なるような場合には、観測された事象の数量だけでその事象の重要さを測るのは適切でない。

そこで、この発明は、センサ群から得られたデータを元に作成されたインタラクション・コーパスの中で、注視及び発話の区間を記録した低レベル層のデータを解析することにより、重要なインタラクションのパターンを抽出することを目的とする。

この発明のインタラクションデータ抽出装置は、インタラクションデータを格納する記憶手段と、この記憶手段に格納されたインタラクションデータからパターンのモデル化を行いインタラクションのパターンを抽出するインタラクション抽出手段と、このインタラクション抽出手段から抽出されたパターンの集合の情報に基づき分析対象とするデータの「特異さ」に応じてインタラクションデータの重要度を評価するインタラクション評価手段と、を備え、前記インタラクション評価手段から得られた「特異さ」に基づき、インタラクションデータの特徴的パターンを抽出することを特徴とする。

また、観察者が装着し、視野内に入った対象物の認識を行い前記記憶手段にインタラクションデータを与える観察者観測センサと、この観察者観測センサによる観測時に、前記人間のインタラクションを観察者観測センサとは異なる視点から観測したインタラクションデータを前記記憶手段に与える物体観測センサと、前記両センサからのデータに時間情報を付加する時間情報付与手段と、を備えるように構成することができる。

また、前記記憶手段にインタラクションの解釈の抽象度に合わせて階層構造でインタラクション・コーパスが格納され、最上層の階層に上記「特異さ」により評価されたデータを格納するとよい。

また、前記インタラクション抽出手段は、得られたエピソードの集合をモデルに変換し、互いに同型性を判定し、同型のエピソードを集合として纏めるように構成することができる。

また、前記インタラクション評価手段は、パターンを構成する可能性のあるイベントの組み合わせ全てについてその確率を求め、それらの和を求めてそのパターンの発生確率を求め、その確率に観測の総時間をかけることでパターンの発生期待量を算出するように構成すればよい。

この発明によれば、「特異さ」という評価パターンを用いることで、インタラクション・コーパスから重要なデータを容易に抽出することができる。また、パターンの評価基準として用いた「特異さ」という尺度を発生回数、発生時間、サポート率と比較して有効であり、インタラクション・コーパスで現在用いられているＣｏｍｐｏｓｉｔｅと見出されたパターンの比較を行い、この方法により見逃されていた重要なパターンがあることが分かった。

従って、この発明によれば、重要なパターンを確実且つ容易にデータマイニングすることができる。

この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付し、説明の重複を避けるためにその説明は繰返さない。

図１はこの発明の実施形態にかかるデータベース抽出装置の構成を示すブロック図である。図１に示すように、この抽出装置は、観察者観測センサ１、物体観測センサ２、記録データベース３、インタラクションデータに時間情報等を付与するための時間情報付与手段４、階層判別手段５、インタラクション抽出手段６、インタラクション・パターン評価手段７、システムを制御する制御手段８、情報を表示するデータ表示部９を備える。なお、インタラクションデータに時間情報等を付与するための時間情報付与手段４、階層判別手段５、インタラクション抽出手段６、インタラクション・パターン評価手段７、システムを制御する制御手段８は、この実施形態では、独立のブロックとして記載しているが、パーソナルコンピュータなどを用いて、それぞれの機能を有するようにプログラムすることで、各構成を達成するように構成しても良い。

インタラクション・コーパスは、人と人、人と物のインタラクションを記録し分析することを目的として開発がなされている。

この実施形態においては、インストラクションの記録のために、観察者観測センサ１、物体観測センサ２を用いる。観察者観測センサ１は、観察者が装着するためのウェアブルなヘッドセンサタイプで構成され、また、物体観測センサ２は、環境設置型の据え置きタイプで構成される。

観察者観測センサ１は、視野内に入った対象物の認識を行うために、赤外線ＩＤタグシステムを使用している。赤外線ＩＤタグシステムは、赤外線ＩＤタグ（以下、ＩＲタグという。）と赤外線ＩＤセンサ（以下、ＩＲトラッカという。）とで構成され、赤外線ＬＥＤの点滅パターンによって固有のＩＤを発信できるＩＲタグを認識対象に取り付け、それを認識するＩＲトラッカを観察者の顔の向きに一致させて装着することで、視野内のどこに何が存在しているかを記録することができる。さらに、観察者観測センサ１には、発話の検出および記録のためにマイクを用いている。マイクは、例えば、近接用マイクで構成され、この近接マイクにより、発話の検出等を行う。発話区間の検出は、マイク入力のボリュームを閾値処理することに行われる。なお、環境音の影響が大きいときには、声帯の振動から発話のボリュームが測定できるスローとマイクを用いることもできる。

また、観察者観測センサ１には、ＩＲタグに近接して撮影用カメラが設置され、装着者の視界を記録し、その映像中で何がどこにあるのか大まかに把握できるように構成されている。

一方、物体観測センサ２も上記した観察者観測センサのマイク以外の構成を備え、物体の所定箇所にそれぞれの構成部品が装着されている。

両観測センサ１、２から得られたデータは、記録用データベース３に与えられ、蓄えられる。記録用データベース３に与えられるデータには、両観測センサ１，２からのインタラクションデータを統合的に利用するために、時間的同期がとられている。このために、時間情報付与手段４により、各インタラクションデータを記録用データベース３に格納する前に、リアルタイムで入力される各インタラクションデータに時間情報を付与して時間的な同期を取っている。このようにして、各インタラクションデータの観測時刻を特定できるので、一つのインタラクションデータにおける他のインタラクションデータを容易に特定することができ、各インタラクションデータの統合利用が可能となるとともに、各インタラクションデータの発生時間等を把握することができる。

なお、時間的な同期を取る方法は、上記の例に限らず、種々の方法がある。例えば、各観測センサ１，２が独立した内部クロックを持ち、所定の同期信号を基準としてオフセットを調整するようにしても良い。

ところで、インタラクション・コーパスは、図２に示すように、インタラクションの解釈の抽象度に合わせて４階層の階層構造を持っている。各層は一つ下の階層データを統合して、より抽象度の高いデータを記録している。各階層は、階層判別手段５によりインタラクションの解釈の抽象度に応じて判別され、その判別された結果に基づき階層データとして記録用データベース３に格納される。

まず、最下層のＲａｗＤａｔａ層には、各観察装置１，２から得られた断続的な生のデータが時刻と観測値の組という形式で記録用データベース３に格納される。このため、記録用データベース３は、観測センサ１，２より得られるデータに時間情報を付加したデータを格納する領域、階層判別手段５により判別された階層に基づいた階層データを格納する領域を有する。

第２階層であるＳｅｇｍｅｎｔａｔｉｏｎ層は、ＲａｗＤａｔａ層の生データに対して、階層判別手段５が時間でクラスタリングを行い、複数の連続区間に結合・分割することで、動作主体が注視と発話を行っていた区間を推定して記録用データベース３に記録する。第３階層であるＰｒｉｍｉｔｉｖｅ層は、階層判別手段５がＳｅｇｍｅｎｔａｔｉｏｎ層のデータを統合して、図３に示すような人のインタラクションの基本単位となる情報を記録データベース３に格納する。最上位階層であるＣｏｍｐｏｓｉｔｉｖｅ層は、階層判別手段５がＰｒｉｍｉｔｉｖｅ層のデータを統合し、「討論」「質疑応答」といった各ドメインに依存する複合的なインタラクション（Ｃｏｍｐｏｓｉｔｅ）の情報を記録データベース３に格納する。この発明では、この階層に後述するように「特異さ」というパラメータを更に付加する。

この発明は、上記した記録データベース３に格納されたインタラクションの中から重要と思われるインタラクション・パターンを抽出するものである。この抽出する方法として、以下に述べるように、各パターンの総発生量と発生期待値（パターンの発生量の期待値）の比（「特異さ」という）を用いて抽出する。

インタラクションは、同時発生的もしくは時系列的に起こる複数の出来事の集合と見ることができる。この明細書の説明において、個々の出来事をイベントと呼び、複数のイベントの集合をエピソードと呼ぶこととする。また、個々の人間やもの等を総称してオブジェクトと呼ぶ。インタラクションは、複数のオブジェクトがイベントを介して関連しているエピソードである。

実世界で起こっている様々なインタラクションには、パターンがあると言える。例えば、「人物Ａが人物Ｂに何かを話す」というインタラクションも日常の中でよく起こるパターンである。このようなパターンのことをインタラクション・パターンと定義することにする。インタラクション・パターンは、イベント群の発生パターンとして観測される。この発明は、イベント群の中からパターンを抽出し、インタラクション・パターンを見出すことである。上述したように、インタラクション・パターンには、同時発生的なものと時系列的なものとがあるが、この実施形態では、同時発生的なものについて抽出することを対象としている。

インタラクションを構成する要素として、「見る」および「発話する」という２種類の行動が特に重要と考え、また、インタラクション・コーパスにおいてもこれら２種類の行動の情報が利用できるので、この実施形態では、これらをインタラクション・パターンを構成するイベントとして使用する。なお、「見る」というイベントを「ＬＯＯＫイベント」（又は、単に「ＬＯＯＫ」）、「発話する」というイベントを「ＳＰＥＡＫイベント」（又は、単に「ＳＰＥＡＫ」）ということにする。

インタラクション・コーパス上では、ＬＯＯＫイベントおよびＳＰＥＡＫイベントは、その行動の主体、行動の開始時刻および終了時刻を持つ。さらに、ＬＯＯＫイベントのみそれらに加えて客体の情報を持つ。

インタラクション・パターンを抽出するために、パターンのモデル化を行っている。同時発生的なパターンを扱うために、モデルは同時刻に発生しているイベントの集合を表現できるものでなければならない。また、この実施形態では、同時発生という状況を対象としているので、イベントの開始および終了時刻、発生順序などの情報は必要ない。そこで、この実施形態では、以下のように、有向グラフとしてモデル化する。すなわち、オブジェクトをノード（節点）、ＬＯＯＫイベントを始点が主体、終点が客体である有向エッジ（辺）とし、ＳＰＥＡＫイベントを始点および終点が主体である有向エッジ（自己ループ）とする有向グラフとして考えている。各エッジはイベントの属性（ＬＯＯＫ又はＳＰＥＡＫ）を持ち、各ノードはオブジェクトの属性（ＨＵＭＡＮ、ＤＩＳＰＬＡＹなど）を持つ。なお、見やすさのために図中では自己ループをノードにハッチングを施すことで表現している。例えば、「人物Ａが人物Ｂを見て発話する」というパターンは図４のように表現され、また、このパターンは、インタラクション・コーパス上では図５のように現れる。

次に、このモデルに定義を与える。辺の属性の集合をＰｅ、ノードの属性の集合をＰｎとすると、このモデルＧは、ノードの集合Ｖ、辺の集合Ｅ、辺に２つのノードの対と属性を対応させる関数ｆ、ノードに属性を対応させる関数ｇの４項組（Ｖ，Ｅ，ｆ，ｇ）として定義される。各定義は次の通りである。

Ｐｎ：ノードの属性の集合
Ｐｅ：辺の属性の集合
Ｖ：ノードの集合
Ｅ：辺の集合
ｆ：Ｅ→Ｖ×Ｖ×Ｐｅ
ｇ：Ｖ→Ｐｎ
Ｇ：（Ｖ，Ｅ，ｆ，ｇ）
ここで、モデルＧ１とＧ２が同型であるとは、全単射θ：Ｖ（Ｇ１）→Ｖ（Ｇ２）、φ：Ｅ（Ｇ１）→Ｅ（Ｇ２）が存在して、すべてのｅ∈Ｅ（Ｇ１）に対して、ｆ（ｅ）＝｛ｕ，ｖ，ｐｅ｝Λｇ（ｅ）＝｛ｐｎ｝⇔ｆ（φ（ｅ））＝｛θ（ｕ），θ（ｖ），ｐ｝Λｇ（φ（ｅ））＝｛ｐｎ｝となる時とし、Ｇ１≡Ｇ２と示す。関係≡は明らかに反射律、対象律、推移律が成立し同値関係である。なお、エピソードＡおよびエピソードＢから作成されたモデルＧａおよびＧｂが同型であるとき、エピソードＡエピソードＢも同型であるという。

なお、この実施形態では、ＬＯＯＫおよびＳＰＥＡＫという２種類のイベントのみを用いているが、他のイベントの情報が利用可能であり重要であると考えられる場合には、主体および客体の両方の情報を持つイベント、例えば、「ＡがＢを触る」などは有向リンクとして、主体の情報のみを持つイベント、例えば「Ａが頷く」などは自己ループとして表現することでこの実施形態の手法を適用できる。また、どちらが主体でどちらが客体か断定できないイベント、例えば「ＡとＢが握手する」などの場合もあるが、この場合も２本のリンクとして表現すれば同様に適用できる。

記録データベース３に格納されたインタラクション・コーパス３のデータをインタラクション抽出手段６によりインストラクション・パターンの抽出を行う。この実施形態では、記録データベース３に格納したインタラクション・コーパスの第２階層（Ｓｅｇｍｅｎｔａｔｉｏｎ層）のデータを用いる。ここでは、同時発生しているイベントの考えられるすべての組み合わせを抽出し、前述したモデルで同型のものを集計する。ここでの操作は、全体としては、時間軸情報に基づき解析対象データの開始時刻から終了時刻まで走査しながら各時点でのイベントの組み合わせを全て抽出して行き、パターン毎の発生時間を合計することで対応できるが、この実施形態では、この方法と等価の次の方法で抽出を行う。

まず、インタラクション抽出手段６は、記録データベース３に格納された全イベント集合から、同時発生している部分集合（エピソード）を全て抽出する。ここで全ての部分集合を抽出するのは、実環境下では様々なイベントが同時に起こっており、インタラクション・パターンはその一部分として現れるであろうと考えられるからである。なお、「同時発生している」とは、そのエピソード中の全てのイベントが同時に起こっている瞬間が存在するということである。換言すれば、エピソード（Ｅｐｉｓｏｄｅ）中の全イベント（ｅ）の開始時間（ｅ．ｓｔａｒｔ）の最大値が終了時間（ｅ．ｅｎｄ）の最小値より小であるということである。図６に示す例では、イベントＡとイベントＢは同時発生しているが、イベントＡとイベントＣ、イベントＢとイベントＣは同時発生していない。

次に、インタラクション抽出手段６は得られたエピソードの集合を前述したモデルに変換し、互いに同型性を判定して行き、同型のエピソードを集合として纏める。この操作により、エピソードの集合は関係≡による同値類に分割される。各同値類はそれぞれ個別のインタラクション・パターンを表し、その要素はそのパターンで記述されるエピソードである。各エピソードに対して、次式を用いて持続時間Ｔ（Ｅｐｉｓｏｄｅ）を求める。

そして、求めた持続時間を同値類の全てのエピソードについて加算することにより、そのパターンの総発生時間Ｔ（ｐａｔｔｅｒｎ）を次式により求める。

次に、インタラクション抽出手段６で抽出したパターンの集合をインタラクション・パターン評価手段７でパターンの評価を行う。

得られたパターンの集合は、観測の対象としたデータ中で起こっていると考えられる全てのパターンを含んでいる。それらの中には、インタラクションを解釈する上で重要なものが含まれているが、偶然に発生した重要でないものも多量に含まれている。そこで、より重要なパターンを提示するために各パターンに評価を与える必要がある。

前述したように、データマイニングの分野では「サポート」又は「サポート率」と呼ばれる指標が利用される（例えば、非特許文献１参照）。サポートは基本的には全体の数と対象の数の比である。

パターンの評価にサポートを用いた手法は、実質的に対象パターンの発生数もしくは発生時間を比較するためにしか用いることができない。基本的に多く発生するパターンほど重要であろうと考えられるが、単純に数や時間でそのパターンの重要さを測定することは適切でない場合も多い。例えば、観測されうる各事象の確率が異なるような場合には、観測された事象の数量だけでその事象の重要さを測るのは適切でない。

この実施形態で対象とするインタラクション・パターンにおいても、パターンを構成するＬＯＯＫやＳＰＥＡＫは量的に偏っており、単純に発生量で比較してしまうと、多く発生しているイベントを含むパターンが重要であると認識されることになる。そこで、この発明では、分析対象とするデータ中での各イベントの量的偏りを考慮してランダムにイベントを発生した場合のあるパターンの発生量の期待値（ランダム系列における発生期待量）とそのパターンの実際の発生量との比を用いる。この比は実際に起こった量が偶然に起こるであろう量からどの程度偏っているかを表し、実際に起こった量が自然な状態から異なっているという意味からこの実施形態では「特異さ」と定義する。特異さは次のように表せる。

特異さ＝（実際の発生量）／（ランダム系列における発生期待量）
この「特異さ」の値が大きいほど、そのパターンの発生量は自然か状態から偏っており、重要なパターンであると考えられる。

そこで、この実施形態では、インタラクション・パターン評価手段７にパターン発生期待量算出手段７１を設け、パターン発生期待量を算出している。このパターン発生期待量算出手段７１が行う動作について説明する。

まず、パターン発生期待量算出手段７１は、各オブジェクト間での各イベント種別の総発生時間を求める。そして、イベントが時間的に均一に且つイベント間で独立の発生していると仮定した時のある瞬間にそのイベントが発生している確率（発生確率）を求める。特定のイベントの組み合わせの発生確率は、各イベントの発生確率の積で求められる。パターンを構成する可能性のあるイベントの組み合わせ全てについてその確率を求め、それらの和を求めるとそのパターンの発生確率が求められる。その確率に観測の総時間をかけることでパターンの発生期待量が求められる。

つぎに、上記パターンの発生期待量を求める例を更に説明する。全イベント集合は、各オブジェクト間のＬＯＯＫの有無を表す時刻ｔに関する関数（式（１））と、各オブジェクトのＳＰＥＡＫの有無を表す時刻ｔに関する関数（式（２））の集合は式（３）に示すように表せる。

また、ＬＯＯＫ（ｏａ→ｏｂ）が起こった総時間Ｔ（Ｌａ→ｂ）およびＳＰＥＡＫ（ｏａ）が起こった総時間Ｔ（ｓａ）は、観測の開始時間ｔ０と終了時間ｔ１を用いて式（４）、式（５）として表される。

時刻ｔにＬＯＯＫ（ｏａ→ｏｂ）が起こっている事象をＬｏａ→ｏｂ，ｔとし、時刻ｔにＳＰＥＡＫ（ｏａ）が起こっているという事象をＳａ，ｔとする。ＬＯＯＫ（ｏａ→ｏｂ）およびＳＰＥＡＫ（ｏａ）が時刻ｔ０からｔ１の間で均一に起こっていると考えると、時刻ｔにＬＯＯＫ（ｏａ→ｏｂ）が起こっている確率Ｐ（Ｌｏａ→ｏｂ，ｔ）および時刻ｔにＳＰＥＡＫ（ｏａ）が起こっている確率Ｐ（Ｓｏａ，ｔ）は次のように表せる（（６）（７））。

なお、全てのＬｏａ→ｏｂ，ｔおよびし、Ｓｏａ，ｔは互いに独立であるとしている。

ここで、Ｐ（Ｌｏａ→ｏｂ，ｔ）およびＰ（ｓａ，ｔ）は左辺にパラメタｔを含んでいるにも関わらず、右辺はｔの関数ではないが、これは各イベントが時間的に均一に発生していると仮定しているからで、本質的にはｔの関数となる。ここでは、ｔを省略してＰ（Ｌｏａ→ｏｂ）およびＰ（ｓａ）と記載する。

イベントの集合Ｅが構成するパターンのモデルをＭ（Ｅ）と表す。パターン（Ｐａｔｔｅｒｎ）は、そのモデルＰａｔｔｅｒｅｎ．Ｍｏｄｅｌを構成するイベントの集合（式（８））の考えられる全ての組み合わせの集合（式（９））である。

イベントの集合Ｅに含まれる全てのイベントが同時に起こる確率Ｐ（Ｅ）は、各イベントが起こる事象を独立と見なしているので、各イベントが起こる確率の積として以下の式（１０）のように表せる。

パターンＰａｔｔｅｒｎが時刻ｔに起こる確率Ｐ（Ｐａｔｔｅｒｎ）は、各パターンに含まれる各イベント集合のうちどれか起こっていればよいので、各イベントの起こる確率の和で表せる（式（１１））。

時刻ｔ０からｔ１の間にパターンＰａｔｔｅｒｎが発生している時間の合計の期待値（発生期待量）は、次のようになる（式（１２））。

ただし、Ｅ｛・｝は「・」の発生期待量を表す。

例として、人物Ａ，Ｂ，Ｃがいる時の図４に示すパターンの発生期待量を求める。このパターンを構成するイベントの組み合わせは、次の６種類である（式（１３））。よって、このパターンの発生期待量は、次のようになる（しき（１４））。

Ｐ（ＬＡ→Ｂ），Ｐ（ＬＡ→Ｃ）・・・，Ｐ（ＳＡ），Ｐ（ＳＢ），Ｐ（ＳＣ）は上述した確率の式で求められる。

上記した式に基づいて、パターン発生期待量算出手段７１は、パターンの発生期待量を求める。そして、インタラクション・パターン評価手段７は、ランダム系列における発生期待量を分母とし、インタラクショ抽出手段６より得られた実際の発生量を分子として、「特異さ」を算出する。この算出された「特異さ」は、インタラクション抽出手段６、システムを制御する制御手段８に与えられ、記録データベース３のデータに「特異さ」というデータを付加する。そして、制御手段８は、この「特異さ」に基づいて、パターンを抽出させ、そして、抽出した結果がデータ表示部９に表示される。

次に、この発明にかかるインタラクション・パターン評価について具体的な例に基づいて更に説明する。

図７に示すように、説明員２名、見学者３名の人物５名が参加し、２つの大型ディスプレイを用いて約１時間半の疑似ポスター展示会を行ったものである。人物５名は、ウェアラブルタイプの観察者観測センサ１を装着している。この観察者観測センサ１には、マイク、ＩＲタグ、ＩＲトラッカ、カメラを備えている。

また、ディスプレイ１０の中央部には、据え置きタイプの物体観測センサ２が取り付けられている。この物体観測センサ２にはＩＲタグ、ＩＲトラッカ、カメラを備えている。さらに、ディスプレイには、ＩＲタグ２１がそれぞれ画面の左右二箇所に取り付けられている。

各見学者は、自由に移動して２つの展示を見学し、各説明員はそれぞれ１枚ずつのディスプレイの横から移動せずに見学者に対して展示の説明を行う。

観察者観測センサ１、物体観測センサ２から無線通信などの手法により、記録データベース３に時間情報が付与された所望のデータが格納される。格納されたデータから構築されたインタラクション・コーパスのデータに対して、インタラクション抽出手段６、インタラクション・パターン評価手段７により、インタラクションパターンの抽出を行った。

得られたデータ中でのオブジェクトごとの各イベントの総発生時間及び総発生回数は、表１乃至表４のようになった。これら表において、Ｄ１、Ｄ２はそれぞれディスプレイ１０を表し、Ｈ１〜Ｈ５はそれぞれ人物を表しており、行方向が主体で列方向が客体である。例えば、人物Ｈ１から人物Ｈ３へのＬＯＯＫは６７回、合計３９８．８秒起こっている。

抽出されたパターンをパターンに関連するオブジェクトの数を２，３，４にそれぞれ限定した場合のパターン数、特異さを表５に示す。ここで”、特異さ＞１．０”は、特異さの値が１．０より大きかったパターンの数を示している。関連するオブジェクトの数が５以上のパターンに関しては、特異さの値が１を超えたものが存在しなかったため示していない。

上記の抽出したパターンのうち、上位５位までのパターンを図８ないし図１０に、それぞれのパターンについての発生回数、総発生時間、発生期待量および特異さの値を表６乃至表８に示す。なお、これら図にいて、ハッチングを施している人は発話している状態を示している。

各パターンは「関連するオブジェクト数−順位」で示している。例えば、オブジェクト数２の３位なら「２−３」という名前で示す。

抽出された各パターンの起きている時間のビデオ映像から大まかに何が起きているかを確認することにより、各パターンに解釈を与え、その結果を表９に示す。

オブジェクトの数が２のパターンは、インタラクションの最も基本的な構成要素を示している。パターン２−１、２−４、２−５は、会話において少なくとも一方が発話している状態、向き合っている状態、両方同時に発話している（クロストーク）状態を示しており、会話を記述するためには重要なパターンと考えられる。尚、パターンにおいて発話がないノードは、発話していないのではなく、そのノードの発話に関してはドントケアであることを意味している。これに関しては後述する。パターン２−２及び２−３は、人物がディスプレイを見ている状態と人物がディスプレイを見て発話している状態を示している。これは、説明者及び見学者はディスプレイを見ながら会話している時間が長いため重要なパターンとして抽出されており、展示会という場面で重要なパターンと考えられる。

オブジェクトの数が３のパターンは、展示会における基本的なパターンを示している。パターン３−１，３−２，３−３は説明員はディスプレイに背を向け見学者がディスプレイと説明員の両方を見ている状況での会話のパターンを示しており、展示会においてインタラクションの基本要素となるパターンであると考えられる。パターン３−４及び３−５は２名の人物がディスプレイを見ながら会話している状況でのパターンを示している。

オブジェクトの数が４のパターンは、基本的にはオブジェクトの数２のパターンと要素数３のパターンの複合パターンになっている。パターン４−１は３−１と２−２、パターン４−２は３−３−と２−２、パターン４−４は４−２と２−４が同時に起きているパターンである。

オブジェクト数が５以上のパターンは得られなかったが、これは見学者が３人であり、１つの展示に対して４人以上集まることがなかったためである。

「特異さ」という評価基準の妥当性について検討する。表１及び表２から、各イベントの発生量には大きな差があることが分かる。「特異さ」という評価基準は、各イベントの発生量を吸収するための基準である。

発生回数を評価指標として用いた場合、抽出される上位パターンは図１１に示すようになる。人間とディスプレイ間の注視回数が多いこと、発話は注視に比べて発生回数が多いことを理由にこれらのパターンが抽出されている。

総発生時間を評価指標として用いた場合、抽出される上位パターンは図１２に示すようになる。人間とディスプレイ間の注視回数が多いこと、発生時間においては発話は条件を絞るだけになることからこれらのパターンが抽出されている。サポート率を用いた場合に関しては、発生回数または発生時間を用いた場合と同等である。

発生回数、総発生時間のどちらを用いた場合も、関連するイベント数が比較的少ないパターンの方が条件が緩くなるため発生しやすくなり抽出されやすくなっている。これらは、イベントの偏りに大きく左右されており、また、関連にイベント数の少ないパターンほど抽出されやすいため好ましくない。サポート率に関しても発生回数または発生時間を用いた場合と同等であるので好ましくない。

一方、「特異さ」は、発生期待量で割ることでイベントの量的偏りを吸収しており、関連イベント数の大小に関しても偏り無くパターンを評価することが出来ている（図９参照）。特に、重要なのは、図１１（ａ）〜（ｃ）及び図１２（ａ）〜（ｃ）では人同士のＬＯＯＫを含むパターンが含まれていないが、図９（ａ）〜（ｃ）で含まれている点である。これは表１及び表３から分かるように、人同士のＬＯＯＫは人−ディスプレイ間のＬＯＯＫと比較して少ないため、当然それを含むパターンは数量的に多くは観察されにくいからである。また、表６乃至表８から特異さの値は総発生時間や発生回数とはあまり関係なく分布しており、関連イベント数やイベントの組み合わせによる元々の発生しやすさを吸収できていることが分かる。

但し、特異さの値は、関連オブジェクト数が２，３，４の時の値と比べると関連オブジェクト数に応じて指数関数的に増加するように見える。この性質により関連オブジェクト数の違うパターン同士の重要度を比較するためには用いることが出来ない。しかし、関連オブジェクト数に応じてそのパターンの粒度には大きな差があるように感じられ、関連オブジェクト数が違うパターン同士で重要度を比較する必要はないと考えられる。

現在、抽出されたパターンは単純に特異さの値が高いものから順に提示しているのみである。しかし、各パターンは独立ではなく包含関係がある。例えば、パターン２−１に分類されるエピソードの集合はパターン２−４に分類されるエピソードの集合の部分集合である。なぜなら、パターン２−１はパターン２−４に更に「少なくともどちらか一方が発話している」という条件を付加したパターンであるからである。

このような包含関係を元に、より制約の緩いパターンを上になるようグラフ形状で提示することにより、パターン間の関係が分かりやすくなるだろう。

上記実施形態により抽出されたパターンは、現在のインタラクション・コーパスにおいては、Ｃｏｍｐｏｓｉｔｅ層に含まれると考えられる。通常のインタラクション・コーパスでは、Ｃｏｍｐｏｓｉｔｅとして図１３に示すものが使用されている。これらはこの実施形態でのインタラクション・パターンのモデルでは、図１４のように表される。これらと実施例により抽出されたパターンとの比較を行う。

まず、オブジェクト数２のパターンについて見ると、パターン２−４にＣＯＬＯＯＫが現れている。また、パターン２−１はこれに一方の発話が加わったパターンであるが、これはＰｒｉｍｉｔｉｖｅ層のＴＡＬＫ＿ＴＯに近いと考える。ＴＡＬＫ＿ＴＯでは両方向のＬＯＯＫを規定していないが、それと同等のパターンは発生回数９１４回、発生時間６７１秒、特異さ１．０４と特異さが低い値を示しており重要ではないように見える。一方、パターン２−１はオブジェクト数２のパターンでは特異さの値が最も大きく、また互いに向き合って一方が発話するという状況は直感的にも重要だと考えられる。

オブジェクト数３のパターンでは、抽出されたパターンは上位では基本的にＣｏｍｐｏｓｉｔｅには無いものであった。パターン３−１〜３−３は、説明員と見学者とのやり取りの状態を表しており、全く予想されなかったが重要なパターンである。パターン３−４，３−５は、基本的にはＴＡＬＫ＿ＡＢＯＵＴの状態で、一方が他方に視線を送っている状態であると考える。一方、ＴＡＬＫ＿ＡＢＯＵＴと同等のパターンは発生回数７０４回、発生時間６９１．１２秒、特異さ６．５３、順位は９位であった。このパターンが上位に来なかったのは、説明員が２名、見学者が３名という状況で、説明員は基本的にディスプレイの横に立って見学者を見ている場合が多く、２人で同時にディスプレイを見て話すということが少なかったためと思われる。説明員を配置せず、複数の見学者に自由に展示物の見学をさせればＴＡＬＫ＿ＡＢＯＵＴが上位に来ると考えられる。ＬＯＯＫ＿ＷＩＴＨと同等のパターンは発生回数５６０回、発生時間２２６４秒、特異さ２．０６、順位は２９位であった。これもＴＡＬＫ＿ＡＢＯＵＴと同様であると考えられる。ＴＯＧＥＴＨＥＲ＿ＷＩＴＨ及びＪＯＩＮＴ＿ＡＴＴＥＮＴＩＯＮと同等のパターンは特異さが１に満たなかった。これは、これが単純な状態（そばにいる、同じものを見ている）を表しているパターンであり、このパターンが起こりやすくなる要因が存在しないため抽出されなかったと考えられる。

オブジェクト数４のパターンは、オブジェクト数３のパターンとオブジェクト数２のパターンの単純な組み合わせであり、重要ではないと考えられる。

以上のように、パターン２−１の表す２者間での会話のパターン、パターン３−１〜３−３の表す説明員と見学者での会話のパターン、パターン３−４，３−５の表すディスプレイを見ながら２者の会話のパターンの３種類のパターンがこの実施例で見いだした新たな重要なパターンであると考えられる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

この発明は、人と人、人と物のインタラクションについての分析、体系化に適用することができる。

この発明の実施形態にかかるデータベース抽出装置の構成を示すブロック図である。インタラクションの階層的モデルを示す説明図である。インタラクションのＰｒｉｍｉｔｉｖｅの例を示す模式図である。インタラクション・パターンの例を示す模式図である。インタラクション・コーパス中のデータを示す模式図である。この発明の実施形態にかかるインタラクション抽出手段における抽出アルゴリズムのイメージを示す図である。この発明の実施形態による動作を説明するための実験概要図である。この発明の実施形態にてオブジェクト数２の上位５パターンを示す模式図である。この発明の実施形態にてオブジェクト数３の上位５パターンを示す模式図である。この発明の実施形態にてオブジェクト数４の上位５パターンを示す模式図である。発生回数を評価基準に用いた場合の上位３パターンを示す模式図である。総発生時間を評価基準に用いた場合の上位３パターンを示す模式図である。通常の展示会のＣｏｍｐｏｓｉｔｅを示す模式図である。通常の展示会のＣｏｍｐｏｓｉｔｅのモデルを示す模式図である。

符号の説明

１観察者観測センサ１、２物体観測センサ２、３記録データベース、４時間情報付与手段、５階層判別手段、６インタラクション抽出手段、７インタラクション・パターン評価手段、８制御手段８、９データ表示部。

Claims

インタラクションデータを格納する記憶手段と、この記憶手段に格納されたインタラクションデータからパターンのモデル化を行いインタラクションのパターンを抽出するインタラクション抽出手段と、このインタラクション抽出手段から抽出されたパターンの集合の情報に基づき分析対象とするデータのパターンの発生期待量とそのパターンの比（以下、「特異さ」という）に応じてインタラクションデータの重要度を評価するインタラクション評価手段と、を備え、前記インタラクション評価手段から得られた「特異さ」に基づき、インタラクションデータの特徴的パターンを抽出することを特徴とするインタラクションデータ抽出装置。
観察者が装着し、視野内に入った対象物の認識を行い前記記憶手段にインタラクションデータを与える観察者観測センサと、この観察者観測センサによる観測時に、前記人間のインタラクションを観察者観測センサとは異なる視点から観測したインタラクションデータを前記記憶手段に与える物体観測センサと、前記両センサからのデータに時間情報を付加する時間情報付与手段と、を備えることを特徴とする請求項１に記載のインタラクションデータ抽出装置。
前記記憶手段にインタラクションの解釈の抽象度に合わせて階層構造でインタラクション・コーパスが格納され、最上層の階層に上記「特異さ」により評価されたデータが格納されることを特徴とする請求項１又は２に記載のインタラクションデータ抽出装置。
前記インタラクション抽出手段は、得られたエピソードの集合をモデルに変換し、互いに同型性を判定し、同型のエピソードを集合として纏めることを特徴とする請求項１又は２に記載のインタラクションデータ抽出装置。
前記インタラクション評価手段は、パターンを構成する可能性のあるイベントの組み合わせ全てについてその確率を求め、それらの和を求めてそのパターンの発生確率を求め、その確率に観測の総時間をかけることでパターンの発生期待量を算出することを特徴とする請求項１に記載のインタラクションデータ抽出装置。