JP2006227896A

JP2006227896A - 情報分析装置、情報分析方法およびプログラム

Info

Publication number: JP2006227896A
Application number: JP2005040667A
Authority: JP
Inventors: Hisafumi Yoshida; 尚史吉田; Atsushi Miyazaki; 宮崎　　淳
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-02-17
Filing date: 2005-02-17
Publication date: 2006-08-31
Also published as: US7599904B2; US20060184501A1

Abstract

【課題】同期して連続的に生成されるデータ群に対して効率的に分析を行うことができる情報分析装置を提供する。
【解決手段】情報分析装置１は、同期した複数のデータに基づき得られる第１のデータを対象として、相関ルール抽出で用いる支持度および確信度の計算に必要なデータの個数を求める初期データマイニング部８と、相関ルール抽出で用いる支持度および確信度の計算に必要なデータの個数を中間結果として格納するデータベース９と、第１のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第２のデータおよび第１のマイニング部で求めたデータの個数を利用して、第１のデータおよび第２のデータを対象としたデータマイニングを行うインクリメンタルデータマイニング部１０とを備える。
【選択図】図１

Description

本発明は、情報分析装置、情報分析方法およびプログラムに関する。

従来、データベースから知識を抽出する技術とし、相関ルールを用いたデータマイニングが提案されている。このデータマイニングは大規模なデータから思いがけないパターンを発見するというものである。このようなデータマイニングに関する従来技術として以下のようなものが提案されている。

特許文献１記載の情報分析装置は、相関ルール抽出において、過去のマイニング結果を保存しておき、データの追加・削除があったときに過去のデータベースにアクセスすることなく、過去のマイニング結果を追加データについて検証したものと、追加データに関するマイニング結果を合成することにより全体のマイニングを行うことで、データの追加・削除があったとき、データマイニングを高速化するというものである。

また、データマイニングの基礎的な技術として非特許文献１乃至３が提案されている。

特開２００１−３４４２５９号公報 Brachman， R．J．， Khabaza，T．， Kloesgen， W．， Piatetsky-Shapiro， G． and Simoudis， E．: Mining Business Databases， Communications of the ACM， Vol．39， No．11， pp．41-48， Nov． 1996 Agrawal， R．， Imielinski， T．， Swami， A．: ``Mining Association Rules between Sets of Items in Large Databases，'' Proc， of ACM SIGMOD， pp．207-216， 1993 Agrawal， R．， Srikant， R．: Fast Algorithms for Mining Association Rules， Proc． of VLDB， pp．487-499 (1994)

しかしながら、特許文献１記載の情報分析装置のように、検証結果に応じて、追加データに関するマイニング結果を単に合成する手法では、例えば複数カメラおよび複数マイクなどにより同期的に連続的に生成されるデータを対象とした場合、過去のマイニング結果をそのまま用いることができないため、全体のマイニングを行うことができないという問題がある。

そこで、本発明は、上記問題点に鑑みてなされたもので、同期して連続的に生成されるデータ群に対して効率的に分析を行うことができる情報分析装置、情報分析方法およびプログラムを提供することを目的とする。

上記課題を解決するために、本発明は、同期した複数のデータに基づき得られる第１のデータを対象として、データマイニングを行う過程で得られるデータの個数を求める第１のマイニング部と、前記第１のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第２のデータおよび前記第１のマイニング部で求めたデータの個数に基づいて、前記第１のデータおよび前記第２のデータを対象としたデータマイニングを行う第２のマイニング部とを備える情報分析装置である。

本発明によれば、後のデータマイニングの計算に必要なデータの個数を利用して、第１のデータおよび第２のデータを対象としたデータマイニングを行うので、第１のデータおよび第２のデータを格納するデータベースの全数を探すことなく、高速に、このデータベース中のデータの個数を計算することが可能となる。このため、複数の同時に連続的に入力されるデータを対象として、実質的に分析時間は最小で即時に分析結果を得ることができる。例えば複数カメラおよび複数マイクなどにより同期的に連続的に生成されるデータに特化した効率的でインクリメンタルなデータマイニングによる分析方法を提供できる。データの個数とは、記第１のデータに出現するデータアイテムごとの個数またはそれらの出現する組み合わせの個数をいう。

本発明の情報分析装置は、前記データの個数を中間結果として格納するデータベースをさらに備える。本発明によれば、データマイニングを行う過程で得られるデータの個数を中間結果として格納しておくことによって、後でこの中間結果を利用することができるため、効率的でインクリメンタルなデータマイニングが可能となる。

本発明の情報分析装置は、前記第１のデータおよび前記第２のデータを別々に格納するデータベースをさらに備える。本発明の情報分析装置は、前記第２のマイニング部による分析結果を出力する出力部をさらに備える。本発明によれば、例えば、複数のカメラ・マイクにより同期して連続的に生成されるデータ群を対象とした分析結果を効率的にディスプレイ等に表示できる。前記データの個数は、たとえば前記第１のデータに出現するデータアイテムごとの個数、および、それらの出現する組み合わせの個数である。これにより、第１のデータおよび第２のデータに出現するデータアイテムごとの個数およびそれらの出現する組合せの個数を用いて、インクリメンタルなデータマイニングを行うことができる。

前記同期した複数のデータは、複数の撮影装置から得た動画像データまたは複数のマイクから得た音声データを含み、前記動画像データまたは前記音声データに基づいて、所定の画像処理または音声処理の技術を用いて、イベントに関する人の識別情報、該人の座標、該イベントが起きた時間および該イベントの内容のうちの少なくとも一つを前記第１のデータおよび前記第２のデータとして生成する情報処理部をさらに備える。本発明によれば、イベントに関する人の識別情報、人の座標、イベントが起きた時間又はイベントの内容を用いたインクリメンタルなデータマイニングによる分析方法を提供できる。

本発明の情報分析装置は、前記イベントに関する人の識別情報、前記人の座標、前記イベントが起きた時間または前記イベントの内容を前記第１のデータとして格納するデータベースをさらに備える。

本発明は、同期した複数のデータに基づき得られる第１のデータを対象として、データマイニングを行う過程で得られるデータの個数を求めるステップと、前記第１のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第２のデータおよび前記第データの個数に基づいて、前記第１のデータおよび前記第２のデータを対象としたデータマイニングを行うステップとを含む情報分析方法である。

本発明によれば、データマイニングを行う過程で得られるデータの個数を利用して、第１のデータおよび第２のデータを対象としたデータマイニングを行うので、第１のデータおよび第２のデータを格納するデータベースの全数を探すことなく、高速に、このデータベース中のデータの個数を計算することが可能となる。このため、複数の同時に連続的に入力されるデータを対象として、実質的に分析時間は最小で即時に分析結果を得ることができる。例えば複数カメラおよび複数マイクなどにより同期的に連続的に生成されるデータに特化した効率的でインクリメンタルなデータマイニングによる分析方法を提供できる。

本発明の情報分析方法は、前記同期した複数のデータが、複数の撮影装置から得た動画像データ又は複数のマイクから得た音声データを含む場合、該動画像データ又は該音声データに基づいて、所定の画像処理または音声処理の技術を用いて、イベントに関する人の識別情報、該人の座標、該イベントが起きた時間および該イベントの内容のうちの少なくとも一つを前記第１のデータおよび前記第２のデータとして生成するステップをさらに含む。前記データの個数は、たとえば前記第１のデータに出現するデータアイテムごとの個数、および、それらの出現する組み合わせの個数である。これにより、第１のデータおよび第２のデータに出現するデータアイテムごとの個数およびそれらの出現する組合せの個数を用いて、インクリメンタルなデータマイニングを行うことができる。

本発明は、同期した複数のデータに基づき得られる第１のデータを対象として、データマイニングを行う過程で得られるデータの個数を求めるステップ、前記第１のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第２のデータおよび前記第１のデータマイニングで求めたデータの個数に基づいて、前記第１のデータおよび前記第２のデータを対象としたデータマイニングを行うステップをコンピュータに実行させるためのプログラムである。

本発明によれば、同期して連続的に生成されるデータ群に対して効率的に分析を行うことができる情報分析装置、情報分析方法およびプログラムを提供できる。

以下、本発明を実施するための最良の形態について説明する。

図１は、本発明の実施形態に係る情報分析装置１のブロック図である。図２は、情報分析装置１による中間結果の生成過程を説明する図である。図３は、情報分析装置１によるインクリメンタルなデータマイニングを説明するための図である。図１に示すように、情報分析装置１は、複数カメラ制御部２、複数マイク制御部３、画像処理部４、音声処理部５、データベース６、７、初期データマイニング部８、データベース９、インクリメンタルデータマイニング部１０および結果出力部１１を備える。

情報分析装置１は、同期して連続的に生成されるデータを対象にデータマイニングを行うものである。複数カメラ制御部２は例えば会議室に設置された複数のカメラを制御し、これらのカメラからそれぞれ同期して連続的に生成される動画像データを取得する。複数マイク制御部３は例えば会議室に設置された複数のマイクを制御し、これらのマイクからそれぞれ同期して連続的に生成される音声データを取得する。

画像処理部４および音声処理部５は、複数カメラから連続して入力される動画像データおよび複数マイクから連続して入力される音声データに基づいて、画像処理および音声処理の技術を用いて、会議の動画像および音声を対象として、会議中のそれぞれのイベントについて、そのイベントに関する人のＩＤとしてパーソンＩＤ(person id)、その人の座標に対応するポジションＩＤ(position)、そのイベントが起きた時間(time)、およびそのイベントの内容(event)をデータＢとして生成する。

データベース６は、図３に示すように、データＢをテーブル（tables of continuous generation）に格納する。データベース６において、各行がトランザクションを表す。このため、データベース６はトランザクションの集合であると言える。各トランザクションにはユニークな識別子ルールＩＤ（rule id）が付けられている。パーソンＩＤ、ポジションＩＤ、時間、イベントがアイテムとなる。したがって、トランザクションはアイテムの集合となる。アイテム集合を適当に組み合わせることにより、非常に多くの相関ルールをつくることができる。

たとえば画像処理部４は、画像処理を行い、肌色を抽出することにより人間の顔および腕を抽出し、その結果からある人が座っていることを抽出可能となる。さらに、それと同時に、音声処理部５は、音声処理を行い、音声の特徴抽出および会議の参加者ごとにあらかじめ記録しておいたサンプル音声との比較（例：ウエーブレット変換を用いて波形を抽出し比較する）により、人の特定、複数マイクを用いることによりその音声発生の差分から人の位置を特定することができる。これらを総合し、同時刻に起こったイベント（人Ａが席に座っている）について、ルールＩＤ（排他的に付与）、パーソンＩＤ（人の識別子）、その人のポジションＩＤ（その人の会議室上の座標）、その時間とともにデータＢとして記録する。

データベース７は、図２および図３に示すように、順次生成されるデータＢを次々に蓄積したデータＡをテーブル（tables of stored data）に格納する。データベース７において、データベース６と同様に、各行がトランザクションを表す。このため、データベース７は、トランザクションの集合であると言える。各トランザクションにはユニークな識別子ルールＩＤ（rule id）が付けられている。パーソンＩＤ(person id)、ポジションＩＤ(position)、時間(time)、イベント(event)がアイテムとなる。したがってトランザクションはアイテムの集合となる。アイテム集合を適当に組み合わせることにより、非常に多くの相関ルールをつくることができる。

初期データマイニング部８は、データＡに対して、相関ルール抽出アルゴリズムを用いて、データマイニングを行う過程で得られるデータの個数を求め、このデータの個数を中間結果としてデータベース９に格納する。さらに、出現するデータの組み合わせの個数も中間結果としてデータベース９に格納する。ここで、データマイニングを行う過程で得られるデータの個数は、図１におけるデータベース７およびデータベース６に出現する各データの出現回数である。

ここで、相関ルールの支持度と確信度について説明する。相関ルールＸ⇒Ｙの左辺Ｘを前提部（antecedent）と呼び、右辺Ｙを結論部（consequent）と呼ぶ。データベース７中のＸを含むトランザクションのうち、Ｙを含むものの割合がｃ％であるとき、「相関ルールＸ⇒Ｙはデータベース７においてｃ％の確信度で成立している」という。また、データベース７中のＸ∪Ｙを含むトランザクションの全トランザクションに対する割合がｓ％であるとき、「相関ルールＸ⇒Ｙはデータベース７においてｓ％の支持度を持つ」という。価値の高い相関ルールをつくるアイテム集合があらかじめわかっていれば、データベースに関する簡単な問い合わせで、相関ルールの確信度と支持度を知ることができる。

相関ルール抽出アルゴリズムは、従来技術で示した非特許文献１乃至３の論文において既に提案されている。支持度ＳＵＰＰＯＲＴ（Ｘ）、確信度ＣＯＮＦＩＤＥＮＣＥ（Ｃ₁，Ｃ₂）を次のように定義し、その両方が高い場合、ルールとして採用する。

初期データマイニング部８は、式１および式２の支持度と確信度を任意の２属性について適用する。例えば、データベース７のテーブル内のデータＡ中のパーソンＩＤ(ＰｅｒｓｏｎＩＤ)およびイベント(ｅｖｅｎｔ)を対象として、条件Ｃ₁としてＰｅｒｓｏｎＩＤ＝００００、条件Ｃ₂としてｅｖｅｎｔ＝”ｓｉｔｔｉｎｇ”という条件において確信度を求めると、全イベント中において、ＰｅｒｓｏｎＩＤとして００００を有する人の全てのイベントのうち”ｓｉｔｔｉｎｇ”というイベントがどれくらいの割合で発生したかを求めることができる。これを、ＰｅｒｓｏｎＩＤおよび発生するイベントの全ての組み合わせについて計算することにより、任意の人の任意のイベントの割合を求めることができる。

さらに、これを、任意の属性の組み合わせについて求めることにより、このデータベース中の全ての事象の組み合わせについて、全体に対する割合を求めることができる。このため、計算量は非常に大きくなる。この後、支持度と確信度について閾値を設定し、ある閾値を超えた場合、すなわち支持度と確信度の両方が高い場合、頻出するパターンをルールとして採用する。

データベース９は、データマイニングを行う過程で得られるデータの個数を中間結果として格納する。インクリメンタルデータマイニング部１０は、データＡに対して連続的に生成されると共に同期した複数のデータに基づき得られるデータＢ（第２のデータ）および初期データマイニング部８で求めたデータの個数を利用して、データＡおよびデータＢを対象としたデータマイニングを行う。

インクリメンタルデータマイニング部１０は、任意のデータ間の支持度と確信度の計算のために条件を満たすデータの個数を中間結果として記録しておき、差分を計算する機能を有する。具体的には、初期データマイニング部８は、データベース７を対象とした支持度と確信度の計算に必要なデータＡの個数を中間結果としてデータベース９に記録しておく。例えば、初期データマイニング部８は、ＰｅｒｓｏｎＩＤが００００のデータは何回出現したか、またはｅｖｅｎｔの項目が”ｓｉｔｔｉｎｇ”であるデータの個数をすべてデータベース９に記録しておく。

インクリメンタルデータマイニング部１０で用いる相関ルール抽出アルゴリズムは、初期データマイニング部８とは異なるものである。インクリメンタルデータマイニング部１０は、初期データマイニング部８との比較において、新しく入ってきたデータと、この記録しておいた中間結果を参照し、データベース７の全数を探すことなく、高速に、データベース７中のデータの個数を計算することが可能である。インクリメンタルデータマイニング部１０が式１および２による任意のデータ間の支持度と確信度の計算を行う点では初期データマイニング部８と同一だが、式１および式２による支持度と確信度の計算のために、データベース７にアクセスして個数・割合を計算することなく、高速に頻出パターンをルールとして抽出可能である。

初期データマイニング部８およびその後のインクリメンタルデータマイニング部１０によるこの中間結果を蓄積する段階と、インクリメンタルデータマイニング部１０による段階は、基本的には独立なので、並列に処理することも可能である。

結果出力部１１は、例えばディスプレイ装置、プリンタ等で構成され、インクリメンタルデータマイニング部１０が得た規則を分析結果として出力する。これによりインクリメンタルな分析結果をディスプレイ装置に表示させることができる。ここで、結果出力部１１による視覚化の手法としては、例えば、グラフ描画による方法やマトリックス表示による方法等がある。グラフ描画による方法は、基本的に相関ルールの集合を、アイテムを頂点（node）として、相関ルールを有向辺（ａｒｃ）とする有向グラム（ｇｒａｐｈ）として表現する。

相関ルールのサポートや確信度は有向辺の幅（太さ）と色によって表現できる。例えば、確信度の高さを青から赤への色調や彩度で表現したり、サポートの大きさを辺の幅で表現したりすればよい。また、マトリックス表示による方法について説明する。アイテムを縦横の軸に並べた平面を考え、前提条件と結論条件がそれぞれ１アイテムであるような相関ルールは、縦軸上の前提条件のアイテム位置と横軸上の結論条件のアイテム位置をそれぞれ縦横の座標とする平面上の点として表現する。点の色（明るさ、色調、彩度）を使って相関ルールの確信度やサポートを表現することができる。

次に、本実施形態による情報分析装置１の動作について説明する。図４は、本実施形態による情報分析装置の処理手順を示すフローチャートである。ステップＳ１で、複数カメラ、および複数マイクから動画像データおよび音声データが入力されると、音声処理部５は音声処理を行って、音声データからたとえば発表者の声の大きさを特定し、また、画像処理部４は画像処理を行って、動画像データから発表者の行為を特定することによってデータＢを生成する。ステップＳ２で、データベース６のデータは、あるタイミングでデータベース７に移動される。

ステップＳ３で、初期データマイニング部８は、データベース７内のデータＡを対象として、既存のデータマイニングアルゴリズムを適用して、その過程で得られるデータの個数をデータベース９に保存する。ステップＳ４で、結果出力部１１は、初期データマイニング部８で得られた規則を分析結果として出力する。ステップＳ５で、複数カメラ、および複数マイクから動画像データおよび音声データが入力されると、音声処理部５は音声処理を行って、音声データからたとえば会議参加者の声の大きさを特定し、また、画像処理部４は画像処理を行って、動画像データから会議参加者の行為を特定することによってデータＢを生成する。ステップＳ６で、データベース６のデータは、あるタイミングでデータベース７に移動される。

ステップＳ７で、インクリメンタルデータマイニング部１０は、生成されたデータＢおよびデータベース９に格納された中間結果を利用してデータＡを対象としたデータマイニングを行う。ステップＳ８で、結果出力部１１は、インクリメンタルデータマイニング部１０で得られた規則を分析結果として出力する。ステップＳ５〜Ｓ７を繰り返せば、計算量が最小で常に新しい分析の結果が獲得できる。

この情報分析装置１によれば、データの変更があるたびに単純に従来技術を適用する場合と比較して、本発明における技術を用いた場合、例えばデータＡに１０００データが蓄積されていた場合、１０００倍の効率化が実現できる。このため、複数の同時に連続的に入力されるデータを対象として、実質的に分析時間は最小で即時に分析結果を得ることができる。これにより、例えば複数カメラおよび複数マイクなどにより同期的に連続的に生成されるデータに特化した効率的でインクリメンタルなデータマイニングによる分析方法を提供できる。

次に、本発明による情報分析装置１の適用例について説明する。ここでは、プレゼンテーションタイプの会議で生成されるデータに情報分析装置１を適用した例である。

プレゼンテーションタイプの会議が行われている会議室に設置されている複数カメラ、および複数マイクから動画像データおよび音声データが入力されると、音声処理部５は、音声処理を行って、音声データから発表者の声の大きさを特定し、また、画像処理部４は、画像処理を行って、画像データから発表者の発表資料の図を指し示す行為を特定することによってデータＢを生成し、図５に示すように、データＢがデータベース６に格納される。つまり、画像処理部４と音声処理部５は、時間的同期が可能であるので、画像処理の結果と音声処理の結果とがそれぞれ属性Ｅｖｅｎｔ１およびＥｖｅｎｔ２として記録される。このとき、データベース７および９の内容は、空である。

次に、生成されたデータベース６のデータが、あるタイミングでデータベース７に移動される。図６では、図５に示したルールＩＤ１００１〜１００９の次のルールＩＤ２００１〜２００６に対応するデータも格納される例を示す。このとき、データベース６および９の内容は、空である。次に、初期データマイニング部８は、図６に示す会議の前半分のデータＡを対象として、既存のデータマイニングアルゴリズムを適用して、その過程で得られるデータの個数（count）を求め、これを図７に示すようにデータベース９に保存する。たとえば、この例では、データベース７中のＰｅｒｓｏｎＩＤ、Ｅｖｅｎｔ１、Ｅｖｅｎｔ２という属性に着目すると、音声処理における声が通常か大きいか（Voice:normal or Voice:loud）、画像処理における通常か図を指し示しているか（Behavior:none or Behavior:point to figure）のそれぞれのデータの個数を保存する。

結果出力部１１は、初期データマイニング部８で得られた規則のうち、図８の規則を出力する。ただし、非特許文献１〜３に示されているとおり、ルールとして採用されるのは支持度Ｓｕｐｐｏｒｔおよび確信度Ｃｏｎｆｉｄｅｎｃｅの両方の値が多きときのみであり、たとえば、閾値を支持度Ｓｕｐｐｏｒｔについては１０以上、確信度Ｃｏｎｆｉｄｅｎｃｅについては５０以上と設定した場合は、図８における罫線の部分のみが出力される。利用者にとっては、この規則から、会議の前半の段階で、ｐｅｒｓｏｎＡは声を大きくすることと図を指し示すことになんからの関連があるのではないかと推測することが可能となる。

次に、会議の後半に入り、複数カメラ、複数マイクから新たに入力があった場合、音声処理部５は、音声処理によって音声データから発表者の声の大きさを特定し、画像処理部４は、画像処理によって画像データから発表者の発表資料の図を指し示す行為を特定し、データＢが生成され、データＢはデータベース６のテーブルに格納される。つまり、図９に示すようにルールＩＤ２５０１〜２５０３に対応するデータが生成されデータベース６に格納される。図９は会議の後半のスタート直後のデータベース６の例である。この例では、ｐｅｒｓｏｎＡが、会議の後半のスタート直後に、声を大きくしながら図を指し示した状況を示している。この時点では、データベース７は図６の状況のままであり、データベース９も図７のままである。

次に、データベース７には、図６と比較して、次の図１０のよう追加される。インクリメンタルデータマイニング部１０は、生成されたデータＢおよびデータベース９に格納された中間結果を利用してデータＡを対象としたデータマイニングを行う。つまり、インクリメンタルデータマイニング部１０は、データベース９に格納されているデータ（＝図７）と、この時点のデータベース６を参照することにより、大きなデータベース７（＝図１０）を参照することなく、図１１のような結果を得ることが可能となる。

図１１は、インクリメンタルデータマイニング部１０の出力例である。利用者にとっては、この規則から、会議の前半の段階で、ｐｅｒｓｏｎＡは声を大きくすることと図を指し示すことになんからの関連があるのではないかと推測することが可能となる。データベース６の内容を消去し、データベース９（中間結果）の内容を、図７から次の図１２のように更新し、上記ステップＳ５〜Ｓ７を繰り返せば、会議の後半は、計算量が最小で常に新しい分析の結果（図１１のような結果）が獲得できる。

従来は、データマイニングを行うために、通常は図６におけるデータＡを対象として式１および式２を適用し、全ての属性間の全てのデータの組について、頻出パターンを抽出する必要があった。これに対して、この発明では、あらかじめデータベース９に格納しておいた中間結果を用いて、新しく入力されたデータＢと、データベースに格納された中間結果の各データの個数からの合計を計算する。これにより、データＡを対象とした式１および式２による相関ルールの抽出を、データＡの参照を行うことなく高速に抽出することが可能となる。

このようにして、時間的に同期されたそれらのデータ群を本発明により分析し、インクリメンタルにデータマイニングを行うことによって、会議中の前半と後半に分けて分析が可能となり、会議の後半にはすでに分析結果を得ることが可能となる。この結果、発表者の声の大きさと、発表者の発表資料の図を指し示す行為の相関が非常に高いことが会議の後半以降に分析可能となり、後半以降は声の大きく図を指し示した部分に特に着目して発表者のプレゼンテーションを効率よく聞くことが可能となる。

次に、本実施形態による情報分析装置１の他の適用例について説明する。ここでは、ブレインストーミングタイプの会議で生成されるデータに情報分析装置１を適用した例である。ブレインストーミングタイプの会議が行われている会議室に設置されている複数カメラ、および複数マイクから動画像データおよび音声データが入力されると、音声処理部５は、音声処理を行って音声データから会議参加者の笑いを特定し、また、画像処理部４は、画像処理を行って会議参加者のうなずく行為を特定することによって、データＢが生成され、データＢがデータベース６に格納されると、データＢをコピーしてデータＡが生成される。

ここでは、会議の前半分のデータがデータＡとしてデータベース７に格納されているものとする。初期データマイニング部８は、会議の前半分のデータＡを対象として、既存のデータマイニングアルゴリズムを適用して、初期データマイニングを行い、データマイニングを行う過程で得られるデータの個数を中間結果としてデータベース９に保存する。

次に、会議の後半に入り、複数カメラ、複数マイクから新たに入力があった場合、音声処理部５は、音声データから会議参加者の笑いを特定し、画像処理部４は、画像データから会議参加者のうなずく行為を特定し、データＢが生成され、データＢはデータベース６のテーブルに格納される。さらに、データＢはデータベース７にコピーされる。インクリメンタルデータマイニング部１０は、生成されたデータＢおよびデータベース９に格納された中間結果を利用してデータＡを対象としたデータマイニングを高速に行う。

具体的には、従来は、データマイニングを行うために、通常は図３におけるデータＡを対象として式１および式２を適用し、全ての属性間の全てのデータの組について、頻出パターンを抽出し、全参加者中の全ての行動間の組み合わせから会議参加者の笑いとうなずく行為の頻度の高さを網羅的に計算する必要があった。これに対し、本発明では、あらかじめデータベース９に格納しておいた中間結果を用いることにより、新しく入力されたデータＢと、中間結果（データベース９）に格納された各データの個数からの合計を計算することができる。これにより、データＡの参照を行うことなく、データＡを対象とした式１および式２による相関ルールの抽出を行うことができる。例えば、データベース９の中間結果に蓄積された会議参加者の笑いが起こった回数と、うなずく行為の回数を獲得し、さらに、新たに次々と入力される会議参加者の笑いのイベントとうなずくイベントを加え、式１および式２を適用することにより、会議中の全てのイベント中の笑いと、うなずくイベントの頻度を計算することができる。このようにして、結果的に笑いとうなずきの相関ルールを高速に抽出することが可能となる。

このようにして、ブレインストーミングタイプの会議において、会議中にその会議の傾向を本発明の技術により分析し、それを受けて会議の後半に、前半を効率よく振り返ることが可能となる。また、時間的に同期したデータ群を対象として、本発明を用いてインクリメンタルにデータマイニングを行うことにより、その会議の後半にこの事実が判明し、結論の出た直後には安堵感から参加者の冗談から笑いが起こるのではないかと推定が可能となる。これより、会議の前半の結論を、会議の後半においてすでに効率よくチェック可能となる。会議の後半において、会議の前半の部分を分析し、さらに会議の参加者の判断を加えてより効率よい高度な会議を開催可能となる。

次に、本実施形態による情報分析装置１の他の適用例について説明する。ここでは、グループＡとＢの会議が並列して行われ、同一の目的で異なる主題について議論されている場合、本発明の情報分析装置１を適用した例である。グループＡおよびＢの会議の目的は、あるプロジェクトの関連技術を調査することであった。グループＡの主題はソフトウェアの分野の技術を担当し、グループＢの担当はハードウェア分野であった。両グループは、それぞれあらかじめ定めてあった関連技術の候補について審議する。

複数の会議室に設置されている複数カメラ、および複数マイクから動画像データおよび音声データが入力されると、音声処理部５は、音声処理を行うことによって、無音部分と人の話す声の部分から議論の白熱割合を特定し、また、画像処理部４は、画像処理を行うことによって、プロジェクタに写された資料の枚数から審議された技術の数を特定することによって、データＢが生成され、データＢがデータベース６に格納されると、データＢをコピーしてデータＡが生成される。ここでは、会議の前半分のデータがデータＡとしてデータベース７に格納されているものとする。初期データマイニング部８は、会議の前半分のデータＡを対象として、既存のデータマイニングアルゴリズムを適用して、初期データマイニングを行い、データマイニングを行う過程で得られるデータの個数を中間結果としてデータベース９に保存する。

次に、会議の後半に入り、複数カメラ、複数マイクから新たに入力があった場合、音声処理部５は、無音部分と人の話す声の部分から議論の白熱割合を特定し、画像処理部４は、プロジェクタに写された資料の枚数から審議された技術を特定し、データＢが生成され、データＢがデータベース６のテーブルに格納される。さらに、データＢはデータベース７にコピーされる。インクリメンタルデータマイニング部１０は、生成されたデータＢおよびデータベース９に格納された中間結果を利用してデータＡを対象としたデータマイニングを高速に行う。

具体的には、従来は、図３におけるデータＡを対象として式１、および２を適用し、全ての会議中の事象間の同時に起こる頻度を計算することにより、頻出パターンをルールとして抽出していた。これに対して、本発明では、インクリメンタルデータマイニング部１１により、図３におけるデータＢと、あらかじめ蓄積した中間結果（データベース９）における各事象の起こった回数を差分のみ合計することにより、会議中の任意の時点での分析結果を、頻出パターンであるルールとして即時に得ることが可能となる。これにより、実質的に分析時間を最小限とすることが可能となる。

このようにして、グループＡとＢの会議が並列して行われ、同一の目的で異なる主題について議論されている場合、一方が自らと他方のグループのそれぞれの分析結果と同時に、両グループの分析結果も同時に得ることが可能となる。これにより、グループＡは、ソフトウェア分野の技術のみならず、グループＢにて審議中のハードウェアの審議の状況（プロジェクタに写された資料の枚数から審議された技術の数、無音部分と人の話す声の部分から議論の白熱の割合などの同期したデータの分析）を知ることにより、グループＢの議論との位置づけを把握しながら効率のよい会議を行うことができる。また、同時に行われる複数の会議を本発明による分析およびそれらの比較により、それ以降の会議の効率化を促すことが可能となる。

複数の会議の記録を対象に連続的にデータマイニングを行う場合、非常に多くの計算量が必要であるが、本発明によれば、インクリメンタルなデータマイニング処理が行われ、会議中の任意の時点においてその時点までの分析が完了しているので、分析時間を実質的に最小限とすることが可能となる。

本実施形態によれば、同期して複数のデータが同時に入力され、連続的に対象データが生成される情報分析装置において、インクリメンタルにルールが生成されるため、複数のカメラにより連続的に記録される動画像群を対象として、複数のカメラ入力および音声入力の統合による効果およびインクリメンタルに行うデータマイニングによる効果を組み合わせ、効率的な情報分析装置を提供することができる。

なお、本発明による情報分析方法は、例えば、ＣＰＵ（Central Processing Unit）、ＲＯＭ(Read Only Memory)、ＲＡＭ(Random Access Memory)等を用いて実現され、プログラムをハードディスク装置や、ＣＤ−ＲＯＭ、ＤＶＤまたはフレキシブルディスクなどの可搬型記憶媒体等からインストールし、または通信回路からダウンロードし、ＣＰＵがこのプログラムを実行することで、各ステップが実現される。

プログラムは、同期した複数のデータに基づき得られる第１のデータを対象として、データマイニングを行う過程で得られるデータの個数を求めるステップ、前記第１のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第２のデータおよび前記データの個数に基づいて、前記第１のデータおよび前記第２のデータを対象としたデータマイニングを行うステップをコンピュータに実行させる。なお、初期データマイニング部８が第１のマイニング部、インクリマンタルデータマイニング部１０が第２のマイニング部にそれぞれ対応する。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本実施形態による情報分析装置のブロック図である。本実施形態による情報分析装置による中間結果の生成過程を説明する図である。本実施形態による情報分析装置によるインクリメンタルなデータマイニングを説明する図である。本実施形態による情報分析装置の処理手順を示すフローチャートである。データベース６の内容を示す図である。データベース７の内容を示す図である。データベース９の内容を示す図である。初期データマイニング部８の出力例を示す図である。会議の後半のスタート直後のデータベース６の例である。データベース７の内容を示す図である。インクリメンタルデータマイニング部１０の出力例を示す図である。データベース９の内容を示す図である。

符号の説明

１情報分析装置
２複数カメラ制御部
３複数マイク制御部
４画像処理部
５音声処理部
６、７、９データベース
８初期データマイニング部
１０インクリメンタルデータマイニング部
１１結果出力部

Claims

同期した複数のデータに基づき得られる第１のデータを対象として、データマイニングを行う過程で得られるデータの個数を求める第１のマイニング部と、
前記第１のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第２のデータおよび前記第１のマイニング部で求めたデータの個数に基づいて、前記第１のデータおよび前記第２のデータを対象としたデータマイニングを行う第２のマイニング部と
を備えることを特徴とする情報分析装置。
前記データの個数を中間結果として格納するデータベースをさらに備えることを特徴とする請求項１記載の情報分析装置。
前記第１のデータおよび前記第２のデータを別々に格納するデータベースをさらに備えることを特徴とする請求項１に記載の情報分析装置。
前記第２のマイニング部による分析結果を出力する出力部をさらに備えることを特徴する請求項１記載の情報分析装置。
前記データの個数は、前記第１のデータに出現するデータアイテムごとの個数、および、それらの出現する組み合わせの個数であることを特徴とする請求項１に記載の情報分析装置。
前記同期した複数のデータは、複数の撮影装置から得た動画像データまたは複数のマイクから得た音声データを含み、
前記動画像データまたは前記音声データに基づいて、所定の画像処理または音声処理の技術を用いて、イベントに関する人の識別情報、該人の座標、該イベントが起きた時間および該イベントの内容のうちの少なくとも一つを前記第１のデータおよび前記第２のデータとして生成する情報処理部をさらに備えることを特徴とする請求項１記載の情報分析装置。
前記イベントに関する人の識別情報、前記人の座標、前記イベントが起きた時間または前記イベントの内容を前記第１のデータとして格納するデータベースをさらに備えること特徴とする請求項６記載の情報分析装置。
同期した複数のデータに基づき得られる第１のデータを対象として、データマイニングを行う過程で得られるデータの個数を求めるステップと、
前記第１のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第２のデータおよび前記第データの個数に基づいて、前記第１のデータおよび前記第２のデータを対象としたデータマイニングを行うステップとを含むことを特徴とする情報分析方法。
前記同期した複数のデータが、複数の撮影装置から得た動画像データ又は複数のマイクから得た音声データを含む場合、該動画像データ又は該音声データに基づいて、所定の画像処理または音声処理の技術を用いて、イベントに関する人の識別情報、該人の座標、該イベントが起きた時間および該イベントの内容のうちの少なくとも一つを前記第１のデータおよび前記第２のデータとして生成するステップをさらに含むことを特徴とする請求項８記載の情報分析方法。
前記データの個数は、前記第１のデータに出現するデータアイテムごとの個数、および、それらの出現する組み合わせの個数であることを特徴とする請求項８に記載の情報分析方法。
同期した複数のデータに基づき得られる第１のデータを対象として、データマイニングを行う過程で得られるデータの個数を求めるステップ、
前記第１のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第２のデータおよび前記第１のデータマイニングで求めたデータの個数に基づいて、前記第１のデータおよび前記第２のデータを対象としたデータマイニングを行うステップをコンピュータに実行させるためのプログラム。