JP2006227896A - 情報分析装置、情報分析方法およびプログラム - Google Patents

情報分析装置、情報分析方法およびプログラム Download PDF

Info

Publication number
JP2006227896A
JP2006227896A JP2005040667A JP2005040667A JP2006227896A JP 2006227896 A JP2006227896 A JP 2006227896A JP 2005040667 A JP2005040667 A JP 2005040667A JP 2005040667 A JP2005040667 A JP 2005040667A JP 2006227896 A JP2006227896 A JP 2006227896A
Authority
JP
Japan
Prior art keywords
data
mining
database
event
synchronized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005040667A
Other languages
English (en)
Inventor
Hisafumi Yoshida
尚史 吉田
Atsushi Miyazaki
宮崎  淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005040667A priority Critical patent/JP2006227896A/ja
Priority to US11/206,797 priority patent/US7599904B2/en
Publication of JP2006227896A publication Critical patent/JP2006227896A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 同期して連続的に生成されるデータ群に対して効率的に分析を行うことができる情報分析装置を提供する。
【解決手段】 情報分析装置1は、同期した複数のデータに基づき得られる第1のデータを対象として、相関ルール抽出で用いる支持度および確信度の計算に必要なデータの個数を求める初期データマイニング部8と、相関ルール抽出で用いる支持度および確信度の計算に必要なデータの個数を中間結果として格納するデータベース9と、第1のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第2のデータおよび第1のマイニング部で求めたデータの個数を利用して、第1のデータおよび第2のデータを対象としたデータマイニングを行うインクリメンタルデータマイニング部10とを備える。
【選択図】 図1

Description

本発明は、情報分析装置、情報分析方法およびプログラムに関する。
従来、データベースから知識を抽出する技術とし、相関ルールを用いたデータマイニングが提案されている。このデータマイニングは大規模なデータから思いがけないパターンを発見するというものである。このようなデータマイニングに関する従来技術として以下のようなものが提案されている。
特許文献1記載の情報分析装置は、相関ルール抽出において、過去のマイニング結果を保存しておき、データの追加・削除があったときに過去のデータベースにアクセスすることなく、過去のマイニング結果を追加データについて検証したものと、追加データに関するマイニング結果を合成することにより全体のマイニングを行うことで、データの追加・削除があったとき、データマイニングを高速化するというものである。
また、データマイニングの基礎的な技術として非特許文献1乃至3が提案されている。
特開2001−344259号公報 Brachman, R.J., Khabaza,T., Kloesgen, W., Piatetsky-Shapiro, G. and Simoudis, E.: Mining Business Databases, Communications of the ACM, Vol.39, No.11, pp.41-48, Nov. 1996 Agrawal, R., Imielinski, T., Swami, A.: ``Mining Association Rules between Sets of Items in Large Databases,'' Proc, of ACM SIGMOD, pp.207-216, 1993 Agrawal, R., Srikant, R.: Fast Algorithms for Mining Association Rules, Proc. of VLDB, pp.487-499 (1994)
しかしながら、特許文献1記載の情報分析装置のように、検証結果に応じて、追加データに関するマイニング結果を単に合成する手法では、例えば複数カメラおよび複数マイクなどにより同期的に連続的に生成されるデータを対象とした場合、過去のマイニング結果をそのまま用いることができないため、全体のマイニングを行うことができないという問題がある。
そこで、本発明は、上記問題点に鑑みてなされたもので、同期して連続的に生成されるデータ群に対して効率的に分析を行うことができる情報分析装置、情報分析方法およびプログラムを提供することを目的とする。
上記課題を解決するために、本発明は、同期した複数のデータに基づき得られる第1のデータを対象として、データマイニングを行う過程で得られるデータの個数を求める第1のマイニング部と、前記第1のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第2のデータおよび前記第1のマイニング部で求めたデータの個数に基づいて、前記第1のデータおよび前記第2のデータを対象としたデータマイニングを行う第2のマイニング部とを備える情報分析装置である。
本発明によれば、後のデータマイニングの計算に必要なデータの個数を利用して、第1のデータおよび第2のデータを対象としたデータマイニングを行うので、第1のデータおよび第2のデータを格納するデータベースの全数を探すことなく、高速に、このデータベース中のデータの個数を計算することが可能となる。このため、複数の同時に連続的に入力されるデータを対象として、実質的に分析時間は最小で即時に分析結果を得ることができる。例えば複数カメラおよび複数マイクなどにより同期的に連続的に生成されるデータに特化した効率的でインクリメンタルなデータマイニングによる分析方法を提供できる。データの個数とは、記第1のデータに出現するデータアイテムごとの個数またはそれらの出現する組み合わせの個数をいう。
本発明の情報分析装置は、前記データの個数を中間結果として格納するデータベースをさらに備える。本発明によれば、データマイニングを行う過程で得られるデータの個数を中間結果として格納しておくことによって、後でこの中間結果を利用することができるため、効率的でインクリメンタルなデータマイニングが可能となる。
本発明の情報分析装置は、前記第1のデータおよび前記第2のデータを別々に格納するデータベースをさらに備える。本発明の情報分析装置は、前記第2のマイニング部による分析結果を出力する出力部をさらに備える。本発明によれば、例えば、複数のカメラ・マイクにより同期して連続的に生成されるデータ群を対象とした分析結果を効率的にディスプレイ等に表示できる。前記データの個数は、たとえば前記第1のデータに出現するデータアイテムごとの個数、および、それらの出現する組み合わせの個数である。これにより、第1のデータおよび第2のデータに出現するデータアイテムごとの個数およびそれらの出現する組合せの個数を用いて、インクリメンタルなデータマイニングを行うことができる。
前記同期した複数のデータは、複数の撮影装置から得た動画像データまたは複数のマイクから得た音声データを含み、前記動画像データまたは前記音声データに基づいて、所定の画像処理または音声処理の技術を用いて、イベントに関する人の識別情報、該人の座標、該イベントが起きた時間および該イベントの内容のうちの少なくとも一つを前記第1のデータおよび前記第2のデータとして生成する情報処理部をさらに備える。本発明によれば、イベントに関する人の識別情報、人の座標、イベントが起きた時間又はイベントの内容を用いたインクリメンタルなデータマイニングによる分析方法を提供できる。
本発明の情報分析装置は、前記イベントに関する人の識別情報、前記人の座標、前記イベントが起きた時間または前記イベントの内容を前記第1のデータとして格納するデータベースをさらに備える。
本発明は、同期した複数のデータに基づき得られる第1のデータを対象として、データマイニングを行う過程で得られるデータの個数を求めるステップと、前記第1のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第2のデータおよび前記第データの個数に基づいて、前記第1のデータおよび前記第2のデータを対象としたデータマイニングを行うステップとを含む情報分析方法である。
本発明によれば、データマイニングを行う過程で得られるデータの個数を利用して、第1のデータおよび第2のデータを対象としたデータマイニングを行うので、第1のデータおよび第2のデータを格納するデータベースの全数を探すことなく、高速に、このデータベース中のデータの個数を計算することが可能となる。このため、複数の同時に連続的に入力されるデータを対象として、実質的に分析時間は最小で即時に分析結果を得ることができる。例えば複数カメラおよび複数マイクなどにより同期的に連続的に生成されるデータに特化した効率的でインクリメンタルなデータマイニングによる分析方法を提供できる。
本発明の情報分析方法は、前記同期した複数のデータが、複数の撮影装置から得た動画像データ又は複数のマイクから得た音声データを含む場合、該動画像データ又は該音声データに基づいて、所定の画像処理または音声処理の技術を用いて、イベントに関する人の識別情報、該人の座標、該イベントが起きた時間および該イベントの内容のうちの少なくとも一つを前記第1のデータおよび前記第2のデータとして生成するステップをさらに含む。前記データの個数は、たとえば前記第1のデータに出現するデータアイテムごとの個数、および、それらの出現する組み合わせの個数である。これにより、第1のデータおよび第2のデータに出現するデータアイテムごとの個数およびそれらの出現する組合せの個数を用いて、インクリメンタルなデータマイニングを行うことができる。
本発明は、同期した複数のデータに基づき得られる第1のデータを対象として、データマイニングを行う過程で得られるデータの個数を求めるステップ、前記第1のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第2のデータおよび前記第1のデータマイニングで求めたデータの個数に基づいて、前記第1のデータおよび前記第2のデータを対象としたデータマイニングを行うステップをコンピュータに実行させるためのプログラムである。
本発明によれば、データマイニングを行う過程で得られるデータの個数を利用して、第1のデータおよび第2のデータを対象としたデータマイニングを行うので、第1のデータおよび第2のデータを格納するデータベースの全数を探すことなく、高速に、このデータベース中のデータの個数を計算することが可能となる。このため、複数の同時に連続的に入力されるデータを対象として、実質的に分析時間は最小で即時に分析結果を得ることができる。例えば複数カメラおよび複数マイクなどにより同期的に連続的に生成されるデータに特化した効率的でインクリメンタルなデータマイニングによる分析方法を提供できる。
本発明によれば、同期して連続的に生成されるデータ群に対して効率的に分析を行うことができる情報分析装置、情報分析方法およびプログラムを提供できる。
以下、本発明を実施するための最良の形態について説明する。
図1は、本発明の実施形態に係る情報分析装置1のブロック図である。図2は、情報分析装置1による中間結果の生成過程を説明する図である。図3は、情報分析装置1によるインクリメンタルなデータマイニングを説明するための図である。図1に示すように、情報分析装置1は、複数カメラ制御部2、複数マイク制御部3、画像処理部4、音声処理部5、データベース6、7、初期データマイニング部8、データベース9、インクリメンタルデータマイニング部10および結果出力部11を備える。
情報分析装置1は、同期して連続的に生成されるデータを対象にデータマイニングを行うものである。複数カメラ制御部2は例えば会議室に設置された複数のカメラを制御し、これらのカメラからそれぞれ同期して連続的に生成される動画像データを取得する。複数マイク制御部3は例えば会議室に設置された複数のマイクを制御し、これらのマイクからそれぞれ同期して連続的に生成される音声データを取得する。
画像処理部4および音声処理部5は、複数カメラから連続して入力される動画像データおよび複数マイクから連続して入力される音声データに基づいて、画像処理および音声処理の技術を用いて、会議の動画像および音声を対象として、会議中のそれぞれのイベントについて、そのイベントに関する人のIDとしてパーソンID(person id)、その人の座標に対応するポジションID(position)、そのイベントが起きた時間(time)、およびそのイベントの内容(event)をデータBとして生成する。
データベース6は、図3に示すように、データBをテーブル(tables of continuous generation)に格納する。データベース6において、各行がトランザクションを表す。このため、データベース6はトランザクションの集合であると言える。各トランザクションにはユニークな識別子ルールID(rule id)が付けられている。パーソンID、ポジションID、時間、イベントがアイテムとなる。したがって、トランザクションはアイテムの集合となる。アイテム集合を適当に組み合わせることにより、非常に多くの相関ルールをつくることができる。
たとえば画像処理部4は、画像処理を行い、肌色を抽出することにより人間の顔および腕を抽出し、その結果からある人が座っていることを抽出可能となる。さらに、それと同時に、音声処理部5は、音声処理を行い、音声の特徴抽出および会議の参加者ごとにあらかじめ記録しておいたサンプル音声との比較(例:ウエーブレット変換を用いて波形を抽出し比較する)により、人の特定、複数マイクを用いることによりその音声発生の差分から人の位置を特定することができる。これらを総合し、同時刻に起こったイベント(人Aが席に座っている)について、ルールID(排他的に付与)、パーソンID(人の識別子)、その人のポジションID(その人の会議室上の座標)、その時間とともにデータBとして記録する。
データベース7は、図2および図3に示すように、順次生成されるデータBを次々に蓄積したデータAをテーブル(tables of stored data)に格納する。データベース7において、データベース6と同様に、各行がトランザクションを表す。このため、データベース7は、トランザクションの集合であると言える。各トランザクションにはユニークな識別子ルールID(rule id)が付けられている。パーソンID(person id)、ポジションID(position)、時間(time)、イベント(event)がアイテムとなる。したがってトランザクションはアイテムの集合となる。アイテム集合を適当に組み合わせることにより、非常に多くの相関ルールをつくることができる。
初期データマイニング部8は、データAに対して、相関ルール抽出アルゴリズムを用いて、データマイニングを行う過程で得られるデータの個数を求め、このデータの個数を中間結果としてデータベース9に格納する。さらに、出現するデータの組み合わせの個数も中間結果としてデータベース9に格納する。ここで、データマイニングを行う過程で得られるデータの個数は、図1におけるデータベース7およびデータベース6に出現する各データの出現回数である。
ここで、相関ルールの支持度と確信度について説明する。相関ルールX⇒Yの左辺Xを前提部(antecedent)と呼び、右辺Yを結論部(consequent)と呼ぶ。データベース7中のXを含むトランザクションのうち、Yを含むものの割合がc%であるとき、「相関ルールX⇒Yはデータベース7においてc%の確信度で成立している」という。また、データベース7中のX∪Yを含むトランザクションの全トランザクションに対する割合がs%であるとき、「相関ルールX⇒Yはデータベース7においてs%の支持度を持つ」という。価値の高い相関ルールをつくるアイテム集合があらかじめわかっていれば、データベースに関する簡単な問い合わせで、相関ルールの確信度と支持度を知ることができる。
相関ルール抽出アルゴリズムは、従来技術で示した非特許文献1乃至3の論文において既に提案されている。支持度SUPPORT(X)、確信度CONFIDENCE(C1,C2)を次のように定義し、その両方が高い場合、ルールとして採用する。
Figure 2006227896
Figure 2006227896
初期データマイニング部8は、式1および式2の支持度と確信度を任意の2属性について適用する。例えば、データベース7のテーブル内のデータA中のパーソンID(Person ID)およびイベント(event)を対象として、条件C1としてPerson ID=0000、条件C2としてevent=”sitting”という条件において確信度を求めると、全イベント中において、PersonIDとして0000を有する人の全てのイベントのうち”sitting”というイベントがどれくらいの割合で発生したかを求めることができる。これを、PersonIDおよび発生するイベントの全ての組み合わせについて計算することにより、任意の人の任意のイベントの割合を求めることができる。
さらに、これを、任意の属性の組み合わせについて求めることにより、このデータベース中の全ての事象の組み合わせについて、全体に対する割合を求めることができる。このため、計算量は非常に大きくなる。この後、支持度と確信度について閾値を設定し、ある閾値を超えた場合、すなわち支持度と確信度の両方が高い場合、頻出するパターンをルールとして採用する。
データベース9は、データマイニングを行う過程で得られるデータの個数を中間結果として格納する。インクリメンタルデータマイニング部10は、データAに対して連続的に生成されると共に同期した複数のデータに基づき得られるデータB(第2のデータ)および初期データマイニング部8で求めたデータの個数を利用して、データAおよびデータBを対象としたデータマイニングを行う。
インクリメンタルデータマイニング部10は、任意のデータ間の支持度と確信度の計算のために条件を満たすデータの個数を中間結果として記録しておき、差分を計算する機能を有する。具体的には、初期データマイニング部8は、データベース7を対象とした支持度と確信度の計算に必要なデータAの個数を中間結果としてデータベース9に記録しておく。例えば、初期データマイニング部8は、PersonIDが0000のデータは何回出現したか、またはeventの項目が”sitting”であるデータの個数をすべてデータベース9に記録しておく。
インクリメンタルデータマイニング部10で用いる相関ルール抽出アルゴリズムは、初期データマイニング部8とは異なるものである。インクリメンタルデータマイニング部10は、初期データマイニング部8との比較において、新しく入ってきたデータと、この記録しておいた中間結果を参照し、データベース7の全数を探すことなく、高速に、データベース7中のデータの個数を計算することが可能である。インクリメンタルデータマイニング部10が式1および2による任意のデータ間の支持度と確信度の計算を行う点では初期データマイニング部8と同一だが、式1および式2による支持度と確信度の計算のために、データベース7にアクセスして個数・割合を計算することなく、高速に頻出パターンをルールとして抽出可能である。
初期データマイニング部8およびその後のインクリメンタルデータマイニング部10によるこの中間結果を蓄積する段階と、インクリメンタルデータマイニング部10による段階は、基本的には独立なので、並列に処理することも可能である。
結果出力部11は、例えばディスプレイ装置、プリンタ等で構成され、インクリメンタルデータマイニング部10が得た規則を分析結果として出力する。これによりインクリメンタルな分析結果をディスプレイ装置に表示させることができる。ここで、結果出力部11による視覚化の手法としては、例えば、グラフ描画による方法やマトリックス表示による方法等がある。グラフ描画による方法は、基本的に相関ルールの集合を、アイテムを頂点(node)として、相関ルールを有向辺(arc)とする有向グラム(graph)として表現する。
相関ルールのサポートや確信度は有向辺の幅(太さ)と色によって表現できる。例えば、確信度の高さを青から赤への色調や彩度で表現したり、サポートの大きさを辺の幅で表現したりすればよい。また、マトリックス表示による方法について説明する。アイテムを縦横の軸に並べた平面を考え、前提条件と結論条件がそれぞれ1アイテムであるような相関ルールは、縦軸上の前提条件のアイテム位置と横軸上の結論条件のアイテム位置をそれぞれ縦横の座標とする平面上の点として表現する。点の色(明るさ、色調、彩度)を使って相関ルールの確信度やサポートを表現することができる。
次に、本実施形態による情報分析装置1の動作について説明する。図4は、本実施形態による情報分析装置の処理手順を示すフローチャートである。ステップS1で、複数カメラ、および複数マイクから動画像データおよび音声データが入力されると、音声処理部5は音声処理を行って、音声データからたとえば発表者の声の大きさを特定し、また、画像処理部4は画像処理を行って、動画像データから発表者の行為を特定することによってデータBを生成する。ステップS2で、データベース6のデータは、あるタイミングでデータベース7に移動される。
ステップS3で、初期データマイニング部8は、データベース7内のデータAを対象として、既存のデータマイニングアルゴリズムを適用して、その過程で得られるデータの個数をデータベース9に保存する。ステップS4で、結果出力部11は、初期データマイニング部8で得られた規則を分析結果として出力する。ステップS5で、複数カメラ、および複数マイクから動画像データおよび音声データが入力されると、音声処理部5は音声処理を行って、音声データからたとえば会議参加者の声の大きさを特定し、また、画像処理部4は画像処理を行って、動画像データから会議参加者の行為を特定することによってデータBを生成する。ステップS6で、データベース6のデータは、あるタイミングでデータベース7に移動される。
ステップS7で、インクリメンタルデータマイニング部10は、生成されたデータBおよびデータベース9に格納された中間結果を利用してデータAを対象としたデータマイニングを行う。ステップS8で、結果出力部11は、インクリメンタルデータマイニング部10で得られた規則を分析結果として出力する。ステップS5〜S7を繰り返せば、計算量が最小で常に新しい分析の結果が獲得できる。
この情報分析装置1によれば、データの変更があるたびに単純に従来技術を適用する場合と比較して、本発明における技術を用いた場合、例えばデータAに1000データが蓄積されていた場合、1000倍の効率化が実現できる。このため、複数の同時に連続的に入力されるデータを対象として、実質的に分析時間は最小で即時に分析結果を得ることができる。これにより、例えば複数カメラおよび複数マイクなどにより同期的に連続的に生成されるデータに特化した効率的でインクリメンタルなデータマイニングによる分析方法を提供できる。
次に、本発明による情報分析装置1の適用例について説明する。ここでは、プレゼンテーションタイプの会議で生成されるデータに情報分析装置1を適用した例である。
プレゼンテーションタイプの会議が行われている会議室に設置されている複数カメラ、および複数マイクから動画像データおよび音声データが入力されると、音声処理部5は、音声処理を行って、音声データから発表者の声の大きさを特定し、また、画像処理部4は、画像処理を行って、画像データから発表者の発表資料の図を指し示す行為を特定することによってデータBを生成し、図5に示すように、データBがデータベース6に格納される。つまり、画像処理部4と音声処理部5は、時間的同期が可能であるので、画像処理の結果と音声処理の結果とがそれぞれ属性Event1およびEvent2として記録される。このとき、データベース7および9の内容は、空である。
次に、生成されたデータベース6のデータが、あるタイミングでデータベース7に移動される。図6では、図5に示したルールID1001〜1009の次のルールID2001〜2006に対応するデータも格納される例を示す。このとき、データベース6および9の内容は、空である。次に、初期データマイニング部8は、図6に示す会議の前半分のデータAを対象として、既存のデータマイニングアルゴリズムを適用して、その過程で得られるデータの個数(count)を求め、これを図7に示すようにデータベース9に保存する。たとえば、この例では、データベース7中のPersonID、Event1、Event2という属性に着目すると、音声処理における声が通常か大きいか(Voice:normal or Voice:loud)、画像処理における通常か図を指し示しているか(Behavior:none or Behavior:point to figure)のそれぞれのデータの個数を保存する。
結果出力部11は、初期データマイニング部8で得られた規則のうち、図8の規則を出力する。ただし、非特許文献1〜3に示されているとおり、ルールとして採用されるのは支持度Supportおよび確信度Confidenceの両方の値が多きときのみであり、たとえば、閾値を支持度Supportについては10以上、確信度Confidenceについては50以上と設定した場合は、図8における罫線の部分のみが出力される。利用者にとっては、この規則から、会議の前半の段階で、personAは声を大きくすることと図を指し示すことになんからの関連があるのではないかと推測することが可能となる。
次に、会議の後半に入り、複数カメラ、複数マイクから新たに入力があった場合、音声処理部5は、音声処理によって音声データから発表者の声の大きさを特定し、画像処理部4は、画像処理によって画像データから発表者の発表資料の図を指し示す行為を特定し、データBが生成され、データBはデータベース6のテーブルに格納される。つまり、図9に示すようにルールID2501〜2503に対応するデータが生成されデータベース6に格納される。図9は会議の後半のスタート直後のデータベース6の例である。この例では、personAが、会議の後半のスタート直後に、声を大きくしながら図を指し示した状況を示している。この時点では、データベース7は図6の状況のままであり、データベース9も図7のままである。
次に、データベース7には、図6と比較して、次の図10のよう追加される。インクリメンタルデータマイニング部10は、生成されたデータBおよびデータベース9に格納された中間結果を利用してデータAを対象としたデータマイニングを行う。つまり、インクリメンタルデータマイニング部10は、データベース9に格納されているデータ(=図7)と、この時点のデータベース6を参照することにより、大きなデータベース7(=図10)を参照することなく、図11のような結果を得ることが可能となる。
図11は、インクリメンタルデータマイニング部10の出力例である。利用者にとっては、この規則から、会議の前半の段階で、personAは声を大きくすることと図を指し示すことになんからの関連があるのではないかと推測することが可能となる。データベース6の内容を消去し、データベース9(中間結果)の内容を、図7から次の図12のように更新し、上記ステップS5〜S7を繰り返せば、会議の後半は、計算量が最小で常に新しい分析の結果(図11のような結果)が獲得できる。
従来は、データマイニングを行うために、通常は図6におけるデータAを対象として式1および式2を適用し、全ての属性間の全てのデータの組について、頻出パターンを抽出する必要があった。これに対して、この発明では、あらかじめデータベース9に格納しておいた中間結果を用いて、新しく入力されたデータBと、データベースに格納された中間結果の各データの個数からの合計を計算する。これにより、データAを対象とした式1および式2による相関ルールの抽出を、データAの参照を行うことなく高速に抽出することが可能となる。
このようにして、時間的に同期されたそれらのデータ群を本発明により分析し、インクリメンタルにデータマイニングを行うことによって、会議中の前半と後半に分けて分析が可能となり、会議の後半にはすでに分析結果を得ることが可能となる。この結果、発表者の声の大きさと、発表者の発表資料の図を指し示す行為の相関が非常に高いことが会議の後半以降に分析可能となり、後半以降は声の大きく図を指し示した部分に特に着目して発表者のプレゼンテーションを効率よく聞くことが可能となる。
次に、本実施形態による情報分析装置1の他の適用例について説明する。ここでは、ブレインストーミングタイプの会議で生成されるデータに情報分析装置1を適用した例である。ブレインストーミングタイプの会議が行われている会議室に設置されている複数カメラ、および複数マイクから動画像データおよび音声データが入力されると、音声処理部5は、音声処理を行って音声データから会議参加者の笑いを特定し、また、画像処理部4は、画像処理を行って会議参加者のうなずく行為を特定することによって、データBが生成され、データBがデータベース6に格納されると、データBをコピーしてデータAが生成される。
ここでは、会議の前半分のデータがデータAとしてデータベース7に格納されているものとする。初期データマイニング部8は、会議の前半分のデータAを対象として、既存のデータマイニングアルゴリズムを適用して、初期データマイニングを行い、データマイニングを行う過程で得られるデータの個数を中間結果としてデータベース9に保存する。
次に、会議の後半に入り、複数カメラ、複数マイクから新たに入力があった場合、音声処理部5は、音声データから会議参加者の笑いを特定し、画像処理部4は、画像データから会議参加者のうなずく行為を特定し、データBが生成され、データBはデータベース6のテーブルに格納される。さらに、データBはデータベース7にコピーされる。インクリメンタルデータマイニング部10は、生成されたデータBおよびデータベース9に格納された中間結果を利用してデータAを対象としたデータマイニングを高速に行う。
具体的には、従来は、データマイニングを行うために、通常は図3におけるデータAを対象として式1および式2を適用し、全ての属性間の全てのデータの組について、頻出パターンを抽出し、全参加者中の全ての行動間の組み合わせから会議参加者の笑いとうなずく行為の頻度の高さを網羅的に計算する必要があった。これに対し、本発明では、あらかじめデータベース9に格納しておいた中間結果を用いることにより、新しく入力されたデータBと、中間結果(データベース9)に格納された各データの個数からの合計を計算することができる。これにより、データAの参照を行うことなく、データAを対象とした式1および式2による相関ルールの抽出を行うことができる。例えば、データベース9の中間結果に蓄積された会議参加者の笑いが起こった回数と、うなずく行為の回数を獲得し、さらに、新たに次々と入力される会議参加者の笑いのイベントとうなずくイベントを加え、式1および式2を適用することにより、会議中の全てのイベント中の笑いと、うなずくイベントの頻度を計算することができる。このようにして、結果的に笑いとうなずきの相関ルールを高速に抽出することが可能となる。
このようにして、ブレインストーミングタイプの会議において、会議中にその会議の傾向を本発明の技術により分析し、それを受けて会議の後半に、前半を効率よく振り返ることが可能となる。また、時間的に同期したデータ群を対象として、本発明を用いてインクリメンタルにデータマイニングを行うことにより、その会議の後半にこの事実が判明し、結論の出た直後には安堵感から参加者の冗談から笑いが起こるのではないかと推定が可能となる。これより、会議の前半の結論を、会議の後半においてすでに効率よくチェック可能となる。会議の後半において、会議の前半の部分を分析し、さらに会議の参加者の判断を加えてより効率よい高度な会議を開催可能となる。
次に、本実施形態による情報分析装置1の他の適用例について説明する。ここでは、グループAとBの会議が並列して行われ、同一の目的で異なる主題について議論されている場合、本発明の情報分析装置1を適用した例である。グループAおよびBの会議の目的は、あるプロジェクトの関連技術を調査することであった。グループAの主題はソフトウェアの分野の技術を担当し、グループBの担当はハードウェア分野であった。両グループは、それぞれあらかじめ定めてあった関連技術の候補について審議する。
複数の会議室に設置されている複数カメラ、および複数マイクから動画像データおよび音声データが入力されると、音声処理部5は、音声処理を行うことによって、無音部分と人の話す声の部分から議論の白熱割合を特定し、また、画像処理部4は、画像処理を行うことによって、プロジェクタに写された資料の枚数から審議された技術の数を特定することによって、データBが生成され、データBがデータベース6に格納されると、データBをコピーしてデータAが生成される。ここでは、会議の前半分のデータがデータAとしてデータベース7に格納されているものとする。初期データマイニング部8は、会議の前半分のデータAを対象として、既存のデータマイニングアルゴリズムを適用して、初期データマイニングを行い、データマイニングを行う過程で得られるデータの個数を中間結果としてデータベース9に保存する。
次に、会議の後半に入り、複数カメラ、複数マイクから新たに入力があった場合、音声処理部5は、無音部分と人の話す声の部分から議論の白熱割合を特定し、画像処理部4は、プロジェクタに写された資料の枚数から審議された技術を特定し、データBが生成され、データBがデータベース6のテーブルに格納される。さらに、データBはデータベース7にコピーされる。インクリメンタルデータマイニング部10は、生成されたデータBおよびデータベース9に格納された中間結果を利用してデータAを対象としたデータマイニングを高速に行う。
具体的には、従来は、図3におけるデータAを対象として式1、および2を適用し、全ての会議中の事象間の同時に起こる頻度を計算することにより、頻出パターンをルールとして抽出していた。これに対して、本発明では、インクリメンタルデータマイニング部11により、図3におけるデータBと、あらかじめ蓄積した中間結果(データベース9)における各事象の起こった回数を差分のみ合計することにより、会議中の任意の時点での分析結果を、頻出パターンであるルールとして即時に得ることが可能となる。これにより、実質的に分析時間を最小限とすることが可能となる。
このようにして、グループAとBの会議が並列して行われ、同一の目的で異なる主題について議論されている場合、一方が自らと他方のグループのそれぞれの分析結果と同時に、両グループの分析結果も同時に得ることが可能となる。これにより、グループAは、ソフトウェア分野の技術のみならず、グループBにて審議中のハードウェアの審議の状況(プロジェクタに写された資料の枚数から審議された技術の数、無音部分と人の話す声の部分から議論の白熱の割合などの同期したデータの分析)を知ることにより、グループBの議論との位置づけを把握しながら効率のよい会議を行うことができる。また、同時に行われる複数の会議を本発明による分析およびそれらの比較により、それ以降の会議の効率化を促すことが可能となる。
複数の会議の記録を対象に連続的にデータマイニングを行う場合、非常に多くの計算量が必要であるが、本発明によれば、インクリメンタルなデータマイニング処理が行われ、会議中の任意の時点においてその時点までの分析が完了しているので、分析時間を実質的に最小限とすることが可能となる。
本実施形態によれば、同期して複数のデータが同時に入力され、連続的に対象データが生成される情報分析装置において、インクリメンタルにルールが生成されるため、複数のカメラにより連続的に記録される動画像群を対象として、複数のカメラ入力および音声入力の統合による効果およびインクリメンタルに行うデータマイニングによる効果を組み合わせ、効率的な情報分析装置を提供することができる。
なお、本発明による情報分析方法は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を用いて実現され、プログラムをハードディスク装置や、CD−ROM、DVDまたはフレキシブルディスクなどの可搬型記憶媒体等からインストールし、または通信回路からダウンロードし、CPUがこのプログラムを実行することで、各ステップが実現される。
プログラムは、同期した複数のデータに基づき得られる第1のデータを対象として、データマイニングを行う過程で得られるデータの個数を求めるステップ、前記第1のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第2のデータおよび前記データの個数に基づいて、前記第1のデータおよび前記第2のデータを対象としたデータマイニングを行うステップをコンピュータに実行させる。なお、初期データマイニング部8が第1のマイニング部、インクリマンタルデータマイニング部10が第2のマイニング部にそれぞれ対応する。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本実施形態による情報分析装置のブロック図である。 本実施形態による情報分析装置による中間結果の生成過程を説明する図である。 本実施形態による情報分析装置によるインクリメンタルなデータマイニングを説明する図である。 本実施形態による情報分析装置の処理手順を示すフローチャートである。 データベース6の内容を示す図である。 データベース7の内容を示す図である。 データベース9の内容を示す図である。 初期データマイニング部8の出力例を示す図である。 会議の後半のスタート直後のデータベース6の例である。 データベース7の内容を示す図である。 インクリメンタルデータマイニング部10の出力例を示す図である。 データベース9の内容を示す図である。
符号の説明
1 情報分析装置
2 複数カメラ制御部
3 複数マイク制御部
4 画像処理部
5 音声処理部
6、7、9 データベース
8 初期データマイニング部
10 インクリメンタルデータマイニング部
11 結果出力部

Claims (11)

  1. 同期した複数のデータに基づき得られる第1のデータを対象として、データマイニングを行う過程で得られるデータの個数を求める第1のマイニング部と、
    前記第1のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第2のデータおよび前記第1のマイニング部で求めたデータの個数に基づいて、前記第1のデータおよび前記第2のデータを対象としたデータマイニングを行う第2のマイニング部と
    を備えることを特徴とする情報分析装置。
  2. 前記データの個数を中間結果として格納するデータベースをさらに備えることを特徴とする請求項1記載の情報分析装置。
  3. 前記第1のデータおよび前記第2のデータを別々に格納するデータベースをさらに備えることを特徴とする請求項1に記載の情報分析装置。
  4. 前記第2のマイニング部による分析結果を出力する出力部をさらに備えることを特徴する請求項1記載の情報分析装置。
  5. 前記データの個数は、前記第1のデータに出現するデータアイテムごとの個数、および、それらの出現する組み合わせの個数であることを特徴とする請求項1に記載の情報分析装置。
  6. 前記同期した複数のデータは、複数の撮影装置から得た動画像データまたは複数のマイクから得た音声データを含み、
    前記動画像データまたは前記音声データに基づいて、所定の画像処理または音声処理の技術を用いて、イベントに関する人の識別情報、該人の座標、該イベントが起きた時間および該イベントの内容のうちの少なくとも一つを前記第1のデータおよび前記第2のデータとして生成する情報処理部をさらに備えることを特徴とする請求項1記載の情報分析装置。
  7. 前記イベントに関する人の識別情報、前記人の座標、前記イベントが起きた時間または前記イベントの内容を前記第1のデータとして格納するデータベースをさらに備えること特徴とする請求項6記載の情報分析装置。
  8. 同期した複数のデータに基づき得られる第1のデータを対象として、データマイニングを行う過程で得られるデータの個数を求めるステップと、
    前記第1のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第2のデータおよび前記第データの個数に基づいて、前記第1のデータおよび前記第2のデータを対象としたデータマイニングを行うステップとを含むことを特徴とする情報分析方法。
  9. 前記同期した複数のデータが、複数の撮影装置から得た動画像データ又は複数のマイクから得た音声データを含む場合、該動画像データ又は該音声データに基づいて、所定の画像処理または音声処理の技術を用いて、イベントに関する人の識別情報、該人の座標、該イベントが起きた時間および該イベントの内容のうちの少なくとも一つを前記第1のデータおよび前記第2のデータとして生成するステップをさらに含むことを特徴とする請求項8記載の情報分析方法。
  10. 前記データの個数は、前記第1のデータに出現するデータアイテムごとの個数、および、それらの出現する組み合わせの個数であることを特徴とする請求項8に記載の情報分析方法。
  11. 同期した複数のデータに基づき得られる第1のデータを対象として、データマイニングを行う過程で得られるデータの個数を求めるステップ、
    前記第1のデータに対して連続的に生成されると共に同期した複数のデータに基づき得られる第2のデータおよび前記第1のデータマイニングで求めたデータの個数に基づいて、前記第1のデータおよび前記第2のデータを対象としたデータマイニングを行うステップをコンピュータに実行させるためのプログラム。
JP2005040667A 2005-02-17 2005-02-17 情報分析装置、情報分析方法およびプログラム Pending JP2006227896A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005040667A JP2006227896A (ja) 2005-02-17 2005-02-17 情報分析装置、情報分析方法およびプログラム
US11/206,797 US7599904B2 (en) 2005-02-17 2005-08-19 Information analysis apparatus, information analysis method, and information analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005040667A JP2006227896A (ja) 2005-02-17 2005-02-17 情報分析装置、情報分析方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2006227896A true JP2006227896A (ja) 2006-08-31

Family

ID=36816821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005040667A Pending JP2006227896A (ja) 2005-02-17 2005-02-17 情報分析装置、情報分析方法およびプログラム

Country Status (2)

Country Link
US (1) US7599904B2 (ja)
JP (1) JP2006227896A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012038066A (ja) * 2010-08-06 2012-02-23 Mitsubishi Electric Corp データ処理装置及びデータ処理方法及びプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5003755B2 (ja) * 2007-03-29 2012-08-15 富士通株式会社 情報配信システム、情報配信方法、および、情報配信プログラム
US9401058B2 (en) 2012-01-30 2016-07-26 International Business Machines Corporation Zone based presence determination via voiceprint location awareness
US9678713B2 (en) * 2012-10-09 2017-06-13 At&T Intellectual Property I, L.P. Method and apparatus for processing commands directed to a media center
CN104463706B (zh) * 2014-12-10 2017-10-03 深圳供电局有限公司 一种用于电网检测电压暂降事件原因的方法和系统
CN104731669B (zh) * 2015-03-12 2017-10-03 深圳供电局有限公司 一种电力设备缺陷数据自动校验的方法及系统
CN105138656A (zh) * 2015-08-31 2015-12-09 浪潮软件股份有限公司 一种处理数据的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001344259A (ja) * 2000-05-31 2001-12-14 Toshiba Corp 情報分析方法および装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3175399B2 (ja) * 1993-05-18 2001-06-11 セイコーエプソン株式会社 カードデータ管理装置
JP3488104B2 (ja) * 1998-11-18 2004-01-19 富士通株式会社 移動体の特性抽出装置,特性抽出方法およびそのプログラム記録媒体
US6571245B2 (en) * 1998-12-07 2003-05-27 Magically, Inc. Virtual desktop in a computer network
US6421666B1 (en) * 1999-11-08 2002-07-16 Oracle Corporation Mechanism for sharing ancillary data between a family of related functions
JP3629514B2 (ja) * 2000-05-24 2005-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 領域算出方法、空間データマイニング装置、地図情報表示装置、空間データマイニングシステム、および記憶媒体
JP3515050B2 (ja) * 2000-07-07 2004-04-05 三菱電機株式会社 データベース演算処理装置
US6675164B2 (en) * 2001-06-08 2004-01-06 The Regents Of The University Of California Parallel object-oriented data mining system
US7747560B2 (en) * 2002-02-13 2010-06-29 Microsoft Corporation Methods and systems for providing a distributed database store with correlation service
US20030217055A1 (en) * 2002-05-20 2003-11-20 Chang-Huang Lee Efficient incremental method for data mining of a database
JP3701633B2 (ja) * 2002-06-21 2005-10-05 株式会社日立製作所 複数データベースにまたがる項目パターン抽出方法、ネットワークシステム及び処理装置
US20040064450A1 (en) * 2002-09-30 2004-04-01 Kabushiki Kaisha Toshiba Method for preparing data to be analyzed, data analysis method, data analysis device, data preparation program, data analysis program, data prediction device, data prediction method, data prediction program and computer
JP2004185547A (ja) * 2002-12-06 2004-07-02 Hitachi Ltd 医療データ解析システム及び医療データ解析方法
US20040215656A1 (en) * 2003-04-25 2004-10-28 Marcus Dill Automated data mining runs
JP2005033712A (ja) * 2003-07-11 2005-02-03 Sony Corp 情報処理装置および方法、並びにプログラム
JP4495960B2 (ja) * 2003-12-26 2010-07-07 キヤノンItソリューションズ株式会社 プロセスと品質との関係についてのモデル作成装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001344259A (ja) * 2000-05-31 2001-12-14 Toshiba Corp 情報分析方法および装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012038066A (ja) * 2010-08-06 2012-02-23 Mitsubishi Electric Corp データ処理装置及びデータ処理方法及びプログラム

Also Published As

Publication number Publication date
US7599904B2 (en) 2009-10-06
US20060184501A1 (en) 2006-08-17

Similar Documents

Publication Publication Date Title
US9691393B2 (en) Voice print identification for identifying speakers at an event
JP2006227896A (ja) 情報分析装置、情報分析方法およびプログラム
US10290322B2 (en) Audio and video synchronizing perceptual model
US20100172591A1 (en) Image-sound segment corresponding apparatus, method and program
CN107211061A (zh) 用于空间会议回放的优化虚拟场景布局
CN107210045A (zh) 会议搜索以及搜索结果的回放
WO2020147407A1 (zh) 一种会议记录生成方法、装置、存储介质及计算机设备
CN107210034A (zh) 选择性会议摘要
US9235918B2 (en) Audio media mood visualization
Chen et al. Emotion-based music visualization using photos
JP2006085440A (ja) 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
US20190199939A1 (en) Suggestion of visual effects based on detected sound patterns
JP2014139734A (ja) 情報処理装置および方法、並びにプログラム
JP6176041B2 (ja) 情報処理装置及びプログラム
CN108364653A (zh) 语音数据处理方法及处理装置
WO2019127940A1 (zh) 视频分类模型训练方法、装置、存储介质及电子设备
CN103609098B (zh) 用于在远程呈现系统中注册的方法和装置
KR0167815B1 (ko) 느린 동작 제공 방법 및 그 장치와 원 영상 프레임 스트림의 처리 방법 및 그 장치
JP2011053776A (ja) ストーリー生成システム、方法、およびプログラム
Koenig et al. Forensic authentication of digital audio and video files
JP2006121264A (ja) 動画像処理装置、動画像処理方法およびプログラム
Morita et al. A pattern mining method for interpretation of interaction
US9734844B2 (en) Irregularity detection in music
KR102636705B1 (ko) 음성 데이터에 포함된 개인 정보를 마스킹 처리할 수 있는 마스킹 처리 서버 및 그 동작 방법
US20230066829A1 (en) Server device, conference assistance system, and conference assistance method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100804

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100907