JP2011002911A - データ分析システム及び方法 - Google Patents

データ分析システム及び方法 Download PDF

Info

Publication number
JP2011002911A
JP2011002911A JP2009143733A JP2009143733A JP2011002911A JP 2011002911 A JP2011002911 A JP 2011002911A JP 2009143733 A JP2009143733 A JP 2009143733A JP 2009143733 A JP2009143733 A JP 2009143733A JP 2011002911 A JP2011002911 A JP 2011002911A
Authority
JP
Japan
Prior art keywords
analysis
data
intermediate data
evaluation value
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009143733A
Other languages
English (en)
Other versions
JP4980395B2 (ja
Inventor
Chigiri Utsugi
契 宇都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009143733A priority Critical patent/JP4980395B2/ja
Priority to CN201010115725.7A priority patent/CN101923557B/zh
Priority to US12/709,298 priority patent/US20100318492A1/en
Publication of JP2011002911A publication Critical patent/JP2011002911A/ja
Application granted granted Critical
Publication of JP4980395B2 publication Critical patent/JP4980395B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】分析処理の中間段階で生成されるデータを効率よく保存して中間データを再利用することを目的とする。
【解決手段】分析の中間段階で生成されたデータを保存しておき、保存したデータに対するフィードバック情報を定量化したものを評価値として受け付け、評価値が与えられなかった中間データについては優先的に削除する一方で、特に高い評価値を受け付けた中間データに対しては、類似するデータの分析処理を行い、比較対象となるデータの分析や派生的に想定される分析が高速に行えるように、バックグラウンド処理で中間データの自動管理を行う。
【選択図】図19

Description

本発明は、並列分散情報処理環境を用いた大規模データ分析とそのビジュアリゼーションを行う装置、及び方法に関する。
高速で安価な計算処理環境が整えられたことによって、業務作業の効率化や設備の最適化に関する分析が一般的に行われるようになった。これらの処理では、大規模なログデータからパターンを発見・抽出して、仮説モデルを形成する発見的なプロセスが必要とされる。
このようなログデータからの大規模データ分析は、現時点においては完全に自動化はされておらず、特に初期のデータ関係性の模索(データの相互間関係)段階においては、データの相関性や時間的反復に関するパターンの発見において人間の関与を必要とする場合が多い。この際、分析の切り口の着眼点を発見するために、様々な手法で処理したデータを可視化して提示し、人間の直感的な理解を促進して、人間によるフィードバック作業を計算プロセスに取り込む分析環境が必要とされる。こういった環境においては、人間に負担をかけずに計算機側がサポートを行える操作性と、効率の良い計算リソースの利用を両立させることが重要となる。このようなデータ解析は、データマイニングとして知られており、例えば、特許文献1または非特許文献1が知られている。
特開2008−204282号公報
並列データマイニングアーキテクチャ 松本 和宏ほか 電子情報通信学会技術研究報告. IEICE technical report. Data engineeringVol.97, No.417(19971202) pp. 33-38 社団法人電子情報通信学会
しかしながら、上記従来例では、データパターンの初期分析において大規模なデータが対象となる分析では、素データのサイズが大きくなると、データ抽出プロセスにも分析処理のプロセスにも大きな計算負荷と時間がかかるため、試行錯誤のためのインタラクティブ性は阻害され、パターンの発見にも多量の時間がかかる。
このようなデータ処理を繰り返す際に、幾つかの異なるデータ処理プロセスが、分析処理プロセスの一部を同じ条件や類似した条件で繰り返し実行することがある。この際には、各要素プロセスの中間出力結果を保持して再利用することによって、二回目以降の処理プロセスを高速化できる場合がある。
しかし、データの再利用は計算処理を削減する一方で、中間処理の結果をあまりにも多く保持しすぎると、大量の外部記憶領域を消費してしまい、ストレージ装置を使用する際のコストパフォーマンス面では効率が悪くなる。また、分析に供する素データには、ある特有の条件によってデータベースから絞り込まれたサブセットのみが用いられることが多い。この場合、考えうる中間データの組み合わせが爆発的に増加し、どの条件下の中間データを保持するかの判断が困難になる。
これらの理由から、再利用を想定した中間データの管理を行い、最適化することにはコストパフォーマンス面での問題が多く存在した。
そこで本発明は、上記問題点に鑑みてなされたもので、分析処理の中間段階で生成されるデータを効率よく保存して中間データを再利用することを目的とする。
本発明は、プロセッサと記憶装置を備えた計算機で、素データを分析して分析結果を出力するデータ分析システムであって、前記素データを格納する素データ格納部と、前記素データを読み込んで分析を行い、当該分析の過程で中間データを生成して分析結果を出力する分析部と、前記分析部が生成した中間データを格納する中間データ格納部と、前記分析部が出力した分析結果に対する評価の値を受け付ける評価受付部と、を備え、前記分析部は、前記分析の際に前記中間データ格納部の中間データのうち利用可能な中間データを参照し、前記評価受付部は、前記評価の値に対応する前記中間データに前記評価の値を分配し、前記分配した評価の値が所定の条件を満たしたときに、当該評価の値に対応する前記中間データを削除する。
したがって、本発明によれば、中間データを利用した高速な分析処理を実現できる。
本発明の第1の実施形態の分析システムの一例を示すブロック図である。 本発明の第1の実施形態の情報処理装置の構成を示すブロック図である。 本発明の第1の実施形態のデータ分析処理手順を示す模式図である。 本発明の第1の実施形態の分析課題の入力・可視化・評価の流れを示す全体的なフローチャートである。 本発明の第1の実施形態の分析のフローを記述するためのスクリプトのデータ構造を示す模式図である。 本発明の第1の実施形態の分析サーバPCの分析スケジューリングプログラムの処理の一例を示すフローチャートである。 本発明の第1の実施形態の入力データを管理するテーブル情報のデータ構造を示す。 本発明の第1の実施形態の分析サーバPCが実行する分析フローの合同性・類似性の検査の一例を示すフローチャートである。 本発明の第1の実施形態の子分析サーバPCで行われる分析処理の一例を示すフローチャート。 本発明の第2の実施形態を示し、DBが保持する時空間情報の一例を示す説明図である。 本発明の第2の実施形態を示し、空間情報を管理する木構造の模式図である。 本発明の第1の実施形態の分析サーバPCで稼動するスケジューラプログラムの中間データの評価値の再計算とデータ管理の一例を示すフローチャートである。 本発明の第1の実施形態を示し、図12の工程1304で分析サーバPC21が中間データの評価値の再計算を行う処理を示すフローチャートである。 本発明の第2の実施形態の分析サーバPCで行われる中間データを生成するスクリプトを作成する処理の一例を示すフローチャートである。 本発明の第2の実施形態の分析サーバPCで行われる中間データの評価値の再計算とデータ管理の一例を示すフローチャートである。 本発明の第1の実施形態の中間データを再利用するスクリプトの作成処理の一例を示すフローチャートである。 本発明の第1の実施形態の中間データを再利用したときのデータの木構造を示す模式図である。 本発明の第1の実施形態の中間データを再利用したときのデータの木構造を示す模式図である。 本発明の第3の実施形態の分析サーバPCが実行する分析フローの合同性・類似性の検査の一例を示すフローチャートである。 本発明の第1の実施形態の各情報処理装置で実行されるプログラムの関係を示すブロック図である。 本発明の第2の実施形態を示し、各情報処理装置で実行されるプログラムの関係を示すブロック図である。 本発明の第5の実施形態を示し、分析システムの一例を示すブロック図である。 本発明の第5の実施形態を示し、分析結果の画面イメージである。 本発明の第1の実施形態の分析フローの合同性・類似性を返すデータ構造の模式図。 本発明の第1の実施形態のキャッシュDBが実行する分析フローの合同性・類似性の検査の一例を示すフローチャート。 本発明の第1の実施形態の分析結果が可視化された画面の一例を示す画面イメージ。 本発明の第1の実施形態の可視化モジュール(分析サーバPC)の一例を示すブロック図である。 本発明の第1の実施形態の可視化モジュール(クライアントPC)の一例を示すブロック図である。 本発明の第3の実施形態のデータ分析処理をマージするために必要な情報を管理するためのデータ構造を示す。
以下に本発明を実現するための最適な実施の形態を挙げ、添付図面に基づいて説明する。
<全体構成>
図1は、本発明の第1の実施形態の分析システムの一例を示すブロック図である。
クライアントPC201は、利用者200のユーザインタフェースとして機能し、利用者200からの入力を受付け、処理結果を画面に出力するための情報処理機器である。
このクライアントPC201は、利用者200からの入力を受け取るキーボードやマウスで構成されるインタフェース機器202と、利用者に対して結果の画像や文字列を出力するディスプレイ機器203と、利用者200の表情や行動を撮影するカメラ機器204への入出力手段を有する。
分析サーバPC210は、ネットワーク205を介してクライアントPC201から送られてきた分析処理プロセスのメッセージを処理し、分析内容が該当するデータの範囲を抽出し、抽出したデータに情報処理を行った結果を再びクライアントPC201に通知にするための情報処理機器である。
子分析サーバPC221〜223は、分析サーバPC210が行う情報処理内容からネットワーク220を介して部分問題(情報処理の一部)を受け取って処理するための情報処理機器である。図1においては子分析サーバとして3台の子分析サーバPC221〜223が記述されているが、この子分析サーバの台数を増やすことによって計算処理能力を向上させることができる。
データベース(以下、DB)231〜233は、ネットワーク230を介して子分析サーバPC221〜223と接続され、分析の対象となる大量の素データをストレージシステム内に保持し、後述する制約条件を含むリクエストに応じて、保持しているデータの一部を抽出して送信する情報処理機器である。また、キャッシュDB241はネットワーク220を介して分析サーバPC210と、子分析サーバPC221〜223に接続され、分析サーバPCと子分析サーバPC221〜223によって分析処理を行われた後のデータを一時的に保管する機能を実現する情報処理機器である。なお、素データは、分析を行うために予め収集したデータである。
<情報処理機器の構成>
クライアントPC201、分析サーバPC210、子分析サーバPC221〜223、DB231〜233、キャッシュDB241の各要素は、標準的な情報処理装置を用いて実装される。
図2は、このような標準的な情報処理装置300を実現するための機構の例を示すブロック図である。情報処理装置300は、中央演算処理装置305、主記憶306、外部記憶装置307と、外部に表示する画像を作成する映像出力部308、外部入出力インタフェース部309、ネットワークインタフェース部310の要素から構成される。
これらの各情報処理機器の実装は汎用の計算機として実装されている既存の各種に準じる。また、外部入出力インタフェースにはUSBなど汎用の外部機器制御インタフェースを用いる。また、情報処理機器は互いにネットワークIF309を介してメッセージを交換するが、このネットワークの実装には、TCP/IPなどの既存のメッセージ交換用プロトコルを利用する。
<メッセージの流れとプロセス>
図19は、クライアントPC201、分析サーバPC210、子分析サーバPC221〜223、DB231〜233、及びキャッシュDB241の各情報処理装置上で実行されるプログラムと、各プログラム間で行われるメッセージの流れを示したものである。
クライアントPC201では、分析処理入力プログラム2010、分析結果提示プログラム2011、評価結果入力プログラム2012、推奨分析処理提示プログラム2013が主記憶306上に読み込まれ、それぞれ非同期で中央演算処理装置305により実行され、外部入出力インターフェース309とネットワークインターフェース310でメッセージと入力を受付け、情報処理を行う。
分析サーバPC210では、スケジューラプログラム2101、データ分析プログラム2102が主記憶306上に読み込まれ、それぞれ非同期で中央演算処理装置305により実行され、外部入出力インターフェース309とネットワークインターフェース310でメッセージと入力を受付け、情報処理を行う。
子分析サーバPC221は、分析サーバPC210のデータ分析プログラム2102からのメッセージを受信し、メッセージに指定された所定のデータ分析モジュール2211かデータ抽出プロセス2212を主記憶上に読み込み、中央演算処理装置305により情報処理を行う。この際、処理を行うことが可能な子分析サーバPC221〜223が複数存在する場合には、データ分析プログラム2102は後述の手順に従いデータ分析処理内容の一部を子分析サーバPC221〜223に割り当てて並列に実行させる。
DB231には、保存されている素データを外部記憶装置307から読み取って転送するデータ管理プログラム2311が主記憶306上に読み込まれ、外部入出力インターフェース309とネットワークインターフェース310でメッセージと入力を受付けて、必要データの抽出と転送処理を行う。
キャッシュDB241には、保存されている内部データ(中間データ)を登録し、類似する中間データを検索するキャッシュデータ検索プログラム2411と、キャッシュデータを記憶装置から読み取り転送するキャッシュデータ管理プログラム2412が主記憶306上に読み込まれ、それぞれ非同期で中央演算処理装置305により実行され、外部入出力インターフェース309とネットワークインターフェース310でメッセージと入力を受付け、情報処理を行う。
以下、これらプログラムの連携処理と分析処理を行う過程を、記述する。
<分析課題の記述形式(スクリプト)の定義>
分析課題となるデータ分析は図3で描かれる木構造で示されるフロー(データ分析フロー)で表現される。このデータ分析フローを計算機(分析サーバPC210)内部で保持するためのデータ構造600を図5に示す。図5において、木構造はノード構造体610、620らのリストとして表現される。主記憶のメモリ領域にはノード構造体の全数を管理する数値として要素数601が記述される。データ分析ノードの構造体610は、作成時の優先度や保存状況を示す管理データ611、処理プロセスのID番号612、入力データ(子ノード)のID番号のリスト613、614、出力データ(親ノード)のID番号615、その他分析内容に応じた汎用パラメータを格納する領域616から構成される。処理プロセス番号612は処理内容のプログラムを外部記憶装置307の所定位置から呼び出すためのID番号である。
また613〜615のID番号は、(a)データ分析フロー内の別の構造体620などを指すローカルポインタ、(b)参照するDBのデータベース番号(図3の401〜403)を示すID番号、(c)キャッシュDB241内の管理テーブルのID番号のいずれかまたは複数が記載されるデータ領域である。また汎用パラメータ616は、DBからの絞り込み条件や、分析処理アルゴリズムの調整パラメータなどが記載される領域である。
<分析課題の入力方法>
分析サーバPC210が実行するスケジューラプログラム2101は、クライアントPC201から依頼されるデータ分析の課題を前述のデータ構造600で受け取り、管理データ611に付加された優先度の数値に応じて順に実行する。本実施形態では、分析処理入力プログラム2010を通じて、クライアントPC201で利用者200が明示的に入力する分析手順のスクリプトに従って分析を行う。
図4は、利用者がクライアントPC201の分析処理入力プログラム2010から、明示的にデータ分析の内容を入力して分析を実行する際の過程を示すフローチャートである。
工程501は、クライアントPC201が処理フローのデータを定義する工程である。この工程では、クライアントPC201が提供する情報入力プログラム(図示省略)のインタフェースを通じて、利用者200が図3のグラフ構造を入力する。
この入力作業には、文字シンボルを用いて木構造とID番号を表現するCUIや、図として表現・入力を行うGUIとして入力する手法をとる。これらの入力手法に関しては、既存の情報分析機器において実装されているものを流用できる(この木構造データの入力手法は、Lisp等の記述でみられる括弧式による定義や、GUIによるインタラクティブな接続手法があるが、ともに広く知られた計算機上の一般技法であり、本実施形態の新規性が含まれている部分ではないため手順の詳細は省略する)。
図3の例では、DB401〜403からデータ抽出モジュール411〜413によりデータを抽出し(421〜423)、データ421と422は処理プロセス431で処理を行ってデータ432を出力し、処理プロセス441では、データ423と432を処理してデータ442を処理し、クライアントPC201に表示する(450)という木構造のデータ分析フローを示している。なお、処理の途中で生成されたデータ421〜423,432は中間データとなり、後述するようにキャッシュDB241に保持される。
<サーバへ送信>
工程502では、上記で作成されたデータ分析フローの構造データを分析サーバPC210に転送し、分析サーバPC210で処理を行った結果を待つ間、このプロセスは待機状態に入る(工程503)。この間に実行される分析サーバPC210の処理に関しては、図6のフローチャートを用いて後述する。
<分析プロセスの終了>
可視化モジュール(図3の450,図19の2011)以外の全要素の分析処理が終わった場合には、分析サーバPC210からクライアントPC201へ分析結果が送られてくる。クライアントPC201は、分析結果を受信し(504)、受信したデータを入力として、可視化モジュール(分析結果提示プログラム2011)を起動する。
<可視化モジュールの構成>
可視化モジュールを構成する実装の一例を、図26A、図26Bに挙げる。可視化モジュールは、図2に示される汎用計算機器である分析サーバPC210とクライアントPC201上の分析結果提示プログラム2011として実現される。可視化モジュールは、分析サーバPC210上に配置された分析結果提示プログラム2011であり、図26A、図26Bで示すように、コンテンツDB2710と、クライアントPC201上に配置されたプログラムである表示ビューア2720という二つの部分によって構成される。
分析サーバPC210の表示コンテンツDB2710は、画像処理の内容を記述したスクリプトを蓄えたデータベースである。表示コンテンツDB2710は、スクリプトの一つを指定する文字列またはID番号と、所定のフォーマットで蓄えられたデータを受け取り、検索プログラム部分2711によってスクリプトの文字列コード(2701〜2707)のデータベースから指定された当該コード2701を呼び出し、呼び出したソース文字列のコード2701と図26Bのデータ構造体802を合わせてクライアントPC201のお表示ビューア2720に送信する機能を持つ。以下、このスクリプト2701とデータ構造体802を合わせたものを、表示コンテンツと呼ぶ。
表示ビューア2720は、映像表示内容を記述するスクリプト部分(表示コンテンツ)2701、802と、そのスクリプトが示す手続きを解釈するインタプリタ部分(2722)、手続き結果をインタラクティブに実行した結果を画面上に表示する提示部分2721から構成される。インタプリタ部分2722は、スクリプトを順に実行し、スクリプトが指示する手法にしたがってデータ構造体802を読み込み、提示部分のプログラムを実行してディスプレイ機器203に画像情報として表示する。このような表示スクリプトの解釈と表示システムの一般的な実現例として、インターネットのブラウザにおけるJava(登録商標)Scriptの動的な解釈機構などを利用して実現することができる。
<可視化モジュールの実行>
この可視化モジュールでは、静的な画像・インタラクティブに制御可能な表示コンテンツなどを生成し、クライアントPCにそのデータを転送する。クライアントPCのビューアは、このデータを画面上に提示し、待機、またはインタラクティブな入力を受付ける。
図25は、可視化モジュールによる表示イメージの例を示したものである。地図2601上に重畳して各区分域を分析したデータの内容が図中2602のようなアイコンを伴った図として表現され、点の大きさと色によって分析結果のデータが表現される。また、この際、インタフェース機器202からの命令に併せて、地図の各部分をインタラクティブに拡大/縮小して表示する。
この表示と閲覧作業の終了時に、評価結果入力プログラム2012は、図25の数値入力画面2603を利用者200に提示し、分析結果に対する評価値の入力を促す(工程506、507)。評価値が入力された場合には、この値は分析サーバPC210のスケジューラプログラム2101に送られ、キャッシュDB241に保存された中間データの管理に用いられる(工程508)。この中間データの管理手順に関しては、図12のフローチャートを用いて後述する。
<分析処理サーバ>
図6のフローチャートは、分析サーバPC210の処理工程を示したものである。
分析サーバPC210は、分析対象となる分析フローを登録するキューを主記憶306に保持している。以下、このキューを未実行キューと呼ぶ。初期状態においては、分析サーバPC210は構造データと分析処理開始メッセージへの受付け状態で待機している(工程701)。メッセージを受信した際、メッセージが新規の分析フローである場合には工程703〜711の処理内容を実行し、メッセージが子分析サーバPC221〜223からの部分分析終了の通知であった場合には、工程712〜719を実行する(工程702)。
<新規分析フローの場合>
工程701で受信したメッセージがクライアントPC201からの新規分析フローの場合の挙動を、分析のルートがデータ構造対610で表現される木構造の分析であるとして、工程703〜711の工程を説明する。この木構造の親分析(処理プロセス番号612)のIDと共に、各入力データ613〜614をリストにした構造体データを作成する。以下ではこの構造体を、子ノードリストと呼ぶ(工程703)。
分析サーバPC210は、各入力データ613〜614(子ノード)について、このノードがDB231〜233を直接参照するデータ抽出プロセスであるかを確認する。その場合、子分析サーバPC221〜223にデータの抽出処理を依頼する(工程712)。
データ抽出プロセス以外の場合には、分析サーバPC210はその中の子ノードを一つずつ選び、相当する分析内容について、工程706〜710の処理を行う(工程705)。まず、分析サーバPC210は、既にキャッシュDB241に中間データが登録されているか否かの判定をキャッシュDB247に依頼する。分析サーバPC210は、このためにデータ構造600から辿れる全データをリストにして、類似データの検索依頼のためのメッセージを作成し、キャッシュDB241に転送する(工程706)。以下、このリストを部分分析フロー処理スクリプトと呼ぶキャッシュDB241のキャッシュデータ検索プログラムは、分析サーバPC210から送られてきた部分分析フロー処理スクリプトと、キャッシュデータ管理プログラムのテーブルに登録されたデータとの間での条件比較を行う。このキャッシュDB241が行う条件比較の処理については、図8のフローチャートに従って行われる(後述)。条件比較が終わるとキャッシュDB241からは、再利用可能性についての判断と登録番号がセットになったデータが送られてくる(工程707)。
再利用可能な該当データがキャッシュDB241に既に存在する場合には、キャッシュDB241から送られてきた中間データの保存位置を示す番号(登録番号)を、子ノードリストに書き込み、同時にこの子ノードの実行済みフラグをONにする(工程708)。
再利用可能な該当データ(中間データ)がキャッシュDB241に存在しなかった場合には、キャッシュDB241から送られてきた中間データ保存位置を示す番号(未処理)を、子ノードリストに書き込み、同時にこの子ノードの実行済みフラグをOFFにする(工程709)。この分析フローから、子ノードをルートとする部分木を抽出して、新たな分析フローを作成し、新規分析フローとして再帰的な登録(701)を呼び出し、スケジューラプログラム2101自身に対して行う。
<部分分析終了の場合>
工程701で受信したメッセージが、子分析サーバPC221〜223からの部分分析終了の場合の処理を説明する。子分析サーバPC221〜223から送られてくる情報には、キャッシュDB241の中間データ保存位置を示す番号が示されている。未実行キューに登録されている全ての子ノードリストからこの番号を検索し、該当番号が子ノードに含まれている子ノードリストについて工程723〜727を行う(工程721、722)。
まず、分析サーバPC210は、子ノードの実行済みフラグをONにする(工程723)。次に、子ノードリストに含まれる全要素が、実行済みであるかどうかを調べる(工程724)。子ノードリストの全てが実行済みの場合、この親分析のIDが可視化モジュール2011であるか、データ分析モジュール2211であるかを判定する。親分析のIDがデータ分析モジュール2211の場合、分析サーバPC210は、子分析サーバPC221〜223にデータ分析モジュール2211のプログラムの実行を依頼する。一方、親分析のIDが可視化モジュール2011である場合には、キャッシュDB241から分析結果のデータを読み込み、クライアントPC201に可視化モジュール2011の実行を依頼する。
<待機状態>
以上の処理が終了した時点で、分析サーバPC210は工程720で再びメッセージ待機状態に入り、次の受信を待つ。
<同一性の判定>
キャッシュDB241に登録されている分析データ(中間データ)と、部分分析フロー処理スクリプトとの間の、合同または類似性を判断する一連のルーチンは、図8と図24のフローチャートで示される。この判断処理は、図8に示す個別の分析フローについて再帰的に一致性をチェックする工程900〜907の個別判定ルーチンと、図24に示すキャッシュDB241内の全中間データについて個別判定ルーチンを実施する全体のルーチンの二つによって構成されている。
全体のルーチンは、目的の分析フローと、キャッシュDB241が保持する中間データに保存された分析フローを比較して、(i)まったく同一の分析フローが存在した場合(合同)、(ii)類似分析フローであるがデータ絞り込み範囲のパラメータが異なっていた場合(類似)を判定し、(i)、(ii)それぞれの中間データがあった場合には図23の2410に示される構造体にデータを入れ、それらの構造体のリストを帰り値として返すものである。
また、個別判定のルーチンは、目的の分析フローと、中間データに保存された分析フローを比較して、木構造が類似している場合にはTrueを返し、木構造が異なっている場合にはFalseを返す。また、木構造の各ノードのパラメータが不一致である場合には、そのノードでの差分情報をスタックに追加して返す。
図8の工程901では、分析サーバPC210は、データ分析処理の該当ノードにある要素分析処理と、キャッシュDB241のデータ分析処理の該当ノードにある要素分析処理のプログラムID番号を比較する。この比較結果が異なっていた場合には、類似している分析処理結果が発見できかったものとみなして再帰的な判定処理を打ち切り(図中、個別判定No)、としてFalseの値を帰り値として返す。
工程902ではデータ分析処理の該当ノードにある要素分析処理と、キャッシュDB241のデータ分析処理の該当ノードにある要素分析処理の、汎用パラメータ616に格納された情報を比較する。この比較結果が異なっていた場合(図中、個別判定No)には、同一の分析処理結果は発見できかったものとみなしてFalseの値を帰り値として返す。
工程903では、データ分析処理の該当する要素分析処理ノードに子ノード(すなわち入力データ613〜614)が存在するかをチェックする。ただし、この要素分析処理が必要とする入力がDBを示すIDだけであった場合には、DBのテーブルを示すID番号を調べ、異なっている場合にはFalseを返す。同一であった場合には、この要素分析処理については同様の処理を行っているとみなしTrueを返す。
工程904〜906では、キャッシュDB241のデータ分析処理の要素分析処理の子ノードを順に探索し(工程904)、この子ノードと、キャッシュDB241のデータ分析処理の該当位置にある要素分析処理との同一性を確認するため、それらのデータに対して再帰的に同ルーチン900を実行してチェックする(工程905)。この子ノードを再帰チェックした結果がFalseであった場合には、帰り値としてFalseを返す。全ての子ノードの結果について再帰処理が終わって一度もFalseが帰ってこなかった場合には、Trueを返す。
以上の再帰フローをチェックした結果、結果が全ての子ノードに対して一致していた場合には、木構造のノードの基本形状が類似であったとみなされる。また、加えてスタックが空であった場合には合同であったとみなされる。
キャッシュDB241における中間データの探索は、上記の個別判定ルーチンを繰り返すことで行われる。一方、キャッシュDB241が課題となる分析フローを受け取った場合、図24の処理を開始する(工程920)する。キャッシュDB241内に登録されている中間データを選択し(工程921)、管理テーブル(その構造体は図7で示される)に保存されている作成スクリプト801との比較を上記の手法で行う(工程922)。
上記比較の結果、帰り値がFalseである場合には、データ間に類似性が無いため、次のデータを探索する(工程923)。一方、上記比較の結果、帰り値がTrueである場合には、再帰フローの終了時のスタック状態を参照する(工程924)。保存されているデータと、検索対象の分析フローの処理が合同であった場合には、スタックには一切の情報が詰まれていない。この場合、中間データを完全に再利用することが出来るため、このキャッシュDB241を指し示すポインタ情報(ID)を、合同分析データのID2410の構造体に記述し、リストに追加する(工程928)。
また、もしもキャッシュDB241に保存されているデータが類似しているが異なったデータである場合には、その違いを示すデータがスタックに詰まれている。この場合、この類似データについては、各要素分析処理に関連付けられたデータ合成用のプログラム(後述)を用いて、データの不足分・改変分を補うことが出来るかどうかのチェックを行う(このチェック内容の手順は、図16にしたがって後述する)(工程925)。図16のフローチャートの帰り値から再利用可能か否か判定し(工程926)、不足分のデータを補うことで出力結果が作成できる場合には、不足するデータ部分の処理作成とデータの合成処理を、分析フロー処理スクリプトとして作成し、新たに分析サーバPC210の処理として登録する(工程927)。
次に、キャッシュDB241は、図23の構造体2420を作成し、このキャッシュDB241を指し示すポインタ情報(ID)を類似分析データのID2421に格納し、差分情報を2422に格納して、リストに追加する。(工程928)。キャッシュDB241は、全てのチェックが終了したことを判定した場合(工程929)、中間データの検索結果をリストとして分析サーバPC210に返す(工程930)。
<子分析サーバの処理>
分析サーバPC210が依頼した各要素分析の処理は、子分析サーバPC221〜223において実行される。
分析処理のモジュール2211には、データ抽出モジュールと、データ分析モジュールの二種類がある。データ抽出モジュールは図5の入力データ613としてDBのテーブルを示すIDを持ちパラメータ616の制約条件に従って必要なデータのみをDBから抽出する。分析サーバPC210のデータ分析モジュール2102はID613〜614で示される他のモジュールの出力した中間データを入力として受け取り、パラメータ616の条件で分析処理を行う。
また、各データ分析モジュール2211には、キャッシュDB241に蓄えられた中間出力結果(中間データ)を再利用して新規データの処理を行うため、合成演算処理と削減演算処理が別途用意される。この合成・削減処理の内容については後述する。
データ分析モジュール2211のプログラムには、情報処理において一般的に用いられる様々な計算処理が実装される。本実施形態ではこのデータ分析モジュール2211が行う処理の代表的な例として、時系列データの移動平均フィルタリング、データ要素毎の共分散行列、データ要素のクラスタリング、クラス間の距離関数などを求める分析手法のモジュールが実装されているものとする。
本実施形態では、これらの各データ分析モジュール2211は、グループ化されたデータと、処理パラメータを入力として受付ける。各データ分析モジュール2211はそれぞれ固有の入出力データの型と個数が定義されており、モジュール処理の実行前にはこの変数型の適合性をチェックするこの入出力のデータ型の例として、時系列データ、単位時刻毎にセグメント化された時系列データ、クラスタリングによって分けられた状態クラスなどがある。
これらのデータ分析モジュール2211のプログラムは、あらかじめ子分析サーバPC221〜223内のROM、またはストレージ領域(外部記憶装置307)にあらかじめ保持されている。データ分析モジュール2211のプログラムのインスタンスの生成するための情報は、要素分析プロセスを行う上記プログラムモジュールと、処理対象となるデータ、そしてそれらの接続関係を示す木構造によって表現することができる。
分析サーバPC210から送られてきたデータ分析ノード構造体610に記載されたメッセージを受け取ると、子分析サーバPC221〜223はこれらの要素分析プロセスのインスタンスを生成する。
この各プログラムモジュール(データ分析モジュール2211)の実行インスタンスでは、キャッシュDB241のデータ保存先を示すID番号が、入力データと、出力データ、実行時のパラメータとして使用され、実行時のデータの入出力に用いられる。
図9のフローチャートは、子分析サーバPC221〜223での分析処理インスタンスを実行する一連の手順を示したものである。
子分析サーバPC221〜223では、スケジューラが分析サーバPC210からの処理内容を待って待機している(工程1000)。子分析サーバPC221〜223が処理内容を受信した場合、データ分析ノード構造体610の処理プロセス番号612のプログラムをROMまたはストレージ領域から読み込み(工程1001)、同時に入力データ613〜614をキャッシュDB2412からそれぞれ読み込む。また、子分析サーバPC221〜223から図7に示す入力データを管理するテーブル情報800を同時に読み込む。
工程1003では、子分析サーバPC221〜223は読み込んだプログラムを読み込んだデータに適用して実行する。その計算結果をキャッシュDB2412に保存する(工程1004)。また、この処理にかかった時間を作成所要時間(差分)として図7に示すキャッシュDB241の管理テーブル情報800の作成所要時間(差分)803に入力し、入力データの所要時間として登録されていた作成所要時間(トータル)804の合計値に、このプロセスの所要時間を足したものを、作成所要時間(トータル)804に保存し、プロセスの終了を分析サーバPC210に送信する。
<データ分析プログラムの入力に対する結合・分離性について>
本実施形態において特徴的な点の一つとして、既に計算が終わった出力データ(分析結果)が存在する場合に、入力データの増加・削減といった変動に対し、新規の入力データと既存の処理結果の間での結合(合成)または分離が可能であるかどうかを返す関数が存在し、合成・分離が可能である処理については、そのためのアルゴリズムも記述される。
入力データの結合が可能である場合とは、データ分析モジュール2211の出力結果gをもちいて、(1)式の関数fが定義できる場合を指す。
f1(g(a)+g(b)) = g(a+b) ………(1)
ただし、gは各データ分析モジュール2211のプログラムの処理を表す関数であり、入力セットa、bの出力をg(a)、g(b)と記述する。関数f1は処理結果g(a)とg(b)を入力として処理を実行する関数である。a+bは入力セットaとbの和集合とする。
データ分析モジュール2211のクラスは、結合可能性を返すメンバ関数と結合処理を行う関数へのインタフェースを持つ。このメンバ関数は、二つの入力データセットとそれぞれの出力結果がある場合に、2つの出力結果を処理することで、入力データセットを合成して処理した結果と同じ結果を返すことが出来る場合にはTrue、そうでないときにはFalseを返すスタティック関数である。前者の場合には、結合処理を行う関数fを実現するプログラムを定義する。
このようなデータの合成が可能な処理の簡単な例として、データの数と平均と分散を返す計算処理などをあげることができる。
一方、入力データの削減が可能である場合とは、データ分析モジュール2211の出力結果gを用いて、(2)式の関数f2が定義できる場合を指す。
f2(g(a+b)、a)=g(a)
ただし、gは各データ分析モジュール2211のプログラムの処理を表す関数であり、入力セットaの出力をg(a)と記述し、a+bはaとbの和集合とする。このとき関数f2は処理g(a+b)の結果とその部分集合の範囲aを入力として動作する関数をさす。
データ分析モジュール2211のクラスは、分解可能性を返すメンバ関数と、分解処理を行う関数へのインタフェースを持つ。この関数は、入力データセットとその出力結果がある場合に、入力データセットの部分集合を入力として処理した場合の出力結果を得ることが出来る場合には、True、そうでないときにはFalseを返すスタティック関数である。前者の場合には、分解処理を行う関数fが定義されている。
このような処理の例として、移動平均など、データ処理にローカルな局所性が保障されているフィルタ処理をあげることができる。
また、入力データの合成が可能である関数については、全体の出力結果を中間データとして保持するだけでなく、各部分集合のグループを個別に処理した各出力結果を中間データとして保持しておくことによって、グループ単位での削除を可能にすることが出来る。
<データを合成・新規フローを作成するためのルーチン>
また、各データ分析モジュール2211は、過去に出力した結果(中間データ)を再利用して、新規データの計算コストを省くことが出来るかどうかを判定するアルゴリズムを有する。このアルゴリズムを図16に示す。
データ分析モジュール2211は、入力データxを処理した中間データg(x)が既にキャッシュDB241に存在しており、今回の処理は入力データyからg(y)の処理を行うことが目的である。図17A、図17Bは、この処理の結果としてできあがる新規の木構造データの模式図である。
図16において、各入力データについて、既存の中間データの入力データxと、目的の入力データyの間の包含関係を調べるために、入力データxと入力データyの共通部分z(積集合)を抽出する(工程1701,1702)。
入力データxと入力データyに共通部分zがない場合には、再利用不可能としてFalseを返す(工程1703、1712)。
一方、共通部分zがあり、入力データyが共通部分z以外のデータを含んでいる場合には(工程1704)、前述のメンバ関数を用いて当該モジュールに入力データの結合処理f1が可能であるかどうかを問い合わせ、不可能な場合には、再利用不可能としてFalseを返す(工程1705、1712)。
このチェックの結果、入力データyが共通部分z以外の要素を含む場合には、入力データxの作成を行った中間結果のデータフロー(スクリプト)をキャッシュDB241に保存された構造体データの領域801からコピーする(工程1706)。
以下、説明のため、このデータg(x)の導出処理を図17Aの1810で表現する。この対象データの抽出処理1802のパラメータを入力データxから入力データy−共通部分zに(1822)に書き換えて、データg(y−z)を導出するフローに変換する(工程1707)。
入力データxが共通部分z以外の領域を包含している場合(工程1708)には、前述のメンバ関数を用いて当該モジュールに入力データの削減処理f2が可能であるかどうかを問い合わせる。不可能な場合には、再利用不可能としてFalseを返す(工程1709、1712)。
入力データxが共通部分z以外の要素を含む場合には、データg(x)からf2の処理を用いてz−xの領域に相当する要素を削減する処理(1826)を分析フローに記述する。また、これによってつくられるデータg(z)と先の工程1707で作られた処理スクリプト1820をf1の合成処理1828によって連結し、新たな木構造を作成する。図17Bで示すように、以上の工程で作成された中間データを使用した新たな木構造1830で、図17Aに示した既存の処理1810を置き換える。
<DBからのデータ抽出モジュール>
図3で411〜413として描かれるデータ抽出モジュールは、DB231〜233(図3のDB401〜403に対応)から入力パラメータで示される制約条件を満たしたデータを抽出して読み込む機能を有する。
このデータ抽出モジュール411〜413が受け取る制約条件パラメータの典型的な例は、ある時刻範囲、空間範囲、記述データ内容の条件文を持ち、該当する全データをDBから抜き出し、出力として列挙するプロセスである。この条件処理のプログラム記述方法と抽出の手順については、リレーショナルデータベース管理システム(RDBMS)とSQLなどの現存するデータ処理言語に準じた実装を用いることで実現可能である。
また、このDB231〜233には、分析処理の補佐として用いる一般的情報データも同様に保有され、分析処理のアルゴリズムや可視化処理のアルゴリズムの必要に応じて、抽出・読み出しして利用される。この典型的な例として、各都道府県の警察交番の位置座標とボロノイ図を登録しておいて、別の個別データとの相関をとる分析処理アルゴリズムや、与えられた地域名に相当する地図画像の情報を引き出す可視化処理プログラム(分析結果提示プログラム2011)などがある。これらの、DB231〜233からの抽出における制約条件を示すためのスクリプト記述は、図5の構造体610のフォーマット内での管理データ611に定義されるものとする。
本実施形態では、DB231〜233の実現における基本構成は汎用の計算機を用いてRDBMSのソフトウェアとして広く実装されているものに順ずるものとし、一般的特性については既知とする。
<表示と評価>
利用者200は、分析結果の検討のため、クライアントPC201を操作してこの表示結果を視聴、およびインタラクティブな操作を行う。
クライアントPC201で動作する分析処理入力プログラム2010は、この分析結果を視聴した後のユーザに対して、数値の入力画面を提示し、インタフェース機器202を介して数値を受け付ける。利用者200は分析結果に対する有用度を数値として入力する(以下この値を評価値と呼ぶ)。この評価値を分析データの価値として利用するため、クライアントPC201は、分析サーバPC210のバックグラウンドで動作するスケジューラプログラム2101に、分析プロセスのIDと入力された評価値を転送する。
<評価スケジューラの起動>
図12は、分析サーバPC210で稼動するスケジューラプログラム2101の処理過程を記述したフローチャートである。スケジューラプログラム2101は一定時刻毎にタイマからの起動を受け1302〜1309の工程を実行する(1301)。
工程1302では、クライアントPC201から、分析プロセスに対する評価値のデータが送られてきているかどうかチェックする。(1)前回の更新から測った時間が一定の値(これを単位減衰時間とよぶ)を超えている場合と、(2)評価値の更新メッセージが届いている場合には、1304〜1309の工程を実行する。そうでない場合には休止状態に戻る(工程1303)。
工程1304では、図13のフローチャートで示される工程(後述)に従い、新規評価値をキャッシュDB241の各中間データの評価に再分配する。
続く工程1305では、再配分した各中間データの値を一定量減衰させる。
続く工程1306では、各中間データについて、更新された評価値が、下記の(3)式のX1で定められる閾値よりも低いかどうかのチェックを行い、評価値が閾値よりも低い場合には、キャッシュDB241に対して中間データの削除メッセージを送信する(工程1307)。この削除メッセージが到着すると、キャッシュDB241はストレージ(外部記憶装置307)から該当する中間データの情報を削除する。
X1 = m1_s×(S_0−S_c) − m1_t×(T_c) ………(3)
ただし、S_0はキャッシュDB241のストレージの残り容量、S_cは現在の中間データがキャッシュを占有しているデータサイズ、T_cは中間データの作成にかかった計算コスト(作成所要時間)804の値とする。
これらの処理が終了した後、スケジューラプログラム2101は休止状態に入る(工程1308)。
上記処理により、クライアントPC201から受け付けた評価値が閾値未満の中間データはキャッシュDB241から削除され、キャッシュDB241がストレージ(外部記憶装置307)に格納する中間データの量が過大になるのを抑制することができる。
<バックグラウンド起動の評価基準値>
図13は、上記図12の工程1304で分析サーバPC210のスケジューラプログラム2101が中間データの評価値の再計算を行う処理を示したものである。
スケジューラプログラム2101は一定時間ごとにキャッシュDB241の各中間データに対して評価値の再計算を行う。この際に、評価値のメッセージをクライアントPC201から受け取っていた場合には、この最終的な分析データに対する評価値から、以下の手順に基づいて、各中間データに評価値を配分する。
最終分析データの評価値ED_pから、各中間データD_iの評価値の配分追加量ED_iを計算するために、最終分析データを呼び出し元として、以下の再帰呼び出しを行う。
まず、スケジューラプログラム2101は、中間データ(または最終分析データ)D_jの評価値ED_jが得られたときには(工程1401)、分析サーバPC210のテーブル情報800の中間データの評価値807にこの評価値ED_jを追加する。また、テーブル情報800の作成スクリプト801に記載された作成スクリプト(図5の610で示される構造体)から、このデータD_jを導くために直接用いられた入力データD_i(613、614)を探索し、それらの情報から、各入力データD_iの評価値ED_iを下記(4)式のように分割する(工程1402)。
ED_i=ED_j×{DT_i}/{ΣDT_n}_{n in DJ} …(4)
但し、DT_jは、各中間データの管理ログに記載されたデータD_jを求めるための所要計算時間804である。
この評価値ED_iを、中間データのノードに渡し、再帰的に分割処理を実行する(工程1404)。全ての子ノードについて処理が終わった場合(工程1403)には、親ノードに帰る(工程1405)。
以上の工程により、一定の時間、高い評価値を与えられる分析結果に再利用されなかった中間データは、キャッシュDB241から削除される。この削除のタイミングは、後述の(6)で示されるように、データ容量の大きい中間データは早く削除されるようになり、また(7)式で示されるように、データ作成に時間のかかる中間データは多くの評価値を与えられるようになる。ただし、複数の分析に共通に使用されうる中間データについては、書き換えられた新規の分析プロセスに取り込まれ、新たに評価値を与えられるようになる。
以上のように、本実施形態では、分析の中間段階で生成された中間データをキャッシュDB241に保存しておき、保存したデータに対するフィードバック情報を評価値として分析サーバPC210で受け付け、評価値が与えられなかった中間データについては優先的にキャッシュDB241から削除する一方で、特に高い評価点数を受け付けた中間データに対しては、類似するデータの分析処理を行い、比較対象となるデータの分析や派生的に想定される分析が高速に行えるように、バックグラウンド処理で中間データの自動管理を行うことが可能となって、キャッシュDB241で中間データを保存する領域が過大になるのを防ぎながらも中間データを利用した高速な分析処理を実現できる。
<第2実施形態>
第2の実施形態として、前記第1実施形態における分析結果に対するユーザの評価値が高い場合に、その分析に類似した分析のデータを新しく自動で作成する機構を含んだ実装の例を挙げる。本第2実施形態は、前記第1実施形態に、先の分析に類似した分析のデータを新しく自動で作成する処理を加えたもので、その他の構成は前記第1実施形態と同様である。
図20は、本実施形態でのデータの流れを記述したものである。先の第1の実施形態と同様に、サーバPCが実行するスケジューラプログラムは、クライアントPCから依頼されるデータ分析の課題をデータ構造で受け取り、付加された優先度に応じて順に実行する。
前記第1の実施形態では、データ分析のスクリプトは利用者200が分析処理入力プログラム2010を介して手動で作成したものを実行していた。本第2実施形態では、このデータ分析のスクリプトが二種類の経緯で作成される。
一つは、先の第1実施形態と同様にクライアントPC201で利用者200が明示的に入力する分析手順のスクリプトに従って分析を行うものであり、分析処理入力プログラム2010を通じて行われる。もう一つは、分析サーバPC210で動作するスケジューラプログラム2101が、高い評価を与えられた分析に関して、その分析スクリプトでの入力データのパラメータを変更した、類似の分析フローをスクリプトとして自動生成し、その計算を行うものである。
まず、分析対象となる素データを保持するDB231〜233に関し、本実施形態を第1の実施形態と比較した際の特徴的な差分機能について述べる。本第2実施形態の構成において特徴的な差分は、各データの間に距離関数を定義する機構が備わっている点と、小規模なサンプリングの分割セットがあらかじめ定義されており、データ分析モジュール2211がこの分割セットを単位として入力を受付ける点である。この分割セットは時空間データとして同一区分とみなされるデータを一まとめにまとめたグループである。このような分割の例としては、ある特定領域のある時間区分(特定の市町村、特定の1時間など)で発生したデータを1グループとして纏めたものなどの例がこれに相当する。分割セット毎にヘッダ領域が用意され、データのサイズや分割セットの特徴、セット間の関係を記述するためメタデータが記述される。
図10は、この要素データ間の距離関数とサンプリング用の分割セットを実現するデータ構造1100の一例であり、本第2実施形態はこのデータ構造に基づいて構築されているものとする。本第2実施形態では、各要素データ1110について時間を指示するデータ(時間情報)1101と空間1102を指示するデータを最低一つ持っている。このようなデータ例として、商品販売情報、チケットの配布情報、GPSのような位置データの取得情報、各地に配置されたセンサ機器の受信情報や、エラーログの情報等をあげることが出来る。また、後述の距離関数を適切に定義してやることにより、この実施形態における位置を、地図上の物理的な位置に限定せず、データの区分関係図の中における位置や、web上のアドレスなどを対象とした広義の概念に対して実施することもできる。
DB231では、各要素データ1110は、空間と時間に基づいたグループデータ1120に分割された上で管理されている。本第2実施形態では、このグループの分類基準は、所属地域、時刻、端末保有者などによる多次元分類であるとする。これらのDB231〜233のデータの実体はネットワーク上に配置されたストレージを管理する情報処理機器に保存されており、その保存位置への参照テーブル示したインデックスがストレージ(外部記憶装置307)に保存されている。このインデックスの内容は、時刻や位置によってグルーピングされた単位でストレージ上に管理されている。
<時空間データ間の距離関数>
要素データ同士や要素データを束ねる図10の各グループデータ1120の間では、距離が定義可能となっている。この距離は、データ同士の時間情報1101と空間情報1102に基づいて定義される。このような距離は、規定のルールに基づいて動的に作成する場合と、距離をテーブルとして保持されている場合、またはその組み合わせによって実現される。
<時間データに基づく距離の定義>
時間(時刻)を基準としたグループ間の距離については、データに記載された時間の差を単純にとった距離だけではなく、同じ週の日付が近い距離として定義したものや、別の年の同じ日付のデータが近い値になるように定義されたものを作成し、それぞれの合成値を総合的な距離関数として用いる。
この実現例として、本実施形態では、二つの時間の異なるデータがあった場合、時間に基づくデータ間距離の要素として、
1:時刻の差の二乗の逆数を取ったもの、
2:時刻について24時間で割った余りの値の差を出し、その二乗の逆数を取ったもの、
3:時刻について一週間24時間×7日=168時間で割った余りの値の差を出し、その二乗の逆数を取ったもの、
といった三種類の値を線形和で合計した距離関数を登録する。
また、空間を基準としたグループ間の距離については、地図上の単純なユークリッド距離や、一般交通手段による移動時間を用いた距離、互いに隣接した県の距離を1として数え上げる距離や、地方行政を木構造として保持したときの枝の数を距離として定義したものを用意する。
<空間データに基づく距離の定義>
本第2実施形態での空間情報は、図11に示すように、各グループが空間位置の属する地区行政区分(国1201、地方1202、県1203、市区町村1204)を階層とした木構造で纏められている。このことを前提にして、互いのグループを以下のように定義する。まず市区町村と市区町村のように、行政区分が同一のカテゴリに存在する場合には、データの算術平均で得られる位置同士の距離の値に定数をかけた値Aをデータ間の距離とする。県と市区町村のように一段階異なったカテゴリに属する行政区分が、木構造の中で親子関係にある場合には、距離として定数Bを割り当てる。上記のルールで割り当てられなかったXとYの距離については、XとZの距離+ZとYの距離を最小にするZを探し、そのときの値をX、Yの距離とする。
<保有者データに基づく距離の定義>
また、クライアントPC201の端末保有者についても、上記行政区分と同様に木構造で管理される分類区分(この例として、ビジネス端末を保有する法人主体の商売区分・チェーン店グループ・各店舗・各端末を木構造で保持したものや、個人端末を保有者の性別・年齢の分類を木構造で保持したものなどをあげることができる)が存在する場合には、同様のルールで距離を定義する。
<スケジューラプログラムに対する追加>
次に、分析サーバPC210のスケジューラプログラム2101に対して第1の実施形態からの変更点の内容を述べる。
第1の実施形態の図12で記述されたスケジューラプログラム2101の処理は、図15で示されるスケジューラ処理に置き換えられる。工程1601から1607までの処理は、第1の実施形態の1301から1307までの処理と同一である。
工程1606で削除データの検索後、本第2実施形態においては、工程1608で中間データに対する評価値が、(5)式で表される値X2より大きかった場合には、類似の分析フローの新規作成についての操作を行う(工程1609)。
X2=m2_s×(S_0−S_c)−m2_t×(T_c)−m2_p×P_c
………(5)
ただし、S_0はキャッシュDB241のストレージ(外部記憶装置307)の残り容量、S_cは現在の中間データがキャッシュを占有しているデータサイズ、T_cは参照元となる分析での処理にかかった計算コスト804の値、P_cは現在の分析サーバPC210と子分析サーバPC221〜223のCPU負荷の比率である。
各中間データについて、更新された評価値が、上記値X2で定められる閾値よりも高かった場合には、該当する分析内容に類似した中間データの作成スクリプトを図14に示すような後述する一連の工程に従って生成し、分析サーバPC210のスケジューラプログラム2101の処理タスクに新規登録する(工程1610)。
このスケジューラプログラム2101はクライアントPC201からのデータ分析フローを受け取るものと同じプログラムであり、クライアントPC201から送られてきた場合と同様に、中間データの作成を行って結果をキャッシュDB241に保存する。
<類似中間データの作成>
図14は、上記図15の工程1610での処理の詳細を示し、ある分析フローから生まれた評価の高い中間データに対し、類似するデータ分析フローのスクリプトを生成する工程を記した図である。
工程1501では、スケジューラプログラム2101が模倣元の分析フローを構成する全木構造が保有するデータ抽出処理の中から、ランダムにあるデータ抽出処理を選択する。
工程1502では、該当する処理のノードについて、抽出に用いられている制約のパラメータを変更する。この際、元分析での抽出データと新規分析での抽出データとの距離dが、正規分布に従った乱数となるように、まず、パラメータとしての距離dの値を決定する(工程1502)。その上で元分析での分析対象のセットと、距離dの関係にあるデータセットを検索する(工程1503)。この際に、素データと距離dの関係にあるデータセットの候補は、空間または時間など複数の分類軸について可能な組み合わせが多数存在する。工程1503で候補として選ばれた集合の中から一つの集合をランダムに選び出す(工程1504)。
以上の処理により、評価の高い中間データと類似した分析処理のデータが、自動で作成される(工程1505)。
上記第2実施形態によれば、分析サーバPC210では先に行われた分析の結果に対して評価値(評価点数)を受け付けて、分析を構成している途中段階の複数の中間データに評価値を分配し、この評価値の多寡に応じて、中間データの削除、保存または派生データの作成を行う。この評価値の中間データへの分配には、データの作成にかかった時間と計算コスト、中間データのサイズとキャッシュDB241で利用可能なディスク(ストレージ領域)の残り容量、閲覧または評価から経過した時間の、各要素を統合的に用いて行う。また、複数の分析結果において利用された中間データについては、評価値を累積的に蓄積して、データ管理基準として用いることが可能となる。
<第3実施形態>
<リコメンデーション>
第3実施形態では、データの分析を依頼した利用者200に対し、要望の分析と類似しており既に存在する中間データを利用して生成することが出来るデータ分析フローの例と、その分析にかかる計算時間(依頼されたデータの分析処理に比較して短縮される時間)をクライアントPC201で提示する構成を前記第1実施形態に付加したもので、その他の構成は前記第1実施形態と同様である。利用者200は、クライアントPC201で推奨されたより効率的に得られるデータ分析フローの実行を希望する場合には、先のデータ分析よりも高い優先度を付けてスケジューラプログラム2101に送る。
この第3実施形態は、第1の実施形態に対し、以下の変更を付け加えることで実施可能となる。
図18は、第1の実施形態における図8で示される工程を、本第3実施形態の目的に合わせて変更したものである。
工程1901〜1906までの処理は、前記第1実施形態の図8に示した工程901〜906と同様の処理を行う。ただし工程1902において、分析サーバPC210は比較結果が異なっていた場合には、Falseの値を帰り値として返すかわりに、同一ではないが類似している分析処理結果があったと判断して、その差分をスタックに保存登録する。この差分情報がスタックに詰まれる場合、工程1907において、図27に示す構造体2800を作成する。基分析の木構造の中から、類似部分と判断された部分を、この中間データと置換して残りの分析を行う場合のスクリプト(部分木を中間データと置換することで得られる)を領域2801に記載する。続いて、スタックに詰まれた差分の情報を2802に書き込む。また、該当する中間データを作成するのに要した時間(804に記載済み)と、中間データを読み込むのにかかる時間(データサイズとストレージ読み込み速度から計算)の、差を2803に書き込む。この内容をクライアントPCに送信し、差分情報2201と差分予想時間2202を利用者に提示する。利用者がこのデータの再利用を認める入力を行った場合には、2201で書かれたデータ処理を分析サーバPC210に送る。
以上の処理により、類似分析フローのリコメンデーションを利用者200にフィードバックすることが出来るようになる。
<第4実施形態>
第4実施形態では、利用者200の行動に含まれる暗黙情報から評価値を作成して、データの削除と更新をする手法を前記第1実施形態の構成に付加した例について述べる。
以下の作業は、第1の実施形態の図4に示した工程507において、利用者200が明示的に評価数値を入力していた工程の代わりに、利用者200の行動自体から情報を検出する機構を記述したものである。
この工程は評価結果入力プログラム2012が実行する。この評価結果入力プログラム2012は、利用者200がクライアントPC201でビューアプログラムの視聴を行っている間の所作と、明示的に入力された評価値を取得し、分析サーバPC210のスケジューラプログラム2101に送信する専用のプログラムである。
評価結果入力プログラム2012は、利用者200が分析結果に興味を抱いたかどうかの推定を、複数の評価手法を組み合わせて行う。本実施形態では、以下に挙げる四つの分析(評価基準1〜4)を行い、これらの全ての評価値の合計を、評価値として用いる。
<利用者による評価の明示的入力>
評価基準1では、第1の実施形態と同様に、ユーザ自身が分析結果に対する満足度を数値として入力する。インターフェース機器(入力装置)202から入力された0〜100数値を直接評価値E_1とする。
<提示・観察時間の測定>
評価基準2では、カメラ機器204の映像に基づいて、利用者200の観察時間が長かった場合にはクライアントPC201に提示している内容に興味を持っていた可能性が高いという仮定に基づき、分析データが提示されていた時間を基準にして評価を行う。分析結果を表示する分析結果提示プログラム2011の画面提示時間TSと、利用者200が行ったインタラクション操作の回数Iを用いて、次の(6)式に従って評価値E_2を定める。
E_2=1/(1+b_21exp(TS))×p1
+1/(1+b_22exp(I))×p2 ……(6)
但しb_21、b_23は定数であり、p1、p2はp1+p2=100となる重み付けパラメータ(定数)である。
<発言回数の記録>
評価基準3では、複数の利用者200でデータを閲覧している場合に、利用者200間の発言が多かった場合には提示内容に関する議論が活発に行われていた可能性が高いとみなし、この発声時間を元に評価を計算する。マイクに入った音声情報からの発声時間の総計TVをカウントし、次の(7)式により評価値E_3を定める。
E_3 =1/(1+b_3 exp(TV))×100 ………(7)
但しb_3は定数とする。
<視線の抽出>
評価基準4では、カメラ機器204の映像から、クライアントPC201における情報の提示時間に対して利用者200の視線が画面上に向けられていた時間が長い場合には提示内容に興味を持っていた可能性が高いとみなし、この時間を基準に評価する。画面横に設置されたカメラ機器204の画像から顔領域を抽出し、視線が画面に向けられていた期間を計測する(ただし、動画画像から視線を計測する技術に関しては、多くの先行例が存在し、詳細な説明は割愛する)。
画面上に利用者200の視線が向けられていた期間の総計TEをカウントし、以下の(8)式により評価値E_4を定める。
E_4=1/(1+b_4 exp(TE))×100 ………(8)
但しb_4は定数とする。
<評価の合計>
評価基準1〜4で得た評価値E_1〜E_4に対して次の(9)式のように重み付け平均値を求め、データD_pの評価値ED_pとする。
ED_p = ¥sigma_{i=0}^4 m_i × E_i ………(9)
この評価値ED_pを、分析サーバPC210のスケジューラプログラム2101に送信する。
以上の処理により、利用者200の分析データ観察時の行動から情報を抽出し、データの管理に用いることが出来る。
<第5実施形態>
本第5実施形態は、WWWなどのネットワーク環境を用いて遠隔で複数の利用者200が分析結果を視聴する場合に、分析結果に対する明示的評価、または暗黙の行動から分析内容の評価値(閲覧情報)を抽出し、抽出した評価値を用いて、第1の実施形態のような分析中間データの管理と前記第2実施形態のような新規分析データの作成を行う機構を追加したものである。
本第5実施形態での構成を図21に記載する。分析の結果の可視化データは利用者200が閲覧するだけでなく、不特定多数の利用者、またはパスワード入力された登録メンバが閲覧できるようにwebネットワーク2202上に公開される。この実現のために、クライアントPC201に送られる可視化モジュール2011と同様のデータを配信するために、webサーバ2201が配置され、ネットワークにつながっている複数の情報処理機器2203からのリクエストに応じて、webブラウザ上で分析結果を表示することのできる可視化プログラム2300を配信する。
この可視化プログラム2300の画面例を図示したものが図22である。これは、図2に示すような汎用計算機上で処理を実行して映像を提示するプログラムにより実装される。この画面表示とインタラクションの実装は現在webブラウザとその上で用いられる各技術を流用することにより実現できる。ここで2301は画面に分析結果を可視化して画面上に表示する領域であり、入力領域2302へのクリックにより、映像の視点や角度、拡大率などを変化させて表示できる。
また、この分析結果に関して、テキストで意見交換する掲示板システム2303が同時に提示される。また、分析の可視化データのある座標位置に関連付けて脚注を書き込むシステム2304が同時に提示される。また、2305はこれらの分析データを視聴したあとでの評価を数値として記入する領域である。
可視化プログラム2300は、終了時に、webサーバ2201に閲覧時刻と処理ログを送信する。また、この分析に関しての評価アンケートを数値として2305に記述した場合、そのデータもwebサーバ2201に送られる。これらに対して入力されたデータは2201のサーバに送られて保管され、この情報は利用者の間で共有される。このようなweb上のデータ管理システムは、既存の先行技術を使用することで実装可能である。
また、webサーバ2201は、これらの各閲覧者からの評価を受け取るプログラムである。
前記第1の実施形態の図4の工程507において、利用者200が明示的に入力する評価数値の代わりに、以下に挙げる四つの分析を行い、これらの全ての評価値の合計を、評価値として用いる。
<評価値平均>
クライアントPC201に入力された評価値の平均値W1を、次の(10)式のE_w1のように正規化して評価値に変換する。
E_w1 =1/(1+c_1 exp(W1))×100 ………(10)
<ダウンロード回数>
前記第5実施形態におけるWebサーバ2201から可視化プログラムがダウンロードされた回数W2をカウントし、この値をW2として、次の(11)式のE_w2のように正規化して評価値に変換する。
E_w2 =1/(1+c_2 exp(W2))×100 ………(11)
<ページランク>
Web上のクローリングシステムを用い、一般のweb情報の中から、Webサーバ2201の分析データへの接続URLが記載されているページ数をカウントしてW3とする。(また、この際に各ページの推定アクセス数などが取得可能な場合には、その値を重み付け数としてカウントする)次の(12)式のE_w3のように正規化して評価値に変換する。
E_w3 =1/(1+c_3 exp(W3))×100 ………(12)
<掲示板記述量>
この掲示板システムに書き込まれた書き込みの文字数W41と、書き込み回数W42を評価量として用いる。次の(13)式のE_w4のように正規化して評価値に変換する。E_w4 =1/(1+c_41 exp(W41))×50
+1/(1+c_42 exp(W42))×50 ………(13)
<脚注記述量>
この掲示板システムに書き込まれた回数W5を、評価量として用いる。次の(14)式のE_w5のように正規化して評価値に変換する。
E_w5 =1/(1+c_5 exp(W5))×100 ………(14)
<合計表示時間>
各表示について、ダウンロードされた時刻と、アプリケーションが終了された時刻の差を取り、視聴された表示時間を計算する。この表示時間の合計W6を、評価量として用い、次の(15)式のE_w6のように正規化して評価値に変換する。
E_w6 =1/(1+c_6 exp(W6))×100 ………(15)
<評価の合計>
上記評価基準1〜4に対して次の(16)式のように重み付け平均値を求め、データD_pの評価値ED_pとする。
E_wp = ¥sigma_{p=0}^7 m_i × E_i ………(16)
この評価値ED_pを、分析サーバPC210のスケジューラに送信する。
以上のように、利用者200からの評価値を受け付ける手法としては、利用者200が数値データとして評価値を入れる方法のほか、分析結果の閲覧を行っていた時間、音声データや文章メモの書き込みから得られる議論の活発度や感情的な情報、閲覧者の表情を取得した画像からの情報などを変換したものを評価情報として適用することが出来る。
<実施形態6>
<パラメータの変更>
前記第1実施形態または前記実施形態2においては、分析対象となるデータの選択作業について、新規分析データの対象とした。データ抽出モジュールの入力データの変動だけでなく、各分析処理モジュールでの入力パラメータの間に包含・部分集合の関係と、中間データの再利用が可能である場合には、それらのパラメータの変動についても、既存の出力データからの合成・分離を用いることで計算効率の向上が認められる場合がある。本実施形態では、そのようなパラメータの変動にともなう中間データの利用方法を実現するための実装方法について記述する。
<分析処理プログラムのパラメータに対する結合・分離性について>
各データ分析モジュール2102について、入力データ以外のパラメータが変更された場合に、中間データが再利用可能であるかどうかを検査するため、分析実行時のパラメータの間に包含関係を構築し、パラメータAとパラメータBが同一でない場合には、パラメータAとパラメータBの包含関係を確認する。
このようなパラメータの変更結果に伴う処理が可能な処理の典型的な例として、
(i)時系列データの移動平均計算処理において移動平均の範囲を増加させる場合や、
(ii)フーリエ変換を行ってある特定の周波数帯のパワー比率を取る演算に対し、フーリエ変換の結果である全周波数成分を中間データとして保持している場合などを挙げることができる。
パラメータの間に包含関係がある場合には、前記の入力データでの処理と同様に、該当する中間データの再利用を実現する合成処理(結合・削減処理)の方式がモジュールに実現されているかどうかを検査し、パラメータの合成が不可能な場合にはFalseを返す。
ただし、パラメータの異なる分析処理を結合・削減する処理(第1の実施形態のf1、f2と同様に)は以下のように定義する。
h1(g(A、x)、 g(B、x)) = g(A+B、x) ………(3’)
h2(g(A+B、x)、 A) = g(A、x) ………(4’)
ただし、g(A、x)は、入力データxとパラメータAにたいする分析処理プログラムの処理を表す関数であり、A、Bは条件式でありA+BはAとBの和集合とする。h1は、パラメータAとパラメータBを適用したg(A、x)、g(B、x)から、その二つを包含・合成するパラメータA+Bの出力結果g(A+B、x)の出力結果を計算する関数である。また、h2は、パラメータA+Bの出力結果g(A+B、x)の出力結果と、A+Bの部分集合Aを指定したとき、g(A+B、x)の出力結果を計算する関数である。
これらの処理が実現可能なモジュールについては、第1の実施形態と同様に、分析フロー改変スクリプトを作ることにより、パラメータの変動に対しても中間データを使用することが出来るようになる。
なお、上記各実施形態では、複数の計算機で各処理を実行する例を示したが、一つの計算機で上記各処理を実行しても良い。
以上のように上記各実施形態によれば、分析の中間段階で生成されたデータを保存しておき、保存したデータに対するフィードバック情報を定量化したものを評価値として受け付け、評価値が所定の条件を満たした中間データについては優先的に削除する一方で、評価値が所定の条件を満たしていない中間データを保存することで、次回の分析の際には、中間データを再利用して分析を行うことが可能となって、中間データを保存する領域が過大になるのを防ぎながらも中間データを利用した高速な分析処理を実現できる。
以上のように、本発明はデータの分析を行う計算機システムに適用することができ、特に、素データから分析を行うために中間データを生成する計算機システム及びプログラムに適用することができる。
201 クライアントPC
210 分析サーバPC
221〜223 子分析サーバPC
231〜233 DB
241 キャッシュDB

Claims (12)

  1. プロセッサと記憶装置を備えた計算機で、素データを分析して分析結果を出力するデータ分析システムであって、
    前記素データを格納する素データ格納部と、
    前記素データを読み込んで分析を行い、当該分析の過程で中間データを生成して分析結果を出力する分析部と、
    前記分析部が生成した中間データを格納する中間データ格納部と、
    前記分析部が出力した分析結果に対する評価の値を受け付ける評価受付部と、を備え、
    前記分析部は、
    前記分析の際に前記中間データ格納部の中間データのうち利用可能な中間データを参照し、
    前記評価受付部は、
    前記評価の値に対応する前記中間データに前記評価の値を分配し、前記分配した評価の値が所定の条件を満たしたときに、当該評価の値に対応する前記中間データを削除することを特徴とするデータ分析システム。
  2. 請求項1に記載のデータ分析システムであって、
    前記分析部は、
    分析内容を受け付けて、当該分析内容を前記記憶装置に記憶し、当該分析内容と過去の分析内容が類似するか否かを判定し、前記判定結果が類似する場合には、前記過去の分析内容と受け付けた分析内容から前記中間データ格納部の中間データを参照する新たな分析内容を生成し、当該新たな分析内容を実行することを特徴とするデータ分析システム。
  3. 請求項1に記載のデータ分析システムであって、
    前記分析結果を表示する表示部をさらに有し、
    前記評価受付部は、
    前記表示部の表示に対する評価の値を受け付けることを特徴とするデータ分析システム。
  4. 請求項1に記載のデータ分析システムであって、
    前記分析部は、
    分析内容を受け付けて、当該分析内容を前記記憶装置に記憶し、当該分析内容で使用する中間データと過去の中間データが類似するか否かを判定し、前記判定結果が類似する場合には、前記過去の中間データから受け付けた分析内容で使用する中間データを前記中間データ格納部から参照して新たな中間データを生成し、当該新たな中間データで分析内容を実行することを特徴とするデータ分析システム。
  5. 請求項1に記載のデータ分析システムであって、
    前記評価の値は、
    前記中間データの作成にかかった計算コスト、前記中間データのサイズ、前記記憶装置の残り容量の少なくともひとつを含むことを特徴とするデータ分析システム。
  6. 請求項3に記載のデータ分析システムであって、
    前記評価の値は、
    前記表示部に表示した分析結果に対する閲覧情報であることを特徴とするデータ分析システム。
  7. プロセッサと記憶装置を備えた計算機で、素データを分析して分析結果を出力するデータ分析方法であって、
    前記記憶装置に格納された素データを読み込むステップと、
    前記読み込んだ素データから中間データを生成するステップと、
    前記中間データを前記記憶装置に格納するステップと、
    前記中間データから分析結果を演算するステップと、
    前記分析結果を出力するステップと、
    前記出力した分析結果に対する評価の値を受け付けるステップと、を含み、
    前記中間データから分析結果を演算するステップは、
    前記分析の際に前記中間データのうち利用可能な中間データを参照し、
    前記出力した分析結果に対する評価の値を受け付けるステップは、
    前記評価の値に対応する前記中間データに前記評価の値を分配し、前記分配した評価の値が所定の条件を満たしたときに、当該評価の値に対応する前記中間データを削除することを特徴とするデータ分析方法。
  8. 請求項7に記載のデータ分析方法であって、
    前記中間データから分析結果を演算するステップは、
    分析内容を受け付けて、当該分析内容を前記記憶装置に記憶し、当該分析内容と過去の分析内容が類似するか否かを判定し、前記判定結果が類似する場合には、前記過去の分析内容と受け付けた分析内容から前記中間データを参照する新たな分析内容を生成し、当該新たな分析内容を実行することを特徴とするデータ分析方法。
  9. 請求項7に記載のデータ分析方法であって、
    前記分析結果を出力するステップは、
    前記分析結果を前記計算機の表示部に表示し、
    前記出力した分析結果に対する評価の値を受け付けるステップは、
    前記表示部の表示に対する評価の値を受け付けることを特徴とするデータ分析方法。
  10. 請求項7に記載のデータ分析方法であって、
    前記中間データから分析結果を演算するステップは、
    分析内容を受け付けて、当該分析内容を前記記憶装置に記憶し、当該分析内容で使用する中間データと過去の中間データが類似するか否かを判定し、前記判定結果が類似する場合には、前記過去の中間データから受け付けた分析内容で使用する中間データを参照して新たな中間データを生成し、当該新たな中間データで分析内容を実行することを特徴とするデータ分析方法。
  11. 請求項7に記載のデータ分析方法であって、
    前記評価の値は、
    前記中間データの作成にかかった計算コスト、前記中間データのサイズ、前記記憶装置の残り容量の少なくともひとつを含むことを特徴とするデータ分析方法。
  12. 請求項9に記載のデータ分析方法であって、
    前記評価の値は、
    前記表示部に表示した分析結果に対する閲覧情報であることを特徴とするデータ分析方法。
JP2009143733A 2009-06-16 2009-06-16 データ分析システム及び方法 Expired - Fee Related JP4980395B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009143733A JP4980395B2 (ja) 2009-06-16 2009-06-16 データ分析システム及び方法
CN201010115725.7A CN101923557B (zh) 2009-06-16 2010-02-11 数据分析系统及方法
US12/709,298 US20100318492A1 (en) 2009-06-16 2010-02-19 Data analysis system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009143733A JP4980395B2 (ja) 2009-06-16 2009-06-16 データ分析システム及び方法

Publications (2)

Publication Number Publication Date
JP2011002911A true JP2011002911A (ja) 2011-01-06
JP4980395B2 JP4980395B2 (ja) 2012-07-18

Family

ID=43307228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009143733A Expired - Fee Related JP4980395B2 (ja) 2009-06-16 2009-06-16 データ分析システム及び方法

Country Status (3)

Country Link
US (1) US20100318492A1 (ja)
JP (1) JP4980395B2 (ja)
CN (1) CN101923557B (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3217300A1 (en) 2016-03-11 2017-09-13 Fujitsu Limited Extraction program, extraction device and extraction method
JP2017162342A (ja) * 2016-03-11 2017-09-14 富士通株式会社 データ蓄積判定プログラム、データ蓄積判定方法、及びデータ蓄積判定装置
US9892187B2 (en) 2012-09-14 2018-02-13 Hitachi, Ltd. Data analysis method, data analysis device, and storage medium storing processing program for same
JP2019053610A (ja) * 2017-09-15 2019-04-04 株式会社日立製作所 中間データ管理システムおよび中間データ管理方法
JP2021508389A (ja) * 2017-12-08 2021-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation データ処理システムにおけるジョブ管理

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447755B1 (en) * 2009-09-29 2013-05-21 Aquire Solutions, Inc. Systems and methods of analyzing changes and data between hierarchies
US20120150792A1 (en) * 2010-12-09 2012-06-14 Sap Portals Israel Ltd. Data extraction framework
JP5318155B2 (ja) * 2011-06-14 2013-10-16 株式会社東芝 分散データベース検索装置、分散データベース検索方法、及びプログラム
WO2013137901A1 (en) * 2012-03-16 2013-09-19 Empire Technology Development Llc Random data generation
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US10402846B2 (en) * 2013-05-21 2019-09-03 Fotonation Limited Anonymizing facial expression data with a smart-cam
JP6101607B2 (ja) * 2013-09-17 2017-03-22 株式会社日立製作所 データ分析支援システム
US10503732B2 (en) 2013-10-31 2019-12-10 Micro Focus Llc Storing time series data for a search query
US9323669B1 (en) * 2013-12-31 2016-04-26 Emc Corporation System, apparatus, and method of initializing cache
US10423616B2 (en) 2014-04-30 2019-09-24 Hewlett Packard Enterprise Development Lp Using local memory nodes of a multicore machine to process a search query
US9703920B2 (en) * 2015-06-30 2017-07-11 International Business Machines Corporation Intra-run design decision process for circuit synthesis
CN108293011B (zh) * 2015-11-05 2021-02-19 惠普发展公司,有限责任合伙企业 用于提供对综合例程的结果的访问的装置、系统、方法
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
WO2018220763A1 (ja) * 2017-05-31 2018-12-06 株式会社日立製作所 データ管理方法およびデータ分析システム
WO2019003252A1 (en) * 2017-06-30 2019-01-03 Ashish Belagali SYSTEM FOR CREATING AT LEAST ONE DEPLOYABLE APPLICATION AND ITS SOURCE CODE USING REUSABLE COMPONENTS, AND ASSOCIATED METHOD
JP6904481B2 (ja) * 2018-04-26 2021-07-14 日本電気株式会社 データ解析装置、精度推定装置、データ解析方法およびプログラム
CN117616432A (zh) 2021-07-02 2024-02-27 三菱电机株式会社 数据分析装置、数据分析程序以及数据分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001222459A (ja) * 1999-12-22 2001-08-17 Xerox Corp キャッシングのためのシステム及び方法
JP2002538545A (ja) * 1999-03-03 2002-11-12 シーベル システムズ,インコーポレイティド マーケティング支援データベース管理方法及びシステム及びプログラム製品
US20080139189A1 (en) * 2006-12-08 2008-06-12 Sony Ericsson Mobile Communications Ab Local media cache with leader files

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907820A (en) * 1996-03-22 1999-05-25 Applied Materials, Inc. System for acquiring and analyzing a two-dimensional array of data
US6295560B1 (en) * 1997-12-05 2001-09-25 Kabushiki Kaisha Toshiba Data delivery system with load distribution among data delivery units using shared lower address and unique lower layer address
WO2002045321A2 (en) * 2000-11-29 2002-06-06 Unilogic, Inc. A collaborative, fault-tolerant, scaleable, flexible, interactive real-time display and processing method and apparatus
US20030061195A1 (en) * 2001-05-02 2003-03-27 Laborde Guy Vachon Technical data management (TDM) framework for TDM applications
EP2310938A4 (en) * 2008-06-29 2014-08-27 Oceans Edge Inc FIREWALL FOR MOBILE TELEPHONE, SYSTEM AND METHOD FOR COMPLIANCE

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002538545A (ja) * 1999-03-03 2002-11-12 シーベル システムズ,インコーポレイティド マーケティング支援データベース管理方法及びシステム及びプログラム製品
JP2001222459A (ja) * 1999-12-22 2001-08-17 Xerox Corp キャッシングのためのシステム及び方法
US20080139189A1 (en) * 2006-12-08 2008-06-12 Sony Ericsson Mobile Communications Ab Local media cache with leader files

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9892187B2 (en) 2012-09-14 2018-02-13 Hitachi, Ltd. Data analysis method, data analysis device, and storage medium storing processing program for same
EP3217300A1 (en) 2016-03-11 2017-09-13 Fujitsu Limited Extraction program, extraction device and extraction method
JP2017162342A (ja) * 2016-03-11 2017-09-14 富士通株式会社 データ蓄積判定プログラム、データ蓄積判定方法、及びデータ蓄積判定装置
US10725999B2 (en) 2016-03-11 2020-07-28 Fujitsu Limtied Extraction program, extraction device and extraction method
JP2019053610A (ja) * 2017-09-15 2019-04-04 株式会社日立製作所 中間データ管理システムおよび中間データ管理方法
JP7010632B2 (ja) 2017-09-15 2022-01-26 株式会社日立製作所 中間データ管理システムおよび中間データ管理方法
JP2021508389A (ja) * 2017-12-08 2021-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation データ処理システムにおけるジョブ管理
JP7185982B2 (ja) 2017-12-08 2022-12-08 インターナショナル・ビジネス・マシーンズ・コーポレーション データ処理システムにおけるジョブ管理

Also Published As

Publication number Publication date
JP4980395B2 (ja) 2012-07-18
CN101923557A (zh) 2010-12-22
CN101923557B (zh) 2014-06-25
US20100318492A1 (en) 2010-12-16

Similar Documents

Publication Publication Date Title
JP4980395B2 (ja) データ分析システム及び方法
US20180309807A1 (en) Apparatus and Method for Acquiring, Managing, Sharing, Monitoring, Analyzing and Publishing Web-Based Time Series Data
CN103038769B (zh) 用于将内容导引到社交网络引擎用户的系统和方法
JP6906419B2 (ja) 情報提供装置、情報提供方法、およびプログラム
US20180077250A1 (en) Method and System for Processing Data Used By Creative Users to Create Media Content
CN110532309B (zh) 一种高校图书馆用户画像系统的生成方法
EP2550638A2 (en) Crowd-sourcing and contextual reclassification of rated content
JP2019125007A (ja) 情報分析装置、情報分析方法および情報分析プログラム
US20110082803A1 (en) Business flow retrieval system, business flow retrieval method and business flow retrieval program
US20140324518A1 (en) Autotagging business processes
US10698904B1 (en) Apparatus and method for acquiring, managing, sharing, monitoring, analyzing and publishing web-based time series data
WO2011001584A1 (ja) 情報分類装置、情報分類方法及び情報分類プログラム
CN108781223A (zh) 用于内容项选择的数据的数据分组传输优化
CN116594683A (zh) 一种代码注释信息生成方法、装置、设备及存储介质
JP2008009582A (ja) 広告配信サーバ、広告配信プログラム、広告配信方法、及び広告配信システム
JP4667889B2 (ja) データマップ作成サーバ、およびデータマップ作成プログラム
JP2024008344A (ja) 情報処理装置、情報処理方法、情報処理プログラム
JP2003323454A (ja) メタ情報を有するコンテンツをマッピングする方法、装置、及びコンピュータプログラム
US20220156285A1 (en) Data Tagging And Synchronisation System
CN110716994B (zh) 一种支持异构地理数据资源检索的检索方法及装置
Santos Real Estate Market Data Scraping and Analysis for Financial Investments
CN108132940A (zh) 一种应用程序数据提取方法及装置
KR101894419B1 (ko) 개인화된 정보 제공 시스템, 방법 및 그에 대한 기록매체
JP2005122683A (ja) 情報提供方法及びシステム及び情報提供プログラム
JP2015166931A (ja) データ処理装置、データ処理方法及びデータ処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120418

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees