JP6534971B2 - 分布クエリに対してビジネスデータを融合するための方法及びシステム - Google Patents

分布クエリに対してビジネスデータを融合するための方法及びシステム Download PDF

Info

Publication number
JP6534971B2
JP6534971B2 JP2016127399A JP2016127399A JP6534971B2 JP 6534971 B2 JP6534971 B2 JP 6534971B2 JP 2016127399 A JP2016127399 A JP 2016127399A JP 2016127399 A JP2016127399 A JP 2016127399A JP 6534971 B2 JP6534971 B2 JP 6534971B2
Authority
JP
Japan
Prior art keywords
data
bayesian network
processor
attributes
raw data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016127399A
Other languages
English (en)
Other versions
JP2017054487A (ja
Inventor
エテシャム ハッサン
エテシャム ハッサン
スルヤ ヤダフ
スルヤ ヤダフ
プニート アガルワル
プニート アガルワル
ガウタム シュロフ
ガウタム シュロフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2017054487A publication Critical patent/JP2017054487A/ja
Application granted granted Critical
Publication of JP6534971B2 publication Critical patent/JP6534971B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Optimization (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

優先権請求
本出願は2015年7月4日に出願されたインドの暫定特許出願2568/MUM/2015号に対して優先権が主張され、その内容は、参照により本書に援用される。
本書における実施態様は、一般にビジネスデータ処理に関し、特に、分布クエリに対してビジネスデータを融合するための方法及びシステムに関する。
現在の企業活動シナリオでは、企業のビジネスインテリジェンスは通常、一般的な属性に基づいて慎重に関連付けられ、共通のデータウェアハウスに整理統合された様々なソースからのデータに頼っている。この一連の作業は、データウェアハウスに情報を統合するときに、ソース全体で結合属性を決定するうえでしばしば困難およびエラーに悩まされる。さらに、それぞれ異なる外部データソースから的確にデータを結び付けることは、不可能な場合が多い。それにもかかわらず、各データソースは、データが捕える属性の中に相関上の有益な情報をまだ提供することができ、そして、統計洞察を引き出すために最新の技術に基づいて従来のデータウェアハウスを『データレイク』に置き換えることについて、企業はますます求めている。
大企業の使用可能なデータにおけるアナリティクスライフサイクルにおいて、従来技術の文献で例示される従来の解決策が、例えば、販売時点情報管理、棚卸し(在庫調べ)等のトランザクションシステムから抽出され、非正規化、集合、属性省略、その他を含むことのできる数多くの変換を受けて、データウェアハウスにロードされる。データの関連した部分が一般的な(共通の)属性を用いて結び付けされ得ることを確実にするために、相当の注意がなされる。それによって、データウェアハウス上の、または、『データ市場』と呼ばれているサブセット上の、『ビジネスインテリジェンス』クエリを可能にする。しばしば、操作上のおよび戦略的な決定が過去のデータのクエリ(問合せ、検索要求)を行うことで支援され、アナリティクスライフサイクルは、ここで終わる。
しかしながら、先を見越して、組織は、統計手段、データマイニングおよび機械学習技術を用いて種々の予測アナリティクスをますます使用する。この種の目的のために、選択されたスライスまたは『データキューブ』は、SQLのような関係のクエリを使用して抽出され、予測アナリティクスおよび他のビジネスインテリジェンスアプリケーションを支援する、リグレッション、時系列予測または類似の予測分析を実行するために、SASまたはSPSSのような統計分析ツールにロードされる。
現代のウェブベースの組織では、他の次元の中で、会社のデータが、慎重にキュレートされるデータウェアハウスの概念が行われないかもしれない典型的な『ビッグデータ』技術に基づいた大きい分散ファイルシステムで維持される。ビジネスインテリジェンス応用のため、分析クエリは、本来は相関的または統計的に関係なく、概してマップレデュースプログラミングパラダイムおよびその多くの拡張機能を並行して用いるこの種の共通のデータストアに直接実行される。このような技術は、データベースクエリシステムに基づく従来のインデックスに比べて広域のデータにしばしば触れる統計処理及びクエリにより適していることが示された。
従来技術の文献は、例えば大企業データウェアハウスを設計しかつ組み入れるのに要する時間の節約など、多くの利点があるビッグデータ技術に基づいて大きい分散ファイルシステムのデータを維持する様々な方法を例示している。第2に、予測分析論は、大部分の統計パッケージの固有のインメモリアーキテクチャによって大きさの制限されるサブセットが選択されるだけよりはむしろ、全データに実行され得る。さらに、この種の分析の結果が、同じグローバルなデータストアにそれ自体格納されて、さらなる分析のための入力として、他に利用され得る。最終的に、付加的なデータエレメントは、一般のデータウェアハウスのスキーマの完全性について心配しなくても、新しいデータソースまたは単に新しい属性であることにかかわりなく、容易に加えられる。このことにより、いくつかの従来型の企業(例えば小売チェーン)、銀行および製造業者は、より従来のデータウェアハウスに相反するウェブベースの組織(大まかにデータレイクと呼ばれる)によって使用されるものと類似の分析論アーキテクチャを使用し始めた。
従来技術の文献で例示される解決策にもかかわらず、データレイクだけでは万能薬とならないため基本的な課題がまだ残る。異種のデータソースがデータレイクにストアされることを考慮すると、異種のデータソースを結び付けすることは未解決のままである。さらに、データ量が非常に大きい場合、十分に高性能なハードウェアによって支持されない限り、クエリは未だに途方もない時間がかかる可能性がある。最後に、属性の数が増大するにつれて、周知の課題が高次元で現れる。特に、多数の属性の非常に選択的な制約によって定義されるデータキューブは空になる可能性がある、すなわち、利用可能なデータに見られるいかなる実例もないかもしれない。そうは言うものの、この種のサブセットについての決定は、クエリによる分析よりはむしろ、統計上のものを用いて実際には可能である。
従来技術の文献は、大部分はオブジェクト認識、監視及び分類問題に集中したが、分布クエリに取り組んでいない。従来技術の文献の一部はデータベースクエリに答えるためにベイズ推定を適用した、にもかかわらず、異種のデータソースにおけるクエリの課題にはいずれの種類の従来技術の文献によっても対処されなかった。
従って、分布クエリのための異なるおよび多様なデータソースから抽出されるビジネスデータの融合は、未だに、当該技術分野で最も大きい課題の1つと思われる。
本開示の実施態様は、従来のシステムの発明者によって認識される一つ以上の上述の技術的問題の解決策としての、技術的改良を示す。
一つの態様において、以下を含む方法が提供される。
複数の異種のソースにわたっているローデータ(生データ)と関連した一つ以上の属性に基づいてベイジアンネットワークを定義するステップと、 パラメータとしてその中に条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理するステップと、 前記条件付き確率を用いて前記ローデータの前記一つ以上の属性を結び付けるステップと、 前記条件付き確率のデータベースから確率的推論を実行するステップと、を含む方法。
別の態様においては、以下を含むシステムが提供される。
一つ以上のハードウェアプロセッサに動作可能に連結され、
複数の異種のソースにわたっているローデータと関連した一つ以上の属性に基づいてベイジアンネットワークを定義するために、 パラメータとしてその中に条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理するために、 前記条件付き確率を用いて前記ローデータの前記一つ以上の属性を結び付けるために、 前記条件付き確率のデータベースから確率的推論を実行するために、前記一つ以上のハードウェアプロセッサによる、実行用に設定される命令をストアするように構成されている、一つ以上のデータストレージデバイス、を含むシステム。
さらに他の態様では、以下を含むコンピュータプログラム製品が提供される。
その中に具体化されるコンピュータ読み出し可能プログラムを有する非一時的コンピュータ可読媒体であって、前記コンピュータ読み出し可能プログラムは、コンピュータデバイスにおいて実行されるときに、前記コンピュータデバイスに、 複数の異種のソースにわたっているローデータと関連した一つ以上の属性に基づいてベイジアンネットワークを定義させ、 パラメータとしてその中に条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理させ、 前記条件付き確率を用いて前記ローデータの一つ以上の属性を結び付け、 前記条件付き確率のデータベースから確率的推論を実行させる、コンピュータプログラム製品。
本開示の態様において、前記ベイジアンネットワークを定義することは、(a)依存関係および相関についてのドメインの把握、(b)構造学習方法または(c)その組み合わせ、に基づいている。
本開示の態様において、前記一つ以上の属性の各々は、前記ベイジアンネットワークの確率変数を形成する。
本開示の態様において、互いに直接マップされ得る前記一つ以上の属性は、確率変数に割り当てられ、近似的に関連し得るのみの前記一つ以上の属性は、別々の確率変数として維持される。
本開示の態様において、前記ローデータを前処理することは、条件付き確率テーブルを生成するために前記ローデータを圧縮することを含む。
本開示の態様において、前記確率的推論を実行することは、構造化問合せ言語(SQL)エンジンを使用することを含む。
本開示の態様において、上述した方法は、少なくとも一つの結果を読み出すために前記条件付き確率に基づいて前記ベイジアンネットワーク上の分布クエリを処理することをさらに含む。
一態様において、上述した方法は、前記ローデータおよび前記ベイジアンネットワーク上の一連のバリデーションクエリ(検証クエリ)を処理する結果を比較することによって計算される推定誤りに基づいて前記ベイジアンネットワークを検証(確認)することをさらに含む。
当然のことながら、前述の一般的説明および以下の詳細な説明は、例示的および説明的なだけで、要求するように本開示の実施形態では制限されない。
本書における実施形態は、図面を参照して以下の詳細な説明からよりよく理解される。
図1は、本開示の実施形態に従って、ビジネスデータを融合するためのシステムの例示的なブロック図を示す。 図2は、本開示の実施形態に従って、ビジネスデータを融合するための方法の例示的な流れ図を示す。 図3は、本開示の方法の実施形態に従って、典型的なセンサ(SENSOR_A、SENSOR_B、SENSOR_C、SENSOR_D)に関するデータのための例示的なベイジアンネットワークを表す。 図4は、図4は、本開示の実施形態に従って、例示的な車両センサデータのための典型的なベイジアンネットワークを示す。 図5A、図5Bおよび図5Cは、視覚分析性ワークベンチ上で本開示の実施形態に従って、それぞれヒストグラムとして、離散化されたエンジン速度(ES) 対 総燃費(TF)、制御パス(CP)およびネットトルク(NT)の分布の例示的な実例である。 図6は、本開示の実施形態に従って、グリッドおよび小区域内への合成データの生成およびそのセグメンテーションを示す。 図7は、本開示の実施形態に従って、例示的なマーケティングデータセットを結び付けするための典型的なベイジアンネットワークを示す。
本書におけるいかなるブロック図も、例示するシステムの概念視点が本発明の対象の原則を実施していることを表すと当業者に認められるべきである。同様に、この種のコンピュータまたはプロセッサが明示的に示されるか否かを問わず、いかなるフローチャート、フロー図、状態遷移図、疑似コード、などもコンピュータ可読媒体において実質的に代表され得、コンピュータまたはプロセッサによって実行され得る様々なプロセスを表すことはいうまでもない。
添付図面に関連して例示的な実施形態が記載されている。図において、参照番号が最初に表示される参照番号の左端の桁は、図を特定する。どこであろうと便利な、同じ参照番号が図面の全体にわたって同様な部分を指して用いられる。開示された原則の実施例および特徴が本書において記載されると共に、修正、改作およびその他の実施は、開示された実施形態の精神と範囲から逸脱することなく可能である。真の範囲および主旨が後に続く請求によって示されることで、以下の詳細な説明が典型的であるだけとして見なされることが意図されている。
詳細な説明に移る前に、記載されている特定の実施に関係なく、下記の論考の全てが制限的と言うよりはむしろ実際は典型的であることに注意されたい。
本開示は、分布クエリおよび確率的推論に基づいて多様または異種のデータソースを相関させる(関連付ける)ことを促進するシステム及び方法を提供する。特に、本開示は、ベイズ推定ベースのデータ融合を適用することによって分布クエリに答えるために多様なおよび外見的には異種のビジネスデータを融合させるためのシステム及び方法を提供する。本開示に従って、効率的に分布クエリを実行するために、データソース全体の関係および相関は、ドメイン知識を組み込むように専門家の案内方法で学習されるベイジアンネットワークを介して要約される。現在の開示のさらに別の目的は、単純なSQLクエリベースの方法を用いたベイジアンネットワーク上の推論を可能にすることである。
本開示において、「ビジネスデータ」または「ローデータ」または「データ」の表現は、明細書全体にわたって相互に用いられることがある。同様に、「ベイジアンネットワーク」の表現は、「BN」または「ネットワーク」と取り換えられて呼ばれる場合がある。
図面を参照すると、またより詳しくは、類似の参照符号が図の全体にわたって一貫して対応する特徴を意味する図1〜7に、好ましい実施形態が示されており、これらの実施形態は以下の例示的なシステム及び方法のという背景において記載されている。
図1は、本開示の実施形態に従って、ビジネスデータを融合するためのシステム100の例示的なブロック図を示す。実施形態において、システム100は、一つ以上のプロセッサ104、通信インタフェースデバイスまたは入出力(I/O)インタフェース106、上記一つ以上のプロセッサ104に動作可能に連結した一つ以上のデータストレージデバイスまたはメモリ102を含む。ハードウェアプロセッサである一つ以上のプロセッサ104は、一つ以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央演算処理装置、状態機械、論理回路および/または操作上の命令に基づいて信号を操作するあらゆるデバイスとして実現され得る。他の機能の中で、プロセッサは、メモリに保存されるコンピュータ可読命令を取り出し、実行するように構成される。実施形態において、システム100は、様々なコンピュータシステム(例えばラップトップコンピュータ、ノートブック、携帯用デバイス、ワークステーション、メインフレームコンピュータ、サーバー、ネットワーククラウドなど)において実行され得る。
I/Oインタフェースデバイス106は、様々なソフトウェア、およびハードウェアインタフェース、例えばウェブインタフェース、グラフィカルユーザインタフェース、などを含むことができ、例えば、LAN、ケーブル、その他の有線ネットワーク、および、WLAN、セルラ方式または衛星を利用するなどの無線ネットワークを含む、多種多様なネットワークN/Wおよびプロトコルタイプの範囲内で、多様な通信を促進することができる。実施形態において、I/Oインタフェースデバイスは、多くのデバイスを相互に、または、他のサーバーに接続するための一つ以上のポートを含むことができる。
メモリ102は、例えば、周知のあらゆるコンピュータ可読媒体、例えば、スタティックランダムアクセスメモリ(SRAM)およびダイナミックランダムアクセスメモリ(DRAM)などの揮発性メモリ、および/または、読出し専用メモリ(ROM)、消去可能プログラマブルROM、フラッシュメモリ、ハードディスク、光ディスクおよび磁気テープなどの不揮発性メモリを含むことができる。実施形態において、システム100の一つ以上のモジュール(図示せず)は、メモリ102に保存され得る。
図2は、本開示の実施形態に従って、ビジネスデータを融合するための方法200の例示的な流れ図を示す。実施形態において、システム100は、一つ以上のプロセッサ104に動作可能に連結された一つ以上のデータストレージデバイスまたはメモリ102を含み、一つ以上のプロセッサ104によって方法200のステップの実行用に設定される命令を保存するように構成される。
本開示の実施形態において、複数の異種のソースに及ぶデータレイクからのローデータと関連付けられている一つ以上の属性に基づいてベイジアンネットワークは、ステップ202で定義される。実施形態において、各属性は、ベイジアンネットワークにおける確率変数を形成する。ベイジアンネットワークそのものは、依存関係および相関についてのドメインベースでの把握を用いて、あるいは、従来の構造学習方法またはそれらの組み合わせを用いて定義され得る。
本開示の実施形態において、ステップ204で、ローデータは、パラメータとして条件付き確率を計算するために、ベイジアンネットワークに基づいて処理される。クエリは、確率的推論を用いてベイジアンネットワーク上で実行される。実施形態において、属性間に実際の条件つきの独立関係に対する近似だけがある場合であっても、ツリー構造のネットワークが用いられる。ツリー構造のベイズネットにおいて、各条件付き確率テーブル(CPT)は二次元であって、推論を効率的にする。本開示に従って、条件付き確率計算のためのローデータの処理は、確率論的方法ではあるが、データベースで実現された見解(見通し)を計算することと類似している。
本開示の実施形態において、互いに直接マップされ得る異種のデータソースの属性は、同じネットワーク変数に割り当てられる。例えば、業界標準コード体系によって記載されている異なるデータソースの項目またはパーツは、単一アイテム変数として扱われ得る。近似的に関連があるだけかもしれない属性は、ベイジアンネットワークの条件付き確率においてキャプチャー(取得)されているそれらの相互の相関を有して、別々のネットワーク変数として保持される。例えば、異なる調査は、地理的領域(例として、郡 対 郵便番号)の異なる空間モザイクを使用しているデータをキャプチャーしたかももしれない、にもかかわらず、この種の領域との相互の共通部分は、地図(すなわち、地理情報システム(GIS)レイヤー層)を使用して計算され得る。このように、それぞれ可能性がある郵便番号に存在している特定の郡の条件付き確率は、地図を使用して計算され得る。同様に、異なる製品−カテゴリー定義を用いて体系化される製品関連のデータは、複合的なカテゴリーにわたって体系化されるサンプル例を使用して、近似的に相関し得る。
実施形態において、ドメインエキスパートは、ドメイン制約に基づいてBNを定義する。実施形態において、BN構造および詳細は、本書において下記に示すように構成ファイルに定められている。
Figure 0006534971
図3は、例示的なセンサ(SENSOR_A、SENSOR_B、SENSOR_C、SENSOR_D)に関するデータのための典型的なベイジアンネットワークを表す。本開示に従う構成ファイル用のテンプレートは、本書において下記に示される。
Figure 0006534971
実施形態において、構成ファイルは、従属するセンサのその前に、ペアレントセンサの詳細を含む。構成ファイルおよび観測データに基づいて、式(方程式)1(本書下記記載)に示されるものと類似の集計クエリを用いる条件付き確率テーブル(CPTs)が習得される。場合によっては、これらのCPTsのサイズは指数的に大きくなり得、ノードの中のペアレントノードの数はBNにおいて最高3に限られている。また、できる限りBNは、CPTsのサイズを少なく保つ有向非巡回グラフ(DAG)よりも、ツリーとしてモデル化される。その後、BNの各エッジに対して、条件付き確率テーブルは、オリジナルデータを用いて算出される。
実施形態において、ステップ206で、ローデータの一つ以上の属性は、例えば、地図、サンプル分類など利用できるように、適切なソースから導かれる条件付き確率を用いる原則に基づいた方法で近似的に結び付けられる。クエリ実行を最小化するために、近似の相関は、属性の間に組み込まれる。さらにクエリ実行を最小化するために、本開示の方法は、例えばツリー構造などの近似のネットワークに依存することができる。ステップ208で、確率的推論は、条件付き確率のデータベースから実行される。実施形態において、本開示の方法は、ベイジアンネットワークそのものの基礎をなしている仮定に基づいて可能な限りの最善の確率応答である少なくとも一つの結果を読み出すために前記条件付き確率に基づいて前記ベイジアンネットワーク上の分布クエリを処理することをさらに含む。実施形態において、本開示の方法は、ローデータおよびベイジアンネットワーク上の一連の分布クエリを処理する結果を比較することによって計算される推定誤りに基づいてベイジアンネットワークを検証(確認)することをさらに含む。
本開示の実施形態では、速く、近似の結果が充分である場合、規制報告と対照的な予測アナリティクスの場合と同様に、本開示は、ベイズ推定の確立した原則に基づいて1つのフレームワークにおける近似データマッピングと確率論的クエリ処理とを結び付けるのに従って、企業データレイクに実行可能で役立つ命題(定理)を構成する。
本開示の例示的実施形態において、ローデータに繰り返しアクセスすることのなく、エンジニアリング解析をサポートすべく効率的に確率応答を提供するために、センサデータレイク中の大量の車両マルチセンサデータのシナリオが記載されており、潜在的に多様で公的および個人的に無関係なデータソースにもかかわらず、ベイズ推定を用いて行う分布クエリを経て有用な統計的洞察を引き出すために、近似的かつ効率的に結び付けされ得るかについて明示する。
本開示の実施形態において、データベース上の分布クエリを処理することが記載されている。例えば、現在大部分の最新の車両、飛行機、同様の複合機械において一般に存在している多様なセンサからのデータ、すべてのローデータが単一のテーブルにあるデータ、のシナリオを考える。表1にて例示したように、エンジン速度(ES)、総燃費(TF)、ネットトルク(NT)および制御パス(CP)に関するローデータの各記録は、実際の番号が付けられたセンサ値のタプルである。
Figure 0006534971
離散化された形において、すなわち、表1のDとして、各センサの実際の値は、ビン数に換算される。例えば、ESセンサは、10のビン(bins)−100〜200、200〜300などを用いて離散化されるかもしれない。この種のデータのエンジニアリング解析は、通常、特定のセンサの値の分布を計算して視覚化することを含んでおり、言い換えれば、どのくらいの頻度で各ビンがデータに追加されるか、そして、2つのセンサの結合分布(または同時分布)、すなわち、どのくらいの頻度で一対のビンの値それぞれが追加されるか、二次元のディスプレイに結果としてもたらされる。さらに重要なことに、残りのセンサ上で例えばES(エンジン速度)が低いがNT(ネットトルク)は高い場合のTF(総燃費)の分布など、一定の条件を与えられるセンサの一つ以上の目標設定の分布を決定することに関連させてもよい。
一般に、データセットは、D(a)として意味付けされ、Mは、異なるセンサに対応するa…aの結果であると考えることを意味する。さらに、各属性aがnに離散値(bi1…bini)を取り込むと仮定する。属性aのための分布の計算は、表示D上のnクエリを計算するものとして、関係代数において表され得る。
Figure 0006534971
上記において、j各々に対してj=1…n
ここで、Gcount()は、条件a=bijを有する選択操作(σ)の下で、集計関数カウント()を参照する。
さらに一般的にいえば、k目標属性ai…aiに対し、残りのn−k属性の一部もしくは全部上の一連の条件を特定する、条件Qの下でのk次元の分布クエリは、それぞれ表示される、ni x ni x…niクエリを実行することによって、計算され得る。
Figure 0006534971
…jの可能な組み合わせに対し、言い換えれば、すべてのjは、n値1…nを取り込むことができる。
例えば、そのビン7または8にあるTF、およびビン5にあるCPの条件の下のESセンサの分布は、次式の形を成す10の関係型クエリを評価することによって取得され得る。
Figure 0006534971
ESの10のビンに対し、j=1…10(ここでESは10のビンに離散化されたと仮定される)。
各一連の分布クエリは、全データベース上の単一のパスにおいて計算され得、または、条件Qの選択性が高い場合には何らかの形のインデックスを用いて計算され得る点に注意されたい。データ量が非常に大きくなる場合、特にクエリの選択性が高くないときに、無意味なインデックスを作成することや全データを通じてスキャンを必要とすることで、各クエリに対してデータアクセスしなければならないことは重大なオーバーヘッドになる。しばしば、従来のデータベースにデータセットをロードすることですら、インデックスを使用する迅速なクエリングの利点に値しない。
本開示の他の一実形態において、複数のデータセットを結び付けすることが記載されている。データが多様なソースから来る場合、共通のまたは関連した属性に基づいて異なるソースを結び付けすることで、さらなるデータ編集事象が起こる。マーケティング専門家のために関心のあるデータの実施例を考える。
例えば、国勢調査データによる収入(D)、携帯電話会社からの経時的な人の居場所(ロケーション)(D)、マーケティング調査からの職業(専門的職業)(D)は、表2のように示される。注目すべきは、人々の異なるセットを調査するかまたはモニタすることによって、データセットが収集され得た点で、同じ全般的な地理学ではあるが、すなわち、データは同じ内在する『地上調査の情報(グラウンドトゥルース)』を表し、そして、各サンプルは等しく不偏であるとみなされる。
Figure 0006534971
本シナリオによれば、異なる領域における人々の、収入、ロケーションおよび職業をそれぞれ表している3つのデータベースD、DおよびDは、属性R、RおよびRによってキャプチャー(取得)される。領域属性の各々に対して同じ地理的セグメンテーションが使われる場合であっても、それぞれの結び付きD=D1∞ R1=R2 D2,D2∞ R2=R3 D3,またはD1∞ R1=R3 D3(∞は三角形の蝶ネクタイ型で演算を表現する記号の代わりに用いた記号)は、非常に多くの関係性があるので、共通の領域属性は、3つのテーブルを意味があるように結び付けることができない点に留意する必要がある。つまり、これらの結び付きが定義されると同時に、それらはいかなる有意義な目的をも果たさない。
その代わりに、仮定的に結び付けられたデータセットDをクエリングする機構は、例えば下記表3のように調査(観測)される。表3において、テーブルの各々が個人を一意的に識別する共通の属性を持った場合、計算することが可能だったかもしれない。残念なことに、この種の属性は、利用できない。
本開示に従って、多少強硬な仮定ではあるが、この種の異種のデータセットから意味のある洞察を導き出すことがまだ可能である。データセットDの各々が仮定的分布Dから無作為標本として見られると仮定する。残念なことに、表3に示すように、欠落している3つの属性のうちの2つを有するこのような各サンプルは、それ自体不完全である。
Figure 0006534971
これが一般に機械学習において遭遇する欠陥データ課題の極端な例であることに留意する必要がある。このような状況は、通常、存在する他の属性を働かせて失った値をできる限りうまく満たすことを試みることによって、扱われる。つまり、例えば、1つは、条件付き確率P(ロケーション,職業|収入,地域)を最大にするものを計算することによってロケーションおよび職業のカラムを埋めようとするかもしれない。一般に、欠落している属性は、観測されるどんな属性でも、条件付けられるそれらの同時確率を最大にする組合せでもって、満たされる(次式)。
Figure 0006534971
ここで、MおよびOは、欠落したおよび被観測属性を表す。
実際には、これは、さらなる仮定もせずに計算するのは困難かもしれない。にもかかわらず、関心のあるすべての属性が、観測されることを考えれば、互いに無関係であるとされることを前提とする。上記の実施形態において、これはロケーションにつながり、そして、職業がそれぞれの収入、地域の組合せの中で少なくとも互いに無関係である。換言すれば、欠落した変数間のいかなる相関も、観測されるものによって説明され得る。これは、前記式(4)が次式になることを用いる、データ融合および機械学習において一般に使われる単純ベイズ推定である。
Figure 0006534971
上記の実施例において、これは、P(L,R|R,R)の代わりに、P(P|I,R),P(P|I,R)およびP(I,R)の製品を最大にすることによって、欠落した値を埋めることにつながる。ここで、P、L、IおよびRは、それぞれ、職業、ロケーション、収入および地域を表す。
本開示の実施形態において、不適当な結び付けキー(Join Keys)が記載されている。データセットDの各々が真に完全に異なる場合、各データセットはそれらの個別領域属性のための異なる地理的セグメンテーションを使用することができる。つまり、R1=1およびR2=1は、事実同じ領域でなくてもよい。さらに、1つのデータセットはその他より粗い領域を使用することができ、異なるデータセットからの領域は実行(例えば郵便番号および郡)の各々と重複し得る。この種の状況において、欠落したDの値を埋めるための上記手順が、必ずしも適切であるとは言えないかもしれない。実施形態において、3つのデータセットは、異なる領域属性間の関係を引き出すのに役立つ付加的なデータセットによって、増加され得る。このようなデータセットは、例えば、すべての領域が区切られるマップから導出され得る。位置は、その領域値、すなわちR1、R2およびR3による全3つの各位置用に注目して、この種のマップにおいてランダムにサンプルを採られる。ここで、結び付いたテーブルDは、これらの3つの領域属性だけが満たされる付加的な行を有する、そして、この種のテーブル行は欠落した値を推定するためのリンクを提供する。しかしながら、この場合提供されるリンケージは間接的であるので、下記に示されるように、完全な確率的推論を用いて課題に対処することは、後に関係クエリを実行する欠落した値に入る第1フィリングを経るよりもむしろ、より容易である。
一般に、課題シナリオは、以下の通りに定式化され得る。データセットDsを与えられて、データセットDsが属性aに関してある程度のレベルで重複し得ると仮定される。上記例に示されるように、a∩a≠φになる(φは空集合の記号の代わりに用いた記号)ように、iごとに、aが存在する。さらに、これが真でない、すなわち、二つ以上のデータセット間に明確な重複部分がない場合、これが事実であるように、データが付加的なデータセットで増加され得ると仮定される。一群のデータセットが完全に結び付けられる、とも仮定される。グラフが、DとDとの間のノードやエッジとしてDsを有して定義される場合、これらが少なくとも一つの一般の属性を共有する場合、このグラフが完全に結合され、すなわち、一つの被結合構成要素を占める場合、データセットの集まりは結び付けられる。これが真でない場合に、もう一度、それを真にするために一群のデータセットを増大させることができると仮定される。
本開示は、各データセットの属性が離散化されたところの結び付けられた一群のデータセット上の分布クエリの処理を取扱う。このような収集は、上記の実施例のように、テーブルをつなぐところの『結び付けられた』データセットDの独立サンプルを占めるとして、見なすことができる。
本開示において、確率的推論として分布クエリが表されている。本開示に従って、表3の、結び付けられたデータセットD(a)は、属性aに対応する確率変数にわたって結合分布P(a)からのサンプルを含むものとして見なされることができる。その後、分布クエリは、確率的推論と同等である、言い換えれば、結合分布P(a)を除外することによって確率分布P(a)を計算するものとして見なされることができる。同様に、セット(2)によって実行される一般の分布クエリは、条件付きの事後確率を計算している(次式)。
Figure 0006534971
これは、エビデンスQ(すなわち、古典的確率的推論)の下で、周辺化によって結合分布Pから計算され得る(次式)。
Figure 0006534971
これは正常化される必要があるから二重波記号(二重波記号はニアリーイコール)
データセットが『結び付けられて』から、どんなデータセットDiが実際のところ利用できるかという状況によって強制される、領域知識から一部得られた条件付き独立性の適切な仮定及びその他の下で、次式のように単一のベイジアンネットワークを用いた式(6)の結合分布を因数に分解することができる。
Figure 0006534971
ここで、Pa(a)は、ベイジアンネットワークの変数aのペアレントを意味する。本開示に従って、上記式(6)および(8)は、分布クエリを効率的に計算するために結び付けされ得る。
本開示の他の一実施形態において、分布を用いる値のためのクエリングが記載されている。分布クエリの課題が属性aを通じて同時確率分布上の推論の観点から見られると、本開示に従って、1つは連続変数のための値に基づいたクエリに応答することもできる。これは多くの状況において必要であり、例として、NTおよびTFの二次元の結合分布の代わりに、NT対TFの分布、すなわち異なるTF値に対してNTの実際の値を期待するかもしれない。これは、従来の散布図が伝えるかもしれないようなクエリ、または『TFの各ビンのための平均NT』上の従来の『ビジネスインテリジェンス』クエリである。確率の用語において、この種のクエリは、分布クエリを使用して計算され得る期待値の観点から容易に表される。TFのビンbTFiごとの平均NTは、E[NT|TF=bTFi]として表すことができ、次式のとおり、TFを与えられるNTの条件付き分布から、計算可能である。
Figure 0006534971
ここで、v(bNTj)はおよそ、NTのビンbNTjの中間点、例えば、bNTj≡NT<NT<NTならば、v(bNTj)、=(NT+NT)/2である。同様に、カテゴリー変数の場合、次式を最大にすることによって、高収入の者が訪れる最も見込みのあるロケーションを計算することが容易にできる。
Figure 0006534971
本開示に従って、データセットの一群上の分布クエリは、基本的に、属性P(a)の同時確率分布上の条件付きの推論を経て計算され得る。マーケティングデータの例で述べられる多様なデータソースの場合、データセットの一群が結び付けされることを確実にするためにセットされる属性は、付加的な属性を有して最適に増加されていた。ベイジアンネットワーク(BN)は、属性を表している各ノードを有して、結合分布を近似させてモデル化される。多様なデータセットの場合、この種のBNの構造は、利用できるデータセットDiを用いて計算可能な限られた条件付き分布によって制約され得る。Dが完全に利用可能な場合、BNは、例えば、できる限りツリー構造に近いことを確保するなど、評価するのを容易にするその構造への制約と共にドメイン知識を使用して、定義され得る。
実施形態においてこのBN上の確率的推論のために、条件付きクエリは、構造化問合せ言語(SQL)に翻訳される。SQLエンジンは、一連の関係表としてそれらを考慮するCPTsをクエリングするために使用される。このように、本開示は、SQLエンジンを用いた確率モデルの融合のための方法を提供する。BNが結合分布構造に近似を表すので、適切な機構はBN精度を測定するために必要である。本開示の実施形態に従って、ベイジアンネットワークは、ローデータおよびベイジアンネットワーク上の一連の分布クエリを処理する結果を比較することによって計算される推定誤りに基づいて、検証(確認)される。
本開示の実施形態に従って、ベイジアンネットワーク上の条件付きクエリに対してSQLを使用することが、以下に記載される。ローデータから習得される条件付き確率はSQLデータベースに格納され、その後、さらにすべての確率論的クエリがこのデータベースを用いて答えられる。例えば、式(3)に記載されている関係式が表1の車両センサデータセットに関して、確率的推論に翻訳される場合、次式のような一連の条件付き確率クエリを計算することになる。
Figure 0006534971
これらはその後、それぞれ式(8)および(6)に従って乗じられ、周縁化される。
実施形態において、式(8)の結果および式(6)での総和は、下記のようであり、図4にて図示したように、車両センサデータのための典型的なベイジアンネットワークに対し、CPTsのデータベース上のSQLエンジンを使用して計算され得る。
Figure 0006534971
ここで、ESは、被クエリ変数、およびT_TF、T_NT、T_ES、T_CPは、ベイジアンネットワークに基づくTF、NT、ES、CPのためのCPTsである。P_TF、P_NT、P_ESおよびP_CPはそれぞれの確率カラム名であり、WHERE条項は所与の条件を規定する。類似のクエリを使用して、1つは、以下に示すように、所与の条件のエビデンスを計算することもできる。
Figure 0006534971
表記法は上記与えられるものと類似している。
本開示の実施形態に従うベイジアンネットワークの検証(確認)を、以下に記載する。ローデータ上でかつBNを用いて実行されるクエリに関して実行される場合、確率的推論が用いられるものとして、クエリ間にいくつかの違いがなければならない。実施形態において、一部の検証クエリは、エラー境界を測定するための構成ファイルの入力として与えられる。その後、ネットワークから得られた検証クエリと、ローデータから得られた検証クエリの出力が比較される。実施形態において、抽出された2つの分布は、KLダイバージェンス(KLD)およびバタチャリア係数(BC)を使用して比較される。ローデータから得られた分布をYとし、ネットワークから得られた分布をZとする。YおよびZは両方とも離散型分布であるから、それらの間の対称KLダイバージェンスが次式のようである。
Figure 0006534971
また、YとZ間にバタチャリア係数が次式によって与えられる。
Figure 0006534971
実験解析
本開示のビジネスデータ融合の方法およびシステムは、本書における上記表1および2のデータセットとして示される2つのシナリオで評価される。目的は、本開示の方法が多種多様なデータセットで分布クエリングするための、効率的な解決策を提供することができることを示すことである。本方法は、ベイジアンネットワークを供給されるドメイン知識に主に依存するので、異なる条件を示す一連のサンプルクエリングの場合、実験的な評価の焦点は、検証エラー(バリデーションエラー)の計算にある。以下記載されている関連した計算分析は、3.2GHZの速度および4GBのRAMを有するインテルコア(登録商標)i5 ワークステーションで得られた。
車両センサデータ上の分布クエリを処理することが、以下に記載されている。車両、エンジンまたは他のあらゆる装備などの機械がますます複雑になるにつれて、それら機械には、多数の、大抵は何百ものセンサが取付けられている。車両の母集団によって生成される多量のデータを分析することは、厳密に顧客が製品を使用する方法と同様の分野においてそれらの製品の動き具合をよりよく理解する、かなりの製品の装備を可能とする。設計などを改良する機会を見つける、誤りにつながる異常な動作の理由を決定する上で、非常に貴重な情報である。
エンジンの多数の事例(過程)のためにセンサデータの多数の収集が用いられる。エンジンは200以上のセンサを備えており、センサごとに、表示が平均すると30分のエンジンの動作に対し誤認されるとした。データは、1年以上動き続けるこの種の実行からなり、csvフォーマットに格納された。それは、12,000,000以上の記録をとって、15GBのサイズであった。このデータは、読出ローデータの処理の速度を上げるために、最初に、バイナリ形式に変換された。これは、10GBまで圧縮されているローデータにされた。その後、ベイジアンネットワークのパラメータを習得して、ローデータにクエリングするための入力データとして、バイナリファイルが用いられた。
ビジネスデータ融合は、エンジン速度(ES)、ネットトルク(NT)、総燃費(TF)および燃焼制御パスオーナーまたは制御パス(CP)である4つのセンサによる現実のセンサデータを有する使用事例に対し、分析された。本開示の方法が離散化されたセンサ値を必要とするのに応じて、これらのセンサ値は、統計的プロファイリングの過程として計算される一連の、一および二次元のヒストグラムとして表される。図5A、図5Bおよび図5Cは、視覚分析ワークベンチ上のヒストグラムとしての、離散化されたES対TF、CPおよびNTそれぞれの分布の典型的な実例である。さまざまなハッチング・パターンは、初期値を表して、問い合わせた後に、値を更新した。初期値は水平ハッチングによって示され、その一方で、範囲選択に基づいて更新された値はここに垂直ハッチングによって例示された。これらのヒストグラムは、ゼロと1の間で分布している正規化された値を表す。分布クエリの例は、選択されたセンサ上の範囲選択によって記載され得、そこにおいて、残りのセンサ上のイニシャルおよびポストクエリ配布が示される。エビデンスの確率、すなわち、確率に関して選択された条件のサポートを示す、縦棒としての選択もまた示される。
検証(バリデーション)のために、1〜4個のセンサを含んでいる多くの検証クエリ(バリデーションクエリ)は、定式化された。その後、検証クエリは、ローデータに、そして、BNに実行された。メモリへのデータの読み込み時間(検討中での環境において4分であった)を考慮せずに、10〜12秒の平均的時間が観測された。SQLデータベースに格納されるテーブルにクエリが実行されていたので、BN上に実行される場合の同じクエリは、1秒未満かかった。しかしながら、BNのパラメータを習得するために、全ローデータのリニアスキャンは約4分かかった。ローデータによって計算される分布とサンプルクエリ用にBNを使用することの相互間のエラーは、表4に示されている。
Figure 0006534971
高いエビデンスを有するクエリのための分布エラーは、ゼロに近い。にもかかわらず、表4の第1および最後の行は、第1のクエリがデータにおいてより少ないサポートを有するところの対照的な結果を示す。しかし、BNベースのクエリングはローデータとしてほぼ正確である。さらに、最後の列に対し、高サポートクエリと同等で、分布エラーは、潜在的に高い、コード化されたBN構造において欠けている他の依存関係を示唆する。にもかかわらず、ベイズ的クエリを実行する前と後の分布間の変化の方向は正確なままであり、大部分の状況で、これはエンジニアにとって最も重要であることである。
異種のデータソースにクエリングすること、特にマーケティングデータは、以下に記載される。マーケット情報市場を導くと共に、異なるエージェンシーによって典型的にコンパイルされるいくつかの領域から人々の異なる属性をキャプチャーしているデータに、しばしばアクセスする。状況は、上記の表2によって導かれるシナリオと類似している。各エージェンシーが異なる方法でデータを収集するので、言い換えれば、各エージェンシーは異なる領域からデータを収集するので、各々が潜在的に異なって区切られ、この種のデータを結び付けすることは、この種のデータからあらゆる意味のある分析を引き出す上での障害になる。1つの方法は、サブ領域を無視することで異なるサブ領域からデータを統合することによって、言い換えれば、すべてのその領域の結合の表現としてのみ、各データソースを使用し得る。しかしながら、これがより大きいそして信頼性の高いデータセットにつながると共に、領域に特有の相関に基づいて洞察を無視することを犠牲にする。その代わりに、領域間の相関関係を決定するために、すべての領域をコモンマップに記録することができる。条件付き確率分布は、領域の各組との地理的な重複に基づいて他の領域を与えられるこれらの領域の各々に対して見られる。
データ生成については、以下に記載される。この実験のために、人の4つの属性、つまり、収入、職業、ロケーションおよび支出を持って、属性セットを増大させている付加的な属性である領域と共に、20,000,000の記録を有して合成データセットが生成された。関心のある全体の地理学上の矩形グリッドが想定される。領域へのこの地理学のセグメンテーションは、図6に例示されるように、規定され得る。全体の領域(地理学)の4つの異なるセグメンテーションは、2つまたは3つの領域の中に生成された。言い換えれば、表2のRsは異なる濃度(カーディナリティ)を各々有することができる。
収入(I)、職業(P)、ロケーション(L)および支出(E)のための属性値は、異なる収入、職業、最もよく出入りし金を費やすロケーションを持っている人々に対応した異なる手段および分散を用いる各グリッドセルに対して生成された。データセット当たり4つの属性のうちの1つのみを含み、そのデータセットに特有のセグメンテーションに対応した領域を有する各記録にタギング(タグ付け)する基本生成データから多数の記録をランダムにサンプリングすることにより、各データセットに対して別々のファイルが作成された。各データセットのための領域セグメンテーションは、サンプル用に3値のうちの1つを取り込む、収入分布のためのR_Iのような新しい変数によって表される。同様に、ロケーションのために、変数R_Lは、2つの可能値だけをとる。
確率的推論が、以下に記載される。データ生成プロセスの後、この場合のためのベイジアンネットワークは、図7に示すようにモデル化される。グリッドセルへの全体の地理学のセグメンテーションは、2つの領域セグメンテーション方式間での重複が計算される、言い換えれば、ベイジアンネットワークにおけるCPTsの計算用に使われるP(R_I|R_L)が計算される『マップ』であると見なされる。分布クエリは、以前に記載されているSQLを用いて計算された。
サンプル検証クエリのためのエラーは、表5に示される。
Figure 0006534971
見られるように、ネットワークによって計算される条件付き分布の間のBC距離およびローデータは、重複度合いが高い。もう一度とはいえ、ローデータまたはその異種のサンプルを結び付けする確率論的方法を使用するしないにかかわらず、クエリを実行する前と後の分布間の変化の方向は同じである。なお、実際には、最初の結び付けされたデータサンプルが利用できないとみなされるので、この種の検証(バリデーション)は、これらのエラーを計算するため、不可能であり、この種の検証は、合成データが使われていたので、この分析において行うことができる。
実行履行に関して、データセットの各々をクエリングすることは、各ファイルをスキャンすると共に、全データセットをメモリにロードすることを必要とする。BNを使用しているクエリにかかる時間が1秒未満であるとき、これは合成データ上に平均して100秒を引き受けることになる。SQLを用いたBNにクエリングするためにかかる時間はまた、大部分は入出力に再び費やされているおよそ100秒のCPTsを習得するためにかかる時間を除外している。分布クエリの実行は、異種のデータセットに実施された。さらに、データ分布およびそれらの相関をベイジアンネットワークに圧縮することによって、実現されたビューが標準データベースクエリのために貢献するのとほぼ同じ方法で、クエリ実行時間は大幅に改善される。
本開示は、潜在用途シナリオだけでなく実際によって動機付けされる、多様なソースから潜在的に引き起こされる一つ以上のデータセット上の『分布』クエリの課題を規定した。課題は、単一のデータセット上の、あるいは潜在的に多様なソースからの複数のデータセットの場合、仮想に基づいた『結び付けされた』データセット上の、条件付き確率的推論に等しいと見なすことができる。本開示に従って、例えば、ビジネスインテリジェンスにおいてしばしば遭遇する多くの値ベースのクエリが分布クエリに基づいてほぼ答えられるということがわかる。本開示は、利用できるデータセットから生じている制約はもちろんドメイン知識も使用して規定されるベイジアンネットワークを介して、内在する結合分布に近似させることによって分布クエリを計算する、『ビジネスデータ融合』方法を提供する。本開示のシステムは、ベイジアンネットワークの条件付き確率表のデータベース上の確率的推論を使用しているSQLクエリを実行するための分布クエリを評価するビジネスデータ融合を提供する。特に、一旦ネットワークパラメータが習得されるならば、本開示のシステムはローデータに再アクセスする必要はない。実験の結果は、ローデータを使用している正確な計算と比較しての精度だけでなく実行性能も含んで、マーケティング分析の仮定的シナリオを例示しているデータセットの合成収集はもちろん、現実のセンサデータセットについて報告された。
本開示のシステムおよび方法は、『データレイク』アーキテクチャにおけるほぼ統合的なデータによく適しており、分散ファイルシステムに未加工に近い形で保存されるデータは、最初にデータウェアハウスに統合するのとは対照的に洞察のために直接的に処理される。また一方、本開示に従って、従来のデータベース技術を用いて結び付けするのが困難または不可能だった外見上異種のデータセットは、それにもかかわらず、ビジネスデータ融合を経て実行される分布クエリを介して意味のある洞察を引き出すために、処理され得る。本開示の方法は、潜在的に、クエリ処理に加えてデータマイニングのためにも使用可能である。本開示の方法がベイジアンネットワーク上の条件付き推論を経て少なくとも一つの答えを分布クエリに提供するので、各々が分布クエリ/付き推論として表され得るあらゆる特定の値の組み合わせのサポートおよび信頼を判別することができる。その後、相関ルールで、サブグループは、効率的に属性値の組み合せの空間を検索するために、データマイニング技術を用いて計算可能である。
いかなる当業者も、本開示の実施形態を構成し、使用することを可能にするために、書かれた表現は、本書において主題(発明の対象)記載する。ここで規定される主題(発明の対象)となる実施形態の範囲は、当業者に生じる他の変更を含むことができる。それらが請求の文字通りの言語と異ならない同様な要素を有する場合、または、それらが文字通りの用語との実体のない違いを有する等価な要素を含む場合、他の変更は本書の範囲内にあることを意図する。
しかし、当然のことながら、保護の範囲は、この種のプログラムに、そして、その中のメッセージを有するコンピュータ可読の手段に加えて拡張され、この種のコンピュータ可読記憶媒体手段は方法の一つ以上のステップの履行のためのプログラムコード手段を含む。そのとき、プログラムはサーバーまたはモバイルデバイスまたはいかなる適切なプログラム可能なデバイスでも動く。ハードウェアデバイスは、例えばサーバーまたはパーソナルコンピュータ、等のような、いかなる種類のコンピュータをも含んでプログラムされ得るいかなる種類の装置またはいかなるそれらの組み合わせでもあることができる。デバイスはまた、例えば、特定用途向け集積回路(ASIC)の類のハードウェア手段、フィールドプログラマブルゲートアレイ(FPGA)またはハードウェアおよびソフトウェア手段(例えばASICおよびFPGA)の組合せ、あるいはその中にソフトウェアモジュールを有する少なくとも一つのマイクロプロセッサや少なくとも一つのメモリを含むことができる。このように、手段としては、ハードウェア手段およびソフトウェア手段を含むことができる。本書において記載されている方法の実施形態は、ハードウェアおよびソフトウェアで実行され得る。デバイスは、ソフトウェア手段を含むこともできる。あるいは、本開示の実施形態は、異なるハードウェアデバイス(例えばCPUの複数の使用)に実行され得る。
本書において実施形態は、ハードウェアおよびソフトウェア要素を含むことができる。本開示は、ソフトウェアにより実現される実施形態を含むが、これに限定されるものではなく、ファームウェア、レジデントソフトウェア、マイクロコード、などが挙げられる。本願明細書において記載されている機能は、本開示のシステムを含む様々なモジュールによって実行され、かつ、他のモジュールまたは他のモジュールの組合せで実行し得る。このような説明のため、使用可能なコンピュータまたはコンピュータ可読媒体は、命令実行システム、装置またはデバイスが使用するために、またはそれに関連して、プログラムを含む、格納する、伝達する、伝搬させる、あるいは移送することのできるあらゆる装置であることが可能である。本書において記載されている様々なモジュールは、ソフトウェアおよび/またはハードウェアモジュールとして、あらゆるタイプの非一時的コンピュータ可読媒体または他のストレージデバイスに実装され得る。非一時的コンピュータ可読媒体の一部の非限定的な例は、CD、DVD、ブルーレイ、フラッシュメモリおよびハードディスクドライブを含む。
さらに、プロセスステップ、方法ステップ、技術等が順次命令に記述され得るにもかかわらず、この種のプロセス、方法および技術は交代命令において機能するように構成され得る。換言すれば、記載され得るステップのいかなるシーケンスまたは順序も、ステップがその命令において実行されるという必要を必ずしも示すというわけではない。本書において記載されているプロセスのステップは、実際のいかなる命令においても実行され得る。さらに、いくつかのステップは、同時に実行され得る。
ステップの例示は、典型的な図示した実施形態を説明するために提示され、特別な機能が実行される進行中の技術開発が方法を変えることについて予想されることは当然である。これらの実施形態は、限定ではなく例示の目的のために本書において示される。さらに、機能的な建築用ブロックの境界は、説明の便宜のために、本願明細書において任意に定められた。他に取り得る境界は、特定の機能およびその関係が適切に実行される限り、規定され得る。変形例(本書における記載の中の、等価物、拡張、変化、偏向などを含む)は、関連した技術の当業者にとっては、本書において含まれる教示に基づいて明らかである。この種の変形例は、開示された実施形態の範囲および主旨に入る。また、「comprising」、「having」、「containing」および「including」の文言やその他の類似の種類は、意味において等価で、以下に続く項目または複数項目において制約がないこれらの文言のいずれか一つが、この種の項目または項目の総記であり得ないことを意図されているか、または記載された項目だけまたは項目だけに限られていることを意図されている。本書においてそして添付の請求の範囲に使われているように、単数形「a」、「an」そして、前後関係がはっきり決定しない限り、「the」が複数の参照を含む。
以下の請求の範囲によって示されている開示された実施形態の本当の範囲および主旨と共に、開示および実施形態(実施例)が典型的であることだけ考慮されることが意図されている。

Claims (11)

  1. プロセッサによって、複数の異種のソースにわたっているローデータと関連した一つ以上の属性に基づいてベイジアンネットワークを定義するステップ(202)であって、前記一つ以上の属性のそれぞれが、前記ベイジアンネットワークにおける確率変数を形成する、ステップ(202)と、
    前記プロセッサを用いて、条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理するステップと、
    前記プロセッサを用いて、前記条件付き確率を用いて前記ローデータの前記一つ以上の属性を結び付けるステップ(206)と、
    前記プロセッサを用いて、前記確率変数に対応する前記一つ以上の属性の値に基づく複数の属性値を生成するステップと、
    前記プロセッサを用いて前記条件付き確率のデータベース(208)から複数の記録をランダムにサンプリングすることによって、複数のデータセットの内の少なくとも一つのデータセットのための別々のファイルのセットを作成するステップであって、前記複数のデータセットの各々について、1つのデータセットを記録するための1つのファイルが存在する、ステップと、
    前記プロセッサを用いて、各データセットに特有のセグメンテーション領域を有する前記複数の記録からの各前記記録にタグ付けするステップと、
    を含む、プロセッサで実行させる方法。
  2. 前記ベイジアンネットワークを定義するステップは、(a)依存関係および相関についてのドメインの把握、および(b)構造学習方法のうち少なくとも一つに基づいている、請求項1の方法。
  3. 前記ローデータを前処理するステップは、条件付き確率テーブルを生成するために前記ローデータを圧縮するステップを含む、請求項1の方法。
  4. 前記ローデータおよび前記ベイジアンネットワーク上の一連のバリデーションクエリ結果を比較することによって計算される推定誤りに基づいて前記ベイジアンネットワークを検証することをさらに含む、請求項1の方法。
  5. プロセッサ(104)に動作可能に連結され、
    複数の異種のソースにわたっているローデータと関連した一つ以上の属性に基づいてベイジアンネットワークを定義し、ここで、前記一つ以上の属性のそれぞれが、前記ベイジアンネットワークにおいて確率変数を形成しており、
    条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理し、
    前記条件付き確率を用いて前記ローデータの前記一つ以上の属性を結び付け、
    前記確率変数に対応する前記一つ以上の属性の値に基づく複数の属性値を生成し、
    前記条件付き確率のデータベース(208)から複数の記録をランダムにサンプリングすることにより、前記生成された属性値に基づく別々のファイルのセットを作成し、
    ここで、前記複数のデータセットの各々について、1つのデータセットを記録するための1つのファイルが存在し、
    各データセットに特有のゼグメンテーション領域を有する前記複数の記録からの各前記記録にタグ付けする、
    前記プロセッサによる、実行用に設定される命令をストアするように構成されている、一つ以上のデータストレージデバイス(102)、を含むシステム(100)。
  6. 前記プロセッサは、(a)依存関係および相関についてのドメインの把握、および(b)構造学習方法のうち少なくとも一つに基づいて、前記ベイジアンネットワークを定義するようにさらに構成される、請求項5のシステム。
  7. 前記一つ以上の属性の各々は、前記ベイジアンネットワークの確率変数を形成する、請求項5のシステム。
  8. 互いに直接マップされ得る前記一つ以上の属性は、確率変数に割り当てられ、近似的に関連し得るのみの前記一つ以上の属性は、別々の確率変数として維持される、請求項5のシステム。
  9. 前記プロセッサはさらに、条件付き確率テーブルを生成するために前記ローデータを圧縮することで前記ローデータを前処理するように構成されている、請求項5のシステム。
  10. 前記プロセッサはさらに、構造化問合せ言語(SQL)エンジンを使用することにより、確率的推論を実行するように構成されている、請求項9のシステム。
  11. 前記プロセッサはさらに、前記ローデータおよび前記ベイジアンネットワーク上の一連のバリデーションクエリの結果を比較することによって計算される推定誤りに基づいて前記ベイジアンネットワークを検証するように構成されている、請求項9のシステム。
JP2016127399A 2015-07-04 2016-06-28 分布クエリに対してビジネスデータを融合するための方法及びシステム Active JP6534971B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN2568/MUM/2015 2015-07-04
IN2568MU2015 2015-07-04

Publications (2)

Publication Number Publication Date
JP2017054487A JP2017054487A (ja) 2017-03-16
JP6534971B2 true JP6534971B2 (ja) 2019-06-26

Family

ID=56263574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016127399A Active JP6534971B2 (ja) 2015-07-04 2016-06-28 分布クエリに対してビジネスデータを融合するための方法及びシステム

Country Status (7)

Country Link
US (1) US20170004411A1 (ja)
EP (1) EP3115911A1 (ja)
JP (1) JP6534971B2 (ja)
AU (1) AU2016204509B2 (ja)
BR (1) BR102016015331A8 (ja)
CA (1) CA2934802C (ja)
MX (1) MX2016008623A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3217334B1 (en) * 2016-03-10 2021-09-29 Tata Consultancy Services Limited System and method for visual bayesian data fusion
US10296880B2 (en) * 2016-11-21 2019-05-21 Lisa Therese Miller Invoice analytics system
CN110020413B (zh) * 2019-04-02 2023-04-28 中汇信息技术(上海)有限公司 一种检测imix消息的方法、装置及电子设备
US12095798B1 (en) * 2021-06-08 2024-09-17 Arceo Labs Inc. Determining additional signals for determining cybersecurity risk

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004036461A2 (en) * 2002-10-14 2004-04-29 Battelle Memorial Institute Information reservoir
JP2008269215A (ja) * 2007-04-19 2008-11-06 Nippon Telegr & Teleph Corp <Ntt> 特異パターン検出システム、モデル学習装置、特異パターン検出方法、及び、コンピュータプログラム
JP6059122B2 (ja) * 2013-10-11 2017-01-11 カルチュア・コンビニエンス・クラブ株式会社 顧客データ解析システム

Also Published As

Publication number Publication date
BR102016015331A8 (pt) 2018-02-27
CA2934802C (en) 2018-07-31
AU2016204509B2 (en) 2018-03-01
AU2016204509A1 (en) 2017-01-19
CA2934802A1 (en) 2017-01-04
US20170004411A1 (en) 2017-01-05
EP3115911A1 (en) 2017-01-11
MX2016008623A (es) 2017-05-03
JP2017054487A (ja) 2017-03-16

Similar Documents

Publication Publication Date Title
Wahyudi et al. A process pattern model for tackling and improving big data quality
Miller et al. Geographic data mining and knowledge discovery
JP6534971B2 (ja) 分布クエリに対してビジネスデータを融合するための方法及びシステム
Chen et al. Temporal representation for mining scientific data provenance
Yemshanov et al. A new multicriteria risk mapping approach based on a multiattribute frontier concept
Gutiérrez et al. On the use of information fusion techniques to improve information quality: Taxonomy, opportunities and challenges
Elouataoui et al. Data quality in the era of big data: a global review
Balti et al. Multidimensional architecture using a massive and heterogeneous data: Application to drought monitoring
CN113159450A (zh) 一种基于结构化数据的预测系统
Yadav et al. Business data fusion
Anderson et al. EPIC-OSM: A software framework for OpenStreetMap data analytics
E. Simlai Predicting owner-occupied housing values using machine learning: an empirical investigation of California census tracts data
Shbita et al. Building spatio-temporal knowledge graphs from vectorized topographic historical maps
Jiang et al. Spatial and spatiotemporal big data science
Barb et al. A statistical study of the relevance of lines of code measures in software projects
Toivonen Big data quality challenges in the context of business analytics
CN117076770A (zh) 基于图计算的数据推荐方法、装置、存储价值及电子设备
Schintler Regional policy analysis in the era of spatial big data
Liu et al. Inventory Management of Automobile After-sales Parts Based on Data Mining
Mahalle et al. Data Acquisition and Preparation
Mavroudopoulos et al. Detecting temporal anomalies in business processes using distance-based methods
Khrulkov et al. Approach to imputation multivariate missing data of urban buildings by chained equations based on geospatial information
US20220237484A1 (en) Forecasting technology phase using unsupervised clustering with wardley maps
He Causal Discovery in Social Weather System
Masciari An end to end framework for building data cubes over trajectory data streams

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180619

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190530

R150 Certificate of patent or registration of utility model

Ref document number: 6534971

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250