JP6534971B2

JP6534971B2 - 分布クエリに対してビジネスデータを融合するための方法及びシステム

Info

Publication number: JP6534971B2
Application number: JP2016127399A
Authority: JP
Inventors: エテシャムハッサン; スルヤヤダフ; プニートアガルワル; ガウタムシュロフ
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2015-07-04
Filing date: 2016-06-28
Publication date: 2019-06-26
Anticipated expiration: 2036-06-28
Also published as: BR102016015331A8; CA2934802C; AU2016204509B2; AU2016204509A1; CA2934802A1; US20170004411A1; EP3115911A1; MX2016008623A; JP2017054487A

Description

優先権請求
本出願は２０１５年７月４日に出願されたインドの暫定特許出願２５６８／ＭＵＭ／２０１５号に対して優先権が主張され、その内容は、参照により本書に援用される。

本書における実施態様は、一般にビジネスデータ処理に関し、特に、分布クエリに対してビジネスデータを融合するための方法及びシステムに関する。

現在の企業活動シナリオでは、企業のビジネスインテリジェンスは通常、一般的な属性に基づいて慎重に関連付けられ、共通のデータウェアハウスに整理統合された様々なソースからのデータに頼っている。この一連の作業は、データウェアハウスに情報を統合するときに、ソース全体で結合属性を決定するうえでしばしば困難およびエラーに悩まされる。さらに、それぞれ異なる外部データソースから的確にデータを結び付けることは、不可能な場合が多い。それにもかかわらず、各データソースは、データが捕える属性の中に相関上の有益な情報をまだ提供することができ、そして、統計洞察を引き出すために最新の技術に基づいて従来のデータウェアハウスを『データレイク』に置き換えることについて、企業はますます求めている。

大企業の使用可能なデータにおけるアナリティクスライフサイクルにおいて、従来技術の文献で例示される従来の解決策が、例えば、販売時点情報管理、棚卸し（在庫調べ）等のトランザクションシステムから抽出され、非正規化、集合、属性省略、その他を含むことのできる数多くの変換を受けて、データウェアハウスにロードされる。データの関連した部分が一般的な（共通の）属性を用いて結び付けされ得ることを確実にするために、相当の注意がなされる。それによって、データウェアハウス上の、または、『データ市場』と呼ばれているサブセット上の、『ビジネスインテリジェンス』クエリを可能にする。しばしば、操作上のおよび戦略的な決定が過去のデータのクエリ（問合せ、検索要求）を行うことで支援され、アナリティクスライフサイクルは、ここで終わる。

しかしながら、先を見越して、組織は、統計手段、データマイニングおよび機械学習技術を用いて種々の予測アナリティクスをますます使用する。この種の目的のために、選択されたスライスまたは『データキューブ』は、ＳＱＬのような関係のクエリを使用して抽出され、予測アナリティクスおよび他のビジネスインテリジェンスアプリケーションを支援する、リグレッション、時系列予測または類似の予測分析を実行するために、ＳＡＳまたはＳＰＳＳのような統計分析ツールにロードされる。

現代のウェブベースの組織では、他の次元の中で、会社のデータが、慎重にキュレートされるデータウェアハウスの概念が行われないかもしれない典型的な『ビッグデータ』技術に基づいた大きい分散ファイルシステムで維持される。ビジネスインテリジェンス応用のため、分析クエリは、本来は相関的または統計的に関係なく、概してマップレデュースプログラミングパラダイムおよびその多くの拡張機能を並行して用いるこの種の共通のデータストアに直接実行される。このような技術は、データベースクエリシステムに基づく従来のインデックスに比べて広域のデータにしばしば触れる統計処理及びクエリにより適していることが示された。

従来技術の文献は、例えば大企業データウェアハウスを設計しかつ組み入れるのに要する時間の節約など、多くの利点があるビッグデータ技術に基づいて大きい分散ファイルシステムのデータを維持する様々な方法を例示している。第２に、予測分析論は、大部分の統計パッケージの固有のインメモリアーキテクチャによって大きさの制限されるサブセットが選択されるだけよりはむしろ、全データに実行され得る。さらに、この種の分析の結果が、同じグローバルなデータストアにそれ自体格納されて、さらなる分析のための入力として、他に利用され得る。最終的に、付加的なデータエレメントは、一般のデータウェアハウスのスキーマの完全性について心配しなくても、新しいデータソースまたは単に新しい属性であることにかかわりなく、容易に加えられる。このことにより、いくつかの従来型の企業（例えば小売チェーン）、銀行および製造業者は、より従来のデータウェアハウスに相反するウェブベースの組織（大まかにデータレイクと呼ばれる）によって使用されるものと類似の分析論アーキテクチャを使用し始めた。

従来技術の文献で例示される解決策にもかかわらず、データレイクだけでは万能薬とならないため基本的な課題がまだ残る。異種のデータソースがデータレイクにストアされることを考慮すると、異種のデータソースを結び付けすることは未解決のままである。さらに、データ量が非常に大きい場合、十分に高性能なハードウェアによって支持されない限り、クエリは未だに途方もない時間がかかる可能性がある。最後に、属性の数が増大するにつれて、周知の課題が高次元で現れる。特に、多数の属性の非常に選択的な制約によって定義されるデータキューブは空になる可能性がある、すなわち、利用可能なデータに見られるいかなる実例もないかもしれない。そうは言うものの、この種のサブセットについての決定は、クエリによる分析よりはむしろ、統計上のものを用いて実際には可能である。

従来技術の文献は、大部分はオブジェクト認識、監視及び分類問題に集中したが、分布クエリに取り組んでいない。従来技術の文献の一部はデータベースクエリに答えるためにベイズ推定を適用した、にもかかわらず、異種のデータソースにおけるクエリの課題にはいずれの種類の従来技術の文献によっても対処されなかった。

従って、分布クエリのための異なるおよび多様なデータソースから抽出されるビジネスデータの融合は、未だに、当該技術分野で最も大きい課題の１つと思われる。

本開示の実施態様は、従来のシステムの発明者によって認識される一つ以上の上述の技術的問題の解決策としての、技術的改良を示す。

一つの態様において、以下を含む方法が提供される。
複数の異種のソースにわたっているローデータ（生データ）と関連した一つ以上の属性に基づいてベイジアンネットワークを定義するステップと、パラメータとしてその中に条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理するステップと、前記条件付き確率を用いて前記ローデータの前記一つ以上の属性を結び付けるステップと、前記条件付き確率のデータベースから確率的推論を実行するステップと、を含む方法。

別の態様においては、以下を含むシステムが提供される。
一つ以上のハードウェアプロセッサに動作可能に連結され、
複数の異種のソースにわたっているローデータと関連した一つ以上の属性に基づいてベイジアンネットワークを定義するために、パラメータとしてその中に条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理するために、前記条件付き確率を用いて前記ローデータの前記一つ以上の属性を結び付けるために、前記条件付き確率のデータベースから確率的推論を実行するために、前記一つ以上のハードウェアプロセッサによる、実行用に設定される命令をストアするように構成されている、一つ以上のデータストレージデバイス、を含むシステム。

さらに他の態様では、以下を含むコンピュータプログラム製品が提供される。
その中に具体化されるコンピュータ読み出し可能プログラムを有する非一時的コンピュータ可読媒体であって、前記コンピュータ読み出し可能プログラムは、コンピュータデバイスにおいて実行されるときに、前記コンピュータデバイスに、複数の異種のソースにわたっているローデータと関連した一つ以上の属性に基づいてベイジアンネットワークを定義させ、パラメータとしてその中に条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理させ、前記条件付き確率を用いて前記ローデータの一つ以上の属性を結び付け、前記条件付き確率のデータベースから確率的推論を実行させる、コンピュータプログラム製品。

本開示の態様において、前記ベイジアンネットワークを定義することは、（ａ）依存関係および相関についてのドメインの把握、（ｂ）構造学習方法または（ｃ）その組み合わせ、に基づいている。

本開示の態様において、前記一つ以上の属性の各々は、前記ベイジアンネットワークの確率変数を形成する。

本開示の態様において、互いに直接マップされ得る前記一つ以上の属性は、確率変数に割り当てられ、近似的に関連し得るのみの前記一つ以上の属性は、別々の確率変数として維持される。

本開示の態様において、前記ローデータを前処理することは、条件付き確率テーブルを生成するために前記ローデータを圧縮することを含む。

本開示の態様において、前記確率的推論を実行することは、構造化問合せ言語（ＳＱＬ）エンジンを使用することを含む。

本開示の態様において、上述した方法は、少なくとも一つの結果を読み出すために前記条件付き確率に基づいて前記ベイジアンネットワーク上の分布クエリを処理することをさらに含む。

一態様において、上述した方法は、前記ローデータおよび前記ベイジアンネットワーク上の一連のバリデーションクエリ（検証クエリ）を処理する結果を比較することによって計算される推定誤りに基づいて前記ベイジアンネットワークを検証（確認）することをさらに含む。

当然のことながら、前述の一般的説明および以下の詳細な説明は、例示的および説明的なだけで、要求するように本開示の実施形態では制限されない。

本書における実施形態は、図面を参照して以下の詳細な説明からよりよく理解される。

図１は、本開示の実施形態に従って、ビジネスデータを融合するためのシステムの例示的なブロック図を示す。図２は、本開示の実施形態に従って、ビジネスデータを融合するための方法の例示的な流れ図を示す。図３は、本開示の方法の実施形態に従って、典型的なセンサ（ＳＥＮＳＯＲ＿Ａ、ＳＥＮＳＯＲ＿Ｂ、ＳＥＮＳＯＲ＿Ｃ、ＳＥＮＳＯＲ＿Ｄ）に関するデータのための例示的なベイジアンネットワークを表す。図４は、図４は、本開示の実施形態に従って、例示的な車両センサデータのための典型的なベイジアンネットワークを示す。図５Ａ、図５Ｂおよび図５Ｃは、視覚分析性ワークベンチ上で本開示の実施形態に従って、それぞれヒストグラムとして、離散化されたエンジン速度（ＥＳ）対総燃費（ＴＦ）、制御パス（ＣＰ）およびネットトルク（ＮＴ）の分布の例示的な実例である。図６は、本開示の実施形態に従って、グリッドおよび小区域内への合成データの生成およびそのセグメンテーションを示す。図７は、本開示の実施形態に従って、例示的なマーケティングデータセットを結び付けするための典型的なベイジアンネットワークを示す。

本書におけるいかなるブロック図も、例示するシステムの概念視点が本発明の対象の原則を実施していることを表すと当業者に認められるべきである。同様に、この種のコンピュータまたはプロセッサが明示的に示されるか否かを問わず、いかなるフローチャート、フロー図、状態遷移図、疑似コード、などもコンピュータ可読媒体において実質的に代表され得、コンピュータまたはプロセッサによって実行され得る様々なプロセスを表すことはいうまでもない。

添付図面に関連して例示的な実施形態が記載されている。図において、参照番号が最初に表示される参照番号の左端の桁は、図を特定する。どこであろうと便利な、同じ参照番号が図面の全体にわたって同様な部分を指して用いられる。開示された原則の実施例および特徴が本書において記載されると共に、修正、改作およびその他の実施は、開示された実施形態の精神と範囲から逸脱することなく可能である。真の範囲および主旨が後に続く請求によって示されることで、以下の詳細な説明が典型的であるだけとして見なされることが意図されている。

詳細な説明に移る前に、記載されている特定の実施に関係なく、下記の論考の全てが制限的と言うよりはむしろ実際は典型的であることに注意されたい。

本開示は、分布クエリおよび確率的推論に基づいて多様または異種のデータソースを相関させる（関連付ける）ことを促進するシステム及び方法を提供する。特に、本開示は、ベイズ推定ベースのデータ融合を適用することによって分布クエリに答えるために多様なおよび外見的には異種のビジネスデータを融合させるためのシステム及び方法を提供する。本開示に従って、効率的に分布クエリを実行するために、データソース全体の関係および相関は、ドメイン知識を組み込むように専門家の案内方法で学習されるベイジアンネットワークを介して要約される。現在の開示のさらに別の目的は、単純なＳＱＬクエリベースの方法を用いたベイジアンネットワーク上の推論を可能にすることである。

本開示において、「ビジネスデータ」または「ローデータ」または「データ」の表現は、明細書全体にわたって相互に用いられることがある。同様に、「ベイジアンネットワーク」の表現は、「ＢＮ」または「ネットワーク」と取り換えられて呼ばれる場合がある。

図面を参照すると、またより詳しくは、類似の参照符号が図の全体にわたって一貫して対応する特徴を意味する図１〜７に、好ましい実施形態が示されており、これらの実施形態は以下の例示的なシステム及び方法のという背景において記載されている。

図１は、本開示の実施形態に従って、ビジネスデータを融合するためのシステム１００の例示的なブロック図を示す。実施形態において、システム１００は、一つ以上のプロセッサ１０４、通信インタフェースデバイスまたは入出力（Ｉ／Ｏ）インタフェース１０６、上記一つ以上のプロセッサ１０４に動作可能に連結した一つ以上のデータストレージデバイスまたはメモリ１０２を含む。ハードウェアプロセッサである一つ以上のプロセッサ１０４は、一つ以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央演算処理装置、状態機械、論理回路および／または操作上の命令に基づいて信号を操作するあらゆるデバイスとして実現され得る。他の機能の中で、プロセッサは、メモリに保存されるコンピュータ可読命令を取り出し、実行するように構成される。実施形態において、システム１００は、様々なコンピュータシステム（例えばラップトップコンピュータ、ノートブック、携帯用デバイス、ワークステーション、メインフレームコンピュータ、サーバー、ネットワーククラウドなど）において実行され得る。

Ｉ／Ｏインタフェースデバイス１０６は、様々なソフトウェア、およびハードウェアインタフェース、例えばウェブインタフェース、グラフィカルユーザインタフェース、などを含むことができ、例えば、ＬＡＮ、ケーブル、その他の有線ネットワーク、および、ＷＬＡＮ、セルラ方式または衛星を利用するなどの無線ネットワークを含む、多種多様なネットワークＮ／Ｗおよびプロトコルタイプの範囲内で、多様な通信を促進することができる。実施形態において、Ｉ／Ｏインタフェースデバイスは、多くのデバイスを相互に、または、他のサーバーに接続するための一つ以上のポートを含むことができる。

メモリ１０２は、例えば、周知のあらゆるコンピュータ可読媒体、例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）およびダイナミックランダムアクセスメモリ（ＤＲＡＭ）などの揮発性メモリ、および／または、読出し専用メモリ（ＲＯＭ）、消去可能プログラマブルＲＯＭ、フラッシュメモリ、ハードディスク、光ディスクおよび磁気テープなどの不揮発性メモリを含むことができる。実施形態において、システム１００の一つ以上のモジュール（図示せず）は、メモリ１０２に保存され得る。

図２は、本開示の実施形態に従って、ビジネスデータを融合するための方法２００の例示的な流れ図を示す。実施形態において、システム１００は、一つ以上のプロセッサ１０４に動作可能に連結された一つ以上のデータストレージデバイスまたはメモリ１０２を含み、一つ以上のプロセッサ１０４によって方法２００のステップの実行用に設定される命令を保存するように構成される。

本開示の実施形態において、複数の異種のソースに及ぶデータレイクからのローデータと関連付けられている一つ以上の属性に基づいてベイジアンネットワークは、ステップ２０２で定義される。実施形態において、各属性は、ベイジアンネットワークにおける確率変数を形成する。ベイジアンネットワークそのものは、依存関係および相関についてのドメインベースでの把握を用いて、あるいは、従来の構造学習方法またはそれらの組み合わせを用いて定義され得る。

本開示の実施形態において、ステップ２０４で、ローデータは、パラメータとして条件付き確率を計算するために、ベイジアンネットワークに基づいて処理される。クエリは、確率的推論を用いてベイジアンネットワーク上で実行される。実施形態において、属性間に実際の条件つきの独立関係に対する近似だけがある場合であっても、ツリー構造のネットワークが用いられる。ツリー構造のベイズネットにおいて、各条件付き確率テーブル（ＣＰＴ）は二次元であって、推論を効率的にする。本開示に従って、条件付き確率計算のためのローデータの処理は、確率論的方法ではあるが、データベースで実現された見解（見通し）を計算することと類似している。

本開示の実施形態において、互いに直接マップされ得る異種のデータソースの属性は、同じネットワーク変数に割り当てられる。例えば、業界標準コード体系によって記載されている異なるデータソースの項目またはパーツは、単一アイテム変数として扱われ得る。近似的に関連があるだけかもしれない属性は、ベイジアンネットワークの条件付き確率においてキャプチャー（取得）されているそれらの相互の相関を有して、別々のネットワーク変数として保持される。例えば、異なる調査は、地理的領域（例として、郡対郵便番号）の異なる空間モザイクを使用しているデータをキャプチャーしたかももしれない、にもかかわらず、この種の領域との相互の共通部分は、地図（すなわち、地理情報システム（ＧＩＳ）レイヤー層）を使用して計算され得る。このように、それぞれ可能性がある郵便番号に存在している特定の郡の条件付き確率は、地図を使用して計算され得る。同様に、異なる製品−カテゴリー定義を用いて体系化される製品関連のデータは、複合的なカテゴリーにわたって体系化されるサンプル例を使用して、近似的に相関し得る。

実施形態において、ドメインエキスパートは、ドメイン制約に基づいてＢＮを定義する。実施形態において、ＢＮ構造および詳細は、本書において下記に示すように構成ファイルに定められている。

図３は、例示的なセンサ（ＳＥＮＳＯＲ＿Ａ、ＳＥＮＳＯＲ＿Ｂ、ＳＥＮＳＯＲ＿Ｃ、ＳＥＮＳＯＲ＿Ｄ）に関するデータのための典型的なベイジアンネットワークを表す。本開示に従う構成ファイル用のテンプレートは、本書において下記に示される。

実施形態において、構成ファイルは、従属するセンサのその前に、ペアレントセンサの詳細を含む。構成ファイルおよび観測データに基づいて、式（方程式）１（本書下記記載）に示されるものと類似の集計クエリを用いる条件付き確率テーブル（ＣＰＴｓ）が習得される。場合によっては、これらのＣＰＴｓのサイズは指数的に大きくなり得、ノードの中のペアレントノードの数はＢＮにおいて最高３に限られている。また、できる限りＢＮは、ＣＰＴｓのサイズを少なく保つ有向非巡回グラフ（ＤＡＧ）よりも、ツリーとしてモデル化される。その後、ＢＮの各エッジに対して、条件付き確率テーブルは、オリジナルデータを用いて算出される。

実施形態において、ステップ２０６で、ローデータの一つ以上の属性は、例えば、地図、サンプル分類など利用できるように、適切なソースから導かれる条件付き確率を用いる原則に基づいた方法で近似的に結び付けられる。クエリ実行を最小化するために、近似の相関は、属性の間に組み込まれる。さらにクエリ実行を最小化するために、本開示の方法は、例えばツリー構造などの近似のネットワークに依存することができる。ステップ２０８で、確率的推論は、条件付き確率のデータベースから実行される。実施形態において、本開示の方法は、ベイジアンネットワークそのものの基礎をなしている仮定に基づいて可能な限りの最善の確率応答である少なくとも一つの結果を読み出すために前記条件付き確率に基づいて前記ベイジアンネットワーク上の分布クエリを処理することをさらに含む。実施形態において、本開示の方法は、ローデータおよびベイジアンネットワーク上の一連の分布クエリを処理する結果を比較することによって計算される推定誤りに基づいてベイジアンネットワークを検証（確認）することをさらに含む。

本開示の実施形態では、速く、近似の結果が充分である場合、規制報告と対照的な予測アナリティクスの場合と同様に、本開示は、ベイズ推定の確立した原則に基づいて１つのフレームワークにおける近似データマッピングと確率論的クエリ処理とを結び付けるのに従って、企業データレイクに実行可能で役立つ命題（定理）を構成する。

本開示の例示的実施形態において、ローデータに繰り返しアクセスすることのなく、エンジニアリング解析をサポートすべく効率的に確率応答を提供するために、センサデータレイク中の大量の車両マルチセンサデータのシナリオが記載されており、潜在的に多様で公的および個人的に無関係なデータソースにもかかわらず、ベイズ推定を用いて行う分布クエリを経て有用な統計的洞察を引き出すために、近似的かつ効率的に結び付けされ得るかについて明示する。

本開示の実施形態において、データベース上の分布クエリを処理することが記載されている。例えば、現在大部分の最新の車両、飛行機、同様の複合機械において一般に存在している多様なセンサからのデータ、すべてのローデータが単一のテーブルにあるデータ、のシナリオを考える。表１にて例示したように、エンジン速度（ＥＳ）、総燃費（ＴＦ）、ネットトルク（ＮＴ）および制御パス（ＣＰ）に関するローデータの各記録は、実際の番号が付けられたセンサ値のタプルである。

離散化された形において、すなわち、表１のＤとして、各センサの実際の値は、ビン数に換算される。例えば、ＥＳセンサは、１０のビン（ｂｉｎｓ）−１００〜２００、２００〜３００などを用いて離散化されるかもしれない。この種のデータのエンジニアリング解析は、通常、特定のセンサの値の分布を計算して視覚化することを含んでおり、言い換えれば、どのくらいの頻度で各ビンがデータに追加されるか、そして、２つのセンサの結合分布（または同時分布）、すなわち、どのくらいの頻度で一対のビンの値それぞれが追加されるか、二次元のディスプレイに結果としてもたらされる。さらに重要なことに、残りのセンサ上で例えばＥＳ（エンジン速度）が低いがＮＴ（ネットトルク）は高い場合のＴＦ（総燃費）の分布など、一定の条件を与えられるセンサの一つ以上の目標設定の分布を決定することに関連させてもよい。

一般に、データセットは、Ｄ（ａ）として意味付けされ、Ｍは、異なるセンサに対応するａ_１…ａ_Ｍの結果であると考えることを意味する。さらに、各属性ａ_ｉがｎ_ｉに離散値（ｂ_ｉ１…ｂ_ｉｎｉ）を取り込むと仮定する。属性ａ_ｉのための分布の計算は、表示Ｄ上のｎ_ｉクエリを計算するものとして、関係代数において表され得る。

上記において、ｊ各々に対してｊ＝１…ｎ_ｉ。
ここで、Ｇ_{ｃｏｕｎｔ（）}は、条件ａ_ｉ＝ｂ_ｉｊを有する選択操作（σ）の下で、集計関数カウント（）を参照する。

さらに一般的にいえば、ｋ目標属性ａｉ_１…ａｉ_ｋに対し、残りのｎ−ｋ属性の一部もしくは全部上の一連の条件を特定する、条件Ｑの下でのｋ次元の分布クエリは、それぞれ表示される、ｎｉ_１ｘｎｉ_２ｘ…ｎｉ_ｋクエリを実行することによって、計算され得る。

ｊ_１…ｊ_ｋの可能な組み合わせに対し、言い換えれば、すべてのｊ_ｌは、ｎ_ｌ値１…ｎ_ｌを取り込むことができる。

例えば、そのビン７または８にあるＴＦ、およびビン５にあるＣＰの条件の下のＥＳセンサの分布は、次式の形を成す１０の関係型クエリを評価することによって取得され得る。

ＥＳの１０のビンに対し、ｊ＝１…１０（ここでＥＳは１０のビンに離散化されたと仮定される）。

各一連の分布クエリは、全データベース上の単一のパスにおいて計算され得、または、条件Ｑの選択性が高い場合には何らかの形のインデックスを用いて計算され得る点に注意されたい。データ量が非常に大きくなる場合、特にクエリの選択性が高くないときに、無意味なインデックスを作成することや全データを通じてスキャンを必要とすることで、各クエリに対してデータアクセスしなければならないことは重大なオーバーヘッドになる。しばしば、従来のデータベースにデータセットをロードすることですら、インデックスを使用する迅速なクエリングの利点に値しない。

本開示の他の一実形態において、複数のデータセットを結び付けすることが記載されている。データが多様なソースから来る場合、共通のまたは関連した属性に基づいて異なるソースを結び付けすることで、さらなるデータ編集事象が起こる。マーケティング専門家のために関心のあるデータの実施例を考える。
例えば、国勢調査データによる収入（Ｄ_１）、携帯電話会社からの経時的な人の居場所（ロケーション）（Ｄ_２）、マーケティング調査からの職業（専門的職業）（Ｄ_３）は、表２のように示される。注目すべきは、人々の異なるセットを調査するかまたはモニタすることによって、データセットが収集され得た点で、同じ全般的な地理学ではあるが、すなわち、データは同じ内在する『地上調査の情報（グラウンドトゥルース）』を表し、そして、各サンプルは等しく不偏であるとみなされる。

本シナリオによれば、異なる領域における人々の、収入、ロケーションおよび職業をそれぞれ表している３つのデータベースＤ_１、Ｄ_２およびＤ_３は、属性Ｒ_１、Ｒ_２およびＲ_３によってキャプチャー（取得）される。領域属性の各々に対して同じ地理的セグメンテーションが使われる場合であっても、それぞれの結び付きＤ＝Ｄ１∞ _{Ｒ１＝Ｒ２}Ｄ２，Ｄ２∞ _{Ｒ２＝Ｒ３}Ｄ３，またはＤ１∞ _{Ｒ１＝Ｒ３}Ｄ３（∞は三角形の蝶ネクタイ型で演算を表現する記号の代わりに用いた記号）は、非常に多くの関係性があるので、共通の領域属性は、３つのテーブルを意味があるように結び付けることができない点に留意する必要がある。つまり、これらの結び付きが定義されると同時に、それらはいかなる有意義な目的をも果たさない。
その代わりに、仮定的に結び付けられたデータセットＤをクエリングする機構は、例えば下記表３のように調査（観測）される。表３において、テーブルの各々が個人を一意的に識別する共通の属性を持った場合、計算することが可能だったかもしれない。残念なことに、この種の属性は、利用できない。

本開示に従って、多少強硬な仮定ではあるが、この種の異種のデータセットから意味のある洞察を導き出すことがまだ可能である。データセットＤ_ｉの各々が仮定的分布Ｄから無作為標本として見られると仮定する。残念なことに、表３に示すように、欠落している３つの属性のうちの２つを有するこのような各サンプルは、それ自体不完全である。

これが一般に機械学習において遭遇する欠陥データ課題の極端な例であることに留意する必要がある。このような状況は、通常、存在する他の属性を働かせて失った値をできる限りうまく満たすことを試みることによって、扱われる。つまり、例えば、１つは、条件付き確率Ｐ（ロケーション，職業｜収入，地域）を最大にするものを計算することによってロケーションおよび職業のカラムを埋めようとするかもしれない。一般に、欠落している属性は、観測されるどんな属性でも、条件付けられるそれらの同時確率を最大にする組合せでもって、満たされる（次式）。

ここで、ＭおよびＯは、欠落したおよび被観測属性を表す。
実際には、これは、さらなる仮定もせずに計算するのは困難かもしれない。にもかかわらず、関心のあるすべての属性が、観測されることを考えれば、互いに無関係であるとされることを前提とする。上記の実施形態において、これはロケーションにつながり、そして、職業がそれぞれの収入、地域の組合せの中で少なくとも互いに無関係である。換言すれば、欠落した変数間のいかなる相関も、観測されるものによって説明され得る。これは、前記式（４）が次式になることを用いる、データ融合および機械学習において一般に使われる単純ベイズ推定である。

上記の実施例において、これは、Ｐ（Ｌ，Ｒ｜Ｒ，Ｒ）の代わりに、Ｐ（Ｐ｜Ｉ，Ｒ），Ｐ（Ｐ｜Ｉ，Ｒ）およびＰ（Ｉ，Ｒ）の製品を最大にすることによって、欠落した値を埋めることにつながる。ここで、Ｐ、Ｌ、ＩおよびＲは、それぞれ、職業、ロケーション、収入および地域を表す。

本開示の実施形態において、不適当な結び付けキー（ＪｏｉｎＫｅｙｓ）が記載されている。データセットＤ_ｉの各々が真に完全に異なる場合、各データセットはそれらの個別領域属性のための異なる地理的セグメンテーションを使用することができる。つまり、Ｒ１＝１およびＲ２＝１は、事実同じ領域でなくてもよい。さらに、１つのデータセットはその他より粗い領域を使用することができ、異なるデータセットからの領域は実行（例えば郵便番号および郡）の各々と重複し得る。この種の状況において、欠落したＤの値を埋めるための上記手順が、必ずしも適切であるとは言えないかもしれない。実施形態において、３つのデータセットは、異なる領域属性間の関係を引き出すのに役立つ付加的なデータセットによって、増加され得る。このようなデータセットは、例えば、すべての領域が区切られるマップから導出され得る。位置は、その領域値、すなわちＲ１、Ｒ２およびＲ３による全３つの各位置用に注目して、この種のマップにおいてランダムにサンプルを採られる。ここで、結び付いたテーブルＤは、これらの３つの領域属性だけが満たされる付加的な行を有する、そして、この種のテーブル行は欠落した値を推定するためのリンクを提供する。しかしながら、この場合提供されるリンケージは間接的であるので、下記に示されるように、完全な確率的推論を用いて課題に対処することは、後に関係クエリを実行する欠落した値に入る第１フィリングを経るよりもむしろ、より容易である。

一般に、課題シナリオは、以下の通りに定式化され得る。データセットＤ_ｉｓを与えられて、データセットＤ_ｉｓが属性ａ_ｉに関してある程度のレベルで重複し得ると仮定される。上記例に示されるように、ａ_ｉ∩ａ_ｊ≠φになる（φは空集合の記号の代わりに用いた記号）ように、ｉごとに、ａ_ｊが存在する。さらに、これが真でない、すなわち、二つ以上のデータセット間に明確な重複部分がない場合、これが事実であるように、データが付加的なデータセットで増加され得ると仮定される。一群のデータセットが完全に結び付けられる、とも仮定される。グラフが、Ｄ_ｉとＤ_ｊとの間のノードやエッジとしてＤ_ｉｓを有して定義される場合、これらが少なくとも一つの一般の属性を共有する場合、このグラフが完全に結合され、すなわち、一つの被結合構成要素を占める場合、データセットの集まりは結び付けられる。これが真でない場合に、もう一度、それを真にするために一群のデータセットを増大させることができると仮定される。

本開示は、各データセットの属性が離散化されたところの結び付けられた一群のデータセット上の分布クエリの処理を取扱う。このような収集は、上記の実施例のように、テーブルをつなぐところの『結び付けられた』データセットＤの独立サンプルを占めるとして、見なすことができる。

本開示において、確率的推論として分布クエリが表されている。本開示に従って、表３の、結び付けられたデータセットＤ（ａ）は、属性ａに対応する確率変数にわたって結合分布Ｐ（ａ）からのサンプルを含むものとして見なされることができる。その後、分布クエリは、確率的推論と同等である、言い換えれば、結合分布Ｐ（ａ）を除外することによって確率分布Ｐ（ａ_ｉ）を計算するものとして見なされることができる。同様に、セット（２）によって実行される一般の分布クエリは、条件付きの事後確率を計算している（次式）。

これは、エビデンスＱ（すなわち、古典的確率的推論）の下で、周辺化によって結合分布Ｐから計算され得る（次式）。

これは正常化される必要があるから二重波記号（二重波記号はニアリーイコール）

データセットが『結び付けられて』から、どんなデータセットＤｉが実際のところ利用できるかという状況によって強制される、領域知識から一部得られた条件付き独立性の適切な仮定及びその他の下で、次式のように単一のベイジアンネットワークを用いた式（６）の結合分布を因数に分解することができる。

ここで、Ｐａ（ａ_ｉ）は、ベイジアンネットワークの変数ａ_ｉのペアレントを意味する。本開示に従って、上記式（６）および（８）は、分布クエリを効率的に計算するために結び付けされ得る。

本開示の他の一実施形態において、分布を用いる値のためのクエリングが記載されている。分布クエリの課題が属性ａを通じて同時確率分布上の推論の観点から見られると、本開示に従って、１つは連続変数のための値に基づいたクエリに応答することもできる。これは多くの状況において必要であり、例として、ＮＴおよびＴＦの二次元の結合分布の代わりに、ＮＴ対ＴＦの分布、すなわち異なるＴＦ値に対してＮＴの実際の値を期待するかもしれない。これは、従来の散布図が伝えるかもしれないようなクエリ、または『ＴＦの各ビンのための平均ＮＴ』上の従来の『ビジネスインテリジェンス』クエリである。確率の用語において、この種のクエリは、分布クエリを使用して計算され得る期待値の観点から容易に表される。ＴＦのビンｂ_ＴＦｉごとの平均ＮＴは、Ｅ［ＮＴ｜ＴＦ＝ｂ_ＴＦｉ］として表すことができ、次式のとおり、ＴＦを与えられるＮＴの条件付き分布から、計算可能である。

ここで、ｖ（ｂ_ＮＴｊ）はおよそ、ＮＴのビンｂ_ＮＴｊの中間点、例えば、ｂ_ＮＴｊ≡ＮＴ_１＜ＮＴ＜ＮＴ_２ならば、ｖ（ｂ_ＮＴｊ）、＝（ＮＴ_１＋ＮＴ_２）／２である。同様に、カテゴリー変数の場合、次式を最大にすることによって、高収入の者が訪れる最も見込みのあるロケーションを計算することが容易にできる。

本開示に従って、データセットの一群上の分布クエリは、基本的に、属性Ｐ（ａ）の同時確率分布上の条件付きの推論を経て計算され得る。マーケティングデータの例で述べられる多様なデータソースの場合、データセットの一群が結び付けされることを確実にするためにセットされる属性は、付加的な属性を有して最適に増加されていた。ベイジアンネットワーク（ＢＮ）は、属性を表している各ノードを有して、結合分布を近似させてモデル化される。多様なデータセットの場合、この種のＢＮの構造は、利用できるデータセットＤｉを用いて計算可能な限られた条件付き分布によって制約され得る。Ｄが完全に利用可能な場合、ＢＮは、例えば、できる限りツリー構造に近いことを確保するなど、評価するのを容易にするその構造への制約と共にドメイン知識を使用して、定義され得る。

実施形態においてこのＢＮ上の確率的推論のために、条件付きクエリは、構造化問合せ言語（ＳＱＬ）に翻訳される。ＳＱＬエンジンは、一連の関係表としてそれらを考慮するＣＰＴｓをクエリングするために使用される。このように、本開示は、ＳＱＬエンジンを用いた確率モデルの融合のための方法を提供する。ＢＮが結合分布構造に近似を表すので、適切な機構はＢＮ精度を測定するために必要である。本開示の実施形態に従って、ベイジアンネットワークは、ローデータおよびベイジアンネットワーク上の一連の分布クエリを処理する結果を比較することによって計算される推定誤りに基づいて、検証（確認）される。

本開示の実施形態に従って、ベイジアンネットワーク上の条件付きクエリに対してＳＱＬを使用することが、以下に記載される。ローデータから習得される条件付き確率はＳＱＬデータベースに格納され、その後、さらにすべての確率論的クエリがこのデータベースを用いて答えられる。例えば、式（３）に記載されている関係式が表１の車両センサデータセットに関して、確率的推論に翻訳される場合、次式のような一連の条件付き確率クエリを計算することになる。

これらはその後、それぞれ式（８）および（６）に従って乗じられ、周縁化される。

実施形態において、式（８）の結果および式（６）での総和は、下記のようであり、図４にて図示したように、車両センサデータのための典型的なベイジアンネットワークに対し、ＣＰＴｓのデータベース上のＳＱＬエンジンを使用して計算され得る。

ここで、ＥＳは、被クエリ変数、およびＴ＿ＴＦ、Ｔ＿ＮＴ、Ｔ＿ＥＳ、Ｔ＿ＣＰは、ベイジアンネットワークに基づくＴＦ、ＮＴ、ＥＳ、ＣＰのためのＣＰＴｓである。Ｐ＿ＴＦ、Ｐ＿ＮＴ、Ｐ＿ＥＳおよびＰ＿ＣＰはそれぞれの確率カラム名であり、ＷＨＥＲＥ条項は所与の条件を規定する。類似のクエリを使用して、１つは、以下に示すように、所与の条件のエビデンスを計算することもできる。

表記法は上記与えられるものと類似している。

本開示の実施形態に従うベイジアンネットワークの検証（確認）を、以下に記載する。ローデータ上でかつＢＮを用いて実行されるクエリに関して実行される場合、確率的推論が用いられるものとして、クエリ間にいくつかの違いがなければならない。実施形態において、一部の検証クエリは、エラー境界を測定するための構成ファイルの入力として与えられる。その後、ネットワークから得られた検証クエリと、ローデータから得られた検証クエリの出力が比較される。実施形態において、抽出された２つの分布は、ＫＬダイバージェンス（ＫＬＤ）およびバタチャリア係数（ＢＣ）を使用して比較される。ローデータから得られた分布をＹとし、ネットワークから得られた分布をＺとする。ＹおよびＺは両方とも離散型分布であるから、それらの間の対称ＫＬダイバージェンスが次式のようである。

また、ＹとＺ間にバタチャリア係数が次式によって与えられる。

実験解析
本開示のビジネスデータ融合の方法およびシステムは、本書における上記表１および２のデータセットとして示される２つのシナリオで評価される。目的は、本開示の方法が多種多様なデータセットで分布クエリングするための、効率的な解決策を提供することができることを示すことである。本方法は、ベイジアンネットワークを供給されるドメイン知識に主に依存するので、異なる条件を示す一連のサンプルクエリングの場合、実験的な評価の焦点は、検証エラー（バリデーションエラー）の計算にある。以下記載されている関連した計算分析は、３．２ＧＨＺの速度および４ＧＢのＲＡＭを有するインテルコア（登録商標）ｉ５ワークステーションで得られた。

車両センサデータ上の分布クエリを処理することが、以下に記載されている。車両、エンジンまたは他のあらゆる装備などの機械がますます複雑になるにつれて、それら機械には、多数の、大抵は何百ものセンサが取付けられている。車両の母集団によって生成される多量のデータを分析することは、厳密に顧客が製品を使用する方法と同様の分野においてそれらの製品の動き具合をよりよく理解する、かなりの製品の装備を可能とする。設計などを改良する機会を見つける、誤りにつながる異常な動作の理由を決定する上で、非常に貴重な情報である。

エンジンの多数の事例（過程）のためにセンサデータの多数の収集が用いられる。エンジンは２００以上のセンサを備えており、センサごとに、表示が平均すると３０分のエンジンの動作に対し誤認されるとした。データは、１年以上動き続けるこの種の実行からなり、ｃｓｖフォーマットに格納された。それは、１２，０００，０００以上の記録をとって、１５ＧＢのサイズであった。このデータは、読出ローデータの処理の速度を上げるために、最初に、バイナリ形式に変換された。これは、１０ＧＢまで圧縮されているローデータにされた。その後、ベイジアンネットワークのパラメータを習得して、ローデータにクエリングするための入力データとして、バイナリファイルが用いられた。

ビジネスデータ融合は、エンジン速度（ＥＳ）、ネットトルク（ＮＴ）、総燃費（ＴＦ）および燃焼制御パスオーナーまたは制御パス（ＣＰ）である４つのセンサによる現実のセンサデータを有する使用事例に対し、分析された。本開示の方法が離散化されたセンサ値を必要とするのに応じて、これらのセンサ値は、統計的プロファイリングの過程として計算される一連の、一および二次元のヒストグラムとして表される。図５Ａ、図５Ｂおよび図５Ｃは、視覚分析ワークベンチ上のヒストグラムとしての、離散化されたＥＳ対ＴＦ、ＣＰおよびＮＴそれぞれの分布の典型的な実例である。さまざまなハッチング・パターンは、初期値を表して、問い合わせた後に、値を更新した。初期値は水平ハッチングによって示され、その一方で、範囲選択に基づいて更新された値はここに垂直ハッチングによって例示された。これらのヒストグラムは、ゼロと１の間で分布している正規化された値を表す。分布クエリの例は、選択されたセンサ上の範囲選択によって記載され得、そこにおいて、残りのセンサ上のイニシャルおよびポストクエリ配布が示される。エビデンスの確率、すなわち、確率に関して選択された条件のサポートを示す、縦棒としての選択もまた示される。

検証（バリデーション）のために、１〜４個のセンサを含んでいる多くの検証クエリ（バリデーションクエリ）は、定式化された。その後、検証クエリは、ローデータに、そして、ＢＮに実行された。メモリへのデータの読み込み時間（検討中での環境において４分であった）を考慮せずに、１０〜１２秒の平均的時間が観測された。ＳＱＬデータベースに格納されるテーブルにクエリが実行されていたので、ＢＮ上に実行される場合の同じクエリは、１秒未満かかった。しかしながら、ＢＮのパラメータを習得するために、全ローデータのリニアスキャンは約４分かかった。ローデータによって計算される分布とサンプルクエリ用にＢＮを使用することの相互間のエラーは、表４に示されている。

高いエビデンスを有するクエリのための分布エラーは、ゼロに近い。にもかかわらず、表４の第１および最後の行は、第１のクエリがデータにおいてより少ないサポートを有するところの対照的な結果を示す。しかし、ＢＮベースのクエリングはローデータとしてほぼ正確である。さらに、最後の列に対し、高サポートクエリと同等で、分布エラーは、潜在的に高い、コード化されたＢＮ構造において欠けている他の依存関係を示唆する。にもかかわらず、ベイズ的クエリを実行する前と後の分布間の変化の方向は正確なままであり、大部分の状況で、これはエンジニアにとって最も重要であることである。

異種のデータソースにクエリングすること、特にマーケティングデータは、以下に記載される。マーケット情報市場を導くと共に、異なるエージェンシーによって典型的にコンパイルされるいくつかの領域から人々の異なる属性をキャプチャーしているデータに、しばしばアクセスする。状況は、上記の表２によって導かれるシナリオと類似している。各エージェンシーが異なる方法でデータを収集するので、言い換えれば、各エージェンシーは異なる領域からデータを収集するので、各々が潜在的に異なって区切られ、この種のデータを結び付けすることは、この種のデータからあらゆる意味のある分析を引き出す上での障害になる。１つの方法は、サブ領域を無視することで異なるサブ領域からデータを統合することによって、言い換えれば、すべてのその領域の結合の表現としてのみ、各データソースを使用し得る。しかしながら、これがより大きいそして信頼性の高いデータセットにつながると共に、領域に特有の相関に基づいて洞察を無視することを犠牲にする。その代わりに、領域間の相関関係を決定するために、すべての領域をコモンマップに記録することができる。条件付き確率分布は、領域の各組との地理的な重複に基づいて他の領域を与えられるこれらの領域の各々に対して見られる。

データ生成については、以下に記載される。この実験のために、人の４つの属性、つまり、収入、職業、ロケーションおよび支出を持って、属性セットを増大させている付加的な属性である領域と共に、２０，０００，０００の記録を有して合成データセットが生成された。関心のある全体の地理学上の矩形グリッドが想定される。領域へのこの地理学のセグメンテーションは、図６に例示されるように、規定され得る。全体の領域（地理学）の４つの異なるセグメンテーションは、２つまたは３つの領域の中に生成された。言い換えれば、表２のＲ_ｉｓは異なる濃度（カーディナリティ）を各々有することができる。

収入（Ｉ）、職業（Ｐ）、ロケーション（Ｌ）および支出（Ｅ）のための属性値は、異なる収入、職業、最もよく出入りし金を費やすロケーションを持っている人々に対応した異なる手段および分散を用いる各グリッドセルに対して生成された。データセット当たり４つの属性のうちの１つのみを含み、そのデータセットに特有のセグメンテーションに対応した領域を有する各記録にタギング（タグ付け）する基本生成データから多数の記録をランダムにサンプリングすることにより、各データセットに対して別々のファイルが作成された。各データセットのための領域セグメンテーションは、サンプル用に３値のうちの１つを取り込む、収入分布のためのＲ＿Ｉのような新しい変数によって表される。同様に、ロケーションのために、変数Ｒ＿Ｌは、２つの可能値だけをとる。

確率的推論が、以下に記載される。データ生成プロセスの後、この場合のためのベイジアンネットワークは、図７に示すようにモデル化される。グリッドセルへの全体の地理学のセグメンテーションは、２つの領域セグメンテーション方式間での重複が計算される、言い換えれば、ベイジアンネットワークにおけるＣＰＴｓの計算用に使われるＰ（Ｒ＿Ｉ｜Ｒ＿Ｌ）が計算される『マップ』であると見なされる。分布クエリは、以前に記載されているＳＱＬを用いて計算された。

サンプル検証クエリのためのエラーは、表５に示される。

見られるように、ネットワークによって計算される条件付き分布の間のＢＣ距離およびローデータは、重複度合いが高い。もう一度とはいえ、ローデータまたはその異種のサンプルを結び付けする確率論的方法を使用するしないにかかわらず、クエリを実行する前と後の分布間の変化の方向は同じである。なお、実際には、最初の結び付けされたデータサンプルが利用できないとみなされるので、この種の検証（バリデーション）は、これらのエラーを計算するため、不可能であり、この種の検証は、合成データが使われていたので、この分析において行うことができる。

実行履行に関して、データセットの各々をクエリングすることは、各ファイルをスキャンすると共に、全データセットをメモリにロードすることを必要とする。ＢＮを使用しているクエリにかかる時間が１秒未満であるとき、これは合成データ上に平均して１００秒を引き受けることになる。ＳＱＬを用いたＢＮにクエリングするためにかかる時間はまた、大部分は入出力に再び費やされているおよそ１００秒のＣＰＴｓを習得するためにかかる時間を除外している。分布クエリの実行は、異種のデータセットに実施された。さらに、データ分布およびそれらの相関をベイジアンネットワークに圧縮することによって、実現されたビューが標準データベースクエリのために貢献するのとほぼ同じ方法で、クエリ実行時間は大幅に改善される。

本開示は、潜在用途シナリオだけでなく実際によって動機付けされる、多様なソースから潜在的に引き起こされる一つ以上のデータセット上の『分布』クエリの課題を規定した。課題は、単一のデータセット上の、あるいは潜在的に多様なソースからの複数のデータセットの場合、仮想に基づいた『結び付けされた』データセット上の、条件付き確率的推論に等しいと見なすことができる。本開示に従って、例えば、ビジネスインテリジェンスにおいてしばしば遭遇する多くの値ベースのクエリが分布クエリに基づいてほぼ答えられるということがわかる。本開示は、利用できるデータセットから生じている制約はもちろんドメイン知識も使用して規定されるベイジアンネットワークを介して、内在する結合分布に近似させることによって分布クエリを計算する、『ビジネスデータ融合』方法を提供する。本開示のシステムは、ベイジアンネットワークの条件付き確率表のデータベース上の確率的推論を使用しているＳＱＬクエリを実行するための分布クエリを評価するビジネスデータ融合を提供する。特に、一旦ネットワークパラメータが習得されるならば、本開示のシステムはローデータに再アクセスする必要はない。実験の結果は、ローデータを使用している正確な計算と比較しての精度だけでなく実行性能も含んで、マーケティング分析の仮定的シナリオを例示しているデータセットの合成収集はもちろん、現実のセンサデータセットについて報告された。

本開示のシステムおよび方法は、『データレイク』アーキテクチャにおけるほぼ統合的なデータによく適しており、分散ファイルシステムに未加工に近い形で保存されるデータは、最初にデータウェアハウスに統合するのとは対照的に洞察のために直接的に処理される。また一方、本開示に従って、従来のデータベース技術を用いて結び付けするのが困難または不可能だった外見上異種のデータセットは、それにもかかわらず、ビジネスデータ融合を経て実行される分布クエリを介して意味のある洞察を引き出すために、処理され得る。本開示の方法は、潜在的に、クエリ処理に加えてデータマイニングのためにも使用可能である。本開示の方法がベイジアンネットワーク上の条件付き推論を経て少なくとも一つの答えを分布クエリに提供するので、各々が分布クエリ／付き推論として表され得るあらゆる特定の値の組み合わせのサポートおよび信頼を判別することができる。その後、相関ルールで、サブグループは、効率的に属性値の組み合せの空間を検索するために、データマイニング技術を用いて計算可能である。

いかなる当業者も、本開示の実施形態を構成し、使用することを可能にするために、書かれた表現は、本書において主題（発明の対象）記載する。ここで規定される主題（発明の対象）となる実施形態の範囲は、当業者に生じる他の変更を含むことができる。それらが請求の文字通りの言語と異ならない同様な要素を有する場合、または、それらが文字通りの用語との実体のない違いを有する等価な要素を含む場合、他の変更は本書の範囲内にあることを意図する。

しかし、当然のことながら、保護の範囲は、この種のプログラムに、そして、その中のメッセージを有するコンピュータ可読の手段に加えて拡張され、この種のコンピュータ可読記憶媒体手段は方法の一つ以上のステップの履行のためのプログラムコード手段を含む。そのとき、プログラムはサーバーまたはモバイルデバイスまたはいかなる適切なプログラム可能なデバイスでも動く。ハードウェアデバイスは、例えばサーバーまたはパーソナルコンピュータ、等のような、いかなる種類のコンピュータをも含んでプログラムされ得るいかなる種類の装置またはいかなるそれらの組み合わせでもあることができる。デバイスはまた、例えば、特定用途向け集積回路（ＡＳＩＣ）の類のハードウェア手段、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはハードウェアおよびソフトウェア手段（例えばＡＳＩＣおよびＦＰＧＡ）の組合せ、あるいはその中にソフトウェアモジュールを有する少なくとも一つのマイクロプロセッサや少なくとも一つのメモリを含むことができる。このように、手段としては、ハードウェア手段およびソフトウェア手段を含むことができる。本書において記載されている方法の実施形態は、ハードウェアおよびソフトウェアで実行され得る。デバイスは、ソフトウェア手段を含むこともできる。あるいは、本開示の実施形態は、異なるハードウェアデバイス（例えばＣＰＵの複数の使用）に実行され得る。

本書において実施形態は、ハードウェアおよびソフトウェア要素を含むことができる。本開示は、ソフトウェアにより実現される実施形態を含むが、これに限定されるものではなく、ファームウェア、レジデントソフトウェア、マイクロコード、などが挙げられる。本願明細書において記載されている機能は、本開示のシステムを含む様々なモジュールによって実行され、かつ、他のモジュールまたは他のモジュールの組合せで実行し得る。このような説明のため、使用可能なコンピュータまたはコンピュータ可読媒体は、命令実行システム、装置またはデバイスが使用するために、またはそれに関連して、プログラムを含む、格納する、伝達する、伝搬させる、あるいは移送することのできるあらゆる装置であることが可能である。本書において記載されている様々なモジュールは、ソフトウェアおよび／またはハードウェアモジュールとして、あらゆるタイプの非一時的コンピュータ可読媒体または他のストレージデバイスに実装され得る。非一時的コンピュータ可読媒体の一部の非限定的な例は、ＣＤ、ＤＶＤ、ブルーレイ、フラッシュメモリおよびハードディスクドライブを含む。

さらに、プロセスステップ、方法ステップ、技術等が順次命令に記述され得るにもかかわらず、この種のプロセス、方法および技術は交代命令において機能するように構成され得る。換言すれば、記載され得るステップのいかなるシーケンスまたは順序も、ステップがその命令において実行されるという必要を必ずしも示すというわけではない。本書において記載されているプロセスのステップは、実際のいかなる命令においても実行され得る。さらに、いくつかのステップは、同時に実行され得る。

ステップの例示は、典型的な図示した実施形態を説明するために提示され、特別な機能が実行される進行中の技術開発が方法を変えることについて予想されることは当然である。これらの実施形態は、限定ではなく例示の目的のために本書において示される。さらに、機能的な建築用ブロックの境界は、説明の便宜のために、本願明細書において任意に定められた。他に取り得る境界は、特定の機能およびその関係が適切に実行される限り、規定され得る。変形例（本書における記載の中の、等価物、拡張、変化、偏向などを含む）は、関連した技術の当業者にとっては、本書において含まれる教示に基づいて明らかである。この種の変形例は、開示された実施形態の範囲および主旨に入る。また、「ｃｏｍｐｒｉｓｉｎｇ」、「ｈａｖｉｎｇ」、「ｃｏｎｔａｉｎｉｎｇ」および「ｉｎｃｌｕｄｉｎｇ」の文言やその他の類似の種類は、意味において等価で、以下に続く項目または複数項目において制約がないこれらの文言のいずれか一つが、この種の項目または項目の総記であり得ないことを意図されているか、または記載された項目だけまたは項目だけに限られていることを意図されている。本書においてそして添付の請求の範囲に使われているように、単数形「ａ」、「ａｎ」そして、前後関係がはっきり決定しない限り、「ｔｈｅ」が複数の参照を含む。

以下の請求の範囲によって示されている開示された実施形態の本当の範囲および主旨と共に、開示および実施形態（実施例）が典型的であることだけ考慮されることが意図されている。

Claims

プロセッサによって、複数の異種のソースにわたっているローデータと関連した一つ以上の属性に基づいてベイジアンネットワークを定義するステップ（２０２）であって、前記一つ以上の属性のそれぞれが、前記ベイジアンネットワークにおける確率変数を形成する、ステップ（２０２）と、
前記プロセッサを用いて、条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理するステップと、
前記プロセッサを用いて、前記条件付き確率を用いて前記ローデータの前記一つ以上の属性を結び付けるステップ（２０６）と、
前記プロセッサを用いて、前記確率変数に対応する前記一つ以上の属性の値に基づく複数の属性値を生成するステップと、
前記プロセッサを用いて、前記条件付き確率のデータベース（２０８）から複数の記録をランダムにサンプリングすることによって、複数のデータセットの内の少なくとも一つのデータセットのための別々のファイルのセットを作成するステップであって、前記複数のデータセットの各々について、１つのデータセットを記録するための１つのファイルが存在する、ステップと、
前記プロセッサを用いて、各データセットに特有のセグメンテーション領域を有する前記複数の記録からの各前記記録にタグ付けするステップと、
を含む、プロセッサで実行させる方法。
前記ベイジアンネットワークを定義するステップは、（ａ）依存関係および相関についてのドメインの把握、および（ｂ）構造学習方法のうち少なくとも一つに基づいている、請求項１の方法。
前記ローデータを前処理するステップは、条件付き確率テーブルを生成するために前記ローデータを圧縮するステップを含む、請求項１の方法。
前記ローデータおよび前記ベイジアンネットワーク上の一連のバリデーションクエリの結果を比較することによって計算される推定誤りに基づいて前記ベイジアンネットワークを検証することをさらに含む、請求項１の方法。
プロセッサ（１０４）に動作可能に連結され、
複数の異種のソースにわたっているローデータと関連した一つ以上の属性に基づいてベイジアンネットワークを定義し、ここで、前記一つ以上の属性のそれぞれが、前記ベイジアンネットワークにおいて確率変数を形成しており、
条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理し、
前記条件付き確率を用いて前記ローデータの前記一つ以上の属性を結び付け、
前記確率変数に対応する前記一つ以上の属性の値に基づく複数の属性値を生成し、
前記条件付き確率のデータベース（２０８）から複数の記録をランダムにサンプリングすることにより、前記生成された属性値に基づく別々のファイルのセットを作成し、
ここで、前記複数のデータセットの各々について、１つのデータセットを記録するための１つのファイルが存在し、
各データセットに特有のゼグメンテーション領域を有する前記複数の記録からの各前記記録にタグ付けする、
前記プロセッサによる、実行用に設定される命令をストアするように構成されている、一つ以上のデータストレージデバイス（１０２）、を含むシステム（１００）。
前記プロセッサは、（ａ）依存関係および相関についてのドメインの把握、および（ｂ）構造学習方法のうち少なくとも一つに基づいて、前記ベイジアンネットワークを定義するようにさらに構成される、請求項５のシステム。
前記一つ以上の属性の各々は、前記ベイジアンネットワークの確率変数を形成する、請求項５のシステム。
互いに直接マップされ得る前記一つ以上の属性は、確率変数に割り当てられ、近似的に関連し得るのみの前記一つ以上の属性は、別々の確率変数として維持される、請求項５のシステム。
前記プロセッサはさらに、条件付き確率テーブルを生成するために前記ローデータを圧縮することで前記ローデータを前処理するように構成されている、請求項５のシステム。
前記プロセッサはさらに、構造化問合せ言語（ＳＱＬ）エンジンを使用することにより、確率的推論を実行するように構成されている、請求項９のシステム。
前記プロセッサはさらに、前記ローデータおよび前記ベイジアンネットワーク上の一連のバリデーションクエリの結果を比較することによって計算される推定誤りに基づいて前記ベイジアンネットワークを検証するように構成されている、請求項９のシステム。