JP6534971B2 - 分布クエリに対してビジネスデータを融合するための方法及びシステム - Google Patents
分布クエリに対してビジネスデータを融合するための方法及びシステム Download PDFInfo
- Publication number
- JP6534971B2 JP6534971B2 JP2016127399A JP2016127399A JP6534971B2 JP 6534971 B2 JP6534971 B2 JP 6534971B2 JP 2016127399 A JP2016127399 A JP 2016127399A JP 2016127399 A JP2016127399 A JP 2016127399A JP 6534971 B2 JP6534971 B2 JP 6534971B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- bayesian network
- processor
- attributes
- raw data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 53
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000010200 validation analysis Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 description 54
- 238000012545 processing Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 11
- 230000004927 fusion Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000446 fuel Substances 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 230000012447 hatching Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000274965 Cyrestis thyodamas Species 0.000 description 1
- 241000590428 Panacea Species 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 238000010205 computational analysis Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000000714 time series forecasting Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Optimization (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本出願は2015年7月4日に出願されたインドの暫定特許出願2568/MUM/2015号に対して優先権が主張され、その内容は、参照により本書に援用される。
複数の異種のソースにわたっているローデータ(生データ)と関連した一つ以上の属性に基づいてベイジアンネットワークを定義するステップと、 パラメータとしてその中に条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理するステップと、 前記条件付き確率を用いて前記ローデータの前記一つ以上の属性を結び付けるステップと、 前記条件付き確率のデータベースから確率的推論を実行するステップと、を含む方法。
一つ以上のハードウェアプロセッサに動作可能に連結され、
複数の異種のソースにわたっているローデータと関連した一つ以上の属性に基づいてベイジアンネットワークを定義するために、 パラメータとしてその中に条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理するために、 前記条件付き確率を用いて前記ローデータの前記一つ以上の属性を結び付けるために、 前記条件付き確率のデータベースから確率的推論を実行するために、前記一つ以上のハードウェアプロセッサによる、実行用に設定される命令をストアするように構成されている、一つ以上のデータストレージデバイス、を含むシステム。
その中に具体化されるコンピュータ読み出し可能プログラムを有する非一時的コンピュータ可読媒体であって、前記コンピュータ読み出し可能プログラムは、コンピュータデバイスにおいて実行されるときに、前記コンピュータデバイスに、 複数の異種のソースにわたっているローデータと関連した一つ以上の属性に基づいてベイジアンネットワークを定義させ、 パラメータとしてその中に条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理させ、 前記条件付き確率を用いて前記ローデータの一つ以上の属性を結び付け、 前記条件付き確率のデータベースから確率的推論を実行させる、コンピュータプログラム製品。
例えば、国勢調査データによる収入(D1)、携帯電話会社からの経時的な人の居場所(ロケーション)(D2)、マーケティング調査からの職業(専門的職業)(D3)は、表2のように示される。注目すべきは、人々の異なるセットを調査するかまたはモニタすることによって、データセットが収集され得た点で、同じ全般的な地理学ではあるが、すなわち、データは同じ内在する『地上調査の情報(グラウンドトゥルース)』を表し、そして、各サンプルは等しく不偏であるとみなされる。
その代わりに、仮定的に結び付けられたデータセットDをクエリングする機構は、例えば下記表3のように調査(観測)される。表3において、テーブルの各々が個人を一意的に識別する共通の属性を持った場合、計算することが可能だったかもしれない。残念なことに、この種の属性は、利用できない。
実際には、これは、さらなる仮定もせずに計算するのは困難かもしれない。にもかかわらず、関心のあるすべての属性が、観測されることを考えれば、互いに無関係であるとされることを前提とする。上記の実施形態において、これはロケーションにつながり、そして、職業がそれぞれの収入、地域の組合せの中で少なくとも互いに無関係である。換言すれば、欠落した変数間のいかなる相関も、観測されるものによって説明され得る。これは、前記式(4)が次式になることを用いる、データ融合および機械学習において一般に使われる単純ベイズ推定である。
本開示のビジネスデータ融合の方法およびシステムは、本書における上記表1および2のデータセットとして示される2つのシナリオで評価される。目的は、本開示の方法が多種多様なデータセットで分布クエリングするための、効率的な解決策を提供することができることを示すことである。本方法は、ベイジアンネットワークを供給されるドメイン知識に主に依存するので、異なる条件を示す一連のサンプルクエリングの場合、実験的な評価の焦点は、検証エラー(バリデーションエラー)の計算にある。以下記載されている関連した計算分析は、3.2GHZの速度および4GBのRAMを有するインテルコア(登録商標)i5 ワークステーションで得られた。
Claims (11)
- プロセッサによって、複数の異種のソースにわたっているローデータと関連した一つ以上の属性に基づいてベイジアンネットワークを定義するステップ(202)であって、前記一つ以上の属性のそれぞれが、前記ベイジアンネットワークにおける確率変数を形成する、ステップ(202)と、
前記プロセッサを用いて、条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理するステップと、
前記プロセッサを用いて、前記条件付き確率を用いて前記ローデータの前記一つ以上の属性を結び付けるステップ(206)と、
前記プロセッサを用いて、前記確率変数に対応する前記一つ以上の属性の値に基づく複数の属性値を生成するステップと、
前記プロセッサを用いて、前記条件付き確率のデータベース(208)から複数の記録をランダムにサンプリングすることによって、複数のデータセットの内の少なくとも一つのデータセットのための別々のファイルのセットを作成するステップであって、前記複数のデータセットの各々について、1つのデータセットを記録するための1つのファイルが存在する、ステップと、
前記プロセッサを用いて、各データセットに特有のセグメンテーション領域を有する前記複数の記録からの各前記記録にタグ付けするステップと、
を含む、プロセッサで実行させる方法。 - 前記ベイジアンネットワークを定義するステップは、(a)依存関係および相関についてのドメインの把握、および(b)構造学習方法のうち少なくとも一つに基づいている、請求項1の方法。
- 前記ローデータを前処理するステップは、条件付き確率テーブルを生成するために前記ローデータを圧縮するステップを含む、請求項1の方法。
- 前記ローデータおよび前記ベイジアンネットワーク上の一連のバリデーションクエリの結果を比較することによって計算される推定誤りに基づいて前記ベイジアンネットワークを検証することをさらに含む、請求項1の方法。
- プロセッサ(104)に動作可能に連結され、
複数の異種のソースにわたっているローデータと関連した一つ以上の属性に基づいてベイジアンネットワークを定義し、ここで、前記一つ以上の属性のそれぞれが、前記ベイジアンネットワークにおいて確率変数を形成しており、
条件付き確率を計算すべく、前記ベイジアンネットワークに基づいて前記ローデータを前処理し、
前記条件付き確率を用いて前記ローデータの前記一つ以上の属性を結び付け、
前記確率変数に対応する前記一つ以上の属性の値に基づく複数の属性値を生成し、
前記条件付き確率のデータベース(208)から複数の記録をランダムにサンプリングすることにより、前記生成された属性値に基づく別々のファイルのセットを作成し、
ここで、前記複数のデータセットの各々について、1つのデータセットを記録するための1つのファイルが存在し、
各データセットに特有のゼグメンテーション領域を有する前記複数の記録からの各前記記録にタグ付けする、
前記プロセッサによる、実行用に設定される命令をストアするように構成されている、一つ以上のデータストレージデバイス(102)、を含むシステム(100)。 - 前記プロセッサは、(a)依存関係および相関についてのドメインの把握、および(b)構造学習方法のうち少なくとも一つに基づいて、前記ベイジアンネットワークを定義するようにさらに構成される、請求項5のシステム。
- 前記一つ以上の属性の各々は、前記ベイジアンネットワークの確率変数を形成する、請求項5のシステム。
- 互いに直接マップされ得る前記一つ以上の属性は、確率変数に割り当てられ、近似的に関連し得るのみの前記一つ以上の属性は、別々の確率変数として維持される、請求項5のシステム。
- 前記プロセッサはさらに、条件付き確率テーブルを生成するために前記ローデータを圧縮することで前記ローデータを前処理するように構成されている、請求項5のシステム。
- 前記プロセッサはさらに、構造化問合せ言語(SQL)エンジンを使用することにより、確率的推論を実行するように構成されている、請求項9のシステム。
- 前記プロセッサはさらに、前記ローデータおよび前記ベイジアンネットワーク上の一連のバリデーションクエリの結果を比較することによって計算される推定誤りに基づいて前記ベイジアンネットワークを検証するように構成されている、請求項9のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN2568/MUM/2015 | 2015-07-04 | ||
IN2568MU2015 | 2015-07-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017054487A JP2017054487A (ja) | 2017-03-16 |
JP6534971B2 true JP6534971B2 (ja) | 2019-06-26 |
Family
ID=56263574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016127399A Active JP6534971B2 (ja) | 2015-07-04 | 2016-06-28 | 分布クエリに対してビジネスデータを融合するための方法及びシステム |
Country Status (7)
Country | Link |
---|---|
US (1) | US20170004411A1 (ja) |
EP (1) | EP3115911A1 (ja) |
JP (1) | JP6534971B2 (ja) |
AU (1) | AU2016204509B2 (ja) |
BR (1) | BR102016015331A8 (ja) |
CA (1) | CA2934802C (ja) |
MX (1) | MX2016008623A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3217334B1 (en) * | 2016-03-10 | 2021-09-29 | Tata Consultancy Services Limited | System and method for visual bayesian data fusion |
US10296880B2 (en) * | 2016-11-21 | 2019-05-21 | Lisa Therese Miller | Invoice analytics system |
CN110020413B (zh) * | 2019-04-02 | 2023-04-28 | 中汇信息技术(上海)有限公司 | 一种检测imix消息的方法、装置及电子设备 |
US12095798B1 (en) * | 2021-06-08 | 2024-09-17 | Arceo Labs Inc. | Determining additional signals for determining cybersecurity risk |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004036461A2 (en) * | 2002-10-14 | 2004-04-29 | Battelle Memorial Institute | Information reservoir |
JP2008269215A (ja) * | 2007-04-19 | 2008-11-06 | Nippon Telegr & Teleph Corp <Ntt> | 特異パターン検出システム、モデル学習装置、特異パターン検出方法、及び、コンピュータプログラム |
JP6059122B2 (ja) * | 2013-10-11 | 2017-01-11 | カルチュア・コンビニエンス・クラブ株式会社 | 顧客データ解析システム |
-
2016
- 2016-06-24 US US15/192,215 patent/US20170004411A1/en not_active Abandoned
- 2016-06-27 EP EP16176303.2A patent/EP3115911A1/en not_active Ceased
- 2016-06-28 CA CA2934802A patent/CA2934802C/en active Active
- 2016-06-28 JP JP2016127399A patent/JP6534971B2/ja active Active
- 2016-06-29 BR BR102016015331A patent/BR102016015331A8/pt not_active Application Discontinuation
- 2016-06-29 AU AU2016204509A patent/AU2016204509B2/en active Active
- 2016-06-29 MX MX2016008623A patent/MX2016008623A/es unknown
Also Published As
Publication number | Publication date |
---|---|
BR102016015331A8 (pt) | 2018-02-27 |
CA2934802C (en) | 2018-07-31 |
AU2016204509B2 (en) | 2018-03-01 |
AU2016204509A1 (en) | 2017-01-19 |
CA2934802A1 (en) | 2017-01-04 |
US20170004411A1 (en) | 2017-01-05 |
EP3115911A1 (en) | 2017-01-11 |
MX2016008623A (es) | 2017-05-03 |
JP2017054487A (ja) | 2017-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wahyudi et al. | A process pattern model for tackling and improving big data quality | |
Miller et al. | Geographic data mining and knowledge discovery | |
JP6534971B2 (ja) | 分布クエリに対してビジネスデータを融合するための方法及びシステム | |
Chen et al. | Temporal representation for mining scientific data provenance | |
Yemshanov et al. | A new multicriteria risk mapping approach based on a multiattribute frontier concept | |
Gutiérrez et al. | On the use of information fusion techniques to improve information quality: Taxonomy, opportunities and challenges | |
Elouataoui et al. | Data quality in the era of big data: a global review | |
Balti et al. | Multidimensional architecture using a massive and heterogeneous data: Application to drought monitoring | |
CN113159450A (zh) | 一种基于结构化数据的预测系统 | |
Yadav et al. | Business data fusion | |
Anderson et al. | EPIC-OSM: A software framework for OpenStreetMap data analytics | |
E. Simlai | Predicting owner-occupied housing values using machine learning: an empirical investigation of California census tracts data | |
Shbita et al. | Building spatio-temporal knowledge graphs from vectorized topographic historical maps | |
Jiang et al. | Spatial and spatiotemporal big data science | |
Barb et al. | A statistical study of the relevance of lines of code measures in software projects | |
Toivonen | Big data quality challenges in the context of business analytics | |
CN117076770A (zh) | 基于图计算的数据推荐方法、装置、存储价值及电子设备 | |
Schintler | Regional policy analysis in the era of spatial big data | |
Liu et al. | Inventory Management of Automobile After-sales Parts Based on Data Mining | |
Mahalle et al. | Data Acquisition and Preparation | |
Mavroudopoulos et al. | Detecting temporal anomalies in business processes using distance-based methods | |
Khrulkov et al. | Approach to imputation multivariate missing data of urban buildings by chained equations based on geospatial information | |
US20220237484A1 (en) | Forecasting technology phase using unsupervised clustering with wardley maps | |
He | Causal Discovery in Social Weather System | |
Masciari | An end to end framework for building data cubes over trajectory data streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170905 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20171205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180619 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180919 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190530 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6534971 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |