JP2017199358A - 視覚ベイジアンデータフュージョンのシステムおよび方法 - Google Patents

視覚ベイジアンデータフュージョンのシステムおよび方法 Download PDF

Info

Publication number
JP2017199358A
JP2017199358A JP2017046609A JP2017046609A JP2017199358A JP 2017199358 A JP2017199358 A JP 2017199358A JP 2017046609 A JP2017046609 A JP 2017046609A JP 2017046609 A JP2017046609 A JP 2017046609A JP 2017199358 A JP2017199358 A JP 2017199358A
Authority
JP
Japan
Prior art keywords
attributes
spanning tree
data
target attribute
bayesian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017046609A
Other languages
English (en)
Other versions
JP6431945B2 (ja
Inventor
シャルマ,ギーティカ
Sharma Geetika
シン,カラムジート
Singh Karamjit
グプタ,ガリマ
Gupta Garima
シュロフ,ゴータム
Shroff Gautam
アガルワル,プニート
Agarwal Puneet
パンディ,アディテヤ
Pandey Aditeya
パネリ,アショクバーイ,カウシャル
Ashokbhai Paneri Kaushal
セーガル,グンジャン
Sehgal Gunjan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2017199358A publication Critical patent/JP2017199358A/ja
Application granted granted Critical
Publication of JP6431945B2 publication Critical patent/JP6431945B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】視覚ベイジアンデータフュージョンのシステムおよび方法を提供すること。【解決手段】一実施例においては、トピックに関する複数のデータセットが、データレイクから取得される。複数のデータセットの各々は、トピックの様々な属性に対応する情報を含む。さらに、複数のデータセットが結合されて、結合データセットを取得する。さらには、ターゲット属性に関連する分布が、結合データセットにおけるターゲット属性との相互情報量に基づいて複数の属性(k)を選択し、選択された属性およびターゲット属性を使用して最小全域木ベースのベイジアン構造を学習し、最小全域木ベースのベイジアン構造の各ノードにおいて条件付き確率表を学習し、条件付き確率表を照会することによって、ターゲット属性に関連する分布を予測し、それによって視覚ベイジアンデータフュージョンを促進することによって、ベイジアンモデリングを使用してターゲット属性に関連する分布が予測される。【選択図】図4

Description

本明細書における実施態様は、一般的にはデータフュージョンに関し、より具体的には、視覚ベイジアンデータフュージョン(visual Bayesian data fusion)のシステムおよび方法に関する。
関係出願と優先権の相互参照
本発明は、インドにおいて2016年3月10日出願の、インド仮特許明細書(題名:System and method for visual Bayesian data fusion)第201621008419号の優先権を主張するものである。
従来型ビジネスインテリジェンスからビッグデータ解析への進化によって、データが従来型データウェアハウス中ではなく、生の形態で吸収される、データレイク(data lake)が出現した。多くの場合に多様な情報源(ソーシャルメディア、モビリティ、モノのインターネット(internet-of-things))からの、それぞれの関心のあるエンティティ、例えば、顧客についての、より多くの情報またはデータの利用可能性が増大することによって、そのようなデータをフュージョンすること、可視化すること、およびそれから洞察を導くことには、多くの課題が生じることがある。これらの課題は、自然の結合キーのないことが多い、異種のデータセットによるものである。また、これらのデータセットは、異なるレベルの粒度における測度、例えば、個別データ対集合データを記述する場合があり、異なるデータセットが、物理的に別個の集団から導かれることがある。さらに、データがフュージョンされていると、照会(query)は、高次元データから洞察を導くのには、非効率的で、不正確な機構であることが多い。
以下に、本開示のいくつかの実施態様についての基本的な理解を図るために、これらの実施態様についての簡略された概要を提示する。この概要は、それらの実施態様についての網羅的な全体像ではない。また、それらの実施態様のキー要素/重要要素を識別すること、またはそれらの実施態様の範囲を境界線引きすることを意図するものではない。その唯一の目的は、以下で提示されるさらに詳細な説明に対する前置きとして、いくつかの実施態様を簡略化された形態で提示することである。
前述のことを考慮して、本明細書における一実施態様は、視覚ベイジアンデータフュージョンの方法およびシステムを提供する。一観点において、プロセッサ実装方法は、データレイクからトピックに関連する複数のデータセットを取得するステップであって、複数のデータセットのそれぞれは、トピックの様々な属性に対応する情報を含むステップと;複数のデータセットを結合して、結合データセットを取得するステップと;結合データセットにおけるターゲット属性との相互情報量に基づいて複数の属性(k)を選択し、選択された属性およびターゲット属性を使用して最小全域木(minimum spanning tree)ベースのベイジアン構造を学習し、最小全域木ベースのベイジアン構造の各ノードにおいて条件付き確率表を学習し、条件付き確率表を照会することによって、ターゲット属性に関連する分布を予測し、それによって視覚ベイジアンデータフュージョンを促進することによって、ベイジアンモデリングを使用してターゲット属性に関連する分布を予測するステップとを含む。
別の観点においては、視覚ベイジアンデータフュージョンのシステムが開示される。このシステムは、1つまたは2つ以上のメモリ;および1つまたは2つ以上のハードウェアプロセッサを含み、前記1つまたは2つ以上のメモリは前記1つまたは2つ以上のハードウェアプロセッサに連結されており、前記1つまたは2つ以上のハードウェアプロセッサは:データレイクから、トピックに関連する複数のデータセットであって、それぞれがトピックの様々な属性に対応する情報を含む前記複数のデータセットを取得し、前記複数のデータセットを結合して、結合データセットを取得し;前記結合データセットにおいてターゲット属性との相互情報量に基づいて複数の属性(k)を選択し;前記選択された属性および前記ターゲット属性を使用して、最小全域木ベースのベイジアン構造を学習し;前記最小全域木ベースのベイジアン構造の各ノードにおいて、条件付き確率表を学習し;前記条件付き確率表を照会することによって、前記ターゲット属性に関連する分布を予測し、それによって視覚ベイジアンデータフュージョンを促進することによってベイジアンモデリングを使用してターゲット属性に関連する分布を予測する、前記1つまたは2つ以上のメモリに記憶されたプログラム化された命令を実行することができる。
さらに別の観点では、視覚ベイジアンデータフュージョンの方法を実行するためのコンピュータプログラムがその上に具現化された、非一時的コンピュータ可読媒体が開示される。この方法には、データレイクからトピックに関連する複数のデータセットを取得するステップであって、複数のデータセットのそれぞれがトピックの様々な属性に対応する情報を含む、ステップと;前記複数のデータセットを結合して、結合データセットを取得するステップと;前記結合データセットにおける前記ターゲット属性との相互情報量に基づいて複数の属性(k)を選択し、前記選択された属性および前記ターゲット属性を使用して、最小全域木ベースのベイジアン構造を学習し、前記最小全域木ベースのベイジアン構造の各ノードにおいて、条件付き確率表を学習し、前記条件付き確率表を照会することによって、前記ターゲット属性に関連する分布を予測し、それによって視覚ベイジアンデータフュージョンを促進することによって、ベイジアンモデリングを使用してターゲット属性に関連する分布を予測するステップとを含む。
本明細書のいずれのブロック図も、本発明主題の原理を具現化する、説明のためのシステムの概念図を表わすことを、当業者は気づくはずである。同様に、いずれのフローチャート、フロー図、状態遷移図、疑似コード、その他も、コンピュータ可読媒体に実質的に表わされ、コンピューティングデバイスまたはプロセッサが明示的に示されているか否かにかかわらず、そのようなコンピューティングデバイスまたはプロセッサによって実行される、様々なプロセスを表わすものと理解される。
添付の図を参照して、詳細な説明を記述する。図において、参照番号の左端の桁は、参照番号が最初に現われる図を識別する。図面を通して、同じ特徴およびモジュールを参照するのに、同一の番号が使用されている。
図1は、本主題の態様による、視覚ベイジアンデータフュージョンのシステムを示す図である。 図2は、本主題の態様による、特徴サブセットについて学習された、最小全域木ネットワークを示す図である。 図3Aは、本主題の実施態様による、データセットに対する、「給与補完(salary imputation)」を示す。 図3Bは、本主題の実施態様による、データセットに対する、「給与補完」を示す。 図4は、本主題の実施態様による、視覚ベイジアンデータフュージョンの方法を示す、フローチャートである。
本明細における任意のブロック図は、本主題の原理を具現する説明用のシステムおよびデバイスの概念図を表わすものと当業者には理解されるべきである。同様に、いずれのフローチャート、フロー図、その他も、コンピュータ可読媒体に実質的に表わされ、コンピュータまたはプロセッサが明示的に示されているか否かにかかわらず、そのようなコンピュータまたはプロセッサによって実行される、様々なプロセスを表わすものと理解される。
本明細書の実施態様およびそれらの様々な特徴および有利な詳細を、添付の図面に図解されるとともに、以下の記述において詳述される、非限定の実施態様を参照してより完全に説明する。本明細書において使用される実施例は、本明細書に記載の実施態様を実施することのできる方法の理解を促進すること、および、当業者が本明細書に記載の実施態様を実施することをさらに可能にすることだけを意図している。したがって、これらの実施例は、本明細書における実施態様の範囲を限定するものと解釈すべきではない。
本技法は、視覚ベイジアンデータフュージョンについて記述する。この技法においては、ターゲット属性を予測するのに最も関連性の高い属性が学習される。次に、効率的に実行可能なベイジアンネットワークが、この特徴サブセットについて(ペア単位相互情報量値から導出されるグラフに埋め込まれた最小全域木を介して)学習される。次いで、この技法は厳密推論を使用して、ターゲット属性を予測する。
これらの方法およびシステムは、本明細書に記載される特定の実施態様に限定されるものではない。さらに、この方法およびシステムは、本明細書に記載されたその他のモジュールおよび方法と独立して、別個に実施することができる。各々のデバイス要素/モジュールおよび方法は、他の要素/モジュールおよび他の方法と組み合わせて使用することができる。
チェック画像データマスキング(cheque image data masking)のシステムおよび方法の実現の仕方を、図1から4について詳細に説明した。記載された視覚ベイジアンデータフュージョンの方法およびシステムの観点は、任意の数の異なるシステム、ユーティリティ環境、および/または構成において実現することができるが、本実施態様は、以下の例示的なシステム(複数を含む)の文脈において記述する。
図1は、例示的実施態様による、視覚ベイジアンデータフュージョンのシステム100のブロック図を示す。例示的実施態様において、システム100は、コンピューティングデバイスにおいて具現化するか、またはそれと直接的な通信状態にある。システム100は、プロセッサ(複数を含む)102などの1つまたは2つ以上のハードウェアプロセッサ、メモリ104などの1つまたは2つ以上のメモリ、およびネットワークインターフェイスユニット106などのネットワークインターフェイスユニットを含むか、またはそうでない場合には、それらと通信状態にある。実施態様においては、プロセッサ102、メモリ104、およびネットワークインターフェイスユニット106は、システムバスなどシステムバス、または類似の機構によって連結されてもよい。図1は、システム100の例示的構成要素を示すが、その他の実現形態においては、システム100は、図1に記述されたよりも、より少ない構成要素、追加の構成要素、異なる構成要素、または異なる配設の構成要素を包含してもよい。
プロセッサ102には、とりわけ、通信と関連する、オーディオ機能および論理機能、ならびに撮像、表示、復号、描画の機能を実現する回路を含めてもよい。例えば、プロセッサ102には、それに限定はされないが、1つまたは2つ以上のディジタルシグナルプロセッサ(DSP)、1つまたは2つ以上のマイクロプロセッサ、1つまたは2つ以上の専用コンピュータチップ、1つまたは2つ以上のフィールドプログラマブルゲートアレイ(FPGA)、1つまたは2つ以上の特定用途向け集積回路(ASIC)、1つまたは2つ以上のコンピュータ、様々なアナログ‐ディジタルコンバータ、ディジタル‐アナログコンバータ、および/またはその他のサポート回路を含めてもよい。すなわち、プロセッサ102には、メッセージおよび/もしくはデータまたは情報を符号化するための機能も含めてもよい。プロセッサ102には、とりわけ、クロック、算術論理ユニット(ALU)、およびプロセッサ102の動作をサポートするように構成された、論理ゲートを含めてもよい。さらに、プロセッサ102には、メモリ104に記憶されるか、またはその他の方法でプロセッサ102にアクセス可能な、1つまたは2つ以上のソフトウェアプログラムを実行する機能を含めてもよい。
「プロセッサ(複数を含む)」のラベルの付けられた任意の機能ブロックを含む、図に示された様々な要素の機能は、専用ハードウェア、ならびに適当なソフトウェアに関連するソフトウェアを実行することのできるハードウェア、を使用することによって提供してもよい。プロセッサによって提供されるときには、これらの機能は、単独の専用プロセッサによるか、単独の共用プロセッサによるか、またはその一部が共用されてもよい、複数の個々のプロセッサによって提供してもよい。さらに、「プロセッサ」という用語の明示的な使用は、ソフトウェアを実行することのできるハードウェアを網羅的に指すものと解釈されるべきではなく、暗示的には、限定されることなく、DSPハードウェア、ネットワークプロセッサ、特定用途向け集積回路(ASIC)、FPGA、ソフトウェアを記憶するための読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、および不揮発性記憶装置を含むことがある。従来型、および/または特注型の、その他のハードウェアを含めてもよい。
インターフェイス(複数を含む)106には、多様なソフトウェアインターフェイスおよびハードウェアインターフェイス、例えば、キーボード、マウス、外部メモリ、およびプリンタなどの周辺デバイス(複数を含む)用のインターフェイスを含めてもよい。インターフェイス(複数を含む)106は、有線ネットワーク、例えば、ローカルエリアネットワーク(LAN)、ケーブルなど、およびワイヤレスLAN(WLAN)、セルラー、またはサテライトなどのワイヤレスネットワークを含む、多様なネットワークおよびプロトコルタイプ内での多重通信を促進することができる。
メモリ104などの1つまたは2つ以上のメモリは、システムの機能を実現するのにシステムによって使用される、任意の数の情報、およびデータを記憶してもよい。メモリ104には、例えば、揮発性メモリおよび/または不揮発性メモリを含めてもよい。揮発性メモリの例としては、それに限定はされないが、揮発性ランダムアクセスメモリを挙げることができる。不揮発性メモリには追加的または代替的に、電気的消去可能プログラマブルROM(EEPROM)、フラッシュメモリ、ハードドライブ、その他を含めてもよい。揮発性メモリの例としては、それに限定はされないが、ランダムアクセスメモリ、ダイナミックランダムアクセスメモリ、スタティックランダムアクセスメモリ、その他を挙げることができる。不揮発性メモリの例としては、それに限定はされないが、ハードディスク、磁気テープ、光学ディスク、プログラマブル読取り専用メモリ、消去可能プログラマブル読取り専用メモリ、電気的消去可能プログラマブル読取り専用メモリ、フラッシュメモリ、その他を挙げることができる。メモリ104は、システム100が、様々な例示的実施態様に関連する様々な機能を実行することを可能にするための、情報、データ、アプリケーション、命令、またはその他を記憶するように構成してもよい。追加的または代替的に、メモリ104は、プロセッサ102によって実行されると、様々な実施態様において記述されたようにシステムを挙動させる、命令を記憶するように構成してもよい。メモリ104は、データフュージョンモジュール108および/またはその他のモジュールを含む。モジュール108は、特定のタスクを実行するか、または特定の抽象データタイプを実現する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、などを含む。その他のモジュールには、システム100のアプリケーションおよび機能を補う、プログラムまたはコード化された命令を含めてもよい。
動作において、データフュージョンモジュール108は、データレイクから、トピックに関連する、複数のデータセットを取得する。例えば、複数のデータセットの各々は、トピックの様々な属性に対応する、情報(すなわち、テキストまたは小売商記述(retailer description))を含む。さらに、データフュージョンモジュール108は、複数のデータセットを結合して、結合データセットを取得する。一実施例では、複数のデータセットは、あるタイプの結合に基づいて、結合される。データ結合の概念は、異なるデータセットからの関連する属性を併合して、これらのデータセットの間の相関を学習するための候補ファイルを作成することである。この実施例において、結合のタイプは、内部結合、外部結合、左結合、および右結合を含む。内部結合においては、データセットからの共通データが保持される。外部結合においては、データセットからのすべてのデータが保持される。左結合においては、両データセットからの共通データ、および第1のデータセットからのデータが保持される。右結合においては、両データセットからの共通データ、および第2のデータセットからのデータが保持される。
さらに、データフュージョンモジュール108は、データセットにわたり、キーワードベース探索を行う。データセットが追加されるときに、データフュージョンモジュール108は、カラムヘッダに基づき、索引付きファイル(indexing file)に使用される、タグを自動的に生成する。一実施例において、ユーザは、タグを追加して、後の検索のための探索キーワードとしてタグを入力することを可能にしてもよい。さらに、データフュージョンモジュール108は、ベイジアンモデリグを行うことができる前に、より良い理解のためのデータを得るために、探査的なデータ解析を実行する。データフュージョンモジュール108は、以下に記述される探査的解析のための多数のビジュアライゼーション(visualizations)を提供する。
・モーションチャート:円の位置、大きさ、および色を使用する、4つまでの経時的データ属性を視覚的に表わすことのできる、多次元ビジュアライゼーション。円のモーションアニメーションを使用して、時間経過に対するデータの変化を描写する。
・平行座標:多数のデータ属性を一緒に可視化することのできる、多次元データビジュアライゼーション。属性は、複数の平行な垂直軸または水平軸として表わされ、データポイントは、各属性軸(最後の2つの軸は、実際の給与(salary)と予測された給与の間の誤差を可視化する)上の点を接続する折れ線として表わされる。軸の順序は、ドラッギングによって変更してもよく、属性は、消去するか、またはプロットに追加することができる。
・バブルマップチャート:データ属性を、大きさおよび色などのバブルの特性にマッピングして、マップ上の地理的場所にバブルまたは円をプロットする。
・カートグラム(Cartogram):マップを使用して、国および州などの地域についてのデータを可視化する。データ値に比例する部位における、色およびゴムシート歪みによって、空間データの比較を容易にする。ビジュアライゼーション設計は、それらに関連するビジュアライゼーションのための、データタイル(data tile)表示アイコンをさらに含む。単一のデータセットに対して複数のビジュアライゼーションを描画することができる場合には、各々に対するアイコンが表示されて、そのアイコンをクリックすることで、選択されたビジュアライゼーションを開く。すべてのビジュアライゼーションは、「比較ビュー」ページにおいて開く。サムネイルのリストが、ページの左側に表示され、それを使用して、ユーザは、ビジュアライゼーションを垂直方向に整理し直すか、全画面モードにおいてサムネイルを閉じるか、または開くことができる。
さらに動作において、データフュージョンモジュール108は、データセットについてモデル学習を行う。例示的な一実現形態において、データフュージョンモジュール108は、ベイジアンモデリングを使用して、ターゲット属性に関連する分布を予測する。例えば、データフュージョンモジュール108は、ユーザが、異なるデータセットから複数の属性を選択して、それらを属性カート(attribute-cart)に追加することを可能にする。ユーザが1つの変数をターゲット変数またはターゲット属性として選択した後に、ユーザは、ネットワークの自動作成を要求することができる。この実施例において、異なるデータセットからの属性間の依存性は、ベイジアンネットワークを使用して発見してもよい。ベイジアンネットワーク(BN)は、不確かなドメインについての表現と推論を可能にするグラフ構造である。それは、2つの構成要素からなる、結合確率分布(JPD)の表現である。第1の構成要素Gは、その頂点がランダム変数に対応する、有向非循環グラフ(directed acyclic graph)である。第2の構成要素、条件付き確率表(CPT)は、その親ノードを与えられたとして、各変数に対する条件付き分布を記述する。ノードのCPTは、ノードの各値が、その親ノードの値のすべての組合せが与えられたとして、取ることのできる確率を示す。N個のランダム変数X=(X,X,...,X)からなるBNを考えると、BNの結合確率分布の一般形は、式1で表すことが可能であり、この式1は、その親を与えられたとして、各ノードが他のノードと独立であるという、BN特性を符号化し、ここでPa(X)は、Xの親の集合である。
さらに、データフュージョンモジュール108は、結合データセットにおけるターゲット属性との相互情報量に基づき、複数の属性(k)を選択する。複数の属性およびターゲット属性は、離散変数および連続変数を含んでもよい。一実施態様においては、データフュージョンモジュール108は、ターゲット変数との、すべての特徴の相互情報量に基づいて、データセットから上位K個(top-K)の特徴を選択する。連続変数‐連続変数、および連続変数‐離散変数間の相互情報量を、ノンパラメトリックエントロピー推定ツールボックス(NPEET:non-parametric entropy estimation toolbox)を使用して計算してもよい。このツールは、相互情報量推定器を求めるアプローチを実現し、それは、k最近傍距離(k-nearest neighbor distance)からのエントロピー推定値に基づいている。例えば、x変数およびy変数間の相互情報量は、以下の式を使用して計算される:
さらに、データフュージョンモジュール108は、選択された属性およびターゲット属性(例えば、図2における「給与(salary)」)を使用する、最小全域木(MST)ベースのベイジアン構造(例えば、図2に示されるMST200)を学習する。例示的実施態様において、データフュージョンモジュール108は、ペア単位相互情報量を閾値として使用して、複数の属性およびターゲット属性について、最小全域木(MST)を学習する。例えば、データフュージョンモジュール108は、様々な特徴(例えば、変数または属性)間のペア単位相互情報量を計算するとともに、閾値よりも小さい、この相互情報量を有するエッジ(edge)を落とすことによって作成された、特徴グラフについて最小全域木を学習する。この実施例において、最小全域木は、パラメータの良好な推定(特に、高い基数変数(cardinality variable)を有するデータの場合)と迅速な推論を補助する、疎構造(sparse structure)を学習することを確実にする。
さらに、データフュージョンモジュール108は、最小全域木における各エッジを無作為な方向に初期化する。さらに、データフュージョンモジュール108は、各エッジ方向を反転させて、2^(k)有向グラフを演算する。「k」は、MSTベース構造におけるエッジの数であるので、データフュージョンモジュール108が各エッジのエッジ方向を反転させると、2^(k)の異なる木またはグラフが演算される。さらに、データフュージョンモジュール108は、各グラフのクロスエントロピーを計算する。また、データフュージョンモジュール108は、最小クロスエントロピーを有するグラフを、最小全域木ベースのベイジアン構造として選択する。
さらに、データフュージョンモジュール108は、最小全域木ベースのベイジアン構造の各ノードにおける条件付き確率表(すなわち、各ノードのパラメータ)を学習する。一例において、データフュージョンモジュール108は、固定サイズビニング(fixed size binning)によって、連続変数を離散化する。データフュージョンモジュール108は、連続変数を離散化するときに、最小全域木ベースのベイジアン構造の各ノードにおいて、条件付き確率表を学習する。さらに、データフュージョンモジュール108は、条件付き確率表を照会することによって、ターゲット属性と関連する分布を予測し、それによって視覚べイジアンデータフュージョンを容易にする。データフュージョンモジュール108は、それらを関係表の集合と考えて、CPTを照会するために、SQLを使用する。
例示的実施態様において、データフュージョンモジュール108は、予測のためにベイジアンネットワークを使用する。まったく存在しない新規のデータセットに対して、属性を予測することが必要となることが多い。データフュージョンモジュール108は、この保存されたベイジアンネットワークを使用して、ターゲット変数が欠損していることのある新規のデータセットに対して、補完(imputation)を使用してターゲット変数を予測してもよい:ターゲット変数の期待値が、ベイジアン推論の後に得られた事後分布から演算され、予測値として使用される。
別の例示的実施態様においては、データフュージョンモジュール108は、ベイジアンネットワークを使用して、欠損データを特定する。データレイク内の構成データセットの特定の属性に対して、データ値が欠損していることが非常に多くあり、そのようなデータセットの有用性を低下させている。データフュージョンモジュール108は、ベイジアン補完を使用する、データ完成機能(data completion feature)を提供する。ベイジアンネットワークの一部である属性を、それらが部分的に欠損している、データセットに補完してもよい。このために、ユーザは、欠損値を含むデータセットに加えて、補完に使用されるネットワークベースタイル(network based tile)を選択することが可能になる。次いで、データフュージョンモジュール108は、転置索引(inverted-index)に含められて、さらなる視覚解析に利用可能にされた、完全なデータを備える新規のデータセットを生成する。
例えば、それが与えられなかった候補者の集合に対して、「給与(salary)」を予測するという課題を考える。データフュージョンモジュール108は、関係特徴サブセットについて学習したMSTを使用して、ネットワーク内の残りの特徴を証拠として用いて、試験データセットにおける各候補者の「給与(salary)」を予測する。さらに、データフュージョンモジュール108は、poly−treeベース厳密推論に類似する照会最適化を内部的に実行する、SQLエンジンによって加速された、厳密推論を使用して、「給与(salary)」を予測する。
いくつかの実施態様において、システム100は、平行座標を使用する、モデルベース予測のための視覚インターフェイスを提供する。ユーザは、補完による予測のために使用するネットワークと、ターゲット変数が欠損するデータセットとを選択することが可能になる。この実施態様において、水平平行座標プロットが、それを探査的平行座標視覚化と区別するとともに、この場合にはエッジに方向性はないが、通常は、トップダウン順で描かれるネットワーク構造を示すために、使用される。補完しようとする属性の値は、図3Aのグラフ300A(補完前のグラフ)に示されるように、最初は全データ点に対して0である。「補完」ボタンをクリックすることによって、バックエンドにおいて、データフュージョンモジュール108を発火させて、補完された値に対する線が、図3のグラフ300B(補完後のグラフ)に示されるように、それらの位置へと軸に沿って移動される。70−30(%)比におけるトレーニングデータから作成された試験データについて、予測された「給与」のビジュアライゼーションが、図3Aおよび3Bに示されている。予測における誤差を、最後の2つの軸‐実際「給与」および補完「給与」について、300Bにおいて可視化することができる。
別の例示的実施態様において、データフュージョンモジュール108は、確率的結合のための、MSTベースベイジアン構造を使用する。例えば、異種の情報源からのデータは、共通の結合キーを有さないことがあるが、それらのフュージョンは、分析的推論に対して保証されることがある。これは、ベイジアン予測とテキスト類似度(textual similarity)のアンサンブルを使用して、全てのローカルプロダクトIDに対してグローバルプロダクトIDを予測することによって達成される。
グローバルな「情報および計測」会社からの、消費者製品の実生活データからなるデータレイクを考える。データレイクにおける利用可能なデータセットは以下のとおりである:
1)ローカルデータセット:アイテムの集合I={Ir:r=1,2,...,m}を含む。各アイテムIr∈Iに対して、ローカル属性、小売商記述、ならびに販売数値などの尺度が利用可能である。
2)グローバルデータセット:各アイテムのグローバルマーケットシェアを含み、ここでアイテムは、グローバル属性によって記述されている。
この例において、ローカル属性は、グローバルデータセットにおいて使用されるものと異なることがある(すなわち、これらはグローバルレベルにおいて使用されない属性を含むことがある)。類似の属性に対しても、ローカル属性は、グローバル命名慣行(global naming conventions)とは異なる、地理特異命名法を使用する。例えば、炭酸飲料の場合には、グローバルおよびローカルのデータセットの両方が、飲料のブランド、風味(flavour)などを含むことがあるが、使用される実際の値は、異なることがある:例えば、「コーク」対「コカ・コーラ」、または「加糖」対「砂糖含有」である。さらに、ローカル属性は、製品を記述する自由形式テキストを含むフィールドである、「小売商記述」を含む。そのようなテキストは、アイテムに対するグローバル属性への手がかり(clue)を指摘することが多い。
各ブランドの国別販売に対してグローバルマーケットシェアを比較する必要があるシナリオを考える。これらのデータセットは、これらの2つのデータセット間に自然結合キーがないために、比較することができない。しかしながら、ローカル属性(ベイジアンモデル)と小売商記述とを使用して、グローバル属性の値g∀I∈Iを予測することができる場合には、データセットを比較することができる。すなわち、データフュージョンモジュール108は、ローカルデータセットにおけるアイテムに対するgの確率的な予測を行う。さらに、データフュージョンモジュール108は、gを結合キーとして、ローカルデータセットを、グローバルデータセットと結合して、それを確率的結合(probabilistic join)と呼ぶ。「g」を、n個の可能な状態、例えば、gi、但しi=1,2,...,nを有する、グローバル属性とする。g∀I∈Iの値を予測するために、データフュージョンモジュール108は、2つの異なるモデル、a)ベイジアンモデル、およびb)ローカル属性と小売商記述をそれぞれ使用する、テキスト情報検索モデル(Text Information Retrieval Model)を使用する。データフュージョンモジュール108はまた、両モデルにおける予測の信頼度を計算する。さらに、データフュージョンモジュール108は、これらの2つのモデルのアンサンブルを行い、より高い予測精度を得る。
ベイジアンモデル(BM):BMにおいて、データフュージョンモジュール108は、は、ローカル属性だけを使用して、各アイテムに対するグローバル属性を予測する。グローバル属性gに対して、データフュージョンモジュール108は、gとの相互情報量に基づき、上位K個のローカル属性を選択する。さらに、データフュージョンモジュール108は、グローバル属性gおよび選択された上位K個のローカル属性を有する、最小全域木ベースの構造を学習する。さらに、データフュージョンモジュール108は、ローカル属性をMSTNにおける証拠として、グローバル属性gの各状態gの確率{p:i=1,...,n}を計算する。最終的に、全てのアイテムに対して、データフュージョンモジュール108は、最大確率pを有する、状態gを選ぶ。
BMモデルにおける信頼度(ConfBM):各アイテムに対して、データフュージョンモジュール108はまた、BMモデルの予測の信頼度も計算する。グローバル属性gに対して確率分布{p:i=1,2,...n}を仮定する。ここで、理想分布
を考えると、信頼度は、
で与えられる。
各アイテムIに対して、データフュージョンモジュール108は、(その信頼度cとともに)ローカル属性と、小売商記述とをそれぞれ使用して、2つの値(例えば、gおよびg)を予測した。アイテムIに対して、データフュージョンモジュール108は、c>tである場合には、gの予測としてgを選び、そうでない場合には、gの予測としてgを選び、ここでtはバリデーションセットについて学習された閾値である。ローカルデータセットの集合Iにおける、全てのアイテムのグローバル属性が予測されると、データフュージョンモジュール108は、gをローカルデータセットのキーとして使用することによって、ローカルデータセットと集団後のグローバルデータセットを結合する。
例示的実施態様において、データフュージョンモジュール108は、推論を行うため、および「what−if」分析のために、ベイジアンネットワークを使用する。データフュージョンモジュール108は、同分析に対して、「Linked Query View」を提供する。データビジュアライゼーション語法(parlance)における「Linked View」とは、任意のチャートとの相互作用が、すべてを同期して更新するように、複数のチャートを包含するビューを指す。データフュージョンモジュール108は、linked viewを使用して、ネットワークにおける属性についての条件付き照会を可視化する。ネットワークが保存されると、それを、「Linked Query View」を使用する、視覚モデル推論を実行するのに使用することができる。データフュージョンモジュール108は、ユーザが、照会するネットワークから、n個の属性を選択することを可能にして、これらは、属性を水平および垂直に繰り返し用いて、n×nチャートグリッドとして可視化される。対角線に沿ったチャートは、対応する属性の確率分布を、バーチャートとして、示す。対角線より上のセルにおいて、プロットのx軸およびy軸上に行および列の属性をそれぞれ備える、データの散布図が示されている。これらは、ネットワークを構築するのに使用されるデータのビューを与えるとともに、属性間のペア単位相関を分析するのに使用することができる。
ネットワークを照会するために、ユーザは、バーチャートにおける適当なバーをクリックすることによって、複数属性に対する範囲を選択することができる。これによって、属性に対する条件が、ユーザによって選択された範囲内に設定される。照会ボタンを押すと、データフュージョンモジュール108は、ベイジアン推論を使用して、ネットワーク上での条件付きの照会を実行する。その他の属性の条件付き分布が演算されて、バーチャートが、それに応じて更新される。例えば、「Bayesian Student Advisor」は、Linked Query Viewを使用して、推薦を行うように設計されている。オリジナル確率分布は、バーチャートを使用して、対角線上に示される。「給与(Salary)」がlog10スケールでプロットされている。候補者が、非常に高い給与を得ることに興味があり、それに対する理想的なプロフィールを知りたがっている場合を考える。「英語(English)」スコアの確率において大幅な上昇があり、候補者が高い給与を得るのには、高い「英語」スコアを有する必要があることを示すことがわかることがある。さらに、「論理テスト(logical test)」スコアおよびCGPAの分布は大きく変わらないが、高い範囲のビンに対して、「第12パーセンテージ(12th percentage)」の確率が大幅に増加することが分かる。すなわち、非常に高い給与のためには、「英語」スコアおよび「第12パーセンテージ」は高くなくてはならない。このようにして、候補者は、ネットワークにおける任意の数の変数について条件を課して、給与目標に合致するために、自身のプロフィールがどのように変化しなくてはならないかの答えを得ることができる。
図4は、本主題の実施態様による、視覚ベイジアンデータフュージョンのための方法を図解するフローチャートである。プロセッサ実装方法400は、コンピュータ実行可能な命令の一般的な文脈で記述してもよい。一般的に、コンピュータ実行可能な命令には、特定の機能を実行するか、または特定のアブストラクトデータタイプを実現する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、プロシージャ、モジュール、関数、その他を含めることができる。方法400は、通信ネットワークを介してリンクされたリモート処理デバイスによって機能が実行される、分散コンピューティング環境において実施してもよい。方法400が記述される順序は、限定として解釈されることを意図するものではなく、記載された任意の数の方法ブロックを、任意の順序で組み合わせて、方法400、または代替的方法を実現することができる。さらに、方法400は、任意の好適なハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せとして実現することができる。一実施態様においては、フローチャートに記載された方法400は、システム、例えば、図1のシステム100によって実行してもよい。
ブロック402において、トピックに関連する複数のデータセットが、データレイクから取得される。例えば、複数のデータセットのそれぞれは、トピックの様々な属性に対応する、情報(すなわち、テキストまたは小売商記述)を含む。ブロック404において、複数のデータセットが結合されて、結合データセットを取得する。一例において、複数のデータセットは、結合のタイプに基づいて結合される。この例においては、結合のタイプとしては、内部結合、外部結合、左結合、および右結合が挙げられる。ブロック406において、ターゲット属性に関連する分布が、ベイジアンモデリングを使用して予測される。一実施態様においては、複数の属性(k)が、結合されたデータセットにおけるターゲット属性との相互情報量に基づいて選択される。複数の属性およびターゲット属性には、離散変数および連続変数を含めてもよい。
さらに、最小全域木ベースのベイジアン構造が、選択された属性とターゲット属性とを使用して学習される。例示的実施態様において、ペア単位相互情報量を閾値として使用して、複数の属性およびターゲット属性について、最小全域木が学習される。さらにこの実施態様において、最小全域木の各エッジは、無作為な方向に初期化される。さらに、各エッジ方向は、2^(k)有向グラフを演算するために反転される。さらに、各グラフのクロスエントロピーが計算される。また、最小クロスエントロピーを有するグラフが、最小全域木ベースのベイジアン構造として選択される。
さらに、最小全域木ベースのベイジアン構造の各ノードにおいて、条件付き確率表が学習される。一例においては、連続変数が、固定サイズビニングによって離散化される。次いで、連続変数を離散化するときに、最小全域木ベースのベイジアン構造の各ノードにおいて、条件付き確率表が学習される。さらに、ターゲット属性に関連する分布が、条件付き確率表を照会することによって予測され、それによって視覚べイジアンデータフュージョンを促進する。
いくつかの実施態様において、ターゲット属性に関連する分布の予測に対する信頼度スコアが、理想分布と確率分布と使用する条件付き確率表を照会することによって演算される。さらに、ターゲット属性に関連する分布は、テキスト類似度を使用して予測される。さらに、テキスト類似度を使用して予測された、ターゲット属性に関連する分布、または条件付き確率表を照会することによって予測された、ターゲット属性に関連する分布が、演算された信頼度スコアに基づいて選択される。
本書面による説明は、当業者が実施態様を製作して使用することを可能にするために、本明細書における主題を説明している。主題実施態様の範囲は、特許請求の範囲によって定義され、当業者が思いつくその他の修正形態を含めてもよい。そのような他の修正は、それらが特許請求の範囲の文言と異ならない類似の要素を有する場合、またはそれらが、特許請求の範囲の文言と実質的に差のない、等価な要素を含む場合には、特許請求の範囲に記載の範囲に含めることを意図するものである。
しかしながら、保護の範囲は、そのようなプログラムまで、その中にメッセージを有するコンピュータ可読手段に加えて、拡張され、そのような非一時的コンピュータ可読記憶手段は、サーバまたはモバイルデバイスまたは任意好適なプログラマブルデバイス上でプログラムが実行されるときに、方法の1つまたは2つ以上のステップを実現するためのプログラムコード手段を包含することを理解すべきである。ハードウェアデバイスは、例えば、サーバまたはパーソナルコンピュータのような任意の種類のコンピュータ、その他、またはそれらの任意の組合せを含む、プログラムすることのできる、任意の種類のデバイスとすることができる。このデバイスには、また、例えばハードウェア手段、例えば、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、またはハードウェア手段とソフトウェア手段の組合せ、例えば、ASICおよびFPGA、または少なくとも1つのマイクロプロセッサと、その中にあるソフトウェアモジュールを備える、少なくとも1つのメモリとすることもできる、手段を含めてもよい。すなわち、これらの手段には、ハードウェア手段とソフトウェア手段の両方を含めることが可能である。本明細書に記載の方法実施態様は、ハードウェアおよびソフトウェアにおいて実現することもできる。デバイスにはまた、ソフトウェア手段を含めてもよい。代替的に、実施態様は、例えば、複数のCPUを使用して、異なるハードウェアデバイス上で実現してもよい。
本明細書における実施態様は、ハードウェア要素およびソフトウェア要素を含むことができる。ソフトウェアとして実現されている実施態様としては、それには限定されないが、ファームウェア、レジデントソフトウェア、マイクロコード、その他が含まれる。本明細書に記載された様々なモジュールによって実行される機能は、その他のモジュールにおいて、またはその他のモジュールの組合せにおいて実現してもよい。この説明の目的で、コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれらと関連して使用するためのプログラムを備える、記憶する、通信する、伝える、または移送することのできる、任意の装置とすることができる。
特定の実現形態および実施態様についての前述の説明により、本明細書における実現形態および実施態様の全体的性質が完全に明らかになるため、現在の知識を適用することによって、汎用概念から逸脱することなく、他者はそのような特定の実施態様を容易に修正し、かつ/または様々な応用に適合させることが可能であり、したがって、そのような適合形態および修正形態は、開示された実施態様の等価物の意味と範囲に含まれるものと理解されるべきであり、またそのように意図されている。本明細書において用いられる語句または用語は、説明のためのものであり、限定のためのものではないことを理解すべきである。したがって、本明細書における実施態様は、好ましい実施態様について記述したが、当業者は、本明細書における実施態様は、本明細書に記載された実施態様の趣旨と範囲内で修正して実施することができることを認識するであろう。
前述の説明は、様々な実施態様を参照して提示された。この出願が関係する当業者は、記載の構造および動作の方法における改変および変更は、原理、趣旨および範囲から意味のある逸脱をすることなく、実施することができることを理解するであろう。

Claims (13)

  1. データレイクからトピックに関連する複数のデータセットを取得するステップであって、前記複数のデータセットのそれぞれは、前記トピックの様々な属性に対応する情報を含むステップと;
    前記複数のデータセットを結合して、結合データセットを取得するステップと;
    前記結合データセットにおけるターゲット属性との相互情報量に基づいて複数の属性(k)を選択し、
    前記選択された属性および前記ターゲット属性を使用して、最小全域木ベースのベイジアン構造を学習し、
    前記最小全域木ベースのベイジアン構造の各ノードにおいて、条件付き確率表を学習し、
    前記条件付き確率表を照会することによって、前記ターゲット属性に関連する分布を予測し、それによって視覚ベイジアンデータフュージョンを促進することによって、
    ベイジアンモデリングを使用して前記ターゲット属性に関連する分布を予測するステップと
    を含む、プロセッサ実装方法。
  2. 複数のデータセットが、結合のタイプに基づいて結合されるとともに、前記結合のタイプが、内部結合、外部結合、左結合、および右結合を含む、請求項1に記載の方法。
  3. 選択された属性およびターゲット属性を使用して、最小全域木ベースのベイジアン構造を学習することが、
    ペア単位相互情報量を閾値として使用して、複数の属性および前記ターゲット属性について、最小全域木を学習すること;
    前記最小全域木における各エッジを無作為な方向に初期化すること;
    各エッジ方向を反転させて、2^(k)有向グラフを演算すること;
    各グラフのクロスエントロピーを計算すること;および
    最小クロスエントロピーを有するグラフを、前記最小全域木ベースのベイジアン構造として選択すること
    を含む、請求項1に記載の方法。
  4. 複数の属性およびターゲット属性が、離散変数および連続変数を含む、請求項1に記載の方法。
  5. 最小全域木ベースのベイジアン構造の各ノードにおいて、条件付き確率表を学習することが、
    固定サイズビニングによって連続変数を離散化すること;および
    前記連続変数を離散化すると、前記最小全域木ベースのベイジアン構造の各ノードにおいて、前記条件付き確率表を学習すること
    を含む、請求項4に記載の方法。
  6. 理想分布および確率分布を使用する条件付き確率表を照会することによって予測されたターゲット属性に関連する分布に対する信頼度スコアを演算するステップ;
    テキスト類似度を使用して前記ターゲット属性に関連する分布を予測するステップ;および
    a)前記テキスト類似度を使用して予測された前記ターゲット属性と関連する分布、およびb)前記演算された信頼度スコアに基づいて前記条件付き確率表を照会することによって予測された前記ターゲット属性と関連する分布の内の1つを選択するステップ
    をさらに含む、請求項1に記載の方法。
  7. 1つまたは2つ以上のメモリ;および
    1つまたは2つ以上のハードウェアプロセッサを含む、システムであって、前記1つまたは2つ以上のメモリは前記1つまたは2つ以上のハードウェアプロセッサに連結されており、前記1つまたは2つ以上のハードウェアプロセッサは:
    データレイクから、トピックに関連する複数のデータセットであって、それぞれがトピックの様々な属性に対応する情報を含む前記複数のデータセットを取得し;
    前記複数のデータセットを結合して、結合データセットを取得し;
    前記結合データセットにおいてターゲット属性との相互情報量に基づいて、複数の属性(k)を選択し、
    前記選択された属性および前記ターゲット属性を使用して、最小全域木ベースのベイジアン構造を学習し、
    前記最小全域木ベースのベイジアン構造の各ノードにおいて条件付き確率表を学習し、
    前記条件付き確率表を照会することによって、前記ターゲット属性と関連する分布を予測し、それによって視覚ベイジアンデータフュージョンを促進することによって、
    ベイジアンモデリングを使用してターゲット属性に関連する分布を予測する、前記1つまたは2つ以上のメモリに記憶されたプログラム化された命令を実行することができる、前記システム。
  8. 複数のデータセットが、結合のタイプに基づいて結合され、前記結合のタイプには、内部結合、外部結合、左結合、および右結合が含まれる、請求項7に記載のシステム。
  9. 1つまたは2つ以上のハードウェアプロセッサが、
    ペア単位相互情報量を閾値として使用して、複数の属性およびターゲット属性について、最小全域木を学習し、
    前記最小全域木における各エッジを無作為な方向に初期化し;
    各エッジ方向を反転させて、2^(k)有向グラフを演算し;
    各グラフのクロスエントロピーを計算し、
    最小クロスエントロピーを有するグラフを、最小全域木ベースのベイジアン構造として選択する、
    プログラム化された命令を実行することができる、請求項7に記載のシステム。
  10. 複数の属性およびターゲット属性が、離散変数および連続変数を含む、請求項7に記載のシステム。
  11. 1つまたは2つ以上のハードウェアプロセッサが、
    固定サイズビニングによって、連続変数を離散化し、
    前記連続変数を離散化すると、最小全域木ベースのベイジアン構造の各ノードにおいて、条件付き確率表学習する、
    プログラム化された命令を実行することができる、請求項10に記載のシステム。
  12. 1つまたは2つ以上のハードウェアプロセッサが、
    理想分布および確率分布を使用する条件付き確率表を照会することによって予測された、ターゲット属性に関連する分布に対する信頼度スコアを演算し、
    テキスト類似度を使用して前記ターゲット属性に関連する分布を予測し、
    a)前記テキスト類似度を使用して予測された前記ターゲット属性と関連する分布、およびb)前記演算された信頼度スコアに基づいて前記条件付き確率表を照会することによって予測された前記ターゲット属性と関連する分布の内の1つを選択する
    プログラム化された命令を実行することがさらに可能である、請求項7に記載のシステム。
  13. コンピューティングデバイスにおいて実行可能なプログラムを具現化する非一時的コンピュータ可読媒体であって、前記プログラムが:
    データレイクからトピックに関連する複数のデータセットを取得するためのプログラムコードであって、前記複数のデータセットのそれぞれは、前記トピックの様々な属性に対応する情報を含むプログラムコードと;
    前記複数のデータセットを結合して、結合データセットを取得するプログラムコードと;
    前記結合データセットにおけるターゲット属性との相互情報量に基づいて複数の属性(k)を選択し、
    前記選択された属性および前記ターゲット属性を使用して、最小全域木ベースのベイジアン構造を学習し、
    前記最小全域木ベースのベイジアン構造の各ノードにおいて、条件付き確率表学習し、
    前記条件付き確率表を照会することによって、前記ターゲット属性に関連する分布を予測し、それによって視覚ベイジアンデータフュージョンを促進することによって、
    ベイジアンモデリングを使用して前記ターゲット属性に関連する分布を予測するプログラムコードと
    を含む、非一時的コンピュータ可読媒体。
JP2017046609A 2016-03-10 2017-03-10 視覚ベイジアンデータフュージョンのシステムおよび方法 Active JP6431945B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN201621008419 2016-03-10
IN201621008419 2016-03-10

Publications (2)

Publication Number Publication Date
JP2017199358A true JP2017199358A (ja) 2017-11-02
JP6431945B2 JP6431945B2 (ja) 2018-11-28

Family

ID=58277171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017046609A Active JP6431945B2 (ja) 2016-03-10 2017-03-10 視覚ベイジアンデータフュージョンのシステムおよび方法

Country Status (7)

Country Link
US (1) US10430417B2 (ja)
EP (1) EP3217334B1 (ja)
JP (1) JP6431945B2 (ja)
AU (1) AU2017201653B2 (ja)
BR (1) BR102017004835A2 (ja)
CA (1) CA2960505C (ja)
MX (1) MX2017003188A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021033895A (ja) * 2019-08-29 2021-03-01 株式会社豊田中央研究所 変数選定方法、変数選定プログラムおよび変数選定システム
WO2024048305A1 (ja) * 2022-08-29 2024-03-07 株式会社博報堂Dyホールディングス 情報処理システム及び情報処理方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6532762B2 (ja) * 2015-06-02 2019-06-19 株式会社東芝 情報生成システム、装置、方法、及びプログラム
US10430417B2 (en) * 2016-03-10 2019-10-01 Tata Consultancy Services Limited System and method for visual bayesian data fusion
CN110347688B (zh) * 2019-07-10 2020-09-11 星环信息科技(上海)有限公司 多元信息的特征融合方法、装置、设备及存储介质
US11250014B2 (en) 2019-08-18 2022-02-15 International Business Machines Corporation Generating previews of possible join relationships
CN110705132B (zh) * 2019-10-31 2023-04-28 哈尔滨工业大学 一种基于多源异质数据的制导控制系统性能融合评估方法
CN110837868A (zh) * 2019-11-08 2020-02-25 奇瑞汽车股份有限公司 贝叶斯图的获取方法及装置、存储介质
CN111221794A (zh) * 2020-02-17 2020-06-02 湖南工学院 配电网广域量测控制系统多源数据融合方法
CN112231313A (zh) * 2020-11-05 2021-01-15 河钢数字技术股份有限公司 一种钢厂多源环境数据融合的方法
CN113111284A (zh) * 2021-04-12 2021-07-13 中国铁塔股份有限公司 归类信息展示方法、装置、电子设备和可读存储介质
CN113626482A (zh) * 2021-08-17 2021-11-09 北京深演智能科技股份有限公司 基于系统融合id表的查询方法和装置
CN113807453B (zh) * 2021-09-24 2024-01-30 沈阳理工大学 基于加权概率融合并行贝叶斯网络的异常行为检测方法
CN114896426B (zh) * 2022-07-14 2023-10-13 中国人民解放军国防科技大学 一种电子目标认知图谱的构建方法
CN116153450B (zh) * 2023-04-13 2023-06-27 合肥科颖医药科技有限公司 基于智能分析的访视内容数据比对方法及系统
CN117009921B (zh) * 2023-08-04 2024-02-23 振宁(无锡)智能科技有限公司 一种数据融合引擎的优化数据处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011048435A (ja) * 2009-08-25 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 推定論理構築支援システム、ユーザ行動推定装置、ユーザ行動推定方法およびユーザ行動推定プログラム
JP2017054487A (ja) * 2015-07-04 2017-03-16 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 分布クエリに対してビジネスデータを融合するための方法及びシステム
US20170262506A1 (en) * 2016-03-10 2017-09-14 Tata Consultancy Services Limited System and method for visual bayesian data fusion

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060216496A2 (en) 2003-11-13 2006-09-28 Bernard Technologies, Inc. Gas Generating Polymers
US7320002B2 (en) * 2004-03-25 2008-01-15 Microsoft Corporation Using tables to learn trees
US8160975B2 (en) * 2008-01-25 2012-04-17 Mcafee, Inc. Granular support vector machine with random granularity
WO2011014169A1 (en) 2009-07-30 2011-02-03 Hewlett-Packard Development Company, L.P. Constructing a bayesian network based on received events associated with network entities
US8447710B1 (en) * 2010-08-02 2013-05-21 Lockheed Martin Corporation Method and system for reducing links in a Bayesian network
US8478711B2 (en) * 2011-02-18 2013-07-02 Larus Technologies Corporation System and method for data fusion with adaptive learning
US20140153443A1 (en) * 2012-11-30 2014-06-05 International Business Machines Corporation Per-Address Spanning Tree Networks
US8949218B2 (en) * 2012-12-26 2015-02-03 Teradata Us, Inc. Techniques for join processing on column partitioned tables
SG10201403293TA (en) * 2014-06-16 2016-01-28 Ats Group Ip Holdings Ltd Fusion-based object-recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011048435A (ja) * 2009-08-25 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 推定論理構築支援システム、ユーザ行動推定装置、ユーザ行動推定方法およびユーザ行動推定プログラム
JP2017054487A (ja) * 2015-07-04 2017-03-16 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 分布クエリに対してビジネスデータを融合するための方法及びシステム
US20170262506A1 (en) * 2016-03-10 2017-09-14 Tata Consultancy Services Limited System and method for visual bayesian data fusion

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021033895A (ja) * 2019-08-29 2021-03-01 株式会社豊田中央研究所 変数選定方法、変数選定プログラムおよび変数選定システム
WO2024048305A1 (ja) * 2022-08-29 2024-03-07 株式会社博報堂Dyホールディングス 情報処理システム及び情報処理方法

Also Published As

Publication number Publication date
AU2017201653B2 (en) 2018-11-08
CA2960505A1 (en) 2017-09-10
CA2960505C (en) 2018-12-11
JP6431945B2 (ja) 2018-11-28
BR102017004835A2 (pt) 2018-03-20
MX2017003188A (es) 2018-08-15
US10430417B2 (en) 2019-10-01
US20170262506A1 (en) 2017-09-14
AU2017201653A1 (en) 2017-09-28
EP3217334A1 (en) 2017-09-13
EP3217334B1 (en) 2021-09-29

Similar Documents

Publication Publication Date Title
JP6431945B2 (ja) 視覚ベイジアンデータフュージョンのシステムおよび方法
US11748379B1 (en) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
Tong et al. A linear road object matching method for conflation based on optimization and logistic regression
Chi et al. k-pod: A method for k-means clustering of missing data
CN103268317B (zh) 对图像进行语义注释的系统和方法
Peterson et al. Bayesian inference of multiple Gaussian graphical models
Li et al. An optimisation model for linear feature matching in geographical data conflation
US9123259B2 (en) Discovering functional groups of an area
Zhang et al. Using OpenStreetMap point-of-interest data to model urban change—A feasibility study
US11734337B2 (en) Identifying digital attributes from multiple attribute groups utilizing a deep cognitive attribution neural network
US20190197176A1 (en) Identifying relationships between entities using machine learning
US10769136B2 (en) Generalized linear mixed models for improving search
US20210390392A1 (en) System and method for processing point-of-interest data
Ye et al. Crowdsourcing-enhanced missing values imputation based on Bayesian network
US20220129709A1 (en) Systems and Methods for Preference and Similarity Learning
Singh et al. Visual bayesian fusion to navigate a data lake
Murakami et al. Improved log-Gaussian approximation for over-dispersed Poisson regression: application to spatial analysis of COVID-19
Li et al. Indoor mobility semantics annotation using coupled conditional Markov networks
Lagos et al. Point-of-interest semantic tag completion in a global crowdsourced search-and-discovery database
US11023465B2 (en) Cross-asset data modeling in multi-asset databases
US20230297625A1 (en) Utilizing a graph neural network to generate visualization and attribute recommendations
Ong et al. Data-dependent probability matching priors of the second order
US20220230053A1 (en) Graph neural network for signal processing
Yu et al. An iterative framework with active learning to match segments in road networks
Kumar A short note on the theory of perspective topology in GIS

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181105

R150 Certificate of patent or registration of utility model

Ref document number: 6431945

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250