JP6457290B2 - グラフを剪定する方法、前記グラフを剪定する方法をコンピュータに行なわせる命令を記録している非一時的なコンピュータ可読記憶媒体、及びグラフの剪定を行うためのコンピュータシステム - Google Patents

グラフを剪定する方法、前記グラフを剪定する方法をコンピュータに行なわせる命令を記録している非一時的なコンピュータ可読記憶媒体、及びグラフの剪定を行うためのコンピュータシステム Download PDF

Info

Publication number
JP6457290B2
JP6457290B2 JP2015024809A JP2015024809A JP6457290B2 JP 6457290 B2 JP6457290 B2 JP 6457290B2 JP 2015024809 A JP2015024809 A JP 2015024809A JP 2015024809 A JP2015024809 A JP 2015024809A JP 6457290 B2 JP6457290 B2 JP 6457290B2
Authority
JP
Japan
Prior art keywords
graph
vertices
data
minimum
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015024809A
Other languages
English (en)
Other versions
JP2015156216A (ja
JP2015156216A5 (ja
Inventor
エリック・ホァン
ロン・チョウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2015156216A publication Critical patent/JP2015156216A/ja
Publication of JP2015156216A5 publication Critical patent/JP2015156216A5/ja
Application granted granted Critical
Publication of JP6457290B2 publication Critical patent/JP6457290B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示はグラフ分析に関する。より具体的には、本開示はグラフデータの効率的な処理を容易にするためのグラフ表現の枝刈りを行う方法およびシステムに関する。
コンピュータ処理能力の飛躍的な向上により、効率的なデータ分析を用いて、買い物の好み、および/または商品の推薦、ソーシャルメディア活動、医療紹介、およびEメールのやり取りのパターンなどの関心のある情報を抽出することが可能になってきた。このようなデータ分析の必要条件として、効率的なコンピュータ処理への需要が増えてきた。その結果、コンピュータ製造業者は、効率的に関心のある情報をコンピュータ処理するグラフ分析などの多機能の、大型で処理速度の速いコンピュータ装置を競って開発している。しかし、コンピュータ装置のコンピュータ処理能力を無限に伸ばすことはできない。コンピュータ装置のコンピュータ処理能力は、物理的空間、電力消費、および設計の複雑さなどのいくつかの要因により制限される。さらに、高い能力を有するコンピュータ装置は、一般に複雑でコストがかかる。さらに重要なことには、非常に大型で複雑なコンピュータ装置は、大抵の場合、大量生産によるコストの削減を図れないため、コンピュータ装置の能力を増やすだけでは経済的に実行不可能であることが証明される。
この課題に対処する1つの方法は、大きなデータの集合から関心のある情報を抽出するデータ分析ツールの効率を上げることである。ハイパーグラフは、高性能のグラフ分析エンジンであり、グラフデータ上で非常に速いクエリを行う。グラフデータとは、グラフにより簡単に表現可能なデータである。グラフとは、頂点と、それらの頂点を接続する辺の集合である。ハイパーグラフでは、非常に特殊なフォーマットで入力を行わなければならないが、このフォーマット動作は、単一マシンのメモリおよびディスクの一般的な能力を超えてしまうため、数多くの実在のグラフデータの集合をフォーマットすることは容易なことではない。
1つのアプローチとして、スクリプトおよびUNIX(登録商標)ユーティリティを用いてデータを自動的にコンパイルしフォーマットすることができる。このアプローチは、現在のワークステーションでファイルの入出力、および中間でのコンピュータ処理にあてはめる操作を行う際、比較的にうまく機能する。しかし、入力するグラフデータの集合が約数百ギガバイトの場合、必要とされる時間、ディスクスペース、およびメモリスペースが膨大なため、標準のマシン上ではデータをソートすることさえできない。
本発明の一実施形態では、グラフの枝刈りに関するシステムが提供される。動作中、このシステムは、1つ以上の頂点を含むグラフ内で接続構成要素を識別する。グラフの各頂点はデータの集合内の要素を表し、2つの頂点の間の辺はそれらの頂点の間の関係の種類と強さを表す。このシステムは、グラフに対するクエリに関連する最小グラフ探索閾値より小さくなる接続構成要素を識別する。この最小グラフ探索閾値は、クエリに対して必要な探索ステップの最小数を示す。次いで、システムはこの接続構成要素をグラフから刈り取ることにより第2のグラフを生成する。この第2のグラフを処理して、データの集合から関心のある情報を抽出する。
この実施形態に対する変更形態では、接続構成要素には、(i)孤立した頂点、(ii)1本以上の辺を介して互いに接続した頂点の集合のうちの1つ以上が含まれ、これらの頂点はその集合の外側の頂点とは接続しない。
この実施形態に対する変更形態では、第1の識別子に基づいて識別されたデータの集合内の各要素が1つ以上の表に格納される。最小グラフ探索閾値より小さくなる接続構成要素を識別するために、このシステムは1つ以上の表で1回以上の表動作を行う。
別の変更形態では、接続構成要素により表されない要素が識別されると、システムはその要素に対する第2の識別子を生成する。
さらに別の変更形態では、システムは、マッピング表で第2の識別子を第1の識別子にマッピングする。
この実施形態に対する変更形態では、このシステムはグラフ内の各頂点にラベルを割り当て、このラベルを第1の頂点から第2の頂点に伝播させ、同じラベルに関連する頂点の集合を識別する。
別の変更形態では、最小グラフ探索閾値より小さくなる接続構成要素を識別するために、システムは、識別された、頂点の集合が最小グラフ探索閾値より小さいかどうかを判定する。
この実施形態に対する変更形態では、データの集合内の要素は、(i)店舗の顧客、(ii)店舗の商品のうちの1つ以上に対応する。関係の種類は、顧客が商品を購入したかどうかを示している。
図1は、本発明の実施形態による、グラフの枝刈りシステムの例示的なアーキテクチャを示す図である。 図2は、本発明の実施形態による、最小グラフ探索閾値に基づいた例示的なグラフの枝刈りの様子を示す図である。 図3Aは、本発明の実施形態による、データを表からコンパイルして、グラフを生成し、接続構成要素を識別する例示的な処理を示す図である。 図3Bは、本発明の実施形態による、表に基づいて接続構成要素を識別する処理のフローチャートを示す図である。 図4Aは、本発明の実施形態による、接続構成要素を識別するための、例示的なラベルの伝播を示す図である。 図4Bは、本発明の実施形態による、ラベルの伝播に基づいた、最小グラフ探索閾値の例示的な形態を示す図である。 図5は、本発明の実施形態による、グラフの枝刈り処理のフローチャートを示す図である。 図6Aは、実施形態による、グラフを生成しグラフの枝刈りを適用するための例示的なコンピュータシステムを示す図である。 図6Bは、実施形態による、グラフを生成しグラフの枝刈りを適用するための例示的な装置を示す図である。
上記の図面では、同様の参照符号は、同じ番号の要素を指す。
以下の説明は、全ての当業者が本実施形態を実施し用いることができるよう提示され、特定の用途およびその必要要件のとの関連で提供されている。開示されている実施形態に対する様々な変更は、当業者にとっては容易に明らかであり、本明細書で定義される一般原理は、本開示の趣旨および範囲から逸脱することなく他の実施形態および用途に適用可能である。したがって、本発明は例示の実施形態には限定されず、明細書に開示された原理および特徴と適合する最も広い範囲と一致するものとする。
本発明の実施形態では、最小グラフ探索閾値に基づいてグラフの枝刈りを行うことにより、グラフから効率的なデータ処理を行うという課題を解決する。一般に、関心のある情報をグラフから抽出するために、グラフ分析システム(例えば、ハイパーグラフ)がグラフを探索する(例えば、グラフの1つ以上の頂点および/または辺を探索する)。このグラフ分析システムは装置および/またはソフトウェアのアプリケーションでよい。関心のある情報の例として、買い物の好みおよび/または商品の推薦、ソーシャルメディア活動、医療紹介、およびEメールのやり取りのパターンが挙げられるがこれらには限定しない。
グラフから関心のある情報の抽出では、最小数のグラフ探索ステップを含む(例えば、少なくとも最小数の頂点および/または辺を通過する探索を含む)クエリを適用し、この最小数は最小グラフ探索閾値と呼ばれ得る。通常、グラフ分析システムに入力されるグラフは、そのグラフの残りの部分とは相互に接続していない頂点と辺の孤立した集合を分散して含んでいる。これらの孤立した集合は、接続構成要素と呼ばれ得る。すなわち、接続構成要素には、孤立した頂点および/または辺を介して互いに接続した頂点の集合が含まれ得、集合内の頂点はその集合の外側の頂点とは接続しない。
最小グラフ探索閾値を含むグラフに対するクエリの場合、最小グラフ探索閾値より小さい接続構成要素を通過する探索では、関心のある情報が何も抽出されない。その結果、これらの接続構成要素の頂点および/または辺を通過する探索では、グラフから意図した関心のある情報を抽出することなく、グラフ分析システムの処理時間およびメモリ使用量が増えてしまう。
この問題を解決するために、グラフ分析システムは、この最小グラフ探索閾値を満たさない接続構成要素(例えば、頂点および/または辺の対応する集合)をグラフから刈り取って(例えば、捨てる)、グラフからのより効率的なデータ処理を行うことができる。通常、グラフ分析システムは、種々のデータを格納する関係表などのデータ源からデータを抽出するグラフ変換システムから、生成されたグラフデータを入力として受け取る。このグラフ変換システムは、このデータを処理し中間表に投影し、ヘッダーを生成する。次いで、このグラフ変換システムは、これらの表およびヘッダーと、グラフ配列および関連する辺の属性データを記述するデータを有する付加的な表と、を適切にフォーマットされたテキストファイルに書き込む。一般に、小さなグラフ上で実行されるグラフ動作は、より良好な性能を発揮し、メモリおよび処理の使用量は少ない。グラフ内でスタートポイントが異なる同じようなクエリの一群を数回に渡りグラフに適用する場合、クエリの一群を作成する前にそのグラフの枝刈りを行うことで、全体のコンピュータ処理時間が著しく削減される。
このシステムは、本明細書で開示された技術を用いて、顧客に商品の推薦を提供することができる。小売店が顧客に商品を販売することができる。そして、顧客に商品の推薦を提供するために、システムはグラフデータを処理し、これにより、購買データを含む顧客取引データを分析することができる。システムは顧客が購入したアイテムを調べ、第1の顧客と同じ商品を購入した別の顧客により購入された商品を特定することができる。次いで、システムは特定された商品の中から、ある商品を第1の顧客に推薦することができる。顧客取引データを他のデータと一緒にし、関係データベース(すなわち、ハイパーグラフへの直接入力に適さない、いくつかの別のフォーマットで)に格納することができる。グラフの頂点が顧客と商品を表していると想定すると、2つの頂点の間の辺は顧客が商品を購入したかどうかを示す。
いくつかの実施形態では、第1の顧客に商品を推薦するクエリには、第1の顧客と共通の少なくとも1つの商品を購入した他の顧客を見つけることと、それらの他の顧客が購入した商品を特定することと、が含まれる。グラフのモデルに基づくと、このようなコンピュータ処理には4つの頂点(例えば、3つの辺)の最小グラフ探索が必要とされる。第1の探索ステップは、第1の顧客を表す頂点から第1の顧客が購入した商品の集合を表す第2の頂点の集合までの探索である。第2のステップは、第2の頂点の集合内の各頂点から、これらの購入された商品を購入した他の顧客を表す第3の頂点の集合までの探索である。第3のステップは、第3の頂点の集合から他の顧客が行った他の購入を表す頂点までの探索である。グラフ分析システムは、3本より少ない辺を含む接続構成要素をオリジナルの入力グラフから刈り取ることができる。次いで、枝刈りをされたグラフ用いて、クエリに回答することができる。この回答により、より速い処理と少ないメモリ使用量で、オリジナルのグラフでの回答と同じ結果を得られる。
本明細書では、ハイパーグラフに関する例が議論されているが、本発明の実施形態は全てのグラフ分析アプリケーションを用いる開示技術を適用可能である。本開示では、用語「アプリケーション」および「ソフトウェア」は区別なく使用されている。いくつかの実施形態では、Hiveに代りHBaseまたはSQLなどの関係インターフェースを用いることができる。いくつかのスクリプトは、C/C++またはその他のスクリプト言語、あるいはcat、join、paste、cut、およびsortなどの標準のUNIXのスクリプティングプログラムで書き込むことができる。
図1には、本発明の実施形態による、グラフの枝刈りシステムの例示的なアーキテクチャが示されている。グラフ処理システム100は、関係モデル(または、その他の任意データモデル)に従った格納データを抽出し、グラフを表すための好適なフォーマットにそのデータを変換する。変換されたデータは、グラフ分析アプリケーション(例えば、ハイパーグラフ)への入力に適したものとする。このグラフ分析アプリケーションは、最小グラフ探索閾値に基づいて、グラフの枝刈りを行う。
いくつかの実施形態では、このシステム100は、クラスター104の一部として動作するサーバ102A〜102Eの集合を含むことができる。サーバ102A〜102Eの各サーバは、記憶装置内に格納されたソフトウェアおよびデータを含むことができる。例えば、サーバ102Eは、記憶装置106を含むことができる。記憶装置106は、グラフ分析アプリケーション108(例えば、ハイパーグラフ)、取引データ110、グラフデータ112、およびグラフ変換ソフトウェア114などのデータおよびソフトウェアを格納可能である。いくつかの実装形態では、クライアント116も含むことができ、このクライアント116が、クラスター104内のサーバと通信して、ハイパーグラフに関連するグラフ変換サービスを要求する。なお、本発明の別の実装形態では、あらゆる数のサーバおよび記憶装置を含むことができる。以下に、システム100の種々の発明の様態をさらに説明する。
いくつかの実施形態では、グラフ分析アプリケーション108は、特定の制約およびフォーマットの必要要件と共に、特殊な方法でフォーマットされたテキストファイルとして、その入力を受け入れる。入力されるテキストファイルは、グラフ配列および頂点に関連するデータなどの、グラフの記述およびその他の関連データを含むものとする。グラフ構造のデータは、頂点と辺の属性を記述するデータから分離されているものとする。協調フィルタリングを行うために、頂点は顧客または商品を表し、辺は購買取引を表す。
いくつかの実施形態では、システム100は、Hadoopの上に構築されたHiveなどのデータウェアハウスのソフトウェアを用いる。Hiveは、Hadoopに関するデータウェアハウスシステムである。Hiveは、Hadoopと互換性のあるファイルシステムを有する分散型ストレージ内に駐在する簡単なデータ要約、ad−hocクエリ、および大きなデータの集合の分析を容易にする。Hiveは、格納データにアクセスするためのSQLインターフェースを提供する。Hadoopはストレージ層である。Hadoopは、マシンのクラスター全体に渡って、マシンおよびCPUの能力を共に引き出して、大きなデータの集合の分散処理を行うためのフレームワークである。Hadoopは、クラスター全体に渡るデータのストレージを提供し、単一のサーバから数千のマシンまで拡張および縮小を可能にする。Hadoopは、クラスター内の全てのノードに及ぶ、拡張および縮小可能な分散型ファイルシステムを提供する。小売店は、Hadoopクラスター内に数百ギガバイトのデータを格納することができる。一般的な関係データベースの表から、ハイパーグラフに適したフォーマットにデータを自動的にコンパイルするために、HadoopおよびBashスクリプトを伴うHiveを用いることができる。Bashとは、UNIXのシェルである。Bashは、スクリプトファイルから命令を読み、スクリプト内の命令を実行することができる。
グラフ分析アプリケーション108のハイパーグラフへ入力される情報は、Hiveを用いて生成された表とヘッダーの集合である。いくつかの実装形態では、Hive内のSQLスクリプトを実行して、メインの表から、より小さい中間表に、顧客、商品、および取引データを投影することができる。例えば、小売店のデータベース内には、縦列の1列に顧客の識別子(ID)が格納され、別の縦列に顧客が購入した商品のIDが格納されたメインの表が存在し得る。このメインの表のその他の縦列には、取引のIDおよびその取引の日付が格納される。Hiveにより生成される中間表は、テキストファイルの形態でストレージに書き込むことができ、テキストファイル内の範囲を区切られた新しい各線は表の横列を表す。システムは、グラフの配列を記述するヘッダーおよび表と、ならびに辺の属性を記述する別の表と、を生成することもできる。
図2には、本発明の実施形態による、最小グラフ探索閾値に基づいた例示的なグラフの枝刈りの様子が示されている。動作中、グラフ変換システム(例えば、図1のグラフ変換ソフトウェア114)は、データ源からデータを抽出し、一般的なグラフ200を生成する。グラフ分析システム(例えば、グラフ分析アプリケーション108)は、グラフ200から関心のある情報を抽出する。関心のある情報の例には、効率的なデータ分析を用いた、買い物の好みおよび/または商品の推薦、ソーシャルメディア活動、医療紹介、およびEメールのやり取りのパターンが含まれるがこれらには限定されない。
いくつかの実施形態では、グラフ200は小売店の顧客および彼らの各購買行動を表す。グラフ200内の頂点は、顧客(例えば、頂点202)または顧客により購入された商品(例えば、頂点212)に対応することができる。頂点202と頂点212との間の辺は、頂点202に関連する顧客が頂点212に関連する商品を購入したことを示している。グラフ分析システムは、グラフ200を分析して第1の顧客と同じアイテムを購入した別の顧客の購買行動を判定する。次いで、このシステムは、第1の顧客にアイテムを推薦することができる。頂点202が第1の顧客を表していると想定する。
いくつかの実施形態では、第1の顧客に商品を推薦するクエリには、第1の顧客と共通の少なくとも1つの商品を購入した他の顧客を見つけることと、それらの他の顧客が購入した商品を特定することと、が含まれる。グラフ200に基づくと、このようなコンピュータ処理には、4つの頂点および3つの辺の最小グラフ探索が必要となる。第1の探索ステップは、頂点202から第1の顧客が購入した商品の集合を表す頂点212、214、および216を含む頂点の集合までの探索である。第2のステップは、頂点212、214、および/または216から、これらの購入された商品を購入した他の顧客を表す頂点222、224、および226を含む頂点の集合までの探索である。第3のステップは、頂点222、224、および/または226から他の顧客が行ったその他の購買行動を表す頂点232および234までの探索である。グラフ200で、これらの3つのステップの探索を行うことにより、グラフ分析システムは第1の顧客が現在購入する可能性がある投影された商品を特定することができる。このように、グラフ200に適用されたクエリにより、投影された商品を判定することができ、このクエリに関する最小グラフ探索閾値は、4つ頂点および/または3つ辺である。
4つ未満の頂点、および/または3つ未満の辺を有する接続構成要素を通過する探索では、グラフ200からは関心のある情報は特定されない。その結果、これらの接続構成要素の頂点、および/または辺を通過する探索は、意図した関心のある情報をグラフから抽出することなく、グラフ分析システムの処理時間およびメモリ使用量を増やしてしまう。そのような接続構成要素には、購買行動を全く行っていない顧客を表す頂点206、および購買されていない商品を表す頂点220などの孤立した頂点が含まれ得る。
接続構成要素には、最小グラフ探索の必要要件を満たしていない頂点と辺の集合も含まれ得る。例えば、接続構成要素は、頂点218により表される商品の1つだけを購入した顧客を表す頂点204を含むことができる。この接続構成要素は、4つの頂点、および/または3本の辺のグラフ探索を供給していない。その結果、グラフ分析システムは、頂点204、206、218、および220を含む接続構成要素を刈り取ることにより、新しいグラフ250を生成することができる。次いで、枝刈りされたグラフ250を用いて、クエリに回答することができる。この回答により、より速い処理と少ないメモリ使用量でオリジナルのグラフ200の回答と同じ結果を得られる。
図3Aには、本発明の実施形態による、データを表からコンパイルしてグラフを生成し、接続構成要素を識別する例示的な処理が示されている。図3Aには、図1のシステム100が、どのようにしたら取引データをハイパーグラフに適したフォーマットに変換することができるかということが示されている。システム100はメインの表からデータを抽出して、中間表、それに関連するヘッダー、配列の表、および辺の属性の表を形成することができる。次いで、システム100は、中間表、ヘッダー、および他の表を1つ以上のテキストファイルに書き込むことができる。
図3Aに示される通り、グラフ分析アプリケーション108は、分割/格納コンポーネント304A、およびその他コンポーネント304B〜304Cを含む。コンポーネント304B〜304Cは、入力グラフの分析を容易にする、あらゆる数のコンポーネントを表し得る。グラフ分析アプリケーション108は、データベース308内に格納されるテキストファイル306を入力情報として受け入れる。このテキストファイル306には、メインの表310から検索されたデータから生成されたグラフ表現を記述したデータが含まれる。なお、実装形態によっては、テキストファイル306は、1つ以上のテキストファイルを表すことができる。
システム100は、顧客表312、商品表322、購買履歴表332、および購買表342を含む中間表を生成することができる。顧客表312には、顧客ID314、顧客の名前316、および顧客の住所318などの顧客を記述するデータが格納され得る。商品表322には、商品ID324および商品の明細326などの購買可能な商品を記述するデータが格納され得る。購買履歴表332には、商品の顧客購買行動を記述するデータが格納され得るが、異なる実装形態では、その他の種類も取引をこの表の中に、あるいは別の取引の表の中に含むこともできる。購買履歴表332は、購買ID334、顧客ID314、および商品ID324を含むことができる。購買表342には、購買ID334および付加情報344などの購買特定情報を記述するデータが格納され得る。付加情報344には、支払情報および/または配送住所が含まれ得る。
システム100は、メインの表310からデータを検索し、検索されたデータを顧客表312、商品表322、購買履歴表332、および購買表342内に格納する。メインの表310は、例えば、関係モデルに従って、データを格納することができる。異なる小売店は、領域によって、格納されるデータの構造または種類が異なり、いくつもの表を含むことができるメインの表を格納することができる。いくつかの実施形態では、システム100は、中間表に関するいくつかのヘッダー生成し、中間表およびヘッダーをテキストファイル306に書き込む。システム100は、グラフ分析アプリケーション108に提出する辺に関する情報を含むその他の表も含むこともできる。
図3Bには、本発明の実施形態による、表に基づいて接続構成要素を識別する処理のフローチャートが示されている。この処理を用いて、孤立した頂点、またはサイズ1の接続構成要素を刈り取ることができる。いくつかの実施形態では、HIVEクエリ言語のスクリプトを書き込んで小売店の領域でアイデアを実演することにより、この処理を自動化する。現在の実施形態に対する変更形態または代替形態には、SQLなどのその他の任意の宣言型言語などの異なるプログラム言語のスクリプトの実装形態が含まれる。動作中、この処理は購買履歴表内の顧客IDと商品IDに対して結合動作を適用し(動作352)、この結合から別個の要素を選択する(動作354)。これにより、処理は1次以上の孤立していない頂点を見つけることができる。
次いで、この処理は、選択された要素と顧客表と結びつけることにより、少なくとも1つの商品を購入した顧客だけを含む、投影された顧客表を作成する(動作356)。また、この処理は、選択された要素と商品表と結びつけることにより、少なくとも1人の顧客に購入された商品だけを含む、投影された商品表も作成する(動作358)。この処理は、顧客および商品に関するそれぞれ連続する新しい識別子を生成することによりマッピング表を作成し、前の識別子に新しい識別子をマッピングする(動作360)。新しい識別子が順次生成されて、動作356および/または動作358の投影ステップにより生じた識別子の配列内の潜在的な隙間が取り除かれる。次いで、この処理は、マッピング表を顧客表、商品表、および購買履歴表に結びつける(動作362)。
図4Aには、本発明の実施形態による、接続構成要素を識別するための、例示的なラベルの伝播が示されている。この例では、ラベル402、404、406、および408が、グラフ200の頂点202、212、214、および216にそれぞれ関連する。同様に、グラフ200のその他の頂点も各ラベルに関連する。各頂点の対の間の各辺は同じ重みを有し得る。いくつかの実施形態では、最も低い(または最も高い)識別子の値を用いて、同じ重みを有する辺に関する対応ラベルの伝播を決定する。普通なら、頂点の間の辺の重みに基づいて、ラベルは2つの頂点の間を伝播する。
頂点212、214、および216の周りでは、頂点202が最も小さい識別子を有すると想定される。この場合、ラベル402が頂点212、214、および216に伝播する。したがって、ラベル402は頂点212、214、および216と関連するようになる。次いで、ラベル402が、頂点222、224、および226の周りで最も小さくなり、頂点222、224、および226に伝播し、それらと関連する(点線により示される)。同様に、次いで、ラベル402は頂点232および234に伝播し、それらの関連する(点線により示される)。
さらに、ラベル412、414、および416は、グラフ200の頂点204、206、および220にそれぞれ関連する。頂点204は、頂点204および頂点218だけを含む接続構成要素内に存在する。したがって、ラベル412が頂点218のラベルより小さい場合、ラベル412は頂点204から頂点218に伝播し、頂点218に関連する。頂点206および頂点220は孤立した頂点であり、したがって、ラベル414およびラベル416は伝播しない。サイズは、その接続構成要素内の頂点および/または辺の数を示し、分析システムは、これらの接続構成要素のサイズに基づいて、最小グラフ探索閾値を有する接続構成要素の形態を調べることができる。図4Bには、本発明の実施形態による、ラベルの伝播に基づいた、最小グラフ探索閾値の例示的な形態が示されている。グラフ200内でラベルが伝播すると、図4Aを参照して説明した通り、頂点202、212、214、216、222、224、226、232、および234はラベル402に関連する。
同様に、頂点204および頂点218はラベル412に関連し、頂点206および頂点220は、ラベル414およびラベル416にそれぞれ関連する。グラフ200に関する最小グラフ探索閾値により示される通り、グラフ分析システムは、ラベル412が、4つの頂点より少ない、2つの頂点だけに関連することを検知することができる。同様に、グラフ分析システムは、ラベル414およびラベル416が、それぞれ頂点206および頂点220だけに関連することも検知することできる。それにより、グラフ分析システムは、頂点204、206、218、および220と、それらに対応する辺をグラフ200から刈り取ることができることを検知し、枝刈りされたグラフ250を生成することができる。次いで、枝刈りをされたグラフ250用いて、クエリに回答することができる。この回答により、より速い処理と少ないメモリ使用量でオリジナルのグラフ200の回答と同じ結果を得られる。グラフ内の接続構成要素を識別するアルゴリズムの詳細は、Tarjan,R.E.(1972),「Depth−first search and linear graph algorithms」SIAM Journal on Computing1(2):146−160などの市販の文献で参照可能である。
図5には、本発明の実施形態による、グラフの枝刈り処理のフローチャートが示されている。図2を参照して説明した通り、動作中、この処理はグラフに関する入力クエリを調べ(動作502)、その入力クエリに関連する最小グラフ探索閾値を判定する(動作504)。次いで、この処理は閾値よりも小さい(例えば、閾値より少ない頂点および/または辺を有する)接続構成要素を識別する(動作506)。閾値より小さい接続構成要素の識別は、図3Aおよび図3Bを参照して説明した表の動作、および/または図4Aおよび図4Bを参照して説明したラベルの伝播に基づくがこれらには限定されない。この処理は、識別された接続構成要素を取り除くことにより、グラフの枝刈りを行い(動作508)、入力クエリを処理するために、グラフ分析システムに枝刈りされたグラフを供給する(動作510)。
図6Aには、実施形態による、グラフを生成し、グラフの枝刈りを適用するための例示的なコンピュータシステムが示されている。グラフデータを枝刈りするための例示的なコンピュータシステム600は、プロセッサ602、メモリ604、および記憶装置606を含む。記憶装置606は、アプリケーション610および612などの複数のアプリケーション、およびオペレーティングシステム616を格納する。記憶装置606は、グラフ処理アプリケーション622も格納し、このグラフ処理アプリケーション622は取引データ受信モジュール624、グラフ分析アプリケーション108、取引データ110、グラフデータ112、およびグラフ変換ソフトウェア114を含むことができる。動作中、グラフ処理アプリケーション622などの1つ以上のアプリケーションが記憶装置606からメモリ604にロードされ、プロセッサ602により実行される。プログラムの実行中、プロセッサ602は上述の機能を行う。コンピュータおよび通信システム600は、随意的なディスプレイ617、キーボード618、およびポインティングデバイス620に接続可能である。
図6Bには、実施形態による、グラフを生成し、グラフの枝刈りを適用するための例示的な装置を示されている。例示的な装置650は、有線または無線の通信チャネルを介して互いに通信可能な複数のモジュールを含むことができる。装置650は1つ以上の集積回路を用いて実現され、その中に含まれるモジュールの数は図6Bに示されるモジュールよりも多くても、少なくてもよい。さらに、装置650は、コンピュータシステム内に組み込むことができる、あるいはその他のコンピュータシステム、および/または装置と通信可能な別の装置として実現することもできる。具体的には、装置650は、取引データ受信モジュール652、グラフ分析モジュール654、取引データ110、グラフデータ112、およびグラフ変換ソフトウェア656を含むことができる。なお、装置650は図6Bには図示されない付加的なモジュールを含むこともできる。いくつかの実施形態では、グラフ分析モジュール654はグラフ分析アプリケーション108の動作を行う。
いくつかの実施形態では、取引データ受信モジュール652は、購買データなどの取引データを受信することができる。グラフ分析モジュール654(例えば、ハイパーグラフ)は、生成されたグラフを受け取り、最小グラフ探索閾値に基づいて、生成されたグラフの枝刈りを行い、枝刈りされたグラフから関心のある情報を抽出して、購買の推薦の生成を容易にする。グラフデータ112は、オリジナルのグラフデータ、および枝刈りされたグラフデータを含むことができる。
いくつかの実施形態では、コンピュータシステム600、および/または装置650を用いることには、(i)クエリ内に存在するグラフ探索ステップの数を調べて最小グラフ探索閾値を判定することと、(ii)クエリの最小グラフ探索閾値より小さい接続構成要素を取り除くことによりオリジナルのグラフを枝刈りすることと、(iii)図3Bを参照して説明した通り、頂点の識別子の新しい配列を生成して、投影ステップにより生じた識別子の配列内の隙間を取り除くことと、(iv)ラベルを伝播させてグラフの接続構成要素を識別することと、のうちの1つ以上に関与する。
この詳細な説明で記載されたデータ構造およびコードは、一般に、コンピュータ可読記憶媒体に格納され、これらのコンピュータ可読記憶媒体はコンピュータシステムにより用いられるコード、および/またはデータを格納することが可能な全ての装置または媒体でよい。コンピュータ可読記憶媒体には、揮発性メモリ、不揮発性メモリ、およびディスクドライブ、磁気テープ、CD(コンパクトディスク)、DVD(デジタル多目的ディスクまたはデジタルビデオディスク)などの磁気記憶装置および光記憶装置、またはコンピュータ可読媒体を格納可能な、現在既知のあるいは将来開発される、その他の媒体が含まれるがこれらには限定されない。
詳細な説明のセクションで記載された方法および処理は、上記のコンピュータ可読記憶媒体内に格納可能なコード、および/またはデータとして具現化することができる。コンピュータシステムがコンピュータ可読記憶装置に格納されたコード、および/またはデータを読出し実行すると、コンピュータシステムはデータ構造およびコードとして具現化され、コンピュータ可読記憶媒体内に格納された方法および処理を実行する。
さらに、本明細書に記載される方法および処理をハードウェアモジュールまたは装置に格納することも可能である。これらのモジュールまたは装置には、特定用途向け集積回路(ASIC)のチップ、フィールドプログラマブルゲートアレイ(FPGA)、特定のソフトウェアモジュールまたはコードの一部を特定の時間に実行する専用プロセッサまたは共有するプロセッサ、および/または、現在既知のあるいは将来開発される、その他のプログラマブルロジックデバイスが含まれ得るがこれらには限定されない。ハードウェアモジュールまたは装置が起動すると、これらのハードウェアモジュールまたは装置はその中に格納される方法および処理を実行する。

Claims (16)

  1. コンピュータの記憶装置に複数のデータの要素を含むデータの集合を記憶する記憶ステップと、
    前記複数のデータの要素におけるデータの要素の対の間の関係の種類と強さを前記コンピュータによって決定するステップと、
    グラフにおいて前記データの要素の対を表す頂点の対の間の辺によって前記関係の種類と強さとを表すステップと、
    前記グラフについてコンピュータが受け取った入力クエリと関連し、前記入力クエリに対して必要な探索ステップの最小数を示す最小グラフ探索閾値を決定するステップと、
    前記グラフにおける第1の接続構成要素の探索ステップの数が、最小グラフ探索閾値以上であることを識別するステップであって、接続構成要素は1または複数の頂点の集合を含み、前記頂点は、互いに辺で接続されているが、前記集合の外側の頂点とは接続されていないステップと、
    前記グラフにおける第2の接続構成要素の探索ステップの数が最小グラフ探索閾値よりも小さいことを識別するステップと、
    前記第2の接続構成要素を前記グラフから剪定して前記第1の接続構成要素を有する第2のグラフを生成するステップと、
    前記入力クエリを第2のグラフ上で処理して前記データの集合から関心のある情報を抽出するステップと、
    を含む、コンピュータ実行可能であるグラフを剪定する方法。
  2. 前記接続構成要素における前記1または複数の頂点は、
    1または複数の孤立点、及び
    1または複数の辺を介して互いに結合された頂点の集合
    を含む、請求項1に記載の方法。
  3. 前記第2の接続構成要素の探索ステップの数が最小グラフ探索閾値よりも小さいことを識別するステップは、1または複数の表で行なわれる1または複数の表動作を含む、
    請求項1に記載の方法。
  4. 前記データの集合内のそれぞれの要素は、前記記憶装置の中の1または複数の表に格納され、
    前記要素は第1の識別子で識別され、
    前記グラフは、
    前記要素のうちの、前記頂点および/または前記辺の数が1となる要素以外の要素に対して第2の識別子を生成するステップと、
    前記第2の識別子を、前記第1の識別子がマッピングされているマッピング表内の前記第1の識別子にマッピングするステップ、
    によって作成される、
    請求項1に記載の方法。
  5. 前記第2の接続構成要素の探索ステップの数が最小グラフ探索閾値よりさいことを識別するステップは、
    前記グラフ内のそれぞれの頂点にラベルを割り当てるステップと、
    第1の頂点から第2の頂点へラベルを伝播させるステップと、
    同じラベルに関連する頂点の集合を識別するステップと、
    識別された前記頂点の集合が前記最小グラフ探索閾値より小さいかどうかを判定するステップと、を含む、請求項1に記載の方法。
  6. 前記データの集合内の要素は、
    店の顧客、及び前記店の製品の1つ以上を示し、
    前記関係の種類は、前記顧客が前記製品を購入したかどうかを示す請求項1に記載の方法。
  7. コンピュータにより実行されると、
    コンピュータの記憶装置に複数のデータの要素を含むデータの集合を記憶する記憶ステップと、
    前記複数のデータの要素におけるデータの要素の対の間の関係の種類と強さを前記コンピュータによって決定するステップと、
    グラフにおいて前記データの要素の対を表す頂点の対の間の辺によって前記関係の種類と強さとを表すステップと、
    前記グラフについてコンピュータが受け取った入力クエリと関連し、前記入力クエリに対して必要な探索ステップの最小数を示す最小グラフ探索閾値を決定するステップと、
    前記グラフにおける第1の接続構成要素の探索ステップの数が、最小グラフ探索閾値以上であることを識別するステップであって、接続構成要素は1または複数の頂点の集合を含み、前記頂点は、互いに辺で接続されているが、前記集合の外側の頂点とは接続されていないステップと、
    前記グラフにおける第2の接続構成要素の探索ステップの数が最小グラフ探索閾値よりも小さいことを識別するステップと、
    前記第2の接続構成要素を前記グラフから剪定して前記第1の接続構成要素を有する第2のグラフを生成するステップと、
    前記入力クエリを第2のグラフ上で処理して前記データの集合から関心のある情報を抽出するステップと、
    を含む、コンピュータ実行可能であるグラフを剪定する方法を前記コンピュータに実行させる命令を記憶している非一時的なコンピュータ可読記憶媒体。
  8. 前記接続構成要素における1または複数の頂点が、
    1または複数の孤立点、及び
    1または複数の辺を介して互いに接続された1または複数の頂点の集合、
    を含む、請求項7に記載の非一時的なコンピュータ可読記憶媒体。
  9. 前記第2の接続構成要素の探索ステップの数が最小グラフ探索閾値よりも小さいことを識別するステップは、前記1または複数の表で行われる1または複数の表動作を含む、請求項7に記載の非一時的なコンピュータ可読記憶媒体。
  10. 前記データの集合内のそれぞれの要素は、前記記憶装置のなかの1または複数の表に格納され、
    前記要素は第1の識別子で識別され、
    前記グラフは、
    前記要素のうちの、前記頂点および/または前記辺の数が1となる要素以外の要素に対して第2の識別子を生成するステップと、
    前記第2の識別子を、前記第1の識別子がマッピングされているマッピング表内の前記第1の識別子にマッピングするステップ、
    によって作成される、請求項7に記載の非一時的なコンピュータ可読記憶媒体。
  11. 前記第2の接続構成要素の探索ステップの数が最小グラフ探索閾値よりさいことを識別するステップは、
    前記グラフ内のそれぞれの頂点にラベルを割り当てることと、
    第1の頂点から第2の頂点へラベルを伝播させることと、
    同じラベルに関連する頂点の集合を識別することと、
    識別された前記頂点の集合が前記最小グラフ探索閾値より小さいかどうかを判定するステップと、を含む、請求項7に記載の非一時的なコンピュータ可読記憶媒体。
  12. 前記データの集合内の要素は、
    店の顧客、及び
    前記店の製品のうちの、1つ以上を示し、
    前記関係の種類は、前記顧客が前記製品を購入したかどうかを示す、請求項7に記載の非一時的なコンピュータ可読記憶媒体。
  13. 1または複数のプロセッサと、
    記憶装置と、
    前記1または複数のプロセッサに結合され、前記1または複数のプロセッサに以下のステップを有する動作を実行させるコンピュータ可読記憶媒体と、を有するコンピュータシステムであって、前記動作は、
    前記記憶装置に複数のデータの要素を含むデータの集合を記憶する記憶ステップと、
    前記複数のデータの要素におけるデータの要素の対の間の関係の種類と強さを前記コンピュータシステムによって決定するステップと、
    グラフにおいて前記データの要素の対を表す頂点の対の間の辺によって前記関係の種類と強さとを表すステップと、
    前記グラフについてコンピュータが受け取った入力クエリと関連し、前記入力クエリに対して必要な探索ステップの最小数を示す最小グラフ探索閾値を決定するステップと、
    前記グラフにおける第1の接続構成要素の探索ステップの数が、最小グラフ探索閾値以上であることを識別するステップであって、接続構成要素は1または複数の頂点の集合を含み、前記頂点は、互いに辺で接続されているが、前記集合の外側の頂点とは接続されていないステップと、
    前記グラフにおける第2の接続構成要素の探索ステップの数が前記最小グラフ探索閾値よりも小さいことを識別するステップと、
    前記第2の接続構成要素を前記グラフから剪定して前記第1の接続構成要素を有する第2のグラフを生成するステップと、
    前記入力クエリを第2のグラフ上で処理して前記データの集合から関心のある情報を抽出するステップと、
    を含む、グラフの剪定を行うためのコンピュータシステム。
  14. 前記第2の接続構成要素の探索ステップの数が最小グラフ探索閾値よりも小さいことを識別するステップは、前記1または複数の表で行なわれる1または複数の表動作を含む、請求項13に記載のコンピュータシステム。
  15. 前記データの集合内のそれぞれの要素は、前記記憶装置のなかの1または複数の表に格納され、
    前記要素は第1の識別子で識別され、
    前記グラフは、
    前記要素のうちの、前記頂点および/または前記辺の数が1となる要素以外の要素に対して第2の識別子を生成するステップと、
    前記第2の識別子を、前記第1の識別子がマッピングされているマッピング表内の前記第1の識別子にマッピングするステップ、
    によって作成される、請求項13に記載のコンピュータシステム。
  16. 前記動作は、
    前記グラフ内のそれぞれの頂点にラベルを割り当てることと、
    第1の頂点から第2の頂点へラベルを伝播させることと、
    同じラベルに関連する頂点の集合を識別することと
    をさらに含み、
    最小グラフ探索閾値より小さくなる接続構成要素を識別することは、識別された前記頂点の集合が前記最小グラフ探索閾値より小さいかどうかを判定することを含む、請求項13に記載のコンピュータシステム。
JP2015024809A 2014-02-19 2015-02-10 グラフを剪定する方法、前記グラフを剪定する方法をコンピュータに行なわせる命令を記録している非一時的なコンピュータ可読記憶媒体、及びグラフの剪定を行うためのコンピュータシステム Expired - Fee Related JP6457290B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/184,270 2014-02-19
US14/184,270 US9529833B2 (en) 2014-02-19 2014-02-19 Graph pruning in hipergraph

Publications (3)

Publication Number Publication Date
JP2015156216A JP2015156216A (ja) 2015-08-27
JP2015156216A5 JP2015156216A5 (ja) 2018-03-22
JP6457290B2 true JP6457290B2 (ja) 2019-01-23

Family

ID=52484341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015024809A Expired - Fee Related JP6457290B2 (ja) 2014-02-19 2015-02-10 グラフを剪定する方法、前記グラフを剪定する方法をコンピュータに行なわせる命令を記録している非一時的なコンピュータ可読記憶媒体、及びグラフの剪定を行うためのコンピュータシステム

Country Status (3)

Country Link
US (1) US9529833B2 (ja)
EP (1) EP2911107A1 (ja)
JP (1) JP6457290B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6777903B2 (ja) * 2017-11-30 2020-10-28 日本電信電話株式会社 探索装置、探索方法および探索プログラム
US20220229903A1 (en) * 2021-01-21 2022-07-21 Intuit Inc. Feature extraction and time series anomaly detection over dynamic graphs

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5701460A (en) * 1996-05-23 1997-12-23 Microsoft Corporation Intelligent joining system for a relational database
US6516310B2 (en) * 1999-12-07 2003-02-04 Sybase, Inc. System and methodology for join enumeration in a memory-constrained environment
US8312049B2 (en) * 2003-06-24 2012-11-13 Microsoft Corporation News group clustering based on cross-post graph
US9165042B2 (en) * 2005-03-31 2015-10-20 International Business Machines Corporation System and method for efficiently performing similarity searches of structural data
US20070179760A1 (en) * 2006-01-06 2007-08-02 Intel Corporation Method of determining graph isomorphism in polynomial-time
US7933915B2 (en) * 2006-02-27 2011-04-26 The Regents Of The University Of California Graph querying, graph motif mining and the discovery of clusters
US7716229B1 (en) * 2006-03-31 2010-05-11 Microsoft Corporation Generating misspells from query log context usage
US7818272B1 (en) * 2006-07-31 2010-10-19 Hewlett-Packard Development Company, L.P. Method for discovery of clusters of objects in an arbitrary undirected graph using a difference between a fraction of internal connections and maximum fraction of connections by an outside object
US8407214B2 (en) * 2008-06-25 2013-03-26 Microsoft Corp. Constructing a classifier for classifying queries
JP4876115B2 (ja) * 2008-11-07 2012-02-15 ヤフー株式会社 コンテンツ提示装置、コンテンツ提示方法及びプログラム
US20110131253A1 (en) * 2009-11-30 2011-06-02 Sap Ag System and Method of Schema Matching
JP2012098845A (ja) * 2010-10-29 2012-05-24 Rakuten Inc 情報処理装置、情報処理システム、情報処理プログラム、情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び情報処理方法
US9495477B1 (en) * 2011-04-20 2016-11-15 Google Inc. Data storage in a graph processing system
US8533182B1 (en) * 2012-05-31 2013-09-10 David P. Charboneau Apparatuses, systems, and methods for efficient graph pattern matching and querying
US8819078B2 (en) * 2012-07-13 2014-08-26 Hewlett-Packard Development Company, L. P. Event processing for graph-structured data
US9277439B2 (en) * 2013-06-28 2016-03-01 Intel Corporation Device-to-device contention management scheme for mobile broadband networks

Also Published As

Publication number Publication date
US9529833B2 (en) 2016-12-27
EP2911107A1 (en) 2015-08-26
JP2015156216A (ja) 2015-08-27
US20150234875A1 (en) 2015-08-20

Similar Documents

Publication Publication Date Title
Zakir et al. Big data analytics.
Ghazal et al. Bigbench: Towards an industry standard benchmark for big data analytics
US9965531B2 (en) Data storage extract, transform and load operations for entity and time-based record generation
Zhu et al. Unsupervised entity resolution on multi-type graphs
US20160004757A1 (en) Data management method, data management device and storage medium
US20150100543A1 (en) Data analysis method, data analysis device, and storage medium storing processing program for same
Agarwal et al. Approximate incremental big-data harmonization
US10579589B2 (en) Data filtering
CN112463991B (zh) 历史行为数据的处理方法、装置、计算机设备及存储介质
JP2015026188A (ja) データベース分析装置及び方法
US20150379166A1 (en) Model compilation for feature selection in statistical models
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN113722520A (zh) 图数据的查询方法及装置
KR101253335B1 (ko) 데이터 웨어하우스를 이용한 데이터베이스 구축 방법 및 그 시스템
JP6457290B2 (ja) グラフを剪定する方法、前記グラフを剪定する方法をコンピュータに行なわせる命令を記録している非一時的なコンピュータ可読記憶媒体、及びグラフの剪定を行うためのコンピュータシステム
US20170109652A1 (en) Common feature protocol for collaborative machine learning
JP6438295B2 (ja) ハイパーグラフソルバーのためのグラフ入力の自動編集
CN106991191B (zh) 商品筛选方法及装置、存储介质、电子设备
US11829921B2 (en) System and method for recommending demand-supply agent combination pairs for transactions using machine learning
US20170300937A1 (en) System and method for inferring social influence networks from transactional data
WO2016119508A1 (zh) 基于Spark系统的大规模对象识别方法
WO2016119276A1 (zh) 基于Hadoop框架的大规模对象识别方法
US10572926B1 (en) Using artificial intelligence to efficiently identify significant items in a database
Xylogiannopoulos et al. Clickstream analytics: an experimental analysis of the amazon users' simulated monthly traffic
JP6123372B2 (ja) 情報処理システム、名寄せ判定方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180208

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180208

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181220

R150 Certificate of patent or registration of utility model

Ref document number: 6457290

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees