JP2015162246A - グラフクラスタリングのための効率的なリンク管理 - Google Patents

グラフクラスタリングのための効率的なリンク管理 Download PDF

Info

Publication number
JP2015162246A
JP2015162246A JP2015026693A JP2015026693A JP2015162246A JP 2015162246 A JP2015162246 A JP 2015162246A JP 2015026693 A JP2015026693 A JP 2015026693A JP 2015026693 A JP2015026693 A JP 2015026693A JP 2015162246 A JP2015162246 A JP 2015162246A
Authority
JP
Japan
Prior art keywords
link
vertex
vertices
graph
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015026693A
Other languages
English (en)
Other versions
JP2015162246A5 (ja
JP6411911B2 (ja
Inventor
ダニエル・デイヴィス
Davies Daniel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2015162246A publication Critical patent/JP2015162246A/ja
Publication of JP2015162246A5 publication Critical patent/JP2015162246A5/ja
Application granted granted Critical
Publication of JP6411911B2 publication Critical patent/JP6411911B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

【課題】大きな任意のデータセットから関心のある情報を求めるためのグラフクラスタリング用リソースの管理を、効率的かつ正確に行う。
【解決手段】第1頂点と第2頂点との間のリンクの候補として、グラフ内の第1頂点と第2頂点とを識別する。第1頂点および第2頂点がデータセット内の要素を表し、リンクは、第1頂点と第2頂点との関係の種類および強度を示している。さらに、第1頂点に関連する第1のリンクカウントと第2頂点に関連する第2のリンクカウントとに基づいて、リンク指標を決定する。リンクカウントは、頂点の各リンクの重みの和を示している。また、リンク指標とリンク閾値との一致に基づいて、リンクによって第1頂点と第2頂点とを接続するか否かを決定する。このリンク閾値は、リンクを用いて2つの頂点を接続するか否かを決定するための測定値を表している。
【選択図】図2A

Description

本開示は、データ管理に関する。より具体的には、本開示は、関心のある情報を検出するための、効率的なデータ管理のための方法およびシステムに関する。
計算能力の急激な向上によって、関心のある情報、例えば、買物嗜好、ソーシャルメディア活動、医療情報照会、および電子メール通信パターンなどを、効率的なデータ解析を使用して抽出することが可能となっている。このようなデータ解析要求に伴って、効率的な計算に対する需要が増加してきた。この結果、機器ベンダーは、関心のある情報を効率的に算出するための、グラフクラスタリングなどの汎用機能を備えたより大規模でより高速なコンピュータ装置を競って製造している。しかしながら、コンピュータ装置の計算能力は無限に向上することができない。少しだけ例を挙げると、計算能力は、物理空間、消費電力、および設計の複雑性によって制限される。さらに、高い能力を有するコンピュータ装置は、通常、より複雑で高価である。より重要なことに、過度に大きくかつ複雑なコンピュータ装置は、多くの場合、経済的なメリットを提供しないため、コンピュータ装置の機能を単に向上させるだけでは、経済的に不利である。
この課題に対処する1つの方法は、大きな任意のデータセットから関心のある情報を抽出するために使用するデータ解析ツールの効率を向上させることである。そのような大きなデータセットのデータ解析効率を向上させると、解析ツールがより複雑化し、通常、大規模な現実の配備に適さなくなる。このため、効率的なデータ解析技術は、現実の配備を実行可能にする必要がある。
グラフクラスタリングは、大きなデータセットを解析するためのツールである。典型的には、データセット内の要素は頂点として表され、要素間の関係はグラフ内のリンク(エッジまたは接続と呼ぶことができる)として表される。グラフクラスタリングは、あるクラスタにおける頂点が、他のクラスタにおける頂点よりも互いに密に接続されるように、同様の要素のクラスタ(群)を求める。このように、データセットは、より抽象的なレベルで見ることができ、コンピュータ装置が関心のある情報を決定するのを可能にする。
グラフクラスタリングは、データ解析に多くの望ましい特徴をもたらすが、未解決の問題も残されている。つまり、大きな任意のデータセットから関心のある情報を求めるためのグラフクラスタリング用リソースの管理を、効率的かつ正確に行わなければならないということである。
本発明の一実施形態は、コンピュータシステムを提供する。コンピュータシステムは、プロセッサおよびメモリを含む。メモリは、プロセッサによって実行されるとプロセッサに方法を実行させる命令を記憶する。該方法は、第1頂点と第2頂点との間のリンクの候補として、グラフ内の第1頂点と第2頂点とを識別することを含む。第1頂点および第2頂点がデータセット内の要素を表し、リンクは、第1頂点と第2頂点との関係の種類および強度を示している。方法はさらに、第1頂点に関連する第1のリンクカウントと第2頂点に関連する第2のリンクカウントとに基づいて、リンク指標を決定することを含む。リンクカウントは、頂点の各リンクの重みの和を示している。方法はまた、リンク指標とリンク閾値との一致に基づいて、リンクによって第1頂点と第2頂点とを接続するか否かを決定することを含む。このリンク閾値は、リンクを用いて2つの頂点を接続するか否かを決定するための測定値を表している。
本実施形態の変形例においては、リンク指標は、(i)第1および第2のリンクカウントの関数であって、リンク閾値と数値的に同等な値を返す関数、および(ii)グラフの頂点群のリンクカウントの関数、のうち1つ以上である。前記関数は、前記リンク閾値と数値的に同等な1つ以上の値を返す。
本実施形態の変形例において、本方法はまた、第1および第2のリンクカウントの少なくとも1つが0であることに応答して、第1頂点と第2頂点とをリンクによって接続することを含む。
本実施形態の変形例において、本方法は、第1頂点と第2頂点とをリンクによって接続することに応答して、第1および第2のリンクカウントを増加させることを含む。
本実施形態の変形例では、本方法は、割り当てられたメモリのサイズに基づいてリンク閾値を決定することを含む。
さらなる変形例では、リンク閾値を決定することは、割り当てられたメモリのサイズからメモリオーバーヘッドのサイズを減算することにより、頂点メモリサイズを決定することと、頂点メモリサイズをグラフ内の頂点数で除算することにより、頂点当たりの平均メモリセグメントを決定することと、頂点当たりの平均メモリセグメントを2乗することと、を含む。
本実施形態の変形例において、本方法はまた、グラフ上でグラフクラスタリングに割り当てられたメモリサイズを高閾値または低閾値に制限することを含む。
さらなる変形例では、本方法は、変更されたメモリサイズのグラフに、適したグラフクラスタリング手法を適用することを含む。この変更されたメモリサイズが、低閾値よりも増大したメモリサイズまたは高閾値よりも減少したメモリサイズを示している。
図1Aは、本発明の一実施形態に係る、グラフクラスタリングに基づいて関心のある情報を効率的に検出するための例示的なシステムを示している。 図1Bは、本発明の一実施形態に係る、グラフクラスタリングのための例示的なグラフ還元を示している。 図2Aは、本発明の一実施形態に係る、接続性を確立するための頂点間の例示的なリンクを示している。 図2Bは、本発明の一実施形態に係る、頂点接続性のための例示的なリンク閾値計算を示している。 図3Aは、本発明の一実施形態に係る、頂点接続性のための関心情報検出システムのリンクカウント初期化処理を示すフローチャートである。 図3Bは、本発明の一実施形態に係る、頂点接続性のための関心情報検出システムのリンク閾値算出処理を示すフローチャートである。 図4は、本発明の一実施形態に係る、グラフクラスタリングのための関心情報検出システムのリンク形成処理を示すフローチャートである。 図5は、本発明の一実施形態に係る、データセットを表すグラフのための、関心情報検出システムのグラフクラスタリング手法選択処理を示すフローチャートである。 図6は、本発明の一実施形態に係る、例示的な関心情報検出システムを示している。
図面において、同様の参照符号は同一の図面要素を示している。
以下の説明は、当業者が本発明を作成し、使用できるようにするためのものであり、特定の用途およびその要件の文脈において提供される。開示された実施形態に対する種々の変形は当業者には容易に明らかであり、本明細書で定義される一般原理は、本発明の精神および範囲から逸脱することなく他の実施形態および用途に適用され得る。したがって、本発明は図示される実施形態に限定されるものではなく、特許請求の範囲に合致する最も広い範囲が認められるべきである。
本発明の実施形態では、大きいおよび/または任意のデータセットから関心のある情報を効率的に収集するという課題は、リソース効率的かつ扱いやすい方法でグラフクラスタリング用の頂点を接続することで解決する。大規模データセットは、意味のある情報を提供しないことが多い。例えば、小売店舗での買物履歴は、顧客の買物嗜好や同様の買物嗜好を持つ顧客などの、関心のある情報を直接的に示すことなく、データの任意のセットを提示することができる。関心のある情報を得る1つの方法は、データセット中の要素および要素間の相互関係を、それぞれグラフにおいて頂点およびリンクとして表し、これら頂点をクラスタリングすることである。頂点(および/または対応するリンク)をクラスタリングする1つの方法は、ある頂点の「ラベル」を別の頂点に伝搬することにより、同じラベルを持つ頂点のクラスタ(例えば、グループ)を形成することである。本開示では、用語「頂点識別子」は、グラフにおける頂点を識別するために使用することができる任意の値を指す。「ラベル」および「識別子」という用語は、互換的に使用されている。
既存のツールでは、グラフクラスタリングは多くの場合、効率的でなく、大規模になりすぎて、利用可能な計算資源および/または所望の時間的要件の範囲内で関心のある情報を得ることができない場合がある。結果として、グラフクラスタリングは、実行可能な方法で関心のある情報を得ることができない場合がある。例えば、そのようなツールは、保持するリンクを決定する前に、データセット中の要素を表す一方で全てのリンクを作成して格納することができない場合がある。これは、リンクを格納するのに十分なメモリがない場合があるからである。ツールが、複数のパスを用いてリンクを検査し、例示化することによってメモリ内の全てのリンクに関する情報を保持することを回避する場合であっても、結果として生じる計算は遅くなる。また、単純に一定のパターンでリンクを間引くことにより、またはランダムにリンクを省略することにより、分離された頂点を残す可能性がある。結果として、これらの分離された頂点はクラスタリングすることができない。
この問題を解決するために、ある条件に基づいて2つの頂点を接続し、リンク(エッジまたは接続と呼ぶこともできる)を形成することにより、冗長な、またはあまり重要でない(例えば、新たな情報をほとんど導入しない)リンクを破棄することができる。このようにして、軽く接続された頂点に取り付けられるリンクは、強く接続された頂点間のリンクを調整することによって維持することができる。一部の実施形態では、データセットから関心のある情報を得るためのシステムは、リンクカウントと各頂点とを対応付ける。リンクカウントは、その頂点のためのリンクの重みの合計を示す。各リンクの重みが1である場合には、頂点のリンクカウントは、その頂点のリンクの数を表している。頂点のこのリンクカウントは、新しいリンクがその頂点で確立されると、その新しいリンクの重み分だけ増分される(例えば、リンクが頂点に加算される)。リンクの重みが1である場合には、リンクカウントは1だけ増分される。
2つの頂点間のリンクを確立するために、システムは、2つの頂点のリンクカウントに基づいてリンク指標を計算する。一部の実施形態では、このリンク指標は、リンクカウントの積である。システムは、リンク指標がリンク閾値と一致するか否かに基づいて、2つの頂点を接続することを控える。このリンク閾値は、2つの頂点がリンクによって接続されるべきか否かを示す。例えば、対応するリンクカウントの積がリンク閾値よりも大きい場合、システムは、2つの頂点を接続することを控えることができる。このようにして、システムは、データセットを表すグラフのサイズを減少させ、それによって、メモリおよび計算にとって効率的な方法で、グラフから関心のある情報を得るためにグラフクラスタリングを行うことができる。
図1Aは、本発明の一実施形態に係る、グラフクラスタリングに基づいて関心のある情報を効率的に検出するための例示的なシステムを示している。図1Aに示されるように、関心情報検出システム130がネットワーク132に接続されている。システム130は、1つ以上のコンピュータ装置における、独立型または分散型アプリケーションまたはモジュールとすることができる。ネットワーク132の例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、またはインターネットが含まれるが、これらに限定されない。動作中、システム130は、情報を含む入力データを受信する。一部の実施形態では、システム管理者は、入力データをシステム130に提供する。入力データ内の情報の例には、買物取引、ソーシャルメディアメッセージ、医療情報照会の記録、および電子メールメッセージが含まれるが、これらに限定されない。システム130は、入力データから、関心のある情報と呼ぶことができる、推論の集合を生成することができる。関心のある情報の例としては、買物嗜好、ソーシャルメディア活動、照会(例えば、医療情報照会)、および電子メール通信パターンを挙げることができるが、これらに限定されない。
この例では、入力データは、人物110および人物120に関する情報が含まれる。人物110に関する情報は、属性112、114、および116を含む。人物120に関する情報は、属性122、124、および126を含む。一部の実施形態では、システム130は、ネットワーク132を介して、人物110がコンピュータ装置102を使用する間に属性112、114、および116を収集し、人物120がコンピュータ装置104を使用する間に属性122、124、および126を収集する。収集された属性に基づいて、システム130は、データセット100を生成する。尚、これらの属性は、コンピュータ装置102および104、または人物110および120と関連付けられなくてもよい(すなわち、データセット内の属性は、人や装置に対応せずに任意のものとすることができる)。一方、人物110および/または120の情報は、人物110および/または120がコンピュータ装置と対話しなくてもシステム130に入力することができる。例えば、システム130は、人物110および/または120が実在の店舗で買い物をしたり、医師によって照会されたり、または第三者のソーシャルメディア投稿または電子メールメッセージで言及されるときに、人物110および/または120に関する属性を含むことができる。システム130は、人物110の属性を表す頂点162と、人物120の属性を表す頂点164とを作成する。頂点162および164の間の関係の種類および強度に基づいて、システム130は、頂点162および164の間のリンク142および144を作成することができる。
このようにして、システム130は、任意の属性を有する任意のデータセット100を使用することができ、これらの属性と、対応する頂点およびリンクとを関連付ける。一部の実施形態では、データセット100は、構造化されたデータセットであり、データセット100は、頂点162および164、ならびに頂点162と164との間のリンク142および144を備えている。システム130も、同様に構造化データセットを直接受信することができ、このデータセットは属性に基づいて既に前処理されている。この際、頂点およびリンクが既に構築されているので、属性と、対応する頂点およびリンクとを関連付ける必要がない。例えば、異なる物理的または仮想システムが属性を処理して、構造化データセット100を生成し、この構造化データセット100をシステム130に供給することができる。システム130は、メモリ転送を介して(例えば、光ドライブまたはフラッシュドライブを介して)、またはネットワーク132を介して、入力されたデータ(および/またはデータセット100)を受信することができる。
頂点に関連付けられた属性を持つのとは異なり、システム130は、リンクを使用して頂点をクラスタリングする。属性間の各関係は、頂点間のリンクにマッピングされる。例えば、リンクは、「〜は・・・の友人である」、「〜は・・・の親である」、「ソース頂点が目的地頂点を購入した」、「2月に、ソースが目的地に電子メールを送信した」等の、頂点間の異なるタイプの関係を表すことができる。このようにして、2つの頂点は、それらの間の1つ以上の所望の関係に基づいて、共にクラスタリングすることができる。さらに、2つの頂点間のリンクは、これら頂点間の関係の強さを表す重みと関連付けることができる。図1Aの例では、リンク142は、属性112および124に基づいて、頂点162および164の間の関係をそれぞれ表している。同様に、リンク144は、属性114および126に基づいて、頂点162および164の間の関係をそれぞれ表している。リンク142によって表される関係がリンク144によって表される関係よりも強い場合、リンク142の重みがリンク144の重みを超えていてもよい。尚、低い重みがより強力な関係を表す場合には、リンク142の重みを、リンク144の重みよりも小さくすることができる。
リンク142および144の種類および重みに基づいて、システム130は、頂点162および164をグループにクラスタリングできる。このグループ化によって、データセット100を解釈可能に抽象化でき、関心のある所望の情報を表すことができる。データセット100は、小売店舗での買物履歴を含むものとする。頂点162は、人物110の買物取引(例えば、購入または返品)を表し、頂点164は、人物120の買物取引を表す。リンク142および144は、人物110および人物120の買物取引間の関係を表すことができる。例えば、リンク142および144は、取引の類似度(例えば、類似色、類似の衣類タイプ、類似ブランドの購入)と、購入の頻度(例えば、頻度、1年のうちどの時期に購入したか、販売イベントへの参加)とを表すことができる。頂点162および164をクラスタリングすることによって、システム130は、「何人の人が1年の特定の時期に特定のタイプの衣類を購入したか」、または「販売イベントでの販売価格がどの程度有効であったか」などの関心のある情報を提供することができる。
しかしながら、システム130は、保持するリンクを決定する前に、データセット100に関連付けられた関係を表す一方で全てのリンクを作成して格納することができない場合がある。これは、リンクを格納する十分なメモリがない場合があるからである。システム130が、複数のパスを用いてリンクを検査し、例示化することによってメモリ内の全てのリンクに関する情報を保持することを回避する場合であっても、結果として生じる計算は遅くなる。また、単純に一定のパターンでデータセット100に関連付けられたリンクを間引くことにより、またはランダムにリンクを省略することにより、分離された頂点を残す可能性がある。結果として、これらの分離された頂点はクラスタリングすることができない。例えば、システム130がリンク142および144をランダムに破棄すると、頂点162および164が分離されて、クラスタリングすることができなくなる。
この問題を解決するために、頂点162および164は、ある条件に基づいてリンク(例えば、リンク142または144)を形成するように接続することができる。これらリンクの1つは、冗長な、またはあまり重要でない(例えば、新たな情報をほとんど導入しない)場合がある。例えば、リンク142および144のいずれか一方のみで、頂点162と164との間の関係を十分に表すことができる。リンク142または144のうちの1つは、メモリに格納されているリンクの数を小さくするために破棄することができる。このようにして、軽く接続された頂点に取り付けられるリンクは、強く接続された頂点間のリンクを調整することによって維持することができる。一部の実施形態では、システム130は、それぞれのリンクカウントと頂点162および164とを関連付ける。このリンクカウントは、頂点のためのリンクの重みの合計を示す。各リンクの重みが1である場合には、頂点のリンクカウントは、この頂点のリンクの数を表している。頂点162で新たなリンクが確立されると、対応するリンクカウントは、そのリンクの重みだけ増分される。例えば、リンク142が頂点162と164との間に追加されると、頂点162および164のためのリンクカウントは、リンク142の重みだけ増分される。リンク142の重みが1である場合、頂点162および164のリンクカウントが1だけ増分される。
頂点162と164との間のリンクを確立するために、システム130は、頂点162および164のリンクカウントに基づいてリンク指標を計算する。一部の実施形態では、このリンク指標は、リンクカウントの積である。システム130は、リンク指標がリンク閾値と一致するか否かに基づいて、リンクによって頂点162および164を接続することを控える。例えば、対応するリンクカウントの積がリンク閾値よりも大きい場合、システム130は、リンクによって頂点162および164を接続することを控えることができる。このようにして、システム130は、データセットを表すグラフのサイズを縮小し、それによって、メモリおよび計算にとって効率的な方法で、グラフから関心のある情報を得るためにグラフクラスタリングを行うことができる。
図1Bは、本発明の一実施形態に係る、グラフクラスタリングのための例示的なグラフ還元を示している。この例では、データセット100はさらに、人物150に関する情報を含む。人物150に関する情報は、属性152、154、および156を含み、頂点166で表される。属性が人物110、120、および150の買物履歴を表しているものとする。例えば、属性112、114、および116は、それぞれ、人物110が赤い靴、青いシャツ、および黒い帽子を購入したことを示している。同様に、属性122、124、および126は、それぞれ、人物120が金のリング、赤い靴、および緑のシャツを購入したことを示している。属性152、154、および156は、それぞれ、人物150が電子書籍、スポーツ用品、および緑のシャツを購入したことを示している。システム130は、これらの属性を解析し、頂点162、164、および166によって人物110、120、および150の買物履歴をそれぞれ示している。
関心のある情報が類似の買物取引をした顧客である場合、リンクが人物110、120、および150の買物取引間の類似度を表すように、システム130は、頂点162、164、および166を接続することができる。例えば、人物110および120は、いずれも靴を購入しているため、システム130は、頂点162および164を接続して、対応するリンク142を作成することができる。同様に、人物120および150は、いずれもシャツを購入しているため、システム130は、頂点164および166を接続して、対応するリンク148を作成することができる。一部の実施形態では、システム130は、関係の強さに基づいて、リンクに対して重みを割り当てる。
頂点162、164、および166のうち任意の2つの頂点間のリンクを確立するために、システム130は、頂点162、164、および166リンクカウントに基づいてリンク指標を計算する。一部の実施形態では、このリンク指標は、リンクカウントの積である。システム130は、リンク指標がリンク閾値と一致するか否かに基づいて、2つの頂点を接続することを控える。例えば、対応するリンクカウントの積がリンク閾値よりも大きい場合、システム130は、リンクによって2つの頂点を接続することを控えることができる。
閾値を3とすると、各リンクの重みは1であり、リンク142および148のみが頂点162、164、および166の間で確立されている。リンク142および148のために、頂点164のリンクカウントは2であり、頂点162および166のリンクカウントはいずれも1である。人物110および150は、いずれもシャツを購入しているので、システム130は、リンクの候補として対応する頂点162および166を識別する。頂点162および166のリンクカウントの積は1であり、これは閾値未満である。結果として、システム130は、頂点162と166とを接続し、リンク146を確立する。そして、システム130は、頂点162および166のリンクカウントを、それぞれ2および2に増分する。
一方、人物110および120は、いずれもシャツを購入しているので、システム130は、リンクの候補として対応する頂点162および164を識別する。リンク146に対して増分された、頂点162および164のリンクカウントの積は4であり、これは閾値よりも大きい。結果として、システム130は、頂点162と164との間のリンク144を確立しない(破線で示される)。このようにして、システム130は、データセット100を表すグラフのサイズを減少させ、それによって、メモリおよび計算にとって効率的な方法で、グラフから関心のある情報を得るためにグラフクラスタリングを行うことができる。
図1Bの例では、システム130は、対応するリンク指標がリンク閾値に一致するか否かに基づいて、2つの頂点間のリンクを確立する。リンク指標は、2つの頂点間のリンクが確立されるべきか否かを示す測定値(例えば、値)を表す。リンク閾値は、2つの頂点がリンクによって接続されるべきか否かを決定するために、リンク指標の一致度を確認するための測定値を表す。図2Aは、本発明の一実施形態に係る、接続性を確立するための頂点間の例示的なリンクを示している。
動作中、関心情報検出システムは、データセットから頂点202、204、212、214、216、218、222、および224を形成(または受信)して、グラフ200を形成する。リンクカウントは、グラフ200の各頂点に関連付けられている。一部の実施形態において、新たなリンクが頂点に確立される(例えば、リンクが頂点に加えられる)度に、リンクカウントが0に初期化され、グラフ200において1とすることができる、この新たなリンクの重みだけ増分される。図1Bに関連して説明したように、データセット内の関係に基づいて、システムは、リンクの候補として2つの頂点を識別することができる。2つの頂点のリンク指標がリンク閾値と一致する場合、システムは、リンクとの接続性を確立する。一部の実施形態では、リンク指標は、対応するリンクカウントの積であり、リンク閾値は真に正の数である。各リンクカウントの積がリンク閾値を超える場合、リンクを2つの頂点間に追加することができない。このように、頂点の第1潜在的リンクは常に例示化することができる。これは、初期カウントである0と、任意の他のカウント値との積が、真に正である閾値よりも小さくなるためである。
高度に接続された数個の頂点を有することが好まれる場合、一部の実施形態では、頂点候補のいずれかについてのリンクカウントが0である場合には、システムは、2つの頂点間のリンクを確立する(すなわち、リンクを開始または生成する)。例えば、頂点212、214、および216が、頂点202に接続されているものとする。この場合、頂点202のリンクカウントは3である。動作中、システムは、リンクのための候補となる頂点202および218を識別する。そして、システムは、頂点218についてのリンクカウントを0に決定する。システムは、リンク閾値にかかわらず頂点218を頂点202に接続することができる。これにより、高度に接続された数個の頂点を形成することができる。
システムが頂点212、214、216、および218を頂点202に接続すると、頂点202のリンクカウントは4に増分される。これは、頂点202が4つのリンクを有することを示す。同様に、システムが頂点222および224を頂点204に接続すると、頂点204のリンクカウントは2に増分される。これは、頂点204が2つのリンクを有することを示す。システムが、リンク(点線で示される)に対する候補となる頂点202および204を識別すると、システムは、頂点202および204のリンク指標がリンク閾値に一致するか否かを確認する。リンク指標は、2つのリンクカウントの関数とすることができる。この関数は、リンク閾値と数値的に同等な値を返す。リンク指標の例には、頂点202および204の各リンクカウントの和、積、ならびに比が含まれるが、これらに限定されない。例えば、システムは、2つのリンクカウントのうち小さい方に対する、2つのリンクカウントのうち大きい方の比がリンク閾値を超えているか否かを確認して、2つの頂点を接続すべきかどうかを決定する。
図2Aの例では、リンク指標がリンクカウントの和であり、リンク閾値が7であるものとする。頂点202および204のリンクカウントは、それぞれ4および2である。システムは、頂点202および204の各リンクカウントを加算することにより(合計6)、頂点202および204のリンク指標を6と算出する。リンク指標が7未満なので、システムは、リンク210を介して頂点202および204を接続し、それらのリンクカウントをそれぞれ5および3に増分する。
図2Aの別の例では、リンク指標がリンクカウントの積であり、リンク閾値が7であるものとする。頂点202および204のリンクカウントは、それぞれ4および2である。システムは、頂点202および204の各リンクカウントを乗算することにより、頂点202および204のリンク指標を8と算出する。リンク指標が7よりも大きいので、システムは、頂点202および204を接続せず、それぞれのリンクカウントを保持する。
図2Aの別の例では、リンク指標は、2つのリンクカウントのうち小さい方に対する、2つのリンクカウントのうち大きい方の比であり、リンク閾値は7であるものとする。頂点202および204のリンクカウントは、それぞれ4および2である。システムは、4と2との比を計算することにより、頂点202および204のリンク指標を2と算出する。リンク指標が7未満なので、システムは、リンク210を介して頂点202および204を接続し、それらのリンクカウントをそれぞれ5および3に増分する。
一部の実施形態では、2つの頂点間の個々のリンクを確立するかどうかを独立して決定する代わりに、システムは、リンクがリンク/グループ指標に一致していれば、潜在的なリンクを、互いに素であるセットへ分割してセット内のリンクを接続する。例えば、リンク/グループ指標は、リンク閾値に一致したリンクのセットにおける、リンクのサブセットであってもよい。換言すれば、リンク/グループ指標は、グラフにおける頂点(すなわち、サブセット内のリンクに関連付けられた頂点)のグループのリンクカウントの関数である。この関数は、リンク閾値と数値的に同等な1つ以上の値を返す。このサブセットの例としては、サブセット内の全てのリンク、サブセット内のリンクのうち少なくとも1つ、サブセットの最も大きく重み付けされたリンク、およびこれらの組合せを含むが、これらに限定されない。システムはこの技術を使用してグラフの一部を接続または切断することができ、それにより、グラフの最終的なトポロジーを制御する何らかの方法をシステム(またはシステムのユーザ)に提供することができる。一部の実施形態では、グラフがハイパーグラフ(リンクが任意の数の頂点を接続可能なグラフ)である場合、この技術は、リンクを確立するかどうかを決定するために使用することができる。
2つの頂点がそれらの間にリンクを有するようになるかどうかは、それら頂点のリンク指標およびリンク閾値に依存する。図2Bは、本発明の一実施形態に係る、例示的なリンク閾値計算を示す。図2Bの例では、プロセッサとメモリとを備えたコンピュータ装置であってもよい、関心情報検出システム250は、データセットからグラフ200の頂点を形成する。システム250は、グラフ形成およびその後のグラフクラスタリングに関連する計算を実行する。一部の実施形態では、ユーザ(例えば、システム管理者)からの入力によって、システム250のメモリがどの程度コンピュータシステム専用になっているかを特定することができる。ユーザ入力の例としては、コマンド・ライン・インターフェース・コマンド、グラフィカルユーザインターフェース(GUI)入力、テキストファイル、およびスクリプトが挙げられるが、これらに限定されない。
ユーザからの指定に基づいて、システム250は、システム250のメモリからグラフメモリ260を割り当てることができる。グラフメモリ260は、関心のある情報の抽出に関連する計算を行うために使用することができる。一部の実施形態では、システム250は、グラフメモリ260からメモリオーバーヘッド262を識別する。オーバーヘッド262は、計算を行うための不可避なオーバーヘッドである。残りのメモリは頂点メモリ264と呼ぶことができ、典型的には頂点のクラスタリングに用いられる。システム250は、グラフメモリ260のサイズからオーバーヘッド262のサイズを減算して、頂点メモリ264のサイズを決定する。システム250は、頂点メモリ264のサイズを頂点の数(例えば、図2Aの例では8個)で除算して、頂点当たりの平均メモリセグメント266を推定する。
システムは、頂点当たりの平均メモリセグメント266のサイズに基づいてリンク閾値を決定する。一部の実施形態では、システムは、頂点当たりの平均メモリセグメント266のサイズ(すなわち、除算の結果)を2乗して、リンク閾値を取得する。閾値を決定するこの方法によって、頂点の対は、それら頂点が平均許容リンク数を有するまで接続される。この閾値によって、多数の頂点がそれぞれ、強く接続された頂点に対して1つのリンクを有することが可能になるが、この閾値は軽く接続された頂点間のリンクにとって有利である。
図2Aおよび図2Bの例では、関心情報検出システムは、リンクカウントと各頂点とを関連付け、リンク閾値を決定し、それぞれのリンクカウントに基づいて頂点対のリンク指標を算出し、リンク指標とリンク閾値との一致度に基づいて頂点間にリンクを確立すべきか否かを確認する。これらの動作に基づいて、システムは、データセットを表すグラフのサイズを減少させ、それによって、メモリおよび計算にとって効率的な方法で、グラフから関心のある情報を得るためにグラフクラスタリングを行うことができる。
図3Aは、本発明の一実施形態に係る、リンク/頂点接続性のための関心情報検出システムのリンクカウント初期化処理を示すフローチャートである。動作中、システムは、データセットを表す頂点を特定する(動作302)。図1Aの例では、システムは、販売活動のデータセットにおける顧客を識別し、その顧客を頂点として表している。システムは、リンクカウントを各頂点に関連付ける(動作304)。一部の実施形態において、リンクカウントは、カウンタ(例えば、整数)である。そして、システムは、各頂点のリンクカウントを初期化する(動作306)。一部の実施形態では、システムは、リンクカウントを0に初期化する。リンク指標が2つのリンクカウントの積である場合、0の初期値によって、リンクを有しない頂点が、他の頂点のリンクカウントにかかわらず、当該他の頂点に接続される。
図3Bは、本発明の一実施形態に係る、頂点接続性のための関心情報検出システムのリンク閾値算出処理を示すフローチャートである。動作中、システムは、グラフクラスタリングのために割り当てられたメモリを識別し、割り当てられたメモリのサイズを決定する(動作332)。一部の実施形態では、ユーザは、ユーザによって決定された特定のサイズのメモリを割り当てる。システムは次に、グラフクラスタリング計算に関連するメモリオーバーヘッドのサイズを決定する(動作334)。メモリオーバーヘッドは、グラフクラスタリングの非頂点に特有の動作に対応することができる。
図2Bに関連して説明したように、システムは、割り当てられたメモリサイズからメモリオーバーヘッドのサイズを減算して頂点メモリサイズを得る(動作336)。頂点メモリは、グラフクラスタリングの頂点に特有の動作のために使用することができる。システムは、グラフ内の頂点の数によって頂点メモリサイズを除算して、頂点当たりの平均メモリセグメントサイズを推定する(ステップ338)。システムは次に、図2Bに関連して説明したように、得られた頂点当たりの平均メモリセグメントサイズに基づいてリンク閾値を決定する(動作340)。一部の実施形態では、システムは、頂点当たりの平均メモリセグメントサイズ(すなわち、動作338での除算の結果)を2乗して、リンク閾値を取得する。
図4は、本発明の一実施形態に係る、グラフクラスタリングのための関心情報検出システムのリンク形成処理を示すフローチャートである。動作中、システムは、候補頂点対(つまり、ペア)の間のリンクを確立するために、候補頂点対を識別する(動作402)。図2Aに関連して説明したように、システムは、頂点対内の頂点のそれぞれのリンクカウントを取得し(動作404)、取得したリンクカウントに基づいてリンク指標を算出する(動作406)。リンク指標は、2つのリンクカウントの関数とすることができる。この関数は、リンク閾値と数値的に同等な値を返す。リンク指標の例には、得られたリンクカウントの和、積、および比が含まれるが、これらに限定されない。
システムは次に、リンク指標とリンク閾値とに基づいて、頂点対内の頂点間で接続性が許可されているか否かを判定する(動作408)。一部の実施形態において、リンク閾値は、ユーザが割り当てたメモリサイズに基づいて決定される。システムは、接続性が許可されているか否かを確認する(動作410)。接続性が許可されている場合、システムは、頂点の間に新たなリンクを加えることにより、頂点対内の頂点間の接続性を確立し(動作412)、その新たなリンクの重み分だけ、頂点対内の頂点の各リンクカウントを増分する(動作414)。新たなリンクの重みが1である場合、リンクカウントは1だけ増分される。接続性が許可されない場合、システムは、頂点対内の頂点間のリンクを確立しない(動作416)。
図2Bに関連して説明したように、大量のメモリが利用可能であり、ユーザがメモリ制限を極めて高く設定した場合、閾値が高くなる。結果として、より多くのリンクが頂点間で確立され(すなわち、破棄されるリンクはほとんどない)、グラフクラスタリングの精度が向上する。しかし、このような高精度のグラフクラスタリングでは、グラフクラスタリングに伴うグラフトラバースを実行するのに比較的長い時間がかかることがある。本発明の実施形態は、より少ないリンクが確立されるように(すなわち、より多くのリンクを破棄するように)人為的にメモリ制限を減少させることによってこの問題を解決する。システムによって、ユーザがメモリ制限を設定することができる。結果として、グラフクラスタリング精度が低下しても、グラフクラスタリング性能は向上する(例えば、高速収束)。これにより、ユーザは、低いメモリ制限で複数のグラフクラスタリング手法を比較的迅速に適用して、ユーザが特定のタイプのグラフクラスタリング手法を選択すると、精度を向上するためにメモリ制限を増加させることができる。
図5は、本発明の一実施形態に係る、データセットを表すグラフのための、関心情報検出システムのグラフクラスタリング手法選択処理を示すフローチャートである。動作中、システムは、1つ以上のグラフクラスタリング手法を含むリストを取得する(動作502)。一部の実施形態では、ユーザは、リストをシステムに提供する。システムは、グラフクラスタリングのために利用可能なメモリサイズに人為的に制限を設ける(動作504)。メモリ制限は、高閾値または低閾値を有することができる。人為的にメモリサイズを低閾値に制限することにより、精度低下と引き換えにグラフクラスタリング速度が向上する。一方、人為的にメモリサイズを高閾値に制限すると、性能低下と引き換えに精度が向上する。例えば、高閾値が利用可能なメモリの全てを表している場合、人為的にメモリサイズを高閾値に制限すると、メモリアクセスが遅くなる可能性がある。システムは、ユーザからメモリ制限と高閾値または低閾値とを得ることができる。そして、システムは、リストからグラフクラスタリング手法を選択して(動作506)、制限されたメモリサイズを有するデータセットを表すグラフに、選択されたグラフクラスタリング手法を適用する(動作508)。
システムは、リスト中の全ての手法が適用されているか否かを確認する(動作510)。全ての手法が適用されていない場合、システムは、リストから別のグラフクラスタリング手法を選択して(動作506)、制限されたメモリサイズを有するグラフに、選択されたグラフクラスタリング手法を適用する(動作508)。リスト中の全ての手法を適用した場合、システムは、得られたグラフのクラスタに基づいて、関心のある情報を得るのに適したグラフクラスタリング手法を選択する(動作512)。一部の実施形態では、ユーザが適切な手法を決定する。システムは次に、変更されたグラフクラスタリング精度のためにメモリサイズの制限を変更し(動作514)、メモリ制限が増加したグラフに、選択された適切なグラフクラスタリング手法を適用する(動作516)。この変更されたメモリサイズは、低閾値よりも増大したメモリサイズまたは高閾値よりも減少したメモリサイズを表すことができる。尚、メモリサイズを人為的に高閾値または低閾値に制限することは、他のグラフクラスタリング手法にも用いることができる。このような手法の例には、以下に限定されるものではないが、メモリサイズを低閾値に制限することによってシステムを迅速に検査すること、および、メモリサイズを低閾値に制限することによって迅速にグラフをクラスタに区画し、この低閾値よりメモリサイズを増加させることによって元のグラフの一部のクラスタをより正確に生成することが含まれる。
図6は、本発明の一実施形態に係る、例示的な関心情報検出システムを示している。一実施形態において、コンピュータおよび通信システム600は、関心情報検出システムとして動作する。コンピュータおよび通信システム600は、プロセッサ602、メモリ604、および記憶装置606を含む。記憶装置606は、関心情報検出アプリケーション608に加えて、アプリケーション610および612などの他のアプリケーションを記憶している。動作中、関心情報検出アプリケーション608は、記憶装置606からメモリ604にロードされ、プロセッサ602によって実行される。プログラムを実行しながら、プロセッサ602は上記の機能を実行する。コンピュータおよび通信システム600は、オプションの表示装置614、キーボード616、およびポインティングデバイス618に結合される。一部の実施形態では、関心情報検出アプリケーション608は、複数のコンピュータおよび通信システム上で実行することができる。これら複数のコンピュータおよび通信システムは、関心情報検出アプリケーション608に関連する動作の状態を記述するデータを交換することができる。
尚、上記モジュールは、ハードウェアと同様にソフトウェアで実装することができる。一実施形態では、これらのモジュールは、コンピュータおよび通信システム600内の1つ以上のプロセッサに結合されたメモリに記憶されているコンピュータ実行可能命令で具体化することができる。実行されると、これらの命令は、プロセッサ(単数または複数)に上述した機能を実行させる。
要約すると、本発明の実施形態は、関心のある情報を検出するためのコンピュータシステムおよび方法を提供する。一実施形態では、コンピュータシステムは、プロセッサおよびメモリを含む。メモリは、プロセッサによって実行されるとプロセッサに方法を実行させる命令を記憶する。該方法は、第1頂点と第2頂点との間のリンクの候補として、グラフ内の第1頂点と第2頂点とを識別することを含む。第1頂点および第2頂点がデータセット内の要素を表している。方法はさらに、第1頂点に関連する、頂点のリンクのそれぞれの重みの合計を示す第1のリンクカウントと、第2頂点に関連する第2のリンクカウントとに基づいて、リンク指標を決定することを含む。方法はまた、リンク指標とリンク閾値との一致に基づいて、リンクによって第1頂点と第2頂点とを接続するか否かを決定することを含む。リンク閾値が、リンクを用いて2つの頂点を接続するか否かを決定する。
本明細書に記載される方法およびプロセスは、コードおよび/またはデータとして具体化することができ、このコードおよび/またはデータは、コンピュータ読み取り可能な一過性の記憶媒体に格納することができる。コンピュータシステムが、コンピュータ読み取り可能な一過性の記憶媒体に記憶されたコードおよび/またはデータを読み出して実行すると、コンピュータシステムは、データ構造およびコードとして具体化されて媒体内に記憶された方法およびプロセスを実行する。
本明細書に記載される方法およびプロセスは、ハードウェアモジュールまたはハードウェア機器によって実行され、および/またはハードウェアモジュールまたはハードウェア機器に含むことができる。これらモジュールまたは機器は、以下に限定されないが、特定用途向け集積回路(ASIC)チップ、フィールドプログラマブルゲートアレイ(FPGA)、特定の時間に特定のソフトウェアモジュールまたは1つのコードを実行する専用または共用のプロセッサ、および/または現在既知であるか今後開発される他のプログラマブル・ロジック・デバイスを含むことができる。ハードウェアモジュールまたはハードウェア機器を起動するとき、それらは、ハードウェアモジュールまたはハードウェア機器に含まれる方法およびプロセスを実行する。

Claims (8)

  1. プロセッサと、
    前記プロセッサによって実行されると前記プロセッサに方法を実行させる命令を記憶しているメモリと、
    を備えるコンピュータシステムであって、前記方法が、
    グラフ内の第1頂点と第2頂点との間のリンクの候補として、前記第1頂点と前記第2頂点とを識別することであって、前記第1頂点と前記第2頂点とがデータセット内の要素を表し、前記リンクが、前記第1頂点と前記第2頂点との間の関係の種類および強度を表す、識別することと、
    前記第1頂点に関連する第1のリンクカウントと、前記第2頂点に関連する第2のリンクカウントとに基づいてリンク指標を決定することであって、リンクカウントは、頂点のリンクのそれぞれの重みの合計を示す、決定することと、
    リンクを用いて2つの頂点を接続するか否かを決定するための測定値を表すリンク閾値と、前記リンク指標との一致に基づいて、前記第1頂点と前記第2頂点とを接続するか否かを決定することと、
    を含む、コンピュータシステム。
  2. 前記リンク指標は、
    前記リンク閾値と数値的に同等な値を返す、前記第1および第2のリンクカウントの関数、および
    前記リンク閾値と数値的に同等な1つ以上の値を返す、前記グラフの頂点群のリンクカウントの関数のうちの1つ以上である、請求項1に記載のコンピュータシステム。
  3. 前記方法はさらに、前記第1および第2のリンクカウントの少なくとも1つが0であることに応答して、前記第1頂点と前記第2頂点とをリンクによって接続することを含む、請求項1に記載のコンピュータシステム。
  4. 前記方法はさらに、前記第1頂点と前記第2頂点とをリンクによって接続することに応答して、前記第1および第2のリンクカウントを増加させることを含む、請求項1に記載のコンピュータシステム。
  5. 前記方法はさらに、割り当てられたメモリのサイズに基づいて前記リンク閾値を決定することを含む、請求項1に記載のコンピュータシステム。
  6. 前記リンク閾値を決定することは、
    前記割り当てられたメモリのサイズからメモリオーバーヘッドのサイズを減算することにより、頂点メモリサイズを決定することと、
    前記頂点メモリサイズを前記グラフ内の頂点の数で除算することにより、頂点当たりの平均メモリセグメントを決定することと、
    前記頂点当たりの平均メモリセグメントを2乗することと、
    を含む、請求項5に記載のコンピュータシステム。
  7. 前記方法はさらに、前記グラフ上のグラフクラスタリングに割り当てられたメモリサイズを、高閾値または低閾値に制限することを含む、請求項1に記載のコンピュータシステム。
  8. 前記方法はさらに、前記低閾値より増大したメモリサイズまたは前記高閾値よりも減少したメモリサイズを表す変更されたメモリサイズを有する前記グラフに、適切なグラフクラスタリング手法を適用することを含む、請求項7に記載のコンピュータシステム。
JP2015026693A 2014-02-26 2015-02-13 コンピュータ実行可能な方法、前記方法を行わせる命令を記憶している非一時的なコンピュータ可読記憶媒体、及び前記方法を行なうためのコンピュータシステム Expired - Fee Related JP6411911B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/191,224 2014-02-26
US14/191,224 US9529935B2 (en) 2014-02-26 2014-02-26 Efficient link management for graph clustering

Publications (3)

Publication Number Publication Date
JP2015162246A true JP2015162246A (ja) 2015-09-07
JP2015162246A5 JP2015162246A5 (ja) 2018-03-29
JP6411911B2 JP6411911B2 (ja) 2018-10-24

Family

ID=52473790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015026693A Expired - Fee Related JP6411911B2 (ja) 2014-02-26 2015-02-13 コンピュータ実行可能な方法、前記方法を行わせる命令を記憶している非一時的なコンピュータ可読記憶媒体、及び前記方法を行なうためのコンピュータシステム

Country Status (3)

Country Link
US (1) US9529935B2 (ja)
EP (1) EP2913760A1 (ja)
JP (1) JP6411911B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017162237A (ja) * 2016-03-10 2017-09-14 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2019071102A (ja) * 2016-03-10 2019-05-09 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2019159934A (ja) * 2018-03-14 2019-09-19 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467528B2 (en) * 2015-08-11 2019-11-05 Oracle International Corporation Accelerated TR-L-BFGS algorithm for neural network
US10585944B2 (en) 2017-07-06 2020-03-10 International Business Machines Corporation Directed graph compression
US11971824B2 (en) * 2019-10-28 2024-04-30 Aetherai Ip Holding Llc Enhancing memory utilization and throughput in executing a computational graph

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005148843A (ja) * 2003-11-11 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類システムおよび方法、コンピュータプログラムおよび記録媒体
JP2008059442A (ja) * 2006-09-01 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JP2008203964A (ja) * 2007-02-16 2008-09-04 Nec Corp 因果関係分析装置、因果関係分析方法及びプログラム
US20110173264A1 (en) * 2009-12-18 2011-07-14 Morningside Analytics, Llc System and Method for Attentive Clustering and Analytics
US20120011591A1 (en) * 2010-07-06 2012-01-12 Graham Cormode Anonymization of Data Over Multiple Temporal Releases

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071595A1 (en) * 2003-09-25 2005-03-31 International Business Machines Corporation Methods and apparatus for allocating memory
US20100083194A1 (en) * 2008-09-27 2010-04-01 Yahoo! Inc. System and method for finding connected components in a large-scale graph
US20130325408A1 (en) * 2011-01-28 2013-12-05 Schlumberger Technology Corporation Two dimensional nmr of diffusion and relaxation for material characterization
EP2729883B1 (en) * 2011-07-08 2021-12-29 Yale University Query execution systems and methods
US9400834B2 (en) * 2013-12-06 2016-07-26 Palo Alto Research Center Incorporated Efficient detection of information of interest using mode-based graph clustering
US9529887B2 (en) * 2013-12-10 2016-12-27 Palo Alto Research Center Incorporated Efficient detection of information of interest using greedy-mode-based graph clustering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005148843A (ja) * 2003-11-11 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類システムおよび方法、コンピュータプログラムおよび記録媒体
JP2008059442A (ja) * 2006-09-01 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JP2008203964A (ja) * 2007-02-16 2008-09-04 Nec Corp 因果関係分析装置、因果関係分析方法及びプログラム
US20110173264A1 (en) * 2009-12-18 2011-07-14 Morningside Analytics, Llc System and Method for Attentive Clustering and Analytics
US20120011591A1 (en) * 2010-07-06 2012-01-12 Graham Cormode Anonymization of Data Over Multiple Temporal Releases

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017162237A (ja) * 2016-03-10 2017-09-14 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2019071102A (ja) * 2016-03-10 2019-05-09 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2019159934A (ja) * 2018-03-14 2019-09-19 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
JP7006403B2 (ja) 2018-03-14 2022-01-24 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置

Also Published As

Publication number Publication date
US20150242532A1 (en) 2015-08-27
US9529935B2 (en) 2016-12-27
EP2913760A1 (en) 2015-09-02
JP6411911B2 (ja) 2018-10-24

Similar Documents

Publication Publication Date Title
JP6411911B2 (ja) コンピュータ実行可能な方法、前記方法を行わせる命令を記憶している非一時的なコンピュータ可読記憶媒体、及び前記方法を行なうためのコンピュータシステム
US9400834B2 (en) Efficient detection of information of interest using mode-based graph clustering
WO2019105163A1 (zh) 目标人物的搜索方法和装置、设备、程序产品和介质
US9529887B2 (en) Efficient detection of information of interest using greedy-mode-based graph clustering
JP2018190450A (ja) 基数推定を介した結合パスの効率的な判定
CN104077723B (zh) 一种社交网络推荐系统及方法
WO2016045489A1 (zh) 云环境下的虚拟机负载评估系统、方法以及服务节点
JP6311851B2 (ja) 共クラスタリングシステム、方法およびプログラム
CN108985954A (zh) 一种建立各标识的关联关系的方法以及相关设备
US20210042287A1 (en) Detecting positivity violations in multidimensional data
US20220156324A1 (en) Graph refactorization method and graph refactorization apparatus
WO2020119627A1 (zh) 应用于分布式容器云平台的异常检测与定位方法及装置
CN116362737B (zh) 账号聚类方法及装置、计算机可读存储介质、终端
TWI716117B (zh) 具有多種資源類型的資源分配方法和裝置
US11205092B2 (en) Clustering simulation failures for triage and debugging
US12026664B2 (en) Automatically generating inventory-related information forecasts using machine learning techniques
US20220366300A1 (en) Data drift mitigation in machine learning for large-scale systems
US11461676B2 (en) Machine learning-based recommendation engine for storage system usage within an enterprise
JP6462611B2 (ja) 生成装置、生成方法、及び生成プログラム
CN110264333A (zh) 一种风险规则确定方法和装置
US20230130136A1 (en) Calculating numbers of clusters in data sets using eigen response analysis
KR102469117B1 (ko) 데이터 클러스터링에 기반한 부동산 매물의 위험도 분석 방법
US20240135229A1 (en) Movement of operations between cloud and edge platforms
CN115985496A (zh) 一种基于联邦学习的可解释性疾病风险预测方法及装置
CN109685132B (zh) 基于二部图的标签传播方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180208

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180208

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180927

R150 Certificate of patent or registration of utility model

Ref document number: 6411911

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees