JP2012198873A - データセットからの情報取得方法およびシステム - Google Patents

データセットからの情報取得方法およびシステム Download PDF

Info

Publication number
JP2012198873A
JP2012198873A JP2011262268A JP2011262268A JP2012198873A JP 2012198873 A JP2012198873 A JP 2012198873A JP 2011262268 A JP2011262268 A JP 2011262268A JP 2011262268 A JP2011262268 A JP 2011262268A JP 2012198873 A JP2012198873 A JP 2012198873A
Authority
JP
Japan
Prior art keywords
subgraph
inference
subgraphs
nodes
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011262268A
Other languages
English (en)
Inventor
Yu Zhao
ユウ ジャオ
Jianqiang Li
ジェンチャン リイ
Bo Liu
ボ リウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Publication of JP2012198873A publication Critical patent/JP2012198873A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 本発明は、データセットからの情報取得方法およびシステムを提供する。
【解決手段】 この情報取得方法は、データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するステップと、サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも1つに対して推論を実行するステップとを含む。この方法によれば、グラフのクラスタ化は、事前定義されたモデルを必要としない無監視方式で実行されるため、柔軟性と適応性がきわめて高い。さらに、クラスタ化によって得られる各サブグラフ内のノード数とノード間関係数は少ないため、推論の規模を容易に制御できるので、推論の効率が向上する。
【選択図】 図2

Description

本発明は、インテリジェントデータ解析技術の分野に関し、特に、データセットからの情報取得方法およびシステムに関する。
情報技術とネットワーク技術の発達に伴い、データや情報のリソースはその種類も量も増加の一途を辿っている。W3Cは、情報の効果的な管理を目指し、これらのリソースの記述方法としてRDF(resource description framework)を提案した。
RDFの定義によると、データまたはリソースは、主語、術語、目的語から成る3つ組によって表現される。ここで、主語と目的語はデータまたはリソースを表し、術語は主語と目的語との関係を表す。例えば、instanceOf(X,著者)、instanceOf(Y,論文)、hasPaper(X,Y)およびトピック(Y,D)という3つ組があるとすると、これらはそれぞれ、Xは著者であり、Yは論文であり、著者Xは論文Yの著者であり、Dは論文Yのトピックであることを表している。
このような3つ組をベースとして、論理型言語で規則(公理)を記述すれば、この規則を使用した自動推論処理を実行することができる。規則のインスタンスは「hasPaper(X,Y)AND Topic(Y,D)−>author(X,D)」であり、これは「著者Xが論文Yの著者であり、論文YのトピックがDであるなら、著者XはトピックDの著者であるか、またはトピックDの専門家である」ことを示す。こうした叙述メカニズムによって自動推論が可能になるので、3つ組と規則に基づいて、インテリジェントで意味的な情報検索とマイニングを実現することができる。
大規模でかつWebスケールのデータに対する推論の効率性を確保するのは、困難な課題である。さらにこの問題は、実際の情報処理に意味的推論を広く応用する上でも障壁となっている。
この問題に関連して、当該技術ではこれまでいくつかの解決法が提案されている。その1つは特許文献1(米国特許第US76895262B2号)である。この解決法によれば、まずデータが既存の知識規則に基づいて分類され、その後これらの知識規則が、分類済みのデータに基づいて圧縮モデルによって表現される。この解決法は、圧縮モデルによって表現された規則を使って、推論の効率性を向上させることを目指すものである。
さらに、非特許文献1(E.AmirおよびS.McIlraith「Partition−based Logical Reasoning(パーティションベースの論理推論)」(2000))でも、解決法が提案されている。この解決法は、規則セットを解析に基づいて推論用にパーティション化することによって、推論の効率性を高めようとするものである。
上記2つの解決法はいずれも、規則の前処理によって推論の効率性を高めるので、規則ベースの技術に属する。ただし、規則は特定の状況にしか適用できない(例:クエリ依存)のが一般的なので、これら2つの解決法は適応性と柔軟性が乏しいという欠点を有する。その上、データが大量な場合は、たとえ1つの規則であっても、推論にかなりの時間が掛かってしまう。そのため、これら2つの解決法は効率性の向上において効果は少ないと言える。
さらに、非特許文献2(Y.Zeng、Y.Wang,Z.HuangおよびN.Zhong「Unifying Web−Scale Search and Reasoning from the Viewpoint of Granularity(粒度の観点からのWebスケールの検索および推論の統合)」Lecture Notes in Computer Science(2009,Vol.5820,pages 418−429))では、モデルベースのノードグループ化技術の解決法が開示されている。説明のため、図1A〜1Cに、この技術的解決法の原理の概略図を示す。
図1Aに示すように、この技術的解決法によれば、1つのデータセットは複数のノードと複数のエッジで構成される1つのグラフで示される。ここで、ノードはデータまたはリソース(例:RDFの主語と目的語)を表し、エッジはデータ間またはリソース間の関係(例:RDFの述語)を表す。説明を明快にするため、図1Aでは、上記の3つ組の例における著者、論文、トピックはそれぞれ円形ノード、四角ノード、三角ノードで表す。また、円形ノードと四角ノード間のエッジ(リンク)は関係「hasPaper(論文を有する)」を表し、四角ノードと三角ノード間のエッジ(リンク)は関係「hasTopic(トピックを有する)」を表す。
次に、図1Bに示すように、事前に確立されたノードグループ化モデルに基づいて、グラフ内のノードに対してグループ化操作を実行することにより、ランク付けされたノードグループのリストが取得される。ノードグループのリストは、例えば著者の論文数に基づいて、論文数が多い順にランク付けされる。次に、図1Cに示すように、第1、第2、第3の推論トランザクションそれぞれにおいて、各ノードグループの順位に基づき、各ノードグループに対して推論が実行される。推論範囲には、1つの対応するノードグループと、そのノードグループに連結された他のすべてのノードと、これらのノード間のエッジとが含まれる。
この技術的解決法は、事前に確立されたノードグループ化モデルを使用してデータを前処理するため、この事前に確立されたノードグループ化モデルに大きく依存する。そのため、この解決法は柔軟性にやや劣り、動的なクエリ需要には適していない。加えて、この解決法は、ノードのグループ化によって推論の規模を制限しているとはいえ、その対象は推論をトリガするノード数のみである。しかし、ノード間には複雑な関係も大量に存在しているため、実際には推論の規模を効果的に制御することは不可能である。その上、この技術的解決法では、各推論トランザクションも反復的なノードを大量に含んでいるので、推論モデルの制御効果はさらに低下する。
したがって、当該技術のデータ解析処理で採用される推論手法を改良することが火急の課題となっている。
米国特許第US76895262B2号
E.AmirおよびS.McIlraith「Partition−based Logical Reasoning(パーティションベースの論理推論)」(2000) Y.Zeng、Y.Wang,Z.HuangおよびN.Zhong「Unifying Web−Scale Search and Reasoning from the Viewpoint of Granularity(粒度の観点からのWebスケールの検索および推論の統合)」Lecture Notes in Computer Science(2009,Vol.5820,pages 418−429)
上記を踏まえて、本発明は、従来技術の欠点を克服するか、少なくとも一部を除去するために、データセットからの情報取得方法およびシステムを提供する。
本発明の1つの態様によれば、データセットからの情報取得方法が提供される。この方法は、データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するステップと、サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも1つに対して推論を実行するステップとを備えることができる。
本発明の1つの実施例によれば、この方法は、個々のサブグラフの重要度に基づいて、取得された複数のサブグラフをランク付けするステップをさらに備える。この実施例においては、推論は複数のサブグラフの順位に基づいて順に実行される。
本発明の1つの実施例によれば、個々のサブグラフの重要度は、サブグラフの密度、サブグラフの独立度、およびサブグラフの階層レベルのうち1つ以上によって測定される。
本発明の他の実施例によれば、この方法は、1つのサブグラフ内での推論から結果が得られなかった場合に、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論を実行するステップを備える。
本発明のさらに他の実施例によれば、他のサブグラフ内の当該サブグラフにリンクされたノードは、サブグラフの順位、サブグラフ内に欠けているノード関係タイプ、ノード間関係の優先順位のうち1つに基づいて選択される。
本発明のさらに他の実施例によれば、この方法は、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して実行された推論の結果が得られたら、当該サブグラフと他のサブグラフをマージして新たなサブグラフを形成するステップと、この新たなサブグラフ内で推論を実行するステップとをさらに備える。
本発明のさらに他の実施例によれば、この方法は、将来の使用のためにこの新たなサブグラフを保存するステップをさらに備える。
本発明の他の態様によれば、データセットからの情報取得システムが提供される。このシステムは、データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するように構成されたクラスタ化手段と、サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも1つに対して推論を実行するように構成された推論手段とを備えることができる。
本発明によれば、グラフのクラスタ化は、事前定義されたモデルを必要としない無監視方式で実行されるため、柔軟性と適応性がきわめて高い。さらに、サブグラフ範囲内で推論が実行されるため、クラスタ化によって得られた各サブグラフ内のノード数とノード間関係数がいずれも少なく、クラスタ化によって得られた各サブグラフ内には反復的なノードも関係も存在しない。そのため、本発明の実施例によれば、推論の規模を容易に制御できるので、推論の効率が向上する。
本発明の上記および他の特徴は、本発明の添付図面を参照して行われる実施例の詳細な説明から、さらに明らかになるであろう。なお、添付図面においては、同じ記号は同じまたは類似した構成要素を示す。
従来技術による、データセットからの情報取得のための技術的解決法を示す。 従来技術による、データセットからの情報取得のための技術的解決法を示す。 従来技術による、データセットからの情報取得のための技術的解決法を示す。 本発明の一実施例によるデータセットからの情報取得方法のフローチャートである。 本発明の原理の概略図である。 本発明の他の実施例によるデータセットからの情報取得方法のフローチャートである。 本発明の好適な実施例による、サブグラフ調整原理の図である。 本発明の一実施例によるデータセットからの情報取得システムのブロック図である。
以下では、本発明によるデータセットからの情報取得方法およびシステムについて、好適な実施例を通して添付図面を参照しながら詳細に説明する。
まず、図2〜5を参照して、本発明で提供される方法について説明する。図2は、本発明の一実施例によるデータセットからの情報取得方法のフローチャートである。
図2に示すように、まずステップ201において、データセットを表すグラフがクラスタ化され、複数のサブグラフが取得される。このグラフは、データを表すノードとノード間の関係を表すエッジとで構成される。
クラスタ化はグラフ理論において最も重要な技術の1つであり、その目的は、グラフのノードと関係をグループ化して複数のクラスタにすることにある。グラフクラスタ化の大まかな考え方は、グラフ内のエッジ(関係)構造に基づいてクラスタ化することにより、各クラスタの内部関係が2つのクラスタ間の関係よりも近くなるようにする、ということである。この目的のため、本発明の発明者はグラフクラスタ化技術をインテリジェントデータ解析の分野に応用し、クラスタ化技術を使用してデータセットを表すグラフを複数のサブグラフにパーティション化することとした。
本発明の原理の概略図を図3に示す。図3に示すように、本発明においてデータセットは、ノードがデータを表し、ノード間のリンクまたはエッジがノード間の関係を表すように構成された、グラフによって表される。クラスタ化は、グラフクラスタ化技術に基づいてデータセットを表すグラフに対して実行され、それによりグラフは、図3の点線の円で示される複数のサブグラフ(クラスタ)にクラスタ化される。
データセットを表すグラフは、記憶手段に格納してもよい。例えば、ノードは[ノードID,ノード名]のような形式でノード記憶手段に格納し、ノード間の関係は[関係ID,関係名,主語ノードID,目的語ノードID]のような形式でノード関係記憶手段に格納し、クラスタ化によって得られたサブグラフまたはクラスタは[サブグラフID,ノードリスト,関係リスト]のような形式でサブグラフ記憶手段に格納することができる。
データセットを表すグラフのクラスタ化は、既知のあるいは将来開発されるグラフクラスタ化方法を使用して実行できる。例えば、コネクティビティベースのグラフクラスタ化アルゴリズムを採用してもよい。このアルゴリズムでは、各ノードペア間に存在するパス数をクラスタ化の指標として使用することができ、同じクラスタに属するノードには高いコネクティビティが付与される。
本発明のある特定の実施例によれば、HCS(high connectivity sub−graph)アルゴリズムが採用され、エッジのコネクティビティしきい値kとして設定される。その後、グラフGに対して最小カットアルゴリズムが実行され、グラフが2つのサブグラフH、H’に分割される。グラフGのエッジコネクティビティがコネクティビティしきい値kよりも高い場合、グラフGが分類済みクラスタとして返される。しきい値kよりも低い場合、サブグラフHおよびH’が新たな入力として使用され、次の反復処理が実行される。この処理は、取得されたサブグラフのコネクティビティがしきい値kを上回るまで連続的に反復される。このようにして、高い内部相関関係を有する複数のサブグラフが得られる。前述したように、取得されたサブグラフはサブグラフ記憶手段に格納することができる。
さらに、サブグラフは、階層的クラスタ化を使用して、グローバルレベルの階層構造に編成される。例えば、HCSアルゴリズムを採用する場合であれば、複数のエッジコネクティビティしきい値を設定して、低いしきい値を高いレベルのクラスタに適用し、高いしきい値を低いレベルのクラスタに適用するようにしてもよい。こうしたクラスタ化により、階層構造を有する複数のサブグラフが得られる。
その後、ステップS202において、サブグラフの範囲内において、取得された複数のサブグラフの少なくとも1つに対して推論が実行される。推論で使用される推論規則は、例えば、[規則ID,規則文]のような形式で規則(公理)記憶手段に格納してもよい。各サブグラフ内での推論は、従来技術の方法を用いて実行できる。煩雑化を避けるため、ここでは推論の具体的な詳細については省略する。
本発明の実施例によれば、データセットを表すグラフのグループ化は、事前定義されたグループ化モデルから独立したグラフクラスタ化技術に基づいて、無監視方式で自動的に実行される。そのため、本発明は高い柔軟性と高い適応性を有する。加えて、本発明では、グラフクラスタ化技術をベースとするグループ化が実行される。各グループに含まれるノードと関係のいずれも少数なので、推論の効率性は高まり、推論の規模もより良好に制御することができる。
図4は、本発明の他の実施例による方法のフローチャートである。図4のステップS401およびS402は、実質的には図2のステップS201およびS202に対応するので、ここでは詳述しない。図4の実施例は、ステップS402の前にステップS403を備える点が図2の実施例とは異なる。ステップS403において、取得された複数のサブグラフはさらに、個々のサブグラフの重要度に基づいてランク付けされる。この順位は、サブグラフに対する推論の順序を決定するために使用される。
本発明によれば、複数のサブグラフが取得された後、サブグラフは1つずつ推論に付される。ただし、検索等のオンラインアプリケーションでの用途においては、システム応答時間が必ず設定されている。この限られた応答時間内に推論を行うには、サブグラフの推論を重要度の高い順に行うのが有利である。
この目的のため、本発明の好適な実施例によれば、クラスタ化によって得られたサブグラフは、重要な情報を含むサブグラフが高い順位になるようにランク付けされる。サブグラフの順位に基づいてサブグラフを並べ替えれば、応答時間の終了時に最も効果的な結果が返されるようにすることができる。
重要度の指標としては、例えばサブグラフの内部特徴を使用することができる。通常、サブグラフは密度と独立度が高いほど効果的な結果をもたらすので、このようなサブグラフは他のサブグラフよりも重要とみなされる。
本発明の1つの実施例においては、1つのサブグラフの他のサブグラフからの独立度が、サブグラフのランク付けの基礎として選択される。この独立度は、例えば伝導度(コンダクタンス)によって測定される。サブグラフSの伝導度Φ(S)は、以下の式で計算することができる。
Figure 2012198873

ここで、Gはグラフ全体、Sはサブグラフ、G\SはサブグラフSを除去した後のグラフGの残余部分を示す。また、c(S、G\S)はサブグラフSと残余部分G\S間のカットサイズ、すなわち、SとG\S間のエッジ数を示す。deg(S)はサブグラフSの度数、すなわち、そのサブグラフ内のエッジ数である。サブグラフは伝導度Φ(S)に基づいてランク付けすることができ、この場合は、サブグラフの伝導度が小さい(すなわち、独立度が高い)ほど高い順序になり、サブグラフの伝導度が大きい(すなわち、独立度が低い)ほど低い順序になる。
さらに、密度と独立度(すなわち、相対密度)も、ランク付けの指標として使用することができる。サブグラフSの相対密度ρ(S)は、例えば、以下の式で計算することができる。
Figure 2012198873

ここで、式(1)と同様に、Sはサブグラフ、G\SはSを除去した後のグラフGの残余部分を示す。また、deg(S)とc(S,G\S)はそれぞれ、サブグラフSの度数、およびサブグラフSと残余部分G\S間のカットサイズをそれぞれ示す。相対密度を採用する場合は、サブグラフは相対密度が高いほど高い順位になり、相対密度が低いほど低い順位になる。
また、階層的クラスタ化が採用されている場合には、個々のサブグラフの階層レベルに基づいて、さらにランク付けが実行される。例えば、低い階層レベルに属するサブグラフは、高い階層レベルのサブグラフよりも上位にランク付けされる。
このようにして、ステップS402において、複数のサブグラフに対してサブグラフの順位に基づいて1つずつ推論が実行され、推論の総時間が限界に到達するまで、もしくはすべてのサブグラフの推論が完了するまでこれが継続される。これにより、推論の終了時には、最も重要な推論結果をユーザに返すことが可能になる。
また、ステップS402で1つのサブグラフにおける推論から結果が得られなかった場合には、ステップ404において、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論が実行される。
ここで留意すべきは、前述したようにグラフクラスタ化をベースとする推論では推論の規模が効果的に制限されるが、一部のノード間の関係が切断されてしまうことである。ある特定の状況では、クラスタ化により推論のために重要な関係が切断される可能性がきわめて高く、設定されている推論規則の如何によっては、一部のサブグラフで推論結果が導出されないという結果になりうる。
こうした状況を念頭に、本発明では効果的な推論結果を得るために、重要度の高いサブグラフについては、他のサブグラフ内の当該サブグラフに連結されたノードを考慮して推論を実行するのが望ましい。さらに、これらのノードを考慮することで効果的な推論結果が得られる場合には、当該サブグラフにこれらのノードを組み込んで、以降の推論で使用できるようにするとよい。あるいは、ステップS405において、当該サブグラフを、これらのノードが属するサブグラフと結合して新たなサブグラフを形成し、ステップS406においてその新たなグラフに対して推論を実行することによっても、効果的な推論結果が得られる可能性がある。加えて、結合によって得られた新たなサブグラフは、対応する推論規則を使用した将来の推論に備えて、保存しておくこともできる。
本発明の1つの実施例によれば、サブグラフC1の範囲内での推論から得られた推論結果が空だった場合(すなわち、推論から結果が得られなかった場合)には、他のサブグラフが調査される(すなわち、他のサブグラフ内の当該サブグラフに連結されたノードが考慮される)。当該サブグラフに連結されたノードが複数のサブグラフに存在することを考慮して、これらのノードを選択する際の優先順位を設定することができる。例えば、他のサブグラフ内の当該サブグラフに連結されたノードの選択は、候補ノードが属するサブグラフの順位に基づいて行ってもよい。この場合は、順位の高いサブグラフのノードを先に考慮する。また、推論内に欠けているノード関係タイプについて考慮し、欠けているノード関係タイプを有するサブグラフを優先的に考慮することもできる。さらに、ノード間の関係の優先順位レベルについて考慮することもでき、この優先順位レベルは推論規則毎に事前設定するとよい。この場合は、優先順位レベルの高い関係を有するサブグラフを先に考慮する。加えて、上記の選択根拠を組み合わせて使用することも可能である。
本発明の他の実施例によれば、さらなる推論を容易にするために、外部リンクの必要性を評価し、重要とみなされるサブグラフを組み合わせるという方法がとられる。例えば、当該サブグラフにとって重要な他のサブグラフは、以下のように定義される。すなわち、サブグラフC1およびサブグラフC2間のエッジセットをEとし、エッジセットE内のエッジに連結され、かつC2に属するエッジノードセットをVとすると、範囲C1+E+V内での推論によって意味のある結果が得られた場合は、その特定の推論規則において、C2はC1にとって重要なサブグラフである。ただしこれは、C1にとって重要なサブグラフの決定方法の一例にすぎないことは言うまでもない。本発明はこれに限定されず、任意の適切な方法を採用して決定を行うことができる。
このように、重要なサブグラフC2を検出する場合には、サブグラフC1およびC2をマージして新たなサブグラフが取得され、その新たなサブグラフ内で推論が実行される。
図5に、本発明の好適な実施例によるサブグラフの調整原理の図を示す。図5に示すように、第1位のサブグラフでは推論結果が得られない。そのため、推論範囲が、隣接する(第2位の)サブグラフ内の、当該(第1位の)サブグラフに連結されたノード(例えば、図2のノードaおよびd)に拡張される。外部エッジ(b,a)、(c,a)、(1,d)、(2,d)、および外部ノードa、dに拡張した場合は推論結果は得られるので、サブグラフ2は重要なサブグラフとして識別される。次に、例えばサブグラフ1が、重要なサブグラフとして識別されたサブグラフ2にマージされ、これにより、図5の点線の円で囲まれた新たなサブグラフが得られる。その後、マージされた新たなサブグラフの範囲内で推論が実行される。
本発明の技術的解決法では、こうした調整操作により、クラスタ化ベースのグループ化方法によって発生しうる、重要な関係が切断されるという状況を回避できるので、推論の効率性を考慮すると同時に、推論の効果についても十分に考慮することができる。
本発明はさらに、データセットからの情報取得システムを提供する。以下では、本発明の1つの実施例によるデータセットからの情報取得システムを示す図6を参照して、システムについて説明する。
図6に示すように、システム600はクラスタ化手段601および推論手段602を備える。クラスタ化手段601は、データセットを表わすグラフをクラスタ化して複数のサブグラフを取得するように構成されている。グラフは、データを表すノードと、ノード間の関係を表すエッジとで構成される。推論手段602は、サブグラフの範囲内で、取得された複数のサブグラフの少なくとも1つに対して推論を実行するように構成される。
本発明の好適な実施例によれば、システム600は、個々のサブグラフの重要度に基づいて取得された複数のサブグラフをランク付けするように構成された、ランク付け手段603をさらに備える。この実施例においては、推論手段602は、複数のサブグラフの順位に基づいて推論を実行するように構成される。
本発明の他の実施例によれば、個々のサブグラフの重要度は、サブグラフの密度、サブグラフの独立度、およびサブグラフの階層レベルのうち1つ以上に基づいて測定される。
本発明のさらに他の実施例によれば、推論手段602はさらに、1つのサブグラフにおける推論から結果が得られなかった場合には、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論を実行するように構成される。
本発明のさらに他の実施例によれば、推論手段602は、他のサブグラフ内の、当該サブグラフにリンクされたノードを、サブグラフの順位、サブグラフ内に欠けているノード関係タイプ、およびノード間の関係の優先順位レベルのいずれかに基づいて選択するように構成される。
本発明のさらに他の実施例によれば、システム600は、他のサブグラフ内の当該サブグラフに連結されたノードに拡張して実行された推論の結果が得られたら、当該サブグラフと他のサブグラフをマージして新たなサブグラフを形成するように構成された、マージ手段604をさらに備える。この実施例においては、推論手段602は新たなサブグラフ内で推論するように構成される。
本発明のさらに他の実施例によれば、システム600は、後の使用のために新たなサブグラフを保存するように構成された保存手段605をさらに備える。
なお、システム600を構成する個々の手段の動作は、実質的には前述した方法の各ステップに対応する。したがって、システム600内の個々の手段の詳細な動作については、図2〜5を参照して記述された本発明の方法の説明を参照されたい。
上記では、本発明については、主に検索とクエリに関連して説明した。しかし、本発明はこれに限定されず、例えばデ―タマイニングなどの他の適切な状況にも適用することができる。
さらに、上記のクラスタ化によって取得されたサブグラフのランク付けを行う際に使用する基準としては、密度、独立度、階層レベル等を主な例として示した。しかし、ランク付けには、これらに代えて、あるいはこれらに加えて、他の適切な基準を採用することが可能である。
また、推論を他のサブグラフ内のノードに拡張する際には、他のサブグラフ内の当該サブグラフに連結されたノードを、本明細書で示したもの以外の根拠に基づいて選択してもよい。
上記の説明は主にRDFに関連して行っているが、本発明はこれに限定されず、他の適切なデータまたはリソース表現方式と結合することができる。
加えて、特定の単純な3つ組インスタンスに関連して本発明を説明してきたが、これらは例示のみを目的とすることに留意されたい。実際には、本発明は大規模なデータやWebスケールのデータに適用でき、現実の推論処理はこれよりはるかに複雑である。
さらに、本発明の実施例は、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせとして実装することができる。ハードウェア部分は専用の論理回路を使用して実装でき、ソフトウェア部分はメモリに格納して、マイクロプロセッサや専用設計のハードウェア等の適切な命令実行システムによって実行することができる。当該技術の標準的なスキルを有する当業者には、上記の方法およびシステムは、プロセッサに含まれるコンピュータによる実行が可能な命令または制御コードを使用して実装でき、当該コードは、磁気ディスク、CD、DVD−ROM等のベアラ用媒体、または読み出し専用メモリ等のプログラマブルメモリ(ファームウェア)、または光学もしくは電子信号用ベアラ等のデータベアラに格納して提供されることが、理解されるであろう。本発明の実施例の装置およびその構成要素は、超大規模集積回路やゲートアレイ等のハードウェア回路、論理チップやトランジスタ等の半導体、またはフィールドプログラマブルゲートアレイやプログラマブル論理デバイス等のプログラマブルハードウェアデバイスによって実装することも、各種プロセッサによって実行されるソフトウェアによって実装することも、あるいは、上記ハードウェア回路とソフトウェアの組み合わせ(例えば、ファームウェア)によって実装することもできる。
以上、好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。
さらに、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。
(付記1)
データセットから情報を取得する方法であって、
データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するステップと、
サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも1つに対して推論を実行するステップと
を含むことを特徴とする方法。
(付記2)
各サブグラフの重要度に基づいて、取得された複数のサブグラフをランク付けするステップをさらに含み、
前記推論を複数のサブグラフの順位に基づいて実行することを特徴とする付記1に記載の方法。
(付記3)
前記重要度は、サブグラフの密度、サブグラフの独立度、およびサブグラフの階層レベルのうち1つ以上によって測定されることを特徴とする付記2に記載の方法。
(付記4)
1つのサブグラフ内での推論から結果が得られなかった場合に、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論を実行するステップをさらに含むことを特徴とする付記1に記載の方法。
(付記5)
他のサブグラフ内の当該サブグラフにリンクされたノードは、サブグラフの順位、サブグラフ内に欠けているノード関係タイプ、ノード間関係の優先順位のうち1つに基づいて選択されることを特徴とする付記4に記載の方法。
(付記6)
他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張した推論からの結果の取得に応じて、当該サブグラフと他のサブグラフをマージして新たなサブグラフを形成するステップと、
前記新たなサブグラフ内で推論を実行するステップとをさらに含むことを特徴とする付記4に記載の方法。
(付記7)
後続の使用のために新たなサブグラフを保存するステップをさらに含むことを特徴とする付記6に記載の方法。
(付記8)
データセットから情報を取得するシステムであって、
データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するように構成されたクラスタ化手段と、
サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも1つに対して推論を実行するように構成された推論手段と
を備えることを特徴とするシステム。
(付記9)
個々のサブグラフの重要度に基づいて、取得された複数のサブグラフをランク付けするように構成されたランク付け手段をさらに備え、
前記推論手段は、複数のサブグラフの順位に基づいて推論を実行するように構成されることを特徴とする付記8に記載のシステム。
(付記10)
前記重要度は、サブグラフの密度、サブグラフの独立度、およびサブグラフの階層レベルのうち1つ以上によって測定されることを特徴とする付記9に記載のシステム。
(付記11)
前記推論手段は、1つのサブグラフ内での推論から結果が得られなかった場合に、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論を実行するように構成されることを特徴とする付記8に記載のシステム。
(付記12)
前記推論手段は、他のサブグラフ内の当該サブグラフにリンクされたノードを、サブグラフの順位、サブグラフ内に欠けているノード関係タイプ、ノード間関係の優先順位のうち1つに基づいて選択するように構成されることを特徴とする付記11に記載のシステム。
(付記13)
他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張した推論からの結果の取得に応じて、当該サブグラフと他のサブグラフをマージして新たなサブグラフを形成するように構成されたマージ手段をさらに備え、
前記推論手段は、新たなサブグラフ内で推論を実行するように構成されることを特徴とする付記11に記載のシステム。
(付記14)
後続の使用のために新たなサブグラフを保存するように構成された保存手段をさらに備えることを特徴とする付記13に記載のシステム。
600:システム
601:クラスタ化手段
602:推論手段
603:ランク付け手段
604:マージ手段
605:保存手段

Claims (10)

  1. データセットから情報を取得する方法であって、
    データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するステップと、
    サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも1つに対して推論を実行するステップと
    を含むことを特徴とする方法。
  2. 各サブグラフの重要度に基づいて、取得された複数のサブグラフをランク付けするステップをさらに含み、
    前記推論を複数のサブグラフの順位に基づいて実行することを特徴とする請求項1に記載の方法。
  3. 前記重要度は、サブグラフの密度、サブグラフの独立度、およびサブグラフの階層レベルのうち1つ以上によって測定されることを特徴とする請求項2に記載の方法。
  4. 1つのサブグラフ内での推論から結果が得られなかった場合に、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論を実行するステップをさらに含むことを特徴とする請求項1に記載の方法。
  5. 他のサブグラフ内の当該サブグラフにリンクされたノードは、サブグラフの順位、サブグラフ内に欠けているノード関係タイプ、ノード間関係の優先順位のうち1つに基づいて選択されることを特徴とする請求項4に記載の方法。
  6. 他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張した推論からの結果の取得に応じて、当該サブグラフと他のサブグラフをマージして新たなサブグラフを形成するステップと、
    前記新たなサブグラフ内で推論を実行するステップとをさらに含むことを特徴とする請求項4に記載の方法。
  7. 後続の使用のために新たなサブグラフを保存するステップをさらに含むことを特徴とする請求項6に記載の方法。
  8. データセットから情報を取得するシステムであって、
    データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するように構成されたクラスタ化手段と、
    サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも1つに対して推論を実行するように構成された推論手段と
    を備えることを特徴とするシステム。
  9. 個々のサブグラフの重要度に基づいて、取得された複数のサブグラフをランク付けするように構成されたランク付け手段をさらに備え、
    前記推論手段は、複数のサブグラフの順位に基づいて推論を実行するように構成されることを特徴とする請求項8に記載のシステム。
  10. 前記推論手段は、1つのサブグラフ内での推論から結果が得られなかった場合に、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論を実行するように構成されることを特徴とする請求項8に記載のシステム。
JP2011262268A 2011-03-22 2011-11-30 データセットからの情報取得方法およびシステム Pending JP2012198873A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110077432.9 2011-03-22
CN201110077432.9A CN102693246B (zh) 2011-03-22 2011-03-22 一种用于从数据集获取信息的方法和系统

Publications (1)

Publication Number Publication Date
JP2012198873A true JP2012198873A (ja) 2012-10-18

Family

ID=46858703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011262268A Pending JP2012198873A (ja) 2011-03-22 2011-11-30 データセットからの情報取得方法およびシステム

Country Status (2)

Country Link
JP (1) JP2012198873A (ja)
CN (1) CN102693246B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015011709A (ja) * 2013-07-01 2015-01-19 パロ・アルト・リサーチ・センター・インコーポレーテッドPalo Alto Research Center Incorporated 明示的に表されたグラフで並列探索を行うシステムおよび方法
KR20150125511A (ko) * 2014-04-30 2015-11-09 한국과학기술원 그래프 압축 처리 방법 및 장치
JP2017509043A (ja) * 2013-12-30 2017-03-30 華為技術有限公司Huawei Technologies Co.,Ltd. グラフデータクエリ方法および装置
JP2019200724A (ja) * 2018-05-18 2019-11-21 ヤフー株式会社 演算装置、および検索方法
CN114928545A (zh) * 2022-03-31 2022-08-19 中国电子科技集团公司第十五研究所 一种基于Spark的大规模流量数据关键节点计算方法
CN115511086A (zh) * 2022-11-03 2022-12-23 上海人工智能创新中心 一种针对超大模型的分布式推理部署系统

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111343241B (zh) * 2015-07-24 2022-12-09 创新先进技术有限公司 一种图数据更新方法、装置及系统
CN105468702B (zh) * 2015-11-18 2019-03-22 中国科学院计算机网络信息中心 一种大规模rdf数据关联路径发现方法
CN107807900B (zh) * 2017-11-14 2021-02-19 浙江亿邦通信科技股份有限公司 数据处理系统及服务器
CN108959584B (zh) * 2018-07-09 2023-02-10 清华大学 一种基于社区结构的处理图数据的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS647228A (en) * 1987-06-30 1989-01-11 Fujitsu Ltd System for searching and processing multi-hierarchization
JPH09171466A (ja) * 1995-12-19 1997-06-30 Adoin Kenkyusho:Kk 多階層オブジェクトモデル構築方法及び知的情報処理装置の問題解決方法と知的情報処理装置
JP2009258794A (ja) * 2008-04-11 2009-11-05 Fujitsu Ltd 情報検索プログラム、情報検索装置、および情報検索方法
JP2010517137A (ja) * 2007-01-17 2010-05-20 インターナショナル・ビジネス・マシーンズ・コーポレーション データベース管理システム内のデータ及び関連付けられたオントロジの問い合わせ

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6615211B2 (en) * 2001-03-19 2003-09-02 International Business Machines Corporation System and methods for using continuous optimization for ordering categorical data sets
US7502765B2 (en) * 2005-12-21 2009-03-10 International Business Machines Corporation Method for organizing semi-structured data into a taxonomy, based on tag-separated clustering
CN101571870A (zh) * 2009-06-09 2009-11-04 北京航空航天大学 一种基于概念聚类的用户兴趣建模方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS647228A (en) * 1987-06-30 1989-01-11 Fujitsu Ltd System for searching and processing multi-hierarchization
JPH09171466A (ja) * 1995-12-19 1997-06-30 Adoin Kenkyusho:Kk 多階層オブジェクトモデル構築方法及び知的情報処理装置の問題解決方法と知的情報処理装置
JP2010517137A (ja) * 2007-01-17 2010-05-20 インターナショナル・ビジネス・マシーンズ・コーポレーション データベース管理システム内のデータ及び関連付けられたオントロジの問い合わせ
JP2009258794A (ja) * 2008-04-11 2009-11-05 Fujitsu Ltd 情報検索プログラム、情報検索装置、および情報検索方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015011709A (ja) * 2013-07-01 2015-01-19 パロ・アルト・リサーチ・センター・インコーポレーテッドPalo Alto Research Center Incorporated 明示的に表されたグラフで並列探索を行うシステムおよび方法
JP2017509043A (ja) * 2013-12-30 2017-03-30 華為技術有限公司Huawei Technologies Co.,Ltd. グラフデータクエリ方法および装置
US10068033B2 (en) 2013-12-30 2018-09-04 Huawei Technologies Co., Ltd. Graph data query method and apparatus
KR20150125511A (ko) * 2014-04-30 2015-11-09 한국과학기술원 그래프 압축 처리 방법 및 장치
KR101660584B1 (ko) 2014-04-30 2016-09-27 한국과학기술원 그래프 압축 처리 방법 및 장치
JP2019200724A (ja) * 2018-05-18 2019-11-21 ヤフー株式会社 演算装置、および検索方法
CN114928545A (zh) * 2022-03-31 2022-08-19 中国电子科技集团公司第十五研究所 一种基于Spark的大规模流量数据关键节点计算方法
CN114928545B (zh) * 2022-03-31 2024-02-06 中国电子科技集团公司第十五研究所 一种基于Spark的大规模流量数据关键节点计算方法
CN115511086A (zh) * 2022-11-03 2022-12-23 上海人工智能创新中心 一种针对超大模型的分布式推理部署系统
CN115511086B (zh) * 2022-11-03 2024-05-24 上海人工智能创新中心 一种针对超大模型的分布式推理部署系统

Also Published As

Publication number Publication date
CN102693246A (zh) 2012-09-26
CN102693246B (zh) 2015-03-11

Similar Documents

Publication Publication Date Title
JP2012198873A (ja) データセットからの情報取得方法およびシステム
US11763175B2 (en) Systems and methods for semantic inference and reasoning
Fan et al. Functional dependencies for graphs
US9449115B2 (en) Method, controller, program and data storage system for performing reconciliation processing
US20190163675A1 (en) Identification of Relevant Data Events by Use of Clustering
US9858280B2 (en) System, apparatus, program and method for data aggregation
US20170068748A1 (en) Hybrid data storage system and method and program for storing hybrid data
US9612892B2 (en) Creating a correlation rule defining a relationship between event types
US20130097138A1 (en) Discovering representative composite ci patterns in an it system
US20220058222A1 (en) Method and apparatus of processing information, method and apparatus of recommending information, electronic device, and storage medium
US8972557B2 (en) Topic-based community index generation apparatus and method and topic-based community searching apparatus and method
Zhang et al. Finding critical users in social communities: The collapsed core and truss problems
JP2016100005A (ja) リコンサイル方法、プロセッサ及び記憶媒体
Gionis et al. Bump hunting in the dark: Local discrepancy maximization on graphs
TW202026920A (zh) 用於基於模型之系統工程中變更控制之計算加速器架構
Fani et al. Temporally like-minded user community identification through neural embeddings
Mondal et al. Casqd: continuous detection of activity-based subgraph pattern queries on dynamic graphs
US8392393B2 (en) Graph searching
Yang et al. Delta: indexing and querying multi-labeled graphs
Wu et al. Community detection with topological structure and attributes in information networks
US11468065B2 (en) Information processing apparatus, information processing method, and non-transitory computer-readable recording medium
Rodríguez-González et al. Frequent similar pattern mining using non Boolean similarity functions
JP2020004057A (ja) 選定プログラム、選定方法および選定装置
US9818078B1 (en) Converting a non-workflow program to a workflow program using workflow inferencing
Leng et al. BRDPHHC: a balance RDF data partitioning algorithm based on hybrid hierarchical clustering

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130513

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140218