JP2012198873A

JP2012198873A - データセットからの情報取得方法およびシステム

Info

Publication number: JP2012198873A
Application number: JP2011262268A
Authority: JP
Inventors: Yu Zhao; ユウジャオ; Jianqiang Li; ジェンチャンリイ; Bo Liu; ボリウ
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2011-03-22
Filing date: 2011-11-30
Publication date: 2012-10-18
Also published as: CN102693246A; CN102693246B

Abstract

【課題】本発明は、データセットからの情報取得方法およびシステムを提供する。
【解決手段】この情報取得方法は、データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するステップと、サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも１つに対して推論を実行するステップとを含む。この方法によれば、グラフのクラスタ化は、事前定義されたモデルを必要としない無監視方式で実行されるため、柔軟性と適応性がきわめて高い。さらに、クラスタ化によって得られる各サブグラフ内のノード数とノード間関係数は少ないため、推論の規模を容易に制御できるので、推論の効率が向上する。
【選択図】図２

Description

本発明は、インテリジェントデータ解析技術の分野に関し、特に、データセットからの情報取得方法およびシステムに関する。

情報技術とネットワーク技術の発達に伴い、データや情報のリソースはその種類も量も増加の一途を辿っている。Ｗ３Ｃは、情報の効果的な管理を目指し、これらのリソースの記述方法としてＲＤＦ（ｒｅｓｏｕｒｃｅｄｅｓｃｒｉｐｔｉｏｎｆｒａｍｅｗｏｒｋ）を提案した。

ＲＤＦの定義によると、データまたはリソースは、主語、術語、目的語から成る３つ組によって表現される。ここで、主語と目的語はデータまたはリソースを表し、術語は主語と目的語との関係を表す。例えば、ｉｎｓｔａｎｃｅＯｆ（Ｘ，著者）、ｉｎｓｔａｎｃｅＯｆ（Ｙ，論文）、ｈａｓＰａｐｅｒ（Ｘ，Ｙ）およびトピック（Ｙ，Ｄ）という３つ組があるとすると、これらはそれぞれ、Ｘは著者であり、Ｙは論文であり、著者Ｘは論文Ｙの著者であり、Ｄは論文Ｙのトピックであることを表している。

このような３つ組をベースとして、論理型言語で規則（公理）を記述すれば、この規則を使用した自動推論処理を実行することができる。規則のインスタンスは「ｈａｓＰａｐｅｒ（Ｘ，Ｙ）ＡＮＤＴｏｐｉｃ（Ｙ，Ｄ）−＞ａｕｔｈｏｒ（Ｘ，Ｄ）」であり、これは「著者Ｘが論文Ｙの著者であり、論文ＹのトピックがＤであるなら、著者ＸはトピックＤの著者であるか、またはトピックＤの専門家である」ことを示す。こうした叙述メカニズムによって自動推論が可能になるので、３つ組と規則に基づいて、インテリジェントで意味的な情報検索とマイニングを実現することができる。

大規模でかつＷｅｂスケールのデータに対する推論の効率性を確保するのは、困難な課題である。さらにこの問題は、実際の情報処理に意味的推論を広く応用する上でも障壁となっている。

この問題に関連して、当該技術ではこれまでいくつかの解決法が提案されている。その１つは特許文献１(米国特許第ＵＳ７６８９５２６２Ｂ２号)である。この解決法によれば、まずデータが既存の知識規則に基づいて分類され、その後これらの知識規則が、分類済みのデータに基づいて圧縮モデルによって表現される。この解決法は、圧縮モデルによって表現された規則を使って、推論の効率性を向上させることを目指すものである。

さらに、非特許文献１(Ｅ．ＡｍｉｒおよびＳ．ＭｃＩｌｒａｉｔｈ「Ｐａｒｔｉｔｉｏｎ−ｂａｓｅｄＬｏｇｉｃａｌＲｅａｓｏｎｉｎｇ（パーティションベースの論理推論）」（２０００））でも、解決法が提案されている。この解決法は、規則セットを解析に基づいて推論用にパーティション化することによって、推論の効率性を高めようとするものである。

上記２つの解決法はいずれも、規則の前処理によって推論の効率性を高めるので、規則ベースの技術に属する。ただし、規則は特定の状況にしか適用できない（例：クエリ依存）のが一般的なので、これら２つの解決法は適応性と柔軟性が乏しいという欠点を有する。その上、データが大量な場合は、たとえ１つの規則であっても、推論にかなりの時間が掛かってしまう。そのため、これら２つの解決法は効率性の向上において効果は少ないと言える。

さらに、非特許文献２(Ｙ．Ｚｅｎｇ、Ｙ．Ｗａｎｇ，Ｚ．ＨｕａｎｇおよびＮ．Ｚｈｏｎｇ「ＵｎｉｆｙｉｎｇＷｅｂ−ＳｃａｌｅＳｅａｒｃｈａｎｄＲｅａｓｏｎｉｎｇｆｒｏｍｔｈｅＶｉｅｗｐｏｉｎｔｏｆＧｒａｎｕｌａｒｉｔｙ（粒度の観点からのＷｅｂスケールの検索および推論の統合）」ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ（２００９，Ｖｏｌ．５８２０，ｐａｇｅｓ４１８−４２９）)では、モデルベースのノードグループ化技術の解決法が開示されている。説明のため、図１Ａ〜１Ｃに、この技術的解決法の原理の概略図を示す。

図１Ａに示すように、この技術的解決法によれば、１つのデータセットは複数のノードと複数のエッジで構成される１つのグラフで示される。ここで、ノードはデータまたはリソース（例：ＲＤＦの主語と目的語）を表し、エッジはデータ間またはリソース間の関係（例：ＲＤＦの述語）を表す。説明を明快にするため、図１Ａでは、上記の３つ組の例における著者、論文、トピックはそれぞれ円形ノード、四角ノード、三角ノードで表す。また、円形ノードと四角ノード間のエッジ（リンク）は関係「ｈａｓＰａｐｅｒ（論文を有する）」を表し、四角ノードと三角ノード間のエッジ（リンク）は関係「ｈａｓＴｏｐｉｃ（トピックを有する）」を表す。

次に、図１Ｂに示すように、事前に確立されたノードグループ化モデルに基づいて、グラフ内のノードに対してグループ化操作を実行することにより、ランク付けされたノードグループのリストが取得される。ノードグループのリストは、例えば著者の論文数に基づいて、論文数が多い順にランク付けされる。次に、図１Ｃに示すように、第１、第２、第３の推論トランザクションそれぞれにおいて、各ノードグループの順位に基づき、各ノードグループに対して推論が実行される。推論範囲には、１つの対応するノードグループと、そのノードグループに連結された他のすべてのノードと、これらのノード間のエッジとが含まれる。

この技術的解決法は、事前に確立されたノードグループ化モデルを使用してデータを前処理するため、この事前に確立されたノードグループ化モデルに大きく依存する。そのため、この解決法は柔軟性にやや劣り、動的なクエリ需要には適していない。加えて、この解決法は、ノードのグループ化によって推論の規模を制限しているとはいえ、その対象は推論をトリガするノード数のみである。しかし、ノード間には複雑な関係も大量に存在しているため、実際には推論の規模を効果的に制御することは不可能である。その上、この技術的解決法では、各推論トランザクションも反復的なノードを大量に含んでいるので、推論モデルの制御効果はさらに低下する。

したがって、当該技術のデータ解析処理で採用される推論手法を改良することが火急の課題となっている。

米国特許第ＵＳ７６８９５２６２Ｂ２号

Ｅ．ＡｍｉｒおよびＳ．ＭｃＩｌｒａｉｔｈ「Ｐａｒｔｉｔｉｏｎ−ｂａｓｅｄＬｏｇｉｃａｌＲｅａｓｏｎｉｎｇ（パーティションベースの論理推論）」（２０００）Ｙ．Ｚｅｎｇ、Ｙ．Ｗａｎｇ，Ｚ．ＨｕａｎｇおよびＮ．Ｚｈｏｎｇ「ＵｎｉｆｙｉｎｇＷｅｂ−ＳｃａｌｅＳｅａｒｃｈａｎｄＲｅａｓｏｎｉｎｇｆｒｏｍｔｈｅＶｉｅｗｐｏｉｎｔｏｆＧｒａｎｕｌａｒｉｔｙ（粒度の観点からのＷｅｂスケールの検索および推論の統合）」ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ（２００９，Ｖｏｌ．５８２０，ｐａｇｅｓ４１８−４２９）

上記を踏まえて、本発明は、従来技術の欠点を克服するか、少なくとも一部を除去するために、データセットからの情報取得方法およびシステムを提供する。

本発明の１つの態様によれば、データセットからの情報取得方法が提供される。この方法は、データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するステップと、サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも１つに対して推論を実行するステップとを備えることができる。

本発明の１つの実施例によれば、この方法は、個々のサブグラフの重要度に基づいて、取得された複数のサブグラフをランク付けするステップをさらに備える。この実施例においては、推論は複数のサブグラフの順位に基づいて順に実行される。

本発明の１つの実施例によれば、個々のサブグラフの重要度は、サブグラフの密度、サブグラフの独立度、およびサブグラフの階層レベルのうち１つ以上によって測定される。

本発明の他の実施例によれば、この方法は、１つのサブグラフ内での推論から結果が得られなかった場合に、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論を実行するステップを備える。

本発明のさらに他の実施例によれば、他のサブグラフ内の当該サブグラフにリンクされたノードは、サブグラフの順位、サブグラフ内に欠けているノード関係タイプ、ノード間関係の優先順位のうち１つに基づいて選択される。

本発明のさらに他の実施例によれば、この方法は、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して実行された推論の結果が得られたら、当該サブグラフと他のサブグラフをマージして新たなサブグラフを形成するステップと、この新たなサブグラフ内で推論を実行するステップとをさらに備える。

本発明のさらに他の実施例によれば、この方法は、将来の使用のためにこの新たなサブグラフを保存するステップをさらに備える。

本発明の他の態様によれば、データセットからの情報取得システムが提供される。このシステムは、データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するように構成されたクラスタ化手段と、サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも１つに対して推論を実行するように構成された推論手段とを備えることができる。

本発明によれば、グラフのクラスタ化は、事前定義されたモデルを必要としない無監視方式で実行されるため、柔軟性と適応性がきわめて高い。さらに、サブグラフ範囲内で推論が実行されるため、クラスタ化によって得られた各サブグラフ内のノード数とノード間関係数がいずれも少なく、クラスタ化によって得られた各サブグラフ内には反復的なノードも関係も存在しない。そのため、本発明の実施例によれば、推論の規模を容易に制御できるので、推論の効率が向上する。

本発明の上記および他の特徴は、本発明の添付図面を参照して行われる実施例の詳細な説明から、さらに明らかになるであろう。なお、添付図面においては、同じ記号は同じまたは類似した構成要素を示す。

従来技術による、データセットからの情報取得のための技術的解決法を示す。従来技術による、データセットからの情報取得のための技術的解決法を示す。従来技術による、データセットからの情報取得のための技術的解決法を示す。本発明の一実施例によるデータセットからの情報取得方法のフローチャートである。本発明の原理の概略図である。本発明の他の実施例によるデータセットからの情報取得方法のフローチャートである。本発明の好適な実施例による、サブグラフ調整原理の図である。本発明の一実施例によるデータセットからの情報取得システムのブロック図である。

以下では、本発明によるデータセットからの情報取得方法およびシステムについて、好適な実施例を通して添付図面を参照しながら詳細に説明する。

まず、図２〜５を参照して、本発明で提供される方法について説明する。図２は、本発明の一実施例によるデータセットからの情報取得方法のフローチャートである。

図２に示すように、まずステップ２０１において、データセットを表すグラフがクラスタ化され、複数のサブグラフが取得される。このグラフは、データを表すノードとノード間の関係を表すエッジとで構成される。

クラスタ化はグラフ理論において最も重要な技術の１つであり、その目的は、グラフのノードと関係をグループ化して複数のクラスタにすることにある。グラフクラスタ化の大まかな考え方は、グラフ内のエッジ（関係）構造に基づいてクラスタ化することにより、各クラスタの内部関係が２つのクラスタ間の関係よりも近くなるようにする、ということである。この目的のため、本発明の発明者はグラフクラスタ化技術をインテリジェントデータ解析の分野に応用し、クラスタ化技術を使用してデータセットを表すグラフを複数のサブグラフにパーティション化することとした。

本発明の原理の概略図を図３に示す。図３に示すように、本発明においてデータセットは、ノードがデータを表し、ノード間のリンクまたはエッジがノード間の関係を表すように構成された、グラフによって表される。クラスタ化は、グラフクラスタ化技術に基づいてデータセットを表すグラフに対して実行され、それによりグラフは、図３の点線の円で示される複数のサブグラフ（クラスタ）にクラスタ化される。

データセットを表すグラフは、記憶手段に格納してもよい。例えば、ノードは［ノードＩＤ，ノード名］のような形式でノード記憶手段に格納し、ノード間の関係は［関係ＩＤ，関係名，主語ノードＩＤ，目的語ノードＩＤ］のような形式でノード関係記憶手段に格納し、クラスタ化によって得られたサブグラフまたはクラスタは［サブグラフＩＤ，ノードリスト，関係リスト］のような形式でサブグラフ記憶手段に格納することができる。

データセットを表すグラフのクラスタ化は、既知のあるいは将来開発されるグラフクラスタ化方法を使用して実行できる。例えば、コネクティビティベースのグラフクラスタ化アルゴリズムを採用してもよい。このアルゴリズムでは、各ノードペア間に存在するパス数をクラスタ化の指標として使用することができ、同じクラスタに属するノードには高いコネクティビティが付与される。

本発明のある特定の実施例によれば、ＨＣＳ（ｈｉｇｈｃｏｎｎｅｃｔｉｖｉｔｙｓｕｂ−ｇｒａｐｈ）アルゴリズムが採用され、エッジのコネクティビティしきい値ｋとして設定される。その後、グラフＧに対して最小カットアルゴリズムが実行され、グラフが２つのサブグラフＨ、Ｈ’に分割される。グラフＧのエッジコネクティビティがコネクティビティしきい値ｋよりも高い場合、グラフＧが分類済みクラスタとして返される。しきい値ｋよりも低い場合、サブグラフＨおよびＨ’が新たな入力として使用され、次の反復処理が実行される。この処理は、取得されたサブグラフのコネクティビティがしきい値ｋを上回るまで連続的に反復される。このようにして、高い内部相関関係を有する複数のサブグラフが得られる。前述したように、取得されたサブグラフはサブグラフ記憶手段に格納することができる。

さらに、サブグラフは、階層的クラスタ化を使用して、グローバルレベルの階層構造に編成される。例えば、ＨＣＳアルゴリズムを採用する場合であれば、複数のエッジコネクティビティしきい値を設定して、低いしきい値を高いレベルのクラスタに適用し、高いしきい値を低いレベルのクラスタに適用するようにしてもよい。こうしたクラスタ化により、階層構造を有する複数のサブグラフが得られる。

その後、ステップＳ２０２において、サブグラフの範囲内において、取得された複数のサブグラフの少なくとも１つに対して推論が実行される。推論で使用される推論規則は、例えば、［規則ＩＤ，規則文］のような形式で規則（公理）記憶手段に格納してもよい。各サブグラフ内での推論は、従来技術の方法を用いて実行できる。煩雑化を避けるため、ここでは推論の具体的な詳細については省略する。

本発明の実施例によれば、データセットを表すグラフのグループ化は、事前定義されたグループ化モデルから独立したグラフクラスタ化技術に基づいて、無監視方式で自動的に実行される。そのため、本発明は高い柔軟性と高い適応性を有する。加えて、本発明では、グラフクラスタ化技術をベースとするグループ化が実行される。各グループに含まれるノードと関係のいずれも少数なので、推論の効率性は高まり、推論の規模もより良好に制御することができる。

図４は、本発明の他の実施例による方法のフローチャートである。図４のステップＳ４０１およびＳ４０２は、実質的には図２のステップＳ２０１およびＳ２０２に対応するので、ここでは詳述しない。図４の実施例は、ステップＳ４０２の前にステップＳ４０３を備える点が図２の実施例とは異なる。ステップＳ４０３において、取得された複数のサブグラフはさらに、個々のサブグラフの重要度に基づいてランク付けされる。この順位は、サブグラフに対する推論の順序を決定するために使用される。

本発明によれば、複数のサブグラフが取得された後、サブグラフは１つずつ推論に付される。ただし、検索等のオンラインアプリケーションでの用途においては、システム応答時間が必ず設定されている。この限られた応答時間内に推論を行うには、サブグラフの推論を重要度の高い順に行うのが有利である。

この目的のため、本発明の好適な実施例によれば、クラスタ化によって得られたサブグラフは、重要な情報を含むサブグラフが高い順位になるようにランク付けされる。サブグラフの順位に基づいてサブグラフを並べ替えれば、応答時間の終了時に最も効果的な結果が返されるようにすることができる。

重要度の指標としては、例えばサブグラフの内部特徴を使用することができる。通常、サブグラフは密度と独立度が高いほど効果的な結果をもたらすので、このようなサブグラフは他のサブグラフよりも重要とみなされる。

本発明の１つの実施例においては、１つのサブグラフの他のサブグラフからの独立度が、サブグラフのランク付けの基礎として選択される。この独立度は、例えば伝導度（コンダクタンス）によって測定される。サブグラフＳの伝導度Φ（Ｓ）は、以下の式で計算することができる。

ここで、Ｇはグラフ全体、Ｓはサブグラフ、Ｇ＼ＳはサブグラフＳを除去した後のグラフＧの残余部分を示す。また、ｃ（Ｓ、Ｇ＼Ｓ）はサブグラフＳと残余部分Ｇ＼Ｓ間のカットサイズ、すなわち、ＳとＧ＼Ｓ間のエッジ数を示す。ｄｅｇ（Ｓ）はサブグラフＳの度数、すなわち、そのサブグラフ内のエッジ数である。サブグラフは伝導度Φ（Ｓ）に基づいてランク付けすることができ、この場合は、サブグラフの伝導度が小さい（すなわち、独立度が高い）ほど高い順序になり、サブグラフの伝導度が大きい（すなわち、独立度が低い）ほど低い順序になる。

さらに、密度と独立度（すなわち、相対密度）も、ランク付けの指標として使用することができる。サブグラフＳの相対密度ρ（Ｓ）は、例えば、以下の式で計算することができる。

ここで、式（１）と同様に、Ｓはサブグラフ、Ｇ＼ＳはＳを除去した後のグラフＧの残余部分を示す。また、ｄｅｇ（Ｓ）とｃ（Ｓ，Ｇ＼Ｓ）はそれぞれ、サブグラフＳの度数、およびサブグラフＳと残余部分Ｇ＼Ｓ間のカットサイズをそれぞれ示す。相対密度を採用する場合は、サブグラフは相対密度が高いほど高い順位になり、相対密度が低いほど低い順位になる。

また、階層的クラスタ化が採用されている場合には、個々のサブグラフの階層レベルに基づいて、さらにランク付けが実行される。例えば、低い階層レベルに属するサブグラフは、高い階層レベルのサブグラフよりも上位にランク付けされる。

このようにして、ステップＳ４０２において、複数のサブグラフに対してサブグラフの順位に基づいて１つずつ推論が実行され、推論の総時間が限界に到達するまで、もしくはすべてのサブグラフの推論が完了するまでこれが継続される。これにより、推論の終了時には、最も重要な推論結果をユーザに返すことが可能になる。

また、ステップＳ４０２で１つのサブグラフにおける推論から結果が得られなかった場合には、ステップ４０４において、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論が実行される。

ここで留意すべきは、前述したようにグラフクラスタ化をベースとする推論では推論の規模が効果的に制限されるが、一部のノード間の関係が切断されてしまうことである。ある特定の状況では、クラスタ化により推論のために重要な関係が切断される可能性がきわめて高く、設定されている推論規則の如何によっては、一部のサブグラフで推論結果が導出されないという結果になりうる。

こうした状況を念頭に、本発明では効果的な推論結果を得るために、重要度の高いサブグラフについては、他のサブグラフ内の当該サブグラフに連結されたノードを考慮して推論を実行するのが望ましい。さらに、これらのノードを考慮することで効果的な推論結果が得られる場合には、当該サブグラフにこれらのノードを組み込んで、以降の推論で使用できるようにするとよい。あるいは、ステップＳ４０５において、当該サブグラフを、これらのノードが属するサブグラフと結合して新たなサブグラフを形成し、ステップＳ４０６においてその新たなグラフに対して推論を実行することによっても、効果的な推論結果が得られる可能性がある。加えて、結合によって得られた新たなサブグラフは、対応する推論規則を使用した将来の推論に備えて、保存しておくこともできる。

本発明の１つの実施例によれば、サブグラフＣ１の範囲内での推論から得られた推論結果が空だった場合（すなわち、推論から結果が得られなかった場合）には、他のサブグラフが調査される（すなわち、他のサブグラフ内の当該サブグラフに連結されたノードが考慮される）。当該サブグラフに連結されたノードが複数のサブグラフに存在することを考慮して、これらのノードを選択する際の優先順位を設定することができる。例えば、他のサブグラフ内の当該サブグラフに連結されたノードの選択は、候補ノードが属するサブグラフの順位に基づいて行ってもよい。この場合は、順位の高いサブグラフのノードを先に考慮する。また、推論内に欠けているノード関係タイプについて考慮し、欠けているノード関係タイプを有するサブグラフを優先的に考慮することもできる。さらに、ノード間の関係の優先順位レベルについて考慮することもでき、この優先順位レベルは推論規則毎に事前設定するとよい。この場合は、優先順位レベルの高い関係を有するサブグラフを先に考慮する。加えて、上記の選択根拠を組み合わせて使用することも可能である。

本発明の他の実施例によれば、さらなる推論を容易にするために、外部リンクの必要性を評価し、重要とみなされるサブグラフを組み合わせるという方法がとられる。例えば、当該サブグラフにとって重要な他のサブグラフは、以下のように定義される。すなわち、サブグラフＣ１およびサブグラフＣ２間のエッジセットをＥとし、エッジセットＥ内のエッジに連結され、かつＣ２に属するエッジノードセットをＶとすると、範囲Ｃ１＋Ｅ＋Ｖ内での推論によって意味のある結果が得られた場合は、その特定の推論規則において、Ｃ２はＣ１にとって重要なサブグラフである。ただしこれは、Ｃ１にとって重要なサブグラフの決定方法の一例にすぎないことは言うまでもない。本発明はこれに限定されず、任意の適切な方法を採用して決定を行うことができる。

このように、重要なサブグラフＣ２を検出する場合には、サブグラフＣ１およびＣ２をマージして新たなサブグラフが取得され、その新たなサブグラフ内で推論が実行される。

図５に、本発明の好適な実施例によるサブグラフの調整原理の図を示す。図５に示すように、第１位のサブグラフでは推論結果が得られない。そのため、推論範囲が、隣接する（第２位の）サブグラフ内の、当該（第１位の）サブグラフに連結されたノード（例えば、図２のノードａおよびｄ）に拡張される。外部エッジ（ｂ，ａ）、（ｃ，ａ）、（１，ｄ）、（２，ｄ）、および外部ノードａ、ｄに拡張した場合は推論結果は得られるので、サブグラフ２は重要なサブグラフとして識別される。次に、例えばサブグラフ１が、重要なサブグラフとして識別されたサブグラフ２にマージされ、これにより、図５の点線の円で囲まれた新たなサブグラフが得られる。その後、マージされた新たなサブグラフの範囲内で推論が実行される。

本発明の技術的解決法では、こうした調整操作により、クラスタ化ベースのグループ化方法によって発生しうる、重要な関係が切断されるという状況を回避できるので、推論の効率性を考慮すると同時に、推論の効果についても十分に考慮することができる。

本発明はさらに、データセットからの情報取得システムを提供する。以下では、本発明の１つの実施例によるデータセットからの情報取得システムを示す図６を参照して、システムについて説明する。

図６に示すように、システム６００はクラスタ化手段６０１および推論手段６０２を備える。クラスタ化手段６０１は、データセットを表わすグラフをクラスタ化して複数のサブグラフを取得するように構成されている。グラフは、データを表すノードと、ノード間の関係を表すエッジとで構成される。推論手段６０２は、サブグラフの範囲内で、取得された複数のサブグラフの少なくとも１つに対して推論を実行するように構成される。

本発明の好適な実施例によれば、システム６００は、個々のサブグラフの重要度に基づいて取得された複数のサブグラフをランク付けするように構成された、ランク付け手段６０３をさらに備える。この実施例においては、推論手段６０２は、複数のサブグラフの順位に基づいて推論を実行するように構成される。

本発明の他の実施例によれば、個々のサブグラフの重要度は、サブグラフの密度、サブグラフの独立度、およびサブグラフの階層レベルのうち１つ以上に基づいて測定される。

本発明のさらに他の実施例によれば、推論手段６０２はさらに、１つのサブグラフにおける推論から結果が得られなかった場合には、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論を実行するように構成される。

本発明のさらに他の実施例によれば、推論手段６０２は、他のサブグラフ内の、当該サブグラフにリンクされたノードを、サブグラフの順位、サブグラフ内に欠けているノード関係タイプ、およびノード間の関係の優先順位レベルのいずれかに基づいて選択するように構成される。

本発明のさらに他の実施例によれば、システム６００は、他のサブグラフ内の当該サブグラフに連結されたノードに拡張して実行された推論の結果が得られたら、当該サブグラフと他のサブグラフをマージして新たなサブグラフを形成するように構成された、マージ手段６０４をさらに備える。この実施例においては、推論手段６０２は新たなサブグラフ内で推論するように構成される。

本発明のさらに他の実施例によれば、システム６００は、後の使用のために新たなサブグラフを保存するように構成された保存手段６０５をさらに備える。

なお、システム６００を構成する個々の手段の動作は、実質的には前述した方法の各ステップに対応する。したがって、システム６００内の個々の手段の詳細な動作については、図２〜５を参照して記述された本発明の方法の説明を参照されたい。

上記では、本発明については、主に検索とクエリに関連して説明した。しかし、本発明はこれに限定されず、例えばデ―タマイニングなどの他の適切な状況にも適用することができる。

さらに、上記のクラスタ化によって取得されたサブグラフのランク付けを行う際に使用する基準としては、密度、独立度、階層レベル等を主な例として示した。しかし、ランク付けには、これらに代えて、あるいはこれらに加えて、他の適切な基準を採用することが可能である。

また、推論を他のサブグラフ内のノードに拡張する際には、他のサブグラフ内の当該サブグラフに連結されたノードを、本明細書で示したもの以外の根拠に基づいて選択してもよい。

上記の説明は主にＲＤＦに関連して行っているが、本発明はこれに限定されず、他の適切なデータまたはリソース表現方式と結合することができる。

加えて、特定の単純な３つ組インスタンスに関連して本発明を説明してきたが、これらは例示のみを目的とすることに留意されたい。実際には、本発明は大規模なデータやＷｅｂスケールのデータに適用でき、現実の推論処理はこれよりはるかに複雑である。

さらに、本発明の実施例は、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせとして実装することができる。ハードウェア部分は専用の論理回路を使用して実装でき、ソフトウェア部分はメモリに格納して、マイクロプロセッサや専用設計のハードウェア等の適切な命令実行システムによって実行することができる。当該技術の標準的なスキルを有する当業者には、上記の方法およびシステムは、プロセッサに含まれるコンピュータによる実行が可能な命令または制御コードを使用して実装でき、当該コードは、磁気ディスク、ＣＤ、ＤＶＤ−ＲＯＭ等のベアラ用媒体、または読み出し専用メモリ等のプログラマブルメモリ（ファームウェア）、または光学もしくは電子信号用ベアラ等のデータベアラに格納して提供されることが、理解されるであろう。本発明の実施例の装置およびその構成要素は、超大規模集積回路やゲートアレイ等のハードウェア回路、論理チップやトランジスタ等の半導体、またはフィールドプログラマブルゲートアレイやプログラマブル論理デバイス等のプログラマブルハードウェアデバイスによって実装することも、各種プロセッサによって実行されるソフトウェアによって実装することも、あるいは、上記ハードウェア回路とソフトウェアの組み合わせ（例えば、ファームウェア）によって実装することもできる。

以上、好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。

さらに、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。

（付記１）
データセットから情報を取得する方法であって、
データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するステップと、
サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも１つに対して推論を実行するステップと
を含むことを特徴とする方法。

（付記２）
各サブグラフの重要度に基づいて、取得された複数のサブグラフをランク付けするステップをさらに含み、
前記推論を複数のサブグラフの順位に基づいて実行することを特徴とする付記１に記載の方法。

（付記３）
前記重要度は、サブグラフの密度、サブグラフの独立度、およびサブグラフの階層レベルのうち１つ以上によって測定されることを特徴とする付記２に記載の方法。

（付記４）
１つのサブグラフ内での推論から結果が得られなかった場合に、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論を実行するステップをさらに含むことを特徴とする付記１に記載の方法。

（付記５）
他のサブグラフ内の当該サブグラフにリンクされたノードは、サブグラフの順位、サブグラフ内に欠けているノード関係タイプ、ノード間関係の優先順位のうち１つに基づいて選択されることを特徴とする付記４に記載の方法。

（付記６）
他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張した推論からの結果の取得に応じて、当該サブグラフと他のサブグラフをマージして新たなサブグラフを形成するステップと、
前記新たなサブグラフ内で推論を実行するステップとをさらに含むことを特徴とする付記４に記載の方法。

（付記７）
後続の使用のために新たなサブグラフを保存するステップをさらに含むことを特徴とする付記６に記載の方法。

（付記８）
データセットから情報を取得するシステムであって、
データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するように構成されたクラスタ化手段と、
サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも１つに対して推論を実行するように構成された推論手段と
を備えることを特徴とするシステム。

（付記９）
個々のサブグラフの重要度に基づいて、取得された複数のサブグラフをランク付けするように構成されたランク付け手段をさらに備え、
前記推論手段は、複数のサブグラフの順位に基づいて推論を実行するように構成されることを特徴とする付記８に記載のシステム。

（付記１０）
前記重要度は、サブグラフの密度、サブグラフの独立度、およびサブグラフの階層レベルのうち１つ以上によって測定されることを特徴とする付記９に記載のシステム。

（付記１１）
前記推論手段は、１つのサブグラフ内での推論から結果が得られなかった場合に、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論を実行するように構成されることを特徴とする付記８に記載のシステム。

（付記１２）
前記推論手段は、他のサブグラフ内の当該サブグラフにリンクされたノードを、サブグラフの順位、サブグラフ内に欠けているノード関係タイプ、ノード間関係の優先順位のうち１つに基づいて選択するように構成されることを特徴とする付記１１に記載のシステム。

（付記１３）
他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張した推論からの結果の取得に応じて、当該サブグラフと他のサブグラフをマージして新たなサブグラフを形成するように構成されたマージ手段をさらに備え、
前記推論手段は、新たなサブグラフ内で推論を実行するように構成されることを特徴とする付記１１に記載のシステム。

（付記１４）
後続の使用のために新たなサブグラフを保存するように構成された保存手段をさらに備えることを特徴とする付記１３に記載のシステム。

６００：システム
６０１：クラスタ化手段
６０２：推論手段
６０３：ランク付け手段
６０４：マージ手段
６０５：保存手段

Claims

データセットから情報を取得する方法であって、
データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するステップと、
サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも１つに対して推論を実行するステップと
を含むことを特徴とする方法。
各サブグラフの重要度に基づいて、取得された複数のサブグラフをランク付けするステップをさらに含み、
前記推論を複数のサブグラフの順位に基づいて実行することを特徴とする請求項１に記載の方法。
前記重要度は、サブグラフの密度、サブグラフの独立度、およびサブグラフの階層レベルのうち１つ以上によって測定されることを特徴とする請求項２に記載の方法。
１つのサブグラフ内での推論から結果が得られなかった場合に、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論を実行するステップをさらに含むことを特徴とする請求項１に記載の方法。
他のサブグラフ内の当該サブグラフにリンクされたノードは、サブグラフの順位、サブグラフ内に欠けているノード関係タイプ、ノード間関係の優先順位のうち１つに基づいて選択されることを特徴とする請求項４に記載の方法。
他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張した推論からの結果の取得に応じて、当該サブグラフと他のサブグラフをマージして新たなサブグラフを形成するステップと、
前記新たなサブグラフ内で推論を実行するステップとをさらに含むことを特徴とする請求項４に記載の方法。
後続の使用のために新たなサブグラフを保存するステップをさらに含むことを特徴とする請求項６に記載の方法。
データセットから情報を取得するシステムであって、
データを表すノードとノード間の関係を表すエッジとで構成される、データセットを表すグラフをクラスタ化して、複数のサブグラフを取得するように構成されたクラスタ化手段と、
サブグラフ範囲内にある取得された複数のサブグラフのうち少なくとも１つに対して推論を実行するように構成された推論手段と
を備えることを特徴とするシステム。
個々のサブグラフの重要度に基づいて、取得された複数のサブグラフをランク付けするように構成されたランク付け手段をさらに備え、
前記推論手段は、複数のサブグラフの順位に基づいて推論を実行するように構成されることを特徴とする請求項８に記載のシステム。
前記推論手段は、１つのサブグラフ内での推論から結果が得られなかった場合に、他のサブグラフ内の、当該サブグラフにリンクされたノードに拡張して推論を実行するように構成されることを特徴とする請求項８に記載のシステム。