JP6686628B2

JP6686628B2 - 発見情報学システム、方法、及びコンピュータプログラム

Info

Publication number: JP6686628B2
Application number: JP2016068450A
Authority: JP
Inventors: ノヴァチェク・ヴィート; ダーラ・スワーダアル; ヴァンデンブッシェ・ピエール−イヴ
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-04-30
Filing date: 2016-03-30
Publication date: 2020-04-22
Anticipated expiration: 2036-03-30
Also published as: GB2537892A; US20160321357A1; JP2016212838A; GB201507373D0; EP3089052A1

Description

本発明は、コーパス（又は文書のセット）の中のテキスト文書の間のリンクの自動計算に関する。

本発明の実施形態は、明らかに無関係な文書によってさえもカバーされるエンティティ（又は概念）間の潜在的リンクを用いることにより、コーパスにより引き起こされるこれまで分からなかった複雑な事実を発見するプロセスを実現することを目的とする。これは、既存の知識の間の新しい関係を発見するために論文及び他の学術的発行物を使用することを表す、文献に基づく発見の分野にある。この分野はＤ．Ｒ．Ｓｗａｎｓｏｎにより開拓された。この技術の１つの進歩は、Ａ及びＢに直接又は間接的に関連する中間文書からの概念を用いて、独立した文書Ａ及びＢの中の２つの知識ピースを接続するＳｗａｎｓｏｎリンクである。関連する研究及び開発の次の分野は、文書類似指標又は文書クラスタリング（類似する文書を１つのセットに一緒にグループ化する）を用いる文書間のリンクの発見に関する、広く大規模に研究されている情報検索の分野である。この分野は対話型発見にむしろ間接的に関連するが、その動機（つまり、テキストからの知識発見を実現すること）は類似する。

文書類似性／クラスタリング分野の成熟にもかかわらず、従来技術を改善する多くの余地が残されたままである。既存の解決策は、殆どが、特定の文書の形式的セマンティック表現を計算することに焦点を当て、次にこれらの表現の空間に種々のメトリックを定める。このメトリックは、後に、文書又は文書クラスタの類似対を識別するために用いられる。このような解決策は、特定のローカルな特徴を共有する文書間のリンクを要求する使用例で効果的に動作する。しかしながら、文書の同系性の広い定義が必要な使用例がある。例えば、限られた関心セットにのみ焦点を当てるために、長大な文書の意味を素早く理解する必要がある場合を考える。これは、基本的に全ての知識労働者が情報過多により影響を受ける今日に、非常に当てはまる場合である。１つの標準的な例は、論文テーマを選定しており且つ初めは慣れない長大な文献を処理する必要のある大学院生である。別の例は、主要な専門に関係の無い研究分野の基本を素早く把握する必要がある場合の多い、学際的分野の専門家である。

このような例では、類似性に基づく文書リンク又はクラスタは、幾つかの理由で、それら自体では助けにならない。通常、コーパスの中のどこから開始すべきか分からない。したがって、リンクネットワークは、どこから開始するかに係わらず、その内容の大部分の探索を可能にすべきである。所謂「小世界特性」（ノードが互いから少数のステップで到達できる）を有するネットワークは、この要件を満たす。しかし、伝統的方法により生成された文書ネットワークは、通常、独立成分のセットとして構造化される。したがって、伝統的方法により計算されたリンクを辿ると、文書集合を閲覧しているときに、容易に特定のトピックに「トラップ」されてしまう。最後に、しかし特に、ユーザにドメインの関連するトピックも探索させ、次に関連文書にのみ焦点を当てるために、文書ネットワークは、従来の方法により提供される唯一の文書種類であることが多い文書−文書リンクだけでなく、文書の内容の中のトピックに基づき、文書の偶然発見した閲覧を可能にするべきである。

文献に基づく発見の分野は、文書類似性及びクラスタリングに基づくアプローチの欠点の大部分を解決する。概して、それは、独立した文書の中の概念の間の間接的接続（connection又は繋がり）を調べる。接続は、全体として文書コーパスを用いて計算され、独立した概念をリンクし得る関連する中間概念を発見しようとする。多くのアプローチが存在している。しかしながら、それらの大部分は、自然言語処理、機械学習、グラフ分析及び手動分析のうちの１つ（又はそれ以上）に基づく。この分類に加えて、（オントロジのような）背景知識、又は単に文書データ自体を用いるアプローチが存在する。

文書に基づく発見の所謂「閉じた」及び「開かれた」モードの間の区別も存在する。これらの両者は、Ｄ．Ｒ．Ｓｗａｎｓｏｎによる独創性に富んだ研究において導入された「ＡＢＣモデル」に基づく。開かれたモードでは、概念Ａ及び対応する関連文書セットＤ_Ａから開始する。文献の中で、Ａに関連する概念Ｂ（中間概念）を探す。したがって、中間概念Ｂに関連する文献は、集合Ｄ_Ｂとして検索される。これらの文献の中で、Ｂに関連する概念Ｃを探す。最終的に、Ｃ概念に関連する文書の集合Ｄ_Ｃが得られる。候補Ａ−Ｂ−Ｃ経路は、次に、可能な発見経路の実現可能な部分集合まで、それらの数をトリミングするために、ランク付けされる。閉じたモードでは、処理は似ている。しかしながら、Ａ及びＣ概念は、最初から固定され、中間概念Ｂが特定されるだけである。

最も多くの情報を与える（情報性の高い）意味的に注釈付けされた、テキスト文書の間のリンクを発見する方法及び装置を提供することが望ましい。

纏めると、本発明の実施形態は、文書により記述される概念により、文書の間の関係を発見する方法に関する。発明者は、理想的には関係が少なくともある程度は以下の条件の全部を満たすように、このタスクの要件を考え直し、それらを構造化した。

Ａ）文書及び／又はそれらの中の概念の間のリンクを計算するための指標が、単なる共起性又は類似性を超え、例えば情報性（informativeness）、コヒーレンス、意外性（surprisingness）、複雑性、及び希少性のいずれかの特徴を反映する。これらの指標は、発見するための関係の可能性を効果的に示すことができるが、それらの十分な根拠に基づく定義及び同期化された最適化は、重要な問題である。

Ｂ）文書間のリンクは、コーパスの偶然の探索をサポートするために、文書の内容を明示的に反映する必要がある。文書を単に接続するだけでは不十分であり、ユーザは、発見を行う状況において、文書の概念的内容を考慮できなければならない。

Ｃ）特定の文書はドメイン全体により完全に及び／又は誠実に示唆される知識を表すことができないので、リンクは、特定の文書表現からだけではなくコーパス全体から引き出される全体的指標を用いて計算されなければならない。これは、発見情報科学の状況で重要な特徴である。

Ｄ）ユーザはコーパスに含まれる任意の概念からコーパスを探索できる必要があるので、理想的にはどこから開始しどこへナビゲートするかに係わらず、リンクは、コーパスの偶然の探索をサポートしなければならない。これは、コーパスにより示唆される任意のトピックを発見するための重要な条件である。
本発明の実施形態は、以下を効果的に可能にする。

１）文書自体の局所的表現ではなく、文書コーパスの全体的意味に基づく文書間のリンクを発見する。

２）文書リンクに関連するエンティティタグのチェーンにより、文書リンクを簡単に説明する。

３）文書から又は初めに関心のある概念から開始して、任意のポイントからコーパスによりカバーされるドメインを通して探索的にナビゲーションする。

以下に、説明のための例を用いて、問題の２つの態様を説明する。

上述のように、文書類似性及びクラスタリングの中で従来利用可能な関連の大部分は、独立した文書の表現を比較する。例は、文書の内容について定められた文書類似性指標を扱う又はオントロジからのドメイン知識を含む種々の研究で使用される確率的ベクトル空間アプローチである。

文書表現自体に基づくこのような方法は、以下の例により実証されるように、有用な関係を失い得る。神経障害に関する２つの文書を考える。

文書１：Sathe K, Maetzler W, Lang JD, Mounsey RB, Fleckenstein C, Martin HL, Schulte C, Mustafa S, Synofzik M, Vukovic Z, Itohara S, Berg D, Teismann P、S１００B is increased in Parkinson’s disease and ablation protects against MPTP−induced toxicity through the RAGE and TNF−α pathway、Brain、２０１２ Nov; １３５(Pt １１): ３３３６−４７、http://www.ncbi.nlm.nih.gov/pubmed/２３１６９９２１から入手可能。

文書２：Lane R, He Y, Morris C, Leverenz JB, Emre M, BallardC、BuChE−K and APOE epsilon４ allele frequencies in Lewy body dementias, and influence of genotype and hyperhomocysteinemia on cognitive decline、Movement Disorders、２００９ Feb １５; ２４(３): ３９２−４００、http://www.ncbi.nlm.nih.gov/pubmed/１９００６１９０から入手可能。

文書は、以下のベクトル表現を有し得る（ＴＦ−ＩＤＦ（term frequency−inverse document frequency）スコアリングにより計算される、ベクトルインデックスとして対応するキーワードを用い、低重要度の値を除去する）。
文書１：’protein’:２.７７３,’s１００b’:５.５４５
文書２：’apoe’:２.７７３,’pdd’:４.８５２,’dlb’:３.４６６
ベクトル間の余弦距離のような伝統的な類似性指標は、２つの文書の間で特性ベクトルの重なり合いが存在しないので、２つの文書を完全に無関係であると考える。しかしながら、神経障害（例えば、パーキンソン病）に関連する文献のコーパス全体を処理する場合、以下を発見できる。
・特定の文書１及び２の文脈で、比較的重要ではないにも係わらず、ドメインの中で重要な用語が存在する。例えば、それぞれ文書１及び２の中の「腫瘍壊死因子」及び「BuChe−K」である。
・これらの２つの用語は、２つの文書が結局のところ関連し得ることを示唆する、コーパスから抽出された重要なドメイン概念の知識ベースの中の関連経路によりリンクされるように見える。

２つの用語及び文書を接続するリンクは、図１に示すグラフに示される。図から、２つの文献が経路（腫瘍壊死因子、星状膠細胞、レヴィー小体、BuChe−K）により接続されることが分かる。この経路は、文書及び用語を接続する該文書及び用語の両方を示すので、文書（文献）間の意味的に注釈付けされた経路として見られる。最初の用語及び最後の用語は、特定の文献の中に存在し、一方で、２番目及び３番目の用語は、コーパスから計算された関連性ネットワークの中でそれらを接続する。第１の文献は、パーキンソン病のメカニズムに腫瘍壊死因子経路が含まれることを扱う。一方で、第２の文献は、パーキンソン病に関与するタンパク質複合体に関する認知症の種類に及ぼす（BuChe−Kのような）特定の対立遺伝子の影響を調査している。文献同士の関係は、タンパク質複合体（レヴィー小体）及び星状膠細胞（グリア細胞の種類）による、それらの次第に変化するトピックの接続を示す。この種の情報は、特にコーパス全体に渡り自動的に計算される場合、明らかに関係無いが、トピック的に相互接続される文献を用いる発見を実現するのに非常に有用であり得る。

文献に基づく発見の分野は、文書類似性又はクラスタリングよりも良好な例により説明される問題を解決する。しかしながら、本章の始めに示された全ての条件が満たされるには、幾つかのカバーされるべきギャップがある。大部分の文献に基づく発見のアプローチは、相補的だがバラバラな文献の間の接続を計算するとき、コーパス全体の概念的構造を考慮するので、条件Ｂ）及びＣ）は大部分の文献に基づく発見のアプローチにより満たされる。

しかしながら、概念Ａ、又はＡ及びＣの両方は、開かれた及び閉じた文献に基づく発見モードにおいて指定されなければならないので、条件Ｄ）は、従来技術により満たされないままである。理論的には、既存の解決策は、Ａ及びＣの全ての可能な組合せを生成することができるが（したがって、コーパスの中の全ての概念の間のリンクを探索できるが）、それらは、このようなタスクの実際の計算上の扱いにくさにより大きく制限される。これは、概して、任意のポイントからデータを探索できないことを意味する。上述の例では、経路のうちの任意の部分（つまり、必ずしも「腫瘍壊死因子」又は「BuChE−K」ノードから開始しない）を探索することは、伝統的な文献に基づく発見モデルにおいて利用可能ではない興味深い情報をもたらし得る。従来技術におけるこのギャップに加えて、多くの文献に基づく発見の解決策は、場合によっては可能な接続をランク付けするとき頻度に基づく統計的指標により補強される共起性及び類似性に頼っている。

これは、２つの望ましくない効果を生じ得る。第一に、ランク付けのために類似性に基づく指標を用いる場合、発見された接続が、むしろ付加的である、つまり既に知られているものに近い可能性が高いことである。第二に、類似性及び頻度に基づく一般的な指標は、単純ではなく、意外性、新規性、情報性等のような観念を良好にモデル化しないことである。文献に基づく発見処理がその期待を満たすために、これらの問題は良好に解決されなければならない。

本発明の第１の態様の実施形態によると、テキスト文書のコーパスに基づきグラフを生成するよう構成されるシステムであって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続する、システムが提供される。前記システムは、前記コーパスの中の前記テキスト文書から文書コンテンツをダウンロードするよう構成されるコンテンツインタフェースと、前記文書コンテンツから概念グラフを抽出するよう構成される前処理プロセッサであって、前記概念グラフのノードは前記概念を表し、前記概念は前記文書の中のエンティティであり、ノード対の間の重み付けされたエッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、前処理プロセッサと、前記ノードの間の前記重み付けされたエッジをフィルタリングして、全ての概念の間の候補経路を提供するより高い重みを有するエッジを保持するよう構成されるフィルタと、少なくとも２つのスコアリングモジュールであって、それぞれスコアリング指標に従って前記候補経路にスコアを付けるよう構成され、前記指標は、前記コーパスの中の事実を発見する経路の適合性の異なる特長をモデル化する、少なくとも２つのスコアリングモジュールと、最適な方法で前記スコアリング指標を満たす前記概念グラフの最適化された経路を識別するよう構成される最適化器と、前記最適化された経路に基づき、文書間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成するよう構成される文書グラフ生成器と、前記コーパスの中の事実を発見するために、ユーザに前記文書グラフを閲覧しナビゲートさせるよう構成されるグラフィカルユーザインタフェース（ＧＵＩ）と、を有する。

システムは、コーパスの中の発見を支援するためにコンピュータ情報システムとして機械リソースを用いるので、発見情報システム又は装置として表され得る。該システムは、ユーザにローカルであっても良く、或いは、例えばインターネットのようなネットワークにあるサーバとして遠隔で提供されて、例えばウェブインタフェースを介して遠隔機能を与えても良い。

本発明の実施形態の解決策は、問題定義の初めに定められる全ての要件（Ａ−単なる類似性を超える関係性の指標、Ｂ−リンクに文書コンテンツを反映する、Ｃ−グローバルなローカルない指標、Ｄ−偶然発見探索をサポートする）を目標とすることを目的とする。実施形態は、特定の文書の間の注釈付けされた概念的リンクに基づき、テキストコーパスの偶然発見探索を実現する。

文書グラフは、任意の２つの文書を一緒に結合する接続概念を含む最適化リンクを有する経路を含む。これらは、両方の文書に含まれる概念を包含するだけでなく、複数の中間概念により文書を間接的にリンクする経路も提供する。

接続概念は、文書グラフのノードとしても考えられる。各々の文書−文書リンクは、１又は複数の接続概念の形式で意味的注釈を与えられる。

前処理プロセッサは、任意の適切な重み付け方法を使用しても良い。例えば、前記前処理プロセッサは、前記エッジを重み付けするために、前記文書の中のエンティティのコーパス全体に渡る共起性及び前記文書の中のエンティティの類似性のような２つの指標を用いるよう構成されても良い。後のフィルタリングは、フィルタリングされるべき経路のエッジに関連する重みの組合せの積に基づいても良い。

候補経路のスコアリングモジュールは、経路が多くの情報を与えるか（情報性があるか）否かを評価するために有用であり得る経路速成の少なくとも２つの異なる指標を与えるために、任意の適切なスコアリングモジュールを有し得る。望ましくは、この段階におけるスコアは、文書の中の用語の単純な共起性又は類似性を含まない。それらは、より複雑な指標である。スコアは、情報性、コヒーレンス、複雑性、及び希少性１又は複数を反映しても良い。

情報性スコアリングモジュールは、情報性を反映するための各々の経路の経路エントロピーを計算するよう構成されても良く、経路エントロピー方法は、クラスタの総数に対する各々の経路にある関連するクラスタのエントロピー指標を提供するために、クラスタの分類法を用い、各々のノードを前記クラスタのうちの１つに分類し、各々の候補経路を前記候補経路にあるノード及び隣接するノードが属するクラスタと関連付けても良い。

コヒーレンススコアリングモジュールは、集約コヒーレンスを提供するために連続するノードの間の類似性に基づき、及び／又は終始コヒーレンスを与えるために前記経路の始点ノードと終点ノードとの間の類似性に基づき、各々の経路のコヒーレンスを計算するよう構成されても良い。

この状況では、２つのノードの類似性は、類似性を計算するために比較される前記ノードのコンテキストを利用する分散型類似性、又は類似性を計算するためにクラスタの階層型分類法を用いる分類法に基づく類似性、であっても良い。

経路複雑性スコアリングモジュールは、経路複雑性を計算するよう構成されても良い。例えば、ノードにおける複雑性は、該ノードの近隣にある三角形の、潜在的にそこに存在する全ての三角形に対する比であっても良く、三角形は、該ノードをその２つの相互接続される近隣に接続するサブグラフである。

経路希少性スコアリングモジュールは、経路希少性を計算するよう構成されても良い。これは、例えば、文書頻度逆数（inverse document frequency：ＩＤＦ）であっても良く、ノードのＩＤＦは、ノードが文書コーパスの中でどれくらい希少かの指標である。

ノードｔのＩＤＦ及び文書ｄを有する文書コーパスＤは次のように計算される。

最適化器は、少なくとも２つの異なる経路指標を考慮する必要がある。最適化器は、複数目的最適化を用いて経路のセットを計算し、例えば前記指標に関してパレート境界を形成する経路のセットを計算するよう構成されても良い。

望ましくは、候補経路のスコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のような２以上の対照的指標のスコアリングモジュールを有する。この場合、最適化器は、経路複雑性、エントロピー、集約経路コヒーレンス、及び希少性を最大化し、並びに最適経路セットの終始経路コヒーレンスを最小化しようとするよう構成され得る。

前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、各々の文書について、関連文書及び該関連文書を接続する経路のローカライズされたセットを生成することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成され得る。

例えば、文書グラフ生成器は、概念グラフの最適経路から開始することにより、及び最適経路に含まれる特定の文書識別子セットＤ及びグラフＧｐについて、ノード／用語からそれらを含む文書へのマッピングをＭとして以下のアルゴリズムを用いることにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成され得る。
１．Ｇｐに等しいＧｄを初期化する。
２．全ての文書ｄ∈Ｄについて、以下を行う：
ａ）Ｇｐの中のノードのセットＸを見付け、マッピングＭを用いて該ノードがｄの中に現れるようにする
ｂ）全てのノードｘ∈Ｘについて、以下を行う：
ｉ．エッジ（ｘ，ｄ）をＧｄに追加する
ｉｉ．ノードのセットＹを得て、全てのｙ∈Ｙについて、Ｇｐの中のｘとｙとの間の最短経路ｐが存在し、ｐ個のエッジに対する重みの積が減衰閾Ｅより高くなるようにする
ｉｉｉ．全てのノードｙ∈Ｙについて、以下を行う：
Ａ．マッピングＭを用いてｙを含む文書のセットＥを得る
Ｂ．全てのｅ∈Ｅについて、Ｇｄにエッジ（ｙ，ｅ）を追加する
３．グラフＧｄを返す。

候補経路にスコアを付けるよう構成されるスコアリングモジュールのうちの１又は複数は、異なる候補経路のスコアを並列して計算するためにマルチスレッドを用い得る。これは、異なる候補経路の計算が相互依存ではないように設計されるからである。

また、候補経路にスコアを付けるよう構成されるスコアリングモジュールのうちの１又は複数は、幾つかの構成経路で使用される経路の一部の結果（例えば、概念の間の１又は複数のリンク）を格納するキャッシュを用いても良い。

共にクラスタの分類法を使用する、情報性スコアリングモジュール及びコヒーレンススコアリングモジュールが存在する場合、この分類は、分類法モジュールの中で１回計算され、両方のモジュールにより使用されても良い。他の指標は、このクラスタの分類法を必要としない。

幾つかの実施形態では、前記ＧＵＩは、概念の相対的重要性を、それらの重みの観点で反映するように、概念の間を接続する接続を表示するよう構成され得る。実際の重みは表示されても良く、又は、接続は、異なる重み（そのグループ）について、異なる方法で（例えば、濃く又は異なる色で）表示されても良い。

本発明の第２の態様の実施形態によると、コンピュータプログラムであって、コンピューティング装置により実行されると、テキスト文書のコーパスに基づきグラフを生成する方法を実行し、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、ノードの間の候補経路として、より高い重みを有するノードのみを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、前記コーパスの中の事実を発見するために、前記経路の適合性の異なる特長をモデル化する少なくとも２つの指標に従って、前記候補経路にスコアを付ける段階と、最適な方法で前記のスコアリング指標を満たす経路を識別する段階と、前記最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、を有する、コンピュータプログラムが提供される。

本発明のこの態様の実施形態によると、前記ユーザは、検索語を入力し、前記検索語は、接続概念又は文書として前記検索語を含む前記グラフの少なくとも一部を表示するために使用され、及び／又は前記ユーザは、特定の概念又は文書の周りにある接続概念及び文書へと前記グラフに渡りナビゲートする、本願明細書に記載された方法に従って生成されたグラフを閲覧する使用方法が提供される。グラフ上の文書表現は、文書自体へのリンクとして機能し得る。

本発明の好適な実施形態による方法は、前述の装置の態様の任意の組合せを有することができる。これらの更なる実施形態に従う方法は、それらが処理及びメモリ容量を必要とする点で、コンピュータにより実施されるとして記載される。

好適な実施形態による装置は、特定の機能を実行するよう構成される又は配置されるとして記載される。この構成又は配置は、ハードウェア又はミドルウェア又は任意の他の適切なシステムの使用による。好適な実施形態では、構成又は配置は、ソフトウェアによる。

したがって、ある態様によると、少なくとも１つのコンピュータ装置にロードされると、該少なくとも１つのコンピュータ装置を、前述の装置の定義のいずれか又はそれらの任意の組合せに従う発見情報システムになるよう構成する、プログラムが提供される。

更なる態様によると、少なくとも１つのコンピュータ装置にロードされると、該少なくとも１つのコンピュータ装置を、前述の方法の定義のいずれか又はそれらの任意の組合せに従う方法のステップを実行させるよう構成する、プログラムが提供される。

本発明は、デジタル電子回路で、又はコンピュータハードウェア、ファームウェア、又はそれらの組合せで実装できる。本発明は、例えば１又は複数のハードウェアモジュールによる実行のための若しくはその動作の制御のための、コンピュータプログラム又はコンピュータプログラム製品、つまり情報担体に例えば機械可読非一時的記憶装置に有形に若しくは伝搬信号に具現化されたコンピュータプログラムとして実施され得る。コンピュータプログラムは、単独型プログラム、コンピュータプログラム部分又は１より多いコンピュータプログラムの形式であり、コンパイル済み若しくはインタープリット済み言語を含む任意の形式のプログラミング言語で記述でき、単独型プログラムとして又はモジュール、コンポーネント、サブルーチン若しくはデータ処理環境で使用するのに適切な他の単位を含む任意の形式で展開できる。コンピュータプログラムは、１つのモジュールで又は１箇所若しくは複数箇所に分散して置かれ通信ネットワークにより相互接続される複数のモジュールで実行されるよう配置できる。

本発明の方法のステップは、入力データに対して作用し出力を生成することにより本発明の機能を実行するためにコンピュータプログラムを実行する１又は複数のプログラマブルプロセッサにより実行されても良い。本発明の装置は、プログラミングされたハードウェアとして実装でき、又は特定目的論理回路、例えばＦＰＧＡ（field programmable gate array）又はＡＳＩＣ（application−specific integrated circuit）を含み得る。

コンピュータプログラムの実行に適したプロセッサは、例えば、汎用及び特定目的プロセッサの両方、及び任意の種類のデジタルコンピュータの１又は複数のプロセッサを含む。概して、プロセッサは、命令及びデータを読み出し専用メモリ又はランダムアクセスメモリ又はそれらの両方から受信する。コンピュータの基本要素は、命令及びデータを格納する１又は複数のメモリ装置に結合され命令を実行するプロセッサである。

本発明は、特定の実施形態の観点から記載される。他の実施形態も添付の請求の範囲に包含される。例えば、本発明のステップは、異なる順序で実行でき、依然として所望の結果を達成する。

本発明の要素は、「前処理プロセッサ」、「フィルタ」、「モジュール」、「最適化器」、「グラフ生成器」のような用語を用いて説明された。当業者は、このような用語及びそれらの等価物が、空間的に離れているが定められた機能を提供するために結合するシステムの部分を表し得ることを理解する。同様に、システムの同じ物理的部分は、２以上の定められた機能を提供しても良い。

例えば、別個に定められた手段は、適切な場合には同じメモリ及び／又はプロセッサを用いて実装されても良い。

単に例として、添付の図面を参照する。
中間概念に渡る２つの文書の間のリンクの一例である。本発明の実施形態によるシステムの概略である。本発明の実施形態による処理の概略フロー図である。テキストからの関係の抽出を示す図である。抽出された概念ネットワークの図である。抽出された概念ネットワークの中のクラスタを示す図である。経路エントロピーを計算する処理を示す図である。経路コヒーレンスを計算する処理を示す図である。クラスタの分類法の一例である。経路複雑性スコアを計算する処理を示す図である。経路のＩＤＦスコアを計算するために使用される処理を示す図である。最適経路を計算する処理を示す図である。文書グラフの中の文書−文書リンクの計算を示す図である。前の例における最適経路に起因する概念関係グラフである。前の例における最適経路に起因する文書関係グラフである。ハードウェアにおける本発明の実装の概略図である。

図２は、発見情報システム１０の中の個々のコンポーネントを示す。これらのコンポーネントは、本発明の実施形態を実行するために一緒に動作する。コンテンツインタフェース２０は、文書又は文献コーパスから、文書の各々について文書コンテンツ全体（又は場合によっては要約コンテンツ）の形式で情報を受信する。この内容は、コンテンツグラフを提供するために、前置プロセッサ３０において使用される。コンテンツグラフは、フィルタ４０によりフィルタリングされ、概念の間の関係の良好な指示になるまで、グラフのエッジを絞り込まれる。

留意すべきことに、概念又はエンティティは、文書から重要な用語を抽出する通常の処理を用いて、又は例えば特定分野若しくはオントロジに関連するコンテンツを抽出する特定の処理により、コンテンツから選択されても良い。

スコアリングモジュール５０は、基本的に並列に設けられ、スコアリングモジュール毎に１つのスコアリング指標に従って候補経路グラフにスコアを付ける。３個のスコアリングモジュールが示されるが、特定の実装に依存してより多くの又は少ない数が存在しても良い。各々のスコアリング指標は、概念のグラフを抽出する及びグラフをフィルタリングするために使用され得る単なる共起性及び類似性よりも高度且つ良好に確立された指標である。

更に留意すべきことに、スコアリング指標は、コーパス全体の中の文書の概念を結果を計算するために使用させるので、それらはより局所的な処理に限定されない。

スコアリングモジュールからのスコアは、多目的最適化技術を用いてグラフの中でどの経路が残るべきかを計算する最適化器６０に供給される。

次に、文書グラフは、文書生成器７０により生成される。この文書グラフは、ユーザからＧＵＩ８０によりアクセスされる。文書グラフは、例えば、検索語により又はグラフの視覚化から直接に文書又は概念を選択することにより、グラフへの任意のエントリポイントを可能にする。グラフは、局所化ネットワークとして見られ、コーパス内の全体的オープンエンドナビゲーションをサポートし、したがって発見を実現する。

図３は、本発明の実施形態の方法の概略であり、基本的に図２に示すシステムの構造に対応する。ステップＳ１０は、概念グラフを生成する前処理である。ステップＳ２０で、グラフのエッジは、フィルタリングされ、２つの概念の間の少ない関係を実証するこれらのエッジを除去する。ステップＳ３０で、経路は、少なくとも２つの異なるスコアリング指標でスコアを付けられる。これは、したがって、発見のための概念経路の適応度の少なくとも２つの特長をモデル化する。ステップＳ４０で、最適化技術を用いて最適経路セットが見付けられる。最後にステップＳ５０で、文書グラフが生成される。

特定の本発明の実施形態は、テキスト文書から抽出された概念のネットワークの中で重要経路を発見し、該経路を、新規な発見情報アプリケーションにおいて意味的に（概念）注釈付けされた文書−文書リンクを構築するために使用する問題を解決する。我々は、先ず、提案する解決策の高レベルワークフローを説明し、次に、本発明の実施形態の動作の中核を形成するワークフローの特定の要素に焦点を当てる。

＜概要＞
方法は、テキスト（コーパス）文書のセットを入力として取り入れ、概念を接続する経路を介して文書をリンクするグラフを生成する。コーパスに基づき発見を行う高い可能性を有する経路の計算は、本発明の実施形態の中核と考えられる。

可能な経路自体を計算する前に、前処理を用いて、例えばVit Novacek及びGully APC Burns、SKIMMR: Facilitating knowledge discovery in life sciences by machineaided skim reading、PeerJ, ２０１４に基づき、（遙かに多数の）候補経路が、生テキストから生成される。https://peerj.com/articles/４８３/から入手可能。この文書に記載の概念経路の生成は、参照により本願明細書に組み込まれる。

先ず、我々は、発行物の中の概念の間の関係を決定するために、共起性及び意味的類似性の指標と共にエンティティ（キー用語）認識を用いる。このステップの結果は、グラフ又はネットワークとして提示される。このグラフ又はネットワークから、全ての概念の間の最短経路が計算される。これらの中から、所定の閾より高い関連エッジ重みの積を有する経路が、更なる処理のために保持される。

準備段階に続く実際の文書リンク構造計算は、以下の段階を有するパイプラインで進められ得る。
１．経路のスコアリング：経路の情報性、複雑性、コヒーレンス、等の形式的モデル化に基づき、経路に関連するより高度な指標を計算する。経路をスコアリングする具体的なステップは、以下により構成される。

ａ）エンティティ（キー用語）ネットワークから階層型クラスタ構造を計算する。

ｂ）ネットワーク自体及びクラスタ構造を用いて、種々の経路スコアを計算する。

・経路エントロピー（情報値をモデル化する）
・経路コヒーレンス（トピック安定性及び経過をモデル化する）
・経路複雑性（構造的重要性をモデル化する）
・経路希少性（非自明性をモデル化する）
２．最適経路の選択：経路スコアを有する多目的最適化問題を目的として最終的タスクを定め、最適セット、例えばＰａｒｅｔｏ最適経路を見付ける。
３．文書−文書リンクの計算：文書を間接的に接続する概念により注釈付けされた文書−文書リンクを計算するために、最適概念経路を用いる。

留意すべきことに、我々は、本願明細書で幾つかの特定の始業を例として定めたが、提案した経路スコアリング及び最適化技術は、ここに定めた一般的原理に従う他の指標にまで容易に拡張可能である。

文書−文書リンクが計算されると、結果として生じたデータ構造は、所謂発見情報学の広い分野における多くのタスクに使用可能である。可能な使用例は、（例の網羅的な選択ではなく）以下の通りである。
・中間概念により注釈付けされた文書リンクをナビゲートすることによる偶然の知識発見
・任意のエントリポイントによる開かれた文献に基づく知識発見
・文書類似性又はクラスタリングの代わりに、概念的関係に基づく文書分類
・（原作者及び所属のような）文書メタデータにより可能な種々のアプリケーション
−熟練した発見（特定の概念領域に強く関連する原作者を識別する）
−（特定のトピックに関連するコミュニティを見付けるために、計算した文書リンクグラフにより示唆される原作者のネットワークを使用する）トピックコミュニティ検出。

＜詳細な実施形態＞
意味的に注釈付けされた文書リンクを用いる発見をサポートする、提案される方法は、前述のパイプラインのブロックに依存する。以下では、先ず、前処理（文書コンテンツから概念経路を計算する）で生成されるデータの種類を説明し、次に、残りの部分で中核である新規な部分に関する詳細事項を説明する。

＜前処理＞
上述の前処理は、テキストを入力として取り入れ、用語の間の共起性及び類似性関係のネットワークに基づき、テキストの中に存在する用語の間の経路のセットを生成する。これらのステップの概要は、図４に示される。図４は４段階の処理を示す。最初に、ステップＳ１００で、用語の基本的共起性が、文書コーパスから計算され、文書固有共起性関係を提供する。これは、例えば、名付けエンティティの対を抽出するテキストマイニングツールを用いることにより、次に特定の文書の中のそれらの共起性を計算することにより、可能である。ステップＳ１１０で、ポイントの観点での相互情報計算は、コーパス全体に渡る個々の文書共起性スコアを集約して、コーパス全体についての用語対のスコアを与える。ステップＳ１２０は、類似性計算であり、コーパスの観点で類似性関係を生成する。類似性は、共起性によりカバーできないエンティティ間の高レベルの種類の関係である。基本的に、２つのエンティティに関する計算は、それらがそれら両者に関連する共有されるエンティティによりどのようにリンクされるかを考慮に入れる。コサイン類似度が用いられても良い。ステップＳ１３０で、経路を生成するために、コーパスの観点の類似性関係及び共起性関係が用いられ、強く接続されない概念の間の経路を除去するよう、経路の数を削減するために、フィルタリングが用いられる。適切な前処理方法の完全な詳細事項は、Vit Novacek及びGully APC Burns、SKIMMR: Facilitating knowledge discovery in life sciences by machineaided skim reading、PeerJ, ２０１４に記載されている。https://peerj.com/articles/４８３/から入手可能。

前処理の最後の段階は、全ての予め計算された共起性及び類似性関係からグラフを構築するステップを有する。ここで、エッジは、対応する関係重みにより注釈付けされる。このグラフから、我々は、全てのノード対の間の経路を構築する。これらの経路は、次に、特にそれらのエッジに対する関係重みの積に基づき、上述のようにフィルタリングされる（閾より低い積重みを有する経路を省略する）。この基本的フィルタリングは、大きな概念ネットワークに対して、全ての可能な経路の空間の組合せ的爆発を低減するために実行される。

（例１）このようなグラフの一例は、https://peerj.com/articles/４８３/から入手可能なVit Novacek及びGully APC Burns、SKIMMR: Facilitating knowledge discovery in life sciences by machineaided skim reading、PeerJ, ２０１４から構築され、図５に示される。グラフは、既に、フィルタリングされた経路セットに対応する。我々は、方法を説明する更なる特定の詳細事項の基礎として、グラフに示される例を用いる。例は、問題の説明のために使用される遙かに簡略化された文書／概念グラフの詳細であることに留意する。例は、本章で導入されるように、本発明の実施形態の詳細事項に基づき発見情報アプリケーションをどのようにサポートできるかを実証するために拡張される。

＜経路のスコアリング＞
基本的フィルタリングは、低い統計的重要性のエッジを有する経路を除去するだけである。しかしながら、残っている経路の数は、通常、２以上の文書を有するコーパスにとっては依然として非常に大きい。これは、発見情報アプリケーションを実現するには、経路を非現実的にしてしまう。経路は、純粋に統計的フィルタリングされ難い幾らかのノイズを依然として含む。したがって、本発明の実施形態は、経路に対して複数のより高度なスコアを定める。これらのスコアは、特定の経路により表される知識の情報値、トピックコヒーレンス、及び複雑性のような特徴を効果的にモデル化する。スコアは、以下の専用の章において紹介される。

全ての指標の実装のために、本発明の実施形態は、特定の最適化を用いる。我々は、シーケンシャルプログラミングの代わりにマルチスレッドを用いる。ここで、各々のスレッドは、スコアが計算されることが想定される入力経路の（安定した又は均衡のとれた）部分を処理する。これは、任意の特定の経路についてのスコア計算の間に依存性が存在しないという事実による。共有サブ経路に基づき幾つかの経路の間で共有できる多くの繰り返し計算が存在するので、第２の最適化はキャッシングである。

＜経路エントロピー＞
経路エントロピー指標は、経路の情報コンテンツ及びそのコンテキスト、つまり経路に含まれそれに隣接するノード、を反映する。エントロピーが高いほど、より多くの情報が経路及びそのコンテキストに含まれ、発見の基礎としてより可能性が高いことを意味する。経路及びそのコンテキストのエントロピーを計算するために、先ず、ノードをクラスタに分類する必要がある。そのために、（生物医学ドメインにおけるMeSH標準語彙のような、http://www.ncbi.nlm.nih.gov/meshを参照）ドメイン固有分類法を用いるか、又は例えば階層的クラスタリング方法を用いて抽出した概念ネットワーク自体からの分類法を計算する。このような方法の１つは、Vit Novacek、A methodology for empirical analysis of LOD datasets、CoRR、abs/１４０６.１０６１, ２０１４において紹介され、参照により本願明細書に組み込まれる。

（例２）可能なクラスタリングの例は図６に示される。表示されるクラスタは、以下の通りである。
１．Ｐ−タンパク質及び関連する概念
２．Ｄ−病気及び関連する概念
３．Ｂ−生物医学的プロセス及び／又は特徴
４．Ｃ−化学及び関連する概念
５．Ｌ−細胞
６．Ｇ−遺伝子及び関連する概念
経路エントロピー計算のワークフローは、図７に示される。ステップＳ１５０は、どちらかと言えば直線的であり、全ての候補経路を、経路上の及び該経路に隣接するノードが属するクラスタセットに関連付けるステップを有する。ステップＳ１６０は、例えば以下に示すように、クラスタを用いてエントロピーを計算する。

（例３）例えば、図５からの経路ｐ：アルツハイマー病−パーキンソン病認知症−BuCheK−APOEは、クラスタＤ（病気）、Ｃ（化学）、Ｐ（タンパク質）、Ｇ（遺伝子）に関連付けられる。

経路のクラスタ注釈に基づき、経路固有クラスタボリュームを次のように定める。

ｃはクラスタ、ｐは経路、ＶＸ、ＣＸは、それぞれ経路の中のノード及び隣接するコンテキストを返す関数である。ボリュームは、経路ｐの中のノード及びそのコンテキストが特定のクラスタｃｉに属する確率Ｐ（ｃｉ，ｐ）を定めるために用いることができる。

ここで、Ｃは、所与の経路について全てのクラスタ注釈を返す関数である。この確率は、最終的に、以下の経路エントロピー定義において用いられる。

（例４）前の例からの経路のクラスタボリュームは次の通りである。

また、対応するノード−クラスタ関連付け可能性は次の通りである。

したがって、エントロピーは次の通りである。

＜経路コヒーレンス＞
我々は、意味的類似性を用いて、経路に沿った概念（ノード）のトピックコヒーレンスをモデル化する。経路にある後続のノードが互いに類似する場合、トピックは大きく変化しないことを意味する。他方で、経路の始点と終点とが類似しない場合、経路が、コーパスの中で異なるサブドメインに渡るブラウザをナビゲートする可能性を有することを意味する。経路コヒーレンススコア計算のスキーマは、図８に示される。ステップＳ１７０への入力は、経路エントロピーの場合と同じである。また、出力は、それらに付される、類似性に基づくスコアを有する経路注釈である。２つの類似性に基づくスコアが用いられ、以下に説明するように、経路コヒーレンス及び終始経路コヒーレンスを集約する。

集約経路コヒーレンスは、以下の経路の中の後続のノードについて定められる。

集約経路コヒーレンスの計算の幾つかの代替が可能である。例えば積コヒーレンスは次の通りである。

（ゼロ類似性が指標ゼロを与えるので、どちらかと言えば厳しい）。或いは平均コヒーレンスは次の通りである。

（ゼロ類似性に関してより寛容である）。

終始経路コヒーレンスは次の通り定められる。

つまり、経路にある最初のノードと最後のノードとの間の類似性である。

類似性を計算するために、我々は、分布類似性又は分類法に基づく類似性のような、手元にあるデータのために利用可能な種々のアルゴリズムを利用できる。分布類似性は、比較される要素（つまりノード）のコンテキストを利用する。一方、分類法に基づく類似性は、要素が編成される分類の特徴（多くの場合、距離及び／又は情報コンテンツ）を利用する。

特定の単純な分布の例は、次の通り定められるコサイン類似性である。

ここで、ｘはノードｘに対応するコンテキストベクトルである。ベクトルの次元は、ノードの近隣として生じ得る全ての可能なノード（つまり、抽出された概念ネットワークの中の全てのノード）に対応する。また、特定の次元の値は、ノードを接続するエッジの重みに対応する。実現可能な計算に対してコンテキストベクトル空間が大きすぎる及び／又はノイズが多すぎる場合、次元の削減が実行され得る。

分類法に基づく類似性の一例は、Wu−Palmerの研究に基づくものであり（しかし、多くの他の種類の意味的類似性が存在する）、本例では以下のように定められる。

ここで、集合Ｃ（ｘ）、Ｃ（ｙ）の中の特定のクラスタ識別子は、階層型クラスタ分類法ではノードとして解釈される（データ自体から計算されるか又は外部から提供される）。Ｉｃｓ関数は、分類法において２つのノードの最下位概念（least common subsumer）を計算する。ｄｐｔは、分類法においてノードの深さである（引数としてノードが供給されない場合、つまりＩｃｓが結果を有しない場合、ゼロとして定められる）。

（例５）経路類似性指標の特定の例を与えるために、以下に示す前の例の経路に戻る。

ｐ：アルツハイマー病−パーキンソン病認知症−BuCheK−APOE
対応するコンテキストベクトルに関連付けられる経路には４個のノードがある。例示的な概念ネットワークのベクトル空間は、２１次元（ネットワークの中のノードの総数）を有する。図２のノードに上から下へ且つ左から右へ次元番号を割り当てる場合、ｐ個のノードベクトルは、以下のマトリクスに編成され得る（普遍性を失うことなく、この特定の例を簡略化するために、既存のエッジの重みを１と仮定する）。

これらのベクトルに基づき、全ての結果として生じる終始コサイン類似性はゼロである。

分類法に基づく類似性の例を続ける前に、我々は、例えば図９に示すようなクラスタの階層型編成を導入する。タンパク質及び遺伝子（Ｐ及びＧ）クラスタは、第２のレベルのＢＢクラスタの下に置かれる（ブロックを構築する）。同様に、病気及び生物医学プロセス（Ｄ及びＢ）は、生物医学的現象（ＢＰ）の下に置かれる。細胞及び化学（Ｌ及びＣ）は、親クラスタを有しないままである。更にまばらな（sparser）表記では、略語ＡＤ、ＰＤＤにより、それぞれアルツハイマー病及びパーキンソン病認知症を表す。上述の簡易な分類法を用いて、経路ｐにある結果として生じるノードの間の類似性は、次の通りである。

留意すべきことに、深さは、仮想分類法の最上位根からの距離として定められ、実際の最上位ノードは深さ１を有する。したがって、平均経路コヒーレンスは、ＭＣ（ｐ）＝^１（１＋０＋０．５）＝０．５である。終始コヒーレンスｒは、ゼロの深さを有する（仮想最上位ノード）。

＜経路複雑性＞
複雑な情報ほど、発見を行う高い可能性を有し得る。したがって、経路及び周囲のノードの複雑性をモデル化する必要もある。処理のスキーマは、図１０に示される。ステップＳ１８０で使用する複雑性の特定の指標は、経路に沿って直ぐにある近隣ノードに関して計算される、経路にあるノードの平均クラスタ係数である。単一ノードｖでは、クラスタ係数は次の通りである。

ここで、Ｎ（ｖ）はｖの近隣セットであり、Ｅは既存のグラフエッジセットである。

言い換えると、クラスタ係数は、ノードの近隣に存在する三角形の、場合によってはそこに存在し得る全ての三角形に対する比である。ここで、三角形は、対象であるノードを、その２つの相互接続された近隣と接続するサブグラフである。次に、経路の複雑性は、該経路にあるノードのクラスタ係数の算術平均として測定される。

（例６）前の例で使用した経路のクラスタ係数は、そのコンテキストの中に三角形が存在しないので、ゼロである。しかしながら、別の例示的な経路は次の通りである。ｑ：パーキンソン病認知症−MPP−星状膠細胞これは、（「有毒代謝物」と共に）「ＭＰＰ」及び「星状膠細胞」ノードにより共有される１つの三角形が存在するので、１／６の複雑性を有し、結果として、経路にあるノードについて個々のクラスタ係数０、１／３、１／６を生じる。

＜経路希少性＞
経路が、コーパスの中の多くの文書の中に現れるノードを含む場合、該経路は、全てを仮想的に接続させることができる。これは、精細な発見のための経路の可能性を低くする。これについてのリスクは、別の指標、つまり、コーパスの中の特定のノードがどれだけ希少であるかの指標である、経路ノードの文書頻度逆数（inverse document frequency：ＩＤＦ）を考慮に入れることにより、低下され得る。スコア計算のスキーマは、図１１に示される。

ステップＳ１９０のＩＤＦ指標は、ノード／用語ｔ及び文書コーパスＤについて、次のように定められる。

経路のＩＤＦスコアを測定するために、我々は、最小又は算術平均のような、特定のノードのスコアを集約する幾つかの手段を用いることができる（Ｓ２００）。

（例７）前の例で導入された経路のＩＤＦスコアは、以下の、用語の絶対文書頻度に基づく。ｐ：アルツハイマー病／６−パーキンソン病認知症／２−BuCheK／１−APOE／１２、ｑ：パーキンソン病認知症／２−MPP／７−星状膠細胞／８、パーキンソン病コーパスの中の文書の総数は４７２４なので、経路にあるノードのＩＤＦスコアは次の通りである（１０を底とする対数）。ｐ：アルツハイマー病／ｌｏｇ（４７２４／６）≒２．８９６−パーキンソン病認知症／ｌｏｇ（４７２４／２）≒３．３７３−BuCheK／ｌｏｇ（４７２４／１）≒３．６７４−APOE／ｌｏｇ（４７２４／１２）≒２．５９５、ｑ：パーキンソン病認知症／ｌｏｇ（４７２４／２）≒３．３７３−MPP／ｌｏｇ（４７２４／７）≒２．８２９−星状膠細胞／ｌｏｇ（４７２４／８）≒２．７７１、
ｐの集約スコアは、２．７７１又は２．９９１（それぞれ最小又は平均）である。同様にｑの集約スコアは２．５９５又は３．１３５である。

＜最適経路の選択＞
前の章で導入された指標は、経路が発見を行う可能性を反映する、経路の種々の特長をモデル化する。しかしながら、指標のうちの幾つかは非常に複雑に相互依存しており他の指標は実際に現実問題として衝突し得るので、単に指標を有するだけでは特に助けにならない。どの経路が全体において最も良く指標を満たすかを見出すために、例えば［１］Agoston E. Eiben及びJ.E. Smith、Multi−modal problems and spatial distribution、Agoston E. Eiben及びJ.E. Smith、editors、Introduction to Evolutionary Computing、Springer、２００７に定められるような多目的最適化タスクのような問題にアプローチする必要がある。具体的には、本例では、スコア注釈目的ベクトル（score annotation objective vector）に関して、所謂パレート境界（Pareto frontier）を形成する経路セットを計算する。これは、他の目的のうちの少なくとも１つを下げることなく、目的のうちのいずれにおいても向上され得ない解決策の領域である（つまり、経路）。これは、通常、重要な発見を行う可能性を最大化する、遙かに縮小した経路セットを生成する。

最適化方法のスキーマは、図１２に示される。方法は、経路及び該経路のスコア注釈を入力として取り入れ、提供されたパラメータに従ってスコア注釈ベクトルの値を調整し、それらが一様に最適化されるようにし、次に、ステップＳ２１０で最適化自体を実行して、パレート最適経路のリストを生成する。

最適化技術は、各々の解に関連する指標のベクトルに作用する。ここで、指標は、特定の解の適合性の何らかの特長を反映するものとする。伝統的に、解ベクトルの中の全ての値は、最適解の中で最小化されるものとする。パレート最適化において重要な留意点は、優勢性である。つまり、全てのインデックスｉ∈｛１，．．．，ｋ｝についてｆ_ｉ（ｘ^１）≦ｆ_ｉ（ｘ^２）、及び少なくとも１つのインデックスｉ∈｛１，．．．，ｋ｝についてｆ_ｉ（ｘ^１）＜ｆ_ｉ（ｘ^２）の場合、解ｘ１は、解ｘ２より優勢である。

ここで、ｋは解ベクトルの中の要素（つまり指標）の数であり、ｆ_ｉ（ｘ）関数は、解ｘに関連するベクトルのｉ番目の要素を返す。解は、いかなる他の解も優勢でない場合、パレート最適と呼ばれる。

特定の最適化パラメータを定めるとき、次の特定の直感的仮定に従う。
１．より複雑な環境を通る経路は、ユーザにとってより多くの情報を与える。したがって、経路複雑性は最大化されるべきである。
２．多くの高度に均衡のとれた（つまりエントロピー）トピックにより囲まれる経路は、より多くの情報を与えるので、エントロピーは最大化されるべきである。
３．途中で次第にトピックの変化するコヒーレント経路は、より良いので（リンクされたテキストへの途上で、あるトピックから別のトピックへの無秩序状態の少ない、より焦点の絞られた経過）、集約された経路コヒーレンスは最大化されるべきである。
４．トピックの観点から遠い（非コヒーレント）領域で終わるとき（トピックを通じて経過が段階的である、つまりランダムさが少ない）、より興味深いので、終始経路コヒーレンスは最小化されるべきである。
５．経路は、テキストの中で非常に頻度の高い（つまり、明らかな）多くのノードを含むべきではないので、経路ＩＤＦスコアは最大化されるべきである。
これらの条件は、経路スコアベクトルのどの値が最大化され及びどれが最小化されるべきかを定める最適化パラメータに直接影響を与える。パレート効率問題は、上述のように解ベクトルの中の全ての要素の最小化として定められるので、以下の例に示すように、最大化されると想定される全てのスコアを無効にしなければならない。
（例８）前に導入された経路ｐ、ｑについての指標は表に整理できる。

コヒーレンス値は、それぞれコサイン及び分類法に基づく類似性について２重である（two−fold）。ＩＤＦスコアのために、本例では平均値を用いる。終始コヒーレンス以外の全てのスコアを最大化したいので、経路の解ベクトルは次の通りに見える（コサイン類似性のみを考慮に入れる）。
ｐ：（−１．７５，０，０，０，−２．９９１）、ｑ：（−２．１２６，−０．２５，０．２５，−０．１６７，−３．１３５）
いずれの経路も互いに優勢ではないので、これらの経路の各々は、所与の例で最適解の部分である可能性がある。

＜文書−文書リンクの計算＞
提示の方法の最後のステップは、特定の文書の間のリンクを計算するために、最適経路を用いる。処理のスキーマは、図１３に示される。先ず、最適経路に起因するグラフが計算される。これは、最適経路のノード及びエッジを新しいグラフのエッジとして取り入れ、及び元の抽出されたグラフから対応する重みにより該エッジに注釈付けすることにより、行われる。新しいグラフは、次に、任意の所与の文書識別子について、関連する文書及び該文書を接続する経路のローカライズされたセットを生成するために使用され得る。文書識別子の特定のセットＤ、及び最適経路に起因するグラフＧｐについて、これは、以下のアルゴリズムを用いて行われる（ノード／用語からそれらを含む文書へのマッピングをＭとする）。
１．Ｇｐに等しいＧｄを初期化する
２．全ての文書ｄ∈Ｄについて、以下を行う：
ａ）Ｇｐの中のノードのセットＸを見付け、該ノードがｄの中に現れるようにする（マッピングＭを用いて）
ｂ）全てのノードｘ∈Ｘについて、以下を行う：
ｉ．エッジ（ｘ，ｄ）をＧｄに追加する
ｉｉ．ノードのセットＹを得て、全てのｙ∈Ｙについて、Ｇｐの中のｘとｙとの間の最短経路ｐが存在し、ｐ個のエッジに対する重みの積が減衰閾Ｅより高くなるようにする
ｉｉｉ．全てのノードｙ∈Ｙについて、以下を行う：
Ａ．（マッピングＭを用いて）ｙを含む文書のセットＥを得る
Ｂ．全てのｅ∈Ｅについて、Ｇｄにエッジ（ｙ，ｅ）を追加する
３．グラフＧｄを返す。

結果として得られるグラフは、以下の例９において説明するように、文献に基づく発見をサポートする新規な方法において元の文書コーパスをナビゲートするために使用され得る。留意すべきことに、Ｇｄグラフは、Ｇｄを用いる特定のアプリケーションの必要に応じて、Ｇｐからのエッジ重みを有し又は有しないで初期化されても良い。文書コーパスをナビゲートするためにのみ必要な場合、エッジは既に最適化処理によりフィルタリングされているので、重みは必ずしも必要ではない。しかしながら、接続のランク付けが必要な場合、重みは、その目的のために都合良く使用され得る。また、結果として生じるグラフの中の全ての頂点及びエッジに関連する経路指標を簡単に辿ることができる。これは、また、Ｇｐエッジ重みと同様に使用され得る。

（例９）経路ｐ、ｑは例示的な抽出されたグラフの中の単なる非優勢経路であると仮定する（しかしながら、これは、２００個以上の可能な経路を有するこのような比較的単純なグラフの場合でも状況がより複雑なので、実際には真ではないことに留意する）。経路ｐ、ｑに起因するグラフは図１４に示される。本例のために、エッジにファジー重みを関連付ける。ファジー重みは、関連する文書の対を生成するとき、グラフトラバースの中の減衰を説明できる。

MPPノード（簡潔さのために簡易化される）を指すＰｕｂＭｅｄ文書識別子（ＰＭＩＤ）２５５９６５３１及び２５０６１０５１から開始する。対応する経路はそれぞれ０．９、０．６７５、０．６７５の集約（積）重みを有し、一方、他の可能な経路は０．５の積重みと交差しないとき、減衰閾Ｅは０．５に設定され、ＭＰＰからアクセス可能なノードはパーキンソン病認知症、アルツハイマー病、及びＢｕＣｈｅＫであると仮定する。以下の関連するノード−文書ＰＭＩＤ関連付けを検討する（ここでも、現実にはもっと多くが存在するので、簡略化される）。

パーキンソン病認知症：２５４９９０２２
アルツハイマー病：２５６１９２３０、２５６１４９５４
BuCheK：１９００６１９０
図１５に示す文書−文書接続のグラフが生成され得る。

図１６は、発見情報システムの実装を示す。ここで、ユーザは、インターネットを介してシステムにアクセスするローカルマシン１００の場所に居る。ユーザは、システムが事実上置かれるサーバ２００により提供されるＧＵＩを介してシステムとインタフェースする。このサーバは、文書コンテンツ及び計算された文書グラフの知識ベースＫＢを有し、ＧＵＩを介してユーザにグラフを表示させる。知識ベース２０は、データ記憶装置の中に収容される。データ記憶装置は、コンピュータ実行可能命令を実行する又は格納されたデータ構造を有するよう構成される単一の媒体又は複数の媒体（例えば、集中型又は分散型データベース及び／又は関連するキャッシュ及びサーバ）を表し得るコンピュータ可読媒体を有しても良い。コンピュータ実行可能命令は、例えば、汎用コンピュータ、特定目的コンピュータ又は特定目的処理装置（例えば、１又は複数のプロセッサ）によりアクセス可能であり及び１又は複数の機能又は工程を実行させる命令及びデータを有しても良い。したがって、用語「コンピュータ可読記憶媒体」は、機械による実行のために命令セットを格納しエンコードし又は持ち運ぶことが可能であり、機械に本開示の方法のうち任意の１又は複数を実行させる任意の媒体も含み得る。用語「コンピュータ可読記憶媒体」は、固体メモリ、光学媒体及び磁気媒体を含むと考えられるが、これらに限定されない。例として且つ限定ではなく、このようなコンピュータ可読媒体は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read−Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read−Only Memory）、ＣＤ−ＲＯＭ（Compact Disc Read−Only Memory）又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶装置を含む非一時的若しくは有形コンピュータ可読記憶媒体、又は他の媒体、フラッシュメモリ装置（例えば、固体メモリ装置）を有し得る。

サーバは、プロセッサを用いてグラフを提供するために必要な処理も含む。

本願明細書で使用されるとき、プロセッサは、マイクロプロセッサ、中央処理ユニット、等のような１又は複数の汎用処理装置を含み得る。プロセッサは、ＣＩＳＣ（complex instruction set computing）マイクロプロセッサ、ＲＩＳＣ（reduced instruction set computing）マイクロプロセッサ、ＶＬＩＷ（very long instruction word）マイクロプロセッサ、又は他の命令セットを実施するプロセッサ、若しくは命令セットの組合せを実施するプロセッサを含み得る。プロセッサは、ＡＳＩＣ（application specific integrated circuit）、ＦＰＧＡ（field programmable gate array）、ＤＳＰ（digital signal processor）、ネットワークプロセッサ、等のような１又は複数の特定目的処理装置も含み得る。１又は複数の実施形態では、プロセッサは、本願明細書で議論する工程又はステップを実行する命令を実行するよう構成される。

図は、テキスト文書を格納するデータベース３０も示す。もちろん、文書は、幾つかの異なるソースから提供され又はシステムにより提供されても良い。いずれの場合にも、それらのコンテンツ（要約の形式で、又は文書コンテンツ全体、及び文書コンテンツの任意の他の適切な部分）は、概念グラフ及び次に文書グラフを生成するために、ダウンロードされ、格納される。
＜概要＞
提示の実施形態は、多くの特定のステップを有するが、これらのステップは、発見情報学における多くのタスクに適用可能な非常に明らかに焦点の絞られたソリューションを実施する。ステップの組合せは、重要でありユニークである。対応する研究プロトタイプによる実験により示されたように、方法の実装は、他の関連するアプローチより優れている。

本発明の実施形態は、文献のコーパスからの中間概念により注釈付けされた文書−文書リンクを生成する汎用的な方法を提供する。当該方法は、以下の段階を有する。
ａ）文書から概念ネットワークを抽出する。ここで、ノード、つまり概念は、重要な名付けエンティティにより表され、エッジは、共起性、類似性、又は可能な他の意味的関係のような重み付けされた関係である。ｂ）重みは、特定の関係の相対的重要度を表す。
ｂ）入力コーパスに基づき発見をサポートし得る概念−概念経路のセットを生成する。
ｃ）経路の情報性、コヒーレンス、複雑性及び希少性に従って経路をスコアリングする。
ｄ）最適な方法で全てのスコアを満たす経路を識別する。
ｅ）最適化された経路により示唆されるグラフに基づき、文書間の接続のグラフを生成する。

実施形態は、情報性、コヒーレンス、複雑性及び希少性の良く確立された指標を用いて発見を行う概念経路の可能性を定める特定の方法を提供する。

実施形態は、文書頻度逆数を用いる希少性の指標の特定の定義を提供する。

実施形態は、複数スレッド及びキャッシングを用いて指標を計算する特定の最適化された方法を提供する。

実施形態は、最も有望なセットへの経路を精緻化するために、目的として特定の指標による多目的最適化の特定の拡張可能な方法を提供する。指標は、本願明細書で例として明示的に記載され、或いは、対応する章において本願明細書で定められた特性を有する他の指標であり得る。

実施形態は、最適化された経路に基づく文書間の概念注釈付けされたリンクを有するグラフを構築する特定の方法を提供する。

以上の実施形態に加えて、以下の付記を開示する。
（付記１）テキスト文書のコーパスに基づきグラフを生成するよう構成される発見情報システムであって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、
前記コーパスの中の前記テキスト文書から文書コンテンツをダウンロードするよう構成されるコンテンツインタフェースと、
前記文書コンテンツから概念グラフを抽出するよう構成される前処理プロセッサであって、前記概念グラフのノードは前記概念を表し、前記概念は前記文書の中のエンティティであり、ノード対の間の重み付けされたエッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、前処理プロセッサと、
前記ノードの間の前記重み付けされたエッジをフィルタリングして、全ての概念の間の候補経路を提供するより高い重みを有するエッジを保持するよう構成されるフィルタと、
少なくとも２つのスコアリングモジュールであって、それぞれスコアリング指標に従って前記候補経路にスコアを付けるよう構成され、指標は、前記コーパスの中の事実を発見する経路の適合性の異なる特長をモデル化する、少なくとも２つのスコアリングモジュールと、
最適な方法で前記スコアリング指標を満たす前記概念グラフの最適化された経路を識別するよう構成される最適化器と、
前記最適化された経路に基づき、文書間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成するよう構成される文書グラフ生成器と、
前記コーパスの中の事実を発見するために、ユーザに文書グラフを閲覧しナビゲートさせるよう構成されるグラフィカルユーザインタフェース（ＧＵＩ）と、
を有するシステム。
（付記２）前記前処理プロセッサは、前記エッジを重み付けするために、前記文書の中のエンティティのコーパス全体に渡る共起性及び前記文書の中のエンティティの類似性のような２つの指標を用いるよう構成される、付記１に記載のシステム。
（付記３）前記フィルタリングは、フィルタリングされるべき経路のエッジに関連する重みの組合せの積に基づく、付記２に記載のシステム。
（付記４）前記候補経路の前記スコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のうちの１又は複数のためのスコアリングモジュールを有する、付記１乃至３のいずれか一項に記載のシステム。
（付記５）情報性スコアリングモジュールは、情報性を反映するための各々の経路の経路エントロピーを計算するよう構成され、経路エントロピー方法は、クラスタの総数に対する各々の経路にある関連するクラスタのエントロピー指標を提供するために、クラスタの分類法を用い、各々のノードを前記クラスタのうちの１つに分類し、各々の候補経路を前記候補経路にあるノード及び隣接するノードが属するクラスタと関連付ける、付記１乃至４のいずれか一項に記載のシステム。
（付記６）コヒーレンススコアリングモジュールは、集約コヒーレンスを提供するために連続するノードの間の類似性に基づき、及び／又は終始コヒーレンスを与えるために前記経路の始点ノードと終点ノードとの間の類似性に基づき、各々の経路のコヒーレンスを計算するよう構成される、付記１乃至５のいずれか一項に記載のシステム。
（付記７）２つのノードの類似性は、類似性を計算するために比較される前記ノードのコンテキストを利用する分散型類似性、又は類似性を計算するために階層型クラスタ分類法を用いる分類法に基づく類似性、である、付記６に記載のシステム。
（付記８）経路複雑性スコアリングモジュールは、経路複雑性を計算するよう構成され、ノードにおける複雑性は、前記ノードの近隣にある三角形のそこに存在する可能性のある全ての三角形に対する比であり、三角形は、ノードを該ノードの相互接続された近隣と接続するサブグラフである、付記１乃至７のいずれか一項に記載のシステム。
（付記９）経路希少性スコアリングモジュールは、文書頻度逆数（ＩＤＦ）として経路希少性を計算するよう構成され、ノードのＩＤＦは、前記ノードが文書コーパスの中でどれくらい希少であるかの指標である、付記１乃至８のいずれか一項に記載のシステム。
（付記１０）ノードｔ及び文書ｄを有する文書コーパスＤに対するＩＤＦは、

のように計算される、付記９に記載のシステム。
（付記１１）前記最適化器は、複数目的最適化を用いて経路セットを計算し、例えば前記指標に関してパレート境界を形成する経路セットを計算するよう構成される、付記１乃至１０のいずれか一項に記載のシステム。
（付記１２）前記候補経路のスコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のためのスコアリングモジュールを有し、前記最適化器は、最適経路セットの経路複雑性、エントロピー、集約された経路コヒーレンス、及び希少性を最大化し、終始経路コヒーレンスを最小化しようとするよう構成される、付記１乃至１１のいずれか一項に記載のシステム。
（付記１３）前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、各々の文書について、関連文書及び該関連文書を接続する経路のローカライズされたセットを生成することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成される、付記１乃至１２のいずれか一項に記載のシステム。
（付記１４）前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、特定の文書識別子セットＤ及び最適経路に起因するグラフＧｐについて、ノード／用語から文書へのマッピングをＭとして、以下のアルゴリズム：
（１）グラフＧｄをＧｐに等価に初期化し、
（２）全ての文書ｄ∈Ｄについて、
ａ）Ｇｐの中のノードセットＸを見付け、前記マッピングＭを用いてそれらがｄの中に現れるようにし、
ｂ）全てのノードｘ∈Ｘについて、
ｉ．エッジ（ｘ，ｄ）をＧｄに追加し、
ｉｉ．ノードセットＹを得て、全てのｙ∈Ｙについて、Ｇｐの中のｘとｙとの間の最短経路ｐが存在し、ｐ個のエッジに対する重みの積が減衰閾Ｅより大きくなるようにし、
ｉｉｉ．全てのノードｙ∈Ｙについて、
Ａ．前記マッピングＭを用いてｙを含む文書セットＥを得て、
Ｂ．全てのｅ∈ＥについてＧｄにエッジ（ｙ，ｅ）を追加し、
（３）前記グラフＧｄを返す、
を使用することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成される、付記１乃至１３のいずれか一項に記載のシステム。
（付記１５）前記候補経路にスコアを付けるよう構成される前記スコアリングモジュールのうちの１又は複数は、異なる候補経路のスコアを並列に計算するためにマルチスレッドを用いる、付記１乃至１４のいずれか一項に記載のシステム。
（付記１６）前記候補経路にスコアを付けるよう構成される前記スコアリングモジュールのうちの１又は複数は、幾つかの候補経路で用いられる経路の一部についての結果を格納するキャッシュを用いる、付記１乃至１５のいずれか一項に記載のシステム。
（付記１７）前記スコアリングモジュールは、情報性スコアリングモジュール及びコヒーレンススコアリングモジュールを有し、両方ともクラスタ分類法を使用し、両方のモジュールにより使用される分類法モジュールはこの分類を計算するよう構成される、付記１乃至１６のいずれか一項に記載のシステム。
（付記１８）前記ＧＵＩは、概念の相対的重要性を、それらの重みの観点で反映するように、接続概念の間の接続を表示するよう構成される、付記１乃至１７のいずれか一項に記載のシステム。
（付記１９）テキスト文書のコーパスに基づきグラフを生成する方法であって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、
文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、
ノードの間の候補経路として、より高い重みを有するノードを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、
前記コーパスの中の事実を発見するために、経路の適合性の異なる特長をモデル化する少なくとも２つの指標に従って、前記候補経路にスコアを付ける段階と、
最適に前記のスコアリング指標を満たす経路を識別する段階と、
最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、
を有する方法。
（付記２０）ユーザは、検索語を入力し、前記検索語は、接続概念又は文書として前記検索語を含む前記グラフの少なくとも一部を表示するために使用され、及び／又は前記ユーザは、特定の概念又は文書の周りにある接続概念及び文書へと前記グラフに渡りナビゲートする、付記１９に従って生成されたグラフを閲覧する使用方法。
（付記２１）コンピュータプログラムであって、コンピューティング装置により実行されると、テキスト文書のコーパスに基づきグラフを生成する方法を実行し、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、
文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、
ノードの間の候補経路として、より高い重みを有するノードを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、
前記コーパスの中の事実を発見するために、経路の適合性の異なる特長をモデル化する少なくとも２つの指標に従って、前記候補経路にスコアを付ける段階と、
最適に前記のスコアリング指標を満たす経路を識別する段階と、
最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、
を有する、コンピュータプログラム。

１０発見情報システム
２０コンテンツインタフェース
３０前処理プロセッサ
４０フィルタ
５０スコアリングモジュール
６０最適化器
７０文書グラフ生成器
８０ＧＵＩ

Claims

テキスト文書のコーパスに基づきグラフを生成するよう構成される発見情報システムであって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、
前記コーパスの中の前記テキスト文書から文書コンテンツをダウンロードするよう構成されるコンテンツインタフェースと、
前記文書コンテンツから概念グラフを抽出するよう構成される前処理プロセッサであって、前記概念グラフのノードは前記概念を表し、前記概念は前記文書の中のエンティティであり、ノード対の間の重み付けされたエッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、前処理プロセッサと、
前記ノードの間の前記重み付けされたエッジをフィルタリングして、全ての概念の間の候補経路を提供するより高い重みを有するエッジを保持するよう構成されるフィルタと、
少なくとも２つのスコアリングモジュールであって、それぞれスコアリング指標に従って前記候補経路にスコアを付けるよう構成され、指標は、前記コーパスの中の事実を発見する経路の適合性の異なる特長をモデル化する、少なくとも２つのスコアリングモジュールと、
最適な方法で前記スコアリング指標を満たす前記概念グラフの最適化された経路を識別するよう構成される最適化器と、
前記最適化された経路に基づき、文書間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成するよう構成される文書グラフ生成器と、
前記コーパスの中の事実を発見するために、ユーザに文書グラフを閲覧しナビゲートさせるよう構成されるグラフィカルユーザインタフェース（ＧＵＩ）と、
を有するシステム。
前記前処理プロセッサは、前記エッジを重み付けするために、前記文書の中のエンティティのコーパス全体に渡る共起性及び前記文書の中のエンティティの類似性のような２つの指標を用いるよう構成される、請求項１に記載のシステム。
前記フィルタリングは、フィルタリングされるべき経路のエッジに関連する重みの組合せの積に基づく、請求項２に記載のシステム。
前記候補経路の前記スコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のうちの１又は複数のためのスコアリングモジュールを有する、請求項１乃至３のいずれか一項に記載のシステム。
情報性スコアリングモジュールは、情報性を反映するための各々の経路の経路エントロピーを計算するよう構成され、経路エントロピー方法は、クラスタの総数に対する各々の経路にある関連するクラスタのエントロピー指標を提供するために、クラスタの分類法を用い、各々のノードを前記クラスタのうちの１つに分類し、各々の候補経路を前記候補経路にあるノード及び隣接するノードが属するクラスタと関連付ける、請求項１乃至４のいずれか一項に記載のシステム。
コヒーレンススコアリングモジュールは、集約コヒーレンスを提供するために連続するノードの間の類似性に基づき、及び／又は終始コヒーレンスを与えるために前記経路の始点ノードと終点ノードとの間の類似性に基づき、各々の経路のコヒーレンスを計算するよう構成される、請求項１乃至５のいずれか一項に記載のシステム。
２つのノードの類似性は、類似性を計算するために比較される前記ノードのコンテキストを利用する分散型類似性、又は類似性を計算するために階層型クラスタ分類法を用いる分類法に基づく類似性、である、請求項６に記載のシステム。
経路複雑性スコアリングモジュールは、経路複雑性を計算するよう構成され、ノードにおける複雑性は、前記ノードの近隣にある三角形のそこに存在する可能性のある全ての三角形に対する比であり、三角形は、ノードを該ノードの相互接続された近隣と接続するサブグラフである、請求項１乃至７のいずれか一項に記載のシステム。
経路希少性スコアリングモジュールは、文書頻度逆数（ＩＤＦ）として経路希少性を計算するよう構成され、ノードのＩＤＦは、前記ノードが文書コーパスの中でどれくらい希少であるかの指標である、請求項１乃至８のいずれか一項に記載のシステム。
ノードｔ及び文書ｄを有する文書コーパスＤに対するＩＤＦは、

のように計算される、請求項９に記載のシステム。
前記最適化器は、複数目的最適化を用いて経路セットを計算し、例えば前記指標に関してパレート境界を形成する経路セットを計算するよう構成される、請求項１乃至１０のいずれか一項に記載のシステム。
前記候補経路のスコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のためのスコアリングモジュールを有し、前記最適化器は、最適経路セットの経路複雑性、エントロピー、集約された経路コヒーレンス、及び希少性を最大化し、終始経路コヒーレンスを最小化しようとするよう構成される、請求項１乃至１１のいずれか一項に記載のシステム。
前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、各々の文書について、関連文書及び該関連文書を接続する経路のローカライズされたセットを生成することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成される、請求項１乃至１２のいずれか一項に記載のシステム。
前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、特定の文書識別子セットＤ及び最適経路に起因するグラフＧｐについて、ノード／用語から文書へのマッピングをＭとして、以下のアルゴリズム：
（１）グラフＧｄをＧｐに等価に初期化し、
（２）全ての文書ｄ∈Ｄについて、
ａ）Ｇｐの中のノードセットＸを見付け、前記マッピングＭを用いてそれらがｄの中に現れるようにし、
ｂ）全てのノードｘ∈Ｘについて、
ｉ．エッジ（ｘ，ｄ）をＧｄに追加し、
ｉｉ．ノードセットＹを得て、全てのｙ∈Ｙについて、Ｇｐの中のｘとｙとの間の最短経路ｐが存在し、ｐ個のエッジに対する重みの積が減衰閾Ｅより大きくなるようにし、
ｉｉｉ．全てのノードｙ∈Ｙについて、
Ａ．前記マッピングＭを用いてｙを含む文書セットＥを得て、
Ｂ．全てのｅ∈ＥについてＧｄにエッジ（ｙ，ｅ）を追加し、
（３）前記グラフＧｄを返す、
を使用することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成される、請求項１乃至１３のいずれか一項に記載のシステム。
前記候補経路にスコアを付けるよう構成される前記スコアリングモジュールのうちの１又は複数は、異なる候補経路のスコアを並列に計算するためにマルチスレッドを用いる、請求項１乃至１４のいずれか一項に記載のシステム。
前記候補経路にスコアを付けるよう構成される前記スコアリングモジュールのうちの１又は複数は、幾つかの候補経路で用いられる経路の一部についての結果を格納するキャッシュを用いる、請求項１乃至１５のいずれか一項に記載のシステム。
前記スコアリングモジュールは、情報性スコアリングモジュール及びコヒーレンススコアリングモジュールを有し、両方ともクラスタ分類法を使用し、両方のモジュールにより使用される分類法モジュールはこの分類を計算するよう構成される、請求項１乃至１６のいずれか一項に記載のシステム。
前記ＧＵＩは、概念の相対的重要性を、それらの重みの観点で反映するように、接続概念の間の接続を表示するよう構成される、請求項１乃至１７のいずれか一項に記載のシステム。
テキスト文書のコーパスに基づきグラフを生成するためのコンピュータが実行する方法であって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、
文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、
ノードの間の候補経路として、より高い重みを有するノードを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、
前記コーパスの中の事実を発見するために、経路の適合性の異なる特長をモデル化する少なくとも２つの指標に従って、前記候補経路にスコアを付ける段階と、
最適に前記のスコアリング指標を満たす経路を識別する段階と、
最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、
を有する方法。
ユーザは、前記コンピュータに検索語を入力し、
前記コンピュータが、入力に応じて、接続概念又は文書として前記検索語を含む前記グラフの少なくとも一部を表示する、請求項１９に記載の方法。
コンピュータプログラムであって、コンピューティング装置により実行されると、テキスト文書のコーパスに基づきグラフを生成する方法を実行し、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、
文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、
ノードの間の候補経路として、より高い重みを有するノードを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、
前記コーパスの中の事実を発見するために、前経路の適合性の異なる特長をモデル化する少なくとも２つの指標に従って、前記候補経路にスコアを付ける段階と、
最適に前記のスコアリング指標を満たす経路を識別する段階と、
最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、
を有する、コンピュータプログラム。