JP6686628B2 - 発見情報学システム、方法、及びコンピュータプログラム - Google Patents

発見情報学システム、方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP6686628B2
JP6686628B2 JP2016068450A JP2016068450A JP6686628B2 JP 6686628 B2 JP6686628 B2 JP 6686628B2 JP 2016068450 A JP2016068450 A JP 2016068450A JP 2016068450 A JP2016068450 A JP 2016068450A JP 6686628 B2 JP6686628 B2 JP 6686628B2
Authority
JP
Japan
Prior art keywords
document
path
graph
nodes
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016068450A
Other languages
English (en)
Other versions
JP2016212838A (ja
Inventor
ノヴァチェク・ヴィート
ダーラ・スワーダ アル
ダーラ・スワーダ アル
ヴァンデンブッシェ・ピエール−イヴ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2016212838A publication Critical patent/JP2016212838A/ja
Application granted granted Critical
Publication of JP6686628B2 publication Critical patent/JP6686628B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/01Automatic library building

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コーパス(又は文書のセット)の中のテキスト文書の間のリンクの自動計算に関する。
本発明の実施形態は、明らかに無関係な文書によってさえもカバーされるエンティティ(又は概念)間の潜在的リンクを用いることにより、コーパスにより引き起こされるこれまで分からなかった複雑な事実を発見するプロセスを実現することを目的とする。これは、既存の知識の間の新しい関係を発見するために論文及び他の学術的発行物を使用することを表す、文献に基づく発見の分野にある。この分野はD.R.Swansonにより開拓された。この技術の1つの進歩は、A及びBに直接又は間接的に関連する中間文書からの概念を用いて、独立した文書A及びBの中の2つの知識ピースを接続するSwansonリンクである。関連する研究及び開発の次の分野は、文書類似指標又は文書クラスタリング(類似する文書を1つのセットに一緒にグループ化する)を用いる文書間のリンクの発見に関する、広く大規模に研究されている情報検索の分野である。この分野は対話型発見にむしろ間接的に関連するが、その動機(つまり、テキストからの知識発見を実現すること)は類似する。
文書類似性/クラスタリング分野の成熟にもかかわらず、従来技術を改善する多くの余地が残されたままである。既存の解決策は、殆どが、特定の文書の形式的セマンティック表現を計算することに焦点を当て、次にこれらの表現の空間に種々のメトリックを定める。このメトリックは、後に、文書又は文書クラスタの類似対を識別するために用いられる。このような解決策は、特定のローカルな特徴を共有する文書間のリンクを要求する使用例で効果的に動作する。しかしながら、文書の同系性の広い定義が必要な使用例がある。例えば、限られた関心セットにのみ焦点を当てるために、長大な文書の意味を素早く理解する必要がある場合を考える。これは、基本的に全ての知識労働者が情報過多により影響を受ける今日に、非常に当てはまる場合である。1つの標準的な例は、論文テーマを選定しており且つ初めは慣れない長大な文献を処理する必要のある大学院生である。別の例は、主要な専門に関係の無い研究分野の基本を素早く把握する必要がある場合の多い、学際的分野の専門家である。
このような例では、類似性に基づく文書リンク又はクラスタは、幾つかの理由で、それら自体では助けにならない。通常、コーパスの中のどこから開始すべきか分からない。したがって、リンクネットワークは、どこから開始するかに係わらず、その内容の大部分の探索を可能にすべきである。所謂「小世界特性」(ノードが互いから少数のステップで到達できる)を有するネットワークは、この要件を満たす。しかし、伝統的方法により生成された文書ネットワークは、通常、独立成分のセットとして構造化される。したがって、伝統的方法により計算されたリンクを辿ると、文書集合を閲覧しているときに、容易に特定のトピックに「トラップ」されてしまう。最後に、しかし特に、ユーザにドメインの関連するトピックも探索させ、次に関連文書にのみ焦点を当てるために、文書ネットワークは、従来の方法により提供される唯一の文書種類であることが多い文書−文書リンクだけでなく、文書の内容の中のトピックに基づき、文書の偶然発見した閲覧を可能にするべきである。
文献に基づく発見の分野は、文書類似性及びクラスタリングに基づくアプローチの欠点の大部分を解決する。概して、それは、独立した文書の中の概念の間の間接的接続(connection又は繋がり)を調べる。接続は、全体として文書コーパスを用いて計算され、独立した概念をリンクし得る関連する中間概念を発見しようとする。多くのアプローチが存在している。しかしながら、それらの大部分は、自然言語処理、機械学習、グラフ分析及び手動分析のうちの1つ(又はそれ以上)に基づく。この分類に加えて、(オントロジのような)背景知識、又は単に文書データ自体を用いるアプローチが存在する。
文書に基づく発見の所謂「閉じた」及び「開かれた」モードの間の区別も存在する。これらの両者は、D.R.Swansonによる独創性に富んだ研究において導入された「ABCモデル」に基づく。開かれたモードでは、概念A及び対応する関連文書セットDから開始する。文献の中で、Aに関連する概念B(中間概念)を探す。したがって、中間概念Bに関連する文献は、集合Dとして検索される。これらの文献の中で、Bに関連する概念Cを探す。最終的に、C概念に関連する文書の集合Dが得られる。候補A−B−C経路は、次に、可能な発見経路の実現可能な部分集合まで、それらの数をトリミングするために、ランク付けされる。閉じたモードでは、処理は似ている。しかしながら、A及びC概念は、最初から固定され、中間概念Bが特定されるだけである。
最も多くの情報を与える(情報性の高い)意味的に注釈付けされた、テキスト文書の間のリンクを発見する方法及び装置を提供することが望ましい。
纏めると、本発明の実施形態は、文書により記述される概念により、文書の間の関係を発見する方法に関する。発明者は、理想的には関係が少なくともある程度は以下の条件の全部を満たすように、このタスクの要件を考え直し、それらを構造化した。
A)文書及び/又はそれらの中の概念の間のリンクを計算するための指標が、単なる共起性又は類似性を超え、例えば情報性(informativeness)、コヒーレンス、意外性(surprisingness)、複雑性、及び希少性のいずれかの特徴を反映する。これらの指標は、発見するための関係の可能性を効果的に示すことができるが、それらの十分な根拠に基づく定義及び同期化された最適化は、重要な問題である。
B)文書間のリンクは、コーパスの偶然の探索をサポートするために、文書の内容を明示的に反映する必要がある。文書を単に接続するだけでは不十分であり、ユーザは、発見を行う状況において、文書の概念的内容を考慮できなければならない。
C)特定の文書はドメイン全体により完全に及び/又は誠実に示唆される知識を表すことができないので、リンクは、特定の文書表現からだけではなくコーパス全体から引き出される全体的指標を用いて計算されなければならない。これは、発見情報科学の状況で重要な特徴である。
D)ユーザはコーパスに含まれる任意の概念からコーパスを探索できる必要があるので、理想的にはどこから開始しどこへナビゲートするかに係わらず、リンクは、コーパスの偶然の探索をサポートしなければならない。これは、コーパスにより示唆される任意のトピックを発見するための重要な条件である。
本発明の実施形態は、以下を効果的に可能にする。
1)文書自体の局所的表現ではなく、文書コーパスの全体的意味に基づく文書間のリンクを発見する。
2)文書リンクに関連するエンティティタグのチェーンにより、文書リンクを簡単に説明する。
3)文書から又は初めに関心のある概念から開始して、任意のポイントからコーパスによりカバーされるドメインを通して探索的にナビゲーションする。
以下に、説明のための例を用いて、問題の2つの態様を説明する。
上述のように、文書類似性及びクラスタリングの中で従来利用可能な関連の大部分は、独立した文書の表現を比較する。例は、文書の内容について定められた文書類似性指標を扱う又はオントロジからのドメイン知識を含む種々の研究で使用される確率的ベクトル空間アプローチである。
文書表現自体に基づくこのような方法は、以下の例により実証されるように、有用な関係を失い得る。神経障害に関する2つの文書を考える。
文書1:Sathe K, Maetzler W, Lang JD, Mounsey RB, Fleckenstein C, Martin HL, Schulte C, Mustafa S, Synofzik M, Vukovic Z, Itohara S, Berg D, Teismann P、S100B is increased in Parkinson’s disease and ablation protects against MPTP−induced toxicity through the RAGE and TNF−α pathway、Brain、2012 Nov; 135(Pt 11): 3336−47、http://www.ncbi.nlm.nih.gov/pubmed/23169921から入手可能。
文書2:Lane R, He Y, Morris C, Leverenz JB, Emre M, BallardC、BuChE−K and APOE epsilon4 allele frequencies in Lewy body dementias, and influence of genotype and hyperhomocysteinemia on cognitive decline、Movement Disorders、2009 Feb 15; 24(3): 392−400、http://www.ncbi.nlm.nih.gov/pubmed/19006190から入手可能。
文書は、以下のベクトル表現を有し得る(TF−IDF(term frequency−inverse document frequency)スコアリングにより計算される、ベクトルインデックスとして対応するキーワードを用い、低重要度の値を除去する)。
文書1:’protein’:2.773,’s100b’:5.545
文書2:’apoe’:2.773,’pdd’:4.852,’dlb’:3.466
ベクトル間の余弦距離のような伝統的な類似性指標は、2つの文書の間で特性ベクトルの重なり合いが存在しないので、2つの文書を完全に無関係であると考える。しかしながら、神経障害(例えば、パーキンソン病)に関連する文献のコーパス全体を処理する場合、以下を発見できる。
・特定の文書1及び2の文脈で、比較的重要ではないにも係わらず、ドメインの中で重要な用語が存在する。例えば、それぞれ文書1及び2の中の「腫瘍壊死因子」及び「BuChe−K」である。
・これらの2つの用語は、2つの文書が結局のところ関連し得ることを示唆する、コーパスから抽出された重要なドメイン概念の知識ベースの中の関連経路によりリンクされるように見える。
2つの用語及び文書を接続するリンクは、図1に示すグラフに示される。図から、2つの文献が経路(腫瘍壊死因子、星状膠細胞、レヴィー小体、BuChe−K)により接続されることが分かる。この経路は、文書及び用語を接続する該文書及び用語の両方を示すので、文書(文献)間の意味的に注釈付けされた経路として見られる。最初の用語及び最後の用語は、特定の文献の中に存在し、一方で、2番目及び3番目の用語は、コーパスから計算された関連性ネットワークの中でそれらを接続する。第1の文献は、パーキンソン病のメカニズムに腫瘍壊死因子経路が含まれることを扱う。一方で、第2の文献は、パーキンソン病に関与するタンパク質複合体に関する認知症の種類に及ぼす(BuChe−Kのような)特定の対立遺伝子の影響を調査している。文献同士の関係は、タンパク質複合体(レヴィー小体)及び星状膠細胞(グリア細胞の種類)による、それらの次第に変化するトピックの接続を示す。この種の情報は、特にコーパス全体に渡り自動的に計算される場合、明らかに関係無いが、トピック的に相互接続される文献を用いる発見を実現するのに非常に有用であり得る。
文献に基づく発見の分野は、文書類似性又はクラスタリングよりも良好な例により説明される問題を解決する。しかしながら、本章の始めに示された全ての条件が満たされるには、幾つかのカバーされるべきギャップがある。大部分の文献に基づく発見のアプローチは、相補的だがバラバラな文献の間の接続を計算するとき、コーパス全体の概念的構造を考慮するので、条件B)及びC)は大部分の文献に基づく発見のアプローチにより満たされる。
しかしながら、概念A、又はA及びCの両方は、開かれた及び閉じた文献に基づく発見モードにおいて指定されなければならないので、条件D)は、従来技術により満たされないままである。理論的には、既存の解決策は、A及びCの全ての可能な組合せを生成することができるが(したがって、コーパスの中の全ての概念の間のリンクを探索できるが)、それらは、このようなタスクの実際の計算上の扱いにくさにより大きく制限される。これは、概して、任意のポイントからデータを探索できないことを意味する。上述の例では、経路のうちの任意の部分(つまり、必ずしも「腫瘍壊死因子」又は「BuChE−K」ノードから開始しない)を探索することは、伝統的な文献に基づく発見モデルにおいて利用可能ではない興味深い情報をもたらし得る。従来技術におけるこのギャップに加えて、多くの文献に基づく発見の解決策は、場合によっては可能な接続をランク付けするとき頻度に基づく統計的指標により補強される共起性及び類似性に頼っている。
これは、2つの望ましくない効果を生じ得る。第一に、ランク付けのために類似性に基づく指標を用いる場合、発見された接続が、むしろ付加的である、つまり既に知られているものに近い可能性が高いことである。第二に、類似性及び頻度に基づく一般的な指標は、単純ではなく、意外性、新規性、情報性等のような観念を良好にモデル化しないことである。文献に基づく発見処理がその期待を満たすために、これらの問題は良好に解決されなければならない。
本発明の第1の態様の実施形態によると、テキスト文書のコーパスに基づきグラフを生成するよう構成されるシステムであって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続する、システムが提供される。前記システムは、前記コーパスの中の前記テキスト文書から文書コンテンツをダウンロードするよう構成されるコンテンツインタフェースと、前記文書コンテンツから概念グラフを抽出するよう構成される前処理プロセッサであって、前記概念グラフのノードは前記概念を表し、前記概念は前記文書の中のエンティティであり、ノード対の間の重み付けされたエッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、前処理プロセッサと、前記ノードの間の前記重み付けされたエッジをフィルタリングして、全ての概念の間の候補経路を提供するより高い重みを有するエッジを保持するよう構成されるフィルタと、少なくとも2つのスコアリングモジュールであって、それぞれスコアリング指標に従って前記候補経路にスコアを付けるよう構成され、前記指標は、前記コーパスの中の事実を発見する経路の適合性の異なる特長をモデル化する、少なくとも2つのスコアリングモジュールと、最適な方法で前記スコアリング指標を満たす前記概念グラフの最適化された経路を識別するよう構成される最適化器と、前記最適化された経路に基づき、文書間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成するよう構成される文書グラフ生成器と、前記コーパスの中の事実を発見するために、ユーザに前記文書グラフを閲覧しナビゲートさせるよう構成されるグラフィカルユーザインタフェース(GUI)と、を有する。
システムは、コーパスの中の発見を支援するためにコンピュータ情報システムとして機械リソースを用いるので、発見情報システム又は装置として表され得る。該システムは、ユーザにローカルであっても良く、或いは、例えばインターネットのようなネットワークにあるサーバとして遠隔で提供されて、例えばウェブインタフェースを介して遠隔機能を与えても良い。
本発明の実施形態の解決策は、問題定義の初めに定められる全ての要件(A−単なる類似性を超える関係性の指標、B−リンクに文書コンテンツを反映する、C−グローバルなローカルない指標、D−偶然発見探索をサポートする)を目標とすることを目的とする。実施形態は、特定の文書の間の注釈付けされた概念的リンクに基づき、テキストコーパスの偶然発見探索を実現する。
文書グラフは、任意の2つの文書を一緒に結合する接続概念を含む最適化リンクを有する経路を含む。これらは、両方の文書に含まれる概念を包含するだけでなく、複数の中間概念により文書を間接的にリンクする経路も提供する。
接続概念は、文書グラフのノードとしても考えられる。各々の文書−文書リンクは、1又は複数の接続概念の形式で意味的注釈を与えられる。
前処理プロセッサは、任意の適切な重み付け方法を使用しても良い。例えば、前記前処理プロセッサは、前記エッジを重み付けするために、前記文書の中のエンティティのコーパス全体に渡る共起性及び前記文書の中のエンティティの類似性のような2つの指標を用いるよう構成されても良い。後のフィルタリングは、フィルタリングされるべき経路のエッジに関連する重みの組合せの積に基づいても良い。
候補経路のスコアリングモジュールは、経路が多くの情報を与えるか(情報性があるか)否かを評価するために有用であり得る経路速成の少なくとも2つの異なる指標を与えるために、任意の適切なスコアリングモジュールを有し得る。望ましくは、この段階におけるスコアは、文書の中の用語の単純な共起性又は類似性を含まない。それらは、より複雑な指標である。スコアは、情報性、コヒーレンス、複雑性、及び希少性1又は複数を反映しても良い。
情報性スコアリングモジュールは、情報性を反映するための各々の経路の経路エントロピーを計算するよう構成されても良く、経路エントロピー方法は、クラスタの総数に対する各々の経路にある関連するクラスタのエントロピー指標を提供するために、クラスタの分類法を用い、各々のノードを前記クラスタのうちの1つに分類し、各々の候補経路を前記候補経路にあるノード及び隣接するノードが属するクラスタと関連付けても良い。
コヒーレンススコアリングモジュールは、集約コヒーレンスを提供するために連続するノードの間の類似性に基づき、及び/又は終始コヒーレンスを与えるために前記経路の始点ノードと終点ノードとの間の類似性に基づき、各々の経路のコヒーレンスを計算するよう構成されても良い。
この状況では、2つのノードの類似性は、類似性を計算するために比較される前記ノードのコンテキストを利用する分散型類似性、又は類似性を計算するためにクラスタの階層型分類法を用いる分類法に基づく類似性、であっても良い。
経路複雑性スコアリングモジュールは、経路複雑性を計算するよう構成されても良い。例えば、ノードにおける複雑性は、該ノードの近隣にある三角形の、潜在的にそこに存在する全ての三角形に対する比であっても良く、三角形は、該ノードをその2つの相互接続される近隣に接続するサブグラフである。
経路希少性スコアリングモジュールは、経路希少性を計算するよう構成されても良い。これは、例えば、文書頻度逆数(inverse document frequency:IDF)であっても良く、ノードのIDFは、ノードが文書コーパスの中でどれくらい希少かの指標である。
ノードtのIDF及び文書dを有する文書コーパスDは次のように計算される。
Figure 0006686628
最適化器は、少なくとも2つの異なる経路指標を考慮する必要がある。最適化器は、複数目的最適化を用いて経路のセットを計算し、例えば前記指標に関してパレート境界を形成する経路のセットを計算するよう構成されても良い。
望ましくは、候補経路のスコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のような2以上の対照的指標のスコアリングモジュールを有する。この場合、最適化器は、経路複雑性、エントロピー、集約経路コヒーレンス、及び希少性を最大化し、並びに最適経路セットの終始経路コヒーレンスを最小化しようとするよう構成され得る。
前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、各々の文書について、関連文書及び該関連文書を接続する経路のローカライズされたセットを生成することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成され得る。
例えば、文書グラフ生成器は、概念グラフの最適経路から開始することにより、及び最適経路に含まれる特定の文書識別子セットD及びグラフGpについて、ノード/用語からそれらを含む文書へのマッピングをMとして以下のアルゴリズムを用いることにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成され得る。
1.Gpに等しいGdを初期化する。
2.全ての文書d∈Dについて、以下を行う:
a)Gpの中のノードのセットXを見付け、マッピングMを用いて該ノードがdの中に現れるようにする
b)全てのノードx∈Xについて、以下を行う:
i.エッジ(x,d)をGdに追加する
ii.ノードのセットYを得て、全てのy∈Yについて、Gpの中のxとyとの間の最短経路pが存在し、p個のエッジに対する重みの積が減衰閾Eより高くなるようにする
iii.全てのノードy∈Yについて、以下を行う:
A.マッピングMを用いてyを含む文書のセットEを得る
B.全てのe∈Eについて、Gdにエッジ(y,e)を追加する
3.グラフGdを返す。
候補経路にスコアを付けるよう構成されるスコアリングモジュールのうちの1又は複数は、異なる候補経路のスコアを並列して計算するためにマルチスレッドを用い得る。これは、異なる候補経路の計算が相互依存ではないように設計されるからである。
また、候補経路にスコアを付けるよう構成されるスコアリングモジュールのうちの1又は複数は、幾つかの構成経路で使用される経路の一部の結果(例えば、概念の間の1又は複数のリンク)を格納するキャッシュを用いても良い。
共にクラスタの分類法を使用する、情報性スコアリングモジュール及びコヒーレンススコアリングモジュールが存在する場合、この分類は、分類法モジュールの中で1回計算され、両方のモジュールにより使用されても良い。他の指標は、このクラスタの分類法を必要としない。
幾つかの実施形態では、前記GUIは、概念の相対的重要性を、それらの重みの観点で反映するように、概念の間を接続する接続を表示するよう構成され得る。実際の重みは表示されても良く、又は、接続は、異なる重み(そのグループ)について、異なる方法で(例えば、濃く又は異なる色で)表示されても良い。
本発明の第2の態様の実施形態によると、コンピュータプログラムであって、コンピューティング装置により実行されると、テキスト文書のコーパスに基づきグラフを生成する方法を実行し、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、ノードの間の候補経路として、より高い重みを有するノードのみを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、前記コーパスの中の事実を発見するために、前記経路の適合性の異なる特長をモデル化する少なくとも2つの指標に従って、前記候補経路にスコアを付ける段階と、最適な方法で前記のスコアリング指標を満たす経路を識別する段階と、前記最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、を有する、コンピュータプログラムが提供される。
本発明のこの態様の実施形態によると、前記ユーザは、検索語を入力し、前記検索語は、接続概念又は文書として前記検索語を含む前記グラフの少なくとも一部を表示するために使用され、及び/又は前記ユーザは、特定の概念又は文書の周りにある接続概念及び文書へと前記グラフに渡りナビゲートする、本願明細書に記載された方法に従って生成されたグラフを閲覧する使用方法が提供される。グラフ上の文書表現は、文書自体へのリンクとして機能し得る。
本発明の好適な実施形態による方法は、前述の装置の態様の任意の組合せを有することができる。これらの更なる実施形態に従う方法は、それらが処理及びメモリ容量を必要とする点で、コンピュータにより実施されるとして記載される。
好適な実施形態による装置は、特定の機能を実行するよう構成される又は配置されるとして記載される。この構成又は配置は、ハードウェア又はミドルウェア又は任意の他の適切なシステムの使用による。好適な実施形態では、構成又は配置は、ソフトウェアによる。
したがって、ある態様によると、少なくとも1つのコンピュータ装置にロードされると、該少なくとも1つのコンピュータ装置を、前述の装置の定義のいずれか又はそれらの任意の組合せに従う発見情報システムになるよう構成する、プログラムが提供される。
更なる態様によると、少なくとも1つのコンピュータ装置にロードされると、該少なくとも1つのコンピュータ装置を、前述の方法の定義のいずれか又はそれらの任意の組合せに従う方法のステップを実行させるよう構成する、プログラムが提供される。
本発明は、デジタル電子回路で、又はコンピュータハードウェア、ファームウェア、又はそれらの組合せで実装できる。本発明は、例えば1又は複数のハードウェアモジュールによる実行のための若しくはその動作の制御のための、コンピュータプログラム又はコンピュータプログラム製品、つまり情報担体に例えば機械可読非一時的記憶装置に有形に若しくは伝搬信号に具現化されたコンピュータプログラムとして実施され得る。コンピュータプログラムは、単独型プログラム、コンピュータプログラム部分又は1より多いコンピュータプログラムの形式であり、コンパイル済み若しくはインタープリット済み言語を含む任意の形式のプログラミング言語で記述でき、単独型プログラムとして又はモジュール、コンポーネント、サブルーチン若しくはデータ処理環境で使用するのに適切な他の単位を含む任意の形式で展開できる。コンピュータプログラムは、1つのモジュールで又は1箇所若しくは複数箇所に分散して置かれ通信ネットワークにより相互接続される複数のモジュールで実行されるよう配置できる。
本発明の方法のステップは、入力データに対して作用し出力を生成することにより本発明の機能を実行するためにコンピュータプログラムを実行する1又は複数のプログラマブルプロセッサにより実行されても良い。本発明の装置は、プログラミングされたハードウェアとして実装でき、又は特定目的論理回路、例えばFPGA(field programmable gate array)又はASIC(application−specific integrated circuit)を含み得る。
コンピュータプログラムの実行に適したプロセッサは、例えば、汎用及び特定目的プロセッサの両方、及び任意の種類のデジタルコンピュータの1又は複数のプロセッサを含む。概して、プロセッサは、命令及びデータを読み出し専用メモリ又はランダムアクセスメモリ又はそれらの両方から受信する。コンピュータの基本要素は、命令及びデータを格納する1又は複数のメモリ装置に結合され命令を実行するプロセッサである。
本発明は、特定の実施形態の観点から記載される。他の実施形態も添付の請求の範囲に包含される。例えば、本発明のステップは、異なる順序で実行でき、依然として所望の結果を達成する。
本発明の要素は、「前処理プロセッサ」、「フィルタ」、「モジュール」、「最適化器」、「グラフ生成器」のような用語を用いて説明された。当業者は、このような用語及びそれらの等価物が、空間的に離れているが定められた機能を提供するために結合するシステムの部分を表し得ることを理解する。同様に、システムの同じ物理的部分は、2以上の定められた機能を提供しても良い。
例えば、別個に定められた手段は、適切な場合には同じメモリ及び/又はプロセッサを用いて実装されても良い。
単に例として、添付の図面を参照する。
中間概念に渡る2つの文書の間のリンクの一例である。 本発明の実施形態によるシステムの概略である。 本発明の実施形態による処理の概略フロー図である。 テキストからの関係の抽出を示す図である。 抽出された概念ネットワークの図である。 抽出された概念ネットワークの中のクラスタを示す図である。 経路エントロピーを計算する処理を示す図である。 経路コヒーレンスを計算する処理を示す図である。 クラスタの分類法の一例である。 経路複雑性スコアを計算する処理を示す図である。 経路のIDFスコアを計算するために使用される処理を示す図である。 最適経路を計算する処理を示す図である。 文書グラフの中の文書−文書リンクの計算を示す図である。 前の例における最適経路に起因する概念関係グラフである。 前の例における最適経路に起因する文書関係グラフである。 ハードウェアにおける本発明の実装の概略図である。
図2は、発見情報システム10の中の個々のコンポーネントを示す。これらのコンポーネントは、本発明の実施形態を実行するために一緒に動作する。コンテンツインタフェース20は、文書又は文献コーパスから、文書の各々について文書コンテンツ全体(又は場合によっては要約コンテンツ)の形式で情報を受信する。この内容は、コンテンツグラフを提供するために、前置プロセッサ30において使用される。コンテンツグラフは、フィルタ40によりフィルタリングされ、概念の間の関係の良好な指示になるまで、グラフのエッジを絞り込まれる。
留意すべきことに、概念又はエンティティは、文書から重要な用語を抽出する通常の処理を用いて、又は例えば特定分野若しくはオントロジに関連するコンテンツを抽出する特定の処理により、コンテンツから選択されても良い。
スコアリングモジュール50は、基本的に並列に設けられ、スコアリングモジュール毎に1つのスコアリング指標に従って候補経路グラフにスコアを付ける。3個のスコアリングモジュールが示されるが、特定の実装に依存してより多くの又は少ない数が存在しても良い。各々のスコアリング指標は、概念のグラフを抽出する及びグラフをフィルタリングするために使用され得る単なる共起性及び類似性よりも高度且つ良好に確立された指標である。
更に留意すべきことに、スコアリング指標は、コーパス全体の中の文書の概念を結果を計算するために使用させるので、それらはより局所的な処理に限定されない。
スコアリングモジュールからのスコアは、多目的最適化技術を用いてグラフの中でどの経路が残るべきかを計算する最適化器60に供給される。
次に、文書グラフは、文書生成器70により生成される。この文書グラフは、ユーザからGUI80によりアクセスされる。文書グラフは、例えば、検索語により又はグラフの視覚化から直接に文書又は概念を選択することにより、グラフへの任意のエントリポイントを可能にする。グラフは、局所化ネットワークとして見られ、コーパス内の全体的オープンエンドナビゲーションをサポートし、したがって発見を実現する。
図3は、本発明の実施形態の方法の概略であり、基本的に図2に示すシステムの構造に対応する。ステップS10は、概念グラフを生成する前処理である。ステップS20で、グラフのエッジは、フィルタリングされ、2つの概念の間の少ない関係を実証するこれらのエッジを除去する。ステップS30で、経路は、少なくとも2つの異なるスコアリング指標でスコアを付けられる。これは、したがって、発見のための概念経路の適応度の少なくとも2つの特長をモデル化する。ステップS40で、最適化技術を用いて最適経路セットが見付けられる。最後にステップS50で、文書グラフが生成される。
特定の本発明の実施形態は、テキスト文書から抽出された概念のネットワークの中で重要経路を発見し、該経路を、新規な発見情報アプリケーションにおいて意味的に(概念)注釈付けされた文書−文書リンクを構築するために使用する問題を解決する。我々は、先ず、提案する解決策の高レベルワークフローを説明し、次に、本発明の実施形態の動作の中核を形成するワークフローの特定の要素に焦点を当てる。
<概要>
方法は、テキスト(コーパス)文書のセットを入力として取り入れ、概念を接続する経路を介して文書をリンクするグラフを生成する。コーパスに基づき発見を行う高い可能性を有する経路の計算は、本発明の実施形態の中核と考えられる。
可能な経路自体を計算する前に、前処理を用いて、例えばVit Novacek及びGully APC Burns、SKIMMR: Facilitating knowledge discovery in life sciences by machineaided skim reading、PeerJ, 2014に基づき、(遙かに多数の)候補経路が、生テキストから生成される。https://peerj.com/articles/483/から入手可能。この文書に記載の概念経路の生成は、参照により本願明細書に組み込まれる。
先ず、我々は、発行物の中の概念の間の関係を決定するために、共起性及び意味的類似性の指標と共にエンティティ(キー用語)認識を用いる。このステップの結果は、グラフ又はネットワークとして提示される。このグラフ又はネットワークから、全ての概念の間の最短経路が計算される。これらの中から、所定の閾より高い関連エッジ重みの積を有する経路が、更なる処理のために保持される。
準備段階に続く実際の文書リンク構造計算は、以下の段階を有するパイプラインで進められ得る。
1.経路のスコアリング:経路の情報性、複雑性、コヒーレンス、等の形式的モデル化に基づき、経路に関連するより高度な指標を計算する。経路をスコアリングする具体的なステップは、以下により構成される。
a)エンティティ(キー用語)ネットワークから階層型クラスタ構造を計算する。
b)ネットワーク自体及びクラスタ構造を用いて、種々の経路スコアを計算する。
・経路エントロピー(情報値をモデル化する)
・経路コヒーレンス(トピック安定性及び経過をモデル化する)
・経路複雑性(構造的重要性をモデル化する)
・経路希少性(非自明性をモデル化する)
2.最適経路の選択:経路スコアを有する多目的最適化問題を目的として最終的タスクを定め、最適セット、例えばPareto最適経路を見付ける。
3.文書−文書リンクの計算:文書を間接的に接続する概念により注釈付けされた文書−文書リンクを計算するために、最適概念経路を用いる。
留意すべきことに、我々は、本願明細書で幾つかの特定の始業を例として定めたが、提案した経路スコアリング及び最適化技術は、ここに定めた一般的原理に従う他の指標にまで容易に拡張可能である。
文書−文書リンクが計算されると、結果として生じたデータ構造は、所謂発見情報学の広い分野における多くのタスクに使用可能である。可能な使用例は、(例の網羅的な選択ではなく)以下の通りである。
・中間概念により注釈付けされた文書リンクをナビゲートすることによる偶然の知識発見
・任意のエントリポイントによる開かれた文献に基づく知識発見
・文書類似性又はクラスタリングの代わりに、概念的関係に基づく文書分類
・(原作者及び所属のような)文書メタデータにより可能な種々のアプリケーション
−熟練した発見(特定の概念領域に強く関連する原作者を識別する)
−(特定のトピックに関連するコミュニティを見付けるために、計算した文書リンクグラフにより示唆される原作者のネットワークを使用する)トピックコミュニティ検出。
<詳細な実施形態>
意味的に注釈付けされた文書リンクを用いる発見をサポートする、提案される方法は、前述のパイプラインのブロックに依存する。以下では、先ず、前処理(文書コンテンツから概念経路を計算する)で生成されるデータの種類を説明し、次に、残りの部分で中核である新規な部分に関する詳細事項を説明する。
<前処理>
上述の前処理は、テキストを入力として取り入れ、用語の間の共起性及び類似性関係のネットワークに基づき、テキストの中に存在する用語の間の経路のセットを生成する。これらのステップの概要は、図4に示される。図4は4段階の処理を示す。最初に、ステップS100で、用語の基本的共起性が、文書コーパスから計算され、文書固有共起性関係を提供する。これは、例えば、名付けエンティティの対を抽出するテキストマイニングツールを用いることにより、次に特定の文書の中のそれらの共起性を計算することにより、可能である。ステップS110で、ポイントの観点での相互情報計算は、コーパス全体に渡る個々の文書共起性スコアを集約して、コーパス全体についての用語対のスコアを与える。ステップS120は、類似性計算であり、コーパスの観点で類似性関係を生成する。類似性は、共起性によりカバーできないエンティティ間の高レベルの種類の関係である。基本的に、2つのエンティティに関する計算は、それらがそれら両者に関連する共有されるエンティティによりどのようにリンクされるかを考慮に入れる。コサイン類似度が用いられても良い。ステップS130で、経路を生成するために、コーパスの観点の類似性関係及び共起性関係が用いられ、強く接続されない概念の間の経路を除去するよう、経路の数を削減するために、フィルタリングが用いられる。適切な前処理方法の完全な詳細事項は、Vit Novacek及びGully APC Burns、SKIMMR: Facilitating knowledge discovery in life sciences by machineaided skim reading、PeerJ, 2014に記載されている。https://peerj.com/articles/483/から入手可能。
前処理の最後の段階は、全ての予め計算された共起性及び類似性関係からグラフを構築するステップを有する。ここで、エッジは、対応する関係重みにより注釈付けされる。このグラフから、我々は、全てのノード対の間の経路を構築する。これらの経路は、次に、特にそれらのエッジに対する関係重みの積に基づき、上述のようにフィルタリングされる(閾より低い積重みを有する経路を省略する)。この基本的フィルタリングは、大きな概念ネットワークに対して、全ての可能な経路の空間の組合せ的爆発を低減するために実行される。
(例1)このようなグラフの一例は、https://peerj.com/articles/483/から入手可能なVit Novacek及びGully APC Burns、SKIMMR: Facilitating knowledge discovery in life sciences by machineaided skim reading、PeerJ, 2014から構築され、図5に示される。グラフは、既に、フィルタリングされた経路セットに対応する。我々は、方法を説明する更なる特定の詳細事項の基礎として、グラフに示される例を用いる。例は、問題の説明のために使用される遙かに簡略化された文書/概念グラフの詳細であることに留意する。例は、本章で導入されるように、本発明の実施形態の詳細事項に基づき発見情報アプリケーションをどのようにサポートできるかを実証するために拡張される。
<経路のスコアリング>
基本的フィルタリングは、低い統計的重要性のエッジを有する経路を除去するだけである。しかしながら、残っている経路の数は、通常、2以上の文書を有するコーパスにとっては依然として非常に大きい。これは、発見情報アプリケーションを実現するには、経路を非現実的にしてしまう。経路は、純粋に統計的フィルタリングされ難い幾らかのノイズを依然として含む。したがって、本発明の実施形態は、経路に対して複数のより高度なスコアを定める。これらのスコアは、特定の経路により表される知識の情報値、トピックコヒーレンス、及び複雑性のような特徴を効果的にモデル化する。スコアは、以下の専用の章において紹介される。
全ての指標の実装のために、本発明の実施形態は、特定の最適化を用いる。我々は、シーケンシャルプログラミングの代わりにマルチスレッドを用いる。ここで、各々のスレッドは、スコアが計算されることが想定される入力経路の(安定した又は均衡のとれた)部分を処理する。これは、任意の特定の経路についてのスコア計算の間に依存性が存在しないという事実による。共有サブ経路に基づき幾つかの経路の間で共有できる多くの繰り返し計算が存在するので、第2の最適化はキャッシングである。
<経路エントロピー>
経路エントロピー指標は、経路の情報コンテンツ及びそのコンテキスト、つまり経路に含まれそれに隣接するノード、を反映する。エントロピーが高いほど、より多くの情報が経路及びそのコンテキストに含まれ、発見の基礎としてより可能性が高いことを意味する。経路及びそのコンテキストのエントロピーを計算するために、先ず、ノードをクラスタに分類する必要がある。そのために、(生物医学ドメインにおけるMeSH標準語彙のような、http://www.ncbi.nlm.nih.gov/meshを参照)ドメイン固有分類法を用いるか、又は例えば階層的クラスタリング方法を用いて抽出した概念ネットワーク自体からの分類法を計算する。このような方法の1つは、Vit Novacek、A methodology for empirical analysis of LOD datasets、CoRR、abs/1406.1061, 2014において紹介され、参照により本願明細書に組み込まれる。
(例2)可能なクラスタリングの例は図6に示される。表示されるクラスタは、以下の通りである。
1.P−タンパク質及び関連する概念
2.D−病気及び関連する概念
3.B−生物医学的プロセス及び/又は特徴
4.C−化学及び関連する概念
5.L−細胞
6.G−遺伝子及び関連する概念
経路エントロピー計算のワークフローは、図7に示される。ステップS150は、どちらかと言えば直線的であり、全ての候補経路を、経路上の及び該経路に隣接するノードが属するクラスタセットに関連付けるステップを有する。ステップS160は、例えば以下に示すように、クラスタを用いてエントロピーを計算する。
(例3)例えば、図5からの経路p:アルツハイマー病−パーキンソン病認知症−BuCheK−APOEは、クラスタD(病気)、C(化学)、P(タンパク質)、G(遺伝子)に関連付けられる。
経路のクラスタ注釈に基づき、経路固有クラスタボリュームを次のように定める。
Figure 0006686628
cはクラスタ、pは経路、VX、CXは、それぞれ経路の中のノード及び隣接するコンテキストを返す関数である。ボリュームは、経路pの中のノード及びそのコンテキストが特定のクラスタciに属する確率P(ci,p)を定めるために用いることができる。
Figure 0006686628
ここで、Cは、所与の経路について全てのクラスタ注釈を返す関数である。この確率は、最終的に、以下の経路エントロピー定義において用いられる。
Figure 0006686628
(例4)前の例からの経路のクラスタボリュームは次の通りである。
Figure 0006686628
また、対応するノード−クラスタ関連付け可能性は次の通りである。
Figure 0006686628
したがって、エントロピーは次の通りである。
Figure 0006686628
<経路コヒーレンス>
我々は、意味的類似性を用いて、経路に沿った概念(ノード)のトピックコヒーレンスをモデル化する。経路にある後続のノードが互いに類似する場合、トピックは大きく変化しないことを意味する。他方で、経路の始点と終点とが類似しない場合、経路が、コーパスの中で異なるサブドメインに渡るブラウザをナビゲートする可能性を有することを意味する。経路コヒーレンススコア計算のスキーマは、図8に示される。ステップS170への入力は、経路エントロピーの場合と同じである。また、出力は、それらに付される、類似性に基づくスコアを有する経路注釈である。2つの類似性に基づくスコアが用いられ、以下に説明するように、経路コヒーレンス及び終始経路コヒーレンスを集約する。
集約経路コヒーレンスは、以下の経路の中の後続のノードについて定められる。
Figure 0006686628
集約経路コヒーレンスの計算の幾つかの代替が可能である。例えば積コヒーレンスは次の通りである。
Figure 0006686628
(ゼロ類似性が指標ゼロを与えるので、どちらかと言えば厳しい)。或いは平均コヒーレンスは次の通りである。
Figure 0006686628
(ゼロ類似性に関してより寛容である)。
終始経路コヒーレンスは次の通り定められる。
Figure 0006686628
つまり、経路にある最初のノードと最後のノードとの間の類似性である。
類似性を計算するために、我々は、分布類似性又は分類法に基づく類似性のような、手元にあるデータのために利用可能な種々のアルゴリズムを利用できる。分布類似性は、比較される要素(つまりノード)のコンテキストを利用する。一方、分類法に基づく類似性は、要素が編成される分類の特徴(多くの場合、距離及び/又は情報コンテンツ)を利用する。
特定の単純な分布の例は、次の通り定められるコサイン類似性である。
Figure 0006686628
ここで、xはノードxに対応するコンテキストベクトルである。ベクトルの次元は、ノードの近隣として生じ得る全ての可能なノード(つまり、抽出された概念ネットワークの中の全てのノード)に対応する。また、特定の次元の値は、ノードを接続するエッジの重みに対応する。実現可能な計算に対してコンテキストベクトル空間が大きすぎる及び/又はノイズが多すぎる場合、次元の削減が実行され得る。
分類法に基づく類似性の一例は、Wu−Palmerの研究に基づくものであり(しかし、多くの他の種類の意味的類似性が存在する)、本例では以下のように定められる。
Figure 0006686628
ここで、集合C(x)、C(y)の中の特定のクラスタ識別子は、階層型クラスタ分類法ではノードとして解釈される(データ自体から計算されるか又は外部から提供される)。Ics関数は、分類法において2つのノードの最下位概念(least common subsumer)を計算する。dptは、分類法においてノードの深さである(引数としてノードが供給されない場合、つまりIcsが結果を有しない場合、ゼロとして定められる)。
(例5)経路類似性指標の特定の例を与えるために、以下に示す前の例の経路に戻る。
p:アルツハイマー病−パーキンソン病認知症−BuCheK−APOE
対応するコンテキストベクトルに関連付けられる経路には4個のノードがある。例示的な概念ネットワークのベクトル空間は、21次元(ネットワークの中のノードの総数)を有する。図2のノードに上から下へ且つ左から右へ次元番号を割り当てる場合、p個のノードベクトルは、以下のマトリクスに編成され得る(普遍性を失うことなく、この特定の例を簡略化するために、既存のエッジの重みを1と仮定する)。
Figure 0006686628
これらのベクトルに基づき、全ての結果として生じる終始コサイン類似性はゼロである。
分類法に基づく類似性の例を続ける前に、我々は、例えば図9に示すようなクラスタの階層型編成を導入する。タンパク質及び遺伝子(P及びG)クラスタは、第2のレベルのBBクラスタの下に置かれる(ブロックを構築する)。同様に、病気及び生物医学プロセス(D及びB)は、生物医学的現象(BP)の下に置かれる。細胞及び化学(L及びC)は、親クラスタを有しないままである。更にまばらな(sparser)表記では、略語AD、PDDにより、それぞれアルツハイマー病及びパーキンソン病認知症を表す。上述の簡易な分類法を用いて、経路pにある結果として生じるノードの間の類似性は、次の通りである。
Figure 0006686628
留意すべきことに、深さは、仮想分類法の最上位根からの距離として定められ、実際の最上位ノードは深さ1を有する。したがって、平均経路コヒーレンスは、MC(p)=(1+0+0.5)=0.5である。終始コヒーレンスrは、ゼロの深さを有する(仮想最上位ノード)。
<経路複雑性>
複雑な情報ほど、発見を行う高い可能性を有し得る。したがって、経路及び周囲のノードの複雑性をモデル化する必要もある。処理のスキーマは、図10に示される。ステップS180で使用する複雑性の特定の指標は、経路に沿って直ぐにある近隣ノードに関して計算される、経路にあるノードの平均クラスタ係数である。単一ノードvでは、クラスタ係数は次の通りである。
Figure 0006686628
ここで、N(v)はvの近隣セットであり、Eは既存のグラフエッジセットである。
言い換えると、クラスタ係数は、ノードの近隣に存在する三角形の、場合によってはそこに存在し得る全ての三角形に対する比である。ここで、三角形は、対象であるノードを、その2つの相互接続された近隣と接続するサブグラフである。次に、経路の複雑性は、該経路にあるノードのクラスタ係数の算術平均として測定される。
(例6)前の例で使用した経路のクラスタ係数は、そのコンテキストの中に三角形が存在しないので、ゼロである。しかしながら、別の例示的な経路は次の通りである。q:パーキンソン病認知症−MPP−星状膠細胞 これは、(「有毒代謝物」と共に)「MPP」及び「星状膠細胞」ノードにより共有される1つの三角形が存在するので、1/6の複雑性を有し、結果として、経路にあるノードについて個々のクラスタ係数0、1/3、1/6を生じる。
<経路希少性>
経路が、コーパスの中の多くの文書の中に現れるノードを含む場合、該経路は、全てを仮想的に接続させることができる。これは、精細な発見のための経路の可能性を低くする。これについてのリスクは、別の指標、つまり、コーパスの中の特定のノードがどれだけ希少であるかの指標である、経路ノードの文書頻度逆数(inverse document frequency:IDF)を考慮に入れることにより、低下され得る。スコア計算のスキーマは、図11に示される。
ステップS190のIDF指標は、ノード/用語t及び文書コーパスDについて、次のように定められる。
Figure 0006686628
経路のIDFスコアを測定するために、我々は、最小又は算術平均のような、特定のノードのスコアを集約する幾つかの手段を用いることができる(S200)。
(例7)前の例で導入された経路のIDFスコアは、以下の、用語の絶対文書頻度に基づく。p:アルツハイマー病/6−パーキンソン病認知症/2−BuCheK/1−APOE/12、q:パーキンソン病認知症/2−MPP/7−星状膠細胞/8、パーキンソン病コーパスの中の文書の総数は4724なので、経路にあるノードのIDFスコアは次の通りである(10を底とする対数)。p:アルツハイマー病/log(4724/6)≒2.896−パーキンソン病認知症/log(4724/2)≒3.373−BuCheK/log(4724/1)≒3.674−APOE/log(4724/12)≒2.595、q:パーキンソン病認知症/log(4724/2)≒3.373−MPP/log(4724/7)≒2.829−星状膠細胞/log(4724/8)≒2.771、
pの集約スコアは、2.771又は2.991(それぞれ最小又は平均)である。同様にqの集約スコアは2.595又は3.135である。
<最適経路の選択>
前の章で導入された指標は、経路が発見を行う可能性を反映する、経路の種々の特長をモデル化する。しかしながら、指標のうちの幾つかは非常に複雑に相互依存しており他の指標は実際に現実問題として衝突し得るので、単に指標を有するだけでは特に助けにならない。どの経路が全体において最も良く指標を満たすかを見出すために、例えば[1]Agoston E. Eiben及びJ.E. Smith、Multi−modal problems and spatial distribution、Agoston E. Eiben及びJ.E. Smith、editors、Introduction to Evolutionary Computing、Springer、2007に定められるような多目的最適化タスクのような問題にアプローチする必要がある。具体的には、本例では、スコア注釈目的ベクトル(score annotation objective vector)に関して、所謂パレート境界(Pareto frontier)を形成する経路セットを計算する。これは、他の目的のうちの少なくとも1つを下げることなく、目的のうちのいずれにおいても向上され得ない解決策の領域である(つまり、経路)。これは、通常、重要な発見を行う可能性を最大化する、遙かに縮小した経路セットを生成する。
最適化方法のスキーマは、図12に示される。方法は、経路及び該経路のスコア注釈を入力として取り入れ、提供されたパラメータに従ってスコア注釈ベクトルの値を調整し、それらが一様に最適化されるようにし、次に、ステップS210で最適化自体を実行して、パレート最適経路のリストを生成する。
最適化技術は、各々の解に関連する指標のベクトルに作用する。ここで、指標は、特定の解の適合性の何らかの特長を反映するものとする。伝統的に、解ベクトルの中の全ての値は、最適解の中で最小化されるものとする。パレート最適化において重要な留意点は、優勢性である。つまり、全てのインデックスi∈{1,...,k}についてf(x)≦f(x)、及び少なくとも1つのインデックスi∈{1,...,k}についてf(x)<f(x)の場合、解x1は、解x2より優勢である。
ここで、kは解ベクトルの中の要素(つまり指標)の数であり、f(x)関数は、解xに関連するベクトルのi番目の要素を返す。解は、いかなる他の解も優勢でない場合、パレート最適と呼ばれる。
特定の最適化パラメータを定めるとき、次の特定の直感的仮定に従う。
1.より複雑な環境を通る経路は、ユーザにとってより多くの情報を与える。したがって、経路複雑性は最大化されるべきである。
2.多くの高度に均衡のとれた(つまりエントロピー)トピックにより囲まれる経路は、より多くの情報を与えるので、エントロピーは最大化されるべきである。
3.途中で次第にトピックの変化するコヒーレント経路は、より良いので(リンクされたテキストへの途上で、あるトピックから別のトピックへの無秩序状態の少ない、より焦点の絞られた経過)、集約された経路コヒーレンスは最大化されるべきである。
4.トピックの観点から遠い(非コヒーレント)領域で終わるとき(トピックを通じて経過が段階的である、つまりランダムさが少ない)、より興味深いので、終始経路コヒーレンスは最小化されるべきである。
5.経路は、テキストの中で非常に頻度の高い(つまり、明らかな)多くのノードを含むべきではないので、経路IDFスコアは最大化されるべきである。
これらの条件は、経路スコアベクトルのどの値が最大化され及びどれが最小化されるべきかを定める最適化パラメータに直接影響を与える。パレート効率問題は、上述のように解ベクトルの中の全ての要素の最小化として定められるので、以下の例に示すように、最大化されると想定される全てのスコアを無効にしなければならない。
(例8)前に導入された経路p、qについての指標は表に整理できる。
Figure 0006686628
コヒーレンス値は、それぞれコサイン及び分類法に基づく類似性について2重である(two−fold)。IDFスコアのために、本例では平均値を用いる。終始コヒーレンス以外の全てのスコアを最大化したいので、経路の解ベクトルは次の通りに見える(コサイン類似性のみを考慮に入れる)。
p:(−1.75,0,0,0,−2.991)、q:(−2.126,−0.25,0.25,−0.167,−3.135)
いずれの経路も互いに優勢ではないので、これらの経路の各々は、所与の例で最適解の部分である可能性がある。
<文書−文書リンクの計算>
提示の方法の最後のステップは、特定の文書の間のリンクを計算するために、最適経路を用いる。処理のスキーマは、図13に示される。先ず、最適経路に起因するグラフが計算される。これは、最適経路のノード及びエッジを新しいグラフのエッジとして取り入れ、及び元の抽出されたグラフから対応する重みにより該エッジに注釈付けすることにより、行われる。新しいグラフは、次に、任意の所与の文書識別子について、関連する文書及び該文書を接続する経路のローカライズされたセットを生成するために使用され得る。文書識別子の特定のセットD、及び最適経路に起因するグラフGpについて、これは、以下のアルゴリズムを用いて行われる(ノード/用語からそれらを含む文書へのマッピングをMとする)。
1.Gpに等しいGdを初期化する
2.全ての文書d∈Dについて、以下を行う:
a)Gpの中のノードのセットXを見付け、該ノードがdの中に現れるようにする(マッピングMを用いて)
b)全てのノードx∈Xについて、以下を行う:
i.エッジ(x,d)をGdに追加する
ii.ノードのセットYを得て、全てのy∈Yについて、Gpの中のxとyとの間の最短経路pが存在し、p個のエッジに対する重みの積が減衰閾Eより高くなるようにする
iii.全てのノードy∈Yについて、以下を行う:
A.(マッピングMを用いて)yを含む文書のセットEを得る
B.全てのe∈Eについて、Gdにエッジ(y,e)を追加する
3.グラフGdを返す。
結果として得られるグラフは、以下の例9において説明するように、文献に基づく発見をサポートする新規な方法において元の文書コーパスをナビゲートするために使用され得る。留意すべきことに、Gdグラフは、Gdを用いる特定のアプリケーションの必要に応じて、Gpからのエッジ重みを有し又は有しないで初期化されても良い。文書コーパスをナビゲートするためにのみ必要な場合、エッジは既に最適化処理によりフィルタリングされているので、重みは必ずしも必要ではない。しかしながら、接続のランク付けが必要な場合、重みは、その目的のために都合良く使用され得る。また、結果として生じるグラフの中の全ての頂点及びエッジに関連する経路指標を簡単に辿ることができる。これは、また、Gpエッジ重みと同様に使用され得る。
(例9)経路p、qは例示的な抽出されたグラフの中の単なる非優勢経路であると仮定する(しかしながら、これは、200個以上の可能な経路を有するこのような比較的単純なグラフの場合でも状況がより複雑なので、実際には真ではないことに留意する)。経路p、qに起因するグラフは図14に示される。本例のために、エッジにファジー重みを関連付ける。ファジー重みは、関連する文書の対を生成するとき、グラフトラバースの中の減衰を説明できる。
MPPノード(簡潔さのために簡易化される)を指すPubMed文書識別子(PMID)25596531及び25061051から開始する。対応する経路はそれぞれ0.9、0.675、0.675の集約(積)重みを有し、一方、他の可能な経路は0.5の積重みと交差しないとき、減衰閾Eは0.5に設定され、MPPからアクセス可能なノードはパーキンソン病認知症、アルツハイマー病、及びBuCheKであると仮定する。以下の関連するノード−文書PMID関連付けを検討する(ここでも、現実にはもっと多くが存在するので、簡略化される)。
パーキンソン病認知症:25499022
アルツハイマー病:25619230、25614954
BuCheK:19006190
図15に示す文書−文書接続のグラフが生成され得る。
図16は、発見情報システムの実装を示す。ここで、ユーザは、インターネットを介してシステムにアクセスするローカルマシン100の場所に居る。ユーザは、システムが事実上置かれるサーバ200により提供されるGUIを介してシステムとインタフェースする。このサーバは、文書コンテンツ及び計算された文書グラフの知識ベースKBを有し、GUIを介してユーザにグラフを表示させる。知識ベース20は、データ記憶装置の中に収容される。データ記憶装置は、コンピュータ実行可能命令を実行する又は格納されたデータ構造を有するよう構成される単一の媒体又は複数の媒体(例えば、集中型又は分散型データベース及び/又は関連するキャッシュ及びサーバ)を表し得るコンピュータ可読媒体を有しても良い。コンピュータ実行可能命令は、例えば、汎用コンピュータ、特定目的コンピュータ又は特定目的処理装置(例えば、1又は複数のプロセッサ)によりアクセス可能であり及び1又は複数の機能又は工程を実行させる命令及びデータを有しても良い。したがって、用語「コンピュータ可読記憶媒体」は、機械による実行のために命令セットを格納しエンコードし又は持ち運ぶことが可能であり、機械に本開示の方法のうち任意の1又は複数を実行させる任意の媒体も含み得る。用語「コンピュータ可読記憶媒体」は、固体メモリ、光学媒体及び磁気媒体を含むと考えられるが、これらに限定されない。例として且つ限定ではなく、このようなコンピュータ可読媒体は、RAM(Random Access Memory)、ROM(Read−Only Memory)、EEPROM(Electrically Erasable Programmable Read−Only Memory)、CD−ROM(Compact Disc Read−Only Memory)又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶装置を含む非一時的若しくは有形コンピュータ可読記憶媒体、又は他の媒体、フラッシュメモリ装置(例えば、固体メモリ装置)を有し得る。
サーバは、プロセッサを用いてグラフを提供するために必要な処理も含む。
本願明細書で使用されるとき、プロセッサは、マイクロプロセッサ、中央処理ユニット、等のような1又は複数の汎用処理装置を含み得る。プロセッサは、CISC(complex instruction set computing)マイクロプロセッサ、RISC(reduced instruction set computing)マイクロプロセッサ、VLIW(very long instruction word)マイクロプロセッサ、又は他の命令セットを実施するプロセッサ、若しくは命令セットの組合せを実施するプロセッサを含み得る。プロセッサは、ASIC(application specific integrated circuit)、FPGA(field programmable gate array)、DSP(digital signal processor)、ネットワークプロセッサ、等のような1又は複数の特定目的処理装置も含み得る。1又は複数の実施形態では、プロセッサは、本願明細書で議論する工程又はステップを実行する命令を実行するよう構成される。
図は、テキスト文書を格納するデータベース30も示す。もちろん、文書は、幾つかの異なるソースから提供され又はシステムにより提供されても良い。いずれの場合にも、それらのコンテンツ(要約の形式で、又は文書コンテンツ全体、及び文書コンテンツの任意の他の適切な部分)は、概念グラフ及び次に文書グラフを生成するために、ダウンロードされ、格納される。
<概要>
提示の実施形態は、多くの特定のステップを有するが、これらのステップは、発見情報学における多くのタスクに適用可能な非常に明らかに焦点の絞られたソリューションを実施する。ステップの組合せは、重要でありユニークである。対応する研究プロトタイプによる実験により示されたように、方法の実装は、他の関連するアプローチより優れている。
本発明の実施形態は、文献のコーパスからの中間概念により注釈付けされた文書−文書リンクを生成する汎用的な方法を提供する。当該方法は、以下の段階を有する。
a)文書から概念ネットワークを抽出する。ここで、ノード、つまり概念は、重要な名付けエンティティにより表され、エッジは、共起性、類似性、又は可能な他の意味的関係のような重み付けされた関係である。b)重みは、特定の関係の相対的重要度を表す。
b)入力コーパスに基づき発見をサポートし得る概念−概念経路のセットを生成する。
c)経路の情報性、コヒーレンス、複雑性及び希少性に従って経路をスコアリングする。
d)最適な方法で全てのスコアを満たす経路を識別する。
e)最適化された経路により示唆されるグラフに基づき、文書間の接続のグラフを生成する。
実施形態は、情報性、コヒーレンス、複雑性及び希少性の良く確立された指標を用いて発見を行う概念経路の可能性を定める特定の方法を提供する。
実施形態は、文書頻度逆数を用いる希少性の指標の特定の定義を提供する。
実施形態は、複数スレッド及びキャッシングを用いて指標を計算する特定の最適化された方法を提供する。
実施形態は、最も有望なセットへの経路を精緻化するために、目的として特定の指標による多目的最適化の特定の拡張可能な方法を提供する。指標は、本願明細書で例として明示的に記載され、或いは、対応する章において本願明細書で定められた特性を有する他の指標であり得る。
実施形態は、最適化された経路に基づく文書間の概念注釈付けされたリンクを有するグラフを構築する特定の方法を提供する。
以上の実施形態に加えて、以下の付記を開示する。
(付記1) テキスト文書のコーパスに基づきグラフを生成するよう構成される発見情報システムであって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、
前記コーパスの中の前記テキスト文書から文書コンテンツをダウンロードするよう構成されるコンテンツインタフェースと、
前記文書コンテンツから概念グラフを抽出するよう構成される前処理プロセッサであって、前記概念グラフのノードは前記概念を表し、前記概念は前記文書の中のエンティティであり、ノード対の間の重み付けされたエッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、前処理プロセッサと、
前記ノードの間の前記重み付けされたエッジをフィルタリングして、全ての概念の間の候補経路を提供するより高い重みを有するエッジを保持するよう構成されるフィルタと、
少なくとも2つのスコアリングモジュールであって、それぞれスコアリング指標に従って前記候補経路にスコアを付けるよう構成され、指標は、前記コーパスの中の事実を発見する経路の適合性の異なる特長をモデル化する、少なくとも2つのスコアリングモジュールと、
最適な方法で前記スコアリング指標を満たす前記概念グラフの最適化された経路を識別するよう構成される最適化器と、
前記最適化された経路に基づき、文書間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成するよう構成される文書グラフ生成器と、
前記コーパスの中の事実を発見するために、ユーザに文書グラフを閲覧しナビゲートさせるよう構成されるグラフィカルユーザインタフェース(GUI)と、
を有するシステム。
(付記2) 前記前処理プロセッサは、前記エッジを重み付けするために、前記文書の中のエンティティのコーパス全体に渡る共起性及び前記文書の中のエンティティの類似性のような2つの指標を用いるよう構成される、付記1に記載のシステム。
(付記3) 前記フィルタリングは、フィルタリングされるべき経路のエッジに関連する重みの組合せの積に基づく、付記2に記載のシステム。
(付記4) 前記候補経路の前記スコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のうちの1又は複数のためのスコアリングモジュールを有する、付記1乃至3のいずれか一項に記載のシステム。
(付記5) 情報性スコアリングモジュールは、情報性を反映するための各々の経路の経路エントロピーを計算するよう構成され、経路エントロピー方法は、クラスタの総数に対する各々の経路にある関連するクラスタのエントロピー指標を提供するために、クラスタの分類法を用い、各々のノードを前記クラスタのうちの1つに分類し、各々の候補経路を前記候補経路にあるノード及び隣接するノードが属するクラスタと関連付ける、付記1乃至4のいずれか一項に記載のシステム。
(付記6) コヒーレンススコアリングモジュールは、集約コヒーレンスを提供するために連続するノードの間の類似性に基づき、及び/又は終始コヒーレンスを与えるために前記経路の始点ノードと終点ノードとの間の類似性に基づき、各々の経路のコヒーレンスを計算するよう構成される、付記1乃至5のいずれか一項に記載のシステム。
(付記7) 2つのノードの類似性は、類似性を計算するために比較される前記ノードのコンテキストを利用する分散型類似性、又は類似性を計算するために階層型クラスタ分類法を用いる分類法に基づく類似性、である、付記6に記載のシステム。
(付記8) 経路複雑性スコアリングモジュールは、経路複雑性を計算するよう構成され、ノードにおける複雑性は、前記ノードの近隣にある三角形のそこに存在する可能性のある全ての三角形に対する比であり、三角形は、ノードを該ノードの相互接続された近隣と接続するサブグラフである、付記1乃至7のいずれか一項に記載のシステム。
(付記9) 経路希少性スコアリングモジュールは、文書頻度逆数(IDF)として経路希少性を計算するよう構成され、ノードのIDFは、前記ノードが文書コーパスの中でどれくらい希少であるかの指標である、付記1乃至8のいずれか一項に記載のシステム。
(付記10) ノードt及び文書dを有する文書コーパスDに対するIDFは、
Figure 0006686628
のように計算される、付記9に記載のシステム。
(付記11) 前記最適化器は、複数目的最適化を用いて経路セットを計算し、例えば前記指標に関してパレート境界を形成する経路セットを計算するよう構成される、付記1乃至10のいずれか一項に記載のシステム。
(付記12) 前記候補経路のスコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のためのスコアリングモジュールを有し、前記最適化器は、最適経路セットの経路複雑性、エントロピー、集約された経路コヒーレンス、及び希少性を最大化し、終始経路コヒーレンスを最小化しようとするよう構成される、付記1乃至11のいずれか一項に記載のシステム。
(付記13) 前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、各々の文書について、関連文書及び該関連文書を接続する経路のローカライズされたセットを生成することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成される、付記1乃至12のいずれか一項に記載のシステム。
(付記14) 前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、特定の文書識別子セットD及び最適経路に起因するグラフGpについて、ノード/用語から文書へのマッピングをMとして、以下のアルゴリズム:
(1)グラフGdをGpに等価に初期化し、
(2)全ての文書d∈Dについて、
a)Gpの中のノードセットXを見付け、前記マッピングMを用いてそれらがdの中に現れるようにし、
b)全てのノードx∈Xについて、
i.エッジ(x,d)をGdに追加し、
ii.ノードセットYを得て、全てのy∈Yについて、Gpの中のxとyとの間の最短経路pが存在し、p個のエッジに対する重みの積が減衰閾Eより大きくなるようにし、
iii.全てのノードy∈Yについて、
A.前記マッピングMを用いてyを含む文書セットEを得て、
B.全てのe∈EについてGdにエッジ(y,e)を追加し、
(3)前記グラフGdを返す、
を使用することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成される、付記1乃至13のいずれか一項に記載のシステム。
(付記15) 前記候補経路にスコアを付けるよう構成される前記スコアリングモジュールのうちの1又は複数は、異なる候補経路のスコアを並列に計算するためにマルチスレッドを用いる、付記1乃至14のいずれか一項に記載のシステム。
(付記16) 前記候補経路にスコアを付けるよう構成される前記スコアリングモジュールのうちの1又は複数は、幾つかの候補経路で用いられる経路の一部についての結果を格納するキャッシュを用いる、付記1乃至15のいずれか一項に記載のシステム。
(付記17) 前記スコアリングモジュールは、情報性スコアリングモジュール及びコヒーレンススコアリングモジュールを有し、両方ともクラスタ分類法を使用し、両方のモジュールにより使用される分類法モジュールはこの分類を計算するよう構成される、付記1乃至16のいずれか一項に記載のシステム。
(付記18) 前記GUIは、概念の相対的重要性を、それらの重みの観点で反映するように、接続概念の間の接続を表示するよう構成される、付記1乃至17のいずれか一項に記載のシステム。
(付記19) テキスト文書のコーパスに基づきグラフを生成する方法であって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、
文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、
ノードの間の候補経路として、より高い重みを有するノードを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、
前記コーパスの中の事実を発見するために、経路の適合性の異なる特長をモデル化する少なくとも2つの指標に従って、前記候補経路にスコアを付ける段階と、
最適に前記のスコアリング指標を満たす経路を識別する段階と、
最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、
を有する方法。
(付記20) ユーザは、検索語を入力し、前記検索語は、接続概念又は文書として前記検索語を含む前記グラフの少なくとも一部を表示するために使用され、及び/又は前記ユーザは、特定の概念又は文書の周りにある接続概念及び文書へと前記グラフに渡りナビゲートする、付記19に従って生成されたグラフを閲覧する使用方法。
(付記21) コンピュータプログラムであって、コンピューティング装置により実行されると、テキスト文書のコーパスに基づきグラフを生成する方法を実行し、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、
文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、
ノードの間の候補経路として、より高い重みを有するノードを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、
前記コーパスの中の事実を発見するために、経路の適合性の異なる特長をモデル化する少なくとも2つの指標に従って、前記候補経路にスコアを付ける段階と、
最適に前記のスコアリング指標を満たす経路を識別する段階と、
最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、
を有する、コンピュータプログラム。
10 発見情報システム
20 コンテンツインタフェース
30 前処理プロセッサ
40 フィルタ
50 スコアリングモジュール
60 最適化器
70 文書グラフ生成器
80 GUI

Claims (21)

  1. テキスト文書のコーパスに基づきグラフを生成するよう構成される発見情報システムであって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、
    前記コーパスの中の前記テキスト文書から文書コンテンツをダウンロードするよう構成されるコンテンツインタフェースと、
    前記文書コンテンツから概念グラフを抽出するよう構成される前処理プロセッサであって、前記概念グラフのノードは前記概念を表し、前記概念は前記文書の中のエンティティであり、ノード対の間の重み付けされたエッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、前処理プロセッサと、
    前記ノードの間の前記重み付けされたエッジをフィルタリングして、全ての概念の間の候補経路を提供するより高い重みを有するエッジを保持するよう構成されるフィルタと、
    少なくとも2つのスコアリングモジュールであって、それぞれスコアリング指標に従って前記候補経路にスコアを付けるよう構成され、指標は、前記コーパスの中の事実を発見する経路の適合性の異なる特長をモデル化する、少なくとも2つのスコアリングモジュールと、
    最適な方法で前記スコアリング指標を満たす前記概念グラフの最適化された経路を識別するよう構成される最適化器と、
    前記最適化された経路に基づき、文書間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成するよう構成される文書グラフ生成器と、
    前記コーパスの中の事実を発見するために、ユーザに文書グラフを閲覧しナビゲートさせるよう構成されるグラフィカルユーザインタフェース(GUI)と、
    を有するシステム。
  2. 前記前処理プロセッサは、前記エッジを重み付けするために、前記文書の中のエンティティのコーパス全体に渡る共起性及び前記文書の中のエンティティの類似性のような2つの指標を用いるよう構成される、請求項1に記載のシステム。
  3. 前記フィルタリングは、フィルタリングされるべき経路のエッジに関連する重みの組合せの積に基づく、請求項2に記載のシステム。
  4. 前記候補経路の前記スコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のうちの1又は複数のためのスコアリングモジュールを有する、請求項1乃至3のいずれか一項に記載のシステム。
  5. 情報性スコアリングモジュールは、情報性を反映するための各々の経路の経路エントロピーを計算するよう構成され、経路エントロピー方法は、クラスタの総数に対する各々の経路にある関連するクラスタのエントロピー指標を提供するために、クラスタの分類法を用い、各々のノードを前記クラスタのうちの1つに分類し、各々の候補経路を前記候補経路にあるノード及び隣接するノードが属するクラスタと関連付ける、請求項1乃至4のいずれか一項に記載のシステム。
  6. コヒーレンススコアリングモジュールは、集約コヒーレンスを提供するために連続するノードの間の類似性に基づき、及び/又は終始コヒーレンスを与えるために前記経路の始点ノードと終点ノードとの間の類似性に基づき、各々の経路のコヒーレンスを計算するよう構成される、請求項1乃至5のいずれか一項に記載のシステム。
  7. 2つのノードの類似性は、類似性を計算するために比較される前記ノードのコンテキストを利用する分散型類似性、又は類似性を計算するために階層型クラスタ分類法を用いる分類法に基づく類似性、である、請求項6に記載のシステム。
  8. 経路複雑性スコアリングモジュールは、経路複雑性を計算するよう構成され、ノードにおける複雑性は、前記ノードの近隣にある三角形のそこに存在する可能性のある全ての三角形に対する比であり、三角形は、ノードを該ノードの相互接続された近隣と接続するサブグラフである、請求項1乃至7のいずれか一項に記載のシステム。
  9. 経路希少性スコアリングモジュールは、文書頻度逆数(IDF)として経路希少性を計算するよう構成され、ノードのIDFは、前記ノードが文書コーパスの中でどれくらい希少であるかの指標である、請求項1乃至8のいずれか一項に記載のシステム。
  10. ノードt及び文書dを有する文書コーパスDに対するIDFは、
    Figure 0006686628
    のように計算される、請求項9に記載のシステム。
  11. 前記最適化器は、複数目的最適化を用いて経路セットを計算し、例えば前記指標に関してパレート境界を形成する経路セットを計算するよう構成される、請求項1乃至10のいずれか一項に記載のシステム。
  12. 前記候補経路のスコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のためのスコアリングモジュールを有し、前記最適化器は、最適経路セットの経路複雑性、エントロピー、集約された経路コヒーレンス、及び希少性を最大化し、終始経路コヒーレンスを最小化しようとするよう構成される、請求項1乃至11のいずれか一項に記載のシステム。
  13. 前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、各々の文書について、関連文書及び該関連文書を接続する経路のローカライズされたセットを生成することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成される、請求項1乃至12のいずれか一項に記載のシステム。
  14. 前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、特定の文書識別子セットD及び最適経路に起因するグラフGpについて、ノード/用語から文書へのマッピングをMとして、以下のアルゴリズム:
    (1)グラフGdをGpに等価に初期化し、
    (2)全ての文書d∈Dについて、
    a)Gpの中のノードセットXを見付け、前記マッピングMを用いてそれらがdの中に現れるようにし、
    b)全てのノードx∈Xについて、
    i.エッジ(x,d)をGdに追加し、
    ii.ノードセットYを得て、全てのy∈Yについて、Gpの中のxとyとの間の最短経路pが存在し、p個のエッジに対する重みの積が減衰閾Eより大きくなるようにし、
    iii.全てのノードy∈Yについて、
    A.前記マッピングMを用いてyを含む文書セットEを得て、
    B.全てのe∈EについてGdにエッジ(y,e)を追加し、
    (3)前記グラフGdを返す、
    を使用することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成される、請求項1乃至13のいずれか一項に記載のシステム。
  15. 前記候補経路にスコアを付けるよう構成される前記スコアリングモジュールのうちの1又は複数は、異なる候補経路のスコアを並列に計算するためにマルチスレッドを用いる、請求項1乃至14のいずれか一項に記載のシステム。
  16. 前記候補経路にスコアを付けるよう構成される前記スコアリングモジュールのうちの1又は複数は、幾つかの候補経路で用いられる経路の一部についての結果を格納するキャッシュを用いる、請求項1乃至15のいずれか一項に記載のシステム。
  17. 前記スコアリングモジュールは、情報性スコアリングモジュール及びコヒーレンススコアリングモジュールを有し、両方ともクラスタ分類法を使用し、両方のモジュールにより使用される分類法モジュールはこの分類を計算するよう構成される、請求項1乃至16のいずれか一項に記載のシステム。
  18. 前記GUIは、概念の相対的重要性を、それらの重みの観点で反映するように、接続概念の間の接続を表示するよう構成される、請求項1乃至17のいずれか一項に記載のシステム。
  19. テキスト文書のコーパスに基づきグラフを生成するためのコンピュータが実行する方法であって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、
    文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、
    ノードの間の候補経路として、より高い重みを有するノードを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、
    前記コーパスの中の事実を発見するために、経路の適合性の異なる特長をモデル化する少なくとも2つの指標に従って、前記候補経路にスコアを付ける段階と、
    最適に前記のスコアリング指標を満たす経路を識別する段階と、
    最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、
    を有する方法。
  20. ユーザは、前記コンピュータに検索語を入力し、
    前記コンピュータが、入力に応じて、接続概念又は文書として前記検索語を含む前記グラフの少なくとも一部を表示する請求項19に記載の方法。
  21. コンピュータプログラムであって、コンピューティング装置により実行されると、テキスト文書のコーパスに基づきグラフを生成する方法を実行し、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、
    文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、
    ノードの間の候補経路として、より高い重みを有するノードを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、
    前記コーパスの中の事実を発見するために、前経路の適合性の異なる特長をモデル化する少なくとも2つの指標に従って、前記候補経路にスコアを付ける段階と、
    最適に前記のスコアリング指標を満たす経路を識別する段階と、
    最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、
    を有する、コンピュータプログラム。
JP2016068450A 2015-04-30 2016-03-30 発見情報学システム、方法、及びコンピュータプログラム Active JP6686628B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB1507373.7A GB2537892A (en) 2015-04-30 2015-04-30 A discovery informatics system, method and computer program
GB1507373.7 2015-04-30
EP15198305.3A EP3089052A1 (en) 2015-04-30 2015-12-07 A discovery informatics system, method and computer program
EP15198305.3 2015-12-07

Publications (2)

Publication Number Publication Date
JP2016212838A JP2016212838A (ja) 2016-12-15
JP6686628B2 true JP6686628B2 (ja) 2020-04-22

Family

ID=53488912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016068450A Active JP6686628B2 (ja) 2015-04-30 2016-03-30 発見情報学システム、方法、及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US20160321357A1 (ja)
EP (1) EP3089052A1 (ja)
JP (1) JP6686628B2 (ja)
GB (1) GB2537892A (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9710544B1 (en) * 2016-05-19 2017-07-18 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents
US11093557B2 (en) * 2016-08-29 2021-08-17 Zoominfo Apollo Llc Keyword and business tag extraction
US10255701B2 (en) * 2016-09-21 2019-04-09 International Business Machines Corporation System, method and computer program product for electronic document display
US20180247214A1 (en) * 2017-02-28 2018-08-30 Linkedin Corporation Network node analysis and link generation system
US11048870B2 (en) * 2017-06-07 2021-06-29 International Business Machines Corporation Domain concept discovery and clustering using word embedding in dialogue design
US10275456B2 (en) 2017-06-15 2019-04-30 International Business Machines Corporation Determining context using weighted parsing scoring
US11176325B2 (en) * 2017-06-26 2021-11-16 International Business Machines Corporation Adaptive evaluation of meta-relationships in semantic graphs
US10997259B2 (en) * 2017-10-06 2021-05-04 Realpage, Inc. Concept networks and systems and methods for the creation, update and use of same in artificial intelligence systems
US11016985B2 (en) * 2018-05-22 2021-05-25 International Business Machines Corporation Providing relevant evidence or mentions for a query
US10963627B2 (en) * 2018-06-11 2021-03-30 Adobe Inc. Automatically generating digital enterprise content variants
JP2020187419A (ja) * 2019-05-10 2020-11-19 富士通株式会社 エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム
US11841867B2 (en) * 2019-08-09 2023-12-12 International Business Machines Corporation Query relaxation using external domain knowledge for query answering
CN111598447B (zh) * 2020-05-15 2021-03-23 浙江大学 一种基于hmaqga的水库群联合优化调度方法
US11775363B1 (en) * 2020-08-05 2023-10-03 Synopsys, Inc. System and method for auditing a graph-based API
US11500933B2 (en) * 2020-11-04 2022-11-15 Capital One Services, Llc Techniques to generate and store graph models from structured and unstructured data in a cloud-based graph database system

Also Published As

Publication number Publication date
GB2537892A (en) 2016-11-02
US20160321357A1 (en) 2016-11-03
JP2016212838A (ja) 2016-12-15
GB201507373D0 (en) 2015-06-17
EP3089052A1 (en) 2016-11-02

Similar Documents

Publication Publication Date Title
JP6686628B2 (ja) 発見情報学システム、方法、及びコンピュータプログラム
Hasan et al. Normalized approach to find optimal number of topics in Latent Dirichlet Allocation (LDA)
Bai et al. Design reuse oriented partial retrieval of CAD models
US20140229476A1 (en) System for Information Discovery & Organization
Mirończuk The BigGrams: the semi-supervised information extraction system from HTML: an improvement in the wrapper induction
Huo et al. Hotness prediction of scientific topics based on a bibliographic knowledge graph
Wan et al. Two methods for constructing a gene ontology-based feature network for a Bayesian network classifier and applications to datasets of aging-related genes
Nayak et al. Automated assessment of knowledge hierarchy evolution: comparing directed acyclic graphs
Nashipudimath et al. An efficient integration and indexing method based on feature patterns and semantic analysis for big data
Srivastava et al. Extractive multi-document text summarization using dolphin swarm optimization approach
Paton et al. Dataset discovery and exploration: A survey
JP5486667B2 (ja) クエリ結果を多様化するための方法および装置
Damljanovic et al. Random indexing for finding similar nodes within large RDF graphs
Xia et al. Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation
Tang et al. An ontology-improved vector space model for semantic retrieval
Withanawasam Apache Mahout Essentials
Chakraborti et al. Product news summarization for competitor intelligence using topic identification and artificial bee colony optimization
Do et al. W-KG2Vec: a weighted text-enhanced meta-path-based knowledge graph embedding for similarity search
Denzler et al. Granular knowledge cube
Peikert et al. Objective functions to determine the number of topics for topic modeling
Krishnan et al. Select, link and rank: Diversified query expansion and entity ranking using wikipedia
Brisebois et al. Efficient scientific research literature ranking model based on text and data mining technique
Dammak et al. Combining semi-supervised and active learning to rank algorithms: application to Document Retrieval
Nederstigt et al. An automated approach to product taxonomy mapping in e-commerce
Manrique et al. Diversified semantic query reformulation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160428

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200316

R150 Certificate of patent or registration of utility model

Ref document number: 6686628

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150