JP6686628B2 - 発見情報学システム、方法、及びコンピュータプログラム - Google Patents
発見情報学システム、方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP6686628B2 JP6686628B2 JP2016068450A JP2016068450A JP6686628B2 JP 6686628 B2 JP6686628 B2 JP 6686628B2 JP 2016068450 A JP2016068450 A JP 2016068450A JP 2016068450 A JP2016068450 A JP 2016068450A JP 6686628 B2 JP6686628 B2 JP 6686628B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- path
- graph
- nodes
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/01—Automatic library building
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の実施形態は、以下を効果的に可能にする。
文書1:’protein’:2.773,’s100b’:5.545
文書2:’apoe’:2.773,’pdd’:4.852,’dlb’:3.466
ベクトル間の余弦距離のような伝統的な類似性指標は、2つの文書の間で特性ベクトルの重なり合いが存在しないので、2つの文書を完全に無関係であると考える。しかしながら、神経障害(例えば、パーキンソン病)に関連する文献のコーパス全体を処理する場合、以下を発見できる。
・特定の文書1及び2の文脈で、比較的重要ではないにも係わらず、ドメインの中で重要な用語が存在する。例えば、それぞれ文書1及び2の中の「腫瘍壊死因子」及び「BuChe−K」である。
・これらの2つの用語は、2つの文書が結局のところ関連し得ることを示唆する、コーパスから抽出された重要なドメイン概念の知識ベースの中の関連経路によりリンクされるように見える。
1.Gpに等しいGdを初期化する。
2.全ての文書d∈Dについて、以下を行う:
a)Gpの中のノードのセットXを見付け、マッピングMを用いて該ノードがdの中に現れるようにする
b)全てのノードx∈Xについて、以下を行う:
i.エッジ(x,d)をGdに追加する
ii.ノードのセットYを得て、全てのy∈Yについて、Gpの中のxとyとの間の最短経路pが存在し、p個のエッジに対する重みの積が減衰閾Eより高くなるようにする
iii.全てのノードy∈Yについて、以下を行う:
A.マッピングMを用いてyを含む文書のセットEを得る
B.全てのe∈Eについて、Gdにエッジ(y,e)を追加する
3.グラフGdを返す。
方法は、テキスト(コーパス)文書のセットを入力として取り入れ、概念を接続する経路を介して文書をリンクするグラフを生成する。コーパスに基づき発見を行う高い可能性を有する経路の計算は、本発明の実施形態の中核と考えられる。
1.経路のスコアリング:経路の情報性、複雑性、コヒーレンス、等の形式的モデル化に基づき、経路に関連するより高度な指標を計算する。経路をスコアリングする具体的なステップは、以下により構成される。
・経路コヒーレンス(トピック安定性及び経過をモデル化する)
・経路複雑性(構造的重要性をモデル化する)
・経路希少性(非自明性をモデル化する)
2.最適経路の選択:経路スコアを有する多目的最適化問題を目的として最終的タスクを定め、最適セット、例えばPareto最適経路を見付ける。
3.文書−文書リンクの計算:文書を間接的に接続する概念により注釈付けされた文書−文書リンクを計算するために、最適概念経路を用いる。
・中間概念により注釈付けされた文書リンクをナビゲートすることによる偶然の知識発見
・任意のエントリポイントによる開かれた文献に基づく知識発見
・文書類似性又はクラスタリングの代わりに、概念的関係に基づく文書分類
・(原作者及び所属のような)文書メタデータにより可能な種々のアプリケーション
−熟練した発見(特定の概念領域に強く関連する原作者を識別する)
−(特定のトピックに関連するコミュニティを見付けるために、計算した文書リンクグラフにより示唆される原作者のネットワークを使用する)トピックコミュニティ検出。
意味的に注釈付けされた文書リンクを用いる発見をサポートする、提案される方法は、前述のパイプラインのブロックに依存する。以下では、先ず、前処理(文書コンテンツから概念経路を計算する)で生成されるデータの種類を説明し、次に、残りの部分で中核である新規な部分に関する詳細事項を説明する。
上述の前処理は、テキストを入力として取り入れ、用語の間の共起性及び類似性関係のネットワークに基づき、テキストの中に存在する用語の間の経路のセットを生成する。これらのステップの概要は、図4に示される。図4は4段階の処理を示す。最初に、ステップS100で、用語の基本的共起性が、文書コーパスから計算され、文書固有共起性関係を提供する。これは、例えば、名付けエンティティの対を抽出するテキストマイニングツールを用いることにより、次に特定の文書の中のそれらの共起性を計算することにより、可能である。ステップS110で、ポイントの観点での相互情報計算は、コーパス全体に渡る個々の文書共起性スコアを集約して、コーパス全体についての用語対のスコアを与える。ステップS120は、類似性計算であり、コーパスの観点で類似性関係を生成する。類似性は、共起性によりカバーできないエンティティ間の高レベルの種類の関係である。基本的に、2つのエンティティに関する計算は、それらがそれら両者に関連する共有されるエンティティによりどのようにリンクされるかを考慮に入れる。コサイン類似度が用いられても良い。ステップS130で、経路を生成するために、コーパスの観点の類似性関係及び共起性関係が用いられ、強く接続されない概念の間の経路を除去するよう、経路の数を削減するために、フィルタリングが用いられる。適切な前処理方法の完全な詳細事項は、Vit Novacek及びGully APC Burns、SKIMMR: Facilitating knowledge discovery in life sciences by machineaided skim reading、PeerJ, 2014に記載されている。https://peerj.com/articles/483/から入手可能。
基本的フィルタリングは、低い統計的重要性のエッジを有する経路を除去するだけである。しかしながら、残っている経路の数は、通常、2以上の文書を有するコーパスにとっては依然として非常に大きい。これは、発見情報アプリケーションを実現するには、経路を非現実的にしてしまう。経路は、純粋に統計的フィルタリングされ難い幾らかのノイズを依然として含む。したがって、本発明の実施形態は、経路に対して複数のより高度なスコアを定める。これらのスコアは、特定の経路により表される知識の情報値、トピックコヒーレンス、及び複雑性のような特徴を効果的にモデル化する。スコアは、以下の専用の章において紹介される。
経路エントロピー指標は、経路の情報コンテンツ及びそのコンテキスト、つまり経路に含まれそれに隣接するノード、を反映する。エントロピーが高いほど、より多くの情報が経路及びそのコンテキストに含まれ、発見の基礎としてより可能性が高いことを意味する。経路及びそのコンテキストのエントロピーを計算するために、先ず、ノードをクラスタに分類する必要がある。そのために、(生物医学ドメインにおけるMeSH標準語彙のような、http://www.ncbi.nlm.nih.gov/meshを参照)ドメイン固有分類法を用いるか、又は例えば階層的クラスタリング方法を用いて抽出した概念ネットワーク自体からの分類法を計算する。このような方法の1つは、Vit Novacek、A methodology for empirical analysis of LOD datasets、CoRR、abs/1406.1061, 2014において紹介され、参照により本願明細書に組み込まれる。
1.P−タンパク質及び関連する概念
2.D−病気及び関連する概念
3.B−生物医学的プロセス及び/又は特徴
4.C−化学及び関連する概念
5.L−細胞
6.G−遺伝子及び関連する概念
経路エントロピー計算のワークフローは、図7に示される。ステップS150は、どちらかと言えば直線的であり、全ての候補経路を、経路上の及び該経路に隣接するノードが属するクラスタセットに関連付けるステップを有する。ステップS160は、例えば以下に示すように、クラスタを用いてエントロピーを計算する。
我々は、意味的類似性を用いて、経路に沿った概念(ノード)のトピックコヒーレンスをモデル化する。経路にある後続のノードが互いに類似する場合、トピックは大きく変化しないことを意味する。他方で、経路の始点と終点とが類似しない場合、経路が、コーパスの中で異なるサブドメインに渡るブラウザをナビゲートする可能性を有することを意味する。経路コヒーレンススコア計算のスキーマは、図8に示される。ステップS170への入力は、経路エントロピーの場合と同じである。また、出力は、それらに付される、類似性に基づくスコアを有する経路注釈である。2つの類似性に基づくスコアが用いられ、以下に説明するように、経路コヒーレンス及び終始経路コヒーレンスを集約する。
対応するコンテキストベクトルに関連付けられる経路には4個のノードがある。例示的な概念ネットワークのベクトル空間は、21次元(ネットワークの中のノードの総数)を有する。図2のノードに上から下へ且つ左から右へ次元番号を割り当てる場合、p個のノードベクトルは、以下のマトリクスに編成され得る(普遍性を失うことなく、この特定の例を簡略化するために、既存のエッジの重みを1と仮定する)。
複雑な情報ほど、発見を行う高い可能性を有し得る。したがって、経路及び周囲のノードの複雑性をモデル化する必要もある。処理のスキーマは、図10に示される。ステップS180で使用する複雑性の特定の指標は、経路に沿って直ぐにある近隣ノードに関して計算される、経路にあるノードの平均クラスタ係数である。単一ノードvでは、クラスタ係数は次の通りである。
経路が、コーパスの中の多くの文書の中に現れるノードを含む場合、該経路は、全てを仮想的に接続させることができる。これは、精細な発見のための経路の可能性を低くする。これについてのリスクは、別の指標、つまり、コーパスの中の特定のノードがどれだけ希少であるかの指標である、経路ノードの文書頻度逆数(inverse document frequency:IDF)を考慮に入れることにより、低下され得る。スコア計算のスキーマは、図11に示される。
pの集約スコアは、2.771又は2.991(それぞれ最小又は平均)である。同様にqの集約スコアは2.595又は3.135である。
前の章で導入された指標は、経路が発見を行う可能性を反映する、経路の種々の特長をモデル化する。しかしながら、指標のうちの幾つかは非常に複雑に相互依存しており他の指標は実際に現実問題として衝突し得るので、単に指標を有するだけでは特に助けにならない。どの経路が全体において最も良く指標を満たすかを見出すために、例えば[1]Agoston E. Eiben及びJ.E. Smith、Multi−modal problems and spatial distribution、Agoston E. Eiben及びJ.E. Smith、editors、Introduction to Evolutionary Computing、Springer、2007に定められるような多目的最適化タスクのような問題にアプローチする必要がある。具体的には、本例では、スコア注釈目的ベクトル(score annotation objective vector)に関して、所謂パレート境界(Pareto frontier)を形成する経路セットを計算する。これは、他の目的のうちの少なくとも1つを下げることなく、目的のうちのいずれにおいても向上され得ない解決策の領域である(つまり、経路)。これは、通常、重要な発見を行う可能性を最大化する、遙かに縮小した経路セットを生成する。
1.より複雑な環境を通る経路は、ユーザにとってより多くの情報を与える。したがって、経路複雑性は最大化されるべきである。
2.多くの高度に均衡のとれた(つまりエントロピー)トピックにより囲まれる経路は、より多くの情報を与えるので、エントロピーは最大化されるべきである。
3.途中で次第にトピックの変化するコヒーレント経路は、より良いので(リンクされたテキストへの途上で、あるトピックから別のトピックへの無秩序状態の少ない、より焦点の絞られた経過)、集約された経路コヒーレンスは最大化されるべきである。
4.トピックの観点から遠い(非コヒーレント)領域で終わるとき(トピックを通じて経過が段階的である、つまりランダムさが少ない)、より興味深いので、終始経路コヒーレンスは最小化されるべきである。
5.経路は、テキストの中で非常に頻度の高い(つまり、明らかな)多くのノードを含むべきではないので、経路IDFスコアは最大化されるべきである。
これらの条件は、経路スコアベクトルのどの値が最大化され及びどれが最小化されるべきかを定める最適化パラメータに直接影響を与える。パレート効率問題は、上述のように解ベクトルの中の全ての要素の最小化として定められるので、以下の例に示すように、最大化されると想定される全てのスコアを無効にしなければならない。
(例8)前に導入された経路p、qについての指標は表に整理できる。
p:(−1.75,0,0,0,−2.991)、q:(−2.126,−0.25,0.25,−0.167,−3.135)
いずれの経路も互いに優勢ではないので、これらの経路の各々は、所与の例で最適解の部分である可能性がある。
提示の方法の最後のステップは、特定の文書の間のリンクを計算するために、最適経路を用いる。処理のスキーマは、図13に示される。先ず、最適経路に起因するグラフが計算される。これは、最適経路のノード及びエッジを新しいグラフのエッジとして取り入れ、及び元の抽出されたグラフから対応する重みにより該エッジに注釈付けすることにより、行われる。新しいグラフは、次に、任意の所与の文書識別子について、関連する文書及び該文書を接続する経路のローカライズされたセットを生成するために使用され得る。文書識別子の特定のセットD、及び最適経路に起因するグラフGpについて、これは、以下のアルゴリズムを用いて行われる(ノード/用語からそれらを含む文書へのマッピングをMとする)。
1.Gpに等しいGdを初期化する
2.全ての文書d∈Dについて、以下を行う:
a)Gpの中のノードのセットXを見付け、該ノードがdの中に現れるようにする(マッピングMを用いて)
b)全てのノードx∈Xについて、以下を行う:
i.エッジ(x,d)をGdに追加する
ii.ノードのセットYを得て、全てのy∈Yについて、Gpの中のxとyとの間の最短経路pが存在し、p個のエッジに対する重みの積が減衰閾Eより高くなるようにする
iii.全てのノードy∈Yについて、以下を行う:
A.(マッピングMを用いて)yを含む文書のセットEを得る
B.全てのe∈Eについて、Gdにエッジ(y,e)を追加する
3.グラフGdを返す。
アルツハイマー病:25619230、25614954
BuCheK:19006190
図15に示す文書−文書接続のグラフが生成され得る。
<概要>
提示の実施形態は、多くの特定のステップを有するが、これらのステップは、発見情報学における多くのタスクに適用可能な非常に明らかに焦点の絞られたソリューションを実施する。ステップの組合せは、重要でありユニークである。対応する研究プロトタイプによる実験により示されたように、方法の実装は、他の関連するアプローチより優れている。
a)文書から概念ネットワークを抽出する。ここで、ノード、つまり概念は、重要な名付けエンティティにより表され、エッジは、共起性、類似性、又は可能な他の意味的関係のような重み付けされた関係である。b)重みは、特定の関係の相対的重要度を表す。
b)入力コーパスに基づき発見をサポートし得る概念−概念経路のセットを生成する。
c)経路の情報性、コヒーレンス、複雑性及び希少性に従って経路をスコアリングする。
d)最適な方法で全てのスコアを満たす経路を識別する。
e)最適化された経路により示唆されるグラフに基づき、文書間の接続のグラフを生成する。
(付記1) テキスト文書のコーパスに基づきグラフを生成するよう構成される発見情報システムであって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、
前記コーパスの中の前記テキスト文書から文書コンテンツをダウンロードするよう構成されるコンテンツインタフェースと、
前記文書コンテンツから概念グラフを抽出するよう構成される前処理プロセッサであって、前記概念グラフのノードは前記概念を表し、前記概念は前記文書の中のエンティティであり、ノード対の間の重み付けされたエッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、前処理プロセッサと、
前記ノードの間の前記重み付けされたエッジをフィルタリングして、全ての概念の間の候補経路を提供するより高い重みを有するエッジを保持するよう構成されるフィルタと、
少なくとも2つのスコアリングモジュールであって、それぞれスコアリング指標に従って前記候補経路にスコアを付けるよう構成され、指標は、前記コーパスの中の事実を発見する経路の適合性の異なる特長をモデル化する、少なくとも2つのスコアリングモジュールと、
最適な方法で前記スコアリング指標を満たす前記概念グラフの最適化された経路を識別するよう構成される最適化器と、
前記最適化された経路に基づき、文書間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成するよう構成される文書グラフ生成器と、
前記コーパスの中の事実を発見するために、ユーザに文書グラフを閲覧しナビゲートさせるよう構成されるグラフィカルユーザインタフェース(GUI)と、
を有するシステム。
(付記2) 前記前処理プロセッサは、前記エッジを重み付けするために、前記文書の中のエンティティのコーパス全体に渡る共起性及び前記文書の中のエンティティの類似性のような2つの指標を用いるよう構成される、付記1に記載のシステム。
(付記3) 前記フィルタリングは、フィルタリングされるべき経路のエッジに関連する重みの組合せの積に基づく、付記2に記載のシステム。
(付記4) 前記候補経路の前記スコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のうちの1又は複数のためのスコアリングモジュールを有する、付記1乃至3のいずれか一項に記載のシステム。
(付記5) 情報性スコアリングモジュールは、情報性を反映するための各々の経路の経路エントロピーを計算するよう構成され、経路エントロピー方法は、クラスタの総数に対する各々の経路にある関連するクラスタのエントロピー指標を提供するために、クラスタの分類法を用い、各々のノードを前記クラスタのうちの1つに分類し、各々の候補経路を前記候補経路にあるノード及び隣接するノードが属するクラスタと関連付ける、付記1乃至4のいずれか一項に記載のシステム。
(付記6) コヒーレンススコアリングモジュールは、集約コヒーレンスを提供するために連続するノードの間の類似性に基づき、及び/又は終始コヒーレンスを与えるために前記経路の始点ノードと終点ノードとの間の類似性に基づき、各々の経路のコヒーレンスを計算するよう構成される、付記1乃至5のいずれか一項に記載のシステム。
(付記7) 2つのノードの類似性は、類似性を計算するために比較される前記ノードのコンテキストを利用する分散型類似性、又は類似性を計算するために階層型クラスタ分類法を用いる分類法に基づく類似性、である、付記6に記載のシステム。
(付記8) 経路複雑性スコアリングモジュールは、経路複雑性を計算するよう構成され、ノードにおける複雑性は、前記ノードの近隣にある三角形のそこに存在する可能性のある全ての三角形に対する比であり、三角形は、ノードを該ノードの相互接続された近隣と接続するサブグラフである、付記1乃至7のいずれか一項に記載のシステム。
(付記9) 経路希少性スコアリングモジュールは、文書頻度逆数(IDF)として経路希少性を計算するよう構成され、ノードのIDFは、前記ノードが文書コーパスの中でどれくらい希少であるかの指標である、付記1乃至8のいずれか一項に記載のシステム。
(付記10) ノードt及び文書dを有する文書コーパスDに対するIDFは、
(付記11) 前記最適化器は、複数目的最適化を用いて経路セットを計算し、例えば前記指標に関してパレート境界を形成する経路セットを計算するよう構成される、付記1乃至10のいずれか一項に記載のシステム。
(付記12) 前記候補経路のスコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のためのスコアリングモジュールを有し、前記最適化器は、最適経路セットの経路複雑性、エントロピー、集約された経路コヒーレンス、及び希少性を最大化し、終始経路コヒーレンスを最小化しようとするよう構成される、付記1乃至11のいずれか一項に記載のシステム。
(付記13) 前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、各々の文書について、関連文書及び該関連文書を接続する経路のローカライズされたセットを生成することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成される、付記1乃至12のいずれか一項に記載のシステム。
(付記14) 前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、特定の文書識別子セットD及び最適経路に起因するグラフGpについて、ノード/用語から文書へのマッピングをMとして、以下のアルゴリズム:
(1)グラフGdをGpに等価に初期化し、
(2)全ての文書d∈Dについて、
a)Gpの中のノードセットXを見付け、前記マッピングMを用いてそれらがdの中に現れるようにし、
b)全てのノードx∈Xについて、
i.エッジ(x,d)をGdに追加し、
ii.ノードセットYを得て、全てのy∈Yについて、Gpの中のxとyとの間の最短経路pが存在し、p個のエッジに対する重みの積が減衰閾Eより大きくなるようにし、
iii.全てのノードy∈Yについて、
A.前記マッピングMを用いてyを含む文書セットEを得て、
B.全てのe∈EについてGdにエッジ(y,e)を追加し、
(3)前記グラフGdを返す、
を使用することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成される、付記1乃至13のいずれか一項に記載のシステム。
(付記15) 前記候補経路にスコアを付けるよう構成される前記スコアリングモジュールのうちの1又は複数は、異なる候補経路のスコアを並列に計算するためにマルチスレッドを用いる、付記1乃至14のいずれか一項に記載のシステム。
(付記16) 前記候補経路にスコアを付けるよう構成される前記スコアリングモジュールのうちの1又は複数は、幾つかの候補経路で用いられる経路の一部についての結果を格納するキャッシュを用いる、付記1乃至15のいずれか一項に記載のシステム。
(付記17) 前記スコアリングモジュールは、情報性スコアリングモジュール及びコヒーレンススコアリングモジュールを有し、両方ともクラスタ分類法を使用し、両方のモジュールにより使用される分類法モジュールはこの分類を計算するよう構成される、付記1乃至16のいずれか一項に記載のシステム。
(付記18) 前記GUIは、概念の相対的重要性を、それらの重みの観点で反映するように、接続概念の間の接続を表示するよう構成される、付記1乃至17のいずれか一項に記載のシステム。
(付記19) テキスト文書のコーパスに基づきグラフを生成する方法であって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、
文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、
ノードの間の候補経路として、より高い重みを有するノードを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、
前記コーパスの中の事実を発見するために、経路の適合性の異なる特長をモデル化する少なくとも2つの指標に従って、前記候補経路にスコアを付ける段階と、
最適に前記のスコアリング指標を満たす経路を識別する段階と、
最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、
を有する方法。
(付記20) ユーザは、検索語を入力し、前記検索語は、接続概念又は文書として前記検索語を含む前記グラフの少なくとも一部を表示するために使用され、及び/又は前記ユーザは、特定の概念又は文書の周りにある接続概念及び文書へと前記グラフに渡りナビゲートする、付記19に従って生成されたグラフを閲覧する使用方法。
(付記21) コンピュータプログラムであって、コンピューティング装置により実行されると、テキスト文書のコーパスに基づきグラフを生成する方法を実行し、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、
文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、
ノードの間の候補経路として、より高い重みを有するノードを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、
前記コーパスの中の事実を発見するために、経路の適合性の異なる特長をモデル化する少なくとも2つの指標に従って、前記候補経路にスコアを付ける段階と、
最適に前記のスコアリング指標を満たす経路を識別する段階と、
最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、
を有する、コンピュータプログラム。
20 コンテンツインタフェース
30 前処理プロセッサ
40 フィルタ
50 スコアリングモジュール
60 最適化器
70 文書グラフ生成器
80 GUI
Claims (21)
- テキスト文書のコーパスに基づきグラフを生成するよう構成される発見情報システムであって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、
前記コーパスの中の前記テキスト文書から文書コンテンツをダウンロードするよう構成されるコンテンツインタフェースと、
前記文書コンテンツから概念グラフを抽出するよう構成される前処理プロセッサであって、前記概念グラフのノードは前記概念を表し、前記概念は前記文書の中のエンティティであり、ノード対の間の重み付けされたエッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、前処理プロセッサと、
前記ノードの間の前記重み付けされたエッジをフィルタリングして、全ての概念の間の候補経路を提供するより高い重みを有するエッジを保持するよう構成されるフィルタと、
少なくとも2つのスコアリングモジュールであって、それぞれスコアリング指標に従って前記候補経路にスコアを付けるよう構成され、指標は、前記コーパスの中の事実を発見する経路の適合性の異なる特長をモデル化する、少なくとも2つのスコアリングモジュールと、
最適な方法で前記スコアリング指標を満たす前記概念グラフの最適化された経路を識別するよう構成される最適化器と、
前記最適化された経路に基づき、文書間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成するよう構成される文書グラフ生成器と、
前記コーパスの中の事実を発見するために、ユーザに文書グラフを閲覧しナビゲートさせるよう構成されるグラフィカルユーザインタフェース(GUI)と、
を有するシステム。 - 前記前処理プロセッサは、前記エッジを重み付けするために、前記文書の中のエンティティのコーパス全体に渡る共起性及び前記文書の中のエンティティの類似性のような2つの指標を用いるよう構成される、請求項1に記載のシステム。
- 前記フィルタリングは、フィルタリングされるべき経路のエッジに関連する重みの組合せの積に基づく、請求項2に記載のシステム。
- 前記候補経路の前記スコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のうちの1又は複数のためのスコアリングモジュールを有する、請求項1乃至3のいずれか一項に記載のシステム。
- 情報性スコアリングモジュールは、情報性を反映するための各々の経路の経路エントロピーを計算するよう構成され、経路エントロピー方法は、クラスタの総数に対する各々の経路にある関連するクラスタのエントロピー指標を提供するために、クラスタの分類法を用い、各々のノードを前記クラスタのうちの1つに分類し、各々の候補経路を前記候補経路にあるノード及び隣接するノードが属するクラスタと関連付ける、請求項1乃至4のいずれか一項に記載のシステム。
- コヒーレンススコアリングモジュールは、集約コヒーレンスを提供するために連続するノードの間の類似性に基づき、及び/又は終始コヒーレンスを与えるために前記経路の始点ノードと終点ノードとの間の類似性に基づき、各々の経路のコヒーレンスを計算するよう構成される、請求項1乃至5のいずれか一項に記載のシステム。
- 2つのノードの類似性は、類似性を計算するために比較される前記ノードのコンテキストを利用する分散型類似性、又は類似性を計算するために階層型クラスタ分類法を用いる分類法に基づく類似性、である、請求項6に記載のシステム。
- 経路複雑性スコアリングモジュールは、経路複雑性を計算するよう構成され、ノードにおける複雑性は、前記ノードの近隣にある三角形のそこに存在する可能性のある全ての三角形に対する比であり、三角形は、ノードを該ノードの相互接続された近隣と接続するサブグラフである、請求項1乃至7のいずれか一項に記載のシステム。
- 経路希少性スコアリングモジュールは、文書頻度逆数(IDF)として経路希少性を計算するよう構成され、ノードのIDFは、前記ノードが文書コーパスの中でどれくらい希少であるかの指標である、請求項1乃至8のいずれか一項に記載のシステム。
- 前記最適化器は、複数目的最適化を用いて経路セットを計算し、例えば前記指標に関してパレート境界を形成する経路セットを計算するよう構成される、請求項1乃至10のいずれか一項に記載のシステム。
- 前記候補経路のスコアリングモジュールは、情報性、コヒーレンス、複雑性、及び希少性のためのスコアリングモジュールを有し、前記最適化器は、最適経路セットの経路複雑性、エントロピー、集約された経路コヒーレンス、及び希少性を最大化し、終始経路コヒーレンスを最小化しようとするよう構成される、請求項1乃至11のいずれか一項に記載のシステム。
- 前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、各々の文書について、関連文書及び該関連文書を接続する経路のローカライズされたセットを生成することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成される、請求項1乃至12のいずれか一項に記載のシステム。
- 前記文書グラフ生成器は、前記概念グラフの前記最適化された経路から開始し、特定の文書識別子セットD及び最適経路に起因するグラフGpについて、ノード/用語から文書へのマッピングをMとして、以下のアルゴリズム:
(1)グラフGdをGpに等価に初期化し、
(2)全ての文書d∈Dについて、
a)Gpの中のノードセットXを見付け、前記マッピングMを用いてそれらがdの中に現れるようにし、
b)全てのノードx∈Xについて、
i.エッジ(x,d)をGdに追加し、
ii.ノードセットYを得て、全てのy∈Yについて、Gpの中のxとyとの間の最短経路pが存在し、p個のエッジに対する重みの積が減衰閾Eより大きくなるようにし、
iii.全てのノードy∈Yについて、
A.前記マッピングMを用いてyを含む文書セットEを得て、
B.全てのe∈EについてGdにエッジ(y,e)を追加し、
(3)前記グラフGdを返す、
を使用することにより、概念注釈付けされたリンクを有する文書グラフを生成するよう構成される、請求項1乃至13のいずれか一項に記載のシステム。 - 前記候補経路にスコアを付けるよう構成される前記スコアリングモジュールのうちの1又は複数は、異なる候補経路のスコアを並列に計算するためにマルチスレッドを用いる、請求項1乃至14のいずれか一項に記載のシステム。
- 前記候補経路にスコアを付けるよう構成される前記スコアリングモジュールのうちの1又は複数は、幾つかの候補経路で用いられる経路の一部についての結果を格納するキャッシュを用いる、請求項1乃至15のいずれか一項に記載のシステム。
- 前記スコアリングモジュールは、情報性スコアリングモジュール及びコヒーレンススコアリングモジュールを有し、両方ともクラスタ分類法を使用し、両方のモジュールにより使用される分類法モジュールはこの分類を計算するよう構成される、請求項1乃至16のいずれか一項に記載のシステム。
- 前記GUIは、概念の相対的重要性を、それらの重みの観点で反映するように、接続概念の間の接続を表示するよう構成される、請求項1乃至17のいずれか一項に記載のシステム。
- テキスト文書のコーパスに基づきグラフを生成するためのコンピュータが実行する方法であって、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、
文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、
ノードの間の候補経路として、より高い重みを有するノードを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、
前記コーパスの中の事実を発見するために、経路の適合性の異なる特長をモデル化する少なくとも2つの指標に従って、前記候補経路にスコアを付ける段階と、
最適に前記のスコアリング指標を満たす経路を識別する段階と、
最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、
を有する方法。 - ユーザは、前記コンピュータに検索語を入力し、
前記コンピュータが、入力に応じて、接続概念又は文書として前記検索語を含む前記グラフの少なくとも一部を表示する、請求項19に記載の方法。 - コンピュータプログラムであって、コンピューティング装置により実行されると、テキスト文書のコーパスに基づきグラフを生成する方法を実行し、前記グラフは前記コーパスの中の文書をノードとして、概念を接続することにより注釈付けされた前記ノードの間のリンクと共に含み、前記の概念の接続は、前記文書を直接及び間接的に接続し、前記方法は、
文書コンテンツから概念グラフを抽出する前処理段階であって、該グラフのノードは、前記概念を表し、前記概念は前記文書の中のエンティティであり、エッジは、前記エンティティの間の重み付けされた関係であり、前記重みは、特定の関係の相対的重要性を表す、段階と、
ノードの間の候補経路として、より高い重みを有するノードを保持するよう、ノードの間の前記重み付けされたエッジをフィルタリングする段階と、
前記コーパスの中の事実を発見するために、前経路の適合性の異なる特長をモデル化する少なくとも2つの指標に従って、前記候補経路にスコアを付ける段階と、
最適に前記のスコアリング指標を満たす経路を識別する段階と、
最適化された経路に基づき、文書の間の概念注釈付けされたリンクを有する、前記コーパスの中の文書のグラフを生成する段階と、
を有する、コンピュータプログラム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1507373.7A GB2537892A (en) | 2015-04-30 | 2015-04-30 | A discovery informatics system, method and computer program |
GB1507373.7 | 2015-04-30 | ||
EP15198305.3A EP3089052A1 (en) | 2015-04-30 | 2015-12-07 | A discovery informatics system, method and computer program |
EP15198305.3 | 2015-12-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016212838A JP2016212838A (ja) | 2016-12-15 |
JP6686628B2 true JP6686628B2 (ja) | 2020-04-22 |
Family
ID=53488912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016068450A Active JP6686628B2 (ja) | 2015-04-30 | 2016-03-30 | 発見情報学システム、方法、及びコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20160321357A1 (ja) |
EP (1) | EP3089052A1 (ja) |
JP (1) | JP6686628B2 (ja) |
GB (1) | GB2537892A (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9710544B1 (en) * | 2016-05-19 | 2017-07-18 | Quid, Inc. | Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents |
US11093557B2 (en) * | 2016-08-29 | 2021-08-17 | Zoominfo Apollo Llc | Keyword and business tag extraction |
US10255701B2 (en) * | 2016-09-21 | 2019-04-09 | International Business Machines Corporation | System, method and computer program product for electronic document display |
US20180247214A1 (en) * | 2017-02-28 | 2018-08-30 | Linkedin Corporation | Network node analysis and link generation system |
US11048870B2 (en) * | 2017-06-07 | 2021-06-29 | International Business Machines Corporation | Domain concept discovery and clustering using word embedding in dialogue design |
US10275456B2 (en) | 2017-06-15 | 2019-04-30 | International Business Machines Corporation | Determining context using weighted parsing scoring |
US11176325B2 (en) * | 2017-06-26 | 2021-11-16 | International Business Machines Corporation | Adaptive evaluation of meta-relationships in semantic graphs |
US10997259B2 (en) * | 2017-10-06 | 2021-05-04 | Realpage, Inc. | Concept networks and systems and methods for the creation, update and use of same in artificial intelligence systems |
US11016985B2 (en) * | 2018-05-22 | 2021-05-25 | International Business Machines Corporation | Providing relevant evidence or mentions for a query |
US10963627B2 (en) * | 2018-06-11 | 2021-03-30 | Adobe Inc. | Automatically generating digital enterprise content variants |
JP2020187419A (ja) * | 2019-05-10 | 2020-11-19 | 富士通株式会社 | エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム |
US11841867B2 (en) * | 2019-08-09 | 2023-12-12 | International Business Machines Corporation | Query relaxation using external domain knowledge for query answering |
CN111598447B (zh) * | 2020-05-15 | 2021-03-23 | 浙江大学 | 一种基于hmaqga的水库群联合优化调度方法 |
US11775363B1 (en) * | 2020-08-05 | 2023-10-03 | Synopsys, Inc. | System and method for auditing a graph-based API |
US11500933B2 (en) * | 2020-11-04 | 2022-11-15 | Capital One Services, Llc | Techniques to generate and store graph models from structured and unstructured data in a cloud-based graph database system |
-
2015
- 2015-04-30 GB GB1507373.7A patent/GB2537892A/en not_active Withdrawn
- 2015-12-07 EP EP15198305.3A patent/EP3089052A1/en not_active Withdrawn
-
2016
- 2016-03-30 JP JP2016068450A patent/JP6686628B2/ja active Active
- 2016-03-31 US US15/086,310 patent/US20160321357A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
GB2537892A (en) | 2016-11-02 |
US20160321357A1 (en) | 2016-11-03 |
JP2016212838A (ja) | 2016-12-15 |
GB201507373D0 (en) | 2015-06-17 |
EP3089052A1 (en) | 2016-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6686628B2 (ja) | 発見情報学システム、方法、及びコンピュータプログラム | |
Hasan et al. | Normalized approach to find optimal number of topics in Latent Dirichlet Allocation (LDA) | |
Bai et al. | Design reuse oriented partial retrieval of CAD models | |
US20140229476A1 (en) | System for Information Discovery & Organization | |
Mirończuk | The BigGrams: the semi-supervised information extraction system from HTML: an improvement in the wrapper induction | |
Huo et al. | Hotness prediction of scientific topics based on a bibliographic knowledge graph | |
Wan et al. | Two methods for constructing a gene ontology-based feature network for a Bayesian network classifier and applications to datasets of aging-related genes | |
Nayak et al. | Automated assessment of knowledge hierarchy evolution: comparing directed acyclic graphs | |
Nashipudimath et al. | An efficient integration and indexing method based on feature patterns and semantic analysis for big data | |
Srivastava et al. | Extractive multi-document text summarization using dolphin swarm optimization approach | |
Paton et al. | Dataset discovery and exploration: A survey | |
JP5486667B2 (ja) | クエリ結果を多様化するための方法および装置 | |
Damljanovic et al. | Random indexing for finding similar nodes within large RDF graphs | |
Xia et al. | Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation | |
Tang et al. | An ontology-improved vector space model for semantic retrieval | |
Withanawasam | Apache Mahout Essentials | |
Chakraborti et al. | Product news summarization for competitor intelligence using topic identification and artificial bee colony optimization | |
Do et al. | W-KG2Vec: a weighted text-enhanced meta-path-based knowledge graph embedding for similarity search | |
Denzler et al. | Granular knowledge cube | |
Peikert et al. | Objective functions to determine the number of topics for topic modeling | |
Krishnan et al. | Select, link and rank: Diversified query expansion and entity ranking using wikipedia | |
Brisebois et al. | Efficient scientific research literature ranking model based on text and data mining technique | |
Dammak et al. | Combining semi-supervised and active learning to rank algorithms: application to Document Retrieval | |
Nederstigt et al. | An automated approach to product taxonomy mapping in e-commerce | |
Manrique et al. | Diversified semantic query reformulation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160428 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200303 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6686628 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |