JP2010532506A - ナレッジナビゲーション及びディスカバリのデータ構造、システム、及び方法 - Google Patents

ナレッジナビゲーション及びディスカバリのデータ構造、システム、及び方法 Download PDF

Info

Publication number
JP2010532506A
JP2010532506A JP2010501019A JP2010501019A JP2010532506A JP 2010532506 A JP2010532506 A JP 2010532506A JP 2010501019 A JP2010501019 A JP 2010501019A JP 2010501019 A JP2010501019 A JP 2010501019A JP 2010532506 A JP2010532506 A JP 2010532506A
Authority
JP
Japan
Prior art keywords
concepts
relation
factual
title
info
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010501019A
Other languages
English (en)
Inventor
アルバート モンス
ニコラス バリス
クリスティン チチェスター
バレント モンス
エリック ヴァンマリゲン
マルク ウェーバー
Original Assignee
ニューコ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニューコ インコーポレイテッド filed Critical ニューコ インコーポレイテッド
Publication of JP2010532506A publication Critical patent/JP2010532506A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

正確な情報検索及び抽出を可能にし、相関的及び連想的ディスカバリを容易にするデータ構造、システム、方法、及びコンピュータプログラムプロダクトを開示する。本発明で利用する「Knowlet」と称する新規なデータ構造は、多数の属性及び値の組み合わせによって概念間の関係を表す。テキストの中では事実表明が数多く繰り返されるが、Knowletには2つの概念間の関係が一度のみ記録され、それらの関係の属性及び値は多数の事実表明によって変化し、共起もしくは関連性が増加する。本発明の手法により、Knowlet空間の拡大はテキスト空間に比べて最小限に抑えられるため、膨大なデータストアと、関連オントロジー/シソーラスと、ナレッジナビゲーション及びナレッジディスカバリ(相関的、連想的、及び/又はその他)の必要性がある状況に役立てられる。
【選択図】図4

Description

本発明は、概して大量データの中をナビゲートするためのデータ構造、システム、方法、及びコンピュータプログラムプロダクトに関し、より具体的には、かかる大量データに含まれる概念中をナビゲートしてナレッジディスカバリ工程を容易にするためのデータ構造、システム、方法、及びコンピュータプログラムプロダクトに関する。
[関連出願の相互参照]
本出願は、以下に記載の出願人の同時係属中の出願と関連し、その利益を主張し、またそれらの出願の内容の全てを参照して本文の記載の一部として援用する:
米国仮特許出願61/064,345、発明の名称「ナレッジナビゲーション及びディスカバリの改良型システム及び方法(Enhanced System and Method for Knowledge Navigation and Discovery)」、2008年2月29日出願;
米国仮特許出願61/064,211、発明の名称「ナレッジナビゲーション及びディスカバリのシステム及び方法(System and Method for Knowledge Navigation and Discovery)」、2008年2月21日出願;
米国仮特許出願 、発明の名称「ナレッジナビゲーション及びディスカバリの改良型システム及び方法(Enhanced System and Method for Knowledge Navigation and Discovery)」、2008年3月19日出願;
米国仮特許出願 、発明の名称「知的ネットワークを介したナレッジナビゲーション及びディスカバリのシステム及び方法(System and Method for Knowledge Navigation and Discovery Via Intellectual Networking)」、2008年3月26日出願;
米国仮特許出願60/909,072、発明の名称「ナレッジディスカバリの方法及び目的(Method and Object for Knowledge Discovery)」、2007年3月30日出願;及び
米国通常特許出願 、発明の名称「ナレッジナビゲーション及びディスカバリのためのウィキファイイングコンテントのシステム及び方法(System and Method for Wikifying Content for Knowledge Navigation and Discovery)」、2008年3月31日出願。
現在の情報時代において、情報は驚異的なペースで作り出されている。例えば、地球的規模の公共インターネットでは1億余りのウェブサイトに5,000億ページ余りの情報が散在していると推定されており、それらは日々拡大している。このような拡大はニュース記事、科学的研究、ウェブログ(すなわち「ブログ」)等を「公式に」掲示するウェブサイト運営者ばかりでなく、一般人によるものもある。つまり「ウィキ」タイプの様々なサイトもインターネットの膨大なページ数に及ぶデータの増加に寄与している。通常「ウィキ」タイプのサイトは共同ウェブサイトの形をとり、ユーザは普通、大幅な制約を受けずにその内容を容易に修正できる。(ウィキタイプのサイトでは誰しもがウェブブラウザを使ってサイトに置かれた別著者の作品を含むコンテンツを編集、削除、修正できる。)
情報は驚異的ペースで作り出されているが、インターネットはデータ保管庫の便利な一例にすぎないため、該当する情報を見つけて分析する作業は、人間社会のあらゆる局面においてかつてないほど重要で手間のかかる作業となっている。大量の情報は自然言語のテキストに符号化されているため、大量のテキストの中で情報の「金塊」を見つける作業のことを、しばしば「テキストマイニング」と呼ぶ。これまで情報検索(IR)と情報抽出(IE)という2大テキストマイニング手法が発展をとげてきた。
情報検索:文書発見
情報検索の問題は図書館や書庫の起源と同じくらい古い。情報を含む書籍等の媒体を保管すると、その後はそれらを発見する作業が待っている。大量の文書群にアクセスするにあたっては目録と索引が一般的な手段となる。多くのテキストがデジタル化されているコンピュータ時代にあっては、大量の文書群に索引を付け検索するための計算ツールが開発されている。これらのツールのユーザは主に「キーワード」や文章を使ってデータベースに照会し、通常であればクエリに該当する出版物の一覧を得る。例えば「新しい肺癌治療法を論述する書類を探す」というクエリであれば、その結果はおそらく、最近の肺癌用臨床試験薬が記された書類のリファレンスとなろう。
IR用コンピュータの研究開発は1950年代にまで遡る。これまで様々なアルゴリズムとアプリケーションが開発されており、文献等の多くの情報源をオンラインで入手できることから、科学研究者らは日常的にIRツールを利用している。例えば、GoogleやYahoo!を使ったウェブ探索は典型的なIR作業である。方法論の観点からすると、IRはブール探索、確率的探索、ベクトル空間探索という3通りの手法に区別できる。
ブールモデルを採用するPubMedは最も普及した生物医学書誌データベースの1つである。上記のクエリを例にとれば「肺癌AND治療」というようなものになるであろう。キーワード探索にかなり工夫を凝らしたPubMedでも、ブール探索の典型的な欠点を免れることはできない。すなわち「書類AND論述AND新治療AND肺癌」というような具体性の高いクエリになると、通常であれば結果がほとんど出ないか、全く出なくなる。その結果は単語ベースのブールクエリを忠実に反映するものであって、通常は関連性に基づき結果を順位付けることはできない。
確率的探索とベクトル空間探索は、より洗練されたツールでのクエリの絞り込みを提供する。ベクトル空間検索の場合は、文書とクエリの両方がテキストに含まれる最も重要な語(すなわちキーワード)のベクトルによって表現される。例えばベクトル{書類、論述、新治療、肺癌}が上記のクエリに相当し、重要度を表す数値が割り当てられる。文書とクエリをベクトルに変換した後には、通常はクエリベクトルと文書ベクトルとの角度を計算する。2ベクトル間の角度が小さいほどベクトルは類似している。つまり、文書がクエリに類似もしくは関連する度合いが高くなる。ベクトル空間クエリの結果は、ベクトル空間中で類似する文書のリストになる。ブールシステムを凌ぐ大きな改善点は、まず第1に結果を順位付けできることにある。つまり、最初の結果は通常は最後の結果よりクエリとの関連性が高い。さらなる大きな改善点として、たとえクエリに含まれる語の全てが1つの文書の中になくても、ほとんどの場合は関連性のある結果が返ってくる。一般的に、クエリを詳しく絞り込むほど結果は絞り込まれる。
情報抽出:事実の発見
IRクエリの結果として、ユーザが出すクエリとの関連が見込まれる出版物のリストが提示されるが、ユーザはそれらの書類を通読して該当する情報を抽出しなければならない。例えば上記で説明したクエリの例に戻る場合、ユーザの関心は肺癌の新治療が記載された書類のリストを一覧することではないかも知れない。むしろこのユーザにとっては新治療の具体的リストのほうが好ましいかも知れない。そこで、IE分野に多大な努力が注がれてきた。
IEの中心的な手法の1つとして、事実又は事実の組み合わせをテンプレートとして予め定義する取り組みがなされてきた。例えば、生化学反応には各種の反応体ばかりでなく、多くの場合は媒介分子(すなわち触媒)も関与する。さらに、かかる反応はしばしば特定の細胞で起こり、1細胞の特定部分で起こることすらある。この場合、抽出アルゴリズムはまず、テキストの中で1つ以上の反応体に言及する部分を探索し、次に反応の場所となる細胞の名称を解釈すること等で、テンプレートを埋めることを試みる。主語と目的語が入れ替わらないようにすることが重要であるため、多くの場合は高度な自然言語処理(NLP)手法が必要となり、また実際の意味を抽出するための意味解析も必要となる。「シスプラチンを採る肺癌患者にある程度の改善が見られた」という文章はシスプラチンという薬が肺癌治療に使われていることを意味している。シスプラチンが薬で肺癌が疾病であることが分かっていれば「シスプラチンは肺癌を治療する」という関係の計算は大いにはかどる。このような解釈には通常のIRを遥かに上回る計算が要求されるため、IE研究開発から十分に正確な結果を出せる特化システムにこぎつけたのもごく最近のことである。
マイニングを越えて:ディスカバリ
デジタル方式で記録された情報の爆発的拡大は記憶及び検索の面で難題をもたらしているが、ナレッジディスカバリを目指す新たな道のりも切り開かれている。人類の歴史を通じて研究者らは既存の情報に直観を組み合わせながら仮説を立ててきた。出来上がった仮説は、その後検証の対象となる。人間が情報を吸収する力には限りがあるが、大量の情報を処理して仮説作りを支援する計算ツールは、研究を進めるうえで有望なツールとなる。この分野においては、主に相関的ディスカバリと連想的ディスカバリという2通りの方法論が発展をとげてきた。
相関的ディスカバリ
ドン・スワンソン教授による先駆的研究は、実験によって裏付けられた新規な科学的仮説を導き出した。参照により全文を本願に援用する非特許文献1を参照されたい。スワンソンの仮説によると、ある学術論文がAとBとの関係に言及し、さらに別の論文でBとCとの関係が指摘される場合、AとCとは仮定的に関係しているため、この関係を実証する記録は必要ない。今日の科学は高度に特化、細分化されているため、A−B関係を表明する論文はCを専門に扱う研究者にとって未知であり、検索不能かも知れない。スワンソンの最初の発見として、例えばエスキモー人の食事は魚が豊富であり、魚油(A)に含まれる脂肪酸を摂取すると、血小板凝集と血液粘度が低下することが分かっている(B)。このため、エスキモー人には心臓に関連する各種疾病の発病率が低い。このこととは関係の無い、レイノー病(C)を研究する医学分野では、レイノー病患者の血液粘度が高く、血小板凝集が正常値よりも多いことが分かっている(B)。参照により全文を本願に援用する非特許文献2を参照されたい。魚油によりレイノー病患者の健康が改善するという推移的関係は容易に成立するが、このことは無関係な2つの科学分野で出版された情報を組み合わせることにより、スワンソンが仮説を立てた数年後に立証されている。近年では相関的ディスカバリ原理を利用する様々な文献ベースのディスカバリツールが開発されている。しかし、それらのツールはいずれも今のところ実験段階にあり、ユーザにとって扱いやすいものにはなっていない。
連想的ディスカバリ
既存のデータから新たな関係を仮定するさらなる手法では、通常のIRツールを使用する。ここでは文書世界から「オブジェクト」世界への変換が重要な課題となる。オブジェクトとは、概念や現実世界の実体を表すものである。例えば、ある特定の疾病を記述した文書はその疾病を代表する形態にまとめることができる。例えばベクトル空間モデルであれば、かかる変換に容易に対処できる。疾病を記述した文書のベクトルを組み合わせ、疾病を代表する1つのベクトルにまとめることができる。このようにして疾病、薬剤、遺伝子、タンパク質等の単位に文書群を変換することができる。かかる手法によるディスカバリでは、ベクトル空間の中でクエリオブジェクトに関連するオブジェクトを発見する。例えば、クエリオブジェクトが「肺癌」で、1組の薬剤オブジェクトに対してこのクエリを実行する場合は、順位付けされたクエリ結果には肺癌とともに記載された薬剤ばかりでなく、かかる疾病との関係では研究がなされていなかった薬剤で、新たな肺癌治療法となるかも知れない薬剤も含まれることになる。同様に、化学物質と薬剤を記憶するオブジェクトデータベースでレイノー病を表すベクトルをクエリに使用すると、既存の治療法と新たな治療法として見込みのある治療法(魚油等)の両方を結果として得ることができる。この「オブジェクト」手法で重要な点は、いかなる種類のオブジェクトでも探索を実行でき、いかなる種類のオブジェクトでも要求できることにある。
研究者のニーズ
インターネット等の膨大なデータストアを利用するユーザの1部類にすぎない研究専門の科学者に共通する目的は、物事の仕組みを理解することにある。研究にあたっては、特定の条件を再現し物事が生起する理由を得るため様々な実験が考案される。多くの場合、実験を行うことが研究者にとってのさらなる主要な目的となっている。
科学プロジェクトのライフサイクルはアイデアの誕生からスタートするが、これは1名または複数の科学者によって十分に練りあげられた仮説であったり、単なるひらめきであったりする。以前の実験結果に情報と新たな仮説が加わることでアイデアが生まれることも多々ある。今日のデータ及び知識の洪水の中においては、多様化した情報及び知識源を最適に組み合わせながら最も有望な仮説を選ぶことが課題となる。
さらに研究者らは科学的レーダーを絶えずはりめぐらして新しい情報を探っている。読まなければいけない書類の山を自動的に増やすだけの現在の電子ツールは、情報の大半を消化し、本当に関心を引く知識が発見、もしくは発見されようとしている時に限り、警報を発するツールに置き換えなければならない。
上記の大規模データストアの問題と従来のテキストマイニングの限界を踏まえ、ナレッジナビゲーション及びディスカバリのデータ構造、システム、方法、及びコンピュータプログラムプロダクトが求められている。これは、膨大なデータストアの意味的探索、ナビゲーション、圧縮、及び記憶を可能にし、相関的ナレッジディスカバリ、連想的ナレッジディスカバリ、及び/又はその他のナレッジディスカバリを容易にするデータ構造、システム、方法、及びコンピュータプログラムプロダクトである。
本発明の態様は、ナレッジナビゲーション及びディスカバリを容易にするシステム、データ構造、方法、及びコンピュータプログラムプロダクトを提供することによって上記の必要性を満たす。
ナレッジナビゲーション及びディスカバリを容易にするデータ構造、システム、方法、及びコンピュータプログラムプロダクトは、語句ではなく概念もしくは思考単位に基づき、特定の言語やその他の概念表現に依存しない。ある特定の研究分野もしくは注力分野で、シソーラスやオントロジーに含まれる概念か概念の集まりに固有の識別子が割り当てられる。(a)クエリに相当するソース概念と、(b)ソース概念との間に何らかの関係を持つターゲット概念という、2通りの基礎的概念型を定義する。固有の識別子によって識別される各概念には、最低でも3つの属性、すなわち(1)事実値と、(2)共起値と、(3)関連性値とが、割り当てられる。ソース概念と、1つ以上の属性により当該ソース概念に関係する(ターゲット)概念は「Knowlet(TM)」と称する新規なデータ構造に記憶される。(データ構造がコンピュータでデータを効率よく使用できるよう記憶する手段であることは、当業者には理解されよう。多くの場合、データ構造を慎重に選ぶことにより最も効率的なアルゴリズムの使用が可能となる。入念に設計されたデータ構造により、実行時間とメモリ空間の点でリソースの使用を可能な限り抑えつつ、様々な重要な操作を実行することが可能となる。データ構造は、プログラミング言語から提供されるデータ型とリファレンスと演算を用いて実装される。)
事実属性Fは、権威あるデータベース(すなわち、特定の科学分野及び/又は注力分野で科学界により信頼のおけるデータベース又はデータリポジトリとして認められたもの)の中で概念についての言及があるか否かを示すものである。事実属性は、それ自体ソース及びターゲット概念関係の真偽を指示するものではない。
共起属性Cは、信頼をおけるものとして認められていないデータベース、データストア、データリポジトリ等において1単位のテキスト(同じ文章、同じ段落、同じ抄録等)の中でソース概念がターゲット概念とともに言及されているか否かを示すものである。共起属性もまた、それ自体概念関係の真偽を指示するものではない。
関連性属性Aは、2つの概念間の概念的重複を示すものである。
Knowletとその3つの属性F、C、及びAは「コンセプトクラウド」に相当する。かかるコンセプトクラウドの間で概念の相互関係が成立することにより「コンセプト空間」が出来上がる。データベース等のデータリポジトリに新しい情報が入るにつれ、KnowletとそのF、C、及びA属性が定期的に更新(もしくは変更)されることに注意されたい。KnowletとそのF、C、及びA属性はナレッジデータベースに記憶される。
ナレッジナビゲーション及びディスカバリのデータ構造、システム、方法、及びコンピュータプログラムプロダクトは本発明の一態様において、シソーラスを使って特定の知識源(テキスト等)に索引を付けるインデクサーを利用する(「ハイライトニング・オン・ザ・フライ(highlighting on the fly)」とも称する)。次に、照合エンジンを使って各KnowletにつきF、C、及びA属性を作成する。Knowlet空間はデータベースに記憶される。特定のコンセプト空間でF、C、及びA属性に基づきKnowlet/概念対の意味的関連性が計算される。全知識分野のメタ分析にKnowletマトリックスと意味的距離を役立て、手つかずの概念間の関連を明らかにすることもできる。
本発明の態様には、ウェブ上のサーチエンジン、専有サーチエンジン、インターネットブラウザプラグイン、ウィキ、プロキシサーバ等の形をとる研究ツールとして提供できるという利点がある。
本発明の態様のさらなる利点として、ユーザは概念を用いて新たな(相関的、連想的)ディスカバリを行えるばかりでなく、データストア中に存在する著者情報もとに概念に関係する専門家を発見することができる。
本発明の態様のさらなる利点として「Knowlet」と称する新規なデータ構造により、科学者はデータストアや関連(生物医学等)オントロジー又はシソーラスから概念(及び自動的に含まれる同義語)を用いて新たな(相関的、連想的)ディスカバリを行うことができる。
本発明の態様のさらなる利点として、Knowletにより科学的詳細及び説明レベルを問わずあらゆる分野のあらゆるコンテンツに対し正確な情報検索及び抽出と相関的及び連想的ディスカバリを行うことができる。
本発明の態様のさらなる利点として、概念閲覧の際にはかつてないほど複雑(且つ綿密)なインターネット探索クエリを自動的に作ることができる。
本発明の態様のさらなる利点として、公共のデータストアや権威あるオントロジー/シソーラスを私有のデータストアやオントロジー/シソーラスで増強し、コンセプト空間とナレッジナビゲーション及びディスカバリ能力の充実を図ることができる。
本発明の態様のさらなる利点として、ユーザは共同研究にあたって特定の概念に関係する専門家を容易に特定することができる。
以下において、本発明の態様のさらなる特徴及び利点と本発明の種々の態様の構造及び動作を、添付の図面とコンピュータリストの別表を参照しつつ詳細に説明する。
本発明の一態様を実施可能な例示的環境のシステム図である。 本発明の実施に利用可能な例示的コンピュータシステムのブロック図である。 本発明の一態様による例示的Knowlet空間作成及びナビゲーションプロセスを示すフローチャートである。 本発明の一態様によるKnowletデータ構造の例示的構成を示すブロック図である。
本発明の特徴及び利点は、本発明の詳細な説明を添付の図面を参照することでさらに明らかになろう。図面においては、同様の参照番号は同様もしくは類似の要素を示す。さらに、参照番号の最も左側の数字は、当該の参照番号を初めて示す図面を表す。
概要
本発明の態様は、ナレッジナビゲーション及びディスカバリを容易にするデータ構造、システム、方法、及びコンピュータプログラムプロダクトを対象とする。
本発明の一態様においては、生物医学研究者等のユーザがPubMed等の膨大データストアの中でナビゲーションと探索とナレッジディスカバリとを実行するための自動ツールが提供される。PubMedは最も普及した生物医学書誌データベースの1つであり、米国立医学図書館によって提供、管理され、1950年代にまで遡るその生物医学記事の抄録及び引用は1700万余りに及ぶ。本発明はかかる態様において、生物医学研究者がただ単にキーワードを使ってブール探索を実行し関連記事を見つける以上のことを果たす。「Knowlet」とも称する新規なデータ構造を使用する本発明の一態様により、科学者はデータストアと関連(生物医学等)オントロジー又はシソーラスから、例えば生物医学及び保健関係の概念に関する情報を含む米国立医学図書館の統一医学用語システム(登録商標)(UMLS)データベースから、概念もしくは思考単位(特定の言語で表される概念の同義語を自動的に含む)を用いて新たな相関的ディスカバリ、連想的ディスカバリ、及び/又はその他ディスカバリを実行できる。
ここでは上記のPubMedデータストアと生物医学オントロジーを使用する典型的生物医学研究者の観点から本発明の態様をより詳細に説明する。本説明は単に便宜的に提供されるものであって、本発明の応用を限定するものではない。本発明を別の態様でいかに実施すべきかについては、本説明を読了した当業者には明らかであろう。例えば、膨大なデータストアと、関連オントロジー/シソーラスと、ナレッジナビゲーション及び(相関的、連想的、及び/又はその他)ナレッジディスカバリの必要性がある下記分野のいずれにおいても、本発明の応用が可能である。
諜報の分野では、一態様において、例えば様々な言語による大量に傍受したeメール及び/又はその他情報を調べ、疑わしいKnowletや関連性を示唆し、大量の文書の中で一見無関係に思われる事実を発見することにより、本発明の利益を享受することができる。
金融の分野では、一態様において、例えば業績動向、経営管理、SEC報告書のKnowlet等、融資取引構造に関係する文書のプロファイルを作成することにより、本発明の利益を享受することができる。
法律の分野では、一態様において、例えば判例と関連判決をプロファイリングし、関連文書、専門家、判決を見つけるのみならず、特定の判決に関する大量の文書の中で概念間の関係を発見することにより(文書作成等)、本発明の利益を享受することができる。
ビジネスの分野では、一態様において、例えば所有する特許と特許出願のデータストアを調べて開示内容に類似する技術のライセンス供与に関心を寄せる企業を見つけたり、合併/買収活動に関わる企業のナレッジマップを作成することにより、本発明の利益を享受することができる。
医療の分野では、一態様において、例えば患者データベースに科学文献を関係づけることにより、本発明の利益を享受することができる。患者はオンライン「患者Knowlet」を作り、新しい疾病やその疾病に適用できる新規薬物療法について新たな情報を得ることができる。患者Knowletは、希少疾病を患う患者に検査を行う際の基礎にもなる。
本書の全体を通じて互換的に使用する用語「ユーザ」、「エンドユーザ」、「研究者」、「顧客」、「専門家」、「著者」、「科学者」、「公衆」、及び/又はこれらの用語の複数形は、本発明が提供するナレッジナビゲーション及びディスカバリのためのツールにアクセスし得る、同ツールを使用し得る、同ツールの影響を受ける、及び/又は同ツールの利益を享受する、人又は実体を指す。
システム
図1は、本発明の一態様による、様々なハードウェアコンポーネントとその他機能からなる例示的システム図100を示す。図1に示すように、システムで使用するデータ等の情報とサービスは本発明の一態様において、例えば端末102を使用するユーザ101によって入力され、この端末は、例えばパーソナルコンピュータ(PC)、ミニコンピュータ、ラップトップ、パームトップ、メインフレームコンピュータ、マイクロコンピュータ、電話機、モバイル装置、個人用デジタル補助装置(PDA)であり、あるいはプロセッサと入力及び表示機能とを有するその他装置である。端末102は、通信結合部103及び105を介してインターネット等のネットワーク104を経由しサーバ106へ結合され、このサーバは、例えばPC、ミニコンピュータ、メインフレームコンピュータ、マイクロコンピュータであり、あるいはプロセッサとデータリポジトリとを有するか、プロセッサを有しデータ管理のためリポジトリへ接続する、その他装置である。
かかる態様において、サービスプロバイダがインターネット104上のワールドワイドウェブ(WWW)サイトを通じてナレッジナビゲーション及びディスカバリツールへのアクセスを、無料登録、支払済み加入者、及び/又はペイ・パー・ユース方式で許可することは、本説明を読了した当業者には理解されよう。つまりシステム100は多数のユーザ、実体、又は組織が加入し利用する形に拡張でき、そのユーザ101(すなわち科学者、研究者、著者、及び/又は研究を望む公衆)は探索、クエリ送信、結果閲覧を行えるほか、多くの場合はシステム100関連のデータベースやツールを操作できる。
図1に示すようなウェブサービスとしてではなく、単独型システム(PCにインストールされるもの等)として、あるいはシステム100の全コンポーネントが安全な企業間ワイドエリアネットワーク(WAN)又はローカルエリアネットワーク(LAN)を介して接続され通信するエンタープライズシステムとして、ナレッジナビゲーション及びディスカバリのためのツールが本発明の代替的な態様から提供されることも、本説明を読了した当業者には理解されよう。
一態様において、インターネット104上でユーザ101からの入力に応じてサーバ106によりグラフィカルユーザインターフェイス(GUI)画面が生成されることは、本説明を読了した当業者には理解されよう。すなわち、かかる態様におけるサーバ106はウェブサイトでサーバアプリケーションを実行する典型的なウェブサーバであって、ユーザ101によって使用される遠隔地のブラウザから届くハイパーテキスト転送プロトコル(HTTP)又はハイパーテキスト転送プロトコルセキュアド(HTTPS)リクエストに応じてウェブページを送出する。つまりサーバ106は(後述するプロセス300のいずれかのステップを実行しながら)、システム100のユーザ101に対しウェブページの形でGUIを提供することができる。これらのウェブページはユーザのPC、ラップトップ、モバイル装置、PDA等の装置102へ送出され、GUI画面として表示される。
Knowlet
本発明の態様においては「Knowlet」と称する新規なデータ要素又は構造を使用し、相関的、連想的、及び/又はその他ディスカバリのほかに、軽便な記憶と正確な情報検索及び抽出を実現する。つまり、関係オントロジー又はシソーラス(任意の分野、任意の科学的詳細度)に含まれる概念は、Knowletにより、コンセプト空間における事実情報抽出と、共起に基づく結び付きと、関連性(ベクトル方式等)による意味表現として表される。1つ以上の関係データストアについて、対象となる概念と、関係オントロジー/シソーラスに含まれる他の全概念との事実(F)属性又は値と、テキスト共起(C)属性又は値と、関連性(A)属性又は値とが、各概念につきKnowletに記憶される。
Knowletは一態様において、ターゲット概念に対する意味的連想値等、ソース概念と全ターゲット概念とのあらゆる関係を記憶するZope(プログラミング言語Pythonで記述されたオープンソースのオブジェクト指向ウェブアプリケーションサーバ、バージニア州フレデリックスバーグのZope社によりZopeパブリックライセンス条件で配布)データ要素の形をとる)。
以下に詳述する通り、かかるKnowletを用いて「意味的距離」(もしくは「意味関係」)値を計算し、ユーザに対して提示することができる。意味的距離とは、所定のコンセプト空間における2つの概念間の距離又は近接であって、これはコンセプト空間の作成に用いるデータストアやデータリポジトリ(文書の集まり)によって異なるほか、2つの概念間の一致を規定する照合制御ロジックや、事実(F)属性と、共起(C)属性と、関連性(A)属性とに付与される相対的重みによって異なる。かかる手法の目的は、人間の脳の連想的推論能力の主要要素を再現することである。人間が「既知」概念の関連性マトリックスを用いてテキストを読み、理解するように、本発明の態様は、膨大且つ多様な人間の思考要素の力をデータストアやデータリポジトリに応用することを目指す。以上を踏まえ、本発明の態様は、例えば事実属性と、共起属性と、関連性属性とにより、テキストの中で概念を「重ね合わせる」ことができる。ただし、特定の概念と別の概念との関係を表現する属性であればいくらでも使用できることは、当業者には理解されよう。
別表1のコンピュータプログラムリストは、本発明の一態様による例示的KnowletのXML表現を提示するものである。本発明のかかる態様においては、リソース記述フレームワーク(RDF)やウェブオントロジー言語(OWL)等、標準のオントロジー及びウェブ言語にKnowletをエクスポートできる。したがって、かかる言語を使用するアプリケーションであればいずれのものでも、SPARQLプロトコルやRDFクエリ言語等のプログラムによる推論、照会に本発明のKnowlet出力を役立てることができる。
方法論
本発明の一態様においては、ナレッジナビゲーション及びディスカバリのための探索ツールがユーザ101に提供される。かかる例示的態様においては、生物医学研究者等のユーザがPubMed等の膨大なデータストアの中でナビゲーションと探索とナレッジディスカバリを実行するための自動ツールが提供される。
図3を参照すると、本発明の一態様による自動ツールの例示的Knowlet空間作成及びナビゲーションプロセス300のフローチャートが示されている。プロセス300はステップ302で始まり、制御は直ちにステップ304へ移る。
本発明のかかる態様において、ステップ304ではナレッジベースを含む1つ以上のデータストア(PubMed等)へシステム100を接続し、ユーザはここでナビゲーションと探索とディスカバリを行う。
本発明のかかる態様において、ステップ306ではデータストアに関係する1つ以上のオントロジー又はシソーラスへシステムを接続する。例えばデータストアが生物医学抄録であれば、オントロジーはUMLS(UMLSが有する概念は2006年時点で1,300,000を優に上回る)、1986年に設立された注釈付きタンパク質配列データベースUniProtKB/Swiss−Prot Protein Knowledgebase、文献curationかユーザによる直接提出から抜粋されたタンパク質相互作用データの無料オープンソースデータベースシステムIntAct、遺伝子産物を種から切り離して生物学的過程、細胞成分、分子機能の観点から記述する遺伝子産物オントロジー(Gene Ontology(GO)Database)の内、いずれか1つ以上であってよい。
本発明の態様は特定の言語に依存せず、各概念には固有の数字識別子が付与され、同概念の同義語(同じ自然言語、専門用語、又は別の言語)にも同じ数字識別子が付与されることは、本説明を読了した当業者には理解されよう。このため、ユーザは言語にとらわれることなく(言語に依存することなく)ナビゲーションと、探索と、ディスカバリ活動とを実行できる。
本発明のかかる態様において、ステップ308では、データストアの各レコード(PubMedデータベースの抄録等)を調べ、各レコードに出現するオントロジー(UMLS等)の概念にタグを付け、索引を作成することによって各レコード(PubMedの抄録等)における概念の位置を記録する。一態様では当技術で周知のインデクサー(「タガー」と称することもある)をステップ308の索引作りに利用する。かかる態様におけるインデクサーは、オランダ、ロッテルダムのエラスムス大学メディカルセンター、メディカルインフォマティクス学部バイオセマンティクスグループによって開発され、参照により全文を本願に援用する非特許文献3で説明されているインデクサーPeregrine等の、固有名認識(NER)インデクサー(ステップ306でロードされるデータストアに関係する1つ以上のオントロジー又はシソーラスを使用)である。NERインデクサーには、例えばマサチューセッツ州ウォルサムのRueters/ClearForestより入手できるClearForest Tagging Engine、東京大学理学部情報科学科より入手できるGENIA Tagger、http://www.ihop-net.orgから入手できるiHOPサービス、カリフォルニア州レッドウッドシティのIngenutity Systemsから入手できるIPA、フランス、パリのTemis S.A.より入手できるInsight Discoverer(TM) Extractor等がある。
本発明の一態様において、ステップ310ではある概念とコンセプト空間の中に存在する他の全概念との関係(及び意味的距離/関連性)を「記録」するKnowletをオントロジー内の各概念につき作成する。かかる態様において、ステップ306でシステムにロードされた概念の存在をデータストアで探索し、ステップ308で作成した索引を使って概念間の関係を判断するには、Lucene Search Engine等のサーチエンジンを使用できる。この例で使用するLucene Search EngineはApacheソフトウェアファウンデーションライセンスのもとで利用できるJavaで記述された高性能フル装備のテキストサーチエンジンライブラリで、フルテキスト(特にクロスプラットフォーム)探索を必要とするほとんどのアプリケーションに適している。
本発明のかかる態様において、ステップ312では「Knowlet空間」(コンセプト空間)を作成し、システム内に記憶(例えばサーバ106と連携するデータストア内に記憶)する。これはステップ310で作成したKnowletの総体であって、大きなダイナミックオントロジーを形成する。オントロジーの中にN個の概念がある場合は、Knowlet空間は(多くても)[N]×[N−1]×[3]のマトリックスで、事実(F)、共起(C)、関連性(A)の観点からN個の概念の各々がN−1個の他の全概念にどのように関係しているかを詳述する。ステップ312は、かかる本発明の態様において、各概念対につきF、C、及びA属性(値)を計算するステップを含む。この場合のKnowlet空間は全Knowletに基づく仮想コンセプト空間であって、それぞれの概念は自身のKnowletにとってのソース概念にあたり、他の全Knowletにとってのターゲット概念にあたる。(ここでは、ある特定のソース/ターゲット概念の組み合わせでF、C、又はAがKnowletの中でゼロではない場合、それぞれF+、C+、又はA+状態と表記する。さらに、これらの値がゼロ以下であれば、それぞれF−、C−、又はA−と表記する。)
オントロジーはかかる本発明の態様ではUMLSであり、Nの値が1,000,000を優に上回ることは、本説明を読了した当業者には理解されよう。
ただし、上記の通り本発明の一態様では属性をいくつでも使用できる。この態様においては、Knowlet空間は[N]×[N−1]×[Z]のマトリックスで表され、Z個の各属性につきN個の概念の各々が、N−1個の他の全概念にどのように関係しているかを詳述する。ステップ312は、かかる本発明の態様において、各概念対につきZ個の属性(値)を計算するステップを含むことになる。
かかる本発明の態様でKnowletの[N−1]部分を減らすことにより、Knowlet空間を[N]×[N−1]×[Z]のマトリックスより小さくできる(コンピュータのメモリ記憶と処理に合わせて最適化できる)ことは、本説明を読了した当業者には理解されよう。それには、それぞれの概念を自身のKnowletにとってのソース概念とし、N−1個のターゲット概念の内、Z個の値(F、C、及びA値等)のいずれかが正となるもののみをターゲット概念とし、ソース概念のKnowletに含める。
かかる本発明の態様において、ステップ312は各概念対につきF、C、及びA属性(値)を計算するステップを含み、F値は、例えばデータストアの解析によって決まる2つの概念間の事実関係によって求めることができる。本発明の一態様においては、<名詞><動詞><名詞>(または<概念><関係><概念>)の三重項を調べることで事実関係を導き出す(「マラリア」、「伝染」、「蚊」等)。F値は、例えばステップ304でロードされる1つ以上のデータストアの探索に応じて0(事実関係なし)又は1(事実関係あり)となる。
事実値Fは本発明の一態様においては0又は1になるが、例えばシソーラスで定義される概念の意味型等、1つ以上の重み係数を考慮に入れることにより事実属性Fに影響が及ぶことは、当業者には理解されよう。例えば、<遺伝子>及び<鉛筆>より<遺伝子>及び<疾病>のほうが有意な関係が提供され、F値を左右する。この例のF値は、PubMed等、科学界の特定分野で認められた権威あるデータソースにおける事実関係の存在(又は不在)によって決まる。ただしF値は概念や関係の正確さや信憑性を示すものではなく、これを決定づける要因がほかにもあることは、当業者には明らかであろう。さらに、事実の繰り返しはデータストアに存在するテキスト(記事等)の読みやすさに大いに貢献するが、事実そのものは1つの情報単位であって、Knowlet空間の中で繰り返す必要はない。データストアの「原文献」で事実が繰り返される度合いと事実が「真」である見込みとの間に直観的関係があっても、繰り返しが多いとしても事実が本当に真であることが保証されるわけではない。したがって本発明の一態様においては、事実の繰り返しが一定の閾を超えると、それ以上事実の文面が真である尤度は増加しないと仮定する。
C値は2つの概念間の共起関係によって決まる。これは2つの概念が同じテキスト群(文章、段落、x個の語)の中に出現するか否かによって決まる。本発明の一態様においては、データストアの中で2つの概念の共起が見つかる回数に応じてC値が0乃至0.5の範囲に及ぶ。共起の判定にあたっては、データストアにおける概念の意味型等、1つ以上の重み係数を考慮に入れる。したがってC値は、例えば1つ以上の重みによって左右される。つまり、対象となる同じテキスト群(文章等)の中に<薬剤>と<疾病>の両方が出現するとすれば、共起は現に存在する。しかし同じ文章中に<薬剤>と<都市>の両方が出現する場合は、本発明の一態様により共起関係が指摘される見込みは低くなる。
A値は2つの概念間の関連性的関係によって決まる。A値は一例において、概念クラスタ(n次元空間)における多次元スケーリング処理の結果に応じて0乃至0.4の範囲に及ぶ。多次元スケーリング処理では、データストアの中で2つの概念間の類似性もしくは相違性を調べる。A値は、2つの概念間の概念的重複を示すものである。一例においては、多次元概念クラスタの中で2つの概念が近いほど関連性値Aは高くなる。概念的重複がごく僅かか皆無であれば関連性値Aは0に近づく。
2つの概念間の間接的連想は、それぞれの「概念プロファイル」の照合に基づき計算する。概念プロファイルは次の通りに作成する。システム100にロードされたデータストアに見られる各概念につき、特定の概念が相当数出現するレコードを検索する。態様によっては、(IR)リコールを犠牲にして高精度を優先する。データストアの中でソース概念に「関する」レコード(PubMed内の抄録等)から最低0から所定の閾値(250等)までの概念を選択してリストを作成する。次に、術語学に基づくレコード(PubMedの抄録等)の概念索引により概念に順位を付け、加重集約により1つの概念リストにまとめる。かかるリストにはソース概念との関連性が高い概念が入る。これらのリストは多次元空間内のベクトルで表すことができ、各ベクトル対につき関連性スコア(A)を計算する。かかる関連性スコアを0乃至1の値としKnowletのAカテゴリに記録する。F及びCパラメータが負となる概念でも、正の関連性スコアAが統計上の閾値よりも多い場合は、非明示的関係を示唆するかなりの概念的重複が概念プロファイルに存在する。閾値は、特定の意味型をとる無関係概念と相互作用が判明している概念との分布概念プロファイル一致を比較することによって計算できる(Swiss−ProtとIntActで相互作用が判明していないタンパク質と相互作用が判明しているタンパク質等)。
本発明の一態様においては、FもCも正ではない概念対の場合に、暗示的な関連性であっても有意な関係を示す間接的証拠が存在することがある。Knowletではそのような連想的関係を第3のパラメータAで捕捉する。本発明の一態様においてAパラメータはKnowletの最も興味深い側面に相当する(以下で詳述する「ディスカバリ」モードでシステム100を使用する場合等)。C+及びF−状態からF+状態へ事実が移るにつれ、システム100にロードされたデータストアは事実上固まる。ただし、概念をF−、C−、及びA+状態からF+状態にするとこれまで見逃されてきた新たな共起と事実が発生し、さらに重要なことには、コンピュータ推論によるナレッジディスカバリプロセス(及び文献に基づく仮説を確認するその後の試験所関係実験)の一部をなすであろう。
データストア(PubMedの新規抄録等)及び/又はオントロジー(新規概念)に対する更新を捕捉するためステップ304から312を周期的に繰り返してもよいことは、本説明を読了した当業者には理解されよう。
本発明の一態様において、ステップ314では1つ以上のソース概念(コンセプト空間の中でナレッジナビゲーション及びディスカバリの出発点となる特定の概念)からなる探索クエリをユーザから受け付ける。
本発明の一態様において、ステップ316ではKnowlet空間の中でルックアップを実行し、ソース概念に対する全N−1個のターゲット概念の意味的距離(SD)を計算し、1組のターゲット概念(コンセプト空間の中でソース概念に関係する概念)を提示する。例えばシステムは一態様において、Knowlet空間内で算出された上位50のSD値に対応する1組のターゲット概念を返す。
かかる態様においては次の通りに意味的距離を計算する。
SD=wF+wC+wA;
式中w、w、及びwはF、C、及びA値にそれぞれ割り当てる重みである。ユーザは様々なモードでシステムに照会でき、これに応じてw、w、及びw値がシステムによって自動的に調整されることは、本説明を読了した当業者には理解されよう。例えば、ユーザが事実に基づく背景情報を所望する「バックグラウンド」モードでは、w、w、及びwがそれぞれ1.0、0.0、及び0.0に設定される。さらなる例として、ユーザが連想的関係に注目する「ディスカバリ」モードでは、w、w、及びwがそれぞれ1.0、0.5、及び2.0に設定される。これとは別の本発明の態様では、様々なモードで様々な係数もしくは特性(意味型等)によりF、C、及びA値が加重される。したがって、SD(又は意味的関連性)は重み付けされた事実、共起、及び関連性情報に基づき計算されるソース概念とターゲット概念との意味関係である。
本発明の一態様において、ステップ318ではGUIを通じてユーザにターゲット概念を提示し、ユーザはソース概念と、1組のターゲット概念(F、C、A、及び/又はSD値に従い色分け)と、SD計算にあたって関係の基礎となったデータストア内のレコード(PubMedの抄録)のリストを一覧することができる。その後、ステップ320に示すように、プロセス300は終了する。
図4を参照すると、本発明の一態様によるプロセス300によって作成されたKnowletデータ構造400の例示的構成を示すブロック図が示されている。
生物医学研究者等のユーザがナビゲーションと探索とナレッジディスカバリを実行するための自動ツールを提供する本発明の一態様において、生物医学文献中に存在する概念は、例えばタンパク質や疾病は、ソース概念(図4の青い球)として扱うことができる。UMMSやUniProtKB/Swiss−Prot等の権威あるデータベースの中には、概念に関するキュレート情報と他の概念との事実関係が存在するかも知れない。この情報は捕捉され、データベース内のソース概念との間に「事実」関係を持つ概念は、その概念のKnowletに含まれる。図4に示したKnowletでは、これらの「事実で関連付けられた概念」が緑色で塗りつぶされた球で示されている。
加えて、文献内の同一文章中でソース概念が他の概念とともに言及されることがある。2つの概念が共起する文章が多数存在する場合は特に、2つの概念間の有意な関係、もしくは偶然の関係が、大いに見込まれる。事実関係を持つ概念のほとんどは文献全体の1つ以上の文章の中で言及されることが見込まれるが、プロセス300で検索するデータストアがただ1つであれば(PubMed等)、かかるデータストアだけでは容易に回収できない事実関連性が数多く存在するかも知れない。例えばUniProtKB/Swiss−Protに記述されている多くのタンパク質−タンパク質相互作用は、PubMedの中で共起として見つけることはできない。図4に示したKnowletでは、ソース概念と同じ文章の中で最低1回共起するターゲット概念が緑色の環で示されている。
最後の概念カテゴリは、データストアの索引付きレコードの中でテキスト単位(文章等)に共起がなく、対象となるKnowletの中にソース概念と共通する十分な概念を持つものによって形成される。これらの概念は図4において黄色の環で示されており、暗示的関連性に相当することがある。それぞれのソース概念は他の(ターゲット)概念との間に様々な強さの関係を持ち、それらの距離には事実(F)、共起(C)、及び関連性(A)係数の値が割り当てられている。これらの値に基づき概念対間の意味的関連性(又はSD値)が計算される。
本発明の別の態様においては、ユーザが2つ以上のソース概念を入力できる。システムはかかる態様において、入力されたソース概念の全てに関係する1組のターゲット概念を創出する。より良いIRとして、すなわちより良いサーチエンジンとしてかかる態様を役立てることができることは、本説明を読了した当業者には理解されよう。したがって、ステップ304でシステムにロードされた1つ以上のデータストアにおいては、ソース概念A及びBで事実(F)又は共起(C)関係が成立しないこともある。この場合、従来のブール/キーワード探索を実行するサーチエンジンでは結果が出ないかも知れない。しかしKnowlet空間を利用する本発明であれば、ソース概念A及びBを関連性(A)により結び付けるターゲット概念を創出できる。
本発明のさらなる態様においては、データストアに含まれるレコードの著者(PubMed内に抄録がある出版物の著者)にも索引を付けることにより、上記のステップ308及び310を強化することができる。本発明のかかる態様においては、Knowlet空間の中でN個の概念が互いに対応付けられるばかりでなく、M名の著者からなる母集団がN個の概念に固有のものとして対応付けられることにより、Knowlet空間は[N+M]×[N+M−1]×3のマトリックスになる(各概念につきKnowletがあり、各著者につきKnowletがあるコンセプト空間)。かかる態様により、ユーザが共同研究にあたって特定の概念に関係する専門家を容易に特定できることは、本説明を読了した当業者には理解されよう。
M名の著者からなる母集団をN個の概念に固有のものとして対応付けることによりKnowlet空間が[N+M]×[N+M−1]×3のマトリックス(Z属性の数を3と仮定)となる本発明の態様において、システム100のユーザに便利なツールを数多く提示できることは、本説明を読了した当業者には理解されよう。かかる態様においては、ステップ304でシステムにロードされたデータストアに含まれるM名の各著者につき様々な寄与因子を計算できる。これらの寄与因子により、単に多作な著者(出版物が多い著者)と「革新的」な著者(Knowlet空間の中で初めて共起する2つの概念に関係する作品の著者)とが区別される。Knowlet空間とそこに記憶されたF、C、及びAパラメータをもとに寄与因子を様々に計算できることは、本説明を読了した当業者には理解されよう(例えば文章単位、記事単位等に基づく寄与因子)。1つの文章、複数の文章、抄録、文書、出版物全般に基づき寄与因子を計算することもできる。
本発明のさらなる態様において、ステップ304でシステムにロードされるデータストア内の画像(データストア内の記事に含まれる画像等)や他の画像リポジトリの中に存在する画像を、ステップ308でN個の概念のいずれかに結び付けることができることは、本説明を読了した当業者には理解されよう。その場合はこれらの画像には索引を付け、Knowlet空間の中で参照し、新たなデータポイント(フィールド)として、ここで説明するナビゲーションと探索とディスカバリ活動を実行するツールで使用する。
本発明のさらなる態様において、上記のステップ304から312を並行して実施し、出来上がった2つのKnowlet(概念)空間を比較、探索し、ナレッジナビゲーション及びディスカバリに役立てることができることは、本説明を読了した当業者には理解されよう。すなわち、第1の研究分野のデータベース及びオントロジーを使って作成されたKnowlet空間を、第2の研究分野(関連分野等)のデータベース及びオントロジーを使って作成された第2のKnowlet空間に比較することができる。本発明は一態様において、ある1つのオントロジー等のリソースでクエリから結果を出せない場合に、別のオントロジー又はシソーラスから作られたKnowlet空間で関連性のある結果が1つ以上見つかる可能性を指摘できる。
本発明の別の態様においてはナビゲーションと探索とディスカバリ活動を実行するツールを企業の形で提供し、認定ユーザ(営利団体のR&D部門の研究科学者、大学の研究科学者等)に利用させることができる。かかる態様においては、システムにロードされる1つ以上の(公共)データストアを1つ以上の専有データストア(内部の未公開R&D等)で増強できる、及び/又はシステムにロードされる1つ以上の(公共)オントロジー又はシソーラスを1つ以上の専有オントロジー又はシソーラスで増強できる。かかる態様においては、公共及び私有データの組み合わせによって(望ましい場合は専有)コンセプト空間とナレッジナビゲーション及びディスカバリ能力の充実を図ることができる。かかる態様で、例えば企業内の著者による未公開記事が1つ以上の私有データストアとしてシステムにロードされるとすれば、企業内のユーザは、著作が印刷される前にKnowlet空間の中で新たな共起を捕らえ、認識することができよう。
本発明の別の態様では、ナビゲーションと探索とディスカバリ活動を実行するツールから1つ以上のセキュリティオプションをユーザに提案することができる。例えば本発明の一態様において、1つ以上の専有データストア(内部の未公開R&D等)及び/又は1つ以上の専有オントロジー又はシソーラスから作成されたKnowlet空間をステップ312で暗号化し、システム100に記憶することができる。本発明のかかる態様において、Knowlet空間に暗号処理を適用し、復号鍵を持つ者(認定ユーザ)のみKnowlet空間を復号できることは、当業者には理解されよう。
実施例
本発明の態様と、ここで説明する方法もしくはその部分又は機能)は、ハードウェア、ソフトウェア、又はこれらの組み合わせを用いて実施でき、1つ以上のコンピュータシステムかその他の処理システムの中で実施できる。ただし、本発明によって実行される操作は、追加、比較等、人間のオペレータによる精神的活動に通常関連する用語でしばしば記されている。そのような人間のオペレータ能力はほとんどの場合、ここで説明する本発明の一部を形成する操作において必要ないか、もしくは望ましくない。むしろ、これらの操作は機械操作である。本発明の操作を実行するにあたって有用な機械として、汎用デジタルコンピュータやこれに類似する装置を挙げることができる。
事実、本発明は一態様において、ここで説明する機能を遂行できる1つ以上のコンピュータシステムを対象とする。コンピュータシステム200の一例を図2に示す。
コンピュータシステム200は、プロセッサ204等、1つ以上のプロセッサを含む。プロセッサ204は通信インフラ206へ接続されている(通信バス、クロスオーバーバー、ネットワーク等)。この例示的コンピュータシステムの観点から様々なソフトウェア態様を説明する。他のコンピュータシステム及び/又はアーキテクチャを用いて本発明を実施する方法は、本説明を読了した当業者には明らかであろう。
コンピュータシステム200は、通信インフラ206から(又は図示されていないフレームバッファから)グラフィックスやテキスト等のデータを転送し、ディスプレイ装置で表示するためのディスプレイインターフェース202を含み得る。
コンピュータシステム200はまた、メインメモリ208を、好ましくはランダムアクセスメモリ(RAM)を含み、さらに二次メモリ210を含み得る。二次メモリ210は、例えばハードディスクドライブ212を、及び/又はフロッピーディスクドライブ、磁気テープドライブ、光ディスクドライブ等に相当する着脱可能ストレージドライブ214を含む。着脱可能ストレージドライブ214は、周知の方法で着脱可能記憶部218の読み取り及び/又は書き込みを行う。着脱可能記憶部218はフロッピーディスク、磁気テープ、光ディスク等に相当し、着脱可能ストレージドライブ214によって読み書きが行われる。コンピュータソフトウェア及び/又はデータを記憶するコンピュータ用ストレージ媒体も着脱可能記憶部218に含まれることは、理解されよう。
二次メモリ210は代替的な態様において、コンピュータプログラムやその他の命令をコンピュータシステム200にロードするため他の類似装置を含み得る。かかる装置は、例えば着脱可能記憶部222とインターフェース220を含む。例えばこれは、プログラムカートリッジとカートリッジインターフェース(ビデオゲーム装置に見られるもの等)、取外可能メモリチップ(消去可能プログラム可能読取専用メモリ(EPROM)、プログラム可能読取専用メモリ(PROM)等)と関連するソケット、着脱可能記憶部222からコンピュータシステム200へソフトウェアとデータを転送できるその他の着脱可能記憶部222及びインターフェース220を含む。
コンピュータシステム200はまた、通信インターフェース224を含み得る。通信インターフェース224は、コンピュータシステム200と外部装置との間でソフトウェアとデータの転送を可能にする。通信インターフェース224は、例えばモデム、ネットワークインターフェース(イーサネットカード等)、通信ポート、パーソナルコンピュータメモリカード国際協会(PCMCIA)スロット及びカード等を含む。通信インターフェース224経由で転送されるソフトウェアとデータは信号228の形をとり、これは通信インターフェース224によって受信可能な電子信号、電磁信号、光信号、その他信号であってよい。これらの信号228は通信経路(チャネル)226を通じて通信インターフェース224へ供給される。信号228を搬送するチャネル226は、ワイヤ又はケーブル、光ファイバ、電話線、セルラーリンク、無線周波数(RF)リンク、その他通信チャネルを用いて実装できる。
本明細書に用いる用語「コンピュータプログラム媒体」及び「コンピュータ使用可能媒体」は通常、着脱可能ストレージドライブ214、ハードディスクドライブ212に設置されたハードディスク、信号228等の媒体を指す。これらのコンピュータプログラムプロダクトがコンピュータシステム200にソフトウェアを提供する。本発明はかかるコンピュータプログラムプロダクトを対象とする。
コンピュータプログラム(コンピュータ制御ロジックとも称する)はメインメモリ208及び/又は二次メモリ210に記憶される。通信インターフェース224経由でコンピュータプログラムを受け付けることもできる。かかるコンピュータプログラムが実行されることにより、コンピュータシステム200はここで説明する本発明の機能を実行できるようになる。具体的には、コンピュータプログラムが実行されることにより、プロセッサ204は本発明の機能を実行できるようになる。したがって、かかるコンピュータプログラムはコンピュータシステム200のコントローラに相当する。
ソフトウェアを用いて本発明が実施される態様においては、ソフトウェアがコンピュータプログラムプロダクトに記憶され、着脱可能ストレージドライブ214、ハードドライブ212、又は通信インターフェース224によりコンピュータシステム200へロードされる。プロセッサ204によって制御ロジック(ソフトウェア)が実行されると、プロセッサ204はここで説明する本発明の機能を実行する。
別の態様においては、本発明は主にハードウェアで実施され、例えば特定用途向け集積回路(ASIC)等のハードウェアコンポーネントを使用する。ここで説明する機能を実行するハードウェアステートマシンの実装は、当業者には明らかであろう。
さらに別の態様においては、ハードウェアとソフトウェアの組み合わせにより本発明が実施される。
結論
以上、本発明の様々な態様を説明してきたが、それらの態様は本発明を制限するものではなく、例示として提示されていることを理解されたい。本発明の精神及び範囲から逸脱することなく本発明の形態及び細部に変更が可能であることは、当業者には明らかであろう。本発明は上記の例示的態様によって制限されず、添付の請求項及びその等価物によってのみ定義される。
さらに、本発明の機能と利点を強調する添付の図面は、単に例示のため提示されていることを理解されたい。本発明の構造は十分に柔軟なものであり、添付の図面とは別の方法で利用(及び進行)できるよう構成可能である。
さらに、添付の要約書の目的は、広く米国特許商標局及び公衆、特に特許又は法律の専門用語や語法に精通していない関連技術の科学者、技術者、実務者が本技術的開示の性質と本質を一読でより速やかに判断できるようにすることである。該要約書は、本発明の範囲を制限するものではない。
別表1(コンピュータプログラムリスト)
本発明の特徴及び利点は、本発明の詳細な説明を以下の別表1(コンピュータプログラムリスト)を参照しつつ読むことでさらに明らかになろう。本明細書の開示に含まれる以下の別表は著作権保護の対象である。本著作権保有者は、特許庁における包袋や記録に見られるように、当特許文献または特許開示の保管者がファクシミリ複製を作成することに異議を唱えないが、それ以外の場合においては、本著作権保有者が当該の著作権の全てを所有する。
<?xml version=’1.0’ encoding=’UTF-8’?>
<knowlets>
<info>
<import id=’new’/>
<creation-date>2006-09-30 08:27:52.509000</creation-date>
<application_domain id=’lifesciences’/>
<author>create_semantic_network.py</author>
<sources>
<source id=’KnewCo Mined’ type=’mined’/>
<source id=’umls’ title=’UMLS semantic network’ type=’factual’/>
</sources>
<relations-info>
<relation-info id=’11’ title=’CHD’ type=’factual’/>
<relation-info id=’12’ title=’DEL’ type=’factual’/>
<relation-info id=’13’ title=’PAR’ type=’factual’/>
<relation-info id=’14’ title=’QB’ type=’factual’/>
<relation-info id=’15’ title=’RB’ type=’factual’/>
<relation-info id=’16’ title=’RL’ type=’factual’/>
<relation-info id=’17’ title=’RN’ type=’factual’/>
<relation-info id=’18’ title=’RO’ type=’factual’/>
<relation-info id=’19’ title=’RQ’ type=’factual’/>
<relation-info id=’20’ title=’RU’ type=’factual’/>
<relation-info id=’100’ title=’access_instrument_of’ type=’factual’/>
<relation-info id=’101’ title=’access_of’ type=’factual’/>
<relation-info id=’102’ title=’active_ingredient_of’ type=’factual’/>
<relation-info id=’103’ title=’actual_outcome_of’ type=’factual’/>
<relation-info id=’104’ title=’adjectival_form_of’ type=’factual’/>
<relation-info id=’105’ title=’adjustment_of’ type=’factual’/>
<relation-info id=’106’ title=’affected_by’ type=’factual’/>
<relation-info id=’107’ title=’affects’ type=’factual’/>
<relation-info id=’108’ title=’analyzed_by’ type=’factual’/>
<relation-info id=’109’ title=’analyzes’ type=’factual’/>
<relation-info id=’110’ title=’approach_of’ type=’factual’/>
<relation-info id=’111’ title=’associated_disease’ type=’factual’/>
<relation-info id=’112’ title=’associated_finding_of’ type=’factual’/>
<relation-info id=’113’ title=’associated_genetic_condition’ type=’factual’/>
<relation-info id=’114’ title=’associated_morphology_of’ type=’factual’/>
<relation-info id=’115’ title=’associated_procedure of’ type=’factual’/>
<relation-info id=’116’ title=’associated_with’ type=’factual’/>
<relation-info id=’117’ title=’branch_of’ type=’factual’/>
<relation-info id=’119’ title=’causative_agent_of’ type=’factual’/>
<relation-info id=’120’ title=’cause_of’ type=’factual’/>
<relation-info id=’121’ title=’challenge_of’ type=’factual’/>
<relation-info id=’122’ title=’classified_as’ type=’factual’/>
<relation-info id=’123’ title=’classifies’ type=’factual’/>
<relation-info id=’124’ title=’clinically_associated_with’ type=’factual’/>
<relation-info id=’125’ title=’clinically_similar’ type=’factual’/>
<relation-info id=’126’ title=’co-occurs_with’ type=’factual’/>
<relation-info id=’127’ title=’component_of’ type=’factual’/>
<relation-info id=’128’ title=’conceptual_part_of’ type=’factual’/>
<relation-info id=’129’ title=’consists_of’ type=’factual’/>
<relation-info id=’130’ title=’constitutes’ type=’factual’/>
<relation-info id=’131’ title=’contained_in’ type=’factual’/>
<relation-info id=’132’ title=’contains’ type=’factual’/>
<relation-info id=’133’ title=’contraindicated_with’ type=’factual’/>
<relation-info id=’134’ title=’course_of’ type=’factual’/>
<relation-info id=’138’ title=’definitional_manifestation_of’ type=’factual’/>
<relation-info id=’139’ title=’degree_of’ type=’factual’/>
<relation-info id=’140’ title=’diagnosed_by’ type=’factual’/>
<relation-info id=’141’ title=’diagnoses’ type=’factual’/>
<relation-info id=’142’ title=’direct_device_of’ type=’factual’/>
<relation-info id=’143’ title=’direct_morphology_of’ type=’factual’/>
<relation-info id=’144’ title=’direct_procedure_site_of’ type=’factual’/>
<relation-info id=’145’ title=’direct_substance_of’ type=’factual’/>
<relation-info id=’146’ title=’divisor_of’ type=’factual’/>
<relation-info id=’147’ title=’dose_form_of’ type=’factual’/>
<relation-info id=’148’ title=’drug_contraindicated_for’ type=’factual’/>
<relation-info id=’149’ title=’due_to’ type=’factual’/>
<relation-info id=’150’ title=’encoded_by_gene’ type=’factual’/>
<relation-info id=’151’ title=’encodes_gene_product’ type=’factual’/>
<relation-info id=’152’ title=’episodicity_of’ type=’factual’/>
<relation-info id=’153’ title=’evaluation_of’ type=’factual’/>
<relation-info id=’154’ title=’exhibited_by’ type=’factual’/>
<relation-info id=’155’ title=’exhibits’ type=’factual’/>
<relation-info id=’156’ title=’expanded_form_of’ type=’factual’/>
<relation-info id=’157’ title=’expected_outcome_of’ type=’factual’/>
<relation-info id=’158’ title=’finding_context_of’ type=’factual’/>
<relation-info id=’159’ title=’finding_site_of’ type=’factual’/>
<relation-info id=’160’ title=’focus_of’ type=’factual’/>
<relation-info id=’161’ title=’form_of’ type=’factual’/>
<relation-info id=’162’ title=’has_access_instrument’ type=’factual’/>
<relation-info id=’163’ title=’has_access’ type=’factual’/>
<relation-info id=’164’ title=’has_active_ingredient’ type=’factual’/>
<relation-info id=’165’ title=’has_actual_outcome’ type=’factual’/>
<relation-info id=’166’ title=’has_adjustment’ type=’factual’/>
<relation-info id=’167’ title=’has_approach’ type=’factual’/>
<relation-info id=’168’ title=’has_associated_finding’ type=’factual’/>
<relation-info id=’169’ title=’has_associated_morphology’ type=’factual’/>
<relation-info id=’170’ title=’has_associated_procedure’ type=’factual’/>
<relation-info id=’171’ title=’has_branch’ type=’factual’/>
<relation-info id=’173’ title=’has_causative_agent’ type=’factual’/>
<relation-info id=’174’ title=’has_challenge’ type=’factual’/>
<relation-info id=’175’ title=’has_component’ type=’factual’/>
<relation-info id=’176’ title=’has_conceptual_part’ type=’factual’/>
<relation-info id=’177’ title=’has_contraindicated_drug’ type=’factual’/>
<relation-info id=’178’ title=’has_contraindication’ type=’factual’/>
<relation-info id=’179’ title=’has_course’ type=’factual’/>
<relation-info id=’180’ title=’has_definitional_manifestation’ type=’factual’/>
<relation-info id=’181’ title=’has_degree’ type=’factual’/>
<relation-info id=’182’ title=’has_direct_device’ type=’factual’/>
<relation-info id=’183’ title=’has_direct_morphology’ type=’factual’/>
<relation-info id=’184’ title=’has_direct_procedure_site’ type=’factual’/>
<relation-info id=’185’ title=’has_direct_substance’ type=’factual’/>
<relation-info id=’186’ title=’has_divisor’ type=’factual’/>
<relation-info id=’187’ title=’has_dose_form’ type=’factual’/>
<relation-info id=’188’ title=’has_episodicity’ type=’factual’/>
<relation-info id=’189’ title=’has_evaluation’ type=’factual’/>
<relation-info id=’190’ title=’has_expanded_form’ type=’factual’/>
<relation-info id=’191’ title=’has_expected_outcome’ type=’factual’/>
<relation-info id=’192’ title=’has_finding_context’ type=’factual’/>
<relation-info id=’193’ title=’has_finding_site’ type=’factual’/>
<relation-info id=’194’ title=’has_focus’ type=’factual’/>
<relation-info id=’195’ title=’has_form’ type=’factual’/>
<relation-info id=’196’ title=’has_indirect_device’ type=’factual’/>
<relation-info id=’197’ title=’has_indirect_morphology’ type=’factual’/>
<relation-info id=’198’ title=’has_indirect_procedure_site’ type=’factual’/>
<relation-info id=’199’ title=’has_ingredient’ type=’factual’/>
<relation-info id=’200’ title=’has_intent’ type=’factual’/>
<relation-info id=’201’ title=’has_interpretation’ type=’factual’/>
<relation-info id=’202’ title=’has_laterality’ type=’factual’/>
<relation-info id=’203’ title=’has_location’ type=’factual’/>
<relation-info id=’204’ title=’has_manifestaiton’ type=’factual’/>
<relation-info id=’205’ title=’has_measurement_method’ type=’factual’/>
<relation-info id=’206’ title=’has_mechanism_of_action’ type=’factual’/>
<relation-info id=’207’ title=’has_member’ type=’factual’/>
<relation-info id=’208’ title=’has_method’ type=’factual’/>
<relation-info id=’209’ title=’has_multi_level_category’ type=’factual’/>
<relation-info id=’210’ title=’has_occurrence’ type=’factual’/>
<relation-info id=’211’ title=’has_onset’ type=’factual’/>
<relation-info id=’212’ title=’has_outcome’ type=’factual’/>
<relation-info id=’213’ title=’has_part’ type=’factual’/>
<relation-info id=’214’ title=’has_pathological_process’ type=’factual’/>
<relation-info id=’215’ title=’has_permuted_term’ type=’factual’/>
<relation-info id=’216’ title=’has_pharmacokinetics’ type=’factual’/>
<relation-info id=’217’ title=’has_physiologic_effect’ type=’factual’/>
<relation-info id=’218’ title=’has_plain_text_form’ type=’factual’/>
<relation-info id=’219’ title=’has_precise_ingredient’ type=’factual’/>
<relation-info id=’220’ title=’has_priority’ type=’factual’/>
<relation-info id=’221’ title=’has_procedure_context’ type=’factual’/>
<relation-info id=’222’ title=’has_procedure_device’ type=’factual’/>
<relation-info id=’223’ title=’has_procedure_morphology’ type=’factual’/>
<relation-info id=’224’ title=’has_procedure_site’ type=’factual’/>
<relation-info id=’225’ title=’has_process’ type=’factual’/>
<relation-info id=’226’ title=’has_property’ type=’factual’/>
<relation-info id=’227’ title=’has_recipient_category’ type=’factual’/>
<relation-info id=’228’ title=’has_result’ type=’factual’/>
<relation-info id=’229’ title=’has_revision_status’ type=’factual’/>
<relation-info id=’230’ title=’has_scale_type’ type=’factual’/>
<relation-info id=’231’ title=’has_scale’ type=’factual’/>
<relation-info id=’232’ title=’has_severity’ type=’factual’/>
<relation-info id=’233’ title=’has_single_level_category’ type=’factual’/>
<relation-info id=’234’ title=’has_specimen_procedure’ type=’factual’/>
<relation-info id=’235’ title=’has_specimen_source_identity’ type=’factual’/>
<relation-info id=’236’ title=’has_specimen_source_morphology’ type=’factual’/>
<relation-info id=’237’ title=’has_specimen_source_topography’ type=’factual’/>
<relation-info id=’238’ title=’has_specimen_substance’ type=’factual’/>
<relation-info id=’239’ title=’has_specimen’ type=’factual’/>
<relation-info id=’240’ title=’has_subject_relationship_context’ type=’factual’/>
<relation-info id=’241’ title=’has_suffix’ type=’factual’/>
<relation-info id=’242’ title=’has_supersystem’ type=’factual’/>
<relation-info id=’243’ title=’has_system’ type=’factual’/>
<relation-info id=’244’ title=’has_temporal_context’ type=’factual’/>
<relation-info id=’245’ title=’has_time_aspect’ type=’factual’/>
<relation-info id=’246’ title=’has_tradename’ type=’factual’/>
<relation-info id=’247’ title=’has_translation’ type=’factual’/>
<relation-info id=’248’ title=’has_tributary’ type=’factual’/>
<relation-info id=’249’ title=’has_version’ type=’factual’/>
<relation-info id=’253’ title=’indicated_by’ type=’factual’/>
<relation-info id=’254’ title=’indicates’ type=’factual’/>
<relation-info id=’255’ title=’indirect_device_of’ type=’factual’/>
<relation-info id=’256’ title=’indirect_morphology_of’ type=’factual’/>
<relation-info id=’257’ title=’indirect_procedure_site_of’ type=’factual’/>
<relation-info id=’258’ title=’induced_by’ type=’factual’/>
<relation-info id=’259’ title=’induces’ type=’factual’/>
<relation-info id=’260’ title=’ingredient_of’ type=’factual’/>
<relation-info id=’261’ title=’intent_of’ type=’factual’/>
<relation-info id=’262’ title=’interpretation_of’ type=’factual’/>
<relation-info id=’263’ title=’interprets’ type=’factual’/>
<relation-info id=’264’ title=’inverse_isa’ type=’factual’/>
<relation-info id=’265’ title=’inverse_may_be_a’ type=’factual’/>
<relation-info id=’266’ title=’inverse_was_a’ type=’factual’/>
<relation-info id=’267’ title=’is_interpreted_by’ type=’factual’/>
<relation-info id=’268’ title=’isa’ type=’factual’/>
<relation-info id=’269’ title=’larger_than’ type=’factual’/>
<relation-info id=’270’ title=’laterality_of’ type=’factual’/>
<relation-info id=’271’ title=’location_of’ type=’factual’/>
<relation-info id=’272’ title=’manifestation_of’ type=’factual’/>
<relation-info id=’275’ title=’may_be_a’ type=’factual’/>
<relation-info id=’276’ title=’may_be_diagnosed_by’ type=’factual’/>
<relation-info id=’277’ title=’may_be_prevented_by’ type=’factual’/>
<relation-info id=’278’ title=’may_be_treated_by’ type=’factual’/>
<relation-info id=’279’ title=’may_diagnose’ type=’factual’/>
<relation-info id=’280’ title=’may_prevent’ type=’factual’/>
<relation-info id=’281’ title=’may_treat’ type=’factual’/>
<relation-info id=’282’ title=’measured_by’ type=’factual’/>
<relation-info id=’283’ title=’measurement_method_of’ type=’factual’/>
<relation-info id=’284’ title=’measures’ type=’factual’/>
<relation-info id=’285’ title=’mechanism_of_action_of’ type=’factual’/>
<relation-info id=’286’ title=’member_of_cluster’ type=’factual’/>
<relation-info id=’287’ title=’metabolic_site_of’ type=’factual’/>
<relation-info id=’288’ title=’metabolized_by’ type=’factual’/>
<relation-info id=’289’ title=’metabolizes’ type=’factual’/>
<relation-info id=’290’ title=’method_of’ type=’factual’/>
<relation-info id=’291’ title=’modified_by’ type=’factual’/>
<relation-info id=’292’ title=’modifies’ type=’factual’/>
<relation-info id=’293’ title=’moved_from’ type=’factual’/>
<relation-info id=’294’ title=’moved to’ type=’factual’/>
<relation-info id=’298’ title=’mth_has_expanded_form’ type=’factual’/>
<relation-info id=’301’ title=’mth_plain_text_form_of’ type=’factual’/>
<relation-info id=’306’ title=’occurs_after’ type=’factual’/>
<relation-info id=’307’ title=’occurs_before’ type=’factual’/>
<relation-info id=’308’ title=’occurs_in’ type=’factual’/>
<relation-info id=’309’ title=’onset_of’ type=’factual’/>
<relation-info id=’312’ title=’outcome_of’ type=’factual’/>
<relation-info id=’313’ title=’part_of’ type=’factual’/>
<relation-info id=’314’ title=’pathological_process_of’ type=’factual’/>
<relation-info id=’316’ title=’pharmacokinetics_of’ type=’factual’/>
<relation-info id=’317’ title=’physiologic_effect_of’ type=’factual’/>
<relation-info id=’319’ title=’precise_ingredient_of’ type=’factual’/>
<relation-info id=’322’ title=’priority_of’ type=’factual’/>
<relation-info id=’323’ title=’procedure_context_of’ type=’factual’/>
<relation-info id=’324’ title=’procedure_device_of’ type=’factual’/>
<relation-info id=’325’ title=’procedure_morphology_of’ type=’factual’/>
<relation-info id=’326’ title=’procedure_site_of’ type=’factual’/>
<relation-info id=’327’ title=’process_of’ type=’factual’/>
<relation-info id=’328’ title=’property_of’ type=’factual’/>
<relation-info id=’329’ title=’recipient_category_of’ type=’factual’/>
<relation-info id=’330’ title=’replaced_by’ type=’factual’/>
<relation-info id=’331’ title=’replaces’ type=’factual’/>
<relation-info id=’332’ title=’result_of’ type=’factual’/>
<relation-info id=’333’ title=’revision_status_of’ type=’factual’/>
<relation-info id=’334’ title=’same_as’ type=’factual’/>
<relation-info id=’335’ title=’scale_of’ type=’factual’/>
<relation-info id=’336’ title=’scale_type_of’ type=’factual’/>
<relation-info id=’339’ title=’severity_of’ type=’factual’/>
<relation-info id=’340’ title=’sib_in_branch_of’ type=’factual’/>
<relation-info id=’341’ title=’sib_in_isa’ type=’factual’/>
<relation-info id=’342’ title=’sib=in=part_of’ type=’factual’/>
<relation-info id=’343’ title=’sib_in_tributary_of’ type=’factual’/>
<relation-info id=’344’ title=’site_of_metabolism’ type=’factual’/>
<relation-info id=’345’ title=’smaller_than’ type=’factual’/>
<relation-info id=’346’ title=’specimen_of’ type=’factual’/>
<relation-info id=’347’ title=’specimen_procedure_of’ type=’factual’/>
<relation-info id=’348’ title=’specimen_source_identity_of’ type=’factual’/>
<relation-info id=’349’ title=’specimen_source_morphology_of’ type=’factual’/>
<relation-info id=’350’ title=’specimen_source_topography_of’ type=’factual’/>
<relation-info id=’351’ title=’specimen_substance_of’ type=’factual’/>
<relation-info id=’352’ title=’ssc’ type=’factual’/>
<relation-info id=’353’ title=’subject_relationship_context_of’ type=’factual’/>
<relation-info id=’354’ title=’suffix_of’ type=’factual’/>
<relation-info id=’355’ title=’supersystem_of’ type=’factual’/>
<relation-info id=’356’ title=’system_of’ type=’factual’/>
<relation-info id=’357’ title=’temporal_context_of’ type=’factual’/>
<relation-info id=’358’ title=’time_aspect_of’ type=’factual’/>
<relation-info id=’359’ title=’tradename_of’ type=’factual’/>
<relation-info id=’360’ title=’translation_of’ type=’factual’/>
<relation-info id=’361’ title=’treated_by’ type=’factual’/>
<relation-info id=’362’ title=’treats’ type=’factual’/>
<relation-info id=’363’ title=’tributary_of’ type=’factual’/>
<relation-info id=’364’ title=’uniquely_mapped_from’ type=’factual’/>
<relation-info id=’365’ title=’uniquely_mapped_to’ type=’factual’/>
<relation-info id=’366’ title=’used_by’ type=’factual’/>
<relation-info id=’367’ title=’used_for’ type=’factual’/>
<relation-info id=’368’ title=’uses’ type=’factual’/>
<relation-info id=’369’ title=’use’ type=’factual’/>
<relation-info id=’370’ title=’version_of’ type=’factual’/>
<relation-info id=’371’ title=’was_a’ type=’factual’/>
</relations-info>
</info>
<knowlet id=’Amino Acid, Peptide, or Protein/(131)I-Macroaggregated Albumin’ title=’(131)I-Macroaggregated Albumin’>
<semantic-types>
<semantic-type id=’116’ label=’Amino Acid, Peptide, or Protein’/>
<semantic-type id=’121’ label=’Pharmacologic Substance’/>
<semantic-type id=’130’ label=’Indicator, Reagent, or Diagnostic Aid’/>
</semantic-types>
<relations>
<relation id=’15’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/Serum Albumin, Radio-Iodinated’/>
</relations>
</knowlet>
<knowlet id-‘Lipid/1,2-Dipalmitoylphosphatidylcholine’ title=’1,2-Dipalmitoylphosphatidylcholine’>
<semantic-types>
<semantic-type id=’119’ label=’Lipid’/>
<semantic-type id=’121’ label=’Pharmacologic Substance’/>
</semantic-types>
<relations>
<relation id=’13’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/Lecithin’/>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/1,2-Dipalmitoylphosphatidylcholine’/>
<relation id=’284’ strength=’1.0’ source=’umls’ knowlet-id=’Clinical Attribute/DIPALMITOYLPHOSPHATIDYLCHOLINE:MASS CONCENTRATION:POINT IN TIME:SERUM:QUANTITATIVE’/>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/1,2-Dipalmitoylphosphatidylcholine’/>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/1,2-Dipalmitoylphosphatidylcholine’/>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/1,2-Dipalmitoylphosphatidylcholine’/>
<relation id=’268’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/colfosceril palmitate’/>
<relation id=’264’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/Lecithin’/>
<relation id=’264’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/Pulmonary Surfactants’/>
<relation id=’264’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/Lecithin’/>
<relation id=’264’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/Pulmonary Surfactants’/>
<relation id=’268’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/colfosceril palmitate’/>
<relation id=’175’ strength=’1.0’ source=’umls’ knowlet-id=’Clinical Attribute/DIPALMITOYLPHOSPHATIDYLCHOLINE:MASS CONCENTRATION:POINT IN TIME:SERUM:QUANTITATIVE’/>
<relation id=’18’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/colfosceril palmitate’/>
<relation id=’18’ strength=’1.0’ source=’umls’ knowlet-id=’Clinical Attribute/DIPALMITOYLPHOSPHATIDYLCHOLINE:MASS CONCENTRATION:POINT IN TIME:SERUM:QUANTITATIVE’/>
</relations>
</knowlet>
<knowlet id=’Amino Acid, Peptide, or Protein/1,4-alpha-Glucan Branching Enzyme’ tytle=’1,4-alpha-Glucan Branching Enzyme’>
<semantic-types>
<semantic-type id=’116’ label=’Amino Acid, Peptide, or Protein’/>
<semantic-type id=’126’ label=’Enzyme’/>
</semantic-types>
<relations>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/1,4-alpha-Glucan Branching Enzyme’/>
<relation id=’13’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/Glucosyltransferases’/>
<relation id=’17’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/Glycogen Branching Enzyme’/>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/1,4-alpha-Glucan Branching Enzyme’/>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/1,4-alpha-Glucan Branching Enzyme’/>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/1,4-alpha-Glucan Branching Enzyme’/>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/1,4-alpha-Glucan Branching Enzyme’/>
<relation id=’284’ strength=’1.0’ source=’umls’ knowlet-id=’Clinical Attribute/1,4-ALPHA GLUCAN BRANCHING ENZYME:CATALYTIC CONCENTRATION:POINT IN TIME:LEUKOCYTES:QUANTITATIVE’/>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/1,4-alpha-Glucan Branching Enzyme’/>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/1,4-alpha-Glucan Branching Enzyme’/>
<relation id=’175’ strength=’1.0’ source=’umls’ knowlet-id=’Clinical Attribute/1,4-ALPHA GLUCAN BRANCHING ENZYME:CATALYTIC CONCENTRATION:POINT IN TIME:LEUKOCYTES:QUANTITATIVE’/>
<relation id=’18’ strength=’1.0’ source=’umls’ knowlet-id=’Carbohydrate/1,4-glucan’/>
<relation id=’18’ strength=’1.0’ source=’umls’ knowlet-id=’ Clinical Attribute/1,4-ALPHA GLUCAN BRANCHING ENZYME:CATALYTIC CONCENTRATION:POINT IN TIME:LEUKOCYTES:QUANTITATIVE’/>
<relation id=’18’ strength=’1.0’ source=’umls’ knowlet-id=’Gene or Genome/GBE1 gene’/>
</relations>
</knowlet>
<knowlet id=’Lipid/1-Alkyl-2-Acylphosphatidates’ title=’1-Alkyl-2-Acylphosphatidates’>
<semantic-types>
<semantic-type id=’119’ label=’Lipid’/>
</semantic-types>
<relations>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/1-Alkyl-2-Acylphosphatidates’/>
<relation id=’15’ strength=’1.0’ source=’umls’ knowlet-id=’Lipid/Phospholipid Ethers’/>
</relations>
</knowlet>
<knowlet id=’Amino Acid, Peptide, or Protein/1-Carboxyglutamic Acid’ title=’1-Carboxyglutamic Acid’>
<semantic-types>
<semantic-type id=’116’ label=’Amino Acid, Peptide, or Protein’/>
<semantic-type id=’123’ label=’Biologically Active Substance’/>
</semantic-types>
<relations>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/1-Carboxyglutamic Acid’/>
<relation id=’13’ strength=’1.0’ source=’umls’ knowlet-id=’Organic Chemical/Tricarboxylic Acids’/>
<relation id=’13’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/Glutamic Acid’/>
<relation id=’17’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/gamma-Carboxyglutamate’/>
<relation id=’215’ strength=’1.0’ source=’umls’ knowlet-id=’Amino Acid, Peptide, or Protein/1-Carboxyglutamic Acid’/>
</relations>
</knowlet>
<knowlets>
104 ネットワーク
202 ディスプレイインターフェース
204 プロセッサ
206 通信インフラ
208 メインメモリ
210 二次メモリ
212 ハードディスクドライブ
214 着脱可能ストレージドライブ
218、222 着脱可能記憶部
220 インターフェース
224 通信インターフェース
226 接続経路
230 ディスプレイユニット

Claims (23)

  1. ナレッジナビゲーション及びディスカバリを容易にするデータ構造を作成する方法であって、
    (a)注力分野に関係する複数のレコードからなる少なくとも1つのデータストアをコンピュータメモリにロードすることと、
    (b)前記注力分野に関係するN個の概念を含む前記少なくとも1つのシソーラスを前記コンピュータメモリにロードすることと、
    (c)前記シソーラス中に存在する前記N個の概念の各々に固有の識別子を割り当てることと、
    (d)前記少なくとも1つのデータストアにて前記複数のレコードにおける前記N個の概念の各々の位置を示す索引を作成することと、
    (e)N個の概念の各対間の意味関係を判定するため、前記索引を使用し、前記少なくとも1つのデータストア中で前記複数のレコードを探索することと、
    (f)前記探索するステップ(e)の結果を利用し、N個の概念の各対間でZ個の意味関係値を計算することと、
    (g)(i)前記固有の識別子の内、前記N個の概念の内の一概念に対応する少なくとも1つの識別子と、(ii)前記N個の概念の内の前記一概念と残りのN−1個の概念とに対応する前記Z個の意味関係値とを、前記コンピュータメモリに記憶すること、を含み、
    前記少なくとも1つのシソーラス中で前記N個の概念の内の前記一概念が前記残りのN−1個の概念にどのように関係しているかを前記Z個の意味関係値により指示すること、
    を特徴とする方法。
  2. 前記複数のレコードの各々が前記注力分野に関係する記事であること、を特徴とする請求項1に記載の方法。
  3. 前記複数のレコードの各々が前記注力分野に関係する記事抄録であること、を特徴とする請求項1に記載の方法。
  4. 前記注力分野は生物医学であって、前記少なくとも1つのデータストアが、PubMedと、UMLSと、UniProtKB/Swiss−Protと、IntActと、GOとからなる群から選ばれること、を特徴とする請求項1に記載の方法。
  5. Nの値が1,000,000よりも多いこと、を特徴とする請求項1に記載の方法。
  6. Zは3に等しく、
    前記意味関係値が、
    事実的意味関係値と、
    共起的意味関係値と、
    連想的意味関係値と、を有すること、
    を特徴とする請求項1に記載の方法。
  7. (i)次式を使用し、前記N個の概念の内の前記一概念と前記残りのN−1個の概念の内の一概念との意味的距離(SD)値を計算すること、をさらに含み、
    SD=wF+wC+w
    式中Fは前記事実的意味関係値を表し、Cは前記共起的意味関係値を表し、Aは前記連想的意味関係値を表し、w、w、wはそれぞれ前記F、C、及びA意味関係値に割り当てられる重みであって、
    前記SD値は、N個の概念の内の前記一概念が前記残りのN−1個の概念の内の前記一概念にどの程度強く関係しているかを示すこと、
    を特徴とする請求項6に記載の方法。
  8. (j)前記N個の概念の内の前記一概念を含むクエリをユーザから受け付けることと、
    (k)グラフィカルユーザインターフェイスを介して前記ユーザへ前記SD値を提示することと、をさらに含むこと、
    を特徴とする請求項7に記載の方法。
  9. (i)N個のデータ要素を作成するため、前記少なくとも1つのシソーラス中に存在する前記N個の概念の各々につきステップ(g)を実行することと、
    (j)前記コンピュータメモリに前記N個のデータ要素を記憶すること、をさらに含むこと、
    を特徴とする請求項1に記載の方法。
  10. 前記N個のデータ要素が[N]×[N−1]×[Z]のマトリックスとして前記コンピュータメモリに記憶されること、を特徴とする請求項9に記載の方法。
  11. ステップ(d)で作成される前記索引が、少なくとも部分的には固有名認識(NER)インデクサーを使用することによって作成されること、を特徴とする請求項1に記載の方法。
  12. (i)前記少なくとも1つのデータストアに存在する少なくとも1つの追加的レコードを前記コンピュータメモリにロードすることと、
    (j)N個の概念の各対間で前記Z個の意味関係値を再計算することと、
    を特徴とする請求項1に記載の方法。
  13. 請求項1に記載の前記ステップにより作成され、コンピュータ使用可能媒体に記憶されること、を特徴とするデータ構造。
  14. 前記データ構造がリソース記述フレームワーク(RDF)に準拠する形で記憶されること、を特徴とする請求項13に記載のデータ構造。
  15. 前記データ構造がZopeデータ要素として記憶されること、を特徴とする請求項13に記載のデータ構造。
  16. コンピュータでナレッジナビゲーション及びディスカバリを容易にするための制御ロジックが記憶されたコンピュータ使用可能媒体を備えるコンピュータプログラムプロダクトであって、
    前記制御ロジックが、
    注力分野に関係する複数のレコードからなる少なくとも1つのデータストアを、前記コンピュータにロードさせる第1のコンピュータ可読プログラムコード手段と、
    前記注力分野に関係するN個の概念を含む少なくとも1つのシソーラスを、前記コンピュータにロードさせる第2のコンピュータ可読プログラムコード手段と、
    前記シソーラス中に存在する前記N個の概念の各々に固有の識別子を、前記コンピュータに割り当てさせる第3のコンピュータ可読プログラムコード手段と、
    前記少なくとも1つのデータストアにて前記複数のレコードにおける前記N個の概念の各々の位置を示す索引を、前記コンピュータに作成させる第4のコンピュータ可読プログラムコード手段と、
    N個の概念の各対間の意味関係を判定するため、前記索引を使用し、前記少なくとも1つのデータストア中で前記複数のレコードを前記コンピュータに探索させる第5のコンピュータ可読プログラムコード手段と、
    前記第5のコンピュータ可読プログラムコード手段の結果を利用し、N個の概念の各対間でZ個の意味関係値を、前記コンピュータに計算させる第6のコンピュータ可読プログラムコード手段と、
    (i)前記固有の識別子の内、前記N個の概念の内の一概念に対応する少なくとも1つの識別子と、(ii)前記N個の概念の内の前記一概念と残りのN−1個の概念とに対応する前記Z個の意味関係値とを、前記コンピュータに記憶させる第7のコンピュータ可読プログラムコード手段と、を備え、
    前記少なくとも1つのシソーラス中で前記N個の概念の内の前記一概念が前記残りのN−1個の概念にどのように関係しているかを前記Z個の意味関係値により指示すること、
    を特徴とするコンピュータプログラムプロダクト。
  17. Zは3に等しく、
    前記意味関係値が、
    事実的意味関係値と、
    共起的意味関係値と、
    連想的意味関係値と、を備えること、
    を特徴とする請求項16に記載のコンピュータプログラムプロダクト。
  18. 次式を使用し、前記N個の概念の内の前記一概念と前記残りのN−1個の概念の内の一概念との意味的距離(SD)値を、前記コンピュータに計算させる第8のコンピュータ可読プログラムコード手段をさらに備え、
    SD=wF+wC+w
    式中Fは前記事実的意味関係値を表し、Cは前記共起的意味関係値を表し、Aは前記連想的意味関係値を表し、w、w、wはそれぞれ前記F、C、及びA意味関係値に割り当てられる重みであって、
    前記SD値は、N個の概念の内の前記一概念が前記残りのN−1個の概念の内の前記一概念にどの程度強く関係しているかを示すこと、
    を特徴とする請求項17に記載のコンピュータプログラムプロダクトの方法。
  19. 前記N個の概念の内の前記一概念を含むクエリを、ユーザから前記コンピュータに受け付けさせる第9のコンピュータ可読プログラムコード手段と、
    前記コンピュータに、グラフィカルユーザインターフェイスを介して前記ユーザへ前記SD値を提示させる第10のコンピュータ可読プログラムコード手段と、をさらに備えること、
    を特徴とする請求項18に記載のコンピュータプログラムプロダクト。
  20. N個のデータ要素を作成するため、前記少なくとも1つのシソーラス中に存在する前記N個の概念に対し、前記第7のコンピュータ可読プログラムコード手段を、前記コンピュータに実行させる第8のコンピュータ可読プログラムコード手段と、
    前記N個のデータ要素を前記コンピュータに記憶させる第9のコンピュータ可読プログラムコード手段と、をさらに備えること、
    を特徴とする請求項16に記載のコンピュータプログラムプロダクト。
  21. 前記少なくとも1つのデータストアに存在する少なくとも1つの追加的レコードを、前記コンピュータにロードさせる第8のコンピュータ可読プログラムコード手段と、
    N個の概念の各対間で前記Z個の意味関係値を前記コンピュータに再計算させる第9のコンピュータ可読プログラムコード手段と、をさらに備えること、
    を特徴とする請求項16に記載のコンピュータプログラムプロダクト。
  22. 前記複数のレコードの各々が前記注力分野に関係する記事抄録であること、を特徴とする請求項16に記載のコンピュータプログラムプロダクト。
  23. 前記注力分野は生物医学であって、前記少なくとも1つのデータストアが、PubMedと、UMLSと、UniProtKB/Swiss−Protと、IntActと、GOとからなる群から選ばれること、
    を特徴とする請求項16に記載のコンピュータプログラムプロダクト。
JP2010501019A 2007-03-30 2008-03-31 ナレッジナビゲーション及びディスカバリのデータ構造、システム、及び方法 Pending JP2010532506A (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US90907207P 2007-03-30 2007-03-30
US6421108P 2008-02-21 2008-02-21
US6434508P 2008-02-29 2008-02-29
US6467008P 2008-03-19 2008-03-19
US6478008P 2008-03-26 2008-03-26
PCT/US2008/004161 WO2008121382A1 (en) 2007-03-30 2008-03-31 Data structure, system and method for knowledge navigation and discovery

Publications (1)

Publication Number Publication Date
JP2010532506A true JP2010532506A (ja) 2010-10-07

Family

ID=39808609

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010501019A Pending JP2010532506A (ja) 2007-03-30 2008-03-31 ナレッジナビゲーション及びディスカバリのデータ構造、システム、及び方法
JP2010501018A Pending JP2010529518A (ja) 2007-03-30 2008-03-31 ナレッジナビゲーション及びディスカバリのためコンテンツをウィキファイするシステム及び方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2010501018A Pending JP2010529518A (ja) 2007-03-30 2008-03-31 ナレッジナビゲーション及びディスカバリのためコンテンツをウィキファイするシステム及び方法

Country Status (9)

Country Link
US (2) US20100174739A1 (ja)
EP (2) EP2143011A4 (ja)
JP (2) JP2010532506A (ja)
CN (2) CN101681351A (ja)
AU (2) AU2008233083A1 (ja)
BR (1) BRPI0811415A2 (ja)
CA (2) CA2682582A1 (ja)
IL (2) IL201230A0 (ja)
WO (2) WO2008121382A1 (ja)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793579B2 (en) 2006-04-20 2014-07-29 Google Inc. Graphical user interfaces for supporting collaborative generation of life stories
US8689098B2 (en) 2006-04-20 2014-04-01 Google Inc. System and method for organizing recorded events using character tags
US8103947B2 (en) * 2006-04-20 2012-01-24 Timecove Corporation Collaborative system and method for generating biographical accounts
US7991733B2 (en) * 2007-03-30 2011-08-02 Knewco, Inc. Data structure, system and method for knowledge navigation and discovery
US20100114902A1 (en) * 2008-11-04 2010-05-06 Brigham Young University Hidden-web table interpretation, conceptulization and semantic annotation
US8365079B2 (en) * 2008-12-31 2013-01-29 International Business Machines Corporation Collaborative development of visualization dashboards
US20110179026A1 (en) * 2010-01-21 2011-07-21 Erik Van Mulligen Related Concept Selection Using Semantic and Contextual Relationships
WO2011105606A1 (ja) * 2010-02-26 2011-09-01 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体
CA2747669C (en) * 2010-07-28 2016-03-08 Wairever Inc. Method and system for validation of claims against policy with contextualized semantic interoperability
US9208223B1 (en) * 2010-08-17 2015-12-08 Semantifi, Inc. Method and apparatus for indexing and querying knowledge models
JP5148683B2 (ja) * 2010-12-21 2013-02-20 株式会社東芝 映像表示装置
EP2661702A4 (en) * 2011-01-07 2017-05-24 Ixreveal, Inc. Concepts and link discovery system
CN102087669B (zh) * 2011-03-11 2013-01-02 北京汇智卓成科技有限公司 基于语义关联的智能搜索引擎系统
US8671111B2 (en) * 2011-05-31 2014-03-11 International Business Machines Corporation Determination of rules by providing data records in columnar data structures
US8843543B2 (en) 2011-11-15 2014-09-23 Livefyre, Inc. Source attribution of embedded content
US8935230B2 (en) * 2011-08-25 2015-01-13 Sap Se Self-learning semantic search engine
KR101143466B1 (ko) * 2011-09-26 2012-05-10 한국과학기술정보연구원 연구 연관도 서비스 제공 방법 및 시스템
US8386079B1 (en) 2011-10-28 2013-02-26 Google Inc. Systems and methods for determining semantic information associated with objects
KR101137973B1 (ko) * 2011-11-02 2012-04-20 한국과학기술정보연구원 연관기술 서비스 제공 방법 및 시스템
USD703686S1 (en) * 2011-12-28 2014-04-29 Target Brands, Inc. Display screen with graphical user interface
USD703687S1 (en) 2011-12-28 2014-04-29 Target Brands, Inc. Display screen with graphical user interface
USD705790S1 (en) 2011-12-28 2014-05-27 Target Brands, Inc. Display screen with graphical user interface
USD703685S1 (en) * 2011-12-28 2014-04-29 Target Brands, Inc. Display screen with graphical user interface
USD706794S1 (en) 2011-12-28 2014-06-10 Target Brands, Inc. Display screen with graphical user interface
USD711399S1 (en) 2011-12-28 2014-08-19 Target Brands, Inc. Display screen with graphical user interface
USD711400S1 (en) 2011-12-28 2014-08-19 Target Brands, Inc. Display screen with graphical user interface
USD715818S1 (en) 2011-12-28 2014-10-21 Target Brands, Inc. Display screen with graphical user interface
USD706793S1 (en) 2011-12-28 2014-06-10 Target Brands, Inc. Display screen with graphical user interface
USD705792S1 (en) 2011-12-28 2014-05-27 Target Brands, Inc. Display screen with graphical user interface
USD705791S1 (en) 2011-12-28 2014-05-27 Target Brands, Inc. Display screen with graphical user interface
US8577824B2 (en) * 2012-01-10 2013-11-05 Siemens Aktiengesellschaft Method and a programmable device for calculating at least one relationship metric of a relationship between objects
CN102779143B (zh) * 2012-01-31 2014-08-27 中国科学院自动化研究所 知识谱系的可视化方法
US8762324B2 (en) * 2012-03-23 2014-06-24 Sap Ag Multi-dimensional query expansion employing semantics and usage statistics
CN102750392B (zh) * 2012-07-09 2014-07-16 浙江省公众信息产业有限公司 Web主题信息提取方法及系统
US9009197B2 (en) 2012-11-05 2015-04-14 Unified Compliance Framework (Network Frontiers) Methods and systems for a compliance framework database schema
US9575954B2 (en) 2012-11-05 2017-02-21 Unified Compliance Framework (Network Frontiers) Structured dictionary
CN103701469B (zh) * 2013-12-26 2016-08-31 华中科技大学 一种大规模图数据的压缩存储方法
US10007935B2 (en) 2014-02-28 2018-06-26 Rakuten, Inc. Information processing system, information processing method, and information processing program
CN104331473A (zh) * 2014-11-03 2015-02-04 同方知网(北京)技术有限公司 一种基于知网节的学术知识获取方法及系统
WO2016171927A1 (en) * 2015-04-20 2016-10-27 Unified Compliance Framework (Network Frontiers) Structured dictionary
US10198471B2 (en) * 2015-05-31 2019-02-05 Microsoft Technology Licensing, Llc Joining semantically-related data using big table corpora
US20170116196A1 (en) * 2015-10-23 2017-04-27 Lunatech, Llc Methods And Systems For Searching Using A Progress Engine
US20170351752A1 (en) * 2016-06-07 2017-12-07 Panoramix Solutions Systems and methods for identifying and classifying text
US11158012B1 (en) 2017-02-14 2021-10-26 Casepoint LLC Customizing a data discovery user interface based on artificial intelligence
US10740557B1 (en) 2017-02-14 2020-08-11 Casepoint LLC Technology platform for data discovery
US11275794B1 (en) * 2017-02-14 2022-03-15 Casepoint LLC CaseAssist story designer
CN111259161B (zh) * 2018-11-30 2022-02-08 杭州海康威视数字技术股份有限公司 本体建立方法、装置及存储介质
JP2022542751A (ja) 2019-06-07 2022-10-07 ライカ マイクロシステムズ シーエムエス ゲゼルシャフト ミット ベシュレンクテル ハフツング 生物学関連のデータを処理するためのシステムおよび方法、顕微鏡を制御するためのシステムおよび方法ならびに顕微鏡
US11120227B1 (en) 2019-07-01 2021-09-14 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
US10769379B1 (en) 2019-07-01 2020-09-08 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
US10824817B1 (en) 2019-07-01 2020-11-03 Unified Compliance Framework (Network Frontiers) Automatic compliance tools for substituting authority document synonyms
WO2022000089A1 (en) * 2020-06-30 2022-01-06 National Research Council Of Canada Vector space model for form data extraction
CN111737407B (zh) * 2020-08-25 2020-11-10 成都数联铭品科技有限公司 基于事件消歧的事件唯一id构建方法
WO2022047252A1 (en) 2020-08-27 2022-03-03 Unified Compliance Framework (Network Frontiers) Automatically identifying multi-word expressions
US11954605B2 (en) * 2020-09-25 2024-04-09 Sap Se Systems and methods for intelligent labeling of instance data clusters based on knowledge graph
US20230031040A1 (en) 2021-07-20 2023-02-02 Unified Compliance Framework (Network Frontiers) Retrieval interface for content, such as compliance-related content

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097533A (ja) * 1996-09-24 1998-04-14 Mitsubishi Electric Corp 言語処理装置
JP2001510607A (ja) * 1997-02-07 2001-07-31 サンマイクロシステムズ インコーポレーテッド 増殖概念による索引付け手法を用いたインテリジェントネットワークブラウザ
US20060053171A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for curating one or more multi-relational ontologies

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US6804659B1 (en) * 2000-01-14 2004-10-12 Ricoh Company Ltd. Content based web advertising
US6567814B1 (en) * 1998-08-26 2003-05-20 Thinkanalytics Ltd Method and apparatus for knowledge discovery in databases
US8051104B2 (en) * 1999-09-22 2011-11-01 Google Inc. Editing a network of interconnected concepts
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
EP1485871A2 (en) * 2002-02-27 2004-12-15 Michael Rik Frans Brands A data integration and knowledge management solution
AU2003270678A1 (en) * 2002-09-20 2004-04-08 Board Of Regents, University Of Texas System Computer program products, systems and methods for information discovery and relational analyses
WO2004042493A2 (en) * 2002-10-24 2004-05-21 Agency For Science, Technology And Research Method and system for discovering knowledge from text documents
JP4144388B2 (ja) * 2003-03-13 2008-09-03 日本電気株式会社 知識リンク提供プログラム、知能マップ生成プログラム、知能レイヤー管理プログラム、管理装置及び管理方法
US7433876B2 (en) * 2004-02-23 2008-10-07 Radar Networks, Inc. Semantic web portal and platform
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US8200700B2 (en) * 2005-02-01 2012-06-12 Newsilike Media Group, Inc Systems and methods for use of structured and unstructured distributed data
US7584268B2 (en) * 2005-02-01 2009-09-01 Google Inc. Collaborative web page authoring
EP1875371A4 (en) * 2005-04-25 2010-03-24 Microsoft Corp ASSOCIATING INFORMATION WITH AN ELECTRONIC DOCUMENT
US20070130206A1 (en) * 2005-08-05 2007-06-07 Siemens Corporate Research Inc System and Method For Integrating Heterogeneous Biomedical Information
WO2007106185A2 (en) * 2005-11-22 2007-09-20 Mashlogic, Inc. Personalized content control
WO2007106858A2 (en) * 2006-03-15 2007-09-20 Araicom Research Llc System, method, and computer program product for data mining and automatically generating hypotheses from data repositories
WO2007149216A2 (en) * 2006-06-21 2007-12-27 Information Extraction Systems An apparatus, system and method for developing tools to process natural language text
JP2007012100A (ja) * 2006-10-23 2007-01-18 Hitachi Ltd 人物情報に基づく検索方法および検索装置、あるいは情報提供システム
US7991733B2 (en) * 2007-03-30 2011-08-02 Knewco, Inc. Data structure, system and method for knowledge navigation and discovery

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097533A (ja) * 1996-09-24 1998-04-14 Mitsubishi Electric Corp 言語処理装置
JP2001510607A (ja) * 1997-02-07 2001-07-31 サンマイクロシステムズ インコーポレーテッド 増殖概念による索引付け手法を用いたインテリジェントネットワークブラウザ
US20060053171A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for curating one or more multi-relational ontologies

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200700613024; 荻原 寛、外2名: '概念ベース内の共起情報に着目した概念間関連度計算方式' 情報処理学会研究報告 第2007巻,第26号, 20070314, p.167-172, 社団法人情報処理学会 *
CSNG200700613028; 佐藤 裕介、外1名: '複素重み付き意味ネットワークの提案とテキスト要約への応用' 情報処理学会研究報告 第2007巻,第26号, 20070314, p.195-202, 社団法人情報処理学会 *
JPN6012063864; 荻原 寛、外2名: '概念ベース内の共起情報に着目した概念間関連度計算方式' 情報処理学会研究報告 第2007巻,第26号, 20070314, p.167-172, 社団法人情報処理学会 *
JPN6012063865; 佐藤 裕介、外1名: '複素重み付き意味ネットワークの提案とテキスト要約への応用' 情報処理学会研究報告 第2007巻,第26号, 20070314, p.195-202, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
EP2143011A1 (en) 2010-01-13
WO2008121377A3 (en) 2008-12-18
EP2143012A2 (en) 2010-01-13
EP2143011A4 (en) 2012-06-27
CN101681351A (zh) 2010-03-24
BRPI0811415A2 (pt) 2017-05-02
CA2682582A1 (en) 2008-10-09
CN101681353A (zh) 2010-03-24
IL201232A0 (en) 2010-05-31
US20100174739A1 (en) 2010-07-08
JP2010529518A (ja) 2010-08-26
EP2143012A4 (en) 2011-07-27
IL201230A0 (en) 2010-05-31
AU2008233083A1 (en) 2008-10-09
WO2008121377A2 (en) 2008-10-09
AU2008233078A1 (en) 2008-10-09
US20100174675A1 (en) 2010-07-08
CA2682602A1 (en) 2008-10-09
WO2008121382A1 (en) 2008-10-09

Similar Documents

Publication Publication Date Title
JP2010532506A (ja) ナレッジナビゲーション及びディスカバリのデータ構造、システム、及び方法
US7991733B2 (en) Data structure, system and method for knowledge navigation and discovery
US20090217179A1 (en) System and method for knowledge navigation and discovery utilizing a graphical user interface
Hu et al. A bibliometric analysis and visualization of medical data mining research
Jonquet et al. NCBO Resource Index: Ontology-based search and mining of biomedical resources
Shen et al. Knowledge discovery from biomedical ontologies in cross domains
Mehdi et al. Excavating the mother lode of human-generated text: A systematic review of research that uses the wikipedia corpus
Tharatipyakul et al. ChemEx: information extraction system for chemical data curation
Schuurman et al. Ontologies for bioinformatics
Qu A review on the application of knowledge graph technology in the medical field
de Diego et al. System for evaluating the reliability and novelty of medical scientific papers
Bouadjenek et al. Multi-field query expansion is effective for biomedical dataset retrieval
Bukhari Semantic enrichment and similarity approximation for biomedical sequence images
Tao et al. Optimizing semantic MEDLINE for translational science studies using semantic web technologies
Hsu et al. CoIN: a network analysis for document triage
Parikh et al. A semantic problem solving environment for integrative parasite research: Identification of intervention targets for Trypanosoma cruzi
Shah et al. UMLS-Query: a perl module for querying the UMLS
Sanyal et al. Figure retrieval from biomedical literature: An overview of techniques, tools, and challenges
Abed et al. A Review of Towered Big-Data Service Model for Biomedical Text-Mining Databases
Salimeh et al. Natural Language Processing and Parallel Computing for Information Retrieval from Electronic Health Records
Karami Semantic web: a context for medical knowledge discovering and sharing
da Silva et al. Agile semantic annotation of scientific texts at the biomedical scenario
WO2010011372A1 (en) System and method for knowledge navigation and discovery utilizing a graphical user interface
Hermann et al. A discovery system for narrative query graphs: entity-interaction-aware document retrieval
Bakaloudi Question Answering on Covid-19 information using Knowledge Graphs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121205

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130305

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130312

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130405

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130412

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130626