JP2003186894A - サブスタンス辞書の作成方法、サブスタンス間の二項関係抽出方法、予測方法、及び表示方法 - Google Patents

サブスタンス辞書の作成方法、サブスタンス間の二項関係抽出方法、予測方法、及び表示方法

Info

Publication number
JP2003186894A
JP2003186894A JP2001389474A JP2001389474A JP2003186894A JP 2003186894 A JP2003186894 A JP 2003186894A JP 2001389474 A JP2001389474 A JP 2001389474A JP 2001389474 A JP2001389474 A JP 2001389474A JP 2003186894 A JP2003186894 A JP 2003186894A
Authority
JP
Japan
Prior art keywords
substances
substance
binary relation
document
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001389474A
Other languages
English (en)
Other versions
JP3773447B2 (ja
Inventor
Yoshihiro Ota
佳宏 大田
Tetsuo Nishikawa
哲夫 西川
Shigeo Ihara
茂男 井原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001389474A priority Critical patent/JP3773447B2/ja
Priority to US10/194,228 priority patent/US20030120640A1/en
Publication of JP2003186894A publication Critical patent/JP2003186894A/ja
Application granted granted Critical
Publication of JP3773447B2 publication Critical patent/JP3773447B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 データベースにある論文から遺伝子やタンパ
ク質や低分子等のサブスタンス名とそれらの間の二項関
係を自動的に効率よく抽出し、抽出した二項関係をユー
ザに分かりやすい形で可視化して表示する。 【解決手段】 公共データベース(SWISSPROT、PIR、CS
NDB)からタンパク質名、シノニム、クロスリファレン
ス情報を抽出し、それらの関係よりタンパク質名の辞書
を作成する。二項関係の抽出は、まず二項関係を表す文
のパターンに基づいて行い、それだけでは抽出しきれな
いものについては、更にテキスト文書の重みベクトル化
を用いて二項関係の存在の予測を試みる。関係が抽出で
きたら、後でユーザが目的とする二項関係を得るための
一助とするため、その関係にいくつかの強度を定義して
与える。強度RF,GGRが指定した値以上あるいは以下の二
項関係を選択的に表示できるようにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、既存のデータベー
スに蓄えられている任意の種類のサブスタンス(遺伝子
やタンパク質や低分子等)に関する論文から、相互関係
を有するサブスタンス名を抽出して、サブスタンス間の
新たな相互関係を導出し、それを可視化する方法に関す
る。
【0002】
【従来の技術】遺伝子、タンパク質、低分子等のサブス
タンスの働きについては、既に多くの研究がなされてい
て、その論文はデータベースに蓄えられている。遺伝
子、タンパク質、低分子については、それらの間の相互
作用に関する情報が重要であるが、データベースに蓄え
られている論文は膨大な数にのぼり、ユーザーが個々の
論文を調査して相互関係を見つけるのは困難である。そ
こで、データベースに蓄積された論文を自動的に検索し
て論文に記述されているサブスタンス名を抽出し、更に
2つのサブスタンス間の関係すなわち二項関係(binary
relation)を自動的に抽出しようという試みがなされ
ている。
【0003】文書からサブスタンス名を抽出する例とし
て、タンパク質名の抽出に関して述べると、従来は、分
かっているタンパク質名を網羅的に登録してタンパク質
名の辞書を作成し、自然言語処理(Natural Language
Processing:NLP)によって単純にその辞書と文献を照
らし合わせることで行っていた。
【0004】また、文献データベースから何らかの情報
を抽出しようという試みは、最近多くなされている。そ
れらの手法の多くは自然言語処理を用いるアプローチを
とるものと、キーワードと表層的な規則を利用したアプ
ローチをとるものとに分かれる。NLPを用いた手法とし
ては、MEDLINEなどの公共データベースから得られたテ
キストを、NLPの手法を用いて構文解析し、文書中の各
語に文法的なタグ付けを行ってから、二項関係を表す動
詞の主語と目的語を探索することにより、二項関係を抽
出する方法などがある。キーワードを利用する手法とし
ては、まずサブスタンス間の相互作用を表し、頻繁に用
いられるキーワードを見つけ、次にキーワード、サブス
タンス名、前置詞などの文章中における並び方のパター
ンを解析する、そして最後にサブスタンス名の辞書とそ
のパターンを用いて、それらが現れる文を探す、といっ
たことが試みられている。
【0005】
【発明が解決しようとする課題】分かっているサブスタ
ンス名を登録した辞書を用いる従来のサブスタンス名抽
出方法にはいくつかの問題があった。例えば、医学や生
物学の分野では、新たに発見されたサブスタンスや同じ
意味を表すシノニムが多く、その都度新たなタンパク質
名を辞書に登録しなければならなかった。そのため、辞
書の作成に非常に多くの時間がかかり、登録の間違いも
少なくはなかった。また、抽出を辞書だけに頼ると複合
語からなるタンパク質名を抽出することができなかっ
た。そこで、統計学的な手法を用いて抽出する方法が提
案されたが、せいぜい2、3語からなる複合語を抽出で
きるにすぎなかった。医学や生物学の分野では6語以上
からなる複合語も多く存在するので、この手法は実用的
ではなかった。更に、統計学的な手法では、論文の著者
による微妙な表現の違いによって、タンパク質名を抽出
できないこともあった。タンパク質名の辞書とパターン
の辞書を用意して複合語の抽出を行う方法も提案された
が、これは精度がタンパク質名の辞書の質に依存する、
パターンを学習するコーパスを持っていない、複合語を
抽出するためには前処理が必要である、と欠点が多かっ
た。
【0006】二項関係の抽出に関して云えば、従来の方
法は、自然言語処理によるものもキーワードを利用する
ものも、計算量の多さや、ユーザーとの相補的なインタ
ラクション性に欠けるといった問題があった。更に、従
来は、サブスタンス間の二項関係は文字情報のみで表さ
れており、複雑な二項関係を把握するには、二項関係を
ひとつひとつ書き出して検討する必要があり、多大な労
力と時間を要した。
【0007】本発明は、このような従来技術の問題点に
鑑み、データベースにある論文から遺伝子やタンパク質
や低分子等のサブスタンス名とそれらの間の二項関係を
自動的に効率よく抽出する方法を提供することを目的と
する。本発明は、また、それらの二項関係をユーザに分
かりやすい形で可視化して表示する方法を提供すること
を目的とする。
【0008】
【課題を解決するための手段】文書中の記述からサブス
タンス名を抽出する方法として、本発明では、辞書を用
いる方法と予測による方法とを併用する。辞書は、専門
家によるサブスタンス名の直接入力と公共データベース
からのサブスタンス名の自動抽出によって作成する。公
共データベースからのサブスタンス名の自動抽出では、
例えば、3つの公共データベース(SWISSPROT、PIR、CS
NDB)からタンパク質名、シノニム、クロスリファレン
ス情報を抽出し、それらの関係よりタンパク質名の辞書
を作成する。本発明では、また、文書中の記述から、辞
書にないタンパク質名を予測して抽出する。
【0009】本発明では、公共データベースに蓄えられ
ている文書集合から、二つのサブスタンス間にある二項
関係の情報を抽出して表示する。二項関係の抽出は、ま
ず二項関係を表す文のパターンに基づいて行い、それだ
けでは抽出しきれないものについては、更にテキスト文
書の重みベクトル化を用いて二項関係の存在の予測を試
みる。関係が抽出できたら、後でユーザーが目的とする
二項関係を得るための一助とするため、その関係にいく
つかの強度を定義して与える。
【0010】本発明では、サブスタンス間に存在する二
項関係を可視化するために、Javaによって実装された動
的ビューアを用いる。動的ビューアの機能としてレイア
ウトビュー(ノードをレイアウトする方法)があり、ノ
ード同士の二項関係を様々な方法で可視化することがで
きる。
【0011】本発明の態様を以下に列挙する。 (1)複数のデータベースから、サブスタンスの名称と
そのシノニムからなる用語グループ、及び同一のサブス
タンスの呼称として2以上の異なる名称が用いられてい
ることを示すクロスリファレンス情報を収集するステッ
プと、前記収集した用語グループ同士を比較し、同じ名
称を含む用語グループ同士あるいは同じシノニムを含む
用語グループ同士を結合するステップと、前記クロスリ
ファレンス情報を用いて、同一のサブスタンスを表す用
語グループ同士を結合するステップと、を含むことを特
徴とするサブスタンス辞書の作成方法。
【0012】(2)前記(1)記載のサブスタンス辞書
の作成方法において、前記サブスタンスはタンパク質で
あることを特徴とするサブスタンス辞書の作成方法。
【0013】(3)テキスト文書からサブスタンスの名
称を表す複合語を抽出する方法において、前記テキスト
文書をトークン化し、予め定めた造語規則に合致する前
記サブスタンスに特有の造語(メインキーワード)及び
前記サブスタンスの機能や特徴を表すものとして予め定
めた単語リストに登録されている単語(ファンクション
キーワード)を抽出するステップと、抽出されたメイン
キーワードを含む前記テキスト文書の文章中において、
予め定めた規則に従って、前記メインキーワードにその
前後に位置する1又は複数の記号、語句、他のメインキ
ーワード又はファンクションキーワードを連結して当該
メインキーワードを拡張するステップと、前記テキスト
文書の文章中において、抽出されたメインキーワード、
ファンクションキーワード及び/又は前記拡張されたメ
インキーワードを予め定めたパターンに従って連結して
名詞句を得るステップと、を含むことを特徴とする方
法。
【0014】こうして得られた名詞句は必ずしもサブス
タンスの名称であるとは限らない。エラーを含む名詞句
を、予め定めたエラー修正規則に従って自動的に修正可
能なものは修正し、自動修正が困難なものはGUI(Graphi
cal User Interface)に表示し、サブスタンスの名称で
あるかどうか専門家の判断を仰ぐ。この方法で文書から
抽出されたサブスタンスの名称は、前記したサブスタン
ス辞書に登録して利用する。
【0015】(4)前記(3)記載の方法において、前
記サブスタンスはタンパク質であることを特徴とする方
法。
【0016】(5)テキスト文書中からサブスタンス間
の二項関係を抽出する方法において、サブスタンスを表
す名詞を登録した辞書を用意するステップと、サブスタ
ンス間の二項関係を表す動詞を登録するステップと、前
記動詞と2つの名詞を含む文型を手動又は自動で収集し
オートマトンとして用意するステップと、データベース
からテキスト文書を取得するステップと、取得した文書
中の文を、2つの名詞が前記辞書に登録されているとい
う条件のもとに前記オートマトンにより処理するステッ
プと、オートマトンに前記文が受理されたとき、2つの
サブスタンスを表す名詞と前記サブスタンス間の二項関
係を表す動詞を出力するステップと、を含むことを特徴
とする方法。
【0017】(6)テキスト文書中の記述をもとに2つ
のサブスタンス間に存在する二項関係を予測する方法に
おいて、データベースから対象となる文書集合を取得す
るステップと、前記文書集合中の各文書を、文書中にお
ける各サブスタンスの出現頻度と当該サブスタンスの前
記文書集合中での特徴度を表す指標とを用いて、各サブ
スタンスにとっての相対的重要度を表す重みベクトルに
変換するステップと、2つのサブスタンスに対して、当
該2つのサブスタンスに対する各文書の重みベクトル成
分と、各文書中での前記2つのサブスタンスの出現位置
の関係とから、前記2つのサブスタンスのペアとしての
重要度を表す指標を求め、それを前記文書集合の全文書
にわたって加算して前記2つのサブスタンス間に存在す
る相互関係の予測指標を求めるステップと、予め定めた
閾値より大きい前記相互関係の予測指標を有する2つの
サブスタンスに対して、当該2つのサブスタンスがペア
として出現している文書中の部分を表示するステップ
と、を含むことを特徴とする方法。
【0018】(7)データベースの文書集合から抽出し
たサブスタンス間の二項関係を表示する方法において、
表示する二項関係の種類を設定するステップと、前記設
定された二項関係の種類に合致する二項関係を、サブス
タンスをノードとしサブスタンス間の二項関係を前記ノ
ード間を結ぶエッジとして表示するステップと、含むこ
とと特徴とするサブスタンス間の二項関係の表示方法。
【0019】(8)データベースの文書集合から抽出し
たサブスタンス間の二項関係を表示する方法において、
表示する二項関係の強度に関する条件を設定するステッ
プと、2つのサブスタンス間の二項関係の出現頻度ある
いは前記文書集合における2つのサブスタンス間の二項
関係の特異度に基づいて算出される前記二項関係の強度
が前記設定された条件を満たす2つのサブスタンス間の
二項関係を、サブスタンスをノードとしサブスタンス間
の二項関係を前記ノード間を結ぶエッジとして表示する
ステップと、を含むことと特徴とするサブスタンス間の
二項関係の表示方法。
【0020】(9)前記(7)又は(8)記載のサブス
タンス間の二項関係表示方法において、サブスタンスの
種類に応じて前記ノードの表示を異ならせ、及び/又は
二項関係の種類に応じて前記エッジの表示を異ならせる
ことを特徴とするサブスタンス間の二項関係表示方法。
【0021】(10)前記(7)〜(9)のいずれか1
項記載のサブスタンス間の二項関係表示方法において、
表示されているエッジの一つを選択するステップと、前
記選択されたエッジのエッジ情報をオンラインでテキス
ト検索するステップと、検索結果として、選択されたエ
ッジが結ぶ2つのサブスタンス間の二項関係を示す文書
を一覧表示するステップと、を更に含むことを特徴とす
るサブスタンス間の二項関係表示方法。
【0022】(11)前記(7)〜(9)のいずれか1
項記載のサブスタンス間の二項関係表示方法において、
表示されているエッジの一つを選択するステップと、前
記選択されたエッジのエッジ情報をオンラインでセンテ
ンス検索するステップと、検索結果として、選択された
エッジが結ぶ2つのサブスタンス間の二項関係を示す文
書中の文章を一覧表示するステップと、を更に含むこと
を特徴とするサブスタンス間の二項関係表示方法。
【0023】(12)前記(7)〜(11)のいずれか
1項記載のサブスタンス間の二項関係表示方法におい
て、前記サブスタンスはタンパク質であることを特徴と
するサブスタンス間の二項関係表示方法。
【0024】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。ここでは、サブスタンス名抽出の
対象としてタンパク質を例に挙げて説明するが、本発明
の手法は遺伝子や低分子等の他のサブスタンス名抽出に
も適用可能である。
【0025】1 サブスタンス名抽出 本発明によるタンパク質名の辞書作成、及び作成した辞
書を用いたサブスタンス名抽出の流れを図1に示す。
【0026】本発明では、任意の論文等からタンパク質
名の抽出をするために、タンパク質名を登録した辞書を
利用する。辞書へのタンパク質名の登録方法には、専門
家がタンパク質名を直接入力する方法と、公共のデータ
ベースからタンパク質名を自動的に取得して登録する方
法の2種類がある。
【0027】しかし、辞書を用いたタンパク質名の抽出
方法だけでは、論文の著者によってタンパク質の表現が
違うシノニム(一般的に遺伝子やタンパク質や低分子等
のサブスタンスは、ひとつのサブスタンスでも様々な呼
び方をすることが多い。シノニムとは、ひとつのサブス
タンスの様々な呼び方を示す同義語である。どのような
シノニムが存在するかは、1.1に詳述している。論文等
では、著者によってサブスタンスの呼び方が違う即ちど
のシノニムを使うかが違うので、論文等からのサブスタ
ンス名抽出を困難にしている。)や、新たに発見された
タンパク質名や、辞書に登録されていないタンパク質名
を抽出することができない。そこで、辞書に登録されて
いないタンパク質を抽出するためにタンパク質名の予測
も行う。
【0028】専門家によるタンパク質名の辞書作成に関
しては、ただ闇雲にタンパク質名を登録していっても効
率がよくない。効率的に辞書を作成するためには、以下
に示すタンパク質名の特徴を考慮する(図1の処理10
1)必要がある。尚、この特徴はタンパク質名の予測に
際しても応用できる。
【0029】以上のように、サブスタンス名抽出では、
まず抽出するサブスタンスの種類に関する特徴を調べ
る。次に、その特徴に注意して、専門家の手入力によ
る、あるいはデータベースからの自動取得による辞書作
成を行う。そして、作成した辞書を用いて文書からサブ
スタンス名を抽出するわけであるが、抽出しきれないサ
ブスタンス名に関しては、その特徴から予測アルゴリズ
ムを作成して予測による抽出を行う。
【0030】1.1 タンパク質名の特徴 まず、タンパク質名の主要な特徴として、次の3つが挙
げられる。 (1)複数の大文字、数字、アルファベットではない文字
から構成される単語 (例)Nef, p53, Akt, Vav, Rap1 (2)複数の大文字、数字、アルファベットではない文字
を伴う複合語 (例)mitogen-activated protein kinase (MAPK), int
erleukin 2 (IL-2)-responsive kinase (3)小文字だけで構成される単語 (例)actin, pepsin, insulin
【0031】上記(1)と(2)に関しては、タンパク質特有
の特徴があるので比較的予測もしやすい。しかし、(3)
は小文字だけで構成される単語なので、予測では絞り切
れない。(3)のようなタンパク質名は、末尾が-in, -az
e, -ol, -some, -polymer, -dimer, -trimer等になりや
すいということが言えるが、この定義だとタンパク質以
外の単語を拾う場合もありうる。また、例に挙げた酵素
名等はタンパク質の命名法には従っておらず、伝統的に
呼ばれてきた名前であり、このような単語は数もそれ程
多くなく今後増えることもあまりないと考えられる。よ
って、このような予測をしにくいタンパク質名は、優先
的に専門家に辞書に登録してもらい、予測は行わず辞書
だけで抽出を行う。
【0032】更に、タンパク質名には多くのシノニムが
存在し、論文の著者によって表現方法は様々である。以
下にそのバリエーションを示す。 (1)省略形、大文字小文字の変更 (例)epidermal growth factor receptor | EGF recep
tor | EGFR poly(ADP-ribose) polymerase | poly(ADP-Ribose) pol
ymerase | PARP c-Fos | c-fos | c fos (2)名前が役割を示すもの(同じ機能を説明するだけで
様々な表現方法をとる場合がある) (例)the Ras guanine nucleotide exhange factor So
s the Ras guanine nucleotide releasing protein Sos the Ras exchanger Sos the GDP-GTP exchange factor Sos Sos(mSos), a GDP/GTP exchange protein for Ras (3)前置詞、接続詞を含むもの(修飾関係がより複雑に
なる) (例)p85 alpha subunit of PI 3-kinase poly(C) and poly(U) homopolymer SH2 and SH3 domains of Src
【0033】このようにタンパク質名のバリエーション
は幅広いが、タンパク質名には大抵重要なキーワードが
現れる。例えば、"c-Jun NH2-termninal kinase (JNK)
andp38"のうちの"c-Jun"と"NH2"と"p38"等である。本明
細書では、これらタンパク質名の略字等の重要なキーワ
ードをタンパク質名のメインキーワードと呼ぶ。また、
機能や特徴を総称するキーワードが複合語に含まれてい
ることがある。例えば、"IL-4 receptor"のうちの"rece
ptor"や"CREB binding protein"のうちの"protein"等で
ある。本明細書では、これらをタンパク質名のファンク
ションキーワードと呼ぶ。後述する予測のアルゴリズム
では、これらのキーワードに注目して、今後新しく追加
されるものも含めてタンパク質名の候補を見つけること
をより簡単にしている。
【0034】1.2 タンパク質名の半自動的な辞書構築 上記のようなタンパク質名の特徴を考慮すると、専門家
による効率的な辞書作成としては、まずメインキーワー
ドを登録する。次に、予測がほぼ不可能である小文字の
みから構成される単語のタンパク質の辞書を作成する。
【0035】また、辞書作成のもう一つの方法として、
公共のデータベースから自動的にタンパク質名を取得し
てタンパク質名を登録する(図1の処理102)。データ
ベースでは補えないタンパク質やシノニムは専門家に登
録してもらう。
【0036】以下の方法により、3つのデータベースす
なわちSWISSPROT、PIR、CSNDBからタンパク質名、シノ
ニム、クロスリファレンス情報(データベース間で相互
に関連するエントリを示す情報)を抽出し、それらの関
係よりタンパク質名の辞書を作成する。 (1) 各データベースについて、タンパク質の名称(各デ
ータベースでのofficialname)とそのシノニムの関係か
らグループを作成する。 (2) 全データベース間で同一名称を検索し、それらのグ
ループを結合する。 (3) クロスリファレンス情報から同一タンパク質を特定
し、それらのグループを結合する。
【0037】以下に、それぞれのデータベースにおける
抽出の方法を詳しく述べる。 SWISSPROT データベース内の記載形式は、次の通りである。 DE Official-name (Synonym1) (Synonym2) …. まず、データベース中の各レコードのDE(Description)
フィールドから公式名称(official-name)とシノニム
をタンパク質名として取り出す。
【0038】次に、SWISSPROTには、タンパク質の名称
がすべて大文字で記載されているため、他のデータベー
スの単語と照合して小文字への変換を行う。他のデータ
ベースに存在しない単語に関しては、勝手に小文字に変
換すると単語と略語の区別がつかない場合があるので変
換は行わず、変換候補として出力し、専門家の判断によ
り辞書に登録するべきかどうかを決定する。
【0039】また、SWISSPROTでの名称の表記では、"ES
TROGEN RECEPTOR ER"のような"名称省略語"といった名
称を分割すべき表現があるので、それを考慮して辞書に
登録する。具体的には、5文字以下の名称を省略語と見
なし、その前後に省略語の各文字を頭文字に持つ単語が
連続して存在しないかを検索して、もしあれば省略語と
して登録する。
【0040】PIR データベース内の記載形式は、次の通りである。 TITLE Official name ALTER_NAME Synonym1; Synonym2 … Synonym(n) 従って、各レコードのTITLEフィールドから公式名称(O
fficial name)を、ALTER_NAMEフィールドからシノニム
をタンパク質名として取り出す。
【0041】CSNDB(Cell Signaling Networks Datab
ase) データベース内の記載形式は、次の通りである。 Signal_Molecule : Official name Other_Name : Synonym1 Other_Name : Synonym2 Type : Types
【0042】CSNDBのエントリはタンパク質ではない場
合もあるので、レコード中のTypeフィールドを用いてTy
peがCytokine, Enzyme, Transcription_Factor, Recept
or,Effector, Ion_Channelのいずれかであった場合に、
エントリ名(Signal_Molecule)とシノニム(Other_Nam
e)をタンパク質名として取り出す。
【0043】ところで、SWISSPROTのフィールドには、
クロスリファレンス情報を示す次のような項目が存在す
る。 DR PIR; B26342; B26342. これは、対象としているたんぱく質に関連する情報がPI
RのB26342にあるということを示している。このような
リファレンス情報が各データベース間でクロスリンクさ
れている。たんぱく質を特定するとき、これらのクロス
リファレンス情報を参照し、例えば3つのデータベース
に同一名称のタンパク質のシノニムとしてそれぞれ異な
るシノニムが登録されている場合に、参照されたタンパ
ク質の名称と各データベースに登録されているシノニム
を一つのレコードに結合して辞書に自動的に登録する。
また、クロスリファレンス情報により、サブスタンスの
立体構造、配列情報、機能情報、遺伝子の配列情報等を
取得することができ、将来の辞書やデータベース検索の
拡張の際にもクロスリファレンス情報を活用して、より
正確な辞書を自動的に構築することが可能となる。
【0044】辞書には、公式名称(official name)と
そのシノニムという形でサブスタンス名が記録される。
しかし、公共のデータベースから自動構築されたタンパ
ク質名の辞書には、登録情報に間違いがある可能性があ
るので、それを専門家がチェックし、間違いが存在すれ
ば修正して辞書を更新する。
【0045】以下に、上記の手順によって得られる辞書
の一部を示す。 --PROTEIN NAMES-- #Protein name ESTROGEN RECEPTOR #Synonyms<SPROT> ER (Alternate names<PIR>) ESTRADIOL RECEPTOR R-ALPHA #Gene type<SPROT> ESR1 NR3A1 ESR #Organism<PIR><SPROT> Homo sapiens(Human) TaxID:
9606 #EC Number<PIR><PDB> None #Keywords<SPROT><PIR> Receptor; Transcription re
gulation; DNA-binding...
【0046】1.3 辞書を用いたタンパク質名抽出 辞書に登録されたタンパク質名を基に、文献等からタン
パク質名を抽出する(図1の処理103)。対象とする文
献から、辞書に登録された公式名称(officialname)あ
るいはそのシノニム(synonym)に完全に一致する語を
抽出し、その結果を表形式で出力する。
【0047】図2に、出力表示の一例を示す。図2は、
サブスタンス名の抽出とサブスタンス間の関係(二項関
係)の抽出を行った結果を示しており、文献中に出てき
た回数(201)、2つのタンパク質名とその公式名称(2
02、204)、その2つのタンパク質の二項関係を示すキ
ーワード(203)、文献番号(205)等を表示している。
【0048】1.4 予測によるタンパク質名抽出 次に、タンパク質名を予測して文書から抽出するアルゴ
リズム(図1の処理104)を説明する。
【0049】本発明では、以下のものを"target"として
抽出する。 ・タンパク質名(kinase, receptor, ligand, enzyme,
compoundを含む) ・タンパク質の domain name, motif, site, fragment,
element など 以下の3つの段階において、タンパク質名が抽出され
る。 [1]トークン化(下記参照)されたテキストからメイン
キーワードとファンクションキーワードを抽出(1.4.1
参照) [2]メインキーワードとファンクションキーワードの連
結(1.4.2参照) (a)接続詞と前置詞がないメインキーワードの名詞句を
構築 (b)修飾関係を構築 (c)必要のない注釈を消去 [3]予測エラーの修正(1.4.3参照)
【0050】ここで、トークンとは最小の意味単位を構
成する文字列であり、文章をトークン単位で切り出すこ
とをトークン化という。また、[3]で修正できないエラ
ーはエラー候補として出力し、専門家はそれをGUI(Gra
phical User Interface)で表示されたものを見ること
ができる。更に、専門家は表示されたエラー候補を任意
に選択し、公式名称(official name)とシノニム(syn
onym)を指定して辞書に登録することができる。
【0051】以下に、予測によるサブスタンス名抽出の
各段階の処理について詳述する。1.4.1 メインキーワード・ファンクションキーワードの
抽出方法 予測の第一段階として、トークン化されたテキストから
メインキーワードとファンクションキーワードを抽出す
る。メインキーワードに関しては、以下に示すアルゴリ
ズムによって抽出を行う。ファンクションキーワードに
関しては、その数がそれほど多くないことから、ファン
クションキーワードのリストを作成しておいて、そのリ
ストに合致する語を抽出する。この段階での抽出は単語
レベルで行うが、1.4.2における連結のために、抽出結
果は文章とする。
【0052】・メインキーワードの抽出アルゴリズム (1)大文字、数字、特殊文字(特に"-")を含む語をすべ
てメインキーワード候補として抽出する。 (2)参考文献表記パターンに合致する文章にある抽出語
はメインキーワード候補から除外する。これは、参考文
献の表記にはタイトルや人名等、大文字を多く含むと考
えられるためである。参考文献の表記パターンは予め作
成しておく。 (3) "-"の前後が小文字である単語はメインキーワード
候補から除外する。これは、"-"の前後が小文字のみの
場合は大抵一般的な語であり、タンパク質名は大文字や
数字が混在していることが多いことによる。 (4)明らかに一般的な語(略語や単位等)と判断される
語はメインキーワード候補から除外する。これらの語
は、予め作成するリストに登録しておき、リストと合致
した場合に除外を行う。例として、"Mr."、"UV"、"Mbp
s"等が挙げられる。 以上の方法によって、メインキーワードとファンクショ
ンキーワードが抽出できたので、次に抽出語が含まれる
文章を対象にkeywordの連結を行う。
【0053】1.4.2 メインキーワードとファンクション
キーワードの連結 連結を行うために、1.4.1で抽出されたメインキーワー
ドを含む文章において、メインキーワードに注釈を付け
る。注釈は、修飾関係が考慮され、隣接する語や他の注
釈が付いた連結語に拡張される。これによって接続詞や
前置詞がない名詞句が作られる。以下の方法では、まず
メインキーワード同士を結び付けメインキーワード群を
構築し、更に修飾関係を考慮しながら、メインキーワー
ド群同士に注釈を拡張していく。注釈は、[ ]で示され
る。
【0054】・メインキーワード群の構築 (1)表面上の手がかりだけで構築する方法 (a)隣接するメインキーワードとファンクションキーワ
ードを単純に注釈付けする。 (例)[p38] MAP [kinase] → [p38 MAP kinase] (b)次のような括弧は注釈付けされる (例)([CD45]) → [(CD45)],([MMP-2] (and|or) [MMP
-9]) → [(MMP-2 (and|or) MMP-9)]
【0055】(2)品詞分析を行って構築する方法 (a)隣接していない注釈同士を、その間に名詞、形容
詞、あるいは数詞があるときに結合する (例)[Ras] guanine nucleotide exchange [factor So
s]→ [Ras guanine nucleotide exchange factor Sos] (b)限定詞、前置詞があるときは左に注釈を拡張する (例)the growth hormone secretagogue [receptor]
([GHS-R])→ the [growth hormone secretagogue recep
tor (GHS-R)] (c)ギリシャ文字やその文字を表す単語があるときは右
に注釈を拡張する (例)[p53] alpha → [p53 alpha], [INF] gamma →
[INF gamma]
【0056】・修飾関係の構築 次のパターンで、注釈が付いているサブスタンス名の修
飾関係を構築する。各パターンにあるメインキーワード
とファンクションキーワードは、前述した本明細書での
用語である。また、A,B,C,D,Eは、既に注釈が付いてい
る抽出語とする。 (1)[A], [B], […], [C] and [D] [function keyword]
→ [A, B, …, C and Dfunction keyword] (2)[A, B, …, C] and [D] of [E] → [A, B, …, C an
d D of E] (3)[A] of [B], [C] and [D] → [A of B, C and D] (4)[A function keyword main keyword] and [main key
word] → [A function keyword main keyword and main
keyword] (5)[A] of [B] → [A of B] (6)[A], [B] → [A, B]
【0057】・必要のない注釈を消去 更に2つのルールを適用して、間違った注釈を直す。第1
のルールは、注釈付けされたファンクションキーワード
が拡張されずに単独のままのときに適用される。これ
は、ファンクションキーワードがとてもありふれた単語
になってしまうことによる。第2のルールは、連結語の
拡張により得られた句の最後の単語が名詞ではない場合
に適用される。これは、メインキーワードが常に名詞と
は限らないことによる。例えば、"Jun-related"の場合
等である。このように正規表現を用いたパターンマッチ
ングによる2つのルールで、注釈は除去されたりシフト
されたりする。
【0058】1.4.3 予測エラーの修正 1.4.1、1.4.2の方法により、targetのほとんどにメイン
キーワードかファンクションキーワードが含まれてい
る。しかし、抽出したtargetの中には、タンパク質名で
なかったり、修飾関係がうまく抽出されずに注釈が付け
られたものも存在する可能性がある。以下では、このよ
うな予測エラーに対する修正方法を述べる。修正が困難
なエラーに関してはエラー候補として出力し、後にGUI
(GraphicalUser Interface)でそれがタンパク質名で
あるかどうかを専門家に判断してもらい、タンパク質名
であればそのままGUIで辞書に登録してもらう(図1の
処理105)。予測エラーを候補として出力し、それがタ
ンパク質名であれば辞書に登録することにより、今後そ
のようなタンパク質名が予測エラー候補として出力され
ることはなくなる。
【0059】図3に、エラー候補をタンパク質名として
辞書に登録する例を示す。図3では、エラー候補が表形
式でリストアップされ、専門家がそのうちの一つのエラ
ー候補を選択してそれを辞書に登録する様子を示してい
る。一つのエラー候補301を選択すると、辞書に登録す
る情報を入力するダイアログ302が表示され、公式名称
を入力ボックス303に、シノニムを入力ボックス304に入
力し、更新ボタン305を押すことにより新たなタンパク
質名を辞書に登録することができる。
【0060】また、1.4.1、1.4.2において抽出されない
タンパク質名は、"insulin","adenylyl cyclase","peps
in" 等であるが、これらに関しては1.1で述べたよう
に、それ程数が多くなく今後追加されることも少ないこ
とを考慮して、予測は行わず辞書のみを用いて抽出を行
う。
【0061】以下に間違って抽出される語句を挙げ、更
にそれぞれのエラーに対する修正方法を示す。 (1)適切でない注釈 (a)タンパク質名ではない (例)TCP("Transmission Control Protocol"の省略
形) このようなエラーは、大文字からなる単語がタンパク質
の省略形であると判断してしまうことによる。省略語の
場合は、文献の冒頭にフルネームが書かれていることが
多いので、この省略語より前に見つかった連結語にフル
ネームがないかを検索する。フルネームが存在した場合
には、この省略形をタンパク質名とする。存在しない場
合には、エラー候補として出力し、後に専門家に判断を
してもらい、タンパク質名であれば辞書にその名前を登
録する。 (b)本手法でtargetから除外していないサブスタンス名 (例) PC6 cell, filamentous bacteriophage fuse4 このような名前は細胞名やウィルス名に多いので、周辺
にそれを示す語句がないかを検索して除外する((例)
… in PC6 cell のうちのinとcell)。
【0062】(2)連結と拡張におけるエラー (a)不完全な拡張 (例)interleukin [4 (IL-4)-responsive kinase](※
interleukin まで注釈を付ける必要がある) この場合には、とりあえずタンパク質名を表すキーワー
ドは含まれているのでタンパク質名として抽出する。後
に専門家に判断してもらい、前後にある注釈が付けられ
なかった単語を辞書に登録する。 (b)冗長な拡張 (例)the [same proline-rich region of FAK (APPKPS
R)](※same は一般的な語で注釈に含めてはいけない) 予め一般的にサブスタンス名を形容するような語はリス
トに登録しておき、拡張する対象から除外する。
【0063】2 テキスト文書データベースからの二項関
係の抽出と強度の数値化 次に、公共データベースに蓄えられた自然言語で書かれ
た文献を基にサブスタンス間の二項関係を探し出し、ユ
ーザが求める関係を発見するための絞込みを行いやすい
ように、それらに対して何らかの基準に基づいて強度を
与える手法について説明する。
【0064】図4に、処理の全体像を示す。まず、語の
出現パターンによる二項関係の抽出(処理401)を行
い、抽出し切れなかった関係を、文書の重みベクトル化
を用いた新規二項関係の推定(処理402)によって探
す。抽出した二項関係に対しては二項関係の強度の数値
化(処理403)を行い、その数値は処理404において提示
され、ユーザは提示された数値を用いて二項関係を更に
絞り込む。
【0065】2.1二項関係の抽出 二項関係の抽出法には、関係を表す語の文型に基づくオ
ートマトンを用いる。しかし、人間の書く文章の構造は
そのような単純なパターン化が可能なものばかりとは限
らず、そのようなやり方では抽出しきれない二項関係が
多くあると考えられる。そこで更に二項関係の有無を推
定する別の手法を併せて用いる。
【0066】2.1.1 語の出現パターンによる二項関係の
抽出 (1) Relational Verb 語の出現パターンによる関係抽出では、二項関係を示す
のに良く使われる語を見つける事が最初のステップとな
る。本発明においてはこれらの語をrelation verbと呼
ぶこととする。下記の表1は、蛋白質や遺伝子の間の相
互作用を表す動詞の例である。公共データベースの文書
を人間、あるいはコンピュータによって解析する事によ
ってこのようなrelational verbを集める。あるいは、
二項関係の抽出を必要とする分野の専門家からもこのよ
うな語の知識を得る事が出来る。
【0067】
【表1】
【0068】更にユーザは、これらの語に関するオント
ロジーの階層構造中で重要度をマッピングする事が出来
る。ここでマッピングされた重要度は後で二項関係に強
度を与えるときに利用され、ユーザが重要と考える二項
関係を見つけるのに役立つ。
【0069】(2) Relation Template Automaton どのようなrelational verbが関係を表すのかが分かっ
たなら、次は単純な語ではなく、それらを中心とした文
型を調べる。例えば“(サブスタンス名1)activates
(サブスタンス名2)”、“(サブスタンス名1) inter
acts with (サブスタンス名2)”のようなパターンを調
べ上げるのである。こうしたパターンとしては、受身
形、進行形といった変形や、“interaction of (サブス
タンス名1) with (サブスタンス名2)”のような動詞が
名詞化したものと前置詞との組み合わせによる文型も考
えられる。こうした文型を全てオートマトンとしてシス
テムに用意する。このようなオートマトンを本明細書で
はrelation template automatonと呼ぶ。このような文
型の収集は当然専門家によって行なわれるが、最近の大
規模なデータベースからの関係抽出を考えた場合自動化
することが望ましい。そこで本手法では、HTML文書から
の情報の自動抽出を試みたbrinのDIPRE (DualIterative
Pattern Expansion)アルゴリズムを応用する事で文型
の自動収集を行なう。
【0070】DIPREアルゴリズム DIPREアルゴリズムはHTML文書から、何らかの意味のあ
る単語の組(例えば(著者、作品名)、(大学、所在
地)など)を抽出する事を目的とする。簡単に説明する
ならば、このアルゴリズムは次の二つの操作の繰り返し
である。 1.与えられた単語の組を元に、それらの単語間の関係
を記述した文を文書から抽出する。二つの単語をある程
度近くに含む文を抽出する事でこれを行なう。 2.与えられた単語間の関係を記述した文を元に、単語
の組を抽出する。与えられた文と同じ形の文を文書中か
ら探し出す事でこれを行なう。
【0071】このアルゴリズムを分子生物学に関するテ
キスト文書に応用し、文型を自動収集する。例えば遺伝
子間の相互作用が関係抽出の目的であるとすれば、(遺
伝子名、遺伝子名)という組と(遺伝子名) be locate
d with(遺伝子名)、(遺伝子名)assembles(遺伝子
名)、〜combine(遺伝子名)and(遺伝子名)のような
相互作用を記述した文の抽出を交互に行なうこととな
る。
【0072】(3) 関係の抽出 関係抽出の対象文書中の各文がrelation template auto
matonに受理されるかどうかでサブスタンス間の関係を
調べる事が出来る。
【0073】図6に遺伝子間の関係についての動詞"act
ivate"に関するrelational template automatonの一例
を示す。601に示すように初期状態は円の左上に矢印を
付けて表す。初期状態S0で遺伝子名を受け取ると次の
状態S1に移る。S0の上のループが表すように遺伝子名
が現れるまでは初期状態のままであるが、ピリオドがき
たら文章は終わりであるのでエラーとなり、文章が受理
されなかったことを表す602のエラー状態S5に移り処理
が終わる。同様に処理が進み603の受理状態S4に達した
とき、文章が遺伝子間の関係を表すと判断できる。
【0074】一例として図7に、"Estrogen receptor a
lpha rapidly activates the IGF-1receptor pathway."
という一文が、relational template automatonによっ
て受理される様子を示す。ただし、エラー状態は省略し
てある。701では初期状態S0から"Estrogen receptor a
lpha"という遺伝子名を受け取り、状態S1に状態遷移し
ている。702に示すように、"rapidly"が副詞であるので
状態は変わらない。次の703では"activates"というrela
tion verbによって状態S2に遷移する。次はtheが処理
されるが、この様子は図には示していない。しかしこれ
は限定詞であるので、図6を見ると分かるように、状態
はS2のままである。704で"IGF-1 receptor"という二つ
目の遺伝子名により、状態は受理状態となり、遺伝子間
の関係が発見できたこととなる。
【0075】2.1.2 文書の重みベクトル化を用いた新規
二項関係の推定 図5を使って概要を説明する。まず関係抽出と数値化の
対象となる文書集合を、MEDLINE等の公共データベース
から取得する。また、関係を抽出したいサブスタンス名
の辞書を作成しておく。次にデータベースから得られた
テキスト形式の文書をtf.idf法によって重みベクトルに
変換する(処理501)。ベクトルの各要素は辞書中のサ
ブスタンス名に対応しており、その出現頻度や文書集合
全体にわたる分布から、サブスタンスの文書集合中での
重要度が求められる。続いてこの表現を利用して、二つ
のサブスタンス間に何らかの関係が存在しているかどう
かを予想する(処理502,503)。以上が文書の重みベク
トル化を用いた関係抽出とその数値化の概略である。処
理501についての詳細を下記(1)で、処理502、503につい
ては下記(2)で説明する。
【0076】(1) 文書の重みベクトルへの変換 本手法では、まずtf.idf法に基づき、テキスト文書diを
以下のような重みベクトルWi(t)に変換する。tf.idf法
とは次のようなものである。
【0077】tf.idf法 tf.idf法は、検索語があるテキスト中にどれだけ多く出
現しているかという指標(TF)と、その検索語がデータ
ベース内でどのくらい特徴的かという指標(IDF)の二
つを使用して、検索語に対するテキストの重要度を計算
する手法である。検索後の重要度W(d,t)は次式のように
なる。 W(d,t)=TF(d,t)×IDF(t) TF(d,t):文書dにおける検索語tの出現頻度 IDF(t):log(DB(db)/f(t,db)) DB(db):あるデータベースdbの全テキスト数 f(t,db):データベースdbに格納されたテキストのうち
検索語tを含むものの数
【0078】これに基づいてWi(t)を次の式より求め
る。 Wi(t)=Ti(t)×log(N/f(t,T)) Ti(t):テキストdi中におけるタンパク質名又は遺伝子
名tの出現回数 N:文書集合の文書総数 f(t,T):文書集合Tの中でtを含む文書の数 辞書に登録された全てのサブスタンス名についてこれを
並べたものが、重みベクトルWi(t)である。
【0079】tf.idf法を用いた事によって、単純な出現
頻度による重み付けと異なり、サブスタンスの相対的な
重要度を重み付けに盛り込む事ができる。di中でtが頻
繁に現れれば重みは大きくなる。しかし、多くの文書で
使われているほどtは一般的であると考えられ、相対的
重要度が下がり、重みは逆に小さくなる。
【0080】この重みベクトルを求めるとき、同時にサ
ブスタンス名が発見できた場所に関する情報も記録して
おき、二つのサブスタンス名の現れた文書中の位置関係
を、次の(2)でサブスタンス間の関係を予測するのに利
用する。ここでは、サブスタンス名の現れた文書の章、
節、パラグラフを表すのにそれぞれ二桁、何行目かを表
すのに三桁を与えるものとして位置を数字で表す。例え
ば020104031は2章1節の第4パラグラフの31行目にサブス
タンス名が発見できた事を表す。文書ごとにそこに現れ
るサブスタンス名tに対してその発見場所を表す数値を
リストとして保存する。
【0081】(2) 相互関係の存在予測 文書を重みベクトルに変換したなら、次はそれを基にし
て二つのサブスタンスt1,t2の間に関係があるのかどう
かを予測する指標として、EX(t1,t2)を導入する。
【0082】
【数1】
【0083】Wi(t)が一つのサブスタンスの重要度を示
していたのに対し、PR(t1,t2,i)は、一文書中での、t1,
t2のペアとしての重要度と考えられる。PR(t1,t2,i)の
分母は文書di中の全てのt1,t2の出現位置の組のうち、
最も位置が近いものの間の近さを表す。分子が999であ
るので分母が1000以上のとき、つまりt1,t2が同一のパ
ラグラフにない状態の時にはPR(t1,t2,i)は小さくな
る。逆に同一パラグラフ内でより近い位置にあるほどPR
(t1,t2,i)は大きくなる。全ての文書にわたりこの値を
足し合わせる事により、t1,t2の間に関係が存在するか
どうかを判断する指標とする。ユーザはこの値に対して
基準となる閾値を定めて、関係の有無をコンピュータに
判断させる事ができる。その結果、存在が強く疑われる
関係については、位置情報を用いて記述のあると思われ
る部分をユーザに提示する。
【0084】2.2 関係強度の数値化とその利用 発見された二項関係に対して、更にいくつかの基準に基
づいて、その“強度”を求める。このような強度を利用
して、ユーザは二項関係を絞り込むことができる。
【0085】2.2.1 関係強度の数値化 (a)解析により関係が発見できた文の数をカウントし、
それを関係の強度を示す指標GGR(t1,t2,r)とする。ここ
でt1,t2は二つのサブスタンス名を、rはある関係を表
す。
【0086】
【数2】 pk=1 ある一文k中に関係rが発見できたとき pk=0 ある一文k中に関係rが発見されなかったとき R(r): relational verbオントロジーの階層構造中でr
にマッピングされた重要度 (b)一文書中での記述が多いほど、また記述のある文書
が多いほど関係が強いと考えて、強度を表す指標として
以下に定義するRTF(t1,t2,r)を導入する。
【0087】
【数3】 n:一文書中におけるサブスタンスt1,t2の間の関係rに
ついての記述の数 TT(t1,t2,r,n):サブスタンスt1,t2の間の関係rについ
ての記述をn個含む文書の数 R(r):(a)で説明した値 (c)tf.idf法を利用した指標RF(t1,t2,r) RF(t1,t2,r) = GGR(t1,t2,r)×IDF(t1,t2,r) GGR(t1,t2,r):(a)で説明した指標 IDF(t1,t2,r):log(DB(db)/f(t1,t2,r,db)) DB(db):あるデータベースdbの全テキスト数 f(t1,t2,r,db):データベースdbに格納されたテキスト
のうちt1,t2の関係rに関する記述を含むものの数
【0088】2.2.2 関係強度の利用 二項関係を表示するビューワについては、3 二項関係の
可視化で詳しく説明するが、ここでは求めた関係の強度
がどのように利用されるのか、図12を用いて簡単に説
明する。
【0089】図12の表示において、白丸あるいは黒丸
で示すノードが何らかのサブスタンスを示し、それらの
ノードを結ぶ線(エッジ)がそれらの間の関係を示して
いる。一番下にあるEdge Slider Panelと呼ばれるイン
ターフェイスによって、表示する二項関係を様々に変化
させることができる。Interactionと書かれた部分で
は、知りたい二項関係に対応したチェックボックスのみ
チェックしておけば、その他の関係を示すエッジを非表
示にすることができる。
【0090】その下にあるスライダーバーはRF(t1,t2,
r)やGGR(t1,t2,r)などの関係の強度を表す値と対応して
おり、ユーザはスライダーバーでそれらの閾値を与える
ことができる。その閾値よりもスコアの高い関係あるい
は低い関係を表すエッジのみが表示される。このような
樹状グラフの形だけでなく、二つのサブスタンス名とre
lation verbの組やそれらが出ている文章などを表示さ
せる事が出来る。更に、元の文章そのものにリンクが張
られていて、それらを見ることも可能である。これらの
機能の詳細については以下に述べる。
【0091】3 二項関係の可視化 二項関係を読み込み、パスウェイをグラフィカルに表示
/編集する動的ビューアについて説明する。本発明で
は、例えば、図2のような二項関係を示すデータを読み
込み、ひとつひとつのデータから関係のあるサブスタン
ス同士を線で結び、各サブスタンスについて再帰的にこ
のようなアルゴリズムを適用していくことによって図8
のように可視化する動的ビューアを提供する。図8に示
すように、ビューアでは、ノード801,802のように、サ
ブスタンスのタイプによって色の区別がなされており、
サブスタンス間をエッジ(線分)803でつなぐ。
【0092】また、この動的ビューアは二項関係のリソ
ースを自由に変更することができ、変更に応じて可視化
された二項関係が動的に表示される。その様子を図9に
示す。図9の上段に示すように、表示すべき二項関係と
して、前述した方法によって抽出された二項関係902、
二項関係の情報を蓄積している公共のデータベースから
自動的に抽出した二項関係903、両方のリソースから抽
出した二項関係904のいずれかをリソース選択メニュー
において選択することができる。すなわち、ユーザが持
っている二項関係情報だけを表示したり、ユーザは持っ
ていないが公共のデータベースにはある情報だけを表示
したり、両方同時に表示したりできる。上段に示したビ
ューア901上では、リソース選択メニューで両方のリソ
ース904が選択され、両方のリソースから抽出した二項
関係が表示された状態を示しており、メニューで選択し
たリソースに応じて中段に示したビューア905(抽出さ
れた二項関係902を選んだ場合)あるいは下段に示した
ビューア906(公共のデータベース903を選んだ場合)の
ように動的に表示結果が変更される。この動的ビューア
はJavaで実装を行っており、アプレットとしても動作
し、ローカルでも動作する。
【0093】3.1 ビューアの機能概要 まず、本発明の動的ビューアの機能についての概要を説
明する。
【0094】3.1.1 レイアウトビュー ノード(二項関係の基本となるデータ)同士の二項関係
を様々な方法で可視化することができる。各レイアウト
ビューでは、サーバ側で新しい情報を発見したら動的に
レイアウトが変更されていく。レイアウトビュー(以下
ビューと呼ぶ)の例を以下に説明する。 (1)Simple 二項関係に従い、左から右へ枝分かれしていく系統樹を
作成する。 (2)List 左からリスト表示をする。このとき、基本となるノード
からの距離(深さ)が遠いほど右に配置される。 (3)Explorer エクスプローラ風に、フォルダとしてノードが表示され
る。子供の数により、自動的にソートされて表示され
る。ここで「子供」とは、ノードと二項関係にあり、直
接下の階層にあるノードのことをいう。また、ノードの
子供の子供、そのまた子供を総称して子孫と呼ぶことが
ある。「Simple」「List」ビューでノードをダブルクリ
ックすると全ての子孫を隠すが、表示するときは子供の
みを表示する。全ての子孫を表示にするためにはポップ
アップメニューで「Show Children」を選ぶ。 (4)Animate 二項関係を使ってアニメーションをするレイアウトであ
る。フォーカスがあるノードを固定し、ノード間の距離
を一定に保とうとする。
【0095】3.2 レイアウトビューの詳細 レイアウトビューでは、様々な方法で二項関係データを
可視化することができる。以下に、レイアウトビューに
ついての詳細を述べる。
【0096】3.2.1 Simple 二項関係に従い、左から右へ枝分かれしていく系統樹を
作成する。表示されたノードはマウスでドラッグして移
動することが可能である。ノードの移動に応じてエッジ
(ノード同士の二項関係)も移動する。「File」メニュ
ーの「Start」を選ぶと、もう一度レイアウトし直す。
図10に表示例を示す(符号1001のノードを中心とし、
扇状に広がっていく)。各ノードはタイプにより色分け
されて表示される。また、以下の操作が可能である。 (1)子供の表示/非表示切り替え ノードをダブルクリックすると、ノードと二項関係にあ
るノードのうち階層の深いノード(右側にあるノード)
の表示/非表示を切り替えることができる。 (2)ノード ノードを右クリックすると、図11に示すようにポップ
アップメニュー1101が表示される。ポップアップメニュ
ーからは以下の動作が利用できる。
【0097】Property ノードのプロパティを表示する。また、自分と直接親子
関係にあるノードのリストがドロップダウンリストとし
て表示され、リストからノードを選ぶと選んだノードの
プロパティが表示される。図11の下段にプロパティの
表示例1102を示す。図中のプロパティは、上から次のよ
うな意味を示している。 ・ノードの名前(図示の例の場合、"igf-I") ・TYPE ノードのタイプを示し、英語の頭文字3文字で
表す。例えば、Nucleotide(ヌクレオチド)であれば、
NUCと表す。 ・Pair Node List ノードと直接親子関係にあるノード
のリストを表す。 ・データベースに登録されている情報やノードの名前が
含まれる文献情報の一文を示す。
【0098】Remove ノードを削除する。ノードを削除すると、その子孫のノ
ードも一緒に削除される。Set Firstnode 現在選択しているノードをトップレベルノードにする。
このメニューを選択した後、FileメニューのStartを選
択すれば、選択しているノードをトップレベルノードと
する系統樹に再配置される。Hide Children 自分より階層が下にあるノードを全て非表示とする。こ
の動作はノードをダブルクリックしてもできる。
【0099】Show Children 自分より階層が下にあるノードを全て表示する。この動
作はノードをダブルクリックしてもできる。Look up Papers 現在のノード情報をオンラインで調べる(アプレット動
作時のみ)。Cancel メニューを閉じる。
【0100】(3)エッジ(ノード同士を結んでいる線) エッジを右クリックすると、図12に示すようにポップ
アップメニュー1201が表示される。ポップアップメニュ
ーからは以下の動作が利用できる。
【0101】Property エッジのプロパティを表示する。図12の中段に表示例
1202を示す。プロパティは上から、二項関係にあるノー
ドの名前のボタン(2つ)、相互作用を示すキーワー
ド、重要度を表し、ボタンを押すと各ノードのプロパテ
ィが表示される。OKボタンを押すとプロパティ画面を
閉じる。Remove 両端のノードとエッジを取り除く。
【0102】TEXT エッジ情報をオンラインでテキスト検索する。エッジ情
報とは、エッジが結ぶサブスタンスの関係を表すキーワ
ードやその重要度などを表し、そのテキスト検索とは、
エッジ情報のキーワードと同一のキーワードを持つ文献
を検索することを表している。検索結果として、エッジ
が結ぶサブスタンス間の二項関係を示す文献一覧を表示
する。
【0103】SENTENSE エッジ情報をオンラインでセンテンスにより検索する。
センテンス検索とは、エッジ情報のキーワードと同一の
キーワードを持つ文献中の文章を検索することを表す。
検索結果として、エッジが結ぶサブスタンス間の二項関
係を示す文献中の文章一覧を表示する。文中では、サブ
スタンス名やキーワードとなる動詞等はカラーで表示さ
れる。
【0104】エッジスライダーパネル 画面の何も無いところで右クリックすると、ポップアッ
プメニュー1201が表示される。そのポップアップメニュ
ー1201から、「Edge Slider Panel」を選ぶと、図12
の下段に示すようなエッジスライダーパネル1203が開
く。エッジスライダーパネル1203は、エッジの条件によ
って表示/非表示を切り替えることができるパネルであ
る。また、エッジのPropertyの項で述べたように、エッ
ジは相互作用を示すキーワード情報を持っており、その
キーワードの数に応じてエッジの本数が決まる。更に設
定によって、そのキーワード1302を画面上に表示するこ
とができる。例えば、図13のように、2つのキーワー
ド"BIND"と"INHIBIT"を持つエッジ1301は2本線で表現
される。また、BIND INHIBITの下にある数字(符号130
3)は、それぞれ実施の形態2.2.1で説明した関係の重要
度RF,GGRの数値である。
【0105】・相互作用のキーワードによる表示切り替
え エッジスライダーパネル内の上段のチェックボックス
で、チェックのついている相互作用のキーワードを持つ
エッジのみ表示する。図14において例を説明する。図
14の上段に示す系統樹レイアウト画面1401上でエッジ
スライダーパネル1402を起動する。このエッジスライダ
ーパネル1402のInteraction項にある相互作用を示すキ
ーワードの中から、BINDのチェックボックスのチェック
を外すと、レイアウト1403のようにBINDを持つエッジを
非表示にし、更に隣接するノードがなくなったノードも
表示されなくなる。
【0106】・ノードの子供の数による表示切り替え エッジスライダーパネル内の中段の Number of Childre
n スライダーにより、ノードが持つ子供の数に応じて表
示を切り替えることができる。例えば、スライダーの値
を5にした場合は、子供の数が5未満あるいは5以上の
ノードは全て非表示になる。このとき、関係がなくなり
孤立してしまったノードも非表示になる。大きさはmore
(以上)とless(未満)のいずれかを選択することがで
きる。
【0107】・重要度による表示切り替え パネル内の下段のスライダーにより、表示するエッジの
重要度を設定できる。発明の実施の形態2.2.1において
詳述したRF, GGR, RTFといった二項関係を重要度につい
て設定できる。重要度の最小値は0、最大値は5であ
る。数値が大きいほど重要度が高い。例えばスライダー
の値が3である場合、3未満あるいは3以上の重要度を
持つエッジのみが表示される。大きさはmore(以上)と
less(未満)のいずれかを選択することができる。表示
/非表示の切り替わりの様子は、図14に示した相互作
用を示すキーワードによる例と同様である。
【0108】3.2.2 List 左からリスト表示をする。このとき、基本となるノード
からの距離(深さ)が遠いほど右に配置される。その他
は「Simple」ビューと同じである。図15に「List」ビ
ューの表示例を示す。
【0109】3.2.3 Explorer エクスプローラ風に、二項関係をフォルダとしてノード
が表示される。各ノードの右に表示されている数字は、
表示しているノードの直系に属す子供の数で、この数字
によりソートされて表示される。図16に「Explorer」
ビューの表示例を示す。「Explorer」ビューでは以下の
操作が可能である。 (1)子供の表示/非表示切り替え ノードをダブルクリック、もしくはノードの左に表示さ
れているマークをクリックするとノードの子供の表示/
非表示を切り替えることができる。 (2)ポップアップメニュー ノードを右クリックすると、ポップアップメニューを表
示する。ポップアップメニューからは以下の動作が可能
である。
【0110】Property ノードのプロパティを表示する。内容は「Simple」ビュ
ーと同じである。SetFirstNode 現在選択しているノードをトップレベルノードとして再
配置する。
【0111】3.2.4 Animate 二項関係を使ってアニメーションをするレイアウトであ
る。フォーカスがあるノードを固定し、ノード間の距離
を一定に保とうとする。「Animate」ビューを選ぶと、
トップレベルノードのみが表示される。ノードをダブル
クリックすると子供が表示される。子供が隠れているノ
ードは赤色、子供がいないノードは白色、子供を表示し
ているノードはオレンジ色といったように色分けされて
描画される。ノードはマウスでドラッグすることができ
る。図17に「Animate」ビューの表示例を示す。 (1)子供の表示/非表示切り替え ノードをダブルクリックすると子供の表示/非表示を切
り替えることができる。 (2)ポップアップメニュー ノードを右クリックするとポップアップメニューが表示
される。ポップアップメニューからできる操作は以下の
通りである。
【0112】Property ノードのプロパティを表示する。内容は「Simple」ビュ
ーと同じである。Set First Node 現在選択しているノードをトップレベルノードとし、他
の全てのノードを隠す。Show Children 子供を表示する。Hide Children 子供を非表示にする。
【0113】本発明の二項関係表示システムは、図18
に示すように、サーバ上にサブスタンス辞書やデータベ
ースから抽出したサブスタンス間の二項関係データ(図
2参照)を置き、ユーザがネットワーク経由でそれにア
クセスできるようにシステム構成することも可能であ
る。ユーザがネットワーク経由で注目しているサブスタ
ンス名をサーバに送信すると、サーバはそのサブスタン
スと二項関係を有するサブスタンスを検索し、既に説明
した動的ビューアとして返す。ユーザは、動的ビューア
に備わった機能を用いて、送信したサブスタンスと二項
関係を有するサブスタンスについての情報を取得するこ
とができる。
【0114】
【発明の効果】本発明によると、膨大な量の文献を蓄積
したデータベースから必要な遺伝子やタンパク質や低分
子等のサブスタンスの二項関係を得て、それを可視化す
ることができる。これにより、これまでデータベース中
に埋もれていた重要なサブスタンス間関係に関する情報
を取得することが容易となり、医療や創薬に大いに貢献
することができる。
【図面の簡単な説明】
【図1】サブスタンス名抽出のフローチャート。
【図2】サブスタンス名抽出結果の表示例。
【図3】GUI(Graphical User Interface)でエラー候
補を辞書に登録する様子を示す図。
【図4】二項関係の抽出の全体の流れを説明する図。
【図5】二項関係の推定の全体の流れを説明する図。
【図6】動詞activateに関するオートマトンの説明図。
【図7】オートマトンによる処理の例を示す図。
【図8】動的ビューアのレイアウト例を示す図。
【図9】リソースによる動的な表示切替の様子を示す
図。
【図10】Simpleビューの表示例を示す図。
【図11】Simpleビューのプロパティ表示例を示す図。
【図12】エッジのプロパティとエッジスライダーパネ
ルの表示例を示す図。
【図13】エッジ情報の詳細表示例を示す図。
【図14】エッジスライダーパネルの切り替えによるレ
イアウト表示の変化を示す図。
【図15】Listビューの表示例を示す図。
【図16】Explorerビューの表示例を示す図。
【図17】Animateビューの表示例を示す図。
【図18】ユーザがネットワーク経由でサーバから情報
を取得している様子を示す図。
【符号の説明】
101:物質名の特徴解析 102:データベースから物質名を自動取得 103:辞書を用いた物質名抽出 104:予測アルゴリズムを用いた物質名抽出 105:予測によるエラー候補をGUIで出力 201:文献中に出てきた回数 202:物質名とその公式名称 203:物質の二項関係を示すキーワード 204:物質名とその公式名称 205:文献番号 301:抽出されたエラー候補の物質名 302:エラー候補を辞書に新規登録するダイアログ 303:辞書に登録する公式名称 304:辞書に登録するシノニム(複数登録可能) 305:入力した情報を辞書に登録する更新ボタン 401:文書の重みベクトル化を用いて新規二項関係を推
定 402:語の出現パターンによって二項関係を抽出 403:いくつかの観点から関係強度を数値化 404:動的に変化するグラフィカルユーザーインターフ
ェイスによる結果の提示 501:テキスト文書の重みベクトル化 502:重みベクトルからの二項関係の予測(1) 503:重みベクトルからの二項関係の予測(2) 601:オートマトンの初期状態 602:オートマトンによる処理の失敗を表すエラー状態 603:オートマトンによる処理が成功した事を示す受理
状態 701:遺伝子名Estrogen receptor alphaによる状態変化 702:副詞rapidlyによる状態変化 703:動詞activatesによる状態変化 704:遺伝子名IGF-1 receptorによる状態変化 801,802:ノード 803:サブスタンスとサブスタンスの二項関係を示すエ
ッジ 901:ビューアで表示する二項関係のリソースを選択 902:文献や論文等から得られた二項関係をビューアで
表示 903:公共のデータベースから自動的に二項関係を取得
しビューアで表示 904:両方のリソースから抽出した二項関係をビューア
で表示(表示例は符号901) 905:符号902の表示結果 906:符号903の表示結果 1001:系統樹レイアウトの根 1101:Simpleレイアウトのノードのプルダウンメニュー 1102:ノードのプロパティ 1201:Simpleレイアウトのエッジのプルダウンメニュー 1202:エッジのプロパティ 1203:エッジスライダーパネル 1302:キーワードの名前 1303:重要度の数値 1401:エッジスライダーパネルの設定を変更する前のレ
イアウト 1402:BINDのチェックを外したエッジスライダーパネル 1403:エッジスライダーパネルの設定を変更した後のレ
イアウト 1501:Listビューの表示例 1601:Explorerビューの表示例 1701:Animateビューの表示例
フロントページの続き (72)発明者 井原 茂男 東京都千代田区神田駿河台四丁目6番地 株式会社日立製作所ライフサイエンス推進 事業部内 Fターム(参考) 5B075 ND02 NK35 NR12 PR06 UU01

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 複数のデータベースから、サブスタンス
    の名称とそのシノニムからなる用語グループ、及び同一
    のサブスタンスの呼称として2以上の異なる名称が用い
    られていることを示すクロスリファレンス情報を収集す
    るステップと、 前記収集した用語グループ同士を比較し、同じ名称を含
    む用語グループ同士あるいは同じシノニムを含む用語グ
    ループ同士を結合するステップと、 前記クロスリファレンス情報を用いて、同一のサブスタ
    ンスを表す用語グループ同士を結合するステップとを含
    むことを特徴とするサブスタンス辞書の作成方法。
  2. 【請求項2】 請求項1記載のサブスタンス辞書の作成
    方法において、前記サブスタンスはタンパク質であるこ
    とを特徴とするサブスタンス辞書の作成方法。
  3. 【請求項3】 テキスト文書からサブスタンスの名称を
    表す複合語を抽出する方法において、 前記テキスト文書をトークン化し、予め定めた造語規則
    に合致する前記サブスタンスに特有の造語(メインキー
    ワード)及び前記サブスタンスの機能や特徴を表すもの
    として予め定めた単語リストに登録されている単語(フ
    ァンクションキーワード)を抽出するステップと、 抽出されたメインキーワードを含む前記テキスト文書の
    文章中において、予め定めた規則に従って、前記メイン
    キーワードにその前後に位置する1又は複数の記号、語
    句、他のメインキーワード又はファンクションキーワー
    ドを連結して当該メインキーワードを拡張するステップ
    と、 前記テキスト文書の文章中において、抽出されたメイン
    キーワード、ファンクションキーワード及び/又は前記
    拡張されたメインキーワードを予め定めたパターンに従
    って連結して名詞句を得るステップとを含むことを特徴
    とする方法。
  4. 【請求項4】 請求項3記載の方法において、前記サブ
    スタンスはタンパク質であることを特徴とする方法。
  5. 【請求項5】 テキスト文書中からサブスタンス間の二
    項関係を抽出する方法において、 サブスタンスを表す名詞を登録した辞書を用意するステ
    ップと、 サブスタンス間の二項関係を表す動詞を登録するステッ
    プと、 前記動詞と2つの名詞を含む文型を手動または自動で収
    集しオートマトンとして用意するステップと、 データベースからテキスト文書を取得するステップと、 取得した文書中の文を、2つの名詞が前記辞書に登録さ
    れているという条件のもとに前記オートマトンにより処
    理するステップと、 オートマトンに前記文が受理されたとき、2つのサブス
    タンスを表す名詞と前記サブスタンス間の二項関係を表
    す動詞を出力するステップとを含むことを特徴とする方
    法。
  6. 【請求項6】 テキスト文書中の記述をもとに2つのサ
    ブスタンス間に存在する二項関係を予測する方法におい
    て、 データベースから対象となる文書集合を取得するステッ
    プと、 前記文書集合中の各文書を、文書中における各サブスタ
    ンスの出現頻度と当該サブスタンスの前記文書集合中で
    の特徴度を表す指標とを用いて、各サブスタンスにとっ
    ての相対的重要度を表す重みベクトルに変換するステッ
    プと、 2つのサブスタンスに対して、当該2つのサブスタンス
    に対する各文書の重みベクトル成分と、各文書中での前
    記2つのサブスタンスの出現位置の関係とから、前記2
    つのサブスタンスのペアとしての重要度を表す指標を求
    め、それを前記文書集合の全文書にわたって加算して前
    記2つのサブスタンス間に存在する相互関係の予測指標
    を求めるステップと、 予め定めた閾値より大きい前記相互関係の予測指標を有
    する2つのサブスタンスに対して、当該2つのサブスタ
    ンスがペアとして出現している文書中の部分を表示する
    ステップとを含むことを特徴とする方法。
  7. 【請求項7】 データベースのテキスト文書集合から抽
    出したサブスタンス間の二項関係を表示する方法におい
    て、 表示する二項関係の種類を設定するステップと、 前記設定された二項関係の種類に合致する二項関係を、
    サブスタンスをノードとしサブスタンス間の二項関係を
    前記ノード間を結ぶエッジとして表示するステップとを
    含むことと特徴とするサブスタンス間の二項関係の表示
    方法。
  8. 【請求項8】 データベースのテキスト文書集合から抽
    出したサブスタンス間の二項関係を表示する方法におい
    て、 表示する二項関係の強度に関する条件を設定するステッ
    プと、 2つのサブスタンス間の二項関係の出現頻度あるいは前
    記文書集合における2つのサブスタンス間の二項関係の
    特異度に基づいて算出される前記二項関係の強度が前記
    設定された条件を満たす2つのサブスタンス間の二項関
    係を、サブスタンスをノードとしサブスタンス間の二項
    関係を前記ノード間を結ぶエッジとして表示するステッ
    プとを含むことと特徴とするサブスタンス間の二項関係
    の表示方法。
  9. 【請求項9】 請求項7又は8記載のサブスタンス間の
    二項関係表示方法において、サブスタンスの種類に応じ
    て前記ノードの表示を異ならせ、及び/又は二項関係の
    種類に応じて前記エッジの表示を異ならせることを特徴
    とするサブスタンス間の二項関係表示方法。
  10. 【請求項10】 請求項7〜9のいずれか1項記載のサ
    ブスタンス間の二項関係表示方法において、 表示されているエッジの一つを選択するステップと、 前記選択されたエッジのエッジ情報をオンラインでテキ
    スト検索するステップと、 検索結果として、選択されたエッジが結ぶ2つのサブス
    タンス間の二項関係を示す文書を一覧表示するステップ
    とを更に含むことを特徴とするサブスタンス間の二項関
    係表示方法。
  11. 【請求項11】 請求項7〜9のいずれか1項記載のサ
    ブスタンス間の二項関係表示方法において、 表示されているエッジの一つを選択するステップと、 前記選択されたエッジのエッジ情報をオンラインでセン
    テンス検索するステップと、 検索結果として、選択されたエッジが結ぶ2つのサブス
    タンス間の二項関係を示す文書中の文章を一覧表示する
    ステップとを更に含むことを特徴とするサブスタンス間
    の二項関係表示方法。
  12. 【請求項12】 請求項7〜11のいずれか1項記載の
    サブスタンス間の二項関係表示方法において、前記サブ
    スタンスはタンパク質であることを特徴とするサブスタ
    ンス間の二項関係表示方法。
JP2001389474A 2001-12-21 2001-12-21 サブスタンス間の二項関係表示方法 Expired - Fee Related JP3773447B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001389474A JP3773447B2 (ja) 2001-12-21 2001-12-21 サブスタンス間の二項関係表示方法
US10/194,228 US20030120640A1 (en) 2001-12-21 2002-07-15 Construction method of substance dictionary, extraction of binary relationship of substance, prediction method and dynamic viewer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001389474A JP3773447B2 (ja) 2001-12-21 2001-12-21 サブスタンス間の二項関係表示方法

Publications (2)

Publication Number Publication Date
JP2003186894A true JP2003186894A (ja) 2003-07-04
JP3773447B2 JP3773447B2 (ja) 2006-05-10

Family

ID=19188265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001389474A Expired - Fee Related JP3773447B2 (ja) 2001-12-21 2001-12-21 サブスタンス間の二項関係表示方法

Country Status (2)

Country Link
US (1) US20030120640A1 (ja)
JP (1) JP3773447B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005243024A (ja) * 2004-02-23 2005-09-08 Agilent Technol Inc インタラクティブな生物学的図表を構築するためのシステム、ツール及び方法
WO2006137516A1 (ja) * 2005-06-23 2006-12-28 National Institute Of Information And Communications Technology 二項関係抽出装置
JP2007249458A (ja) * 2006-03-15 2007-09-27 National Institute Of Information & Communication Technology 情報検索装置、及び情報検索プログラム
JPWO2005096207A1 (ja) * 2004-03-30 2008-02-21 茂男 井原 文献情報処理システム
WO2008102658A1 (ja) * 2007-02-23 2008-08-28 Fujitsu Limited 分子ネットワーク分析支援プログラム、該プログラムを記録した記録媒体、分子ネットワーク分析支援装置、および分子ネットワーク分析支援方法
JP2008537821A (ja) * 2005-03-31 2008-09-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 生体分子及び疾患の間の関係に関する証拠を収集するシステム及び方法
US7698271B2 (en) 2006-09-15 2010-04-13 Fuji Xerox Co., Ltd. Conceptual network generating system, conceptual network generating method, and program product therefor
US8146277B2 (en) 2002-09-20 2012-04-03 Puredepth Limited Multi-view display
JP2012252693A (ja) * 2011-06-03 2012-12-20 Korea Institute Of Science & Technology Infomation インスタンス経路の探索及び視覚化方法、並びにその装置
JP2012252694A (ja) * 2011-06-03 2012-12-20 Korea Institute Of Science & Technology Infomation オントロジースキーマーに基づくインスタンス経路の探索方法及び装置
JP2013218743A (ja) * 2013-07-31 2013-10-24 Okinawa Institute Of Science And Technology Graduate Univ ネットワークモデル統合装置、ネットワークモデル統合システム、ネットワークモデル統合方法、および、プログラム
US9137122B2 (en) 2010-10-01 2015-09-15 Okinawa Institute of Science and Technology Graduate University Network model integration device, network model integration system, network model integration method, and computer program product
JP2018147351A (ja) * 2017-03-08 2018-09-20 株式会社豊田中央研究所 知識モデル構築システム及び知識モデル構築方法
US20210200797A1 (en) * 2019-12-25 2021-07-01 Hitachi, Ltd. Relevance analyzing device and method

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7028038B1 (en) * 2002-07-03 2006-04-11 Mayo Foundation For Medical Education And Research Method for generating training data for medical text abbreviation and acronym normalization
US20040243531A1 (en) * 2003-04-28 2004-12-02 Dean Michael Anthony Methods and systems for representing, using and displaying time-varying information on the Semantic Web
US7530054B2 (en) * 2003-09-30 2009-05-05 International Business Machines Corporation Program analysis tool presenting object containment and temporal flow information
US8051096B1 (en) * 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
JP2006146380A (ja) * 2004-11-17 2006-06-08 Hitachi Ltd 化合物の機能予測方法及び機能予測システム
US7490080B2 (en) * 2005-01-28 2009-02-10 International Business Machines Corporation Method for delivering information with caching based on interest and significance
US20070067320A1 (en) * 2005-09-20 2007-03-22 International Business Machines Corporation Detecting relationships in unstructured text
JP4542993B2 (ja) * 2006-01-13 2010-09-15 株式会社東芝 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム
US8423348B2 (en) * 2006-03-08 2013-04-16 Trigent Software Ltd. Pattern generation
US7987088B2 (en) * 2006-07-24 2011-07-26 Lockheed Martin Corporation System and method for automating the generation of an ontology from unstructured documents
US8131536B2 (en) 2007-01-12 2012-03-06 Raytheon Bbn Technologies Corp. Extraction-empowered machine translation
US7890539B2 (en) * 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
US8245127B2 (en) * 2007-12-05 2012-08-14 International Business Machines Corporation Method and apparatus for a document annotation service
US9852127B2 (en) 2008-05-28 2017-12-26 International Business Machines Corporation Processing publishing rules by routing documents based on document conceptual understanding
US10169546B2 (en) * 2008-05-28 2019-01-01 International Business Machines Corporation Generating document processing workflows configured to route documents based on document conceptual understanding
JP2012027845A (ja) * 2010-07-27 2012-02-09 Sony Corp 情報処理装置、関連文提供方法、及びプログラム
US20130262144A1 (en) 2010-09-01 2013-10-03 Imran N. Chaudhri Systems and Methods for Patient Retention in Network Through Referral Analytics
US11544652B2 (en) 2010-09-01 2023-01-03 Apixio, Inc. Systems and methods for enhancing workflow efficiency in a healthcare management system
US11694239B2 (en) 2010-09-01 2023-07-04 Apixio, Inc. Method of optimizing patient-related outcomes
US11195213B2 (en) 2010-09-01 2021-12-07 Apixio, Inc. Method of optimizing patient-related outcomes
US11481411B2 (en) 2010-09-01 2022-10-25 Apixio, Inc. Systems and methods for automated generation classifiers
US11610653B2 (en) 2010-09-01 2023-03-21 Apixio, Inc. Systems and methods for improved optical character recognition of health records
US10614913B2 (en) * 2010-09-01 2020-04-07 Apixio, Inc. Systems and methods for coding health records using weighted belief networks
WO2014170965A1 (ja) * 2013-04-16 2014-10-23 株式会社日立製作所 文書処理方法、文書処理装置および文書処理プログラム
WO2014186873A1 (en) * 2013-05-21 2014-11-27 Bagheri Ebrahim Method and system of intelligent generation of structured data and object discovery from the web using text, images, video and other data
US9971764B2 (en) 2013-07-26 2018-05-15 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts
US10061822B2 (en) * 2013-07-26 2018-08-28 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts and root causes of events
US9292616B2 (en) 2014-01-13 2016-03-22 International Business Machines Corporation Social balancer for indicating the relative priorities of linked objects
US10152532B2 (en) 2014-08-07 2018-12-11 AT&T Interwise Ltd. Method and system to associate meaningful expressions with abbreviated names
US20160162467A1 (en) * 2014-12-09 2016-06-09 Idibon, Inc. Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
US11163806B2 (en) * 2016-05-27 2021-11-02 International Business Machines Corporation Obtaining candidates for a relationship type and its label
CN108614867B (zh) * 2018-04-12 2022-03-15 科技部科技评估中心 基于学术论文的技术前沿性指数计算方法及系统
CN109145016A (zh) * 2018-09-10 2019-01-04 合肥科讯金服科技有限公司 一种金融用互联网大数据检索系统
CN110782955B (zh) * 2019-10-22 2023-03-28 中国科学院上海有机化学研究所 从研究文献中提取天然产物数据信息的方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066970A (ja) * 1998-08-19 2000-03-03 Nec Corp 人脈情報管理システム、人脈情報管理方法および記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5841895A (en) * 1996-10-25 1998-11-24 Pricewaterhousecoopers, Llp Method for learning local syntactic relationships for use in example-based information-extraction-pattern learning
US6182029B1 (en) * 1996-10-28 2001-01-30 The Trustees Of Columbia University In The City Of New York System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
US6633819B2 (en) * 1999-04-15 2003-10-14 The Trustees Of Columbia University In The City Of New York Gene discovery through comparisons of networks of structural and functional relationships among known genes and proteins
WO2001008032A2 (en) * 1999-07-23 2001-02-01 Merck & Co., Inc. Method and storage/retrieval system of chemical substances in a database
US6470277B1 (en) * 1999-07-30 2002-10-22 Agy Therapeutics, Inc. Techniques for facilitating identification of candidate genes

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066970A (ja) * 1998-08-19 2000-03-03 Nec Corp 人脈情報管理システム、人脈情報管理方法および記録媒体

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8146277B2 (en) 2002-09-20 2012-04-03 Puredepth Limited Multi-view display
JP2005243024A (ja) * 2004-02-23 2005-09-08 Agilent Technol Inc インタラクティブな生物学的図表を構築するためのシステム、ツール及び方法
JPWO2005096207A1 (ja) * 2004-03-30 2008-02-21 茂男 井原 文献情報処理システム
JP2008537821A (ja) * 2005-03-31 2008-09-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 生体分子及び疾患の間の関係に関する証拠を収集するシステム及び方法
JP4565106B2 (ja) * 2005-06-23 2010-10-20 独立行政法人情報通信研究機構 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム
JP2007004458A (ja) * 2005-06-23 2007-01-11 National Institute Of Information & Communication Technology 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム
WO2006137516A1 (ja) * 2005-06-23 2006-12-28 National Institute Of Information And Communications Technology 二項関係抽出装置
JP2007249458A (ja) * 2006-03-15 2007-09-27 National Institute Of Information & Communication Technology 情報検索装置、及び情報検索プログラム
US7698271B2 (en) 2006-09-15 2010-04-13 Fuji Xerox Co., Ltd. Conceptual network generating system, conceptual network generating method, and program product therefor
US8818732B2 (en) 2007-02-23 2014-08-26 Fujitsu Limited Molecular network analysis support method and apparatus
WO2008102658A1 (ja) * 2007-02-23 2008-08-28 Fujitsu Limited 分子ネットワーク分析支援プログラム、該プログラムを記録した記録媒体、分子ネットワーク分析支援装置、および分子ネットワーク分析支援方法
US9137122B2 (en) 2010-10-01 2015-09-15 Okinawa Institute of Science and Technology Graduate University Network model integration device, network model integration system, network model integration method, and computer program product
JP2012252694A (ja) * 2011-06-03 2012-12-20 Korea Institute Of Science & Technology Infomation オントロジースキーマーに基づくインスタンス経路の探索方法及び装置
JP2012252693A (ja) * 2011-06-03 2012-12-20 Korea Institute Of Science & Technology Infomation インスタンス経路の探索及び視覚化方法、並びにその装置
JP2013218743A (ja) * 2013-07-31 2013-10-24 Okinawa Institute Of Science And Technology Graduate Univ ネットワークモデル統合装置、ネットワークモデル統合システム、ネットワークモデル統合方法、および、プログラム
JP2018147351A (ja) * 2017-03-08 2018-09-20 株式会社豊田中央研究所 知識モデル構築システム及び知識モデル構築方法
US20210200797A1 (en) * 2019-12-25 2021-07-01 Hitachi, Ltd. Relevance analyzing device and method
JP2021103406A (ja) * 2019-12-25 2021-07-15 株式会社日立製作所 関連性分析装置、及び方法
JP7346286B2 (ja) 2019-12-25 2023-09-19 株式会社日立製作所 関連性分析装置、及び方法

Also Published As

Publication number Publication date
JP3773447B2 (ja) 2006-05-10
US20030120640A1 (en) 2003-06-26

Similar Documents

Publication Publication Date Title
JP3773447B2 (ja) サブスタンス間の二項関係表示方法
JP5362353B2 (ja) 文書中のコロケーション誤りを処理すること
CN104239300B (zh) 从文本中挖掘语义关键词的方法和设备
JP2020123318A (ja) テキスト相関度を確定するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
Cook et al. Novel word-sense identification
US20040029085A1 (en) Summarisation representation apparatus
Smith et al. Evaluating visual representations for topic understanding and their effects on manually generated topic labels
RU2646380C1 (ru) Использование верифицированных пользователем данных для обучения моделей уверенности
JP2005352888A (ja) 表記揺れ対応辞書作成システム
RU2640718C1 (ru) Верификация атрибутов информационных объектов
Roy et al. Discovering and understanding word level user intent in web search queries
KR20200053334A (ko) 융합 연구 촉진을 위한 연구원 맵 구축 방법 및 시스템
Arslan DeASCIIfication approach to handle diacritics in Turkish information retrieval
Figueroa et al. Contextual language models for ranking answers to natural language definition questions
US20080040352A1 (en) Method for creating a disambiguation database
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
Radoulov Exploring automatic citation classification
Litvak et al. Multilingual Text Analysis: Challenges, Models, and Approaches
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
Thelwall Text characteristics of English language university web sites
Reinberger et al. Is shallow parsing useful for unsupervised learning of semantic clusters?
JPH06318202A (ja) 文書記憶方式及び文書管理方式並びに文書表示方式
Dave et al. A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages
CN110457435A (zh) 一种专利新颖性分析系统及其分析方法
Bo Measuring and improving comparable corpus quality

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050908

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051110

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060214

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090224

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100224

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100224

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110224

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120224

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120224

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130224

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees