JP2004334753A - 情報検索方法 - Google Patents
情報検索方法 Download PDFInfo
- Publication number
- JP2004334753A JP2004334753A JP2003132846A JP2003132846A JP2004334753A JP 2004334753 A JP2004334753 A JP 2004334753A JP 2003132846 A JP2003132846 A JP 2003132846A JP 2003132846 A JP2003132846 A JP 2003132846A JP 2004334753 A JP2004334753 A JP 2004334753A
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- query
- database
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Abstract
【課題】効率よく新しい情報を網羅的に抽出して遺伝子や蛋白質の機能を予測する。
【解決手段】最初、配列データベースを用い、検索対象配列や構造情報と関連度の高い既知の配列データを得る。次に、文書データベースを用い、得られた既知の配列データについて関連する文書を検索する。抽出された複数の文書間で、共通する特徴語を抽出し、出力する。
【選択図】 図2
【解決手段】最初、配列データベースを用い、検索対象配列や構造情報と関連度の高い既知の配列データを得る。次に、文書データベースを用い、得られた既知の配列データについて関連する文書を検索する。抽出された複数の文書間で、共通する特徴語を抽出し、出力する。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は、遺伝子や蛋白質の機能を予測する方法に関し、特にテキストマイニング技術を用いて検索対象配列の機能を予測する方法に関する。
【0002】
【従来の技術】
従来のゲノム創薬の研究は、ゲノム研究による個々の遺伝子の同定、個々の遺伝子の機能の解明、創薬ターゲット蛋白質の探索・同定、リード化合物の発見と構造の最適化、安全性・薬物動態の研究、薬理ゲノム科学の研究、臨床試験といったプロセスを経て行われるが、最初のゲノム研究の段階から情報の氾濫に圧倒されてしまう。ヒトゲノムプロジェクトチームの発表によると、ヒトの遺伝子の数は3万個から4万個といわれており、創薬のターゲットとしての妥当性を調べるためには、コストと時間を要する膨大な実験をしなければならない。
【0003】
そこで、対象となりそうな遺伝子/蛋白質を絞り込むために、問い合わせ配列(新たに決定された機能未知の配列)に対する機能予測の方法が提案されてきた。主なものとして類似性検索やモチーフ検索がある。類似性検索の一つであるホモロジー検索では、問い合わせ配列をデータベース中の既知の配列1つ1つと比較し、もしデータベース中に類似した配列があれば問い合わせ配列の機能もその類似配列の機能に類似していると推測する(非特許文献1,2参照)。モチーフ検索では、既知の配列の中から特定の機能グループを特徴づける配列モチーフ(局所的な保存配列パターン)を抽出してライブラリーを作っておき、それに対して検索を行う(非特許文献3参照)。いずれの方法も、機能未知の配列と類似性のある配列や配列グループの情報を公開データベースから検索し、あるいは自らのデータから構築したデータベースのデータを機能未知配列の予測機能として割り当てるといったものであった。
【0004】
【非特許文献1】
”Basic local alignment search tool”, Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) J. Mol. Biol. 215:403−410.
【非特許文献2】
”Identification of protein coding regions by database similarity search”, Gish, W. & States, D.J. (1993) Nature Genet. 3:266−272.
【非特許文献3】
”Pfam: multiple sequence alignments and HMM−profiles of protein domains”, Sonnhammer ELL, Eddy SR, Birney E, Bateman A, Durbin R (1998) Nucleic Acids Research 26:320−322.
【0005】
【発明が解決しようとする課題】
ところで、機能既知の配列に対しては、すでに各国の研究者によって様々な実験がなされている。実験によって得られた膨大な情報は、一部がデータベースに記載されているものの、多くの情報がデータベースには網羅されず、研究者によって出された論文に潜んでいると考えられる。前述の類似性検索やモチーフ検索は、データベースに記載されている情報をもとにしているため、情報量が不足しているといった問題がある。創薬研究にとって最も重要なのは、ゲノム情報(ゲノム配列や全長cDNA配列情報、並びに発現プロファイル情報)やSNPから創薬ターゲット遺伝子を探索すること、構造ゲノム科学の研究成果を効率的なドラックデザインに直結させること、SNP情報を臨床開発に早期に取り入れ、開発期間の短縮やコスト削減を達成することである。また、既に存在する実験情報を網羅的に調査する手段が存在しないため、創薬ターゲットをより絞り込むことができず、既に実験がなされている分野に対して、再度実験を行うといった問題があった。
【0006】
本発明は、このような従来技術の問題点に鑑み、効率よく新しい情報を網羅的に抽出して遺伝子や蛋白質の機能を予測することのできる方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明では、機能未知の配列に対する機能予測を、従来のデータベースに蓄積された知識だけに頼る方法から、約1000万件にも及ぶ文献に蓄積された知識をも参照して行うように変更することで前記目的を達成する。文献から得られた情報を幾つかの可視化ツールを用いてユーザーに分かりやすい形で表示することにより、データベースだけでは得られない情報の発見や配列の機能予測を支援する。
【0008】
本発明による情報検索方法は、クエリを入力するステップと、クエリと同種のデータを蓄積したデータベースを検索してクエリと関連度の高いエントリを検索するステップと、文書データベースを用いて検索されたエントリに関連する文書を検索するステップと、検索した文書のうちの少なくとも2つの文書に共通する特徴語を抽出するステップと、抽出された特徴語を表示するステップとを含むことを特徴とする。クエリは、典型的には、配列又は蛋白質の立体構造を表す構造情報であり、クエリと同種のデータを蓄積したデータベースは配列データベースである。
【0009】
文書を検索するステップでは、検索されたエントリに掲載されている文書をキー文書として連想検索して文書数を増やすのが好ましい。連想検索は複数の文書データベースを用いて行ってもよい。
【0010】
抽出された特徴語は、疾患などの概念毎に分類して出力するのが好ましい。また、抽出された特徴語を出現頻度でソートし、出願頻度の情報とともに表示する方法、あるいは抽出された特徴語をE値によってソートし、E値の情報とともに表示する方法も有効である。
【0011】
【発明の実施の形態】
以下、本発明の実施の形態を、図を用いて詳細に説明する。本発明では、配列情報や蛋白質の機能に関する情報を蓄積した公共データベースなどのデータベース、検索エンジンにインターネットなどの通信網を介してアクセスできる環境があることを前提とする。データベースや検索エンジンは既知のものを利用できるため、その内容についての詳細な説明は省略する。
【0012】
図1は、本発明による処理の概要を示すフローチャートである。まず、質問となる配列などのクエリを入力し(S11)、データベースからそのクエリと関連度の高いエントリを検索する(S12)。クエリと関連度の高いエントリは複数検索されるのが通常である。次に、そのエントリに関連する文書を検索する(S13)。この処理では、例えば検索された各エントリに参考文献として載っている文献をリストアップする。次に、リストアップされた文書の内容検索を行い、2つ以上の文書に共通して出現する特徴語を抽出する(S14)。最後に、抽出された特徴語を適当な表示方法で表示装置に出力する。こうして抽出された特徴語はクエリの性質の一面を表している可能性がある。本発明では、検索対象を文書データベースに蓄積された研究論文に拡張し、いわば生のデータを対象とした検索を行うため、生データから人の経験によって抽出され加工されたデータを蓄積している公共データベースを対象とした従来の検索では見落とされていた情報を取得できる可能性がある。
【0013】
図2は、本発明の方法を機能が未知である蛋白質の機能検索に適用した例を説明するフローチャートである。
【0014】
最初に、解析対象とする配列データや構造情報のクエリを入力する(S21)。クエリとして入力されるのは、例えば研究者が自ら解析した蛋白質の配列データである。次に、類似性検索を行い、クエリに類似する配列を検索する(S22)。この処理は具体的には、蛋白質のアミノ酸配列データベース、たとえばSWISS−PROTなどに対して、弱い類似性まで認めながら類似性検索を行う処理である。この検索は、塩基配列をアミノ酸配列に翻訳しながら類似性のある区間を探す検索である。
【0015】
次に、ステップ22で見つかったクエリと類似性のある配列を後述するE値の順などでソートし、相同性検索の出力結果として、蛋白質名やE値、関連する文献数、蛋白質アミノ酸データベースのエントリ名、たとえば、SWISS−PROTのエントリ名などを表示する(S23)。次に、クエリに類似性の高い配列の関連文献を抽出する(S24)。この処理では、ステップ22で見つかったSWISS−PROTのエントリにある文献のMEDLINE IDや文献数を求める。次に、クエリに類似性の高い配列の関連文献を、連想検索エンジンGETAを用いて再検索する(S25)。次に、連想検索で再検索され拡張された関連文献に含まれるキーワードを表示する(S26)。表示は、キーワードを含む文献の数などをマトリックス形式で表示してもよいし(S27)、文献の中で、キーワード同士の共起をカウントし、表形式で表示してもよい(S28)。
【0016】
図3に、図2のステップ21,22に示した相同性検索の処理の概要とBLASTの結果の表示方法を示す。
【0017】
クエリとしての検索対象配列や構造情報は、入力ボックス31に入力される。入力されたクエリに対して、蛋白質のアミノ酸配列データベース、たとえばSWISS−PROTなどから、弱い類似性まで認めながら類似性検索を行う。この検索は、塩基配列をアミノ酸配列に翻訳しながら類似性のある区間を探す検索であり、公知の技術を用いて、例えばNCBIのBLAST (Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman(1997), ”Gapped BLAST and PSI−BLAST: a new generation of protein database search programs”, Nucleic Acids Res.25:3389−3402.)を用いることにより可能である。BLASTを用いて相同性検索を行うと、相同性の高い配列の、データベースの種類やアクセッション番号、データベースのエントリ名、スコア、E値などの情報が得られる。ここで、スコアとは「2つの配列を並べて同じ位置に同じ残基があれば正の値、違えば負の値を与えて合計した点数」で、高い値であれば相同性が高い。また、E値とは「現在のデータベースにおいて、全く偶然に同じスコアになる配列の数の期待値」である。E値が小さいほど偶然には起こり得ないことを示す。従って、スコアが大きく、E値が小さい場合には、互いの配列同士の相同性は高いと言える。ボタン32を押すと、BLASTによる相同性検索が実行され、その結果が図の下の画面に示すように表示される。
【0018】
検索対象配列や構造情報などのクエリと相同性のある配列を相同性検索すると、相同性が高いと考えられる配列が幾つか得られる。結果表示画面には、相同性が高いとされた既知配列のエントリが相同性の高い順に表示される。図の表示画面の例では、表示する結果数を入力ボックス34にて指定できるようにし、そこで指定された数だけリスト出力する。デフォルトでの配列の出力数は50とする。表への出力項目としては、項目36に蛋白質アミノ酸配列データベース、たとえばSWISS−PROTのエントリ名を表示し、項目37に相同性の高さを表す値、たとえばE値を表示し、項目38に文献数を表示する。ここでの文献数とは、蛋白質アミノ酸配列データベース、たとえばSWISS−PROTなどを参照し、ステップ22の検索で見つかった類似性のある配列に関連するエントリにある文献の文献数である。また、相同性検索の結果は、相同性を持つ配列を相同性の高さを表す値、例えばE値によってソートし表示する。E値を相同性の高さを表す値として用いるのであれば、昇順でソートする。また、エントリ名36、ここではSWISS−PROTエントリ名から関連する蛋白質アミノ酸配列データベースのページにリンクをはる。文献数の表示38から、MEDLINEへのリンクも作成する。ボタン33を押すと、KEYWORD LISTを表示することができる。
【0019】
図4は、連想検索エンジンによる関連文献の再検索の処理の概要を示す図である。処理41は、図2のステップ24で得られた類似性のある配列に関連するエントリにある参考文献をキー文書とする処理である。処理42は、キー文書を連想検索エンジン、たとえばGETAなどに渡し、キー文書と関連の深い文献を連想検索する処理である。連想検索の結果、キー文書と関連の深い文献43が得られる。ここで、連想検索エンジンとは、キー文書に含まれる特徴的な単語50〜200個を自動選出し、それらの出現頻度や単語同士の関連性などの情報(牽引データ)を使った計算(連想計算)をする検索方式(連想検索)を採用し、即座にキー文書と関連する文書を検索するというエンジンである(例えば、特開平11−85786号公報、特開2002−222210号公報参照)。
【0020】
図5により、連想検索エンジンによって再検索され、拡張した文献集合に存在するキーワードの表示について説明する。
【0021】
図2のステップ25の連想検索処理によって拡張した文献集合が得られるが、図5に示す結果表示画面には、この文献に出現するKeywordを表示する。ここで、Keywordとは、一般的な物質名称や機能を表す用語、タンパク質名称、相互作用名などである。このようなKeywordの抽出方法としては、一般的な物質名称や機能を表す用語、タンパク質名称などの辞書を用いて、文献から抽出してくる方法やGene OntologyなどにあるOntologyを文献から抽出してくる方法やtf・idfなどの統計量を用いて文献からKeywordを選定する方法、品詞情報により文献からKeywordを抽出してくる方法等を用いる。この際、ありふれたキーワードを排除するために、予め不要語リストを作成しておく。ここで“tf(term frequency)”及び“idf (inverse document frequency)”は、次式で表されるものである。
tf(d,t)=(文書dにおけるKeyword tの出現頻度)
idf(t)=log(DBsize(db)/freq(t,db))+1
【0022】
DBsize(db)とは、対象とする文書データベースに含まれる文書総数、freq(t,db)は、term tが現れる文書データベース内の文書数である。文書dにおけるKeyword tの重みweight(d,t)は両者を合わせて、weight(d,t)=tf(d,t)*idf(t)となる。tf・idfを用いて文献からKeywordを選定する方法は、このweightの高いKeywordを文献から抽出してくる方法である。
【0023】
図5に示すように、KEYWORD LISTの表示では、欄55にKeywordを表示し、欄56に文献出現頻度、欄57にKeywordと関連のある配列のE値の最良値、欄58に類似性のある配列のSWISS−PROTの参考文献での出現頻度を表示する。図5の表示によると、例えば“Plasmid”というKeywordは連想検索で検索された文献中に54回出現し、Keyword“Plasmid”と関連のある配列のE値の最良値はe−130、“Plasmid”は第1番目の文献には2回出現し、第2番目の文献には出現しなかったが、第3番目の文献には1回、第4番目の文献には4回出現し、第n番目の文献には2回出現したことが分かる。ボタン53を押すことによりKeywordは文献出現頻度あるいはE値でソート出来るようにする。また入力ボックス52で、表示する結果数を調整できるようにする。デフォルトでは50のKeywordが表示されるようになっている。またボタン51を押すと、KEYWORD MATRIXを表示することができる。
【0024】
図6は、KEYWORD MATRIXの表示例を示す図である。図6は、文献の中でのKeywordの共起をカウントし、表に形に表したものである。縦軸と横軸にKeywordを表示し、その交点のセルに2つのKeywordの共起数を表示する。共起には、1文献中での共起、1つの文献の1段落中での共起、1センテンス中での共起、着目するKeywordから前後20wordの範囲内での共起等、種々の程度があり、ユーザーが適宜指定できるものとする。また、ボタン61を押すとKEYWORD RELATION NETWORKを表示することができる。
【0025】
図7は、KEYWORDの共起の可視化についての説明図である。ここでは、2種類の可視化の方法を説明する。
【0026】
まず、KEYWORD RELATION NETWORKの表示画面では、白丸71で示すノードがKeywordを表し、それらのノードを結ぶ線(エッジ)72がKeyword間の関係を表している。共起の回数によってエッジの色や太さを変化させて表示する。このビューアによってKeyword間の関連性をユーザーに分かりやすい形で表示することができる。
【0027】
ONTOROGYの表示画面の方では、文献から得られたKeywordを、できるだけ対角化を行うソート処理やE値の閾値を与えるスライダーバーの設定、タンパク質機能名や疾患名、物質名などによりソートを行い表示する。図示した例の縦軸73は疾患名によってソートしたもの、横軸74は遺伝子やタンパク質名などのキーワードを重要度(E値など)の高い順に並べたものである。疾患名等によるクラスタ分類はG−ONTOROGYなどのONTOROGYデータベースを利用して行うことができる。また、75のようにノードには遺伝子やタンパク質名などのキーワード、エッジには共起や相互作用などが来るように表示を行う。ノードの表示色の濃さにE値を反映させることもできる。ONTOROGYによって疾患やタンパク質機能によって関連するKeywordをより分かりやすい形で提示することができ、生物医学専門家の機能予測の支援を行う。
【0028】
【発明の効果】
本発明によると、検索対象配列や構造情報などのクエリの機能を、相同性のある機能既知の配列と関連する膨大な文献から発見したり、予測したりする支援ができるようになる。その際、文献から抽出された機能はビューアを用いて可視化し、生物医学専門家の機能予測の支援を行う。従来、既知の知識を網羅的に扱うことが不可能であったために、予測が不十分となっていて、実験において時間的コストがかかっていたものを、本発明によって、効率を上げることができるようになる。
【図面の簡単な説明】
【図1】本発明による処理の概要を示すフローチャート。
【図2】本発明の方法を機能が未知である蛋白質の機能検索に適用した例を説明するフローチャート。
【図3】クエリを用いた相同性検索への入力と、相同性検索の結果表示例を示す図。
【図4】類似性のある配列と関連する文献に対して連想検索を行う処理の説明図。
【図5】KEYWORD LISTの表示例を示す図。
【図6】KEYWORD MATRIXの表示例を示す図。
【図7】KEYWORDの共起の可視化の表示例を示す図。
【符号の説明】
36:SWISS−PROTのエントリ名
37:E値(相同性の期待値)
38:各既知配列と関連があるSWISS−PROT中の参考文献数
43:連想検索された文書群
51:Keyword Matrixへのリンク
53:出現頻度やE値でのソートを指定するボタン
55:Keyword
56:出現頻度
57:E値
58:各既知配列の参考文献中でのKeyword出現頻度
61:Keyword Relation Networkへのリンク
71:Keywordを表すノード
72:Keyword間の関連を表すエッジ
73:タンパク質機能名や疾患名
74:物質名など
【発明の属する技術分野】
本発明は、遺伝子や蛋白質の機能を予測する方法に関し、特にテキストマイニング技術を用いて検索対象配列の機能を予測する方法に関する。
【0002】
【従来の技術】
従来のゲノム創薬の研究は、ゲノム研究による個々の遺伝子の同定、個々の遺伝子の機能の解明、創薬ターゲット蛋白質の探索・同定、リード化合物の発見と構造の最適化、安全性・薬物動態の研究、薬理ゲノム科学の研究、臨床試験といったプロセスを経て行われるが、最初のゲノム研究の段階から情報の氾濫に圧倒されてしまう。ヒトゲノムプロジェクトチームの発表によると、ヒトの遺伝子の数は3万個から4万個といわれており、創薬のターゲットとしての妥当性を調べるためには、コストと時間を要する膨大な実験をしなければならない。
【0003】
そこで、対象となりそうな遺伝子/蛋白質を絞り込むために、問い合わせ配列(新たに決定された機能未知の配列)に対する機能予測の方法が提案されてきた。主なものとして類似性検索やモチーフ検索がある。類似性検索の一つであるホモロジー検索では、問い合わせ配列をデータベース中の既知の配列1つ1つと比較し、もしデータベース中に類似した配列があれば問い合わせ配列の機能もその類似配列の機能に類似していると推測する(非特許文献1,2参照)。モチーフ検索では、既知の配列の中から特定の機能グループを特徴づける配列モチーフ(局所的な保存配列パターン)を抽出してライブラリーを作っておき、それに対して検索を行う(非特許文献3参照)。いずれの方法も、機能未知の配列と類似性のある配列や配列グループの情報を公開データベースから検索し、あるいは自らのデータから構築したデータベースのデータを機能未知配列の予測機能として割り当てるといったものであった。
【0004】
【非特許文献1】
”Basic local alignment search tool”, Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) J. Mol. Biol. 215:403−410.
【非特許文献2】
”Identification of protein coding regions by database similarity search”, Gish, W. & States, D.J. (1993) Nature Genet. 3:266−272.
【非特許文献3】
”Pfam: multiple sequence alignments and HMM−profiles of protein domains”, Sonnhammer ELL, Eddy SR, Birney E, Bateman A, Durbin R (1998) Nucleic Acids Research 26:320−322.
【0005】
【発明が解決しようとする課題】
ところで、機能既知の配列に対しては、すでに各国の研究者によって様々な実験がなされている。実験によって得られた膨大な情報は、一部がデータベースに記載されているものの、多くの情報がデータベースには網羅されず、研究者によって出された論文に潜んでいると考えられる。前述の類似性検索やモチーフ検索は、データベースに記載されている情報をもとにしているため、情報量が不足しているといった問題がある。創薬研究にとって最も重要なのは、ゲノム情報(ゲノム配列や全長cDNA配列情報、並びに発現プロファイル情報)やSNPから創薬ターゲット遺伝子を探索すること、構造ゲノム科学の研究成果を効率的なドラックデザインに直結させること、SNP情報を臨床開発に早期に取り入れ、開発期間の短縮やコスト削減を達成することである。また、既に存在する実験情報を網羅的に調査する手段が存在しないため、創薬ターゲットをより絞り込むことができず、既に実験がなされている分野に対して、再度実験を行うといった問題があった。
【0006】
本発明は、このような従来技術の問題点に鑑み、効率よく新しい情報を網羅的に抽出して遺伝子や蛋白質の機能を予測することのできる方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明では、機能未知の配列に対する機能予測を、従来のデータベースに蓄積された知識だけに頼る方法から、約1000万件にも及ぶ文献に蓄積された知識をも参照して行うように変更することで前記目的を達成する。文献から得られた情報を幾つかの可視化ツールを用いてユーザーに分かりやすい形で表示することにより、データベースだけでは得られない情報の発見や配列の機能予測を支援する。
【0008】
本発明による情報検索方法は、クエリを入力するステップと、クエリと同種のデータを蓄積したデータベースを検索してクエリと関連度の高いエントリを検索するステップと、文書データベースを用いて検索されたエントリに関連する文書を検索するステップと、検索した文書のうちの少なくとも2つの文書に共通する特徴語を抽出するステップと、抽出された特徴語を表示するステップとを含むことを特徴とする。クエリは、典型的には、配列又は蛋白質の立体構造を表す構造情報であり、クエリと同種のデータを蓄積したデータベースは配列データベースである。
【0009】
文書を検索するステップでは、検索されたエントリに掲載されている文書をキー文書として連想検索して文書数を増やすのが好ましい。連想検索は複数の文書データベースを用いて行ってもよい。
【0010】
抽出された特徴語は、疾患などの概念毎に分類して出力するのが好ましい。また、抽出された特徴語を出現頻度でソートし、出願頻度の情報とともに表示する方法、あるいは抽出された特徴語をE値によってソートし、E値の情報とともに表示する方法も有効である。
【0011】
【発明の実施の形態】
以下、本発明の実施の形態を、図を用いて詳細に説明する。本発明では、配列情報や蛋白質の機能に関する情報を蓄積した公共データベースなどのデータベース、検索エンジンにインターネットなどの通信網を介してアクセスできる環境があることを前提とする。データベースや検索エンジンは既知のものを利用できるため、その内容についての詳細な説明は省略する。
【0012】
図1は、本発明による処理の概要を示すフローチャートである。まず、質問となる配列などのクエリを入力し(S11)、データベースからそのクエリと関連度の高いエントリを検索する(S12)。クエリと関連度の高いエントリは複数検索されるのが通常である。次に、そのエントリに関連する文書を検索する(S13)。この処理では、例えば検索された各エントリに参考文献として載っている文献をリストアップする。次に、リストアップされた文書の内容検索を行い、2つ以上の文書に共通して出現する特徴語を抽出する(S14)。最後に、抽出された特徴語を適当な表示方法で表示装置に出力する。こうして抽出された特徴語はクエリの性質の一面を表している可能性がある。本発明では、検索対象を文書データベースに蓄積された研究論文に拡張し、いわば生のデータを対象とした検索を行うため、生データから人の経験によって抽出され加工されたデータを蓄積している公共データベースを対象とした従来の検索では見落とされていた情報を取得できる可能性がある。
【0013】
図2は、本発明の方法を機能が未知である蛋白質の機能検索に適用した例を説明するフローチャートである。
【0014】
最初に、解析対象とする配列データや構造情報のクエリを入力する(S21)。クエリとして入力されるのは、例えば研究者が自ら解析した蛋白質の配列データである。次に、類似性検索を行い、クエリに類似する配列を検索する(S22)。この処理は具体的には、蛋白質のアミノ酸配列データベース、たとえばSWISS−PROTなどに対して、弱い類似性まで認めながら類似性検索を行う処理である。この検索は、塩基配列をアミノ酸配列に翻訳しながら類似性のある区間を探す検索である。
【0015】
次に、ステップ22で見つかったクエリと類似性のある配列を後述するE値の順などでソートし、相同性検索の出力結果として、蛋白質名やE値、関連する文献数、蛋白質アミノ酸データベースのエントリ名、たとえば、SWISS−PROTのエントリ名などを表示する(S23)。次に、クエリに類似性の高い配列の関連文献を抽出する(S24)。この処理では、ステップ22で見つかったSWISS−PROTのエントリにある文献のMEDLINE IDや文献数を求める。次に、クエリに類似性の高い配列の関連文献を、連想検索エンジンGETAを用いて再検索する(S25)。次に、連想検索で再検索され拡張された関連文献に含まれるキーワードを表示する(S26)。表示は、キーワードを含む文献の数などをマトリックス形式で表示してもよいし(S27)、文献の中で、キーワード同士の共起をカウントし、表形式で表示してもよい(S28)。
【0016】
図3に、図2のステップ21,22に示した相同性検索の処理の概要とBLASTの結果の表示方法を示す。
【0017】
クエリとしての検索対象配列や構造情報は、入力ボックス31に入力される。入力されたクエリに対して、蛋白質のアミノ酸配列データベース、たとえばSWISS−PROTなどから、弱い類似性まで認めながら類似性検索を行う。この検索は、塩基配列をアミノ酸配列に翻訳しながら類似性のある区間を探す検索であり、公知の技術を用いて、例えばNCBIのBLAST (Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman(1997), ”Gapped BLAST and PSI−BLAST: a new generation of protein database search programs”, Nucleic Acids Res.25:3389−3402.)を用いることにより可能である。BLASTを用いて相同性検索を行うと、相同性の高い配列の、データベースの種類やアクセッション番号、データベースのエントリ名、スコア、E値などの情報が得られる。ここで、スコアとは「2つの配列を並べて同じ位置に同じ残基があれば正の値、違えば負の値を与えて合計した点数」で、高い値であれば相同性が高い。また、E値とは「現在のデータベースにおいて、全く偶然に同じスコアになる配列の数の期待値」である。E値が小さいほど偶然には起こり得ないことを示す。従って、スコアが大きく、E値が小さい場合には、互いの配列同士の相同性は高いと言える。ボタン32を押すと、BLASTによる相同性検索が実行され、その結果が図の下の画面に示すように表示される。
【0018】
検索対象配列や構造情報などのクエリと相同性のある配列を相同性検索すると、相同性が高いと考えられる配列が幾つか得られる。結果表示画面には、相同性が高いとされた既知配列のエントリが相同性の高い順に表示される。図の表示画面の例では、表示する結果数を入力ボックス34にて指定できるようにし、そこで指定された数だけリスト出力する。デフォルトでの配列の出力数は50とする。表への出力項目としては、項目36に蛋白質アミノ酸配列データベース、たとえばSWISS−PROTのエントリ名を表示し、項目37に相同性の高さを表す値、たとえばE値を表示し、項目38に文献数を表示する。ここでの文献数とは、蛋白質アミノ酸配列データベース、たとえばSWISS−PROTなどを参照し、ステップ22の検索で見つかった類似性のある配列に関連するエントリにある文献の文献数である。また、相同性検索の結果は、相同性を持つ配列を相同性の高さを表す値、例えばE値によってソートし表示する。E値を相同性の高さを表す値として用いるのであれば、昇順でソートする。また、エントリ名36、ここではSWISS−PROTエントリ名から関連する蛋白質アミノ酸配列データベースのページにリンクをはる。文献数の表示38から、MEDLINEへのリンクも作成する。ボタン33を押すと、KEYWORD LISTを表示することができる。
【0019】
図4は、連想検索エンジンによる関連文献の再検索の処理の概要を示す図である。処理41は、図2のステップ24で得られた類似性のある配列に関連するエントリにある参考文献をキー文書とする処理である。処理42は、キー文書を連想検索エンジン、たとえばGETAなどに渡し、キー文書と関連の深い文献を連想検索する処理である。連想検索の結果、キー文書と関連の深い文献43が得られる。ここで、連想検索エンジンとは、キー文書に含まれる特徴的な単語50〜200個を自動選出し、それらの出現頻度や単語同士の関連性などの情報(牽引データ)を使った計算(連想計算)をする検索方式(連想検索)を採用し、即座にキー文書と関連する文書を検索するというエンジンである(例えば、特開平11−85786号公報、特開2002−222210号公報参照)。
【0020】
図5により、連想検索エンジンによって再検索され、拡張した文献集合に存在するキーワードの表示について説明する。
【0021】
図2のステップ25の連想検索処理によって拡張した文献集合が得られるが、図5に示す結果表示画面には、この文献に出現するKeywordを表示する。ここで、Keywordとは、一般的な物質名称や機能を表す用語、タンパク質名称、相互作用名などである。このようなKeywordの抽出方法としては、一般的な物質名称や機能を表す用語、タンパク質名称などの辞書を用いて、文献から抽出してくる方法やGene OntologyなどにあるOntologyを文献から抽出してくる方法やtf・idfなどの統計量を用いて文献からKeywordを選定する方法、品詞情報により文献からKeywordを抽出してくる方法等を用いる。この際、ありふれたキーワードを排除するために、予め不要語リストを作成しておく。ここで“tf(term frequency)”及び“idf (inverse document frequency)”は、次式で表されるものである。
tf(d,t)=(文書dにおけるKeyword tの出現頻度)
idf(t)=log(DBsize(db)/freq(t,db))+1
【0022】
DBsize(db)とは、対象とする文書データベースに含まれる文書総数、freq(t,db)は、term tが現れる文書データベース内の文書数である。文書dにおけるKeyword tの重みweight(d,t)は両者を合わせて、weight(d,t)=tf(d,t)*idf(t)となる。tf・idfを用いて文献からKeywordを選定する方法は、このweightの高いKeywordを文献から抽出してくる方法である。
【0023】
図5に示すように、KEYWORD LISTの表示では、欄55にKeywordを表示し、欄56に文献出現頻度、欄57にKeywordと関連のある配列のE値の最良値、欄58に類似性のある配列のSWISS−PROTの参考文献での出現頻度を表示する。図5の表示によると、例えば“Plasmid”というKeywordは連想検索で検索された文献中に54回出現し、Keyword“Plasmid”と関連のある配列のE値の最良値はe−130、“Plasmid”は第1番目の文献には2回出現し、第2番目の文献には出現しなかったが、第3番目の文献には1回、第4番目の文献には4回出現し、第n番目の文献には2回出現したことが分かる。ボタン53を押すことによりKeywordは文献出現頻度あるいはE値でソート出来るようにする。また入力ボックス52で、表示する結果数を調整できるようにする。デフォルトでは50のKeywordが表示されるようになっている。またボタン51を押すと、KEYWORD MATRIXを表示することができる。
【0024】
図6は、KEYWORD MATRIXの表示例を示す図である。図6は、文献の中でのKeywordの共起をカウントし、表に形に表したものである。縦軸と横軸にKeywordを表示し、その交点のセルに2つのKeywordの共起数を表示する。共起には、1文献中での共起、1つの文献の1段落中での共起、1センテンス中での共起、着目するKeywordから前後20wordの範囲内での共起等、種々の程度があり、ユーザーが適宜指定できるものとする。また、ボタン61を押すとKEYWORD RELATION NETWORKを表示することができる。
【0025】
図7は、KEYWORDの共起の可視化についての説明図である。ここでは、2種類の可視化の方法を説明する。
【0026】
まず、KEYWORD RELATION NETWORKの表示画面では、白丸71で示すノードがKeywordを表し、それらのノードを結ぶ線(エッジ)72がKeyword間の関係を表している。共起の回数によってエッジの色や太さを変化させて表示する。このビューアによってKeyword間の関連性をユーザーに分かりやすい形で表示することができる。
【0027】
ONTOROGYの表示画面の方では、文献から得られたKeywordを、できるだけ対角化を行うソート処理やE値の閾値を与えるスライダーバーの設定、タンパク質機能名や疾患名、物質名などによりソートを行い表示する。図示した例の縦軸73は疾患名によってソートしたもの、横軸74は遺伝子やタンパク質名などのキーワードを重要度(E値など)の高い順に並べたものである。疾患名等によるクラスタ分類はG−ONTOROGYなどのONTOROGYデータベースを利用して行うことができる。また、75のようにノードには遺伝子やタンパク質名などのキーワード、エッジには共起や相互作用などが来るように表示を行う。ノードの表示色の濃さにE値を反映させることもできる。ONTOROGYによって疾患やタンパク質機能によって関連するKeywordをより分かりやすい形で提示することができ、生物医学専門家の機能予測の支援を行う。
【0028】
【発明の効果】
本発明によると、検索対象配列や構造情報などのクエリの機能を、相同性のある機能既知の配列と関連する膨大な文献から発見したり、予測したりする支援ができるようになる。その際、文献から抽出された機能はビューアを用いて可視化し、生物医学専門家の機能予測の支援を行う。従来、既知の知識を網羅的に扱うことが不可能であったために、予測が不十分となっていて、実験において時間的コストがかかっていたものを、本発明によって、効率を上げることができるようになる。
【図面の簡単な説明】
【図1】本発明による処理の概要を示すフローチャート。
【図2】本発明の方法を機能が未知である蛋白質の機能検索に適用した例を説明するフローチャート。
【図3】クエリを用いた相同性検索への入力と、相同性検索の結果表示例を示す図。
【図4】類似性のある配列と関連する文献に対して連想検索を行う処理の説明図。
【図5】KEYWORD LISTの表示例を示す図。
【図6】KEYWORD MATRIXの表示例を示す図。
【図7】KEYWORDの共起の可視化の表示例を示す図。
【符号の説明】
36:SWISS−PROTのエントリ名
37:E値(相同性の期待値)
38:各既知配列と関連があるSWISS−PROT中の参考文献数
43:連想検索された文書群
51:Keyword Matrixへのリンク
53:出現頻度やE値でのソートを指定するボタン
55:Keyword
56:出現頻度
57:E値
58:各既知配列の参考文献中でのKeyword出現頻度
61:Keyword Relation Networkへのリンク
71:Keywordを表すノード
72:Keyword間の関連を表すエッジ
73:タンパク質機能名や疾患名
74:物質名など
Claims (7)
- クエリを入力するステップと、
前記クエリと同種のデータを蓄積したデータベースを検索して前記クエリと関連度の高いエントリを検索するステップと、
文書データベースを用いて前記検索されたエントリに関連する文書を検索するステップと、
検索した文書のうちの少なくとも2つの文書に共通する特徴語を抽出するステップと、
抽出された特徴語を表示するステップと
を含むことを特徴とする情報検索方法。 - 請求項1記載の情報検索方法において、前記クエリは配列又は構造情報であり、前記クエリと同種のデータを蓄積したデータベースは配列データベースであることを特徴とする情報検索方法。
- 請求項1記載の情報検索方法において、前記文書を検索するステップでは、前記検索されたエントリに掲載されている文書をキー文書として連想検索することを特徴とする情報検索方法。
- 請求項1記載の情報検索方法において、前記抽出された特徴語を概念毎に分類して出力することを特徴とする情報検索方法。
- 請求項2記載の情報検索方法において、前記抽出された特徴語を疾患毎に分類して出力することを特徴とする情報検索方法。
- 請求項1記載の情報検索方法において、前記抽出された特徴語を出現頻度でソートし、前記出願頻度の情報とともに表示することを特徴とする情報検索方法。
- 請求項1記載の情報検索方法において、前記抽出された特徴語をE値によってソートし、前記E値の情報とともに表示することを特徴とする情報検索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003132846A JP2004334753A (ja) | 2003-05-12 | 2003-05-12 | 情報検索方法 |
US10/841,525 US20050004900A1 (en) | 2003-05-12 | 2004-05-10 | Information search method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003132846A JP2004334753A (ja) | 2003-05-12 | 2003-05-12 | 情報検索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004334753A true JP2004334753A (ja) | 2004-11-25 |
Family
ID=33507566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003132846A Pending JP2004334753A (ja) | 2003-05-12 | 2003-05-12 | 情報検索方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20050004900A1 (ja) |
JP (1) | JP2004334753A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011087266A2 (ko) * | 2010-01-18 | 2011-07-21 | 한국기초과학지원연구원 | 유전자 명명법을 이용한 상동체 유전자의 발굴 방법 |
US11915798B2 (en) | 2019-05-30 | 2024-02-27 | Fujitsu Limited | Material characteristic prediction apparatus and material characteristic prediction method |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005352878A (ja) * | 2004-06-11 | 2005-12-22 | Hitachi Ltd | 文書検索システム、検索サーバ、及び検索クライアント |
US20070022000A1 (en) * | 2005-07-22 | 2007-01-25 | Accenture Llp | Data analysis using graphical visualization |
US20070106644A1 (en) * | 2005-11-08 | 2007-05-10 | International Business Machines Corporation | Methods and apparatus for extracting and correlating text information derived from comment and product databases for use in identifying product improvements based on comment and product database commonalities |
JP5010885B2 (ja) * | 2006-09-29 | 2012-08-29 | 株式会社ジャストシステム | 文書検索装置、文書検索方法および文書検索プログラム |
US20100191573A1 (en) * | 2009-01-27 | 2010-07-29 | Mediasmith, Inc. | Computer system and method of determining target subset of data based on measured parameter |
US9008489B2 (en) * | 2012-02-17 | 2015-04-14 | Kddi Corporation | Keyword-tagging of scenes of interest within video content |
US20170185653A1 (en) * | 2015-12-29 | 2017-06-29 | Quixey, Inc. | Predicting Knowledge Types In A Search Query Using Word Co-Occurrence And Semi/Unstructured Free Text |
CN112530523A (zh) * | 2019-09-18 | 2021-03-19 | 智慧芽信息科技(苏州)有限公司 | 数据库构建方法、文件检索方法以及装置 |
-
2003
- 2003-05-12 JP JP2003132846A patent/JP2004334753A/ja active Pending
-
2004
- 2004-05-10 US US10/841,525 patent/US20050004900A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011087266A2 (ko) * | 2010-01-18 | 2011-07-21 | 한국기초과학지원연구원 | 유전자 명명법을 이용한 상동체 유전자의 발굴 방법 |
WO2011087266A3 (ko) * | 2010-01-18 | 2011-12-01 | 한국기초과학지원연구원 | 유전자 명명법을 이용한 상동체 유전자의 발굴 방법 |
US11915798B2 (en) | 2019-05-30 | 2024-02-27 | Fujitsu Limited | Material characteristic prediction apparatus and material characteristic prediction method |
Also Published As
Publication number | Publication date |
---|---|
US20050004900A1 (en) | 2005-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ng et al. | Toward routine automatic pathway discovery from on-line scientific text abstracts | |
Reiter et al. | A systematic analysis of human disease-associated gene sequences in Drosophila melanogaster | |
US6876930B2 (en) | Automated pathway recognition system | |
Finn et al. | Identifying protein domains with the Pfam database | |
CN106383836B (zh) | 将可操作属性归于描述个人身份的数据 | |
KR101117603B1 (ko) | 상호 연계 가능한 다중 맵 생성을 통한 바이오메디컬 기능연관정보 제공 시스템 및 방법 | |
Ringwald et al. | The mouse gene expression database (GXD) | |
JP2009520278A (ja) | 科学情報知識管理のためのシステムおよび方法 | |
Agapito et al. | Extracting cross-ontology weighted association rules from gene ontology annotations | |
JP2004334753A (ja) | 情報検索方法 | |
Friedberg et al. | Using an alignment of fragment strings for comparing protein structures | |
JP5994490B2 (ja) | データ検索プログラム、データベース装置および情報処理システム | |
Roy et al. | Latent Semantic Indexing of PubMed abstracts for identification of transcription factor candidates from microarray derived gene sets | |
US20050033569A1 (en) | Methods and systems for automatically identifying gene/protein terms in medline abstracts | |
JP2004318321A (ja) | 生物情報検索システム及び検索方法 | |
Doctor et al. | The apoptosis database | |
Van Vooren et al. | Mapping biomedical concepts onto the human genome by mining literature on chromosomal aberrations | |
Winnenburg et al. | Improved mutation tagging with gene identifiers applied to membrane protein stability prediction | |
JP2003022275A (ja) | 文書検索システムおよび方法 | |
Ebrahimi et al. | Analysis of Persian Bioinformatics Research with Topic Modeling | |
Hertz-Fowler et al. | Parasite genome databases and web-based resources | |
JP2008021028A (ja) | キーワード抽出システム及びキーワード分類システム | |
Bult | Bioinformatics resources for behavior studies in the laboratory mouse | |
Liang et al. | New gene embedding learned from biomedical literature and its application in identifying cancer drivers | |
CN114927168B (zh) | 一种生物力学调控骨改建文本挖掘交互网站构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060404 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090616 |