JP2004334753A

JP2004334753A - 情報検索方法

Info

Publication number: JP2004334753A
Application number: JP2003132846A
Authority: JP
Inventors: Yoshihiro Ota; 佳宏大田; Tetsuo Nishikawa; 哲夫西川; Yoko Oi; 洋子大井; Toru Hisamitsu; 徹久光
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2003-05-12
Filing date: 2003-05-12
Publication date: 2004-11-25
Also published as: US20050004900A1

Abstract

【課題】効率よく新しい情報を網羅的に抽出して遺伝子や蛋白質の機能を予測する。
【解決手段】最初、配列データベースを用い、検索対象配列や構造情報と関連度の高い既知の配列データを得る。次に、文書データベースを用い、得られた既知の配列データについて関連する文書を検索する。抽出された複数の文書間で、共通する特徴語を抽出し、出力する。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、遺伝子や蛋白質の機能を予測する方法に関し、特にテキストマイニング技術を用いて検索対象配列の機能を予測する方法に関する。
【０００２】
【従来の技術】
従来のゲノム創薬の研究は、ゲノム研究による個々の遺伝子の同定、個々の遺伝子の機能の解明、創薬ターゲット蛋白質の探索・同定、リード化合物の発見と構造の最適化、安全性・薬物動態の研究、薬理ゲノム科学の研究、臨床試験といったプロセスを経て行われるが、最初のゲノム研究の段階から情報の氾濫に圧倒されてしまう。ヒトゲノムプロジェクトチームの発表によると、ヒトの遺伝子の数は３万個から４万個といわれており、創薬のターゲットとしての妥当性を調べるためには、コストと時間を要する膨大な実験をしなければならない。
【０００３】
そこで、対象となりそうな遺伝子／蛋白質を絞り込むために、問い合わせ配列（新たに決定された機能未知の配列）に対する機能予測の方法が提案されてきた。主なものとして類似性検索やモチーフ検索がある。類似性検索の一つであるホモロジー検索では、問い合わせ配列をデータベース中の既知の配列１つ１つと比較し、もしデータベース中に類似した配列があれば問い合わせ配列の機能もその類似配列の機能に類似していると推測する（非特許文献１，２参照）。モチーフ検索では、既知の配列の中から特定の機能グループを特徴づける配列モチーフ（局所的な保存配列パターン）を抽出してライブラリーを作っておき、それに対して検索を行う（非特許文献３参照）。いずれの方法も、機能未知の配列と類似性のある配列や配列グループの情報を公開データベースから検索し、あるいは自らのデータから構築したデータベースのデータを機能未知配列の予測機能として割り当てるといったものであった。
【０００４】
【非特許文献１】
”Ｂａｓｉｃｌｏｃａｌａｌｉｇｎｍｅｎｔｓｅａｒｃｈｔｏｏｌ”，Ａｌｔｓｃｈｕｌ，Ｓ．Ｆ．，Ｇｉｓｈ，Ｗ．，Ｍｉｌｌｅｒ，Ｗ．，Ｍｙｅｒｓ，Ｅ．Ｗ．＆Ｌｉｐｍａｎ，Ｄ．Ｊ．（１９９０）Ｊ．Ｍｏｌ．Ｂｉｏｌ．２１５：４０３−４１０．
【非特許文献２】
”Ｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｐｒｏｔｅｉｎｃｏｄｉｎｇｒｅｇｉｏｎｓｂｙｄａｔａｂａｓｅｓｉｍｉｌａｒｉｔｙｓｅａｒｃｈ”，Ｇｉｓｈ，Ｗ．＆Ｓｔａｔｅｓ，Ｄ．Ｊ．（１９９３）ＮａｔｕｒｅＧｅｎｅｔ．３：２６６−２７２．
【非特許文献３】
”Ｐｆａｍ：ｍｕｌｔｉｐｌｅｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔｓａｎｄＨＭＭ−ｐｒｏｆｉｌｅｓｏｆｐｒｏｔｅｉｎｄｏｍａｉｎｓ”，ＳｏｎｎｈａｍｍｅｒＥＬＬ，ＥｄｄｙＳＲ，ＢｉｒｎｅｙＥ，ＢａｔｅｍａｎＡ，ＤｕｒｂｉｎＲ（１９９８）ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ２６：３２０−３２２．
【０００５】
【発明が解決しようとする課題】
ところで、機能既知の配列に対しては、すでに各国の研究者によって様々な実験がなされている。実験によって得られた膨大な情報は、一部がデータベースに記載されているものの、多くの情報がデータベースには網羅されず、研究者によって出された論文に潜んでいると考えられる。前述の類似性検索やモチーフ検索は、データベースに記載されている情報をもとにしているため、情報量が不足しているといった問題がある。創薬研究にとって最も重要なのは、ゲノム情報（ゲノム配列や全長ｃＤＮＡ配列情報、並びに発現プロファイル情報）やＳＮＰから創薬ターゲット遺伝子を探索すること、構造ゲノム科学の研究成果を効率的なドラックデザインに直結させること、ＳＮＰ情報を臨床開発に早期に取り入れ、開発期間の短縮やコスト削減を達成することである。また、既に存在する実験情報を網羅的に調査する手段が存在しないため、創薬ターゲットをより絞り込むことができず、既に実験がなされている分野に対して、再度実験を行うといった問題があった。
【０００６】
本発明は、このような従来技術の問題点に鑑み、効率よく新しい情報を網羅的に抽出して遺伝子や蛋白質の機能を予測することのできる方法を提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明では、機能未知の配列に対する機能予測を、従来のデータベースに蓄積された知識だけに頼る方法から、約１０００万件にも及ぶ文献に蓄積された知識をも参照して行うように変更することで前記目的を達成する。文献から得られた情報を幾つかの可視化ツールを用いてユーザーに分かりやすい形で表示することにより、データベースだけでは得られない情報の発見や配列の機能予測を支援する。
【０００８】
本発明による情報検索方法は、クエリを入力するステップと、クエリと同種のデータを蓄積したデータベースを検索してクエリと関連度の高いエントリを検索するステップと、文書データベースを用いて検索されたエントリに関連する文書を検索するステップと、検索した文書のうちの少なくとも２つの文書に共通する特徴語を抽出するステップと、抽出された特徴語を表示するステップとを含むことを特徴とする。クエリは、典型的には、配列又は蛋白質の立体構造を表す構造情報であり、クエリと同種のデータを蓄積したデータベースは配列データベースである。
【０００９】
文書を検索するステップでは、検索されたエントリに掲載されている文書をキー文書として連想検索して文書数を増やすのが好ましい。連想検索は複数の文書データベースを用いて行ってもよい。
【００１０】
抽出された特徴語は、疾患などの概念毎に分類して出力するのが好ましい。また、抽出された特徴語を出現頻度でソートし、出願頻度の情報とともに表示する方法、あるいは抽出された特徴語をＥ値によってソートし、Ｅ値の情報とともに表示する方法も有効である。
【００１１】
【発明の実施の形態】
以下、本発明の実施の形態を、図を用いて詳細に説明する。本発明では、配列情報や蛋白質の機能に関する情報を蓄積した公共データベースなどのデータベース、検索エンジンにインターネットなどの通信網を介してアクセスできる環境があることを前提とする。データベースや検索エンジンは既知のものを利用できるため、その内容についての詳細な説明は省略する。
【００１２】
図１は、本発明による処理の概要を示すフローチャートである。まず、質問となる配列などのクエリを入力し（Ｓ１１）、データベースからそのクエリと関連度の高いエントリを検索する（Ｓ１２）。クエリと関連度の高いエントリは複数検索されるのが通常である。次に、そのエントリに関連する文書を検索する（Ｓ１３）。この処理では、例えば検索された各エントリに参考文献として載っている文献をリストアップする。次に、リストアップされた文書の内容検索を行い、２つ以上の文書に共通して出現する特徴語を抽出する（Ｓ１４）。最後に、抽出された特徴語を適当な表示方法で表示装置に出力する。こうして抽出された特徴語はクエリの性質の一面を表している可能性がある。本発明では、検索対象を文書データベースに蓄積された研究論文に拡張し、いわば生のデータを対象とした検索を行うため、生データから人の経験によって抽出され加工されたデータを蓄積している公共データベースを対象とした従来の検索では見落とされていた情報を取得できる可能性がある。
【００１３】
図２は、本発明の方法を機能が未知である蛋白質の機能検索に適用した例を説明するフローチャートである。
【００１４】
最初に、解析対象とする配列データや構造情報のクエリを入力する（Ｓ２１）。クエリとして入力されるのは、例えば研究者が自ら解析した蛋白質の配列データである。次に、類似性検索を行い、クエリに類似する配列を検索する（Ｓ２２）。この処理は具体的には、蛋白質のアミノ酸配列データベース、たとえばＳＷＩＳＳ−ＰＲＯＴなどに対して、弱い類似性まで認めながら類似性検索を行う処理である。この検索は、塩基配列をアミノ酸配列に翻訳しながら類似性のある区間を探す検索である。
【００１５】
次に、ステップ２２で見つかったクエリと類似性のある配列を後述するＥ値の順などでソートし、相同性検索の出力結果として、蛋白質名やＥ値、関連する文献数、蛋白質アミノ酸データベースのエントリ名、たとえば、ＳＷＩＳＳ−ＰＲＯＴのエントリ名などを表示する（Ｓ２３）。次に、クエリに類似性の高い配列の関連文献を抽出する（Ｓ２４）。この処理では、ステップ２２で見つかったＳＷＩＳＳ−ＰＲＯＴのエントリにある文献のＭＥＤＬＩＮＥＩＤや文献数を求める。次に、クエリに類似性の高い配列の関連文献を、連想検索エンジンＧＥＴＡを用いて再検索する（Ｓ２５）。次に、連想検索で再検索され拡張された関連文献に含まれるキーワードを表示する（Ｓ２６）。表示は、キーワードを含む文献の数などをマトリックス形式で表示してもよいし（Ｓ２７）、文献の中で、キーワード同士の共起をカウントし、表形式で表示してもよい（Ｓ２８）。
【００１６】
図３に、図２のステップ２１，２２に示した相同性検索の処理の概要とＢＬＡＳＴの結果の表示方法を示す。
【００１７】
クエリとしての検索対象配列や構造情報は、入力ボックス３１に入力される。入力されたクエリに対して、蛋白質のアミノ酸配列データベース、たとえばＳＷＩＳＳ−ＰＲＯＴなどから、弱い類似性まで認めながら類似性検索を行う。この検索は、塩基配列をアミノ酸配列に翻訳しながら類似性のある区間を探す検索であり、公知の技術を用いて、例えばＮＣＢＩのＢＬＡＳＴ（Ａｌｔｓｃｈｕｌ，ＳｔｅｐｈｅｎＦ．，ＴｈｏｍａｓＬ．Ｍａｄｄｅｎ，ＡｌｅｊａｎｄｒｏＡ．Ｓｃｈａｆｆｅｒ，ＪｉｎｇｈｕｉＺｈａｎｇ，ＺｈｅｎｇＺｈａｎｇ，ＷｅｂｂＭｉｌｌｅｒ，ａｎｄＤａｖｉｄＪ．Ｌｉｐｍａｎ（１９９７）， ”ＧａｐｐｅｄＢＬＡＳＴａｎｄＰＳＩ−ＢＬＡＳＴ：ａｎｅｗｇｅｎｅｒａｔｉｏｎｏｆｐｒｏｔｅｉｎｄａｔａｂａｓｅｓｅａｒｃｈｐｒｏｇｒａｍｓ”，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２５：３３８９−３４０２．）を用いることにより可能である。ＢＬＡＳＴを用いて相同性検索を行うと、相同性の高い配列の、データベースの種類やアクセッション番号、データベースのエントリ名、スコア、Ｅ値などの情報が得られる。ここで、スコアとは「２つの配列を並べて同じ位置に同じ残基があれば正の値、違えば負の値を与えて合計した点数」で、高い値であれば相同性が高い。また、Ｅ値とは「現在のデータベースにおいて、全く偶然に同じスコアになる配列の数の期待値」である。Ｅ値が小さいほど偶然には起こり得ないことを示す。従って、スコアが大きく、Ｅ値が小さい場合には、互いの配列同士の相同性は高いと言える。ボタン３２を押すと、ＢＬＡＳＴによる相同性検索が実行され、その結果が図の下の画面に示すように表示される。
【００１８】
検索対象配列や構造情報などのクエリと相同性のある配列を相同性検索すると、相同性が高いと考えられる配列が幾つか得られる。結果表示画面には、相同性が高いとされた既知配列のエントリが相同性の高い順に表示される。図の表示画面の例では、表示する結果数を入力ボックス３４にて指定できるようにし、そこで指定された数だけリスト出力する。デフォルトでの配列の出力数は５０とする。表への出力項目としては、項目３６に蛋白質アミノ酸配列データベース、たとえばＳＷＩＳＳ−ＰＲＯＴのエントリ名を表示し、項目３７に相同性の高さを表す値、たとえばＥ値を表示し、項目３８に文献数を表示する。ここでの文献数とは、蛋白質アミノ酸配列データベース、たとえばＳＷＩＳＳ−ＰＲＯＴなどを参照し、ステップ２２の検索で見つかった類似性のある配列に関連するエントリにある文献の文献数である。また、相同性検索の結果は、相同性を持つ配列を相同性の高さを表す値、例えばＥ値によってソートし表示する。Ｅ値を相同性の高さを表す値として用いるのであれば、昇順でソートする。また、エントリ名３６、ここではＳＷＩＳＳ−ＰＲＯＴエントリ名から関連する蛋白質アミノ酸配列データベースのページにリンクをはる。文献数の表示３８から、ＭＥＤＬＩＮＥへのリンクも作成する。ボタン３３を押すと、ＫＥＹＷＯＲＤＬＩＳＴを表示することができる。
【００１９】
図４は、連想検索エンジンによる関連文献の再検索の処理の概要を示す図である。処理４１は、図２のステップ２４で得られた類似性のある配列に関連するエントリにある参考文献をキー文書とする処理である。処理４２は、キー文書を連想検索エンジン、たとえばＧＥＴＡなどに渡し、キー文書と関連の深い文献を連想検索する処理である。連想検索の結果、キー文書と関連の深い文献４３が得られる。ここで、連想検索エンジンとは、キー文書に含まれる特徴的な単語５０〜２００個を自動選出し、それらの出現頻度や単語同士の関連性などの情報（牽引データ）を使った計算（連想計算）をする検索方式（連想検索）を採用し、即座にキー文書と関連する文書を検索するというエンジンである（例えば、特開平１１−８５７８６号公報、特開２００２−２２２２１０号公報参照）。
【００２０】
図５により、連想検索エンジンによって再検索され、拡張した文献集合に存在するキーワードの表示について説明する。
【００２１】
図２のステップ２５の連想検索処理によって拡張した文献集合が得られるが、図５に示す結果表示画面には、この文献に出現するＫｅｙｗｏｒｄを表示する。ここで、Ｋｅｙｗｏｒｄとは、一般的な物質名称や機能を表す用語、タンパク質名称、相互作用名などである。このようなＫｅｙｗｏｒｄの抽出方法としては、一般的な物質名称や機能を表す用語、タンパク質名称などの辞書を用いて、文献から抽出してくる方法やＧｅｎｅＯｎｔｏｌｏｇｙなどにあるＯｎｔｏｌｏｇｙを文献から抽出してくる方法やｔｆ・ｉｄｆなどの統計量を用いて文献からＫｅｙｗｏｒｄを選定する方法、品詞情報により文献からＫｅｙｗｏｒｄを抽出してくる方法等を用いる。この際、ありふれたキーワードを排除するために、予め不要語リストを作成しておく。ここで“ｔｆ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ）”及び“ｉｄｆ（ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）”は、次式で表されるものである。
ｔｆ（ｄ，ｔ）＝（文書ｄにおけるＫｅｙｗｏｒｄｔの出現頻度）
ｉｄｆ（ｔ）＝ｌｏｇ（ＤＢｓｉｚｅ（ｄｂ）／ｆｒｅｑ（ｔ，ｄｂ））＋１
【００２２】
ＤＢｓｉｚｅ（ｄｂ）とは、対象とする文書データベースに含まれる文書総数、ｆｒｅｑ（ｔ，ｄｂ）は、ｔｅｒｍｔが現れる文書データベース内の文書数である。文書ｄにおけるＫｅｙｗｏｒｄｔの重みｗｅｉｇｈｔ（ｄ，ｔ）は両者を合わせて、ｗｅｉｇｈｔ（ｄ，ｔ）＝ｔｆ（ｄ，ｔ）＊ｉｄｆ（ｔ）となる。ｔｆ・ｉｄｆを用いて文献からＫｅｙｗｏｒｄを選定する方法は、このｗｅｉｇｈｔの高いＫｅｙｗｏｒｄを文献から抽出してくる方法である。
【００２３】
図５に示すように、ＫＥＹＷＯＲＤＬＩＳＴの表示では、欄５５にＫｅｙｗｏｒｄを表示し、欄５６に文献出現頻度、欄５７にＫｅｙｗｏｒｄと関連のある配列のＥ値の最良値、欄５８に類似性のある配列のＳＷＩＳＳ−ＰＲＯＴの参考文献での出現頻度を表示する。図５の表示によると、例えば“Ｐｌａｓｍｉｄ”というＫｅｙｗｏｒｄは連想検索で検索された文献中に５４回出現し、Ｋｅｙｗｏｒｄ“Ｐｌａｓｍｉｄ”と関連のある配列のＥ値の最良値はｅ−１３０、“Ｐｌａｓｍｉｄ”は第１番目の文献には２回出現し、第２番目の文献には出現しなかったが、第３番目の文献には１回、第４番目の文献には４回出現し、第ｎ番目の文献には２回出現したことが分かる。ボタン５３を押すことによりＫｅｙｗｏｒｄは文献出現頻度あるいはＥ値でソート出来るようにする。また入力ボックス５２で、表示する結果数を調整できるようにする。デフォルトでは５０のＫｅｙｗｏｒｄが表示されるようになっている。またボタン５１を押すと、ＫＥＹＷＯＲＤＭＡＴＲＩＸを表示することができる。
【００２４】
図６は、ＫＥＹＷＯＲＤＭＡＴＲＩＸの表示例を示す図である。図６は、文献の中でのＫｅｙｗｏｒｄの共起をカウントし、表に形に表したものである。縦軸と横軸にＫｅｙｗｏｒｄを表示し、その交点のセルに２つのＫｅｙｗｏｒｄの共起数を表示する。共起には、１文献中での共起、１つの文献の１段落中での共起、１センテンス中での共起、着目するＫｅｙｗｏｒｄから前後２０ｗｏｒｄの範囲内での共起等、種々の程度があり、ユーザーが適宜指定できるものとする。また、ボタン６１を押すとＫＥＹＷＯＲＤＲＥＬＡＴＩＯＮＮＥＴＷＯＲＫを表示することができる。
【００２５】
図７は、ＫＥＹＷＯＲＤの共起の可視化についての説明図である。ここでは、２種類の可視化の方法を説明する。
【００２６】
まず、ＫＥＹＷＯＲＤＲＥＬＡＴＩＯＮＮＥＴＷＯＲＫの表示画面では、白丸７１で示すノードがＫｅｙｗｏｒｄを表し、それらのノードを結ぶ線（エッジ）７２がＫｅｙｗｏｒｄ間の関係を表している。共起の回数によってエッジの色や太さを変化させて表示する。このビューアによってＫｅｙｗｏｒｄ間の関連性をユーザーに分かりやすい形で表示することができる。
【００２７】
ＯＮＴＯＲＯＧＹの表示画面の方では、文献から得られたＫｅｙｗｏｒｄを、できるだけ対角化を行うソート処理やＥ値の閾値を与えるスライダーバーの設定、タンパク質機能名や疾患名、物質名などによりソートを行い表示する。図示した例の縦軸７３は疾患名によってソートしたもの、横軸７４は遺伝子やタンパク質名などのキーワードを重要度（Ｅ値など）の高い順に並べたものである。疾患名等によるクラスタ分類はＧ−ＯＮＴＯＲＯＧＹなどのＯＮＴＯＲＯＧＹデータベースを利用して行うことができる。また、７５のようにノードには遺伝子やタンパク質名などのキーワード、エッジには共起や相互作用などが来るように表示を行う。ノードの表示色の濃さにＥ値を反映させることもできる。ＯＮＴＯＲＯＧＹによって疾患やタンパク質機能によって関連するＫｅｙｗｏｒｄをより分かりやすい形で提示することができ、生物医学専門家の機能予測の支援を行う。
【００２８】
【発明の効果】
本発明によると、検索対象配列や構造情報などのクエリの機能を、相同性のある機能既知の配列と関連する膨大な文献から発見したり、予測したりする支援ができるようになる。その際、文献から抽出された機能はビューアを用いて可視化し、生物医学専門家の機能予測の支援を行う。従来、既知の知識を網羅的に扱うことが不可能であったために、予測が不十分となっていて、実験において時間的コストがかかっていたものを、本発明によって、効率を上げることができるようになる。
【図面の簡単な説明】
【図１】本発明による処理の概要を示すフローチャート。
【図２】本発明の方法を機能が未知である蛋白質の機能検索に適用した例を説明するフローチャート。
【図３】クエリを用いた相同性検索への入力と、相同性検索の結果表示例を示す図。
【図４】類似性のある配列と関連する文献に対して連想検索を行う処理の説明図。
【図５】ＫＥＹＷＯＲＤＬＩＳＴの表示例を示す図。
【図６】ＫＥＹＷＯＲＤＭＡＴＲＩＸの表示例を示す図。
【図７】ＫＥＹＷＯＲＤの共起の可視化の表示例を示す図。
【符号の説明】
３６：ＳＷＩＳＳ−ＰＲＯＴのエントリ名
３７：Ｅ値（相同性の期待値）
３８：各既知配列と関連があるＳＷＩＳＳ−ＰＲＯＴ中の参考文献数
４３：連想検索された文書群
５１：ＫｅｙｗｏｒｄＭａｔｒｉｘへのリンク
５３：出現頻度やＥ値でのソートを指定するボタン
５５：Ｋｅｙｗｏｒｄ
５６：出現頻度
５７：Ｅ値
５８：各既知配列の参考文献中でのＫｅｙｗｏｒｄ出現頻度
６１：ＫｅｙｗｏｒｄＲｅｌａｔｉｏｎＮｅｔｗｏｒｋへのリンク
７１：Ｋｅｙｗｏｒｄを表すノード
７２：Ｋｅｙｗｏｒｄ間の関連を表すエッジ
７３：タンパク質機能名や疾患名
７４：物質名など

Claims

クエリを入力するステップと、
前記クエリと同種のデータを蓄積したデータベースを検索して前記クエリと関連度の高いエントリを検索するステップと、
文書データベースを用いて前記検索されたエントリに関連する文書を検索するステップと、
検索した文書のうちの少なくとも２つの文書に共通する特徴語を抽出するステップと、
抽出された特徴語を表示するステップと
を含むことを特徴とする情報検索方法。
請求項１記載の情報検索方法において、前記クエリは配列又は構造情報であり、前記クエリと同種のデータを蓄積したデータベースは配列データベースであることを特徴とする情報検索方法。
請求項１記載の情報検索方法において、前記文書を検索するステップでは、前記検索されたエントリに掲載されている文書をキー文書として連想検索することを特徴とする情報検索方法。
請求項１記載の情報検索方法において、前記抽出された特徴語を概念毎に分類して出力することを特徴とする情報検索方法。
請求項２記載の情報検索方法において、前記抽出された特徴語を疾患毎に分類して出力することを特徴とする情報検索方法。
請求項１記載の情報検索方法において、前記抽出された特徴語を出現頻度でソートし、前記出願頻度の情報とともに表示することを特徴とする情報検索方法。
請求項１記載の情報検索方法において、前記抽出された特徴語をＥ値によってソートし、前記Ｅ値の情報とともに表示することを特徴とする情報検索方法。