JP2004178315A

JP2004178315A - データ配信方法、データ検索方法及びデータ検索システム

Info

Publication number: JP2004178315A
Application number: JP2002344452A
Authority: JP
Inventors: Tsunehiko Watanabe; 恒彦渡辺; Junji Yoshii; 淳治吉井; Sada Mizunuma; 貞水沼; Yuichi Minezaki; 雄一峰崎; Fumihisa Ogura; 文寿小倉; Keisuke Yamamoto; 圭介山本; Takeo Nagai; 健夫永井
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2002-11-27
Filing date: 2002-11-27
Publication date: 2004-06-24
Also published as: EP1424639A2; US20040139051A1; US7428527B2; EP1424639A3

Abstract

【課題】生体物質情報を格納している複数のデータベースより必要な情報を簡易に抽出する。
【解決手段】生体物質に関する情報を格納している複数のデータベース１１からデータをデータセンタにダウンロードし、ダウンロードしたデータから、インデックスとして、２つのデータベースのデータ間のリンクを表す情報、各データの詳細説明、及びホモロジー検索用の配列データを抽出し、抽出したインデックス１５をユーザ施設に配信する。ユーザ１８は配信されたインデックスを用いて検索を行う。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、塩基配列、タンパク質配列などの生体物質に関する情報を格納する複数のデータベースを関連付けることにより、データベース間のつながりをまとめ、これより情報を検索する方法に関する。
【０００２】
【従来の技術】
生体物質に関する情報を蓄積したデータベースは世界中に存在し、Ｗｅｂ上で公開されている。生物の研究者はこれらのデータベースを活用し、自分の研究に役立てている（非特許文献１参照）。遺伝子情報、タンパク質情報に関する公開データベースは、データベース固有の登録番号（以下、ＩＤという）を持ち、これをそのデータベースが格納している遺伝子、タンパク質に割り当てている場合が多い。これまで研究者が自分のデータを公開データベースに対し検索し、データベース中のデータを取得する場合、何らかの手段を用いて自分のデータとデータベース固有のＩＤとの関連付けを行う必要があった。その最も一般的な方法は、研究者の持つ塩基配列、タンパク質配列とデータベースに格納してある塩基配列、タンパク質配列のホモロジー検索を行い、対応付けを行う方法である。
【０００３】
これには大きく分けて２つの方法がある。１つは自分のデータを公開データベースに対して一つ一つＷｅｂ検索する方法である。もう１つは、インターネットを介して検索することによる情報漏洩を防止するため、自分の施設内にＷｅｂ上のデータベースのデータを一つ一つダウンロードし、これに対して検索する方法である。図２１は、Ｗｅｂ上のデータベースのデータをダウンロードして検索する従来のシステムの模式図である。ユーザ２１８は、公開データベース２１１よりインターネット２１２を介してユーザの施設２１７にファイル２１９を一つ一つダウンロードする。その後、ユーザ２１８は、ダウンロードしたファイル２１９に対して検索を行う。
【非特許文献１】
Ｂａｘｅｂａｎｉｓ，Ａ．Ｄ：Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．，２８：１−１０，２０００， ”ＧｅｎｅｔｉｃｓＤａｔａｂａｓｅｓ” （ＢｉｓｈｏｐＭ．Ｊｅｄ．），ＡｃａｄｅｍｉｃＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，１９９９
【０００４】
【発明が解決しようとする課題】
従来は、研究者が一度に扱うデータ数は１個から１０個程度であったので、一つ一つＷｅｂ検索して情報検索することも可能だったが、近年の技術革新により数百から数千のデータを扱うようになり、一つ一つ検索するのは非常に煩雑な作業になった。また、複数の公開データベースを検索すると、不要なデータが検索結果として得られ、これより自分の必要な情報を再度抽出しなければならなかった。さらに、世界中にはたくさんのデータベースがあり、そのデータベースが自分に必要なものかどうか検討する必要があった。データベースの中には複数の生物種（ヒト、マウス、イネ等）が含まれている場合があり、ある生物種に関するデータをさまざまなデータベースから網羅的に取得するようなシステムはなかった。同様に、データの種類別（ＤＮＡ，ｍＲＮＡ，ＥＳＴ）に取得するようなシステムはなかった。
【０００５】
また、ユーザの施設内に複数の公開データベースからデータを一つ一つダウンロードする場合、ダウンロードするデータ量が多ければ、長時間かかり、ダウンロードの最中に回線が中断されてしまうという問題があった。また、ダウンロードのために長時間回線が占有されてしまうという問題があった。これに加え、現在は生物関連情報が急激に増加しており、今後のダウンロード作業はさらに手間取るようになることが考えられる。また、公開データベースの情報はそれぞれのデータベース管理者により管理されているため、生物の研究者がそれぞれの公開データベースの更新時期、現在のデータ数等を常に把握するのは困難であった。
【０００６】
また、データベース間にはさまざまなリンクが存在する。従って、データを検索する場合、複数のリンクをたどって検索を行っていた。例えば図２２に示す通り、データベースＡのデータに対応するデータベースＤのデータを取得する場合、データベースＢを経由するルートとデータベースＣを経由するルートがある。データベースＡの遺伝子Ａ１に対応するデータベースＢのデータはＢ１，Ｂ２であり、これに対応するデータベースＤのデータはＤ１，Ｄ２である。また、遺伝子Ａ１に対応するデータベースＣのデータはＣ１、これに対応するデータベースＤのデータはＤ３である。この例の場合には、データベースＡの遺伝子Ａ１に対応するデータベースＤのデータがＤ１，Ｄ２，Ｄ３と３つあることになり、ユーザはどれが正しいデータが再度検証する必要がある。
【０００７】
本発明は、このような生体物質の情報に関するデータベース検索の現状に鑑み、ネットワーク上のデータベースのデータを容易に検索できる方法及びシステムを提供することを目的とする。
【０００８】
【課題を解決するための手段】
本発明においては、複数のデータベースより必要な情報を抽出してインデックスを作成し、これを配信する方法をとる。これにより、ユーザは必要な情報のみを得られるようになる。複数のデータを１つのインデックスにまとめてあるため、データ量が軽減され、データセンタからユーザの施設内へのダウンロードもスムーズに行われ、ダウンロードのために長時間回線が占有されてしまうという問題もない。また、データセンタでデータベースの更新、フォーマットの変更などに関して一括して対応できるため、ユーザはそれらの煩雑な作業から解放される。なお、情報の漏洩等の心配がない場合には、インデックスをユーザの施設内にダウンロードせずに、データセンタにおかれたインデックスに直接アクセスして検索を行ってもよい。
【０００９】
すなわち、本発明によるデータ配信方法は、生体物質に関する情報を格納している複数のデータベースからデータをダウンロードするステップと、ダウンロードしたデータから、インデックスとして、２つのデータベースのデータ間のリンクを表す情報、各データの詳細説明、及びホモロジー検索用の配列データを抽出するステップと、抽出したインデックスを配信するステップとを含むことを特徴とする。
【００１０】
本発明によるデータ検索方法は、生体物質に関する情報を格納している複数のデータベースからデータをダウンロードするステップと、ダウンロードしたデータから、２つのデータベースのデータ間のリンクを表す情報を抽出するステップと、検索キーとして、開始データベース名、ターゲットデータベース名、及び開始データベース中のデータＩＤを受け付けるステップと、予め設定された複数のデータベース間におけるリンクの順序を表す情報を参照し、受け付けた開始データベース中のデータＩＤを起点として、前記抽出したデータ間のリンクのうち予め設定されたデータベース間におけるリンクの順序に適合するリンクをたどってターゲットデータベースのデータＩＤを取得するステップと、取得したターゲットデータベースのデータＩＤを表示するステップとを含むことを特徴とする。
【００１１】
本発明によるデータ検索方法は、また、生体物質に関する情報を格納している複数のデータベースからデータをダウンロードするステップと、ダウンロードしたデータから、２つのデータベースのデータ間のリンクを表す情報及びホモロジー検索用の配列データを抽出するステップと、検索キーとして、開始データベース名、ターゲットデータベース名、及び入力配列データを受け付けるステップと、入力配列データで開始データベースのホモロジー検索用配列データをホモロジー検索するステップと、予め設定されたデータベース間におけるリンクの順序を表す情報を参照し、ホモロジー検索で求められた開始データベース中のデータＩＤを起点として、前記抽出したデータ間のリンクのうち予め設定されたデータベース間におけるリンクの順序に適合するリンクをたどってターゲットデータベースの対応するデータＩＤを取得するステップと、取得したターゲットデータベースのデータＩＤを表示するステップとを含むことを特徴とする。
【００１２】
本発明によるデータ検索方法は、また、生体物質に関する情報を格納している複数のデータベースから２つのデータベースのデータ間のリンクを表す情報を収集したインデックスデータを用意するステップと、前記複数のデータベース間におけるリンクの順序を定めたテーブルを用意するステップと、検索キーとして、開始データベース名、ターゲットデータベース名、及び開始データベース中のデータＩＤを受け付けるステップと、受け付けた開始データベース中のデータＩＤを起点として、前記データ間のリンクのうちデータベース間におけるリンクの順序に適合するリンクをたどってターゲットデータベースの対応するデータＩＤを取得するステップと、取得したターゲットデータベースのデータＩＤを表示するステップとを含むことを特徴とする。
【００１３】
本発明によるデータ検索方法は、また、生体物質に関する情報を格納している複数のデータベースから２つのデータベースのデータ間のリンクを表す情報及びホモロジー検索用の配列データを収集したインデックスデータを用意するステップと、前記複数のデータベース間におけるリンクの順序を定めたテーブルを用意するステップと、検索キーとして、開始データベース名、ターゲットデータベース名、及び入力配列データを受け付けるステップと、入力配列データで開始データベースのホモロジー検索用配列データをホモロジー検索するステップと、ホモロジー検索で求められた開始データベース中のデータＩＤを起点として、前記データ間のリンクのうち複数のデータベース間におけるリンクの順序に適合するリンクをたどってターゲットデータベースの対応するデータＩＤを取得するステップと、取得したターゲットデータベースのデータＩＤを表示するステップとを含むことを特徴とする。
【００１４】
本発明によるデータ検索システムは、生体物質に関する情報を格納している複数のデータベースから２つのデータベースのデータ間のリンクを表す情報を収集したインデックスデータと、前記複数のデータベース間におけるリンクの順序を定めたテーブルと、検索キーとして、開始データベース名、ターゲットデータベース名、及び開始データベース中のデータＩＤを受け付ける入力部と、受け付けた開始データベース中のデータＩＤを起点として、前記データ間のリンクのうちデータベース間におけるリンクの順序に適合するリンクをたどってターゲットデータベースの対応するデータＩＤを取得する検索部と、取得したターゲットデータベースのデータＩＤを表示する表示部とを含むことを特徴とする。
【００１５】
本発明によるデータ検索システムは、また、生体物質に関する情報を格納している複数のデータベースから２つのデータベースのデータ間のリンクを表す情報及びホモロジー検索用の配列データを収集したインデックスデータと、前記複数のデータベース間におけるリンクの順序を定めたテーブルと、検索キーとして、開始データベース名、ターゲットデータベース名、及び入力配列データを受け付ける入力部と、入力配列データで開始データベースのホモロジー検索用配列データをホモロジー検索する第１検索部と、ホモロジー検索で求められた開始データベース中のデータＩＤを起点として、前記データ間のリンクのうち複数のデータベース間におけるリンクの順序に適合するリンクをたどってターゲットデータベースの対応するデータＩＤを取得する第２検索部と、取得したターゲットデータベースのデータＩＤを表示する表示部とを含むことを特徴とする。
【００１６】
本発明によると、インデックスに対して、数千のデータを一括検索できるようになる。また、ネットワークを構築するときに用いるデータベースを生物種別（ヒト、マウス、イネ等）、データの種類別（ＤＮＡ、ｍＲＮＡ、ＥＳＴ）等に分類整理しておくことにより、ユーザは目的に合わせたデータを取得できるようになる。また、複数のデータベース間におけるリンクの順序を定めたテーブル等を用意しておき、そこに定められたルートに従って複数のデータベースのリンクをたどることにより、ノイズの少ない検索結果を得ることができる。
【００１７】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。
図１は、本発明による生体物質情報検索システムの仕組みの一例を示す概念図である。公開データベースや商用データベース１１のデータは、インターネット１２を介してデータセンタ１３にダウンロードされる。データセンタ１３では、ダウンロードされたデータからインデックス１５を作成する。作成されたインデックス１５はユーザの施設１７に対して配信され（インデックス１６）、ユーザ１８は配信されたインデックス１６に対して検索を行う。
【００１８】
インデックスには、異なるデータベースに含まれるデータ間の対応関係を表すリンク情報、各データの詳細説明、ホモロジー検索用データが含まれる。各データの詳細説明とは、データベースのエントリ一つ一つに格納されているエントリの詳細説明である。ホモロジー検索用データとは、データベースに含まれている塩基配列やタンパク質配列などの配列情報である。ユーザは、自分の有する塩基配列もしくはタンパク質配列と、目的となる公開データベースのデータの塩基配列もしくはタンパク質配列との間でホモロジー検索を行う。ホモロジー検索を行うソフトウェアには通常ＢＬＡＳＴが用いられるため、ホモロジー検索用データはファスタ形式の配列データをＢＬＡＳＴ用にフォーマットしたものを用いる。
【００１９】
なお、ネットワークを構築するときに用いるデータベースは生物種別（ヒト、マウス、イネ等）、データの種類別（ＤＮＡ，ｍＲＮＡ，ＥＳＴ）に分類整理しておくことにより、ユーザは目的に合わせたデータを取得できるようになる。
【００２０】
図２は、生体物質情報を格納する複数のデータベースから、情報を検索するためのインデックスを作成する手順を示すフローチャートである。
まずステップ１１において、公的データベースや商用データベース等の公開されているデータベースからデータセンタにデータをダウンロードする。次に、ステップ１２において、ダウンロードしたデータから、リンク情報、ホモロジー検索用データ及びそれぞれのＩＤの詳細説明を自動抽出する。このとき、ホモロジー検索用データは、インデックスに登録するデータベースのうちで、配列情報が存在するすべてのデータベースについて取得する。また、詳細情報は、インデックスに登録するすべてのデータベースについて取得する。最後に、ステップ１３において、リンク情報、ホモロジー検索用データ、それぞれのＩＤの詳細説明をまとめてユーザの施設に配信する。
【００２１】
図３は、図２のステップ１２におけるリンク情報作成の手順を説明する図である。図示した例では、データベースＡはデータベースＢとデータベースＥに対応しており、データベースＡのエントリであるＡ１に対して、データベースＢのエントリＢ１とデータベースＥのエントリＥ１が対応しており、これがデータベースＡファイルに記述してある。従って、データベースＡファイルよりそれぞれのＩＤを取り出し、データベースＡのＡ１とデータベースＢのＢ１をテーブル３１に格納する。同様に、データベースＡのエントリＡ１とデータベースＥのエントリＥ１の対応が記述されており、これらを取り出しテーブル３２に格納する。データベースＢファイルにはデータベースＢのエントリＢ１とデータベースＣのエントリＣ１の対応が記述されており、これらを取り出しテーブル３３に格納する。データベースＣファイルにはデータベースＣのエントリＣ１とデータベースＤのエントリＤ１の対応が記述されており、これらを取り出しテーブル３４に格納する。これらのテーブル３１，３３，３４をつなぎ合わせることによりテーブル３５を作成できる。テーブル３２とテーブル３５を模式図で表すとリンク図３６のようになる。
【００２２】
図４は、リンク情報から得られるルートの他の例を示す図である。リンク情報としてデータベースに格納されているテーブルは、図３のテーブル３１〜３４等に示すように、２つのデータベースのＩＤが対応したものになっている。これより、図４に示す表４１もしくは表４２を作成する。これらの表をデータベース間の関係を示す模式図で表すとリンク図４３のようになる。このリンク図４３上で対応するデータをたどっていくことにより、例えばデータベースＡのデータＡ１に対応するデータベースＤのデータＤ１を検索することができる。
【００２３】
ここで、データベースには他の種々のデータベースとのリンク情報が記載されており、リンクが錯綜することにより図２２によって説明したような問題が生じることがある。そこで、本発明においては、それぞれのデータベース同士は決められたルール（順序）に従ってリンクするように、データベース間のリンクを制限する。データベース間のリンクの制限について以下に説明する。
【００２４】
図５は、許容されるデータベース間のリンクのルート（順序）に関する情報を格納したルートテーブルの例を示す図である。「ＫｅｙＤＢ」は検索の起点となるデータベース、「ＴａｒｇｅｔＤＢ」は「ＫｅｙＤＢ」中のデータに対応するデータを求めたいデータベースである。公開データベース、商用データベース、個人のオリジナルデータのデータベース等からなるデータベースＡ，Ｂ，Ｃ，…には、そのデータベースのあるデータが他のデータベースのどのデータに対応するかを示すデータ間のリンクの情報が複数記述されている場合があり、種々のルートをたどってＫｅｙＤＢ中の指定データに対応するＴａｒｇｅｔＤＢ中のデータを検索することが可能であるが、全てのリンク情報を利用すると、前述したようにノイズ情報を拾う可能性がある。そこで、ＫｅｙＤＢとＴａｒｇｅｔＤＢを指定すると、ＫｅｙＤＢからＴａｒｇｅｔＤＢに至るリンクのルート（順序）をルートテーブルによって一意に指定する。図示の例では、ＫｅｙＤＢがＡでＴａｒｇｅｔＤＢがＣの場合には、図５のルートテーブルを参照して、データベースＡ、データベースＢ、データベースＣの順にリンクをたどってデータベースＡ中のデータに対応するデータベースＣ中のデータを検索する。同様に、ＫｅｙＤＢがＡでＴａｒｇｅｔＤＢがＤの場合には、図５のルートテーブルを参照して、データベースＡ、データベースＢ、データベースＣ、データベースＤの順にリンクをたどってデータベースＡ中のデータに対応するデータベースＤ中のデータを検索する。
【００２５】
図６は、ルートテーブルの内容をネットワーク表示した例を示す図である。データベース６１と６３とが対応していることを２つのデータベースを結ぶ線６２が表している。いま、データベース６１はデータベース６３に格納されているデータを元に新たに作成されており、例えばデータベース６１に格納されているデータＡがデータベース６３に格納されているデータＢに対応しているとする。本発明では、このようなデータの起源に従ったリンク情報のみを利用し、例えばデータベース６１に他のデータベース６４とのリンク情報が格納されていても、それは検索のためのリンク情報としては利用しない。このようにデータベース間のリンクを制限することにより、不要なデータの取得を制限することができる。
【００２６】
図７は、データベース間のリンクを制限したことによる効果を説明する図であり、図２２に対応する図である。
データベースＡにデータベースＢへのリンク情報とデータベースＣへのリンク情報が記述されている場合、本発明では、より信頼性の高いデータベースＡとデータベースＣの間のリンク情報のみ利用し、データベースＡとデータベースＢの間のリンク情報は利用しない。その結果、データベースＡ中の遺伝子データＡ１に対応するデータベースＤの遺伝子データＤ３を取得することができる。このようにデータベース間のリンクを制限することにより、図２２に示したようなノイズとなる余分なデータの取得を制限し、適切なデータのみを取得することができるようになる。
【００２７】
図８は、図２のステップ１２におけるホモロジー検索用データの作成手順を示す図である。ここには、公開データベースからダウンロードしたファイル８１から各エントリーのＩＤ８３と配列データ８４を抽出し、ＦＡＳＴＡ形式の配列データ８５を格納したファイル８２を作成する例を示している。
【００２８】
図９は、詳細説明ファイルの作成手順を示す図である。ここには、公開データベースからダウンロードしたファイル９１から各エントリーのＩＤ９３とそのエントリに関する詳細説明９４を抽出し、詳細説明ファイル９２にＩＤと詳細説明の組９５として格納する例を示している。
【００２９】
図１０は、インデックス情報の詳細について示す図である。データセンタ１３において、インデックス情報（リンク情報１０１、詳細説明１０３、ホモロジー検索用データ１０６）を作成する。リンク情報１０１はネットワークに登録したデータベースより取得したリンク用テーブル１０２の形で保持する。詳細説明１０３は、ネットワークに登録したデータベースより取得した詳細説明用テーブル１０４として保持する。リンク情報と詳細説明のそれぞれのテーブルをデータベース１０７に格納する。また、ファスタ形式のファイル１０５に対しＢＬＡＳＴで使用するようフォーマットし、ホモロジー検索用データ１０６を作成する。データセンタ１３で作成したこれらのインデックス情報をユーザの施設１７に作成する。この場合、データベース１０７の複製をレプリケーション処理により、ユーザの施設１７のデータベース１０８に作成する。また、ホモロジー検索用データ１０６のコピー１０９を、ユーザの施設１７に転送する。また、データベース間のリンクのルート（順序）に関する情報を格納したルートテーブル１１０のコピー１１１もユーザの施設１７に転送される。
【００３０】
図１１は、本発明による生体物質情報検索の手順を示すフローチャートである。また、図１２は、この検索方法を実現するための検索システムの概略構成図である。
【００３１】
本発明による検索システムは、図１０にて説明したリンク情報及び詳細説明を格納したデータベース１２４、ホモロジー検索用データ１２５、データベース間のリンク順序を記載したルートテーブル１２６、入力操作部１２７、検索結果を表示する表示部１２８、及び検索処理部１２１を備える。検索処理部１２１は、リンクをたどってＩＤ検索を行うＩＤ検索部１２２と、入力操作部から入力された配列データとホモロジー検索用データの間でホモロジー検索を行うホモロジー検索部１２３を有する。図１３、図１４はデータ検索時の入力インタフェースの例を示す説明図である。図１３はデータベースのＩＤを検索する場合に用いる入力インタフェース、図１４は塩基配列、タンパク質配列を検索する場合に用いる入力インタフェースである。
【００３２】
最初に、ユーザデータのＩＤをネットワーク上のデータベースのＩＤに変換する検索方法及び検索システムについて説明する。
まず、図１１のステップ２１において、入力操作部１２７を操作してデータの入力を行う。例えば、図１５の例に示すような入力データのファイルを図１３に示す画面の「ＦｉｌｅＵｐｌｏａｄ」ボタン１３２で選択すると、図１３のデータ入力フィールド１３１にデータがカンマ区切りで表示される。「Ｃｌｅａｒ」ボタン１３３を押すと入力データがクリアされる。図１５に示した入力データ例は、ＮＣＢＩで公開しているＵｎｉＧｅｎｅのデータを示したものである。
【００３３】
図１１のステップ２２では、ＫｅｙＤＢ、ＴｅｒｇｅｔＤＢの設定を行う。入力データと同じＩＤをもつデータベースを図１３のＫｅｙＤＢリスト１３４から選択し、変換対象となるデータベースを図１３のＴｅｒｇｅｔＤＢリスト１３５で選択する。すると、ルートテーブル１２６を参照して、フィールド１３６に検索ルートが表示される。また、ボタン１３７を選択すると、ＩＤネットワークの全体図の図６が表示され、ＫｅｙＤＢとＴｅｒｇｅｔＤＢを確認することができる。
【００３４】
次に、ステップ２３において検索開始ボタン１３８を押し、検索を開始する。ＩＤ検索部１２２の検索プログラムは、指定された検索ルートをたどって入力されたＫｅｙＤＢのデータＩＤに対応するＴｅｒｇｅｔＤＢのデータＩＤを検索する。
【００３５】
次に、ステップ２４に進み、検索結果の表示を行う。図１６は、検索結果を表示する表示部１２８の表示画面例を示す図である。この図の例では、フィールド１６１にＫｅｙＤＢであるＵｎｉＧｅｎｅのエントリ１６２に対応するＴｅｒｇｅｔＤＢのＳＷＩＳＳ−ＰＲＯＴのエントリ１６３を示している。「ＨｉｔＣｏｕｎｔ」１６６にはＫｅｙＤＢのエントリ１６２に対応するＴｅｒｇｅｔＤＢのエントリ１６３の数を表示している。ＫｅｙＤＢボタンもしくはＴｅｒｇｅｔＤＢボタン１６４をクリックすることにより、図１７に示すような詳細説明が表示される。また、「ＶｉｅｗＲｏｕｔｅ」ボタン１６５をクリックすると図６に示すようなデータベース間の検索ルートを示した図が表示される。
【００３６】
次に、ユーザの検索したい塩基配列もしくはタンパク質配列をＩＤネットワーク上のデータベースのＩＤに変換する場合の例について説明する。
図１１のステップ２１において、入力操作部１２７から検索したい配列データの入力を行う。例えば、図１４に示す入力画面の「ＦｉｌｅＵｐｌｏａｄ」ボタン１４６をクリックし、図１８に例示するような入力データのファイルを選択すると、入力画面のデータ入力フィールド１４１に、入力した配列データが表示される。「Ｃｌｅａｒ」ボタンをクリックするとデータ入力フィールド１４１は空になる。
【００３７】
次に、ステップ２２に進み、ＫｅｙＤＢ、ＴａｒｇｅｔＤＢの設定を行う。検索データに対して対応させたいデータベース（ＫｅｙＤＢ）を図１４に示す入力画面のＤＢリスト１４９で選択し、変換対象となるデータベース（ＴａｒｇｅｔＤＢ）を図１４のＴｅｒｇｅｔＤＢリスト１４３で選択する。ＫｅｙＤＢの設定の後、検索したい配列データとＫｅｙＤＢとなるデータベースに格納されているデータが核酸配列かタンパク質配列かにより、プログラムリスト１４２から適当なＢＬＡＳＴ手法を選択する。例えば、「ｂｌａｓｔｎ（ＤＮＡＱｕｅｒｙｖｓ．ＤＮＡＤＢ）」は核酸配列の検索データで核酸配列データベースをサーチする。「ｂｌａｓｔｐ（ＰｒｏｔｅｉｎＱｕｅｒｙｖｓ．ＰｒｏｔｅｉｎＤＢ）」はタンパク質配列のクエリーでタンパク質配列データベースをサーチする。「ｂｌａｓｔｘ（ＤＮＡＱｕｅｒｙｖｓ．ＰｒｏｔｅｉｎＤＢ）」は核酸配列のクエリーを６フレーム翻訳してタンパク質配列データベースをサーチする。「ｔｂｌａｓｔｎ（ＰｒｏｔｅｉｎＱｕｅｒｙｖｓ．ＤＮＡＤＢ）」はタンパク質配列のクエリーで核酸配列データベースを動的に６フレームに翻訳しながらサーチする。また、ＢＬＡＳＴ検索の詳細なパラメータの設定を詳細オプション設定部１４７において行う。
【００３８】
「ＶｉｅｗＲｏｕｔｅ」ボタン１４４を押すと、データベースネットワークの全体図である図６を表示し、ＫｅｙＤＢとＴｅｒｇｅｔＤＢの位置を確認することができる。また、フィールド１４８にはルートテーブルに設定されている検索ルートが表示される。
【００３９】
次にステップ２３に進み、検索開始ボタン１４５を押すと、検索を開始する。検索に当たっては、最初にホモロジー検索部１２３の検索プログラム（ＢＬＡＳＴ）が起動し、入力した配列データとＫｅｙＤＢとして指定されたデータベースのホモロジー検索用データとの間でホモロジー検索を行い、候補データのＩＤを取得する。次にＩＤ検索部１２２の検索プログラムが起動し、ホモロジー検索によって取得したＫｅｙＤＢのＩＤを起点として、ルートテーブルによって設定されたリンクのルートをたどってＴｅｒｇｅｔＤＢの対応するＩＤ検索が行われる。
【００４０】
ステップ２４では、検索結果を表示する。図１９は、検索結果を表示する表示部の画面例を示す図である。図示した例では、フィールド１９１に、ＫｅｙＤＢ（Ｎｕｃｌｅｏｔｉｄｅ（ＥＳＴ））のＩＤ１９１に対応するＴｅｒｇｅｔＤＢ（ＳＷＩＳＳ−ＰＲＯＴ）のＩＤ１９３を示している。また「ＨｉｔＣｏｕｎｔ」１９７に、ＫｅｙＤＢのＮｕｃｌｅｏｔｉｄｅ（ＥＳＴ）のＩＤに対応するＴａｒｇｅｔＤＢのＳＷＩＳＳ−ＰＲＯＴのＩＤの数を示している。「ＫｅｙＤＢ」ボタンもしくは「ＴｅｒｇｅｔＤＢ」ボタン１９４をクリックすることにより、図１７に示したような詳細説明を表示させることができる。また「ＶｉｅｗＡｌｉｇｎｍｅｎｔ」ボタン１９５をクリックすることにより、図２０に示すようなホモロジー検索結果が表示される。図２０の「Ｅ−ｖａｌｕｅ」とは期待値、「Ｓｃｏｒｅ」とは相同性の値のことである（Ａｌｔｓｃｈｕｌ，Ｓ．Ｆ．，Ｇｉｓｈ，Ｗ．，Ｍｉｌｌｅｒ，Ｗ．，Ｍｙｅｒｓ，Ｅ．Ｗ．＆Ｌｉｐｍａｎ，Ｄ．Ｊ．（１９９０） ”Ｂａｓｉｃｌｏｃａｌａｌｉｇｎｍｅｎｔｓｅａｒｃｈｔｏｏｌ．” Ｊ．Ｍｏｌ．Ｂｉｏｌ．２１５：４０３−４１０．）。最もＳｃｏｒｅの高いデータのＩＤを検索キーとし、ＩＤ検索を行う。
【００４１】
【発明の効果】
本発明によると、ネットワークのリンクをたどることにより、ネットワーク上のすべてのデータベースのデータを容易に検索できるようになる。
【図面の簡単な説明】
【図１】本発明による生体物質情報検索システムの仕組みの一例を示す概念図。
【図２】生体物質情報を格納する複数のデータベースから、情報を検索するためのインデックスを作成する手順を示すフローチャート。
【図３】リンク情報作成の手順を説明する図。
【図４】リンク情報から得られるルートの他の例を示す図。
【図５】データベース間のリンクのルート（順序）に関する情報を格納したルートテーブルの例を示す図。
【図６】ルートテーブルの内容をネットワーク表示した例を示す図。
【図７】データベース間のリンクを制限したことによる効果を説明する図。
【図８】ホモロジー検索用データの作成手順を示す図。
【図９】詳細説明ファイルの作成手順を示す図。
【図１０】インデックス情報の詳細について示す図。
【図１１】本発明による生体物質情報検索の手順を示すフローチャート。
【図１２】本発明による検索システムの概略構成図。
【図１３】データベースのＩＤを検索する場合に用いるインタフェースの例を示す図。
【図１４】配列を検索する場合に用いるインタフェースの例を示す図。
【図１５】入力データ例を示す図。
【図１６】検索結果を表示する表示部の画面例を示す図。
【図１７】詳細説明の表示例を示す図。
【図１８】入力データのファイル例を示す図。
【図１９】検索結果を表示する表示部の画面例を示す図。
【図２０】ホモロジー検索結果の表示例を示す図。
【図２１】Ｗｅｂ上のデータベースのデータをダウンロードして検索する従来のシステムの模式図。
【図２２】複数のリンクをたどって検索を行う場合の説明図。
【符号の説明】
１１…公開データベースあるいは商用データベース、１２…インターネット、１３…データセンタ、１５…インデックス、１６…配信されたインデックス、１７…ユーザの施設、１８…ユーザ、８１…公開データベースからダウンロードしたファイル、８５…ＦＡＳＴＡ形式の配列データ、９２…詳細説明ファイル、１０１…リンク情報、１０３…詳細説明、１０６…ホモロジー検索用データ、１０７…データベース、１２１…検索処理部、１２２…ＩＤ検索部、１２３…ホモロジー検索部、１２４…リンク情報及び詳細説明を格納したデータベース、１２５…ホモロジー検索用データ、１２６…データベース間のリンク順序を記載したルートテーブル

Claims

生体物質に関する情報を格納している複数のデータベースからデータをダウンロードするステップと、
前記ダウンロードしたデータから、インデックスとして、２つのデータベースのデータ間のリンクを表す情報、各データの詳細説明、及びホモロジー検索用の配列データを抽出するステップと、
抽出したインデックスを配信するステップとを含むことを特徴とするデータ配信方法。
生体物質に関する情報を格納している複数のデータベースからデータをダウンロードするステップと、
前記ダウンロードしたデータから、２つのデータベースのデータ間のリンクを表す情報を抽出するステップと、
検索キーとして、開始データベース名、ターゲットデータベース名、及び前記開始データベース中のデータＩＤを受け付けるステップと、
予め設定された複数のデータベース間におけるリンクの順序を表す情報を参照し、前記受け付けた開始データベース中のデータＩＤを起点として、前記抽出したデータ間のリンクのうち前記予め設定されたデータベース間におけるリンクの順序に適合するリンクをたどって前記ターゲットデータベースのデータＩＤを取得するステップと、
取得したターゲットデータベースのデータＩＤを表示するステップとを含むことを特徴とするデータ検索方法。
生体物質に関する情報を格納している複数のデータベースからデータをダウンロードするステップと、
前記ダウンロードしたデータから、２つのデータベースのデータ間のリンクを表す情報及びホモロジー検索用の配列データを抽出するステップと、
検索キーとして、開始データベース名、ターゲットデータベース名、及び入力配列データを受け付けるステップと、
前記入力配列データで前記開始データベースのホモロジー検索用配列データをホモロジー検索するステップと、
予め設定されたデータベース間におけるリンクの順序を表す情報を参照し、前記ホモロジー検索で求められた前記開始データベース中のデータＩＤを起点として、前記抽出したデータ間のリンクのうち前記予め設定されたデータベース間におけるリンクの順序に適合するリンクをたどって前記ターゲットデータベースの対応するデータＩＤを取得するステップと、
取得したターゲットデータベースのデータＩＤを表示するステップとを含むことを特徴とするデータ検索方法。
生体物質に関する情報を格納している複数のデータベースから２つのデータベースのデータ間のリンクを表す情報を収集したインデックスデータを用意するステップと、
前記複数のデータベース間におけるリンクの順序を定めたテーブルを用意するステップと、
検索キーとして、開始データベース名、ターゲットデータベース名、及び前記開始データベース中のデータＩＤを受け付けるステップと、
前記受け付けた開始データベース中のデータＩＤを起点として、前記データ間のリンクのうち前記データベース間におけるリンクの順序に適合するリンクをたどって前記ターゲットデータベースの対応するデータＩＤを取得するステップと、
取得したターゲットデータベースのデータＩＤを表示するステップとを含むことを特徴とするデータ検索方法。
生体物質に関する情報を格納している複数のデータベースから２つのデータベースのデータ間のリンクを表す情報及びホモロジー検索用の配列データを収集したインデックスデータを用意するステップと、
前記複数のデータベース間におけるリンクの順序を定めたテーブルを用意するステップと、
検索キーとして、開始データベース名、ターゲットデータベース名、及び入力配列データを受け付けるステップと、
前記入力配列データで前記開始データベースのホモロジー検索用配列データをホモロジー検索するステップと、
前記ホモロジー検索で求められた前記開始データベース中のデータＩＤを起点として、前記データ間のリンクのうち前記複数のデータベース間におけるリンクの順序に適合するリンクをたどって前記ターゲットデータベースの対応するデータＩＤを取得するステップと、
取得したターゲットデータベースのデータＩＤを表示するステップとを含むことを特徴とするデータ検索方法。
生体物質に関する情報を格納している複数のデータベースから２つのデータベースのデータ間のリンクを表す情報を収集したインデックスデータと、
前記複数のデータベース間におけるリンクの順序を定めたテーブルと、
検索キーとして、開始データベース名、ターゲットデータベース名、及び前記開始データベース中のデータＩＤを受け付ける入力部と、
前記受け付けた開始データベース中のデータＩＤを起点として、前記データ間のリンクのうち前記データベース間におけるリンクの順序に適合するリンクをたどって前記ターゲットデータベースの対応するデータＩＤを取得する検索部と、
取得したターゲットデータベースのデータＩＤを表示する表示部とを含むことを特徴とするデータ検索システム。
生体物質に関する情報を格納している複数のデータベースから２つのデータベースのデータ間のリンクを表す情報及びホモロジー検索用の配列データを収集したインデックスデータと、
前記複数のデータベース間におけるリンクの順序を定めたテーブルと、
検索キーとして、開始データベース名、ターゲットデータベース名、及び入力配列データを受け付ける入力部と、
前記入力配列データで前記開始データベースのホモロジー検索用配列データをホモロジー検索する第１検索部と、
前記ホモロジー検索で求められた前記開始データベース中のデータＩＤを起点として、前記データ間のリンクのうち前記複数のデータベース間におけるリンクの順序に適合するリンクをたどって前記ターゲットデータベースの対応するデータＩＤを取得する第２検索部と、
取得したターゲットデータベースのデータＩＤを表示する表示部とを含むことを特徴とするデータ検索システム。