JP2004178315A - データ配信方法、データ検索方法及びデータ検索システム - Google Patents

データ配信方法、データ検索方法及びデータ検索システム Download PDF

Info

Publication number
JP2004178315A
JP2004178315A JP2002344452A JP2002344452A JP2004178315A JP 2004178315 A JP2004178315 A JP 2004178315A JP 2002344452 A JP2002344452 A JP 2002344452A JP 2002344452 A JP2002344452 A JP 2002344452A JP 2004178315 A JP2004178315 A JP 2004178315A
Authority
JP
Japan
Prior art keywords
data
database
databases
search
links
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002344452A
Other languages
English (en)
Inventor
Tsunehiko Watanabe
恒彦 渡辺
Junji Yoshii
淳治 吉井
Sada Mizunuma
貞 水沼
Yuichi Minezaki
雄一 峰崎
Fumihisa Ogura
文寿 小倉
Keisuke Yamamoto
圭介 山本
Takeo Nagai
健夫 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2002344452A priority Critical patent/JP2004178315A/ja
Priority to EP03026957A priority patent/EP1424639A3/en
Priority to US10/720,178 priority patent/US7428527B2/en
Publication of JP2004178315A publication Critical patent/JP2004178315A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】生体物質情報を格納している複数のデータベースより必要な情報を簡易に抽出する。
【解決手段】生体物質に関する情報を格納している複数のデータベース11からデータをデータセンタにダウンロードし、ダウンロードしたデータから、インデックスとして、2つのデータベースのデータ間のリンクを表す情報、各データの詳細説明、及びホモロジー検索用の配列データを抽出し、抽出したインデックス15をユーザ施設に配信する。ユーザ18は配信されたインデックスを用いて検索を行う。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、塩基配列、タンパク質配列などの生体物質に関する情報を格納する複数のデータベースを関連付けることにより、データベース間のつながりをまとめ、これより情報を検索する方法に関する。
【0002】
【従来の技術】
生体物質に関する情報を蓄積したデータベースは世界中に存在し、Web上で公開されている。生物の研究者はこれらのデータベースを活用し、自分の研究に役立てている(非特許文献1参照)。遺伝子情報、タンパク質情報に関する公開データベースは、データベース固有の登録番号(以下、IDという)を持ち、これをそのデータベースが格納している遺伝子、タンパク質に割り当てている場合が多い。これまで研究者が自分のデータを公開データベースに対し検索し、データベース中のデータを取得する場合、何らかの手段を用いて自分のデータとデータベース固有のIDとの関連付けを行う必要があった。その最も一般的な方法は、研究者の持つ塩基配列、タンパク質配列とデータベースに格納してある塩基配列、タンパク質配列のホモロジー検索を行い、対応付けを行う方法である。
【0003】
これには大きく分けて2つの方法がある。1つは自分のデータを公開データベースに対して一つ一つWeb検索する方法である。もう1つは、インターネットを介して検索することによる情報漏洩を防止するため、自分の施設内にWeb上のデータベースのデータを一つ一つダウンロードし、これに対して検索する方法である。図21は、Web上のデータベースのデータをダウンロードして検索する従来のシステムの模式図である。ユーザ218は、公開データベース211よりインターネット212を介してユーザの施設217にファイル219を一つ一つダウンロードする。その後、ユーザ218は、ダウンロードしたファイル219に対して検索を行う。
【非特許文献1】
Baxebanis, A.D:Nucl.Acids Res.,28:1−10,2000, ”Genetics Databases” (Bishop M.J ed.), Academic Press, Cambridge,1999
【0004】
【発明が解決しようとする課題】
従来は、研究者が一度に扱うデータ数は1個から10個程度であったので、一つ一つWeb検索して情報検索することも可能だったが、近年の技術革新により数百から数千のデータを扱うようになり、一つ一つ検索するのは非常に煩雑な作業になった。また、複数の公開データベースを検索すると、不要なデータが検索結果として得られ、これより自分の必要な情報を再度抽出しなければならなかった。さらに、世界中にはたくさんのデータベースがあり、そのデータベースが自分に必要なものかどうか検討する必要があった。データベースの中には複数の生物種(ヒト、マウス、イネ等)が含まれている場合があり、ある生物種に関するデータをさまざまなデータベースから網羅的に取得するようなシステムはなかった。同様に、データの種類別(DNA,mRNA,EST)に取得するようなシステムはなかった。
【0005】
また、ユーザの施設内に複数の公開データベースからデータを一つ一つダウンロードする場合、ダウンロードするデータ量が多ければ、長時間かかり、ダウンロードの最中に回線が中断されてしまうという問題があった。また、ダウンロードのために長時間回線が占有されてしまうという問題があった。これに加え、現在は生物関連情報が急激に増加しており、今後のダウンロード作業はさらに手間取るようになることが考えられる。また、公開データベースの情報はそれぞれのデータベース管理者により管理されているため、生物の研究者がそれぞれの公開データベースの更新時期、現在のデータ数等を常に把握するのは困難であった。
【0006】
また、データベース間にはさまざまなリンクが存在する。従って、データを検索する場合、複数のリンクをたどって検索を行っていた。例えば図22に示す通り、データベースAのデータに対応するデータベースDのデータを取得する場合、データベースBを経由するルートとデータベースCを経由するルートがある。データベースAの遺伝子A1に対応するデータベースBのデータはB1,B2であり、これに対応するデータベースDのデータはD1,D2である。また、遺伝子A1に対応するデータベースCのデータはC1、これに対応するデータベースDのデータはD3である。この例の場合には、データベースAの遺伝子A1に対応するデータベースDのデータがD1,D2,D3と3つあることになり、ユーザはどれが正しいデータが再度検証する必要がある。
【0007】
本発明は、このような生体物質の情報に関するデータベース検索の現状に鑑み、ネットワーク上のデータベースのデータを容易に検索できる方法及びシステムを提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明においては、複数のデータベースより必要な情報を抽出してインデックスを作成し、これを配信する方法をとる。これにより、ユーザは必要な情報のみを得られるようになる。複数のデータを1つのインデックスにまとめてあるため、データ量が軽減され、データセンタからユーザの施設内へのダウンロードもスムーズに行われ、ダウンロードのために長時間回線が占有されてしまうという問題もない。また、データセンタでデータベースの更新、フォーマットの変更などに関して一括して対応できるため、ユーザはそれらの煩雑な作業から解放される。なお、情報の漏洩等の心配がない場合には、インデックスをユーザの施設内にダウンロードせずに、データセンタにおかれたインデックスに直接アクセスして検索を行ってもよい。
【0009】
すなわち、本発明によるデータ配信方法は、生体物質に関する情報を格納している複数のデータベースからデータをダウンロードするステップと、ダウンロードしたデータから、インデックスとして、2つのデータベースのデータ間のリンクを表す情報、各データの詳細説明、及びホモロジー検索用の配列データを抽出するステップと、抽出したインデックスを配信するステップとを含むことを特徴とする。
【0010】
本発明によるデータ検索方法は、生体物質に関する情報を格納している複数のデータベースからデータをダウンロードするステップと、ダウンロードしたデータから、2つのデータベースのデータ間のリンクを表す情報を抽出するステップと、検索キーとして、開始データベース名、ターゲットデータベース名、及び開始データベース中のデータIDを受け付けるステップと、予め設定された複数のデータベース間におけるリンクの順序を表す情報を参照し、受け付けた開始データベース中のデータIDを起点として、前記抽出したデータ間のリンクのうち予め設定されたデータベース間におけるリンクの順序に適合するリンクをたどってターゲットデータベースのデータIDを取得するステップと、取得したターゲットデータベースのデータIDを表示するステップとを含むことを特徴とする。
【0011】
本発明によるデータ検索方法は、また、生体物質に関する情報を格納している複数のデータベースからデータをダウンロードするステップと、ダウンロードしたデータから、2つのデータベースのデータ間のリンクを表す情報及びホモロジー検索用の配列データを抽出するステップと、検索キーとして、開始データベース名、ターゲットデータベース名、及び入力配列データを受け付けるステップと、入力配列データで開始データベースのホモロジー検索用配列データをホモロジー検索するステップと、予め設定されたデータベース間におけるリンクの順序を表す情報を参照し、ホモロジー検索で求められた開始データベース中のデータIDを起点として、前記抽出したデータ間のリンクのうち予め設定されたデータベース間におけるリンクの順序に適合するリンクをたどってターゲットデータベースの対応するデータIDを取得するステップと、取得したターゲットデータベースのデータIDを表示するステップとを含むことを特徴とする。
【0012】
本発明によるデータ検索方法は、また、生体物質に関する情報を格納している複数のデータベースから2つのデータベースのデータ間のリンクを表す情報を収集したインデックスデータを用意するステップと、前記複数のデータベース間におけるリンクの順序を定めたテーブルを用意するステップと、検索キーとして、開始データベース名、ターゲットデータベース名、及び開始データベース中のデータIDを受け付けるステップと、受け付けた開始データベース中のデータIDを起点として、前記データ間のリンクのうちデータベース間におけるリンクの順序に適合するリンクをたどってターゲットデータベースの対応するデータIDを取得するステップと、取得したターゲットデータベースのデータIDを表示するステップとを含むことを特徴とする。
【0013】
本発明によるデータ検索方法は、また、生体物質に関する情報を格納している複数のデータベースから2つのデータベースのデータ間のリンクを表す情報及びホモロジー検索用の配列データを収集したインデックスデータを用意するステップと、前記複数のデータベース間におけるリンクの順序を定めたテーブルを用意するステップと、検索キーとして、開始データベース名、ターゲットデータベース名、及び入力配列データを受け付けるステップと、入力配列データで開始データベースのホモロジー検索用配列データをホモロジー検索するステップと、ホモロジー検索で求められた開始データベース中のデータIDを起点として、前記データ間のリンクのうち複数のデータベース間におけるリンクの順序に適合するリンクをたどってターゲットデータベースの対応するデータIDを取得するステップと、取得したターゲットデータベースのデータIDを表示するステップとを含むことを特徴とする。
【0014】
本発明によるデータ検索システムは、生体物質に関する情報を格納している複数のデータベースから2つのデータベースのデータ間のリンクを表す情報を収集したインデックスデータと、前記複数のデータベース間におけるリンクの順序を定めたテーブルと、検索キーとして、開始データベース名、ターゲットデータベース名、及び開始データベース中のデータIDを受け付ける入力部と、受け付けた開始データベース中のデータIDを起点として、前記データ間のリンクのうちデータベース間におけるリンクの順序に適合するリンクをたどってターゲットデータベースの対応するデータIDを取得する検索部と、取得したターゲットデータベースのデータIDを表示する表示部とを含むことを特徴とする。
【0015】
本発明によるデータ検索システムは、また、生体物質に関する情報を格納している複数のデータベースから2つのデータベースのデータ間のリンクを表す情報及びホモロジー検索用の配列データを収集したインデックスデータと、前記複数のデータベース間におけるリンクの順序を定めたテーブルと、検索キーとして、開始データベース名、ターゲットデータベース名、及び入力配列データを受け付ける入力部と、入力配列データで開始データベースのホモロジー検索用配列データをホモロジー検索する第1検索部と、ホモロジー検索で求められた開始データベース中のデータIDを起点として、前記データ間のリンクのうち複数のデータベース間におけるリンクの順序に適合するリンクをたどってターゲットデータベースの対応するデータIDを取得する第2検索部と、取得したターゲットデータベースのデータIDを表示する表示部とを含むことを特徴とする。
【0016】
本発明によると、インデックスに対して、数千のデータを一括検索できるようになる。また、ネットワークを構築するときに用いるデータベースを生物種別(ヒト、マウス、イネ等)、データの種類別(DNA、mRNA、EST)等に分類整理しておくことにより、ユーザは目的に合わせたデータを取得できるようになる。また、複数のデータベース間におけるリンクの順序を定めたテーブル等を用意しておき、そこに定められたルートに従って複数のデータベースのリンクをたどることにより、ノイズの少ない検索結果を得ることができる。
【0017】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。
図1は、本発明による生体物質情報検索システムの仕組みの一例を示す概念図である。公開データベースや商用データベース11のデータは、インターネット12を介してデータセンタ13にダウンロードされる。データセンタ13では、ダウンロードされたデータからインデックス15を作成する。作成されたインデックス15はユーザの施設17に対して配信され(インデックス16)、ユーザ18は配信されたインデックス16に対して検索を行う。
【0018】
インデックスには、異なるデータベースに含まれるデータ間の対応関係を表すリンク情報、各データの詳細説明、ホモロジー検索用データが含まれる。各データの詳細説明とは、データベースのエントリ一つ一つに格納されているエントリの詳細説明である。ホモロジー検索用データとは、データベースに含まれている塩基配列やタンパク質配列などの配列情報である。ユーザは、自分の有する塩基配列もしくはタンパク質配列と、目的となる公開データベースのデータの塩基配列もしくはタンパク質配列との間でホモロジー検索を行う。ホモロジー検索を行うソフトウェアには通常BLASTが用いられるため、ホモロジー検索用データはファスタ形式の配列データをBLAST用にフォーマットしたものを用いる。
【0019】
なお、ネットワークを構築するときに用いるデータベースは生物種別(ヒト、マウス、イネ等)、データの種類別(DNA,mRNA,EST)に分類整理しておくことにより、ユーザは目的に合わせたデータを取得できるようになる。
【0020】
図2は、生体物質情報を格納する複数のデータベースから、情報を検索するためのインデックスを作成する手順を示すフローチャートである。
まずステップ11において、公的データベースや商用データベース等の公開されているデータベースからデータセンタにデータをダウンロードする。次に、ステップ12において、ダウンロードしたデータから、リンク情報、ホモロジー検索用データ及びそれぞれのIDの詳細説明を自動抽出する。このとき、ホモロジー検索用データは、インデックスに登録するデータベースのうちで、配列情報が存在するすべてのデータベースについて取得する。また、詳細情報は、インデックスに登録するすべてのデータベースについて取得する。最後に、ステップ13において、リンク情報、ホモロジー検索用データ、それぞれのIDの詳細説明をまとめてユーザの施設に配信する。
【0021】
図3は、図2のステップ12におけるリンク情報作成の手順を説明する図である。図示した例では、データベースAはデータベースBとデータベースEに対応しており、データベースAのエントリであるA1に対して、データベースBのエントリB1とデータベースEのエントリE1が対応しており、これがデータベースAファイルに記述してある。従って、データベースAファイルよりそれぞれのIDを取り出し、データベースAのA1とデータベースBのB1をテーブル31に格納する。同様に、データベースAのエントリA1とデータベースEのエントリE1の対応が記述されており、これらを取り出しテーブル32に格納する。データベースBファイルにはデータベースBのエントリB1とデータベースCのエントリC1の対応が記述されており、これらを取り出しテーブル33に格納する。データベースCファイルにはデータベースCのエントリC1とデータベースDのエントリD1の対応が記述されており、これらを取り出しテーブル34に格納する。これらのテーブル31,33,34をつなぎ合わせることによりテーブル35を作成できる。テーブル32とテーブル35を模式図で表すとリンク図36のようになる。
【0022】
図4は、リンク情報から得られるルートの他の例を示す図である。リンク情報としてデータベースに格納されているテーブルは、図3のテーブル31〜34等に示すように、2つのデータベースのIDが対応したものになっている。これより、図4に示す表41もしくは表42を作成する。これらの表をデータベース間の関係を示す模式図で表すとリンク図43のようになる。このリンク図43上で対応するデータをたどっていくことにより、例えばデータベースAのデータA1に対応するデータベースDのデータD1を検索することができる。
【0023】
ここで、データベースには他の種々のデータベースとのリンク情報が記載されており、リンクが錯綜することにより図22によって説明したような問題が生じることがある。そこで、本発明においては、それぞれのデータベース同士は決められたルール(順序)に従ってリンクするように、データベース間のリンクを制限する。データベース間のリンクの制限について以下に説明する。
【0024】
図5は、許容されるデータベース間のリンクのルート(順序)に関する情報を格納したルートテーブルの例を示す図である。「KeyDB」は検索の起点となるデータベース、「TargetDB」は「KeyDB」中のデータに対応するデータを求めたいデータベースである。公開データベース、商用データベース、個人のオリジナルデータのデータベース等からなるデータベースA,B,C,…には、そのデータベースのあるデータが他のデータベースのどのデータに対応するかを示すデータ間のリンクの情報が複数記述されている場合があり、種々のルートをたどってKeyDB中の指定データに対応するTargetDB中のデータを検索することが可能であるが、全てのリンク情報を利用すると、前述したようにノイズ情報を拾う可能性がある。そこで、KeyDBとTargetDBを指定すると、KeyDBからTargetDBに至るリンクのルート(順序)をルートテーブルによって一意に指定する。図示の例では、KeyDBがAでTargetDBがCの場合には、図5のルートテーブルを参照して、データベースA、データベースB、データベースCの順にリンクをたどってデータベースA中のデータに対応するデータベースC中のデータを検索する。同様に、KeyDBがAでTargetDBがDの場合には、図5のルートテーブルを参照して、データベースA、データベースB、データベースC、データベースDの順にリンクをたどってデータベースA中のデータに対応するデータベースD中のデータを検索する。
【0025】
図6は、ルートテーブルの内容をネットワーク表示した例を示す図である。データベース61と63とが対応していることを2つのデータベースを結ぶ線62が表している。いま、データベース61はデータベース63に格納されているデータを元に新たに作成されており、例えばデータベース61に格納されているデータAがデータベース63に格納されているデータBに対応しているとする。本発明では、このようなデータの起源に従ったリンク情報のみを利用し、例えばデータベース61に他のデータベース64とのリンク情報が格納されていても、それは検索のためのリンク情報としては利用しない。このようにデータベース間のリンクを制限することにより、不要なデータの取得を制限することができる。
【0026】
図7は、データベース間のリンクを制限したことによる効果を説明する図であり、図22に対応する図である。
データベースAにデータベースBへのリンク情報とデータベースCへのリンク情報が記述されている場合、本発明では、より信頼性の高いデータベースAとデータベースCの間のリンク情報のみ利用し、データベースAとデータベースBの間のリンク情報は利用しない。その結果、データベースA中の遺伝子データA1に対応するデータベースDの遺伝子データD3を取得することができる。このようにデータベース間のリンクを制限することにより、図22に示したようなノイズとなる余分なデータの取得を制限し、適切なデータのみを取得することができるようになる。
【0027】
図8は、図2のステップ12におけるホモロジー検索用データの作成手順を示す図である。ここには、公開データベースからダウンロードしたファイル81から各エントリーのID83と配列データ84を抽出し、FASTA形式の配列データ85を格納したファイル82を作成する例を示している。
【0028】
図9は、詳細説明ファイルの作成手順を示す図である。ここには、公開データベースからダウンロードしたファイル91から各エントリーのID93とそのエントリに関する詳細説明94を抽出し、詳細説明ファイル92にIDと詳細説明の組95として格納する例を示している。
【0029】
図10は、インデックス情報の詳細について示す図である。データセンタ13において、インデックス情報(リンク情報101、詳細説明103、ホモロジー検索用データ106)を作成する。リンク情報101はネットワークに登録したデータベースより取得したリンク用テーブル102の形で保持する。詳細説明103は、ネットワークに登録したデータベースより取得した詳細説明用テーブル104として保持する。リンク情報と詳細説明のそれぞれのテーブルをデータベース107に格納する。また、ファスタ形式のファイル105に対しBLASTで使用するようフォーマットし、ホモロジー検索用データ106を作成する。データセンタ13で作成したこれらのインデックス情報をユーザの施設17に作成する。この場合、データベース107の複製をレプリケーション処理により、ユーザの施設17のデータベース108に作成する。また、ホモロジー検索用データ106のコピー109を、ユーザの施設17に転送する。また、データベース間のリンクのルート(順序)に関する情報を格納したルートテーブル110のコピー111もユーザの施設17に転送される。
【0030】
図11は、本発明による生体物質情報検索の手順を示すフローチャートである。また、図12は、この検索方法を実現するための検索システムの概略構成図である。
【0031】
本発明による検索システムは、図10にて説明したリンク情報及び詳細説明を格納したデータベース124、ホモロジー検索用データ125、データベース間のリンク順序を記載したルートテーブル126、入力操作部127、検索結果を表示する表示部128、及び検索処理部121を備える。検索処理部121は、リンクをたどってID検索を行うID検索部122と、入力操作部から入力された配列データとホモロジー検索用データの間でホモロジー検索を行うホモロジー検索部123を有する。図13、図14はデータ検索時の入力インタフェースの例を示す説明図である。図13はデータベースのIDを検索する場合に用いる入力インタフェース、図14は塩基配列、タンパク質配列を検索する場合に用いる入力インタフェースである。
【0032】
最初に、ユーザデータのIDをネットワーク上のデータベースのIDに変換する検索方法及び検索システムについて説明する。
まず、図11のステップ21において、入力操作部127を操作してデータの入力を行う。例えば、図15の例に示すような入力データのファイルを図13に示す画面の「File Upload」ボタン132で選択すると、図13のデータ入力フィールド131にデータがカンマ区切りで表示される。「Clear」ボタン133を押すと入力データがクリアされる。図15に示した入力データ例は、NCBIで公開しているUniGeneのデータを示したものである。
【0033】
図11のステップ22では、KeyDB、TergetDBの設定を行う。入力データと同じIDをもつデータベースを図13のKeyDBリスト134から選択し、変換対象となるデータベースを図13のTergetDBリスト135で選択する。すると、ルートテーブル126を参照して、フィールド136に検索ルートが表示される。また、ボタン137を選択すると、IDネットワークの全体図の図6が表示され、KeyDBとTergetDBを確認することができる。
【0034】
次に、ステップ23において検索開始ボタン138を押し、検索を開始する。ID検索部122の検索プログラムは、指定された検索ルートをたどって入力されたKeyDBのデータIDに対応するTergetDBのデータIDを検索する。
【0035】
次に、ステップ24に進み、検索結果の表示を行う。図16は、検索結果を表示する表示部128の表示画面例を示す図である。この図の例では、フィールド161にKeyDBであるUniGeneのエントリ162に対応するTergetDBのSWISS−PROTのエントリ163を示している。「Hit Count」166にはKeyDBのエントリ162に対応するTergetDBのエントリ163の数を表示している。KeyDBボタンもしくはTerget DBボタン164をクリックすることにより、図17に示すような詳細説明が表示される。また、「View Route」ボタン165をクリックすると図6に示すようなデータベース間の検索ルートを示した図が表示される。
【0036】
次に、ユーザの検索したい塩基配列もしくはタンパク質配列をIDネットワーク上のデータベースのIDに変換する場合の例について説明する。
図11のステップ21において、入力操作部127から検索したい配列データの入力を行う。例えば、図14に示す入力画面の「File Upload」ボタン146をクリックし、図18に例示するような入力データのファイルを選択すると、入力画面のデータ入力フィールド141に、入力した配列データが表示される。「Clear」ボタンをクリックするとデータ入力フィールド141は空になる。
【0037】
次に、ステップ22に進み、KeyDB、TargetDBの設定を行う。検索データに対して対応させたいデータベース(KeyDB)を図14に示す入力画面のDBリスト149で選択し、変換対象となるデータベース(TargetDB)を図14のTergetDBリスト143で選択する。KeyDBの設定の後、検索したい配列データとKeyDBとなるデータベースに格納されているデータが核酸配列かタンパク質配列かにより、プログラムリスト142から適当なBLAST手法を選択する。例えば、「blastn (DNAQuery vs. DNA DB)」は核酸配列の検索データで核酸配列データベースをサーチする。「blastp (Protein Query vs. Protein DB)」はタンパク質配列のクエリーでタンパク質配列データベースをサーチする。「blastx (DNA Query vs. Protein DB)」は核酸配列のクエリーを6フレーム翻訳してタンパク質配列データベースをサーチする。「tblastn (Protein Query vs. DNA DB)」はタンパク質配列のクエリーで核酸配列データベースを動的に6フレームに翻訳しながらサーチする。また、BLAST検索の詳細なパラメータの設定を詳細オプション設定部147において行う。
【0038】
「View Route」ボタン144を押すと、データベースネットワークの全体図である図6を表示し、KeyDBとTergetDBの位置を確認することができる。また、フィールド148にはルートテーブルに設定されている検索ルートが表示される。
【0039】
次にステップ23に進み、検索開始ボタン145を押すと、検索を開始する。検索に当たっては、最初にホモロジー検索部123の検索プログラム(BLAST)が起動し、入力した配列データとKeyDBとして指定されたデータベースのホモロジー検索用データとの間でホモロジー検索を行い、候補データのIDを取得する。次にID検索部122の検索プログラムが起動し、ホモロジー検索によって取得したKeyDBのIDを起点として、ルートテーブルによって設定されたリンクのルートをたどってTergetDBの対応するID検索が行われる。
【0040】
ステップ24では、検索結果を表示する。図19は、検索結果を表示する表示部の画面例を示す図である。図示した例では、フィールド191に、KeyDB(Nucleotide(EST))のID191に対応するTergetDB(SWISS−PROT)のID193を示している。また「Hit Count」197に、KeyDBのNucleotide(EST)のIDに対応するTargetDBのSWISS−PROT のIDの数を示している。「KeyDB」ボタンもしくは「Terget DB」ボタン194をクリックすることにより、図17に示したような詳細説明を表示させることができる。また「ViewAlignment」ボタン195をクリックすることにより、図20に示すようなホモロジー検索結果が表示される。図20の「E−value」とは期待値、「Score」とは相同性の値のことである(Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) ”Basic local alignment search tool.” J. Mol. Biol. 215:403−410.)。最もScoreの高いデータのIDを検索キーとし、ID検索を行う。
【0041】
【発明の効果】
本発明によると、ネットワークのリンクをたどることにより、ネットワーク上のすべてのデータベースのデータを容易に検索できるようになる。
【図面の簡単な説明】
【図1】本発明による生体物質情報検索システムの仕組みの一例を示す概念図。
【図2】生体物質情報を格納する複数のデータベースから、情報を検索するためのインデックスを作成する手順を示すフローチャート。
【図3】リンク情報作成の手順を説明する図。
【図4】リンク情報から得られるルートの他の例を示す図。
【図5】データベース間のリンクのルート(順序)に関する情報を格納したルートテーブルの例を示す図。
【図6】ルートテーブルの内容をネットワーク表示した例を示す図。
【図7】データベース間のリンクを制限したことによる効果を説明する図。
【図8】ホモロジー検索用データの作成手順を示す図。
【図9】詳細説明ファイルの作成手順を示す図。
【図10】インデックス情報の詳細について示す図。
【図11】本発明による生体物質情報検索の手順を示すフローチャート。
【図12】本発明による検索システムの概略構成図。
【図13】データベースのIDを検索する場合に用いるインタフェースの例を示す図。
【図14】配列を検索する場合に用いるインタフェースの例を示す図。
【図15】入力データ例を示す図。
【図16】検索結果を表示する表示部の画面例を示す図。
【図17】詳細説明の表示例を示す図。
【図18】入力データのファイル例を示す図。
【図19】検索結果を表示する表示部の画面例を示す図。
【図20】ホモロジー検索結果の表示例を示す図。
【図21】Web上のデータベースのデータをダウンロードして検索する従来のシステムの模式図。
【図22】複数のリンクをたどって検索を行う場合の説明図。
【符号の説明】
11…公開データベースあるいは商用データベース、12…インターネット、13…データセンタ、15…インデックス、16…配信されたインデックス、17…ユーザの施設、18…ユーザ、81…公開データベースからダウンロードしたファイル、85…FASTA形式の配列データ、92…詳細説明ファイル、101…リンク情報、103…詳細説明、106…ホモロジー検索用データ、107…データベース、121…検索処理部、122…ID検索部、123…ホモロジー検索部、124…リンク情報及び詳細説明を格納したデータベース、125…ホモロジー検索用データ、126…データベース間のリンク順序を記載したルートテーブル

Claims (7)

  1. 生体物質に関する情報を格納している複数のデータベースからデータをダウンロードするステップと、
    前記ダウンロードしたデータから、インデックスとして、2つのデータベースのデータ間のリンクを表す情報、各データの詳細説明、及びホモロジー検索用の配列データを抽出するステップと、
    抽出したインデックスを配信するステップとを含むことを特徴とするデータ配信方法。
  2. 生体物質に関する情報を格納している複数のデータベースからデータをダウンロードするステップと、
    前記ダウンロードしたデータから、2つのデータベースのデータ間のリンクを表す情報を抽出するステップと、
    検索キーとして、開始データベース名、ターゲットデータベース名、及び前記開始データベース中のデータIDを受け付けるステップと、
    予め設定された複数のデータベース間におけるリンクの順序を表す情報を参照し、前記受け付けた開始データベース中のデータIDを起点として、前記抽出したデータ間のリンクのうち前記予め設定されたデータベース間におけるリンクの順序に適合するリンクをたどって前記ターゲットデータベースのデータIDを取得するステップと、
    取得したターゲットデータベースのデータIDを表示するステップとを含むことを特徴とするデータ検索方法。
  3. 生体物質に関する情報を格納している複数のデータベースからデータをダウンロードするステップと、
    前記ダウンロードしたデータから、2つのデータベースのデータ間のリンクを表す情報及びホモロジー検索用の配列データを抽出するステップと、
    検索キーとして、開始データベース名、ターゲットデータベース名、及び入力配列データを受け付けるステップと、
    前記入力配列データで前記開始データベースのホモロジー検索用配列データをホモロジー検索するステップと、
    予め設定されたデータベース間におけるリンクの順序を表す情報を参照し、前記ホモロジー検索で求められた前記開始データベース中のデータIDを起点として、前記抽出したデータ間のリンクのうち前記予め設定されたデータベース間におけるリンクの順序に適合するリンクをたどって前記ターゲットデータベースの対応するデータIDを取得するステップと、
    取得したターゲットデータベースのデータIDを表示するステップとを含むことを特徴とするデータ検索方法。
  4. 生体物質に関する情報を格納している複数のデータベースから2つのデータベースのデータ間のリンクを表す情報を収集したインデックスデータを用意するステップと、
    前記複数のデータベース間におけるリンクの順序を定めたテーブルを用意するステップと、
    検索キーとして、開始データベース名、ターゲットデータベース名、及び前記開始データベース中のデータIDを受け付けるステップと、
    前記受け付けた開始データベース中のデータIDを起点として、前記データ間のリンクのうち前記データベース間におけるリンクの順序に適合するリンクをたどって前記ターゲットデータベースの対応するデータIDを取得するステップと、
    取得したターゲットデータベースのデータIDを表示するステップとを含むことを特徴とするデータ検索方法。
  5. 生体物質に関する情報を格納している複数のデータベースから2つのデータベースのデータ間のリンクを表す情報及びホモロジー検索用の配列データを収集したインデックスデータを用意するステップと、
    前記複数のデータベース間におけるリンクの順序を定めたテーブルを用意するステップと、
    検索キーとして、開始データベース名、ターゲットデータベース名、及び入力配列データを受け付けるステップと、
    前記入力配列データで前記開始データベースのホモロジー検索用配列データをホモロジー検索するステップと、
    前記ホモロジー検索で求められた前記開始データベース中のデータIDを起点として、前記データ間のリンクのうち前記複数のデータベース間におけるリンクの順序に適合するリンクをたどって前記ターゲットデータベースの対応するデータIDを取得するステップと、
    取得したターゲットデータベースのデータIDを表示するステップとを含むことを特徴とするデータ検索方法。
  6. 生体物質に関する情報を格納している複数のデータベースから2つのデータベースのデータ間のリンクを表す情報を収集したインデックスデータと、
    前記複数のデータベース間におけるリンクの順序を定めたテーブルと、
    検索キーとして、開始データベース名、ターゲットデータベース名、及び前記開始データベース中のデータIDを受け付ける入力部と、
    前記受け付けた開始データベース中のデータIDを起点として、前記データ間のリンクのうち前記データベース間におけるリンクの順序に適合するリンクをたどって前記ターゲットデータベースの対応するデータIDを取得する検索部と、
    取得したターゲットデータベースのデータIDを表示する表示部とを含むことを特徴とするデータ検索システム。
  7. 生体物質に関する情報を格納している複数のデータベースから2つのデータベースのデータ間のリンクを表す情報及びホモロジー検索用の配列データを収集したインデックスデータと、
    前記複数のデータベース間におけるリンクの順序を定めたテーブルと、
    検索キーとして、開始データベース名、ターゲットデータベース名、及び入力配列データを受け付ける入力部と、
    前記入力配列データで前記開始データベースのホモロジー検索用配列データをホモロジー検索する第1検索部と、
    前記ホモロジー検索で求められた前記開始データベース中のデータIDを起点として、前記データ間のリンクのうち前記複数のデータベース間におけるリンクの順序に適合するリンクをたどって前記ターゲットデータベースの対応するデータIDを取得する第2検索部と、
    取得したターゲットデータベースのデータIDを表示する表示部とを含むことを特徴とするデータ検索システム。
JP2002344452A 2002-11-27 2002-11-27 データ配信方法、データ検索方法及びデータ検索システム Pending JP2004178315A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002344452A JP2004178315A (ja) 2002-11-27 2002-11-27 データ配信方法、データ検索方法及びデータ検索システム
EP03026957A EP1424639A3 (en) 2002-11-27 2003-11-25 Data distribution method, data search method and data search system
US10/720,178 US7428527B2 (en) 2002-11-27 2003-11-25 Data distribution method, data search method, and data search system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002344452A JP2004178315A (ja) 2002-11-27 2002-11-27 データ配信方法、データ検索方法及びデータ検索システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009214361A Division JP4537491B2 (ja) 2009-09-16 2009-09-16 データ検索システム及びデータ検索方法

Publications (1)

Publication Number Publication Date
JP2004178315A true JP2004178315A (ja) 2004-06-24

Family

ID=32290456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002344452A Pending JP2004178315A (ja) 2002-11-27 2002-11-27 データ配信方法、データ検索方法及びデータ検索システム

Country Status (3)

Country Link
US (1) US7428527B2 (ja)
EP (1) EP1424639A3 (ja)
JP (1) JP2004178315A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100875923B1 (ko) 2006-11-20 2008-12-26 한국전자통신연구원 다중 바이오 인식을 통한 사용자 검색 시스템 및 그 방법
WO2024204833A1 (ja) * 2023-03-31 2024-10-03 株式会社日本バイオデータ データベースの作成方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007001195A1 (en) * 2005-06-27 2007-01-04 Biomatters Limited Methods for the maintenance and analysis of biological data
US8185564B1 (en) 2006-11-21 2012-05-22 Google Inc. Redirection of embedded content
JP5012900B2 (ja) * 2007-07-27 2012-08-29 富士通株式会社 更新管理システム
US8898149B2 (en) 2011-05-06 2014-11-25 The Translational Genomics Research Institute Biological data structure having multi-lateral, multi-scalar, and multi-dimensional relationships between molecular features and other data
US20140089328A1 (en) * 2012-09-27 2014-03-27 International Business Machines Corporation Association of data to a biological sequence
CN110532272A (zh) * 2019-08-30 2019-12-03 北京东软望海科技有限公司 数据查询方法、装置、电子设备及计算机可读存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4774655A (en) * 1984-10-24 1988-09-27 Telebase Systems, Inc. System for retrieving information from a plurality of remote databases having at least two different languages
IL107762A (en) * 1992-11-27 1997-03-18 Io Research Pty Limited West P Distributed database system and database receiver therefor
JP3611601B2 (ja) * 1994-09-01 2005-01-19 富士通株式会社 リスト処理システムとその方法
US5871697A (en) * 1995-10-24 1999-02-16 Curagen Corporation Method and apparatus for identifying, classifying, or quantifying DNA sequences in a sample without sequencing
US5978804A (en) * 1996-04-11 1999-11-02 Dietzman; Gregg R. Natural products information system
US6553317B1 (en) * 1997-03-05 2003-04-22 Incyte Pharmaceuticals, Inc. Relational database and system for storing information relating to biomolecular sequences and reagents
US6931396B1 (en) * 1999-06-29 2005-08-16 Gene Logic Inc. Biological data processing
US6470277B1 (en) * 1999-07-30 2002-10-22 Agy Therapeutics, Inc. Techniques for facilitating identification of candidate genes
US6941317B1 (en) * 1999-09-14 2005-09-06 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
JP2004500048A (ja) * 1999-10-26 2004-01-08 バイオロジカル・ターゲッツ・インコーポレーテッド 遺伝子探索システムおよび方法
US6654755B1 (en) * 2000-01-31 2003-11-25 Nokia Corporation Information management technique
US20030100999A1 (en) * 2000-05-23 2003-05-29 Markowitz Victor M. System and method for managing gene expression data
US7058650B2 (en) * 2001-02-20 2006-06-06 Yonghong Yang Methods for establishing a pathways database and performing pathway searches
JP2002269114A (ja) * 2001-03-14 2002-09-20 Kousaku Ookubo 知識データベース及び知識データベースの構築方法
US7133780B2 (en) * 2001-04-19 2006-11-07 Affymetrix, Inc. Computer software for automated annotation of biological sequences
US20020194154A1 (en) * 2001-06-05 2002-12-19 Levy Joshua Lerner Systems, methods and computer program products for integrating biological/chemical databases using aliases
US20020194201A1 (en) * 2001-06-05 2002-12-19 Wilbanks John Thompson Systems, methods and computer program products for integrating biological/chemical databases to create an ontology network
US7133864B2 (en) * 2001-08-23 2006-11-07 Syngenta Participations Ag System and method for accessing biological data
US6745179B2 (en) * 2001-10-12 2004-06-01 Shipley Company, L.L.C. Method and system for facilitating viewer navigation through online information relating to chemical products
US6927779B2 (en) * 2002-05-13 2005-08-09 Large Scale Biology Corporation Web-based well plate information retrieval and display system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100875923B1 (ko) 2006-11-20 2008-12-26 한국전자통신연구원 다중 바이오 인식을 통한 사용자 검색 시스템 및 그 방법
WO2024204833A1 (ja) * 2023-03-31 2024-10-03 株式会社日本バイオデータ データベースの作成方法

Also Published As

Publication number Publication date
EP1424639A2 (en) 2004-06-02
US20040139051A1 (en) 2004-07-15
US7428527B2 (en) 2008-09-23
EP1424639A3 (en) 2005-09-14

Similar Documents

Publication Publication Date Title
Stoesser et al. The EMBL nucleotide sequence database
US6363399B1 (en) Project-based full-length biomolecular sequence database with expression categories
Attwood et al. The PRINTS protein fingerprint database in its fifth year
Mewes et al. MIPS: a database for genomes and protein sequences
Lopez et al. WU-Blast2 server at the European bioinformatics institute
Brookes et al. HGBASE: a database of SNPs and other variations in and around human genes
US5953727A (en) Project-based full-length biomolecular sequence database
Martin Mapping PDB chains to UniProtKB entries
Le Novère et al. LGICdb: the ligand-gated ion channel database
Lamblin et al. MtDB: a database for personalized data mining of the model legume Medicago truncatula transcriptome
Love et al. Brassica ASTRA: an integrated database for Brassica genomic research
Waugh et al. The Phytophthora genome initiative database: informatics and analysis for distributed pathogenomic research
JP2004178315A (ja) データ配信方法、データ検索方法及びデータ検索システム
KR20060104681A (ko) Dna 단편 번호를 이용한 특허 검색 시스템 및 방법
US20050049795A1 (en) Biological sequence information reading method and storing method
JP4537491B2 (ja) データ検索システム及びデータ検索方法
Flanders et al. AtDB, the Arabidopsis thaliana database, and graphical-web-display of progress by the Arabidopsis Genome Initiative
Pavy et al. ForestTreeDB: a database dedicated to the mining of tree transcriptomes
Huang et al. ProClass protein family database
Blake et al. The Mouse Genome Database (MGD): a community resource. Status and enhancements
Kim et al. ASmodeler: gene modeling of alternative splicing from genomic alignment of mRNA, EST and protein sequences
JP2004157747A (ja) ポイント管理方法及びポイント管理プログラム
Troein et al. [7] An Introduction to BioArray Software Environment
Ko et al. KoNA: Korean Nucleotide Archive as a new data repository for nucleotide sequence data
EP4414994A1 (en) Management method, management system, and electronic health record system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090916