JP2002108903A - データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品 - Google Patents

データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品

Info

Publication number
JP2002108903A
JP2002108903A JP2000301307A JP2000301307A JP2002108903A JP 2002108903 A JP2002108903 A JP 2002108903A JP 2000301307 A JP2000301307 A JP 2000301307A JP 2000301307 A JP2000301307 A JP 2000301307A JP 2002108903 A JP2002108903 A JP 2002108903A
Authority
JP
Japan
Prior art keywords
data
analysis
database
document
structured document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000301307A
Other languages
English (en)
Inventor
Kazunori Miyazaki
和典 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000301307A priority Critical patent/JP2002108903A/ja
Publication of JP2002108903A publication Critical patent/JP2002108903A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】WWW上の分散したバイオ関連の複数のデータベ
ースから、ユーザが必要とするデータを所望に抽出でき
て独自のデータベースの再構築に利用できるようにす
る。 【解決手段】検索対象の情報をマークアップ言語で記述
してなる検索リストに基づいて、インターネットウエブ
上のデータベースからデータを検索し、抽出する検索抽
出手段210と、この抽出データを、文書型定義を用いて
構造化文書に変換して、これを一次データとして得る変
換手段230と、この一次データについて、マークアップ
言語で記述してなる解析リストに基づいて、インターネ
ットのウエブ上で提供される解析ツールにより解析させ
るべく制御すると共に、解析結果を取得する解析手段25
0と、この取得した解析結果を前記文書型定義を用いて
構造化文書に変換して、前記一次データに付加する手段
230とを備えたことを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する利用分野】本発明は、WWW(World Wide
Web)上に分散したバイオ関連(バイオテクノロジー関
連)の複数のデータベースから、ユーザが必要とするデ
ータを抽出、データベース化し、更にデータベース化し
たデータを解析して新たな情報を抽出するためのデータ
ベースを構築するシステムに関するものである。
【0002】
【従来の技術】近年、バイオ分野では、インターネット
技術の発達に加え、ゲノムプロジェクトやDNAチップ
技術の進展により一度に多量のデータが生み出されるよ
うになったため、これらのデータをデータベース化し、
インターネット上で公開しようとする取り組みが多数行
われてきた。
【0003】しかしながら、このようなバイオ分野のデ
ータベースでは、バイオという分野が抱える特徴に起因
する問題点があった。
【0004】すなわち、その特徴の一つは、バイオとい
う分野から来るデータベースの多様性である。すなわ
ち、バイオ分野での各データベースに集められているデ
ータは、遺伝子の塩基配列(例えば、米国NCBI(Nationa
l Center for biotechnology information)が構築
している“GenBank”、日本の国立遺伝学研究所が構築
している“DDBJ”など)、タンパク質のアミノ酸配列
(例えば、SIB(Swiss Institute of Bioinformatics)と
EBI(European Bioinformatics Institute)とが構築して
いる“SWISS-PROT”など)、タンパク質の立体構造(例
えば、Reserch Collaboratory for Structual Bioinfo
rmatics が構築している“PDB(Protein Data Ban
k)”など)、疾病に関する情報(例えばNCBIが構築し
ている“OMIM”など)、論文情報(例えばNCBIが構築し
ている“PubMed”など)といったように、データベース
毎に異なり、多岐にわたっている。
【0005】従って、これらのデータベースを駆使する
ことで、ユーザは自己の追求している特定テーマに関し
て、必要な情報を入手することが可能であるが、データ
ベースが多岐にわたるため、現実にはそう簡単にはいか
ない。
【0006】すなわち、ユーザが、これらのデータベー
スから特定のテーマに関する情報を網羅的に収集しよう
とする場合には、上記の複数のデータベースを利用しな
ければならないが、そのためには、インターネットを利
用してデータベースを提供している複数のサイトに一つ
一つアクセスし、それぞれのデータベースから必要なデ
ータを抽出するという煩雑な作集を繰り返し行わなけれ
ばならない。
【0007】しかも、厄介なことに、バイオ関連のデー
タベースには、各データベースに蓄えられているデー
タ、例えば、遺伝子の塩基配列やタンパク質のアミノ酸
配列を、人が単に閲覧しただけでは、データに含まれた
生物学的意味を理解できないという特徴がある。
【0008】例えば、前述のGenBankにラット嗅覚レセ
プタータンパク質の遺伝子として登録されている1つの
データ(登録番号:Y07557)には、そのタンパク質のア
ミノ酸配列として、“MTERNQTVISQFLLLGLPIPPEHQHVFYAL
FLSMYLTTVLGNLIIIILILLDSHLHTPMYLFLSNLSFSDLCFSSVTMPK
LLQNMQSQVPSIPYAGCLSQIYFFLFFGDLGNFLLVAMAYDRYVAICFPL
HYMSIMSPKLCVSLVVLSWVLTTFHAMLHTLLMARLSFCEDNVIPHFFCD
MSALLKLACSDTRVNEVVIFIVVSLFLVLPFALIIMSYVRIVSSILKVPS
SQGIYKAFSTCFSHLSVVSLFYGTVIGLYLCPSSNNSTVKETVMSLMYTV
VTPMLNPFIYSLRNRDIKGAMERIFCKRKIQLNL”という文字列の
情報がある。
【0009】嗅覚レセプタータンパク質は、直覚ニュー
ロンの細胞膜に存在しており、かつ、細胞膜を貫通して
いる領域が7箇所存在すると考えられている(Buck l.
andAxel R., Cell vol.65 175-187, 1991)が、上記の
文字配列を人が単に眺めただけでは、どの部分が細胞膜
を貫通している領域かを知ったり、あるいは予測したり
することはできない。
【0010】このように、バイオ分野のテータを利用す
る上では、人が単に閲覧しただけでは得られない情報を
抽出することが重要である。そのため、幾つかの解析ツ
ールが開発され、WWW上で公開されている。
【0011】例えば、タンパク質のアミノ酸配列から細
胞膜貫通領域を予測するツールに関しては、SIBが運
営しているExPASy(Expert Protein analysis System,
http://expasy, nhri.org.tw/tw/tools/)において、8
種類のツールが紹介されており、利用可能である。しか
し、データを解析する手法はまだ研究段階のものが多
く、確立されていないことから、同一の目的に対しても
複数のツールが提供されているのが現状である。
【0012】このため、ユーザは、これらのツールを利
用して解析結果を得ることとなるが、信頼性の高い解析
結果を得るためには、複数のツールによる結果を比較検
討することが重要である。そして、これらの解析ツール
を提供しているサイトは、前述したデータベースとは必
ずしも同一ではないWWW上のサイトで提供されているた
め、ユーザはデータを解析する過程でも、改めて複数の
サイトに一つ一つアクセスする必要があった。
【0013】
【発明が解決しようとする課題】以上のように、バイオ
分野のデータを利用するにあたり、ユーザがWWW上に分
布したデータベースから必要なデータを抽出してデータ
ベース化したり、得られたデータからWWW上で提供され
ている解析ツールを利用して新たな情報を抽出しようと
する場合、幾つものサイトにアクセスしてデータの抽出
や個々のデータに関する解析作業を行うという、煩雑で
手間のかかる作業を手作業で行わねばならなかった。
【0014】このような煩雑な手作業を軽減するため、
従来においてもWWW上の複数のデータベースからユーザ
が必要とするデータを抽出するための市販のアプリケー
ションソフトウェア(例えば、LION Bioscience Ltd.社
の開発したSRSなど)が提供されてはきた。
【0015】しかし、これまで提供されてきたアプリケ
ーションソフトウェアでは、利用できるデータベースが
予め設定されているため、WWW上で公開されるそれ以外
のデータベースを新たに含めて利用したいと云う要求が
生じても、そのような要求には適合できなかった。
【0016】そのため、ユーザが必要とする全てのデー
タベースを網羅できるようなシステムを必要とするなら
ば、オーダーメイドでそのようなアプリケーションを開
発しなければならないが、その場合には開発コストが非
常に高価なものになった。更に、オーダーメイドのシス
テムでも、システム構築後に新規なデータベースが公開
された場合や、ユーザが利用するデータベースに変更が
生じた場合には、容易には対応することができないとい
う問題があった。
【0017】また、WWW上で公開されているデータベー
スは、ブラウザを通してユーザに情報を提供することに
主眼を置いているため、ユーザが、データベースから抽
出したデータを利用してユーザ独自のデータベースを構
築しようとする場合には、ユーザ自身がブラウザに表示
されたデータを、一つ一つHTML(Hyper Text MarkupLan
guage)形式か、或いは、単なるテキスト形式に変換し
たのち、記憶媒体へ保存してからデータベース化しなけ
ればならないという問題があった。
【0018】更に、従来のデータベースで提供されるデ
ータには、該データベースを利用する大部分のユーザに
必要とされる情報が盛り込まれているため、特定ユーザ
にとっては必ずしもすべての情報が必要であるわけでは
ない。
【0019】そこで、容量の限られたユーザの記憶媒体
にデータを保存しデータベースを構築しようとする場合
に、各データベースから抽出された個々のデータの全要
素データから必要最小限の要素を取り出し、データとし
て整形して保存することができるようなデータベース再
構築システムの出現が嘱望される。
【0020】更に、各データベースが提供するデータの
フォーマットや、解析ツールで使用するデータの形式
は、それぞれのデータベースや解析ツールにおいて独自
に策定されて統一化されていないため、前述のようにブ
ラウザで表示された各データの一部をテキスト形式で単
に切り出して保存しただけでは、解析ツールで利用でき
ない場合が生じるという問題点があった。
【0021】このことを説明しておく。図1は、前述の
GenBankに登録されている嗅覚レセプタータンパク質遺
伝子に関する情報を、テキスト形式で保存した例を示し
たもので、ブロック110の領域に嗅覚レセプタータン
パク質のアミノ酸配列が記載されている。このアミノ酸
配列のデータは、人が見易いように適宜な位置で改行コ
ードや空白(格子模様の領域、ブロック111)が挿入
されている。
【0022】また、図から分かるように、ブロック12
0の領域に記載されている嗅覚レセプタータンパク質の
遺伝子の塩基配列には、改行と空白に加えて配列の番号
も挿入されている。
【0023】しかし、データを解析ツールで解析する際
には、“改行コード”、“空白”、“配列番号”といっ
た不要な文字列は予め取り除いて、一続きの文字列に整
形しておかないと正確な処理が行われないという問題が
あった。
【0024】本発明は、以上のような問題点に鑑みてな
されたものであり、WWW上のデータベースからのデータ
の抽出、データベース化、データの解析という一連の工
程を、簡易に実施可能であり、しかも、処理対象や処理
内容、利用データベース、利用解析ツールなどもユーザ
本位に自由度を高めることができると共に、データの形
式や配列などは所望に自動変換できるようにした便利な
データベースシステムおよびデータベース構築方法を提
供することにある。
【0025】
【課題を解決するための手段】上述の課題を解決するた
め、本発明は次のように構成する。
【0026】[1] 検索対象の情報をマークアップ言
語で記述してなる検索リストに基づいて、インターネッ
トウエブ上のデータベースからデータを検索し、抽出す
る検索抽出手段と、この抽出データを、文書型定義を用
いて構造化文書に変換して、これを一次データとして得
る変換手段と、この一次データについて、マークアップ
言語で記述してなる解析リストに基づいて、インターネ
ットのウエブ上で提供される解析ツールにより解析させ
るべく制御すると共に、解析結果を取得する解析手段
と、この取得した解析結果を前記文書型定義を用いて構
造化文書に変換して、前記一次データに付加する手段と
を備えたことを特徴とする。
【0027】また、前記インターネットウエブ上のデー
タベースはバイオテクノロジー関連のデータベースであ
り、前記解析ツールはバイオテクノロジー関連の解析に
利用されるものであることを特徴とする。
【0028】本システムは、構造化文書で記述した検索
対象のリストおよび、検索された情報の解析のための情
報を構造化文書で記述した解析リストと、DTD(構造
化文書を得るための文書型定義)を用意すれば、ユーザ
が必要な情報を、検索リストに従って抽出手段がWWW上
のデータベース(復数のバイオ関連データベース)から
抽出し、この抽出データをDTDを用いて変換手段は構
造化文書へ変換し、そして、解析手段は前記解析リスト
に従って、解析ツールの提供サイトにアクセスし、解析
を行う要素データを送って解析処理してもらい、結果を
受け取る。そして、付加手段は、この解析結果のデータ
から、必要な要素データを抽出し、これをDTDに基づ
いて、現在の一次データに二次データとして付加するか
たちでデータ処理する。
【0029】WWW上のデータベースは、そのアクセス
にブラウザを用いて閲覧する構成であり、ブラウザはX
MLなどのマークアップ言語で記述したファイルを用意
すればブラウザ上での様々な処理や制御が可能である。
しかもXMLなどのマークアップ言語では、定義をすれば
機能を拡張できる。従って、検索したい対象やデータベ
ースをマークアップ言語にて記述した検索リストや、解
析ツールを指定してどのデータを解析させるかと、云っ
たことを思うがままに実行させることができる。
【0030】そのため、WWW上に分散している複数のデ
ータベースから、ユーザが必要とするデータを抽出し、
そのデータからユーザ独自のデータベースを構築、更
に、ユーザのデータベース中のデータから、WWW上で提
供されている解析ツールを用いてて新たな情報を抽出し
ようというような場合に、“複数のデータベースヘアク
セス”、“データを抽出、“データの整形・保存”、
“データベース化”、“解析ツールを提供している複数
のサイトへのアクセス”、“解析するデータの送信”、
“データの解析”、“解析結果のデータ中から必要なデ
ータの選別”、“集めたデータの1ファイル化しての保
存”という一連の煩雑な作業の繰り返しを、容易に自動
化できるようになる。
【0031】従って、本第1の実施の形態により、WWW
上の分散したバイオ関連の複数のデータベースから、ユ
ーザが利用するデータベースを自由に選択可能で、か
つ、変更も容易となる。また、マークアップ言語を用い
ているので、検索対象や処理内容などの変更や追加は自
由に出来、拡張性と柔軟性をもったデータ収集システム
を提供できる。
【0032】[2]また、前記記憶手段はインターネッ
トのウエブ上で公開すると共に、このウエブ上で公開さ
れた前記記憶装置のデータは構造化文書形式もしくはテ
キスト形式の少なくともいずれか所望の形式で取り込む
手段をさらに有することを特徴とする。
【0033】この構成によれば、再構築されたデータを
第三者が利用することができ、その場合に、そのデータ
をテキスト形式か、構造化文書形式のいずれかを選択し
て取り込むことができる。そのため、ブラウザが構造化
文書に適合していないときはテキスト形式で取り込め
ば、データの利用が可能であり、ブラウザが構造化文書
に適合していれば構造化文書形式を活かして閲覧した
り、再加工に利用できるようになる。
【0034】
【発明の実施の形態】本発明は、WWW上の分散したバイ
オ関連の複数のデータベースから、ユーザが利用するデ
ータベースを自由に選択して必要なデータを抽出でき、
抽出したデータは構造化文書に変換して一次データとし
て蓄え、この蓄えた一次データからWWW上に分散した複
数のサイトで提供される複数の解析ツールを利用して情
報を抽出し、抽出した情報を前記一次データに付加する
処理を、計算機により自動的に行えるようにすると共
に、WWW上のデータを活用することから、WWWの情
報閲覧に供されるアプリケーションであるブラウザで利
用可能なマークアップ言語による構造化文書形式を検索
や分析、データ保管に採用するようにしたことを特徴と
するものである。そして、この構造化文書を採用するこ
とで、ユーザが利用するWWW一上のデータベースや解析
ツール、収集対象の変更や収集データの配置などを柔軟
に変更可能なシステムを提供することができるものであ
り、以下、本発明の実施の形態について、図面を参照し
て説明する。
【0035】(第1の実施の形態)ここでは、例えば、
ある種のタンパク質遺伝子データベースは図1に示す如
きの形態といった具合に目的や用途等に応じてデータベ
ース毎に様々な形態をとるバイオ分野のデータベースか
ら、自己の目的に合う情報や形式を持つデータベースを
構築できるようにするデータベースシステムの再構築の
ためのデータ収集システムを提案する。以下、詳細を説
明する。
【0036】図2は、第1の実施の形態によるデータベ
ースシステムの基本構成を示すブロック図である。図2
において、200は本発明によるデータベースシステム
であり、270はWWW上に分散しているバイオ関連デー
タベース、280はバイオ分野のデータを解析するため
のツールであって、これらはWWW上の分散したサイトよ
り提供される。これらと本発明のデータベースシステム
200とはインターネット260を介して繋がってい
る。なお、図1では、バイオ関連データベース270と
解析ツール280が異なるブロックに表記されている
が、実際にはこれらが同一のサイトで提供されている場
合も含まれる。
【0037】本発明のデータベースシステム200は、
WWW上の復数のバイオ関連データベース270からユー
ザが必要な情報を抽出するためのデータ抽出モジュール
210と、記憶部220と、抽出したデータを構造化文
書へ変換するためのモジュール230と、データベース
部240と、データベース部240に蓄えられたテータ
をWWW上の解析ツール280を利用して解析を行うため
のテータ解析エージェント250とにより構成されてお
り、これらが一連の工程として動作するシステムとなっ
ている。
【0038】ここで、前記記憶部220とデータベース
部240とは、同一の記憶媒体で構成してもよいし、異
なる記録媒体、例えば、記憶部220はメモリに、デー
タベース部はハードディスクにというように構成しても
よい。
【0039】本発明システムでは、複数のバイオ関連デ
ータベース270からユーザが必要な情報を、データ抽
出モジュール210が抽出するが、このデータ抽出モジ
ュール210は、ディレクトリ型検索エンジン211と
ダウンロードプログラム212とで構成されている。デ
ィレクトリ型検索エンジン211は、ユーザが予め作成
した、利用するデータベースと検索式を記載した検索リ
ストファイル213を保有し、このファイルに基づいて
データベースヘのアクセス、データの抽出を行う機能が
ある。これによりデータ抽出モジュール210は、デー
タベースからユーザが必要な情報を抽出することができ
る。
【0040】前記データ抽出モジュール210の持つ前
記ダウンロードプログラム212は、ディレクトリ型検
索エンジン211、検索ファイル213に基づいて検索
を行った結果を、一時的に記憶部220に格納する機能
を有する。また、記憶部220に格納した検索結果をも
とに、抽出された個々のデータをWWW上のデータベー
スからダウンロードして記憶部220に格納するといっ
た機能も有する。
【0041】データ抽出モジュール210が、データベ
ースから抽出して記憶部220に格納したユーザの必要
な情報は本発明システムでは構造化文書に変換するが、
これを行うのが変換モジュールである。
【0042】この変換モジュール230は、パーサ23
1と、DTDを格納した文書方定義格納部232とによ
り構成されている。これらのうち、パーサ231は、文
書型定義格納部232に格納されているDTDに基づい
て、ダウンロードプログラム212によりテキストファ
イル形式で取得した各データを解析し、その中から必要
な要素を取り出して、構造化文書へ変換するという処理
機能を持つプログラムである。
【0043】尚、DTDとは、Document Type Difinition
(文書型定義)の略であり、文書がどのようなタイプの
ものかを定義するものであって、主として、要素型宣言
と属性リスト宣言からなるものである。ここで、要素型
宣言とは、XML文書で出てくる各々の要素に対して、ど
のようなものを内容に持つか、ということを定義するも
のであり、属性リスト宣言は、XML文書で出てくる各々
の要素に対して、どのような属性を持ち、その属性がど
のような値を取り得るのか、といったことを定義するも
のである。
【0044】データベース部240はユーザ仕様により
新たに構築したデータからなるデータベースであり、変
換モジュール230で構造化文書に変換したデータから
ユーザが選択した特定の要素についてデータ解析エージ
ェント250が解析を行った結果、得られた新たな情報
を、元のデータに付加することができる。
【0045】このデータベース部240は、WWW上のデ
ータベースから抽出して構造化文書に変換した各データ
を格納する一次データ格納部241と、一次データをWW
W上の解析ツールで解析して得られた結果を格納する二
次データ格納部242とにより構成されている。データ
ベースは、いわゆるリレーショナルデータベース、オブ
ジェクト指向データベース、リレーショナルオブジェク
ト指向データベースなどを利用することが可能である。
【0046】データ解析エージェント250は、解析リ
ストファイル251とデータ送受信プログラム252に
より構成される。解析リストファイル251は、ユーザ
が、利用する解析ツールに関する情報(解析ツールが提
供されているサイトのURLや、解析ツールが一次デー
タのどの要素を利用するのか、など)を記載した文書フ
ァイルである。このファイルの内容に基づいて、以下で
説明するデータ送受信プログラム252が処理を行うた
め、解析リストファイル251は検索リストファイルと
同様、XMLなどの構造化文書であると望ましい。
【0047】データ送受信プログラム252は、解析リ
ストファイル251に基づいて、解析ツールを提供して
いるサイトヘアクセスし、解析を行う要素データを送信
する機能を有する。また、得られた解析結果を一時的に
記憶部220に格納し、この結果から、必要な要素デー
タを抽出して、これをDTDに基づいて、現在の一次デ
ータに二次データとして付加するといった機能を有す
る。
【0048】次に、このような構成の本発明システムの
作用を説明する。このような構成の本発明のデータベー
スシステム200は、WWW上の複数のバイオ関連データ
ベース270からユーザが必要な情報を、データ抽出モ
ジュール210が抽出し、モジュール230がこの抽出
データを構造化文書へ変換する。
【0049】ここで、本発明で用いられる構造化文書と
は、SGML(Standard Generalized Markup Language, IS
O8879, 1986)や、XML(eXtensible Markup Languate,
http://www.w3.org/TR/REC-xml, 1998)に代表される
マークアップ言語の仕様に従って、所定の構成要素に基
づいて構造化された文書である。
【0050】このような構造化文書では、文書を構成す
る各要素を、各要素の意味、属性などの情報を含んだタ
グでマークアップする。これにより、当該マークアップ
言語を実行可能な計算機(コンピュータ)による処理、
例えば文書中に含まれる要素の検索などが容易に実行可
能である。
【0051】マークアップ言語は、基本的には、タグ
とそれらに囲まれた文字列(テキスト)とから構成されて
おり、上記タグとは ”<title>..</title>” や ”<h1
>..</h1>”など“<”と“/>”で囲まれて表現された
ものを指す。そして、各タグは予め定義がなされている
が、XML ではタグの定義を自由に行うことができ、ユー
ザが目的に合わせて所望の内容のものを作成して利用で
きる。
【0052】このように、構造化文書では、文書を構成
する各要素を、各要素の意味、属性などの情報を含んだ
タグでマークアップすることにより、計算機処理による
文書中の要素の検索や編集、抽出といったことなどがわ
かり易い記述で容易に行え、しかも、ユーザ自身による
構造化文書内容の変更や追加、削除などが容易であると
いう特徴がある。
【0053】本発明のように、データベースに蓄えられ
た全データの特定の要素データを取り出し、取リ出した
全要素データを解析することにより、新たな情報を抽出
しようとする場合には、計算機による要素データの検出
などの処理が高頻度で行われるため、構造化文書のこの
特徴は、作集効率の向上を図る上で非常に重要である。
【0054】従って、本発明ではマークアップ言語を用
いた構造化文書による処理を採用している。
【0055】前述したように、データベースからユーザ
が必要な情報を抽出する前記データ抽出モジュール21
0は、ディレクトリ型検索エンジン211とダウンロー
ドプログラム212とで構成されている。そして、ディ
レクトリ型検索エンジン211は、ユーザが予め作成し
た、利用するデータベースと検索式を記載した検索リス
トファイル213を保有し、このファイルに基づいてデ
ータベースヘのアクセスや、データの抽出等の処理を行
う。検索リストファイル213としては、マークアップ
言語による構造化文書を採用する。ただし、これは必須
の要件ではない。しかし、柔軟性を持たせるためには、
計算機による処理が容易で、かつ、ユーザによる改変作
集も容易な形式、例えば、構造化文書であることが望ま
しい。
【0056】検索リストファイル213を構造化文書形
式の一つであるXML形式で記述した例を図3に示す。
このファイルは、“olfactory receptor”(嗅覚レセプ
ター)というキーワードを持つデータを抽出するための
ものである。図において、ブロック310の領域には、
検索リストファイルにおける文書型定義DTD(Docume
nt Type definition)の内部サブセットを、ブロック3
10、330、340の各領域には、それぞれ利用する
データベース毎にデータの抽出に関する情報を記述して
いる。DTDについては、後述の構造化文書への変換モ
ジュールの項で説明する。なお、この例では、検索リス
トファイルのDTDを内部サブセットとして記述してい
るが、これに限定するものではない。また、データベー
スについても、3種類のデータベースを利用するように
設定しているが、当然、これに限定するものではない。
【0057】利用するデータベースとしては、前述の
“GenBank”, “SWISS-PROT”、そして、嗅覚レセプタ
ータンパク質に関する情報に特化して構築されているデ
ータベース“ORDB(Orfactory Receptor DataBase、Y
ale Univ. Shephard a Lab.で築されている)”を、図
3のブロック310,320、330の領域に含まれる
要素“database_name”に登録している。
【0058】また、検索リストファイル中においては、
それぞれのデータベースでの検索式は、“query”なる
要素に記述しておく。この検索式としては、簡単には、
各データベースが提供している検索システムを用いてキ
ーワード検索を行った際に、ブラウザのURL(Unifor
m Resource Locator)の欄に表示されている文字列を利
用することができる。
【0059】ユーザは、このような構造化文書形式の検
索リストファイル213の内容を更新することにより、
利用するデータベースを自由に変更したり、追加したり
することが可能であり、かつ、検索リストファイルを作
成した後に発見したり、新たに提供開始した新規データ
ベースを利用したい場合には、検索リストファイル21
3に必要なデータを書き加えることで利用可能となる。
【0060】ダウンロードプログラム212は、ディレ
クトリ型検索エンジン211検索ファイル213に基づ
いて検索を行った結果を、一時的に記憶部220に格納
する。続いて、ダウンロードプログラム212は、記憶
部220に一時的に格納した検索結果をもとに、抽出さ
れた個々のデータをWWW上のデータベースからダウン
ロードして記憶部220に格納する。このとき、ダウン
ロードプログラム212がダウンロードしたデータ形式
はテキストファイル形式である。
【0061】次に本発明のデータベースシステム200
は、このテキストファイル形式でダウンロードされたこ
の収集データを、モジュール230の機能によって構造
化文書に変換処理させる。
【0062】すなわち、構造化文書への変換モジュール
230は、パーサ231と、DTDを格納した文書方定
義格納部232とを有しているが、これらのうち、パー
サ231は、文書型定義格納部232に格納されている
DTDに基づいて、各データ(テキストファイル形式で
取得してある)を解析し、その中から必要な要素を取り
出して、構造化文書へ変換するという処理機能を行う。
【0063】ここでDTDは文書型定義であり、文書がど
のようなタイプのものかを定義するものであって、主と
して、要素型宣言と属性リスト宣言からなるものであ
る。そして、要素型宣言とは、XML文書で出てくる各々
の要素に対して、どのようなものを内容に持つか、とい
うことを定義するものであり、属性リスト宣言は、XML
文書で出てくる各々の要素に対して、どのような属性を
持ち、その属性がどのような値を取り得るのか、といっ
たことを定義するものである。DTDは別ファイルにして
おくこともできるし、XML文書の中に記述することもで
き、別ファイルにした方を“外部サブセット”、XML文
書内に書かれたものを“内部サブセット”と呼ぶ。外部
サブセットと内部サブセットは同時に指定することも可
能である。
【0064】このように、DTDは、XML文書のデータ
構造を書くためのものであり、構造化文書がどのような
要素を、どのような構造で含んでいるといった文書型を
定義してあるので、パーサ231はこのDTDに基づい
てデータを処理すると、得られたファイルは構造化文書
に変換されたファイルとなる。
【0065】尚、DTDとしては、外部で提供されるも
のを利用することも可能であり、また、構造化文書がX
ML形式である場合には、DTDを用いないことも可能
である。しかし、本発明が提供するデータベースシステ
ムのように、構造化文書に変換したデータからユーザが
選択した特定の要素について解析を行い、得られた新た
な情報を元のデータに付加するというような処理を含む
システムでは、ユーザの用途に適した、かつ、データを
構成する要素を随時付加することを念頭において作成さ
れたDTDを利用するのが望ましい。
【0066】このようにして、本発明のデータベースシ
ステム200は、ユーザが所望とする一つ以上のデータ
ベースや検索内容を記述した検索リストを用意しておく
ことで、データ抽出モジュール210はこの検索リスト
に従って、WWW上の復数のバイオ関連データベース27
0からユーザが必要な情報を抽出し、この抽出データは
ユーザが予め設定したDTDに基づいてモジュール23
0が構造化文書へ変換する。そして、変換した構造化文
書をデータベース部240に与える。
【0067】データベース部240は、WWW上のデータ
ベースから抽出して構造化文書に変換した各データを格
納する一次データ格納部241と、一次データをWWW上
の解析ツールで解析して得られた結果を格納する二次デ
ータ格納部242とにより構成されており、構造化文書
に変換されたデータは一次データ格納部241に格納さ
れる。尚、データベースは、いわゆるリレーショナルデ
ータベース、オブジェクト指向データベース、リレーシ
ョナルオブジェクト指向データベースなどを利用するこ
とが可能である。
【0068】次に、本発明のデータベースシステム20
0は、データ解析エージェント250により、一次デー
タ格納部241の格納データについて解析を行う。
【0069】データ解析エージェント250は、解析リ
ストファイル251とデータ送受信プログラム252に
より構成されており、データ送受信プログラム252は
解析リストファイル251に従って、解析ツールの提供
サイトにアクセスし、解析を行う要素データを当該サイ
トに送信する。これを受けたサイト側では解析リストフ
ァイル251に指定された解析ツールを使用して前記要
素データを解析し、結果を本発明のデータベースシステ
ム200に返す。
【0070】本発明のデータベースシステム200では
この得られた解析結果のデータをデータ解析エージェン
ト250が受け取り、これをデータ送受信プログラム2
52の実行によって一時的に記憶部220に格納し、ま
た、この格納した前記解析結果のデータから、必要な要
素データを抽出し、これをDTDに基づいて、現在の一
次データに二次データとして付加するかたちでデータ処
理する。
【0071】そのため、データベース部240にはバイ
オ関連のデータベースから収集した所望のデータを、D
TDに基づいたかたちで次々に付加し、所望のデータベ
ースの基礎データとして得ることが出来るようになる。
【0072】解析リストファイルを用いた解析につい
て、もう少し詳しく説明しておく。本発明システムで用
意した上述の解析リストファイル251は、ユーザが、
利用する解析ツールに関する情報(解析ツールが提供さ
れているサイトのURLや、解析ツールが一次データの
どの要素を利用するのか、など)を記載した文書ファイ
ルである。なお、このファイルの内容に基づいて、以下
で説明するデータ送受信プログラム252が処理を行う
ため、解析リストファイル251は検索リストファイル
と同様、XMLなどの構造化文書であると望ましい。
【0073】図4に、XML形式で作成された解析リス
トファイル251の一例を示した図において、ブロック
410には、解析リストファイルにおけるDTDの内部
サブセットを記述してあり、ブロック420とブロック
430とには、2種類の解析ツールに関する情報を記述
してある。
【0074】そして、本実施例においては具体的には、
解析ツールに関する情報の記述は、新たに宣言して利用
可能にした“tool_url”なる要素に、解析ツールを提供
しているサイトのURLの情報を記述し、新たに宣言して
利用可能にした“data_element”なる要素に、解析ツー
ルが利用する一次データの要素を記述している。
【0075】そして、“tool_url”なる要素は、データ
送受信プログラム252において当該要素に記述された
サイトに行ってここで提供する解析ツールを利用すると
いう機能と関連付けてあり、“data_element”なる要素
には、当該要素に記述された一次データの要素を当該解
析ツールで解析させるという機能と関連付けてある。X
MLを利用することによりユーザによるこのようなプロ
グラミングが容易にできることから、このような特徴を
利用することで、“tool_url”なる要素に記述されたサ
イトに行ってここで提供する解析ツールを利用して、
“data_element”なる要素に記述された一次データの要
素を当該解析ツールで解析させることができるようにな
る。
【0076】ここでは、解析ツールとしては、先述のEx
PASyで細胞膜貫通領域予測ツールとして紹介されている
2種類、“SOSUI (http://azusa.proteome.bio.tuat.a
c.jp/sosui/submit.html)”と“TopPred2(http://www.b
iokemi.su.se/ server/toppred2/toppredServer.cgi)”
を登録し、ともに一次データに含まれる要素aa_sequenc
eを利用することを宣言している。
【0077】本実施の形態では、DTDを内部サブセット
として記述しているが、もちろん外部サブセットとして
別のファイルで提供する構成としても良い。また、上述
の通り、本実施の形態では2種類の解析ツールを登録し
ているが、これも当然ながらこれらに限るものではな
い。
【0078】データ送受信プログラム252は、解析リ
ストファイル251に基づいて、解析ツールを提供して
いるサイトヘアクセスし、解析を行う要素データを送信
する。そして、これにより得られた解析結果を一時的に
記憶部220に格納し、この結果から、必要な要素デー
タを抽出して、これをDTDに基づいて、現在の一次デ
ータに二次データとして付加する。
【0079】そのため、バイオ関連のデータベースから
収集した所望のデータを、DTDに基づいたかたちで次
々に付加し、収集していくので、所望のデータベースを
構築するに当たり、所望のデータを様々なデータベース
上から抽出してファイル化できるようになる。
【0080】以上のように、この1の実施の形態におけ
るデータベースシステム200は、マークアップ言語で
記述した検索リストおよび解析リストと、DTD(構造
化文書を得るための文書型定義)を用意すれば、ユーザ
が必要な情報を、検索リストに従ってデータ抽出モジュ
ール210がWWW上の複数のバイオ関連データベース2
70から抽出し、この抽出データを記憶部220に記憶
し、データの収集が終わると、次にDTDを用いてのモ
ジュール230の機能によってこの収集データの構造化
文書への変換を実施し、次に、解析エージェント250
が前記解析リストに従って、解析ツールの提供サイトに
アクセスし、解析を行う要素データを送って解析処理し
てもらい、結果を受け取って記憶部220に格納させ、
また、この格納した前記解析結果のデータから、必要な
要素データを抽出し、これをDTDに基づいて、現在の
一次データに二次データとして付加するかたちでデータ
処理し記憶部に格納させるようにした。
【0081】WWW上のデータベースは、そのアクセス
にブラウザを用いて閲覧する構成であり、ブラウザはX
MLなどのマークアップ言語で記述したファイルを用意
すればブラウザ上での様々な処理や制御が可能である。
しかもXMLなどのマークアップ言語では、定義をすれば
機能を拡張できる。従って、検索したい対象やデータベ
ースをマークアップ言語にて記述した検索リストや、解
析ツールを指定してどのデータを解析させるかと、云っ
たことを思うがままに実行させることができる。そのた
め、WWW上に分散している複数のデータベースから、ユ
ーザが必要とするデータを抽出し、そのデータからユー
ザ独自のデータベースを構築、更に、ユーザのデータベ
ース中のデータから、WWW上で提供されている解析ツー
ルを用いてて新たな情報を抽出しようというような場合
に、複数のデータベースヘアクセスし、データを抽出、
データの整形・保存、データベース化、解析ツールを提
供している複数のサイトにアクセス、解析するデータの
送信、データの解析、といった一連の煩雑な作業の繰り
返しを、容易に自動化できるようになる。
【0082】従って、本第1の実施の形態により、WWW
上の分散したバイオ関連の複数のデータベースから、ユ
ーザが利用するデータベースを自由に選択可能で、か
つ、変更も容易であり、所望のデータを所望に収集して
利用可能にするシステムが得られるようになる。
【0083】(第2の実施の形態)図5は、第2の実施
の形態によるデータベースシステムの基本構成を示すブ
ロック図である。図において、データベースシステム5
00は、第1の実施の形態における各モジュールと同等
の働きをする、データ抽出モジュール510、記憶部5
20、構造化文書への変換モジュール530、データベ
ース部540、データ解析エージェント550、そし
て、当該第2の実施の形態におけるシステムの特徴的な
構成要素であるユーザインターフェイスモジュール56
0とにより構成する。
【0084】データ抽出モジュール510は、第1の実
施の形態におけるデータ抽出モジュール210に、記憶
部520は、第1の実施の形態における記憶部220
に、構造化文書への変換モジュール530は、第1の実
施の形態における構造化文書への変換モジュール230
に、データベース部540は、第1の実施の形態におけ
るデータベース部240に、そして、データ解析エージ
ェント550は、第1の実施の形態における解析エージ
ェント250に該当するもので、構成および機能も第1
の実施の形態のものと同等である。
【0085】第2の実施の形態におけるシステムの特徴
的な構成要素であるユーザインターフェイスモジュール
560は、外部のユーザがインターネット570を介し
てデータベースシステム500にアクセスする際のユー
ザインターフェイスを提供するものであり、データベー
ス部540に格納されているデータから、必要なデータ
を抽出してテータの内容を回覧するためのビュー機能5
61と、インターネット570を介してデータベース部
540にアクセスしているユーザが、構造化文書として
格納されているデータを、そのデータ構造を維持したま
まダウンロードするためのデータ送信機能562とを持
つ。
【0086】本システムにおいては、データベース部5
40にはユーザがバイオ関連データベースから必要情報
を自動収集して構築したデータが構造化文書として格納
されているが、ユーザインターフェイスモジュール56
0には、ビュー機能561があり、データベース部54
0に格納されているこれらのデータから、必要なデータ
を抽出してテータの内容を回覧することができる。ま
た、データ送信機能562を設けたことにより、インタ
ーネット570を介してデータベース部540にアクセ
スしているユーザが、構造化文書として格納されている
データを、そのデータ構造を維持したままダウンロード
することができる。
【0087】このように、本発明システムのデータベー
ス部を他のユーザがアクセスできると共に、このアクセ
スしている他のユーザが構造化文書のまま、データをダ
ウンロードできるようにしたことにより、利用するユー
ザがデータベースを構築したり、取得したデータを計算
機で処理することを容易にする効果がある。
【0088】このように、第2の実施の形態により、本
発明が提供するデータベースシステムを利用して構築し
たデータベースをWWW上で公開した際に、インターネ
ットを介して外部のユーザが該データベースシステムに
アクセスしてデータを閲覧したり、該データベースから
外部のユーザが抽出したデータを構造化文書の形式を維
持したままダウンロードするシステムを提供することが
可能である。
【0089】以上説明した実施の形態1.および実施の
形態2.において、データベースシステムは、ソフトウ
ェア的に構成しても良いし、専用のハードウエアとして
構成しても良い。更に、ハードウェア的に構成する場合
は、単一のコンピュータで構成してもよいし、あるい
は、各モジュールで異なるコンピュータを利用し、か
つ、それらのコンピュータをネットワークで連結して構
成してもよい。また、データベースシステムを構成する
各モジュール、およびモジュール間のデータの受け渡し
等を制御するためのプログラムは、さまざまな言語で記
述可能であるが、バイオ分野のユーザが使用している計
算機がいわゆるPC/AT(IBM社商標)互換機とMacinto
sh機(Apple computer社商標)のものに二分されてい
るため、機種依存性の低い言語、例えばJAVA(Sun Micro
systems, Inc.の登録商標)などで記述されることが望ま
しい。
【0090】次に、本発明を適用したデータベースシス
テムの実行例を説明する。
【0091】(第1の実行例)本発明の実行例として、
嗅覚レセプタータンパク質データベースシステムへの適
用例を示す。ここで説明するシステムは、嗅覚レセプタ
ータンパク質に関わるデータを、WWW上のデータベース
(例えば、“GenBank”データベース, “ORDB”データ
ベース, “SWISS-PROT”データベースなど)から抽出
し、この一次データに含まれる嗅覚レセプタータンパク
質のアミノ酸配列から、先述の細胞膜貫通領域予測ツー
ル(SOSUIなど)を用いて、匂い分子との結合にか
かわるとされている嗅覚レセプタータンパク質の細胞膜
貫通領域に関する情報を抽出し、この情報を二次データ
として上述の一次データに付加して、データベース化す
るためのシステムである。以下、嗅覚レセプタータンパ
ク質データベースシステムの動作について、図を参照し
ながら説明する。
【0092】図6は、嗅覚レセプタータンパク質データ
ベースシステムにおける、データ抽出モジュール210
のフローチャートである。このシステムでは、データ抽
出モジュール210はユーザが予め指定しておいた時間
にWWW上のデータベースからデータの抽出を行う(ス
テップS601)。
【0093】これにより、ネットワークの通信能力が低
下することが予測される時間帯(混雑期)や、ユーザが
データベースシステムを利用する時間帯などを避けて、
データの抽出を行うよう指定することで、本データベー
スシステムを利用したデータ収集の作業効率向上を図る
ことできるようになる。図において、ステップS602
からステップS605までが、図2または図5における
ディレクトリ型検索エンジン211,511の動作を、
また、ステップS606からステップS607までが、
図2または図5におけるダウンロードプログラム21
2,512の動作を示している。
【0094】以下、各ステップについて説明する。
【0095】<データ抽出モジュールの処理>データ抽
出モジュール210,510では、ステップS601で
指定された時刻になると、ディレクトリ型検索エンジン
211,511を起動する(ステップS602)。する
と、ディレクトリ型検索エンジン211,511は、図
3で示した検索リストファイル213に記載された全て
の検案について検索を実行する(ステップS604)。
【0096】検索の実行は、検索リストファイル213
の要素“query”に記載されたURLにアクセスす
ることで実現させる。続いて、ステップS605におい
て、各データベース270,580からHTML形式で
提供される検索結果のソースファイルを記憶部220,
520にテキストファイルとして格納する。
【0097】図7に、記憶部220,520に格納され
た検索結果の一部を示した。これは、WWW上のデータ
ベースのひとつである“GenBank”を利用した場
合の例を示しており、この場合、HTML形式の検案結
果には、データベース“GenBank”に保存されて
いるデータ中で検索条件に合致したものの登録番号など
がリスト形式で表示され、かつ、それぞれの登録番号に
は、各データに関する情報を表したHTMLファイルヘ
のリンクが張られた状態で提示される。
【0098】このため、この検索結果のソースファイル
には、各テータのHTMLファイルに対応するURL
が、図のブロック720の領域に示す如きに記述された
かたとなっている。
【0099】ステップS607において、ダウンロード
プログラム212により、このURLを抽出するには、
“GenBank”の場合、例えば、ボックス710に
示された、HTMLにおけるタグである“<dl><d
t>”を目印として、その直後に記述されているURL
を抽出することで実現可能である。
【0100】ダウンロードプログラム212は、次に、
このようにして抽出した全てのURLにアクセスし、各
データのHTML形式で提供される情報のソースファイ
ルをテキスト形式で記憶部220,520に格納する
(ステップS608)。
【0101】<構造化文書への変換モジュールにおける
処理>続いて、図8により、嗅覚レセプタータンパク質
データベースシステムにおける、構造化文書への変換モ
ジュール230,530のフローチャートを説明する。
このデータ抽出モジュール230,530により、WW
W上のデータベース270,580から抽出した全デー
タについて、図2または図5で示した構造化文書への変
換モジュール230,530に含まれるパーサが、ステ
ップS801からステップS801′までの間のループ
処理を行う。そして、これにより、構造化文書への変換
を行う。
【0102】以下、簡単にこのループ処理の工程を説明
する。まず、パーサがステップS802において、記憶
部220,520から各データに関する情報を含んだテ
キストファイルを読み出し、続いてステップS803か
らステップS803′までのループ処理を行い、読み出
したテキストファイルの中から、嗅覚レセプタータンパ
ク質データベース用のDTDに記載されている要素に関
するデータを抽出し、タグ付けを行なう。更に、ステッ
プS809において、タグ付けを行った全要素データ
を、DTDに基づいて構造化し、XML文書として整形
して、続くステップS810より、各XML文書を一次
データとしてデータベース部240,540に格納す
る。
【0103】以下、ステップS803からステップS8
03′までのループ処理、すなわち、構造化文書にする
処理について、詳細に説明する。このループ処理では、
まず、ステップS804において、ステップS802で
読み込まれたデータ中に、DTDに記載された要素デー
タが含まれているかをパーサが解析する。
【0104】その結果、要素データが含まれていた場合
には、パーサはステップS805の処理においてデータ
を文字列として読み込み、次のステップS806で、読
み取った文字列に不必要な文字列(改行コード、空白、
遺伝子の塩基配列の番号)が含まれていないかをチェッ
クする。
【0105】ステップS806でのチェックの結果、上
述の文字列が見つかった場合には、ステップS807で
の処理において、当該見つかった不要な文字列を取り除
いて整形した後、DTDに基づいて要素データにタグを
付加する。そして、ステップS803の処理に進む。ま
た、ステップS804での処理において、抽出する要素
データが見つからなかった場合には、要素データがない
ことを明示するために、バーサは開始タグと終了タグだ
けを保存する(ステップS811)。
【0106】以上の処理により、構造化文書への変換が
行える。
【0107】図9に、本実行例で使用した嗅覚レセプタ
ーデータベース用DTD(嗅覚レセプターデータベース
用の定義文書)である“olfactory_receptor.did”の記
述例を示した。図において、ブロック910とブロック
920は、このDTDの特徴である領域を示している。
ブロック910では、嗅覚レセプタータンパク質が応答
する匂い分子に関する要素データ宣言をしている。この
要素データは、子要素として、匂い分子の名前、匂い分
子の構造式のデータを持っている。
【0108】これらのデータは、“GenBank”デ
ータベースや“SWISS−PROT”データベースで
は取得できないが、いくつかの嗅覚レセプタータンパク
質に関しては、“Medline”データベースに登録
されている文献中のデータや、“ORDB”データベー
スにより収集可能である。
【0109】また、ブロック920には、一次データを
解析して得られた結果を二次データとして付加するため
の要素データ、“add_data”を宣言している。
【0110】この要素データ“add_data” に
は、子要素として、遺伝子の塩基配列に関する二次デー
タ“nuc_data”と、アミノ酸配列に関する二次
データ”aa_data” を含ませてある。
【0111】本実施例では、特に、嗅覚レセプタータン
パク質の細胞膜貫通領域に関するデータをデータベース
化することが目的であるため、二次データとして、『ア
ミノ酸配列については、細胞膜貫通領域予測ツールによ
るシミュレーション結果を“aa_data” の子要
素“simulation”に格納する』というような
内容で宣言している。また、塩基配列に関しては、『嗅
覚レセプタータンパク質のアミノ酸配列を知る上で必要
な、タンパク質をコードしている塩基配列(コーディン
グ領域)の全長が決定されていないデータについて、他
の塩基配列との相同性のチェックにより全長の探索を行
い、その結果を“nuc_data”の子要素“hom
ology”に格納する』よう宣言している。
【0112】このように宣言しておくことで、二次デー
タとして、『アミノ酸配列については、細胞膜貫通領域
予測ツールによるシミュレーション結果を“aa_da
ta” の子要素“simulation”に格納さ
せ、また、塩基配列に関しては、嗅覚レセプタータンパ
ク質のアミノ酸配列を知る上で必要な、タンパク質をコ
ードしている塩基配列の全長が決定されていないデータ
について、他の塩基配列との相同性のチェックにより全
長の探索を行い、その結果を“nuc_data”の子
要素“homology”に格納するという処理が実現
でき、目的通り、嗅覚レセプタータンパク質の細胞膜貫
通領域に関するデータをデータベース化することができ
るようになる。
【0113】なお、以上のDTDは、一実施例であり、
これに限定されるものではない。
【0114】<“GenBank”登録データのXML文書変
換例>図10に、上述のステップS809により、図1
で示した“GenBank”に登録されているデータ
を、図9のDTDに基づいてXML文書に変換した例の
一部分を示した。図のブロック1002から分かるよう
に、図1のブロック110の領域に示されたアミノ酸配
列から改行コードと空白が取り除かれ、一続きの文字列
に整形されている。また、図1のブロック20の領域に
示された遺伝子の塩基配列からも、改行コード、空白、
配列の番号が取り除かれ、一続きの文字列として整形さ
れている(図10のブロック1001)。ブロック10
03の領域にある、シミュレーション結果などの二次デ
ータ用の要素では、一次データの段階では要素データが
ないため、それぞれ開始タグと終了タグだけを保存して
いる。
【0115】<データ解析エージェントの処理フロー>
図11は、本案施例におけるデータ解析エージェントで
のフローチャートである。ステップS1101からステ
ップS1101′までのループ処理は、図2または図5
で示したデータ解析エージェント250,560が実施
する。そして、全ての一次データについて、ステップS
1101からステップS1101′までのループ処理を
行う。以下、各ステップについて説明する。
【0116】本実施例でのデータ解析エージェント25
0,560は、図4に示した解析リストファイル251
に基づいて、一次データに含まれる要素データを、WW
W上で提供される解析ツールを利用して解析する。ま
ず、ステップS1103においては、一次データに各解
析ツールで用いる要素データが存在するか否かを確認
し、その結果、要素データが含まれていなかった場合に
は、ステップS1102′に進み、次の一次データの処
理を実行する。一方、要素データがあった場合には、ス
テップS1104により、要素データを解析ツールのサ
イトに送信する。
【0117】解析ツールを提供しているサイトがブラウ
ザを通して提示する解析桔果は、ステップS1105に
より、そのソースファイルをテキスト形式で記憶部22
0,520に格納する。
【0118】ステップS1105により格納された解析
結果のテキストファイルの一部を、図12に示した。こ
のデータは、図10で示した一次データのアミノ酸配列
(図10のブロック1002)を、前述の細胞膜貫通領
域予測ツール“SOSUI”で解析した結果である。図
において、ブロック1201からブロック1206で示
した領域は、“SOSUI”により細胞膜貫領域と予測
されたアミノ酸配列が示されている。本実施例では、ス
テップS1106における必要な要素データを抽出する
過程で、ブロック1201からブロック1206で示さ
れたアミノ酸配列を抽出する。
【0119】抽出した全ての要素データは、ステップS
1107からステップS1107′までのループ処理に
より、図9で示したDTDに基づいて、二次データとし
てデータベース部240,540に格納する(ステップ
S1108)。
【0120】<二次データが付加されたデータの例>デ
ータ解析エージェント250,560により二次データ
を付加されたデータの例を図13に示した。図では、図
10で示した一次データに二次データが付加された後の
データの一部を示している。ボックス1301の領域
が、二次データとして細胞膜貫通領域予測ツール“SO
SUI”で細胞膜貫通領域と予測されたアミノ酸配列の
情報を付加したものである。
【0121】以上のように、本実行例では、第1の実施
形態で説明した発明を適用したことにより、複数のデー
タベースから嗅覚レセプタータンパク質に関する必要な
データのみを自動的に抽出し、更に、この抽出したデー
タをWWW上で提供されている解析ツールを利用して解析
することにより、匂い分子との結合に重要な細胞膜貫通
領域に関する情報を抽出して取り込むことで、WWW上
にある様々なバイオ関連データベースから所望とするデ
ータを収集してユーザの目的に合った内容のデータベー
スに再構築することが可能となったことがわかる。
【0122】(第2の実行例)続いて、第2の実施形態
で示した発明を、嗅覚レセプタータンパク質データベー
スシステムに適用した場合の実行例を説明する。第2の
実施形態における発明の特徴は、第1の実施形態におけ
る発明の特徴に加え、構築したデータベースをWWW上に
公開し、インターネットを介してアクセスしたユーザに
対して、データの回覧・検索、データの構造を維持した
ままデータをダウンロードするためのユーザインターフ
ェイスを具備している点である。
【0123】図14に嗅覚レセプタータンパク質データ
ベースの1つのデータを、上述のユーザインターフェイ
スの一実施例を用いて表示装置の表示画面上に表示した
例を示した。図において、1400で示されたデータは、ブ
ラウザを通して表示画面上に表示しており、HTML形式で
表示している。
【0124】現時点では、XMLをそのまま表示できるブ
ラウザが少ないため、ユーザヘの配慮からXML文書とし
てデータベースに保存されているデータも、HTML形式に
変換して表示している(ブロック1410)が、XML文書を
表示できるブラウザが主流になれば、変換せずそのまま
表示する構成とすることも可能である。
【0125】表示されたこのデータを閲覧したユーザ
が、データを保存する場合には、図の1411と1412で示し
たボタンをクリックすることで、それぞれ、テキスト形
式とXML形式でデータをダウンロードすることが可能で
ある。
【0126】画面上のボタン1412は“テキスト形式出力
指示ボタン”であり、このボタン1412にマウスカーソル
を当て、マウスのボタンをクリックして出力指令を与え
ると、を選択した場合には、XML文書の各要素データに
付けられた終了タグを取り除く処理を施した上で、テキ
スト形式より、データを出力するような機能を実現する
ようにプログラムしてしてあり、また、画面上のボタン
1412は、“XML文書出力指示ボタン”であり、このボ
タンがクリックされた場合は、データをそのまま出力す
るようにプログラムしてあって、これらボタンの選択
で、テキスト形式の文書かXML文書でデータをダウンロ
ード出来るようにしてある。
【0127】従って、再構築されたデータベースを第三
者が利用した場合には、その第三者がボタン1412をクリ
ックしてテキスト形式を選択した場合には、簡単には、
XML文書の各要素データに付けられた終了タグを取り除
いたものをダウンロード出来るようになり、また、ボタ
ン1412をクリックした場合は、XML文書としてダウンロ
ードすることができるようになる。
【0128】なお、本発明は上述した実施形態に限定さ
れるものではなく、種々変形して実施可能である。ま
た、本発明において、上記実施形態には種々の段階の発
明が含まれており、開示される複数の構成要件における
適宜な組み合わせにより種々の発明が抽出され得る。例
えば、実施形態に示される全構成要件から幾つかの構成
要件が削除されても、発明が解決しようとする課題の欄
で述べた課題の少なくとも1つが解決でき、発明の効果
の欄で述べられている効果の少なくとも1つが得られる
場合には、この構成要件が削除された構成が発明として
抽出され得る。
【0129】また、本発明における実施形態に記載した
手法は、コンピュータに実行させることのできるプログ
ラムとして、磁気ディスク(フレキシブルディスク、ハ
ードディスクなど)、光ディスク(CD−ROM、CD
−R、CD−RW、DVD、MOなど)、半導体メモリ
などの記録媒体に格納して頒布することもでき、また、
ネットワークを介しての伝送により、頒布することもで
きる。
【0130】
【発明の効果】以上、詳述したように、 第1の本発明
によれば、WWW上の分散したバイオ関連の全てのデータ
ベースを対象とし、利用するデータベースを自由に選択
し、かつ、容易に変更することが可能であるという特徴
を持ち、選択したデータベースから必要なデータを抽出
してユーザ独自のデータベースを構築し、更に、構築し
たデータベースのデータから、解析ツールを利用して新
たな情報を抽出してデータベース化することが可能で、
上記の一連の工程が計算機により自動的に行えるように
なる。。
【0131】また、第2の本発明においては、第1の本
発明に加えて、当該第1の発明が提供するデータベース
システムを利用して構築したデータベースをWWW上で公
開した際に、インターネットを介して外部のユーザが該
データベースシステムにアクセスしてデータを閲覧した
り、該データベースから抽出したデータを構造化文書の
形式を維持したままダウンロードすることを可能にす
る。
【図面の簡単な説明】
【図1】バイオテクノロジー関連のデータベースの一つ
であるGenBankに登録されている嗅覚レセプター
タンパク質遺伝子に関する情報の一例を示した図であ
る。
【図2】本発明を説明するための図であって、本発明の
第1の実施の形態による本発明システムの基本構成を示
すブロック図である。
【図3】本発明を説明するための図であって、本発明で
用いるXML形式で記述された検索リストファイルの一
例を示す図である。
【図4】本発明を説明するための図であって、本発明で
用いるXML形式で作成された解析リストファイル24
1の一例を示す図である。
【図5】本発明を説明するための図であって、本発明の
第2の実施の形態によるシステムの基本構成例を示すブ
ロック図である。
【図6】本発明の一実施例である嗅覚レセプタータンパ
ク質データベースシステムにおける、テータ抽出モジュ
ールのフローチャートである。
【図7】同実施例における、WWW上のデータベースで
の検索結果のソースファイルをテキスト形式で保存した
一例である。
【図8】本発明を説明するための図であって、本発明シ
ステムにおける構造化文書への変換モジュールの処理内
容を示すフローチャートである。
【図9】本発明において用いる文書型定義“olfactory_
receptor.dtd”の一例を示す図である。
【図10】本発明の説明するための図であって、本発明
システムにおいて取得する一次データの一例である。
【図11】本発明を説明するための図であって、本発明
システムにおけるデータ解析エージェントでのフローチ
ャートである。
【図12】本発明の説明するための図であって、本発明
システムにおいて取得するWWW上の解析ツールによる
解析結果のソースファイルの一例を示す図である。
【図13】本発明の説明するための図であって、本発明
システムにおいて取得する二次データの一例を示す図で
ある。
【図14】本発明の説明するための図であって、本発明
システムにおけるユーザインターフェイスの表示画面例
である。
【符号の説明】
200,500…データベースシステム 210,510…データ抽出モジュール 220,540…記憶部 230,530…変換モジュール 240,540…データベース部 250,560…データ解析エージェント 260,570…インターネット 270,580…バイオ関連データベース 280,590…バイオ分野のデータを解析するための
ツール

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】検索対象の情報をマークアップ言語で記述
    してなる検索リストに基づいて、インターネットウエブ
    上のデータベースからデータを検索し、抽出する検索抽
    出手段と、 この抽出データを、文書型定義を用いて構造化文書に変
    換して、これを一次データとして得る変換手段と、 この一次データについて、マークアップ言語で記述して
    なる解析リストに基づいて、インターネットのウエブ上
    で提供される解析ツールにより解析させるべく制御する
    と共に、解析結果を取得する解析手段と、 この取得した解析結果を前記文書型定義を用いて構造化
    文書に変換して、これを前記一次データに付加する付加
    手段とを備えたことを特徴とするデータ収集システム。
  2. 【請求項2】データを格納する記憶手段と、 検索対象の情報をマークアップ言語で記述してなる検索
    リストに基づいて、インターネットウエブ上のデータベ
    ースからデータを検索し、抽出する検索抽出手段と、 この抽出データを、文書型定義を用いて構造化文書に変
    換して、これを一次データとして得ると共に、この得た
    一次データを前記記憶手段に格納する変換手段と、 前記記憶手段に格納された一次データについて、マーク
    アップ言語で記述してなる解析リストに基づいて、イン
    ターネットのウエブ上で提供される解析ツールにより解
    析させるべく制御すると共に、解析結果を取得する解析
    手段と、 この取得した解析結果を前記文書型定義を用いて構造化
    文書に変換して、これを前記記憶手段に格納された前記
    一次データに二次データとして付加する付加手段とを備
    えたことを特徴とするデータ収集システム。
  3. 【請求項3】前記インターネットウエブ上のデータベー
    スはバイオテクノロジー関連のデータベースであり、前
    記解析ツールはバイオテクノロジー関連の解析に利用さ
    れるものであることを特徴とする請求項1または2いず
    れか1項記載のデータ収集システム。
  4. 【請求項4】前記記憶手段はインターネットのウエブ上
    で公開すると共に、このウエブ上で公開された前記記憶
    装置のデータは構造化文書形式もしくはテキスト形式の
    少なくともいずれか所望の形式で取り込む手段をさらに
    有することを特徴とする請求項1乃至3いずれか1項記
    載のデータ収集システム。
  5. 【請求項5】検索対象の情報をマークアップ言語で記述
    してなる検索リストに基づいて、インターネットウエブ
    上のデータベースからデータを検索し、抽出する検索抽
    出工程と、 この抽出データを、文書型定義を用いて構造化文書に変
    換して、これを一次データとして得る変換工程と、 前記一次データについて、マークアップ言語で記述して
    なる解析リストに基づいて、インターネットのウエブ上
    で提供される解析ツールにより解析させるべく制御する
    と共に、解析結果を取得する解析工程と、 この取得した解析結果を前記文書型定義を用いて構造化
    文書に変換して、これを前記一次データに付加する付加
    工程とからなることを特徴とするデータ収集方法。
  6. 【請求項6】検索対象の情報をマークアップ言語で記述
    してなる検索リストに基づいて、インターネットウエブ
    上のデータベースからデータを検索し、抽出する検索抽
    出工程と、 この抽出データを、文書型定義を用いて構造化文書に変
    換して、これを一次データとして得ると共に、この得た
    一次データを記憶手段に格納する変換工程と、 前記記憶手段に格納された一次データについて、マーク
    アップ言語で記述してなる解析リストに基づいて、イン
    ターネットのウエブ上で提供される解析ツールにより解
    析させるべく制御すると共に、解析結果を取得する解析
    工程と、 この取得した解析結果を前記文書型定義を用いて構造化
    文書に変換し、これを前記記憶手段に格納された前記一
    次データに二次データとして付加する付加工程とからな
    ることを特徴とするデータ収集方法。
  7. 【請求項7】前記インターネットウエブ上のデータベー
    スはバイオテクノロジー関連のデータベースであり、前
    記解析ツールはバイオテクノロジー関連の解析に利用さ
    れるものであることを特徴とする請求項5または6いず
    れか1項記載のデータ収集方法。
  8. 【請求項8】ウエブ上で公開されたデータは構造化文書
    形式もしくはテキスト形式の少なくともいずれか所望の
    形式で取り込む工程をさらに有すると共に、前記記憶手
    段に格納したデータはインターネットのウエブ上で公開
    するものであることを特徴とする請求項5または6いず
    れか1項記載のデータ収集方法。
  9. 【請求項9】検索対象の情報をマークアップ言語で記述
    してなる検索リストに基づいて、インターネットウエブ
    上のデータベースからデータを検索し、抽出する検索抽
    出工程と、 この抽出データを、文書型定義を用いて構造化文書に変
    換して、これを一次データとして得る変換工程と、 前記一次データについて、マークアップ言語で記述して
    なる解析リストに基づいて、インターネットのウエブ上
    で提供される解析ツールにより解析させるべく制御する
    と共に、解析結果を取得する解析工程と、 この取得した解析結果を前記文書型定義を用いて構造化
    文書に変換して、これを前記一次データに付加する付加
    工程と、からなるコンピュータで読み取り並びに実行可
    能なプログラムを記録した媒体。
  10. 【請求項10】検索対象の情報をマークアップ言語で記
    述してなる検索リストに基づいて、インターネットウエ
    ブ上のデータベースからデータを検索し、抽出する検索
    抽出工程と、 この抽出データを、文書型定義を用いて構造化文書に変
    換して、これを一次データとして得ると共に、この得た
    一次データを記憶手段に格納する変換工程と、前記記憶
    手段に格納された一次データについて、マークアップ言
    語で記述してなる解析リストに基づいて、インターネッ
    トのウエブ上で提供される解析ツールにより解析させる
    べく制御すると共に、解析結果を取得する解析工程と、 この取得した解析結果を前記文書型定義を用いて構造化
    文書に変換し、これを前記記憶手段に格納された前記一
    次データに二次データとして付加する付加工程と、から
    なるコンピュータで読み取り並びに実行可能なプログラ
    ムを記録した媒体。
  11. 【請求項11】ウエブ上で公開されたデータは構造化文
    書形式もしくはテキスト形式の少なくともいずれか所望
    の形式で取り込む工程をさらに有することを特徴とする
    請求項9または10いずれか1項記載のコンピュータで
    読み取り並びに実行可能なプログラムを記録した媒体。
  12. 【請求項12】検索対象の情報をマークアップ言語で記
    述してなる検索リストに基づいて、インターネットウエ
    ブ上のデータベースからデータを検索し、抽出する検索
    抽出工程と、 この抽出データを、文書型定義を用いて構造化文書に変
    換して、これを一次データとして得る変換工程と、 前記一次データについて、マークアップ言語で記述して
    なる解析リストに基づいて、インターネットのウエブ上
    で提供される解析ツールにより解析させるべく制御する
    と共に、解析結果を取得する解析工程と、 この取得した解析結果を前記文書型定義を用いて構造化
    文書に変換して、これを前記一次データに付加する付加
    工程と、からなるプログラム製品。
JP2000301307A 2000-09-29 2000-09-29 データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品 Pending JP2002108903A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000301307A JP2002108903A (ja) 2000-09-29 2000-09-29 データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000301307A JP2002108903A (ja) 2000-09-29 2000-09-29 データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品

Publications (1)

Publication Number Publication Date
JP2002108903A true JP2002108903A (ja) 2002-04-12

Family

ID=18782865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000301307A Pending JP2002108903A (ja) 2000-09-29 2000-09-29 データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品

Country Status (1)

Country Link
JP (1) JP2002108903A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003001409A1 (fr) * 2001-06-22 2003-01-03 Celestar Lexico-Sciences, Inc. Dispositif de traitement de donnees structurees
JP2006113786A (ja) * 2004-10-14 2006-04-27 Mitsubishi Space Software Kk 配列情報抽出装置、配列情報抽出方法および配列情報抽出プログラム
JP2006294014A (ja) * 2005-03-16 2006-10-26 Kumamoto Technology & Industry Foundation 解析プログラム、プロテインチップ、プロテインチップの製造方法、および、抗体カクテル
CN101770546A (zh) * 2008-12-30 2010-07-07 三星电子株式会社 用于合并的个人基因组管理的方法和装置
JP2015521776A (ja) * 2012-12-12 2015-07-30 北京百度网▲訊▼科技有限公司Beijing Baidu Netcom Science And Technology Co.,Ltd. 電子書籍の提供方法、システム及びクラウドサーバ
JP2017515180A (ja) * 2014-03-14 2017-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ビッグ・データ・リポジトリにおけるデータ・セットの処理

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003001409A1 (fr) * 2001-06-22 2003-01-03 Celestar Lexico-Sciences, Inc. Dispositif de traitement de donnees structurees
JPWO2003001409A1 (ja) * 2001-06-22 2004-10-14 セレスター・レキシコ・サイエンシズ株式会社 構造化データ処理装置
JP2006113786A (ja) * 2004-10-14 2006-04-27 Mitsubishi Space Software Kk 配列情報抽出装置、配列情報抽出方法および配列情報抽出プログラム
JP2006294014A (ja) * 2005-03-16 2006-10-26 Kumamoto Technology & Industry Foundation 解析プログラム、プロテインチップ、プロテインチップの製造方法、および、抗体カクテル
CN101770546A (zh) * 2008-12-30 2010-07-07 三星电子株式会社 用于合并的个人基因组管理的方法和装置
JP2010157231A (ja) * 2008-12-30 2010-07-15 Samsung Electronics Co Ltd 個人ゲノム統合管理方法及び装置
JP2015521776A (ja) * 2012-12-12 2015-07-30 北京百度网▲訊▼科技有限公司Beijing Baidu Netcom Science And Technology Co.,Ltd. 電子書籍の提供方法、システム及びクラウドサーバ
JP2017515180A (ja) * 2014-03-14 2017-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ビッグ・データ・リポジトリにおけるデータ・セットの処理
US10338960B2 (en) 2014-03-14 2019-07-02 International Business Machines Corporation Processing data sets in a big data repository by executing agents to update annotations of the data sets
US10635486B2 (en) 2014-03-14 2020-04-28 International Business Machines Corporation Processing data sets in a big data repository

Similar Documents

Publication Publication Date Title
Eaton Toytree: A minimalist tree visualization and manipulation library for Python
US6826553B1 (en) System for providing database functions for multiple internet sources
Dewey Aligning multiple whole genomes with Mercator and MAVID
JP4731479B2 (ja) 検索システム及び検索方法
US20110185273A1 (en) System and method for extracting content elements from multiple Internet sources
Papadakis et al. Stavies: A system for information extraction from unknown web data sources through automatic web wrapper generation using clustering techniques
JP2005332212A (ja) 検索サーバ、検索端末、検索方法、及び、検索実行方法
KR20080110533A (ko) 문자 입력 지원방법, 문자 입력 지원 시스템, 문자 입력지원 프로그램을 기록한 기록매체, 사용자 단말, 문자변환방법 및 문자 변환 프로그램을 기록한 기록매체
Moutselos et al. KEGGconverter: a tool for the in-silico modelling of metabolic networks of the KEGG Pathways database
Stajich An introduction to BioPerl
Sugawara et al. Biological SOAP servers and web services provided by the public sequence data bank
Bailey et al. GAIA: framework annotation of genomic sequence
JPWO2003001409A1 (ja) 構造化データ処理装置
Schindler et al. Generic XML-based framework for metadata portals
López-Fernández et al. SEDA: a desktop tool suite for FASTA files processing
JP2002108903A (ja) データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品
JP2008243033A (ja) 検索システム、検索方法、プログラムおよび記憶媒体
JP2002534741A (ja) 半構造化テキストデータを処理する方法及び装置
Odronitz et al. Pfarao: a web application for protein family analysis customized for cytoskeletal and motor proteins (CyMoBase)
JP4133549B2 (ja) 構造化文書ファイル管理装置および構造化文書ファイル管理方法
JP2008102773A (ja) データを共通のフォーマットに変換する方法
JP4629263B2 (ja) ポータルサーバ、および、情報処理プログラム
US7647290B2 (en) Method for performing bioinformatics analysis program and bioinformatics analysis platform
JP2006127117A (ja) Web閲覧操作の記録・再生方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2013037580A (ja) 情報処理装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060207

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060410

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060530