JPH08272824A - 遺伝子配列データ自動検索方法 - Google Patents

遺伝子配列データ自動検索方法

Info

Publication number
JPH08272824A
JPH08272824A JP7099594A JP9959495A JPH08272824A JP H08272824 A JPH08272824 A JP H08272824A JP 7099594 A JP7099594 A JP 7099594A JP 9959495 A JP9959495 A JP 9959495A JP H08272824 A JPH08272824 A JP H08272824A
Authority
JP
Japan
Prior art keywords
gene sequence
data
search
gene
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7099594A
Other languages
English (en)
Inventor
Takuro Tamura
卓郎 田村
Toshiji Okayama
利次 岡山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP7099594A priority Critical patent/JPH08272824A/ja
Publication of JPH08272824A publication Critical patent/JPH08272824A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 予め登録された検索キーとなる1つ以上の遺
伝子配列データに対して自動的に新規に登録された遺伝
子配列データの監視を行い、相同性の高いデータがデー
タベースに登録された場合、ユーザに対して警告を発す
ることができる遺伝子配列データ自動検索方法を提供す
る。 【構成】 検索キーとする遺伝子配列情報を入力する入
力手段と、検索対象の遺伝子配列データベースを管理す
るデータベース管理手段と、前記遺伝子配列データベー
スから所望の遺伝子配列情報を検索する検索手段とを有
する遺伝子配列情報検索システムにおける遺伝子配列デ
ータ自動検索方法では、登録ステップで、検索キーとす
る遺伝子配列情報を登録し、監視ステップで、定期的に
検索キーの遺伝子配列情報の登録の有無を監視する。そ
して、検索ステップで、検索キーの遺伝子配列情報が登
録されている場合に前記遺伝子配列データベースに対し
て検索を実行し、出力ステップで、検索結果を出力す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、遺伝子配列データ自動
検索方法に関し、特に、遺伝子配列情報のデータベース
を検索する遺伝子配列情報検索システムにおいてデータ
ベースに登録された遺伝子配列情報に対して予じめ登録
された遺伝子配列情報を自動的に検索する方法に関する
ものである。
【0002】
【従来の技術】従来から、遺伝子研究の分野において
は、研究者が研究成果により、新たに特徴や特性を解明
し、新規に求めた遺伝子配列は、研究者が遺伝子配列情
報のデータベースシステムに対し、その遺伝子配列を検
索キーとして、既存の遺伝子配列情報のデータベースを
検索し、新規性の確認を行い、新規であった場合に、つ
まり、当該遺伝子配列の情報がデータベースに未登録で
あった場合に、当該データベースへの登録を行ってい
る。
【0003】したがって、確認の必要のある遺伝子配列
に対しては、研究者自身が定期的に遺伝子配列情報のデ
ータベースシステムに対して検索を行い、また、このデ
ータベースに対する検索と共に、公的な遺伝子データベ
ース機関から得た遺伝子データにより自分で構築してい
る自己の遺伝子データベースに対して、遺伝子データの
検索を行う必要があった。
【0004】これらの公的な遺伝子情報のデータベース
機関としては、日本における国立遺伝学研究所,米国に
おけるNCBI(National Center for Biotechnology)
のGenBank,欧州におけるEBI(European Bioi
nformatics Institute ;旧EMBL)の遺伝子データ
ベースがあり、これらのデータベース機関からCD−R
OMや磁気テープなどの媒体により入手可能となってい
る。
【0005】次に、従来における遺伝子配列情報のデー
タベースシステムに対する検索操作について説明する。
図9は、従来における遺伝子データベース検索システム
の構成を示すブロック図である。遺伝子データベース検
索システムの基本構成は、図9に示すように、計算機シ
ステム装置901,データベース用外部記憶媒体90
2,遺伝子のDNA配列パターンを走査して自動で読み
取るDNA塩基配列読み取り装置900から構成され
る。また、外部の遺伝子データベースシステムに対する
検索のために、モデム903,公衆回線のネットワーク
904を介して、遺伝子情報のデータベース機関905
に接続される。また、ここでのDNA配列を自動的に読
み取る塩基自動読み取り方法は、従来から、例えば、特
開昭61−173158号公報の「DNA配列決定方
法」の記載などにより公知であるので、その説明は省略
する。
【0006】DNA配列の検索のための操作では、ま
ず、実験者は、生化学的な前処理によって得られた試料
となるDNAの断片をDNA塩基配列読み取り装置90
0に導入し、電気泳動を行い、塩基の配列を読み取る。
読み取られた配列のデータは、ここでの遺伝子データベ
ース検索システムを構成するパーソナルコンピュータや
ワークステーションなど計算機システム装置901に転
送されて記憶される。更に、計算機システム装置901
では、データベース用記録媒体902の遺伝子配列情報
のデータを用い、それらのデータに対して、遺伝子配列
解析ソフトウェアを用いて類似の遺伝子配列のデータの
類似度検索を行う。また、モデム903およびネットワ
ーク904を介して、遺伝子情報のデータベース機関9
05にアクセスして、同様に遺伝子データの類似度検索
を行う。
【0007】類似している遺伝子配列データの類似検索
処理のアリゴリズムとしては、例えば、文献「GOTO
H:An Improved Algorithm for Matching Biological
Sequences; J. Mol.Biol (1982) 162, pp. 705〜708」
などに示されている方法が用いられる。
【0008】このような類似遺伝子配列を検索する方法
は、モデム903および公衆回線のネットワーク904
を経由して、前述したような遺伝子情報のデータベース
機関905に対し、電子メールにより検索依頼を送付し
て検索をする方法と、遺伝子情報のデータベース機関9
05の遺伝子情報のデータベースのデータ自体を記録媒
体などで配布を依頼して、自己所有のシステムの中でデ
ータベースを構築して検索する方法がある。
【0009】
【発明が解決しようとする課題】ところで、上述したよ
うな従来の技術において、自己の求めた遺伝子配列と類
似したDNA配列を、遺伝子データベースシステムによ
り類似検索する場合には、次のような問題が解消されな
ければならない。
【0010】つまり、ここで、遺伝子データベースシス
テムにより類似検索する場合、目的とする遺伝子配列の
検索処理は、一度の検索では終わらず、ある程度の期間
の経過後に再度の検索を行う必要がある。例えば、新し
い機能を有する遺伝子のDNA配列にかかる発明の特許
出願を行った場合、出願から登録に至るまで、数年を必
要とするため、その間に同じ遺伝子のDNA配列にかか
る他の発明の特許が発行され、またはデータベース機関
に登録されていないかを確認するため、同じ遺伝子のD
NA配列の検索を定期的にユーザが実行しなければなら
ない。
【0011】また、研究者自身が構築する遺伝子情報の
データベースにおいて、毎日解析されるDNA配列デー
タから特に重要な配列部分と類似の配列をもつ部分を選
択的に分類する場合において、ユーザがそれぞれの配列
データに対して個々に検索を実行する必要があるという
問題がある。
【0012】本発明は、上記のような問題点を解決する
ためになされたものであり、本発明の第1の目的は、予
め登録された検索キーとなる1つ以上の遺伝子配列デー
タに対して自動的に新規に登録される遺伝子配列データ
の監視を行い、相同性の高いデータがデータベースに登
録された場合、ユーザに対して警告を発することができ
る遺伝子配列データ自動検索方法を提供することにあ
る。また、本発明の第2の目的は、ユーザが注目する遺
伝子配列情報のデータベースの検索を更新分についての
み自動的に行うことができる遺伝子配列データ自動検索
方法を提供することにある。
【0013】
【課題を解決するための手段】上記のような目的を達成
するため、本発明の第1の特徴とする遺伝子配列データ
自動検索方法は、検索キーとする遺伝子配列情報を入力
する入力手段と、検索対象の遺伝子配列データベースを
管理するデータベース管理手段と、前記遺伝子配列デー
タベースから所望の遺伝子配列情報を検索する検索手段
とを有する遺伝子配列情報検索システムにおける遺伝子
配列データ自動検索方法であって、検索キーとする遺伝
子配列情報を登録する登録ステップと、定期的に検索キ
ーの遺伝子配列情報の登録の有無を監視する監視ステッ
プと、検索キーの遺伝子配列情報が登録されている場合
に前記遺伝子配列データベースに対して検索を実行する
検索ステップと、検索結果を出力する出力ステップとを
有することを特徴とする。
【0014】また、本発明の第2の特徴とする遺伝子配
列データ自動検索方法は、上記の構成に加えて、前記検
索ステップは、遺伝子配列情報の類似度検索を行い、前
記登録ステップは、予め所定の閾値を登録し、前記出力
ステップは、検索結果の類似度が前記閾値を上回った場
合に警告を表示することを特徴とする。
【0015】また、本発明の第3の特徴とする遺伝子配
列データ自動検索方法においては、検索対象とする遺伝
子配列データベースの範囲を、当該遺伝子配列データベ
ースの定期的に監視する期間の更新分とすることを特徴
とする。
【0016】
【作用】このような特徴を有する本発明の第1の特徴と
する遺伝子配列データ自動検索方法では、遺伝子配列情
報検索システムにおいて、データベース管理手段が、検
索対象の遺伝子配列データベースを管理しており、入力
手段が、検索キーとする遺伝子配列情報を入力すると、
検索手段が、前記遺伝子配列データベースから所望の遺
伝子配列情報を検索する。その場合、まず、登録ステッ
プにより、検索キーとする遺伝子配列情報を登録してお
き、監視ステップにより、定期的に検索キーの遺伝子配
列情報の登録の有無を監視する。そして、検索ステップ
により、検索キーの遺伝子配列情報が登録されている場
合に前記遺伝子配列データベースに対して検索を実行す
る。検索結果は、次の出力ステップにより、その検索結
果を出力する。これにより、常に目的とする遺伝子配列
情報のデータベースへの登録を自動で監視できる。
【0017】また、本発明の第2の特徴とする遺伝子配
列データ自動検索方法によれば、その場合の前記検索ス
テップでは、遺伝子配列情報の類似度検索を行い、そし
て、前記登録ステップでは、予め所定の閾値を登録して
おき、前記出力ステップにおいて、検索結果の類似度が
前記閾値を上回った場合に警告を表示する。これによ
り、目的とする遺伝子配列情報のデータベースへの登録
を監視する場合に、ユーザが所望の類似度の検索結果を
監視できる。
【0018】また、本発明の第3の特徴とする遺伝子配
列データ自動検索方法によれば、検索対象とする遺伝子
配列データベースの範囲を、当該遺伝子配列データベー
スの定期的に監視する期間の更新分とする。これによ
り、目的とする遺伝子配列情報のデータベースへの登録
を監視する場合に、能率的に長期間に渡る遺伝子配列情
報を監視できる。
【0019】このように、本発明の遺伝子配列データ自
動検索方法においては、遺伝子配列情報検索システムの
システム運用で、検索キーとなる遺伝子配列情報を予め
登録しておき、次のデータベース更新時に、更新データ
と登録されている検索キーの遺伝子配列情報を検索す
る。検索結果は記録しておき、任意に参照できるように
する。これにより、予め登録した検索キーの遺伝子配列
情報に対して、自動的に新規データと類似データの検索
を実施できるため、遺伝子配列情報を監視するユーザの
負担を非常に軽くすることができる。
【0020】
【実施例】以下、本発明の実施例を図面を用いて具体的
に説明する。図1は、本発明の一実施例にかかる遺伝子
配列データ自動検索方法の処理の流れを示すフローチャ
ートである。このような本発明の遺伝子配列データ自動
検索方法を一態様で実施する遺伝子配列情報検索システ
ムは、例えば、前述した図9のようなシステム構成が利
用できる。
【0021】次に、図1を参照して、遺伝子情報のDN
Aの配列を読み取り、新規性の確認などのためにデータ
ベース検索を実行する場合を一例として説明する。例え
ば、図9に示すようなシステム構成を用いる場合、各研
究者は、生化学的な前処理を行い、DNA塩基配列読み
取り装置900を使用して読み取る。読み取られた遺伝
子配列情報のデータは、例えば、計算機システム装置9
01に送られる。研究者は、計算機システム装置901
の表示入出力装置を操作して、有効と思われる遺伝子の
配列を選択し、または、複数の配列を相互に接続したり
する作業を試みて、最終的に得られた遺伝子配列情報の
新規性の確認を定期的に行う。その場合、計算機システ
ム装置901では、データベース用外部記憶媒体902
のデータを用いて遺伝子配列情報の検索を行い、また、
モデム903,ネットワーク904を介して遺伝子デー
タベース機関905をアクセスし、所望の遺伝子配列情
報の検索を行う。
【0022】この実施例の遺伝子配列データ自動検索の
処理では、処理を開始する前に、データベースに対して
定期的に検索するための検索キーとなる遺伝子配列の情
報をファイルに登録する。ここでは、このファイルをキ
ーデータファイルと呼ぶ。そして、図1に示すように、
処理を開始し、データベースの更新処理のプログラムを
起動する。更新処理のプログラムが起動されると、ま
ず、ステップ101において、遺伝子配列情報のデータ
ベースの更新データの作成および追加登録の処理を行
う。この処理では、遺伝子配列の情報の更新分のデータ
をデータベースに追加登録すると共に、後述する相同性
評価を行う分のファイルとして、別に更新ファイルを作
成する。ここでは、これを更新データファイルと呼ぶ。
【0023】次に、ステップ102において、キーデー
タファイルの内容を判定し、検索対象の遺伝子配列情報
のキー配列データの有無を判定する。キー配列データが
ない場合には、データベースの更新のみで処理を終了す
る。また、ステップ102の判定において、キー配列デ
ータが存在することが判定された場合には、ステップ1
03に進み、更新データファイル内の更新分のデータに
対して検索キーの遺伝子配列のデータとの相同性評価の
処理(ホモロジー検索処理)を実行する。そして、ステ
ップ104において、結果の出力処理を行い、得られた
各々の遺伝子配列の間の類似度の関係を、結果格納ファ
イルに出力する。
【0024】ステップ104の出力処理においては、相
同性評価を行った結果、予め設定した閾値よりも類似度
が高い場合には、所定のメッセージ形式で警告を発する
ような処理を行い、検索結果の出力処理を行う。従っ
て、ユーザは注意するべき相同性のレベルの高い遺伝子
配列だけを容易に確認できる。
【0025】また、ここでのユーザ側のパーソナルコン
ピュータまたはワークステーションで行うデータベース
の更新処理は、遺伝子データベース機関からデータベー
スの更新データが得られた場合にのみ、外部から通信回
線を通じて起動するように構成しておき、データベース
の更新処理時のみに自動的に登録された検索キーの遺伝
子配列データとの相同性評価を行うようにしてもよい。
これにより、ユーザの注目する配列データに対する相同
性検索を定期的に更新分のみについて自動的に処理でき
るため、ユーザ自身が定期的に検索処理を行う必要がな
くなる。
【0026】図2は、本発明の遺伝子配列データ自動検
索方法を一態様で実施する遺伝子類似度ディリーチェッ
クシステムのシステム構成を示すブロック図である。図
2において、201はマスタリング用コンピュータ、2
02は日々配信される遺伝子データベース機関からの遺
伝子情報マスターデータベースを格納する磁気ディスク
装置、203は通信制御装置、204は通信回線、20
5は配信用コンピュータ、206は遺伝子情報の配信用
データを格納する磁気ディスク装置、207はモデム、
208は公衆電話回線、209は受信用コンピュータ、
210は受信した遺伝子情報を格納する磁気ディスク装
置、212はLANで接続されているクライアントコン
ピュータ、213はディスプレイ装置、214はプリン
タ装置である。
【0027】マスタリング用コンピュータ201は、遺
伝子データベース機関から日々配信される遺伝子マスタ
ーデータベースを磁気ディスク装置202において管理
し、到着する遺伝子配列情報のデータの収集、データの
重複の除去、データのフォーマットの統一の処理を行
い、データの蓄積を行い、蓄積される遺伝子マスターデ
ータの一貫性の管理を行う。
【0028】マスタリング用コンピュータ201におけ
るデータベース管理により、当日分として電子メールの
通信機能を用いて収集されたデータは、日付,データ
量,チェックコードなどの配信属性情報を先頭に付加し
た形式で編集され、通信制御装置203および通信回線
204を通して、配信用コンピュータ205にオンライ
ンで転送される。配信用コンピュータ205では、数日
分の遺伝子配列情報のデータの編集の後、そのデータを
配信データ格納用の磁気ディスク装置206に一時的に
蓄えておく。その後、配信先ユーザサイトの受信用コン
ピュータ209が、自己のコンピュータ内の時計機構に
よって自動的に定刻に通信制御ソフトウェアを起動し、
起動された通信制御ソフトウェアによるデータ送信要求
により、公衆電話回線208およびモデム207を通し
てコネクションを行い、受信用コンピュータ209から
のデータ送信要求により、その要求された日数分のデー
タの転送を行う。この結果、受信用コンピュータ209
の側の磁気ディスク装置210に遺伝子情報が格納され
る。
【0029】ここでは、例えば、配信用コンピュータ2
05が、休日や機械保守のために、丸一日以上休止して
いた場合などでは、受信用コンピュータ209は、その
データ送信要求において、その間の日数分をさかのぼっ
て遺伝子配列情報のデータを要求する。なお、配信用デ
ータを格納する磁気ディスク装置206では、このよう
な場合に対応して、配信用データの数週間の予備の日数
分のデータを保持している。
【0030】受信用コンピュータ209は、常時、この
ような遺伝子配列情報のデータの受信状況を監視し、ま
た、データ受信の処理と同時に、配信されてくるデータ
を各遺伝子配列毎のデータに分解して、ローカルサイト
の磁気ディスク装置210のデータベースレコードとし
て格納する。更に、また、受信用コンピュータ209
は、このようなデータ受信処理と共に、その日の到着分
のデータを、日付をキーとして再検索を行い、当該磁気
ディスク装置210のデータベースに、予め別スキーマ
レコードとして格納されている既登録の遺伝子キーとの
全ての組合せについて、その類似度の計算を受信用コン
ピュータ209の制御のもとで行う。そして、類似度の
数値が設定基準を超えるものの組を当該磁気ディスク装
置210に格納する。
【0031】ここでの類似度の計算処理は、受信用コン
ピュータ209に内蔵されているホモロジー演算専用の
演算ボードおよび中央処理装置の組合せによって、高速
に演算処理を実行する。この結果、既に登録されている
データベースレコードの遺伝子キーの遺伝子配列情報と
新規に配信された遺伝子配列情報の組の中で、所定の基
準以上の類似度をもつものが結果として、電子的に蓄積
される。これにより、受信用コンピュータ209から直
接に、あるいは受信用コンピュータ209に接続された
クライアントコンピュータ212のディスプレイ装置2
13によって、クライアントコンピュータ212の使用
者として登録された特定のユーザは、登録した遺伝子情
報について、自己の発行した遺伝子配列情報のチェック
要求の結果として、その高い類似度をもつ配信データの
検索結果の最新情報レポートを見ることができる。ま
た、この検索結果は、プリンタ装置214により、印刷
出力し、その印刷結果として保存することができる。
【0032】なお、図2に示すシステム構成において、
特徴的な点は、受信用コンピュータ209からは、配信
用コンピュータ205に接続された配信用データを格納
する磁気ディスク装置206の上に格納されている数日
前の分までの遺伝子データにのみアクセスできるが、マ
スタリング用コンピュータ201の管理下の遺伝子デー
タに対しては直接アクセスできない構成になっている点
である。このため、マスタリング用コンピュータ201
が、磁気ディスク装置202を用いて管理するマスタデ
ータベースの保全性が確保でき、多数のユーザに対し、
安定して遺伝子配列情報のデータを供給できる。また、
逆方向にも、マスタリング用コンピュータ201から
は、受信用コンピュータ209に直接アクセスできない
構成になっているため、各々のユーザは、それぞれのユ
ーザがどのような遺伝子配列情報を検索のために検索キ
ーとして登録されているかをみることができず、各ユー
ザの間の機密性が守られる。
【0033】図3は、受信用コンピュータにおける受信
処理の処理フローを示すフローチャートである。図3を
参照して、この受信処理を説明する。処理を開始する
と、まず、ステップ300において、前回の受信記録の
ログファイルから情報を取り出し、何日分から処理を開
始すればよいのかを決定する。次に、ステップ301に
おいて、次の受信データがあるか否かを判定する。受信
データがある場合、次のステップ302において、受信
データを取り出し、更に、次のステップ303におい
て、受信データレコードのデータベース登録の処理を行
う。そして、再び、ステップ301に戻り、ステップ3
01からの処理を繰り返す。
【0034】つまり、ステップ301の判定により、次
の受信データが電話回線を通して得られる限り、ステッ
プ302において、受信データを取り出し、ステップ3
03において、受信データレコードのデータベースへの
登録処理を行う。
【0035】そして、次の受信データが無くなり、デー
タの受信が終了すれば、次に、ステップ304に進み、
受信終了日付をログとして、次回の処理(ステップ30
0の処理)に供する情報として保存する。これで、一連
の受信動作を終了する。
【0036】受信動作が終了すると、次に、ステップ3
05に移り、前のステップ300の処理により取得した
受信開始日付を最小キーとして、前のステップ303の
処理により登録したデータベースレコードの再検索の条
件を設定する。この検索条件に従って、ステップ306
の判定処理を行う。ステップ306の判定処理では、次
の遺伝子レコードがあるか否かを判定する。次の遺伝子
レコードがないことが判定されれば、ここでの処理を終
了する。また、次の遺伝子レコードがあることが判定さ
れれば、次のステップ307に進む。次の遺伝子レコー
ドがある限り、続くステップ307およびステップ30
8の処理を反復する。ステップ307の判定処理では、
更に、検索条件として、予じめ登録された検索キーがあ
るか否かを判定する。検索キーがある場合に、次のステ
ップ308において、この検索キーと受信レコードの組
に対して、Smith−Watermanの類似度演算
を行い、もし、この結果が設定基準以上なら、この結果
を保持する。そして、ステップ307の判定の処理に戻
る。これらのステップ307およびステップ308の処
理を繰り返す。これにより、遺伝子情報の受信処理と検
索処理が行われる。
【0037】図4は、本発明の遺伝子配列データ自動検
索方法における遺伝子配列情報のデータの流れを説明す
る図である。図4において、401,402,403
は、マスタリング用コンピュータ201が自動的に収集
するそれぞれのデータ形式の遺伝子配列情報を表してい
る。遺伝子データに付加された属性情報(コメント)の
書式により、遺伝子配列データの形式は、GenBan
k形式の遺伝子配列情報401と、EMBL形式の遺伝
子配列情報402に分られる。また、このようなコメン
トを持たない遺伝子のシーケンスからなるフラットファ
イル形式の遺伝子配列情報403も同様に入力される。
【0038】こうしたGenBank形式の遺伝子配列
情報401,EMBL形式の遺伝子配列情報402,フ
ラットファイル形式の遺伝子配列情報403の各種形式
のデータは、書式の違いがあるだけでなく、元のデータ
に文法上の誤りがあったり、通信時のエラーにより不正
なデータが混入している場合があるので、マスタリング
用のコンピュータ201では、この書式の違いを統一
し、修正の可能な誤りを自動修正した後、配信用の日
付,遺伝子データの数、サイズ等の属性情報を付加した
上で、配信用データ404に成形する。この際、訂正不
可能な誤りのあるデータに関しては、データソースのも
とにエラーレポートを送り返し、正しいデータが再送さ
れてきた時点で、後日に成形される配信用データ404
に再編入する処理を行う。
【0039】配信データ404は、その後、配信用コン
ピュータ205に送られ、配信用デタ格納用の磁気ディ
スク装置206に蓄えられる。そして、登録された受信
サイト全部の受信用コンピュータ209から、このデー
タの取得を終了した信号を返した場合、あるいは、予め
定められた保存期間が経過した時点で、自動で消滅させ
るようにしている。配信データ404は、受信用コンピ
ュータ209からの自動的なデータ要求により、各サイ
トに送信され、受信した側においては、受信用コンピュ
ータ209の処理により、受信用データベース405上
に、この遺伝子配列情報のデータを再構成する。
【0040】この遺伝子配列情報の受信データ405
は、図4に示すように、付加される属性情報(コメン
ト)部分の付加情報406と遺伝子シーケンス本体部分
の本体情報407に分けられ、それらの情報の間はユニ
ークな識別子を介して結び付けられている。付加情報4
06には、配信日付をキーとするインデックスの日付キ
ー408や、遺伝子名称をキーとするインデックスの遺
伝子キー409等が付加される。遺伝子シーケンス本体
部分の本体情報407は、これらのキーインデックスの
日付キー408および遺伝子キー409から、その付加
情報406のユニークな識別子を通して検索することが
できる。
【0041】一方、これらの配信データのレコードに対
して、類似度検索を行うデータは、検索キー用データベ
ーススキーマ410として構成される。この検索キー用
データベーススキーマ410のデータは、検索キーのシ
ーケンスデータ411とこれを発行して登録しているク
ライアントのユーザ名のキーインデックス212から構
成されている。
【0042】図5は、遺伝子類似度ディリーチェックシ
ステムにおいて、類似度の計算を高速化するためのシス
テム構成を説明する図である。そのため、このシステム
構成では、Smith−Watermanによる遺伝子
マッチング演算用の専用の演算ボードを用いる。図5を
参照して、類似度の計算処理の動作を説明する。ここで
のシステム構成は、中央処理装置501およびメインメ
モリ505を内部バス502により結合している汎用コ
ンピュータの構成に、後述する複数枚のSmith−W
atermanホモロジー演算処理用の演算ボード50
6a〜506cを加えた構成となっている。
【0043】全体の制御を行う中央処理装置501は、
内部バス502を通してI/O制御装置503を動作さ
せ、補助記憶装置504上にあるデータベースから検索
条件となる遺伝子配列情報のシーケンスデータと配信デ
ータを取得し、メインメモリ505に記憶させる。実際
の計算処理は、この遺伝子配列情報のシーケンスデータ
と配信データの2つのデータの組をSmith−Wat
ermanホモロジー演算を行う演算ボード506a〜
506cに送り込み、相同性検索の演算を実行させる。
【0044】相同性検索の演算動作では、これらの計算
処理すベき2つのデータの組は多数存在するので、これ
らの組を別々の演算ボード506a〜506cに送っ
て、それぞれの演算ボード506の相互の間で、および
中央処理装置505との間で並列して実行させる。計算
結果の類似度の指標値は、再び、メインメモリ505,
バス502,I/O制御装置503を経由して、補助記
憶装置504に再度格納される。この演算ボード506
a〜506cの並列動作は、中央処理装置501により
制御される。中央処理装置501においても、プログラ
ム処理により演算ボード506a〜506cと同じ内容
の演算機能の演算処理を行わせることが可能であるの
で、演算ボード506a〜506cの演算処理性能には
劣るが、演算装置の1つとして機能させることもでき
る。
【0045】図6は、遺伝子配列情報のデイリーチェッ
クの結果、自動的に生成された個々の出力結果の一例を
示す図である。図6に示すように、デイリーチェックの
結果は、自動的に日々配信され、遺伝子データの配信日
付601の表示と共に、それぞれにグループ化され、設
定された基準値を上回った登録キーと配信遺伝子データ
に対して、キーの名前602および配信データの名前6
03に続いて、遺伝子類似度を構成する各種の数値(6
04,605,606)が付加される。この数値は3つ
の値の組からなり、類似度の最大の尺度となるスコア値
604,2つの遺伝子の並置可能残基長605,およ
び、2つの遺伝子の非負並置比率606の情報から構成
されているので、これらを表示する。
【0046】このような出力結果は、日々更新されてい
くが、コンピュータの記憶容量の限界により、その許容
容量を超える場合は、古い日付のものから順に削除され
る。このため、ユーザが確認済みでないものが順に自動
的に消滅してまうことがありうる。これを未然に防ぐた
め、レポート内容が更新されたユーザ、すなわち、検索
キーとして登録している遺伝子キーと類似度の高い配信
データが新たに見つかったユーザに対しては、図7に示
ように、警告レポートとして、検索結果の警告出力を行
う。このためのダイアログウィンドウ701を開き、ユ
ーザに対して、検索結果の確認を促す。このようなダイ
アログウィンドウ701は、各クライアントコンピュー
タのシステム起動時に自動的に表示される。
【0047】図8は、警告レポートの出力を行う場合の
タイミング処理を説明する図である。この警告レポート
出力処理を自動制御する機構では、図8に示すように、
システムが、各クライアントのユーザ毎に、例えば、そ
れぞれのテーブルメモリに、ヒット時刻801とチェッ
ク時刻802の2つの時刻を設定して管理している。こ
こで、ヒット時刻801とは、システムが保持している
当該クライアントに対して最後に高類似度遺伝子を検出
した時刻であり、チェック時刻802とは、システムが
保持している当該クライアントのユーザサイトで検索結
果を最後に目視した時刻である。
【0048】したがって、警告出力803が出力される
場合は、例えば、クライアント側のシステム起動時で、
ヒット時刻801がチェック時刻802より大のとき、
すなわち、ヒット事象がチェック事象より経時的に後か
ら起きている場合に発せられる。出力された警告出力8
03に対し、ユーザが応答すると、ユーザの確認応答の
ステップ804の処理に進み、そこで、新たに追加され
た結果が目視確認されると、システムは、チェック時刻
802を現時刻のチェック時刻805に更新する。その
結果として、チェック時刻805がヒット時刻801よ
り大きくなるので、以降の余分な警告は抑止される。こ
の状態が続き、更に、高類似度遺伝子検出のステップ8
06に進む。この処理において、新たに高類似度遺伝子
が検出されて、その結果が付け加わった場合に、再び、
ヒット時刻801がその時刻に更新される。これによ
り、その結果、更新されたヒット時刻は、チェック時刻
805より大きくなるので、再度、警告出力803を自
動起動させる。
【0049】
【発明の効果】以上、説明したように、本発明の遺伝子
配列データ自動検索方法によれば、検索キーとする遺伝
子配列情報を登録しておき、定期的に検索キーの遺伝子
配列情報の登録の有無を監視し、検索キーの遺伝子配列
情報が登録されている場合に前記遺伝子配列データベー
スに対して検索を実行して、その検索結果を出力するの
で、これにより、常に目的とする遺伝子配列情報のデー
タベースへの登録を自動で監視できる。また、検索対象
とする遺伝子配列データベースの範囲を、当該遺伝子配
列データベースの定期的に監視する期間の更新分とし、
目的とする遺伝子配列情報のデータベースへの登録を監
視する場合に、能率的に長期間に渡る遺伝子配列情報を
監視できる。これにより、予め登録した検索キーの遺伝
子配列情報に対して、自動的に新規データと類似データ
の検索を実施できるため、遺伝子配列情報を監視するユ
ーザの負担を非常に軽くすることができる。
【図面の簡単な説明】
【図1】 図1は本発明の一実施例にかかる遺伝子配列
データ自動検索方法の処理フローを示すフローチャー
ト、
【図2】 図2は本発明の遺伝子配列データ自動検索方
法を一態様で実施する遺伝子類似度ディリーチェックシ
ステムのシステム構成を示すブロック図、
【図3】 図3は受信用コンピュータにおける受信処理
の処理フローを示すフローチャート、
【図4】 図4は本発明の遺伝子配列データ自動検索方
法における遺伝子配列情報のデータの流れを説明する
図、
【図5】 図5は本発明にかかる遺伝子類似度ディリー
チェックシステムにおいて類似度の計算の高速化のため
のシステム構成を説明する図、
【図6】 図6は遺伝子配列情報のデイリーチェックの
結果で自動的に生成された個々の出力結果の一例を示す
図、
【図7】 図7は警告出力を案内するダイアログウィン
ドウの一例を説明する図、
【図8】 図8は警告レポートの出力を行う場合のタイ
ミング処理を説明する図
【図9】 図9は従来における遺伝子データベース検索
システムの構成を示すブロック図である。
【符号の説明】
201…マスタリング用コンピュータ、202…遺伝子
情報マスターデータベースを格納する磁気ディスク装
置、203…通信制御装置、204…通信回線、205
…配信用コンピュータ、206…遺伝子情報の配信用デ
ータを格納する磁気ディスク装置、207…モデム、2
08…公衆電話回線、209…受信用コンピュータ、2
10…受信した遺伝子情報を格納する磁気ディスク装
置、212…クライアントコンピュータ、213…ディ
スプレイ装置、214…プリンタ装置、900…DNA
塩基配列読み取り装置、901…計算機システム装置、
902…データベース用外部記憶媒体、903…モデ
ム、904…公衆回線のネットワーク、905…遺伝子
データベース機関。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 検索キーとする遺伝子配列情報を入力す
    る入力手段と、 検索対象の遺伝子配列データベースを管理するデータベ
    ース管理手段と、 前記遺伝子配列データベースから所望の遺伝子配列情報
    を検索する検索手段とを有する遺伝子配列情報検索シス
    テムにおける遺伝子配列データ自動検索方法であって、 検索キーとする遺伝子配列情報を登録する登録ステップ
    と、 定期的に検索キーの遺伝子配列情報の登録の有無を監視
    する監視ステップと、 検索キーの遺伝子配列情報が登録されている場合に前記
    遺伝子配列データベースに対して検索を実行する検索ス
    テップと、 検索結果を出力する出力ステップとを有することを特徴
    とする遺伝子配列データ自動検索方法。
  2. 【請求項2】 請求項1に記載の遺伝子配列データ自動
    検索方法において、 前記検索ステップは、遺伝子配列情報の類似度検索を行
    い、 前記登録ステップは、予め所定の閾値を登録し、 前記出力ステップは、検索結果の類似度が前記閾値を上
    回った場合に警告を表示することを特徴とする遺伝子配
    列データ自動検索方法。
  3. 【請求項3】 請求項1に記載の遺伝子配列データ自動
    検索方法において、 検索対象とする遺伝子配列データベースの範囲を、当該
    遺伝子配列データベースの定期的に監視する期間の更新
    分とすることを特徴とする遺伝子配列データ自動検索方
    法。
JP7099594A 1995-03-31 1995-03-31 遺伝子配列データ自動検索方法 Pending JPH08272824A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7099594A JPH08272824A (ja) 1995-03-31 1995-03-31 遺伝子配列データ自動検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7099594A JPH08272824A (ja) 1995-03-31 1995-03-31 遺伝子配列データ自動検索方法

Publications (1)

Publication Number Publication Date
JPH08272824A true JPH08272824A (ja) 1996-10-18

Family

ID=14251431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7099594A Pending JPH08272824A (ja) 1995-03-31 1995-03-31 遺伝子配列データ自動検索方法

Country Status (1)

Country Link
JP (1) JPH08272824A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175552A (ja) * 1997-12-12 1999-07-02 Fujitsu Ltd データベース検索装置及びデータベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2003027927A1 (fr) * 2001-09-25 2003-04-03 Toyo Kohan Co., Ltd. Systeme de fourniture d'adn
JP2005004502A (ja) * 2003-06-12 2005-01-06 Hitachi Ltd 塩基配列関連情報を用いた情報処理システム
JP2014146318A (ja) * 2013-01-28 2014-08-14 Hasso Plattner Institute Fur Softwaresystemtechnik Gmbh インメモリデータベースシステム及びリアルタイム解析を用いるゲノムデータ処理のシステム及び方法
JP2018535484A (ja) * 2015-10-21 2018-11-29 コーヒレント・ロジックス・インコーポレーテッド 階層的転置索引表を使用したdnaアラインメント
JP2021522605A (ja) * 2018-05-01 2021-08-30 グーグル エルエルシーGoogle LLC 高速化された大規模な類似度計算

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175552A (ja) * 1997-12-12 1999-07-02 Fujitsu Ltd データベース検索装置及びデータベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2003027927A1 (fr) * 2001-09-25 2003-04-03 Toyo Kohan Co., Ltd. Systeme de fourniture d'adn
JP2005004502A (ja) * 2003-06-12 2005-01-06 Hitachi Ltd 塩基配列関連情報を用いた情報処理システム
JP2014146318A (ja) * 2013-01-28 2014-08-14 Hasso Plattner Institute Fur Softwaresystemtechnik Gmbh インメモリデータベースシステム及びリアルタイム解析を用いるゲノムデータ処理のシステム及び方法
JP2018535484A (ja) * 2015-10-21 2018-11-29 コーヒレント・ロジックス・インコーポレーテッド 階層的転置索引表を使用したdnaアラインメント
JP2021522605A (ja) * 2018-05-01 2021-08-30 グーグル エルエルシーGoogle LLC 高速化された大規模な類似度計算
US11379535B2 (en) 2018-05-01 2022-07-05 Google Llc Accelerated large-scale similarity calculation
US11782991B2 (en) 2018-05-01 2023-10-10 Google Llc Accelerated large-scale similarity calculation

Similar Documents

Publication Publication Date Title
US6078890A (en) Method and system for automated health care rate renewal and quality assessment
CN107577907B (zh) 一种基于互联网的罕见病辅助诊断系统及使用方法
US5634051A (en) Information management system
US6964040B2 (en) Optimizing storage and retrieval of monitoring data
US6178424B1 (en) Information distributing system and storage medium recorded with a program for distributing information
CN101625697A (zh) 文档管理设备、文档管理系统和文档管理方法
US20040260979A1 (en) Information mining system
US20020194026A1 (en) System and method for managing data and documents
US20030231750A1 (en) Skip tracing system
CN101211361A (zh) 信息处理装置、信息处理系统和信息处理方法
JPH08272824A (ja) 遺伝子配列データ自動検索方法
JPH11353404A (ja) 電子カルテシステム
CN107451280A (zh) 数据打通方法、装置及电子设备
US20070271245A1 (en) System and method for searching a database
EP1151405A1 (en) Method and system for structured processing of personal information
CN111177516A (zh) 药物警戒系统及其处理反馈数据的方法
US6963865B2 (en) Method system and program product for data searching
WO2005041100B1 (en) Data analysis system of clinical databases
JP2000137725A (ja) 情報検索システム、情報検索方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1125084A (ja) 文字列変換装置およびそのプログラム記録媒体
JP2001160068A (ja) 文書管理システムにおいて問い合わせを処理するための方法及び装置
JPH11265378A (ja) 自動情報検索装置及び文書作成支援システム
JPH11249944A (ja) データ連携装置及び方法及び記録媒体
JP3295930B2 (ja) 実行プログラム管理方法及び装置及び記録媒体
JPH10254887A (ja) データベースシステム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees