JP2003529816A - 塩基配列及びアミノ酸配列に固有のid記号 - Google Patents

塩基配列及びアミノ酸配列に固有のid記号

Info

Publication number
JP2003529816A
JP2003529816A JP2001517293A JP2001517293A JP2003529816A JP 2003529816 A JP2003529816 A JP 2003529816A JP 2001517293 A JP2001517293 A JP 2001517293A JP 2001517293 A JP2001517293 A JP 2001517293A JP 2003529816 A JP2003529816 A JP 2003529816A
Authority
JP
Japan
Prior art keywords
symbol
sequence
array
data
symbols
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001517293A
Other languages
English (en)
Other versions
JP2003529816A5 (ja
Inventor
哲郎 豊田
昭子 板井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IMMD INC.
Original Assignee
IMMD INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IMMD INC. filed Critical IMMD INC.
Publication of JP2003529816A publication Critical patent/JP2003529816A/ja
Publication of JP2003529816A5 publication Critical patent/JP2003529816A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

(57)【要約】 アミノ酸配列及び塩基配列に固有のID 記号を付与するため、衝突困難ハッシュ関数または汎用一方向性ハッシュ関数などの変換関数を用いて配列中の残基の結合順序を表すデータから配列に固有のID 記号を生成し、配列に付与する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は、アミノ酸配列や塩基配列のそれぞれに固有のID記号を付する方法に関
するものである。
【0002】
【従来の技術】
近年、膨大な数の核酸配列(本明細書では「塩基配列」と呼ぶ場合がある)や蛋
白質アミノ酸配列の存在が知られるようになり、世界中でそのデータベース化が
進んでいる。多くの場合、新しく見つかった配列には、6文字から10文字程度
の英数字からなるID記号が割り当てられ、配列情報を表わす文字列とともにデー
タベース中に保存される。しかし、配列とは無関係なID記号が、解析者やデータ
ベース作成機関によって機械的あるいは恣意的に配列に付されることが多いため
、同じ配列に異なったID記号が付与されたり、異なる配列に同じID記号が付与さ
れていることも珍しくない。従って、ある配列と同じ配列又は同じ配列に関する
情報が既にデータベース中にあるかどうかを調べる目的には、従来のID記号を信
頼して用いることはできず、膨大な既知配列の一つ一つに対して、数百から数千
の残基を比較する必要がある。
【0003】 塩基配列およびアミノ酸配列はDNA、RNA、ペプチドや蛋白質などの物質の構造を
特定する化学構造式と同等な情報である(図1)。配列は一般にこれらの物質
を構成する塩基やアミノ酸の種類と連結順序に関する情報である(本明細書では
「残基」と呼ぶ場合がある)。通常は1つの配列は1つの物質を特定するが、ア
デニンまたはグアニンのどちらかを意味する残基「プリン」を残基の種類の特定
に使うことができるように、一つの配列が複数の物質を特定する場合もある。
【0004】 塩基配列又はアミノ酸配列は通常該配列を表す文字列を用いて表現される。通常
は各残基は記述単位として1文字または3文字で記述されている。しかし、表記
法により同じ配列が異なる文字列で表現できる。残基の結合順序に並べた文字列
が配列情報を表している。ある配列を表わす文字列を本明細書では「配列中の残
基の結合順序を表すデータ」とよび、配列中の残基の順番の可能な表現のうちの
一つである。例えば、アラニンとロイシンとグリシンがこの順で連結したアミノ
酸配列を、図1に示すように「AlaLeuGly」と3文字表記法で表記することも
でき、あるいは図1に示すように「ALG」と1文字表記法で表記することもで
きる。これらの文字列は、同じアミノ酸配列の異なる(データ項目という点で異
なる)表現である。
【0005】 生体内には塩基配列およびアミノ酸配列で特定することができる膨大な種類の物
質がある。それらの配列や配列に関連する情報を表わす文字列がデータベースに
蓄えられている。
【0006】 物質が入手可能であればシークエンサーなどの分析機器を使用することで残基の
結合順序を決定できるため、分析者や分析場所に関係なく塩基配列又はアミノ酸
配列が決定され、該配列を表す文字列で表記される。標準表記に変換した文字列
を比較することで、配列の同一性を判定することができる。一般に、配列を表す
文字列はデータベース内のデータレコードに含まれている。異なるデータレコー
ドが同じ配列を含むかどうかは、最終的にはデータレコード内の配列の標準表記
を比較することで判定される。
【0007】 配列を含むデータレコードはGenBankやEMBLやDDBJやSWISS-PROTなどからインタ
ーネットを利用して誰でも入手可能である。また公開された特許や文献なども配
列を含んでいるものが多い。これらのデータレコードでは、配列を表す文字列の
ほかに、配列が得られたもとの生物や配列内の区分の定義や該区分の特徴などの
配列に関係する情報がファイル化されている(ここで、「ファイル」とはデータ
レコードの一形態を意味する)。本来配列ごとにユニークに付けられるべきID
記号が、ファイル内の情報全体に対するID記号として使われる傾向がある。こ
れは、配列に固有なID記号を付与する方法がないためである。ここで「ユニー
ク」とは、一対一の対応関係を意味している。「固有なID記号」とは、ユニーク
で整合性のあるID記号のことである。「整合性のある」とは、同一配列のID
記号はすべてのデータベース間で同一でなければならない、ということである。
データベースごとに独立に固有なID記号を付与するのは簡単であるが、すべて
のデータベースで同一配列に同一ID記号を付与するのは困難である。
【0008】 異なるデータレコードが同一配列を含んでいることが判明するのは、よくあるこ
とである。例えば、同じ配列であっても由来する生物などの情報が異なるために
別々のデータレコードになっている例がある。これは、生物学的には、異なる生
物から同じ配列が見つかったということを意味するため、あえて異なるデータレ
コードに情報の違いを含めているのである。しかし、データレコードにつけられ
るID記号のどれか一つが該配列のIDとして任意に用いられることがよくあるた
め、配列に固有なID記号の必要性は高い。
【0009】 クローンのID記号をつけているデータレコードは多い。例えば、塩基配列が由来
するcDNAライブラリのクローンのID記号が、該塩基配列を含むデータレコードに
与えられていることがある。ある塩基配列が該クローンから再決定されるのは、
よくあることである。この場合、該データレコードに記録された古い配列が、再
決定された異なる配列に訂正されることがある。つまり訂正前と訂正後のデータ
レコードでは同一ID記号に対する配列が異なることになる。このような訂正が頻
繁になされるため、該ID記号をリファレンスキーとしてその配列に関する情報を
記述することができない。「リファレンスキー」とは配列を特定できる名前又は
キーである。固有なID記号は、通常の場合、リファレンスキーと同じ役割をは
たす。よって、配列に固有のID記号が必要とされている。
【0010】 従来のID記号の付与方法はデータベースごとに異なっているため、ID記号の照合
のみから配列や配列の一または複数の部分の同一性を判定することはできない。
従って、異なるデータベース間のデータレコードが同一配列に関するものである
ことを確認するには、配列を表す文字列を比較するか、同一配列間の関係を示し
ているリンク情報に頼るしかない。今後、さらに大量の配列情報を含むデータレ
コードが独立したデータベースに登録されるようになることを考慮すると、配列
データそのものから該配列をユニークに特定するID記号を生成する方法を確立し
、全データベース間でID記号の整合性を維持するために全データベースで統一的
に使用される形態が望ましい。
【0011】
【発明が解決しようとする課題及び課題を解決するための手段】
本発明の課題は、アミノ酸配列又は塩基配列に実質的に固有なID記号を配列の残
基の結合順序を表すデータを基にして付与する方法を提供することにある。より
具体的には、配列の残基の結合順序を表すデータをもとにして、同一の配列から
は必ず同一のID記号が生成し、異なる配列からは異なるID記号が生成するID記号
の生成方法であって、部分配列の残基結合順序を表すデータを基にして、同一の
部分配列には同一のID記号を生成し、異なる部分配列には異なるID記号を生
成する方法であって、かつ種々の長さの配列に対し一定長の短いID記号を付与で
きる方法を提供することが本発明の課題である。
【0012】 また、本発明の別の課題は配列または部分配列に関係する情報を記述するのに用
いられる固有のID記号を提供することにあり、これは短いID記号が配列を表す長
い文字列よりもこの目的のためには便利だからである。さらに、本発明の別の課
題は配列及び/又は部分配列間の関係を記述する固有のID記号を提供することに
あり、これは短いID記号が配列を表す長い文字列よりもこの目的のためにも便利
だからである。
【0013】 さらに、本発明の別の課題は、固有のID記号によりデータベース中のデータレコ
ードの関連性と整合性を保つための、多数のデータベース間で統一的に使用でき
るデータベース統合法;複数のデータベースのデータレコードに含まれる同一配
列や同一部分配列に同一のID記号を付与する方法;同一配列や同一部分配列を含
むデータレコードに同一のID 記号を関連付けする方法;同一配列や同一部分配
列に関連する情報を含むデータレコードに同一のID 記号を関連付けする方法;G
enBankのような機関から汎用ID記号を取ってくるかわりに、データベース管理者
が自ら、大域的に整合性のあるID 記号を生成することができる方法;同じID 記
号をクエリーとして用いて、一以上のデータベースで同一配列や同一部分配列を
含むデータレコードを検索する方法;異なるコンピュータにおいて固有のID 記
号を発生させ、ID 記号に何ら不整合を生じさせることなくインターネットを通
じてコンピュータ間でそれらを送信する方法;を提供することにある。
【0014】 同一生物種間及び/又は異生物種間のゲノム配列の多様性を記述するには、すべ
ての配列を表す文字列よりも、染色体配列全体を一以上の部分に分割し、分割さ
れた各部分又は複数部分の群のそれぞれに本明細書のID記号を付与し、該ID記号
を記述に用いるのが好ましい。ゲノム配列間の多様性を比較するためには、長大
な配列を比較するよりも、これらの短いID記号で比較を行うほうが便利である。
このため、本発明のさらに別の課題は、この目的に使用できるID記号の生成法を
提供することにある。
【0015】 本発明の別の課題は、配列、部分配列、ジェノタイプ及び/又は対立遺伝子間の
関係の整合性のとれた記述に用いる固有のID 記号を提供すること;配列、部分
配列、ジェノタイプ及び/又は対立遺伝子に関係する情報の整合性のとれた記述
に用いる方法を提供すること;固有のID 記号を比較するだけで異なるデータレ
コードの情報が同一配列に関するものかどうか判定するのに用いる固有のID 記
号を提供することにある。
【0016】 さらに、本発明の別の課題は、配列情報を含むデータレコードをID 記号の名前
空間を気にすることなくインターネットを通して離れたデータベース間でやりと
りできるような、大域的に整合性のあるID 記号を提供すること;異なるウェブ
サイトに記述されたアノテーションを固有のID 記号を比較するだけで簡単に統
合して分かりやすく見ることができるように、異なるウェブサイトでアノテーシ
ョンを記述するのに用いる大域的に整合性のある固有ID 記号の生成方法を提供
することにある。
【0017】 本発明者らは上記の課題を解決すべく鋭意研究を行った結果、衝突困難ハッシュ
関数及び/又は汎用一方向性ハッシュ関数などの変換関数を用いて配列の残基の
結合順序を表すデータから配列に固有なID記号を生成し(図1)、該配列に該
ID 記号を付与することにより、上記の課題を解決できることを見出した。
【0018】 すなわち本発明は、塩基配列又はアミノ酸配列の残基の結合順序を表わすデータ
から1種又は2種以上の変換関数を用いて作成した一定長又は可変長の文字数字
列からなる塩基配列、アミノ酸配列及び部分配列に固有のID記号を作成する方法
を提供するものである。
【0019】 本発明の好ましい態様では、変換関数として衝突困難性ハッシュ関数及び/又は
汎用一方向性ハッシュ関数を含む関数を用い、より好ましくはSHA (Secure Hash Algorithm) 又はSHA1などを用いて、文字数字列を生成させる。
【0020】 さらに本発明によれば、 ID 記号の生成法についての追加情報に関する1又は2以上の文字数字列、配列
についての追加情報を示す文字数字列、獲得の手段、検知方法の種類、それらの
カテゴリーなどをさらに付加したID 記号を生成する上記方法; 上記の生成方法の世代ごとに同じ変換関数を用いて、1又は2以上のデータベー
スのデータレコード間で同一配列や同一部分配列に同一のID 記号を付与する方
法; 複数データベースの同一配列や同一部分配列を含むデータレコードに同一ID 記
号を関連付ける方法; データレコードが配列や部分配列の残基の結合順序を表すデータを含んでいない
複数のデータベース間で、同一配列や同一部分配列を含むデータレコードに同一
のID 記号を関連付ける方法; 上記ID 記号を用いて、配列、部分配列、ジェノタイプまたは対立遺伝子を含む
データレコードを探索する方法;
【0021】 実験記録、臨床試験記録、カルテ、薬剤の添付文書、申請書、通知書、診断書、
証明書、報告書、特許明細書、学術文献、公文書、要旨集などを含む書類又は電
子ファイルの検索及び/又は管理の方法、及び/又はファイル群の統合閲覧方法
; ID 記号が配列の固有ID 記号とデータレコードの配列に関連した情報のデータに
基づいて生成され、生成されたID 記号が配列とデータレコードの配列に関する
情報の組み合わせに実質的に固有であるような、配列又は部分配列を含むデータ
レコードに固有なID 記号を生成する方法; ID 記号が配列の固有ID 記号に基づいて生成され、生成されたID 記号が配列及
び/又は部分配列の組み合わせに実質的に固有であるような、複数の配列及び/又
は部分配列のグループに固有なID 記号を生成する方法; 配列データを簡単に特定する情報を用いることなく、比較及び/又は検索に上記
のID 記号のみを用いることで配列の機密性を保持する方法、及びその比較及び/
又は検索のための装置; 配列の残基の順序を表すデータを送信することなく、上記ID 記号を比較及び/又
は検索のためネットワーク及び/又はインターネットを通して送信することで配
列の機密性を保持する方法; も提供される。
【0022】 別の観点からは、 上記の方法により生成した塩基配列又はアミノ酸配列に固有のID記号; 配列や部分配列の同一性判定に用いる上記のID記号; 配列や部分配列のリファレンスキーに用いる上記のID記号; 1の配列データベース内、又は2以上の配列データベース間において同一配列や
同一部分配列を含むデータレコードを検出するために用いる上記のID記号; 配列データベースの管理に用いる上記のID記号; データベース検索のクエリーまたは該クエリーの一部として用いる上記のID記号
; 配列間の関係を記述するために用いられる上記のID記号; 配列に関する情報を記述するために用いられる上記のID記号; シークエンサーやマススペクトルやDNAチップによる測定データから変換される
塩基配列を含むデータレコードに含まれる上記ID記号; 塩基配列又はその相補的塩基配列が少なくとも一部をコードする蛋白質に固有の
上記ID記号;
【0023】 配列に関する情報の保存及び通信に用いる上記のID記号; 同一生物種間及び/又は異種生物間の塩基配列の全部又は一部のジェノタイプ又
は対立遺伝子を記述するために用いる上記のID記号; 同一生物種間及び/又は異種生物間の塩基配列の全部又は一部のジェノタイプ又
は対立遺伝子を比較するために用いる上記ID記号; ジェノタイプ又は対立遺伝子を記述し、個体やサンプルの匿名性や機密性を保持
するために用いる上記のID記号; ジェノタイプ又は対立遺伝子の上記のID記号; 個体、個体群、細胞種、臓器、生物種、核酸や蛋白質が抽出可能なサンプルから
得られた塩基配列及び/又はアミノ酸配列に対応するジェノタイプ又は対立遺伝
子の上記ID記号; 薬物投与を含む治療法の有効な対象及び/又は無効な対象及び/又は効果に違い
の認められる対象としての個体や個体群のデータレコードに関連付けされたジェ
ノタイプを示すための上記ID記号;
【0024】 実験記録、臨床試験記録、カルテ、薬剤の添付文書、申請書、通知書、診断書、
証明書、報告書、特許明細書、学術文献、公文書、要旨集などを含む書類又は電
子ファイルに含めるための上記ID記号; 実験記録、臨床試験記録、カルテ、薬剤の添付文書、申請書、通知書、診断書、
証明書、報告書、特許明細書、学術文献、公文書、要旨集などを含む書類又は電
子ファイルの検索及び/又は管理に用いるための上記ID記号; データレコード中の配列に固有のID記号と該配列に関連した情報のデータに基づ
いて生成され、データレコード中の配列と配列に関連した情報の組み合わせに実
質的に固有である、配列又は部分配列を含むデータレコードに固有のID記号; 配列のID記号を(例えば昇順に)並び替え、該ID記号を順次連結して生成した文
字列をある変換関数で固定長のID記号に変換することにより生成した複数配列群
に固有のID記号; が提供される。 これらのID記号は、光ディスク、磁気ディスク、メモリーなどの媒体に保存され
ていてもよい。 また、上記の方法を実装したコンピュータプログラムを記録した媒体; 及びデータレコード内及び/又はデータレコード名内に上記ID記号を含むデータ
レコードも提供される。
【0025】 別の観点からは、 上記の方法と上記ID記号を利用する装置; 上記ID記号が関連付けされたデータレコードを検索する上記の装置; 実験記録、臨床試験記録、カルテ、薬剤の添付文書、申請書、通知書、診断書、
証明書、報告書、特許明細書、学術文献、公文書、要旨集などを含む書類又は電
子ファイルの検索及び/又は管理に用いるための上記装置; データレコードを見るために用いられる、及び/又はネットワーク及び/又はイ
ンターネットの利用者用装置として用いられるブラウザをさらに含む上記装置;
利用者用装置にローカルデータベースをさらに含む上記装置; 1又は2以上のデータベースをさらに含む上記装置; ネットワーク及び/又はインターネット上で動作するデータレコードサービス手
段をさらに含む上記装置; これらのファイル群の統合閲覧装置; 上記装置で用いるためのコンピュータプログラムを記録した媒体;
【0026】 上記ID記号をバーコード化する方法、バーコードとして用いる上記ID記号、又は
バーコードの出力及び/又は入力装置; キーボードやバーコードからの入力ミスを検出できるようにチェックサムなどの
文字をさらに付加した上記のID記号、及びこれを利用して入力ミスを検出するた
めの装置; 上記の比較及び/又は検索に用いる利用者用及びサーバー装置; 上記ID記号が含まれる印刷物、ファイル、レコード、データオブジェクト、ファ
イル名、ファイルパス名、アドレス、アンカータグ、それらを記憶するための手
段、又はそれらをID記号を使用して検索するための装置; 上記ID記号を入力するための装置、該ID記号を読み取るための手段、該ID記号を
記憶するための手段、該ID記号を出力するための装置、及び該ID記号を送信する
ための装置; 細胞内における蛋白間相互作用をコンピュータでシミュレートする際に物質のID
記号として上記ID記号を利用するプログラムモジュール、シミュレーションで
物質の役割を果たすプログラムモジュールのID記号として用いる上記ID記号、及
びシミュレーションで分子間相互作用を定義するために用いられる上記ID記号;
閲覧したデータレコードに含まれる配列を表す文字列からID記号を直接生成し、
該ID 記号に関連する他のデータレコードを検索することができる、データブラ
ウザあるいは単なるブラウザ;及び 上記ID 記号のいずれか1つを記録する媒体; が提供される。
【0027】 本明細書において「データレコード」とは、データオブジェクト、保存の対象と
なるデータのまとまり、検索の対象となるデータオブジェクト、データアイテム
、ファイル、リレーショナルデータベースのレコード、オブジェクト指向データ
ベースのオブジェクト、書類オブジェクトモデルのノード、XMLなどのようなマ
ークアップ言語で用いられるタグで囲まれたセクションである(図2)。「デー
タベース」とは、例えば、リレーショナルデータベース、オブジェクト指向デー
タベース、ファイルシステム、ファイルサーバ、インターネット情報サーバなど
のように1又は2以上のデータレコードを管理する装置で、要求に応じてデータ
レコードを提供できるものを意味している。図2において、データレコードに含
まれる情報は、配列を表す文字列、配列、ID 記号、あるいはデータレコードに
付加された情報に関連する情報でもよい。「データレコードサービス手段」とは
データレコードの形で情報を提供するデータベースあるいは装置である。「配列
データベース」とはデータレコード群の一部または全部が配列及び/又は部分配
列を含むデータベースをいう。図3に示すように、「配列を含むデータレコード
」とは、配列を表す文字列を含むデータレコード、配列に関連する情報を含むデ
ータレコード、配列のID 記号を含むデータレコード、配列を含む他のデータレ
コードのID 記号を含むデータレコードである。「部分配列」とは、配列の1つ
の部分又は複数の部分を順に結合して作られる配列のことであり、各部分は配列
中の起点と終点を示す残基の順番などの番号により特定される(例えばGenBank
ファイルの"Features"セクションに見られる番号など)。つまり、「部分配列」
は一つの配列であり、配列を表わす文字列と該配列中で部分配列を特定する情報
から生成される。
【0028】 「ID 記号とデータレコードの関連付け」とは、データレコードを該ID 記号によ
りアクセスできるようにすることであり、該ID記号をクエリーとして探索が可能
か、ID 記号が含まれるようにすることである。データレコードのID 記号とロー
カルID 記号とを対応付けることで、ID 記号はデータレコードと関連付けられる
。「ローカルID 記号」は「データベース中でのみ用いられるデータレコードの
一次キーあるいは参照キー」又は「ファイルシステム中でのみ用いられるパス名
及びファイル名」でもよい。例えば、配列を含むデータレコードにローカルID
記号がすでに関連付けられている場合(図4)は、ローカルID 記号と該配列
の固有ID記号(図4で「固有ID」としている)の対応表及び/又はもとのデー
タレコードの配列の「固有ID」を含むデータレコードが好ましい態様として提供
される。データレコードに複数の配列がある場合は、各配列の「固有ID」が該デ
ータレコードに含まれていてもよく(図4)、及び/又はそのグループを表す
ID 記号が提供される(図4)。「配列へのID記号の付与」とは、ID 記号と配
列間の一対一の対応を定義することを意味する。
【0029】
【発明の実施の形態】 本発明の方法は、塩基配列又はアミノ酸配列の残基の結合順序を表すデータから
変換関数を用いて一定長又は可変長、好ましくは一定長の文字数字列からなるID
記号を生成する工程を含んでおり、以下の特徴を有している。 (1)同一配列からは同一のID記号が生成されること。 (2)異なる配列からは同一のID記号が生成される可能性が極めて低いか実質的に
ゼロであること。 (3)ID記号は一定長又は可変長、好ましくは一定長の文字数字列又はビット列、
好ましくは英数字列からなる記号として生成されること。 (4)生成方法が容易であること。
【0030】 本明細書において用いられる「文字数字列」とは、アルファベット、アラビア数
字、漢字、ひらがな、カタカナ、ハングル文字など、世界中で使用されている文
字及び/又は数字からなるものであり、これらの文字や数字のほか、@、→、¥
、&、$などの記号やコンピュータのキャラクターコードで表されるいかなる文
字を含んでいてもよい。例えば、アルファベット文字列、アルファベットとアラ
ビア数字からなる英数字列などを代表例として挙げることができる。文字数字列
は、ASCII,UNICODEなどのキャラクターコード表を用いてコンピュータでビット
列又はバイト列に変換されるのが好ましい。これらは紙やバーコードに印刷され
た形式で記録される場合などもある。また、文字や数字を表記するビットマップ
として記録される場合もある。いずれの形態にせよ、記録の態様は限定されない
。また、「変換関数」とは入力データに対してあるアルゴリズムを実行して出力
データに変換するものである。変換関数には適切なコンピュータプログラムを用
いることが好ましい。
【0031】 本発明の方法において好適に用いられる変換関数として、ハッシュ関数、より好
ましくは衝突困難ハッシュ関数及び/又は汎用一方向性ハッシュ関数を挙げるこ
とができる。もっとも、本発明の方法に用いる変換関数としては、衝突困難性及
び一方向性、好ましくは衝突困難性が数学的に厳密に証明されている必要はなく
、実際上、上記の特徴を満足する変換結果を与える関数であればいかなるものを
用いてもよい。
【0032】 汎用一方向性ハッシュ関数(universal one-way hash function)はNaorとYungに
より導入された関数であり、関数 hとその定義域のある値x が与えられた場合に
h(x)=h(y)となるようなyを求めることが難しいような関数のことである。一方、
衝突困難ハッシュ関数(collision intractable hash function)はDamgardにより
導入された関数であり、関数hが与えられた場合に、h(x)=h(y)となるような一対
の値(x, y) を求めることが難しいような関数のことである。
【0033】 関数に対する要求条件としては、衝突困難ハッシュ関数の方が汎用一方向性関数
よりも強い(ハッシュ関数について、総説として、岡本龍明、山本博資 著:『
シリーズ / 情報科学の数学 現代暗号』 産業図書;岡本栄司 著:『暗号理論入
門』 共立出版株式会社などを参照のこと)。本明細書において、ハッシュ関数
、特に衝突困難ハッシュ関数又は汎用一方向性ハッシュ関数は最も広義に解釈す
る必要があり、いかなる意味においても限定的に解釈してはならない。本発明の
方法には、衝突困難ハッシュ関数又は汎用一方向性ハッシュ関数に分類される関
数はいずれも使用可能である。
【0034】 また、衝突困難性をもつことを目標としつつ、実用的な効率性を重視して開発さ
れた多くのハッシュ関数が提案されている。RivestによるMD-4, MD-5やそれらに
基づくRIPEMD, SHA(secure hash algorithm)などが広く使用されている (Meneze
s, A. J., van Oorschot, P. and Vanstone, S. A.: Handbook of Applied Cryp
tography, CRC Press, 1996)ので、このような関数を本発明の方法に用いてもよ
い。2種以上の異なる変換関数、例えば2種以上の衝突困難ハッシュ関数及び2
種以上の汎用一方向性ハッシュ関数を組み合わせて用いてもよい。また、例えば
1種又は2種以上の衝突困難ハッシュ関数と1種又は2種以上の汎用一方向性ハ
ッシュ関数とを適宜組み合わせて処理することも可能である。本発明の方法には
SHA又はSHA1を単独で用いることが特に好ましいが、使用する関数及びそれらの
組み合わせは、生成するID記号の衝突可能性を十分に下げるように、当業者が適
宜選択可能である。
【0035】 以下に、本発明の方法に特に好適に使用可能な変換関数としてSHAのアルゴリズ
ムを紹介するが、本発明の方法に利用可能な変換関数はSHAに限定されることは
ない。なお、この例では、ハッシュ関数の処理により生成するハッシュ値である
文字数字列は、英字の小文字と数字の組み合わせにより表現されているが、文字
は英字の小文字に限定されることはない。また、より衝突困難性が高く、高速な
ハッシュ法をSHAの代用としてもよい。例えばSHAの改良型であるSHA1を使用して
も良い。
【0036】 *入力データ 264ビット未満の任意長のビット配列「m」(塩基またはアミノ酸配列データを
ビット配列「m」に変換する方法は後述)。 *出力データ 「m」に対して160ビットのハッシュ値を生成する。 入力されたビット列「m」が512ビット(16×32ビット)の倍数になるようにパ
ディングを以下の手順で行う。 手順1)m のビット配列長が‘512N−64’となるように、「m」の最後にビッ
ト配列100…0を付加する。 Rf.) "|m|": [m] のビット配列長 N = (|m| + 64) / 512 手順2)入力配列のビット配列長を64ビットで表現し、さらにビット配列の後ろ
に付加する。
【0037】 得られたビット配列を512ビットずつN個に分割し、それぞれ M1 , M2 , … , MN とする。
【数1】 分割されたビット配列に対し、以下の定数と関数を使用して、以下に述べる手順
によりハッシュ値を計算する。
【0038】 (定数)最初の定数は十六進値として表わされる。 H0 = 67452301 H1 = EFCDAB89 H2 = 98BADCFE H3 = 10325476 H4 = C3D2E1F0 Kt = 5A827999 ( 0≦t≦19 ) Kt = 6ED9EBA1 ( 20≦t≦39 ) Kt = 8F1BBCDC ( 40≦t≦59 ) Kt = CA62C1D6 ( 60≦t≦79 )
【0039】 (関数)
【数2】 *手順 以下のプロセスをiが0からNになるまで繰り返す。 (1)Mi は32ビットごとの16ブロックに分割され、それらはW0, W1, ・
・・, W15 のようにラベルされ、W0 は一番左のブロックである。 (2)
【数3】 W16 , … , W79 を決定する(各32 ビット) rf.4) "X <<< n" とは、左からnビットのXのビット列の回転シフトである。
回転シフト:ビット列がある方向に1ビットスライドされ、片端の文字は反対の
端へ動かされる
【数4】
【0040】 (3)変数A,B,C,D,Eは以下のように初期化される。 A = H0, B = H1, C = H2, D = H3, E = H4 (4)以下のステップがtが0から79になるまで繰り替えされる。 Rf.5) '+'は左の値と右の値の合計を“232”で除して得られた剰余である。
【数5】 (5)H0 = H0 + A, H1 = H1 + B, H2 = H2 + C, H3 = H3 + D, H4 = H4 + E 最終的に得られたH0〜H4のビット配列を連結した計160ビットをハッシュ値とす
る。
【0041】 変換関数への入力に最初に用いられるデータを「配列の最初の表現」とよぶ。塩
基配列またはアミノ酸配列の最初の表現の、上記のSHAの入力データであるビ
ット配列[m]への変換手順を以下に説明する。最初の表現では、配列の残基を表
す文字数字列は様々な表記法で表されることがある。「標準化処理」は、最初の
表現を残基の文字と配列中の順序が一意に表される「標準表現」に変換する。例
えば、塩基配列又はアミノ酸配列をビット配列に変換する方法を次に説明する。
塩基配列は各核酸を1文字(例えばA, T, G, Cなど)で表記し、順番に並べられ
、アミノ酸配列としては、同様に各アミノ酸を1文字で表記して順番に並べた文
字列を用いて表す。小文字は大文字又に変換する。「順番に並べる」とは、核酸
およびアミノ酸を意味しないスペースやハイフンなどの文字を取り除き、配列内
での各核酸およびアミノ酸の連結順序が文字の順序と同じになるように処理する
ことを意味する。以上により配列を表す文字列が標準化される(図5)。引き
続き図5の処理を行う。英数字1文字はASCIIコードにより8ビットの情報に変
換できるため、文字列の順で各文字を8ビットに変換して並べたビット配列を作
成できる。本明細書の実施例ではこの方法を使用しているが、文字コードをビッ
ト配列に変換する際、ASCIIコード以外の変換コードを使用してもよい。このよ
うにして、同一配列の最初の表現は、配列の最初の表記法にかかわらず、同一の
ビット配列に変換される。そして、そのビット配列はSHAにより160ビット
列に変換される。なお、ビット配列とは1ビットの情報を並べたものである。1
ビットは2進数の1桁に対応し0または1で表現される。ASCIIコードを用いた場
合、264ビット未満というSHAの条件は文字数にして約2×1018未満というこ
とになり、現実の塩基配列やアミノ酸配列を表現するには十分な長さである。
【0042】 上記のビット配列をハッシュ関数によって変換して得られた160ビット列(図5
の処理で得られる結果)を該配列のIDとして利用するには、このビット列を英
数字で表現できるよう、必要なビット数に分割すればよい。160ビットを5ビッ
トずつに分解し、各5ビットを0, 1, 2, 3, 4, 5, 6, 7, 8, 9, a, b, c, d, e,
f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v の32文字のひとつに対応
させて表現する(図5)。
【0043】 次の160ビット列を5ビット毎に分割し、それぞれを対応する32文字に変換する
。160ビット列は5ビット毎に分割され、5ビット列は整数あるいは文字に変換さ
れる。
【数6】 最終的に、以下の文字数字列がID 記号として得られる。 "g r r u 8 d v q k m j v p o a t 3 n e b j q n a t 8 r n c p t o" 上記に示されるように次のID記号「grru8dvqkmjvpoat3nebjqnat8rncpto」の文字
数字列がハッシュ値として得られる。
【0044】 本発明の方法により生成されるID記号には、対応する配列の種類を表わす情報(
例えば、ID記号が配列を示すことを意味する情報、アミノ酸配列又は塩基配列な
どを区別するための情報、塩基配列が含まれる染色体の番号及び位置、生物種、
SNPの部位など)やID記号の作成方法の種類を表わす情報(例えば、利用した
変換関数の種類などを表わす情報)などを付加するため、さらに固定長の1又は
2以上の文字数字列、好ましくは英数字列を付加して新たなID記号としてもよい
(図5)。付加する文字数字列は変換関数を適用して得られた上記のハッシュ
値としての文字数字列の先頭又は末尾など、いかなる部分に配置してもよい。好
ましくはハッシュ値の先頭に3以下の文字及び/又は数字列を付加するのがよい
【0045】 また、本発明の方法は、配列の全長又はその部分配列に適用してもよい。例えば
、塩基配列中のオープンリーディングフレーム部分またはエキソンのみに適用し
て蛋白質をコードする部分配列/複数部分配列へ付与するID記号を生成させるこ
とが可能になり、その塩基配列によりコードされる蛋白質のID 記号を作成する
ことも可能である。後者の場合はオープンリーディングフレームからコドン表を
利用してアミノ酸配列に変換する工程が必要である。
【0046】 本発明のID記号は、塩基配列データ及び/又はアミノ酸配列データの管理や照合
に用いることができる。また、配列に関する情報を管理する場合にも用いること
ができる(図6)。上記ID記号は各配列に固有であり、しかも衝突の可能性が極
めて低いため、複数の配列を本発明の方法で処理して配列を表す文字列からID記
号を生成させ、そのID記号を比較することによって配列の同一性を簡便かつ高速
に判定することができる。例えば、上記ID記号を用いて、複数の配列データベー
スのデータレコードに含まれている特定の配列と同一の配列を検索することがで
きる。また、データベース中の配列について上記のID記号を生成し、配列データ
ベース中に重複して含まれる配列を検出することができる。あるいは配列データ
ベースの上記ID 記号を用いて異なる配列データベース間で重複して登録され
ている配列あるいは異なるデータベースに重複して登録されている同一配列を簡
便かつ高速に検出することが可能になる。また、新しい配列情報を含むデータレ
コードをデータベースに登録する際に、すでにその配列が登録されているもので
あるかどうかを簡便に検索することが可能になる。上記の目的のため、好ましく
はリレーショナルデータベース、オブジェクト指向データベースあるいはファイ
ルシステム、より好ましくはリレーショナルデータベースが適用される。そして
、上記ID 記号は、リレーショナルデータベースのデータレコードに含まれる
配列の一次キー又は固有のリファレンスキーとして好適に用いられる。さらに、
配列比較のためにID記号のみを公開する。配列の連結順序を表すデータは公開し
ないことで配列データの機密性を守ることも可能である。また、上記のID記号を
使用して、配列データベースを簡単に作成して維持することができる。例えば、
上記のID記号を使用して配列間の関係を表し、配列に関する情報を表し、データ
レコードに含まれる配列の上記固有ID 記号によりデータレコードを検索し、
上記ID 記号をデータレコードと関連付けてデータベースを管理できる。
【0047】 また、複数のデータベース間で統一的に使用すれば、データベース間で同一配列
に同一のIDが付されて関連性と整合性が保たれることを容易に実現可能である。
もしそれらが複数配列間で統一的に使用されれば、データベース間のデータレコ
ードに含まれる同一配列に同一ID 記号を付与することで関連性と整合性が保
たれる。また、ゲノムの一部あるいは全体の記述を目的とし、ゲノムの染色体の
塩基配列全体を1以上の部分に分割し、分割された部分配列それぞれを短いID記
号に代表させて記述することが可能になる。これらのID記号を比較することで、
同一生物種間及び/又は異種生物間の多様性を長大な配列を直接比較するよりも
簡便に比較することが可能となる。また、配列間の関係を表現する目的にも使用
することができる。例えば、アラインメント情報の保存方法(特願平11−15
189号明細書)を実施するにあたり、配列のID記号として用いるのが効果的で
ある。
【0048】 さらに、本発明のID記号は、ジェノタイプ及び対立遺伝子を表現するために用い
ることができる。ジェノタイプとは、同一生物種間及び/又は異種生物間のゲノ
ムの塩基配列の全部又は一部もしくは部分群の多様性を記述したものであり、注
目する部分の塩基配列の同一性を反映する記号である。核酸や蛋白質が抽出可能
なものである個人、個人群、個体、個体群、細胞種、臓器種、生物種、サンプル
などのジェノタイプとして、注目する部分の塩基配列又は塩基配列群の残基の連
結順序を表すデータから生成される該ID記号を使用することができる。
【0049】 注目する配列の全部及び/又はその一部及び/又はその部分群を任意の順序で連
結した配列をもとに生成したID記号(図7)をジェノタイプ、対立遺伝子又は
複数集合として用いてもよいし、各部分配列のID記号の複数集合(図7)をジ
ェノタイプとして用いてもよい。また、それら複数のID記号をID記号の昇順ある
いは降順により並べて連結した文字列(図7)を変換関数により固定長にした
もの(図7)をジェノタイプ、対立遺伝子又は複数集合のID記号として用いて
もよい。さらに1文字以上の文字列をさらに付加したものをジェノタイプ、対立
遺伝子又は複数集合のID記号として用いてもよい。
【0050】 薬物投与を含む治療法の有効な対象及び/又は無効な対象及び/又は効果に違い
の見られる対象、となる個人、個人群、個体、個体群のジェノタイプをあらわす
記号としても用いることができる。このID記号をジェノタイプとして用いること
で、個人や個体やサンプルの匿名性や機密性を守る目的にも使用できる。実験記
録、臨床試験記録、カルテ、薬剤の添付文書、申請書、通知書、診断書、証明書
、報告書、特許明細書、学術文献、公文書、要旨集などを含む書類においてジェ
ノタイプを記述する目的にも使用できる。
【0051】
【実施例】 以下、本発明を実施例によりさらに具体的に説明するが、本発明の方法は下記の
実施例に限定されることはない。 例1 ヒト、クジラ、ラットのヘモグロビンのアミノ酸配列を含むデータレコードを下
記に示す。 データレコード 1: ヒト 1 GLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLK 51 SEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIP 101 VKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELG 151 FQG データレコード 2: クジラ 1 VLSDAEWQLVLNIWAKVEADVAGHGQDILIRLFKGHPETLEKFDKFKHLK 51 TEAEMKASEDLKKHGNTVLTALGGILKKKGHHEAELKPLAQSHATKHKIP 101 IKYLEFISDAIIHVLHSRHPGDFGADAQAAMNKALELFRKDIAAKYKELG 151 FQG データレコード 3: ラット 1 GLSDGEWQLVLNVWGKVEGDLAGHGQEVLIKLFKNHPETLEKFDKFKHLK 51 SEDEMKGSEDLKKHGNTVLTALGGILKKKGQHAAEIQPLAQSHATKHKIP 101 IKYLEFISEAIIQVLQSKHPGDFGADAQGAMSKALELFRNDIAAKYKELG 151 FQG
【0052】 上記データレコードの各配列の標準表現(一文字表記法で示す)は以下のとおり
である。 ヒトのヘモグロビン配列の標準表現 GLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTAL
GGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMAS
NYKELGFQG クジラのヘモグロビン配列の標準表現 VLSDAEWQLVLNIWAKVEADVAGHGQDILIRLFKGHPETLEKFDKFKHLKTEAEMKASEDLKKHGNTVLTAL
GGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSRHPGDFGADAQAAMNKALELFRKDIAA
KYKELGFQG ラットのヘモグロビン配列の標準表現 GLSDGEWQLVLNVWGKVEGDLAGHGQEVLIKLFKNHPETLEKFDKFKHLKSEDEMKGSEDLKKHGNTVLTAL
GGILKKKGQHAAEIQPLAQSHATKHKIPIKYLEFISEAIIQVLQSKHPGDFGADAQGAMSKALELFRNDIAA
KYKELGFQG
【0053】 本発明の方法を上記アミノ酸配列に応用してID 記号は生成された。ここで変換
関数はSHAを含む。ID 記号は以下のとおりである。 ヒトヘモグロビン agtiu9e70upqugdqp895bgesc3ops288 クジラヘモグロビン c21tv2116bjcuj1crtd6r23tm984n74i ラットヘモグロビン 1582i4737s9vkd4cd8mfcug8rq19cqal
【0054】 上記のアミノ酸の3配列に加え、発明者らはSWISS-PROTの60,000以上のユニーク
なアミノ酸配列とDDBJ(1999年で入手可能なすべてのデータ)の4,700,000のユ
ニークな塩基配列についてID 記号を生成し、ID 記号の衝突が全く生じなかった
ことを確認している。
【0055】 例2 上記のID記号の先頭に、それらがアミノ酸配列に関するものであることを表す英
文字「SCD」を付加した。 ヒト ヘモグロビン SCDagtiu9e70upqugdqp895bgesc3ops288 クジラ ヘモグロビン SCDc21tv2116bjcuj1crtd6r23tm984n74i ラット ヘモグロビン SCD1582i4737s9vkd4cd8mfcug8rq19cqal
【0056】 例3 例1と同じ配列に対して2種類以上のハッシュ関数を使用してハッシュ値を得た
。これらのID記号を組み合わせることは、例1のID 記号より衝突確率が極めて
低いという特徴を有している。上記のヒトの配列に対し2種類のハッシュ関数を
適用して、ハッシュ値として 「agtiu9e70upqugdqp895bgesc3ops288」と 「cd8mfcug8rq19cqalcd8mfcug8rq19al」 をえた。これらを連結して、本発明のID記号として 「agtiu9e70upqugdqp895bgesc3ops288cd8mfcug8rq19cqalcd8mfcug8rq19al」 を生成させた。
【0057】 例4 2種類のハッシュ関数によることを示す英文字「L」とアミノ酸配列であること
を示す数文字「SCD」を先頭に付加した以下のID記号を生成した。 「LSCDagtiu9e70upqugdqp895bgesc3ops288cd8mfcug8rq19cqalcd8mfcug8rq19al」
このID記号と1種類のハッシュ関数を用いて生成させた 「SCDagtiu9e70upqugdqp895bgesc3ops288」 とを比較すると、先頭の文字列だけからID記号の生成方法の違いを知ることがで
き、しかもこのID記号がアミノ酸配列に関するものであることが分かる。
【0058】 例5 データをテキストで記述するフォーマットのひとつであるXML(Extensible Mark
up Language)のフォーマットに基づき作成された以下に示す3つのファイル(
データレコードに対応)がある。 ファイル1の内容は、次の2行である。 <sequence id="SA1c7isymyeju52cep94q8f01p4vd5y37fu">EDLQGDAVPETSATKDDNEXP
EMIPM</sequence> 及び <sequence id="SA1gptg04a3tskj0s8u604h0cme86yqiufd">DDLQGTAVQERSAKASDEEEA
IRTLL</sequence>
【0059】 ファイル2の内容は、次の1行である。 <name id="SA1c7isymyeju52cep94q8f01p4vd5y37fu">ProteinA</name> ファイル3の内容は、次の1行である。 <name id="SA1gptg04a3tskj0s8u604h0cme86yqiufd">ProteinB</name>
【0060】 XMLでは“<”と“>”で囲まれた文字列をタグと呼ぶ。ファイル1において、<
sequence>から</sequence>で囲まれた文字列は配列を表す文字列である。<seque
nce>タグの中に挿入したid="…"はタグで囲まれた文字列で表されたアミノ酸配
列に固有のID記号が存在することを示す。つまり、 EDLQGDAVPETSATKDDNEXPEMIPM の文字列で表されるアミノ酸配列に固有のID記号は SA1c7isymyeju52cep94q8f01p4vd5y37fu であり、 DDLQGTAVQERSAKASDEEEAIRTLL の文字列で表されるアミノ酸配列に固有のID記号は SA1gptg04a3tskj0s8u604h0cme86yqiufd となっている。
【0061】 ファイル2および3において<name>から</name>で囲まれた文字列は配列の名前
である。<name>タグの中に挿入したid="…"はタグ内の名前が対応するアミノ酸
配列のリファレンスキーである(ここでID記号は<name>から</name>のセクショ
ンに関連付けされている)。つまりファイル2の情報は、 ProteinA の名前が対応するアミノ酸配列に固有のID記号は 「SA1c7isymyeju52cep94q8f01p4vd5y37fu」 であることを表しており、ファイル3の情報は ProteinB の名前が対応するアミノ酸配列に固有のID記号は 「SA1gptg04a3tskj0s8u604h0cme86yqiufd」 であることを表している。
【0062】 図8に示すように、ファイル1はデータベース1内に存在し、ファイル2および
3はデータベース2内に存在している。データベース検索には閲覧装置が利用で
きる。この閲覧装置は一方のデータベースからファイルを読み込んだ際に、該フ
ァイル内に配列に固有のID記号が含まれていた場合には、他方のデータベースに
対し自動的にそのID記号をクエリーとして検索を行い、該ID記号が含まれるファ
イルが見つかればそれも読み込むように作られている。データベース1とデータ
ベース2と閲覧装置は同一場所又は互いに離れた場所に存在し、互いにネットワ
ーク又はインターネットで結ばれている(図8)。
【0063】 閲覧装置からデータベース2に対し、"ProteinA"という文字列をクエリーにして
検索を行ったところ、ファイル2が検索結果として得られた。閲覧装置はファイ
ル2内に配列に固有のID記号である 「SA1c7isymyeju52cep94q8f01p4vd5y37fu」 が含まれていたため、このID記号でデータベース1を自動的に検索した。その結
果ファイル1が検索結果として得られた。ファイル1には別の配列に固有のID記
号である、 「SA1gptg04a3tskj0s8u604h0cme86yqiufd」 が含まれていたため、引き続き、このID記号でデータベース2を自動的に検索し
た。その結果ファイル3が検索結果として得られた。以上の結果、ファイル1、
ファイル2、ファイル3が閲覧装置内に読み込まれた。
【0064】 次に、閲覧装置は以下に記述するアルゴリズムにより、同一の配列に関する情報
をまとめあげて表示した。 (1)それらのファイルにおいて、タグ中のid="…"で記述されたID記号をタグ間で
比較。同一のID記号を含むタグに囲まれた文字列は同一の配列に関する情報であ
ると判定。 (2)同一の配列に関する情報を行方向にならべ、タグ名を列方向に並べて、表形
式でデータを表示。 以上の結果として図8に示す表が閲覧装置により表示された。このシステムの
データベース数は2に限定されず、2以上も可能である。
【0065】 例6 配列を含むデータレコードがある。この配列に固有のIDは 「SA1c7isymyeju52cep94q8f01p4vd5y37fu」 である。該レコードのIDはAA1001である。 プログラム言語「VBScript」を用いて、これらのIDを関連付けした辞書オブジェ
クトを以下のように作成する。 「SA1c7isymyeju52cep94q8f01p4vd5y37fuAA1001」 というIDを作成した。 Set dictionary = CreateObject("Scripting.Dictionary") dictionary.Add "SA1c7isymyeju52cep94q8f01p4vd5y37fu","AA1001"
【0066】 例7 ヒトの全ゲノムが解読されても、その大半の遺伝子については機能が分からない
。このため、それら「遺伝子」をコードする塩基配列やその翻訳産物である蛋白
質のアミノ酸配列について様々な予測結果や実験結果が関係情報として付加され
ていくようになる。この関係情報はアノテーションとよばれることもある。「ア
ノテーションサービスプロバイダー」のビジネスモデルを説明する。これら遺伝
子機能の推定のアノテーションを提供するためとして図9に示す構成のシステム
を作成した。図9において、「利用者用装置」はある遺伝子の配列について情報
を得ようと望んでいる者がその目的で使用する装置であり、インターネットを通
じてその配列を表す文字列を1つ以上の「関係情報提供装置」に暗号化して送る
ことができる。「関係情報提供装置」は受け取った配列情報について機能を予測
したり、データベース検索を行ったりして、該配列に関係するアノテーションを
生成し、情報利用者にその内容を返却ファイルとして送り返す。「利用者用装置
」は返却されたファイルの内容を利用者に対して表示することで、該配列に関係
する情報を知らせることができる。「利用者用装置」は利用者に返却されたファ
イルに含まれるアノテーションを表示する。「利用者用装置」は専用のデータベ
ースに接続されており、ここにはこれまでに返却ファイルとして受け取った情報
が蓄積されている。「利用者用装置」は新たに返却されたファイルの内容が専用
データベース内に存在していなければ、新規な情報であることを閲覧時に利用者
に対して知らせることができる。「関係情報提供装置」は1又は複数存在する。
「関係情報提供装置」は、システムのデータレコードサービス手段である。
【0067】 この例では「利用者用装置」がインターネット経由で配列を表す文字列(S)を
「関係情報提供装置」に送信する(図11-F111)。この場合、文字列(S)は、
「EDLQGDAVPETSATKDDNEXPEMIPM」である。「関係情報提供装置」は文字列(S)
を受け取ると(図10-F101)、該配列の機能を予測したりデータベース検索を
行うなど通常の検索手段や予測プログラムを起動する。その結果、該配列に関す
る情報を生成する(図10-F102)。その結果を該配列に「発見」として文字列に
表す。ここでは次の2つの発見 (R1), (R2)が生成された。 「シグナルペプチド」 (R1) 「文献Xに記載されている」 (R2)
【0068】 配列を表す文字列(S)から本発明の方法で該配列のID記号(T)を生成した(図
10-F103)。(T)は 「SA1c7isymyeju52cep94q8f01p4vd5y37fu」 (T) である。 図10-F104(T)と各発見(R1)、(R2)を連結した文字列は、 「SA1c7isymyeju52cep94q8f01p4vd5y37fuシグナルペプチド」 (T-R1) 「SA1c7isymyeju52cep94q8f01p4vd5y37fu文献Xに記載されている」(T-R2) である。
【0069】 これら文字列は配列に固有のID記号(T)とその発見(R1)と(R2)の文字列の
組み合わせにユニークである。上記文字列(T-R1)と(T-R2)から衝突困難ハッ
シュ関数で文字列を生成すると該配列と発見の組み合わせに実質的にユニークな
ID記号となる。このようにして(T-R1)、(T-R2)それぞれに対して生成されたID
記号 (U1),(U2)は 「d92fe7v6qfdqnihh8prdg7b73f75b56u」 (U1) 「1bdr3kabuhbnghvx5arp8xe8uas22xqc」 (U2) である。
【0070】 以上の結果を返却ファイルにXMLフォーマットで次のように格納した。 <RESULT id=" d92fe7v6qfdqnihh8prdg7b73f75b56u"> <SEQUENCE id=" 1bdr3kabuhbnghvx5arp8xe8uas22xqc"/> <INFORMATION>シグナルペプチド</INFORMATION> </RESULT> <RESULT id=" 1bdr3kabuhbnghvx5arp8xe8uas22xqc"> <SEQUENCE id=" SA1c7isymyeju52cep94q8f01p4vd5y37fu"/> <INFORMATION>文献Xに記載されている</INFORMATION> </RESULT>
【0071】 同様に、</RESULT>と</RESULT>で囲まれた各部分であるデータレコードのID 記
号は、配列のID 記号と<INFORMATION>と</INFORMATION>の間の文字列であるデー
タレコードの配列に関係したすべてのデータに基づいて生成され、生成されたID
記号は配列とデータレコードの配列に関係したデータの組み合わせに実質的に
ユニークである。「配列に関連したすべてのデータ」は、データレコードの形式
により,複数の部分から成っていることもある。
【0072】 ただし、本発明において、文字列 (R1),(R2),(T),(U1),(U2)を返却ファイル内に
格納する順序はこの実施例に限定されることはない。文字列(S)などさらに他
の情報を格納してもよい。また上記のフォーマットに限定されることもない。
【0073】 この返却ファイルをインターネット経由で「利用者用装置」に送信する(図10
-F106)。「利用者用装置」はこのファイルを受け取り(図11-F112)、それら
の関係情報を利用者に提示する。また、それぞれの<RESULT>タグの中のid属性に
記述されたID記号(U1)と(U2)が「専用データベース」内にこれまでに蓄積さ
れたものの中に存在するか調べる。もし存在しなければその内容が、利用者にと
って新規な情報であることを「利用者装置」が表示する。そして、その関係情報
を「専用データベース」内に保存する。 また、異なる複数の「関係情報提供装置」から返却された複数のファイルの中に
同一の関係情報があるかどうかを上記のID記号が同一かどうかで判定することも
できる。
【0074】 さらに、「利用者用装置」では、独立した「関係情報提供装置」や「専用データ
ベース」から送られてきた各ファイルから、配列ID記号に基づいて同一配列に関
する情報の同一性から判断してまとめて表示することができる。まとめたファイ
ルを利用者が理解できる表示にするため、「利用者装置」は同一配列に関する情
報を同一の列または行にならべてテーブル形式で表示する。本発明のID記号生成
方法によることで、独立した複数の「関係情報提供装置」で配列のID記号が生成
されても、同一配列には同一のID記号を付与することが可能であり、この特徴は
上記ビジネスモデルに必須の機能である。この例の返却ファイルで、配列のID
記号は、配列に関する情報の表示に用いられる。
【0075】 例8 本発明の配列に固有のIDをクエリーに用いてデータレコードを検索できる検索シ
ステムを図12に示す。
【0076】 システム内ではデータレコードに対してローカルIDがつけられている。データレ
コードのローカルID(図12中、LocalID1,LocalID2 等)はこのデータベースシ
ステムの内部でローカルに用いられている。データ検索システム内には、配列に
固有のIDとローカルIDの対応テーブルがある。そしてこの対応づけはシステムの
管理者により、変更、追加、削除可能になっている。また、システム内にはデー
タレコードをローカルIDで管理する1以上のローカルデータベースが存在し、ロ
ーカルIDをシステムの「検索装置」によるクエリーとして用いることによりデー
タベースのデータレコードを検索することが可能である。「検索装置」と「ID間
の対応テーブル」と「ローカルデータベース」は物理的に同一あるいは互いに離
れた場所に存在してもよく、その間の通信はネットワークやインターネットを経
由して行われてもよい。また、ID間の対応テーブルの管理者とローカルデータベ
ースの管理者は異なっていてもよい。ID間の対応テーブルは、固有IDからそれに
対応づけられたローカルIDを検索できれば、いかなる手段をもちいてもよい。固
有IDとローカルIDの対応は多対多であってもよい。
【0077】 検索時の処理手順は以下のようになっている。 「データ検索システム」の外部にいる検索者が、配列に固有のIDを1つ以上含む
検索クエリーを該システムの「レコード検索装置」に送る(図12)。まずレ
コード検索装置は該固有IDに対応づけられたローカルIDをID間の対応テーブルか
ら検索する(図12)。次に該ローカルIDを使って「レコード検索装置」はロ
ーカルデータベースから該ローカルIDがついたデータレコードを検索する(図1
2)。最後に「レコード検索装置」は該データレコードを検索者に送り返す。
別の方法としては、リレーショナルデータベースの「閲覧」関数を用いて、ID間
の対応テーブルとローカルデータベースのテーブルを予め融合しておけば、と
の検索を一括して行うことも可能である。ファイルシステムをローカルデータ
ベースとして用いることで、ローカルIDはローカルファイル名となることも可能
である。
【0078】 この例では、検索者は配列に固有のIDのみからデータベース検索でき、しかも、
検索する時点でID間の対応テーブルにより対応づけられているローカルIDのデー
タレコードを検索することができる。データベースシステム管理者は対応テーブ
ルの対応を変更、追加、削除した際に、固有IDとローカルIDの対応を適切なもの
に変更することで、検索者が要求する配列に対し、常に適切なデータレコードを
送り返すように設定できる。
【0079】 また、データレコードの変更や削除により、固有IDが対応するデータレコードが
ローカルデータベース内に存在しなくなった場合は、データレコードの代わりに
それについての訂正情報を検索者に対し送り返すように設定できる。また、検索
者はネットワークやイントラネットを経由して図12に示したデータベースシス
テムの複数に対し同じ固有のIDをクエリーとして同時に送ることで、同時に複数
のデータベース検索をすることも可能である。本発明により、システムの管理者
は自ら、システムのデータレコードに含まれている配列に大域的に固有なID 記
号を生成することができる。しかも、それらはGenBankのような特定の機関によ
るものではない。本発明により、検索者は検索したい配列の固有のID 記号を自
ら作成することができる。
【0080】 例9 図13で「データブラウザ」は、ネットワーク又はインターネットを介してデー
タを閲覧するための装置である。データベース1は配列を含むデータレコードを
提供するサーバーであり、任意のデータサイトであってもよいし、例えば、NCBI
やEBIやDDBJなどのデータレコードを公開しているインターネット上のサイトで
あってもよいし、ファイアーウォール内のネットワークで繋がれたサイトであっ
てもよい。「データブラウザ」は「固有ID記号作成手段」を備えており、以下の
処理手順を自動的に実行する。 「データブラウザ」はデータレコードの閲覧要求をデータベース1(インター
ネット上のサーバーを経由してもよい)に送信し、 要求したデータレコードを「データブラウザ」内に読み込む。 読み込んだデータレコード内に塩基配列及び/又はアミノ酸配列を表す文字列
が含まれている場合、データブラウザが備えた「固有ID記号作成手段」によりそ
の文字列から該配列に固有のID記号を生成する。GenBankに登録されている塩基
配列のファイルの「FEATURE」セクションのように、該配列内の領域を指定する
情報が存在する場合は、さらにその部分配列について配列に固有のID記号を生成
する。
【0081】 「データブラウザ」は生成したID記号を自動的又はユーザーの確認を得てから
後、他のデータベース2に対し、該ID記号を含むデータレコードを該ID 記号を
クエリーとして送り検索する。データベース2はデータブラウザの存在する装置
内に存在しても、ネットワークを経由して別のコンピュータ上に存在しても、ま
たインターネットを介して離れたところにあるコンピュータ上に存在してもよい
。またデータベース2に加え、データベース3に対して同じ検索要求を並列的又
は直列的に出してもよい。ここでデータベースの数は限定されない。 検索結果として「データブラウザ」は新しいデータレコードを内部に読み込む
。 「データブラウザ」はこれまでに読み込まれたデータレコード内のデータをも
とにユーザにわかりやすく表示する。これらデータを統合して表示することもで
きる。 上記で読み込まれたデータレコード内に本発明のID記号が含まれている場合
、または配列を表す文字列がある場合や配列を表す文字列に加えその領域を指定
する情報がある場合は、と同様に新たに「データブラウザ」の機能によりID記
号を生成して、、、を適宜回数繰り返すことができる。自動的に繰り返す
場合は最後のみの処理を行うようにすることもできる。
【0082】 「データブラウザ」は上記の機能をもつように書かれたプログラム及びコンピュ
ータであってもよい。また、「インターネットエクスプローラ」や「ネットスケ
ープナビゲータ」のような汎用のブラウザと、該機能を汎用ブラウザに適時付加
する手段を用いてもよい。適時付加する手段として「プラグイン」、「Javaアプ
レット」、「ActiveX」などの仕様を用いたソフトウエアを用いることが可能で
あるが、他の同様の仕様であってもよい。データブラウザにユーザを認証するた
めの手段や該固有IDを用いて検索する対象のデータベースを複数設定するための
手段を設けてもよい。また、データレコードのフォーマットが変更された場合に
それに対応できるように、配列を表す文字列をデータレコードから抽出するため
のモジュールをネットワークを介して随時アップデートできるようにしておくこ
ともできる。この「データブラウザ」により、配列に固有のID記号がつけられて
いないデータを閲覧する場合でも、固有のID 記号を「直接」生成することがで
き、これが本明細書において「ID 記号の直接生成」の定義である。また該ID記
号をクエリーとして用いて、別のデータベースを自動的に検索することができ、
そこで得られた情報を、「データブラウザ」を閲覧中のユーザーに伝えることが
できる。この「データブラウザ」の機能により、配列データを公開しているイン
ターネット上の様々なサイトを「該ブラウザ」で閲覧時に、閲覧中の配列に関連
する情報があるかどうかを知ることができる。「データブラウザ」はアノテーシ
ョンを編集したりデータベースに加える機能もある。また、ブラウザは配列やそ
の部分配列に関するアノテーションをユーザーに知らせるための装置として使用
でき、アノテーションデータを提供する「アノテーションサービスプロバイダー
」のデータベースからアノテーションを得るための装置としても使用できる。ア
ノテーションデータを提供する業者は、該ブラウザのユーザー認証機能に加え、
検索に応じて課金できるように検索回数を管理する機能を、データを提供するサ
ーバーにもたせることもできる。
【0083】
【産業上の利用可能性】
本発明の方法によれば、異なるコンピュータで生成された固有のID 記号を、不
整合を生ずることなくインターネットを通じて世界中に送信できる。配列を含む
データレコードを、ID 記号の名前空間を気にせずにインターネット経由で離れ
たデータベース間で交換できる。データベース管理者は、GenBankのような機関
からの大域的なID 記号を取得する必要はなく、かわりに自身で大域的なID 記号
を作成できる。固有のID 記号は、必要ならデータレコードに含まれている配列
から「直接」作成できるので、それらはデータレコードに必ずしも含まれている
必要はない。このため、閲覧しているデータレコードがID 記号を含んでいなく
ても、インターネットブラウザが配列の固有ID 記号を生成し、該ID 記号により
配列の追加情報を検索することができる。異なるサイトでアノテーションを記述
するために発生されるID 記号が大域的に整合性をもつため、異なるウェブサイ
トで生成されたアノテーションを容易に統合し、該ID 記号を比較するだけで分
かりやすく閲覧できる。該ID 記号を比較するのみで、異なるデータレコードの
情報が同一配列に関連しているかどうか判断できる。本発明の方法によれば、塩
基配列又はアミノ酸配列から一定長又は可変長で衝突確率が極めて低いID記号を
生成することができる。このID記号は塩基配列又はアミノ酸配列から世界中どこ
でも極めて高速かつ簡便に生成することができる。しかもID記号は各配列に固有
であり実際上衝突の可能性がないため、ID記号のみを比較することにより配列の
同一性を容易に判定することができる。
【図面の簡単な説明】
【図1】 「配列」と「配列を表す文字列」と「配列に固有のID記号」との関係
を示した図である。
【図2】 データレコードとデータベースの関係を示した図である。
【図3】 配列を含むデータレコードの例を示した図である。
【図4】 データレコードと配列に固有のID記号との対応付けの例を示した図で
ある。
【図5】 配列に固有のID記号を生成する手順を示した図である。
【図6】 固有のID記号を独立なデータベース間で利用する場合の態様を示した
図である。
【図7】 ジェノタイプ、対立遺伝子、配列群のID 記号の例を示した図である
【図8】 複数データベースのデータレコード閲覧システムの一例を示した図で
ある。
【図9】 「利用者装置」、「関連情報提供装置」、及び「専用データベース」
間の関連の例を示した図である。
【図10】 「配列に関係する情報の提供装置」の処理の流れ図である。
【図11】 「利用者用装置」の処理の流れ図である。
【図12】 ローカルIDで管理されたデータレコードを、配列に固有のIDをクエ
リーに用いて検索できる例を示した図である。
【図13】 ブラウザに読み込まれたデータレコードから固有ID記号を自動生成
し、データベース検索を自動に行い、得られた結果を見やすく表示するデータブ
ラウザの例を示した図である。
───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号 特願平11−331683 (32)優先日 平成11年11月22日(1999.11.22) (33)優先権主張国 日本(JP) (31)優先権主張番号 特願2000−61630(P2000−61630) (32)優先日 平成12年3月7日(2000.3.7) (33)優先権主張国 日本(JP) (31)優先権主張番号 特願2000−148339(P2000−148339) (32)優先日 平成12年5月19日(2000.5.19) (33)優先権主張国 日本(JP) (31)優先権主張番号 特願2000−225080(P2000−225080) (32)優先日 平成12年7月26日(2000.7.26) (33)優先権主張国 日本(JP) (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,BZ,C A,CH,CN,CR,CU,CZ,DE,DK,DM ,DZ,EE,ES,FI,GB,GD,GE,GH, GM,HR,HU,ID,IL,IN,IS,JP,K E,KG,KR,KZ,LC,LK,LR,LS,LT ,LU,LV,MA,MD,MG,MK,MN,MW, MX,MZ,NO,NZ,PL,PT,RO,RU,S D,SE,SG,SI,SK,SL,TJ,TM,TR ,TT,TZ,UA,UG,US,UZ,VN,YU, ZA,ZW

Claims (25)

    【特許請求の範囲】
  1. 【請求項1】 配列又は部分配列/複数部分配列の残基の結合順序を表すデータ
    を変換する変換関数を用いて、塩基配列、アミノ酸配列又は部分配列/複数部分
    配列に実質的に固有のID記号を生成する方法。
  2. 【請求項2】 ID記号に変換される残基の結合順序を表すデータが標準表現に変
    換されており、同一配列又は同一部分配列/複数部分配列の最初の表現にかかわ
    らず変換関数が同一ID 記号を生成する、請求項1に記載の方法。
  3. 【請求項3】 該変換関数が衝突困難ハッシュ関数及び/又は汎用一方向性ハッ
    シュ関数を含む請求項1又は2に記載の方法。
  4. 【請求項4】 該変換関数がSHA又はSHA1を含む請求項1から3のいずれか1項に
    記載の方法。
  5. 【請求項5】 ID 記号に該ID記号の生成法及び/又はカテゴリー及び/又は付
    加的な情報を表わす1又は2以上の文字が追加されている、請求項1から4のい
    ずれか1項に記載の方法。
  6. 【請求項6】 ID記号が一定長である請求項1から5のいずれか1項に記載の方
    法。
  7. 【請求項7】 ID 記号の各生成に同一変換関数を用いて、1又は2以上のデー
    タベースのデータレコードの同一配列及び/又は同一部分配列/複数部分配列に
    同一ID 記号を付与する、請求項1から6のいずれか1項に記載の方法。
  8. 【請求項8】 ID記号が請求項1から6のいずれか1項に記載の方法で生成され
    たID 記号とデータレコード中の配列又は部分配列/複数部分配列に関係したす
    べてのデータに基づいて生成され、生成された該ID 記号が配列又は部分配列/
    複数部分配列とデータレコード中の配列又は部分配列/複数部分配列に関連する
    情報の組み合わせに対して実質的に固有である、配列又は部分配列/複数部分配
    列を含むデータレコードのID 記号を生成する方法。
  9. 【請求項9】 ID記号が請求項1から6のいずれか1項に記載の方法により生成
    されたすべてのID 記号のみに基づいて生成され、生成された該ID 記号がグルー
    プ内の配列及び/又は部分配列の組み合わせに対して実質的に固有である、複数
    の配列及び/又は部分配列/複数部分配列を含むグループのID 記号を生成する
    方法。
  10. 【請求項10】 請求項1から9のいずれか1項に記載の方法により生成したID
    記号。
  11. 【請求項11】 ジェノタイプ又は対立遺伝子のID 記号として用いる請求項1
    0に記載のID記号。
  12. 【請求項12】 配列及び/又は部分配列/複数部分配列及び/又はジェノタイ
    プ及び/又は対立遺伝子の間の関係を表わすために用いられる請求項10又は1
    1に記載のID記号。
  13. 【請求項13】 配列及び/又は部分配列/複数部分配列及び/又はジェノタイ
    プ及び/又は対立遺伝子に関係する情報を表わすために用いられる請求項10又
    は11に記載のID記号。
  14. 【請求項14】 1又は2以上のデータベースの1又は2以上のデータレコード
    にさらに関連付けられた請求項10から13のいずれか1項に記載のID記号。
  15. 【請求項15】 データレコードが配列又は部分配列/複数部分配列の残基の結
    合順序を表わすデータを含まない請求項14に記載のID記号。
  16. 【請求項16】 1又は2以上のデータベースの1又は2以上のデータレコード
    を検索するために用いられる請求項10から15のいずれか1項に記載のID記号
  17. 【請求項17】 請求項10又は11のID 記号を比較することで、配列、部分
    配列/複数部分配列、ジェノタイプ及び/又は対立遺伝子の同一性を判定する方
    法。
  18. 【請求項18】 ID記号を請求項1から9のいずれか1項に記載の方法により残
    基の結合順序を表わすデータから直接生成し、かつ該ID 記号を用いて1又は2
    以上のデータベースの1又は2以上のデータレコードを検索することによる、配
    列、部分配列/複数部分配列、ジェノタイプ又は対立遺伝子を含むデータレコー
    ドの検索方法。
  19. 【請求項19】 請求項1から9、請求項17又は請求項18のいずれか1項に
    記載の方法を用い、かつ/又は請求項10から16までのID 記号を用いる、か
    つ/又は請求項10から16のID 記号を発生する手段を含む装置。
  20. 【請求項20】 1又は2以上のデータレコードを閲覧するために用いられるブ
    ラウザを含み、かつ/又はネットワーク及び/又はインターネット上で利用者装
    置として用いられる請求項19に記載の装置。
  21. 【請求項21】 利用者装置に1又は2以上のデータベースをさらに含む請求項
    20に記載の装置。
  22. 【請求項22】 1又は2以上のデータベースをさらに含む請求項19に記載の
    装置。
  23. 【請求項23】 ネットワーク及び/又はインターネット経由で用いられるデー
    タレコードサービス手段をさらに含む請求項22に記載の装置。
  24. 【請求項24】 請求項10から16までのID 記号及び/又はID 記号を含む1
    又は2以上のデータレコードを記録した保存手段、装置又は媒体。
  25. 【請求項25】 請求項1から9、請求項17又は請求項18のいずれか1項に
    記載の方法を実装したプログラム、及び/又は請求項10から16までのいずれ
    か1項に記載のID 記号を用いるプログラム、及び/又は請求項19から23ま
    でのいずれか1項に記載の装置を制御するプログラムを記録した保存手段、装置
    又は媒体。
JP2001517293A 1999-08-11 2000-08-11 塩基配列及びアミノ酸配列に固有のid記号 Pending JP2003529816A (ja)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
JP11-227438 1999-08-11
JP22743899 1999-08-11
JP28702099 1999-10-07
JP11-287020 1999-10-07
JP33168399 1999-11-22
JP11-331683 1999-11-22
JP2000061630 2000-03-07
JP2000-61630 2000-03-07
JP2000-148339 2000-05-19
JP2000148339 2000-05-19
JP2000-225080 2000-07-26
JP2000225080 2000-07-26
PCT/JP2000/005406 WO2001013268A2 (en) 1999-08-11 2000-08-11 Specific identifiers of amino-acid and base sequences

Publications (2)

Publication Number Publication Date
JP2003529816A true JP2003529816A (ja) 2003-10-07
JP2003529816A5 JP2003529816A5 (ja) 2007-11-01

Family

ID=27554017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001517293A Pending JP2003529816A (ja) 1999-08-11 2000-08-11 塩基配列及びアミノ酸配列に固有のid記号

Country Status (5)

Country Link
US (1) US7164991B1 (ja)
EP (1) EP1316023A2 (ja)
JP (1) JP2003529816A (ja)
AU (1) AU6592600A (ja)
WO (1) WO2001013268A2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049795A1 (en) * 2001-08-21 2005-03-03 Miki Fikuda Biological sequence information reading method and storing method
EP1387292A1 (en) * 2002-07-26 2004-02-04 LION Bioscience AG Method and apparatus for combining data of biological sequences into a non-redundant data source
WO2005124596A1 (en) * 2004-06-18 2005-12-29 Reel Two Limited Data collection cataloguing and searching method and system
US7519636B2 (en) * 2005-03-30 2009-04-14 Sap Ag Key sequenced clustered I/O in a database management system
US8359337B2 (en) * 2008-12-09 2013-01-22 Ingenix, Inc. Apparatus, system and method for member matching

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998052129A1 (en) * 1997-05-15 1998-11-19 Macquarie Research Ltd. Constitutional analysis of protein domains

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2283840B (en) * 1993-11-12 1998-07-22 Fujitsu Ltd Genetic motif extracting method and apparatus
US5802525A (en) 1996-11-26 1998-09-01 International Business Machines Corporation Two-dimensional affine-invariant hashing defined over any two-dimensional convex domain and producing uniformly-distributed hash keys

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998052129A1 (en) * 1997-05-15 1998-11-19 Macquarie Research Ltd. Constitutional analysis of protein domains

Also Published As

Publication number Publication date
EP1316023A2 (en) 2003-06-04
WO2001013268A2 (en) 2001-02-22
AU6592600A (en) 2001-03-13
US7164991B1 (en) 2007-01-16
WO2001013268A3 (en) 2003-04-03

Similar Documents

Publication Publication Date Title
Kim et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype
CN108350494B (zh) 用于基因组分析的系统和方法
Altshuler et al. An SNP map of the human genome generated by reduced representation shotgun sequencing
Delcher et al. Using MUMmer to identify similar regions in large sequence sets
US20120102041A1 (en) Genetic information management system and method
WO2012031033A2 (en) Method and systems for processing polymeric sequence data and related information
US20070027900A1 (en) Id symbol unique to structural formula of compound
JP2006502499A (ja) 個人のゲノムを導出するための方法および装置
Ouellette et al. Database divisions and homology search files: a guide for the perplexed
US20060080296A1 (en) Text mining server and text mining system
US20100299531A1 (en) Methods for Processing Genomic Information and Uses Thereof
JP2003529816A (ja) 塩基配列及びアミノ酸配列に固有のid記号
US20050049795A1 (en) Biological sequence information reading method and storing method
CN117373549A (zh) 一种环境dna物种条形码参考数据库的构建系统及其方法
Bishop Genetic databases
Durand et al. Browsing repeats in genomes: Pygram and an application to non-coding region analysis
US8224585B2 (en) Documenting and presenting mutation observations
Jain et al. An information security-based literature survey and classification framework of data storage in DNA
Sanchez-Villeda et al. DNAAlignEditor: DNA alignment editor tool
Poo et al. UASIS: universal automatic SNP identification system
Salama et al. Automatic annotation of BIND molecular interactions from three‐dimensional structures
Weckx et al. SSHSuite: an integrated software package for analysis of large-scale suppression subtractive hybridization data
JP2002536710A (ja) アラインメント情報の記述及び保存方法
US8364416B2 (en) Information processing system using base sequence relevant information
Dai et al. Dynamic integration of gene annotation and its application to microarray analysis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070831

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090624

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090715

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101102