JP2003529816A - 塩基配列及びアミノ酸配列に固有のid記号 - Google Patents
塩基配列及びアミノ酸配列に固有のid記号Info
- Publication number
- JP2003529816A JP2003529816A JP2001517293A JP2001517293A JP2003529816A JP 2003529816 A JP2003529816 A JP 2003529816A JP 2001517293 A JP2001517293 A JP 2001517293A JP 2001517293 A JP2001517293 A JP 2001517293A JP 2003529816 A JP2003529816 A JP 2003529816A
- Authority
- JP
- Japan
- Prior art keywords
- symbol
- sequence
- array
- data
- symbols
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 125000003275 alpha amino acid group Chemical group 0.000 title claims abstract 3
- 238000006243 chemical reaction Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims description 85
- 108700028369 Alleles Proteins 0.000 claims description 18
- 238000003491 array Methods 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 8
- 101100217298 Mus musculus Aspm gene Proteins 0.000 claims description 4
- 230000006870 function Effects 0.000 description 74
- 150000001413 amino acids Chemical group 0.000 description 44
- 108090000623 proteins and genes Proteins 0.000 description 11
- 102000001554 Hemoglobins Human genes 0.000 description 10
- 108010054147 Hemoglobins Proteins 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 241000894007 species Species 0.000 description 10
- 239000002773 nucleotide Substances 0.000 description 9
- 125000003729 nucleotide group Chemical group 0.000 description 9
- 235000018102 proteins Nutrition 0.000 description 9
- 102000004169 proteins and genes Human genes 0.000 description 9
- 239000000126 substance Substances 0.000 description 9
- 150000007523 nucleic acids Chemical group 0.000 description 7
- 108020004707 nucleic acids Proteins 0.000 description 6
- 102000039446 nucleic acids Human genes 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 241000283153 Cetacea Species 0.000 description 5
- 235000001014 amino acid Nutrition 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 229940079593 drug Drugs 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- NVKAWKQGWWIWPM-ABEVXSGRSA-N 17-β-hydroxy-5-α-Androstan-3-one Chemical compound C1C(=O)CC[C@]2(C)[C@H]3CC[C@](C)([C@H](CC4)O)[C@@H]4[C@@H]3CC[C@H]21 NVKAWKQGWWIWPM-ABEVXSGRSA-N 0.000 description 2
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 2
- 108091005461 Nucleic proteins Proteins 0.000 description 2
- 108700026244 Open Reading Frames Proteins 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001647 drug administration Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- MNZHHDPWDWQJCQ-YUMQZZPRSA-N Ala-Leu-Gly Chemical compound C[C@H](N)C(=O)N[C@@H](CC(C)C)C(=O)NCC(O)=O MNZHHDPWDWQJCQ-YUMQZZPRSA-N 0.000 description 1
- 108020004705 Codon Proteins 0.000 description 1
- 108020004635 Complementary DNA Proteins 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- 101000958041 Homo sapiens Musculin Proteins 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 102000046949 human MSC Human genes 0.000 description 1
- 230000009878 intermolecular interaction Effects 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
するものである。
白質アミノ酸配列の存在が知られるようになり、世界中でそのデータベース化が
進んでいる。多くの場合、新しく見つかった配列には、6文字から10文字程度
の英数字からなるID記号が割り当てられ、配列情報を表わす文字列とともにデー
タベース中に保存される。しかし、配列とは無関係なID記号が、解析者やデータ
ベース作成機関によって機械的あるいは恣意的に配列に付されることが多いため
、同じ配列に異なったID記号が付与されたり、異なる配列に同じID記号が付与さ
れていることも珍しくない。従って、ある配列と同じ配列又は同じ配列に関する
情報が既にデータベース中にあるかどうかを調べる目的には、従来のID記号を信
頼して用いることはできず、膨大な既知配列の一つ一つに対して、数百から数千
の残基を比較する必要がある。
特定する化学構造式と同等な情報である(図1)。配列は一般にこれらの物質
を構成する塩基やアミノ酸の種類と連結順序に関する情報である(本明細書では
「残基」と呼ぶ場合がある)。通常は1つの配列は1つの物質を特定するが、ア
デニンまたはグアニンのどちらかを意味する残基「プリン」を残基の種類の特定
に使うことができるように、一つの配列が複数の物質を特定する場合もある。
は各残基は記述単位として1文字または3文字で記述されている。しかし、表記
法により同じ配列が異なる文字列で表現できる。残基の結合順序に並べた文字列
が配列情報を表している。ある配列を表わす文字列を本明細書では「配列中の残
基の結合順序を表すデータ」とよび、配列中の残基の順番の可能な表現のうちの
一つである。例えば、アラニンとロイシンとグリシンがこの順で連結したアミノ
酸配列を、図1に示すように「AlaLeuGly」と3文字表記法で表記することも
でき、あるいは図1に示すように「ALG」と1文字表記法で表記することもで
きる。これらの文字列は、同じアミノ酸配列の異なる(データ項目という点で異
なる)表現である。
質がある。それらの配列や配列に関連する情報を表わす文字列がデータベースに
蓄えられている。
結合順序を決定できるため、分析者や分析場所に関係なく塩基配列又はアミノ酸
配列が決定され、該配列を表す文字列で表記される。標準表記に変換した文字列
を比較することで、配列の同一性を判定することができる。一般に、配列を表す
文字列はデータベース内のデータレコードに含まれている。異なるデータレコー
ドが同じ配列を含むかどうかは、最終的にはデータレコード内の配列の標準表記
を比較することで判定される。
ーネットを利用して誰でも入手可能である。また公開された特許や文献なども配
列を含んでいるものが多い。これらのデータレコードでは、配列を表す文字列の
ほかに、配列が得られたもとの生物や配列内の区分の定義や該区分の特徴などの
配列に関係する情報がファイル化されている(ここで、「ファイル」とはデータ
レコードの一形態を意味する)。本来配列ごとにユニークに付けられるべきID
記号が、ファイル内の情報全体に対するID記号として使われる傾向がある。こ
れは、配列に固有なID記号を付与する方法がないためである。ここで「ユニー
ク」とは、一対一の対応関係を意味している。「固有なID記号」とは、ユニーク
で整合性のあるID記号のことである。「整合性のある」とは、同一配列のID
記号はすべてのデータベース間で同一でなければならない、ということである。
データベースごとに独立に固有なID記号を付与するのは簡単であるが、すべて
のデータベースで同一配列に同一ID記号を付与するのは困難である。
とである。例えば、同じ配列であっても由来する生物などの情報が異なるために
別々のデータレコードになっている例がある。これは、生物学的には、異なる生
物から同じ配列が見つかったということを意味するため、あえて異なるデータレ
コードに情報の違いを含めているのである。しかし、データレコードにつけられ
るID記号のどれか一つが該配列のIDとして任意に用いられることがよくあるた
め、配列に固有なID記号の必要性は高い。
するcDNAライブラリのクローンのID記号が、該塩基配列を含むデータレコードに
与えられていることがある。ある塩基配列が該クローンから再決定されるのは、
よくあることである。この場合、該データレコードに記録された古い配列が、再
決定された異なる配列に訂正されることがある。つまり訂正前と訂正後のデータ
レコードでは同一ID記号に対する配列が異なることになる。このような訂正が頻
繁になされるため、該ID記号をリファレンスキーとしてその配列に関する情報を
記述することができない。「リファレンスキー」とは配列を特定できる名前又は
キーである。固有なID記号は、通常の場合、リファレンスキーと同じ役割をは
たす。よって、配列に固有のID記号が必要とされている。
のみから配列や配列の一または複数の部分の同一性を判定することはできない。
従って、異なるデータベース間のデータレコードが同一配列に関するものである
ことを確認するには、配列を表す文字列を比較するか、同一配列間の関係を示し
ているリンク情報に頼るしかない。今後、さらに大量の配列情報を含むデータレ
コードが独立したデータベースに登録されるようになることを考慮すると、配列
データそのものから該配列をユニークに特定するID記号を生成する方法を確立し
、全データベース間でID記号の整合性を維持するために全データベースで統一的
に使用される形態が望ましい。
基の結合順序を表すデータを基にして付与する方法を提供することにある。より
具体的には、配列の残基の結合順序を表すデータをもとにして、同一の配列から
は必ず同一のID記号が生成し、異なる配列からは異なるID記号が生成するID記号
の生成方法であって、部分配列の残基結合順序を表すデータを基にして、同一の
部分配列には同一のID記号を生成し、異なる部分配列には異なるID記号を生
成する方法であって、かつ種々の長さの配列に対し一定長の短いID記号を付与で
きる方法を提供することが本発明の課題である。
いられる固有のID記号を提供することにあり、これは短いID記号が配列を表す長
い文字列よりもこの目的のためには便利だからである。さらに、本発明の別の課
題は配列及び/又は部分配列間の関係を記述する固有のID記号を提供することに
あり、これは短いID記号が配列を表す長い文字列よりもこの目的のためにも便利
だからである。
ードの関連性と整合性を保つための、多数のデータベース間で統一的に使用でき
るデータベース統合法;複数のデータベースのデータレコードに含まれる同一配
列や同一部分配列に同一のID記号を付与する方法;同一配列や同一部分配列を含
むデータレコードに同一のID 記号を関連付けする方法;同一配列や同一部分配
列に関連する情報を含むデータレコードに同一のID 記号を関連付けする方法;G
enBankのような機関から汎用ID記号を取ってくるかわりに、データベース管理者
が自ら、大域的に整合性のあるID 記号を生成することができる方法;同じID 記
号をクエリーとして用いて、一以上のデータベースで同一配列や同一部分配列を
含むデータレコードを検索する方法;異なるコンピュータにおいて固有のID 記
号を発生させ、ID 記号に何ら不整合を生じさせることなくインターネットを通
じてコンピュータ間でそれらを送信する方法;を提供することにある。
ての配列を表す文字列よりも、染色体配列全体を一以上の部分に分割し、分割さ
れた各部分又は複数部分の群のそれぞれに本明細書のID記号を付与し、該ID記号
を記述に用いるのが好ましい。ゲノム配列間の多様性を比較するためには、長大
な配列を比較するよりも、これらの短いID記号で比較を行うほうが便利である。
このため、本発明のさらに別の課題は、この目的に使用できるID記号の生成法を
提供することにある。
関係の整合性のとれた記述に用いる固有のID 記号を提供すること;配列、部分
配列、ジェノタイプ及び/又は対立遺伝子に関係する情報の整合性のとれた記述
に用いる方法を提供すること;固有のID 記号を比較するだけで異なるデータレ
コードの情報が同一配列に関するものかどうか判定するのに用いる固有のID 記
号を提供することにある。
空間を気にすることなくインターネットを通して離れたデータベース間でやりと
りできるような、大域的に整合性のあるID 記号を提供すること;異なるウェブ
サイトに記述されたアノテーションを固有のID 記号を比較するだけで簡単に統
合して分かりやすく見ることができるように、異なるウェブサイトでアノテーシ
ョンを記述するのに用いる大域的に整合性のある固有ID 記号の生成方法を提供
することにある。
関数及び/又は汎用一方向性ハッシュ関数などの変換関数を用いて配列の残基の
結合順序を表すデータから配列に固有なID記号を生成し(図1)、該配列に該
ID 記号を付与することにより、上記の課題を解決できることを見出した。
から1種又は2種以上の変換関数を用いて作成した一定長又は可変長の文字数字
列からなる塩基配列、アミノ酸配列及び部分配列に固有のID記号を作成する方法
を提供するものである。
汎用一方向性ハッシュ関数を含む関数を用い、より好ましくはSHA (Secure Hash Algorithm) 又はSHA1などを用いて、文字数字列を生成させる。
についての追加情報を示す文字数字列、獲得の手段、検知方法の種類、それらの
カテゴリーなどをさらに付加したID 記号を生成する上記方法; 上記の生成方法の世代ごとに同じ変換関数を用いて、1又は2以上のデータベー
スのデータレコード間で同一配列や同一部分配列に同一のID 記号を付与する方
法; 複数データベースの同一配列や同一部分配列を含むデータレコードに同一ID 記
号を関連付ける方法; データレコードが配列や部分配列の残基の結合順序を表すデータを含んでいない
複数のデータベース間で、同一配列や同一部分配列を含むデータレコードに同一
のID 記号を関連付ける方法; 上記ID 記号を用いて、配列、部分配列、ジェノタイプまたは対立遺伝子を含む
データレコードを探索する方法;
証明書、報告書、特許明細書、学術文献、公文書、要旨集などを含む書類又は電
子ファイルの検索及び/又は管理の方法、及び/又はファイル群の統合閲覧方法
; ID 記号が配列の固有ID 記号とデータレコードの配列に関連した情報のデータに
基づいて生成され、生成されたID 記号が配列とデータレコードの配列に関する
情報の組み合わせに実質的に固有であるような、配列又は部分配列を含むデータ
レコードに固有なID 記号を生成する方法; ID 記号が配列の固有ID 記号に基づいて生成され、生成されたID 記号が配列及
び/又は部分配列の組み合わせに実質的に固有であるような、複数の配列及び/又
は部分配列のグループに固有なID 記号を生成する方法; 配列データを簡単に特定する情報を用いることなく、比較及び/又は検索に上記
のID 記号のみを用いることで配列の機密性を保持する方法、及びその比較及び/
又は検索のための装置; 配列の残基の順序を表すデータを送信することなく、上記ID 記号を比較及び/又
は検索のためネットワーク及び/又はインターネットを通して送信することで配
列の機密性を保持する方法; も提供される。
同一部分配列を含むデータレコードを検出するために用いる上記のID記号; 配列データベースの管理に用いる上記のID記号; データベース検索のクエリーまたは該クエリーの一部として用いる上記のID記号
; 配列間の関係を記述するために用いられる上記のID記号; 配列に関する情報を記述するために用いられる上記のID記号; シークエンサーやマススペクトルやDNAチップによる測定データから変換される
塩基配列を含むデータレコードに含まれる上記ID記号; 塩基配列又はその相補的塩基配列が少なくとも一部をコードする蛋白質に固有の
上記ID記号;
は対立遺伝子を記述するために用いる上記のID記号; 同一生物種間及び/又は異種生物間の塩基配列の全部又は一部のジェノタイプ又
は対立遺伝子を比較するために用いる上記ID記号; ジェノタイプ又は対立遺伝子を記述し、個体やサンプルの匿名性や機密性を保持
するために用いる上記のID記号; ジェノタイプ又は対立遺伝子の上記のID記号; 個体、個体群、細胞種、臓器、生物種、核酸や蛋白質が抽出可能なサンプルから
得られた塩基配列及び/又はアミノ酸配列に対応するジェノタイプ又は対立遺伝
子の上記ID記号; 薬物投与を含む治療法の有効な対象及び/又は無効な対象及び/又は効果に違い
の認められる対象としての個体や個体群のデータレコードに関連付けされたジェ
ノタイプを示すための上記ID記号;
証明書、報告書、特許明細書、学術文献、公文書、要旨集などを含む書類又は電
子ファイルに含めるための上記ID記号; 実験記録、臨床試験記録、カルテ、薬剤の添付文書、申請書、通知書、診断書、
証明書、報告書、特許明細書、学術文献、公文書、要旨集などを含む書類又は電
子ファイルの検索及び/又は管理に用いるための上記ID記号; データレコード中の配列に固有のID記号と該配列に関連した情報のデータに基づ
いて生成され、データレコード中の配列と配列に関連した情報の組み合わせに実
質的に固有である、配列又は部分配列を含むデータレコードに固有のID記号; 配列のID記号を(例えば昇順に)並び替え、該ID記号を順次連結して生成した文
字列をある変換関数で固定長のID記号に変換することにより生成した複数配列群
に固有のID記号; が提供される。 これらのID記号は、光ディスク、磁気ディスク、メモリーなどの媒体に保存され
ていてもよい。 また、上記の方法を実装したコンピュータプログラムを記録した媒体; 及びデータレコード内及び/又はデータレコード名内に上記ID記号を含むデータ
レコードも提供される。
証明書、報告書、特許明細書、学術文献、公文書、要旨集などを含む書類又は電
子ファイルの検索及び/又は管理に用いるための上記装置; データレコードを見るために用いられる、及び/又はネットワーク及び/又はイ
ンターネットの利用者用装置として用いられるブラウザをさらに含む上記装置;
利用者用装置にローカルデータベースをさらに含む上記装置; 1又は2以上のデータベースをさらに含む上記装置; ネットワーク及び/又はインターネット上で動作するデータレコードサービス手
段をさらに含む上記装置; これらのファイル群の統合閲覧装置; 上記装置で用いるためのコンピュータプログラムを記録した媒体;
バーコードの出力及び/又は入力装置; キーボードやバーコードからの入力ミスを検出できるようにチェックサムなどの
文字をさらに付加した上記のID記号、及びこれを利用して入力ミスを検出するた
めの装置; 上記の比較及び/又は検索に用いる利用者用及びサーバー装置; 上記ID記号が含まれる印刷物、ファイル、レコード、データオブジェクト、ファ
イル名、ファイルパス名、アドレス、アンカータグ、それらを記憶するための手
段、又はそれらをID記号を使用して検索するための装置; 上記ID記号を入力するための装置、該ID記号を読み取るための手段、該ID記号を
記憶するための手段、該ID記号を出力するための装置、及び該ID記号を送信する
ための装置; 細胞内における蛋白間相互作用をコンピュータでシミュレートする際に物質のID
記号として上記ID記号を利用するプログラムモジュール、シミュレーションで
物質の役割を果たすプログラムモジュールのID記号として用いる上記ID記号、及
びシミュレーションで分子間相互作用を定義するために用いられる上記ID記号;
閲覧したデータレコードに含まれる配列を表す文字列からID記号を直接生成し、
該ID 記号に関連する他のデータレコードを検索することができる、データブラ
ウザあるいは単なるブラウザ;及び 上記ID 記号のいずれか1つを記録する媒体; が提供される。
なるデータのまとまり、検索の対象となるデータオブジェクト、データアイテム
、ファイル、リレーショナルデータベースのレコード、オブジェクト指向データ
ベースのオブジェクト、書類オブジェクトモデルのノード、XMLなどのようなマ
ークアップ言語で用いられるタグで囲まれたセクションである(図2)。「デー
タベース」とは、例えば、リレーショナルデータベース、オブジェクト指向デー
タベース、ファイルシステム、ファイルサーバ、インターネット情報サーバなど
のように1又は2以上のデータレコードを管理する装置で、要求に応じてデータ
レコードを提供できるものを意味している。図2において、データレコードに含
まれる情報は、配列を表す文字列、配列、ID 記号、あるいはデータレコードに
付加された情報に関連する情報でもよい。「データレコードサービス手段」とは
データレコードの形で情報を提供するデータベースあるいは装置である。「配列
データベース」とはデータレコード群の一部または全部が配列及び/又は部分配
列を含むデータベースをいう。図3に示すように、「配列を含むデータレコード
」とは、配列を表す文字列を含むデータレコード、配列に関連する情報を含むデ
ータレコード、配列のID 記号を含むデータレコード、配列を含む他のデータレ
コードのID 記号を含むデータレコードである。「部分配列」とは、配列の1つ
の部分又は複数の部分を順に結合して作られる配列のことであり、各部分は配列
中の起点と終点を示す残基の順番などの番号により特定される(例えばGenBank
ファイルの"Features"セクションに見られる番号など)。つまり、「部分配列」
は一つの配列であり、配列を表わす文字列と該配列中で部分配列を特定する情報
から生成される。
りアクセスできるようにすることであり、該ID記号をクエリーとして探索が可能
か、ID 記号が含まれるようにすることである。データレコードのID 記号とロー
カルID 記号とを対応付けることで、ID 記号はデータレコードと関連付けられる
。「ローカルID 記号」は「データベース中でのみ用いられるデータレコードの
一次キーあるいは参照キー」又は「ファイルシステム中でのみ用いられるパス名
及びファイル名」でもよい。例えば、配列を含むデータレコードにローカルID
記号がすでに関連付けられている場合(図4)は、ローカルID 記号と該配列
の固有ID記号(図4で「固有ID」としている)の対応表及び/又はもとのデー
タレコードの配列の「固有ID」を含むデータレコードが好ましい態様として提供
される。データレコードに複数の配列がある場合は、各配列の「固有ID」が該デ
ータレコードに含まれていてもよく(図4)、及び/又はそのグループを表す
ID 記号が提供される(図4)。「配列へのID記号の付与」とは、ID 記号と配
列間の一対一の対応を定義することを意味する。
変換関数を用いて一定長又は可変長、好ましくは一定長の文字数字列からなるID
記号を生成する工程を含んでおり、以下の特徴を有している。 (1)同一配列からは同一のID記号が生成されること。 (2)異なる配列からは同一のID記号が生成される可能性が極めて低いか実質的に
ゼロであること。 (3)ID記号は一定長又は可変長、好ましくは一定長の文字数字列又はビット列、
好ましくは英数字列からなる記号として生成されること。 (4)生成方法が容易であること。
字、漢字、ひらがな、カタカナ、ハングル文字など、世界中で使用されている文
字及び/又は数字からなるものであり、これらの文字や数字のほか、@、→、¥
、&、$などの記号やコンピュータのキャラクターコードで表されるいかなる文
字を含んでいてもよい。例えば、アルファベット文字列、アルファベットとアラ
ビア数字からなる英数字列などを代表例として挙げることができる。文字数字列
は、ASCII,UNICODEなどのキャラクターコード表を用いてコンピュータでビット
列又はバイト列に変換されるのが好ましい。これらは紙やバーコードに印刷され
た形式で記録される場合などもある。また、文字や数字を表記するビットマップ
として記録される場合もある。いずれの形態にせよ、記録の態様は限定されない
。また、「変換関数」とは入力データに対してあるアルゴリズムを実行して出力
データに変換するものである。変換関数には適切なコンピュータプログラムを用
いることが好ましい。
ましくは衝突困難ハッシュ関数及び/又は汎用一方向性ハッシュ関数を挙げるこ
とができる。もっとも、本発明の方法に用いる変換関数としては、衝突困難性及
び一方向性、好ましくは衝突困難性が数学的に厳密に証明されている必要はなく
、実際上、上記の特徴を満足する変換結果を与える関数であればいかなるものを
用いてもよい。
より導入された関数であり、関数 hとその定義域のある値x が与えられた場合に
h(x)=h(y)となるようなyを求めることが難しいような関数のことである。一方、
衝突困難ハッシュ関数(collision intractable hash function)はDamgardにより
導入された関数であり、関数hが与えられた場合に、h(x)=h(y)となるような一対
の値(x, y) を求めることが難しいような関数のことである。
よりも強い(ハッシュ関数について、総説として、岡本龍明、山本博資 著:『
シリーズ / 情報科学の数学 現代暗号』 産業図書;岡本栄司 著:『暗号理論入
門』 共立出版株式会社などを参照のこと)。本明細書において、ハッシュ関数
、特に衝突困難ハッシュ関数又は汎用一方向性ハッシュ関数は最も広義に解釈す
る必要があり、いかなる意味においても限定的に解釈してはならない。本発明の
方法には、衝突困難ハッシュ関数又は汎用一方向性ハッシュ関数に分類される関
数はいずれも使用可能である。
れた多くのハッシュ関数が提案されている。RivestによるMD-4, MD-5やそれらに
基づくRIPEMD, SHA(secure hash algorithm)などが広く使用されている (Meneze
s, A. J., van Oorschot, P. and Vanstone, S. A.: Handbook of Applied Cryp
tography, CRC Press, 1996)ので、このような関数を本発明の方法に用いてもよ
い。2種以上の異なる変換関数、例えば2種以上の衝突困難ハッシュ関数及び2
種以上の汎用一方向性ハッシュ関数を組み合わせて用いてもよい。また、例えば
1種又は2種以上の衝突困難ハッシュ関数と1種又は2種以上の汎用一方向性ハ
ッシュ関数とを適宜組み合わせて処理することも可能である。本発明の方法には
SHA又はSHA1を単独で用いることが特に好ましいが、使用する関数及びそれらの
組み合わせは、生成するID記号の衝突可能性を十分に下げるように、当業者が適
宜選択可能である。
ムを紹介するが、本発明の方法に利用可能な変換関数はSHAに限定されることは
ない。なお、この例では、ハッシュ関数の処理により生成するハッシュ値である
文字数字列は、英字の小文字と数字の組み合わせにより表現されているが、文字
は英字の小文字に限定されることはない。また、より衝突困難性が高く、高速な
ハッシュ法をSHAの代用としてもよい。例えばSHAの改良型であるSHA1を使用して
も良い。
ビット配列「m」に変換する方法は後述)。 *出力データ 「m」に対して160ビットのハッシュ値を生成する。 入力されたビット列「m」が512ビット(16×32ビット)の倍数になるようにパ
ディングを以下の手順で行う。 手順1)m のビット配列長が‘512N−64’となるように、「m」の最後にビッ
ト配列100…0を付加する。 Rf.) "|m|": [m] のビット配列長 N = (|m| + 64) / 512 手順2)入力配列のビット配列長を64ビットで表現し、さらにビット配列の後ろ
に付加する。
によりハッシュ値を計算する。
・・, W15 のようにラベルされ、W0 は一番左のブロックである。 (2)
回転シフト:ビット列がある方向に1ビットスライドされ、片端の文字は反対の
端へ動かされる
る。
基配列またはアミノ酸配列の最初の表現の、上記のSHAの入力データであるビ
ット配列[m]への変換手順を以下に説明する。最初の表現では、配列の残基を表
す文字数字列は様々な表記法で表されることがある。「標準化処理」は、最初の
表現を残基の文字と配列中の順序が一意に表される「標準表現」に変換する。例
えば、塩基配列又はアミノ酸配列をビット配列に変換する方法を次に説明する。
塩基配列は各核酸を1文字(例えばA, T, G, Cなど)で表記し、順番に並べられ
、アミノ酸配列としては、同様に各アミノ酸を1文字で表記して順番に並べた文
字列を用いて表す。小文字は大文字又に変換する。「順番に並べる」とは、核酸
およびアミノ酸を意味しないスペースやハイフンなどの文字を取り除き、配列内
での各核酸およびアミノ酸の連結順序が文字の順序と同じになるように処理する
ことを意味する。以上により配列を表す文字列が標準化される(図5)。引き
続き図5の処理を行う。英数字1文字はASCIIコードにより8ビットの情報に変
換できるため、文字列の順で各文字を8ビットに変換して並べたビット配列を作
成できる。本明細書の実施例ではこの方法を使用しているが、文字コードをビッ
ト配列に変換する際、ASCIIコード以外の変換コードを使用してもよい。このよ
うにして、同一配列の最初の表現は、配列の最初の表記法にかかわらず、同一の
ビット配列に変換される。そして、そのビット配列はSHAにより160ビット
列に変換される。なお、ビット配列とは1ビットの情報を並べたものである。1
ビットは2進数の1桁に対応し0または1で表現される。ASCIIコードを用いた場
合、264ビット未満というSHAの条件は文字数にして約2×1018未満というこ
とになり、現実の塩基配列やアミノ酸配列を表現するには十分な長さである。
の処理で得られる結果)を該配列のIDとして利用するには、このビット列を英
数字で表現できるよう、必要なビット数に分割すればよい。160ビットを5ビッ
トずつに分解し、各5ビットを0, 1, 2, 3, 4, 5, 6, 7, 8, 9, a, b, c, d, e,
f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v の32文字のひとつに対応
させて表現する(図5)。
。160ビット列は5ビット毎に分割され、5ビット列は整数あるいは文字に変換さ
れる。
数字列がハッシュ値として得られる。
例えば、ID記号が配列を示すことを意味する情報、アミノ酸配列又は塩基配列な
どを区別するための情報、塩基配列が含まれる染色体の番号及び位置、生物種、
SNPの部位など)やID記号の作成方法の種類を表わす情報(例えば、利用した
変換関数の種類などを表わす情報)などを付加するため、さらに固定長の1又は
2以上の文字数字列、好ましくは英数字列を付加して新たなID記号としてもよい
(図5)。付加する文字数字列は変換関数を適用して得られた上記のハッシュ
値としての文字数字列の先頭又は末尾など、いかなる部分に配置してもよい。好
ましくはハッシュ値の先頭に3以下の文字及び/又は数字列を付加するのがよい
。
、塩基配列中のオープンリーディングフレーム部分またはエキソンのみに適用し
て蛋白質をコードする部分配列/複数部分配列へ付与するID記号を生成させるこ
とが可能になり、その塩基配列によりコードされる蛋白質のID 記号を作成する
ことも可能である。後者の場合はオープンリーディングフレームからコドン表を
利用してアミノ酸配列に変換する工程が必要である。
に用いることができる。また、配列に関する情報を管理する場合にも用いること
ができる(図6)。上記ID記号は各配列に固有であり、しかも衝突の可能性が極
めて低いため、複数の配列を本発明の方法で処理して配列を表す文字列からID記
号を生成させ、そのID記号を比較することによって配列の同一性を簡便かつ高速
に判定することができる。例えば、上記ID記号を用いて、複数の配列データベー
スのデータレコードに含まれている特定の配列と同一の配列を検索することがで
きる。また、データベース中の配列について上記のID記号を生成し、配列データ
ベース中に重複して含まれる配列を検出することができる。あるいは配列データ
ベースの上記ID 記号を用いて異なる配列データベース間で重複して登録され
ている配列あるいは異なるデータベースに重複して登録されている同一配列を簡
便かつ高速に検出することが可能になる。また、新しい配列情報を含むデータレ
コードをデータベースに登録する際に、すでにその配列が登録されているもので
あるかどうかを簡便に検索することが可能になる。上記の目的のため、好ましく
はリレーショナルデータベース、オブジェクト指向データベースあるいはファイ
ルシステム、より好ましくはリレーショナルデータベースが適用される。そして
、上記ID 記号は、リレーショナルデータベースのデータレコードに含まれる
配列の一次キー又は固有のリファレンスキーとして好適に用いられる。さらに、
配列比較のためにID記号のみを公開する。配列の連結順序を表すデータは公開し
ないことで配列データの機密性を守ることも可能である。また、上記のID記号を
使用して、配列データベースを簡単に作成して維持することができる。例えば、
上記のID記号を使用して配列間の関係を表し、配列に関する情報を表し、データ
レコードに含まれる配列の上記固有ID 記号によりデータレコードを検索し、
上記ID 記号をデータレコードと関連付けてデータベースを管理できる。
に同一のIDが付されて関連性と整合性が保たれることを容易に実現可能である。
もしそれらが複数配列間で統一的に使用されれば、データベース間のデータレコ
ードに含まれる同一配列に同一ID 記号を付与することで関連性と整合性が保
たれる。また、ゲノムの一部あるいは全体の記述を目的とし、ゲノムの染色体の
塩基配列全体を1以上の部分に分割し、分割された部分配列それぞれを短いID記
号に代表させて記述することが可能になる。これらのID記号を比較することで、
同一生物種間及び/又は異種生物間の多様性を長大な配列を直接比較するよりも
簡便に比較することが可能となる。また、配列間の関係を表現する目的にも使用
することができる。例えば、アラインメント情報の保存方法(特願平11−15
189号明細書)を実施するにあたり、配列のID記号として用いるのが効果的で
ある。
ることができる。ジェノタイプとは、同一生物種間及び/又は異種生物間のゲノ
ムの塩基配列の全部又は一部もしくは部分群の多様性を記述したものであり、注
目する部分の塩基配列の同一性を反映する記号である。核酸や蛋白質が抽出可能
なものである個人、個人群、個体、個体群、細胞種、臓器種、生物種、サンプル
などのジェノタイプとして、注目する部分の塩基配列又は塩基配列群の残基の連
結順序を表すデータから生成される該ID記号を使用することができる。
結した配列をもとに生成したID記号(図7)をジェノタイプ、対立遺伝子又は
複数集合として用いてもよいし、各部分配列のID記号の複数集合(図7)をジ
ェノタイプとして用いてもよい。また、それら複数のID記号をID記号の昇順ある
いは降順により並べて連結した文字列(図7)を変換関数により固定長にした
もの(図7)をジェノタイプ、対立遺伝子又は複数集合のID記号として用いて
もよい。さらに1文字以上の文字列をさらに付加したものをジェノタイプ、対立
遺伝子又は複数集合のID記号として用いてもよい。
の見られる対象、となる個人、個人群、個体、個体群のジェノタイプをあらわす
記号としても用いることができる。このID記号をジェノタイプとして用いること
で、個人や個体やサンプルの匿名性や機密性を守る目的にも使用できる。実験記
録、臨床試験記録、カルテ、薬剤の添付文書、申請書、通知書、診断書、証明書
、報告書、特許明細書、学術文献、公文書、要旨集などを含む書類においてジェ
ノタイプを記述する目的にも使用できる。
実施例に限定されることはない。 例1 ヒト、クジラ、ラットのヘモグロビンのアミノ酸配列を含むデータレコードを下
記に示す。 データレコード 1: ヒト 1 GLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLK 51 SEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIP 101 VKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELG 151 FQG データレコード 2: クジラ 1 VLSDAEWQLVLNIWAKVEADVAGHGQDILIRLFKGHPETLEKFDKFKHLK 51 TEAEMKASEDLKKHGNTVLTALGGILKKKGHHEAELKPLAQSHATKHKIP 101 IKYLEFISDAIIHVLHSRHPGDFGADAQAAMNKALELFRKDIAAKYKELG 151 FQG データレコード 3: ラット 1 GLSDGEWQLVLNVWGKVEGDLAGHGQEVLIKLFKNHPETLEKFDKFKHLK 51 SEDEMKGSEDLKKHGNTVLTALGGILKKKGQHAAEIQPLAQSHATKHKIP 101 IKYLEFISEAIIQVLQSKHPGDFGADAQGAMSKALELFRNDIAAKYKELG 151 FQG
である。 ヒトのヘモグロビン配列の標準表現 GLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTAL
GGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMAS
NYKELGFQG クジラのヘモグロビン配列の標準表現 VLSDAEWQLVLNIWAKVEADVAGHGQDILIRLFKGHPETLEKFDKFKHLKTEAEMKASEDLKKHGNTVLTAL
GGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSRHPGDFGADAQAAMNKALELFRKDIAA
KYKELGFQG ラットのヘモグロビン配列の標準表現 GLSDGEWQLVLNVWGKVEGDLAGHGQEVLIKLFKNHPETLEKFDKFKHLKSEDEMKGSEDLKKHGNTVLTAL
GGILKKKGQHAAEIQPLAQSHATKHKIPIKYLEFISEAIIQVLQSKHPGDFGADAQGAMSKALELFRNDIAA
KYKELGFQG
関数はSHAを含む。ID 記号は以下のとおりである。 ヒトヘモグロビン agtiu9e70upqugdqp895bgesc3ops288 クジラヘモグロビン c21tv2116bjcuj1crtd6r23tm984n74i ラットヘモグロビン 1582i4737s9vkd4cd8mfcug8rq19cqal
なアミノ酸配列とDDBJ(1999年で入手可能なすべてのデータ)の4,700,000のユ
ニークな塩基配列についてID 記号を生成し、ID 記号の衝突が全く生じなかった
ことを確認している。
文字「SCD」を付加した。 ヒト ヘモグロビン SCDagtiu9e70upqugdqp895bgesc3ops288 クジラ ヘモグロビン SCDc21tv2116bjcuj1crtd6r23tm984n74i ラット ヘモグロビン SCD1582i4737s9vkd4cd8mfcug8rq19cqal
。これらのID記号を組み合わせることは、例1のID 記号より衝突確率が極めて
低いという特徴を有している。上記のヒトの配列に対し2種類のハッシュ関数を
適用して、ハッシュ値として 「agtiu9e70upqugdqp895bgesc3ops288」と 「cd8mfcug8rq19cqalcd8mfcug8rq19al」 をえた。これらを連結して、本発明のID記号として 「agtiu9e70upqugdqp895bgesc3ops288cd8mfcug8rq19cqalcd8mfcug8rq19al」 を生成させた。
を示す数文字「SCD」を先頭に付加した以下のID記号を生成した。 「LSCDagtiu9e70upqugdqp895bgesc3ops288cd8mfcug8rq19cqalcd8mfcug8rq19al」
このID記号と1種類のハッシュ関数を用いて生成させた 「SCDagtiu9e70upqugdqp895bgesc3ops288」 とを比較すると、先頭の文字列だけからID記号の生成方法の違いを知ることがで
き、しかもこのID記号がアミノ酸配列に関するものであることが分かる。
up Language)のフォーマットに基づき作成された以下に示す3つのファイル(
データレコードに対応)がある。 ファイル1の内容は、次の2行である。 <sequence id="SA1c7isymyeju52cep94q8f01p4vd5y37fu">EDLQGDAVPETSATKDDNEXP
EMIPM</sequence> 及び <sequence id="SA1gptg04a3tskj0s8u604h0cme86yqiufd">DDLQGTAVQERSAKASDEEEA
IRTLL</sequence>
sequence>から</sequence>で囲まれた文字列は配列を表す文字列である。<seque
nce>タグの中に挿入したid="…"はタグで囲まれた文字列で表されたアミノ酸配
列に固有のID記号が存在することを示す。つまり、 EDLQGDAVPETSATKDDNEXPEMIPM の文字列で表されるアミノ酸配列に固有のID記号は SA1c7isymyeju52cep94q8f01p4vd5y37fu であり、 DDLQGTAVQERSAKASDEEEAIRTLL の文字列で表されるアミノ酸配列に固有のID記号は SA1gptg04a3tskj0s8u604h0cme86yqiufd となっている。
である。<name>タグの中に挿入したid="…"はタグ内の名前が対応するアミノ酸
配列のリファレンスキーである(ここでID記号は<name>から</name>のセクショ
ンに関連付けされている)。つまりファイル2の情報は、 ProteinA の名前が対応するアミノ酸配列に固有のID記号は 「SA1c7isymyeju52cep94q8f01p4vd5y37fu」 であることを表しており、ファイル3の情報は ProteinB の名前が対応するアミノ酸配列に固有のID記号は 「SA1gptg04a3tskj0s8u604h0cme86yqiufd」 であることを表している。
3はデータベース2内に存在している。データベース検索には閲覧装置が利用で
きる。この閲覧装置は一方のデータベースからファイルを読み込んだ際に、該フ
ァイル内に配列に固有のID記号が含まれていた場合には、他方のデータベースに
対し自動的にそのID記号をクエリーとして検索を行い、該ID記号が含まれるファ
イルが見つかればそれも読み込むように作られている。データベース1とデータ
ベース2と閲覧装置は同一場所又は互いに離れた場所に存在し、互いにネットワ
ーク又はインターネットで結ばれている(図8)。
検索を行ったところ、ファイル2が検索結果として得られた。閲覧装置はファイ
ル2内に配列に固有のID記号である 「SA1c7isymyeju52cep94q8f01p4vd5y37fu」 が含まれていたため、このID記号でデータベース1を自動的に検索した。その結
果ファイル1が検索結果として得られた。ファイル1には別の配列に固有のID記
号である、 「SA1gptg04a3tskj0s8u604h0cme86yqiufd」 が含まれていたため、引き続き、このID記号でデータベース2を自動的に検索し
た。その結果ファイル3が検索結果として得られた。以上の結果、ファイル1、
ファイル2、ファイル3が閲覧装置内に読み込まれた。
をまとめあげて表示した。 (1)それらのファイルにおいて、タグ中のid="…"で記述されたID記号をタグ間で
比較。同一のID記号を含むタグに囲まれた文字列は同一の配列に関する情報であ
ると判定。 (2)同一の配列に関する情報を行方向にならべ、タグ名を列方向に並べて、表形
式でデータを表示。 以上の結果として図8に示す表が閲覧装置により表示された。このシステムの
データベース数は2に限定されず、2以上も可能である。
クトを以下のように作成する。 「SA1c7isymyeju52cep94q8f01p4vd5y37fuAA1001」 というIDを作成した。 Set dictionary = CreateObject("Scripting.Dictionary") dictionary.Add "SA1c7isymyeju52cep94q8f01p4vd5y37fu","AA1001"
。このため、それら「遺伝子」をコードする塩基配列やその翻訳産物である蛋白
質のアミノ酸配列について様々な予測結果や実験結果が関係情報として付加され
ていくようになる。この関係情報はアノテーションとよばれることもある。「ア
ノテーションサービスプロバイダー」のビジネスモデルを説明する。これら遺伝
子機能の推定のアノテーションを提供するためとして図9に示す構成のシステム
を作成した。図9において、「利用者用装置」はある遺伝子の配列について情報
を得ようと望んでいる者がその目的で使用する装置であり、インターネットを通
じてその配列を表す文字列を1つ以上の「関係情報提供装置」に暗号化して送る
ことができる。「関係情報提供装置」は受け取った配列情報について機能を予測
したり、データベース検索を行ったりして、該配列に関係するアノテーションを
生成し、情報利用者にその内容を返却ファイルとして送り返す。「利用者用装置
」は返却されたファイルの内容を利用者に対して表示することで、該配列に関係
する情報を知らせることができる。「利用者用装置」は利用者に返却されたファ
イルに含まれるアノテーションを表示する。「利用者用装置」は専用のデータベ
ースに接続されており、ここにはこれまでに返却ファイルとして受け取った情報
が蓄積されている。「利用者用装置」は新たに返却されたファイルの内容が専用
データベース内に存在していなければ、新規な情報であることを閲覧時に利用者
に対して知らせることができる。「関係情報提供装置」は1又は複数存在する。
「関係情報提供装置」は、システムのデータレコードサービス手段である。
「関係情報提供装置」に送信する(図11-F111)。この場合、文字列(S)は、
「EDLQGDAVPETSATKDDNEXPEMIPM」である。「関係情報提供装置」は文字列(S)
を受け取ると(図10-F101)、該配列の機能を予測したりデータベース検索を
行うなど通常の検索手段や予測プログラムを起動する。その結果、該配列に関す
る情報を生成する(図10-F102)。その結果を該配列に「発見」として文字列に
表す。ここでは次の2つの発見 (R1), (R2)が生成された。 「シグナルペプチド」 (R1) 「文献Xに記載されている」 (R2)
10-F103)。(T)は 「SA1c7isymyeju52cep94q8f01p4vd5y37fu」 (T) である。 図10-F104(T)と各発見(R1)、(R2)を連結した文字列は、 「SA1c7isymyeju52cep94q8f01p4vd5y37fuシグナルペプチド」 (T-R1) 「SA1c7isymyeju52cep94q8f01p4vd5y37fu文献Xに記載されている」(T-R2) である。
組み合わせにユニークである。上記文字列(T-R1)と(T-R2)から衝突困難ハッ
シュ関数で文字列を生成すると該配列と発見の組み合わせに実質的にユニークな
ID記号となる。このようにして(T-R1)、(T-R2)それぞれに対して生成されたID
記号 (U1),(U2)は 「d92fe7v6qfdqnihh8prdg7b73f75b56u」 (U1) 「1bdr3kabuhbnghvx5arp8xe8uas22xqc」 (U2) である。
号は、配列のID 記号と<INFORMATION>と</INFORMATION>の間の文字列であるデー
タレコードの配列に関係したすべてのデータに基づいて生成され、生成されたID
記号は配列とデータレコードの配列に関係したデータの組み合わせに実質的に
ユニークである。「配列に関連したすべてのデータ」は、データレコードの形式
により,複数の部分から成っていることもある。
格納する順序はこの実施例に限定されることはない。文字列(S)などさらに他
の情報を格納してもよい。また上記のフォーマットに限定されることもない。
-F106)。「利用者用装置」はこのファイルを受け取り(図11-F112)、それら
の関係情報を利用者に提示する。また、それぞれの<RESULT>タグの中のid属性に
記述されたID記号(U1)と(U2)が「専用データベース」内にこれまでに蓄積さ
れたものの中に存在するか調べる。もし存在しなければその内容が、利用者にと
って新規な情報であることを「利用者装置」が表示する。そして、その関係情報
を「専用データベース」内に保存する。 また、異なる複数の「関係情報提供装置」から返却された複数のファイルの中に
同一の関係情報があるかどうかを上記のID記号が同一かどうかで判定することも
できる。
ベース」から送られてきた各ファイルから、配列ID記号に基づいて同一配列に関
する情報の同一性から判断してまとめて表示することができる。まとめたファイ
ルを利用者が理解できる表示にするため、「利用者装置」は同一配列に関する情
報を同一の列または行にならべてテーブル形式で表示する。本発明のID記号生成
方法によることで、独立した複数の「関係情報提供装置」で配列のID記号が生成
されても、同一配列には同一のID記号を付与することが可能であり、この特徴は
上記ビジネスモデルに必須の機能である。この例の返却ファイルで、配列のID
記号は、配列に関する情報の表示に用いられる。
ステムを図12に示す。
コードのローカルID(図12中、LocalID1,LocalID2 等)はこのデータベースシ
ステムの内部でローカルに用いられている。データ検索システム内には、配列に
固有のIDとローカルIDの対応テーブルがある。そしてこの対応づけはシステムの
管理者により、変更、追加、削除可能になっている。また、システム内にはデー
タレコードをローカルIDで管理する1以上のローカルデータベースが存在し、ロ
ーカルIDをシステムの「検索装置」によるクエリーとして用いることによりデー
タベースのデータレコードを検索することが可能である。「検索装置」と「ID間
の対応テーブル」と「ローカルデータベース」は物理的に同一あるいは互いに離
れた場所に存在してもよく、その間の通信はネットワークやインターネットを経
由して行われてもよい。また、ID間の対応テーブルの管理者とローカルデータベ
ースの管理者は異なっていてもよい。ID間の対応テーブルは、固有IDからそれに
対応づけられたローカルIDを検索できれば、いかなる手段をもちいてもよい。固
有IDとローカルIDの対応は多対多であってもよい。
検索クエリーを該システムの「レコード検索装置」に送る(図12)。まずレ
コード検索装置は該固有IDに対応づけられたローカルIDをID間の対応テーブルか
ら検索する(図12)。次に該ローカルIDを使って「レコード検索装置」はロ
ーカルデータベースから該ローカルIDがついたデータレコードを検索する(図1
2)。最後に「レコード検索装置」は該データレコードを検索者に送り返す。
別の方法としては、リレーショナルデータベースの「閲覧」関数を用いて、ID間
の対応テーブルとローカルデータベースのテーブルを予め融合しておけば、と
の検索を一括して行うことも可能である。ファイルシステムをローカルデータ
ベースとして用いることで、ローカルIDはローカルファイル名となることも可能
である。
検索する時点でID間の対応テーブルにより対応づけられているローカルIDのデー
タレコードを検索することができる。データベースシステム管理者は対応テーブ
ルの対応を変更、追加、削除した際に、固有IDとローカルIDの対応を適切なもの
に変更することで、検索者が要求する配列に対し、常に適切なデータレコードを
送り返すように設定できる。
ローカルデータベース内に存在しなくなった場合は、データレコードの代わりに
それについての訂正情報を検索者に対し送り返すように設定できる。また、検索
者はネットワークやイントラネットを経由して図12に示したデータベースシス
テムの複数に対し同じ固有のIDをクエリーとして同時に送ることで、同時に複数
のデータベース検索をすることも可能である。本発明により、システムの管理者
は自ら、システムのデータレコードに含まれている配列に大域的に固有なID 記
号を生成することができる。しかも、それらはGenBankのような特定の機関によ
るものではない。本発明により、検索者は検索したい配列の固有のID 記号を自
ら作成することができる。
タを閲覧するための装置である。データベース1は配列を含むデータレコードを
提供するサーバーであり、任意のデータサイトであってもよいし、例えば、NCBI
やEBIやDDBJなどのデータレコードを公開しているインターネット上のサイトで
あってもよいし、ファイアーウォール内のネットワークで繋がれたサイトであっ
てもよい。「データブラウザ」は「固有ID記号作成手段」を備えており、以下の
処理手順を自動的に実行する。 「データブラウザ」はデータレコードの閲覧要求をデータベース1(インター
ネット上のサーバーを経由してもよい)に送信し、 要求したデータレコードを「データブラウザ」内に読み込む。 読み込んだデータレコード内に塩基配列及び/又はアミノ酸配列を表す文字列
が含まれている場合、データブラウザが備えた「固有ID記号作成手段」によりそ
の文字列から該配列に固有のID記号を生成する。GenBankに登録されている塩基
配列のファイルの「FEATURE」セクションのように、該配列内の領域を指定する
情報が存在する場合は、さらにその部分配列について配列に固有のID記号を生成
する。
後、他のデータベース2に対し、該ID記号を含むデータレコードを該ID 記号を
クエリーとして送り検索する。データベース2はデータブラウザの存在する装置
内に存在しても、ネットワークを経由して別のコンピュータ上に存在しても、ま
たインターネットを介して離れたところにあるコンピュータ上に存在してもよい
。またデータベース2に加え、データベース3に対して同じ検索要求を並列的又
は直列的に出してもよい。ここでデータベースの数は限定されない。 検索結果として「データブラウザ」は新しいデータレコードを内部に読み込む
。 「データブラウザ」はこれまでに読み込まれたデータレコード内のデータをも
とにユーザにわかりやすく表示する。これらデータを統合して表示することもで
きる。 上記で読み込まれたデータレコード内に本発明のID記号が含まれている場合
、または配列を表す文字列がある場合や配列を表す文字列に加えその領域を指定
する情報がある場合は、と同様に新たに「データブラウザ」の機能によりID記
号を生成して、、、を適宜回数繰り返すことができる。自動的に繰り返す
場合は最後のみの処理を行うようにすることもできる。
ータであってもよい。また、「インターネットエクスプローラ」や「ネットスケ
ープナビゲータ」のような汎用のブラウザと、該機能を汎用ブラウザに適時付加
する手段を用いてもよい。適時付加する手段として「プラグイン」、「Javaアプ
レット」、「ActiveX」などの仕様を用いたソフトウエアを用いることが可能で
あるが、他の同様の仕様であってもよい。データブラウザにユーザを認証するた
めの手段や該固有IDを用いて検索する対象のデータベースを複数設定するための
手段を設けてもよい。また、データレコードのフォーマットが変更された場合に
それに対応できるように、配列を表す文字列をデータレコードから抽出するため
のモジュールをネットワークを介して随時アップデートできるようにしておくこ
ともできる。この「データブラウザ」により、配列に固有のID記号がつけられて
いないデータを閲覧する場合でも、固有のID 記号を「直接」生成することがで
き、これが本明細書において「ID 記号の直接生成」の定義である。また該ID記
号をクエリーとして用いて、別のデータベースを自動的に検索することができ、
そこで得られた情報を、「データブラウザ」を閲覧中のユーザーに伝えることが
できる。この「データブラウザ」の機能により、配列データを公開しているイン
ターネット上の様々なサイトを「該ブラウザ」で閲覧時に、閲覧中の配列に関連
する情報があるかどうかを知ることができる。「データブラウザ」はアノテーシ
ョンを編集したりデータベースに加える機能もある。また、ブラウザは配列やそ
の部分配列に関するアノテーションをユーザーに知らせるための装置として使用
でき、アノテーションデータを提供する「アノテーションサービスプロバイダー
」のデータベースからアノテーションを得るための装置としても使用できる。ア
ノテーションデータを提供する業者は、該ブラウザのユーザー認証機能に加え、
検索に応じて課金できるように検索回数を管理する機能を、データを提供するサ
ーバーにもたせることもできる。
整合を生ずることなくインターネットを通じて世界中に送信できる。配列を含む
データレコードを、ID 記号の名前空間を気にせずにインターネット経由で離れ
たデータベース間で交換できる。データベース管理者は、GenBankのような機関
からの大域的なID 記号を取得する必要はなく、かわりに自身で大域的なID 記号
を作成できる。固有のID 記号は、必要ならデータレコードに含まれている配列
から「直接」作成できるので、それらはデータレコードに必ずしも含まれている
必要はない。このため、閲覧しているデータレコードがID 記号を含んでいなく
ても、インターネットブラウザが配列の固有ID 記号を生成し、該ID 記号により
配列の追加情報を検索することができる。異なるサイトでアノテーションを記述
するために発生されるID 記号が大域的に整合性をもつため、異なるウェブサイ
トで生成されたアノテーションを容易に統合し、該ID 記号を比較するだけで分
かりやすく閲覧できる。該ID 記号を比較するのみで、異なるデータレコードの
情報が同一配列に関連しているかどうか判断できる。本発明の方法によれば、塩
基配列又はアミノ酸配列から一定長又は可変長で衝突確率が極めて低いID記号を
生成することができる。このID記号は塩基配列又はアミノ酸配列から世界中どこ
でも極めて高速かつ簡便に生成することができる。しかもID記号は各配列に固有
であり実際上衝突の可能性がないため、ID記号のみを比較することにより配列の
同一性を容易に判定することができる。
を示した図である。
ある。
図である。
。
ある。
間の関連の例を示した図である。
リーに用いて検索できる例を示した図である。
し、データベース検索を自動に行い、得られた結果を見やすく表示するデータブ
ラウザの例を示した図である。
Claims (25)
- 【請求項1】 配列又は部分配列/複数部分配列の残基の結合順序を表すデータ
を変換する変換関数を用いて、塩基配列、アミノ酸配列又は部分配列/複数部分
配列に実質的に固有のID記号を生成する方法。 - 【請求項2】 ID記号に変換される残基の結合順序を表すデータが標準表現に変
換されており、同一配列又は同一部分配列/複数部分配列の最初の表現にかかわ
らず変換関数が同一ID 記号を生成する、請求項1に記載の方法。 - 【請求項3】 該変換関数が衝突困難ハッシュ関数及び/又は汎用一方向性ハッ
シュ関数を含む請求項1又は2に記載の方法。 - 【請求項4】 該変換関数がSHA又はSHA1を含む請求項1から3のいずれか1項に
記載の方法。 - 【請求項5】 ID 記号に該ID記号の生成法及び/又はカテゴリー及び/又は付
加的な情報を表わす1又は2以上の文字が追加されている、請求項1から4のい
ずれか1項に記載の方法。 - 【請求項6】 ID記号が一定長である請求項1から5のいずれか1項に記載の方
法。 - 【請求項7】 ID 記号の各生成に同一変換関数を用いて、1又は2以上のデー
タベースのデータレコードの同一配列及び/又は同一部分配列/複数部分配列に
同一ID 記号を付与する、請求項1から6のいずれか1項に記載の方法。 - 【請求項8】 ID記号が請求項1から6のいずれか1項に記載の方法で生成され
たID 記号とデータレコード中の配列又は部分配列/複数部分配列に関係したす
べてのデータに基づいて生成され、生成された該ID 記号が配列又は部分配列/
複数部分配列とデータレコード中の配列又は部分配列/複数部分配列に関連する
情報の組み合わせに対して実質的に固有である、配列又は部分配列/複数部分配
列を含むデータレコードのID 記号を生成する方法。 - 【請求項9】 ID記号が請求項1から6のいずれか1項に記載の方法により生成
されたすべてのID 記号のみに基づいて生成され、生成された該ID 記号がグルー
プ内の配列及び/又は部分配列の組み合わせに対して実質的に固有である、複数
の配列及び/又は部分配列/複数部分配列を含むグループのID 記号を生成する
方法。 - 【請求項10】 請求項1から9のいずれか1項に記載の方法により生成したID
記号。 - 【請求項11】 ジェノタイプ又は対立遺伝子のID 記号として用いる請求項1
0に記載のID記号。 - 【請求項12】 配列及び/又は部分配列/複数部分配列及び/又はジェノタイ
プ及び/又は対立遺伝子の間の関係を表わすために用いられる請求項10又は1
1に記載のID記号。 - 【請求項13】 配列及び/又は部分配列/複数部分配列及び/又はジェノタイ
プ及び/又は対立遺伝子に関係する情報を表わすために用いられる請求項10又
は11に記載のID記号。 - 【請求項14】 1又は2以上のデータベースの1又は2以上のデータレコード
にさらに関連付けられた請求項10から13のいずれか1項に記載のID記号。 - 【請求項15】 データレコードが配列又は部分配列/複数部分配列の残基の結
合順序を表わすデータを含まない請求項14に記載のID記号。 - 【請求項16】 1又は2以上のデータベースの1又は2以上のデータレコード
を検索するために用いられる請求項10から15のいずれか1項に記載のID記号
。 - 【請求項17】 請求項10又は11のID 記号を比較することで、配列、部分
配列/複数部分配列、ジェノタイプ及び/又は対立遺伝子の同一性を判定する方
法。 - 【請求項18】 ID記号を請求項1から9のいずれか1項に記載の方法により残
基の結合順序を表わすデータから直接生成し、かつ該ID 記号を用いて1又は2
以上のデータベースの1又は2以上のデータレコードを検索することによる、配
列、部分配列/複数部分配列、ジェノタイプ又は対立遺伝子を含むデータレコー
ドの検索方法。 - 【請求項19】 請求項1から9、請求項17又は請求項18のいずれか1項に
記載の方法を用い、かつ/又は請求項10から16までのID 記号を用いる、か
つ/又は請求項10から16のID 記号を発生する手段を含む装置。 - 【請求項20】 1又は2以上のデータレコードを閲覧するために用いられるブ
ラウザを含み、かつ/又はネットワーク及び/又はインターネット上で利用者装
置として用いられる請求項19に記載の装置。 - 【請求項21】 利用者装置に1又は2以上のデータベースをさらに含む請求項
20に記載の装置。 - 【請求項22】 1又は2以上のデータベースをさらに含む請求項19に記載の
装置。 - 【請求項23】 ネットワーク及び/又はインターネット経由で用いられるデー
タレコードサービス手段をさらに含む請求項22に記載の装置。 - 【請求項24】 請求項10から16までのID 記号及び/又はID 記号を含む1
又は2以上のデータレコードを記録した保存手段、装置又は媒体。 - 【請求項25】 請求項1から9、請求項17又は請求項18のいずれか1項に
記載の方法を実装したプログラム、及び/又は請求項10から16までのいずれ
か1項に記載のID 記号を用いるプログラム、及び/又は請求項19から23ま
でのいずれか1項に記載の装置を制御するプログラムを記録した保存手段、装置
又は媒体。
Applications Claiming Priority (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11-227438 | 1999-08-11 | ||
JP22743899 | 1999-08-11 | ||
JP28702099 | 1999-10-07 | ||
JP11-287020 | 1999-10-07 | ||
JP33168399 | 1999-11-22 | ||
JP11-331683 | 1999-11-22 | ||
JP2000061630 | 2000-03-07 | ||
JP2000-61630 | 2000-03-07 | ||
JP2000-148339 | 2000-05-19 | ||
JP2000148339 | 2000-05-19 | ||
JP2000-225080 | 2000-07-26 | ||
JP2000225080 | 2000-07-26 | ||
PCT/JP2000/005406 WO2001013268A2 (en) | 1999-08-11 | 2000-08-11 | Specific identifiers of amino-acid and base sequences |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003529816A true JP2003529816A (ja) | 2003-10-07 |
JP2003529816A5 JP2003529816A5 (ja) | 2007-11-01 |
Family
ID=27554017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001517293A Pending JP2003529816A (ja) | 1999-08-11 | 2000-08-11 | 塩基配列及びアミノ酸配列に固有のid記号 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7164991B1 (ja) |
EP (1) | EP1316023A2 (ja) |
JP (1) | JP2003529816A (ja) |
AU (1) | AU6592600A (ja) |
WO (1) | WO2001013268A2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050049795A1 (en) * | 2001-08-21 | 2005-03-03 | Miki Fikuda | Biological sequence information reading method and storing method |
EP1387292A1 (en) * | 2002-07-26 | 2004-02-04 | LION Bioscience AG | Method and apparatus for combining data of biological sequences into a non-redundant data source |
WO2005124596A1 (en) * | 2004-06-18 | 2005-12-29 | Reel Two Limited | Data collection cataloguing and searching method and system |
US7519636B2 (en) * | 2005-03-30 | 2009-04-14 | Sap Ag | Key sequenced clustered I/O in a database management system |
US8359337B2 (en) * | 2008-12-09 | 2013-01-22 | Ingenix, Inc. | Apparatus, system and method for member matching |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998052129A1 (en) * | 1997-05-15 | 1998-11-19 | Macquarie Research Ltd. | Constitutional analysis of protein domains |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2283840B (en) * | 1993-11-12 | 1998-07-22 | Fujitsu Ltd | Genetic motif extracting method and apparatus |
US5802525A (en) | 1996-11-26 | 1998-09-01 | International Business Machines Corporation | Two-dimensional affine-invariant hashing defined over any two-dimensional convex domain and producing uniformly-distributed hash keys |
-
2000
- 2000-08-11 WO PCT/JP2000/005406 patent/WO2001013268A2/en not_active Application Discontinuation
- 2000-08-11 US US10/048,479 patent/US7164991B1/en not_active Expired - Fee Related
- 2000-08-11 JP JP2001517293A patent/JP2003529816A/ja active Pending
- 2000-08-11 EP EP00953430A patent/EP1316023A2/en not_active Withdrawn
- 2000-08-11 AU AU65926/00A patent/AU6592600A/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998052129A1 (en) * | 1997-05-15 | 1998-11-19 | Macquarie Research Ltd. | Constitutional analysis of protein domains |
Also Published As
Publication number | Publication date |
---|---|
EP1316023A2 (en) | 2003-06-04 |
WO2001013268A2 (en) | 2001-02-22 |
AU6592600A (en) | 2001-03-13 |
US7164991B1 (en) | 2007-01-16 |
WO2001013268A3 (en) | 2003-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype | |
CN108350494B (zh) | 用于基因组分析的系统和方法 | |
Altshuler et al. | An SNP map of the human genome generated by reduced representation shotgun sequencing | |
Delcher et al. | Using MUMmer to identify similar regions in large sequence sets | |
US20120102041A1 (en) | Genetic information management system and method | |
WO2012031033A2 (en) | Method and systems for processing polymeric sequence data and related information | |
US20070027900A1 (en) | Id symbol unique to structural formula of compound | |
JP2006502499A (ja) | 個人のゲノムを導出するための方法および装置 | |
Ouellette et al. | Database divisions and homology search files: a guide for the perplexed | |
US20060080296A1 (en) | Text mining server and text mining system | |
US20100299531A1 (en) | Methods for Processing Genomic Information and Uses Thereof | |
JP2003529816A (ja) | 塩基配列及びアミノ酸配列に固有のid記号 | |
US20050049795A1 (en) | Biological sequence information reading method and storing method | |
CN117373549A (zh) | 一种环境dna物种条形码参考数据库的构建系统及其方法 | |
Bishop | Genetic databases | |
Durand et al. | Browsing repeats in genomes: Pygram and an application to non-coding region analysis | |
US8224585B2 (en) | Documenting and presenting mutation observations | |
Jain et al. | An information security-based literature survey and classification framework of data storage in DNA | |
Sanchez-Villeda et al. | DNAAlignEditor: DNA alignment editor tool | |
Poo et al. | UASIS: universal automatic SNP identification system | |
Salama et al. | Automatic annotation of BIND molecular interactions from three‐dimensional structures | |
Weckx et al. | SSHSuite: an integrated software package for analysis of large-scale suppression subtractive hybridization data | |
JP2002536710A (ja) | アラインメント情報の記述及び保存方法 | |
US8364416B2 (en) | Information processing system using base sequence relevant information | |
Dai et al. | Dynamic integration of gene annotation and its application to microarray analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070810 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070810 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070831 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090624 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090715 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101102 |