JP2002536710A - アラインメント情報の記述及び保存方法 - Google Patents

アラインメント情報の記述及び保存方法

Info

Publication number
JP2002536710A
JP2002536710A JP2000595291A JP2000595291A JP2002536710A JP 2002536710 A JP2002536710 A JP 2002536710A JP 2000595291 A JP2000595291 A JP 2000595291A JP 2000595291 A JP2000595291 A JP 2000595291A JP 2002536710 A JP2002536710 A JP 2002536710A
Authority
JP
Japan
Prior art keywords
information
sequence
gap
alignment
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000595291A
Other languages
English (en)
Other versions
JP2002536710A5 (ja
Inventor
哲郎 豊田
昭子 板井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IMMD INC.
Original Assignee
IMMD INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IMMD INC. filed Critical IMMD INC.
Publication of JP2002536710A publication Critical patent/JP2002536710A/ja
Publication of JP2002536710A5 publication Critical patent/JP2002536710A5/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 アミノ酸配列又は核酸配列についてのアラインメント情報を配列情報と配列間の対応を示すギャップ情報とに分離することを特徴とするアラインメント情報の記述および保存方法。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は、複数のアミノ酸配列間でアミノ酸残基、又は複数の核酸配列間で核酸
残基をできる限り一致するように対応付けて並置したアラインメント情報を、通
常の表現形式に比べてより少ないデータ量で記述及び保存する方法に関するもの
である。
【0002】
【従来の技術】
遺伝情報を担う核酸の配列の情報は、アミノ酸配列に翻訳される。蛋白質の機能
や立体構造は20種のアミノ酸残基の並び方によって決定されるが、アミノ酸配
列の情報のみからその蛋白質の機能及び立体構造を直接推定することは困難であ
り、その種の知識を得るためには多大な実験的労力が必要である。近年、ゲノム
情報の解析が進んだ結果、蛋白質を単離することなく、生体に存在している蛋白
質のアミノ酸配列が解明されるようになった。配列情報の増加にもかかわらず、
アミノ酸配列の約半分は機能が未知である。このため、アミノ酸配列の機能及び
構造を研究するための情報手段がますます重要になっている。
【0003】 一般に、2個の蛋白質のアミノ酸配列の類似度が高いほど、同一機能及び類似構
造である確率が高いという経験則に基づいて、蛋白質の機能や立体構造を推定す
ることができる。また、それらの生体から取り出した蛋白質の類似性に基づいて
、種の系統樹(dendrograms of species)を推定することも可能である。そうし
た場合、複数の配列間でアミノ酸残基ができるだけ多く対応するよう、アライン
メントを行うことが大切である。アラインメントとは、複数配列間で類似アミノ
酸の対応関係を探しだす方法、及びその結果である対応関係を表す一直線状の配
列の図を指す。ほとんどの場合、残基の対応付けは残基の相同性及び距離を表す
スコア関数を用いて評価される(以下、アミノ酸配列のアラインメントについて
具体的に説明するが、本明細書において用いられる用語「アラインメント」には
、核酸配列のアラインメントも含まれる。)。アラインメント情報は、縦に並べ
られたアミノ酸残基同士の対応を表すように文字列で表現される(総説として、
美宅成樹及び金久實著、「3.文字を比較し並べる」、培風館、1995年)。
【0004】 アラインメントは配列情報を科学研究や産業に利用するための手段であり、アラ
インメントを必要とする研究が増加している。例えば、同じ機能の複数蛋白質を
複数の異なる生物種間で比較して機能と構造との関係を調べたり、結晶解析する
かわりに立体構造既知の類縁蛋白質の結晶構造に基づいてモデリングするなど、
既知蛋白質間でもアラインメントは頻繁に行われている。その結果、アラインメ
ント結果は生化学、分子生物学、遺伝子工学などの分野の学術論文誌に頻繁に記
載されている。しかしながら、各研究者が、必要な都度、配列からアラインメン
トを作成しており、アラインメント情報は使い捨てにされているのが現状である
。アラインメント情報をデータベース化することにより、他の研究への応用が期
待され、その結果、研究の効率化が進むことになる。また、アラインメントの手
法はほぼ標準化されているところから、ゲノム解析から新たに存在が知られるよ
うになった蛋白質と、既知蛋白質とのアラインメント情報を、標準的な処理によ
って上記のデータベースに加えることも有用と思われる。
【0005】 もっとも、アミノ酸配列にハイフンを加えてギャップを表した通常の表現形式の
アラインメント情報は、研究者が視覚的に類似性を理解するには都合がよいもの
の、配列とギャップの残基を表すすべての文字列を記録する必要があるため、表
現形式のデータ構造は膨大なアラインメント情報を記録媒体の中にコンパクトに
格納するのには適切でない。全体のデータサイズは少なくとも“(配列の残基数
+ギャップの残基数)×配列数”である。上記形式で保存されたデータは情報処
理の観点からは無駄が多く、また、配列情報自体は一般に配列情報データベース
から取得できるので、重複した情報を保存することにもなる。アラインメント情
報はその中に配列の情報を含んでいるため、多くのアラインメントで、相違は同
一配列のギャップの位置のみというような配列情報の重複はひどくなる。
【0006】 今後、アミノ酸配列の情報が加速度的に増加し、アラインメント情報の利用も急
増することが予想されることから、保存装置のアラインメント情報の保存や検索
を可能にする方法の開発が求められている。また、現在はコンピュータのネット
ワーク化が進み、アラインメント情報のデータも複数のコンピュータ間で頻繁に
送受信されるため、アラインメント情報の効率的な通信方法が必要である。
【0007】
【発明が解決しようとする課題】
本発明の課題は、アラインメント情報を効率的に記述、保存及び/又は通信する
方法を提供することにある。より具体的には、アラインメント情報を少ないデー
タ量で記述、保存及び/又は通信することができ、検索や編集が可能で、かつ必
要時には通常の表現形式のアラインメント情報を迅速に取り出すことができる方
法を提供することである。
【0008】 また、本発明の別の課題は、上記の方法で保存されたアラインメント情報を格納
した記録媒体又はデータベースを提供し、上記方法を実行するプログラムを含ん
だ記録媒体を提供することにある。
【0009】
【課題を解決するための手段】
アラインメント情報は、通常、一文字表記で表したアミノ酸残基を「残基番号」
(各配列でN末端から数えたアミノ酸残基の順番をいう)の順に列記した複数の
アミノ酸配列を縦に重ね、対応付けたアミノ酸残基を同じ欄(縦列方向)に置く
ことにより各アミノ酸配列間の対応関係を表現した情報として提示される(表1
)。以下、本明細書において、アラインメント情報のこの表現形式を「通常の表
現形式」と呼ぶ。同じ欄(縦列方向)に置かれたアミノ酸残基は互いに対応付け
られたことを意味しており、いずれか一方の配列に対応する残基がない場合はハ
イフンを挿入して表現される。この様なハイフン(又はハイフンのつながり)は
「ギャップ部分」あるいは単に「ギャップ」と呼ばれる。「ギャップ内の残基数
」は、ギャップの長さあるいはギャップ内のハイフンの数に等しい。「ギャップ
」でない部分はすべて対応付けられている。
【0010】
【表1】
【0011】 本発明者らは、アラインメント情報が、「配列情報」と「ギャップ情報」(各ギ
ャップが挿入される残基番号とギャップの残基の長さ、又は各ギャップ部分に対
応する他方の配列の残基番号と残基数)又は「対応付け情報」(各対応付けされ
た部分の残基番号と残基数を示す情報)に分離できることに着目した。「配列情
報」は文字列であり、各文字が20種類の各アミノ酸又は4種類の各核酸を表し
ている。「配列情報」は、配列自体の情報のみを含み、他の配列との対応情報を
全く含んでいない。「ギャップ情報」又は「対応付け情報」は残基番号又は残基
数で表される数値データであり、両者は等価な情報として相互に変換可能である
。従って、本発明者らは、ギャップ情報(又は対応付け情報)を配列情報と組み
合わせることにより、分離された形式の情報を容易に「通常の表現形式」のアラ
インメント情報に変換することができることを見出した。
【0012】 一般的に、アラインメント中のギャップ部分の数は、アミノ酸残基数に比べると
少なく、概ね10分の1以下であるところから、ギャップ情報(又は対応付け情
報)と配列情報とをアラインメント情報から分離し、ギャップ情報(又は対応付
け情報)のみを保存又は送信することにより、アラインメント情報を極めて少な
いデータ量で効率的に通信又は保存できる。また、一般に、配列情報は他の利用
可能な配列データベースから得られることが多いので、アラインメント情報を保
存又は通信するためには、ギャップ情報(又は対応付け情報)のみを取り扱えば
よい。一方、配列情報が容易に利用可能でない場合には、ギャップ情報とともに
配列情報を保存又は通信することもできる。通常の表現形式のアラインメント情
報には配列情報が含まれているため、この形式のアラインメント情報と配列情報
とを保存又は通信すると、配列情報を重複して取り扱うことになる。ギャップ情
報と配列情報とを分離することによって、このような重複がなくなり、保存又は
通信の効率化が期待できる。本発明はこれらの知見を基にして完成された。
【0013】 すなわち本発明は、アラインメント情報を配列情報と配列間の対応関係を表すギ
ャップ情報とに分離して記述、保存、及び/又は通信する方法、及びアラインメ
ント情報を配列情報と配列間の対応関係を表す対応付け情報とに分離して保存又
は通信する方法を提供するものである。 配列情報が既存のデータベースから利
用できる場合には、アラインメント情報を配列情報とギャップ情報又は対応付け
情報とに分離し、ギャップ情報又は対応付け情報のみを保存又は通信することが
可能である。上記ギャップ情報又は対応付け情報は、配列情報を含まず、少数の
数値データで表現できるうえ、配列情報を用いた計算処理により通常の表現形式
のアラインメント情報に変換することができる。
【0014】 本発明により、下記の方法が提供される。 (1)アミノ酸配列又は核酸配列のアラインメント情報を配列情報と配列間の対応
関係を表すギャップ情報とに分離することを特徴とする、アラインメント情報の
記述方法; (2)アミノ酸配列又は核酸配列のアラインメント情報を配列情報と配列間の対応
関係を表すギャップ情報とに分離し、各情報を少なくとも1以上の記録媒体で保
存し、及び/又は検索することを特徴とする、アラインメント情報の保存方法;
(3)少なくともギャップ情報を1以上の記録媒体に保存する上記(2)の方法; (4)ギャップ情報のみを保存する上記(2)の方法; (5)ギャップ情報が、2以上の配列間のアラインメント情報に存在するギャップ
部分の位置及び長さを示す残基番号及び/又は残基数、又は該データに計算変換
可能な数値データに基づいて記述されたものである、上記(1)ないし(4)のいずれ
かの方法;
【0015】 (6)ギャップ情報が、アラインメントに含まれない他の配列若しくは仮想の配列
の残基番号を含むデータ、アラインメント情報の通常の表現形式の欄番号、又は
該データに計算変換可能な数値データを用いて記述されたものである、上記(1)
から(4)のいずれかに記載の方法; (7)1以上のアラインメントの情報から上記(1)ないし(6)のいずれかの方法によ
り生成されたギャップ情報のみに基づいて新しいアラインメント情報のギャップ
情報を演算によって生成させる方法; (8)上記(1)ないし(7)のいずれかの方法に従って得られたギャップ情報及び配列
情報の両方から通常の表現形式のアラインメント情報を得る方法;
【0016】 (9)アミノ酸配列又は核酸配列のアラインメント情報を配列情報と配列間の対応
関係を表すギャップ情報とに分離し、これらの情報のうち少なくともギャップ情
報を通信することを特徴とする、アラインメント情報の通信方法; (10)配列情報の重複を通信前に取り除き、配列情報の必要最小限を伝達する上記
(9)の方法; (11)アラインメント情報に実質的に固有なIDを決定する方法であって、ギャッ
プ情報及び配列情報中の配列のIDについてのデータの全てのみを用い、かつそ
のデータに基づいて該IDを決定する方法; (12)データレコードであって、少なくとも該データーレコードのIDと、上記(1
)から(10)のいずれか1項に記載の方法により生成されたギャップ情報及び配列
情報中の配列のIDとを含むデータレコード、及び1以上の該データレコードを
含む記録媒体; (13)データレコードのIDが上記(11)に記載の方法により生成されたIDである
、上記(12)に記載のデータレコード; (14)少なくとも上記データレコード(12)又は(13)を用いるアラインメント情報の
保存、検索、及び/又は通信方法; (15)ギャップ情報のかわりに対応付け情報を用いる上記(1)ないし(14)のいずれ
かの方法;及び (16)配列情報の配列“アイゲン−ID”を用いる上記(1)ないし(15)のいずれか
の方法; 上記(12)の用語“実質的に固有のID”とは、以下の説明において“アイゲン−
ID”が生成される方法と同様の方法により生成されるIDであるが、関数はギ
ャップ情報と配列情報の入力引数として配列のIDの両者とを結合した表現をと
り、標準化過程は省略される。
【0017】 また、本発明の別の観点からは、アラインメント情報の保存方法であって、上記
ギャップ情報又は対応付け情報をデータベース又は記録媒体中に保存する方法;
上記ギャップ情報又は対応付け情報を配列情報とともにデータベース又は記録媒
体中に保存する上記方法;及び、ギャップ情報又は対応付け情報を同一又は分散
化された形態のデータベース又は記録媒体中に保存する上記方法が提供される。
【0018】 さらに本発明の別の観点からは、アラインメント情報を再現するために最小限必
要な情報のみを通信するための方法が提供される。すなわち、アラインメント情
報の通信方法であって、上記ギャップ情報又は対応付け情報を通信する方法;配
列情報と上記ギャップ情報又は対応付け情報とを通信する上記方法;及び、配列
情報とギャップ情報又は対応付け情報とを同一又は分散化された形態で通信する
上記方法が提供される。
【0019】 これらの発明に加えて、ギャップ情報又は対応付け情報を含むアラインメント情
報のデータベース;配列情報とギャップ情報又は対応付け情報とを含むアライン
メント情報のデータベース;配列情報とギャップ情報又は対応付け情報とに分離
されたアラインメント情報を含むデータベース;ギャップ情報又は対応付け情報
を格納した記録媒体;配列情報とギャップ情報又は対応付け情報とを格納した記
録媒体;及び、配列情報とギャップ情報又は対応付け情報とに分離されたアライ
ンメント情報を含む記録媒体が提供される。記録媒体の種類は特に限定されず、
当業者に利用可能な記憶装置、光ディスク、磁気ディスク、磁気テープなどコン
ピュータでアクセスできる記録装置を用いることができる。また、本発明により
、配列情報とギャップ情報又は対応付け情報とに分離されたアラインメント情報
を通信するための方法が提供される。
【0020】
【発明の実施の形態】
以下、本発明の方法を2つのアミノ酸配列から得られたアラインメント情報に対
して適用する場合について具体的に説明するが、本発明の範囲は下記の態様及び
その説明の細部に限定されることはない。また、以下の説明においては、アライ
ンメント情報を配列情報とギャップ情報とに分離する場合についてのみ言及する
が、「ギャップ情報」と「対応付け情報」とは等価であり、互いに変換可能であ
ることから、本発明の方法がギャップ情報を用いる方法のみに限定されると解釈
してはならない。
【0021】 一般的にここで用いられている“データレコード”という用語は、情報、検索の
オブジェクト(データレコードはファイル、データベースのレコードなど)の1
以上の表現形式を含む記録ユニットを意味する。データレコードは、コンピュー
タでアクセスできる記録媒体に通常保存される。ここで用いられる“データベー
ス”という用語は、1以上のデータレコードの保存手段及び記録媒体に保存され
たデータレコードに対するアクセス手段、あるいは記録媒体からなる装置を意味
する。
【0022】 “配列のアイゲン−ID”という用語は、同一配列についてのIDは同一であり
、異なる配列のIDは実質上異なるシステム(特願平11-227438号)による実質
上固有な配列IDを意味する。具体的には、上記のアイゲン−IDは、そのドメ
インは配列の様々な表現形式の集合で、範囲はそれらのIDの集合である関数を
用いて計算される。たとえば、その関数は、配列の各残基を表す連続した文字列
を出力引数として採用する。そして、同一配列が異なった表記法で表されるかも
しれないので、配列の通常の表現形式に変換する(標準化過程)。そして関数は、
1以上の衝突困難ハッシュ関数を用いて、表現形式を固定長のビット配列に変換
し、各4〜5ビットを1文字に変換することでビット配列を文字列に変換する。
ハッシュ関数の好ましい例としてSHA1があり,それは任意長のインプットデ
ータを受け取り160−ビット長の出力値を与えるという性質があり、SHA1
は異なるデータからは異なる値を発生することが実質的に保証されている。この
ように、配列情報の表現形式の表記スタイルにかかわらず、発生したアイゲン−
IDは、配列情報に固有のものとなる。
【0023】 さらに、本明細書において用いられる「配列」と言う用語は、特に言及しない場
合には、アミノ酸配列及び核酸配列のいずれをも含む概念として用いる。また、
本明細書において用いられる「アラインメント情報」という用語は、論文誌上で
公開されるアラインメント結果や標準的手法で得られる通常の表現形式で記述さ
れたアラインメント結果のほか、通常の表現形式以外で表現されたアラインメン
ト結果、種々の解析方法の実行にあたり中間データとして生成されるアラインメ
ント結果、及びアラインメント結果の部分的情報などを含めて、最も広義に解釈
する必要がある。また、本明細書において用いられる「保存」という用語は、デ
ータベースのデータレコードの証明手段、データベースにデータレコードが存在
しているかを決定する存在手段、IDを用いてデータレコード間での関連付け手
段、データベースにおけるデータレコードの検索手段、他のデータベースのどれ
か1つのデータレコードをコピーする手段、データベースのデータレコードの複
製手段、複製手段によるデータレコードのバックアップ手段、データベースのデ
ータレコードへのアクセス手段、バックアップ手段により生成された記録媒体か
らの修復手段、2以上のデータレコードを1つのデータレコードへの統合手段と
してなど、保存された情報の利用を含む概念として用いる。本明細書において用
いられる「通信」という用語は、システムの中である場所(送信者)から他の場
所(受信者)へデータをコピーすることを意味し、データはそれぞれの場所の記録
媒体に保存されている。このように、送信者と受信者は、同一コンピュータの異
なる記録アドレスであってもよく、あるいはネットワークで結ばれた異なるコン
ピュータであってもよい。
【0024】 上記表1に示した2つの配列A及びBのアラインメント情報から配列情報を除く
と表2に示した情報が得られる。数字は残基番号を示しており、アミノ酸配列の
情報から各残基番号に対応するアミノ酸の種類がわかるので、本発明の方法では
、表2においてハイフンで表されるギャップ部分の位置と長さのみを別の形式で
記述して保存する。
【0025】
【表2】
【0026】 本発明の方法は、表2に示したような配列情報を含まないアラインメント情報を
少数の数字データを用いて保存することを特徴としており、その手段として、配
列間の対応関係を表す「ギャップ情報」を利用する。以下、アラインメント情報
からギャップ情報を抽出する手法の具体例を説明するが、ギャップ情報の種類又
はその記述方法は以下に説明するものに限定されることはない。ギャップ情報と
しては、配列間の対応関係を表すものであれば、いかなるものを利用してもよい
。なお、以下の説明において、各配列の残基数の情報は、配列情報に含まれてい
るものとする。
【0027】 <ギャップ情報の記述法> アラインメントは複数配列間の相対的な関係を示す。あるアラインメント中の各
配列に存在するギャップの位置及び長さは、ギャップ部分の位置を示す残基番号
やその部分に含まれるハイフン数によって記述できる。記述の方法は特に限定さ
れず、いかなる方法を採用してもよい。以下に代表例を示すが、記述方法はこれ
らに限定されることはない。方法は、下記の方法、、に大別できる。方法
は、アラインメントに含まれる複数の配列のうちの一の配列の残基番号に基づ
いて記述する方法である。通常、アラインメントの最初の配列が選択される。方
法では、通常の表現形式で記述するときのアラインメントの欄番号、アライン
メントに含まれる現実の配列ではなく、ギャップを持たず、アラインメントの欄
の長さと同じ長さを持った仮想配列の残基番号を用いて記述され、残基番号はア
ラインメントの欄番号と同一となる。方法では、アラインメント中の各配列に
つき、ギャップ部分と残基の存在する部分の残基数を交互に並べることで、ギャ
ップ情報を記述する。さらにこれらの各方法においても、さまざまな修飾や改変
が可能である。なお、残基数のみでギャップ情報を表現する場合、残基番号の小
さいギャップから順に記述することが望ましい。
【0028】 A配列を基準配列とし、表2のアラインメント情報をギャップ部分と対応付けさ
れた部分の各残基数を交互に(ギャップ部分の残基数を先に)並べると「2,1
1,1,13,−4,9,1」と記述できる(方法a)。ギャップ部分がどの
配列に存在するかを示すため、B配列中のギャップの残基数はマイナスの符号を
付して負の数としている。 この記述は、左端から、A配列に2残基のギャップ
、11残基の対応付け部分、A配列に1残基のギャップ、13残基の対応付け部
分、B配列に4残基のギャップ、9残基の対応付け部分、最後にA配列に1残基
のギャップがあることを意味している。
【0029】 また、表2のアラインメントは、残基番号と残基数を用いて(残基番号を先に書
いた場合)、「0,2,11,1,24,−4,37,1」と記述することもで
きる(方法b)。この記述では、各ギャップをその直前の残基番号とギャップ
の残基数で示し、B配列のギャップは負の数とすることでA配列と区別する。こ
の記述は、A配列の残基番号0番(N末端)に2残基のギャップ、A配列の11
番の後に1残基のギャップ、A配列の残基番号で24番に対応する位置の後から
B配列に4残基のギャップ、A配列の37番の後ろに1残基のギャップと並ぶこ
とを意味している。
【0030】 方法aと方法bの記述は、方法aで対応付けされた部分の残基数を加えて
残基番号とすれば方法bに変換できる。たとえば、方法aの「2,11,1
,13,-4,9,1」から、先頭のギャップは0番から始まることにして0を
おき、11はそのまま、13は24(=11+13)、9は37(=24+4+
9)(4はB配列のギャップで、A配列には残基が存在するので)とすることに
より、「0,2,11,1,24,−4,37,1」という方法bの記述法に
変換できる。逆の手順により、bからaへの変換も可能である。
【0031】 もっとも、表3のような3以上の配列を含むアラインメント情報を記述しあるい
は加えたり、アラインメント中の配列の増減を行う場合、通常の表現形式を再現
する目的には、全配列を対等に扱う方法が便利である。以下、3配列のアライン
メントの例(表3)を用いて、方法とについて説明する。これらの方法は通
常の表現形式への変換、配列の削除、アラインメントの統合のとき、全配列を対
等に扱う。
【0032】
【表3】
【0033】 ほとんどのアラインメント情報において、通常の表現形式の欄の数は、ギャップ
部分の存在のため、最も長い配列の残基数より長いのが普通である。表3のアラ
インメント記述法に対して、欄に通し番号を付したのが表4である(欄の行はR
と記してある)。
【0034】
【表4】
【0035】 方法 欄の番号に基づいて(表4のR)、各配列につき、残基の存在する部分(または
ギャップ部分)の位置を記述するのが方法である。この方法により、残基の存
在する部分の始めと終わりの欄番号をN端から順に記述すると、表3のアライン
メントは、 A配列: 3,13,15,40 B配列: 1,27,32,41 C配列: 2,26,30,40 と記述できる。A配列では欄番号3から13まで、15番から40番までの欄に
残基が存在し、B配列では、欄番号1番から27番まで、32番から41番まで
の欄に残基が存在することを示す。C配列についても、欄番号2番から26番ま
で、30番から40番までの欄に残基が存在する。
【0036】 方法 各配列につき、各ギャップ部分と対応する残基の残基数を交互に示すことにより
、特定の配列を基準とせず、また欄番号によらずに、ギャップ情報を記述するこ
とができる(方法)。この方法により、ギャップの残基数を先に記述した場合
、表3のアラインメントは、 A配列: 2,11,1,26,1 B配列: 0,27,4、10 C配列: 1,25,3,11,1 と記述できる。A配列のギャップ情報中2、1,1は各ギャップの残基数で、そ
の間に連続した11残基と26残基のアミノ酸残基が置かれることを示している
。B配列については、N端からの27残基に続き、4残基分のギャップを挟んで
、10残基あることを示し、C配列については、N端の1残基のギャップに続い
て25残基、3残基分のギャップに続いて11残基があり、最後に1残基のギャ
ップがあることを示している。また、対応付けされた残基番号から始めることも
可能である。
【0037】 <通常の表現形式のアラインメント情報への変換> どの方法で記述したギャップ情報でも、通常の表現形式のアラインメント情報に
変換できる。まず、ギャップを含む全残基を列記するのに必要な欄の数を計算し
、用意する必要がある。ギャップ情報にしたがって、その各欄に各配列の残基番
号またはハイフンを対応させれば表3の形式のアラインメント情報が得られ、さ
らに各配列の残基番号に対応したアミノ酸残基を当てはめれば、通常の表現形式
のアラインメント情報が再現できる。
【0038】 表3のアラインメント情報は、以下のようにして再現できる。方法による表2
のアラインメントに対するギャップ情報(A配列「3,13,15,40」、B
配列「1,27,32,41」、C配列「2,26,30,40」)から、必要
な欄の数は、最大の欄番号と同じ41である。41の欄を用意し、A配列につい
ては全37残基をN端から順に、欄番号で3番から13番,15番から40番の
各欄に並べる。B配列については全37残基をN端から順に、欄番号で1番から
27番及び32番から41番の各欄に並べればよく、C配列については全36残
基を、欄番号で2番から26番及び30番から40番の各欄に並べればよい。
【0039】 方法による表3のアラインメントに対するギャップ情報(A配列「2,11,
1,26,1」、B配列「0,27,4、10」、C配列「1,25,3,11
,1」)から、必要な欄の数は、A配列の残基数を全部加えて、2+11+1+
26+1=41と計算される。B配列から計算しても(27+4+10=41)
、C配列から計算しても(1+25+3+11+1=41)、同じ数になる。こ
の欄に対して、A配列についてはN端から順に、2残基のギャップの後に11残
基、1残基のギャップの後に26残基並べ、最後に1残基のギャップを並べれば
よい。 B配列についてはN端から順に27残基並べ、4残基分のギャップの後に10残
基を並べればよい。C配列についても同様である。
【0040】 一般に、通常の表現形式のアラインメント情報は、含まれる配列群の一部を削除
したり、他の配列を加えることによってアラインメントの欄の長さは変化する。
アラインメントの欄の長さが変わるのは、ギャップの入り方によるもので、配列
情報とは独立しておこる。本発明の演算方法は、配列情報を必要としないで、修
正アラインメントのギャップ情報は、1以上のもとのアラインメントのギャップ
情報から簡単に変換されるのが特徴である。
【0041】 <アラインメント情報からの配列の抽出> 表3のアラインメント情報から、その一部の配列、例えばBを除去して、AとC
のアラインメント情報を通常の表現形式で取り出す場合の手順を示す。方法に
よる表3のアラインメントに対するギャップ情報(A配列「3,13,15,4
0」、B配列「1,27,32,41」、C配列「2,26,30,40」)か
ら、A配列とC配列の情報(「3,13,15,40」、「2,26,30,4
0」)を取り出す。1から41欄の間で、両方の配列でギャップになっている欄
番号(この場合、1と41)を演算的に探す。この例で、C配列のギャップ情報
の最小の数は2であり、従って、すべての数のデクレメントが、最小が1、つま
りアラインメントの最初の端になるように行われる。A配列とC配列のギャップ
情報は、それぞれ「2,12,14,39」と「1,25,29,39」である。配
列情報Aの12欄から14欄の間のギャップ部分は、C配列の25から29欄の
ギャップ部分と重ならない。結果として、欄の数は39となり、これらの欄番号
を左側(欄番号の小さい方)に詰める。演算したギャップ情報から得られたアラ
インメントは、表5に示されている。
【0042】
【表5】
【0043】 方法による表3のアラインメントに対するギャップ情報(A配列「2,11,
1,26,1」、B配列「0,27,4、10」、C配列「1,25,3,11
,1」)については、方法によるギャップ情報に変換後、上記と同様に配列の
抽出がギャップ情報の演算により容易に行える。
【0044】 A配列について、方法のギャップ情報から方法のギャップ情報への変換の例
を以下に示す。方法のギャップ情報「2,11,26,1」は、ギャップ部分
と残基の存在する部分の残基数を交互に記述したものであり、残基の存在する部
分は2カ所ある。その各部分の欄番号の始めと終わりは、2+1=3,2+11
=13 及び 2+11+1+1=15,2+11+1+26=40と計算でき
るので、方法によるギャップ情報「3,13,15,40」に変換できる。B
配列についても同様で、方法のギャップ情報「0,27,4、10」は、0+
1=1,0+27=27,0+27+4+1=32,0+27+4+10=41
の演算によって、方法によるギャップ情報「1,27,32,41」に変換で
きる。
【0045】 <複数のアラインメント情報の統合> 本発明の方法によれば、表6のような共通の配列が存在する2以上のアラインメ
ント結果をギャップ情報の演算により容易に統合することができる。
【0046】
【表6】
【0047】 アラインメント1についての方法によるギャップ情報は、A配列「3,13,
15,40」、B配列「1,27,32,41」、C配列「2,26,30,4
0」であり、アラインメント2についてのギャップ情報は、A配列「4,40」
、D配列「1,13,15、26,29,40」である。共通なA配列のギャッ
プ情報から、アラインメント1については、N端に1残基の新たなギャップを、
アラインメント2については、欄番号14と15の間に新たなギャップを1残基
分を設ける必要があることが演算からわかる。
【0048】 そこで、アラインメント1に含まれる全配列で、N端のギャップのために欄番号
を1つずつ大きくした結果、ギャップ情報は、A配列「4,14,16,41」
、B配列「2,28,33,42」、C配列「3,27,31,41」となる。
アラインメント2では、欄番号の14と15の間の新たギャップの導入のため、
ギャップ情報は、A配列「4,14,16、41」、D配列「1,13,16、
27,30,41」となる。このように両アラインメントにおいて、A配列のギ
ャップ情報が同一になればよい。これらの情報を、上記の手順に従って通常の表
現形式に変換すると、表7のように統合されたアラインメントが得られる。統合
されたアラインメントでの必要な欄の数は、含まれる最大の欄番号(B配列)か
ら42である。
【0049】
【表7】
【0050】 方法によるギャップ情報についても、方法によるギャップ情報に変換するこ
とによって、上記と同様に演算的に統合が可能である。共通の配列がない場合に
は、両アラインメントから、いずれかの配列が共通となるようそれぞれのアライ
ンメントから1ヶづつの配列を選んでアラインメントを行う。
【0051】 本発明の方法において、ギャップ情報を表す数字は、コンピュータで効率よく処
理できるようにバイト単位で表現するとよい。例えば、1バイト以内で表現でき
る数字は1バイトで表現し、1バイトで表現できないときは、複数バイトで表現
することができる。何バイトで表現されているかを表すために、特定のビットに
フラグをたててもよい。また、数字のプラス、マイナス符号のかわりに、データ
の中に符号ビットを設けても良い。また、単純なアルゴリズムにより、これらの
数字群を別データに変換したものをギャップ情報として利用することもできる。
【0052】 アラインメントから配列情報を分離し、及びギャップ情報をデータベースに保存
するにあたり、配列を特定する記号又は番号(配列ID)を付する必要がある。
また、アラインメント情報ごとにそれを特定する記号又は番号(アラインメント
ID)をつけ、データベースを用いてアラインメントIDから配列IDを検索で
きるようにしておくことも可能である。様々なフォーマットでの同一データレコ
ードの同じアラインメントに属する一群のギャップ情報を、各ギャップ情報の記
述法で用いられた数についてその区切りがわかるように連結して保存することも
可能である。
【0053】 データレコードは、アラインメントIDをデータレコードのIDとして含むこと
が好ましい。保存されているギャップ情報の好ましい態様の1つは、少なくとも
そのデータレコードのID、ギャップ情報の記述、そしてギャップ情報が対応し
ているアラインメントに含まれる配列IDを含むデータレコードである。データ
レコードを用いると、ギャップ情報はアラインメント情報に1対1で固有に対応
する。データレコードは、ギャップ情報と配列情報に対応するIDを含んでいる
ので、アラインメント情報のIDと同じIDをデータレコードのIDとして用い
ることができる。アラインメント情報のIDは、アラインメントを特定する情報
に固有なものでなければならない。IDに必要な属性は、IDはギャップ情報の
すべてのデータ及び配列情報の配列IDのすべてに、かつそれにのみ基づいたI
Dであるということである。
【0054】 配列情報は、ギャップ情報を含んでいるファイル、表、あるいはデータベースに
保存されている必要はない。配列情報がギャップ情報を保存している記録媒体と
同一の記録媒体に保存されていることが好ましいが、配列情報は検索に利用でき
る他の記録媒体に保存されていてもよい。他のデータベースに保存されている配
列情報が利用できる場合には、ギャップ情報のみがデータベースに保存されてい
てもよい。ギャップ情報とともに、頻繁に用いられる配列情報を保存することも
可能であり、他の配列情報に対する外部データベースを用いることも可能である
。さらに、データベース中の配列情報は、配列ID、蛋白質名、アミノ酸残基の
数、アミノ酸配列など以外にも、種、生体及びサブタイプを含んでいてもよい。
情報は、リレーショナルデータベースの表により分離して管理することもできる
【0055】 <通信方法> アラインメント情報を配列情報とギャップ情報とに分離した形で送信側から受信
側に送信し、効率的にアラインメント情報を通信することができる。まず、上記
に説明した方法に従ってアラインメント情報を配列情報とギャップ情報とに分離
する。ギャップ情報が対応するアミノ酸配列を一意に特定できる配列 ID をギ
ャップ情報に付加し、これを送信側から受信側に送る。受信側のデータベースに
配列 ID が対応するアミノ酸配列情報がある場合にはそれを利用し、受信側に
データがない場合には送信側に依頼して配列 ID に対応する配列情報を送信さ
せるか、別途、利用可能な他のデータベースから配列IDに対応する配列情報を
入手する。受信側では、上記に説明した方法に従って、ギャップ情報からアライ
ンメント情報を再構成することができる。
【0056】 また、別の方法としては、まずアラインメント情報を配列情報とギャップ情報と
に分離する。ギャップ情報が対応するアミノ酸配列を一意に特定できる配列 I
D をギャップ情報に付加し、これを送信側から受信側に送る。また配列情報で
は重複がないようにしてギャップ情報で対応しているIDの配列のみを送信側か
ら受信側に自動的あるいは要請により送る。この際、ギャップ情報と配列情報が
分離されてさえいれば、送信の順序は関係ない。
【0057】
【実施例】
以下、本発明を実施例によりさらに具体的に説明するが、本発明の範囲は下記の
実施例に限定されることはない。以下の実施例においては、本発明の好ましい態
様として方法によって提示されたギャップ情報を用いたが、上記に例示した他
の方法やさらに別な方法によっても、アラインメント情報をギャップ情報と配列
情報に分けて扱うことができることはいうまでもない。
【0058】 例1 4個のアミノ酸配列のアラインメント情報を表8に示すようにギャップ情報と配
列情報にわけ、ギャップ情報をデータベースに保存した。表中、各アミノ酸配列
は、配列ID を付して特定した。ここで“ID”とは、識別子を意味する。ギ
ャップ情報のうち、配列ID=000001は基準配列を表し、配列ID = 000002から
000004については、基準配列に対するギャップ情報である。
【0059】
【表8】
【0060】 例2 表9のアラインメント(甲)の縦列の属性情報を表10のアラインメント(乙)
に統合して印付けした。
【0061】
【表9】
【0062】
【表10】
【0063】 表9では 配列Aと配列Bの縦列の対応においてアミノ酸配列が一致している箇
所を縦列属性情報として*で示してある。また機能上重要なアミノ酸の箇所を#
で示してある。表8のようにアラインメント情報を配列情報とギャップ情報に分
離したやり方と全く同じ手順を用いて、表9の縦列属性情報において「-」をギ
ャップとみたてることで、縦列属性情報を表11のように属性種類情報と縦列位置
情報に分離した。この場合の縦列位置情報は方法のギャップ情報の表現と同じ
である。
【0064】
【表11】
【0065】 表11の縦列位置情報と、表9の 配列 B のギャップ情報と、表10の配列 B の
ギャップ情報から表10のアラインメント(乙)における縦列位置情報を計算した
のが表12である。
【0066】
【表12】
【0067】 表12の縦列位置情報と、表11の属性種類情報からアラインメント(乙)上での縦
列属性情報を示したのが表13である。表9と表13を見比べて明らかなようにアラ
インメント(甲)とアラインメント(乙)に共通な 配列 B 上で縦列属性情報の
対応がとれている。
【0068】
【表13】
【0069】 例3 表14に示されているアラインメント情報の記述が配列情報(表15)とギャッ
プ情報に分離されることを示す。ギャップ情報は、データレコードのID、ギャ
ップ情報、配列ID,及びデータなどを含むデータレコード(表16)として保存
される。各配列IDはアイゲン−IDであり、データレコードのIDは、ギャッ
プ情報及び配列IDについてのデータの全てのみを用い、かつそれに基づいて決
定される。表14から16のデータは、XML(extensive markup language)
で示した。
【0070】
【表14】
【0071】 P配列とQ配列の配列情報を表15に示す。各配列は、先頭を末尾に"<sequence
>"と"</sequence>"というタグがついている。先頭のスタートタグは、配列の始
まりを示し、末尾のエンドタグは、配列の終わりを意味する。"<sequence>"のス
タートタグで、"ed="は、タグ間の配列のアイゲン−IDを示す属性である。こ
のように、P配列のアイゲン−IDは、 "SA16rxgd7d4xxgmjcuaf8v3f6crqu8p9bck." となる。 Q配列のアイゲン−IDは、 "SA1j1r9pr0f9xcc00p57xke0kdijp8jvrh4." となる。
【0072】
【表15】
【0073】
【表16】
【0074】 ギャップ情報を含んだデータレコードを表16に示す。データレコードは、<rec
ord>タグで始まり、</record>タグで終わる。このように、データレコードは、
表16の全ての文字よりなる。データレコードにおいて、各配列のIDは、<ref
erence>と</reference>の間に配置する。各<reference>タグにおいて、ギャップ
情報(方法)は、"gap=. "で表した。各<reference>タグの"order="は、データ
レコード中でのIDの辞書順を示している。
【0075】 <record>タグの"ed="は、レコードのIDを示している。表16に示すように、
このIDはデータレコードに含まれている。このIDがデータレコードに実質上
固有なIDであり、データ情報はその固有さに影響を与えないことを以下に説明
する。ギャップ情報及び配列IDに基づいてIDを発生させるため、各配列ID
をその"gap=,"の文字と結合して辞書順に結合する。上記手順の後に表17に示
すような1つの文字列となる。その文字列はギャップ情報と配列IDから生成さ
れるのでそれらに固有である。その文字列をSHA-1により160ビットの固有な
データに変換する。160ビットデータの各5ビットは、"0, 1, 2, 3, 4, 5, 6
, 7, 8, 9, a, b, c, d, e, f, g, h, l, j, k, x, m, n, y, p, q, r, s, t, u
, v"の1つに変換され、32文字の固有な単語が生成する。この単語により実質
的に固有なIDが創製され、アラインメント情報に固有なIDを意味する"AL1"
の後に結合される。このIDはアラインメント情報に固有であることから、デー
タレコードのIDとして用いることが好ましい。
【0076】
【表17】
【0077】 この例では、表14に示されているアラインメントは、配列情報を含むデータ(
表15)と、ギャップ情報を含むデータ(表16)に分けられる。各データがファ
イル、データベースの表のレコードなどのように異なるデータレコードに保存さ
れるのであれば、そのアラインメントが本発明の方法の1つによって保存されて
いることは明らかである。さらに、表15と表16に示されているデータの両方
が単一のデータレコードに保存される場合にあっても、配列情報とギャップ情報
が<sequence>…</sequence>タグと<record>…</record>タグに明らかに断片とし
て分かれているので、そのアラインメントは本方法により別々に保存されている
と理解できる。
【0078】
【産業上の利用可能性】
本方法によれば、アラインメント情報を保存する際に、配列情報が重複すること
がなく、ギャップ情報も数個の数字でデータ化されるため、全体として極めて少
ないデータ量で保存することができる。また、それらの情報から簡単に通常の表
現形式のアラインメント情報も取り出すことができる。さらに、対応付け情報を
それ自体の間で演算することにより、アラインメント情報に含まれる配列群の編
集や統合したアラインメント情報の取り出しが可能になり、アラインメント情報
の再利用以外にも多様な応用が可能である。従って、本発明の方法により、デー
タベースや各種記録媒体(例えば、磁気記録媒体や光記録媒体など)へのアライ
ンメント情報の保存効率が飛躍的に高まり、大量のアラインメント情報を蓄積し
、それらの再利用が容易なデータベースをより有効に作成することが可能になる
【0079】 また、配列情報とギャップ情報とを分離して管理できるため、データベースの整
合性及び保守性を保つことが容易になる。特に、リレーショナルデータベースに
おいては、より正規化された状態でデータが扱えるため、データベース利用の可
能性がさらに高まる。さらに、本発明の方法に従ってアラインメント情報を送信
する場合には、受信側にすでにある配列情報を送信せずに済み、通信効率が向上
するとともに、受信側でアミノ酸配列情報の重複が生じない。特に膨大な量のア
ラインメント情報を送信する場合のほか、データベースの複製を通信を通して作
成する場合や、クライアント-サーバーシステムの間でアラインメント情報をや
りとりする場合などに有効である。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KR,KZ,L C,LK,LR,LS,LT,LU,LV,MA,MD ,MG,MK,MN,MW,MX,NO,NZ,PL, PT,RO,RU,SD,SE,SG,SI,SK,S L,TJ,TM,TR,TT,TZ,UA,UG,US ,UZ,VN,YU,ZA,ZW

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 アミノ酸配列又は核酸配列のアラインメント情報を配列情報と配
    列間の対応関係を表すギャップ情報とに分離することを特徴とする、アラインメ
    ント情報の記述方法。
  2. 【請求項2】 アミノ酸配列又は核酸配列のアラインメント情報を配列情報と配
    列間の対応関係を表すギャップ情報とに分離し、各情報を1以上の記録媒体で保
    存し、及び/又は検索することを特徴とする、アラインメント情報の保存方法。
  3. 【請求項3】 少なくともギャップ情報を1以上の記録媒体に保存する請求項2
    に記載の方法。
  4. 【請求項4】 ギャップ情報のみを保存する、請求項2に記載の方法。
  5. 【請求項5】 ギャップ情報が、2以上の配列間のアラインメント情報に存在す
    るギャップ部分の位置及び長さを示す残基番号及び/又は残基数のデータ、又は
    該データに計算変換可能な数値データに基づいて記述されたものである、請求項
    1ないし4のいずれか1項に記載の方法。
  6. 【請求項6】 ギャップ情報が、アラインメントに含まれない他の配列若しくは
    仮想の配列の残基番号を含むデータ、アラインメント情報の通常の表現形式の欄
    番号、又は該データに計算変換可能な数値データに基づいて記述されたものであ
    る、請求項1から4のいずれか1項に記載の方法。
  7. 【請求項7】 1以上のアラインメント情報から請求項1から6のいずれか1項
    に記載の方法により生成されたギャップ情報のみに基づいて新たなアラインメン
    ト情報についてのギャップ情報を演算により生成させる方法。
  8. 【請求項8】 請求項1から7のいずれか1項に記載の方法により得られたギャ
    ップ情報及び配列情報の両方から通常の表現形式のアラインメント情報を得る方
    法。
  9. 【請求項9】 アミノ酸配列又は核酸配列のアラインメント情報を配列情報と配
    列間の対応関係を表すギャップ情報とに分離し、これらの情報のうち少なくとも
    ギャップ情報を通信することを特徴とする、アラインメント情報の通信方法。
  10. 【請求項10】 配列情報における重複を通信前に除いて、必要最小限の配列情
    報を通信する請求項9に記載の方法。
  11. 【請求項11】 アラインメント情報に実質的に固有なIDを決定する方法であ
    って、ギャップ情報及び配列情報中の配列IDについてのデータの全てのみを用
    い、かつそのデータに基づいて該IDを決定する方法。
  12. 【請求項12】 データレコードであって、少なくとも該データーレコードのI
    Dと、請求項1から10のいずれか1項に記載の方法により生成されたギャップ
    情報及び配列情報中の配列IDとを含むデータレコード、及び1以上の該データ
    レコードを含む記録媒体。
  13. 【請求項13】 データレコードのIDが請求項11に記載の方法により生成さ
    れたIDである、請求項12に記載のデータレコード。
  14. 【請求項14】 少なくとも請求項12又は請求項13に記載のデータレコード
    を用いるアラインメント情報の保存、検索、及び/又は通信方法。
  15. 【請求項15】 ギャップ情報のかわりに対応情報を用いる請求項1から14の
    いずれか1項に記載の方法。
  16. 【請求項16】 配列情報において配列のアイゲン−IDを用いる請求項1から
    15のいずれか1項に記載の方法。
JP2000595291A 1999-01-25 2000-01-25 アラインメント情報の記述及び保存方法 Withdrawn JP2002536710A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP1518999 1999-01-25
JP11-15189 1999-01-25
PCT/JP2000/000355 WO2000043939A1 (en) 1999-01-25 2000-01-25 Describing and storing method of alignment information

Publications (2)

Publication Number Publication Date
JP2002536710A true JP2002536710A (ja) 2002-10-29
JP2002536710A5 JP2002536710A5 (ja) 2007-04-26

Family

ID=11881910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000595291A Withdrawn JP2002536710A (ja) 1999-01-25 2000-01-25 アラインメント情報の記述及び保存方法

Country Status (5)

Country Link
US (2) US20050107960A1 (ja)
EP (1) EP1149356A1 (ja)
JP (1) JP2002536710A (ja)
AU (1) AU3078400A (ja)
WO (1) WO2000043939A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7599801B2 (en) 2001-06-04 2009-10-06 Hitachi Software Engineering Co., Ltd. Profile database and method for preparing profile

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7882122B2 (en) * 2005-03-18 2011-02-01 Capital Source Far East Limited Remote access of heterogeneous data
US10191929B2 (en) * 2013-05-29 2019-01-29 Noblis, Inc. Systems and methods for SNP analysis and genome sequencing
US11222712B2 (en) 2017-05-12 2022-01-11 Noblis, Inc. Primer design using indexed genomic information

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6001562A (en) * 1995-05-10 1999-12-14 The University Of Chicago DNA sequence similarity recognition by hybridization to short oligomers
US5977890A (en) * 1997-06-12 1999-11-02 International Business Machines Corporation Method and apparatus for data compression utilizing efficient pattern discovery

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7599801B2 (en) 2001-06-04 2009-10-06 Hitachi Software Engineering Co., Ltd. Profile database and method for preparing profile

Also Published As

Publication number Publication date
AU3078400A (en) 2000-08-07
WO2000043939A1 (en) 2000-07-27
US20080177479A1 (en) 2008-07-24
US20050107960A1 (en) 2005-05-19
EP1149356A1 (en) 2001-10-31

Similar Documents

Publication Publication Date Title
US8380671B2 (en) System and method for creating a new annotation for a data source
US11106633B2 (en) DNA-based data center with deduplication capability
US20060069677A1 (en) Apparatus and method for searching structured documents
CN101477516B (zh) 一种电子数据处理方法和系统
WO2015074290A1 (zh) 数据库实现方法
CN101082935B (zh) 一种内存数据的非唯一索引检索方法
CN109189759A (zh) Kv存储系统中的数据读取方法、数据查询方法、装置及设备
US20080177479A1 (en) Describing and storing method of alignment information
Dobin STAR manual 2.7. 0a
JP4209692B2 (ja) 図書管理システム及び書誌情報管理方法
JPS63240677A (ja) フアイルシステムの文書登録・検索方法
CN107818136A (zh) 用于回收垃圾对象数据的方法和装置
CN115688711B (zh) 文档合并方法、装置、设备及存储介质
JP2679602B2 (ja) 退避媒体作成システム
WO2004013769A2 (en) Method and apparatus for combining data of biological sequences into a non-redundant data source
JP2002140218A (ja) データ処理方法、コンピュータ読み取り可能な記録媒体及びデータ処理装置
JP2000250922A (ja) 文書検索システム、文書検索装置、文書検索方法および記録媒体
JPH10293707A (ja) 大容量読み出し専用記憶媒体を利用した更新データの活用方法
Das Marc 21: The standard exchange format for the 21 st century
JP2000076358A (ja) 再出力機能付き帳票出力管理システム及び方法
GB2191611A (en) A man-computer data input technique
JP2960270B2 (ja) フロッピー媒体情報データベース処理システム
CN117373549A (zh) 一种环境dna物种条形码参考数据库的构建系统及其方法
JP5966481B2 (ja) データ移行管理装置およびデータ移行管理方法、並びにコンピュータ・プログラム
JPH11143749A (ja) リレーショナルデータベースマネジメントシステムおよびデータ管理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070124

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090624

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090715

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090717

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090730