JP5068414B2 - 少なくとも1つの順序づけされた制限酵素マップを使用して1つ以上の遺伝子配列マップの検証、アラインメントおよび再順序づけを行うためのシステムおよび方法 - Google Patents
少なくとも1つの順序づけされた制限酵素マップを使用して1つ以上の遺伝子配列マップの検証、アラインメントおよび再順序づけを行うためのシステムおよび方法 Download PDFInfo
- Publication number
- JP5068414B2 JP5068414B2 JP2002530700A JP2002530700A JP5068414B2 JP 5068414 B2 JP5068414 B2 JP 5068414B2 JP 2002530700 A JP2002530700 A JP 2002530700A JP 2002530700 A JP2002530700 A JP 2002530700A JP 5068414 B2 JP5068414 B2 JP 5068414B2
- Authority
- JP
- Japan
- Prior art keywords
- map
- dna
- segment
- dna map
- ordered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Description
【発明の属する技術分野】
本発明は、少なくとも1つの順序づけされた制限酵素マップに基づく配列検証のためのシステムおよび方法に関し、より詳細には、マップマッチおよび比較を介して、当該順序づけされた制限酵素マップを使用して、1つ以上の遺伝子配列マップ(例えば順序づけされた制限酵素DNAマップ)の検証、アラインメント(aligning)および/または再順序づけを行うことに関する。
【0002】
【従来の技術】
DNAやRNAの如きヌクレオチド鎖に存在するヌクレオチド基質の配列は、情報コード化タンパク質およびRNAを胆持する。ヌクレオチド配列を正確に判定する能力は、分子生物学における多くの分野にとってきわめて重要である。例えば、遺伝子の研究は、生体の完全ヌクレオチド配列に依存する。人間、鼠、蠕虫、昆虫および微生物を含む様々な生体についての完全ヌクレオチド配列を生成するために多大な努力がなされてきた。
【0003】
サンガージオキシ鎖末端配列技術やマクサムギルバート化学配列技術を含めて、様々な公知のヌクレオチド配列方法がある。しかし、現行の技術では、配列されうるヌクレオチド配列の長さが制限される。より大きなヌクレオチド配列を配列するための技術が開発されてきた。一般に、これらの方法は、大きな配列を細分化して断片とし、それらの断片を複製し、複製した断片を配列することを含む。制限酵素または機械的剪断の利用を通じて該配列を細分化することができる。複製技術としては、コスミドの如きクローニングベクター、バクテリオファージ、および酵母または細菌人工染色体(YACまたはBAC)の利用が挙げられる。ついで、それら断片のヌクレオチド配列を比較し、重複部位を識別し、配列をアセンブルして、重複クローンの集合体である「コンティグ」を形成することができる。重複クローンをアセンブルすることにより、全長配列のヌクレオチド基質の配列を判定することが可能である。これらの方法は、当業者によく知られている。
【0004】
ヌクレオチド配列の精度は、多くの要因によって制限される。例えば、ゲノムDNAの表現が不完全であるために、欠損部分が生じる可能性がある。所望のゲノムDNAと混合した偽のDNA配列が生じる可能性もある。一般的な汚染源は、ベクター誘導DNAおよび宿主細胞DNAである。また、基質の識別の精度は、長配列読み枠の末端に向かって低下する傾向にある。加えて、繰り返し配列は、再アセンブリにおけるエラーおよび/またはコンティグのミスマッチを生じる可能性がある。
【0005】
配列データエラーを軽減するために、一般には断片の配列決定を複数回行う。繰り返し配列によって生じるミスマッチやミスアセンブリのようなエラーを軽減するために、「階層ショットガン配列」手法(「マップベース」の手法、「BACベース」の手法または「クローン毎」の手法とも称する)を利用することが可能である。この手法は、ゲノムを覆う大きな挿入クローンの集合体を生成して編成し、適切に選択されたクローンに対してショットガン配列を行うことを含む。配列情報は局所的であるため、広範囲のミスアセンブリの問題が取り除かれ、狭範囲のミスアセンブリのリスクが軽減される。
【0006】
他の既知の配列および特性付け技術は、制限断片フィンガープリントを生成して、密接な重複が存在するかどうかを判定することにより、BACをフィンガープリントクローンコンティグにアセンブリすることを含む。既存の遺伝子マップおよび物理的マップからの配列標識部位(STS)マーカによってフィンガープリントクローンコンティグを固定することによって、染色体に沿ってフィンガープリントクローンコンティグを配置させることが可能である。プローブハイブリッド形成、または配列されたクローンの直接的な検索によって、これらのフィンガープリントクローンコンティグを特定のSTSに関連づけることが可能である。蛍光原位置ハイブリッド形成によってクローンを配置することも可能である。これらの既知の技術はどれもコストと時間がかかる。
【0007】
ヌクレオチド配列の特性付けを行うための他の手法は、単一分子の順序づけされた制限酵素マップを使用することを含む。単一分子順序づけされた制限酵素マップを作成するために使用される1つの具体的な技術としては、「光学マッピング」が挙げられる。光学マッピングは、個々のDNA分子から順序づけされた制限酵素マップを迅速に作成するための単一分子手法である。順序づけされた制限酵素マップは、個々の蛍光色素染色DNA分子に対する制限エンドヌクレアーゼ切断点事象を視覚化する蛍光顕微鏡検査法を用いて構築されるのが好ましい。制限酵素開裂部位は、弛緩DNA断片(連続した2つの開裂部間の分子)の側面に位置する間隙に見える。相対的な蛍光強度(制限断片への蛍光色素結合の量を示す尺度)または(制限断片にかかる明確な「バックボーン」に沿う)見かけの長さ測定値は、制限断片の正確なサイズ推定値を与えるものであることが証明され、最終的な酵素マップを構築するのに使用されてきた。
【0008】
単一の個々のDNA分子から作成された当該酵素マップは、顕微鏡の解像度、撮像システム(CCDカメラ、量子化レベルなど)、照明および表面状態によって精度が制限される。さらに、消化率、およびDNA分子の強度分布に固有のノイズに応じて、ある程度の確率をもって、制限部位の小さな部分を見落としたり、または擬似の部位を導入しがちである。加えて、検査者は、正確な配向情報(最左の制限部位が最初であるか、または最後であるか)に(まれにではあるが)欠けることもありうる。したがって、このようにして得られた同一のDNAに対する2つの任意の単一分子酵素マップを考えた場合、それらのマップは以下の点においてほぼ同じであると想定される。すなわち、まず配向を選択し、次いで少し異なる制限部位を識別することによってマップを「アラインメント」させると、制限部位のほとんどが、両方のマップにおいてほぼ同じ場所に現れることになる。
【0009】
例えば、本来の方法では、カバーガラスと顕微鏡スライドの間に生成される、制限エンドヌクレアーゼを含有する溶解アガロースの流れのなかで蛍光標識DNA分子を伸長させ、生じた開裂事象を蛍光顕微鏡検査により時間差デジタル化画像として記録していた。アガロースおよび時間差撮像を必要としない第二世代の光学マッピング手法は、伸長したDNA分子を正に帯電したガラス表面に固定することで、サイズ測定精度、ならびに広範囲なクローニングベクター(コスミド、バクテリオファージ、および酵母または細菌人工染色体(YACまたはBAC))に対するスループットを向上させることを含む。
【0010】
DNA配列マップは、制限酵素消化プロセスをシミュレートすることによってヌクレオチド配列について取得される「コンピュータによる(in silico)」順序づけされた制限酵素マップである。所定の方法で、該配列データを解析し、制限部位を識別する。得られた配列マップは、いくつかの識別データに加えて、その要素が塩基対におけるサイズをコード化する断片のベクターを有する。
【0011】
配列データを使用してコンピュータでの制限断片を計算し、そのリストとBACフィンガープリントの実験データベースとを比較することによって、配列クローンを物理的マップのフィンガープリントクローンコンティグに関連づけることが可能である。例えば光学順序づけされた制限酵素マップを生成する従来的なソフトウェアである「ゲンティグ」ソフトウェアを使用して光学マップからゲノムコンセンサスマップを生成する。
【0012】
【発明が解決しようとする課題】
以前は、DNA配列マップの精度を判定する方法がまだ知られていなかった。実際、そのような判定は不可能であるか、信頼性レベルが低いものであった。本発明の目的は、光学マップに対するDNA順序づけされた配列マップの検証を可能にすることが本発明の目的の1つである。本発明の他の目的は、光学マッピングに基づいたDNA配列マップのアラインメントおよび並べ換えを可能にすることである。
【0013】
酵素マップをアラインメントまたは再構築する手法は、E.W.Myer他による「O(N2 lg N)酵素マップ比較および検索アルゴリズム(Restriction Map Comparison and Search Algorithm)」(数理生物学会報(Bulletin of Mathematical Biology)、54(4):599-618、1992年);R.M.Karp他による「光学マッピングのためのアルゴリズム(Algorithms for Optical Mapping)」(RECOMB 98、1998年);Parida,L.,Aによる「順序づけされた制限酵素マップの問題に対する統一的枠組み(Framework for Ordered Restriction Map Problems)」(計算生物学ジャーナル(Journal of Computational Biology)第5巻第4部、Mary Ann Liebert Inc.Publishers、pp 725-739、1998年);Gusfield,Dによる「列、樹木および配列におけるアルゴリズム(Algorithms on Strings,Trees,and Sequences)」(ケンブリッジ大学出版、1997年);ならびにLee,J.K.、Dancik,VおよびM.S.Watermanによる「可逆ジャンプマルコフ連鎖モンテカルロを用いた光学マッピングにより観察された制限サイトの推定(Estimation for restriction sites observed by optical mapping using reversible-jump Markov Chain Mont Carlo)」(J.Comp.Biol.、5、505-516、1997年)。しかし、これらの出版物には、本明細書に記載されている新奇な方法およびシステムは開示されていない。
【0014】
【課題を解決するための手段】
一般に、本発明による、光学順序づけされたマップに対する擬似順序づけされた制限酵素マップの検証およびアラインメントを行うためのシステムおよび方法についての例示的な実施形態は、以下のように具現化することができる。まず、当業者に知られているように、1つ以上の制限酵素による消化プロセスを用いて各分子をいくつかの箇所で切断点することができる。これらの「切断点」分子の各々は、部分的なDNA(光学)順序づけされた制限酵素マップを表すことができる。次いで、完全ゲノム型(光学)順序づけされた制限酵素マップを再構築することが可能である。当該再構築処理は、部分的なマップ、およびエラー源のモデルを想定した妥当性のある仮説の可能性を最大限に高める反復処理によって実施することが可能である(例えばベイズに基づく手順)。
【0015】
検証/アラインメントシステムおよび方法に対するインプットは、好ましくは(なかにDNA配列を含む)酵素マップや(セグメント/断片情報フィールドの可変長ベクターとして表すことのできる)ゲノム型(例えば光学)順序づけされた制限酵素マップであることを理解すべきである。各セグメント情報は、それに関連する2つの情報、すなわちサイズおよび標準偏差を有する。サイズはセグメントの尺度になることができ、セグメント内に存在するヌクレオチドの数に比例する。標準偏差は、好ましくはセグメントサイズ測定に関連するエラーを表す。各マップは、例えば手順による切断点の検出の信頼性の度合いについての2つの尺度、すなわち擬陽性確率および消化確率に関連づけられる。第1の尺度は、切断点が不適切に検出される事象に関する。第2の尺度は、切断点が実際に報告されている箇所に現れる事象に関する。
【0016】
本発明によれば、光学順序づけされた制限酵素マップと擬似順序づけされた制限酵素マップを互いに比較し、それらがマッチしているかどうか、またどの程度マッチしているかを判定する。所定の位置で一方のマップを他方に付き合わせることによって生じるエラーを最小限にすることによってマッチ精度を計算する。この計算を支える例示的な数学的モデルおよび手順は、好ましくはベイズに基づく手順/アルゴリズムである。その計算は、動的計画法(「DPP」)である。しかし、他の手順およびアルゴリズムを利用してもこれらのマップを比較して、本発明による少なくとも1つの当該マップ検証およびアラインメントを行うことができることを理解すべきである。
【0017】
ベイズに基づく例示的な手順を本発明のシステムおよび方法に用いて、仮説を得ることができるとともに、(仮説に基づく)所定の事象の確率を定めることができる。この確率は、従来的な様々なエラー源のモデルを用いて計算される数式であるのが好ましい。当該数式を用いる例示的な最適化処理によって、その数式を最大化または最小化することができる。
【0018】
見込まれるすべてのマッチの組合せに対する全体的な確率式の極値を見いだすために、上述のベイズに基づく例示的な手順によって定められた問題に対して従来のDPPを使用することが可能である。例えば、好ましくは、DPPは、所定の方法で部分的な解を展開しながら特定数の代替解を追跡することによって、上記定めた数式に対する一群の極値を計算することができる。すべての代替解をテーブルに維持することができるため、関連する尤度またはスコア関数を評価する必要がある場合にその都度計算し直さなくてもよい。
【0019】
よって、本発明による方法およびシステムは、第1のDNAマップの順序づけされたセグメントと第2のDNAマップの順序づけされたセグメントとを比較して、第1のDNAマップおよび/または第2のDNAマップの精度レベルを判定するものである。特に、第1および第2のDNAマップを受領することが可能である(第1のDNAマップは配列DNAマップに相当し、第2のDNAマップは、光学DNAマップにおいて提供されるゲノムコンセンサスDNAマップに相当する)。次いで、第1および第2のDNAマップに関連する情報に基づいて、第1のDNAマップおよび/または第2のDNAマップの精度を検証する。
【0020】
本発明の他の実施形態では、第1のDNAマップの順序づけされたセグメントと第2のDNAマップの順序づけされたセグメントとの間に1つ以上のマッチが存在するかどうかを判定することによって第1のDNAマップおよび/または第2のDNAマップを検証する。さらに、第1のDNAマップの順序づけされたセグメントと第2のDNAマップの順序づけされたセグメントとの間に存在するいくつかのマッチを得ることが可能である。
【0021】
本発明のさらに他の実施形態では、第1のDNAマップが、第2のDNAマップから欠落している1つ以上の切断点を含むかどうかを判定することによって第1のDNAマップおよび/または第2のDNAマップを検証する。また、その後、第1および第2のDNAマップに基づく欠落切断点の数および位置を得ることが可能である。
【0022】
本発明のさらなる実施形態によれば、第2のDNAマップが、第1のDNAマップに存在しない1つ以上の切断点を含むかどうかを判定することによって、第1のDNAマップおよび/または第2のDNAマップを検証する。該検証は、第1のDNAマップが、第2のDNAマップから欠落している1つ以上の切断点を含むかどうかを判定し、第1および第2のDNAマップに基づく欠落切断点の第1の数および位置を取得し、第2のDNAマップが、第1のDNAマップに存在しない1つ以上の切断点を含むかどうかを判定し、かつ第1および第2のDNAマップに基づく不在切断点の第2の数および位置を求めることによって実施することもできる。さらに、マッチの数がマッチしきい値より小さい場合、欠落切断点の第1の数が第1の所定のしきい値より大きい場合、かつ/または不在切断点の第2の数が第2の所定のしきい値より大きい場合は、エラー指示を生成することが可能である。
【0023】
本発明の他の実施形態では、第1のDNAマップは、識別データ、および第1のDNAマップのセグメントの少なくとも1つのベクターを含むことができる、DNA配列から得られたコンピュータによる順序づけされた制限酵素マップである。第1のセグメントの少なくとも1つのベクターは、DNA配列の塩基対のサイズをコード化することができる。さらに、第2のDNAマップは、識別データ、およびその順序づけされたセグメントを表す少なくとも1つの可変長ベクターを含むことができる。
【0024】
本発明のさらに他の実施形態では、第2のDNAマップは、ゲノム型順序づけされた制限酵素マップの部分列として定められる。また、以下の確率密度関数を用いて、第1のDNAマップおよび第2のDNAマップの少なくとも1つの精度を判定することによって検証を行う。
【数3】
【0025】
本発明の他の実施形態では、第2のDNAマップの配向に対する第1のDNAマップの配向の関数として精度を検証することができる。また、該検証は、第1および第2のDNAマップに対して動的計画手順(DPP)を実行して、部分および完全アラインメントスコアの第1のテーブル、ならびに切断点およびセグメントマッチの数および位置を追跡するための第1の補助テーブルおよび第1のデータ構造を生成し、第1のDNAマップのリバースマップである第3のDNAマップを受領し、第2および第3のDNAマップに対してDPPを実行して、部分および完全アラインメントスコアの第2のテーブル、ならびに切断点およびセグメントマッチの数および位置を追跡するための第2の補助テーブルおよび第2のデータ構造を生成し、第1のテーブルの最終列および第2のテーブルの最終列を解析して、第1および第2のDNAマップの少なくとも1つの最適アラインメントを取得し、かつ第1および第2の補助テーブルおよびデータ構造を用いて最適アラインメントおよび/または準最適アラインメントを再構築することによって実施することができる。
【0026】
本発明のさらに他の実施形態によれば、第1のDNAマップのセグメントのうちの1つ以上の左端セグメントの突出部を第2のDNAマップの少なくとも1つにマッチさせ、かつ/または第1のDNAマップのセグメントのうちの1つ以上の右端セグメントの突出部を第2のDNAマップの少なくとも1つにマッチさせることによって精度を検証することができる。さらに、第2のDNAマップに対する第1のDNAのアラインメントであって、第2のDNAマップに沿う第1のDNAマップのセグメントの配列位置を示すアラインメントを検出することが可能である。
【0027】
さらに、本発明による方法およびシステムについての他の実施形態は、DNAマップにより複数のDNA配列をアラインメントするものである。まず、DNA配列およびDNAマップを受領することができる(DNA配列はゲノムの断片で、DNAマップは、順序づけされた制限に関連するゲノムコンセンサスDNAマップ、例えば光学DNAマップに相当する)。次いで、DNA配列およびDNAマップに関連する情報に基づいてDNA配列およびDNAマップの精度レベルを検証する。DNA配列をDNAマップの特定のセグメントに関連づけることが可能なDNAマップの位置を特定する。さらに、各々の位置についての各々のDNA配列に対する位置のうちの最適な位置を特定することによって(検証することなく)DNAマップの位置を得ることが可能である。
【0028】
本発明の他の実施形態では、各々のDNA配列について位置を判定し、それらを、相当するDNA配列が固定可能なDNAマップ上の位置とすることができ、これらの位置はDNAマップに対するDNA配列の少なくとも1つのアラインメントを定めることができる。そのアラインメントは、DNAマップに対するDNA配列の複数のアラインメントを含み、所定の基準に基づいてその複数のアラインメントのランク付けを行って、複数のアラインメントの各々に対する特定のスコアを含むスコア集合を得ることができる。該判定は、DNAマップに対する複数のアラインメントの第1の順序のDNA配列を提供し、スコア集合に対応する第2の順序になるDNA配列を選択することによって、DNAマップに対して、各々のDNA配列についての位置を判定することによって行うことができる。
【0029】
本発明のさらに他の実施形態では、各々のDNA配列をDNAマップ上の位置のうちの1つの位置にのみ関連づけられるように制限することによって位置の判定を行うことができる。また、当該判定により、DNAマップに対するDNA配列の単一の配列を生成することができる。
【0030】
本発明のさらに他の実施形態では、各々のDNA配列に対する位置のうちの最適な1つの位置を特定して各々の位置に対するアラインメント解を得ることによって判定を行うことができる。また、各後続位置について最適位置の特定を繰り返し、かつ前の位置特定手順によるアラインメント解を除外することができる。さらに、少なくとも1つの特定の制約を緩和してそれぞれの位置を判定することによって各々の後続の位置特定手順を実施することができる。特定の制約は、好ましくはDNAマップ上のそれぞれの位置に関連づけられるときにDNA配列のうちの2つの配列が重複するのを避ける第1の要件を含む。特定の制約は、DNAマップ上のそれぞれの位置に最大数のDNA配列を関連づける第2の要件、ならびにDNAマップ上の位置に対するDNA配列のアラインメントの総合スコアを最小化または最大化する第3の要件を含むことができる。第2の要件および第3の要件にそれぞれの重みを割り当てることも可能である。
【0031】
添付の図面を併用して以下の説明を参照することにより、本発明およびその利点がより完全に理解される。
【0032】
【発明の実施の形態】
図1は、本発明によるマップのマッチングおよび比較を介して、光学(コンセンサス)マップを用いた遺伝子配列の検証、アラインメントおよび/または並べ換えを行うためのシステムの第1の例示的な実施形態を示す図である。本実施形態において、システムは、光学配列マッピングデータおよびDNA配列データを受領できるように通信ネットワーク100(例えばインターネット)に接続される処理装置10を含む。処理装置10は、ミニコンピュータ(例えばヒューレットパッカードミニコンピュータ)、パーソナルコンピュータ(例えばペンティアム(登録商標)チップベースのコンピュータ)、大型コンピュータ(例えばIBM 3090システム)などとすることができる。DNA配列データはいくつかの源から提供されうる。例えば、このデータは、GenBankデータベース(NIH遺伝子配列データベース)から得られるGenBankデータ110、サンガーセンタデータベースから得られるサンガーデータ120、および/またはセレーラゲノミクスデータベースから得られるセレーラデータ130でありうる。これらは、公的に利用可能な遺伝子データベース、または最後のケースは民間の商用遺伝子データベースである。光学配列マッピングデータは、外部システムから得ることのできる光学マッピングデータ140に相当する。例えば、当該光学マップデータ、すなわち光学マッピング順序づけされた制限データは、その全開示内容を本願に引用して援用する米国特許第6,174,671号に記載の方法によって生成することが可能である。特に、この米国特許に記載の方法では、制限酵素によって消化される個々のDNAの個体群の画像から作成されたデータに基づいて高解像度、高精度の順序づけされた制限酵素マップが生成される。
【0033】
図1に示されるように、処理装置10が、通信ネットワーク100を介して光学マッピングデータおよびDNA配列データを受領した後、DNA配列データおよび/または光学マッピングデータの精度の検証および判定、検証手順の結果に基づくDNA配列データのアラインメント、ならびにその記録でありうる1つ以上の結果20を生成することができる。図2は、光学マッピングデータ140を外部の源からシステム10に、当該データ転送のための通信ネットワーク100を使用することなく直接送信する、本発明によるシステム10の他の実施形態を示す図である。図2に示されるこのシステムの第2の実施形態において、DNA配列データ110、120、130も、図1の第1の実施形態に示される通信ネットワーク100使用することを必要とせずに、1つ以上のDNA配列データベース(例えばサンガーセンタデータベース、セレーラゲノミクスデータベースおよび/またはGenBankデータベース)から直接送信される。処理装置10に設けられた、または接続された記憶装置から光学マッピングデータ140を得ることも可能である。当該記憶装置は、当業者に知られているハードドライブやCD-ROM等でありうる。
【0034】
A.検証方法およびシステム
全体的な流れ図
図3は、好ましくは図1および2の処理装置10によって実行される本発明による方法の例示的な実施形態である。この例示的な実施形態において、光学マッピングデータ140は、アラインメントされた単一分子マップ間の局所的変動を考慮することによって、このデータ140に基づいて、1つ以上のコンセンサスマップ260を構築する技術250に送られる。当該技術250の一例としては、その全開示内容を本願に引用して援用する、T.Anantharaman他による「光学マッピングIIによるゲノミクス:順序づけされた制限酵素マップ(Genomics via Optical Mapping II: Ordered Restriction Maps)」(計算生物学ジャーナル(Journal of Computational Biology)4(2)、1997年、pp.91-118)、ならびにT.Anantharaman他による「光学マッピングIIIによるゲノミクス:コンティギングゲノムDNAおよび変動(Genomics via Optical Mapping III:Contiging Genomic DNA and Variations)」(AAAI出版、分子生物学のためのインテリジェントシステムに関する第7回国際会議、ISMB 99、第7巻、1999年、pp.18-27)に記載されているような「ゲンティグ」コンピュータプログラムが挙げられる。特に、「ゲンティグ」ソフトウェアは、ベイズに基づく(確率論的)手法を使用して、光学マッピングデータから「コンティグ」を自動的に生成する。例えば、全微生物ゲノムに対して「コンティグ」をアセンブルすることが可能である。「ゲンティグ」ソフトウェアは、擬陽性重複確率が許容されない「コンティグ」を除いて、確率密度の増加が最大になる2つの島を反復的に組み合わせる。例えば、プログラムにおける4つのパラメータを変えて、プログラムが「コンティグ」する分子の数を変化させることで、コンセンサスマップを形成する。コンセンサスマップの詳細については以下により詳しく説明する。
【0035】
本発明の例示的な実施形態によれば、DNA配列データ(例えばGenBankデータ110、サンガーデータ120およびセレーラデータ13)を、処理装置10によって実行されるコンピュータプログラムでありうるデータベース収集接合点200で収集することが可能である。この収集は、手動で(例えば特定のDNA配列を取得する処理装置10のユーザによって)かつ/または処理装置10または他の外部装置を使用して自動で介しかつ/または制御することが可能である。1つ以上のDNA配列データベース110、120、130からDNA配列データを収集すると、データベース収集接合点200は、特定のDNA配列210または当該DNA配列の一部を出力する。その後、このDNA配列210(またはその一部)に対するデータは、制限酵素消化プロセスをシミュレートして「コンピュータによる」順序づけされた制限配列マップ230を生成する技術220に送られる。
【0036】
その後、本発明のシステムおよび方法は、光学コンセンサスマップ260に示されたデータに基づいて、順序づけされた制限配列マップ230の精度を判定する検証アルゴリズム270を実行する。この結果を、スコア(例えば各順序づけされた制限酵素マップについてのランク)、2値出力(例えば有効対非有効精度)などの応答形式で1つ以上の結果280として出力することができる。
【0037】
コンセンサスマップおよび配列マップに関する詳細な情報を以下に示す。
【0038】
コンセンサス(光学)マップ
コンセンサス光学マップは、特定の識別データから構成される構造的アイテム、および断片から構成される可変長ベクターとして表されるゲノム型順序づけされた制限酵素マップとして定義づけることができる。例えば、各断片を3つの正の実数の組とする断片のベクターによってコンセンサスマップを表すことができる。
【数4】
上式において、ciはベルヌーイ試行に関連する切断点確率で、liは、ガウス分布がσiに等しい推定標準偏差を有するランダム変数の平均値に関連する断片サイズである。例えば、断片ベクターの全長をNとすることができる。また、断片のベクターに0からN-1の索引を付けることも可能である。
【0039】
各々の分子マップを表面に伸びる分子の画像から取得し、「ゲンティグ」プログラムで実現されるベイズのアルゴリズムによってさらに併合することができるいくつかのゲノム単一分子マップからコンセンサスマップを作成することが可能である。上述のように、「ゲンティグ」プログラムは、アラインメントされた単一分子マップ間の局所的な変動を考慮することによってコンセンサスマップを構成することが可能である。
【0040】
配列マップ
一般に知られるように、集合{A,C,G,T,N,X}から得られる文字列である。これらの文字は、バイオインフォマティックスの分野での標準的な意味を有する。具体的には、文字A、G、C、TはDNA基質で、Nは「未知」で、Xは「間隙」をである。
【0041】
配列マップは、制限酵素消化プロセスをシミュレートすることによって配列から得られる「コンピュータによる」順序づけされた制限酵素マップである。したがって、各配列マップは、いくつかの識別データに加えて、それらの要素が塩基対におけるサイズを正確にコード化する断片のベクターを有する。配列マップのj番目の要素は、断片のサイズである数ajとして定義づけられる。配列マップベクターの全長をMとする。断片ベクターに0からM-1の索引をつける。
【0042】
したがって、各配列マップは、要素が塩基対におけるサイズを正確にコード化する断片のベクターに加えて、DNA配列データ110、120、130の識別データの少なくとも一部を有する。配列マップ断片ベクターのj番目の要素は、断片のサイズに相当する数ajを示す。一例として、順序づけされた制限配列マップ断片ベクターの全長をMとすることができる。したがって、断片ベクトルに0からM-1の索引をつけることができる。
【0043】
全体的な方法の説明
図4は、配列マップの制限消化をシミュレートし、次いでコンセンサス光学規則酵素マップおよび/または擬似順序づけされたマップの精度を検証する、本発明による方法の実施形態の例示的なフローチャートを示す図である。図1および2に示される処理装置10によってこの方法を実行することができる。このフローチャートに示されるように、処理装置10は、ステップ310において、図3に示されるコンセンサス光学マップ260でありうる光学順序づけされた制限データを受領する。次いで、ステップ320において、処理装置10は、好ましくはやはり図3に示されるDNA配列210であるDNA配列データを受領する。ステップ330において、配列データの制限消化をシミュレートして、配列マップ230としてやはり図3に示される擬似(コンピュータによる)順序づけされた制限酵素マップを取得する。その後、ステップ340において、光学順序づけされた制限酵素マップおよび/または擬似順序づけされた制限酵素マップの精度を検証して、好ましくはそれぞれのなかで可能氏の高いマッチを特定する。最後に、ステップ350において、検証の結果を生成する。
【0044】
例示的な方法の検証手順の例示的な実施形態
図5Aは、図4に示される方法のステップ340に利用される例示的な検証手順の実施形態の詳細なフローチャートを示す図である。特に、光学順序づけされた制限酵素マップの現行の断片と擬似順序づけされた制限酵素マップのそれぞれの断片とを比較して、もっとも可能性の高いマッチの1つ以上の集合体を得る(ステップ3410)。次いで、処理装置10は、ステップ3420において、擬似順序づけされた制限酵素マップのすべての断片がチェックされたかどうかを判定する。チェックされていなかった場合は、擬似順序づけされた制限酵素マップの次の断片を現行の断片としてステップ3430においてチェックを行い、擬似順序づけされた制限酵素マップの現行の断片についてステップ3410の比較を再度繰り返す。そうでない場合は、擬似順序づけされた制限酵素マップのすべての断片がチェックされたと判定されるため、ステップ3440においてすべての断片をランクづけし、処理装置10は、ステップ3450において最良のマッチを判定する。処理装置10は、最良のマッチのランクが所定のしきい値より大きいと判定すると(ステップ3460)、光学順序づけされた制限酵素マップおよび/または擬似順序づけされた制限酵素マップの精度を検証する(ステップ3470)。あるいは、ステップ3480において、当該精度を検証しない。図5Aに示される例示的な検証手順は、断片に対して一度または複数回実施できることを理解すべきである。
【0045】
図5Bは、光学順序づけされた制限酵素マップの断片と擬似順序づけされた制限酵素マップの断片とを比較して最も可能性の高いマッチの1つ以上の集合体を得る図5Aのステップ3410から3430の例示的な流れ図の詳細な例を示す図である。具体的には、ステップ4010において、以下により詳細に説明する確率Pr(D/H( ,pc,pf))を、擬似順序づけされた制限酵素マップ(すなわち配列マップ)の断片に対する光学順序づけされた制限酵素マップ(すなわちコンセンサスマップ)の断片の可能なアラインメント毎に計算する。次いで、ステップ4020において、コンセンサスマップのすべての断片および配列マップのすべての断片に対して演算を展開することによって、最丈推定値(「MLE」)としての全体的なマッチ確率を計算する。
【0046】
配列およびコンセンサスマップに対する本発明による方法の例示的な実施形態の例示的な応用形態を、図6A〜6Gを参照しながら以下により詳細に示す。
【0047】
問題の統計的説明
図6Aは、(擬似順序づけされた制限酵素マップに相当する)配列マップおよび(光学順序づけされた制限酵素マップに相当する)コンセンサスマップを必要とするマッチング手順の例示的な設定を示す図である。配列マップは、好ましくは理想マップ、すなわち解析されるベイズの問題の仮説Hと見なされるのに対して、コンセンサスマップは、好ましくは仮説Hに対して検証されるデータDと見なされる。このようにして以下の確率密度関数が形成される。
Pr(D/H( ,pc,pf))
上式において、[ ]は、マップ全体標準偏差データ(例えば[ ]=ある関数'fに対するf( i))、pcは切断点確率、pfは擬陽性切断点確率である。この計算は図5bに示され、上述されている。
【0048】
理想的なシナリオ
理想的なシナリオでは、配列マップの配向は既知で、偽切断点がなく、また欠落切断点もなく、すなわちpc=1およびpf=0であるため、以下により詳細に説明するように、これらのパラメータに関連する項は存在しない。例えば、コンセンサスマップにおける位置hをとると、コンセンサスマップ断片のサブベクターは位置hからN-1に与えられる。また、配列マップの全断片ベクターは、例えば0からM-1になりうる。本発明の説明を簡単にする目的で、lh+iの代わりにliが利用できるように、コンセンサスマップ断片サブベクターのh位置の項を取り除き、位置の項0からコンセンサスマップ断片をカウントすることが可能である。
【0049】
コンセンサスマップのi番目の断片と、配列マップの対応する断片との間のマッチを得るために、コンセンサスマップと配列マップがどの程度ずれているかを評価するのが好ましい。各々のマップのi番目の断片に対してガウス分布を利用するのが好ましく、以下の式を評価することができる。
【数5】
【0050】
上式が与えられ、かつ配列マップが正確である(すなわちPr(H)=1)と仮定すると、全体的なPr(D|H(σ,...))関数を以下の式で表すことができる。
【数6】
【0051】
検証の尤度を最大化するために、簡略式の対数を利用し、以下の式を求めるのが好ましい。
【数7】
この式は、対数尤度を最大化するため、最丈推定値(「MLE」)を与える。
【0052】
MLEの第一項はある位置から他の位置にかけて大きく変化しないため、「重み付きエラー平方和」費用関数を最小化することによって問題を単純化するのが好ましい。
【数8】
関数F(D,...)を最小化することによって、(Dで表される)コンセンサスマップに対する(Hで表される)配列マップの「最良のマッチ」を得ることができる。
【0053】
本発明によれば、コンセンサスマップに対する配列マップの2つの可能な配向を考慮に入れるのが好ましい。以下では、コンセンサスマップにおける偽切断点および欠落切断点を考慮する。
【0054】
配向
その配向を「逆転」させることによって、コンセンサスマップに対して配列マップを評価することができるため、Pr(D, ,...|H)の式を以下のように書き換えることが可能である。
Pr(D,|H(...))=max[Pr1(D,|H(...)),Pr2(D|HR(...)]
ただし、HRは逆配列マップを表す。既に示したように、以下の関数Fを導くことが可能である。
F(D,H)=max[F1(D,H),F2(D,HR)]
【0055】
したがって、F2(D,HR)の式は以下のようになる。
【数9】
【0056】
偽切断点および欠落切断点
マッチング処理において正確にエラーをモデル化するために、偽切断点および欠落切断点を考慮に入れるのが好ましい。例えば、マッチング処理を以下の2つのパラメータでモデル化することができる。
・好ましくは、配列マップにおける欠落制限部位を確率pc(すなわち「切断点」確率)によってモデル化する。特に、pc=1は、マップのなかに実際に制限部位が存在することを意味し、0≦pc<1は、いくつかの欠落切断点が存在することを意味するなどである。
・好ましくは、コンセンサスマップにおける偽制限部位を比率パラメータpf(すなわち「偽」切断点確率)によってモデル化する。例示的なケースにおいて、0<pf≦1は、コンセンサスマップがいくつかの偽切断点を有する可能性があることを意味する。
これらのパラメータは、Pr(...)で示される式に含められるのが好ましく、したがって上記の関数F(...)に含められるのが好ましい。
【0057】
例1:欠落切断点も偽切断点も存在しない場合。図6Bに示される本例では、好ましくは、コンセンサスマップ620のi番目の断片に対して配列マップ610のi番目の断片をマッチさせるための項に切断点確率pcが考慮される。したがって、以下のような式になる。
【数10】
上式は、負の対数尤度をとると、費用関数を与える。
【数11】
【0058】
例2:欠落切断点が存在し、偽切断点が存在しない場合。本例において、また図6Cに示されるように、本発明のシステムおよび方法の例示的な実施形態には、対応する切断点をコンセンサスマップ610に有さない配列マップ630における切断点が考慮される。配列マップ630におけるj断片とj-1断片の集合に対するi番目のコンセンサスマップ断片のマッチが試みられる。例えば、欠落切断点を考慮に入れることによってガウス式の演算に「ペナルティを加える」。主項は以下のようにモデル化することができる。
【数12】
上式は費用関数を与える。
【数13】
【0059】
例3:欠落切断点が存在せず、いくつかの偽切断点が存在する場合。この場合において、また図6Dに示されるように、例2と逆の場合が考慮されている。確率Pfのベルヌーイ試行としてコンセンサスマップ640の偽切断点事象をモデル化することが可能である。例えば、当該マッチングのための全項は、配列マップ620のj番目の断片に対するコンセンサスマップ640の断片iおよびi-1を総計したものになる。全項は以下のように表されることになる。
【数14】
再び負の対数尤度をとると、以下の式が得られる。
【数15】
光学マッピング処理から得られた現行データについてはPf 10-5であることに留意されたい。この現行データは、しばしば完全式を支配する。
【0060】
例4:いくつかの欠落切断点が存在し、いくつかの偽切断点が存在する場合。いうまでもなく、図6Eに示されるように、欠落切断点と偽切断点がともに存在することも考えられる。コンセンサスマップ650におけるj-v切断点に対して配列マップ660におけるi-u切断点を性格にマッチまたはアラインメントさせることが可能である。配列マップ660におけるすべての介在欠落切断点およびコンセンサスマップ650におけるすべての介在偽切断点を適切に処理することによって、2つのマップにおける(i+1)番目の切断点(コンセンサスマップ650および配列マップ660の両方におけるi番目の断片の直後の切断点)を適切にマッチさせることが可能である。この場合、「マッチ項」は以下の一般式を有する。
【数16】
負の対数尤度をとると、以下の式が得られる。
【数17】
【0061】
B.動的計画手順
動的計画手順(「DPP」)として光学マップに対する配列マップの検証を行うことができる。DPPの詳細な説明は、その全開示内容を本願に引用して援用するT.H.Cormen他による「アルゴリズム入門(Introduction to Algorithms)」(MIT出版およびマグローヒル、1990年)、D.Gusfieldによる「列、樹木および配列におけるアルゴリズム(Algorithms on Strings,Trees,and Sequences)」(ケンブリッジ大学出版、1997年)に示されている。本発明による方法に対する例示的なDPPを以下に示す。
配列マップ検証手順(配列マップ、コンセンサスマップ)/*他のパラメータ、例えばpf、pc、kなどを指定する。*/
開始
コンセンサスマップおよび配列マップに対してDPPを実行する;
コンセンサスマップおよび逆配列マップに対してDPPを実行する;
両方のDPPテーブルの最終列を調べることによって、k個の「最良」アルゴリズムを収集し、それらを「戻す」。
終了
【0062】
このDPP手順を複数回実行することができる。配列マップおよびその逆配列マップについての2つのアラインメントが同等のスコアを有する可能性はほとんどない。DPPの主要漸化式から開始して、配列マップ対コンセンサスマップマッチング式の公式を得るのが好ましい。
【0063】
動的計画の主要漸化式
以下に提示する説明では、コンセンサスマップにおける断片を示すのに指数iを用い、配列マップにおける断片を示すのに指数jを用いるものとする。コンセンサスマップはM個の断片を有し、配列マップはN個の断片を有するものとすれば、DPPは、好ましくはN×M個のマッチングテーブルTを利用することができる。項目T[I,j]を考慮すれば、この項目は、おそらくマッチング関数F(...)の部分計算値を含む。例えば、見込みのあるすべての断片対断片のマッチを考慮に入れることによって、F(...)を「左」から「右」に漸進的に計算することになる。
【0064】
項目T[i,j]に対する主要漸化式は以下のように与えられる。
【数18】
【0065】
それぞれのサイズuおよびvを判定する必要がある。本発明の1つの例示的な実施形態では、サイズuおよびvは好ましくはiのサイズに依存する。本発明の他の例示的な実施形態では、uおよびvは、DNA分子を分解する「生体内」実験の消化率にも依存しうる。しかし、実用的な範囲は、例えば標準偏差の3倍でありうる(実際上は値3によって近似することができる)。この範囲は、好ましくはDPPのパラメータになる。このように、各項目T[・・,]の演算には、約9つの近隣または隣接項目が考慮されることになる。
【0066】
初期条件についての単純モデルは、好ましくは以下のように表される。
i∈[1,N]については、T[i,0]≒∞
j∈[1,M]については、T[i,0]≒0
このモデルでは、配列マップの「内部」断片に対してコンセンサスマップの第1の断片を全くマッチさせないか、またはそのマッチに大きなペナルティを加えるのが好ましい(∞値を有する第1行を参照)。また、(第1の2つのゼロ値によって)非常に中立的な配列モデルの第1の断片に対してコンセンサスマップの任意の断片をマッチさせることが可能である。より複雑なモデルでは、例えばi番目の断片のサイズのみを考慮に入れることによって動的計画テーブルの第一列を初期化する。上述の境界条件についての完全モデルの例示的な記述を以下に示す。
【0067】
左右末端断片の演算
左断片および右断片の計算(すなわち初期条件および最終条件)に対するより精密かつ高精度のモデルを提供することが可能である。当該モデルには、配列マップの左または右側の特定の断片がコンセンサスマップの任意の断片に「適切にマッチ」しない場合が考慮されている。
【0068】
I.左端ペナルティ演算
図6Fに示されるように、第1の「マッチング断片」は、配列マップ680からのa2とコンセンサスマップ670からのljで、それぞれのサイズによって識別される。一般的なケースでは、配列マップ680の断片iがコンセンサスマップ670の断片jにマッチする。
【0069】
配列マップ680の断片a0の解析は以下の通りである。たいてい、(実際の制限部位にマッチしないものと想定できる)断片a0の左端は、コンセンサスマップ670の断片i-n(0≦n≦i)の境界内におさまることになる。
【0070】
この枠組みのなかで、配列マップ680の左端断片の「マッチ」に割り当てることが可能な最小値は、以下の3つの場合のいずれかに相当する。
・配列マップ680の第1の左端断片の延長によるマッチ。
・配列マップの断片iがコンセンサスマップ670の断片jにマッチするまでマッチ不良。
・コンセンサスマップ670における断片への延長を伴わないマッチ。
【0071】
例1:a0をxだけ延長させることによるマッチ。(図6Fに示されるように)a0を追加サイズxだけ「延長」させる場合は、断片i-n(例えば図6Fに示されるサイズli-2の断片)の左側の切断点にマッチするようにxを可能な限り左方に延長させる。
【0072】
(「正規の場合」について行われる微分のトップに確立される)このマッチの値は、以下の式で与えられる。
【数19】
【0073】
この場合の式は、正規の場合には現れなかった2つのパラメータに依存する。
・延長サイズであるx(第二項および第三項に存在することに留意されたい)。
・分子マップ平均断片サイズであるL。
【0074】
第2の小項は、好ましくは延長サイズxを考慮した正規の「サイズ決めエラー」ペナルティである。第3の小項は、その式の全体構造に対して引き延ばされている左断片の量に基づいて追加のペナルティを加えることができる。その式を利用するためには、xの位置に関して最小になる箇所を見いだすことが有益である。このようにして微分を行うことにより、xを以下のように設定することによって式を最小化することができる。
【数20】
この値を元の式のxに代入することによって、以下の式が得られる。
【数21】
ここでも、最後の2つの小項に、それぞれ偽切断点および欠落切断点を考慮することができる。配列マップに少なくとも1つの「良好な」切断点が存在するものと想定することが可能である。
【0075】
例2:延長を伴わず、iとjがマッチするまでマッチ不良。この場合は、配列マップの断片iがコンセンサスマップの断片jにマッチしたときに第1の「良好なマッチ」が特定される。この場合に相当する式を以下に示す。
【数22】
この式では、両マップにおけるすべての欠落マッチおよび偽マッチが考慮される(またおそらくは補正される)(例えば、j+1項には欠落切断点として0番目の切断点が考慮される)。
【0076】
ケース3:コンセンサスマップにおける断片への延長を伴わないマッチ。コンセンサスマップの断片iと配列マップの断片jとの間に「良好なマッチ」が存在するものと想定し、本セクションの例1と同様に、(配列マップの断片0-サイズa0-の末端が存在する範囲内にある)コンセンサスマップからの断片にi-nの索引をつける。
【0077】
次いで、配列マップの断片0と、コンセンサスマップの断片iまでのn個の断片の任意の断片とのマッチを試みる。途中に存在しうるすべての欠落切断点および偽切断点を考慮に入れる。(kに依存する)以下の式を最小化する試みは、最良の末端マッチについて、例1および2の式とおそらく競合することになる。
【数23】
【0078】
II.右端ペナルティ演算
図6Gは、右端ペナルティ演算、すなわち配列マップ690および/またはコンセンサスマップ680の末端をなす断片に対する右端ペナルティ演算に利用されるマップの例示を示す図である。この演算は、上述の左端ペナルティ演算とほぼ対称的なものである。
【0079】
しかし、上述の左端ペナルティ演算に対して非対称的な演算とする、右端演算について考慮すべき相違点が存在する。コンセンサスマップ670の断片iと配列マップ690の断片jとの間の「最後の良好なマッチ」を考慮する場合に、その点に至るまでのマッチのスコアなるものも考慮すべきである。特に、T[j,i]の値を考慮すべきである(したがって、その値をその点において利用可能であると想定する)。
【0080】
したがって、左端演算のように、3つの項を考慮する必要がある。それらは、左端演算についての3つの項と類似しているが、意味をもつようにT[j,i]で増強される必要がある。
【0081】
III.例示的な検証手順の説明
図7は、動的計画原理、ならびに図6Fおよび6Gに示される配列マップおよびコンセンサスマップを利用した本発明による検証手順の例示的な流れ図および構成の詳細な例を示す図である。各ボックスは、「動的計画」的問題の解を表す。特に、マップデータが左端テーブル360に提供され、次いでそこから当該データの少なくとも一部が中間テーブル365に送られる。左端テーブル360と中間テーブル365の両方の出力がブロック370で統合され、統合された結果が結果テーブルI375に送られる。次いで、結果テーブルI375からのデータの少なくとも一部が右端テーブル380に送られ、統合された結果が結果テーブルII385に送られる。他のテーブル(例えば左端テーブル360、中間テーブル365および右端テーブル380)に含まれるスコアを用いて、結果テーブルI375および結果テーブルII385におけるデータの計算が行われる。全演算は、これら3つのテーブル360、365および380を以下のように利用する。
・中間テーブル演算にはT[.,.];
・左端ペナルティ演算に対してTL[.,.];
・右端ペナルティ演算に対してTR[.,.]。
特定のテーブルを再利用して、処理装置10のメモリおよびシステム資源を節約することも可能である。この制御の流れによって各テーブル360、365および380の内容が順次生成され、最終的な結果テーブル(例えば結果テーブルII385)を調べて、アラインメントトレースバックを再構築することが可能である。
【0082】
IV.最適化の可能性
全T[.,.]テーブル、すなわち中間テーブル365を満たすことは、それを完成させるためにO(N2M min(N,M))(ただし、Nは配列マップのサイズ、Mはコンセンサスマップのサイズである)の4倍のオーダに相当するものと考えられる。しかし、項目T[i,j]毎に実施される演算に対して限界独立変数を利用することによって中間テーブル365を満たすことをO(NM min(N,M))間で最適化することが可能である。uおよびvが限定されるため、項目毎の演算時間を「一定」と見なすことができる。
【0083】
単純な設定では、中間テーブル365はO(NM)空間を占めるため、Gusfield,Dによる「列、樹木および配列におけるアルゴリズム(Algorithms on Strings,Trees,and Sequences)」(ケンブリッジ大学出版、1997年)に記載されているように、追加の「バックトレース記録」が考慮される場合であっても、やはり4倍とすることができる。
【0084】
「ゲンティグ」プログラムに使用されるスキームと同様のハッシングスキームを介して実行時間を最適化することも可能である。そのような場合は、オーダをさらに高めることによって、時間の複雑度を軽減することができる。
【0085】
実験結果
上述のシステムおよび方法に基づくソフトウェアを使用した第1の実験では、熱帯熱マラリア原虫配列データから得られた「コンピュータによる」マップを、同じ生体についての光学順序づけされた制限酵素マップに対してチェックした。
【0086】
I.熱帯熱マラリア原虫配列データ
熱帯熱マラリア原虫の14の染色体についての配列をサンガー研究所データベース(www.sanger.ac.uk)およびTIGRデータベース(www.tigr.org)から入手した。その実験では、BamHI制限酵素を使用して「コンピュータによる」配列を切断した。得られたマップを(本発明による方法を実施する)ソフトウェアに適切な光学順序づけされた制限酵素マップとともに供給した。
【0087】
染色体2および染色体3についての実験結果(断片の数を示す)、ならびに特定の酵素(例えばNheI)を用いたすべての染色体についての実験結果を以下に示す。
【表1】
【0088】
得られた断片数が上の表に示された、染色体2および染色体3についての2つの「コンピュータによる」マップを生成した。次いで、このようにして生成した分子マップを様々なコンセンサスマップとともに検証チェッカに送った。
【0089】
II.熱帯熱マラリア原虫光学順序づけされた制限
J.Jing他による「熱帯熱マラリア原虫染色体2の光学マッピング(Optical Mapping of Plasmodium Falciparum Chromosome 2)」(ゲノムリサーチ(Genome Research)、9:175-181、1999年)およびZ.Lai他による「全熱帯熱マラリアゲノムのショットガン光学マップ(A shotgun optical map of the entire Plasmodium Falciparum genome)」(自然遺伝子学(Nature Genetics)、23:309-313、1999年)に公表されている光学順序づけされた制限酵素マップ、ならびに「ゲンティグ」プログラムによって生成されたマップをこの実験に利用した。「ゲンティグ」プログラムは、コンセンサスマップの各断片に用いられる総合的な標準偏差の指標の使用を規定したものであった。以下のパラメータを使用した。
【数24】
また、各断片に以下に示す標準偏差が割り当てられた。
【数25】
上式において、lは断片サイズ、Lはコンセンサスマップ断片のサイズの平均値である。
【0090】
III.検証手順の結果
本発明による検証DPPを染色体2および染色体3に対して実行した。以下の制限を加えてDPPを実行した。
・主要漸化式のパラメータuおよびvを3に設定した。
・上述の特殊な演算を用いた配列マップの左端および右端をマッチさせるための手順を使用しなかった。
【0091】
以下の表1〜3に結果の概要を示す。表1および3は、「ゲンティグ」によって生成されたコンセンサスマップに対する染色体2および3についての配列マップのマッチを示す。表2は、M.J.Gardner他による「ヒトマラリア寄生虫である熱帯熱マラリア原虫の染色体2配列(Chromosome 2 sequence of the human malaria parasite Plasmodium Falciparum)」(サイエンス、282:1126-1132、1998年)に公表されているコンセンサスマップに対する配列マップのマッチを示す。表1〜3には、コンセンサスマップに対する配列マップのマッチの位置も示されている。
【表2】
【0092】
特に、表1は、熱帯熱マラリア原虫染色体2の場合について、本発明の検証手順により見いだされた最良の「マッチ」についてのデータを示す。「コンピュータによる」配列マップは、TIGRデータベース配列から得た。ゲンティグプログラムによって生成された75の(光学)コンセンサスマップに対して配列マップ(ならびにそのリバースマップ)をチェックした。75の光学マップは、全熱帯熱マラリア原虫ゲノムを網羅している。その検証手順によって、1302と標示されたマップに対する最良のマッチが特定された。
【表3】
【0093】
表2は、熱帯熱マラリア原虫染色体2の場合について、本発明の検証手順により見いだされた最良の「マッチ」についてのデータを示す。「コンピュータによる」配列マップは、TIGRデータベース配列から得た。M.J.Gardner他による文献に公表されているマップに対して配列マップ(ならびにそのリバースマップ)をチェックした。
【表4】
【0094】
表3は、熱帯熱マラリア原虫染色体3の場合について、本発明の検証手順により見いだされた最良の「マッチ」についてのデータを示す。「コンピュータによる」配列マップは、サンガー研究所データベース配列から得た。ゲンティグプログラムによって生成された75の(光学)コンセンサスマップに対して配列マップ(ならびにそのリバースマップ)をチェックした。75の光学マップは、全熱帯熱マラリア原虫ゲノムを網羅している。その検証手順によって、1365と標示されたマップに対する最良のマッチが特定された。
【0095】
実験を通じて、約5分間で、本発明の処理装置10を約75×4=300 DPPインスタンスで実行した。また、この実験を通じて、処理装置10は、すべての中間結果を追跡し、実際に実行された後の対話型調査に利用できるようにした。また、配列、配列マップおよびコンセンサスマップは、常に調査および操作に利用することができた。
【0096】
IV.結論
本発明の例示的な実施形態の統計学的モデルは、実質的に、重み付き平方和エラースコアを最小化することによって解かれる最大尤度問題の式である。その総合的な複雑度が(最適化されていない解について)O(N M min(N,M))のオーダである(ただし、Nはコンセンサスマップの長さ、Mはコンセンサスマップの長さである)動的計画手法を用いて「マッチングテーブル」を構築することによって、その解を計算する。上述の実験の予備的な結果は、現在様々な源から様々な形式で公表されている様々な配列およびマップデータの精度を評価する上で本発明の方法およびシステムをどのように用いることができるかを示すものである。
【0097】
B.アラインメントおよび並べ替えの方法およびシステム
全体的なアラインメント方法の流れ図
図8は、図1および2の処理装置によっても実行することのできる、本発明による光学マップを使用した配列のアラインメント方法の例示的な実施形態を示す図である。この例示的な実施形態において、図3に示される検証方法と同様に、アラインメントされた単一の分子マップ間の局所的なばらつきを考慮することによって、光学マッピングデータ140に基づいて1つ以上のコンセンサスマップ260を構築する技術250(例えば「ゲンティグ」プログラム)に光学マッピングデータ140を送る。
【0098】
本発明のアラインメント方法のこの例示的な実施形態によれば、特定のDNA配列210または当該DNA配列の一部が提供される。その後、このDNA配列についてのデータ(またはその一部)は、制限酵素消化プロセスをシミュレートして、「コンピュータによる」順序づけされた制限配列マップ230を生成する技術220に送られる。次いで、本発明のシステムおよび方法は、光学コンセンサスマップ260に与えられるデータに基づいて、順序づけされた制限配列マップ230の精度を判定する検証アルゴリズム270を実行することができる。図3の検証手順のように、この結果は、スコア(例えば各順序づけされた制限酵素マップに対するランク)、2値出力(例えば検証精度対非検証精度)などの形式の出力280とすることができる。本発明の検証方法およびシステムの例示的な実施形態については、既に詳細に説明した。最後に、ブロック400において、擬似順序づけされた制限配列マップを光学順序づけされた制限酵素マップに対してアラインメントさせることができる。本発明のアラインメント方法の例示的な実施形態では、各々の擬似順序づけされた制限酵素マップについて、当該マップの最良の固定位置は、順序づけされた制限コンセンサスマップ(例えば光学コンセンサスマップ)上に特定される。当該位置特定手順の結果として、擬似順序づけされた制限酵素マップの固定位置の全集合体が生成される。好ましい一実施形態において、最初に最良の固定位置を提供して、考えられる最良のアラインメントを実現する。これは、一次元の動的計画手順を用いて行うことが可能である。多くの固定位置を得ることができるため、擬似順序づけされた制限酵素マップに対する複数のアラインメントを生成することが可能であることを当業者ならば明確に理解するであろう。以下に、本発明によるアラインメント方法およびシステムをさらに詳細に示す。
【0099】
アラインメント方法の詳細な流れ図
図9は、配列マップの制限消化をシミュレートし、コンセンサス光学順序づけされた制限酵素マップおよび/または擬似マップの精度を検証し、そのアラインメントを構築する本発明による方法の実施形態の例示的なフローチャートを示す図である。この方法は、図1および2に示される処理装置10によって実施することが可能である。図4に示される検証方法と同様に、処理装置10は、ステップ410において、図8に示されるコンセンサス光学マップ260でありうる光学順序づけされた制限データを受領する。次いで、ステップ420において、処理装置10は、好ましくは図8に示されるDNA配列データ210である配列データを受領する。ステップ430において、配列データの制限消化をシミュレートして、これも配列マップ230として図8に示される擬似(コンピュータで)順序づけされた制限酵素マップを得る。その後、光学順序づけされた制限酵素マップと擬似順序づけされた制限酵素マップとを比較して、最も見込みのあるマッチの1つ以上の集合体を得る(ステップ440)。次いで、処理装置10は、ステップ445において、すべての擬似順序づけされた制限酵素マップをチェックしたかどうかを判定する。チェックされていなかった場合は、次の擬似順序づけされた制限酵素マップを現行の擬似順序づけされた制限酵素マップとしてステップ450においてチェックし、現行の擬似順序づけされた制限酵素マップについてステップ440の比較を再度繰り返す。そうでない場合は、すべての擬似順序づけされた制限酵素マップがチェックされたと判定されるため、ステップ460においてマッチのすべてをランクづけし、ステップ470において、処理装置10は、それぞれのランクに基づいて擬似順序づけされた制限酵素マップ毎の最良のマッチを判定する。次いで、ステップ480において、マッチのスコアに基づいて、光学順序づけされた制限酵素マップに対して擬似順序づけされた制限酵素マップのアラインメントを構築する。
【0100】
全体アラインメント
繰り返すと、上述した本発明の検証方法およびシステムは、順序づけされた制限コンセンサスマップに対して順序づけされた制限配列マップをマッチさせることが可能である。この検証方法およびシステムは、コンセンサスマップに対する配列マップの位置調整方法と記すことがおそらくできる。多くの位置調整配列を考慮した場合に、その検証方法を、特定のコンセンサスマップに対する「全体」集合アラインメントと記すことが可能である。したがって、明確化するために、この最終結果を生成する手順の出力を、以降はアラインメント(alignment)またはアラインメントと呼ぶことにする。
【0101】
例えば、n回の「検証実験」の結果は、コンセンサスマップに沿う見込みのある配列位置のn個の集合として示すことが可能である。これらの結果の各々を集合Si(0<i≦n)(|Si|=k)で表すことができる。各Siにおけるkの項の各々は三重項[si,x(i,j),v(i,j)]である(ただし、Siは配列マップ識別子、x(i,j)はコンセンサスマップに対するsiのj番目のアラインメント、v(i,j)は、単一配列(マップ)位置調整方法により得られた配列アラインメントスコア(0<j≦k)である)。あらゆるSi(0<i≦n)を含む集合をSと呼ぶ。
【0102】
上述の配列マップおよび費用を用いてマッチング、ランク付けおよびアラインメントステップ440〜480を行うための手順の例示的な実施形態を、図10を参照しながら以下に示す。最終結果は、最終的に選択されたすべての費用v(i,j)を合算することによってその全体費用Cを計算することが可能なアラインメントであるのが好ましい。
【0103】
最初に、ステップ510において、全体費用Cを無限に設定する。次いで、ステップ520において、光学順序づけされた制限酵素マップ(すなわち、コンセンサスマップ)に対する擬似順序づけされた制限酵素マップ(すなわち配列マップ)の最良のマッチを各集合Siから選択する。それら最良のマッチをTsと呼ぶ三重項の集合にグループ化し、それぞれの配列Siの費用v(i,j)および位置x(i,j)を解析する。次いで、例えば特殊化された一次元動的計画手順を用いて、この三重項の集合Tsの費用Vを計算し(ステップ540)、それをCと比較する。VがCに公差を加減した値と等しければ(ステップ550)、三重項の集合Tsをアラインメント手順の結果とする(ステップ580)。VがCに公差を加減した値と等しくなければ、CをVと一致させ、Siのなかで「第2の最良」のうちの最良のものにマッチする三重項[si,x(i,j'),v(i,j')]を選択する(ステップ570)。次いで、三重項[si,x(i,j),v(i,j)]を三重項の集合Tsから除去し、三重項[si,x(i,j ‘ ),v(i,j')](jとj'は異なる)を三重項の集合Tsに挿入する(ステップ575)。次いで、更新された三重項Tsから新たなVを計算する(ステップ540)。
【0104】
本発明のアラインメント方法およびシステムに利用できる例示的なマップベースのアラインメントアルゴリズム/問題を以下に示す。
【数26】
例えば、おそらく緩和することが可能な以下の全体条件/目的を満足させながら、各Siから最大1つの三重項を選択することができる。
1.アラインメントTs内の2つ以上の選択三重項を固定する場合に、好ましくは、それぞれx(p,b)およびx(q,a)において固定された2つの選択配列SpおよびSqが重複しない(好適なp、q、aおよびbについて(pとqは等しくない))。
2.可能な限り多くの配列マップSiがアラインメントに含まれるように、配列集合Siにおける各jに対して
【数27】
を最小化する。
3.非選択配列の数
【数28】
を最小化する。
ただし、Iiは、配列Siからの三重項が選択集合Tsに含まれる場合は1の値をとり、そうでない場合は0の値をとる指示変数である。
【0105】
上述の目的(2)および(3)は互いに相反するものであることを理解すべきである。特に、配列が選択されない場合に目的(2)の最小値が達成されるのに対して、目的(3)では、スコア値に関係なくできるだけ多くの配列を選択するのが好ましい。この矛盾は、例えば、2つの相反する目的を直線的に統合するラグランジェ型の項を含む重みスキームによって解決することができる。
【0106】
様々な近似アルゴリズムを用いてこの問題を解くことが可能である。例えば、以下の2つのアルゴリズム/手順が挙げられる。
1.「グリーディ」アルゴリズム/手順
2.「動的計画」アルゴリズム/手順
【0107】
本発明のアラインメントシステムおよび方法の実験を通じて、グリーディアルゴリズム/手順および動的計画アルゴリズム/手順を利用して良好な結果を得た。本発明のこれらのアルゴリズム/手順(1)および(2)を以下に詳細に示す。
【0108】
グリーディアルゴリズム/手順
値v(i,j)によって各Siを配列するように解Pを構成することができる。次いで、各x(i,j)によって規定された順序の配列を選択することによって各配列Siの最良の項を部分解Pに配置する。最終的な解Pは最適なものである保証はないが、この解は、アラインメント手順の実行者にとって許容できる結果を提供しうることを理解すべきである。
【0109】
動的計画/手順
このアルゴリズム/手順は、伝統的な動的計画手法に基づくものである。実際、このアルゴリズム/手順の実施は簡単で、スペース効率が高い。最初に、k=1の1つの例示的な場合を考慮し、適切なアルゴリズムを選択することができる。次に、k>1の一般的な場合を考慮し、良好な近似ヒューリスティックスを考案することができる。
【0110】
(a)配列数kが1の場合のアラインメント手順。三重項の各集合Siに存在する配列の数kが1(例えば最良スコア)に限定される場合は、問題は、実行可能かつ効率的なアルゴリズムに従う。概して、配列が1つのマップ位置に一意的にマッチする場合に、このケースが適用されることになる。動的計画解法、すなわち解Pの構成のためのアラインメントアルゴリズムの例示的な実施形態を以下に示す。すなわち、
1.配列、費用および位置<si,x(i,j),v(i,j)>のすべての三重項をx(i,j)の小さい順に整理し、その結果をリストLに格納する。その後、指数iおよびjがリストL全体に分布するものと想定できる。
2.全体費用Cにおける各エントリが、既に配列を含むアラインメント、またはその部分集合においてSjに至るまでsiを含む費用と定められる2つのベクターC[i]およびB[i](0<j≦n)を構築し、指数jをB[j]に格納する。
【0111】
C[i]およびB[i]に対する更新順序づけされたは、好ましくは、Cベクターの後方に向かって、費用関数を最小化する値を検索し、選択点に「ポイントバック」するように集合Bを設定する。例えば、
【数29】
(SiはSjと重複しない),B[i]=j。
W(λ;i)関数には、上述の目的の相反する性質が考慮されている。両方の目的を同時に最適化することはほとんど不可能であるため、好ましくは両方の目的を考慮に入れた重み関数を生成することが可能である(ここでは、ユーザはパラメータλを供給することができる)。2つの例示的なW関数を以下に示す。
W1(λ;i)=|Si|-λ・vi
W2(λ;i)=1-λ・vi
W1には、選択配列がカバーする「スパン」が考慮されている(ただし、|Si|は配列のサイズである)。W2には、選択された配列の数が考慮されている。パラメータλはユーザによって制御される。
【0112】
(b)配列数k>1の場合のアラインメント手順。配列数k>1の場合は、手順はより複雑になる。各集合Siに対して、そこから選択されるアラインメントの数がkになるため、前の手順の簡単な一般化に伴う複雑度は、指数関数的に増大化するものと推定される。配列数k>1の場合には、ヒューリスティックな手順/アルゴリズムを用いて許容しうる解を導くことが可能である。この手順のコンセプトは、非重複制約を無視しながら、各配列Siから見込まれる最良の解を引き出す、入力集合に対する動的計画手順(すなわちk=1の場合の手順)を反復または繰り返すことである。この解は、前の解において除外された各配列Siからの要素で増強された前の解から構成される、DPP手順(すなわちk=1の場合の手順)への新たな入力を構築することによって、後続の繰り返しにおいてさらに改善されうる。前の解は新たな式の解でもあるため、新たな解は、少なくとも先に与えられた解と同程度の有効性を有する。各々の繰り返しにおいて、基底解を一般解(および準最適解)とすることもできる。項が検討から除外された場合は、それが再び検討されることはないため、本発明の好ましい実施形態によれば、O(kn)個の繰り返ししか存在せず、各繰り返しはO(n2)の仕事量を含む。したがって、純粋な解析は、O(kn3)倍のアルゴリズムを生成する。
【0113】
実験結果
図11は、本発明のシステムおよび方法を用いた例示的な染色体配列の見込まれるアラインメントを示す図である。同図には、特に、本発明の検証、アラインメントおよび並べ換えシステムおよび方法の例示的実施形態を実施するソフトウェアを用いて生成された熱帯熱マラリア原虫の染色体12のアラインメントの領域が示されている。同図のポジション39および50のアンダーラインが引かれた2つのマップは、「コンティグ」11および13の光学順序づけされた制限酵素マップに対する許容しうる固定形態を示している。また、そのアラインメントは重複フィルタを用いることなく得られたものである。
【0114】
本発明による擬似順序づけされた制限酵素マップの検証およびアラインメントシステムおよび方法の実施形態の他の多くの用途が存在することを当業者ならば明確に認識するであろう。実際、本発明は、上述の例示的な用途および実施形態に制限されることはない。
【図面の簡単な説明】
【図1】 本発明による、マップのマッチおよび比較を介して、光学マップを用いた遺伝子配列の検証、アラインメントおよび/または再順序づけを行うためのシステムの第1の例示的な実施形態を示す図である。
【図2】 光学マップを用いた遺伝子配列の検証、アラインメントおよび/または再順序づけを行うためのシステムの第2の例示的な実施形態を示す図である。
【図3】 本発明による方法の検証手順の例示的な実施形態を示す図である。
【図4】 配列マップの制限消化をシミュレートし、次いでコンセンサス光学順序づけされた制限酵素マップおよび/または擬似マップの精度を検証するための本発明による方法の例示的な実施形態を示す図である。
【図5A】 図4に示される方法に利用される例示的な検証技術の詳細フローチャートである。
【図5B】 光学順序づけされた制限酵素マップの断片と擬似順序づけされた酵素マップの断片とを比較して最も可能性の高いマッチの1つ以上の集合を得る図5Aの特定のステップの例示的な流れ図の詳細な例を示す図である。
【図6A】 コンセンサス光学マップに配列マップをマッチさせる技術の第1の例示を示す図である。
【図6B】 コンセンサス光学マップは偽酵素切断点がなく、配列マップは欠落酵素切断点がない、配列マップをコンセンサス光学マップにマッチさせる技術の第2の例示を示す図である。
【図6C】 コンセンサス光学マップは偽酵素切断点がなく、配列マップは酵素切断点が欠落した、配列マップをコンセンサス光学マップにマッチさせる技術の第3の例示を示す図である。
【図6D】 コンセンサス光学マップは偽酵素切断点を有し、配列マップは欠落酵素切断点が有していない、配列マップをコンセンサス光学マップにマッチさせる技術の第4の例示を示す図である。
【図6E】 コンセンサス光学マップは偽酵素切断点を有し、配列マップは酵素切断点が欠落した、配列マップをコンセンサス光学マップにマッチさせる技術の第5の例示を示す図である。
【図6F】 コンセンサス光学マップおよび配列マップの各々の左断片が一致しない、配列マップをコンセンサス光学マップにマッチさせる技術の第5の例示を示す図である。
【図6G】 コンセンサス光学マップおよび配列マップの各々の右断片が一致しない、配列マップをコンセンサス光学マップにマッチさせる技術の第6の例示を示す図である。
【図7】 動的計画原理、ならびに図6Fおよび6Gに示される配列およびコンセンサスマップを利用する、本発明による検証手順の例示的な流れ図の詳細な例を示す図である。
【図8】 検証技術が実施された後(または最中)に擬似順序づけされた制限酵素マップのアラインメントを行って、擬似順序づけされた制限酵素マップおよび/またはコンセンサス光学マップの精度を判定する、本発明による方法の例示的な実施形態を示す図である。
【図9】 図8に示される方法の流れ図の詳細な例を示す図である。
【図10】 配列マップ毎に最良のマッチが選択され、その全体的なアラインメントが構築される図9に示される方法におけるステップの特定の集合の流れ図である。
【図11】 本発明のシステムおよび方法を用いた染色体配列の見込まれるアラインメントの例を説明する図である。
Claims (38)
- 第1のDNAマップの順序づけされたセグメントと第2のDNAマップの順序づけされたセグメントとを比較して、第1のDNAマップに対する第2のDNAマップの精度レベルを判定する方法であって、
a)処理装置において、第1および第2のDNAマップを受領するステップであって、第1のDNAマップは、1つ以上の制限酵素を使用してDNA分子を切断することによって得られる配列DNAマップであり、第2のDNAマップは、順序づけされた制限酵素DNAマップ中のゲノムコンセンサスDNAマップであるステップと、
b) 処理装置において、第1および第2のDNAマップに関する情報に基づいて、以下の確率密度関数:
- 検証ステップは、第1のDNAマップの各順序づけされたセグメントと第2のDNAマップの各順序づけされたセグメントとの間に1つ以上のマッチが存在するかどうかを判定することを含む、請求項1に記載の方法。
- 検証ステップは、第1のDNAマップの順序付けされたセグメントと第2のDNAマップの順序付けされたセグメントとの間に1つ以上のマッチが存在するかどうかを判定した後に、第1のDNAマップのセグメントと第2のDNAマップのセグメントとの間に存在するマッチの数を求めることをさらに含む、請求項2に記載の方法。
- 検証ステップは、第1のDNAマップが、第2のDNAマップから欠落している1つ以上の切断点を含むかどうかを判定することを含む、請求項1に記載の方法。
- 検証ステップは、第1のDNAマップの順序付けされたセグメントと第2のDNAマップの順序付けされたセグメントとの間に1つ以上のマッチが存在するかどうかを判定した後に、第1および第2のDNAマップに基づいて、欠落している切断点の数および位置を求めることをさらに含む、請求項4に記載の方法。
- 検証ステップは、第2のDNAマップが、第1のDNAマップから欠落している1つ以上の切断点を含むかどうかを判定することを含む、請求項1に記載の方法。
- 検証ステップは、第1のDNAマップの順序付けされたセグメントと第2のDNAマップの順序付けされたセグメントとの間に1つ以上のマッチが存在するかどうかを判定した後に、第1および第2のDNAマップに基づいて、欠落している切断点の数および位置を求めることをさらに含む、請求項6に記載の方法。
- 検証ステップは、
i.第1のDNAマップが、第2のDNAマップから欠落している1つ以上の切断点を含むかどうかを判定するサブステップと、
ii.サブステップiの後に、第1および第2のDNAマップに基づいて、欠落している切断点の第1の数および位置を求めるサブステップと、
iii.第2のDNAマップが、第1のDNAマップから欠落している1つ以上の切断点を含むかどうかを判定するサブステップと、
iv.サブステップiiiの後に、第1および第2のDNAマップに基づいて、欠落している切断点の第2の数および位置を求めるサブステップとをさらに含む、請求項3に記載の方法。 - c)i.マッチの数がマッチしきい値より小さい場合、
ii.欠落している切断点の第1の数が第1の所定のしきい値より大きい場合、
iii.欠落している切断点の第2の数が第2の所定のしきい値より大きい場合
のうちの少なくとも1つに該当すればエラー指示を発する
ステップをさらに含む、請求項8に記載の方法。 - 第1のDNAマップは、DNA配列から得られるインシリコで順序づけされた制限酵素マップである、請求項1に記載の方法。
- 第1のDNAマップは、識別データ、および第1のDNAマップのセグメントの少なくとも1つのベクターを含む、請求項10に記載の方法。
- 第1のセグメントの少なくとも1つのベクターは、DNA配列の塩基対のサイズをコードする、請求項11に記載の方法。
- 第2のDNAマップは、識別データ、およびその順序づけされたセグメントを表す少なくとも1つの可変長ベクターを含む、請求項12に記載の方法。
- 第2のDNAマップは、光学DNAマップのゲノム全体の順序づけされた制限酵素マップの部分配列である、請求項1に記載の方法。
- 第2のDNAマップの配向に対する第1のDNAマップの配向の関数として、前記精度のレベルを検証する、請求項1に記載の方法。
- 検証ステップが、
i.第1および第2のDNAマップに対して動的プログラム手順(「DPP」)を実行して、部分的および完全アラインメントスコアの第1のテーブル、ならびに切断点およびセグメントマッチの数および位置を追跡するための第1の補助テーブルおよび第1のデータ構造を生成するサブステップであって、前記DPPが、N×M個のマッチングテーブルTをアセンブリすること
[ここで、指数「i」がM個のセグメントを有するコンセンサスマップ中のセグメントを示し、指数「j」がN個のセグメントを有する配列マップ中のセグメントを示し、マッチングテーブルTの各項目が
によって計算される]
を含む、ステップと
ii.第1のDNAマップのリバースマップである第3のDNAマップを受領するサブステップと、
iii.第2および第3のDNAマップに対してDPPを実行して、部分および完全アラインメントスコアの第2のテーブル、ならびに切断点およびセグメントマッチの数および位置を追跡するための第2の補助テーブルおよび第2のデータ構造を生成するサブステップと、
iv.第1のテーブルの最終列および第2のテーブルの最終列を解析して、第1および第2のDNAマップの少なくとも1つの最適アラインメントを得るサブステップと、
v.第1および第2の補助テーブルおよびデータ構造を用いて、最適アラインメントおよび準最適アラインメントの少なくとも1つを構築するサブステップ
とを含む、請求項1に記載の方法。 - 第1のDNAマップの順序付けされたセグメントの左端の第1セグメントの延長部を、第2のDNAマップの順序付けされたセグメントの少なくとも1つにマッチさせることによって精度のレベルを検証する、請求項1に記載の方法。
- 第1のDNAマップの順序付けされたセグメントの右端の第1セグメントの延長部を、第2のDNAマップの順序付けされたセグメントの少なくとも1つにマッチさせることによって精度のレベルを検証する、請求項1に記載の方法。
- d)第2のDNAマップに対する第1のDNAマップのアラインメントを検出するステップであって、該アラインメントは、第2のDNAマップに沿った第1のDNAマップの順序付けされたセグメントの配列位置を示す
ステップをさらに含む、請求項1に記載の方法。 - 処理装置上で実行したとき、第1のDNAマップのセグメントを第2のDNAマップのセグメントと比較して、第1のDNAマップに対する第2のDNAマップの精度のレベルを判定するように処理装置が構成されているソフトウェアシステムであって、
- 処理装置;
- 該処理装置に格納され、処理装置上で実行したとき、処理装置が以下のステップa)〜c)を実行するように構成されている処理サブシステム
を備えたソフトウェアシステム。
a)第1および第2のDNAマップを受領するステップであって、第1のDNAマップは、1つ以上の制限酵素を使用してDNA分子を切断することによって得られる配列DNAマップであり、第2のDNAマップは、順序づけされた制限酵素DNAマップ中のゲノムコンセンサスDNAマップであるステップと、
b) 以下の確率密度関数:
c) ユーザーに精度のレベルを出力するステップ。 - 精度のレベルを検証する際に、処理サブシステムは、第1のDNAマップの少なくとも1つのセグメントと第2のDNAマップの少なくとも1つのセグメントとの間に1つ以上のマッチが存在するかどうかを判定する、請求項20に記載のソフトウェアシステム。
- 精度のレベルを検証する際に、処理サブシステムは、第1のDNAマップの順序付けされたセグメントと第2のDNAマップの順序付けされたセグメントとの間に1つ以上のマッチが存在するかどうかを判定した後に、第1のDNAマップの各セグメントと第2のDNAマップの各セグメントとの間に存在するマッチの数を求める、請求項21に記載のソフトウェアシステム。
- 精度のレベルを検証する際に、処理サブシステムは、第1のDNAマップが、第2のDNAマップから欠落している1つ以上の切断点を含むかどうかを判定する、請求項20に記載のソフトウェアシステム。
- 精度のレベルを検証する際に、処理サブシステムは、第1のDNAマップの順序付けされたセグメントと第2のDNAマップの順序付けされたセグメントとの間に1つ以上のマッチが存在するかどうかを判定した後に、第1および第2のDNAマップに基づいて前記欠落している切断点の数および位置を求める、請求項20に記載のソフトウェアシステム。
- 精度のレベルを検証する際に、処理サブシステムは、第2のDNAマップが、第1のDNAマップから欠落している1つ以上の切断点を含むかどうかを判定する、請求項20に記載のソフトウェアシステム。
- 精度のレベルを検証する際に、処理サブシステムは、第1および第2のDNAマップに基づいて前記欠落している切断点の数および位置を求める、請求項23に記載のソフトウェアシステム。
- 精度のレベルを検証する際に、処理サブシステムは、
i.第1のDNAマップが、第2のDNAマップから欠落している1つ以上の切断点を含むかどうかを判定し、
ii.第1および第2のDNAマップに基づいて該欠落している切断点の数および位置を求め、
iii.第2のDNAマップが、第1のDNAマップから欠落している1つ以上の切断点を含むかどうかを判定し、かつ
iv.第1および第2のDNAマップに基づいて該欠落している切断点の第2の数を求める、請求項22に記載のソフトウェアシステム。 - 処理装置上で実行したとき、処理サブシステムは、処理装置が
i.マッチの数がマッチしきい値より小さい場合、
ii.欠落している切断点の第1の数が第1の所定のしきい値より大きい場合、
iii.欠落している切断点の第2の数が第2の所定のしきい値より大きい場合
のうちの少なくとも1つに該当すればエラー指示を発するように、さらに構成されている、請求項27に記載のソフトウェアシステム。 - 第1のDNAマップは、1つのDNA配列から得たインシリコで順序づけされた制限酵素マップである、請求項20に記載のソフトウェアシステム。
- 第1のDNAマップは、識別データ、および第1のDNAマップのセグメントの可変長ベクターを含む、請求項29に記載のソフトウェアシステム。
- 第1のDNAマップのセグメントの前記ベクターは、DNA配列の塩基対のサイズをコードする、請求項30に記載のソフトウェアシステム。
- 第2のDNAマップは、識別データ、および第2のDNAマップのセグメントの可変長ベクターを含む、請求項31に記載のソフトウェアシステム。
- 第2のDNAマップは、光学DNAマップのゲノム全体の順序づけされた制限酵素マップである、請求項20に記載のソフトウェアシステム。
- 第2のDNAマップの配向に対する第1のDNAマップの配向の関数として精度のレベルを検証する、請求項20に記載のソフトウェアシステム。
- 精度のレベルを検証する際に、処理サブシステムは、
i.第1および第2のDNAマップに対して動的計画手順(「DPP」)を実行して、部分的および完全アラインメントスコアの第1のテーブル、ならびに切断点およびセグメントマッチの数および位置を追跡するための第1の補助テーブルおよびデータ構造を生成し、
[ここで、該DPPが、N×M個のマッチングテーブルTをアセンブリすること
{該DPPにおいては、指数「i」がM個のセグメントを有するコンセンサスマップ中のセグメントを示し、指数「j」がN個のセグメントを有する配列マップ中のセグメントを示し、マッチングテーブルTの各項目が
によって計算される}を含む]
ii.第1のDNAマップのリバースマップである第3のDNAマップを受領し、
iii.第2および第3のDNAマップに対してDPPを実行して、部分および完全アラインメントスコアの第2のテーブル、ならびに切断点およびセグメントマッチの数および位置を追跡するための第2の補助テーブルおよびデータ構造を生成し、
iv.第1のテーブルの最終列および第2のテーブルの最終列を解析して、第1および第2のDNAマップの少なくとも1つの最適アラインメントを得て、
v.第1および第2の補助テーブルおよびデータ構造を用いて、最適アラインメントおよび準最適アラインメントの少なくとも1つを構築する、
請求項20に記載のソフトウェアシステム。 - 第1のDNAマップのセグメントの左端の第1セグメントの延長部を第2のDNAマップのセグメントの少なくとも1つにマッチさせることによって精度のレベルを検証する、請求項20に記載のソフトウェアシステム。
- 第1のDNAマップのセグメントの右端の第1セグメントの延長部を第2のDNAマップのセグメントの少なくとも1つにマッチさせることによって精度のレベルを検証する、請求項20に記載のソフトウェアシステム。
- 処理装置上で実行したとき、処理サブシステムは、処理装置が第2のDNAマップに対する第1のDNAマップのアラインメントを判定するようにさらに構成されており、該アラインメントは、第2のDNAマップに沿った第1の各セグメントの配列位置を示す、請求項20に記載のソフトウェアシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US23629600P | 2000-09-28 | 2000-09-28 | |
US60/236,296 | 2000-09-28 | ||
US29325401P | 2001-05-24 | 2001-05-24 | |
US60/293,254 | 2001-05-24 | ||
PCT/US2001/030426 WO2002026934A2 (en) | 2000-09-28 | 2001-09-28 | System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005512015A JP2005512015A (ja) | 2005-04-28 |
JP5068414B2 true JP5068414B2 (ja) | 2012-11-07 |
Family
ID=26929646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002530700A Expired - Lifetime JP5068414B2 (ja) | 2000-09-28 | 2001-09-28 | 少なくとも1つの順序づけされた制限酵素マップを使用して1つ以上の遺伝子配列マップの検証、アラインメントおよび再順序づけを行うためのシステムおよび方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7831392B2 (ja) |
EP (3) | EP2320343A3 (ja) |
JP (1) | JP5068414B2 (ja) |
AU (1) | AU2001294867A1 (ja) |
CA (1) | CA2424031C (ja) |
WO (1) | WO2002026934A2 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7110525B1 (en) | 2001-06-25 | 2006-09-19 | Toby Heller | Agent training sensitive call routing system |
US20080046191A1 (en) * | 2002-11-20 | 2008-02-21 | Bud Mishra | System, Process And Software Arrangement For Disease Detection Using Genome Wide Haplotype Maps |
US9818136B1 (en) | 2003-02-05 | 2017-11-14 | Steven M. Hoffberg | System and method for determining contingent relevance |
US9390163B2 (en) * | 2005-04-22 | 2016-07-12 | New York University | Method, system and software arrangement for detecting or determining similarity regions between datasets |
CN103203256B (zh) | 2006-07-19 | 2015-09-23 | 博纳基因技术有限公司 | 纳米口装置阵列:它们的制备以及在大分子分析中的应用 |
EP2604344A3 (en) | 2007-03-28 | 2014-07-16 | BioNano Genomics, Inc. | Methods of macromolecular analysis using nanochannel arrays |
US20110005918A1 (en) | 2007-04-04 | 2011-01-13 | Akeson Mark A | Compositions, devices, systems, and methods for using a nanopore |
CN101802220B (zh) | 2007-07-26 | 2013-07-31 | 加利福尼亚太平洋生物科学股份有限公司 | 分子冗余测序法 |
AU2008286737A1 (en) * | 2007-08-15 | 2009-02-19 | New York University | Method, system and software arrangement for comparative analysis and phylogeny with whole-genome optical maps |
US20090208950A1 (en) * | 2008-02-19 | 2009-08-20 | Opgen, Inc. | Methods of identifying an organism from a heterogeneous sample |
US8679748B2 (en) * | 2008-05-14 | 2014-03-25 | Opgen Inc. | Methods of determining properties of nucleic acids without use of an internal standard and involving stretch and optical intensity |
EP2664677B1 (en) | 2008-06-30 | 2018-05-30 | BioNano Genomics, Inc. | Methods for single-molecule whole genome analysis |
CN104372080B (zh) | 2008-11-18 | 2018-03-30 | 博纳基因技术有限公司 | 多核苷酸作图和测序 |
WO2010075570A2 (en) * | 2008-12-24 | 2010-07-01 | New York University | Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assemble |
US9605307B2 (en) | 2010-02-08 | 2017-03-28 | Genia Technologies, Inc. | Systems and methods for forming a nanopore in a lipid bilayer |
WO2011137368A2 (en) | 2010-04-30 | 2011-11-03 | Life Technologies Corporation | Systems and methods for analyzing nucleic acid sequences |
US9268903B2 (en) | 2010-07-06 | 2016-02-23 | Life Technologies Corporation | Systems and methods for sequence data alignment quality assessment |
US20120183953A1 (en) * | 2011-01-14 | 2012-07-19 | Opgen, Inc. | Genome assembly |
US10503359B2 (en) | 2012-11-15 | 2019-12-10 | Quantum Interface, Llc | Selection attractive interfaces, systems and apparatuses including such interfaces, methods for making and using same |
US10289204B2 (en) | 2012-11-15 | 2019-05-14 | Quantum Interface, Llc | Apparatuses for controlling electrical devices and software programs and methods for making and using same |
US20140274750A1 (en) * | 2013-03-15 | 2014-09-18 | Opgen, Inc. | Sequence assembly using optical maps |
US10318523B2 (en) | 2014-02-06 | 2019-06-11 | The Johns Hopkins University | Apparatus and method for aligning token sequences with block permutations |
WO2015188011A1 (en) | 2014-06-04 | 2015-12-10 | Quantum Interface, Llc. | Dynamic environment for object and attribute display and interaction |
US10788948B2 (en) | 2018-03-07 | 2020-09-29 | Quantum Interface, Llc | Systems, apparatuses, interfaces and implementing methods for displaying and manipulating temporal or sequential objects |
US11205075B2 (en) | 2018-01-10 | 2021-12-21 | Quantum Interface, Llc | Interfaces, systems and apparatuses for constructing 3D AR environment overlays, and methods for making and using same |
EP3271850A4 (en) * | 2015-03-17 | 2018-11-07 | Agency For Science, Technology And Research | Bioinformatics data processing systems |
CN107256335A (zh) * | 2017-06-02 | 2017-10-17 | 肖传乐 | 一种基于全局种子打分优选的三代测序序列比对方法 |
CN107229842A (zh) * | 2017-06-02 | 2017-10-03 | 肖传乐 | 一种基于局部图的三代测序序列校正方法 |
CN111353046B (zh) * | 2018-12-20 | 2023-05-26 | 杭州海康威视数字技术股份有限公司 | 图谱数据存储方法、装置、电子设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6174671B1 (en) | 1997-07-02 | 2001-01-16 | Wisconsin Alumni Res Found | Genomics via optical mapping ordered restriction maps |
-
2001
- 2001-09-28 EP EP10184566A patent/EP2320343A3/en not_active Withdrawn
- 2001-09-28 EP EP10184595A patent/EP2320229A3/en not_active Withdrawn
- 2001-09-28 AU AU2001294867A patent/AU2001294867A1/en not_active Abandoned
- 2001-09-28 JP JP2002530700A patent/JP5068414B2/ja not_active Expired - Lifetime
- 2001-09-28 EP EP01975549A patent/EP1328805A4/en not_active Ceased
- 2001-09-28 CA CA2424031A patent/CA2424031C/en not_active Expired - Lifetime
- 2001-09-28 WO PCT/US2001/030426 patent/WO2002026934A2/en active Application Filing
- 2001-09-28 US US10/432,766 patent/US7831392B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20060155483A1 (en) | 2006-07-13 |
EP2320229A3 (en) | 2012-05-02 |
WO2002026934A9 (en) | 2003-03-27 |
EP1328805A2 (en) | 2003-07-23 |
CA2424031C (en) | 2016-07-12 |
WO2002026934A3 (en) | 2002-06-13 |
JP2005512015A (ja) | 2005-04-28 |
WO2002026934A2 (en) | 2002-04-04 |
CA2424031A1 (en) | 2002-04-04 |
EP2320343A3 (en) | 2011-06-22 |
EP1328805A4 (en) | 2007-10-03 |
EP2320343A2 (en) | 2011-05-11 |
AU2001294867A1 (en) | 2002-04-08 |
EP2320229A2 (en) | 2011-05-11 |
US7831392B2 (en) | 2010-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5068414B2 (ja) | 少なくとも1つの順序づけされた制限酵素マップを使用して1つ以上の遺伝子配列マップの検証、アラインメントおよび再順序づけを行うためのシステムおよび方法 | |
US10600217B2 (en) | Methods for the graphical representation of genomic sequence data | |
Canzar et al. | Short read mapping: an algorithmic tour | |
Stram et al. | Modeling and EM estimation of haplotype-specific relative risks from genotype data for a case-control study of unrelated individuals | |
US9165109B2 (en) | Sequence assembly and consensus sequence determination | |
Sibbesen et al. | Haplotype-aware pantranscriptome analyses using spliced pangenome graphs | |
Kalyanaraman et al. | Space and time efficient parallel algorithms and software for EST clustering | |
CN113555062A (zh) | 一种用于基因组碱基变异检测的数据分析系统及分析方法 | |
Weinstein | Generative Statistical Methods for Biological Sequences | |
Dewey | Whole-genome alignments and polytopes for comparative genomics | |
CN116564415B (zh) | 流式测序分析方法、装置、存储介质及计算机设备 | |
Gupta et al. | Ortholog and paralog detection using phylogenetic tree construction with distance based methods | |
US20210217486A1 (en) | Method for monitoring and management of cell lines using periodic low-coverage dna sequencing data | |
Shatkay et al. | ThurGood: Evaluating assembly-to-assembly mapping | |
Ghosh | Scalable Methods for Genome Assembly | |
Sasson et al. | Protein clustering and classification | |
Liao et al. | Deep Learning Enhanced Tandem Repeat Variation Identification via Multi-Modal Conversion of Nanopore Reads Alignment | |
Huang | Computational Methods Using Large-Scale Population Whole-Genome Sequencing Data | |
Frykholm et al. | Detection of structural variations in densely-labelled optical DNA barcodes: A hidden Markov model approach | |
Vanitha et al. | An Improved Alignment-Free Method for Oculocutaneous Albinism Sequence Analysis | |
Du | Novel Computational Methods for Improving Functional Analysis for Long Noisy Reads | |
Lancia | Computational molecular biology | |
Lugo-Beauchamp | Local alignment on highly unbalanced dna sequence lengths by reducing search space | |
Nagar | A quasi-alignment based framework for discovery of conserved regions and classification of DNA fragments | |
Kretzschmar | Methods for phasing and imputation of very low coverage sequencing data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050112 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110823 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111124 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20111201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120717 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120815 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150824 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5068414 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |