JP2016540275A

JP2016540275A - 配列変異体を検出するための方法およびシステム

Info

Publication number: JP2016540275A
Application number: JP2016518122A
Authority: JP
Inventors: デニスクラル，
Original assignee: セブンブリッジズジェノミクスインコーポレイテッド
Priority date: 2013-09-30
Filing date: 2014-09-30
Publication date: 2016-12-22
Also published as: SG11201602306SA; AU2014324438A1; EP3053073B1; AU2020201622A1; EP3053073A1; CA2925335A1; KR102446941B1; CA2925335C; EP3053073A4; CN105793859A; CN105793859B; HK1226158A1; WO2015048753A1; KR20220136449A; AU2020201622B2; KR20160062127A; AU2014324438B2

Abstract

本発明は、例えば、被験体から取得した核酸試料において、遺伝子配列の構造バリエーションの近くの稀な変異体を同定するための方法を提供する。本発明は、リード（例えば、核酸リード）を、構造バリエーションを構成する基準配列構築物にアラインするための方法、構造バリエーションまたは構造バリエーションおよび稀な変異体を構成する基準配列構築物を構築するための方法、ならびにアライメント法を使用して、稀な変異体を同定するシステムをさらに含む。方法は、拡張性があり、数百万ものリードを数千もの塩基長、またはそれよりも長い構築物にアラインするのに使用することができる。

Description

関連出願
本出願は、米国特許出願第６１／８８４，３８０号および１４／０４１，８５０号に基づく優先権を主張し、これらの両出願は、２０１３年９月３０日に出願され、その全体が参照によって援用される。

本発明は、配列（例えば、核酸配列）を互いにアラインして、試料（例えば、遺伝子試料）に対応する連続的な配列リードを作製するための方法およびシステムに関する。本発明は加えて、試料中の変異体を同定するための方法にも関する。

遺伝学は、分析科学から、情報科学へと進化している。科学者はかつて、どのようにして核酸を抽出および同定するのかで奮闘したが、今や、このような技法は、普通のものとなっている。次世代シーケンシング（例えば、全トランスクリプトームショットガンシーケンシング、ピロシーケンシング、イオン半導体シーケンシング、合成によるシーケンシング）は、全ゲノムを包含する数百万ものリードを、わずか数日間で作り出すことが可能である。このスループットを達成するために、ＮＧＳシーケンシングでは、併せて、より大きな遺伝情報体、例えば染色体またはゲノムを作製する、小型の核酸配列に対する大規模な並列化を使用する。遺伝子試料から出発して、核酸（例えば、ＤＮＡ）を切断し、増幅し、超高速で読み取る。これらの能力を考慮して、科学者は現在、いかにして（廉価で）リードをアラインして、疾患または疾患の危険性を指し示す配列内の遺伝子座を同定するのかで奮闘している。

現在の技術水準のアライメント法では、重複するリードを基準に対してアラインして、重要な遺伝情報または構造情報の探索を可能にする配列（例えば、疾患に関するバイオマーカー）を作製するのに、膨大な計算能力を使用する。最終的に、配列アライメントの目標は、シーケンサーにより作製される核酸リードのセットを組み合わせて、被験体に由来する遺伝子試料に基づき、より長いリード（すなわち、コンティグ）、なおまたはその被験体の全ゲノムを達成することである。次世代シーケンサーからの配列データは、併せて標的配列の全体を表示する、数百万もの短い配列を含むことが多いため、リードのアラインは、複雑で計算が高価である。加えて、ランダムシーケンシングエラー（すなわち、不正確なシーケンシングマシン出力）により引き起こされる配列の歪みを最小化するためには、プローブされた配列の各部分を、複数回にわたり（例えば、２〜１００回またはこれを超える回数にわたり）シーケンシングして、任意のランダムシーケンシングエラーの、作り出される最終アライメントおよび出力配列に対する影響を最小化する。最後に、核酸リードの全てに対応するデータの全てを収集したら、被験体の全ての配列（またはその一部）を決定するために、リードを、単一の基準配列（reference sequence）、例えばＧＲＣｈ３７にアラインする。多くの場合、個々のリードを実際に表示するわけではなく、アラインされた配列を、配列へとアセンブルし、配列を、データファイルとして提示する。

典型的には、配列アライメントは、配列情報の２つの線形文字列（linear string）間のペアワイズアライメントを集約することにより構築される。アライメントの例として、２つの文字列である、Ｓ１（配列番号１２：ＡＧＣＴＡＣＧＴＡＣＡＣＴＡＣＣ）およびＳ２（配列番号１３：ＡＧＣＴＡＴＣＧＴＡＣＴＡＧＣ）は、互いにアラインすることができる。典型的には、Ｓ１はリードに対応し、Ｓ２は基準配列の部分に対応する。互いに対して、Ｓ１およびＳ２は、置換、欠失、および挿入からなっていてもよい。典型的には、用語は、文字列Ｓ１から文字列Ｓ２への変換に関して定義される：置換は、Ｓ２内の文字または配列が、Ｓ１内の同じ長さの異なる文字または配列で置きかえられる場合に生じ、欠失は、Ｓ２内の文字または配列が、Ｓ１の対応する区画（section）内で「スキップ」される場合に生じ、挿入は、文字または配列が、Ｓ１内の、Ｓ２内では隣接する２つの位置の間で生じる場合に生じる。例えば、２つの配列であるＳ１およびＳ２は、下記の通りにアラインすることができる。下記のアライメントは、１３箇所のマッチ、長さ１の欠失、長さ２の挿入、および１箇所の置換：
（Ｓ１）ＡＧＣＴＡ−ＣＧＴＡＣＡＣＴＡＣＣ（配列番号１２）
（Ｓ２）ＡＧＣＴＡＴＣＧＴＡＣ−−ＴＡＧＣ（配列番号１３）
を表示する。

当業者は、配列アライメントのための正確なアルゴリズムおよび近似的なアルゴリズムが存在することを十分に理解する。正確なアルゴリズムは、最高スコアのアライメントを見出す予想されるが、計算が高価でありうる。２つの最も周知の正確なアルゴリズムは、Ｎｅｅｄｌｅｍａｎ−Ｗｕｎｓｃｈ（J Mol Biol、４８巻（３号）：４４３〜４５３頁、１９７０年）およびＳｍｉｔｈ−Ｗａｔｅｒｍａｎ（J Mol Biol、１４７巻（１号）：１９５〜１９７頁、１９８１年；Adv. in Math.、２０巻（３号）：３６７〜３８７頁、１９７６年）である。Gotoh（J Mol Biol、１６２巻（３号）：７０５〜７０８頁、１９８２年）による、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎに対するさらなる改善は、計算時間を、Ｏ（ｍ^２ｎ）からＯ（ｍｎ）［ここで、ｍおよびｎは、比較される配列サイズであり、並列処理により適する］へと短縮する。バイオインフォーマティクスの分野では、Gotohの改変アルゴリズムが、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムと称されることが多い。並列計算リソースが、より広くかつ廉価に利用可能となりつつあるので、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎ法は、より多くの配列セットをより多くの基準配列に対してアラインするのに使用されている。例えば、http://aws.amazon.comで入手可能な、Ａｍａｚｏｎ．ｃｏｍのクラウドコンピューティングリソースを参照されたい。上記の雑誌論文の全ては、参照によりそれらの全体において本明細書に組み込まれる。

Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎ（ＳＷ）アルゴリズムでは、配列内の塩基間の重複に対して報酬を与え、配列間のギャップに対してペナルティーを課すことにより、直鎖状の配列をアラインする。Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎはまた、ＳＷは、短い配列が、長い配列を記載する文字の文字列にわたることを必要としないという点でも、Ｎｅｅｄｌｅｍａｎ−Ｗｕｎｓｃｈと異なる。すなわち、ＳＷは、１つの配列が、他の配列の全体についてのリードであることを仮定しない。さらに、ＳＷは、文字列の全長にわたり伸長するアライメントを見出さなくてもよいため、局所的アライメントは、２つの配列内のどこでも開始および終結させることが可能である。

下記の等式（１）：

との関連で、ＳＷアルゴリズムは、長さｎおよびｍの２つの文字列を表示する、ｎ×ｍ行列Ｈで容易に表示される。

上記の等式では、ｓ（ａ_ｉ，ｂ_ｊ）は、マッチボーナス（ａ_ｉ＝ｂ_ｊである場合）またはミスマッチペナルティー（ａ_ｉ≠ｂ_ｊである場合）を表し、挿入および欠失には、それぞれ、ペナルティーＷ_ｉｎおよびＷ_ｄｅｌが課される。大半の場合、結果として得られる行列は、ゼロである多くの成分を有する。この表示は、行列内の上行〜下行、右列〜左列のバックトレースを容易とし、これにより、アライメントの同定を容易とする。

行列にスコアを完全に追加したら、ＳＷアルゴリズムにより、バックトラックを実施して、アライメントを決定する。アルゴリズムは、行列内の最大値から始めて、各セルの最終的な最大値を計算するのに３つの値（Ｈ_{ｉ−１，ｊ−１}、Ｈ_{ｉ−１，ｊ}、またはＨ_{ｉ，ｊ−１}）のうちのいずれを使用したのかに基づき、バックトラックする。バックトラッキングは、ゼロに到達すると停止される。例えば、先行技術を表すものではなく、バックトラックの概念と、バックトラックが読み取られた場合の、対応する局所的アライメントとを説明するものである、図３Ｂを参照されたい。したがって、アルゴリズムにより決定された「最良のアライメント」は、可能な最小数を超える挿入および欠失を含有しうるが、可能な最大数をはるかに下回る置換を含有する。

ＳＷまたはＳＷ−Ｇｏｔｏｈとして適用する場合、技法では、動的計画法アルゴリズムを使用して、それぞれ、サイズをｍおよびｎとする、２つの文字列ＳおよびＡの局所的配列アライメントを実施する。この動的計画法では、表または行列を援用して、マッチスコアを保存し、一連のセルについての再計算を回避する。文字列の各成分は、配列の文字に関するインデックスが付されていてもよく、すなわち、Ｓが文字列ＡＴＣＧＡＡであれば、Ｓ［１］＝Ａ、Ｓ［４］＝Ｇなどである。最適のアライメントをＨ_ｉ，ｊ（上記）と表す代わりに、最適のアライメントは、下記の等式（２）：

のＢ［ｊ，ｋ］と表すことができる。

最大値関数であるＢ［ｊ，ｋ］の引数を、下記の等式（３）〜（５）［ここで、ＭＩＳＭＡＴＣＨ＿ＰＥＮＡＬＴＹ、ＭＡＴＣＨ＿ＢＯＮＵＳ、ＩＮＳＥＲＴＩＯＮ＿ＰＥＮＡＬＴＹ、ＤＥＬＥＴＩＯＮ＿ＰＥＮＡＬＴＹ、およびＯＰＥＮＩＮＧ＿ＰＥＮＡＬＴＹは、全て定数であり、ＭＡＴＣＨ＿ＢＯＮＵＳを除き、全て負である］に概括する。マッチの引数であるｐ［ｊ，ｋ］は、下記の等式（３）：

で与えられ、挿入の引数であるｉ［ｊ，ｋ］は、下記の等式（４）：

で与えられ、欠失の引数であるｄ［ｊ，ｋ］は、下記の等式（５）：

で与えられる。

３つの引数全てについて、［０，０］成分は、ゼロと置いて、バックトラックの完了を確認する、すなわち、ｐ［０，０］＝ｉ［０，０］＝ｄ［０，０］＝０とする。

スコア付けパラメータは、ある程度任意のものであり、計算の挙動を達成するように調整することができる。ＤＮＡのためのスコア付けパラメータ設定の一例（Huang、３章：Bio-Sequence Comparison and Alignment、Curr Top Comp Mol Biolシリーズ、Cambridge、Mass.: The MIT Press、２００２年）であれば、
ＭＡＴＣＨ＿ＢＯＮＵＳ：１０
ＭＩＳＭＡＴＣＨ＿ＰＥＮＡＬＴＹ：−２０
ＩＮＳＥＲＴＩＯＮ＿ＰＥＮＡＬＴＹ：−４０
ＯＰＥＮＩＮＧ＿ＰＥＮＡＬＴＹ：−１０
ＤＥＬＥＴＩＯＮ＿ＰＥＮＡＬＴＹ：−５
である。

上記のギャップペナルティー（ＩＮＳＥＲＴＩＯＮ＿ＰＥＮＡＬＴＹ、ＯＰＥＮＩＮＧ＿ＰＥＮＡＬＴＹ）の間の関係は、ギャップ挿入ペナルティーを、ギャップオープニングコストより大きく設定することにより、ギャップオープニングの数を制限する助けとなる、すなわち、ギャップをまとめてグループ化することを支援する。当然ながら、ＭＩＳＭＡＴＣＨ＿ＰＥＮＡＬＴＹ、ＭＡＴＣＨ＿ＢＯＮＵＳ、ＩＮＳＥＲＴＩＯＮ＿ＰＥＮＡＬＴＹ、ＯＰＥＮＩＮＧ＿ＰＥＮＡＬＴＹ、およびＤＥＬＥＴＩＯＮ＿ＰＥＮＡＬＴＹの間の代替的な関係も可能である。

アライメントが完了したら、アラインされた配列を、基準（すなわち、遺伝子標準物質）と比較して、変異体を同定しうる配列を作製するように、アセンブルすることができる。変異体は、疾患、病期、再発などに関する洞察をもたらしうる。アミノ酸アライメントの場合、アセンブルされたアミノ酸配列を、標準物質と比較して、タンパク質についての進化情報またはタンパク質についての機能情報を決定することができる。

現在の技術水準のアライメント法、例えば、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎの限界は、当該アライメントアルゴリズムでは、より小さなリード、例えば２０塩基対（ｂｐ）から１０００塩基対（ｂｐ）の間のリードを、リードよりも大きいかまたは類似したサイズの構造バリエーションの存在下でアラインするのが難しいことである。構造バリエーションは、典型的には、大きな、例えば、１００ｂｐまたはそれ超、例えば、典型的には、１キロベースから３メガベースの間の長さの配列の偏りである。構造変異体は、重複、逆位、転座またはゲノムの不均衡（挿入および欠失）を含み得、定義によれば、構造変異体はいくつかの塩基対を超えて広がる。一般に公知の構造バリエーションは、コピー数変異体を含み、それにより、染色体の領域内で、特定のゲノム領域が異常なコピー数で複製される。そのようなバリエーションは、がんならびに自己免疫障害および神経性障害との関連付けがなされてきた。

構造バリエーションを含有する配列の一部を表示するより短いリードを現在の技術水準の技法を使用して基準配列にアライメントすると、リードは、多くの場合、構造バリエーションが基準配列には存在しないことにより、基準配列に対するリードのアライメントスコアが意味のあるリードに対する閾値を下回るので、誤っているものとして廃棄される。他の場合では、リードはアラインされるが、リードの特定の配列は、アライメントスコアが、配列内の特定の塩基が構造バリエーションにおける変異の結果であるのか、または「正常な」構造バリエーションの単なるミスリードであるのかはっきりしない程度に低い（したがって、アラインされた配列が「ノイズが多い」と推定される）ので、無視される。

変異または変異体、例えば、小さなインデルまたは多型がリード内の構造バリエーションに極めて近傍に位置する場合には、さらなる問題が存在する。構造バリエーションをアラインすることの難しさは、「アライメント不可能（unalignable）」として廃棄される変異と構造バリエーションの両方を含有するリードを生じさせうる。そのようなリードがより多く廃棄されるほど、変異が完全に見逃される可能性が高くなる。結果として、構造バリエーションに近い意味のある稀な変異体または変異（本明細書では互換的に使用される）が、構造バリエーションに関連する低アライメントスコアに起因して棄却されうる。これらの見逃された変異体は、疾患の調節における（発見されていない）役割を有しうる。

構造バリエーションに近接した稀な変異体を検出できないことにより、遺伝子解析の質が著しく制限されるので、構造バリエーションを構成し（account for）、その結果として稀な変異または変異体のより良好なアライメントを生成することができる配列アライメント技法が必要とされている。

Ｎｅｅｄｌｅｍａｎ−Ｗｕｎｓｃｈ、J Mol Biol、４８巻（３号）：４４３〜４５３頁、１９７０年Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎ、J Mol Biol、１４７巻（１号）：１９５〜１９７頁、１９８１年 Adv. in Math.、２０巻（３号）：３６７〜３８７頁、１９７６年 Gotoh、J Mol Biol、１６２巻（３号）：７０５〜７０８頁、１９８２年 Huang、３章：Bio-Sequence Comparison and Alignment、Curr Top Comp Mol Biolシリーズ、Cambridge、Mass.: The MIT Press、２００２年

本発明は、一般に、アルゴリズムおよびその実行のための方法であって、例えば、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎ−Ｇｏｔｏｈなど、線形局所配列アライメントプロセス（linear, local sequence alignment process）を、並列化の増加、速度の増加、精度の増加、および全ゲノムを通してリードをアラインする能力をもたらす、多次元的アライメントアルゴリズムへと変換するアルゴリズムおよび方法を提供する。ある特定の態様では、種内、集団内、さらには単一の生物体の異なる細胞内での遺伝子配列の変異性（variability）を構成するアセンブルされた基準構築物に対して本発明を実行する。本発明の基準構築物およびアライメントアルゴリズムの特定の利点は、基準配列のある特定の位置における異なる配列とマッチする配列リードをアラインする能力である。すなわち、基準構築物により、配列リードを、ある特定の位置における少なくとも２つの異なる配列経路（sequence path）のうちの１つ、例えば、基準配列と共通する配列に進む（follow）経路またはその基準配列と共通しない配列（例えば、変異、多型、構造変異体）に進む別の経路に対してアラインすることが可能になる。

本発明のアルゴリズムは、配列情報（Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎにおけるのと同様な）についての「遡及」型の解析をもたらすが、公知の線形的方法とは対照的に、本発明の遡及は、全般的なミスマッチ率、欠失率、および挿入率の低下を達成しながら、複雑で長大な配列リードについてのより精密なアライメントをもたらすために、複数の経路（pathway）および複数のノードを含む多次元空間を介して実行される。

実際的には、本発明は、配列リードを、挿入、欠失、および置換を含む、アライメント内の可能な配列バリエーションの全てまたはほぼ全てを構成する、分枝点間にわたる一連の有向非巡回配列にアラインすることにより実行される。有向非巡回グラフ（ＤＡＧ：ｄｉｒｅｃｔｅｄａｃｙｃｌｉｃｇｒａｐｈ）として表示されることが多い、このような構築物は、「許容される」基準配列およびバリアントコールフォーマット（ＶＣＦ：ｖａｒｉａｎｔｃａｌｌｆｏｒｍａｔ）のエントリーを含む、利用可能な配列データベースから容易にアセンブルすることができる。ＤＡＧ、または公知のバリエーションを考慮に入れる他の構築物と組み合わせると、開示されるアルゴリズムにより、アライメントの正確度を著しく改善し、従来のアルゴリズムでは不可能な配列分解能（sequence resolution）を可能にする、配列アライメントのための多次元手法が提供される。実際、技法は、任意の配列情報と共に使用しうるが、本明細書で論じられる通り、核酸配列およびアミノ酸配列をアラインするのに最も有用である。

本発明は、加えて、基準配列構築物、例えば、ゲノムの各遺伝子座において公知の変異体を表示するＤＡＧを使用して、特異的な遺伝子座において、特異的な塩基コールを行う方法も提供する。配列リードは、アライメントの間にＤＡＧにアラインされるため、変異を、基準ゲノムと比較して、公知の変異についての表と比較する後続のステップを廃することができる。開示される方法を使用すると、それは、核酸リードを、ＤＡＧ上に表示される公知の変異に位置するものとして同定し、その変異をコールすることであるに過ぎない。あるいは、変異が公知でない（すなわち、基準配列構築物内で表示されない）場合も、アライメントは見出され、変異体は、新たな変異として同定される。方法はまた、特異的な疾患の危険性または疾患の進行などのさらなる情報を、基準配列構築物へと組み込まれた公知の変異と関連付けることも可能とする。さらに、全ての遺伝学的に関与性の結果を、アライメントの間に見出す潜在的可能性を有することに加えて、開示される方法は、複数の基準配列との同時比較を可能としながら、アライメントの作製に求められる計算リソースも減じる。

本発明は、生物体の配列内の位置において、公知の変異体を表示する、有向非巡回グラフ（ＤＡＧ）データ構造を構築するための方法もさらに含む。ＤＡＧは、数千箇所もの位置において、複数の配列を含むことが可能であり、各位置において、欠失、挿入、翻訳、逆位、および一塩基多型（ＳＮＰ）を含む、複数の変異体を含みうる。また、ＤＡＧ内の各変異体に、「乳がん」など、相関する診断情報をタグ付けし、これにより、試料をもたらす患者に対する危険性を同定するのに必要とされるステップを減じることも可能である。一部の実施形態では、変異体を、スコア付けするか、重み付けするか、または他の変異体と相関させて、疾患についてのマーカーとしてのその変異体の発生率を反映させる。

本発明は、本発明の方法を実行するためのシステムもさらに含む。一実施形態では、システムは、複数の配列（すなわち、核酸配列、アミノ酸配列）を、ゲノム内またはゲノムの領域内で観察されるバリエーションを表示する基準配列構築物（例えば、ＤＡＧ）と比較することが可能な、プロセッサーおよび記憶デバイスの分散型ネットワークを含む。システムは、加えて、効率的なアライメントアルゴリズムを使用して、連続的な配列を作製するように、核酸リードをアラインすることが可能である。基準配列構築物は、膨大な冗長情報を圧縮し、アライメントアルゴリズムは、極めて効率的であるため、市販のリソースを使用して、リードにタグ付けし、全ゲノム上でアセンブルすることもできる。システムは、複数のリードと基準配列構築物との間の複数の比較を同時に実行する複数のプロセッサーを含む。比較データは、蓄積し、医療提供者へと提示することができる。比較は、計算により扱いやすいため、配列リードの解析はもはや、ＮＧＳシーケンシングと患者の遺伝的危険性についての有意義な議論との間の障壁を表さない。

ある特定の態様によると、本発明は、核酸配列を、アラインされる配列内の異なる構造バリエーションを構成する基準配列構築物にアラインするための方法およびシステムを提供する。基準配列構築物内に表示される構造バリエーションを用いると、構造バリエーションの一部を含む配列リードは、バリエーションを構成しない線形的な基準配列を用いた場合に可能性のあるものよりも高いアライメントスコアで基準配列にアラインされる。結果として、基準構築物の異なる経路により、その後の分析のために、大きな公知の配列バリエーションまたはその一部を含有する配列リードを構築物に首尾よくアラインすることが有利に可能になる。適正にアラインされた配列リードの構造変異体を用いると、配列リードの一部である他の配列データ、特に構造変異体に極めて近傍にあるものが、同様に、線形的な基準配列を用いた場合に可能性のあるものよりも高いアライメントスコアで基準構築物にアラインされる。

構造変異体を含有するリードの一貫した、信頼できるアライメントにより、他のやり方ではアラインされない配列として廃棄される可能性がある配列データを捕捉することが可能になる。このことから、本発明のアルゴリズムおよび基準構築物を使用して構造バリエーションの近傍に位置する稀な変異体を捕捉する。稀な変異体とは、試料または集団内に約５％未満、好ましくは約１％未満の頻度で存在する変異体である。本発明の目的に関して、稀な変異体は、「表示されない」変異体、すなわち、使用される基準に反映されない変異体も含まれ得、それは、線形的な基準配列（既存の方法では）または本発明の基準構築物である。例えば、構造変異体に近接する（したがって、配列リードは構造変異体および稀な変異体の少なくとも一部を含む）稀な変異体を、構造変異体と共に本発明の基準構築物にアラインする。配列リード内の構造変異体が基準構築物に適切にアライメントされるので、構造変異体のアライメントの直接の結果として、構造変異体に近接する稀な変異体は、他のやり方で十分にアラインされた信頼できる多数のリードに存在する。稀な変異体が一貫して存在することにより、それがシーケンシングエラーではなく、正当な遺伝的変異体として認識されるようになる。本明細書に記載のマルチパスアライメント手法を使用することにより、線形的な基準アライメント手法を使用すると見落とされる可能性がある稀な配列の変異の分解能を可能とする。

図１は、基準配列内の遺伝子バリエーションを表示する有向非巡回グラフ（ＤＡＧ）の構築について描示する図である。図１Ａは、出発基準配列および欠失の付加を示す図である。図１Ｂは、挿入およびＳＮＰの付加であり、これにより、アライメントに使用される最終的なＤＡＧに到達することを示す図である。図１は、基準配列内の遺伝子バリエーションを表示する有向非巡回グラフ（ＤＡＧ）の構築について描示する図である。図１Ａは、出発基準配列および欠失の付加を示す図である。図１Ｂは、挿入およびＳＮＰの付加であり、これにより、アライメントに使用される最終的なＤＡＧに到達することを示す図である。図２は、有向非巡回グラフとして表示される、３つのバリアントコールフォーマット（ＶＣＦ）のエントリーについて描示する図である。図３Ａは、核酸配列リードを、挿入イベントならびに基準配列からなる構築物にアラインすることについての、図解による表示である。図３Ｂは、核酸配列リード「ＡＴＣＧＡＡ」の適正な場所を同定するのに使用される、行列およびバックトラックを示す図である。図４は、並列処理のための連想計算モデル（associative computing model）について描示する図である。図５は、並列計算のためのアーキテクチャーについて描示する図である。図６Ａは、構造バリエーションの存在下での稀な変異体を説明する３つの核酸配列、ならびに構造バリエーションと稀な変異体の両方を有する配列と重複するリード（Ｓ^＊＊）を示す図である。図６Ｂは、構造バリエーションと稀な変異体の両方を有する配列と重複するリード（Ｓ^＊＊）と、「許容される」基準配列（Ｓ）との間に重複がないことを説明する図である。図６Ｃは、図６Ａの３つの配列のうちの２つが組み込まれたＤＡＧを説明する図である。図６Ｄは、リードの、図６Ａの３つの配列のうちの２つが組み込まれたＤＡＧへのアライメントを説明する図である。図６Ｅは、図６Ａ配列の３つ全てが組み込まれたＤＡＧを説明する図である。図６Ｆは、リードの、図６Ａ配列の３つ全てが組み込まれたＤＡＧへのアライメントを説明する図である。

本発明は、例えば被験体から取得した核酸試料において、遺伝子配列内の構造バリエーションの近くの稀な変異体を同定するための方法を提供する。本発明は、リード（例えば核酸リード）を、構造バリエーションを構成する基準配列構築物にアラインするための方法、構造バリエーションまたは構造バリエーションおよび稀な変異体を構成する基準配列構築物を構築するための方法、ならびに、アライメント法を使用して稀な変異体を同定するシステムをさらに含む。方法は、拡張性があり、数百万ものリードを数千もの塩基長、またはそれ超の構築物にアラインするのに使用することができる。

本発明はまた、配列（例えば、核酸配列、アミノ酸配列）を、基準配列構築物にアラインするための方法、基準配列構築物を構築するための方法、ならびにアライメント法および構築物を使用して、アライメントおよびアセンブリーを作製するシステムを含む。基準配列構築物は、下記で記載される、有向非巡回グラフ（ＤＡＧ）でありうるが、基準配列は、構築物が、アライメントのためにフォーマットされていることを条件として、種内の異なる生物体の配列内の遺伝的変異性を反映する任意の表示でありうる。遺伝的変異性はまた、生物体における異なる組織間または異なる細胞間の遺伝的変異性でもある。一般に、基準配列構築物は、サンプリングされた配列の間で同一な部分と、サンプリングされた配列の間で変化する部分とを含む。したがって、構築物は、同じ配列(複数可)を含む位置（すなわち、いくつかのカノニカル・オーダリングに従う）と、遺伝的変異性を反映する代替配列を含むいくつかの位置とを有すると考えることができる。本出願は、加えて、核酸リードの、構築物内の場所に対するアライメントに基づき、疾患または遺伝子型を同定するための方法も開示する。方法は、遺伝子シーケンシングおよび変異スクリーニングの分野に広く適用可能である。
基準配列構築物

核酸リードをアラインして遺伝子型解析するのに単一の基準配列を使用する先行技術による配列アライメント法と異なり、本発明では、種内、集団内、なおまたは単一の生物体における異なる細胞間の遺伝子配列の変異性を構成しうる構築物を使用する。遺伝子バリエーションについての表示は、有向非巡回グラフ（ＤＡＧ）（上記で論じた）の行−列によるアライメント行列、またはｄｅＢｒｕｉｊｎグラフとして提示することができ、これらの構築物は、アライメントアルゴリズムのパラメータを適正に設定する（下記で論じる）ことを条件として、本発明のアライメント法と共に使用することができる。

本発明の好ましい実施形態では、構築物は、有向非巡回グラフ（ＤＡＧ）である、すなわち、方向を有するが、巡回経路を有さない（すなわち、配列経路は、１回より多く基準構築物上の位置を通って進みえない）。ＤＡＧでは、配列内の遺伝子バリエーションを、代替的なノードとして表示する。ノードは、保存的配列の区画の場合もあり、遺伝子の場合もあり、単に核酸の場合もある。構築物を通る、異なる可能な経路は、公知の遺伝子バリエーションを表示する。ＤＡＧは、生物体の全ゲノムについて構築することもでき、ＤＡＧは、ゲノムの部分、例えば、染色体、または遺伝情報のより小さなセグメントだけについて構築することもできる。一部の実施形態では、ＤＡＧは、１０００を超える核酸、例えば、１０，０００を超える核酸、例えば、１００，０００を超える核酸、例えば、１，０００，０００を超える核酸を表示する。ＤＡＧは、種（例えば、Ｈｏｍｏｓａｐｉｅｎｓ）を表示する場合もあり、選択された集団（例えば、乳がんを有する女性）を表示する場合もあり、なおまたは同じ個体における異なる腫瘍細胞間の遺伝子バリエーションなど、より小さな部分集団を表示する場合もある。

ＤＡＧ構築の簡単な例を、図１に示す。図１Ａに示される通り、ＤＡＧは、図１Ａに配列番号１：ＣＡＴＡＧＴＡＣＣＴＡＧＧＴＣＴＴＧＧＡＧＣＴＡＧＴＣとして示される基準配列で始まる。実際的には、基準配列は、はるかに長いことが多く、全ゲノムでありうる。配列は、ＦＡＳＴＡファイルまたはＦＡＳＴＱファイルとして保存される（ＦＡＳＴＱは、次世代シーケンサーから作製された配列データのためのデフォルトフォーマットとなっている）ことが典型的である。一部の実施形態では、基準配列は、ＧＲＣｈ３７などの標準的な基準でありうる。当業者により認識される通り、配列内の各文字（または記号）は、実際的には、ヌクレオチド（例えば、デオキシリボヌクレオチドまたはリボヌクレオチド）またはアミノ酸（例えば、ヒスチジン、ロイシン、リシンなど）に対応する。

次のステップでは、図１（Ａ）の下図に示される通り、変異体を、基準配列へと付加する。図１（Ａ）に示されるとおり、変異体は、図中の直線間での、基準からの配列「ＡＧ」の欠失、すなわち、配列番号２である。図上では、この欠失を、基準配列を、欠失の前後でノードへと切断し、２つの文字列を、ノードの間に挿入することにより表示する。異なる経路により、基準構築物内に代替配列が創製される。経路のうちの１つは、基準配列と共通する配列を表示し、経路のうちの１つは、基準配列と共通しない配列を表示する。図１（Ａ）では、ノード間の１つの経路は基準配列と共通する配列を表示し、他の経路は、基準配列と共通しない欠失を表示する。実際的には、変異体は、１０００ＧｅｎｏｍｅｓＰｒｏｊｅｃｔウェブサイトで見出されうるＶＣＦファイルなどの、バリアントコールフォーマット（ＶＣＦ）ファイル内のエントリーを適用することにより、ＤＡＧに対してコールする。各ＶＣＦファイルは、特異的な基準ゲノムに適合させてあるため、文字列がどこに位置するのかを同定することは、困難ではない。実際、ＶＣＦファイル内の各エントリーは、図２に表示される通り、基準と組み合わせて、別個のグラフを創製するエントリーと考えることができる。図２中のＶＣＦエントリーは、図１のＶＣＦエントリーに対応しないことに注目されたい。

図１Ｂに移ると、特異的な位置における挿入「ＧＧ」に対応する、第２のＶＣＦエントリーを付加して、伸長型ＤＡＧ、すなわち、配列番号３および配列番号４を含むＤＡＧを作製する。次に、第３のＶＣＦエントリーを、伸長型ＤＡＧに付加して、基準配列内の初期のＳＮＰ、すなわち、配列番号５〜８を含むＳＮＰを構成することができる。こうして、３つのステップで、核酸リードをそれに対してアラインさせることができるＤＡＧが創製された（下記で論じられるとおり）。

ＤＡＧ基準構築物では、配列経路（基準と共通する配列および共通しない配列）は、どちらも、対象の配列に含めることができる代替配列を表示するので、基準構築物内の変異体とみなされる。

実際的には、ＤＡＧは、コンピュータメモリ内（ハードディスク、フラッシュメモリ、クラウドメモリなどの中）に、ノードのセットＳとして表示され、各ノードは、文字列、親ノードのセット、および位置により規定される。文字列とは、ノードの「内容物」、すなわち、配列であり、親ノードは、ノードの位置を、グラフ内の他のノードに照らして規定し、ノードの位置は、システム内のいくつかのカノニカル・オーダリング、例えば、基準ゲノムに対する位置である。グラフを、基準配列に照らして規定することが厳密に必要なわけではないが、これにより、出力データの操作が簡略となる。当然ながら、Ｓに対するさらなる制約は、それがループを含みえないことである。

このＤＡＧ法を、大型の構造へと外挿することにより、基準の所与の領域について、遺伝子配列内の公知の変異を表示する、数千のＶＣＦエントリーを組み込むＤＡＧを構築することが可能である。にも拘らず、ＤＡＧが嵩高くなると、計算も長くかかるので、多くの適用では、配列の部分、例えば、染色体だけを表示しうる、小型のＤＡＧを使用する。他の実施形態では、ＤＡＧにより包含される集団のサイズを減じることにより、例えば、乳がんにおけるバリエーションを表示するＤＡＧから、トリプルネガティブ乳がんにおけるバリエーションを表示するＤＡＧへと移行することにより、ＤＡＧを小型とすることができる。あるいは、試料間で一致している、ＤＡＧの大部分を結果としてもたらすことが典型的な、容易に同定される遺伝子マーカーに基づきカスタマイズされた、長大なＤＡＧも使用することができる。例えば、アフリカ系女性（African-ancestry female）に由来する核酸リードのセットを、アフリカ系女性（women of African ancestry）に由来するＶＣＦエントリーにより創製されたＤＡＧに対してアラインすることの方が、同じ配列にわたりヒトにおいて公知の全てのバリエーションを構成するＤＡＧと比較して速い。本発明のＤＡＧは、それらが、時間の経過にわたって、新たに同定された変異を組み込むように改変されうるという点で、動的構築物であることを認識されたい。加えて、また、アライメント結果をＤＡＧへと再帰的に付加するアルゴリズムも可能である。

文字列対ＤＡＧアライメントの場合は、ギャップペナルティーを、ギャップ挿入のコストをなおより大きくし、これにより、全体的な配列内の新たなギャップのオープニングではなく、配列に対するアライメントを支援するように調整することができる。当然ながら、ＤＡＧ内の改善（上記で論じた）により、変異は、ＤＡＧ内で構成されるため、ギャップの発生は、なおさらに減少するはずである。
アライメントアルゴリズム

一実施形態では、アルゴリズムを使用して、配列リードを、有向非巡回グラフ（ＤＡＧ）に対してアラインする。「背景技術（Background）」で表されたアルゴリズムと異なり、アライメントアルゴリズムでは、ＤＡＧ（例えば、基準配列構築物）上の位置において含有される各配列に対する最大スコアを同定することにより、Ｃ_ｉｊの最大値を同定する。実際、先行する位置を「後ろ向きに（backwards）」見ることにより、複数の可能な経路にわたり最適のアライメントを同定することが可能である。

本発明のアルゴリズムは、上記で論じた通り、リード（別名「文字）および有向非巡回グラフ（ＤＡＧ）上で実行される。アルゴリズムを規定する目的で、Ｓを、アラインされる文字列とし、Ｄを、Ｓがアラインされる有向非巡回グラフとする。文字列Ｓの成分において、１で始まるインデックスがカッコ内に示される。したがって、Ｓが文字列ＡＴＣＧＡＡであれば、Ｓ［１］＝Ａ、Ｓ［４］＝Ｇなどである。

ＤＡＧでは、ノードの配列の各文字は、別個の成分であるｄとして表示される。ｄの先行成分（predecessor）は、以下のように定義される。
（ｉ）ｄが、そのノードの配列の第１の文字でなければ、そのノード内のｄに先行する文字が、その（唯一の）先行成分であり、
（ｉｉ）ｄが、そのノードの配列の第１の文字であれば、任意のノードの配列の最後の文字であって、ｄのノードの親である文字が、ｄの先行成分である。

全ての先行成分のセットは、Ｐ［ｄ］として表示する。
「最良の」アライメントを見出すために、アルゴリズムでは、Ｓの最初のｊ個の成分の、ｄに先行する（およびｄを含む）ＤＡＧの部分による最適のアライメントについてのスコアである、Ｍ［ｊ，ｄ］の値を求める。このステップは、「背景技術」節中の等式１内のＨ_ｉｊを見出すステップと同様である。具体的に、Ｍ［ｊ，ｄ］を決定するステップは、下記：

で規定される通り、ａ、ｉ、ｅ、および０のうちの最大値を見出すことを伴う。

上記で記載した通り、ｅとは、Ｓの最初のｊ個の文字の、ＤＡＧの部分であって、ｄまでであるが、ｄを含まない部分によるアライメントのうちの最高のアライメントに、追加のＤＥＬＥＴＥ＿ＰＥＮＡＬＴＹを加えた値である。したがって、ｄが、ノードの配列の第１の文字でなければ、唯一の先行成分ｐが存在し、Ｓの最初のｊ個の文字の、ＤＡＧ（ｐまでであり、ｐを含む）によるアライメントスコアは、Ｍ［ｊ，ｐ］＋ＤＥＬＥＴＥ＿ＰＥＮＡＬＴＹと等しい。ｄが、そのノードの配列の第１の文字である場合、複数の可能な先行成分が存在することが可能であり、ＤＥＬＥＴＥ＿ＰＥＮＡＬＴＹは定数であるため、［Ｍ［ｊ，ｐ^＊］＋ＤＥＬＥＴＥ＿ＰＥＮＡＬＴＹ］を最大化することは、先行成分を、Ｓの最初のｊ個の文字による最高のアライメントスコアと共に選択することと同じである。

等式（６）では、ｉとは、文字列Ｓの最初のｊ−１個の文字の、ｄまでであり、ｄを含むＤＡＧによるアライメントに、ＳＷにおける挿入引数の定義（等式１を参照されたい）と同様のＩＮＳＥＲＴ＿ＰＥＮＡＬＴＹを加えた値である。

加えて、ａとは、Ｓの最初のｊ個の文字の、ＤＡＧの部分であって、ｄまでであるが、ｄを含まない部分によるアライメントのうちの最高のアライメントに、ＭＡＴＣＨ＿ＳＣＯＲＥ（Ｓのｊ番目の文字が、文字ｄと同じである場合）またはＭＩＳＭＡＴＣＨ＿ＰＥＮＡＬＴＹ（Ｓのｊ番目の文字が、文字ｄと同じでない場合）を加えた値である。ｅと同様に、これは、ｄが、そのノードの配列の第１の文字でなければ、唯一の先行成分、すなわち、ｐが存在することを意味する。これは、ａが、Ｓの最初のｊ−１個の文字の、ＤＡＧ（ｐまでであり、ｐを含む）によるアライメントスコア、すなわち、ｄとＳのｊ番目の文字とがマッチするのかどうかに応じて、ＭＩＳＭＡＴＣＨ＿ＰＥＮＡＬＴＹまたはＭＡＴＣＨ＿ＳＣＯＲＥを加えたＭ［ｊ−１，ｐ］であることを意味する。ｄが、そのノードの配列の第１の文字である場合、複数の可能な先行成分が存在しうる。この場合、｛Ｍ［ｊ，ｐ^＊］＋ＭＩＳＭＡＴＣＨ＿ＰＥＮＡＬＴＹまたはＭＡＴＣＨ＿ＳＣＯＲＥ｝を最大化することは、先行成分を、Ｓの最初のｊ−１個の文字による最高のアライメントスコア（すなわち、Ｍ［ｊ−１，ｐ^＊］の候補引数の最高値）と共に選択し、ｄとＳのｊ番目の文字とがマッチするのかどうかに応じて、ＭＩＳＭＡＴＣＨ＿ＰＥＮＡＬＴＹまたはＭＡＴＣＨ＿ＳＣＯＲＥを加えることと同じである。

ここでもまた、「背景技術」で論じられたＳＷアルゴリズムの場合と同様に、ペナルティー、例えば、ＤＥＬＥＴＥ＿ＰＥＮＡＬＴＹ、ＩＮＳＥＲＴ＿ＰＥＮＡＬＴＹ、ＭＡＴＣＨ＿ＳＣＯＲＥ、およびＭＩＳＭＡＴＣＨ＿ＰＥＮＡＬＴＹは、少数のギャップを伴うアライメントを促すなどのように調整することができる。

上記の等式で記載されている通り、アルゴリズムでは、各リードについて、その成分についての挿入スコア、欠失スコア、およびマッチスコアを計算するだけでなく、ＤＡＧ上の任意の先行ノードを後ろ向きに見て（ＤＡＧの方向と反対方向に）、最大のスコアを見出すことにより、最大値を見出す。こうして、アルゴリズムは、ＤＡＧを通る異なる経路であって、公知の変異を含有する経路を横断することが可能である。グラフは有向であるため、グラフの方向と反対方向に移動するバックトラックは、グラフの起点に向かって好ましい変異体配列に進み、最大値のアライメントスコアは、最も可能性の高いアライメントを、高い確実性で同定する。上記の等式は、「最大」値として表示されるが、「最大」は、例えば、等式の全てにおいて記号を切り替え、最小値について解くことを含む、最適化の任意の形態を包含することを意図する。

開示されるアルゴリズムの実行について、図３で例示するが、ここで配列「ＡＴＣＧＡＡ」を、基準配列である配列番号１０：ＴＴＧＧＡＴＡＴＧＧＧと、公知の挿入イベントである配列番号１１：

［ここで、挿入には下線を付す］とを表示するＤＡＧに対してアラインする。図３Ａが、ＤＡＧと比較されるリードについての図解による表示を示すのに対し、図３Ｂは、比較に対応する実際の行列を示す。「背景技術」で論じられたＳｍｉｔｈ−Ｗａｔｅｒｍａｎ技法と同様に、本発明のアルゴリズムでは、最高のスコアを同定し、バックトラックを行って、リードの適正な場所を同定する。図３ＡおよびＢはまた、本発明が、文字列について、構築物に対する実際のマッチをもたらすのに対し、公知の方法（例えば、ＳＷ）であったら、文字列を、基準の誤った部分にアラインする、または文字列を、アライメント内に含まれるのに十分に高いアライメントスコアを生成しないものとして棄却する可能性が高いことも強調する。配列リードが、ＤＡＧ内に含まれていなかった変異体を含む場合、アラインされた配列は、ギャップ、挿入などを伴うと報告される。
基準配列構築物の適用

本発明の基準構築物およびアライメントアルゴリズムの１つの利点は、配列リードを基準配列構築物のある特定の位置において第１の配列または第２の配列のいずれかにアラインするその能力である。すなわち、本発明の基準配列構築物により、配列リードをある特定の位置において少なくとも２つの異なる配列経路、例えば、基準配列と同等である配列に進む経路、および変異体（例えば、変異、多型、コピー数バリエーション）を含めた基準配列と同等である公知の配列に進む別の経路のうちの１つに対してアラインすることが可能になる。したがって、配列内の公知のバリエーションは、本発明の技法を使用して、公知のバリエーションを含有するリードを、変異を含む配列経路にアラインすることによって確実に構成し、同定することができる。

バリエーション（変異体とも称される）は、基準配列構築物内のある特定の位置において、２つまたはそれ超の代替配列（すなわち、異なる配列が２つまたはそれ超の経路を形成する場合）のうちのいずれか１つを含みうる。別の意味では、基準配列構築物にはいくつかの基準集団／データセットに関連するシーケンシングデータが組み込まれるので、ＤＡＧ構築物内の代替配列はいずれも変異体とみなされる。構築物の基準配列は、ＤＡＧについてのベースラインとして使用される典型的には分析のために使用される長い配列である任意の配列であり、また、ゲノムの一部またはゲノム全体でありうる。基準配列は、ある特定の種（例えば、Ｈｏｍｏｓａｐｉｅｎｓ）に共通する配列であってもよく、ある特定の患者集団（例えばがん患者）に共通してもよい。

ある特定の実施形態では、変異体を、基準配列と共通する配列または共通しない配列とみなすことができる。本明細書で考察する通り、共通する配列変異体は、ベースラインとして選択される基準配列に進む基準構築物内の任意の配列経路である。そのように、配列バリエーションが基準配列と「共通する」か「共通しない」かは、ベースライン基準配列として何を選択するかに依存する。例えば、基準構築物は、ある特定の位置において、正常な、健康な個体に共通する第１の配列経路および乳がんの個体に共通する変異を有する第２の配列経路を含みうる。ベースライン基準が乳がん患者に共通する基準配列である場合、正常な、健康な個体への方向を有する第１の配列経路は共通しない変異体であり、乳がんの個体に関する第２の配列経路は共通の変異体である。ベースライン基準を正常な、健康な個体に共通する基準配列とみなす場合には、正常な、健康な個体への方向を有する第１の配列経路は、共通の変異体であり、乳がん患者への方向を有する第２の配列経路は共通しない変異体である。

基準構築物の異なる経路により、大きな公知の配列の偏りを有する配列リードをその後の分析のために構築物に首尾よくアラインすることが有利に可能になるが、一方、従来の一次元基準配列では、そのような大きな偏りはアライメントスコアが低いことに起因して棄却される。構造変異体と称されることが多い大きな公知の配列バリエーションは、典型的には、１Ｋｂ〜３Ｍｂのサイズである。しかし、本出願の目的に関しては、構造変異体は、そのサイズが原因で配列リードが線形的な基準配列にアラインされることが妨げられるまたは基準配列に極めて不十分にアラインされる（例えば、アライメントスコアが低い）、配列リード内の大きな配列変異体のいずれも含みうる。ある特定の実施形態では、構造変異体の配列の長さは、約１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、１Ｋｂ、１．１Ｋｂ、１．２Ｋｂ、１．３Ｋｂ、１．４Ｋｂ、１．５Ｋｂ、１．６Ｋｂ、１．７Ｋｂ、１．８Ｋｂ、１．９Ｋｂ、２．０Ｋｂ…２．０Ｍｂ、２．１Ｍｂ、２．２Ｍｂ、２．３Ｍｂ、２．４Ｍｂ、２．５Ｍｂ、２．６Ｍｂ、２．７Ｍｂ、２．８Ｍｂ、２．９Ｍｂ、３．０Ｍｂなどである。構造バリエーションは、遺伝的多様性および易罹患性に寄与するので、被験体に対する重要な洞察をもたらす。

本発明とは異なり、従来のアライメント法（例えば、線形的な基準配列）では、構造バリエーションが同定される見込みはなく、さらには構造バリエーションの近くに位置する稀な変異体が同定される可能性も低い。稀な変異体は、所与の集団において低い確率で見出される任意の変異（インデルまたは多型など）を含む。例えば、稀な変異体は、例えば、２５％またはそれ未満；２０％またはそれ未満；１５％またはそれ未満；１０％またはそれ未満；または５％またはそれ未満にわたるマイナー対立遺伝子頻度を有しうる。（マイナー対立遺伝子頻度（ＭＡＦ）とは、所与の集団において最小の共通対立遺伝子が存在する頻度を指す）。いくつかの場合には、稀な変異体は、まだ同定されていない、すなわち、リードをアラインする基準では表示されない変異体を含む。いくつかの場合には、稀な変異体は、ＶＣＦファイル内に分類されていない。アライメント機構の展望から、そのような変異体は、試料の集団におけるそれらの実際の頻度にかかわらず、事実上これまでに見られていないものである。構造変異体の近くに位置する稀な変異体は、構造変異体から、およそリードの長さ、すなわち、約１００ｂｐまたはそれ未満離れていてよい。しかし、本発明は、この間隔に限定されない。いくつかの場合には、構造変異体の近くに位置する稀な変異体では、稀な変異体と構造変異体との間の間隔は、約１ｂｐ〜約１Ｍｂｐ、例えば、約１０ｂｐ〜約１０，０００ｂｐ、例えば、約１００ｂｐ〜約１０００ｂｐにわたりうる。

従来のアライメント法では、２つの因子の組合せに起因して、構造変異体の近くの稀な変異体を認識することができない。第１に、従来のアライメント法では、対象のリードを、公知のものであってさえ、構造バリエーションが考慮されていない単一の線形的な基準配列にアラインする。第２に、稀な変異体を含有するリードのほぼ全てが構造変異体も含有する。稀な変異体と構造変異体との間の塩基の間隔が短くなるほど、構造変異体も含有する稀な変異体を含有するリードが多くなる。これらの２つの因子により、構造変異体と稀な変異体の両方を含有する配列リードのアラインが失敗する機会が有意に高くなる。構造変異体は大きく、基準配列には反映されないので、それと重複するリードは、アライメントアルゴリズムによって「アライメント不可能」（すなわち、基準とは異なりすぎるので基準の任意の一部とマッチできない）として棄却される。その場合、構造変異体と稀な変異体の両方が廃棄される。構造変異体および稀な変異体を有するリードと、線形的な基準配列上のリードの対応する「適切な」ゲノムの場所との間のマッチの欠如により、リードがゲノム上の正しくない場所へのアライメントを生じうる。リードまたはその一部が正しい全般的な場所にアラインされたとしても、マッチングアルゴリズムは、許容されるアライメントを達成しようとうる試みにおいて稀な変異を落とす可能性がある。これは、変異体が、リードがアラインされる基準内で表示されない場合に特に可能性がある。かろうじて正確にアラインされた稀な変異体を含有するリードはいずれも、アライメント品質が不十分であり、アライメントの数が少なく、その両方により、アライメントがただ単にランダムなエラーであることが示唆されるので、信頼度が低いものとして扱われる。大きな公知の構造変異体は、公知であるためにリードの信頼度が不十分であったとしてもコールされ得るが、稀な変異体は通常、公知の構造変異体と比較してノイズ／エラーに分類され、廃棄される。

稀な変異体が実質的な疾患のリスクを付与することは、一般に受け入れられているので、配列アセンブルの間に稀な変異体を検出する能力を最大にすることが極めて重要である。本発明の基準構築物は任意の公知の構造変異体を構成しうるので、本発明の基準構築物により、アライメントプロセスの間にアライメントされない構造変異体および稀な変異体が最小限になる。基準構築物におけるある特定の場所に少なくとも２つの構造変異体を含めることにより、本発明では、構造変異体の少なくとも１つの一部を含む配列リードを基準構築物にアラインすることが可能になる。すなわち、公知の構造変異体の一部を含む配列リードがアラインされ、構成されるが、線形的な基準構造では、同じ構造変異体のアラインが失敗する。本発明の結果は、構造変異体を含むリードは、リードがミスマッチではなくマッチとして扱われるので、ＤＡＧに高い程度の信頼度および正確度で適正にアラインすることができるというものである。

適正にアラインされた構造変異体では、構造変異体を伴う配列リードの一部である他の配列データも同様に基準構築物にアラインされる。例えば、構造変異体に近接する（したがって、配列リードは構造変異体および稀な変異体の少なくとも一部を含む）稀な変異体は構造変異体と共に基準構築物にアラインされる。したがって、構造変異体に隣接する稀な変異体は、配列リード内の構造変異体がＤＡＧ基準構築物に適切にアラインされるので、多数の他のやり方で十分にアラインされた信頼できるリードに存在する。稀な変異体が一貫して存在することにより、変異体が基準構築物内で表示されなくとも、それがシーケンシングエラーではなく、正当な遺伝的変異体であると認識されるようになる。

図６Ａ〜６Ｆは、構造変異体の近くの稀な変異体を同定するための、本発明の基準構築物の使用を説明する。図６Ａは、各々が５０ヌクレオチドの長さである３つの仮定上の配列：基準配列Ｓ（配列番号１４）、構造バリエーションを伴う配列Ｓ^＊（配列番号１５）、ならびに構造バリエーションおよび稀な変異体を伴う配列Ｓ^＊＊（配列番号１６）の概略である。配列Ｓ^＊および配列Ｓ^＊＊は、基準配列Ｓに対して、２６位から５０位にわたる公知の構造バリエーションを含む。実際には、構造バリエーションは、典型的には、１００ｂｐまたはそれ超である。構造バリエーションの長さが説明のために図６Ａ〜６Ｆに示されている。図６Ａ〜６Ｆ全体を通して示されている通り、公知の構造バリエーションが太字で示され、強調されている。配列Ｓ^＊＊は、基準配列Ｓに対して、２３位においてＧがＴで置きかえられた置換変異である稀な変異体も含む。図６Ａは、２０位から３４位にわたる、配列Ｓ^＊＊の配列リード（リード１と称される）も示す。したがって、リード１は、構造変異体の一部（２６位から３４位まで）および２３番目の位置における稀な変異体を含む。実際には、配列リードおよび構造バリエーションは、図６における説明よりも長い可能性がある。さらに、稀な変異体は、構造バリエーションからさらに離れている可能性がある。

図６Ｂは、配列Ｓ^＊＊のリード１の基準配列Ｓへのアライメントを説明する。特に、図６Ｂは、従来の線形型では配列Ｓ^＊＊のリード１を基準配列Ｓにアラインできないことを説明する。線形的にアラインすると、リード１における大多数のヌクレオチドは、基準配列とは２０位から３４位まで異なる。ミスマッチにもかかわらず、リード１は、理想的には、稀であり構造的な配列バリエーションを適切に示すために２０位から３４位まで基準配列にアラインする。しかし、ミスマッチのレベルが高いことに起因して、Ｓｍｉｔｈ−ＷａｔｅｒｍａｎまたはＮｅｅｄｌｅｍａｎ−Ｗｕｎｓｃｈなどのアルゴリズムでは、アライメントのために必要な実施において使用される品質閾値を満たすスコアがリード１に割り当てられる可能性が低い。結果として、リード１を線形的な基準配列の２０位から３４位までにアラインすることができず、リード１からのデータは棄却される。さらに、基準配列がゲノムにわたる場合（示されている５０ヌクレオチドを超える多くの桁）、リード１は、基準配列上の別の正しくない場所においてより高いマッチするスコアを有する可能性がある。

図６Ｃ〜６Ｄは、本発明のＤＡＧ基準構築物を使用した公知の構造変異体の近くの未知の稀な変異体のアライメントを説明する。図６Ｃは、基準配列Ｓと配列Ｓ^＊の両方からのシーケンシングデータを組み込むＤＡＧを説明する。図６Ｃに示されているＤＡＧ基準構築物１は、基準配列Ｓと共通する配列変異体に進む基準経路（１）、ならびに配列Ｓ^＊および配列Ｓ^＊＊には存在するが基準配列Ｓとは共通しない公知の構造変異体に進む基準経路（２）を含む。図６Ｄは、Ｓ^＊＊のリード１のＤＡＧ基準構築物１へのアライメントを説明する。示されている通り、リード１は公知の構造変異体を伴う経路に進むので、リード１はＤＡＧにほぼ完全にアラインされる。リード１とＤＡＧ基準構築物１との間の唯一のミスマッチは、２３位における稀な変異体（すなわち、２３位におけるＴ置換）である。ミスマッチが軽微であるので、アライメントアルゴリズムによりリード１が正しい場所にアラインされる可能性が最も高く、そのようなアライメントのスコアは品質閾値を上回る。配列スコアの品質が高いので、このアライメントにより配列Ｓ^＊＊内の稀な変異体を確実に同定することが可能になる。別のやり方で十分にアラインされた高スコアのリードの一部であるために、リード１のＤＡＧ基準構築物１へのアライメントは、２３位における未知の稀な変異体をシーケンシングエラーとしてではなく正当な変異として同定することを可能にする。

図６Ｅ〜６Ｆは、本発明のＤＡＧ基準構築物を使用した公知の構造変異体の近くの公知の稀な変異体のアライメントを説明する。図６Ｅに示されている通り、ＤＡＧは、基準配列の２３位におけるＧ−Ｔ置換に起因する基準構築物内の変異体を構成するための基準経路（１）および（２）、ならびに２６位から５０位までにわたる公知の構造変異体に起因する基準構築物内の変異体を構成するための基準経路（３）および（４）を含む。
並列化の見込み

Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎ−Ｇｏｔｏｈアルゴリズムの逐次形は、大規模な並列化に適応し、大幅に改変されている。例えば、連想大規模並列処理（Associative Massive Parallelism）を使用するＳｍｉｔｈ−Ｗａｔｅｒｍａｎ法（ＳＷＡＭＰ）と呼ばれるＡＳＣモデルについては、参照によりその全体において本明細書に組み込まれる、米国特許公開第２０１２／０２３９７０６号において記載されている。ＳＷＡＭＰ（および他の並列処理システム）のための並列化の一部は、任意の反対角成分（anti-diagonal）に沿った値が、互いから独立であるという事実から来る。こうして、所与の反対角成分に沿ったセルの全ては、計算リソースを分散させるように、並列的に処理することができる。上記の再帰式で示されたデータの依存性により、達成可能な並列処理のレベルは制限されるが、ウェーブフロント法を使用することにより、この有用なアルゴリズムはさらに加速化される。Wozniak（Comput Appl in the Biosciences（CABIOS）、１３巻（２号）：１４５〜１５０頁、１９９７年）により、ＳｕｎＵｌｔｒａＳＰＡＲＣ上で実行されるウェーブフロント法では、特化したＳＩＭＤ様のビデオ処理命令を使用する。Wozniakは、ＳＩＭＤレジスターを使用して、副対角成分（minor diagonal）に対応する値を保存したところ、同じマシン上の従来の実行に対して２倍の加速化を報告している。Wozniakの例に続く、コードを並列化する同様の方法は、ストリーミングＳＩＭＤ拡張（ＳＳＥ：ＳｔｒｅａｍｉｎｇＳＩＭＤＥｘｔｅｎｓｉｏｎ）セットを、ｘ８６アーキテクチャーに使用することである。Ｉｎｔｅｌにより設計されたベクトル様演算では、少数の値（通例、４つ、８つ、または１６の値）に対する単一の演算／命令を、一度に完了させる。多くのＡＭＤ製チップおよびＩｎｔｅｌ製チップが、ＳＳＥの多様なバージョンを支援しており、Ｉｎｔｅｌでは、その最新チップセットのためのアドバンストベクトルエクステンション（ＡＶＸ）に関して、この技術の開発を継続している。

他の実行では、RognesおよびSeeberg（Bioinformatics（Oxford、England）、１６巻（８号）：６９９〜７０６頁、２０００年）は、ＩｎｔｅｌＰｅｎｔｉｕｍプロセッサーを使用して、ＳＳＥの先行成分である、ＭＭＸＳＩＭＤ命令を、それらの実行のために使用している。RognesおよびSeeberg（Bioinformatics、１６巻（８号）：６９９〜７０６頁、２０００年）による、ＰａｒＡｌｉｇｎのための作業から開発された手法では、ウェーブフロント法を使用しない（Rognes、Nuc Acids Res、２９巻（７号）：１６４７〜５２頁、２００１年；Saeboら、Nuc Acids Res、３３巻（増刊２号）：Ｗ５３５〜Ｗ５３９頁、２００５年）。代わりに、彼らは、クエリー配列と並行にＳＩＭＤレジスターをアラインさせ、あらかじめ計算されたクエリー特異的なスコア行列を使用して、８つの値を一度に計算する。この方法のさらなる詳細は、参照により本明細書に組み込まれる、Ｕ．Ｓ．７，９１７，３０２において見出すことができる。RognesおよびSeebergが、ＳＩＭＤレジスターを配置する（layout）方式である、ノースネイバー依存方式によれば、ＳＳＥによる並列「ベクトル」計算から得られる潜在的加速化のうちの最大３分の１が失われうる。これを克服するために、彼らは、ＳＷＡＴ様最適化を組み込んでいる。アフィンギャップペナルティーを大きくすると、ノーザンネイバーは、大半の場合にゼロとなる。これが成り立つなら、プログラムは、ノースネイバーの値の計算をスキップすることが可能であり、これを、Farrar（Bioinformatics、２３巻（２号）：１５６〜１６１頁、２００７年）は、「Ｆ遅延評価」と称している。RognesおよびSeebergの方法では、ノースネイバーの値がある特定の閾値を下回る場合には、それをスキップすることにより、等式１の計算回数を縮減して、それらのアルゴリズムを加速化することが可能である。RognesおよびSeeberg、Bioinformatics、１６巻（８号）：６９９〜７０６頁、２０００年では、ＭＭＸ／ＳＳＥ命令およびＳＷＡＴ様拡張を介する８元ベクトルを使用して、６倍の加速化が報告された。

Farrar（Bioinformatics、２３巻（２号）：１５６〜１６１頁、２００７年）によりなされたＳＳＥ作業では、ストライプパターンまたはストライドパターンのアクセスを使用して、ＳＩＭＤレジスターを、クエリーレジスターに沿って線形に並べる。このようにすることにより、いかなる依存性の重複も回避される。ここでもまた、ＳＷＡＴ様最適化（Farrar、Bioinformatics、２３巻（２号）：１５６〜１６１頁、２００７年）を組み込むことにより、Wozniak（CABIOS、１３巻（２号）：１４５〜１５０頁、１９９７年）およびRognesおよびSeeberg（Bioinformatics（Oxford、England）、１６巻（８号）：６９９〜７０６頁、２０００年）によるＳＩＭＤ実装に対して、２〜８倍の加速化が達成されている。ブロック置換行列、および効率的で巧妙な内部ループであって、ノーザン（Ｆ）条件により、その内部ループの外部へと移動させた内部ループは、重要な最適化である。１６ビットエレメント、８ビットエレメントの処理のための、ストライドパターンによるメモリアクセス（strided memory pattern access）もまた、メモリアクセス時間を改善し、全体的な加速化に寄与する。

Farrar（Sequence Analysis、２００８年）は、ソニー、東芝、およびＩＢＭにより製造されたＣｅｌｌＰｒｏｃｅｓｓｏｒのために、自身の作業を拡張した。このＣｅｌｌＰｒｏｃｅｓｓｏｒは、１つの主コアおよび８つの副コアを有する。ＣｅｌｌＢｒｏａｄｂａｎｄＥｎｇｉｎｅは、複数のさらなるＳｍｉｔｈ−Ｗａｔｅｒｍａｎ実装であって、いずれもＦａｒｒａｒのストライピング法を使用する、Szalkowskiら（BMC Res Notes、１巻（１０７号）、２００８年）によるＳＷＰＳ３、およびWirawanら（BMC Bioinformatics、９巻（３７７号）、２００８年）によるＣＢＥＳＷを含む実装のための、開発プラットフォームであった。Rudnickiら（Fund Inform.、９６巻、１８１〜１９４頁、２００９年）は、ＰＳ３を使用して、複数のデータベース配列にわたる並列化を使用する方法を開発した。

Rognes（BMC Bioinformatics、１２巻（２２１号）、２０１１年）はまた、ＳＷＩＰＥと呼ばれるマルチスレッド法であって、複数のデータベース配列を、並列的に処理するマルチスレッド法も開発している。焦点は、ＳＩＭＤ法を、「通常のＣＰＵ」上で使用することであった。粗視化並列処理を使用するこの探索は、複数のデータベース配列を並列的に使用する作業を分割するものであり、これは、Liuら（BMC Res Notes、２巻（７３号）、２００９年）ならびにLigowskiおよびRudnicki（Eight Annual International Workshop on High Performance Computational Biology、Rome、２００９年）によるＣＵＤＡＳＷに記載されているグラフィックプロセッサユニット（ＧＰＵ：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｏｒｕｎｉｔ）ベースのツールと同様である。ＧＰＵ作業の他の実装は、Liuら（BMC Res Notes、３巻（９３号）、２０１０年）およびLigowskiら（GPU Computing Gems, Emerald Edition、Morgan Kaufmann、１５５〜１５７頁、２０１１年）によるＣＵＤＡＳＷ＋＋２．０でなされている。

他の変化形では、小スケールのベクトルによる並列化（８、１６、または３２元の並列処理）を、複数の配列を並列的にアラインするＧＰＵ実装を介して、計算をアクセス可能とするのに使用することができる。計算の理論的なピーク加速化は、最適な加速化であるｍ倍である。９６の処理エレメントを使用する、ＣｌｅａｒＳｐｅｅｄ実装について、９６倍の加速化がなされることから、理論的な加速化が確認される。
並列計算モデル

Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎ配列アライメントを開発および拡張するのに使用される、主要な並列モデルは、連想計算（ＡＳＣ：ＡＳｓｏｃｉａｔｉｖｅＣｏｍｐｕｔｉｎｇ）（Potterら、Computer、２７巻（１１号）：１９〜２５頁、１９９４年）である。本明細書では、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムの効率的な並列バージョンが記載される。本節では、このモデルおよび他の１つのモデルが詳細に記載される。

ここでは、いくつかの関与性の語彙が定義される。フリンによるコンピュータアーキテクチャーの分類法からの２つの目的の用語は、並列計算の２つの異なるモデルである、ＭＩＭＤおよびＳＩＭＤである。複数命令複数データ（ＭＩＭＤ：ｍｕｌｔｉｐｌｅ−ｉｎｓｔｒｕｃｔｉｏｎ，ｍｕｌｔｉｐｌｅ−ｄａｔａ）モデルと分類される、コンピュータクラスターを、超大スケールのアライメントにおけるメモリの限界を克服する概念実証として使用する。節８では、ＭＩＭＤモデルの使用法について記載する。また、ＡＳＣとして公知の、拡張型データ並列単一命令複数データ（ＳＩＭＤ：ｓｉｎｇｌｅ−ｉｎｓｔｒｕｃｔｉｏｎｍｕｌｔｉｐｌｅ−ｄａｔａ）モデルについても記載される。
複数命令複数データ（ＭＩＭＤ）

複数データ複数命令モデルまたはＭＩＭＤモデルは、現在利用可能な並列システムの大半について記載するものであり、流通している一般用コンピュータクラスターを含む。ＭＩＭＤプロセッサーは、各々がそれ固有のローカルメモリを伴う（Quinn、Parallel Computing: Theory and Practice、２版、New York: McGraw-Hill、１９９４年）、本格的中央処理装置（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）を有する。ＳＩＭＤモデルと異なり、ＭＩＭＤプロセッサーの各々は、それ固有のプログラムを、非同期的に保存および実行する。ＭＩＭＤプロセッサーは、それらが通信することを可能とするネットワークを介して接続されるが、使用されるネットワークは、マシン（クラスターノード）間のＥｔｈｅｒｎｅｔ接続、Ｍｙｒｉｎｅｔ接続、およびＩｎｆｉｎｉＢａｎｄ接続にわたり、広く変化しうる。通信は、ＳＩＭＤよりはるかに緩やかな通信構造を援用する傾向があり、単一のユニット内に収まらない。データは、ネットワークに沿って、個々のプロセッサーにより、それらが実行している、それらの個々のプログラムの制御下で、非同期的に移送される。通信は、メッセージの送受信を支援する複数の異なる並列言語のうちの１つにより操作されることが典型的である。このための極めて一般的なライブラリーは、メッセージパッシングインターフェース（ＭＰＩ）として公知である。「ＳＩＭＤ様」方式の通信も可能であるが、データの移動は、非同期的である。ＭＩＭＤによる並列計算は通例、プロセッサーにより実行される多様なタスクが、高度に独立（すなわち、いわゆる「驚異的並列（embarrassingly parallel）」問題または「あきれるほど並列（pleasingly parallel）」問題）でない限りにおいて、広範な通信および頻繁な同期化を必要とする。節８で提示される作業では、ＩｎｆｉｎｉＢａｎｄを介して接続された、ＡＭＤＯｐｔｅｒｏｎクラスターを使用する。

ＳＩＭＤと異なり、メッセージの送受信に必要とされる最悪の場合の時間は、予測するのが困難であるかまたは不可能である。ＭＩＭＤソフトウェアのためのメッセージの送受信の実行時間は、ＳＩＭＤに典型的な、最悪の場合の理論的な評価によってではなく、試行により決定されることが多い、平均的な場合の推定値を使用して決定することが典型的である。ＭＩＭＤソフトウェアの最悪の場合は、極めて悪いことが多く、生じるのはまれであるので、平均的な場合の推定値がはるかに有用である。結果として、特定の問題についてＭＩＭＤに必要とされる通信時間は、ＳＩＭＤの場合より長くなる可能性があり、通例、有意に長い。これにより、ＭＩＭＤのプログラミング（とりわけ、メッセージの送受信を使用する場合）における重要な目標であって、必要とされるプロセッサー間通信の数を最小化し、プロセッサー通信間の時間の量を最大化するという目標がもたらされる。これは、グラフィックプロセッサまたはＧＰＵを使用する場合など、単一のカードによる加速化レベルでもなお成り立つ。

また、データ並列プログラミングも、ＭＩＭＤのプログラミングで重要な技法であるが、この場合、全てのタスクは、異なるデータに対して同じ演算を実施し、多様な臨界点に限り同期化される。ＭＩＭＤシステムのためのアルゴリズムの大半は、単一プログラム複数データ（ＳＰＭＤ：Ｓｉｎｇｌｅ−Ｐｒｏｇｒａｍ、Ｍｕｌｔｉｐｌｅ−Ｄａｔａ）プログラミングパラダイムで書き込まれる。各プロセッサーは、同じプログラムのそれ固有のコピーであって、そのプロセッサーまたはコアに特異的なコードセクションを、そのローカルデータに対して実行するコピーを有する。ＳＰＭＤパラダイムの一般性は、多数の異なるプログラムであって、異なるプロセッサーにわたり同時に実行され、なおかつ、単一の問題を解くのに協同することが可能なプログラムを書き込むことは極めて困難であるという事実から来る。メモリ集約的ではあるが、計算集約的ではない問題に使用される別の手法は、節８で提示される作業を使用して、ＪｕｍｂｏＭｅｍによりなされる通り、バーチャルメモリサーバーを創出することである。ここでは、その基礎となる実行においてＭＰＩが使用される。
単一命令複数データ（ＳＩＭＤ）

ＳＩＭＤモデルは、ＰＥと呼ばれる、複数の単純な演算処理エレメント（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）からなる。各ＰＥは、それ固有のローカルメモリであって、ＰＥがそこからフェッチおよび保存するメモリは有するが、プログラムをコンパイルまたは実行する能力は有さない。本明細書で使用される「並列メモリ」という用語は、計算システム内のローカルメモリを集合的に指す。例えば、並列メモリは、ＳＩＭＤコンピュータシステム内のローカルメモリの集合体（例えば、ＰＥのローカルメモリ）、ＭＩＭＤコンピュータシステム内のプロセッサーのローカルメモリの集合体（例えば、中央処理装置のローカルメモリ）などでありうる。プログラムの編集および実行は、制御装置（またはフロントエンド）と呼ばれるプロセッサーにより操作される（Quinn、Parallel Computing: Theory and Practice、２版、New York: McGraw-Hill、１９９４年）。制御装置は、通例はバスにより、全てのＰＥへと接続される。

全てのアクティブなＰＥは、制御装置から受信されたプログラムの命令を、ロックステップで、同期的に実行する。「いかなる時間単位においても、単一の演算は、複数の処理装置であって、各々が異なるデータを操作する処理装置上で、同じ実行状態にある」（Quinn、Parallel Computing: Theory and Practice、２版、New York: McGraw-Hill、１９９４年、７９頁）。全てのアクティブなＰＥは、同じ命令を、同時に並列的に実行するが、いくつかのＰＥは、任意の特定の命令をスキップすることを許容されうる（Baker、SIMD and MASC: Course notes from CS6/73301:Parallel and Distributed Computing--power point slides、（２００４年）２００４年）。これは通例、ＰＥのうちの一部が、ｉｆ命令を実行し、残りのＰＥが、ｅｌｓｅ部分を実行する、「ｉｆ−ｅｌｓｅ」分枝構造を使用して達成される。このモデルは、「データ並列的」な性質の問題であって、たかだか少数のｉｆ−ｅｌｓｅ分枝構造であり、図像処理および行列演算など、同時に生じうる分枝構造を有する問題に理想的である。

制御装置は、データを、全てのアクティブなＰＥへとブロードキャストすることができ、制御装置はまた、制御装置とＰＥとの接続（通例、バス）を使用して、データ値を、特定のＰＥから得ることもできる。加えて、ＰＥのセットは、線形アレイ、２Ｄメッシュ、またはハイパーキューブなどの相互接続ネットワークであって、ＰＥ間の並列データの移動をもたらす相互接続ネットワークによっても接続される。データは、このネットワークを通して、同期的並列方式で、ＰＥにより移送され、ＰＥは、データの移動を含む命令を、ロックステップで実行する。命令を、ＰＥへとブロードキャストするのは、制御装置である。特に、ＳＩＭＤネットワークは、今日大半の並列コンピュータにより使用される、メッセージ送受信パラダイムを使用しない。このことの重要な利点は、ＳＩＭＤネットワークによる通信は、極めて効率的であり、通信に必要とされる最大の時間を、その特定の通信を制御するアルゴリズムの最悪の場合の時間により決定しうることである。

本節の残りは、拡張型ＳＩＭＤＡＳＣモデルについて記載することに充てる。ＡＳＣは、本論のためのアルゴリズムの設計および開発の中心にある。
連想計算モデル

連想計算（ＡＳＣ）モデルとは、ＧｏｏｄｙｅａｒＡｅｒｏｓｐａｃｅのKenneth Batcher博士により設計されたＳＩＭＤ式連想コンピュータであるＳＴＡＲＡＮ、および米国海軍で縦横に活用されているその後継モデルであるＡＳＰＲＯに基づく拡張型ＳＩＭＤである。

ケント州立大学コンピュータ科学科で開発された、ＡＳＣとは、連想計算のためのアルゴリズムモデルである（Potterら、Computer、２７巻（１１号）：１９〜２５頁、１９９４年）（Potter、Associative Computing: A Programming Paradigm for Massively Parallel Computers、Plenum Publishing、１９９２年）。ＡＳＣモデルは、ＧｏｏｄｙｅａｒＡｅｒｏｓｐａｃｅにより組み立てられた連想プロセッサーであるＳＴＡＲＡＮ上およびＭＰＰ上の作業から成長した。現在ハードウェアではサポートされていないが、現在の研究努力は、このモデルを効率的にシミュレートし、かつ、このモデルのためにコンピュータを設計しようとしてなされている。

拡張型ＳＩＭＤモデルとして、ＡＳＣでは、マルチタスク処理および非同期的ポイント・ツー・ポイント通信経路決定（asynchronous point-to-point communication routing）の両方を回避する、同期的データ並列プログラミングを使用する。いかなる時点においても、１つのタスクだけが実行され、このタスクの複数のインスタンスは、全てのアクティブな処理エレメント（ＰＥ）上で、ロックステップで実行されるので、マルチタスク処理は、不要である。ＳＩＭＤプログラマーと同様、ＡＳＣも、ロードバランシング、同期化、および動的タスクスケジューリングを伴う課題、ＭＰＩパラダイムおよび他のＭＩＭＤクラスターパラダイムでは明示的に取り組まなくてはならない問題を回避する。

図４は、ＡＳＣコンピュータの概念モデルを示す。命令列（ＩＳ）としてもまた公知の、単一の制御装置と、各々がそれ固有のローカルメモリを伴う、複数の処理エレメント（ＰＥ）とがある。制御装置とＰＥアレイとは、ブロードキャスト／縮約ネットワーク（reduction network）を介して接続され、ＰＥは、ＰＥデータ相互接続ネットワークを介して一体に接続される。

図４で見られる通り、ＰＥは、それ固有のローカルメモリ内に置かれたデータへのアクセスを有する。データは、その場にとどまり、応答する（アクティブな）ＰＥが、それらのローカルデータを並列的に処理する。連想という語に対する言及は、データを、メモリアドレスではなく、内容により位置決定するための検索の使用に関する。それは、連想メモリを援用せず、その代わりに、ＡＳＣモデルとは、一般的なサイクルが、検索する〜処理する〜読み出す（retrieve）である、連想プロセッサーである。ＡＳＣモデルについての概観は、（Potterら、Computer、２７巻（１１号）：１９〜２５頁、１９９４年）において入手可能である。

アルゴリズムの表形式の特徴は、それ自体、ＡＳＣデータ構造本来の表形式の構造に起因して、ＡＳＣを使用する計算をもたらす。ＳＷＡＭＰでは、ロックステップによるノースネイバーおよびノースウェストネイバーのデータシフトのための、ＰＥ相互接続ネットワークにわたる、高度に効率的な通信、ならびに検索および並列計算にわたる最大値のための、高速定数時間による（fast constant time）連想機能を十分に活用する。

連想演算は、ＡＳＣモデルにより必要とされる、追加のハードウェアに起因して、定数時間で実行される（Jinら、15th International Parallel and Distributed Processing Symposium（IPDPS’Ol）Workshops、San Francisco、１９３頁、２００１年）。これらの演算は、任意のＳＩＭＤ様マシンにより、効率的に（それほど速くはないが）実施することができ、複数のＳＩＭＤハードウェアプラットフォーム上で、効率的になされるように適応させることに成功している（Yuanら、Parallel and Distributed Computing Systems（PDCS）、Cambridge、MA、２００９年；Trahanら、J. of Parallel and Distributed Computing（JPDC）、２００９年）。したがって、ＳＷＡＭＰアルゴリズムおよび他のＡＳＣアルゴリズムは、ＳＩＭＤと近縁の他のシステムであって、ベクトルマシンを含むシステム上でも効率的に実行することができ、このために、モデルは、パラダイムとして使用されている。

制御装置は、プログラムの命令を、フェッチおよび解読し、制御信号を、ＰＥへとブロードキャストする。ＰＥは、制御装置の指示下で、それらの固有のローカルデータを使用して、これらの命令を実行する。全てのＰＥは、命令を、命令間の暗黙の同期化を伴って、ロックステップ方式で実行する。ＡＳＣは、複数の関与性の高速大域演算：連想検索、最大値／最小値検索、およびレスポンダーの選択／検出を有する。これらについては、以下の節において記載される。
連想機能

ＳＷＡＭＰアルゴリズムに関与性の機能については、下記で論じる。
連想検索

ＡＳＣアルゴリズムにおける基礎的演算は、連想検索である。連想検索では、そのローカルデータが、所与の検索キーにマッチするＰＥを、同時に位置決定する。マッチするデータを有するＰＥは、レスポンダーと呼ばれ、非マッチしないデータを伴うＰＥは、非レスポンダーと呼ばれる。検索を実施した後、次いで、アルゴリズムは、非レスポンダーを無効化することにより、さらなる処理を、レスポンダーに影響を及ぼす処理だけに制限することができる（またはこの逆も成り立つ）。さらなる検索を実施することにより、レスポンダーのセットをさらに精緻化することができる。連想検索は、どのＰＥが、対角成分内の並列動作中でアクティブなのかを選択するときに、ＳＷＡＭＰ＋により縦横に活用される。
最大値／最小値検索

各ＰＥが、標準的な比較演算子（等しい、未満など）を使用して、そのローカルデータを、検索キーに照らして比較する、単純検索に加えて、連想コンピュータはまた、全ＰＥアレイからのデータを一体に組み合わせて、レスポンダーのセットを決定する、大域検索も実施しうる。大域検索の最も一般的な種類は、レスポンダーを、それらのデータが、全ＰＥアレイにわたる最大値または最小値であるＰＥとする、最大値／最小値検索である。ＳＷＡＭＰ＋は、それが処理するあらゆる対角成分内で最大値を使用して、それまでに計算された最高値を探知ける。最大値検索の使用は、高頻度で、論理的並列動作において１回ずつ、アライメント当たりｍ＋ｎ回生じる。
レスポンダーの選択／検出

連想検索は、複数のレスポンダーを結果としてもたらすことが可能であり、連想アルゴリズムは、３つの異なるモード：並列選択、逐次選択、または単独選択のうちの１つにおいて、これらのレスポンダーを処理しうる。並列レスポンダー処理では、同じ演算セットを、各レスポンダーに対して、同時に実施する。逐次レスポンダー処理では、各レスポンダーを、個別に選択し、各レスポンダーについて、異なる演算セットを許容する。単独レスポンダー選択（ｐｉｃｋＯｎｅとしてもまた公知の）では、１つの任意選択されたレスポンダーを選択して、処理にかける。複数のレスポンダーに加えてまた、連想検索は、レスポンダーを結果としてもたらさない可能性もある。この場合を取り扱うために、ＡＳＣモデルでは、その場合に、別個のアクションのセットを検索および実施するのに任意のレスポンダー（ａｎｙＲｅｓｐｏｎｄｅｒｓとして公知の）が存在するのかどうかを検出することが可能である。ＳＷＡＭＰでは、アラインされた文字を含有する複数のレスポンダーを、上述の連想検索に基づき、並列的に選択および処理する。単独レスポンダー選択は、最大値／最小値検索を使用する場合に、正確な同じ最大値を有する複数の値が存在する場合、または存在するときに、生じる。
ＰＥ相互接続ネットワーク

大半の連想プロセッサーは、アレイ内の並列データの移動を可能とする、一部の種類のＰＥ相互接続ネットワークを含む。ＡＳＣモデルそれ自体は、任意の特定の相互接続ネットワークを指定せず、実際、多くの有用な連想アルゴリズムは、相互接続ネットワークを必要としない。連想プロセッサーは、１Ｄ線形アレイまたは２Ｄメッシュなど、単純なネットワークを実装することが典型的である。これらのネットワークは、実装が簡単であり、データを、迅速に、同期方式で転送することを可能とする。例えば、１Ｄ線形アレイは、ＳＷＡＭＰアルゴリズムにおける、ＰＥ間の明示的通信に十分である。
並列計算システム

一般化された並列処理アーキテクチャーを、図５に示す。各コンポーネントは、直接的な接続を有するものとして示されるが、多様なエレメントは、地理的に隔てられうるが、ネットワーク、例えば、インターネットを介して、接続されうることを理解されたい。ハイブリッドコンフィギュレーションも可能であるが、並列コンピュータ内のメインメモリは、単一のアドレス空間内の全ての処理エレメント間で共有されているか、または分散されている、すなわち、各処理エレメントが、それ固有のローカルアドレス空間を有することが典型的である。（分散型メモリとは、メモリが論理的に分散されているという事実を指すがまた、それが、物理的に分散されていることもしばしば示唆する）。処理エレメントが、それ固有のローカルメモリおよび非ローカルプロセッサー上のメモリへのアクセスを有する場合、分散共有メモリおよびメモリの視覚化は、２つの手法を組み合わせる。ローカルメモリへのアクセスは、非ローカルメモリへのアクセスより速いことが典型的である。

メインメモリの各エレメントに、等しい待ち時間およびバンド幅でアクセスしうる、コンピュータアーキテクチャーは、ユニフォームメモリアクセス（ＵＭＡ：ＵｎｉｆｏｒｍＭｅｍｏｒｙＡｃｃｅｓｓ）システムとして公知である。ＵＭＡは、メモリが物理的に分散されていない、共有メモリシステムだけにより達成しうることが典型的である。この特性を有さないシステムは、非ユニフォームメモリアクセス（ＮＵＭＡ：Ｎｏｎ−ＵｎｉｆｏｒｍＭｅｍｏｒｙＡｃｃｅｓｓ）アーキテクチャーとして公知である。分散型メモリシステムは、非ユニフォームメモリアクセスを有する。

プロセッサー間通信およびプロセッサー−メモリ間通信は、共有（マルチポート型またはマルチプレックス型）メモリ、クロスバースイッチ、共有バス、またはスター、リング、ツリー、ハイパーキューブ、ファットハイパーキューブ（ノードにおいて複数のプロセッサーを伴うハイパーキューブ）、またはｎ次元メッシュを含む無数のトポロジーを有する相互接続ネットワークを介する方式を含む、複数の方式で、ハードウェア内に実装することができる。

相互接続されたネットワークに基づく並列コンピュータは、直接的に接続されていないノード間のメッセージの送受信を可能とする経路決定を組み込まなければならない。プロセッサー間の通信に使用される媒体は、大型のマルチプロセッサーマシン内で階層的である可能性が高い。このようなリソースは、市販されていて購入して専用で使用するか、または「クラウド」、例えば、アマゾンクラウドコンピューティングを介して、これらのリソースにアクセスすることができる。

コンピュータは一般に、バスを介してメモリへと連結されたプロセッサーを含む。メモリは、ＲＡＭまたはＲＯＭを含むことが可能であり、少なくとも１つの有形の非一時的媒体であって、システムが、本明細書で記載される機能を果たすようにさせる実行可能な命令を保存する媒体を含むことが好ましい。当業者であれば、本発明の方法の実施に必要であるかまたは最適であると認識する通り、本発明のシステムは、バスを介して互いに通信する、１または複数のプロセッサー（例えば、中央処理装置（ＣＰＵ）、グラフィックプロセッサユニット（ＧＰＵ）など）、コンピュータ読取り型記憶デバイス（例えば、メインメモリ、スタティックメモリなど）、またはこれらの組合せを含む。

プロセッサーは、当技術分野で公知の、任意の適切なプロセッサーであって、Ｉｎｔｅｌ（ＳａｎｔａＣｌａｒａ、ＣＡ）により、ＸＥＯＮＥ７という商標で販売されているプロセッサー、またはＡＭＤ（Ｓｕｎｎｙｖａｌｅ、ＣＡ）により、ＯＰＴＥＲＯＮ６２００という商標で販売されているプロセッサーなどのプロセッサーでありうる。

メモリは、コンピュータ読取り型記憶デバイスを指す場合があり、命令（例えば、本明細書で見出される任意の方法または機能を統合するソフトウェア）、データ（例えば、患者の染色体内で見出される遺伝子配列など、任意の有形の物理オブジェクトを統合すること）、またはこれらの両方の１または複数のセットが保存された、任意のマシン読取り型媒体を含みうる。例示的な実施形態では、コンピュータ読取り型記憶デバイスは、単一の媒体でありうるが、「コンピュータ読取り型記憶デバイス」という用語は、命令またはデータの１または複数のセットを保存する、単一の媒体または複数の媒体（例えば、集中型データベースもしくは分散型データベース、ならびに／または関連するキャッシュおよびサーバー）を含むものと理解されたい。したがって、「コンピュータ読取り型記憶デバイス」という用語は、限定なしに、ソリッドステートメモリ（例えば、加入者識別モジュール（ＳＩＭ）カード、セキュアディジタルカード（ＳＤカード）、マイクロＳＤカード、またはソリッドステートドライブ（ＳＳＤ））、光学媒体および磁気媒体、ならびに他の任意の有形記憶媒体を含むものと理解されたい。好ましくは、コンピュータ読取り型記憶デバイスは、有形の非一時的媒体を含む。このような非一時的媒体は、例えば、一過性の波動および信号を除外する。「非一時的メモリ」は、信号それ自体など、コンピュータ読取り型伝送媒体を除外すると解釈されたい。

本発明に従う入力／出力デバイスは、ビデオディスプレイユニット（例えば、液晶ディスプレイ（ＬＣＤ）またはブラウン管（ＣＲＴ）モニター）、英数字入力デバイス（例えば、キーボード）、カーソル制御デバイス（例えば、マウスまたはトラックバッド）、ディスクドライブユニット、信号発生器（例えば、スピーカー）、タッチスクリーン、加速度計、マイクロフォン、セルラー式ラジオ波アンテナ、および、例えば、ネットワークインターフェースカード（ＮＩＣ）、Ｗｉ−Ｆｉカード、またはセルラー式モデムでありうる、ネットワークインターフェースデバイスを含みうる。
試料の収集および調製

本発明は、生物学的試料から回収された核酸に対応する配列（例えば、核酸配列、アミノ酸配列）を作製するための方法を含む。一部の実施形態では、結果として得られる情報を使用して、被験体から得られた核酸材料中に存在する変異を同定することができる。一部の実施形態では、試料、すなわち、核酸（例えば、ＤＮＡまたはＲＮＡ）を被験体から得、核酸を処理し（溶解させ、増幅し、かつ／または精製し）、下記に記載される方法を使用して、核酸をシーケンシングする。多くの実施形態では、シーケンシングの結果は、直鎖状の核酸配列ではなく、数千または数百万もの個々の短い核酸リードであって、被験体についての配列へと再アセンブルしなければならない核酸リードのコレクションである。リードをアラインして配列を作製したら、アラインされた配列を、基準配列と比較して、例えば、疾患を指し示し得る変異を同定することができる。他の実施形態では、リードの、基準配列構築物、すなわち、上記で記載した、有向非巡回グラフ（「ＤＡＧ」）に対するアライメントに基づき、特定の変異を有する被験体を同定することができる。

上記の目的のうちのいずれのためにも、方法を生物学的試料へと適用することができる。生物学的試料は、例えば、血液試料、全血、血漿、涙液、乳首吸引物、血清、糞便、尿、唾液、循環細胞、組織、生検試料、毛包、または患者の生物学的材料を含有する他の試料を含みうる。このような試料に基づき検査を行うときの１つの問題は、大半の場合において、目的の変異を含有するＤＮＡまたはＲＮＡであって、試料中に存在しうるＤＮＡまたはＲＮＡは、ごく微量でありうることである。これは、とりわけ、口腔内スワブ試料または血液試料などの非侵襲的試料であって、変異体核酸が、極めて少量で存在する非侵襲的試料に当てはまる。一部の実施形態では、核酸断片は、天然の短鎖でありうる、すなわち、試料中の関与性の核酸のランダムなせん断により、短い断片が作り出されうる。他の実施形態では、処理を容易とするため、またはシーケンシング技法では、１０００塩基未満、例えば、５００塩基未満、例えば、２００塩基未満、例えば、１００塩基未満、例えば、５０塩基未満のリードだけをシーケンシングしうるため、核酸を意図的に断片化する。本明細書で記載される方法を使用して、様々な長さの配列をアラインしうるが、一部の実施形態では、複数の核酸リードの大部分は、シーケンシング法から得られ、１０００塩基未満、例えば、５００塩基未満、例えば、２００塩基未満、例えば、１００塩基未満、例えば、５０塩基未満を含む。

核酸は、当技術分野で公知の方法により得ることができる。一般に、核酸は、その内容が、参照によりその全体において本明細書に組み込まれる、Maniatisら、Molecular Cloning: A Laboratory Manual、Cold Spring Harbor、N.Y.、２８０〜２８１頁（１９８２年）により記載されている技法など、様々な技法により生物学的試料から抽出することができる。

十分に純粋な核酸調製物を得るためには、まず、試料の抽出物を調製し、次いで、さらなるステップ（すなわち、分別沈殿、カラムクロマトグラフィー、有機溶媒による抽出など）を実施することが必要でありうる。抽出物は、当技術分野における標準的な技法を使用して、例えば、細胞の化学的溶解または機械的溶解により調製することができる。次いで、抽出物は、例えば、濾過および／もしくは遠心分離により、かつ／あるいはイソチオシアン酸グアニジニウムもしくは尿素などのカオトロピック塩、またはフェノールおよび／もしくはＨＣＣｌ_３などの有機溶媒によりさらに処理して、任意の夾雑するタンパク質および潜在的に干渉するタンパク質を変性させることができる。一部の実施形態では、試料は、対象試料、例えば、血液試料から収集されたＲＮＡ、例えば、ｍＲＮＡを含みうる。当技術分野では、ＲＮＡ抽出のための一般的な方法が周知であり、Ausubelら、Current Protocols of Molecular Biology、John Wiley and Sons（１９９７年）を含む、分子生物学の標準的な教科書において開示されている。パラフィン包埋組織からのＲＮＡ抽出のための方法は、例えば、RuppおよびLocker、Lab Invest.、５６巻：Ａ６７頁（１９８７年）、およびDe Andresら、BioTechniques、１８巻：４２０４４頁（１９９５年）において開示されている。これらの参考文献の各々の内容は、参照によりそれらの全体において本明細書に組み込まれる。特に、ＲＮＡの単離は、Ｑｉａｇｅｎなど、商業的製造元からの精製キット、緩衝液セット、およびプロテアーゼを、製造元の指示に従い使用して、実施することができる。例えば、培養物中の細胞に由来する全ＲＮＡは、ＱｉａｇｅｎＲＮｅａｓｙｍｉｎｉカラムを使用して単離することができる。他の市販のＲＮＡ単離キットは、ＭＡＳＴＥＲＰＵＲＥＣｏｍｐｌｅｔｅＤＮＡａｎｄＲＮＡＰｕｒｉｆｉｃａｔｉｏｎＫｉｔ（ＥＰＩＣＥＮＴＲＥ、Ｍａｄｉｓｏｎ、Ｗｉｓ．）、およびＰａｒａｆｆｉｎＢｌｏｃｋＲＮＡＩｓｏｌａｔｉｏｎＫｉｔ（Ａｍｂｉｏｎ、Ｉｎｃ．）を含む。組織試料に由来する全ＲＮＡは、ＲＮＡＳｔａｔ−６０（Ｔｅｌ−Ｔｅｓｔ）を使用して単離することができる。腫瘍から調製されたＲＮＡは、例えば、塩化セシウム密度勾配遠心分離により単離することができる。
解析的シーケンシング

シーケンシングは、当技術分野で公知の任意の方法によることができる。ＤＮＡシーケンシング技法は、標識されたターミネーターまたはプライマーおよびスラブ内またはキャピラリー内のゲル分離を使用する、古典的なジデオキシシーケンシング反応（サンガー法）、可逆的終結型標識ヌクレオチドを使用する、合成によるシーケンシング、ピロシーケンシング、４５４シーケンシング、標識されたオリゴヌクレオチドプローブのライブラリーとの、対立遺伝子特異的ハイブリダイゼーション、標識されたクローンのライブラリーとの対立遺伝子特異的ハイブリダイゼーションに続いてライゲーションを使用する、合成によるシーケンシング、重合化ステップの間における、標識されたヌクレオチドの組込みについての、リアルタイムモニタリング、ポロニーシーケンシング、およびＳＯＬｉＤシーケンシングを含む。分離された分子のシーケンシングは、より近年になって、ポリメラーゼまたはリガーゼを使用する、逐次的伸長反応または単一の伸長反応によるほか、プローブのライブラリーとの単一のディファレンシャルハイブリダイゼーションまたは逐次的なディファレンシャルハイブリダイゼーションによっても裏付けられている。シーケンシングの前に、試料中の核酸の一部または全部を増幅することは、さらに有益でありうる。一部の実施形態では、核酸を、当技術分野で公知のポリメラーゼ連鎖反応（ＰＣＲ）技法を使用して増幅する。

本発明の方法で使用されうるシーケンシング技術の一例は、ＤＮＡまたはＲＮＡを増幅するのに活用されうる、合成によるポリメラーゼベースの配列（polymerase-based sequence-by-synthesis）である、Ｉｌｌｕｍｉｎａシーケンシング（例えば、ＭｉＳｅｑ（商標）プラットフォーム）である。ＤＮＡのためのＩｌｌｕｍｉｎａシーケンシングは、固体表面上のＤＮＡの増幅であって、フォールドバックＰＣＲおよびアンカリングされたプライマーを使用する増幅に基づく。ゲノムＤＮＡを、断片化し、アダプターを、断片の５’末端および３’末端へと付加する。フローセルチャネルの表面へと結合させたＤＮＡ断片を伸長させ、ブリッジ増幅する。断片は二本鎖となり、二本鎖分子を変性させる。複数サイクルにわたる固相増幅に続く変性により、フローセルの各チャネル内に、同じ鋳型の約１，０００コピーの一本鎖ＤＮＡ分子による数百万のクラスターを創製することができる。プライマー、ＤＮＡポリメラーゼ、および４つのフルオロフォアで標識された可逆的終結型ヌクレオチドを使用して、逐次シーケンシングを実施する。ヌクレオチド組込みの後、レーザーを使用して、フルオロフォアを励起し、画像を捕捉し、第１の塩基の同定を記録する。３’側ターミネーターおよび組み込まれた各塩基からフルオロフォアを除去し、組込みステップ、検出ステップ、および同定ステップを繰り返す。Ｉｌｌｕｍｉｎａシーケンシングを使用して、ＲＮＡを検出する場合、試料のＲＮＡ発現を決定するために、ＲＮＡ断片を単離および増幅することを除き、同じ方法が適用される。配列は、シーケンサーで直接情報を取った後、生物学的配列および品質スコアを保存するための、テキストベースのフォーマットである、ＦＡＳＴＱファイルなどのデータファイルに出力することができる（上記の議論を参照されたい）。

本発明の方法で使用されうるＤＮＡシーケンシング技法の別の例は、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ製のＩｏｎＴｏｒｒｅｎｔ（商標）シーケンシングである。それらの各々の内容が、参照によりその全体において本明細書に組み込まれる、米国特許出願第２００９／００２６０８２号、同第２００９／０１２７５８９号、同第２０１０／００３５２５２号、同第２０１０／０１３７１４３号、同第２０１０／０１８８０７３号、同第２０１０／０１９７５０７号、同第２０１０／０２８２６１７号、同第２０１０／０３００５５９号、同第２０１０／０３００８９５号、同第２０１０／０３０１３９８号、および同第２０１０／０３０４９８２号を参照されたい。ＩｏｎＴｏｒｒｅｎｔ（商標）シーケンシングでは、ＤＮＡを、約３００〜８００塩基対の断片へとせん断すると、断片は、平滑末端となる。次いで、オリゴヌクレオチドアダプターを、断片の末端へとライゲーションする。アダプターは、断片の増幅およびシーケンシングのためのプライマーとして働く。断片を、表面へと結合させ、断片が個別に分解可能となるような分解能で結合する（attached）。１または複数のヌクレオチドの付加により、プロトン（Ｈ^＋）が放出され、このシグナルは、シーケンシング計器により検出および記録される。シグナル強度は、組み込まれたヌクレオチドの数に比例する。ＩｏｎＴｏｒｒｅｎｔデータはまた、ＦＡＳＴＱファイルとしても出力される。

本発明の方法で使用されうるＤＮＡシーケンシング技法およびＲＮＡシーケンシング技法の別の例は、４５４（商標）シーケンシング（Ｒｏｃｈｅ）（Margulies, Mら、２００５年、Nature、４３７巻、３７６〜３８０頁）である。４５４（商標）シーケンシングは、合成によるシーケンシング技術であって、ピロシーケンシングもまた活用する技術である。ＤＮＡの４５４（商標）シーケンシングは、２つのステップを伴う。第１のステップでは、ＤＮＡを、約３００〜８００塩基対の断片へとせん断し、断片は、平滑末端となる。次いで、オリゴヌクレオチドアダプターを、断片の末端へとライゲーションする。アダプターは、断片の増幅およびシーケンシングのためのプライマーとして働く。断片は、例えば、５’−ビオチンタグを含有するＡｄａｐｔｏｒＢを使用して、ＤＮＡ捕捉ビーズ、例えば、ストレプトアビジンでコーティングされたビーズへと結合させることができる。ビーズへと結合させた断片は、油−水エマルジョンの液滴内でＰＣＲ増幅する。結果は、各ビーズ上でクローン増幅されたＤＮＡ断片の複数のコピーである。第２のステップでは、ビーズを、ウェル（ピコリットルサイズの）内で捕捉する。ピロシーケンシングは、各ＤＮＡ断片に対して並行的に実施する。１または複数のヌクレオチドの付加により、光シグナルが発生し、この光を、シーケンシング計器内のＣＣＤカメラで記録する。シグナル強度は、組み込まれたヌクレオチドの数に比例する。ピロシーケンシングでは、ヌクレオチドが付加されると放出される、ピロリン酸（ＰＰｉ）を使用する。ＰＰｉは、アデノシン５’ホスホ硫酸の存在下で、ＡＴＰスルフリラーゼにより、ＡＴＰへと転換される。ルシフェラーゼは、ＡＴＰを使用して、ルシフェリンを、オキシルシフェリンへと転換し、この反応が、光を発生させ、これが検出および解析される。別の実施形態では、ピロシーケンシングを使用して、遺伝子発現を測定する。ＲＮＡについてのピロシーケンシングも、ＤＮＡについてのピロシーケンシングと同様に適用され、部分ｒＲＮＡ遺伝子配列（partial rRNA gene sequencings）を微小ビーズへと結合させ、次いで、結合物を個々のウェルに入れることにより達成する。次いで、遺伝子発現プロファイルを決定するために、結合させた部分ｒＲＮＡ配列を増幅する。Sharon Marsh、Pyrosequencing(登録商標) Protocols、Methods in Molecular Biology、３７３巻、１５〜２３頁（２００７年）。

本発明の方法で使用されうるＤＮＡ検出技法およびＲＮＡ検出技法の別の例は、ＳＯＬｉＤ（商標）技術（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）である。ＳＯＬｉＤ（商標）技術システムとは、ライゲーションベースのシーケンシング技術であって、ＤＮＡおよびＲＮＡのいずれについての超並列次世代シーケンシングを行うのにも活用されうる技術である。ＤＮＡＳＯＬｉＤ（商標）シーケンシングでは、ゲノムＤＮＡを、断片へとせん断し、アダプターを、断片の５’末端および３’末端へと結合させて、断片ライブラリーを生成する。あるいは、内部アダプターは、アダプターを、断片の５’末端および３’末端へとライゲーションし、断片を環状化し、環状化させた断片を消化させて、内部アダプターを生成し、アダプターを、結果として得られる断片の５’末端および３’末端へと結合させて、メートペア（ＭＰ：ｍａｔｅ−ｐａｉｒｅｄ）ライブラリーを生成することにより導入することができる。次に、クローンビーズ集団を、ビーズ、プライマー、鋳型、およびＰＣＲ成分を含有するマイクロリアクター内で調製する。ＰＣＲ後、鋳型を変性させ、ビーズを富化して、伸長した鋳型を伴うビーズを分離する。選択されたビーズ上の鋳型を、スライドガラスへの結合を可能とする３’修飾にかける。配列は、逐次ハイブリダイゼーションと、中央部の決定された塩基（または塩基対）であって、特異的なフルオロフォアにより同定される塩基を伴う、部分的にランダムなオリゴヌクレオチドのライゲーションとにより決定することができる。色を記録した後で、ライゲーションされたオリゴヌクレオチドを切断および除去し、次いで、プロセスを繰り返す。

他の実施形態では、ＳＯＬｉＤ（商標）遺伝子発現連鎖解析（ＳＡＧＥ：ＳｅｒｉａｌＡｎａｌｙｓｉｓｏｆＧｅｎｅＥｘｐｒｅｓｓｉｏｎ）を使用して、遺伝子発現を測定する。遺伝子発現連鎖解析（ＳＡＧＥ）とは、各転写物についての個別のハイブリダイゼーションプローブを準備する必要なしに、多数の遺伝子転写物についての同時的で定量的な解析を可能とする方法である。まず、タグが、各転写物内の固有の位置から得られることを条件として、短い配列タグ（約１０〜１４ｂｐ）であって、転写物を固有に同定するのに十分な情報を含有するタグを生成する。次いで、多くの転写物を併せて連結して、長い連鎖分子であって、シーケンシングすることが可能であり、複数のタグの識別を同時に明らかにする分子を形成する。転写物の任意の集団の発現パターンは、個々のタグの存在度を決定し、各タグに対応する遺伝子を同定することにより、定量的に評価することができる。さらなる詳細については、例えば、それらの各々の内容が、参照によりそれらの全体において本明細書に組み込まれる、Velculescuら、Science、２７０巻：４８４〜４８７頁（１９９５年）；およびVelculescuら、Cell、８８巻：２４３〜５１頁（１９９７年）を参照されたい。

本発明の方法で使用されうる別のシーケンシング技法は、例えば、Ｈｅｌｉｃｏｓの真の１分子のシーケンシング（ｔＳＭＳ：ＴｒｕｅＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇ）（Harris T. D.ら（２００８年）、Science、３２０巻：１０６〜１０９頁）を含む。ｔＳＭＳ技法では、ＤＮＡ試料を、約１００〜２００ヌクレオチドの鎖へと切断し、ｐｏｌｙＡ配列を、各ＤＮＡ鎖の３’末端へと付加する。各鎖を、蛍光標識されたアデノシンヌクレオチドの付加により標識する。次いで、ＤＮＡ鎖を、フローセル表面へと固定化された、数百万ものオリゴ−Ｔ捕捉部位を含有するフローセルとハイブリダイズさせる。鋳型は、１ｃｍ^２当たりの鋳型約１億個の密度でありうる。次いで、フローセルを、計器、例えば、ＨｅｌｉＳｃｏｐｅ（商標）シーケンサーへとローディングし、レーザーでフローセルの表面を照射し、各鋳型の位置を明らかにする。ＣＣＤカメラにより、フローセル表面上の鋳型の位置をマッピングすることができる。次いで、鋳型の蛍光標識を、切断し、洗い落とす。ＤＮＡポリメラーゼと、蛍光標識されたヌクレオチドとを導入することにより、シーケンシング反応を開始する。オリゴ−Ｔ核酸は、プライマーとして働く。ポリメラーゼにより、標識されたヌクレオチドを、プライマーへと、鋳型指向的な様式で組み込む。ポリメラーゼおよび組み込まれなかったヌクレオチドは、除去する。蛍光標識されたヌクレオチドの組込みを方向付けた鋳型は、フローセル表面をイメージングすることにより検出する。イメージングの後、切断ステップにより、蛍光標識を除去し、所望のリード長が達成されるまで、他の蛍光標識されたヌクレオチドについても、プロセスを繰り返す。配列情報は、各ヌクレオチドの付加ステップにより収集する。ｔＳＭＳについてのさらなる記載は、例えば、Lapidusら（米国特許第７，１６９，５６０号）、Lapidusら（米国特許出願第２００９／０１９１５６５号）、Quakeら（米国特許第６，８１８，３９５号）、Harris（米国特許第７，２８２，３３７号）、Quakeら（米国特許出願第２００２／０１６４６２９号）、およびBraslavskyら、PNAS（USA）、１００巻：３９６０〜３９６４頁（２００３年）において示されており、これらの参考文献の各々の内容は、参照によりその全体において本明細書に組み込まれている。

本発明の方法で使用されうるシーケンシング技術の別の例は、ＤＮＡおよびＲＮＡのいずれもシーケンシングする、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓによる単一分子リアルタイム（ＳＭＲＴ：ｓｉｎｇｌｅｍｏｌｅｃｕｌｅ，ｒｅａｌ−ｔｉｍｅ）技術を含む。ＳＭＲＴでは、４つのＤＮＡ塩基の各々を、４つの異なる蛍光色素のうちの１つへと結合させる。これらの色素は、リン酸連結されている（phospholinked）。単一のＤＮＡポリメラーゼを、鋳型である一本鎖ＤＮＡの単一の分子と共に、ゼロモード導波管（ＺＭＷ：ｚｅｒｏ−ｍｏｄｅｗａｖｅｇｕｉｄｅ）の底部に固定化する。ＺＭＷとは、単一のヌクレオチドの、ＤＮＡポリメラーゼによる組込みの、ＺＭＷの内外へと急速に（数マイクロ秒間で）拡散する蛍光ヌクレオチドのバックグラウンドに対する観察を可能とする閉じ込め構造である。ヌクレオチドを成長しつつある鎖へと組み込むには、数ミリ秒間かかる。この時間中に、蛍光標識が励起され、蛍光シグナルをもたらし、蛍光タグが切断される。色素の対応する蛍光の検出により、どの塩基が組み込まれたのかが指し示される。プロセスを繰り返す。ＲＮＡをシーケンシングするためには、ＺＭＷでは、ＤＮＡポリメラーゼを、逆転写酵素で置きかえ、相応のプロセスに従う。

本発明の方法で使用されうるシーケンシング技法の別の例は、ナノ細孔シーケンシング（Soni G VおよびMeller, A、Clin Chem、５３巻：１９９６〜２００１頁、２００７年）である。ナノ細孔とは、直径が１ナノメートルのオーダーの小孔である。ナノ細孔を、導電性流体中に浸漬し、ナノ細孔にわたり電位を印加する結果として、ナノ細孔を通るイオンの伝導に起因する微弱な電流がもたらされる。流れる電流の量は、ナノ細孔のサイズに対して感受性である。ＤＮＡ分子が、ナノ細孔を通って通過するとき、ＤＮＡ分子上の各ヌクレオチドは、ナノ細孔を、異なる程度で閉塞させる。こうして、ＤＮＡ分子が、ナノ細孔を通って通過するときに、ナノ細孔を通って通過する電流の変化は、ＤＮＡ配列の読取りを表示する。

本発明の方法で使用されうるシーケンシング技法の別の例は、化学感受性電界効果トランジスター（ｃｈｅｍＦＥＴ：ｃｈｅｍｉｃａｌ−ｓｅｎｓｉｔｉｖｅｆｉｅｌｄｅｆｆｅｃｔｔｒａｎｓｉｓｔｏｒ）アレイを使用して、ＤＮＡをシーケンシングするステップ（例えば、米国特許出願公開第２００９００２６０８２号において記載されている）を伴う。技法の一例では、ＤＮＡ分子を、反応チャンバー内に入れることができ、鋳型分子を、ポリメラーゼに結合したシーケンシングプライマーへとハイブリダイズさせることができる。シーケンシングプライマーの３’末端における、１または複数の三リン酸の、新たな核酸鎖への組込みは、電流の変化によって、ｃｈｅｍＦＥＴにより検出することができる。アレイは、複数のｃｈｅｍＦＥＴセンサーを有しうる。別の例では、単一の核酸を、ビーズへと結合させることができ、核酸を、ビーズ上で増幅することができ、個々のビーズを、ｃｈｅｍＦＥＴアレイ上の個々の反応チャンバーであって、各チャンバーがｃｈｅｍＦＥＴセンサーを有するチャンバーへと移送することができ、核酸をシーケンシングすることができる。

本発明の方法で使用されうるシーケンシング技法の別の例は、電子顕微鏡（Moudrianakis E. N.およびBeer M.、Proc Natl Acad Sci USA.、１９６５年３月、５３巻：５６４〜７１頁）を使用するステップを伴う。技法の一例では、電子顕微鏡を使用して識別可能な金属標識を使用して、個々のＤＮＡ分子を標識する。次いで、これらの分子を、平面上で伸長させ、配列を測定するのに電子顕微鏡を使用してイメージングする。

さらなる検出法では、マイクロアレイへの結合を、後続の蛍光検出または非蛍光検出、質量分析的方法を使用する、バーコードによる質量検出、発せられたラジオ波の検出、アラインされたバーコードからの散乱光の検出、定量的ＰＣＲ法またはディジタルＰＣＲ法を使用する蛍光の検出のために活用することができる。比較核酸ハイブリダイゼーションアレイとは、患者の試料ＤＮＡ中のコピー数バリエーションを検出するための技法である。試料ＤＮＡと、基準ＤＮＡとを、例えば、顕著に異なるフルオロフォアを使用して、異なる様式で標識し、次いで、多数のプローブとハイブリダイズさせる。次いで、試料および基準の蛍光強度を測定し、次いで、蛍光強度比を使用して、コピー数バリエーションを計算する。比較ゲノムハイブリダイゼーションアレイの方法については、Shinawi M、Cheung SW、The array CGH and its clinical applications、Drug Discovery Today、１３巻（１７〜１８号）：７６０〜７０頁においてより詳細に論じられている。マイクロアレイによる検出から、ＦＡＳＴＱファイルを直接作製することはできないが、マイクロアレイシーケンサーにより作成されたデータを、ＦＡＳＴＱまたは同様のフォーマットへと転換するプログラムが利用可能である。

ＤＮＡ分子、ＲＮＡ分子、およびコピー数を検出する別の方法は、蛍光ｉｎｓｉｔｕハイブリダイゼーション（ＦＩＳＨ：ｆｌｕｏｒｅｓｃｅｎｔｉｎｓｉｔｕｈｙｂｒｉｄｉｚａｔｉｏｎ）である。In Situ Hybridization Protocols（Ian Darby編、２０００年）。ＦＩＳＨとは、ＤＮＡ配列内の変異およびコピー数変動など、特異的な染色体再配列を検出する、分子細胞遺伝学技法である。ＤＮＡ分子を化学的に変性させ、２つの鎖へと分離する。次いで、一本鎖プローブを、変性させたＤＮＡ鎖と共にインキュベートする。一本鎖プローブ（signals stranded probe）は、標的配列部分に応じて選択され、相補的配列部分に対する高アフィニティーを有する。プローブは、反復配列プローブ、全染色体プローブ、および遺伝子座特異的プローブを含みうる。インキュベート中に、組み合わされたプローブとＤＮＡ鎖とをハイブリダイズさせる。次いで、任意のバリエーションを評価するために、結果を、顕微鏡下で視覚化および定量する。

別の実施形態では、ＭａｓｓＡＲＲＡＹ（商標）ベースの遺伝子発現プロファイリング法を使用して、遺伝子発現を測定する。Ｓｅｑｕｅｎｏｍ，Ｉｎｃ．（ＳａｎＤｉｅｇｏ、Ｃａｌｉｆ．）により開発されたＭａｓｓＡＲＲＡＹ（商標）ベースの遺伝子発現プロファイリング法では、ＲＮＡの単離および逆転写の後、得られたｃＤＮＡを、単一の塩基を除く全て位置において、ターゲティングされるｃＤＮＡ領域にマッチし、内部標準として働く、合成ＤＮＡ分子（コンペティター）とスパイクする。ｃＤＮＡ／コンペティター混合物を、ＰＣＲ増幅し、ＰＣＲ後、小エビアルカリホスファターゼ（ＳＡＰ）酵素処理にかけ、その結果として、残りのヌクレオチドの脱リン酸化をもたらす。アルカリホスファターゼを不活化させた後、コンペティターおよびｃＤＮＡに由来するＰＣＲ産物を、プライマー伸長にかけ、これにより、コンペティターに由来するＰＣＲ産物およびｃＤＮＡに由来するＰＣＲ産物について、顕著に異なる質量シグナルを発生させる。精製後、これらの産物を、マトリックス支援レーザー脱着イオン化飛行時間質量分析（ＭＡＬＤＩ−ＴＯＦＭＳ：ｍａｔｒｉｘ−ａｓｓｉｓｔｅｄｌａｓｅｒｄｅｓｏｒｐｔｉｏｎｉｏｎｉｚａｔｉｏｎｔｉｍｅ−ｏｆ−ｆｌｉｇｈｔｍａｓｓｓｐｅｃｔｒｏｍｅｔｒｙ）による解析に必要とされる成分をあらかじめローディングされたチップアレイ上に分注する。次いで、反応物中に存在するｃＤＮＡを、作成された質量スペクトル内のピーク面積の比を解析することにより定量する。さらなる詳細については、例えば、DingおよびCantor、Proc. Natl. Acad. Sci. USA、１００巻：３０５９〜３０６４頁（２００３年）を参照されたい。

さらなるＰＣＲベースの技法は、例えば、ディファレンシャルディスプレイ（LiangおよびPardee、Science、２５７巻：９６７〜９７１頁（１９９２年））；増幅フラグメント長多型（ｉＡＦＬＰ）（Kawamotoら、Genome Res.、１２巻：１３０５〜１３１２頁（１９９９年））；ＢｅａｄＡｒｒａｙ（商標）技術（Ｉｌｌｕｍｉｎａ、ＳａｎＤｉｅｇｏ、Ｃａｌｉｆ．；Oliphantら、Discovery of Markers for Disease（Biotechniquesへの付録）、２００２年６月；Fergusonら、Analytical Chemistry、７２巻：５６１８頁（２０００年））；市販のＬｕｍｉｎｅｘ１００ＬａｂＭＡＰシステムおよび複数色でコードされたマイクロスフェア（ＬｕｍｉｎｅｘＣｏｒｐ．、Ａｕｓｔｉｎ、Ｔｅｘ．）を、遺伝子発現のための迅速アッセイで使用される、遺伝子発現の検出のためのビーズアレイ（ＢＡＤＧＥ）（Yangら、Genome Res.、１１巻：１８８８〜１８９８頁（２００１年））；ならびに高カバレッジ発現プロファイリング（ＨｉＣＥＰ）解析（Fukumuraら、Nucl. Acids. Res.、３１巻（１６号）ｅ９４頁（２００３年））を含む。それらの各々の内容が、参照によりそれらの全体において本明細書に組み込まれる。

ある特定の実施形態ではまた、遺伝子発現の変動も、例えば、Ａｆｆｙｍｅｔｒｉｘ（ＳａｎｔａＣｌａｒａ、ＣＡ）から市販されているアレイなど、ナイロン膜アレイ、マイクロチップアレイ、およびスライドガラスアレイを含む、マイクロアレイ技法を使用して、同定または確認することができる。一般に、ＲＮＡ試料は、単離され、逆転写を介して、標識されたｃＤＮＡへと転換される。次いで、標識されたｃＤＮＡを、ナイロン膜、マイクロチップ、またはスライドガラス上で、目的の細胞または組織に由来する、特異的なＤＮＡプローブとハイブリダイズさせる。次いで、ハイブリダイズさせたｃＤＮＡを検出および定量し、結果として得られる遺伝子発現データを、解析のために対照と比較することができる。標識化法、ハイブリダイゼーション法、および検出法は、マイクロアレイの支持体が、ナイロン膜であるのか、マイクロチップであるのか、スライドガラスであるのかに応じて変化する。ナイロン膜アレイは、Ｐ−ｄＮＴＰで標識されたプローブとハイブリダイズさせることが典型的である。スライドガラスアレイは、２つの顕著に異なる、蛍光標識されたヌクレオチドによる標識化を伴うことが典型的である。マイクロアレイを作製し、遺伝子産物の発現（例えば、ＲＮＡまたはタンパク質）を決定するための方法は、その内容が参照によりその全体において本明細書に組み込まれる、Yeatmanら（米国特許出願第２００６／０１９５２６９号）に示されている。

一部の実施形態では、質量分析（ＭＳ）による解析は、生物学的試料中の、本明細書で開示される、１または複数のバイオマーカーの存在および／または量を決定するのに、単独で使用することもでき、他の方法（例えば、イムノアッセイまたはＲＮＡ測定アッセイ）と組み合わせることもできる。一部の実施形態では、ＭＳ解析は、例えば、ダイレクトスポットＭＡＬＤＩ−ＴＯＦまたは液体クロマトグラフィーＭＡＬＤＩ−ＴＯＦ質量分析による解析など、マトリックス支援レーザー脱着イオン化（ＭＡＬＤＩ）飛行時間（ＴＯＦ）ＭＳ解析を含む。一部の実施形態では、ＭＳ解析は、例えば、液体クロマトグラフィー（ＬＣ）ＥＳＩ−ＭＳなどのエレクトロスプレーイオン化（ＥＳＩ）ＭＳを含む。質量分析は、市販の分光光度計を使用して達成することができる。当技術分野では、ＭＡＬＤＩ−ＴＯＦＭＳおよびＥＳＩ−ＭＳを含むＭＳ解析を活用して、生物学的試料中のバイオマーカーペプチドの存在および量を検出するための方法が公知である。さらなる指針については、例えば、それらの各々が参照によりその全体において本明細書に組み込まれる、米国特許第６，９２５，３８９号；同第６，９８９，１００号；および同第６，８９０，７６３号を参照されたい。

本発明の方法、配列構築物、およびシステムを伴う使用のためのタンパク質配列は、当業者に公知の多数の技法を使用して決定することができる。例えば、アミノ酸配列およびアミノ酸配列リードは、質量分析により、またはエドマン分解を使用して、タンパク質またはタンパク質の部分を解析することにより作製することができる。質量分析は、例えば、ダイレクトスポットＭＡＬＤＩ−ＴＯＦまたは液体クロマトグラフィーＭＡＬＤＩ−ＴＯＦ質量分析による解析などの、マトリックス支援レーザー脱着イオン化（ＭＡＬＤＩ）飛行時間（ＴＯＦ）ＭＳ解析、例えば、液体クロマトグラフィー（ＬＣ）ＥＳＩ−ＭＳなどのエレクトロスプレーイオン化（ＥＳＩ）ＭＳ、またはＭＳ−ＭＳなど、他の技法を含みうる。エドマン分解による解析は、Ｍｏｄｅｌ４９ＸＰｒｏｃｉｓｅタンパク質／ペプチドシーケンサー（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ／ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）など、市販の計器を使用して実施することができる。シーケンシングされたアミノ酸配列、すなわち、ポリペプチド、すなわち、タンパク質は、少なくとも１０アミノ酸の長さ、例えば、少なくとも２０アミノ酸の長さ、例えば、少なくとも５０アミノ酸の長さでありうる。
参照による組込み

本開示を通して特許、特許出願、特許公開、雑誌、書籍、論文、ウェブコンテンツなど、他の文献に対する言及および引用を行ってきた。全てのこのような文献は、参照によりそれらの全体において全て目的で本明細書に組み込まれる。
同等物

当業者には、本明細書で示され、記載される実施形態に加えて、本発明の多様な改変およびその多くのさらなる実施形態も、本明細書で引用される研究文献および特許文献への言及を含む、本明細書の全内容から明らかとなろう。本明細書における対象物は、その多様な実施形態における本発明およびその同等物の実施に適応させうる、重要な情報、例示、および指針を含有する。

構造変異体を含有するリードの一貫した、信頼できるアライメントにより、他のやり方ではアラインされない配列として廃棄される可能性がある配列データを捕捉することが可能になる。このことから、本発明のアルゴリズムおよび基準構築物を使用して構造バリエーションの近傍に位置する稀な変異体を捕捉する。稀な変異体とは、試料または集団内に約５％未満、好ましくは約１％未満の頻度で存在する変異体である。本発明の目的に関して、稀な変異体は、「表示されない」変異体、すなわち、使用される基準に反映されない変異体も含まれ得、それは、線形的な基準配列（既存の方法では）または本発明の基準構築物である。例えば、構造変異体に近接する（したがって、配列リードは構造変異体および稀な変異体の少なくとも一部を含む）稀な変異体を、構造変異体と共に本発明の基準構築物にアラインする。配列リード内の構造変異体が基準構築物に適切にアライメントされるので、構造変異体のアライメントの直接の結果として、構造変異体に近接する稀な変異体は、他のやり方で十分にアラインされた信頼できる多数のリードに存在する。稀な変異体が一貫して存在することにより、それがシーケンシングエラーではなく、正当な遺伝的変異体として認識されるようになる。本明細書に記載のマルチパスアライメント手法を使用することにより、線形的な基準アライメント手法を使用すると見落とされる可能性がある稀な配列の変異の分解能を可能とする。
本発明は、例えば、以下の項目も提供する。
（項目１）
複数の核酸リードをアラインするための方法であって、
複数の核酸リードを得るステップであり、少なくとも１つの核酸リードが、構造バリエーションの少なくとも一部に対応する配列を含む、ステップと；
第１の位置において少なくとも２つの代替配列を含む基準配列構築物を提供するステップであり、該代替配列のうちの１つが、該構造バリエーションを含む、ステップと；
該基準配列構築物に対する各核酸リードごとの配列の重複をスコア付けするステップと；
各核酸リードを、各核酸リードごとの該スコアが最大化されるような該構築物内の場所にアラインし、それにより、少なくとも１つの該リードを、該構造バリエーションを含む該代替配列にアラインするステップと
を含む方法。
（項目２）
前記構築物に対する前記核酸リードの前記アライメントに基づき、該核酸リードを互いにアセンブルするステップをさらに含む、項目１に記載の方法。
（項目３）
前記構造バリエーションが少なくとも１００ｂｐの長さである、項目１に記載の方法。
（項目４）
少なくとも１つの核酸リードが、前記構造バリエーションの近傍に変異を含む、項目１に記載の方法。
（項目５）
前記変異が、前記構造バリエーションから１００ｂｐまたはそれ未満離れている、項目４に記載の方法。
（項目６）
前記アラインするステップが、前記変異の存在を同定することをさらに含む、項目４に記載の方法。
（項目７）
前記基準配列構築物が、該基準構築物の第２の位置において少なくとも２つの追加の代替配列をさらに含み、該追加の代替配列のうちの１つが、前記基準配列に対する変異を表示する、項目６に記載の方法。
（項目８）
前記第１の位置と前記第２の位置が、１００ｂｐまたはそれ未満離れている、項目７に記載の方法。
（項目９）
前記構造バリエーションが、約１キロベース〜約３メガベースの長さである、項目１に記載の方法。
（項目１０）
公知の前記構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択される、項目１に記載の方法。
（項目１１）
前記変異が、稀な変異体である、項目４に記載の方法。
（項目１２）
前記変異が、種の中で５％またはそれ未満の頻度でマイナー対立遺伝子を含む、項目４に記載の方法。
（項目１３）
前記変異が、欠失、重複、逆位、挿入、および一塩基多型からなる群から選択される、項目４に記載の方法。
（項目１４）
前記変異が、前記基準構築物内で表示されていない、項目４に記載の方法。
（項目１５）
前記基準配列構築物を通る経路が、生物体のゲノムを表示する、項目１に記載の方法。
（項目１６）
前記基準配列を通る経路が、生物体の染色体またはその一部を表示する、項目１に記載の方法。
（項目１７）
前記基準配列構築物を通る経路が、非巡回経路である、項目１に記載の方法。
（項目１８）
複数の核酸リードをアラインするための、プロセッサーおよびメモリを含むシステムであって、該メモリが、命令であって、実行されると、
複数の核酸リードを、記号の文字列として得て、ここで少なくとも１つの記号の文字列は、遺伝子配列内の公知の構造バリエーションの少なくとも一部に対応し；
基準配列構築物内の第１の位置において、少なくとも２つの異なる記号の文字列を含む該構築物をもたらし、ここで該少なくとも２つの異なる記号の文字列のうちの１つは、該公知の構造バリエーションを表示し；
核酸リードに対応する記号の文字列それぞれと、該基準配列構築物との重複をスコア付けし、ここで、高スコアは、該リードと基準との間のアライメントの可能性が大きいことに対応し；
各リードについて、最高のスコアに対応する該重複を同定し；
核酸リードに対応する該記号の文字列を該最高のスコアに対応する該構築物上の場所にアラインし、それにより、該公知の構造バリエーションの少なくとも一部に対応する該記号の文字列を該公知の構造バリエーションにアラインする
ことを該プロセッサーにさせる命令を含む、システム。
（項目１９）
前記メモリが、前記構築物に対する前記記号の文字列の前記アライメントに基づき、核酸リードに対応する記号の文字列を互いにアセンブルすることを前記プロセッサーにさせる命令をさらに含む、項目１８に記載のシステム。
（項目２０）
前記公知の構造バリエーションが少なくとも１００塩基対の長さである、項目１８に記載のシステム。
（項目２１）
公知の構造バリエーションの少なくとも一部に対応する前記記号の文字列が、稀な変異体を表示する記号をさらに含む、項目１８に記載のシステム。
（項目２２）
前記稀な変異体が、前記構造バリエーションの一部から、１００ｂｐまたはそれ未満を表示する記号により分離されている、項目２１に記載のシステム。
（項目２３）
前記基準配列構築物が、該基準構築物の第２の位置において少なくとも２つの代替の記号の文字列をさらに含み、前記稀な変異体に対応する前記記号の文字列が該第２の位置における該代替の記号の文字列のうちの１つにアラインされる、項目２１に記載のシステム。
（項目２４）
前記第１の位置と前記第２の位置が、１００ｂｐまたはそれ未満離れている、項目２３に記載のシステム。
（項目２５）
前記公知の構造バリエーションが、約１キロベースから３メガベースの間の長さである、項目１８に記載のシステム。
（項目２６）
前記公知の構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択されるバリエーションを表示する、項目１８に記載のシステム。
（項目２７）
ゲノムの構造バリエーションの近傍にある稀な変異体を同定するための方法であって、
複数の核酸配列リードを、基準配列構築物内の位置において少なくとも２つの代替配列を含む該構築物に適用するステップであり、該代替配列のうちの１つが、構造バリエーションを含むステップと；
該基準配列構築物に対する各核酸リードごとの配列の重複をスコア付けするステップと；
各リードごとの該スコアが最大化されるように各リードを該構築物内の場所にアラインするステップと；
該構造バリエーションの近傍にある稀な変異体を、それまでに該基準構築物内に存在しなかった該構造バリエーションの近傍にある配列として同定するステップと
を含む方法。
（項目２８）
ゲノムの構造バリエーションの近傍にある稀な変異体を同定するための方法であって、
複数の核酸配列リードを得るステップと；
該リードを、基準配列構築物内の位置において少なくとも２つの代替配列を含む該構築物に適用するステップであり、そのうちの１つが構造バリエーションである、ステップと；
該基準構築物に対する各核酸リードごとの配列の重複をスコア付けするステップと；
各リードごとの該スコアが最大化されるように各リードを該構築物上の場所にアラインするステップと；
該基準構築物上にアラインされる構造バリエーションの近傍にある稀な変異体を同定するステップと
を含む方法。
（項目２９）
前記構築物に対する前記核酸リードの前記アライメントに基づき、該核酸リードを互いにアセンブルするステップをさらに含む、項目２８に記載の方法。
（項目３０）
前記構造バリエーションが少なくとも１００ｂｐの長さである、項目２８に記載の方法。
（項目３１）
少なくとも１つの核酸リードが、前記稀な変異体を含む、項目２８に記載の方法。
（項目３２）
前記稀な変異体が、前記ゲノムの構造バリエーションと１００ｂｐまたはそれ未満離れている、項目３１に記載の方法。
（項目３３）
前記基準配列構築物が、該基準構築物の第２の位置において少なくとも２つの追加の代替配列をさらに含み、該追加の代替配列のうちの１つが、前記稀な変異体を表示する、項目２８に記載の方法。
（項目３４）
前記基準配列構築物が、該基準構築物の第２の位置において少なくとも２つの追加の代替配列をさらに含み、該追加の代替配列のいずれも前記稀な変異体を表示しない、項目２８に記載の方法。
（項目３５）
前記第１の位置と前記第２の位置が、１００ｂｐまたはそれ未満離れている、項目３３に記載の方法。
（項目３６）
前記構造バリエーションが約１キロベース〜約３メガベースの長さである、項目３５に記載の方法。
（項目３７）
前記稀な変異体が、変異体コールフォーマット（ＶＣＦ）ファイルにおいてそれまでに同定されていない、項目２８に記載の方法。
（項目３８）
前記公知の構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択される、項目２８に記載の方法。
（項目３９）
前記稀な変異体が、種の中で５％またはそれ未満の頻度でマイナー対立遺伝子を含む、項目２８に記載の方法。
（項目４０）
前記稀な変異体が、欠失、重複、逆位、挿入、および一塩基多型からなる群から選択される、項目２８に記載の方法。
（項目４１）
前記稀な変異体が前記基準構築物内で表示されない、項目２８に記載の方法。
（項目４２）
前記基準配列構築物を通る経路が、生物体のゲノムを表示する、項目２８に記載の方法。
（項目４３）
前記基準配列を通る経路が、生物体の染色体またはその一部を表示する、項目２８に記載の方法。
（項目４４）
前記基準配列構築物を通る経路が、非巡回経路である、項目２８に記載の方法。
（項目４５）
ゲノムの構造バリエーションの近傍にある稀な変異体を同定するための、プロセッサーおよびメモリを含むシステムであって、該メモリが、命令であって、実行されると、
複数の核酸リードを、記号の文字列として得て、ここで少なくとも１つの記号の文字列は、遺伝子配列内の公知の構造バリエーションの少なくとも一部に対応し；
基準配列構築物内の第１の位置において、少なくとも２つの異なる記号の文字列を含む該構築物をもたらし、ここで該少なくとも２つの異なる記号の文字列のうちの１つは、該公知の構造バリエーションを表示し；
核酸リードに対応する記号の文字列それぞれと、該基準配列構築物との重複をスコア付けし、ここで、高スコアは、該リードと基準との間のアライメントの可能性が大きいことに対応し；
各リードについて、最高のスコアに対応する該重複を同定し；
核酸リードに対応する該記号の文字列を該最高のスコアに対応する該構築物上の場所にアラインし、それにより、該公知の構造バリエーションの少なくとも一部に対応する該記号の文字列を該公知の構造バリエーションにアラインし；
少なくとも１つの記号の文字列内の稀な変異体を同定する
ことを該プロセッサーにさせる命令を含む、システム。
（項目４６）
前記メモリが、前記構築物に対する前記記号の文字列の前記アライメントに基づき、核酸リードに対応する記号の文字列を互いにアセンブルすることを前記プロセッサーにさせる命令をさらに含む、項目４５に記載のシステム。
（項目４７）
前記公知の構造バリエーションが少なくとも１００塩基対の長さである、項目４５に記載のシステム。
（項目４８）
前記稀な変異体が、前記構造バリエーションの一部から、１００ｂｐまたはそれ未満を表示する記号によって分離されている、項目４５に記載のシステム。
（項目４９）
前記基準配列構築物が、該基準構築物の第２の位置において少なくとも２つの代替の記号の文字列をさらに含み、前記稀な変異体に対応する該記号の文字列が、該第２の位置における該代替の記号の文字列のうちの１つにアラインされる、項目４５に記載のシステム。
（項目５０）
前記第１の位置と前記第２の位置が、１００ｂｐまたはそれ未満離れている、項目４９に記載のシステム。
（項目５１）
前記公知の構造バリエーションが、約１キロベースから３メガベースの間の長さである、項目４５に記載のシステム。
（項目５２）
前記公知の構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択されるバリエーションを表示する、項目４５に記載のシステム。
（項目５３）
前記稀な変異体が、種の中で５％またはそれ未満の頻度でマイナー対立遺伝子を含む、項目４５に記載のシステム。
（項目５４）
前記稀な変異体が、欠失、重複、逆位、挿入、および一塩基多型からなる群から選択される、項目４５に記載のシステム。
（項目５５）
前記稀な変異体が、前記基準構築物内で表示されない、項目４５に記載のシステム。

Claims

複数の核酸リードをアラインするための方法であって、
複数の核酸リードを得るステップであり、少なくとも１つの核酸リードが、構造バリエーションの少なくとも一部に対応する配列を含む、ステップと；
第１の位置において少なくとも２つの代替配列を含む基準配列構築物を提供するステップであり、該代替配列のうちの１つが、該構造バリエーションを含む、ステップと；
該基準配列構築物に対する各核酸リードごとの配列の重複をスコア付けするステップと；
各核酸リードを、各核酸リードごとの該スコアが最大化されるような該構築物内の場所にアラインし、それにより、少なくとも１つの該リードを、該構造バリエーションを含む該代替配列にアラインするステップと
を含む方法。
前記構築物に対する前記核酸リードの前記アライメントに基づき、該核酸リードを互いにアセンブルするステップをさらに含む、請求項１に記載の方法。
前記構造バリエーションが少なくとも１００ｂｐの長さである、請求項１に記載の方法。
少なくとも１つの核酸リードが、前記構造バリエーションの近傍に変異を含む、請求項１に記載の方法。
前記変異が、前記構造バリエーションから１００ｂｐまたはそれ未満離れている、請求項４に記載の方法。
前記アラインするステップが、前記変異の存在を同定することをさらに含む、請求項４に記載の方法。
前記基準配列構築物が、該基準構築物の第２の位置において少なくとも２つの追加の代替配列をさらに含み、該追加の代替配列のうちの１つが、前記基準配列に対する変異を表示する、請求項６に記載の方法。
前記第１の位置と前記第２の位置が、１００ｂｐまたはそれ未満離れている、請求項７に記載の方法。
前記構造バリエーションが、約１キロベース〜約３メガベースの長さである、請求項１に記載の方法。
公知の前記構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択される、請求項１に記載の方法。
前記変異が、稀な変異体である、請求項４に記載の方法。
前記変異が、種の中で５％またはそれ未満の頻度でマイナー対立遺伝子を含む、請求項４に記載の方法。
前記変異が、欠失、重複、逆位、挿入、および一塩基多型からなる群から選択される、請求項４に記載の方法。
前記変異が、前記基準構築物内で表示されていない、請求項４に記載の方法。
前記基準配列構築物を通る経路が、生物体のゲノムを表示する、請求項１に記載の方法。
前記基準配列を通る経路が、生物体の染色体またはその一部を表示する、請求項１に記載の方法。
前記基準配列構築物を通る経路が、非巡回経路である、請求項１に記載の方法。
複数の核酸リードをアラインするための、プロセッサーおよびメモリを含むシステムであって、該メモリが、命令であって、実行されると、
複数の核酸リードを、記号の文字列として得て、ここで少なくとも１つの記号の文字列は、遺伝子配列内の公知の構造バリエーションの少なくとも一部に対応し；
基準配列構築物内の第１の位置において、少なくとも２つの異なる記号の文字列を含む該構築物をもたらし、ここで該少なくとも２つの異なる記号の文字列のうちの１つは、該公知の構造バリエーションを表示し；
核酸リードに対応する記号の文字列それぞれと、該基準配列構築物との重複をスコア付けし、ここで、高スコアは、該リードと基準との間のアライメントの可能性が大きいことに対応し；
各リードについて、最高のスコアに対応する該重複を同定し；
核酸リードに対応する該記号の文字列を該最高のスコアに対応する該構築物上の場所にアラインし、それにより、該公知の構造バリエーションの少なくとも一部に対応する該記号の文字列を該公知の構造バリエーションにアラインする
ことを該プロセッサーにさせる命令を含む、システム。
前記メモリが、前記構築物に対する前記記号の文字列の前記アライメントに基づき、核酸リードに対応する記号の文字列を互いにアセンブルすることを前記プロセッサーにさせる命令をさらに含む、請求項１８に記載のシステム。
前記公知の構造バリエーションが少なくとも１００塩基対の長さである、請求項１８に記載のシステム。
公知の構造バリエーションの少なくとも一部に対応する前記記号の文字列が、稀な変異体を表示する記号をさらに含む、請求項１８に記載のシステム。
前記稀な変異体が、前記構造バリエーションの一部から、１００ｂｐまたはそれ未満を表示する記号により分離されている、請求項２１に記載のシステム。
前記基準配列構築物が、該基準構築物の第２の位置において少なくとも２つの代替の記号の文字列をさらに含み、前記稀な変異体に対応する前記記号の文字列が該第２の位置における該代替の記号の文字列のうちの１つにアラインされる、請求項２１に記載のシステム。
前記第１の位置と前記第２の位置が、１００ｂｐまたはそれ未満離れている、請求項２３に記載のシステム。
前記公知の構造バリエーションが、約１キロベースから３メガベースの間の長さである、請求項１８に記載のシステム。
前記公知の構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択されるバリエーションを表示する、請求項１８に記載のシステム。
ゲノムの構造バリエーションの近傍にある稀な変異体を同定するための方法であって、
複数の核酸配列リードを、基準配列構築物内の位置において少なくとも２つの代替配列を含む該構築物に適用するステップであり、該代替配列のうちの１つが、構造バリエーションを含むステップと；
該基準配列構築物に対する各核酸リードごとの配列の重複をスコア付けするステップと；
各リードごとの該スコアが最大化されるように各リードを該構築物内の場所にアラインするステップと；
該構造バリエーションの近傍にある稀な変異体を、それまでに該基準構築物内に存在しなかった該構造バリエーションの近傍にある配列として同定するステップと
を含む方法。
ゲノムの構造バリエーションの近傍にある稀な変異体を同定するための方法であって、
複数の核酸配列リードを得るステップと；
該リードを、基準配列構築物内の位置において少なくとも２つの代替配列を含む該構築物に適用するステップであり、そのうちの１つが構造バリエーションである、ステップと；
該基準構築物に対する各核酸リードごとの配列の重複をスコア付けするステップと；
各リードごとの該スコアが最大化されるように各リードを該構築物上の場所にアラインするステップと；
該基準構築物上にアラインされる構造バリエーションの近傍にある稀な変異体を同定するステップと
を含む方法。
前記構築物に対する前記核酸リードの前記アライメントに基づき、該核酸リードを互いにアセンブルするステップをさらに含む、請求項２８に記載の方法。
前記構造バリエーションが少なくとも１００ｂｐの長さである、請求項２８に記載の方法。
少なくとも１つの核酸リードが、前記稀な変異体を含む、請求項２８に記載の方法。
前記稀な変異体が、前記ゲノムの構造バリエーションと１００ｂｐまたはそれ未満離れている、請求項３１に記載の方法。
前記基準配列構築物が、該基準構築物の第２の位置において少なくとも２つの追加の代替配列をさらに含み、該追加の代替配列のうちの１つが、前記稀な変異体を表示する、請求項２８に記載の方法。
前記基準配列構築物が、該基準構築物の第２の位置において少なくとも２つの追加の代替配列をさらに含み、該追加の代替配列のいずれも前記稀な変異体を表示しない、請求項２８に記載の方法。
前記第１の位置と前記第２の位置が、１００ｂｐまたはそれ未満離れている、請求項３３に記載の方法。
前記構造バリエーションが約１キロベース〜約３メガベースの長さである、請求項３５に記載の方法。
前記稀な変異体が、バリアントコールフォーマット（ＶＣＦ）ファイルにおいてそれまでに同定されていない、請求項２８に記載の方法。
前記公知の構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択される、請求項２８に記載の方法。
前記稀な変異体が、種の中で５％またはそれ未満の頻度でマイナー対立遺伝子を含む、請求項２８に記載の方法。
前記稀な変異体が、欠失、重複、逆位、挿入、および一塩基多型からなる群から選択される、請求項２８に記載の方法。
前記稀な変異体が前記基準構築物内で表示されない、請求項２８に記載の方法。
前記基準配列構築物を通る経路が、生物体のゲノムを表示する、請求項２８に記載の方法。
前記基準配列を通る経路が、生物体の染色体またはその一部を表示する、請求項２８に記載の方法。
前記基準配列構築物を通る経路が、非巡回経路である、請求項２８に記載の方法。
ゲノムの構造バリエーションの近傍にある稀な変異体を同定するための、プロセッサーおよびメモリを含むシステムであって、該メモリが、命令であって、実行されると、
複数の核酸リードを、記号の文字列として得て、ここで少なくとも１つの記号の文字列は、遺伝子配列内の公知の構造バリエーションの少なくとも一部に対応し；
基準配列構築物内の第１の位置において、少なくとも２つの異なる記号の文字列を含む該構築物をもたらし、ここで該少なくとも２つの異なる記号の文字列のうちの１つは、該公知の構造バリエーションを表示し；
核酸リードに対応する記号の文字列それぞれと、該基準配列構築物との重複をスコア付けし、ここで、高スコアは、該リードと基準との間のアライメントの可能性が大きいことに対応し；
各リードについて、最高のスコアに対応する該重複を同定し；
核酸リードに対応する該記号の文字列を該最高のスコアに対応する該構築物上の場所にアラインし、それにより、該公知の構造バリエーションの少なくとも一部に対応する該記号の文字列を該公知の構造バリエーションにアラインし；
少なくとも１つの記号の文字列内の稀な変異体を同定する
ことを該プロセッサーにさせる命令を含む、システム。
前記メモリが、前記構築物に対する前記記号の文字列の前記アライメントに基づき、核酸リードに対応する記号の文字列を互いにアセンブルすることを前記プロセッサーにさせる命令をさらに含む、請求項４５に記載のシステム。
前記公知の構造バリエーションが少なくとも１００塩基対の長さである、請求項４５に記載のシステム。
前記稀な変異体が、前記構造バリエーションの一部から、１００ｂｐまたはそれ未満を表示する記号によって分離されている、請求項４５に記載のシステム。
前記基準配列構築物が、該基準構築物の第２の位置において少なくとも２つの代替の記号の文字列をさらに含み、前記稀な変異体に対応する該記号の文字列が、該第２の位置における該代替の記号の文字列のうちの１つにアラインされる、請求項４５に記載のシステム。
前記第１の位置と前記第２の位置が、１００ｂｐまたはそれ未満離れている、請求項４９に記載のシステム。
前記公知の構造バリエーションが、約１キロベースから３メガベースの間の長さである、請求項４５に記載のシステム。
前記公知の構造バリエーションが、欠失、重複、コピー数バリエーション、挿入、逆位、および転座からなる群から選択されるバリエーションを表示する、請求項４５に記載のシステム。
前記稀な変異体が、種の中で５％またはそれ未満の頻度でマイナー対立遺伝子を含む、請求項４５に記載のシステム。
前記稀な変異体が、欠失、重複、逆位、挿入、および一塩基多型からなる群から選択される、請求項４５に記載のシステム。
前記稀な変異体が、前記基準構築物内で表示されない、請求項４５に記載のシステム。