JP6882373B2

JP6882373B2 - ターゲットシークエンシングパネルから変異を見つける方法

Info

Publication number: JP6882373B2
Application number: JP2019104837A
Authority: JP
Inventors: ルヌアシュトシュ; エイ．ルコッククリスチャン; ジョシデヴェンドラ
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2013-07-29
Filing date: 2019-06-04
Publication date: 2021-06-02
Anticipated expiration: 2034-07-22
Also published as: CN104346539A; JP2019164830A; JP2015035212A; CN104346539B

Description

この発明は、ターゲットシークエンシングパネルから変異を見つける方法に関する。

突然変異についての包括的な詳細が癌を含む多くの疾患の理解、診断および治療に不可欠である。シークエンシングデータから突然変異を見つけるために多数の方法が提案されてきたが、これらは通常、参照と比較して変異塩基の存在を統計学的に評価することからなる。しかし、突然変異の正確な決定は、突然変異が断片のみに発見される状況においては依然として難題である。このような突然変異の描写は特に癌において重要である。腫瘍の不均一性、したがって再発および治療耐性の根本的な原因を理解するために、このような突然変異は腫瘍含量の低いサンプルだけでなく、微量の腫瘍サブクローンをキャプチャするためにも重要である。

エンリッチメント技術は、高い均質性およびリード深度が可能なことにより、このようなサンプルの研究には魅力的である。しかし、実験技術によって正確に情報を把握できるものの、既存の解析方法は低頻度の変異の検出には適していない。

配列変異をコールできるオープンソースと市販両方の多数の他のツールがある。ターゲットエンリッチメントデータ用としてこのようなツールを使用する試みは、しばしば厄介なものとなる傾向にあり、データのすべての特徴を利用するわけではないため、誤ったコールまたは誤判定およびミスコールも招く。さらに、文献にて記載されているように、各方法は欠点を有しているだけでなく、コールはまた異なる方法間で一致しない。合致した正常なサンプルが供給されたときに低頻度の突然変異の検出を試みるだけの方法もあれば、ＳＮＰのみをコールし、挿入、欠失または多塩基多型(multiple nucleotide polymorphisms)(MNPs)はコールしない方法もある。

リード深度が高いターゲットシークエンシングにおける低頻度の変異の場合、問題は深刻化する。個々の変異部位を見て、その位置の突然変異の統計的有意性を評価することによってほとんどの方法が機能する。例えば、個々の遺伝子座が１０００リード深度の場合、平均してヘテロ接合体コールが５００リードによってカバーされ突然変異対立遺伝子を支持すると予測される。しかし、ヘテロ接合体が本当に存在しているがほんの数回しか標本抽出されない位置がある。モザイクサンプルの場合、微量構成要素の特徴である突然変異はずっと低い頻度を有するであろう。統計学的にこのような大きな標本空間から標本抽出するときには、希少事象が起こるため、低頻度のコールとシークエンシングエラーを区別することが難しくなる。問題は、増幅およびキャプチャでの他のアーティファクトの存在によりさらに複雑化する。ゲノム領域内の複雑な事象および挿入欠失（挿入−欠失）の存在において、参照配列では正確に変異の分布を表さず、これによりさらなるアーティファクトにつながる。既存の解決策の多くは、複数の独立した方法を用いてこの問題を解決しようと試みるが、最新の文献によれば、信頼性をもってこれらの変異をコールすることのできる解決策はない。

米国特許出願第２００４０２４１６５８号明細書米国特許出願第２０１００１２００９８号明細書米国特許第５，７９５，７８２号明細書米国特許第６，０１５，７１４号明細書米国特許第６，６２７，０６７号明細書米国特許第７，２３８，４８５号明細書米国特許第７，２５８，８３８号明細書米国特許出願第２００６００３１７１号明細書米国特許出願第２００９００２９４７７号明細書米国特許第８，２０９，１３０号明細書米国特許出願公開第２０１１／０００４４１３号明細書米国特許出願公開第２０１１／００１５８６３明細書米国特許出願公開第２０１０／００６３７４２号明細書

Hedgesら、Comparison of three targeted enrichment strategies on the SOLiD sequencing platform, PLoS One 2011 6: e18595 Shearerら、Solution-based targeted genomic enrichment for precious DNA samples BMC Biotechnol. 2012 12: 20 Chial Proto-oncogenes to oncogenes to cancer. Nature Education 2008 1:1 Dahlら、Multiplex amplification enabled by selective circularization of large sets of genomic DNA fragments. Nucleic Acids Res. 2005 33: e71 Ausubel, F. M.ら、Short protocols in molecular biology，3rd ed., 1995, John Wiley & Sons, Inc., New York Sambrook, J. ら、Molecular cloning: A laboratory manual, 2nd ed., 1989, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, New York Lageら、Genome Res. 2003 13: 294-307 Zongら、Science. 2012 338: 1622-1626 Caruccio Methods Mol. Biol. 2011 733: 241-55 Kaperら、Proc. Natl. Acad. Sci. 2013 110: 5552-7 Marineら、Appl. Environ. Microbiol. 2011 77: 8071-9 Marguliesら、Nature 2005 437: 376-80 Ronaghiら、Analytical Biochemistry 1996 242: 84-9 Shendureら、Science 2005 309: 1728-32 Imelfortら、Brief Bioinform. 2009 10: 609-18 Foxら、Methods Mol Biol. 2009; 553: 79-108 Applebyら、Methods Mol Biol. 2009; 513: 19-39 Morozovaら、Genomics. 2008 92: 255-64 Soniら、2007 Clin. Chem. 53: 1996-2001 Myersら、Science 2000 287: 2196-204 Batzoglouら、Genome Research 2002 12: 177-89 Dohmら、Genome Research 2007 17: 1697-706 Boisvertら、Journal of Computational Biology 2010 17: 1519-33 Morenoら、Graph-Theoretic Concepts in Computer Science 2004 3353: 168 Tarjanら、Proc FOCS 1984 12-20 Jungら、Systematic investigation of cancer-associated somatic point mutations in SNP databases Nature Biotechnology 2013 31: 787-789 Burmerら, Proc. Natl. Acad. Sci. 1989 86: 2403-7 Almogueraら, Cell 1988 53: 549-54 Tamら，Clin．Cancer Res, 2006 12: 1647-53

上記背景技術を鑑み、ターゲットシークエンスパネルから変異を見つける方法を提供することを目的とする。

本明細書にてエンリッチされたサンプルの配列変異を同定する方法を提供する。特定の実施形態にて、本方法は（ａ）（ｉ）ゲノム領域がエンリッチされたサンプルの複数の配列リードおよび（ｉｉ）ゲノム領域の参照配列を取得すること、（ｂ）前記配列リードをアセンブリングして、潜在的な変異に対応する、複数の離散的な配列アセンブリを得ること、（ｃ）離散的な配列アセンブリのそれぞれを構成する配列リードを調べることによって、どの潜在的な変異が真であり、どれがアーティファクトであるかを決定すること、（ｄ）任意で、真の潜在的な変異のそれぞれが、参照配列と関連すると分かっている突然変異を含んでいるかどうかを決定すること、ならびに、（ｅ）サンプルが配列変異を含んでいるかどうかを示すレポートを出力することを含んでもよい。

また、ａ）配列のデータベースと、ｂ）本方法を実行するための実行可能なプログラムとを含むメモリを含むコンピュータシステムも提供される。

本方法を実行するための指示を含むコンピュータ可読記憶媒体もまた提供される。

変異配列を同定する方法もまた提供される。特定の実施形態において、本方法は、ａ）本方法を実行するための命令を含むプログラムを含むコンピュータシステムに配列情報を入力すること、ｂ）プログラムを実行すること、およびｃ）コンピュータシステムからの出力を受信することとを含んでもよい。

本教示のこれらおよび他の特徴を本明細書にて説明する。

当業者は、下記の図面が例示目的のみのものであることを理解するであろう。本図面は、決して本教示の範囲を限定することを目的としていない。

本方法の一実施形態を示すフローチャートである。本方法の他の実施形態を示すフローチャートである。

定義
特に定義しない限り、本明細書で用いるすべての技術的および科学的用語は、本開示の属する分野における当業者に一般的に理解されるものと同じ意味を有する。本明細書に記載されるのと類似のまたは同等のいかなる方法および材料も本教示の実施または試験に用いることができるが、いくつかの代表的な方法および材料をここで記述する。

本明細書で用いられる用語「増幅する」とは、ターゲット核酸を鋳型として使用してターゲット核酸の１以上のコピーを生成することを意味する。

本発明で使用する場合、用語「一塩基多型」または略して「ＳＮＰ」とは、集団において相当の頻度（例えば、少なくとも１％）で２つまたはそれ以上の代替対立遺伝子が存在する、ゲノム配列における単一のヌクレオチド位置を意味する。

ゲノムに関する用語「エンリッチする」とは、１以上のゲノム領域をゲノムの残りから分離して、ゲノムの残りから分離された生成物を生成することを意味する。エンリッチは、例えば非特許文献１および非特許文献２に記載されている方法を含む、種々の方法を用いて行ってもよい。

用語「エンリッチされたサンプル」とは、ゲノムの残りから分離されたゲノムＤＮＡ断片を含むサンプルを意味する。エンリッチされた断片は、用いる断片化方法に応じて任意の長さであることができる。特定の実施形態にて、断片は長さ１００ｂｐから１ｋｂ、例えば長さ２００ｂｐから５００ｂｐであってもよいが、この範囲外の断片を使用してもよい。断片化および／またはエンリッチをどのように行うかに応じて、任意の１つのエンリッチされた領域について断片分子の末端は同じであっても異なっていてもよい。

本明細書で用いられる用語「ゲノム領域」とは、ゲノム、例えば、ヒト、サル、ラット、魚もしくは昆虫または植物等の動物または植物のゲノムの領域を意味する。

「複数」は少なくとも２つの要素を含む。ある場合において、複数は、少なくとも１０、少なくとも１００、少なくとも１０００、少なくとも１０，０００、少なくとも１００，０００、少なくとも１０^６、少なくとも１０^７、少なくとも１０^８もしくは少なくとも１０^９またはそれ以上の要素を有してもよい。

本明細書で用いられる用語「シークエンシング」とは、ポリヌクレオチドの少なくとも１０の連続するヌクレオチドを同定（例えば、少なくとも２０、少なくとも５０、少なくとも１００もしくは少なくとも２００またはそれ以上の連続したヌクレオチドを同定）できる方法を意味する。

用語「次世代シークエンシング」とは、イルミナ株式会社、ライフテクノロジーズ社およびロシュ社等が現在採用している、いわゆる、並列的な合成によるシークエンシング(sequencing-by-synthesis)プラットフォームまたはライゲーションによるシークエンシング(sequencing-by-ligation)プラットフォームを意味する。次世代シークエンシング法はまた、ナノポアシークエンシング法または、ライフテクノロジーズ社によって実用化されたイオントレント技術などの電子検出に基づいた方法を含んでもよい。

用語「配列リード」とは、シークエンシングランの出力を意味する。配列リードは一列のヌクレオチドによって表される。配列リードには配列のクオリティについての評価基準が伴っていてもよい。例えば、配列リードの各ヌクレオチドは、ベースコールの信頼性、すなわち、そのヌクレオチドに対してヌクレオチドがＧ、Ａ、ＴまたはＣのいずれであるかの決定を伴ってもよい。

用語「配列変異」とは、少なくとも１つの位置で参照配列とは異なる核酸配列を意味する。配列変異の例としては、ＳＮＰおよび体細胞突然変異を含む配列が挙げられる。

用語「低頻度の配列変異」、「少数種」および「少数変異」とは、非変異タイプの配列に対してほんの１０％未満の頻度（例えば、５％未満または１％未満）でサンプル内に存在する変異配列を意味する。多くの場合、低頻度の配列を遺伝子内でのヌクレオチドの置換または挿入欠失によって表してもよく、非変異タイプの配列を同じ遺伝子の野生型対立遺伝子によって表してもよい。低頻度の配列変異は例えば、体細胞突然変異によって生じさせられる。

用語「参照配列」とは、公知である配列、例えば、候補配列と比較できる公衆または企業内データベースからの配列を意味する。

本発明で使用する場合、用語「アセンブリング」とは、長い核酸の断片を表す配列のアライメントを伴う多段階プロセスを意味する。特定の場合において、アセンブリングは、セグメントの配列を構成するために配列の融合を伴ってもよい。

本発明で使用する場合、用語「アンカー」とは、長い配列をアライメントするのに用いることができる、これら長い配列に存在する配列を意味する。特定の場合において、アンカーは長い配列を正確にアライメントするのに十分であってもよい。

本発明で使用する場合、用語「配列コンティグ」とは、重ね合わせた配列をアセンブリングすることによって生成されるヌクレオチドの連続配列を意味する。

本発明で使用する場合、用語「癌と関連する」とは、癌の表現型と関連する突然変異を含むゲノム領域、例えば、遺伝子を意味する。場合によっては、突然変異は癌の原因としての役割があると考えられている。

詳細な説明
種々の実施形態を記載する前に、本開示の教示は記載した特定の実施形態に限定されず、そのため、当然ながら変更できることが理解されるであろう。また、本教示の範囲は添付の請求の範囲によってのみ限定されるものであるため、本明細書で使用する用語は、特定の実施形態を説明する目的のためにすぎず、限定することを意図するものではないことが理解されるであろう。

本発明で用いられるセクションの見出しは、単なる構成目的にすぎず、決して主題を限定するものと解釈されるべきではない。本教示は種々の実施形態とともに記載されているが、本教示がこのような実施形態に限定されることを意図するものではない。むしろ、本教示は当業者には理解されるように、さまざまな代替、変更および等価物を包含する。

値の範囲が示されるところでは、その範囲の上限と下限の間で、その内容に別段の明確な指示がない限り、下限の単位の１０分の１までの各中間の値、および規定の範囲内における任意の他の規定のまたは中間の値が本開示に含まれることが理解される。

任意の文献の引用は、その出願日よりも前の開示に関するものであり、本発明が、先行する発明のためにそのような文献に先行する権利が無くなることを認めるものと解釈すべきではない。また、与えられる公開日は、独立して確認される必要のある実際の公開日とは異なっていることができる。

本明細書および添付の請求の範囲で使用する時、単数形「１つの(a)」、「１つの(an)」および「前記(the)」は別段の明確な指示がない限り、複数の指示対象を含むことに留意せねばならない。さらに、請求の範囲はいかなる任意の要素をも排除すべく書かれていることに留意されたい。そのため、この記述は、請求の範囲の要素の詳細説明または「否定的な」限定の使用に関連して「単独で(solely)」、「のみ(only)」等のような排除的用語を使用する先行詞としての役割を果たすことが意図されている。

本開示を読めば当業者には明らかなように、本明細書に記載され、示される個々の各実施形態は、本教示の範囲または趣旨から逸脱することなしに他のいくつかの実施形態の特徴のいずれかから容易に分離できるかまたは組み合わせられる、それぞれの構成要素および特徴を有する。任意の列挙された方法は、列挙された事象の順番で、または論理的に可能な任意の他の順番で実施することができる。

当業者は、本発明がその出願において、構成の詳細、構成要素の配置、カテゴリ選択、重み付け、所定のシグナル限界または本明細書もしくは図面に規定される工程に限定されないものであることを理解するであろう。本発明は他の実施形態が可能であり、また多くの異なる方法で実践または実施することができる。

上述したように、本方法は、特定のゲノム領域がエンリッチされたサンプル、すなわち、断片が断片化全ゲノムＤＮＡからエンリッチされた、特定のゲノム領域に対応するゲノムＤＮＡの断片を含むサンプルから取得された配列リードで行ってもよい。場合によっては、エンリッチされたゲノム領域は、１種以上の癌、例えば乳癌、黒色腫、腎癌、子宮内膜癌、卵巣癌、膵癌、白血病、大腸癌、前立腺癌、中皮腫、神経膠腫、髄芽腫(medullobastoma)、赤血球増加症、リンパ腫、肉腫または多発性骨髄腫等と関係した突然変異を有する遺伝子を含んでもよい（例えば、非特許文献３参照）。対象遺伝子としては、ＰＩＫ３ＣＡ、ＮＲＡＳ、ＫＲＡＳ、ＪＡＫ２、ＨＲＡＳ、ＦＧＦＲ３、ＦＧＦＲ１、ＥＧＦＲ、ＣＤＫ４、ＢＲＡＦ、ＲＥＴ、ＰＧＤＦＲＡ、ＫＩＴおよびＥＲＢＢ２が挙げられるが、これらに限定されない。特定の場合において、サンプルは、エンリッチされた複数の異なるゲノム領域（例えば、いくつかの異なる領域、例えば、少なくとも２、少なくとも５、少なくとも１０、少なくとも５０、少なくとも１００、または少なくとも１０００以上の異なる、重なり合っていない領域）に対応するゲノムＤＮＡの断片を含有してもよい。各領域は、遺伝子、例えば腫瘍遺伝子に対応してもよい。

エンリッチされたゲノム領域は、任意の便利な方法を用いて、例えばオリゴヌクレオチドプローブにハイブリダイゼーションを用いて、またはライゲーションを基にした方法を用いて、初期ゲノムサンプルからエンリッチされてもよい。いくつかの実施形態では、対象領域をキャプチャするために、ゲノム領域は、溶液中で２０〜２００ｎｔの長さ、例えば１００〜１５０ｎｔの長さであってもよい、１以上のビオチニル化オリゴヌクレオチド（特定の場合において、ＲＮＡオリゴヌクレオチドであってもよい）にハイブリダイゼーションしてエンリッチされてもよい。これらの実施形態において、キャプチャ後、オリゴヌクレオチドにハイブリダイズするゲノムＤＮＡの断片を含有する二本鎖を、例えば、ストレプトアビジンビーズを用いて他の断片から分離してもよい。他の実施形態では、対象領域を、非特許文献４によって記述された方法を用いてエンリッチしてもよい。本方法では、ゲノムサンプルを１以上の制限酵素を用いて断片化して変性させてもよい。本方法では、プローブライブラリをターゲット断片にハイブリダイズする。各プローブは、ターゲットＤＮＡ制限断片の両末端にハイブリダイズし、これによりターゲット断片がガイドされて環状ＤＮＡ分子を形成するように設計されたオリゴヌクレオチドである。プローブはまた、環状化中に組み込まれる方法特異的なシークエンシングモチーフを含む。場合によっては、プローブはビオチニル化され、ターゲット断片はストレプトアビジンビーズを使用して回収される。次いで、環状分子はライゲーション、すなわち、完全にハイブリダイズされた断片のみが確実に環状化される非常に明確な反応によって閉じられる。次に、環状ＤＮＡターゲットを増幅する。他のエンリッチメント技術は、例えば非特許文献１および非特許文献２に記載されていてもよい。

ゲノムＤＮＡは任意の生命体から分離されてもよい。生命体は原核生物または真核生物であってもよい。特定の場合において、生命体は、植物、例えば、シロイヌナズナもしくはトウモロコシ、または爬虫類、哺乳類、鳥類、魚類および両生類を含む動物であってもよい。場合によっては、初期ゲノムサンプルはヒトまたはマウスもしくはラット等の齧歯類から分離されてもよい。例示的な実施形態において、初期ゲノムサンプルは、ヒト、マウス、ラットまたはサル細胞等の哺乳類細胞からのゲノムＤＮＡを含有してよい。非特許文献５および非特許文献６に記載されている方法のような、解析のためのゲノムＤＮＡの作製方法は当該技術分野において常用されており、公知である。初期ゲノムサンプルは、ゲノムＤＮＡまたはその増幅されたバージョン（例えば、非特許文献７、非特許文献８または公開済み特許文献１の方法を用いて全ゲノム増幅方法によって増幅されたゲノムＤＮＡ）を含有してもよい。断片は、物理的方法（例えば、音波処理、噴霧もしくはせん断）を用いて、化学的に、酵素的に（例えば、レアカット制限酵素を用いて）または転移因子を用いて（例えば、非特許文献９；非特許文献１０；非特許文献１１および特許文献２参照）、ゲノムを断片化することによって作製されてもよい。

サンプルは、培養した細胞または臨床検体の細胞、例えば、組織生検、スクレープもしくは洗浄または法医学的サンプルの細胞（すなわち、犯行現場から採取したサンプルの細胞）から作製してもよい。特定の実施形態では、核酸サンプルは、細胞、組織、体液および便等の生体サンプルから得られてもよい。対象の体液としては、血液、血清、血漿、唾液、粘液、痰、脳脊髄液、胸水、涙、乳糜管液、リンパ液、痰、脳脊髄液、滑液、尿、羊水および精液が挙げられるが、これらに限定されない。特定の実施形態では、サンプルは、対象、例えばヒトから取得されてもよく、本方法での使用前に処理してもよい。例えば、公知の方法にて使用前に核酸をサンプルから抽出してもよい。特定の実施形態では、ゲノムサンプルは、ホルマリン固定パラフィン包理(FFPE)サンプルのものであってもよい。

どの方法を実施するかに応じて、初期サンプル（すなわち、エンリッチメント前）は、既にアダプターライゲーションしたゲノムＤＮＡの断片を含有してよい。他の実施形態では、断片は、エンリッチされた後でアダプターにライゲーションしてもよい。

場合によっては、サンプルをプールしてもよい。これらの実施形態では、断片は、その供給源を示すために分子バーコードを有してもよい。いくつかの実施形態において、解析されるＤＮＡは単一の供給源（例えば、単一の生命体、ウイルス、組織、細胞、対象等）由来であってもよく、これに対して、他の実施形態においては、核酸サンプルは、複数供給源から抽出された核酸のプール（例えば、複数の生命体、組織、細胞、対象等からの核酸のプール）であってもよく、ここで「複数」とは２以上を意味する。そのため、特定の実施形態にて、サンプルは２以上の供給源、３以上の供給源、５以上の供給源、１０以上の供給源、５０以上の供給源、１００以上の供給源、５００以上の供給源、１０００以上の供給源、５０００以上の供給源から最大約１０，０００の供給源、および約１０，０００以上の供給源からの核酸を含有できる。分子バーコードは、異なる供給源からの配列を、解析後に区別されるようにしてもよい。

エンリッチされたサンプルが得られた後、サンプルは増幅およびシークエンシングされる。特定の実施形態にて、断片は、例えばイルミナ社の可逆性ターミネータ法、ロシュ社のパイロシークエンシング法（４５４）、ライフテクノロジーズ社のライゲーションによるシークエンシング（ＳＯＬｉＤプラットフォーム）またはライフテクノロジーズ社のイオントレントプラットフォームでの使用に適合するプライマーを用いて増幅される。このような方法の例は以下の参考文献に記載される：非特許文献１２；非特許文献１３；非特許文献１４；非特許文献１５；非特許文献１６；非特許文献１７および非特許文献１８。これらは、それぞれのステップの開始生成物、試薬および最終生成物を含めた本方法および本方法の特定のステップの一般的な記述のために参考として援用される。

一実施形態では、分離した生成物をナノポアシークエンシング（例えば、非特許文献１９に記載されるような、またはオックスフォードナノポアテクノロジーズ社によって記述されるような）を用いてシークエンシングしてもよい。ナノポアシークエンシングは、ＤＮＡの単一の分子をナノポアを通過させて直接シークエンシングする、単一分子シークエンシング技術である。ナノポアとは、直径が１ナノメートル程度の小さな穴である。ナノポアを導電性流体に浸漬し、電位（電圧）をそこに印加することにより、ナノポアを通るイオン伝導によってわずかな電流が生じる。流れる電流量はナノポアのサイズおよび形状に左右される。ＤＮＡ分子がナノポアを通過する際、ＤＮＡ分子の各ヌクレオチドが異なる程度でナノポアを塞ぎ、ナノポアを通過する電流の大きさが異なる程度で変化する。したがって、このＤＮＡ分子がナノポアを通過する際の電流の変化が、ＤＮＡ配列の読み取りを表す。ナノポアシークエンシング技術は特許文献３、特許文献４、特許文献５、特許文献６および特許文献７ならびに特許文献８および特許文献９に開示される。

いくつかの実施形態では、エンリッチされた領域それぞれについて、シークエンシングにより、少なくとも１００、少なくとも１，０００、少なくとも１０，０００から１００，０００まで、またはそれ以上の配列リードを生成してもよい。配列リード長は、例えば使用するプラットフォームに応じて大きく変化してもよい。いくつかの実施形態では、配列リード長は、３０〜８００塩基の範囲にあってもよく、場合によっては、ペアエンドリードを含んでもよい。

種々の異なる方法を用いて、それぞれが潜在的な変異に対応する複数の離散的な配列アセンブリを得るために配列リードをアセンブリングすることができる。配列リードは、これらすべてが方法の開示のために参考として援用される、非特許文献２０、非特許文献２１、非特許文献２２および非特許文献２３等の種々の刊行物にその基本ステップが記載される任意の好適な方法を用いてアセンブリングしてもよい。いくつかの実施形態では、エンリッチされた領域それぞれに対して、配列リードをアセンブリングして、特定の位置にてヌクレオチド変異（例えば、置換、挿入または欠失）を有する配列リードを同定するために調べられる単一のパイルアップを生成することができる。次いで、ヌクレオチド変異を特定のヌクレオチド位置にて有する配列リードを、離散的な配列アセンブリとしてリアセンブリングすることができる。他の実施形態では、配列を高い厳密性をもって、すなわち、同じ変異を有する配列リードが配列を互いに群にならしめるやり方で、アセンブリングしてもよい。さらに他の実施形態では、配列リードを、参照ゲノム等の参照配列に各リードをアライメントすることでアセンブリングできる。特定の場合において、配列リードから得られた少なくとも１つのアセンブリングされた配列は参照配列にアライメントする。

場合によっては、また以下でさらに詳細に記載するように、グラフ理論を用いてリードをアセンブリングする。特定の場合において、配列リードのアセンブリングはｄｅＢｒｕｉｊｎグラフ等の有向グラフの作成を含んでもよい。例えば、配列リードのｄｅＢｒｕｉｊｎグラフ構成には、配列リードから、ターゲット領域のリード内の長さｋの部分配列も含め、重複するｋ−ｍｅｒを集めること、各ｋ−ｍｅｒを２つの重複する（ｋ−１）−ｍｅｒに分割すること、およびグラフの頂点またはノードを各（ｋ−１）−ｍｅｒに割り当て、またグラフ内の２つのノードを接続するエッジをｋ−ｍｅｒに割り当てることとを伴ってよい。したがって、各配列リードはグラフ内でｋ−ｍｅｒが通る経路として表され、潜在的な配列コンティグはグラフ内でｋ−ｍｅｒが通る複数の経路を結合することで表されてもよい。リードのアセンブリングのためのｄｅ−Ｂｒｕｉｊｎグラフの使用については、本明細書に参考として援用される特許文献１０、特許文献１１、特許文献１２および特許文献１３に記載されている。

特定の場合において、有向グラフは有向重み付きグラフであってもよい。特定の態様では、有向重み付きグラフは同じ長さのｋ−ｍｅｒを用いて構成される。特定の実施形態にて、ノードでの潜在的配列を構成するのにどのエッジを選択するかは、特定のノードまたはこのノードに接続しているエッジのリードカバレッジの関数であるカットオフ値を用いずに選択される。

潜在的配列は、オイラーパスによる有向重み付きグラフで表される。したがって、配列リードのアセンブリングはさらに、配列リードから構成された有向重み付きグラフを通してオイラーパスを見つけることを伴ってもよい。有向重み付きグラフを通してオイラーパスを見つけることは、禁止文字列を有する言語において最小ｄｅ−Ｂｒｕｉｊｎ配列（すなわち、所定のアルファベットＡの長さｎのあらゆる可能な部分配列が、連続する文字配列としてちょうど１回現れる、サイズがｋのＡの周期性配列）を見つけることを含んでもよい。例えば、非特許文献２４を参照のこと。かかる場合、最小ｄｅ−Ｂｒｕｉｊｎ配列は、ＢＥＳＴ（ｄｅＢｒｕｉｊｎ、Ｅｈｒｅｎｆｅｓｔ、ＳｍｉｔｈおよびＴｕｔｔｅ）定理を用いて有向重み付きグラフの全域部分グラフによって、または木によって定義されてもよい（有向グラフにおけるオイラー回路の数に対する積公式を提供し、またオイラー回路の数を、所定の頂点の根付き全域木の数に関連づける）。有向グラフの全域木の決定は任意の便利な方法によって行われてもよい（例えば非特許文献２５参照）。重み付き有向グラフを、禁止語を有するｄｅＢｒｕｉｊｎ配列として表すことは、グラフ内で可能な語の最大数の概算につながり、そして有向グラフの情報エントロピーを反映する。このエントロピー限界は有向グラフの遷移行列の固有値の限界でもある。情報エントロピーの限界は配列リードから構成された有向グラフによって定義されるため、シークエンシングリードのセットがあるとして、参照または他の潜在的な変異由来であることができない任意の潜在的な変異配列は、情報エントロピー限界を超えることなしに（すなわち、潜在的な変異と他の変異または参照との間の遷移行列の固有値が、上記で確立された限界を超える場合）、不要となる。

特定の場合において、配列リードは参照配列にアンカーされてもよいが、これは下記にてさらに詳しく論じる。いくつかの実施形態では、配列アセンブリ方法は、配列リードのそれぞれにおいて、シークエンシングの信頼性が高いと思われる領域の境界を定めることを含み、また各々のアセンブリは参照配列および参照配列に固有の配列を用いてアンカーされてもよい。

本方法において、配列アセンブリステップによって、各アセンブリが潜在的な変異に対応する複数の離散的アセンブリがもたらされる。潜在的な変異はそれぞれ、配列リードにて発見される配列変異によって定義される。そのため、離散的アセンブリの候補配列はすべて同じ変異を有する。任意の１つのエンリッチされた領域は、少なくとも２、少なくとも５、少なくとも１０、少なくとも１５、少なくとも２０、少なくとも３０、少なくとも５０、少なくとも１００またはそれ以上の離散的アセンブリによって表されてもよい。各アセンブリの配列リードの数は大きく可変であってもよい。いくつかの場合において、配列リードの大部分が、サンプルの優勢変異を表す１つまたは２つのアセンブリにアセンブリングしてもよい（ゲノムＤＮＡの元々の入手元であるサンプルが、エンリッチされた領域において、生殖系列の違い、例えばＳＮＰについてホモ接合であるかヘテロ接合であるかに応じて）。残りのアセンブリは低頻度の変異配列（例えば、体細胞変異した細胞由来の配列）に対応してもよく、ＰＣＲエラーに由来してもよく、および／またはミスコールされたベースを含んでいてもよい。特定の場合において、これらのアセンブリは、変異を含んだより少ない配列リード（例えば、取得される配列リードの合計数に応じて、１０〜１，０００以上）によって表されてもよい。

本方法の次のステップにて、離散的アセンブリがスクリーニングされて、どの潜在的な変異が「真」であるか（すなわち、サンプル内の分子に配列を正しく提供しており、シークエンシング反応またはデータ処理のエラー、例えばベースミスコールの結果ではない）、またどの候補分子がアーティファクトであるか（すなわち、シークエンシング反応またはデータ処理のエラー、例えばベースミスコールの結果であり、サンプルの分子の実際の配列ではない）を決定する。このステップは、離散的な配列アセンブリのそれぞれをつくりあげている配列リードを調べることによって行われてもよい。いくつかの実施形態では、このステップは、リードクオリティ、ベースコールの信頼性およびアライメントの信頼性（すなわち、配列が正しい位置にマップされたかどうか）を含む、種々のパラメータを調べることによって行ってもよい。不十分に定義された候補分子（すなわち、不良な配列リードによって定義された候補分子、配列変異が信頼性の低いベースコールで表される候補分子等）は取り消すことができ、配列を他のアライメントとマージすることができる。特定の実施形態にて、シークエンシングリードのセットがあるとして、各潜在的な変異の尤度は、隠れマルコフモデルを用いて割り当てられる。いくつかの実施形態では、このステップは、配列のクオリティ、リードの数、ベースコールのクオリティおよびその参照配列へのマッチを調べ、潜在的な変異のそれぞれのスコアを提供することを含んでもよい。

真の潜在的な変異が同定されると、潜在的な変異により定義された突然変異は任意で、参照配列に対して周知の突然変異と比較することができる。ここで参照配列とは公衆の、または企業内データベースの配列である。特定の実施形態にて、該比較は、真の潜在的な変異のそれぞれが、参照配列と関係していることが知られている突然変異を含んでいるかどうかを決定することを伴ってもよい。例えば、数百の遺伝子における数千の癌関連突然変異の同一性は、サンガー・センターのＣＯＳＭＩＣデータベースにて見つけられる（非特許文献２６もまた参照のこと）。例えば、エンリッチされた配列がＫＲＡＳ遺伝子の配列を含む場合、真の変異を解析して、その後、該配列のどれが、３５Ｇ＞Ａ、３５Ｇ＞Ｔ、３８Ｇ＞Ａ、３４Ｇ＞Ｔ、３５Ｇ＞Ｃ、３４Ｇ＞Ａ、３４Ｇ＞Ｃ、３７Ｇ＞Ｔ、１８３Ａ＞Ｃ、３７Ｇ＞Ａ、１８２Ａ＞Ｔ、１８３Ａ＞Ｔ、４３６Ｇ＞Ａ、３７Ｇ＞Ｃ、Ｉ８２Ａ＞Ｇ、３４＿３５ＧＧ＞ＴＴ、３８Ｇ＞Ｃ、１８１Ｃ＞Ａ、３８＿３９ＧＣ＞ＡＴまたは３８Ｇ＞Ｔのうちどの突然変異を有するかを決定する。これらの変異は、白血病、結腸直腸癌（非特許文献２７）、膵癌（非特許文献２８）および肺癌（非特許文献２９）高頻度で見られる。同様に、エンリッチされた配列がＮＲＡＳ遺伝子の配列を含む場合、真の候補分子を解析して、該配列のいずれかが、１８２Ａ＞Ｇ、１８１Ｃ＞Ａ、３５Ｇ＞Ａ、１８２Ａ＞Ｔ、３８Ｇ＞Ａ、３４Ｇ＞Ａ、３７Ｇ＞Ｃまたは１８４９Ｇ＞Ｔの突然変異のうちいずれかをＮＲＡＳ内に有するかを決定する。

特定の実施形態にて、本方法は、ゲノム領域の各対が対象のゲノム領域（例えば、癌関連遺伝子）および対象のゲノム領域に隣接する（また、場合によっては重なっている）領域から構成されている１対以上のゲノム領域のエンリッチを伴ってもよい。これらの実施形態において、このペアは増幅前に、個別におよび組み合わせてエンリッチされてもよい。各対の配列リードは一緒に解析されてもよい。第２のゲノム領域のリードにより、より長い長さにわたって統計を平均することが可能になり、これによってより良い結果がもたらされる。場合によっては、隣接した領域の配列リードは、例えばどんな標本抽出バイアスにも対応できるように結果を調節するために使用することができる。

本方法はサンプルが特定の配列変異を含んでいるかどうかを示すレポートを出力することを含んでもよい。このレポートは、サンプルが突然変異を含むかどうかの指標、ならびに参照配列および突然変異についての利用可能な公的情報を含んでもよい。場合によっては、レポートは、突然変異がサンプル内にあることの信頼性を示してもよい。

上述した方法を採用して、症状を特徴付ける、症状を分類する、症状を区別する、症状に等級を付ける、症状に段階を付ける、症状を診断するもしくは症状を予測してもよく、または治療に対する反応を予測してもよい。特定の場合において、本方法を用いて、癌の症状または、白血病、乳癌、前立腺癌、アルツハイマー病、パーキンソン病、てんかん、筋萎縮性側索硬化症、多発性硬化症、脳卒中、自閉症、精神遅延、および発達障害が挙げられるがこれらに限定されない、他の哺乳類の疾患を調査してもよい。多くのヌクレオチドの多型は、これらの病気を引き起こす要因と関連しており、またこの要因であると考えられている。ヌクレオチドの多型の種類および位置を知ることは、種々の哺乳類の疾患の診断、予測および理解の大いなる助けとなるだろう。加えて、本明細書に記載されるアッセイ条件は、例えば、感染症の検出、ウイルス量モニタリング、ウイルス遺伝子型決定、環境試験、食品試験、法医学、疫学および特定の核酸配列検出が使用される他の領域を含む、他の核酸検出用途にて採用される。

いくつかの実施形態では、生体サンプル、例えば生検は、患者から得てもよく、このサンプルは本方法を用いて解析してもよい。特定の実施形態では、本方法を採用して、ゲノム遺伝子座の野生型コピーおよび、ゲノム遺伝子座の野生型コピーに対して点突然変異を有するゲノム遺伝子座の突然変異コピーの両方を含む生体サンプル内の、ゲノム遺伝子座の突然変異コピーの量を同定および／または評価してもよい。この例においては、サンプルは、ゲノム遺伝子座の突然変異コピーの、少なくとも１００倍（例えば、少なくとも１，０００倍、少なくとも５，０００倍、少なくとも１０，０００倍、少なくとも５０，０００倍、または少なくとも１００，０００倍）のゲノム遺伝子座の野生型コピーを含んでもよい。

これらの実施形態において、本方法を採用して、乳癌、黒色腫、腎癌、子宮内膜癌、卵巣癌、膵癌、白血病、結腸直腸癌、前立腺癌、中皮腫、神経膠腫、髄芽腫、赤血球増加症、リンパ腫、肉腫または多発性骨髄腫と関連してもよい発癌性突然変異（体細胞突然変異であってもよい）、例えば、ＰＩＫ３ＣＡ、ＮＲＡＳ、ＫＲＡＳ、ＪＡＫ２、ＨＲＡＳ、ＦＧＦＲ３、ＦＧＦＲ１、ＥＧＦＲ、ＣＤＫ４、ＢＲＡＦ、ＲＥＴ、ＰＧＤＦＲＡ、ＫＩＴまたはＥＲＢＢ２を検出してもよい（例えば、非特許文献３参照）。

ゲノム遺伝子座の点突然変異は癌と直接的な関連があってもよいため、本主題の方法を単独で、または他の臨床的技法（例えば、結腸鏡検査またはマンモグラム等の理学的検査）もしくは分子技術（例えば、免疫組織化学解析）を組み合わせて採用して、癌または前癌症状（例えば、腺腫等）の患者を診断してもよい。例えば、対象のアッセイから得られた結果は、他の情報、例えば、他の遺伝子座のメチル化状態に関する情報、同じ遺伝子座内のまたは異なる遺伝子座での再配列または置換に関する情報、細胞遺伝学的情報、再構成に関する情報、遺伝子発現情報またはテロメアの長さについての情報と組み合わせられて、癌または他の疾患の全体的診断を行ってもよい。

一実施形態では、サンプルは第１の場所、例えば病院内または医師のオフィス等の臨床現場で患者から採取されてよく、該サンプルは第２の場所、例えば研究所に送られてよく、この第２の場所にてサンプルが処理され、上述の方法が行われてレポートを作成する。本明細書に記載される「レポート」とは、電子または有形の文書であり、これはサンプル内のゲノム遺伝子座の突然変異コピーの存在を示すＣｔ値またはＣｐ値等を含んでよい試験結果を提供するレポート要素を含む。レポートが作成されると他の場所（第１の場所と同じ場所であってもよい）へ転送されて、そこで臨床的診断の一部として医療従事者（例えば、臨床医、検査技師、または腫瘍専門医、外科医、病理医等の医師）によってレポートが解釈されてよい。

本方法の一実施例を図１および図２のフローチャートに記載する。第１のフローには本方法の全体的な設定、例えば全体のワークフローが記載される。第２のフローには本方法それ自体のフローが記載される。本方法の各構成要素を次に詳述する。以下に記述される本方法はステップＢ３の実施態様であり、ステップＢ４ならびにステップＣのパート６および７に関連する。一実施態様において、本方法はＢ３、すなわち、一塩基多型ならびに挿入および欠失の双方の変異の同定に関する。本発明のフローは図２に記載され詳述される。

ステップ１において、設計情報を収集し、これを使用して対象となる領域をアノテーションする。設計情報は以下の方法にて用いられる：対象の領域を分画して、ベイトが置かれるサブ領域を対象の領域内で特定する。シークエンシングが確実であることができる領域を取得して、マーキングする。所望により、対象の領域の両末端に指定した数の塩基を該領域に含ませるようにして、リードのオフターゲットマッチを評価し、また後続のステップのための参照アンカーポイントを指示することができる。典型的な参照配列（単数または複数）を鋳型として取得する。所与の領域内の任意の既知の変異についての情報を含みたい場合、指定した領域内でこのような変異もマーキングする。計算資源の効率的使用のためにＪａｖａ（登録商標）７Ｆｏｒｋ−ＪｏｉｎＦｒａｍｅｗｏｒｋを使用して、重複していない領域のそれぞれを同時に構成し、解析する（後続のステップにて）。このステップでは、「領域」とは単なるゲノム鋳型であり、所望に応じて、また必要に応じてデータをロードする。第２のステップにおいて、高い信頼性をもってこのような領域で構成できる分子配列の関連する、あらゆる代替的伸長を見つけようと試みる。第１の候補参照配列（単数または複数）が供給された参照配列から読み込まれる。本方法では、参照と完全に同一である少なくとも１つの分子表示が得られると仮定する。そのような表示が２つ以上得られる場合、すべてを構成して以下のように評価する。次いで、あらゆる代替的表示を構成する。これはターゲット領域のリードを局部的にリアセンブリングすることによって行う。このリアセンブリングについて、本出願人らは象徴的な配列の理論(symbolic sequences theory)による多数の結果を用い、これにより候補分子配列の最適化および素早い決定がもたらされる。まず、有向重み付きグラフを重複するｋ−ｍｅｒから構成する。任意の候補分子がオイラーパス（すなわち、エッジのそれぞれを通る、または換言すると、エッジ横断が完了している）としてこのグラフ内に表されねばならない。「見逃された」または「シークエンシングされていない」領域は、参照と同一のものであるとみなされ、利用可能であればペアエンドランの両方のメイトを利用する。ペアのうち１つだけを高い信頼性をもってマップする場合、本方法ではマップされていないリードをすべて見て、局所的なリアライメントが黙示的に行われるように、ｋ−ｍｅｒを利用して候補表示を構成することを試みる。

これを効率的に行うには、理論上の結果を用いる。候補となる解を見つけるという課題を認識することは、禁止文字列を有する言語において最小ｄｅ−Ｂｒｕｉｊｎ配列を見つけることと同等であり、特定の長さの「語」の数を情報エントロピーの評価に関連づける限界があることに留意されたい。このエントロピー限界は異なるｋ−ｍｅｒ間の遷移を特定する伝達行列の最大固有値（すなわち、最大固有値は情報の自然対数）の限界でもある。したがって、種々の候補を表すグラフを構成する間、所定の長さの許容された語の数のカウントを考慮することができる。場合によっては、禁止語（生じてはならない語）の数のカウントを考慮してもよく、これによって可能な語の合計数と共に所望の情報が与えられる。禁止語は、グラフそれ自体を構成しながら容易に見つけることができる。最大固有値の限界を用いて次のステップの尤度計算を高速度化できる。

使用される第２の結果は、ＢＥＳＴ定理、すなわちｄｅＢｒｕｉｊｎ、Ｅｈｒｅｎｆｅｓｔ、ＳｍｉｔｈおよびＴｕｔｔｅの定理に頼ったものである。この定理は可能なオイラーパスをグラフの全域木の数と関連付ける。本出願人らの目的はオイラーパスの構成であるため、この定理によりこの問題を、全域木を見つける問題へと変換するが、これは利用可能な迅速な解決策とともに周知の問題である。ヴィシュキンの公式化(Vishkin’s formulation)を用いて全域木を見つけることができる。

グラフは不均衡であることができるため、上記の結果は、計算を大幅に高速度化したものの、重複してマッチしたリードまたは構造変異およびコピー数多型が多くなる状況では特に、いくつかのパスが見逃されることがある。このようなコーナーケースを防ぐために、入る重みと出てくる重みが平均と顕著に異なるパスをカウントする。そのようなパスが発見された場合、このようなパスに表示されるｋ−ｍｅｒの部分配列についてオイラーパスを徹底調査する。

候補分子表示が見つかった後、マルコフモデルを用いて尤度をそれぞれに割り当てる。このときリード（ペア）を見て、所与のデータからどの候補分子がもっともそれらしいか評価する。この評価に用いられるリードはまず、マッピングクオリティについての指定フィルタリング基準によってフィルタリングされる。候補間の遷移は、伝達行列として表され、該領域のリードデータに基づいて遷移を最適化する。この間に、上述の固有値限界を用いて、限界と一致しない解をもたらすであろうどの反復をも迅速に終了させる。出力確率および遷移確率は、この高速化を除いた標準ビタビ反復によって決定される。指定数の最も高スコアの候補を調べることができる。

このステップの後、候補解中に存在する種々の対立遺伝子を調査して変異コールを行える。リード末端に近接しすぎている（「近接」はパラメータによって定義される）塩基に支えられていると分かった対立遺伝子はフィルタリングで除外する。また、変異候補がアンプリコン断片の末端にあり、遺伝子座をカバーするアンプリコンが１つだけであれば、この変異候補をフィルタリングで除外する。２つ以上のアンプリコンがこの遺伝子座を支持する場合、このような候補は２つ以上のアンプリコンによって支持される場合のみとっておく。

それぞれの変異のスコアをつける。換言すれば、一組のリード｛Ｒ｝および一組の遺伝子型｛Ｇ｝があるとすると、本出願人らはＰ（｛Ｇ｝｜｛Ｒ｝）を見つけたい。このためには、ベイズの定理を用いて、すなわち、Ｐ（｛Ｒ｝｜｛Ｇ｝）およびＰ（｛Ｇ｝）を得て、これらを組み合わせて所望の結果を得る。

すなわち、基礎となる遺伝子型があるとして、リードのセットを得る確率は、基礎となる遺伝子型の観測結果のセットから標本抽出する確率に比例しているが、本出願人らのリードが正しいという確率で調整される。積Ｐ（ｂ’｜ｂ）の下の項は、所定の遺伝子座での所定の代替コールが正しい確率である。所定のリードにおける塩基のクオリティにより、そのリードにおける特定の塩基が正しく、かつ不完全にマッピングしたリードを本出願人らが除外した確率が与えられるため、対立遺伝子のクオリティは、塩基の中間クオリティおよび中間マッピングクオリティの最小値であると仮定する。所望により、この評価に塩基対立遺伝子クオリティ（ＢＡＱ）を用いることができる。ｂε｛Ｇ｝であればＰ（ｂ’｜ｂ）は１−ｑであり、ｂε｛Ｇ｝以外の場合はＰ（ｂ’｜ｂ）はｑである。

候補分子尤度によるＰ（｛Ｇ｝）（Ｇ１．．．Ｇｎを見る可能性である）がすでに得られた。遺伝子座で変異をコールするには、候補領域に２つ以上の対立遺伝子があり、Ｐ（｛Ｇ（ｉ）｝｜｛Ｒ（ｉ）｝）が顕著である部位を見ていきたい。すでに参照と異なる種々の候補の確率は分かっているため、したがって
Ｐ（Ｋ＞１｜Ｒ１，．．．，Ｒｎ）＝１−Ｐ（Ｋ＝１｜Ｒ１，．．．，Ｒｎ）
によって変異コールの確率を得る。

本方法は、ターゲットエンリッチメントパネルの高速で正確かつ使用が簡単な解析ツールを探している臨床研究者に使用されてもよい。このソフトウェアによって、エンド・ツー・エンドデータ解析の解決策、すなわちアライメントから変異の分類まで提供できることにより、結果を得るまでの時間を数日間から数時間へと減少させる。本方法は、試験サンプルの大半に対する誤判定率に影響を及ぼすことなく突然変異のコールにおける検出漏れ率がはるかに低く、本方法によって、複数の対立遺伝子が関与する複雑な場合においても低頻度の対立遺伝子を有する変異を検出することができると同時に、誤判定率を顕著に増加させず、また低頻度の変異の検出時においては、効率および速度が顕著に衰えないため、従来のアルゴリズムよりも有利である。

上述した方法はコンピュータ上で実施できる。特定の実施形態にて、汎用コンピュータを本明細書に開示される方法およびプログラムのための機能的な構造に構成することができる。このようなコンピュータのハードウェアアーキテクチャは当業者に公知であり、１つ以上のプロセッサ（ＣＰＵ）、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、内部または外部データ記憶媒体（例えば、ハードディスクドライブ）を含むハードウェアコンポーネントを含むことができる。コンピュータシステムは、表示手段にグラフィック情報を処理および出力するためのグラフィックボードを１つ以上含むこともできる。上記コンポーネントはコンピュータ内のバスにより適切に相互接続できる。コンピュータはさらに、モニタ、キーボード、マウス、ネットワーク等の汎用外部コンポーネントと通信するための好適なインタフェースを含む。いくつかの実施形態では、本方法およびプログラムのために処理能力を増加させるために、コンピュータは並列処理ができるか、または並列計算もしくは分散計算のために構成されるネットワークの一部であることができる。いくつかの実施形態において、記憶媒体から読み取られたプログラムコードを、コンピュータに内蔵されている拡張ボード、またはコンピュータに接続されている拡張ユニット内に備えられたメモリ内に書き込むことができ、拡張ボードまたは拡張ユニット内に備えられたＣＰＵ等により、下記の機能を達成するためにプログラムコードの命令に従って実際に演算の一部またはすべてを行える。他の実施形態では、本方法はクラウドコンピューティングシステムを用いて実施できる。これらの実施形態において、データファイルおよびプログラミングをクラウドコンピュータにエクスポートでき、クラウドコンピュータはプログラムを実行して、ユーザに出力を返す。

システムは、特定の実施形態において、ａ）中央演算処理装置、ｂ）ソフトウェアおよびデータを記憶するための、記憶ドライブがディスクコントローラによって制御される１つ以上のハードライブを含むことができる、主要不揮発性記憶ドライブ、ｃ）不揮発性記憶ドライブからロードされるプログラムおよびデータを含む、システムコントロールプログラム、データおよびアプリケーションプログラムを記憶するための、システムメモリ、例えば、高速ランダムアクセスメモリ（ＲＡＭ）（システムメモリには読み取り専用メモリ（ＲＯＭ）を含むことができる）、ｄ）マウス、キーパッドおよびディスプレイ等の１つ以上の入力および出力デバイスを含むユーザーインターフェース、ｅ）任意の有線または無線通信ネットワーク、例えばプリンタに接続するための、任意のネットワークインタフェースカード、ならびにｆ）システムの上述の要素と相互接続するための内部バスを含むコンピュータを含む。

コンピュータシステムのメモリは、プロセッサによる検索のために情報を記憶できる任意のデバイスであり、また磁気もしくは光学デバイスまたはソリッドステートメモリデバイス（揮発性または不揮発性ＲＡＭ等）を含むことができる。メモリまたはメモリユニットは、同じまたは異なる種類の、２つ以上の物理メモリデバイスを有することができる（例えば、メモリは、複数のドライブ、カード等の複数のメモリデバイスもしくは複数のソリッドステートメモリデバイスまたはこれらのいくつかの組み合わせを有することができる）。コンピュータ可読媒体に関して、「永久メモリ」とは永続性のメモリを意味する。永久メモリはコンピュータまたはプロセッサへの電力供給が停止しても消えない。コンピュータハードドライブＲＯＭ（すなわち、バーチャルメモリとして使用されないＲＯＭ）、ＣＤ−ＲＯＭ、フロッピー（登録商標）ディスクおよびＤＶＤはすべて永久メモリの例である。ランダムアクセスメモリ（ＲＡＭ）は非永久（すなわち、揮発性）メモリの例である。永久メモリ内のファイルは編集可能かつ書換え可能であることができる。

コンピュータの演算は、主としてオペレーティング・システムによって制御されるが、これは中央演算処理装置によって実行される。オペレーティング・システムはシステムメモリ内に記憶することができる。いくつかの実施形態では、オペレーティング・システムはファイルシステムを含む。オペレーティング・システムに加えて、システムメモリの可能な一実施態様には、以下に記述される方法を実施するための種々のプログラミングファイルおよびデータファイルを含む。特定の場合において、プログラミングは、種々のモジュールから構成できるプログラムおよび、プログラムへの入力またはプログラムに使用されるパラメータをユーザに手動で選択または変更させられるユーザインタフェースモジュールを含むことができる。データファイルはプログラムのための種々の入力を含むことができる。

特定の実施形態にて、本明細書に記載される方法による命令を、「プログラミング」の形態でコンピュータ可読媒体にコードすることができる。ここで本明細書において用いられる用語「コンピュータ可読媒体」は、実行および／または処理のためのコンピュータへの命令および／またはデータの提供に関与する任意の記憶媒体または伝達媒体を意味する。記憶媒体の例には、このようなデバイスがコンピュータの内部または外部であろうとなかろうと、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性メモリカード、ＲＯＭ、ＤＶＤ−ＲＯＭ、ブルーレイディスク、ソリッドステートディスク、およびネットワークアタッチトストレージ（ＮＡＳ）を含む。情報を含むファイルは、コンピュータ可読媒体に「保存」することができ、ここで「保存する」とは、情報がコンピュータによって後日アクセス可能で検索可能であるように情報を記憶することを意味する。

本明細書に記載されるコンピュータで実施される方法は、１以上の任意数のコンピュータプログラミング言語で書き込むことができるプログラムを用いて実行できる。このような言語には、例えば、Ｊａｖａ（登録商標）（サン・マイクロシステムズ社、カリフォルニア州サンタクララ）、ＶｉｓｕａｌＢａｓｉｃ（マイクロソフト社、ワシントン州レドモンド）およびＣ＋＋（ＡＴ＆Ｔ社、ニュージャージー州ベッドミンスター）ならびに任意の多数の多言語を含む。

任意の実施形態において、データを「遠隔地」に転送できるが、ここで「遠隔地」とはプログラムが実行される場所以外の場所を意味する。例えば、遠隔地は、同じ都市の他の場所（例えば、オフィス、研究所等）、異なる都市の他の場所、他の州の他の場所、異なる国の他の場所等であることができる。そのため、１つのアイテムが他のアイテムの「遠隔」にあると示されるとき、２つのアイテムが同じ部屋にあるが、離れている、または少なくとも異なる部屋もしくは異なる建物にあり、かつ少なくとも１マイル、１０マイルまたは少なくとも１００マイル離れていることを意味する。「通信」情報とは、好適な通信チャネル（例えば、プライベートネットワークまたはパブリックネットワーク）上の電気信号としてその情報を表すデータの送信を意味する。アイテムの「転送」とは、物理的にアイテムを運搬することによって、または別の方法で（それが可能であれば）、そのアイテムをある場所から次の場所に移動させる任意の手段を意味し、これには、少なくともデータの場合、データを保持する媒体を物理的に運搬すること、または、データを通信することとが含まれる。通信媒体の例としては、無線または赤外線伝送路および他のコンピュータまたはネットワークデバイスへのネットワーク接続、ならびにインターネットを含み、または電子メール送信およびウェブサイト等に記憶された情報を含む。

いくつかの実施形態としては、単一のコンピュータでの、またはコンピュータネットワーク上での、もしくは、コンピュータのネットワークのネットワーク上、例えば、ネットワークのクラウド上での、ローカルエリアネットワーク上での、ハンドヘルドコンピュータ等での実施態様を含む。好ましい実施形態には、本明細書に記載されるステップの１つ以上を実行するコンピュータプログラム（単数または複数）での実施態様を含む。このようなコンピュータプログラムは本明細書に記載されるステップの１つ以上を実行する。本発明の好ましい実施形態は、本発明に記載される、コンピュータ可読媒体（単数または複数）で符号化され、通信ネットワーク（単数または複数）上で伝送可能な、種々のデータ構造、カテゴリ、および変更子を含む。

ソフトウェア、ウェブ、インターネット、クラウドまたは本発明の他の記憶およびコンピュータネットワーク実施態様は、種々のデータベースの検索、変更、関連付け、比較、決定、シグナル伝達、スコアリング、監視または順位付けを達成する標準プログラミング技術で達成できるであろう。

本明細書にて引用されるすべての刊行物および特許出願は、それぞれ個別の刊行物または特許出願が明確かつ個別に参考として援用されると示されるかのごとく、本明細書に参考として援用される。任意の文献の引用は、その出願日よりも前の開示に関するものであり、本発明が、先行する発明のためにそのような文献に先行する権利が無くなることを認めるものと解釈すべきではない。

関連出願の相互参照
本出願は、米国特許仮出願第６１／８５９，６２５号（２０１３年７月２９日出願）の利益を主張するものであり、この出願全体が本明細書に参考として援用されている。

Claims

配列変異を同定する方法であって、
（ａ）（ｉ）ゲノム領域がエンリッチされたサンプルの複数の配列リードおよび（ｉｉ）ゲノム領域に対する参照配列を取得すること、
（ｂ）ＢＥＳＴ定理を用いて前記配列リードをアセンブリングして、それぞれが潜在的な変異に対応する複数の離散的な配列アセンブリを、複数の候補配列として得ること、
（ｃ）複数の前記候補配列のそれぞれを構成する前記配列リードに基づいて、真の潜在的な変異を決定すること、
（ｄ）前記真の潜在的な変異と、前記参照配列と関連すると分かっている突然変異とを比較すること、および
（ｅ）前記サンプルが配列変異を含んでいるかどうかを示すレポートを出力することを含み、
前記真の潜在的な変異を決定することが、隠れマルコフモデルを用いて各前記潜在的な変異に尤度を割り当て、前記候補配列中の対立遺伝子に基づいて複数の前記潜在的な変異をフィルタリングで除外し、フィルタリング後の前記潜在的な変異のそれぞれのスコアをベイズの定理を用いて提供することを含む、方法。
前記ゲノム領域が癌と関連する、請求項１に記載の方法。
前記ゲノム領域が以下の遺伝子：ＰｌＫ３ＣＡ、ＮＲＡＳ、ＫＲＡＳ、ＪＡＫ２、ＨＲＡＳ、ＦＧＦＲ３、ＦＧＦＲ１、ＥＧＦＲ、ＣＤＫ４、ＢＲＡＦ、ＲＥＴ、ＦＧＤＦＲＡ、ＫＩＴおよびＥＲＢＢ２の少なくとも１つの少なくとも一部を含む、請求項１に記載の方法。
前記配列変異が、体細胞突然変異に対応する低頻度の配列変異である、請求項１に記載の方法。
前記ゲノム領域はヒトゲノムの領域である、請求項１に記載の方法。
前記エンリッチされるゲノム領域は、臨床検体から得た全ＤＮＡからエンリッチされる、請求項１に記載の方法。
前記臨床検体が生検である、請求項６に記載の方法。
前記レポートにより、前記サンプルが突然変異を含んでいるかどうかの指標および前記参照配列についての利用可能な公的情報が提供される、請求項１に記載の方法。
前記アセンブリングは、前記配列の信頼性が高いと思われる、前記配列リードのそれぞれの前記領域を分画することを含む、請求項１に記載の方法。
前記真の潜在的な変異を決定することは、配列のクオリティ、リードの数、ベースコールのクオリティおよびその前記参照配列へのマッチを調べ、前記潜在的な変異のそれぞれのスコアを提供することを含む、請求項１に記載の方法。
前記参照配列は、当技術分野において公知であり、シークエンシングリードが適当である変異を同定するためにアノテーションされる、請求項１に記載の方法。
前記アセンブリングは、前記アセンブリをアンカーするために前記参照配列からの配列および前記参照配列に固有の配列を用いる、請求項１に記載の方法。
前記方法は、変異コールの確率を提供する、請求項１に記載の方法。
メモリを含むコンピュータシステムであって、
（ａ）ゲノム領域がエンリッチされたサンプルの配列リードデータベース、
（ｂ）前記ゲノム領域の参照配列、および
（ｃ）請求項１の前記方法を実行するために実行可能なプログラム
を含む、コンピュータシステム。
請求項１の前記方法を実行するための命令を含む、コンピュータ可読記憶媒体。
変異配列を同定する方法であって、
ａ）請求項１の前記方法を実行するための命令を含むプログラムを含むコンピュータシステムに配列情報を入力すること、
ｂ）前記プログラムを実行すること、および
ｃ）前記コンピュータシステムからの出力を受信すること
とを含む、方法。