JP2019164830A - ターゲットシークエンシングパネルから変異を見つける方法 - Google Patents

ターゲットシークエンシングパネルから変異を見つける方法 Download PDF

Info

Publication number
JP2019164830A
JP2019164830A JP2019104837A JP2019104837A JP2019164830A JP 2019164830 A JP2019164830 A JP 2019164830A JP 2019104837 A JP2019104837 A JP 2019104837A JP 2019104837 A JP2019104837 A JP 2019104837A JP 2019164830 A JP2019164830 A JP 2019164830A
Authority
JP
Japan
Prior art keywords
sequence
mutation
sample
enriched
genomic region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019104837A
Other languages
English (en)
Other versions
JP6882373B2 (ja
Inventor
ルヌ アシュトシュ
Juneja Ashutosh
ルヌ アシュトシュ
エイ. ル コック クリスチャン
A Le Cocq Christian
エイ. ル コック クリスチャン
ジョシ デヴェンドラ
Joshi Devendra
ジョシ デヴェンドラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agilent Technologies Inc
Original Assignee
Agilent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agilent Technologies Inc filed Critical Agilent Technologies Inc
Publication of JP2019164830A publication Critical patent/JP2019164830A/ja
Application granted granted Critical
Publication of JP6882373B2 publication Critical patent/JP6882373B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】ターゲットシークエンシングパネルから変異を見つける方法を提供すること。【解決手段】本明細書にてエンリッチされたサンプルの配列変異を同定する方法を提供する。特定の実施形態において、本方法は、(a)(i)ゲノム領域がエンリッチされたサンプルの複数の配列リードおよび(ii)ゲノム領域の参照配列を取得すること、(b)前記配列リードをアセンブリングして、潜在的な変異に対応する、複数の離散的な配列アセンブリを得ること、(c)離散的な配列アセンブリのそれぞれを構成する配列リードを調べることによって、どの潜在的な変異が真であり、どれがアーティファクトであるかを決定すること、(d)任意で、真の潜在的な変異のそれぞれが、参照配列と関連することが分かっている突然変異を含んでいるかどうかを決定すること、ならびに、(e)サンプルが配列変異を含んでいるかどうかを示すレポートを出力することとを含んでもよい。【選択図】図1

Description

この発明は、ターゲットシークエンシングパネルから変異を見つける方法に関する。
突然変異についての包括的な詳細が癌を含む多くの疾患の理解、診断および治療に不可欠である。シークエンシングデータから突然変異を見つけるために多数の方法が提案されてきたが、これらは通常、参照と比較して変異塩基の存在を統計学的に評価することからなる。しかし、突然変異の正確な決定は、突然変異が断片のみに発見される状況においては依然として難題である。このような突然変異の描写は特に癌において重要である。腫瘍の不均一性、したがって再発および治療耐性の根本的な原因を理解するために、このような突然変異は腫瘍含量の低いサンプルだけでなく、微量の腫瘍サブクローンをキャプチャするためにも重要である。
エンリッチメント技術は、高い均質性およびリード深度が可能なことにより、このようなサンプルの研究には魅力的である。しかし、実験技術によって正確に情報を把握できるものの、既存の解析方法は低頻度の変異の検出には適していない。
配列変異をコールできるオープンソースと市販両方の多数の他のツールがある。ターゲットエンリッチメントデータ用としてこのようなツールを使用する試みは、しばしば厄介なものとなる傾向にあり、データのすべての特徴を利用するわけではないため、誤ったコールまたは誤判定およびミスコールも招く。さらに、文献にて記載されているように、各方法は欠点を有しているだけでなく、コールはまた異なる方法間で一致しない。合致した正常なサンプルが供給されたときに低頻度の突然変異の検出を試みるだけの方法もあれば、SNPのみをコールし、挿入、欠失または多塩基多型(multiple nucleotide polymorphisms)(MNPs)はコールしない方法もある。
リード深度が高いターゲットシークエンシングにおける低頻度の変異の場合、問題は深刻化する。個々の変異部位を見て、その位置の突然変異の統計的有意性を評価することによってほとんどの方法が機能する。例えば、個々の遺伝子座が1000リード深度の場合、平均してヘテロ接合体コールが500リードによってカバーされ突然変異対立遺伝子を支持すると予測される。しかし、ヘテロ接合体が本当に存在しているがほんの数回しか標本抽出されない位置がある。モザイクサンプルの場合、微量構成要素の特徴である突然変異はずっと低い頻度を有するであろう。統計学的にこのような大きな標本空間から標本抽出するときには、希少事象が起こるため、低頻度のコールとシークエンシングエラーを区別することが難しくなる。問題は、増幅およびキャプチャでの他のアーティファクトの存在によりさらに複雑化する。ゲノム領域内の複雑な事象および挿入欠失(挿入−欠失)の存在において、参照配列では正確に変異の分布を表さず、これによりさらなるアーティファクトにつながる。既存の解決策の多くは、複数の独立した方法を用いてこの問題を解決しようと試みるが、最新の文献によれば、信頼性をもってこれらの変異をコールすることのできる解決策はない。
米国特許出願第20040241658号明細書 米国特許出願第20100120098号明細書 米国特許第5,795,782号明細書 米国特許第6,015,714号明細書 米国特許第6,627,067号明細書 米国特許第7,238,485号明細書 米国特許第7,258,838号明細書 米国特許出願第2006003171号明細書 米国特許出願第20090029477号明細書 米国特許第8,209,130号明細書 米国特許出願公開第2011/0004413号明細書 米国特許出願公開第2011/0015863明細書 米国特許出願公開第2010/0063742号明細書
Hedgesら、Comparison of three targeted enrichment strategies on the SOLiD sequencing platform, PLoS One 2011 6: e18595 Shearerら、Solution-based targeted genomic enrichment for precious DNA samples BMC Biotechnol. 2012 12: 20 Chial Proto-oncogenes to oncogenes to cancer. Nature Education 2008 1:1 Dahlら、Multiplex amplification enabled by selective circularization of large sets of genomic DNA fragments. Nucleic Acids Res. 2005 33: e71 Ausubel, F. M.ら、Short protocols in molecular biology,3rd ed., 1995, John Wiley & Sons, Inc., New York Sambrook, J. ら、Molecular cloning: A laboratory manual, 2nd ed., 1989, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, New York Lageら、Genome Res. 2003 13: 294-307 Zongら、Science. 2012 338: 1622-1626 Caruccio Methods Mol. Biol. 2011 733: 241-55 Kaperら、Proc. Natl. Acad. Sci. 2013 110: 5552-7 Marineら、Appl. Environ. Microbiol. 2011 77: 8071-9 Marguliesら、Nature 2005 437: 376-80 Ronaghiら、Analytical Biochemistry 1996 242: 84-9 Shendureら、Science 2005 309: 1728-32 Imelfortら、Brief Bioinform. 2009 10: 609-18 Foxら、Methods Mol Biol. 2009; 553: 79-108 Applebyら、Methods Mol Biol. 2009; 513: 19-39 Morozovaら、Genomics. 2008 92: 255-64 Soniら、2007 Clin. Chem. 53: 1996-2001 Myersら、Science 2000 287: 2196-204 Batzoglouら、Genome Research 2002 12: 177-89 Dohmら、Genome Research 2007 17: 1697-706 Boisvertら、Journal of Computational Biology 2010 17: 1519-33 Morenoら、Graph-Theoretic Concepts in Computer Science 2004 3353: 168 Tarjanら、Proc FOCS 1984 12-20 Jungら、Systematic investigation of cancer-associated somatic point mutations in SNP databases Nature Biotechnology 2013 31: 787-789 Burmerら, Proc. Natl. Acad. Sci. 1989 86: 2403-7 Almogueraら, Cell 1988 53: 549-54 Tamら,Clin.Cancer Res, 2006 12: 1647-53
上記背景技術を鑑み、ターゲットシークエンスパネルから変異を見つける方法を提供することを目的とする。
本明細書にてエンリッチされたサンプルの配列変異を同定する方法を提供する。特定の実施形態にて、本方法は(a)(i)ゲノム領域がエンリッチされたサンプルの複数の配列リードおよび(ii)ゲノム領域の参照配列を取得すること、(b)前記配列リードをアセンブリングして、潜在的な変異に対応する、複数の離散的な配列アセンブリを得ること、(c)離散的な配列アセンブリのそれぞれを構成する配列リードを調べることによって、どの潜在的な変異が真であり、どれがアーティファクトであるかを決定すること、(d)任意で、真の潜在的な変異のそれぞれが、参照配列と関連すると分かっている突然変異を含んでいるかどうかを決定すること、ならびに、(e)サンプルが配列変異を含んでいるかどうかを示すレポートを出力することを含んでもよい。
また、a)配列のデータベースと、b)本方法を実行するための実行可能なプログラムとを含むメモリを含むコンピュータシステムも提供される。
本方法を実行するための指示を含むコンピュータ可読記憶媒体もまた提供される。
変異配列を同定する方法もまた提供される。特定の実施形態において、本方法は、a)本方法を実行するための命令を含むプログラムを含むコンピュータシステムに配列情報を入力すること、b)プログラムを実行すること、およびc)コンピュータシステムからの出力を受信することとを含んでもよい。
本教示のこれらおよび他の特徴を本明細書にて説明する。
当業者は、下記の図面が例示目的のみのものであることを理解するであろう。本図面は、決して本教示の範囲を限定することを目的としていない。
本方法の一実施形態を示すフローチャートである。 本方法の他の実施形態を示すフローチャートである。
定義
特に定義しない限り、本明細書で用いるすべての技術的および科学的用語は、本開示の属する分野における当業者に一般的に理解されるものと同じ意味を有する。本明細書に記載されるのと類似のまたは同等のいかなる方法および材料も本教示の実施または試験に用いることができるが、いくつかの代表的な方法および材料をここで記述する。
本明細書で用いられる用語「増幅する」とは、ターゲット核酸を鋳型として使用してターゲット核酸の1以上のコピーを生成することを意味する。
本発明で使用する場合、用語「一塩基多型」または略して「SNP」とは、集団において相当の頻度(例えば、少なくとも1%)で2つまたはそれ以上の代替対立遺伝子が存在する、ゲノム配列における単一のヌクレオチド位置を意味する。
ゲノムに関する用語「エンリッチする」とは、1以上のゲノム領域をゲノムの残りから分離して、ゲノムの残りから分離された生成物を生成することを意味する。エンリッチは、例えば非特許文献1および非特許文献2に記載されている方法を含む、種々の方法を用いて行ってもよい。
用語「エンリッチされたサンプル」とは、ゲノムの残りから分離されたゲノムDNA断片を含むサンプルを意味する。エンリッチされた断片は、用いる断片化方法に応じて任意の長さであることができる。特定の実施形態にて、断片は長さ100bpから1kb、例えば長さ200bpから500bpであってもよいが、この範囲外の断片を使用してもよい。断片化および/またはエンリッチをどのように行うかに応じて、任意の1つのエンリッチされた領域について断片分子の末端は同じであっても異なっていてもよい。
本明細書で用いられる用語「ゲノム領域」とは、ゲノム、例えば、ヒト、サル、ラット、魚もしくは昆虫または植物等の動物または植物のゲノムの領域を意味する。
「複数」は少なくとも2つの要素を含む。ある場合において、複数は、少なくとも10、少なくとも100、少なくとも1000、少なくとも10,000、少なくとも100,000、少なくとも10、少なくとも10、少なくとも10もしくは少なくとも10またはそれ以上の要素を有してもよい。
本明細書で用いられる用語「シークエンシング」とは、ポリヌクレオチドの少なくとも10の連続するヌクレオチドを同定(例えば、少なくとも20、少なくとも50、少なくとも100もしくは少なくとも200またはそれ以上の連続したヌクレオチドを同定)できる方法を意味する。
用語「次世代シークエンシング」とは、イルミナ株式会社、ライフテクノロジーズ社およびロシュ社等が現在採用している、いわゆる、並列的な合成によるシークエンシング(sequencing-by-synthesis)プラットフォームまたはライゲーションによるシークエンシング(sequencing-by-ligation)プラットフォームを意味する。次世代シークエンシング法はまた、ナノポアシークエンシング法または、ライフテクノロジーズ社によって実用化されたイオントレント技術などの電子検出に基づいた方法を含んでもよい。
用語「配列リード」とは、シークエンシングランの出力を意味する。配列リードは一列のヌクレオチドによって表される。配列リードには配列のクオリティについての評価基準が伴っていてもよい。例えば、配列リードの各ヌクレオチドは、ベースコールの信頼性、すなわち、そのヌクレオチドに対してヌクレオチドがG、A、TまたはCのいずれであるかの決定を伴ってもよい。
用語「配列変異」とは、少なくとも1つの位置で参照配列とは異なる核酸配列を意味する。配列変異の例としては、SNPおよび体細胞突然変異を含む配列が挙げられる。
用語「低頻度の配列変異」、「少数種」および「少数変異」とは、非変異タイプの配列に対してほんの10%未満の頻度(例えば、5%未満または1%未満)でサンプル内に存在する変異配列を意味する。多くの場合、低頻度の配列を遺伝子内でのヌクレオチドの置換または挿入欠失によって表してもよく、非変異タイプの配列を同じ遺伝子の野生型対立遺伝子によって表してもよい。低頻度の配列変異は例えば、体細胞突然変異によって生じさせられる。
用語「参照配列」とは、公知である配列、例えば、候補配列と比較できる公衆または企業内データベースからの配列を意味する。
本発明で使用する場合、用語「アセンブリング」とは、長い核酸の断片を表す配列のアライメントを伴う多段階プロセスを意味する。特定の場合において、アセンブリングは、セグメントの配列を構成するために配列の融合を伴ってもよい。
本発明で使用する場合、用語「アンカー」とは、長い配列をアライメントするのに用いることができる、これら長い配列に存在する配列を意味する。特定の場合において、アンカーは長い配列を正確にアライメントするのに十分であってもよい。
本発明で使用する場合、用語「配列コンティグ」とは、重ね合わせた配列をアセンブリングすることによって生成されるヌクレオチドの連続配列を意味する。
本発明で使用する場合、用語「癌と関連する」とは、癌の表現型と関連する突然変異を含むゲノム領域、例えば、遺伝子を意味する。場合によっては、突然変異は癌の原因としての役割があると考えられている。
詳細な説明
種々の実施形態を記載する前に、本開示の教示は記載した特定の実施形態に限定されず、そのため、当然ながら変更できることが理解されるであろう。また、本教示の範囲は添付の請求の範囲によってのみ限定されるものであるため、本明細書で使用する用語は、特定の実施形態を説明する目的のためにすぎず、限定することを意図するものではないことが理解されるであろう。
本発明で用いられるセクションの見出しは、単なる構成目的にすぎず、決して主題を限定するものと解釈されるべきではない。本教示は種々の実施形態とともに記載されているが、本教示がこのような実施形態に限定されることを意図するものではない。むしろ、本教示は当業者には理解されるように、さまざまな代替、変更および等価物を包含する。
値の範囲が示されるところでは、その範囲の上限と下限の間で、その内容に別段の明確な指示がない限り、下限の単位の10分の1までの各中間の値、および規定の範囲内における任意の他の規定のまたは中間の値が本開示に含まれることが理解される。
任意の文献の引用は、その出願日よりも前の開示に関するものであり、本発明が、先行する発明のためにそのような文献に先行する権利が無くなることを認めるものと解釈すべきではない。また、与えられる公開日は、独立して確認される必要のある実際の公開日とは異なっていることができる。
本明細書および添付の請求の範囲で使用する時、単数形「1つの(a)」、「1つの(an)」および「前記(the)」は別段の明確な指示がない限り、複数の指示対象を含むことに留意せねばならない。さらに、請求の範囲はいかなる任意の要素をも排除すべく書かれていることに留意されたい。そのため、この記述は、請求の範囲の要素の詳細説明または「否定的な」限定の使用に関連して「単独で(solely)」、「のみ(only)」等のような排除的用語を使用する先行詞としての役割を果たすことが意図されている。
本開示を読めば当業者には明らかなように、本明細書に記載され、示される個々の各実施形態は、本教示の範囲または趣旨から逸脱することなしに他のいくつかの実施形態の特徴のいずれかから容易に分離できるかまたは組み合わせられる、それぞれの構成要素および特徴を有する。任意の列挙された方法は、列挙された事象の順番で、または論理的に可能な任意の他の順番で実施することができる。
当業者は、本発明がその出願において、構成の詳細、構成要素の配置、カテゴリ選択、重み付け、所定のシグナル限界または本明細書もしくは図面に規定される工程に限定されないものであることを理解するであろう。本発明は他の実施形態が可能であり、また多くの異なる方法で実践または実施することができる。
上述したように、本方法は、特定のゲノム領域がエンリッチされたサンプル、すなわち、断片が断片化全ゲノムDNAからエンリッチされた、特定のゲノム領域に対応するゲノムDNAの断片を含むサンプルから取得された配列リードで行ってもよい。場合によっては、エンリッチされたゲノム領域は、1種以上の癌、例えば乳癌、黒色腫、腎癌、子宮内膜癌、卵巣癌、膵癌、白血病、大腸癌、前立腺癌、中皮腫、神経膠腫、髄芽腫(medullobastoma)、赤血球増加症、リンパ腫、肉腫または多発性骨髄腫等と関係した突然変異を有する遺伝子を含んでもよい(例えば、非特許文献3参照)。対象遺伝子としては、PIK3CA、NRAS、KRAS、JAK2、HRAS、FGFR3、FGFR1、EGFR、CDK4、BRAF、RET、PGDFRA、KITおよびERBB2が挙げられるが、これらに限定されない。特定の場合において、サンプルは、エンリッチされた複数の異なるゲノム領域(例えば、いくつかの異なる領域、例えば、少なくとも2、少なくとも5、少なくとも10、少なくとも50、少なくとも100、または少なくとも1000以上の異なる、重なり合っていない領域)に対応するゲノムDNAの断片を含有してもよい。各領域は、遺伝子、例えば腫瘍遺伝子に対応してもよい。
エンリッチされたゲノム領域は、任意の便利な方法を用いて、例えばオリゴヌクレオチドプローブにハイブリダイゼーションを用いて、またはライゲーションを基にした方法を用いて、初期ゲノムサンプルからエンリッチされてもよい。いくつかの実施形態では、対象領域をキャプチャするために、ゲノム領域は、溶液中で20〜200ntの長さ、例えば100〜150ntの長さであってもよい、1以上のビオチニル化オリゴヌクレオチド(特定の場合において、RNAオリゴヌクレオチドであってもよい)にハイブリダイゼーションしてエンリッチされてもよい。これらの実施形態において、キャプチャ後、オリゴヌクレオチドにハイブリダイズするゲノムDNAの断片を含有する二本鎖を、例えば、ストレプトアビジンビーズを用いて他の断片から分離してもよい。他の実施形態では、対象領域を、非特許文献4によって記述された方法を用いてエンリッチしてもよい。本方法では、ゲノムサンプルを1以上の制限酵素を用いて断片化して変性させてもよい。本方法では、プローブライブラリをターゲット断片にハイブリダイズする。各プローブは、ターゲットDNA制限断片の両末端にハイブリダイズし、これによりターゲット断片がガイドされて環状DNA分子を形成するように設計されたオリゴヌクレオチドである。プローブはまた、環状化中に組み込まれる方法特異的なシークエンシングモチーフを含む。場合によっては、プローブはビオチニル化され、ターゲット断片はストレプトアビジンビーズを使用して回収される。次いで、環状分子はライゲーション、すなわち、完全にハイブリダイズされた断片のみが確実に環状化される非常に明確な反応によって閉じられる。次に、環状DNAターゲットを増幅する。他のエンリッチメント技術は、例えば非特許文献1および非特許文献2に記載されていてもよい。
ゲノムDNAは任意の生命体から分離されてもよい。生命体は原核生物または真核生物であってもよい。特定の場合において、生命体は、植物、例えば、シロイヌナズナもしくはトウモロコシ、または爬虫類、哺乳類、鳥類、魚類および両生類を含む動物であってもよい。場合によっては、初期ゲノムサンプルはヒトまたはマウスもしくはラット等の齧歯類から分離されてもよい。例示的な実施形態において、初期ゲノムサンプルは、ヒト、マウス、ラットまたはサル細胞等の哺乳類細胞からのゲノムDNAを含有してよい。非特許文献5および非特許文献6に記載されている方法のような、解析のためのゲノムDNAの作製方法は当該技術分野において常用されており、公知である。初期ゲノムサンプルは、ゲノムDNAまたはその増幅されたバージョン(例えば、非特許文献7、非特許文献8または公開済み特許文献1の方法を用いて全ゲノム増幅方法によって増幅されたゲノムDNA)を含有してもよい。断片は、物理的方法(例えば、音波処理、噴霧もしくはせん断)を用いて、化学的に、酵素的に(例えば、レアカット制限酵素を用いて)または転移因子を用いて(例えば、非特許文献9;非特許文献10;非特許文献11および特許文献2参照)、ゲノムを断片化することによって作製されてもよい。
サンプルは、培養した細胞または臨床検体の細胞、例えば、組織生検、スクレープもしくは洗浄または法医学的サンプルの細胞(すなわち、犯行現場から採取したサンプルの細胞)から作製してもよい。特定の実施形態では、核酸サンプルは、細胞、組織、体液および便等の生体サンプルから得られてもよい。対象の体液としては、血液、血清、血漿、唾液、粘液、痰、脳脊髄液、胸水、涙、乳糜管液、リンパ液、痰、脳脊髄液、滑液、尿、羊水および精液が挙げられるが、これらに限定されない。特定の実施形態では、サンプルは、対象、例えばヒトから取得されてもよく、本方法での使用前に処理してもよい。例えば、公知の方法にて使用前に核酸をサンプルから抽出してもよい。特定の実施形態では、ゲノムサンプルは、ホルマリン固定パラフィン包理(FFPE)サンプルのものであってもよい。
どの方法を実施するかに応じて、初期サンプル(すなわち、エンリッチメント前)は、既にアダプターライゲーションしたゲノムDNAの断片を含有してよい。他の実施形態では、断片は、エンリッチされた後でアダプターにライゲーションしてもよい。
場合によっては、サンプルをプールしてもよい。これらの実施形態では、断片は、その供給源を示すために分子バーコードを有してもよい。いくつかの実施形態において、解析されるDNAは単一の供給源(例えば、単一の生命体、ウイルス、組織、細胞、対象等)由来であってもよく、これに対して、他の実施形態においては、核酸サンプルは、複数供給源から抽出された核酸のプール(例えば、複数の生命体、組織、細胞、対象等からの核酸のプール)であってもよく、ここで「複数」とは2以上を意味する。そのため、特定の実施形態にて、サンプルは2以上の供給源、3以上の供給源、5以上の供給源、10以上の供給源、50以上の供給源、100以上の供給源、500以上の供給源、1000以上の供給源、5000以上の供給源から最大約10,000の供給源、および約10,000以上の供給源からの核酸を含有できる。分子バーコードは、異なる供給源からの配列を、解析後に区別されるようにしてもよい。
エンリッチされたサンプルが得られた後、サンプルは増幅およびシークエンシングされる。特定の実施形態にて、断片は、例えばイルミナ社の可逆性ターミネータ法、ロシュ社のパイロシークエンシング法(454)、ライフテクノロジーズ社のライゲーションによるシークエンシング(SOLiDプラットフォーム)またはライフテクノロジーズ社のイオントレントプラットフォームでの使用に適合するプライマーを用いて増幅される。このような方法の例は以下の参考文献に記載される:非特許文献12;非特許文献13;非特許文献14;非特許文献15;非特許文献16;非特許文献17および非特許文献18。これらは、それぞれのステップの開始生成物、試薬および最終生成物を含めた本方法および本方法の特定のステップの一般的な記述のために参考として援用される。
一実施形態では、分離した生成物をナノポアシークエンシング(例えば、非特許文献19に記載されるような、またはオックスフォードナノポアテクノロジーズ社によって記述されるような)を用いてシークエンシングしてもよい。ナノポアシークエンシングは、DNAの単一の分子をナノポアを通過させて直接シークエンシングする、単一分子シークエンシング技術である。ナノポアとは、直径が1ナノメートル程度の小さな穴である。ナノポアを導電性流体に浸漬し、電位(電圧)をそこに印加することにより、ナノポアを通るイオン伝導によってわずかな電流が生じる。流れる電流量はナノポアのサイズおよび形状に左右される。DNA分子がナノポアを通過する際、DNA分子の各ヌクレオチドが異なる程度でナノポアを塞ぎ、ナノポアを通過する電流の大きさが異なる程度で変化する。したがって、このDNA分子がナノポアを通過する際の電流の変化が、DNA配列の読み取りを表す。ナノポアシークエンシング技術は特許文献3、特許文献4、特許文献5、特許文献6および特許文献7ならびに特許文献8および特許文献9に開示される。
いくつかの実施形態では、エンリッチされた領域それぞれについて、シークエンシングにより、少なくとも100、少なくとも1,000、少なくとも10,000から100,000まで、またはそれ以上の配列リードを生成してもよい。配列リード長は、例えば使用するプラットフォームに応じて大きく変化してもよい。いくつかの実施形態では、配列リード長は、30〜800塩基の範囲にあってもよく、場合によっては、ペアエンドリードを含んでもよい。
種々の異なる方法を用いて、それぞれが潜在的な変異に対応する複数の離散的な配列アセンブリを得るために配列リードをアセンブリングすることができる。配列リードは、これらすべてが方法の開示のために参考として援用される、非特許文献20、非特許文献21、非特許文献22および非特許文献23等の種々の刊行物にその基本ステップが記載される任意の好適な方法を用いてアセンブリングしてもよい。いくつかの実施形態では、エンリッチされた領域それぞれに対して、配列リードをアセンブリングして、特定の位置にてヌクレオチド変異(例えば、置換、挿入または欠失)を有する配列リードを同定するために調べられる単一のパイルアップを生成することができる。次いで、ヌクレオチド変異を特定のヌクレオチド位置にて有する配列リードを、離散的な配列アセンブリとしてリアセンブリングすることができる。他の実施形態では、配列を高い厳密性をもって、すなわち、同じ変異を有する配列リードが配列を互いに群にならしめるやり方で、アセンブリングしてもよい。さらに他の実施形態では、配列リードを、参照ゲノム等の参照配列に各リードをアライメントすることでアセンブリングできる。特定の場合において、配列リードから得られた少なくとも1つのアセンブリングされた配列は参照配列にアライメントする。
場合によっては、また以下でさらに詳細に記載するように、グラフ理論を用いてリードをアセンブリングする。特定の場合において、配列リードのアセンブリングはde Bruijnグラフ等の有向グラフの作成を含んでもよい。例えば、配列リードのde Bruijnグラフ構成には、配列リードから、ターゲット領域のリード内の長さkの部分配列も含め、重複するk−merを集めること、各k−merを2つの重複する(k−1)−merに分割すること、およびグラフの頂点またはノードを各(k−1)−merに割り当て、またグラフ内の2つのノードを接続するエッジをk−merに割り当てることとを伴ってよい。したがって、各配列リードはグラフ内でk−merが通る経路として表され、潜在的な配列コンティグはグラフ内でk−merが通る複数の経路を結合することで表されてもよい。リードのアセンブリングのためのde−Bruijnグラフの使用については、本明細書に参考として援用される特許文献10、特許文献11、特許文献12および特許文献13に記載されている。
特定の場合において、有向グラフは有向重み付きグラフであってもよい。特定の態様では、有向重み付きグラフは同じ長さのk−merを用いて構成される。特定の実施形態にて、ノードでの潜在的配列を構成するのにどのエッジを選択するかは、特定のノードまたはこのノードに接続しているエッジのリードカバレッジの関数であるカットオフ値を用いずに選択される。
潜在的配列は、オイラーパスによる有向重み付きグラフで表される。したがって、配列リードのアセンブリングはさらに、配列リードから構成された有向重み付きグラフを通してオイラーパスを見つけることを伴ってもよい。有向重み付きグラフを通してオイラーパスを見つけることは、禁止文字列を有する言語において最小de−Bruijn配列(すなわち、所定のアルファベットAの長さnのあらゆる可能な部分配列が、連続する文字配列としてちょうど1回現れる、サイズがkのAの周期性配列)を見つけることを含んでもよい。例えば、非特許文献24を参照のこと。かかる場合、最小de−Bruijn配列は、BEST(de Bruijn、Ehrenfest、SmithおよびTutte)定理を用いて有向重み付きグラフの全域部分グラフによって、または木によって定義されてもよい(有向グラフにおけるオイラー回路の数に対する積公式を提供し、またオイラー回路の数を、所定の頂点の根付き全域木の数に関連づける)。有向グラフの全域木の決定は任意の便利な方法によって行われてもよい(例えば非特許文献25参照)。重み付き有向グラフを、禁止語を有するde Bruijn配列として表すことは、グラフ内で可能な語の最大数の概算につながり、そして有向グラフの情報エントロピーを反映する。このエントロピー限界は有向グラフの遷移行列の固有値の限界でもある。情報エントロピーの限界は配列リードから構成された有向グラフによって定義されるため、シークエンシングリードのセットがあるとして、参照または他の潜在的な変異由来であることができない任意の潜在的な変異配列は、情報エントロピー限界を超えることなしに(すなわち、潜在的な変異と他の変異または参照との間の遷移行列の固有値が、上記で確立された限界を超える場合)、不要となる。
特定の場合において、配列リードは参照配列にアンカーされてもよいが、これは下記にてさらに詳しく論じる。いくつかの実施形態では、配列アセンブリ方法は、配列リードのそれぞれにおいて、シークエンシングの信頼性が高いと思われる領域の境界を定めることを含み、また各々のアセンブリは参照配列および参照配列に固有の配列を用いてアンカーされてもよい。
本方法において、配列アセンブリステップによって、各アセンブリが潜在的な変異に対応する複数の離散的アセンブリがもたらされる。潜在的な変異はそれぞれ、配列リードにて発見される配列変異によって定義される。そのため、離散的アセンブリの候補配列はすべて同じ変異を有する。任意の1つのエンリッチされた領域は、少なくとも2、少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも30、少なくとも50、少なくとも100またはそれ以上の離散的アセンブリによって表されてもよい。各アセンブリの配列リードの数は大きく可変であってもよい。いくつかの場合において、配列リードの大部分が、サンプルの優勢変異を表す1つまたは2つのアセンブリにアセンブリングしてもよい(ゲノムDNAの元々の入手元であるサンプルが、エンリッチされた領域において、生殖系列の違い、例えばSNPについてホモ接合であるかヘテロ接合であるかに応じて)。残りのアセンブリは低頻度の変異配列(例えば、体細胞変異した細胞由来の配列)に対応してもよく、PCRエラーに由来してもよく、および/またはミスコールされたベースを含んでいてもよい。特定の場合において、これらのアセンブリは、変異を含んだより少ない配列リード(例えば、取得される配列リードの合計数に応じて、10〜1,000以上)によって表されてもよい。
本方法の次のステップにて、離散的アセンブリがスクリーニングされて、どの潜在的な変異が「真」であるか(すなわち、サンプル内の分子に配列を正しく提供しており、シークエンシング反応またはデータ処理のエラー、例えばベースミスコールの結果ではない)、またどの候補分子がアーティファクトであるか(すなわち、シークエンシング反応またはデータ処理のエラー、例えばベースミスコールの結果であり、サンプルの分子の実際の配列ではない)を決定する。このステップは、離散的な配列アセンブリのそれぞれをつくりあげている配列リードを調べることによって行われてもよい。いくつかの実施形態では、このステップは、リードクオリティ、ベースコールの信頼性およびアライメントの信頼性(すなわち、配列が正しい位置にマップされたかどうか)を含む、種々のパラメータを調べることによって行ってもよい。不十分に定義された候補分子(すなわち、不良な配列リードによって定義された候補分子、配列変異が信頼性の低いベースコールで表される候補分子等)は取り消すことができ、配列を他のアライメントとマージすることができる。特定の実施形態にて、シークエンシングリードのセットがあるとして、各潜在的な変異の尤度は、隠れマルコフモデルを用いて割り当てられる。いくつかの実施形態では、このステップは、配列のクオリティ、リードの数、ベースコールのクオリティおよびその参照配列へのマッチを調べ、潜在的な変異のそれぞれのスコアを提供することを含んでもよい。
真の潜在的な変異が同定されると、潜在的な変異により定義された突然変異は任意で、参照配列に対して周知の突然変異と比較することができる。ここで参照配列とは公衆の、または企業内データベースの配列である。特定の実施形態にて、該比較は、真の潜在的な変異のそれぞれが、参照配列と関係していることが知られている突然変異を含んでいるかどうかを決定することを伴ってもよい。例えば、数百の遺伝子における数千の癌関連突然変異の同一性は、サンガー・センターのCOSMICデータベースにて見つけられる(非特許文献26もまた参照のこと)。例えば、エンリッチされた配列がKRAS遺伝子の配列を含む場合、真の変異を解析して、その後、該配列のどれが、35G>A、35G>T、38G>A、34G>T、35G>C、34G>A、34G>C、37G>T、183A>C、37G>A、182A>T、183A>T、436G>A、37G>C、I82A>G、34_35GG>TT、38G>C、181C>A、38_39GC>ATまたは38G>Tのうちどの突然変異を有するかを決定する。これらの変異は、白血病、結腸直腸癌(非特許文献27)、膵癌(非特許文献28)および肺癌(非特許文献29)高頻度で見られる。同様に、エンリッチされた配列がNRAS遺伝子の配列を含む場合、真の候補分子を解析して、該配列のいずれかが、182A>G、181C>A、35G>A、182A>T、38G>A、34G>A、37G>Cまたは1849G>Tの突然変異のうちいずれかをNRAS内に有するかを決定する。
特定の実施形態にて、本方法は、ゲノム領域の各対が対象のゲノム領域(例えば、癌関連遺伝子)および対象のゲノム領域に隣接する(また、場合によっては重なっている)領域から構成されている1対以上のゲノム領域のエンリッチを伴ってもよい。これらの実施形態において、このペアは増幅前に、個別におよび組み合わせてエンリッチされてもよい。各対の配列リードは一緒に解析されてもよい。第2のゲノム領域のリードにより、より長い長さにわたって統計を平均することが可能になり、これによってより良い結果がもたらされる。場合によっては、隣接した領域の配列リードは、例えばどんな標本抽出バイアスにも対応できるように結果を調節するために使用することができる。
本方法はサンプルが特定の配列変異を含んでいるかどうかを示すレポートを出力することを含んでもよい。このレポートは、サンプルが突然変異を含むかどうかの指標、ならびに参照配列および突然変異についての利用可能な公的情報を含んでもよい。場合によっては、レポートは、突然変異がサンプル内にあることの信頼性を示してもよい。
上述した方法を採用して、症状を特徴付ける、症状を分類する、症状を区別する、症状に等級を付ける、症状に段階を付ける、症状を診断するもしくは症状を予測してもよく、または治療に対する反応を予測してもよい。特定の場合において、本方法を用いて、癌の症状または、白血病、乳癌、前立腺癌、アルツハイマー病、パーキンソン病、てんかん、筋萎縮性側索硬化症、多発性硬化症、脳卒中、自閉症、精神遅延、および発達障害が挙げられるがこれらに限定されない、他の哺乳類の疾患を調査してもよい。多くのヌクレオチドの多型は、これらの病気を引き起こす要因と関連しており、またこの要因であると考えられている。ヌクレオチドの多型の種類および位置を知ることは、種々の哺乳類の疾患の診断、予測および理解の大いなる助けとなるだろう。加えて、本明細書に記載されるアッセイ条件は、例えば、感染症の検出、ウイルス量モニタリング、ウイルス遺伝子型決定、環境試験、食品試験、法医学、疫学および特定の核酸配列検出が使用される他の領域を含む、他の核酸検出用途にて採用される。
いくつかの実施形態では、生体サンプル、例えば生検は、患者から得てもよく、このサンプルは本方法を用いて解析してもよい。特定の実施形態では、本方法を採用して、ゲノム遺伝子座の野生型コピーおよび、ゲノム遺伝子座の野生型コピーに対して点突然変異を有するゲノム遺伝子座の突然変異コピーの両方を含む生体サンプル内の、ゲノム遺伝子座の突然変異コピーの量を同定および/または評価してもよい。この例においては、サンプルは、ゲノム遺伝子座の突然変異コピーの、少なくとも100倍(例えば、少なくとも1,000倍、少なくとも5,000倍、少なくとも10,000倍、少なくとも50,000倍、または少なくとも100,000倍)のゲノム遺伝子座の野生型コピーを含んでもよい。
これらの実施形態において、本方法を採用して、乳癌、黒色腫、腎癌、子宮内膜癌、卵巣癌、膵癌、白血病、結腸直腸癌、前立腺癌、中皮腫、神経膠腫、髄芽腫、赤血球増加症、リンパ腫、肉腫または多発性骨髄腫と関連してもよい発癌性突然変異(体細胞突然変異であってもよい)、例えば、PIK3CA、NRAS、KRAS、JAK2、HRAS、FGFR3、FGFR1、EGFR、CDK4、BRAF、RET、PGDFRA、KITまたはERBB2を検出してもよい(例えば、非特許文献3参照)。
ゲノム遺伝子座の点突然変異は癌と直接的な関連があってもよいため、本主題の方法を単独で、または他の臨床的技法(例えば、結腸鏡検査またはマンモグラム等の理学的検査)もしくは分子技術(例えば、免疫組織化学解析)を組み合わせて採用して、癌または前癌症状(例えば、腺腫等)の患者を診断してもよい。例えば、対象のアッセイから得られた結果は、他の情報、例えば、他の遺伝子座のメチル化状態に関する情報、同じ遺伝子座内のまたは異なる遺伝子座での再配列または置換に関する情報、細胞遺伝学的情報、再構成に関する情報、遺伝子発現情報またはテロメアの長さについての情報と組み合わせられて、癌または他の疾患の全体的診断を行ってもよい。
一実施形態では、サンプルは第1の場所、例えば病院内または医師のオフィス等の臨床現場で患者から採取されてよく、該サンプルは第2の場所、例えば研究所に送られてよく、この第2の場所にてサンプルが処理され、上述の方法が行われてレポートを作成する。本明細書に記載される「レポート」とは、電子または有形の文書であり、これはサンプル内のゲノム遺伝子座の突然変異コピーの存在を示すCt値またはCp値等を含んでよい試験結果を提供するレポート要素を含む。レポートが作成されると他の場所(第1の場所と同じ場所であってもよい)へ転送されて、そこで臨床的診断の一部として医療従事者(例えば、臨床医、検査技師、または腫瘍専門医、外科医、病理医等の医師)によってレポートが解釈されてよい。
本方法の一実施例を図1および図2のフローチャートに記載する。第1のフローには本方法の全体的な設定、例えば全体のワークフローが記載される。第2のフローには本方法それ自体のフローが記載される。本方法の各構成要素を次に詳述する。以下に記述される本方法はステップB3の実施態様であり、ステップB4ならびにステップCのパート6および7に関連する。一実施態様において、本方法はB3、すなわち、一塩基多型ならびに挿入および欠失の双方の変異の同定に関する。本発明のフローは図2に記載され詳述される。
ステップ1において、設計情報を収集し、これを使用して対象となる領域をアノテーションする。設計情報は以下の方法にて用いられる:対象の領域を分画して、ベイトが置かれるサブ領域を対象の領域内で特定する。シークエンシングが確実であることができる領域を取得して、マーキングする。所望により、対象の領域の両末端に指定した数の塩基を該領域に含ませるようにして、リードのオフターゲットマッチを評価し、また後続のステップのための参照アンカーポイントを指示することができる。典型的な参照配列(単数または複数)を鋳型として取得する。所与の領域内の任意の既知の変異についての情報を含みたい場合、指定した領域内でこのような変異もマーキングする。計算資源の効率的使用のためにJava(登録商標) 7 Fork−Join Frameworkを使用して、重複していない領域のそれぞれを同時に構成し、解析する(後続のステップにて)。このステップでは、「領域」とは単なるゲノム鋳型であり、所望に応じて、また必要に応じてデータをロードする。第2のステップにおいて、高い信頼性をもってこのような領域で構成できる分子配列の関連する、あらゆる代替的伸長を見つけようと試みる。第1の候補参照配列(単数または複数)が供給された参照配列から読み込まれる。本方法では、参照と完全に同一である少なくとも1つの分子表示が得られると仮定する。そのような表示が2つ以上得られる場合、すべてを構成して以下のように評価する。次いで、あらゆる代替的表示を構成する。これはターゲット領域のリードを局部的にリアセンブリングすることによって行う。このリアセンブリングについて、本出願人らは象徴的な配列の理論(symbolic sequences theory)による多数の結果を用い、これにより候補分子配列の最適化および素早い決定がもたらされる。まず、有向重み付きグラフを重複するk−merから構成する。任意の候補分子がオイラーパス(すなわち、エッジのそれぞれを通る、または換言すると、エッジ横断が完了している)としてこのグラフ内に表されねばならない。「見逃された」または「シークエンシングされていない」領域は、参照と同一のものであるとみなされ、利用可能であればペアエンドランの両方のメイトを利用する。ペアのうち1つだけを高い信頼性をもってマップする場合、本方法ではマップされていないリードをすべて見て、局所的なリアライメントが黙示的に行われるように、k−merを利用して候補表示を構成することを試みる。
これを効率的に行うには、理論上の結果を用いる。候補となる解を見つけるという課題を認識することは、禁止文字列を有する言語において最小de−Bruijn配列を見つけることと同等であり、特定の長さの「語」の数を情報エントロピーの評価に関連づける限界があることに留意されたい。このエントロピー限界は異なるk−mer間の遷移を特定する伝達行列の最大固有値(すなわち、最大固有値は情報の自然対数)の限界でもある。したがって、種々の候補を表すグラフを構成する間、所定の長さの許容された語の数のカウントを考慮することができる。場合によっては、禁止語(生じてはならない語)の数のカウントを考慮してもよく、これによって可能な語の合計数と共に所望の情報が与えられる。禁止語は、グラフそれ自体を構成しながら容易に見つけることができる。最大固有値の限界を用いて次のステップの尤度計算を高速度化できる。
使用される第2の結果は、BEST定理、すなわちde Bruijn、Ehrenfest、SmithおよびTutteの定理に頼ったものである。この定理は可能なオイラーパスをグラフの全域木の数と関連付ける。本出願人らの目的はオイラーパスの構成であるため、この定理によりこの問題を、全域木を見つける問題へと変換するが、これは利用可能な迅速な解決策とともに周知の問題である。ヴィシュキンの公式化(Vishkin’s formulation)を用いて全域木を見つけることができる。
グラフは不均衡であることができるため、上記の結果は、計算を大幅に高速度化したものの、重複してマッチしたリードまたは構造変異およびコピー数多型が多くなる状況では特に、いくつかのパスが見逃されることがある。このようなコーナーケースを防ぐために、入る重みと出てくる重みが平均と顕著に異なるパスをカウントする。そのようなパスが発見された場合、このようなパスに表示されるk−merの部分配列についてオイラーパスを徹底調査する。
候補分子表示が見つかった後、マルコフモデルを用いて尤度をそれぞれに割り当てる。このときリード(ペア)を見て、所与のデータからどの候補分子がもっともそれらしいか評価する。この評価に用いられるリードはまず、マッピングクオリティについての指定フィルタリング基準によってフィルタリングされる。候補間の遷移は、伝達行列として表され、該領域のリードデータに基づいて遷移を最適化する。この間に、上述の固有値限界を用いて、限界と一致しない解をもたらすであろうどの反復をも迅速に終了させる。出力確率および遷移確率は、この高速化を除いた標準ビタビ反復によって決定される。指定数の最も高スコアの候補を調べることができる。
このステップの後、候補解中に存在する種々の対立遺伝子を調査して変異コールを行える。リード末端に近接しすぎている(「近接」はパラメータによって定義される)塩基に支えられていると分かった対立遺伝子はフィルタリングで除外する。また、変異候補がアンプリコン断片の末端にあり、遺伝子座をカバーするアンプリコンが1つだけであれば、この変異候補をフィルタリングで除外する。2つ以上のアンプリコンがこの遺伝子座を支持する場合、このような候補は2つ以上のアンプリコンによって支持される場合のみとっておく。
それぞれの変異のスコアをつける。換言すれば、一組のリード{R}および一組の遺伝子型{G}があるとすると、本出願人らはP({G}|{R})を見つけたい。このためには、ベイズの定理を用いて、すなわち、P({R}|{G})およびP({G})を得て、これらを組み合わせて所望の結果を得る。
Figure 2019164830
すなわち、基礎となる遺伝子型があるとして、リードのセットを得る確率は、基礎となる遺伝子型の観測結果のセットから標本抽出する確率に比例しているが、本出願人らのリードが正しいという確率で調整される。積P(b’|b)の下の項は、所定の遺伝子座での所定の代替コールが正しい確率である。所定のリードにおける塩基のクオリティにより、そのリードにおける特定の塩基が正しく、かつ不完全にマッピングしたリードを本出願人らが除外した確率が与えられるため、対立遺伝子のクオリティは、塩基の中間クオリティおよび中間マッピングクオリティの最小値であると仮定する。所望により、この評価に塩基対立遺伝子クオリティ(BAQ)を用いることができる。bε{G}であればP(b’|b)は1−qであり、bε{G}以外の場合はP(b’|b)はqである。
候補分子尤度によるP({G})(G1...Gnを見る可能性である)がすでに得られた。遺伝子座で変異をコールするには、候補領域に2つ以上の対立遺伝子があり、P({G(i)}|{R(i)})が顕著である部位を見ていきたい。すでに参照と異なる種々の候補の確率は分かっているため、したがって
P(K>1|R1,...,Rn)=1−P(K=1|R1,...,Rn)
によって変異コールの確率を得る。
本方法は、ターゲットエンリッチメントパネルの高速で正確かつ使用が簡単な解析ツールを探している臨床研究者に使用されてもよい。このソフトウェアによって、エンド・ツー・エンドデータ解析の解決策、すなわちアライメントから変異の分類まで提供できることにより、結果を得るまでの時間を数日間から数時間へと減少させる。本方法は、試験サンプルの大半に対する誤判定率に影響を及ぼすことなく突然変異のコールにおける検出漏れ率がはるかに低く、本方法によって、複数の対立遺伝子が関与する複雑な場合においても低頻度の対立遺伝子を有する変異を検出することができると同時に、誤判定率を顕著に増加させず、また低頻度の変異の検出時においては、効率および速度が顕著に衰えないため、従来のアルゴリズムよりも有利である。
上述した方法はコンピュータ上で実施できる。特定の実施形態にて、汎用コンピュータを本明細書に開示される方法およびプログラムのための機能的な構造に構成することができる。このようなコンピュータのハードウェアアーキテクチャは当業者に公知であり、1つ以上のプロセッサ(CPU)、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、内部または外部データ記憶媒体(例えば、ハードディスクドライブ)を含むハードウェアコンポーネントを含むことができる。コンピュータシステムは、表示手段にグラフィック情報を処理および出力するためのグラフィックボードを1つ以上含むこともできる。上記コンポーネントはコンピュータ内のバスにより適切に相互接続できる。コンピュータはさらに、モニタ、キーボード、マウス、ネットワーク等の汎用外部コンポーネントと通信するための好適なインタフェースを含む。いくつかの実施形態では、本方法およびプログラムのために処理能力を増加させるために、コンピュータは並列処理ができるか、または並列計算もしくは分散計算のために構成されるネットワークの一部であることができる。いくつかの実施形態において、記憶媒体から読み取られたプログラムコードを、コンピュータに内蔵されている拡張ボード、またはコンピュータに接続されている拡張ユニット内に備えられたメモリ内に書き込むことができ、拡張ボードまたは拡張ユニット内に備えられたCPU等により、下記の機能を達成するためにプログラムコードの命令に従って実際に演算の一部またはすべてを行える。他の実施形態では、本方法はクラウドコンピューティングシステムを用いて実施できる。これらの実施形態において、データファイルおよびプログラミングをクラウドコンピュータにエクスポートでき、クラウドコンピュータはプログラムを実行して、ユーザに出力を返す。
システムは、特定の実施形態において、a)中央演算処理装置、b)ソフトウェアおよびデータを記憶するための、記憶ドライブがディスクコントローラによって制御される1つ以上のハードライブを含むことができる、主要不揮発性記憶ドライブ、c)不揮発性記憶ドライブからロードされるプログラムおよびデータを含む、システムコントロールプログラム、データおよびアプリケーションプログラムを記憶するための、システムメモリ、例えば、高速ランダムアクセスメモリ(RAM)(システムメモリには読み取り専用メモリ(ROM)を含むことができる)、d)マウス、キーパッドおよびディスプレイ等の1つ以上の入力および出力デバイスを含むユーザーインターフェース、e)任意の有線または無線通信ネットワーク、例えばプリンタに接続するための、任意のネットワークインタフェースカード、ならびにf)システムの上述の要素と相互接続するための内部バスを含むコンピュータを含む。
コンピュータシステムのメモリは、プロセッサによる検索のために情報を記憶できる任意のデバイスであり、また磁気もしくは光学デバイスまたはソリッドステートメモリデバイス(揮発性または不揮発性RAM等)を含むことができる。メモリまたはメモリユニットは、同じまたは異なる種類の、2つ以上の物理メモリデバイスを有することができる(例えば、メモリは、複数のドライブ、カード等の複数のメモリデバイスもしくは複数のソリッドステートメモリデバイスまたはこれらのいくつかの組み合わせを有することができる)。コンピュータ可読媒体に関して、「永久メモリ」とは永続性のメモリを意味する。永久メモリはコンピュータまたはプロセッサへの電力供給が停止しても消えない。コンピュータハードドライブROM(すなわち、バーチャルメモリとして使用されないROM)、CD−ROM、フロッピー(登録商標)ディスクおよびDVDはすべて永久メモリの例である。ランダムアクセスメモリ(RAM)は非永久(すなわち、揮発性)メモリの例である。永久メモリ内のファイルは編集可能かつ書換え可能であることができる。
コンピュータの演算は、主としてオペレーティング・システムによって制御されるが、これは中央演算処理装置によって実行される。オペレーティング・システムはシステムメモリ内に記憶することができる。いくつかの実施形態では、オペレーティング・システムはファイルシステムを含む。オペレーティング・システムに加えて、システムメモリの可能な一実施態様には、以下に記述される方法を実施するための種々のプログラミングファイルおよびデータファイルを含む。特定の場合において、プログラミングは、種々のモジュールから構成できるプログラムおよび、プログラムへの入力またはプログラムに使用されるパラメータをユーザに手動で選択または変更させられるユーザインタフェースモジュールを含むことができる。データファイルはプログラムのための種々の入力を含むことができる。
特定の実施形態にて、本明細書に記載される方法による命令を、「プログラミング」の形態でコンピュータ可読媒体にコードすることができる。ここで本明細書において用いられる用語「コンピュータ可読媒体」は、実行および/または処理のためのコンピュータへの命令および/またはデータの提供に関与する任意の記憶媒体または伝達媒体を意味する。記憶媒体の例には、このようなデバイスがコンピュータの内部または外部であろうとなかろうと、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性メモリカード、ROM、DVD−ROM、ブルーレイディスク、ソリッドステートディスク、およびネットワークアタッチトストレージ(NAS)を含む。情報を含むファイルは、コンピュータ可読媒体に「保存」することができ、ここで「保存する」とは、情報がコンピュータによって後日アクセス可能で検索可能であるように情報を記憶することを意味する。
本明細書に記載されるコンピュータで実施される方法は、1以上の任意数のコンピュータプログラミング言語で書き込むことができるプログラムを用いて実行できる。このような言語には、例えば、Java(登録商標)(サン・マイクロシステムズ社、カリフォルニア州サンタクララ)、Visual Basic(マイクロソフト社、ワシントン州レドモンド)およびC++(AT&T社、ニュージャージー州ベッドミンスター)ならびに任意の多数の多言語を含む。
任意の実施形態において、データを「遠隔地」に転送できるが、ここで「遠隔地」とはプログラムが実行される場所以外の場所を意味する。例えば、遠隔地は、同じ都市の他の場所(例えば、オフィス、研究所等)、異なる都市の他の場所、他の州の他の場所、異なる国の他の場所等であることができる。そのため、1つのアイテムが他のアイテムの「遠隔」にあると示されるとき、2つのアイテムが同じ部屋にあるが、離れている、または少なくとも異なる部屋もしくは異なる建物にあり、かつ少なくとも1マイル、10マイルまたは少なくとも100マイル離れていることを意味する。「通信」情報とは、好適な通信チャネル(例えば、プライベートネットワークまたはパブリックネットワーク)上の電気信号としてその情報を表すデータの送信を意味する。アイテムの「転送」とは、物理的にアイテムを運搬することによって、または別の方法で(それが可能であれば)、そのアイテムをある場所から次の場所に移動させる任意の手段を意味し、これには、少なくともデータの場合、データを保持する媒体を物理的に運搬すること、または、データを通信することとが含まれる。通信媒体の例としては、無線または赤外線伝送路および他のコンピュータまたはネットワークデバイスへのネットワーク接続、ならびにインターネットを含み、または電子メール送信およびウェブサイト等に記憶された情報を含む。
いくつかの実施形態としては、単一のコンピュータでの、またはコンピュータネットワーク上での、もしくは、コンピュータのネットワークのネットワーク上、例えば、ネットワークのクラウド上での、ローカルエリアネットワーク上での、ハンドヘルドコンピュータ等での実施態様を含む。好ましい実施形態には、本明細書に記載されるステップの1つ以上を実行するコンピュータプログラム(単数または複数)での実施態様を含む。このようなコンピュータプログラムは本明細書に記載されるステップの1つ以上を実行する。本発明の好ましい実施形態は、本発明に記載される、コンピュータ可読媒体(単数または複数)で符号化され、通信ネットワーク(単数または複数)上で伝送可能な、種々のデータ構造、カテゴリ、および変更子を含む。
ソフトウェア、ウェブ、インターネット、クラウドまたは本発明の他の記憶およびコンピュータネットワーク実施態様は、種々のデータベースの検索、変更、関連付け、比較、決定、シグナル伝達、スコアリング、監視または順位付けを達成する標準プログラミング技術で達成できるであろう。
本明細書にて引用されるすべての刊行物および特許出願は、それぞれ個別の刊行物または特許出願が明確かつ個別に参考として援用されると示されるかのごとく、本明細書に参考として援用される。任意の文献の引用は、その出願日よりも前の開示に関するものであり、本発明が、先行する発明のためにそのような文献に先行する権利が無くなることを認めるものと解釈すべきではない。
関連出願の相互参照
本出願は、米国特許仮出願第61/859,625号(2013年7月29日出願)の利益を主張するものであり、この出願全体が本明細書に参考として援用されている。

Claims (19)

  1. 配列変異を同定する方法であって、
    (a)(i)ゲノム領域がエンリッチされたサンプルの複数の配列リードおよび(ii)ゲノム領域に対する参照配列を取得すること、
    (b)前記配列リードをアセンブリングして、それぞれが潜在的な変異に対応する、複数の離散的な配列アセンブリを得ること、
    (c)前記離散的な配列アセンブリのそれぞれを構成する前記配列リードに基づいて、真の潜在的な変異を決定すること、
    (d)前記真の潜在的な変異と、前記参照配列と関連すると分かっている突然変異とを比較すること、および
    (e)前記サンプルが配列変異を含んでいるかどうかを示すレポートを出力することを含み、
    前記真の潜在的な変異を決定することが、配列のクオリティ、リードの数、ベースコールのクオリティおよびその前記参照配列へのマッチを調べ、前記潜在的な変異のそれぞれのスコアを提供することを含む、方法。
  2. 前記ゲノム領域が癌と関連する、請求項1に記載の方法。
  3. 前記ゲノム領域が以下の遺伝子:PlK3CA、NRAS、KRAS、JAK2、HRAS、FGFR3、FGFR1、EGFR、CDK4、BRAF、RET、FGDFRA、KITおよびERBB2の少なくとも1つの少なくとも一部を含む、請求項1に記載の方法。
  4. 前記配列変異体が、体細胞突然変異に対応する低頻度の配列変異である、請求項1に記載の方法。
  5. 前記ゲノム領域はヒトゲノムの領域である、請求項1に記載の方法。
  6. 前記エンリッチされるゲノム領域は、臨床検体から得た全DNAからエンリッチされる、請求項1に記載の方法。
  7. 前記臨床検体が生検である、請求項6に記載の方法。
  8. 前記レポートにより、前記検体が突然変異を含んでいるかどうかの指標および前記参照配列についての利用可能な公的情報が提供される、請求項1に記載の方法。
  9. 前記アセンブリングは、前記配列の信頼性が高いと思われる、前記配列リードのそれぞれの前記領域を分画することを含む、請求項1に記載の方法。
  10. 前記アセンブリングはグラフ理論を用いる、請求項1に記載の方法。
  11. 前記アセンブリングは、最小de−Bruijn配列を用いて行われる、請求項10に記載の方法。
  12. 前記アセンブリングは、BEST定理を用いて行われる、請求項10に記載の方法。
  13. 前記スコアが、ベイズの定理を用いて提供される、請求項1に記載の方法。
  14. 前記参照配列は、当技術分野において公知であり、シークエンシングリードが適当である変異を同定するためにアノテーションされる、請求項1に記載の方法。
  15. 前記アセンブリングは、前記アセンブリをアンカーするために前記参照配列からの配列および前記参照配列に固有の配列を用いる、請求項1に記載の方法。
  16. 前記方法は、変異コールの確率を提供する、請求項1に記載の方法。
  17. メモリを含むコンピュータシステムであって、
    (a)ゲノム領域がエンリッチされたサンプルの配列リードデータベース、
    (b)前記ゲノム領域の参照配列、および
    (c)請求項1の前記方法を実行するために実行可能なプログラム
    を含む、コンピュータシステム。
  18. 請求項1の前記方法を実行するための命令を含む、コンピュータ可読記憶媒体。
  19. 変異配列を同定する方法であって、
    a)請求項1の前記方法を実行するための命令を含むプログラムを含むコンピュータシステムに配列情報を入力すること、
    b)前記プログラムを実行すること、および
    c)前記コンピュータシステムからの出力を受信すること
    とを含む、方法。
JP2019104837A 2013-07-29 2019-06-04 ターゲットシークエンシングパネルから変異を見つける方法 Active JP6882373B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201361859625P 2013-07-29 2013-07-29
US61/859,625 2013-07-29

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014148832A Division JP2015035212A (ja) 2013-07-29 2014-07-22 ターゲットシークエンシングパネルから変異を見つける方法

Publications (2)

Publication Number Publication Date
JP2019164830A true JP2019164830A (ja) 2019-09-26
JP6882373B2 JP6882373B2 (ja) 2021-06-02

Family

ID=52502124

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014148832A Pending JP2015035212A (ja) 2013-07-29 2014-07-22 ターゲットシークエンシングパネルから変異を見つける方法
JP2019104837A Active JP6882373B2 (ja) 2013-07-29 2019-06-04 ターゲットシークエンシングパネルから変異を見つける方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2014148832A Pending JP2015035212A (ja) 2013-07-29 2014-07-22 ターゲットシークエンシングパネルから変異を見つける方法

Country Status (2)

Country Link
JP (2) JP2015035212A (ja)
CN (1) CN104346539B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6675164B2 (ja) * 2015-07-28 2020-04-01 株式会社理研ジェネシス 変異判定方法、変異判定プログラムおよび記録媒体
CN108351917B (zh) * 2015-08-25 2022-03-08 南托米克斯有限责任公司 用于高精度识别变体的系统和方法
CN108604257B (zh) * 2015-10-12 2022-12-13 南托米克斯有限责任公司 产生特异性免疫治疗组合物及其相关核酸构建体的方法
JP6826128B2 (ja) * 2016-01-18 2021-02-03 ジュリアン・ゴフJulian GOUGH 遺伝子型からの表現型の決定
JP2019509018A (ja) * 2016-01-22 2019-04-04 グレイル, インコーポレイテッドGrail, Inc. 変異に基づく病気の診断および追跡
CN107841542A (zh) * 2016-09-19 2018-03-27 深圳华大基因科技服务有限公司 一种基因组重叠群二代序列组装方法和系统
WO2018183493A1 (en) * 2017-03-29 2018-10-04 Nantomics, Llc Signature-hash for multi-sequence files
KR102035285B1 (ko) * 2017-05-30 2019-10-22 단국대학교 산학협력단 Dna 샷건 시퀀싱 또는 rna 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법 및 콘티그 형성 방법
JP7166434B2 (ja) * 2018-08-13 2022-11-07 エフ.ホフマン-ラ ロシュ アーゲー 生殖細胞系列および体細胞変異の呼び出しのためにニューラルネットワークを使用するシステムおよび方法
US20210335449A1 (en) * 2018-09-05 2021-10-28 Oxford University Innovation Limited Method or System for Identification of a Causative Mutation Causing a Phenotype of Interest in a Test Sample
CN115035948B (zh) * 2022-07-20 2023-01-24 北京阅微基因技术股份有限公司 一种str引物的设计方法和系统
CN117435676B (zh) * 2023-07-13 2024-06-07 南京电力设计研究院有限公司 基于子序列挖掘与有向加权图聚类的建筑能源管理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006515987A (ja) * 2002-11-27 2006-06-15 セクエノム,インコーポレイティド 配列変化検出及び発見用の断片化をベースとする方法及びシステム
WO2008115427A2 (en) * 2007-03-16 2008-09-25 454 Life Sciences Corporation System and method for detection of hiv drug resistant variants
US20100105052A1 (en) * 2007-10-29 2010-04-29 Complete Genomics, Inc. Nucleic acid sequencing and process
JP2011520420A (ja) * 2007-12-05 2011-07-21 コンプリート・ジェノミックス・インコーポレイテッド シーケンシング反応における効率のよい塩基決定
US8209130B1 (en) * 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US20130184161A1 (en) * 2009-10-22 2013-07-18 Stephen F. Kingsmore Methods and Systems for Medical Sequencing Analysis

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU785425B2 (en) * 2001-03-30 2007-05-17 Genetic Technologies Limited Methods of genomic analysis
CN1711358A (zh) * 2002-11-12 2005-12-21 阿菲梅特里克斯公司 用于询问功能性基因组区域中序列变异的方法,组合物和计算机软件产品
ATE453728T1 (de) * 2005-09-29 2010-01-15 Keygene Nv Screening mutagenisierter populationen mit hohem durchsatz
WO2009052214A2 (en) * 2007-10-15 2009-04-23 Complete Genomics, Inc. Sequence analysis using decorated nucleic acids
US8370079B2 (en) * 2008-11-20 2013-02-05 Pacific Biosciences Of California, Inc. Algorithms for sequence determination
US20130110407A1 (en) * 2011-09-16 2013-05-02 Complete Genomics, Inc. Determining variants in genome of a heterogeneous sample

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006515987A (ja) * 2002-11-27 2006-06-15 セクエノム,インコーポレイティド 配列変化検出及び発見用の断片化をベースとする方法及びシステム
WO2008115427A2 (en) * 2007-03-16 2008-09-25 454 Life Sciences Corporation System and method for detection of hiv drug resistant variants
US20100105052A1 (en) * 2007-10-29 2010-04-29 Complete Genomics, Inc. Nucleic acid sequencing and process
JP2011520420A (ja) * 2007-12-05 2011-07-21 コンプリート・ジェノミックス・インコーポレイテッド シーケンシング反応における効率のよい塩基決定
US20130184161A1 (en) * 2009-10-22 2013-07-18 Stephen F. Kingsmore Methods and Systems for Medical Sequencing Analysis
US8209130B1 (en) * 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OSVALDO ZAGORDI ET AL.: "Error correction of next-generation sequencing data and reliable estimation of HIV quasispecies", NUCLEIC ACIDS RESEARCH, vol. 38, no. 21, JPN6018030897, 2010, pages 7400 - 7409, XP055157963, ISSN: 0004334375, DOI: 10.1093/nar/gkq655 *

Also Published As

Publication number Publication date
CN104346539A (zh) 2015-02-11
CN104346539B (zh) 2019-09-03
JP2015035212A (ja) 2015-02-19
JP6882373B2 (ja) 2021-06-02

Similar Documents

Publication Publication Date Title
JP6882373B2 (ja) ターゲットシークエンシングパネルから変異を見つける方法
US20210174901A1 (en) METHOD FOR SIMULTANEOUS DETECTION OF GENOME-WIDE COPY NUMBER CHANGES, cnLOH, INDELS, AND GENE MUTATIONS
De Coster et al. Towards population-scale long-read sequencing
Sedlazeck et al. Piercing the dark matter: bioinformatics of long-range sequencing and mapping
JP6921888B2 (ja) 遺伝的バリアントを検出するための方法およびシステム
US20200105371A1 (en) Method for finding variants from targeted sequencing panels
JP7385686B2 (ja) 無細胞核酸の多重解像度分析のための方法
JP6987786B2 (ja) がんの進化の検出および診断
KR102393608B1 (ko) 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
EP3542291B1 (en) Validation methods and systems for sequence variant calls
Lange et al. Analysis pipelines for cancer genome sequencing in mice
US20210115520A1 (en) Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
JP2016103999A (ja) ゲノム位置に標的濃縮配列リードを割り当てるための方法
JP2020530261A (ja) 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法
JP2023516633A (ja) メチル化シークエンシングデータを使用したバリアントをコールするためのシステムおよび方法
JP2023543719A (ja) シークエンシング・データにおけるクロス-コンタミネーションの検出
Huang et al. Sequencing strategies and characterization of 721 vervet monkey genomes for future genetic analyses of medically relevant traits
Smart et al. A novel phylogenetic approach for de novo discovery of putative nuclear mitochondrial (pNumt) haplotypes
US20190108311A1 (en) Site-specific noise model for targeted sequencing
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190613

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210506

R150 Certificate of patent or registration of utility model

Ref document number: 6882373

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250