JP2018513508A - 核酸を分析するためのシステムおよび方法 - Google Patents

核酸を分析するためのシステムおよび方法 Download PDF

Info

Publication number
JP2018513508A
JP2018513508A JP2017568008A JP2017568008A JP2018513508A JP 2018513508 A JP2018513508 A JP 2018513508A JP 2017568008 A JP2017568008 A JP 2017568008A JP 2017568008 A JP2017568008 A JP 2017568008A JP 2018513508 A JP2018513508 A JP 2018513508A
Authority
JP
Japan
Prior art keywords
tumor
sequence
normal
mutations
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017568008A
Other languages
English (en)
Other versions
JP2018513508A5 (ja
Inventor
ビクター ヴェルキュレスク,
ビクター ヴェルキュレスク,
ルイス ディアス,
ルイス ディアス,
シアン ジョーンズ,
シアン ジョーンズ,
サムエル ビンセント アンジオーリ,
サムエル ビンセント アンジオーリ,
Original Assignee
パーソナル ジノーム ダイアグノスティクス, インコーポレイテッド
パーソナル ジノーム ダイアグノスティクス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パーソナル ジノーム ダイアグノスティクス, インコーポレイテッド, パーソナル ジノーム ダイアグノスティクス, インコーポレイテッド filed Critical パーソナル ジノーム ダイアグノスティクス, インコーポレイテッド
Publication of JP2018513508A publication Critical patent/JP2018513508A/ja
Publication of JP2018513508A5 publication Critical patent/JP2018513508A5/ja
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

患者からの腫瘍配列リードと正常配列リードとを比較し、腫瘍に固有な変異に関してフィルタリングすることによって、患者に特異的な腫瘍変異を特定することにより、患者に特異的な多様性をがんまたは他の疾患の指標となる変異として特徴付けることに関する、向上した感度および特異性。腫瘍配列を、同じ患者由来の正常配列と比較することによって、分析における偽陽性変異コールが最小限となる。一局面において、腫瘍と関連するバイオマーカーに関して核酸を分析する方法が提供され、この方法は、患者の腫瘍試料に由来する核酸を配列決定することによって生成される腫瘍配列リードを提供するステップと、患者の正常試料に由来する核酸を配列決定することによって生成される正常配列リードを提供するステップと、腫瘍配列リードと正常配列リードとを比較するステップと、比較に基づいて腫瘍配列リードをフィルタリングするステップとを含む。

Description

関連出願への相互参照
この出願は、2015年3月16日に出願された米国仮特許出願第62/133,638号(この内容は、参考として本明細書に援用される)の利益およびそれへの優先権を主張する。
本発明は、腫瘍特異的バイオマーカーに関して核酸を分析することに関する。
ゲノム分析は、健康管理に不可欠な部分となってきている。経時的なゲノム変異の蓄積は、疾患の存在、種類、および重症度を示し得る。個体の変異プロファイルを十分に把握することにより、個別化された診断、より正確な予後、および調整された治療の選択肢をもたらすことができ、これらは、患者の寿命を延ばし、痛みを伴う治療および高価な治療を避ける一助となるのに有用である。
個別化医療は、その大部分が、DNAおよびRNAを含む患者のゲノムにおける変異の正確な特定に依存する。ゲノムのスクリーニングにより類別および追跡することができる多くの疾患が存在するが、がん変異のスクリーニングが、最も注目を浴びている。ほとんどの場合には、がんのスクリーニングには、患者に由来する(例えば、腫瘍組織に由来する)がん性配列を取得し、このがん性配列を基準配列と比較することを伴う。基準配列は、いくつかのドナーに由来する核酸の配列決定を行い、それをコンパイルすることによりアセンブルされた代表的な配列である。基準配列は、健康な正常ドナー集団から得たものであってもよく、または特定の疾患を有するドナーから得たものであってもよい。配列多様性(sequence variation)を特定するために、推定上のがん配列を、正常基準と比較してもよく、これら2つの間の差異が、配列多様性の指標である。
一部の事例では、配列多様性は、BRCA1変異および乳がんの場合のように、疾患マーカーとして有用である。しかしながら、単純にがんにおける配列多様性を特定することは有効ではなく、各個体は固有であり、腫瘍特異的変異の指標ではない正常基準からの生殖細胞系配列多様性を有する場合があるため、結果として偽陽性となる場合がある。加えて、他の特定された配列多様性は、配列決定アーチファクトおよび他の配列決定エラーの結果である場合がある。一部の事例では、これらの配列決定エラーは、実際の変異と区別することができない場合がある。配列多様性の誤った特定は、個体のゲノムを把握する利点の多くを無効にしてしまう可能性がある。例えば、正常な配列多様性を、がん性変異として誤って解釈すると、これが、誤診、正確でない予後、または有効でない治療につながり得る。あるいは、実際のがん性変異を、配列決定エラーまたは正常多様性として誤って却下した場合、患者は、有望となったかもしれない治療の機会を逃すことになる場合がある。
本発明は、概して、配列多様性を疾患の原因となる変異として特徴付けるための高度に感度が良くかつ特異的な方法およびシステムに関する。本発明の方法は、患者の健常なDNAまたはRNAと関連する配列決定アーチファクトをフィルタリングし、除外するために、推定上のがん性組織から得られた患者自身の配列を、同じ患者に由来する正常配列と比較する。フィルタリング後は、正常配列と整合性のないゲノムの部分のみが、がん変異として評価される。結果として、腫瘍配列に存在するいずれの正常な患者特異的多様性も、がんのスクリーニングの際に腫瘍配列を基準配列と比較したときに、がん性変異として誤って特定されることがない。
ある特定の態様によると、本発明の方法は、患者由来の腫瘍配列リードと正常配列リードとを比較し、腫瘍に固有な変異をフィルタリングすることによって、患者に特異的な腫瘍変異を特定することを伴う。この比較は、患者の正常配列と関連する多様性を、がんの根底にある遺伝子座に由来するものではないと結論付けることによって、さらなる分析から除外することを可能にし、分析の焦点を患者の腫瘍に特有の多様性だけに当てる。患者の腫瘍に特異的な多様性は、患者特異的バイオマーカーとして分類することができる。ある特定の実施形態では、患者特異的バイオマーカーは、腫瘍特異的多様性を既知の腫瘍基準と比較することによって、さらに特徴付けるまたは分類することができる。患者特異的腫瘍分析の結果として、個別化された予後および治療レジメンが、患者において発見された特定のバイオマーカーに基づいて、その患者のために開発される。
本発明の方法は、腫瘍配列リードおよび正常配列リードを患者から得ることを伴う。好ましい一実施形態では、腫瘍試料は、血漿から循環腫瘍DNA(circulating tumor DNA、ctDNA)を単離することによって採取される。本明細書に記載される方法でctDNAを使用することにより、侵襲的な生検または外科手術を必要とすることなく、様々な腫瘍マーカーを高い正確度でスクリーニングすることが可能となる。これにより、患者の苦痛(すなわち、がんの供給源)が未知である場合、または患者が1つを上回る状態と診断され得る場合の広範な分析も可能となる。腫瘍試料は、生検標本から採取してもよく、または当該技術分野で公知の他の方法により採取してもよい。正常試料はまた、リンパ球、唾液、口腔試料、または他の罹患していない組織など、腫瘍がないと考えられる組織を含む、患者由来の任意の試料であり得る。
本発明のシステムおよび方法は、患者から得られた核酸の配列決定リードを提供または生成することを伴う。配列リードを生成するために、任意の配列決定プラットフォームを使用して、患者由来の核酸を配列決定してもよい。好適な配列決定技法としては、例えば、単一分子リアルタイム配列決定、イオン半導体配列決定、パイロシーケンシング(pyrosequencing)、合成による配列決定、ライゲーションによる配列決定、およびサンガー配列決定が挙げられる。
患者の核酸を配列決定した後、腫瘍リードおよび正常リードを、それぞれ、コンパイルしてコンセンサス配列にする。コンセンサス配列は、得られた配列リードを用いてコンティグを形成することによって、または配列決定リードを基準に対してアラインメントすることによって、生成することができる。腫瘍コンセンサス配列および正常コンセンサス配列は、同じ方法または異なる方法によって形成され得る。コンセンサス配列を形成した後、正常コンセンサス配列とコンセンサス配列とを比較して、多様性を特定する。
腫瘍配列と正常配列とを比較した後、本発明の方法は、正常でない多様性にのみ注目するために、腫瘍配列をフィルタリングすることを提供する。ある特定の実施形態では、腫瘍配列の一部分を、正常として分類すべき(したがって、フィルタリングで除外する)か、腫瘍に特異的な多様体(variant)として分類すべきかを決定するために、閾値が使用される。ある特定の実施形態では、正常配列と比較したときの腫瘍配列におけるあらゆる多様性が、腫瘍に特異的な多様体配列として特定される。他の実施形態では、腫瘍に特異的な多様体は、正常基準に対する類似性または非類似性に基づいて特定される。例えば、腫瘍配列の部分は、正常配列の対応するセグメントとは75%、80%、85%、90%、95%、96%、97%、98%、99%、99.1%、99.5%、99.6%、99.7%、99.8%、99.9%などの程度で異なっているため、腫瘍に特異的な多様体として分類され得る。別の例では、腫瘍配列の部分は、正常配列の対応するセグメントと75%、80%、85%、90%、95%、96%、97%、98%、99%、99.1%、99.5%、99.6%、99.7%、99.8%、99.9%などの程度で類似しているため、正常として分類され得る。ある特定の実施形態では、選択される閾値は、様々な種類の変異に関して同じまたは異なる。例えば、一塩基多型の閾値は、転座に関して選択された閾値とは異なってもよい。
フィルタリングした後、結果として得られた腫瘍特異的な多様体配列を、さらに分析してもよい。ある特定の実施形態では、腫瘍特異的な多様体配列は、患者に特異的な腫瘍バイオマーカーとして特定され得る。これらのバイオマーカーは、腫瘍の病期の決定、進行の監視、および治療過程の評価に特に有用である。さらなる実施形態では、腫瘍特異的な多様体配列を、既知の腫瘍基準などの基準配列と比較して、多様体配列が既知のがんと関連する変異を含むかまたは変異と一致するかを評価する。
本発明の方法に従って特定された腫瘍特異的なこれらの多様体は、その数が増加している(がんが進行していることを示す)か、減少している(寛解していることを示す)かを調べるために、経時的に監視することができる。例えば、患者は、これまでに特徴付けられていなかったがんに関して目的の位置を正確に示すために、患者の全エクソームの分析を受けている場合がある。この分析は、医師ががんの種類がどのようなものであるかを決定するのに役立つ。その後の経過観察アッセイとして、腫瘍DNAを、患者のがんと関連することがここで判明したある特定の遺伝子に関してのみ分析してもよい。さらなるバイオマーカーが発見された場合、これは、がんが変異し、拡がり続けていることを示すであろう。この標的を定めた経過観察アッセイは、患者の治療が有効であるか、がんが拡がっているかを検証することに役立つであろう。
本明細書に開示される方法は、ヒトのがんにおける体細胞系変質(alteration)および生殖細胞系変質の検出および解釈のための包括的な分析を提供する。本方法により、臨床的に対処可能(actionable)であり得る、腫瘍における変質を特定することができる。本方法により、見たところ散発性であるがん患者において、がんの素因となる遺伝子における病原性の生殖細胞系変化を認識することができる。
図1は、腫瘍バイオマーカーの評価方法を示す。
図2は、ヒトのがんにおける生物学的および臨床的に重要な遺伝子を示す。
図3は、構造上の多様性が疾患を表す傾向にある遺伝子を示す。
図4は、本発明のシステムを図示する。
図5は、全エクソーム分析または標的を定めた次世代シーケンシング分析を図示する。
図6は、臨床的な対処可能性の根拠を有する事例を組織型毎に示す。
図7は、標的を定めた分析における体細胞系変質および生殖細胞系偽陽性を示す。
図8は、エクソーム分析における体細胞系変質および生殖細胞系偽陽性変化を示す。
図9は、体細胞系多様体および生殖細胞系多様体の特徴および数をまとめる。
図10は、COSMICフィルタリングに供した、標的を定めた遺伝子セットの変異を示す。
図11は、COSMIC判定基準による、エクソーム事例における変異の分類を示す。
図12は、腫瘍抑制遺伝子における体細胞系変異の標的を定めたフィルタリングを示す。
図13は、エクソーム事例の体細胞系変異のフィルタリングを示す。
図14は、キナーゼドメイン内の変異の標的を定めたフィルタリングを示す。
図15は、エクソーム事例におけるキナーゼドメイン内の変異のフィルタリングを示す。
本発明は、概して、患者の配列多様性を、がんまたは他の疾患の指標となる変異として、向上した特異性および感度で特徴付けるための方法およびシステムに関する。本発明の方法は、大規模な並行配列決定アプローチを使用して、個々の患者の腫瘍を特徴付け、特定された変異に基づいて治療法を選択することを伴う。本発明の方法は、患者に由来する腫瘍配列と正常配列とを比較し、試料の一致する部分をフィルタリングで除外することを伴う。変質の正確な特定および臨床上の解釈は、がん患者由来の腫瘍DNAおよび正常DNAの両方を分析すること、ならびにそれらを必要に応じてフィルタリングすることにより利益を得ることが、本発明により認識される。結果として得られるフィルタリングされたデータには、腫瘍特異的配列(すなわち、患者の腫瘍配列に由来する多様体)のみが含まれる。腫瘍特異的多様性は、がんの種類、病期、またはがんの進行の指標であり得る。ある特定の実施形態では、結果として得られる腫瘍特異的多様性は、次いで、さらなる特徴付けのために基準配列と比較される。例えば、腫瘍特異的多様性は、これらの多様性を、特定のがんと関連する既知の変異として特定するために、腫瘍基準配列と比較してもよい。腫瘍特異的バイオマーカーもまた、正常基準と比較され得る。
複雑性の高いゲノム分析は、腫瘍学の診断上の展望を変化させている。特定の遺伝子変質を標的とする治療法は、適切な患者集団に使用した場合には、従来的な化学療法よりも安全かつ有効であり得る。この考えは、BCR−ABL融合体を有する慢性骨髄性白血病におけるイマチニブの使用、ERBB2(Her−2/neu)増幅型乳がんにおけるトラスツズマブの使用、およびBRAF変異型黒色腫におけるベムラフェニブの使用を含め、ヒトのがんにおいて変質した特定の遺伝子のタンパク質生成物を標的とするいくつかの治療法に関して、実証が成功している。分子の変質はまた、予測効果または予後効果を有することが示されている。例えば、KRASのコドン12および13における変異により、セツキシマブおよびパニツムマブなどのEGFRモノクローナル抗体に対する応答性が乏しいことが予測され、したがって、これらの薬物の使用は、結腸直腸がん患者においては禁忌である。IDH1変異型腫瘍を有する膠芽腫患者は、このような変化を有さないものと比較して、全生存が高くなっている。確立されている治療法に加えて、適応されているもの以外の適応症および臨床試験中の薬物は、特定の遺伝子における変質を認識することにより、利益を得ることができる。それぞれ個々の腫瘍を駆動する変異は固有であるため、各患者のがんにおける特異的な変異を特定することは、増え続けている標的を定めた治療法を利用した個別化された治療計画の開発に極めて重要である。
各腫瘍は、受け継がれる(生殖細胞系の)多様体および腫瘍に特異的な(体細胞系の)多様体を含んでいる。がん遺伝子および腫瘍抑制因子における体細胞系変質は、腫瘍の発生および成長を促し、これが、典型的には個別化された治療法の標的である。罹患した個体由来の一致する正常DNAおよび腫瘍DNAを配列決定し、それらを比較することによって、生殖細胞系変質を正確に特定し、体細胞系変化から差し引くことが可能となることが、本開示により認識される。次世代シーケンシングアプローチを含め、これまでのほとんどのがん診断アッセイは、腫瘍DNAのみを評価しているが、これは、血液試料または唾液試料を採取することにおける事実上の問題、費用の増加、および一致する正常なものの潜在的な価値に関する不十分な理解の結果である可能性が高い。
臨床的に対処可能な腫瘍特異的(体細胞系)変質の正確な特定は、腫瘍DNAとともに正常DNAを分析することにより強化されることが、本開示により認識される。
臨床的観点からは、一致する腫瘍DNAおよび正常DNAをゲノム分析に使用することが、がん標本における対処可能な体細胞系変化および生殖細胞系変化を正確に特定するための最も直接的なアプローチである。いくつかのがん遺伝子におけるホットスポット変異は、腫瘍組織単独の分析によって高い感度および特異性で容易に検出することができるが、標的を定めた腫瘍のみの分析では、変化が実際には構成的変質を示す場合に、この変化の最大で3分の1が、対処可能な体細胞系変化として誤って分類され得る。追加のバイオインフォマティクスフィルタリングアプローチを使用すれば、特異性は改善され得るが、対処可能な遺伝子における体細胞系変化の相当な部分を見逃すことになる。加えて、生殖細胞系DNAの分析を行わなければ、がん患者は、患者の臨床管理に関する情報を提供することができ、通常のがんのスクリーニングにより利益を得ることができる他の家族を指摘することができたかもしれない、がんの素因となる遺伝子における遺伝性の変異に関して正確にスクリーニングすることができない。
図1は、腫瘍と関連するバイオマーカーに関して核酸を評価する方法100を示す。方法100は、ステップ110において、同じ患者の腫瘍試料から得た核酸および正常試料から得た核酸からの配列決定データを得ることで開始する。ある特定の実施形態では、腫瘍試料は、生検標本であるか、または循環腫瘍DNA(ctDNA)由来のものである。正常試料は、リンパ球、唾液、口腔細胞、または他の組織および体液など、がんを有さないとみられている核酸を含む任意の体組織または体液であり得る。核酸は、当該技術分野で公知の任意の配列決定プラットフォームを使用して配列決定することができる。配列決定は、本発明とともに行われてもよく、または以前に取得した配列リードを使用してもよい。
腫瘍配列リードおよび正常配列リードを取得した後、ステップ120でそれらを互いに比較する。ある特定の実施形態では、比較は、腫瘍配列リードおよび正常配列リードのコンセンサス配列を形成し、次いで、腫瘍コンセンサス配列と正常コンセンサス配列とを比較することを伴う。ある特定の実施形態では、コンセンサス配列(腫瘍、正常、または両方)は、配列リードを用いてコンティグを生成することによって形成される。あるいは、コンセンサス配列(腫瘍、正常、または両方)は、配列リードを基準配列に対してアラインメントすることによって形成される。任意の基準配列を使用することができる。ある特定の実施形態では、基準配列は、ヒト基準ゲノムGRCh38(Genome Reference Consortiumのヒトゲノム(ビルド37))など、患者集団から生成された代表配列である。
ステップ130において、腫瘍配列リードを、比較ステップ120に基づいてフィルタリングする。ある特定の実施形態では、正常配列に対して比較しフィルタリングした場合の腫瘍配列におけるあらゆる多様性が、腫瘍に特異的な多様体として特定される。他の実施形態では、腫瘍配列に特異的な多様体は、正常基準に対する類似性または非類似性の程度に応じた閾値に基づいて特定される。例えば、腫瘍配列の部分は、正常配列の対応するセグメントとは75%、80%、85%、90%、95%、96%、97%、98%、99%、99.1%、99.5%、99.6%、99.7%、99.8%、99.9%などの程度で異なっているため、腫瘍に特異的な多様体として分類され得る。別の例では、腫瘍配列の部分は、正常配列の対応するセグメントと75%、80%、85%、90%、95%、96%、97%、98%、99%、99.1%、99.5%、99.6%、99.7%、99.8%、99.9%などの程度で類似しているため、正常として分類され得る。ある特定の実施形態では、選択される閾値は、様々な種類の変異に関して同じまたは異なる。例えば、一塩基多型の閾値は、転座に関して選択された閾値とは異なってもよい。
腫瘍配列リードをフィルタリングした後、変異を特定するために、フィルタリングされた腫瘍配列リードを、評価してもよい。ある特定の実施形態では、腫瘍特異的な多様体配列(すなわち、フィルタリング後に結果として得られた腫瘍配列)は、患者に特異的な腫瘍バイオマーカーまたは変異として特定される。さらなる実施形態では、腫瘍特異的な多様体配列を、既知の腫瘍基準などの基準と比較して、多様体配列が、既知のがんと関連する変異を含むか、その変異と一致するかを評価する。
本発明のシステムおよび方法に従って特定および/または確認された変異は、診断、疾患の進行の監視、および/または疾患の再発の評価のための疾患スクリーニングに使用することができる。本発明の方法およびシステムを使用して、様々な配列およびスクリーニングアプローチにおいて、変異の特定における特異性および感度を増加させることができる。例えば、適用可能なスクリーニングアプローチとしては、患者の全ゲノムのスクリーニング、全エクソームのスクリーニング、または特定の遺伝子もしくは遺伝子群を標的とするスクリーニングを挙げることができる。疾患に関連する変異の大部分は、エクソームまたは個体の遺伝物質のコード領域に生じるため、本発明のシステムおよび方法に従って患者のエクソームをある状態と関連する変異に関してスクリーニングすることは、全ゲノムをスクリーニングするよりも効率的であり得る。
さらなる実施形態では、本発明の方法は、疾患または状態と関連することが既知の患者の配列を標的とし得る。例えば、患者が特定の状態を有することが判明している場合、スクリーニングは、その状態と関連することが既知の遺伝子に限定してもよい。例えば、肺がんを有する患者から腫瘍試料を得た場合、スクリーニングは、肺がんと関連する遺伝子に限定してもよい。
肺がんまたは白血病に加えて、1種または複数のがんと関連する他の遺伝子または遺伝子パネルを、標的を定めた変異スクリーニングに使用してもよい。これらのがんとしては、乳がん、皮膚がん、結腸直腸がん、膵臓がん、卵巣がん、前立腺がん、または子宮頸がん、脳がん、胆管癌、頭頸部がん、神経内分泌がん、腎臓がん、胃がん、婦人科系がん、食道がん、黒色腫、造血系悪性疾患、肉腫、およびその他多数を挙げることができる。様々ながんと関連することが既知の遺伝子のリストを、表1に示す。これらの既知のがん関連遺伝子における変異は、診断、腫瘍サブタイプの分類、予後の決定、腫瘍進行の監視、および適切な治療法の確立に使用することができる。本発明のシステムおよび方法を使用して特定される変異の種類としては、当該技術分野で公知の任意の種類の変異を挙げることができ、例えば、挿入、欠失、コピー数の変化、および/または転座が挙げられる。
ある特定の実施形態では、本発明のシステムおよび方法は、MET遺伝子の増幅を特定するためのMET遺伝子座および周辺領域を標的とする分析に関し得る。MET遺伝子の増幅は、腫瘍成長を誘発し得、この増幅は、治療応答の予測、全体的な予後の予測、再発の予測、監視、および早期検出のために使用することができる。
ある特定の実施形態では、本開示の方法は、体細胞系変異と生殖細胞系変異とを区別するためのアプローチといった、他のバイオインフォマティクスアプローチを検証するために使用され、これらのアプローチは、腫瘍組織のみに依存し、一致する正常組織の使用は伴わない。
図1に概説される本発明で使用するための一般的な方法を、以下で説明する。
本発明のシステムおよび方法は、患者から得られた核酸に関する配列決定データを取得することに関する。様々な実施形態によると、核酸は、患者から得られた腫瘍試料または正常試料に由来し得る。がん細胞は、患者の身体における他の非がん性細胞とは異なる固有の変異を蓄積し、他の個体に由来する同じ種類の他のがん細胞と比べても固有であることが多い。変異を含め、患者のがんの遺伝子配列を把握することは、医師がより正確な診断および予後を示すのを助けることができ、ある特定の遺伝子型のがんに対してより有効であり得る標的を定めた治療の判定に関する情報を提供することができる。したがって、本発明のシステムおよび方法は、腫瘍試料の配列決定に適用することができる。患者の正常試料における変異を把握することは、ある特定の疾患に対する患者の遺伝子的素因を把握することに役立ち得、したがって、他の家族におけるこれらの疾患の早期検出のための個別化されたスクリーニングレジメンの実施に役立ち得る。さらに、本発明のシステムおよび方法に従って確認された、変異を伴う患者の正常配列は、以下により詳細に記載されるように、腫瘍試料配列を腫瘍特異的変異に関してスクリーニングするための基準として使用することができる。
腫瘍試料としては、例えば、細胞不含核酸(DNAもしくはRNAを含む)、または生検した組織、ホルマリン固定パラフィン包埋組織(formalin fixed paraffin embedded tissue、FFPE)、凍結組織、細胞株、DNA、および腫瘍移植片などの腫瘍組織試料から単離された核酸を挙げることができる。FFPEブロックまたは凍結組織として提供された試料は、腫瘍細胞充実性を決定するために、病理学的考察を受ける場合がある。腫瘍は、混入している正常組織を除去するために、マクロ解剖またはマイクロ解剖が行われ得る。正常試料は、ある特定の態様では、例えば、患者のリンパ球、血液、唾液、口腔スワブにより得られた細胞、または他の非罹患組織を含む、患者の任意の非腫瘍組織から単離された核酸を含み得る。細胞不含核酸は、患者の血流中に存在するDNAまたはリボ核酸(RNA)の断片であり得る。好ましい実施形態では、循環細胞不含核酸は、患者の血漿または血清から得られたDNAの1つまたは複数の断片である。細胞不含核酸は、当該技術分野で公知の技法に従って単離することができ、これには、例えば、Qiagen(Venlo、Netherlands)のQIAmpシステム、Triton/Heat/Phenolプロトコール(THP)(Xueら、「Optimizing the Yield and Utility of Circulating Cell−Free DNA from Plasma and Serum」、Clin. Chim. Acta.、2009年、404巻(2号):100〜104頁)、平滑末端ライゲーション媒介型全ゲノム増幅(BL−WGA)(Liら、「Whole Genome Amplification of Plasma−Circulating DNA Enables Expanded Screening for Allelic Imbalance in Plasma」、J. Mol Diagn. 2006年2月、8巻(1号):22〜30頁)、またはMacherey−Nagel,GmbH&Co.KG(Duren、Germany)のNucleoSpinシステムが挙げられる。例示的な実施形態では、血液試料を患者から採取し、血漿を遠心分離によって単離する。循環細胞不含核酸を、次いで、上述の技法のうちのいずれかによって単離することができる。
ある特定の実施形態によると、核酸は、患者の腫瘍組織または非腫瘍組織から抽出してもよい。腫瘍DNAは、例えば、凍結組織またはFFPE組織から、Qiagen DNA FFPE組織キットまたはQiagen DNA血液ミニキット(Qiagen、CA)を使用して、一致する血液試料または唾液試料とともに抽出することができる。
組織または細胞を患者から採取した後、核酸を単離するために、細胞を溶解または断片化することが好ましい場合がある。溶解方法は、当該技術分野で公知である。例えば、溶解方法としては、超音波処理、凍結、煮沸、界面活性剤への曝露、またはアルカリ性条件もしくは酸性条件への曝露のうちの1つまたは複数を挙げることができる。界面活性剤の濃度は、最大で、界面活性剤が溶液中に可溶性にとどまる量であり得る。界面活性剤、特に、穏やかかつ非変性であるものは、試料を可溶化するように作用し得る。界面活性剤は、イオン性であっても非イオン性であってもよい。非イオン性界面活性剤の例としては、トリトン、例えば、Triton(登録商標)Xシリーズ(Triton(登録商標)X−100 t−Oct−C6H4−(OCH2−CH2)xOH、x=9〜10、Triton(登録商標)X−100R、Triton(登録商標)X−114、x=7〜8)、オクチルグルコシド、ポリオキシエチレン(9)ドデシルエーテル、ジギトニン、IGEPAL(登録商標)CA630オクチルフェニルポリエチレングリコール、n−オクチル−ベータ−D−グルコピラノシド(ベータOG)、n−ドデシル−ベータ、Tween(登録商標)20ポリエチレングリコールソルビタンモノラウレート、Tween(登録商標)80ポリエチレングリコールソルビタンモノオレエート、ポリドカノール、n−ドデシルベータ−D−マルトシド(DDM)、NP−40ノニルフェニルポリエチレングリコール、C12E8(オクタエチレングリコールn−ドデシルモノエーテル)、ヘキサエチレングリコールモノ−n−テトラデシルエーテル(C14EO6)、オクチル−ベータ−チオグルコピラノシド(オクチルチオグルコシド、OTG)、Emulgen、およびポリオキシエチレン10ラウリルエーテル(C12E10)が挙げられる。イオン性界面活性剤(アニオン性またはカチオン性)の例としては、デオキシコール酸塩、ドデシル硫酸ナトリウム(SDS)、N−ラウロイルサルコシン、およびセチルトリメチルアンモニウムブロミド(CTAB)が挙げられる。双性イオン性試薬、例えば、Chaps、双性イオン3〜14、および3−[(3−コラミドプロピル)ジメチル−アンモニオ]−1−プロパンスルホネートもまた、本発明の精製スキームにおいて使用することができる。尿素を、別の界面活性剤もしくは表面活性剤とともに、またはそれらを伴わずに、添加してもよいことも企図される。
溶解または均質化溶液は、還元剤などの他の作用剤をさらに含有してもよい。そのような還元剤の例としては、ジチオスレイトール(DTT)、β−メルカプトエタノール、DTE、GSH、システイン、システミン、トリカルボキシエチルホスフィン(TCEP)、または亜硫酸の塩が挙げられる。
例として、溶解手順または断片化手順は、Illumina TruSeqライブラリー構築(Illumina、San Diego、CA)を製造業者の説明書に従って使用して行うことができる。例えば、100マイクロリットル(μl)のTE中の50ナノグラム(ng)〜3マイクログラム(μg)のゲノムDNAを、Covaris超音波処理装置(Covaris、Woburn、MA)で150〜450bpのサイズに断片化することができる。150bpよりも小さい断片を除去するために、DNAを、Agencourt AMPure XPビーズ(Beckman Coulter、IN)を製造業者の説明書に従ってPCR産物対ビーズの比1.0:0.9で使用して2回精製し、70%エタノールを使用して洗浄してもよい。
精製した断片化DNAを、例えば、36μlのH2O、10μlのEnd Repair Reaction Buffer、5μlのEnd Repair Enzyme Mix(カタログ番号E6050、NEB、Ipswich、MA)と混合してもよい。100μlの末端修復混合物を、20℃で30分間インキュベートし、Agencourt AMPure XPビーズ(Beckman Coulter、IN)を製造業者の説明書に従ってPCR産物対ビーズの比1.0:1.25で使用して精製し、70%エタノールを使用して洗浄してもよい。A尾部に、42μlの末端修復したDNAを、5μlの10×dA Tailing Reaction Bufferおよび3μlのKlenow(エクソ−)(カタログ番号E6053、NEB、Ipswich、MA)と混合してもよい。50μlの混合物を、37℃で30分間インキュベートし、Agencourt AMPure XPビーズ(Beckman Coulter、IN)を製造業者の説明書に従ってPCR産物対ビーズの比1.0:1.0で使用して精製し、70%エタノールを使用して洗浄してもよい。アダプターライゲーションについては、25μlのA尾部つきDNAを、6.7μlのH2O、3.3μlのPE−アダプター(Illumina)、10μlの5×ライゲーション緩衝液、および5μlのQuick T4 DNAリガーゼ(カタログ番号E6056、NEB、Ipswich、MA)と混合してもよい。ライゲーション混合物を、20℃で15分間インキュベートし、Agencourt AMPure XPビーズ(Beckman Coulter、IN)を製造業者の説明書に従ってPCR産物対ビーズの比1.0:0.95および1.0:1.0で使用して2回精製し、70%エタノールを使用して洗浄してもよい。
核酸の量が分析には不十分である場合は、一般的な技法を使用して、核酸を増幅させることによって量を増やす。増幅とは、核酸配列の追加のコピーを生成することを指し、増幅は、一般に、ポリメラーゼ連鎖反応または当該技術分野で周知の他の技術(例えば、DieffenbachおよびDveksler、PCR Primer, a Laboratory Manual、1995年、Cold Spring Harbor Press、Plainview、NY)を使用して実行される。
例として、増幅されたライブラリーを得るために、それぞれが25μlの12のPCRを設定してもよく、これは、それぞれが、15.5μlのH2O、5μlの5×Phusion HF緩衝液、0.5μlのdNTPミックス(各dNTPを10mMずつ含む)、1.25μlのDMSO、0.25μlのIllumina PEプライマー番号1、0.25μlのIllumina PEプライマー番号2、0.25μlのHotstart Phusionポリメラーゼ、および2μlのDNAを含んでいる。98℃で2分間;98℃で15秒間、65℃で30秒間、72℃で30秒間を12サイクル;および72℃で5分間などのPCRプログラムを使用してもよい。DNAを、Agencourt AMPure XPビーズ(Beckman Coulter、IN)を製造業者の説明書に従ってPCR産物対ビーズの比1.0:1.0で使用して精製し、70%エタノールを使用して洗浄してもよい。エクソン領域または標的となる領域を、Agilent SureSelect v.4キットまたは111個の目的の遺伝子の標的を定めた特注のパネルを製造業者の説明書(Agilent、Santa Clara、CA)に従って使用して、溶液中に捕捉することができる。捕捉したライブラリーを、次いで、Qiagen MinEluteカラム精製キットを用いて精製し、17μlの70℃ EB中に溶出させて、15μlの捕捉DNAライブラリーを得てもよい。捕捉DNAライブラリーを、次のように増幅させてもよい:それぞれが19μlのH2O、6μlの5×Phusion HF緩衝液、0.6μlの10mM dNTP、1.5μlのDMSO、0.30μlのIllumina PEプライマー番号1、0.30μlのIllumina PEプライマー番号2、0.30μlのHotstart Phusionポリメラーゼ、および2μlの捕捉エクソームライブラリーを含む、30uLのPCR反応物8つを、設定することができる。98℃で30秒間;98℃で10秒間、65℃で30秒間、72℃で30秒間を14サイクル(エクソーム)または16サイクル(標的を定めたもの);および72℃で5分間などのPCRプログラムを使用してもよい。PCR産物を精製するために、NucleoSpin Extract II精製キット(Macherey−Nagel、PA)を、製造業者の説明書に従って使用してもよい。
増幅反応は、代替として、ポリメラーゼ連鎖反応、入籠ポリメラーゼ連鎖反応、ポリメラーゼ連鎖反応一本鎖高次構造多型分析、リガーゼ連鎖反応(Barany, F.、Genome Research、1巻:5〜16頁(1991年);Barany, F.、PNAS、88巻:189〜193頁(1991年);米国特許第5,869,252号;および米国特許第6,100,099号)、鎖置換増幅および制限断片長多型分析、転写に基づく増幅系、ローリングサークル増幅、ならびに超分岐ローリングサークル増幅(hyper−branched rolling circle amplification)など、核酸分子を増幅させるような当該技術分野で公知の任意の反応であってもよい。使用することができる増幅技法のさらなる例としては、定量PCR、定量蛍光PCR(QF−PCR)、多重蛍光PCR(MF−PCR)、リアルタイムPCR(RTPCR)、単一細胞PCR、制限断片長多型PCR(PCR−RFLP)、RT−PCR−RFLP、ホットスタートPCR、インサイチュポロノニー(in situ polonony)PCR、インサイチュローリングサークル増幅(RCA)、ブリッジPCR、ピコタイター(picotiter)PCR、およびエマルジョンPCRが挙げられるがこれらに限定されない。他の好適な増幅方法としては、転写増幅、自家持続配列複製法、標的ポリヌクレオチド配列の選択的増幅、コンセンサス配列プライムポリメラーゼ連鎖反応(consensus sequence primed polymerase chain reaction、CP−PCR)、任意プライムポリメラーゼ連鎖反応(arbitrarily primed polymerase chain reaction、AP−PCR)、縮重オリゴヌクレオチドプライムPCR(DOP−PCR)、および核酸に基づく配列増幅(NABSA)が挙げられる。本明細書において使用することができる他の増幅方法としては、米国特許第5,242,794号、同第5,494,810号、同第4,988,617号、および同第6,582,938号に記載のものが挙げられる。
ある特定の実施形態では、増幅反応は、ポリメラーゼ連鎖反応である。ポリメラーゼ連鎖反応(PCR)は、K.B.Mullis(参照により本明細書に組み込まれる米国特許第4,683,195号および同第4,683,202号)による、クローニングも精製も行うことなく、ゲノムDNAの混合物において標的配列のセグメントの濃度を増加させるための方法を指す。
プライマーは、当該技術分野で周知の方法(Narangら、Methods Enzymol.、68巻:90頁(1979年);Brownら、Methods Enzymol.、68巻:109頁(1979年))を使用した適切な配列のクローニングおよび直接化学合成を含むがこれらに限定されない、様々な方法によって調製することができる。プライマーはまた、Operon Technologies、Amersham Pharmacia Biotech、Sigma、およびLife Technologiesといった商業的供給源から入手することもできる。プライマーは、同一の融解温度を有し得る。プライマーの長さは、所望される融解温度を有するプライマーを生成するように、5’末端または3’末端において伸長または短縮させることができる。また、各プライマー対のアニーリング位置は、プライマー対の配列および長さが所望される融解温度をもたらすように設計され得る。25塩基対よりも小さいプライマーの融解温度を決定するための最も単純な等式は、Wallace Rule(Td=2(A+T)+4(G+C))である。以下のものに限定されないが、Arrayit Corporation(Sunnyvale、CA)のArray Designer Software、Olympus Optical Co.,Ltd.(Tokyo、Japan)のOligonucleotide Probe Sequence Design Software for Genetic Analysis、NetPrimer、およびHitachi Solutions America,Ltd.(South San Francisco、CA)のDNAsis Max v3.0といったコンピュータープログラムを使用してプライマーを設計することもできる。各プライマーのTM(融解温度またはアニーリング温度)は、Integrated DNA Technologies,Inc.(Coralville、IA)のウェブサイトで利用可能なOligoAnalyzer 3.1などのソフトウェアプログラムを使用して計算される。
増幅アダプターを、断片化した核酸に付加してもよい。アダプターは、Integrated DNA Technologies(Coralville、IA)などから、商業的に入手することができる。ある特定の実施形態では、アダプター配列は、酵素を用いて鋳型核酸分子に付加される。酵素は、リガーゼまたはポリメラーゼであり得る。リガーゼは、オリゴヌクレオチド(RNAまたはDNA)を鋳型核酸分子にライゲーションすることができる任意の酵素であり得る。好適なリガーゼとしては、New England Biolabs(Ipswich、MA)から商業的に入手可能なT4 DNAリガーゼおよびT4 RNAリガーゼが挙げられる。リガーゼを使用するための方法は、当該技術分野で周知である。ポリメラーゼは、ヌクレオチドを、鋳型核酸分子の3’末端および5’末端に付加することができる任意の酵素であり得る。
ライゲーションは、平滑末端化であってもよく、または相補的オーバーハング末端の使用を通じたものであってもよい。ある特定の実施形態では、断片化に続いて、断片の末端を、修復、トリミング(例えば、エクソヌクレアーゼを使用して)、または充填(例えば、ポリメラーゼおよびdNTPを使用して)して、平滑末端を形成してもよい。一部の実施形態では、末端修復は、Epicentre Biotechnologies(Madison、WI)から入手可能なものなど、市販のキットを使用して、平滑末端の5’リン酸化核酸末端を生成するために行われる。平滑末端を生成した後、末端を、ポリメラーゼおよびdATPで処理して、鋳型に依存しない断片の3’末端および5’末端への付加を形成し、それによって単一のAオーバーハングが生じる。この単一のAは、T−Aクローニングと称される方法において、5’末端からの単一のTオーバーハングを有する断片のライゲーションを誘導するために使用される。
あるいは、制限酵素によって残るオーバーハングの可能性のある組合せが制限酵素消化後に判明するため、末端は、そのままの状態であってもよい、すなわち、不規則末端(ragged end)であってもよい。ある特定の実施形態では、相補的オーバーハング末端を有する二本鎖オリゴヌクレオチドが使用される。
ある特定の実施形態では、単一のバーコードが、各断片に付加される。他の実施形態では、複数のバーコード、例えば、2つのバーコードが、各断片に付加される。
十分な核酸試料が得られた後、それらを配列決定して、正常配列および腫瘍配列を比較することができるように、核酸試料がどの核酸残基を含んでいるかを決定する必要がある。サンガー配列決定および様々な種類の次世代シーケンシングを含む、当該技術分野で公知の様々な配列決定方法が存在し、これらは、以下により詳細に記載されている。
古典的なサンガー配列決定は、一本鎖DNA鋳型、DNAプライマー、DNAポリメラーゼ、放射性標識または蛍光標識したヌクレオチド、およびDNA鎖の伸展を終結させる修飾ヌクレオチドを伴う。標識がジデオキシヌクレオチド終結因子(例えば、標識プライマー)に付加されていないか、または標識が単色標識(例えば、放射性同位体)である場合、DNA試料は、4種類の標準的なデオキシヌクレオチド(dATP、dGTP、dCTP、およびdTTP)ならびにDNAポリメラーゼを含む4つの別個の配列決定反応に分割される。各反応には、4種類のジデオキシヌクレオチド(ddATP、ddGTP、ddCTP、またはddTTP)のうちの1つのみが添加される。これらのジデオキシヌクレオチドは、鎖を終結させるヌクレオチドであり、DNA鎖の伸展時に2つのヌクレオチド間のホスホジエステル結合の形成に必要な3’−OH基が欠けている。ジデオキシヌクレオチドのそれぞれが異なる標識(例えば、4種類の異なる蛍光色素)を有する場合は、しかしながら、すべての配列決定反応は、別個に行う必要はなく、一緒に行うことができる。
ジデオキシヌクレオチドを発生期のDNA、すなわち、伸展しているDNA鎖に組み込むことにより、DNA鎖の伸長が終結され、結果として、様々な長さのDNA断片が入籠になったセットが得られる。新たに合成され、標識されたDNA断片を変性させ、鎖長における1塩基の違いを解読することができる変性ポリアクリルアミド−尿素ゲルでのゲル電気泳動を使用してサイズ毎に分離させる。4種類のDNA合成反応のそれぞれを同じ単色標識(例えば、放射性同位体)で標識した場合、それらを、ゲルの4つの個別の隣接するレーンのうちの1つに分離し、ここで、ゲルの各レーンは、それぞれの反応に使用されるジデオキシヌクレオチドに従って、すなわち、ゲルレーンA、T、G、Cと指定される。4種類の異なる標識を用いた場合、反応は、ゲルの単一のレーンにおいて組み合わせてもよい。DNAのバンドは、次いで、オートラジオグラフィーまたは蛍光によって可視化され、DNA配列を、X線フィルムまたはゲル画像から直接読み取ることができる。
反応に添加した、このバンドまたはその対応する直接標識をもたらしたジデオキシヌクレオチドに応じて、末端ヌクレオチド塩基を特定する。次いで、ゲルの異なるバンドの相対位置を使用して、示されるようにDNA配列を(最も短いものから最も長いものまで)読み取る。サンガー配列決定プロセスは、PerkinElmer、Beckman Coulter、Life Technologiesなどから商業的に利用可能なものなど、DNAシーケンサーを使用して自動化することができる。
配列決定技術の他の広範なカテゴリは、次世代シーケンシングすなわちNGSである。次世代シーケンシング技術は、低費用高スループットの配列決定を提供する。次世代は、典型的に、多数の独立したリードをもたらし、このリードのそれぞれが、核酸の10〜1000塩基の任意の場所を表す。核酸は、概して、信頼性のために冗長に配列決定され、単位面積当たりの反復(replicate)は「網羅度(coverage)」(すなわち、「10×網羅度」または「100×網羅度」)として示す。したがって、複数遺伝子の遺伝子スクリーニングは、数百万のリードを生成し得る。
合成による配列決定は、次世代手順で使用される一般的な技法であり、本発明で良好に機能する。しかしながら、ライゲーションによる配列決定、ハイブリダイゼーションによる配列決定、ゲルに基づく技法などを含む、他の配列決定方法を使用してもよい。一般に、配列決定は、プライマーを鋳型にハイブリダイズして、鋳型/プライマーの二重鎖を形成し、この二重鎖を、検出可能に標識したヌクレオチドの存在下において、ポリメラーゼが鋳型依存性の様式でプライマーにヌクレオチドを付加するのを可能にする条件下で、ポリメラーゼと接触させることを伴う。次いで、検出可能な標識からのシグナルを使用して、組み込まれた塩基を特定し、鋳型におけるヌクレオチドの線形順序を決定するために、これらのステップを順に繰り返す。例示的な検出可能標識としては、放射性標識、蛍光標識、酵素標識などが挙げられる。特定の実施形態では、検出可能な標識は、蛍光標識などの光学的に検出可能な標識であり得る。例示的な蛍光標識としては、シアニン、ローダミン、フルオレセイン、クマリン、BODIPY、alexa、または複数の色素をコンジュゲートしたものが挙げられる。配列を検出するための多数の技法が公知であり、いくつかを、以下に例示する。しかしながら、配列データを検出およびコンパイルする厳密な手段は、本明細書に記載される発明の機能に影響を及ぼさない。
好ましい実施形態では、核酸は、単一分子配列決定を使用して検出される。提供される本発明の方法において使用することができる配列決定技術の例は、Illumina配列決定である。Illumina配列決定は、折り返しPCR(fold−back PCR)およびアンカープライマーを使用した固体表面におけるDNAの増幅に基づく。ゲノムDNAを断片化し、アダプターを断片の5’末端および3’末端に付加する。フローセルチャネルの表面に結合したDNA断片を伸長させ、ブリッジを増幅させる。断片が、二本鎖となり、この二本鎖分子を変性させる。固相増幅に続いて変性を複数サイクル行うことにより、およそ1,000個の同じ鋳型の一本鎖DNA分子コピーがフローセルの各チャネルに数百万クラスター生じる。プライマー、DNAポリメラーゼ、および4種類のフルオロフォアで標識した可逆的に終結させるヌクレオチドを使用して、逐次的な配列決定を行う。ヌクレオチド組込みの後、レーザーを使用して、フルオロフォアを励起し、画像を捕捉し、第1の塩基の正体を記録する。組み込まれたそれぞれの塩基から3’終結因子およびフルオロフォアを除去し、組込みステップ、検出ステップ、および特定ステップを繰り返す。
提供される本発明の方法における使用に好適な単一分子配列決定技法の別の例は、Ion Torrent配列決定(米国特許出願公開第2009/0026082号、同第2009/0127589号、同第2010/0035252号、同第2010/0137143号、同第2010/0188073号、同第2010/0197507号、同第2010/0282617号、同第2010/0300559号)、同第2010/0300895号、同第2010/0301398号、および同第2010/0304982号)であり、これらのそれぞれの内容は、参照によりその全体が本明細書に組み込まれる。Ion Torrent配列決定では、DNAを、およそ300〜800塩基対の断片にせん断し、これらの断片を、平滑末端化する。オリゴヌクレオチドアダプターを、次いで、断片の末端にライゲーションさせる。アダプターは、断片の増幅および配列決定のためのプライマーとして機能する。断片は、表面に結合させることができ、断片は、断片が個別に解読できるような分解能で結合される。1つまたは複数のヌクレオチドの付加により、プロトン(H+)が放出され、このシグナルを、配列決定機器で検出し、記録する。シグナル強度は、組み込まれたヌクレオチドの数に比例する。ユーザーガイド、例えば、Life Technologiesの「Ion Sequencing Kit for User Guide v.2.0」という表題の文献では、同社の配列決定プラットフォームPersonal Genome Machine(商標)(PCG)とともに使用するための、本発明の方法において使用するのに好適なIon Torrentプロトコールが詳細に説明されている。
提供される本発明の方法において使用することができるDNA配列決定技法の別の例は、454配列決定(Roche)である(Margulies, Mら、2005年、Nature、437巻、376〜380頁)。454配列決定は、2つのステップを伴う。第1のステップでは、DNAを、およそ300〜800塩基対の断片にせん断し、これらの断片を、平滑末端化する。オリゴヌクレオチドアダプターを、次いで、断片の末端にライゲーションさせる。アダプターは、断片の増幅および配列決定のためのプライマーとして機能する。断片を、例えば、5’ビオチンタグを含むAdaptor Bを使用して、DNA捕捉ビーズ、例えばストレプトアビジンコーティングビーズに結合させる。ビーズに結合した断片を、油−水エマルジョンの液滴内でPCR増幅させる。結果として、クローン増幅されたDNA断片の複数コピーが各ビーズに生じる。第2のステップでは、ビーズを、ウェル(ピコリットルサイズ)に捕捉する。パイロシーケンシングを、各DNA断片において、並列に行う。1つまたは複数のヌクレオチドの付加により、光シグナルが生じ、これを、配列決定機器のCCDカメラによって記録する。シグナル強度は、組み込まれたヌクレオチドの数に比例する。パイロシーケンシングは、ヌクレオチド付加時に放出されるピロホスフェート(pyrophosphate、PPi)を利用する。PPiは、アデノシン5’ホスホスルフェートの存在下においてATPスルフリラーゼによってATPに変換される。ルシフェラーゼは、ATPを使用して、ルシフェリンをオキシルシフェリンに変換し、この反応により光が生じ、これを検出し、分析する。
提供される本発明の方法において使用することができるDNA配列決定技法の別の例は、SOLiD技術(Applied Biosystems)である。SOLiD配列決定では、ゲノムDNAを断片にせん断し、これらの断片の5’末端および3’末端にアダプターを付加して、断片ライブラリーを生成する。あるいは、内部アダプターを、次のように導入してもよい:断片の5’末端および3’末端にアダプターをライゲーションし、断片を環状化し、環状化した断片を、内部アダプターを生成するように消化し、得られた断片の5’末端および3’末端にアダプターを付加して、メイトペアライブラリーを生成する。次いで、ビーズ、プライマー、鋳型、およびPCR成分を含むマイクロリアクターにおいて、クローンビーズ集団を調製する。PCRに続いて、鋳型を変性させ、ビーズを富化して、伸長した鋳型を有するビーズを分離させる。選択したビーズの鋳型を、3’末端修飾に供し、これによりガラススライドへの結合を可能にする。特異的なフルオロフォアによって特定された中央に決定された塩基(または塩基対)を有する部分的にランダムなオリゴヌクレオチドの逐次的なハイブリダイゼーションおよびライゲーションによって、配列を決定することができる。色を記録した後、ライゲーションしたオリゴヌクレオチドを切断および除去し、次いで、このプロセスを繰り返す。
提供される本発明の方法において使用することができる配列決定技術の別の例としては、Pacific Biosciencesの単一分子リアルタイム(SMRT)技術である。SMRTでは、4種類のDNA塩基のそれぞれを、4種類の異なる蛍光色素のうちの1つに付加させる。これらの色素をホスホ結合(phospholink)させる。単一のDNAポリメラーゼを、ゼロモード導波管(zero−mode waveguide、ZMW)の底部に、単一の鋳型一本鎖DNA分子とともに固定する。ZMWは、ZMWを出ると急速に(マイクロ秒で)拡散する蛍光ヌクレオチドのバックグラウンドに対する、DNAポリメラーゼによる単一ヌクレオチドの組込みの観察を可能にする閉じ込め構造である。成長している鎖にヌクレオチドを組み込むには、数ミリ秒かかる。この時間中に、蛍光標識を励起し、蛍光シグナルを生成し、蛍光タグを切断する。色素の対応する蛍光の検出は、どの塩基が組み込まれたかを示す。このプロセスを繰り返す。
提供される本発明の方法において使用することができる配列決定技法の別の例は、ナノ細孔配列決定である(Soni G VおよびMeller A.(2007年)Clin Chem 53巻:1996〜2001頁)。ナノ細孔は、直径が1ナノメートル程度の小さい穴である。ナノ細孔を伝導性流体に浸漬させ、それを横切って電位を印加すると、イオンがナノ細孔を通って伝導することに起因して、微量の電流が生じる。流れる電流の量は、ナノ細孔のサイズに敏感である。DNA分子がナノ細孔を通るとき、DNA分子上の各ヌクレオチドは、様々な程度でナノ細孔を塞ぐ。したがって、DNA分子がナノ細孔を通過するときのナノ細孔を通過する電流の変化が、DNA配列の読み取りを表す。行う必要のある診断がどの種類であるかに応じて、全ゲノムを配列決定してもよく、または特に目的とされる特定の部分のみを配列決定してもよい。
ある特定の実施形態では、腫瘍試料および正常試料の両方について、全ゲノムの配列決定を行う。全ゲノムアッセイは、患者が有するがんが未知であり、存在する変異を正確に示すために広範なアプローチが必要である場合に、望ましい場合がある。腫瘍核酸をctDNAから単離する場合、およびそれ以外では腫瘍の種類または位置が未知である場合には、全ゲノムを分析することが望ましい場合がある。ctDNAにおける変異には、身体における多数の腫瘍に由来する変異が含まれる可能性があるため、ctDNAに対する広範な分析を行うことにより、身体におけるがんの進行の状況をより完全に把握することになる。
経済的理由および効率的理由のために、エクソームのみを分析することが望ましい場合がある。エクソームは、ゲノムのコード領域であり、全ゲノムのうちのほんの約1%を構成する。エクソームは、発現されるゲノムの領域であるため、ほとんどのがんの変異の標的である。ctDNAを単離し、エクソームのみを分析することでも、身体に存在するがんの幅広い見解が得られ、全ゲノムの配列決定よりも簡単かつ安価である。エクソームは、全ゲノムの配列決定が法外に高価であるか、または非効率的である場合に、手始めとして適している。
別の実施形態では、既知のがん関連遺伝子の広範なパネルをアッセイしてもよい。図2および3は、既知のがん遺伝子のパネルおよびそれらをスクリーニングすることができる手法の様々な非限定的例を示す。
図2は、ヒトのがんにおいて生物学的および臨床的に重要な111種類の遺伝子を示し、これらの遺伝子のコード領域が、変異に関して分析され得る。このパネルに網羅されるいくつかの種類のがんは、乳がん、結腸直腸がん、白血病、前立腺がん、およびリンパ腫である。このアッセイにおいて配列決定される遺伝子の数は全ゲノムまたは全エクソームのアプローチよりも大幅に少ないとはいえ、依然として、ヒトのがんの広い範囲を網羅している。
図3は、構造上の多様性が疾患を表す傾向にある遺伝子を示す。図3は、コピー数の多様性が疾患を表す傾向にある63種類の遺伝子および転座ががんを表すことの多い17種類のがん遺伝子を示す。コピー数の表内の63種類の遺伝子を、コピー数の多様性に関して選択的にスクリーニングする。転座の表の17種類の遺伝子を、転座に関して分析する。図2および3に示されるパネルは、構築することができるパネルの種類および行われるアッセイの種類のうち、ほんの一部の非限定的な例である。当業者であれば、特定の種類のがんと関連する特定の種類の変異または遺伝子を標的とすることを含む、標的を定めたパネルが多数の目的で作成され得ることを理解するであろう。パネルは、1種類の変異に関してアッセイしてもよく、または複数種類の変異に関してスクリーニングしてもよい。
別の実施形態では、選択的遺伝子パネルを配列決定してもよい。標的を定めたアプローチは、患者が有するがんが既知であり、そのため、アッセイがそのがんに関連する遺伝子に焦点を当てることができる場合に、有用であり得る。例えば、生検標本を乳房の腫瘍から採取する場合、腫瘍DNAを既知の乳がんマーカーの選択的パネルに関してアッセイすることが、より経済的かつ効率的であろう。患者は特定の種類のがんを有しているとみられるが、がんの種類または位置が理由で生検が実行可能でないと考えられる場合、標的を定めたアプローチを、ctDNAにも同様に使用することができる。
標的を定めたアプローチを使用する別の可能性のある理由は、患者がある特定の種類のがんの家族歴を有する場合、または集団遺伝学に起因してある特定のがんの危険性が高い患者の場合である。標的を定めた遺伝子パネルは、ある特定の危険因子に曝されている患者を試験するために使用してもよい。例えば、患者が喫煙者である場合、高い肺がんの危険性と関連付けられているある特定のバイオマーカーに関して患者を試験することが有用であり得る。
ある特定の実施形態では、本発明の方法は、乳がん、膀胱がん、骨がん、脳がん、子宮頸がん、食道がん、ホジキン病、腎臓がん、白血病、肝臓がん、肺がん、リンパ腫、卵巣がん、前立腺がん、甲状腺がん、遺伝的根拠を有することが既知の任意の他のがん、またはこれらの任意の組合せと関連することが既知の遺伝子を分析することを対象とする。遺伝子パネルは、新しいがん遺伝子が発見されたときに、設計され得る。
核酸は、信頼性のために、10×、100×、250×、1000×、またはそれ超の網羅度で冗長に配列決定してもよい。
核酸を配列決定した後、腫瘍配列決定リードおよび正常配列決定リードを、次いで、コンパイルしてコンセンサス配列にする。配列決定リードのコンセンサス配列は、得られた配列決定リードを用いてコンティグを形成することによって、または配列決定リードを基準に対してアラインメントすることによって、生成することができる。腫瘍コンセンサス配列および正常コンセンサス配列は、同じ方法または異なる方法によって形成され得る。ある特定の実施形態では、本発明の方法は、腫瘍配列のコンティグおよび正常配列のコンティグをアセンブルして、腫瘍核酸および正常核酸のコンセンサス配列を生成することを伴う。生成した後、腫瘍のコンセンサス配列および正常のコンセンサス配列を、互いに比較することができる。さらなる実施形態では、本発明の方法は、腫瘍配列リードを基準に対してアラインメントして腫瘍コンセンサス配列を生成し、正常配列リードを基準に対してアラインメントして正常コンセンサス配列を生成し、次いで、腫瘍コンセンサス配列と正常コンセンサス配列とを比較することを伴う。コンセンサス配列を形成した後、正常コンセンサス配列とコンセンサス配列とを比較して、多様性を特定する。
コンティグをアセンブルし、コンセンサス配列を生成する別の手法は、以下に考察されている。
コンティグとは、一般に、核酸配列の複数のセグメント間、例えば、リード間の関連性を指す。配列リードが重複する場合、コンティグは、オーバーラップしているリードの重なった像として表され得る。コンティグは、任意の特定の視覚的配置、例えばテキストファイルまたはデータベース内における任意の特定の配置によって定義されることも、これらに限定されることもない。コンティグは、一般に、配列決定した核酸の一部分に対応するように体系化されたいくつかのリードからの配列データを含む。コンティグには、リードのセットまたはそれらの互いに対する位置もしくは基準に対する位置に関する情報といった、表示または保存されたアセンブリ結果が含まれ得る。コンティグは、グリッドとして構成されてもよく、ここで行が個々の配列リードであり、列には、その部位に対してアラインメントすることが推測される各リードの塩基が含まれる。コンセンサス配列は、アセンブリの各列における主要な塩基を特定することによって作製することができる。本発明によるコンティグは、リードが互いにオーバーラップしている(すなわち、例えば単純に隣接しているのではない)ことを示す、リードの視覚的表示を含み得る。コンティグには、複数のリードと関連付けられ、リードの互いに対する位置を示す、1セットの座標が含まれ得る。コンティグは、リードの配列データを変換することによって得られたデータを含んでもよい。例えば、Burrows−Wheeler変換をリードに行うことができ、コンティグは、リードの未変換配列を必ずしも含むわけではない変換データを含み得る。ヌクレオチド配列データのBurrows−Wheeler変換は、米国公開第2005/0032095号に記載され、これは、参照によりその全体が本明細書に組み込まれる。
リードは、当該技術分野で公知の任意の方法によってコンティグにアセンブルすることができる。複数の配列リードのデノボアセンブリのためのアルゴリズムは、当該技術分野で公知である。配列リードをアセンブルするための1つのアルゴリズムは、オーバーラップコンセンサスアセンブリとして知られている。オーバーラップコンセンサスアセンブリは、配列リード間のオーバーラップを使用して、それらの間に関連を作成する。リードは、一般に、ランダムでないオーバーラップを確保するのに十分にオーバーラップする領域によって連結される。この方法でリードを連結することにより、コンティグまたはオーバーラップグラフを生成し、ここでは、各ノードがリードに対応し、エッジが2つのリード間のオーバーラップを表す。オーバーラップグラフを用いたアセンブリは、例えば、米国特許第6,714,874号に記載されている。
一部の実施形態では、デノボアセンブリは、いわゆる貪欲アルゴリズム(greedy algorithm)により進行する。貪欲アルゴリズムによるアセンブリのために、リード群のリードのうちの1つを選択し、これを、実質的な量のオーバーラップを示す別のリードとペアリングさせるが、通常、これは、他のリードのすべてのうちで最大のオーバーラップを示すリードとペアリングされる。これら2つのリードを統合して、新しいリード配列を形成し、これを、次いで、リード群に戻し、プロセスを繰り返す。貪欲アルゴリズムによるアセンブリは、例えば、Schatzら、Genome Res.、20巻:1165〜1173頁(2010年)および米国公開第2011/0257889号に記載されており、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。
他の実施形態では、アセンブリは、ペアワイズアラインメント、例えば、徹底的または発見的(例えば、徹底的でない)ペアワイズアラインメントによって進行する。アラインメントは、概して、以下により詳細に考察される。時折「力任せ(brute force)」アプローチと呼ばれる、徹底的なペアワイズアラインメントは、1つのセット中でのすべての可能性のある配列ペア間のすべての可能性のあるアラインメントに対してアラインメントスコアを計算する。発見的な多重配列アラインメントによるアセンブリは、ある特定の数学的に可能性の低い組合せを無視し、これは、計算上、より高速であり得る。1つの発見的な多重配列アラインメントによるアセンブリ方法は、いわゆる「分割統治(divide−and−conquer)」発見法であり、これは、例えば、米国公開第2003/0224384号に記載されている。別の発見的な多重配列アラインメントによるアセンブリ方法は、ClustalWプログラムによって実行されるような進行的アラインメントである(例えば、Thompsonら、Nucl. Acids. Res.、22巻:4673〜80頁(1994年)を参照されたい)。一般に、多重配列アラインメントによるアセンブリは、Lecompte, O.ら、Gene 270巻:17〜30頁(2001年);Mullan, L.J.、Brief Bioinform.、3巻:303〜5頁(2002年);Nicholas, H.B.Jr.ら、Biotechniques 32巻:572〜91頁(2002年);およびXiong, G.、Essential Bioinformatics、2006年、Cambridge University Press、New York、NYに記載されている。
アラインメントによるアセンブリは、リードを互いにアラインメントすることによって、またはリードを基準に対してアラインメントすることによって、進行し得る。例えば、それぞれのリードを、基準ゲノムに対してアラインメントすることにより、リードのすべてが、互いに関連して位置付けられて、アセンブリが作成される。
リードをコンティグにアセンブルする1つの方法は、de Bruijnグラフを作製することを伴う。de Bruijnグラフは、リードを、k−merと呼ばれるより小さなDNA配列に分割することによって計算の労力を低減させ、ここで、パラメーターkは、これらの配列の塩基における長さを指す。de Bruijnグラフでは、すべてのリードをk−mer(リード内の長さkのすべての部分配列)に分割し、k−mer間の経路を計算する。この方法によるアセンブリでは、リードは、k−merを通る経路として表される。de Bruijnグラフは、これらのk−mer間の長さk−1のオーバーラップを捕捉し、実際のリード間は捕捉しない。したがって、例えば、CATGGAの配列決定は、次の2−mer:CA、AT、TG、GG、およびGAを通る経路として表すことができる。de Bruijnグラフのアプローチは、冗長性を上手く扱い、複雑な経路の計算を扱い易くする。全データセットをk−merオーバーラップに縮小することによって、de Bruijnグラフは、短いリードデータセットにおける高い冗長性を低減する。特定のアセンブリに対する最大限に効率的なk−merサイズは、リード長ならびにエラー率によって決定される。パラメーターkの値は、アセンブリの品質に大きな影響を及ぼす。良好な値の推測は、アセンブリの前に行われ得るか、または最適な値は、値の小さな範囲を試験することによって発見することができる。de Bruijnグラフを使用したリードのアセンブリは、米国公開第2011/0004413号、米国公開第2011/0015863号、および米国公開第2010/0063742号に記載されており、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。
本発明に従ってリードをコンティグにアセンブルする他の方法も可能である。例えば、リードは、配列決定の際に鋳型核酸に挿入されたバーコード情報を含んでいる場合がある。ある特定の実施形態では、リードは、バーコード情報を参照することによってコンティグにアセンブルする。例えば、バーコードは特定することができ、リードは、バーコードを一緒に位置付けることによって、アセンブルすることができる。
リードをコンティグにアセンブルすることは、さらに、Husemann, P.およびStoye, J、Phylogenetic Comparative Assembly、2009年、Algorithms in Bioinformatics: 9th International Workshop、145〜156頁、Salzberg, S.およびWarnow, T編、Springer−Verlag、Berlin Heidelbergに考察されている。リードをコンティグにアセンブルするためのいくつかの例示的な方法は、例えば、米国特許第6,223,128号、米国公開第2009/0298064号、米国公開第2010/0069263号、および米国公開第2011/0257889号に記載されており、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。
リードをアセンブルするためのコンピュータープログラムは、当該技術分野で公知である。このようなアセンブリプログラムは、単一汎用コンピューターにおいて、コンピュータークラスターもしくはネットワークにおいて、または配列分析専用に特化した計算デバイスにおいて、動作し得る。
アセンブリは、例えば、CanadaのMichael Smith Genome Sciences Centre(Vancouver、B.C.、CA)のプログラム「The Short Sequence Assembly by k−mer search and 3’ read Extension」(SSAKE)によって実行することができる(例えば、Warren, R.ら、Bioinformatics、23巻:500〜501頁(2007年)を参照されたい)。SSAKEは、リードの表を通して循環して、任意の2つの配列間の可能性のある最も長いオーバーラップに関して、プレフィックスツリー(prefix tree)を検索する。SSAKEは、リードをクラスター化してコンティグにする。
別のリードアセンブリプログラムは、Geeknet(Fairfax、VA)により維持されているSourceForgeウェブサイトを通じて利用可能な、Darren PlattおよびDirk Eversによって書かれたForge Genome Assemblerである(例えば、DiGuistini, S.ら、Genome Biology、10巻:R94頁(2009年)を参照されたい)。Forgeは、その計算およびメモリ消費を利用可能な場合は複数のノードに分散させ、したがって、多数のリードセットをアセンブルする能力を有する。Forgeは、並列MPIライブラリーを使用してC++で書かれた。Forgeは、リード、例えば、サンガーリード、454リード、およびIlluminaリードの混合物を扱うことができる。
多重配列アラインメントによるアセンブリは、例えば、University College Dublin(Dublin、Ireland)から入手可能な、Clustal Omegaプログラム(Sievers F.ら、Mol Syst Biol7巻(2011年))、ClustalW、またはClustalX(Larkin M.A.ら、Bioinformatics、23巻、2947〜2948頁(2007年))によって行うことができる。
当該技術分野で公知の別の例示的なリードアセンブリプログラムは、European Bioinformatics Institute(Hinxton、UK)のウェブサイトを通じて利用可能なVelvetである(Zerbino D.R.ら、Genome Research 18巻(5号):821〜829頁(2008年))。Velvetは、de Bruijnグラフに基づくアプローチを実行し、リードペアからの情報を使用し、様々なエラー訂正ステップを実行する。
リードアセンブリは、Beijing Genomics Institute(Beijing、CN)またはBGI Americas Corporation(Cambridge、MA)のウェブサイトを通じて利用可能なSOAPパッケージからのプログラムで実行することができる。例えば、SOAPdenovoプログラムは、de Bruijnグラフアプローチを実行する。SOAP3/GPUは、短いリードを基準配列に対してアラインメントする。
別のリードアセンブリプログラムは、CanadaのMichael Smith Genome Sciences Centre(Vancouver、B.C.、CA)からのABySSである(Simpson, J.T.ら、Genome Res.、19巻(6号):1117〜23頁(2009年))。ABySSは、de Bruijnグラフアプローチを使用し、並列環境で動作する。
リードアセンブリは、gsAssemblerまたはNewbler(NEW assemBLER)として知られているRocheのGS De Novo Assemblerによって行うことができ、これは、Roche 454シーケンサーからのリードをアセンブルするように設計されている(例えば、Kumar, S.ら、Genomics 11巻:571頁(2010年)およびMarguliesら、Nature 437巻:376〜380頁(2005年)に記載されている)。Newblerは、454 Flx Standardリードおよび454 Titaniumリード、ならびに単一リードおよびペア末端リードおよび任意選択でサンガーリードを受容する。Newblerは、32ビットまたは64ビットバージョンのLinux(登録商標)で動作する。Newblerは、コマンドラインまたはJava(登録商標)に基づくGUIインターフェースを介してアクセスすることができる。
University of OxfordのMario CaccamoおよびZamin Iqbalによって作成されたCortexは、リードアセンブリを含むゲノム分析のためのソフトウェアフレームワークである。Cortexは、コンセンサスゲノムアセンブリのためのcortex_conを含み、Spanu, P.D.ら、Science 330巻(6010号):1543〜46頁(2010年)に記載のように使用される。Cortexには、多様性および集団アセンブリのためのcortex_varを含み、Iqbalら、De novo assembly and genotyping of variants using colored de Bruijn graphs、Nature Genetics(近刊)に記載されており、Mills, R.E.ら、Nature 470巻:59〜65頁2010年)に記載のように使用される。Cortexは、作成者のウェブサイトを通じて入手可能であり、またGeeknet(Fairfax、VA)によって維持されているSourceForgeウェブサイトから入手することもできる。
他のリードアセンブリプログラムとしては、Real Time Genomics,Inc.のRTG Investigator(San Francisco、CA);iAssembler(Zhengら、BMC Bioinformatics 12巻:453頁(2011年));TgiCL Assembler(Perteaら、Bioinformatics 19巻(5号):651〜52頁(2003年));Heng LiによるMaq(Mapping and Assembly with Qualities)、Geeknet(Fairfax、VA)によって維持されているSourceForgeウェブサイトからダウンロード可能;Chevreux, B.らGenome Sequence Assembly Using Trace Signals and Additional Sequence Information、1999年、Computer Science and Biology: Proceedings of the German Conference on Bioinformatics (GCB) 99巻:45〜56頁に記載されている、MIRA3(Mimicking Intelligent Read Assembly);PGA4genomics(Zhao F.ら、Genomics. 94巻(4号):284〜6頁(2009年)に記載されている);ならびにPhrap(例えば、de la Bastide, M.およびMcCombie, W. R.、Current Protocols in Bioinformatics、17巻:11.4.1〜11.4.15頁(2007年)に記載されている)が挙げられる。CLCセルは、CLC bio Germany(Muehltal、Germany)から入手可能なNGSリードのリードマッピングおよびデノボアセンブリのためのde Bruijnグラフに基づくコンピュータープログラムである。
リードのアセンブリにより、1つまたは複数のコンティグが生成される。ホモ接合または単一標的の配列決定の場合、単一のコンティグが生成される。ヘテロ接合の二倍体標的の場合、希少な体細胞系変異または混合試料、例えば、2つまたはそれ超のコンティグが、生成され得る。各コンティグには、コンティグを構成するリードからの情報が含まれる。
リードをコンティグにアセンブルすることは、各コンティグに対応するコンセンサス配列を生成することにつながる。ある特定の実施形態では、コンセンサス配列は、アセンブルしたリード間で、各位置における最も共通した、または主要な、ヌクレオチドを指す。コンセンサス配列は、そのコンティグによって表される核酸配列の解釈を表し得る。
アラインメントは、本明細書に使用されるとき、一般に、1つの配列を別の配列と一緒にし、各配列に反復的にギャップを導入し、2つの配列がどれほど良好に一致するかをスコア付けし、好ましくは、基準に沿った様々な位置に対して繰り返すことを伴う。最も高いスコアの一致を、アラインメントと考え、配列間の歴史的な関連性に関する推論を表す。アラインメントにおいて、基準の不一致塩基と並ぶ位置のリードの塩基は、置換変異がその点に生じたことを示す。同様に、一方の配列が、他方の配列の塩基と並ぶ位置にキャップを含む場合、挿入変異または欠失変異(「挿入欠失(indel)」)が生じたと推測される。1つの配列が互いにアラインメントされていることを指定することが望ましい場合には、アラインメントは、ペアワイズアラインメントと称されることがある。多重配列アラインメントは、概して、例えば、一連のペアワイズアラインメントを含む、2つまたはそれ超の配列のアラインメントを指す。
一部の実施形態では、アラインメントのスコア付けは、置換または挿入欠失の確率に関する値を設定することを伴う。個々の塩基をアラインメントする場合、一致または不一致は、置換確率によるアラインメントスコアに寄与し、これは、例えば、一致に対して1、および不一致に対して0.33であり得る。挿入欠失は、ギャップペナルティ(例えば、−1であり得る)を、アラインメントスコアから差し引く。ギャップペナルティおよび置換確率は、配列がどのように変異したかに関する経験的な知識または事前の推定に基づき得る。これらの値は、結果として得られるアラインメントに影響する。具体的には、ギャップペナルティと置換確率との間の関連性は、結果として得られるアラインメントにおいて、置換が優先されるか、または挿入欠失が優先されるかに影響を及ぼす。
前述のように、アラインメントは、2つの配列、xおよびyの間の推測される関係性を表す。例えば、一部の実施形態では、配列xおよびyのアラインメントAは、xおよびyを、それぞれ、別の2つのストリング(string)x’およびy’にマッピングし、x’およびy’は、(i)|x’|=|y’|となり、(ii)x’およびy’から空白(space)を除去するとそれぞれxおよびyとなるはずであり、(iii)任意のiに関して、x’[i]およびy’[i]が両方とも空白とはなり得ないような、空白を含み得る。
ギャップは、x’またはy’のいずれかにおける連続的な空白の最大の部分ストリングである。アラインメントAは、次の3種類の領域を含み得る:(i)一致ペア(例えば、x’[i]=y’[i]、(ii)不一致ペア(例えば、x’[i]≠y’[i]、かつ両方が空白ではない)、または(iii)ギャップ(例えば、x’[i..j]もしくはy’[i..j]のいずれかがキャップである)。ある特定の実施形態では、一致ペアのみが、高い正のスコアaを有する。一部の実施形態では、不一致ペアは、一般に、負のスコアbを有し、長さrのギャップもまた、負のスコアg+rsを有し、ここで、g、sは0未満である。DNAについては、1つの一般的なスコア付けスキーム(例えば、BLASTによって使用される)では、スコアa=1、スコアb=−3、g=−5、およびs=−2となる。アラインメントAのスコアは、すべての一致ペア、不一致ペア、およびギャップのスコアの合計である。xおよびyのアラインメントスコアは、xおよびyのすべての可能性のあるアラインメント間で最大のスコアとして定義され得る。
一部の実施形態では、任意のペアは、置換確率の4×4のマトリクスBによって定義されるスコアaを有する。例えば、B(i,i)=1かつ0<B(i,j)i<>j<1は、1つの可能性のあるスコア付けシステムである。例えば、遷移が、トランスバージョンよりも生物学的に確率が高いと考えられる場合、マトリクスBは、B(C,T)=.7およびB(A,T)=.3を含み得るか、または所望されるかもしくは当該技術分野で公知の方法によって決定される任意の他の値のセットを含み得る。
本発明の一部の実施形態によるアラインメントには、ペアワイズアラインメントが含まれる。ペアワイズアラインメントは、一般に、m個の文字を有する配列Q(クエリ)およびn個の文字の基準ゲノムT(標的)に関して、QとTとの間の可能性のある局所アラインメントを見つけ、評価することを伴う。任意の1≦i≦nおよび1≦j≦mに関して、T[h..i]およびQ[k..j](h≦iであり、k≦jである)の可能性のある最大のアラインメントスコア(すなわち、i位で終了するTの任意の部分ストリングと、j位で終了するQの任意の部分ストリングとの最良のアラインメントスコア)が、計算される。これには、cm個の文字数(cは、類似性モデルに基づく定数である)のすべての部分ストリングを調べること、およびそれぞれの部分ストリングをQで別々にアラインメントすることが含まれ得る。各アラインメントをスコア付けし、好ましいスコアを有するアラインメントが、アラインメントとして受容される。一部の実施形態では、徹底的なペアワイズアラインメントが行われるが、このアラインメントは、一般に、上述のペアワイズアラインメントを含み、QとTとの間の可能性のあるすべての局所アラインメント(任意選択で、何らかの制限判定基準が適用される)がスコア付けされる。
一部の実施形態では、ペアワイズアラインメントは、ドットマトリクス方法、動的プログラミング方法、または単語方法(word method)により進行する。動的プログラミング方法は、一般に、Smith−Waterman(SW)アルゴリズムまたはNeedleman−Wunsch(NW)アルゴリズムを実行する。NWアルゴリズムによるアラインメントは、一般に、線形ギャップペナルティdを用いて類似性マトリクスS(a,b)(例えば、前述のマトリクスBなど)によりアラインメントした文字にスコア付けする。マトリクスS(a,b)により、一般に、置換確率が得られる。SWアルゴリズムは、NWアルゴリズムと類似しているが、任意の負のスコア付けマトリクスセルが、ゼロに設定されている。SWおよびNWアルゴリズム、ならびにそれらの実行は、米国特許第5,701,256号および米国公開第2009/0119313号により詳細に記載されており、これらは、参照によりその全体が本明細書に組み込まれる。これらの方法を実行するための当該技術分野で公知のコンピュータープログラムは、以下により詳細に記載される。
本発明によるアラインメントは、当該技術分野で公知の任意の好適なコンピュータープログラムを使用して行うことができる。
BWTアプローチを実行する1つの例示的なアラインメントプログラムは、Geeknet(Fairfax、VA)によって維持されているSourceForgeウェブサイトから入手可能なBurrows−Wheeler Aligner(BWA)である。BWAにより、リード、コンティグ、またはコンセンサス配列を基準に対してアラインメントすることができる。BWTは、ヌクレオチド1つ当たり2ビットのメモリを占め、典型的なデスクトップまたはラップトップコンピューターで4G塩基対ほどの長さのヌクレオチド配列にインデックスを付けることを可能にしている。予備処理には、BWTの構築(すなわち、基準のインデックス付け)および支持する補助データ構造が含まれる。
BWAは、いずれもBWTに基づく2つの異なるアルゴリズムを実行する。BWAによるアラインメントは、エラー率の低い(3%未満)、最大で約200bpの短いクエリのために設計されたbwa−shortアルゴリズムを使用して進行することができる(Li H.およびDurbin R. Bioinformatics、25巻:1754〜60頁(2009年))。第2のアルゴリズムであるBWA−SWは、より多くのエラーを伴う長いリードのために設計されている(Li H.およびDurbin R.(2010年)Fast and accurate long−read alignment with Burrows−Wheeler Transform. Bioinformatics, Epub.)。BWA−SWコンポーネントは、発見的なSmith−Watermanのようなアラインメントを行って、高スコアの局所ヒットを見出す。当業者であれば、bwa−swが、しばしば、「bwa−long」、「bwa longアルゴリズム」などと称されることを理解するであろう。このような使用法は、一般に、BWA−SWを指す。
あるバージョンのSmith−Watermanアルゴリズムを実行するアラインメントプログラムは、MUMmerであり、Geeknet(Fairfax、VA)によって維持されているSourceForgeウェブサイトから入手可能である。MUMmerは、全ゲノムを、完全形式またはドラフト形式で高速にアラインメントするためのシステムである(Kurtz, S.ら、Genome Biology、5巻:R12頁(2004年);Delcher, A.L.ら、Nucl. Acids Res.、27巻:11頁(1999年))。例えば、MUMmer 3.0は、2.4GHzのLinux(登録商標)デスクトップコンピューターで78MBのメモリを使用して、5メガ塩基のゲノム対間の全20塩基対またはそれ超の厳密な一致を、13.7秒で見出すことができる。MUMmerはまた、不完全なゲノムをアラインメントすることができ、ショットガン配列決定プロジェクトからの100sまたは1000sのコンティグに容易に扱うことができ、それらを、このシステムに含まれるNUCmerプログラムを使用して、別のセットのコンティグまたはゲノムに対してアラインメントする。種が、DNA配列アラインメントにより類似性を検出するには発散しすぎている場合は、PROmerプログラムにより、両方の入力配列の6フレーム翻訳に基づいてアラインメントを生成することができる。
本発明の実施形態によるアラインメントプログラムの別の例は、Kent Informatics(Santa Cruz、CA)からのBLATである(Kent, W.J.、Genome Research 4巻:656〜664頁(2002年))。BLAT(BLASTではない)は、RAMなどのメモリに、基準ゲノムのインデックスを保持する。インデックスは、すべての非オーバーラップk−merのものが含まれ(任意選択で、リピートに多く含まれるものに対するものを除く)、ここで、デフォルトではk=11である。ゲノム自体は、メモリに保持されない。インデックスを使用して、推定の相同性領域を見出し、これを、次いで、詳細なアラインメントのためにメモリにロードする。
別のアラインメントプログラムは、Beijing Genomics Institute(Beijing、CN)またはBGI Americas Corporation(Cambridge、MA)からのSOAP2である。SOAP2は、2方向BWTを実行する(Liら、Bioinformatics 25巻(15号):1966〜67頁(2009年);Liら、Bioinformatics 24巻(5号):713〜14頁(2008年))。
配列をアラインメントするための別のプログラムは、Bowtieである(Langmeadら、Genome Biology、10巻:R25頁(2009年))。Bowtieは、BWTを作製することにより、基準ゲノムにインデックスを付ける。
他の例示的なアラインメントプログラムとしては、次のものが挙げられる:Consensus Assessment of Sequence and Variation(CASAVA)ソフトウェア(Illumina、San Diego、CA)のEfficient Large−Scale Alignment of Nucleotide Databases(ELAND)またはELANDv2コンポーネント;Real Time Genomics,Inc.(San Francisco、CA)からのRTG Investigator;NovocraftからのNovoalign(Selangor、Malaysia);Exonerate、European Bioinformatics Institute(Hinxton、UK)(Slater, G.およびBirney, E.、BMC Bioinformatics 6巻:31頁(2005年))、University College Dublin(Dublin、Ireland)からのClustal Omega(Sievers F.ら、Mol Syst Biol 7、論文539(2011年));University College Dublin(Dublin、Ireland)からのClustalWまたはClustalX(Larkin M.A.ら、Bioinformatics、23巻、2947〜2948頁(2007年));ならびにFASTA、European Bioinformatics Institute(Hinxton、UK)(Pearson W.R.ら、PNAS 85巻(8号):2444〜8頁(1988年);Lipman, D.J.、Science 227巻(4693号):1435〜41頁(1985年))。
正常コンセンサス配列および腫瘍コンセンサス配列の比較後に、腫瘍配列を、この比較に基づいてフィルタリングする。フィルタリングは、配列間の相違に基づき、ここで、ある特定の閾値を満たさない(すなわち、配列が、同じまたは類似である)遺伝子座は、さらなる分析から除外される。これらの類似する配列を除外する目的は、特定の患者のゲノムと通常関連している配列または患者の正常なゲノムと十分に異なっていない配列を後続の分析から除外することである。したがって、このステップは、正常でない多様性にのみ焦点を当てることによって、偽陽性(すなわち、腫瘍に特異的でない変異コール(mutation call))をアッセイから排除する。
ある特定の実施形態では、閾値を使用して、腫瘍配列の部分と正常配列の対応する部分との間の多様性が、腫瘍に特異的な多様体として分類するのに十分に有意であるか否かを決定する。腫瘍配列と正常配列とを比較したときに可能性のある配列多様性の種類が多いこと、およびこれらの多様性が遺伝子発現に対して有する異なる作用に起因して、異なる閾値が適用される。ある特定の実施形態では、正常配列と比較した場合の腫瘍配列におけるあらゆる多様性は、腫瘍に特異的な多様体として特定され、腫瘍特異的バイオマーカーとして分類され得る。他の実施形態では、腫瘍に特異的な多様体配列は、正常配列に対する類似性または非類似性に基づいて特定される。例えば、腫瘍配列の部分は、正常配列の対応するセグメントとは75%、80%、85%、90%、95%、96%、97%、98%、99%、99.1%、99.5%、99.6%、99.7%、99.8%、99.9%などの程度で異なっているため、腫瘍に特異的な多様体として分類され得る。別の例では、腫瘍配列の部分は、正常配列の対応するセグメントと75%、80%、85%、90%、95%、96%、97%、98%、99%、99.1%、99.5%、99.6%、99.7%、99.8%、99.9%などの程度で類似しているため、正常として分類され得る。
選択された閾値に応じて、フィルタリングした腫瘍配列(すなわち、腫瘍特異的多様体)は、フィルタリングした配列内での変異を特定するために追加の分析を必要とする場合がある。例えば、閾値は、正常と腫瘍との間のある特定のヌクレオチド長の厳密な一致のみを、後続の分析からフィルタリングで除外するように選択され得る。これは、ある特定の種類の正常一致を除外するが、フィルタリングした配列のいくつかの部分は、選択された閾値による腫瘍変異の指標ではない可能性がある。このような例では、フィルタリングした配列内の腫瘍特異的変異の位置を確認するために、フィルタリングした配列を、腫瘍基準と比較してもよい。
他の例では、変異が結果として得られるタンパク質配列における変化をもたらすかどうかなど、非定量的閾値を使用して、腫瘍配列の一部を、腫瘍特異的多様体として分類してもよい。
ある特定の実施形態では、選択される閾値は、様々な種類の変異に関して同じまたは異なる。例えば、一塩基多型の閾値は、転座に関して選択された閾値とは異なってもよい。
コピー数の多様性など、一部の変異は、例えば、定量的閾値を有する。ある実施形態では、正常の上下20%の閾値内に入るコピー数は、分析から除外される。この範囲内のコピー数多様性は、統計学的に有意であるとはみなされない。
一塩基多型(SNP)の閾値は、定量的である。これらの変異は、タンパク質配列を変化させない場合、遺伝子発現にとって有意とはみなされないため、フィルタリングで除外される。誤ったタンパク質または早期終止コドンをもたらすSNPは、本発明の目的で常にコールされる変異である。
遺伝子発現に対して明確に有害な作用を有する他の変異は、自動的にコールされる変異である。例えば、コード配列への挿入またはコード配列からの欠失は、自動的なコールである。非コード領域における挿入または欠失は、10ヌクレオチドよりも少ない場合、フィルタリングで除外される。一方で、転座は、がんとの有意な関連性のため、自動的にコールされる変異である。
腫瘍配列を、上述の様々な閾値に基づいてフィルタリングした後、これを、基準配列と比較して、変異を特定することができる。基準配列は、いくつかの健常なドナーに由来する核酸の配列決定およびコンパイルによりアセンブルした代表配列など、正常基準であってもよい。基準配列はまた、がんなどの疾患を有するドナーに由来する核酸の配列決定およびコンパイルによりアセンブルした配列など、疾患配列であってもよい。患者の核酸試料が、前立腺がん遺伝子のパネルに関して配列決定されている場合、例えば、フィルタリングした結果を、前立腺がん基準配列と比較して、どの変異が既知であるかを特定することができる。
様々ながんの基準配列が、入手可能であり、当業者に公知である。フィルタリングした配列を腫瘍基準と比較することにより、患者に特異的な変異を特定することができ、同時に、フィルタリングなしのセットに残されている偽陽性を低減することができる。本発明の方法は、Exome Sequencing Project(ESP)を含む生殖細胞系データベースの使用、ならびにGenomics Englandの100,000ゲノムのプロジェクトおよびHuman Longevity配列決定戦略(sequencing initiative)といった、他の進行中の大規模な生殖細胞系分析を含む。CHASM(体細胞系変異のがん特異的高スループットアノテーション(Cancer−specific High−throughput Annotation of Somatic Mutations))、SIFT、PolyPhenなどのツールを使用して、体細胞系変異が、正常DNAの不在下ですら、ドライバーまたはパッセンジャーとなる可能性が高いかどうかを予測することができる。
フィルタリングした腫瘍配列リードを評価した後に、患者特異的な適正な診断および治療レジメンを開発することができる。本発明の方法は、潜在的な臨床上の重要性を有する既知の遺伝子を特定し、臨床上の対処可能性を評価するために有用である。特定されたいくつかの周知の変異は、がん性変異として容易に分類することができる。しかしながら、本発明の個別化されフィルタリングした結果は、患者の遺伝子配列における他の特定された配列多様性を、がんの原因となるものまたはがんを表すものとして特徴付けることを可能にする。これにより、患者のがんのより正確な診断が可能となる。フィルタリングした配列において特定された変異のために特異的に調整された治療レジメンを設計することができる。本発明は、例えば、遺伝子座における偽陽性変異コール(この遺伝子座は、実際には、患者のゲノムにおける正常な配列多様性を表す)に基づく誤診を防止する。
臨床的な対処可能性は、いくつかの方法で評価することができる。例えば、FDAに認可された治療法(http://www.fda.gov/Drugs/)と関連する遺伝子を特定することができるか、または文献の検索を行って、各遺伝子のゲノム変質に関する公開されている前向き臨床研究および後ろ向き臨床研究ならびにがん患者の転帰との関連性を特定することができる。特定の薬剤の標的として機能した遺伝子、または変異したときにがん治療法に対する応答もしくは抵抗性の予測因子であった遺伝子は、対処可能とみなすことができる。あるいは、組み入れ判定基準内の変質した遺伝子を示す臨床試験を特定することができる(http://clinicaltrials.gov/)。すべての場合において、FDA認可または臨床試験における研究と関連する腫瘍型を決定し、これにより、臨床上の情報を、遺伝子およびがんの種類の両方による変異データと一致させることが可能となった。
本発明はまた、がん患者の継続的なケアにも有用である。治療レジメンを開始した後、患者の腫瘍配列を、同じ方法を使用して再度分析してもよい。この2回目の分析により、がんが進行しているかどうかの指標である、変異が増えているか減っているかを決定することができる。
本発明で使用することができる品質管理の技法は、次世代シーケンシングデータをサンガー配列決定基準と比較することである。サンガー基準データは、次世代シーケンシングデータよりも高い正確度を有することが既知であり、したがって、多様性の正当性(legitimacy)を確認するために使用することができる。患者の腫瘍試料、患者の正常試料、または両方のNGSの配列決定リードを、サンガー基準に対してフィルタリングした後、互いに比較して、腫瘍特異的変異を特定することができる。一部の実施形態では、患者の正常試料のNGS配列決定リードとの比較により腫瘍特異的変異を含むことが決定されている患者の腫瘍試料のNGS配列決定リードの部分は、変異を検証するために、サンガー配列決定基準に対してフィルタリングしてもよい。次世代シーケンスリードをサンガー配列決定基準と比較する方法およびシステムは、本明細書と同時に出願された、「Increasing Sensitivity and Specificity in Next−Generation Sequencing Based Patient−Specific Genomic Analysis」と題される同時継続中の出願に記載されている。
図4は、本発明のシステム200を図示する。必要に応じて、または一般に本発明の方法および配列アセンブリの性能に最も適するように、当業者には理解されるように、本発明のコンピューターシステム200または機械には、1つまたは複数のプロセッサー(例えば、中央処理装置(CPU)、グラフィック処理装置(GPU)、もしくは両方)、主メモリ、および静的メモリを含み、これらは、バスを介して互いに通信する。
図4に示される例示的な実施形態では、システム200は、配列リードデータを得るためのデータ取得モジュール205を有するシーケンサー201を含み得る。シーケンサー201は、任意選択で、例えば、それ専用のシーケンサーコンピューター233(入力/出力機構237を含み、プロセッサー241およびメモリ245のうちの1つまたは複数を含む)を含んでもよく、またはそれに作動可能に連結されてもよい。追加または代替として、シーケンサー201は、ネットワーク209を介してサーバー213またはコンピューター249(例えば、ラップトップ、デスクトップ、またはタブレット)に作動可能に連結されてもよい。コンピューター249には、1つまたは複数のプロセッサー259およびメモリ263、ならびに入力/出力機構254が含まれる。本発明の方法が、クライアント/サーバーアーキテクチャーを利用する場合、本発明の方法のステップは、サーバー213を使用して行われてもよく、このサーバーには、プロセッサー221およびメモリ229のうちの1つまたは複数が含まれ、データ、命令などを取得することができるか、またはインターフェースモジュール225を介して結果を提供することができるか、またはファイル217として結果を提供することができる。サーバー213は、コンピューター249もしくは端末267を通じてネットワーク209に繋がれていてもよく、またはサーバー213は、1つまたは複数のプロセッサー275およびメモリ279ならびに入力/出力機構271を含む端末267に直接接続されてもよい。
本発明によるシステム200または機械は、さらに、I/O249、237、または271のいずれかのために、ビデオディスプレイ装置(例えば、液晶ディスプレイ(LCD)または陰極線管(CRT))を含んでもよい。本発明によるコンピューターシステムまたは機械はまた、英数字入力デバイス(例えば、キーボード)、カーソルコントロールデバイス(例えば、マウス)、ディスクドライブ装置、シグナル生成装置(例えば、スピーカー)、タッチ画面、加速度計、マイクロホン、セルラー無線周波数アンテナ、およびネットワークインターフェースデバイス(これは、例えば、ネットワークインターフェースカード(NIC)、Wi−Fiカード、またはセルラーモデムであり得る)を含み得る。
本発明によるメモリ263、245、279、または229は、本明細書に記載される手法または機能のうちのいずれか1つまたは複数を具現化する1つまたは複数の命令セット(例えばソフトウェア)が記憶されている機械可読媒体を含み得る。ソフトウェアはまた、完全にまたは少なくとも部分的に、コンピューターシステムによる実行時に主メモリおよび/またはプロセッサー内に存在し得、主メモリおよびプロセッサーもまた、機械可読媒体を構築している。
ソフトウェアは、さらに、ネットワークインターフェースデバイスを介してネットワーク上で送信または受信されてもよい。
機械可読媒体は、例示的な実施形態では、単一の媒体であり得るが、「機械可読媒体」という用語は、1つまたは複数の命令セットを記憶する単一の媒体または複数の媒体(例えば、集中型もしくは分散型データベース、ならびに/または関連するキャッシュおよびサーバー)を含むように解釈されるべきである。「機械可読媒体」という用語はまた、機械によって実行するための命令セットを記憶、コード、または保有することができ、機械に本発明の手法のうちのいずれか1つまたは複数を実行させる、任意の媒体を含むように解釈されるべきである。「機械可読媒体」という用語は、したがって、限定されないが、ソリッドステートメモリ(例えば、加入者識別モジュール(SIM)カード、セキュアデジタルカード(SDカード)、マイクロSDカード、またはソリッドステートドライブ(SSD))、光学および磁気媒体、ならびに任意の他の有形記憶媒体を含むように解釈されるべきである。
本明細書に開示される大規模ながんゲノムの分析の臨床上の有用性を評価するために、がん患者由来の腫瘍試料および正常試料において全エクソーム分析および標的を定めた次世代シーケンシング分析を行った。一致する腫瘍データおよび正常データを、一緒に分析し、同様に、体細胞系変異検出、潜在的な臨床上の対処可能性、および素因となる変質の特定に関しても別個に分析した。
15種類の腫瘍型の患者に由来する815個の腫瘍−正常をペアにした試料を、包括的に評価した。全エクソームまたは111個の標的を定めた遺伝子の次世代シーケンシングアプローチを使用して、ゲノム変質を特定し、これらを、それぞれ、95%超および99%超の感度、ならびに99.9%超の特異性で検証した。これらの分析により、エクソーム分析および標的を定めた分析で、それぞれ、平均で140個および4.3個の体細胞系変異が明らかとなった。事例のうちの75%超が、既知の治療法または現在の臨床試験と関連付けられている遺伝子に体細胞系変質を有し、対処可能な遺伝子の大半は、任意の腫瘍型において変質していることはまれであった。一致する正常DNAの分析により、見たところ散発性であるがんを有する患者のうちの3%において、がんの素因となる遺伝子における生殖細胞系変質を特定した。
腫瘍試料における体細胞系変質を体系的に評価するために、捕捉プローブは、当該技術分野で公知の臨床上関連のある遺伝子111個のセットのために設計した。これらの遺伝子は、次の通りであった:ABL1、AKT1、AKT2、ALK、APC、AR、ARID1A、ARID1B、ASXL1、ATM、ATRX、BAP1、BRAF、BRCA1、BRCA2、CBL、CCND1、CCNE1、CDH1、CDK4、CDK6、CDKN2A、CEBPA、CREBBP、CTNNB1、DAXX、DNMT3A、EGFR、ERBB2、ERBB3、ERBB4、EZH2、FBXW7、FGFR2、FGFR3、FGFR4、FLT3、FOXL2、GATA1、GATA2、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、IGF1R、IGF2R、IKZF1、JAK1、JAK2、JAK3、KDR、KIT、KRAS、MAML1、MDM2、MDM4、MED12、MEN1、MET、MLH1、MLL、MPL、MSH2、MSH6、MYC、MYCN、MYD88、NF1、NF2、NOTCH1、NOTCH2、NOTCH3、NOTCH4、NPM1、NRAS、PALB2、PAX5、PBRM1、PDGFRA、PDGFRB、PIK3CA、PIK3R1、PMS2、PTCH1、PTEN、PTPN11、RB1、RET、RNF43、ROS1、RUNX1、SF3B1、SMAD2、SMAD3、SMAD4、SMARCB1、SMO、STAG2、STK11、TET2、TGFBR2、TNFAIP3、TP53、TSC1、TSC2、TSHR、VHL、およびWT1。
これらの領域または完全なコード遺伝子セット(20,766個の遺伝子)を、次世代シーケンシングアプローチを使用して配列決定した。これらのデータをヒト基準配列に対してアラインメントし、Consensus Coding DNA Sequences(CCDS)、RefSeq、およびEnsemblデータベースを使用してアノテーションを行った。
図5は、全エクソーム分析または標的を定めた次世代シーケンシング分析を図示する。図の左側は、腫瘍のみのアプローチであり、図の右側は、配列変質を特定するための一致する腫瘍−正常アプローチを示す。生殖細胞系変化および体細胞系変化を分離するためのバイオインフォマティクス方法としては、dbSNP、COSMIC、およびキナーゼドメインデータベースとの比較が挙げられる。特定された遺伝子変質を、確立された治療法および実験的治療法のデータベースと比較して、潜在的な臨床的な対処可能性および素因となる変質を特定することができる。これらの方法を、以下により詳細に考察する。
腫瘍データと正常データとを比較して、VariantDxソフトウェアパイプラインを使用し単一塩基置換ならびに小規模な挿入および欠失に注目して体細胞系変質および生殖細胞系変質を特定した。VariantDxは、腫瘍試料と一致する正常試料との配列アラインメントを調べ、同時に、アラインメントおよび配列決定のアーチファクトを除外するようにフィルタを適用する。簡単に述べると、腫瘍における品質の悪いリード、ペアになっていないリード、および不十分にマッピングされたリードを除外するように、アラインメントフィルタを適用した。塩基品質フィルタを適用して、腫瘍については30を超える、そして正常については20を超えるphred品質スコアを報告した塩基の包含を制限した。腫瘍における変異は、次の場合にのみ候補体細胞系変異として特定した:(i)ペアとなった別個のリードが腫瘍における変異を含んでいた場合、(ii)腫瘍における特定の変異を含むペアとなった別個のリードの数が、標的を定めた分析のすべての別個のリードペアの少なくとも2%、およびエクソームについてはリードペアの10%であった場合、(iii)不一致の塩基が、一致した正常試料のリードのうちの1%を上回って存在しておらず、同様に、dbSNPに由来する共通生殖細胞系多様体の特注のデータベースにも存在していなかった場合、ならびに(iv)その位置が腫瘍および正常の両方において網羅された場合。パラロガス配列を含む、誤った位置のゲノムのアラインメントにより生じる変異は、基準ゲノムを検索することによって特定し、除外した。
候補体細胞系変異を、遺伝子アノテーションに基づいてさらにフィルタリングして、タンパク質コード領域に生じるものを特定した。snpEff、ならびにUCSCからのhg18で利用可能な最新版の転写産物(https://genome.ucsc.edu/)を使用したCCDS、RefSeq、およびEnsemblアノテーションの特注のデータベースを使用して、機能的結果を予測した。予測は、カノニカルな開始および終止コドンを有する転写産物、ならびに利用可能な場合はCCDSまたはRefseq転写産物を、Ensemblよりも優先するように規定された。
分析される塩基における十分な網羅度を確実にし、マッピングエラーおよび配列決定エラーを除外するために、厳密な判定基準を使用した。すべての候補体細胞系変質を、目視で検査して、残っているアーチファクト変化を除外した。
全エクソームのサンガー配列決定および次世代シーケンシングの両方を使用した試料の分析を使用して、次世代シーケンシングおよびバイオインフォマティクスアプローチにより、凍結腫瘍組織およびホルマリン固定パラフィン包埋腫瘍(FFPE)組織における体細胞系変異を、高い感度および特異性で検出できたこと、ならびに体細胞系変質と生殖細胞系変質とを正確に区別することができたことを実証した。
上述のアプローチを使用して、一致する腫瘍標本および正常標本を、様々な腫瘍型を有する815人の患者から分析した。合計105,672個の体細胞系変質を特定し、標的を定めた分析では体細胞系変異が平均で4.34個であり(0〜29の範囲)、エクソーム分析では体細胞系変質が平均で140個であった(1〜6219の範囲)。様々な腫瘍型における体細胞系変質の数は、以前のがんエクソーム分析とほぼ一貫していた。遺伝子変質が、臨床的に有用であり得るかどうかを調べるために、変異体遺伝子を、個々の事例で観察して、それらが、既存の治療法または調査下の治療法を使用して臨床的に対処可能であるかどうかを評価した。1)腫瘍適応症用にFDAに認可されている治療法、2)公開された前向き臨床研究における治療法、および3)分析された腫瘍型を有する患者の現在進行中の臨床試験と関連付けられていた変質遺伝子を、試験した。これらの分析を通じて、体細胞系変質を遺伝子において特定し、分析した753人の患者のうち580人(77%)において、潜在的に対処可能な結果があった(図6に示される)。腫瘍型および治療法が既知の遺伝子としては、次のものが挙げられる:TP53、KRAS、PIK3CA、IDH1、EGFR、NF1、BRAF、BRCA2、ROS1、FLT4、PTEN、ALK、TSC2、FANCM、PTCH1、BRCA1、ERBB2、MET、NRAS、TSC1、PMS2、RET、NTRK1、KIT、FANCI、MSH6、SMO、FGFR3、MSH2、CTNNB1、FANCG、FLT3、JAK2、VHL、FANCC、MLH1、FANCA、FANCD2、AKT1、FANCB、FANCL、FANCF、CDKN2A、HRAS、GNA11、MAP2K1、およびPDGFRA。
結腸直腸腫瘍および黒色腫などの一部の腫瘍型は、対処可能な変化の割合が、他のものよりもはるかに高かった。可能性として対処可能な変質を有する遺伝子のうち90%超が、個々の腫瘍のうち5%未満において変異しており、対処可能な変化は、がん患者間で主に異なることを示唆する。
図6は、臨床的な対処可能性の根拠を有する事例の数および割合を、組織型毎に示す。少なくとも1つの対処可能な変質を有していた患者の割合は高かったが、対処可能な変化のほとんどは、確立された治療法または調査下の治療法(33%)ではなく、現在の臨床試験(67%)と関連していた。
開示される分析により、見たところ散発性であるがん患者のゲノムにおいてがんの素因となる変化が特定されたかどうかを決定するために、既知のがん素因症候群と関連する84個の遺伝子のセットを、815人のがん患者の血液、唾液、または他の正常組織からのDNAにおいて評価した。これらの遺伝子は、次の通りであった:ALK、APC、ATM、AXIN2、BAP1、BLM、BMPR1A、BRCA1、BRCA2、BRIP1、BUB1B、CDC73、CDH1、CDK4、CDKN2A、CHEK2、CREBBP、CYLD、DDB2、DICER1、EP300、ERCC2、ERCC3、ERCC4、ERCC5、EXT1、EXT2、FANCA、FANCB、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCI、FANCL、FANCM、FH、FLCN、GPC3、KIT、MEN1、MET、MLH1、MSH2、MSH6、MUTYH、NBN、NF1、NF2、PALB2、PDGFRA、PHOX2B、PMS2、POLD1、POLE、POLH、POT1、PRKAR1A、PRSS1、PTCH1、PTEN、RAD51C、RB1、RECQL4、RET、SBDS、SDHAF2、SDHB、SDHC、SDHD、SMAD4、STK11、SUFU、TERT、TP53、TSC1、TSC2、VHL、WAS、WRN、WT1、XPA、およびXPC。
これらの遺伝子におけるタンパク質が変質する変化を保存的に特定するために、分析は、フレームシフト、スプライシング部位変化、およびナンセンス変質をもたらす挿入または欠失を含む、短縮型変質に焦点を当てた。これらの分析を通じて、815人の患者のうち27人(約3%)が、これらの遺伝子において短縮型変質を有すると特定された。1つの事例を除きすべての事例が、その生殖細胞系に、がんの素因となる変質を有することが、これまでにはわかっていなかった。15個の変異は、これまでの刊行物に基づいて、病原性であるか、病原性である可能性が高いことが予測された。生殖細胞系変質の例には、乳がんおよび卵巣がん患者におけるBRCA1変質ならびに黒色腫事例のCDKN2Aにおけるナンセンス変異(50Q>X)など、予測される腫瘍型の遺伝子における変化が含まれた。しかしながら、結腸直腸腫瘍および胆管癌などの他の固形腫瘍型におけるBRCA2変質、食道がんにおけるATM変化、様々な腫瘍型におけるFANC変質、ならびに胆管癌(800Y>X)および肛門がんの事例(624S>X)におけるBRIP1(BRCA1相互作用タンパク質C末端ヘリカーゼ1)遺伝子での変質を含む、あまり説明されていない例もまた、検出された。
本発明の方法を使用して、生殖細胞系変異から体細胞系変異を分離するために一致する正常を使用しない他のバイオインフォマティクスアプローチを、評価することができる。上述の腫瘍−正常の一致アプローチの結果とは対照的に、腫瘍のみの配列決定アプローチに続く共通の生殖細胞系多様体のバイオインフォマティクス除外は、より正確でも精密でもないが、依然として価値がある。さらに、一部の事例では、配列決定後にクリーンアップを伴う腫瘍のみの配列決定は、一致する正常試料が欠如しているため、利用可能な選択肢で最良のものである)。
以下に考察されるように、同じ腫瘍試料の腫瘍のみの分析は、潜在的に対処可能な遺伝子を含め、標的を定めた分析およびエクソーム分析において、それぞれ、特定された変質において31%および65%の偽発見率(false discovery rate)をもたらす。これらのデータは、一致する腫瘍−正常の配列決定分析が、体細胞系変質および生殖細胞系変質の正確な特定および解釈に必須であり、がん患者の診断上および治療上の管理のために重要な意味合いを有することを示唆する。さらに、説明された本明細書に記載される腫瘍と正常とを一致させた方法の優れた性能(高い特異性および感度)のため、腫瘍と正常とを一致させた方法は、腫瘍を評価する他の方法に対する品質管理チェックとして使用することができる。
58個の標的を定めた事例および100個の全エクソームの事例からの腫瘍データを、再分析し、一致した正常試料と同じ方法を使用して配列決定されている一致していない正常試料と比較した。これらのデータを使用して、共通の生殖細胞系多様体、ならびに配列決定エラーおよびアラインメントエラーを除外した。すべての候補変質を、目視で検査して、残っているすべてのアーチファクトを除外した。図7〜9に示されるように、標的を定めた事例およびエクソーム事例では、それぞれ、平均11.53個の変異(3〜34の範囲)および1401個の変異(919〜2651の範囲)が、観察された。
図7は、腫瘍のみの標的を定めた分析のそれぞれの事例における真の体細胞系変質および生殖細胞系の偽陽性変化の数を示す、棒グラフを示す。
図8は、エクソーム分析のそれぞれの事例における真の体細胞系変質および生殖細胞系の偽陽性変化の数を示す、棒グラフを示す。図7および8において、対処可能な遺伝子における変化の割合を、体細胞系変化および生殖細胞系変化の両方について示す。
図9は、それぞれの種類の分析で検出された体細胞系多様体および生殖細胞系多様体の全体的な特徴および数をまとめた表である。参照のために、この表は、全配列網羅度、分析した試料の数、および一致した腫瘍/正常分析における腫瘍毎の体細胞系変異の数を示す。
一致していない正常には存在していなかった、腫瘍における追加の生殖細胞系多様体を特定するために、観察された腫瘍変質を、一塩基多型(SNP)データベース(dbSNPバージョン138)のものと比較し、1,000 Genomes Projectまたは他の供給源を通じて特定された多様体(合計42,886,118個の候補多様体を含む)をフィルタリングした。このアプローチにより、58中10事例におけるすべての生殖細胞系変質を含む、0〜9個の変質(平均5.25個)を、標的を定めた分析において除外した。しかしながら、腫瘍のみのアプローチを通じて事例毎に平均1.95個の生殖細胞系多様体が残っており、分析した58事例において残った合計113個の生殖細胞系変化をもたらした。合計1,019個の変異を、エクソーム事例(623〜1,911の範囲)のそれぞれにおいてdbSNPフィルタを使用して除外したが、1事例につき平均382個の変異が残っていた。残っている生殖細胞系多様体の大部分は、潜在的に対処可能な変化として分類され得る変化を含んでいた。例えば、触媒ドメインにおけるJAK2変異(1021Y>F)、ERBB2における複数のミスセンス変質、TSC2におけるインフレーム欠失(1508PF>P)、および触媒ドメインにおけるALK変化(1200A>V)は、腫瘍のみのアプローチでは、間違って特定されていたであろう。JAK2のためのルキソリチニブ、ERBB2のためのネラチニブ、TSC2のためのエベロリムス、およびALKのためのクリゾチニブを含む、変質したタンパク質産物を標的とする認可されている治療法または調査下の治療法がこれらの遺伝子に利用可能であるが、これらは、腫瘍のみの分析に基づき、患者に不適切に投与されていた可能性がある。全体として、生殖細胞系データベースを使用してフィルタリングした事例の大部分には、生殖細胞系変質が残っており、そのおよそ半分が、潜在的に対処可能な遺伝子であった。
腫瘍のみのデータを、生殖細胞系データベースに存在する多様体でフィルタリングすることは、生殖細胞系多様体と同一であり得る体細胞系多様体を不用意に除外してしまう可能性がある。標的を定めた分析では、PDGFRAにおける体細胞系変異(478S>P)およびATRXにおける体細胞系変異(929Q>E)の2つは、dbSNPにおいてヌクレオチドレベルで同一な変異が一致しており、この方法によって誤って除外された。すべてのコード遺伝子の分析により、マイトジェン活性化タンパク質キナーゼMAPK4の触媒ドメインにおける114R>C変化および転写因子ESX1における320P>R(それぞれ、皮膚がん、ならびに甲状腺がんおよび肝臓がんにおいて体細胞系変異していることが以前に報告されている)を含む、155個の体細胞系変異が、このアプローチを使用して除外されたことが明らかとなった。
腫瘍のみのアプローチを使用した体細胞系変質の検出をさらに調べるために、体細胞系変異を、dbSNPフィルタリング後に残っている生殖細胞系変質からCOSMIC(Catalogue of Somatic Mutations in Cancer)データベースからのデータを使用して分離させた。データセット内の変異は、その遺伝子の同じコドン内において腫瘍特異的変質が以前に報告されていた場合に、体細胞系である可能性が高いとみなした。合計すると、標的を定めた遺伝子セットでは分析した事例のうち47事例において108個の変異が、このカテゴリに分類され、エクソーム事例では1,806個の変異がこのカテゴリに分類された。このアプローチは、KRAS、TP53、およびPIK3CAなどのがん遺伝子におけるホットスポットで良好に特徴付けられた変異を特定するのに有用であったが、頻発しない非同義体細胞系変異は特定しなかった。COSMICでオーバーラップした、標的を定めた遺伝子における潜在的な体細胞系変異のうちの9個が、一致する正常試料に存在しており、実際には、生殖細胞系であった。エクソームデータでは、778個の生殖細胞系変異が、体細胞系変異が以前に確認されていたコドンに生じた。これらのバイオインフォマティクスフィルタリングアプローチを、図10および11に図で示す。
図10は、標的を定めた遺伝子セットでは分析した事例のうちの47事例において108個の変異が、どのようにして体細胞系として分類され、COSMICフィルタリングの対象となったかを示す。
図11は、エクソーム事例における1,806個の変異が、COSMIC判定基準にかけたときに、どのようにして体細胞系として分類されたかを示す。
体細胞系変異は、ある特定の遺伝子領域内でクラスター化し得るため、観察された変質の5コドン以内のあらゆる変異を含むように、COSMIC判定基準を拡張した。これにより、標的となる遺伝子における潜在的な体細胞系変異の数が152個増加し、合計270個(患者当たり4.48個)となり、エクソーム事例ではほぼ15,000個増え、合計16,731個(患者当たり168個)となった。しかしながら、このアプローチの特異性は、著しく低下し、これらの変異のうち、それぞれ、標的を定めた遺伝子およびエクソーム遺伝子において一致する正常に実際に生じていたものは、48個および8,929個であった。他の研究により生殖細胞系多様体ならびに体細胞系変化の両方として報告されていたゲノムにおける同一の変化の全体数を決定するために、共通のdbSNP多様体およびCOSMICデータベースの間の全体的なオーバーラップを調べた。医学的影響が既知の多様体またはdbSNPにおいて体細胞系としてアノテーションされた多様体を除外した後、8,606個の非同義変異が、両方のデータベースに存在しており、これらの変異のうち63個は、COSMICにおいて5回を上回って観察された。これらの分析により、生殖細胞系における多様体の大多数が、がんなどの体細胞系疾患におけるものと同一であり得、同一な多様体の数は、追加の体細胞系ゲノムおよび生殖細胞系ゲノムを分析すると、増加することが示唆される。
一部の実施形態では、品質管理技法には、上に概説され図7〜9に関して考察された方法を使用することによって偽陽性の数を決定することが含まれる。例えば、研究室または他の試験施設は、本明細書に記載される技法を定期的に行うことによって、現在発生している偽陽性率を検証することができる。例えば、腫瘍試料を配列決定し、その配列を、COSMICデータベースなどの変異ライブラリーと比較することができる。この比較に基づいて、様々な変異が腫瘍試料に特定され得る。腫瘍試料において、すなわち、ライブラリーとの比較により特定された変異は、初期の対処可能な変異のリストでコンパイルされ得る。(初期の対処可能な変異のリストは、典型的に、非一過性の電子メモリに、直接的、またはスプレッドシートもしくはデータベースの一部として、保存される)。初期の対処可能な変異のリストを、特定された腫瘍特異的変異と比較し、本明細書に記載される方法を使用して決定して、初期の対処可能な変異のリストを決定するために使用した方法の品質を評価することができる。
一部の実施形態では、ユーザーは、初期の対処可能な変異のリストと特定された腫瘍特異的変異との間の類似性に基づいて、腫瘍試料または腫瘍試料を評価する方法にスコアを割り当てることができる。一部の事例では、特定された腫瘍特異的変異に類似する、初期の対処可能な変異のリストに、高いスコアが割り当てられ得る。一部の事例では、特定された腫瘍特異的変異に類似する、初期の対処可能な変異のリストに、低いスコアが割り当てられ得る。スコアが高いか低いかに関係なく、スコアは、初期の対処可能な変異のリストと特定された腫瘍特異的変異との間の類似性の程度を反映し、類似性が高いことは、「真の」結果に近い、初期の対処可能な変異、すなわち、本物であり、疾患、例えばがんを発症する本当の危険性を示す変異のリストの指標である。このスコアが、品質管理または品質保証プログラムの一部である場合、初期の対処可能な変異のリストは、スコアに基づいて受容または拒絶され得る。他の事例では、初期の対処可能な変異のリストは、品質管理の「テストケース」となり得る。したがって、「テストケース」が十分なスコアを有し、初期の対処可能な変異のリストが受容されると、同じ方式で評価した他の腫瘍試料も受容され、すなわち、患者、健康管理従事者、病院、規制機関などに報告するのに十分な品質であると想定される。
一部の実施形態では、研究室によって行われる試験の特異性および感度のより詳細な分析は、本明細書に記載される腫瘍と正常とが一致する方法または腫瘍と正常とが一致しない方法を使用することに加えて、研究室の技法の受信者動作特性(ROC)グラフを比較することによって、完了され得る。ROC技法のさらなる詳細については、例えば、Zweig, M. H.およびCampbell, G.、Clin. Chem. 39巻、561〜577頁(1993年)を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。ROCグラフは、観察された全データ範囲にわたって判定閾値(疾患=ありまたはなし)を継続的に変化させることにより得られた感度/特異性ペアのすべてのプロットである。ROCグラフは、感度 対 1−判定閾値の完全な範囲に対する特異性をプロットすることによって、2つの分布間のオーバーラップを示す。y軸は感度、または真陽性の部分[(真陽性の試験結果の数)(真陽性の試験結果の数+偽陰性の試験結果の数として定義される]である。これはまた、疾患または状態の存在における陽性と称される。これは、罹患した下位群のみから計算される。x軸には、偽陽性の部分、または1−特異性[(偽陽性結果の数)/(真陰性結果の数+偽陽性結果の数)として定義される]である。これは、特異性の指数であり、罹患していない下位群全体から計算される。このような方法を使用して、ユーザーは、偽陽性の「真の」危険性の評価をより良好に行うことができるが、これは、複数の変異に影響を受ける疾患は多いが、そうでないものもあるためである。一部の事例では、疾患と関連する変異がわずかであるか、またはある特定の変異が疾患と高い相関性があるため、誤診の危険性が高い。他の事例では、例えば、疾患が複数の変異と相関しており、疾患が進行するにはこれが存在しているはずであるため、誤診の危険性はより低い。
腫瘍抑制遺伝子における体細胞系変異は、短縮型であることが多いため、この変異型もまた、共通の生殖細胞系多様体をフィルタリングした後、腫瘍のみのデータにおける変質を確実に選択するための手段として試験した。これらのデータを、図12および13に図示する。
図12は、腫瘍抑制遺伝子における体細胞系変異のカテゴリに入る、標的を定めた分析の43事例におけるCDH1(スプライシング部位)、PIK3R1(フレームシフト)、およびARID1B(ナンセンス)などの遺伝子における75個の変異を示す。COSMICアプローチと同様に、その方法を使用して候補体細胞系変化として特定された変質のうちの13個が、生殖細胞系であった。
図13は、エクソーム事例の結果を示し、短縮型変異が7,424個あり、そのうちの5,108個が体細胞系ではなく生殖細胞系であった。
加えて、タンパク質のキナーゼドメインを変異に関して検索したが、これは、活性化させる体細胞系変異がこれらの領域に生じることが多いためである。
図14は、EGFRエクソン19欠失745KELREA>T;PIK3CAにおける542E>K;JAK2における1021Y>FおよびRETにおける867E>Kを含む、42個の変質が、それぞれ、標的を定めたデータにおいて特定されたことを示す。標的を定めたセットにおける4個の変異(JAK2における変質を含む)およびエクソームセットにおける295個の変質が、実際には生殖細胞系であった。
図15は、MAPK12における309P>LおよびCDK10における201P>Sを含む、786個の変異が、それぞれ、エクソームデータにおいて特定されたことを示す。
COSMICアプローチ、短縮型変質アプローチ、およびキナーゼドメインアプローチの組合せを使用することで、252個の体細胞系変質のうちの216個が、標的を定めた分析において正しく特定された。見逃された36個の体細胞系変異のうち、いくつかは、現在臨床試験下にあるERBB2、ERBB3、およびTSC2などの遺伝子に生じたものであり、臨床的に対処可能であった可能性がある。これらのアプローチにより、一致する正常試料の分析により生殖細胞系であることがわかっていた71個の変異(事例当たり1.22個)も特定された。これらは、ERBB2(1128V>I)、MSH6(726F>L)、およびRET(977S>R)などの対処可能な遺伝子における変化を含んでいた。さらに、SNPフィルタによる除外も追加の判定基準による陽性選択も行われず、これらの方法によって分類することができなかった変異が78個あった。全コード領域を分析した場合、13,314個の真の体細胞系変異のうちの8,941個のみが特定され、14,734個の生殖細胞系多様体は、腫瘍特異的である可能性が高いとして間違って分類され、10,135個の生殖細胞系変質を含む残りの変異は、分類することができなかった。
多様体の体細胞系状態または生殖細胞系状態の独立した尺度として、分析した腫瘍試料における変異体対立遺伝子の部分を試験した。生殖細胞系変異は、ヘテロ接合変化については50%に近い多様体対立遺伝子頻度を有し、ホモ接合変化については100%の多様体対立遺伝子頻度を有すると予測されるが、体細胞系変異の多様体タグの割合は、腫瘍試料中の正常組織混入のレベルに依存することになり、おそらく低くなる。腫瘍細胞充実性が利用可能であった標的を定めた43事例のうち5事例のみが、50%未満の病理学的純度を有した。これらの事例では、変質のすべてが、この方法を使用して体細胞系または生殖細胞系と正しくコールされた。しかしながら、事例の大半において、腫瘍細胞充実性が50%を超え、このアプローチでは、体細胞系変質と生殖細胞系変質とを確実に区別することができず、正しく特定される体細胞系変異は平均48%にすぎない。同様に、特定されたがんの素因である可能性が高い変化のうちの20個は、生殖細胞系データベースにおいて検出することができたが、評価することができる16個の生殖細胞系多様体のうちで、対立遺伝子部分の分析を通じて体細胞系変質と区別することができたものは2つだけであった。
参照による組込み
他の文書、例えば特許、特許出願、特許公開、刊行物、書籍、論文、ウェブコンテンツへの参照および引用が、本開示全体になされている。すべてのこのような文書は、あらゆる目的で参照によりそれらの全体が本明細書に組み込まれる。
均等物
本明細書に示され、説明されているものに加えて、本発明の様々な修正形およびそれらの多数のさらなる実施形態は、本明細書に引用される科学文献および特許文献への参照を含め、本明細書の全内容から、当業者に明らかとなるであろう。本明細書の主題は、本発明の、その様々な実施形態および均等物における実施に適応できる重要な情報、例示、および指導を含む。

Claims (55)

  1. 腫瘍と関連するバイオマーカーに関して核酸を分析する方法であって、
    患者の腫瘍試料に由来する核酸を配列決定することによって生成される腫瘍配列リードを提供するステップと、
    前記患者の正常試料に由来する核酸を配列決定することによって生成される正常配列リードを提供するステップと、
    前記腫瘍配列リードと前記正常配列リードとを比較するステップと、
    前記比較に基づいて前記腫瘍配列リードをフィルタリングするステップと、
    フィルタリングした前記配列リードにおける腫瘍特異的変異を特定するステップと
    を含む、方法。
  2. 前記提供ステップの前に、前記腫瘍試料および前記正常試料に由来する前記核酸を配列決定するステップをさらに含む、請求項1に記載の方法。
  3. 前記比較ステップが、前記腫瘍配列リードおよび前記正常配列リードを基準に対してアラインメントすることと、アラインメントした前記正常リードをアラインメントした前記腫瘍リードと比較することとを含む、請求項1に記載の方法。
  4. 前記比較ステップが、前記腫瘍配列リードに基づく腫瘍コンティグおよび前記正常配列リードに基づく正常コンティグを作成することと、前記正常コンティグを前記腫瘍コンティグと比較することとを含む、請求項1に記載の方法。
  5. フィルタリングした前記配列リードを基準と比較するステップをさらに含む、請求項1に記載の方法。
  6. 前記基準が、腫瘍基準および正常基準からなる群より選択される、請求項5に記載の方法。
  7. 前記配列リードをサンガー配列基準と比較するステップをさらに含む、請求項1に記載の方法。
  8. 前記腫瘍配列リードおよび前記正常配列リードが、がんと関連することが既知の遺伝子パネルに対応する、請求項1に記載の方法。
  9. 前記腫瘍配列リードおよび前記正常配列リードが、コード領域に対応する、請求項1に記載の方法。
  10. 前記腫瘍配列リードおよび前記正常配列リードが、イントロン領域に対応する、請求項1に記載の方法。
  11. フィルタリングステップが、閾値に満たない遺伝子座を除外することを含む、請求項1に記載の方法。
  12. 前記腫瘍試料が、生検標本および循環腫瘍DNAを含む、請求項1に記載の方法。
  13. 前記正常試料が、リンパ球、唾液試料、および口腔試料からなる群より選択される、請求項1に記載の方法。
  14. 前記バイオマーカーに基づいて前記患者の予後を決定するステップをさらに含む、請求項1に記載の方法。
  15. 前記バイオマーカーに基づいて前記患者の治療レジメンを設計するステップをさらに含む、請求項1に記載の方法。
  16. 前記腫瘍配列リードを変異のライブラリーと比較して、初期の対処可能な変異のリストを決定するステップと、
    特定された前記腫瘍特異的変異を前記初期の対処可能な変異のリストと比較するステップと
    をさらに含む、請求項1に記載の方法。
  17. 特定された前記腫瘍特異的変異と前記初期の対処可能な変異のリストとの間の前記比較に基づいて、前記腫瘍配列にスコアを割り当てるステップをさらに含む、請求項16に記載の方法。
  18. 前記スコアに基づいて前記初期の対処可能な変異のリストを受容するステップをさらに含む、請求項17に記載の方法。
  19. 核酸における変異を特定するためのシステムであって、前記システムに、
    患者の腫瘍試料に由来する核酸を配列決定することによって生成される腫瘍配列リードを受信するステップと、
    前記患者の正常試料に由来する核酸を配列決定することによって生成される正常配列リードを受信するステップと、
    前記腫瘍配列リードと前記正常配列リードとを比較するステップと、
    前記比較に基づいて前記腫瘍配列リードをフィルタリングするステップと、
    フィルタリングした前記配列リードを変異に関して評価するステップであって、前記変異が腫瘍と関連するバイオマーカーである、ステップと
    を行わせるためのプロセッサーによって実行可能な命令を含む非一過性メモリに連結されたプロセッサーを備える、システム。
  20. 前記腫瘍試料に由来する核酸および前記正常試料に由来する核酸を配列決定するように作動可能な核酸配列決定機器をさらに備える、請求項19に記載のシステム。
  21. 前記腫瘍配列リードおよび前記正常配列リードを基準に対してアラインメントし、アラインメントした前記正常リードをアラインメントした前記腫瘍リードと比較するようにさらに作動可能である、請求項19に記載のシステム。
  22. 前記腫瘍配列リードに基づく腫瘍コンティグおよび前記正常配列リードに基づく正常コンティグを作成し、前記正常コンティグを前記腫瘍コンティグと比較するようにさらに作動可能である、請求項19に記載のシステム。
  23. フィルタリングした前記配列リードを基準と比較するようにさらに作動可能である、請求項19に記載のシステム。
  24. 前記基準が、腫瘍基準および正常基準からなる群より選択される、請求項23に記載のシステム。
  25. 前記配列リードをサンガー配列基準と比較するようにさらに作動可能である、請求項19に記載のシステム。
  26. 前記腫瘍配列リードおよび前記正常配列リードが、がんと関連することが既知の遺伝子パネルに対応する、請求項19に記載のシステム。
  27. 前記腫瘍配列リードおよび前記正常配列リードが、コード領域に対応する、請求項19に記載のシステム。
  28. 前記腫瘍配列リードおよび前記正常配列リードが、イントロン領域に対応する、請求項19に記載のシステム。
  29. 閾値に満たない遺伝子座を除外することによりフィルタリングするようにさらに作動可能である、請求項19に記載のシステム。
  30. 前記腫瘍試料が、生検標本および循環腫瘍DNAを含む、請求項19に記載のシステム。
  31. 前記正常試料が、リンパ球、唾液試料、および口腔試料からなる群より選択される、請求項19に記載のシステム。
  32. 前記バイオマーカーに基づいて前記患者の予後を決定するようにさらに作動可能である、請求項19に記載のシステム。
  33. 前記バイオマーカーに基づいて前記患者の治療レジメンを設計するようにさらに作動可能である、請求項19に記載のシステム。
  34. 腫瘍と関連する多様性に関して核酸を分析する方法であって、
    腫瘍試料から得られた核酸を配列決定し、それによって腫瘍配列リードを生成するステップと、
    正常試料から得られた核酸を配列決定し、それによって正常配列リードを生成するステップと、
    前記腫瘍配列リードおよび前記正常配列リードを基準配列に対してアラインメントするステップと、
    前記アラインメントに基づいて、前記腫瘍配列リードおよび前記正常配列リードにおける1つまたは複数の多様性を特定するステップと、
    閾値に基づいて、前記腫瘍配列リードと前記正常配列リードとの間で異なる多様性をフィルタリングするステップあって、前記閾値を上回る多様性が、前記腫瘍と関連するバイオマーカーである、ステップと
    を含む、方法。
  35. フィルタリングした前記多様性を基準と比較するステップをさらに含む、請求項34に記載の方法。
  36. 前記基準が、腫瘍基準および正常基準からなる群より選択される、請求項35に記載の方法。
  37. 前記配列リードを、サンガー配列基準と比較するステップをさらに含む、請求項34に記載の方法。
  38. 前記腫瘍配列リードおよび前記正常配列リードが、がんと関連することが既知の遺伝子パネルに対応する、請求項34に記載の方法。
  39. 前記腫瘍配列リードおよび前記正常配列リードが、コード領域に対応する、請求項34に記載の方法。
  40. 前記腫瘍配列リードおよび前記正常配列リードが、イントロン領域に対応する、請求項34に記載の方法。
  41. 前記腫瘍試料が、生検標本および循環腫瘍DNAを含む、請求項34に記載の方法。
  42. 前記正常試料が、リンパ球、唾液試料、および口腔試料からなる群より選択される、請求項34に記載の方法。
  43. 前記バイオマーカーに基づいて前記患者の予後を決定するステップをさらに含む、請求項34に記載の方法。
  44. 前記バイオマーカーに基づいて前記患者の治療レジメンを設計するステップをさらに含む、請求項34に記載の方法。
  45. 前記腫瘍配列リードを変異のライブラリーと比較して、初期の対処可能な変異のリストを決定するステップと、
    特定された前記腫瘍特異的変異を、前記初期の対処可能な変異のリストと比較するステップと
    をさらに含む、請求項34に記載の方法。
  46. 特定された前記腫瘍特異的変異と前記初期の対処可能な変異のリストとの間の前記比較に基づいて、前記腫瘍配列にスコアを割り当てるステップをさらに含む、請求項45に記載の方法。
  47. 前記スコアに基づいて前記初期の対処可能な変異のリストを受容するステップをさらに含む、請求項46に記載の方法。
  48. 腫瘍試料を配列決定したときの偽陽性変異コール率を低減するための方法であって、
    患者の腫瘍試料に由来する核酸を配列決定することによって生成される腫瘍配列リードを提供するステップと、
    前記患者の正常試料に由来する核酸を配列決定することによって生成される正常配列リードを提供するステップと、
    前記腫瘍配列リードと前記正常配列リードとを比較するステップと、
    前記比較に基づいて前記腫瘍配列リードをフィルタリングするステップと、
    フィルタリングした前記配列リードにおける腫瘍特異的変異を特定するステップと
    を含む、方法。
  49. 腫瘍試料を配列決定したときの偽陽性変異コール率を低減するための方法であって、
    腫瘍試料から得られた核酸を配列決定し、それによって腫瘍配列リードを生成するステップと、
    正常試料から得られた核酸を配列決定し、それによって正常配列リードを生成するステップと、
    前記腫瘍配列リードおよび前記正常配列リードを基準配列に対してアラインメントするステップと、
    前記アラインメントに基づいて、前記腫瘍配列リードおよび前記正常配列リードにおける1つまたは複数の多様性を特定するステップと、
    閾値に基づいて、前記腫瘍配列リードと前記正常配列リードとの間で異なる多様性をフィルタリングするステップであって、前記閾値を上回る多様性が、前記腫瘍と関連するバイオマーカーである、ステップと
    を含む、方法。
  50. 腫瘍配列決定技法の品質を検証するための方法であって、
    配列決定技法を用いて患者の腫瘍試料に由来する核酸を配列決定することによって生成される腫瘍配列リードを提供するステップと、
    前記患者の正常試料に由来する核酸を配列決定することによって生成される正常配列リードを提供するステップと、
    前記腫瘍配列リードを変異のライブラリーと比較して、初期の対処可能な変異のリストを決定するステップと、
    前記腫瘍配列リードと前記正常配列リードとを比較するステップと、
    前記比較に基づいて前記腫瘍配列リードをフィルタリングするステップと、
    フィルタリングした前記配列リードにおける腫瘍特異的変異を特定するステップと、
    特定された前記腫瘍特異的変異を前記初期の対処可能な変異のリストと比較するステップと
    を含む、方法。
  51. 特定された前記腫瘍特異的変異と前記初期の対処可能な変異のリストとの間の前記比較に基づいて、前記腫瘍配列決定技法にスコアを割り当てるステップをさらに含む、請求項50に記載の方法。
  52. 前記スコアに基づいて前記初期の対処可能な変異のリストを受容するステップをさらに含む、請求項51に記載の方法。
  53. 腫瘍配列決定技法の品質を検証するための方法であって、
    ある技法を使用して腫瘍試料から得られた核酸を配列決定し、それによって腫瘍配列リードを生成するステップと、
    正常試料から得られた核酸を配列決定し、それによって正常配列リードを生成するステップと、
    前記腫瘍配列リードおよび前記正常配列リードを基準配列に対してアラインメントするステップと、
    前記アラインメントに基づいて、前記腫瘍配列リードおよび前記正常配列リードにおける1つまたは複数の多様性を特定するステップと、
    閾値に基づいて、前記腫瘍配列リードと前記正常配列リードとの間で異なる多様性をフィルタリングし、それによって腫瘍特異的変異のコンパイル(compilation)を生成するステップであって、ここで前記閾値を上回る多様性が、前記腫瘍と関連するバイオマーカーである、ステップと、
    前記腫瘍配列リードを変異のライブラリーと比較して、初期の対処可能な変異のリストを決定するステップと、
    特定された前記腫瘍特異的変異を前記初期の対処可能な変異のリストと比較するステップと
    を含む、方法。
  54. 特定された前記腫瘍特異的変異と前記初期の対処可能な変異のリストとの間の前記比較に基づいて、前記腫瘍配列決定技法にスコアを割り当てるステップをさらに含む、請求項53に記載の方法。
  55. 前記スコアに基づいて前記初期の対処可能な変異のリストを受容するステップをさらに含む、請求項54に記載の方法。
JP2017568008A 2015-03-16 2016-03-15 核酸を分析するためのシステムおよび方法 Pending JP2018513508A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562133638P 2015-03-16 2015-03-16
US62/133,638 2015-03-16
PCT/US2016/022455 WO2016149261A1 (en) 2015-03-16 2016-03-15 Systems and methods for analyzing nucleic acid

Publications (2)

Publication Number Publication Date
JP2018513508A true JP2018513508A (ja) 2018-05-24
JP2018513508A5 JP2018513508A5 (ja) 2019-04-25

Family

ID=56919273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017568008A Pending JP2018513508A (ja) 2015-03-16 2016-03-15 核酸を分析するためのシステムおよび方法

Country Status (7)

Country Link
US (2) US20160273049A1 (ja)
EP (1) EP3271848A4 (ja)
JP (1) JP2018513508A (ja)
CN (1) CN107750279A (ja)
CA (2) CA3227242A1 (ja)
HK (1) HK1250182A1 (ja)
WO (1) WO2016149261A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021070739A1 (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 分析装置、分析方法及びプログラム
JP2022516092A (ja) * 2019-10-08 2022-02-24 イルミナ インコーポレイテッド クローン性造血由来の無細胞dna変異の断片サイズ特性評価
JP2022522948A (ja) * 2019-01-08 2022-04-21 カリス エムピーアイ インコーポレイテッド ゲノムプロファイリングの類似性
WO2022168195A1 (ja) * 2021-02-03 2022-08-11 国立大学法人東北大学 遺伝情報解析システム、及び遺伝情報解析方法

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101852169B1 (ko) 2010-05-20 2018-04-26 어레이 바이오파마 인크. Trk 키나제 저해제로서의 매크로시클릭 화합물
DK3246416T3 (da) 2011-04-15 2024-09-02 Univ Johns Hopkins Sikkert sekventeringssystem
CN109457030B (zh) 2012-10-29 2022-02-18 约翰·霍普金斯大学 卵巢和子宫内膜癌的帕帕尼科拉乌测试
TW202409295A (zh) 2014-07-18 2024-03-01 香港中文大學 Dna混合物中之組織甲基化模式分析
KR20170125044A (ko) 2015-02-10 2017-11-13 더 차이니즈 유니버시티 오브 홍콩 암 스크리닝 및 태아 분석을 위한 돌연변이 검출법
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
DK3325664T3 (da) 2015-07-23 2022-03-07 Univ Hong Kong Chinese Analyse af fragmenteringsmønstre for cellefrit DNA
US11286531B2 (en) 2015-08-11 2022-03-29 The Johns Hopkins University Assaying ovarian cyst fluid
WO2018037289A2 (en) * 2016-02-10 2018-03-01 Energin.R Technologies 2009 Ltd. Systems and methods for computational demultiplexing of genomic barcoded sequences
NZ745249A (en) 2016-02-12 2021-07-30 Regeneron Pharma Methods and systems for detection of abnormal karyotypes
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
AU2017347790B2 (en) 2016-10-24 2024-06-13 Grail, Inc. Methods and systems for tumor detection
WO2018088635A1 (ko) * 2016-11-08 2018-05-17 한국과학기술원 유전체내 암 특이적 진단 마커 검출
EP3541951A4 (en) * 2016-11-15 2020-06-03 Personal Genome Diagnostics Inc. NON-UNIQUE BARCODES IN A GENOTYPING TEST
KR20230062684A (ko) 2016-11-30 2023-05-09 더 차이니즈 유니버시티 오브 홍콩 소변 및 기타 샘플에서의 무세포 dna의 분석
ES2948194T3 (es) 2017-01-18 2023-09-01 Array Biopharma Inc Compuestos de pirazolo[1,5-a]pirazina sustituida como inhibidores de la cinasa RET
CA3051509A1 (en) 2017-01-25 2018-08-02 The Chinese University Of Hong Kong Diagnostic applications using nucleic acid fragments
JP6262922B1 (ja) * 2017-02-16 2018-01-17 花王株式会社 物質の遺伝毒性の評価方法
JOP20190213A1 (ar) 2017-03-16 2019-09-16 Array Biopharma Inc مركبات حلقية ضخمة كمثبطات لكيناز ros1
CN110914450B (zh) * 2017-05-16 2024-07-02 夸登特健康公司 无细胞dna的体细胞来源或种系来源的鉴定
JPWO2019009431A1 (ja) * 2017-07-07 2020-05-21 株式会社Dnaチップ研究所 腫瘍細胞で生じた突然変異を高精度に識別する方法
JP7320345B2 (ja) * 2017-10-27 2023-08-03 シスメックス株式会社 遺伝子解析方法、遺伝子解析装置、遺伝子解析システム、プログラム、および記録媒体
CN111542616A (zh) * 2017-11-03 2020-08-14 夸登特健康公司 脱氨引起的序列错误的纠正
JP6417465B2 (ja) * 2017-11-27 2018-11-07 花王株式会社 物質の遺伝毒性の評価方法
JPWO2019132010A1 (ja) * 2017-12-28 2021-01-21 タカラバイオ株式会社 塩基配列における塩基種を推定する方法、装置及びプログラム
WO2019143994A1 (en) 2018-01-18 2019-07-25 Array Biopharma Inc. Substituted pyrazolyl[4,3-c]pyridinecompounds as ret kinase inhibitors
CN111971286B (zh) 2018-01-18 2023-04-14 阿雷生物药品公司 作为RET激酶抑制剂的取代的吡咯并[2,3-d]嘧啶化合物
CN111630054B (zh) 2018-01-18 2023-05-09 奥瑞生物药品公司 作为RET激酶抑制剂的取代的吡唑并[3,4-d]嘧啶化合物
CN111868832A (zh) * 2018-03-13 2020-10-30 格里尔公司 识别拷贝数异常的方法
CN108733975B (zh) * 2018-03-29 2021-09-07 深圳裕策生物科技有限公司 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质
AU2019249422A1 (en) 2018-04-02 2020-10-15 Grail, Llc Methylation markers and targeted methylation probe panels
JP7274504B2 (ja) * 2018-05-08 2023-05-16 エフ. ホフマン-ラ ロシュ アーゲー 多様度指数を確立することで腫瘍バリアント多様度を評価することによるがん予後診断の方法
KR102217272B1 (ko) * 2018-05-31 2021-02-18 한국과학기술원 유전체 변이 정보를 이용한 질병 진단 바이오마커 추출 방법
CN109949866B (zh) * 2018-06-22 2021-02-02 深圳市达仁基因科技有限公司 病原体操作组的检测方法、装置、计算机设备和存储介质
US11964988B2 (en) 2018-09-10 2024-04-23 Array Biopharma Inc. Fused heterocyclic compounds as RET kinase inhibitors
CA3111887A1 (en) 2018-09-27 2020-04-02 Grail, Inc. Methylation markers and targeted methylation probe panel
WO2020077552A1 (zh) * 2018-10-17 2020-04-23 上海允英医疗科技有限公司 一种肿瘤预后预测的方法和系统
US20200202975A1 (en) * 2018-12-19 2020-06-25 AiOnco, Inc. Genetic information processing system with mutation analysis mechanism and method of operation thereof
CN109658983B (zh) * 2018-12-20 2019-11-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
CN111383713B (zh) * 2018-12-29 2023-08-01 北京安诺优达医学检验实验室有限公司 ctDNA检测分析装置及方法
US20200407711A1 (en) * 2019-06-28 2020-12-31 Advanced Molecular Diagnostics, LLC Systems and methods for scoring results of identification processes used to identify a biological sequence
CN110808081B (zh) * 2019-09-29 2022-07-08 深圳吉因加医学检验实验室 一种鉴定肿瘤纯度样本的模型构建方法及应用
CN111139291A (zh) * 2020-01-14 2020-05-12 首都医科大学附属北京安贞医院 一种单基因遗传性疾病高通量测序分析方法
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11304939B2 (en) * 2020-05-14 2022-04-19 Chang Gung University Methods for treating oral cancers
CN112435712B (zh) * 2020-11-20 2024-07-30 元码基因科技(苏州)有限公司 用于分析基因测序数据的方法及系统
CN112735517A (zh) * 2020-12-30 2021-04-30 深圳市海普洛斯生物科技有限公司 一种检测染色体联合缺失的方法、装置和存储介质
CN113284554B (zh) * 2021-04-28 2022-06-07 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种筛查结直肠癌术后微小残留病灶及预测复发风险的循环肿瘤dna检测系统及应用
CN113278706B (zh) * 2021-07-23 2021-11-12 广州燃石医学检验所有限公司 一种用于区分体细胞突变和种系突变的方法
US20240003888A1 (en) 2022-05-17 2024-01-04 Guardant Health, Inc. Methods for identifying druggable targets and treating cancer

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5242794A (en) 1984-12-13 1993-09-07 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4988617A (en) 1988-03-25 1991-01-29 California Institute Of Technology Method of detecting a nucleotide change in nucleic acids
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
US5869252A (en) 1992-03-31 1999-02-09 Abbott Laboratories Method of multiplex ligase chain reaction
US6100099A (en) 1994-09-06 2000-08-08 Abbott Laboratories Test strip having a diagonal array of capture spots
US5701256A (en) 1995-05-31 1997-12-23 Cold Spring Harbor Laboratory Method and apparatus for biological sequence comparison
US6223128B1 (en) 1998-06-29 2001-04-24 Dnstar, Inc. DNA sequence assembly system
US6582938B1 (en) 2001-05-11 2003-06-24 Affymetrix, Inc. Amplification of nucleic acids
US6714874B1 (en) 2000-03-15 2004-03-30 Applera Corporation Method and system for the assembly of a whole genome using a shot-gun data set
US20030224384A1 (en) 2001-11-13 2003-12-04 Khalid Sayood Divide and conquer system and method of DNA sequence assembly
DE10254601A1 (de) * 2002-11-22 2004-06-03 Ganymed Pharmaceuticals Ag Differentiell in Tumoren exprimierte Genprodukte und deren Verwendung
JP2006525814A (ja) 2003-05-23 2006-11-16 コールド スプリング ハーバー ラボラトリー ヌクレオチド配列の実質的表示
US20060228721A1 (en) * 2005-04-12 2006-10-12 Leamon John H Methods for determining sequence variants using ultra-deep sequencing
US8457900B2 (en) 2006-03-23 2013-06-04 The Regents Of The University Of California Method for identification and sequencing of proteins
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP2677308B1 (en) 2006-12-14 2017-04-26 Life Technologies Corporation Method for fabricating large scale FET arrays
US8140270B2 (en) * 2007-03-22 2012-03-20 National Center For Genome Resources Methods and systems for medical sequencing analysis
WO2008148072A2 (en) * 2007-05-24 2008-12-04 The Brigham And Women's Hospital, Inc. Disease-associated genetic variations and methods for obtaining and using same
US20100112590A1 (en) * 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
US20090119313A1 (en) 2007-11-02 2009-05-07 Ioactive Inc. Determining structure of binary data using alignment algorithms
US20090298064A1 (en) * 2008-05-29 2009-12-03 Serafim Batzoglou Genomic Sequencing
US20100035252A1 (en) 2008-08-08 2010-02-11 Ion Torrent Systems Incorporated Methods for sequencing individual nucleic acids under tension
US20100063742A1 (en) 2008-09-10 2010-03-11 Hart Christopher E Multi-scale short read assembly
US8383345B2 (en) 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US20100301398A1 (en) 2009-05-29 2010-12-02 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8546128B2 (en) 2008-10-22 2013-10-01 Life Technologies Corporation Fluidics system for sequential delivery of reagents
WO2010127045A2 (en) 2009-04-29 2010-11-04 Complete Genomics, Inc. Method and system for calling variations in a sample polynucleotide sequence with respect to a reference polynucleotide sequence
AU2010248803B2 (en) * 2009-05-14 2014-05-29 Arizona Board Of Regents On Behalf Of University Of Arizona Carcinoma diagnosis and treatments, based on ODC1 genotype
US8574835B2 (en) 2009-05-29 2013-11-05 Life Technologies Corporation Scaffolded nucleic acid polymer particles and methods of making and using
US8673627B2 (en) 2009-05-29 2014-03-18 Life Technologies Corporation Apparatus and methods for performing electrochemical reactions
US20120156676A1 (en) * 2009-06-25 2012-06-21 Weidhaas Joanne B Single nucleotide polymorphisms in brca1 and cancer risk
WO2011050341A1 (en) * 2009-10-22 2011-04-28 National Center For Genome Resources Methods and systems for medical sequencing analysis
WO2011103236A2 (en) * 2010-02-18 2011-08-25 The Johns Hopkins University Personalized tumor biomarkers
US20110257889A1 (en) 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
WO2012027446A2 (en) * 2010-08-24 2012-03-01 Mayo Foundation For Medical Education And Research Nucleic acid sequence analysis
US8209130B1 (en) * 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
EP2891099A4 (en) * 2012-08-28 2016-04-20 Broad Inst Inc DETECTION OF VARIANTS IN SEQUENCING DATA AND CALIBRATION
CN105102635B (zh) * 2013-03-15 2020-09-25 生命技术公司 肺癌的分类和可行性指数

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022522948A (ja) * 2019-01-08 2022-04-21 カリス エムピーアイ インコーポレイテッド ゲノムプロファイリングの類似性
JP7526188B2 (ja) 2019-01-08 2024-07-31 カリス エムピーアイ インコーポレイテッド ゲノムプロファイリングの類似性
WO2021070739A1 (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 分析装置、分析方法及びプログラム
JPWO2021070739A1 (ja) * 2019-10-08 2021-11-25 国立大学法人 東京大学 分析装置、分析方法及びプログラム
JP2022516092A (ja) * 2019-10-08 2022-02-24 イルミナ インコーポレイテッド クローン性造血由来の無細胞dna変異の断片サイズ特性評価
JP7352904B2 (ja) 2019-10-08 2023-09-29 国立大学法人 東京大学 分析装置、分析方法及びプログラム
US12054712B2 (en) 2019-10-08 2024-08-06 Illumina, Inc. Fragment size characterization of cell-free DNA mutations from clonal hematopoiesis
WO2022168195A1 (ja) * 2021-02-03 2022-08-11 国立大学法人東北大学 遺伝情報解析システム、及び遺伝情報解析方法

Also Published As

Publication number Publication date
CN107750279A (zh) 2018-03-02
US20160273049A1 (en) 2016-09-22
EP3271848A1 (en) 2018-01-24
US20180119230A1 (en) 2018-05-03
EP3271848A4 (en) 2018-12-05
CA3227242A1 (en) 2016-09-22
HK1250182A1 (zh) 2018-11-30
CA2980078C (en) 2024-03-12
CA2980078A1 (en) 2016-09-22
WO2016149261A1 (en) 2016-09-22

Similar Documents

Publication Publication Date Title
CA2980078C (en) Systems and methods for analyzing nucleic acid
US11972841B2 (en) Machine learning system and method for somatic mutation discovery
Alekseyev et al. A next-generation sequencing primer—how does it work and what can it do?
EP3323070B1 (en) Neoantigen analysis
Serratì et al. Next-generation sequencing: advances and applications in cancer diagnosis
CN109477138A (zh) 肺癌检测方法
JP2016518123A (ja) 癌に関連付けられる遺伝子融合物及び遺伝子変異型
US20200392584A1 (en) Methods and systems for detecting residual disease
US20180135044A1 (en) Non-unique barcodes in a genotyping assay
Poh et al. Analytical and clinical validation of an amplicon-based next generation sequencing assay for ultrasensitive detection of circulating tumor DNA
Liu et al. Targeted transcriptome analysis using synthetic long read sequencing uncovers isoform reprograming in the progression of colon cancer
JP2021101629A (ja) ゲノム解析および遺伝子解析用のシステム並びに方法
Kristensen et al. Targeted ultradeep next‐generation sequencing as a method for KIT D 816 V mutation analysis in mastocytosis
CN115298326A (zh) 用于癌症分析的方法和组合物
US20230203473A1 (en) Methods of capturing cell-free methylated dna and uses of same
US20210202037A1 (en) Systems and methods for genomic and genetic analysis
JP2023526441A (ja) 複合遺伝子バリアントの検出およびフェージングのための方法およびシステム
US20240321390A1 (en) Machine learning system and method for somatic mutation discovery
Yin et al. LiBis: an ultrasensitive alignment augmentation for low-input bisulfite sequencing
Liu et al. Targeted transcriptome analysis using synthetic long read sequencing uncovers isoform reprograming in the progression of colon cancer
US20240257906A1 (en) Methods for detecting nucleic acid variants
Craig Low Frequency Airway Epithelial Cell Mutation Pattern Associated with Lung Cancer Risk
Yao et al. Methodology established for the detection of circulating tumor DNA by hybridization capture
Bunz Cancer Detection and Prognostication
Krubaa et al. Next-generation sequencing technology in cancer

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181009

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20181012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20181009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190313

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190313

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200616

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200914

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210224