JP2022543585A - 確定的制限部位の全ゲノム増幅(DRS-WGA)後にヘテロ接合性の消失(LoH)を解析するための方法 - Google Patents

確定的制限部位の全ゲノム増幅(DRS-WGA)後にヘテロ接合性の消失(LoH)を解析するための方法 Download PDF

Info

Publication number
JP2022543585A
JP2022543585A JP2022506443A JP2022506443A JP2022543585A JP 2022543585 A JP2022543585 A JP 2022543585A JP 2022506443 A JP2022506443 A JP 2022506443A JP 2022506443 A JP2022506443 A JP 2022506443A JP 2022543585 A JP2022543585 A JP 2022543585A
Authority
JP
Japan
Prior art keywords
loh
loci
sample
genomic
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022506443A
Other languages
English (en)
Inventor
ニコロ・マナレージ
マリアンナ・ガロンツィ
アルベルト・フェラリーニ
クラウディオ・フォルカト
Original Assignee
メナリーニ シリコン バイオシステムズ エッセ.ピー.アー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by メナリーニ シリコン バイオシステムズ エッセ.ピー.アー. filed Critical メナリーニ シリコン バイオシステムズ エッセ.ピー.アー.
Publication of JP2022543585A publication Critical patent/JP2022543585A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/30Phosphoric diester hydrolysing, i.e. nuclease
    • C12Q2521/301Endonuclease
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

ゲノムDNAを含む少なくとも1つの試料におけるヘテロ接合性の消失(LoH)を解析するための方法であって、a. ゲノムDNAを含む少なくとも1つの試料を用意する工程;b. 前記ゲノムDNAの確定的制限部位の全ゲノム増幅(DRS-WGA)を実施する工程;c. 前記DRS-WGAの産物から超並列シークエンシングライブラリを調製する工程;d. 前記超並列シークエンシングライブラリ上で、1未満の平均カバレッジ深度で、ローパス全ゲノムシークエンシングを実施する工程;e. 前記少なくとも1つの試料に関するリファレンスゲノム上に、工程dにおいて得られたリードのアライメントを行う工程;f. 複数の遺伝子座でアレル含量を抽出する工程であって、前記複数の遺伝子座が多型遺伝子座及び/又はヘテロ接合性遺伝子座を含む、工程;g. 前記少なくとも1つの試料に関する前記リファレンスゲノムの少なくとも1つのゲノムウィンドウに対して、前記複数の遺伝子座における少なくとも2つの異なるアレルを有する遺伝子座の数の関数として、LoHスコアを割り当てる工程、を含む方法が開示される。

Description

関連出願の相互参照
本特許出願は、2019年7月30日に出願されたイタリア特許出願第102019000013335号の優先権を主張し、その開示全体は参照により本明細書に組み入れられる。
本発明は、確定的制限部位の全ゲノム増幅(DRS-WGA)によるローパス全ゲノムシークエンシングデータから、試料におけるヘテロ接合性の消失(LoH)を解析して、正常対照の使用を伴うか又は伴わずに、単一細胞の分解能を達成するための方法に関する。本方法は、幾つかの単一細胞用途、例えば、循環腫瘍細胞の解析、及び組織試料における単一細胞不均一性を含む腫瘍学、又は着床前遺伝子スクリーニング(PGS)を含む生殖医学において、適用することができる。
単一細胞ゲノムDNAの全ゲノム増幅(WGA)は、シークエンシング、SNP検出等を含む様々なタイプの遺伝的解析を行うことを簡単にする、及び/又は可能にする目的で、より多くのDNAを採取するために、往々にして必要とされる。確定的制限部位に基づくLM-PCRによるWGA(以下、DRS-WGA)は、WO2000/017390により既知である。
重要なこととして、DRS-WGAは、多くの観点から、特に単一細胞からのアレルドロップアウト(allelic drop-out)がより少ないという点で、クラス最高のWGA法であることが示されている(Borgstromら、2017年; Normandら、2016年; Babayanら、2016年; Binderら、2014年)。
LM-PCRに基づく、DRS-WGAの市販キット(Ampli1(商標)WGAキット、Silicon Biosystems社)は、Hodgkinson C.L.ら、Nature Medicine 20, 897-903(2014)において使用されている。この研究において、単一細胞WGA材料におけるローパス全ゲノムシークエンシングによるコピー数解析が行われ、そこではシークエンシングのためのイルミナ(Illumina)バーコードを付したアダプターライゲーションの前に、WGAアダプターの消化、及び断片化を実施した。
WO2017/178655及びWO2019/016401A1は、DRS-WGA(例えば、Ampli1)から超並列シークエンシングライブラリを調製するための簡易化した方法、又はローパス全ゲノムシークエンシング及びコピー数プロファイリングのためのMALBACを教示している。Ferrariniら、PLoSONE 13(3):e0193689、https://doi.org/10.1371/journal.pone.0193689において、Ion Torrentプラットフォームを用いるWO2017/178655の方法性能が、コピー数プロファイリングを参照して詳述されている。
Ampli1(商標)WGAは、アレイ比較ゲノムハイブリダイゼーション(aCGH)に適合可能である。実際に幾つかのグループ(Moehlendick B.ら、2013年、PLoS ONE 8(6): e67031; Czyz ZT.ら、2014年、PLoS ONE 9(1): e85907)が、高分解能コピー数解析に適していることを示している。しかし、aCGH技術は高価で労力を要するため、体細胞コピー数変化(CNA)の検出には、ローパス全ゲノムシークエンシング(LPWGS)等の異なる方法が望ましい場合がある。
DRS-WGAは、アレイCGH、中期CGHを用いた場合の微量の顕微解剖FFPE材料からのコピー数プロファイルの解析のため、更には他の遺伝子解析アッセイ、例えば標的化プライマーを用いるヘテロ接合性の消失、及び選択したマイクロサテライトの解析のためのPCRのために、DOP-PCRよりも良好であることが示されている(Stoeckleinら、Am J Pathol. 2002年7月; 161(1):43~51頁; Arnesonら、ISRN Oncol. 2012 ;2012:710692. doi: 10.5402/2012/710692. Epub 2012年3月14日)。
米国特許第7,424,368 B2号は、マイクロアレイを用いたSNPの解析を含む、実験試料におけるゲノム領域のコピー数を推定するための方法を教示している。マイクロアレイ技術は、次世代シークエンシングに対してプロセス性及び柔軟性が低く、絶対的なカウントではなく相対的シグナルのみを提供する。その上、次世代シークエンシング(NGS)とは反対に、プローブの合成及びマイクロアレイの製造に関連するセットアップ費用がある。
Zahn H.ら、Nature Methods, volume 14、167~173頁(2017)は、前増幅なしに超並列単一細胞ライブラリを調製する方法を教示し、SA501X3F細胞株のバルク相当物上でのCNA及びLoHの同時推測を示している。しかし、このアプローチは、相対的に多数の単一細胞を必要とする(48)。加えて、TITANを用いて解析を実施するには、ヘテロ接合性SNPの位置を決定しなければならない(Ha G.ら、2014年、Genome Research 24(11))。
この方法には以下の欠点がある。
1. これは全ゲノム増幅ライブラリの使用と適合性がないが、WGAは多くの場合に実際に望ましく、これは例えばCTCを取り扱う場合であり、バイオマーカー探索のため、又はローパスWGSのみによっては推測できないと思われる他の既知の有効性バイオマーカーを評価するためといったことを含む様々な目的で、各々の個細胞からの単一細胞レベルで、例えば、癌遺伝子又は腫瘍抑制遺伝子におけるSNVに関する追加の情報を得るために、WGA産物の異なるアリコートの再解析が必要になるためである。
2. 着床前遺伝子スクリーニング(PGS)又は着床前遺伝子診断(PGD)などの特定の用途では、単一細胞しか入手可能でないことがあり、そのためZahnらのアプローチは明らかに適用不能である。
3. 特定の用途では、多数の細胞を解析のために入手可能であるが、しかしそれらは、Zahnらのアプローチを用いるのに十分な情報を提供するには依然として不十分であり得る。例えば、CELLSEARCHシステムを用いた転移性患者からの7.5mlの採血から収集されるCTCの数は、大半の場合に10未満である(Allard WJ.ら、2004年、Clin Cancer Res.、10月15日;10(20):6897~904頁、表2参照)。
腫瘍学において、LoHの全ゲノム評価は、幾つかの癌タイプにおける白金製剤療法及びポリ(ADP-リボース)ポリメラーゼ(PARP)阻害剤の有効性に関連して、いわゆるBRCAnessシグネチャー(BRCAness signature)のアセスメントを含む、幾つかの状況で重要であることが示されている(例えば、Watkinsら、Breast Cancer Research 2014年、16:211頁)。加えて、生殖細胞系列が突然変異した個体の腫瘍におけるBRCA1及びBRCA2遺伝子座でのLoHの解析は、治療法の有効性にとって重要であることが示されている。
着床前遺伝子スクリーニング(PGS)又は着床前遺伝子診断(PGD)においては、ある人が染色体又は染色体の一部の2コピーを一方の親から受け継ぎ、他方の親からは1コピーも受け継がない場合に起こる、片親性ダイソミー(UPD)を判定することが望ましい。しかし、この種の情報は、従来のバイオインフォマティクスパイプライン及び解析方法を用いた場合に、標準的なLPWGSワークフローからは利用可能でない。
全ゲノムLoH状態(及び/又は遺伝子特異的LoH状態)を単一細胞までの分解能で推測し、現行の技術水準に付きものの、以下の限界の1つ又は複数を克服することを可能にする方法を提供する必要がある:
‐ 高カバレッジの全ゲノムシークエンシング、又は換言すれば、カバレッジの高いバルク相当物を生成する多数の単一細胞ローパスシークエンシングの必要性;
‐ 正常対照が必須条件である;
‐ 検証又は追加の標的とするゲノム情報のために、単一細胞を信頼性をもって再解析することが不可能である。
CTC解析のため、更には他の単一細胞解析用途、例えば、母体血から採取した胚盤胞及び循環胎児細胞での出生前診断のためには、DRS-WGAの再現性及び質と、同じローパスシークエンシングデータから、コピー数変異体(CNV)とともに全ゲノムLoHを解析し得ることとを兼ね備える、効率的な方法があることが望ましいと考えられる。
加えて、同じく微量の細胞、FFPE又は組織生検試料から、全ゲノムコピー数プロファイル及びLoHを決定することも望ましいと考えられる。
Binder V.ら、「A new workflow for whole-genome sequencing of single human cells」、Human mutation、Vol. 35、No. 10、1260~1270頁、2014年は、効率的なアダプター-リンカーPCRに基づくWGA法を、第2世代シークエンシングと組み合わせる、ワークフローを開示している。このアプローチは、塩基対の分解能での単一細胞の比較を可能にする。しかし、この方法は、特定の信頼度で遺伝子型をコールするように十分なカバレッジを得ることができる、遺伝子型が判定されたSNP、すなわち多型ゲノム位置に基づく。
上記の方法と本発明の方法とは目的がかなり異なる。本発明の目的は、Binderらにおけるような遺伝子多型位置ではなく、全ゲノムLoH状態(及び/又は遺伝子特異的LoH状態)を単一細胞までの分解能で推測することである。
Binderらの方法は、2桁分大きい多数のリードを意味する。その代わりに、本発明によれば、例えば、Binderらで使用されたリードの1%未満に対応する200万のリードから出発して、LoHを単一の試料からコールすることができる。
WO2000/017390 WO2017/178655 WO2019/016401A1 米国特許第7,424,368 B2号
Hodgkinson C.L.ら、Nature Medicine 20、897-903(2014) Ferrariniら、PLoSONE 13(3):e0193689、https://doi.org/10.1371/journal.pone.0193689 Moehlendick B.ら、2013年、PLoS ONE 8(6): e67031 Czyz ZT.ら、2014年、PLoS ONE 9(1): e85907 Stoeckleinら、Am J Pathol. 2002年7月; 161(1):43~51頁 Arnesonら、ISRN Oncol. 2012; 2012:710692. doi: 10.5402/2012/710692. Epub 2012年3月14日 Zahn H.ら、Nature Methods、volume 14、167~173頁(2017) Ha G.ら、2014年、Genome Research 24(11) Allard WJ.ら、2004年、Clin Cancer Res.、10月15日;10(20):6897~904頁 Watkinsら、Breast Cancer Research 2014年、16:211頁 Binder V.ら、「A new workflow for whole-genome sequencing of single human cells」、Human mutation、Vol. 35、No. 10、1260~1270頁、2014年 Boeva, V.ら、2011年、Bioinformatics、27(2)、268~269頁 Harchaoui, Z.ら、2008年、Adv. Neural Inform. Process. Syst., 20, 617~624頁 Seshan VE.ら、2019年、DNAcopy: DNA copy number data analysis. R package version 1.58.0 Benjamini Y.ら、1995年、Journal of the Royal Statistical Society. Series B (Methodological) Vol. 57, No. 1:289~300頁 Boeva, V.ら、Bioinformatics, 27(2), 268~269頁、http://doi.org/10.1093/bioinformatics/btq635 Boevaら、Bioinformatics, Vol. 28 no. 3 (2012), 423~42頁
したがって、本発明の1つの目的は、先行技術の方法の欠点を克服した、LoHを解析するための方法を提供することである。
特に、本発明の目的は、全ゲノム増幅後に、少数の細胞からのLoHを単一細胞までの分解能で解析するための方法であって、当技術分野において一般に報告されているよりも、より少数の細胞、より少数の正常対照、より少数の細胞あたりシークエンシングリードを解析のために使用することを伴う方法を提供する。
この目的は、請求項1に記載の方法によって達成される。
本発明による方法の工程をまとめたブロック図を示している。 観察されるカバレッジに対するゲノム表示(genome representation)の減少の影響を示している。 観察されるカバレッジに対するゲノム表示(genome representation)の減少の影響を示している。 観察されるカバレッジに対するゲノム表示(genome representation)の減少の影響を示している。 観察されるカバレッジに対するゲノム表示(genome representation)の減少の影響を示している。 様々な制限部位でのヒトゲノムのインシリコ消化のグラフを示している。 hg19ヒトゲノムをAmpli1 DRS-WGA酵素(MseI)で消化して得られた断片長の関数としての、DNA断片の数のインシリコ解析を示している。 シークエンシングのために選択した断片の間隔とサイズとの間の関係を示している。 一定の塩基対のゲノムウィンドウに基づく分割の一例の略図を示している。 ウィンドウあたり一定数の遺伝子座に基づく分割の一例の略図を示している。 様々な数のリード(1~900万)でn=1000SNPのゲノムウィンドウ内に検出されたヘテロ接合性遺伝子座の平均数を示したグラフである。縦の黒線は、平均からの標準偏差を示している。 コピー数セグメントに基づく分割の略図を示している。 LoHスコアがヘテロ接合性遺伝子座の数として定義される場合を示している。 LoHスコアが、遺伝子座が一定数であるゲノムウィンドウ内の全遺伝子座に対するヘテロ接合性遺伝子座の割合として定義される場合を示している。 1,000,000のマッピングされたリードを用いて少なくとも1リードでカバーされる、(A)n=500SNP、(B)n=1000SNP、(C)n=1500SNPのウィンドウ内の2アレルSNPの数として定義される、LoHスコア閾値の定義のために用いたROC解析を示している。 様々な数のマッピングされたリード(1,000,000~10,000,000リード)及び試料純度(10%~90%)での、LoHスコアの受信者動作特性(ROC)曲線下面積(AUC)値を示している。 断片のサイズ選択に関連してAmpli1 LowPass for Illuminaを用いて調製したシークエンシングライブラリから得られたデータを示している。 断片のサイズ選択に関連してAmpli1 LowPass for Illuminaを用いて調製したシークエンシングライブラリから得られたデータを示している。 断片のサイズ選択に関連してAmpli1 LowPass for Illuminaを用いて調製したシークエンシングライブラリから得られたデータを示している。 断片のサイズ選択に関連してAmpli1 LowPass for Illuminaを用いて調製したシークエンシングライブラリから得られたデータを示している。 断片のサイズ選択に関連してAmpli1 LowPass for Illuminaを用いて調製したシークエンシングライブラリから得られたデータを示している。 断片のサイズ選択に関連してAmpli1 LowPass for Illuminaを用いて調製したシークエンシングライブラリから得られたデータを示している。 一定の塩基対のゲノムウィンドウの使用及びフィッシャー統計検定の適用による、LoHの検出の一例を示している。 遺伝子座が一定数のゲノムウィンドウを用いることによる、LoHの検出の一例を示している。 1,000,000のマッピングされたリードを用いて少なくとも1リードでカバーされる、n=1000SNPのウィンドウ内のヘテロ接合性遺伝子座の数として定義される、LoHスコア閾値の同定のための9個の単一細胞の訓練セットに基づいて作成されたROC曲線を示している。 本発明の実施例2における方法に従って検出された、単一の腫瘍細胞及びLoHゲノム領域のプロットを示している。 コピー数セグメント化及びフィッシャー検定を用いたLoH状態を用いた、ゲノム領域の検出の一例を示している。
定義
特に規定しない限り、本明細書で使用されるすべての技術用語及び科学用語は、本発明が属する技術分野における当業者によって一般的に理解されるものと同じ意味を有する。本明細書に記載されるものと同様又は同等の多くの方法及び材料を、本発明を実行し、又は試験する際に使用してもよいが、好ましい方法及び材料は以下に記載される。特に言及しない限り、本発明とともに使用される本明細書に記載の技術は、当業者に既知の標準的な技法である。
「超並行次世代シークエンシング(NGS又はMPS)」という表現は、空間的に及び/又は時間的に分離され、クローン的にシークエンシングされた(事前のクローン増幅を含む又は含まない)、DNA分子のライブラリの作製を含む、DNAをシークエンシングする方法を意図する。例としては、Illuminaプラットフォーム(Illumina Inc社)、Ion Torrentプラットフォーム(Thermo Fisher Scientific Inc社)、Pacific Biosciencesプラットフォーム、MinIon(Oxford Nanopore Technologies Ltd社)が挙げられる。
「ローパス全ゲノムシークエンシング」という表現は、全リファレンスゲノムを参照しての平均シークエンシング深度が3未満である全ゲノムシークエンシングを意図する。
「平均シークエンシング深度」という表現は、本明細書では、試料ごとの、シークエンシングされ、リファレンスゲノムにマッピングされる塩基の総数を、全リファレンスゲノムサイズで除算したものを意図する。シークエンシングされ、マッピングされる塩基の総数は、マッピングされるリードの数×平均リード長に近似することができる。
「リファレンスゲノム」という表現は、特定の種に関するリファレンスDNA配列を意図する。
「遺伝子座(locus)」(複数形「遺伝子座(loci)」)という用語は、(リファレンスゲノムに対する)染色体上の定位置を意図する。
「多型遺伝子座」という表現は、集団における観察頻度が1%を上回る2つ又はそれ以上のアレルを有する遺伝子座を意図する。
「ヘテロ接合性遺伝子座」という表現は、特定の試料中に観察される2つ又はそれ以上のアレルを有する遺伝子座を意図する。
「ゲノムウィンドウ」という表現は、固定長又は可変長を有する、単一の染色体内に含まれるリファレンスゲノムの区間を意図する。
「ゲノム領域」という表現は、同じ染色体内の1つ又は複数の隣接ゲノムウィンドウを含む区間を意図する。
「カバーされたゲノム」という表現は、少なくとも1つのリードによってカバーされる、リファレンスゲノムの部分を意図する。
「リード」という用語は、シークエンサーによってシークエンシングされる(「読み取られる」)、DNAの小片を意図する。
「コピー数領域」という表現は、同じコピー数の値に関連づけられるゲノム領域を意図する。
「セグメント化されたコピー数領域」という表現は、CNAのバイオインフォマティクス解析の結果として、同じコピー数の値に関連づけられるゲノム領域を意図する。
「腫瘍抑制遺伝子」という表現は、例えば、配列変異体‐生殖系列性又は体細胞性‐に起因する機能喪失が腫瘍の発生の確率上昇と関連する遺伝子を意図する。
「減少比(reduction ratio)」という表現は、特定された塩基対範囲内に含まれる、DRS-WGAに採用された制限酵素によるリファレンスゲノムのインシリコ消化によって得られる断片の塩基の総数を、リファレンスゲノムにおける塩基の総数によって除算したものを意図する。
「ヘテロ接合性の消失」又は「LoH」という表現は、ゲノム領域における1つのアレルの消失を意図する。
「LoHコール」という表現は、LoH(ゲノム領域における)の存在の割り当てを意図する。
「アレル含量」という表現は、遺伝子座で検出されるアレルに関する組成を意図する。
簡略化のために、本発明の説明において、特に指摘する場合を除き、遺伝子座は、遺伝子座の現実の遺伝子型とは関係なく、1つのアレルのみが検出される場合にはホモ接合性又は1アレル性と互換可能に、そして少なくとも2つのアレルが存在する場合にはヘテロ接合性又は2アレル性と称されることがある。
発明の詳細な説明
図1を参照すると、ゲノムDNAを含む少なくとも1つの試料におけるヘテロ接合性の消失(LoH)を解析するための本発明による方法は、以下の工程を含む。
工程aでは、ゲノムDNAを含む少なくとも1つの試料が用意される。
工程bでは、前記ゲノムDNAの確定的制限部位の全ゲノム増幅(DRS-WGA)が実施される。
工程cでは、前記DRS-WGAの産物から、超並列シークエンシングライブラリが調製される。
工程dでは、前記超並列シークエンシングライブラリ上で、平均カバレッジ深度1未満、好ましくは0.05未満、より好ましくは0.01未満で、ローパス全ゲノムシークエンシングが実施される。
工程eでは、前記少なくとも1つの試料に関するリファレンスゲノム上に、工程dにおいて得られたリードがアライメントされる。
工程fでは、複数の遺伝子座でのアレル含量が抽出される。前記複数の遺伝子座は、多型遺伝子座及び/又はヘテロ接合性遺伝子座を含む。
工程gでは、前記少なくとも1つの試料に関する前記リファレンスゲノムの少なくとも1つのゲノムウィンドウに対して、前記複数の遺伝子座における少なくとも2つの異なるアレルを有する遺伝子座の数の関数として、LoHスコアが割り当てられる。
好ましくは、サイズ選択の工程は、超並列シークエンシングライブラリを調製する工程cの前、間、又は後に行われ、超並列シークエンシングライブラリを調製する工程は、ランダム断片化工程を含まない。
サイズ選択の工程は、好ましくは、100~ 塩基対の800塩基対の範囲にある断片を保持する。
本発明の特定の実施形態では、サイズ選択は、好ましくは、300~450塩基対の範囲にある断片を保持する。
本発明の特定の実施形態では、サイズ選択の工程で保持される断片のピークは、好ましくは150bp~600bpの塩基対範囲を中心とし、より好ましくは、サイズ選択の工程は、425~575塩基対の範囲にある断片を保持する。
好ましくは、少なくとも1つのゲノムウィンドウは:
‐ 塩基対が一定の幅を有する、又は
‐ 一定数の前記複数の遺伝子座を有する、又は
‐ 染色体、染色体アーム、及びセグメント化されたコピー数領域で構成される群から選択される。
複数の遺伝子座は、好ましくは、前記少なくとも1つの試料のリファレンスゲノムに関するデータベース、例えばdbSNPから得られる、又は試料のリファレンスセットの遺伝子型判定を行うことによって得られる、多型遺伝子座を含む。
代替として、複数の遺伝子座は、好ましくは、対照試料に関する既知のヘテロ接合性遺伝子座を含む。
ゲノムウィンドウは塩基対が一定の幅を有する場合、若しくは一定数の複数の遺伝子座を有する場合、又は複数の遺伝子座が前記試料のリファレンスゲノムに関する多型遺伝子座を含む場合には、LoHスコアは好ましくは、前記少なくとも1つのゲノムウィンドウにおけるヘテロ接合性遺伝子座の数に対応する。
好ましくは、LoHスコアは、少なくとも1つのゲノムウィンドウにおける多型遺伝子座の総数に対する、ヘテロ接合性遺伝子座の割合に対応する。
LoHスコアは、好ましくは、統計検定のp値に対応する。
統計検定は、好ましくは、シークエンシング及びWGAのエラー率に対する、2アレル遺伝子座の過剰表示(over-representation)の有意性、又は対照試料に対する、2アレル遺伝子座の過少表示(under-representation)の有意性を判定する。
対照試料は、好ましくは、少なくとも1つの試料からの主要な倍数性での少なくとも1つのゲノム領域を含む。
対照試料は、好ましくは、少なくとも1つの正常試料であり、それはより好ましくは、前記少なくとも1つの試料が得られた試験下にある同じ個体から得られる。腫瘍学のケースでは、対照試料は、好ましくは正常(非腫瘍性)試料である。
循環胎児細胞のケースでは、対照試料は、好ましくは母方の試料である。或いは、父方の試料が利用可能である場合には、それは父方の試料、又は母方の試料及び父方の試料の組合せであってもよい。母方及び/又は父方の遺伝子型の入手可能性は、親対照においてヘテロ接合性であることが知られている遺伝子座のサブセットを選択するために利用することができる。
好ましくは、前記LoHスコアがゲノムウィンドウに関する閾値に合格した場合、前記ゲノムウィンドウはLoHにあると呼ばれる。このケースでは、本方法はより好ましくは、その領域に含まれる各ゲノムウィンドウに関するLoHスコアが前記閾値に合格した場合に、LoH状態を少なくとも1つのゲノム領域に割り当てる工程、又はその領域に含まれるゲノムウィンドウのLoH状態の関数として、LoH状態を少なくとも1つのゲノム領域に割り当てる工程を含む。
より好ましくは、少なくとも1つのゲノム領域は、腫瘍抑制遺伝子を含み、腫瘍抑制遺伝子は、更により好ましくは、BRCA1、BRCA2、PALB2、TP53、CDKN2A、RB1、APC、PTEN、CDKN1B、DMP1、NF1、AML1、EGR1、TGFBR1、TGFBR2及びSMAD4で構成される群から選択される。
少なくとも1つの試料は、好ましくは、少なくとも50%の純度を有する。より好ましくは、前記少なくとも1つの試料は、単一細胞である。
DRS-WGAにおける遺伝子座と断片長との一義的な関係
より詳細には、本発明による方法は、DRS-WGA、例えばAmpli1(商標)WGAにおいて、ゲノム中の各遺伝子座は、WGAライブラリ内で、塩基対が特定の長さを有する断片の中にのみ提示されるという事実を利用する。この特性は、「遺伝子座と断片長との一義的な関係」(L2FLUR)と名付けることができる。一般的な正常遺伝子座、例えば、多型SNPに関する遺伝子座を考慮すると、前記遺伝子座は、(単一ストランドのいずれかで測定した)その後に制限酵素による消化に加えて、汎用WGAアダプター(Ampli1 WGAの場合にはLIB1プライマーの長さ)の2倍の長さを加えた対応する断片のサイズに等しい、所与の長さの断片でのみ提示されると考えられる。Ampli1 LowPassキットによるライブラリ調製の後にWGAがシークエンシングされる場合には、予想可能な追加の長さが導入され、既知のシークエンシングアダプター及びバーコード長に連結される。
非理想的なもの、例えば未消化の制限部位又は配列変異体、更には他の要因が、理論的に期待されると考えられるものに対して、WGA産物における所与の断片の表示の頻度に影響を及ぼし、歪曲させる可能性がある。これらの要因は典型的には中程度であり、加えて、それらに再現性がある限り、それらの非ランダムな性質は、それらの影響を打ち消すことによって部分的には相殺される。したがって、それらの影響は、特に指摘する場合を除き、本明細書では無視することにする。
ゲノム表示の減少
本発明による方法では、L2FLURL特性を利用して、ゲノム表示の減少を生成し、所与の数のリードに対するローパスシークエンシングデータが、試料リファレンスゲノムの元のサイズに対して、カバーされたゲノムのサイズを効果的に減少させることにより、カバーされたゲノムのより高いカバレッジを達成する。換言すれば、WGA断片のサイズ選択は、リファレンスゲノムの確定的なサブサンプリングを生じさせる。「確定的」という用語は、リードの数が増えると、同じゲノム遺伝子座が最終的に再サンプリングされるという点で不可欠である(図2参照)。
図2は、観察されたカバレッジに対するゲノム表示減少の影響を示している。図2Aは、3種類の異なるアプローチによるMseI断片長分布を示している: 300~450bpの断片を収集するサイズ選択を用いるAmpli1 LowPass for Ion Torrent(A1LP_ss)、シークエンシング工程によって導かれる選択を用いるAmpli1 LowPass(A1LP)、並びにAmpli1 WGA後にランダム断片化及びシークエンシングを行って得られたライブラリ(A1_wFrg)(Binder Vら 2014年)。これらの3種類の異なるアプローチは、最も厳格なA1LP_ssから、選択のないことによって特徴付けられるA1_wFrgまで、ゲノム表示の減少の異なるレベルに相当する。図2Bは、これらの異なるアプローチを用いて得られたLorenz曲線を示しており、これはサイズ選択レベルに伴うカバレッジ均一性の漸減を示している。A1LP_ssの均一性がより低いことは、DNAテンプレートの飽和、及び同じ断片のシークエンシングの反復によって説明することができる。テンプレートの飽和は、図2C及び図2Dにおけるプロットによって確かめられており、これはそれぞれ、マッピングされたリードのインクリメンタル区間でのカバーされた塩基の総数及び塩基あたりの平均カバレッジを示している。これらのプロットは、サイズ選択工程(A1LP_ss)が、利用可能なDNAの量を減少させ、カバーされる標的が限定されるという影響はあるがカバレッジはより高くなることを明らかに示している。
本アプローチが、所望の分解能並びに/又は使用するシークエンシングプラットフォーム及びシークエンシングプロトコールに応じて、様々な確定的酵素が適し得るという点で柔軟であることは注目に値する。例えば、様々な高頻度カッターを用いることができる。Ampli1 WGAの例では、TTAAモチーフが制限部位である。様々な制限部位、例えばGTAC、CTAG(図3)で切断するために他の4塩基カッターを用いて、断片の異なる分布を得ることもできる。図3は、様々な制限部位(4塩基対又は6塩基対)を用いたヒトゲノムのインシリコ消化を示している。断片長の所与の範囲(例えば、特定のシークエンサー及びサイズ選択方法に適した)に対して、様々な制限部位により、様々な数の断片が得られる。
一次PCRの後にDRS-WGAを最初に精製すると、第1のサイズ選択が行われ、ここでWGAのより短い断片は遊離プライマーとともに除去される。有利なこととして、本方法は更なる選択の工程を使用する。この追加の選択の工程は、一次WGAからの特定の断片をサイズ選択すること、及び/又はシークエンシング可能な断片を制限する方法によって超並列シークエンシングライブラリを生成することのいずれかによって達成し得る。例えば、Ampli1 LowPassキットは固有のサイズ選択工程を含み、これはプロセスに肯定的な影響を及ぼすのに十分である。WO2017/178655では、ゲル上でのサイズ選択が実施されている。WO2019/016401では、SPRIビーズを用いる連続的な精製の工程により、第1のサイズ選択が効果的に行われ、そこで塩基対の長さはSPRIビーズ濃度に実質的に依存する範囲に制限される。加えて、シークエンサーはそれ自体でサイズ選択を導入する可能性があり、これは断片が長いほど、配列データが生成される効率はますます低くなるためである(例えば、Ion TorrentではエマルションPCR効率が原因となり、又はIlluminaプラットフォームではクラスター形成のためのブリッジPCRが原因となる)。
DRS-WGAではまた、シークエンシングライブラリの平均サイズとリファレンスゲノムのサブサンプリング比との間にも確定的な関係がある。
ヒトリファレンスゲノムhg19のTTAA消化物に対して実施したインシリコ解析では(図4)、すべての染色体配列を含む合計約19M断片が得られ、それは正常二倍体ヒトゲノム上の38M断片に翻訳されると考えられる。一例として、インシリコを選択すると、175~225bpの範囲にある断片は1,252,559に過ぎず、これは3.09B塩基のうちおよそ合計248M塩基をカバーし、すなわち、ヒトリファレンスゲノムの8.02%である。以下のTable 1(表1)を参照すると、サイズ別に異なる選択の範囲について、断片の数、全塩基対、及び減少比(%)をリストにして示している。このサブサンプリングは、減少比(RR)と名付けることができる。
Figure 2022543585000002
減少比とともに、DRS-WGAでは、シークエンシングのために選択された断片長分布の部分に応じて、平均間隔と連続的断片との間にも確定した関係がある。これに関連して、図5を参照すると、パネルAは断片長と間隔との間の正の相関を示しており、これは3つの異なる断片サイズ200、500、800についてバンド±100bpで測定したところ、選択される断片の数が減ることに起因する;パネルBは、各断片サイズについて3つの異なるバンド(±50、±100、±150)を使用したことを示しており、バンドサイズと間隔との間の逆相関を明示しているが、これもやはり、サイズの範囲が狭くなると入手可能な断片の数が減ることに起因する。
一般に、Ampli1 DRS-WGA断片分布に関して、ヒトリファレンスゲノムhg19のインシリコ解析により、以下のことが見いだされる:
・選択される断片の平均塩基対長が大きいほど、断片の数が少なくなり、それらの間隔が大きくなる;
・選択される断片の範囲が狭くなるほど、断片の数が少なくなり、それらの間隔が大きくなる。
断片のサイズ選択
また、様々なサイズ選択技術を用いて、所望の減少比を達成することもでき、これは試料あたりのシークエンシングリードの選ばれる数及び/又は分解能に依存する。図4を参照すれば、所与の平均断片長について、それぞれその平均断片長を中心とするより小さいか又はより大きいバンドを選択することで、より少ないか又は多い数の全断片を得ることができることは明らかである。
Pipping prep(Sage Science社)のような装置を使用して、断片長分布をより厳格に制御することができ、パスバンドフィルターとの類推を用いて、
Q=Fcenter/DeltaF=[(Fmin+FMAX)/2]/(FMAX-Fmin)
として定義されるより高いQファクターを有することもでき、
式中、
Fcenter =(Fmin+FMAX)/2は、断片の平均サイズであり、
DeltaF=FMAX-Fminは、断片サイズの範囲の幅である。
Fminは、それ未満では、断片が、binあたりの断片の正規化された帯域内ピーク数に対して従来の相対レベル(例えば、1/10=10%)又はそれ未満として描写される、断片のサイズである。
FMAXは、それを上回ると、断片が、binあたりの断片の正規化された帯域内ピーク数に対して、同じ従来の相対レベル又はそれ未満であると表現される、断片のサイズである。
Illuminaシークエンシングを用いる場合は、シークエンシングモードは、好ましくはペアエンドシークエンシングであり、これはカバーされるゲノムが増加し、それ故に100万リードペアあたりの遺伝子座の数が増加して、分解能が強化されるためである。しかし、シークエンシングのために選択されるサイズが特定のサイズを下回ると、2つのペアリードが完全にオーバーラップするため、ペアエンドシークエンシングではカバレッジが増加しないと考えられる。
Ion Torrentシークエンシングを用いる場合は、リード長が大きいと、カバーされるゲノムが比例して増加し、それ故に100万リードあたりの遺伝子座の数が増加して、分解能が強化される。Ampli1 LowPass IonTorrentキット(Menarini Silicon Biosystems社)の場合は、バーコード付きのプール試料を、ゲル上で、又はPippin Prepなどの他の方法で、サイズ選択する。様々なQファクター及び平均断片長の選択により、100万リードあたりで異なる分解能を提供し得る。
試料をプールして、その後にシークエンシングのためにライブラリのサイズ選択を行うことの1つの利点は、すべての試料で断片長の分布が同じになると考えられ、そのために異なる試料間でカバーされるゲノムのオーバーラップが最大になることである。これは、被験試料(SUT)中の潜在的なヘテロ接合性遺伝子座を同定するために、対照(例えば、正常対照又は母体対照)に基づくアプローチを用いる場合に該当する。
他方において、Ampli1 LowPass for Illuminaキットを用いる場合には、異なるLowPassライブラリを最初にサイズ選択し、その後にプールすると、異なる試料間でいくぶん異なるサイズ選択が行われるため、100万リードあたりで異なる試料間でカバーされるゲノムが減少する。ライブラリのプール後のサイズ選択は、標準的なプロトコールによって義務付けられてはいないが、試料間のオーバーラップを増やすために採用してもよく、それは対照に基づく解析に有益である可能性がある。
本発明によれば、DRS-WGAとLPWGSの組合せは、予想外のことに、入力試料からの表示の減少を招く。NGSを用いるシークエンシングにより、リファレンスゲノムのライブラリのこの表示の減少は、ひいては、ランダムプライミング又はランダム剪断を用いる代替的なWGA法と比較して、選択される(又は任意の方法でシークエンシング可能な)塩基対範囲内でカバーされるゲノムを減縮させ、100万リードあたりでカバーされるゲノムの効果的に高いカバレッジが得られる。
この効果は、本発明によれば、状況に応じて様々な方法で利用することができる。
1つの例は、1つ又は複数の対照試料、例えば「マッチした正常」を利用可能であり、及び1つ又は複数の被験試料(SUT)、例えば腫瘍試料を利用可能な場合である。このケースでは、DRS-WGAは、SUTと対照との間のリードのオーバーラップを増加させる。
別の例は対照のない状況であり、着床前遺伝子スクリーニング(PGS)の場合がそうであり、ここではSUTに対応する単一の試料のみが入手可能である。このケースでは、DRS-WGAは、2つ以上のリードによってカバーされる遺伝子座の数を増加させる。
好ましくは、DRS-WGAからのライブラリ調製は、WO2017/178655及びWO2019/016401に開示された方法の1つであり、これは、結果として生じる減少比が、Binder V.ら、2014年、又はHodgkinson C.L.ら、2014年で実施されているように、WGAアダプターを消化し、DNAを断片化して、その後にシークエンシング可能なライブラリを作成するのとは対照的に高いためである。実際に、DNA剪断は、シークエンシングのために選択された所与の塩基対範囲内に見いだされ得る元のDRS-WGAの可能な異なる断片の数を増加させるが、これはひとたび断片化されると、長い断片は上記の範囲に収まるのに対して、より小さい断片はより長い断片に対して剪断の効率が低い傾向があるため、本来は範囲内にある一次WGA断片の一部分のみが断片化に起因して範囲外に追い出されるためである(図2参照)。
LoH解析
再び図1を参照すると、超並列シークエンシングライブラリは好ましくは、Ampli1 LowPassキット(Ion Torrent用又はIllumina用)を用いて得られる。適合性のあるシークエンサーを用いて、試料のシークエンシングを行う。前記ライブラリから得られたシークエンシングされたリードをリファレンスヒトゲノムにマッピングし、既知の遺伝子座及び/又は多型遺伝子に存在するアレルを抽出する。好ましくは、そのような遺伝子座は、少なくとも2つのシークエンシングリードによってカバーされる。単一のアレルの検出は、必ずしも実際のホモ接合性遺伝子型を意味するのではなく、シークエンシングカバレッジが低い結果である可能性もあることに留意する必要がある。前記複数の遺伝子座を、好ましくは、ゲノム分割の異なる基準に従って、ゲノムウィンドウに細分する。この分割は任意選択的であり、特定の実施形態では、1つ又は少数の所定のゲノムウィンドウ、例えば、関心対象の1つ又は複数の遺伝子を含む単一の染色体又は単一のゲノム遺伝子座の解析のみに関心があるであろう。ゲノムウィンドウ内に検出された遺伝子座のアレル状態を、測定値を得るために使用する。以下ではLoHスコアと称するそのような測定値は、本発明による様々な方法によって、例えば、ゲノムウィンドウ内のヘテロ接合性遺伝子座の数を算定すること、又はヘテロ接合性遺伝子座の割合を算出することによって得ることができる。更に、統計検定を適用して、内部対照との比較によるか、又は外部対照(同じ個体から、又は異なる個体から)を用いるかのいずれかにより、LoHイベントに対応したヘテロ接合性遺伝子座の減少の有意性を決定することが好ましい。或いは、統計検定を適用して、シークエンシング及びWGAのエラー率に基づいて予想されるものに対して、LoHではないゲノム領域に対応したヘテロ接合性遺伝子座の過剰表示の有意性を決定することが好ましい。更に、既知のLoHイベントによる訓練データセットから算出した固定閾値に基づくLoHスコアの閾値処理を、LoHイベントに対応するゲノム領域を定めるために適用することが好ましい。方法の個々の工程について以下に詳述する。
ゲノム分割
図1を参照すると、分割の任意選択的な工程は、3通りの代替的な様式で実施し得る:
i)一定の塩基対ゲノムウィンドウ
ii)一定数の遺伝子座のウィンドウ
iii)コピー数セグメント。
図6に示す選択肢i)では、ゲノムウィンドウは一定の幅を有する。各ゲノムウィンドウは複数の遺伝子座を含有し、その数はゲノム上の位置に依存する。このアプローチは、試料を対照正常試料のセットに対して比較する場合に有利となり得るが、これはリファレンスゲノムがすべての試料で同じように分割されているため、多数の試料の間で各ゲノムウィンドウに関するLoHスコアの直接比較が可能になるためである。規定された幅のゲノムウィンドウ内で検出されるヘテロ接合性遺伝子座の数及び割合はリード深度が高いほど増加するので、1つの(又は多数の)対照試料に対する試料の比較を可能にするために、各試料におけるマッピングされたリードの数を固定数のリードに対して正規化することが好ましい。そのような正規化は、所望の数に達するまで、リードを無作為にサンプリングして、リファレンスゲノムにマッピングすることによって行われる。正規化されたリードの数は、例えば、100万又は200万のリード、好ましくは300万、400万、500万、600万、700万、800万又は900万のリードであってもよい。
図6は、一定の塩基対ゲノムウィンドウに基づく分割の一例の略図である。ペアの対照試料(上)及び被験試料(下)が表されている。実線はゲノム(の一部分)を表す。菱形マーカーは一定の幅のゲノムウィンドウの境界を定めており、既知の多型遺伝子座がドットによって表されている(ヘテロ接合性遺伝子座:白塗りドット;ホモ接合性遺伝子座:グレーで塗られたドット)。ゲノムウィンドウあたりに検出される遺伝子座の数はゲノムにわたって異なるが、所与のウィンドウについては、リードマッピングの合計が規定のリードカウントに対して正規化された2つの異なる試料の間では、平均すると同程度であると予想される。被験試料中でLoHにおけるゲノムウィンドウは、正常対照試料における同じウィンドウと比較して、ヘテロ接合性遺伝子座の減少を示すと予想される。ゲノムに沿ったSNP密度の偏りのため、同じ(又は他の)試料上の異なるゲノム位置に位置するゲノムウィンドウとは、同じウィンドウを直接比較することはできない。
図7に示す選択肢ii)では、ゲノムウィンドウは一定数の遺伝子座を有する。このアプローチは、ゲノムにわたって異なるSNP密度に関してLoHスコアを正規化することを可能にする。本方法は、例えば、ゲノム中のそれらの位置、及びそれらの基礎にあるSNP密度に関係なく、すべてのゲノムウィンドウに対して同じ閾値を適用することを可能にするため、対照のないアプローチを使用する場合に有利となり得る。本方法は、サンプリングされ、ローパスシークエンシングによって検出される遺伝子座の分布によっては、異なる試料に対して異なるゲノムウィンドウが生成される可能性があるため、被験試料を対照試料と比較する場合には不利となる場合がある。
図7は、ウィンドウあたりの遺伝子座の数が一定であることに基づく分割の一例の略図を示している。ペアの対照試料(上)及び被験試料(下)を表している。実線は、ゲノム(の一部分)を表す。菱形マーカーは、一定数の遺伝子座を含有するゲノムウィンドウの境界を定めている。既知の多型遺伝子座がドットによって表されている(ヘテロ接合性遺伝子座:白塗りドット;ホモ接合性遺伝子座:グレーで塗られたドット)。シークエンシングカバレッジが低いため、ゲノム領域内のすべての遺伝子座が検出されるわけではない。したがって、ゲノムウィンドウの末端は、シークエンシングリードによる遺伝子座サンプリングに基づいて異なる試料間で異なる可能性があり、そのため、被験試料において検出されるゲノムウィンドウは、他の(対照)試料における対応するゲノムウィンドウと直接的に比較可能ではない。被験試料中のLoHにおけるゲノムウィンドウは、LoHではない同じ試料のゲノムウィンドウに対して、ヘテロ接合性遺伝子座の減少を示すと予想される。
一定数の遺伝子座を用いてゲノムウィンドウ中に検出されるヘテロ接合性遺伝子座の数及び割合は、リード深度が高くなると増加すると考えられる(図8参照)。好ましくは、LoHスコアの閾値設定を事前に計算した値に行えるように、各試料においてマッピングされたリードの数を固定数のリードに対して正規化する。そのような正規化は、所望の数に達するまで、リードを無作為にサンプリングして、リファレンスゲノムにマッピングすることによって行われる。正規化されたリードの数は、例えば、100万又は200万のリード、好ましくは300万、400万、500万、600万、700万、800万又は900万のリードであってもよい。
図9に示す選択肢iii)では、ゲノムウィンドウは、染色体アームに含有される2つのコピー数ブレークポイント間でセグメント化されたゲノム領域であり、これは、正規化するゲノムウィンドウ内の生のコピー数カウントをGC含量によって正規化すること(Boeva, V.ら、2011年、Bioinformatics、27(2)、268~269頁)、及びセグメント化アルゴリズム、例えばLASSOに基づくアルゴリズム(Harchaoui, Z.ら、2008年, Adv. Neural Inform. Process. Syst., 20, 617~624頁)、環状バイナリーセグメント化(CBS)(Seshan VE.ら、2019年, DNAcopy: DNA copy number data analysis. R package version 1.58.0)、又はリードカウントを正規化するための類似のアルゴリズムを適用することによって、定めることができる。この方法は、試料の主要な「正常」倍数性に対して、コピー数レベルの変化を示すゲノム領域は、単一のゲノムコピー数異常イベントによって影響を受けている可能性が高く、それ故に均一なLoH状態を有すると予想されるという仮定に基づく。選択肢(i)及び(ii)と比較して、この方法によって定められるゲノムウィンドウは、一般にはるかに大きく(最大で2~3桁の大きさ)、より多数の既知のヘテロ接合性遺伝子座及び/又は多型遺伝子座を含有すると考えられ、それ故により高い統計的検出力が得られると考えられる。更に、2つの異なる生物学的次元(コピー数、LoHスコア)を組み合わせることにより、この方法を用いると、より低い偽陽性率で、より正確な結果を達成することができる。しかし、この方法は、小さなLoHイベントがより大きなコピー数イベントに位置する場合には不利になる可能性があり、この方法では検出されないと考えられる。染色体アームがLoHイベントを受けて、その後に複製が起こることは稀ではないため、染色体アームは、コピー数変化のない染色体におけるセグメント化単位として使用することが好ましい。これにより、より長いアームのみが影響されている場合により短い染色体アームのLoHを誤ってコールすること(偽陽性)、又は半面、より短い方のみが影響されている場合に、より短い染色体アームについて非LoHと誤ってコールすること(偽陰性)が防がれる。
より具体的に、図9は、2通りのコピー数変化イベント:コピー数=1のコピー数消失セグメント;コピー数=3のコピー数獲得による影響を受けた、染色体アーム(ゲノムの主要な倍数性=2)のコピー数プロファイルの例示的な提示を提供している。ゲノムウィンドウは、2つの連続したコピー数ブレークポイントの間の領域として定義される。
また、高レベル増幅に由来する偽陽性を除外するために、コピー数情報を活用するセグメント化を採用することもできる。実際に、高レベル増幅は単一のアレルに由来することがほぼ確実であり、それ故にその領域内でアレル表示に偏りが導入されることとなり、マイナーなアレルが仮に存在しても、過少表示となり、偽陽性LoHコールを引き起こす可能性がある。
以下のTable 2(表2)は、本発明による分割の代替的な各工程の主な特徴並びに良い点及び悪い点を示している。
Figure 2022543585000003
LoHスコアリング
前記少なくとも1つの試料に関して前記リファレンスゲノムの少なくとも1つのゲノムウィンドウに、前記複数の遺伝子座における少なくとも2つの異なるアレルを有する遺伝子座の数の関数としてLoHスコアを割り当てる工程gは、代替的な好ましい実施形態も含む。
1つの好ましい実施形態では、LoHスコアは、前記少なくとも1つのゲノムウィンドウにおけるヘテロ接合性遺伝子座の数に対応する。LoHにおけるゲノムウィンドウは、LoHではない領域又は試料と比較して、ヘテロ接合性遺伝子座の少なさを示すと予想される(図10参照)。
別の好ましい実施形態では、各ゲノムウィンドウについて、同じゲノムウィンドウにおける多型遺伝子座の総数に対して、そのゲノムウィンドウ内で検出されるヘテロ接合性遺伝子座の割合として、LoHスコアを定める(図11)。上記の方法と同様に、LoHイベントの存在下では、LoHスコアの一貫した減少が予想される。この方法は、ウィンドウが、例えば一定の塩基対ゲノムウィンドウを用いるか、又はゲノムを分割するためにコピー数セグメントを用いる場合に、検出される一様な数の遺伝子座を含有しない場合に有利と考えられる。
LoHスコアリング‐統計検定
好ましくは、各ゲノムウィンドウに対して、観察される2アレル遺伝子座の頻度に対する統計検定の結果により、LoHスコアを定める。
1つの好ましい実施形態では、統計検定を行うことによって、内部/外部対照に対するヘテロ接合性遺伝子座の過少表示の有意性を判定することができる。詳細には、各ゲノムウィンドウについて、以下の2つの分類を考慮して分割表を作成する: 1)試料の種類(被験、対照); 2)遺伝子座の種類(ヘテロ接合性、ホモ接合性)。統計検定、例えばフィッシャーの直接検定、又は分割表の解析のための同等な検定(例えば:カイ二乗検定、G検定、バーナードの直接検定、フィッシャー-フリーマン-ハルトン検定)を、続いて適用する。好ましくは、統計検定は、LoHに起因するヘテロ接合性遺伝子座の過少表示があるケースに検出を限定するために、片側で行うべきである。事実、所与のゲノムセグメントにおいて、ゲイン、すなわちコピー数の増加がある場合には、ローパスWGSを用いたリードの数が増加する。これはLoHが存在しない場合により多くの数のヘテロ接合性遺伝子座をもたらす可能性があり、解析の目的からすると反対の理由で、両側統計検定によって有意とマークされる可能性がある。
代替的な好ましい実施形態では、シークエンシング及びWGAのエラー率から予想されるものに対する、ヘテロ接合性遺伝子座の過剰表示の有意性を検定することができる。このアプローチは、配偶子などの一倍体単一細胞における「ヘテロ接合性の獲得(gain of heterozygosity)」(以下ではGoH)を試験する場合に有利である可能性がある。これは例えば、染色体の獲得をもたらす、減数分裂中の不均衡分離のエラーに起因し得る。
各実験に関して行われる多数の検定(固定ウィンドウが500、1000及び1500SNPである100万リードの試料について、約200、400、600)を考慮して、多重検定補正を適用することができる(例えば、Benjamini Y.ら、1995年、Journal of the Royal Statistical Society. Series B (Methodological) Vol. 57, No. 1:289~300頁を参照)。すると、LoHスコアは、統計検定から得られるp値として定義される。
対照試料
対照は「内部」であってもよく、これは例えば、尤度の最も高い主要な(平均)ゲノム倍数性と等しい倍数性を有するゲノム領域を考慮することによって定義することができる。このアプローチは、コピー数変化を示さないほとんどのゲノム領域はLoHではないと仮定する。
或いは、対照は「外部」であってもよく、これは例えば、試験中の同じ個体から、又は異なる個体からの1つ又は複数の正常試料を用いることによって生成することができる。
内部対照の使用は、リードの数に対して独立であることから(マッピングされたリードの数の正規化を必要としない)、二倍体試料又は倍数体試料(例えば、腫瘍試料)にとって、及び損傷試料(例えば、FFPE試料)の場合に有利であり得る。実際に、損傷試料では、非損傷のものと比較して、遺伝子座での2アレルのうち一方がDNA損傷のために失われるドロップアウトの発生率がより高く示されることがあり、それ故に、LoHではないゲノム領域について予想されるよりもヘテロ接合性部位の数が少ない可能性がある。このことは、損傷のレベルが異なる被験試料対外部対照試料の比較の妨げになる可能性がある。内部対照を用いることにより、対照用及び試験用のゲノムウィンドウが同じレベルのドロップアウト率を有すると考えられるため、このような偏りは取り除かれる。
LoH閾値設定及びLoHコーリング
任意選択的に、LoHにあるゲノム領域を定めるために、前の工程から得られたLoHスコアに対して閾値設定を行うことができる。ほとんどの場合には、遺伝子座の数が一定であるゲノムウィンドウ内に検出されるヘテロ接合性遺伝子座の数及び割合は、リード深度が高いほど増加する。LoHスコアの閾値設定を事前に計算した値に可能にするためには、各試料におけるマッピングされたリードの数を、固定数のリードに対して正規化することが好ましい。そのような正規化は、所望の数に達するまで(好ましくは、1,000,000のマッピングされたリードから10,000,000のマッピングされたリードまでの範囲に含有される)、リードを無作為にサンプリングして、リファレンスゲノムにマッピングすることによって行われる。上記の考察は、「内部」対照に対する統計検定を行うことによってLoHスコアを算出する場合には適用されない。
優先的には、ヘテロ接合性遺伝子座の数として算出されるLoHスコアの場合には、データはまず、1,000,000のマッピングされたリードにダウンサンプリングされる。少なくとも1リードによってカバーされる遺伝子座を、検出された遺伝子座の数が固定された(例えば、n=500; n=1000; n=1500)ウィンドウを用いて分割する。幾つかの好ましい閾値としては、500、1000及び1500個の遺伝子座に対して、ヘテロ接合性SNPがそれぞれ3個、6個、9個である(図12)。LoHスコアが選択した閾値よりも低い場合には、所与のゲノムウィンドウ内にLoHがコールされる。
より詳細には、図12は、1,000,000のマッピングされたリードを用いて少なくとも1リードによってカバーされる、(A)n=500、(B)n=1000、(C)n=1500SNPのウィンドウ内での2アレルSNPの数と定義される、LoHスコア閾値の定義のために用いたROC解析を示している。ハイパス全ゲノムシークエンシング及びB-アレル頻度解析によって腫瘍細胞において検出されたLoHをリファレンスとして用いた。
統計検定の適用の結果として得られるp値として算出されるLoHスコアの場合には、幾つかの好ましい閾値には、例えば、5×10-2又は1×10-2がある。続いて、LoHスコアが選択した閾値よりも低い場合には、LoHがゲノムウィンドウ内でコールされる。
ひとたびLoHスコアの閾値設定が行われると、下記の異なる基準に従って、LoH状態をゲノム領域に割り当てることができる。
1)ウィンドウをマージすることによるLoH領域のコーリング。この好ましい実施形態では、LoH状態は、その領域に含有される各ゲノムウィンドウに関するLoHスコアが閾値設定工程に合格した場合に、ゲノム領域に割り当てられる。
2)ゲノムウィンドウ内のLoH状態の関数としてのLoH領域のコーリング。この好ましい実施形態では、そのゲノム領域に含有されるゲノムウィンドウの所与のパーセンテージ/分率が閾値設定工程に合格した場合には、LoH状態をゲノム領域に割り当てる。一例として、ゲノム領域内のウィンドウの66%、75%、80%、85%、90%、95%を超えて閾値設定工程に合格した場合に、LoH状態はそのゲノム領域に割り当てられる。
3)腫瘍抑制遺伝子を含むゲノム領域におけるLoHのコーリング。この好ましい実施形態では、少なくとも1つのゲノム領域は腫瘍抑制遺伝子を含む。
好ましくは、前記遺伝子は、BRCA1、BRCA2、PALB2、TP53、CDKN2A、RB1、APC、PTEN、CDKN1B、DMP1、NF1、AML1、EGR1、TGFBR1、TGFBR2、及びSMAD4で構成される群から選択される。
試料純度
LoHを、異なる種類の細胞(例えば、腫瘍細胞及び正常細胞)の混合物に由来するDNAにおいて同定することができる。試料純度は、関心対象の種類(例えば、腫瘍細胞)に属する混合物における試料のパーセンテージと定義される。
例えば、クローン性である、すなわち、ゲノム的に同一であり、それ故にLoH及びCNAのパターンが同じである#TC腫瘍細胞と、同じ個体由来の#NC正常細胞を混合すると、得られる試料の純度は#TC/(#TC+#NC)となり、ゲノム全体で均一であると考えられる。
一般化すれば、純度とは、本発明者らはここでは、1つ又は複数のゲノム領域で構成される所与の関心領域におけるLoH状態に関連する概念を意味する。関心領域は、リファレンスゲノム全体ほどの大きさでもよく(前述の例のように)、又は100kbpほどの小ささでもよい。
例えば、同じ最終共通祖先腫瘍細胞に由来する異なるクローンである腫瘍細胞のプールの存在下では、純度は、LoH領域が1つの細胞のみで表される場合の最小値1/プール内の細胞数から、ゲノム領域のLoH状態が最終共通祖先に由来するすべてのクローンで共通している場合である最大値100%まで、異なるゲノム領域間で様々に異なる可能性がある。
LoHに関して解析される試料は、様々な数のマッピングされたリード(1,000,000~10,000,000リード)及び試料純度(10%~90%)でのLoHスコアに関する受信者動作特性(ROC)曲線下面積(AUC)値を示している図13から見てとれるように、好ましくは少なくとも50%、より好ましくは少なくとも70%の純度を有する。LoHスコアは、少なくとも2リードによってカバーされるn=150SNPのウィンドウ内のヘテロ接合性SNPの数と定義される。異なる純度の試料は、腫瘍細胞及び正常細胞の解析によって得られたリードを、標的純度に等しい割合(腫瘍:正常)でインシリコで混合することによって得られる。ハイパス全ゲノムシークエンシングによって腫瘍細胞において検出されるLoHを、リファレンスとして用いる。
LoH検出に対するサイズ選択の影響
既に上述したように、サイズ選択は好ましくは、超並列シークエンシングライブラリを調製する工程cの間又は後に行われる。断片のサイズは、異なる基準に従って選択し得る。シークエンシング方法も異なる基準によって選択することができ、これも断片サイズに依存する。一般に、LoH解析に寄与する遺伝子座(多型又はヘテロ接合性)の数が多いほど、分解能(100万リードあたり)が良くなる。
図14は、Fcenter(Ampli1 LowPass for Illuminaを用いて調製したシークエンシングライブラリ)が増加している実際の単一細胞試料から得られたデータから、シークエンシングされた断片のインシリコサブセットを選択することによって得られたデータを示している。図14Aは、DRS-WGA断片のカバレッジに対するサイズ選択(バンド幅100)の影響を、250,000リードを用いた場合の断片平均長に関して示している。図14Bは、分解能に対するサイズ選択(バンド幅100)の影響を、250,000リードを用いた場合の塩基対(少なくとも2リードによってカバーされる150SNPのウィンドウ)に関して示している。図14Cは、固定の断片平均長(500bp)での250,000リードによるDRS-WGA断片のカバレッジに対するサイズ選択バンド幅の影響を示している。図14Dは、固定の断片平均長(500bp)での250,000リードによる分解能(bp)に対するサイズ選択バンド幅の影響を示している。図14Eは、固定の断片平均長(500bp)でのDRS-WGA断片のカバレッジに対するリードの数の影響を示している。少なくとも2リードによってカバーされる断片の分率、及びカバーされる断片の総数は、マッピングされたリードの数(破線)に比例して増加する。図14Fは、固定の断片平均長(500bp)での分解能(bp)に対する、リードの数の影響を示している。
これらのデータは、DRS-WGA断片の総数が減少すると、一方で、SNPのコールのために有用な1以上のリードによってカバーされる断片の数が増加して、500bpでプラトーに達することを示している(図14A)。固定数のSNP(n=150; 図14B)によるゲノムウィンドウの長さの減少によって示されるように、分解能はそれに応じて高くなる。異なるバンド幅を所与の数のマッピングされたリード及びFcenterに適用すると、バンド幅が小さくなるほど断片のカバレッジ及び分解能が増加する(図14C及び14D)。分解能はまた、マッピングされたリードの数に応じても増加する(図14E及び14F)。
以下のTable 3(表3)に、以下に開示する3つの例で用いる方法の特徴をまとめている。
Figure 2022543585000004
Figure 2022543585000005
(実施例1)
実施例1では、多発性骨髄腫に罹患した男性患者から入手した1個の循環腫瘍細胞(CTC;被験)及び1個の白血球(WBC;対照)の、Ampli1 LowPass for Illumina DNAライブラリについて考慮した。シークエンシングされたリードはhg19リファレンスヒトゲノムにマッピングされ、100万、200万、300万、400万、500万、600万、700万、800万、900万リードでダウンサンプリングされた。dbSNP多型遺伝子座(マイナーなアレル頻度≧5%であるdbSNP150共通変異体)に存在するアレルを、両方のライブラリから抽出した。遺伝子座を10,000,000bp固定のゲノムウィンドウで分割した。片側フィッシャー直接検定を採用して、ヘテロ接合性遺伝子座及びホモ接合性遺伝子座はWBC(対照)及びCTC(被験)において同じ可能性があるという帰無仮説のもとで、2種類の分類の間の関連性(Table 4(表4))の有意性を判定した。
Figure 2022543585000006
各ダウンサンプリングレベルでの検定の結果を図15に示す。200万リードから始めたこの方法は、11番染色体及び113番染色体上の既知のLoHイベントを検出する感度が高いことを示している。
詳細には、図15は、多発性骨髄腫に罹患した患者由来のCTCのコピー数プロットを上部に示している。x軸は染色体であり、y軸はコピー数である。各ドットは固定サイズのゲノムウィンドウを表す。コピー数セグメントは実線として表されている。コピー数プロットの下にリファレンス(Ref)トラックが示されており、同じCTCのハイパス全ゲノムシークエンシングによって検出された既知のLoH領域は黒の実線で示されている。下部には、1Mから9Mまでの印が付されたトラックが表されている:様々な数のリード(100万から900万まで)でのフィッシャー直接検定の結果の対数p値(底=10)ヒートマップ。より有意な値ほど、濃いグレーで表されている。
(実施例2)
実施例2では、実施例1で用いたのと同じ単一のCTCデータを入力とし用いて、100万リードでデータをダウンサンプリングした。このケースでは、少なくとも1リードによってカバーされる固定数(n=1000)の遺伝子座を有するウィンドウに遺伝子座を分割した。LoH領域の同定のために、LoHスコアを、各ウィンドウにおけるヘテロ接合性位置の数として算出した。
図16は、一定数の遺伝子座を有するゲノムウィンドウを用いることによるLoHの検出を示している。具体的には、実施例1の同じCTCのコピー数プロットを上部に示す。x軸は染色体であり、y軸はコピー数である。各ドットは、固定サイズのゲノムウィンドウを表す。コピー数セグメントは実線として表されている。プロットの下は、各ゲノムウィンドウに関するヘテロ接合性カウントを表すヒートマップである。LoH状態にある可能性がより高い、LoHスコアの低い(ヘテロ接合性遺伝子座の数が少ない)ウィンドウは、より濃いグレーによって表されている。11番染色体、染色体13の長腕(large arm)及びX染色体(男性個体では単一コピー)では、LoHスコアが低いことを示している。
LoH状態におけるゲノムウィンドウをコールするためのLoHスコア閾値を決定するために、LoH領域が既知である9個の単一細胞の訓練セットを、被検試料と同じ方法を用いて解析した(1,000,000のマッピングされたリード及びn=1000SNPのウィンドウ)。続いて、ROC解析を行い、感度と特異度との間で最良のトレードオフ点として、最大LoHスコア閾値=6を決定した(図17、ここでx軸は1-特異度を表し(値が小さいほどより特異的な検出を意味する)、y軸は感度を表す。ハイパス全ゲノムシークエンシングによって腫瘍細胞において検出されたLoHをリファレンスとして用いた)。
この方法により、11番染色体及び13番染色体上のLoHイベントが首尾良く同定された。LoH状態はまた、そのゲノムがX染色体の単一コピーを含有する男性個体において予想されるように、X染色体にも割り当てられる(図18、LoHスコアが固定閾値を下回り(≦6)、10,000,000bpよりも大きい領域を黒で示す)。
(実施例3)
実施例3では、男性患者からの古典的ホジキンリンパ腫試料のFFPE組織から得られた、2個のHodgkin Reed/Sternberg(HRS)単一細胞のAmpli1 LowPass for Illuminaライブラリを解析した。2個のHRS細胞は、同じコピー数プロファイルを共有する。シークエンシングされたリードをhg19リファレンスヒトゲノムにマッピングし、dbSNP多型遺伝子座(マイナーアレル頻度≧5%であるdbSNP150共通変異体)に存在するアレルを、両方のライブラリから抽出した。GCに基づく正規化及びコピー数シグナルセグメント化を実装したControl-FREECソフトウェアを用いて得られたコピー数セグメントを用いて、遺伝子座を分割した(Boeva, V.ら、Bioinformatics, 27(2), 268~269頁、http://doi.org/10.1093/bioinformatics/btq635)。細胞の倍数性(コピー数=2)に等しいコピー数を有するすべての領域の和集合(union)によって定義される内部対照を用いた。コピー数解析によって定義され、染色体アームに含有される各セグメントについて、片側フィッシャー直接検定を行って、観察された2アレル遺伝子座及び1アレル遺伝子座がセグメント及び内部対照において等しく存在する可能性が高いという帰無仮説を棄却した(図19、上段:1つの代表的なHRS細胞コピー数プロファイル。下段:フィッシャー検定の出力として得られたp値の-log10のヒートマップ。p値≦0.01のゲノム領域のみを表示している。より有意な値はより濃いグレーによって表されている)。予想通り、コピー数=1の領域はすべてLoHゲノム領域として正しく検出された。コピー数=2を有するにもかかわらず、X染色体の長腕はLoH状態で検出された。これは、試料が男性個体由来であり、それ故にゲノムが単一のX染色体を含有するためと予想される。加えて、染色体9qはLoHにコールされたが、これは、コピー数情報(コピー数=2)を用いることのみによっては見逃されると考えられる。
利点
本発明による方法は、LoHイベントを検出するために被験試料からのゲノムDNAのローパスシークエンシングから得られたデータを解析するために適する。LoHを連続したホモ接合性遺伝子座の一続きとして推測し、特定の数の遺伝子座での現実の遺伝子型を抽出する必要のある、他の方法とは対照的に、本発明の方法は、低いカバレッジでシークエンシングされた十分な数の遺伝子座を含有するゲノムウィンドウを解析すること、及び、試料の遺伝子型を必ずしも代表しない前記遺伝子座で観察されたアレルを抽出することにより、正常二倍体試料を解析することによって観察されるものと比較して、2アレル遺伝子座の減少としてLoHイベントを検出することが可能であるという原理に基づく。
代替的アレル頻度(Bアレル頻度又はBAF)からLoHを推測し、ゲノムの高いカバレッジ、例えば30倍(Boevaら、Bioinformatics, Vol. 28 no. 3 (2012)、423~42頁)を必要とする、他の方法とは対照的に、本発明による方法は、ローパス全ゲノムシークエンシングデータ(1倍未満、又はそれ未満、例えば、0.05倍又は更には0.01倍)で動作し、対応するコスト削減を伴う。
本発明による、試料からLoHを解析するための方法は、少数の(単一までの)CTCしか利用可能でない場合のように、非常に少ない試料を用いて、単一細胞までの分解能のローパス全ゲノムシークエンシングデータから、ゲノム全体にわたるLoH領域を推測することを可能にし、更なる任意選択的な可能性として、正常対照なしで、及び相対的に少数のリードで、解析を行うこともできる。
更に、本方法の特定の実施形態は、シークエンシングの増分費用を伴わずに、ライブラリ調製プロセスに特定の処理工程を導入することによって、LoHコーリングの分解能を高めることができる。
本発明による方法は、これまで当業者によって達成不能であると考えられていた性能を備えており、現行の技術水準を驚くほど進展させる。特に、本方法は、以下を可能にする:
‐ 0.01~0.04という低い平均カバレッジのローパス全ゲノムシークエンシング(ヒトゲノムの250,000~1,000,000のシングルエンド150bpリード)によって単一細胞上のLoHを同定すること;
‐ 対照試料なしで上記のポイントを得ること;
‐ 前記単一細胞の他の特徴の調査のために追加の遺伝物質を得るという将来の可能性、更にはプロセスに固有のWGAの使用により、検証のために信頼性をもって単一細胞を再解析する可能性を伴って、上記のポイントを得ること。
加えて、本発明による方法は、微量の細胞、FFPE又は組織生検試料からでさえも、全ゲノムコピー数プロファイル及びLoHを決定することを可能にする。

Claims (28)

  1. ゲノムDNAを含む少なくとも1つの試料におけるヘテロ接合性の消失(LoH)を解析するための方法であって、
    a. ゲノムDNAを含む少なくとも1つの試料を用意する工程;
    b. 前記ゲノムDNAの確定的制限部位の全ゲノム増幅(DRS-WGA)を実施する工程;
    c. 前記DRS-WGAの産物から超並列シークエンシングライブラリを調製する工程;
    d. 前記超並列シークエンシングライブラリ上で、1未満の平均カバレッジ深度で、ローパス全ゲノムシークエンシングを実施する工程;
    e. 前記少なくとも1つの試料に関するリファレンスゲノム上に、工程dにおいて得られたリードのアライメントを行う工程;
    f. 複数の遺伝子座でアレル含量を抽出する工程であって、前記複数の遺伝子座が多型遺伝子座及び/又はヘテロ接合性遺伝子座を含む、工程;
    g. 前記少なくとも1つの試料に関する前記リファレンスゲノムの少なくとも1つのゲノムウィンドウに対して、前記複数の遺伝子座における少なくとも2つの異なるアレルを有する遺伝子座の数の関数として、LoHスコアを割り当てる工程、
    を含む方法。
  2. サイズ選択の工程が、超並列シークエンシングライブラリを調製する前記工程cの前、間、又は後に行われ、超並列シークエンシングライブラリを調製する前記工程がランダム断片化工程を含まない、請求項1に記載の方法。
  3. 前記サイズ選択の工程が、100~800塩基対の範囲にある断片を保持する、請求項2に記載の方法。
  4. 前記サイズ選択の工程が、300~450塩基対の範囲にある断片を保持する、請求項3に記載の方法。
  5. 前記サイズ選択の工程で保持される断片のピークが、150bp~600bpの塩基対範囲を中心とする、請求項3に記載の方法。
  6. 前記サイズ選択の工程が、425~575塩基対の範囲にある断片を保持する、請求項5に記載の方法。
  7. 前記少なくとも1つのゲノムウィンドウが、塩基対が一定の幅を有する、請求項1から6のいずれか一項に記載の方法。
  8. 前記少なくとも1つのゲノムウィンドウが、一定数の前記複数の遺伝子座を有する、請求項1から6のいずれか一項に記載の方法。
  9. 前記少なくとも1つのゲノムウィンドウが、染色体、染色体アーム、及びセグメント化されたコピー数領域で構成される群から選択される、請求項1から6のいずれか一項に記載の方法。
  10. 前記複数の遺伝子座が、前記少なくとも1つの試料に関するリファレンスゲノムに関する多型遺伝子座を含む、請求項1から9のいずれか一項に記載の方法。
  11. 前記LoHスコアが、前記少なくとも1つのゲノムウィンドウにおけるヘテロ接合性遺伝子座の数に対応する、請求項7、8又は10に記載の方法。
  12. 前記LoHスコアが、少なくとも1つのゲノムウィンドウにおける前記多型遺伝子座の総数に対する、ヘテロ接合性遺伝子座の割合に対応する、請求項10に記載の方法。
  13. 前記LoHスコアが、統計検定のp値に対応する、請求項10に記載の方法。
  14. 前記統計検定が、シークエンシング及びWGAのエラー率に対する、2アレル遺伝子座の過剰表示の有意性を判定する、請求項13に記載の方法。
  15. 前記統計検定が、対照試料に対する、2アレル遺伝子座の過少表示の有意性を判定する、請求項13に記載の方法。
  16. 前記対照試料が、前記少なくとも1つの試料からの主要な倍数性での少なくとも1つのゲノム領域を含む、請求項15に記載の方法。
  17. 前記対照試料が、少なくとも1つの正常試料である、請求項15に記載の方法。
  18. 前記少なくとも1つの正常試料が、前記少なくとも1つの試料が得られた試験下にある同じ個体から得られる、請求項17に記載の方法。
  19. 前記対照試料が、前記少なくとも1つの試料に関する母方の試料又は父方の試料である、請求項15に記載の方法。
  20. 前記LoHスコアがゲノムウィンドウに関する閾値に合格する場合に、前記ゲノムウィンドウがLoHにあると呼ばれる、請求項11から13のいずれか一項に記載の方法。
  21. 少なくとも1つのゲノム領域に含まれる各ゲノムウィンドウに対するLoHスコアが前記閾値に合格する場合に、LoH状態をその領域に割り当てる工程を更に含む、請求項20に記載の方法。
  22. 少なくとも1つのゲノム領域に含まれるゲノムウィンドウのLoH状態の関数として、LoH状態をその領域に割り当てる工程を更に含む、請求項20に記載の方法。
  23. 前記少なくとも1つのゲノム領域が、腫瘍抑制遺伝子を含む、請求項21又は22に記載の方法。
  24. 前記腫瘍抑制遺伝子が、
    a. BRCA1
    b. BRCA2
    c. PALB2
    d. TP53
    e. CDKN2A
    f. RB1
    g. APC
    h. PTEN
    i. CDKN1B
    j. DMP1
    k. NF1
    l. AML1
    m. EGR1
    n. TGFBR1
    o. TGFBR2
    p. SMAD4
    で構成される群から選択される、請求項23に記載の方法。
  25. 前記少なくとも1つの試料が、少なくとも50%の純度を有する、請求項1から24のいずれか一項に記載の方法。
  26. 前記少なくとも1つの試料が、単一細胞である、請求項25に記載の方法。
  27. 工程dにおいてローパス全ゲノムシークエンシングが、前記超並列シークエンシングライブラリ上で0.05未満の平均カバレッジ深度で実施される、請求項1から26のいずれか一項に記載の方法。
  28. 工程dにおいてローパス全ゲノムシークエンシングが、前記超並列シークエンシングライブラリ上で0.01未満の平均カバレッジ深度で実施される、請求項1から27のいずれか一項に記載の方法。
JP2022506443A 2019-07-30 2020-07-29 確定的制限部位の全ゲノム増幅(DRS-WGA)後にヘテロ接合性の消失(LoH)を解析するための方法 Pending JP2022543585A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IT102019000013335 2019-07-30
IT102019000013335A IT201900013335A1 (it) 2019-07-30 2019-07-30 Metodo per analizzare la perdita di eterozigosi (loh) a seguito di amplificazione totale del genoma basata su un sito di restrizione deterministico (drs-wga)
PCT/IB2020/057149 WO2021019459A1 (en) 2019-07-30 2020-07-29 Method for analysing loss-of-heterozygosity (loh) following deterministic restriction-site whole genome amplification (drs-wga)

Publications (1)

Publication Number Publication Date
JP2022543585A true JP2022543585A (ja) 2022-10-13

Family

ID=68733545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022506443A Pending JP2022543585A (ja) 2019-07-30 2020-07-29 確定的制限部位の全ゲノム増幅(DRS-WGA)後にヘテロ接合性の消失(LoH)を解析するための方法

Country Status (14)

Country Link
US (1) US20230175053A1 (ja)
EP (1) EP4004236B1 (ja)
JP (1) JP2022543585A (ja)
KR (1) KR20220070203A (ja)
CN (1) CN114466936A (ja)
AU (1) AU2020322242A1 (ja)
CA (1) CA3149486A1 (ja)
DK (1) DK4004236T3 (ja)
ES (1) ES2944080T3 (ja)
FI (1) FI4004236T3 (ja)
IL (1) IL290176A (ja)
IT (1) IT201900013335A1 (ja)
PT (1) PT4004236T (ja)
WO (1) WO2021019459A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114269948A (zh) * 2019-08-30 2022-04-01 香港中文大学 通过低深度基因组测序检测杂合性缺失的方法
IT202100024101A1 (it) 2021-09-20 2023-03-20 Menarini Silicon Biosystems Spa Metodo per analizzare il grado di similarita' di almeno due campioni utilizzando amplificazione deterministica dell'intero genoma mediante siti di restrizione (drs-wga)
WO2024083971A1 (en) 2022-10-19 2024-04-25 Vib Vzw Method of determining loss of heterozygosity status of a tumor

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1109938B1 (en) 1998-09-18 2002-02-27 Micromet AG Dna amplification of a single cell
EP1578994A2 (en) 2002-11-11 2005-09-28 Affymetrix, Inc. Methods for identifying dna copy number changes
AU2012358244A1 (en) * 2011-12-21 2014-06-12 Myriad Genetics, Inc. Methods and materials for assessing loss of heterozygosity
ITUA20162640A1 (it) 2016-04-15 2017-10-15 Menarini Silicon Biosystems Spa Metodo e kit per la generazione di librerie di dna per sequenziamento massivo parallelo
EP3431611A1 (en) 2017-07-21 2019-01-23 Menarini Silicon Biosystems S.p.A. Improved method and kit for the generation of dna libraries for massively parallel sequencing
EP3723096A1 (en) * 2019-04-12 2020-10-14 European Molecular Biology Laboratory Comprehensive detection of single cell genetic structural variations
CN114269948A (zh) * 2019-08-30 2022-04-01 香港中文大学 通过低深度基因组测序检测杂合性缺失的方法
CN112885406B (zh) * 2020-04-16 2023-01-31 深圳裕策生物科技有限公司 检测hla杂合性缺失的方法及系统
EP3945525A1 (en) * 2020-07-27 2022-02-02 Sophia Genetics S.A. Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next-generation sequencing data

Also Published As

Publication number Publication date
ES2944080T3 (es) 2023-06-19
PT4004236T (pt) 2023-05-03
CN114466936A (zh) 2022-05-10
KR20220070203A (ko) 2022-05-30
AU2020322242A1 (en) 2022-03-24
DK4004236T3 (da) 2023-04-24
FI4004236T3 (fi) 2023-05-05
IT201900013335A1 (it) 2021-01-30
WO2021019459A1 (en) 2021-02-04
EP4004236B1 (en) 2023-02-15
IL290176A (en) 2022-03-01
CA3149486A1 (en) 2021-02-04
EP4004236A1 (en) 2022-06-01
US20230175053A1 (en) 2023-06-08

Similar Documents

Publication Publication Date Title
Cheng et al. Memorial Sloan Kettering-Integrated Mutation Profiling of Actionable Cancer Targets (MSK-IMPACT): a hybridization capture-based next-generation sequencing clinical assay for solid tumor molecular oncology
EP3143537B1 (en) Rare variant calls in ultra-deep sequencing
McElhoe et al. Development and assessment of an optimized next-generation DNA sequencing approach for the mtgenome using the Illumina MiSeq
Astolfi et al. Whole exome sequencing (WES) on formalin-fixed, paraffin-embedded (FFPE) tumor tissue in gastrointestinal stromal tumors (GIST)
US20140296081A1 (en) Identification and use of circulating tumor markers
JP2022543585A (ja) 確定的制限部位の全ゲノム増幅(DRS-WGA)後にヘテロ接合性の消失(LoH)を解析するための方法
US20210115518A1 (en) Leukemia methylation markers and uses thereof
US9663826B2 (en) System and method of genomic profiling
CA3010254A1 (en) Size-based analysis of fetal dna fraction in maternal plasma
US20210238668A1 (en) Biterminal dna fragment types in cell-free samples and uses thereof
EP4095258A1 (en) Target-enriched multiplexed parallel analysis for assesment of tumor biomarkers
WO2019008148A1 (en) ENRICHMENT OF TARGETED GENOMIC REGIONS FOR MULTIPLEXED PARALLEL ANALYSIS
Li et al. A direct test of selection in cell populations using the diversity in gene expression within tumors
Zhang et al. The reliable assurance of detecting somatic mutations in cancer-related genes by next-generation sequencing: the results of external quality assessment in China
CA3231433A1 (en) Method for analysing the degree of similarity of at least two samples using deterministic restriction-site whole genome amplification (drs-wga)
Zheng et al. Determination of genomic copy number alteration emphasizing a restriction site-based strategy of genome re-sequencing
Ip et al. Molecular Techniques in the Diagnosis and Monitoring of Acute and Chronic Leukaemias
US20220223226A1 (en) Methods for detecting and characterizing microsatellite instability with high throughput sequencing
차수진 Patient-specific genomic profiling for advanced cancers in young adults
Chan et al. The application of a hybridisation-based next-generation sequencing enrichment panel for the analysis of somatic variants in tumour samples and reference standards

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230524

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240603