IT201900013335A1 - Metodo per analizzare la perdita di eterozigosi (loh) a seguito di amplificazione totale del genoma basata su un sito di restrizione deterministico (drs-wga) - Google Patents

Metodo per analizzare la perdita di eterozigosi (loh) a seguito di amplificazione totale del genoma basata su un sito di restrizione deterministico (drs-wga) Download PDF

Info

Publication number
IT201900013335A1
IT201900013335A1 IT102019000013335A IT201900013335A IT201900013335A1 IT 201900013335 A1 IT201900013335 A1 IT 201900013335A1 IT 102019000013335 A IT102019000013335 A IT 102019000013335A IT 201900013335 A IT201900013335 A IT 201900013335A IT 201900013335 A1 IT201900013335 A1 IT 201900013335A1
Authority
IT
Italy
Prior art keywords
loh
loci
genomic
sample
genome
Prior art date
Application number
IT102019000013335A
Other languages
English (en)
Inventor
Nicolo' Manaresi
Marianna Garonzi
Alberto Ferrarini
Claudio Forcato
Original Assignee
Menarini Silicon Biosystems Spa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Menarini Silicon Biosystems Spa filed Critical Menarini Silicon Biosystems Spa
Priority to IT102019000013335A priority Critical patent/IT201900013335A1/it
Priority to JP2022506443A priority patent/JP2022543585A/ja
Priority to CA3149486A priority patent/CA3149486A1/en
Priority to EP20747479.2A priority patent/EP4004236B1/en
Priority to PT207474792T priority patent/PT4004236T/pt
Priority to FIEP20747479.2T priority patent/FI4004236T3/fi
Priority to KR1020227006939A priority patent/KR20220070203A/ko
Priority to US17/631,269 priority patent/US20230175053A1/en
Priority to AU2020322242A priority patent/AU2020322242A1/en
Priority to ES20747479T priority patent/ES2944080T3/es
Priority to CN202080068436.8A priority patent/CN114466936A/zh
Priority to DK20747479.2T priority patent/DK4004236T3/da
Priority to PCT/IB2020/057149 priority patent/WO2021019459A1/en
Publication of IT201900013335A1 publication Critical patent/IT201900013335A1/it
Priority to IL290176A priority patent/IL290176A/en

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/30Phosphoric diester hydrolysing, i.e. nuclease
    • C12Q2521/301Endonuclease
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Description

DESCRIZIONE
del brevetto per invenzione industriale dal titolo:
“METODO PER ANALIZZARE LA PERDITA DI ETEROZIGOSI (LoH) A SEGUITO DI AMPLIFICAZIONE TOTALE DEL GENOMA BASATA SU UN SITO DI RESTRIZIONE DETERMINISTICO (DRS-WGA)”
Campo tecnico dell’invenzione
La presente invenzione si riferisce a un metodo per analizzare la perdita di eterozigosi (LoH) in un campione da dati di sequenziamento dell’intero genoma a bassa profondità da amplificazione totale del genoma basata su un sito di restrizione deterministico (DRS-WGA), che consegue una risoluzione di singola cellula, con o senza l’uso di controlli normali. Il metodo può essere applicato in svariate applicazioni su singola cellula, come in oncologia, inclusa l’analisi di cellule tumorali circolanti, e l’eterogeneità delle singole cellule in campioni di tessuto, o nella medicina riproduttiva, incluso lo screening genetico preimpianto (PGS).
Tecnica anteriore
L’Amplificazione Totale del Genoma (Whole Genome Amplification, WGA) di DNA genomico di singola cellula è spesso richiesta per ottenere più DNA al fine di semplificare e/o permettere differenti tipi di analisi genetiche, inclusi sequenziamento, rilevamento di SNP, eccetera. La WGA con una LM-PCR basata su un Sito di Restrizione Deterministico (di seguito DRS-WGA) è nota da WO2000/017390.
È importante il fatto che la DRS-WGA abbia mostrato di essere il metodo di WGA migliore della categoria sotto molti punti di vista, in particolare in termini di minore drop-out allelico da singole cellule (Borgstrom et al., 2017; Normand et al., 2016; Babayan et al., 2016; Binder et al., 2014).
Un kit commerciale di DRS-WGA, basato su LM-PCR (kit Ampli1™ WGA, Silicon Biosystems) è stato usato in Hodgkinson C.L. et al., Nature Medicine 20, 897–903 (2014). In questo lavoro è stata eseguita un’analisi del numero di copie mediante sequenziamento dell’intero genoma a bassa profondità su materiale WGA di singola cellula, effettuando la digestione degli adattatori di WGA e la frammentazione prima della ligazione degli adattatori con barcode di Illumina per il sequenziamento.
WO2017/178655 e WO2019/016401A1 insegnano un metodo semplificato per preparare librerie di sequenziamento massivamente parallele da DRS-WGA (per esempio Ampli1) o MALBAC per il sequenziamento dell’intero genoma a bassa profondità e per la determinazione del profilo del numero di copie. In Ferrarini et al., PLoSONE 13(3):e0193689 https://doi.org/10.1371/journal.pone.0193689, le prestazioni del metodo di WO2017/178655 che usa la piattaforma Ion Torrent sono state descritte in dettaglio con riferimento alla determinazione del profilo del numero di copie.
La WGA Ampli1™ è compatibile con l’Ibridazione Genomica Comparativa basata su array (aCGH). In effetti svariati gruppi (Moehlendick B, et al., 2013, PLoS ONE 8(6): e67031; Czyz ZT, et al., 2014, PLoS ONE 9(1): e85907) hanno mostrato che è idonea per l’analisi del numero di copie ad alta risoluzione. Tuttavia, la tecnica aCGH è costosa e laboriosa, così che possono essere desiderabili metodi differenti, come il sequenziamento dell’intero genoma a bassa profondità (low-pass whole-genome sequencing, LPWGS) per il rilevamento di alterazioni del numero di copie (CNA) somatiche.
La DRS-WGA ha mostrato di essere migliore rispetto alla DOP-PCR per l’analisi dei profili del numero di copie da quantità minime di materiale FFPE microdissezionato (Stoecklein et al., Am J Pathol. 2002 luglio; 161(1): 43-51; Arneson et al., ISRN Oncol. 2012; 2012: 710692. doi: 10.5402/2012/710692. Epub 2012 14 Mar), quando si usa la CGH basata su array, la CGH su metafasi, così come per altro saggio di analisi genetica come la Perdita di eterozigosi con l’uso di primer mirati e della PCR per l’analisi di microsatelliti selezionati.
US 7.424.368 B2 insegna un metodo per stimare il numero di copie di una regione genomica in un campione sperimentale, comprendente l’analisi dei SNP con l’uso di microarray. Le tecniche basate su microarray sono meno avanzate e flessibili rispetto al sequenziamento di nuova generazione e non forniscono conte assolute ma solo segnali relativi. Inoltre, contrariamente al sequenziamento di nuova generazione (NGS), vi sono costi di allestimento correlati alla sintesi delle sonde e alla fabbricazione di un microarray.
Zahn H. et al., Nature Methods, volume 14, pagine 167– 173 (2017), insegna un metodo per preparare librerie di singole cellule massivamente parallele senza preamplificazione e mostra l’inferenza simultanea delle CNA e della LoH sull’equivalente di massa della linea cellulare SA501X3F. Questo approccio, tuttavia, richiede un numero relativamente ampio di singole cellule (48). In aggiunta, le posizioni dei SNP eterozigoti devono essere determinate al fine di effettuare l’analisi usando TITAN (Ha G. et al., 2014, Genome Research 24(11)).
Questo metodo ha i seguenti svantaggi.
1. Non è compatibile con l’uso di librerie amplificate da genoma totale, ma la WGA è in realtà desiderabile in molti casi, per esempio quando ci si occupa di CTC, poiché la rianalisi di un’aliquota differente del prodotto di WGA può essere richiesta per ottenere informazioni aggiuntive, per esempio su SNV in oncogeni o geni oncosoppressori, a livello di singola cellula da ciascuna cellula individuale, per scopi differenti fra cui la scoperta di biomarcatori o per valutare altri biomarcatori di efficacia noti che possono non essere inferiti solo mediante WGS a bassa profondità.
2. In certe applicazioni, come lo screening genetico preimpianto (PGS) o la diagnosi genetica preimpianto (PGD), può essere disponibile solo una singola cellula, così che l’approccio di Zahn et al. non è chiaramente applicabile.
3. In certe applicazioni, possono essere disponibili per l’analisi cellule multiple, ma esse possono essere ancora insufficienti a fornire abbastanza informazioni per usare l’approccio di Zahn et al. Per esempio, il numero di CTC raccolte da un prelievo di sangue di 7,5 ml da pazienti metastatici con l’uso del sistema CELLSEARCH è nella maggior parte dei casi inferiore a 10 (Allard WJ. et al., 2004, Clin Cancer Res., 15 Ott; 10(20): 6897-904, si veda la Tabella 2).
In oncologia, la valutazione sull’intero genoma della LoH ha mostrato di essere importante in svariati contesti, inclusa la valutazione della cosiddetta firma BRCAness, associata all’efficacia della terapia con platino e con gli inibitori della poli(ADP-ribosio) polimerasi (PARP) in svariati tipi di cancro (per esempio Watkins et al., Breast Cancer Research 2014, 16: 211). In aggiunta, l’analisi della LoH ai loci BRCA1 e BRCA2 nel tumore di individui mutati a livello di linea germinale ha mostrato di essere importante per l’efficacia della terapia.
Nello screening genetico preimpianto (PGS) o nella diagnosi genetica preimpianto (PGD) è desiderabile valutare la Disomia Uniparentale (UPD), che si verifica quando una persona riceve due copie di un cromosoma, o di parte di un cromosoma, da un genitore e nessuna copia dall’altro genitore. Tuttavia, questo tipo di informazioni non è disponibile dai flussi di lavoro del LPWGS standard quando si usano pipeline bioinformatiche e metodi di analisi convenzionali.
Vi è la necessità di fornire un metodo che permetta di inferire lo stato di LoH su tutto il genoma (e/o lo stato di LoH gene-specifico) fino a una risoluzione di singola cellula, superando una o più delle seguenti limitazioni intrinseche nello stato della tecnica:
- necessità di sequenziamento dell’intero genoma ad alta copertura o, equivalentemente, di un gran numero di sequenziamento di singola cellula a bassa profondità che produca un equivalente di massa con alta copertura;
- requisito obbligatorio di un controllo normale;
- impossibilità di rianalizzare in modo affidabile una singola cellula per verifica o per informazioni genomiche mirate aggiuntive.
Per l’analisi delle CTC, così come per altre applicazioni di analisi su singola cellula, come la diagnosi prenatale su blastocisti e su cellule fetali circolanti raccolte dal sangue materno, può essere desiderabile avere un metodo efficiente, che combini la riproducibilità e la qualità della DRS-WGA con la capacità di analizzare la LoH su tutto il genoma insieme alle variazioni del numero di copie (CNV), dagli stessi dati di sequenziamento a bassa profondità.
In aggiunta, può essere desiderabile determinare il profilo del numero di copie e la LoH sull’intero genoma anche da quantità minime di cellule, da FFPE o da biopsie tessutali.
Sommario dell’invenzione
È perciò uno scopo della presente invenzione fornire un metodo per analizzare la LoH che superi gli svantaggi dei metodi della tecnica anteriore.
In particolare, lo scopo della presente invenzione è fornire un metodo per analizzare la LoH da poche cellule, fino a una risoluzione di singola cellula, in seguito ad amplificazione totale del genoma, che implichi l’uso di meno cellule per l’analisi, di meno controlli normali, di meno letture di sequenziamento per cellula rispetto a quanto generalmente riportato nella tecnica.
Questo scopo è conseguito mediante il metodo come definito nella rivendicazione 1.
Breve descrizione dei disegni
La Figura 1 mostra un diagramma a blocchi che riassume le fasi del metodo secondo l’invenzione.
La Figura 2 illustra l’effetto della ridotta rappresentazione del genoma sulla copertura osservata.
La Figura 3 mostra grafici di digestione in silico di genoma umano a differenti Siti di Restrizione.
La Figura 4 illustra l’analisi in silico del numero di frammenti di DNA in funzione della lunghezza dei frammenti ottenuta digerendo il genoma umano hg19 con l’enzima di Ampli1 DRS-WGA (MseI).
La Figura 5 illustra la relazione fra spaziatura e grandezza dei frammenti selezionati per il sequenziamento.
La Figura 6 mostra una rappresentazione schematica di un esempio di ripartizione basata su finestre genomiche a coppie di basi costanti.
La Figura 7 mostra una rappresentazione schematica di un esempio di ripartizione basata su numero costante di loci per finestra.
La Figura 8 è un grafico che illustra il numero medio di loci eterozigoti rilevati in finestre genomiche di n=1000 SNP a un numero differente di letture (da 1 a 9 milioni). Le linee nere verticali mostrano la deviazione standard dalle medie.
La Figura 9 mostra una rappresentazione schematica di ripartizione basata su segmenti con numero di copie.
La Figura 10 illustra il caso in cui il punteggio di LoH è definito come il numero di loci eterozigoti.
La Figura 11 illustra il caso in cui il punteggio di LoH è definito come la proporzione di loci eterozigoti rispetto ai loci totali in finestre genomiche con numero costante di loci.
La Figura 12 illustra l’analisi ROC usata per la definizione di una soglia di punteggio di LoH, definita come il numero di SNP biallelici in una finestra di (A) n=500, (B) n=1000, (C) n=1500 SNP coperti da almeno 1 lettura con 1.000.000 di letture mappate.
La Figura 13 mostra i valori dell’area sottesa alla curva (AUC) receiver operating characteristic (ROC) per il punteggio di LoH a differente numero di letture mappate (1.000.000 - 10.000.000 di letture) e purezza del campione (10%-90%).
La Figura 14 illustra i dati ottenuti da librerie di sequenziamento preparate con Ampli1 LowPass per Illumina correlati alla selezione della grandezza dei frammenti.
La Figura 15 illustra un esempio del rilevamento di LoH mediante l’uso di finestre genomiche a coppie di basi costanti e l’applicazione del test statistico di Fisher.
La Figura 16 illustra un esempio del rilevamento di LoH mediante l’uso di finestre genomiche con numero costante di loci.
La Figura 17 mostra una curva ROC creata in base a un insieme di addestramento di 9 singole cellule per l’identificazione di una soglia per il punteggio di LoH, definita come il numero di loci eterozigoti in una finestra di n=1000 SNP coperti da almeno 1 lettura con 1.000.000 di letture mappate.
La Figura 18 mostra un grafico di una singola cellula tumorale e regioni genomiche di LoH rilevate secondo il metodo nell’Esempio 2 dell’invenzione.
La Figura 19 illustra un esempio del rilevamento di regioni genomiche con stato di LoH mediante l’uso della segmentazione sulla base del numero di copie e del test di Fisher.
Definizioni
Se non definiti altrimenti, tutti i termini tecnici e scientifici usati nella presente hanno lo stesso significato compreso comunemente da una persona mediamente esperta nella tecnica alla quale appartiene questa invenzione. Sebbene molti metodi e materiali simili o equivalenti a quelli descritti nella presente possano essere usati nella messa in pratica o nel test della presente invenzione, sono descritti di seguito metodi e materiali preferiti. Se non menzionato altrimenti, le tecniche descritte nella presente per uso con l’invenzione sono metodologie standard ben note alle persone mediamente esperte nella tecnica.
Mediante l’espressione “sequenziamento di nuova generazione massivo parallelo (NGS o MPS)” si intende un metodo per sequenziare il DNA comprendente la creazione di una libreria di molecole di DNA separate spazialmente e/o nel tempo, sequenziate clonalmente (con o senza precedente amplificazione clonale). Esempi includono la piattaforma Illumina (Illumina Inc), la piattaforma Ion Torrent (Thermo Fisher Scientific Inc), la piattaforma Pacific Biosciences, la MinIon (Oxford Nanopore Technologies Ltd).
Mediante l’espressione “sequenziamento dell’intero genoma a bassa profondità” si intende un sequenziamento dell’intero genoma a una profondità di sequenziamento media inferiore a 3 con riferimento all’intero Genoma di Riferimento.
Mediante l’espressione “profondità di sequenziamento media” si intende qui, su una base per campione, il numero totale di basi sequenziate, mappate sul genoma di riferimento, diviso per la grandezza totale del genoma di riferimento. Il numero totale di basi sequenziate e mappate può essere approssimato al numero di letture mappate per la lunghezza delle letture media.
Mediante l’espressione “genoma di riferimento” si intende una sequenza di DNA di riferimento per la specie specifica.
Mediante il termine “locus” (plurale “loci”) si intende una posizione fissa su un cromosoma (rispetto al genoma di riferimento).
Mediante l’espressione “locus polimorfico” si intende un locus avente 2 o più alleli con una frequenza osservata maggiore dell’1% in una popolazione.
Mediante l’espressione “locus eterozigote” si intende un locus avente 2 o più alleli osservati in un campione specifico.
Mediante l’espressione “finestra genomica” si intende un intervallo del genoma di riferimento incluso in un singolo cromosoma, avente lunghezza fissa o variabile.
Mediante l’espressione “regione genomica” si intende un intervallo comprendente una o più finestre genomiche adiacenti nello stesso cromosoma.
Mediante l’espressione “genoma coperto” si intende la porzione del genoma di riferimento coperta da almeno una lettura.
Mediante il termine “lettura” si intende il pezzo di DNA che è sequenziato (“letto”) dal sequenziatore.
Mediante l’espressione “regione con numero di copie” si intende una regione genomica associata allo stesso valore di numero di copie.
Mediante l’espressione “regione con numero di copie segmentata” si intende una regione genomica associata allo stesso valore di numero di copie come risultato di un’analisi bioinformatica delle CNA.
Mediante l’espressione “gene oncosoppressore” si intende un gene per il quale la perdita di funzione, dovuta per esempio a varianti di sequenza - della linea germinale o somatiche -, è associata ad aumentata probabilità di occorrenza di un tumore.
Mediante l’espressione “rapporto di riduzione” si intende il numero totale di basi di frammenti, ottenuti mediante digestione in silico di un genoma di riferimento secondo un enzima di restrizione impiegato in una DRS-WGA, compreso in uno specifico intervallo di coppie di basi, diviso per il numero totale di basi nel genoma di riferimento.
Mediante l’espressione “perdita di eterozigosi” o “LoH” si intende la perdita di uno degli alleli in una regione genomica.
Mediante l’espressione “chiamata di LoH” si intende l’assegnazione della presenza di LoH (in una regione genomica).
Mediante l’espressione “contenuto allelico” si intende la composizione in termini di alleli rilevata a livello di un locus.
Per semplicità, nella descrizione dell’invenzione un locus sarà chiamato in modo intercambiabile omozigote o monoallelico se è rilevato solo un allele, ed eterozigote o biallelico in caso di presenza di almeno due alleli, indipendentemente dal reale genotipo del locus, se non altrimenti segnalato.
Descrizione dettagliata dell’invenzione
Con riferimento alla Figura 1, il metodo secondo la presente invenzione per analizzare la perdita di eterozigosi (LoH) in almeno un campione comprendente DNA genomico comprende le seguenti fasi.
Nella fase a, è fornito almeno un campione comprendente DNA genomico.
Nella fase b, è effettuata un’amplificazione totale del genoma basata su un sito di restrizione deterministico (DRS-WGA) di detto di DNA genomico.
Nella fase c, è preparata una libreria di sequenziamento massivamente parallela dal prodotto di detta DRS-WGA.
Nella fase d, è effettuato il sequenziamento dell’intero genoma a bassa profondità su detta libreria di sequenziamento massivamente parallela.
Nella fase e, le letture ottenute nella fase d. sono allineate su un genoma di riferimento per detto almeno un campione.
Nella fase f, è estratto il contenuto allelico a livello di una pluralità di loci. Detta pluralità di loci comprende loci polimorfici e/o loci eterozigoti.
Nella fase g, un punteggio di LoH è assegnato ad almeno una finestra genomica di detto genoma di riferimento per detto almeno un campione in funzione del numero di loci con almeno due alleli differenti in detta pluralità di loci.
Preferibilmente, è eseguita una fase di selezione della grandezza prima, durante o dopo la fase c. di preparare una libreria di sequenziamento massivamente parallela e la fase di preparare una libreria di sequenziamento massivamente parallela non include una fase di frammentazione casuale.
La fase di selezione della grandezza preferibilmente trattiene frammenti nell’intervallo da 100 a 800 coppie di basi.
In certe forme di realizzazione dell’invenzione, la selezione della grandezza preferibilmente trattiene frammenti nell’intervallo da 300 a 450 coppie di basi.
In certe forme di realizzazione dell’invenzione, il picco dei frammenti trattenuti nella fase di selezione della grandezza è preferibilmente centrato su un intervallo di coppie di basi da 150 bp a 600 bp, più preferibilmente la fase di selezione della grandezza trattiene frammenti nell’intervallo di 425-575 coppie di basi.
Preferibilmente, l’almeno una finestra genomica:
- ha un’ampiezza costante in coppie di basi, o
- ha un numero costante di detta pluralità di loci, o
- è selezionata dal gruppo costituito da un cromosoma, un braccio cromosomico e una regione con numero di copie segmentata.
La pluralità di loci preferibilmente comprende loci polimorfici ottenuti da un database, come dbSNP, per il genoma di riferimento di detto almeno un campione, o ottenuti mediante genotipizzazione di un insieme di campioni di riferimento.
Come alternativa, la pluralità di loci preferibilmente comprende loci eterozigoti noti per il campione di controllo.
Quando la finestra genomica ha un’ampiezza costante in coppie di basi, o ha un numero costante della pluralità di loci, o la pluralità di loci comprende loci polimorfici per il genoma di riferimento di detto campione, il punteggio di LoH preferibilmente corrisponde al numero di loci eterozigoti in detta almeno una finestra genomica.
Preferibilmente, il punteggio di LoH corrisponde alla proporzione di loci eterozigoti rispetto al numero totale di loci polimorfici nella almeno una finestra genomica.
Il punteggio di LoH preferibilmente corrisponde al valore p di un test statistico.
Il test statistico preferibilmente valuta la significatività della sovra-rappresentazione di loci biallelici rispetto ai tassi di errore di sequenziamento e WGA oppure la significatività della sotto-rappresentazione di loci biallelici rispetto a un campione di controllo.
Il campione di controllo preferibilmente comprende almeno una regione genomica a ploidia principale dall’almeno un campione.
Il campione di controllo è preferibilmente un almeno un campione normale, che è più preferibilmente ottenuto dallo stesso individuo sottoposto a test da cui è stato ottenuto detto almeno un campione. Nel caso dell’oncologia, il campione di controllo è preferibilmente un campione normale (non tumorale).
Nel caso di cellule fetali circolanti, il campione di controllo è preferibilmente un campione materno. In alternativa, quando è disponibile un campione paterno può essere un campione paterno o una combinazione del campione materno e paterno. La disponibilità di genotipo materno e/o paterno può essere sfruttata per selezionare un sottoinsieme di loci che sono noti per essere eterozigoti in detto controllo parentale.
Preferibilmente, se detto punteggio di LoH passa una soglia per una finestra genomica, detta finestra genomica è chiamata in stato di LoH. In questo caso, il metodo più preferibilmente comprende una fase di assegnare uno stato di LoH ad almeno una regione genomica se i punteggi di LoH per ciascuna finestra genomica compresa in quella regione passano detta soglia, o una fase di assegnare uno stato di LoH ad almeno una regione genomica in funzione dello stato di LoH di finestre genomiche comprese in quella regione.
Più preferibilmente, l’almeno una regione genomica comprende un gene oncosoppressore, che è selezionato ancor più preferibilmente dal gruppo costituito da BRCA1, BRCA2, PALB2, TP53, CDKN2A, RB1, APC, PTEN, CDKN1B, DMP1, NF1, AML1, EGR1, TGFBR1, TGFBR2 e SMAD4.
L’almeno un campione preferibilmente ha una purezza almeno del 50%. Più preferibilmente detto almeno un campione è una singola cellula.
Relazione univoca fra locus e lunghezza dei frammenti nella DRS-WGA
Più in dettaglio, il metodo secondo l’invenzione sfrutta il fatto che nella DRS-WGA, come la Ampli1™ WGA, ciascun locus nel genoma è rappresentato nella libreria WGA solo in frammenti aventi una lunghezza specifica in coppie di basi. Questa proprietà può essere denominata “Relazione Univoca fra Locus e Lunghezza dei Frammenti” (L2FLUR). Considerando un locus normale generico, per esempio un locus per un SNP polimorfico, detto locus sarà rappresentato solo in un frammento di una data lunghezza, uguale alla grandezza del frammento corrispondente (misurata sull’uno e sull’altro dei singoli filamenti) in seguito a digestione mediante l’enzima di restrizione, più due volte la lunghezza degli adattatori di WGA universali (la lunghezza del primer LIB1 nel caso della Ampli1 WGA). Quando la WGA è sequenziata in seguito alla preparazione della libreria secondo i kit Ampli1 LowPass, è introdotta una lunghezza aggiuntiva prevedibile legata alle lunghezze degli adattatori di sequenziamento e dei barcode, che sono note.
Non idealità come siti di restrizione non digeriti o varianti di sequenza, così come altri fattori, possono avere un impatto sulla, e distorcere la, frequenza di rappresentazione di un dato frammento nel prodotto di WGA rispetto a ciò che ci si può aspettare in teoria. Questi fattori sono tipicamente moderati e, in aggiunta, nella misura in cui essi sono riproducibili, la loro natura non casuale può essere parzialmente controbilanciata compensandone l’effetto. Perciò, il loro effetto sarà trascurato nella presente descrizione, se non altrimenti segnalato.
Rappresentazione ridotta del genoma
Nel metodo secondo l’invenzione, la proprietà L2FLURL è sfruttata per produrre una rappresentazione ridotta del genoma, per cui i dati di sequenziamento a bassa profondità, per un dato numero di letture, conseguono una copertura superiore efficace del genoma coperto, riducendo efficacemente la grandezza del genoma coperto rispetto alla grandezza originale del genoma di riferimento del campione. In altre parole, la selezione della grandezza dei frammenti di WGA produce un sottocampionamento deterministico del genoma di riferimento. Il termine “deterministico” è essenziale in quanto - aumentando il numero di letture - gli stessi loci genomici sono alla fine ricampionati (si veda la Figura 2).
La Figura 2 illustra l’effetto della rappresentazione ridotta del genoma sulla copertura osservata. La Figura 2A illustra la distribuzione delle lunghezze dei frammenti MseI secondo 3 differenti approcci: Ampli1 LowPass per Ion Torrent con la selezione della grandezza che raccoglie frammenti fra 300 e 450 bp (A1LP_ss), Ampli1 LowPass con la selezione derivata dalla fase di sequenziamento (A1LP) e librerie ottenute dopo Ampli1 WGA seguita da una frammentazione casuale e da sequenziamento (A1_wFrg) (Binder V et al. 2014). Questi 3 differenti approcci rappresentano un livello differente di riduzione di rappresentazione del genoma, dal più stringente A1LP_ss fino a A1_wFrg caratterizzato dall’assenza di selezione. La Figura 2B mostra curve di Lorenz ottenute con i differenti approcci le quali mostrano una graduale diminuzione dell’uniformità di copertura con il livello di selezione della grandezza. La minore uniformità di A1LP_ss può essere spiegata mediante la saturazione degli stampi di DNA e il sequenziamento ricorrente degli stessi frammenti. La saturazione degli stampi è confermata dai diagrammi nelle Figure 2C e 2D, che illustrano rispettivamente la quantità totale di basi coperte e la copertura media per base a intervalli incrementali di letture mappate. Questi diagrammi mostrano chiaramente che la fase di selezione della grandezza (A1LP_ss) riduce la quantità di DNA disponibile, con l’effetto di un bersaglio coperto limitato ma con una copertura superiore.
Vale la pena di sottolineare che l’approccio è flessibile, in quanto differenti enzimi deterministici possono essere idonei a seconda della risoluzione desiderata e/o della piattaforma di sequenziamento e del protocollo di sequenziamento usati. Per esempio, possono essere usati enzimi a taglio frequente differenti. Negli esempi di Ampli1 WGA, il motivo TTAA è il Sito di Restrizione. Altri enzimi con sequenza di riconoscimento di 4 coppie di basi possono essere usati per tagliare a livello di un Sito di Restrizione differente, come GTAC, CTAG (Figura 3), ottenendo una distribuzione differente di frammenti. La Figura 3 illustra la digestione in silico di genoma umano con differenti Siti di Restrizione (quattro o sei coppie di basi). Per un dato intervallo di lunghezze dei frammenti (per esempio idoneo per un certo sequenziatore e metodo di selezione della grandezza), siti di restrizione differenti forniscono un numero differente di frammenti.
Quando la DRS-WGA è inizialmente purificata dopo la PCR primaria, avviene una prima selezione della grandezza, per cui i frammenti più corti della WGA sono rimossi insieme ai primer liberi. Vantaggiosamente, il metodo usa un’ulteriore fase di selezione. Questa fase aggiuntiva di selezione può essere conseguita selezionando in base alla grandezza certi frammenti dalla WGA primaria e/o generando la libreria di sequenziamento massivamente parallela mediante un metodo che restringe i frammenti sequenziabili. Per esempio, kit di Ampli1 LowPass includono una fase intrinseca di selezione della grandezza che è sufficiente per avere un impatto positivo sul processo. In WO2017/178655, è effettuata una selezione della grandezza su un gel. In WO2019/016401, fasi consecutive di purificazione con l’uso di biglie SPRI producono efficacemente una prima selezione della grandezza, per cui la lunghezza di coppie di basi è ristretta a un intervallo che dipende sostanzialmente dalla concentrazione di biglie SPRI. In aggiunta, il sequenziatore può anche introdurre una selezione della grandezza di per sé, poiché frammenti più lunghi genereranno dati di sequenza con efficienza sempre minore (per esempio a causa dell’efficienza della PCR in emulsione in Ion Torrent, o della PCR a ponte per la formazione di cluster nelle piattaforme Illumina).
Nella DRS-WGA vi è anche una relazione deterministica fra la grandezza media della libreria di sequenziamento e il rapporto di sottocampionamento del genoma di riferimento.
Un’analisi in silico, effettuata sulla digestione TTAA del genoma umano di riferimento hg19 (Figura 4) fornisce un totale di circa 19 M di frammenti includendo tutte le sequenze cromosomiche, che si traduce in 38 M di frammenti su un genoma umano diploide normale. A titolo di esempio, selezionando in silico, frammenti nell’intervallo di 175-225 bp saranno solo 1.252.559, coprendo approssimativamente un totale di 248 M di basi su 3,09 B di basi, vale a dire l’8,02% del genoma umano di riferimento. Si veda la Tabella 1 di seguito, in cui il numero di frammenti, le coppie di basi totali e il rapporto di riduzione (%) sono elencati per intervalli differenti di selezione in base alla grandezza. Questo sottocampionamento può essere denominato Rapporto di Riduzione (RR).
Tabella 1
Spaziatura fra i frammenti
Insieme al rapporto di riduzione, nella DRS-WGA vi è anche una relazione definita sulla spaziatura media fra frammenti consecutivi a seconda della porzione della distribuzione di lunghezza dei frammenti selezionata per il sequenziamento. A tal riguardo, si veda la Figura 5, in cui il pannello A illustra la correlazione positiva fra la lunghezza dei frammenti e la spaziatura, dovuta al numero decrescente di frammenti selezionati, misurata per tre differenti grandezze dei frammenti 200, 500, 800, con una banda di ±100 bp; e il pannello B illustra che, per ciascuna grandezza dei frammenti, sono state usate tre bande differenti (±50, ±100, ±150) per dimostrare la correlazione inversa fra grandezza della banda e spaziatura, ancora dovuta al numero decrescente di frammenti ottenibili con intervalli più stretti di grandezza.
In generale, mediante l’analisi in silico del genoma umano di riferimento hg19, per quanto riguarda la distribuzione dei frammenti della Ampli1 DRS-WGA, si trova che:
● più alta è la lunghezza media in coppie di basi dei frammenti selezionati, minore è il numero di frammenti e più alta è la spaziatura fra questi;
● più stretto è l’intervallo dei frammenti selezionati, minore è il numero di frammenti e più alta è la spaziatura fra questi.
Selezione della grandezza dei frammenti
Possono anche essere usate differenti tecniche di selezione della grandezza per conseguire il Rapporto di Riduzione desiderato, a seconda del numero scelto di letture di sequenziamento per campione e/o della risoluzione. Con riferimento alla Figura 4, è chiaro che - per una data lunghezza media dei frammenti - può essere ottenuto un numero minore o maggiore di frammenti totali selezionando una banda rispettivamente minore o maggiore centrata su quella lunghezza media dei frammenti.
Strumenti come il Pipping prep (Sage Science) possono essere usati per avere un controllo più stretto sulla distribuzione di lunghezza dei frammenti e, usando un’analogia con i filtri passa banda, anche nell’avere un più alto fattore Q definito come
Q=Fcentro/DeltaF = [(Fmin+FMAX)/2]/(FMAX-Fmin)
in cui
Fcentro = (Fmin+FMAX)/2 è la grandezza media dei Frammenti
DeltaF = FMAX-Fmin è l’ampiezza dell’intervallo di grandezze dei frammenti
Fmin è la grandezza dei frammenti al di sotto della quale i frammenti sono rappresentati a un livello relativo convenzionale (per esempio 1/10=10%) o meno rispetto al numero di picco normalizzato, in-banda, di frammenti per bin.
Fmax è la grandezza dei frammenti al di sopra della quale i frammenti sono rappresentati allo stesso livello relativo convenzionale o meno rispetto al numero di picco normalizzato, in-banda, di frammenti per bin.
Con il sequenziamento Illumina, la modalità di sequenziamento è preferibilmente il sequenziamento paired end, poiché il genoma coperto aumenta e pertanto il numero di loci per milione di coppie di letture aumenta, incrementando la risoluzione. Tuttavia, quando la grandezza selezionata per il sequenziamento giunge al di sotto di una certa grandezza, il sequenziamento paired end non aumenterà la copertura poiché le due letture appaiate si sovrappongono completamente.
Con il sequenziamento Ion Torrent, lunghezze più alte delle letture aumenteranno proporzionalmente il genoma coperto e pertanto il numero di loci per milione di letture aumenta, incrementando la risoluzione. Nel kit Ampli1 LowPass IonTorrent (Menarini Silicon Biosystems), i campioni con barcode riuniti in pool sono selezionati in base alla grandezza, su un gel o con altri metodi come Pippin Prep. La scelta di differenti fattore Q e lunghezza media dei frammenti può fornire risoluzioni differenti su una base per milione di letture.
Un vantaggio di riunire in pool i campioni e di selezionare in base alla grandezza la libreria per il sequenziamento in seguito è che tutti i campioni avranno la stessa distribuzione di lunghezze dei frammenti e a sua volta ciò massimizzerà la sovrapposizione di genoma coperto fra campioni differenti. Ciò è rilevante quando si usa un approccio basato su controlli (per esempio controllo normale o controllo materno) per identificare i potenziali loci eterozigoti nel campione sottoposto a test (sample under test, SUT).
D’altro lato, quando si usa il kit Ampli1 LowPass per Illumina, le differenti librerie LowPass sono inizialmente selezionate in base alla grandezza e quindi riunite in pool, ottenendo selezioni in base alla grandezza leggermente differenti fra campioni differenti, riducendo così il genoma coperto fra campioni differenti su una base per milione di letture. Una selezione in base alla grandezza dopo aver riunito in un pool le librerie, sebbene non richiesta dal protocollo standard, può essere impiegata per aumentare la sovrapposizione fra campioni, che può essere di beneficio nell’analisi basata sui controlli.
Secondo la presente invenzione, la combinazione di DRS-WGA e LPWGS porta inaspettatamente a una rappresentazione ridotta dal campione di input. Sequenziando con il NGS, questa libreria a rappresentazione ridotta del genoma di riferimento a sua volta restringe il genoma coperto nell’intervallo di coppie di basi selezionato (o in ogni modo sequenziabile) e si ottiene una copertura di fatto più alta per il genoma coperto su una base per milione di letture, in confronto a metodi WGA alternativi che usano il priming casuale o il taglio casuale.
Questo effetto può essere sfruttato secondo l’invenzione in modi differenti, a seconda della situazione.
Un esempio è la disponibilità di uno o più campioni di controllo - come “normale abbinato” e la disponibilità di uno o più campioni sottoposti a test (SUT), come un campione tumorale. In questo caso, la DRS-WGA aumenta la sovrapposizione delle letture fra SUT e controllo.
Un altro esempio è una situazione priva di controlli come nel caso dello screening genetico preimpianto (PGS), ove vi è solo disponibilità di un singolo campione corrispondente al SUT. In questo caso, la DRS-WGA aumenta il numero di loci coperti da più di una lettura.
Preferibilmente, la preparazione della libreria dalla DRS-WGA è uno dei metodi illustrati in WO2017/178655 e WO2019/016401, poiché il rapporto di riduzione risultante è più alto rispetto a digerire gli adattatori di WGA, frammentare il DNA e creare una libreria sequenziabile in seguito, come effettuato in Binder V. et al., 2014, o Hodgkinson C.L. et al., 2014. In effetti, il taglio del DNA aumenta il numero di possibili frammenti differenti della DRS-WGA originale che possono essere trovati in un dato intervallo di coppie di basi selezionato per il sequenziamento, poiché - quando frammentati - frammenti più lunghi ricadranno nell’intervallo sopra menzionato, mentre solo una frazione dei frammenti della WGA primaria nativamente in intervallo sarà estromessa dall’intervallo a causa della frammentazione, poiché frammenti più piccoli tendono a essere tagliati meno efficientemente rispetto a frammenti più lunghi (si veda la Figura 2).
Analisi della LoH
Con riferimento nuovamente alla Figura 1, la libreria di sequenziamento massivamente parallela è ottenuta preferibilmente usando il kit Ampli1 LowPass (per Ion Torrent o per Illumina). Il campione è sequenziato usando un sequenziatore compatibile. Le letture sequenziate ottenute da detta libreria sono mappate sul genoma umano di riferimento e gli alleli presenti in loci noti e/o polimorfici sono estratti. Preferibilmente, tali loci sono coperti da almeno 2 letture di sequenziamento. Occorre notare che il rilevamento di un singolo allele non implica necessariamente un reale genotipo omozigote, ma può essere il risultato della bassa copertura di sequenziamento. Detta pluralità di loci è preferibilmente suddivisa in finestre genomiche secondo differenti criteri di ripartizione del genoma. Questa ripartizione è facoltativa poiché in certe forme di realizzazione si può essere interessati unicamente all’analisi di una o più finestre genomiche predeterminate, per esempio un singolo cromosoma o un singolo locus genomico comprendente uno o più geni di interesse. Lo stato allelico di loci rilevati in finestre genomiche è usato per ottenere una misurazione. Tale misurazione, d’ora in poi denominata punteggio di LoH, può essere ottenuta mediante una varietà di metodi secondo l’invenzione, come la conta del numero di loci eterozigoti nella finestra genomica o il calcolo della proporzione di loci eterozigoti. Oltre a ciò, è preferibilmente applicato un test statistico per determinare la significatività del calo di loci eterozigoti in corrispondenza di eventi di LoH mediante il confronto con un controllo interno oppure mediante l’uso di un controllo esterno (dallo/gli stesso/i individuo/i o da un individuo/i differente/i). In alternativa, è preferibilmente applicato un test statistico per determinare la significatività della sovra-rappresentazione di loci eterozigoti, in corrispondenza di regioni genomiche non in LoH, rispetto a quanto atteso in base ai tassi di errore di sequenziamento e WGA. Infine, l’imposizione di una soglia per il punteggio di LoH, in base a una soglia fissa calcolata da un insieme di dati di addestramento con eventi di LoH noti, è preferibilmente applicata per definire regioni genomiche corrispondenti a eventi di LoH. Le singole fasi del metodo sono descritte in dettaglio di seguito.
Ripartizione del genoma
Con riferimento alla Figura 1, la fase facoltativa di ripartizione può essere effettuata in tre modi alternativi:
i) finestre genomiche a coppie di basi costanti ii) finestre con numero costante di loci
iii) segmenti con numero di copie.
Nell’alternativa i), che è illustrata nella Figura 6, la finestra genomica ha un’ampiezza costante. Ciascuna finestra genomica contiene una pluralità di loci, il cui numero dipende dalla localizzazione genomica. Questo approccio può essere vantaggioso quando si confronta un campione contro un insieme di campioni normali di controllo poiché il genoma di riferimento è ripartito allo stesso modo in tutti i campioni, permettendo così un confronto diretto del punteggio di LoH per ciascuna finestra genomica fra campioni multipli. Poiché il numero e la proporzione di loci eterozigoti rilevati in una finestra genomica di ampiezza definita aumenteranno a profondità di lettura più alte, per permettere il confronto di un campione contro un controllo (o multipli) campioni di controllo, il numero di letture mappate in ciascun campione è preferibilmente normalizzato a un numero fisso di letture. Tale normalizzazione è eseguita campionando in modo casuale le letture, mappate sul genoma di riferimento, fino a che è raggiunto il numero desiderato. Il numero normalizzato di letture può essere, per esempio, 1 milione o 2 milioni di letture, preferibilmente 3 milioni, 4 milioni, 5 milioni, 6 milioni, 7 milioni, 8 milioni o 9 milioni di letture.
La Figura 6 mostra una rappresentazione schematica di un esempio di ripartizione basata su finestre genomiche a coppie di basi costanti. Sono rappresentati campioni di controllo appaiato (in alto) e di test (in basso). Una linea continua rappresenta (una porzione di) il genoma. I marcatori a forma di rombo delimitano finestre genomiche di ampiezza costante e loci polimorfici noti sono rappresentati mediante punti (loci eterozigoti: punti bianchi pieni; loci omozigoti: punti grigi pieni). Il numero di loci rilevati per finestra genomica varia attraverso il genoma ma ci si aspetta che sia simile, in media, per una data finestra, fra due differenti campioni le cui mappature totali delle letture sono state normalizzate a una conta di letture definita. Una finestra genomica in LoH in un campione di test ci si aspetta che mostri un calo di loci eterozigoti rispetto alla stessa finestra in un campione di controllo normale. La stessa finestra non può essere direttamente confrontata con finestre genomiche localizzate su posizioni genomiche differenti sullo stesso (o altro) campione a causa della distorsione nelle densità di SNP lungo il genoma.
Nell’alternativa ii), che è illustrata nella Figura 7, la finestra genomica ha un numero costante di loci. Questo approccio permette di normalizzare il punteggio di LoH per differenti densità di SNP attraverso il genoma. Il metodo può essere vantaggioso quando si usa un approccio privo di controlli poiché permette, per esempio, di applicare la stessa soglia per tutte le finestre genomiche indipendentemente dalla loro posizione nel genoma e dalla loro sottostante densità di SNP. Il metodo può essere svantaggioso quando si confronta il campione di test con campioni di controllo, poiché finestre genomiche differenti possono essere generate per campioni differenti a seconda della distribuzione di loci campionati e rilevati mediante sequenziamento a bassa profondità.
La Figura 7 mostra una rappresentazione schematica di un esempio di ripartizione basata su numero costante di loci per finestra. Sono rappresentati campioni di controllo accoppiato (in alto) e di test (in basso). Una linea continua rappresenta (una porzione di) il genoma. Marcatori a forma di rombo delimitano finestre genomiche contenenti un numero costante di loci. I loci polimorfici noti sono rappresentati mediante punti (loci eterozigoti: punti bianchi pieni; loci omozigoti: punti grigi pieni). A causa della bassa copertura di sequenziamento non tutti i loci in una regione genomica saranno rilevati. Pertanto, le estremità delle finestre genomiche possono variare fra campioni differenti in base al campionamento dei loci mediante letture di sequenziamento e, come tali, le finestre genomiche rilevate in un campione di test non sono direttamente confrontabili con finestre genomiche corrispondenti in altri campioni (di controllo). Una finestra genomica in LoH in un campione di test ci si aspetta che mostri un calo di loci eterozigoti rispetto a finestre genomiche dello stesso campione che non sono in LoH.
Il numero e la proporzione di loci eterozigoti rilevati in una finestra genomica con un numero costante di loci aumenteranno a profondità di lettura più alte (si veda la Figura 8). Preferibilmente, per permettere l’imposizione di una soglia per il punteggio di LoH a un valore precalcolato, il numero di letture mappate in ciascun campione è normalizzato a un numero fisso di letture. Tale normalizzazione è eseguita campionando in modo casuale le letture, mappando sul genoma di riferimento, fino a che è raggiunto il numero desiderato. Il numero normalizzato di letture può essere, per esempio, 1 milione o 2 milioni di letture, preferibilmente 3 milioni, 4 milioni, 5 milioni, 6 milioni, 7 milioni, 8 milioni o 9 milioni di letture.
Nell’alternativa iii), che è illustrata nella Figura 9, la finestra genomica è una regione genomica segmentata fra due punti di rottura di numero di copie, contenuti in un braccio cromosomico, che può essere definita normalizzando le conte grezze del numero di copie nelle finestre genomiche mediante il contenuto di GC (Boeva, V. et al., 2011, Bioinformatics, 27(2), 268–269) e applicando un algoritmo di segmentazione come un algoritmo basato su LASSO ((Harchaoui,Z. et al., 2008, Adv. Neural Inform. Process. Syst., 20, 617–624), la segmentazione binaria circolare (CBS) (Seshan VE. et al., 2019, DNAcopy: DNA copy number data analysis. R package versione 1.58.0) o algoritmo simile per normalizzare le conte delle letture. Questo metodo si basa sull’assunto che una regione genomica che mostra un cambiamento nel livello del numero di copie rispetto alla ploidia “normale” principale del campione è stata verosimilmente colpita da un singolo evento di aberrazione nel numero di copie genomiche e pertanto ci si aspetta che abbia uno stato di LoH uniforme. In confronto alle alternative (i) e (ii), finestre genomiche definite mediante questo metodo sono generalmente molto più grandi (fino a 23 ordini di grandezza) e conterranno un numero maggiore di loci eterozigoti e/o polimorfici noti, permettendo così di ottenere una potenza statistica più alta. Oltre a ciò, combinando 2 dimensioni biologiche differenti (numero di copie, punteggio di LoH), con questo metodo possono essere conseguiti risultati più accurati, con un tasso più basso di falsi positivi. Il metodo tuttavia può essere svantaggioso nel caso di piccoli eventi di LoH localizzati in eventi di numero di copie più grossi i quali possono rimanere non rilevati con questo metodo. Poiché non è infrequente che un braccio cromosomico subisca un evento di LoH seguito da una duplicazione, preferibilmente i bracci cromosomici saranno usati come unità di segmentazione nei cromosomi senza cambiamenti del numero di copie. Ciò impedisce la chiamata errata come LoH di un braccio cromosomico più corto quando solo il braccio più lungo è colpito (falso positivo), o nel caso duplice, la chiamata errata come non-LoH per il braccio cromosomico più corto quando solo il più corto è colpito (falso negativo).
Più in particolare, la Figura 9 fornisce una rappresentazione di esempio del profilo del numero di copie di un braccio cromosomico (ploidia principale del genoma = 2) che è stato colpito da due eventi di cambiamento del numero di copie: un segmento con perdita di numero di copie con un numero di copie = 1; un guadagno di numero di copie con un numero di copie = 3. Le finestre genomiche sono definite come le regioni fra 2 punti di rottura di numero di copie consecutivi.
La segmentazione può anche essere impiegata sfruttando le informazioni sul numero di copie per escludere falsi positivi derivanti da amplificazioni ad alto livello. Infatti, un’amplificazione ad alto livello deriva molto probabilmente da un singolo allele e pertanto introduce una distorsione nella rappresentazione allelica nella regione, per cui l’allele minore, anche se presente, sarà sottorappresentato e può indurre una chiamata di LoH falsa positiva.
La Tabella 2 di seguito mostra le caratteristiche principali, e i pro e i contro di ciascuna fase alternativa di ripartizione secondo la presente invenzione.
Tabella 2
Assegnazione del punteggio di LoH
Anche la fase g. di assegnazione di un punteggio di LoH ad almeno una finestra genomica di detto genoma di riferimento per detto almeno un campione in funzione del numero di loci con almeno due alleli differenti in detta pluralità di loci implica forme di realizzazione preferite alternative.
In una forma di realizzazione preferita, il punteggio di LoH corrisponde al numero di loci eterozigoti in detta almeno una finestra genomica. Una finestra genomica in LoH ci si aspetta che mostri una scarsità di loci eterozigoti in confronto a regioni o a campioni che non sono in LoH (si veda la Figura 10).
In un’altra forma di realizzazione preferita, per ciascuna finestra genomica, un punteggio di LoH è definito come la proporzione di loci eterozigoti rilevati in quella finestra genomica rispetto al numero totale di loci polimorfici nella stessa finestra genomica (Figura 11). Analogamente al metodo di cui sopra, una riduzione consistente del punteggio di LoH è attesa in presenza di un evento di LoH. Questo metodo può essere vantaggioso quando le finestre non contengono un numero omogeneo di loci rilevati, per esempio quando è usata una finestra genomica a coppie di basi costanti oppure segmenti con numero di copie sono usati per ripartire il genoma.
Assegnazione del punteggio di LoH- test statistico Preferibilmente, per ciascuna finestra genomica un punteggio di LoH è definito mediante i risultati di un test statistico sulla frequenza dei loci biallelici osservati.
In una forma di realizzazione preferita, la significatività della sotto-rappresentazione di loci eterozigoti rispetto a un controllo interno/esterno può essere valutata eseguendo un test statistico. In dettaglio, è costruita una tabella di contingenza per ciascuna finestra genomica considerando le due classificazioni seguenti: 1) tipo di campione (test, controllo); 2) tipo di loci (eterozigoti, omozigoti). È quindi applicato un test statistico, come il test esatto di Fisher o test paragonabile per l’analisi delle tabelle di contingenza (per esempio: test del Chi-quadrato, test-G, test esatto di Barnard, test di Fisher-Freeman-Halton). Preferibilmente, il test statistico deve essere eseguito a una coda al fine di restringere il rilevamento al caso in cui vi è una sottorappresentazione di loci eterozigoti dovuta a LoH. In effetti, quando in un dato segmento genomico vi è un guadagno, vale a dire un aumento del numero di copie, vi è un aumento del numero di letture con l’uso di WGS a bassa profondità. Ciò può avere come risultato un numero più alto di loci eterozigoti in assenza di LoH e può essere etichettato come significativo da un test statistico a due code, ma per la ragione opposta rispetto all’obiettivo dell’analisi.
In una forma di realizzazione preferita alternativa, può essere testata la significatività della sovrarappresentazione di loci eterozigoti rispetto a quella attesa dai tassi di errore di sequenziamento e WGA. Questo approccio può essere vantaggioso quando si effettua il test per ‘guadagno di eterozigosi’ (da qui in poi GoH) in singole cellule aploidi, come i gameti. Ciò può avvenire per esempio a causa di errori di separazione sbilanciata durante la meiosi che hanno come risultato il guadagno di un cromosoma.
Dato il gran numero di test eseguiti per ciascun esperimento (circa 200, 400, 600 per un campione di 1 milione di letture con finestre fisse di 500, 1000 e 1500 SNP), può essere applicata una correzione per la molteplicità dei test (si veda per esempio Benjamini Y. et al., 1995, Journal of the Royal Statistical Society. Series B (Methodological) Vol. 57, No. 1: pp. 289-300). Il punteggio di LoH è quindi definito come il valore p risultante dal test statistico.
Campione di controllo
Il controllo può essere “interno” e può essere definito, per esempio, considerando le regioni genomiche con ploidia uguale alla ploidia genomica principale (media) più probabile. Questo approccio assume che la maggior parte delle regioni genomiche che non mostrano alterazioni nel numero di copie non sia in LoH.
In alternativa, il controllo può essere “esterno” e può essere generato per esempio usando uno o multipli campioni normali dallo stesso individuo sottoposto a test o da individui differenti.
L’uso di un controllo interno può essere vantaggioso per campioni diploidi o poliploidi (per esempio: campioni tumorali) poiché è indipendente dal numero di letture (non richiede la normalizzazione del numero di letture mappate) e in caso di campioni danneggiati (per esempio: campioni FFPE). In effetti, i campioni danneggiati possono mostrare un’occorrenza più alta di drop-out, in cui uno dei 2 alleli a livello di un locus è perso a causa di danno al DNA, in confronto a quelli non danneggiati e, pertanto, un numero minore di siti eterozigoti rispetto all’atteso per regioni genomiche non in LoH. Ciò può intralciare il confronto di campioni di test contro controllo esterno con livelli differenti di danno. Usando un controllo interno, tale distorsione è rimossa poiché finestre genomiche di controllo e di test avranno lo stesso livello di tasso di drop-out.
Imposizione di un valore soglia per LoH e chiamata di LoH
Facoltativamente, per il punteggio di LoH ottenuto da fasi precedenti può essere imposta una soglia per definire le regioni genomiche in LoH. Nella maggior parte dei casi, il numero e la proporzione di loci eterozigoti rilevati in una finestra genomica con un numero costante di loci aumenteranno a profondità di lettura più alte. Per permettere l’imposizione di una soglia per il punteggio di LoH a un valore precalcolato, il numero di letture mappate in ciascun campione è preferibilmente normalizzato a un numero fisso di letture. Tale normalizzazione è eseguita campionando in modo casuale le letture, mappando sul genoma di riferimento, fino a che è raggiunto il numero desiderato (preferibilmente contenuto nell’intervallo che va da 1.000.000 di letture mappate a 10.000.000 di letture mappate). Le considerazioni di cui sopra non si applicano quando il punteggio di LoH è calcolato eseguendo un test statistico contro un controllo “interno”.
Di preferenza, nel caso di punteggio di LoH calcolato come numero di loci eterozigoti, i dati sono prima sottocampionati a 1.000.000 di letture mappate. I loci, coperti da almeno 1 lettura, sono ripartiti usando finestre con numero fisso di loci rilevati (per esempio n=500; n=1000; n=1500). Alcuni valori soglia preferiti sono 3, 6, 9 SNP eterozigoti rispettivamente su 500, 1000 e 1500 loci (Figura 12). LoH è quindi chiamata in una data finestra genomica se il punteggio di LoH è inferiore alla soglia selezionata.
Più in dettaglio, la Figura 12 mostra l’analisi ROC usata per la definizione di una soglia di punteggio di LoH, definita come il numero di SNP biallelici in una finestra di (A) n=500, (B) n=1000, (C) n=1500 SNP coperti da almeno 1 lettura con 1.000.000 di letture mappate. Le LoH rilevate nella cellula tumorale mediante sequenziamento dell’intero genoma ad alta profondità e l’analisi della frequenza dell’allele B sono state usate come riferimento.
Nel caso di punteggio di LoH calcolato come valore p, risultante dall’applicazione di un test statistico, alcune soglie preferite possono essere, per esempio, 5*10<-2 >o 1*10-2. LoH è quindi chiamata in una finestra genomica se il punteggio di LoH è inferiore alla soglia selezionata.
Quando per il punteggio di LoH è stata imposta una soglia, lo stato di LoH può essere assegnato alle regioni genomiche secondo differenti criteri descritti di seguito.
1) Chiamata di regioni di LoH mediante fusione di finestre. In questa forma di realizzazione preferita, uno stato di LoH è assegnato a una regione genomica se i punteggi di LoH per ciascuna finestra genomica contenuta in quella regione passano la fase di imposizione della soglia.
2) Chiamata di regioni di LoH in funzione dello stato di LoH nelle finestre genomiche. In questa forma di realizzazione preferita, uno stato di LoH è assegnato a una regione genomica se una data percentuale/frazione delle finestre genomiche contenute in quella regione genomica passa la fase di imposizione della soglia. Come esempio, se più del 66%, 75%, 80%, 85%, 90%, 95% delle finestre in una regione genomica passa la fase di imposizione della soglia, uno stato di LoH è assegnato a quella regione genomica.
3) Chiamata di LoH in regioni genomiche comprendenti geni oncosoppressori. In questa forma di realizzazione preferita, almeno una regione genomica comprende un gene oncosoppressore.
Preferibilmente, detto gene è selezionato dal gruppo costituito da BRCA1, BRCA2, PALB2, TP53, CDKN2A, RB1, APC, PTEN, CDKN1B, DMP1, NF1, AML1, EGR1, TGFBR1, TGFBR2 e SMAD4.
Purezza del campione
La LoH può essere identificata in un DNA derivante da una miscela di differenti tipi di cellule (per esempio: cellule tumorali e cellule normali). La purezza del campione è definita come la percentuale di campione nella miscela che appartiene al tipo di interesse (per esempio: cellule tumorali).
Per esempio, quando #TC cellule tumorali, che sono clonali, vale a dire genomicamente identiche e pertanto aventi lo stesso profilo di LoH e CNA, sono miscelate con #NC cellule normali dallo stesso individuo, la purezza del campione risultante sarà #TC/(#TC+#NC) e sarà omogenea in tutto il genoma.
Generalizzando, con purezza intendiamo qui un concetto relativo allo stato di LoH in una data Regione di Interesse costituita da una o più regioni Genomiche. La Regione di Interesse può essere grande quanto l’intero genoma di riferimento (come nell’esempio precedente) o piccola fino a 100 kbp.
Per esempio, in presenza di un pool di cellule tumorali che rappresentano cloni differenti derivanti dalla stessa cellula tumorale ultimo progenitore comune, la purezza può variare fra regioni genomiche differenti da un minimo di 1/Numero di cellule nel pool - quando una regione di LoH è rappresentata solo in una cellula - a un massimo del 100%, quando uno stato di LoH di una regione Genomica è comune fra tutti i cloni derivati dall’ultimo progenitore comune.
Il campione analizzato per la LoH preferibilmente ha una purezza almeno del 50%, più preferibilmente almeno del 70%, come si può comprendere dalla Figura 13, che mostra i valori dell’area sottesa alla curva (AUC) receiver operating characteristic (ROC) per il punteggio di LoH a differente numero di letture mappate (1.000.000 - 10.000.000 di letture) e purezza del campione (10% - 90%). Il punteggio di LoH è definito come il numero di SNP eterozigoti in una finestra di n=150 SNP coperti da almeno 2 letture. Campioni a purezze differenti sono ottenuti miscelando in silico letture ottenute dall’analisi di una cellula tumorale e di una cellula normale in proporzioni (tumorale:normale) equivalenti alla purezza bersaglio. Le LoH rilevate nella cellula tumorale mediante sequenziamento dell’intero genoma ad alta profondità sono usate come riferimento.
Effetto della selezione della grandezza sul rilevamento della LoH
Come già precedentemente menzionato, è preferibilmente eseguita una selezione della grandezza durante o dopo la fase c. di preparare una libreria di sequenziamento massivamente parallela. La grandezza dei frammenti può essere scelta secondo differenti criteri. Il metodo di sequenziamento può essere scelto mediante differenti criteri, anche a seconda della grandezza dei frammenti. In generale, più alto è il numero di loci (polimorfici o eterozigoti) che contribuiscono all’analisi della LoH, migliore è la risoluzione (per milione di letture).
La Figura 14 illustra dati ottenuti selezionando in silico un sottoinsieme di frammenti sequenziati da dati ottenuti da un campione reale di singola cellula con Fcentro crescente (librerie di sequenziamento preparate con Ampli1 LowPass per Illumina). La Figura 14A illustra l’effetto della selezione della grandezza (ampiezza della banda 100) sulla copertura di frammenti di DRS-WGA rispetto alla lunghezza media dei frammenti, con 250.000 letture; la Figura 14B illustra l’effetto della selezione della grandezza (ampiezza della banda 100) sulla risoluzione in termini di coppie di basi (finestre di 150 SNP coperti da almeno 2 letture), con 250.000 letture; la Figura 14C illustra l’effetto dell’ampiezza della banda di selezione della grandezza sulla copertura di frammenti di DRS-WGA a una lunghezza media dei frammenti fissa (500 bp), con 250.000 letture; la Figura 14D illustra l’effetto dell’ampiezza della banda di selezione della grandezza sulla risoluzione (bp) a una lunghezza media dei frammenti fissa (500 bp), con 250.000 letture; la Figura 14E illustra l’effetto del numero di letture sulla copertura di frammenti di DRS-WGA a una lunghezza media dei frammenti fissa (500 bp). La frazione di frammenti coperta da almeno 2 letture e il numero totale di frammenti coperti aumenta in proporzione al numero di letture mappate (linea tratteggiata); la Figura 14F illustra l’effetto del numero di letture sulla risoluzione (bp) a una lunghezza media dei frammenti fissa (500 bp).
Questi dati mostrano che il numero totale di frammenti di DRS-WGA diminuisce mentre il numero di frammenti coperti da più di una lettura, utile per chiamare SNP, aumenta raggiungendo un plateau a 500 bp (Figura 14A). La risoluzione aumenta di conseguenza come mostrato da una diminuzione nella lunghezza delle finestre genomiche con numero fisso di SNP (n=150; Figura 14B). Quando ampiezze di banda differenti sono applicate a un dato numero di letture mappate e Fcentro, la copertura dei frammenti e la risoluzione aumentano al decrescere dell’ampiezza di banda (Figura 14C e 14D). La risoluzione aumenta anche con il numero di letture mappate (Figura 14E e 14F).
Esempi
La Tabella 3 di seguito riassume le caratteristiche dei metodi usati nei 3 esempi illustrati in quanto segue.
Tabella 3
Esempio 1
Nell’Esempio 1, sono state considerate librerie di DNA Ampli1 LowPass per Illumina di 1 cellula tumorale circolante (CTC; test) e di 1 globulo bianco (WBC; controllo) ottenuti da un paziente maschio affetto da Mieloma Multiplo. Le letture sequenziate sono state mappate sul genoma umano di riferimento hg19 e sottocampionate a 1, 2, 3, 4, 5, 6, 7, 8, 9 milioni di letture. Gli alleli presenti a loci polimorfici dbSNP (varianti comuni dbSNP150 con una frequenza dell’allele minore ≥5%) sono stati estratti da entrambe le librerie. I loci sono stati ripartiti con una finestra genomica fissa di 10.000.000 di bp. È stato impiegato un test esatto di Fisher a una coda per valutare la significatività dell’associazione (Tabella 4) fra i due tipi di classificazione, con l’ipotesi nulla che i loci eterozigoti e omozigoti sono ugualmente probabili in WBC (controllo) e CTC (test).
Tabella 4
I risultati del test a ciascun livello di sottocampionamento sono illustrati nella Figura 15. Iniziando da 2 milioni di letture il metodo mostra un’alta sensibilità nel rilevare eventi di LoH noti sui cromosomi 11 e 13.
In dettaglio, la Figura 15 mostra, in alto, un diagramma del numero di copie di una CTC da un paziente affetto da mieloma multiplo. Sull’asse x vi sono i cromosomi, sull’asse y vi è il numero di copie. Ciascun punto rappresenta una finestra genomica di grandezza fissa. I segmenti con numero di copie sono rappresentati come linee piene. Una traccia di riferimento (Ref) al di sotto del diagramma del numero di copie rappresenta regioni di LoH note rilevate mediante sequenziamento dell’intero genoma ad alta profondità della stessa CTC (mostrate in nero pieno). Sotto sono rappresentate tracce marcate da 1 M a 9 M: mappe di calore di valore p con trasformazione logaritmica (base=10) dei risultati del test esatto di Fisher a un numero differente di letture (da 1 a 9 milioni). I valori più significativi sono rappresentati da una tonalità più scura di grigio.
Esempio 2
Nell’Esempio 2, gli stessi dati della singola CTC usata nell’Esempio 1 sono usati come input e i dati sono sottocampionati a 1 milione di letture. In questo caso i loci sono stati ripartiti in finestre con un numero fisso (n=1000) di loci coperti da almeno 1 lettura. Per l’identificazione di regioni di LoH, il punteggio di LoH è stato calcolato come il numero di posizioni eterozigoti in ciascuna finestra.
La Figura 16 illustra il rilevamento di LoH mediante l’uso di finestre genomiche con numero costante di loci. In particolare, in alto è mostrato un diagramma del numero di copie della stessa CTC dell’Esempio 1. Sull’asse x vi sono i cromosomi, sull’asse y vi è il numero di copie. Ciascun punto rappresenta una finestra genomica di grandezza fissa. I segmenti con numero di copie sono rappresentati come linee piene. Sotto il diagramma vi è una mappa di calore che rappresenta la conta degli eterozigoti per ciascuna finestra genomica. Le finestre con un punteggio di LoH inferiore (numero inferiore di loci Eterozigoti), che hanno maggiore probabilità di essere in uno stato di LoH, sono rappresentate da una tonalità più scura di grigio. Il cromosoma 11, il braccio lungo del cromosoma 13 e il cromosoma X (che è in singola copia in un individuo maschio) mostrano il punteggio di LoH più basso.
Per determinare una soglia di punteggio di LoH per chiamare finestre genomiche in uno stato di LoH, un insieme di addestramento di 9 singole cellule con regioni di LoH note è stato analizzato usando la stessa metodologia del campione di test (1.000.000 di letture mappate e finestre con n=1000 SNP). È stata quindi eseguita un’analisi ROC e una soglia di punteggio di LoH massima = 6 è stata determinata come il punto di miglior compromesso fra sensibilità e specificità (Figura 17, in cui l’asse x rappresenta 1-specificità (valori inferiori indicano un rilevamento più specifico) e l’asse y rappresenta la sensibilità. Le LoH rilevate nella cellula tumorale mediante sequenziamento dell’intero genoma ad alta profondità sono state usate come riferimento).
Il metodo ha identificato eventi di LoH sui cromosomi 11 e 13 con successo. Lo stato di LoH è anche assegnato al cromosoma X come atteso in un individuo maschio il cui genoma contiene una singola copia del cromosoma X (Figura 18 -Regioni con un punteggio di LoH sotto una soglia fissa (<=6) e più grosse di 10.000.000 di bp sono mostrate in nero).
Esempio 3
Nell’Esempio 3, sono state analizzate librerie Ampli1 LowPass per Illumina di 2 singole cellule di Hodgkin Reed/Sternberg (HRS) ottenute da un tessuto FFPE di un campione di linfoma di Hodgkin classico da un paziente maschio. Le due cellule HRS condividono lo stesso profilo di numero di copie. Le letture sequenziate sono state mappate sul genoma umano di riferimento hg19 e gli alleli presenti a loci polimorfici dbSNP (varianti comuni dbSNP150 con una frequenza dell’allele minore ≥5%) sono stati estratti da entrambe le librerie. I loci sono stati ripartiti usando segmenti con numero di copie ottenuti usando il software Control-FREEC, attuando la normalizzazione basata su GC e la segmentazione del segnale sulla base del numero di copie [Boeva, V. et al., Bioinformatics, 27(2), 268–269. http://doi.org/10.1093/bioinformatics/btq635). È stato usato un controllo interno definito dall’unione di tutte le regioni con numero di copie uguale alla ploidia della cellula (numero di copie=2). Per ciascun segmento, definito dall’analisi del numero di copie e contenuto in un braccio cromosomico, è stato eseguito un test esatto di Fisher a una coda per rifiutare l’ipotesi nulla secondo cui i loci biallelici e monoallelici osservati sono ugualmente probabili nel segmento e nel controllo interno (Figura 19 -in alto: un profilo rappresentativo del numero di copie di cellula HRS. Sotto: mappa di calore di -log10 del valore p ottenuto come output del test di Fisher. Sono raffigurate solo le regioni genomiche con valori p ≤0,01. I valori più significativi sono rappresentati da una tonalità più scura di grigio). Come atteso, tutte le regioni con numero di copie = 1 sono state correttamente rilevate come regioni genomiche di LoH. Nonostante abbia numero di copie = 2, il braccio lungo del cromosoma X è rilevato in stato di LoH. Ciò è atteso poiché il campione è da un individuo maschio e pertanto il genoma contiene un singolo cromosoma X. In aggiunta, il cromosoma 9q è chiamato in LoH, il che può essere perso usando solo le informazioni sul numero di copie (numero di copie=2).
Vantaggi
Il metodo secondo la presente invenzione è idoneo per analizzare i dati ottenuti dal sequenziamento a bassa profondità di DNA genomico da un campione di test per rilevare eventi di LoH. Contrariamente ad altri metodi, che inferiscono le LoH come corse di loci omozigoti contigui e richiedono di estrarre il genotipo reale a un certo numero di loci, il metodo della presente invenzione si basa sul principio secondo cui, analizzando una finestra genomica contenente un numero sufficiente di loci sequenziati a bassa copertura ed estraendo gli alleli osservati a detti loci, non necessariamente rappresentativi del genotipo del campione, può essere possibile rilevare un evento di LoH come una diminuzione di loci biallelici, in confronto a quelli osservati analizzando un campione diploide normale.
Contrariamente ad altri metodi, che inferiscono la LoH dalla frequenza dell’allele alternativo (Frequenza dell’Allele B o BAF), richiedendo un’alta copertura del genoma, come per esempio 30x (Boeva et al., Bioinformatics, Vol. 28 no. 3 (2012), pagine 423–42), il metodo secondo l’invenzione funziona con dati di sequenziamento dell’intero genoma a bassa profondità (<1x, o inferiore, fino a, per esempio, 0,05x o anche 0,01x), con corrispondenti risparmi sui costi.
Il metodo per analizzare la LoH da un campione secondo la presente invenzione permette di inferire regioni di LoH all’interno del genoma da dati di sequenziamento dell’intero genoma a bassa profondità sino alla risoluzione di singola cellula, usando pochissimi campioni, come può essere il caso in cui sono disponibili solo poche CTC (fino a una sola), con la possibilità facoltativa aggiuntiva di effettuare l’analisi senza un controllo normale e con un numero relativamente piccolo di letture.
Inoltre, particolari forme di realizzazione del metodo consentono di aumentare la risoluzione nella chiamata di LoH introducendo certe fasi di processazione nel processo di preparazione delle librerie, senza costi di sequenziamento incrementali.
Il metodo secondo l’invenzione sorprendentemente fa avanzare lo stato della tecnica con prestazioni in precedenza ritenute irraggiungibili dall’esperto nella tecnica. In particolare, il metodo permette di:
- identificare la LoH su una singola cellula mediante sequenziamento dell’intero genoma a bassa profondità con una copertura media bassa fino a 0,01-0,04 (250.000-1.000.000 di letture single-end di 150 bp del genoma umano);
- ottenere il punto di cui sopra senza un campione di controllo;
- ottenere i punti di cui sopra con l’ulteriore possibilità di ottenere materiale genetico aggiuntivo per lo studio di altre caratteristiche di detta singola cellula, così come la possibilità di rianalizzare in modo affidabile una singola cellula per verifica, in virtù dell’uso di una WGA intrinseca nel processo.
In aggiunta, il metodo secondo la presente invenzione permette di determinare il profilo del numero di copie e la LoH sull’intero genoma anche da una quantità minima di cellule, da FFPE o da biopsie tessutali.
Dichiarazione ai sensi dell’Art. 170bis(2) del Codice Italiano in Materia di Proprietà Intellettuale
Il materiale biologico di origine umana usato nell’invenzione è stato acquisito secondo le disposizioni di legge applicabili.

Claims (26)

  1. RIVENDICAZIONI 1. Metodo per analizzare la perdita di eterozigosi (LoH) in almeno un campione comprendente DNA genomico, il metodo comprendendo le fasi di: a. fornire l’almeno un campione comprendente DNA genomico; b. effettuare un’amplificazione totale del genoma basata su un sito di restrizione deterministico (DRS-WGA) di detto di DNA genomico; c. preparare una libreria di sequenziamento massivamente parallela dal prodotto di detta DRS-WGA; d. effettuare il sequenziamento dell’intero genoma a bassa profondità su detta libreria di sequenziamento massivamente parallela; e. allineare le letture ottenute nella fase d. su un genoma di riferimento per detto almeno un campione; f. estrarre il contenuto allelico a una pluralità di loci, in cui detta pluralità di loci comprende loci polimorfici e/o loci eterozigoti; g. assegnare un punteggio di LoH ad almeno una finestra genomica di detto genoma di riferimento per detto almeno un campione in funzione del numero di loci con almeno due alleli differenti in detta pluralità di loci.
  2. 2. Metodo secondo la rivendicazione 1, in cui è eseguita una fase di selezione della grandezza prima, durante o dopo detta fase c. di preparare una libreria di sequenziamento massivamente parallela e detta fase di preparare una libreria di sequenziamento massivamente parallela non include una fase di frammentazione casuale.
  3. 3. Metodo secondo la rivendicazione 2, in cui detta fase di selezione della grandezza trattiene frammenti nell’intervallo da 100 a 800 coppie di basi.
  4. 4. Metodo secondo la rivendicazione 3, in cui detta fase di selezione della grandezza trattiene frammenti nell’intervallo da 300 a 450 coppie di basi.
  5. 5. Metodo secondo la rivendicazione 3, in cui il picco di frammenti trattenuti in detta fase di selezione della grandezza è centrato su un intervallo di coppie di basi da 150 bp a 600 bp.
  6. 6. Metodo secondo la rivendicazione 5, in cui detta fase di selezione della grandezza trattiene frammenti nell’intervallo di 425-575 coppie di basi.
  7. 7. Metodo secondo una qualsiasi delle rivendicazioni da 1 a 6, in cui detta almeno una finestra genomica ha un’ampiezza costante in coppie di basi.
  8. 8. Metodo secondo una qualsiasi delle rivendicazioni da 1 a 6, in cui detta almeno una finestra genomica ha un numero costante di detta pluralità di loci.
  9. 9. Metodo secondo una qualsiasi delle rivendicazioni da 1 a 6, in cui detta almeno una finestra genomica è selezionata dal gruppo costituito da un cromosoma, un braccio cromosomico e una regione con numero di copie segmentata.
  10. 10. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detta pluralità di loci comprende loci polimorfici per il genoma di riferimento per detto almeno un campione.
  11. 11. Metodo secondo le rivendicazioni 7, 8 o 10, in cui detto punteggio di LoH corrisponde al numero di loci eterozigoti in detta almeno una finestra genomica.
  12. 12. Metodo secondo la rivendicazione 10, in cui detto punteggio di LoH corrisponde alla proporzione di loci eterozigoti rispetto al numero totale di detti loci polimorfici nella almeno una finestra genomica.
  13. 13. Metodo secondo la rivendicazione 10, in cui detto punteggio di LoH corrisponde al valore p di un test statistico.
  14. 14. Metodo secondo la rivendicazione 13, in cui detto test statistico valuta la significatività della sovrarappresentazione di loci biallelici rispetto ai tassi di errore di sequenziamento e WGA.
  15. 15. Metodo secondo la rivendicazione 13, in cui detto test statistico valuta la significatività della sottorappresentazione di loci biallelici rispetto a un campione di controllo.
  16. 16. Metodo secondo la rivendicazione 15, in cui detto campione di controllo comprende almeno una regione genomica a ploidia principale da detto almeno un campione.
  17. 17. Metodo secondo la rivendicazione 15, in cui detto campione di controllo è un almeno un campione normale.
  18. 18. Metodo secondo la rivendicazione 17, in cui detto almeno un campione normale è ottenuto dallo stesso individuo sottoposto a test da cui detto almeno un campione è stato ottenuto.
  19. 19. Metodo secondo la rivendicazione 15, in cui detto campione di controllo è un campione materno o paterno, per detto almeno un campione.
  20. 20. Metodo secondo una qualsiasi delle rivendicazioni da 11 a 13, in cui, se detto punteggio di LoH passa una soglia per una finestra genomica, detta finestra genomica è chiamata in stato di LoH.
  21. 21. Metodo secondo la rivendicazione 20, comprendente inoltre una fase di assegnare uno stato di LoH ad almeno una regione genomica se i punteggi di LoH per ciascuna finestra genomica compresa in quella regione passano detta soglia.
  22. 22. Metodo secondo la rivendicazione 20, comprendente inoltre una fase di assegnare uno stato di LoH ad almeno una regione genomica in funzione dello stato di LoH di finestre genomiche comprese in quella regione.
  23. 23. Metodo secondo le rivendicazioni 21 o 22, in cui detta almeno una regione genomica comprende un gene oncosoppressore.
  24. 24. Metodo secondo la rivendicazione 23, in cui detto gene oncosoppressore è selezionato dal gruppo costituito da: a. BRCA1 b. BRCA2 c. PALB2 d. TP53 e. CDKN2A f. RB1 g. APC h. PTEN i. CDKN1B j. DMP1 k. NF1 l. AML1 m. EGR1 n. TGFBR1 o. TGFBR2 p. SMAD4
  25. 25. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detto almeno un campione ha una purezza di almeno del 50%.
  26. 26. Metodo secondo la rivendicazione 25, in cui detto almeno un campione è una singola cellula.
IT102019000013335A 2019-07-30 2019-07-30 Metodo per analizzare la perdita di eterozigosi (loh) a seguito di amplificazione totale del genoma basata su un sito di restrizione deterministico (drs-wga) IT201900013335A1 (it)

Priority Applications (14)

Application Number Priority Date Filing Date Title
IT102019000013335A IT201900013335A1 (it) 2019-07-30 2019-07-30 Metodo per analizzare la perdita di eterozigosi (loh) a seguito di amplificazione totale del genoma basata su un sito di restrizione deterministico (drs-wga)
US17/631,269 US20230175053A1 (en) 2019-07-30 2020-07-29 Method for analysing loss-of-heterozygosity (loh) following deterministic restriction-site whole genome amplification (drs-wga).
AU2020322242A AU2020322242A1 (en) 2019-07-30 2020-07-29 Method for analysing loss-of-heterozygosity (LoH) following deterministic restriction-site whole genome amplification (DRS-WGA)
EP20747479.2A EP4004236B1 (en) 2019-07-30 2020-07-29 Method for analysing loss-of-heterozygosity (loh) following deterministic restriction-site whole genome amplification (drs-wga)
PT207474792T PT4004236T (pt) 2019-07-30 2020-07-29 Método para análise de perda de heterozigotia (loh) após amplificação de todo o genoma por local de restrição determinístico (drs-wga)
FIEP20747479.2T FI4004236T3 (fi) 2019-07-30 2020-07-29 Menetelmä heterotsygoottisuuden häviämisen (loh) analysoimiseksi deterministisen restriktikohdan koko genomin monistuksen (drs-wga) jälkeen
KR1020227006939A KR20220070203A (ko) 2019-07-30 2020-07-29 결정적 제한 부위 전체 게놈 증폭(DRS-WGA)에 따른 이형접합 소실(LoH)을 분석하기 위한 방법
JP2022506443A JP2022543585A (ja) 2019-07-30 2020-07-29 確定的制限部位の全ゲノム増幅(DRS-WGA)後にヘテロ接合性の消失(LoH)を解析するための方法
CA3149486A CA3149486A1 (en) 2019-07-30 2020-07-29 Method for analysing loss-of-heterozygosity (loh) following deterministic restriction-site whole genome amplification (drs-wga)
ES20747479T ES2944080T3 (es) 2019-07-30 2020-07-29 Método para analizar la pérdida de heterocigosidad (LoH) tras la amplificación del genoma completo del sitio de restricción determinista (DRS-WGA)
CN202080068436.8A CN114466936A (zh) 2019-07-30 2020-07-29 在确定性限制性位点全基因组扩增(DRS-WGA)之后分析杂合性缺失(LoH)的方法
DK20747479.2T DK4004236T3 (da) 2019-07-30 2020-07-29 Fremgangsmåde til at analysere tab af heterozygositet (LOH) efter deterministisk restriktionssted-helgenomamplifikation (DRS-WGA)
PCT/IB2020/057149 WO2021019459A1 (en) 2019-07-30 2020-07-29 Method for analysing loss-of-heterozygosity (loh) following deterministic restriction-site whole genome amplification (drs-wga)
IL290176A IL290176A (en) 2019-07-30 2022-01-27 A method for analyzing loss of heterozygosity after deterministic restriction-site whole genome amplification (drs-wga)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT102019000013335A IT201900013335A1 (it) 2019-07-30 2019-07-30 Metodo per analizzare la perdita di eterozigosi (loh) a seguito di amplificazione totale del genoma basata su un sito di restrizione deterministico (drs-wga)

Publications (1)

Publication Number Publication Date
IT201900013335A1 true IT201900013335A1 (it) 2021-01-30

Family

ID=68733545

Family Applications (1)

Application Number Title Priority Date Filing Date
IT102019000013335A IT201900013335A1 (it) 2019-07-30 2019-07-30 Metodo per analizzare la perdita di eterozigosi (loh) a seguito di amplificazione totale del genoma basata su un sito di restrizione deterministico (drs-wga)

Country Status (14)

Country Link
US (1) US20230175053A1 (it)
EP (1) EP4004236B1 (it)
JP (1) JP2022543585A (it)
KR (1) KR20220070203A (it)
CN (1) CN114466936A (it)
AU (1) AU2020322242A1 (it)
CA (1) CA3149486A1 (it)
DK (1) DK4004236T3 (it)
ES (1) ES2944080T3 (it)
FI (1) FI4004236T3 (it)
IL (1) IL290176A (it)
IT (1) IT201900013335A1 (it)
PT (1) PT4004236T (it)
WO (1) WO2021019459A1 (it)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114269948A (zh) * 2019-08-30 2022-04-01 香港中文大学 通过低深度基因组测序检测杂合性缺失的方法
IT202100024101A1 (it) 2021-09-20 2023-03-20 Menarini Silicon Biosystems Spa Metodo per analizzare il grado di similarita' di almeno due campioni utilizzando amplificazione deterministica dell'intero genoma mediante siti di restrizione (drs-wga)
WO2024083971A1 (en) 2022-10-19 2024-04-25 Vib Vzw Method of determining loss of heterozygosity status of a tumor

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000017390A1 (en) 1998-09-18 2000-03-30 Micromet Ag Dna amplification of a single cell
US7424368B2 (en) 2002-11-11 2008-09-09 Affymetix, Inc. Methods for identifying DNA copy number changes
WO2017178655A1 (en) 2016-04-15 2017-10-19 Menarini Silicon Biosystems S.P.A. Method and kit for the generation of dna libraries for massively parallel sequencing
WO2019016401A1 (en) 2017-07-21 2019-01-24 Menarini Silicon Biosystems S.P.A. ENHANCED METHOD AND KIT FOR DNA LIBRARY GENERATION FOR MASSIVELY PARALLEL SEQUENCING

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000017390A1 (en) 1998-09-18 2000-03-30 Micromet Ag Dna amplification of a single cell
US7424368B2 (en) 2002-11-11 2008-09-09 Affymetix, Inc. Methods for identifying DNA copy number changes
WO2017178655A1 (en) 2016-04-15 2017-10-19 Menarini Silicon Biosystems S.P.A. Method and kit for the generation of dna libraries for massively parallel sequencing
WO2019016401A1 (en) 2017-07-21 2019-01-24 Menarini Silicon Biosystems S.P.A. ENHANCED METHOD AND KIT FOR DNA LIBRARY GENERATION FOR MASSIVELY PARALLEL SEQUENCING

Non-Patent Citations (20)

* Cited by examiner, † Cited by third party
Title
ALBERTO FERRARINI ET AL: "A streamlined workflow for single-cells genome-wide copy-number profiling by low-pass sequencing of LM-PCR whole-genome amplification products", PLOS ONE, vol. 13, no. 3, 1 March 2018 (2018-03-01), pages e0193689, XP055679838, DOI: 10.1371/journal.pone.0193689 *
ALLARD WJ. ET AL., CLIN CANCER RES., vol. 10, no. 20, 15 October 2004 (2004-10-15), pages 6897 - 904
ARNESON ET AL., ISRN ONCOL. 2012, vol. 2012, 14 March 2012 (2012-03-14), pages 710692
BENJAMINI Y. ET AL., JOURNAL OF THE ROYAL STATISTICAL SOCIETY. SERIES B (METHODOLOGICAL, vol. 57, no. l, 1995, pages 289 - 300
BOEVA, V. ET AL., BIOINFORMATICS, vol. 27, no. 2, 2011, pages 268 - 269
BOEVA, V. ET AL., BIOINFORMATICS, vol. 28, no. 3, 2012, pages 423 - 269
C FORCATO ET AL: "Multi-level genomic profiling of heterogeneous FFPE tumors with low tumor cellularity sorted by DEPArray technology", 50TH EUROPEAN SOCIETY OF HUMAN GENETICS CONFERENCE, ESHG 2017, vol. 26, 1 October 2018 (2018-10-01), pages 593 - 594, XP055680206, DOI: 10.1038/s41431-018-0247-7 *
CZYZ ZT ET AL., PLOS ONE, vol. 9, no. 1, 2014, pages e85907
FERRARINI ET AL., PLOSONE, vol. 13, no. 3, pages e0193689
GAVIN HA ET AL: "Integrative analysis of genome-wide loss of heterozygosity and mono-allelic expression at nucleotide resolution reveals disrupted pathways in triple negative breast cancer", GENOME.CSHPL.ORG, 21 May 2012 (2012-05-21), pages 1 - 38, XP055679792, Retrieved from the Internet <URL:https://genome.cshlp.org/content/early/2012/05/21/gr.137570.112.full.pdf> [retrieved on 20200325] *
GREEN MICHAEL R ET AL: "A new method to detect loss of heterozygosity using cohort heterozygosity comparisons", BMC CANCER, BIOMED CENTRAL, LONDON, GB, vol. 10, no. 1, 12 May 2010 (2010-05-12), pages 195, XP021075034, ISSN: 1471-2407, DOI: 10.1186/1471-2407-10-195 *
HA G. ET AL., GENOME RESEARCH, vol. 24, no. 11, 2014
HARCHAOUI,Z. ET AL., ADV. NEURAL INFORM. PROCESS. SYST., vol. 20, 2008, pages 617 - 624
HODGKINSON C.L. ET AL., NATURE MEDICINE, vol. 20, 2014, pages 897 - 903
MOEHLENDICK B ET AL., PLOS ONE, vol. 8, no. 6, 2013, pages e67031
STOECKLEIN ET AL., AM J PATHOL., vol. 161, no. 1, July 2002 (2002-07-01), pages 43 - 51
VERA BINDER ET AL: "A New Workflow for Whole-Genome Sequencing of Single Human Cells", HUMAN MUTATION, vol. 35, no. 10, 18 August 2014 (2014-08-18), US, pages 1260 - 1270, XP055438721, ISSN: 1059-7794, DOI: 10.1002/humu.22625 *
WATKINS ET AL., BREAST CANCER RESEARCH, vol. 16, 2014, pages 211
YU WANG ET AL: "Identifying Human Genome-Wide CNV, LOH and UPD by Targeted Sequencing of Selected Regions", PLOS ONE, vol. 10, no. 4, 28 April 2015 (2015-04-28), pages e0123081, XP055679648, DOI: 10.1371/journal.pone.0123081 *
ZAHN H. ET AL., NATURE METHODS, vol. 14, 2017, pages 167 - 173

Also Published As

Publication number Publication date
IL290176A (en) 2022-03-01
AU2020322242A1 (en) 2022-03-24
JP2022543585A (ja) 2022-10-13
FI4004236T3 (fi) 2023-05-05
CN114466936A (zh) 2022-05-10
US20230175053A1 (en) 2023-06-08
EP4004236B1 (en) 2023-02-15
DK4004236T3 (da) 2023-04-24
WO2021019459A1 (en) 2021-02-04
EP4004236A1 (en) 2022-06-01
PT4004236T (pt) 2023-05-03
CA3149486A1 (en) 2021-02-04
ES2944080T3 (es) 2023-06-19
KR20220070203A (ko) 2022-05-30

Similar Documents

Publication Publication Date Title
TWI727156B (zh) Dna混合物中之組織甲基化模式分析
Luthra et al. Next-generation sequencing-based multigene mutational screening for acute myeloid leukemia using MiSeq: applicability for diagnostics and disease monitoring
Murphy et al. Using genomics to differentiate multiple primaries from metastatic lung cancer
EP4004236B1 (en) Method for analysing loss-of-heterozygosity (loh) following deterministic restriction-site whole genome amplification (drs-wga)
US20190119759A1 (en) Mutational signatures in cancer
US20200299776A1 (en) Solid tumor methylation markers and uses thereof
Rajaram et al. Two distinct categories of focal deletions in cancer genomes
US20210115518A1 (en) Leukemia methylation markers and uses thereof
US20190130997A1 (en) Method of characterising a dna sample
CN105874081A (zh) 遗传分析方法
JP2022514879A (ja) 無細胞dna末端特性
US20190316194A1 (en) Method and kit for determining the genome integrity and/or the quality of a library of dna sequences obtained by deterministic restriction site whole genome amplification
EP4095258A1 (en) Target-enriched multiplexed parallel analysis for assesment of tumor biomarkers
US20150031556A1 (en) System and method of genomic profiling
US20220228209A1 (en) Dna methylation sequencing analysis methods
CN114743596A (zh) 基于二代测序数据的孟德尔遗传错误分析方法
WO2022159035A1 (en) Heatrich-bs: heat enrichment of cpg-rich regions for bisulfite sequencing
Haider et al. Whole-genome informed circulating tumor DNA analysis by multiplex digital PCR for disease monitoring in B-cell lymphomas: a proof-of-concept study
CN105886497A (zh) 多态性短串联重复基因座等位基因梯、其制备方法、鉴定及应用
Wang et al. Applications of next-generation sequencing in cancer research and molecular diagnosis
IT202100024101A1 (it) Metodo per analizzare il grado di similarita&#39; di almeno due campioni utilizzando amplificazione deterministica dell&#39;intero genoma mediante siti di restrizione (drs-wga)
Ip et al. Molecular Techniques in the Diagnosis and Monitoring of Acute and Chronic Leukaemias
Massink Molecular classification of familial breast cancer