IT202100024101A1 - Metodo per analizzare il grado di similarita' di almeno due campioni utilizzando amplificazione deterministica dell'intero genoma mediante siti di restrizione (drs-wga) - Google Patents

Metodo per analizzare il grado di similarita' di almeno due campioni utilizzando amplificazione deterministica dell'intero genoma mediante siti di restrizione (drs-wga) Download PDF

Info

Publication number
IT202100024101A1
IT202100024101A1 IT102021000024101A IT202100024101A IT202100024101A1 IT 202100024101 A1 IT202100024101 A1 IT 202100024101A1 IT 102021000024101 A IT102021000024101 A IT 102021000024101A IT 202100024101 A IT202100024101 A IT 202100024101A IT 202100024101 A1 IT202100024101 A1 IT 202100024101A1
Authority
IT
Italy
Prior art keywords
samples
sample
cluster
dna
wga
Prior art date
Application number
IT102021000024101A
Other languages
English (en)
Inventor
Nicolo' Manaresi
Claudio Forcato
Alberto Ferrarini
Original Assignee
Menarini Silicon Biosystems Spa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Menarini Silicon Biosystems Spa filed Critical Menarini Silicon Biosystems Spa
Priority to IT102021000024101A priority Critical patent/IT202100024101A1/it
Priority to CN202280063537.5A priority patent/CN117980502A/zh
Priority to TW111135366A priority patent/TW202321461A/zh
Priority to AU2022346271A priority patent/AU2022346271A1/en
Priority to CA3231433A priority patent/CA3231433A1/en
Priority to PCT/IB2022/058833 priority patent/WO2023042173A1/en
Priority to IL311475A priority patent/IL311475A/en
Priority to ARP220102537A priority patent/AR127106A1/es
Publication of IT202100024101A1 publication Critical patent/IT202100024101A1/it

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

DESCRIZIONE
del brevetto per invenzione industriale dal titolo:
?METODO PER ANALIZZARE IL GRADO DI SIMILARITA' DI ALMENO DUE CAMPIONI UTILIZZANDO AMPLIFICAZIONE DETERMINISTICA DELL'INTERO GENOMA MEDIANTE SITI DI RESTRIZIONE (DRS-WGA)?
Campo tecnico dell?invenzione
La presente invenzione si riferisce a un metodo per accoppiare campioni, assegnare l?identit? di ciascuno di una pluralit? di campioni a una classe o un individuo, analizzando i dati ottenuti dal sequenziamento dell?intero genoma a bassa profondit? eseguito su detta pluralit? di campioni, raggiungendo una risoluzione di una cellula singola, con o senza l?uso di riferimenti.
Oltre all?accoppiamento di campioni, il metodo fornisce un saggio unificato che consente l?identificazione e la caratterizzazione simultanee di un campione soggetto a test tra i campioni.
Il metodo secondo l?invenzione pu? essere usato in svariati campi di applicazione, come nell?identificazione forense umana a singola cellula, l?identificazione del campione durante l?analisi delle cellule di tumore circolanti, l?identificazione di cellule fetali in fluidi corporei materni per la diagnosi prenatale non invasiva, lo screening genetico preimpianto (PGS), il microchimerismo, l?autenticazione della linea cellulare.
Tecnica anteriore
Stato della tecnica dell?identificazione del campione e accoppiamento del campione
Il metodo pi? diffuso per l?identificazione del campione si basa sull?analisi di loci Short Tandem Repeat (STR) altamente polimorfici (chiamati anche microsatelliti). Questo metodo comprende eseguire una PCR mirata per una pluralit? di loci e rilevare gli ampliconi con elettroforesi capillare. Nell?identificazione umana, poich? per ogni locus ogni allele (di origine materna e paterna) pu? avere molti valori diversi, ? generata una grande diversit? con un numero relativamente basso di loci genetici amplificati, come quella che le dimensioni degli alleli di un individuo misurate su 10 o 20 loci possono identificare inequivocabilmente e con alta probabilit? un individuo in una grande coorte. Applicare questo metodo per cellule singole pu? essere impegnativo, specialmente se la qualit? di DNA ? degradata (per esempio a causa della fissazione o di condizioni ambientali per la conservazione, o altri processi biologici), poich? il drop-out allelico pu? compromettere il recupero di informazioni sufficienti ad assegnare l?identit? del campione. Questo ? vero indipendentemente dal fatto che la PCR multiplex sia eseguita direttamente su un campione monocellulare (consumando cos? quel campione) o su un?aliquota del prodotto di amplificazione del genoma intero da una singola cellula, consentendo cos? analisi ripetute su diverse aliquote dello stesso prodotto WGA.
Il drop-out allelico pu? diminuire in modo significativo gli alleli rilevati nell?elettroferogramma di un saggio STR fino all?80%, 70%, 60%, 50%, 40%, 30%, 20%, 10% o minore. Inoltre, pu? verificarsi il drop-in allelico, che da come risultato picchi addizionali che confondono l?interpretazione, specialmente per campioni fortemente degradati e stampi a basso input come con le cellule singole. L?informazione risultante ? allora insufficiente ad assegnare l?identit? del campione con certezza.
I requisiti per il numero minimo di alleli dai loci STR dipendono da svariati fattori, ma ? generalmente vero, e noto agli esperti nella tecnica, che quando viene accoppiato un profilo a una popolazione ampia sono richiesti molti pi? loci informativi, mentre accoppiare un campione a una coorte pi? piccola di potenziali contributori rappresenta un problema pi? semplice che pu? essere risolto con un numero minore di alleli rilevati.
Per esempio, negli interventi forensi, come un?aggressione sessuale, possono essere presenti il DNA e le cellule di uno o pi? aggressori e della vittima, con un numero di contributori che pu? essere 1 vittima e 1, 2, 3, 4, 5 o pi? aggressori. Nel caso di molteplici aggressori maschi, il problema pu? essere esacerbato dal fatto che le cellule bersaglio per l?analisi sono cellule di sperma che, essendo aploidi, hanno solo un singolo allele per locus. Quando vengono analizzate cellule singole da un intervento, pu? pertanto diventare impossibile usare le informazioni di una singola cellula per dedurre in modo affidabile il numero di contributori e assemblare un profilo completo ricostruito da quel contributore con dati di cellule singole limitati.
Come esempio, cellule singole di sperma possono essere isolate usando il DEPArray ( ?Isolation and genetic analysis of pure cells from forensic biological mixtures: The precision of a digital approach?, Forensic Sciences International: Genetics 2007, http://dx.doi.org/10.1016/j.fsigen.2017.04.023), che consente di raccogliere fino a 48 spermi singoli da una singola corsa DEPArray, usando l?applicazione forense convalidata, o fino a 96 cellule singole usando programmi di applicazione diversi disponibili dal sistema DEPArray.
L?identificazione forense di cellule singole di profili di contributori diversi da un?evidenza mista di sangue in sangue, usando il sistema DEPArray per isolare le cellule individuali, ? stata dimostrata in
?Whose blood is it? Application of DEPArray? technology for the identification of individual/s who contributed blood to a mixed stain? Int J Legal Med. Mar 2019;133(2):419-426. doi: 10.1007/s00414-018-1912-7. Epub 18 Ago 2018.
In generale, il problema di ricostruire un profilo completo e/o determinare le informazioni genetiche mediante una ricostruzione in silico di un profilo completo da una pluralit? di profili incompleti di cellule singole ? pi? difficile da risolvere
(i) minore ? il numero di cellule singole analizzate, (ii) minore ? il numero di alleli rilevati per cellula, (iii) maggiore ? il numero di contributori,
(iv) minore ? il livello di rappresentazione del contributore minore tra le cellule analizzate.
Oltre al metodo forense a singola cellula ottenuto mediante isolamento diretto delle cellule individuali, altri metodi come il sottocampionamento (
?Recovery of single source DNA profiles from mixtures by direct single cell subsampling and simplified micromanipulation?, Science & Justice Volume 61, Numero 1, gennaio 2021, pagine 13-25) prevedono l?analisi di una molteplicit? di campioni, composti da collezioni di piccoli pool di cellule, ad esempio di 2 o 3 cellule per pool. Anche in questo caso pu? essere vantaggioso avere un sistema per identificare se il pool ? composto da cellule dallo stesso contributore o da contributori multipli, e possibilmente identificare il numero complessivo di contributori tra tutti i pool, nonch? consentire ulteriori analisi genetiche su pool omogenei, ad esempio a scopi investigativi addizionali come determinare gli antenati o i tratti fisici collegati alle caratteristiche genomiche.
Come ulteriore esempio, l?autenticazione delle linee cellulari ? comunemente eseguita usando l?analisi STR. La maggior parte dei kit STR richiedono sequenziatori per elettroforesi capillare per l?analisi della lunghezza dei frammenti dei prodotti di amplificazione fluorescenti. Con la diffusione di sequenziatori paralleli massivi, l?accessibilit? dell?elettroforesi capillare ? diminuita, e molti laboratori si trovano in perdita ad analizzare profili STR in sede con l?elettroforesi capillare.
Pannelli per PCR mirati per l?analisi di STR usando sequenziatori paralleli massivi sono ora disponibili. Tuttavia, questo implica l?acquisizione di reagenti addizionali spesso non ancora presenti in laboratorio.
Come ulteriore esempio, vi ? la necessit? dell?identificazione e/o l?accoppiamento di campioni nei protocolli di diagnosi prenatale non invasiva basati sull?isolamento delle cellule fetali provenienti da fluidi corporei materni. Questi possono essere per esempio cellule fetali (come eritrociti nucleati fetali o trofoblasti) isolati dal sangue materno. Dato che le cellule sono cos? rare, esiste un rischio significativo che le singole cellule isolate dal processo di arricchimento possano essere cellule materne invece che cellule fetali a causa di svariati motivi, come la specificit? limitata nella colorazione per immunofluorescenza o la selezione morfologica ambigua, imperfezioni tecniche ed errori nell?apparecchiatura di classificazione usata nel loro isolamento. Qualsiasi siano il processo e i criteri usati per isolare queste cellule, data l?importanza di assicurare che la diagnosi sia eseguita su una cellula fetale effettiva, ? essenziale verificare se solo materiale genetico fetale ? l?input dell?analisi genetica, e rilevare una possibile contaminazione materna (cellule mescolate), o lo scambio completo del campione (la cellula singola ? materna), o anche una contaminazione, ad esempio dall?operatore. Mentre un campione misto (ad esempio 1 cellula fetale 1 cellula materna, vale a dire il 50% di contaminazione) pu? essere ancora accettabile per alcune analisi di aneuploidia cromosomica, la minore purezza pu? compromettere il rilevamento di aberrazioni pi? piccole come microdelezioni, a seconda del saggio usato.
Pertanto, ? prassi corrente nello stato della tecnica eseguire l?analisi STR come test confirmatorio aggiuntivo dell?origine fetale della cellula recuperata durante la NIPD a base cellulare (
?Validation Studies for Single Circulating Trophoblast Genetic Testing as a Form of Noninvasive Prenatal Diagnosis? American Journal of Human Genetics (2019) 105(6) 1262-1273; L.D. Jeppesen et al., ?Cell-based non-invasive prenatal diagnosis in a pregnancy at risk of cystic fibrosis? Prenatal Diagnosis. 2020;1?7.; Manaresi et al., EP2152859B1).
In un recente articolo (
Van den Veyver I, et al. (2021) ?Use of amplicon-based sequencing for testing fetal identity and monogenic traits with Single Circulating Trophoblast (SCT) as one form of cell-based NIPT? PLoS ONE 16(4): e0249695. https://doi.org/10.1371/journal.pone.0249695) ? riconosciuto che ?Il sequenziamento shotgun dell?intero genoma (WGS) a bassa copertura (5?10 milioni di letture per cellula) fornisce buoni dati del numero di copie, ma non distingue velocemente le cellule fetali e materne se il feto ? femmina?. In questo lavoro, la genotipizzazione con un pannello di 90 SNP altamente polimorfici usando l?amplificazione del bersaglio basata su PCR (di 40 ampliconi) e il sequenziamento parallelo massivo ? proposta come alternativa all?analisi STR per confermare l?origine fetale della cellula recuperata per la diagnosi. Questo approccio usa una piccola aliquota di DNA dal prodotto WGA monocellulare, tuttavia ha ancora l?inconveniente di richiedere il controllo completo di campioni addizionali e dei costi associati, rispetto al flusso di lavoro per valutare l?aneuploidia basato su WGS a bassa profondit?.
La valutazione non invasiva di gravidanze molari e malattia trofoblastica gestazionale ? stata dimostrata sui trofoblasti circolanti ( ?Hydatidiform mole diagnostics using circulating gestational trophoblasts isolated from maternal blood? Mol Genet Genomic Med.
2020;00:e1565. https://doi.org/10.1002/mgg3.1565), ma l?analisi STR ? ancora una volta considerata essenziale a determinare l?origine dei rari trofoblasti isolati dal sangue materno. Le mole idatiformi (HM) possono essere ?mole complete? che sono tipicamente diploidi con entrambe le serie genomiche che hanno origine dal padre (tipo parentale: PP), a causa di una fertilizzazione di un ovulo che ha perso il nucleo materno seguita, nella maggior parte dei casi, da una duplicazione dei cromosomi dello sperma o, in una minoranza di casi, dalla fertilizzazione da parte di due spermi. La maggior parte delle HM con il tipo parentale PP mostrano omozigosi in tutti i loci (P1P1), mentre circa il 15% mostra eterozigosit? in alcuni loci (P1P2). Le mole parziali sono HM tipicamente triploidi con due serie di genomi dal padre e uno dalla madre (tipo parentale: PPM). Le mole complete portano un maggior rischio di coriocarcinoma (15% rispetto allo 0,5% nelle mole parziali). Cos?, ? interessante comprendere se gli HM portano una copia del genoma materno o se ? assente.
Come ulteriore esempio della necessit? di metodi di accoppiamento dei campioni, vi ? l?identificazione per il tracciamento del campione nel flusso di lavoro del laboratorio. Quando sono sequenziati campioni multipli per il sequenziamento dell?intero genoma a bassa profondit? per la profilazione del numero di copie in tutto il genoma, pu? essere vantaggioso verificare che non ci sia mescolamento dei campioni e che l?assegnazione del codice campione del paziente nel Sistema di gestione delle informazioni di laboratorio (LIMS) sia coerente con l?assegnazione del paziente ottenuta dai dati di sequenziamento.
Un altro esempio di necessit? per i metodi di accoppiamento dei campioni ? la valutazione dell?origine delle cellule endoteliali (ospite o donatore) in pazienti con trapianto allogenico di cellule ematopoietiche (allo-HSCT). La rilevazione di cellule endoteliali derivate da donatore ? interessante nello studio delle relazioni fisiopatologiche tra endotelio e malattia del trapianto contro l?ospite (GVHD) per il ruolo potenziale dell?endotelio vascolare come bersaglio nella fase precoce della GVHD e il potenziale ruolo tollerogenico delle cellule endoteliali derivate da donatore, nonch? nel trapianto contro tumore (rassegna in Penack O. et al., ?The importance of neovascularization and its inhibition for allogeneic hematopoietic stem cell transplantation? Blood, Volume 117, Numero 16, 21 aprile 2011, pagine 4181-4189). Campioni di sesso non corrispondente sono spesso usati per consentire tale analisi, ma sarebbe desiderabile avere un metodo per analizzare campioni in cui ospite e donatore hanno lo stesso sesso. L?analisi STR che segue l?isolamento delle singole cellule mediante DEPArray ? stata riportata per l?analisi delle cellule endoteliali circolanti arricchite da sangue periferico. Tuttavia l?analisi STR di singole cellule su campioni di archivio come FFPE ? difficilmente ottenibile a causa della degradazione del DNA che ostacola l?analisi STR delle singole cellule.
Tra i documenti della tecnica anteriore pi? recenti ? possibile citare i seguenti: Sejoon Lee et al., ?NGSCheckMate: software for validating sample identity in next-generation sequencing studies within and across data types?, Nucleic Acids Research, 2017, Vol. 45, N? 11, che insegna un metodo per garantire che le serie di dati NGS dello stesso soggetto siano adeguatamente accoppiate. Il metodo NGSCheckMate verifica le identit? dei campioni dai file FASTQ, BAM o VCF usando un metodo basato sul modello per confrontare le frazioni di lettura dell?allele a circa 12k o 21k loci di polimorfismi a singolo nucleotide (SNP), tenendo in considerazione il comportamento dipendente dalla profondit? di metriche di similarit? per campioni identici e non correlati. NGSCheckMate ? efficace per una variet? di tipi di dati, inclusi il sequenziamento dell?exoma, il sequenziamento dell?intero genoma, RNAseq, ChIP-seq, il sequenziamento mirato e il sequenziamento dell?intero genoma di cellule singole, ma insegna un requisito per la profondit? di sequenziamento di >0,5X. Il requisito ? anche maggiore (>3x) in caso di campioni di parentela o relazione famigliare. Infatti, quando Sejoon Lee et al. hanno testato il loro metodo su un insieme di dati costituito da 89 profili WGS di singole cellule di cancro da due pazienti con glioblastoma non correlati (39 e 50 cellule da ciascun paziente), sequenziate a una profondit? (0,01?0,3X) per caratterizzare CNV a livello di singola cellula, hanno ottenuto solo l?87,8% di accuratezza nel raggruppare le cellule, con tutti gli errori di errata classificazione dovuti a poche cellule con una profondit? di sequenziamento particolarmente ridotta (<0,15X).
Amplificazione totale del genoma da cellule singole e sequenziamento dell?intero genoma a bassa profondit? L?Amplificazione Totale del Genoma (Whole Genome Amplification, WGA) di DNA genomico di singola cellula ? spesso richiesta per ottenere pi? DNA al fine di semplificare e/o permettere differenti tipi di analisi genetiche, inclusi sequenziamento, rilevamento di SNP, eccetera. La WGA con una LM-PCR basata su un Sito di Restrizione Deterministico (di seguito DRS-WGA) ? nota da WO2000/017390.
La DRS-WGA ha dimostrato di essere il metodo di WGA migliore della categoria sotto molti punti di vista, in particolare in termini di minore drop-out allelico da singole cellule (Borgstrom et al., 2017; Normand et al., 2016; Babayan et al., 2016; Binder et al., 2014).
Un kit commerciale di DRS-WGA, basato su LM-PCR (kit Ampli1? WGA, Silicon Biosystems) ? stato usato in Hodgkinson C.L. et al., Nature Medicine 20, 897?903 (2014). In questo lavoro ? stata eseguita un?analisi del numero di copie mediante sequenziamento dell?intero genoma a bassa profondit? su materiale WGA di singola cellula, effettuando la digestione degli adattatori di WGA e la frammentazione prima della ligazione degli adattatori con barcode di Illumina per il sequenziamento.
WO2017/178655 e WO2019/016401A1 insegnano un metodo semplificato per preparare librerie di sequenziamento parallelo massivo da DRS-WGA (per esempio WGA Ampli1) per il sequenziamento dell?intero genoma a bassa profondit? e per la determinazione del profilo del numero di copie. In Ferrarini et al., PLoSONE 13(3):e0193689 https://doi.org/10.1371/journal.pone.0193689, le prestazioni del metodo di WO2017/178655 che usa la piattaforma Ion Torrent sono state descritte in dettaglio con riferimento alla determinazione del profilo del numero di copie.
La DRS-WGA ha mostrato di essere migliore rispetto alla DOP-PCR per l?analisi dei profili del numero di copie da quantit? minime di materiale FFPE microdissezionato ( Am J Pathol. 2002 luglio; 161(1): 43-51; Arneson et al., ISRN Oncol. 2012; 2012: 710692. doi: 10.5402/2012/710692. Epub 2012 14 Mar), quando si usa la CGH basata su array, la CGH su metafasi, cos? come per altri saggi di analisi genetica come la Perdita di eterozigosit? con l?uso di primer mirati e della PCR per l?analisi di microsatelliti selezionati, tuttavia, ? stato mostrato che a seconda della qualit? del DNA di FFPE, il LP-WGS di singole cellule FFPE ? possibile ma pu? diventare non pratico per i minori punteggi di qualit? del DNA (
?Precise detection of genomic imbalances at single-cell resolution reveals intra-patient heterogeneity in Hodgkin?s lymphoma?. Blood Cancer J. 9, 92 (2019). https://doi.org/10.1038/s41408-019-0256-y).
Riassumendo, esiste la necessit? di fornire un metodo che consenta di desumere l?identit? del campione e/o analizzare il grado di similarit? fino a una risoluzione di cellula singola, con dati di sequenziamento a bassa copertura (< 0,15x), superando una o pi? delle seguenti limitazioni intrinseche nello stato della tecnica:
- necessit? di un saggio di analisi di microsatelliti separato;
- necessit? di un saggio di genotipizzazione di SNP separato;
- copertura del sequenziamento dell?intero genoma > 0,5x;
- impossibilit? di rianalizzare in modo affidabile una singola cellula per verifica o per informazioni genomiche mirate aggiuntive.
Per l?identificazione forense di singole cellule sarebbe desiderabile avere un metodo efficiente, per assegnare l?identit? di ciascuno di una pluralit? di campioni di singole cellule anche se di scarsa qualit?, e ricercare ulteriormente le caratteristiche genetiche dell?individuo al quale appartengono detti campioni.
Per la profilazione del numero di copie dell?intero genoma di campioni di tumore, inclusa l?analisi delle singole cellule, come l?analisi di singole CTC o di singole cellule FFPE, pu? essere desiderabile fornire un algoritmo di tracciamento dei campioni intrinseco per evitare lo scambio di campioni di sequenziamento dell?intero genoma a bassa profondit? e/o rilevare mescolamenti di campioni diversi.
Per la diagnosi prenatale non invasiva su cellule fetali circolanti raccolte da sangue materno, sarebbe desiderabile avere un metodo di analisi efficiente che combini in un singolo saggio (i) la profilazione del numero di copie dell?intero genoma con (ii) la capacit? di confermare l?origine fetale del campione.
Per lo screening genetico pre-impianto (PGS) ad esempio sui blastocisti, mezzo di coltura embrionale esausto, sarebbe desiderabile avere un metodo che usa un singolo saggio per rilevare e/o quantificare la contaminazione delle cellule materne per evitare risultati falsi negativi dall?analisi, combinando la capacit? di (i) profilare il numero di copie dell?intero genoma per confermare l?assenza di aneuploidia nel campione e (ii) quantificare e/o determinare l?assenza di contaminazione materna dagli stessi dati di sequenziamento a bassa profondit?.
Per l?autenticazione della linea cellulare, sarebbe desiderabile avere un metodo che usa un saggio singolo per la simultanea
(i) identificazione di una linea cellulare usando sequenziatori paralleli massivi ampiamente disponibili, senza la necessit? di eseguire l?analisi STR su strumenti per elettroforesi capillare meno disponibili, e
(ii) determinazione del profilo del numero di copie dell?intero genoma della linea cellulare per rilevare possibilmente derive collegate all?instabilit? genomica.
Per i campioni FFPE di archivio dove ? desiderata la caratterizzazione delle singole cellule dell?individuo di origine, come nell?analisi che riguarda le cellule endoteliali nel trapianto allogenico di cellule staminali ematopoietiche, sarebbe desiderabile avere una tecnica che pu? fornire risultati affidabili da singole cellule isolate da FFPE (classificate o microdissecate).
Sommario dell'invenzione
? pertanto uno scopo della presente invenzione fornire un metodo che superi gli svantaggi dei metodi della tecnica anteriore.
In particolare, ? uno scopo della presente invenzione fornire un metodo per analizzare il grado di similarit? di almeno due campioni in una pluralit? di campioni comprendenti DNA genomico, compatibile con poche cellule, fino alla singola cellula, nonch? confrontabile per quantit? di DNA o minore di un equivalente genomico.
Questo scopo ? raggiunto con il metodo come definito nella rivendicazione 1.
Breve descrizione dei disegni
La Figura 1 mostra la maggiore risoluzione tra campioni ?self? e non correlati usando il metodo dell?invenzione che comprende DRS-WGA seguita da una reazione di PCR priva di frammentazione tra primer di fusione WGA/adattatore di sequenziamento, rispetto alla preparazione di una libreria di frammentazione casuale nota nella tecnica.
La Figura 2 mostra l?effetto di aumentare il numero di loci a 300k loci polimorfici basati sulla pi? alta eterozigosi, secondo l?invenzione, verso la selezione NGScheckMate di 21k SNP: il potere di discriminazione aumenta.
Le Figure 3A e 3B mostrano la distribuzione di punteggi di similarit? di campioni appaiati, appartenenti allo stesso individuo (?self?) o a individui differenti (non correlati) (usando linee cellulari), calcolati con metodi diversi secondo l?invenzione. Nella Figura 3A la correlazione ? usata come metodo di distanza (metodo standard di NGScheckMate). Nella Figura 3B la concordanza ? usata per valutare la similarit? dei campioni. Nel dettaglio: - se gli alleli chiamati sono uguali aggiungere 1 al punteggio; - se gli alleli chiamati si sovrappongono parzialmente (per esempio se un campione ha 2 alleli e l?altro solo 1) aggiungere 0,5; - se gli alleli chiamati sono diversi aggiungere 0 al punteggio. Il punteggio ? poi diviso per il numero di alleli coperti in entrambi i campioni confrontati.
Le Figure da 4A a 4C e da 4D a 4F mostrano la relazione tra i parametri come l?eterozigosit? media minima, il numero di letture e la separazione risultante tra campioni ?self? e non correlati.
Le Figure da 5A a 5D mostrano le prestazioni di classificazione dei campioni famigliari rispetto ai campioni ?self? di genitori di sesso femminile e ai campioni non correlati per un numero di letture uguale a 500.000 per campione.
La Figura 6 mostra la distribuzione di punteggi di similarit? a coppie calcolati come concordanza rispetto a campioni di genitore di sesso femminile, per campioni ?self? (genitore femminile), di parenti e non correlati come funzione dell?eterozigosit? media minima (intervallo = 0,2-0,498).
La Figura 7 mostra uno schizzo del metodo per rilevare gravidanze gemellari. Tutte le predizioni a coppie delle cellule fetali descritte da un relazione ?di parentela? con il controllo materno sono usate come input per un algoritmo di clustering grafico per trovare le ?comunit?? di cellule fetali.
La Figura 8 mostra la distribuzione dei punteggi di similarit? a coppie medi, calcolati rispetto a campioni di genitore di sesso femminile, in recuperi cellulari di eritroblasti isolati dal sangue periferico di due campioni materni separati.
Le Figure da 9A a 9C mostrano la classificazione basata sul clustering dei recuperi cellulari dal campione BO1368. Il punteggio silhouette delle 2 cellule miste ? molto minore di quello delle cellule fetali e pu? essere usato per discriminarle da quelle fetali e creare un nuovo cluster con campioni misti.
Le Figure da 10A a 10C mostrano la classificazione basata sul clustering dei recuperi cellulari dal campione BO1383.
Le Figure 11A e 11B mostrano le prestazioni di classificazione di campioni individuali rispetto a campioni non correlati con al massimo una componente del 50% di campioni ?self?. La Figura 11A ? un grafico ?stile ROC? con TPR e 1-PPV per classe di parentela come funzione del valore di soglia ?dell?accordo?. La Figura 11B mostra TPR e PPV a diversi AvHet. La soglia (in grigio) ? stata impostata in modo da avere almeno un ppv del 99,9%. La soglia ? visualizzata in grigio sull?asse Y secondario.
La Figura 12 mostra la distribuzione di punteggi di similarit? a coppie (concordanza) calcolati per campioni accoppiati con vari gradi di contaminazione da un individuo diverso.
Le Figure da 13A a 13C mostrano la classificazione di recuperi di singole cellule da campioni di FFPE in base all?identit? degli individui. Campioni di FFPE (linfoma) da 4 pazienti. Sottocampione 500.000 letture. Accordo basato sulla concordanza. I confronti sono stati contrassegnati come highDLRS (asse X) se uno o pi? elementi avevano un DLRS > 0,4 e lowDLRS se entrambi i membri avevano un DLRS ? 0,4. La Figura 13C mostra che il clustering assegna correttamente tutti i campioni di FFPE a 4 cluster diversi corrispondenti a 4 individui.
La Figura 14 mostra una simulazione in silico di mezzi di coltura acellulari esausti con vari gradi di contaminazione di DNA materno da 0 (100% fetale) al 90% (10% fetale) e del punteggio di similarit? correlato. In particolare, la figura mostra l?emulazione eseguita miscelando in silico proporzioni diverse di sequenze di DNA da singole cellule fetali con sequenze di cellule materne. La linea continua corrisponde al punteggio di similarit? a coppie media a diverse percentuali di input fetale. L?area ombreggiata corrisponde all?intervallo di confidenza del 95%. La linea tratteggiata mostra un esempio di un campione misto con una % nota di componente materno (80%) e un punteggio di similarit? a coppie con il riferimento materno = 0,807, che secondo il modello hanno una componente fetale media prevista = 27,7% (IC = 25,4%-30,7%) corrispondente a una contaminazione stimata da DNA materno ? 75%.
Le Figure 15A e 15B mostrano l?effetto della compensazione per la contaminazione nell?analisi del numero di copie dell?intero genoma di un campione misto. In particolare, la figura rappresenta l?analisi del numero di copie dell?intero genoma di un campione misto ottenuto mediante miscelazione in silico di proporzioni diverse di sequenze di DNA da cellule singole fetali (20%) con sequenze di cellule materne (80%). La Figura 15A mostra il profilo del numero di copie dell?intero genoma; ogni punto corrisponde a un bin del genoma di 10 Mbp. La Figura 15B mostra il numero di copie dell?intero genoma dopo aver applicato un fattore di correzione = 0,75, basato sulla contaminazione percentuale stimata da DNA materno basato sul punteggio di similarit? a coppie con il riferimento materno. Le alterazioni statisticamente significative sono mostrate come linee continue nere.
Definizioni
A meno che definito altrimenti, tutti i termini tecnici e scientifici usati nella presente hanno lo stesso significato compreso comunemente da un esperto nella tecnica alla quale appartiene questa invenzione. Sebbene molti metodi e materiali simili o equivalenti a quelli descritti nella presente possano essere usati nella messa in pratica o nel test della presente invenzione, sono descritti di seguito metodi e materiali preferiti. Se non menzionato altrimenti, le tecniche descritte nella presente per uso con l?invenzione sono metodologie standard ben note alle persone mediamente esperte nella tecnica.
Mediante l?espressione ?sequenziamento di nuova generazione massivo parallelo (NGS o MPS)? si intende un metodo per sequenziare il DNA comprendente la creazione di una libreria di molecole di DNA separate spazialmente e/o nel tempo, sequenziate clonalmente (con o senza precedente amplificazione clonale). Esempi includono la piattaforma Illumina (Illumina Inc), la piattaforma Ion Torrent (Thermo Fisher Scientific Inc), la piattaforma Pacific Biosciences, la MinIon (Oxford Nanopore Technologies Ltd).
Mediante l?espressione ?sequenziamento dell?intero genoma a bassa profondit?? qui ? inteso un sequenziamento dell?intero genoma a una profondit? di sequenziamento media minore di 1x con riferimento all?intero Genoma di riferimento, di una libreria di sequenziamento parallelo massivo che non ? stata arricchita per frammenti specifici per la sequenza. Questa definizione esclude esplicitamente il caso di un arricchimento del bersaglio basato su PCR o un arricchimento del bersaglio esca di cattura specifico per sequenza per un insieme di loci, come per esempio i Polimorfismi a singolo nucleotide (SNP)e/o i loci Short-Tandem Repeats (STR).
Mediante l?espressione ?profondit? di sequenziamento media? si intende qui, su una base per campione, il numero totale di basi sequenziate, mappate sul genoma di riferimento, diviso per la grandezza totale del genoma di riferimento. Il numero totale di basi sequenziate e mappate pu? essere approssimato al numero di letture mappate per la lunghezza delle letture media.
Mediante l?espressione ?genoma di riferimento? si intende una sequenza di DNA di riferimento per la specie specifica.
Mediante il termine ?locus? (plurale ?loci?) si intende una posizione fissa su un cromosoma (rispetto al genoma di riferimento).
Mediante l?espressione ?locus polimorfico? si intende un locus avente 2 o pi? alleli con una frequenza osservata maggiore dell?1% in una popolazione.
Mediante l?espressione ?locus eterozigote? si intende un locus avente 2 o pi? alleli osservati in un campione specifico.
Mediante l?espressione ?eterozigosit? media? per un locus si intende il valore 1 meno la somma del quadrato delle frequenze alleliche. In particolare, il prodotto 2pq dove p e q=(1-p) sono le frequenze alleliche per il locus nel caso di loci con due alleli nella popolazione, o la somma dei prodotti 2pq+2pr+2qr, dove p, q e r (con p+q+r=1) sono le tre frequenze alleliche per un locus con tre possibili alleli.
Mediante l?espressione ?genoma coperto? si intende la porzione del genoma di riferimento coperta da almeno una lettura.
Mediante il termine ?lettura? si intende il pezzo di DNA che ? sequenziato (?letto?) dal sequenziatore.
Mediante l?espressione ?rapporto di riduzione? si intende il numero totale di basi di frammenti, ottenuti mediante digestione in silico di un genoma di riferimento secondo un enzima di restrizione impiegato in una DRS-WGA, compreso in uno specifico intervallo di coppie di basi, diviso per il numero totale di basi nel genoma di riferimento.
Mediante l?espressione ?contenuto allelico? si intende la composizione in termini di alleli rilevata a livello di un locus.
Mediante l?espressione preparazione della libreria per sequenziamento parallelo massivo da ?reazione di PCR priva di frammentazione con primer di fusione WGA/adattatore di sequenziamento? si intende una preparazione della libreria di sequenziamento parallelo massivo su prodotti da DRS-WGA, senza fasi di frammentazione del DNA, per cui gli adattatori di sequenziamento sono addizionati al prodotto della WGA mediante primer di fusione, ad esempio secondo le domande di brevetto (WO2017/178655) o (WO2019/016401A1).
Mediante l?espressione ?punteggio di similarit? a coppie? si intende una funzione di una pluralit? di dati in ingresso accoppiati con un codominio finito. Il codominio ? preferibilmente normalizzato a un valore standard, come [-1;1] o [0;1], indipendente dal numero di dati in ingresso accoppiati.
Mediante l?espressione ?clustering di campioni? si intende un algoritmo per ripartire i campioni in modo che i campioni che appartengono alla stessa ripartizione (detti anche ?cluster?) condividano una propriet? comune selezionata dal gruppo costituito dall?identit? di un individuo (o pi? individui) che contribuisce sostanzialmente con il DNA a campioni di quella ripartizione, la propriet? di contenere quantit? insufficienti di DNA e la propriet? di contenere DNA altamente degradato o DNA di origine incerta.
Svariate metriche di valutazione delle prestazioni degli algoritmi di clustering, quando la verit? non ? nota, sono note nella tecnica come ?Punteggio silhouette?, ?Indice di Calinski-Harabasz?, ?Indice di Davies-Bouldin?, che possono essere usate per determinare il numero ?ottimale? di cluster per la ripartizione di una pluralit? di campioni in cluster omogenei e ben definiti.
Mediante l?espressione ?cluster di identit?? si intende un gruppo composto da campioni contenenti con alta probabilit? DNA da uno solo e lo stesso individuo. Il significato di alta probabilit? (di seguito nella presente Prob[Single-ID]) dipende dall?applicazione come l?esperto nella tecnica comprende e definisce in relazione alle specifiche dell?applicazione e ai suoi requisiti prestazionali. Per esempio, nel caso dell?analisi di cellule fetali, si assume che una diagnosi ? rilasciata quando solo almeno tre cellule fetali ?putative? singole (vale a dire appartenenti al cluster di identit? delle cellule che sono in relazione di parentela con il riferimento materno) sono analizzate individualmente e riportate. La diagnosi, ad esempio per aneuploidia usando il profilo del numero di copie derivato da WGS a bassa profondit?, pu? essere compromessa se nessuna delle cellule deriva da un feto colpito e le cellule analizzate sono tutte cellule materne confuse con fetali. Inoltre, assume come accettabile una sensibilit? minima (Sens_min) per la rilevazione di un feto aneuploide. La probabilit? risultante di chiamare normale un feto aneuploide causata dalla chiamata errata di ciascuna delle identit? delle singole cellule richiede che tutte le cellule sulle quali ? basata la diagnosi siano chiamate fetali invece che materne. In generale ? ragionevole assumere che questi eventi (confronto a coppie con riferimento materno) sono indipendenti tra le cellule fetali putative, cos? Prob[False_ID of Ncells analyzed]=Prob[False_ID]<Ncells>, dove Ncells ? il numero di cellule analizzate individualmente, dove Prob[False_ID]=1-Prob[Single_ID] ? la probabilit? di errore nel chiamare un campione come appartenente al cluster di identit? dello stesso individuo (pi? specificamente i cluster di campioni in relazione di parentela con il riferimento materno, come detto sopra). ? desiderato che (1-Prob[Single_ID])<Ncells >?(1-Sens_min), vale a dire Prob[Single_ID] ? 1-(1-Sens_min)<1/Ncells>
Per esempio, con Sens_min=99,9%, Ncells=5 ? richiesta Prob[Single_ID] ? 75%
mentre considerando Ncells=3 ? richiesta
Prob[Single_ID] ? 90%
In entrambi i casi escludendo per semplicit? altre fonti di errore come la probabilit? che una cellula veramente fetale sia analizzata effettivamente ma non riesca a rilevare l?aneuploidia.
Nel caso di indagini forensi e del controllo di campioni non probanti, il significato di alta probabilit? pu? essere diverso. Per esempio, il metodo secondo l?invenzione pu? essere usato per ricostruire un profilo STR da un numero Ncells di cellule singole. A seconda della stringenza di ricerca del database dei DNA permessa, del numero di cellule singole analizzate, del tasso di chiamata STR medio per ciascun campione individuale dall?intervento, pu? sorgere un requisito diverso sul valore esatto dell?alta probabilit? (Prob[Single_ID]) per soddisfare gli obiettivi.
Questo requisito ? pi? difficile da modellare analiticamente e pu? essere derivato per esempio dalle simulazioni di Montecarlo usando database disponibili e simulando in silico vari gradi di drop-out allelici, il numero di singole cellule effettivamente analizzate e le scelte algoritmiche nella ricostruzione del profilo.
Mediante l?espressione ?campione WGA-DNA di individuo singolo? si intende un campione comprendente una miscela di prodotti di DRS-WGA ottenuti da campioni contenenti DNA da un singolo individuo.
Mediante l?espressione ?test genetico pre-impianto? si intende eseguire saggi genetici per valutare gli embrioni prima del trasferimento all?utero.
Mediante l?espressione ?screening genetico preimpianto? si intende il test genetico preimpianto mediante analisi dell?intero genoma delle alterazioni del numero di copie per determinare la presenza di aneuploidia (troppi o troppo pochi cromosomi) in un embrione in fase di sviluppo.
Mediante l?espressione ?diagnosi genetica pre-impianto? si intende un test genetico pre-impianto mediante sequenziamento mirato per analizzare la presenza di varianti di sequenza in un embrione in fase di sviluppo, come per esempio mutazioni legate a disturbi di un singolo gene (ad esempio, malattia di Huntington, fibrosi cistica, sindrome dell?X fragile), incluse quelle che sono dominanti autosomiche e recessive o legate all?X, o sindromi cancerose ereditarie (ad esempio cancro della mammella e dell?ovaio ereditati, sindrome di Lynch). In aggiunta, questo termine ? inteso per il sequenziamento per identificare leucociti umani compatibili con antigene, embrioni non colpiti sviluppati con l?obiettivo di consentire a membri della famiglia malati di ricevere trapianti di midollo osseo compatibile o trasfusioni di sangue del cordone.
Mediante l?espressione ?campione embrionale? si intende un campione contenente DNA da un embrione, come per esempio un blastocisto, un mezzo di coltura embrionale esausto, un corpo polare.
Mediante l?espressione ?dati WGA-DNA di un singolo individuo? si intendono i dati ottenuti unendo i dati di sequenziamento ottenuti dai campioni contenenti DNA DRS-WGA da un singolo individuo.
Ai fini della semplicit? nella descrizione di applicazioni del metodo secondo l?invenzione nella medicina prenatale e riproduttiva, il termine ?materno? pu? essere usato per estenderne il significato a ?appartenente alla donna? o ?appartenente al genitore di sesso femminile?, e ?madre? per estenderlo a ?donna? o ?genitore di sesso femminile?, con riferimento all?individuo femminile che ha contribuito con un uovo a un embrione, un feto da una gravidanza in corso, sebbene questa donna pu? non essere ancora diventata madre come risultato di partorire un figlio corrispondente a detto embrione o feto, eccetera.
Analogamente, il termine ?paterno? pu? essere usato per estenderne il significato a ?appartenente all?uomo? o ?appartenente al genitore di sesso maschile?, e ?padre? per estenderlo a ?uomo? o ?genitore di sesso maschile?, con riferimento all?individuo maschio che ha contribuito con lo sperma a un embrione, un feto da una gravidanza in corso, una mola idatiforme, sebbene questo uomo pu? non essere ancora diventato padre come risultato di una donna che ha partorito un figlio corrispondente a detto embrione o feto, eccetera.
Descrizione dettagliata dell?invenzione
Il metodo secondo la presente invenzione ? applicato all?analisi di una pluralit? di campioni comprendenti DNA genomico. In particolare, il metodo ? per analizzare il grado di similarit? di almeno due campioni in una pluralit? di campioni comprendenti DNA genomico. In certe forme di realizzazione la specie dei campioni ? Homo sapiens, e a meno che indicato diversamente, a questa specie sar? fatto riferimento nel resto della descrizione, senza limitazioni all?applicabilit? ad altre specie, quando applicabile.
Il metodo comprende le seguenti fasi.
Nella fase a), ? fornita una pluralit? di campioni comprendenti DNA genomico.
Nella fase b), separatamente su ciascun campione, ? effettuata un?amplificazione dell?intero genoma basata su un sito di restrizione deterministico (DRS-WGA) di detto di DNA genomico.
Nella fase c) ? preparata una libreria di sequenziamento parallelo massivo da ciascun prodotto di detta DRS-WGS usando una reazione di PCR priva di frammentazione con primer di fusione WGA/adattatore di sequenziamento.
Nella fase d) ? effettuato il sequenziamento dell?intero genoma a bassa profondit? a una copertura di sequenziamento media < 1x su detta libreria di sequenziamento parallelo massivo. La profondit? media ? preferibilmente 0,01x, preferibilmente a una profondit? < 0,05x, pi? preferibilmente a una profondit? < 0,1x, ancora pi? preferibilmente a una profondit? < 0,5x. Questo consente una riduzione dei costi di sequenziamento mantenendo nel frattempo buoni risultati nell?analisi in relazione all?applicazione.
Nella fase e), le letture ottenute nella fase d) sono allineate su un genoma di riferimento.
Nella fase f), il contenuto allelico a una pluralit? di loci polimorfici ? estratto per ciascun campione, vale a dire ? ottenuto dalle letture allineate. Detta pluralit? di loci comprende loci polimorfici per le specie considerate.
Detta pluralit? di loci polimorfici comprende preferibilmente loci polimorfici con eterozigosit? media > 0,499, pi? preferibilmente con eterozigosit? media > 0,49, ancor pi? preferibilmente con eterozigosit? media > 0,4, ancor pi? preferibilmente con eterozigosit? media > 0,3, in modo maggiormente preferibile con eterozigosit? media > 0,2.
Detta pluralit? di loci polimorfici comprende preferibilmente > 200.000 loci, pi? preferibilmente > 300.000 loci, ancora pi? preferibilmente > 500.000 loci, in modo maggiormente preferibile > 1.000.000 loci.
Nella fase g), ? calcolato un punteggio di similarit? a coppie per gli almeno due campioni, come funzione del contenuto allelico misurato in corrispondenza di detta pluralit? di loci.
Nella fase h), ? determinato il grado di similarit? degli almeno due campioni sulla base del punteggio di similarit?.
La similarit? a coppie ? preferibilmente calcolata computando la correlazione della frequenza di alleli B sui loci coperti da almeno una lettura negli almeno due campioni.
Come alternativa, il punteggio di similarit? a coppie ? preferibilmente calcolato computando il valore medio di concordanza sui loci coperti da almeno una lettura in entrambi i campioni accoppiati, in cui il valore di concordanza per ciascun locus ? assegnato uno dei seguenti valori:
a) 1 se gli alleli chiamati sono identici;
b) 0 se gli alleli chiamati sono completamente differenti;
c) 0,5 se gli alleli chiamati sono parzialmente sovrapposti.
Il metodo secondo l?invenzione preferibilmente comprende inoltre una fase di definire un gruppo di cluster di campioni che condividono una propriet? comune come l'identit? dell?individuo (o dei pi? individui) che contribuisce/contribuiscono sostanzialmente con DNA ai campioni di un cluster, oppure la propriet? di contenere insufficienti quantit? di DNA e/o la propriet? di contenere DNA molto degradato oppure DNA di origine incerta.
Preferibilmente, gli almeno due campioni sono assegnati ad almeno un cluster per mezzo di un classificatore utilizzando come input detto punteggio di similarit? a coppie.
In una forma di realizzazione preferita la definizione del numero di detti cluster ? eseguita eseguendo un clustering agglomerativo del punteggio di similarit? a coppie.
In una forma di realizzazione preferita, tale clustering agglomerativo ? eseguito usando la distanza euclidea e il ward linkage.
In una forma di realizzazione preferita, tale clustering ? eseguito usando un intervallo di numeri di cluster che producono diversi output di clustering alternativi.
In una forma di realizzazione preferita, tali output di clustering alternativi sono valutati calcolando il punteggio silhouette ed ? selezionato il clustering con il punteggio silhouette mediato pi? alto tra tutti i sottocluster.
Preferibilmente, detto classificatore utilizza come ulteriore input almeno un valore, misurato su detti dati di sequenziamento dell?intero genoma a bassa profondit?, selezionati dal gruppo che comprende:
a) DLRS: derivative log ratio spread;
b) R50: percentuale di frammenti di WGA coperti dal 50% delle letture sequenziate sui frammenti totali di WGA coperti da almeno una lettura;
c) YFRAC: frazione di letture mappate sul cromosoma Y; d) Aberrante: percentuale di genoma che corrisponde ad aggiunte o perdite rispetto a ploidia cellulare mediana; e) Chr13: ploidia del cromosoma 13;
f) Chr18: ploidia del cromosoma 18;
g) Chr21: ploidia del cromosoma 21;
h) RSUM: deviazione assoluta media dal pi? vicino livello di numero di copia intero, calcolato sull?evento di aberrazione di numero di copie con deviazione assoluta massima dalla ploidia cellulare mediana;
i) Mix_score: RSUM z-score, calcolato sull?evento di aberrazione di numero di copie con deviazione assoluta massima dalla ploidia cellulare mediana; e
j) Deg_score: numero di eventi di perdita piccoli (< 10 Mbp, che ? comune in campioni degradati).
Il numero di detti cluster ? preferibilmente calcolato a) selezionando un numero di cluster di prima iterazione massimizzando il punteggio silhouette medio;
b) per ciascuno di detti cluster di prima iterazione, computando il punteggio silhouette di ciascuno dei detti campioni appartenente al cluster di prima iterazione, in cui i campioni appartenenti al cluster avente un punteggio silhouette inferiore a una soglia fissata compresa nell?intervallo 0,19-0,21, sono assegnati a un nuovo cluster.
In una forma di realizzazione preferita, detto gruppo di cluster preferibilmente comprende uno o pi? cluster di identit? comprendenti campioni contenenti, con elevata confidenza, DNA da uno solo e lo stesso individuo.
In presenza di pi? cluster di identit?, la cardinalit? di detta pluralit? di cluster di identit? corrisponde preferibilmente al numero di contributori di DNA individuali in detta pluralit? di campioni.
Preferibilmente, il metodo comprende inoltre definire un gruppo di cluster di identit? mista, ciascuno di detti cluster di identit? mista comprendendo campioni contenenti DNA da almeno due individui.
Preferibilmente, il metodo comprende inoltre definire almeno un cluster ?no-call?, comprendente campioni contenenti DNA di origine incerta.
Vantaggiosamente, questo cluster include campioni in cui il numero di loci valutati per calcolare il punteggio di similarit? ? minore di una soglia. Vantaggiosamente, detta soglia ? determinata considerando uno o pi? elementi selezionati dal gruppo comprendente:
1. il numero di letture del campione,
2. l?eterozigosit? media minima nei loci usata per il confronto.
La pluralit? di campioni comprende preferibilmente almeno un campione di riferimento e detto gruppo di cluster di identit? include almeno un cluster di riferimento comprendente detto campione di riferimento.
In una forma di realizzazione preferita, detto almeno un campione di riferimento ? un campione da un individuo genitore di sesso femminile gravido.
Detto gruppo di cluster di identit? preferibilmente contiene inoltre almeno un cluster famigliare composto da campioni di almeno un feto della gravidanza in atto di detto individuo genitore di sesso femminile.
Preferibilmente, detto cluster famigliare ? diviso in una pluralit? di cluster fetali composti da campioni che contengono DNA da soltanto uno e lo stesso feto.
In una forma di realizzazione preferita alternativa, detto almeno un cluster di riferimento ? composto preferibilmente da campioni contenenti DNA da soltanto uno e lo stesso individuo corrispondente a una vittima in un?investigazione forense, comprendente inoltre definire almeno un cluster di aggressori, comprendente campioni contenenti DNA da soltanto uno e lo stesso individuo, diverso dalla vittima.
In questo caso, il metodo secondo l?invenzione comprende preferibilmente mescolare per cluster aliquote di DRS-WGA da una pluralit? di campioni che appartengono a ciascuno di detti almeno un cluster di aggressori, producendo per ciascun cluster un corrispondente campione di DNA da WGA di singolo individuo, ed eseguire un?ulteriore analisi del DNA su almeno uno di detti campioni di DNA da WGA di singolo individuo.
Il metodo preferibilmente comprende unire per cluster dati di analisi genetica di almeno un tipo di saggio, da una pluralit? di campioni appartenenti a ciascuno di detti almeno un cluster di aggressori, producendo per ciascuno di detti almeno un cluster di aggressori dati di DNA da WGA di singolo individuo corrispondenti.
Il tipo di saggio ? selezionato dal gruppo costituito da analisi di microsatelliti, analisi del polimorfismo a nucleotide singolo, sequenziamento mirato parallelo massivo e sequenziamento dell?intero genoma.
In una forma di realizzazione preferita del metodo della presente invenzione, la pluralit? di campioni comprende campioni tumorali e/o normali.
In un?altra forma di realizzazione preferita, la pluralit? di campioni comprende almeno un campione di riferimento contenente DNA da un individuo genitore di sesso femminile, e almeno un altro campione embrionale da detta pluralit? di campioni ? selezionato dal gruppo costituito da:
a) campioni contenenti DNA da un embrione derivato da detto individuo genitore di sesso femminile; e
b) campioni contenenti DNA da un terreno di coltura in cui ? stato coltivato un embrione, ottenuto da un embrione di detto individuo genitore di sesso femminile.
In quest?ultima forma di realizzazione, il metodo preferibilmente comprende inoltre effettuare uno screening genetico preimpianto su detto embrione analizzando aberrazioni cromosomiche per tutto il genoma da detti dati di sequenziamento dell'intero genoma a bassa profondit? da detto almeno un altro campione embrionale utilizzando un fattore di contaminazione corrispondente a una contaminazione materna misurata su detto almeno un campione embrionale come funzione di detta similarit? a coppie di detto almeno un altro campione embrionale da detto campione di individuo genitore di sesso femminile.
In particolare, per l?autenticazione di linea cellulare, preferibilmente una pluralit? di cluster di riferimento ? generata da una pluralit? di campioni di DNA da linee cellulari, e detto gruppo di cluster di identit? contiene inoltre almeno un campione da una linea cellulare da autenticare.
In particolare, per investigare allotrapianti, preferibilmente detto almeno un cluster di riferimento ? composto da campioni contenenti DNA di linea germinale da un paziente trapiantato, e detto gruppo di cluster di identit? contiene inoltre un cluster di donatore composto da campioni da un donatore allogenico di detto paziente trapiantato.
In particolare, per i test di paternit? non invasivi, preferibilmente detto almeno un campione di riferimento comprende un campione di riferimento di genitore di sesso maschile contenente DNA soltanto da detto genitore di sesso maschile, e detto almeno un cluster di riferimento comprende inoltre un cluster di identit? di genitore di sesso maschile comprendente detto campione di genitore di sesso maschile, e:
(i) se il punteggio di similarit? del campione famigliare rispetto al campione di genitore di sesso maschile ? coerente con la parentela, la paternit? ? confermata;
(ii) se il punteggio di similarit? del campione famigliare rispetto al campione di genitore di sesso maschile ? coerente con un individuo non correlato, la paternit? non ? confermata.
In particolare, per la valutazione di una gravidanza molare non invasiva, preferibilmente detto almeno un campione comprende almeno un campione di cellula trofoblastica circolante e, se detto punteggio di similarit? di campione di cellula trofoblastica rispetto ai campioni di genitore di sesso femminile ? coerente con campioni non correlati, ? confermata una mola completa.
In quest?ultima forma di realizzazione, detto almeno un campione comprende preferibilmente una pluralit? di campioni di cellule trofoblastiche e:
(i) se il punteggio di similarit? tra detti campioni di cellule trofoblastiche eccede l?atteso 99? percentile del punteggio di similarit? atteso per campioni ?self?, ? confermata una mola paterna omozigote P1P1.
(ii) se il punteggio di similarit? tra detti campioni di cellule trofoblastiche ? coerente con il punteggio di similarit? atteso per campioni ?self", ? confermata una mola paterna eterozigote P1P2.
Preferibilmente, detto almeno un campione comprende inoltre un campione di genitore di sesso maschile e il punteggio di similarit? tra detti campioni di cellule trofoblastiche ? coerente con il punteggio di similarit? atteso da campioni ?self?, e:
(i) se detto punteggio di similarit? di dette cellule trofoblastiche rispetto al campione di genitore di sesso maschile ? coerente con il punteggio di similarit? atteso per campioni ?self", ? confermata una mola paterna eterozigote P1P2;
(ii) se il punteggio di similarit? di dette cellule trofoblastiche rispetto al campione di genitore di sesso maschile ? inferiore al 99? percentile del punteggio di similarit? atteso per campioni ?self?, non ? confermata una mola paterna eterozigote P1P2.
Al contrario dello stato della tecnica, gli inventori hanno sorprendentemente scoperto che la combinazione di DRS-WGA con una preparazione della libreria per il sequenziamento parallelo massivo usando una reazione di PCR priva di frammentazione con primer di fusione WGA/adattatore di sequenziamento per il sequenziamento dell?intero genoma a bassa profondit? migliora la possibilit? di discriminare i campioni di DNA anche dal sequenziamento dell?intero genoma a bassa profondit? a profondit? molto ridotte, inferiori a 1x per i campioni ?self? e parentali, e inoltre di risolvere anche campioni ?self? e parentali miscelati con un?accuratezza relativamente buona. Inoltre, per gli individui non correlati, ? sufficiente un sequenziamento dell?intero genoma anche con una copertura estremamente bassa, come < 0,15x.
Per dimostrare quanto sopra, sono stati eseguiti i seguenti esempi.
Esempi
Esempio 1
I dati di sequenziamento sono stati inizialmente ottenuti usando 7 linee cellulari. La Figura 1 mostra l?effetto del metodo di preparazione della libreria dell?intero genoma sulla correlazione delle frequenze alleliche di SNP tra campioni ?self? e non correlati. Sull?asse X ? riportato il metodo di preparazione della libreria. Librerie prive di frammentazione sono state preparate eseguendo un?amplificazione deterministica dell?intero genoma mediante siti di restrizione (DRS-WGA) di DNA genomico di 2 singole cellule delle 7 linee di cellule tumorali (NCI-H1650, NCI-H23, NCI-H661, NCI-H1563, NCI-H1573, NCI-H441, OE19) seguita da una reazione di PCR priva di frammentazione con primer di fusione WGA/adattatore di sequenziamento; sono state preparate librerie di frammentazione casuali dal DNA genomico di 6 linee di cellule tumorali (NCI-H1650, NCI-H23, NCI-H661, NCI-H1563, NCI-H1573, NCI-H441) usando il kit di preparazione delle librerie di frammenti di gDNA Ion Xpress? Plus (Thermo Fisher Scientific). Sull?asse Y ? rappresentato il punteggio di similarit? a coppie calcolato come correlazione della frequenza B-allelica attraverso i loci coperti da almeno una lettura nei campioni accoppiati, come riportato da NGSCheckMate (commit 8ea2c0438). NGSCheckMate ? stato fatto funzionare su 500.000 letture (copertura ?0,025x) allineate al genoma di riferimento (hg19) con parametri predefiniti e insiemi di loci polimorfici predefiniti (21067 SNP). I puntini neri (?self?) mostrano punteggi di similarit? a coppie di campioni accoppiati appartenenti alla stessa linea cellulare. I puntini grigi (non correlati) mostrano punteggi di similarit? a coppie di campioni accoppiati appartenenti a diverse linee cellulari. Il grafico mostra un evidente vantaggio della preparazione della libreria priva di frammentazione basata su DRS-WGA rispetto al metodo della frammentazione casuale, con una maggiore separazione tra valori del punteggio di similarit? a coppie ?self? e non correlati.
Esempio 2
I loci polimorfici per i confronti secondo l?invenzione sono preferibilmente selezionati in base alla loro eterozigosit? media. Preferibilmente, i loci polimorfici sono selezionati sulla base della propriet? di avere un?eterozigosit? media pi? alta di una certa soglia minima.
La Figura 2 mostra l?effetto della selezione dell?insieme dei loci polimorfici sui punteggi di similarit? a coppie di campioni accoppiati appartenenti alla stessa linea cellulare (?self?) o a linee cellulari diverse (non correlati). Librerie prive di frammentazione sono state preparate eseguendo un?amplificazione deterministica dell?intero genoma mediante siti di restrizione (DRS-WGA) di DNA genomico di 2 singole cellule di 7 linee di cellule tumorali (NCI-H1650, NCI-H23, NCI-H661, NCI-H1563, NCI-H1573, NCI-H441, OE19) seguita da una reazione di PCR priva di frammentazione con primer di fusione WGA/adattatore di sequenziamento. Sull?asse X ? rappresentato l?insieme dei loci polimorfici usati per l?analisi: L?insieme da 21k corrisponde all?insieme di SNP predefinito fornito da NGSCheckMate e selezionato in base alle frequenze alleliche dei loci polimorfici in un insieme di 40 profili WGS di linee germinali da pazienti con cancro dello stomaco TCGA; l?insieme da 300k consiste di 312.458 loci polimorfici selezionati da dbSNP (build 150) in base a un?eterozigosit? media minima di 0,498. Sull?asse Y ? rappresentato il punteggio di similarit? a coppie calcolato come correlazione della frequenza B-allelica attraverso i loci coperti da almeno una lettura negli almeno due campioni, il cui grado di similarit? ? analizzato. NGSCheckMate ? stato fatto funzionare su 500.000 letture (copertura ?0,025x) allineate al genoma di riferimento (hg19) con parametri predefiniti e l?insieme di loci polimorfici predefinito (21k) o l?insieme da 300k. Il grafico mostra che usando una selezione di loci polimorfici basati sull?eterozigosit? media, la differenza tra i punteggi di similarit? a coppie di campioni accoppiati appartenenti alla stessa linea cellulare (?self?) e quelli di campioni accoppiati appartenenti a linee cellulari diverse (non correlati) aumenta, portando a una separazione evidente tra i due tipi di confronto.
Metodi di calcolo dei punteggi di similarit? diversi possono essere usati nella fase g) secondo l?invenzione.
Come menzionato nella descrizione precedente, in una forma di realizzazione preferita, il punteggio di similarit? a coppie della fase g) ? calcolato computando la correlazione della frequenza B-allelica attraverso i loci coperti da almeno una lettura negli almeno due campioni, il cui grado di similarit? ? analizzato.
In un?altra forma di realizzazione preferita, il punteggio di similarit? a coppie della fase g) ? calcolato computando il valore medio di concordanza sui loci coperti da almeno una lettura in entrambi i campioni accoppiati, in cui il valore di concordanza per ciascun locus ? assegnato uno dei seguenti valori:
a) 1 se gli alleli chiamati sono identici;
b) 0 se gli alleli chiamati sono completamente differenti; c) 0,5 se gli alleli chiamati sono parzialmente sovrapposti.
Esempio 3
Le Figure 3A e 3B mostrano la distribuzione del punteggio di similarit? a coppie computato attraverso i campioni derivati dallo stesso individuo (?self?) o un individuo diverso non correlato (?non correlato?), per 500.000 letture e un?eterozigosit? media minima = 0,46, o 5.000.000 di letture e un?eterozigosit? media minima = 0,49, usando i metodo di correlazione (Figura 3A) o di concordanza (Figura 3B).
Entrambi i metodi forniscono risultati simili in termini di separazione e diffusione di campioni dalla stessa classe, tuttavia il valore assoluto del punteggio di similarit? a coppie (asse Y) deve essere modificato in modo chiaro in base al particolare metodo usato. Il punteggio di similarit? a coppie basato sulla concordanza ha il vantaggio di una computazione pi? semplice rispetto alla correlazione che fornisce una migliore prestazione computazionale, specialmente nel caso di grandi insiemi di loci polimorfici. Per entrambe le profondit? di lettura, i grafici non mostrano alcuna differenza evidente in termini di separazione di punteggi di similarit? a coppie di campioni accoppiati ?self? e non correlati tra i due punteggi di similarit? impiegati, tuttavia, il valore assoluto del punteggio di similarit? deve essere regolato per la funzione specifica impiegata nel calcolo.
Esempio 4 - Eterozigosit? media e numero di loci polimorfici
L?eterozigosit? media minima ? preferibilmente nell?intervallo [0,2; 0,499]. Il numero di loci polimorfici presi in considerazione decresce in modo monotonico con l?aumento dell?eterozigosit? media minima.
Il numero di loci coperti dai campioni accoppiati aumenta in modo monotonico con il numero di letture per campione. Esiste generalmente un?eterozigosit? media minima ottimale per aumentare la separazione tra campioni accoppiati (stesso individuo) e non correlati, per un determinato numero di letture. Aumentare ulteriormente l?eterozigosit? media minima oltre quella ottimale ridurr?, all?inizio gradualmente e poi improvvisamente, il numero di loci coperti nei campioni accoppiati che sono disponibili per il confronto, riducendo cos? la separazione complessiva tra campioni accoppiati e non correlati in un punteggio di similarit? a coppie.
Le Figure da 4A a 4C mostrano la relazione tra i parametri. La Figura 4A mostra la relazione tra la soglia di eterozigosit? media (asse X, intervallo = 0,2-0,5) usata per selezionare l?insieme di loci polimorfici e il numero di loci polimorfici (asse Y). La Figura 4B mostra la relazione tra il numero di loci polimorfici nell?insieme (asse Y) e il numero medio di loci coperti in entrambi i campioni accoppiati da almeno una lettura (asse X) a diverse profondit? di lettura. La Figura 4C mostra la relazione tra il numero medio di loci coperti in entrambi i campioni accoppiati (asse X) e la distanza tra la distribuzione del punteggio di similarit? a coppie (concordanza) dei campioni accoppiati appartenenti alla stessa linea cellulare (?self?) verso quella di campioni accoppiati appartenenti a linee cellulari diverse (non correlati), calcolata come 5? percentile della distribuzione del punteggio di similarit? a coppie dei ?self? meno il 95? percentile della distribuzione del punteggio di similarit? a coppie dei non correlati, a diverse profondit? di lettura, variabili da 500.000 letture a 4.000.000 di letture.
Le Figure da 4D a 4F sono un ingrandimento dello stesso tipo di analisi per un intervallo pi? ristretto di eterozigosit? media minima.
Esempio 5 - Analisi di parentela
Un problema ancora pi? difficile nell?identificazione del campione sorge nei casi di relazionalit? come una relazione di parentela, perch? per esempio met? del genoma ? in comune tra una madre e sua figlia.
Per valutare le prestazioni del metodo secondo l?invenzione in questo caso di utilizzo, abbiamo simulato questo caso generando, in silico, campioni famigliari miscelando (50%/50%) dati di sequenziamento dell?intero genoma a bassa profondit? ottenuti secondo il metodo da leucociti singoli ottenuti da svariati (N=3) individui non correlati diversi, per cui per ciascun individuo i loci polimorfici sono stati modificati nei dati in modo da riportare solo uno degli alleli rilevati per quell?individuo, simulando cos? un contributo genomico aploide da quell?individuo ai dati ?famigliari?. Dal sangue periferico raccolto in provette per la raccolta di sangue CellSave (Menarini Silicon Biosystems), in seguito ad arricchimento immuno-magnetico con CELLSEARCH AutoPrep, le cellule sono state colorate con un cocktail di anticorpi fluorescenti e DAPI, poi le singole cellule CD45+ DAPI+ sono state isolate mediante DEPArray (Menarini Silicon Biosystems), e l?intero genoma amplificato usando una DRS-WGA (Ampli1 WGA, Menarini Silicon Biosystems). Un?aliquota del prodotto della WGA ? stata usata per preparare la libreria di sequenziamento parallelo massivo da ciascun prodotto di quelli da DRS-WGA usando una reazione di PCR priva di frammentazione con primer di fusione WGA/adattatore di sequenza (kit Ampli1 LowPass per Illumina, Menarini Silicon Biosystems).
Per evitare bias, i dati di sequenziamento da ciascuna cellula singola sono stati usati solo una volta (per generare dati ?self? o di tipo famigliare).
Le Figure da 5A a 5D mostrano le prestazioni di classificazione dei campioni famigliari rispetto ai campioni ?self? (genitore di sesso femminile) e ai campioni non correlati. Due soglie variabili sul punteggio di similarit?, calcolate rispetto ai campioni di genitori di sesso femminile, sono usate come classificatori per discriminare campioni famigliari da campioni ?self? e non correlati. La soglia famigliare-?self? ? impostata a valori variabili dalla mediana della distribuzione del punteggio di similarit? famigliare alla mediana della distribuzione del punteggio di similarit? ?self?. La soglia famigliare-non correlato ? impostata a valori variabili dalla mediana della distribuzione del punteggio di similarit? famigliare alla mediana della distribuzione del punteggio di similarit? dei campioni non correlati. Il numero di letture ? mantenuto costante a 500.000 letture. La Figura 5A mostra i valori TPR e 1-PPV per la classificazione di campioni famigliari rispetto ai ?self? di genitore di sesso femminile con il variare della soglia, a eterozigosit? medie minime diverse (soglia AvHet). La Figura 5A mostra i valori TPR e 1-PPV per la classificazione di campioni famigliari rispetto ai campioni non correlati con il variare della soglia, a eterozigosit? medie minime diverse (soglia AvHet). La Figura 5C mostra la soglia del punteggio di similarit? famigliare-?self? (linea continua grigia; asse Y secondario) necessaria per ottenere un PPV di almeno 0,999 e il corrispondente TPR (asse Y primario) al variare del valore di eterozigosit? media minima (asse X). La Figura 5D mostra la soglia del punteggio di similarit? famigliare-?self? (linea continua grigia; asse Y secondario) necessaria per ottenere un PPV di almeno 0,999 e il corrispondente TPR (asse Y primario) al variare del valore di eterozigosit? media minima (asse X). I grafici mostrano che un?alta sensibilit? (TPR ? 0,99) ? ottenuta con insiemi di SNP selezionati usando una soglia di eterozigosit? media da 0,2 fino a 0,495 per la classificazione famigliare-?self? e fino a 0,48 per la classificazione famigliare-non correlato con valori di sensibilit? che diminuiscono rapidamente dopo questi valori.
Esempio 6
La Figura 6 mostra la distribuzione di punteggi di similarit? a coppie calcolati come concordanza rispetto a campioni di genitore di sesso femminile, per campioni ?self? (genitore femminile), di parenti e non correlati come funzione dell?eterozigosit? media minima (intervallo = 0,2-0,498). Il numero di letture ? mantenuto costante a 500.000 letture. Le soglie del punteggio di similarit? usate per classificare i campioni famigliari da campioni ?self? con genitore di sesso femminile e campioni non correlati con PPV di almeno 0,999 sono mostrate rispettivamente come linee tratteggiate e linee tratto-punto.
Di conseguenza, in una forma di realizzazione preferita, i dati LPWGS sono sottocampionati a 500k letture singole, l?eterozigosit? media minima per i loci polimorfici ? selezionata nell?intervallo [0,2;0,49] e le soglie del punteggio di similarit? sono selezionate nell?intervallo [0,73;0,79] per famigliare-?self? e [0,62;0,7] per famigliare-non correlato, usando come punteggio di similarit? la ?concordanza? calcolata come spiegato sopra.
La pluralit? di loci polimorfici comprende preferibilmente loci ottenuti da un database come dbSNP.
Preferibilmente, detta pluralit? di loci polimorfici comprende > 200.000, 300.000, 500.000 o 1.000.000 di loci con l?eterozigosit? media pi? alta.
Clustering
In una forma di realizzazione preferita, il metodo secondo l?invenzione comprende inoltre una fase di definire un gruppo di cluster di campioni che condividono una propriet? comune come l'identit? dell?individuo (o dei pi? individui) che contribuisce/contribuiscono sostanzialmente con DNA ai campioni di un cluster, oppure la propriet? di contenere insufficienti quantit? di DNA e/o la propriet? di contenere DNA molto degradato oppure DNA di origine incerta. Gli almeno due campioni sono assegnati preferibilmente ad almeno un cluster per mezzo di un classificatore utilizzando come input detto punteggio di similarit? a coppie.
Esempio 7 - Applicazione alla diagnosi prenatale non invasiva basata su cellule circolanti fetali.
In una forma di realizzazione preferita, l?almeno un cluster di riferimento ? composto da campioni da un individuo genitore di sesso femminile gravido. Detti ?campioni di riferimento? possono essere raccolte isolando cellule materne dallo stesso fluido corporeo arricchito usato per estrarre le cellule fetali, o in alternativa mediante un?altra fonte di DNA materno. Nel caso in cui il fluido corporeo materno consiste di sangue periferico, le cellule nucleate positive per i marcatori materni e negative per i marcatori fetali possono essere raccolte come riferimento.
Preferibilmente, detto gruppo di cluster di identit? pu? contenere inoltre almeno un cluster famigliare composto da campioni di almeno un feto della gravidanza in atto di detto individuo genitore di sesso femminile. Detti campioni sono identificati preferibilmente come quelli aventi un punteggio di similarit? a coppie coerente con una relazione famigliare con il genitore di sesso femminile di riferimento.
Detto cluster famigliare ? preferibilmente inoltre ripartito in una pluralit? di cluster fetali composti da campioni che contengono DNA da soltanto uno e lo stesso feto.
I campioni appartenenti allo stesso feto sono riconosciuti come aventi un punteggio di distanza a coppie coerente con una classificazione come ?self? uno rispetto all?altro. Altre cellule famigliari aventi un punteggio di distanza a coppie coerente con una relazione di parentela rispetto ad altre cellule famigliari sono messe in una ripartizione diversa come appartenenti a un feto diverso.
La Figura 7 rappresenta un metodo per rilevare gravidanze gemellari. Tutte le predizioni a coppie delle cellule fetali descritte da un relazione ?di parentela? con il controllo materno sono usate come input per un algoritmo di clustering grafico per trovare le ?comunit?? di cellule fetali.
In un?altra forma di realizzazione utile nel contesto della Diagnosi Prenatale Non Invasiva, le cellule fetali circolanti mescolate alle cellule materne sono rilevate osservando un punteggio di similarit? a coppie intermedio rispetto a quello atteso per il DNA di tipo ?self? e il DNA di tipo ?famigliare?. Infatti, il co-isolamento di una cellula materna insieme con una cellula fetale bersaglio pu? verificarsi accidentalmente come risultato di imprecisione nel processo di classificazione (o dovuta alla selezione delle cellule da isolare, o dovuta al processo di isolamento o a entrambi). Il co-isolamento di una cellula materna insieme con una cellula fetale bersaglio pu? anche verificarsi in modo non accidentale, poich? pu? essere vantaggioso analizzare comunque un campione miscelato addizionale invece di scartarlo, se sono disponibili troppo pochi campioni di cellule fetali non miscelate e pure.
A seconda del tipo di analisi, la miscela di due cellule, una fetale e una materna, pu? ancora essere accettabile se la sensibilit? del saggio non ? compromessa in modo significativo. Questo pu? essere per esempio il caso in cui sono analizzate le aneuploidie dell?intero cromosoma usando numeri adeguati di letture. La contaminazione pu? essere vantaggiosamente ponderata durante l?analisi applicando un fattore di contaminazione specifico, come ? disponibile in certe elaborazioni bioinformatiche, come ControlFreec (Boeva, V. et al, Bioinformatics 1 feb 2012;28(3):423-5), mantenendo cos? una sensibilit? adeguata.
In una forma di realizzazione preferita, dette cellule fetali circolanti nel sangue materno sono (i) trofoblasti, (ii) eritroblasti o (iii) entrambi i tipi.
Esempio 8 - Identificazione degli eritroblasti fetali circolanti da sangue materno.
Le cellule nucleate sono state isolate dapprima da sangue materno usando un gradiente ficoll (densit? 1,107 g/ml) e gli eritroblasti fetali (eritrociti nucleati) sono stati arricchiti mediante deplezione immuno-magnetica di CD45/CD15/CD14 di cellule materne indesiderate usando la Magnetic Activated Cell Sorting (MACS) di Miltenyi.
Le cellule arricchite sono state fissate, con
(A) paraformaldeide (PFA) al 4% per 30? a temperatura ambiente o
(B) PFA al 4% per 60? a 37 ?C seguita da glutaraldeide 0,05% per 30? a temperatura ambiente
Il secondo tipo di fissazione crea una reticolazione pi? forte e pu? aiutare a fissare l?emoglobina bersaglio all?interno della cellula, tuttavia ostacola l?amplificazione del DNA.
Dopo la fissazione, le cellule sono state colorate per anti-gamma-emoglobina-FITC (come marcatore delle cellule fetali) e DAPI per colorare il DNA nei nuclei.
Le cellule fetali putative sono state classificate mediante DEPArray? come cellule singole, o insieme con cellule materne contaminanti addizionali che si trovavano co-localizzate nella stessa gabbia dielettroforetica. I recuperi delle cellule (indipendentemente dal fatto se singole o contaminate) sono stati amplificati con il kit per WGA Ampli1, Menarini Silicon Biosystems S.p.A., un kit che implementa il metodo DRS-WGA secondo la presente invenzione.
Un?aliquota (1 ?l) del prodotto della PCR primario WGA Ampli1 ? stata usata per l?analisi dei microsatelliti, con una PCR multiplex per amplificare i seguenti loci: D21S1435, D21S11, HPRT, SRY, D21S1413, D21S1411, D18S535, D13S317, D21S2039, D13S631, D21S1442, seguita dall?analisi dei frammenti usando l?elettroforesi capillare su ABI Prism 310 (Applied Biosystems). Usando il protocollo di fissazione ?pi? debole? - opzione (A) sopra - ? stato recuperato in media il 56% degli alleli attesi (intervallo 30%-90%). In media sono stati trovati 3,2 alleli informativi, definiti come alleli non in comune tra madre e profilo di riferimento fetale ottenuto dall?analisi del campione di villi corionici (CVS).
Usando il protocollo di fissazione ?pi? forte? - opzione (B) sopra - in media ? stato recuperato solo il 28% degli alleli attesi (intervallo 6%-68%), vale a dire circa la met? di quelli recuperati con una fissazione pi? debole. In altre parole, con la fissazione pi? forte (B) ? stato ottenuto un drop-out allelico medio del 72%. In modo corrispondente, in media sono stati trovati solo 1,7 alleli informativi, inclusi anche i campioni misti (BO1368B_4, BO1368B_6) aventi entrambi gli alleli informativi materni e fetali, avendo cos? due cellule e il doppio della quantit? di DNA di stampo di partenza. Infatti, 4 campioni di cellule singole (BO1368B_3, BO1368B_5, BO1368B_9, BO1368B_12) avevano 0 alleli informativi sull?analisi multiplex STR di cui sopra. I primi tre sono stati risolti solo con l'analisi addizionale usando ulteriori loci STR, analisi che non ? riuscita a fornire informazioni per classificare il campione BO1368B_12 che ? rimasta di origine ?sconosciuta?.
? cos? evidente che, anche se fornisce pi? eritroblasti fetali, la fissazione pi? forte (ovvero PFA 4% 60? 37 ?C seguita da glutaraldeide 0,05% per 30? a temperatura ambiente) aumenta i drop-out allelici e riduce il tasso di chiamata STR, mettendo cos? gravemente a rischio la classificazione di un campione come materno, fetale o misto.
Al contrario, preparando da un?altra aliquota di prodotto WGA una libreria di sequenziamento passivo usando il kit Ampli1 LowPass, e analizzando i dati usando il metodo secondo l?invenzione, ? possibile assegnare in modo confidenziale ogni campione, come ulteriormente descritto in maggior dettaglio in quanto segue, anche per quei campioni con drop-out allelico molto elevato.
La Figura 8 mostra la distribuzione dei punteggi di similarit? a coppie medi, calcolati rispetto a campioni di genitore di sesso femminile, in recuperi cellulari di eritroblasti da 2 campioni. Il grafico mostra che il classificatore della soglia famigliare-?self? discrimina i recuperi famigliari (punti grigi) da recuperi cellulari di individui genitori di sesso femminile gravidi (punti grigio chiaro). Tuttavia, il classificatore non pu? discriminare i recuperi famigliari dai recuperi di cellule miste (punti neri).
In una forma di realizzazione preferita, il clustering dei campioni include calcolare un punteggio silhouette, in base alla similarit?, al fine di definire il numero di cluster. Vantaggiosamente, un cluster in cui i punteggi di similarit? a coppie presentano due livelli distinti di similarit? pu? essere ulteriormente frazionato usando una soglia fissa, preferibilmente 0,205, in base alla distribuzione dei punteggi silhouette in un insieme di campioni comprendenti cellule materne e cellule fetali, per discriminare i campioni misti fetali-materni (dai campioni fetali o materni). In una forma di realizzazione preferita, detta soglia fissata rientra nell?intervallo [0,19-0,21].
In questo modo, le cellule miste materne-fetali possono essere identificate come cluster separato dalla sottopopolazione ?self? (materna) e famigliare (fetale).
Esempio 9
Le Figure da 9A a 9C mostrano la classificazione basata sul clustering dei recuperi cellulari dal campione BO1368. Un campione di cellule materne (BO1368_MC) e un campionamento di villi corionici (BO1368_CVS) sono inclusi come riferimento. La Figura 9A mostra i punteggi silhouette per diversi numeri di cluster, usati come input per il clustering di punteggi di similarit? a coppie, mostrando il punteggio pi? elevato per 2 cluster. La Figura 9B mostra l'analisi del punteggio silhouette individuale per ciascun recupero nei due cluster e mostra che 2 recuperi nel cluster n? 0, corrispondente ai recuperi cellulari misti, hanno un punteggio vicino a 0, a indicare che sono molto vicini al confine decisionale tra due cluster vicini; impostando una soglia fissa del punteggio silhouette minimo (0,205) ? possibile discriminare i 2 recuperi di cellule miste fetalimaterne che sono cos? assegnati a un terzo cluster indipendente. La Figura 9C mostra la mappa di calore che mostra punteggi di similarit? tra tutti e 17 i recuperi cellulari in scala di grigio, con i colori pi? scuri che indicano una similarit? pi? elevata; i cluster sono etichettati mediante etichette colore di riga e colonna.
Esempio 10
Le Figure da 10A a 10C mostrano la classificazione basata sul clustering dei recuperi cellulari dal campione BO1383. Un campione di cellule materne (BO1383_MC) ? incluso come riferimento. La Figura 10A mostra i punteggi silhouette per diversi numeri di cluster, usati come input per il clustering di punteggi di similarit? a coppie, mostrando il punteggio pi? elevato per 2 cluster. La Figura 10B mostra l'analisi del punteggio silhouette individuale per ciascun recupero nei due cluster e mostra che 2 recuperi nel cluster n? 0, corrispondente ai recuperi cellulari misti, hanno un punteggio vicino a 0, a indicare che sono molto vicini al confine decisionale tra due cluster vicini; impostando una soglia fissa del punteggio silhouette minimo (0,205) ? possibile discriminare i 2 recuperi di cellule miste fetalimaterne che sono cos? assegnati a un terzo cluster indipendente. La Figura 10C mostra la mappa di calore che mostra punteggi di similarit? tra tutti e 8 i recuperi cellulari in scala di grigio, con i colori pi? scuri che indicano una similarit? pi? elevata; i cluster sono etichettati mediante etichette colore di riga e colonna.
In una forma di realizzazione preferita, detto classificatore utilizza come ulteriore input almeno un valore, misurato su detti dati di sequenziamento dell?intero genoma a bassa profondit?, selezionati dal gruppo che comprende:
a) DLRS: derivative log ratio spread
b) R50: percentuale di frammenti di WGA coperti dal 50% delle letture sequenziate sui frammenti totali di WGA coperti da almeno una lettura
c) YFRAC: frazione di letture mappate sul cromosoma Y d) Aberrante: percentuale di genoma che corrisponde ad aggiunte o perdite rispetto a ploidia cellulare mediana
e) Chr13: ploidia del cromosoma 13
f) Chr18: ploidia del cromosoma 18
g) Chr21: ploidia del cromosoma 21
h) RSUM: deviazione assoluta media dal pi? vicino livello di numero di copia intero, calcolato sull?evento di aberrazione di numero di copie con deviazione assoluta massima dalla ploidia cellulare mediana
i) Mix_score: RSUM z-score, calcolato sull?evento di aberrazione di numero di copie con deviazione assoluta massima dalla ploidia cellulare mediana j) Deg_score: numero di eventi di perdita piccoli (< 10 Mbp, che ? comune in campioni degradati)
Esempio 11 - Applicazione al test di paternit? prenatale non invasivo basato su cellule circolanti fetali.
In un?altra forma di realizzazione dell?invenzione, un campione di genitore di sesso maschile (campione paterno) ? disponibile oltre al campione materno, e l?analisi di parentela pu? essere applicata usando a sua volta come riferimento anche il campione paterno. Un punteggio di similarit? a coppie coerente con un DNA di tipo ?famigliare? rispetto al campione di riferimento paterno conferma la paternit? del feto. In alternativa, se un punteggio di similarit? a coppie del campione fetale (vale a dire fetale confermato perch? classificato come famigliare rispetto al campione di riferimento del genitore di sesso femminile) ? coerente con un DNA di tipo ?non correlato? usando i campioni del genitore di sesso maschile, il risultato confuta la paternit?.
Esempio 12 - Applicazione alla gravidanza molare.
In un?altra forma di realizzazione, almeno una cellula trofoblastica fetale circolante putativa ? arricchita dal sangue materno. Il campione di cellula trofoblastica ? confrontato al campione di riferimento materno, e un punteggio di similarit? a coppie coerente con un DNA di tipo ?non correlato? indica una possibile mola completa (o una contaminazione di laboratorio/scambio di campione). Se ? isolato pi? di un campione di cellule trofoblastiche circolanti, il confronto del punteggio di similarit? a coppie tra questi campioni pu? essere usato per studiare il genotipo della mola. Se la distanza a coppie supera ampiamente il valore atteso per i campioni accoppiati di tipo ?self?, ? confermata una mola paterna omozigote P1P1, poich? tutti i confronti dei loci polimorfici saranno identici, eccetto per rari errori di sequenziamento (o errori di amplificazione WGA ancora pi? rari) che possono verificarsi occasionalmente nelle stesse posizioni genomiche corrispondenti ai loci polimorfici esaminati. In alternativa, in presenza di una mola P1P2 con eterozigosit? in alcuni dei loci polimorfici, il valore di similarit? a coppie osservato tra campioni di trofoblasti diversi ? nell?intervallo atteso per i campioni accoppiati di tipo ?self?. In quest?ultimo caso di mola P1P2, se ? disponibile un campione di DNA paterno, un punteggio di distanza a coppie dei campioni di trofoblasti coerente con un DNA di tipo ?self? rispetto al campione di riferimento paterno pu? essere usato per distinguere la gravidanza molare da una contaminazione di laboratorio o uno scambio di campione.
Esempio 13- Applicazione all?identificazione forense della singola cellula e umana.
In una forma di realizzazione preferita, detto almeno un cluster di riferimento ? composto da campioni contenenti DNA da soltanto uno e lo stesso individuo corrispondente a una vittima in un?investigazione forense, comprendente inoltre definire almeno un cluster di aggressori, comprendente campioni contenenti DNA da soltanto uno e lo stesso individuo, diverso dalla vittima.
I campioni sono assegnati a un cluster di aggressori se hanno un punteggio di distanza a coppie coerente con una relazione ?non correlata? con i campioni della vittima, e una relazione ?self? con altri campioni appartenenti allo stesso cluster di aggressori. Ogniqualvolta un nuovo campione ? coerente con ?non correlato? alla vittima e agli aggressori gi? appartenenti a altri cluster di aggressori, ? definito un nuovo cluster di aggressori.
In alternativa, un algoritmo di clustering basato sul punteggio silhouette, come dettagliato per il caso di un?applicazione di diagnosi prenatale non invasiva, pu? essere usato per assegnare ciascun campione individuale a un cluster omogeneo.
Vantaggiosamente, nel caso dell?identificazione forense, i campioni con un punteggio di distanza a coppie coerente con una relazione ?famigliare? (come ottenuta con il tipo di analisi NIPD - diagnosi prenatale non invasiva) possono essere interpretati come ?campioni misti?, poich? probabilmente contengono DNA da due individui non correlati (vittima e aggressore, o aggressori diversi), simile al caso di campioni ?famigliari? nell?applicazione NIPD, che contengono DNA da un genitore di sesso femminile e un genitore di sesso maschile non correlato.
Vantaggiosamente, le informazioni del numero di copie per i cromosomi sessuali, ottenuti dagli stessi dati di sequenziamento dell?intero genoma a bassa profondit?, possono essere usate per raffinare ulteriormente e/o confermare la classificazione basata su un punteggio di distanza a coppie raffinato.
Nel caso di disaccoppiamento sessuale tra vittima e aggressori, come ? comune nell?evidenza di aggressioni sessuali, le informazioni del numero di copie sul cromosoma X e Y possono aiutare a informare la classificazione del campione come vittima o aggressore.
In una forma di realizzazione preferita, detto almeno un cluster di riferimento ? composto da campioni contenenti DNA da soltanto uno e lo stesso individuo corrispondente a una vittima in un?investigazione forense, comprendente inoltre definire almeno un cluster di aggressori, comprendente campioni contenenti DNA da soltanto uno e lo stesso individuo, diverso dalla vittima.
In un?altra forma di realizzazione preferita, una pluralit? di campioni ottenuti da un?evidenza forense mista con contributori di DNA multipli, ciascun campione contenente una o pi? cellule, ? analizzata secondo il metodo, comprendente inoltre definire almeno un cluster di aggressori comprendente campioni contenenti DNA da soltanto uno e lo stesso individuo.
In una forma di realizzazione preferita, aliquote di DRS-WGA da una pluralit? di campioni appartenenti ciascuno allo stesso di detto almeno un cluster di aggressori sono miscelate insieme, producendo cos? per ciascun cluster un campione di WGA-DNA individuale singolo corrispondente, consentendo cos? di eseguire ulteriori analisi del DNA su detto campione di WGA-DNA individuale singolo. Il vantaggio di questo approccio ? che i potenziali drop-out allelici casuali che si verificano in un campione monocellulare sono complementati dal segnale da altre cellule individuali, producendo cos? un profilo pi? completo. Questo approccio ? particolarmente vantaggioso quando il DNA di ciascun campione monocellulare da un individuo ? fortemente degradato. Questo pu? accadere in particolare per i cosiddetti cold case, specialmente quando la prova ? stata conservata a temperatura ambiente, o i casi in cui un campione di tessuto della vittima ? stato fissato in formalina e immerso in paraffina per uso successivo.
Un?altra forma di realizzazione preferita comprende unire per cluster dati di analisi genetica di almeno un tipo di saggio, da una pluralit? di campioni appartenenti a ciascuno di detti almeno un cluster perpetratore, producendo per ciascuno di detti almeno un cluster perpetratore dati di DNA da WGA di singolo individuo corrispondenti.
In una forma di realizzazione preferita, detto almeno un tipo di saggio ? selezionato dal gruppo costituito da: a) analisi di microsatelliti;
b) analisi di polimorfismo a singolo nucleotide;
c) sequenziamento mirato parallelo massivo;
d) sequenziamento dell?intero genoma.
Le Figure 11A e 11B mostrano le prestazioni di classificazione di campioni individuali rispetto a campioni non correlati con al massimo una componente del 50% di campioni ?self?. Un classificatore basato su una soglia variabile sul punteggio di similarit? a coppie ? usato per discriminare i campioni di un individuo dai campioni misti. La soglia ? impostata a valori variabili dalla mediana della distribuzione del punteggio di similarit? ?self? alla mediana della distribuzione del punteggio di similarit? dei campioni ?misti?. Il numero di letture ? mantenuto costante a 500.000 letture. A) Valori di TPR e 1-PPV per il classificatore man mano che la soglia varia, a diverse eterozigosit? medie (soglia AvHet). B) Soglia del punteggio di similarit? a coppie (linea continua grigia; asse Y secondario) necessaria per ottenere un PPV di almeno 0,999 e il corrispondente TPR (asse Y primario) come funzione dell?eterozigosit? media (asse X). I grafici mostrano che un?alta sensibilit? (TPR ? 0,99) ? ottenuta con insiemi di SNP selezionati usando una soglia di eterozigosit? media da 0,2 fino a 0,495 per la classificazione famigliare-?self? e fino a 0,48 per la classificazione ?self?-misto con valori di sensibilit? che diminuiscono rapidamente dopo questi valori.
La Figura 12 mostra la distribuzione di punteggi di similarit? a coppie (concordanza) calcolati per campioni accoppiati dello stesso individuo (?self?), per campioni accoppiati dove uno dei campioni contiene un 50% di componente dallo stesso individuo dell?altro campione (misto_1/2), per campioni accoppiati dove uno dei campioni contiene 1/3 (33%) dello stesso individuo come ?self? e un 66% di componente dello stesso individuo dell?altro campione (misto_1/3), per campioni accoppiati appartenenti a individui diversi (non correlati), come funzione dell?eterozigosit? media (intervallo = 0,2-0,499). Il numero di letture ? mantenuto costante a 500.000 letture. Classificatore basato sul punteggio di similarit? a coppie mostrato come linea tratteggiata.
I termini aggressore e vittima usati sopra devono essere intesi solo come guida e aiuto nella comprensione. ? evidente agli esperti nella tecnica che il metodo di cui sopra ? applicabile, senza allontanarsi dall?invenzione, anche ad altri ambiti di identificazione umana, come l?identificazione delle singole vittime di un disastro, dove il significato del cluster ? solo modificato da aggressore a un nome arbitrario diverso.
Esempio 14 - Applicazione di identificazione del campione nel flusso di lavoro del laboratorio di oncologia.
In un?altra forma di realizzazione preferita, il metodo secondo l?invenzione ? usato per accoppiare campioni appartenenti allo stesso paziente e rilevando i possibili scambi di campione o le possibili contaminazioni incrociate da campioni appartenenti a pazienti diversi. Per esempio, questo pu? essere particolarmente vantaggioso quando si lavora con campioni FFPE monocellulari. Infatti, ? estremamente difficile ottenere informazioni genomiche esaustive da singole cellule (o nuclei) estratti da FFPE a causa del danno al DNA causato dalla fissazione. L?STR o anche il sequenziamento mirato per SNP possono essere non pratici. Tuttavia, usando il metodo secondo l?invenzione ? ancora possibile distinguere i campioni.
Le Figure da 13A a 13C mostrano la classificazione di recuperi di singole cellule da campioni di FFPE in base all?identit? degli individui. I prodotti monocellulari di WGA sono stati ottenuti come descritto in dettaglio in Mangano C. et al., ?Precise detection of genomic imbalances at single-cell resolution reveals intra-patient heterogeneity in Hodgkin?s lymphoma?, Blood Cancer Journal volume 9, Numero articolo: 92 (2019). La Figura 13A mostra un grafico a sciame che mostra punteggi di similarit? a coppie di campioni accoppiati appartenenti allo stesso individuo (?self?) o a individui diversi (no correlati). I dati sono suddivisi in base al segnale DLRS del numero di copie dell?intero genoma (asse X), dove lowDLRS corrisponde ai campioni accoppiati con DLRS < 0,4, indicativo di un basso rumore di segnale e highDLRS corrisponde a campioni accoppiati dove almeno uno dei campioni nella coppia mostra un DLRS ? 0,4, indicativo di un altro rumore di segnale. Per entrambi i bin i grafici mostrano una separazione evidente, in termini di punteggio di similarit? a coppie, tra campioni ?self? e non correlati. La Figura 13B mostra i punteggi silhouette per diversi numeri di cluster, usati come input per il clustering KMeans di punteggi di similarit? a coppie, mostrando il punteggio pi? elevato per 4 cluster. La Figura 13C mostra la mappa di calore che mostra punteggi di similarit? tra tutti e 17 i recuperi cellulari in scala di grigio, con i colori pi? scuri che indicano una similarit? pi? elevata; i cluster sono etichettati mediante etichette colore di riga e colonna; a scopi di visualizzazione, le righe e le colonne sono ordinate mediante clustering gerarchico basato sulla distanza euclidea.
Esempio 15 - Applicazione dell?identificazione del campione nello screening genetico preimpianto (PGS).
In un?altra forma di realizzazione preferita, il metodo secondo l?invenzione ? usato per analizzare campioni derivanti da un mezzo di coltura embrionale esausto acellulare. Come noto nella tecnica, ? vantaggioso valutare gli embrioni per prioritizzare per l?impianto in modo da aumentare il tasso di ritenzione e il successo della procedura. Le tecniche basate sul mezzo di coltura esausto acellulare sono attraenti perch? semplificano il flusso di lavoro e possono essere meno invasive per l?embrione in fase di sviluppo. Tuttavia, ? stata riportata contaminazione da DNA materno nel mezzo di coltura ed ? stato mostrato che compromette la risoluzione del PGS nel rilevare aneuploidie nel feto.
In una forma di realizzazione della presente invenzione in questo contesto di applicazione il riferimento materno ? usato come riferimento per ?self? (genitore di sesso femminile). Il punteggio di similarit? a coppie con il campione di mezzo di coltura embrionale esausto acellulare ? computato secondo l?invenzione. Detto punteggio di similarit? a coppie ? usato per stimare la contaminazione dal DNA materno rispetto al DNA embrionale. Un punteggio di similarit? a coppie minore o uguale al valore mediano atteso per un DNA di tipo ?famigliare? rispetto al riferimento materno ? usato per assumere il 100% di purezza del DNA embrionale. Un punteggio di similarit? a coppie uguale o maggiore al valore mediano atteso per un DNA di tipo ?self? rispetto al riferimento materno ? usato per assumere lo 0% di purezza del DNA embrionale (tutto DNA materno) nel campione acellulare. Un valore intermedio di similarit? a coppie indica un grado di contaminazione dal DNA materno. Questo valore di contaminazione pu? essere usato come input nell?analisi di profilazione del numero di copie dell?intero genoma basata sui dati di sequenziamento dell?intero genoma a bassa profondit?, in modo da compensare per la potenziale diluizione - dovuta al segnale mescolato derivante dal genoma materno diploide normale - del segnale del numero di copie proveniente da potenziale aneuploidia o da variazioni del numero di copie sub-cromosomiche dell?embrione. In questo modo, grazie alla compensazione, la sensibilit? del chiamante del numero di copie ? meno colpito dalla diluizione del segnale. Inoltre, il valore di contaminazione pu? essere usato per valutare l?idoneit? del campione per rilevare in modo affidabile le variazioni del numero di copie di una data dimensione, poich? il grado di fondo materno diploide pu? compromettere la rilevazione di CNV sub-cromosomici, ad esempio microdelezioni.
La Figura 14 mostra una simulazione eseguita miscelando in silico proporzioni diverse di sequenze di DNA da singole cellule fetali con sequenze di cellule materne. La linea continua corrisponde al punteggio di similarit? a coppie media a diverse percentuali di input fetale. L?area ombreggiata corrisponde all?intervallo di confidenza del 95%. La linea tratteggiata mostra un esempio di un campione misto con una % nota di componente materno (80%) e un punteggio di similarit? a coppie con il riferimento materno = 0,807, che secondo il modello hanno una componente fetale media prevista = 27,7% (IC = 25,4%-30,7%) corrispondente a una contaminazione stimata da DNA materno ? 75%.
Le Figure 15A e 15B mostrano l?analisi del numero di copie dell?intero genoma di un campione misto ottenuto mediante miscelazione in silico di proporzioni diverse di sequenze di DNA da cellule singole fetali (20%) con sequenze di cellule materne (80%). La Figura 15A mostra un profilo del numero di copie dell?intero genoma; ogni punto corrisponde a un bin del genoma di 10 Mbp. La Figura 15B mostra un numero di copie dell?intero genoma dopo aver applicato un fattore di correzione = 0,75, basato sulla contaminazione percentuale stimata da DNA materno basato sul punteggio di similarit? a coppie con il riferimento materno. Le alterazioni statisticamente significative sono mostrate come linee continue nere.
Esempio 16 - Applicazione all?identificazione del campione nell?autenticazione della linea cellulare.
In un?altra forma di realizzazione preferita, il metodo secondo l?invenzione ? usato per autenticare linee cellulari usate nei laboratori di ricerca.
In questa forma di realizzazione, ? dapprima creato un database di riferimento che raccoglie - da tutti i tipi di linee cellulari di riferimento - i dati della WGS a bassa profondit? di base secondo il metodo, cos? che i dati da questo database di riferimento sono usati per autenticare la linea cellulare sottoposta a test.
In una forma di realizzazione preferita per questa applicazione, i campioni di partenza sono preferibilmente selezionati dal gruppo composto da (i) un pool di cellule o (ii) DNA estratto da un pool di cellule.
In questo modo:
- per il campione di riferimento di linee cellulari pure ? ottenuto un profilo medio complessivo della linea cellulare, che meglio riassume la diversit? collegata all?eterogeneit? cellulare;
- per il campione sottoposto a test, inoltre, pu? essere osservata una potenziale contaminazione da un?altra linea cellulare. Una soglia basata sulla distribuzione dei punteggi di similarit? tra le ripetizioni del saggio pu? essere usata per chiamare una contaminazione, con un certo grado di confidenza, se il punteggio di similarit? ? minore di quella soglia minima. Inoltre, usando un approccio simile a quanto riportato sopra per l?applicazione allo screening genetico preimpianto, pu? essere ottenuta una misura indiretta della quantit? di contaminazione, confrontando il punteggio di similarit? osservato del campione sottoposto a test a una curva di calibrazione che rappresenta il punteggio di similarit? atteso come funzione della contaminazione di un ?self? puro da parte di un altro campione generico ?non correlato?.
Il numero di cellule in detto pool ? preferibilmente nell?intervallo [50-1.500]. Il limite minore di 50 fornisce un minimo di diversit? rappresentativo dell?eterogeneit? genomica (se presente). Inoltre, questo limite inferiore ? utile - nel campione sottoposto a test - per la rilevazione di una potenziale contaminazione da un?altra linea cellulare con una sensibilit? pi? alta, poich? un basso livello di contaminazione - ad esempio il 10% - pu? non riuscire nel complesso a essere rappresentato in un pool cellulare con un numero minore di cellule, o comunque avere come risultato un campione in cui il contaminante minore ? sottorappresentato rispetto alla % reale nella popolazione, riducendo cos? potenzialmente la sensibilit? complessiva nel rilevare detta contaminazione. Il limite superiore di 1500 (vale a dire equivalente a 10ng) ? preferibile per assicurare una buona amplificazione WGA senza l?inibizione che pu? verificarsi con il sovraccarico della reazione di WGA con DNA di input o l?effetto inibitorio di un lisato di cellula intera quando si parte direttamente dalle cellule senza la purificazione del DNA.
Esempio 17 - Applicazione al trapianto allogenico di cellule ematopoietiche.
In un?altra forma di realizzazione preferita, il metodo secondo l?invenzione ? usato per la valutazione dell?origine delle cellule endoteliali in pazienti con trapianto allogenico di cellule ematopoietiche (allo-HSCT).
In una forma di realizzazione preferita dell?invenzione, l?isolamento di cellule endoteliali individuali ? eseguito da
1. sezioni di FFPE, in seguito a disaggregazione, colorando con marcatori cellulari endoteliali, come CD146, e separazione delle singole cellule come per esempio con DEPArray?;
2. o sangue periferico, in seguito a arricchimento e colorazione delle cellule endoteliali circolanti (CEC) usando CELLSEARCH<? >AutoPrep e il kit CEC, e la separazione delle singole cellule, come per esempio con DEPArray?.
? fornito un primo campione di riferimento comprendente DNA della linea germinale dell?ospite. Le singole cellule endoteliali sono isolate dai pazienti ed ? valutato il loro punteggio di similarit? con il campione dell?ospite di riferimento. Se la cellula sottoposta a test ? classificata come ?self? significa che ? confermata essere di origine dell?ospite, mentre se ? classificata come non correlata ? classificata come appartenente al donatore non correlato.
Il metodo pu? essere applicato usando anche un?analisi di parentela per identificare le cellule del donatore nel caso in cui il donatore ? legato all?ospite da una relazione di parentela.
Se, inoltre, ? disponibile un campione di DNA della linea germinale del donatore, pu? essere generato un secondo campione di riferimento come conferma della classificazione.
Dettagli generali addizionali e considerazioni che sono applicabili su diverse applicazioni
Relazione univoca fra locus e lunghezza dei frammenti nella DRS-WGA
Pi? in dettaglio, il metodo secondo l?invenzione sfrutta il fatto che nella DRS-WGA, come la Ampli1? WGA, ciascun locus nel genoma ? rappresentato nella libreria WGA solo in frammenti aventi una lunghezza specifica in coppie di basi. Questa propriet? pu? essere denominata ?Relazione Univoca fra Locus e Lunghezza dei Frammenti? (L2FLUR). Considerando un locus normale generico, per esempio un locus per un SNP polimorfico, detto locus sar? rappresentato solo in un frammento di una data lunghezza, uguale alla grandezza del frammento corrispondente (misurata sull?uno e sull?altro dei singoli filamenti) in seguito a digestione mediante l?enzima di restrizione, pi? due volte la lunghezza degli adattatori di WGA universali (la lunghezza del primer LIB1 nel caso della Ampli1 WGA). Quando la WGA ? sequenziata in seguito alla preparazione della libreria secondo i kit Ampli1 LowPass, ? introdotta una lunghezza aggiuntiva prevedibile legata alle lunghezze degli adattatori di sequenziamento e dei barcode, che sono note.
Riproducibilit? e ridotta rappresentazione del genoma Nel metodo secondo l?invenzione, la propriet? della DRS-WGA combinata con la preparazione della libreria casuale priva di frammentazione ? sfruttata per produrre una rappresentazione ridotta del genoma (rispetto alla dimensione originale del genoma di riferimento dei campioni), per cui i dati di sequenziamento a bassa profondit?, per un dato numero di letture, aumentano la probabilit? di coprire gli stessi frammenti su campioni diversi, rispetto a quando un processo casuale ? intrinseco nella WGA (ad esempio come con i metodi di WGA che usano l?amplificazione di spostamento multipla o DOP-PCR) e/o nella preparazione della libreria di sequenziamento (ad esempio mediante frammentazione casuale o tagmentazione.
In altre parole, si verifica un sottocampionamento deterministico del genoma di riferimento. Il termine ?deterministico? ? essenziale per il fatto che - per qualsiasi numero di letture dato - la sovrapposizione dei loci genomici coperti su due qualsiasi campioni accoppiati ? pi? alta, aumentando cos? il numero di loci altamente polimorfici disponibili per misurare la similarit? del DNA di questi campioni.
Vale la pena di sottolineare che l?approccio ? flessibile, in quanto differenti enzimi deterministici possono essere idonei a seconda della risoluzione desiderata e/o della piattaforma di sequenziamento e del protocollo di sequenziamento usati. Per esempio, possono essere usati enzimi a taglio frequente differenti. Negli esempi di Ampli1 WGA, il motivo TTAA ? il Sito di Restrizione. Altri cutter da quattro basi possono essere usati per tagliare a siti di restrizione diversi, come GTAC, CTAG, ottenendo una distribuzione diversa dei frammenti, che consentono di accordare il numero di loci in comune su diversi campioni per un dato numero di letture.
Quando la DRS-WGA ? inizialmente purificata dopo la PCR primaria, avviene una prima selezione della grandezza, per cui i frammenti pi? corti della WGA sono rimossi insieme ai primer liberi. Vantaggiosamente, il metodo usa un?ulteriore fase di selezione. Questa fase aggiuntiva di selezione pu? essere conseguita selezionando in base alla grandezza certi frammenti dalla WGA primaria e/o generando la libreria di sequenziamento parallelo massivo mediante un metodo che restringe i frammenti sequenziabili. Per esempio, kit di Ampli1 LowPass includono una fase intrinseca di selezione della grandezza che ? sufficiente per avere un impatto positivo sul processo. In WO2017/178655, ? effettuata una selezione della grandezza su un gel. In WO2019/016401, fasi consecutive di purificazione con l?uso di biglie SPRI producono efficacemente una prima selezione della grandezza, per cui la lunghezza di coppie di basi ? ristretta a un intervallo che dipende sostanzialmente dalla concentrazione di biglie SPRI. In aggiunta, il sequenziatore pu? anche introdurre una selezione della grandezza di per s?, poich? frammenti pi? lunghi genereranno dati di sequenza con efficienza sempre minore (per esempio a causa dell?efficienza della PCR in emulsione in Ion Torrent, o della PCR a ponte per la formazione di cluster nelle piattaforme Illumina).
Nella DRS-WGA vi ? anche una relazione deterministica fra la grandezza media della libreria di sequenziamento e il rapporto di sottocampionamento del genoma di riferimento.
Un?analisi in silico, effettuata sulla digestione TTAA del genoma umano di riferimento hg19 fornisce un totale di circa 19 M di frammenti includendo tutte le sequenze cromosomiche, che si traduce in 38 M di frammenti su un genoma umano diploide normale. A titolo di esempio, selezionando in silico, i frammenti nell?intervallo di 175-225 bp saranno solo 1.252.559, coprendo approssimativamente un totale di 248 M di basi su 3,09 B di basi, vale a dire l?8,02% del genoma umano di riferimento. Si veda la Tabella 1 di seguito, in cui il numero di frammenti, le coppie di basi totali e il rapporto di riduzione (%) sono elencati per intervalli differenti di selezione in base alla grandezza. Questo sottocampionamento pu? essere denominato Rapporto di Riduzione (RR).
Tabella 1
Rapporto di riduzione dipendente dalla selezione delle dimensioni del frammento
In una forma di realizzazione preferita dell?invenzione, l?obiettivo ? di ottenere una buona risoluzione nel punteggio di similarit? a coppie tra i campioni. Per aumentare la risoluzione per un dato numero di letture che pu? essere disponibile per ciascun campione (legato al costo del sequenziamento per campione), la sovrapposizione nelle coppie di basi coperte tra due campioni qualsiasi ? rilevante, poich? solo le regioni coperte in entrambi i campioni sono confrontate. Cos?, aumentare l?intervallo di coppie di basi dei frammenti sequenziati pu? aiutare a ridurre la diversit? dei frammenti, aumentando la sovrapposizione tra campioni diversi.
Vi sono tuttavia dei compromessi che dipendono dall?applicazione. In certe forme di realizzazione dell?invenzione, oltre all?identificazione dell?origine del DNA di un campione, i dati di sequenziamento dell?intero genoma a bassa profondit? servono anche un doppio scopo di generare un profilo del numero di copie dell?intero genoma dei campioni stessi, come ? il caso per l?applicazione NIPD o per il mezzo di coltura esausto acellulare degli embrioni.
In questo caso, un intervallo di frammenti di larghezza simile, ma centrati su frammenti pi? corti, aumenta la diversit? e pu? produrre risultati e una risoluzione migliori per il chiamante del numero di copie, poich? c?? un numero pi? elevato di frammenti che contribuiscono alle conte di lettura in una data finestra genomica.
Selezione della grandezza dei frammenti
Possono anche essere usate differenti tecniche di selezione della grandezza per conseguire il Rapporto di Riduzione desiderato, a seconda del numero scelto di letture di sequenziamento per campione e/o della risoluzione. Per una data lunghezza media dei frammenti - pu? essere ottenuto un numero minore o maggiore di frammenti totali selezionando una banda rispettivamente minore o maggiore centrata su quella lunghezza media dei frammenti.
Strumenti come il Pipping prep (Sage Science) possono essere usati per avere un controllo pi? stretto sulla distribuzione di lunghezza dei frammenti e, usando un?analogia con i filtri passa banda, anche nell?avere un pi? alto fattore Q definito come
Q=Fcentro/DeltaF = [(Fmin+FMAX)/2]/(FMAX-Fmin)
in cui
Fcentro = (Fmin+FMAX)/2 ? la grandezza media dei Frammenti
DeltaF = FMAX-Fmin ? l?ampiezza dell?intervallo di grandezze dei frammenti
Fmin ? la grandezza dei frammenti al di sotto della quale i frammenti sono rappresentati a un livello relativo convenzionale (per esempio 1/10=10%) o meno rispetto al numero di picco normalizzato, in-banda, di frammenti per bin.
Fmax ? la grandezza dei frammenti al di sopra della quale i frammenti sono rappresentati allo stesso livello relativo convenzionale o meno rispetto al numero di picco normalizzato, in-banda, di frammenti per bin.
Con il sequenziamento Illumina, la modalit? di sequenziamento ? preferibilmente il sequenziamento paired end, poich? il genoma coperto aumenta e pertanto il numero di loci per milione di coppie di letture aumenta, incrementando la risoluzione. Tuttavia, quando la grandezza selezionata per il sequenziamento giunge al di sotto di una certa grandezza, il sequenziamento paired end non aumenter? la copertura poich? le due letture appaiate si sovrappongono completamente.
Con il sequenziamento Ion Torrent, lunghezze pi? alte delle letture aumenteranno proporzionalmente il genoma coperto e pertanto il numero di loci per milione di letture aumenta, incrementando la risoluzione. Nel kit Ampli1 LowPass IonTorrent (Menarini Silicon Biosystems), i campioni con barcode riuniti in pool sono selezionati in base alla grandezza, su un gel o con altri metodi come Pippin Prep. La scelta di differenti fattore Q e lunghezza media dei frammenti pu? fornire risoluzioni differenti su una base per milione di letture.
Un vantaggio di riunire in pool i campioni e di selezionare in base alla grandezza la libreria per il sequenziamento in seguito, ? che tutti i campioni avranno la stessa distribuzione di lunghezze dei frammenti e a sua volta ci? massimizzer? la sovrapposizione di genoma coperto fra campioni differenti, come richiesto per fornire un numero pi? alto di loci altamente polimorfici per il confronto.
D?altro lato, quando si usa il kit Ampli1 LowPass per Illumina, le differenti librerie LowPass sono inizialmente selezionate in base alla grandezza e quindi riunite in pool, ottenendo selezioni in base alla grandezza leggermente differenti fra campioni differenti, riducendo cos? il genoma coperto fra campioni differenti.
Una selezione in base alla grandezza dopo aver riunito in un pool le librerie, sebbene non richiesta dal protocollo standard, pu? essere impiegata per aumentare la sovrapposizione fra campioni, che pu? essere di beneficio nell?analisi basata sui controlli.
? tuttavia importante che ci sia sovrapposizione tra la distribuzione dei frammenti di DRS-WGA sequenziati su diversi campioni, poich? la riduzione della sovrapposizione nella distribuzione dei frammenti pu? diminuire il numero di loci polimorfici in comune per la valutazione del punteggio di similarit? a coppie, che a sua volta riduce la risoluzione del metodo.
Secondo la presente invenzione, la combinazione di DRS-WGA e LPWGS porta a una rappresentazione ridotta dai campioni di input. Sequenziando con NGS, questa libreria di rappresentazione ridotta del genoma di riferimento a sua volta accorcia il genoma coperto nell?intervallo di coppie di basi selezionato (o in qualche modo sequenziabili), ed ? ottenuta una sovrapposizione effettivamente pi? elevata del genoma coperto su campioni diversi, su una base per letture.
Questo effetto pu? essere sfruttato secondo l?invenzione in modi differenti, a seconda della situazione.
Preferibilmente, la preparazione della libreria dalla DRS-WGA ? uno dei metodi divulgati in WO2017/178655 o WO2019/016401.
Determinazione della soglia del punteggio di similarit? e chiamata di identit?
Facoltativamente, per il punteggio di similarit? ottenuto da fasi precedenti pu? essere imposta una soglia per definire le classi di campioni. Nella maggior parte dei casi, il numero di loci polimorfici disponibile per il confronto su due campioni aumenter? a profondit? di lettura pi? elevate. Per permettere l?imposizione di una soglia per il punteggio di similarit? usando un valore precalcolato, il numero di letture mappate in ciascun campione ? preferibilmente normalizzato a un numero fisso di letture. Tale normalizzazione ? eseguita campionando in modo casuale le letture, mappando sul genoma di riferimento, fino a che ? raggiunto il numero desiderato (preferibilmente contenuto nell?intervallo che va da 100.000 di letture mappate a 10.000.000 di letture mappate).
In una forma di realizzazione preferita dell?invenzione, una relazione di ?self? tra due campioni ? chiamata se il punteggio di similarit? ? maggiore di una prima soglia selezionata.
In una forma di realizzazione preferita dell?invenzione, una relazione di ?non correlato? tra due campioni ? chiamata se il punteggio di similarit? ? minore di una seconda soglia selezionata.
Nell?applicazione alla diagnosi prenatale non invasiva, una relazione ?di parentela? tra due campioni ? chiamata se il punteggio di similarit? ? compreso tra una terza soglia, uguale o minore di detta prima soglia, e una quarta soglia, uguale o maggiore di detta seconda soglia.
Nell?applicazione all?identificazione umana forense, una relazione ?mista? tra due campioni ? chiamata se il punteggio di similarit? ? compreso tra una terza soglia, uguale o minore di detta prima soglia, e una quarta soglia, uguale o maggiore di detta seconda soglia.
Dichiarazione ai sensi dell?Art. 170bis(2) del Codice Italiano in Materia di Propriet? Intellettuale
Il materiale biologico di origine umana usato nell?invenzione ? stato acquisito secondo le disposizioni di legge applicabili.

Claims (31)

RIVENDICAZIONI
1. Metodo per analizzare il grado di similarit? di almeno due campioni in una pluralit? di campioni comprendenti DNA genomico, il metodo comprendendo le fasi di:
a) fornire una pluralit? di campioni comprendenti DNA genomico;
b) effettuare, separatamente su ciascun campione, un?amplificazione deterministica dell?intero genoma mediante siti di restrizione (DRS-WGA) di detto DNA genomico;
c) preparare una libreria di sequenziamento parallelo massivo utilizzando una reazione di PCR con primer di fusione WGA/adattatore di sequenziamento per ciascun prodotto di detta DRS-WGA;
d) effettuare un sequenziamento dell?intero genoma a bassa profondit? a una profondit? di sequenziamento media < 1x su detta libreria di sequenziamento parallelo massivo;
e) allineare per ciascun campione le letture ottenute nella fase d) su un genoma di riferimento;
f) estrarre per ciascun campione il contenuto allelico in corrispondenza di una pluralit? di loci polimorfici; g) calcolare un punteggio di similarit? a coppie per gli almeno due campioni come funzione del contenuto allelico misurato in corrispondenza di detta pluralit? di loci;
h) determinare il grado di similarit? degli almeno due campioni sulla base del punteggio di similarit?.
2. Metodo secondo la rivendicazione 1, in cui detto sequenziamento dell?intero genoma a bassa profondit? ? effettuato a una copertura < 0,01x, preferibilmente a una copertura < 0,05x, pi? preferibilmente a una copertura < 0,1x, ancora pi? preferibilmente a una copertura < 0,5x.
3. Metodo secondo la rivendicazione 1 o 2, in cui detta pluralit? di loci polimorfici comprende loci polimorfici con eterozigosit? media > 0,499, preferibilmente con eterozigosit? media > 0,49, pi? preferibilmente con eterozigosit? media > 0,4, ancor pi? preferibilmente con eterozigosit? media > 0,3, ancor pi? preferibilmente con eterozigosit? media > 0,2.
4. Metodo secondo una qualsiasi delle rivendicazioni 1-3, in cui detta pluralit? di loci polimorfici comprende > 200.000 loci, preferibilmente > 300.000 loci, pi? preferibilmente > 500.000 loci, ancor pi? preferibilmente > 1.000.000 loci.
5. Metodo secondo una qualsiasi delle rivendicazioni 1-4, in cui detta similarit? a coppie ? calcolata computando la correlazione della frequenza di alleli B sui loci coperti da almeno una lettura negli almeno due campioni.
6. Metodo secondo una qualsiasi delle rivendicazioni 1-4, in cui detto punteggio di similarit? a coppie ? calcolato computando il valore medio di concordanza sui loci coperti da almeno una lettura in entrambi i campioni accoppiati, in cui il valore di concordanza per ciascun locus ? assegnato uno dei seguenti valori:
a) 1 se gli alleli chiamati sono identici;
b) 0 se gli alleli chiamati sono completamente differenti;
c) 0,5 se gli alleli chiamati sono parzialmente sovrapposti.
7. Metodo secondo una qualsiasi delle rivendicazioni precedenti, comprendente inoltre una fase di definire un gruppo di cluster di campioni che condividono una propriet? comune selezionata dal gruppo costituito dall'identit? dell?individuo (o dei pi? individui) che contribuisce/contribuiscono sostanzialmente con DNA ai campioni di un cluster, oppure la propriet? di contenere insufficienti quantit? di DNA e/o la propriet? di contenere DNA molto degradato oppure DNA di origine incerta.
8. Metodo secondo la rivendicazione 7, in cui gli almeno due campioni sono assegnati ad almeno un cluster per mezzo di un classificatore utilizzando come input detto punteggio di similarit? a coppie.
9. Metodo secondo la rivendicazione 8, in cui detto classificatore utilizza come ulteriore input almeno un valore, misurato su detti dati di sequenziamento dell?intero genoma a bassa profondit?, selezionati dal gruppo comprendente:
a) DLRS: derivative log ratio spread;
b) R50: percentuale di frammenti di WGA coperti dal 50% delle letture sequenziate sui frammenti totali di WGA coperti da almeno una lettura;
c) YFRAC: frazione di letture mappate sul cromosoma Y; d) Aberrante: percentuale di genoma che corrisponde ad aggiunte o perdite rispetto a ploidia cellulare mediana;
e) Chr13: ploidia del cromosoma 13;
f) Chr18: ploidia del cromosoma 18;
g) Chr21: ploidia del cromosoma 21;
h) RSUM: deviazione assoluta media dal pi? vicino livello di numero di copia intero, calcolato sull?evento di aberrazione di numero di copie con deviazione assoluta massima dalla ploidia cellulare mediana;
i) Mix_score: RSUM z-score, calcolato sull?evento di aberrazione di numero di copie con deviazione assoluta massima dalla ploidia cellulare mediana; e j) Deg_score: numero di eventi di perdita piccoli (< 10 Mbp, che ? comune in campioni degradati).
10. Metodo secondo la rivendicazione 8, in cui il numero di detti cluster ? calcolato
a) selezionando un numero di cluster di prima iterazione massimizzando il punteggio silhouette medio;
b) per ciascuno di detti cluster di prima iterazione, computando il punteggio silhouette di ciascuno dei detti campioni appartenente al cluster di prima iterazione, in cui i campioni appartenenti al cluster avente un punteggio silhouette inferiore a una soglia fissata compresa nell?intervallo 0,19-0,21, sono assegnati a un nuovo cluster.
11. Metodo secondo la rivendicazione 10, in cui detto gruppo di cluster comprende uno o pi? cluster di identit? comprendenti campioni contenenti DNA da soltanto uno e lo stesso individuo.
12. Metodo secondo la rivendicazione 11, in cui, in presenza di pi? cluster di identit?, la cardinalit? di detta pluralit? di cluster di identit? corrispondente al numero di contributori di DNA individuali in detta pluralit? di campioni.
13. Metodo secondo una qualsiasi delle rivendicazioni da 8 a 12, comprendente inoltre definire un gruppo di cluster di identit? mista, ciascuno di detti cluster di identit? mista comprendendo campioni contenenti DNA da almeno due individui.
14. Metodo secondo la rivendicazione 13, comprendente inoltre definire almeno un cluster ?no-call?, comprendente campioni contenenti DNA di origine incerta.
15. Metodo secondo una qualsiasi delle rivendicazioni da 8 a 14, in cui detta pluralit? di campioni comprende almeno un campione di riferimento e detto gruppo di cluster di identit? include almeno un cluster di riferimento, comprendente detto campione di riferimento.
16. Metodo secondo la rivendicazione 15, in cui detto almeno un campione di riferimento ? un campione da un individuo genitore di sesso femminile gravido.
17. Metodo secondo la rivendicazione 16, in cui detto gruppo di cluster di identit? contiene inoltre almeno un cluster famigliare composto da campioni di almeno un feto della gravidanza in atto di detto individuo genitore di sesso femminile.
18. Metodo secondo la rivendicazione 17, in cui detto cluster famigliare ? diviso in una pluralit? di cluster fetali composti da campioni che contengono DNA da soltanto uno e lo stesso feto.
19. Metodo secondo la rivendicazione 15, in cui detto almeno un cluster di riferimento ? composto da campioni contenenti DNA da soltanto uno e lo stesso individuo corrispondente a una vittima in un?investigazione forense, comprendente inoltre definire almeno un cluster di aggressori, comprendente campioni contenenti DNA da soltanto uno e lo stesso individuo, diverso dalla vittima.
20. Metodo secondo la rivendicazione 19, comprendente mescolare per cluster aliquote di DRS-WGA da una pluralit? di campioni che appartengono a ciascuno di detti almeno un cluster di aggressori, producendo per ciascun cluster un corrispondente campione di DNA da WGA di singolo individuo, ed eseguire un?ulteriore analisi del DNA su almeno uno di detti campioni di DNA da WGA di singolo individuo.
21. Metodo secondo la rivendicazione 19, comprendente unire per cluster dati di analisi genetica di almeno un tipo di saggio, da una pluralit? di campioni appartenenti a ciascuno di detti almeno un cluster di aggressori, producendo per ciascuno di detti almeno un cluster di aggressori dati di DNA da WGA di singolo individuo corrispondenti.
22. Metodo secondo la rivendicazione 21, in cui detto tipo di saggio ? selezionato dal gruppo costituito da:
a) analisi di microsatelliti;
b) analisi di polimorfismo a singolo nucleotide;
c) sequenziamento parallelo massimo a bersaglio; e d) sequenziamento dell?intero genoma.
23. Metodo secondo una qualsiasi delle rivendicazioni da 1 a 15, in cui detta pluralit? di campioni comprende campioni tumorali e/o campioni normali.
24. Metodo secondo la rivendicazione 1 o 15, in cui detta pluralit? di campioni comprende almeno un campione di riferimento contenente DNA da un individuo genitore di sesso femminile, e almeno un altro campione embrionale da detta pluralit? di campioni ? selezionato dal gruppo costituito da:
a) campioni contenenti DNA da un embrione derivato da detto individuo genitore di sesso femminile; e
b) campioni contenenti DNA da un terreno di coltura in cui ? stato coltivato un embrione, ottenuto da un embrione di detto individuo genitore di sesso femminile.
25. Metodo secondo la rivendicazione 24, comprendente inoltre effettuare uno screening genetico preimpianto su detto embrione analizzando aberrazioni cromosomiche per tutto il genoma da detti dati di sequenziamento dell'intero genoma a bassa profondit? da detto almeno un altro campione embrionale utilizzando un fattore di contaminazione corrispondente a una contaminazione materna misurata su detto almeno un campione embrionale come funzione di detta similarit? a coppie di detto almeno un altro campione embrionale da detto campione di individuo genitore di sesso femminile.
26. Metodo secondo la rivendicazione 15, in particolare per autenticazione di linea cellulare, in cui una pluralit? di cluster di riferimento ? generata da una pluralit? di campioni di DNA da linee cellulari, e detto gruppo di cluster di identit? contiene inoltre almeno un campione da una linea cellulare da autenticare.
27. Metodo secondo la rivendicazione 15, in particolare per investigare allotrapianti, in cui detto almeno un cluster di riferimento ? composto da campioni contenenti DNA di linea germinale da un paziente trapiantato, e detto gruppo di cluster di identit? contiene inoltre un cluster di donatore composto da campioni da un donatore allogenico di detto paziente trapiantato.
28. Metodo secondo la rivendicazione 17, in particolare per test di paternit? non invasivi, in cui detto almeno un campione di riferimento comprende un campione di riferimento di genitore di sesso maschile contenente DNA soltanto da detto genitore di sesso maschile, e detto almeno un cluster di riferimento comprende inoltre un cluster di identit? di genitore di sesso maschile comprendente detto campione di genitore di sesso maschile, in cui:
(i) se il punteggio di similarit? del campione famigliare rispetto al campione di genitore di sesso maschile ? coerente con la parentela, la paternit? ? confermata;
(ii) se il punteggio di similarit? del campione famigliare rispetto al campione di genitore di sesso maschile ? coerente con un individuo non correlato, la paternit? non ? confermata.
29. Metodo secondo la rivendicazione 17, in particolare per la valutazione di una gravidanza molare non invasiva, in cui detto almeno un campione comprende almeno un campione di cellula trofoblastica circolante e in cui, se detto punteggio di similarit? di campione di cellula trofoblastica rispetto ai campioni di genitore di sesso femminile ? coerente con campioni non correlati, ? confermata una mola completa.
30. Metodo secondo la rivendicazione 29, in cui detto almeno un campione comprende una pluralit? di campioni trofoblastici cellulari e in cui:
(i) se il punteggio di similarit? tra detti campioni di cellule trofoblastiche eccede l?atteso 99? percentile del punteggio di similarit? atteso per campioni ?self?, ? confermata una mola paterna omozigote P1P1.
(ii) se il punteggio di similarit? tra detti campioni di cellule trofoblastiche ? coerente con il punteggio di similarit? atteso per campioni ?self?, ? confermata una mola paterna eterozigote P1P2.
31. Metodo secondo la rivendicazione 30, in cui detto almeno un campione comprende inoltre un campione di genitore di sesso maschile e il punteggio di similarit? tra detti campioni di cellule trofoblastiche ? coerente con il punteggio di similarit? atteso da campioni ?self?, in cui:
(i) se detto punteggio di similarit? di dette cellule trofoblastiche rispetto al campione di genitore di sesso maschile ? coerente con il punteggio di similarit? atteso per campioni ?self?, ? confermata una mola paterna eterozigote P1P2;
(ii) se il punteggio di similarit? di dette cellule trofoblastiche rispetto al campione di genitore di sesso maschile ? inferiore al 99? percentile del punteggio di similarit? atteso per campioni ?self?, non ? confermata una mola paterna eterozigote P1P2.
IT102021000024101A 2021-09-20 2021-09-20 Metodo per analizzare il grado di similarita' di almeno due campioni utilizzando amplificazione deterministica dell'intero genoma mediante siti di restrizione (drs-wga) IT202100024101A1 (it)

Priority Applications (8)

Application Number Priority Date Filing Date Title
IT102021000024101A IT202100024101A1 (it) 2021-09-20 2021-09-20 Metodo per analizzare il grado di similarita' di almeno due campioni utilizzando amplificazione deterministica dell'intero genoma mediante siti di restrizione (drs-wga)
CN202280063537.5A CN117980502A (zh) 2021-09-20 2022-09-19 利用确定性限制位点全基因组扩增(drs-wga)分析至少两个样本的相似度的方法
TW111135366A TW202321461A (zh) 2021-09-20 2022-09-19 使用確定性限制位點全基因組擴增(drs-wga)分析至少兩個樣本之相似程度的方法
AU2022346271A AU2022346271A1 (en) 2021-09-20 2022-09-19 Method for analysing the degree of similarity of at least two samples using deterministic restriction-site whole genome amplification (drs-wga)
CA3231433A CA3231433A1 (en) 2021-09-20 2022-09-19 Method for analysing the degree of similarity of at least two samples using deterministic restriction-site whole genome amplification (drs-wga)
PCT/IB2022/058833 WO2023042173A1 (en) 2021-09-20 2022-09-19 Method for analysing the degree of similarity of at least two samples using deterministic restriction-site whole genome amplification (drs-wga)
IL311475A IL311475A (en) 2021-09-20 2022-09-19 A method for analyzing the degree of similarity of at least two samples using deterministic amplification of a whole genome at the limit site (DRS-WGA)
ARP220102537A AR127106A1 (es) 2021-09-20 2022-09-20 Método para analizar el grado de similitud de por lo menos dos muestras usando amplificación de genoma completo con sitio de restricción determinístico (drs-wga)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT102021000024101A IT202100024101A1 (it) 2021-09-20 2021-09-20 Metodo per analizzare il grado di similarita' di almeno due campioni utilizzando amplificazione deterministica dell'intero genoma mediante siti di restrizione (drs-wga)

Publications (1)

Publication Number Publication Date
IT202100024101A1 true IT202100024101A1 (it) 2023-03-20

Family

ID=78771055

Family Applications (1)

Application Number Title Priority Date Filing Date
IT102021000024101A IT202100024101A1 (it) 2021-09-20 2021-09-20 Metodo per analizzare il grado di similarita' di almeno due campioni utilizzando amplificazione deterministica dell'intero genoma mediante siti di restrizione (drs-wga)

Country Status (8)

Country Link
CN (1) CN117980502A (it)
AR (1) AR127106A1 (it)
AU (1) AU2022346271A1 (it)
CA (1) CA3231433A1 (it)
IL (1) IL311475A (it)
IT (1) IT202100024101A1 (it)
TW (1) TW202321461A (it)
WO (1) WO2023042173A1 (it)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877586A (zh) * 2024-01-03 2024-04-12 中国水产科学研究院珠江水产研究所 适用于zw/xy性别决定系统的性别特异标记检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000017390A1 (en) 1998-09-18 2000-03-30 Micromet Ag Dna amplification of a single cell
EP2152859B1 (en) 2007-05-04 2012-10-24 Silicon Biosystems S.p.A. Method and device for non- invasive prenatal diagnosis
WO2017178655A1 (en) 2016-04-15 2017-10-19 Menarini Silicon Biosystems S.P.A. Method and kit for the generation of dna libraries for massively parallel sequencing
EP3431611A1 (en) * 2017-07-21 2019-01-23 Menarini Silicon Biosystems S.p.A. Improved method and kit for the generation of dna libraries for massively parallel sequencing
WO2021019459A1 (en) * 2019-07-30 2021-02-04 Menarini Silicon Biosystems S.P.A. Method for analysing loss-of-heterozygosity (loh) following deterministic restriction-site whole genome amplification (drs-wga)

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000017390A1 (en) 1998-09-18 2000-03-30 Micromet Ag Dna amplification of a single cell
EP2152859B1 (en) 2007-05-04 2012-10-24 Silicon Biosystems S.p.A. Method and device for non- invasive prenatal diagnosis
WO2017178655A1 (en) 2016-04-15 2017-10-19 Menarini Silicon Biosystems S.P.A. Method and kit for the generation of dna libraries for massively parallel sequencing
EP3431611A1 (en) * 2017-07-21 2019-01-23 Menarini Silicon Biosystems S.p.A. Improved method and kit for the generation of dna libraries for massively parallel sequencing
WO2019016401A1 (en) 2017-07-21 2019-01-24 Menarini Silicon Biosystems S.P.A. ENHANCED METHOD AND KIT FOR DNA LIBRARY GENERATION FOR MASSIVELY PARALLEL SEQUENCING
WO2021019459A1 (en) * 2019-07-30 2021-02-04 Menarini Silicon Biosystems S.P.A. Method for analysing loss-of-heterozygosity (loh) following deterministic restriction-site whole genome amplification (drs-wga)

Non-Patent Citations (18)

* Cited by examiner, † Cited by third party
Title
ALBERTO FERRARINI ET AL: "A streamlined workflow for single-cells genome-wide copy-number profiling by low-pass sequencing of LM-PCR whole-genome amplification products", PLOS ONE, vol. 13, no. 3, 1 March 2018 (2018-03-01), pages e0193689, XP055679838, DOI: 10.1371/journal.pone.0193689 *
ARNESON ET AL., ISRN ONCOL., 14 March 2012 (2012-03-14), pages 710692
BOEVA, V. ET AL., BIOINFORMATICS, vol. 28, no. 3, 1 February 2012 (2012-02-01), pages 423 - 5
C FORCATO ET AL: "Multi-level genomic profiling of heterogeneous FFPE tumors with low tumor cellularity sorted by DEPArray technology", 50TH EUROPEAN SOCIETY OF HUMAN GENETICS CONFERENCE, ESHG 2017, vol. 26, 1 October 2018 (2018-10-01), pages 593 - 594, XP055680206, DOI: 10.1038/s41431-018-0247-7 *
FERRARINI ET AL., PLOSONE, vol. 13, no. 3, pages e0193689, Retrieved from the Internet <URL:https://doi.org/10.1371/journal.pone.0193689>
GENNY BUSON ET AL: "Abstract 2394: Scalable, rapid and affordable low-pass whole genome sequencing method for single-cell copy-number profiling on LM-PCR based WGA products", CANCER RESEARCH, vol. 76, no. 14 Supplement, 1 July 2016 (2016-07-01), US, XP055436316, ISSN: 0008-5472, DOI: 10.1158/1538-7445.AM2016-2394 *
HODGKINSON C.L. ET AL., NATURE MEDICINE, vol. 20, 2014, pages 897 - 903
K. ANSLINGERB. BAYER: "Whose blood is it? Application of DEPArray™ technology for the identification of individual/s who contributed blood to a mixed stain", INT J LEGAL MED, vol. 133, no. 2, 18 August 2018 (2018-08-18), pages 419 - 426
K. HUFFMANE. HANSONJ BALLANTYNE: "Recovery of single source DNA profiles from mixtures by direct single cell subsampling and simplified micromanipulation", SCIENCE & JUSTICE, vol. 61, January 2021 (2021-01-01), pages 13 - 25, XP086423746, DOI: 10.1016/j.scijus.2020.10.005
L.D. JEPPESEN ET AL.: "Cell-based non-invasive prenatal diagnosis in a pregnancy at risk of cystic fibrosis", PRENATAL DIAGNOSIS, 2020, pages 1 - 7
MANGANO C ET AL.: "Precise detection of genomic imbalances at single-cell resolution reveals intra-patient heterogeneity in Hodgkin's lymphoma", BLOOD CANCER JOURNAL, vol. 9, no. 92, 2019
MANGANO, C.FERRARINI, A.FORCATO, C. ET AL.: "Precise detection of genomic imbalances at single-cell resolution reveals intra-patient heterogeneity in Hodgkin's lymphoma", BLOOD CANCER J., vol. 9, 2019, pages 92, Retrieved from the Internet <URL:https://doi.org/10.1038/s41408-019-0256-y>
PENACK 0. ET AL.: "The importance of neovascularization and its inhibition for allogeneic hematopoietic stem cell transplantation", BLOOD, vol. 117, 21 April 2011 (2011-04-21), pages 4181 - 4189, XP055023885, DOI: 10.1182/blood-2010-10-312934
SEJOON LEE ET AL.: "NGSCheckMate: software for validating sample identity in next-generation sequencing studies within and across data types", NUCLEIC ACIDS RESEARCH, vol. 45, no. 11, 2017, XP055745624, DOI: 10.1093/nar/gkx193
STOECKLEIN ET AL., AM J PATHOL., vol. 161, no. 1, July 2002 (2002-07-01), pages 43 - 51
SUNDE L ET AL.: "Hydatidiform mole diagnostics using circulating gestational trophoblasts isolated from maternal blood", MOL GENET GENOMIC MED, 2020, pages el565, Retrieved from the Internet <URL:https://doi.org/10.1002/mgg3.1565>
VOSSAERT LWANG QSALMAN R ET AL.: "Validation Studies for Single Circulating Trophoblast Genetic Testing as a Form of Noninvasive Prenatal Diagnosis", AMERICAN JOURNAL OF HUMAN GENETICS, vol. 105, no. 6, 2019, pages 1262 - 1273, XP085939814, DOI: 10.1016/j.ajhg.2019.11.004
ZHUO XWANG QVOSSAERT LSALMAN RKIM AVAN DEN VEYVER I ET AL.: "Use of amplicon-based sequencing for testing fetal identity and monogenic traits with Single Circulating Trophoblast (SCT) as one form of cell-based NIPT", PLOS ONE, vol. 16, no. 4, 2021, pages e0249695, Retrieved from the Internet <URL:https://doi.org/10.1371/journal.pone.0249695>

Also Published As

Publication number Publication date
AR127106A1 (es) 2023-12-20
CN117980502A (zh) 2024-05-03
WO2023042173A1 (en) 2023-03-23
IL311475A (en) 2024-05-01
TW202321461A (zh) 2023-06-01
AU2022346271A1 (en) 2024-03-21
CA3231433A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
JP6760917B2 (ja) 多型カウントを用いたゲノム画分の分析
US20230295690A1 (en) Haplotype resolved genome sequencing
EP3256605B1 (en) Detecting mutations for cancer screening and fetal analysis
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
EP2749655B1 (en) Single cell classification method, gene screening method and device thereof
JP2021520004A (ja) 残存病変の検出システム及び方法
KR20180123020A (ko) 카피수 변이를 판정하기 위한 dna 단편 크기의 사용
Snyder et al. Noninvasive fetal genome sequencing: a primer
AU2018288772B2 (en) Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes
Yang et al. Developmental and temporal characteristics of clonal sperm mosaicism
WO2019025004A1 (en) METHOD FOR NON-INVASIVE PRENATAL DETECTION OF FETUS SEX CHROMOSOMAL ABNORMALITY AND FETUS SEX DETERMINATION FOR SINGLE PREGNANCY AND GEEMELLAR PREGNANCY
Forsythe et al. Methods for the analysis of mitochondrial DNA
IT202100024101A1 (it) Metodo per analizzare il grado di similarita&#39; di almeno due campioni utilizzando amplificazione deterministica dell&#39;intero genoma mediante siti di restrizione (drs-wga)
EP2356255A2 (en) Methods for determining a prognosis in multiple myeloma
He et al. Application of Restriction Site-Associated DNA Sequencing (RAD-Seq) for Copy Number Variation and Triploidy Detection in Human