ITMI20121066A1 - Predittore informatico per tumore alla prostata - Google Patents

Predittore informatico per tumore alla prostata Download PDF

Info

Publication number
ITMI20121066A1
ITMI20121066A1 IT001066A ITMI20121066A ITMI20121066A1 IT MI20121066 A1 ITMI20121066 A1 IT MI20121066A1 IT 001066 A IT001066 A IT 001066A IT MI20121066 A ITMI20121066 A IT MI20121066A IT MI20121066 A1 ITMI20121066 A1 IT MI20121066A1
Authority
IT
Italy
Prior art keywords
gene encoding
genes
diagnosis
predictor genes
prognosis
Prior art date
Application number
IT001066A
Other languages
English (en)
Inventor
Guido Cappuccilli
Andrea Saccani
Paolo Sonego
Anna Vendramin
Original Assignee
Euroclone S P A
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Euroclone S P A filed Critical Euroclone S P A
Priority to IT001066A priority Critical patent/ITMI20121066A1/it
Priority to EP13759573.2A priority patent/EP2861763B1/en
Priority to PCT/IB2013/055004 priority patent/WO2013190468A2/en
Priority to ES13759573T priority patent/ES2717280T3/es
Publication of ITMI20121066A1 publication Critical patent/ITMI20121066A1/it

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Hospice & Palliative Care (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Oncology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Medicines Containing Plant Substances (AREA)

Description

“Predittore informatico per il tumore alla prostataâ€
DESCRIZIONE
[0001] Forma oggetto della presente invenzione un metodo per la diagnosi del tumore alla prostata, che comprende l’analisi di dati relativi all’espressione di determinati geni mediante algoritmi predittivi.
[0002] Il tumore alla prostata oggi rappresenta una delle più diffuse patologie neoplastiche nei Paesi occidentali e si prevede che la sua incidenza sarà destinata ad aumentare in futuro.
Allo stesso modo che per altri tumori, à ̈ ormai generalmente ritenuto che una diagnosi precoce, cioà ̈ ai primi stadi di sviluppo della malattia, sia essenziale per garantire il buon esito della cura.
I metodi tradizionali di diagnosi oggigiorno comprendono l’osservazione morfologica di campioni di tessuto prostatico. Tali metodi, tuttavia, presentano non trascurabili limiti intrinseci, legati ad esempio all’esperienza dell’operatore che prepara ed analizza il campione.
Le tecniche di diagnosi molecolare offrono, invece, sono certamente metodologie più affidabili, anche se devono essere standardizzate ed implementate per essere concluse in tempi ristretti ed essere accessibili ad un costo molto più contenuto.
Questo potrebbe essere possibile, ad esempio, limitando il numero di cosiddetti geni marker, cioà ̈ di geni la cui sovra-espressione à ̈ stata correlata significativamente con lo sviluppo di una certa patologia.
Tuttavia, così facendo si potrebbe ottenere un risultato poco affidabile, proprio perché basato su di un pool limitato di valutazioni.
D’altra parte, à ̈ evidente che ripetere un saggio molecolare su di un numero elevato di geni comporta necessariamente un costo più elevato.
[0003] Vi à ̈ quindi l’esigenza di bilanciare due diverse necessità: da un lato quella di considerare un numero di geni marker sufficiente tale da ottenere un risultato altamente affidabile e dall’altro di offrire uno strumento diagnostico a costi competitivi.
[0004] La presente invenzione, pertanto, si propone di offrire un metodo diagnostico che soddisfi le sopra citate esigenze.
OGGETTO DELL’INVENZIONE
[0005] In un primo aspetto, l’invenzione descrive pertanto un metodo per la diagnosi del tumore (o neoplasia) alla prostata, comprendente l’analisi dell’espressione di determinati geni, mediante algoritmi predittivi.
Secondo un aspetto dell’invenzione, il metodo descritto à ̈ utile per la prognosi del tumore alla prostata.
In accordo un ulteriore aspetto, il metodo à ̈ utile per la valutazione della significatività dell’espressione di alcuni geni in un campione di tessuto prostatico.
Secondo un ancora ulteriore aspetto, l’invenzione descrive un kit diagnostico per la diagnosi del tumore alla prostata.
DESCRIZIONE DELLE FIGURE
Le figure 1 e 2 rappresentano risultati di predizione (PREDETTO), confrontati con risultati effettivamente riscontrati (EFFETTIVO), quantificati in termini di tasso d’errore (o “overall error rate†OE), tasso di falsi positivi (o False Positive Rate FPR), tasso di falsi negativi (o False Negative Rate FNR), ottenuti applicando diversi esempi del metodo secondo l’invenzione, ed in particolare una elaborazione basata tre diversi algoritmi predittivi (k-NN, Random Forest SVM).
DESCRIZIONE DETTAGLIATA DELL’INVENZIONE
[0006] In accordo con un primo oggetto dell’invenzione, à ̈ descritto un metodo per la diagnosi e/o per la prognosi di neoplasie alla prostata comprendente le fasi di:
a. determinare una pluralità di espressioni comprendente una espressione di ognuno di un gruppo di geni predittori (marker), in un campione di tessuto prostatico;
b. elaborare detta pluralità di espressioni mediante un algoritmo predittivo addestrato, per ottenere la diagnosi e/o prognosi.
[0007] Secondo un aspetto preferito, i geni predittori (marker) impiegati per gli scopi della presente invenzione appartengono ad un insieme comprendente:
†gene codificante la Ornitina decarbossilasi (ODC); †gene codificante la Ornitina decarbossilasi antizyme (OAZ);
†gene codificante la Adenosilmetionina decarbossilasi (AdoMetDC);
†gene codificante la Spermidina/spermina N(1)-acetiltransferasi (SSAT);
†gene codificante la Istone H3 (H3);
†gene specifico dell’arresto della crescita (GAS I); †gene codificante la Clusterina (CLU);
†gene codificante la Idrossimetilbilane sintasi (HMBS);
†gene codificante la Gliceraldeide 3-fosfato deidrogenasi (GAPDH); e
†gene codificante la Fosfoglicerato chinasi (PGK1).
[0008] Secondo un aspetto dell’invenzione, la citata espressione di un gene predittore à ̈ un valore rappresentativo di una presenza, in particolare di una concentrazione, del rispettivo gene predittore nel campione di tessuto prostatico.
[0009] Secondo un aspetto dell’invenzione, il campione di tessuto prostatico à ̈ ottenuto mediante biopsia da un paziente e successivamente processato secondo le tecniche note nel settore.
Per quanto concerne l’analisi dell’espressione genica, questa à ̈ attuata mediante RT-PCR, secondo metodologie note al tecnico del settore.
In particolare, sono impiegati preferibilmente i seguenti primers:
<Gas 1 fwd>5’- CGCACCGTCATTGAGGAC
<Gas1 rev>5’- CACGCAGTCGTTGAGCAG
<H3 fwd>5’- AAAACCGACCTGCGTTTCC
<H3 rev>5’- GGCCTCACAAGCCTCCTG
<Ssat fwd>5’- GCCGACTGGTGTTTATCCG
<Ssat rev>5’- AGTCAGGCTGGCACCATG
<Clu fwd>5’- CCTCACTTCTTCTTTCCCAAG
<Clu rev>5’- GTACGGAGAGAAGGGCATC
<Odc fwd>5’- CAGTCTGTCGTCTCAGTGTG
<Odc rev>5’- TTCGCCCGTTCCAAAAGGAG
<Oaz fwd>5’- GCTCCTAAGCCTGCACAGC
<Oaz rev>5’- TGGAGGGAGACCCTGGAAC
<AdoMet fwd>5’- TGCTGGAGGTTTGGTTCTC
<AdoMet rev>5’- GAAGATCCCCAGATCCTTGG
<Gapdh fwd>5’- CAGCCGCATCTTCTTTTGC
<Gapdh rev>5’- CCTTCCCCATGGTGTCTG
<Pgk1 fwd>5’- TTTCCAAAATGTCGCTTTCTAAC
<Pgk1 rev>5’- GACCCGCTTCCCTTTAACG
<Hmbs fwd>5’- CGCTGCATCGCTGAAAGG
<Hmbs rev>5’- ACGGCTACTGGCACACTG
[0010] Secondo un aspetto dell’invenzione, l’algoritmo predittivo addestrato à ̈ un algoritmo operante in spazi vettoriali, e la citata fase b. (elaborare) comprende: elaborare un vettore di ingresso contenente in rispettivi elementi di vettore ciascuna espressione della pluralità di espressioni; e generare, in dipendenza di tale elaborazione, un risultato rappresentativo della diagnosi e/o prognosi.
[0011] Secondo un ulteriore aspetto dell’invenzione, l’ algoritmo predittivo appartiene ad un gruppo comprendente: Support Vector Machine (SVM), Random Forest, k-NN.
Può essere utilizzato un solo algoritmo, oppure più algoritmi, indipendentemente l’uno dall’altro o sinergicamente.
[0012] Secondo un ulteriore aspetto dell’invenzione, il metodo comprende inoltre, prima della fase a., la fase di addestrare l’algoritmo predittivo, usando come ingresso i valori noti di espressione di campioni di tessuto prostatico, di cui à ̈ nota la diagnosi e/o la prognosi, per calibrare parametri algoritmici aggiustabili ed ottenere parametri algoritmici addestrati.
[0013] Secondo un ulteriore aspetto dell’invenzione, la citata fase di addestrare comprende ulteriormente di determinare il gruppo di geni predittori, all’interno del citato insieme di geni predittori, in dipendenza dei valori noti di espressione di campioni di tessuto prostatico, di cui à ̈ nota la diagnosi e/o la prognosi.
[0014] Secondo un ulteriore aspetto dell’invenzione, la sopra citata fase di determinare il gruppo di geni predittori à ̈ realizzata mediante un algoritmo di riduzione dimensionale di spazi vettoriali.
[0015] Secondo un esempio preferito di realizzazione del metodo, l’algoritmo predittivo addestrato à ̈ Support Vector Machine, ed il gruppo di geni predittori à ̈ costituito dai geni codificanti HMBS, CLU, GAS I, ODC.
[0016] Secondo un ulteriore esempio preferito di realizzazione del metodo, l’algoritmo predittivo addestrato à ̈ Random Forest, ed il gruppo di geni predittori à ̈ costituito dai geni codificanti HMBS, CLU, GAS I, ODC, OAZ, ADO, H3, SSAT.
[0017] La presente invenzione comprende altresì un kit per la diagnosi e/o per la prognosi di neoplasie alla prostata, configurato per realizzare il metodo sopra descritto. In particolare, il kit secondo l’invenzione comprende: mezzi di determinazione di una pluralità di espressioni comprendente una espressione di ognuno di un gruppo di geni predittori, in un campione di tessuto prostatico; e mezzi di elaborazione, operativamente collegabili con i mezzi di determinazione per ricevere detta pluralità di espressioni; i mezzi di elaborazione sono configurati per elaborare la pluralità di espressioni mediante un algoritmo predittivo addestrato, per ottenere la diagnosi e/o prognosi.
I geni predittori appartengono al già citato insieme comprendente:
†gene codificante la Ornitina decarbossilasi (ODC); †gene codificante la Ornitina decarbossilasi antizyme (OAZ);
†gene codificante la Adenosilmetionina decarbossilasi (AdoMetDC);
†gene codificante la Spermidina/spermina N(1)-acetiltransferasi (SSAT);
†gene codificante la Istone H3 (H3);
†gene specifico dell’arresto della crescita (GAS I); †gene codificante la Clusterina (CLU);
†gene codificante la Idrossimetilbilane sintasi (HMBS);
†gene codificante la Gliceraldeide 3-fosfato deidrogenasi (GAPDH); e
†gene codificante la Fosfoglicerato chinasi (PGK1);
[0018] Secondo una forma realizzativa, i citati mezzi di determinazione sono dei kit diagnostici, di struttura di per sé nota, configurati per operare sul gruppo selezionato di geni predittori.
[0019] Secondo un’ulteriore forma realizzativa, i mezzi di determinazione comprendono un’interfaccia di comunicazione dati verso i mezzi di elaborazione.
[0020] Secondo altre forme realizzative, la fornitura dei dati provenienti dai mezzi di determinazione ai mezzi di elaborazione viene effettuata in altri modi noti, ad esempio con un inserimento manuale.
[0021] Secondo una forma realizzativa, i citati mezzi di elaborazione sono un elaboratore, quale un computer, o un personal computer, o un laptop, o una work-station. Tale elaboratore à ̈ dotato di mezzi di interfaccia e visualizzazione dei risultati, di per sé noti; di una memoria di per sé nota, in cui sono memorizzati uno o più algoritmi predittivi addestrati e relativi programmi di esecuzione; e di un processore, di per sé noto, per l’esecuzione di tali programmi ed algoritmi.
[0022] Verranno forniti nel seguito ulteriori dettagli sul metodo sopra descritto, secondo diversi esempi realizzativi dell’invenzione, ed in particolare sugli algoritmi predittivi impiegati.
[0023] Vengono impiegati in particolare algoritmi configurati per operare in spazi vettoriali. Ad esempio, sono stati provati, e si sono dimostrati efficaci, diversi algoritmi di questo tipo (di per sé noti, in ambito matematico) impiegabili alternativamente o in sinergia l’uno rispetto all’altro:
- Support Vector Machine (SVM);
- Random Forest;
- k-NN.
[0024] Il fatto che ciascuno degli algoritmi citati operi su uno spazio vettoriale significa che esso può essere visto come una “black box†, che riceve in ingresso un vettore e produce, in funzione del vettore d’ingresso, un risultato tra un insieme discreto di risultati predefiniti.
[0025] Nella presente applicazione, il vettore di ingresso à ̈ rappresentativo delle espressioni di geni predittori. In particolare, il vettore di ingresso comprende diversi elementi di vettore, ciascuno associato ad un rispettivo gene predittore. Ciascun elemento di vettore contiene un valore rappresentativo della presenza del rispettivo gene nel campione di tessuto prostatico analizzato, così come rilevato nel campione stesso.
[0026] Secondo un esempio realizzativo preferito, tale valore rappresentativo può assumere valori numerici, all’interno di un intervallo continuo o discreto, corrispondenti ad una misura della concentrazione del rispettivo gene predittore nel campione di tessuto prostatico analizzato. Ciò consente vantaggiosamente di caratterizzare meglio il tessuto prostatico, rispetto ad una mera indicazione di presenza o meno del gene predittore, e di migliorare di conseguenza l’accuratezza della predizione.
[0027] Peraltro, secondo altri esempi realizzativi compresi nell’invenzione, il valore rappresentativo può anche essere semplicemente binario (SI/NO, ovvero PRESENTE/ASSENTE), essendo associato al fatto che la concentrazione rilevata del rispettivo gene sia sopra o sotto una soglia predeterminata.
[0028] La dimensione degli spazi vettoriali in cui operano gli algoritmi predittivi corrisponde alla dimensione dei vettori di ingresso, e dunque al numero di geni predittori appartenenti al gruppo selezionato. Secondo diversi esempi realizzativi dell’invenzione, tale dimensione può essere ad esempio compresa tra 4 e 10.
[0029] L’algoritmo predittivo à ̈ configurato in modo da predire in primo luogo la presenza o l’assenza della neoplasia. In un ulteriore esempio realizzativo, inoltre, esso può essere anche configurato per fornire una predizione del grado di gravità/avanzamento del tumore. Secondo un esempio specifico, nel caso in cui sia predetta la presenza di una neoplasia, essa viene anche classificata su tre classi di Gleason (Gleason6, Gleason7, Gleason8) corrispondenti ad altrettanti gradi prognostici.
Quindi, l’output dell’algoritmo (che, come già osservato, fornisce un risultato tra un insieme discreto di risultati predefiniti) può essere semplicemente binario, oppure può essere non binario, sia pur discreto.
[0030] Considerando ora le modalità di funzionamento degli algoritmi, si osservi che ciascuno degli algoritmi predittivi del tipo sopra citato à ̈ caratterizzato da alcuni “parametri algoritmici aggiustabili†, che influenzano i risultati.
In particolare, i “parametri algoritmici aggiustabili†sono γ e cost (in SVM), ntree e mtry (in Random Forest), k (in k-NN).
Tali “parametri algoritmici aggiustabili†vengono calibrati durante una fase iniziale, la cosiddetta fase di addestramento (training), per ottenere dei “parametri algoritmici addestrati†, che vengono usati poi nella fase di impiego effettivo del metodo a fini diagnostici/prognostici.
[0031] La fase di addestramento, prevista indipendentemente per ciascuno degli algoritmi, prevede in generale di partire da un valore nominale iniziale dei “parametri algoritmici aggiustabili†, di fornire in input all’algoritmo vettori corrispondenti a situazioni per cui si conosce già il risultato; quindi, di verificare il risultato ottenuto, ed infine di variare in modo iterativo i “parametri algoritmici aggiustabili†, fino a raggiungere un’accuratezza voluta nei risultati ottenuti. In particolare, la fase di addestramento prevede di usare come vettori di ingresso dei vettori che contengono i risultati rilevati in un set di campioni di tessuto prostatico di cui à ̈ nota la diagnosi e/o la prognosi (in parte sani, in parte malati, e, se malati, a diversi stadi di avanzamento della malattia).
[0032] Si osservi che l’algoritmo si dice addestrato quando i “parametri algoritmici aggiustabili†sono stati fissati sui valori che hanno prodotto i risultati più affidabili, durante la fase di addestramento, ottenendo così i “parametri algoritmici addestrati†.
[0033] Una volta che l’algoritmo à ̈ stato addestrato, esso può ricevere in ingresso i vettori contenenti specifici vettori contenenti dati misurati in campioni di tessuto prostatico, relativi ai rispettivi casi per cui si vuole ottenere una predizione, e fornisce come output il risultato della predizione.
[0034] Vengono forniti nel seguito, a titolo esemplificativo ed illustrativo, dati relativi a test sperimentali che sono stati effettuati. Alcuni dei risultati ottenuti sono riportati nelle figure 1 e 2.
[0035] Una prima serie di test à ̈ stata effettuata sulla base di un insieme di 8 geni predittori (qui indicati come da convenzione in lettere minuscole: gas I, h3, ssat, clu, odc, ado, oaz, hmbs).
Tale prima serie di test ha compreso test effettuati su un set comprendente 82 campioni, di cui 60 malati e 22 sani (i cui risultati sono riportati nella prima riga della figura 1); ed ulteriori test effettuati su un set comprendente 59 campioni malati, su tre diversi gradi di gravità (G6, G7, G8).
[0036] Una seconda serie di test à ̈ stata effettuata sulla base di un insieme di 10 geni predittori (qui indicati come da convenzione in lettere minuscole: gas I, h3, ssat, clu, odc, ado, oaz, hmbs, gapdh, pgK I).
Tale seconda serie di test ha compreso test effettuati su un set comprendente 90 campioni, di cui 64 malati e 26 sani (i cui risultati sono riportati nella prima riga della figura 2); ed ulteriori test effettuati su un set comprendente 63 campioni malati, su tre diversi gradi di gravità (G6, G7, G8).
[0037] Si osservi che gli insiemi di geni predittori sopra considerati derivano dall’esperienza. È anche opportuno notare che, secondo un aspetto preferito della presente invenzione, e al contrario che nella maggior parte degli approcci tradizionali, i geni dell’insieme sono trattati e considerati in modo equivalente, e non vi sono uno o due geni che fanno da “riferimento†.
[0038] Sia la prima che la seconda serie di test sono state condotte addestrando indipendentemente e poi utilizzando ciascuno dei tre algoritmi predittivi sopra citati.
[0039] L’addestramento à ̈ stato compiuto, come già osservato) attraverso una calibrazione dei “parametri algoritmici aggiustabili†degli algoritmi, sulla base di un confronto tra i risultati di predizione via via forniti dall’algoritmo e i risultati noti.
[0040] In particolare, sono state compilate le cosiddette “confusion matrix†, riportate nelle figure 1 e 2, ciascuna delle quali riporta nella casella rigaN-colonnaN i casi negativi riconosciuti dalla predizione come negativi; nella casella rigaP-colonnaP i casi positivi riconosciuti dalla predizione come positivi; nella casella rigaN-colonnaP i casi negativi riconosciuti dalla predizione come positivi (FALSI POSITIVI); nella casella rigaP-colonnaN i casi positivi riconosciuti dalla predizione come negativi (FALSI NEGATIVI).
[0041] Si sono quindi osservati i risultati suddividendoli in ESATTI, FALSI POSITIVI, FALSI NEGATIVI, e sintetizzandoli mediante i parametri OE (tasso complessivo di errore), FPR (tasso di falsi positivi), FNR (tasso di falsi negativi).
[0042] I risultati quantitativi riportati nelle figure 1 e 2 sono per molti aspetti auto-esplicativi. Alcune osservazioni sono comunque riportate nel seguito.
[0043] Considerando le “confusion matrix†della prima riga della figura 1, riferiti alla prima serie di test, si osservi che:
- con l’algoritmo k-NN (con parametro addestrato k=3)si ottiene un tasso d’errore complessivo del 12.2%;
- con l’algoritmo Random Forest (con parametri addestrati ntree=500, mtry=3) si ottiene un tasso d’errore complessivo del 15.8%;
- con l’algoritmo SVM (con parametri addestrati radial basis, γ=0.06, cost=4) si ottiene un tasso d’errore complessivo del 9.7%.
Come verrà osservato in seguito, à ̈ tuttavia importante valutare non solo il tasso d’errore complessivo, ma anche il tasso di falsi positivi e falsi negativi, mirando a minimizzare in modo particolare i falsi negativi.
[0044] Considerando le “confusion matrix†della prima riga della figura 2, riferiti alla seconda serie di test, si osservi che:
- con l’algoritmo k-NN (con parametro addestrato k=3) si ottiene un tasso d’errore complessivo del 12.2%;
- con l’algoritmo Random Forest (con parametri addestrati ntree=850, mtry=2) si ottiene un tasso d’errore complessivo del 15.5%;
- con l’algoritmo SVM (con parametri addestrati radial basis, γ=0.17, cost=4) si ottiene un tasso d’errore complessivo del 13.3%.
Come verrà osservato in seguito, à ̈ tuttavia importante valutare non solo il tasso d’errore complessivo, ma anche il tasso di falsi positivi e falsi negativi, mirando a minimizzare in modo particolare i falsi negativi.
[0045] Viene ora illustrato un ulteriore aspetto, considerato in ulteriori forme realizzative dell’invenzione, correlato alla riduzione del numero di geni predittori da impiegare, cioà ̈ alla opportuna selezione di un gruppo di geni predittori, all’interno dei citati insiemi di geni predittori.
[0046] La riduzione del numero di geni predittori (cioà ̈ delle dimensioni della base di markers), idealmente a parità di accuratezza predittiva, à ̈ vantaggiosa innanzi tutto perché semplifica il metodo diagnostico ed i relativi kit diagnostici; poi, perché permette di ridurre il numero di campioni su cui lavorare.
Inoltre, in alcuni casi, tale riduzione può permettere addirittura un miglioramento nell’accuratezza dei risultati della predizione, riducendo il “rumore†nella fluttuazione dei risultati generato dall’uso di un numero più elevato di geni predittori.
[0047] La riduzione nel numero dei geni predittori implica naturalmente una specifica scelta mirata dei geni che devono far parte del sotto-insieme (cioà ̈ del “gruppo†) ottimale.
[0048] A questo proposito, la caratteristica della presente invenzione di impiegare algoritmi predittivi addestrati, operanti in spazi vettoriali, consente vantaggiosamente di applicare tecniche statistico-matematiche, di per sé note in ambito matematico, di “riduzione di spazi vettoriali†, le quali agiscono – a partire da uno spazio vettoriale di partenza - indipendentemente dal “significato†del contenuto dei vettori.
[0049] Quindi, secondo un esempio di realizzazione dell’invenzione, la fase di addestramento comprende l’ulteriore fase di determinare il gruppo di geni predittori, all’interno di un insieme di geni predittori, per mezzo di un algoritmo appartenente alla categoria degli “algoritmi di riduzione dimensionale di spazi vettoriali†.
[0050] Ad esempio, l’algoritmo di riduzione dimensionale di spazi vettoriali può basarsi su metodologie cosiddette di “feature reduction†, applicate in sinergia con l’algoritmo predittivo addestrato. Tale algoritmo di riduzione analizza i risultati dell’algoritmo predittivo, durante la fase di addestramento, e fornisce come output un’informazione indicativa del “peso†che ciascuno dei geni predittori dell’insieme iniziale riveste ai fini della determinazione del risultato.
[0051] Ciò fornisce una sorta di classifica di geni predittori, dal più al meno rilevante, in termini di influenza sul risultato della predizione. A partire da tale classifica, si può procedere per tentativi, eseguendo l’algoritmo predittivo con un numero via via minore di geni predittori, avendo l’accortezza di scegliere, per un gruppo contenente N geni predittori, i primi N della classifica determinata dall’algoritmo di riduzione. La riduzione progressiva proseguono fino ad ottenere un risultato ottimale, o perlomeno ritenuti accettabili, secondo criteri predefiniti.
[0052] Una volta identificato il numero di geni predittori ottimale, e quindi selezionato il relativo gruppo di geni predittori, si procede con l’addestramento dell’algoritmo predittivo, calibrandone nuovamente, e finemente, i parametri algoritmici aggiustabili.
[0053] Nella seconda riga della figura 1, e nelle seconda e terza riga della figura 2, sono riportati risultati di ulteriori serie di test effettuati applicando le sopra citate tecniche di riduzione.
[0054] In particolare, nella seconda riga della figura 1, con riferimento alla prima serie di test, si osservi che si sono ottenuti buoni risultati, in termini di tasso d’errore, con gruppi di 4 geni predittori (con Random Forest e SVM) o di 6 geni predittori (con Random Forest e SVM), come indicato in figura. In particolare, si sono ottenuti i seguenti risultati:
- k-NN (k=3), 6 geni predittori (indicati in figura come “features†), tasso d’errore complessivo =12.2%
- Random Forest (ntree=500, mtry=1), 4 geni predittori (indicati in figura come “features†), tasso d’errore complessivo =14.6%
- SVM (radial basis, γ=0.5, cost=4), 4 geni predittori (indicati in figura come “features†), tasso d’errore complessivo =9.7%,
risultati paragonabili, e talvolta addirittura migliori, rispetto ai risultati riportati nella prima riga della figura 1, riferiti all’impiego di 8 geni predittori.
[0055] Alcune ulteriori osservazioni sintetiche sui risultati ottenuti sono qui di seguito riportate.
[0056] Le migliori prestazioni (in termini di minore tasso d’errore complessivo) sono state ottenute con l’algoritmo predittivo SVM addestrato su 82 campioni; tale risultato à ̈ stato confermato anche nel caso di impiego di solo 4 geni predittori, opportunamente selezionati come sopra indicato e riportato in figura 1.
[0057] In generale, le diverse applicazioni del metodo, con i diversi algoritmi predittivi, hanno mostrato un’occorrenza di Falsi Positivi (FPR) molto più elevato dell’occorrenza di Falsi Negativi (FNR). Come verrà osservato in seguito, ciò à ̈ un vantaggio nel settore diagnostico.
[0058] Nelle serie di test effettuate, il tasso di errore più basso à ̈ stato ottenuto impiegando l’algoritmo predittivo SVM. D’altra parte, il tasso di falsi negativi FNR più basso à ̈ stato sempre ottenuto impiegando l’algoritmo predittivo Random Forest, che però ha presentato anche il peggior tasso d’errore complessivo.
[0059] La disponibilità di diversi algoritmi predittivi, con diversi vantaggi e svantaggi, permette di articolare al meglio l’applicazione del metodo della seguente invenzione, in una delle diverse possibili forme realizzative, a seconda del criterio utilizzato per valutare i risultati.
[0060] Come sopra riportato, il metodo della presente invenzione consente di soddisfare l’esigenza di avere a disposizione uno strumento diagnostico affidabile e disponibile ad un costo accessibile ai laboratori diagnostici di enti privati e pubblici, nonché competitivo con altri strumenti già presenti.
[0061] In particolare, Ã ̈ stato osservato come il metodo sia in grado di distinguere con accuratezza di casi positivi dai casi negativi.
[0062] Inoltre, il metodo sopra descritto mostra un’occorrenza di falsi positivi (cioà ̈ fornisce un risultato indicativo della patologia, quando in realtà il soggetto à ̈ sano) molto più elevata rispetto ai falsi negativi (cioà ̈ soggetti diagnosticati come sani, ma che ad un’ulteriore verifica risultano ammalati).
Questo, che nel settore diagnostico rappresenta un vantaggio, non à ̈ colto dall’osservazione del tasso d’errore complessivo (OE), ma à ̈ evidente dall’analisi delle Confusion Matrix.
[0063] Il predittore descritto nella presente domanda di brevetto permette quindi di classificare con accuratezza accettabile in 3 possibili classi di serietà della patologia, cioà ̈ di individuare gradi prognostici di classe Gleason 6, Gleason 7 e Gleason 8, laddove la classe Gleason à ̈ la classificazione impiegata per descrivere una neoplasia prostatica tenendo conto delle caratteristiche citologiche delle cellule e della loro organizzazione.
[0064] In aggiunta, il metodo della presente invenzione ha dimostrato di essere anche un valido strumento prognostico, per la valutazione predittiva della possibile evoluzione della malattia nel tempo.
[0065] Un vantaggio particolare collegato al metodo descritto consiste nella possibilità di impiegare per i saggi molecolari anche campioni di archivio, non essendo vincolato il metodo all’uso di campioni “freschi†.
[0066] Questo, vantaggiosamente, permette di seguire l’evoluzione della patologia nel tempo e consente di effettuare analisi statistica ed epidemiologiche di ampia portata.
[0067] Alle forme di realizzazione sopra descritte del metodo diagnostico dell’invenzione una persona esperta, allo scopo di soddisfare esigenze contingenti e specifiche, potrà apportare numerosi adattamenti, modifiche e sostituzioni di elementi con altri funzionalmente equivalenti, senza tuttavia uscire dall’ambito delle rivendicazioni di seguito riportate.

Claims (10)

  1. RIVENDICAZIONI 1. Metodo per la diagnosi e/o per la prognosi di neoplasie alla prostata comprendente le fasi di: a. determinare una pluralità di espressioni comprendente una espressione di ognuno di un gruppo di geni predittori, in un campione di tessuto prostatico, detti geni predittori appartenendo ad un insieme comprendente: †gene codificante la Ornitina decarbossilasi (ODC); †gene codificante la Ornitina decarbossilasi antizyme (OAZ); †gene codificante la Adenosilmetionina decarbossilasi (AdoMetDC); †gene codificante la Spermidina/spermina N(1)-acetiltransferasi (SSAT); †gene codificante la Istone H3 (H3); †gene specifico dell’arresto della crescita (GAS I); †gene codificante la Clusterina (CLU); †gene codificante la Idrossimetilbilane sintasi (HMBS); †gene codificante la Gliceraldeide 3-fosfato deidrogenasi (GAPDH); e †gene codificante la Fosfoglicerato chinasi (PGK1); b. elaborare detta pluralità di espressioni mediante un algoritmo predittivo addestrato, per ottenere detta diagnosi e/o prognosi.
  2. 2. Metodo secondo la rivendicazione 1, in cui la fase a. Ã ̈ condotta mediante RT-PCR.
  3. 3. Metodo secondo la rivendicazione 1 in cui detto algoritmo predittivo addestrato à ̈ un algoritmo operante in spazi vettoriali, ed in cui la fase b. comprende: - elaborare un vettore di ingresso contenente in rispettivi elementi di vettore ciascuna espressione di detta pluralità di espressioni; - generare, in dipendenza di detta elaborazione, un risultato rappresentativo di detta diagnosi e/o prognosi.
  4. 4. Metodo secondo la rivendicazione 3 in cui detto algoritmo predittivo addestrato appartiene ad un gruppo comprendente: - Support Vector Machine; - Random Forest; - k-NN.
  5. 5. Metodo secondo una qualsiasi delle rivendicazioni precedenti, comprendente inoltre, prima della fase a., la fase di: - addestrare l’algoritmo predittivo, usando come ingresso i valori noti di espressione di campioni di tessuto prostatico, di cui à ̈ nota la diagnosi e/o la prognosi, per calibrare parametri algoritmici aggiustabili dell’algoritmo ed ottenere parametri algoritmici addestrati.
  6. 6. Metodo secondo la rivendicazione 5, in cui la fase di addestrare comprende ulteriormente: - determinare detto gruppo di geni predittori, all’interno di detto insieme di geni predittori, in dipendenza di detti valori noti di espressione di campioni di tessuto prostatico, di cui à ̈ nota la diagnosi e/o la prognosi.
  7. 7. Metodo secondo la rivendicazione 6 in cui la fase di determinare detto gruppo di geni predittori à ̈ realizzata mediante un algoritmo di riduzione dimensionale di spazi vettoriali.
  8. 8. Metodo secondo una qualsiasi delle rivendicazioni precedenti in cui l’algoritmo predittivo addestrato à ̈ Support Vector Machine, ed in cui il gruppo di geni predittori à ̈ costituito dai geni codificanti HMBS, CLU, GAS I, ODC.
  9. 9. Metodo secondo una qualsiasi delle rivendicazioni precedenti in cui l’algoritmo predittivo addestrato à ̈ Random Forest, ed in cui il gruppo di geni predittori à ̈ costituito dai geni codificanti HMBS, CLU, GAS I, ODC, OAZ, ADO, H3, SSAT.
  10. 10. Kit per la diagnosi e/o per la prognosi di neoplasie alla prostata comprendente: - mezzi di determinazione di una pluralità di espressioni comprendente una espressione di ognuno di un gruppo di geni predittori, in un campione di tessuto prostatico, detti geni predittori appartenendo ad un insieme comprendente: †gene codificante la Ornitina decarbossilasi (ODC); †gene codificante la Ornitina decarbossilasi antizyme (OAZ); †gene codificante la Adenosilmetionina decarbossilasi (AdoMetDC); †gene codificante la Spermidina/spermina N(1)-acetiltransferasi (SSAT); †gene codificante la Istone H3 (H3); †gene specifico dell’arresto della crescita (GAS I); †gene codificante la Clusterina (CLU); †gene codificante la Idrossimetilbilane sintasi (HMBS); †gene codificante la Gliceraldeide 3-fosfato deidrogenasi (GAPDH); e †gene codificante la Fosfoglicerato chinasi (PGK1); - mezzi di elaborazione operativamente collegabili con detti mezzi di determinazione per ricevere detta pluralità di espressioni, detti mezzi di elaborazione essendo configurati per elaborare la pluralità di espressioni mediante un algoritmo predittivo addestrato, per ottenere detta diagnosi e/o prognosi.
IT001066A 2012-06-19 2012-06-19 Predittore informatico per tumore alla prostata ITMI20121066A1 (it)

Priority Applications (4)

Application Number Priority Date Filing Date Title
IT001066A ITMI20121066A1 (it) 2012-06-19 2012-06-19 Predittore informatico per tumore alla prostata
EP13759573.2A EP2861763B1 (en) 2012-06-19 2013-06-18 Computer-based predictor for prostate cancer
PCT/IB2013/055004 WO2013190468A2 (en) 2012-06-19 2013-06-18 Computer-based predictor for prostate cancer
ES13759573T ES2717280T3 (es) 2012-06-19 2013-06-18 Factor predictivo basado en ordenador para cáncer de próstata

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT001066A ITMI20121066A1 (it) 2012-06-19 2012-06-19 Predittore informatico per tumore alla prostata

Publications (1)

Publication Number Publication Date
ITMI20121066A1 true ITMI20121066A1 (it) 2013-12-20

Family

ID=46690593

Family Applications (1)

Application Number Title Priority Date Filing Date
IT001066A ITMI20121066A1 (it) 2012-06-19 2012-06-19 Predittore informatico per tumore alla prostata

Country Status (4)

Country Link
EP (1) EP2861763B1 (it)
ES (1) ES2717280T3 (it)
IT (1) ITMI20121066A1 (it)
WO (1) WO2013190468A2 (it)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364268B (zh) * 2022-11-01 2023-11-17 山东大学 一种新型基于惩罚cox回归的乳腺癌预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006038089A2 (en) * 2004-10-06 2006-04-13 Genprofiler S.R.L. Method for identification of neoplastic transformation with particular reference to prostate cancer
US20090215058A1 (en) * 2001-01-24 2009-08-27 Health Discovery Corporation Methods for screening, predicting and monitoring prostate cancer

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6821724B1 (en) * 1998-09-17 2004-11-23 Affymetrix, Inc. Methods of genetic analysis using nucleic acid arrays

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090215058A1 (en) * 2001-01-24 2009-08-27 Health Discovery Corporation Methods for screening, predicting and monitoring prostate cancer
WO2006038089A2 (en) * 2004-10-06 2006-04-13 Genprofiler S.R.L. Method for identification of neoplastic transformation with particular reference to prostate cancer

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BETTUZZI S ET AL: "MOLECULAR DIAGNOSIS OF HUMAN PROSTATE CANCER (CAP) BY RRT-QPCR DETERMINATION OF GENE EXPRESSION SIGNATURE", EUROPEAN UROLOGY SUPPLEMENTS, XX, XX, vol. 5, no. 14, 1 September 2006 (2006-09-01), pages 791, XP027981626, ISSN: 1569-9056, [retrieved on 20060901] *
CHAN K Y ET AL: "Gene signature selection for cancer prediction using an integrated approach of genetic algorithm and support vector machine", EVOLUTIONARY COMPUTATION, 2008. CEC 2008. (IEEE WORLD CONGRESS ON COMPUTATIONAL INTELLIGENCE). IEEE CONGRESS ON, IEEE, PISCATAWAY, NJ, USA, 1 June 2008 (2008-06-01), pages 217 - 224, XP031325143, ISBN: 978-1-4244-1822-0 *
FEDERICA RIZZI ET AL: "A Novel Gene Signature for Molecular Diagnosis of Human Prostate Cancer by RT-qPCR", PLOS ONE, vol. 3, no. 10, 1 January 2008 (2008-01-01), pages e3617, XP055057942, ISSN: 1932-6203, DOI: 10.1371/journal.pone.0003617 *
STATNIKOV ALEXANDER ET AL: "A comprehensive comparison of random forests and support vector machines for microarray-based cancer classification", BMC BIOINFORMATICS, BIOMED CENTRAL, LONDON, GB, vol. 9, no. 1, 22 July 2008 (2008-07-22), pages 319, XP021031905, ISSN: 1471-2105 *
YOUSEF MALIK ET AL: "Recursive Cluster Elimination (RCE) for classification and feature selection from gene expression data", BMC BIOINFORMATICS, BIOMED CENTRAL, LONDON, GB, vol. 8, no. 1, 2 May 2007 (2007-05-02), pages 144, XP021021786, ISSN: 1471-2105, DOI: 10.1186/1471-2105-8-144 *

Also Published As

Publication number Publication date
EP2861763A2 (en) 2015-04-22
WO2013190468A2 (en) 2013-12-27
EP2861763B1 (en) 2018-12-26
ES2717280T3 (es) 2019-06-20
WO2013190468A3 (en) 2014-03-06

Similar Documents

Publication Publication Date Title
Yousefi et al. DNA methylation-based predictors of health: applications and statistical considerations
Biswas et al. A clonal expression biomarker associates with lung cancer mortality
US20190287652A1 (en) Anomalous fragment detection and classification
Brigliadori et al. Defining the cutoff value of MGMT gene promoter methylation and its predictive capacity in glioblastoma
Heiss et al. Improved filtering of DNA methylation microarray data by detection p values and its impact on downstream analyses
van Leeuwen et al. DNA methylation markers as a triage test for identification of cervical lesions in a high risk human papillomavirus positive screening cohort
JP2019537108A5 (it)
AU2019404445A1 (en) Anomalous fragment detection and classification
US20210125686A1 (en) Cancer classification with tissue of origin thresholding
Finkle et al. Validation of a liquid biopsy assay with molecular and clinical profiling of circulating tumor DNA
Jeyapala et al. An integrative DNA methylation model for improved prognostication of postsurgery recurrence and therapy in prostate cancer patients
Guo et al. Screening and identification of specific markers for bladder transitional cell carcinoma from urine urothelial cells with suppressive subtractive hybridization and cDNA microarray
Grant et al. Reclassification of early stage breast cancer into treatment groups by combining the use of immunohistochemistry and microarray analysis
EP2406729A1 (en) A method for the systematic evaluation of the prognostic properties of gene pairs for medical conditions, and certain gene pairs identified
CA3115657A1 (en) Prostate cancer biomarker assays
ITMI20121066A1 (it) Predittore informatico per tumore alla prostata
Meuleman et al. Doubling time of soluble CD23: a powerful prognostic factor for newly diagnosed and untreated stage A chronic lymphocytic leukemia patients
US20150218655A1 (en) Biomarkers for prostate cancer prognosis
Younesian et al. Residual methylation of tumor suppressor gene promoters, RASSF6 and RASSF10, as novel biomarkers for minimal residual disease detection in adult acute lymphoblastic leukemia
Van Bockstaele et al. Kolmogorov–Smirnov statistical test for analysis of ZAP‐70 expression in B‐CLL, compared with quantitative PCR and IgVH mutation status
CA3148876A1 (en) Molecular classifiers for prostate cancer
KR20150125030A (ko) 림프절 전이 또는 구강암 진단용 유전자 발굴 방법
Liu et al. Gene-specific methylation profiles for integrative methylation-expression analysis in cancer research
TWI834642B (zh) 異常片段偵測及分類
US20210269883A1 (en) PREDICTIVE AND PROGNOSTIC USE OF A miRNA FOR HIGH GRADE SEROUS OVARIAN CARCINOMA THERAPEUTIC CARE