IT201900019556A1 - Method for selecting a group of biological markers and a vector of parameters useful in predicting the probability of long-term survival from breast cancer in breast cancer patients - Google Patents

Method for selecting a group of biological markers and a vector of parameters useful in predicting the probability of long-term survival from breast cancer in breast cancer patients Download PDF

Info

Publication number
IT201900019556A1
IT201900019556A1 IT102019000019556A IT201900019556A IT201900019556A1 IT 201900019556 A1 IT201900019556 A1 IT 201900019556A1 IT 102019000019556 A IT102019000019556 A IT 102019000019556A IT 201900019556 A IT201900019556 A IT 201900019556A IT 201900019556 A1 IT201900019556 A1 IT 201900019556A1
Authority
IT
Italy
Prior art keywords
group
patient
vector
parameters
coherent
Prior art date
Application number
IT102019000019556A
Other languages
Italian (it)
Inventor
Marco Pellegrini
Original Assignee
Consiglio Nazionale Ricerche
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consiglio Nazionale Ricerche filed Critical Consiglio Nazionale Ricerche
Priority to IT102019000019556A priority Critical patent/IT201900019556A1/en
Publication of IT201900019556A1 publication Critical patent/IT201900019556A1/en

Links

Landscapes

  • Image Analysis (AREA)

Description

DESCRIZIONE dell'invenzione industriale dal titolo: “Metodo per selezionare un gruppo di marcatori biologici e di un vettore di parametri utili nella predizione della probabilità di sopravvivenza a lungo termine al tumore del seno nelle pazienti affetti da tumore al seno”. DESCRIPTION of the industrial invention entitled: “Method for selecting a group of biological markers and a vector of parameters useful in predicting the probability of long-term survival from breast cancer in breast cancer patients”.

La presente invenzione è relativa ad un metodo per selezionare un gruppo finale di marcatori biologici e un vettore finale di parametri utili nella predizione della probabilità di sopravvivenza a lungo termine al tumore al seno in pazienti affetti da tumore al seno. The present invention relates to a method for selecting a final group of biological markers and a final vector of parameters useful in predicting the probability of long-term survival from breast cancer in breast cancer patients.

In particolare la presente invenzione è relativa ad un metodo per elaborare i livelli di espressione di un gruppo di geni in un tessuto tumorale per ottenere un gruppo finale di marcatori biologici che può essere usato per predire la sopravvivenza di una paziente a cinque anni dopo l’operazione di rimozione del tumore. In particular, the present invention relates to a method for processing the expression levels of a group of genes in a tumor tissue to obtain a final group of biological markers that can be used to predict the survival of a patient five years after tumor removal operation.

Il tumore al seno è una delle maggiori cause di mortalità in Europa, Stati Uniti d’America e Cina. Il numero di nuovi casi ogni anno è in Europa è di 92.2 donne ogni 100.000 donne. Il tasso di mortalità in Europa è di 23,1 donne ogni 100.000 donne. Breast cancer is a major cause of mortality in Europe, the United States of America and China. The number of new cases each year in Europe is 92.2 women for every 100,000 women. The death rate in Europe is 23.1 women for every 100,000 women.

Per una paziente affetto da tumore al seno, dopo l’asportazione chirurgica del tumore, è necessario decidere una terapia capace di prevenire l’insorgenza di recidive e metastasi. A tale scopo una serie di misurazioni di vari parameri (clinici, istologici e molecolari) sono solitamente raccolti con metodi noti allo stato dell’arte, basati sull’uso di marcatori molecolari, che sono considerati validi strumenti a supporto delle decisioni cliniche, a complemento dell’istopatologia tradizionale. For a patient with breast cancer, after the surgical removal of the tumor, it is necessary to decide on a therapy capable of preventing the onset of relapses and metastases. For this purpose, a series of measurements of various parameters (clinical, histological and molecular) are usually collected with methods known at the state of the art, based on the use of molecular markers, which are considered valid tools to support clinical decisions, to complement of traditional histopathology.

Proiezioni economiche prevedono un mercato di 8 Mld di dollari in Europa nel 2022 per i test del tumore al seno (di tutti i tipi, inclusi diagnostica, prognostica e immagini). Il mercato per i test del tumore al seno è previsto di 18 Mld di dollari nel 2025. Limitatamente ai test molecolari (per tutti i tipi di tumori), il mercato cinese sarà di 1.5 Mld di dollari nel 2022. Economic projections predict a $ 8 billion market in Europe in 2022 for breast cancer testing (of all types, including diagnostics, prognostics and imaging). The market for breast cancer tests is expected to be $ 18 billion in 2025. Limited to molecular tests (for all types of cancers), the Chinese market will be $ 1.5 billion in 2022.

Due dei test molecolari prognostici più usati sono Mammaprint ® (prodotto da Agendia) e and Oncotype DX ® (prodotto da Health, Inc.). Al momento negli Stati Uniti d’America un test Mammaprint ® ha un costo di 4.200 dollari, mentre in Europa il test ha un costo di 2.675 Eur. Il test Onotype DX ® ha un costo negli Stati Uniti d’America di 3.416 dollari. I test prognostici molecolari sono considerati economicamente convenienti rispetto al costo di un trattamento chemioterapico per pazienti che non ne traggano beneficio. Questi test sono considerati utili complementi a metodi tradizionali basati sull’analisi istopatologica (per esempio la classificazione TNM). Two of the most widely used molecular prognostic tests are Mammaprint ® (manufactured by Agendia) and and Oncotype DX ® (manufactured by Health, Inc.). At the moment in the United States of America a Mammaprint ® test costs $ 4,200, while in Europe the test costs EUR 2,675. The Onotype DX ® test costs $ 3,416 in the United States of America. Molecular prognostic testing is considered economically viable compared to the cost of a chemotherapy treatment for patients who do not benefit from it. These tests are considered useful complements to traditional methods based on histopathological analysis (for example, the TNM classification).

Il maggior svantaggio dei due test sopra indicati è nel fatto che troppi falsi postivi sono selezionati. The major drawback of the two tests above is that too many false positives are selected.

C’è quindi la necessità di sviluppare un metodo per selezionare un gruppo finale di marcatori biologici ed un vettore finale di parametri utili nel predire la probabilità di sopravvivenza a lungo termine di pazienti affette dal tumore al seno che produca in uscita un numero ridotto di falsi positivi, superando così le limitazioni dello stato dell’arte. There is therefore a need to develop a method to select a final set of biological markers and a final vector of parameters useful in predicting the probability of long-term survival of breast cancer patients that produces a reduced number of false outputs. positive, thus overcoming the limitations of the state of the art.

Il problema tecnico principale risolto da tale metodo è come selezionare, tra un numero di circa 25.000 possibili marcatori biologici (RNA messaggero di geni) espressi nella biopsia di un tessuto tumorale, un gruppo ridotto di marcatori biologici (poche decine di RNA messaggeri di geni) che possa essere misurato ad un costo contenuto, e che possa aiutare nella predizione della sopravvivenza a cinque anni, a seconda della terapia post-operatoria prescelta. The main technical problem solved by this method is how to select, among a number of about 25,000 possible biological markers (gene messenger RNA) expressed in the biopsy of a tumor tissue, a reduced group of biological markers (a few tens of gene messenger RNAs) that can be measured at a low cost, and that can help predict five-year survival, depending on the chosen postoperative therapy.

Questi ed altri scopi sono pienamente raggiunti in virtù di un metodo per selezionare un gruppo finale di marcatori biologici e di un vettore finale di parametri utili nella predizione della probabilità di sopravvivenza a lungo termine al tumore del seno in pazienti di tumore al seno avente le caratteristiche definite nella rivendicazione indipendente 1. These and other purposes are fully achieved by virtue of a method for selecting a final group of biological markers and a final vector of parameters useful in predicting the probability of long-term survival from breast cancer in breast cancer patients having the characteristics defined in independent claim 1.

Realizzazioni preferite dell’invenzione sono specificate rivendicazioni dipendenti, il cui contenuto è inteso come parte integrale della presente descrizione. Preferred embodiments of the invention are specified dependent claims, the content of which is intended as an integral part of this description.

Ulteriori caratteristiche e vantaggi della presente invenzione appariranno dalla seguente descrizione, che viene fornita come esempio non limitativo, con riferimento ai disegni allegati, in cui: Further characteristics and advantages of the present invention will appear from the following description, which is provided as a non-limiting example, with reference to the attached drawings, in which:

- Figura 1 è un diagramma a blocchi dei passi di un metodo per creare una rete di votazione coerente; e - Figure 1 is a block diagram of the steps of a method for creating a coherent voting network; And

- Figura 2 è un diagramma a blocchi dei passi di un metodo per la selezione di un pannello di marcatori biologici e di un vettore di parametri utili nella predizione della probabilità di sopravvivenza a lungo termine al tumore del seno nelle pazienti affetti da tumore al seno secondo la presente invenzione. - Figure 2 is a block diagram of the steps of a method for selecting a panel of biological markers and a vector of parameters useful in predicting the probability of long-term survival from breast cancer in breast cancer patients according to the present invention.

Nella restante descrizione, il termine “geni” viene usato per riferirsi ai passi intermedi del metodo di figura 1 e figura 2, mentre “marcatori biologici” viene usato per riferirsi al gruppo finale di geni selezionati secondo il metodo descritto in figura 2. In the remaining description, the term "genes" is used to refer to the intermediate steps of the method of figure 1 and figure 2, while "biological markers" is used to refer to the final group of genes selected according to the method described in figure 2.

Il metodo delle presente invenzione può essere realizzato da un sistema che comprende, in una maniera già nota, un calcolatore che comprende una unità di elaborazione, un dispositivo di visualizzazione e una rete di connessione per i dati. The method of the present invention can be implemented by a system which comprises, in a manner already known, a computer comprising a processing unit, a display device and a data connection network.

Il calcolatore è predisposto per elaborare moduli e programmi memorizzati su di un dispositivo di memoria o accessibili tramite una rete di trasferimento di dati, per la visualizzazione dei risultati su di un dispositivo di visualizzazione. The calculator is designed to process modules and programs stored on a memory device or accessible via a data transfer network, for displaying the results on a display device.

1. Costruzione di una rete di votazione coerente. 1. Building a coherent voting network.

Figura 1 è un diagramma a blocchi dei passi di un metodo per creare una rete di votazione coerente (chiamata anche ”predittore”). Figure 1 is a block diagram of the steps of a method for creating a coherent voting network (also called a "predictor").

Ogni passo della Figura 1 dipende da dati di input prodotti dai passi precedenti e da parametri algoritmici che l’utente deve scegliere, all’interno di una gamma di possibili valori (i parametri specifici verranno descritti nel resto della descrizione). La collezione di valori di questi parametri in input è chiamato “`vettore di parametri”, e la collezione di tutti i vettori di parametri è chiamato `”spazio dei parametri”. Each step of Figure 1 depends on input data produced by the previous steps and on algorithmic parameters that the user must choose, within a range of possible values (the specific parameters will be described in the rest of the description). The collection of values of these input parameters is called a "parameter vector", and the collection of all parameter vectors is called a "parameter space".

In una fase di inizializzazione, il metodo di Figura 1 usa dati pubblici ottenuti dal “Molecular Taxonomy of Breast Cancer International Consortium” (METABRIC). In an initialization phase, the method of Figure 1 uses public data obtained from the Molecular Taxonomy of Breast Cancer International Consortium (METABRIC).

METABRIC è una coorte di circa 2000 pazienti con associati dati clinici e molecolari (RNA Messaggero), inclusi dati sul trattamento postoperatorio e dati di sopravvivenza, che indicano se lal paziente è effettivamente sopravissuto o meno cinque anni dopo la rimozione del tumore. METABRIC is a cohort of approximately 2000 patients with associated clinical and molecular data (Messenger RNA), including postoperative treatment data and survival data, which indicate whether or not the patient actually survived five years after tumor removal.

Al passo 1, i dati dalla coorte di 2000 pazienti disponibile tramite il consorzio METABRIC sono selezionati ed organizzati in una matrice principale avente sulle righe le pazienti, ognuno con la sua classe di sopravvivenza o nonsopravvivenza (classi A e B) che indica se la paziente è sopravissuta o meno per cinque anni dopo l’operazione, ed avente sulle colonne i valore dell’espressione di un insieme di circa 24,000 geni. In step 1, the data from the cohort of 2000 patients available through the METABRIC consortium are selected and organized in a main matrix having the patients on the rows, each with its survival or non-survival class (classes A and B) indicating whether the patient it survived or not for five years after the operation, and having on the columns the expression values of a set of about 24,000 genes.

Al passo 2, un test statistico, come il t-test, il test di Kolmogorov-Smirnov ed il test U di Mann-Whitney, è applicato ad ogni gene della matrice principale per valutare i geni con migliore potere discriminante tra le classi A e B. In step 2, a statistical test, such as the t-test, the Kolmogorov-Smirnov test, and the Mann-Whitney U test, is applied to each gene in the main matrix to evaluate the genes with better discriminating power between classes A and B.

Il passo 2 richiede la fissazione del valore di un primo gruppo di parametri del vettore di parametri, che include il tipo di test effettuato, il massimo “valore p” per poter accettare un gene tra quelli sottoposti al test, e una soglia al “fold change” per poter accettare un gene tra quelli sottoposti al test. Questi primi parametri sono noti. Step 2 requires the setting of the value of a first group of parameters of the vector of parameters, which includes the type of test performed, the maximum "p-value" to be able to accept a gene among those subjected to the test, and a threshold to "fold change ”in order to accept a gene among those subjected to the test. These first parameters are known.

Il passo 2 risulta in una riduzione iniziale dei 24.000 geni ad un numero ridotto di geni, denominato primo gruppo di geni, preferibilmente nell’intervallo di 500-1000 geni. La numerosità di questo primo gruppo di geni è ancora troppo alta per cui una ulteriore riduzione verrà effettuata al passo 10 descritto in seguito. Step 2 results in an initial reduction of 24,000 genes to a reduced number of genes, called the first group of genes, preferably in the range of 500-1000 genes. The number of this first group of genes is still too high so a further reduction will be carried out in step 10 described below.

Al passo 4, il valore di espressione di ognuno dei geni che appartengono al primo gruppo di geni è discretizzato in sotto-intervalli capaci di discriminare tra le classi A e B, applicando metodi di discretizzazione noti basati sulla teoria dell’informazione. In step 4, the expression value of each of the genes belonging to the first group of genes is discretized into sub-ranges capable of discriminating between classes A and B, applying known discretization methods based on information theory.

Il passo 4 richiede la fissazione del valore per un secondo gruppo di parametri del vettore dei parametri, che includono la specifica funzione da ottimizzare nella determinazione dei punti di taglio dei sub-intervalli generati, il numero minimo e massimo di punti di taglio da generare, il numero minimo e massimo (in percentuale) di pazienti in ogni intervallo generato da un punto di taglio, ed il numero di cifre significative da considerare nelle misure di espressione. Questi parametri del secondo gruppo di parametri sono noti. Step 4 requires setting the value for a second group of parameter vector parameters, which include the specific function to be optimized in determining the cut points of the generated sub-intervals, the minimum and maximum number of cut points to be generated, the minimum and maximum number (in percentage) of patients in each interval generated by a cut point, and the number of significant digits to be considered in the expression measurements. These parameters of the second group of parameters are known.

Alla fine del passo 4, nella matrice principale ogni valore di espressione di un gene nel primo gruppo di geni è rimpiazzato da un intervallo. At the end of step 4, in the main matrix each expression value of a gene in the first group of genes is replaced by an interval.

Al passo 6, la matrice discretizzata costruita al passo 4 viene convertita in un grafo bipartito G che comprende nodi-paziente sia di classe A che di classe B, e nodi-gene che rappresentano i sotto-intervalli di espressione genica del primo gruppo di candidati. Per ottenere questo grafo bipartito G tutte le righe della matrice principale sono utilizzate mentre solo le colonne della matrice principale i cui valori di espressione genica sono discretizzati vengono utilizzati; le altre colonne sono scartate. In step 6, the discretized matrix constructed in step 4 is converted into a bipartite graph G which includes both class A and class B patient-nodes, and gene-nodes representing the gene expression sub-ranges of the first group of candidates . To obtain this bipartite graph G all the rows of the main matrix are used while only the columns of the main matrix whose gene expression values are discretized are used; the other columns are discarded.

La trasformazione del passo 6 è utile per l’applicazione di algoritmi basati sulla teoria dei grafi, ed inoltre, rende non necessario il trattamento dei valori mancanti nella matrice principale, in quanto i valori mancanti si trasformano meramente in archi mancanti del grafo bipartito. The transformation of step 6 is useful for the application of algorithms based on graph theory, and also makes it unnecessary to treat the missing values in the main matrix, as the missing values are merely transformed into missing arcs of the bipartite graph.

Al passo 8 un algoritmo predeterminato, per esempio l’algoritmo `”Core & peel” viene applicato al grafo bipartito G, questo algoritmo produce come risultato una collezione di comunità bipartite che includono sia nodi-paziente che nodi-gene, ogni comunità risulta densa e la collezione di tutte le comunità realizza una buona copertura del grafo bipartito G. At step 8 a predetermined algorithm, for example the "Core & peel" algorithm is applied to the bipartite graph G, this algorithm produces as a result a collection of bipartite communities that include both patient-nodes and gene-nodes, each community is dense and the collection of all communities achieves a good coverage of the bipartite graph G.

Il passo 8 richiede la fissazione del valore di un terzo parametro, la soglia di densità, ossia la percentuale minima di archi richiesti in rapporto al numero massimo possibile del numero degli archi di un grafo bipartito completo con gli stessi nodi. Tipici valori di densità sono 0.6, 0.7. 0.8 e 0.9. Step 8 requires setting the value of a third parameter, the density threshold, that is the minimum percentage of arcs required in relation to the maximum possible number of arcs of a complete bipartite graph with the same nodes. Typical density values are 0.6, 0.7. 0.8 and 0.9.

Al passo 10, un ulteriore algoritmo predeterminato, per esempio l’algoritmo “greedy set multi-cover” viene applicato alle comunità ottenute alla fine del passo 8, limitatamente ai soli nodi-gene. Questo algoritmo produce come risultato un sottoinsieme dei geni del primo gruppo di geni. Questo insieme è tipicamente di numerosità molto minore, preferibilmente dell’ordine di 15 geni. Questo sottoinsieme di geni è il secondo gruppo candidato di geni e la sua capacità di riprodurre la stessa struttura di comunità bipartite ottenuta alla fine del passo 8 viene controllata nel passi successivi. In step 10, a further predetermined algorithm, for example the "greedy set multi-cover" algorithm is applied to the communities obtained at the end of step 8, limited to the gene nodes only. This algorithm results in a subset of the genes from the first gene group. This set is typically of much smaller numbers, preferably of the order of 15 genes. This subset of genes is the second candidate group of genes and its ability to reproduce the same bipartite community structure obtained at the end of step 8 is checked in subsequent steps.

Il passo 10 richiede la fissazione di un quarto parametro, il numero di copertura per l’algoritmo “greedy set multi-cover”, che è un parametro noto e viene tipicamente scelto nell’intervallo da 3 a 7. Step 10 requires the setting of a fourth parameter, the coverage number for the "greedy set multi-cover" algorithm, which is a known parameter and is typically chosen in the range from 3 to 7.

Al passo 12 viene creato un secondo grafo bipartito G’ che comprende nodi-paziente e nodigene i cui geni appartengono al secondo gruppo candidato di geni generato al passo 10. At step 12 a second bipartite graph G 'is created which includes patient-nodes and nodigen whose genes belong to the second candidate group of genes generated in step 10.

Al passo 14, viene ripetuta l’elaborazione del passo 8 sul grafo bipartito aggiornato G’ e si controlla che le comunità ottenute come risultato di questo passo siano simili a quelle ottenute alla fine del passo 8. In caso negativo, il metodo termina e una notifica a vantaggio dell’utente viene mostrata sull’apparato di visualizzazione. In step 14, the processing of step 8 is repeated on the updated bipartite graph G 'and it is checked that the communities obtained as a result of this step are similar to those obtained at the end of step 8. If not, the method ends and a notification for the benefit of the user is shown on the display apparatus.

Al passo 16, le comunità ottenute al passo 14 sono considerate solo per la parte dei nodipaziente. La collezione dei pazienti associate ai nodi-paziente forma una rete di votazione e un ulteriore controllo viene fatto per determinare la coerenza o incoerenza della rete di votazione nei passi successivi. In step 16, the communities obtained in step 14 are considered only for the part of the patients. The collection of patients associated with the patient nodes forms a voting network and a further check is done to determine the consistency or inconsistency of the voting network in the next steps.

In particolare, ogni comunità applica un funzione di decisione su ogni paziente che le appartiene per determinare se assegnare alla paziente la classe A o la classe B. Quindi per ogni paziente, si determinano le comunità a cui appartiene e una classe finale è assegnata a maggioranza, ossia alla paziente si assegna la classe (A o B) che ha ricevuto la maggioranza dei voti dalle comunità a cui quella paziente appartiene. In particular, each community applies a decision function on each patient that belongs to it to determine whether to assign the patient class A or class B. Then for each patient, the communities to which it belongs are determined and a final class is assigned by majority. , ie the patient is assigned the class (A or B) that has received the majority of votes from the communities to which that patient belongs.

Il passo 16 richiede la fissazione di un quinto parametro, la funzione di decisione tra un gruppo predeterminato di funzioni. Un esempio di funzione è “unanimità” (ossia, alla paziente p nella comunità c viene assegnata la classe A se tutte le pazienti in c, eccettuato p, sono di classe A; alla paziente p nella comunità c viene assegnata la classe B se tutte le pazienti in c, eccettuato p, sono di classe B; in tutti gli altri casi nessuna classe è assegnata. Un secondo esempio è “maggioranza” (ossia, alla paziente p nella comunità c è assegnata la classe A se se un numero maggiore di pazienti nella comunità c, eccetto p, sono di classe A rispetto al numero di pazienti in classe B, eccetto p; alal paziente p nella comunità c è assegnata la classe B se se un numero maggiore di pazienti nella comunità c, eccetto p, sono di classe B rispetto al numero di pazienti in classe A, eccetto p; in caso di parità tra classi, escluso p, nessuna classe è assegnata a p). Step 16 requires the setting of a fifth parameter, the decision function between a predetermined group of functions. An example of a function is "unanimity" (i.e., patient p in community c is assigned class A if all patients in c, except p, are class A; patient p in community c is assigned class B if all patients in c, except p, are class B; in all other cases no class is assigned. A second example is "majority" (ie, patient p in community c is assigned class A if if more than patients in community c, except p, are class A relative to the number of patients in class B, except p; patient p in community c is assigned class B if if more patients in community c, except p, are of class B with respect to the number of patients in class A, except p; in case of parity between classes, excluding p, no class is assigned to p).

Ulteriori funzioni di decisione sono basate sul risultato di test ipergeometrici sulla distribuzione delle classi (A e B) delle pazienti di una comunità rispetto all’insieme di tutti i pazienti coinvolti nell’analisi. Additional decision functions are based on the result of hypergeometric tests on the distribution of classes (A and B) of the patients in a community with respect to all the patients involved in the analysis.

Al passo 18, per ogni paziente che appartiene alle varie comunità calcolate al passo 16, si controlla se la classe assegnata al passo 16 è la stessa classe memorizzata nel data base METABRIC riferita alla medesima paziente. Se la classe coincide, la paziente viene dichiarata “coerente”, altrimenti è dichiarata “incoerente”. In step 18, for each patient belonging to the various communities calculated in step 16, it is checked whether the class assigned in step 16 is the same class stored in the METABRIC database referring to the same patient. If the class coincides, the patient is declared "consistent", otherwise she is declared "inconsistent".

Al passo 20, si controlla se la percentuale di pazienti coerenti nella rete di votazione è maggiore di una soglia prefissata, per esempio il 90%, e, in caso positivo, la rete è dichiarata coerente e può essere usata per classificare una nuova paziente sconosciuta, aggiungendola al gruppo di pazienti analizzati. In step 20, it is checked whether the percentage of consistent patients in the voting network is greater than a predetermined threshold, for example 90%, and if so, the network is declared consistent and can be used to classify a new unknown patient. , adding it to the group of patients analyzed.

La descrizione precedente descrive il metodo di Figura 1 in una fase di inizializzazione nella quale la matrice principale è stata costruita usando i dati delle 2000 pazienti del consorzio METABRIC. The above description describes the method of Figure 1 in an initialization phase in which the main matrix was constructed using data from the 2000 patients of the METABRIC consortium.

Tuttavia, per applicare il metodo di selezione di un gruppo di marcatori biologici finale e di un vettore finale di parametri secondo la presente invenzione (vedi Figura 2), il metodo per la creazione di una rete coerente di votazione di Figura 1 è a sua volta applicato a sottoinsiemi delle 2000 pazienti, come qui sotto dettagliato. However, to apply the method of selecting a final biological marker group and a final vector of parameters according to the present invention (see Figure 2), the method for creating a coherent voting network of Figure 1 is in turn applied to subsets of the 2000 patients, as detailed below.

In particolare, il metodo di Figura 2 include una fase di allenamento, una fase di validazione, una fase di test ed una fase di analisi di stabilità e la coorte di circa 2000 pazienti del consorzio METABRIC viene suddivisa in modo casuale in circa 1000 pazienti per la fase di allenamento (insieme di allenamento), in circa 500 pazienti per la fase di validazione (insieme di validazione) e in circa 500 pazienti per la fase di test (insieme di test). In particular, the method of Figure 2 includes a training phase, a validation phase, a test phase and a stability analysis phase and the cohort of about 2000 patients of the METABRIC consortium is randomly divided into about 1000 patients for the training phase (training set), in about 500 patients for the validation phase (validation set) and in about 500 patients for the test phase (test set).

Quindi, questi insiemi di pazienti (insieme di allenamento, di validazione e di test) sono usati per creare delle sotto-matrici a partire dalla matrice principale, che vengono elaborare separatamente. Then, these patient sets (training, validation and test set) are used to create sub-matrices from the main matrix, which are processed separately.

Figura 2 è un diagramma a blocchi dei passi di un metodo per selezionare un gruppo di geni e un vettore di parametri, che realizza la “model selection”, ossia questo metodo per i dati di input produce una singola configurazione (un gruppo finale di marcatori biologici e un vettore finale di parametri) che univocamente definiscono una rete coerente di votazione con buone proprietà predittive. Figure 2 is a block diagram of the steps of a method to select a group of genes and a vector of parameters, which performs the "model selection", ie this method for the input data produces a single configuration (a final group of markers and a final vector of parameters) that uniquely define a coherent voting network with good predictive properties.

Figura 2 descrive come selezionare la migliore rete di votazione coerente tra tutte le reti di votazioni coerenti che possono essere costruite utilizzando il metodo di Figura 1 modulando i gruppi di parametri dal primo al quinto, descritti in precedenza. Figure 2 describes how to select the best coherent voting network among all coherent voting networks that can be built using the method of Figure 1 by modulating the first to fifth parameter groups, described above.

Nella descrizione seguente “schema di rete di votazione coerente” si riferisce ai passi generali del metodo per ottenere una rete di votazione coerente, mentre “rete di votazione coerente” si riferisce ad una specifica rete di votazione coerente ottenuta eseguendo lo schema con specifici parametri in input. In the following description "coherent voting network scheme" refers to the general steps of the method for obtaining a coherent voting network, while "coherent voting network" refers to a specific coherent voting network obtained by running the scheme with specific parameters in input.

Il metodo di Figura 2 ha due obiettivi: (a) da un insieme iniziale di circa 24,000 geni, definire un piccolo gruppo di geni (il gruppo finale di marcatori biologici) con buone proprietà predittive, per qualche vettore di parametri e (b) selezionare un vettore di parametri che insieme al gruppo finale di marcatori biologici ottenuti al punto (a) produca una rete di votazione coerente con buone proprietà predittive. The method of Figure 2 has two objectives: (a) from an initial set of about 24,000 genes, to define a small group of genes (the final group of biological markers) with good predictive properties, for some vector of parameters and (b) to select a vector of parameters which together with the final group of biological markers obtained in point (a) produces a coherent voting network with good predictive properties.

La Figura 2 rappresenta un flusso di computazione che risolve il problema della “selezione del modello” per le proposte reti di votazione coerente. Figure 2 represents a computation flow that solves the “model selection” problem for proposed coherent voting networks.

Il metodo di Figura 2 comprende quattro passi principali (denominati come 100 – passo di allenamento, 104 - passo di validazione, 108 – passo di test e 112 – analisi di stabilità), alternati con passi di filtraggio e selezione (denominati 102, 106 e 110). The method of Figure 2 includes four main steps (named as 100 - training step, 104 - validation step, 108 - test step and 112 - stability analysis), alternated with filtering and selection steps (named 102, 106 and 110).

I passi principali 100, 104, 108 e 112 saranno descritti più in dettaglio in seguito. The main steps 100, 104, 108 and 112 will be described in more detail below.

I passi di filtraggio e selezione 102, 106 e 110 prendono come input contemporaneamente tutti i predittori calcolati nei rispettivi passi precedenti 100, 104 e 108, insieme a predeterminate misure di qualità, (per esempio la percentuale di coerenza, la rilassatezza (ossia la percentuale di pazienti per cui non si produce una predizione), l’accuratezza, il rapporto di probabilità), e filtra e ordina tali predittori a le corrispondenti configurazioni (gruppo di geni, e vettore dei parametri). The filtering and selection steps 102, 106 and 110 take as input simultaneously all the predictors calculated in the respective previous steps 100, 104 and 108, together with predetermined quality measures, (for example the percentage of coherence, the relaxation (i.e. the percentage of patients for whom no prediction is produced), accuracy, probability ratio), and filters and sorts these predictors to the corresponding configurations (group of genes, and vector of parameters).

Un predeterminato massimo numero di configurazioni corrispondenti a predittori di alta qualità sono quindi usate per iniziare i passi successivi nel flusso di calcolo della Figura 2. Più specificatamente, nel primo passo di filtraggio 102, le predeterminate misure di qualità includono: A predetermined maximum number of configurations corresponding to high quality predictors are then used to initiate the next steps in the computation flow of Figure 2. More specifically, in the first filtering step 102, the predetermined quality measures include:

- valutazione con un metodo noto se il gruppo di geni ha un numero di geni superiore al numero desiderato e se ciò si verifica il gruppo di geni viene scartato; - evaluation with a known method if the group of genes has a number of genes higher than the desired number and if this occurs the group of genes is discarded;

- valutazione se la rete di votazione ha una percentuale di coerenza al di sotto di una soglia predeterminata, per esempio dell’85% della massima coerenza tra tutte le reti di votazione generate, e se ciò si verifica la rete di votazione viene scartata. - evaluation if the voting network has a consistency percentage below a predetermined threshold, for example 85% of the maximum consistency between all the voting networks generated, and if this occurs, the voting network is discarded.

Dopo un ordinamento delle reti di votazione selezionate per il valore di percentuale di coerenza, un predeterminato numero di gruppi di geni corrispondenti sono ritenuti, per esempio 30 gruppi, come dettagliato in seguito. After an ordering of the selected voting networks for the coherence percentage value, a predetermined number of corresponding gene groups are held, for example 30 groups, as detailed below.

Il primo passo di filtraggio 102 permette di restringere solamente il numero di gruppi di geni da passare alla fase successiva. The first filtering step 102 allows to restrict only the number of groups of genes to pass to the next step.

In un secondo passo di filtraggio 106, le predeterminate misure di qualità includono: In a second filter step 106, the predetermined quality measures include:

- rimozione dei predittori che hanno una rilassatezza superiore ad una soglia predeterminata (per esempio 10%); - removal of predictors that have a relaxation greater than a predetermined threshold (for example 10%);

- calcolo per ogni predittore di un punto in uno spazio bi-dimensionale (accuratezza, rapporto di probabilità), e calcolo del “Fronte di Pareto” di tale insieme bi-dimensionale di punti. I gruppi di geni e vettori di parametri che corrispondono ai punti sul fronte di Pareto sono passati al passo successivo. - calculation for each predictor of a point in a two-dimensional space (accuracy, probability ratio), and calculation of the “Pareto Front” of this two-dimensional set of points. The groups of genes and parameter vectors that correspond to the points on the Pareto front are moved on to the next step.

Nel secondo passo di filtraggio 106 sia il numero di gruppi di geni che il numero di vettori di parametri associati ai gruppi di geni vengono limitati. In the second filtering step 106 both the number of gene groups and the number of parameter vectors associated with the gene groups are limited.

Nel terzo passo di filtraggio 110, le predeterminate misure di qualità includono la rimozione dei predittori che hanno rilassatezza al di sopra di una soglia predeterminata (per esempio 10%). Dopo di ciò i predittori sono ordinati per il loro valore del rapporto di probabilità e la configurazione (gruppo di geni e vettore dei parametri) con il rapporto di probabilità più alto viene selezionato. In the third filtering step 110, the predetermined quality measures include the removal of predictors that have relaxation above a predetermined threshold (e.g. 10%). After that the predictors are sorted by their likelihood ratio value and the configuration (gene group and parameter vector) with the highest likelihood ratio is selected.

Questo passo determina un gruppo di geni finale (il gruppo finale di marcatori biologici) e il vettore dei parametri finale. Con questo gruppo finale di marcatori biologici con questo vettore finale di parametri è possibile costruire un’unica rete di votazione coerente, applicando il metodo di Figura 1. This step determines a final set of genes (the final set of biological markers) and the final parameter vector. With this final group of biological markers with this final vector of parameters it is possible to build a single coherent voting network by applying the method of Figure 1.

Questa rete di votazione coerente finale può quindi essere usata per classificare nuove pazienti, come dimostrato in seguito. This final coherent voting network can then be used to classify new patients, as demonstrated below.

2. Fasi di allenamento, validazione, test e analisi di stabilità di reti di votazioni coerenti. 2. Phases of training, validation, testing and stability analysis of coherent voting networks.

Nel seguito, inizialmente, si presenta un sommario del metodo per determinare un gruppo di marcatori biologici finale e un vettore dei parametri finale oggetto della presente invenzione, quindi si presenta una descrizione dettagliata dei passi coinvolti. In the following, initially, a summary of the method for determining a group of final biological markers and a vector of the final parameters object of the present invention is presented, then a detailed description of the steps involved is presented.

Il metodo della presente invenzione permette di ottenere un gruppo di marcatori biologici finale e un vettore di parametri finale, che possono essere usati per predire la sopravvivenza di pazienti di tumore al seno cinque anni dopo la rimozione chirurgica del tumore. The method of the present invention allows to obtain a final set of biological markers and a final vector of parameters, which can be used to predict the survival of breast cancer patients five years after surgical removal of the tumor.

Il gruppo di marcatori biologici finale è ottenuto dalla misurazione dei livelli di espressione dei geni in un tessuto del tumore al seno, ottenuto tramite biopsia dalla paziente. The final set of biological markers is obtained by measuring the expression levels of genes in a breast tumor tissue, obtained by biopsy from the patient.

Il metodo è di tipo “apprendimento supervisionato”: un sistema subisce una fase di apprendimento usando profili molecolari completi e dati di sopravvivenza noti di una coorte di pazienti. Il sistema così predisposto viene poi utilizzato con nuove pazienti, per i quali solo un numero limitato di marcatori biologici viene misurato, per predire la prognosi a cinque anni, ossia se la paziente sopravvive o meno per cinque anni dopo la rimozione del tumore. The method is of the “supervised learning” type: a system undergoes a learning phase using complete molecular profiles and known survival data from a cohort of patients. The system thus set up is then used with new patients, for whom only a limited number of biological markers are measured, to predict the prognosis at five years, i.e. whether the patient survives for five years after tumor removal.

In una realizzazione alternativa dell’invenzione, l’insieme di allenamento, l’insieme di validazione e l’insieme di test prima citati sono ognuno suddiviso in un numero predeterminato di sottogruppi che includono un numero equalizzato di pazienti, preferibilmente in otto sottogruppi dipendenti dalla classe di terapie associate ad ogni paziente nel data base METABRIC. In an alternative embodiment of the invention, the training set, the validation set and the test set mentioned above are each divided into a predetermined number of subgroups which include an equalized number of patients, preferably into eight subgroups depending on the class of therapies associated with each patient in the METABRIC database.

Questo viene fatto poiché le circa 2000 pazienti della base di dati METABRIC sono molto eterogenei, per cui gli otto sottogruppi corrispondenti alle scelte di terapia tra radioterapia, chemioterapia e terapia ormonale, sono trattati separatamente. This is done because the approximately 2000 patients of the METABRIC database are very heterogeneous, so the eight subgroups corresponding to the therapy choices between radiotherapy, chemotherapy and hormone therapy, are treated separately.

Infatti, dopo l’asportazione chirurgica la paziente può seguire o meno uno o più delle seguenti terapie: radioterapia, chemioterapia e terapia ormonale. Ci sono otto possibili combinazioni di queste tre terapie e per ogni combinazione le fasi di allenamento, validazione e test vengono ripetute. Quindi otto sotto-gruppi di marcatori biologici per combinazioni specifiche di terapie vengono ottenuti (stratificazione primaria). In fact, after surgical removal, the patient may or may not have one or more of the following therapies: radiotherapy, chemotherapy and hormone therapy. There are eight possible combinations of these three therapies and for each combination the training, validation and testing phases are repeated. Then eight sub-groups of biological markers for specific combinations of therapies are obtained (primary stratification).

All’interno di ogni classe di terapie la qualità predittiva del gruppo di marcatori biologici viene misurata tramite misure note come la “rilassatezza” (S), l’accuratezza (Acc), il rapporto di probabilità (OR), il potere predittivo positivo (PPV) ed il potere predittivo negativo (NPV). Within each class of therapies, the predictive quality of the group of biological markers is measured through known measures such as "relaxation" (S), accuracy (Acc), probability ratio (OR), positive predictive power ( PPV) and negative predictive power (NPV).

A partire degli otto sotto-gruppi basati sulle classi di terapia (stratificazione primaria) è anche possibile definire ulteriori stratificazioni basate su altre caratteristiche (stratificazioni secondarie), per esempio usando le classi ormonali note ER+, ER-/HER+ e TNBC. From the eight subgroups based on therapy classes (primary stratification) it is also possible to define further stratifications based on other characteristics (secondary stratifications), for example using the known hormonal classes ER +, ER- / HER + and TNBC.

La stratificazione secondaria non cambia la predizione sulla singola paziente, ma dà una diversa valutazione della qualità della predizione. Un medico può quindi avere a disposizione diversi punti di vista in dipendenza delle caratteristiche preminenti della paziente, e giudicare a seconda delle caratteristiche prevalenti per la singola paziente. Secondary stratification does not change the prediction on the individual patient, but gives a different assessment of the quality of the prediction. A doctor can therefore have different points of view available depending on the pre-eminent characteristics of the patient, and judge according to the characteristics prevailing for the individual patient.

Nel seguito, il metodo verrà descritto in riferimento ad una singola coorte di 1000 pazienti per l’insieme di allenamento, di 500 pazienti per l’insieme di validazione e di 500 pazienti per l’insieme di test, ma può essere egualmente applicato agli otto sotto-gruppi. In the following, the method will be described with reference to a single cohort of 1000 patients for the training set, 500 patients for the validation set and 500 patients for the test set, but it can be equally applied to the eight. sub-groups.

2.1 Fase di allenamento 2.1 Training phase

Nel passo di allenamento 100 di Figura 2, i passi del metodo di Figura 1 (lo schema di rete di votazione coerente) sono applicati, per un predeterminato vettore di parametri di un predeterminato spazio di vettori, all’insieme di pazienti di allenamento. In the training step 100 of Figure 2, the steps of the method of Figure 1 (the coherent voting network scheme) are applied, for a predetermined vector of parameters of a predetermined vector space, to the set of training patients.

Un predeterminato vettore di parametri include i parametri scelti tra i parametri dal primo al quinto gruppo come precedentemente esposto. Un diverso vettore di parametri può includere una diversa selezione di questi gruppi di parametri. A predetermined vector of parameters includes the parameters selected from the parameters from the first to the fifth group as described above. A different parameter vector may include a different selection of these parameter groups.

La fase di allenamento ha due sotto-fasi: The training phase has two sub-phases:

Nella prima sotto-fase, (a) un grafo bipartito è costruito come precedentemente descritto, in un a maniere nota a partire dai dati delle 1000 pazienti di allenamento, con nodi che rappresentano pazienti, e nodi che rappresentano livelli di espressione genica per ognuna delle pazienti (relativi a circa 24.000 geni memorizzati nella base dati METABRIC e associati ad ogni paziente). In the first sub-phase, (a) a bipartite graph is constructed as previously described, in a known manner from the data of the 1000 training patients, with nodes representing patients, and nodes representing gene expression levels for each of the patients (related to about 24,000 genes stored in the METABRIC database and associated with each patient).

Quindi (b) una collezione di comunità di nodi con alta densità di connessioni è trovata in questo grafo bipartito in una maniera nota, dove ogni comunità comprende sia nodi rappresentati pazienti (nodi paziente) che nodi rappresentanti livelli di espressione genica (nodi gene). Thus (b) a collection of node communities with high connection density is found in this bipartite graph in a known manner, where each community includes both patient represented nodes (patient nodes) and nodes representing gene expression levels (gene nodes).

Quindi (c), uno schema di voto a due livelli viene applicato. Ogni comunità esprime un voto, sopravvivenza o non sopravvivenza, per ognuna dellr pazienti che appartengono alla comunità, che esprime se la paziente secondo questa comunità sopravviverà più o meno di cinque anni dopo la rimozione del tumore. Ogni paziente raccoglie i voti delle comunità a cui appartiene. Then (c), a two-tier voting scheme is applied. Each community expresses a vote, survival or non-survival, for each of the patients belonging to the community, which expresses whether the patient according to this community will survive more or less than five years after the removal of the tumor. Each patient collects the votes of the communities to which he belongs.

Alle fine, a ogni paziente è assegnata una classe (sopravvivenza o non sopravvivenza) in dipendenza della maggioranza dei voti raccolti dalle comunità a cui appartiene. Finally, each patient is assigned a class (survival or non-survival) depending on the majority of votes collected by the communities to which he belongs.

Se non c’è voto o c’è parità, nessuna predizione viene fatta. If there is no vote or there is a tie, no predictions are made.

Alle fine la classe assegnata ad ogni paziente è confrontata con i veri dati di sopravvivenza corrispondenti alla paziente e memorizzati nella base di dati METABRIC. At the end the class assigned to each patient is compared with the real survival data corresponding to the patient and stored in the METABRIC database.

Viene controllato che il numero di pazienti che sono stati classificati correttamente sia al di sopra di una predeterminata soglia, preferibilmente il 90%, ossia che la classe assegnata alla fine della prima sotto-fase di allenamento corresponda veramente ai dati di sopravvivenza nella base di dati METABRIC, con ciò significando che il metodo ha operato correttamente. It is checked that the number of patients who have been correctly classified is above a predetermined threshold, preferably 90%, i.e. that the class assigned at the end of the first training sub-phase really corresponds to the survival data in the database METABRIC, thereby meaning that the method worked correctly.

Il metodo è stato quindi ulteriormente sviluppato con i passi successivi qui sotto esposti, con lo scopo di ridurre il numero di geni necessari per definire le reti di votazione coerenti. The method was then further developed with the following steps outlined below, with the aim of reducing the number of genes needed to define coherent voting networks.

Nella seconda sotto-fase, il numero di geni viene ridotto come dettagliato a seguire, mentre si preserva lo schema sopra esposto, così minimizzando il numero di geni la cui espressione è necessaria per completare l’assegnazione di una classe ad una paziente. In the second sub-phase, the number of genes is reduced as detailed below, while the above scheme is preserved, thus minimizing the number of genes whose expression is necessary to complete the assignment of a class to a patient.

Questi geni formano il gruppo candidato di geni corrispondenti al vettore predeterminato di parametri, questo gruppo candidato di geni corrisponde al secondo gruppo candidato di gene sopra descritto in riferimento alla Figura 1. These genes form the candidate group of genes corresponding to the predetermined vector of parameters, this candidate group of genes corresponds to the second candidate gene group described above with reference to Figure 1.

Nel testo a seguire, tale gruppo candidato di geni corrispondente al secondo gruppo candidato di geni sopra definito con riferimento alla figura 1 verrà chiamato “primo nuovo gruppo candidato”. In the following text, this candidate group of genes corresponding to the second candidate group of genes defined above with reference to Figure 1 will be called "first new candidate group".

L’elaborazione sopra descritta viene ripetuta sul medesimo insieme di allenamento per ogni altro vettore di parametri presente nello spazio dei parametri. The processing described above is repeated on the same training set for any other vector of parameters present in the parameter space.

Per riassumere, nel passo di allenamento 100, l’input è uno spazio di parametri che comprende, per esempio 500 vettori di parametri e sottomatrici della matrice principale comprendente 1000 pazienti dell’insieme di allenamento con i 24,000 geni iniziali. To summarize, in training step 100, the input is a parameter space that includes, for example, 500 parameter vectors and submatrixes of the main matrix comprising 1000 patients of the training set with the initial 24,000 genes.

Alla fine del passo di allenamento 100, una rete coerente di votazione è stata costruita per ognuno dei vettori di parametri (quindi, per esempio un totale di 500 reti di votazione coerente), ogni rete di votazione coerente ha un primo nuovo gruppo candidato di geni ad essa associato (quindi, un totale di 500 nuovi primi gruppi candidati). At the end of training step 100, a coherent voting network has been built for each of the parameter vectors (thus, for example a total of 500 coherent voting networks), each coherent voting network has a first new candidate group of genes associated with it (therefore, a total of 500 new first candidate groups).

Tutti questi nuovi primi gruppi candidati che corrispondono a tutti i vettori di parametri nello spazio di parametri vengono raccolti. Questi nuovi primi gruppi sono quindi passati al primo passo di filtraggio 102, così da passare alla fase di validazione successiva un numero limitato di gruppi candidati di geni da considerare ulteriormente. All these new first candidate groups that correspond to all the parameter vectors in the parameter space are collected. These new first groups then passed to the first filtering step 102, so as to pass a limited number of candidate gene groups to be further considered to the subsequent validation step.

2.2 Fase di Validazione 2.2 Validation Phase

Nel passo di validazione 104 di Figura 2, i passi del metodo di Figura 1 (con alcuni passi omessi come specificato in seguito) vengono applicati, per un predeterminato vettore di parametri dello spazio di parametri come precedentemente descritto, sull’insieme di pazienti di allenamento e di validazione, per uno dei nuovi primi gruppi candidati di geni che hanno passato il primo passo di filtraggio 102 di figura 2. In the validation step 104 of Figure 2, the steps of the method of Figure 1 (with some steps omitted as specified below) are applied, for a predetermined vector of parameters of the parameter space as previously described, on the set of training patients and validation, for one of the new first candidate groups of genes that have passed the first filtering step 102 of Figure 2.

Quindi, tutti questi passi vengono ripetuti per tutti i vettori di parametri dello spazio dei parametri. Then, all these steps are repeated for all parameter vectors of the parameter space.

Quindi, tutti questi passi sono ripetuti con tutti gli altri primi nuovi gruppi candidati di geni, per tutti i vettori dei parametri nello spazio dei parametri.. Then, all these steps are repeated with all the other first new candidate gene groups, for all the parameter vectors in the parameter space.

La fase di validazione usa il secondo insieme di 500 pazienti come segue: per ogni paziente p nell’insieme di validazione, a turno, una paziente p è aggiunta all’insieme di allenamento con le informazioni di sopravvivenza lasciate indefinite. The validation phase uses the second set of 500 patients as follows: for each patient p in the validation set, in turn, a patient p is added to the training set with the survival information left undefined.

Il voto della corrispondente rete di votazione coerente così costruita viene preso come predizione della rete di votazione per la paziente p. The vote of the corresponding coherent voting network thus constructed is taken as the prediction of the voting network for patient p.

Dopo che il voto è stato assegnato alla paziente p, la paziente p viene rimossa dall’insieme di allenamento ed la prossima paziente p dell’insieme di validazione viene trattata come definito sopra. After the grade has been assigned to patient p, patient p is removed from the training set and the next patient p of the validation set is treated as defined above.

Il processo è ripetuto per tutte le pazienti p dell’insieme di validazione. The process is repeated for all patients p of the validation set.

I dati di sopravvivenza delle 500 pazienti dell’insieme di validazione non sono usati per produrre questi grafi bipartiti, e per questa ragione la predizione che otteniamo dallo schema di votazione a due livelli, con il gruppi di geni candidati e il vettore dei parametri, è completamente imparziale. The survival data of the 500 patients from the validation set are not used to produce these bipartite graphs, and for this reason the prediction we get from the two-level voting scheme, with the candidate gene groups and the parameter vector, is completely impartial.

Alla fine di questa fase di validazione ad ogni paziente dell’insieme di validazione è assegnata una classe, sopravvivenza o non sopravvivenza, con riferimento ad ogni primo nuovo gruppo candidato e ad ogni vettore di parametri usato per eseguire i passi del metodo di Figura 1. At the end of this validation phase, each patient of the validation set is assigned a class, survival or non-survival, with reference to each first new candidate group and to each vector of parameters used to perform the steps of the method in Figure 1.

La qualità della predizione viene quindi misurata confrontando la classe assegnata ad ognuna delle 500 pazienti dell’insieme di validazione, con riferimento ad ognuno dei diversi gruppi candidati di geni, con i dati di sopravvivenza associati alle suddette 500 pazienti contenuti nella base di dati METABRIC. The quality of the prediction is then measured by comparing the class assigned to each of the 500 patients of the validation set, with reference to each of the different candidate gene groups, with the survival data associated with the aforementioned 500 patients contained in the METABRIC database.

Queste misure di qualità sono usate nel secondo passo di filtraggio 106 di Figura 2 per selezionare un piccolo numero di gruppi di gene di alta qualità con associati vettori di parametri. These quality measures are used in the second filtering step 106 of Figure 2 to select a small number of high quality gene groups with associated parameter vectors.

Tipicamente, la fase di validazione rimuove il 95% dei primi nuovi gruppi candidati e dei vettori di parametri, e il rimanente 5% primi nuovi gruppi candidati e vettori di parametri con le migliori misurazioni sono inviati all’ultima fase di test. Typically, the validation phase removes 95% of the first new candidate groups and parameter vectors, and the remaining 5% of the first new candidate groups and parameter vectors with the best measurements are sent to the last test phase.

Nella descrizione che segue, i sopradetti 5% dei primi nuovi gruppi candidati saranno chiamati secondi nuovi gruppi candidati. In the following description, the aforementioned 5% of the first new candidate groups will be called the second new candidate groups.

2.3 Fase di Test 2.3 Test Phase

Nel passo di test 108 di Figura 2, i passi del metodo di Figura 1 (con alcuni passi omessi come specificato in seguito) vengono applicati, per un predeterminato vettore di parametri associato del vettore ottenuto dopo la seconda fase di filtraggio 106, sull’insieme di allenamento e sull’insieme di test, per uno dei secondi nuovi gruppi candidati di geni che hanno passato il secondo passo di filtraggio 106 di Figure 2. In the test step 108 of Figure 2, the steps of the method of Figure 1 (with some steps omitted as specified below) are applied, for a predetermined associated parameter vector of the vector obtained after the second filtering step 106, on the set and on the test set, for one of the second new candidate gene groups that passed the second filtering step 106 of Figure 2.

Quindi, tutti i passi sono ripetuti per tutti i vettori di parametri associati. Then, all steps are repeated for all associated parameter vectors.

Quindi, tutti i passi sono ripetuti con tutti i secondi nuovi gruppi candidati di geni, per tutti i vettori di parametri associati. Then, all steps are repeated with all second new candidate gene groups, for all associated parameter vectors.

La fase di test usa il terzo insieme di 500 pazienti come segue: per ogni paziente p nell’insieme di test, a turno, una paziente p viene aggiunta all’insieme di allenamento con le informazioni di sopravvivenza lasciate indefinite. The test phase uses the third set of 500 patients as follows: for each patient p in the test set, in turn, a patient p is added to the training set with the survival information left undefined.

Il voto della corrispondente rete di votazione coerente così costruita viene preso come predizione della rete di votazione per la paziente p. The vote of the corresponding coherent voting network thus constructed is taken as the prediction of the voting network for patient p.

Dopo che il voto è stato assegnato alla paziente p, la paziente p è rimossa dall’insieme di allenamento ed la prossimo paziente p dell’insieme di test viene trattata come definito sopra. After the grade has been assigned to patient p, patient p is removed from the training set and the next patient p of the test set is treated as defined above.

I dati di sopravvivenza delle 500 pazienti dell’insieme di test non sono usati per produrre questi grafi bipartiti, e per questa ragione la predizione che otteniamo dallo schema di votazione a due livelli, con il gruppi di geni candidati e il vettore dei parametri, è completamente imparziale. The survival data of the 500 patients from the test set are not used to produce these bipartite graphs, and for this reason the prediction we get from the two-level voting scheme, with the candidate gene groups and the parameter vector, is completely impartial.

Alla fine di questa fase di test ad ogni paziente dell’insieme di test è assegnata una classe, sopravvivenza o non sopravvivenza, con riferimento ad un secondo nuovo gruppo candidato e ad un vettore di parametri usato per eseguire i passi del metodo di Figura 1. At the end of this test phase, each patient in the test set is assigned a class, survival or non-survival, with reference to a second new candidate group and a vector of parameters used to perform the steps of the method in Figure 1.

La qualità della predizione viene quindi misurata confrontando la classe assegnata ad ognuna delle 500 pazienti dell’insieme di test, con riferimento ad ognuno dei diversi gruppi candidati di geni, con i dati di sopravvivenza associati alle suddette 500 pazienti contenuti nella base di dati METABRIC. The quality of the prediction is then measured by comparing the class assigned to each of the 500 patients of the test set, with reference to each of the different candidate gene groups, with the survival data associated with the aforementioned 500 patients contained in the METABRIC database.

Queste misure di qualità sono usate nel terzo passo di filtraggio 110 di Figura 2 per selezionare tra i secondi nuovi gruppi candidati un gruppo di geni di alta qualità (il gruppo finale di marcatori biologici) ed un vettore di parametri finale. These quality measures are used in the third filtering step 110 of Figure 2 to select from the second new candidate groups a group of high quality genes (the final group of biological markers) and a final parameter vector.

2.4 Analisi di stabilità 2.4 Stability analysis

L’analisi di stabilità del passo 112 è basata su di una metodologia di “lasciare-fuori-unapaziente”, e permette di misurare la stabilità del vettori dei parametri finale e del gruppo di marcatori biologici finale ottenuti alla fine del passo di filtraggio 110 di Figura 2. The stability analysis of step 112 is based on an "leave-out-one patient" methodology, and allows to measure the stability of the vectors of the final parameters and of the final biological marker group obtained at the end of the filtering step 110 of Figure 2.

La stabilità viene misurata come segue. Stability is measured as follows.

Il passo di test 108 e il terzo passo di filtraggio 110 sono ripetuti per il medesimo secondo nuovo gruppo candidato e per il vettore di parametri come alla fine della fase di test 108, ma mascherando una delle pazienti dall’insieme di test. The test step 108 and the third filtering step 110 are repeated for the same second new candidate group and for the vector of parameters as at the end of the test phase 108, but masking one of the patients from the test set.

Questa elaborazione viene ripetuta ripristinando la paziente al momento mascherata, e mascherando la successiva. Questo è ripetuto per tutte le pazienti nell’insieme di test, e la configurazione con la migliore qualità (gruppo finale di geni, e vettore di parametri finale) viene memorizzata per ogni caso. This processing is repeated by restoring the patient to the masked moment, and masking the next one. This is repeated for all patients in the test set, and the configuration with the best quality (final set of genes, and final vector of parameters) is stored for each case.

Se il gruppo di marcatori biologici finale e il vettore di parametri finale ottenuti alla file del terzo passo di filtraggio 110 risultano memorizzati il maggior numero di volte come la migliore configurazione con una paziente mascherata, allora la soluzione viene chiamata “stabile” rispetto alle perturbazione delle pazienti dell’insieme di test. If the final group of biological markers and the final parameter vector obtained in the file of the third filtering step 110 are stored as the best number of times as the best configuration with a masked patient, then the solution is called "stable" with respect to the perturbations of the test set patients.

3. Varianti della costruzione di reti di votazione coerente tra le fasi di allenamento, validazione e test. 3. Variants of the construction of coherent voting networks between the training, validation and test phases.

Come sopra descritto, la sequenza completa dei passi del metodo di Figura 1 è stato descritto con riferimento al passo di allenamento 100 di Figura 2. Quando il metodo di Figura 1 è applicato nei passi di validazione 104, test 108, e analisi di stabilità 112, alcuni passi sono omessi. As described above, the complete sequence of steps of the method of Figure 1 has been described with reference to the training step 100 of Figure 2. When the method of Figure 1 is applied in the validation steps 104, test 108, and stability analysis 112 , some steps are omitted.

I passi omessi sono quelli il cui scopo è di ridurre il numero di geni, poiché il gruppo di geni candidato si suppone fissato quando il metodo di Figura 1 si applica alla validazione, test, e analisi di stabilità. The omitted steps are those whose purpose is to reduce the number of genes, since the candidate gene group is supposed to be fixed when the method of Figure 1 applies to validation, testing, and stability analysis.

Specificatamente il passo 2, il passo 10, il passo 12 ed il passo 14 sono omessi. Le comunità prodotte alla fine del passo 8 sono passate direttamente al passo di controllo di qualità (passo 16). Specifically, step 2, step 10, step 12 and step 14 are omitted. The communities produced at the end of step 8 went directly to the quality control step (step 16).

Per classificare una nuova paziente sconosciuto, non presente nella base di dati METABRIC, il passo di test 108 viene riapplicato con il gruppo di marcatori biologici finale e con il vettore dei parametri finale. To classify a new unknown patient, not present in the METABRIC database, the test step 108 is reapplied with the final set of biological markers and with the final parameter vector.

In particolare, i passi dall’ 1 al 20 (con l’omissione dei passi 2, 10, 12 e 14 come sopra descritto) del metodo di Figura 1 sono applicati ad una coorte di 1001 pazienti, ossia le 100 pazienti di allenamento più la nuovo paziente, per predire la classe A o B a cui appartiene la nuova paziente. In particular, steps from 1 to 20 (with the omission of steps 2, 10, 12 and 14 as described above) of the method of Figure 1 are applied to a cohort of 1001 patients, i.e. the 100 training patients plus the new patient, to predict the class A or B to which the new patient belongs.

La presente invenzione permette ad un medico di predire se il paziente sopravviverà più o meno di 5 anni. The present invention allows a physician to predict whether the patient will survive more or less than 5 years.

Il vantaggio per la paziente è nella possibilità di personalizzare ogni scelta terapeutica fatta con l’aiuto di un medico in una ulteriore fase di analisi prognostica che prenda in considerazione il profilo dei marcatori molecolari della paziente, con quindi una maggior probabilità di una cura efficace per la sopravvivenza. The advantage for the patient is in the possibility of personalizing each therapeutic choice made with the help of a doctor in a further phase of prognostic analysis that takes into consideration the profile of the patient's molecular markers, with therefore a greater probability of an effective treatment for survival.

Il vantaggio per il medico è di avere uno strumento per validare le scelte terapeutiche da protocollo, o per suggerire la necessità di cure alternative. The advantage for the doctor is to have a tool to validate the therapeutic choices from the protocol, or to suggest the need for alternative treatments.

Il vantaggio per il sistema sanitario nel suo complesso è una migliore discriminazione tra le pazienti che richiedono cure costose ed invasive (per esempio, chemioterapia) e quelli che traggono beneficio da cure meno costose e meno invasive (per esempio terapie ormonali). The benefit to the health system as a whole is better discrimination between patients who require expensive and invasive care (e.g., chemotherapy) and those who benefit from less expensive and less invasive treatments (e.g. hormone therapies).

Chiaramente, restando I principi dell’invenzione i medesimi, la realizzazione e i dettagli di produzione possono variare considerevolmente da quanto descritto e illustrato puramente come esempio non-limitativo, senza scostarsi dall’ambito di protezione della presente invenzione come definita dalle rivendicazioni allegate. Clearly, while the principles of the invention remain the same, the construction and production details may vary considerably from what is described and illustrated purely as a non-limiting example, without departing from the scope of protection of the present invention as defined by the attached claims.

Claims (5)

RIVENDICAZIONI 1. Metodo per selezionare un gruppo finale di marcatori biologici e di un vettore finale di parametri utili nella predizione della probabilità di sopravvivenza a lungo termine al tumore del seno in una paziente affetta da tumore al seno, in cui dati relativi ad una predeterminata coorte di pazienti, includenti, per ogni paziente, livelli di espressione genica di un gruppo di geni nel tessuto tumorale, sono divisi in modo casuale in un insieme di allenamento, un insieme di validazione ed un insieme di test, il metodo comprendendo: a) una fase di allenamento (100), in cui un predeterminato schema di rete di votazione coerente è applicato, per una pluralità di vettori di parametri ognuno comprendente i parametri di input di un rete di votazione coerente, all’insieme di allenamento, lo schema di rete di votazione coerente essendo capace di selezionare, per ogni vettore di parametri, un primo sottoinsieme di detto gruppo di geni, capace di classificare a quale classe appartiene ogni paziente dell’insieme di allenamento, la classe essendo o una classe di sopravvivenza rappresentativa della sopravvivenza della paziente dopo l’asportazione del tumore, oppure una classe di non-sopravvivenza rappresentativa della non-sopravvivenza della paziente dopo l’asportazione del tumore, così che ogni vettore di parametri sia associato ad una rete di votazione coerente; b) un primo passo di filtraggio (102) per selezionare, tra detto primo sottoinsieme di gruppo di geni, primi nuovi gruppi candidati di geni aventi predeterminate qualità basate sulla classe assegnata alle pazienti dell’insieme di allenamento, ogni primo nuovo gruppo candidato di geni essendo associato ad una corrispettiva rete di votazione coerente; c) una fase di validazione (104), in cui lo schema di rete di votazione coerente è ri-applicato, per ogni vettore di parametri e per ogni primo nuovo gruppo candidato, all’insieme di allenamento in cui a turno ogni paziente dell’insieme di validazione viene aggiunto all’insieme di allenamento, in modo da assegnare ogni paziente dell’insieme di validazione alla classe di sopravvivenza o nonsopravvivenza, con riferimento ad ogni primo nuovo gruppo candidato e ad ogni vettore di parametri; d) un secondo passo di filtraggio (106) per selezionare, tra detti primi nuovi gruppi candidati, secondi nuovi gruppi candidati e associati vettori di parametri aventi predeterminate qualità, basate sulla classe assegnata alle pazienti dell’insieme di validazione; e) una fase di test (108), in cui lo schema di votazione coerente viene ri-applicato, per ogni vettore di parametri, e per ogni secondo nuovo gruppo candidato, all’insieme di allenamento, in cui a turno ogni paziente dell’insieme di test viene aggiunta all’insieme di allenamento, in modo da assegnare ogni paziente dell’insieme di test alla classe di sopravvivenza o non-sopravvivenza, con riferimento ad ogni secondo nuovo gruppo candidato e ad ogni vettore di parametri; f) un terzo passo di filtraggio (110) per selezionare, tra detti secondi nuovi gruppi candidati, un gruppo finale di marcatori biologici e un vettore finale di parametri aventi predeterminata qualità basati sulla classe assegnata alle pazienti dell’insieme di test. CLAIMS 1. Method for selecting a final group of biological markers and a final vector of parameters useful in the prediction of the probability of long-term survival from breast cancer in a patient with breast cancer, in which data relating to a predetermined cohort of Patients, including, for each patient, gene expression levels of a group of genes in tumor tissue, are randomly divided into a training set, a validation set and a test set, the method comprising: a) a training phase (100), in which a predetermined coherent voting network scheme is applied, for a plurality of parameter vectors each comprising the input parameters of a coherent voting network, to the training set, coherent voting network scheme being able to select, for each vector of parameters, a first subset of said group of genes, capable of classifying which class each patient of the training set belongs to, the class being or a representative survival class patient survival after tumor removal, or a non-survival class representative of patient non-survival after tumor removal, so that each parameter vector is associated with a coherent voting network; b) a first filtering step (102) to select, among said first subset of gene group, first new candidate groups of genes having predetermined qualities based on the class assigned to the patients of the training set, each first new candidate group of genes being associated with a corresponding coherent voting network; c) a validation phase (104), in which the coherent voting network scheme is re-applied, for each parameter vector and for each first new candidate group, to the training set in which each patient of the validation set is added to the training set, in order to assign each patient of the validation set to the survival or non-survival class, with reference to each first new candidate group and to each vector of parameters; d) a second filtering step (106) to select, among said first new candidate groups, second new candidate groups and associated vectors of parameters having predetermined qualities, based on the class assigned to the patients of the validation set; e) a test phase (108), in which the coherent voting scheme is re-applied, for each parameter vector, and for each second new candidate group, to the training set, in which each patient of the set of tests is added to the training set, so as to assign each patient of the test set to the survival or non-survival class, with reference to each second new candidate group and to each vector of parameters; f) a third filtering step (110) to select, among said second new candidate groups, a final group of biological markers and a final vector of parameters having predetermined quality based on the class assigned to the patients of the test set. 2. Metodo secondo la rivendicazione 1, comprendente inoltre un passo di analisi di stabilità (112) in cui la fase di test (108) ed il terzo passo di filtraggio (110) sono ripetuti sui secondi nuovi gruppi candidati e sui vettori di parametri, mascherando a turno una paziente dall’insieme di test e registrando il gruppo candidato e il vettore dei parametri con la migliore qualità ottenuta, in cui, se il gruppo finale di marcatori biologici e il vettore finale di parametri sono riportati nella maggior parte dei casi come il migliore gruppo candidato e vettore di parametri con la paziente mascherata, il gruppo finale di marcatori biologici e il vettore finale di parametri sono detti stabili rispetto alle perturbazioni nell’insieme di pazienti di test. Method according to claim 1, further comprising a stability analysis step (112) in which the testing step (108) and the third filtering step (110) are repeated on the second new candidate groups and on the parameter vectors, by masking a patient in turn from the test set and recording the candidate group and parameter vector with the best quality obtained, where, if the final group of biological markers and the final parameter vector are reported in most cases as the best candidate group and vector of parameters with the masked patient, the final group of biological markers and the final vector of parameters are said to be stable with respect to perturbations in the set of test patients. 3. Metodo secondo la rivendicazione 1 o 2, in cui nel primo passo di filtraggio (102) le predeterminate qualità includono: - valutazione se i primi nuovi gruppi candidati siano di numerosità maggiore di un valore predeterminato, e scartarli; - valutazione se le reti coerenti di votazione associate ai primi nuovi gruppi candidati hanno una percentuale di coerenza sotto una predeterminata soglia, e scartare il primo nuovo gruppo candidato associato. Method according to claim 1 or 2, wherein in the first filtering step (102) the predetermined qualities include: - evaluation if the first new candidate groups are larger than a predetermined value, and discard them; - evaluation if the coherent voting networks associated with the first new candidate groups have a coherence percentage below a predetermined threshold, and discard the first new associated candidate group. 4. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui nel secondo passo di filtraggio (106) le predeterminate qualità includono: - rimozione di reti di votazione coerente associate a primi nuovi gruppi candidati che hanno una rilassatezza superiore ad una soglia predefinita; - calcolo, per ogni rete di votazione coerente, di un punto in uno spazio bi-dimensionale che include accuratezza e rapporto di probabilità, e calcolo del “fronte di Pareto” di questo insieme bidimensionale di punti. Method according to any one of the preceding claims, wherein in the second filtering step (106) the predetermined qualities include: - removal of coherent voting networks associated with first new candidate groups that have a relaxation greater than a predefined threshold; - calculation, for each coherent voting network, of a point in a two-dimensional space that includes accuracy and probability ratio, and calculation of the "Pareto front" of this two-dimensional set of points. 5. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui nel terzo passo di filtraggio (110), le predeterminate qualità includono la rimozione di reti di votazione coerente associate ai secondi nuovi gruppi candidati che hanno rilassatezza al di sopra di una soglia predefinita, e la selezione del gruppo finale di marcatori biologici e del vettore finale dei parametri con il più alto valore del rapporto di probabilità. Method according to any one of the preceding claims, wherein in the third filtering step (110), the predetermined qualities include the removal of coherent voting networks associated with the second new candidate groups which have relaxation above a predefined threshold, and the selection of the final group of biological markers and the final vector of parameters with the highest value of the probability ratio.
IT102019000019556A 2019-10-22 2019-10-22 Method for selecting a group of biological markers and a vector of parameters useful in predicting the probability of long-term survival from breast cancer in breast cancer patients IT201900019556A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
IT102019000019556A IT201900019556A1 (en) 2019-10-22 2019-10-22 Method for selecting a group of biological markers and a vector of parameters useful in predicting the probability of long-term survival from breast cancer in breast cancer patients

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT102019000019556A IT201900019556A1 (en) 2019-10-22 2019-10-22 Method for selecting a group of biological markers and a vector of parameters useful in predicting the probability of long-term survival from breast cancer in breast cancer patients

Publications (1)

Publication Number Publication Date
IT201900019556A1 true IT201900019556A1 (en) 2021-04-22

Family

ID=69811495

Family Applications (1)

Application Number Title Priority Date Filing Date
IT102019000019556A IT201900019556A1 (en) 2019-10-22 2019-10-22 Method for selecting a group of biological markers and a vector of parameters useful in predicting the probability of long-term survival from breast cancer in breast cancer patients

Country Status (1)

Country Link
IT (1) IT201900019556A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0842475A1 (en) * 1995-07-25 1998-05-20 Horus Therapeutics, Inc. Computer assisted methods for diagnosing diseases
WO2006113747A2 (en) * 2005-04-19 2006-10-26 Prediction Sciences Llc Diagnostic markers of breast cancer treatment and progression and methods of use thereof
US20150178639A1 (en) * 2012-06-21 2015-06-25 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated bias correction and class prediction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0842475A1 (en) * 1995-07-25 1998-05-20 Horus Therapeutics, Inc. Computer assisted methods for diagnosing diseases
WO2006113747A2 (en) * 2005-04-19 2006-10-26 Prediction Sciences Llc Diagnostic markers of breast cancer treatment and progression and methods of use thereof
US20150178639A1 (en) * 2012-06-21 2015-06-25 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated bias correction and class prediction

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AMRIT SINGH ET AL: "Abstract", BIORXIV, 20 March 2018 (2018-03-20), XP055703706, Retrieved from the Internet <URL:https://www.biorxiv.org/content/10.1101/067611v2.full.pdf> DOI: 10.1101/067611 *
RUNYU JING ET AL: "Ensemble Methods with Voting Protocols Exhibit Superior Performance for Predicting Cancer Clinical Endpoints and Providing More Complete Coverage of Disease-Related Genes", INTERNATIONAL JOURNAL OF GENOMICS, vol. 2018, 1 January 2018 (2018-01-01), pages 1 - 14, XP055703712, ISSN: 2314-436X, DOI: 10.1155/2018/8124950 *

Similar Documents

Publication Publication Date Title
Pölsterl et al. Fast training of support vector machines for survival analysis
Shao et al. Weakly supervised deep ordinal cox model for survival prediction from whole-slide pathological images
US20170024529A1 (en) Semi-Supervised Learning Framework based on Cox and AFT Models with L1/2 Regularization for Patient&#39;s Survival Prediction
Zandonà et al. A dynamic Bayesian network model for the simulation of amyotrophic lateral sclerosis progression
Iacovacci et al. Mesoscopic structures reveal the network between the layers of multiplex data sets
CN107545151A (en) A kind of medicine method for relocating based on low-rank matrix filling
Walls et al. Radiomics for predicting lung cancer outcomes following radiotherapy: a systematic review
Avanzo et al. Combining computed tomography and biologically effective dose in radiomics and deep learning improves prediction of tumor response to robotic lung stereotactic body radiation therapy
EP4200862A1 (en) Method and system for quantifying cellular activity from high throughput sequencing data
Couckuyt et al. Challenges in translational machine learning
Bai et al. Application of interpretable machine learning algorithms to predict distant metastasis in osteosarcoma
Wilson et al. Fenchel duality of Cox partial likelihood with an application in survival kernel learning
Aloisio et al. Machine learning predictions of code-based seismic vulnerability for reinforced concrete and masonry buildings: Insights from a 300-building database
Lopez‐Pintado et al. A depth‐based global envelope test for comparing two groups of functions with applications to biomedical data
Puga et al. Discovery of patient phenotypes through multi-layer network analysis on the example of tinnitus
CN113270191A (en) Data correction and classification method and storage medium
IT201900019556A1 (en) Method for selecting a group of biological markers and a vector of parameters useful in predicting the probability of long-term survival from breast cancer in breast cancer patients
Vimaladevi et al. A microarray gene expression data classification using hybrid back propagation neural network
Jarman et al. An integrated framework for risk profiling of breast cancer patients following surgery
Lavanya et al. Classification of microarray data based on feature selection method
Peng et al. A graph convolution network-based model for prioritizing personalized cancer driver genes of individual patients
Johnson et al. Estimating single cell clonal dynamics in human blood using coalescent theory
Chen et al. Similarity fusion via exploiting high order proximity for cancer subtyping
Huo et al. Sparse embedding for interpretable hospital admission prediction
EP3813071B1 (en) Method for creating a coherent voting network useful in predicting a likelihood of long-term survival of a breast cancer patient