IT202100012299A1 - Identification of genes and proteins linked to a disease using artificial intelligence - Google Patents

Identification of genes and proteins linked to a disease using artificial intelligence Download PDF

Info

Publication number
IT202100012299A1
IT202100012299A1 IT102021000012299A IT202100012299A IT202100012299A1 IT 202100012299 A1 IT202100012299 A1 IT 202100012299A1 IT 102021000012299 A IT102021000012299 A IT 102021000012299A IT 202100012299 A IT202100012299 A IT 202100012299A IT 202100012299 A1 IT202100012299 A1 IT 202100012299A1
Authority
IT
Italy
Prior art keywords
entities
biological
neural network
function
proteins
Prior art date
Application number
IT102021000012299A
Other languages
Italian (it)
Inventor
Luigi Bondurri
Alessandro Radaelli
Daniele Brambilla
Original Assignee
The Prophetai S R L
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by The Prophetai S R L filed Critical The Prophetai S R L
Priority to IT102021000012299A priority Critical patent/IT202100012299A1/en
Publication of IT202100012299A1 publication Critical patent/IT202100012299A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Description

Titolo: ?Individuazione di geni e proteine collegati a una patologia mediante intelligenza artificiale?. Title: ?Identification of genes and proteins linked to a disease using artificial intelligence?.

DESCRIZIONE DESCRIPTION

Campo tecnico Technical field

La presente invenzione si sviluppa nel campo tecnico della ricerca scientifica sulle proteine collegate a patologie. The present invention is developed in the technical field of scientific research on proteins associated with pathologies.

Stato della tecnica State of the art

La ricerca scientifica di base porta a scoprire nuove cure e la genesi di patologie cercando particolari proteine o composti coinvolti. Basic scientific research leads to the discovery of new treatments and the genesis of pathologies by looking for particular proteins or compounds involved.

Ai fini di ricerca pu? essere utile individuare proteine aventi diversi tipi di collegamento con una patologia. Per esempio, la presenza di una proteina, oppure un?interazione con una proteina di test, in un determinato campione biologico, come un fluido biologico, pu? essere un marcatore della sussistenza di una condizione patologica. Ci? consente di sviluppare metodi diagnostici della patologia, ma anche di comprendere pi? precisamente la natura e le dinamiche di genesi e sviluppo della patologia. Questa comprensione pu? trovare utilit? nella cura della patologia. In aggiunta, una proteina che fosse utilizzata nella cura ? sempre considerata collegata alla patologia. For research purposes can? be useful to identify proteins having different types of link with a disease. For example, the presence of a protein, or an interaction with a test protein, in a given biological sample, such as a biological fluid, can be a marker of the existence of a pathological condition. There? allows you to develop diagnostic methods of pathology, but also to understand more? precisely the nature and dynamics of the genesis and development of the pathology. This understanding can find utility in the treatment of pathology. In addition, a protein that was used in the cure ? always considered to be related to the disease.

La base di partenza per nuove ricerche ? rappresentata dalle ricerche precedenti, svolte in tutto il mondo. I risultati delle ricerche sono raccolti in articoli scientifici, che descrivono ad esempio il coinvolgimento di proteine, collegate ad uno o pi? diversi geni, nello sviluppo o nella cura di una patologia. The starting point for new research? represented by previous research, carried out around the world. The research results are collected in scientific articles, which describe for example the involvement of proteins, linked to one or more? different genes, in the development or treatment of a disease.

Problema della tecnica anteriore Prior art problem

Un ricercatore che sia interessato ad individuare una proteina o composto collegati a una patologia, in una prima fase si affida alla propria conoscenza, a testi di riferimento o ad articoli scientifici per la selezione di proteine ritenute appropriate. A researcher who is interested in identifying a protein or compound linked to a disease initially relies on his own knowledge, reference texts or scientific articles for the selection of proteins deemed appropriate.

In questo modo il ricercatore identifica proteine candidate a soddisfare i suoi obiettivi di ricerca. Quindi vengono svolti test, di tecnica nota, per verificare se le proteine candidate siano effettivamente collegate alla patologia. I test possono essere ad esempio test idonei a verificare la presenza della proteina in un campione biologico, ad esempio test antigenici, in particolare test ELISA. In altri contesti di ricerca i test possono essere test adatti a verificare l?efficacia teorica dell?uso della proteina in una cura della patologia. In this way the researcher identifies candidate proteins to satisfy his research objectives. Then tests, of known technique, are carried out to verify if the candidate proteins are actually linked to the pathology. The tests can for example be tests suitable for verifying the presence of the protein in a biological sample, for example antigen tests, in particular ELISA tests. In other research contexts, the tests can be tests suitable for verifying the theoretical effectiveness of the use of the protein in treating the disease.

Per efficacia teorica si intende in particolare l?abilit? della tecnologia sanitaria in questione di produrre miglioramenti nella salute quando usate nelle condizioni pi? favorevoli. By theoretical effectiveness is meant in particular the ability? of health technology in question to produce improvements in health when used in the most? favourable.

Tuttavia, la letteratura in proposito ? estremamente ampia e disomogenea. Ad esempio, diversi articoli, in base anche al background culturale degli autori e alla loro origine geografica, possono utilizzare nomenclature diverse per lo stesso gene, la stessa proteina o la stessa patologia. However, the literature on the subject extremely large and uneven. For example, different articles, also based on the cultural background of the authors and their geographical origin, may use different nomenclature for the same gene, the same protein or the same pathology.

Di fatto, la vastit? di questa letteratura non consente a un ricercatore di sfruttare al meglio il lavoro gi? compiuto da altri, che potrebbero aver gi? individuato altre proteine collegate alla medesima o a una simile patologia. In aggiunta, il ricercatore spesso non ? in grado di individuare una proteina che, pur non essendo mai stata riconosciuta come collegata ad una certa patologia, ? in realt? un candidato con elevate potenzialit?, a causa della sua affinit? con altre proteine gi? individuate in contesti affini. In fact, the vastness of this literature does not allow a researcher to make the most of the work already? accomplished by others, who may have already? identified other proteins linked to the same or a similar pathology. In addition, the researcher is often not able to identify a protein which, although it has never been recognized as connected to a certain pathology, is actually? a candidate with high potential?, due to his affinity? with other proteins already? identified in related contexts.

Sommario dell?invenzione Summary of the invention

Uno scopo della presente invenzione ? di agevolare la ricerca e selezione di entit? biologiche, quali geni e proteine, collegate ad una particolare patologia. An object of the present invention ? to facilitate the search and selection of entities? biological processes, such as genes and proteins, linked to a particular pathology.

E? quindi scopo dell?invenzione anche migliorare la qualit? e la rapidit? della ricerca scientifica. AND? therefore the purpose of the invention is also to improve the quality? and the speed? of scientific research.

E? inoltre scopo dell?invenzione agevolare l?accesso di un operatore ad informazioni su entit? biologiche potenzialmente rilevanti per la sua attivit?, ma difficilmente reperibili da una ricerca diretta in letteratura. AND? moreover, the purpose of the invention is to facilitate an operator's access to information on entities? potentially relevant to its activity, but difficult to find from a direct search in the literature.

Questo ed altri scopi sono raggiunti da un metodo per individuare entit? biologiche collegate ad una patologia, date da proteine o acidi nucleici, e da un motore software di raccomandazione ad intelligenza artificiale per entit? biologiche, secondo una qualsiasi delle unite rivendicazioni. This and other purposes are achieved by a method for identifying entities? biological characteristics linked to a pathology, given by proteins or nucleic acids, and by a software engine of recommendation with artificial intelligence by entity? biological, according to any one of the joined claims.

L?invenzione prevede che una lista di input di entit? biologiche, selezionate fra proteine ed acidi nucleici, quali geni codificanti proteine, sia fornita ad una rete neurale, con l?opzionale aggiunta di nomi di patologie. Nella lista di input vengono incluse entit? che siano pertinenti alla patologia, ad esempio entit? gi? note all?operatore, nella sua conoscenza personale o in base a letteratura a sua disposizione, per essere collegate alla patologia o a patologie simili. La rete neurale ha a disposizione una lista complessiva di entit? biologiche, memorizzate ed elaborate in fase di addestramento della rete neurale con milioni di documenti (papers o references scientifiche). The invention foresees that an input list of entities? biological proteins, selected from proteins and nucleic acids, such as protein-coding genes, is provided to a neural network, with the optional addition of disease names. Are entities included in the input list? that are relevant to the pathology, for example entity? already known to the operator, in his personal knowledge or on the basis of literature at his disposal, to be connected to the pathology or similar pathologies. Does the neural network have an overall list of entities available? biological, memorized and processed in the training phase of the neural network with millions of documents (papers or scientific references).

Una funzione di predizione della rete neurale attribuisce punteggi nella lista complessiva sulla base della lista di input che ? stata fornita. In base ai punteggi attribuiti, vengono selezionate entit? biologiche da raccomandare, espresse ad esempio come nomi di geni pubblicamente riconosciuti, che possono essere testate dall?operatore, eventualmente dopo analisi della letteratura mirata sulle entit? raccomandate. A neural network prediction function assigns scores in the overall list based on the input list that ? been provided. Based on the scores awarded, entities are selected biological to be recommended, expressed for example as names of publicly recognized genes, which can be tested by the operator, possibly after analysis of the targeted literature on the entities? recommended.

La rete neurale ? dotata di una funzione di addestramento che corregge la funzione di predizione, sulla base delle informazioni contenute in un database di apprendimento. Il database di apprendimento contiene articoli scientifici pertinenti alle entit? biologiche di interesse. The neural network? equipped with a training function that corrects the prediction function, based on the information contained in a learning database. Does the learning database contain scientific articles relevant to the entities? biologicals of interest.

Vantaggiosamente, l?apprendimento svolto dalla rete neurale consente di sfruttare le informazioni contenute in una vastissima letteratura, cos? da selezionare successivamente un numero limitato di entit? biologiche per la considerazione da parte dell?operatore. Advantageously, the learning performed by the neural network makes it possible to exploit the information contained in a vast literature, thus to subsequently select a limited number of entities? biologics for operator consideration.

Vantaggiosamente, le entit? biologiche raccomandate possono includere entit? gi? trovate come collegate alla medesima patologia, e quindi con esiti di test facilmente verificabili in letteratura e trasferibili al caso contingente, oppure entit? non ancora riconosciute come collegate alla patologia, ma che sono altamente correlate ad altre entit? gi? considerate, e che quindi rappresentano buoni candidati per questa nuova ricerca. Advantageously, the entities recommended biological entities can include entities? already found as connected to the same pathology, and therefore with test results easily verifiable in the literature and transferable to the contingent case, or entity? not yet recognized as related to the disease, but which are highly related to other entities? already considered, and which therefore represent good candidates for this new research.

BREVE DESCRIZIONE DELLE FIGURE BRIEF DESCRIPTION OF THE FIGURES

La figura 1 mostra schematicamente un modello di rete neurale, utilizzato in una forma realizzativa del software di raccomandazione per entit? biologiche secondo l?invenzione. Figure 1 schematically shows a neural network model, used in one embodiment of the entity recommendation software. biological products according to the invention.

DESCRIZIONE DETTAGLIATA DETAILED DESCRIPTION

Viene qui descritto un motore software di raccomandazione ad intelligenza artificiale per entit? biologiche. Viene inoltre descritto un metodo per individuare entit? biologiche collegate ad una data patologia, che fa uso del motore di raccomandazione. Is an artificial intelligence software recommendation engine for entities described here? organic. It also describes a method for locating entities? biological characteristics related to a given pathology, which makes use of the recommendation engine.

L?invenzione pu? essere fornita anche nella forma di un supporto dati leggibile da un elaboratore, in cui sia contenuto il motore di raccomandazione. The invention can also be provided in the form of a computer-readable data carrier, in which the recommendation engine is contained.

Le entit? biologiche di interesse per l?invenzione sono proteine e acidi nucleici, in particolare geni, e nel seguito della descrizione l?espressione ?entit? biologica? sar? sempre utilizzata in tal senso. Esempi preferiti sono rappresentati da geni codificanti proteine, complessi proteici, antigeni del cancro, altre molecole coinvolte nelle pathways del corpo umano, frammenti di acidi nucleici conosciuti, RNA messaggero ecc. The entities proteins of interest for the invention are proteins and nucleic acids, in particular genes, and in the continuation of the description the expression ?entity? organic? will be always used in this sense. Preferred examples are protein coding genes, protein complexes, cancer antigens, other molecules involved in human body pathways, fragments of known nucleic acids, messenger RNA, etc.

Il motore di raccomandazione comprende un?interfaccia di input e un?interfaccia di output. The recommendation engine comprises an input interface and an output interface.

L?interfaccia di input ? configurata per ricevere una lista di input, contenente l?indicazione di una o pi? entit? biologiche. Con l?inserimento della lista di input, l?utente interroga il motore di raccomandazione, ovvero richiede una raccomandazione. La lista di input ? generata dall?utente. Come maggiormente dettagliato in seguito, gi? in fase di generazione della lista di input possono essere forniti suggerimenti dal motore di raccomandazione per disambiguare gli alias esistenti nella comunit? scientifica. ? previsto che la lista di input includa entit? pertinenti alla ricerca o alla specifica patologia scelta, comunque nella conoscenza dell?utente. The input interface ? configured to receive a list of inputs, containing the indication of one or more? entity organic. By entering the input list, the user queries the recommendation engine, i.e. requests a recommendation. The input list ? generated by the user. As more detailed below, gi? during the generation of the input list, suggestions can be provided by the recommendation engine to disambiguate the existing aliases in the community? scientific. ? Is the input list expected to include entities? pertinent to the research or to the specific pathology chosen, in any case within the knowledge of the user.

Le indicazioni incluse nella lista di input sono preferibilmente di tipo testuale e possono essere suggerite dal sistema. In altre parole, ogni entit? ? rappresentata mediante una stringa di caratteri. In particolare, nel caso di geni ? preferita una rappresentazione mediante la nomenclatura Gene Symbol HGNC Hugo Gene Nomenclature Committee (https://www.genenames.org/). Nel caso di entit? diverse dai geni pu? essere utilizzato il corrispettivo standard internazionale riconosciuto. The indications included in the input list are preferably textual and can be suggested by the system. In other words, each entity ? represented by a string of characters. In particular, in the case of genes ? a representation by nomenclature Gene Symbol HGNC Hugo Gene Nomenclature Committee (https://www.genenames.org/) is preferred. In the case of entities different from the genes pu? the corresponding internationally recognized standard be used.

Opzionalmente, l?interfaccia di input ? configurata per ricevere anche l?indicazione di uno o pi? nomi di patologie. Laddove l?interfaccia di input consenta l?inserimento di entrambi questi tipi di dati, non ? comunque necessario che l?utente, od operatore, li inserisca tutti, ma il motore di raccomandazione pu? funzionare anche solamente con dati parziali che omettano, ad esempio, la patologia ed includano solamente le entit? biologiche. Optionally, the input interface ? configured to also receive the indication of one or more? disease names. Where the input interface allows both of these types of data to be entered, it is not? however, it is necessary that the user, or operator, inserts them all, but the recommendation engine can? work even only with partial data that omit, for example, the pathology and include only the entity? organic.

L?indicazione di una o pi? patologie preferibilmente include la patologia per cui si intendono individuare le entit? biologiche collegate. In alternativa, ? ammissibile che siano indicate patologie affini ad essa. The indication of one or more? pathologies preferably includes the pathology for which the entity is to be identified? related biologicals. Alternatively, ? it is permissible that pathologies related to it are indicated.

Nella forma realizzativa preferita, l?interfaccia di input comprende una funzione di transcodifica, configurata per riconoscere come equivalenti diverse nomenclature, ovvero diverse forme di rappresentazione testuale di medesime entit? biologiche. A tale scopo, la funzione di transcodifica ha in memoria una tabella di corrispondenza che, per almeno alcune entit? biologiche, indica diverse rappresentazioni testuali di ciascuna entit?. In the preferred embodiment, the input interface comprises a transcoding function, configured to recognize as equivalent different nomenclatures, or different forms of textual representation of the same entities? organic. For this purpose, the transcoding function has a correspondence table in memory which, for at least some entities, biological, indicates different textual representations of each entity.

Opzionalmente, la tabella di corrispondenza designa come equivalenti anche forme di rappresentazione testuale di una proteina con forme di rappresentazione testuale di un gene che codifica la proteina. Optionally, the correspondence table also designates text representation forms of a protein with text representation forms of a gene that codes for the protein as equivalent.

La funzione di transcodifica, quindi, permette di riconoscere input che siano forniti con diverse possibili forme di rappresentazione utilizzabili dall?utente, che abbiano un riferimento riconosciuto in letteratura, cos? che siano state implementate nella tabella di corrispondenza. The transcoding function, therefore, allows to recognize inputs that are supplied with different possible forms of representation that can be used by the user, that have a recognized reference in the literature, so that have been implemented in the correspondence table.

In aggiunta, l?interfaccia di input pu? includere una funzione di suggerimento di scrittura che fa uso della funzione di transcodifica. La funzione di suggerimento scrittura ? configurata, mentre un utente inserisce nell?interfaccia di input almeno un?entit? biologica della lista di input, per suggerire all?utente un nome completo di un?entit? biologica parzialmente scritta, oppure di un?entit? biologica equivalente all?entit? biologica scritta dall?utente secondo la tabella di corrispondenza. In addition, the input interface can? include a writing suggestion function that makes use of the transcoding function. The writing suggestion function ? configured, while a user inserts in the input interface at least one? entity? biological of the input list, to suggest to the user a complete name of an entity? biological partially written, or a? entity? biological equivalent to? entity? written by the user according to the correspondence table.

L?interfaccia di output ? configurata per fornire in output una o pi? entit? biologiche raccomandate, ovvero una lista di output. Sono preferibilmente escluse dalla lista di output tutte le entit? biologiche contenute nella lista di input. The output interface ? configured to provide one or more outputs? entity recommended organic products, i.e. a list of outputs. Are all entities preferably excluded from the output list? biologics contained in the input list.

Di seguito, nella tabella 1 ? indicato un esempio di lista di input fornita al motore di raccomandazione, con entit? biologiche collegate al diabete. Nella tabella 2 ? indicata la lista di output ottenuta. Below, in table 1 ? indicated an example of input list supplied to the recommendation engine, with entity? biology related to diabetes. In table 2 ? indicated the output list obtained.

Tabella 1 Table 1

Tabella 2 Table 2

Ricevuta l?indicazione di una o pi? entit? biologiche raccomandate, ? possibile per l?utente selezionare almeno una di esse per la propria ricerca. Tale selezione pu? avvenire a seguito di un?ulteriore consultazione, da parte dell?utente, della letteratura sulle entit? biologiche raccomandate. A tale scopo, la lista di output ? preferibilmente accompagnata da collegamenti ipertestuali che reindirizzano a testi di letteratura scientifica pertinenti alle entit? raccomandate. Preferibilmente, i collegamenti ipertestuali selezionano e cercano nei maggiori siti di letteratura scientifica i riferimenti suggeriti (ad esempio la serie di geni, in che patologia sono coinvolti, in quale pathways ecc). Received the indication of one or more? entity recommended organic, ? It is possible for the user to select at least one of them for his own research. This selection can take place following a? further consultation, by the user, of the literature on the entities? recommended organics. For this purpose, the output list ? preferably accompanied by hypertext links that redirect to texts of scientific literature relevant to the entities? recommended. Preferably, the hypertext links select and search the major scientific literature sites for the suggested references (for example the series of genes, in which pathology they are involved, in which pathways, etc.).

Nella forma realizzativa preferita, essendo la raccomandazione fornita come gene symbol, per il ricercatore diventa possibile svolgere test di tecnica nota mirati a verificare se almeno una proteina codificata da una delle entit? biologiche raccomandate sia collegata o meno alla patologia. In the preferred embodiment, since the recommendation is supplied as a gene symbol, it becomes possible for the researcher to carry out known art tests aimed at verifying whether at least one protein encoded by one of the entities recommended biologics whether or not it is related to the disease.

In forme realizzative alternative, qualora la raccomandazione fosse resa nella forma di nomi di proteine, i test sono eseguiti direttamente sulle entit? biologiche raccomandate. In alternative embodiments, if the recommendation is rendered in the form of protein names, the tests are performed directly on the entities? recommended organics.

I test sul collegamento della proteina con la patologia possono essere test adatti a verificare se, almeno in concomitanza con una fase temporale della patologia, la proteina sia presente in almeno un campione biologico di un soggetto con la patologia, oppure se in presenza della patologia la proteina abbia una concentrazione diversa da una concentrazione prestabilita rilevabile in condizioni non patologiche, oppure se la proteina consenta la diagnosi della patologia quando utilizzata come reagente in un kit diagnostico, oppure se la proteina sia efficace nel contesto di una cura della patologia. The tests on the connection of the protein with the pathology can be suitable tests to verify if, at least in conjunction with a temporal phase of the pathology, the protein is present in at least one biological sample of a subject with the pathology, or if in the presence of the pathology the protein has a concentration other than a predetermined concentration detectable in non-pathological conditions, or whether the protein permits diagnosis of disease when used as a reagent in a diagnostic kit, or whether the protein is effective in the context of disease treatment.

Le entit? biologiche da raccomandare da parte dell?interfaccia di output sono individuate da parte di una rete neurale integrata nel motore di raccomandazione, indicata globalmente in figura 1 con il riferimento 100. The entities biological signals to be recommended by the output interface are identified by a neural network integrated in the recommendation engine, globally indicated in figure 1 with the reference 100.

In dettaglio, la rete neurale 100 comprende una funzione di embedding addestrabile, configurata per rappresentare vettorialmente le entit? biologiche. In detail, the neural network 100 comprises a trainable embedding function, configured to vectorically represent the entities organic.

Nel caso in cui la lista di input contenga indicazioni di entit? biologiche in forma testuale, la funzione di embedding preferibilmente comprende una funzione di conversione da forma testuale a forma in numeri interi, indicata in figura con 101 (input genesymbol list, o lista di Gene Symbol in input), ed una funzione di conversione da numeri interi 101 a vettori 102. In the event that the input list contains indications of entity? in textual form, the embedding function preferably comprises a conversion function from textual form to integer form, indicated in the figure with 101 (input genesymbol list, or list of Gene Symbols in input), and a conversion function from numbers integers 101 to vectors 102.

Nella forma realizzativa illustrata, la funzione di embedding comprende inoltre una funzione di uniformazione liste, configurata per portare la lista di input ad una lunghezza prestabilita, indicata in figura 1 come max_length (lunghezza massima). Ci? ? ottenibile, ad esempio, aggiungendo alla lista di input elementi di valore nullo fino al raggiungimento della lunghezza prestabilita. Preferibilmente, gli elementi di valore nullo sono aggiunti al livello in cui le entit? biologiche sono in forma di numeri interi 101. In the illustrated embodiment, the embedding function also comprises a list uniforming function, configured to bring the input list to a predetermined length, indicated in figure 1 as max_length (maximum length). There? ? obtainable, for example, by adding elements of null value to the input list until the pre-established length is reached. Preferably, the null value elements are added to the level where the entities? biological are in the form of whole numbers 101.

Allo scopo della conversione da forma testuale a forma in numeri interi 101, la rete neurale ha in memoria un dizionario di codifica, in cui stringhe testuali sono associate a numeri interi. Invece, la funzione di conversione da numeri interi 101 a vettori 102 ? di tipo addestrabile. For the purpose of converting from text form to integer form 101, the neural network has in memory an coding dictionary, in which text strings are associated with integers. Instead, the conversion function from integers 101 to vectors 102 ? trainable type.

Nelle forme realizzative preferite, la rappresentazione vettoriale ? una rappresentazione con vettori 102 aventi un numero di dimensioni maggiore di cinquanta, indicato in figura 1 come emb_dim (dimensioni di embedding). Il numero di dimensioni influisce sul funzionamento di altre funzioni della rete neurale, descritte nel seguito. In generale, un numero basso di dimensioni risulta in raccomandazioni di minor qualit?, poich? non ? possibile tenere conto di tutte le modalit? di interazione fra diverse proteine. D?altra parte, un numero eccessivo di dimensioni richiede una mole maggiore di dati di addestramento, e rischia di aumentare eccessivamente la sensibilit? della rete neurale ad eventuali isolati dati di addestramento tecnicamente discostanti dagli altri. Selezionato il numero di dimensioni, ai fini della conversione vettoriale dell?embedding possono essere utilizzati algoritmi noti ai tecnici del settore. In the preferred embodiments, the vector representation is a representation with vectors 102 having a number of dimensions greater than fifty, indicated in figure 1 as emb_dim (embedding dimensions). The number of dimensions affects how other neural network functions work, described below. In general, a low number of dimensions results in lower quality recommendations, because Not ? Is it possible to take into account all the modalities? interactions between different proteins. On the other hand, too many dimensions require more training data, and risk increasing the sensitivity too much. of the neural network to any isolated training data technically distant from the others. Once the number of dimensions has been selected, algorithms known to experts in the sector can be used for the vectorial conversion of the embedding.

La funzione di embedding ? utilizzata sulle entit? biologiche della lista di input. Comunque, la medesima funzione di embedding ? utilizzata anche per la rappresentazione vettoriale di entit? biologiche con cui la rete neurale si confronta in altri processi, ad esempio nell?addestramento, descritto nel seguito. In dettaglio, la rete neurale ha in memoria una lista complessiva di entit? biologiche, e la funzione di embedding consente la rappresentazione vettoriale di ciascuna di esse. The embedding function ? used on entities? biological input list. However, the same embedding function ? also used for the vectorial representation of entities? biological with which the neural network is confronted in other processes, for example in? training, described below. In detail, does the neural network have an overall list of entities in its memory? biological, and the embedding function allows the vectorial representation of each of them.

In modo analogo, la funzione di embedding pu? operare anche sulle indicazioni di patologie, anch?esse oggetto di una lista complessiva. Anche le patologie, quindi, hanno una forma di rappresentazione a numeri interi 103 (input disease list, o lista di patologie in input) e in vettori 104. Comunque, nel seguito per semplicit? si far? riferimento alle sole entit? biologiche. Similarly, the embedding function can? also operate on the indications of pathologies, which are also the subject of a comprehensive list. Also the pathologies, therefore, have a form of representation in integer numbers 103 (input disease list, or list of pathologies in input) and in vectors 104. However, in the following for simplicity? will you do? reference to entities only? organic.

In aggiunta, la funzione di embedding ? preferibilmente configurata per operare all?occorrenza la trasformazione inversa, ovvero per convertire entit? biologiche dalla rappresentazione vettoriale 102 a rappresentazione a numeri interi 101 o testuale. In addition, the embedding function ? preferably configured to operate the reverse transformation if necessary, or to convert entities? biology from vector representation 102 to integer representation 101 or textual.

La rete neurale comprende poi una funzione di predizione addestrabile, indicata globalmente con 110. La funzione di predizione 110 ? configurata per elaborare la lista di input, precisamente nella forma di rappresentazione vettoriale 102 ottenuta a valle della funzione di embedding. L?elaborazione della lista di input porta ad attribuire un punteggio alle entit? biologiche della lista complessiva. The neural network then comprises a trainable prediction function, indicated globally with 110. The prediction function 110 ? configured to process the input list, precisely in the form of vectorial representation 102 obtained downstream of the embedding function. Processing the input list leads to assigning a score to the entities? biologicals of the overall list.

Quindi, la rete neurale ? configurata per selezionare dalla lista complessiva una o pi? entit? biologiche da raccomandare, in base al punteggio attribuito, che sono fornite all?interfaccia di output. Ad esempio, si scelgono un numero prestabilito di entit? biologiche (in figura n_genes, o numero di geni), date dalle entit? biologiche con punteggio maggiore, preferibilmente a condizione che non siano incluse nella lista di input. So, the neural network ? configured to select from the overall list one or more? entity biologics to recommend, based on the assigned score, which are provided to the output interface. For example, do you choose a predetermined number of entities? biological (in figure n_genes, or number of genes), given by the entity? higher scoring organic crops, preferably provided they are not included in the input list.

Nella forma realizzativa preferita, la funzione di predizione addestrabile 110 ? composta dai seguenti strati, o layer: In the preferred embodiment, the trainable prediction function 110 ? composed of the following layers, or layers:

- uno strato di media 111 (average layer, indicato in figura 1 anche come emb average, o media di embedding), configurato per mediare le rappresentazioni vettoriali 102 delle entit? biologiche presenti nella lista di input, e se presenti anche le rappresentazioni vettoriali 104 delle patologie, - an average layer 111 (average layer, indicated in figure 1 also as emb average, or embedding media), configured to average the vectorial representations 102 of the entities? biological present in the input list, and if present also the vectorial representations 104 of the pathologies,

- qualora sia previsto l?input anche di patologie, uno strato di concatenazione 112 (concatenate layer, indicato in figura anche come user embedding layer, o strato di embedding utente), configurato per concatenare le medie 111 delle rappresentazioni vettoriali 102, 104 di entit? biologiche e patologie, - if the input of pathologies is also envisaged, a concatenation layer 112 (concatenate layer, also indicated in the figure as user embedding layer, or user embedding layer), configured to concatenate the averages 111 of the entity vectorial representations 102, 104 ? biological and pathological

- una serie di strati completamente connessi 113 (fully connected network, o rete completamente connessa), con dimensioni decrescenti e funzione di attivazione ReLU, e - a series of fully connected layers 113 (fully connected network), with decreasing size and activation function ReLU, and

- uno strato di uscita 114 (output layer) con funzione di attivazione SoftMax (in figura, SoftMax Output Layer, o strato di uscita SoftMax). - an output layer 114 (output layer) with SoftMax activation function (in the figure, SoftMax Output Layer).

Ciascuno di questi layer e funzioni di attivazione sono noti ai tecnici del settore, e non sono quindi approfonditi qui in dettaglio. Sono inoltre ottenibili da un tecnico del ramo altri modelli di funzione di predizione che possono conseguire risultati sostanzialmente equivalenti ai fini dell?invenzione, come percettroni multistrato, reti neurali convoluzionali, o reti neurali ricorrenti. Each of these layers and activation functions are known to those skilled in the art, and are therefore not explored in detail herein. Furthermore, other prediction function models which can achieve substantially equivalent results for the purposes of the invention can be obtained by a person skilled in the art, such as multilayer perceptrons, convolutional neural networks, or recurrent neural networks.

La rete neurale comprende una funzione di addestramento, configurata per addestrare la funzione di predizione. Grazie all?addestramento quindi la funzione di predizione attribuisce punteggi, utili per la selezione delle entit? da raccomandare, che riflettono correlazioni fra le entit? biologiche, ed eventualmente anche con le patologie, ricavabili da dati di addestramento. The neural network includes a training function, configured to train the prediction function. Thanks to the training, therefore, the prediction function assigns scores, useful for the selection of the entities? to be recommended, which reflect correlations between the entities? biological, and possibly also with pathologies, which can be obtained from training data.

Pi? in dettaglio, la funzione di addestramento ? configurata per ricavare liste di apprendimento di entit? biologiche, ed opzionalmente patologie, da un database di apprendimento, e per modificare la funzione di predizione e la funzione di embedding, in base alle liste di apprendimento. Perci?, la funzione di predizione, ricevendo una specifica medesima lista di input, ? configurata per attribuire punteggi diversi alle medesime entit? della lista complessiva, a seconda che l?input sia fornito prima o dopo la modifica operata dalla funzione di addestramento. Pi? in detail, the training function ? configured to obtain learning lists of entities? biological, and optionally pathologies, from a learning database, and to modify the prediction function and the embedding function, based on the learning lists. Therefore, the prediction function, receiving a specific same list of inputs, ? configured to attribute different scores to the same entity? of the overall list, depending on whether the input is provided before or after the modification made by the training function.

Preferibilmente, la funzione di addestramento ? configurata per modificare la funzione di predizione, nonch? la funzione di embedding, mediante discesa di gradiente, con modalit? note ai tecnici del settore. Una funzione di discesa di gradiente idonea ? data dallo Stocastic Batch Gradient Descent, con tasso di apprendimento (learning rate) variabile. Preferably, the training function ? configured to change the prediction function, as well as? the embedding function, by gradient descent, with mode? known to the technicians of the sector. A suitable gradient descent function? given by Stocastic Batch Gradient Descent, with variable learning rate.

Secondo un aspetto dell?invenzione, il database di apprendimento comprende una pluralit? di testi di letteratura scientifica contenenti riferimenti ad entit? biologiche. Preferibilmente tali testi appartengono al settore medico. Un esempio di testi sono articoli scientifici. Vari database di questo tipo sono disponibili su internet ed accessibili al pubblico in modo gratuito, altri sono a pagamento con licenza. According to one aspect of the invention, the learning database comprises a plurality of? of texts of scientific literature containing references to entities? organic. Preferably such texts belong to the medical sector. An example of texts are scientific articles. Various databases of this type are available on the internet and accessible to the public for free, others are licensed for payment.

In alcune forme realizzative, la rete neurale comprende una funzione di text mining. La funzione di text mining ? configurata per analizzare i testi del database, cos? da individuare in ogni testo le entit? biologiche a cui viene fatto riferimento, ed opzionalmente patologie o altri dati che siano ritenuti utili. In altre forme realizzative, la funzione di text mining pu? non essere prevista, in quanto alcuni database pubblici, utilizzabili come database di apprendimento, offrono i testi gi? etichettati per contenere riferimenti ad entit? biologiche senza bisogno di consultare l?intero testo. In alcuni database pubblici simili etichette sono ottenute proprio mediante funzioni di text mining, che quindi non ? necessario ripetere da parte del motore di raccomandazione. In some embodiments, the neural network includes a text mining function. The text mining feature ? configured to analyze the texts of the database, cos? to identify in each text the entity? biological data to which reference is made, and optionally pathologies or other data which are deemed useful. In other embodiments, the text mining function can not be expected, as some public databases, usable as a learning database, offer the texts already? labeled to contain entity references? biological without needing to consult the entire text. In some public databases similar labels are obtained precisely through text mining functions, which therefore are not? need to repeat by the recommendation engine.

Una fase opzionale, successiva all?individuazione dei riferimenti alle entit? biologiche nei testi, ? data dall?esclusione dei testi che contengano un numero eccessivo di riferimenti ad entit? biologiche, in particolare sopra un numero massimo di riferimenti prestabilito. Il numero massimo di riferimenti pu? essere ad esempio compreso fra 5 e 50. Ci? consente di escludere dall?apprendimento testi che sono in realt? semplici cataloghi di geni o proteine, nonch? testi di carattere troppo generico, invece che specifico per una patologia o una famiglia di patologie. An optional phase, following the identification of the references to the entities? biological in the texts, ? given by the exclusion of texts that contain an excessive number of references to entities? biological, in particular above a pre-established maximum number of references. The maximum number of references pu? be, for example, between 5 and 50. Ci? allows you to exclude from? learning texts that are actually? simple catalogs of genes or proteins, as well as? texts of a too general nature, rather than specific to a pathology or a family of pathologies.

Come anticipato, la funzione di addestramento ? configurata per ricavare dal database di apprendimento liste di apprendimento di entit? biologiche. Una delle operazioni svolte a tale scopo, prima o dopo il text mining e l?eliminazione dei testi con troppi riferimenti, consiste nel raggruppare in sottoinsiemi la pluralit? di testi del database. As anticipated, the training function ? configured to obtain from the learning database learning lists of entities? organic. One of the operations carried out for this purpose, before or after text mining and the elimination of texts with too many references, consists in grouping the plurality of texts into subsets. of texts in the database.

In particolare, la rete neurale comprende una funzione di raggruppamento che ha in memoria almeno un criterio di raggruppamento. In particular, the neural network comprises a grouping function which has at least one grouping criterion in memory.

La funzione di raggruppamento ? configurata per raggruppare in ciascun sottoinsieme testi del database di apprendimento che siano uniformi in base a uno o pi? dei criteri di raggruppamento. The grouping function ? configured to group in each subset texts of the learning database that are uniform on the basis of one or more? of the grouping criteria.

Un esempio di criterio di raggruppamento preferito ? dato da almeno una patologia a cui si fa riferimento nel testo. Come commentato, il riferimento alla patologia pu? essere esso stesso ottenuto mediante la funzione di text mining, o pu? essere pre-indicizzato mediante etichette incluse nel database di partenza. An example of a preferred grouping criterion ? given by at least one pathology referred to in the text. As commented, the reference to the pathology pu? be itself obtained by the function of text mining, or pu? be pre-indexed using tags included in the starting database.

Ci? in generale si applica anche agli altri possibili criteri di raggruppamento. In altre parole, la funzione di raggruppamento ? configurata per verificare la coerenza di ciascun testo con ciascun criterio di raggruppamento prescelto mediante text mining e/o mediante consultazione di etichette preassegnate al testo. There? in general it also applies to the other possible grouping criteria. In other words, the grouping function ? configured to verify the consistency of each text with each pre-selected grouping criterion by means of text mining and/or by consulting the labels pre-assigned to the text.

Altri esempi di criteri di raggruppamento sono dati dalla presenza in un testo di citazioni che puntano ad uno o pi? altri testi, da una raccolta comune in cui sono contenuti diversi testi, ad esempio una particolare rivista che contiene articoli o di cui sono state pubblicate pi? edizioni, da un autore dei diversi testi, da un editore che ne ha curato la pubblicazione, da un titolo che fa riferimento ad un argomento trattato, da un periodo di pubblicazione dei testi, e da una presenza di parole chiave. Other examples of grouping criteria are given by the presence in a text of quotations that point to one or more? other texts, from a common collection in which several texts are contained, for example a particular journal that contains articles or of which more than one have been published? editions, by an author of the various texts, by a publisher who oversaw their publication, by a title that refers to a topic covered, by a period of publication of the texts, and by the presence of keywords.

In alcune forme realizzative, le liste di apprendimento sono generate in riferimento a un unico criterio di raggruppamento. In some embodiments, the learning lists are generated with reference to a single grouping criterion.

In altre forme realizzative, le liste di apprendimento sono generate in riferimento a una combinazione di criteri di raggruppamento, mediante l?operatore logico ?E?. Ad esempio, un criterio combinato pu? essere dato dalla combinazione di un editore con una presenza di parole chiave nel testo. Un altro criterio combinato pu? essere la presenza di citazioni fra diversi testi, ed un comune periodo di pubblicazione dei testi. In other embodiments, the learning lists are generated with reference to a combination of grouping criteria, by means of the logical operator ?And?. For example, a combined policy can be given by the combination of a publisher with a presence of keywords in the text. Another combined criterion can? be the presence of citations between different texts, and a common period of publication of the texts.

In ancora altre forme realizzative, pi? criteri di raggruppamento, o combinazioni di criteri di raggruppamento, possono essere utilizzati in parallelo. Per utilizzo in parallelo si intende qui che una prima pluralit? di liste di apprendimento sono ottenute mediante uno o pi? primi criteri, e una seconda pluralit? di liste di apprendimento sono ottenute mediante uno o pi? secondi criteri. Ovviamente, possono anche essere contemplate ulteriori pluralit? dopo la seconda. In still other embodiments, more? grouping criteria, or combinations of grouping criteria, can be used in parallel. For use in parallel we mean here that a first plurality? of learning lists are obtained through one or more? first criteria, and a second plurality? of learning lists are obtained through one or more? second criteria. Obviously, further pluralities can also be contemplated? after the second.

In queste forme realizzative, un medesimo testo pu? rientrare in diverse liste. Per esempio, la prima pluralit? di liste pu? essere originata suddividendo il database in sottoinsiemi sulla base della sola presenza di riferimenti a patologie, e la seconda pluralit? di liste pu? essere originata risuddividendo il medesimo database in sottoinsiemi sulla base delle raccolte a cui appartengono i testi (in modo del tutto indipendente all?altra suddivisione svolta). Ciascun testo apparterr? quindi a uno dei sottoinsiemi originati dal primo criterio, e a uno dei sottoinsiemi originati dal secondo criterio. In these embodiments, the same text can fall into different lists. For example, the first plurality? of lists can? be originated by dividing the database into subsets on the basis of the sole presence of references to pathologies, and the second plurality? of lists can? be originated by re-dividing the same database into subsets on the basis of the collections to which the texts belong (in a completely independent way to the other subdivision carried out). Each text will belong then to one of the subsets originating from the first criterion, and to one of the subsets originating from the second criterion.

In questo modo, partendo dallo stesso database, aumenta il numero di liste disponibili con entit? biologiche che sono correlate fra loro per contesto. In this way, starting from the same database, increases the number of lists available with entity? biological systems that are related to each other by context.

Infatti, grazie a tutte queste possibili modalit? di raggruppamento, la presenza di due testi nel medesimo sottoinsieme ? correlata ad una affinit? di contenuti, tale per cui le entit? biologiche collegate ai testi, anche laddove il criterio di raggruppamento non sia specificamente la patologia trattata, risultano appartenere a una medesima area concettuale. Ci? si riflette in propriet? comuni o strutture similari delle diverse entit? biologiche. In sintesi, tali entit? hanno in comune il fatto di essere state citate nel medesimo contesto. Indeed, thanks to all these possible modalities? of grouping, the presence of two texts in the same subset ? related to an affinity? of content, such that the entity? biological processes linked to the texts, even where the grouping criterion is not specifically the pathology being treated, appear to belong to the same conceptual area. There? is reflected in the property? municipalities or similar structures of the various entities? organic. In summary, these entities they have in common the fact that they have been cited in the same context.

La funzione di addestramento ? poi configurata per creare, per ogni sottoinsieme, una rispettiva lista di apprendimento, composta dalle entit? biologiche a cui si riferiscono i testi del sottoinsieme. The training function ? then configured to create, for each subset, a respective learning list, made up of entities? to which the texts of the subset refer.

Grazie all?apprendimento descritto, quando la funzione di predizione riceve la lista di input, le entit? che vengono raccomandate sono quelle che, nei testi del database di apprendimento, hanno un elevato grado di correlazione con le entit? della lista di input. Quindi, laddove la lista di input contenga entit? correlate a una data ricerca o una patologia, le entit? biologiche raccomandate hanno frequentemente funzionalit? utili in correlazione alla medesima ricerca o patologia. Ci? pu? essere verificato anche per entit? raccomandate che non siano mai state descritte nei testi del database di apprendimento in collegamento alla specifica patologia di interesse. Thanks to the described learning, when the prediction function receives the input list, the entities? that are recommended are those that, in the texts of the learning database, have a high degree of correlation with the entities? of the input list. So where the input list contains entities? related to a given research or a pathology, the entities? biological recommended frequently have functionality? useful in correlation to the same research or pathology. There? can? be verified also for entity? recommended that have never been described in the texts of the learning database in connection with the specific pathology of interest.

Una volta create le liste di apprendimento, un esempio di funzione di addestramento pu? essere configurata, per ogni lista di apprendimento, per: Once the learning lists are created, an example of a training function can be configured, for each learning list, for:

- selezionare nella lista di apprendimento un?entit? biologica di test, - select an entity in the learning list? biological test,

- fornire alla funzione di predizione, come lista di input, la lista di apprendimento deprivata dell?entit? di test, - provide the prediction function, as an input list, the deprived learning list of the entity? of tests,

- ricevere dalla funzione di predizione una o pi? entit? biologiche raccomandate di risultato, - receive from the prediction function one or more? entity recommended biological results,

- verificare se l?entit? di test ? inclusa fra le entit? di risultato, e in base a ci? generare un feedback composto da gradienti di correzione per la funzione di predizione, ed opzionalmente per la funzione di embedding. - check if the entity? of tests ? included among the entities result, and based on what? generate a feedback composed of correction gradients for the prediction function, and optionally for the embedding function.

In questo processo, giova rilevare che le liste di apprendimento sono sottoposte dall?interfaccia di input e dalla rete neurale alle medesime elaborazioni di ogni lista di input. Dunque, la funzione di transcodifica consente alle funzioni di predizione ed addestramento di riconoscere correlazioni in modo indipendente dalle diverse e disuniformi nomenclature con cui possono essere rappresentate le entit? biologiche nei testi del database di apprendimento. In this process, it should be noted that the learning lists are subjected by the input interface and the neural network to the same processing as each input list. Therefore, the transcoding function allows the prediction and training functions to recognize correlations independently of the different and non-uniform nomenclatures with which the entities can be represented. biology in the texts of the learning database.

Inoltre, le liste di apprendimento sono sottoposte ai medesimi layer della funzione di predizione. La funzione di embedding, nonch? vari layer della funzione di predizione (fra cui la serie di strati completamente connessi 113), offrono diverse rappresentazioni vettoriali che si evolvono durante l?addestramento. Dunque, se all?inizio dell?addestramento le rappresentazioni vettoriali delle entit? biologiche possono essere distribuite casualmente nello spazio vettoriale, ad ogni lista di addestramento che viene fornita i gradienti di correzione modificano la rappresentazione vettoriale delle entit? biologiche coinvolte. In particolare, il vettore relativo all?entit? biologica di test si avvicina in una o pi? dimensioni ai vettori relativi alle altre entit? della medesima lista di addestramento. Furthermore, the learning lists undergo the same layers as the prediction function. The embedding function, as well as? various layers of the prediction function (including the series of fully connected layers 113), offer different vector representations that evolve during training. Therefore, if at the beginning of the training the vectorial representations of the entities? behaviors can be randomly distributed in the vector space, do the correction gradients modify the vector representation of the entities for each training list that is supplied? biological involved. In particular, the vector relative to the entity? biological test approaches in one or more? dimensions to the vectors relative to the other entities? of the same training list.

Grazie alla presenza dello strato di media, i vettori rappresentativi di tutte le entit? biologiche fornite in una lista di addestramento sono combinati formando un unico vettore di media. Giova rilevare che tale vettore di media, nella rappresentazione vettoriale interna alla rete neurale, ? collegato al complesso delle entit? biologiche a cui si fa riferimento in tutti i testi di un particolare sottoinsieme del database di apprendimento, ottenuto con un particolare valore del criterio di raggruppamento. Thanks to the presence of the media layer, the representative vectors of all the entities? biological data provided in a training list are combined to form a single vector of averages. It should be noted that this average vector, in the vectorial representation internal to the neural network, is connected to the complex of entities? biology referred to in all texts of a particular subset of the learning database, obtained with a particular value of the grouping criterion.

Quindi, il vettore di media rappresenta sinteticamente le entit? biologiche correlate a una patologia, a un gruppo di testi con citazioni reciproche, a una raccolta di testi, a un autore, e/o a un periodo di pubblicazione. So, does the average vector synthetically represent the entities? biology related to a disease, a group of texts with reciprocal citations, a collection of texts, an author, and/or a period of publication.

In modo analogo, ad addestramento concluso, la lista di input fornita dall?utente viene trasformata in un vettore di media, che ? interpretabile dalla rete neurale come rappresentativa dell?area concettuale per cui l?utente sta ponendo l?interrogazione. Vantaggiosamente, con la selezione, per la lista di input, di entit? biologiche collegate a una patologia, le entit? che verranno raccomandate sono vettorialmente affini al vettore di media ottenuto, e quindi anch?esse pertinenti alla patologia, e potenzialmente utili per la sua diagnosi, comprensione o cura. Similarly, once the training is complete, the input list supplied by the user is transformed into an average vector, which ? interpretable by the neural network as representative of the conceptual area for which the user is asking the query. Advantageously, with the selection, for the input list, of entity? biological related to a disease, the entity? that will be recommended are similar in vector to the average vector obtained, and therefore also pertinent to the pathology, and potentially useful for its diagnosis, understanding or treatment.

Ovviamente un tecnico del ramo potr? apportare numerose modifiche equivalenti alle varianti sopra esposte, senza per questo uscire dall?ambito di tutela definito dalle unite rivendicazioni. Obviously a technician of the branch can? make numerous modifications equivalent to the variations set out above, without thereby departing from the scope of protection defined by the appended claims.

Claims (9)

RIVENDICAZIONI 1. Metodo per individuare entit? biologiche, selezionate fra proteine ed acidi nucleici o parte di essi, collegate ad una patologia, comprendente:1. Method for identifying entities? biological, selected from proteins and nucleic acids or parts thereof, linked to a pathology, including: - generare una lista di input di entit? biologiche, selezionate fra proteine ed acidi nucleici, pertinenti a dinamiche o a una cura della patologia,- generate an input list of entities? biological, selected among proteins and nucleic acids, pertinent to the dynamics or to a treatment of the pathology, - fornire la lista di input ad un motore software di raccomandazione ad intelligenza artificiale per entit? biologiche, avente una rete neurale (100),- provide the input list to an entity-based artificial intelligence recommendation software engine? biological, having a neural network (100), - detta rete neurale (100) avendo in memoria una lista complessiva di entit? biologiche, selezionate fra proteine ed acidi nucleici,- said neural network (100) having in memory an overall list of entities? biological, selected among proteins and nucleic acids, - elaborare la lista di input, da parte della rete neurale (100), mediante una funzione di predizione addestrabile (110), in modo tale da attribuire un punteggio alle entit? biologiche della lista complessiva,- process the input list, by the neural network (100), through a trainable prediction function (110), in such a way as to assign a score to the entities? biological of the overall list, - fornire in output, da parte del motore di raccomandazione, una o pi? entit? biologiche raccomandate, estratte dalla lista complessiva in base al punteggio attribuito dalla rete neurale (100), e- provide in output, by the recommendation engine, one or more? entity recommended biologicals, extracted from the overall list based on the score attributed by the neural network (100), e - testare almeno una delle entit? biologiche raccomandate, o una proteina codificata da questa, per verificarne una presenza in concomitanza con la patologia oppure una efficacia teorica nella cura della patologia,- test at least one of the entities? recommended biological agents, or a protein encoded by it, to verify its presence in conjunction with the pathology or a theoretical efficacy in the treatment of the pathology, in cui la rete neurale (100) comprende una funzione di addestramento, configurata per ricavare liste di apprendimento di entit? biologiche, selezionate fra proteine ed acidi nucleici, da un database di apprendimento, e per modificare la funzione di predizione in base alle liste di apprendimento, e in cui il database di apprendimento comprende una pluralit? di testi di letteratura scientifica contenenti riferimenti ad entit? biologiche, selezionate fra proteine ed acidi nucleici. wherein the neural network (100) comprises a training function, configured to derive learning lists of entities? biological proteins, selected among proteins and nucleic acids, from a learning database, and to modify the prediction function based on the learning lists, and in which the learning database includes a plurality? of texts of scientific literature containing references to entities? biological, selected among proteins and nucleic acids. 2. Metodo secondo la rivendicazione 1, in cui la funzione di addestramento ? configurata per ricavare le liste di apprendimento mediante:2. Method according to claim 1, wherein the training function ? configured to obtain learning lists using: - raggruppare in sottoinsiemi la pluralit? di testi del database, i testi di ogni sottoinsieme essendo uniformi per almeno un criterio di raggruppamento, preferibilmente una patologia, una presenza di citazioni reciproche, una raccolta di pubblicazione, un autore, un editore, un titolo, un periodo di pubblicazione e/o una presenza di parole chiave, e- group the plurality into subsets? of texts in the database, the texts of each subset being uniform for at least one grouping criterion, preferably a pathology, a presence of reciprocal citations, a publication collection, an author, a publisher, a title, a publication period and/or a keyword presence, e - creare per ogni sottoinsieme una rispettiva lista di apprendimento composta da entit? biologiche a cui si riferiscono i testi del sottoinsieme.- create for each subset a respective learning list composed of entities? to which the texts of the subset refer. 3. Metodo secondo la rivendicazione 2, in cui la rete neurale (100) comprende una funzione di text mining, configurata per analizzare i testi del database, in modo tale da individuare in ogni testo almeno un?entit? biologica a cui viene fatto riferimento.3. Method according to claim 2, wherein the neural network (100) comprises a text mining function, configured to analyze the texts of the database, so as to identify in each text at least one entity? biological to which it refers. 4. Metodo secondo una qualsiasi rivendicazione da 1 a 3, in cui la rete neurale (100) comprende una funzione di embedding, configurata per rappresentare vettorialmente ciascuna entit? biologica, in cui preferibilmente la rappresentazione vettoriale (102) ? una rappresentazione con un numero di dimensioni maggiore di cinquanta.4. A method according to any claim from 1 to 3, wherein the neural network (100) comprises an embedding function, configured to vectorically represent each entity? biological, in which preferably the vector representation (102) ? a representation with a number of dimensions greater than fifty. 5. Metodo secondo una qualsiasi rivendicazione da 1 a 4, in cui la funzione di addestramento ? configurata per modificare la funzione di predizione (110) mediante discesa di gradiente.5. Method according to any claim from 1 to 4, wherein the training function ? configured to modify the prediction function (110) by gradient descent. 6. Metodo secondo una qualsiasi rivendicazione da 1 a 5, comprendente: The method according to any claim from 1 to 5, comprising: - fornire in input al motore di raccomandazione, oltre alla lista di input, anche l?indicazione di una o pi? patologie,- provide in input to the recommendation engine, in addition to the input list, also the indication of one or more? pathologies, in cui preferibilmente i testi di letteratura scientifica contengono, oltre a detti riferimenti ad entit? biologiche, anche riferimenti a patologie.in which preferably the texts of scientific literature contain, in addition to said references to entities? biological, also references to pathologies. 7. Metodo secondo una qualsiasi rivendicazione da 1 a 6, in cui la funzione di predizione addestrabile comprende:The method according to any claim from 1 to 6, wherein the trainable prediction function comprises: - uno strato di media (111) configurato per mediare rappresentazioni vettoriali delle entit? biologiche (102) presenti nella lista di input, ed opzionalmente rappresentazioni vettoriali di indicazioni di patologie (104),- a media layer (111) configured to mediate vector representations of entities? biological (102) present in the input list, and optionally vector representations of indications of pathologies (104), - opzionalmente, uno strato di concatenazione (112) configurato per concatenare le medie (111) delle rappresentazioni vettoriali di entit? biologiche e patologie (102, 104), - una serie di strati completamente connessi (113), con dimensioni decrescenti e funzione di attivazione ReLU, e- optionally, a concatenation layer (112) configured to concatenate the averages (111) of the vector representations of entities? biological and pathological (102, 104), - a series of fully connected layers (113), with decreasing size and ReLU activation function, and - uno strato di uscita (114) con funzione di attivazione SoftMax.- an output layer (114) with SoftMax activation function. 8. Metodo secondo una qualsiasi rivendicazione da 1 a 7, in cui la rete neurale (100) comprende una funzione di transcodifica, configurata per riconoscere come equivalenti diverse forme di rappresentazione testuale della medesima entit? biologica, per almeno alcune entit? biologiche.8. Method according to any claim from 1 to 7, wherein the neural network (100) comprises a transcoding function, configured to recognize as equivalent different forms of textual representation of the same entity? biological, for at least some entities? organic. 9. Motore software di raccomandazione ad intelligenza artificiale per entit? biologiche, selezionate fra proteine ed acidi nucleici, comprendente:9. Artificial intelligence software recommendation engine for entities? biological, selected from proteins and nucleic acids, including: - un?interfaccia di input, configurata per ricevere una lista di input di entit? biologiche, selezionate fra proteine ed acidi nucleici, - an input interface, configured to receive an input list of entities? biological, selected among proteins and nucleic acids, - una rete neurale (100), avente in memoria una lista complessiva di entit? biologiche, selezionate fra proteine ed acidi nucleici, la rete neurale (100) essendo configurata per:- a neural network (100), having in memory an overall list of entities? biological networks, selected from proteins and nucleic acids, the neural network (100) being configured for: - elaborare la lista di input mediante una funzione di predizione addestrabile (110), in modo tale da attribuire un punteggio alle entit? biologiche della lista complessiva, e- process the input list using a trainable prediction function (110), so as to assign a score to the entities? biological of the overall list, e - selezionare dalla lista complessiva una o pi? entit? biologiche da raccomandare, in base al punteggio attribuito,- select from the overall list one or more? entity organic products to be recommended, based on the score assigned, - un?interfaccia di output, configurata per fornire in output l?una o pi? entit? biologiche da raccomandare che sono state selezionate dalla rete neurale (100),- an? output interface, configured to output one or more? entity biologics to recommend that have been selected by the neural network (100), in cui la rete neurale (100) comprende una funzione di addestramento, configurata per ricavare liste di apprendimento di entit? biologiche, selezionate fra proteine ed acidi nucleici, da un database di apprendimento, e per modificare la funzione di predizione in base alle liste di apprendimento,wherein the neural network (100) comprises a training function, configured to derive learning lists of entities? biologicals, selected among proteins and nucleic acids, from a learning database, and to modify the prediction function based on the learning lists, in cui il database di apprendimento comprende una pluralit? di testi di letteratura scientifica contenenti riferimenti ad entit? biologiche, selezionate fra proteine ed acidi nucleici. in which the learning database includes a plurality? of texts of scientific literature containing references to entities? biological, selected among proteins and nucleic acids.
IT102021000012299A 2021-05-13 2021-05-13 Identification of genes and proteins linked to a disease using artificial intelligence IT202100012299A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
IT102021000012299A IT202100012299A1 (en) 2021-05-13 2021-05-13 Identification of genes and proteins linked to a disease using artificial intelligence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT102021000012299A IT202100012299A1 (en) 2021-05-13 2021-05-13 Identification of genes and proteins linked to a disease using artificial intelligence

Publications (1)

Publication Number Publication Date
IT202100012299A1 true IT202100012299A1 (en) 2022-11-13

Family

ID=77412039

Family Applications (1)

Application Number Title Priority Date Filing Date
IT102021000012299A IT202100012299A1 (en) 2021-05-13 2021-05-13 Identification of genes and proteins linked to a disease using artificial intelligence

Country Status (1)

Country Link
IT (1) IT202100012299A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005395A1 (en) * 2015-12-07 2019-01-03 Data4Cure, Inc. A Method and System for Ontology-Based Dynamic Learning and Knowledge Integration From Measurement Data and Text
WO2020077352A1 (en) * 2018-10-12 2020-04-16 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005395A1 (en) * 2015-12-07 2019-01-03 Data4Cure, Inc. A Method and System for Ontology-Based Dynamic Learning and Knowledge Integration From Measurement Data and Text
WO2020077352A1 (en) * 2018-10-12 2020-04-16 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data

Similar Documents

Publication Publication Date Title
Lu et al. Hierarchical question-image co-attention for visual question answering
JP6265921B2 (en) Method, apparatus and product for semantic processing of text
Hill et al. Challenges of annotation and analysis in computer-assisted language comparison: A case study on Burmish languages
CN106202143A (en) For semantically representing the method and computer program product of device systems
JP4860903B2 (en) How to automatically index documents
CN106557463A (en) Sentiment analysis method and device
Kausar et al. ProSOUL: a framework to identify propaganda from online Urdu content
Dhawan et al. Game-on: Graph attention network based multimodal fusion for fake news detection
Ding et al. Data-driven discovery: A new era of exploiting the literature and data
Chapman et al. Phenoflow: a microservice architecture for portable workflow-based phenotype definitions
Sohrab et al. mgsohrab at wnut 2020 shared task-1: Neural exhaustive approach for entity and relation recognition over wet lab protocols
Terrat et al. ReClustOR: a re‐clustering tool using an open‐reference method that improves operational taxonomic unit definition
IT202100012299A1 (en) Identification of genes and proteins linked to a disease using artificial intelligence
Norbert XplOit: An ontology-based data integration platform supporting the development of predictive models for personalized medicine
Bartlett et al. How is information used? Applying task analysis to understanding information use
Adebanji et al. Sequential models for sentiment analysis: A comparative study
Wichmann et al. MetaTransformer: deep metagenomic sequencing read classification using self-attention models
Grigoriu et al. SIENA: Semi-automatic semantic enhancement of datasets using concept recognition
Te et al. Citation Context Classification: Critical vs Non-critical
Francis GOLink: finding cooccurring terms across gene ontology namespaces
Kyriakakis et al. Enabling ontology-based search: a case study in the bioinformatics domain
Patel et al. Author homepage discovery in citeseerx
Srivastava et al. Attention Retrieval Model for Entity Relation Extraction From Biological Literature
Amao Automating taxonomic and systematic search of benthic foraminifera in an online database.
Street A re-assessment of the genus Mosasaurus (Squamata: Mosasauridae)