ITMI20121457A1

ITMI20121457A1 - Metodo per determinare valori di proprieta' molecolari

Info

Publication number: ITMI20121457A1
Application number: IT001457A
Authority: IT
Inventors: Detlef Walter Maria Hofmann; Enrico Pieroni; Maria Valentini
Original assignee: Crs4 S R L
Priority date: 2012-08-30
Filing date: 2012-08-30
Publication date: 2014-03-01
Also published as: WO2014033670A3; WO2014033670A2

Description

METODO PER DETERMINARE VALORI DI PROPRIETÃ€ MOLECOLARI

CAMPO DELLâ€™INVENZIONE

La presente invenzione riguarda il settore della chimica computazionale.

In particolare, la presente invenzione si riferisce a un metodo per determinare valori di proprietÃ molecolari.

STATO DELLA TECNICA

La chimica computazionale comprende numerose tecniche di elaborazione per determinare grandezze fisiche e prevedere proprietÃ di sistemi chimici.

Queste tecniche trovano impiego nei sistemi della biologia, della biochimica, della tossicologia, della chimica dei materiali e della chimica farmaceutica.

La chimica computazionale ha molti riscontri pratici, in particolare per problemi inerenti: la progettazione di nuove molecole, la comprensione dei meccanismi di azione di molecole esistenti, lo studio di sistemi chimici complessi in interazione, nonchÃ© lâ€™analisi e la verifica di teorie ed esperimenti chimici.

Le tecniche di elaborazione sviluppate permettono di determinare le interazioni fra le molecole di un sistema chimico di interesse. In seguito, lâ€™analisi delle interazioni cosÃ¬ determinate consentirÃ di risalire alle differenti grandezze o proprietÃ di queste molecole.

Le grandezze e proprietÃ di cui si desidera ottenere un valore possono essere suddivise in due gruppi: parametri â€œin equilibrioâ€ o â€œstaticiâ€ e parametri â€œdinamiciâ€ . I primi sono parametri definiti quando il sistema chimico Ã ̈ in condizione di equilibrio. Ad esempio, tali parametri sono: la solubilitÃ , il coefficiente di ripartizione, la densitÃ cristallina, costanti di equilibrio, ...

I secondi, invece, sono parametri definiti durante le fasi di reazione del sistema chimico. Uno di tali parametri Ã ̈, ad esempio, il â€œcoefficiente di trasporto" di una molecola in un sistema chimico. Altri parametri di questo genere sono le costanti di reazione.

Da un punto di vista operativo, queste tecniche di elaborazione determinano una proprietÃ o una grandezza di una molecola, mediante algoritmi piÃ¹ o meno complessi, che operano su caratteristiche della molecola stessa quali: il numero ed il tipo di legami tra i suoi atomi, il numero di strutture topologiche particolari (ad esempio â€œanelliâ€ ), il numero di atomi accettori e donatori di elettroni, e caratteristiche piÃ¹ complesse quali la superficie della molecola esposta al solvente, la mappa elettrostatica attorno alla superficie della molecola, e loro combinazioni...

Queste caratteristiche possono essere ottenute per via sperimentale, ad esempio mediante misura diretta sul sistema di interesse, tramite modelli teorici, o mediante l'utilizzo di banche dati molecolari (ad esempio da un database cristallografico) contenenti un gran numero di molecole censite.

Ad oggi sono stati sviluppati un certo numero di algoritmi, ognuno dei quali adatto a un problema o a un gruppo di problemi simili.

La scelta di quale algoritmo adottare Ã ̈ quindi molto importante per lâ€™analisi del sistema chimico di interesse. In linea di principio, questa scelta sarÃ funzione di altri fattori quali, ad esempio, la potenza di calcolo disponibile per eseguire lâ€™algoritmo, il tempo desiderato per ottenere il risultato, il numero di sistemi analizzati in parallelo, lâ€™accuratezza nel valore della grandezza o della proprietÃ che si vuole ottenere.

SOMMARIO

La Richiedente si Ã ̈ resa conto che le tecniche note accennate sopra non permettono di determinare proprietÃ di una molecola con adeguata precisione. Inoltre, lâ€™applicazione di tali tecniche note Ã ̈ influenzata dal contesto; Ã ̈ necessario quindi, di caso in caso, scegliere una tecnica adatta al contesto di interesse; si tratta quindi valutare algoritmi differenti e caratteristiche molecolari differenti da utilizzare per lâ€™elaborazione. Inoltre, tale attivitÃ Ã ̈ da svolgere manualmente, da parte di esperti altamente qualificati, con un importante impiego di energie e tempo.

Nel caso di tecniche note che operano su caratteristiche ottenute mediante banche dati molecolari, si possono riscontrare imprecisioni anche considerevoli nei risultati. Infatti, capita che le molecole censite siano associate ad informazioni erronee, almeno parzialmente, e tali tecniche note le elaborano come se fossero corrette fornendo, di conseguenza, risultati errati.

Inoltre, per ottenere risultati affidabili in tempi ragionevoli Ã ̈ necessario prevedere risorse di calcolo potenti. Se non si dispongono di risorse di calcolo di questo genere, si penalizza o l'affidabilitÃ dei risultati o il tempo per ottenerli.

Scopo generale della presente invenzione Ã ̈ quello di migliorare lo stato dell arte relativo alle tecniche che operano su caratteristiche delle molecole ottenute mediante banche dati molecolari.

Un primo scopo piÃ¹ specifico Ã ̈ quello di fornire un metodo che permetta di ottenere il valore di una proprietÃ di una molecola di interesse in maniera affidabile.

Un secondo scopo piÃ¹ specifico Ã ̈ quello di fornire un metodo che permetta di ottenere il valore di una proprietÃ di una molecola di interesse in maniera automatica, a partire da informazioni facilmente ottenibili.

Un terzo scopo piÃ¹ specifico Ã ̈ quello di fornire un metodo che permetta di ottenere il valore di una proprietÃ di una molecola di interesse che compensi eventuali errori presenti nelle banche dati molecolari, in particolare relativi alla topologia delle strutture molecolari.

Un quarto scopo piÃ¹ specifico Ã ̈ quello di fornire un metodo che permetta di ottenere il valore di una proprietÃ di una molecola di interesse con un ridotto impiego di risorse di calcolo, possibilmente senza compromettere l'affidabilitÃ dei risultati.

Un quinto scopo piÃ¹ specifico Ã ̈ di quello di poter effettuare elaborazioni computerizzate su molecole di interesse mediante un unico metodo, indipendentemente dal contesto.

Non ultimo scopo Ã ̈ quello di garantire la medesima o superiore affidabilitÃ e le medesime o superiori prestazioni di soluzioni giÃ esistenti e operative.

Questi ed altri scopi sono raggiunti grazie al metodo per determinare un valore di una proprietÃ di una molecola di interesse avente le caratteristiche esposte nelle rivendicazioni qui annesse che sono parte integrante della presente descrizione. Secondo la presente invenzione viene realizzato un metodo per determinare un valore di una proprietÃ di una molecola di interesse comprendente una pluralitÃ di atomi

- in cui detto metodo si basa su una base dati, relativa ad una pluralitÃ di molecole censite comprendenti una pluralitÃ di atomi, in cui detta base dati contiene, per ogni molecola censita, informazioni spaziali e informazioni di elettronegativitÃ relative agli atomi che la compongono,

- in cui detto metodo si basa su un insieme di molecole di riferimento predeterminate comprendenti una pluralitÃ di atomi, in cui per ogni molecola di riferimento sono note informazioni spaziali e informazioni di elettronegativitÃ relative agli atomi che la compongono ed Ã ̈ noto un valore di questa proprietÃ ,

- in cui il profilo atomico di un certo atomo di una certa molecola comprende un parametro di profilo atomico e informazioni di profilo atomico, in cui il parametro di profilo atomico si determina sulla base di una formula matematica predeterminata da calcolare sulla base di informazioni spaziali e informazioni di elettronegativitÃ relative agli atomi di detta certa molecola che si trovano in un intorno predeterminato di questo certo atomo, e in cui le informazioni di profilo atomico sono informazioni chimiche relative agli atomi di questa certa molecola che si trovano in questo intorno predeterminato

- in cui il tipo atomico di un gruppo di profili atomici simili Ã ̈ un profilo atomico di questo gruppo scelto in un modo predeterminato, in cui i profili atomici di questo gruppo sono considerati simili in base ad un criterio predeterminato, - in cui il metodo comprende le fasi di :

A) elaborare la base dati e individuare una pluralitÃ di tipi atomici associati agli atomi delle molecole censite di questa base dati

B) determinare i tipi atomici degli atomi delle molecole di riferimento scegliendoli tra la pluralitÃ di tipi atomici,

C) per i tipi atomici degli atomi delle molecole di riferimento, effettuare una regressione dei valori noti di proprietÃ delle molecole di riferimento, ottenendo corrispondenti valori di contributo sul valore della proprietÃ per questi tipi atomici.

D) determinare i tipi atomici degli atomi della molecola di interesse scegliendoli tra la pluralitÃ di tipi atomici

E) calcolare il valore della proprietÃ della molecola di interesse come combinazione dei valori di contributo sul valore della proprietÃ dei tipi atomici degli atomi della molecola di interesse ottenuti mediante la regressione Ulteriori caratteristiche tecniche vantaggiose della presente invenzione sono esposte nelle rivendicazioni dipendenti, che sono da considerare parte integrante della presente descrizione.

ELENCO DELLE FIGURE

Le caratteristiche tecniche della presente invenzione, nonchÃ© i suoi vantaggi, risulteranno chiari dalla descrizione che segue da considerare congiuntamente ai disegni qui annessi in cui:

Fig. 1 mostra schematicamente e molto parzialmente un esempio di base dati molecolare utilizzabile per la presente invenzione,

Fig. 2 mostra schematicamente e parzialmente una "molecola di interesseâ€ della quale si vuole determinare il valore di una proprietÃ attraverso gli insegnamenti della presente invenzione,

Fig. 3 mostra schematicamente e parzialmente alcune â€œmolecole di riferimentoâ€ mediante le quali determinare il valore della proprietÃ della molecola di interesse di Fig. 2,

Fig. 4 mostra schematicamente e parzialmente una molecola della quale si vuole calcolare il â€œparametro di profilo atomicoâ€ dei suoi atomi attraverso gli insegnamenti della la presente invenzione,

Fig. 5 mostra schematicamente e parzialmente una pluralitÃ di molecole per le quali ci si propone di raggruppare gli atomi che le compongono attraverso gli insegnamenti della presente invenzione,

Fig. 6 mostra schematicamente un possibile raggruppamento degli atomi delle molecole di Fig. 5 ottenuto attraverso gli insegnamenti della presente invenzione, e

Fig. 7 mostra schematicamente la scelta dei tipi atomici dai gruppi di profili atomici effettuata secondo gli insegnamenti della presente invenzione.

Fig. 8 mostra schematicamente un possibile raggruppamento degli atomi delle molecole utilizzate in una forma di realizzazione della presente invenzione.

Fig. 9 mostra schematicamente i valori delle proprietÃ di diverse molecole, in funzione del loro numero di atomi.

DESCRIZIONE DETTAGLIATA

Sia tale descrizione che tali disegni sono da considerare solo a fini illustrativi e quindi non limitativi; pertanto, la presente invenzione potrÃ essere implementata secondo altre e diverse forme realizzative; inoltre, si deve tenere presente che tali figure sono schematiche e semplificate.

In figura 1, Ã ̈ rappresentata una base dati molecolare DB contenente una pluralitÃ di molecole censite M1DB, M2DB. In altre parole, allâ€™interno di questa base dati DB sono collezionate una pluralitÃ di molecole M1DB, M2DB note, e una corrispondente pluralitÃ di informazioni relative a queste molecole. Eâ€™ facile intuire come in realtÃ il numero delle molecole censite in una base dati DB di questo tipo sia molto elevato, nellâ€™ordine delle migliaia se non dei milioni di unitÃ .

Tipicamente, queste informazioni sono relative alla struttura delle molecole e a grandezze chimiche delle stesse. In particolare, tali informazioni si riferiscono agli atomi 10DB, 20DB, 30DB, 40DB che compongono le varie molecole M1DB, M2DB. Infatti, per ciascun atomo saranno tipicamente disponibili le coordinate spaziali relative alla posizione che essi occupano nella struttura della rispettiva molecola, il valore dell'elettronegativitÃ , il numero atomico, ecc... Come noto a un esperto del settore, il tipo di informazioni disponibili variano da base dati a base dati. In questo senso, basi dati contenenti molecole relativamente piccole di interesse farmaceutico, avranno un contenuto informativo differente da basi dati contenenti molecole di piÃ¹ grandi dimensione, di interesse per applicazioni biologiche.

Ad ogni modo, fra la pluralitÃ delle informazioni disponibili, quelle di effettivo interesse ai fini della presente invenzione sono le informazioni spaziali e le informazioni di elettronegativitÃ , disponibili nella maggior parte delle basi dati molecolari. In un esempio di realizzazione preferito, le informazioni spaziali 10DBd, 20DBd, 30DBd, 40DBd, sono le coordinate, espresse nelle tre dimensioni dello spazio, degli atomi 10DB, 20DB, 30DB e 40DB che compongono ciascuna molecola M1DB, M2DB. A seconda della base dati utilizzata, queste informazioni spaziali possono essere in una forma differente da quella precedente descritta (ad esempio essere espresse mediante coordinate polari, oppure mediante distanze relative tra gli atomi di una molecola, oppure tramite un sistema cartesiano con origine arbitraria, oppure facendo riferimento al reticolo cristallino della molecola). In questo caso sarÃ prevista una fase di elaborazione per â€œnormalizzareâ€ le informazioni cosÃ¬ presenti ottenendo le coordinate tridimensionali dei vari atomi. Le informazioni di elettronegativitÃ 10DBe, 20DBe, 30DBe, 40DBe sono le elettronegativitÃ degli atomi 10DB, 20DB, 30DB e 40DB che compongono ciascuna molecola M1DB, M2DB.

Vantaggiosamente, in questo modo non si pone alcun vincolo sul tipo di base dati utilizzabile.

Come detto, le molecole censite all'interno della base dati DB sono un grande numero, nellâ€™ordine delle migliaia se non dei milioni. Conseguentemente, i relativi atomi sono in un numero ancora maggiore rispetto ad esse. Quindi, dal punto di vista computazionale puÃ² risultare molto oneroso elaborare questa grande quantitÃ di dati. A tal proposito, secondo un esempio di realizzazione preferito, non vengono considerati tutti gli atomi, di tutte le molecole, censiti nella base dati DB, ma un sottoinsieme di essi considerato significativo. In particolare, un sottoinsieme di atomi 10DB, 20DB, 30DB, 40DB scelti casualmente tra tutti gli atomi presenti nella base dati DB. Quanti atomi scegliere e/o come sceglierli Ã ̈ funzione del problema in analisi e pertanto puÃ² variare di volta in volta. Vantaggiosamente, mediante questo approccio Ã ̈ possibile ridurre la complessitÃ computazionale del metodo secondo la presente invenzione, ottenendo comunque risultati affidabili. Va inoltre detto perÃ², che secondo esempi di realizzazione diversi, tale scelta potrebbe anche essere evitata, operando quindi su tutti gli atomi censiti, o eseguita in modo diverso.

Per la pluralitÃ di atomi 10DB, 20DB, 30DB e 40DB viene in seguito determinato il loro â€œprofilo atomicoâ€ . Ai fini della presente invenzione, con il termine â€œprofilo atomicoâ€ si intende di fatto unâ€™unitÃ informativa, rappresentata ad esempio mediante un vettore, e comprendente un â€œparametro di profilo atomicoâ€ e â€œinformazioni di profilo atomico".

Il â€œparametro di profilo atomicoâ€ Ã ̈ un vettore che comprende una pluralitÃ di grandezze numeriche determinate sulla base di una formula matematica, mentre le â€œinformazioni di profilo atomico" sono informazioni di carattere chimico riferite allâ€™atomo stesso e a un certo numero di atomi presente in un suo intorno. Tutto ciÃ² risulterÃ maggiormente chiaro nel proseguimento della descrizione, in particolare con riferimento alla Figura 4.

In pratica, ai fini della presente invenzione gli atomi 10DB, 20DB, 30DB, 40DB della base dati DB vengono considerati mediante il rispettivo profilo atomico. In questo modo, per ogni atomo si hanno a disposizione informazioni sullâ€™atomo stesso e informazioni derivanti dalla presenza degli altri atomi in un suo intorno spaziale, scelto arbitrariamente.

Secondo quanto illustrato nella figura 4, Ã ̈ possibile visualizzare una schematizzazione grafica relativa al calcolo del profilo atomico di un certo atomo 1a.

Attorno a un certo atomo 1 a, considerato di volta in volta come centrale, viene definito un intorno S. Tale intorno, secondo un esempio di realizzazione, corrisponde a una corteccia sferica. Con corteccia sferica si intende un volume definito tra due superfici circolari concentriche centrate sullâ€™atomo 1a, aventi rispettivamente raggio r1 e raggio r2, in cui r1 Ã ̈ minore di r2. In sostanza, mediante un intorno cosÃ¬ definito Ã ̈ possibile escludere uno spazio attorno allâ€™atomo centrale, in particolare uno spazio avente volume definito dalla superficie circolare di raggio r1. Il raggio r1 Ã ̈ compreso in un intervallo tra 0.8 A e 1.2 A, mentre il raggio r2 Ã ̈ compreso in un intervallo tra 3.5 A e 15 A.

Va inoltre detto che le varie basi dati molecolari possono contenere errori nella rappresentazione degli atomi. Uno di questi puÃ² essere relativo alla distanza tra due atomi, che come noto non Ã ̈ mai inferiore al valore limite di circa 0.8 A.

Tuttavia, puÃ² succedere che due atomi siano rappresentati con una distanza tra loro inferiore a quella del valore limite. Ad esempio, due atomi possono essere erroneamente rappresentati a una distanza di 0.5 A.

Vantaggiosamente, questo problema viene risolto grazie allo spazio di raggio r1 che permette di superare, in fase di esecuzione del metodo, eventuali errori di rappresentazione.

Secondo un esempio di realizzazione preferito, per determinare il parametro di profilo atomico dellâ€™atomo centrale 1a vengono individuati gli atomi periferici 11 a, 12a, 13a presenti nell'intorno S. Sia lâ€™atomo centrale 1a che gli atomici periferici 11 a, 12a, 13a sono caratterizzati rispettivamente da informazioni spaziali 1ad, 11 ad, 12ad, 13ad (ad esempio, nello stesso formato di quelle giÃ descritte per la base dati molecolare DB) e informazioni di elettronegativitÃ 1ae, 11ae, 12ae, 13ae, che rappresentano le corrispondenti elettronegativitÃ .

In seguito, il valore dellâ€™elettronegativitÃ dellâ€™atomo periferico 11a viene utilizzato come valore per ottenere un dividendo. In seguito viene calcolato il quadrato della distanza tra lâ€™atomo centrale e lo stesso atomo periferico, ottenendo cosÃ¬ un divisore. Si calcola poi la formula matematica predeterminata effettuando il rapporto tra il divisore e il dividendo cosÃ¬ calcolati ottenendo un primo quoziente. Questâ€™operazione viene in seguito ripetuta per tutti gli altri atomi periferici 12a, 13a ottenendo cosÃ¬ rispettivi quozienti .Questa pluralitÃ di quozienti costituiscono un vettore che rappresenta appunto il parametro di profilo atomico dellâ€™atomo 1a. Di volta in volta, vengono considerati come centrali gli atomi periferici 11 a 12a 13a; si ottiene cosÃ¬ la caratterizzazione di una molecola mediante i profili atomici degli atomi che la compongono. Tale caratterizzazione, ottenuta secondo la modalitÃ descritta, Ã ̈ particolarmente vantaggiosa per molecole con pochi atomi (ad esempio, fino a circa 100 atomi) e di conseguenza con ridotta estensione nello spazio.

Per molecole con un numero di atomi maggiore rispetto al caso precedente, il calcolo dei profili atomici puÃ² essere effettuato nel seguente modo: si individua l'atomo centrale 1a, e gli atomi periferici 11 a, 12a, 13a presenti nellâ€™intorno S, in seguito si calcola la differenza di elettronegativitÃ tra lâ€™atomo centrale 1a e un atomo periferico 11 a. Mediante questa differenza si ottiene un dividendo; successivamente viene calcolato il quadrato della distanza tra lâ€™atomo centrale e lo stesso atomo periferico, ottenendo cosÃ¬ un divisore. Si effettua poi il rapporto tra il divisore e il dividendo cosÃ¬ calcolati ottenendo un primo quoziente. Questâ€™operazione viene in seguito ripetuta per tutti gli altri atomi periferici 12a, 13a effettuando la sommatoria dei rispettivi quozienti ottenuti. Il valore della sommatoria cosÃ¬ ottenuta rappresenta il parametro di profilo atomico dellâ€™atomo 1a. Ripetendo queste operazioni per gli atomi periferici 11 a, 12a, 13a considerati di volta in volta come centrali si ottengono i profili atomici della molecola di interesse.

Va inoltre detto che al valore della differenza di elettronegativitÃ tra lâ€™atomo centrale 1a e un atomo periferico 11a, 12a, 13a puÃ² essere aggiunta una costante correttiva. In pratica, si tratta di sommare un â€œoffsetâ€ al valore di questa differenza nei casi in cui essa sia numericamente rappresentata come nulla, ma in realtÃ non sia da considerare tale (cioÃ ̈ quando la differenza tra lâ€™elettronegativitÃ dellâ€™atomo centrale 1a e dellâ€™atomo periferico 11 a, 12a, 13a Ã ̈ inferiore alla risoluzione della rappresentazione numerica disponibile).

Inoltre, la scelta di effettuare il quadrato della differenza delle distanze tra lâ€™atomo centrale e quello periferico Ã ̈ particolarmente vantaggiosa per molte molecole di interesse. Non Ã ̈ da escludere perÃ² che in alcuni contesti applicativi tale scelta possa essere attuata in modo differente.

In seguito, oltre al parametro di profilo atomico, allâ€™atomo centrale 1a vengono associate anche le â€œinformazioni di profilo atomicoâ€ che, secondo un esempio di realizzazione preferito, comprendono il simbolo chimico dellâ€™atomo centrale 1a, il simbolo chimico degli atomi periferici 11a,12a, 13a, il numero degli atomi periferici e una â€œchiaveâ€ per identificare univocamente il profilo atomico corrispondente allâ€™atomo centrale 1a.

Quindi, dopo aver calcolato il profilo atomico degli atomi 10DB, 20DB, 30DB, 40DB della base dati DB, si determinano per essi i rispettivi â€œtipi atomiciâ€ . Secondo quanto illustrato nelle figure 5, 6 e 7 Ã ̈ possibile visualizzare graficamente come i â€œtipi atomiciâ€ vengano determinati.

In particolare, in figura 5 sono illustrate una pluralitÃ di molecole M11, M21, M31, M41, M51 comprendenti una pluralitÃ di atomi A11, A12, A13, A21, A22, A23 A31, A32, A33, A41 , A42, A43, A51 , A52, A53.

Con riferimento alla figura 6, Ã ̈ possibile notare come per questa pluralitÃ di atomi viene determinata una corrispondente pluralitÃ di profili atomici PA11, PA12, PA13, PA21, PA22, PA23 PA31, PA32, PA33, PA41, PA42, PA43, PA51 , PA52, PA53, secondo quanto precedentemente descritto. In seguito, questa pluralitÃ di profili atomici viene ripartita in un certo numero di gruppi C1, C2, C3, C4, C5, in cui i profili atomici appartenenti ad uno stesso gruppo sono considerati simili in base ad un criterio predeterminato, come risulterÃ maggiormente chiaro nel proseguimento della descrizione.

In figura 7 Ã ̈ invece rappresentato graficamente come viene determinato il â€œtipo atomicoâ€ tra i profili atomici di figura 6 ripartiti nei vari gruppi C1 , C2, C3, C4, C5. In particolare, secondo lâ€™esempio di figura 6, i profili atomici PA11 , , PA52 vengono ripartiti in cinque gruppi C1, C2, C3, C4 e C5.

Di fatto, il criterio predeterminato, accennato sopra, prevede che due profili atomici siano considerati simili se i rispettivi parametri di profilo atomico differiscono di una certa soglia Î» (differenza valutata secondo unâ€™opportuna funzione matematica). In pratica mediante unâ€™opportuna funzione matematica si confrontano i due profili atomici degli atomi in esame, ognuno dei quali comprende una pluralitÃ di informazioni relative agli atomi del rispettivo intorno, ottenendo cosÃ¬ un profilo atomico â€œrisultatoâ€ , ad esempio un vettore contenente i risultati delle differenze tra gli elementi dei due profili atomici in esame. In seguito, si effettua la sommatoria dei valori ottenuti nel profilo atomico â€œrisultatoâ€ , avendo cosÃ¬ un valore numerico di confronto tra i due atomi in esame.

Due o piÃ¹ profili atomici apparterranno a uno stesso gruppo C1 , C2, C3, C4, C5 se il confronto tra i rispettivi parametri di profilo atomico Ã ̈ un valore minore o uguale alla soglia Î». Diversamente, se tale valore Ã ̈ maggiore di questa soglia Î», i profili atomici apparterranno a gruppi C1, C2, C3, C4, C5 diversi.

Sempre con riferimento alla figura 6, Ã ̈ possibile visualizzare un esempio relativo alla ripartizione nei gruppi C1 , C2, C3, C4, C5 dei profili atomici PA11. PA54. In particolare, per ripartire i profili atomici PA11, ..., PA54 si utilizza la tecnica nota dello schema a dendrogramma. Vantaggiosamente, mediante questo approccio Ã ̈ possibile definire il numero di gruppi C1, C2, C3, C4, C5, e conseguentemente il livello di accuratezza del metodo, in maniera molto flessibile. Infatti, la costruzione del dendrogramma dellâ€™esempio di figura 6 prevede un primo â€œordinamentoâ€ dei profili atomici PA11, ..., PA54; per cui questi saranno disposti lungo lâ€™asse delle ordinate in base alla similaritÃ dei loro parametri di profilo atomico. In seguito, i profili atomici cosÃ¬ ordinati vengono uniti mediante dei segmenti la cui lunghezza esprime la differenza dei rispettivi parametri di profilo atomico. Scegliendo il valore della soglia Î», si determinerÃ la massima differenza possibile tra i rispettivi parametri di profilo atomico di due profili atomici allâ€™interno di uno stesso gruppo C1, C2, C3, C4, C5. Vantaggiosamente, la scelta del valore della soglia Î» non richiede oneri computazionali elevati e ulteriori rispetto a quelli necessari per la costruzione del dendrogramma; infatti tale soglia opera su dati giÃ â€œordinatiâ€ . In questo modo, Ã ̈ vantaggiosamente possibile scegliere il livello di accuratezza del metodo anche in maniera iterativa, cioÃ ̈ mediante scelte successive di differenti valori della soglia Î», fino a che non viene trovato quello ottimale per il problema in analisi.

Secondo quanto illustrato nella figura 7, Ã ̈ possibile notare la scelta dei tipi atomici T1, T2, T3, T4, T5 tra i profili atomici PA11. PA52 ripartiti nei rispettivi gruppi C1 , C2, C3, C4, C5.

In pratica, un tipo atomico corrisponde a un profilo atomico, quindi Ã ̈ caratterizzato dalle stesse informazioni di questâ€™ultimo.

In particolare, secondo un esempio di realizzazione preferito, viene scelto un tipo atomico T1, T2, T3, T4, T5 per ogni gruppo C1, C2, C3, C4, C5. Inoltre, ogni tipo atomico viene scelto in modo casuale tra i profili atomici di ogni gruppo. Vale la pena di precisare che secondo diversi esempi di realizzazione della presente invenzione la scelta del tipo atomico puÃ² essere effettuata in modo differente, ad esempio si puÃ² scegliere in modo predeterminato e secondo un preciso criterio quale tipo atomico scegliere per ogni gruppo.

In altre parole, un tipo atomico T1, T2, T3, T4, T5 Ã ̈ un profilo atomico considerato significativo tra i profili atomici di uno stesso gruppo C1 , C2, C3, C4, C5; in questo modo si riduce la complessitÃ computazionale del problema in analisi senza perdere accuratezza, ottenendo soluzioni affidabili in tempi di elaborazione molto contenuti.

Secondo un ulteriore esempio di realizzazione, la scelta dei tipi atomici T1, T2, T3, T4, T5 puÃ² avvenire in modo differente rispetto allâ€™esempio precedentemente descritto. In particolare, per i profili atomici appartenenti a un gruppo C1, C2, C3, C4, C5 puÃ² essere previsto di calcolare la media dei rispettivi parametri di profilo atomico, e come tipo atomico scegliere un corrispondente profilo atomico avente parametro di profilo atomico con scarto minimo dalla media precedentemente calcolata.

Quindi, con riferimento nuovamente alla base dati DB di figura 1 , Ã ̈ possibile intuire come sia vantaggioso elaborare gli atomi in essa censiti. In questo modo, infatti Ã ̈ possibile disporre di un grande numero di atomi per i quali determinare i rispettivi profili atomici e in seguito i tipi atomici. In altre parole, si puÃ² â€œcostruireâ€ una statistica basandosi sugli atomi censiti all'interno della base dati DB in cui il livello di dettaglio (cioÃ ̈ il numero di: profili atomici, gruppi in cui vengono ripartiti e tipi atomici che vengono determinati) viene scelto in funzione delle risorse di calcolo disponibili e dellâ€™accuratezza nei risultati che si vuole ottenere.

Con riferimento alla figura 2 e alla figura 3 Ã ̈ possibile descrivere le ulteriori fasi del metodo secondo la presente invenzione mediante le quali determinare il valore di una proprietÃ di una molecola M1 di interesse. Vale la pena di precisare che con il termine molecola di interesse M1 si intende una molecola per la quale sono disponibili alcune informazioni (ad esempio la sua struttura, gli atomi che la compongono, i legami tra questi atomi, ...) e per la quale Ã ̈ dâ€™interesse conoscere il valore di una certa proprietÃ . In particolare, le informazioni per gli atomi 10, 20, 30 della molecola M1 che sono disponibili (o alle quali ci si puÃ² ricondurre) sono informazioni spaziali 10d, 20d, 30d e informazioni di elettronegativitÃ 10e, 20e, 30e.

La proprietÃ della quale si vuol conoscere il valore, puÃ² appartenere al gruppo dei parametri â€œstaticiâ€ (ad esempio una solubilitÃ ) oppure a quello parametri â€œdinamiciâ€ (ad esempio un coefficiente di trasporto).

In figura 3 sono rappresentate una pluralitÃ di molecole M2, M3, M4 â€œdi riferimentoâ€ , cioÃ ̈ molecole che costituiscono un â€œtraining setâ€ , delle quali si conosce il valore della proprietÃ di interesse. In altre parole, sono le molecole utilizzate per determinare il valore della proprietÃ della molecola M1.

Queste molecole comprendono una pluralitÃ di atomi 210, 220, 310, 320, 410, 420 per i quali sono disponibili, come nel caso della molecola M1, informazioni spaziali 210d, 220d, 310d, 320d, 410d, 420d e informazioni di elettronegativitÃ 210e, 220e, 31 Oe, 320e, 41 Oe, 420e

Secondo un esempio di realizzazione preferito, e come per il caso degli atomi della base dati molecolare DB, le informazioni spaziali della pluralitÃ di atomi 10, 20, 30; 210, 220, 310, 320, 410, 420 della molecola M1 di interesse e delle molecole M2, M3, M4 di riferimento sono le coordinate spaziali espresse nelle tre dimensioni dello spazio.

Quindi, si determina il profilo atomico degli atomi della molecola di interesse M1 e delle molecole M2, M3, M4 di riferimento secondo le modalitÃ precedentemente descritte.

In seguito, il metodo secondo la presente invenzione prevede che vengano effettuati i seguenti passi:

i - determinare i tipi atomici T1, T2, T3, T4, T5 degli atomi 210, 220, 310, 320, 410, 420 delle molecole M2, M3, M4 di riferimento, scegliendo questi tipi atomici tra la pluralitÃ di tipi atomici determinati per gli atomi delle molecole censite nella base dati DB,

ii - per i tipi atomici T1, T2, T3, T4, T5 degli atomi 210, 220, 310, 320, 410, 420 delle molecole M2, M3, M4 di riferimento cosÃ¬ determinati, effettuare una regressione dei valori noti della proprietÃ di queste molecole M2, M3, M4 di riferimento. Si ottengono cosÃ¬ corrispondenti valori di contributo sul valore della proprietÃ per i tipi atomici degli atomi delle molecole di riferimento,

iii - determinare i tipi atomici T1, T2, T3, T4, T5 degli atomi 10, 20, 30 della molecola M1 di interesse, scegliendo questi tipi atomici tra la pluralitÃ di tipi atomici determinati per gli atomi delle molecole censite nella base dati DB.

iv - calcolare il valore della proprietÃ della molecola M1 di interesse come combinazione dei valori di contributo sul valore della proprietÃ dei tipi atomici degli atomi 10, 20, 30 della molecola M1 ottenuti mediante la regressione precedentemente effettuata.

In sostanza, ai passi i, iii Ã ̈ previsto di determinare i profili atomici degli atomi 10, 20, 30 della molecola di interesse M1 e degli atomi 210, 220, 310, 320, 410, 420 delle molecole M2, M3, M4 di riferimento secondo la modalitÃ precedentemente descritta. In seguito, come giÃ detto, ad ogni profilo atomico viene associato un tipo atomico selezionandolo tra la pluralitÃ di tipi atomici precedentemente determinati per gli atomi 10DB, 20DB, 30DB, 40DB delle molecole M1DB, M2DB censite nella base dati DB. Questâ€™ultima operazione puÃ² avvenire secondo diverse modalitÃ . In particolare, secondo un esempio di realizzazione preferito, per un determinato profilo atomico delle molecole M1, M2, M3, M4 si individua un corrispondente profilo atomico, considerato "simile" (ad esempio con differenza del parametro di profilo atomico minima), relativo agli atomi censiti nella base dati DB. In seguito, si considera in quale gruppo C1, C2, C3, C4, C5 il profilo atomico â€œsimileâ€ dellâ€™atomo censito Ã ̈ stato ripartito, ottenendo quindi il corrispondente tipo atomico associato.

Concettualmente, al passo ii, per ogni molecola M2, M3, M4 si vuole legare il valore noto della proprietÃ ai rispettivi tipi atomici. Quindi, per ogni molecola M2, M3, M4 viene effettuata una regressione dei valori noti della proprietÃ in funzione dei tipi atomici. In pratica, si otterrÃ un sistema di equazioni di regressione, di tante equazioni quante sono le molecole M2, M3, M4 di riferimento. La soluzione di questo sistema di equazioni permette di ottenere dei contributi sul valore della proprietÃ per i rispettivi tipi atomici delle molecole di riferimento M2, M3, M4.

In seguito, come indicato al passo iv, viene determinato il valore della proprietÃ della molecola M1 di interesse.

In particolare, ai tipi atomici determinati per la molecola M1 si associano rispettivi contributi sul valore della proprietÃ , ricavando questi ultimi dalla regressione effettuata per le molecole di riferimento M2, M3, M4.

Quindi, per la molecola M1 di interesse si conoscono i tipi atomici T1, T2, T3, T4, T5 che la caratterizzano, e i rispettivi contributi sul valore della proprietÃ di questi. Pertanto, il valore della proprietÃ della molecola M1 viene determinato come combinazione dei contributi sul valore della proprietÃ dei suoi tipi atomici; naturalmente vi Ã ̈ un legame logico tra il tipo di regressione usata e il tipo di combinazione usata.

Secondo un esempio di realizzazione preferito, sia la regressione che la combinazione precedentemente descritte sono lineari. Non sono tuttavia da escludere altre tipologie, tutte rientranti nellâ€™ambito della presente invenzione. Si riportano di seguito lâ€™esempio 1 e lâ€™esempio 2 relativi rispettivamente alla determinazione dei tipi atomici degli atomi di alcune proteine, e alla predizione del valore di solubilitÃ per una molecola di interesse.

ESEMPIO 1

Eseguendo il metodo secondo la presente invenzione, in primo luogo Ã ̈ stata effettuata l'analisi dell'intero database PDB (reperibile allo Uniform Resource Locator http://www.rcsb.org/pdb/home/home.do), estraendo da esso, in maniera casuale, 20000 proteine censite per ottenere i profili atomici di 10000 atomi.

La modalitÃ in cui uno specifico profilo atomico viene codificato Ã ̈ riportato nella Tabella 1 riassuntiva:

Campo Valore Profile ID 18

PDB file 2jfz

aSymb C

nNN 11

distanceNN 3.19268; 2.83175; 2.94331 ; 2.41214; 1.32351;

2.47738; 1.23045; 1.5243; 2.41722; 3.05891 ;

3.02813

dElectrN 0.442451 ; 0.512546; 0.577163; 0.859337;

2.57468; 0.814674; 2.71466 2.15193;

0.771869; 0.439246; 0.545283

symboINN N; O; C; C; N; C; O; C; N; O; C

Tabella 1

I campi riportati in Tabella 1 hanno il seguente significato:

Profile ID: identifica il profilo atomico con un numero progressivo da 1 a 10000; PDB file: identifica il codice della struttura all'interno del database PDB cui appartiene l'atomo in esame e per il quale si calcola il profilo atomico;

aSvmb: rappresenta il simbolo chimico dell'atomo in esame (atomo centrale); nNN: indica il numero di atomi periferici presenti nellâ€™intorno che circonda l'atomo in esame (atomo centrale);

distanceNN: rappresenta il vettore delle distanze tra gli atomi periferici e l'atomo in esame (atomo centrale);

dEelectrN: rappresenta il vettore delle differenze di elettronegativitÃ fra gli atomi periferici e l'atomo in esame (atomo centrale) divise per il quadrato della distanze (distanceNN);

symboINN: rappresenta il vettore contenente i simboli chimici degli atomi periferici. Nel caso specifico, si Ã ̈ calcolato il diciottesimo profilo atomico, relativo ad un atomo di Carbonio C (che rappresenta lâ€™atomo centrale), presente all'interno del database molecolare con identificativo PDB = 2jfz, con 11 atomi periferici (ossia contenuti nel volume di una corteccia sferica definito mediante due superfici circolari concentriche centrate sullâ€™atomo centrale di Carbonio, di raggio minore r1 = 0.8 A e di raggio maggiore r2 = 3.5 A), che sono rispettivamente un atomo di: N, O, C, C, N, C, O, C, N, O, C, che si trovano rispettivamente alle distanze di 3.19268, 2.83175, 2.94331 , 2.41214, 1.32351, 2.47738, 1.23045, 1.5243, 2.41722, 3.05891, 3.02813 (distanze misurate in angstrom), rispetto all'atomo centrale di C; con differenza di elettronegativitÃ , divisa per il quadrato delle rispettive distanze, pari a: 0.442451; 0.512546; 0.577163; 0.859337; 2.57468; 0.814674; 2.71466; 2.15193; 0.771869; 0.439246; 0.545283.

Nellâ€™esempio presente i vettori delle distanze vengono ordinati in maniera crescente per ottimizzare lâ€™esecuzione dellâ€™algoritmo. Si noti che in seguito al riordino del vettore delle distanze (distanceNN) secondo valori crescenti si ottiene: distanceNN = 1.23045; 1.32351; 1.5243; 2.41214; 2.41722; 2.47738; 2.83175; 2.94331; 3.02813; 3.05891; 3.19268.

dElectrN = 2.71466; 2.57468; 2.15193; 0.859337; 0.771869; 0.814674; 0.512546; 0.577163; 0.545283; 0.439246; 0.442451.

symboINN = O; N; C; C; N; C; O; C; C; O; N.

Per l'atomo centrale in oggetto, il parametro di profilo atomico Ã ̈ costituito dalla somma dei valori contenuti nel vettore â€œdElectrNâ€ .

Ogni profilo atomico deve essere univocamente identificato, nellâ€™esempio presente si utilizza la seguente convenzione:

[Simbolo atomico centrale] _[Simboli degli atomi periferici] [Numero progressivo da 1 al massimo numero di profili calcolati]

Nel caso in oggetto si ha quindi il seguente notazione: C_NOCCNCOCNOC_18. I 10 000 profili atomici vengono utilizzati per effettuare 10 000*(10 000-1 )/2 = 49â€™ 995ÎŒ00 confronti dei rispettivi parametri di profilo atomico (nel seguito il confronto tra parametri di profilo atomico Ã ̈ indicato anche come indice di similaritÃ ). Eâ€™ da notare come l'indice di similaritÃ fra lâ€™atomo a e lâ€™atomo b Ã ̈ identico a quello fra lâ€™atomo b ed lâ€™atomo a (infatti nel calcolo del numero di confronti da effettuare il valore Ã ̈ diviso per 2). Inoltre, l'indice di similaritÃ fra due stessi profili atomici e' sempre nullo.

II dendrogramma di figura 6 rappresenta in maniera grafica la distanza fra tutte le coppie possibili dei profili atomici, e consente quindi di raggruppare i profili atomici sulla base di quanto siano vicini i rispettivi parametri di profilo atomico.

Eâ€™ da notare come il dendrogramma rappresentato in figura 6 sia una vista parziale del possibile intero dendrogramma che si ottiene per lâ€™esempio in oggetto.

Inoltre, esso rappresenta semplicemente una modalitÃ piÃ¹ immediata per rappresentare la matrice di tutti gli indici di similaritÃ e per poter quindi estrarre informazioni utili.

Esso viene costruito nel seguente modo:

1. si posizionano tutti i profili col loro codice sull'asse verticale,

2. per ogni profilo (ad esempio PA11, il primo in alto in Figura 6), si traccia una linea che lo collega direttamente (ad esempio PA33) o indirettamente (ad esempio PA12) ad un qualunque secondo profilo;

3. la lunghezza del ramo che collega due qualsiasi profili viene posta uguale al valore dell'indice di similaritÃ (cioÃ ̈ alla differenza dei rispettivi parametri di profilo atomico) fra di essi e riportata sull'asse orizzontale.

Ad esempio, con riferimento alla Figura 6, l'indice di similaritÃ fra PA11 e PA33 vale circa 0.25; fra PA11 e PA12 vale circa 5.

Sempre in riferimento a Figura 6, a questo punto e' sufficiente scegliere un valore di soglia Î», ad esempio Î» = 2.5. In questo modo, Ã ̈ possibile raggruppare tutti i profili atomici in gruppi all'interno dei quali l'indice di similaritÃ atomico fra due qualsiasi profili atomici sia inferiore o uguale al valore della soglia Î». Pertanto, ogni gruppo C1, C2, C3, C4, C5 rappresenta un insieme relativamente omogeneo di profili atomico, e si â€œeleggeâ€ un suo elemento rappresentante: in altre parole si determina il tipo atomico

Con una soglia di Î» = 2.5, vengono identificati nel dendrogramma cinque gruppi distinti C1, C2, C3, C4, C5 per ognuno dei quali viene determinato un tipo atomico.

I tipi atomici cosÃ¬ ritrovati, distinguono in particolare tutte le caratteristiche chimiche del legame peptidico delle proteine analizzate. In particolare, si sono in tal modo catturate automaticamente, senza l'aiuto di alcun operatore o di informazioni inserite a priori, le caratteristiche degli atomi di Carbonio nei loro differenti stati di ibridazione ( sp<2>ed sp<3>), ma anche gli atomi di N del backbone e di O legati al C del backbone. Con una soglia di similaritÃ superiore, ad esempio Î» = 5, avremmo avuto solo 3 gruppi, e quindi 3 tipi atomici, che non avrebbe consentito di discriminare fra gli stati di ibridazione del Carbonio. Pertanto l'accuratezza ottenibile con questa ultima rappresentazione sarÃ in generale meno accurata di quanto ottenibile con i 5 tipi atomici di prima.

ESEMPIO 2

In questo secondo esempio Ã ̈ riportata l'applicazione del metodo secondo la presente invenzione per valutare la solubilitÃ di una molecola di interesse, in particolare una molecola di Naproxene.

Come molecole di riferimento, cioÃ ̈ molecole che costituiscono il â€œtraining setâ€ , per le quali il valore della proprietÃ di interesse Ã ̈ noto sono state scelte 10 molecole, riportate in tabella 2.

1 Atropina 2 Benzocaina 3 Caffeina 4 Cocaina 5 Codeina

ln(S) -2,12 -2,32 -0,88 - 2,25 -1,52

N° atomi 44 23 120 43 43

6 Desametasone 7 Fenbufene 8 Fluconazolo 9 Ibuprofene 10 Licodeina

ln(S) -3,59 -5,3 -1,8 -3,76 -1,71

N° atomi 114 66 34 33 78

Tabella 2

La riga ln(S) rappresenta il valore del logaritmo naturale della solubilitÃ , mentre la riga N° atomi costituisce il numero di atomi di ogni molecola riportata in tabella. Ai fini del presente esempio, la scelta di rappresentare la solubilitÃ delle molecole mediante il logaritmo naturale deriva dal fatto che essa dipende in modo esponenziale da alcuni parametri caratteristici delle stesse, quali, ad esempio, la tensione superficiale, la superficie molecolare molare e la temperatura.

Ai fini del presente esempio, la base dati molecolare coincide con il â€œtraining setâ€ riportato in tabella 2, pertanto essa ricomprende le medesime molecole.

Come giÃ anticipato, la molecola di interesse Ã ̈ quella di Naproxene, avente 69 atomi e logaritmo naturale della solubilitÃ sperimentale pari a ln(S) = - 4,2. Questâ€™ultimo rappresenta il valore di riferimento con cui confrontare i risultati ottenuti mediante lâ€™applicazione del metodo secondo la presente invenzione. Eâ€™ da notare come questo valore atteso di solubilitÃ sia posizionato in corrispondenza di un estremo dellâ€™intervallo di distribuzione dei valori delle solubilitÃ delle 10 molecole del â€œtraining setâ€ . Questo permette di stabilire ancora meglio la bontÃ del metodo secondo la presente invenzione, infatti una semplice interpolazione dei valori noti non ricondurrebbe a un valore atteso della proprietÃ con un errore accettabile rispetto al valore di riferimento.

Si calcolano quindi i profili atomici degli atomi di ogni molecola delle 10 che compongono la base dati molecolare, cioÃ ̈ 598 profili atomici totali, che comprendono i vari profili atomici delle rispettive molecole della base dati.

La modesta quantitÃ di dati da elaborare nel caso del presente esempio non porta ad avere un onore computazionale elevato. Pertanto Ã ̈ possibile calcolare il profilo atomico di un atomo considerato centrale individuando come atomi periferici tutti gli atomi della molecola stessa. In altre parole, il raggio maggiore della superficie sferica che definisce l'intorno (S) corrisponde alla dimensione nello spazio della molecola. In seguito vengono calcolati gli indici di similaritÃ tra i profili atomici cosÃ¬ ottenuti, vale a dire che vengono effettuati (598*(598-1 ))/2 = 178503 confronti, che nel dettaglio, sono delle sottrazioni. Lâ€™espressione per il calcolo del numero di confronti Ã ̈ divisa per due dato che due profili atomici diversi vengono confrontati una sola volta (il confronto tra il profilo atomico a e il profilo atomico b comprende anche quello tra il profilo atomico b e il profilo atomico a). Dopo avere calcolato i profili atomici e gli indici di similaritÃ della base dati molecolare, si determinano i tipi atomici della stessa. Per far questo si costruisce il dendrogramma dei profili atomici, utilizzando gli indici di similaritÃ calcolati nel modo descritto in precedenza. Nel presente esempio vengono determinati dieci profili atomici, valore numericamente ottimale per risolvere il sistema di dieci equazioni determinato dalla cardinalitÃ dell'insieme delle molecole di riferimento.

In figura 8 sono rappresentati i 10 tipi atomici determinati mediante la costruzione di un dendrogramma. La soglia Î» = 5.47 permette di ottenere questo numero di tipi atomici.

La tabella 3 mostra il numero di atomi considerati simili, cioÃ ̈ gli atomi che compongono un tipo atomico, al variare del numero di tipi atomici (2, 4, 6, 8, 10) scelti per rappresentare le molecole del â€œtraining setâ€ .

Qualora si considerasse un solo tipo atomico per molecola, la formula per la stima della solubilitÃ di una generica molecola sarebbe pari a ln(S)<â‰ˆ>-0,0323365 * NA; dove NA indica il numero di atomi di quella molecola. In tal senso, la figura 9 mostra lâ€™andamento della distribuzione delle solubilitÃ in funzione degli atomi di una molecola. Si puÃ² notare come tale andamento sia piuttosto sparso, pertanto non identificabile globalmente in modo univico in base alle variabili del problema in analisi. Utilizzando la formula riportata in precedenza, si ottiene un valore stimato della solubilitÃ della molecola di Naproxene pari a ln(S) = - 2,23. Come giÃ accennato, il valore di riferimento con cui confrontare quest'ultimo Ã ̈ pari a - 4,2. Nel seguito verrÃ illustrato che aumentando il numero dei tipi atomici il valore stimato tende a convergere al valore di riferimento.

1 2 3 4 5 6 7 8 9 10 Tipo Numero Numero Numero Numero Numero Numero Numero Numero Numero Numero N° tipi

atomico atomi atomi atomi atomi atomi atomi atomi atomi atomi atomi atomici

(TA) per TA per TA per TA per TA per TA perTA per TA per TA per TA per TA 2 AT1 20 12 54 24 14 51 27 10 8 39 AT2 24 11 66 19 29 63 39 24 25 39 Atomi

44 23 120 43 43 114 66 34 33 78 totali

N° tipi

atomici

4 AT1 5 6 54 4 11 11 21 3 7 6 AT2 2 2 25 8 3 20 16 1 2 7 AT3 6 5 41 1 4 19 14 4 6 7 AT4 31 10 0 30 25 64 15 26 18 58 Atomi

44 23 120 43 43 114 66 34 33 78 totali

N° tipi

atomici

6 AT1 5 3 46 2 9 6 13 3 6 3 AT2 0 2 16 5 1 12 4 1 3 6 AT3 2 2 24 5 2 10 6 1 2 5 AT4 4 2 32 1 2 12 8 2 2 5 AT5 5 5 2 12 6 28 26 4 7 16 AT6 28 g 0 18 23 46 9 23 13 43 Atomi

44 23 120 43 43 114 66 34 33 78 totali

N° tipi

atomici

8 AT1 0 2 12 4 2 2 7 0 0 2 AT2 1 1 20 0 0 1 2 0 0 0 AT3 4 3 30 2 9 6 7 3 6 3

AT4 0 1 14 4 1 12 3 1 3 6

AT5 2 1 17 5 2 10 6 1 2 5

AT6 4 1 25 1 1 10 8 2 2 5

AT7 5 5 2 10 5 27 25 4 7 15

AT8 28 9 0 17 23 46 8 23 13 42

Atomi

44 23 120 43 43 114 66 34 33 78

totali

10 AT1 0 2 9 1 0 1 5 0 0 0

AT2 0 1 17 0 0 1 2 0 0 0

AT3 3 2 26 0 6 5 5 3 4 2

AT4 2 0 25 6 5 11 9 4 4 5

AT5 0 1 5 3 1 10 2 0 2 4

AT6 2 1 17 2 1 7 5 0 1 2

AT7 3 1 19 1 1 8 4 2 1 3

AT8 5 4 2 10 5 21 19 4 5 13

AT9 7 5 0 7 8 14 10 0 7 11

AT10 22 6 0 13 16 36 5 21 9 38

Atomi

44 23 120 43 43 114 66 34 33 78

totali

1 Atropina

2 Benzocaina

3 Caffeina

4 Cocaina

5 Codeina

6 Desametasone

7 Fenbufene

8 Fluconazolo

9 Ibuprofene

10 licodeina

Tabella 3

In seguito, per applicare il metodo secondo la presente invenzione, Ã ̈ necessario legare il valore noto della proprietÃ delle molecole del â€œtraining setâ€ ai rispettivi tipi atomici. Si determinano quindi i pesi di ciascun tipo atomico sul valore di solubilitÃ della molecola a cui essi appartengono. Nel presente esempio, questâ€™operazione viene effettuata risolvendo un sistema di equazioni di regressione caratterizzato da 10 equazioni (cioÃ ̈ unâ€™equazione per ogni molecola del â€œtraining setâ€ ) in 10 incognite (cioÃ ̈ il numero di tipi atomici).

Successivamente per i 69 atomi della molecola di interesse di Naproxene vengono determinati i rispettivi tipi atomici scegliendoli, per ogni atomo, tra i dieci delle molecole del â€œtraining set".

Quindi, effettuando una combinazione dei valori dei pesi precedentemente calcolati con i tipi atomici della molecola di interesse di Naproxene, si determina il valore della solubilitÃ di questâ€™ultima.

La Tabella 4 riporta diversi valori di solubilitÃ della molecola di Naproxene ottenuti in funzione di un diverso numero di tipi atomici utilizzati per lâ€™applicazione del metodo secondo la presente invenzione, in particolare il metodo Ã ̈ stato applicato nel caso di 10, 8, 6 e 4 tipi atomici. La tabella mostra inoltre il numero di atomi rappresentati con ciascun tipo atomico. Per il caso di un solo tipo atomico Ã ̈ stata utilizzata la formula approssimata descritta in precedenza. Lâ€™errore riportato in tabella Ã ̈ relativo alla differenza tra il valore di riferimento (cioÃ ̈ - 4,2 ) e il valore di volta in volta calcolato con il numero di tipi atomici scelti per farlo. Eâ€™ interessante notare come lâ€™errore diminuisca allâ€™aumentare del numero di tipi atomici scelti per rappresentare la molecola di interesse di Naproxene.

N° N° N° N° N° N° N° N° N° N° N° N" N° Nâ€ Valore Errore TA atomi atomi atomi atomi atomi atomi atomi atomi atomi atomi atomi atomi atomi predetto TA 1 TA 2 TA 3 TA 4 TA 5 TA 6 TA 7 TA 8 TA 9 TA 10 TA 11 TA 12 TA 13 ln(s)

10 5 2 5 13 5 6 4 12 8 g -s.ig -o.gg

8 7 2 8 g 8 4 17 14 -3.04 1.16

6 11 10 12 4 18 14 -2.06 1.24

4 18 16 14 21 -2.60 1.51

1 -2.23 i.g7

Tabella 4

Claims

RIVENDICAZIONI 1. Metodo per determinare un valore di una proprietÃ di una molecola (M1) di interesse comprendente una pluralitÃ di atomi (10DB, 20DB, 30DB, 40DB), - in cui detto metodo si basa su una base dati (DB) relativa ad una pluralitÃ di molecole (M1DB, MD2B) censite comprendenti una pluralitÃ di atomi (10DB, 20DB, 30DB, 40DB), in cui detta base dati (DB) contiene per ogni molecola censita (MDB1, MDB2) informazioni spaziali (10DBd, 20DBd, 30DBd, 40DBd) e informazioni di elettronegativitÃ (10DBe, 20DBe, 30DBe, 40DBe) relative agli atomi (10DB, 20DB, 30DB, 40DB) che la compongono, - in cui detto metodo si basa su un insieme di molecole (M2, M3, M4) di riferimento predeterminate comprendenti una pluralitÃ di atomi (210, 220, 310, 320, 410, 420), in cui per ogni molecola (M2, M3, M4) di riferimento sono note informazioni spaziali (21 Od, 220d, 31 Od, 320d, 41 Od, 420d) e informazioni di elettronegativitÃ (21 Oe, 220e, 31 Oe, 320e, 410e, 420e) relative agli atomi che la compongono ed Ã ̈ noto un valore di detta proprietÃ , - in cui il profilo atomico di un certo atomo (1a) di una certa molecola (MC) comprende un parametro di profilo atomico e informazioni di profilo atomico, in cui detto parametro di profilo atomico si determina sulla base di una formula matematica predeterminata da calcolare sulla base di informazioni spaziali (1ad, 11 ad, 12ad, 13ad) e informazioni di elettronegativitÃ (1ae, 11ae, 12ae, 13ae) relative agli atomi (1a, 11 a, 12a, 13a) di detta certa molecola (MC) che si trovano in un intorno (S) predeterminato di detto certo atomo (1a), e in cui dette informazioni di profilo atomico sono informazioni chimiche relative agli atomi (1a, 11 a, 12a, 13a) di detta certa molecola (MC) che si trovano in detto intorno (S) predeterminato - in cui il tipo atomico (T1, T2, T3, T4, T5) di un gruppo (C1, C2, C3, C4, C5) di profili atomici simili Ã ̈ un profilo atomico di detto gruppo (C1, C2, C3, C4, C5) scelto in un modo predeterminato, in cui i profili atomici di detto gruppo sono considerati simili in base ad un criterio predeterminato, - in cui il metodo comprende le fasi di : A) elaborare detta base dati (DB) e individuare una pluralitÃ di tipi atomici (T1, T2, T3, T4, T5) associati agli atomi (10DB, 20DB, 30DB, 40DB) di dette molecole (MDB1, MDB2) censite di detta base dati (DB), B) determinare i tipi atomici (T1, T2, T3, T4, T5) degli atomi (210, 220, 310, 320, 410, 420) di dette molecole (M2, M3, M4) di riferimento scegliendoli tra detta pluralitÃ di tipi atomici (T1, T2, T3, T4, T5), C) per i tipi atomici (T1 , T2, T3, T4, T5) degli atomi (210, 220, 310, 320, 410, 420) di dette molecole (M2, M3, M4) di riferimento, effettuare una regressione di detti valori noti di detta proprietÃ di dette molecole (M2, M3, M4) di riferimento ottenendo corrispondenti valori di contributo sul valore di detta proprietÃ per detti tipi atomici (T1, T2, T3, T4, T5). D) determinare i tipi atomici (T1, T2, T3, T4, T5) degli atomi (10, 20, 30) di detta molecola (M1) di interesse scegliendoli tra detta pluralitÃ di tipi atomici (T1, T2, T3, T4, T5) E) calcolare detto valore di detta proprietÃ di detta molecola (M1) di interesse come combinazione dei valori di contributo sul valore di detta proprietÃ dei tipi atomici (T1, T2, T3, T4, T5) degli atomi (10, 20, 30) di detta molecola (M1) ottenuti mediante detta regressione. 2. Metodo secondo la rivendicazione 1, in cui dette informazioni spaziali (10DBd, 20DBd, 30DBd, 10d, 20d, 30d, 210d, 220d, 310d, 320d, 410d, 420d, 1ad, 11ad, 12ad, 13ad) comprendono le coordinate spaziali tridimensionali di detta pluralitÃ di atomi. 3. Metodo secondo la rivendicazione 1 oppure 2, in cui dette informazioni chimiche relative agli atomi (1a, 11 a, 12a, 13a) di detta certa molecola (MC) comprendono il simbolo chimico di detti atomi (1a, 11 a, 12a, 13a) e il numero di atomi (1a, 11 a, 12a, 13a) che si trovano in detto intorno (S) predeterminato. 4. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detto parametro di profilo atomico Ã ̈ un vettore comprendente una pluralitÃ di elementi e in cui detta formula matematica predeterminata prevede che venga effettuata una corrispondente pluralitÃ di rapporti tra: - valori dipendenti dalle differenze di elettronegativitÃ tra detto certo atomo (1a) e detti atomi (11 a, 12a, 13a) che si trovano in detto intorno (S) di detto certo atomo (1a) e - valori dipendenti dalle distanze tra detto certo atomo (1a) e detti atomi (1 1 a, 12a, 13a) che si trovano in detto intorno (S) di detto certo atomo (1a) 5. Metodo secondo una qualsiasi delle rivendicazioni da 1 a 3, in cui detto parametro di profilo atomico Ã ̈ un vettore comprendente una pluralitÃ di elementi e in cui detta formula matematica predeterminata prevede che venga effettuata una corrispondente pluralitÃ di rapporti tra - valori dipendenti dalle elettronegativitÃ di detti atomi (1 1 a, 12a, 13a) che si trovano in detto intorno (S) di detto certo atomo (1a) e - valori dipendenti dalle distanze tra detto certo atomo (1a) e detti atomi (1 1 a, 12a, 13a) che si trovano in detto intorno (S) di detto certo atomo (1a) 6. Metodo secondo la rivendicazione 4 oppure 5, in cui detti valori dipendenti dalle differenze di elettronegativitÃ o dalle elettronegativitÃ corrispondono ai valori delle differenze di elettronegativitÃ o delle elettronegativitÃ ai quali viene aggiunta una costante correttiva. 7. Metodo secondo la rivendicazione 4 oppure 5 oppure 6, in cui detti valori dipendenti dalle distanze corrispondono al quadrato delle distanze tra detto certo atomo (1a) e detti atomi (11 a, 12a, 13a) che si trovano in detto intorno (S) di detto certo atomo (1a). 8. Metodo secondo una qualsiasi delle rivendicazioni precedenti in cui dette distanze tra detto certo atomo (1a) e detti atomi (11 a, 12a, 13a) in detto intorno (S) sono calcolate sulla base di dette informazioni spaziali (1ad, 11 ad, 12ad, 13ad). 9. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detto intorno predeterminato Ã ̈ uno spazio (S) centrato su detto certo atomo (1a) che esclude una zona centrale. 10. Metodo secondo la rivendicazione 8, in cui detto spazio (S) Ã ̈ una corteccia di forma predeterminata, in particolare sferica avente: - un raggio minore (r1 ) compreso nell'intervallo fra 0.8 ed 1 .
2 Angstrom - un raggio maggiore (r2) compreso nell'intervallo fra 3.5 e 15 Angstrom 11. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detto criterio predeterminato prevede che venga effettuata la differenza di due parametri di profilo atomico di due distinti profili atomici. 12. Metodo secondo la rivendicazione 11, in cui detta differenza genera un vettore comprendente una pluralitÃ di elementi, ed in cui detto criterio predeterminato prevede che la combinazione, in particolare la somma, di detti elementi di detto vettore sia inferiore ad un valore di soglia. 13. Metodo secondo una qualsiasi delle rivendicazioni precedenti da 1 a 12, in cui secondo detto modo predeterminato, detto profilo atomico viene scelto in modo casuale tra i profili atomici appartenenti a un gruppo (C1, C2, C3, C4, C5). 14. Metodo secondo una qualsiasi delle rivendicazioni precedenti da 1 a 12, in cui secondo detto modo predeterminato, detto profilo atomico viene scelto in base al valor medio dei parametri di profilo atomico dei profili atomici appartenenti a un gruppo (C1, C2, C3, C4, C5). 15. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detta regressione Ã ̈ tale che il regredendo, costituito dal valore di detta proprietÃ di dette molecole (M2, M3, M4) di riferimento, risulta combinazione dei regressori, costituiti da valori di contributo dei tipi atomici (T1, T2, T3, T4, T5) di dette molecole di riferimento (M2, M3, M4) sul valore della proprietÃ di dette molecole di riferimento (M2, M3, M4). 16. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detta regressione di detta fase C Ã ̈ una regressione lineare. 17. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detta combinazione di detta fase E Ã ̈ una combinazione lineare.