ITMI20121457A1 - Metodo per determinare valori di proprieta' molecolari - Google Patents

Metodo per determinare valori di proprieta' molecolari Download PDF

Info

Publication number
ITMI20121457A1
ITMI20121457A1 IT001457A ITMI20121457A ITMI20121457A1 IT MI20121457 A1 ITMI20121457 A1 IT MI20121457A1 IT 001457 A IT001457 A IT 001457A IT MI20121457 A ITMI20121457 A IT MI20121457A IT MI20121457 A1 ITMI20121457 A1 IT MI20121457A1
Authority
IT
Italy
Prior art keywords
atomic
atoms
molecule
value
molecules
Prior art date
Application number
IT001457A
Other languages
English (en)
Inventor
Detlef Walter Maria Hofmann
Enrico Pieroni
Maria Valentini
Original Assignee
Crs4 S R L
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Crs4 S R L filed Critical Crs4 S R L
Priority to IT001457A priority Critical patent/ITMI20121457A1/it
Priority to PCT/IB2013/058144 priority patent/WO2014033670A2/en
Publication of ITMI20121457A1 publication Critical patent/ITMI20121457A1/it

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Physical Deposition Of Substances That Are Components Of Semiconductor Devices (AREA)
  • Formation Of Insulating Films (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

METODO PER DETERMINARE VALORI DI PROPRIETÀ MOLECOLARI
CAMPO DELL’INVENZIONE
La presente invenzione riguarda il settore della chimica computazionale.
In particolare, la presente invenzione si riferisce a un metodo per determinare valori di proprietà molecolari.
STATO DELLA TECNICA
La chimica computazionale comprende numerose tecniche di elaborazione per determinare grandezze fisiche e prevedere proprietà di sistemi chimici.
Queste tecniche trovano impiego nei sistemi della biologia, della biochimica, della tossicologia, della chimica dei materiali e della chimica farmaceutica.
La chimica computazionale ha molti riscontri pratici, in particolare per problemi inerenti: la progettazione di nuove molecole, la comprensione dei meccanismi di azione di molecole esistenti, lo studio di sistemi chimici complessi in interazione, nonché l’analisi e la verifica di teorie ed esperimenti chimici.
Le tecniche di elaborazione sviluppate permettono di determinare le interazioni fra le molecole di un sistema chimico di interesse. In seguito, l’analisi delle interazioni così determinate consentirà di risalire alle differenti grandezze o proprietà di queste molecole.
Le grandezze e proprietà di cui si desidera ottenere un valore possono essere suddivise in due gruppi: parametri “in equilibrio†o “statici†e parametri “dinamici†. I primi sono parametri definiti quando il sistema chimico à ̈ in condizione di equilibrio. Ad esempio, tali parametri sono: la solubilità, il coefficiente di ripartizione, la densità cristallina, costanti di equilibrio, ...
I secondi, invece, sono parametri definiti durante le fasi di reazione del sistema chimico. Uno di tali parametri à ̈, ad esempio, il “coefficiente di trasporto" di una molecola in un sistema chimico. Altri parametri di questo genere sono le costanti di reazione.
Da un punto di vista operativo, queste tecniche di elaborazione determinano una proprietà o una grandezza di una molecola, mediante algoritmi più o meno complessi, che operano su caratteristiche della molecola stessa quali: il numero ed il tipo di legami tra i suoi atomi, il numero di strutture topologiche particolari (ad esempio “anelli†), il numero di atomi accettori e donatori di elettroni, e caratteristiche più complesse quali la superficie della molecola esposta al solvente, la mappa elettrostatica attorno alla superficie della molecola, e loro combinazioni...
Queste caratteristiche possono essere ottenute per via sperimentale, ad esempio mediante misura diretta sul sistema di interesse, tramite modelli teorici, o mediante l'utilizzo di banche dati molecolari (ad esempio da un database cristallografico) contenenti un gran numero di molecole censite.
Ad oggi sono stati sviluppati un certo numero di algoritmi, ognuno dei quali adatto a un problema o a un gruppo di problemi simili.
La scelta di quale algoritmo adottare à ̈ quindi molto importante per l’analisi del sistema chimico di interesse. In linea di principio, questa scelta sarà funzione di altri fattori quali, ad esempio, la potenza di calcolo disponibile per eseguire l’algoritmo, il tempo desiderato per ottenere il risultato, il numero di sistemi analizzati in parallelo, l’accuratezza nel valore della grandezza o della proprietà che si vuole ottenere.
SOMMARIO
La Richiedente si à ̈ resa conto che le tecniche note accennate sopra non permettono di determinare proprietà di una molecola con adeguata precisione. Inoltre, l’applicazione di tali tecniche note à ̈ influenzata dal contesto; à ̈ necessario quindi, di caso in caso, scegliere una tecnica adatta al contesto di interesse; si tratta quindi valutare algoritmi differenti e caratteristiche molecolari differenti da utilizzare per l’elaborazione. Inoltre, tale attività à ̈ da svolgere manualmente, da parte di esperti altamente qualificati, con un importante impiego di energie e tempo.
Nel caso di tecniche note che operano su caratteristiche ottenute mediante banche dati molecolari, si possono riscontrare imprecisioni anche considerevoli nei risultati. Infatti, capita che le molecole censite siano associate ad informazioni erronee, almeno parzialmente, e tali tecniche note le elaborano come se fossero corrette fornendo, di conseguenza, risultati errati.
Inoltre, per ottenere risultati affidabili in tempi ragionevoli à ̈ necessario prevedere risorse di calcolo potenti. Se non si dispongono di risorse di calcolo di questo genere, si penalizza o l'affidabilità dei risultati o il tempo per ottenerli.
Scopo generale della presente invenzione à ̈ quello di migliorare lo stato dell arte relativo alle tecniche che operano su caratteristiche delle molecole ottenute mediante banche dati molecolari.
Un primo scopo più specifico à ̈ quello di fornire un metodo che permetta di ottenere il valore di una proprietà di una molecola di interesse in maniera affidabile.
Un secondo scopo più specifico à ̈ quello di fornire un metodo che permetta di ottenere il valore di una proprietà di una molecola di interesse in maniera automatica, a partire da informazioni facilmente ottenibili.
Un terzo scopo più specifico à ̈ quello di fornire un metodo che permetta di ottenere il valore di una proprietà di una molecola di interesse che compensi eventuali errori presenti nelle banche dati molecolari, in particolare relativi alla topologia delle strutture molecolari.
Un quarto scopo più specifico à ̈ quello di fornire un metodo che permetta di ottenere il valore di una proprietà di una molecola di interesse con un ridotto impiego di risorse di calcolo, possibilmente senza compromettere l'affidabilità dei risultati.
Un quinto scopo più specifico à ̈ di quello di poter effettuare elaborazioni computerizzate su molecole di interesse mediante un unico metodo, indipendentemente dal contesto.
Non ultimo scopo à ̈ quello di garantire la medesima o superiore affidabilità e le medesime o superiori prestazioni di soluzioni già esistenti e operative.
Questi ed altri scopi sono raggiunti grazie al metodo per determinare un valore di una proprietà di una molecola di interesse avente le caratteristiche esposte nelle rivendicazioni qui annesse che sono parte integrante della presente descrizione. Secondo la presente invenzione viene realizzato un metodo per determinare un valore di una proprietà di una molecola di interesse comprendente una pluralità di atomi
- in cui detto metodo si basa su una base dati, relativa ad una pluralità di molecole censite comprendenti una pluralità di atomi, in cui detta base dati contiene, per ogni molecola censita, informazioni spaziali e informazioni di elettronegatività relative agli atomi che la compongono,
- in cui detto metodo si basa su un insieme di molecole di riferimento predeterminate comprendenti una pluralità di atomi, in cui per ogni molecola di riferimento sono note informazioni spaziali e informazioni di elettronegatività relative agli atomi che la compongono ed à ̈ noto un valore di questa proprietà,
- in cui il profilo atomico di un certo atomo di una certa molecola comprende un parametro di profilo atomico e informazioni di profilo atomico, in cui il parametro di profilo atomico si determina sulla base di una formula matematica predeterminata da calcolare sulla base di informazioni spaziali e informazioni di elettronegatività relative agli atomi di detta certa molecola che si trovano in un intorno predeterminato di questo certo atomo, e in cui le informazioni di profilo atomico sono informazioni chimiche relative agli atomi di questa certa molecola che si trovano in questo intorno predeterminato
- in cui il tipo atomico di un gruppo di profili atomici simili à ̈ un profilo atomico di questo gruppo scelto in un modo predeterminato, in cui i profili atomici di questo gruppo sono considerati simili in base ad un criterio predeterminato, - in cui il metodo comprende le fasi di :
A) elaborare la base dati e individuare una pluralità di tipi atomici associati agli atomi delle molecole censite di questa base dati
B) determinare i tipi atomici degli atomi delle molecole di riferimento scegliendoli tra la pluralità di tipi atomici,
C) per i tipi atomici degli atomi delle molecole di riferimento, effettuare una regressione dei valori noti di proprietà delle molecole di riferimento, ottenendo corrispondenti valori di contributo sul valore della proprietà per questi tipi atomici.
D) determinare i tipi atomici degli atomi della molecola di interesse scegliendoli tra la pluralità di tipi atomici
E) calcolare il valore della proprietà della molecola di interesse come combinazione dei valori di contributo sul valore della proprietà dei tipi atomici degli atomi della molecola di interesse ottenuti mediante la regressione Ulteriori caratteristiche tecniche vantaggiose della presente invenzione sono esposte nelle rivendicazioni dipendenti, che sono da considerare parte integrante della presente descrizione.
ELENCO DELLE FIGURE
Le caratteristiche tecniche della presente invenzione, nonché i suoi vantaggi, risulteranno chiari dalla descrizione che segue da considerare congiuntamente ai disegni qui annessi in cui:
Fig. 1 mostra schematicamente e molto parzialmente un esempio di base dati molecolare utilizzabile per la presente invenzione,
Fig. 2 mostra schematicamente e parzialmente una "molecola di interesse†della quale si vuole determinare il valore di una proprietà attraverso gli insegnamenti della presente invenzione,
Fig. 3 mostra schematicamente e parzialmente alcune “molecole di riferimento†mediante le quali determinare il valore della proprietà della molecola di interesse di Fig. 2,
Fig. 4 mostra schematicamente e parzialmente una molecola della quale si vuole calcolare il “parametro di profilo atomico†dei suoi atomi attraverso gli insegnamenti della la presente invenzione,
Fig. 5 mostra schematicamente e parzialmente una pluralità di molecole per le quali ci si propone di raggruppare gli atomi che le compongono attraverso gli insegnamenti della presente invenzione,
Fig. 6 mostra schematicamente un possibile raggruppamento degli atomi delle molecole di Fig. 5 ottenuto attraverso gli insegnamenti della presente invenzione, e
Fig. 7 mostra schematicamente la scelta dei tipi atomici dai gruppi di profili atomici effettuata secondo gli insegnamenti della presente invenzione.
Fig. 8 mostra schematicamente un possibile raggruppamento degli atomi delle molecole utilizzate in una forma di realizzazione della presente invenzione.
Fig. 9 mostra schematicamente i valori delle proprietà di diverse molecole, in funzione del loro numero di atomi.
DESCRIZIONE DETTAGLIATA
Sia tale descrizione che tali disegni sono da considerare solo a fini illustrativi e quindi non limitativi; pertanto, la presente invenzione potrà essere implementata secondo altre e diverse forme realizzative; inoltre, si deve tenere presente che tali figure sono schematiche e semplificate.
In figura 1, à ̈ rappresentata una base dati molecolare DB contenente una pluralità di molecole censite M1DB, M2DB. In altre parole, all’interno di questa base dati DB sono collezionate una pluralità di molecole M1DB, M2DB note, e una corrispondente pluralità di informazioni relative a queste molecole. E’ facile intuire come in realtà il numero delle molecole censite in una base dati DB di questo tipo sia molto elevato, nell’ordine delle migliaia se non dei milioni di unità.
Tipicamente, queste informazioni sono relative alla struttura delle molecole e a grandezze chimiche delle stesse. In particolare, tali informazioni si riferiscono agli atomi 10DB, 20DB, 30DB, 40DB che compongono le varie molecole M1DB, M2DB. Infatti, per ciascun atomo saranno tipicamente disponibili le coordinate spaziali relative alla posizione che essi occupano nella struttura della rispettiva molecola, il valore dell'elettronegatività, il numero atomico, ecc... Come noto a un esperto del settore, il tipo di informazioni disponibili variano da base dati a base dati. In questo senso, basi dati contenenti molecole relativamente piccole di interesse farmaceutico, avranno un contenuto informativo differente da basi dati contenenti molecole di più grandi dimensione, di interesse per applicazioni biologiche.
Ad ogni modo, fra la pluralità delle informazioni disponibili, quelle di effettivo interesse ai fini della presente invenzione sono le informazioni spaziali e le informazioni di elettronegatività, disponibili nella maggior parte delle basi dati molecolari. In un esempio di realizzazione preferito, le informazioni spaziali 10DBd, 20DBd, 30DBd, 40DBd, sono le coordinate, espresse nelle tre dimensioni dello spazio, degli atomi 10DB, 20DB, 30DB e 40DB che compongono ciascuna molecola M1DB, M2DB. A seconda della base dati utilizzata, queste informazioni spaziali possono essere in una forma differente da quella precedente descritta (ad esempio essere espresse mediante coordinate polari, oppure mediante distanze relative tra gli atomi di una molecola, oppure tramite un sistema cartesiano con origine arbitraria, oppure facendo riferimento al reticolo cristallino della molecola). In questo caso sarà prevista una fase di elaborazione per “normalizzare†le informazioni così presenti ottenendo le coordinate tridimensionali dei vari atomi. Le informazioni di elettronegatività 10DBe, 20DBe, 30DBe, 40DBe sono le elettronegatività degli atomi 10DB, 20DB, 30DB e 40DB che compongono ciascuna molecola M1DB, M2DB.
Vantaggiosamente, in questo modo non si pone alcun vincolo sul tipo di base dati utilizzabile.
Come detto, le molecole censite all'interno della base dati DB sono un grande numero, nell’ordine delle migliaia se non dei milioni. Conseguentemente, i relativi atomi sono in un numero ancora maggiore rispetto ad esse. Quindi, dal punto di vista computazionale può risultare molto oneroso elaborare questa grande quantità di dati. A tal proposito, secondo un esempio di realizzazione preferito, non vengono considerati tutti gli atomi, di tutte le molecole, censiti nella base dati DB, ma un sottoinsieme di essi considerato significativo. In particolare, un sottoinsieme di atomi 10DB, 20DB, 30DB, 40DB scelti casualmente tra tutti gli atomi presenti nella base dati DB. Quanti atomi scegliere e/o come sceglierli à ̈ funzione del problema in analisi e pertanto può variare di volta in volta. Vantaggiosamente, mediante questo approccio à ̈ possibile ridurre la complessità computazionale del metodo secondo la presente invenzione, ottenendo comunque risultati affidabili. Va inoltre detto però, che secondo esempi di realizzazione diversi, tale scelta potrebbe anche essere evitata, operando quindi su tutti gli atomi censiti, o eseguita in modo diverso.
Per la pluralità di atomi 10DB, 20DB, 30DB e 40DB viene in seguito determinato il loro “profilo atomico†. Ai fini della presente invenzione, con il termine “profilo atomico†si intende di fatto un’unità informativa, rappresentata ad esempio mediante un vettore, e comprendente un “parametro di profilo atomico†e “informazioni di profilo atomico".
Il “parametro di profilo atomico†à ̈ un vettore che comprende una pluralità di grandezze numeriche determinate sulla base di una formula matematica, mentre le “informazioni di profilo atomico" sono informazioni di carattere chimico riferite all’atomo stesso e a un certo numero di atomi presente in un suo intorno. Tutto ciò risulterà maggiormente chiaro nel proseguimento della descrizione, in particolare con riferimento alla Figura 4.
In pratica, ai fini della presente invenzione gli atomi 10DB, 20DB, 30DB, 40DB della base dati DB vengono considerati mediante il rispettivo profilo atomico. In questo modo, per ogni atomo si hanno a disposizione informazioni sull’atomo stesso e informazioni derivanti dalla presenza degli altri atomi in un suo intorno spaziale, scelto arbitrariamente.
Secondo quanto illustrato nella figura 4, Ã ̈ possibile visualizzare una schematizzazione grafica relativa al calcolo del profilo atomico di un certo atomo 1a.
Attorno a un certo atomo 1 a, considerato di volta in volta come centrale, viene definito un intorno S. Tale intorno, secondo un esempio di realizzazione, corrisponde a una corteccia sferica. Con corteccia sferica si intende un volume definito tra due superfici circolari concentriche centrate sull’atomo 1a, aventi rispettivamente raggio r1 e raggio r2, in cui r1 à ̈ minore di r2. In sostanza, mediante un intorno così definito à ̈ possibile escludere uno spazio attorno all’atomo centrale, in particolare uno spazio avente volume definito dalla superficie circolare di raggio r1. Il raggio r1 à ̈ compreso in un intervallo tra 0.8 A e 1.2 A, mentre il raggio r2 à ̈ compreso in un intervallo tra 3.5 A e 15 A.
Va inoltre detto che le varie basi dati molecolari possono contenere errori nella rappresentazione degli atomi. Uno di questi può essere relativo alla distanza tra due atomi, che come noto non à ̈ mai inferiore al valore limite di circa 0.8 A.
Tuttavia, può succedere che due atomi siano rappresentati con una distanza tra loro inferiore a quella del valore limite. Ad esempio, due atomi possono essere erroneamente rappresentati a una distanza di 0.5 A.
Vantaggiosamente, questo problema viene risolto grazie allo spazio di raggio r1 che permette di superare, in fase di esecuzione del metodo, eventuali errori di rappresentazione.
Secondo un esempio di realizzazione preferito, per determinare il parametro di profilo atomico dell’atomo centrale 1a vengono individuati gli atomi periferici 11 a, 12a, 13a presenti nell'intorno S. Sia l’atomo centrale 1a che gli atomici periferici 11 a, 12a, 13a sono caratterizzati rispettivamente da informazioni spaziali 1ad, 11 ad, 12ad, 13ad (ad esempio, nello stesso formato di quelle già descritte per la base dati molecolare DB) e informazioni di elettronegatività 1ae, 11ae, 12ae, 13ae, che rappresentano le corrispondenti elettronegatività.
In seguito, il valore dell’elettronegatività dell’atomo periferico 11a viene utilizzato come valore per ottenere un dividendo. In seguito viene calcolato il quadrato della distanza tra l’atomo centrale e lo stesso atomo periferico, ottenendo così un divisore. Si calcola poi la formula matematica predeterminata effettuando il rapporto tra il divisore e il dividendo così calcolati ottenendo un primo quoziente. Quest’operazione viene in seguito ripetuta per tutti gli altri atomi periferici 12a, 13a ottenendo così rispettivi quozienti .Questa pluralità di quozienti costituiscono un vettore che rappresenta appunto il parametro di profilo atomico dell’atomo 1a. Di volta in volta, vengono considerati come centrali gli atomi periferici 11 a 12a 13a; si ottiene così la caratterizzazione di una molecola mediante i profili atomici degli atomi che la compongono. Tale caratterizzazione, ottenuta secondo la modalità descritta, à ̈ particolarmente vantaggiosa per molecole con pochi atomi (ad esempio, fino a circa 100 atomi) e di conseguenza con ridotta estensione nello spazio.
Per molecole con un numero di atomi maggiore rispetto al caso precedente, il calcolo dei profili atomici può essere effettuato nel seguente modo: si individua l'atomo centrale 1a, e gli atomi periferici 11 a, 12a, 13a presenti nell’intorno S, in seguito si calcola la differenza di elettronegatività tra l’atomo centrale 1a e un atomo periferico 11 a. Mediante questa differenza si ottiene un dividendo; successivamente viene calcolato il quadrato della distanza tra l’atomo centrale e lo stesso atomo periferico, ottenendo così un divisore. Si effettua poi il rapporto tra il divisore e il dividendo così calcolati ottenendo un primo quoziente. Quest’operazione viene in seguito ripetuta per tutti gli altri atomi periferici 12a, 13a effettuando la sommatoria dei rispettivi quozienti ottenuti. Il valore della sommatoria così ottenuta rappresenta il parametro di profilo atomico dell’atomo 1a. Ripetendo queste operazioni per gli atomi periferici 11 a, 12a, 13a considerati di volta in volta come centrali si ottengono i profili atomici della molecola di interesse.
Va inoltre detto che al valore della differenza di elettronegatività tra l’atomo centrale 1a e un atomo periferico 11a, 12a, 13a può essere aggiunta una costante correttiva. In pratica, si tratta di sommare un “offset†al valore di questa differenza nei casi in cui essa sia numericamente rappresentata come nulla, ma in realtà non sia da considerare tale (cioà ̈ quando la differenza tra l’elettronegatività dell’atomo centrale 1a e dell’atomo periferico 11 a, 12a, 13a à ̈ inferiore alla risoluzione della rappresentazione numerica disponibile).
Inoltre, la scelta di effettuare il quadrato della differenza delle distanze tra l’atomo centrale e quello periferico à ̈ particolarmente vantaggiosa per molte molecole di interesse. Non à ̈ da escludere però che in alcuni contesti applicativi tale scelta possa essere attuata in modo differente.
In seguito, oltre al parametro di profilo atomico, all’atomo centrale 1a vengono associate anche le “informazioni di profilo atomico†che, secondo un esempio di realizzazione preferito, comprendono il simbolo chimico dell’atomo centrale 1a, il simbolo chimico degli atomi periferici 11a,12a, 13a, il numero degli atomi periferici e una “chiave†per identificare univocamente il profilo atomico corrispondente all’atomo centrale 1a.
Quindi, dopo aver calcolato il profilo atomico degli atomi 10DB, 20DB, 30DB, 40DB della base dati DB, si determinano per essi i rispettivi “tipi atomici†. Secondo quanto illustrato nelle figure 5, 6 e 7 à ̈ possibile visualizzare graficamente come i “tipi atomici†vengano determinati.
In particolare, in figura 5 sono illustrate una pluralità di molecole M11, M21, M31, M41, M51 comprendenti una pluralità di atomi A11, A12, A13, A21, A22, A23 A31, A32, A33, A41 , A42, A43, A51 , A52, A53.
Con riferimento alla figura 6, à ̈ possibile notare come per questa pluralità di atomi viene determinata una corrispondente pluralità di profili atomici PA11, PA12, PA13, PA21, PA22, PA23 PA31, PA32, PA33, PA41, PA42, PA43, PA51 , PA52, PA53, secondo quanto precedentemente descritto. In seguito, questa pluralità di profili atomici viene ripartita in un certo numero di gruppi C1, C2, C3, C4, C5, in cui i profili atomici appartenenti ad uno stesso gruppo sono considerati simili in base ad un criterio predeterminato, come risulterà maggiormente chiaro nel proseguimento della descrizione.
In figura 7 à ̈ invece rappresentato graficamente come viene determinato il “tipo atomico†tra i profili atomici di figura 6 ripartiti nei vari gruppi C1 , C2, C3, C4, C5. In particolare, secondo l’esempio di figura 6, i profili atomici PA11 , , PA52 vengono ripartiti in cinque gruppi C1, C2, C3, C4 e C5.
Di fatto, il criterio predeterminato, accennato sopra, prevede che due profili atomici siano considerati simili se i rispettivi parametri di profilo atomico differiscono di una certa soglia λ (differenza valutata secondo un’opportuna funzione matematica). In pratica mediante un’opportuna funzione matematica si confrontano i due profili atomici degli atomi in esame, ognuno dei quali comprende una pluralità di informazioni relative agli atomi del rispettivo intorno, ottenendo così un profilo atomico “risultato†, ad esempio un vettore contenente i risultati delle differenze tra gli elementi dei due profili atomici in esame. In seguito, si effettua la sommatoria dei valori ottenuti nel profilo atomico “risultato†, avendo così un valore numerico di confronto tra i due atomi in esame.
Due o più profili atomici apparterranno a uno stesso gruppo C1 , C2, C3, C4, C5 se il confronto tra i rispettivi parametri di profilo atomico à ̈ un valore minore o uguale alla soglia λ. Diversamente, se tale valore à ̈ maggiore di questa soglia λ, i profili atomici apparterranno a gruppi C1, C2, C3, C4, C5 diversi.
Sempre con riferimento alla figura 6, à ̈ possibile visualizzare un esempio relativo alla ripartizione nei gruppi C1 , C2, C3, C4, C5 dei profili atomici PA11. PA54. In particolare, per ripartire i profili atomici PA11, ..., PA54 si utilizza la tecnica nota dello schema a dendrogramma. Vantaggiosamente, mediante questo approccio à ̈ possibile definire il numero di gruppi C1, C2, C3, C4, C5, e conseguentemente il livello di accuratezza del metodo, in maniera molto flessibile. Infatti, la costruzione del dendrogramma dell’esempio di figura 6 prevede un primo “ordinamento†dei profili atomici PA11, ..., PA54; per cui questi saranno disposti lungo l’asse delle ordinate in base alla similarità dei loro parametri di profilo atomico. In seguito, i profili atomici così ordinati vengono uniti mediante dei segmenti la cui lunghezza esprime la differenza dei rispettivi parametri di profilo atomico. Scegliendo il valore della soglia λ, si determinerà la massima differenza possibile tra i rispettivi parametri di profilo atomico di due profili atomici all’interno di uno stesso gruppo C1, C2, C3, C4, C5. Vantaggiosamente, la scelta del valore della soglia λ non richiede oneri computazionali elevati e ulteriori rispetto a quelli necessari per la costruzione del dendrogramma; infatti tale soglia opera su dati già “ordinati†. In questo modo, à ̈ vantaggiosamente possibile scegliere il livello di accuratezza del metodo anche in maniera iterativa, cioà ̈ mediante scelte successive di differenti valori della soglia λ, fino a che non viene trovato quello ottimale per il problema in analisi.
Secondo quanto illustrato nella figura 7, Ã ̈ possibile notare la scelta dei tipi atomici T1, T2, T3, T4, T5 tra i profili atomici PA11. PA52 ripartiti nei rispettivi gruppi C1 , C2, C3, C4, C5.
In pratica, un tipo atomico corrisponde a un profilo atomico, quindi à ̈ caratterizzato dalle stesse informazioni di quest’ultimo.
In particolare, secondo un esempio di realizzazione preferito, viene scelto un tipo atomico T1, T2, T3, T4, T5 per ogni gruppo C1, C2, C3, C4, C5. Inoltre, ogni tipo atomico viene scelto in modo casuale tra i profili atomici di ogni gruppo. Vale la pena di precisare che secondo diversi esempi di realizzazione della presente invenzione la scelta del tipo atomico può essere effettuata in modo differente, ad esempio si può scegliere in modo predeterminato e secondo un preciso criterio quale tipo atomico scegliere per ogni gruppo.
In altre parole, un tipo atomico T1, T2, T3, T4, T5 à ̈ un profilo atomico considerato significativo tra i profili atomici di uno stesso gruppo C1 , C2, C3, C4, C5; in questo modo si riduce la complessità computazionale del problema in analisi senza perdere accuratezza, ottenendo soluzioni affidabili in tempi di elaborazione molto contenuti.
Secondo un ulteriore esempio di realizzazione, la scelta dei tipi atomici T1, T2, T3, T4, T5 può avvenire in modo differente rispetto all’esempio precedentemente descritto. In particolare, per i profili atomici appartenenti a un gruppo C1, C2, C3, C4, C5 può essere previsto di calcolare la media dei rispettivi parametri di profilo atomico, e come tipo atomico scegliere un corrispondente profilo atomico avente parametro di profilo atomico con scarto minimo dalla media precedentemente calcolata.
Quindi, con riferimento nuovamente alla base dati DB di figura 1 , à ̈ possibile intuire come sia vantaggioso elaborare gli atomi in essa censiti. In questo modo, infatti à ̈ possibile disporre di un grande numero di atomi per i quali determinare i rispettivi profili atomici e in seguito i tipi atomici. In altre parole, si può “costruire†una statistica basandosi sugli atomi censiti all'interno della base dati DB in cui il livello di dettaglio (cioà ̈ il numero di: profili atomici, gruppi in cui vengono ripartiti e tipi atomici che vengono determinati) viene scelto in funzione delle risorse di calcolo disponibili e dell’accuratezza nei risultati che si vuole ottenere.
Con riferimento alla figura 2 e alla figura 3 à ̈ possibile descrivere le ulteriori fasi del metodo secondo la presente invenzione mediante le quali determinare il valore di una proprietà di una molecola M1 di interesse. Vale la pena di precisare che con il termine molecola di interesse M1 si intende una molecola per la quale sono disponibili alcune informazioni (ad esempio la sua struttura, gli atomi che la compongono, i legami tra questi atomi, ...) e per la quale à ̈ d’interesse conoscere il valore di una certa proprietà. In particolare, le informazioni per gli atomi 10, 20, 30 della molecola M1 che sono disponibili (o alle quali ci si può ricondurre) sono informazioni spaziali 10d, 20d, 30d e informazioni di elettronegatività 10e, 20e, 30e.
La proprietà della quale si vuol conoscere il valore, può appartenere al gruppo dei parametri “statici†(ad esempio una solubilità) oppure a quello parametri “dinamici†(ad esempio un coefficiente di trasporto).
In figura 3 sono rappresentate una pluralità di molecole M2, M3, M4 “di riferimento†, cioà ̈ molecole che costituiscono un “training set†, delle quali si conosce il valore della proprietà di interesse. In altre parole, sono le molecole utilizzate per determinare il valore della proprietà della molecola M1.
Queste molecole comprendono una pluralità di atomi 210, 220, 310, 320, 410, 420 per i quali sono disponibili, come nel caso della molecola M1, informazioni spaziali 210d, 220d, 310d, 320d, 410d, 420d e informazioni di elettronegatività 210e, 220e, 31 Oe, 320e, 41 Oe, 420e
Secondo un esempio di realizzazione preferito, e come per il caso degli atomi della base dati molecolare DB, le informazioni spaziali della pluralità di atomi 10, 20, 30; 210, 220, 310, 320, 410, 420 della molecola M1 di interesse e delle molecole M2, M3, M4 di riferimento sono le coordinate spaziali espresse nelle tre dimensioni dello spazio.
Quindi, si determina il profilo atomico degli atomi della molecola di interesse M1 e delle molecole M2, M3, M4 di riferimento secondo le modalità precedentemente descritte.
In seguito, il metodo secondo la presente invenzione prevede che vengano effettuati i seguenti passi:
i - determinare i tipi atomici T1, T2, T3, T4, T5 degli atomi 210, 220, 310, 320, 410, 420 delle molecole M2, M3, M4 di riferimento, scegliendo questi tipi atomici tra la pluralità di tipi atomici determinati per gli atomi delle molecole censite nella base dati DB,
ii - per i tipi atomici T1, T2, T3, T4, T5 degli atomi 210, 220, 310, 320, 410, 420 delle molecole M2, M3, M4 di riferimento così determinati, effettuare una regressione dei valori noti della proprietà di queste molecole M2, M3, M4 di riferimento. Si ottengono così corrispondenti valori di contributo sul valore della proprietà per i tipi atomici degli atomi delle molecole di riferimento,
iii - determinare i tipi atomici T1, T2, T3, T4, T5 degli atomi 10, 20, 30 della molecola M1 di interesse, scegliendo questi tipi atomici tra la pluralità di tipi atomici determinati per gli atomi delle molecole censite nella base dati DB.
iv - calcolare il valore della proprietà della molecola M1 di interesse come combinazione dei valori di contributo sul valore della proprietà dei tipi atomici degli atomi 10, 20, 30 della molecola M1 ottenuti mediante la regressione precedentemente effettuata.
In sostanza, ai passi i, iii à ̈ previsto di determinare i profili atomici degli atomi 10, 20, 30 della molecola di interesse M1 e degli atomi 210, 220, 310, 320, 410, 420 delle molecole M2, M3, M4 di riferimento secondo la modalità precedentemente descritta. In seguito, come già detto, ad ogni profilo atomico viene associato un tipo atomico selezionandolo tra la pluralità di tipi atomici precedentemente determinati per gli atomi 10DB, 20DB, 30DB, 40DB delle molecole M1DB, M2DB censite nella base dati DB. Quest’ultima operazione può avvenire secondo diverse modalità. In particolare, secondo un esempio di realizzazione preferito, per un determinato profilo atomico delle molecole M1, M2, M3, M4 si individua un corrispondente profilo atomico, considerato "simile" (ad esempio con differenza del parametro di profilo atomico minima), relativo agli atomi censiti nella base dati DB. In seguito, si considera in quale gruppo C1, C2, C3, C4, C5 il profilo atomico “simile†dell’atomo censito à ̈ stato ripartito, ottenendo quindi il corrispondente tipo atomico associato.
Concettualmente, al passo ii, per ogni molecola M2, M3, M4 si vuole legare il valore noto della proprietà ai rispettivi tipi atomici. Quindi, per ogni molecola M2, M3, M4 viene effettuata una regressione dei valori noti della proprietà in funzione dei tipi atomici. In pratica, si otterrà un sistema di equazioni di regressione, di tante equazioni quante sono le molecole M2, M3, M4 di riferimento. La soluzione di questo sistema di equazioni permette di ottenere dei contributi sul valore della proprietà per i rispettivi tipi atomici delle molecole di riferimento M2, M3, M4.
In seguito, come indicato al passo iv, viene determinato il valore della proprietà della molecola M1 di interesse.
In particolare, ai tipi atomici determinati per la molecola M1 si associano rispettivi contributi sul valore della proprietà, ricavando questi ultimi dalla regressione effettuata per le molecole di riferimento M2, M3, M4.
Quindi, per la molecola M1 di interesse si conoscono i tipi atomici T1, T2, T3, T4, T5 che la caratterizzano, e i rispettivi contributi sul valore della proprietà di questi. Pertanto, il valore della proprietà della molecola M1 viene determinato come combinazione dei contributi sul valore della proprietà dei suoi tipi atomici; naturalmente vi à ̈ un legame logico tra il tipo di regressione usata e il tipo di combinazione usata.
Secondo un esempio di realizzazione preferito, sia la regressione che la combinazione precedentemente descritte sono lineari. Non sono tuttavia da escludere altre tipologie, tutte rientranti nell’ambito della presente invenzione. Si riportano di seguito l’esempio 1 e l’esempio 2 relativi rispettivamente alla determinazione dei tipi atomici degli atomi di alcune proteine, e alla predizione del valore di solubilità per una molecola di interesse.
ESEMPIO 1
Eseguendo il metodo secondo la presente invenzione, in primo luogo à ̈ stata effettuata l'analisi dell'intero database PDB (reperibile allo Uniform Resource Locator http://www.rcsb.org/pdb/home/home.do), estraendo da esso, in maniera casuale, 20000 proteine censite per ottenere i profili atomici di 10000 atomi.
La modalità in cui uno specifico profilo atomico viene codificato à ̈ riportato nella Tabella 1 riassuntiva:
Campo Valore Profile ID 18
PDB file 2jfz
aSymb C
nNN 11
distanceNN 3.19268; 2.83175; 2.94331 ; 2.41214; 1.32351;
2.47738; 1.23045; 1.5243; 2.41722; 3.05891 ;
3.02813
dElectrN 0.442451 ; 0.512546; 0.577163; 0.859337;
2.57468; 0.814674; 2.71466 2.15193;
0.771869; 0.439246; 0.545283
symboINN N; O; C; C; N; C; O; C; N; O; C
Tabella 1
I campi riportati in Tabella 1 hanno il seguente significato:
Profile ID: identifica il profilo atomico con un numero progressivo da 1 a 10000; PDB file: identifica il codice della struttura all'interno del database PDB cui appartiene l'atomo in esame e per il quale si calcola il profilo atomico;
aSvmb: rappresenta il simbolo chimico dell'atomo in esame (atomo centrale); nNN: indica il numero di atomi periferici presenti nell’intorno che circonda l'atomo in esame (atomo centrale);
distanceNN: rappresenta il vettore delle distanze tra gli atomi periferici e l'atomo in esame (atomo centrale);
dEelectrN: rappresenta il vettore delle differenze di elettronegatività fra gli atomi periferici e l'atomo in esame (atomo centrale) divise per il quadrato della distanze (distanceNN);
symboINN: rappresenta il vettore contenente i simboli chimici degli atomi periferici. Nel caso specifico, si à ̈ calcolato il diciottesimo profilo atomico, relativo ad un atomo di Carbonio C (che rappresenta l’atomo centrale), presente all'interno del database molecolare con identificativo PDB = 2jfz, con 11 atomi periferici (ossia contenuti nel volume di una corteccia sferica definito mediante due superfici circolari concentriche centrate sull’atomo centrale di Carbonio, di raggio minore r1 = 0.8 A e di raggio maggiore r2 = 3.5 A), che sono rispettivamente un atomo di: N, O, C, C, N, C, O, C, N, O, C, che si trovano rispettivamente alle distanze di 3.19268, 2.83175, 2.94331 , 2.41214, 1.32351, 2.47738, 1.23045, 1.5243, 2.41722, 3.05891, 3.02813 (distanze misurate in angstrom), rispetto all'atomo centrale di C; con differenza di elettronegatività, divisa per il quadrato delle rispettive distanze, pari a: 0.442451; 0.512546; 0.577163; 0.859337; 2.57468; 0.814674; 2.71466; 2.15193; 0.771869; 0.439246; 0.545283.
Nell’esempio presente i vettori delle distanze vengono ordinati in maniera crescente per ottimizzare l’esecuzione dell’algoritmo. Si noti che in seguito al riordino del vettore delle distanze (distanceNN) secondo valori crescenti si ottiene: distanceNN = 1.23045; 1.32351; 1.5243; 2.41214; 2.41722; 2.47738; 2.83175; 2.94331; 3.02813; 3.05891; 3.19268.
dElectrN = 2.71466; 2.57468; 2.15193; 0.859337; 0.771869; 0.814674; 0.512546; 0.577163; 0.545283; 0.439246; 0.442451.
symboINN = O; N; C; C; N; C; O; C; C; O; N.
Per l'atomo centrale in oggetto, il parametro di profilo atomico à ̈ costituito dalla somma dei valori contenuti nel vettore “dElectrN†.
Ogni profilo atomico deve essere univocamente identificato, nell’esempio presente si utilizza la seguente convenzione:
[Simbolo atomico centrale] _[Simboli degli atomi periferici] [Numero progressivo da 1 al massimo numero di profili calcolati]
Nel caso in oggetto si ha quindi il seguente notazione: C_NOCCNCOCNOC_18. I 10 000 profili atomici vengono utilizzati per effettuare 10 000*(10 000-1 )/2 = 49’ 995ÎŒ00 confronti dei rispettivi parametri di profilo atomico (nel seguito il confronto tra parametri di profilo atomico à ̈ indicato anche come indice di similarità). E’ da notare come l'indice di similarità fra l’atomo a e l’atomo b à ̈ identico a quello fra l’atomo b ed l’atomo a (infatti nel calcolo del numero di confronti da effettuare il valore à ̈ diviso per 2). Inoltre, l'indice di similarità fra due stessi profili atomici e' sempre nullo.
II dendrogramma di figura 6 rappresenta in maniera grafica la distanza fra tutte le coppie possibili dei profili atomici, e consente quindi di raggruppare i profili atomici sulla base di quanto siano vicini i rispettivi parametri di profilo atomico.
E’ da notare come il dendrogramma rappresentato in figura 6 sia una vista parziale del possibile intero dendrogramma che si ottiene per l’esempio in oggetto.
Inoltre, esso rappresenta semplicemente una modalità più immediata per rappresentare la matrice di tutti gli indici di similarità e per poter quindi estrarre informazioni utili.
Esso viene costruito nel seguente modo:
1. si posizionano tutti i profili col loro codice sull'asse verticale,
2. per ogni profilo (ad esempio PA11, il primo in alto in Figura 6), si traccia una linea che lo collega direttamente (ad esempio PA33) o indirettamente (ad esempio PA12) ad un qualunque secondo profilo;
3. la lunghezza del ramo che collega due qualsiasi profili viene posta uguale al valore dell'indice di similarità (cioà ̈ alla differenza dei rispettivi parametri di profilo atomico) fra di essi e riportata sull'asse orizzontale.
Ad esempio, con riferimento alla Figura 6, l'indice di similarità fra PA11 e PA33 vale circa 0.25; fra PA11 e PA12 vale circa 5.
Sempre in riferimento a Figura 6, a questo punto e' sufficiente scegliere un valore di soglia λ, ad esempio λ = 2.5. In questo modo, à ̈ possibile raggruppare tutti i profili atomici in gruppi all'interno dei quali l'indice di similarità atomico fra due qualsiasi profili atomici sia inferiore o uguale al valore della soglia λ. Pertanto, ogni gruppo C1, C2, C3, C4, C5 rappresenta un insieme relativamente omogeneo di profili atomico, e si “elegge†un suo elemento rappresentante: in altre parole si determina il tipo atomico
Con una soglia di λ = 2.5, vengono identificati nel dendrogramma cinque gruppi distinti C1, C2, C3, C4, C5 per ognuno dei quali viene determinato un tipo atomico.
I tipi atomici così ritrovati, distinguono in particolare tutte le caratteristiche chimiche del legame peptidico delle proteine analizzate. In particolare, si sono in tal modo catturate automaticamente, senza l'aiuto di alcun operatore o di informazioni inserite a priori, le caratteristiche degli atomi di Carbonio nei loro differenti stati di ibridazione ( sp<2>ed sp<3>), ma anche gli atomi di N del backbone e di O legati al C del backbone. Con una soglia di similarità superiore, ad esempio λ = 5, avremmo avuto solo 3 gruppi, e quindi 3 tipi atomici, che non avrebbe consentito di discriminare fra gli stati di ibridazione del Carbonio. Pertanto l'accuratezza ottenibile con questa ultima rappresentazione sarà in generale meno accurata di quanto ottenibile con i 5 tipi atomici di prima.
ESEMPIO 2
In questo secondo esempio à ̈ riportata l'applicazione del metodo secondo la presente invenzione per valutare la solubilità di una molecola di interesse, in particolare una molecola di Naproxene.
Come molecole di riferimento, cioà ̈ molecole che costituiscono il “training set†, per le quali il valore della proprietà di interesse à ̈ noto sono state scelte 10 molecole, riportate in tabella 2.
1 Atropina 2 Benzocaina 3 Caffeina 4 Cocaina 5 Codeina
ln(S) -2,12 -2,32 -0,88 - 2,25 -1,52
N° atomi 44 23 120 43 43
6 Desametasone 7 Fenbufene 8 Fluconazolo 9 Ibuprofene 10 Licodeina
ln(S) -3,59 -5,3 -1,8 -3,76 -1,71
N° atomi 114 66 34 33 78
Tabella 2
La riga ln(S) rappresenta il valore del logaritmo naturale della solubilità, mentre la riga N° atomi costituisce il numero di atomi di ogni molecola riportata in tabella. Ai fini del presente esempio, la scelta di rappresentare la solubilità delle molecole mediante il logaritmo naturale deriva dal fatto che essa dipende in modo esponenziale da alcuni parametri caratteristici delle stesse, quali, ad esempio, la tensione superficiale, la superficie molecolare molare e la temperatura.
Ai fini del presente esempio, la base dati molecolare coincide con il “training set†riportato in tabella 2, pertanto essa ricomprende le medesime molecole.
Come già anticipato, la molecola di interesse à ̈ quella di Naproxene, avente 69 atomi e logaritmo naturale della solubilità sperimentale pari a ln(S) = - 4,2. Quest’ultimo rappresenta il valore di riferimento con cui confrontare i risultati ottenuti mediante l’applicazione del metodo secondo la presente invenzione. E’ da notare come questo valore atteso di solubilità sia posizionato in corrispondenza di un estremo dell’intervallo di distribuzione dei valori delle solubilità delle 10 molecole del “training set†. Questo permette di stabilire ancora meglio la bontà del metodo secondo la presente invenzione, infatti una semplice interpolazione dei valori noti non ricondurrebbe a un valore atteso della proprietà con un errore accettabile rispetto al valore di riferimento.
Si calcolano quindi i profili atomici degli atomi di ogni molecola delle 10 che compongono la base dati molecolare, cioà ̈ 598 profili atomici totali, che comprendono i vari profili atomici delle rispettive molecole della base dati.
La modesta quantità di dati da elaborare nel caso del presente esempio non porta ad avere un onore computazionale elevato. Pertanto à ̈ possibile calcolare il profilo atomico di un atomo considerato centrale individuando come atomi periferici tutti gli atomi della molecola stessa. In altre parole, il raggio maggiore della superficie sferica che definisce l'intorno (S) corrisponde alla dimensione nello spazio della molecola. In seguito vengono calcolati gli indici di similarità tra i profili atomici così ottenuti, vale a dire che vengono effettuati (598*(598-1 ))/2 = 178503 confronti, che nel dettaglio, sono delle sottrazioni. L’espressione per il calcolo del numero di confronti à ̈ divisa per due dato che due profili atomici diversi vengono confrontati una sola volta (il confronto tra il profilo atomico a e il profilo atomico b comprende anche quello tra il profilo atomico b e il profilo atomico a). Dopo avere calcolato i profili atomici e gli indici di similarità della base dati molecolare, si determinano i tipi atomici della stessa. Per far questo si costruisce il dendrogramma dei profili atomici, utilizzando gli indici di similarità calcolati nel modo descritto in precedenza. Nel presente esempio vengono determinati dieci profili atomici, valore numericamente ottimale per risolvere il sistema di dieci equazioni determinato dalla cardinalità dell'insieme delle molecole di riferimento.
In figura 8 sono rappresentati i 10 tipi atomici determinati mediante la costruzione di un dendrogramma. La soglia λ = 5.47 permette di ottenere questo numero di tipi atomici.
La tabella 3 mostra il numero di atomi considerati simili, cioà ̈ gli atomi che compongono un tipo atomico, al variare del numero di tipi atomici (2, 4, 6, 8, 10) scelti per rappresentare le molecole del “training set†.
Qualora si considerasse un solo tipo atomico per molecola, la formula per la stima della solubilità di una generica molecola sarebbe pari a ln(S)<≈>-0,0323365 * NA; dove NA indica il numero di atomi di quella molecola. In tal senso, la figura 9 mostra l’andamento della distribuzione delle solubilità in funzione degli atomi di una molecola. Si può notare come tale andamento sia piuttosto sparso, pertanto non identificabile globalmente in modo univico in base alle variabili del problema in analisi. Utilizzando la formula riportata in precedenza, si ottiene un valore stimato della solubilità della molecola di Naproxene pari a ln(S) = - 2,23. Come già accennato, il valore di riferimento con cui confrontare quest'ultimo à ̈ pari a - 4,2. Nel seguito verrà illustrato che aumentando il numero dei tipi atomici il valore stimato tende a convergere al valore di riferimento.
1 2 3 4 5 6 7 8 9 10 Tipo Numero Numero Numero Numero Numero Numero Numero Numero Numero Numero N° tipi
atomico atomi atomi atomi atomi atomi atomi atomi atomi atomi atomi atomici
(TA) per TA per TA per TA per TA per TA perTA per TA per TA per TA per TA 2 AT1 20 12 54 24 14 51 27 10 8 39 AT2 24 11 66 19 29 63 39 24 25 39 Atomi
44 23 120 43 43 114 66 34 33 78 totali
N° tipi
atomici
4 AT1 5 6 54 4 11 11 21 3 7 6 AT2 2 2 25 8 3 20 16 1 2 7 AT3 6 5 41 1 4 19 14 4 6 7 AT4 31 10 0 30 25 64 15 26 18 58 Atomi
44 23 120 43 43 114 66 34 33 78 totali
N° tipi
atomici
6 AT1 5 3 46 2 9 6 13 3 6 3 AT2 0 2 16 5 1 12 4 1 3 6 AT3 2 2 24 5 2 10 6 1 2 5 AT4 4 2 32 1 2 12 8 2 2 5 AT5 5 5 2 12 6 28 26 4 7 16 AT6 28 g 0 18 23 46 9 23 13 43 Atomi
44 23 120 43 43 114 66 34 33 78 totali
N° tipi
atomici
8 AT1 0 2 12 4 2 2 7 0 0 2 AT2 1 1 20 0 0 1 2 0 0 0 AT3 4 3 30 2 9 6 7 3 6 3
AT4 0 1 14 4 1 12 3 1 3 6
AT5 2 1 17 5 2 10 6 1 2 5
AT6 4 1 25 1 1 10 8 2 2 5
AT7 5 5 2 10 5 27 25 4 7 15
AT8 28 9 0 17 23 46 8 23 13 42
Atomi
44 23 120 43 43 114 66 34 33 78
totali
10 AT1 0 2 9 1 0 1 5 0 0 0
AT2 0 1 17 0 0 1 2 0 0 0
AT3 3 2 26 0 6 5 5 3 4 2
AT4 2 0 25 6 5 11 9 4 4 5
AT5 0 1 5 3 1 10 2 0 2 4
AT6 2 1 17 2 1 7 5 0 1 2
AT7 3 1 19 1 1 8 4 2 1 3
AT8 5 4 2 10 5 21 19 4 5 13
AT9 7 5 0 7 8 14 10 0 7 11
AT10 22 6 0 13 16 36 5 21 9 38
Atomi
44 23 120 43 43 114 66 34 33 78
totali
1 Atropina
2 Benzocaina
3 Caffeina
4 Cocaina
5 Codeina
6 Desametasone
7 Fenbufene
8 Fluconazolo
9 Ibuprofene
10 licodeina
Tabella 3
In seguito, per applicare il metodo secondo la presente invenzione, à ̈ necessario legare il valore noto della proprietà delle molecole del “training set†ai rispettivi tipi atomici. Si determinano quindi i pesi di ciascun tipo atomico sul valore di solubilità della molecola a cui essi appartengono. Nel presente esempio, quest’operazione viene effettuata risolvendo un sistema di equazioni di regressione caratterizzato da 10 equazioni (cioà ̈ un’equazione per ogni molecola del “training set†) in 10 incognite (cioà ̈ il numero di tipi atomici).
Successivamente per i 69 atomi della molecola di interesse di Naproxene vengono determinati i rispettivi tipi atomici scegliendoli, per ogni atomo, tra i dieci delle molecole del “training set".
Quindi, effettuando una combinazione dei valori dei pesi precedentemente calcolati con i tipi atomici della molecola di interesse di Naproxene, si determina il valore della solubilità di quest’ultima.
La Tabella 4 riporta diversi valori di solubilità della molecola di Naproxene ottenuti in funzione di un diverso numero di tipi atomici utilizzati per l’applicazione del metodo secondo la presente invenzione, in particolare il metodo à ̈ stato applicato nel caso di 10, 8, 6 e 4 tipi atomici. La tabella mostra inoltre il numero di atomi rappresentati con ciascun tipo atomico. Per il caso di un solo tipo atomico à ̈ stata utilizzata la formula approssimata descritta in precedenza. L’errore riportato in tabella à ̈ relativo alla differenza tra il valore di riferimento (cioà ̈ - 4,2 ) e il valore di volta in volta calcolato con il numero di tipi atomici scelti per farlo. E’ interessante notare come l’errore diminuisca all’aumentare del numero di tipi atomici scelti per rappresentare la molecola di interesse di Naproxene.
N° N° N° N° N° N° N° N° N° N° N° N" N° N†Valore Errore TA atomi atomi atomi atomi atomi atomi atomi atomi atomi atomi atomi atomi atomi predetto TA 1 TA 2 TA 3 TA 4 TA 5 TA 6 TA 7 TA 8 TA 9 TA 10 TA 11 TA 12 TA 13 ln(s)
10 5 2 5 13 5 6 4 12 8 g -s.ig -o.gg
8 7 2 8 g 8 4 17 14 -3.04 1.16
6 11 10 12 4 18 14 -2.06 1.24
4 18 16 14 21 -2.60 1.51
1 -2.23 i.g7
Tabella 4

Claims (2)

  1. RIVENDICAZIONI 1. Metodo per determinare un valore di una proprietà di una molecola (M1) di interesse comprendente una pluralità di atomi (10DB, 20DB, 30DB, 40DB), - in cui detto metodo si basa su una base dati (DB) relativa ad una pluralità di molecole (M1DB, MD2B) censite comprendenti una pluralità di atomi (10DB, 20DB, 30DB, 40DB), in cui detta base dati (DB) contiene per ogni molecola censita (MDB1, MDB2) informazioni spaziali (10DBd, 20DBd, 30DBd, 40DBd) e informazioni di elettronegatività (10DBe, 20DBe, 30DBe, 40DBe) relative agli atomi (10DB, 20DB, 30DB, 40DB) che la compongono, - in cui detto metodo si basa su un insieme di molecole (M2, M3, M4) di riferimento predeterminate comprendenti una pluralità di atomi (210, 220, 310, 320, 410, 420), in cui per ogni molecola (M2, M3, M4) di riferimento sono note informazioni spaziali (21 Od, 220d, 31 Od, 320d, 41 Od, 420d) e informazioni di elettronegatività (21 Oe, 220e, 31 Oe, 320e, 410e, 420e) relative agli atomi che la compongono ed à ̈ noto un valore di detta proprietà, - in cui il profilo atomico di un certo atomo (1a) di una certa molecola (MC) comprende un parametro di profilo atomico e informazioni di profilo atomico, in cui detto parametro di profilo atomico si determina sulla base di una formula matematica predeterminata da calcolare sulla base di informazioni spaziali (1ad, 11 ad, 12ad, 13ad) e informazioni di elettronegatività (1ae, 11ae, 12ae, 13ae) relative agli atomi (1a, 11 a, 12a, 13a) di detta certa molecola (MC) che si trovano in un intorno (S) predeterminato di detto certo atomo (1a), e in cui dette informazioni di profilo atomico sono informazioni chimiche relative agli atomi (1a, 11 a, 12a, 13a) di detta certa molecola (MC) che si trovano in detto intorno (S) predeterminato - in cui il tipo atomico (T1, T2, T3, T4, T5) di un gruppo (C1, C2, C3, C4, C5) di profili atomici simili à ̈ un profilo atomico di detto gruppo (C1, C2, C3, C4, C5) scelto in un modo predeterminato, in cui i profili atomici di detto gruppo sono considerati simili in base ad un criterio predeterminato, - in cui il metodo comprende le fasi di : A) elaborare detta base dati (DB) e individuare una pluralità di tipi atomici (T1, T2, T3, T4, T5) associati agli atomi (10DB, 20DB, 30DB, 40DB) di dette molecole (MDB1, MDB2) censite di detta base dati (DB), B) determinare i tipi atomici (T1, T2, T3, T4, T5) degli atomi (210, 220, 310, 320, 410, 420) di dette molecole (M2, M3, M4) di riferimento scegliendoli tra detta pluralità di tipi atomici (T1, T2, T3, T4, T5), C) per i tipi atomici (T1 , T2, T3, T4, T5) degli atomi (210, 220, 310, 320, 410, 420) di dette molecole (M2, M3, M4) di riferimento, effettuare una regressione di detti valori noti di detta proprietà di dette molecole (M2, M3, M4) di riferimento ottenendo corrispondenti valori di contributo sul valore di detta proprietà per detti tipi atomici (T1, T2, T3, T4, T5). D) determinare i tipi atomici (T1, T2, T3, T4, T5) degli atomi (10, 20, 30) di detta molecola (M1) di interesse scegliendoli tra detta pluralità di tipi atomici (T1, T2, T3, T4, T5) E) calcolare detto valore di detta proprietà di detta molecola (M1) di interesse come combinazione dei valori di contributo sul valore di detta proprietà dei tipi atomici (T1, T2, T3, T4, T5) degli atomi (10, 20, 30) di detta molecola (M1) ottenuti mediante detta regressione. 2. Metodo secondo la rivendicazione 1, in cui dette informazioni spaziali (10DBd, 20DBd, 30DBd, 10d, 20d, 30d, 210d, 220d, 310d, 320d, 410d, 420d, 1ad, 11ad, 12ad, 13ad) comprendono le coordinate spaziali tridimensionali di detta pluralità di atomi. 3. Metodo secondo la rivendicazione 1 oppure 2, in cui dette informazioni chimiche relative agli atomi (1a, 11 a, 12a, 13a) di detta certa molecola (MC) comprendono il simbolo chimico di detti atomi (1a, 11 a, 12a, 13a) e il numero di atomi (1a, 11 a, 12a, 13a) che si trovano in detto intorno (S) predeterminato. 4. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detto parametro di profilo atomico à ̈ un vettore comprendente una pluralità di elementi e in cui detta formula matematica predeterminata prevede che venga effettuata una corrispondente pluralità di rapporti tra: - valori dipendenti dalle differenze di elettronegatività tra detto certo atomo (1a) e detti atomi (11 a, 12a, 13a) che si trovano in detto intorno (S) di detto certo atomo (1a) e - valori dipendenti dalle distanze tra detto certo atomo (1a) e detti atomi (1 1 a, 12a, 13a) che si trovano in detto intorno (S) di detto certo atomo (1a) 5. Metodo secondo una qualsiasi delle rivendicazioni da 1 a 3, in cui detto parametro di profilo atomico à ̈ un vettore comprendente una pluralità di elementi e in cui detta formula matematica predeterminata prevede che venga effettuata una corrispondente pluralità di rapporti tra - valori dipendenti dalle elettronegatività di detti atomi (1 1 a, 12a, 13a) che si trovano in detto intorno (S) di detto certo atomo (1a) e - valori dipendenti dalle distanze tra detto certo atomo (1a) e detti atomi (1 1 a, 12a, 13a) che si trovano in detto intorno (S) di detto certo atomo (1a) 6. Metodo secondo la rivendicazione 4 oppure 5, in cui detti valori dipendenti dalle differenze di elettronegatività o dalle elettronegatività corrispondono ai valori delle differenze di elettronegatività o delle elettronegatività ai quali viene aggiunta una costante correttiva. 7. Metodo secondo la rivendicazione 4 oppure 5 oppure 6, in cui detti valori dipendenti dalle distanze corrispondono al quadrato delle distanze tra detto certo atomo (1a) e detti atomi (11 a, 12a, 13a) che si trovano in detto intorno (S) di detto certo atomo (1a). 8. Metodo secondo una qualsiasi delle rivendicazioni precedenti in cui dette distanze tra detto certo atomo (1a) e detti atomi (11 a, 12a, 13a) in detto intorno (S) sono calcolate sulla base di dette informazioni spaziali (1ad, 11 ad, 12ad, 13ad). 9. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detto intorno predeterminato à ̈ uno spazio (S) centrato su detto certo atomo (1a) che esclude una zona centrale. 10. Metodo secondo la rivendicazione 8, in cui detto spazio (S) à ̈ una corteccia di forma predeterminata, in particolare sferica avente: - un raggio minore (r1 ) compreso nell'intervallo fra 0.8 ed 1 .
  2. 2 Angstrom - un raggio maggiore (r2) compreso nell'intervallo fra 3.5 e 15 Angstrom 11. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detto criterio predeterminato prevede che venga effettuata la differenza di due parametri di profilo atomico di due distinti profili atomici. 12. Metodo secondo la rivendicazione 11, in cui detta differenza genera un vettore comprendente una pluralità di elementi, ed in cui detto criterio predeterminato prevede che la combinazione, in particolare la somma, di detti elementi di detto vettore sia inferiore ad un valore di soglia. 13. Metodo secondo una qualsiasi delle rivendicazioni precedenti da 1 a 12, in cui secondo detto modo predeterminato, detto profilo atomico viene scelto in modo casuale tra i profili atomici appartenenti a un gruppo (C1, C2, C3, C4, C5). 14. Metodo secondo una qualsiasi delle rivendicazioni precedenti da 1 a 12, in cui secondo detto modo predeterminato, detto profilo atomico viene scelto in base al valor medio dei parametri di profilo atomico dei profili atomici appartenenti a un gruppo (C1, C2, C3, C4, C5). 15. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detta regressione à ̈ tale che il regredendo, costituito dal valore di detta proprietà di dette molecole (M2, M3, M4) di riferimento, risulta combinazione dei regressori, costituiti da valori di contributo dei tipi atomici (T1, T2, T3, T4, T5) di dette molecole di riferimento (M2, M3, M4) sul valore della proprietà di dette molecole di riferimento (M2, M3, M4). 16. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detta regressione di detta fase C à ̈ una regressione lineare. 17. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detta combinazione di detta fase E à ̈ una combinazione lineare.
IT001457A 2012-08-30 2012-08-30 Metodo per determinare valori di proprieta' molecolari ITMI20121457A1 (it)

Priority Applications (2)

Application Number Priority Date Filing Date Title
IT001457A ITMI20121457A1 (it) 2012-08-30 2012-08-30 Metodo per determinare valori di proprieta' molecolari
PCT/IB2013/058144 WO2014033670A2 (en) 2012-08-30 2013-08-30 Method for determining values of molecular properties

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT001457A ITMI20121457A1 (it) 2012-08-30 2012-08-30 Metodo per determinare valori di proprieta' molecolari

Publications (1)

Publication Number Publication Date
ITMI20121457A1 true ITMI20121457A1 (it) 2014-03-01

Family

ID=47046681

Family Applications (1)

Application Number Title Priority Date Filing Date
IT001457A ITMI20121457A1 (it) 2012-08-30 2012-08-30 Metodo per determinare valori di proprieta' molecolari

Country Status (2)

Country Link
IT (1) ITMI20121457A1 (it)
WO (1) WO2014033670A2 (it)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462832B (zh) * 2020-04-03 2022-04-12 湖南大学 一种无参数局域结构识别方法
US11862295B1 (en) * 2022-11-08 2024-01-02 United Arab Emirates University Method of classifying conformers

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARTURO S. G. ET AL: "Structural and electrostatic properties of atoms and functional groups using AIM theory: Saturated organics with one electronegative atom", JOURNAL OF MOLECULAR STRUCTURE (THEOCHEM), ELSEVIER SCIENCE PUBLISHERS B.V., AMSTERDAM, NL, vol. 770, no. 1-3, 29 September 2006 (2006-09-29), pages 31 - 44, XP027892966, ISSN: 0166-1280, [retrieved on 20060929] *
BERGMANN D. ET AL: "Electronegativity and Molecular Properties", ANGEWANDTE CHEMIE INTERNATIONAL EDITION IN ENGLISH, vol. 35, no. 2, 2 February 1996 (1996-02-02), pages 150 - 163, XP055067934, ISSN: 0570-0833, DOI: 10.1002/anie.199601501 *
WANG R. ET AL: "Calculating partition coefficient by atom-additive method", PERSPECTIVES IN DRUG DISCOVERY AND DESIGN, vol. 19, no. 1, 1 January 2000 (2000-01-01), pages 47 - 66, XP055068819, ISSN: 0928-2866, DOI: 10.1023/A:1008763405023 *

Also Published As

Publication number Publication date
WO2014033670A3 (en) 2014-05-30
WO2014033670A2 (en) 2014-03-06

Similar Documents

Publication Publication Date Title
Kun et al. Inversion model of water distribution systems for nodal demand calibration
CN111624147A (zh) 岩心的相对渗透率测定方法及装置
CN106293677A (zh) 一种代码转换方法及装置
Comas-Cardona et al. An optically-based inverse method to measure in-plane permeability fields of fibrous reinforcements
CN105241912A (zh) 低场核磁共振测量页岩有机质含量的方法及装置
Jooybari et al. A new appoach for rock typing used in one of the Iranian carbonate reservoir (a case study)
JP2015512520A (ja) Nmrスペクトルから物質を同定するための方法
ITMI20121457A1 (it) Metodo per determinare valori di proprieta&#39; molecolari
Hashemi et al. An inclusive consistency check procedure for quality control methods of the black oil laboratory data
CN114137015B (zh) 孔隙度校正方法及装置
Zhang et al. A regularization method for the reconstruction of adsorption isotherms in liquid chromatography
Katicha et al. Estimating “true” variability of traffic speed deflectometer deflection slope measurements
Deng et al. A modified contact angle measurement process to suppress oil drop spreading and improve precision
Zhao et al. Liquid imbibition in ceramic-coated carbon nanotube films
WO2018060523A3 (en) Computer device for detecting an optimal candidate compound and methods thereof
Ren et al. Comparison of capillary pressure-saturation models for gas-water systems in shale gas reservoirs
CN116342541B (zh) 一种基于相邻图像孔隙融合重构的岩土体渗透率计算方法
Reis et al. Pore-scale analysis of condensate blockage mitigation by wettability alteration
Simon et al. Mode shape expansion for lively pedestrian bridges through kriging
Standnes Estimation of imbibition capillary pressure curves from spontaneous imbibition data
WO2013169137A1 (en) Method and apparatus for analyzing a drill core sample
Hou et al. A simple, fast, and accurate thermodynamic‐based approach for transfer and prediction of GC retention times between columns and instruments Part II: Estimation of target column geometry
CN114756826A (zh) 气井产能预测方法、装置、电子设备和存储介质
Eitelberger et al. Multiscale homogenization of wood transport properties: diffusion coefficients for steady-state moisture transport
Büyüköztürk et al. Model-assisted non-destructive monitoring of reinforcement corrosion in concrete structures