FR2844357A1 - Procede de determination de molecules branchees a partir de donnees de masse - Google Patents
Procede de determination de molecules branchees a partir de donnees de masse Download PDFInfo
- Publication number
- FR2844357A1 FR2844357A1 FR0211195A FR0211195A FR2844357A1 FR 2844357 A1 FR2844357 A1 FR 2844357A1 FR 0211195 A FR0211195 A FR 0211195A FR 0211195 A FR0211195 A FR 0211195A FR 2844357 A1 FR2844357 A1 FR 2844357A1
- Authority
- FR
- France
- Prior art keywords
- mass
- solution
- sequence
- sequences
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 239000012634 fragment Substances 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 39
- 239000000203 mixture Substances 0.000 claims abstract description 34
- 150000002772 monosaccharides Chemical class 0.000 claims abstract description 24
- 229920001542 oligosaccharide Polymers 0.000 claims abstract description 7
- 150000002482 oligosaccharides Chemical class 0.000 claims abstract description 7
- 238000004949 mass spectrometry Methods 0.000 claims abstract description 4
- 125000001424 substituent group Chemical group 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims abstract description 3
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 4
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 4
- 238000010422 painting Methods 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 20
- 150000002402 hexoses Chemical class 0.000 description 11
- SHZGCJCMOBCMKK-UHFFFAOYSA-N D-mannomethylose Natural products CC1OC(O)C(O)C(O)C1O SHZGCJCMOBCMKK-UHFFFAOYSA-N 0.000 description 8
- PNNNRSAQSRJVSB-SLPGGIOYSA-N Fucose Natural products C[C@H](O)[C@@H](O)[C@H](O)[C@H](O)C=O PNNNRSAQSRJVSB-SLPGGIOYSA-N 0.000 description 8
- SHZGCJCMOBCMKK-DHVFOXMCSA-N L-fucopyranose Chemical compound C[C@@H]1OC(O)[C@@H](O)[C@H](O)[C@@H]1O SHZGCJCMOBCMKK-DHVFOXMCSA-N 0.000 description 8
- 238000000354 decomposition reaction Methods 0.000 description 7
- TWCMVXMQHSVIOJ-UHFFFAOYSA-N Aglycone of yadanzioside D Natural products COC(=O)C12OCC34C(CC5C(=CC(O)C(O)C5(C)C3C(O)C1O)C)OC(=O)C(OC(=O)C)C24 TWCMVXMQHSVIOJ-UHFFFAOYSA-N 0.000 description 6
- PLMKQQMDOMTZGG-UHFFFAOYSA-N Astrantiagenin E-methylester Natural products CC12CCC(O)C(C)(CO)C1CCC1(C)C2CC=C2C3CC(C)(C)CCC3(C(=O)OC)CCC21C PLMKQQMDOMTZGG-UHFFFAOYSA-N 0.000 description 6
- PFOARMALXZGCHY-UHFFFAOYSA-N homoegonol Natural products C1=C(OC)C(OC)=CC=C1C1=CC2=CC(CCCO)=CC(OC)=C2O1 PFOARMALXZGCHY-UHFFFAOYSA-N 0.000 description 6
- 238000001819 mass spectrum Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
Abstract
Procédé de détermination d'une structure moléculaire branchée à partir de données de masses de fragments de ladite molécule, caractérisé en ce qu'il comprend les étapes suivantes :a) une étape d'enregistrement dans une mémoire de la liste des éléments de base pouvant constituer ladite molécule branchée ;b) une étape de stockage en mémoire des solutions à une équation mettant en jeu les éléments de base, leur masse, leur nombre et une des masses données, ceci pour toutes les masses ;c) une étape de constitution de séquences d'éléments de base à partir desdites solutions, chaque séquence incluant une solution pour une masse dite minimale et la séquence complète étant solution pour une masse dite maximale ; d) une étape de regroupement des séquences par composition ;e) une étape de stockage des arbres possibles pour une composition d'éléments de base en fonction des séquences de cette composition déterminées à l'étape c) ;f) pour chaque arbre de l'étape e), une étape de calcul de l'ensemble des fragments possibles de l'arbre ;g) pour chaque fragment de l'étape f), une étape de test permettant de savoir si le fragment correspond à une des masses données.
Description
PROC D DE D TERMINATION DE MOL CULES BRANCH ES PARTIR DE DONN ES DE
MASSE
La présente invention se rapporte au domaine de l'étude de molécules et de détermination de leur composition et de leur structure. En particulier, la présente invention se rapporte à la détermination automatique de structures moléculaires branchées en 10 utilisant des données de masse. Une application de la présente invention est la détermination de la structure d'oligosaccharides à partir de données de masse fournies
par un spectromètre de masse.
Dans ce domaine, la technique habituellement 15 utilisée est une étude manuelle des données fournies par le
spectromètre de masse confrontées à une expertise humaine.
Cette étude est très coteuse en temps.
Des solutions ont donc été proposées pour réaliser de manière automatique l'étude des données de 20 masse, mais les outils développés ne permettent pour le
moment que de déterminer les structures linéaires.
Le problème technique que la présente invention entend résoudre est la détermination d'une structure moléculaire branchée à partir d'un spectre de masse ou 25 d'autres données de masse, ceci de manière entièrement automatique sans intervention de l'homme. Les résultats de la détermination étant destinés à des experts, ceux-ci pourront infirmer ou confirmer les résultats donnés automatiquement. La présente invention propose donc de déterminer
automatiquement la structure branchée la plus probable pour une molécule, les structures linéaires étant incluses dans l'ensemble des structures branchées. Pour cela, la présente invention réalise un certain nombre d'opérations sur 35 l'ensemble des masses fourni et délivre un résultat.
L'expertise humaine peut être requise pour orienter le processus ou valider la solution proposée par le procédé mais cette intervention n'est que ponctuelle et brève.
Ainsi, le temps d'intervention de l'expert est limité aux 5 seules questions nécessitant réellement une compétence scientifique.
Pour ce faire, la présente invention est du type décrit ci-dessus et elle est remarquable dans son 10 acceptation la plus large, en ce qu'elle concerne un procédé de détermination d'une structure moléculaire branchée à partir de données de masses de fragments de ladite molécule, comprenant les étapes suivantes: a) une étape d'enregistrement dans une mémoire 15 de la liste des éléments de base pouvant constituer ladite molécule branchée; b)une étape de stockage en mémoire des solutions à une équation mettant en jeu les éléments de base, leur masse, leur nombre et 20 une des masses données, ceci pour toutes les masses; c) une étape de constitution de séquences d'éléments de base à partir desdites solutions, chaque séquence incluant une 25 solution pour une masse dite minimale et la séquence complète étant solution pour une masse dite maximale; d) une étape de regroupement des séquences par composition; e) une étape de stockage des arbres possibles pour une composition d'éléments de base en fonction des séquences de cette composition déterminées à l'étape c); f) pour chaque arbre de l'étape e), une étape de calcul de l'ensemble des fragments possibles de l'arbre; g) pour chaque fragment de l'étape f), une étape 5 de test permettant de savoir si le fragment correspond à une des masses données; Avantageusement, l'étape b) est réalisée de manière incrémentale depuis la plus petite masse vers la plus grande masse, la solution pour une masse est cherchée 10 en utilisant les solutions trouvées pour les masses inférieures et les données correspondant aux dites
solutions sont stockées dans un tableau.
De préférence, l'étape c) consiste à définir le N-ème élément de base de la séquence en comparant la 15 solution N pour la masse avec la solution N-1 à partir de laquelle la solution N a été trouvée et à écrire dans un
fichier un identifiant dudit N-ème élément de base.
Selon un mode de réalisation préféré, l'étape e) consiste à - associer à chaque élément de base d'une séquence une donnée de type " noeud " comportant un identifiant de l'élément de base et au moins une référence à un autre noeud; - à la N-éme étape, pour chaque arbre de l'étape N-1, pour chaque noeud comportant une référence libre, créer un noeud contenant le composant N de la séquence et affecter ladite référence libre audit noeud créé. 30 Avantageusement, l'étape f) consiste à générer une liste de séquences d'éléments de base o chaque séquence inclut ladite solution pour une masse minimale, les éléments du fragment correspondant à ladite séquence étant ordonnés par ajout de " noeud " en " noeud " à partir
de ladite solution pour une masse minimale.
De préférence, l'étape g) est composée de deux étapes - une étape de comparaison de la séquence correspondant audit fragment avec les séquences de ladite composition résultant un premier booléen VRAI ou FAUX; - Si ledit premier booléen est FAUX, une étape de 10 comparaison de la composition de ladite séquence avec les compositions des sous-séquences de même longueur incluant la solution minimale desdites séquences solutions pour une masse maximale
résultant un deuxième booléen VRAI ou FAUX.
Selon un autre mode de réalisation, le procédé comprend une étape supplémentaire de choix de l'arbre (des arbres) le(s) plus pertinent(s) en fonction des résultats de l'étape g) en associant à chacun des arbres générés à l'étape e) un compteur mis à zéro au début du procédé et 20 incrémenté d'un si lesdits deux booléens sont FAUX et en choisissant l'arbre (ou les arbres) dont le(s) compteur(s)
est (sont) le(s) plus faible(s).
La présente invention se rapporte également à une utilisation du procédé de détermination d'une structure 25 moléculaire branchée décrit dans les paragraphes précédents caractérisée en ce que la structure recherchée est un oligosaccharide, les données de masse sont obtenues par spectrométrie de masse et les éléments de base sont des
monosaccharides ou des groupements substituants.
On comprendra mieux la présente invention à
l'aide de la description, faite ci-après à titre purement explicatif, d'un mode de réalisation de l'invention, en
référence aux figures annexées:
- La figure 1 représente un spectre arbitraire 35 de masse simulant un spectre expérimental.
- La figure 2 illustre la première partie du déroulement d'un mode de réalisation de l'invention.
- La figure 3 illustre la deuxième partie du 5 déroulement d'un mode de réalisation de l'invention. Le procédé selon l'invention comporte 5 étapes précédées d'une étape préliminaire réalisée indépendamment 10 du procédé: L'étape préliminaire consiste à obtenir un
ensemble de masses correspondant à des fragments de la molécule à déterminer. Cet ensemble de masses est appelé 15 " spectre expérimental ".
La première étape consiste à enregistrer l'ensemble des molécules simples susceptibles de composer la molécule à déterminer. 20 La deuxième étape consiste à déterminer l'ensemble des chemins allant d'une structure racine à une structure finale o la structure racine correspond à une valeur dite " minimale " de l'ensemble des masses et la 25 structure finale correspond à une valeur dite " maximale "
de l'ensemble des masses. L'ensemble de ces chemins passe par des structures intermédiaires, c'est-à-dire incluant la structure racine et incluses dans la structure finale, et correspondant à des valeurs de masses comprises entre la 30 valeur minimale et la valeur maximale.
La troisième étape consiste à générer des
séquences de molécules simples obtenues à partir desdits chemins et de regrouper les séquences ayant les mêmes 35 nombres de chaque molécule simple en " composition ".
La quatrième étape consiste à déterminer pour chaque composition, l'ensemble des arbres possibles. De préférence, chaque arbre doit pouvoir être constitué à partir de n'importe quelle séquence de la décomposition. La cinquième étape consiste à calculer pour chaque arbre le " spectre " théorique de l'arbre en déterminant de tous les fragments possibles de l'arbre 10 contenant la racine et à comparer le spectre théorique avec
le spectre expérimental.
Le résultat de la comparaison permet de déterminer quel est l'arbre le plus probable. 15 Le procédé selon l'invention peut être utilisé pour déterminer de manière automatique la composition d'oligosaccharides. Pour la détermination d'un oligosaccharide, il comporte plusieurs étapes 20 Une étape préliminaire est destinée à obtenir un ensemble de masses (appelé " spectre ") obtenu par spectrométrie de masse de la molécule à déterminer. Les masses de cet ensemble comprennent les masses de fragments 25 de la molécule, de produits de recomposition entre les
composants de la molécule ou de fragments substitués.
Une première étape consiste à enregistrer dans
une mémoire la liste des monosaccharides connus ainsi que 30 leur masse.
Une deuxième étape consiste à parcourir l'ensemble des masses déterminées par spectrométrie. Pour une première masse, le procédé cherche à résoudre 35 l'équation suivante, appelée équation Y: masse totale mesurée = (Somme des masses des composants - pertes de liaisons) + (aglycone - perte liaison aglycone-root)* + masse ION + agent réducteur (*) ssi aglycone X o Cette équation se traduit par = M err Y= (ai * mi) - [(Y (ai) - 1) * H20] + (aglycone H20) +ION + reduction (*): ssi aglycone É 0 o: M = masse expérimentale mesurée dans le spectromètre de masse err = erreur de mesure du spectromètre mi = masse (monoisotopique) du composant i ai =nombre de composants i apparaissant dans la solution (ai est un entier) H20 = masse d'une molécule d'EAU aglycone = masse de l'aglycone en cas d'aminoréduction ION = masse de l'ion reduction = incrément de masse d aux conditions de réduction Selon le procédé, l'ensemble des masses déterminées est parcouru dans l'ordre des masses 25 croissantes et pour chaque masse, on cherche un ou plusieurs monosaccharides résolvant l'équation Y. La plus petite masse pour laquelle l'équation Y a une solution est appelée masse minimale et la solution à l'équation Y pour la masse minimale est appelée " racine ". La racine peut 30 être composée d'un ou de plusieurs monosaccharides. Cette racine est le premier élément d'un ensemble de chemins: l'ensemble des chemins est un tableau et chaque ligne du
tableau constitue une étape d'un chemin.
Par la suite, on continue le parcours des masses
par ordre croissant en essayant de résoudre l'équation Y avec des structures de monosaccharides incluant la racine.
Chaque structure solution est ajoutée audit tableau. De 5 manière étendue, chaque structure solution de l'équation Y pour une des masses mesurées inclut une structure préalablement enregistrée dans le tableau. Ainsi, un système d'héritage est mis en place à partie de la racine: chaque structure solution, exceptée la racine, a une 10 " mère " parmi les autres structures solutions.
Dans ce tableau, chaque ligne correspond à une
structure de monosaccharide et donne la quantité de chaque monosaccharide (supérieur ou égal à 0) dans la structure ainsi que le numéro de la ligne de la structure " mère " de 15 la structure courante.
La recherche d'une solution de l'équation Y pour une masse dite courante consiste donc à ajouter au moins un monosaccharide à une structure solution de l'équation Y pour une masse inférieure à la masse courante. Pour cela, 20 ledit tableau est parcouru et pour chaque ligne (i.e. chaque structure), une solution incluant la structure correspondante à ladite ligne est cherchée. Afin de réduire le temps de calcul, certaines lignes ne sont pas traitées: les structures solutions de l'équation Y pour une masse 25 inférieure d'une certaine quantité à la masse courante ne sont pas inclues dans la recherche. Cette quantité est choisie arbitrairement par l'utilisateur. Dans un mode de réalisation du procédé, cette quantité était égale à deux
fois la masse du monosaccharide le plus lourd (NeuGC).
Ainsi, soit une structure solution S1 de l'équation Y pour une masse de raies rl, s'il n'existe aucun monosaccharide ou assemblage de monosaccharides, qui, agrégé à ladite solution Si est solution de l'équation Y pour toutes les masses expérimentales comprises entre rn et 35 r2=rl+2*Masse(NeuGC), alors la solution Sl n'a pas de fils
et n'est plus prise en compte pour les recherches des solutions de l'équation Y pour des masses supérieures à r2.
Dans l'exemple de la figure 1, la première raie
correspond à une masse de 300,4 Daltons.
rl = 300,4 Da M(NeuGC) = 327,1165 Da 2*M(NeuGC) = 654,233 Da rl + 2*M(NeuGC) = 954,633 Da r2 = 500,30 Da < 954,633 Da r3 = 665,50 Da < 954, 633 Da r4 = 811,56 Da < 954,633 Da r5 = 827,80 Da < 954,633 Da r6 = 973, 86 Da > 954,633 Da 15 Ainsi pour les raies 2 à 5, on cherchera à
combiner la solution pour la raie 1 avec une ou plusieurs molécules de base. En revanche, pour la raie 6, on ne cherchera pas à combiner la solution pour la raie 1 avec 20 une ou plusieurs molécules de base.
La masse maximale pour laquelle Y a une solution
est appelée " masse maximale ". Seuls les chemins aboutissant à une structure solution de l'équation Y pour 25 la masse maximale sont considérés comme valables.
Une troisième étape intervient une fois l'ensemble des structures solutions déterminées les structures solutions de l'équation Y pour la masse maximale 30 sont traitées. En effet, seules ces structures sont
susceptibles de correspondre à la molécule recherchée car elles couvrent tout le spectre de la raie minimale (racine) à la raie maximale pour laquelle elles sont solutions.
L'étude de l'héritage des structures sélectionnées permet 35 d'identifier la séquence des monosaccharides, c'est-à-dire l'ordre dans lequel ils ont été ajoutés à la racine. On obtient ainsi un ensemble de séquences que l'on stocke dans
une mémoire.
Certaines de ces séquences ont la même composition, c'est-à-dire la même quantité de chaque monosaccharide ou de chaque groupement substituant. Ces séquences de même composition sont regroupées en une seule
" composition " de l'équation Y pour la masse maximale.
Pour chaque " composition ", une quatrième étape consiste à déterminer les arbres possibles. Pour cela, l'utilisateur détermine pour une première séquence de ladite composition les arbres possibles: - chaque élément de la séquence (un monosaccharide) est associé à un " noeud " qui comprend trois liens vers trois autres " noeuds " et un identifiant de l'élément. Ces liens sont appelés gauche, droite et milieu; - ainsi, le premier élément de la séquence (la 20 racine) est associé à un premier noeud; pour le deuxième élément de la séquence, on crée trois ensembles de noeuds: chaque ensemble contient deux noeuds dont le premier correspond à la racine et le second audit deuxième élément, 25 les deux noeuds étant respectivement liés par le lien gauche, le lien droite et le lien milieu pour les premier, deuxième et troisième ensembles. Ces ensembles de noeuds sont appelés des " arbres " et l'ensemble (2) des arbres 30 contient les arbres comprenant le deuxième élément; - Ainsi de suite, pour le n-ième élément, l'ensemble (n) des arbres est composé d'arbres créés à partir des arbres de l'ensemble (n-1), 35 chaque nouvel arbre correspondant à un arbre de il l'ensemble (n-1) ajouté d'un noeud correspondant
au n-ième élément sur un des liens libres.
- Pour réduire le temps de calcul de l'ensemble des arbres final, on supprime au fur et à mesure 5 les arbres redondants: par exemple, les trois
arbres composés de deux molécules de fucose o la deuxième molécule est située respectivement sur les liens droite, gauche et milieu, sont équivalents. Ainsi, un certain nombre d'arbres 10 sont éliminés.
Ensuite, les arbres restants sont comparés aux autres séquences de la même composition: un arbre est conservé si toutes les séquences de la même composition peuvent être réalisées avec cet arbre. 15 Le choix de trois liaisons possibles à partir d'un noeud a été pris en référence à la valence 4 de l'atome de carbone sur lequel se fixe en général l'élément de base suivant. Pour une composition, il reste donc un ensemble d'arbres " compatibles " avec toutes les séquences de la composition. Afin de déterminer quel est l'arbre le plus probable de manière automatique, le procédé propose dans une cinquième étape de comparer le spectre théorique de chaque arbre restant avec le spectre expérimental mesuré par le spectromètre de masse. Pour cela, le procédé compte 30 le nombre de raies du spectre théorique qui n'ont pas pu être utilisées par le procédé. Une raie du spectre théorique d'un arbre correspond à la masse d'un fragment de l'arbre. Le calcul du spectre théorique d'un arbre revient donc à calculer les masses des sous-arbres inclus dans 35 l'arbre et contenant la racine. Le nombre de masses de sous-arbres n'existant pas dans l'ensemble des masses expérimentales détermine la probabilité d'occurrence de
l'arbre en question.
La méthode employée de préférence par le procédé 5 permet de réduire le temps de calcul: pour un arbre, le calcul de la liste des fragments se fait de la manière suivante - un opérateur " multiplication d'une liste par un élément " est créé qui, à partir d'une liste 10 d'éléments, crée une nouvelle liste o chaque élément est le résultat de la concaténation de l'élément nouveau avec un élément de la liste d'entrée. - un opérateur " produit de deux listes " résulte 15 du premier: c'est l'application de l'opérateur " multiplication d'une liste par un élément " sur tous les items de la liste 1 avec la liste 2. Ainsi, la liste des fragments produite à un noeud 20 quelconque est égale au produit des listes issues de ses fils, qui est ensuite multiplié par l'élément du noeud; une masse nulle est ajoutée enfin en tête de liste; l'introduction de la masse nulle implémente le fait que la branche peut-être absente; cette masse nulle se propage 25 dans le parcours récursif et permet d'avoir la liste complète en un seul parcours; la liste produite par une
feuille est donc une liste de deux éléments: [0, elt].
Une fois la liste des fragments de l'arbre 30 obtenue, le procédé détermine le nombre de fragments théoriques trouvés ne correspondant à aucune des masses expérimentales fournies. Afin d'éviter de recalculer la masse théorique pour chaque fragment, le procédé propose de comparer les fragments théoriques déterminés avec les 35 décompositions d'une " séquence ". En effet, la liste de fragments construite est composée de fragments présentés sous forme de suite de monosaccharides. Pour un fragment, si ladite suite de monosaccharides est présente dans une des décompositions de la " séquence ", alors il existe une 5 raie du spectre correspondant à cette suite de monosaccharides. Donc le fragment théorique correspondant est présent dans le spectre expérimental. De plus, il peut arriver que la suite de monosaccharides représentant un fragment ne soit pas ordonnée de façon à ce qu'elle soit 10 reconnue comme valable. Pour résoudre ce genre de cas, le
procédé réalise une comparaison des compositions de la suite de monosaccharides, sans ordre, avec la partie de même taille des décompositions. Si les deux compositions sont identiques, le fragment correspond à une raie du 15 spectre expérimental.
Les fragments dont la composition ne se retrouve pas parmi les décompositions sont appelées des " raies manquantes " du spectre théorique de l'arbre. Le nombre de raies manquantes détermine la pertinence de l'arbre. 20 L'arbre ayant le moins de raies manquantes définit la structure la plus probable pour la molécule. Si plusieurs arbres ont le même nombre minimal de raies manquantes, il est nécessaire de recourir à une expertise humaine qui
saura déterminer quel est l'arbre le plus probable.
En particulier, cette expertise s'appuie sur l'équilibre naturel des molécules. Une extension du procédé de l'invention peut prendre en compte cet équilibre pour déterminer l'arbre le plus probable, en comptant par exemple le nombre de monosaccharides sur chaque sous-arbre 30 d'un noeud comportant plusieurs sous-arbres ainsi que le
type des monosaccharides.
Un exemple de réalisation de ce procédé est
décrit ci-dessous en se référant aux dessins.
Le spectromètre de masse fournit les données représentées sur la figure 1, o chaque pic (ou raie) correspond à la masse d'un fragment de la molécule. On considère que l'oligosaccharide cherché est composé de 5 HexNAC (masse: 221,0899 Da), d'Hexose (masse: 180,0364 Da) et de Fucose (masse: 164,0684 Da). La résolution de l'équation Y donne le tableau suivant: No ligne HexNAC Hexose Fucose Ligne NO raie " mère " 1 1 o o - 1
2 2 0 0 1 2
3 2 0 1 2 3
4 2 1 0 2 4
2 1 1 3 5
6 2 1 1 4 5
Il y a deux solutions pour la raie maximale: en remontant le chemin menant de la racine (raie 1) à la raie maximale, on obtient deux séquences: HexNAC-HexNAC-Fucose-Hexose (séquence 1) HexNAC-HexNAC-Hexose- Fucose (séquence 2) Ces deux séquences ou décompositions ont la même composition, elles sont donc regroupées dans une seule solution. On cherche maintenant les arbres possibles pour la séquence 2. La construction des arbres est illustrée 20 figure 2. Une première étape consiste à créer un arbre contenant un premier " HexNAC ". la deuxième étape consiste à ajouter un deuxième HexNAC audit premier HexNAC. Le deuxième HexNAC peut être accroché au premier par le lien " gauche ", le lien " milieu " ou le lien " droit ". Dans 25 la pratique, comme ces trois arbres sont équivalents, un seul arbre est construit, avec le deuxième hexNAC accroché sur le lien " gauche ". D'une manière générale, un nouveau
monosaccharide sera toujours accroché sur le lien libre le plus à gauche du noeud précédent et un seul arbre sera construit quel que soit le nombre de liens libres du noeud.
La troisième étape consiste à ajouter un Hexose à l'arbre 5 construit à l'étape 2: pour cela, il y a deux possibilités non équivalentes: accrocher l'Hexose au premier hexNAC; - accrocher l'Hexose au deuxième hexNAC;
Ainsi deux arbres sont construits.
La quatrième étape consiste enfin à ajouter le Fucose aux arbres construits à l'étape 3. Les six possibilités (trois par arbre) sont détaillées sur la figure 2. Il est à noter que la molécule HexNAC qui se situait sur le lien gauche du premier HexNAC du premier arbre de l'étape 3 est maintenant 15 située sur le lien milieu pour l'arbre N05 de l'étape 4. En
effet, sur un noeud, les sous-arbres sont triés de gauche à droite par ordre de poids décroissant. Comme l'association d'un Hexose et d'un Fucose est plus lourde qu'HexNAC, l'ordre est inversé par rapport aux autres arbres 20 possibles, o ce cas ne se présente pas.
Une fois les arbres construits pour la séquence 2, le procédé selon l'invention vérifie que les arbres construits sont compatibles avec la séquence 1. Pour cela, le procédé teste s'il est possible de reconstruire les 25 arbres de l'étape 4 avec la séquence 1. Deux arbres sont
éliminés (les arbres NO5 et 6) car il est impossible de construire ces arbres sans placer l'Hexose avant le Fucose.
Sur les 4 arbres restants, le procédé selon l'invention cherche à déterminer le spectre théorique afin 30 de le comparer avec le spectre expérimental. Les fragments
sont déterminés selon la méthode décrite ci-dessus utilisant les opérateurs " multiplication d'une liste par un élément " et " produit de deux listes ". Chaque fragment déterminé est décrit sous forme d'une séquence stockée dans 35 une mémoire. Cette méthode est illustrée figure 3.
Par exemple, pour le premier arbre, le procédé crée trois listes, chaque liste correspondant à un des " fils " du noeud racine: - (HexNAC, 0);
- (Hexose, 0); - (Fucose, 0).
On applique l'opérateur " produit de deux listes " aux deux premières listes, ce qui donne: 10 (HexNAC-Hexose, HexNAC, Hexose, 0) que l'on multiplie par la troisième liste, soit: (HexNAC-Hexose-Fucose, HexNACHexose, HexNACFucose, HexNAC, Hexose-Fucose, Hexose, Fucose, 0) 15 On applique l'opérateur " multiplication d'une liste par un élément " à la liste précédente avec l'élément " HexNAC ", ce qui donne: (HexNAC-HexNACHexose-Fucose, HexNAC-HexNAC20 Hexose, HexNAC-HexNAC-Fucose, HexNACHexNAC, HexNAC-HexoseFucose, HexNAC-Hexose, HexNAC-Fucose, HexNAC) Cette liste est la liste des fragments pour le premier arbre. Chaque élément de cette liste correspond à une raie du spectre théorique de l'arbre concerné. Pour 25 vérifier que les raies théoriques existent dans le spectre expérimental, il suffit de vérifier que le fragment correspondant est inclus dans une des " séquences " de la " décomposition ". Ces séquences étaient: HexNAC-HexNAC-Fucose-Hexose (séquence 1) 30 HexNACHexNAC-Hexose-Fucose (séquence 2) Ainsi, en numérotant les fragments de la liste de 1 à 8, on constate que les fragments 1, 2, 3, 4 et 8 sont inclus dans une des séquences, alors que les fragments 5, 6 et 7 ne le sont pas. La deuxième vérification consiste 35 à regarder la composition des fragments non-valables avec la composition des fragments de même longueur, contenant la racine des " séquences ". Dans ce cas, les trois fragments, sont également rejetés. Ainsi, le nombre de raies manquantes de cet arbre est de 3. Les mêmes étapes sont 5 réalisées pour les autres arbres. L'arbre qui a le plus petit nombre de raies manquantes est la plus probable, en
l'occurrence ici, le quatrième.
L'invention est décrite dans ce qui précède à titre d'exemple. Il est entendu que l'homme du métier est à même de réaliser différentes variantes de l'invention sans pour autant sortir du cadre du brevet
Claims (8)
1. Procédé de détermination d'une structure 5 moléculaire branchée à partir de données de masses de fragments de ladite molécule, caractérisé en ce qu'il comprend les étapes suivantes: a) une étape d'enregistrement dans une mémoire de la liste des éléments de base pouvant 10 constituer ladite molécule branchée; b)une étape de stockage en mémoire des solutions à une équation mettant en jeu les éléments de base, leur masse, leur nombre et une des masses données, ceci pour toutes les 15 masses; c) une étape de constitution de séquences d'éléments de base à partir desdites solutions, chaque séquence incluant une solution pour une masse dite minimale et la 20 séquence complète étant solution pour une masse dite maximale; d) une étape de regroupement des séquences par composition; e) une étape de stockage des arbres possibles 25 pour une composition d'éléments de base en fonction des séquences de cette composition déterminées à l'étape c); f) pour chaque arbre de l'étape e), une étape de calcul de l'ensemble des fragments possibles 30 de l'arbre;
g) pour chaque fragment de l'étape f), une étape de test permettant de savoir si le fragment correspond à une des masses données.
2. Procédé de détermination d'une structure moléculaire branchée selon la revendication 1, caractérisé en ce que l'étape b) est réalisée de manière incrémentale depuis la plus petite masse vers la plus grande masse, que 5 la solution pour une masse est cherchée en utilisant les solutions trouvées pour les masses inférieures et que les données correspondant aux dites solutions sont stockées dans
un tableau.
3. Procédé de détermination d'une structure 10 moléculaire branchée selon l'une des revendications
précédentes, caractérisé en ce que l'étape c) consiste à définir le N-ème élément de base de la séquence en comparant la solution N pour la masse en cours de traitement avec la solution N-1 à partir de laquelle la solution N a été 15 trouvée et à écrire dans un fichier un identifiant dudit Nème élément de base.
4. Procédé de détermination d'une structure
moléculaire branchée selon l'une des revendications
précédentes, caractérisé en ce que l'étape e) consiste à: - associer à chaque élément de base d'une séquence une donnée de type " noeud " comportant un identifiant de l'élément de base et au moins une référence à un autre noeud; - à la N-éme étape, pour chaque arbre de l'étape N-1, pour chaque noeud comportant une référence libre, créer un noeud contenant le composant N de la séquence et affecter ladite référence libre audit noeud créé; 30
5. Procédé de détermination d'une structure
moléculaire branchée selon l'une des revendications précédentes, caractérisé en ce que l'étape f) consiste à générer une liste de séquences d'éléments de base o chaque séquence inclut ladite solution pour une masse minimale, les 35 éléments du fragment correspondant à ladite séquence étant
ordonnés par ajout de " noeud " en " noeud " à partir de
ladite solution pour une masse minimale.
6. Procédé de détermination d'une structure
moléculaire branchée selon l'une des revendications 5 précédentes, caractérisé en ce que l'étape g) est composé de deux étapes:
- Une étape de comparaison de la séquence correspondant audit fragment avec les séquences de ladite composition résultant un premier 10 booléen VRAI ou FAUX; - Si ledit premier booléen est FAUX, une étape de comparaison de la composition de ladite séquence avec les compositions des sous-séquences de même longueur incluant la solution minimale desdites 15 séquences solutions pour une masse maximale
résultant un deuxième booléen VRAI ou FAUX.
7. Procédé de détermination d'une structure moléculaire branchée selon la revendication 6, caractérisé en ce qu'il comprend une étape supplémentaire de choix de 20 l'arbre (des arbres) le(s) plus pertinent(s) en fonction des
résultats de l'étape g) en associant à chacun des arbres générés à l'étape e) un compteur mis à zéro au début du procédé et incrémenté d'un si lesdits deux booléens sont FAUX et en choisissant l'arbre (ou les arbres) dont le(s) 25 compteur(s) est (sont) le(s) plus faible(s).
8. Utilisation du procédé de détermination d'un
structure moléculaire branchée selon l'une des revendications précédentes, caractérisée en ce que la structure recherchée est un oligosaccharide, les données de 30 masse sont obtenues par spectrométrie de masse et les
éléments de base sont des monosaccharides ou des groupements substituants.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0211195A FR2844357A1 (fr) | 2002-09-10 | 2002-09-10 | Procede de determination de molecules branchees a partir de donnees de masse |
AU2003278288A AU2003278288A1 (en) | 2002-09-10 | 2003-09-09 | Method of determining branched molecules from mass data |
PCT/FR2003/002676 WO2004024654A2 (fr) | 2002-09-10 | 2003-09-09 | Procede de determination de molecules branchees a partir de donnees de masse |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0211195A FR2844357A1 (fr) | 2002-09-10 | 2002-09-10 | Procede de determination de molecules branchees a partir de donnees de masse |
Publications (1)
Publication Number | Publication Date |
---|---|
FR2844357A1 true FR2844357A1 (fr) | 2004-03-12 |
Family
ID=31725972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0211195A Withdrawn FR2844357A1 (fr) | 2002-09-10 | 2002-09-10 | Procede de determination de molecules branchees a partir de donnees de masse |
Country Status (3)
Country | Link |
---|---|
AU (1) | AU2003278288A1 (fr) |
FR (1) | FR2844357A1 (fr) |
WO (1) | WO2004024654A2 (fr) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4884564A (en) * | 1988-07-25 | 1989-12-05 | Undersea Industries, Inc. | Snorkel |
WO2004108742A1 (fr) * | 2003-06-11 | 2004-12-16 | Proteome Systems Intellectual Property Pty Ltd | Technique d'identification de structures de glycane au moyen e donnees de spectrometrie de masse |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005031343A1 (fr) * | 2003-10-01 | 2005-04-07 | Proteome Systems Intellectual Property Pty Ltd | Procede permettant de determiner la vraisemblance biologique de compositions ou structures candidates |
WO2009154964A2 (fr) * | 2008-05-30 | 2009-12-23 | Glycome Technologies Inc. | Procédés d'analyse structurelle des glycanes |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995025281A1 (fr) * | 1994-03-14 | 1995-09-21 | University Of Washington | Identification de nucleotides, d'acides amines ou d'hydrates de carbone au moyen de la spectrometrie de masse |
WO2002014872A2 (fr) * | 2000-08-14 | 2002-02-21 | Vlaams Interuniversitair Instituut Voor Biotechnologie Vzw | Procede et appareil de preparation de donnees de sequences |
-
2002
- 2002-09-10 FR FR0211195A patent/FR2844357A1/fr not_active Withdrawn
-
2003
- 2003-09-09 WO PCT/FR2003/002676 patent/WO2004024654A2/fr active Application Filing
- 2003-09-09 AU AU2003278288A patent/AU2003278288A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995025281A1 (fr) * | 1994-03-14 | 1995-09-21 | University Of Washington | Identification de nucleotides, d'acides amines ou d'hydrates de carbone au moyen de la spectrometrie de masse |
WO2002014872A2 (fr) * | 2000-08-14 | 2002-02-21 | Vlaams Interuniversitair Instituut Voor Biotechnologie Vzw | Procede et appareil de preparation de donnees de sequences |
Non-Patent Citations (3)
Title |
---|
BUCHANAN B G ET AL: "Dendral and Meta-Dendral: their applications dimension", ARTIFICIAL INTELLIGENCE, NORTH-HOLLAND PUBLISHING COMPANY, vol. 11, 1978, pages 5 - 24, XP008021166 * |
CARHART R E ET AL: "Applications of artificial intelligence for chemical inference. XVII. An approach to computer-assisted elucidation of molecular structure", JOURNAL OF THE AMERICAN CHEMICAL SOCIETY, UNITED STATES, vol. 97, no. 20, October 1975 (1975-10-01), pages 5755 - 5762, XP002252956 * |
GAUCHER S P ET AL: "STAT: a saccharide topology analysis tool used in combination with tandem mass spectrometry", ANALYTICAL CHEMISTRY, AMERICAN CHEMICAL SOCIETY, UNITED STATES, vol. 72, no. 11, June 2000 (2000-06-01), pages 2331 - 2336, XP002252955 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4884564A (en) * | 1988-07-25 | 1989-12-05 | Undersea Industries, Inc. | Snorkel |
WO2004108742A1 (fr) * | 2003-06-11 | 2004-12-16 | Proteome Systems Intellectual Property Pty Ltd | Technique d'identification de structures de glycane au moyen e donnees de spectrometrie de masse |
Also Published As
Publication number | Publication date |
---|---|
WO2004024654A3 (fr) | 2004-05-13 |
AU2003278288A1 (en) | 2004-04-30 |
WO2004024654A2 (fr) | 2004-03-25 |
AU2003278288A8 (en) | 2004-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0198729B1 (fr) | Système de simulation d'un circuit électronique | |
EP0147326B1 (fr) | Filtre numérique à bande passante et phase variables | |
FR2668271A1 (fr) | Interface de modelisation dynamique des performances des systemes informatiques. | |
FR2568698A1 (fr) | Simulateur logique ayant une capacite de memoire aussi reduite que possible | |
WO2008003875A2 (fr) | Procédé de réduction du coût par action d'une campagne d'annonce publicitaire sur internet, et optimisant au maximum le nombre d'action effectué par des internautes | |
FR2522157A1 (fr) | Circuit de calcul rapide de la transformee de fourier discrete d'un signal, destine notamment a un appareil de controle par courants de foucault | |
FR2518783A1 (fr) | Appareil pour realiser la comparaison de formes de sequences | |
FR2692672A1 (fr) | Procédé et dispositif de génération d'un spectre de masse discret par déconvolution de données. | |
EP0372613A1 (fr) | Procédé de rétropropagation d'erreurs et structure de réseau de neurones | |
EP0511095A1 (fr) | Procédé et dispositif de codage-décodage d'un signal numérique | |
FR2844357A1 (fr) | Procede de determination de molecules branchees a partir de donnees de masse | |
Cheriyan et al. | An o(n^3)-Time Maximum-Flow Algorithm | |
FR3059799A1 (fr) | Procede de simulation de repartition d'aubes sur un disque de turbomachine | |
FR2727777A1 (fr) | Circuit multiplieur et circuit diviseur pour operandes numeriques | |
CN104794129B (zh) | 一种基于查询日志的数据处理方法和系统 | |
EP0670069A1 (fr) | Procede de demonstration automatique | |
EP0476592A2 (fr) | Générateur d'adresses pour la mémoire de données d'un processeur | |
FR2695730A1 (fr) | Méthode et appareil pour traiter un signal numérique amélioré utilisant une transformée de Fourier. | |
FR2624992A1 (fr) | Generateur de signal temporel periodique genre fractal | |
Louchard et al. | On gaps and unoccupied urns in sequences of geometrically distributed random variables | |
FR2914090A1 (fr) | Dispositif de traitement pour la normalisation de barres representatives de grandeurs variables ponderees | |
FR2466826A1 (fr) | Synthetiseur de sons | |
WO1997043659A1 (fr) | Diagnostic de reseaux de composants, avec modelisation par bandes | |
FR3028086B1 (fr) | Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore | |
WO2007122319A1 (fr) | Additionneur n bits et procédé d'addition correspondant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |
Effective date: 20060531 |