FR2844357A1

FR2844357A1 - Procede de determination de molecules branchees a partir de donnees de masse

Info

Publication number: FR2844357A1
Application number: FR0211195A
Authority: FR
Inventors: Hoecke Marie Pierre Van
Original assignee: Centre National de la Recherche Scientifique CNRS; Universite de Lille 1 Sciences et Technologies
Current assignee: Centre National de la Recherche Scientifique CNRS; Universite de Lille 1 Sciences et Technologies
Priority date: 2002-09-10
Filing date: 2002-09-10
Publication date: 2004-03-12
Also published as: WO2004024654A3; AU2003278288A1; WO2004024654A2; AU2003278288A8

Abstract

Procédé de détermination d'une structure moléculaire branchée à partir de données de masses de fragments de ladite molécule, caractérisé en ce qu'il comprend les étapes suivantes :a) une étape d'enregistrement dans une mémoire de la liste des éléments de base pouvant constituer ladite molécule branchée ;b) une étape de stockage en mémoire des solutions à une équation mettant en jeu les éléments de base, leur masse, leur nombre et une des masses données, ceci pour toutes les masses ;c) une étape de constitution de séquences d'éléments de base à partir desdites solutions, chaque séquence incluant une solution pour une masse dite minimale et la séquence complète étant solution pour une masse dite maximale ; d) une étape de regroupement des séquences par composition ;e) une étape de stockage des arbres possibles pour une composition d'éléments de base en fonction des séquences de cette composition déterminées à l'étape c) ;f) pour chaque arbre de l'étape e), une étape de calcul de l'ensemble des fragments possibles de l'arbre ;g) pour chaque fragment de l'étape f), une étape de test permettant de savoir si le fragment correspond à une des masses données.

Description

PROC D DE D TERMINATION DE MOL CULES BRANCH ES PARTIR DE DONN ES DE

MASSE

La présente invention se rapporte au domaine de l'étude de molécules et de détermination de leur composition et de leur structure. En particulier, la présente invention se rapporte à la détermination automatique de structures moléculaires branchées en 10 utilisant des données de masse. Une application de la présente invention est la détermination de la structure d'oligosaccharides à partir de données de masse fournies

par un spectromètre de masse.

Dans ce domaine, la technique habituellement 15 utilisée est une étude manuelle des données fournies par le

spectromètre de masse confrontées à une expertise humaine.

Cette étude est très coteuse en temps.

Des solutions ont donc été proposées pour réaliser de manière automatique l'étude des données de 20 masse, mais les outils développés ne permettent pour le

moment que de déterminer les structures linéaires.

Le problème technique que la présente invention entend résoudre est la détermination d'une structure moléculaire branchée à partir d'un spectre de masse ou 25 d'autres données de masse, ceci de manière entièrement automatique sans intervention de l'homme. Les résultats de la détermination étant destinés à des experts, ceux-ci pourront infirmer ou confirmer les résultats donnés automatiquement. La présente invention propose donc de déterminer

automatiquement la structure branchée la plus probable pour une molécule, les structures linéaires étant incluses dans l'ensemble des structures branchées. Pour cela, la présente invention réalise un certain nombre d'opérations sur 35 l'ensemble des masses fourni et délivre un résultat.

L'expertise humaine peut être requise pour orienter le processus ou valider la solution proposée par le procédé mais cette intervention n'est que ponctuelle et brève.

Ainsi, le temps d'intervention de l'expert est limité aux 5 seules questions nécessitant réellement une compétence scientifique.

Pour ce faire, la présente invention est du type décrit ci-dessus et elle est remarquable dans son 10 acceptation la plus large, en ce qu'elle concerne un procédé de détermination d'une structure moléculaire branchée à partir de données de masses de fragments de ladite molécule, comprenant les étapes suivantes: a) une étape d'enregistrement dans une mémoire 15 de la liste des éléments de base pouvant constituer ladite molécule branchée; b)une étape de stockage en mémoire des solutions à une équation mettant en jeu les éléments de base, leur masse, leur nombre et 20 une des masses données, ceci pour toutes les masses; c) une étape de constitution de séquences d'éléments de base à partir desdites solutions, chaque séquence incluant une 25 solution pour une masse dite minimale et la séquence complète étant solution pour une masse dite maximale; d) une étape de regroupement des séquences par composition; e) une étape de stockage des arbres possibles pour une composition d'éléments de base en fonction des séquences de cette composition déterminées à l'étape c); f) pour chaque arbre de l'étape e), une étape de calcul de l'ensemble des fragments possibles de l'arbre; g) pour chaque fragment de l'étape f), une étape 5 de test permettant de savoir si le fragment correspond à une des masses données; Avantageusement, l'étape b) est réalisée de manière incrémentale depuis la plus petite masse vers la plus grande masse, la solution pour une masse est cherchée 10 en utilisant les solutions trouvées pour les masses inférieures et les données correspondant aux dites

solutions sont stockées dans un tableau.

De préférence, l'étape c) consiste à définir le N-ème élément de base de la séquence en comparant la 15 solution N pour la masse avec la solution N-1 à partir de laquelle la solution N a été trouvée et à écrire dans un

fichier un identifiant dudit N-ème élément de base.

Selon un mode de réalisation préféré, l'étape e) consiste à - associer à chaque élément de base d'une séquence une donnée de type " noeud " comportant un identifiant de l'élément de base et au moins une référence à un autre noeud; - à la N-éme étape, pour chaque arbre de l'étape N-1, pour chaque noeud comportant une référence libre, créer un noeud contenant le composant N de la séquence et affecter ladite référence libre audit noeud créé. 30 Avantageusement, l'étape f) consiste à générer une liste de séquences d'éléments de base o chaque séquence inclut ladite solution pour une masse minimale, les éléments du fragment correspondant à ladite séquence étant ordonnés par ajout de " noeud " en " noeud " à partir

de ladite solution pour une masse minimale.

De préférence, l'étape g) est composée de deux étapes - une étape de comparaison de la séquence correspondant audit fragment avec les séquences de ladite composition résultant un premier booléen VRAI ou FAUX; - Si ledit premier booléen est FAUX, une étape de 10 comparaison de la composition de ladite séquence avec les compositions des sous-séquences de même longueur incluant la solution minimale desdites séquences solutions pour une masse maximale

résultant un deuxième booléen VRAI ou FAUX.

Selon un autre mode de réalisation, le procédé comprend une étape supplémentaire de choix de l'arbre (des arbres) le(s) plus pertinent(s) en fonction des résultats de l'étape g) en associant à chacun des arbres générés à l'étape e) un compteur mis à zéro au début du procédé et 20 incrémenté d'un si lesdits deux booléens sont FAUX et en choisissant l'arbre (ou les arbres) dont le(s) compteur(s)

est (sont) le(s) plus faible(s).

La présente invention se rapporte également à une utilisation du procédé de détermination d'une structure 25 moléculaire branchée décrit dans les paragraphes précédents caractérisée en ce que la structure recherchée est un oligosaccharide, les données de masse sont obtenues par spectrométrie de masse et les éléments de base sont des

monosaccharides ou des groupements substituants.

On comprendra mieux la présente invention à

l'aide de la description, faite ci-après à titre purement explicatif, d'un mode de réalisation de l'invention, en

référence aux figures annexées:

- La figure 1 représente un spectre arbitraire 35 de masse simulant un spectre expérimental.

- La figure 2 illustre la première partie du déroulement d'un mode de réalisation de l'invention.

- La figure 3 illustre la deuxième partie du 5 déroulement d'un mode de réalisation de l'invention. Le procédé selon l'invention comporte 5 étapes précédées d'une étape préliminaire réalisée indépendamment 10 du procédé: L'étape préliminaire consiste à obtenir un

ensemble de masses correspondant à des fragments de la molécule à déterminer. Cet ensemble de masses est appelé 15 " spectre expérimental ".

La première étape consiste à enregistrer l'ensemble des molécules simples susceptibles de composer la molécule à déterminer. 20 La deuxième étape consiste à déterminer l'ensemble des chemins allant d'une structure racine à une structure finale o la structure racine correspond à une valeur dite " minimale " de l'ensemble des masses et la 25 structure finale correspond à une valeur dite " maximale "

de l'ensemble des masses. L'ensemble de ces chemins passe par des structures intermédiaires, c'est-à-dire incluant la structure racine et incluses dans la structure finale, et correspondant à des valeurs de masses comprises entre la 30 valeur minimale et la valeur maximale.

La troisième étape consiste à générer des

séquences de molécules simples obtenues à partir desdits chemins et de regrouper les séquences ayant les mêmes 35 nombres de chaque molécule simple en " composition ".

La quatrième étape consiste à déterminer pour chaque composition, l'ensemble des arbres possibles. De préférence, chaque arbre doit pouvoir être constitué à partir de n'importe quelle séquence de la décomposition. La cinquième étape consiste à calculer pour chaque arbre le " spectre " théorique de l'arbre en déterminant de tous les fragments possibles de l'arbre 10 contenant la racine et à comparer le spectre théorique avec

le spectre expérimental.

Le résultat de la comparaison permet de déterminer quel est l'arbre le plus probable. 15 Le procédé selon l'invention peut être utilisé pour déterminer de manière automatique la composition d'oligosaccharides. Pour la détermination d'un oligosaccharide, il comporte plusieurs étapes 20 Une étape préliminaire est destinée à obtenir un ensemble de masses (appelé " spectre ") obtenu par spectrométrie de masse de la molécule à déterminer. Les masses de cet ensemble comprennent les masses de fragments 25 de la molécule, de produits de recomposition entre les

composants de la molécule ou de fragments substitués.

Une première étape consiste à enregistrer dans

une mémoire la liste des monosaccharides connus ainsi que 30 leur masse.

Une deuxième étape consiste à parcourir l'ensemble des masses déterminées par spectrométrie. Pour une première masse, le procédé cherche à résoudre 35 l'équation suivante, appelée équation Y: masse totale mesurée = (Somme des masses des composants - pertes de liaisons) + (aglycone - perte liaison aglycone-root)* + masse ION + agent réducteur (*) ssi aglycone X o Cette équation se traduit par = M err Y= (ai * mi) - [(Y (ai) - 1) * H20] + (aglycone H20) +ION + reduction (*): ssi aglycone É 0 o: M = masse expérimentale mesurée dans le spectromètre de masse err = erreur de mesure du spectromètre mi = masse (monoisotopique) du composant i ai =nombre de composants i apparaissant dans la solution (ai est un entier) H20 = masse d'une molécule d'EAU aglycone = masse de l'aglycone en cas d'aminoréduction ION = masse de l'ion reduction = incrément de masse d aux conditions de réduction Selon le procédé, l'ensemble des masses déterminées est parcouru dans l'ordre des masses 25 croissantes et pour chaque masse, on cherche un ou plusieurs monosaccharides résolvant l'équation Y. La plus petite masse pour laquelle l'équation Y a une solution est appelée masse minimale et la solution à l'équation Y pour la masse minimale est appelée " racine ". La racine peut 30 être composée d'un ou de plusieurs monosaccharides. Cette racine est le premier élément d'un ensemble de chemins: l'ensemble des chemins est un tableau et chaque ligne du

tableau constitue une étape d'un chemin.

Par la suite, on continue le parcours des masses

par ordre croissant en essayant de résoudre l'équation Y avec des structures de monosaccharides incluant la racine.

Chaque structure solution est ajoutée audit tableau. De 5 manière étendue, chaque structure solution de l'équation Y pour une des masses mesurées inclut une structure préalablement enregistrée dans le tableau. Ainsi, un système d'héritage est mis en place à partie de la racine: chaque structure solution, exceptée la racine, a une 10 " mère " parmi les autres structures solutions.

Dans ce tableau, chaque ligne correspond à une

structure de monosaccharide et donne la quantité de chaque monosaccharide (supérieur ou égal à 0) dans la structure ainsi que le numéro de la ligne de la structure " mère " de 15 la structure courante.

La recherche d'une solution de l'équation Y pour une masse dite courante consiste donc à ajouter au moins un monosaccharide à une structure solution de l'équation Y pour une masse inférieure à la masse courante. Pour cela, 20 ledit tableau est parcouru et pour chaque ligne (i.e. chaque structure), une solution incluant la structure correspondante à ladite ligne est cherchée. Afin de réduire le temps de calcul, certaines lignes ne sont pas traitées: les structures solutions de l'équation Y pour une masse 25 inférieure d'une certaine quantité à la masse courante ne sont pas inclues dans la recherche. Cette quantité est choisie arbitrairement par l'utilisateur. Dans un mode de réalisation du procédé, cette quantité était égale à deux

fois la masse du monosaccharide le plus lourd (NeuGC).

Ainsi, soit une structure solution S1 de l'équation Y pour une masse de raies rl, s'il n'existe aucun monosaccharide ou assemblage de monosaccharides, qui, agrégé à ladite solution Si est solution de l'équation Y pour toutes les masses expérimentales comprises entre rn et 35 r2=rl+2*Masse(NeuGC), alors la solution Sl n'a pas de fils

et n'est plus prise en compte pour les recherches des solutions de l'équation Y pour des masses supérieures à r2.

Dans l'exemple de la figure 1, la première raie

correspond à une masse de 300,4 Daltons.

rl = 300,4 Da M(NeuGC) = 327,1165 Da 2*M(NeuGC) = 654,233 Da rl + 2*M(NeuGC) = 954,633 Da r2 = 500,30 Da < 954,633 Da r3 = 665,50 Da < 954, 633 Da r4 = 811,56 Da < 954,633 Da r5 = 827,80 Da < 954,633 Da r6 = 973, 86 Da > 954,633 Da 15 Ainsi pour les raies 2 à 5, on cherchera à

combiner la solution pour la raie 1 avec une ou plusieurs molécules de base. En revanche, pour la raie 6, on ne cherchera pas à combiner la solution pour la raie 1 avec 20 une ou plusieurs molécules de base.

La masse maximale pour laquelle Y a une solution

est appelée " masse maximale ". Seuls les chemins aboutissant à une structure solution de l'équation Y pour 25 la masse maximale sont considérés comme valables.

Une troisième étape intervient une fois l'ensemble des structures solutions déterminées les structures solutions de l'équation Y pour la masse maximale 30 sont traitées. En effet, seules ces structures sont

susceptibles de correspondre à la molécule recherchée car elles couvrent tout le spectre de la raie minimale (racine) à la raie maximale pour laquelle elles sont solutions.

L'étude de l'héritage des structures sélectionnées permet 35 d'identifier la séquence des monosaccharides, c'est-à-dire l'ordre dans lequel ils ont été ajoutés à la racine. On obtient ainsi un ensemble de séquences que l'on stocke dans

une mémoire.

Certaines de ces séquences ont la même composition, c'est-à-dire la même quantité de chaque monosaccharide ou de chaque groupement substituant. Ces séquences de même composition sont regroupées en une seule

" composition " de l'équation Y pour la masse maximale.

Pour chaque " composition ", une quatrième étape consiste à déterminer les arbres possibles. Pour cela, l'utilisateur détermine pour une première séquence de ladite composition les arbres possibles: - chaque élément de la séquence (un monosaccharide) est associé à un " noeud " qui comprend trois liens vers trois autres " noeuds " et un identifiant de l'élément. Ces liens sont appelés gauche, droite et milieu; - ainsi, le premier élément de la séquence (la 20 racine) est associé à un premier noeud; pour le deuxième élément de la séquence, on crée trois ensembles de noeuds: chaque ensemble contient deux noeuds dont le premier correspond à la racine et le second audit deuxième élément, 25 les deux noeuds étant respectivement liés par le lien gauche, le lien droite et le lien milieu pour les premier, deuxième et troisième ensembles. Ces ensembles de noeuds sont appelés des " arbres " et l'ensemble (2) des arbres 30 contient les arbres comprenant le deuxième élément; - Ainsi de suite, pour le n-ième élément, l'ensemble (n) des arbres est composé d'arbres créés à partir des arbres de l'ensemble (n-1), 35 chaque nouvel arbre correspondant à un arbre de il l'ensemble (n-1) ajouté d'un noeud correspondant

au n-ième élément sur un des liens libres.

- Pour réduire le temps de calcul de l'ensemble des arbres final, on supprime au fur et à mesure 5 les arbres redondants: par exemple, les trois

arbres composés de deux molécules de fucose o la deuxième molécule est située respectivement sur les liens droite, gauche et milieu, sont équivalents. Ainsi, un certain nombre d'arbres 10 sont éliminés.

Ensuite, les arbres restants sont comparés aux autres séquences de la même composition: un arbre est conservé si toutes les séquences de la même composition peuvent être réalisées avec cet arbre. 15 Le choix de trois liaisons possibles à partir d'un noeud a été pris en référence à la valence 4 de l'atome de carbone sur lequel se fixe en général l'élément de base suivant. Pour une composition, il reste donc un ensemble d'arbres " compatibles " avec toutes les séquences de la composition. Afin de déterminer quel est l'arbre le plus probable de manière automatique, le procédé propose dans une cinquième étape de comparer le spectre théorique de chaque arbre restant avec le spectre expérimental mesuré par le spectromètre de masse. Pour cela, le procédé compte 30 le nombre de raies du spectre théorique qui n'ont pas pu être utilisées par le procédé. Une raie du spectre théorique d'un arbre correspond à la masse d'un fragment de l'arbre. Le calcul du spectre théorique d'un arbre revient donc à calculer les masses des sous-arbres inclus dans 35 l'arbre et contenant la racine. Le nombre de masses de sous-arbres n'existant pas dans l'ensemble des masses expérimentales détermine la probabilité d'occurrence de

l'arbre en question.

La méthode employée de préférence par le procédé 5 permet de réduire le temps de calcul: pour un arbre, le calcul de la liste des fragments se fait de la manière suivante - un opérateur " multiplication d'une liste par un élément " est créé qui, à partir d'une liste 10 d'éléments, crée une nouvelle liste o chaque élément est le résultat de la concaténation de l'élément nouveau avec un élément de la liste d'entrée. - un opérateur " produit de deux listes " résulte 15 du premier: c'est l'application de l'opérateur " multiplication d'une liste par un élément " sur tous les items de la liste 1 avec la liste 2. Ainsi, la liste des fragments produite à un noeud 20 quelconque est égale au produit des listes issues de ses fils, qui est ensuite multiplié par l'élément du noeud; une masse nulle est ajoutée enfin en tête de liste; l'introduction de la masse nulle implémente le fait que la branche peut-être absente; cette masse nulle se propage 25 dans le parcours récursif et permet d'avoir la liste complète en un seul parcours; la liste produite par une

feuille est donc une liste de deux éléments: [0, elt].

Une fois la liste des fragments de l'arbre 30 obtenue, le procédé détermine le nombre de fragments théoriques trouvés ne correspondant à aucune des masses expérimentales fournies. Afin d'éviter de recalculer la masse théorique pour chaque fragment, le procédé propose de comparer les fragments théoriques déterminés avec les 35 décompositions d'une " séquence ". En effet, la liste de fragments construite est composée de fragments présentés sous forme de suite de monosaccharides. Pour un fragment, si ladite suite de monosaccharides est présente dans une des décompositions de la " séquence ", alors il existe une 5 raie du spectre correspondant à cette suite de monosaccharides. Donc le fragment théorique correspondant est présent dans le spectre expérimental. De plus, il peut arriver que la suite de monosaccharides représentant un fragment ne soit pas ordonnée de façon à ce qu'elle soit 10 reconnue comme valable. Pour résoudre ce genre de cas, le

procédé réalise une comparaison des compositions de la suite de monosaccharides, sans ordre, avec la partie de même taille des décompositions. Si les deux compositions sont identiques, le fragment correspond à une raie du 15 spectre expérimental.

Les fragments dont la composition ne se retrouve pas parmi les décompositions sont appelées des " raies manquantes " du spectre théorique de l'arbre. Le nombre de raies manquantes détermine la pertinence de l'arbre. 20 L'arbre ayant le moins de raies manquantes définit la structure la plus probable pour la molécule. Si plusieurs arbres ont le même nombre minimal de raies manquantes, il est nécessaire de recourir à une expertise humaine qui

saura déterminer quel est l'arbre le plus probable.

En particulier, cette expertise s'appuie sur l'équilibre naturel des molécules. Une extension du procédé de l'invention peut prendre en compte cet équilibre pour déterminer l'arbre le plus probable, en comptant par exemple le nombre de monosaccharides sur chaque sous-arbre 30 d'un noeud comportant plusieurs sous-arbres ainsi que le

type des monosaccharides.

Un exemple de réalisation de ce procédé est

décrit ci-dessous en se référant aux dessins.

Le spectromètre de masse fournit les données représentées sur la figure 1, o chaque pic (ou raie) correspond à la masse d'un fragment de la molécule. On considère que l'oligosaccharide cherché est composé de 5 HexNAC (masse: 221,0899 Da), d'Hexose (masse: 180,0364 Da) et de Fucose (masse: 164,0684 Da). La résolution de l'équation Y donne le tableau suivant: No ligne HexNAC Hexose Fucose Ligne NO raie " mère " 1 1 o o - 1

2 2 0 0 1 2

3 2 0 1 2 3

4 2 1 0 2 4

2 1 1 3 5

6 2 1 1 4 5

Il y a deux solutions pour la raie maximale: en remontant le chemin menant de la racine (raie 1) à la raie maximale, on obtient deux séquences: HexNAC-HexNAC-Fucose-Hexose (séquence 1) HexNAC-HexNAC-Hexose- Fucose (séquence 2) Ces deux séquences ou décompositions ont la même composition, elles sont donc regroupées dans une seule solution. On cherche maintenant les arbres possibles pour la séquence 2. La construction des arbres est illustrée 20 figure 2. Une première étape consiste à créer un arbre contenant un premier " HexNAC ". la deuxième étape consiste à ajouter un deuxième HexNAC audit premier HexNAC. Le deuxième HexNAC peut être accroché au premier par le lien " gauche ", le lien " milieu " ou le lien " droit ". Dans 25 la pratique, comme ces trois arbres sont équivalents, un seul arbre est construit, avec le deuxième hexNAC accroché sur le lien " gauche ". D'une manière générale, un nouveau

monosaccharide sera toujours accroché sur le lien libre le plus à gauche du noeud précédent et un seul arbre sera construit quel que soit le nombre de liens libres du noeud.

La troisième étape consiste à ajouter un Hexose à l'arbre 5 construit à l'étape 2: pour cela, il y a deux possibilités non équivalentes: accrocher l'Hexose au premier hexNAC; - accrocher l'Hexose au deuxième hexNAC;

Ainsi deux arbres sont construits.

La quatrième étape consiste enfin à ajouter le Fucose aux arbres construits à l'étape 3. Les six possibilités (trois par arbre) sont détaillées sur la figure 2. Il est à noter que la molécule HexNAC qui se situait sur le lien gauche du premier HexNAC du premier arbre de l'étape 3 est maintenant 15 située sur le lien milieu pour l'arbre N05 de l'étape 4. En

effet, sur un noeud, les sous-arbres sont triés de gauche à droite par ordre de poids décroissant. Comme l'association d'un Hexose et d'un Fucose est plus lourde qu'HexNAC, l'ordre est inversé par rapport aux autres arbres 20 possibles, o ce cas ne se présente pas.

Une fois les arbres construits pour la séquence 2, le procédé selon l'invention vérifie que les arbres construits sont compatibles avec la séquence 1. Pour cela, le procédé teste s'il est possible de reconstruire les 25 arbres de l'étape 4 avec la séquence 1. Deux arbres sont

éliminés (les arbres NO5 et 6) car il est impossible de construire ces arbres sans placer l'Hexose avant le Fucose.

Sur les 4 arbres restants, le procédé selon l'invention cherche à déterminer le spectre théorique afin 30 de le comparer avec le spectre expérimental. Les fragments

sont déterminés selon la méthode décrite ci-dessus utilisant les opérateurs " multiplication d'une liste par un élément " et " produit de deux listes ". Chaque fragment déterminé est décrit sous forme d'une séquence stockée dans 35 une mémoire. Cette méthode est illustrée figure 3.

Par exemple, pour le premier arbre, le procédé crée trois listes, chaque liste correspondant à un des " fils " du noeud racine: - (HexNAC, 0);

- (Hexose, 0); - (Fucose, 0).

On applique l'opérateur " produit de deux listes " aux deux premières listes, ce qui donne: 10 (HexNAC-Hexose, HexNAC, Hexose, 0) que l'on multiplie par la troisième liste, soit: (HexNAC-Hexose-Fucose, HexNACHexose, HexNACFucose, HexNAC, Hexose-Fucose, Hexose, Fucose, 0) 15 On applique l'opérateur " multiplication d'une liste par un élément " à la liste précédente avec l'élément " HexNAC ", ce qui donne: (HexNAC-HexNACHexose-Fucose, HexNAC-HexNAC20 Hexose, HexNAC-HexNAC-Fucose, HexNACHexNAC, HexNAC-HexoseFucose, HexNAC-Hexose, HexNAC-Fucose, HexNAC) Cette liste est la liste des fragments pour le premier arbre. Chaque élément de cette liste correspond à une raie du spectre théorique de l'arbre concerné. Pour 25 vérifier que les raies théoriques existent dans le spectre expérimental, il suffit de vérifier que le fragment correspondant est inclus dans une des " séquences " de la " décomposition ". Ces séquences étaient: HexNAC-HexNAC-Fucose-Hexose (séquence 1) 30 HexNACHexNAC-Hexose-Fucose (séquence 2) Ainsi, en numérotant les fragments de la liste de 1 à 8, on constate que les fragments 1, 2, 3, 4 et 8 sont inclus dans une des séquences, alors que les fragments 5, 6 et 7 ne le sont pas. La deuxième vérification consiste 35 à regarder la composition des fragments non-valables avec la composition des fragments de même longueur, contenant la racine des " séquences ". Dans ce cas, les trois fragments, sont également rejetés. Ainsi, le nombre de raies manquantes de cet arbre est de 3. Les mêmes étapes sont 5 réalisées pour les autres arbres. L'arbre qui a le plus petit nombre de raies manquantes est la plus probable, en

l'occurrence ici, le quatrième.

L'invention est décrite dans ce qui précède à titre d'exemple. Il est entendu que l'homme du métier est à même de réaliser différentes variantes de l'invention sans pour autant sortir du cadre du brevet

Claims

REVENDICATIONS

1. Procédé de détermination d'une structure 5 moléculaire branchée à partir de données de masses de fragments de ladite molécule, caractérisé en ce qu'il comprend les étapes suivantes: a) une étape d'enregistrement dans une mémoire de la liste des éléments de base pouvant 10 constituer ladite molécule branchée; b)une étape de stockage en mémoire des solutions à une équation mettant en jeu les éléments de base, leur masse, leur nombre et une des masses données, ceci pour toutes les 15 masses; c) une étape de constitution de séquences d'éléments de base à partir desdites solutions, chaque séquence incluant une solution pour une masse dite minimale et la 20 séquence complète étant solution pour une masse dite maximale; d) une étape de regroupement des séquences par composition; e) une étape de stockage des arbres possibles 25 pour une composition d'éléments de base en fonction des séquences de cette composition déterminées à l'étape c); f) pour chaque arbre de l'étape e), une étape de calcul de l'ensemble des fragments possibles 30 de l'arbre;

g) pour chaque fragment de l'étape f), une étape de test permettant de savoir si le fragment correspond à une des masses données.

2. Procédé de détermination d'une structure moléculaire branchée selon la revendication 1, caractérisé en ce que l'étape b) est réalisée de manière incrémentale depuis la plus petite masse vers la plus grande masse, que 5 la solution pour une masse est cherchée en utilisant les solutions trouvées pour les masses inférieures et que les données correspondant aux dites solutions sont stockées dans

un tableau.

3. Procédé de détermination d'une structure 10 moléculaire branchée selon l'une des revendications

précédentes, caractérisé en ce que l'étape c) consiste à définir le N-ème élément de base de la séquence en comparant la solution N pour la masse en cours de traitement avec la solution N-1 à partir de laquelle la solution N a été 15 trouvée et à écrire dans un fichier un identifiant dudit Nème élément de base.

4. Procédé de détermination d'une structure

moléculaire branchée selon l'une des revendications

précédentes, caractérisé en ce que l'étape e) consiste à: - associer à chaque élément de base d'une séquence une donnée de type " noeud " comportant un identifiant de l'élément de base et au moins une référence à un autre noeud; - à la N-éme étape, pour chaque arbre de l'étape N-1, pour chaque noeud comportant une référence libre, créer un noeud contenant le composant N de la séquence et affecter ladite référence libre audit noeud créé; 30

5. Procédé de détermination d'une structure

moléculaire branchée selon l'une des revendications précédentes, caractérisé en ce que l'étape f) consiste à générer une liste de séquences d'éléments de base o chaque séquence inclut ladite solution pour une masse minimale, les 35 éléments du fragment correspondant à ladite séquence étant

ordonnés par ajout de " noeud " en " noeud " à partir de

ladite solution pour une masse minimale.

6. Procédé de détermination d'une structure

moléculaire branchée selon l'une des revendications 5 précédentes, caractérisé en ce que l'étape g) est composé de deux étapes:

- Une étape de comparaison de la séquence correspondant audit fragment avec les séquences de ladite composition résultant un premier 10 booléen VRAI ou FAUX; - Si ledit premier booléen est FAUX, une étape de comparaison de la composition de ladite séquence avec les compositions des sous-séquences de même longueur incluant la solution minimale desdites 15 séquences solutions pour une masse maximale

résultant un deuxième booléen VRAI ou FAUX.

7. Procédé de détermination d'une structure moléculaire branchée selon la revendication 6, caractérisé en ce qu'il comprend une étape supplémentaire de choix de 20 l'arbre (des arbres) le(s) plus pertinent(s) en fonction des

résultats de l'étape g) en associant à chacun des arbres générés à l'étape e) un compteur mis à zéro au début du procédé et incrémenté d'un si lesdits deux booléens sont FAUX et en choisissant l'arbre (ou les arbres) dont le(s) 25 compteur(s) est (sont) le(s) plus faible(s).

8. Utilisation du procédé de détermination d'un

structure moléculaire branchée selon l'une des revendications précédentes, caractérisée en ce que la structure recherchée est un oligosaccharide, les données de 30 masse sont obtenues par spectrométrie de masse et les

éléments de base sont des monosaccharides ou des groupements substituants.