FR2844357A1 - Procede de determination de molecules branchees a partir de donnees de masse - Google Patents

Procede de determination de molecules branchees a partir de donnees de masse Download PDF

Info

Publication number
FR2844357A1
FR2844357A1 FR0211195A FR0211195A FR2844357A1 FR 2844357 A1 FR2844357 A1 FR 2844357A1 FR 0211195 A FR0211195 A FR 0211195A FR 0211195 A FR0211195 A FR 0211195A FR 2844357 A1 FR2844357 A1 FR 2844357A1
Authority
FR
France
Prior art keywords
mass
solution
sequence
sequences
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0211195A
Other languages
English (en)
Inventor
Hoecke Marie Pierre Van
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Centre National de la Recherche Scientifique CNRS
Universite de Lille 1 Sciences et Technologies
Original Assignee
Centre National de la Recherche Scientifique CNRS
Universite de Lille 1 Sciences et Technologies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centre National de la Recherche Scientifique CNRS, Universite de Lille 1 Sciences et Technologies filed Critical Centre National de la Recherche Scientifique CNRS
Priority to FR0211195A priority Critical patent/FR2844357A1/fr
Priority to AU2003278288A priority patent/AU2003278288A1/en
Priority to PCT/FR2003/002676 priority patent/WO2004024654A2/fr
Publication of FR2844357A1 publication Critical patent/FR2844357A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

Procédé de détermination d'une structure moléculaire branchée à partir de données de masses de fragments de ladite molécule, caractérisé en ce qu'il comprend les étapes suivantes :a) une étape d'enregistrement dans une mémoire de la liste des éléments de base pouvant constituer ladite molécule branchée ;b) une étape de stockage en mémoire des solutions à une équation mettant en jeu les éléments de base, leur masse, leur nombre et une des masses données, ceci pour toutes les masses ;c) une étape de constitution de séquences d'éléments de base à partir desdites solutions, chaque séquence incluant une solution pour une masse dite minimale et la séquence complète étant solution pour une masse dite maximale ; d) une étape de regroupement des séquences par composition ;e) une étape de stockage des arbres possibles pour une composition d'éléments de base en fonction des séquences de cette composition déterminées à l'étape c) ;f) pour chaque arbre de l'étape e), une étape de calcul de l'ensemble des fragments possibles de l'arbre ;g) pour chaque fragment de l'étape f), une étape de test permettant de savoir si le fragment correspond à une des masses données.

Description

PROC D DE D TERMINATION DE MOL CULES BRANCH ES PARTIR DE DONN ES DE
MASSE
La présente invention se rapporte au domaine de l'étude de molécules et de détermination de leur composition et de leur structure. En particulier, la présente invention se rapporte à la détermination automatique de structures moléculaires branchées en 10 utilisant des données de masse. Une application de la présente invention est la détermination de la structure d'oligosaccharides à partir de données de masse fournies
par un spectromètre de masse.
Dans ce domaine, la technique habituellement 15 utilisée est une étude manuelle des données fournies par le
spectromètre de masse confrontées à une expertise humaine.
Cette étude est très coteuse en temps.
Des solutions ont donc été proposées pour réaliser de manière automatique l'étude des données de 20 masse, mais les outils développés ne permettent pour le
moment que de déterminer les structures linéaires.
Le problème technique que la présente invention entend résoudre est la détermination d'une structure moléculaire branchée à partir d'un spectre de masse ou 25 d'autres données de masse, ceci de manière entièrement automatique sans intervention de l'homme. Les résultats de la détermination étant destinés à des experts, ceux-ci pourront infirmer ou confirmer les résultats donnés automatiquement. La présente invention propose donc de déterminer
automatiquement la structure branchée la plus probable pour une molécule, les structures linéaires étant incluses dans l'ensemble des structures branchées. Pour cela, la présente invention réalise un certain nombre d'opérations sur 35 l'ensemble des masses fourni et délivre un résultat.
L'expertise humaine peut être requise pour orienter le processus ou valider la solution proposée par le procédé mais cette intervention n'est que ponctuelle et brève.
Ainsi, le temps d'intervention de l'expert est limité aux 5 seules questions nécessitant réellement une compétence scientifique.
Pour ce faire, la présente invention est du type décrit ci-dessus et elle est remarquable dans son 10 acceptation la plus large, en ce qu'elle concerne un procédé de détermination d'une structure moléculaire branchée à partir de données de masses de fragments de ladite molécule, comprenant les étapes suivantes: a) une étape d'enregistrement dans une mémoire 15 de la liste des éléments de base pouvant constituer ladite molécule branchée; b)une étape de stockage en mémoire des solutions à une équation mettant en jeu les éléments de base, leur masse, leur nombre et 20 une des masses données, ceci pour toutes les masses; c) une étape de constitution de séquences d'éléments de base à partir desdites solutions, chaque séquence incluant une 25 solution pour une masse dite minimale et la séquence complète étant solution pour une masse dite maximale; d) une étape de regroupement des séquences par composition; e) une étape de stockage des arbres possibles pour une composition d'éléments de base en fonction des séquences de cette composition déterminées à l'étape c); f) pour chaque arbre de l'étape e), une étape de calcul de l'ensemble des fragments possibles de l'arbre; g) pour chaque fragment de l'étape f), une étape 5 de test permettant de savoir si le fragment correspond à une des masses données; Avantageusement, l'étape b) est réalisée de manière incrémentale depuis la plus petite masse vers la plus grande masse, la solution pour une masse est cherchée 10 en utilisant les solutions trouvées pour les masses inférieures et les données correspondant aux dites
solutions sont stockées dans un tableau.
De préférence, l'étape c) consiste à définir le N-ème élément de base de la séquence en comparant la 15 solution N pour la masse avec la solution N-1 à partir de laquelle la solution N a été trouvée et à écrire dans un
fichier un identifiant dudit N-ème élément de base.
Selon un mode de réalisation préféré, l'étape e) consiste à - associer à chaque élément de base d'une séquence une donnée de type " noeud " comportant un identifiant de l'élément de base et au moins une référence à un autre noeud; - à la N-éme étape, pour chaque arbre de l'étape N-1, pour chaque noeud comportant une référence libre, créer un noeud contenant le composant N de la séquence et affecter ladite référence libre audit noeud créé. 30 Avantageusement, l'étape f) consiste à générer une liste de séquences d'éléments de base o chaque séquence inclut ladite solution pour une masse minimale, les éléments du fragment correspondant à ladite séquence étant ordonnés par ajout de " noeud " en " noeud " à partir
de ladite solution pour une masse minimale.
De préférence, l'étape g) est composée de deux étapes - une étape de comparaison de la séquence correspondant audit fragment avec les séquences de ladite composition résultant un premier booléen VRAI ou FAUX; - Si ledit premier booléen est FAUX, une étape de 10 comparaison de la composition de ladite séquence avec les compositions des sous-séquences de même longueur incluant la solution minimale desdites séquences solutions pour une masse maximale
résultant un deuxième booléen VRAI ou FAUX.
Selon un autre mode de réalisation, le procédé comprend une étape supplémentaire de choix de l'arbre (des arbres) le(s) plus pertinent(s) en fonction des résultats de l'étape g) en associant à chacun des arbres générés à l'étape e) un compteur mis à zéro au début du procédé et 20 incrémenté d'un si lesdits deux booléens sont FAUX et en choisissant l'arbre (ou les arbres) dont le(s) compteur(s)
est (sont) le(s) plus faible(s).
La présente invention se rapporte également à une utilisation du procédé de détermination d'une structure 25 moléculaire branchée décrit dans les paragraphes précédents caractérisée en ce que la structure recherchée est un oligosaccharide, les données de masse sont obtenues par spectrométrie de masse et les éléments de base sont des
monosaccharides ou des groupements substituants.
On comprendra mieux la présente invention à
l'aide de la description, faite ci-après à titre purement explicatif, d'un mode de réalisation de l'invention, en
référence aux figures annexées:
- La figure 1 représente un spectre arbitraire 35 de masse simulant un spectre expérimental.
- La figure 2 illustre la première partie du déroulement d'un mode de réalisation de l'invention.
- La figure 3 illustre la deuxième partie du 5 déroulement d'un mode de réalisation de l'invention. Le procédé selon l'invention comporte 5 étapes précédées d'une étape préliminaire réalisée indépendamment 10 du procédé: L'étape préliminaire consiste à obtenir un
ensemble de masses correspondant à des fragments de la molécule à déterminer. Cet ensemble de masses est appelé 15 " spectre expérimental ".
La première étape consiste à enregistrer l'ensemble des molécules simples susceptibles de composer la molécule à déterminer. 20 La deuxième étape consiste à déterminer l'ensemble des chemins allant d'une structure racine à une structure finale o la structure racine correspond à une valeur dite " minimale " de l'ensemble des masses et la 25 structure finale correspond à une valeur dite " maximale "
de l'ensemble des masses. L'ensemble de ces chemins passe par des structures intermédiaires, c'est-à-dire incluant la structure racine et incluses dans la structure finale, et correspondant à des valeurs de masses comprises entre la 30 valeur minimale et la valeur maximale.
La troisième étape consiste à générer des
séquences de molécules simples obtenues à partir desdits chemins et de regrouper les séquences ayant les mêmes 35 nombres de chaque molécule simple en " composition ".
La quatrième étape consiste à déterminer pour chaque composition, l'ensemble des arbres possibles. De préférence, chaque arbre doit pouvoir être constitué à partir de n'importe quelle séquence de la décomposition. La cinquième étape consiste à calculer pour chaque arbre le " spectre " théorique de l'arbre en déterminant de tous les fragments possibles de l'arbre 10 contenant la racine et à comparer le spectre théorique avec
le spectre expérimental.
Le résultat de la comparaison permet de déterminer quel est l'arbre le plus probable. 15 Le procédé selon l'invention peut être utilisé pour déterminer de manière automatique la composition d'oligosaccharides. Pour la détermination d'un oligosaccharide, il comporte plusieurs étapes 20 Une étape préliminaire est destinée à obtenir un ensemble de masses (appelé " spectre ") obtenu par spectrométrie de masse de la molécule à déterminer. Les masses de cet ensemble comprennent les masses de fragments 25 de la molécule, de produits de recomposition entre les
composants de la molécule ou de fragments substitués.
Une première étape consiste à enregistrer dans
une mémoire la liste des monosaccharides connus ainsi que 30 leur masse.
Une deuxième étape consiste à parcourir l'ensemble des masses déterminées par spectrométrie. Pour une première masse, le procédé cherche à résoudre 35 l'équation suivante, appelée équation Y: masse totale mesurée = (Somme des masses des composants - pertes de liaisons) + (aglycone - perte liaison aglycone-root)* + masse ION + agent réducteur (*) ssi aglycone X o Cette équation se traduit par = M err Y= (ai * mi) - [(Y (ai) - 1) * H20] + (aglycone H20) +ION + reduction (*): ssi aglycone É 0 o: M = masse expérimentale mesurée dans le spectromètre de masse err = erreur de mesure du spectromètre mi = masse (monoisotopique) du composant i ai =nombre de composants i apparaissant dans la solution (ai est un entier) H20 = masse d'une molécule d'EAU aglycone = masse de l'aglycone en cas d'aminoréduction ION = masse de l'ion reduction = incrément de masse d aux conditions de réduction Selon le procédé, l'ensemble des masses déterminées est parcouru dans l'ordre des masses 25 croissantes et pour chaque masse, on cherche un ou plusieurs monosaccharides résolvant l'équation Y. La plus petite masse pour laquelle l'équation Y a une solution est appelée masse minimale et la solution à l'équation Y pour la masse minimale est appelée " racine ". La racine peut 30 être composée d'un ou de plusieurs monosaccharides. Cette racine est le premier élément d'un ensemble de chemins: l'ensemble des chemins est un tableau et chaque ligne du
tableau constitue une étape d'un chemin.
Par la suite, on continue le parcours des masses
par ordre croissant en essayant de résoudre l'équation Y avec des structures de monosaccharides incluant la racine.
Chaque structure solution est ajoutée audit tableau. De 5 manière étendue, chaque structure solution de l'équation Y pour une des masses mesurées inclut une structure préalablement enregistrée dans le tableau. Ainsi, un système d'héritage est mis en place à partie de la racine: chaque structure solution, exceptée la racine, a une 10 " mère " parmi les autres structures solutions.
Dans ce tableau, chaque ligne correspond à une
structure de monosaccharide et donne la quantité de chaque monosaccharide (supérieur ou égal à 0) dans la structure ainsi que le numéro de la ligne de la structure " mère " de 15 la structure courante.
La recherche d'une solution de l'équation Y pour une masse dite courante consiste donc à ajouter au moins un monosaccharide à une structure solution de l'équation Y pour une masse inférieure à la masse courante. Pour cela, 20 ledit tableau est parcouru et pour chaque ligne (i.e. chaque structure), une solution incluant la structure correspondante à ladite ligne est cherchée. Afin de réduire le temps de calcul, certaines lignes ne sont pas traitées: les structures solutions de l'équation Y pour une masse 25 inférieure d'une certaine quantité à la masse courante ne sont pas inclues dans la recherche. Cette quantité est choisie arbitrairement par l'utilisateur. Dans un mode de réalisation du procédé, cette quantité était égale à deux
fois la masse du monosaccharide le plus lourd (NeuGC).
Ainsi, soit une structure solution S1 de l'équation Y pour une masse de raies rl, s'il n'existe aucun monosaccharide ou assemblage de monosaccharides, qui, agrégé à ladite solution Si est solution de l'équation Y pour toutes les masses expérimentales comprises entre rn et 35 r2=rl+2*Masse(NeuGC), alors la solution Sl n'a pas de fils
et n'est plus prise en compte pour les recherches des solutions de l'équation Y pour des masses supérieures à r2.
Dans l'exemple de la figure 1, la première raie
correspond à une masse de 300,4 Daltons.
rl = 300,4 Da M(NeuGC) = 327,1165 Da 2*M(NeuGC) = 654,233 Da rl + 2*M(NeuGC) = 954,633 Da r2 = 500,30 Da < 954,633 Da r3 = 665,50 Da < 954, 633 Da r4 = 811,56 Da < 954,633 Da r5 = 827,80 Da < 954,633 Da r6 = 973, 86 Da > 954,633 Da 15 Ainsi pour les raies 2 à 5, on cherchera à
combiner la solution pour la raie 1 avec une ou plusieurs molécules de base. En revanche, pour la raie 6, on ne cherchera pas à combiner la solution pour la raie 1 avec 20 une ou plusieurs molécules de base.
La masse maximale pour laquelle Y a une solution
est appelée " masse maximale ". Seuls les chemins aboutissant à une structure solution de l'équation Y pour 25 la masse maximale sont considérés comme valables.
Une troisième étape intervient une fois l'ensemble des structures solutions déterminées les structures solutions de l'équation Y pour la masse maximale 30 sont traitées. En effet, seules ces structures sont
susceptibles de correspondre à la molécule recherchée car elles couvrent tout le spectre de la raie minimale (racine) à la raie maximale pour laquelle elles sont solutions.
L'étude de l'héritage des structures sélectionnées permet 35 d'identifier la séquence des monosaccharides, c'est-à-dire l'ordre dans lequel ils ont été ajoutés à la racine. On obtient ainsi un ensemble de séquences que l'on stocke dans
une mémoire.
Certaines de ces séquences ont la même composition, c'est-à-dire la même quantité de chaque monosaccharide ou de chaque groupement substituant. Ces séquences de même composition sont regroupées en une seule
" composition " de l'équation Y pour la masse maximale.
Pour chaque " composition ", une quatrième étape consiste à déterminer les arbres possibles. Pour cela, l'utilisateur détermine pour une première séquence de ladite composition les arbres possibles: - chaque élément de la séquence (un monosaccharide) est associé à un " noeud " qui comprend trois liens vers trois autres " noeuds " et un identifiant de l'élément. Ces liens sont appelés gauche, droite et milieu; - ainsi, le premier élément de la séquence (la 20 racine) est associé à un premier noeud; pour le deuxième élément de la séquence, on crée trois ensembles de noeuds: chaque ensemble contient deux noeuds dont le premier correspond à la racine et le second audit deuxième élément, 25 les deux noeuds étant respectivement liés par le lien gauche, le lien droite et le lien milieu pour les premier, deuxième et troisième ensembles. Ces ensembles de noeuds sont appelés des " arbres " et l'ensemble (2) des arbres 30 contient les arbres comprenant le deuxième élément; - Ainsi de suite, pour le n-ième élément, l'ensemble (n) des arbres est composé d'arbres créés à partir des arbres de l'ensemble (n-1), 35 chaque nouvel arbre correspondant à un arbre de il l'ensemble (n-1) ajouté d'un noeud correspondant
au n-ième élément sur un des liens libres.
- Pour réduire le temps de calcul de l'ensemble des arbres final, on supprime au fur et à mesure 5 les arbres redondants: par exemple, les trois
arbres composés de deux molécules de fucose o la deuxième molécule est située respectivement sur les liens droite, gauche et milieu, sont équivalents. Ainsi, un certain nombre d'arbres 10 sont éliminés.
Ensuite, les arbres restants sont comparés aux autres séquences de la même composition: un arbre est conservé si toutes les séquences de la même composition peuvent être réalisées avec cet arbre. 15 Le choix de trois liaisons possibles à partir d'un noeud a été pris en référence à la valence 4 de l'atome de carbone sur lequel se fixe en général l'élément de base suivant. Pour une composition, il reste donc un ensemble d'arbres " compatibles " avec toutes les séquences de la composition. Afin de déterminer quel est l'arbre le plus probable de manière automatique, le procédé propose dans une cinquième étape de comparer le spectre théorique de chaque arbre restant avec le spectre expérimental mesuré par le spectromètre de masse. Pour cela, le procédé compte 30 le nombre de raies du spectre théorique qui n'ont pas pu être utilisées par le procédé. Une raie du spectre théorique d'un arbre correspond à la masse d'un fragment de l'arbre. Le calcul du spectre théorique d'un arbre revient donc à calculer les masses des sous-arbres inclus dans 35 l'arbre et contenant la racine. Le nombre de masses de sous-arbres n'existant pas dans l'ensemble des masses expérimentales détermine la probabilité d'occurrence de
l'arbre en question.
La méthode employée de préférence par le procédé 5 permet de réduire le temps de calcul: pour un arbre, le calcul de la liste des fragments se fait de la manière suivante - un opérateur " multiplication d'une liste par un élément " est créé qui, à partir d'une liste 10 d'éléments, crée une nouvelle liste o chaque élément est le résultat de la concaténation de l'élément nouveau avec un élément de la liste d'entrée. - un opérateur " produit de deux listes " résulte 15 du premier: c'est l'application de l'opérateur " multiplication d'une liste par un élément " sur tous les items de la liste 1 avec la liste 2. Ainsi, la liste des fragments produite à un noeud 20 quelconque est égale au produit des listes issues de ses fils, qui est ensuite multiplié par l'élément du noeud; une masse nulle est ajoutée enfin en tête de liste; l'introduction de la masse nulle implémente le fait que la branche peut-être absente; cette masse nulle se propage 25 dans le parcours récursif et permet d'avoir la liste complète en un seul parcours; la liste produite par une
feuille est donc une liste de deux éléments: [0, elt].
Une fois la liste des fragments de l'arbre 30 obtenue, le procédé détermine le nombre de fragments théoriques trouvés ne correspondant à aucune des masses expérimentales fournies. Afin d'éviter de recalculer la masse théorique pour chaque fragment, le procédé propose de comparer les fragments théoriques déterminés avec les 35 décompositions d'une " séquence ". En effet, la liste de fragments construite est composée de fragments présentés sous forme de suite de monosaccharides. Pour un fragment, si ladite suite de monosaccharides est présente dans une des décompositions de la " séquence ", alors il existe une 5 raie du spectre correspondant à cette suite de monosaccharides. Donc le fragment théorique correspondant est présent dans le spectre expérimental. De plus, il peut arriver que la suite de monosaccharides représentant un fragment ne soit pas ordonnée de façon à ce qu'elle soit 10 reconnue comme valable. Pour résoudre ce genre de cas, le
procédé réalise une comparaison des compositions de la suite de monosaccharides, sans ordre, avec la partie de même taille des décompositions. Si les deux compositions sont identiques, le fragment correspond à une raie du 15 spectre expérimental.
Les fragments dont la composition ne se retrouve pas parmi les décompositions sont appelées des " raies manquantes " du spectre théorique de l'arbre. Le nombre de raies manquantes détermine la pertinence de l'arbre. 20 L'arbre ayant le moins de raies manquantes définit la structure la plus probable pour la molécule. Si plusieurs arbres ont le même nombre minimal de raies manquantes, il est nécessaire de recourir à une expertise humaine qui
saura déterminer quel est l'arbre le plus probable.
En particulier, cette expertise s'appuie sur l'équilibre naturel des molécules. Une extension du procédé de l'invention peut prendre en compte cet équilibre pour déterminer l'arbre le plus probable, en comptant par exemple le nombre de monosaccharides sur chaque sous-arbre 30 d'un noeud comportant plusieurs sous-arbres ainsi que le
type des monosaccharides.
Un exemple de réalisation de ce procédé est
décrit ci-dessous en se référant aux dessins.
Le spectromètre de masse fournit les données représentées sur la figure 1, o chaque pic (ou raie) correspond à la masse d'un fragment de la molécule. On considère que l'oligosaccharide cherché est composé de 5 HexNAC (masse: 221,0899 Da), d'Hexose (masse: 180,0364 Da) et de Fucose (masse: 164,0684 Da). La résolution de l'équation Y donne le tableau suivant: No ligne HexNAC Hexose Fucose Ligne NO raie " mère " 1 1 o o - 1
2 2 0 0 1 2
3 2 0 1 2 3
4 2 1 0 2 4
2 1 1 3 5
6 2 1 1 4 5
Il y a deux solutions pour la raie maximale: en remontant le chemin menant de la racine (raie 1) à la raie maximale, on obtient deux séquences: HexNAC-HexNAC-Fucose-Hexose (séquence 1) HexNAC-HexNAC-Hexose- Fucose (séquence 2) Ces deux séquences ou décompositions ont la même composition, elles sont donc regroupées dans une seule solution. On cherche maintenant les arbres possibles pour la séquence 2. La construction des arbres est illustrée 20 figure 2. Une première étape consiste à créer un arbre contenant un premier " HexNAC ". la deuxième étape consiste à ajouter un deuxième HexNAC audit premier HexNAC. Le deuxième HexNAC peut être accroché au premier par le lien " gauche ", le lien " milieu " ou le lien " droit ". Dans 25 la pratique, comme ces trois arbres sont équivalents, un seul arbre est construit, avec le deuxième hexNAC accroché sur le lien " gauche ". D'une manière générale, un nouveau
monosaccharide sera toujours accroché sur le lien libre le plus à gauche du noeud précédent et un seul arbre sera construit quel que soit le nombre de liens libres du noeud.
La troisième étape consiste à ajouter un Hexose à l'arbre 5 construit à l'étape 2: pour cela, il y a deux possibilités non équivalentes: accrocher l'Hexose au premier hexNAC; - accrocher l'Hexose au deuxième hexNAC;
Ainsi deux arbres sont construits.
La quatrième étape consiste enfin à ajouter le Fucose aux arbres construits à l'étape 3. Les six possibilités (trois par arbre) sont détaillées sur la figure 2. Il est à noter que la molécule HexNAC qui se situait sur le lien gauche du premier HexNAC du premier arbre de l'étape 3 est maintenant 15 située sur le lien milieu pour l'arbre N05 de l'étape 4. En
effet, sur un noeud, les sous-arbres sont triés de gauche à droite par ordre de poids décroissant. Comme l'association d'un Hexose et d'un Fucose est plus lourde qu'HexNAC, l'ordre est inversé par rapport aux autres arbres 20 possibles, o ce cas ne se présente pas.
Une fois les arbres construits pour la séquence 2, le procédé selon l'invention vérifie que les arbres construits sont compatibles avec la séquence 1. Pour cela, le procédé teste s'il est possible de reconstruire les 25 arbres de l'étape 4 avec la séquence 1. Deux arbres sont
éliminés (les arbres NO5 et 6) car il est impossible de construire ces arbres sans placer l'Hexose avant le Fucose.
Sur les 4 arbres restants, le procédé selon l'invention cherche à déterminer le spectre théorique afin 30 de le comparer avec le spectre expérimental. Les fragments
sont déterminés selon la méthode décrite ci-dessus utilisant les opérateurs " multiplication d'une liste par un élément " et " produit de deux listes ". Chaque fragment déterminé est décrit sous forme d'une séquence stockée dans 35 une mémoire. Cette méthode est illustrée figure 3.
Par exemple, pour le premier arbre, le procédé crée trois listes, chaque liste correspondant à un des " fils " du noeud racine: - (HexNAC, 0);
- (Hexose, 0); - (Fucose, 0).
On applique l'opérateur " produit de deux listes " aux deux premières listes, ce qui donne: 10 (HexNAC-Hexose, HexNAC, Hexose, 0) que l'on multiplie par la troisième liste, soit: (HexNAC-Hexose-Fucose, HexNACHexose, HexNACFucose, HexNAC, Hexose-Fucose, Hexose, Fucose, 0) 15 On applique l'opérateur " multiplication d'une liste par un élément " à la liste précédente avec l'élément " HexNAC ", ce qui donne: (HexNAC-HexNACHexose-Fucose, HexNAC-HexNAC20 Hexose, HexNAC-HexNAC-Fucose, HexNACHexNAC, HexNAC-HexoseFucose, HexNAC-Hexose, HexNAC-Fucose, HexNAC) Cette liste est la liste des fragments pour le premier arbre. Chaque élément de cette liste correspond à une raie du spectre théorique de l'arbre concerné. Pour 25 vérifier que les raies théoriques existent dans le spectre expérimental, il suffit de vérifier que le fragment correspondant est inclus dans une des " séquences " de la " décomposition ". Ces séquences étaient: HexNAC-HexNAC-Fucose-Hexose (séquence 1) 30 HexNACHexNAC-Hexose-Fucose (séquence 2) Ainsi, en numérotant les fragments de la liste de 1 à 8, on constate que les fragments 1, 2, 3, 4 et 8 sont inclus dans une des séquences, alors que les fragments 5, 6 et 7 ne le sont pas. La deuxième vérification consiste 35 à regarder la composition des fragments non-valables avec la composition des fragments de même longueur, contenant la racine des " séquences ". Dans ce cas, les trois fragments, sont également rejetés. Ainsi, le nombre de raies manquantes de cet arbre est de 3. Les mêmes étapes sont 5 réalisées pour les autres arbres. L'arbre qui a le plus petit nombre de raies manquantes est la plus probable, en
l'occurrence ici, le quatrième.
L'invention est décrite dans ce qui précède à titre d'exemple. Il est entendu que l'homme du métier est à même de réaliser différentes variantes de l'invention sans pour autant sortir du cadre du brevet

Claims (8)

REVENDICATIONS
1. Procédé de détermination d'une structure 5 moléculaire branchée à partir de données de masses de fragments de ladite molécule, caractérisé en ce qu'il comprend les étapes suivantes: a) une étape d'enregistrement dans une mémoire de la liste des éléments de base pouvant 10 constituer ladite molécule branchée; b)une étape de stockage en mémoire des solutions à une équation mettant en jeu les éléments de base, leur masse, leur nombre et une des masses données, ceci pour toutes les 15 masses; c) une étape de constitution de séquences d'éléments de base à partir desdites solutions, chaque séquence incluant une solution pour une masse dite minimale et la 20 séquence complète étant solution pour une masse dite maximale; d) une étape de regroupement des séquences par composition; e) une étape de stockage des arbres possibles 25 pour une composition d'éléments de base en fonction des séquences de cette composition déterminées à l'étape c); f) pour chaque arbre de l'étape e), une étape de calcul de l'ensemble des fragments possibles 30 de l'arbre;
g) pour chaque fragment de l'étape f), une étape de test permettant de savoir si le fragment correspond à une des masses données.
2. Procédé de détermination d'une structure moléculaire branchée selon la revendication 1, caractérisé en ce que l'étape b) est réalisée de manière incrémentale depuis la plus petite masse vers la plus grande masse, que 5 la solution pour une masse est cherchée en utilisant les solutions trouvées pour les masses inférieures et que les données correspondant aux dites solutions sont stockées dans
un tableau.
3. Procédé de détermination d'une structure 10 moléculaire branchée selon l'une des revendications
précédentes, caractérisé en ce que l'étape c) consiste à définir le N-ème élément de base de la séquence en comparant la solution N pour la masse en cours de traitement avec la solution N-1 à partir de laquelle la solution N a été 15 trouvée et à écrire dans un fichier un identifiant dudit Nème élément de base.
4. Procédé de détermination d'une structure
moléculaire branchée selon l'une des revendications
précédentes, caractérisé en ce que l'étape e) consiste à: - associer à chaque élément de base d'une séquence une donnée de type " noeud " comportant un identifiant de l'élément de base et au moins une référence à un autre noeud; - à la N-éme étape, pour chaque arbre de l'étape N-1, pour chaque noeud comportant une référence libre, créer un noeud contenant le composant N de la séquence et affecter ladite référence libre audit noeud créé; 30
5. Procédé de détermination d'une structure
moléculaire branchée selon l'une des revendications précédentes, caractérisé en ce que l'étape f) consiste à générer une liste de séquences d'éléments de base o chaque séquence inclut ladite solution pour une masse minimale, les 35 éléments du fragment correspondant à ladite séquence étant
ordonnés par ajout de " noeud " en " noeud " à partir de
ladite solution pour une masse minimale.
6. Procédé de détermination d'une structure
moléculaire branchée selon l'une des revendications 5 précédentes, caractérisé en ce que l'étape g) est composé de deux étapes:
- Une étape de comparaison de la séquence correspondant audit fragment avec les séquences de ladite composition résultant un premier 10 booléen VRAI ou FAUX; - Si ledit premier booléen est FAUX, une étape de comparaison de la composition de ladite séquence avec les compositions des sous-séquences de même longueur incluant la solution minimale desdites 15 séquences solutions pour une masse maximale
résultant un deuxième booléen VRAI ou FAUX.
7. Procédé de détermination d'une structure moléculaire branchée selon la revendication 6, caractérisé en ce qu'il comprend une étape supplémentaire de choix de 20 l'arbre (des arbres) le(s) plus pertinent(s) en fonction des
résultats de l'étape g) en associant à chacun des arbres générés à l'étape e) un compteur mis à zéro au début du procédé et incrémenté d'un si lesdits deux booléens sont FAUX et en choisissant l'arbre (ou les arbres) dont le(s) 25 compteur(s) est (sont) le(s) plus faible(s).
8. Utilisation du procédé de détermination d'un
structure moléculaire branchée selon l'une des revendications précédentes, caractérisée en ce que la structure recherchée est un oligosaccharide, les données de 30 masse sont obtenues par spectrométrie de masse et les
éléments de base sont des monosaccharides ou des groupements substituants.
FR0211195A 2002-09-10 2002-09-10 Procede de determination de molecules branchees a partir de donnees de masse Withdrawn FR2844357A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR0211195A FR2844357A1 (fr) 2002-09-10 2002-09-10 Procede de determination de molecules branchees a partir de donnees de masse
AU2003278288A AU2003278288A1 (en) 2002-09-10 2003-09-09 Method of determining branched molecules from mass data
PCT/FR2003/002676 WO2004024654A2 (fr) 2002-09-10 2003-09-09 Procede de determination de molecules branchees a partir de donnees de masse

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0211195A FR2844357A1 (fr) 2002-09-10 2002-09-10 Procede de determination de molecules branchees a partir de donnees de masse

Publications (1)

Publication Number Publication Date
FR2844357A1 true FR2844357A1 (fr) 2004-03-12

Family

ID=31725972

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0211195A Withdrawn FR2844357A1 (fr) 2002-09-10 2002-09-10 Procede de determination de molecules branchees a partir de donnees de masse

Country Status (3)

Country Link
AU (1) AU2003278288A1 (fr)
FR (1) FR2844357A1 (fr)
WO (1) WO2004024654A2 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4884564A (en) * 1988-07-25 1989-12-05 Undersea Industries, Inc. Snorkel
WO2004108742A1 (fr) * 2003-06-11 2004-12-16 Proteome Systems Intellectual Property Pty Ltd Technique d'identification de structures de glycane au moyen e donnees de spectrometrie de masse

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005031343A1 (fr) * 2003-10-01 2005-04-07 Proteome Systems Intellectual Property Pty Ltd Procede permettant de determiner la vraisemblance biologique de compositions ou structures candidates
WO2009154964A2 (fr) * 2008-05-30 2009-12-23 Glycome Technologies Inc. Procédés d'analyse structurelle des glycanes

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995025281A1 (fr) * 1994-03-14 1995-09-21 University Of Washington Identification de nucleotides, d'acides amines ou d'hydrates de carbone au moyen de la spectrometrie de masse
WO2002014872A2 (fr) * 2000-08-14 2002-02-21 Vlaams Interuniversitair Instituut Voor Biotechnologie Vzw Procede et appareil de preparation de donnees de sequences

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995025281A1 (fr) * 1994-03-14 1995-09-21 University Of Washington Identification de nucleotides, d'acides amines ou d'hydrates de carbone au moyen de la spectrometrie de masse
WO2002014872A2 (fr) * 2000-08-14 2002-02-21 Vlaams Interuniversitair Instituut Voor Biotechnologie Vzw Procede et appareil de preparation de donnees de sequences

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BUCHANAN B G ET AL: "Dendral and Meta-Dendral: their applications dimension", ARTIFICIAL INTELLIGENCE, NORTH-HOLLAND PUBLISHING COMPANY, vol. 11, 1978, pages 5 - 24, XP008021166 *
CARHART R E ET AL: "Applications of artificial intelligence for chemical inference. XVII. An approach to computer-assisted elucidation of molecular structure", JOURNAL OF THE AMERICAN CHEMICAL SOCIETY, UNITED STATES, vol. 97, no. 20, October 1975 (1975-10-01), pages 5755 - 5762, XP002252956 *
GAUCHER S P ET AL: "STAT: a saccharide topology analysis tool used in combination with tandem mass spectrometry", ANALYTICAL CHEMISTRY, AMERICAN CHEMICAL SOCIETY, UNITED STATES, vol. 72, no. 11, June 2000 (2000-06-01), pages 2331 - 2336, XP002252955 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4884564A (en) * 1988-07-25 1989-12-05 Undersea Industries, Inc. Snorkel
WO2004108742A1 (fr) * 2003-06-11 2004-12-16 Proteome Systems Intellectual Property Pty Ltd Technique d'identification de structures de glycane au moyen e donnees de spectrometrie de masse

Also Published As

Publication number Publication date
WO2004024654A3 (fr) 2004-05-13
AU2003278288A1 (en) 2004-04-30
WO2004024654A2 (fr) 2004-03-25
AU2003278288A8 (en) 2004-04-30

Similar Documents

Publication Publication Date Title
EP0198729B1 (fr) Système de simulation d&#39;un circuit électronique
EP0147326B1 (fr) Filtre numérique à bande passante et phase variables
FR2668271A1 (fr) Interface de modelisation dynamique des performances des systemes informatiques.
FR2568698A1 (fr) Simulateur logique ayant une capacite de memoire aussi reduite que possible
WO2008003875A2 (fr) Procédé de réduction du coût par action d&#39;une campagne d&#39;annonce publicitaire sur internet, et optimisant au maximum le nombre d&#39;action effectué par des internautes
FR2522157A1 (fr) Circuit de calcul rapide de la transformee de fourier discrete d&#39;un signal, destine notamment a un appareil de controle par courants de foucault
FR2518783A1 (fr) Appareil pour realiser la comparaison de formes de sequences
FR2692672A1 (fr) Procédé et dispositif de génération d&#39;un spectre de masse discret par déconvolution de données.
EP0372613A1 (fr) Procédé de rétropropagation d&#39;erreurs et structure de réseau de neurones
EP0511095A1 (fr) Procédé et dispositif de codage-décodage d&#39;un signal numérique
FR2844357A1 (fr) Procede de determination de molecules branchees a partir de donnees de masse
Cheriyan et al. An o(n^3)-Time Maximum-Flow Algorithm
FR3059799A1 (fr) Procede de simulation de repartition d&#39;aubes sur un disque de turbomachine
FR2727777A1 (fr) Circuit multiplieur et circuit diviseur pour operandes numeriques
CN104794129B (zh) 一种基于查询日志的数据处理方法和系统
EP0670069A1 (fr) Procede de demonstration automatique
EP0476592A2 (fr) Générateur d&#39;adresses pour la mémoire de données d&#39;un processeur
FR2695730A1 (fr) Méthode et appareil pour traiter un signal numérique amélioré utilisant une transformée de Fourier.
FR2624992A1 (fr) Generateur de signal temporel periodique genre fractal
Louchard et al. On gaps and unoccupied urns in sequences of geometrically distributed random variables
FR2914090A1 (fr) Dispositif de traitement pour la normalisation de barres representatives de grandeurs variables ponderees
FR2466826A1 (fr) Synthetiseur de sons
WO1997043659A1 (fr) Diagnostic de reseaux de composants, avec modelisation par bandes
FR3028086B1 (fr) Procede de recherche automatise d&#39;au moins une sous-sequence sonore representative au sein d&#39;une bande sonore
WO2007122319A1 (fr) Additionneur n bits et procédé d&#39;addition correspondant

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20060531