FR2939929A1

FR2939929A1 - METHOD FOR COMPUTER-BASED CALCULATION OF THE PROBABILITY OF OBSERVING DIFFERENT SEQUENCES OF ARRANGEMENTS OF STATES OBSERVED WITH A VARIABLE MODELIZED BY A MARKOV CACHE MODEL

Info

Publication number: FR2939929A1
Application number: FR0806963A
Authority: FR
Inventors: Jean Francois Zagury; Olivier Delaneau
Original assignee: CNAM Conservatoire National des Arts et Metiers
Current assignee: CNAM Conservatoire National des Arts et Metiers
Priority date: 2008-12-11
Filing date: 2008-12-11
Publication date: 2010-06-18
Also published as: WO2010066960A1

Abstract

L'invention concerne une telle méthode, ledit modèle de Markov caché comportant un ensemble d'états cachés, ledit ordinateur comportant un processeur et une mémoire, selon laquelle le processeur effectue les tâches suivantes : a) enregistrer lesdites séquences dans un arbre informatique stocké dans ladite mémoire, toutes les séquences dont les arrangements d'états observés sont identiques jusqu'au rang t étant regroupées sur une même branche de l'arbre, b) calculer, pour chaque premier noeud de l'arbre et pour chaque état caché dudit modèle de Markov caché, une probabilité intermédiaire d'observer chaque état observé de l'arrangement de p états observés de ladite variable enregistrée dans ce premier noeud lorsque le modèle est dans ledit état caché au temps 1 de ce modèle, c) calculer, pour chaque noeud de profondeur t comprise entre 2 et T-1, pour chaque état observé de rang u compris entre 1 et p dans l'arrangement d'états observés enregistré dans le noeud de profondeur t correspondant, et pour chaque état caché dudit modèle, une probabilité intermédiaire d'observer la sous-séquence d'états observés uniques comportant à chaque rang compris entre 1 et t, l'état observé de rang u dans l'arrangement d'états observés correspondant de la séquence, lorsque le modèle est dans ledit état caché au temps t de ce modèle, et d) calculer, pour chaque noeud terminal de l'arbre, la probabilité d'observer la séquence d'arrangements d'états observés de ladite variable.The invention relates to such a method, wherein said hidden Markov model includes a set of hidden states, said computer having a processor and a memory, wherein the processor performs the following tasks: a) registering said sequences in a computer tree stored in said memory, all the sequences whose observed state arrangements are identical up to the rank t being grouped together on one and the same branch of the tree, b) computing, for each first node of the tree and for each hidden state of said model hidden Markov, an intermediate probability of observing each observed state of the arrangement of p observed states of said variable recorded in this first node when the model is in said hidden state at time 1 of this model, c) calculating, for each node of depth t between 2 and T-1, for each observed state of rank u between 1 and p in the observed state arrangement recorded in the node of corresponding depth t, and for each hidden state of said model, an intermediate probability of observing the sub-sequence of unique observed states comprising at each rank between 1 and t, the observed state of rank u in the arrangement of corresponding observed states of the sequence, when the model is in said hidden state at time t of this model, and d) calculating, for each terminal node of the tree, the probability of observing the sequence of arrangements of observed states of said variable.

Description

1 DOMAINE TECHNIQUE AUQUEL SE RAPPORTE L'INVENTION La présente invention concerne de manière générale le domaine du calcul par ordinateur et plus particulièrement une méthode d'accélération du calcul par ordinateur de la probabilité d'observer différentes séquences d'un nombre donné T d'arrangements d'un nombre p d'états observés d'une variable parmi une pluralité desdites séquences qui sont modélisées par un unique modèle de Markov caché. L'invention trouve une application particulièrement avantageuse en bioinformatique dans le calcul par ordinateur des paires d'haplotypes les plus 10 probables d'un individu de génotype connu. ARRIÈRE-PLAN TECHNOLOGIQUE De nombreux systèmes complexes rencontrés dans différents domaines comme la biologie, la finance, la physique ou la sociologie sont modélisés grâce à des modèles de Markov cachés. Ces modèles sont particulièrement utilisés en 15 biologie pour la reconstruction des haplotypes d'individus d'une population donnée à partir des génotypes de ces individus et d'informations génétiques sur cette population. Une autre application courante des modèles de Markov cachés concerne la reconnaissance vocale et manuscrite et de nombreux brevets ont été délivrés 20 ces dernières années concernant différentes méthodes de calculs de ces modèles, comme par exemple le brevet US7433820. Le principe des modèles de Markov cachés est décrit dans le document intitulé A tutorial on hidden Markov model and selected applications in speech recognition de L.R. Rabiner, publié dans la revue Proceedings of the IEEE en 25 1989 (volume 77(2), pages 257-285). Un modèle de Markov caché est un modèle statistique dans lequel les valeurs prises successivement par une variable étudiée dépendent des valeurs prises successivement par une autre variable. Les valeurs de la variable étudiée sont appelées les états observés du modèle, tandis que les valeurs prises par l'autre variable sont appelées les états cachés du modèle. 30 La variable étudiée peut par exemple être des paires d'allèles successives d'une paire de chromosomes étudiée dans le cas de la détermination des haplotypes, ou encore des phonèmes dans le cas de la reconnaissance vocale On suppose dans ce modèle que la probabilité d'observer, au temps t du 35 modèle, un état observé donné dépend de l'état caché dans lequel est l'autre variable du modèle à ce temps t, et que la succession dans le temps des états cachés obéit à un processus Markovien, c'est-à-dire que l'état caché de l'autre variable du modèle au temps t dépend uniquement de l'état caché de cette autre variable au temps t-1 par une probabilité de transition. C'est pourquoi lorsqu'un état observé est observé au temps t, on dit que l'état observé est émis par le modèle au temps t. On parlera dans la suite pour simplifier de l'état caché du modèle au temps t pour désigner l'état caché de l'autre variable du modèle. Le temps t désigne dans les modèles de Markov un compteur incrémenté à chaque étape du modèle. Le modèle peut également émettre un nombre quelconque p d'états observés au temps t. Une des applications classiques d'un modèle de Markov caché est le calcul de la probabilité que ce modèle de Markov émette une séquence particulière comportant un nombre T d'arrangements d'un nombre p d'états observés. Le terme de séquence désigne une suite ordonnée d'éléments. Chaque élément de cette séquence situé au rang t de cette séquence, c'est-à-dire en t-ième position dans la séquence, est constitué d'un arrangement de p états observés. L'expression arrangement de p états observés désigne ici un groupement ordonné d'un nombre p d'états observés de l'ensemble des états observés. Ces expressions seront reprises par la suite. Dans le cas des haplotypes, chez l'homme, le modèle de Markov caché autorise le calcul de la probabilité d'observer sur une paire de chromosomes données une séquence d'arrangements de deux allèles, c'est-à-dire une séquence de paires de deux allèles. II existe actuellement différents algorithmes de calcul par ordinateur d'une telle probabilité. L'un des algorithmes les plus utilisés est l'algorithme de propagation alpha bêta qui est décrit en détail dans le document précité publié par L.R. Rabiner. Cette algorithme autorise le calcul de la probabilité d'observer une séquence particulière d'états observés uniques, par le calcul de probabilités intermédiaires de sous-séquences d'états observés uniques. Selon cette méthode de l'état de la technique, décrite plus en détail ci- après, pour calculer les probabilités d'observation de plusieurs séquences d'arrangements de p états observés, le processeur de l'ordinateur est programmé de manière connue pour réaliser les étapes de cet algorithme alpha bêta, pour chaque séquence de l'ensemble des séquences étudiées, successivement, et pour chaque sous-séquence d'états observés uniques d'une même séquence. TECHNICAL FIELD TO WHICH THE INVENTION RELATES The present invention generally relates to the field of computer calculation and more particularly to a method of accelerating computer calculation of the probability of observing different sequences of a given number T of arranging a number p of observed states of a variable among a plurality of said sequences that are modeled by a single hidden Markov pattern. The invention finds a particularly advantageous application in bioinformatics in the computer calculation of the most probable haplotype pairs of an individual of known genotype. TECHNOLOGICAL BACKGROUND Many complex systems encountered in different fields such as biology, finance, physics or sociology are modeled through hidden Markov models. These models are particularly used in biology for the reconstruction of haplotypes of individuals of a given population from the genotypes of these individuals and genetic information on this population. Another common application of hidden Markov models concerns speech and handwriting recognition and many patents have been issued in recent years regarding different methods of calculating such models, such as US7433820. The principle of hidden Markov models is described in the document A tutorial on hidden Markov model and selected applications in speech recognition by LR Rabiner, published in the journal Proceedings of the IEEE in 1989 (volume 77 (2), pages 257- 285). A hidden Markov model is a statistical model in which the values taken successively by one studied variable depend on the values taken successively by another variable. The values of the studied variable are called the observed states of the model, while the values taken by the other variable are called the hidden states of the model. The variable under study may for example be pairs of successive alleles of a pair of chromosomes studied in the case of haplotype determination, or phonemes in the case of voice recognition. to observe, at time t of the model, a given observed state depends on the hidden state in which is the other variable of the model at this time t, and that the succession in time of the hidden states obeys a Markovian process, that is to say that the hidden state of the other variable of the model at time t depends solely on the hidden state of this other variable at time t-1 by a transition probability. This is why when an observed state is observed at time t, we say that the observed state is emitted by the model at time t. We will talk later to simplify the hidden state of the model at time t to designate the hidden state of the other variable of the model. The time t designates in the Markov models a counter incremented at each stage of the model. The model can also emit any number p of states observed at time t. One of the classic applications of a hidden Markov model is the calculation of the probability that this Markov model emits a particular sequence comprising a number T of arrangements of a number p of observed states. The term sequence refers to an ordered sequence of elements. Each element of this sequence located at the rank t of this sequence, that is to say in the th position in the sequence, consists of an arrangement of p observed states. The expression arrangement of p observed states here denotes an ordered group of a number p of observed states of all the observed states. These expressions will be repeated later. In the case of haplotypes, in humans, the hidden Markov model allows the calculation of the probability of observing on a pair of given chromosomes a sequence of arrangements of two alleles, ie a sequence of pairs of two alleles. There are currently various computer calculation algorithms of such a probability. One of the most used algorithms is the alpha beta propagation algorithm which is described in detail in the aforementioned document published by L. R. Rabiner. This algorithm allows the calculation of the probability of observing a particular sequence of unique observed states by calculating intermediate probabilities of unique observed state subsequences. According to this method of the state of the art, described in more detail below, in order to calculate the observation probabilities of several sequences of arrangements of p observed states, the processor of the computer is programmed in a known manner to realize the steps of this alpha beta algorithm, for each sequence of the set of sequences studied, successively, and for each sub-sequence of single observed states of the same sequence.

Chaque sous-séquence d'états observés uniques d'une séquence comporte, à chaque rang t de cette sous-séquence, l'état observé positionné à un rang u donné dans l'arrangement de p états observés situé au rang t correspondant de ladite séquence. Une telle application de la méthode de propagation alpha bêta est décrite dans le document intitulé Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation publié par M. Stephens et P. Each sub-sequence of unique observed states of a sequence includes, at each rank t of this subsequence, the observed state positioned at a given rank u in the arrangement of p observed states located at the corresponding rank t of said sequence. Such an application of the alpha beta propagation method is described in the document entitled Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation published by M. Stephens and P.

Scheet dans l'American journal of human genetics (volume 76(3), pages 449-462) en 2005, et brevetée dans le brevet W002064617. Cette approche donne des résultats précis mais présente l'inconvénient d'être très coûteuse en temps de calcul, ce qui limite la taille des séquences considérées, c'est-à-dire le nombre d'arrangements d'états observés par 10 séquence ainsi que le nombre total de séquences prises en compte. OBJET DE L'INVENTION Afin de remédier à cet inconvénient de l'état de la technique, la présente invention a pour but d'accélérer le calcul par ordinateur de la probabilité d'observer différentes séquences d'un nombre donné T d'arrangements d'états observés 15 d'une variable de manière à diminuer le temps de calcul et/ou les ressources informatiques nécessaires à la réalisation de ce calcul. A cet effet, on propose selon l'invention une méthode de calcul par ordinateur de la probabilité d'observer chaque séquence d'un ensemble d'un nombre prédéterminé de séquences comportant chacune un nombre donné T 20 d'arrangements d'un nombre p d'états observés d'une variable modélisée par un modèle de Markov caché, chaque arrangement de p états observés de rang t de chaque séquence ayant été émis par ce modèle , au temps t de ce modèle correspondant audit rang t de chaque séquence, ledit modèle de Markov caché comportant un ensemble prédéfini d'états cachés, ledit ordinateur comportant au 25 moins un processeur et une mémoire, méthode selon laquelle le processeur effectue les tâches suivantes : a) classer lesdites séquences d'arrangements de p états observés selon un arbre informatique stocké dans ladite mémoire, cette tâche comportant les sous-étapes suivantes : 30 a1) enregistrer, dans les premiers noeuds de profondeur 1 dans l'arbre, chaque arrangement de p états observés de rang 1 desdites séquences, a2) enregistrer, dans chaque noeud de profondeur t comprise entre 2 et T, l'arrangement de p états observés de ladite variable situé au rang t correspondant de chaque séquence d'au moins une partie de l'ensemble desdites 35 séquences et un identifiant du noeud parent de profondeur t-1 de ce noeud de profondeur t, toutes les séquences dont les arrangements de p états observés sont identiques jusqu'au rang t étant regroupées sur une même branche de l'arbre qui s'étend de l'un desdits premiers noeuds à l'un desdits noeuds de profondeur t, b) calculer, pour chaque premier noeud de l'arbre et pour chaque état caché dudit modèle de Markov caché, une probabilité intermédiaire d'observer 5 chaque état observé de l'arrangement de p états observés de ladite variable enregistrée dans ce premier noeud , ledit modèle étant dans ledit état caché au temps 1 de ce modèle, c) calculer, pour chaque noeud de profondeur t comprise entre 2 et T-1, pour chaque état observé de rang u compris entre 1 et p dans l'arrangement de p 10 états observés enregistré dans le noeud de profondeur t correspondant, et pour chaque état caché dudit modèle de Markov caché, une probabilité intermédiaire d'observer la sous-séquence d'états observés uniques comportant à chaque rang compris entre 1 et t, l'état observé de rang u dans l'arrangement de p états observés situé au rang correspondant de la séquence considérée, cette sous- 15 séquence étant appelée sous-séquence d'états observés uniques de taille t et de rang u de la séquence considérée lorsque ledit modèle est dans ledit état caché au temps t de ce modèle et, d) calculer, pour chaque noeud terminal de l'arbre, la probabilité d'observer la séquence d'arrangements de p états observés de ladite variable 20 décrite par la branche de l'arbre menant du premier noeud correspondant audit noeud terminal de l'arbre. Ainsi, les calculs redondants car communs à deux séquences différentes ou plus sont éliminés, car les séquences comprenant des arrangements de p états observés identiques du rang 1 au rang t sont regroupées sur une même branche 25 de l'arbre. Le processeur effectue donc moins d'opérations. Le temps de calcul et/ou les ressources informatiques de l'ordinateur, telles que la taille de la mémoire ou la puissance du processeur, nécessaires à la réalisation du calcul de la probabilité d'observer lesdites différentes séquences sont réduites. Selon d'autres caractéristiques avantageuses de la méthode selon 30 l'invention, - les étapes b), c) et d) sont effectuées dans cet ordre, et lors de l'étape c), le processeur calcule d'abord, pour tous les noeuds de même profondeur t et pour tous les états cachés du modèle au temps t, lesdites probabilités intermédiaires d'observer lesdites sous-séquences d'états observés uniques de 35 taille t et de rang u, pour tous les rangs u compris entre 1 et p, lorsque ledit modèle est dans chaque état caché au temps t, puis, les probabilités intermédiaires d'observer les sous-séquences d'états observés de taille t+1 et de rang u, pour tous les rangs u compris entre 1 et p, lorsque ledit modèle est dans chaque état caché au temps t+1 ; - lors de l'étape c), le processeur calcule, pour chaque noeud de profondeur t comprise entre 2 et T-1, la probabilité d'observer la sous-séquence d'états observés uniques de taille t et de rang u, qui est égale à la somme des probabilités intermédiaires d'observer les sous-séquences d'états observés uniques de taille t et de rang u correspondant à ce noeud lorsque ledit modèle est dans chaque état caché au temps t, pour tous les états cachés du modèle au temps t; - lors de l'étape c), le processeur calcule, pour chaque noeud de profondeur t comprise entre 2 et T-1, la probabilité d'observer la sous-séquence d'arrangements de p états observés décrite par la branche de l'arbre menant du premier noeud correspondant audit noeud de profondeur t, appelée sous-séquence de taille t, qui est égale au produit, pour tous les rangs u compris entre 1 et p, desdites probabilités d'observer les sous-séquences d'états observés uniques de taille t et de rang u correspondant à ce noeud de profondeur t ; - lors de l'étape c), le processeur calcule les probabilités intermédiaires d'observer les sous-séquences d'états observés uniques de taille t+1 et de rang u correspondant à chaque noeud de profondeur t+1 si et seulement si la probabilité d'observer la sous-séquence de taille t correspondant au noeud de profondeur t parent dudit noeud de profondeur t+1 fait partie des Y plus grandes probabilités calculées par le processeur pour l'observation de toutes les sous-séquences de taille t ; - lors de l'étape c), le processeur calcule, pour chaque noeud de profondeur t, une probabilité normalisée d'observer la sous-séquence de taille t correspondante, cette probabilité normalisée étant égale à ladite probabilité d'observer la sous-séquence de taille t correspondante divisée par la somme des probabilités d'observer toutes les sous-séquences de taille t, et le processeur calcule les probabilités intermédiaires d'observer les sous-séquences d'états observés uniques de taille t+1 et de rang u correspondant à chaque noeud de profondeur t+1 si et seulement si la probabilité normalisée d'observer la sous-séquence de taille t correspondant au noeud de profondeur t parent dudit noeud de profondeur t+1 est supérieure à un seuil prédéterminé. L'invention concerne également une méthode telle que décrite précédemment, pour calculer par ordinateur la probabilité d'observer toutes les séquences pouvant être émises par ledit modèle de Markov et comportant un nombre T d'arrangements de p états observés, comportant l'étape préliminaire suivante : le processeur détermine toutes les séquences pouvant être émises par le modèle de Markov considéré et comportant un nombre T d'arrangements de p états observés, chaque état observé de l'arrangement de p états observés du rang t de chaque séquence appartenant à un ensemble d'états observés de ladite variable prédéterminé en fonction dudit temps t dudit modèle correspondant au rang t de cette séquence. L'invention concerne également une méthode de calcul par ordinateur de la probabilité d'observer toutes les séquences pouvant être émises par un modèle de Markov et comportant un nombre T d'arrangements de p états observés, chaque état observé de l'arrangement de p états observés du rang t de chaque séquence appartenant à un ensemble d'états observés de ladite variable prédéterminé en fonction du temps t dudit modèle correspondant au rang t de cette séquence et ledit modèle de Markov caché comportant un ensemble prédéfini d'états cachés, ledit ordinateur comportant au moins un processeur et une mémoire, méthode selon laquelle ledit processeur construit un arbre informatique dans ladite mémoire et effectue les tâches suivantes : e) déterminer toutes les combinaisons possibles de p états observés de l'ensemble prédéterminé d'états observés au temps 1 du modèle, f) enregistrer dans chaque premier noeud de profondeur 1 dans l'arbre, l'une des combinaisons de p états observés déterminée à l'étape e), g) calculer, pour chaque premier noeud, la probabilité d'observer la combinaison de p états observés de ladite variable enregistrée dans ce premier noeud, h) à chaque profondeur t successive dans l'arbre, avec t compris entre 2 et T-1, hl) déterminer tous les arrangements possibles de p états observés de l'ensemble prédéterminé d'états observés au temps t du modèle, h2) enregistrer, dans chaque noeud de profondeur t, chaque arrangement possible de p états observés déterminé à l'étape h1) et un identifiant du noeud parent de profondeur t- 1 de ce noeud de profondeur t, et h3) calculer la probabilité d'observer la sous-séquence d'arrangements de p états observés décrite par la branche de l'arbre menant du premier noeud correspondant audit noeud de profondeur t, appelée sous-séquence de taille t, i) pour chaque noeud terminal de l'arbre, i1) déterminer tous les arrangements possibles de p états observés de l'ensemble prédéterminé d'états observés au temps T du modèle, i2) enregistrer dans chaque noeud terminal de l'arbre, chaque arrangement possible de p états observés déterminé à l'étape i1) et un identifiant du noeud parent de ce noeud terminal, et i3) calculer la probabilité d'observer la séquence d'arrangements de p états observés de ladite variable décrite par la branche de l'arbre menant du premier noeud correspondant audit noeud terminal de l'arbre. Scheet in the American journal of human genetics (volume 76 (3), pages 449-462) in 2005, and patented in WO002064617. This approach gives accurate results but has the disadvantage of being very expensive in computation time, which limits the size of the sequences considered, that is to say the number of state arrangements observed by sequence as well. than the total number of sequences taken into account. OBJECT OF THE INVENTION In order to overcome this drawback of the state of the art, the purpose of the present invention is to accelerate the calculation by computer of the probability of observing different sequences of a given number of arrangements of observed states of a variable so as to reduce the computation time and / or the computing resources required to perform this calculation. For this purpose, it is proposed according to the invention a computer calculation method of the probability of observing each sequence of a set of a predetermined number of sequences each comprising a given number T of arrangements of a number p of observed states of a variable modeled by a hidden Markov model, each arrangement of p observed states of rank t of each sequence having been emitted by this model, at time t of this model corresponding to said rank t of each sequence, said Hidden Markov model having a predefined set of hidden states, said computer having at least one processor and one memory, wherein the processor performs the following tasks: a) classifying said arrangement sequences of p observed states according to a tree computer stored in said memory, this task comprising the following substeps: a1) record, in the first nodes of depth 1 in the tree, each ar storing p observed states of rank 1 of said sequences, a2) recording, in each node of depth t between 2 and T, the arrangement of p observed states of said variable located at the corresponding rank t of each sequence of at least one part of the set of said sequences and an identifier of the parent node of depth t-1 of this node of depth t, all the sequences whose arrangements of p observed states are identical up to rank t being grouped together on the same branch of the tree extending from one of said first nodes to one of said nodes of depth t, b) computing, for each first node of the tree and for each hidden state of said hidden Markov model, an intermediate probability observing each observed state of the arrangement of p observed states of said variable recorded in this first node, said model being in said hidden state at time 1 of this model, c) computing, for each node of profo a magnitude t between 2 and T-1, for each observed state of rank u between 1 and p in the arrangement of p observed states recorded in the corresponding node of depth t, and for each hidden state of said hidden Markov model an intermediate probability of observing the sub-sequence of unique observed states having at each rank between 1 and t the observed state of rank u in the arrangement of p observed states situated at the corresponding rank of the sequence considered, this sub-sequence being called a subsequence of unique observed states of size t and rank u of the sequence considered when said model is in said hidden state at time t of this model and, d) calculating, for each end node of the tree, the probability of observing the sequence of arrangements of p observed states of said variable 20 described by the branch of the leading tree of the first node corresponding to said terminal node of the tree. Thus, the redundant calculations as common to two or more different sequences are eliminated, since the sequences comprising arrangements of p observed states identical from rank 1 to rank t are grouped on the same branch 25 of the tree. The processor therefore performs fewer operations. The computation time and / or the computing resources of the computer, such as the size of the memory or the power of the processor, necessary for performing the calculation of the probability of observing said different sequences are reduced. According to other advantageous features of the method according to the invention, steps b), c) and d) are performed in this order, and in step c), the processor calculates first, for all the nodes of the same depth t and for all the hidden states of the model at time t, said intermediate probabilities of observing said sub-sequences of single observed states of size t and of rank u, for all ranks u between 1 and p, when said model is in each hidden state at time t, then, the intermediate probabilities of observing the observed state subsequences of size t + 1 and of rank u, for all ranks u between 1 and p, when said model is in each hidden state at time t + 1; during step c), the processor calculates, for each node of depth t between 2 and T-1, the probability of observing the subsequence of single observed states of size t and of rank u, which is equal to the sum of the intermediate probabilities of observing the sub-sequences of unique observed states of size t and rank u corresponding to this node when said model is in each hidden state at time t, for all the hidden states of the model at time t; during step c), the processor calculates, for each node of depth t between 2 and T-1, the probability of observing the subset of arrangements of p observed states described by the branch of the tree leading from the first node corresponding to said node of depth t, called sub-sequence of size t, which is equal to the product, for all ranks u between 1 and p, of said probabilities of observing observed state sub-sequences unique ones of size t and rank u corresponding to this node of depth t; in step c), the processor calculates the intermediate probabilities of observing the sub-sequences of single observed states of size t + 1 and of rank u corresponding to each node of depth t + 1 if and only if the probability of observing the subsequence of size t corresponding to the node of depth t parent of said node of depth t + 1 is one of the Y largest probabilities calculated by the processor for the observation of all sub-sequences of size t; during step c), the processor calculates, for each node of depth t, a normalized probability of observing the subsequence of corresponding size t, this normalized probability being equal to said probability of observing the subsequence of corresponding size t divided by the sum of the probabilities of observing all subsequences of size t, and the processor calculates the intermediate probabilities of observing the sub-sequences of single observed states of size t + 1 and rank u corresponding to each node of depth t + 1 if and only if the normalized probability of observing the subsequence of size t corresponding to the node of depth t parent of said node of depth t + 1 is greater than a predetermined threshold. The invention also relates to a method as described above, for calculating by computer the probability of observing all the sequences that can be transmitted by said Markov model and comprising a number T of arrangements of p observed states, including the preliminary step next: the processor determines all the sequences that can be transmitted by the Markov model considered and having a number T of arrangements of p observed states, each observed state of the arrangement of p observed states of the rank t of each sequence belonging to a set of observed states of said predetermined variable as a function of said time t of said model corresponding to the rank t of this sequence. The invention also relates to a computer calculation method of the probability of observing all the sequences that can be emitted by a Markov model and having a number T of arrangements of p observed states, each observed state of the arrangement of p observed states of the rank t of each sequence belonging to a set of observed states of said predetermined variable as a function of the time t of said model corresponding to the rank t of this sequence and said hidden Markov model comprising a predefined set of hidden states, said computer having at least one processor and a memory, wherein said processor constructs a computer tree in said memory and performs the following tasks: e) determining all possible combinations of p observed states of the predetermined set of states observed at the time 1 of the model, f) record in each first node of depth 1 in the tree, one of the combined of the observed states determined in step e), g) calculating, for each first node, the probability of observing the combination of p observed states of said variable recorded in this first node, h) at each successive depth t in the tree, with t between 2 and T-1, hl) determine all possible arrangements of p observed states of the predetermined set of states observed at time t of the model, h2) record, in each node of depth t , each possible arrangement of p observed states determined in step h1) and an identifier of the parent node of depth t-1 of this depth node t, and h3) calculate the probability of observing the sub-sequence of p observed states described by the branch of the tree leading from the first node corresponding to said node of depth t, called sub-sequence of size t, i) for each terminal node of the tree, i1) determining all the possible arrangements of p observed states s of the predetermined set of states observed at time T of the model, i2) register in each terminal node of the tree, each possible arrangement of p observed states determined in step i1) and an identifier of the parent node of this terminal node, and i3) calculating the probability of observing the sequence of arrangements of p observed states of said variable described by the branch of the leading tree of the first node corresponding to said terminal node of the tree.

Selon d'autres caractéristiques avantageuses et non limitatives de cette méthode : - lors des étapes g) et h3), le processeur calcule également, pour chaque noeud de profondeur t comprise entre 1 et T-1, une probabilité normalisée d'observer la sous-séquence de taille t correspondant à ce noeud, égale à ladite probabilité d'observer ladite sous-séquence divisée par la somme des probabilités d'observer toutes les sous-séquences de taille t, et le processeur effectue l'étape h) pour chaque noeud de profondeur t+1 si et seulement si la probabilité normalisée d'observer la sous-séquence de taille t correspondant au noeud de profondeur t parent dudit noeud de profondeur t+1 est supérieure à un seuil prédéterminé ; - le processeur effectue l'étape h) pour chaque noeud de profondeur t+1 si et seulement si la probabilité d'observer la sous-séquence de taille t correspondant au noeud de profondeur t parent dudit noeud de profondeur t+1 fait partie des Y plus grandes probabilités calculées par le processeur pour l'observation de toutes les sous-séquences de taille t. L'invention concerne enfin une méthode de détermination par ordinateur des arrangements de p haplotypes les plus probables d'un individu de génotype connu comportant un nombre T de polymorphismes appelés SNP, ces haplotypes étant modélisés par un modèle de Markov caché, grâce à la méthode précédemment décrite, dans laquelle - ladite variable correspond à l'allèle des SNP successifs de ce génotype, - l'ensemble des états observés possibles de cet allèle pour chaque SNP correspond aux allèles d'un ensemble de chromosomes ancestraux connus, - l'ensemble des états cachés du modèle correspond auxdits chromosomes ancestraux connus, - chaque séquence d'un nombre donné T d'arrangements de p états observés de l'allèle correspondant aux SNP successifs du génotype de l'individu est un arrangement de p haplotypes de l'individu, l'arrangement de p états observés de l'allèle de rang t de chaque séquence correspondant au SNP de rang t dudit génotype. DESCRIPTION DÉTAILLÉE D'UN EXEMPLE DE RÉALISATION La description qui va suivre, en regard des dessins annexés, donnée à titre d'exemple non limitatif, fera bien comprendre en quoi consiste l'invention et comment elle peut être réalisée. Sur les dessins annexés : - la figure 1 est une représentation schématique de séquences d'arrangements d'états observés sous forme de table ; - la figure 2 est un schéma représentant un exemple de modèle de Markov caché à deux états cachés et deux états observés ; - la figure 3 est une représentation schématique d'un ensemble de séquences d'états observés du modèle de Markov caché de la figure 2, représentées selon la méthode de calcul de propagation alpha bêta de l'état de la technique ; - la figure 4 est une représentation schématique de l'ensemble de séquences d'états observés du modèle de Markov caché de la figure 3, selon la présente invention ; - la figure 5 est une représentation schématique d'un arbre dans lequel sont classés les arrangements d'états observés des séquences, selon la présente invention ; - la figure 6 résume les grandes étapes de détermination d'une séquence de paires d'allèle la plus probable pour un génotype donné ; - les figures 7 et 8 représentent des tableaux de données décrits dans la description. Dans la suite de la description, différents modèles de Markov caché ~. sont décrits. Par souci de simplification, les paramètres se correspondant dans ces différents modèles sont désignés par les mêmes notations. According to other advantageous and nonlimiting features of this method: during steps g) and h3), the processor also calculates, for each node of depth t between 1 and T-1, a normalized probability of observing the sub a sequence of size t corresponding to this node, equal to said probability of observing said subsequence divided by the sum of the probabilities of observing all the subsequences of size t, and the processor performs step h) for each node of depth t + 1 if and only if the normalized probability of observing the subsequence of size t corresponding to the node of depth t parent of said node of depth t + 1 is greater than a predetermined threshold; the processor performs step h) for each node of depth t + 1 if and only if the probability of observing the subsequence of size t corresponding to the node of depth t parent of said node of depth t + 1 is part of Y greater probabilities calculated by the processor for the observation of all subsequences of size t. Finally, a method of computer-determining the most probable haplotype arrangements of an individual of known genotype having a T number of SNP polymorphisms, which haplotypes are modeled by a hidden Markov model, is provided by the method. previously described, in which - said variable corresponds to the allele of successive SNPs of this genotype, - the set of possible observed states of this allele for each SNP corresponds to the alleles of a set of known ancestral chromosomes, - the set hidden states of the model corresponds to said known ancestral chromosomes, - each sequence of a given number T of p observed states of the allele corresponding to the successive SNPs of the genotype of the individual is an arrangement of p haplotypes of the individual, the arrangement of p observed states of the allele of rank t of each sequence corresponding to the SNP of rank t of said genotype. DETAILED DESCRIPTION OF AN EXEMPLARY EMBODIMENT The following description, with reference to the appended drawings, given by way of non-limiting example, will make it clear what the invention consists of and how it can be achieved. In the accompanying drawings: FIG. 1 is a schematic representation of sequences of state arrangements observed in the form of a table; FIG. 2 is a diagram showing an example of hidden Markov model with two hidden states and two observed states; FIG. 3 is a schematic representation of a set of observed state sequences of the hidden Markov model of FIG. 2, represented according to the method for calculating the alpha beta propagation of the state of the art; FIG. 4 is a schematic representation of the set of observed state sequences of the hidden Markov model of FIG. 3 according to the present invention; FIG. 5 is a schematic representation of a tree in which are classified the observed state arrangements of the sequences, according to the present invention; Figure 6 summarizes the major steps of determining a most probable allele pair sequence for a given genotype; Figures 7 and 8 show data tables described in the description. In the rest of the description, different models of hidden Markov ~. are described. For the sake of simplification, the corresponding parameters in these different models are designated by the same notations.

Les termes définis dans l'arrière plan technologique dans le cadre de l'étude d'une variable modélisée par un modèle de Markov, notamment les expressions états cachés du modèle , états observés émis par le modèle , séquence et arrangement sont repris dans la suite de la description. L'expression combinaison d'un nombre p d'états observés désignera une partie non ordonnée de l'ensemble des états observés. Quel que soit le modèle de Markov caché considéré, les états cachés du modèle X sont au nombre de N et sont notés S =i . L'état caché du modèle au temps t est noté q, et appartient à l'ensemble S des états cachés du modèle. Une séquence de T états cachés du modèle est notée Q =9,'•• '9r. The terms defined in the technological background in the context of the study of a variable modeled by a Markov model, in particular the expressions hidden states of the model, observed states emitted by the model, sequence and arrangement are reproduced in the following of the description. The expression combination of a number p of observed states will designate an unordered part of the set of observed states. Whatever the hidden Markov model considered, the hidden states of the model X are N and are denoted S = i. The hidden state of the model at time t is noted q, and belongs to the set S of hidden states of the model. A sequence of T hidden states of the model is denoted Q = 9, '••' 9r.

Le temps t désigne un compteur incrémenté à chaque étape du modèle. A chaque temps t du modèle de Markov caché, un seul état observé ou un arrangement de p états observés de la variable modélisée par ce modèle est observé: cet état observé ou cet arrangement d'états observés est situé dans la séquence Ox d'arrangements d'états observés émis par le modèle au rang t de cette séquence. La variable étudiée peut par exemple être des paires d'allèles successives d'une paire de chromosomes étudiée dans le cas de la détermination des haplotypes, ou encore des phonèmes dans le cas de la reconnaissance vocale. Les états observés Vk du modèle sont au nombre de M et appartiennent à l'ensemble V tel que V =} V,,...,VA, . Le u-ième état observé émis par le modèle au temps t de la séquence Ox est noté oxt., et appartient à l'ensemble V des états observés du modèle. Ces états observés sont représentés sur la figure 1 qui sera décrite plus en détail ultérieurement. Le modèle est initialement dans l'état caché Si avec une probabilité initiale notée r. =Pr(q, =Si). L'ensemble de ces probabilités initiales pour les N 15 états cachés forme une distribution de probabilité it _(Ir,,...,nNj dont la somme pour 1 si sN est égale à 1. Les états cachés et observés du modèle 2\, sont interconnectés par des relations probabilistes. Dans le modèle X , on passe de l'état caché S; au temps t à l'état caché 20 S; au temps t+1 avec une probabilité de transition au entre deux états cachés telle que au =Pr(q,,, =S~ q, =S;) . L'ensemble de ces probabilités de transition entre deux états cachés pour les N états cachés forme une matrice de transition notée A a;; où 1 _<i, j _<N . La matrice A peut être décrite comme N distributions de probabilités de 25 transition ay entre deux états cachés telles que pour l'état caché Si , la somme des probabilités de transition a.1 pour j variant de 1 à N est égale à 1. Si toutes les valeurs ai./ sont strictement supérieures à zéro alors tous les états cachés sont interconnectés. Le modèle X émet l'état observé Vk au temps t lorsque le modèle est 30 dans l'état caché Si avec une probabilité d'émission b; (k) telle que b; (k) =Pr (o, =Vk l q, =S;) . L'ensemble de ces probabilités d'émission pour les N états cachés et les M états observés forme une matrice d'émission B b; (k)' où 1_<i<N et 1_<k_<M. La matrice B peut être décrite comme N distributions de probabilités 35 d'émission telles que pour l'état caché Si, la somme des probabilités d'émission b; (k) pour k variant de 1 à m est égale à 1. Le modèle de Markov caché X est défini par un ensemble de paramètres regroupant ces probabilités initiales, de transition entre deux états cachés et d'émission. Il est représenté par la notation compacte Ir, A, B . Considérons tout d'abord le cas d'un modèle de Markov X simplifié, dans lequel le modèle n'émet qu'un seul état observé au temps t, qui est noté o, avec o, E V et l'ensemble des états observés possibles à chaque temps t est le même. Une séquence de T états observés uniques émise par le modèle est notée O =o,,...,or . Une telle séquence est représentée sur la première ligne de la figure 1. Un exemple simple d'un tel modèle de Markov à deux états cachés S, et S2 et deux états observés V, et V2 est représenté sur la figure 2. Sur cette figure, les flèches en traits pleins représentent les transitions possibles entre les deux états cachés et les flèches en traits pointillés représentent les émissions possibles pour chaque état caché : chacun d'entre eux peut émettre l'un ou l'autre des deux états observés. The time t designates a counter incremented at each stage of the model. At each time t of the hidden Markov model, a single observed state or an arrangement of p observed states of the variable modeled by this model is observed: this observed state or this arrangement of observed states is located in the sequence Ox of arrangements of observed states emitted by the model at rank t of this sequence. The studied variable can for example be pairs of successive alleles of a pair of chromosomes studied in the case of haplotype determination, or phonemes in the case of speech recognition. The observed states Vk of the model are of number M and belong to the set V such that V =} V ,, ..., VA,. The u-th observed state emitted by the model at the time t of the Ox sequence is denoted oxt., And belongs to the set V of the observed states of the model. These observed states are shown in Figure 1 which will be described in more detail later. The model is initially in the hidden state Si with an initial probability noted r. = Pr (q, = Si). The set of these initial probabilities for the N 15 hidden states forms a probability distribution it _ (Ir ,, ..., nNj whose sum for 1 if sN is equal to 1. The hidden and observed states of the model 2 \ , are interconnected by probabilistic relations In the X model, we go from the hidden state S, at time t to the hidden state 20 S, at time t + 1 with a transition probability at between two hidden states such that The set of these transition probabilities between two hidden states for the N hidden states forms a transition matrix denoted by A 1, where 1 <i The matrix A can be described as N transition probability distributions ay between two hidden states such as for the hidden state Si, the sum of the transition probabilities a.1 for j varying from 1 to N is equal to 1. If all AI values are strictly greater than zero then all hidden states are interconnected. the X emits the observed state Vk at time t when the model is in the hidden state Si with a probability of emission b; (k) such that b; (k) = Pr (o, = Vk l q, = S;). The set of these emission probabilities for the N hidden states and the M observed states forms a transmission matrix B b; (k) 'where 1_ <i <N and 1_ <k_ <M. The matrix B can be described as N emission probability distributions such as for the hidden state Si, the sum of the transmission probabilities b; (k) for k varying from 1 to m is equal to 1. The hidden Markov model X is defined by a set of parameters combining these initial probabilities, transition between two hidden states and emission. It is represented by the compact notation Ir, A, B. Consider first the case of a simplified Markov X model, in which the model emits only one state observed at time t, which is denoted o, with o, EV and the set of possible observed states at each time t is the same. A sequence of T observed unique states emitted by the model is denoted O = o ,, ..., or. Such a sequence is represented on the first line of FIG. 1. A simple example of such a Markov model with two hidden states S, and S2 and two observed states V, and V2 is represented in FIG. 2. In this figure , the arrows in solid lines represent the possible transitions between the two hidden states and the dashed arrows represent the possible emissions for each hidden state: each of them can emit one or the other of the two observed states.

Chaque flèche du schéma est associée à la probabilité de transition ou d'émission correspondante notée en vis-à-vis. On suppose ici que l'ensemble des paramètres du modèle X considéré sont connus. La détermination de ces paramètres se fait par exemple par des processus d'apprentissage qui ne rentrent pas dans le cadre de ce brevet. Each arrow of the diagram is associated with the corresponding transition or emission probability noted opposite. It is assumed here that all the parameters of the X model considered are known. The determination of these parameters is done for example by learning processes that do not fall within the scope of this patent.

L'une des utilisations d'un modèle de Markov caché X = ,t, A, B connu consiste à déterminer la probabilité que ce modèle émette une séquence particulière de T états observés uniques 0 =015•••,0,.. Cette probabilité est notée Pr(O X). Dans l'exemple ci-dessus, le modèle de Markov caché peut par exemple 25 permettre de calculer la probabilité d'observer la séquence d'états observés suivante : 01 = V,, V,, V,, V2, V1, V2, V,. Selon une première méthode de l'état de la technique, le processeur est programmé pour réaliser le calcul de Pr(O I a,) directement par l'expression suivante: Pr(01X) =1Pr(OIQ,X)Pr(QIX) 30 e où la somme est réalisée sur toutes les séquences d'états cachés possibles. Avec Q =q,, qr et O le processeur applique les formules suivantes : 35 Pr ( Q =q1,...,q. 1 2,.) =Ir q,aq,q,ag2g3...aqr-,qr et Pr(O =o1,...,or 1 Q =g1,...,gr,X) =bq (ol)bgZ (o2)...bgr (or) Avec cette méthode de l'état de la technique, le processeur calcule par exemple successivement la probabilité de chaque séquence d'états observés représentée dans la liste de la figure 3. Cependant, le temps de calcul nécessaire au processeur pour réaliser le calcul de la probabilité d'observer une séquence d'états observés augmente exponentiellement avec le nombre d'états observés de chaque séquence. En effet, le processeur doit alors effectuer de l'ordre de NT opérations du fait qu'il y a NT séquences cachées possibles de taille T Les ordinateurs actuels ne peuvent effectuer ces calculs lorsque T est grand. One of the uses of a known hidden Markov model X =, t, A, B is to determine the probability that this model will emit a particular sequence of T unique observed states 0 = 015 •••, 0, .. This probability is noted Pr (OX). In the example above, the hidden Markov model can, for example, make it possible to calculate the probability of observing the following sequence of observed states: 01 = V ,, V ,, V ,, V2, V1, V2, V ,. According to a first method of the state of the art, the processor is programmed to carry out the calculation of Pr (OI a,) directly by the following expression: Pr (01X) = 1Pr (OIQ, X) Pr (QIX) where the sum is made on all possible hidden state sequences. With Q = q, qr and O the processor applies the following formulas: ## EQU1 ## and Pr (O = o1, ..., or 1 Q = g1, ..., gr, X) = bq (ol) bgZ (o2) ... bgr (or) With this method of the state of the For example, the processor successively calculates the probability of each sequence of observed states represented in the list of FIG. 3. However, the calculation time required for the processor to calculate the probability of observing a sequence of states. observed increases exponentially with the number of observed states of each sequence. Indeed, the processor must then perform the order of NT operations because there are NT possible hidden sequences of size T Current computers can not perform these calculations when T is large.

Ceci est notamment le cas dans les calculs des haplotypes chez l'homme, où le nombre T d'arrangements de deux états observés à prendre en compte dans chaque séquence est souvent de l'ordre de plusieurs centaines. Selon une autre méthode de l'état de la technique, le processeur de l'ordinateur est programmé pour calculer cette probabilité selon l'algorithme de propagation alpha bêta. Pour calculer la probabilité d'observer, dans le modèle X , une séquence O =o,,...,oT donnée de T états observés uniques (figure 1, ligne 1), le processeur calcule alors successivement, pour chaque état observé de rang t de cette séquence O, la probabilité intermédiaire a, (i) d'observer la sous-séquence ol,•••,o, des états observés de la séquence O jusqu'au rang t, appelée sous-séquence d'états observés uniques de taille t, lorsque que le modèle se trouve au temps t dans l'état caché S;. Ceci se traduit par la formule : a, (i) =Pr(o,,...,o,,q, =S; 1 X) Le processeur calcule ces probabilités intermédiaires ut( i) pour tous les états cachés S, du modèle X et pour chaque état observé de la séquence O =o,,...,oT , soit N valeurs de la probabilité intermédiaire a, (i) par état observé, avec les relations récursives suivantes : al(i) =n;b,(o,) a,+! (i) = fat( j)a), En d'autres termes, la probabilité intermédiaire d'observer le premier état observé d'une séquence lorsque le modèle est dans l'état caché Si est égale au produit de la probabilité initiale que le modèle soit dans l'état caché S, par la probabilité d'émission du premier état observé de la séquence, et la probabilité intermédiaire d'observer l'état observé de rang t+1 d'une séquence lorsque le modèle est dans l'état caché Si est égale à la somme sur tous les états cachés du modèle du produit de la probabilité intermédiaire d'observer l'état observé de rang t de la séquence par la probabilité de transition entre l'état caché S, et un autre état caché du modèle par la probabilité d'émission de l'état observé de rang t+1 lorsque le modèle est dans cet autre état caché. Une fois les valeurs des probabilités intermédiaires a, (i) obtenues pour les T états observés, le processeur calcule la probabilité d'observer la séquence O Pr(O I x) en sommant les probabilités intermédiaires calculées au rang T pour la séquence O complète sur tous les états cachés possibles, c'est-à-dire pour i variant de 1 à N, selon la formule Pr(01x) =ZIXT (i) Pour effectuer le calcul de Pr(O I X.) par cet algorithme de propagation alpha bêta, le processeur effectue ici de l'ordre de T*N2 opérations. This is particularly the case in human haplotype calculations, where the number T of observed two-state arrangements to be taken into account in each sequence is often of the order of several hundred. According to another method of the state of the art, the processor of the computer is programmed to calculate this probability according to the alpha beta propagation algorithm. To calculate the probability of observing, in the X model, a sequence O = o ,, ..., oT given by T unique observed states (FIG. 1, line 1), the processor then calculates successively, for each observed state of rank t of this sequence O, the intermediate probability has, (i) observe the subsequence ol, •••, o, from the observed states of the sequence O to the rank t, called the sub-sequence of states unique observed of size t, when the model is at time t in the hidden state S ;. This results in the formula: a, (i) = Pr (o ,, ..., o ,, q, = S; 1 X) The processor calculates these intermediate probabilities ut (i) for all the hidden states S, of the model X and for each observed state of the sequence O = o ,, ..., oT, let N be the values of the intermediate probability a, (i) by observed state, with the following recursive relations: al (i) = n ; b, (o,) a, +! (i) = fat (j) a), In other words, the intermediate probability of observing the first observed state of a sequence when the model is in the hidden state If is equal to the product of the initial probability that the model is in the hidden state S, by the probability of emission of the first observed state of the sequence, and the intermediate probability of observing the observed state of rank t + 1 of a sequence when the model is in the concealed state If is equal to the sum on all the hidden states of the product model of the intermediate probability of observing the observed state of rank t of the sequence by the transition probability between the hidden state S, and another hidden state of the model by the probability of emission of the observed state of rank t + 1 when the model is in this other hidden state. Once the values of the intermediate probabilities a, (i) obtained for the T states observed, the processor calculates the probability of observing the sequence O Pr (OI x) by summing the intermediate probabilities calculated at rank T for the complete O sequence on all possible hidden states, that is to say for i varying from 1 to N, according to the formula Pr (01x) = ZIXT (i) To perform the calculation of Pr (OI X.) by this alpha propagation algorithm beta, the processor performs here of the order of T * N2 operations.

Comme expliqué précédemment, le modèle de Markov caché peut émettre un nombre p d'état observé à chaque temps t, et l'ensemble des états observés possibles pour la variable à chaque temps t peut varier. Dans le cas où le modèle de Markov caché émet un nombre p d'états observés à chaque temps t, selon cette méthode de l'état de la technique, le processeur calcule la probabilité d'observer une séquence Ox d'arrangements de p états observés (ox1,1ioxl,2,••.ox1,p; OX2,1,OX2,2•.•OX2,P; .... ;OXT1,OXT2•••oxTp) en calculant la probabilité d'observer un arrangement correspondant de p séquences d'états observés uniques (Ox1,1,0x2,1,...OXT,1),(OX1,2,0x2,2...OxT2),...(oX,,p,Ox2,p...OXTp) de la variable. En pratique, dans la mémoire de l'ordinateur, chaque séquence Ox d'arrangements d'états observés oxt,u est stockée sous la forme d'une table ou d'une matrice dont chaque enregistrement contient un état observé du modèle. Pour l'état observé noté oxt,u , l'exposant x indique à quelle séquence de l'ensemble des séquences appartient ledit état observé, l'indice t indique le rang t de ladite séquence de l'arrangement de p états observés auquel appartient ledit état observé et l'indice u indique le rang u de cet état observé dans ledit arrangement de rang t de la séquence Ox. Comme le montre la figure 1, lignes 2 et 3, les états observés oxt,u, avec u compris entre 1 et p, de l'arrangement Dxt de rang t de chaque séquence correspondent aux enregistrements de la table disposés dans la colonne d'indice t de cette table. Chaque sous-séquence d'états observés uniques de taille T et de rang u (ox1,u,ox2,u,...oxTu) de chaque arrangement de la séquence correspond aux enregistrements de la table disposés sur la ligne d'indice u et est désignée par la référence Exu. As explained above, the hidden Markov model can emit a number p of state observed at each time t, and the set of possible observed states for the variable at each time t can vary. In the case where the hidden Markov model emits a number p of states observed at each time t, according to this method of the state of the art, the processor calculates the probability of observing a sequence Ox of arrangements of p states observed (ox1,1ioxl, 2, ••, ox1, p; OX2,1, OX2,2 •. • OX2, P; ....; OXT1, OXT2 ••• oxTp) by calculating the probability of observing a corresponding arrangement of p sequences of unique observed states (Ox1,1,0x2,1, ... OXT, 1), (OX1,2,0x2,2 ... OxT2), ... (oX ,, p, Ox2, p ... OXTp) of the variable. In practice, in the memory of the computer, each observed state arrangement sequence Oxt oxt, u is stored in the form of a table or a matrix whose each record contains an observed state of the model. For the observed state noted oxt, u, the exponent x indicates which sequence of all the sequences belongs to said observed state, the index t indicates the rank t of said sequence of the arrangement of p observed states to which belongs said observed state and the index u indicates the rank u of this state observed in said arrangement of rank t of the sequence Ox. As shown in Figure 1, lines 2 and 3, the observed states oxt, u, with u between 1 and p, of the arrangement Dxt of rank t of each sequence correspond to the records of the table arranged in the column of index t of this table. Each sub-sequence of unique observed states of size T and of rank u (ox1, u, ox2, u, ... oxTu) of each arrangement of the sequence corresponds to the recordings of the table arranged on the index line u. and is designated by the reference Exu.

Pour calculer la probabilité d'observer l'arrangement de p séquences d'états observés uniques (oxl,u,ox2,u,...oxTu), le processeur calcule comme décrit précédemment, selon l'algorithme de propagation alpha bêta, la probabilité 13 d'observer chacune des p séquences d'états observés uniques (0X1,1,0X2,1,...OXTI),(OX,,2,0X22...OXT2),...(ox,,p,oX2,p...OXTp), puis le processeur calcule la probabilité d'observer la séquence OX d'arrangements de p états observés (OX1,1,OX1,2,...OX1,p; OX2,1,OX2,2...OX2,p; .... ;0XT,1,OXT2...OXT,p) en multipliant ces p probabilités d'observer chacune des p séquences d'états observés uniques de taille T. Selon cette méthode de l'état de la technique, pour calculer les probabilités d'observer un nombre I de séquences O1 ...0' d'arrangements de p états observés du modèle, le processeur applique p*l fois l'algorithme alpha bêta exposé. Le nombre d'opérations nécessaires au calcul d'une séquence restant élevé, le nombre total de séquence pouvant être prises en compte par cette méthode est limité. La présente invention propose d'accélérer le calcul par le processeur des probabilités d'observer chaque séquence d'un ensemble d'un nombre donné I de séquences comportant chacune un nombre T d'arrangements de p états observés en éliminant les calculs de probabilités intermédiaires redondants dans l'ensemble des différentes séquences considérées. Pour cela, le processeur de l'ordinateur est programmé pour effectuer les tâches correspondant aux étapes décrites ci-après. Les I séquence OX d'arrangement d'états observés oXt,, sont représentées 20 dans différentes tables, comme le montre la figure 1, ligne 3. Construction de l'arbre informatique. Le processeur est programmé pour, dans une étape a), classer lesdites séquences d'arrangements de p états observés selon un arbre informatique stocké dans la mémoire de l'ordinateur. Cet arbre comporte par exemple un noeud 25 racine vide ou contenant un enregistrement quelconque ainsi qu'une pluralité d'ensemble de noeuds nkt de profondeur t. L'indice k de la notation nkt indique la position du noeud nkt dans l'ensemble des noeuds de profondeur t. Cet indice sera omis dans la suite de la description lorsque l'on considère l'un des noeuds de profondeur t quelconque parmi l'ensemble des noeuds de profondeur t, ce noeud 30 de profondeur t quelconque sera donc noté nt. L'arbre informatique est équivalent à une base de données informatique dans laquelle les enregistrements du champ t correspondent à chaque noeuds nt de profondeur t dans l'arbre. Comme représenté schématiquement sur la figure 5, chaque noeud nt de 35 profondeur t dans l'arbre est ici défini comme un enregistrement de base de données informatique contenant au moins un arrangement Dnt de p états observés et un identifiant du noeud parent nt-, de profondeur t-1 du noeud nt de profondeur t. Dans le cas de I séquences OX d'états observés uniques telles que représentées sur la figure 1, ligne 1, chaque noeud nt de l'arbre contient l'un des états observé oXt de rang t de l'une de ces I séquences OX. Cet état observé est noté 0,,, . Dans le cas de I séquences OX d'arrangements Dxt de p états observés telles que représentées sur la figure 1, ligne 2 et 3, chaque noeud nt de l'arbre contient l'un des arrangements de p états observés Dxt de rang t de l'une de ces I séquences OX. Les états observés de cet arrangement de p états observés sont notés ont,u. L'arrangement contenu dans chaque noeud de profondeur t est noté Dnt. L'arbre comporte trois types de noeuds. Les premiers noeuds ont comme parent le noeud racine noté R sur la figure 5. Ce noeud racine joue uniquement un rôle de référence pour l'initiation de l'arbre et il est par exemple vide. Les noeuds internes de l'arbre ont un noeud parent qui n'est pas le noeud racine et au minimum un noeud enfant. Les noeuds terminaux de l'arbre ont un noeud parent mais aucun noeud enfant. Pour les I séquences de l'ensemble des séquences, il y aura I noeuds terminaux dans l'arbre. Le processeur effectue dans l'étape a) les sous-étapes suivantes : a1) enregistrer, dans les premiers noeuds n, de profondeur 1 dans l'arbre, chaque arrangement de p états observés de rang 1 desdites séquences OX, a2) enregistrer, dans chaque noeud nt de profondeur t comprise entre 2 et T, l'arrangement de p états observés de ladite variable du rang t correspondant 25 de chaque séquence d'au moins une partie de l'ensemble desdites séquences et un identifiant du noeud parent nt_, de profondeur t-1 de ce noeud nt de profondeur t, toutes les séquences dont les arrangements de p états observés sont identiques jusqu'au rang t étant regroupées sur une même branche de l'arbre qui 30 s'étend de l'un desdits premiers noeuds n, à l'un desdits noeuds nt de profondeur t. Lors de l'étape a1), le processeur enregistre également dans chaque noeud n, un identifiant du noeud racine correspondant. En référence à la figure 1, ligne 3, dans l'étape a1) de la méthode, le processeur enregistre dans chaque premier noeud n, de l'arbre les colonnes 1 35 desdites tables qui correspondent aux arrangements DX, d'états observés. Dans l'étape a2), le processeur enregistre dans chaque noeud nt de profondeur t comprise entre 2 et T la colonne d'indice t d'au moins une partie desdites tables. To calculate the probability of observing the arrangement of p sequences of unique observed states (oxl, u, ox2, u, ... oxTu), the processor calculates, as previously described, according to the alpha beta propagation algorithm, the probability 13 of observing each of the p sequences of single observed states (0X1,1,0X2,1, ... OXTI), (OX ,, 2,0X22 ... OXT2), ... (ox ,, p , oX2, p ... OXTp), then the processor calculates the probability of observing the OX sequence of arrangements of p observed states (OX1,1, OX1,2, ... OX1, p; OX2,1, OX2 , 2 ... OX2, p; ....; 0XT, 1, OXT2 ... OXT, p) by multiplying these p probabilities of observing each of the p sequences of single observed states of size T. According to this method of the state of the art, to compute the probabilities of observing a number I of sequences O1 ... 0 'of arrangements of p observed states of the model, the processor applies p * 1 times the exposed alpha beta algorithm. The number of operations required to calculate a sequence remaining high, the total number of sequences that can be taken into account by this method is limited. The present invention proposes to accelerate the calculation by the processor of the probabilities of observing each sequence of a set of a given number of sequences each comprising a number T of p-state arrangements observed by eliminating the intermediate probability calculations. redundant in all the different sequences considered. For this, the processor of the computer is programmed to perform the tasks corresponding to the steps described below. The observed state arrangement OX sequences OXt ,, are shown in different tables, as shown in Figure 1, line 3. Construction of the computer tree. The processor is programmed to, in a step a), classify said sequences of arrangements of p observed states according to a computer tree stored in the memory of the computer. This tree comprises for example an empty root node 25 or containing any record as well as a plurality of nodes nkt of depth t. The index k of the notation nkt indicates the position of the node nkt in the set of nodes of depth t. This index will be omitted from the following description when considering one of the nodes of any depth t among the set of nodes of depth t, this node of any depth t will therefore be denoted nt. The computer tree is equivalent to a computer database in which the records of the field t correspond to each node nt of depth t in the tree. As shown diagrammatically in FIG. 5, each node nt of depth t in the tree is herein defined as a computer database record containing at least one Dnt arrangement of p observed states and an identifier of the parent node nt-, of depth t-1 of the node nt of depth t. In the case of OX sequences of unique observed states as represented in FIG. 1, line 1, each node nt of the tree contains one of the observed states oXt of rank t of one of these I OX sequences. . This observed state is denoted 0 ,,,. In the case of the OX sequences of Dxt arrangements of p observed states as represented in FIG. 1, lines 2 and 3, each node nt of the tree contains one of the arrangements of p observed states Dxt of rank t of one of these I OX sequences. The observed states of this arrangement of p observed states are denoted by a, u. The arrangement contained in each node of depth t is denoted Dnt. The tree has three types of nodes. The first nodes have as parent the root node noted R in Figure 5. This root node plays only a reference role for the initiation of the tree and it is for example empty. The internal nodes of the tree have a parent node that is not the root node and at least one child node. The terminal nodes of the tree have a parent node but no child node. For the I sequences of all the sequences, there will be I terminal nodes in the tree. The processor performs in step a) the following substeps: a1) record, in the first nodes n, of depth 1 in the tree, each arrangement of p observed states of rank 1 of said sequences OX, a2) record, in each node n of depth t between 2 and T, the arrangement of p observed states of said variable of the corresponding rank t of each sequence of at least a part of all of said sequences and an identifier of the parent node nt_ , of depth t-1 of this node nt of depth t, all the sequences whose arrangements of p observed states are identical up to row t being grouped together on the same branch of the tree which extends from one said first nodes n, at one of said nodes nt of depth t. During step a1), the processor also records in each node n, an identifier of the corresponding root node. With reference to FIG. 1, line 3, in step a1) of the method, the processor records in each first node n of the tree the columns 1 35 of said tables which correspond to the arrangements DX of observed states. In step a2), the processor records in each node nt of depth t between 2 and T the index column t of at least a part of said tables.

Les noeuds nt de profondeur t dans l'arbre contiennent donc les colonnes d'indice t desdites tables, qui correspondent aux arrangements Dxt d'états observés de rang t de chaque séquence OX correspondante, arrangements Dxt qui regroupe les états observés émis par le modèle au temps t de ce modèle et sont notés de manière générale dans l'arbre Dnt. Dans ledit arbre informatique, deux séquences OX et OY sont sur une même branche, c'est-à-dire un même chemin jusqu'au noeud de profondeur t si et The nodes nt of depth t in the tree thus contain the columns of index t of said tables, which correspond to the Dxt arrangements of observed states of rank t of each corresponding OX sequence, Dxt arrangements which groups together the observed states emitted by the model at time t of this model and are generally noted in the Dnt tree. In said computer tree, two sequences OX and OY are on the same branch, that is to say, the same path to the node of depth t if and

seulement si o; 'oiv,...,o =o, et °f+, ≠Ol , dans le cas d'un modèle n'émettant qu'un seul état observé à chaque temps t. Le processeur traite alors un ensemble de séquences semblables à celle de la figure 1, ligne 1. La figure 4 montre par exemple la classification en arbre des séquences de la liste de la figure 3. Dans le cas d'un modèle émettant p états observés à chaque temps t, deux séquences OX et OY sont sur une même branche, c'est-à-dire un même chemin jusqu'au noeud de profondeur t lorsque : / T Y / x Y ' r Y T ù Y x ù Y x ù °I,P ù°t,P °z,P ù°Z.P °~,P ù°~,p Le processeur peut également enregistrer dans chaque noeud nt un identifiant de l'ensemble des noeuds enfants i n,+,j de ce noeud nt. Cet ensemble 20 peut être vide. Ces étapes a1) et a2) correspondent à la transformation des I tables utilisées pour le calcul séquentiel selon l'état de la technique des probabilités des séquences correspondantes, représentées sur la figure 1, ligne 3, en un arbre adapté à être exploré de manière plus rapide et plus efficace, comme représenté only if o; oiv, ..., o = o, and ° f +, ≠ Ol, in the case of a model emitting only one state observed at each time t. The processor then processes a set of sequences similar to that of FIG. 1, line 1. FIG. 4 shows, for example, the classification in tree of the sequences of the list of FIG. 3. In the case of a model emitting p observed states at each time t, two sequences OX and OY are on the same branch, that is to say, the same path to the node of depth t when: / TY / x Y 'r YT ù Y x ù Y x ù The processor can also record in each node nt an identifier of the set of child nodes in, +, j of this node. knot nt. This set 20 may be empty. These steps a1) and a2) correspond to the transformation of the I tables used for the sequential calculation according to the state of the art of the probabilities of the corresponding sequences, represented in FIG. 1, line 3, into a tree adapted to be explored so faster and more efficient, as shown

25 sur la figure 5. Calcul des probabilités intermédiaires correspondant aux états observés enregistrés dans chaque premier noeud de l'arbre. Selon la présente invention, le processeur effectue également les tâches décrites ci-après. 30 Dans une étape b), il calcule, pour chaque premier noeud n, de l'arbre et pour chaque état caché S; dudit modèle de Markov caché, la probabilité intermédiaire d'observer chaque état observé on,,u de l'arrangement de p états observés de ladite variable enregistré dans ce premier noeud n,, ledit modèle étant dans ledit état caché S; au temps 1 du modèle. 35 Dans le cas simple du modèle de Markov décrit précédemment, le modèle n'émet qu'un seul état observé on au temps t et chaque arrangement de p états observés ne contient qu'un seul état observé de la variable : p est égale à 1. 25 in FIG. 5. Calculation of the intermediate probabilities corresponding to the observed states recorded in each first node of the tree. According to the present invention, the processor also performs the tasks described below. In a step b), it calculates, for each first node n, the tree and for each hidden state S; said hidden Markov model, the intermediate probability of observing each observed state on ,, u of the arrangement of p observed states of said variable recorded in this first node n ,, said model being in said hidden state S; at time 1 of the model. In the simple case of the Markov model described above, the model emits only one observed state on at time t and each arrangement of p observed states contains only one observed state of the variable: p is equal to 1.

Le processeur calcule alors les N probabilités intermédiaires associées à l'état observé o,, de chaque noeud n, de profondeur 1 qui sont égales au produit de la probabilité initiale que le modèle soit dans l'état caché S. au temps 1 par la probabilité d'émission de l'état observé. Les probabilités intermédiaires associées à l'état observé O,, du noeud n, vérifient ainsi l'équation suivante : aä (i)=itb;(oä) Dans l'exemple de l'arbre représenté sur la figure 4, le processeur calcule les probabilités intermédiaires associées aux deux seuls noeuds de profondeur 1 contenant chacun l'un des deux états observés possibles V, et V2. The processor then calculates the N intermediate probabilities associated with the observed state o ,, of each node n, of depth 1 which are equal to the product of the initial probability that the model is in the hidden state S. at time 1 by the probability of emission of the observed state. The intermediate probabilities associated with the observed state O ,, of the node n, thus satisfy the following equation: aä (i) = itb; (oä) In the example of the tree represented in FIG. 4, the processor calculates the intermediate probabilities associated with the only two nodes of depth 1 each containing one of the two possible observed states V, and V2.

Dans le cas d'un modèle de Markov émettant p états observés au temps t, le processeur calcule la probabilité intermédiaire d'observer chaque état observé onl de l'arrangement de p états observés de ladite variable enregistré dans chaque premier noeud lorsque le modèle est dans l'état caché Si. Le processeur calcule donc la matrice de P XN probabilités 15 intermédiaires associée à chaque noeud n, de profondeur 1 avec am,. (i) =71;b; (o,, ) où i est compris entre 1 et N et u est compris entre 1 et p. Calcul des probabilités intermédiaires correspondant aux états observés enregistrés dans chaque noeud de profondeur t dans l'arbre. Dans une étape c), il calcule pour chaque noeud de profondeur t 20 comprise entre 2 et T-1, pour chaque état observé de rang u compris entre 1 et p dans l'arrangement de p états observés enregistré dans le noeud de profondeur t correspondant, et pour chaque état caché dudit modèle de Markov caché, une probabilité intermédiaire d'observer la sous-séquence d'états observés uniques comportant à chaque rang compris entre 1 et t, l'état observé de rang u dans 25 l'arrangement de p états observés situé au rang correspondant de la séquence considérée, cette sous-séquence étant appelée sous-séquence d'états observés uniques de taille t et de rang u de cette séquence, ledit modèle étant dans ledit état caché au temps t de ce modèle. Comme représenté sur la figure 1, ligne 3, chaque sous-séquence CXt,u 30 d'états uniques de taille t et de rang u de chaque séquence comporte les états observés situés sur la ligne d'indice u de la table correspondante dans les colonnes d'indices 1 à t. L'arbre permet de ne représenter et donc de ne calculer qu'une fois les sous-séquences identiques de toutes les séquences de l'ensemble des séquences. 35 Dans l'exemple de l'arbre représenté sur la figure 4, le processeur calcule les probabilités intermédiaires associées aux noeuds de profondeur 2 à 6 contenant chacun l'un des deux états observés possibles V, et V2. In the case of a Markov model emitting p states observed at time t, the processor calculates the intermediate probability of observing each observed state onl of the arrangement of p observed states of said variable recorded in each first node when the model is in the hidden state Si. The processor thus calculates the matrix of P XN intermediate probabilities associated with each node n, of depth 1 with am ,. (i) = 71; b; (o ,,) where i is between 1 and N and u is between 1 and p. Calculation of the intermediate probabilities corresponding to the observed states recorded in each node of depth t in the tree. In a step c), it calculates for each node of depth t between 2 and T-1, for each observed state of rank u between 1 and p in the arrangement of p observed states recorded in the node of depth t corresponding, and for each hidden state of said hidden Markov model, an intermediate probability of observing the subset of single observed states having at each rank between 1 and t, the observed state of rank u in the arrangement p observed states located at the corresponding rank of the sequence in question, this subsequence being called sub-sequence of unique observed states of size t and rank u of this sequence, said model being in said hidden state at time t of this model. As shown in FIG. 1, line 3, each sub-sequence CXt, u of single states of size t and of rank u of each sequence comprises the observed states situated on the index line u of the corresponding table in FIGS. columns of indices 1 to t. The tree makes it possible to represent and thus to calculate only once the identical subsequences of all the sequences of all the sequences. In the example of the tree shown in FIG. 4, the processor calculates the intermediate probabilities associated with the depth nodes 2 to 6 each containing one of the two possible observed states V 1 and V 2.

Dans le cas simple du modèle de Markov émettant un seul état observé à chaque temps t, chaque noeud nt de profondeur t comportant un noeud parent unique nt_, de profondeur t-1 associé aux probabilités intermédiaires an,_ i (i) , dans le cas simple où p est égale à 1, le processeur calcule la probabilité intermédiaire associée à l'état observé ont de chaque noeud nt de profondeur t lorsque le modèle est dans l'état caché S, au temps t du modèle en sommant sur tous les états cachés de ce modèle le produit de la probabilité intermédiaire associée au noeud parent dudit noeud nt de profondeur t pour un état caché Si par la probabilité de transition entre cet état caché Si et l'état caché Si du modèle que multiplie la probabilité d'émission de l'état observé ont du noeud nt considéré par le modèle dans l'état caché S. Chaque probabilité intermédiaire associée à l'état observé de chaque noeud nt de profondeur t pour chaque état caché S, de l'exemple de modèle de Markov décrit précédemment vérifie ainsi l'équation a.,, ( t) _man,., (.i) a,, b, (°,,,) . In the simple case of the Markov model emitting a single state observed at each time t, each node nt of depth t having a unique parent node nt_, of depth t-1 associated with the intermediate probabilities an, _ i (i), in the simple case where p is equal to 1, the processor calculates the intermediate probability associated with the observed state of each node n of depth t when the model is in the hidden state S, at time t of the model by summing over all hidden states of this model the product of the intermediate probability associated with the parent node of said node nt of depth t for a hidden state If by the transition probability between this hidden state Si and the hidden state Si of the model multiplied by the probability of emission of the observed state have the node nt considered by the model in the hidden state S. Each intermediate probability associated with the observed state of each node nt of depth t for each hidden state S, of the The above-described Markov model example thus satisfies the equation .alpha..sub.1 (.tau.), (.

Le processeur calcule ainsi N probabilités intermédiaires pour chaque noeud nt de profondeur t dans l'arbre. Dans le cas du modèle de Markov émettant p états observés au temps t, le processeur calcule la matrice de P XN probabilités intermédiaires associée à chaque noeud nt de profondeur t. La probabilité intermédiaire de chaque sous- séquence Cxt,u d'états observés uniques de taille t et de rang u de la séquence Ox considérée, lorsque ledit modèle est dans ledit état caché S, au temps t de ce N modèle est calculée par la formule an,.0 (i) = b ,(0 , , , . , , ) où i est compris entre 1 et N et u est compris entre 1 et p. Calcul de la probabilité d'observer chaque séquence associée aux 25 noeuds terminaux de l'arbre. Dans une étape d), le processeur calcule, pour chaque noeud terminal de l'arbre, la probabilité d'observer la séquence d'arrangements de p états observés de ladite variable décrite par la branche de l'arbre menant du premier noeud correspondant audit noeud terminal de l'arbre. 30 Dans l'exemple de l'arbre représenté sur la figure 4, le processeur calcule la probabilité de chaque séquence O' à 06 correspondant aux branches de l'arbre menant aux noeuds de profondeur 7. Dans le cas général, les noeuds terminaux sont notés nT, et contiennent chacun un arrangement DnT de p états observés. 35 Le noeud parent du noeud nT de profondeur T étant le noeud nT_, de profondeur T-1 associé aux probabilités intermédiaires anT., (i) , dans le cas simple du modèle de Markov où p est égale à 1, le processeur calcule la probabilité intermédiaire associée à l'état observé de chaque noeud nT terminal pour chaque état caché Si du modèle en sommant sur tous les états cachés de ce modèle le produit de la probabilité intermédiaire associée au noeud parent nT_, du noeud nT pour un état caché Si par la probabilité de transition entre cet état caché S, et l'état caché Si du modèle que multiplie la probabilité d'émission de l'état observé considéré par le modèle dans l'état caché Si. En d'autres termes, le processeur calcule chacune des N probabilités intermédiaires associées à nT par la formule suivante : c,, (i) = b;(o, ) Ensuite, le processeur calcule dans cette étape d), pour chaque noeud terminal de l'arbre, la probabilité de la séquence OX correspondant à ce noeud terminal en sommant les probabilités intermédiaires associées à l'état observé du noeud nT pour tous les états cachés du modèle, selon la formule suivante : Pr(O lx) =Xa, (i) Dans le cas du modèle de Markov émettant p états observés au temps t, pour calculer la probabilité d'observer chaque séquence OX de l'ensemble des I séquences d'arrangements de p états observés de ladite variable correspondant à chaque noeud terminal, le processeur calcule tout d'abord les probabilités intermédiaires d'observer chacune des p sous-séquences EXu d'états observés uniques de taille T et de rang u (ox,,2,oX2,2...oxT,2),...(ox,,P,ox2,p...oxTp) comprises dans la séquence d'arrangements de p états observés correspondant audit noeud terminal lorsque le modèle est dans chacun de ses états cachés au temps T, pour tous les états cachés du modèle. Comme le montre la figure 1, ligne 3, chaque sous-séquences d'états observés uniques de taille T et de rang u notée EXu comporte les états observés situés sur la ligne d'indice u de la table correspondante, dans les colonnes d'indices 1 à T. L'arbre permet de ne représenter et donc de ne calculer qu'une fois les sous-séquences identiques de toutes les séquences de l'ensemble des séquences. The processor thus calculates N intermediate probabilities for each node nt of depth t in the tree. In the case of the Markov model emitting p states observed at time t, the processor calculates the matrix of P XN intermediate probabilities associated with each node nt of depth t. The intermediate probability of each sub-sequence Cxt, u of unique observed states of size t and rank u of the considered Ox sequence, when said model is in said hidden state S, at the time t of this N model is calculated by the formula an, .0 (i) = b, (0,,,.,,) where i is between 1 and N and u is between 1 and p. Calculation of the probability of observing each sequence associated with the 25 terminal nodes of the tree. In a step d), the processor calculates, for each terminal node of the tree, the probability of observing the sequence of arrangements of p observed states of said variable described by the branch of the leading tree of the first node corresponding to said terminal node of the tree. In the example of the tree represented in FIG. 4, the processor calculates the probability of each sequence O 'to 06 corresponding to the branches of the tree leading to the nodes of depth 7. In the general case, the terminal nodes are denoted nT, and each contain a DnT arrangement of p observed states. The parent node of the node nT of depth T being the node nT_, of depth T-1 associated with intermediate probabilities anT., (I), in the simple case of the Markov model where p is equal to 1, the processor calculates the intermediate probability associated with the observed state of each node nT terminal for each hidden state Si of the model by summing over all the hidden states of this model the product of the intermediate probability associated with the parent node nT_, of the node nT for a hidden state Si by the transition probability between this hidden state S, and the hidden state Si of the model multiplied by the probability of emission of the observed state considered by the model in the hidden state Si. In other words, the processor calculates each of the N intermediate probabilities associated with nT by the following formula: c ,, (i) = b; (o,) Then, the processor calculates in this step d), for each terminal node of the tree, the probability of the sequence OX co corresponding to this terminal node by summing the intermediate probabilities associated with the observed state of the node nT for all the hidden states of the model, according to the following formula: Pr (O lx) = Xa, (i) In the case of the Markov model emitting p observed states at time t, in order to calculate the probability of observing each OX sequence of all I arrangement sequences of p observed states of said variable corresponding to each terminal node, the processor first calculates the probabilities intermediates to observe each of the p subsequences EXu of single observed states of size T and of rank u (ox ,, 2, oX2,2 ... oxT, 2), ... (ox ,, P, ox2 , p ... oxTp) included in the sequence of arrangements of p observed states corresponding to said terminal node when the model is in each of its hidden states at time T, for all the hidden states of the model. As shown in FIG. 1, line 3, each sub-sequence of unique observed states of size T and of rank u denoted EXu comprises the observed states situated on the index line u of the corresponding table, in the columns of FIG. indices 1 to T. The tree makes it possible to represent and thus to calculate only once the identical subsequences of all the sequences of all the sequences.

Puis, pour chaque noeud terminal, il calcule la probabilité d'observer chacune des p sous-séquences EXu d'états observés uniques de taille T et de rang u (ox,,,,ox2,,,...oxT,,), (0X1,2,oX2,2...oXT2),...(oX1,p,oX2,P...OXT,p) comprises dans la séquence OX d'arrangements de p états observés correspondant audit noeud terminal nT en sommant les probabilités intermédiaires d'observer chacune des p sous- séquences d'états observés uniques de taille T et de rang u pour tous les états cachés du modèle. Ensuite, dans cette étape d), le processeur calcule la probabilité d'observer la séquence OX complète correspondant à chaque noeud terminal n-r en multipliant, pour chaque noeud terminal nT, les probabilités d'observer les sous-séquences d'états observés uniques de taille T et de rang u correspondant audit noeud terminal pour tous les rangs u compris entre 1 et p, selon la formule suivante : P N Pr(Ox lx) =1-1anrä(i) L'ensemble des p*N valeurs des probabilités intermédiaires an,,,, (i) avec 1<_ i <_N et 1<_ u sp calculées pour réaliser le calcul de la probabilité d'observer 10 chaque sous-séquence et de chaque séquence d'arrangements de p états observés d'un noeud de l'arbre sont enregistrées de préférence dans chaque noeud nt correspondant. Pour effectuer les calculs de probabilité intermédiaires définis plus haut pour chaque noeud, le processeur utilise les valeurs des probabilités 15 intermédiaires calculées pour l'état observé du noeud parent correspondant. Différents modes de réalisation sont envisagés pour réaliser les étapes précédemment décrites, qui correspondent à différents parcours de l'arbre. Selon un premier mode de réalisation, le processeur parcours l'arbre en largeur, c'est-à-dire par profondeur successives, c'est-à-dire qu'il effectue tous les 20 calculs relatifs aux noeuds nt d'une même profondeur t avant d'effectuer les calculs relatifs aux noeuds enfants de profondeur t+1 de ces noeuds nt. Pour cela, il effectue les étapes b), c) et d) dans cet ordre, et, lors de l'étape c), le processeur calcule d'abord pour tous les noeuds nt de même profondeur t et pour tous les états cachés du modèle au temps t, lesdites 25 probabilités intermédiaires d'observer lesdites sous-séquences CXt,U d'états observés uniques de taille t et de rang u, pour tous les rangs u compris entre 1 et p lorsque ledit modèle est dans chaque état caché au temps t, ces sous-séquences correspondant aux états observés de l'arrangement de p états observés enregistré dans chacun de ces noeuds nt. Ensuite, le processeur 30 effectue le calcul des probabilités intermédiaires d'observer les sous-séquences CXt+,,u d'états observés uniques de taille t+1 et de rang u, pour tous les rangs u compris entre 1 et p lorsque ledit modèle est dans chacun de ses états cachés au temps t+1, ces sous-séquences correspondant aux états observés de l'arrangement de p états observés enregistré dans chaque noeud nt+, de 35 profondeur t+1. Alternativement, selon un autre mode de réalisation de la méthode, le processeur parcours l'arbre en profondeur préfixée, par branches successives. Then, for each terminal node, it calculates the probability of observing each of the p subsequences EXu of single observed states of size T and of rank u (ox ,,,, ox2 ,,, ... oxT ,,) , (0X1,2, oX2,2 ... oXT2), ... (oX1, p, oX2, P ... OXT, p) included in the OX sequence of arrangements of p observed states corresponding to said terminal node nT summing the intermediate probabilities of observing each of the p single-observed states of size T and rank u for all hidden states of the model. Then, in this step d), the processor calculates the probability of observing the complete OX sequence corresponding to each terminal node nr by multiplying, for each terminal node nT, the probabilities of observing the sub-sequences of unique observed states of size T and of rank u corresponding to said terminal node for all ranks u lying between 1 and p, according to the following formula: PN Pr (Ox lx) = 1-1anrä (i) The set of p * N values of intermediate probabilities an ,,,, (i) with 1 <_ i <_N and 1 <_ u sp calculated to perform the calculation of the probability of observing each subsequence and each sequence of arrangements of p observed states of a node of the tree are registered preferably in each node nt corresponding. To perform the intermediate probability calculations defined above for each node, the processor uses the values of the intermediate probabilities calculated for the observed state of the corresponding parent node. Various embodiments are envisaged for carrying out the previously described steps, which correspond to different paths of the tree. According to a first embodiment, the processor traverses the tree in width, that is to say by successive depths, that is to say that it performs all the calculations relating to the nodes nt of the same depth t before making the calculations relating to the child nodes of depth t + 1 of these nodes nt. For this, it performs steps b), c) and d) in this order, and, in step c), the processor calculates first for all nodes nt of the same depth t and for all the hidden states of the model at time t, said intermediate probabilities of observing said subsequences CXt, U of unique observed states of size t and rank u, for all ranks u between 1 and p when said model is in each state hidden at time t, these subsequences corresponding to the observed states of the arrangement of p observed states recorded in each of these nodes nt. Then, the processor 30 performs the computation of the intermediate probabilities of observing the subsequences CXt + ,, u of single observed states of size t + 1 and of rank u, for all the ranks u lying between 1 and p when said model is in each of its hidden states at time t + 1, these subsequences corresponding to the observed states of the arrangement of p observed states recorded in each node nt +, of depth t + 1. Alternatively, according to another embodiment of the method, the processor traverses the tree in depth prefixed by successive branches.

Pour cela, le processeur enregistre dans chaque noeud nt un identifiant de l'ensemble des noeuds enfants nt+, de ce noeud nt, et il effectue les étapes b), c) et d) pour tous les noeuds d'une même branche de l'arbre jusqu'à une profondeur t préfixée de l'arbre avant de passer aux noeuds d'une autre branche de l'arbre. For this purpose, the processor records in each node nt an identifier of the set of child nodes nt +, of this node nt, and it performs the steps b), c) and d) for all the nodes of the same branch of the node. tree to a depth t prefixed from the tree before moving to the nodes of another branch of the tree.

Grâce à la méthode selon l'invention, le processeur n'effectue aucun calcul identique plusieurs fois pour calculer les probabilités de l'ensemble des séquences. Le temps de calcul nécessaire à la détermination des probabilités d'observer différentes séquences d'états observées peut ainsi être considérablement diminué. Cette diminution dépend évidemment des ressemblances existant entre les différentes séquences considérées. En variante, selon l'invention, quel que soit le mode de réalisation de l'invention, lors de l'étape c), le processeur calcule, pour chaque noeud nt de profondeur t comprise entre 2 et T-1, la probabilité d'observer la sous-séquence Cxt,u d'états observés uniques de taille t et de rang u (ox,,u,ox2,u,...oxt,u) qui est égale à la somme des probabilités intermédiaires d'observer les sous-séquences Cxt,u d'états observés uniques de taille t et de rang u correspondant à ce noeud, lorsque ledit modèle est dans ledit état caché au temps t, pour tous les états cachés du modèle au temps t. Comme exposé précédemment, chaque sous-séquence Cxt, d'états observés uniques de taille t et de rang u comporte les états observés situés sur la ligne d'indice u de la table correspondante, dans les colonnes d'indices 1 à t. En outre, lors de l'étape c), le processeur peut être programmé pour calculer, pour chaque noeud nt de profondeur t comprise entre 2 et T-1, la probabilité d'observer la sous-séquence d'arrangements de p états observés décrite par la branche de l'arbre menant du premier noeud n, correspondant audit noeud nt de profondeur t, appelée sous-séquence de taille t, qui est égale au produit, pour tous les rangs u compris entre 1 et p, desdites probabilités d'observer les sous-séquences Cxt,, d'états observés uniques de taille t et de rang u correspondant à ce noeud de profondeur t. Thanks to the method according to the invention, the processor makes no identical calculation several times to calculate the probabilities of all the sequences. The calculation time required to determine the probabilities of observing different sequences of observed states can thus be considerably reduced. This decrease obviously depends on the similarities existing between the different sequences considered. In a variant, according to the invention, whatever the embodiment of the invention, during step c), the processor calculates, for each node nt of depth t between 2 and T-1, the probability of observe the subsequence Cxt, u of unique observed states of size t and rank u (ox ,, u, ox2, u, ... oxt, u) which is equal to the sum of the intermediate probabilities of observing the sub-sequences Cxt, u of unique observed states of size t and rank u corresponding to this node, when said model is in said hidden state at time t, for all the hidden states of the model at time t. As explained above, each sub-sequence Cxt, of unique observed states of size t and of rank u comprises the observed states situated on the index line u of the corresponding table, in the columns of indices 1 to t. In addition, during step c), the processor can be programmed to calculate, for each node nt of depth t between 2 and T-1, the probability of observing the subset of arrangements of p observed states described by the branch of the tree leading from the first node n, corresponding to said node nt of depth t, called sub-sequence of size t, which is equal to the product, for all ranks u between 1 and p, of said probabilities of observe the sub-sequences Cxt ,, of single observed states of size t and of rank u corresponding to this node of depth t.

Sur la figure 1, ligne 3, chaque sous-séquence de taille t comporte les arrangements d'états observés décrits par les t premières colonnes de la table correspondante. Elle est notée Fxt. Les calculs effectués par le processeur dans cette variante de la méthode selon l'invention autorise avantageusement la détermination des séquences de l'ensemble des différentes séquences considérées qui sont les plus probables, c'est-à-dire qui présentent la plus grande probabilité d'observation. Pour cela, de préférence, le processeur ne procède pas au calcul des probabilités des sous-séquences Fxt+, de taille t+1 correspondant aux noeuds de profondeur t+1 si la probabilité d'observer la sous-séquence Fxt de taille t correspondant aux noeuds parents de profondeur t de ces noeuds est trop faible. Pour cela, le processeur effectue une sélection, selon leur probabilités normalisées, des sous-séquences Fxt de taille t de l'arbre les plus probables. Le processeur est alors programmé pour, lors de l'étape c), - calculer, pour chaque noeud nt de profondeur t dans l'arbre, une probabilité normalisée d'observer la sous-séquence Fxt de taille t correspondante, cette probabilité normalisée étant égale à ladite probabilité d'observer la sous- séquence Fxt de taille t correspondante divisée par la somme des probabilités d'observer toutes les sous-séquences Pt de taille t avec y compris entre 1 et I, et - calculer les probabilités intermédiaires d'observer la sous-séquence Cxt+,,u d'états observés uniques de taille t+1 et de rang u correspondant à chaque noeud nt+, de profondeur t+1 si et seulement si la probabilité normalisée d'observer la sous-séquence Fxt de taille t correspondant au noeud nt de profondeur t parent dudit noeud nt+, de profondeur t+1 est supérieure à un seuil prédéterminé. Ce seuil peut être par exemple compris entre 0,00001 et 0,1. Pour un seuil très faible, beaucoup de sous-séquences sont sélectionnées par le processeur et les probabilités de beaucoup de séquences complètes sont calculées. Pour un seuil élevé, seules les séquences de très fortes probabilités sont déterminées. Alternativement, on peut envisager que le processeur détermine les Y séquences dont l'observation est la plus probable dans un modèle de Markov donné ainsi que leur probabilité d'observation. In FIG. 1, line 3, each sub-sequence of size t comprises the observed state arrangements described by the first t columns of the corresponding table. It is noted Fxt. The calculations made by the processor in this variant of the method according to the invention advantageously allows the determination of the sequences of all the different sequences considered that are most probable, that is to say which have the greatest probability of 'observation. For this purpose, the processor preferably does not calculate the probabilities of the sub-sequences Fxt + of size t + 1 corresponding to the nodes of depth t + 1 if the probability of observing the sub-sequence Fxt of size t corresponding to the deep t parent knots of these knots is too weak. For this, the processor makes a selection, according to their normalized probabilities, sub-sequences Fxt of size t of the most probable tree. The processor is then programmed to, during step c), calculate, for each node nt of depth t in the tree, a normalized probability of observing the sub-sequence Fxt of corresponding size t, this standardized probability being equal to said probability of observing the sub-sequence Fxt of corresponding size t divided by the sum of the probabilities of observing all the Pt subsequences of size t with y between 1 and I, and calculating the intermediate probabilities of observe the sub-sequence Cxt + ,, u of unique observed states of size t + 1 and rank u corresponding to each node nt +, of depth t + 1 if and only if the normalized probability of observing the sub-sequence Fxt of size t corresponding to the node nt of depth t parent of said node nt +, of depth t + 1 is greater than a predetermined threshold. This threshold may for example be between 0.00001 and 0.1. For a very low threshold, many subsequences are selected by the processor and the probabilities of many complete sequences are calculated. For a high threshold, only the sequences of very high probabilities are determined. Alternatively, it can be envisaged that the processor determines the Y sequences whose observation is most likely in a given Markov model as well as their probability of observation.

Pour cela, le processeur est programmé pour calculer, lors de l'étape c), les probabilités intermédiaires d'observer les sous-séquences Cxt,U de taille t d'états observés uniques de taille t+1 et de rang u correspondant à chaque noeud de profondeur t+1 si et seulement si la probabilité d'observer la sous-séquence Fxt de taille t correspondant au noeud de profondeur t parent dudit noeud de profondeur t+1 fait partie des Y plus grandes probabilités calculées par le processeur pour l'observation de toutes les sous-séquences Fyt de taille t où y est compris entre 1 et I. Le temps de calcul est alors en outre réduit, puisque seules les probabilités des séquences les plus probables sont calculées par le processeur. For this, the processor is programmed to calculate, during step c), the intermediate probabilities of observing the sub-sequences Cxt, U of size t of single observed states of size t + 1 and of rank u corresponding to each node of depth t + 1 if and only if the probability of observing the sub-sequence Fxt of size t corresponding to the node of depth t parent of said node of depth t + 1 is one of the Y greatest probabilities calculated by the processor for the observation of all the sub-sequences Fyt of size t where y is between 1 and I. The computation time is then further reduced, since only the probabilities of the most probable sequences are calculated by the processor.

L'invention concerne également une méthode de détermination des séquences les plus probables comportant un nombre donné T d'arrangements de p états observés d'une variable, chaque arrangement de p états observés de rang t de chaque séquence ayant été émis par un modèle de Markov caché au temps t de ce modèle, et chaque état observé de l'arrangement de p états observés de rang t de chaque séquence appartenant à un ensemble d'états observés de ladite variable qui est prédéterminé en fonction du temps t correspondant à chaque rang t desdites séquences. Cette méthode réalise une nouvelle fonction appelée exploration, qui permet par exemple dans le cas d'une application à la détermination des paires d'haplotypes humains, d'explorer très rapidement toutes les paires d'haplotypes possible pour un génotype donné et de déterminer les paires les plus probables ainsi que leur probabilité d'observation. Cet exemple est décrit plus en détail ci- après. Le processeur est ainsi également programmé pour déterminer quelles séquences de taille T d'arrangements de p états observés sont le plus probablement générées par le modèle de Markov caché 2\, 31,A,Bj . The invention also relates to a method for determining the most probable sequences comprising a given number T of p-arrangements of observed states of a variable, each arrangement of p observed states of rank t of each sequence having been transmitted by a model of Markov hidden at time t of this model, and each observed state of the arrangement of p observed states of rank t of each sequence belonging to a set of observed states of said variable which is predetermined as a function of time t corresponding to each rank t said sequences. This method carries out a new function called exploration, which allows for example in the case of an application to the determination of human haplotype pairs, to quickly explore all possible haplotype pairs for a given genotype and to determine the most likely pairs as well as their probability of observation. This example is described in more detail below. The processor is thus also programmed to determine which sequences of size T of arrangements of p observed states are most probably generated by the hidden Markov model 2 \, 31, A, Bj.

Pour cela, le processeur détermine par exemple, préalablement aux étapes décrites précédemment, l'arbre de toutes les séquences possibles comportant T arrangements de p états observés. Les états observés de chaque arrangement de p états observés du rang t de la séquence font partie de l'ensemble des états observés prédéterminé en fonction du temps t de ce modèle. For this purpose, the processor determines, for example, prior to the steps described above, the tree of all the possible sequences including T p-states observed. The observed states of each arrangement of p observed states of the rank t of the sequence are part of the set of states observed predetermined as a function of time t of this model.

Cet ensemble prédéterminé des états observés ne dépend de préférence que du temps t du modèle de Markov caché, c'est-à-dire du rang t considéré. Le processeur réalise ensuite les étapes de la méthode décrite précédemment. Avantageusement, le processeur peut en variante être programmé de manière à construire cet arbre progressivement de temps t en temps t+9, tout en calculant les probabilités associées à chaque arrangement de p états observés enregistré dans chaque noeud de l'arbre. En outre, le processeur est programmé pour sélectionner à chaque profondeur t dans l'arbre les noeuds contenant les arrangements de p états observés associés aux probabilités intermédiaires les plus grandes. Les noeuds nt+, dans l'arbre de profondeur t+1 ne sont construits qu'à partir de ces noeuds nt de profondeur t sélectionnés. Le processeur est alors programmé pour réaliser les tâches décrites ci-après. This predetermined set of observed states preferably depends only on the time t of the hidden Markov model, that is to say of the rank t considered. The processor then performs the steps of the method described above. Advantageously, the processor can alternatively be programmed so as to build this tree progressively from time t to time t + 9, while calculating the probabilities associated with each arrangement of p observed states recorded in each node of the tree. In addition, the processor is programmed to select at each depth t in the tree the nodes containing the arrangements of p observed states associated with the largest intermediate probabilities. The nodes nt +, in the tree of depth t + 1 are only constructed from these nodes nt of depth t selected. The processor is then programmed to perform the tasks described below.

Construction de l'arbre et calcul des probabilités d'observer chaque séquence. e) déterminer toutes les combinaisons possibles de p états observés de l'ensemble prédéterminé d'états observés au temps 1 du modèle, f) enregistrer dans chaque premier noeud n, de profondeur 1 dans l'arbre, l'une des combinaisons de p états observés déterminée à l'étape e), g) calculer, pour chaque premier noeud n, , la probabilité d'observer la 5 combinaison de p états observés de ladite variable enregistrée dans ce premier noeud n,, h) à chaque profondeur t successive dans l'arbre, avec t compris entre 1 et T-1, h1) déterminer tous les arrangements possibles de p états observés de l'ensemble prédéterminé d'états observés au temps t du modèle, h2) enregistrer, 10 dans chaque noeud nt de profondeur t, chaque arrangement possible de p états observés déterminé à l'étape h1) et un identifiant du noeud parent de profondeur t-1 de ce noeud nt de profondeur t, et h3) calculer la probabilité d'observer la sous-séquence d'arrangements de p états observés décrite par la branche de l'arbre menant du premier noeud correspondant audit noeud nt de profondeur t, appelée 15 sous-séquence de taille t, i) pour chaque noeud terminal nT de l'arbre, i1) déterminer tous les arrangements possibles de p états observés de l'ensemble prédéterminé d'états observés au temps T du modèle, i2) enregistrer dans chaque noeud terminal nT de l'arbre, chaque arrangement possible de p états observés déterminé à l'étape i1) 20 et un identifiant du noeud parent de ce noeud terminal nT, et i3) calculer la probabilité d'observer la séquence d'arrangements de p états observés de ladite variable décrite par la branche de l'arbre menant du premier noeud n, correspondant audit noeud terminal nT de l'arbre. Lors de l'étape f), le processeur enregistre également dans chaque 25 noeud n, un identifiant du noeud racine de l'arbre correspondant. Sélection, selon leurs probabilités normalisées, des sous-séquences de l'arbre les plus probables. De préférence, selon une première méthode de sélection des noeuds correspondant aux séquences les plus probables, lors des étapes g) et h3), le 30 processeur calcule également, pour chaque noeud nt de profondeur t comprise entre 1 et T-1, une probabilité normalisée d'observer la sous-séquence de taille t correspondant à ce noeud nt, égale à ladite probabilité d'observer ladite sous-séquence divisée par la somme des probabilités d'observer toutes les sous-séquences de taille t, et le processeur effectue l'étape h) pour chaque noeud nt+, 35 de profondeur t+1 si et seulement si la probabilité normalisée d'observer la sous-séquence de taille t correspondant au noeud nt de profondeur t parent dudit noeud nt+, de profondeur t+1 est supérieure à un seuil prédéterminé. Construction of the tree and calculation of the probabilities of observing each sequence. e) determining all the possible combinations of p observed states of the predetermined set of states observed at time 1 of the model, f) recording in each first node n, of depth 1 in the tree, one of the combinations of p observed states determined in step e), g) calculating, for each first node n, the probability of observing the combination of p observed states of said variable recorded in this first node n ,, h) at each depth t successive in the tree, with t between 1 and T-1, h1) determining all possible arrangements of p observed states of the predetermined set of states observed at time t of the model, h2) register, 10 in each node nt of depth t, each possible arrangement of p observed states determined in step h1) and an identifier of the parent node of depth t-1 of this node nt of depth t, and h3) calculating the probability of observing the sub- sequence of arrangements of p observed states described by the branch of the tree leading from the first node corresponding to said node nt of depth t, called sub-sequence of size t, i) for each terminal node nT of the tree, i1) determining all the possible arrangements of p observed states of the predetermined set of states observed at time T of the model, i2) recording in each terminal node nT of the tree, each possible arrangement of p observed states determined in step i1) 20 and an identifier of the node parent of this terminal node nT, and i3) calculate the probability of observing the sequence of arrangements of p observed states of said variable described by the branch of the leading tree of the first node n, corresponding to said terminal node nT of the tree. During step f), the processor also records in each node n, an identifier of the root node of the corresponding tree. Selection, according to their standardized probabilities, of the most probable subsequences of the tree. Preferably, according to a first method of selecting the nodes corresponding to the most probable sequences, during steps g) and h3), the processor also calculates, for each node n of depth t between 1 and T-1, a probability standardized to observe the subsequence of size t corresponding to this node nt, equal to said probability of observing said subsequence divided by the sum of the probabilities of observing all the subsequences of size t, and the processor performs step h) for each node nt +, of depth t + 1 if and only if the normalized probability of observing the subsequence of size t corresponding to the node nt of depth t parent of said node nt +, of depth t + 1 is greater than a predetermined threshold.

Ce seuil peut être par exemple compris comme précédemment entre 0,00001 et 0,1. Sélection, selon leurs probabilités, des sous-séquences de l'arbre les plus probables. This threshold may for example be understood as previously between 0.00001 and 0.1. Selection, according to their probabilities, of the subsequences of the most probable tree.

Alternativement, selon une deuxième méthode de sélection des noeuds correspondant aux séquences les plus probables, le processeur effectue l'étape h) pour chaque noeud de profondeur t+1 si et seulement si la probabilité d'observer la sous-séquence de taille t correspondant au noeud de profondeur t parent dudit noeud de profondeur t+1 fait partie des Y plus grandes probabilités calculées par le processeur pour l'observation de toutes les sous-séquences de taille t. En pratique, dans le cas général du modèle de Markov caché décrit précédemment émettant p états observés à chaque temps t , le processeur réalise par exemple les tâches décrites ci-après. Ici, l'ensemble des états observés possible de la variable ne varie pas avec le temps t du modèle. Alternatively, according to a second method for selecting the nodes corresponding to the most probable sequences, the processor performs step h) for each node of depth t + 1 if and only if the probability of observing the subsequence of corresponding size t at the node of depth t parent of said node of depth t + 1 is part of the Y largest probabilities calculated by the processor for the observation of all subsequences of size t. In practice, in the general case of the hidden Markov model described previously emitting p states observed at each time t, the processor performs for example the tasks described below. Here, the set of possible observed states of the variable does not vary with the time t of the model.

On définit ici des ensembles Er regroupant les noeuds de profondeur t dans l'arbre. Le processeur enregistre tout d'abord un noeud racine R vide (voir figure 5). Initialisation: construction et calcul des probabilités intermédiaires des 20 états observés enregistrés dans les premiers noeuds de l'arbre. Au temps t = 1, le processeur détermine les M!(M- P)!P! combinaisons non ordonnées possibles de p états observés parmi les M états observés de l'ensemble des états observés du modèle au temps 1 et construit un ensemble E, de M!.(M - P) !P! premiers noeuds nk, de profondeur 1 avec k 25 compris entre 1 et M!(M' P) !P! correspondants à ces M!J(M - p) ! p! combinaisons. Tous les premiers noeuds ni' ont comme noeud parent le noeud racine de l'arbre. Le processeur enregistre dans chacun de ces premiers noeuds l'une des M!/(M- p) ! p! combinaisons déterminées et l'identifiant du noeud racine R. 30 II calcule les p*N probabilités intermédiaires associées à chaque état observé de la combinaison d'états observés considérée, qui sont calculées par : ani(l) ,b,(e,, u) Induction : construction des noeuds internes de l'arbre et calcul de la probabilité d'observer la sous séquence de taille t associée à chacun de ces 35 noeuds. Pour chaque temps t = 2 à t = T-1 : Pour k = 1 à k = I E,-1I , IE,- !l représentant le nombre de noeuds dans l'ensemble E,_, au temps t : - le processeur détermine les M!!(M - P) ! arrangements ordonnés possibles de p états observés parmi les M états observés de l'ensemble des états observés du modèle au temps t et construit, pour chaque noeud nk,_, de Et_,, les MV(M - P) ! noeuds enfants possibles n't correspondants aux M!V(M - Io)! arrangements déterminés ; - le processeur inclut ces noeuds nkt dans l'ensemble Et, -le processeur calcule, pour chaque noeud nkt, les p*N probabilités intermédiaires d'observer chaque sous-séquence d'états observés uniques de taille t et de rang u associée à chaque état observé unique de l'arrangement de p états observés enregistré dans ce noeud, par la formule : au,,,,( i) a;, b, (ou,,u) où i est compris entre 1 et Net u est compris entre 1 et p. - le processeur calcule, pour chaque noeuds nkt, la probabilité d'observer 15 la sous-séquence de taille t correspondant au noeud nkt par la formule suivante : u =p N =ri an, k,u(i). u= i= Première méthode de sélection des noeuds: sélection, selon leur probabilités normalisées, des sous-séquences de l'arbre les plus probables. 20 - le processeur calcule, pour chaque noeuds nkt, la probabilité normalisée d'observer la sous-séquence de taille t correspondant à chaque noeud nkt par la formule suivante : u =p N jl~a k (1) Pr( = n , ,u n; lx) u= i= IE, u=p N fEa (1) n, , ,u - le processeur élimine le noeud n; de l'ensemble Et si Pr(ni 1 x) <.f , avec f = 0,001 par exemple. En variante, deuxième méthode de sélection des noeuds : sélection, 30 selon leurs probabilités, des sous-séquences de l'arbre les plus probables. A la place des deux dernières étapes précitées, pour k = 1 à k = : - le processeur ordonne dans une liste les noeuds de Et par probabilité d'observer la sous-séquence de taille t correspondant au noeud nkt décroissante; - le processeur garde dans l'ensemble Et les Y premiers noeuds de la 35 liste, et élimine de l'ensemble Et les autres noeuds de la liste. Ici Y est par exemple égal à 10. Finalisation : construction des noeuds terminaux de l'arbre et calcul de la 25 probabilité d'observer la séquence complète associée à chacun de ces noeuds terminaux. A chacun des noeuds terminaux nkT de ET, il correspond une séquence observée Ox avec x compris entre 1 et 1ETI. Le processeur calcule la probabilité de la séquence Or d'arrangement de p états observés à partir de la matrice des p*N probabilités intermédiaires associées à chaque état observé de l'arrangement enregistré dans le noeud terminal nkT selon la formule : ~ u=p N Pr(O` lx.) =1 7 1'anT u (i) Par ailleurs l'ensemble des états observés possibles de la variable étudiée peut également varier avec le temps t. Le processeur peut également enregistrer au fur et à mesure dans chaque noeud de profondeur t de l'arbre, un identifiant des noeuds enfants de profondeur t+1 de ce noeud, ainsi que les valeurs des probabilités intermédiaires, de la probabilité et de la probabilité normalisée correspondant à ce noeud dans celui-ci. L'invention trouve une application particulièrement intéressante en biologie dans le calcul par ordinateur des haplotypes. L'information génétique de chaque être vivant est contenue dans l'ADN (Acide DésoxyriboNucléique) des cellules. Cet ADN est constitué de longues chaînes de quatre types de molécules appelées nucléotides : l'adénine, la thymine, la cytosine et la guanine, notées dans la suite de la description A, T, C et G. Chaque cellule humaine contient plus de 6 milliards de ces molécules réunies en 23 paires de chaînes, les chromosomes. Les deux chromosomes d'une paire proviennent l'un, du père, et l'autre de la mère de l'individu. Ces chaînes de nucléotides contiennent de l'information qui joue par exemple un rôle dans l'aspect physique ou les risques de contracter des maladies de chaque individu. Ces chaînes de nucléotides sont étonnamment similaires d'une personne à l'autre. Dans une population donnée, seul un nucléotide sur 300, en moyenne, présente une variation. Chaque enchaînement de nucléotides possible d'une région chromosomique est nommé un allèle. L'ensemble des allèles présents dans les chromosomes d'une personne constitue son génotype. Les différences d'un seul nucléotide dans l'enchaînement des nucléotides sont, de loin, le type de variation génétique le plus fréquent. Elles sont connues sous le nom de polymorphismes nucléotidiques simples, ou SNP. Il y aurait environ 10 millions de SNP dans le génome humain. Les SNP sont créées par des mutations intervenues dans l'histoire passée de la population. Par exemple, à un site de SNP donné d'une chaîne de nucléotide du génome, certains individus posséderont un nucléotide A alors que d'autres posséderont un nucléotide C. Le génome d'un individu étant composé de paire de chromosomes, 5 chaque individu possède deux allèles pour un SNP donné ; l'un hérité du père, l'autre de la mère. Dans l'exemple du SNP précédent, un individu pourrait donc posséder pour ce SNP l'une des paires d'allèles suivantes : NA ou C1C (on parle alors d'un individu homozygote pour ce SNP car possédant les mêmes allèles) ou encore 10 NC (on parle alors d'un individu hétérozygote pour ce SNP car possédant deux allèles différents). Les SNP sont à l'origine de la variabilité de certaines caractéristiques physiques de l'homme, en particulier de la résistance à certains virus ou de la prédisposition à certains cancers. Ils font donc l'objet de beaucoup d'intérêt dans 15 la recherche biomédicale. En effet, savoir que les individus touchés par un certain cancer possèdent de façon plus fréquente que des individus sains l'allèle A d'un SNP laisse à suggérer que ce SNP joue un rôle à l'échelle moléculaire dans l'étiologie de la maladie. De nos jours, les techniques de séquençage permettent d'obtenir les 20 allèles d'un individu au niveau des SNP mais ne permettent pas de déterminer les arrangements ordonnés de tous les paires de SNP d'une paire de chromosomes. Par exemple, pour trois SNP notés P1, P2 et P3 de chaque chromosome d'une paire de chromosomes tels que décrit dans l'exemple précédent, il est possible de déterminer que le génotype d'un individu est NA, NC, NC, c'est-à- 25 dire qu'il possède pour le SNP P1 un allèle A sur chacun des chromosomes de sa paire, et qu'il possède, pour les SNP P2 et P3 un allèle A sur l'un des deux chromosome de sa paire et un allèle C sur l'autre. Cependant, il n'est pas possible de déterminer expérimentalement les arrangements d'allèles des trois SNP sur le même chromosome. 30 Dans l'exemple précédent, l'individu peut présenter sur chacun des deux chromosomes de la paire concernée l'un des arrangements suivants : trois allèles A pour les trois SNP sur l'un des chromosomes et un allèle A pour le SNP P1, deux allèles C pour les SNP P2 et P3 sur l'autre chromosome, ce que l'on note (AAA, ACC) ou deux allèles A pour les SNP P1 et P2 et un allèle C pour le SNP 35 P3 sur l'un des chromosomes et un allèle A pour le SNP P1, un allèle C pour le SNP P2 et un allèle A sur le SNP P3 sur l'autre chromosome, ce que l'on note (AAC, AGA). Here we define sets Er grouping the nodes of depth t in the tree. The processor first records an empty R root node (see Figure 5). Initialization: construction and calculation of the intermediate probabilities of the 20 observed states recorded in the first nodes of the tree. At time t = 1, the processor determines the M! (M-P)! P! possible unordered combinations of p observed states among the M observed states of all observed states of the model at time 1 and constructed a set E, of M!. (M-P)! P! first nodes nk, depth 1 with k 25 between 1 and M! (M 'P)! P! corresponding to these M! J (M - p)! p! combinations. All the first nodes and 'have as parent node the root node of the tree. The processor records in each of these first nodes one of the M! / (M-p)! p! determined combinations and the root node identifier R. It calculates the p * N intermediate probabilities associated with each observed state of the combination of observed states considered, which are calculated by: ani (1), b, (e ,, u) Induction: construction of the internal nodes of the tree and calculation of the probability of observing the sub-sequence of size t associated with each of these 35 nodes. For each time t = 2 at t = T-1: For k = 1 at k = IE, -1I, IE, -! L representing the number of nodes in the set E, _, at time t: - the processor determines the M !! (M - P)! possible ordered arrangements of p states observed among the M observed states of the set of observed states of the model at time t and constructed, for each node nk, _, of Et_, the MV (M-P)! possible child nodes not corresponding to M! V (M - Io)! specific arrangements; the processor includes these nodes nkt in the set And, the processor calculates, for each node nkt, the p * N intermediate probabilities of observing each subsequence of single observed states of size t and rank u associated with each unique observed state of the arrangement of p observed states recorded in this node, by the formula: at ,,,, (i) a ;, b, (or ,, u) where i is between 1 and Net u is between 1 and p. the processor calculates, for each node nkt, the probability of observing the subsequence of size t corresponding to the node nkt by the following formula: u = p N = ri an, k, u (i). u = i = First method of selection of nodes: selection, according to their normalized probabilities, of the subsequences of the most probable tree. The processor calculates, for each node nkt, the normalized probability of observing the subsequence of size t corresponding to each node nkt by the following formula: u = p N j1 ~ ak (1) Pr (= n,, a; lx) u = i = IE, u = p N fEa (1) n,,, u - the processor eliminates the node n; of the set And if Pr (ni 1 x) <.f, with f = 0.001 for example. As a variant, the second method of selection of the nodes: selection, according to their probabilities, of the subsequences of the most probable tree. In place of the last two steps mentioned above, for k = 1 to k =: the processor orders in a list the nodes of Et by probability of observing the subsequence of size t corresponding to the node nkt decreasing; the processor keeps in the set And the first Y nodes of the list, and eliminates the set And the other nodes of the list. Here Y is for example equal to 10. Finalization: construction of the terminal nodes of the tree and calculation of the probability of observing the complete sequence associated with each of these terminal nodes. At each of the terminal nodes nkT of ET, it corresponds to a sequence observed Ox with x between 1 and 1ETI. The processor calculates the probability of the gold sequence of arrangement of p states observed from the matrix of p * N intermediate probabilities associated with each observed state of the arrangement recorded in the terminal node nkT according to the formula: ~ u = p N Pr (O` lx.) = 1 7 1'anT u (i) Moreover, the set of possible observed states of the studied variable can also vary with time t. The processor can also record progressively in each node of depth t of the tree, an identifier of the child nodes of depth t + 1 of this node, as well as the values of the intermediate probabilities, the probability and the probability normalized corresponding to this node in it. The invention finds a particularly interesting application in biology in computer calculation of haplotypes. The genetic information of each living being is contained in the DNA (Deoxyribonucleic Acid) cells. This DNA consists of long chains of four types of molecules called nucleotides: adenine, thymine, cytosine and guanine, noted in the following description A, T, C and G. Each human cell contains more than 6 billion of these molecules joined in 23 pairs of chains, the chromosomes. The two chromosomes of a pair come from one, from the father, and the other from the mother of the individual. These nucleotide chains contain information that plays a role, for example, in the physical aspect or the risks of contracting each individual's diseases. These nucleotide chains are surprisingly similar from person to person. In a given population, only one nucleotide out of 300, on average, has a variation. Each possible sequence of nucleotides of a chromosomal region is named an allele. The set of alleles present in a person's chromosomes constitutes his genotype. Single nucleotide differences in nucleotide sequence are by far the most common type of genetic variation. They are known as single nucleotide polymorphisms, or SNPs. There are approximately 10 million SNPs in the human genome. SNPs are created by changes in the past history of the population. For example, at a given SNP site of a nucleotide chain of the genome, some individuals will possess an A nucleotide while others will possess a C nucleotide. The genome of an individual being composed of a pair of chromosomes, each individual has two alleles for a given SNP; one inherited from the father, the other from the mother. In the example of the previous SNP, an individual could therefore have for this SNP one of the following pairs of alleles: NA or C1C (we speak then of an individual homozygous for this SNP because having the same alleles) or 10 NC (we are talking about an individual heterozygous for this SNP because having two different alleles). SNPs are at the origin of the variability of certain physical characteristics of the man, in particular the resistance to certain viruses or the predisposition to certain cancers. They are therefore of great interest in biomedical research. Indeed, knowing that individuals affected by a certain cancer possess more frequently than healthy individuals the A allele of an SNP suggests that this SNP plays a role at the molecular level in the etiology of the disease. . Nowadays, sequencing techniques make it possible to obtain the alleles of an individual at the SNPs but do not make it possible to determine the ordered arrangements of all pairs of SNPs of a pair of chromosomes. For example, for three SNPs noted P1, P2 and P3 of each chromosome of a pair of chromosomes as described in the preceding example, it is possible to determine that the genotype of an individual is NA, NC, NC, c that is, it possesses for the SNP P1 an A allele on each of the chromosomes of its pair, and that it possesses, for the SNPs P2 and P3, an allele A on one of the two chromosomes of its pair and a C allele on the other. However, it is not possible to experimentally determine the allele arrangements of the three SNPs on the same chromosome. In the preceding example, the individual can have on each of the two chromosomes of the pair concerned one of the following arrangements: three alleles A for the three SNPs on one of the chromosomes and one allele A for the SNP P1, two C alleles for the P2 and P3 SNPs on the other chromosome, which is noted (AAA, ACC) or two A alleles for the SNPs P1 and P2 and one C allele for the SNP 35 P3 on one of the chromosomes and an A allele for SNP P1, a C allele for SNP P2 and an A allele on SNP P3 on the other chromosome, which is noted (AAC, AGA).

On appelle haplotypes ces arrangements d'allèles de chaque chromosome. Les haplotypes font l'objet de nombreuses études car il peuvent correspondre à des facteurs de risque ou de susceptibilité aux maladies plus complexes que les polymorphismes simples. These allelic arrangements of each chromosome are called haplotypes. Haplotypes are the subject of many studies because they may correspond to risk factors or susceptibility to more complex diseases than simple polymorphisms.

Actuellement, on détermine les haplotypes d'une population d'individus à partir des génotypes via des logiciels d'inférence statistiques connus. Les logiciels les plus performants sont basés sur des modèles de Markov cachés qui permettent de modéliser les processus de diversification génétique à l'origine des haplotypes, que sont les mutations et les recombinaisons (c'est-à-dire les échanges de portions de chromosomes lors de la gamétogenèse, c'est-à-dire la formation des cellules reproductrices). Dans ce modèle, les haplotypes d'individus donnés d'une population peuvent être déduits de quelques haplotypes appelés haplotypes ancestraux qui sont modifiés au cours des générations par des mutations ponctuelles, par exemple, le remplacement d'un allèle par un autre au niveau d'un SNP, et des recombinaisons. Les chromosomes observés à l'heure actuelle sont dans cette hypothèse formés d'une mosaïque de ces haplotypes ancestraux. Cette hypothèse est décrite en détail dans le document de SB Gabriel et al intitulé The structure of haplotype blocks in the human genome, publié dans la revue Science (New York, NY 2002, 296(5576):2225-2229). L'homme possédant pour chaque SNP deux allèles, l'un situé sur le chromosome paternel et l'autre sur le chromosome maternel de la paire de chromosome correspondante, on détermine chez l'homme des paires d'haplotypes. Ainsi, grâce à la méthode selon l'invention, il est possible de déterminer les paires d'haplotypes les plus probables pour un individu de génotype donné par un calcul par ordinateur de la probabilité d'une séquence d'arrangements de deux états observés correspondant aux paires d'allèles de chaque SNP du génotype étudié. Ci-dessous un exemple simplifié de la détermination de la paire d'haplotype d'une paire de chromosomes comportant cinq SNP par un mode de réalisation de la méthode selon l'invention est détaillé. Les étapes de cette détermination sont représentées sur la figure 6. L'incrémentation du temps t dans le modèle de Markov caché considéré ici correspond au passage d'un SNP du chromosome au SNP suivant dans la chaîne nucléotidique. Les notations des paramètres (A, B, 3t) du modèle de Markov caché décrit plus haut ainsi que la notation X de ce modèle ont été conservées dans le modèle de Markov caché considéré dans cet exemple, bien qu'elles désignent évidemment des valeurs différentes. Les états cachés du modèle de Markov caché considéré sont par 5 exemple au nombre de trois. Ce sont ici trois chromosomes ancestraux composés de 5 allèles correspondant aux cinq SNP considérés : S,=ATTTC S2= TA T TA S3=ATCG C. 10 L'ensemble des états cachés du modèle varie donc ici avec le temps t de ce modèle. Les chances de recombinaisons entre ces chromosomes ancestraux sont modélisées par les probabilités de transitions entre deux états cachés du modèle de Markov caché. 15 Pour simplifier l'exemple décrit ici, on suppose que les probabilités de transition entre deux états cachés ne sont pas fonction du temps t, c'est-à-dire qu'elles ne varient pas en fonction du SNP considéré. En variante, les probabilités de transitions peuvent varier en fonction du temps t. Les étapes de la méthode selon l'invention ne sont pas modifiées dans ce cas. 20 Le processeur de l'ordinateur a en mémoire par exemple la matrice de transitions A et la distribution initiale ' suivantes : /0,98 0,01 0,01\ A= 0,03 0,95 0,02 \0,05 0,05 0,90/ 25 /0,34\ : = 0,33 \0,33, Ces matrices peuvent être par exemple mises en mémoire manuellement par l'utilisateur. 30 Dans cet exemple, deux allèles existent pour chaque SNP considéré, il y a donc deux états observés V,, V2 possibles pour chaque SNP. Ici, l'ensemble des états observés possibles dépend du temps t. L'ensemble d'états observés V ={V1, V2} possible à chaque temps t du modèle, c'est-à-dire à chaque rang t de chaque séquence, est représenté dans le tableau de la figure 7. Ce tableau est également 35 mis en mémoire dans l'ordinateur. Les mutations intervenant dans les chromosomes ancestraux sont modélisées via les probabilités d'émissions. Dans le modèle de Markov caché de cet exemple, chaque chromosome ancestral peut émettre, pour un SNP donné, soit l'état observé correspondant à l'allèle qu'il possède, soit l'état observé correspondant à l'autre allèle en cas de mutation. Pour chaque SNP, la probabilité d'émission par chaque chromosome ancestral Si de l'allèle qu'il possède est notée b;. La probabilité d'émission par chaque chromosome ancestral Si de l'autre allèle est alors égale à 1-b,. Ici l'ordinateur a en mémoire la matrice d'émission B suivante : /0,99 0,01\ B = 0,99 0,01 \0,99 0,01 Pour déterminer efficacement la ou les paires d'haplotypes les plus probables pour un génotype donné, le processeur est programmé ici pour éliminer les noeuds de profondeur t de l'arbre de séquences d'états observés possible correspondant à une sous-séquence de taille t dont la probabilité normalisée est inférieure à un seuil f prédéterminé. Pour la détermination des paires d'haplotypes, le seuil f est de préférence compris entre 0,001 et 0,01. Il est par exemple ici égal à 0,01. Le processeur a enfin en mémoire le génotype g dont l'utilisateur veut déterminer les paires d'haplotypes les plus probables. g = (A/T, A/T, T/T, G/T,, A/C). Ce génotype g est composé de quatre SNP hétérozygotes SPI, SP2, SNP4 et SNP5 qui correspondent aux SNP de rang 1, 2, 4 et 5 du génotype et d'un SNP homozygote noté SNP3 qui correspond au SNP de rang 3 du génotype. Il a donc 8 paires d'haplotypes compatibles pour 16 haplotypes distincts compatibles. Dans ce mode de réalisation, le processeur construit les noeuds de profondeur t dans l'arbre informatique à chaque temps t du modèle correspondant. Cet arbre est représenté sur la figure 6. Selon l'invention, le processeur est programmé pour effectuer les étapes suivantes. Le processeur enregistre préalablement un noeud racine vide. Etape t = 1: le processeur enregistre dans un premier noeud de profondeur 1, l'arrangement possible des deux allèles observés pour le SNP de rang 1 SNP1. Cette étape est représentée sur la première ligne de l'arbre de la figure 6. Ici, l'ensemble des états observés du modèle au temps t =1 comprend les deux allèles A et T, comme représenté dans le tableau de la figure 7. Le processeur enregistre également un identifiant de ce noeud racine et calcule la probabilité d'observer cette paire d'allèle. L'expression paire d'allèle est par la suite utilisée pour désigner un arrangement de deux allèles. Pour cela, il calcule la probabilité d'observer l'allèle A en calculant la probabilité intermédiaire notée aA(1) d'observer l'allèle A lorsque le modèle est dans l'état caché S, au temps 1, la probabilité intermédiaire notée aA(2) d'observer l'allèle A lorsque le modèle est dans l'état caché S2 au temps 1 et la probabilité intermédiaire notée aA(3) d'observer l'allèle A lorsque le modèle est dans l'état caché S3 au temps 1. Ensuite, le processeur calcule la probabilité d'observer l'allèle A au temps 1 en sommant ces trois probabilités intermédiaires. Ces sous-étapes correspondent aux calculs suivants: a.~(1)=irib, =0, 0,3366 a, (2)=(1-b,)=0,0033 a, (3) = = 0.3267 Pr(AIÀ)=a_,(1)+a,(2)+a,(3)=0.6666 La probabilité d'observer l'allèle A au temps t =1, c'est-à-dire pour le SNP noté SNP1 est donc ici égale à 0,6666. Le processeur calcule la probabilité d'observer l'allèle T en calculant la probabilité intermédiaire notée aT(1) d'observer l'allèle T lorsque le modèle est dans l'état caché S1 au temps 1, la probabilité intermédiaire notée aT(2) d'observer l'allèle T lorsque le modèle est dans l'état caché S2 au temps 1 et la probabilité intermédiaire notée aT(3) d'observer l'allèle T lorsque le modèle est dans l'état caché S3 au temps 1. Ensuite, le processeur calcule la probabilité d'observer l'allèle T au temps 1 en sommant ces trois probabilités intermédiaires. Ces sous-étapes correspondent aux calculs suivants : ar(1)=It,(1-b,)=0,0034 (Xr(2)=7r,b,=0,3267 a, (3)=rr_(1-1),)=0,0033 Pr(T2)=a,.(1)+a,.(2)+a, (3)=0,3334 La probabilité d'observer l'allèle T au temps t =1, c'est-à-dire pour le SNP noté SNP1 est donc de 0,3334. Currently, haplotypes of a population of individuals are determined from genotypes via known statistical inference software. The best-performing software is based on hidden Markov models that can model the genetic diversification processes behind haplotypes, which are mutations and recombinations (ie the exchange of chromosome portions during gametogenesis, that is to say the formation of reproductive cells). In this model, haplotypes of given individuals from a population can be deduced from some haplotypes called ancestral haplotypes that are modified over the generations by point mutations, for example, the replacement of one allele by another at the level of an SNP, and recombinations. The chromosomes observed at present are, in this hypothesis, formed from a mosaic of these ancestral haplotypes. This assumption is described in detail in SB Gabriel et al. The structure of haplotype blocks in the human genome, published in Science (New York, NY 2002, 296 (5576): 2225-2229). Since the man has two alleles for each SNP, one located on the paternal chromosome and the other on the maternal chromosome of the corresponding chromosome pair, pairs of haplotypes are determined in humans. Thus, by virtue of the method according to the invention, it is possible to determine the most probable haplotype pairs for a given genotype individual by a computer calculation of the probability of a corresponding sequence of two corresponding states of arrangement. to the pairs of alleles of each SNP of the genotype studied. Below is a simplified example of the determination of the pair of haplotypes of a pair of chromosomes having five SNPs by one embodiment of the method according to the invention is detailed. The steps of this determination are shown in FIG. 6. The incrementation of the time t in the hidden Markov model considered here corresponds to the transition from one SNP of the chromosome to the next SNP in the nucleotide chain. The notations of the parameters (A, B, 3t) of the hidden Markov model described above as well as the X notation of this model have been preserved in the hidden Markov model considered in this example, although they obviously designate different values. . The hidden states of the hidden Markov model considered are, for example, three in number. Here are three ancestral chromosomes composed of 5 alleles corresponding to the five SNPs considered: S = ATTTC S2 = TA T TA S3 = ATCG C. The set of hidden states of the model therefore varies here with the time t of this model. The chances of recombination between these ancestral chromosomes are modeled by the probabilities of transitions between two hidden states of the hidden Markov model. To simplify the example described here, it is assumed that the transition probabilities between two hidden states are not a function of the time t, that is, they do not vary according to the SNP considered. Alternatively, the probabilities of transitions may vary as a function of time t. The steps of the method according to the invention are not modified in this case. The processor of the computer has, for example, the matrix of transitions A and the initial distribution as follows: / 0.98 0.01 0.01 A = 0.03 0.95 0.02 0.05 0.05 0.90 / 25 / 0.34 \: = 0.33 \ 0.33, These matrices can be for example stored manually by the user. In this example, two alleles exist for each SNP considered, so there are two observed states V ,, V2 possible for each SNP. Here, the set of possible observed states depends on the time t. The set of observed states V = {V1, V2} possible at each time t of the model, that is to say at each rank t of each sequence, is represented in the table of FIG. 7. This table is also stored in the computer. Mutations in ancestral chromosomes are modeled via emission probabilities. In the hidden Markov model of this example, each ancestral chromosome can emit, for a given SNP, either the observed state corresponding to the allele that it has, or the observed state corresponding to the other allele in case of mutation. For each SNP, the probability of emission by each ancestral chromosome If the allele it possesses is noted b; The probability of emission by each ancestral chromosome If the other allele is then equal to 1-b ,. Here the computer has in memory the following B emission matrix: / 0.99 0.01 \ B = 0.99 0.01 \ 0.99 0.01 To efficiently determine the most frequent haplotype pair (s) For a given genotype, the processor is programmed here to eliminate the nodes of depth t from the possible observed state sequence tree corresponding to a sub-sequence of size t whose normalized probability is lower than a predetermined threshold f. For the determination of the pairs of haplotypes, the threshold f is preferably between 0.001 and 0.01. It is for example here equal to 0.01. The processor finally has in memory the genotype g whose user wants to determine the most likely haplotype pairs. g = (A / T, A / T, T / T, G / T ,, A / C). This genotype g is composed of four SNP, SP2, SNP4 and SNP5 heterozygous SNPs which correspond to the SNPs of rank 1, 2, 4 and 5 of the genotype and of a homozygous SNP noted SNP3 which corresponds to the rank 3 SNP of the genotype. It has 8 compatible haplotype pairs for 16 compatible haplotypes. In this embodiment, the processor constructs the nodes of depth t in the computer tree at each time t of the corresponding model. This tree is shown in FIG. 6. According to the invention, the processor is programmed to perform the following steps. The processor first records an empty root node. Step t = 1: the processor records in a first node of depth 1, the possible arrangement of the two alleles observed for the SNP of rank 1 SNP1. This step is represented on the first line of the tree of FIG. 6. Here, the set of observed states of the model at time t = 1 comprises the two alleles A and T, as represented in the table of FIG. The processor also records an identifier of this root node and calculates the probability of observing this pair of allele. The expression pair of allele is subsequently used to designate an arrangement of two alleles. For this, it calculates the probability of observing the allele A by calculating the intermediate probability noted aA (1) to observe the allele A when the model is in the hidden state S, at time 1, the intermediate probability noted aA (2) to observe the allele A when the model is in the hidden state S2 at time 1 and the intermediate probability noted aA (3) to observe the allele A when the model is in the hidden state S3 at time 1. Next, the processor calculates the probability of observing the allele A at time 1 by summing these three intermediate probabilities. These substeps correspond to the following calculations: a. ~ (1) = irib, = 0, 0.3366 a, (2) = (1-b,) = 0.0033 a, (3) = = 0.3267 Pr ( The probability of observing the allele A at time t = 1, that is to say for the SNP noted SNP1, is (a), (1) + a, (2) + a, (3) = 0.6666. so here equal to 0.6666. The processor calculates the probability of observing the T allele by calculating the intermediate probability noted aT (1) of observing the T allele when the model is in the hidden state S1 at time 1, the intermediate probability noted aT (2 ) to observe the T allele when the model is in the hidden state S2 at time 1 and the intermediate probability noted aT (3) to observe the T allele when the model is in the hidden state S3 at time 1 Then, the processor calculates the probability of observing the T allele at time 1 by summing these three intermediate probabilities. These substeps correspond to the following calculations: ar (1) = It, (1-b,) = 0.0034 (Xr (2) = 7r, b, = 0.3267 a, (3) = rr_ (1- 1),) = 0.0033 Pr (T2) = a,. (1) + a,. (2) + a, (3) = 0.3334 The probability of observing the T allele at time t = 1 that is, for the SNP noted SNP1 is therefore 0.3334.

Enfin, le processeur calcule la probabilité d'observer la paire AT au temps t = 1, c'est-à-dire la probabilité pour que chacun des deux chromosomes de la paire comporte l'un des deux allèles A et T. Cette probabilité est égale au produit des probabilités d'observer l'allèle A et l'allèle T au temps 1 calculées précédemment. Comme il n'y a qu'un seul noeud de profondeur 1, la probabilité normalisée Pn(ATIÀ) d'observer la paire AT au temps 1 est donc ici égale à 1. C'est cette probabilité normalisée Pn qui est représentée sur la figure 6 à côté de chaque noeud de l'arbre. Finally, the processor calculates the probability of observing the AT pair at time t = 1, ie the probability that each pair of chromosomes has one of the two A and T alleles. is equal to the product of the probabilities of observing the allele A and the allele T at time 1 calculated previously. Since there is only one node of depth 1, the normalized probability Pn (ATIÀ) of observing the pair AT at time 1 is here equal to 1. It is this standardized probability Pn that is represented on the Figure 6 next to each node of the tree.

Etape t = 2 : le processeur enregistre, dans deux noeuds de profondeur 2, les paires d'allèles observées possibles de l'ensemble des états observés possibles pour le SNP de rang 2 SNP2 ainsi qu'un identifiant du noeud de profondeur 1. Cette étape est représentée sur la deuxième ligne de l'arbre de la figure 6. Ici, il y a deux paires d'allèles possibles: AT et TA, car l'ensemble des états observés du modèle au temps t =2 comprend les deux allèles A et T, comme représenté dans le tableau de la figure 7. Le processeur calcule alors la probabilité d'observer la sous-séquence de taille 2 de paire d'allèles correspondant à chaque noeud de profondeur 2 dans l'arbre. Ici, il y a deux sous-séquences de taille 2 de paires d'allèles : (AT ; AT) et (AT ; TA). Pour cela, le processeur calcule la probabilité intermédiaire d'observer chaque sous-séquence d'allèles uniques de taille 2 correspondantes à chacune des deux sous-séquence de taille 2 de paire d'allèles. La sous-séquence de paires d'allèles (AT;AT) se décompose en deux sous-séquences d'allèles uniques (A;A) et (T;T) et la sous-séquence de paires d'allèles (AT;TA) se décompose en deux sous-séquences d'allèles uniques (A;T) et (T;A). Pour cela, il effectue les calculs suivants. Le processeur calcule la probabilité d'observer la sous-séquence d'allèles uniques (A;A) notée Pr(AAIÀ) sur l'un des chromosomes de la paire concernée, en calculant les probabilités intermédiaires notées aA,(1), aAA(2) et aA,(3) d'observer cette sous-séquence (A;A) lorsque le modèle est dans chacun de ses états observés, puis en sommant ces trois probabilités intermédiaires : (1) =[a_, (1)aä +a, (2)a,, +cX_, (3)a,,](1-b, )=0,00346302 a, (2) = [a, (1) (1,_ +a, (2)a,, +a, (3) a,_]h, =0,0226076 a,.,(3)=[a,(1)aä+a,(2)a_,+a,(3)a,,](1-b,)=0,00297462 Pr(AAIÂ)=a{, (1)1 (2) i (3)=0,0290453 De la même façon, avec des notations équivalentes, le processeur calcule la probabilité d'observer la sous-séquence d'allèles uniques (T;T) sur l'un des chromosomes de la paire concernée : arr(I)=[ar(1)aä+ar(2)a,,+a,. (3)a3,1h,=0,013165 ar, (2)=[ar(1)a,,+a, (2)(12, +a,(3)a,y1(1-h,)=0,00310564 arr(3)=[ar(1)a,,+ar(2)c123+a,(3)a d h, = 0,00944262 Pr (TTIÀ) = arr (1) +arr (2) +arr (3)=0,0257133 De la même façon, avec des notations équivalentes, le processeur calcule la probabilité d'observer la sous-séquence d'allèles uniques (A;T) sur l'un des chromosomes de la paire concernée : aa.(1)=[a.,(1)au+ a,(2)a. +a,(3)a_,]b,=0,342839 a r(2)=[a,(1)a,+a,(2)aä+a,(3)a,,](1-b,)=0,00022836 a,r(3)=[a,(1)(h;+(2)u,;+a,(3)aä]h,=0,294487 Pr (AT;Â) = a,r (1) i a,r (2) 1 a,r (3) --0,637555 Le processeur calcule la probabilité d'observer la sous-séquence d'allèles uniques (T;A) sur l'un des chromosomes de la paire concernée selon les formules suivantes : a,r (1) =[a, (1)aä +a, (2)(12l +a, = 0,342839 a.,r (2) =[a., (I )a,, +a,, (2)a,, +a, (3)a,_](I -h,) = 0,00022836 10 a.,,-(3)=[a.,(1)a,, +a.,(2)a,,+a,(3)aä]b, =0,294487 Pr(A'112L)=a,r(1) 1 a,r(2) ia,r(3)=0,637555 La probabilité d'observer les allèles successives AA et TT sur chacun des deux chromosomes, c'est-à-dire la probabilité Pr(AA,TTIÀ) d'observer la paire d'haplotype (AA;TT) est égale à la probabilité d'observer la sous-séquence de 15 paires d'allèles (AT;AT), qui est égale au produit des probabilités Pr(AAIÀ) et Pr(TTI À) d'observer chaque sous-séquence d'allèles (A;A) et (T;T). La probabilité Pr(AT,TAI À) d'observer les allèles successives AT et TA sur chacun des deux chromosomes, c'est-à-dire la probabilité d'observer la paire d'haplotype (AT;TA) est égale à la probabilité d'observer la sous-séquence de paires d'allèles (AT;TA), 20 qui est égale au produit des probabilités Pr(AT1À) et Pr(TAIÀ) d'observer chaque sous-séquence d'allèles (A;T) et (T;A). Le processeur calcule ensuite la probabilité normalisée d'observer les paires d'haplotypes AA,TT et AT,TA sur la paire de chromosome étudiée. Pour cela, il effectue les calculs suivants : 25 Pn Pr ( AA I À)xPr(TT 1 À) ( AA,TT j À) = 0,003792 Pr (AA, TT I À) + Pr (AT, 7A ~ À) = Pi,(AT,1:4~À)= Pr(ATI~ï)xPr(7A~2) =0,9962(18• Pr(AA,TT I t)+Pr(AT,TA~ 2) Le processeur compare ensuite ces probabilités normalisées au seuil 30 prédéterminé f. Ici Pr(AA,TT IX) < f , le processeur n'enregistre donc pas au temps 3 de paires d'allèles observés dans les noeuds enfants du noeud de profondeur 2 correspondant, qui contient la paire d'allèle AT, comme représenté sur la figure 6. Il ne calcule donc pas les probabilités des sous-séquences de taille 3 35 commençant par les paires d'allèle AT, AT dans l'arbre. Au temps t = 3, l'ensemble des états observés du modèle comprend deux allèles identiques T, comme représenté dans le tableau de la figure 7. II n'y a donc qu'une seule paire d'allèle possible TT. Le processeur enregistre dans un noeud enfant du noeud contenant la paire d'allèle TA, la paire d'allèle observée possible TT au temps t = 3 et effectue les calculs suivants : a+rr (1) =[a47 (1)a,1 +a.,T (2) a,, +aaar (3)a3]b, = 0,347206 arrr(2)=[a,r(1)a,,+arr(2)a22+a.+r(3)a,2]b,=0,018186 a.rr_,. (3) = [n'A, (1) aä + arr (2) aä + a.,, (3)(1,31(1- b, ) = 0,00268472 Pr(A11IÂ)=airr(1)+arrr(2)+aArr(3)=0,368077 an, (1) = [ar., (1) )(rH + aT~ (2) (12, +ara (3) a_ , J b, = 0,00926525 arar(2) =[ar, (1)a, +ar, (2)a., +ar, (3)a,2]b, =0,289171 ar.ar(3)=[a,,(1)aä+ar, (2)a,, + ar, (3)aä1(1-b,)= 6,23634e-005 Yr(1AIÀ)=ar.,r(1) arir(2)+ar.,r(3)-0,298498 Cette étape est représentée sur la troisième ligne de l'arbre de la figure 6. La probabilité normalisée d'observer la paire d'haplotype (ATT,TAT) est donc ici égale à 1, soit Pn(ATT,TAT 1X) =1,0. 15 Au temps t = 4, l'ensemble des états observés du modèle comprend deux allèles G et T, comme représenté dans le tableau de la figure 7. Le processeur enregistre dans chaque noeud enfant du noeud contenant la paire d'allèle TT au temps t = 3 l'une des deux paires d'allèles TG et GT qu'il est possible d'observer au temps t = 4 et effectue les calculs suivants: 20 Pr (ATTG X) =0,00980776 Pr( TA TT (X) =0,2897 Pr(ATTT 1X) =0,358269 Pr(TATG (X) =0,00879853 Pn(ATTG,TATT X) =0,4740611 25 Pn(ATTT,TATG I X,) =0,525989 Cette étape est représentée sur la quatrième ligne de l'arbre de la figure 6. Les probabilités Pr des sous-séquences d'allèles uniques sont non normalisées, tandis que les probabilités Pn des paires de sous-séquences sont normalisées. Enfin, au temps t = 5, l'ensemble des états observés du modèle 30 comprend deux allèles A et C (voir figure 7). Le processeur enregistre dans des noeuds enfants de chaque noeud de profondeur t = 4 chaque paire d'allèle AC et CA observée au temps t = 5 et effectue les calculs suivants : Pr(ATTGA ~ X) = 0,0006291 Pr(TATTC ~ X) = 0,0333399 35 Pr(ATTTA I X) = 0,0261412 Pr(TATGC ~.) = 0,00586257 Pr(ATTGC I X) = 0,00917856 10 Pr(TATTAI X) = 0,25636 Pr(ATTTC I ~.) = 0,332128 Pr(TATGA II) = 0,0029596 Pn(ATTGA, TATTC I X) = 0,0059895 Pn(ATTTA, TATGC I X) = 0,0437575 Pn(ATTGC,TATTA 11) = 0,6718368 Pn(ATTTC,TATGA I X) = 0,2784162. Cette étape est représentée sur la cinquième ligne de l'arbre de la figure 6. La paire d'haplotypes (ATTGA, TATTC) est éliminée de l'arbre car Pn (ATTGA, TATTC 1 1) < f Les calculs du processeur selon la méthode de la présente invention mènent à la détermination de 3 paires d'haplotypes probables pour le génotype étudié dans le modèle de Markov caché considéré : - la paire d'haplotype (ATTTA, TATGC) de probabilité -0,05, - la paire d'haplotype (ATTGC, TATTA) de probabilité -0,67, - la paire d'haplotype (ATTTC, TATGA) de probabilité -0,28. En variante, le processeur détermine toutes les séquences de paires d'allèles possibles pour la paire de chromosome de l'individu étudié et les classe dans un arbre avant d'effectuer les étapes de calculs. Step t = 2: the processor records, in two nodes of depth 2, the pairs of possible observed alleles of all possible observed states for the SNP2 SNP2 SNP and an identifier of the node of depth 1. This step is represented on the second line of the tree of figure 6. Here, there are two pairs of possible alleles: AT and TA, because the set of observed states of the model at time t = 2 includes the two alleles A and T, as shown in the table of FIG. 7. The processor then calculates the probability of observing the allele pair size 2 sub-sequence corresponding to each node of depth 2 in the tree. Here, there are two sub-sequences of size 2 pairs of alleles: (AT; AT) and (AT; TA). For this, the processor calculates the intermediate probability of observing each subsequence of unique size 2 alleles corresponding to each of the two allele pair size subsequences. The sub-sequence of allele pairs (AT; AT) is divided into two sub-sequences of unique alleles (A; A) and (T; T) and the sub-sequence of allele pairs (AT; TA ) is broken down into two sub-sequences of unique alleles (A; T) and (T; A). For this, he performs the following calculations. The processor calculates the probability of observing the sub-sequence of unique alleles (A; A) denoted by Pr (AAIÀ) on one of the chromosomes of the pair concerned, by calculating the intermediate probabilities noted aA, (1), aAA (2) and aA, (3) to observe this subsequence (A; A) when the model is in each of its observed states, then summing these three intermediate probabilities: (1) = [a_, (1) aa + a, (2) a ,, + cX_, (3) a ,,] (1-b,) = 0.00346302 a, (2) = [a, (1) (1, + a, ( 2) a ,, + a, (3) a, _] h, = 0.0226076 a,., (3) = [a, (1) a + a, (2) a, + a, (3) a ,,] (1-b,) = 0.00297462 Pr (AAI) = a {, (1) 1 (2) i (3) = 0.0290453 Similarly, with equivalent notation, the processor calculates the probability of observing the subset of unique alleles (T; T) on one of the chromosomes of the concerned pair: arr (I) = [ar (1) a + ar (2) a ,, + a (3) a3.1h, = 0.013165 ar, (2) = [ar (1) a ,, + a, (2) (12, + a, (3) a, y1 (1-h, ) = 0.00310564 arr (3) = [ar (1) a ,, + ar (2) c123 + a, (3) adh, = 0.00944262 Pr (TTIΔ) = arr (1) + arr (2) + arr (3) = 0 In the same way, with equivalent notations, the processor calculates the probability of observing the subsequence of unique alleles (A; T) on one of the chromosomes of the pair concerned: aa. (1) = [a., (1) at + a, (2) a. + a, (3) a _,] b, = 0.342839 ar (2) = [a, (1) a, + a, (2) a + a, (3) a ,,] (1-b, ) = 0.00022836 a, r (3) = [a, (1) (h; + (2) u,; + a, (3) aä] h, = 0.294487 Pr (AT; Δ) = a , r (1) ia, r (2) 1a, r (3) - 0.637555 The processor calculates the probability of observing the subsequence of unique alleles (T; A) on one of the chromosomes of the relevant pair according to the following formulas: a, r (1) = [a, (1) a + a, (2) (12l + a, = 0.342839 a., r (2) = [a., (I) a ,, + a ,, (2) a ,, + a, (3) a, _] (I -h,) = 0.00022836 a. ,, - (3) = [a., (1) a ,, + a., (2) a ,, + a, (3) aa] b = 0.294487 Pr (A'112L) = a, r (1) 1 a, r (2) ia, r (3) = 0.637555 The probability of observing the successive AA and TT alleles on each of the two chromosomes, that is, the probability Pr (AA, TTIÀ) of observing the haplotype pair (AA, TT) is equal to the probability of observing the sub-sequence of 15 pairs of alleles (AT; AT), which is equal to the product of the probabilities Pr (AAIÀ) and Pr (TTI TO) of observing each sub sequence of alleles (A; A) and (T; T). The probability Pr (AT, TAI A) to observe the al successive AT and TA markers on each of the two chromosomes, ie the probability of observing the haplotype pair (AT; TA) is equal to the probability of observing the subsequence of pairs of alleles (AT; TA), which is equal to the product of the probabilities Pr (AT1Δ) and Pr (TAIÀ) of observing each subsequence of alleles (A; T) and (T; A). The processor then calculates the normalized probability of observing the pairs of AA, TT and AT, TA haplotypes on the chromosome pair studied. For this, it performs the following calculations: Pn Pr (AA I λ) xPr (TT 1 λ) (AA, TT j λ) = 0.003792 Pr (AA, TT I λ) + Pr (AT, 7A ~ A ) = Pi, (AT, 1: 4 ~ λ) = Pr (ΔTI ~ ï) xPr (7A ~ 2) = 0.9962 (18 • Pr (AA, TT I t) + Pr (AT, TA ~ 2) The processor then compares these normalized probabilities to the predetermined threshold F. Here Pr (AA, TT IX) <f, the processor therefore does not record at time 3 pairs of alleles observed in the child nodes of the corresponding depth node 2. , which contains the AT allele pair, as shown in Figure 6. It therefore does not calculate the probabilities of the size 3 subsequences starting with the AT, AT allele pairs in the tree. = 3, the set of observed states of the model includes two identical alleles T, as shown in the table of Figure 7. There is thus only one possible allele pair TT The processor records in a node child of the node containing the TA allele pair, the observed allele pair possible TT at time t = 3 and perform the following calculations: a + rr (1) = [a47 (1) a, 1 + a., T (2) a ,, + aaar (3) a3] b, = 0 , 347206 arrr (2) = [a, r (1) a ,, + arr (2) a22 + a. + R (3) a, 2] b, = 0.018186 a.rr_ ,. (3) = [αA, (1) α + arr (2) α + α, (3) (1,31 (1- b)) = 0.00268472 Pr (A11I) = airr (1) + arrr (2) + aArr (3) = 0.368077 year, (1) = [ar., (1)) (rH + aT ~ (2) (12, + ara (3) a_, J b, = 0.00926525 arar (2) = [ar, (1) a, + ar, (2) a., + Ar, (3) a, 2] b, = 0.289171 ar.ar (3) = [a (1) a + ar, (2) a ,, + ar, (3) a-1 (1-b,) = 6,23634e-005 Yr (IAA) = ar., R (1) arir (2) + ar., r (3) -0.298498 This step is represented on the third line of the tree of FIG. 6. The normalized probability of observing the haplotype pair (ATT, TAT) is here equal to 1, ie Pn (ATT, TAT 1X) = 1.0 At time t = 4, the set of observed states of the model comprises two alleles G and T, as shown in the table of FIG. in each child node of the node containing the TT allele pair at time t = 3 one of the two pairs of TG and GT alleles that can be observed at time t = 4 and performs the following calculations: Pr (ATTG X) = 0.00980776 Pr (TA TT (X) = 0.2897 Pr (ATTT 1X) = 0.358269 Pr (TATG (X) = 0.00879853 Pn (ATTG, TATT X) = 0.4740611 Pn (ATTT, TATG IX,) = 0.525989 This step is shown on the fourth line of the tree of FIG. 6 The probabilities Pr of single allele subsequences are non-normalized, while the Pn probabilities of subsequence pairs are normalized. Finally, at time t = 5, the set of observed states of the model 30 comprises two alleles A and C (see FIG. 7). The processor records in child nodes of each node of depth t = 4 each pair of AC and AC allele observed at time t = 5 and performs the following calculations: Pr (ATTGA ~ X) = 0.0006291 Pr (TATTC ~ X ) = 0.0333399 Pr (ATTTA IX) = 0.0261412 Pr (TATGC ~) = 0.00586257 Pr (ATTGC IX) = 0.00917856 Pr (TATTAI X) = 0.25636 Pr (ATTTC I ~. ) = 0.332128 Pr (TATGA II) = 0.0029596 Pn (ATTGA, TATTC IX) = 0.0059895 Pn (ATTTA, TATGC IX) = 0.0437575 Pn (ATTGC, TATTA 11) = 0.6718368 Pn (ATTTC TATGA IX) = 0.2784162. This step is represented on the fifth line of the tree of FIG. 6. The pair of haplotypes (ATTGA, TATTC) is eliminated from the tree because Pn (ATTGA, TATTC 1 1) <f The calculations of the processor according to the method of the present invention lead to the determination of 3 pairs of likely haplotypes for the genotype studied in the hidden Markov model considered: - the haplotype pair (ATTTA, TATGC) of probability -0.05, - the pair of haplotype (ATTGC, TATTA) of probability -0.67, - the haplotype pair (ATTTC, TATGA) of probability -0.28. Alternatively, the processor determines all the possible allele pair sequences for the chromosome pair of the individual and classifies them in a tree before performing the calculation steps.

Selon l'invention, le processeur détermine par cette méthode d'exploration les paires d'haplotypes les plus probables pour le génotype étudié dans le modèle de Markov caché considéré en effectuant un nombre réduit d'opérations. Par les méthodes connues de l'état de la technique, le processeur aurait été programmé pour calculer la probabilité de chaque haplotype via l'algorithme de propagation alpha bêta, pour ensuite déterminer la paire la plus probable. Pour s SNP hétérozygotes, il y a 2`-' paires d'haplotypes possibles, donc 2S haplotypes dont la probabilité est déterminée par la méthode de l'état de la technique. Ce nombre est considérablement réduit par la méthode selon l'invention. According to the invention, the processor determines by this method of exploration the most likely haplotype pairs for the genotype studied in the hidden Markov model considered by performing a reduced number of operations. By the known methods of the state of the art, the processor would have been programmed to calculate the probability of each haplotype via the alpha beta propagation algorithm, and then determine the most probable pair. For heterozygous SNPs, there are 2 possible pairs of haplotypes, thus 2S haplotypes whose probability is determined by the prior art method. This number is considerably reduced by the method according to the invention.

Cette fonction d'exploration peut être utilisée pour améliorer le logiciel PHASE v2.1 décrit par exemple dans le document intitulé Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation publié par M. Stephens et P. Scheet dans l'American journal of human genetics (volume 76(3), pages 449-462) en 2005, et breveté dans le brevet WO02064617. This exploration function can be used to improve the PHASE v2.1 software described for example in the document entitled "Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation" published by Mr. Stephens and P. Scheet in American journal of human genetics (volume 76 (3), pages 449-462) in 2005, and patented in WO02064617.

Ce logiciel Phase v2.1 est basé sur un modèle de Markov caché et constitue un logiciel très performant pour la détermination des haplotypes. Selon l'invention, la méthode de calcul de la présente invention et la fonction d'exploration décrites ci-dessus sont intégrées à ce logiciel PHASE v2.1 pour obtenir un nouveau logiciel amélioré afin d'accélérer les calculs du processeur commandés par ce logiciel. Les performances des logiciels Phase v2.1 de l'état de la technique et de ce nouveau logiciel selon l'invention ont été comparées sur un nombre important de données réelles de génotypes extraites de la base de données publique HapMap (http://www.hapmap.org/) dont les haplotypes correspondant sont partiellement connus. Les haplotypes les plus probables pour différents génotypes ont été calculés par les deux logiciels et comparés aux haplotypes partiellement connus. This Phase v2.1 software is based on a hidden Markov model and is a very powerful software for the determination of haplotypes. According to the invention, the calculation method of the present invention and the exploration function described above are integrated in this software PHASE v2.1 to obtain new improved software in order to accelerate the calculations of the processor controlled by this software. . The performance of the state-of-the-art software Phase v2.1 and this new software according to the invention were compared on a large number of actual genotype data extracted from the public database HapMap (http: // www .hapmap.org /) whose corresponding haplotypes are partially known. The most likely haplotypes for different genotypes were calculated by both software and compared to partially known haplotypes.

Ces différents génotypes comportaient chacun un nombre de SNP et des natures de SNP différents. Un taux d'erreur exprimé en pourcentage correspondant à la proportion de nucléotides erronés dans les haplotypes calculés par rapport aux haplotypes connus à été déterminé. En parallèle, les temps de calcul nécessaire au même processeur pour calculer ces haplotypes selon les instructions des deux logiciels ont été aussi relevés. Les résultats sont exposés dans le tableau de la figure 8 où les temps de calcul sont exprimés en secondes. Le différents génotypes étudiés sont repérés dans ce tableau par un numéro placé dans la première colonne. On constate que dans le nouveau logiciel selon l'invention, la méthode conforme à la présente invention accélère le temps de calcul du processeur d'environ 80 fois et fournit les haplotypes les plus probables avec un taux d'erreur équivalent à celui des haplotypes obtenus par le logiciel PHASE v2.1 de l'état de la technique. D'autres applications de cette méthode peuvent être envisagées, dans différents domaines où les probabilités de séquences d'états observés dans un modèle de Markov caché sont calculées par un ordinateur. Ces domaines sont par exemple ceux de la finance, de la météorologie et de la reconnaissance vocale. La présente invention n'est nullement limitée aux modes de réalisation décrits et représentés mais l'homme du métier saura y apporter toute variante conforme à son esprit. These different genotypes each contained a number of SNPs and different natures of SNPs. An error rate expressed as a percentage corresponding to the proportion of erroneous nucleotides in haplotypes computed against known haplotypes has been determined. In parallel, the computation times required for the same processor to calculate these haplotypes according to the instructions of the two softwares were also noted. The results are shown in the table of FIG. 8 where the calculation times are expressed in seconds. The different genotypes studied are identified in this table by a number placed in the first column. It can be seen that in the new software according to the invention, the method according to the present invention accelerates the processor calculation time by about 80 times and provides the most probable haplotypes with an error rate equivalent to that of the haplotypes obtained. by the PHASE v2.1 software of the state of the art. Other applications of this method can be envisaged, in different domains where the probabilities of state sequences observed in a hidden Markov model are computed by a computer. These areas are for example those of finance, meteorology and voice recognition. The present invention is not limited to the embodiments described and shown, but the skilled person will be able to make any variant consistent with his mind.

La méthode peut être appliquée par exemple au calcul par ordinateur des arrangements de trois ou plus haplotypes d'individus appartenant à des espèces polyploïdes à trois chromosomes ou plus. La méthode accélère alors le calcul des séquences d'arrangements de trois allèles ou plus. The method can be applied, for example, to computation of arrangements of three or more haplotypes of individuals belonging to polyploid species with three or more chromosomes. The method then speeds up the calculation of arrangement sequences of three or more alleles.

Claims

REVENDICATIONS1. Electronic device for calculating the probability of observing each sequence (Ox) of a set of a predetermined number of sequences (Ox) each comprising a given number T of arrangements of a number p of observed states of a variable modeled by a hidden Markov model, each arrangement of p observed states of rank t of each sequence having been emitted by this model, at time t of this model corresponding to said rank t of each sequence, said hidden Markov model comprising a set predefined state of hidden states, said device comprising at least one processor and a memory, and being programmed to perform the following tasks: a) classifying said sequences of arrangements of p observed states according to a computer tree stored in said memory, this task comprising the following sub-shelves: a1) record, in the first nodes of depth 1 in the tree, each arrangement of p observed states of rank 1 of said seq. uences (Ox), a2) record, in each node of depth t between 2 and T, the arrangement of p observed states of said variable located at the corresponding rank t of each sequence (Ox) of at least a part of the set of said equivalents (Ox) and an identifier of the parent node of depth t-1 of this depth node t: all the sequences whose arrangements of p observed states are identical up to the rank t, being grouped together on a same branch of the tree extending from one of said first nodes to one of said nodes of depth t, D) calculating, for each first node of the tree and for each hidden state of said hidden Markov model , an intermediate probability of observing each observed state of the arrangement of p observed states of said variable recorded in this first node, when said model is in said hidden state at time 1 of this model,: D) calculate, for each node of depth t between 2 and T-1, for each observed state of rank u between 1 and p in the arrangement of p observed states recorded in the corresponding node of depth t, and for each hidden state of said hidden Markov model, an intermediate probability of observing the sub-sequence of single observed states comprising, at each rank between 1 and t, the observed state of rank u in the arrangement of p observed states located at the corresponding rank of the sequence (Ox) considered, this subsequence being called sub-sequence of observed unique states of size t and rank u of the sequence (OX) considered, when said model is in said hidden state at time t of this model and d) calculating, for each terminal node of the tree, the probability observing the sequence (OX) of arrangements of p observed states of said variable described by the branch of the leading tree of the first node corresponding to said terminal node of the tree.

2. Device according to the preceding claim, programmed to perform the tasks b), c) and d) in this order, and to calculate, in the task c), - first, for all nodes of the same depth t and for all the hidden states of the model at time t, said intermediate probabilities of observing said sub-sequences of single observed states of size t and rank u, for all ranks u between 1 and p, when said model is in each state hidden at time t, - then, the intermediate probabilities of observing the sub-sequences of single observed states of size t + 1 and of rank u, for all ranks u between 1 and p, when the model is in each state hidden at time t + 1.

3. Device according to one of the preceding claims, wherein, during the task c), the processor calculates, for each node of depth t between 2 and T-1, the probability of observing the sub-sequence of single observed states of size t and rank u, which is equal to the sum, of the intermediate probabilities of observes the sub-sequences of unique observed states of size t and rank u corresponding to this node when the model is in each state hidden at time t, for all the hidden states of the model at time t.

4. Device according to the preceding claim, wherein, in the task c), the processor calculates, for each node of depth t between 2 and T-1, the probability of observing the subset of arrangements of p observed states described by the branch of the tree leading from the first node corresponding to said node of depth t, called sub-sequence of size t, which is equal to the product, for all the ranks u between 1 and p, of said probabilities of observe the sub-sequences of unique observed states of size t and rank u corresponding to this node of depth t.

5. Device according to the preceding claim, wherein, in the task c), the processor calculates the intermediate probabilities of observing the subsequences: 3 of single observed states of size t + 1 and rank u corresponding to each node of depth t + 1 if and only if the probability of observing the subsequence of size t corresponding to the node of depth t parent of said node of depth t + 1 is one of the Y greatest probabilities calculated by the processor for the observation of all subsequences of size t.

6. Device according to claim 4, wherein, in the task c), the processor calculates, for each node of depth t, a normalized probability of observing the subsequence of size t corresponding, this standardized probability being equal at said probability of observing the subsequence of corresponding size t divided by the sum of the probabilities of observing all sub-sequences of size t, and the processor calculating the intermediate probabilities of observing the sub-sequences of unique observed states of size t + 1 and rank u corresponding to each node of depth t + 1 if and only if the normalized probability of observes the subsequence of size t corresponding to the node of depth t parent of said depth node t + 1 is greater than a predetermined threshold.

7. The device according to claim 1, for calculating the probability of observing all the sequences that can be transmitted by said Markov model and comprising a number T of arrangements of p observed states, programmed to perform the following preliminary task: determining all the sequences that can be transmitted by the Markov model considered and having a number T of arrangements of p observed states, each observed state of the arrangement of p observed states of rank t of each sequence belonging to a set of observed states of said predetermined variable according to said time t of said model corresponding to the rank t of this sequence. EL Electronic device for calculating the probability of observing all sequences .; capable of being transmitted by a Markov model and having a number T of arrangements of p observed states, each observed state of the arrangement of p observed states of rank t of each sequence belonging to a set of observed states of said predetermined variable as a function of the time t of said model corresponding to the rank t of this sequence and said hidden Markov model comprising a predefined set of hidden states, said device comprising at least one processor and a memory, and being programmed to build in said memory a tree computing and performing the following tasks: E +) determining all the possible combinations of p observed states of the predetermined set of states observed at time 1 of the model, fi recording in each first node of depth 1 of said computer tree, one of combinations of p observed states determined at task), lj) calculate, for each first node, the probability of observing see the combination of p observed states of said variable recorded in this first node, 1) at each successive t-depth in the tree, with t between 2 and T-1, hl) determine all the possible arrangements of p observed states of the predetermined set of states observed at time t of the model, h2) recording, in each node of depth t, each possible arrangement of p observed states determined at task h1) and an identifier of the parent node of depth t -1 of this node of depth t, and h3) calculate the probability of observing the subsequence of arrangements of p observed states described by the branch of the tree leading cu first node corresponding to said node of depth t, called under -type sequence t,) for each terminal node of the tree, it) determine all the possible arrangements of p observed states of the predetermined set of states observed at the corresponding time of the model, i2) record in each node terminal of the tree, each possible arrangement of p observed states determined to the task il) and an identifier of the parent node of this terminal node, and i3) calculating the probability of observing the sequence of arrangements of p observed states of said variable described by the branch of the tree leading from the first node corresponding to said terminal node of the tree. 9. Device according to claim 8, for determining the most probable sequences that can be transmitted by said Markov model and comprising a number T of arrangements of p observed states, in which, during tasks g) and h3), the processor also calculates, for each node of depth t between 1 and T-1, a normalized probability of observing the sub-sequence of size corresponding to this node, equal to said probability of observing said sub-sequence of size t divided by the sum of the probabilities of observing all the subsequences of size t, and in which the processor performs the task h) for each node of depth t + 1 if and only if the normalized probability of observing the sub-sequence of size t corresponding to the node of depth t parent of said node of depth t + 1 is greater than a predetermined threshold. The device of claim 8, wherein the processor performs the task II) for each node of depth t + 1 if and only if the probability of observing the subsequence of size t corresponding to the node of depth t parent of said node depth t + 1 is one of the Y's greatest probabilities40calculated by the processor for the observation of all subsequences of size t. 11. The device according to one of claims 8 to 10, to determine the most probable haplotype arrangements of an individual of known genotype included a number T of polymorphisms called SNPs, these haplotypes being modeled: by a hidden Markov model, in which - said variable corresponds to the allele of successive SNPs of this genotype, - the set of possible observed states of this allele for each SNP corresponds to the alleles of a set of known ancestral chromosomes, the set of hidden states of the model corresponds to said known ancestral chromosomes, each sequence of a given number of arrangements of observed states of the allele corresponding to the successive SNPs of the genotype of the individual is an arrangement of p haplotypes of the individual, the arrangement of p observed states I the allele of rank t of each sequence corresponding to the SNP of rank t of said genotype.