EP1550069A1 - Method for analysis of transcription variations in a set of genes - Google Patents

Method for analysis of transcription variations in a set of genes

Info

Publication number
EP1550069A1
EP1550069A1 EP03756043A EP03756043A EP1550069A1 EP 1550069 A1 EP1550069 A1 EP 1550069A1 EP 03756043 A EP03756043 A EP 03756043A EP 03756043 A EP03756043 A EP 03756043A EP 1550069 A1 EP1550069 A1 EP 1550069A1
Authority
EP
European Patent Office
Prior art keywords
gene
genes
value
variation
calibration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP03756043A
Other languages
German (de)
French (fr)
Inventor
Michel Bellis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Centre National de la Recherche Scientifique CNRS
Original Assignee
Centre National de la Recherche Scientifique CNRS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centre National de la Recherche Scientifique CNRS filed Critical Centre National de la Recherche Scientifique CNRS
Publication of EP1550069A1 publication Critical patent/EP1550069A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Definitions

  • the present invention relates to the analysis of variations in m-RNA concentrations of a set of genes carried out using DNA chips.
  • Each DNA molecule is made up of two complementary polynucleotide strands, an "antisense” strand (-) and a “sense” strand (+).
  • Each polynucleotide strand consists of a polymeric chain of nucleotides.
  • Each nucleotide consists of a phosphate, a sugar (deoxyribose) and a base, the bases possibly being a guanine (G), an adenine (A), a cytosine (C) and a thyine (T) .
  • each gene When a cell is active and living, each gene synthesizes RNA-messenger molecules, or mRNA, which are base-to-base copies of the sense (+) strand of the gene. This phenomenon is called transcription or expression of the gene. More precisely, the transcription of a gene is carried out only for certain groups of consecutive bases, or sequences, of the strand of the gene which is expressed, the sense strand (+). L 1 mRNA produced by a gene is in fact a grouping of copies of sequences. Depending on the cell, not all genes are expressed in the same proportions. Thus, • the concentration of mRNA relative to a given gene can be zero, or vary between 1 and 10,000 per cell.
  • a known method for measuring the concentration of mRNA is to use DNA chips.
  • Cells are taken from a culture or from a human body by biopsy. The transcription activity of these cells is then stopped, for example by freezing.
  • a sample is then prepared containing the mRNA extracted from a certain number of cells in solution.
  • a DNA chip is also prepared, an example of which is illustrated in FIG. 1 in order to analyze a set of genes.
  • each gene is analyzed by means of two sets of around twenty hybridization units.
  • a hybridization unit groups together a set of identical DNA strands called probes. These DNA strands are complementary strands of a gene sequence which is found in the mRNA of the cells analyzed. These DNA strands have sequences identical to those of the antisense (-) strand of the gene.
  • a first set of hybridization units, called perfect (UP) contains probes which correspond to different sequences of a gene.
  • a second set of hybridization units contains probes which differ from the probes of the first set for at least one of the bases, each perfect hybridization unit being associated with an imperfect hybridization unit.
  • a perfect hybridization unit 2 contains probes 3, 4, 5, 6 and 7.
  • the perfect hybridization unit 2 is associated with an imperfect hybridization unit 10 which contains probes 11, 12, 13, 14 and 15 which differ by a base (A, G) compared to probes 3 to 7.
  • the messenger RNAs of the previously prepared sample are "labeled", for example rendered fluorescent.
  • the fluorescence of the strands is represented by a cross in a circle attached to the fluorescent strand.
  • the tagged RNA-messengers are called targets.
  • a washing step possibly makes it possible to dissociate the strands which are not very complementary and thus limit the number of false appearances.
  • a photograph is then taken of each of the hybridization units of the DNA chip in order to determine for each hybridization unit a fluorescence intensity. After measuring the fluorescence intensities, two fluorescence intensity values iy and ⁇ J are obtained for each pair of perfect and imperfect hybridization units corresponding to a gene sequence. A fluorescence intensity is calculated for each gene sequence equal to the difference between the fluorescence intensity values i-gp and iui- This method of measuring the fluorescence intensity of each sequence makes it possible to obtain a better signal ratio on noise.
  • the reference cells could be, for example, healthy liver cells and the test cells, diseased liver cells.
  • the same DNA chip models are used, and in both cases the sequence of operations described above is carried out.
  • the study of variations in the concentration of m-RNA for each gene makes it possible to identify which genes have the concentration of m-RNA changed, following a modification of the transcription activity, or a change in the lifespan of mRNAs.
  • the lifespan of mRNA fluctuates among other things as a function of more or less significant protein synthesis activity.
  • the analysis of variations in mRNA concentrations for each of the genes is carried out by calculating the ratio of the mRNA concentrations of the same gene.
  • This method is known as the "fold change" method.
  • the change in m-RNA concentration is considered to be significant when the ratio of RN-m concentrations is above a predetermined threshold. This threshold is identical for all of the genes and this method therefore does not allow the specificity of each of them to be taken into account.
  • the processes of creation and destruction of m-RNA are interrupted randomly during the collection of cells and the concentration of m-RNA may fluctuate slightly from one cell to another. In the case where a gene produces on average 10 mRNA in each cell, a difference of only one
  • MRNA between two cells leads to a ratio of 1.1, or 10% difference, and the gene in question will be considered to have a significant difference in mRNA concentration.
  • a difference of 10 mRNA leads to a ratio of 1.01, or 1% difference, and this will go unnoticed when it can be completely abnormal.
  • the concentration of m-RNA relative to a gene can naturally vary in its own proportions. With a simple fold change analysis, it is impossible to know to what extent the variation in the concentration of m-RNA relative to a gene remains or not within acceptable proportions.
  • One way of knowing the range of natural variation of the mRNA concentration relative to a gene, or more precisely the cumulative distribution of frequencies, would be to carry out a large number of mRNA concentration measurements, for each gene. from identical reference cells. In the case where 100 measurements have been made for each gene, it is possible to define threshold values corresponding to probabilities in increments of 0.01 so that the same discomfort associated with identical cells has a higher concentration of mRNA at these threshold values.
  • Another object of the present invention is to provide such a method which makes it possible to define a threshold value very precisely.
  • the present invention provides a method for analyzing variations in concentrations of messenger RNAs obtained by transcription of a set of genes comprising the following steps: a) measuring the concentration of messenger RNAs for each of the genes in so-called reference cells and report the results on a reference list (L re f); b) measure the concentration of messenger RNA for each of the genes in so-called test cells and report the results on a test list (L ⁇ est) • 'c) calculate for each gene a variation value (Var j ) , k being an integer between 1 and n, which is a measure of the difference between the mRNA concentrations of said gene between the reference list (L re f) and the test list
  • the step of identifying the genes consists in selecting the genes whose normalized variation value is greater than a determined threshold value (Z se ⁇ j _] _).
  • the determination of the threshold value (Z seu j_) comprises the following steps: h) measuring the concentration of m-RNA for each of the genes of two identical groups of so-called calibration cells and report the respective results on first CL> etal l) and second (Iié al 2 ⁇ calibration lists; i) calculate for each gene a variation value (Vargtal k) according to the method of steps c ) to e) from the first (L e t a li) and second ⁇ I * stall 2) calibration lists; j) calculating for each gene a normalized calibration variation value (Z re fj according to the method of step f); k) construct the cumulative frequency distribution, called calibration, of the normalized calibration variation values associating with any calibration variation value normalized
  • n (number of genes for which Z> Z threshold) where n is the number of genes considered.
  • the step of identifying the genes consists in selecting the genes whose normalized variation value is greater than a first threshold value for the genes of the first group and greater than a second threshold value for the genes of the second group.
  • the determination of the first and second threshold values consists in choosing first and second probabilities of selection error desired respectively for the first and second groups and in defining the first and second corresponding threshold values using the cumulative distribution of calibration frequencies.
  • the choice of the first and second threshold values consists in carrying out the method of claim 4 successively for the first and the second group.
  • the variation value Var ⁇ of a gene is equal to the difference between the concentrations of m-RNA of said gene for different cells.
  • the value of variation Var ⁇ - of a gene is equal to the ratio of the concentrations of m-RNA of said gene for different cells.
  • the method comprises for each list the following steps:
  • the variation value of a gene is equal to the difference between the ranks of the gene for the two lists analyzed.
  • the normalized variation value Z of each gene is obtained according to the following formula: Var - ⁇ (g)
  • the normalized variation value is calculated according to the following steps: - assign a unique rank value r to each gene equal to the rank value of the reference list for the genes of the first group and equal to the rank value of the test list for genes of the second group.
  • the method aims to analyze the variations in m-RNA concentrations of a set of genes from m identical groups of so-called reference cells (GR ⁇ to G ⁇ and q groups identical to so-called test cells (GT ] _ to GTg), the method comprising the following steps:
  • the first and second calibration groups (GRétal i and Ggtal _X) are identical whatever the combination of groups considered.
  • the determination of the threshold grouping value (Rseuil) comprises the following steps:
  • the step of selecting a probability of selection of grouping error comprises the steps of: - defining the maximum acceptable rate of false positive for one identification genes;
  • the grouping method comprises the following steps:
  • the method aims to analyze the variations in mRNA concentrations of a set of genes from m identical groups of so-called reference cells (GR ⁇ _ to GR j ⁇ ) and q identical groups of so-called test cells (GT ] _ to GTg), the method comprising the following steps:
  • one or more reference, test or calibration lists are obtained according to a method of creating an artificial data set comprising the following steps:
  • FIG. 1 represents a chip DNA
  • FIG. 2 is a representation of variation values of m-RNA concentration relating to a set of genes used according to a first step of the invention
  • FIG. 3 is a representation of normalized mRNA concentration variation values relating to a set of genes used according to a second step of the invention
  • FIG. 1 represents a chip DNA
  • FIG. 2 is a representation of variation values of m-RNA concentration relating to a set of genes used according to a first step of the invention
  • FIG. 3 is a representation of normalized mRNA concentration variation values relating to a set of genes used according to a second step of the invention
  • FIG. 1 represents a chip DNA
  • FIG. 2 is a representation of variation values of m-RNA concentration relating to a set of genes used according to a first step of the invention
  • FIG. 3 is a representation of normalized mRNA concentration variation values relating to a set of genes used according to a second step of the invention
  • FIG. 1 represents a chip DNA
  • FIG. 4A represents a cumulative frequency distribution of RN-m concentration variation values for a first set of genes
  • Figure 4B shows a cumulative frequency distribution of mRNA concentration variation values for a second set of genes
  • FIG. 4C is a "quantile versus quantile" curve of the variation values of m-RNA concentrations of the first and second sets of genes
  • FIG. 5A represents a set of "quantile against quantile” curves of non-normalized variation values obtained according to a "fold change”method
  • FIG. 5B represents a set of "quantile against quantile” curves of non-normalized variation values obtained according to a row shift method
  • FIG. 6A represents a set of curves
  • FIG. 6B represents a set of "quantile against quantile” curves of normalized variation values obtained according to a row shift method.
  • the method of analysis of the present invention provides for using DNA chips to analyze a set of n genes and to study the variations in m-RNA concentrations between reference cells and test cells.
  • an analysis of the variations between a group of test cells and a group of reference cells will be described.
  • the method according to the invention will be generalized to the analysis of several groups of test and reference cells.
  • the method of analysis of the present invention provides for using DNA chips to analyze a set of n genes and to study the variations in m-RNA concentrations between a group of reference cells and a group of test cells.
  • concentration of mRNA Ck relative to each gk gene is measured beforehand and the values are reported on reference lists L re f and test £ eS .
  • the method of analysis begins with the calculation for each of the genes of a value of variation of mRNA concentration, or value of variation Var, which can be equal to the difference of the concentrations of mRNA of each gene between the reference and test groups ref or c k test and Ck ref respectively the mRNA concentrations of the gk gene on the test and reference lists) or also equal to the ratio of the mRNA concentrations (Va ⁇ ⁇ Ck test / c k ref) ⁇ • which corresponds to the method "fold change" described above.
  • the genes are classified in ascending order of their mRNA concentrations for each of the reference and test lists.
  • a value of zero rank is then assigned to all the genes whose mRNA concentration is equal to zero or more broadly to all the genes whose mRNA concentration is less than a threshold concentration value corresponding to a estimation of measurement noise.
  • Each of the ni other genes is then assigned a unique rank value, the rank value being between 1 and ni.
  • the set of rank values forms a continuous series of integers between 0 and ni. The higher the rank of a gene, the higher its mRNA concentration.
  • variations in the method of measuring the concentration of mRNA from DNA chips results in a greater or lesser variation in the values of RNA concentration.
  • Two identical groups of cells can have concentration values varying between 10 and 10,000 for the first group and between 50 and 11,000 for the second group.
  • Vark The variation value, Vark, of each gk gene is calculated as follows: Var k ⁇ r test , k - r re f, k ( D where r ⁇ st k and r ref k are respectively the ranks of the gk gene from the lists of test and reference.
  • FIG. 2 represents a set of positive Vrk variation values calculated according to the "row shift” method.
  • the rows are indicated on the abscissa.
  • the variations are indicated on the ordinate.
  • Each variation value of a gene is represented by a cross whose abscissa corresponds to the rank of this gene for the reference list. Although this is not visible in Figure 2 'because of the large number of genes considered, each value of x-axis (row) corresponds to a single gene, and thus to a single value of variation.
  • the present invention provides for defining a threshold variation value which is a function of the rank of the discomfort. More particularly, the analysis method of the present invention includes a normalization method. Genes are classified into two groups. The genes whose variation value indicates an increase in their mRNA concentrations between the reference list and the test list are placed in a first group. The others " are put in a second group and a new variation value is calculated for these genes by inverting the test and reference lists.
  • the genes of the second group are the n ne g genes whose variation is strictly negative ( ⁇ is k ⁇ r ref k For a g gene).
  • V ⁇ - the variation value V ⁇ - equal to the opposite of the initial value. All variation values are now positive.
  • the variation values of the genes exhibiting a decrease in their concentration (value less than 1) between the reference group and the test group are replaced by 1 inverse of the initial values.
  • variation values are therefore all greater than 1.
  • a set of neighboring rows, or else "window" of rows is selected for each gene gk of rank ⁇ .
  • a normalized variation value Zk is calculated for each of the gk genes according to the following formula: z Vark ⁇ ⁇ (9k) ⁇ ( g)
  • the normalization process is carried out separately for each of the first and second groups of genes.
  • the values ⁇ (gk) and ⁇ (g) are calculated for each group from the variation values of a set of genes from the same group.
  • FIG. 3 represents the set of normalized variation values Z obtained for each of the variation values Vark ⁇ e l in FIG. 2.
  • the abscissa designates the rows and a value of abscissa corresponds to a single value of normalized variation.
  • the curves 30 and 31 correspond respectively to the local means and to the local standard deviations, not smoothed, calculated from the Z values in the same way as that had been done previously from the Vark values, and described above. Curves 30 and 31 show that the local means and the local standard deviations are now substantially constant whatever the rank, which means that genes with different mean mRNA concentrations have normalized variation values that follow the same cumulative frequency distribution.
  • any normalization method can be used such that the cumulative frequency distribution of a subset of normalized variation values corresponding to genes in the same row window is substantially identical regardless of the subset. considered.
  • a threshold value seu j_ ⁇ possibly different for the first and the second group of genes, and selecting the genes whose standardized variation value exceeds the threshold value.
  • this threshold value is identical for all the genes and the selection criterion is homogeneous whatever the rank of the genes analyzed, that is to say regardless of their concentration of RNA- m average.
  • An advantage of the analysis method according to the present invention is that it makes it possible to identify genes exhibiting a significant variation in their mRNA concentrations from a limited number of measurements.
  • the present invention also proposes to define a threshold value according to the method below.
  • a calibration step is carried out which consists in determining the variations in the normal RN-m concentrations of each of the genes by studying two groups of identical cells called calibration, the concentration of m-RNA of each gene being plotted on two calibration lists Lg al 1 and L êtal 2 •
  • a calculation of normalized calibration variation values is carried out according to the row offset method and the normalization method previously described.
  • One of the two calibration lists Lg ⁇ al 1 and L étal 2 is considered as a test list and the other as a reference list.
  • local averages are smoothed used for the calculation of Zetal k- ® n obtains two calibration curves representing the mean ⁇ etal ( r ) and the standard deviation r ⁇ tal ⁇ ) of the variations in calibration as a function of rank, any reference to a given gene being deleted .
  • the normalized variation values Z are calculated from these calibration curves according to the formula:
  • the groups of calibration cells can be reference cells, test cells or other cells deemed suitable.
  • the choice of cells used is dictated by the effect of the ⁇ êt values (r) and ⁇ stall (r) are normalized on variation values Z - These are even smaller than the mean values and standard type are great.
  • the values ⁇ etal ( r ) and ⁇ etal ( r ) depend on the one hand on the reproducibility of the experimental conditions (DNA chips not perfectly identical) and on the other hand on the stability of the biological system of the chosen cells.
  • the experimental conditions are assumed reproducible biological system ⁇ étal present values (r) and ⁇ stall (r) all the greater that it is unstable.
  • the calibration curves are constructed independently for each of the pairs, which leads to two pairs of calibration curves ( ⁇ test ' ⁇ test) and ⁇ ref' ⁇ ref) • 0n then evaluates which of the two systems is more unstable ( ⁇ or / and ⁇ higher).
  • This assessment can be done in different ways.
  • the results of the analysis method of the present invention are better if the calibration curves constructed from the most unstable system are used.
  • a cumulative distribution of calibration frequencies is constructed from all the normalized variation values. Normalized variation values for all genes, regardless of their rank, follow this cumulative distribution of calibration frequencies. Indeed, as will be established more precisely in relation to FIG. 6B, any subset of normalized calibration variation values corresponding to genes of the same row window follows the same cumulative distribution of frequencies and it is therefore possible to construct a single cumulative distribution of frequencies from all the normalized calibration variation values. Given the large number of genes studied and therefore the large number of normalized calibration variation values obtained, the cumulative distribution of resulting calibration frequencies is very precise. From this cumulative distribution calibration frequencies, is associated with all normalized calibration variation value z Stall, k Probability, called p selection error probability is uil k 'for that there are values of normalized calibration variation naturally greater than the latter.
  • the probability of error can now be defined using the cumulative distribution of calibration frequencies.
  • p is uil selection corresponding to the probability that it exists naturally standard variation values greater than the threshold value seu ⁇ ; L chosen to select genes.
  • An advantage of the analysis method according to the present invention is that it makes it possible to associate a probability of selection error with any threshold value Z seu j_ ⁇ _ chosen.
  • Another advantage of the analysis method according to the present invention is that it allows to choose a threshold value seu j_. very precise with a limited number of measurements.
  • a first and a second false positive rate are defined.
  • n the number of genes of the first group np OS or of the second group n ne g, the threshold Pseuil / z values possibly being different for each group of genes.
  • the cumulative frequency distribution of the normalized variation values Zk obtained during the comparison between test and reference cells is constructed beforehand. From this distribution, it is possible to associate with any normalized variation value k a probability, called probability of observation Pobs k 'so that normalized variation values greater than the latter are observed.
  • the false positive rate can be defined as being equal to Pseuil k / Pobs k-
  • Pseuil / Z threshold 'l has sensitivity, equal to (Pobs k "Pseuil k) / F 'makes it possible to know if among the selected genes, the number of genes actually showing significant variations is representative of the number of genes whose variation values have increased (Vark> ariai) •
  • An advantage of the analysis method according to the present invention is that it allows to associate a false positive rate and a sensitivity value of any threshold value seu i] _ and therefore to any Pseuil selection error probability value chosen.
  • FIGS. 4A to 4C illustrate the construction of a "quantile against quantile" curve.
  • FIG. 4A represents a cumulative distribution of frequencies C ⁇ of a first subset of variation values taken from the set of variation values (Var) obtained during a comparative study. The variation values are plotted on the abscissa. We indicate on the ordinate the probability (proba) so that there are variation values lower than the variation value on the abscissa.
  • FIG. 4B is another cumulative distribution of frequencies C2 of a second set of variation values taken from the set of variation values of the comparative study.
  • FIG. 4C is a "quantile against quantile" curve C3 obtained from curves C1 and C2 in FIGS. 4A and 4B.
  • the variation values of the first studied set are represented on the ordinate, and the variation values of the second studied set are represented on the abscissa.
  • “quantile against quantile” is obtained by taking for each probability value (between 0 and 1) the corresponding variation values on the curves C1 and C2 and by defining a point having these two values respectively for ordinate and abscissa.
  • the point 40 of the curve C3 has the abscissa VI 'and the ordinate VI, VI and VI' being respectively the values of variation of the curves Cl and C2 corresponding to the probability 0.1.
  • the points 41 and 42 of the curve C3 have the respective abscissa V2 'and V3' and for the ordinate V2 and V3, the variation values V2, V3 of the curve C ⁇ _ and
  • V2 ', V3' of curve C2 having respective probabilities 0, 5 and 0.9.
  • a “quantile against quantile” curve is thus obtained for two subsets of variation values.
  • the curve C3 is relatively far from the diagonal drawn in dotted lines, which means that the first and second subsets of variation values have different distribution functions.
  • FIG. 5A represents a set of "quantile against quantile" curves obtained by studying different subsets of variation values calculated according to a Fold Change method. The most flattened curves are obtained by taking subsets of variation values whose respective ranks are very far apart. This demonstrates that genes with different ranks have variation values that follow different distribution functions.
  • FIG. 5B likewise represents a set of "quantile against quantile" curves obtained by studying different subsets of non-normalized variation values calculated according to a row shift function. We can also observe a difference between the distribution functions for genes with very distant ranks.
  • FIG. 6A represents a set of "quantile against quantile" curves obtained by studying different subsets of normalized variation values calculated according to the Fold Change function and the normalization method of the present invention.
  • the curves approach the diagonal which means that genes with different ranks have normalized variation values which follow relatively similar distribution functions. However, there are relatively large divergences for the values corresponding to high probabilities.
  • FIG. 6B represents a set of "quantile against quantile" curves obtained by studying different subsets of normalized variation values calculated according to the row shift method and the normalization method of the present invention.
  • the curves are all very close to the diagonal, which means that the set of normalized variation values follows the same cumulative frequency distribution. This demonstrates that, by combining a calculation of the variation values according to the row shift method of the invention and a normalization of these values according to the normalization method of the invention, a set of normalized variation values is obtained which follow the same cumulative distribution of reference frequencies.
  • a method of multiple analysis aims to identify more precisely which genes exhibit the most significant variations in mRNA concentrations.
  • the multiple analysis method includes multiple analyzes of variation between reference and test lists. For all or "part of the combinations C i j comprising a reference group GR ⁇ and a test group GT is calculated for each gene gk, an amount of change Var ⁇ j ⁇ according to the offset method of ranks and an amount of change normalized Zj_ jk according to the normalization process of the invention.
  • a calibration step identical to that described above is carried out. After selecting two GR ⁇ calibration groups have] _ and ⁇ al GR 2 among the m reference groups, is calculated for each gene g a normalized calibration variation value Zgtal k by means of the offset method of rows and of the standardization process of the invention. A cumulative distribution of calibration frequencies is constructed from all the variation values calibration standards. It is thus possible to associate with a normalized value of variation of calibration Zg ⁇ al k a probability, called probability of error of calibration Pétai k 'so that there exist values of normalized variation naturally higher than this last.
  • a cumulative distribution of grouping frequencies is constructed for each combination C- ⁇ j chosen from two reference groups one of which is the GRi group or two test groups whose one of them is the group GT-j of the combination Cj_ considered.
  • a probability is defined for each gene gk, called the probability of error Pi k / corresponding to the normalized variation value Z j k of said gene.
  • the error probabilities Pi j, k are all equal.
  • some of the probabilities Pi -1 k correspond to positive variations and other values Pk i correspond to negative variations.
  • the product Prodpp OS of the values Pi, j, k corresponding to positive variations is compared to the product Prodp n gg of the values Pi, j, k corresponding to negative values.
  • Prodp OS is less than Prod n £ g we consider that the variation of the gene is positive and all the probabilities Pi, k corresponding to negative variations take the value 1 (conversely if Prodp OS > Prod n gg, the variation of the discomfort is considered negative and all the probabilities Pi H k take the value 1).
  • the result is homogeneous, i.e. the variation of the k gene is considered to be positive (or negative) for all combinations. If for a minority of sets the assignment procedure has resulted in giving the gk gene a sense of opposite variation, this is explained by the presence of an abnormal variation called artefactual which is easily detectable. These values are eliminated, which leads to a correct reassignment of the direction of variation.
  • a grouping value Rk is calculated for each gene g from the gene error probabilities according to a grouping method.
  • a grouping value Rk is calculated for each gene gk worth RETAL calibration combination, k using the calibration petai error probabilities, i, j, k corresponding to the normalized variation values Zêtal, i, k each gene obtained from the cumulative frequency distributions previously calculated.
  • the combinations chosen are distributed in different sets. We could for example constitute sets of independent combinations, two combinations Ci ⁇ ji and C 2 r j2 being independent if the groups GR ⁇ and GR2 are different and if the groups GTji and
  • G j2 are different.
  • computed for each 'discomfort gk Rk a grouping value by taking the average of the intermediate values of each set.
  • a threshold grouping value R S euil is defined in order to select the genes having grouping values greater than the latter.
  • grouping frequencies a cumulative distribution of frequencies, called grouping frequencies, from all the calibration grouping values.
  • Pthéo k 'so a probability of group selection error
  • P2seuil any threshold grouping value Rgeuil chosen.
  • R S and Pthr euil be chosen according to the false positive rate and the desired sensitivity.
  • the method of multiple analysis by analysis of means consists in constructing for the groups G] _ to GR j n and GT ⁇ _ to GTg a single group GR and GT.
  • the concentration values of mRNA-m of the groups GR ⁇ to GR j n and GT X to GTq are expressed in the form of rank values, normalized on a scale of 0 to 100, as described in chapter 1.
  • the cumulative distribution of frequencies of the variations of transcription signal normalized for a biological system makes it possible to construct artificial data sets, in the form of an artificial list ar t associating with each gene a concentration value, the data set having the same statistical characteristics as the actual data used for the calibration. From two identical groups of Gl cells and
  • rj eUf k consists in successively calculating, starting from the value immediately below rk, the absolute value of ⁇ r for any value r game, k less than r and taking the rank r game for new rank.
  • the new set of values thus obtained can be easily transformed into mRNA concentration values by the reverse transformation of that which gives the rank.
  • concentration of mRNA of each gene being reported on the artificial list L ar t.
  • a multiple method according to the present invention plans to identify more precisely the genes exhibiting the most significant transcription variations.
  • the groups GC1 to GCn can represent measurements carried out on the same biological system but at different and increasing times (kinetics experiment), or subjected to a stimulus of strictly increasing or decreasing intensity (dose / response experiments).
  • the common characteristic of these two types of experiment is that it is sought for each gk gene whether there has been a significant variation in transcription signal over the entire interval of the independent variable VI (time in kinetics or dose of a product in the case of a dose / response).
  • one of the analyzes will relate to the GCO and GC1 groups, another to the GC1 and GC2 groups, and the last will relate to the GCn-1 and GCn groups.
  • the Pthéor k is determined (° u l es Pthr k s' ⁇ there is only one group) and p s k OD 0n selects genes that have undergone an RNA concentration variation -m significant using the selection parameters such as the probability of grouping selection error, the false positive rate or the sensitivity.
  • the list s sel k is completed as follows: if a significant variation has been detected between the values i and i + 2 of VI, and if the positions i and i + 1 were at zero in the previous step, then we changes positions i and i + 1 to one. If one of the positions were already at one, the new result is not considered significant with regard to the second position.
  • the new suite for k could be s Sel k ⁇ 1 '1' 0 '1' 1 '1 -' 0 '0 -
  • the present invention is susceptible of various variants and modifications which will appear to one skilled in the art.
  • the method of the present invention can be applied to the analysis of variations in the number of different proteins present in living cells.
  • the analysis method of the present invention can be implemented from the concentrations of m-RNA noted for each of the gene sequences studied corresponding to a hybridization unit of the DNA chip used. We will therefore not study the variations in the concentration of mRNA relating to a gene but that relating to a given sequence.
  • a different definition of variation values can be used.
  • other normalization methods can be provided which satisfy the requirement of uniformity of the cumulative frequency distributions of any subset of normalized variation values.
  • those skilled in the art will be able to define the optimal grouping process making it possible to identify the genes having the most significant values of variation in mRNA concentrations.

Abstract

The invention relates to a method for analysing the variations in concentration of RNA messengers obtained by transcription of a set of genes comprising the following steps:- measure the concentration of RNA messengers for each of the genes in the so-called reference cells and in test cells and report the results in a reference list and a test list, calculate a variation value for each gene which is a measure of the difference in concentration of m-RNA for said gene between the reference list and the test list, calculate a normalised variation value for each gene such that the cumulative frequency distribution of a sub-set of normalised variation values corresponding to genes has similar or identical m-RNA concentrations whatever the sub-set under consideration and identification of the genes with m-RNA concentration variations significantly different to normalised variation values.

Description

METHODE D'ANALYSE DES VARIATIONS DE TRANSCRIPTION D'UN ENSEMBLE METHOD OF ANALYSIS OF TRANSCRIPTION VARIATIONS OF AN ASSEMBLY
DE GENESGENOA
La présente invention concerne 1 ' analyse de variations de concentrations d'ARN-m d'un ensemble de gènes réalisée à 1 'aide de puces à ADN.The present invention relates to the analysis of variations in m-RNA concentrations of a set of genes carried out using DNA chips.
L'analyse porte sur tout type de cellules vivantes telles qu'une bactérie, une cellule de levure de bière ou une cellule d'une partie du corps humain. Une ou plusieurs molécules d'ADN sont présentes dans chaque cellule. Chaque molécule d'ADN est constituée de deux brins polynucléotidiques complémentaires, un brin "antisens" (-) et un brin "sens" (+) . Chaque brin polynuclêotidique est constitué d'une chaîne polymérique de nucléotides. Chaque nucléotide est constitué d'un phosphate, d'un sucre (le désoxyribose) et d'une base, les bases pouvant être une guanine (G) , une adénine (A) , une cytosine (C) et une thyine (T) . Les deux brins de la molécule d'ADN s'apparient par l'intermédiaire de liaisons hydrogêne entre des bases complémentaires, une guanine pouvant s ' apparier avec une cytosine (G ≡ C) et une adénine pouvant s'apparier avec une thymine (A = T) .The analysis covers all types of living cells such as a bacteria, a brewer's yeast cell or a cell from a part of the human body. One or more DNA molecules are present in each cell. Each DNA molecule is made up of two complementary polynucleotide strands, an "antisense" strand (-) and a "sense" strand (+). Each polynucleotide strand consists of a polymeric chain of nucleotides. Each nucleotide consists of a phosphate, a sugar (deoxyribose) and a base, the bases possibly being a guanine (G), an adenine (A), a cytosine (C) and a thyine (T) . The two strands of the DNA molecule pair via hydrogen bonds between complementary bases, a guanine which can pair with a cytosine (G ≡ C) and an adenine which can pair with a thymine (A = T).
Quand une cellule est active, qu'elle vit, chaque gène synthétise des molécules d'ARN-messagers, ou ARN-m, qui sont des copies, base pour base, du brin sens (+) du gène. Ce phénomène s ' appelle la transcription ou encore 1 ' expression du gène . Plus exactement, la transcription d'un gène n'est réalisée que pour certains groupes de bases consécutives, ou séquences, du brin du gène qui s'exprime, le brin sens (+) . L1ARN-m produit par un gêne est en fait un regroupement de copies de séquences. Selon les cellules, les gènes ne s'expriment pas tous dans les mêmes proportions. Ainsi, • la concentration d'ARN-m relative à un gène donné peut être nulle, ou varier entre 1 et 10000 par cellule.When a cell is active and living, each gene synthesizes RNA-messenger molecules, or mRNA, which are base-to-base copies of the sense (+) strand of the gene. This phenomenon is called transcription or expression of the gene. More precisely, the transcription of a gene is carried out only for certain groups of consecutive bases, or sequences, of the strand of the gene which is expressed, the sense strand (+). L 1 mRNA produced by a gene is in fact a grouping of copies of sequences. Depending on the cell, not all genes are expressed in the same proportions. Thus, • the concentration of mRNA relative to a given gene can be zero, or vary between 1 and 10,000 per cell.
Une méthode connue pour mesurer la concentration d'ARN-m consiste à utiliser des puces à ADN. Des cellules sont prélevées dans une culture ou sur un corps humain par biopsie. On stoppe ensuite l'activité de transcription de ces cellules, par exemple par congélation. On prépare ensuite un échantillon contenant en solution les ARN-m extraits d'un certain nombre de cellules.A known method for measuring the concentration of mRNA is to use DNA chips. Cells are taken from a culture or from a human body by biopsy. The transcription activity of these cells is then stopped, for example by freezing. A sample is then prepared containing the mRNA extracted from a certain number of cells in solution.
On prépare par ailleurs une puce à ADN dont un exemple est illustré en figure 1 afin d'analyser un ensemble de gènes. Sur chaque puce, chaque gène est analysé au moyen de deux ensembles d'une vingtaine d'unités d'hybridation. Une unité d'hybridation regroupe un ensemble de brins d'ADN identiques appelés des sondes. Ces brins d'ADN sont des brins complémentaires d'une séquence d'un gène qui se retrouve dans les ARN-m des cellules analysées. Ces brins d'ADN ont des séquences identiques à celles du brin antisens (-) du gène. Un premier ensemble d'unités d'hybridation, dites parfaites (UP) , contient des sondes qui correspondent à différentes séquences d'un gène. Un second ensemble d'unités d'hybridation, dites imparfaites (UI) , contient des sondes qui diffèrent des sondes du premier ensemble pour au moins une des bases, chaque unité d'hybridation parfaite étant associée à une unité d'hybridation imparfaite. Dans l'exemple de la figure 1, une unité d'hybridation parfaite 2 contient des sondes 3, 4, 5, 6 et 7. L'unité d'hybridation parfaite 2 est associée à une unité d'hybridation imparfaite 10 qui dontient des sondes 11, 12, 13, 14 et 15 qui diffèrent d'une base (A, G) par rapport aux sondes 3 à 7.A DNA chip is also prepared, an example of which is illustrated in FIG. 1 in order to analyze a set of genes. On each chip, each gene is analyzed by means of two sets of around twenty hybridization units. A hybridization unit groups together a set of identical DNA strands called probes. These DNA strands are complementary strands of a gene sequence which is found in the mRNA of the cells analyzed. These DNA strands have sequences identical to those of the antisense (-) strand of the gene. A first set of hybridization units, called perfect (UP), contains probes which correspond to different sequences of a gene. A second set of hybridization units, called imperfect (IU), contains probes which differ from the probes of the first set for at least one of the bases, each perfect hybridization unit being associated with an imperfect hybridization unit. In the example of FIG. 1, a perfect hybridization unit 2 contains probes 3, 4, 5, 6 and 7. The perfect hybridization unit 2 is associated with an imperfect hybridization unit 10 which contains probes 11, 12, 13, 14 and 15 which differ by a base (A, G) compared to probes 3 to 7.
Les ARN-messagers de l'échantillon précédemment préparé sont "marqués", par exemple rendus fluorescents. La fluorescence des brins est représentée par une croix dans un cercle accolée au brin fluorescent. Les ARN-messagers marqués sont appelés des cibles.The messenger RNAs of the previously prepared sample are "labeled", for example rendered fluorescent. The fluorescence of the strands is represented by a cross in a circle attached to the fluorescent strand. The tagged RNA-messengers are called targets.
On met ensuite la puce à ADN dans l'échantillon de cibles dans des conditions favorisant l'hybridation entre brins d'ADN complémentaires. Ainsi, on peut voir en figure 1 une hybridation totale des cibles 8 et 9 avec deux sondes respectivement 4 et 6 fixées sur l'unité d'hybridation parfaite 2. Il est possible qu'une hybridation partielle se produise entre une cible 10 et une sonde 5 non totalement complémentaires. Il est possible qu'une cible 16 qui est un ARN- messager parfaitement complémentaire d'une des séquences d'un gène représenté par les sondes 3 à 7 de l'unité d'hybridation parfaite 2, vienne s'hybrider partiellement avec une sonde 12 de l'unité d'hybridation imparfaite 10. De même il se peut qu'une autre cible 17 vienne s'hybrider partiellement avec une sonde 13 de l'unité d'hybridation imparfaite 10. Une étape de lavage permet éventuellement de désapparier les brins qui sont peu complémentaires et de limiter ainsi le nombre de faux apparienrtents . On réalise ensuite une photographie de chacune des unités d'hybridation de la puce à ADN afin de déterminer pour chaque unité d'hybridation une intensité de fluorescence. Après mesure des intensités de fluorescence, on obtient deux valeurs d'intensité de fluorescence iy et ± J pour chaque paire d'unités d'hybridation parfaite et imparfaite correspondant à une séquence d'un gène. On calcule pour chaque séquence de gène une intensité de fluorescence égale à la différence entre les valeurs d'intensité de fluorescence i-gp et iui- Cette méthode de mesure de l'intensité de fluorescence de chaque séquence permet d'obtenir un meilleur rapport signal sur bruit. On calcule ensuite une valeur d'intensité de fluorescence pour chaque gène en prenant la moyenne des intensités de fluorescence de chacune des séquences de ce gène. On obtient ainsi une liste reportant une valeur d'intensité de fluorescence pour chacun des gènes. L'intensité de fluorescence étant proportionnelle à la concentration d'ARN-m issus de la transcription d'un gène, on peut aisément obtenir une liste reportant la concentration d'ARN-m pour chaque gène. Dans le cas où un gène s'exprime très peu, il est possible que 1 ' intensité de fluorescence des unités d'hybridation imparfaites soit supérieure à celle des unités d'hybridation parfaites. L'intensité de fluorescence moyenne d'un tel gène peut être négative. Dans ce cas on considère généralement que le gêne ne s'exprime pas, et donc que la concentration d'ARN-m associée est nulle. De façon courante, on souhaite analyser les variations des concentrations d'ARN-m entre des cellules dites de référence et des cellules dites de test. C'est cette analyse des variations qui fera l'objet de la suite de la présente description et de l'invention. Les cellules de référence pourront être par exemple des cellules de foie sain et les cellules de test des cellules de foie malade. On utilise les mêmes modèles de puces à ADN, et on effectue dans les deux cas la suite d'opérations précédemment décrites. L'étude des variations de la concentration d'ARN-m pour chaque gène permet d'identifier quels sont les gènes pour lesquels la concentration d'ARN-m a changé, suite à une modification de l'activité de transcription, ou à un changement de la durée de vie des ARN-m. La durée de vie des ARN-m fluctue entre autre en fonction d'une activité de synthèse protidique plus ou moins importante. De façon classique, l'analyse des variations de concentrations d'ARN-m pour chacun des gènes est réalisée en calculant le rapport des concentrations d'ARN-m d'un même gène. Cette méthode est connue sous le nom de méthode "fold change". La variation de la concentration d'ARN-m est considérée comme étant significative quand le rapport des concentrations d' RN-m est supérieur à un seuil prédéterminé. Ce seuil est identique pour 1 'ensemble des gènes et cette méthode ne permet donc pas de prendre en compte la spécificité de chacun d'eux.The DNA chip is then placed in the target sample under conditions favoring hybridization between complementary DNA strands. Thus, we can see in Figure 1 a total hybridization of targets 8 and 9 with two probes respectively 4 and 6 fixed on the perfect hybridization unit 2. It is possible that a partial hybridization occurs between a target 10 and a probe 5 not completely complementary. It is possible that a target 16 which is a messenger RNA perfectly complementary to one of the sequences of a gene represented by probes 3 to 7 of the perfect hybridization unit 2, may come to hybridize partially with a probe 12 of the imperfect hybridization unit 10. Similarly, it is possible that another target 17 may come to partially hybridize with a probe 13 of the imperfect hybridization unit 10. A washing step possibly makes it possible to dissociate the strands which are not very complementary and thus limit the number of false appearances. A photograph is then taken of each of the hybridization units of the DNA chip in order to determine for each hybridization unit a fluorescence intensity. After measuring the fluorescence intensities, two fluorescence intensity values iy and ± J are obtained for each pair of perfect and imperfect hybridization units corresponding to a gene sequence. A fluorescence intensity is calculated for each gene sequence equal to the difference between the fluorescence intensity values i-gp and iui- This method of measuring the fluorescence intensity of each sequence makes it possible to obtain a better signal ratio on noise. We calculate then a fluorescence intensity value for each gene by taking the average of the fluorescence intensities of each of the sequences of this gene. This gives a list showing a fluorescence intensity value for each of the genes. The intensity of fluorescence being proportional to the concentration of m-RNA resulting from the transcription of a gene, one can easily obtain a list reporting the concentration of m-RNA for each gene. In the case where a gene expresses very little, it is possible that the fluorescence intensity of the imperfect hybridization units is higher than that of the perfect hybridization units. The average fluorescence intensity of such a gene can be negative. In this case, it is generally considered that the discomfort is not expressed, and therefore that the associated concentration of mRNA is zero. Currently, we want to analyze the variations in mRNA concentrations between so-called reference cells and so-called test cells. It is this analysis of variations which will be the subject of the remainder of this description and of the invention. The reference cells could be, for example, healthy liver cells and the test cells, diseased liver cells. The same DNA chip models are used, and in both cases the sequence of operations described above is carried out. The study of variations in the concentration of m-RNA for each gene makes it possible to identify which genes have the concentration of m-RNA changed, following a modification of the transcription activity, or a change in the lifespan of mRNAs. The lifespan of mRNA fluctuates among other things as a function of more or less significant protein synthesis activity. Conventionally, the analysis of variations in mRNA concentrations for each of the genes is carried out by calculating the ratio of the mRNA concentrations of the same gene. This method is known as the "fold change" method. The change in m-RNA concentration is considered to be significant when the ratio of RN-m concentrations is above a predetermined threshold. This threshold is identical for all of the genes and this method therefore does not allow the specificity of each of them to be taken into account.
Les processus de création et de destruction d'ARN-m sont interrompus aléatoirement au moment du prélèvement de cellules et la concentration d'ARN-m peut fluctuer légèrement d'une cellule à une autre. Dans le cas où un gène produit en moyenne 10 ARN-m dans chaque cellule, une différence d'un seulThe processes of creation and destruction of m-RNA are interrupted randomly during the collection of cells and the concentration of m-RNA may fluctuate slightly from one cell to another. In the case where a gene produces on average 10 mRNA in each cell, a difference of only one
ARN-m entre deux cellules conduit à un rapport de 1.1, soit 10% d'écart, et le gène en question sera considéré comme présentant une différence de concentration d'ARN-m significative. Au contraire pour un gène ayant en moyenne 1000 ARN-m par cellule, une différence de 10 ARN-m conduit à un rapport de 1.01, soit 1% d'écart, et cela passera inaperçu alors que ce peut être tout à fait anormal.MRNA between two cells leads to a ratio of 1.1, or 10% difference, and the gene in question will be considered to have a significant difference in mRNA concentration. On the contrary for a gene having on average 1000 mRNA per cell, a difference of 10 mRNA leads to a ratio of 1.01, or 1% difference, and this will go unnoticed when it can be completely abnormal.
L'analyse de type "fold change" est donc peu fiable car des gènes présentant une variation significative de leurs concentrations peuvent ne pas être identifiés.The "fold change" analysis is therefore unreliable because genes with a significant variation in their concentrations may not be identified.
De plus, la concentration d'ARN-m relative à un gène peut varier naturellement dans des proportions qui lui sont propres. Avec une simple analyse de type "fold change", il est impossible de savoir dans quelle mesure la variation de la concentration d'ARN-m relative à un gène reste ou non dans des proportions acceptables . Un moyen de connaître la plage de variation naturelle de la concentration d'ARN-m relative à un gène, ou plus précisément la distribution cumulée de fréquences, serait de réaliser un grand nombre de mesures de concentration d'ARN-m, pour chaque gène à partir de cellules de référence identiques. Dans le cas où on a réalisé 100 mesures pour chaque gène, on peut définir des valeurs de seuil correspondant à des probabilités par incréments de 0,01 pour qu'un même gêne associé à des cellules identiques ait une concentration d'ARN-m supérieure à ces valeurs de seuil. Lors d'une mesure de concentration d'ARN-m de cellules différentes, on peut savoir quelle est la probabilité d'obtenir une concentration d'ARN-m supérieure à la valeur de seuil choisie sans pour autant que cette concentration d'ARN-m soit anormale.In addition, the concentration of m-RNA relative to a gene can naturally vary in its own proportions. With a simple fold change analysis, it is impossible to know to what extent the variation in the concentration of m-RNA relative to a gene remains or not within acceptable proportions. One way of knowing the range of natural variation of the mRNA concentration relative to a gene, or more precisely the cumulative distribution of frequencies, would be to carry out a large number of mRNA concentration measurements, for each gene. from identical reference cells. In the case where 100 measurements have been made for each gene, it is possible to define threshold values corresponding to probabilities in increments of 0.01 so that the same discomfort associated with identical cells has a higher concentration of mRNA at these threshold values. When measuring the mRNA concentration of different cells, we can know what is the probability of obtaining a concentration of mRNA greater than the threshold value chosen without this concentration of mRNA being abnormal.
En pratique, il est impossible de réaliser autant de mesures et la valeur de seuil choisie est peu fiable.In practice, it is impossible to carry out as many measurements and the threshold value chosen is unreliable.
Un objet de la présente invention est de prévoir un procédé d'analyse des variations de concentrations d'ARN-m relatives à un ensemble de gènes qui permette de prendre en compte la spécificité de chaque gène. Un autre objet de la présente invention est de prévoir un tel procédé qui permette d' identifier des gènes présentant une variation significative de leurs concentrations d'ARN-m avec un nombre restreint de mesures.An object of the present invention is to provide a method for analyzing the variations in mRNA concentrations relating to a set of genes which makes it possible to take into account the specificity of each gene. Another object of the present invention is to provide such a method which makes it possible to identify genes exhibiting a significant variation in their mRNA concentrations with a limited number of measurements.
Un autre objet de la présente invention est de prévoir un tel procédé qui permette de définir une valeur de seuil de façon très précise.Another object of the present invention is to provide such a method which makes it possible to define a threshold value very precisely.
Pour atteindre ces objets, la présente invention prévoit un procédé d'analyse des variations de concentrations d'ARN-messagers obtenus par transcription d'un ensemble de gènes comprenant les étapes suivantes : a) mesurer la concentration d 'ARN-messagers pour chacun des gènes dans des cellules dites de référence et reporter les résultats sur une liste de référence (Lref) ; b) mesurer la concentration d'ARN-messagers pour chacun des gènes dans des cellules dites de test et reporter les résultats sur une liste de test (L^est) ' c) calculer pour chaque gène une valeur de variation (Varj) , k étant un entier compris entre 1 et n, qui soit une mesure de l'écart entre les concentrations d'ARN-m dudit gène entre la liste de référence (Lref) et la liste de testTo achieve these objects, the present invention provides a method for analyzing variations in concentrations of messenger RNAs obtained by transcription of a set of genes comprising the following steps: a) measuring the concentration of messenger RNAs for each of the genes in so-called reference cells and report the results on a reference list (L re f); b) measure the concentration of messenger RNA for each of the genes in so-called test cells and report the results on a test list (L ^ est) 'c) calculate for each gene a variation value (Var j ) , k being an integer between 1 and n, which is a measure of the difference between the mRNA concentrations of said gene between the reference list (L re f) and the test list
(Ltest) • ' d) classer les gènes dans des premier . et second groupes, selon que les gènes présentent des valeurs de variation correspondant respectivement à une hausse ou à une baisse de leurs concentrations d'ARN-m entre la liste de référence et la liste de test ; e) calculer pour chaque gène du second groupe une nouvelle valeur de variation (Var^) qui soit une mesure de l'écart entre les concentrations d'ARN-m dudit gène entre la liste de test et la liste de référence. f) calculer pour chaque gène une valeur de variation normalisée (Z^) telle que la distribution cumulée de fréquences d'un sous-ensemble de valeurs de variation normalisées correspondant à des gènes ayant des concentrations d'ARN-m proches soit identique quel que soit le sous-ensemble considéré ; et g) identifier les gènes présentant des variations de concentrations d'ARN-m significatives à partir des valeurs de variation normalisées.( L test) • 'd) classify genes into prime. and second groups, depending on whether the genes have variation values corresponding respectively to an increase or a decrease in their mRNA concentrations between the reference list and the test list; e) calculate for each gene of the second group a new variation value (Var ^) which is a measure of the difference between the concentrations of m-RNA of said gene between the test list and the reference list. f) calculate for each gene a normalized variation value (Z ^) such that the cumulative frequency distribution of a subset of normalized variation values corresponding to genes with close m-RNA concentrations is identical regardless either the subset considered; and g) identify genes exhibiting significant variations in mRNA concentrations from the normalized variation values.
Selon un mode de mise en oeuvre du procédé de la présente invention, l'étape d'identification des gènes consiste à sélectionner les gènes dont la valeur de variation normalisée est supérieure à une valeur de seuil déterminée (Zseυj_]_) . Selon un mode de mise en oeuvre du procédé de la présente invention, la détermination de la valeur de seuil (Zseuj_ ) comprend les étapes suivantes : h) mesurer la concentration d'ARN-m pour chacun des gènes de deux groupes identiques de cellules dites d'étalonnage et reporter les résultats respectifs sur des première CL>êtal l) et deuxième (Iié al 2^ listes d'étalonnage ; i) calculer pour chaque gène une valeur de variation (Vargtal k) selon le procédé des étapes c) à e) à partir des première (Letal i) et deuxième {I*étal 2) listes d'étalonnage ; j ) calculer pour chaque gène une valeur de variation d'étalonnage normalisée (Zref j selon le procédé de l'étape f) ; k) construire la distribution cumulée de fréquences, dite d'étalonnage, des valeurs de variation d'étalonnage normalisées associant à toute valeur de variation d'étalonnage normalisée (Zre r ]ς) une probabilité, dite probabilité d'erreur de sélection (Pseuil,k) ' pour qu' il existe des valeurs de variation d'étalonnage normalisées supérieures à la valeur de variation normalisée considérée ; 1) choisir la probabilité d'erreur de sélection souhaitée (pSeuil) * et m) définir la valeur de seuil (Zseu;j_ι) correspondant à la probabilité d'erreur de sélection souhaitée (Pseuil) ^ l'aide de la distribution cumulée de fréquences d'étalonnage. Selon un mode de mise en oeuvre du procédé de la présente invention, l'étape consistant à choisir la probabilité d'erreur de sélection (pSeuil) comprend les étapes suivantes :According to an embodiment of the method of the present invention, the step of identifying the genes consists in selecting the genes whose normalized variation value is greater than a determined threshold value (Z seυ j _] _). According to an embodiment of the method of the present invention, the determination of the threshold value (Z seu j_) comprises the following steps: h) measuring the concentration of m-RNA for each of the genes of two identical groups of so-called calibration cells and report the respective results on first CL> etal l) and second (Iié al 2 ^ calibration lists; i) calculate for each gene a variation value (Vargtal k) according to the method of steps c ) to e) from the first (L e t a li) and second {I * stall 2) calibration lists; j) calculating for each gene a normalized calibration variation value (Z re fj according to the method of step f); k) construct the cumulative frequency distribution, called calibration, of the normalized calibration variation values associating with any calibration variation value normalized (Z re r ] ς) a probability, called the probability of selection error (Pseuil, k) 'for there to be normalized calibration variation values greater than the normalized variation value considered; 1) choose the probability of selection error desired (p S euil) * and m) define the threshold value (Z seu; j_ι) corresponding to the probability of selection error desired (Pseuil) ^ using the cumulative distribution of calibration frequencies. According to an embodiment of the method of the present invention, the step consisting in choosing the probability of selection error (p S uil) comprises the following steps:
- définir le taux de faux positif maximal acceptable pour l'identification de gènes ; et ' - identifier la probabilité d'erreur de sélection- define the maximum acceptable false positive rate for the identification of genes; and ' - identify the probability of selection error
Pseuil et la valeur de seuil Zseu- maximales permettant d'obtenir un taux de faux positif acceptable, le taux de faux positif TFP étant égal à :Pthr and a threshold value Z seu - maximum to obtain an acceptable rate of false positive, the rate of false positive TFP being equal to:
pseuil * n TFP = - ^pseuil * n TFP = - ^
(nombre de gènes pour lesquels Z > Zseuil) où n est le nombre de gènes considérés .(number of genes for which Z> Z threshold) where n is the number of genes considered.
Selon un mode de mise en oeuvre du procédé de la présente invention, l'étape d'identification des gènes consiste à sélectionner les gènes dont la valeur de variation normalisée est supérieure à une première valeur de seuil pour les gènes du premier groupe et supérieure à une seconde valeur de seuil pour les gènes du second groupe.According to an embodiment of the method of the present invention, the step of identifying the genes consists in selecting the genes whose normalized variation value is greater than a first threshold value for the genes of the first group and greater than a second threshold value for the genes of the second group.
Selon un mode de mise en oeuvre du procédé de la présente invention, la détermination des première et seconde valeurs de seuil consiste à choisir des première et seconde probabilités d'erreur de sélection souhaitées respectivement pour les premier et second groupes et à définir les première et seconde valeurs de seuil correspondantes à l'aide de la distribution cumulée de fréquences d'étalonnage. Selon un mode de mise en oeuvre du procédé de la présente invention, le choix des première et seconde valeurs de seuil consiste à effectuer le procédé de la revendication 4 successivement pour le premier et le second groupe. Selon un mode de mise en oeuvre du procédé de la présente invention, la valeur de variation Var^ d'un gène est égale à la différence entre les concentrations d'ARN-m dudit gène pour des cellules différentes.According to an embodiment of the method of the present invention, the determination of the first and second threshold values consists in choosing first and second probabilities of selection error desired respectively for the first and second groups and in defining the first and second corresponding threshold values using the cumulative distribution of calibration frequencies. According to an embodiment of the method of the present invention, the choice of the first and second threshold values consists in carrying out the method of claim 4 successively for the first and the second group. According to an embodiment of the method of the present invention, the variation value Var ^ of a gene is equal to the difference between the concentrations of m-RNA of said gene for different cells.
Selon un mode de mise en oeuvre du procédé de la présente invention, la valeur de variation Var^- d'un gène est égale au rapport des concentrations d'ARN-m dudit gène pour des cellules différentes.According to an embodiment of the method of the present invention, the value of variation Var ^ - of a gene is equal to the ratio of the concentrations of m-RNA of said gene for different cells.
Selon un mode de mise en oeuvre du procédé de la présente invention, le procédé comprend pour chaque liste les étapes suivantes :According to an embodiment of the method of the present invention, the method comprises for each list the following steps:
- classer les gènes par ordre croissant de leurs concentrations d'ARN-m ;- classify the genes in ascending order of their mRNA concentrations;
- attribuer une valeur de rang nulle à tous les gènes dont les concentrations d' RN-m sont inférieures ou égales à une valeur de concentration seuil ;- assign a zero rank value to all genes whose RN-m concentrations are less than or equal to a threshold concentration value;
- attribuer une valeur de rang unique à chacun des ni autres gènes dont la concentration d'ARN-m est supérieure à la valeur de concentration seuil, la valeur de rang étant comprise entre 1 et ni, le rang R d'un gène étant d'autant plus élevé que la concentration d'ARN-m dudit gène est élevée ; et- assign a unique rank value to each of the other genes whose mRNA concentration is greater than the threshold concentration value, the rank value being between 1 and ni, the rank R of a gene being d 'the higher the higher the m-RNA concentration of said gene; and
- normaliser les valeurs de rangs sur une plage de 0 à w, w étant un entier positif, le rang r d'un gène étant désormais égal à (R*w) /n où n est le nombre de gènes étudiés .- normalize the values of ranks over a range from 0 to w, w being a positive integer, the rank r of a gene now being equal to (R * w) / n where n is the number of genes studied.
Selon un mode de mise en oeuvre du procédé de la présente invention, la valeur de variation d'un gène est égale à la différence entre les rangs du gène pour les deux listes analysées .According to an embodiment of the method of the present invention, the variation value of a gene is equal to the difference between the ranks of the gene for the two lists analyzed.
Selon un mode de mise en oeuvré lu procédé de la présente invention, la valeur de variation normalisée Z de chaque gène est obtenue selon la formule suivante : Var - μ( g)According to an embodiment of the process of the present invention, the normalized variation value Z of each gene is obtained according to the following formula: Var - μ (g)
Z = σ(g) où Var est la valeur de variation dudit gène et μ (g) et σ (g) sont respectivement la moyenne et l'écart type d'un ensemble de valeurs de variation correspondant à un ensemble de gènes ayant des concentrations d'ARN-m proches de la concentration d'ARN-m dudit gène.Z = σ (g) where Var is the variation value of said gene and μ (g) and σ (g) are respectively the mean and the standard deviation of a set of variation values corresponding to a set of genes having m-RNA concentrations close to the m-RNA concentration of said gene.
Selon un mode de mise en oeuvre du procédé de la présente invention, la valeur de variation normalisée est calculée selon les étapes suivantes : - attribuer une valeur de rang r unique à chaque gène égale à la valeur de rang de la liste de référence pour les gènes du premier groupe et égale à la valeur de rang de la liste de test pour les gênes du second groupe.According to an embodiment of the method of the present invention, the normalized variation value is calculated according to the following steps: - assign a unique rank value r to each gene equal to the rank value of the reference list for the genes of the first group and equal to the rank value of the test list for genes of the second group.
- calculer la valeur de variation normalisée Z^ du gène selon la formule suivante : z=Var -μ(r) σ(r) où Var est la variation dudit gène, μ (r) et σ (r) sont respectivement la moyenne et l'écart type d'un ensemble de valeurs de variation correspondant à un ensemble de gènes ayant des rangs proches du rang r dudit gène.- calculate the normalized variation value Z ^ of the gene according to the following formula: z = Var -μ (r) σ (r) where Var is the variation of said gene, μ (r) and σ (r) are respectively the mean and the standard deviation of a set of variation values corresponding to a set of genes having ranks close to rank r of said gene.
Selon une variante du procédé de la présente invention, le procédé vise à analyser les variations de concentrations d'ARN-m d'un ensemble de gènes à partir de m groupes identiques de cellules dites de référence (GR^ à G^ et q groupes identiques de cellules dites de test (GT]_ à GTg) , le procédé comprenant les étapes suivantes :According to a variant of the method of the present invention, the method aims to analyze the variations in m-RNA concentrations of a set of genes from m identical groups of so-called reference cells (GR ^ to G ^ and q groups identical to so-called test cells (GT ] _ to GTg), the method comprising the following steps:
- pour tout ou partie des combinaisons de groupes (C_ j) comprenant un groupe de référence (GRj) et un groupe de test (GTj ) , réaliser les trois étapes suivantes : -- construire la distribution cumulée de fréquences dite d'étalonnage selon le procédé des étapes h) à k) à partir de premier et second groupes d'étalonnage (GR^tal 1 et GRétal,2) Pris tous deux parmi les m groupes de référence ou tous deux parmi les q groupes de test, l'un des groupes étant éventuellement le groupe de référence (GR^) ou le groupe de test (GTj ) de la combinaison de groupes considérée ; -- mettre en oeuvre les étapes a) à f) pour déterminer une valeur de variation normalisée (Zj_, 7]) pour chaque gène ; définir pour chaque gène une valeur de probabilité, dite probabilité d'erreur (pi,j,k)' correspondant à la valeur de variation normalisée de ce gène (Z^j^) à partir de la distribution cumulée de fréquences d'étalonnage ; calculer pour chaque gène, une valeur de regroupement (R^) selon un procédé de regroupement tenant compte de 1 ' ensemble des probabilités d' erreur (pj_ . j ,k) dudit gène obtenues pour chacune des combinaisons (Cj_fj) de groupes de référence et de test choisis ; et identifier comme présentant des variations de concentrations d'ARN-m significatives les gènes dont la valeur de regroupement est supérieure à une valeur de regroupement de seuil (RSeuil) déterminée.- for all or part of the combinations of groups (C_ j) comprising a reference group (GRj) and a test group (GTj), carry out the following three steps: - construct the cumulative distribution of frequencies called calibration according to the method of steps h) to k) from first and second calibration groups (GR ^ tal 1 and GR etal, 2) P r i s both from the m reference groups or both from the q test groups, one of the groups possibly being the reference group (GR ^) or the test group (GTj) the combination of groups considered; - implementing steps a) to f) to determine a normalized variation value (Zj_, 7 ]) for each gene; define for each gene a probability value, called probability of error (pi, j, k) 'corresponding to the normalized variation value of this gene (Z ^ j ^) from the cumulative distribution of calibration frequencies; calculate for each gene, a grouping value (R ^) according to a grouping method taking into account the set of error probabilities (pj_ . j, k) of said gene obtained for each of the combinations (Cj_ f j) of groups reference and test chosen; and identifying as having significant variations in mRNA concentrations the genes whose grouping value is greater than a determined threshold grouping value (R S euil).
Selon un mode de mise en oeuvre du procédé précédemment décrit, les premier et second groupes d'étalonnage (GRétal i et Ggtal _X) sont identiques quelque soit la combinaison de groupes considérée. Selon un mode de mise en oeuvre du procédé de la présente invention, les valeurs de variation d'étalonnage normalisées (Zref j sont calculées selon le procédé précédemment défini z=Var - μ(g) σ(g) et les valeurs de variation normalisées entre une liste de test et de référence sont calculées selon la formule suivante :According to an embodiment of the method described above, the first and second calibration groups (GRétal i and Ggtal _X) are identical whatever the combination of groups considered. According to an embodiment of the method of the present invention, the normalized calibration variation values (Z re fj are calculated according to the previously defined method z = Var - μ (g) σ (g) and the variation values standardized between a test and reference list are calculated according to the following formula:
Var -μétai(r) σétai(r) où les fonctions μgtalW et σëtal(r) sont obtenues par lissage des moyennes μ (r) et des écarts types σ (r) calculés préalablement aux valeurs de variation d' étalonnage normalisées . Selon un mode de mise en oeuvre de la présente invention, la détermination de la valeur de regroupement de seuil (Rseuil) comprend les étapes suivantes :Var - μ prop (r) σ prop (r) where the functions μgtalW and σ ëtal ( r ) are obtained by smoothing the means μ (r) and standard deviations σ (r) calculated before the normalized calibration variation values. According to an embodiment of the present invention, the determination of the threshold grouping value (Rseuil) comprises the following steps:
- calculer pour chaque gène, une valeur de regroupement d'étalonnage (Rétal k) selon le procédé de regroupement à partir des probabilités d'erreur d'étalonnage (Pétai k) dudit gène obtenues à partir des distributions cumulées de fréquences d'étalonnage calculées pour chaque combinaison de groupes (Cj^j) choisies ;- calculate for each gene, a calibration grouping value (Rétal k) according to the grouping method from the calibration error probabilities (Pétai k) of said gene obtained from the cumulative distributions of calculated calibration frequencies for each combination of groups (Cj ^ j) chosen;
- construire la distribution cumulée de fréquences, dite de regroupement, à partir des valeurs de regroupement d'étalonnage en associant à toute valeur de regroupement d'étalonnage une probabilité, dite probabilité d'erreur de regroupement d'étalonnage, pour qu'il existe des valeurs de regroupement d'étalonnage supérieures à la valeur de regroupement d'étalonnage considérée ; - choisir la probabilité d'erreur de regroupement de sélection souhaitée (p2seuiχ) ; et- construct the cumulative frequency distribution, called grouping, from the calibration grouping values by associating with any calibration grouping value a probability, called the calibration grouping error probability, so that there exists calibration pool values greater than the relevant calibration pool value; - select the desired probability of selection of grouping error (p2 seu iχ); and
- définir la valeur de regroupement de seuil (Rseuil) correspondant à la probabilité d'erreur de regroupement de sélection (p2seuj_]_) à l'aide de la distribution cumulée de fré- quences de regroupement.- define the threshold grouping value (Rseuil) corresponding to the probability of selection grouping error (p2 seuj _ ] _) using the cumulative distribution of grouping frequencies.
Selon un mode de mise en oeuvre de la présente invention, l'étape consistant à choisir une probabilité d'erreur de regroupement de sélection (p2se il) comprend les étapes suivantes : - définir le taux de faux positif maximal acceptable pour 1 ' identification de gènes ; etAccording to an embodiment of the present invention, the step of selecting a probability of selection of grouping error (if p2) comprises the steps of: - defining the maximum acceptable rate of false positive for one identification genes; and
- identifier la probabilité d'erreur de regroupement de sélection P2seuil et 1& valeur de regroupement de seuil Σ-seuil maximales permettant d'obtenir un taux de faux positif acceptable, le taux de faux positif TFP étant égal à r™ O2seuil * n- identify the probability of selection grouping error P2 threshold and 1 & maximum threshold Σ-threshold grouping value allowing an acceptable false positive rate to be obtained, the TFP false positive rate being equal to r ™ O2threshold * n
TFP = -TFP = -
(nombre de gènes pour lesquels Rk≥Rseuii) où n est le nombre de gènes considérés.(number of genes for which Rk≥Rseuii) where n is the number of genes considered.
Selon un mode de mise en oeuvre de la présente invention, le procédé de regroupement comprend les étapes suivantes :According to an embodiment of the present invention, the grouping method comprises the following steps:
- répartir les combinaisons de groupes dans différents ensembles ; calculer pour chaque ensemble une valeur intermédiaire pour chaque gène égale au produit ou à la somme des probabilités d'erreur (Pi j ]ς) du gène obtenues pour chacune des combinaisons de groupes de 1 ' ensemble ;- distribute the combinations of groups in different sets; calculating for each set an intermediate value for each gene equal to the product or to the sum of the error probabilities (Pi j] ς) of the gene obtained for each of the combinations of groups of the set;
- calculer pour chaque gêne une valeur de regroupement (Rk) égale à la moyenne des valeurs intermédiaires calculées pour chaque ensemble. Selon une variante du procédé de la présente invention, le procédé vise à analyser les variations de concentrations d'ARN-m d'un ensemble de gènes à partir de m groupes identiques de cellules dites de référence (GRη_ à GRj^) et q groupes identiques de cellules dites de test (GT]_ à GTg) , le procédé comprenant les étapes suivantes :- calculate for each annoyance a grouping value (Rk) equal to the average of the intermediate values calculated for each set. According to a variant of the method of the present invention, the method aims to analyze the variations in mRNA concentrations of a set of genes from m identical groups of so-called reference cells (GRη_ to GR j ^) and q identical groups of so-called test cells (GT ] _ to GTg), the method comprising the following steps:
- réaliser les étapes a) et b) pour chacun des groupes de référence et de test donnant m listes de référence et q listes de test ;- carry out steps a) and b) for each of the reference and test groups giving m reference lists and q test lists;
- définir pour chacune des listes une valeur de rang pour chaque gène selon le procédé précédemment décrit ;define for each of the lists a rank value for each gene according to the method described above;
- définir une liste globale de référence associant à chaque gène un rang unique égal à la moyenne de ses rangs dans les listes de référence ;- define a global reference list associating with each gene a unique rank equal to the average of its ranks in the reference lists;
- définir une liste globale de test associant à chaque gène un rang unique égal à la moyenne de ses rangs dans les listes de test ;- define a global test list associating each gene with a unique rank equal to the average of its ranks in the test lists;
- réaliser les étapes c) à g) à partir des listes de référence et de test globales, les valeurs de variation étant égales à la différence des rangs et les valeurs de variation normalisées étant calculées selon 1 'un des procédés précédemment décrit .- carry out steps c) to g) from the global reference and test lists, the variation values being equal to the difference in ranks and the variation values normalized being calculated according to one of the methods previously described.
Selon un mode de mise en oeuvre du procédé de la présente invention, une ou plusieurs listes de référence, de test ou d'étalonnage sont obtenues selon un procédé de création d'un jeu de données artificiel comprenant les étapes suivantes :According to an embodiment of the method of the present invention, one or more reference, test or calibration lists are obtained according to a method of creating an artificial data set comprising the following steps:
- mettre en oeuvre les étapes h) à k) permettant d'obtenir une distribution cumulée de fréquences d'étalonnage ;- implementing steps h) to k) making it possible to obtain a cumulative distribution of calibration frequencies;
- définir pour chaque gène une valeur de variation normalisée en faisant un tirage aléatoire à partir de la distribution cumulée de fréquences d'étalonnage, l'ensemble des valeurs de variation normalisées ainsi définies ayant une distribution cumulée de fréquences identique à celle d'étalonnage. Ces objets, caractéristiques et avantages, ainsi que d'autres de la présente invention seront exposés en détail dans la description suivante de modes de réalisation particuliers faite à titre non-limitatif en relation avec les figures jointes parmi lesquelles : la figure 1 représente une puce à ADN ; la figure 2 est une représentation de valeurs de variation de concentration d'ARN-m relatives à un ensemble de gènes utilisée selon une première étape de 1 ' invention ; la figure 3 est une représentation de valeurs de variation de concentration d'ARN-m normalisées relatives à un ensemble de gènes utilisée selon une deuxième étape de l'invention ; la figure 4A représente une distribution cumulée de fréquences de valeurs de variation de concentration d' RN-m pour un premier ensemble de gènes ; la figure 4B représente une distribution cumulée de fréquences de valeurs de variation de concentration d'ARN-m pour un second ensemble de gènes ; la figure 4C est une courbe "quantile versus quantile" des valeurs de variation de concentrations d'ARN-m des premier et second ensembles de gènes ; la figure 5A représente un ensemble de courbes "quantile contre quantile" de valeurs de variation non normalisées obtenues selon une méthode de "fold change" ; la figure 5B représente un ensemble de courbes "quantile contre quantile" de valeurs de variation non normalisées obtenues selon une méthode de décalage de rangs ; la figure 6A représente un ensemble de courbesdefine for each gene a normalized variation value by making a random draw from the cumulative distribution of calibration frequencies, all the normalized variation values thus defined having a cumulative distribution of frequencies identical to that of calibration. These objects, characteristics and advantages, as well as others of the present invention will be explained in detail in the following description of particular embodiments given without limitation in relation to the attached figures, among which: FIG. 1 represents a chip DNA; FIG. 2 is a representation of variation values of m-RNA concentration relating to a set of genes used according to a first step of the invention; FIG. 3 is a representation of normalized mRNA concentration variation values relating to a set of genes used according to a second step of the invention; FIG. 4A represents a cumulative frequency distribution of RN-m concentration variation values for a first set of genes; Figure 4B shows a cumulative frequency distribution of mRNA concentration variation values for a second set of genes; FIG. 4C is a "quantile versus quantile" curve of the variation values of m-RNA concentrations of the first and second sets of genes; FIG. 5A represents a set of "quantile against quantile" curves of non-normalized variation values obtained according to a "fold change"method; FIG. 5B represents a set of "quantile against quantile" curves of non-normalized variation values obtained according to a row shift method; FIG. 6A represents a set of curves
"quantile contre quantile" de valeurs de variation normalisées obtenues selon une méthode de fold change ; et la figure 6B représente un ensemble de courbes "quantile contre quantile" de valeurs de variation normalisées obtenues selon une méthode de décalage de rangs."quantile against quantile" of normalized variation values obtained according to a fold change method; and FIG. 6B represents a set of "quantile against quantile" curves of normalized variation values obtained according to a row shift method.
Le procédé d'analyse de la présente invention prévoit d'analyser à l'aide de puces à ADN un ensemble de n gènes et d'étudier les variations des concentrations d'ARN-m entre des cellules de référence et des cellules de test. Dans une première partie, on décrira une analyse des variations entre un groupe de cellules de test et un groupe de cellules de référence.The method of analysis of the present invention provides for using DNA chips to analyze a set of n genes and to study the variations in m-RNA concentrations between reference cells and test cells. In the first part, an analysis of the variations between a group of test cells and a group of reference cells will be described.
Dans une deuxième partie, on décrira un moyen de détermination d'une valeur de seuil qui permette de sélectionner des gènes ayant des variations significatives.In a second part, we will describe a means of determining a threshold value which makes it possible to select genes having significant variations.
Dans une troisième partie, on fera la démonstration des avantages de 1 ' invention par rapport à 1 ' art antérieur.In a third part, the advantages of the invention compared to the prior art will be demonstrated.
Dans une quatrième partie, on généralisera le procédé selon 1 ' invention à 1 ' analyse de plusieurs groupes de cellules de test et de référence.In a fourth part, the method according to the invention will be generalized to the analysis of several groups of test and reference cells.
Dans une cinquième partie, on décrira un procédé de construction de jeux de données artificiel.In a fifth part, we will describe a method of constructing artificial data sets.
Dans une sixième partie, on décrira une application du procédé selon 1 ' invention consistant à analyser les variations de concentration d'ARN-m en fonction du temps (étude de cinétiques) ou en fonction de modifications successives des conditions de culture d'un ensemble de cellules (expérience du type dose/réponse) .In a sixth part, an application of the method according to the invention will be described which consists in analyzing the variations in m-RNA concentration as a function of time (study of kinetics) or according to successive modifications of the culture conditions of a set of cells (experiment of the dose / response type).
1. .Comparaison entre un groupe de test et un groupe de référence1. Comparison between a test group and a reference group
Le procédé d'analyse de la présente invention prévoit d'analyser à l'aide de puces à ADN un ensemble de n gènes et d'étudier les variations de concentrations d'ARN-m entre un groupe de cellules de référence et un groupe de cellules de test. On mesure au préalable la concentration d'ARN-m Ck relative à chaque gène gk (k étant un nombre compris entre 1 et n) et on reporte les valeurs sur des listes de référence Lref et de test £eS .The method of analysis of the present invention provides for using DNA chips to analyze a set of n genes and to study the variations in m-RNA concentrations between a group of reference cells and a group of test cells. The concentration of mRNA Ck relative to each gk gene (k being a number between 1 and n) is measured beforehand and the values are reported on reference lists L re f and test £ eS .
Le procédé d'analyse commence par le calcul pour chacun des gènes d'une valeur de variation de concentration d'ARN-m, ou valeur de variation Var , qui peut être égale à la différence des concentrations d'ARN-m de chaque gêne entre les groupes de référence et de test ref ou ck test et Ck ref son respectivement les concentrations d'ARN-m du gène gk sur les listes de test et de référence) ou encore égale au rapport des concentrations d'ARN-m (Va^≈ Ck test/ck ref) <• ce qui correspond à la méthode "fold change" décrite précédemment.The method of analysis begins with the calculation for each of the genes of a value of variation of mRNA concentration, or value of variation Var, which can be equal to the difference of the concentrations of mRNA of each gene between the reference and test groups ref or c k test and Ck ref respectively the mRNA concentrations of the gk gene on the test and reference lists) or also equal to the ratio of the mRNA concentrations (Va ^ ≈ Ck test / c k ref) <• which corresponds to the method "fold change" described above.
Selon la présente invention et préalablement au calcul des valeurs de variation, les gènes sont classés par ordre croissant de leurs concentrations d'ARN-m pour chacune des listes de référence et de test. On attribue ensuite une valeur de rang nulle à tous les gènes dont la concentration d'ARN-m est égale à zéro ou plus largement à tous les gènes dont la concentration d'ARN-m est inférieure à une valeur de concentration seuil correspondant à une estimation du bruit de mesure. On attribue ensuite une valeur de rang unique à chacun des ni autres gènes, la valeur de rang étant comprise entre 1 et ni. L'ensemble des valeurs de rangs forme une suite d'entiers continue entre 0 et ni. Le rang d'un gène est d'autant plus élevé que sa concentration d'ARN-m est élevée. De plus, les variations du procédé de mesure de la concentration d'ARN-m à partir de puces à ADN entraîne une variation des valeurs de concentration d'ARN plus ou moins importante. Deux groupes de cellules identiques peuvent avoir des valeurs de concentration variant entre 10 et 10000 pour le premier groupe et entre 50 et 11000 pour le second groupe.According to the present invention and before calculating the variation values, the genes are classified in ascending order of their mRNA concentrations for each of the reference and test lists. A value of zero rank is then assigned to all the genes whose mRNA concentration is equal to zero or more broadly to all the genes whose mRNA concentration is less than a threshold concentration value corresponding to a estimation of measurement noise. Each of the ni other genes is then assigned a unique rank value, the rank value being between 1 and ni. The set of rank values forms a continuous series of integers between 0 and ni. The higher the rank of a gene, the higher its mRNA concentration. In addition, variations in the method of measuring the concentration of mRNA from DNA chips results in a greater or lesser variation in the values of RNA concentration. Two identical groups of cells can have concentration values varying between 10 and 10,000 for the first group and between 50 and 11,000 for the second group.
Afin de rëaligner les plages de valeurs des concentrations d'ARN-m et de s'affranchir des différences possibles entre les nombres n_ de gènes pour lesquels la concentration d' RN-m est supérieure à une valeur de concentration seuil donnée, on procède à une normalisation des valeurs de rangs sur une plage allant par exemple de 0 à 100. Le rang r d'un gène g est désormais égal à (Rkxl00)/n, où Rk est le rang non normalisé du gène gk- Selon la présente invention on exprime la valeur de variation de chaque gène comme étant égale à la différence entre le rang du gène dans la liste de référence et le rang du gène dans la liste de test. La valeur de variation, Vark, de chaque gène gk est calculée comme suit : Vark rtest,k - rref,k (D où r^ st k et rref k sont respectivement les rangs du gène gk des listes de test et de référence.In order to realign the ranges of values of m-RNA concentrations and to overcome the possible differences between the numbers n_ of genes for which the RN-m concentration is greater than a given threshold concentration value, we proceed to a normalization of the values of ranks over a range going for example from 0 to 100. The rank r of a gene g is now equal to (Rkxl00) / n, where Rk is the non-normalized rank of the gene gk- According to the present invention the variation value of each gene is expressed as being the difference between the rank of the gene in the reference list and the rank of the gene in the test list. The variation value, Vark, of each gk gene is calculated as follows: Var k r test , k - r re f, k ( D where r ^ st k and r ref k are respectively the ranks of the gk gene from the lists of test and reference.
Cette façon d'exprimer les valeurs de variation selon l'invention est appelée ci-aprês méthode de "décalage de rangs". La figure 2 représente un ensemble de valeurs de variation Vrk positives calculées selon la méthode de "décalage de rangs". Les rangs sont indiqués en abscisses. Les variations sont indiquées en ordonnées. Chaque valeur de variation d'un gène est représentée par une croix dont l'abscisse correspond au rang de ce gène pour la liste de référence. Bien que cela soit peu visible en figure 2 en ' raison du grand nombre de gènes considéré, chaque valeur d'abscisse (rang) correspond à un seul gène et donc à une seule valeur de variation.This way of expressing the variation values according to the invention is hereinafter called "row shift" method. FIG. 2 represents a set of positive Vrk variation values calculated according to the "row shift" method. The rows are indicated on the abscissa. The variations are indicated on the ordinate. Each variation value of a gene is represented by a cross whose abscissa corresponds to the rank of this gene for the reference list. Although this is not visible in Figure 2 'because of the large number of genes considered, each value of x-axis (row) corresponds to a single gene, and thus to a single value of variation.
On notera que les gènes dont le rang est petit présentent une amplitude de variation moyenne plus importante que les gènes dont la valeur de rang est élevée. Ceci correspond, comme on l'a indiqué précédemment, au fait que, pour les gènes s 'exprimant peu, les variations sont susceptibles d' être plus importantes . Ainsi une méthode consistant comme dans 1 ' art antérieur à fixer une valeur de variation de seuil identique pour les gènes qui s'expriment peu et ceux qui s'expriment beaucoup conduirait à considérer que les gènes présentant une variation significative sont les seuls gènes ayant un petit rang et donc une faible concentration d'ARN-m. Pour pallier cet inconvénient, la présente invention prévoit de définir une valeur de variation de seuil qui soit fonction du rang du gêne. Plus particulièrement, le procédé d'analyse de la présente invention inclut un procédé de normalisation. On classe les gènes en deux groupes. Les gènes dont la valeur de variation indique une hausse de leurs concentrations d'ARN-m entre la liste de référence et la liste de test sont mis dans un premier groupe. Les autres "sont mis dans un second groupe et on calcule pour ces gènes une nouvelle valeur de variation en inversant les listes de test et de référence.It will be noted that the genes whose rank is small have a greater amplitude of average variation than genes with a high rank value. This corresponds, as indicated above, to the fact that, for genes expressing little, the variations are likely to be greater. Thus, a method consisting, as in the prior art, of fixing an identical threshold variation value for the genes which express little and those which express a lot would lead to consider that the genes exhibiting a significant variation are the only genes having a low rank and therefore a low concentration of mRNA. To overcome this drawback, the present invention provides for defining a threshold variation value which is a function of the rank of the discomfort. More particularly, the analysis method of the present invention includes a normalization method. Genes are classified into two groups. The genes whose variation value indicates an increase in their mRNA concentrations between the reference list and the test list are placed in a first group. The others " are put in a second group and a new variation value is calculated for these genes by inverting the test and reference lists.
Ainsi dans le cas où la valeur de variation est exprimée selon la méthode de décalage de rangs, les gènes du premier groupe sont les pOS gènes dont la variation est positive ou nulle (r^est k => rref k pour un gène gk) , les gênes du second groupe sont les nneg gènes dont la variation est strictement négative ( ^est k < rref k P°ur un gène g ) . Pour chaque gène du second groupe on recalcule une valeur de variation V ^- égale à l'opposé de la valeur initiale. Toutes les valeurs de variation sont désormais positives. Dans le cas où la valeur de variation est exprimée selon la méthode de "fold change", les valeurs de variation des gènes présentant une baisse de leur concentration (valeur inférieure à 1) entre le groupe de référence et le groupe de test sont remplacées par 1 ' inverse des valeurs initiales . Les valeurs de variation sont ainsi toutes supérieures à 1. Selon un mode de mise en oeuvre du procédé de normalisation de la présente invention, on sélectionne pour chaque gène gk de rang ^ un ensemble de rangs voisins, ou encore "fenêtre" de rangs. On calcule ensuite la valeur moyenne des valeurs de variation correspondant à cette fenêtre de rangs qui constitue une moyenne locale μ (g ) •Thus in the case where the variation value is expressed according to the row shift method, the genes of the first group are the p OS genes whose variation is positive or zero (r ^ is k => r ref k for a gk gene ), the genes of the second group are the n ne g genes whose variation is strictly negative (^ is k <r ref k For a g gene). For each gene of the second group we recalculate a variation value V ^ - equal to the opposite of the initial value. All variation values are now positive. In the case where the variation value is expressed according to the "fold change" method, the variation values of the genes exhibiting a decrease in their concentration (value less than 1) between the reference group and the test group are replaced by 1 inverse of the initial values. The variation values are therefore all greater than 1. According to an embodiment of the normalization method of the present invention, a set of neighboring rows, or else "window" of rows, is selected for each gene gk of rank ^. We then calculate the average value of the variation values corresponding to this row window which constitutes a local average μ (g) •
On calcule également un écart type local σ (g ) des valeurs de variation pour chaque gêne gk en utilisant la même fenêtre que pour le calcul de la moyenne locale. Les courbes 20 et 21 de la figure 2 représentent respectivement l'allure générale des valeurs μ (g ) et σ (g ) après lissage.We also calculate a local standard deviation σ (g) of the variation values for each discomfort gk using the same window as for the calculation of the local average. The curves 20 and 21 in FIG. 2 respectively represent the general shape of the values μ (g) and σ (g) after smoothing.
A partir des valeurs μ (gk) et σ (g ) . prises de préférence après lissage, on calcule une valeur de variation normalisée Zk pour chacun des gènes gk selon la formule suivante : z Vark ~ μ(9k) σ(g ) Selon une variante de mise en oeuvre du procédé de la présente invention, le procédé de normalisation est effectué séparément pour chacun des premier et deuxième groupes de gènes. Les valeurs μ (gk) et σ (g ) sont calculées pour chaque groupe à partir des valeurs de variation d'un ensemble de gènes d'un même groupe.From the values μ (gk) and σ (g). preferably taken after smoothing, a normalized variation value Zk is calculated for each of the gk genes according to the following formula: z Vark ~ μ (9k) σ ( g) According to a variant implementation of the method of the present invention, the normalization process is carried out separately for each of the first and second groups of genes. The values μ (gk) and σ (g) are calculated for each group from the variation values of a set of genes from the same group.
La figure 3 représente l'ensemble des valeurs de variation normalisées Z obtenues pour chacune des valeurs de variation Vark ^e la figure 2. Comme en figure 2, les abscisses désignent les rangs et une valeur d'abscisse correspond à une seule valeur de variation normalisée. Les courbes 30 et 31 correspondent respectivement aux moyennes locales et aux écarts types locaux, non lissés, calculés à partir des valeurs Z de la même façon que cela avait été fait précédemment à partir des valeurs Vark, et décrit ci-dessus. Les courbes 30 et 31 montrent que les moyennes locales et les écarts types locaux sont maintenant sensiblement constants quel que soit le rang, ce qui signifie que les gènes dont les concentrations d'ARN-m moyennes diffèrent ont des valeurs de variation normalisées gui suivent la même distribution cumulée de fréquences.FIG. 3 represents the set of normalized variation values Z obtained for each of the variation values Vark ^ e l in FIG. 2. As in FIG. 2, the abscissa designates the rows and a value of abscissa corresponds to a single value of normalized variation. The curves 30 and 31 correspond respectively to the local means and to the local standard deviations, not smoothed, calculated from the Z values in the same way as that had been done previously from the Vark values, and described above. Curves 30 and 31 show that the local means and the local standard deviations are now substantially constant whatever the rank, which means that genes with different mean mRNA concentrations have normalized variation values that follow the same cumulative frequency distribution.
De façon générale, on pourra utiliser tout procédé de normalisation tel que la distribution cumulée de fréquences d'un sous-ensemble de valeurs de variation normalisées correspondant à des gènes d'une même fenêtre de rangs soit sensiblement identique quel que soit le sous-ensemble considéré.In general, any normalization method can be used such that the cumulative frequency distribution of a subset of normalized variation values corresponding to genes in the same row window is substantially identical regardless of the subset. considered.
A 1 ' issue de 1 ' étape de normalisation, on détermine une valeur de seuil seuj_ι, éventuellement différente pour le premier et le second groupe de gènes, et on sélectionne les gènes dont la valeur de variation normalisée excède la valeur de seuil .At one end of one stage of standardization, it is determined a threshold value seu j_ι, possibly different for the first and the second group of genes, and selecting the genes whose standardized variation value exceeds the threshold value.
Selon un aspect fondamental de la présente invention, cette valeur de seuil est identique pour tous les gènes et le critère de sélection est homogène quel que soit le rang des gènes analysés, c'est-à-dire indépendamment de leur concentration d'ARN-m moyenne.According to a fundamental aspect of the present invention, this threshold value is identical for all the genes and the selection criterion is homogeneous whatever the rank of the genes analyzed, that is to say regardless of their concentration of RNA- m average.
Un avantage du procédé d'analyse selon la présente invention est qu'il permet d'identifier des gènes présentant une variation significative de leurs concentrations d'ARN-m à partir d'un nombre restreint de mesures .An advantage of the analysis method according to the present invention is that it makes it possible to identify genes exhibiting a significant variation in their mRNA concentrations from a limited number of measurements.
2. Détermination d'une valeur de seuil2. Determination of a threshold value
La présente invention propose également de définir une valeur de seuil selon le procédé ci-après.The present invention also proposes to define a threshold value according to the method below.
On procède à une étape d'étalonnage consistant à déterminer les variations des concentrations d' RN-m normales de chacun des gènes en étudiant deux groupes de cellules identiques dites d'étalonnage, la concentration d'ARN-m de chaque gêne étant reporté sur deux listes d' étalonnage Lg al 1 et Lêtal 2 •A calibration step is carried out which consists in determining the variations in the normal RN-m concentrations of each of the genes by studying two groups of identical cells called calibration, the concentration of m-RNA of each gene being plotted on two calibration lists Lg al 1 and L êtal 2 •
On effectue un calcul de valeurs de variation d'étalonnage normalisées selon la méthode de décalage de rangs et le procédé de normalisation précédemment décrits. L'une des deux listes d'étalonnage Lg^al 1 et Létal 2 est considérée comme liste de test et l'autre comme liste de référence. On obtient ainsi une valeur de variation d'étalonnage Varetaτ_ k P°ur chaque gène gk et une valeur de variation d'étalonnage normalisée zétal k pour chacun des gènes.A calculation of normalized calibration variation values is carried out according to the row offset method and the normalization method previously described. One of the two calibration lists Lg ^ al 1 and L étal 2 is considered as a test list and the other as a reference list. We obtain and a calibration variation value Var e t a k P τ_ ° ur each gk gene and a normalized calibration variation value z k stall for each of the genes.
On obtient là aussi un ensemble de valeurs de variation d'étalonnage normalisées dont les moyennes locales et les écarts types locaux sont sensiblement constants.Here again, a set of normalized calibration variation values is obtained whose local means and local standard deviations are substantially constant.
Dans un mode de mise en oeuvre du procédé de la présente invention, on effectue un lissage des moyennes locales servant au calcul des Zétal k- ®n obtient deux courbes d'étalonnage représentant la moyenne μétal(r) et l'écart type r^tal^) des variations d'étalonnage en fonction du rang, toute référence à un gène donné étant supprimé. Lors d'une comparaison entre un groupe de test et un groupe de référence, on calcule à partir de ces courbes d'étalonnage les valeurs de variation normalisées Z selon la formule :In one embodiment of the method of the present invention, local averages are smoothed used for the calculation of Zetal k- ® n obtains two calibration curves representing the mean μetal ( r ) and the standard deviation r ^ tal ^) of the variations in calibration as a function of rank, any reference to a given gene being deleted . During a comparison between a test group and a reference group, the normalized variation values Z are calculated from these calibration curves according to the formula:
= Vaq{: - μétalW σétal(^k) = Vaq {: - μétalW σ étal (^ k)
Les groupes de cellules d'étalonnage peuvent être des cellules de référence, des cellules de test ou d'autres cellules jugées adaptées. Le choix des cellules utilisées est dicté par l'effet des valeurs μêt l(r) et σétal(r) sur les valeurs de variation normalisées Z - Ces dernières sont d'autant plus petites que les valeurs de moyenne et d'écart type sont grandes. Les valeurs μétal(r) et σétal(r) dépendent d'une part de la reproductibilité des conditions expérimentales (puces à ADN pas parfaitement identiques) et d'autre part de la stabilité du système biologique des cellules choisies. Les conditions expérimentales étant supposées reproductibles, un système biologique présentera des valeurs μétal(r) et σétal(r) d'autant plus grandes qu' il est instable . Ainsi 1 ' étalonnage à partir de deux cellules cancéreuses donnera des valeurs μétal(r) e^ σétal(r) plus élevées, comparées à celles obtenues à partir de deux cellules normales. En conséquence, l'étalonnage doit être effectué sur un système biologique qui a les mêmes caractéristiques de stabilité que le système constitué par le test et la référence.The groups of calibration cells can be reference cells, test cells or other cells deemed suitable. The choice of cells used is dictated by the effect of the μêt values (r) and σ stall (r) are normalized on variation values Z - These are even smaller than the mean values and standard type are great. The values μetal ( r ) and σ etal ( r ) depend on the one hand on the reproducibility of the experimental conditions (DNA chips not perfectly identical) and on the other hand on the stability of the biological system of the chosen cells. The experimental conditions are assumed reproducible biological system μétal present values (r) and σ stall (r) all the greater that it is unstable. Thus calibration from two cancer cells will give higher μetal ( r ) e ^ σ cal ( r ) values compared to those obtained from two normal cells. Consequently, the calibration must be performed on a biological system which has the same stability characteristics as the system constituted by the test and the reference.
Dans le cas où le test et la référence ont tous deux été dupliqués, on construit les courbes d'étalonnage indépendamment pour chacun des couples, ce qui conduit à deux couples de courbes de calibration (^test' σtest) et ^réf' σréf) • 0n évalue ensuite lequel des deux systèmes est le plus instable (μ ou/et σ plus élevés) . Cette évaluation peut être effectuée de différentes manières. On peut par exemple calculer deux jeux de valeurs de variation normalisées en utilisant respectivement (μtest' σtest) et (f^réf' σréf) • 0l1 Peut Par exemple construire pour chaque jeu une distribution cumulée de fréquences. On compare les deux valeurs de variation normalisées correspondant par ex;emple au 75™e percentile (probabilité égale à 0.75). Le système ayant la plus grande valeur est le plus instable. De façon générale, les résultats du procédé d'analyse de la présente invention sont meilleurs si l'on utilise les courbes d'étalonnage construites à partir du système le plus instable .In the case where the test and the reference have both been duplicated, the calibration curves are constructed independently for each of the pairs, which leads to two pairs of calibration curves (^ test ' σ test) and ^ ref' σ ref) • 0n then evaluates which of the two systems is more unstable (μ or / and σ higher). This assessment can be done in different ways. One can for example calculate two sets of standard variation values using respectively (μtest test) and (f ^ ref' σ ref) • P 0l1 was F or example build for each set a cumulative frequency distribution. We compare the two normalized variation values corresponding for example to the 75 th percentile (probability equal to 0.75). The system with the highest value is the most unstable. In general, the results of the analysis method of the present invention are better if the calibration curves constructed from the most unstable system are used.
Selon un aspect de la présente invention, on construit à partir de toutes les valeurs de variation normalisées une distribution cumulée de fréquences d'étalonnage. Les valeurs de variation normalisées de tous les gènes, quel que soit leur rang, suivent cette distribution cumulée de fréquences d'étalonnage. En effet, comme cela sera établi plus précisément en relation à la figure 6B, n'importe quel sous-ensemble de valeurs de variation d'étalonnage normalisées correspondant à des gènes d'une même fenêtre de rangs suit la même distribution cumulée de fréquences et il est donc possible de construire une unique distribution cumulée de fréquences à partir de toutes les valeurs de variation d'étalonnage normalisées. Etant donné le grand nombre de gènes étudiés et donc le grand nombre de valeurs de variation d'étalonnage normalisées obtenues, la distribution cumulée de fréquences d'étalonnage résultante est très précise. A partir de cette distribution cumulée de fréquences d'étalonnage, on associe à toute valeur de variation d'étalonnage normalisée zêtal,k une probabilité, dite probabilité d'erreur de sélection pseuil k' pour qu'il existe des valeurs de variation d'étalonnage normalisées naturellement supérieures à cette dernière.According to one aspect of the present invention, a cumulative distribution of calibration frequencies is constructed from all the normalized variation values. Normalized variation values for all genes, regardless of their rank, follow this cumulative distribution of calibration frequencies. Indeed, as will be established more precisely in relation to FIG. 6B, any subset of normalized calibration variation values corresponding to genes of the same row window follows the same cumulative distribution of frequencies and it is therefore possible to construct a single cumulative distribution of frequencies from all the normalized calibration variation values. Given the large number of genes studied and therefore the large number of normalized calibration variation values obtained, the cumulative distribution of resulting calibration frequencies is very precise. From this cumulative distribution calibration frequencies, is associated with all normalized calibration variation value z Stall, k Probability, called p selection error probability is uil k 'for that there are values of normalized calibration variation naturally greater than the latter.
Lors d'une analyse comparative entre des cellules de test et de référence selon le procédé précédemment décrit en relation aux figures 2 et 3, on peut désormais définir à l'aide de la distribution cumulée de fréquences d'étalonnage la probabilité d'erreur de sélection pseuil correspondant à la probabilité pour qu'il existe naturellement des valeurs de variation normalisées supérieures à la valeur de seuil seu^;L choisie pour sélectionner les gènes. Un avantage du procédé d'analyse selon la présente invention est qu' il permet d' associer une probabilité d' erreur de sélection à toute valeur de seuil Zseuj_τ_ choisie.During a comparative analysis between test and reference cells according to the method previously described in relation to FIGS. 2 and 3, the probability of error can now be defined using the cumulative distribution of calibration frequencies. p is uil selection corresponding to the probability that it exists naturally standard variation values greater than the threshold value seu ^; L chosen to select genes. An advantage of the analysis method according to the present invention is that it makes it possible to associate a probability of selection error with any threshold value Z seu j_τ_ chosen.
Un autre avantage du procédé d'analyse selon la présente invention est qu'il permet de choisir une valeur de seuil seuj_. très précise avec un nombre restreint de mesures.Another advantage of the analysis method according to the present invention is that it allows to choose a threshold value seu j_. very precise with a limited number of measurements.
A partir de la distribution cumulée de fréquences d'étalonnage, il est possible de définir un ensemble de paramètres statistiques, leur connaissance permettant de choisir au mieux la probabilité d'erreur de sélection pseuil- Connaissant le nombre de gènes étudiés, on peut connaître la proportion de gènes "normaux" parmi l'ensemble des gènes identifiés comme ayant une valeur de variation normalisée k supérieure à Zseu- . Cette proportion de gênes normaux est appelée taux de faux positif TFP et est définie comme suit:From the cumulative distribution frequency of calibration, it is possible to define a set of statistical parameters, knowledge to choose the best p selection error probability is UIL Knowing the number of genes studied, one can know the proportion of "normal" genes among all the genes identified as having a normalized variation value k greater than Z seu -. This proportion of normal discomfort is called the TFP false positive rate and is defined as follows:
TFP = 7 ^^ ,TFP = 7 ^^,
[nombre de gènes pour lesquels Z ZseuilJ[number of genes for which Z ZseuilJ
Dans le cas d'une analyse distincte des premier et second groupes de gênes, on définit un premier et un second taux de faux positif. On remplace n par le nombre de gènes du premier groupe npOS ou du second groupe nneg, les valeurs Pseuil/zseuil étant éventuellement différentes pour chaque groupe de gènes.In the case of a separate analysis of the first and second groups of genes, a first and a second false positive rate are defined. We replace n by the number of genes of the first group np OS or of the second group n ne g, the threshold Pseuil / z values possibly being different for each group of genes.
On peut choisir une probabilité d'erreur de sélection Pseuil très petite permettant d'obtenir un taux de faux positif très faible. Néanmoins, il peut être intéressant de choisir une probabilité pseuil plu grande et donc un Zseui]_ plus petit de façon à sélectionner et donc à étudier ultérieurement un plus grand nombre de gènes.One can choose a very small Pseuil selection error probability allowing to obtain a very low false positive rate. Nevertheless, it may be beneficial to choose a probability p is pleased uil large and thus a Z seu i] _ smaller in order to select and therefore subsequently studied more genes.
En plus du taux de faux positif, il est possible de connaître la sensibilité de la sélection. On construit au préalable la distribution cumulée de fréquences des valeurs de variation normalisées Zk obtenues lors de la comparaison entre des cellules de test et de référence. A partir de cette distribution, il est possible d'associer à toute valeur de variation normalisée k une probabilité, dite probabilité d'observation Pobs k' pour qu'on observe des valeurs de variation normalisées supérieures à cette dernière.In addition to the false positive rate, it is possible to know the sensitivity of the selection. The cumulative frequency distribution of the normalized variation values Zk obtained during the comparison between test and reference cells is constructed beforehand. From this distribution, it is possible to associate with any normalized variation value k a probability, called probability of observation Pobs k 'so that normalized variation values greater than the latter are observed.
A partir des valeurs de probabilité d'erreur de sélection pseuii et de probabilité d'observation p0£,s k de chaque gène, il est possible de définir la fraction F de gènes pour lesquels la valeur de variation Vark a augmenté par rapport à la valeur de variation d'étalonnage Variai k- La fraction F est définie comme étant la valeur maximale de l'ensemble des valeurs Pobs k~Pseuil k calculées pour chaque gène gk . Si Pseuil,k est la probabilité d'erreur de sélection choisie, le taux de faux positif peut être défini comme étant égal à Pseuil k/Pobs k- Quand on choisit un couple de valeurs Pseuil/Zseuil' la sensibilité, égale à (Pobs k"Pseuil k) /F' permet de savoir si parmi les gènes sélectionnés, le nombre de gènes présentant réellement des variations significatives est représentatif du nombre de gènes dont les valeurs de variation ont augmenté (Vark > ariai ) •From the values of probability of selection error p seu ii and of probability of observation p 0 £, sk of each gene, it is possible to define the fraction F of genes for which the value of variation Vark has increased relative at the value of calibration variation Variai k- The fraction F is defined as being the maximum value of the set of values Pobs k ~ Pseuil k calculated for each gene gk . If Pseuil, k is the probability of selection error chosen, the false positive rate can be defined as being equal to Pseuil k / Pobs k- When we choose a pair of values Pseuil / Z threshold 'l has sensitivity, equal to (Pobs k "Pseuil k) / F 'makes it possible to know if among the selected genes, the number of genes actually showing significant variations is representative of the number of genes whose variation values have increased (Vark> ariai) •
Un avantage du procédé d'analyse selon la présente invention est qu'il permet d'associer un taux de faux positif et une valeur de sensibilité à toute valeur de seuil seui]_ et donc à toute valeur de probabilité d'erreur de sélection Pseuil choisies .An advantage of the analysis method according to the present invention is that it allows to associate a false positive rate and a sensitivity value of any threshold value seu i] _ and therefore to any Pseuil selection error probability value chosen.
3. Démonstration des avantages de l'invention3. Demonstration of the advantages of the invention
Les figures 4A à 4C illustrent la construction d'une courbe "quantile contre quantile". La figure 4A représente une distribution cumulée de fréquences C^ d'un premier sous-ensemble de valeurs de variation pris parmi 1 'ensemble des valeurs de variation (Var) obtenues lors d'une étude comparative. Les valeurs de variation sont reportées en abscisses. On indique en ordonnées la probabilité (proba) pour qu'il y ait des valeurs de variation inférieures à la valeur de variation en abscisses.FIGS. 4A to 4C illustrate the construction of a "quantile against quantile" curve. FIG. 4A represents a cumulative distribution of frequencies C ^ of a first subset of variation values taken from the set of variation values (Var) obtained during a comparative study. The variation values are plotted on the abscissa. We indicate on the ordinate the probability (proba) so that there are variation values lower than the variation value on the abscissa.
La figure 4B est une autre distribution cumulée de fréquences C2 d'un second ensemble de valeurs de variation pris parmi 1 ' ensemble des valeurs de variation de 1 'étude comparative.FIG. 4B is another cumulative distribution of frequencies C2 of a second set of variation values taken from the set of variation values of the comparative study.
La figure 4C est une courbe "quantile contre quantile" C3 obtenue à partir des courbes Cl et C2 des figures 4A et 4B. Les valeurs de variation du premier ensemble étudié sont représentées en ordonnées, et les valeurs de variation du second ensemble étudié sont représentées en abscisses . La courbeFIG. 4C is a "quantile against quantile" curve C3 obtained from curves C1 and C2 in FIGS. 4A and 4B. The variation values of the first studied set are represented on the ordinate, and the variation values of the second studied set are represented on the abscissa. The curve
"quantile contre quantile" est obtenue en relevant pour chaque valeur de probabilité (entre 0 et 1) les valeurs de variation correspondantes sur les courbes Cl et C2 et en définissant un point ayant ces deux valeurs respectivement pour ordonnée et abscisse. Le point 40 de la courbe C3 a pour abscisse VI' et ordonnée VI, VI et VI ' étant respectivement les valeurs de variation des courbes Cl et C2 correspondant à la probabilité 0,1. De même, les points 41 et 42 de la courbe C3 ont pour abscisses respectives V2 ' et V3 ' et pour ordonnées respectives V2 et V3, les valeurs de variation V2, V3 de la courbe Cη_ et"quantile against quantile" is obtained by taking for each probability value (between 0 and 1) the corresponding variation values on the curves C1 and C2 and by defining a point having these two values respectively for ordinate and abscissa. The point 40 of the curve C3 has the abscissa VI 'and the ordinate VI, VI and VI' being respectively the values of variation of the curves Cl and C2 corresponding to the probability 0.1. Similarly, the points 41 and 42 of the curve C3 have the respective abscissa V2 'and V3' and for the ordinate V2 and V3, the variation values V2, V3 of the curve Cη_ and
V2 ' , V3 ' de la courbe C2 ayant pour probabilités respectives 0, 5 et 0,9. On obtient ainsi une courbe "quantile contre quantile" pour deux sous-ensembles de valeurs de variation. Dans l'exemple de la figure 4C, la courbe C3 est relativement éloignée de la diagonale tracée en pointillés ce qui signifie que les premier et second sous-ensembles de valeurs de variation ont des fonctions de répartition différentes.V2 ', V3' of curve C2 having respective probabilities 0, 5 and 0.9. A “quantile against quantile” curve is thus obtained for two subsets of variation values. In the example of FIG. 4C, the curve C3 is relatively far from the diagonal drawn in dotted lines, which means that the first and second subsets of variation values have different distribution functions.
La figure 5A représente un ensemble de courbes "quantile contre quantile" obtenues en étudiant différents sous- ensembles de valeurs de variation calculées selon une méthode de Fold Change. Les courbes les plus aplaties sont obtenues en prenant des sous-ensembles de valeurs de variation dont les rangs respectifs sont très éloignés. Ceci démontre que des gènes ayant des rangs différents ont des valeurs de variation qui suivent des fonctions de répartition différentes.FIG. 5A represents a set of "quantile against quantile" curves obtained by studying different subsets of variation values calculated according to a Fold Change method. The most flattened curves are obtained by taking subsets of variation values whose respective ranks are very far apart. This demonstrates that genes with different ranks have variation values that follow different distribution functions.
La figure 5B représente de même un ensemble de courbes "quantile contre quantile" obtenues en étudiant différents sous- ensembles de valeurs de variation non normalisées calculées selon une fonction de décalage de rangs . On peut là aussi observer une différence entre les fonctions de répartition pour des gènes ayant des rangs très éloignés .FIG. 5B likewise represents a set of "quantile against quantile" curves obtained by studying different subsets of non-normalized variation values calculated according to a row shift function. We can also observe a difference between the distribution functions for genes with very distant ranks.
La figure 6A représente un ensemble de courbes "quantile contre quantile" obtenues en étudiant différents sous- ensembles de valeurs de variation normalisées calculées selon la fonction de Fold Change et le procédé de normalisation de la présente invention. Les courbes se rapprochent de la diagonale ce qui signifie que des gènes ayant des rangs différents ont des valeurs de variation normalisées qui suivent des fonctions de répartition relativement semblables. Cependant on observe des divergences relativement importantes pour les valeurs correspondant à des probabilités élevées.FIG. 6A represents a set of "quantile against quantile" curves obtained by studying different subsets of normalized variation values calculated according to the Fold Change function and the normalization method of the present invention. The curves approach the diagonal which means that genes with different ranks have normalized variation values which follow relatively similar distribution functions. However, there are relatively large divergences for the values corresponding to high probabilities.
La figure 6B représente un ensemble de courbes "quantile contre quantile" obtenues en étudiant différents sous- ensembles de valeurs de variation normalisées calculées selon la méthode de décalage de rangs et le procédé de normalisation de la présente invention. Les courbes sont toutes très proches de la diagonale ce qui signifie que l'ensemble des valeurs de variation normalisées suit la même distribution cumulée de fréquences . Ceci démontre que, en combinant un calcul des valeurs de variation selon la méthode de décalage de rangs de 1 ' invention et une normalisation des ces valeurs selon le procédé de normalisation de l'invention, on obtient un ensemble de valeurs de variation normalisées qui suivent la même distribution cumulée de fréquences de référence.FIG. 6B represents a set of "quantile against quantile" curves obtained by studying different subsets of normalized variation values calculated according to the row shift method and the normalization method of the present invention. The curves are all very close to the diagonal, which means that the set of normalized variation values follows the same cumulative frequency distribution. This demonstrates that, by combining a calculation of the variation values according to the row shift method of the invention and a normalization of these values according to the normalization method of the invention, a set of normalized variation values is obtained which follow the same cumulative distribution of reference frequencies.
Il en résulte que grâce au procédé d'analyse selon la présente invention, on peut étudier chaque gène individuellement à partir d'uniquement trois mesures de concentrations d'ARN-m avec des puces à ADN alors qu'un grand nombre de mesures était nécessaire auparavant. 4. Comparaison entre plusieurs groupes de test et de référenceAs a result, thanks to the analysis method according to the present invention, it is possible to study each gene individually from only three measurements of m-RNA concentrations with DNA chips when a large number of measurements was necessary. before. 4. Comparison between several test and reference groups
Dans le cas où plusieurs mesures de concentrations d'ÂRN-m pour chaque gène sont disponibles et obtenues à partir de m groupes de référence GR_ à GR^ et q groupes de test GT^ à GTg, un procédé d'analyse multiple selon la présente invention prévoit d'identifier plus finement quels sont les gènes présentant les variations de concentrations d'ARN-m les plus significatives . Le procédé d'analyse multiple comprend de multiples analyses de variation entre des listes de référence et de test. Pour tout ou "partie des combinaisons Cj_ j comprenant un groupe de référence GR^ et un groupe de test GT , on calcule pour chaque gène gk, une valeur de variation Var^j^ selon la méthode de décalage de rangs et une valeur de variation normalisée Zj_ j k selon le procédé de normalisation de l'invention.In the case where several measurements of ARN-m concentrations for each gene are available and obtained from m reference groups GR_ to GR ^ and q test groups GT ^ to GTg, a method of multiple analysis according to the present The invention aims to identify more precisely which genes exhibit the most significant variations in mRNA concentrations. The multiple analysis method includes multiple analyzes of variation between reference and test lists. For all or "part of the combinations C i j comprising a reference group GR ^ and a test group GT is calculated for each gene gk, an amount of change Var ^ j ^ according to the offset method of ranks and an amount of change normalized Zj_ jk according to the normalization process of the invention.
En parallèle, on effectue une étape d'étalonnage identique à celle décrite précédemment. Après sélection de deux groupes d'étalonnage GR^ai ]_ et GR^al 2 parmi les m groupes de référence, on calcule pour chaque gène g une valeur de variation d'étalonnage normalisée Zgtal k a l'aide de la méthode de décalage de rangs et du procédé de normalisation de l'invention. On construit une distribution cumulée de fréquences d'étalonnage à partir de toutes les valeurs de variation d'étalonnage normalisées. Il est ainsi possible d'associer à une valeur de variation normalisée d'étalonnage Zg^al k une probabilité, dite probabilité d'erreur d'étalonnage Pétai k' pour qu' il existe des valeurs de variation normalisées naturellement supérieures à cette dernière.In parallel, a calibration step identical to that described above is carried out. After selecting two GR ^ calibration groups have] _ and ^ al GR 2 among the m reference groups, is calculated for each gene g a normalized calibration variation value Zgtal k by means of the offset method of rows and of the standardization process of the invention. A cumulative distribution of calibration frequencies is constructed from all the variation values calibration standards. It is thus possible to associate with a normalized value of variation of calibration Zg ^ al k a probability, called probability of error of calibration Pétai k 'so that there exist values of normalized variation naturally higher than this last.
Selon une variante de réalisation, on construit pour chaque combinaison C-^j choisie une distribution cumulée de fréquences de regroupement à partir de deux groupes de référence dont l'un d'eux est le groupe GRi ou de deux groupes de test dont l'un d'eux est le groupe GT-j de la combinaison Cj_ considérée.According to an alternative embodiment, a cumulative distribution of grouping frequencies is constructed for each combination C- ^ j chosen from two reference groups one of which is the GRi group or two test groups whose one of them is the group GT-j of the combination Cj_ considered.
A partir des distributions cumulées de fréquences d'étalonnage, on définit pour chaque gène gk une probabilité, dite probabilité d'erreur Pi k/ correspondant à la valeur de variation normalisée Z j k dudit gène. Dans le cas où seule une distribution cumulée de fréquence d'étalonnage est disponible, les probabilités d' erreur Pi j ,k sont toutes égales .From the cumulative distributions of calibration frequencies, a probability is defined for each gene gk, called the probability of error Pi k / corresponding to the normalized variation value Z j k of said gene. In the case where only a cumulative calibration frequency distribution is available, the error probabilities Pi j, k are all equal.
Selon une variante de réalisation, on détermine si les valeurs de variation d'un gène obtenues pour chaque combinaison C-L H correspond à une hausse (variation positive) ou à une baisse (variation négative) des concentrations d'ARN-m entre le groupe de cellules de référence GRj_ et le groupe de cellules de test GTj . Pour un gène gk particulier, certaines des probabilités Pi -1 k correspondent à des variation positives et d'autres valeurs Pk i correspondent à des variations négatives. On compare le produit ProdppOS des valeurs Pi, j,k correspondant à des variations positives au produit Prodpngg des valeurs Pi,j,k correspondant à des valeurs négatives. Si ProdpOS est inférieur à Prodn£g on considère que la variation du gène est positive et toutes les probabilités Pi ,k correspondant à des variations négatives prennent la valeur 1 (inversement si ProdpOS > Prodngg, la variation du gêne est considérée comme négative et toutes les probabilités Pi H k prennent la valeur 1) . En général, le résultat est homogène, c'est-à-dire que la variation du gène k est considérée comme positive (ou négative) pour toutes les combinaisons. Si pour une minorité d'ensembles la procédure d'assignation a abouti à donner au gène gk un sens de variation contraire, cela s'explique par la présence d'une variation anormale dite artefactuelle qui est facilement repêrable. Ces valeurs sont éliminées, ce qui conduit à une réattribution correct du sens de variation.According to an alternative embodiment, it is determined whether the values of variation of a gene obtained for each CL H combination corresponds to an increase (positive variation) or to a decrease (negative variation) in the mRNA concentrations between the group of reference cells GRj_ and the group of test cells GTj. For a particular gk gene, some of the probabilities Pi -1 k correspond to positive variations and other values Pk i correspond to negative variations. The product Prodpp OS of the values Pi, j, k corresponding to positive variations is compared to the product Prodp n gg of the values Pi, j, k corresponding to negative values. If Prodp OS is less than Prod n £ g we consider that the variation of the gene is positive and all the probabilities Pi, k corresponding to negative variations take the value 1 (conversely if Prodp OS > Prod n gg, the variation of the discomfort is considered negative and all the probabilities Pi H k take the value 1). In general, the result is homogeneous, i.e. the variation of the k gene is considered to be positive (or negative) for all combinations. If for a minority of sets the assignment procedure has resulted in giving the gk gene a sense of opposite variation, this is explained by the presence of an abnormal variation called artefactual which is easily detectable. These values are eliminated, which leads to a correct reassignment of the direction of variation.
On procède ensuite au calcul pour chaque gène g d'une valeur de regroupement Rk à partir des probabilités d'erreur du gène selon un procédé de regroupement. Selon le même procédé, on calcule pour chaque gène gk une valeur de regroupement d'étalonnage Rétal,k en utilisant les probabilités d'erreur d'étalonnage Pétai, i,j,k correspondant aux valeurs de variation normalisées Zêtal,i, k de chaque gène obtenues à partir des distributions cumulées de fréquences précédemment calculées. Selon un mode de mise en oeuvre du procédé de regroupement de la présente invention, les combinaisons choisies sont réparties dans différents ensembles. On pourra par exemple constituer des ensembles de combinaisons indépendantes, deux combinaisons Ci^ji et C 2rj2 étant indépendantes si les groupes GRϋ et GR2 sont différents et si les groupes GTji etNext, a grouping value Rk is calculated for each gene g from the gene error probabilities according to a grouping method. According to the same method, is calculated for each gene gk worth RETAL calibration combination, k using the calibration petai error probabilities, i, j, k corresponding to the normalized variation values Zêtal, i, k each gene obtained from the cumulative frequency distributions previously calculated. According to an embodiment of the grouping method of the present invention, the combinations chosen are distributed in different sets. We could for example constitute sets of independent combinations, two combinations Ci ^ ji and C 2 r j2 being independent if the groups GRϋ and GR2 are different and if the groups GTji and
G j2 sont différents. Dans le cas où on a autant de groupes de référence que de groupes de test (m=q) , on pourra par exemple constituer m! ensembles de m combinaisons indépendantes (si m<q on pourra constituer q!/m! ensembles de m comparaisons indépendantes) . On effectue ensuite pour chaque ensemble le produit (ou la somme) de toutes les probabilités d'erreur Pi k d'un même gène gk dans chaque ensemble et on obtient une valeur intermédiaire pour chaque ensemble. On calcule ensuite pour chaque ' gêne gk une valeur de regroupement Rk en prenant la moyenne des valeurs intermédiaires de chaque ensemble.G j2 are different. In the case where there are as many reference groups as there are test groups (m = q), we could for example constitute m! sets of m independent combinations (if m <q we can constitute q! / m! sets of m independent comparisons). We then carry out for each set the product (or the sum) of all the error probabilities Pi k of the same gene gk in each set and we obtain an intermediate value for each set. Then computed for each 'discomfort gk Rk a grouping value by taking the average of the intermediate values of each set.
De même que pour une analyse simple entre une liste de référence et une liste de test, on définit une valeur de regroupement de seuil RSeuil afin de sélectionner les gênes présentant des valeurs de regroupement supérieures à cette dernière. A cette fin, on construit une distribution cumulée de fréquences, dite de regroupement, à partir de toutes les valeurs de regroupement d'étalonnage. A toute valeur de regroupement Rk correspond une probabilité, dite probabilité théorique Pthéo k' pour qu' il existe des valeurs de regroupement supérieures à R . On peut alors associer une probabilité d'erreur de sélection de regroupement P2seuil toute valeur de regroupement de seuil Rgeuil choisie. On choisira RSeuil et Pseuil en fonction du taux de faux positif et de la sensibilité souhaitée.As for a simple analysis between a reference list and a test list, a threshold grouping value R S euil is defined in order to select the genes having grouping values greater than the latter. To this end, a cumulative distribution of frequencies, called grouping frequencies, from all the calibration grouping values. To any grouping value R k there corresponds a probability, known as the theoretical probability Pthéo k 'so that there are grouping values greater than R. We can then associate a probability of group selection error P2seuil any threshold grouping value Rgeuil chosen. R S and Pthr euil be chosen according to the false positive rate and the desired sensitivity.
Ce procédé d'analyse multiple permet d'augmenter la puissance de 1 ' analyse car il permet de sélectionner des gènes dont les variations de la concentration d'ARN-m sont faibles et non significatives dans toutes les comparaisons prises individuellement, mais deviennent significatives lorsque toutes les comparaisons possibles sont prises en compte. b. Analyse des moyennesThis multiple analysis method makes it possible to increase the power of the analysis because it makes it possible to select genes whose variations in the concentration of mRNA are small and not significant in all the comparisons taken individually, but become significant when all possible comparisons are taken into account. b. Analysis of averages
Le procédé d'analyse multiple par analyse de moyennes consiste à construire pour les groupes G ]_ à GRjn et GTτ_ à GTg un groupe unique GR et GT. Les valeurs de concentration d'ARN-m des groupes GR^ à GRjn et GTX à GTq sont exprimées sous forme de valeurs de rangs, normalisés sur une échelle de 0 à 100, comme décrit dans le chapitre 1. On construit deux nouvelles listes Ltest et Lréf indiquant pour chaque gène une unique valeur de rang égale à la moyenne des valeurs de rangs respectivement des groupes de test et des groupes de référence. On construit ensuite deux listes d'étalonnage ^étall k et Let- l2 k a partir de deux ensembles de N groupes de cellules identiques ( de référence, de test ou autre) , avec N≈m si m<=q, ou N=p si p<=m, selon le procédé décrit précédemment. On effectue ensuite le même procédé d'analyse que celui mis en oeuvre lors d'une comparaison entre un seul groupe de test et un seul groupe de référence, la distribution cumulée de fréquences d'étalonnage étant construite à partir des deux listes d'étalonnage Létall/k et Lêtal2, * 5. Construction d'un jeu de données artificielThe method of multiple analysis by analysis of means consists in constructing for the groups G] _ to GR j n and GTτ_ to GTg a single group GR and GT. The concentration values of mRNA-m of the groups GR ^ to GR j n and GT X to GTq are expressed in the form of rank values, normalized on a scale of 0 to 100, as described in chapter 1. We construct two new L test and L ref lists indicating for each gene a unique rank value equal to the average of the rank values of the test groups and of the reference groups respectively. Calibration both lists is then constructed étall ^ k and T k t l2 from two sets of N groups of identical cells (reference to test or otherwise), with N≈m if m <= q, or N = p if p <= m, according to the method described above. The same analysis process is then carried out as that used during a comparison between a single test group and a single reference group, the cumulative distribution of calibration frequencies being constructed from the two calibration lists. L étall / k and Lêtal2, * 5. Construction of an artificial dataset
Selon un aspect de la présente invention, la distribution cumulée de fréquences des variations de signal de transcription normalisées pour un système biologique permet de cons- truire des jeux de données artificiels, sous la forme d'une liste artificielle art associant à chaque gène une valeur de concentration, le jeu de données ayant les mêmes caractéristiques statistiques que les données réelles ayant été utilisées pour l'étalonnage. A partir de deux groupes de cellules identiques Gl etAccording to one aspect of the present invention, the cumulative distribution of frequencies of the variations of transcription signal normalized for a biological system makes it possible to construct artificial data sets, in the form of an artificial list ar t associating with each gene a concentration value, the data set having the same statistical characteristics as the actual data used for the calibration. From two identical groups of Gl cells and
G2, on construit comme décrit ci dessus les courbes d'étalonnage lissées μétal (9k) et σ étal (9 )' ainsi que la distribution cumulée de fréquences des valeurs de variation d'étalonnage normalisées . On construit ensuite un jeu de données artificiel indifféremment à partir exclusivement de Gl ou de G2 ou à partir de Gl et de G2, utilisés tour à tour. Si l'on prend par exemple Gl comme base pour générer artificiellement un jeu de données, on considère le rang r du gène gk- On fait un tirage aléatoire d'un nombre à partir d'une distribution linéaire sur l'intervalle [0,1]. En interpolant ce noiribre sur la distribution cumulée de fréquences d'étalonnage, on tire une valeur de variation normalisée Z pour le gène gk- Si le gène augmente entre G]_ et G2, cette valeur de variation norma- lisée est transformée en valeur de variation selon la formule :G2, the smoothed calibration curves μetal (9k) and σ cal (9) 'are constructed as described above, as well as the cumulative frequency distribution of the normalized calibration variation values. We then build an artificial data set either from Gl or G2 exclusively or from Gl and G2, used in turn. If we take for example Gl as the basis for artificially generating a data set, we consider the rank r of the gene gk- We do a random drawing of a number from a linear distribution over the interval [0, 1]. By interpolating this darkness on the cumulative distribution of calibration frequencies, we obtain a normalized variation value Z for the gene gk- If the gene increases between G] _ and G2, this normalized variation value is transformed into the value of variation according to formula:
Van, = Z * σétal ( ) + μétal ( ) et on déduit le nouveau rang, rjeu?k du gène g par la formule rjeu,k=rk+VarkVan , = Z * σétal () + μétal () and we deduce the new rank, rj eu? k of the gene g by the formula r game, k = r k + Var k
Si jeU/ est supérieur à 100, on lui donne la valeur 100. Si le gène gk diminue entre G]_ et G2, il faut trouver le nouveau rang rjeU/k tel que :If j eU / is greater than 100, we give it the value 100. If the gene gk decreases between G] _ and G2, we must find the new rank rj eU / k such that:
Vark = zk *σétal(rje ,k)+μétal(rjeu,k) et rjeu,k = ~Va ±εr où εrest une constante à déterminer. Une des possibilités pour rechercher rjeUfk consiste à calculer successivement, en partant de la valeur immédiatement inférieure à rk, la valeur absolue de εr pour toute valeur rjeu,k inférieure à r et à prendre pour nouveau rang, le rang rjeu,k pour lequel la valeur absolue de εr atteint le premier minimum local (c'est à dire lorsque la valeur absolue de εr au rang immédiatement inférieur au r-jeU/ considéré redevient plus grande qu'au rang rjeU/k) •Vark = z k * σ eta l (rje, k) + μetal (rjeu, k) and r game, k = ~ Va ± εr where εrest a constant to be determined. One of the possibilities for finding rj eUf k consists in successively calculating, starting from the value immediately below rk, the absolute value of ε r for any value r game, k less than r and taking the rank r game for new rank. , k for which the absolute value of ε r reaches the first local minimum (ie when the absolute value of ε r at the rank immediately below the rj eU / considered becomes larger than at the rank rj eU / k) •
Si on arrive au rang zéro sans avoir satisfait la deuxième condition, on choisit rjeu égal à zéro.If we arrive at rank zero without having satisfied the second condition, we choose rj had equal to zero.
Le nouveau jeu de valeurs ainsi obtenu peut être transformé facilement en valeurs de concentration d'ARN-m par la transformation inverse de celle qui donne le rang. La concentration d'ARN-m de chaque gène étant reporté sur la liste artificielle Lart.The new set of values thus obtained can be easily transformed into mRNA concentration values by the reverse transformation of that which gives the rank. The concentration of mRNA of each gene being reported on the artificial list L ar t.
Il est possible de générer plusieurs listes artificielles selon le procédé décrit ci-dessus. Ces listes peuvent être utilisées lors d'une comparaison entre plusieurs groupes de cellules de test et de référence, notamment lorsque le nombre de groupes de test et le nombre de groupes de référence diffèrent. De façon générale, un jeu de données artificiel pourra remplacer n' importe quel groupe de cellules utilisées lors des analyses précédemment décrites. 6. Analyse de cinétiques ou d'expériences dose/réponse Dans le cas où plusieurs mesures de 1 ' activité de transcription sont disponibles et obtenues à partir de plusieurs n+1 ensembles de groupes, n étant un entier. Le premier groupe GCO contient ±Q groupes GCO^ à GC0 0, le deuxième groupe GC1 contient i]_ groupes GCl^ à GClϋ, le dernier groupe GCn contient in groupes GCn^ à GChin. Un procédé multiple selon la présente invention prévoit d'identifier plus finement les gènes présentant les variations de transcription les plus significatives. Les groupes GC1 à GCn peuvent représenter des mesures effectuées sur le même système biologique mais à des temps différents et croissants (expérimentation de cinétique) , ou soumis à un stimulus d'intensité strictement croissante ou décroissante (expérimentations de dose/réponse) . La caractéristique commune de ces deux types d'expérience est que l'on recherche pour chaque gène gk s'il s'est produit une variation de signal de transcription significative sur l'ensemble de l'intervalle de la variable indépendante VI (temps dans le cas d'une cinétique ou dose d'un produit dans le cas d'une dose/réponse) . Les valeurs de la variable indépendante sont prises arbitrairement égales à VI = 0,1, ...n. Dans une première phase de l'analyse on effectue indépendamment toutes les analyses concernant les groupes pour lesquels VI = i et VI = i+1, selon les procédés décrits plus hauts. Par exemple une des analyses portera sur les groupes GCO et GC1, une autre sur les groupes GC1 et GC2, et la dernière portera sur les groupes GCn-1 et GCn. Pour chaque analyse et pour chaque gène on détermine les Pthéor k (°u les Pseuil k s ' ϋ y a qu'un seul groupe) et les pODs k- 0n sélectionne les gènes ayant subi une variation de concentration d'ARN-m significative à l'aide des paramètres de sélection tels que la probabilité d'erreur de sélection de regroupement, le taux de faux positif ou encore la sensibilité. On obtient alors pour chaque gène une suite de résultats ordonnés, Ssens k Çui indique pour chaque intervalle de VI si le gène a été détecté comme non variant ou variant positivement ou négativement, et une autre suite de résultats ordonnés, Sseτ_ k Φ^- indique si la variation est significative. Ainsi pour le gène gk on pourrait avoir la suite ssens,k = +/ + 0, -, -,-7+,+ et la suite Ssg]_^k = 1/1,0,0,0,0,0,0. A noter qu'ici comme pour la suite, une position pour laquelle aucune variation n'a été détectée (0 dans Ssens,k) reste toujours à zéro dans Ssgχ *It is possible to generate several artificial lists according to the method described above. These lists can be used when comparing several groups of test and reference cells, especially when the number of test groups and the number of reference groups differ. In general, an artificial dataset can replace any group of cells used during the analyzes described above. 6. Analysis of kinetics or dose / response experiments In the case where several measures of transcription activity are available and obtained from several n + 1 sets of groups, n being an integer. The first group GCO contains ± Q groups GCO ^ to GC0 0 , the second group GC1 contains i] _ groups GCl ^ to GClϋ, the last group GCn contains i n groups GCn ^ to GChi n . A multiple method according to the present invention plans to identify more precisely the genes exhibiting the most significant transcription variations. The groups GC1 to GCn can represent measurements carried out on the same biological system but at different and increasing times (kinetics experiment), or subjected to a stimulus of strictly increasing or decreasing intensity (dose / response experiments). The common characteristic of these two types of experiment is that it is sought for each gk gene whether there has been a significant variation in transcription signal over the entire interval of the independent variable VI (time in kinetics or dose of a product in the case of a dose / response). The values of the independent variable are taken arbitrarily equal to VI = 0.1, ... n. In a first phase of the analysis, all the analyzes concerning the groups for which VI = i and VI = i + 1 are carried out independently, according to the methods described above. For example, one of the analyzes will relate to the GCO and GC1 groups, another to the GC1 and GC2 groups, and the last will relate to the GCn-1 and GCn groups. For each test and for each gene the Pthéor k is determined (° u l es Pthr k s' ϋ there is only one group) and p s k OD 0n selects genes that have undergone an RNA concentration variation -m significant using the selection parameters such as the probability of grouping selection error, the false positive rate or the sensitivity. We then obtain for each gene a sequence of ordered results, S meaning k Ç which indicates for each interval of VI whether the gene has been detected as non-variant or varying positively or negatively, and another sequence of ordered results, S se τ_ k Φ ^ - indicates if the variation is significant. So for the gk gene we could have the sequence s sense, k = + / + 0, -, -, - 7 +, + and the sequence S s g] _ ^ k = 1 / 1,0,0,0, 0,0,0. Note that here as for the following, a position for which no variation has been detected (0 in Ssens, k) always remains at zero in S s gχ *
Ensuite, s'il existe au moins un gène gi pour lequel il y a un zéro à deux positions consécutives de SS(§JL i, sans qu' il y ait un zéro à une des positions correspondantes dans ssens i on effectue indépendamment toutes les analyses concernant les groupes pour lesquels VI=i et VI = i+2, et pour lesquels il existe des gênes comme le gène g , selon les procédés décrits plus haut. Par exemple une des analyses portera sur les groupes GCO et GC2, une autre sur les groupes GC1 et GC3, et la dernière portera sur les groupes GCn-2 et GCn. De même, on sélectionne les gènes ayant subi une variation significative. La liste Ssens n'est pas modifiée. La liste ssél k est complétée de la façon suivante : si une variation significative a été détectée entre les valeurs i et i+2 de VI, et si les positions i et i+1 étaient à zéro à l'étape précédente, alors on change les positions i et i+1 à un. Si une des positions étaient déjà à un, le nouveau résultat n'est pas considéré comme significatif en ce qui concerne la deuxième position. Ainsi la nouvelle suite pour k pourrait être ssél k≈1'1'0'1'1'1-'0'0- Les positions 4,5 et 6 ont été mises à 1, car l'analyse portant sur les groupes correspondant à VI= 3 et VI=5 a abouti à la sélection du gène g , de même queThen, if there exists at least one gene gi for which there is a zero at two consecutive positions of S S ( §JL i, without there being a zero at one of the corresponding positions in s sense i we perform independently all analyzes concerning the groups for which VI = i and VI = i + 2, and for which there are genes such as the g gene, according to the methods described above. For example, one of the analyzes will relate to the GCO and GC2 groups, another to the GC1 and GC3 groups, and the last will relate to the GCn-2 and GCn groups. Likewise, the genes having undergone significant variation are selected. The S sense list is not modified. The list s sel k is completed as follows: if a significant variation has been detected between the values i and i + 2 of VI, and if the positions i and i + 1 were at zero in the previous step, then we changes positions i and i + 1 to one. If one of the positions were already at one, the new result is not considered significant with regard to the second position. Thus the new suite for k could be s Sel k≈ 1 '1' 0 '1' 1 '1 -' 0 '0 - The positions 4,5 and 6 were set to 1, because the analysis of the groups corresponding to VI = 3 and VI = 5 resulted in the selection of the g gene, as well as
1 'analyse portant sur les groupes correspondant à VI= 4 et VI=6.1 analysis on the groups corresponding to VI = 4 and VI = 6.
L'analyse se poursuit aux ordres de degrés supérieurs, tel que 1 'ordre de degré 3 (VI=i et VI=i+3) , etc . tant que c'est nécessaire (existence d'au moins un gène i, ayant une suite de zéro de même degré dans Ssg]_ et aucun zéro dans une des positions correspondantes dans Ssens ) .The analysis continues at the orders of higher degrees, such as the order of degree 3 (VI = i and VI = i + 3), etc. as long as it is necessary (existence of at least one gene i, having a sequence of zero of the same degree in S s g ] _ and no zero in one of the corresponding positions in S sense ).
A la fin du processus d'analyse, on sélectionne tous les gènes ayant au moins une position mise à un dans Ssêχ. Cette procédure permet de filtrer efficacement les gènes qui ont montré une variation significative dans un intervalle de valeurs de VI contiguës. Ces gènes peuvent ensuite être groupés plus finement par une méthode de regroupement.At the end of the analysis process, we select all the genes having at least one position set to one in S s êχ. This procedure effectively filters genes that have shown significant variation over an interval of contiguous IV values. These genes can then be grouped more finely by a grouping method.
On peut effectuer également une sélection supplémentaire et un premier regroupement qualitatif des courbes de variations en fonction de VI, en appliquant la suite Ssgτ_ k sur la suite ssens k de la façon suivante : pour toute position de Ssgι k égale à un, on conserve les valeurs aux positions correspondantes de SgéT^k' et pour toute position de Sg^i k égale à zéro, on met entre parenthèses les valeurs aux positions correspondantes de Ssgχ k* Ainsi Ssgi ]ς=LL, 1, 0, 1,1,1, 0, 0 et ssens,k = +,+,0 -/-'-'+/+ donneront SsenS/k=+.+, (0) ,-,-,-, (+) , (+) .One can also make an additional selection and a first qualitative grouping of the variation curves as a function of VI, by applying the sequence S s gτ_ k on the sequence s direction k as follows: for any position of S s gι k equal to one, we keep the values at the corresponding positions of SgéT ^ k 'and for any position of Sg ^ ik equal to zero, we put in parentheses the values at the positions correspondents of S s gχ k * Thus S s gi] ς = LL, 1, 0, 1,1,1, 0, 0 and s sense, k = +, +, 0 - / -'- '+ / + will give S senS / k = +. +, (0), -, -, -, (+), (+).
Cette représentation permet une sélection supplémentaire sur des critères simples. Par exemple dans une expérience de dose/réponse on peut imposer comme condition supplémentaire que la variation soit monotone. Dans ce cas le gène gk tel que ssens ~k. =+ > +r (0) ,-, -,-,(+), (+) ne serait pas retenu. En revanche le gène gj tel que SsenS/ j=+, +, (+) , (0) , (-) , +, (+) , (+) serait retenu car toutes les variations significatives sont positives. De même, si des arguments biologiques ou autres permettent de penser qu'à partir par exemple de la quatrième valeur de VIThis representation allows an additional selection on simple criteria. For example, in a dose / response experiment, it can be imposed as an additional condition that the variation be monotonic. In this case the gk gene such as s sense ~ k . = + > + r (0), -, -, -, (+), (+) would not be retained. On the other hand, the gj gene such as S senS / j = +, +, (+), (0), (-), +, (+), (+) would be retained because all the significant variations are positive. Likewise, if biological or other arguments suggest that starting, for example, from the fourth value of VI
(marquée par | dans la suite) on doit avoir un changement du sens de variation, l'on serait conduit à conserver le gène 1 tel que Ssens ]_=+,+, (+) , | (-),(-), -, (+) ,- .et à éliminer le gène m tel que Ssensm=-,-, (+) , | (+),(+),-,(-),- .(marked by | in the continuation) one must have a change of the direction of variation, one would be led to preserve the gene 1 such as S direction] _ = +, +, (+), | (-), (-), -, (+), -. and to eliminate the gene m such that S sense m = -, -, (+), | (+), (+), -, (-), -.
Cette représentation . permet aussi de faire un regroupement rapide des profils de signaux de concentration d'ARN-m qui sont comparables. Par exemple l'on regroupera les gènes tels que Sseng n=+, +,(+),(-),(-),-,(+), - et tel que ssens'°=+'+' (+) ' (+) ' (+) '"' (~) ' " SJ^- ont des variations positives significatives aux mêmes positions 1 et 2, et des variations négatives significatives aux même positions 6 et 8.This representation. also allows for rapid pooling of comparable mRNA concentration signal profiles. For example, we will group together genes such as S sen g n = +, +, (+), (-), (-), -, (+), - and such that s meaning '° = + ' + ' ( + ) '( + )' ( + ) '"' ( ~ ) '" S J ^ - there are significant positive variations at the same positions 1 and 2, and significant negative variations at the same positions 6 and 8.
Bien entendu, la présente invention est susceptible de diverses variantes et modifications qui apparaîtront à 1 'homme de l'art. En particulier, le procédé de la présente invention peut s'appliquer à l'analyse des variations du nombre de différentes protéines présentes dans des cellules vivantes.Of course, the present invention is susceptible of various variants and modifications which will appear to one skilled in the art. In particular, the method of the present invention can be applied to the analysis of variations in the number of different proteins present in living cells.
De plus, le procédé d'analyse de la présente invention peut être mis en oeuvre à partir des concentrations d'ARN-m relevées pour chacune des séquences de gène étudiées correspondant à une unité d'hybridation de la puce à ADN utilisée. On étudiera donc non pas les variations de la concentration d'ARN-m relative à un gène mais celle relative à une séquence donnée. En outre, on pourra utiliser une définition des valeurs de variation différente. De même, on pourra prévoir d'autres procédés de normalisation satisfaisants à l'exigence d'uniformité des distributions cumulées de fréquences de tout sous-ensemble de valeurs de variation normalisées. De plus 1 'homme de 1 ' art saura définir le procédé de regroupement optimal permettant d'identifier les gènes présentant les valeurs de variation de concentrations d'ARN-m les plus significatives. In addition, the analysis method of the present invention can be implemented from the concentrations of m-RNA noted for each of the gene sequences studied corresponding to a hybridization unit of the DNA chip used. We will therefore not study the variations in the concentration of mRNA relating to a gene but that relating to a given sequence. In addition, a different definition of variation values can be used. Likewise, other normalization methods can be provided which satisfy the requirement of uniformity of the cumulative frequency distributions of any subset of normalized variation values. In addition, those skilled in the art will be able to define the optimal grouping process making it possible to identify the genes having the most significant values of variation in mRNA concentrations.

Claims

REVENDICATIONS
1. Procédé d'analyse des variations de concentrations d'ARN-messagers obtenus par transcription d'un ensemble de gènes comprenant les étapes suivantes : a) mesurer la concentration d'ARN-messagers pour chacun des gènes dans des cellules dites de référence et reporter les résultats sur une liste de référence (Lref) ; b) mesurer la concentration d'ARN-messagers pour chacun des gènes dans des cellules dites de test et reporter les résultats sur une liste de test (L^est) < ' c) calculer pour chaque gène une valeur de variation1. A method of analyzing variations in concentrations of messenger RNA obtained by transcription of a set of genes comprising the following steps: a) measuring the concentration of messenger RNA for each of the genes in so-called reference cells and transfer the results to a reference list (L re f); b) measure the concentration of messenger RNA for each of the genes in so-called test cells and report the results on a test list (L ^ est) < 'c) calculate a variation value for each gene
(Var ) ' k étant un entier compris entre 1 et n, qui soit une mesure de l'écart entre les concentrations d'ARN-m dudit gène entre la liste de référence (Lref) et la liste de test(Var) 'k being an integer between 1 and n, which is a measure of the difference between the m-RNA concentrations of said gene between the reference list (L re f) and the test list
(Ltest) ; d) classer les gènes dans des premier et second groupes, selon que les gênes présentent des valeurs de variation correspondant respectivement à une hausse ou à une baisse de leurs concentrations d'ARN-m entre la liste de référence et la liste de test ; e) calculer pour chaque gène du second groupe une nouvelle valeur de variation (Vark) Φ-1^ soit une mesure de 1 ' écart entre les concentrations d'ARN-m dudit gène entre la liste de test et la liste de référence. f) calculer pour chaque gène une valeur de variation normalisée (Zk) telle que la distribution cumulée de fréquences d'un sous-ensemble de valeurs de variation normalisées correspondant à des gènes ayant des concentrations d'ARN-m proches soit identique quel que soit le sous-ensemble considéré ; et g) identifier les gènes présentant des variations de concentrations d'ARN-m significatives à partir des valeurs de variation normalisées.( L test); d) classifying the genes into first and second groups, depending on whether the genes have variation values corresponding respectively to an increase or to a decrease in their mRNA concentrations between the reference list and the test list; e) calculate for each gene of the second group a new variation value (Vark) Φ- 1 ^, ie a measurement of the difference between the mRNA concentrations of said gene between the test list and the reference list. f) calculate for each gene a normalized variation value (Zk) such that the cumulative frequency distribution of a subset of normalized variation values corresponding to genes with close m-RNA concentrations is identical whatever the subset considered; and g) identify genes exhibiting significant variations in mRNA concentrations from the normalized variation values.
2. Procédé selon la revendication 1, dans lequel l'étape d' identification des gènes consiste à sélectionner les gènes dont la valeur de variation normalisée est supérieure à une valeur de seuil déterminée (Zseui_) .2. Method according to claim 1, in which the step of identifying the genes consists in selecting the genes whose standardized variation value is greater than a threshold value (Z i_ seu).
3. Procédé selon la revendication 2, dans lequel la détermination de la valeur de seuil (Zseuiχ) comprend les étapes suivantes : h) mesurer la concentration d'ARN-m pour chacun des gênes de deux groupes identiques de cellules dites d'étalonnage et reporter les résultats respectifs sur des première (Lg^al l) et deuxième (Lgtal 2) listes d'étalonnage ; i) calculer pour chaque" gène une valeur de variation d'étalonnage ( aretai k) selon le procédé des étapes c) à e) à partir des première (Lgtal l) et deuxième (Lg al 2) listes d' étalonnage ; j ) calculer pour chaque gène une valeur de variation d'étalonnage normalisée (Zref k) selon le procédé de l'étape f) ; k) construire la distribution cumulée de fréquences, dite d'étalonnage, des valeurs de variation d'étalonnage normalisées associant à toute valeur de variation d'étalonnage normalisée (Zref k) une probabilité, dite probabilité d'erreur de sélection (Pseuil k) ' pour qu' il existe des valeurs de variation d'étalonnage normalisées supérieures à la valeur de variation normalisée considérée ;3. The method of claim 2, wherein determining the threshold value (Z seu iχ) comprises the following steps: h) measuring the concentration of mRNA for each of the two identical groups of genes of cells known to calibration and report the respective results on the first (Lg ^ al l) and second (Lgtal 2) calibration lists; i) calculate for each " gene a calibration variation value (ar e t a ik) according to the method of steps c) to e) from the first (Lgtal l) e t second (Lg al 2) lists calibration; j) calculate for each gene a normalized calibration variation value (Z re fk) according to the method of step f); k) construct the cumulative frequency distribution, called calibration, of the variation values d 'normalized calibration associating with any value of normalized calibration variation (Z re fk) a probability, called probability of selection error (Pseuil k)' so that there are values of normalized calibration variation greater than the value normalized variation considered;
1) choisir la probabilité d'erreur de sélection souhaitée (pSeuil) /" et m) définir la valeur de seuil ( seuϋ) correspondant à la probabilité d'erreur de sélection souhaitée (pSeuil) a l'aide de la distribution cumulée de fréquences d'étalonnage.1) selecting the desired probability of selection error (S euil) / "and m) determining the threshold value (seu ϋ) corresponding to the desired probability of selection error (S euil) has the idea has of the cumulative distribution of calibration frequencies.
4. Procédé selon la revendication 3, dans lequel l'étape consistant à choisir la probabilité d'erreur de sélection (Pseuil) comprend les étapes suivantes :4. Method according to claim 3, in which the step consisting in choosing the probability of selection error (Pseuil) comprises the following steps:
- définir le taux de faux positif maximal acceptable pour l'identification de gènes ; et identifier la probabilité d'erreur de sélection Pseuil et l valeur de seuil Zseu _ maximales permettant d'obtenir un taux de faux positif acceptable, le taux de faux positif TFP étant égal à :- define the maximum acceptable false positive rate for the identification of genes; and identifying the probability of Pthr selection error and the threshold value Z seu allowing maximum _ obtain an acceptable false positive rate, the TFP false positive rate being equal to:
TFP = - pseuil * nTFP = - pseuil * n
(nombre de gènes pour lesquels Zk > Zseml) où n est le nombre de gênes considérés. (number of genes for which Zk> Zseml) where n is the number of genes considered.
5. Procédé selon la revendication 1, dans lequel l'étape d'identification des gènes consiste à sélectionner les gènes dont la valeur de variation normalisée est supérieure à une première valeur de seuil pour les gènes du premier groupe et supérieure à une seconde valeur de seuil pour les gènes du second groupe".5. Method according to claim 1, in which the step of identifying the genes consists in selecting the genes whose normalized variation value is greater than a first threshold value for the genes of the first group and greater than a second value of threshold for genes in the second group " .
6. Procédé selon les revendications 3 et 5, dans lequel la détermination des première et seconde valeurs de seuil consiste à choisir des première et seconde probabilités d'erreur de sélection souhaitées respectivement pour les premier et second groupes et à définir les première et seconde valeurs de seuil correspondantes à l'aide de la distribution cumulée de fréquences d'étalonnage.6. Method according to claims 3 and 5, in which the determination of the first and second threshold values consists in choosing first and second probabilities of selection error desired respectively for the first and second groups and in defining the first and second values threshold values using the cumulative distribution of calibration frequencies.
7. Procédé selon la revendication 6 pour lequel le choix des première et seconde valeurs de seuil consiste à effectuer le procédé de la revendication 4 successivement pour le premier et le second groupe.7. The method of claim 6 for which the choice of the first and second threshold values consists in carrying out the method of claim 4 successively for the first and the second group.
8. Procédé d'analyse des variations de concentrations d'ARN-m d'un ensemble de gènes à partir de m groupes identiques de cellules dites de référence (GR.χ à GRm) et q groupes identiques de cellules dites de test (Glχ à GTg) , le procédé comprenant les étapes suivantes : a2) mesurer, pour chaque groupe de référence, la concentration d'ARN-messagers pour chacun des gènes et reporter les résultats sur m listes de référence (Lref à Lref2) ; b2) mesurer, pour chaque groupe de test, la concentration d'ARN-messagers pour chacun des gènes et reporter les résultats sur q listes de test (Ltestχ à Ltest2) '* - pour tout ou partie des combinaisons de groupes (C ^j) comprenant un groupe de référence (GR ) et un groupe de test (GTj ) , réaliser les étapes c2 à 12 suivantes :8. Method for analyzing variations in m-RNA concentrations of a set of genes from m identical groups of so-called reference cells (GR.χ to GR m ) and q identical groups of so-called test cells ( Glχ to GTg), the method comprising the following steps: a2) measuring, for each reference group, the concentration of messenger RNA for each of the genes and plotting the results on m reference lists (L re f to L re f2 ); b2) measure, for each test group, the concentration of messenger RNA for each of the genes and report the results on q test lists (Lt es tχ to Ltest2) ' * - for all or part of the combinations of groups (C ^ j) comprising a reference group (GR) and a test group (GTj), carry out steps c2 to 12 as follows:
-- c2) calculer pour chaque gène une valeur de variation (Vark) ' ^ étant un entier compris entre 1 et n, qui soit une mesure de l'écart entre les concentrations d' RN-m dudit gène entre la liste de référence (Lrefi) et la liste de test (Ltestj) ;- c2) calculate for each gene a variation value (Vark) '^ being an integer between 1 and n, which is a measure of the difference between the RN-m concentrations of said gene between the reference list ( L re fi) and the test list (L test j);
-- d2) classer les gènes dans des premier et second groupes, selon que les gènes présentent des valeurs de variation correspondant respectivement à une hausse ou à une baisse de leurs concentrations d'ARN-m entre la liste de référence (Lre i) et la liste de test (Ltestj) '- d2) classify the genes into first and second groups, according to whether the genes have variation values corresponding respectively to an increase or to a decrease in their mRNA concentrations between the reference list (L re i) and the test list (Ltestj) '
-- e2) calculer pour chaque gène du second groupe une nouvelle valeur de variation (Vax±f j k) Ç[u soit une mesure de l'écart entre les concentrations d'ARN-m dudit gène entre la liste de test (Ltest ) et la liste de référence (Lrefi) ;- e2) calculate for each gene of the second group a new variation value (Vax ± f jk) Ç [u is a measure of the difference between the mRNA concentrations of said gene between the test list (Ltest) and the reference list (L re fi);
-- f2) calculer pour chaque gène une ' valeur de variation normalisée (Z± k) telle que la distribution cumulée de fréquences d'un sous-ensemble de valeurs de variation normalisées correspondant à des gènes ayant des concentrations d'ARN-m proches soit identique quel que soit le sous-ensemble considéré ;- f2) calculating for each gene a normalized variation value (± Z k) such that the cumulative frequency distribution of a sub-set of standard variation values corresponding to genes having concentrations of mRNA near is identical regardless of the subset considered;
-- h.2) choisir des premier et second groupes d'étalonnage (Ggtal, i i j et GR^^al 2,i,j) p is tous deux parmi les m groupes de référence ou tous deux parmi les q groupes de test, l'un des groupes étant éventuellement le groupe de référence (GRi) ou le groupe de test (GTj ) de la combinaison de groupes considérée ; -- i2) calculer pour chaque gène une valeur de variation d'étalonnage (Variai, i, j ,k) selon le. procédé des étapes c2) à e2) à partir de première (T->êtal, l i,k) et deuxième- h.2) choose first and second calibration groups (Ggtal, iij and GR ^^ al 2, i, j) p is both among the m reference groups or both among the q test groups, one of the groups possibly being the reference group (GRi) or the test group (GTj) of the combination of groups considered; - i2) calculate for each gene a calibration variation value (Variai, i, j, k) according to. process of steps c2) to e2) from first (T-> éttal, li, k) and second
(Létal, 2, j ,k) listes d'étalonnage correspondant aux premiers et seconds groupes d'étalonnage ; -- j2) calculer pour chaque gène une valeur de variation d'étalonnage normalisée ( ref,i,j,k) selon le procédé de l'étape f2) ;( L cal, 2, j, k) calibration lists corresponding to the first and second calibration groups; - j2) calculate for each gene a normalized calibration variation value (ref, i, j, k) according to the method of step f2);
-- k2) .construire la distribution cumulée de fréquences, dite d'étalonnage, des valeurs de variation d'étalonnage normalisées associant à toute valeur de variation d'étalonnage normalisée (Zref i,j, ) uae probabilité, dite probabilité d'erreur de sélection (Pseuil,i,j k) P°ur qu'il existe des valeurs de variation d'étalonnage normalisées supérieures à la valeur de variation normalisée considérée ;- k2) .construct the cumulative frequency distribution, called calibration, of the normalized calibration variation values associating with any normalized calibration variation value (Z re fi, j,) uae probability, called probability of selection error (Pseuil, i, jk) So that there are normalized calibration variation values greater than the normalized variation value considered;
-- 12) définir pour chaque gène une valeur de probabilité, dite probabilité d'erreur (p j,k)' correspondant à la valeur de variation normalisée de ce gêne ( i ^ ) a partir de la distribution cumulée de fréquences d'étalonnage ; - m2) calculer pour chaque gène, une valeur de regroupement (Rk) selon un procédé de regroupement tenant compte de 1 ' ensemble des probabilités d' erreur (pi, j , k) dudit gène obtenues pour chacune des combinaisons (ci,j) de groupes de référence et de test choisis ; et - n2) identifier comme présentant des variations de concentrations d'ARN-m significatives les gènes dont la valeur de regroupement est supérieure à une valeur de regroupement de seuil (RSeuil) déterminée.- 12) define for each gene a probability value, said error probability (p j, k) corresponding to the normalized change in value of this gene (i ^) from the cumulative distribution calibration frequencies; - m2) calculate for each gene, a grouping value (Rk) according to a grouping method taking into account the set of error probabilities (pi, j, k) of said gene obtained for each of the combinations ( c i, j ) selected reference and test groups; and - n2) identifying as having significant variations in mRNA concentrations the genes whose grouping value is greater than a determined threshold grouping value (R S euil).
9. Procédé selon la revendication 8, dans lequel les premier et second groupes d'étalonnage (Ggta]_ i et GRg^a.1,2) sont identiques quelque soit la combinaison de groupes considérée .9. The method of claim 8, wherein the first and second calibration groups (Ggt a ] _ i and GRg ^ a . 1,2) are identical regardless of the combination of groups considered.
10. Procédé selon la revendication 8 ou 9, dans lequel la détermination de la valeur de regroupement de seuil (Rseuil) comprend les étapes suivantes : calculer pour chaque gène, une valeur de regroupement d'étalonnage (Rêtal,k) selon le procédé de regroupement à partir des probabilités d'erreur d'étalonnage (Pétal,k) dudit gène obtenues à partir des distributions cumulées de fréquences d'étalonnage calculées pour chaque combinaison de groupes (Cifj) choisies ;10. The method of claim 8 or 9, wherein the determination of the threshold grouping value ( R threshold) comprises the following steps: calculating for each gene, a calibration grouping value (Rêtal, k) according to the method of regrouping from the calibration error probabilities (Petal, k) of said gene obtained from the distributions cumulative calibration frequencies calculated for each combination of groups (Ci f j) chosen;
- construire la distribution cumulée de fréquences, dite de regroupement, à partir des valeurs de regroupement d'étalonnage en associant à toute valeur de regroupement d'étalonnage une probabilité, dite probabilité d'erreur de regroupement d'étalonnage, pour qu'il existe des valeurs de regroupement d'étalonnage supérieures à la valeur de regroupement d'étalonnage considérée ; - choisir la probabilité d'erreur de regroupement de sélection souhaitée (p2seuil) ; et- construct the cumulative frequency distribution, called grouping, from the calibration grouping values by associating with any calibration grouping value a probability, known as the calibration grouping error probability, so that there is calibration pool values greater than the relevant calibration pool value; - select the desired probability of selection of grouping error (p2 seu it); and
- définir la valeur de regroupement de seuil (RSeuil) correspondant à la probabilité d'erreur de regroupement de sélection (p2seuil) a l'aide de la distribution cumulée de fréquences de regroupement.- set the threshold grouping value (R S euil) corresponding to the probability of selection of grouping error (p2seuil) by means of the cumulative distribution grouping frequencies.
11. Procédé selon la revendication 10, dans lequel l'étape consistant à choisir une probabilité d'erreur de regroupement de sélection (P2seuil) comprend les étapes suivantes : - définir le taux de faux positif maximal acceptable pour l'identification de gènes ; et11. The method of claim 10, wherein the step of choosing a probability of selection pooling error (P 2 threshold) comprises the following steps: - defining the maximum acceptable false positive rate for the identification of genes ; and
- identifier la probabilité d'erreur de regroupement de sélection P2seuil et la valeur de regroupement de seuil zseuil maximales permettant d'obtenir un taux de faux positif acceptable, le taux de faux positif TFP étant égal à- identify the probability of selection grouping error P2seuil and the maximum threshold z threshold grouping value allowing an acceptable false positive rate to be obtained, the TFP false positive rate being equal to
mτ^ p2seuil * n mτ ^ p2threshold * n
TFPTFP
(nombre de gènes pour lesquels Rk≥Rsemi) où n est le nombre de gènes considérés.(number of genes for which Rk≥Rsemi) where n is the number of genes considered.
12. Procédé selon la revendication 8, dans lequel le procédé de regroupement comprend les étapes suivantes : - répartir les combinaisons de groupes dans différents ensembles ; calculer pour chaque ensemble une valeur intermédiaire pour chaque gène égale au produit ou à la somme des probabilités d'erreur (Pi 4 ) du gène obtenues pour chacune des combinaisons de groupes de 1 ' ensemble ;12. The method of claim 8, wherein the grouping method comprises the following steps: - distributing the combinations of groups in different sets; calculate for each set an intermediate value for each gene equal to the product or the sum probabilities of error (Pi 4) of the gene obtained for each of the combinations of groups of the set;
- calculer pour chaque gène une valeur de regroupement (Rk) égale à la moyenne des valeurs intermédiaires calculées pour chaque ensemble.- calculate for each gene a grouping value (Rk) equal to the average of the intermediate values calculated for each set.
13. Procédé selon la revendication 1 ou 8, dans lequel la valeur de variation (Vark) d'un gène est égale à la différence entre les concentrations d'ARN-m dudit gène pour des cellules différentes. 13. The method of claim 1 or 8, wherein the variation value (Vark) of a gene is equal to the difference between the concentrations of m-RNA of said gene for different cells.
14. Procédé selon la revendication 1 ou 8, dans lequel la valeur de variation (Vark) d'un gène est égale au rapport des concentrations d'ARN-m dudit gène pour des, cellules différentes.14. The method of claim 1 or 8, wherein the variation value (Vark) of a gene is equal to the ratio of the concentrations of m-RNA of said gene for different cells.
15. Procédé selon la revendication 1 ou 8 comprenant pour chaque liste les étapes suivantes : - classer les gènes par ordre croissant de leurs concentrations d'ARN-m ;15. The method of claim 1 or 8 comprising for each list the following steps: - classifying the genes in ascending order of their concentrations of mRNA;
- attribuer une valeur de rang nulle à tous les gènes dont les concentrations d'ARN-m sont inférieures ou égales à une valeur de concentration seuil ; - attribuer une valeur de rang unique à chacun des ni autres gènes dont la concentration d'ARN-m est supérieure à la valeur de concentration seuil, la valeur de rang étant comprise entre 1 et ni, le rang R d'un gène étant d'autant plus élevé que la concentration d'ARN-m dudit gène est élevée ; et - normaliser les valeurs de rangs sur une plage de 0 à w, w étant un entier positif, le rang r d'un gène étant désormais égal à (R* ) /n où n est le nombre de gènes étudiés.- assign a zero rank value to all genes whose mRNA concentrations are less than or equal to a threshold concentration value; - assign a unique rank value to each of the other genes whose mRNA concentration is greater than the threshold concentration value, the rank value being between 1 and ni, the rank R of a gene being d 'the higher the higher the m-RNA concentration of said gene; and - normalize the values of ranks over a range from 0 to w, w being a positive integer, the rank r of a gene now being equal to (R *) / n where n is the number of genes studied.
16. Procédé selon la revendication 15, dans lequel la valeur de variation d'un gène est égale à la différence entre les rangs du gène pour les deux listes analysées.16. The method of claim 15, wherein the variation value of a gene is equal to the difference between the ranks of the gene for the two lists analyzed.
17. Procédé selon la revendication 1 ou 8 dans lequel la valeur de variation normalisée Z de chaque gène est obtenue selon la formule suivante : _^Var - μ(g) σ(g) où Var est la valeur de variation dudit gène et μ (g) et σ (g) sont respectivement la moyenne et l'écart type d'un ensemble de valeurs de variation correspondant à un ensemble de gènes ayant des concentrations d'ARN-m proches de la concentration d'ARN-m dudit gène.17. The method of claim 1 or 8 wherein the normalized variation value Z of each gene is obtained according to the following formula: _ ^ Var - μ (g) σ (g) where Var is the variation value of said gene and μ (g) and σ (g) are respectively the mean and the standard deviation of a set of variation values corresponding to a set of genes having concentrations of mRNA close to the concentration of mRNA of said gene.
18. Procédé selon la revendication 1 ou 8, dans lequel la valeur de variation normalisée est calculée selon les étapes suivantes :18. Method according to claim 1 or 8, in which the normalized variation value is calculated according to the following steps:
- attribuer une valeur de rang r unique à chaque gène égale à la valeur de rang de la liste de référence pour les gènes du premier groupe et égale à la valeur de rang de la liste de test pour les gènes du second groupe .- assign a unique rank r value to each gene equal to the rank value of the reference list for genes in the first group and equal to the rank value of the test list for genes in the second group.
- calculer la valeur de variation normalisée Z du gène selon la formule suivante :- calculate the normalized variation value Z of the gene according to the following formula:
où Var est la variation dudit gène, μ (r) et σ (r) sont respectivement la moyenne et 1 ' écart type d 'un ensemble de valeurs de variation correspondant à un ensemble de gènes ayant des rangs proches du rang r dudit gène. where Var is the variation of said gene, μ (r) and σ (r) are respectively the mean and the standard deviation of a set of variation values corresponding to a set of genes having ranks close to the rank r of said gene.
19. Procédé selon la revendication 3 ou 8, dans lequel les valeurs de variation d'étalonnage normalisées (Zref k) sont calculées selon le procédé suivant :19. The method of claim 3 or 8, wherein the normalized calibration variation values (Z re fk) are calculated according to the following method:
- attribuer une valeur de rang r unique à chaque gène égale à la valeur de rang de la liste de référence pour les gènes du premier groupe et égale à la valeur de rang de la liste de test pour les gènes du second groupe. calculer la valeur de variation d'étalonnage normalisée Z du gène selon la formule suivante :- assign a unique rank r value to each gene equal to the rank value of the reference list for genes in the first group and equal to the rank value of the test list for genes in the second group. calculate the normalized calibration variation value Z of the gene according to the following formula:
où Var est la variation d'étalonnage dudit gène, μ (r) et σ (r) sont respectivement la moyenne et l'écart type d'un ensemble de valeurs de variation d'étalonnage correspondant à un ensemble de gènes ayant des rangs proches du rang r dudit gène et dans lequel les valeurs de variation normalisées entre une liste de test et une liste de référence sont calculées selon la formule suivante : where Var is the calibration variation of said gene, μ (r) and σ (r) are respectively the mean and the standard deviation of a set of calibration variation values corresponding to a set of genes having ranks close to the r rank of said gene and in which the normalized variation values between a test list and a reference list are calculated according to the following formula:
_ Var - μétai(r) σétai(r) où les fonctions étal(r) et σétal(r) sont obtenues par lissage des moyennes μ (r) et des écarts types σ (r) calculés préalablement à partir des valeurs de variation d'étalonnage. _ Var - μ prop (r) σ prop (r) where the functions cal ( r ) e t σ cal ( r ) its t obtained by smoothing the means μ (r) and standard deviations σ (r) calculated beforehand from the values calibration variation.
20. Procédé d'analyse des variations de concentrations d'ARN-m d'un ensemble de gènes à partir de m groupes identiques de cellules dites de référence (GR^ à GRm) et q groupes identiques de cellules dites de test (GT^ à GTg) , le procédé comprenant . les étapes suivantes : - mesurer, pour chaque groupe de référence, la concentration d'ARN-messagers pour chacun des gènes et reporter les résultats sur m listes de référence (Lref à Lref2) ; mesurer, pour chaque groupe de test, la concentration d'ARN-messagers pour chacun des gènes et reporter les résultats sur q listes de test ( ^gg^i à Lj-est2) ;20. Method for analyzing variations in m-RNA concentrations of a set of genes from m identical groups of so-called reference cells (GR ^ to GR m ) and q identical groups of so-called test cells (GT ^ to GTg), the method comprising. the following steps: - measure, for each reference group, the concentration of messenger RNA for each of the genes and report the results on m reference lists (L re f to L re f2); measure, for each test group, the concentration of messenger RNA for each of the genes and report the results on q test lists (^ gg ^ i to Lj- es t2);
- définir pour chacune des listes une valeur de rang pour chaque gène selon le procédé comprenant les quatre étapes suivantes :- define for each of the lists a rank value for each gene according to the process comprising the following four steps:
-- classer les gènes par ordre croissant de leurs concentrations d'ARN-m ;- classify the genes in ascending order of their mRNA concentrations;
-- attribuer une valeur de rang nulle à tous les gènes dont les concentrations d'ARN-m sont inférieures ou égales à une valeur de concentration seuil ;- assign a zero rank value to all genes whose mRNA concentrations are less than or equal to a threshold concentration value;
-- attribuer une valeur de rang unique à chacun des ni autres gènes dont la concentration d' RN-m est supérieure à la valeur de concentration seuil, la valeur de rang étant comprise entre 1 et ni, le rang R d'un gène étant d'autant plus élevé que la concentration d'ARN-m dudit gène est élevée ; et -- normaliser les valeurs de rangs sur une plage de 0 à w, w étant un entier positif, le rang r d'un gène étant désormais égal à (R* ) /n où n est le nombre de gènes étudiés- assign a unique rank value to each of the other genes whose RN-m concentration is greater than the threshold concentration value, the rank value being between 1 and ni, the R rank of a gene being the higher the higher the m-RNA concentration of said gene; and - normalize the values of ranks over a range from 0 to w, w being a positive integer, the rank r of a gene now being equal to (R *) / n where n is the number of genes studied
- définir une liste globale de référence associant à chaque gène un rang unique égal à la moyenne de ses rangs dans les listes de référence ;- define a global reference list associating with each gene a unique rank equal to the average of its ranks in the reference lists;
- définir une liste globale de test associant à chaque gène un rang unique égal à la moyenne de ses rangs dans les listes de test ; - calculer pour chaque gène une valeur de variation- define a global test list associating each gene with a unique rank equal to the average of its ranks in the test lists; - calculate for each gene a variation value
(Var ) égale à la différence entre le rang du gène pour la liste globale de référence et le rang du gène pour la liste globale de test ; classer les gênes dans des premier et second groupes, selon que les gènes présentent des valeurs de variation correspondant respectivement à une hausse ou à une baisse de leurs rangs entre la liste globale de référence et la liste globale de test ;(Var) equal to the difference between the rank of the gene for the global reference list and the rank of the gene for the global test list; classify the genes into first and second groups, according to whether the genes have variation values corresponding respectively to an increase or a decrease in their ranks between the global reference list and the global test list;
- calculer pour chaque gène du second groupe une nouvelle valeur de variation (Vark) égale à la différence entre le rang du gêne pour la liste globale de test et le rang du gène pour la liste globale de référence ;- calculate for each gene of the second group a new variation value (Vark) equal to the difference between the rank of the gene for the global test list and the rank of the gene for the global reference list;
- calculer pour chaque gène une valeur de variation normalisée (Zk) selon le procédé comprenant les deux étapes suivantes :- calculate for each gene a normalized variation value (Zk) according to the process comprising the following two steps:
-- attribuer une valeur de rang r unique à chaque gène égale à la valeur de rang de la liste de référence pour les gènes du premier groupe et égale à la valeur de rang de la liste de test pour les gènes du second groupe. -- calculer la valeur de variation normalisée Zk du gène selon la formule suivante :- assign a unique rank r value to each gene equal to the rank value of the reference list for genes in the first group and equal to the rank value of the test list for genes in the second group. - calculate the normalized variation value Zk of the gene according to the following formula:
où Var est la variation dudit gène, μ (r) et σ (r) sont respectivement la moyenne et 1 ' écart type d'un ensemble de valeurs de variation correspondant à un ensemble de gènes ayant - des rangs proches du rang r dudit gène ; et - identifier les gènes présentant des variations de concentrations d'ARN-m significatives à partir des valeurs de variation normalisées. where Var is the variation of said gene, μ (r) and σ (r) are respectively the mean and the standard deviation of a set of variation values corresponding to a set of genes having - ranks close to the rank r of said gene ; and - identify the genes exhibiting significant variations in mRNA concentrations from the normalized variation values.
21. Procédé selon n'importe laquelle des revendications précédentes dans lequel une ou plusieurs listes de référence, de test ou d'étalonnage sont obtenues selon un procédé de création d'un jeu de données artificiel comprenant les étapes suivantes : mettre en oeuvre les étapes h) à k) de la revendication 3 permettant d'obtenir une distribution cumulée de fréquences d'étalonnage ; - définir pour chaque gène une valeur de variation normalisée en faisant un tirage aléatoire à partir de la distribution cumulée de fréquences d'étalonnage, l'ensemble des valeurs de variation normalisées ainsi définies ayant une distribution cumulée de fréquences identique à celle d' étalonnage. 21. Method according to any one of the preceding claims, in which one or more reference, test or calibration lists are obtained according to a method for creating an artificial data set comprising the following steps: implementing the steps h) to k) of claim 3 making it possible to obtain a cumulative distribution of calibration frequencies; defining for each gene a normalized variation value by making a random draw from the cumulative distribution of calibration frequencies, all the normalized variation values thus defined having a cumulative frequency distribution identical to that of calibration.
EP03756043A 2002-05-31 2003-06-02 Method for analysis of transcription variations in a set of genes Withdrawn EP1550069A1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0206749 2002-05-31
FR0206749A FR2840323B1 (en) 2002-05-31 2002-05-31 METHOD OF ANALYZING TRANSCRIPTION VARIATIONS IN A GENE SET
PCT/FR2003/001655 WO2003102849A1 (en) 2002-05-31 2003-06-02 Method for analysis of transcription variations in a set of genes

Publications (1)

Publication Number Publication Date
EP1550069A1 true EP1550069A1 (en) 2005-07-06

Family

ID=29558893

Family Applications (1)

Application Number Title Priority Date Filing Date
EP03756043A Withdrawn EP1550069A1 (en) 2002-05-31 2003-06-02 Method for analysis of transcription variations in a set of genes

Country Status (5)

Country Link
US (1) US20050255471A1 (en)
EP (1) EP1550069A1 (en)
AU (1) AU2003255623A1 (en)
FR (1) FR2840323B1 (en)
WO (1) WO2003102849A1 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0880598A4 (en) * 1996-01-23 2005-02-23 Affymetrix Inc Nucleic acid analysis techniques
JP2002514804A (en) * 1998-05-12 2002-05-21 ロゼッタ インファーマティクス, インコーポレーテッド Numericalization method, system and apparatus for gene expression analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO03102849A1 *

Also Published As

Publication number Publication date
WO2003102849A1 (en) 2003-12-11
FR2840323A1 (en) 2003-12-05
WO2003102849A9 (en) 2004-04-22
FR2840323B1 (en) 2006-07-07
AU2003255623A1 (en) 2003-12-19
US20050255471A1 (en) 2005-11-17

Similar Documents

Publication Publication Date Title
Rigaill et al. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis
EP3028202B1 (en) Method and device for analysing a biological sample
CN103154265A (en) Use of nanopore arrays for multiplex sequencing of nucleic acids
CN102918166A (en) Tools and method for nanopores unzipping-dependent nucleic acid sequencing
EP0552575B1 (en) Procedure of polytomic segmentation
US20230259588A1 (en) Inter-cluster intensity variation correction and base calling
Lu et al. The origin and evolution of a distinct mechanism of transcription initiation in yeasts
Pigani et al. Classification of red wines by chemometric analysis of voltammetric signals from PEDOT-modified electrodes
EP1244912B1 (en) Methods for screening or evaluating the performance of a set of biological agents in living target cells and their uses
Garry et al. Bayesian counting of photobleaching steps with physical priors
WO2004001673A2 (en) Image analysis method for measuring the signal on biochips
EP1550069A1 (en) Method for analysis of transcription variations in a set of genes
WO2015180972A1 (en) Method of identification of a relationship between biological elements
JP2010512777A (en) Correction method for processing the results of transcriptome experiments obtained by differential analysis
EP3879536A1 (en) Molecular technology for detecting a genomic sequence in the genome of a bacterium
EP2952888B1 (en) Size marker and method for controlling the resolution of an electropherogram
EP3227813B1 (en) Method for estimating the probe-target affinity of a dna chip and method for manufacturing a dna chip
EP3405899B1 (en) Process for classifying a biological sample
WO2020242603A1 (en) Methods and usage for quantitative evaluation of clonal amplified products and sequencing qualities
FR2861406A1 (en) Grouping genes of a given cellular type, in a variety of biological environments, comprises measuring messenger RNA concentrations in each setting to give comparison tables for classification
Ke et al. High-Throughput DNA melt measurements enable improved models of DNA folding thermodynamics
Ng MATLAB software suite that process raw RNA-seq transcriptome dataset on a personal computer
Lun et al. Package ‘scran’
Andrews et al. Individual yeast cells signal at different levels but each with good precision
Vivier et al. Seuil de décision et limite de détection: estimation, interprétation et optimisation. 2e partie: application aux spectres alpha uranium urinaire

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20041201

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL LT LV MK

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20061019

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20100105