EP3230747B1 - Characterization and reproduction of an expert judgement for a binary classification - Google Patents
Characterization and reproduction of an expert judgement for a binary classification Download PDFInfo
- Publication number
- EP3230747B1 EP3230747B1 EP15818011.7A EP15818011A EP3230747B1 EP 3230747 B1 EP3230747 B1 EP 3230747B1 EP 15818011 A EP15818011 A EP 15818011A EP 3230747 B1 EP3230747 B1 EP 3230747B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- sample
- cells
- determining
- marker
- reference sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012512 characterization method Methods 0.000 title 1
- 239000000523 sample Substances 0.000 claims description 98
- 238000000034 method Methods 0.000 claims description 72
- 239000013074 reference sample Substances 0.000 claims description 67
- 239000003550 marker Substances 0.000 claims description 65
- 238000012360 testing method Methods 0.000 claims description 37
- 230000014509 gene expression Effects 0.000 claims description 31
- 238000009826 distribution Methods 0.000 claims description 17
- 238000005315 distribution function Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000009499 grossing Methods 0.000 claims description 10
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 210000004027 cell Anatomy 0.000 description 141
- 238000005259 measurement Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 102000004127 Cytokines Human genes 0.000 description 6
- 108090000695 Cytokines Proteins 0.000 description 6
- 239000000427 antigen Substances 0.000 description 6
- 102000036639 antigens Human genes 0.000 description 6
- 108091007433 antigens Proteins 0.000 description 6
- 239000007850 fluorescent dye Substances 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 241000894006 Bacteria Species 0.000 description 4
- 241000700605 Viruses Species 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011534 incubation Methods 0.000 description 4
- 230000003834 intracellular effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 208000000659 Autoimmune lymphoproliferative syndrome Diseases 0.000 description 2
- 240000008042 Zea mays Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 238000000684 flow cytometry Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000010186 staining Methods 0.000 description 2
- IKOKHHBZFDFMJW-UHFFFAOYSA-N 2-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]-3-(2-morpholin-4-ylethoxy)pyrazol-1-yl]-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C=1C(=NN(C=1)CC(=O)N1CC2=C(CC1)NN=N2)OCCN1CCOCC1 IKOKHHBZFDFMJW-UHFFFAOYSA-N 0.000 description 1
- 102000004288 CCR6 Receptors Human genes 0.000 description 1
- 108010017079 CCR6 Receptors Proteins 0.000 description 1
- 208000004332 Evans syndrome Diseases 0.000 description 1
- 241000135309 Processus Species 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 230000005735 apoptotic response Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 210000005004 lymphoid follicle Anatomy 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/10—Investigating individual particles
- G01N15/14—Optical investigation techniques, e.g. flow cytometry
- G01N15/1456—Optical investigation techniques, e.g. flow cytometry without spatial resolution of the texture or inner structure of the particle, e.g. processing of pulse signals
- G01N15/1459—Optical investigation techniques, e.g. flow cytometry without spatial resolution of the texture or inner structure of the particle, e.g. processing of pulse signals the analysis being performed on a sample stream
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/64—Fluorescence; Phosphorescence
- G01N21/6428—Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes"
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/10—Investigating individual particles
- G01N2015/1006—Investigating individual particles for cytology
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/10—Investigating individual particles
- G01N15/14—Optical investigation techniques, e.g. flow cytometry
- G01N2015/1402—Data analysis by thresholding or gating operations performed on the acquired signals or stored data
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/10—Investigating individual particles
- G01N15/14—Optical investigation techniques, e.g. flow cytometry
- G01N2015/1488—Methods for deciding
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/64—Fluorescence; Phosphorescence
- G01N21/6428—Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes"
- G01N2021/6439—Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes" with indicators, stains, dyes, tags, labels, marks
Definitions
- the present application concerns the field of analysis by flow cytometry, and more particularly an automated analysis method for evaluating the quantity and the type of cells responding to one or more specific marker(s).
- this method is designed for intracellular cytokine labeling tests or “Intracellular Cytokine Staining” (ICS).
- This type of test is usually performed on blood samples incubated with antigens ( ⁇ ) derived from viruses, bacteria or cancer cells. After this incubation, the cells (Ce) capable of recognizing antigens ( ⁇ ), begin to produce different molecules (Mo) (usually cytokines) which are detected by means of antibodies ( ⁇ C). Each antibody ( ⁇ C) is specific to a given molecule (Mo) and is coupled to a given fluorescent probe (Sf).
- This mechanism is schematized on the figure 1 .
- a fluid current and a laser beam are the main components of a flow cytometer, an instrument capable of reading the fluorescence associated with each cell. Flow cytometers today can detect up to eighteen fluorescent probes per cell.
- An antibody coupled to a fluorescent probe thus forms a marker, denoted (Mj), for a molecule corresponding to a given antigen.
- a cell In ICS, a cell (Ce) is declared positive if it has produced in a “detectable” quantity, that is to say in a quantity greater than a predetermined threshold, at least one molecule (Mo) of interest.
- All the data of a sample to be analyzed can indeed be represent in the form of a cloud of points, in a multidimensional space, of dimension given by the number of markers. Each point corresponds to a cell and is composed of the expressions of all the markers for this cell.
- the user that is to say generally the expert, visualizes two-dimensional sections of one of the markers (Mj) compared to another (Mj') in this multidimensional space and refers to a sample called " reference” (i.e. a sample of known negatives), before incubation, in which all the cells are negative.
- the expert then manually draws selection intervals around what he judges to be positive cells, i.e. which stand out visually from the cloud of points along one or the other of the 2 axes , and therefore one or the other of the 2 markers represented. This is for example represented by the dotted outline on the figure 2 .
- a disadvantage of this procedure is that it is subjective and makes results from different users or laboratories difficult to compare. In addition, such a procedure is difficult to reproduce.
- the present application aims to propose an automated analysis method which makes it possible in particular to make the analyzes of the fluorescence responses obtained by flow cytometry robust and reproducible.
- a positive cell is therefore a cell considered to have reacted to at least one of the markers.
- the correlation between the rate ( ⁇ ) and the classification of the positive cells of the sample to be analyzed is moreover almost one-to-one, that is to say that by imposing the rate ( ⁇ ) determined from a sorting carried out by a user, and thanks to the optimization process of the present invention, it is possible to find a set of positive cells (S + ) corresponding very strongly to the initial sorting of the user.
- the method according to the invention makes it possible to find a single solution.
- the rate of false positives ⁇ used in the method according to the second aspect is the rate of false positives ⁇ determined at the end of the method according to the first aspect.
- the method has as input a reference sample, that is to say known negative cells, a sample to be analyzed, as well as a subset of cells from the sample to be analyzed judged positive by a user (that is to say a set called E + ), also called an expert.
- the method then comprises a step of determining a threshold (or generally a value of interest), for each of the markers, beyond which a cell is considered positive for the marker considered. These thresholds are determined to best reproduce expert judgment on the sample to be analyzed.
- the method returns a rate of false positives in the reference sample and a classification of the sample to be analyzed, analyzed, that is to say a set of positive cells (S + ) and a set of cells negative (S - ).
- a cell is determined positive if its expression for at least one marker is greater than the threshold retained for this marker.
- the method has, as input, the reference sample, the sample to be analyzed as well as a tolerable rate of false positives ⁇ .
- the method then comprises a step of determining, for each of the markers, the threshold beyond which a cell is considered positive with respect to this marker. These thresholds are determined to maximize the number of positives detected in the sample to be analyzed, under the constraint of reproducing the rate of false positives imposed in the reference sample.
- the method returns a classification of the analyzed sample, that is to say a set of positive cells (S + ) and a set of negative cells (S - ).
- a “vector coefficient” therefore refers here to a vector comprising a set of coefficients relating to each of the markers.
- the method proceeds to a classification into a set of positive cells and a set of negative cells of the cells of the other sample according to the vector coefficient ( ⁇ ).
- ⁇ the vector coefficient
- Such a method thus aims to better ensure the reproducibility of the detection process and is robust, that is to say adaptable to the variability inherent in biological tests. It also makes it possible to compare the results of different scientists on different samples if these adopt a common value of "error rate", or to relativize the conclusions of a scientist on a particular sample if its rate of false positive goes beyond the values accepted by the community of experts.
- the method thus comprises for example a step of identifying a mathematical model and a step of determining a vector coefficient, called here ⁇ , from a reference sample and/or a sample to be analyzed according to the version implemented.
- the step of determining the vector coefficient ( ⁇ ) comprises for example a minimization of a quantity of false positives and a minimization of a quantity of false negatives in the sample to be analyzed.
- the step of determining the vector coefficient ( ⁇ ) comprises maximizing a quantity of positive cells in the sample to be analyzed respecting the given rate of false positives ( ⁇ ).
- the method comprises an analysis step in which at least one marker to which at least one cell reacts positively is identified.
- the method can comprise a step of verification by evaluation of a confusion matrix.
- This makes it possible to check the quality of learning.
- the confusion matrix is presented as follows:
- this rate ⁇ would therefore be zero. But the learning rules used in the two embodiments lead to degrading this result, that is to say allowing a value of ⁇ different from zero, for example included in the interval ]0; 0.5].
- this optimization problem finds a unique vector optimum ⁇ (provided that the sample to be analyzed is large enough, a criterion whose appreciation depends both on the number of cells in the sample and on the content of information of the sample considered) and that this optimum can be characterized by the rate of false positives ⁇ in the reference sample, i.e. by applying the method with the vector optimum ⁇ previously determined to a sample reference.
- a tolerable false positive rate ⁇ is imposed.
- the method thus makes it possible to analyze the cells of the sample to be analyzed, that is to say not only to quantify them, but also to identify which cells have reacted to at least one of the markers.
- the present description refers by way of example to intracellular cytokine labeling tests or “Intracellular Cytokine Staining” (ICS).
- ICS Intracellular Cytokine Staining
- the analysis method described in the context of the present application is applicable to any type of analysis of cells, or even to any problem of multidimensional classification.
- An ICS test is usually performed on blood samples incubated with antigens ( ⁇ ) derived from viruses, bacteria or cancer cells.
- ⁇ antigens
- the cells (Ce) capable of recognizing antigens ( ⁇ ) begin to produce different molecules (Mo) (usually cytokines) which are detected by means of antibodies ( ⁇ C).
- Mo molecules
- ⁇ C antibodies
- Each antibody ( ⁇ C) is specific to a given molecule (Mo) and is coupled to a given fluorescent probe (Sf).
- a cell In ICS, a cell (Ce) is declared positive if it has produced in a “detectable” quantity, that is to say in a quantity greater than a predetermined threshold, at least one molecule (Mo) of interest.
- the methods commonly used to identify “positive” cells therefore reacting to at least one of the markers, rely on the visual judgment of an expert, or user.
- All of the data of a sample to be analyzed can indeed be represented in the form of a cloud of points, in a multidimensional space, of dimension given by the number of markers. Each point corresponds to a cell and is composed of the expressions of all the markers for this cell.
- the user that is to say generally the expert, visualizes two-dimensional sections of one of the markers (Mj) compared to another (Mj') in this multidimensional space and refers to a sample called " reference” (i.e. a sample of known negatives), before incubation, in which all the cells are negative.
- reference i.e. a sample of known negatives
- the expert then manually draws one or more selection intervals around what he judges to be positive cells, i.e. which stand out visually from the cloud of points along one or the other of the two axes, and therefore of one or the other of the two markers represented. This is for example represented by the dotted outline on the figure 2 .
- a disadvantage of this procedure is that it is subjective and makes results from different users or laboratories difficult to compare. It is also very difficult to reproduce.
- the main output data of the method are all the cells of the sample to be analyzed which are declared to be positive.
- a cell of the sample to be analyzed is declared positive if the expression normalized value of one of the markers, that is to say of at least one of the markers, is greater than the value of the corresponding threshold estimated in the third step, detailed later.
- the expressions of the markers (measured fluorescence values) for the reference sample and for the sample to be analyzed are for example first normalized and then expanded.
- the preparation step comprises for example a normalization step and a data expansion step. This makes it possible to make the measurements independent of the scale and the calibration of the measurement tool. Such conditioning of the problem also makes it possible to simplify the method while allowing the classification to be done correctly.
- y ref ij and y test kj are the normalized values of the expressions of the markers (fluorescence measurements) x ref ij and x test kj .
- the measurements are reduced to values in the unit interval [0,1] and then they are expressed on a log scale.
- Second step Smoothing the distribution of values obtained for a sample
- This step aims to smooth the probability densities of the markers of the sample considered, for example the reference sample for the example detailed here, normalized, so that they become continuous and independent of the discretization effects. In other words, this makes it possible to have a continuous probability density function from the discrete values that are the results of measurements. It is for example possible to use the Parzen-Rozenblatt method, also called “kernel estimator”.
- One-dimensional probability densities are for example obtained using the kernel estimation method with a Gaussian kernel and Silverman's rule for kernel width, called parameter of smoothing. For example, this is applied to the normalized data of the reference sample determined in step 1, that is to say the y ref ij .
- the smoothing step is carried out on at least the sample to be analyzed instead of the reference sample.
- the following step here the third step, aims to determine the values of the thresholds for the expressions of the markers beyond which a cell is declared positive.
- an auxiliary input consists of a subset E + of cells of the sample to be analyzed that the user deems positive.
- the method then produces an auxiliary output which is the rate ⁇ of false positives corresponding to the judgment of the user.
- the auxiliary input is the acceptable false positive rate ⁇ , which corresponds to the proportion of cells which are detected positive by the method when the latter is applied to a sample of negative cells, by example the reference sample.
- the user first sorts among the cells of the sample to be analyzed.
- the cells judged positive by the user form the set called E +, comprising between 0 to m cells of the sample to be analyzed.
- the thresholds are estimated so as to best reproduce the user's judgment on the sample to be analyzed.
- the rate ⁇ is therefore determined from the set S + and the method returns at the output, in response, the set S + determined as well as the rate ⁇ .
- the set S + is built from arbitrary, consistent values of the s j , then from an optimization process so as to find the thresholds there I s for each marker which will make it possible to classify the points.
- the rate ⁇ of false positives that the user deems acceptable is imposed as an input value (here also called an additional parameter).
- the rate ⁇ corresponds to the rate of positive cells detected by the algorithm when the latter is applied to a sample of negative cells, for example the reference sample.
- the method can then then determine the set S + of positive cells, as this is detailed in a fourth step described below.
- the set S + is determined from the rate ⁇ .
- step 3 we know how many cells, and which ones, are considered positive in the sample to be analyzed, and what is the rate of false positives ( ⁇ ) in the reference and fact sample, the s j values and the s j -quantiles there I s to be considered for each of the markers.
- a fourth step aims to classify the cells of the sample to be analyzed into a set of positive cells on the one hand, and negative on the other.
- a cell of the sample to be analyzed is declared positive if the normalized expression of one of the markers, that is to say of at least one of the d markers, is greater than the value of the corresponding threshold estimated at the third stage.
- the set S ⁇ of cells declared negative that is to say those for which all the expressions of the normalized markers are below the thresholds of the corresponding markers, is thus defined.
- the set S + of cells declared positive is thus the complement of S - .
- the previously mentioned step is for example particularly interesting following version 2 of the third step, whereas in version 1, it is for example possible to determine the set S - directly by taking the complement of the set S + which was determined from the set E + for the calculation of ⁇ .
- the method can indicate at least one marker whose expression is greater than the corresponding threshold.
- X + represents the set of pairs (cell, marker), where cell is a cell declared positive in the sample to be analyzed and marker is a marker whose normalized value is greater than the corresponding threshold for the cell. Consequently, for all the cells that have been defined as positive, considering a particular marker, some cells have a marker whose normalized expression is above the corresponding threshold, while others may have an expression below the threshold. corresponding, these having then been declared positive by the expression beyond the threshold of another marker.
- the method comprises for example a step of counting the occurrences of a marker.
- the method then comprises, for example, a step of hierarchizing the markers according to their occurrence, that is to say according to the number of times that a cell has expressed itself with regard to it.
- a post-processor can then provide a statistical analysis of the output set X + , for example a hierarchy of markers.
Landscapes
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Immunology (AREA)
- Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Dispersion Chemistry (AREA)
- Optics & Photonics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Description
La présente demande concerne le domaine de l'analyse par cytométrie de flux, et plus particulièrement un procédé d'analyse automatisé pour évaluer la quantité et le type de cellules répondant à un ou des marqueur(s) spécifique(s).The present application concerns the field of analysis by flow cytometry, and more particularly an automated analysis method for evaluating the quantity and the type of cells responding to one or more specific marker(s).
Avantageusement, cette méthode est conçue pour des essais de marquage de cytokine intracellulaire ou « Intracellular Cytokine Staining » (ICS). Ce type d'essais est d'habitude réalisé sur des échantillons de sang incubés avec des antigènes (αγ) dérivés de virus, de bactéries ou de cellules cancéreuses. Après cette incubation, les cellules (Ce) capables de reconnaître les antigènes (αγ), commencent à produire des molécules (Mo) différentes (usuellement des cytokines) qui sont détectées au moyen d'anticorps (αC). Chaque anticorps (αC) est spécifique à une molécule (Mo) donnée et est couplé à une sonde fluorescente (Sf) donnée. Ce mécanisme est schématisé sur la
Un anticorps couplé à une sonde fluorescente forme ainsi un marqueur, noté (Mj), pour une molécule correspondant à un antigène donné.An antibody coupled to a fluorescent probe thus forms a marker, denoted (Mj), for a molecule corresponding to a given antigen.
En ICS une cellule (Ce) est déclarée positive si elle a produit en quantité « détectable », c'est-à-dire en quantité supérieure à un seuil prédéterminé, au moins une molécule (Mo) d'intérêt. Les méthodes utilisées couramment pour identifier les cellules « positives », donc réagissant à au moins l'un des marqueurs, reposent sur le jugement visuel de l'expert. L'ensemble des données d'un échantillon à analyser peut en effet se représenter sous la forme d'un nuage de points, dans un espace multidimensionnel, de dimension donnée par le nombre de marqueurs. Chaque point correspond à une cellule et est composé des expressions de tous les marqueurs pour cette cellule. Comme l'illustre la
Un inconvénient de cette procédure est qu'elle est subjective et rend les résultats de différents utilisateurs ou laboratoires difficiles à comparer. En outre, une telle procédure est difficilement reproductible.A disadvantage of this procedure is that it is subjective and makes results from different users or laboratories difficult to compare. In addition, such a procedure is difficult to reproduce.
Les documents
Pour résoudre au moins en partie les inconvénients précités, la présente demande a pour objet de proposer un procédé d'analyse automatisé qui permette notamment de rendre robustes et reproductibles les analyses des réponses en fluorescence obtenues par cytométrie de flux.To at least partially resolve the aforementioned drawbacks, the present application aims to propose an automated analysis method which makes it possible in particular to make the analyzes of the fluorescence responses obtained by flow cytometry robust and reproducible.
A cet effet, est proposé, selon un premier aspect, un procédé d'analyse de cellules d'un échantillon réagissant à au moins un marqueur spécifique, en particulier à au moins deux marqueurs spécifiques, voire de manière générale à d marqueurs spécifiques avec d ≥ 2 et même d > 2, par exemple d ≥ 10, voire d ≥ 20, voire d ≥ 50, comportant :
- une étape de fourniture d'un échantillon de référence et d'un échantillon à analyser ;
- une étape de fourniture d'un ensemble (E+) de cellules déclarées positives par un expert parmi les cellules de l'échantillon à analyser ;
- une étape de détermination d'un coefficient vectoriel (Θ) à partir de l'échantillon à analyser et de l'ensemble (E+) ;
- une étape de détermination d'au moins un ensemble de cellules positives dans l'échantillon de référence en fonction du coefficient vectoriel (Θ) ; et
- une étape de calcul d'un taux de faux positifs dans l'échantillon de référence (α) à partir du nombre de cellules positives de l'échantillon de référence.
- a step of supplying a reference sample and a sample to be analyzed;
- a step of supplying a set (E + ) of cells declared positive by an expert from among the cells of the sample to be analyzed;
- a step of determining a vector coefficient (Θ) from the sample to be analyzed and from the set (E + );
- a step of determining at least one set of positive cells in the reference sample as a function of the vector coefficient (Θ); And
- a step of calculating a rate of false positives in the reference sample (α) from the number of positive cells of the reference sample.
Est également proposé, selon un deuxième aspect, un procédé d'analyse de cellules d'un échantillon réagissant à au moins un marqueur spécifique, en particulier à au moins deux marqueurs spécifiques, voire de manière générale à d marqueurs spécifiques avec d ≥ 2 et même d > 2, par exemple d ≥ 10, voire d ≥ 20, voire d ≥ 50, comportant :
- Une étape de fourniture d'un échantillon de référence et d'un échantillon à analyser ;
- Une étape de fourniture d'un taux de faux positifs (α) dans l'échantillon de référence ;
- une étape de détermination d'un coefficient vectoriel (Θ) à partir de l'échantillon de référence et du taux de faux positifs (α) ; et
- une étape de détermination d'au moins un ensemble (S+) de cellules positives dans l'échantillon à analyser en fonction du coefficient vectoriel (Θ).
- A step of supplying a reference sample and a sample to be analyzed;
- A step of providing a rate of false positives (α) in the reference sample;
- a step of determining a vector coefficient (Θ) from the reference sample and the rate of false positives (α); And
- a step of determining at least one set (S + ) of positive cells in the sample to be analyzed as a function of the vector coefficient (Θ).
Ici, une cellule positive est donc une cellule considérée comme ayant réagi à au moins l'un des marqueurs.Here, a positive cell is therefore a cell considered to have reacted to at least one of the markers.
Un tel procédé permet ainsi :
- D'une part, de traduire par un « taux d'erreur » le classement visuel auquel aboutit un expert en analysant un échantillon (comprenant potentiellement des cellules positives) par rapport à un échantillon de référence (ne comprenant que des cellules négatives) ; ce taux d'erreur est le taux de fausses cellules positives détectées, fausses si l'on en croit l'échantillon de référence. On peut ainsi caractériser « l'œil » de chaque expert par un « taux d'erreur » qui lui est propre et comparer les jugements de différents experts sur le même échantillon, c'est-à-dire le taux de « fausses cellules positives » qu'ils s'autorisent à accepter dans le processus de classification.
- D'autre part, d'utiliser systématiquement un même jugement, c'est-à-dire un même taux d'erreur, pour classer des échantillons de provenances différentes. Adapté à l'ICS, ce procédé permet d'analyser automatiquement la réponse immunitaire de cellules mises en contact avec des virus, des bactéries et/ou des cellules cancéreuses.
- On the one hand, to translate by an “error rate” the visual classification reached by an expert by analyzing a sample (potentially including positive cells) compared to a reference sample (including only negative cells); this error rate is the rate of false positive cells detected, false if the reference sample is to be believed. We can thus characterize the "eye" of each expert by its own "error rate" and compare the judgments of different experts on the same sample, i.e. the rate of "false positive cells » that they allow themselves to accept in the classification process.
- On the other hand, to systematically use the same judgement, that is to say the same error rate, to classify samples from different sources. Adapted to ICS, this process makes it possible to automatically analyze the immune response of cells brought into contact with viruses, bacteria and/or cancer cells.
En d'autres termes, pour comparer différentes analyses, à partir de classement réalisés par des utilisateurs différents, il est possible de déterminer une grandeur représentative du classement, le taux (α).In other words, to compare different analyses, from classifications carried out by different users, it is possible to determine a quantity representative of the classification, the rate (α).
La corrélation entre le taux (α) et le classement des cellules positives de l'échantillon à analyser est en outre quasi bijective, c'est-à-dire qu'en imposant le taux (α) déterminé à partir d'un tri réalisé par un utilisateur, et grâce au processus d'optimisation de la présente invention, il est possible de retrouver un ensemble de cellules positives (S+) correspondant très fortement au tri initial de l'utilisateur. En d'autres termes, le procédé selon l'invention permet de retrouver une solution unique.The correlation between the rate (α) and the classification of the positive cells of the sample to be analyzed is moreover almost one-to-one, that is to say that by imposing the rate (α) determined from a sorting carried out by a user, and thanks to the optimization process of the present invention, it is possible to find a set of positive cells (S + ) corresponding very strongly to the initial sorting of the user. In other words, the method according to the invention makes it possible to find a single solution.
En d'autres termes, dans un exemple de mise en oeuvre particulièrement intéressant, le taux de faux positifs α utilisé dans le procédé selon le deuxième aspect est le taux de faux positifs α déterminé à l'issu du procédé selon le premier aspect.In other words, in a particularly advantageous exemplary implementation, the rate of false positives α used in the method according to the second aspect is the rate of false positives α determined at the end of the method according to the first aspect.
Ainsi, le procédé selon le premier aspect comporte donc :
- une étape de fourniture du taux de faux positifs (α) dans l'échantillon de référence ;
- une étape de détermination d'un coefficient vectoriel (Θ) à partir de l'échantillon de référence et du taux de faux positifs (α) ; et
- une étape de détermination d'au moins un ensemble (S+) de cellules positives dans l'échantillon à analyser en fonction du coefficient vectoriel (Θ).
- a step of supplying the rate of false positives (α) in the reference sample;
- a step of determining a vector coefficient (Θ) from the reference sample and the rate of false positives (α); And
- a step of determining at least one set (S + ) of positive cells in the sample to be analyzed as a function of the vector coefficient (Θ).
Il est important de noter que les deux approches sont parallèles.It is important to note that the two approaches are parallel.
Dans le premier cas, le procédé dispose en entrée d'un échantillon de référence, c'est-à-dire de cellules négatives connues, d'un échantillon à analyser, ainsi que d'un sous-ensemble de cellules de l'échantillon à analyser jugées positives par un utilisateur (c'est-à-dire un ensemble appelé E+), appelé également expert. Le procédé comporte alors une étape de détermination d'un seuil (ou de manière générale d'une valeur d'intérêt), pour chacun des marqueurs, au-delà duquel une cellule est considérée positive pour le marqueur considéré. Ces seuils sont déterminés pour reproduire au mieux le jugement d'expert sur l'échantillon à analyser. En sortie, le procédé retourne un taux de faux positifs dans l'échantillon de référence et un classement de l'échantillon à analyser, analysé, c'est-à-dire un ensemble de cellules positives (S+) et un ensemble de cellules négatives (S-). Une cellule est déterminée positive si son expression pour au moins un marqueur est supérieure au seuil retenu pour ce marqueur.In the first case, the method has as input a reference sample, that is to say known negative cells, a sample to be analyzed, as well as a subset of cells from the sample to be analyzed judged positive by a user (that is to say a set called E + ), also called an expert. The method then comprises a step of determining a threshold (or generally a value of interest), for each of the markers, beyond which a cell is considered positive for the marker considered. These thresholds are determined to best reproduce expert judgment on the sample to be analyzed. At output, the method returns a rate of false positives in the reference sample and a classification of the sample to be analyzed, analyzed, that is to say a set of positive cells (S + ) and a set of cells negative (S - ). A cell is determined positive if its expression for at least one marker is greater than the threshold retained for this marker.
Dans le second cas, le procédé dispose, en entrée, de l'échantillon de référence, de l'échantillon à analyser ainsi que d'un taux de faux positifs α tolérable. Le procédé comporte alors une étape de détermination, pour chacun des marqueurs, du seuil au-delà duquel une cellule est considérée positive vis-à-vis de ce marqueur. Ces seuils sont déterminés pour maximiser le nombre de positifs détectés dans l'échantillon à analyser, sous la contrainte de reproduire le taux de faux positifs imposé dans l'échantillon de référence. En sortie, le procédé retourne un classement de l'échantillon analysé c'est-à-dire un ensemble de cellules positives (S+) et un ensemble de cellules négatives (S-).In the second case, the method has, as input, the reference sample, the sample to be analyzed as well as a tolerable rate of false positives α. The method then comprises a step of determining, for each of the markers, the threshold beyond which a cell is considered positive with respect to this marker. These thresholds are determined to maximize the number of positives detected in the sample to be analyzed, under the constraint of reproducing the rate of false positives imposed in the reference sample. At output, the method returns a classification of the analyzed sample, that is to say a set of positive cells (S + ) and a set of negative cells (S - ).
Dans les deux cas, il s'agit de déterminer, à partir de l'un des échantillons de cellules (soit l'échantillon à analyser soit l'échantillon de référence) et avec l'un des paramètres additionnels (soit ensemble (E+) de cellules déclarées positives par un expert parmi les cellules de l'échantillon à analyser soit le taux de faux positifs (α) dans l'échantillon de référence), un coefficient vectoriel (Θ), puis d'appliquer le coefficient vectoriel à l'autre des échantillons de cellules (soit l'échantillon de référence s'il s'agissait de considérer l'échantillon à analyser soit l'échantillon à analyser s'il s'agissait de considérer l'échantillon de référence). Dans le premier cas, il est ainsi possible de déterminer le taux (α) alors que dans le deuxième cas le procédé renvoie au moins l'ensemble (S+) de cellules considérées comme positives parmi les cellules de l'échantillon à analyser.In both cases, it is a question of determining, from one of the cell samples (either the sample to be analyzed or the reference sample) and with one of the additional parameters (either together (E + ) of cells declared positive by an expert among the cells of the sample to be analyzed either the rate of false positives (α) in the reference sample), a vector coefficient (Θ), then to apply the vector coefficient to the other cell samples (either the reference sample if the sample to be analyzed was to be considered, or the sample to be analyzed if the reference sample was to be considered). In the first case, it is thus possible to determine the rate (α) whereas in the second case the method returns at least the set (S + ) of cells considered to be positive among the cells of the sample to be analyzed.
Un « coefficient vectoriel » se réfère donc ici à un vecteur comportant un ensemble de coefficients relatifs à chacun des marqueurs.A “vector coefficient” therefore refers here to a vector comprising a set of coefficients relating to each of the markers.
Dans les deux cas, le procédé procède ainsi à un classement en un ensemble de cellules positives et un ensemble de cellules négatives des cellules de l'autre l'échantillon en fonction du coefficient vectoriel (θ).Comme ceci sera détaillé par la suite en référence aux figures, dans un mode de réalisation particulièrement intéressant, soit le procédé permet donc de déterminer α à partir de l'ensemble S+, qui dans le premier cas est superposé au mieux sur l'ensemble E+, soit le procédé permet de déterminer l'ensemble S+ à partir du taux α lorsqu'il est imposé en donnée d'entrée.In both cases, the method thus proceeds to a classification into a set of positive cells and a set of negative cells of the cells of the other sample according to the vector coefficient (θ). As this will be detailed later in reference to the figures, in a particularly advantageous embodiment, either the method therefore makes it possible to determine α from the set S + , which in the first case is superimposed at best on the set E + , or the method makes it possible to determine the set S + from the rate α when it is imposed as input data.
Bien entendu, disposer de l'échantillon à analyser et de l'échantillon de référence signifie que l'utilisateur (pour réaliser lui-même son classement ou pour mettre en oeuvre le procédé) dispose ici des expressions de chacune des cellules de chacun des échantillons à chacun des marqueurs. Des mesures préalables d'une valeur d'intérêt (ici les expressions de chacun des marqueurs) sont donc réalisées.Of course, having the sample to be analyzed and the reference sample means that the user (to carry out his own classification or to implement the method) has here the expressions of each of the cells of each of the samples. at each of the markers. Preliminary measurements of a value of interest (here the expressions of each of the markers) are therefore carried out.
Un tel procédé vise ainsi à mieux assurer la reproductibilité du processus de détection et est robuste, c'est-à-dire adaptable à la variabilité inhérente aux essais biologiques. Il permet en outre de comparer les résultats de scientifiques différents sur des échantillons différents si ceux-ci adoptent une valeur commune de « taux d'erreur », ou bien de relativiser les conclusions d'un scientifique sur un échantillon particulier si son taux de faux positifs sort des valeurs admises par la communauté d'experts.Such a method thus aims to better ensure the reproducibility of the detection process and is robust, that is to say adaptable to the variability inherent in biological tests. It also makes it possible to compare the results of different scientists on different samples if these adopt a common value of "error rate", or to relativize the conclusions of a scientist on a particular sample if its rate of false positive goes beyond the values accepted by the community of experts.
Dans les deux cas, le procédé comporte ainsi par exemple une étape d'identification d'un modèle mathématique et une étape de détermination d'un coefficient vectoriel, appelé ici θ, à partir d'un échantillon de référence et/ou d'un échantillon à analyser selon la version mise en oeuvre.In both cases, the method thus comprises for example a step of identifying a mathematical model and a step of determining a vector coefficient, called here θ , from a reference sample and/or a sample to be analyzed according to the version implemented.
Selon un exemple intéressant, le coefficient vectoriel (θ) est le vecteur des valeurs seuils pour l'expression de chacun des marqueurs, c'est à dire un ensemble de valeurs seuils d'expression de chacun des marqueurs, au-delà de chacune desquelles une cellule est déclarée positive. Cette détermination du coefficient vectoriel θ peut s'effectuer par une méthode d'optimisation :
- pour reproduire une classification faite par un utilisateur (premier cas),
- ou pour maximiser le nombre de cellules positives détectées dans un échantillon à analyser, sous la contrainte de respecter un taux de faux positifs donné dans un échantillon de référence (second cas).
- to reproduce a classification made by a user (first case),
- or to maximize the number of positive cells detected in a sample to be analyzed, under the constraint of respecting a given false positive rate in a reference sample (second case).
En d'autres termes, l'étape de détermination du coefficient vectoriel (θ) comporte par exemple une minimisation d'une quantité de faux positifs et une minimisation d'une quantité de faux négatifs dans l'échantillon à analyser.In other words, the step of determining the vector coefficient ( θ ) comprises for example a minimization of a quantity of false positives and a minimization of a quantity of false negatives in the sample to be analyzed.
Ou par exemple, l'étape de détermination du coefficient vectoriel (θ) comporte une maximisation d'une quantité de cellules positives dans l'échantillon à analyser respectant le taux de faux positifs (α) donné.Or for example, the step of determining the vector coefficient (θ) comprises maximizing a quantity of positive cells in the sample to be analyzed respecting the given rate of false positives (α).
Selon un exemple intéressant de mise en oeuvre, l'étape de détermination du coefficient vectoriel (θ) comporte :
- une étape de définition, pour chacun des marqueurs j, d'un sj -quantile
- une étape de définition de l'ensemble (S+) de cellules déclarées positives par rapport au s j -quantile
- une étape de définition et détermination d'un cardinal de la différence symétrique entre S + et E + ;
- une étape de détermination de chacune des valeurs du coefficient vectoriel (θ) de chacun des marqueurs la plus grande par minimisation du cardinal par rapport à la valeur sj de chaque marqueur j dans l'intervalle [0,1], pour tous les marqueurs.
- a step of defining, for each of the markers j, an s j -quantile
- a step of defining the set (S + ) of cells declared positive with respect to the s j -quantile
- a step of defining and determining a cardinality of the symmetric difference between S + and E + ;
- a step of determining each of the values of the vector coefficient ( θ ) of each of the largest markers by minimizing the cardinality with respect to the value s j of each marker j in the interval [0,1], for all the markers .
Selon l'invention, l'étape de détermination d'un coefficient vectoriel (Θ) comporte :
- - une étape de définition, pour chacun des marqueurs j, d'un sj -quantile
- - une étape de définition d'une fonction F(s) représentant un taux de cellules négatives dans l'échantillon de référence, croissante de [0,1] à [0,1], par
- - une étape de détermination de la valeur de sj la plus petite tel que F(s)>1-α ; et
- - une étape de détermination des valeurs du coefficient vectoriel (θ).
- - a step of definition, for each of the markers j, of an s j -quantile
- - a step of defining a function F(s) representing a rate of negative cells in the reference sample, increasing from [0.1] to [0.1], by
- - a step of determining the value of s j the smallest such that F(s) >1-α; And
- - a step of determining the values of the vector coefficient (θ).
Selon un mode intéressant de mise en oeuvre, le procédé comporte une étape d'analyse dans laquelle au moins un marqueur auquel au moins une cellule réagit positivement est identifié.According to an advantageous mode of implementation, the method comprises an analysis step in which at least one marker to which at least one cell reacts positively is identified.
Accessoirement, le procédé peut comporter une étape de vérification par évaluation d'une matrice de confusion. Ceci permet de vérifier une qualité d'apprentissage. Par exemple, pour l'échantillon de référence, pour une certaine valeur du coefficient vectoriel θ, considérant par exemple qu'il comporte l'ensemble des valeurs seuils d'expression de chacun des marqueurs au-delà desquelles une cellule est déclarée positive, la matrice de confusion se présente de la manière suivante :
La matrice de confusion permet de confronter des valeurs observées avec celles qui sont prédites par le modèle mathématique. En effet, un modèle parfait appliqué à l'échantillon de référence ne devrait retourner que de vrais négatifs. Une telle matrice traduit le fait que, bien qu'un échantillon de référence ne soit censé comporter, par définition, que des cellules négatives, le modèle mathématique indiquera que cet échantillon comporte des cellules négatives et des cellules positives. Les cellules identifiées comme négatives par le modèle seront donc considérées comme vraies négatives, alors que les cellules identifiées comme positives par le modèle seront considérées comme étant de fausses positives, puisque par définition l'échantillon de référence n'en comporte aucune. Ceci permet ainsi de définir un taux de faux positifs dans l'échantillon de référence :
Dans un modèle parfait, ce taux α vaudrait donc zéro. Mais les règles d'apprentissage utilisées dans les deux modes de réalisation conduisent à dégrader ce résultat, c'est-à-dire à autoriser une valeur de α différente de zéro, par exemple comprise dans l'intervalle ]0 ; 0,5].In a perfect model, this rate α would therefore be zero. But the learning rules used in the two embodiments lead to degrading this result, that is to say allowing a value of α different from zero, for example included in the interval ]0; 0.5].
Dans le premier cas, on connait le jugement d'un utilisateur pour l'échantillon à analyser, c'est-à-dire l'ensemble des cellules positives (E+) et l'ensemble des cellules négatives déterminés par un utilisateur sur l'échantillon à analyser. Le procédé détermine alors le coefficient vectoriel θ permettant de retrouver au mieux le classement de cet utilisateur. La matrice de confusion pour l'échantillon à analyser se présente de la manière suivante :
L'étape de détermination du vecteur θ peut alors consister à minimiser la somme des valeurs de FP (faux positifs) et de FN (faux négatifs) de l'échantillon à analyser, ou bien les taux de faux positifs FP/(FP+VN) et de faux négatifs FN/(FN+VP), ce qui revient au même puisque FP+VN=FN+VP.The step of determining the vector θ can then consist in minimizing the sum of the values of FP (false positives) and FN (false negatives) of the sample to be analyzed, or else the rates of false positives FP/(FP+VN ) and false negatives FN/(FN+VP), which amounts to the same since FP+VN=FN+VP.
Il apparaît que ce problème d'optimisation trouve un unique optimum vectoriel θ (sous réserve que l'échantillon à analyser soit suffisamment grand, critère dont l'appréciation dépend à la fois du nombre de cellules dans l'échantillon ainsi que du contenu d'information de l'échantillon considéré) et que cet optimum peut être caractérisé par le taux de faux positifs α dans l'échantillon de référence, c'est-à-dire en appliquant le procédé avec l'optimum vectoriel θ déterminé précédemment à un échantillon de référence.It appears that this optimization problem finds a unique vector optimum θ (provided that the sample to be analyzed is large enough, a criterion whose appreciation depends both on the number of cells in the sample and on the content of information of the sample considered) and that this optimum can be characterized by the rate of false positives α in the reference sample, i.e. by applying the method with the vector optimum θ previously determined to a sample reference.
Dans le second cas, on impose un taux de faux positifs tolérable α. On ne peut alors pas représenter de matrice de confusion pour l'échantillon à analyser puisqu'on ne connaît pas a priori le classement de l'utilisateur. On cherche alors à déterminer le coefficient vectoriel θ qui maximise le nombre de positifs détectés dans l'échantillon à analyser, tout en respectant le taux de faux positifs α, imposé, dans l'échantillon de référence fourni. Ce procédé permet de retrouver la classification qu'aurait pu faire visuellement un utilisateur qui produit le même taux de faux positifs α.In the second case, a tolerable false positive rate α is imposed. We cannot then represent a confusion matrix for the sample at analyze since we do not know a priori the classification of the user. It is then sought to determine the vector coefficient θ which maximizes the number of positives detected in the sample to be analyzed, while respecting the rate of false positives α , imposed, in the reference sample provided. This process makes it possible to find the classification that a user could have made visually who produces the same rate of false positives α .
Dans les deux cas, le procédé permet ainsi d'analyser les cellules de l'échantillon à analyser, c'est-à-dire non seulement les quantifier, mais également identifier quelles cellules ont réagi à au moins l'un des marqueurs.In both cases, the method thus makes it possible to analyze the cells of the sample to be analyzed, that is to say not only to quantify them, but also to identify which cells have reacted to at least one of the markers.
L'invention, selon un exemple de mise en oeuvre, sera bien comprise et ses avantages apparaitront mieux à la lecture de la description détaillée qui suit, donnée à titre indicatif et nullement limitatif, en référence aux dessins annexés dans lesquels :
- La
figure 1 montre schématiquement un mécanisme de production de molécules (Mo) par une cellule (Ce) excitée par un antigène (αγ), chaque molécule étant détectable au moyen d'un anticorps (αC) couplé à une sonde fluorescente (Sf), - La
figure 2 illustre une représentation en deux dimensions, représentant un premier marqueur (Mj) et un deuxième marqueur (Mj'), d'une répartition des cellules d'un échantillon de référence et d'un échantillon à analyser, - La
figure 3 représente un exemple de densité de probabilité lissée obtenue pour un marqueur (j) en fonction des mesures réalisées dans un échantillon de référence et un échantillon à analyser, et - La
figure 4 représente un exemple de fonctions de répartition cumulée obtenues pour un marqueur (j) en fonction des mesures réalisées dans un échantillon de référence et un échantillon à analyser.
- There
figure 1 schematically shows a mechanism for the production of molecules (Mo) by a cell (Ce) excited by an antigen (αγ), each molecule being detectable by means of an antibody (αC) coupled to a fluorescent probe (Sf), - There
figure 2 illustrates a two-dimensional representation, representing a first marker (Mj) and a second marker (Mj'), of a distribution of the cells of a reference sample and of a sample to be analyzed, - There
picture 3 represents an example of smoothed probability density obtained for a marker (j) according to the measurements carried out in a reference sample and a sample to be analyzed, and - There
figure 4 represents an example of cumulative distribution functions obtained for a marker (j) as a function of the measurements carried out in a reference sample and a sample to be analyzed.
La présente description se réfère à titre d'exemple aux essais de marquage de cytokine intracellulaire ou « Intracellular Cytokine Staining » (ICS). Bien entendu, le procédé d'analyse décrit dans le cadre de la présente demande est applicable à tout type d'analyse de cellules, voire à tout problème de classification multidimensionnelle.The present description refers by way of example to intracellular cytokine labeling tests or “Intracellular Cytokine Staining” (ICS). Of course, the analysis method described in the context of the present application is applicable to any type of analysis of cells, or even to any problem of multidimensional classification.
Un essai ICS est d'habitude réalisé sur des échantillons de sang incubés avec des antigènes (αγ) dérivés de virus, de bactéries ou de cellules cancéreuses. Comme l'illustre la
En ICS une cellule (Ce) est déclarée positive si elle a produit en quantité « détectable », c'est-à-dire en quantité supérieure à un seuil prédéterminé, au moins une molécule (Mo) d'intérêt. Les méthodes utilisées couramment pour identifier les cellules « positives », donc réagissant à au moins l'un des marqueurs, reposent sur le jugement visuel d'un expert, ou utilisateur.In ICS, a cell (Ce) is declared positive if it has produced in a “detectable” quantity, that is to say in a quantity greater than a predetermined threshold, at least one molecule (Mo) of interest. The methods commonly used to identify “positive” cells, therefore reacting to at least one of the markers, rely on the visual judgment of an expert, or user.
L'ensemble des données d'un échantillon à analyser peut en effet se représenter sous la forme d'un nuage de points, dans un espace multidimensionnel, de dimension donnée par le nombre de marqueurs. Chaque point correspond à une cellule et est composé des expressions de tous les marqueurs pour cette cellule.All of the data of a sample to be analyzed can indeed be represented in the form of a cloud of points, in a multidimensional space, of dimension given by the number of markers. Each point corresponds to a cell and is composed of the expressions of all the markers for this cell.
Comme l'illustre la
L'expert dessine alors manuellement un ou des intervalles de sélection autour de ce qu'il juge être des cellules positives, c'est-à-dire qui se démarquent visuellement du nuage de points le long de l'un ou l'autre des deux axes, et donc de l'un ou l'autre des deux marqueurs représentés. Ceci est par exemple représenté par le contour en pointillés sur la
Un inconvénient de cette procédure est qu'elle est subjective et rend les résultats de différents utilisateurs ou laboratoires difficiles à comparer. Elle est en outre très difficilement reproductible.A disadvantage of this procedure is that it is subjective and makes results from different users or laboratories difficult to compare. It is also very difficult to reproduce.
Pour résoudre au moins en partie les inconvénients précités, le procédé, selon un exemple de mise en oeuvre de la présente invention, analyse deux échantillons, le premier étant l'échantillon de référence des cellules négatives connues et le second étant l'échantillon à analyser des cellules inconnues. Il identifie les cellules positives dans l'échantillon à analyser. Autrement dit, les données d'entrée du procédé sont constituées de deux échantillons :
- L'échantillon de référence, qui est par exemple représenté par une matrice qui contient les mesures (de fluorescence) d'un échantillon de n cellules négatives (dans lequel aucun marqueur n'est exprimé, car les cellules n'ont pas été sollicitées), « n » étant ainsi la taille des informations exploitées ou le nombre de points. Pour chaque cellule, un nombre d de marqueurs (identifiés par exemple Mj, avec j = 1 ... d) sont mesurés, « d » étant donc la dimension des cellules négatives.
- The reference sample, which is for example represented by a matrix that contains the (fluorescence) measurements of a sample of n negative cells (in which no marker is expressed, because the cells have not been solicited) , “n” thus being the size of the information used or the number of points. For each cell, a number d of markers (identified for example Mj, with j=1...d) are measured, “d” therefore being the dimension of the negative cells.
L'échantillon de référence est par exemple notée X ref, matrice de taille n × d, où X ref = [xref ij] (avec i = 1,...,n et j=1,...,d), xref ij correspondant à la mesure (de fluorescence) du j ième marqueur pour la iième cellule.
- L'échantillon à analyser, qui est par exemple représenté par une matrice qui contient les mesures (de fluorescence) d'un échantillon de m cellules, lesquelles contiennent des cellules positives et négatives (parmi lesquelles certains marqueurs sont exprimés; les cellules ayant été sollicitées, certaines ont réagi). Pour chaque cellule, les mêmes d marqueurs (fluorescents) sont mesurés.
- The sample to be analyzed, which is for example represented by a matrix which contains the measurements (of fluorescence) of a sample of m cells, which contain positive and negative cells (among which certain markers are expressed; the cells having been solicited , some reacted). For each cell, the same d markers (fluorescent) are measured.
L'échantillon à analyser est par exemple notée X test , matrice de taille m x d, où X test = [xtest kj] (avec k = 1,...,m et j=1,...,d), xtest kj correspondant à la mesure (de fluorescence) du j ième marqueur pour la kième cellule.The sample to be analyzed is for example denoted X test , matrix of size mxd, where X test = [x test kj ] (with k = 1,...,m and j = 1,...,d ) , x kj test corresponding to the ( fluorescence ) measurement of the jth marker for the kth cell.
Les données de sortie principales du procédé sont l'ensemble des cellules de l'échantillon à analyser qui sont déclarées comme étant positives. Une cellule de l'échantillon à analyser est déclarée positive si l'expression normalisée de l'un des marqueurs, c'est-à-dire d'au moins l'un des marqueurs, est supérieure à la valeur du seuil correspondant estimée à la troisième étape, détaillée ultérieurement.The main output data of the method are all the cells of the sample to be analyzed which are declared to be positive. A cell of the sample to be analyzed is declared positive if the expression normalized value of one of the markers, that is to say of at least one of the markers, is greater than the value of the corresponding threshold estimated in the third step, detailed later.
Lors d'une première étape, optionnelle, les expressions des marqueurs (valeurs de fluorescences mesurées) pour l'échantillon de référence et pour l'échantillon à analyser sont par exemple d'abord normalisées puis dilatées. En d'autres termes, l'étape de préparation comporte par exemple une étape de normalisation et une étape de dilatation des données. Ceci permet de rendre les mesures indépendantes de l'échelle et de la calibration de l'outil de mesure. Un tel conditionnement du problème permet en outre de simplifier le procédé tout en permettant que la classification puisse se faire correctement.During a first, optional step, the expressions of the markers (measured fluorescence values) for the reference sample and for the sample to be analyzed are for example first normalized and then expanded. In other words, the preparation step comprises for example a normalization step and a data expansion step. This makes it possible to make the measurements independent of the scale and the calibration of the measurement tool. Such conditioning of the problem also makes it possible to simplify the method while allowing the classification to be done correctly.
On note par exemple les matrices X ref et X test précédemment définies une fois normalisées par : Y ref = [yref ij] et Y test = [ytest kj] où yref ij et ytest kj sont les valeurs normalisées des expressions des marqueurs (mesures de fluorescence) xref ij et xtest kj. Pour cela, les mesures sont ramenées à des valeurs dans l'intervalle unité [0,1] puis elles sont exprimées en échelle log.We note for example the matrices X ref and X test previously defined once normalized by: Y ref = [y ref ij] and Y test = [y test kj ] where y ref ij and y test kj are the normalized values of the expressions of the markers (fluorescence measurements) x ref ij and x test kj . For this, the measurements are reduced to values in the unit interval [0,1] and then they are expressed on a log scale.
Par exemple, pour chaque marqueur j dans {1,...,d}, l'étape de préparation des données du procédé comporte par exemple les étapes suivantes :
- une étape de détermination d'un minimum x{j,min} et d'un maximum x{j,max} des expressions mesurées du marqueur considéré dans l'échantillon de référence et dans l'échantillon à analyser ;
- une étape de normalisation et dilatation des données de l'échantillon de référence et de l'échantillon à analyser, qui s'effectue de la manière suivante :
- a step of determining a minimum x {j,min} and a maximum x {j,max} of the measured expressions of the marker considered in the reference sample and in the sample to be analyzed;
- a step of normalization and expansion of the data of the reference sample and of the sample to be analyzed, which is carried out as follows:
Cette étape vise à lisser des densités de probabilités des marqueurs de l'échantillon considéré, par exemple l'échantillon de référence pour l'exemple détaillé ici, normalisées, afin qu'elles deviennent continues et indépendantes des effets de discrétisation. Autrement dit, ceci permet d'avoir une fonction de densité de probabilité continue à partir des valeurs discrètes que sont les résultats de mesures. Il est par exemple possible d'utiliser la méthode de Parzen-Rozenblatt, aussi appelée « estimateur à noyau ».This step aims to smooth the probability densities of the markers of the sample considered, for example the reference sample for the example detailed here, normalized, so that they become continuous and independent of the discretization effects. In other words, this makes it possible to have a continuous probability density function from the discrete values that are the results of measurements. It is for example possible to use the Parzen-Rozenblatt method, also called “kernel estimator”.
Les densités de probabilités unidimensionnelles (c'est-à-dire pour un marqueur à la fois) sont par exemple obtenues en utilisant la méthode d'estimation à noyau avec un noyau Gaussien et la règle de Silverman pour la largeur du noyau, appelé paramètre de lissage. Pour exemple, ceci est appliqué sur les données normalisées de l'échantillon de référence déterminées dans l'étape 1, c'est-à-dire les yref ij .One-dimensional probability densities (i.e. for one marker at a time) are for example obtained using the kernel estimation method with a Gaussian kernel and Silverman's rule for kernel width, called parameter of smoothing. For example, this is applied to the normalized data of the reference sample determined in step 1, that is to say the y ref ij .
Pour chaque marqueur j dans {1,...,d}, l'étape de lissage du procédé comporte par exemple les étapes suivantes :
- une étape de sélection d'un noyau K, par exemple Gaussien ;
- une étape de détermination du paramètre de lissage h, qui correspond à la largeur du noyau de lissage, en utilisant par exemple la règle de Silverman :
- une étape de définition de la fonction de densité de probabilité de la fonction de distribution marginale du j ième marqueur de l'échantillon de référence par :
- a step of selecting a kernel K, for example Gaussian;
- a step for determining the smoothing parameter h, which corresponds to the width of the smoothing kernel, using for example Silverman's rule:
- a step of defining the probability density function of the marginal distribution function of the jth marker of the reference sample by:
A ce stade, les résultats de mesures normalisés pour l'échantillon à analyser et une densité de probabilité de résultat pour chaque marqueur pour l'échantillon de référence sont ainsi connus.At this stage, the normalized measurement results for the sample to be analyzed and a result probability density for each marker for the reference sample are thus known.
Ces densités de probabilité sont par exemple représentées sur la
Ensuite, le procédé comporte une étape de définition d'une estimation des densités multivariées, qui correspond au produit des noyaux univariés, par exemple de la façon suivante :
Il est en outre possible de simplifier cette expression en considérant que Kj = K, voire hj = h pour toutes les dimensions.It is also possible to simplify this expression by considering that K j = K, or even h j = h for all dimensions.
Selon la version du procédé, définie par la suite, qui est mise en oeuvre, l'étape de lissage est réalisée sur au moins l'échantillon à analyser à la place de l'échantillon de référence.According to the version of the method, defined subsequently, which is implemented, the smoothing step is carried out on at least the sample to be analyzed instead of the reference sample.
L'étape suivante, ici la troisième étape, vise à déterminer les valeurs des seuils pour les expressions des marqueurs au-delà desquels une cellule est déclarée positive.The following step, here the third step, aims to determine the values of the thresholds for the expressions of the markers beyond which a cell is declared positive.
Pour déterminer le seuil associé à chaque marqueur, deux cas sont ici envisagés.To determine the threshold associated with each marker, two cases are considered here.
Dans un premier cas, dit version 1, une entrée auxiliaire consiste en un sous-ensemble E + de cellules de l'échantillon à analyser que l'utilisateur juge positives. Le procédé produit alors une sortie auxiliaire qui est le taux α de faux positifs correspondant au jugement de l'utilisateur.In a first case, called version 1, an auxiliary input consists of a subset E + of cells of the sample to be analyzed that the user deems positive. The method then produces an auxiliary output which is the rate α of false positives corresponding to the judgment of the user.
Dans un deuxième cas, dit version 2, l'entrée auxiliaire est le taux α de faux positifs acceptable, qui correspond à la proportion de cellules qui sont détectées positives par le procédé quand celui-ci est appliqué à un échantillon de cellules négatives, par exemple l'échantillon de référence.In a second case, called version 2, the auxiliary input is the acceptable false positive rate α , which corresponds to the proportion of cells which are detected positive by the method when the latter is applied to a sample of negative cells, by example the reference sample.
Par défaut, si aucune entrée auxiliaire n'est fournie, le procédé effectue la version 2 avec la valeur imposée α=0, qui correspond à minimiser les valeurs des seuils, sous la contrainte que l'algorithme déclare négatives toutes les cellules de l'échantillon de référence. C'est la version dite « sans biais » du procédé.By default, if no auxiliary input is provided, the process performs version 2 with the imposed value α = 0 , which corresponds to minimizing the values of the thresholds, under the constraint that the algorithm declares all the cells of the reference sample. This is the so-called “unbiased” version of the process.
Autrement dit, le procédé comporte une étape de fourniture d'un paramètre additionnel qui est soit l'ensemble E+, soit le taux de faux positif α, sachant que si aucun paramètre additionnel n'est spécifié, l'étape de fourniture d'un paramètre additionnel consiste à considérer α = 0.In other words, the method comprises a step of supplying an additional parameter which is either the set E + , or the false positive rate α, knowing that if no additional parameter is specified, the step of supplying an additional parameter consists in considering α = 0.
Autrement dit, dans les deux cas, les principes de calculs sont les mêmes. Dans le premier cas, ceux-ci sont appliqués dans l'échantillon à analyser pour prédire dans l'échantillon de référence, tant que dans le deuxième cas, c'est l'inverse.In other words, in both cases, the calculation principles are the same. In the first case, these are applied in the sample to be analyzed to predict in the reference sample, while in the second case, it is the reverse.
Dans la version 1, l'utilisateur fait d'abord un tri parmi les cellules de l'échantillon à analyser. Les cellules jugées positives par l'utilisateur forment l'ensemble appelé E +, comprenant entre 0 à m cellules de l'échantillon à analyser.In version 1, the user first sorts among the cells of the sample to be analyzed. The cells judged positive by the user form the set called E +, comprising between 0 to m cells of the sample to be analyzed.
Dans cette version, les seuils sont estimés de manière à reproduire au mieux le jugement de l'utilisateur sur l'échantillon à analyser.In this version, the thresholds are estimated so as to best reproduce the user's judgment on the sample to be analyzed.
Autrement dit, la troisième étape selon la version 1 comporte par exemple les étapes suivantes :
- Pour une valeur sj (correspondant alors à une probabilité), une étape de définition d'un s j -quantile
- For a value s j (corresponding then to a probability), a step of defining an s j -quantile
Ceci est par exemple représenté sur la
Le s j -quantile
- une étape de définition de l'ensemble de cellules déclarées positives par rapport au s j -quantile
- a step of defining the set of cells declared positive with respect to the s j -quantile
Il y a donc à ce stade deux ensembles définis : E + l'ensemble des cellules jugées positives par l'utilisateur, et S + l'ensemble des cellules définies positives par le procédé. Si E + est connu, S + reste à déterminer car il dépend des valeurs des seuils de chaque marqueur, qui sont à déterminer. Cette détermination de S+ s'effectue selon les étapes suivantes :
- Une étape de définition et détermination d'un cardinal de la différence symétrique entre S + et E +. Cela signifie déterminer la somme du nombre des cellules qui appartiennent à E + mais pas à S + et du nombre des cellules qui appartiennent à S + mais pas à E +, c'est-à-dire qui n'appartiennent pas simultanément aux deux ensembles S+ et E+.
- Puis, le procédé comporte une étape de minimisation de ce cardinal par rapport à la valeur sj de chaque marqueur j dans l'intervalle [0,1], pour tous les marqueurs. C'est-à-dire déterminer la valeur de seuil de chacun des marqueurs la plus grande parmi les valeurs minimisant le cardinal. Autrement dit, cette étape consiste à déterminer une valeur de seuil
- A step of definition and determination of a cardinality of the symmetric difference between S + and E + . This means determining the sum of the number of the cells which belong to E + but not to S + and the number of the cells which belong to S + but not to E + , i.e. which do not belong to both simultaneously. sets S + and E + .
- Then, the method comprises a step of minimizing this cardinal relative to the value s j of each marker j in the interval [0,1], for all the markers. That is to say, to determine the threshold value of each of the largest markers among the values minimizing the cardinality. In other words, this step consists in determining a threshold value
La valeur sj et du s j -quantile
Une simplification consiste par exemple à considérer que toutes les valeurs sj sont identiques, et valent par exemple une valeur s, et il s'agit alors de déterminer les
- Une autre étape consiste par exemple ensuite à définir la fonction F (croissante de [0,1] à [0,1]) par
- Enfin, le procédé comporte une étape de calcul de α selon la formule α=1-F(s), le taux de faux positifs.
- Another step consists for example then in defining the function F (increasing from [0.1] to [0.1]) by
- Finally, the method comprises a step of calculating α according to the formula α = 1-F(s) , the rate of false positives.
En alternative à la définition et à la détermination de la fonction F, il est aussi possible de déterminer la matrice de confusion, comme détaillé précédemment, afin de déterminer le taux de faux positifs.As an alternative to defining and determining the function F, it is also possible to determine the confusion matrix, as detailed previously, in order to determine the rate of false positives.
Dans cette version, le taux α est donc déterminé à partir de l'ensemble S+ et le procédé renvoie en sortie, en réponse, l'ensemble S+ déterminé ainsi que le taux α.In this version, the rate α is therefore determined from the set S + and the method returns at the output, in response, the set S + determined as well as the rate α.
Autrement dit, dans cette version, l'ensemble S+ est construit à partir de valeurs arbitraires, cohérentes, des sj , puis d'un processus d'optimisation de sorte à retrouver les seuils
Dans la version 2, le taux α de faux positifs que l'utilisateur juge acceptable est imposé comme valeur d'entrée (appelé ici également paramètre additionnel). Le taux α correspond au taux de cellules détectées positives par l'algorithme quand celui-ci est appliqué à un échantillon de cellules négatives, par exemple l'échantillon de référence. Comme mentionné précédemment, par défaut, l'algorithme effectue la version 2 avec α=0, ce qui signifie que l'algorithme minimise les seuils pour faire en sorte que toutes les cellules de l'échantillon de référence soient déclarées négatives.In version 2, the rate α of false positives that the user deems acceptable is imposed as an input value (here also called an additional parameter). The rate α corresponds to the rate of positive cells detected by the algorithm when the latter is applied to a sample of negative cells, for example the reference sample. As mentioned before, by default the algorithm performs version 2 with α = 0 , which means that the algorithm minimizes the thresholds to ensure that all cells in the reference sample are declared negative.
La troisième étape pour la version 2 comporte par exemple les étapes suivantes :
- - une étape de définition de
- - une étape de définition de la fonction F (croissante de [0,1] à [0,1]) par
- - Une étape de détermination, par dichotomie par exemple, de la valeur de sj la plus petite tel que F(s)>1-α.
- - a step for defining
- - a step for defining the function F (increasing from [0.1] to [0.1]) by
- - A step of determining, by dichotomy for example, the smallest value of s j such that F(s) > 1-α.
Connaissant les valeurs sj , il est donc ensuite possible de déterminer les seuils associés pour chacun des marqueurs.Knowing the values s j , it is then possible to determine the associated thresholds for each of the markers.
Ainsi, dans cette version 2, ayant fixé un α tolérable ou égal à 0, on cherche la plus petite valeur de seuil correspondant pour chacun des marqueurs.Thus, in this version 2, having fixed a tolerable α or equal to 0, the smallest corresponding threshold value is sought for each of the markers.
En appliquant les valeurs de seuils déterminées à l'échantillon à analyser, le procédé peut alors ensuite déterminer l'ensemble S+ de cellules positives, comme ceci est détaillé dans une quatrième étape décrite ci-après.By applying the threshold values determined to the sample to be analyzed, the method can then then determine the set S + of positive cells, as this is detailed in a fourth step described below.
Ainsi, dans cette version, l'ensemble S+ est déterminé à partir du taux α.Thus, in this version, the set S + is determined from the rate α.
Quelle que soit la version (1 ou 2), à l'issue de l'étape 3 précédemment décrite, on connaît combien de cellules, et lesquelles, sont considérées positives dans l'échantillon à analyser, et quel est le taux de faux positifs (α) dans l'échantillon de référence et de fait, les valeurs sj et les sj -quantiles
Ensuite, une quatrième étape vise à classer les cellules de l'échantillon à analyser en un ensemble de cellules positives d'une part, et négatives d'autre part.Then, a fourth step aims to classify the cells of the sample to be analyzed into a set of positive cells on the one hand, and negative on the other.
Une cellule de l'échantillon à analyser est déclarée positive si l'expression normalisée de l'un des marqueurs, c'est-à-dire d'au moins l'un des d marqueurs, est supérieure à la valeur du seuil correspondant estimée à la troisième étape.A cell of the sample to be analyzed is declared positive if the normalized expression of one of the markers, that is to say of at least one of the d markers, is greater than the value of the corresponding threshold estimated at the third stage.
La quatrième étape comporte par exemple une étape de définition et de détermination d'un ensemble de cellules déclarées négatives dans l'échantillon à analyser par S - = {k=1,...,m tel que ytest kj < ys j pour tout j=1,...,d }. The fourth step comprises for example a step of defining and determining a set of cells declared negative in the sample to be analyzed by S - = {k = 1,...,m such that y test kj < y s j for all j = 1,...,d }.
Est ainsi défini l'ensemble S - des cellules déclarées négatives, c'est-à-dire celles dont toutes les expressions des marqueurs normalisées sont sous les seuils des marqueurs correspondants. L'ensemble S + de cellules déclarées positives est ainsi le complémentaire de S -.The set S − of cells declared negative, that is to say those for which all the expressions of the normalized markers are below the thresholds of the corresponding markers, is thus defined. The set S + of cells declared positive is thus the complement of S - .
Ainsi, l'étape précédemment mentionnée est par exemple particulièrement intéressante suite à la version 2 de la troisième étape, alors que dans la version 1, il est par exemple possible de déterminer l'ensemble S- directement en prenant le complémentaire de l'ensemble S+ qui a été déterminé à partir de l'ensemble E+ en vue du calcul de α.Thus, the previously mentioned step is for example particularly interesting following version 2 of the third step, whereas in version 1, it is for example possible to determine the set S - directly by taking the complement of the set S + which was determined from the set E + for the calculation of α.
Pour chaque cellule détectée comme positive dans l'échantillon à analyser, le procédé peut indiquer au moins un marqueur dont l'expression est supérieure au seuil correspondant.For each cell detected as positive in the sample to be analyzed, the method can indicate at least one marker whose expression is greater than the corresponding threshold.
Pour cela, une première étape vise à définir un ensemble X + tel que X +={(k,j), k dans S + et j=1,...,d tel que ytest kj ≥ ys j }. Ainsi, X + représente l'ensemble des couples (cellule, marqueur), où cellule est une cellule déclarée positive dans l'échantillon à analyser et marqueur est un marqueur dont la valeur normalisée est supérieure au seuil correspondant pour la cellule. Par conséquent, pour l'ensemble des cellules ayant été définies comme positives, en considérant un marqueur en particulier, certaines cellules ont un marqueur dont l'expression normalisée est supérieure au seuil correspondant, alors que d'autres peuvent avoir une expression inférieure au seuil correspondant, celles-ci ayant alors été déclarées positives de par l'expression au-delà du seuil d'un autre marqueur.For this, a first step aims to define a set X + such that X + = {(k,j), k in S + and j = 1,...,d such that y test kj ≥ y s j } . Thus, X + represents the set of pairs (cell, marker), where cell is a cell declared positive in the sample to be analyzed and marker is a marker whose normalized value is greater than the corresponding threshold for the cell. Consequently, for all the cells that have been defined as positive, considering a particular marker, some cells have a marker whose normalized expression is above the corresponding threshold, while others may have an expression below the threshold. corresponding, these having then been declared positive by the expression beyond the threshold of another marker.
Ainsi, parmi les cellules déclarées positives, il est par exemple possible de dénombrer combien de fois un marqueur s'est exprimé. Pour cela, une étape consiste à déterminer, pour chaque marqueur j, la valeur de Zj = card ( k dans S + tel que (k,j) est dans X + ), qui est aussi égal à Zj = card ( k dans S + tel que
Connaissant l'occurrence de chaque marqueur par exemple, il est ainsi possible de les hiérarchiser, par exemple par ordre d'importance, le plus important (fréquent) étant alors donné par l'expression argmax(Zj ). Le procédé comporte alors par exemple une étape de hiérarchisation des marqueurs selon leur occurrence, c'est-à-dire selon le nombre de fois qu'une cellule s'est exprimée à son égard.Knowing the occurrence of each marker for example, it is thus possible to rank them, for example in order of importance, the most important (frequent) then being given by the expression argmax( Z j ). The method then comprises, for example, a step of hierarchizing the markers according to their occurrence, that is to say according to the number of times that a cell has expressed itself with regard to it.
Ainsi, par exemple, un post-processeur peut alors fournir une analyse statistique de l'ensemble de sortie X +, par exemple une hiérarchisation des marqueurs.Thus, for example, a post-processor can then provide a statistical analysis of the output set X + , for example a hierarchy of markers.
Claims (9)
- Method for analysing cells of a sample reacting with at least one specific marker comprising:- a step of providing a reference sample and a sample to be analysed;the method being characterized in that it further comprises:- a step of providing a set (E+) of cells declared positive by an expert from among the cells of the sample to be analysed;- a step of determining a vector coefficient (Θ) from the sample to be analysed and from the set (E+);- a step of determining at least one set of positive cells in the reference sample as a function of the vector coefficient (Θ); and- a step of calculating a rate of false positives in the reference sample (α) from the number of positive cells of the reference sample.
- Method according to claim 1, characterized in that the step of determining the vector coefficient (Θ) comprises a minimization of a quantity of false positives and a minimization of a quantity of false negatives in the sample to be analysed.
- Method according to any one of claims 1 or 2, characterized in that the step of determining the vector coefficient (θ) comprises:- a step of defining, for each of the markers j, an sj -quantile- a step of defining the set (S+) of cells declared positive with respect to the sj -quantile- a step of defining and determining a cardinal of the symmetrical difference between S + and E +;- a step of determining each of the largest values of the vector coefficient (θ) of each of the markers by minimization of the cardinal with respect to the value sj of each marker j in the interval [0,1], for all the markers.
- Method according to any one of claims 1 to 3, characterized in that it comprises:- a step of providing the rate of false positives (α) in the reference sample;- a step of determining a vector coefficient (θ) based on the reference sample and the rate of false positives (α); and- a step of determining at least one set (S+) of positive cells in the sample to be analysed as a function of the vector coefficient (θ).
- Method for analysing cells of a sample reacting with at least one specific marker comprising:- a step of providing a reference sample and a sample to be analysed;- a step of providing a rate of false positives (α) in the reference sample;- a step of determining a vector coefficient (θ) based on the reference sample and the rate of false positives (α); and- a step of determining at least one set (S+) of positive cells in the sample to be analysed as a function of the vector coefficient (θ);characterized in that the step of determining a vector coefficient (θ) comprises:- a step of defining, for each of the markers j, an sj -quantile- a step of defining a function F(s) representing a rate of negative cells in the reference sample, increasing from [0,1] to [0,1], by- a step of determining the smallest value of sj such that F(s)>1-a; and- a step of determining the values of the vector coefficient (θ).
- Method according to claim 5, characterized in that the step of determining the vector coefficient (θ) comprises a maximization of a quantity of positive cells in the sample to be analysed respecting the given rate of false positives (α).
- Method according to any one of claims 1 to 6, characterized in that the vector coefficient (θ) is a set of threshold values of the expression of each of the markers above each of which a cell is declared positive.
- Method according to any one of claims 1 to 7, characterized in that it comprises an analysis step in which at least one marker to which at least one cell reacts positively is identified.
- Method according to any one of claims 1 to 8, characterized in that it comprises a step of verification by evaluation of a confusion matrix.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1462315A FR3030039B1 (en) | 2014-12-12 | 2014-12-12 | CHARACTERIZATION AND REPRODUCTION OF EXPERT JUDGMENT FOR BINARY CLASSIFICATION |
PCT/FR2015/053452 WO2016092234A1 (en) | 2014-12-12 | 2015-12-11 | Characterization and reproduction of an expert judgement for a binary classification |
Publications (2)
Publication Number | Publication Date |
---|---|
EP3230747A1 EP3230747A1 (en) | 2017-10-18 |
EP3230747B1 true EP3230747B1 (en) | 2023-07-19 |
Family
ID=52589599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP15818011.7A Active EP3230747B1 (en) | 2014-12-12 | 2015-12-11 | Characterization and reproduction of an expert judgement for a binary classification |
Country Status (5)
Country | Link |
---|---|
US (1) | US11054361B2 (en) |
EP (1) | EP3230747B1 (en) |
JP (1) | JP6678177B2 (en) |
FR (1) | FR3030039B1 (en) |
WO (1) | WO2016092234A1 (en) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002033421A1 (en) * | 2000-10-18 | 2002-04-25 | The Government Of The United States Of America, As Represented By The Secretary Of The Navy | A novel assay for detecting immune responses involving antigen specific cytokine and/or antigen specific cytokine secreting t-cells |
US7653509B2 (en) * | 2007-08-29 | 2010-01-26 | Verity Software House | Probability state models |
US8762068B2 (en) * | 2009-07-24 | 2014-06-24 | Lawrence Livermore National Security, Llc | Methods for threshold determination in multiplexed assays |
EP2717681A4 (en) * | 2011-06-10 | 2015-01-07 | Univ Pennsylvania | System and method of cytomic vascular health profiling |
US20140195165A1 (en) * | 2012-11-14 | 2014-07-10 | The Translational Genomics Research Institute | Systems and methods for identifying the relationships between a plurality of genes |
EP3432177B1 (en) * | 2017-07-17 | 2023-04-26 | Roche Diagnostics GmbH | Method and device for analyzing a dataset |
US20200152289A1 (en) * | 2018-11-09 | 2020-05-14 | The Broad Institute, Inc. | Compressed sensing for screening and tissue imaging |
-
2014
- 2014-12-12 FR FR1462315A patent/FR3030039B1/en active Active
-
2015
- 2015-12-11 WO PCT/FR2015/053452 patent/WO2016092234A1/en active Application Filing
- 2015-12-11 JP JP2017531229A patent/JP6678177B2/en active Active
- 2015-12-11 EP EP15818011.7A patent/EP3230747B1/en active Active
- 2015-12-11 US US15/533,881 patent/US11054361B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2016092234A1 (en) | 2016-06-16 |
JP6678177B2 (en) | 2020-04-08 |
FR3030039B1 (en) | 2018-03-16 |
US20170307508A1 (en) | 2017-10-26 |
US11054361B2 (en) | 2021-07-06 |
FR3030039A1 (en) | 2016-06-17 |
JP2018503808A (en) | 2018-02-08 |
EP3230747A1 (en) | 2017-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Linderman et al. | Zero-preserving imputation of single-cell RNA-seq data | |
Mortimer et al. | The future of computer-aided sperm analysis | |
EP2689365B1 (en) | Neighborhood thresholding in mixed model density gating | |
JP5425814B2 (en) | Method and system for analyzing flow cytometry data using a support vector machine | |
US8831889B2 (en) | Quantification of differences between measured values and statistical validation based on the differences | |
US10337975B2 (en) | Method and system for characterizing particles using a flow cytometer | |
JP2014532187A (en) | Multicomponent regression / multicomponent analysis of temporal and / or spatial series files | |
Le Lann et al. | Standardization procedure for flow cytometry data harmonization in prospective multicenter studies | |
US20200105376A1 (en) | Deep learning particle classification platform | |
CN112597141B (en) | Network flow detection method based on public opinion analysis | |
Rebhahn et al. | SwiftReg cluster registration automatically reduces flow cytometry data variability including batch effects | |
EP3230747B1 (en) | Characterization and reproduction of an expert judgement for a binary classification | |
EP1007961B1 (en) | Classifying apparatus designed in particular for odour recognition | |
EP3133393A1 (en) | Method for estimating an amount of particles distributed into classes, from a chromatogram | |
WO1999012029A1 (en) | Classifying apparatus using a combination of statistical methods and neuronal networks, designed in particular for odour recognition | |
JP6280910B2 (en) | Method for measuring the performance of a spectroscopic system | |
EP2318820A1 (en) | Method and device for classifying, displaying, and exploring biological data | |
FR3038722A1 (en) | METHOD FOR IDENTIFYING A MATERIAL | |
EP3276343B1 (en) | Method and device for characterising an analyte | |
Wo et al. | Performances of clustering methods considering data transformation and sample size: An evaluation with fisheries survey data | |
US20230386010A1 (en) | Detecting bubbles in images of a sample in wells of a well plate | |
Kusa et al. | Evaluation of automated citation screening in systematic literature reviews with work saved over sampling: an analysis | |
Zaslavsky et al. | Infino: a Bayesian hierarchical model improves estimates of immune infiltration into tumor microenvironment | |
EP4367669A2 (en) | All-electronic analysis of biochemical samples | |
Chauhan et al. | TAGIFY: Hashtag Recommendation Using Machine Learning and Google Cloud Vision API |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE |
|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE |
|
17P | Request for examination filed |
Effective date: 20170710 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
AX | Request for extension of the european patent |
Extension state: BA ME |
|
RIN1 | Information on inventor provided before grant (corrected) |
Inventor name: COSMA, ANTONIO Inventor name: QUACH, ROBERT Inventor name: GARNIER, JOSSELIN Inventor name: POGGI, FRANCOISE Inventor name: DEFAUX, GILLES |
|
DAV | Request for validation of the european patent (deleted) | ||
DAX | Request for extension of the european patent (deleted) | ||
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: EXAMINATION IS IN PROGRESS |
|
17Q | First examination report despatched |
Effective date: 20210628 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: EXAMINATION IS IN PROGRESS |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R079 Ref document number: 602015084681 Country of ref document: DE Free format text: PREVIOUS MAIN CLASS: G01N0035000000 Ipc: G01N0015100000 Ref country code: DE Ref legal event code: R079 Free format text: PREVIOUS MAIN CLASS: G01N0035000000 Ipc: G01N0015100000 |
|
RIC1 | Information provided on ipc code assigned before grant |
Ipc: G01N 15/14 20060101ALI20221221BHEP Ipc: G01N 15/10 20060101AFI20221221BHEP |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: GRANT OF PATENT IS INTENDED |
|
INTG | Intention to grant announced |
Effective date: 20230208 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE PATENT HAS BEEN GRANTED |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R096 Ref document number: 602015084681 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: LANGUAGE OF EP DOCUMENT: FRENCH |
|
REG | Reference to a national code |
Ref country code: LT Ref legal event code: MG9D |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: MP Effective date: 20230719 |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: MK05 Ref document number: 1589920 Country of ref document: AT Kind code of ref document: T Effective date: 20230719 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20231020 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20231221 Year of fee payment: 9 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20231119 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 Ref country code: RS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 Ref country code: PT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20231120 Ref country code: NO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20231019 Ref country code: LV Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 Ref country code: LT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20231119 Ref country code: HR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20231020 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 Ref country code: AT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20231218 Year of fee payment: 9 Ref country code: DE Payment date: 20231219 Year of fee payment: 9 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R097 Ref document number: 602015084681 Country of ref document: DE |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SM Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 Ref country code: RO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 Ref country code: EE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 Ref country code: CZ Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 Ref country code: SK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20230719 |
|
26N | No opposition filed |
Effective date: 20240422 |