EP3230747B1

EP3230747B1 - Characterization and reproduction of an expert judgement for a binary classification

Info

Publication number: EP3230747B1
Application number: EP15818011.7A
Authority: EP
Inventors: Josselin GARNIER; Françoise POGGI; Gilles DEFAUX; Antonio Cosma; Robert QUACH
Original assignee: Commissariat a lEnergie Atomique CEA; Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Current assignee: Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Priority date: 2014-12-12
Filing date: 2015-12-11
Publication date: 2023-07-19
Anticipated expiration: 2035-12-11
Also published as: WO2016092234A1; JP6678177B2; FR3030039B1; US20170307508A1; US11054361B2; FR3030039A1; JP2018503808A; EP3230747A1

Description

La présente demande concerne le domaine de l'analyse par cytométrie de flux, et plus particulièrement un procédé d'analyse automatisé pour évaluer la quantité et le type de cellules répondant à un ou des marqueur(s) spécifique(s).The present application concerns the field of analysis by flow cytometry, and more particularly an automated analysis method for evaluating the quantity and the type of cells responding to one or more specific marker(s).

Avantageusement, cette méthode est conçue pour des essais de marquage de cytokine intracellulaire ou « Intracellular Cytokine Staining » (ICS). Ce type d'essais est d'habitude réalisé sur des échantillons de sang incubés avec des antigènes (αγ) dérivés de virus, de bactéries ou de cellules cancéreuses. Après cette incubation, les cellules (Ce) capables de reconnaître les antigènes (αγ), commencent à produire des molécules (Mo) différentes (usuellement des cytokines) qui sont détectées au moyen d'anticorps (αC). Chaque anticorps (αC) est spécifique à une molécule (Mo) donnée et est couplé à une sonde fluorescente (Sf) donnée. Ce mécanisme est schématisé sur la figure 1. Ainsi, l'analyse de la fluorescence associée à une cellule permet d'identifier quelles molécules ont été produites par cette cellule. Un courant fluide et un rayon laser sont les composants principaux d'un cytomètre de flux, instrument capable de lire la fluorescence associée à chaque cellule. Les cytomètres de flux peuvent aujourd'hui détecter jusqu'à dix-huit sondes fluorescentes par cellule.Advantageously, this method is designed for intracellular cytokine labeling tests or “Intracellular Cytokine Staining” (ICS). This type of test is usually performed on blood samples incubated with antigens (αγ) derived from viruses, bacteria or cancer cells. After this incubation, the cells (Ce) capable of recognizing antigens (αγ), begin to produce different molecules (Mo) (usually cytokines) which are detected by means of antibodies (αC). Each antibody (αC) is specific to a given molecule (Mo) and is coupled to a given fluorescent probe (Sf). This mechanism is schematized on the figure 1 . Thus, the analysis of the fluorescence associated with a cell makes it possible to identify which molecules have been produced by this cell. A fluid current and a laser beam are the main components of a flow cytometer, an instrument capable of reading the fluorescence associated with each cell. Flow cytometers today can detect up to eighteen fluorescent probes per cell.

Un anticorps couplé à une sonde fluorescente forme ainsi un marqueur, noté (Mj), pour une molécule correspondant à un antigène donné.An antibody coupled to a fluorescent probe thus forms a marker, denoted (Mj), for a molecule corresponding to a given antigen.

En ICS une cellule (Ce) est déclarée positive si elle a produit en quantité « détectable », c'est-à-dire en quantité supérieure à un seuil prédéterminé, au moins une molécule (Mo) d'intérêt. Les méthodes utilisées couramment pour identifier les cellules « positives », donc réagissant à au moins l'un des marqueurs, reposent sur le jugement visuel de l'expert. L'ensemble des données d'un échantillon à analyser peut en effet se représenter sous la forme d'un nuage de points, dans un espace multidimensionnel, de dimension donnée par le nombre de marqueurs. Chaque point correspond à une cellule et est composé des expressions de tous les marqueurs pour cette cellule. Comme l'illustre la figure 2, l'utilisateur, c'est-à-dire généralement l'expert, visualise des coupes bidimensionnelles d'un des marqueurs (Mj) par rapport à un autre (Mj') dans cet espace multidimensionnel et se réfère à un échantillon dit « de référence » (c'est-à-dire un échantillon de négatifs connus), avant incubation, dans lequel toutes les cellules sont négatives. L'expert dessine alors manuellement des intervalles de sélection autour de ce qu'il juge être des cellules positives, c'est-à-dire qui se démarquent visuellement du nuage de points le long de l'un ou l'autre des 2 axes, et donc de l'un ou l'autre des 2 marqueurs représentés. Ceci est par exemple représenté par le contour en pointillés sur la figure 2.In ICS, a cell (Ce) is declared positive if it has produced in a “detectable” quantity, that is to say in a quantity greater than a predetermined threshold, at least one molecule (Mo) of interest. The methods commonly used to identify “positive” cells, therefore reacting to at least one of the markers, rely on the visual judgment of the expert. All the data of a sample to be analyzed can indeed be represent in the form of a cloud of points, in a multidimensional space, of dimension given by the number of markers. Each point corresponds to a cell and is composed of the expressions of all the markers for this cell. As illustrated by figure 2 , the user, that is to say generally the expert, visualizes two-dimensional sections of one of the markers (Mj) compared to another (Mj') in this multidimensional space and refers to a sample called " reference” (i.e. a sample of known negatives), before incubation, in which all the cells are negative. The expert then manually draws selection intervals around what he judges to be positive cells, i.e. which stand out visually from the cloud of points along one or the other of the 2 axes , and therefore one or the other of the 2 markers represented. This is for example represented by the dotted outline on the figure 2 .

Un inconvénient de cette procédure est qu'elle est subjective et rend les résultats de différents utilisateurs ou laboratoires difficiles à comparer. En outre, une telle procédure est difficilement reproductible.A disadvantage of this procedure is that it is subjective and makes results from different users or laboratories difficult to compare. In addition, such a procedure is difficult to reproduce.

Les documents US 2014/357505 , D. T. TEACHEY et al., "Unmasking Evans syndrome: T-cell phenotype and apoptotic response reveal autoimmune lymphoproliferative syndrome (ALPS)", (BLOOD, (20050315), vol. 105, no. 6, pages 2443 - 2448 ), ou encore KEELY G. MCDONALD et al., "CC Chemokine Receptor 6 Expression by B Lymphocytes Is Essential for the Development of Isolated Lymphoid Follicles", (THE AMERICAN JOURNAL OF PATHOLOGY, (20070401), vol. 170, no. 4, pages 1229 - 1240 ) décrivent par exemple des procédés d'analyse de cellules, qui ne sont adaptés qu'à une ou deux dimensions et où des seuils sont déterminés manuellement.The documents US 2014/357505 , DT TEACHEY et al., "Unmasking Evans syndrome: T-cell phenotype and apoptotic response reveal autoimmune lymphoproliferative syndrome (ALPS)", (BLOOD, (20050315), vol. 105, no. 6, pages 2443 - 2448 ), or KEELY G. MCDONALD et al., "CC Chemokine Receptor 6 Expression by B Lymphocytes Is Essential for the Development of Isolated Lymphoid Follicles", (THE AMERICAN JOURNAL OF PATHOLOGY, (20070401), vol. 170, no. 4, pages 1229 - 1240 ) describe, for example, methods for analyzing cells, which are only suitable for one or two dimensions and where thresholds are determined manually.

Pour résoudre au moins en partie les inconvénients précités, la présente demande a pour objet de proposer un procédé d'analyse automatisé qui permette notamment de rendre robustes et reproductibles les analyses des réponses en fluorescence obtenues par cytométrie de flux.To at least partially resolve the aforementioned drawbacks, the present application aims to propose an automated analysis method which makes it possible in particular to make the analyzes of the fluorescence responses obtained by flow cytometry robust and reproducible.

A cet effet, est proposé, selon un premier aspect, un procédé d'analyse de cellules d'un échantillon réagissant à au moins un marqueur spécifique, en particulier à au moins deux marqueurs spécifiques, voire de manière générale à d marqueurs spécifiques avec d ≥ 2 et même d > 2, par exemple d ≥ 10, voire d ≥ 20, voire d ≥ 50, comportant :

une étape de fourniture d'un échantillon de référence et d'un échantillon à analyser ;
une étape de fourniture d'un ensemble (E⁺) de cellules déclarées positives par un expert parmi les cellules de l'échantillon à analyser ;
une étape de détermination d'un coefficient vectoriel (Θ) à partir de l'échantillon à analyser et de l'ensemble (E⁺) ;
une étape de détermination d'au moins un ensemble de cellules positives dans l'échantillon de référence en fonction du coefficient vectoriel (Θ) ; et
une étape de calcul d'un taux de faux positifs dans l'échantillon de référence (α) à partir du nombre de cellules positives de l'échantillon de référence.

To this end, there is proposed, according to a first aspect, a method for analyzing cells of a sample reacting to at least one specific marker, in particular to at least two specific markers, or even to generally to d specific markers with d ≥ 2 and even d > 2, for example d ≥ 10, even d ≥ 20, even d ≥ 50, comprising:

a step of supplying a reference sample and a sample to be analyzed;
a step of supplying a set (E ⁺ ) of cells declared positive by an expert from among the cells of the sample to be analyzed;
a step of determining a vector coefficient (Θ) from the sample to be analyzed and from the set (E ⁺ );
a step of determining at least one set of positive cells in the reference sample as a function of the vector coefficient (Θ); And
a step of calculating a rate of false positives in the reference sample (α) from the number of positive cells of the reference sample.

Est également proposé, selon un deuxième aspect, un procédé d'analyse de cellules d'un échantillon réagissant à au moins un marqueur spécifique, en particulier à au moins deux marqueurs spécifiques, voire de manière générale à d marqueurs spécifiques avec d ≥ 2 et même d > 2, par exemple d ≥ 10, voire d ≥ 20, voire d ≥ 50, comportant :

Une étape de fourniture d'un échantillon de référence et d'un échantillon à analyser ;
Une étape de fourniture d'un taux de faux positifs (α) dans l'échantillon de référence ;
une étape de détermination d'un coefficient vectoriel (Θ) à partir de l'échantillon de référence et du taux de faux positifs (α) ; et
une étape de détermination d'au moins un ensemble (S⁺) de cellules positives dans l'échantillon à analyser en fonction du coefficient vectoriel (Θ).

Also proposed, according to a second aspect, is a method for analyzing cells of a sample reacting to at least one specific marker, in particular to at least two specific markers, or even generally to d specific markers with d ≥ 2 and even d > 2, for example d ≥ 10, even d ≥ 20, even d ≥ 50, comprising:

A step of supplying a reference sample and a sample to be analyzed;
A step of providing a rate of false positives (α) in the reference sample;
a step of determining a vector coefficient (Θ) from the reference sample and the rate of false positives (α); And
a step of determining at least one set (S ⁺ ) of positive cells in the sample to be analyzed as a function of the vector coefficient (Θ).

Ici, une cellule positive est donc une cellule considérée comme ayant réagi à au moins l'un des marqueurs.Here, a positive cell is therefore a cell considered to have reacted to at least one of the markers.

Un tel procédé permet ainsi :

D'une part, de traduire par un « taux d'erreur » le classement visuel auquel aboutit un expert en analysant un échantillon (comprenant potentiellement des cellules positives) par rapport à un échantillon de référence (ne comprenant que des cellules négatives) ; ce taux d'erreur est le taux de fausses cellules positives détectées, fausses si l'on en croit l'échantillon de référence. On peut ainsi caractériser « l'œil » de chaque expert par un « taux d'erreur » qui lui est propre et comparer les jugements de différents experts sur le même échantillon, c'est-à-dire le taux de « fausses cellules positives » qu'ils s'autorisent à accepter dans le processus de classification.
D'autre part, d'utiliser systématiquement un même jugement, c'est-à-dire un même taux d'erreur, pour classer des échantillons de provenances différentes. Adapté à l'ICS, ce procédé permet d'analyser automatiquement la réponse immunitaire de cellules mises en contact avec des virus, des bactéries et/ou des cellules cancéreuses.

Such a process thus allows:

On the one hand, to translate by an “error rate” the visual classification reached by an expert by analyzing a sample (potentially including positive cells) compared to a reference sample (including only negative cells); this error rate is the rate of false positive cells detected, false if the reference sample is to be believed. We can thus characterize the "eye" of each expert by its own "error rate" and compare the judgments of different experts on the same sample, i.e. the rate of "false positive cells » that they allow themselves to accept in the classification process.
On the other hand, to systematically use the same judgement, that is to say the same error rate, to classify samples from different sources. Adapted to ICS, this process makes it possible to automatically analyze the immune response of cells brought into contact with viruses, bacteria and/or cancer cells.

En d'autres termes, pour comparer différentes analyses, à partir de classement réalisés par des utilisateurs différents, il est possible de déterminer une grandeur représentative du classement, le taux (α).In other words, to compare different analyses, from classifications carried out by different users, it is possible to determine a quantity representative of the classification, the rate (α).

La corrélation entre le taux (α) et le classement des cellules positives de l'échantillon à analyser est en outre quasi bijective, c'est-à-dire qu'en imposant le taux (α) déterminé à partir d'un tri réalisé par un utilisateur, et grâce au processus d'optimisation de la présente invention, il est possible de retrouver un ensemble de cellules positives (S⁺) correspondant très fortement au tri initial de l'utilisateur. En d'autres termes, le procédé selon l'invention permet de retrouver une solution unique.The correlation between the rate (α) and the classification of the positive cells of the sample to be analyzed is moreover almost one-to-one, that is to say that by imposing the rate (α) determined from a sorting carried out by a user, and thanks to the optimization process of the present invention, it is possible to find a set of positive cells (S ⁺ ) corresponding very strongly to the initial sorting of the user. In other words, the method according to the invention makes it possible to find a single solution.

En d'autres termes, dans un exemple de mise en oeuvre particulièrement intéressant, le taux de faux positifs α utilisé dans le procédé selon le deuxième aspect est le taux de faux positifs α déterminé à l'issu du procédé selon le premier aspect.In other words, in a particularly advantageous exemplary implementation, the rate of false positives α used in the method according to the second aspect is the rate of false positives α determined at the end of the method according to the first aspect.

Ainsi, le procédé selon le premier aspect comporte donc :

une étape de fourniture du taux de faux positifs (α) dans l'échantillon de référence ;
une étape de détermination d'un coefficient vectoriel (Θ) à partir de l'échantillon de référence et du taux de faux positifs (α) ; et
une étape de détermination d'au moins un ensemble (S⁺) de cellules positives dans l'échantillon à analyser en fonction du coefficient vectoriel (Θ).

Thus, the method according to the first aspect therefore comprises:

a step of supplying the rate of false positives (α) in the reference sample;
a step of determining a vector coefficient (Θ) from the reference sample and the rate of false positives (α); And
a step of determining at least one set (S ⁺ ) of positive cells in the sample to be analyzed as a function of the vector coefficient (Θ).

Il est important de noter que les deux approches sont parallèles.It is important to note that the two approaches are parallel.

Dans le premier cas, le procédé dispose en entrée d'un échantillon de référence, c'est-à-dire de cellules négatives connues, d'un échantillon à analyser, ainsi que d'un sous-ensemble de cellules de l'échantillon à analyser jugées positives par un utilisateur (c'est-à-dire un ensemble appelé E⁺), appelé également expert. Le procédé comporte alors une étape de détermination d'un seuil (ou de manière générale d'une valeur d'intérêt), pour chacun des marqueurs, au-delà duquel une cellule est considérée positive pour le marqueur considéré. Ces seuils sont déterminés pour reproduire au mieux le jugement d'expert sur l'échantillon à analyser. En sortie, le procédé retourne un taux de faux positifs dans l'échantillon de référence et un classement de l'échantillon à analyser, analysé, c'est-à-dire un ensemble de cellules positives (S⁺) et un ensemble de cellules négatives (S^-). Une cellule est déterminée positive si son expression pour au moins un marqueur est supérieure au seuil retenu pour ce marqueur.In the first case, the method has as input a reference sample, that is to say known negative cells, a sample to be analyzed, as well as a subset of cells from the sample to be analyzed judged positive by a user (that is to say a set called E ⁺ ), also called an expert. The method then comprises a step of determining a threshold (or generally a value of interest), for each of the markers, beyond which a cell is considered positive for the marker considered. These thresholds are determined to best reproduce expert judgment on the sample to be analyzed. At output, the method returns a rate of false positives in the reference sample and a classification of the sample to be analyzed, analyzed, that is to say a set of positive cells (S ⁺ ) and a set of cells negative (S ^- ). A cell is determined positive if its expression for at least one marker is greater than the threshold retained for this marker.

Dans le second cas, le procédé dispose, en entrée, de l'échantillon de référence, de l'échantillon à analyser ainsi que d'un taux de faux positifs α tolérable. Le procédé comporte alors une étape de détermination, pour chacun des marqueurs, du seuil au-delà duquel une cellule est considérée positive vis-à-vis de ce marqueur. Ces seuils sont déterminés pour maximiser le nombre de positifs détectés dans l'échantillon à analyser, sous la contrainte de reproduire le taux de faux positifs imposé dans l'échantillon de référence. En sortie, le procédé retourne un classement de l'échantillon analysé c'est-à-dire un ensemble de cellules positives (S⁺) et un ensemble de cellules négatives (S^-).In the second case, the method has, as input, the reference sample, the sample to be analyzed as well as a tolerable rate of false positives α. The method then comprises a step of determining, for each of the markers, the threshold beyond which a cell is considered positive with respect to this marker. These thresholds are determined to maximize the number of positives detected in the sample to be analyzed, under the constraint of reproducing the rate of false positives imposed in the reference sample. At output, the method returns a classification of the analyzed sample, that is to say a set of positive cells (S ⁺ ) and a set of negative cells (S ^- ).

Dans les deux cas, il s'agit de déterminer, à partir de l'un des échantillons de cellules (soit l'échantillon à analyser soit l'échantillon de référence) et avec l'un des paramètres additionnels (soit ensemble (E⁺) de cellules déclarées positives par un expert parmi les cellules de l'échantillon à analyser soit le taux de faux positifs (α) dans l'échantillon de référence), un coefficient vectoriel (Θ), puis d'appliquer le coefficient vectoriel à l'autre des échantillons de cellules (soit l'échantillon de référence s'il s'agissait de considérer l'échantillon à analyser soit l'échantillon à analyser s'il s'agissait de considérer l'échantillon de référence). Dans le premier cas, il est ainsi possible de déterminer le taux (α) alors que dans le deuxième cas le procédé renvoie au moins l'ensemble (S⁺) de cellules considérées comme positives parmi les cellules de l'échantillon à analyser.In both cases, it is a question of determining, from one of the cell samples (either the sample to be analyzed or the reference sample) and with one of the additional parameters (either together (E ⁺ ) of cells declared positive by an expert among the cells of the sample to be analyzed either the rate of false positives (α) in the reference sample), a vector coefficient (Θ), then to apply the vector coefficient to the other cell samples (either the reference sample if the sample to be analyzed was to be considered, or the sample to be analyzed if the reference sample was to be considered). In the first case, it is thus possible to determine the rate (α) whereas in the second case the method returns at least the set (S ⁺ ) of cells considered to be positive among the cells of the sample to be analyzed.

Un « coefficient vectoriel » se réfère donc ici à un vecteur comportant un ensemble de coefficients relatifs à chacun des marqueurs.A “vector coefficient” therefore refers here to a vector comprising a set of coefficients relating to each of the markers.

Dans les deux cas, le procédé procède ainsi à un classement en un ensemble de cellules positives et un ensemble de cellules négatives des cellules de l'autre l'échantillon en fonction du coefficient vectoriel (θ).Comme ceci sera détaillé par la suite en référence aux figures, dans un mode de réalisation particulièrement intéressant, soit le procédé permet donc de déterminer α à partir de l'ensemble S⁺, qui dans le premier cas est superposé au mieux sur l'ensemble E⁺, soit le procédé permet de déterminer l'ensemble S⁺ à partir du taux α lorsqu'il est imposé en donnée d'entrée.In both cases, the method thus proceeds to a classification into a set of positive cells and a set of negative cells of the cells of the other sample according to the vector coefficient (θ). As this will be detailed later in reference to the figures, in a particularly advantageous embodiment, either the method therefore makes it possible to determine α from the set S ⁺ , which in the first case is superimposed at best on the set E ⁺ , or the method makes it possible to determine the set S ⁺ from the rate α when it is imposed as input data.

Bien entendu, disposer de l'échantillon à analyser et de l'échantillon de référence signifie que l'utilisateur (pour réaliser lui-même son classement ou pour mettre en oeuvre le procédé) dispose ici des expressions de chacune des cellules de chacun des échantillons à chacun des marqueurs. Des mesures préalables d'une valeur d'intérêt (ici les expressions de chacun des marqueurs) sont donc réalisées.Of course, having the sample to be analyzed and the reference sample means that the user (to carry out his own classification or to implement the method) has here the expressions of each of the cells of each of the samples. at each of the markers. Preliminary measurements of a value of interest (here the expressions of each of the markers) are therefore carried out.

Un tel procédé vise ainsi à mieux assurer la reproductibilité du processus de détection et est robuste, c'est-à-dire adaptable à la variabilité inhérente aux essais biologiques. Il permet en outre de comparer les résultats de scientifiques différents sur des échantillons différents si ceux-ci adoptent une valeur commune de « taux d'erreur », ou bien de relativiser les conclusions d'un scientifique sur un échantillon particulier si son taux de faux positifs sort des valeurs admises par la communauté d'experts.Such a method thus aims to better ensure the reproducibility of the detection process and is robust, that is to say adaptable to the variability inherent in biological tests. It also makes it possible to compare the results of different scientists on different samples if these adopt a common value of "error rate", or to relativize the conclusions of a scientist on a particular sample if its rate of false positive goes beyond the values accepted by the community of experts.

Dans les deux cas, le procédé comporte ainsi par exemple une étape d'identification d'un modèle mathématique et une étape de détermination d'un coefficient vectoriel, appelé ici θ, à partir d'un échantillon de référence et/ou d'un échantillon à analyser selon la version mise en oeuvre.In both cases, the method thus comprises for example a step of identifying a mathematical model and a step of determining a vector coefficient, called here θ , from a reference sample and/or a sample to be analyzed according to the version implemented.

Selon un exemple intéressant, le coefficient vectoriel (θ) est le vecteur des valeurs seuils pour l'expression de chacun des marqueurs, c'est à dire un ensemble de valeurs seuils d'expression de chacun des marqueurs, au-delà de chacune desquelles une cellule est déclarée positive. Cette détermination du coefficient vectoriel θ peut s'effectuer par une méthode d'optimisation :

pour reproduire une classification faite par un utilisateur (premier cas),
ou pour maximiser le nombre de cellules positives détectées dans un échantillon à analyser, sous la contrainte de respecter un taux de faux positifs donné dans un échantillon de référence (second cas).

According to an interesting example, the vector coefficient ( θ ) is the vector of threshold values for the expression of each of the markers, i.e. a set of threshold values of expression of each of the markers, beyond which each a cell is declared positive. This determination of the vector coefficient θ can be carried out by an optimization method:

to reproduce a classification made by a user (first case),
or to maximize the number of positive cells detected in a sample to be analyzed, under the constraint of respecting a given false positive rate in a reference sample (second case).

En d'autres termes, l'étape de détermination du coefficient vectoriel (θ) comporte par exemple une minimisation d'une quantité de faux positifs et une minimisation d'une quantité de faux négatifs dans l'échantillon à analyser.In other words, the step of determining the vector coefficient ( θ ) comprises for example a minimization of a quantity of false positives and a minimization of a quantity of false negatives in the sample to be analyzed.

Ou par exemple, l'étape de détermination du coefficient vectoriel (θ) comporte une maximisation d'une quantité de cellules positives dans l'échantillon à analyser respectant le taux de faux positifs (α) donné.Or for example, the step of determining the vector coefficient (θ) comprises maximizing a quantity of positive cells in the sample to be analyzed respecting the given rate of false positives (α).

Selon un exemple intéressant de mise en oeuvre, l'étape de détermination du coefficient vectoriel (θ) comporte :

une étape de définition, pour chacun des marqueurs j, d'un s_j -quantile $y_{j}^{s}$
, quantile d'une fonction de distribution cumulée $P_{j}^{test}$
associée à une fonction de distribution de probabilité lissée $p_{j}^{test}$
déterminée par lissage d'une distribution marginale du j ^ième marqueur dans l'échantillon à analyser ;
une étape de définition de l'ensemble (S⁺) de cellules déclarées positives par rapport au s _j -quantile $y_{j}^{s}$
pour chaque marqueur j dans l'échantillon à analyser ;
une étape de définition et détermination d'un cardinal de la différence symétrique entre S ⁺ et E ⁺ ;
une étape de détermination de chacune des valeurs du coefficient vectoriel (θ) de chacun des marqueurs la plus grande par minimisation du cardinal par rapport à la valeur s_j de chaque marqueur j dans l'intervalle [0,1], pour tous les marqueurs.

According to an interesting example of implementation, the step of determining the vector coefficient (θ) comprises:

a step of defining, for each of the markers j, an s _j -quantile ${there}_{I}^{s}$
, quantile of a cumulative distribution function $P_{I}^{test}$
associated with a smoothed probability distribution function $p_{I}^{test}$
determined by smoothing a marginal distribution of the jth marker in the sample to ^be analyzed;
a step of defining the set (S ⁺ ) of cells declared positive with respect to the s _j -quantile ${there}_{I}^{s}$
for each marker j in the sample to be analyzed;
a step of defining and determining a cardinality of the symmetric difference between S ⁺ and E ⁺ ;
a step of determining each of the values of the vector coefficient ( θ ) of each of the largest markers by minimizing the cardinality with respect to the value s _j of each marker j in the interval [0,1], for all the markers .

Selon l'invention, l'étape de détermination d'un coefficient vectoriel (Θ) comporte :

- une étape de définition, pour chacun des marqueurs j, d'un s_j -quantile $y_{j}^{s}$
, quantile d'une fonction de distribution cumulée $P_{j}^{ref}$
associée à une fonction de distribution de probabilité lissée $p_{j}^{ref}$
déterminée par lissage d'une distribution marginale du j ^ième marqueur dans l'échantillon de référence ;
- une étape de définition d'une fonction F(s) représentant un taux de cellules négatives dans l'échantillon de référence, croissante de [0,1] à [0,1], par $F (s) = \frac{card ({VN}^{s})}{n}$
où VN^s est définie par VN^s = { i=1,...,n tel que $y_{ij}^{ref} < y_{j}^{s}$
pour tout j=1,...,d }, l'ensemble des cellules de l'échantillon de référence dont une valeur mesurée est sous la valeur du coefficient vectoriel (θ) du marqueur correspondant pour tous les marqueurs ;
- une étape de détermination de la valeur de s_j la plus petite tel que F(s)>1-α ; et
- une étape de détermination des valeurs du coefficient vectoriel (θ).

According to the invention, the step of determining a vector coefficient (Θ) comprises:

- a step of definition, for each of the markers j, of an s _j -quantile ${there}_{I}^{s}$
, quantile of a cumulative distribution function $P_{I}^{ref}$
associated with a smoothed probability distribution function $p_{I}^{ref}$
determined by smoothing a marginal distribution of ^the jth marker in the reference sample;
- a step of defining a function F(s) representing a rate of negative cells in the reference sample, increasing from [0.1] to [0.1], by $F (s) = \frac{card ({NV}^{s})}{not}$
where VN ^s is defined by VN ^s = { i = 1,...,n such that ${there}_{ij}^{ref} < {there}_{I}^{s}$
for all j = 1,...,d} , the set of cells of the reference sample of which a measured value is below the value of the vector coefficient (θ) of the corresponding marker for all the markers;
- a step of determining the value of s _j the smallest such that F(s) >1-α; And
- a step of determining the values of the vector coefficient (θ).

Selon un mode intéressant de mise en oeuvre, le procédé comporte une étape d'analyse dans laquelle au moins un marqueur auquel au moins une cellule réagit positivement est identifié.According to an advantageous mode of implementation, the method comprises an analysis step in which at least one marker to which at least one cell reacts positively is identified.

Accessoirement, le procédé peut comporter une étape de vérification par évaluation d'une matrice de confusion. Ceci permet de vérifier une qualité d'apprentissage. Par exemple, pour l'échantillon de référence, pour une certaine valeur du coefficient vectoriel θ, considérant par exemple qu'il comporte l'ensemble des valeurs seuils d'expression de chacun des marqueurs au-delà desquelles une cellule est déclarée positive, la matrice de confusion se présente de la manière suivante :

Incidentally, the method can comprise a step of verification by evaluation of a confusion matrix. This makes it possible to check the quality of learning. For example, for the reference sample, for a certain value of the vector coefficient θ , considering for example that it comprises all the threshold values of expression of each of the markers beyond which a cell is declared positive, the confusion matrix is presented as follows:

La matrice de confusion permet de confronter des valeurs observées avec celles qui sont prédites par le modèle mathématique. En effet, un modèle parfait appliqué à l'échantillon de référence ne devrait retourner que de vrais négatifs. Une telle matrice traduit le fait que, bien qu'un échantillon de référence ne soit censé comporter, par définition, que des cellules négatives, le modèle mathématique indiquera que cet échantillon comporte des cellules négatives et des cellules positives. Les cellules identifiées comme négatives par le modèle seront donc considérées comme vraies négatives, alors que les cellules identifiées comme positives par le modèle seront considérées comme étant de fausses positives, puisque par définition l'échantillon de référence n'en comporte aucune. Ceci permet ainsi de définir un taux de faux positifs dans l'échantillon de référence : $α = \frac{{FP}_{ref}}{{FP}_{ref} + {VN}_{ref}}$

où FP_ref représente le nombre de faux positifs et VN_ref le nombre de vrais négatifs, tous deux dans l'échantillon de référence.The confusion matrix makes it possible to compare observed values with those predicted by the mathematical model. Indeed, a perfect model applied to the reference sample should only return true negatives. Such a matrix translates the fact that, although a reference sample is supposed to comprise, by definition, only negative cells, the mathematical model will indicate that this sample comprises negative cells and positive cells. The cells identified as negative by the model will therefore be considered as true negatives, whereas the cells identified as positive by the model will be considered as being false positives, since by definition the reference sample contains none. This thus makes it possible to define a rate of false positives in the reference sample:

α = \frac{{PF}_{ref}}{{PF}_{ref} + {NV}_{ref}}

where FP _ref represents the number of false positives and VN _ref the number of true negatives, both in the reference sample.

Dans un modèle parfait, ce taux α vaudrait donc zéro. Mais les règles d'apprentissage utilisées dans les deux modes de réalisation conduisent à dégrader ce résultat, c'est-à-dire à autoriser une valeur de α différente de zéro, par exemple comprise dans l'intervalle ]0 ; 0,5].In a perfect model, this rate α would therefore be zero. But the learning rules used in the two embodiments lead to degrading this result, that is to say allowing a value of α different from zero, for example included in the interval ]0; 0.5].

Dans le premier cas, on connait le jugement d'un utilisateur pour l'échantillon à analyser, c'est-à-dire l'ensemble des cellules positives (E⁺) et l'ensemble des cellules négatives déterminés par un utilisateur sur l'échantillon à analyser. Le procédé détermine alors le coefficient vectoriel θ permettant de retrouver au mieux le classement de cet utilisateur. La matrice de confusion pour l'échantillon à analyser se présente de la manière suivante :

In the first case, we know the judgment of a user for the sample to be analyzed, that is to say the set of positive cells (E ⁺ ) and the set of negative cells determined by a user on the sample to be analyzed. The method then determines the vector coefficient θ making it possible to best find the classification of this user. The confusion matrix for the sample to be analyzed looks like this:

L'étape de détermination du vecteur θ peut alors consister à minimiser la somme des valeurs de FP (faux positifs) et de FN (faux négatifs) de l'échantillon à analyser, ou bien les taux de faux positifs FP/(FP+VN) et de faux négatifs FN/(FN+VP), ce qui revient au même puisque FP+VN=FN+VP.The step of determining the vector θ can then consist in minimizing the sum of the values of FP (false positives) and FN (false negatives) of the sample to be analyzed, or else the rates of false positives FP/(FP+VN ) and false negatives FN/(FN+VP), which amounts to the same since FP+VN=FN+VP.

Il apparaît que ce problème d'optimisation trouve un unique optimum vectoriel θ (sous réserve que l'échantillon à analyser soit suffisamment grand, critère dont l'appréciation dépend à la fois du nombre de cellules dans l'échantillon ainsi que du contenu d'information de l'échantillon considéré) et que cet optimum peut être caractérisé par le taux de faux positifs α dans l'échantillon de référence, c'est-à-dire en appliquant le procédé avec l'optimum vectoriel θ déterminé précédemment à un échantillon de référence.It appears that this optimization problem finds a unique vector optimum θ (provided that the sample to be analyzed is large enough, a criterion whose appreciation depends both on the number of cells in the sample and on the content of information of the sample considered) and that this optimum can be characterized by the rate of false positives α in the reference sample, i.e. by applying the method with the vector optimum θ previously determined to a sample reference.

Dans le second cas, on impose un taux de faux positifs tolérable α. On ne peut alors pas représenter de matrice de confusion pour l'échantillon à analyser puisqu'on ne connaît pas a priori le classement de l'utilisateur. On cherche alors à déterminer le coefficient vectoriel θ qui maximise le nombre de positifs détectés dans l'échantillon à analyser, tout en respectant le taux de faux positifs α, imposé, dans l'échantillon de référence fourni. Ce procédé permet de retrouver la classification qu'aurait pu faire visuellement un utilisateur qui produit le même taux de faux positifs α.In the second case, a tolerable false positive rate α is imposed. We cannot then represent a confusion matrix for the sample at analyze since we do not know a priori the classification of the user. It is then sought to determine the vector coefficient θ which maximizes the number of positives detected in the sample to be analyzed, while respecting the rate of false positives α , imposed, in the reference sample provided. This process makes it possible to find the classification that a user could have made visually who produces the same rate of false positives α .

Dans les deux cas, le procédé permet ainsi d'analyser les cellules de l'échantillon à analyser, c'est-à-dire non seulement les quantifier, mais également identifier quelles cellules ont réagi à au moins l'un des marqueurs.In both cases, the method thus makes it possible to analyze the cells of the sample to be analyzed, that is to say not only to quantify them, but also to identify which cells have reacted to at least one of the markers.

L'invention, selon un exemple de mise en oeuvre, sera bien comprise et ses avantages apparaitront mieux à la lecture de la description détaillée qui suit, donnée à titre indicatif et nullement limitatif, en référence aux dessins annexés dans lesquels :

La figure 1 montre schématiquement un mécanisme de production de molécules (Mo) par une cellule (Ce) excitée par un antigène (αγ), chaque molécule étant détectable au moyen d'un anticorps (αC) couplé à une sonde fluorescente (Sf),
La figure 2 illustre une représentation en deux dimensions, représentant un premier marqueur (Mj) et un deuxième marqueur (Mj'), d'une répartition des cellules d'un échantillon de référence et d'un échantillon à analyser,
La figure 3 représente un exemple de densité de probabilité lissée obtenue pour un marqueur (j) en fonction des mesures réalisées dans un échantillon de référence et un échantillon à analyser, et
La figure 4 représente un exemple de fonctions de répartition cumulée obtenues pour un marqueur (j) en fonction des mesures réalisées dans un échantillon de référence et un échantillon à analyser.

The invention, according to an exemplary implementation, will be well understood and its advantages will appear better on reading the following detailed description, given by way of indication and in no way limiting, with reference to the appended drawings in which:

There figure 1 schematically shows a mechanism for the production of molecules (Mo) by a cell (Ce) excited by an antigen (αγ), each molecule being detectable by means of an antibody (αC) coupled to a fluorescent probe (Sf),
There figure 2 illustrates a two-dimensional representation, representing a first marker (Mj) and a second marker (Mj'), of a distribution of the cells of a reference sample and of a sample to be analyzed,
There picture 3 represents an example of smoothed probability density obtained for a marker (j) according to the measurements carried out in a reference sample and a sample to be analyzed, and
There figure 4 represents an example of cumulative distribution functions obtained for a marker (j) as a function of the measurements carried out in a reference sample and a sample to be analyzed.

La présente description se réfère à titre d'exemple aux essais de marquage de cytokine intracellulaire ou « Intracellular Cytokine Staining » (ICS). Bien entendu, le procédé d'analyse décrit dans le cadre de la présente demande est applicable à tout type d'analyse de cellules, voire à tout problème de classification multidimensionnelle.The present description refers by way of example to intracellular cytokine labeling tests or “Intracellular Cytokine Staining” (ICS). Of course, the analysis method described in the context of the present application is applicable to any type of analysis of cells, or even to any problem of multidimensional classification.

Un essai ICS est d'habitude réalisé sur des échantillons de sang incubés avec des antigènes (αγ) dérivés de virus, de bactéries ou de cellules cancéreuses. Comme l'illustre la figure 1, après cette incubation, les cellules (Ce) capables de reconnaître les antigènes (αγ) commencent à produire des molécules (Mo) différentes (usuellement des cytokines) qui sont détectées au moyen d'anticorps (αC). Chaque anticorps (αC) est spécifique à une molécule (Mo) donnée et est couplé à une sonde fluorescente (Sf) donnée. Ainsi, l'analyse de la fluorescence associée à une cellule permet d'identifier quelles molécules ont été produites par cette cellule.An ICS test is usually performed on blood samples incubated with antigens (αγ) derived from viruses, bacteria or cancer cells. As illustrated by figure 1 , after this incubation, the cells (Ce) capable of recognizing antigens (αγ) begin to produce different molecules (Mo) (usually cytokines) which are detected by means of antibodies (αC). Each antibody (αC) is specific to a given molecule (Mo) and is coupled to a given fluorescent probe (Sf). Thus, the analysis of the fluorescence associated with a cell makes it possible to identify which molecules have been produced by this cell.

En ICS une cellule (Ce) est déclarée positive si elle a produit en quantité « détectable », c'est-à-dire en quantité supérieure à un seuil prédéterminé, au moins une molécule (Mo) d'intérêt. Les méthodes utilisées couramment pour identifier les cellules « positives », donc réagissant à au moins l'un des marqueurs, reposent sur le jugement visuel d'un expert, ou utilisateur.In ICS, a cell (Ce) is declared positive if it has produced in a “detectable” quantity, that is to say in a quantity greater than a predetermined threshold, at least one molecule (Mo) of interest. The methods commonly used to identify “positive” cells, therefore reacting to at least one of the markers, rely on the visual judgment of an expert, or user.

L'ensemble des données d'un échantillon à analyser peut en effet se représenter sous la forme d'un nuage de points, dans un espace multidimensionnel, de dimension donnée par le nombre de marqueurs. Chaque point correspond à une cellule et est composé des expressions de tous les marqueurs pour cette cellule.All of the data of a sample to be analyzed can indeed be represented in the form of a cloud of points, in a multidimensional space, of dimension given by the number of markers. Each point corresponds to a cell and is composed of the expressions of all the markers for this cell.

Comme l'illustre la figure 2, l'utilisateur, c'est-à-dire généralement l'expert, visualise des coupes bidimensionnelles d'un des marqueurs (Mj) par rapport à un autre (Mj') dans cet espace multidimensionnel et se réfère à un échantillon dit « de référence » (c'est-à-dire un échantillon de négatifs connus), avant incubation, dans lequel toutes les cellules sont négatives.As illustrated by figure 2 , the user, that is to say generally the expert, visualizes two-dimensional sections of one of the markers (Mj) compared to another (Mj') in this multidimensional space and refers to a sample called " reference” (i.e. a sample of known negatives), before incubation, in which all the cells are negative.

L'expert dessine alors manuellement un ou des intervalles de sélection autour de ce qu'il juge être des cellules positives, c'est-à-dire qui se démarquent visuellement du nuage de points le long de l'un ou l'autre des deux axes, et donc de l'un ou l'autre des deux marqueurs représentés. Ceci est par exemple représenté par le contour en pointillés sur la figure 2.The expert then manually draws one or more selection intervals around what he judges to be positive cells, i.e. which stand out visually from the cloud of points along one or the other of the two axes, and therefore of one or the other of the two markers represented. This is for example represented by the dotted outline on the figure 2 .

Un inconvénient de cette procédure est qu'elle est subjective et rend les résultats de différents utilisateurs ou laboratoires difficiles à comparer. Elle est en outre très difficilement reproductible.A disadvantage of this procedure is that it is subjective and makes results from different users or laboratories difficult to compare. It is also very difficult to reproduce.

Pour résoudre au moins en partie les inconvénients précités, le procédé, selon un exemple de mise en oeuvre de la présente invention, analyse deux échantillons, le premier étant l'échantillon de référence des cellules négatives connues et le second étant l'échantillon à analyser des cellules inconnues. Il identifie les cellules positives dans l'échantillon à analyser. Autrement dit, les données d'entrée du procédé sont constituées de deux échantillons :

L'échantillon de référence, qui est par exemple représenté par une matrice qui contient les mesures (de fluorescence) d'un échantillon de n cellules négatives (dans lequel aucun marqueur n'est exprimé, car les cellules n'ont pas été sollicitées), « n » étant ainsi la taille des informations exploitées ou le nombre de points. Pour chaque cellule, un nombre d de marqueurs (identifiés par exemple Mj, avec j = 1 ... d) sont mesurés, « d » étant donc la dimension des cellules négatives.

To at least partially solve the aforementioned drawbacks, the method, according to an exemplary implementation of the present invention, analyzes two samples, the first being the reference sample of known negative cells and the second being the sample to be analyzed. unknown cells. It identifies positive cells in the sample to be analyzed. In other words, the process input data consists of two samples:

The reference sample, which is for example represented by a matrix that contains the (fluorescence) measurements of a sample of n negative cells (in which no marker is expressed, because the cells have not been solicited) , “n” thus being the size of the information used or the number of points. For each cell, a number d of markers (identified for example Mj, with j=1...d) are measured, “d” therefore being the dimension of the negative cells.

L'échantillon de référence est par exemple notée X ^ref, matrice de taille n × d, où X ^ref = [x^ref _ij] (avec i = 1,...,n et j=1,...,d), x^ref _ij correspondant à la mesure (de fluorescence) du j ^ième marqueur pour la i^ième cellule.

L'échantillon à analyser, qui est par exemple représenté par une matrice qui contient les mesures (de fluorescence) d'un échantillon de m cellules, lesquelles contiennent des cellules positives et négatives (parmi lesquelles certains marqueurs sont exprimés; les cellules ayant été sollicitées, certaines ont réagi). Pour chaque cellule, les mêmes d marqueurs (fluorescents) sont mesurés.

The reference sample is for example denoted X ^ref , matrix of size n × d, where X ^ref = [x ^ref _ij ] (with i = 1,...,n and j = 1,...,d ) , x ^ref _ij corresponding to the (fluorescence) measurement of the j ^th marker for the i ^th cell.

The sample to be analyzed, which is for example represented by a matrix which contains the measurements (of fluorescence) of a sample of m cells, which contain positive and negative cells (among which certain markers are expressed; the cells having been solicited , some reacted). For each cell, the same d markers (fluorescent) are measured.

L'échantillon à analyser est par exemple notée X ^test , matrice de taille m x d, où X ^test = [x^test _kj] (avec k = 1,...,m et j=1,...,d), x^test _kj correspondant à la mesure (de fluorescence) du j ^ième marqueur pour la k^ième cellule.The sample to be analyzed is for example denoted X ^test , matrix of size mxd, where X ^test = [x ^test _kj ] (with k = 1,...,m and j = 1,...,d ) , x _kj ^test corresponding to the ( ^fluorescence ) measurement of the jth marker for the ^kth cell.

Les données de sortie principales du procédé sont l'ensemble des cellules de l'échantillon à analyser qui sont déclarées comme étant positives. Une cellule de l'échantillon à analyser est déclarée positive si l'expression normalisée de l'un des marqueurs, c'est-à-dire d'au moins l'un des marqueurs, est supérieure à la valeur du seuil correspondant estimée à la troisième étape, détaillée ultérieurement.The main output data of the method are all the cells of the sample to be analyzed which are declared to be positive. A cell of the sample to be analyzed is declared positive if the expression normalized value of one of the markers, that is to say of at least one of the markers, is greater than the value of the corresponding threshold estimated in the third step, detailed later.

Step One: Data Preparation

Lors d'une première étape, optionnelle, les expressions des marqueurs (valeurs de fluorescences mesurées) pour l'échantillon de référence et pour l'échantillon à analyser sont par exemple d'abord normalisées puis dilatées. En d'autres termes, l'étape de préparation comporte par exemple une étape de normalisation et une étape de dilatation des données. Ceci permet de rendre les mesures indépendantes de l'échelle et de la calibration de l'outil de mesure. Un tel conditionnement du problème permet en outre de simplifier le procédé tout en permettant que la classification puisse se faire correctement.During a first, optional step, the expressions of the markers (measured fluorescence values) for the reference sample and for the sample to be analyzed are for example first normalized and then expanded. In other words, the preparation step comprises for example a normalization step and a data expansion step. This makes it possible to make the measurements independent of the scale and the calibration of the measurement tool. Such conditioning of the problem also makes it possible to simplify the method while allowing the classification to be done correctly.

On note par exemple les matrices X ^ref et X ^test précédemment définies une fois normalisées par : Y ^ref = [y^ref _ij] et Y ^test = [y^test _kj] où y^ref _ij et y^test _kj sont les valeurs normalisées des expressions des marqueurs (mesures de fluorescence) x^ref _ij et x^test _kj. Pour cela, les mesures sont ramenées à des valeurs dans l'intervalle unité [0,1] puis elles sont exprimées en échelle log.We note for example the matrices X ^ref and X ^test previously defined once normalized by: Y ^ref = [y ^ref _ij] and Y ^test = [y ^test _kj ] where y ^ref _ij and y ^test _kj are the normalized values of the expressions of the markers (fluorescence measurements) x ^ref _ij and x ^test _kj . For this, the measurements are reduced to values in the unit interval [0,1] and then they are expressed on a log scale.

Par exemple, pour chaque marqueur j dans {1,...,d}, l'étape de préparation des données du procédé comporte par exemple les étapes suivantes :

une étape de détermination d'un minimum x_{j,min} et d'un maximum x_{j,max} des expressions mesurées du marqueur considéré dans l'échantillon de référence et dans l'échantillon à analyser ;
une étape de normalisation et dilatation des données de l'échantillon de référence et de l'échantillon à analyser, qui s'effectue de la manière suivante : ${y^{ref}}_{ij} = f_{j} ({x^{ref}}_{ij}); i = 1, \dots, n; j = 1, \dots, d$
${y^{test}}_{kj} = f_{j} ({x^{test}}_{kj}); k = 1, \dots, m; j = 1, \dots, d$

où f_j(x) est par exemple la fonction de dilatation suivante :

f_{j} (x) = \log_{10} ((x - x_{\{j, \min\}}) / (x_{\{j, \max\}} - x_{\{j, \min\}}) + ε)

dans laquelle (_x-x{j,min})/(x_{j,max} - x_{j,min}) correspond à la normalisation à proprement parler, et où ε est le paramètre de dilatation ; avec j dans {1,...,d}, et ε compris entre 10^-3 et 10^-6 par exemple, ce nombre pouvant être adapté. Il vaut par exemple 10^-6.For example, for each marker j in {1,...,d} , the data preparation step of the method comprises for example the following steps:

a step of determining a minimum x _{j,min} and a maximum x _{j,max} of the measured expressions of the marker considered in the reference sample and in the sample to be analyzed;
a step of normalization and expansion of the data of the reference sample and of the sample to be analyzed, which is carried out as follows: ${there}^{ref}_{ij} = f_{I} ({x^{ref}}_{ij}); I = 1, \dots, not; I = 1, \dots, d$
${there}^{test}_{K J} = f_{I} ({x^{test}}_{K J}); k = 1, \dots, m; I = 1, \dots, d$

where f _j (x) is for example the following dilation function:

f_{I} (x) = \log_{10} ((x - x_{\{I, \min\}}) / (x_{\{I, \max\}} - x_{\{I, \min\}}) + ε)

where ( _xx{j,min} ) / (x _{j,max} - x _{j,min} ) corresponds to the normalization itself, and where ε is the dilation parameter; with j in {1,...,d} , and ε between 10 ^-3 and 10 ^-6 for example, this number being able to be adapted. It is for example 10 ^-6 .

Second step: Smoothing the distribution of values obtained for a sample

Cette étape vise à lisser des densités de probabilités des marqueurs de l'échantillon considéré, par exemple l'échantillon de référence pour l'exemple détaillé ici, normalisées, afin qu'elles deviennent continues et indépendantes des effets de discrétisation. Autrement dit, ceci permet d'avoir une fonction de densité de probabilité continue à partir des valeurs discrètes que sont les résultats de mesures. Il est par exemple possible d'utiliser la méthode de Parzen-Rozenblatt, aussi appelée « estimateur à noyau ».This step aims to smooth the probability densities of the markers of the sample considered, for example the reference sample for the example detailed here, normalized, so that they become continuous and independent of the discretization effects. In other words, this makes it possible to have a continuous probability density function from the discrete values that are the results of measurements. It is for example possible to use the Parzen-Rozenblatt method, also called “kernel estimator”.

Les densités de probabilités unidimensionnelles (c'est-à-dire pour un marqueur à la fois) sont par exemple obtenues en utilisant la méthode d'estimation à noyau avec un noyau Gaussien et la règle de Silverman pour la largeur du noyau, appelé paramètre de lissage. Pour exemple, ceci est appliqué sur les données normalisées de l'échantillon de référence déterminées dans l'étape 1, c'est-à-dire les y^ref _ij .One-dimensional probability densities (i.e. for one marker at a time) are for example obtained using the kernel estimation method with a Gaussian kernel and Silverman's rule for kernel width, called parameter of smoothing. For example, this is applied to the normalized data of the reference sample determined in step 1, that is to say the y ^ref _ij .

Pour chaque marqueur j dans {1,...,d}, l'étape de lissage du procédé comporte par exemple les étapes suivantes :

une étape de sélection d'un noyau K, par exemple Gaussien ;
une étape de détermination du paramètre de lissage h, qui correspond à la largeur du noyau de lissage, en utilisant par exemple la règle de Silverman : $h_{j} = {(\frac{3}{4 n})}^{\frac{1}{5}} \min (σ_{j}, {irq}_{j})$
où σ_j et irq_j sont respectivement l'écart-type empirique et l'interquartile de l'ensemble {y^ref _ij, i=1,...,n }.
une étape de définition de la fonction de densité de probabilité de la fonction de distribution marginale du j ^ième marqueur de l'échantillon de référence par : $p_{j}^{ref} (x) = \frac{1}{{nh}_{j}} \sum_{i = 1}^{n} K (\frac{x - y_{ij}^{ref}}{h_{j}})$
où K est un noyau, par exemple le noyau Gaussien défini par K(x) = $\frac{1}{\sqrt{2 π}} \exp (\frac{- x^{2}}{2})$
.

For each marker j in {1,...,d} , the smoothing step of the method comprises for example the following steps:

a step of selecting a kernel K, for example Gaussian;
a step for determining the smoothing parameter h, which corresponds to the width of the smoothing kernel, using for example Silverman's rule: $h_{I} = {(\frac{3}{4 not})}^{\frac{1}{5}} \min (σ_{I}, {irq}_{I})$
where σ _j and irq _j are respectively the empirical standard deviation and the interquartile of the set {y ^ref _ij , i = 1,...,n }.
a step ^of defining the probability density function of the marginal distribution function of the jth marker of the reference sample by: $p_{I}^{ref} (x) = \frac{1}{{nh}_{I}} \sum_{I = 1}^{not} K (\frac{x - {there}_{ij}^{ref}}{h_{I}})$
where K is a kernel, for example the Gaussian kernel defined by K ( x )= $\frac{1}{\sqrt{2 π}} \exp (\frac{- x^{2}}{2})$
.

A ce stade, les résultats de mesures normalisés pour l'échantillon à analyser et une densité de probabilité de résultat pour chaque marqueur pour l'échantillon de référence sont ainsi connus.At this stage, the normalized measurement results for the sample to be analyzed and a result probability density for each marker for the reference sample are thus known.

Ces densités de probabilité sont par exemple représentées sur la figure 3 pour un marqueur j.These probability densities are for example represented on the picture 3 for a marker j .

Ensuite, le procédé comporte une étape de définition d'une estimation des densités multivariées, qui correspond au produit des noyaux univariés, par exemple de la façon suivante : $p^{ref} (x) = \frac{1}{n \times h_{1} \times \dots \times h_{d}} \sum_{i = 1}^{n} \prod_{j = 1}^{d} K_{j} (\frac{x_{j} - y_{ij}^{ref}}{h_{j}})$

Then, the method comprises a step of defining an estimate of the multivariate densities, which corresponds to the product of the univariate kernels, for example in the following way:

p^{ref} (x) = \frac{1}{not \times h_{1} \times \dots \times h_{d}} \sum_{I = 1}^{not} \prod_{I = 1}^{d} K_{I} (\frac{x_{I} - {there}_{ij}^{ref}}{h_{I}})

Il est en outre possible de simplifier cette expression en considérant que K_j = K, voire h_j = h pour toutes les dimensions.It is also possible to simplify this expression by considering that K _j = K, or even h _j = h for all dimensions.

Selon la version du procédé, définie par la suite, qui est mise en oeuvre, l'étape de lissage est réalisée sur au moins l'échantillon à analyser à la place de l'échantillon de référence.According to the version of the method, defined subsequently, which is implemented, the smoothing step is carried out on at least the sample to be analyzed instead of the reference sample.

Third step : Estimation of thresholds

L'étape suivante, ici la troisième étape, vise à déterminer les valeurs des seuils pour les expressions des marqueurs au-delà desquels une cellule est déclarée positive.The following step, here the third step, aims to determine the values of the thresholds for the expressions of the markers beyond which a cell is declared positive.

Pour déterminer le seuil associé à chaque marqueur, deux cas sont ici envisagés.To determine the threshold associated with each marker, two cases are considered here.

Dans un premier cas, dit version 1, une entrée auxiliaire consiste en un sous-ensemble E ⁺ de cellules de l'échantillon à analyser que l'utilisateur juge positives. Le procédé produit alors une sortie auxiliaire qui est le taux α de faux positifs correspondant au jugement de l'utilisateur.In a first case, called version 1, an auxiliary input consists of a subset E ⁺ of cells of the sample to be analyzed that the user deems positive. The method then produces an auxiliary output which is the rate α of false positives corresponding to the judgment of the user.

Dans un deuxième cas, dit version 2, l'entrée auxiliaire est le taux α de faux positifs acceptable, qui correspond à la proportion de cellules qui sont détectées positives par le procédé quand celui-ci est appliqué à un échantillon de cellules négatives, par exemple l'échantillon de référence.In a second case, called version 2, the auxiliary input is the acceptable false positive rate α , which corresponds to the proportion of cells which are detected positive by the method when the latter is applied to a sample of negative cells, by example the reference sample.

Par défaut, si aucune entrée auxiliaire n'est fournie, le procédé effectue la version 2 avec la valeur imposée α=0, qui correspond à minimiser les valeurs des seuils, sous la contrainte que l'algorithme déclare négatives toutes les cellules de l'échantillon de référence. C'est la version dite « sans biais » du procédé.By default, if no auxiliary input is provided, the process performs version 2 with the imposed value α = 0 , which corresponds to minimizing the values of the thresholds, under the constraint that the algorithm declares all the cells of the reference sample. This is the so-called “unbiased” version of the process.

Autrement dit, le procédé comporte une étape de fourniture d'un paramètre additionnel qui est soit l'ensemble E⁺, soit le taux de faux positif α, sachant que si aucun paramètre additionnel n'est spécifié, l'étape de fourniture d'un paramètre additionnel consiste à considérer α = 0.In other words, the method comprises a step of supplying an additional parameter which is either the set E ⁺ , or the false positive rate α, knowing that if no additional parameter is specified, the step of supplying an additional parameter consists in considering α = 0.

Autrement dit, dans les deux cas, les principes de calculs sont les mêmes. Dans le premier cas, ceux-ci sont appliqués dans l'échantillon à analyser pour prédire dans l'échantillon de référence, tant que dans le deuxième cas, c'est l'inverse.In other words, in both cases, the calculation principles are the same. In the first case, these are applied in the sample to be analyzed to predict in the reference sample, while in the second case, it is the reverse.

Third step - version 1

Dans la version 1, l'utilisateur fait d'abord un tri parmi les cellules de l'échantillon à analyser. Les cellules jugées positives par l'utilisateur forment l'ensemble appelé E ^+, comprenant entre 0 à m cellules de l'échantillon à analyser.In version 1, the user first sorts among the cells of the sample to be analyzed. The cells judged positive by the user form the set called E ^+, comprising between 0 to m cells of the sample to be analyzed.

Dans cette version, les seuils sont estimés de manière à reproduire au mieux le jugement de l'utilisateur sur l'échantillon à analyser.In this version, the thresholds are estimated so as to best reproduce the user's judgment on the sample to be analyzed.

Autrement dit, la troisième étape selon la version 1 comporte par exemple les étapes suivantes :

Pour une valeur s_j (correspondant alors à une probabilité), une étape de définition d'un s _j -quantile $y_{j}^{s}$
, quantile de la fonction de distribution cumulée $P_{j}^{test}$
associée à la fonction de distribution de probabilité lissée $p_{j}^{test}$
déterminée à l'étape 2 pour chaque marqueur j : $s_{j} = \int_{- \infty}^{y_{j}^{s}} p_{j}^{test} (x) dx = P_{j}^{test} (y_{j}^{s})$

In other words, the third step according to version 1 comprises for example the following steps:

For a value s _j (corresponding then to a probability), a step of defining an s _j -quantile ${there}_{I}^{s}$
, quantile of the cumulative distribution function $P_{I}^{test}$
associated with the smoothed probability distribution function $p_{I}^{test}$
determined in step 2 for each marker j: $s_{I} = \int_{- \infty}^{{there}_{I}^{s}} p_{I}^{test} (x) dx = P_{I}^{test} ({there}_{I}^{s})$

Ceci est par exemple représenté sur la figure 4 pour un marqueur j.This is for example represented on the figure 4 for a marker j .

Le s _j -quantile $y_{j}^{s}$

correspond donc ici à une valeur seuil d'expression normalisée pour un marqueur j considéré : au-delà, une cellule sera considérée positive pour ce marqueur, en dessous elle sera considérée négative pour ce marqueur.

une étape de définition de l'ensemble de cellules déclarées positives par rapport au s _j -quantile $y_{j}^{s}$
, pour chaque marqueur dans l'échantillon à analyser : en prenant l'union de ces d ensembles, on obtient ainsi l'ensemble S ⁺={k=1,...,m tel que $y_{kj}^{test} \geq y_{j}^{s}$
pour un j=1,...,d}. Ceci signifie que l'ensemble S ⁺ comprend l'ensemble des cellules de l'échantillon à analyser considérées comme positives, c'est-à-dire les cellules analysées dont l'expression d'un marqueur (valeur de fluorescence mesurée) est supérieure à $y_{j}^{s}$
pour au moins un marqueur donné. Autrement dit, l'ensemble S ⁺ comporte toutes les cellules qui ont une expression d'un marqueur normalisée supérieure au seuil pour au moins un marqueur.

The s _j -quantile

{there}_{I}^{s}

therefore corresponds here to a normalized expression threshold value for a marker j considered: beyond that, a cell will be considered positive for this marker, below it will be considered negative for this marker.

a step of defining the set of cells declared positive with respect to the s _j -quantile ${there}_{I}^{s}$
, for each marker in the sample to be analyzed: taking the union of these d sets, we thus obtain the set S ⁺ = {k = 1,...,m such that ${there}_{K J}^{test} \geq {there}_{I}^{s}$
for a j = 1,...,d}. This means that the set S ⁺ includes all the cells of the sample to be analyzed considered to be positive, that is to say the cells analyzed whose expression of a marker (measured fluorescence value) is higher To ${there}_{I}^{s}$
for at least one given marker. In other words, the set S ⁺ comprises all the cells which have an expression of a normalized marker above the threshold for at least one marker.

Il y a donc à ce stade deux ensembles définis : E ⁺ l'ensemble des cellules jugées positives par l'utilisateur, et S ⁺ l'ensemble des cellules définies positives par le procédé. Si E ⁺ est connu, S ⁺ reste à déterminer car il dépend des valeurs des seuils de chaque marqueur, qui sont à déterminer. Cette détermination de S⁺ s'effectue selon les étapes suivantes :

Une étape de définition et détermination d'un cardinal de la différence symétrique entre S ⁺ et E ⁺. Cela signifie déterminer la somme du nombre des cellules qui appartiennent à E ⁺ mais pas à S ⁺ et du nombre des cellules qui appartiennent à S ⁺ mais pas à E ⁺, c'est-à-dire qui n'appartiennent pas simultanément aux deux ensembles S⁺ et E⁺.
Puis, le procédé comporte une étape de minimisation de ce cardinal par rapport à la valeur s_j de chaque marqueur j dans l'intervalle [0,1], pour tous les marqueurs. C'est-à-dire déterminer la valeur de seuil de chacun des marqueurs la plus grande parmi les valeurs minimisant le cardinal. Autrement dit, cette étape consiste à déterminer une valeur de seuil $y_{j}^{s}$
pour chacun des marqueurs tel qu'un maximum de cellules appartiennent à la fois à E ⁺ et S ⁺. Par exemple, dans un cas « parfait » E ⁺ et S ⁺ seraient superposés, identiques.

There are therefore at this stage two sets defined: E ⁺ the set of cells judged positive by the user, and S ⁺ the set of cells defined positive by the method. If E ⁺ is known, S ⁺ remains to be determined because it depends on the values of the thresholds of each marker, which are to be determined. This determination of S ⁺ is carried out according to the following steps:

A step of definition and determination of a cardinality of the symmetric difference between S ⁺ and E ⁺ . This means determining the sum of the number of the cells which belong to E ⁺ but not to S ⁺ and the number of the cells which belong to S ⁺ but not to E ⁺ , i.e. which do not belong to both simultaneously. sets S ⁺ and E ⁺ .
Then, the method comprises a step of minimizing this cardinal relative to the value s _j of each marker j in the interval [0,1], for all the markers. That is to say, to determine the threshold value of each of the largest markers among the values minimizing the cardinality. In other words, this step consists in determining a threshold value ${there}_{I}^{s}$
for each of the markers such that a maximum of cells belong to both E ⁺ and S ⁺ . For example, in a "perfect" case E ⁺ and S ⁺ would be superimposed, identical.

La valeur s_j et du s _j -quantile $y_{j}^{s}$

pour chaque marqueur j est ainsi connue.The s _j value and the s _j -quantile

{there}_{I}^{s}

for each marker j is thus known.

Une simplification consiste par exemple à considérer que toutes les valeurs s_j sont identiques, et valent par exemple une valeur s, et il s'agit alors de déterminer les $y_{j}^{s}$

correspondant pour chacun des marqueurs.

Une autre étape consiste par exemple ensuite à définir la fonction F (croissante de [0,1] à [0,1]) par $F (s) = \frac{card ({VN}^{s})}{n}$
, où VN^s est définie par VN^s = { i=1,...,n tel que $y_{ij}^{ref} < y_{j}^{s}$
pour tout j=1,...,d }, c'est-à-dire l'ensemble des cellules de l'échantillon de référence dont l'expression de marqueur normalisée est sous le seuil du marqueur correspondant pour tous les marqueurs (c'est-à-dire toutes les cellules de l'ensemble de référence dans un cas idéal). Déterminer le cardinal de cet ensemble permet de dénombrer ces cellules qui sont déclarées négatives. Diviser ce cardinal par n donne alors le taux de cellules négatives, dans l'échantillon de référence, n étant le nombre de cellules total de l'échantillon de référence.
Enfin, le procédé comporte une étape de calcul de α selon la formule α=1-F(s), le taux de faux positifs.

A simplification consists for example in considering that all the values s _j are identical, and equal for example a value s, and it is then a question of determining the

{there}_{I}^{s}

corresponding for each of the markers.

Another step consists for example then in defining the function F (increasing from [0.1] to [0.1]) by $F (s) = \frac{card ({NV}^{s})}{not}$
, where VN ^s is defined by VN ^s = { i = 1,...,n such that ${there}_{ij}^{ref} < {there}_{I}^{s}$
for all j = 1,...,d } , i.e. the set of cells in the reference sample whose normalized marker expression is below the threshold of the corresponding marker for all markers ( i.e. all the cells of the reference set in an ideal case). Determining the cardinality of this set makes it possible to count these cells which are declared negative. Dividing this cardinal by n then gives the rate of negative cells in the reference sample, n being the total number of cells in the reference sample.
Finally, the method comprises a step of calculating α according to the formula α = 1-F(s) , the rate of false positives.

En alternative à la définition et à la détermination de la fonction F, il est aussi possible de déterminer la matrice de confusion, comme détaillé précédemment, afin de déterminer le taux de faux positifs.As an alternative to defining and determining the function F, it is also possible to determine the confusion matrix, as detailed previously, in order to determine the rate of false positives.

Dans cette version, le taux α est donc déterminé à partir de l'ensemble S⁺ et le procédé renvoie en sortie, en réponse, l'ensemble S⁺ déterminé ainsi que le taux α.In this version, the rate α is therefore determined from the set S ⁺ and the method returns at the output, in response, the set S ⁺ determined as well as the rate α.

Autrement dit, dans cette version, l'ensemble S⁺ est construit à partir de valeurs arbitraires, cohérentes, des s_j , puis d'un processus d'optimisation de sorte à retrouver les seuils $y_{j}^{s}$

pour chaque marqueur qui vont permettre de classer les points.In other words, in this version, the set S ⁺ is built from arbitrary, consistent values of the s _j , then from an optimization process so as to find the thresholds

{there}_{I}^{s}

for each marker which will make it possible to classify the points.

Third step - version 2

Dans la version 2, le taux α de faux positifs que l'utilisateur juge acceptable est imposé comme valeur d'entrée (appelé ici également paramètre additionnel). Le taux α correspond au taux de cellules détectées positives par l'algorithme quand celui-ci est appliqué à un échantillon de cellules négatives, par exemple l'échantillon de référence. Comme mentionné précédemment, par défaut, l'algorithme effectue la version 2 avec α=0, ce qui signifie que l'algorithme minimise les seuils pour faire en sorte que toutes les cellules de l'échantillon de référence soient déclarées négatives.In version 2, the rate α of false positives that the user deems acceptable is imposed as an input value (here also called an additional parameter). The rate α corresponds to the rate of positive cells detected by the algorithm when the latter is applied to a sample of negative cells, for example the reference sample. As mentioned before, by default the algorithm performs version 2 with α = 0 , which means that the algorithm minimizes the thresholds to ensure that all cells in the reference sample are declared negative.

La troisième étape pour la version 2 comporte par exemple les étapes suivantes :

- une étape de définition de $y_{j}^{s}$
, le s_j -quantile de la fonction de distribution cumulée $P_{j}^{ref}$
associée à la fonction de distribution de probabilité lissée $p_{j}^{ref}$
introduite à l'étape 2, pour chaque marqueur j.
- une étape de définition de la fonction F (croissante de [0,1] à [0,1]) par
$F (s) = \frac{card ({VN}^{s})}{n}$
, où VN^s est définie par VN^s = { i=1,...,n tel que $y_{ij}^{ref} < y_{j}^{s}$
pour tout j=1,...,d}.
- Une étape de détermination, par dichotomie par exemple, de la valeur de s_j la plus petite tel que F(s)>1-α.

The third step for version 2 includes for example the following steps:

- a step for defining ${there}_{I}^{s}$
, the s _j -quantile of the cumulative distribution function $P_{I}^{ref}$
associated with the smoothed probability distribution function $p_{I}^{ref}$
introduced in step 2, for each marker j.
- a step for defining the function F (increasing from [0.1] to [0.1]) by
$F (s) = \frac{card ({NV}^{s})}{not}$
, where VN ^s is defined by VN ^s = { i = 1,...,n such that ${there}_{ij}^{ref} < {there}_{I}^{s}$
for all j = 1,...,d}.
- A step of determining, by dichotomy for example, the smallest value of s _j such that F(s) > 1-α.

Connaissant les valeurs s_j , il est donc ensuite possible de déterminer les seuils associés pour chacun des marqueurs.Knowing the values s _j , it is then possible to determine the associated thresholds for each of the markers.

Ainsi, dans cette version 2, ayant fixé un α tolérable ou égal à 0, on cherche la plus petite valeur de seuil correspondant pour chacun des marqueurs.Thus, in this version 2, having fixed a tolerable α or equal to 0, the smallest corresponding threshold value is sought for each of the markers.

En appliquant les valeurs de seuils déterminées à l'échantillon à analyser, le procédé peut alors ensuite déterminer l'ensemble S⁺ de cellules positives, comme ceci est détaillé dans une quatrième étape décrite ci-après.By applying the threshold values determined to the sample to be analyzed, the method can then then determine the set S ⁺ of positive cells, as this is detailed in a fourth step described below.

Ainsi, dans cette version, l'ensemble S⁺ est déterminé à partir du taux α.Thus, in this version, the set S ⁺ is determined from the rate α.

Quelle que soit la version (1 ou 2), à l'issue de l'étape 3 précédemment décrite, on connaît combien de cellules, et lesquelles, sont considérées positives dans l'échantillon à analyser, et quel est le taux de faux positifs (α) dans l'échantillon de référence et de fait, les valeurs s_j et les s_j -quantiles $y_{j}^{s}$

à considérer pour chacun des marqueurs.Whatever the version (1 or 2), at the end of step 3 described above, we know how many cells, and which ones, are considered positive in the sample to be analyzed, and what is the rate of false positives ( α ) in the reference and fact sample, the s _j values and the s _j -quantiles

{there}_{I}^{s}

to be considered for each of the markers.

Fourth step : Classification of the sample to be analyzed

Ensuite, une quatrième étape vise à classer les cellules de l'échantillon à analyser en un ensemble de cellules positives d'une part, et négatives d'autre part.Then, a fourth step aims to classify the cells of the sample to be analyzed into a set of positive cells on the one hand, and negative on the other.

Une cellule de l'échantillon à analyser est déclarée positive si l'expression normalisée de l'un des marqueurs, c'est-à-dire d'au moins l'un des d marqueurs, est supérieure à la valeur du seuil correspondant estimée à la troisième étape.A cell of the sample to be analyzed is declared positive if the normalized expression of one of the markers, that is to say of at least one of the d markers, is greater than the value of the corresponding threshold estimated at the third stage.

La quatrième étape comporte par exemple une étape de définition et de détermination d'un ensemble de cellules déclarées négatives dans l'échantillon à analyser par S ^- = {k=1,...,m tel que y^test _kj < y^s _j pour tout j=1,...,d }. The fourth step comprises for example a step of defining and determining a set of cells declared negative in the sample to be analyzed by S ^- = {k = 1,...,m such that y ^test _kj < y ^s _j for all j = 1,...,d }.

Est ainsi défini l'ensemble S ^- des cellules déclarées négatives, c'est-à-dire celles dont toutes les expressions des marqueurs normalisées sont sous les seuils des marqueurs correspondants. L'ensemble S ⁺ de cellules déclarées positives est ainsi le complémentaire de S ^-.The set S ⁻ of cells declared negative, that is to say those for which all the expressions of the normalized markers are below the thresholds of the corresponding markers, is thus defined. The set S ⁺ of cells declared positive is thus the complement of S ^- .

Ainsi, l'étape précédemment mentionnée est par exemple particulièrement intéressante suite à la version 2 de la troisième étape, alors que dans la version 1, il est par exemple possible de déterminer l'ensemble S^- directement en prenant le complémentaire de l'ensemble S⁺ qui a été déterminé à partir de l'ensemble E⁺ en vue du calcul de α.Thus, the previously mentioned step is for example particularly interesting following version 2 of the third step, whereas in version 1, it is for example possible to determine the set S ^- directly by taking the complement of the set S ⁺ which was determined from the set E ⁺ for the calculation of α.

Fifth step: Analysis of positive cells

Pour chaque cellule détectée comme positive dans l'échantillon à analyser, le procédé peut indiquer au moins un marqueur dont l'expression est supérieure au seuil correspondant.For each cell detected as positive in the sample to be analyzed, the method can indicate at least one marker whose expression is greater than the corresponding threshold.

Pour cela, une première étape vise à définir un ensemble X ⁺ tel que X ⁺={(k,j), k dans S ⁺ et j=1,...,d tel que y^test _kj ≥ y^s _j }. Ainsi, X ⁺ représente l'ensemble des couples (cellule, marqueur), où cellule est une cellule déclarée positive dans l'échantillon à analyser et marqueur est un marqueur dont la valeur normalisée est supérieure au seuil correspondant pour la cellule. Par conséquent, pour l'ensemble des cellules ayant été définies comme positives, en considérant un marqueur en particulier, certaines cellules ont un marqueur dont l'expression normalisée est supérieure au seuil correspondant, alors que d'autres peuvent avoir une expression inférieure au seuil correspondant, celles-ci ayant alors été déclarées positives de par l'expression au-delà du seuil d'un autre marqueur.For this, a first step aims to define a set X ⁺ such that X ⁺ = {(k,j), k in S ⁺ and j = 1,...,d such that y ^test _kj ≥ y ^s _j } . Thus, X ⁺ represents the set of pairs (cell, marker), where cell is a cell declared positive in the sample to be analyzed and marker is a marker whose normalized value is greater than the corresponding threshold for the cell. Consequently, for all the cells that have been defined as positive, considering a particular marker, some cells have a marker whose normalized expression is above the corresponding threshold, while others may have an expression below the threshold. corresponding, these having then been declared positive by the expression beyond the threshold of another marker.

Ainsi, parmi les cellules déclarées positives, il est par exemple possible de dénombrer combien de fois un marqueur s'est exprimé. Pour cela, une étape consiste à déterminer, pour chaque marqueur j, la valeur de Z_j = card ( k dans S ⁺ tel que (k,j) est dans X ⁺ ), qui est aussi égal à Z_j = card ( k dans S ⁺ tel que $y_{kj}^{test} \geq y_{j}^{s}$

). En d'autre terme, le procédé comporte par exemple une étape de dénombrement des occurrences d'un marqueur.Thus, among the cells declared positive, it is for example possible to count how many times a marker has been expressed. To do this, one step consists in determining, for each marker j, the value of Z _j = card ( k in S ⁺ such that (k,j) is in X ⁺ ), which is also equal to Z _j = card ( k in S ⁺ such that

{there}_{K J}^{test} \geq {there}_{I}^{s}

). In other words, the method comprises for example a step of counting the occurrences of a marker.

Connaissant l'occurrence de chaque marqueur par exemple, il est ainsi possible de les hiérarchiser, par exemple par ordre d'importance, le plus important (fréquent) étant alors donné par l'expression argmax(Z_j ). Le procédé comporte alors par exemple une étape de hiérarchisation des marqueurs selon leur occurrence, c'est-à-dire selon le nombre de fois qu'une cellule s'est exprimée à son égard.Knowing the occurrence of each marker for example, it is thus possible to rank them, for example in order of importance, the most important (frequent) then being given by the expression argmax( Z _j ). The method then comprises, for example, a step of hierarchizing the markers according to their occurrence, that is to say according to the number of times that a cell has expressed itself with regard to it.

Ainsi, par exemple, un post-processeur peut alors fournir une analyse statistique de l'ensemble de sortie X ⁺, par exemple une hiérarchisation des marqueurs.Thus, for example, a post-processor can then provide a statistical analysis of the output set X ⁺ , for example a hierarchy of markers.

Claims

Method for analysing cells of a sample reacting with at least one specific marker comprising:
- a step of providing a reference sample and a sample to be analysed;
the method being characterized in that it further comprises:
- a step of providing a set (E⁺) of cells declared positive by an expert from among the cells of the sample to be analysed;

- a step of determining a vector coefficient (Θ) from the sample to be analysed and from the set (E⁺);

- a step of determining at least one set of positive cells in the reference sample as a function of the vector coefficient (Θ); and

- a step of calculating a rate of false positives in the reference sample (α) from the number of positive cells of the reference sample.
Method according to claim 1, characterized in that the step of determining the vector coefficient (Θ) comprises a minimization of a quantity of false positives and a minimization of a quantity of false negatives in the sample to be analysed.
Method according to any one of claims 1 or 2, characterized in that the step of determining the vector coefficient (θ) comprises:
- a step of defining, for each of the markers j, an s_j -quantile $y_{j}^{s}$
, quantile of a cumulative distribution function $P_{j}^{test}$
associated with a smoothed probability distribution function $p_{j}^{test}$
determined by smoothing a marginal distribution of the j ^th marker in the sample to be analysed;

- a step of defining the set (S⁺) of cells declared positive with respect to the s_j -quantile $y_{j}^{s}$
for each marker j in the sample to be analysed;

- a step of defining and determining a cardinal of the symmetrical difference between S ⁺ and E ⁺;

- a step of determining each of the largest values of the vector coefficient (θ) of each of the markers by minimization of the cardinal with respect to the value s_j of each marker j in the interval [0,1], for all the markers.
Method according to any one of claims 1 to 3, characterized in that it comprises:
- a step of providing the rate of false positives (α) in the reference sample;

- a step of determining a vector coefficient (θ) based on the reference sample and the rate of false positives (α); and

- a step of determining at least one set (S⁺) of positive cells in the sample to be analysed as a function of the vector coefficient (θ).
Method for analysing cells of a sample reacting with at least one specific marker comprising:
- a step of providing a reference sample and a sample to be analysed;

- a step of providing a rate of false positives (α) in the reference sample;

- a step of determining a vector coefficient (θ) based on the reference sample and the rate of false positives (α); and

- a step of determining at least one set (S⁺) of positive cells in the sample to be analysed as a function of the vector coefficient (θ);
characterized in that the step of determining a vector coefficient (θ) comprises:
- a step of defining, for each of the markers j, an s_j -quantile $y_{j}^{s}$
, quantile of a cumulative distribution function $P_{j}^{ref}$
associated with a smoothed probability distribution function $p_{j}^{ref}$
determined by smoothing a marginal distribution of the j ^th marker in the reference sample;

- a step of defining a function F(s) representing a rate of negative cells in the reference sample, increasing from [0,1] to [0,1], by $F (s) = \frac{card ({VN}^{2})}{n}$
, where VN^s is defined by VN^s = {i=1,...,n such that $y_{ij}^{ref} < y_{j}^{s}$
for each j=1,...,d}, the set of the cells of the reference sample a measured value of which is under the value of the vector coefficient (θ) of the corresponding marker for all the markers;

- a step of determining the smallest value of s_j such that F(s)>1-a; and

- a step of determining the values of the vector coefficient (θ).
Method according to claim 5, characterized in that the step of determining the vector coefficient (θ) comprises a maximization of a quantity of positive cells in the sample to be analysed respecting the given rate of false positives (α).
Method according to any one of claims 1 to 6, characterized in that the vector coefficient (θ) is a set of threshold values of the expression of each of the markers above each of which a cell is declared positive.
Method according to any one of claims 1 to 7, characterized in that it comprises an analysis step in which at least one marker to which at least one cell reacts positively is identified.
Method according to any one of claims 1 to 8, characterized in that it comprises a step of verification by evaluation of a confusion matrix.