FR3099182A1 - Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique - Google Patents

Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique Download PDF

Info

Publication number
FR3099182A1
FR3099182A1 FR1908363A FR1908363A FR3099182A1 FR 3099182 A1 FR3099182 A1 FR 3099182A1 FR 1908363 A FR1908363 A FR 1908363A FR 1908363 A FR1908363 A FR 1908363A FR 3099182 A1 FR3099182 A1 FR 3099182A1
Authority
FR
France
Prior art keywords
species
interest
biological species
sequences
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1908363A
Other languages
English (en)
Other versions
FR3099182B1 (fr
Inventor
Vladimir Lazarevic
Sébastien HAUSER
Maud TOURNOUD
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biomerieux SA
Original Assignee
Biomerieux SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biomerieux SA filed Critical Biomerieux SA
Priority to FR1908363A priority Critical patent/FR3099182B1/fr
Priority to CN202080053378.1A priority patent/CN114555835A/zh
Priority to JP2022504011A priority patent/JP2022541596A/ja
Priority to US17/629,055 priority patent/US20220275429A1/en
Priority to PCT/EP2020/070715 priority patent/WO2021013900A1/fr
Priority to EP20742277.5A priority patent/EP4004233A1/fr
Publication of FR3099182A1 publication Critical patent/FR3099182A1/fr
Application granted granted Critical
Publication of FR3099182B1 publication Critical patent/FR3099182B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6851Quantitative amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

Procédé de détection d'une espèce biologique d'intérêt (SOI) présente dans un échantillon d'analyse, l'espèce biologique d'intérêt présentant un génome connu, l'échantillon d'analyse comportant un mélange de différentes espèces biologiques, le procédé comportant les étapes suivantes : extraction de séquences de nucléotides de l'échantillon d'analyse ; séquençage des séquences de nucléotides extraites lors de l'étape a) ; à partir du séquençage, obtention de séquences normalisées assignées à l'espèce biologique d'intérêt et à l'espèce de contrôle ; comparaison des séquences normalisées respectivement assignées à l'espèce biologique d'intérêt et à l'espèce de contrôle à des seuils de détection respectivement associés à l'espèce biologique d'intérêt et à l'espèce de contrôle.

Description

Procédé de détection et de quantification d'une espèce biologique d'intérêt paranalyse métagénomique
Le domaine technique de l'invention est l'identification d'une espèce biologique d'intérêt par analyse métagénomique.
ART ANTERIEUR
L'amplification des acides nucléiques par PCR (Polymerase Chain Reaction) permet d'effectuer un diagnostic rapide et précoce quant à la présence de certains microorganismes dans un échantillon. La PCR est par exemple particulièrement adaptée pour détecter l'ADN (Acide Désoxyribonucléique) de bactéries difficilement cultivables, ou se développant lentement, telles queMycobacterium tuberculosis.
Cependant, la mise en œuvre de la PCR nécessite l'utilisation d'amorces, ciblant spécifiquement un gène présent dans une espèce biologique cible. Ainsi, la PCR permet une analyse spécifique à une espèce biologique, ce qui en fait une méthode sélective, sensible, et pouvant être quantitative. Cependant elle suppose un a priori sur l'espèce biologique ciblée. Si plusieurs espèces biologiques sont recherchées, des PCR dites multiplex doivent être réalisées, ce qui rend le processus plus complexe.
Il est également possible de cibler un gène, présent dans différentes espèces biologiques cibles. En ce qui concerne les bactéries, il s'agit par exemple du gène ARN 16S. L'analyse par PCR est alors dite à large spectre. En cas de test positif, un séquençage doit être réalisé afin d'identifier l'espèce biologique présente dans l'échantillon. Cependant, la PCR à large spectre est plus délicate à mettre en œuvre, et suppose de disposer d'un a priori sur l'espèce biologique cible à identifier.
A l'inverse des techniques précédemment décrites, la métagénomique permet de séquencer des génomes de plusieurs individus d'espèces biologiques différentes dans un milieu donné. On peut alors déterminer les espèces effectivement présentes dans l'échantillon, ainsi que leurs abondances relatives. La métagénomique séquence les génomes de plusieurs individus d'espèces différentes dans un milieu donné, et cela sans a priori sur les espèces biologiques dans l'échantillon, qu'elles soient bactériennes, virales ou humaines. On dispose alors d'une analyse des différents génomes des espèces biologiques d'un échantillon. On peut alors déterminer quelles espèces sont présentes, ainsi que leurs abondances relatives.
Des progrès ont récemment été réalisés dans le domaine du séquençage, avec l'avènement des séquençages de deuxième ou de troisième génération, dits séquençage haut débit, également désignés par l'acronyme HTS (High Throughput Sequencing). Les performances de la bioinformatique, permettant un traitement informatique rapide de l'information biologique issue du séquençage, se sont améliorées. Le séquençage haut débit permet à présent de générer suffisamment de séquences pour obtenir un inventaire représentatif des différentes espèces présentes dans l'échantillon. Il s'agit d'une méthode d'analyse disponible commercialement, et dont l'utilisation devient relativement courante. Le document WO2018/069430 décrit une application d'une analyse métagénomique pour l'identification d'agents pathogènes ainsi que des marqueurs de résistance à des antibiotiques.
La publication Ruppé E "Clinical metagenomics of bone and joint infections : a proof of concept study", décrit également l'application de la métagénomique pour l'identification de bactéries.
L'inventeur propose un procédé de détection, et éventuellement de quantification, d'une espèce biologique d'intérêt, voire de différentes espèces biologiques d'intérêt, dans un échantillon, en mettant en œuvre une analyse métagénomique de l'échantillon. De plus, le procédé permet d'établir un indicateur relatif au bon déroulement des étapes biologiques ou bioinformatiques du processus métagénomique.
Un objet de l'invention est un procédé de détection d'une espèce biologique d'intérêt potentiellement présente dans un échantillon d'analyse, l'espèce biologique d'intérêt présentant un génome connu ou partiellement connu, l'échantillon d'analyse comportant un mélange de différentes espèces biologiques, le procédé comportant les étapes suivantes :
  1. extraction des acides nucléiques de l'échantillon d'analyse ;
  2. séquençage des séquences de nucléotides extraites lors de l'étape a) ;
  3. à partir du résultat du séquençage :
  1. assignation des séquences résultant de l'étape b) à partir d'une base de séquences de référence ;
  2. détermination d'une quantité de séquences assignées à l'espèce biologique d'intérêt;
  3. prise en compte d'un seuil de détection associé à l'espèce biologique d'intérêt;
  4. comparaison de la quantité résultant de la sous-étape ii) au seuil de détection pris en compte lors de l'étape iii) ;
le procédé étant caractérisé en ce qu'il comporte, préalablement à l'étape a), l'ajout d'une espèce de contrôle, l'espèce de contrôle étant ajoutée selon une concentration connue, dans l'échantillon d'analyse, l'espèce de contrôle présentant un génome connu, et en ce que l'étape c) comporte :
v) détermination d'une quantité de séquences assignées à l'espèce de contrôle;
vi) prise en compte d'un seuil de détection associé à l'espèce de contrôle;
vii) comparaison de la quantité résultant de la sous-étape v) avec le seuil de détection pris en compte lors de la sous-étape vi) ;
d) utilisation des comparaisons effectuées lors des sous-étapes iv) et vii) pour déterminer une présence de l'espèce biologique d'intérêt dans l'échantillon.
Le procédé peut comporter une prise en compte d'un seuil de décision. L'étape d) peut alors comporter, en fonction des comparaisons effectuées lors des sous-étapes iv) et vii), une confirmation ou une non confirmation de la présence de l'espèce biologique d'intérêt en dessus ou en dessous du seuil de décision.
Le seuil de décision est de préférence exprimé dans une unité correspondant à un nombre de séquences par unité de volume (ou de masse), par exemple en Génome Equivalent par mL. Le seuil de décision peut dépendre de l'espèce biologique considérée.
De préférence, les quantités de séquences respectivement assignées à l'espèce biologique d'intérêt et à l'espèce biologique de contrôle sont normalisées par une quantité de référence. La quantité de référence peut par exemple être une quantité totale de séquences produites au cours du séquençage.
Lors de l'étape d),
  • lorsque la quantité de séquences assignées à l'espèce de contrôle est supérieure au seuil de détection associé à l'espèce de contrôle ;
  • et lorsque la quantité de séquences assignées à l'espèce biologique d'intérêt est supérieure au seuil de détection associé à l'espèce biologique d'intérêt ;
l'étape d) peut comporter une confirmation de la présence de l'espèce biologique d'intérêt dans l'échantillon d'analyse. L'étape d) peut alors comporter ainsi une estimation d'une concentration de l'espèce biologique d'intérêt.
Selon un mode de réalisation, le procédé comporte, de préférence préalablement à l'étape a), l'ajout d'un calibrateur, à une concentration connue, dans l'échantillon, le calibrateur présentant un génome connu. Lors de l'étape d), l'estimation de la concentration de l'espèce biologique d'intérêt comporte alors:
  • détermination d'un premier ratio, entre les quantités de séquences respectivement assignées à l'espèce biologique d'intérêt et au calibrateur ;
  • détermination d'un deuxième ratio, entre les tailles de génome respectives du calibrateur et de l'espèce biologique d'intérêt ;
  • prise en compte de la concentration du calibrateur ajoutée dans l'échantillon d'analyse.
L'estimation de la concentration d'espèce biologique d'intérêt peut alors comporter un calcul d'un produit du premier ratio par le deuxième ratio et par la concentration du calibrateur ajouté dans l'échantillon d'analyse.
L'espèce de contrôle peut faire office de calibrateur. Dans ce cas, lors de l'étape d), l'estimation de la concentration de l'espèce biologique d'intérêt peut comporter :
  • détermination d'un ratio de quantités, entre les quantités de séquences respectivement assignées à l'espèce biologique d'intérêt et à l'espèce de contrôle ;
  • détermination d'un ratio de tailles, entre les tailles de génome respectives de l'espèce de contrôle et de l'espèce biologique d'intérêt ;
  • prise en compte de la concentration de l'espèce de contrôle ajoutée dans l'échantillon d'analyse.
L'estimation de la concentration d'espèce biologique d'intérêt peut alors comporter un calcul d'un produit du premier ratio par le deuxième ratio et par la concentration de l'espèce de contrôle ajoutée dans l'échantillon d'analyse.
Lors de l'étape d) :
  • lorsque la quantité de séquences assignées à l'espèce de contrôle est supérieure au seuil de détection associé à l'espèce de contrôle ;
  • et lorsque la quantité de séquences assignées à l'espèce biologique d'intérêt est inférieure au seuil détection associé à l'espèce biologique d'intérêt ;
l'étape d) peut comporter :
  • estimation d'une concentration minimale détectable de l'espèce biologique d'intérêt ;
  • comparaison de la concentration minimale détectable de l'espèce biologique d'intérêt avec le seuil de décision, de telle sorte que lorsque la concentration minimale détectable de l'espèce biologique d'intérêt est inférieure au seuil de décision, il est estimé que l'espèce biologique d'intérêt n'est pas présente dans l'échantillon d'analyse à une concentration supérieure au seuil de décision.
L'estimation de la concentration minimale détectable de l'espèce biologique d'intérêt peut alors comporter:
  • détermination d'un premier ratio, entre le seuil de détection de l'espèce biologique d'intérêt et de la quantité de séquences assignées à l'espèce de contrôle ;
  • détermination d'un deuxième ratio de tailles, entre les tailles de génome respectives de l'espèce de contrôle et de l'espèce biologique d'intérêt ;
  • prise en compte de la concentration de l'espèce de contrôle ajoutée dans l'échantillon d'analyse.
Lors de l'étape d) :
  • lorsque la quantité de séquences assignées à l'espèce de contrôle est inférieure au seuil de détection associé à l'espèce de contrôle ;
  • et lorsque la quantité de séquences assignées à l'espèce biologique d'intérêt est supérieure au seuil de détection de l'espèce biologique d'intérêt ;
l'étape d) peut comporter une comparaison de la concentration de l'espèce de contrôle ajoutée à l'échantillon d'analyse avec le seuil de décision, de telle sorte que :
  • lorsque la concentration de l'espèce de contrôle ajoutée à l'échantillon d'analyse est supérieure au seuil de décision, confirmation de la présence de l'espèce biologique d'intérêt dans l'échantillon d'analyse selon une concentration supérieure au seuil de décision ;
  • lorsque la concentration de l'espèce de contrôle ajoutée à l'échantillon d'analyse est inférieure au seuil de décision, confirmation de la présence de l'espèce biologique d'intérêt dans l'échantillon d'analyse.
Lors de l'étape d) :
  • lorsque la quantité de séquences assignées à l'espèce de contrôle est inférieure au seuil de détection associé à l'espèce de contrôle ;
  • et lorsque la quantité de séquences assignées à l'espèce biologique d'intérêt est inférieure au seuil de détection de l'espèce biologique d'intérêt ;
aucune confirmation quant à la présence de l'espèce biologique d'intérêt ne peut être donnée. Les étapes a) à c) peuvent alors être considérées comme non valides.
Le procédé peut comporter une phase préalable de détermination du seuil de détection associé à l'espèce biologique d'intérêt, en utilisant une pluralité de premiers échantillons d'entraînement, considérés comme ne comportant pas l'espèce biologique d'intérêt, le procédé comportant, pour chaque premier échantillon d'entraînement :
  • extraction de séquences de nucléotides ;
  • séquençage des séquences de nucléotides ainsi extraites ;
  • détermination d'une quantité de séquences d'intérêt, assignées à l'espèce biologique d'intérêt
  • éventuellement normalisation des quantités de séquences d'intérêt assignées à l'espèce biologique d'intérêt ;
le procédé comportant alors :
  • calcul d'un indicateur de dispersion des quantités, ou des quantités normalisées, de séquences d'intérêt déterminées pour chaque premier échantillon entraînement;
  • détermination du seuil de détection associé à l'espèce biologique d'intérêt en fonction de l'indicateur de dispersion ainsi calculé.
Le procédé peut comporter un calcul d'une moyenne ou d'une médiane des quantités, éventuellement normalisées, de séquences d'intérêt déterminées pour chaque premier échantillon entraînement. Le seuil de détection associé à l'espèce biologique d'intérêt est alors également déterminé en fonction de la moyenne ou de la médiane.
Le procédé peut comporter une phase préalable de détermination du seuil de détection associé à l'espèce de contrôle, en utilisant une pluralité de deuxièmes échantillons entraînement, considérés comme ne comportant pas l'espèce de contrôle, le procédé comportant, pour chaque deuxième échantillon entraînement :
  • extraction de séquences de nucléotides ;
  • séquençage des séquences de nucléotides ainsi extraites ;
  • détermination d'une quantité de séquences, assignées à l'espèce de contrôle ;
  • éventuellement normalisation des quantités de séquences assignées à l'espèce de contrôle ;
le procédé comportant alors :
  • calcul d'un indicateur de dispersion des quantités, ou des quantités normalisées, de séquences assignées à l'espèce de contrôle, déterminées pour chaque deuxième échantillon d'entraînement ;
  • détermination du seuil de détection associé à l'espèce de contrôle en fonction de l'indicateur de dispersion ainsi calculé.
Le procédé peut comporter un calcul d'une moyenne ou d'une médiane des quantités, éventuellement normalisées, de séquences assignées à l'espèce de contrôle déterminées pour chaque deuxième échantillon entraînement. Le seuil de détection associé à l'espèce de contrôle est alors également déterminé en fonction de la moyenne ou de la médiane.
Chaque deuxième échantillon d'entraînement peut être un échantillon d'analyse, sans ajout de l'espèce de contrôle.
D'une façon générale, une quantité de séquence normalisée est obtenue en divisant une quantité de séquence résultant d'un séquençage, par une quantité de référence. La quantité de référence peut être un nombre total de séquences produites au cours du séquençage
Selon un mode de réalisation, les étapes c) et d) sont effectuées parallèlement respectivement pour différentes espèces biologiques d'intérêt, chaque espèce biologique d'intérêt étant considérée comme potentiellement présente dans l'échantillon. Selon un tel mode de réalisation, pour chaque espèce biologique d'intérêt, on met en œuvre les étapes c) et d) pour chaque espèce biologique d'intérêt.
Selon un mode de réalisation, le procédé comporte, préalablement à l'étape a), un ajout de plusieurs espèces de contrôle, de telle sorte que pour une même espèce d'intérêt, les étapes c) et d) sont effectuées en prenant en compte plusieurs espèces de contrôle, les sous-étapes iv) à vi) étant mises en œuvre, parallèlement, pour chaque espèce de contrôle.
D'autres avantages et caractéristiques ressortiront plus clairement de la description qui va suivre de modes particuliers de réalisation de l'invention, donnés à titre d'exemples non limitatifs, et représentés sur les figures listées ci-dessous.
FIGURES
La figure 1 schématise les principales étapes d'un procédé selon l'invention.
La figure 2A montre une comparaison de quantifications d'une espèce biologique d'intérêt, en l'occurrence S.aureus, respectivement en mettant en œuvre les étapes décrites ci-après (axe des ordonnées) et une méthode de référence (axe des abscisses), par mise en culture.
La figure 2B montre une comparaison de quantifications d'une espèce biologique d'intérêt, en l'occurrence S.aureus, respectivement en mettant en œuvre les étapes décrites ci-après (axe des ordonnées) et une méthode de référence (axe des abscisses), par PCR quantitative.
La figure 3 montre une distribution statistique de la quantité normalisée de séquences, correspondant respectivement à différentes espèces biologiques d'intérêt, mesurées sur des échantillons de test considérés comme ne comportant pas lesdites espèces biologiques d'intérêt.
La figure 4 est une figure représentant une comparaison entre des concentrations d'espèces biologiques d'intérêt respectivement estimées par culture (axe des abscisses) et par analyse métagénomique (axe des ordonnées).
EXPOSE DE MODES DE REALISATION PARTICULIERS
L'objectif du procédé est de pouvoir détecter la présence d'une espèce biologique d'intérêt SOI dans un échantillon. L'acronyme SOI signifie "Species of Interest". En cas de détection, le procédé peut permettre une quantification absolue de l'espèce d'intérêt SOI, de façon à permettre une comparaison avec un seuil de décision SD.
Par espèce biologique, il est entendu un microorganisme, par exemple une bactérie, ou un virus, un champignon, une archéobactérie, une amibe, un protiste, une microalgue. Une espèce biologique peut également être une cellule ou tout autre matériel ou entité comportant un acide nucléique séquençable.
Lorsque l'échantillon est issu d'un organisme humain ou animal, l'espèce biologique d'intérêt peut être une espèce pathogène. Lorsque l'échantillon est issu d'un prélèvement dans un procédé industriel ou dans l'environnement, l'espèce biologique d'intérêt peut être une espèce considérée comme contaminante, ou une espèce d'intérêt ayant une importance dans un processus industriel ou dans l'environnement, et dont on souhaite contrôler la présence ou la concentration.
L'espèce d'intérêt présente un génome connu, ou partiellement connu. Le génome, ou sa portion connue, est constitué de séquences, dites séquences d'intérêt.
Le procédé peut adresser simultanément plusieurs espèces d'intérêt. Aussi, le terme une espèce d'intérêt est à interpréter comme signifiant au moins une espèce d'intérêt.
Le seuil de décision SD est un seuil permettant de caractériser une charge de l'espèce biologique d'intérêt, par exemple d'un microorganisme, en fonction de l'application visée. Il est par exemple établi à partir d'une limite réglementaire, ou sanitaire ou industrielle. Par exemple, lorsque l'application est utilisée dans l'aide au diagnostic clinique, l'espèce biologique d'intérêt étant une bactérie, le seuil de décision peut être une concentration en deçà de laquelle la présence de la bactérie correspond à fune colonisation, c'est-à-dire un développement non pathologique, et au-delà de laquelle la présence de la bactérie est considérée comme pathologique, correspondant par exemple à une infection. Lorsque l'invention est appliquée dans un procédé industriel, le seuil de détection correspond à une valeur de conformité, de telle sorte qu'au-delà du seuil de détection, l'échantillon est considéré comme non conforme, et qu'en deçà du seuil de détection, l'échantillon est considéré comme conforme. Quelle que soit l'application, lorsque la concentration de l'espèce biologique d'intérêt est supérieure ou égale au seuil de décision, elle est définie comme étant critique. Dans certaines applications, par exemple dans la fabrication de produits subissant une fermentation, une concentration d'espèce biologique d'intérêt peut être considérée comme critique si elle est inférieure à un seuil de décision, ce dernier correspondant à une concentration minimale admissible de l'espèce biologique.
L'échantillon est généralement un échantillon prélevé, dans l'environnement ou dans un organisme, mort ou vivant, ou encore dans un produit agroalimentaire ou manufacturé. L'échantillon peut également avoir été prélevé dans une installation industrielle à des fins de contrôle de procédé. Aussi, l'échantillon comporte différentes espèces biologiques, ne présentant pas le même génome. En particulier, lorsque l'échantillon résulte d'un prélèvement d'un organisme, par exemple un organisme humain ou animal, l'échantillon comporte une quantité significative, voire majoritaire, de cellules provenant de l'organisme prélevé. Les génomes des organismes humains ou animaux ont une taille 1000 à 100 000 fois plus importante que les génomes des organismes procaryotes. De plus, l'échantillon comporte généralement des espèces biologiques naturellement présentes dans l'échantillon, et non susceptibles d'entraîner une pathologie ou une contamination critique. Par exemple, lorsque l'échantillon est un prélèvement broncho-alvéolaire, il comporte une flore bactérienne naturellement présente dans les poumons. Lorsque l'échantillon est un prélèvement de selles, il comporte une flore bactérienne naturellement présente dans le tube digestif. En cela, lorsque l'espèce biologique d'intérêt est une bactérie ou un virus, les acides nucléiques provenant de l'espèce biologique d'intérêt peuvent être minoritaires dans l'échantillon.
L'échantillon comporte des espèces dites "de matrice", endogènes dans l'échantillon, et susceptibles de masquer l'information métagénomique relative à l'espèce biologique d'intérêt. Par exemple, lorsque l'échantillon est prélevé dans un yaourt, dans une viande ou dans un vaccin, il comporte des espèces de matrice représentatives de ces milieux. Dans le cas d'un prélèvement sur un organisme, la matrice comporte les cellules composant l'organisme.
Un aspect important de l'invention est que l'échantillon subit une extraction d'acides nucléiques (ADN et/ou ARN), suivie par un processus de séquençage, selon les principes de l'analyse métagénomique. Le processus de séquençage peut être précédé d'un processus d'amplification. Le séquençage peut être un séquençage complet du génome, usuellement désigné par le terme "whole genome sequencing" (WGS), notamment un séquençage complet de type shotgun. Un inventaire de séquences de gènes des différentes espèces constituant l'échantillon est ainsi obtenu. La totalité, ou la quasi-totalité, de l'acide nucléique des différentes espèces constituant l'échantillon est séquencée, par une méthode de séquençage haut débit. Des moyens bioinformatiques permettent alors d'identifier des séquences d'intérêt, associées à l'espèce biologique d'intérêt, et d'en déterminer une quantité, généralement une quantité normalisée, comme décrit par la suite. Les moyens informatiques sont basés sur une base de données de séquences de référence, par exemple des génomes complets de référence dans le cadre d'un processus de type WGS précédemment évoqué. La base de données comporte au moins les génomes, totaux ou partiels, des espèces biologiques d'intérêt potentiellement présentes dans l'échantillon. Elle comporte également le génome, total ou partiel, d'une espèce biologique dite de contrôle, cette dernière étant décrite par la suite.
Ainsi, selon cette technique, on obtient, par séquençage, une description génomique des différentes espèces constituant l'échantillon. On identifie ensuite, parmi les séquences génomiques inventoriées, les séquences correspondant à l'espèce biologique d'intérêt et celles correspondant à l'espèce de contrôle.
Le procédé comporte les étapes décrites ci-après, en lien avec la figure 1.
Etape 10: prélèvement de l'échantillon.
Dans cet exemple, l'échantillon est prélevé dans un organisme humain vivant, à des fins d'aide au diagnostic. Cependant, l'invention ne se limite pas à une application dans le domaine du vivant. L'échantillon peut être prélevé dans un environnement industriel ou hospitalier, de façon à vérifier une conformité à l'égard d'un seuil de décision.
Etape 20: ajout d'une espèce de contrôle.
Un des objectifs de l'invention est d'évaluer dans quelle mesure une analyse métagénomique est exploitable. Il s'agit en particulier d'évaluer une conformité de l'ensemble des étapes depuis la préparation de l'échantillon, prélèvement exclu, jusqu'à l'analyse bioinformatique des données de séquençage. A cette fin, une espèce de contrôle, noté SPC, acronyme de Sample Processing Control, est ajoutée dans l'échantillon. Une fonction de l'espèce de contrôle est de permettre un contrôle du bon déroulement des étapes d'extraction d'acides nucléiques et de séquençage, décrites par la suite. L'espèce de contrôle SPC peut être une espèce biologique connue, dont le génome est également connu, de préférence en totalité. L'espèce de contrôle SPC peut être une espèce biologique naturelle. Il peut également s'agir d'une espèce artificielle, par exemple un ARN (acide ribonucléique) encapsidé. De préférence, l'espèce de contrôle SPC n'est pas initialement présente dans l'échantillon prélevé, ou selon une quantité négligeable. De préférence, la teneur en espèce de contrôle SPC initialement présente dans l'échantillon, c'est-à-dire présente avant l'ajout, et de préférence au moins 10 fois inférieure, ou de préférence au moins 100 ou 1000 fois inférieure à la concentration ajoutée CSPCde l'espèce de contrôle SPC dans l'échantillon. L'espèce de contrôle SPC peut par exemple être une bactérie. Il est important que la concentration de l'espèce de contrôle ajoutée soit maîtrisée.
L'espèce de contrôle peut être choisie en tenant compte des aspects listés ci-dessous :
  1. L'espèce de contrôle doit de préférence se distinguer, des organismes naturellement présents dans l'échantillon, ou organismes endogènes, ainsi que de l'espèce d'intérêt recherchée : ainsi, l'outil bioinformatique peut identifier avec précision les séquences issues du séquençage du SPC.
  2. La quantité de séquences assignées à l'espèce de contrôle, au cours du séquençage, doit être suffisante pour pouvoir être détectée de façon correcte, sans pour autant masquer l'information utile, correspondant aux séquences de l'espèce biologique d'intérêt. En d'autres termes, l'espèce de contrôle est de préférence détectable par le séquençage haut débit, tout n'étant pas prépondérante dans l'échantillon. En particulier, lorsqu'on souhaite déterminer une positivité (concentration de l'espèce supérieure au seuil de décision) ou une négativité (concentration de l'espèce inférieure au seuil de décision), il est préférable que l'espèce de contrôle soit telle que :
    • La taille de son génome est de préférence similaire, ou au moins comparable, à la taille du génome de l'espèce biologique d'intérêt. Plus particulièrement, la taille du génome de l'espèce de contrôle est comprise entre 0.1 fois à 10 fois la taille du génome de l'espèce biologique d'intérêt.
    • La concentration CSPCde l'espèce de contrôle peut être déterminée en fonction du seuil de décision. La concentration CSPCde l'espèce de contrôle SPC ajoutée peut être par exemple comprise entre 0,001 fois et 1000 fois, et de préférence entre 0.01 et 100 fois le seuil de décision.
    • Les acides nucléiques de l'espèce de contrôle SPC subissent un traitement similaire aux acides nucléiques de l'espèce d'intérêt lors des étapes de préparation de l'échantillon, de l'extraction et de séquençage, et de préférence :
      • le pourcentage de bases GC (Guanine, Cytosine) est de préférence proche du pourcentage de bases GC de l'espèce biologique d'intérêt ; Par proche de, on entend compris entre 75% et 125%, et de préférence entre 80% et 120 %.
      • l'espèce biologique de contrôle comporte de préférence, lorsque l'espèce biologique d'intérêt est une bactérie, une membrane ou une paroi cellulaire intègre ou, lorsque l'espèce biologique d'intérêt est un virus, une enveloppe protéique. Cette condition permet en outre un suivi des étapes de lyse ou de l'extraction des acides nucléiques de l'espèce biologique d'intérêt.
  3. Les séquences de nucléotides de l'espèce de contrôle ne contiennent pas, de préférence, de marqueurs génomiques, comme par exemple des marqueurs de résistance aux antibiotiques, des marqueurs de virulence, de façon à ne pas fausser des résultats d'un éventuel test de sensibilité aux antibiotiques par la présence de tels marqueurs dans le génome de l'espèce biologique d'intérêt. De préférence, les séquences de nucléotides de l'espèce de contrôle ne contiennent pas tout autre gène présentant un intérêt clinique ou industriel et dont la présence est susceptible d'être contrôlée.
  4. L'espèce de contrôle est de préférence aisément manipulable, en particulier :
    • en étant inoffensive pour l'homme ou l'environnement ;
    • et/ou en étant résistante à des traitements thermiques de type lyophilisation ou congélation, ce qui facilite le stockage.
  5. L'espèce de contrôle ne doit pas former des spores, ou de façon marginale.
  6. L'espèce de contrôle doit présenter une sensibilité à la lyse proche de celle de l'espèce biologique d'intérêt.
  7. L'espèce de contrôle est présente sous la forme de billes, chaque bille comportant une concentration calibrée d'espèce biologique de contrôle sous forme lyophilisée.
Il est précisé qu'une unique espèce de contrôle SPC peut être utilisée, ou que plusieurs espèces de contrôle, de différents types, peuvent être utilisées. On peut utiliser différentes espèces biologiques de contrôle pour une même espèce biologique d'intérêt. Selon une possibilité, l'espèce de contrôle forme un calibrateur. Selon une autre variante, un calibrateur, différent de l'espèce de contrôle, est ajouté à l'échantillon. Le calibrateur permet une estimation de la concentration de l'espèce d'intérêt. Cette alternative, qui correspond à une variante de l'invention, est décrite après la description des étapes 61 à 64. Cf. paragraphe "Variante".
La concentration ajoutée CSPCde l'espèce de contrôle SPC est de préférence connue avec précision. En effet, elle peut permettre, sous réserve que certaines conditions soient remplies, de quantifier la concentration d'espèce biologique d'intérêt dans l'échantillon, l'espèce de contrôle formant alors un calibrateur. Le terme concentration ajoutée désigne la concentration de l'espèce de contrôle dans l'échantillon due à l'ajout de l'espèce de contrôle.
Dans la description des étapes 30 à 60, on se base, à titre d'exemple avantageux, sur l'ajout d'un seul type d'espèce de contrôle dans l'échantillon. L'espèce de contrôle remplit alors la fonction de contrôle qualité des étapes de l'analyse métagénomique, ainsi que la fonction de calibrateur, permettant une quantification de la concentration de l'espèce biologique d'intérêt.
A l'issue de l'étape 20, on dispose d'une concentration ajoutée CSPCde l'espèce de contrôle dans l'échantillon. La concentration ajoutée CSPCpeut être exprimée en GEq/mL (génome équivalent par mL).
Etape 30 :lyse et extraction des acides nucléiques.
Au cours de cette étape, les cellules de l'échantillon, et notamment les cellules de l'espèce biologique d'intérêt et de l'espèce de contrôle, subissent une lyse, pour permettre une extraction de leur ADN. Différentes stratégies peuvent être envisagées :
  • la lyse peut être paramétrée pour cibler préférentiellement l'espèce biologique d'intérêt ;
  • l'espèce de contrôle doit présenter une même sensibilité à la lyse que l'espèce biologique d'intérêt, ou une sensibilité à la lyse considérée comme équivalente.
  • la lyse peut inclure une première lyse, destinée à lyser essentiellement des cellules autres que l'espèce d'intérêt. Une telle première lyse peut par exemple être envisagée lorsque l'espèce biologique d'intérêt est très minoritaire par rapport aux cellules d'une matrice composant l'échantillon. A la suite de la première lyse, les acides nucléiques libérés sont évacués, puis une deuxième lyse est réalisée, visant l'espèce biologique d'intérêt. Selon un tel scénario, l'espèce de contrôle est de préférence résistante à la première lyse, et non résistante à la deuxième lyse.
Suite à la lyse, l'ADN est extrait de l'échantillon par exemple selon le procédé d'extraction décrit dans WO2014/114896.
L'ADN extrait de l'échantillon peut être composé essentiellement de l'ADN de la matrice, c'est-à-dire de l'environnement duquel a été prélevé l'échantillon. Dans ce cas, l'échantillon peut subir une capture et/ou une amplification sélective, ciblant principalement des séquences et/ou des modifications physico-chimiques spécifiques des génomes de l'espèce biologique d'intérêt. Dans ce cas, l'espèce de contrôle comporte les séquences et/les modifications physico-chimiques ciblées par la capture ou l'amplification sélective. Inversement, l'échantillon peut subir une déplétion ciblant essentiellement l'ADN de la matrice. Dans ce cas, l'espèce de contrôle ne comporte pas de séquences ou de modifications physicochimiques pouvant être visées par la déplétion.
Etape 40: Amplification et séquençage.
Suite à l'extraction d'ADN, les fragments d'ADN subissent optionnellement une amplification qui peut être de type ciblée, par exemple par PCR (Polymerase Chain Reaction), ou non ciblée, par exemple par WGA (Whole Genome Amplification). L'ADN extrait de l'échantillon, le cas échéant amplifié, subit un séquençage, de préférence un séquençage de type WGS (Whole Genome Sequencing). Il existe de nombreuses techniques de séquençage, par exemple de type séquençage par synthèse (SBS), ou par nanopore, ou par hybridation. Quelle que soit la technique employée, le but du séquençage est de fournir des séquences numériques d'acides nucléiques, dites reads. Le séquençage comporte une préparation de banques de séquences (ou library preparation), optionnellement suivie d'une étape d'amplification, puis d'une étape de séquençage proprement dite. La technique de séquençage d'acide nucléique étant bien connue, elle ne sera pas décrite dans le détail. L'amplification et le séquençage peut être mise en œuvre par la plateforme MiSeq, commercialisée par la société Illumina.
Lors de la préparation des banques de séquences, l'ADN peut être morcelé de manière aléatoire, de façon à obtenir des séquences d'acides nucléiques d'une longueur moyenne ciblée, généralement une longueur moyenne comprise entre 50 bases et 300 bases. On parle de séquençage aléatoire, ou séquençage "shotgun", ou de séquençage de type WGS (Whole Genome Sequencing). Avec ce type de technique, les acides nucléiques, quelle que soit leur origine, sont traités de manière identique lors de la préparation de la banque de séquences.
A la suite de la préparation des banques de séquences, le séquençage haut débit est réalisé. Le séquenceur procède à la lecture des bases des fragments d'ADN séquencés, de manière à obtenir des séquences dites "reads", chaque "read" correspondant à une séquence décodée par le séquenceur. Les séquences issues du séquençage sont ensuite alignées par rapport à des génomes mémorisés dans une base de données, dont notamment le génome de l'espèce biologique d'intérêt recherchée et le génome de l'espèce de contrôle. Le séquençage est une opération connue de l'homme du métier. Des détails relatifs aux opérations de séquençage sont donnés par exemple dans les documents cités en lien avec l'art antérieur, en particulier WO2018/069430 ou dans la publication Ruppé E précédemment citée.
Le séquenceur transmet des fichiers, correspondant aux mesures effectuées comportant les "reads" à une unité de traitement de données. Cette dernière comporte une mémoire, dans laquelle sont stockées des instructions permettant la mise en œuvre d'algorithmes de séquençage. Les algorithmes de séquençage permettent d'identifier, pour chaque séquence, le génome comportant la séquence, parmi une pluralité de génomes mémorisés dans une base de données. Ils permettent également d'établir la position de chaque séquence sur le génome auquel elle appartient, et de réaliser des assemblages entre les différentes séquences appartenant à un même génome.
A l'issue de l'étape 40, on dispose de données de séquençage relatives aux différentes espèces biologiques de l'échantillon. Il s'agit en particulier d'une identification de chaque espèce et d'une quantité de séquences assignées à chaque espèce identifiée. On dispose en particulier d'un nombre de séquences RSOIassignées à l'espèce biologique d'intérêt et d'un nombre de séquences RSPCassignées à l'espèce de contrôle.
Etape 45: Identification des espèces auxquelles appartiennent les reads.
Lors de cette étape, mise en œuvre par l’unité de traitement de données, il est identifié, en termes d’espèce bactérienne, l’origine de chacun des reads. Cette étape, généralement connue sous le nom de « binning », de « binning taxonomique », ou d’« assignment », comprend la comparaison de chacun des reads avec des séquences numériques d’acides nucléiques d’une base de données de référence. Des logiciels de binning connus sont par exemple Kraken, (Wood et Salzberg, “Kraken: ultrafast metagenomic sequence classification using exact alignments”, Genome Biology, 2014), ou “Wowpal Wabbit” (Vervier et al., “Large-scale machine learning for metagenomics sequence classification”, Bioinformatics, 2015), ou “BWA-MEM” (Li, “Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM”, Genomics, 2013). De préférence, un read est assigné à une espèce d'intérêt s’il est entièrement compris dans un génome représentatif de l'espèce d'intérêt mémorisé dans la base de données.
Etape 50: Normalisation
Les quantités de données de séquençage résultant de l'étape 45 n'ont pas la même taille pour chacun des échantillons. En effet, le nombre de séquences générées par le séquençage dépend de la qualité et de la quantité d'ADN des différentes espèces biologiques composant l'échantillon. Il est donc préférable, voire nécessaire, de normaliser la quantité de séquences associées à une espèce par rapport à une quantité de référence. La normalisation dépend du type d'échantillon analysé et de l'analyse métagénomique appliquée. La quantité de référence peut par exemple être un nombre total de séquences produites pour l'échantillon analysé. La quantité normalisée de séquences associées à chaque espèce, divisée par la quantité de référence, est usuellement multipliée par 1E6 de façon à obtenir une quantité normalisée correspondant à une quantité par million de séquence (ou RPM, acronyme de Read Per Million).
Selon d'autres variantes, la quantité de référence peut-être, à titre non exhaustif :
  • un nombre total de séquences associées à tous les microorganismes identifiés ;
  • un nombre total de séquences associées à un organisme duquel est extrait l'échantillon : par exemple, lorsque l'organisme est un corps humain, on peut déterminer un nombre total de séquences associées au génome humain ;
  • un nombre total de séquences associées à une espèce de référence. Par espèce de référence, il est entendu une espèce endogène ou exogène que l'on considère comme présente de façon constante dans différents échantillons prélevés. L'espèce de référence peut être l'espèce de contrôle.
  • un nombre total de séquences associées à une espèce prédéterminée dans un échantillon ne présentant pas l'espèce biologique d'intérêt (échantillon négatif) ou dans un tampon ne comportant pas l'échantillon.
L'étape 50 est effectuée pour l'espèce biologique d'intérêt (ou pour chaque espèce biologique d'intérêt), ainsi que pour l'espèce de contrôle (ou pour chaque espèce de contrôle SPC ou pour chaque calibrateur). On obtient ainsi une quantité normalisée RNSOIpour l'espèce biologique d'intérêt SOI (ou pour chaque espèce biologique d'intérêt) et une quantité normalisée RNSPCpour l'espèce de contrôle SPC (ou pour chaque espèce de contrôle ou pour chaque calibrateur). Dans la notation RN, la lettre N désigne le fait que la quantité est normalisée.
Par la suite, de façon non limitative, on considère qu'il n'y a qu'une seule espèce biologique d'intérêt et une seule espèce de contrôle.
Dans la suite de la description, le terme quantité peut désigner une quantité normalisée.
Etape 60: Interprétation.
Cette étape est une étape importante de l'invention. Il s'agit de savoir dans quelle mesure les résultats du séquençage sont interprétables.
Cette étape utilise des seuils de détection DTSOIet DTSPC, respectivement associés à l'espèce biologique d'intérêt SOI et à l'espèce de contrôle SPC. Les seuils de détection peuvent être établis à partir de seuils de détection statistiques respectivement déterminés pour l'espèce biologique d'intérêt et l'espèce de contrôle. Les seuils de détection statistiques sont établis préalablement, au cours d'une étape 100 décrite ultérieurement. D'une façon générale, un seuil de détection statistique correspond à la plus basse valeur d'une concentration d'analyte mesurée par une méthode de détection, qui est statistiquement différente de celle mesurée, dans les mêmes conditions, lorsque l'analyte est absent de l'échantillon. Chaque seuil de détection peut être égal au seuil de détection statistique, ou être déterminé à partir du seuil de détection statistique, en étant notamment k fois égal au seuil de détection statistique, k étant un réel non nul.
L'interprétation vise à comparer les quantités normalisées de séquences RNSOIet RNSPC, respectivement assignées à l'espèce biologique d'intérêt SOI et à l'espèce de contrôle SPC, à leurs seuils de détection respectifs. En effet, l'espèce biologique d'intérêt peut être considérée comme détectée avec un niveau de confiance acceptable lorsque la quantité normalisée de séquences assignées à l'espèce biologique d'intérêt est supérieure ou égale au seuil de détection qui lui est associé. Il en est de même de l'espèce de contrôle. En fonction de la comparaison, quatre situations peuvent être distinguées :
  • RNSOI≥ DTSOIet RNSPC≥ DTSPC: cf. étape 61
  • RNSOI≥ DTSOIet RNSPC<DTSPC: cf. étape 62
  • RNSOI< DTSOIet RNSPC≥ DTSPC: cf. étape 63
  • RNSOI< DTSOIet RNSPC< DTSPC: cf. étape 64
Etape 61Quantification
Lorsque RNSOI≥ DTSOIet RNSPC≥ DTSPC, les détections respectives de l'espèce biologique d'intérêt et de l'espèce de contrôle sont confirmées. L'espèce d'intérêt SOI est considérée comme présente dans l'échantillon, avec un niveau de confiance suffisant. Sa concentration CSOIpeut être estimée, à partir de :
  • la concentration ajoutée CSPCde l'espèce de contrôle SPC dans l'échantillon suite à l'étape 20 ;
  • la quantité, éventuellement normalisée, de séquences RS PC assignées à l'espèce de contrôle SPC, résultant de l'étape 45 ;
  • le nombre de séquences RS OIassignées à l'espèce biologique d'intérêt, résultant de l'étape 45 ;
  • des données relatives à la taille du génome de l'espèce de contrôle et de l'espèce biologique d'intérêt.
On peut par exemple utiliser l'expression suivante :
où :
  • LSPCet LSOIsont respectivement les longueurs de génome de l'espèce de contrôle et de l'espèce biologique d'intérêt.
  • α est un facteur de correction déterminé de façon empirique, sur la base d'échantillons d'apprentissage dont la concentration en espèce biologique d'intérêt est connue. Le facteur de correction α permet de prendre en compte des différences d'efficacité du processus de séquençage de l'espèce biologique d'intérêt et de l'espèce de contrôle. Par défaut, on peut considérer α = 1. Cette valeur unitaire permet d'obtenir une quantification absolue suffisante pour déterminer la positivité ou la négativité d'un échantillon par rapport au seuil de décision.
Lorsque la concentration ajoutée est exprimée en GEq/mL, la concentration de l'espèce biologique d'intérêt est également exprimée dans la même unité.
De façon alternative, le séquençage comporte un assemblage des séquences respectivement associées à l'espèce de contrôle et à l'espèce biologique d'intérêt, ainsi qu'une détermination d'un taux de couverture Cov des assemblages pour chacune des espèces. La concentration CSOIde l'espèce biologique d'intérêt peut alors être calculée selon l'équation suivante :
où :
  • CovSPCet CovSOIsont respectivement les taux de couverture déterminés pour l'espèce de contrôle et l'espèce biologique d'intérêt. Le taux de couverture est usuellement désigné par le terme anglosaxon "Coverage".
  • α' est un facteur de correction déterminé de façon empirique, sur la base d'échantillons d'apprentissage dont la concentration en espèce biologique d'intérêt est connue. Le facteur de correction α' permet de prendre en compte des différences d'efficacité des séquençages de l'espèce biologique d'intérêt et de l'espèce de contrôle. Cette valeur unitaire permet d'obtenir une quantification absolue suffisante pour déterminer la positivité ou la négativité d'un échantillon par rapport au seuil de décision.
Selon une variante décrite ci-après, l'étape 61 peut être mise en œuvre avec une espèce biologique, différente de l'espèce de contrôle, et formant un calibrateur. Dans ce cas, une espèce de contrôle est utilisée lors de l'étape 60, pour confirmer la détection de l'espèce biologique d'intérêt, tandis que l'étape 61, c'est-à-dire la quantification, est mise en œuvre à l'aide d'un calibrateur, ce dernier n'étant utilisé que pour la quantification. De préférence, les caractéristiques du calibrateur sont similaires à celle de l'espèce de contrôle, et correspondent aux caractéristiques décrites en lien avec l'étape 20. La quantification, à l'aide du calibrateur, peut être réalisée en utilisant l'expression (1) ou l'expression (1'). L'expression (1) devient :
où :
  • RCALest le nombre de séquences, éventuellement normalisé, assignées au calibrateur ;
  • LCALest la longueur du génome du calibrateur ;
  • CCALest la concentration de calibrateur ajoutée dans l'échantillon ;
  • α est un facteur de correction tel que décrit en lien avec (1).
L'expression (1') devient :
  • CovCALest un taux de couverture déterminé pour le calibrateur
  • α' est un facteur de correction tel que décrit en lien avec (1')
Etape 62
Lorsque RNSOI≥ DTSOIet RNSPC<DTSPC, cela signifie que l'espèce de contrôle est considérée comme non détecté tandis que l'espèce biologique d'intérêt est considérée comme détectée. Cependant, la quantification de l'espèce biologique d'intérêt ne peut pas être réalisée avec une confiance suffisante. Cette étape comporte une comparaison de la concentration ajoutée CSPCde l'espèce de contrôle et du seuil de décision SD, de telle sorte que :
  • si CSPC< SD, aucune information ne peut être obtenue relativement à la concentration d'espèce biologique d'intérêt relativement au seuil de décision.
  • si CSPC≥ SD, la concentration d'espèce biologique d'intérêt ne peut pas être estimée, mais elle peut être considérée comme supérieure au seuil de décision, et donc critique. Sans pouvoir quantifier la concentration de l'espèce biologique d'intérêt, il est possible de conclure à un franchissement du seuil de décision.
Etape 63
Lorsque RNSOI< DTSOIet RNSPC≥ DTSPC, on peut considérer que le séquençage a fonctionné correctement. L'étape comporte une estimation d'une concentration minimale détectable de l'espèce biologique d'intérêt. La concentration minimale détectable CminSOIde l'espèce biologique d'intérêt correspond à la concentration la plus faible pouvant être distinguée du bruit de fond, Elle est assimilée à la concentration, en équivalent génome, correspondant au seuil de détection DTSOIde l'espèce biologique d'intérêt. La concentration minimale détectable peut être déterminée à partir :
  • de la concentration ajoutée CSPCde l'espèce de contrôle SPC dans l'échantillon suite à l'étape 20 ;
  • du nombre de séquences RSPCassignées à l'espèce de contrôle SPC, résultant de l'étape 45 ;
  • du seuil de détection DTSOIassocié à l'espèce biologique d'intérêt ;
  • des données relatives à la taille du génome de l'espèce de contrôle et de l'espèce biologique d'intérêt.
où :
  • LSPCet LSOIsont respectivement les longueurs de génome de l'espèce de contrôle SPC et de l'espèce biologique d'intérêt SOI.
  • est le facteur de correction décrit en lien avec l'équation (1).
L'étape 63 comporte une comparaison du seuil de décision SD à la concentration minimale détectable CminSOIde telle sorte que :
  • si CminSOI≤ SD, la détection de l'espèce biologique d'intérêt peut être considérée comme négative : la concentration d'espèce biologique d'intérêt dans l'échantillon est inférieure ou égale au seuil de décision.
  • si CminSOI> SD, aucune information ne peut être apportée relativement à la présence de l'espèce biologique d'intérêt dans l'échantillon et sa concentration par rapport au seuil de décision.
Etape 64
Lorsque RNSOI< DTSOIet RNSPC< DTSPC,l'absence de détection de l'espèce de contrôle SPC suggère que l'analyse n'a pas atteint les performances nécessaires à la détection de l'espèce biologique d'intérêt. Aucune interprétation de l'analyse ne peut être apportée. L'analyse peut être considérée comme invalide. Une telle situation peut se rencontrer :
  • lorsqu'une des étapes du séquençage n'a pas atteint les performances nécessaires à la détection de l'espèce biologique d'intérêt ;
  • et/ou lorsque l'échantillon comporte une quantité importante d'ADN du patient ou de la matrice ou de la flore microbiologique ;
  • et/ou lorsque l'échantillon comporte au moins une espèce à une concentration importante, et générant un nombre élevé de séquences, ce qui produit un effet de masquage des autres séquences d'intérêt.
A l'issue d'une des étapes 61 à 64, la confirmation de la présence de l'espèce biologique d'intérêt, à une concentration supérieure au seuil de décision, et son éventuelle quantification, sont utilisées en tant qu'aide au diagnostic.
Variante
Dans le mode de réalisation précédemment décrit, l'espèce de contrôle SPC assure à la fois une fonction de contrôle de la conformité de l'analyse métagénomique ainsi qu'une fonction de calibrateur, permettant une quantification de l'espèce biologique d'intérêt dans l'échantillon.
Selon une variante, une espèce de contrôle SPC et un calibrateur, différent de l'espèce de contrôle, sont ajoutées dans l'échantillon. Il s'agit par exemple de deux espèces bactériennes différentes. L'espèce de contrôle SPC assure une fonction de contrôle de la conformité de l'analyse métagénomique. Le calibrateur permet une quantification de l'espèce biologique d'intérêt dans l'échantillon, selon les équations (1) ou (1') ou (2). Lorsqu'il est différent de l'espèce de contrôle, le calibrateur présente de préférence les mêmes caractéristiques que l'espèce de contrôle, ces dernières étant décrites en lien avec l'étape 20. L'espèce de contrôle SPC est ajoutée à une première concentration. Un seuil de détection lui est affecté et l'étape 60 est mise en œuvre en comparant une quantité de séquences normalisées assignées à l'espèce de contrôle, résultant de l'étape 50, au seuil de détection associé à l'espèce de contrôle. Le calibrateur est également ajouté à l'échantillon, selon une deuxième concentration. Un seuil de détection lui est affecté. Lors de l'étape 61, la quantification peut être réalisée en prenant en compte une quantité normalisée de séquences associées au calibrateur, ainsi que le seuil de détection qui lui est associé.
Le calibrateur peut être ajouté préalablement à la lyse ou suite à la lyse et préalablement au séquençage.
Dans une autre variante, plusieurs calibrateurs sont ajoutés dans l’échantillon, chaque calibrateur étant choisi pour une ou plusieurs espèces d’intérêt. En particulier, des groupes d’espèces bactériennes peuvent réagir de manière sensiblement différente aux processus d’extraction des acides nucléiques, par exemple les bactéries Gram + et les bactéries Gram-. De manière avantageuse, il est ajouté un calibrateur consistant en une bactérie Gram + lorsqu’une ou plusieurs espèces d’intérêt sont des Gram + et un calibrateur consistant en une bactérie Gram - lorsqu’une ou plusieurs espèces d’intérêt sont des Gram-. De manière similaire, les espèces d’intérêt peuvent consister en des bactéries et des virus. Dans ce cas, un premier calibrateur est bactérien et un deuxième calibrateur est viral. auxiliaire est virale. D’une manière générale, il s’agit de choisir un calibrateur qui subit les étapes de préparation d’échantillon (extraction, éventuellement préparation de la banque de séquences ou l’amplification, séquençage) de manière la plus identique possible que les espèces d’intérêt qu’il calibre.
Etape 100 : Etablissement d es seuil s de détection.
Comme précédemment évoqué, il est nécessaire que l'espèce de contrôle et l'espèce biologique d'intérêt soient respectivement associées à des seuils de détection. Pour une espèce biologique donnée (espèce biologique de contrôle ou espèce biologique d'intérêt), le seuil de détection est établi préalablement à l'interprétation des résultats, en utilisant des échantillons d'entraînement, ne comportant pas ladite espèce. Il s'agit d'échantillons négatifs relativement à l'espèce considérée. Ces échantillons sont représentatifs de l'échantillon analysé. Par représentatif, on entend que ces échantillons d'entraînement comportent une population d'espèce biologique comparable à celle de l'échantillon analysé, tant du point de vue qualitatif que quantitatif. L'absence d'espèce biologique d'intérêt et/ou de l'espèce de contrôle dans chaque échantillon test peut être vérifiée par une méthode standard de type culture et/ou PCR.
Sur chaque échantillon d'entraînement, un séquençage est réalisé, de préférence dans les mêmes conditions que décrites en lien avec les étapes 30 à 45. Suite au séquençage, on détermine une quantité de séquences assignées à l'espèce considérée. Cette quantité est de préférence normalisée, comme décrit en lien avec l'étape 50.
Ainsi, on peut établir les seuils de détection respectivement associés à l'espèce biologique d'intérêt et à l'espèce de contrôle en utilisant respectivement des premiers échantillons d'entraînement, ne comportant pas l'espèce biologique d'intérêt, et des deuxièmes échantillons d'entraînement, ne comportant pas l'espèce de contrôle. Les premiers échantillons d'entraînement peuvent être confondus avec les deuxièmes échantillons d'entraînement, auquel cas les seuils de détection associés à l'espèce biologique d'intérêt et à l'espèce de contrôle sont déterminés avec les mêmes échantillons d'entraînement.
Le séquençage est de préférence réalisé sur un nombre statistiquement représentatif d'échantillons d' entraînement. On obtient ainsi une distribution statistique de la quantité normalisées de séquences. On estime ensuite une moyenne µ de la distribution, ainsi qu'un indicateur de dispersion, par exemple l'écart type σ ou la variance σ². Le seuil de détection est estimé en additionnant, à la moyenne µ, n fois l'indicateur de dispersion, n étant un réel. n est typiquement compris entre 2 et 4.
Les seuils de détection respectivement associés à l'espèce biologique d'intérêt et à l'espèce de contrôle étant destiné à être comparés aux quantités de séquences normalisées de l'espèce biologique d'intérêt et de l'espèce de contrôle, il est important que la normalisation effectuée lors de l'étape 100 soit similaire à la normalisation effectuée lors de l'étape 50.
Les étapes précédemment décrites peuvent être réalisées en ciblant simultanément plusieurs espèces biologiques intérêt. C'est d'ailleurs un avantage notable de l'analyse métagénomique, qui permet d'adresser simultanément différentes espèces biologiques. Un autre avantage de l'analyse métagénomique est la possibilité d'utiliser simultanément plusieurs espèces de contrôle. Ainsi, une espèce de contrôle peut être utilisé pour cibler une ou plusieurs espèces biologiques, tandis qu'une autre espèce de contrôle peut être utilisé pour cibler d'autres d'espèces biologiques d'intérêt. Il s'agit ici d'un autre avantage de l'analyse métagénomique.
Il est même envisageable d'utiliser plusieurs espèces de contrôle pour une même espèce biologique d'intérêt. Par exemple, les étapes 61 à 64 peuvent être mises en œuvre en utilisant, pour une même espèce biologique d'intérêt, différentes espèces de contrôle. Cela permet de limiter les risques de défaillance du procédé, suite à un dysfonctionnement du séquençage d'une espèce de contrôle. On dispose, pour différents couples (espèce biologique, espèce de contrôle), d'une estimation de la présence de l'espèce biologique d'intérêt par rapport au seuil de décision. Lorsque plusieurs espèces de contrôle sont utilisées pour une même espèce biologique d'intérêt, on peut obtenir plusieurs quantifications, selon les équations (1), (1') auquel cas on peut considérer la moyenne ou la médiane des quantifications obtenues, ou la quantification considérée comme la plus pénalisante, c'est-à-dire celle aboutissant à une concentration d'espèce biologique d'intérêt la plus élevée ou, d'une façon plus générale, la plus proche du seuil de décision.
D'une façon plus générale, le recours à l'analyse métagénomique nécessite encore des moyens informatiques lourds. En contrepartie, cela permet une certaine souplesse de fonctionnement, en adressant simultanément plusieurs espèces biologiques, (et/ou plusieurs espèces de contrôle), la seule condition étant que le génome des espèces biologiques recherchées, et celui de leurs espèces de contrôle respectives, soient connus.
Les étapes 61 à 64 sont mises en œuvre par une unité de calcul, par exemple de type microprocesseur, à partir des données de séquençage issues des étapes 40, 45 et 50 et fournies par l'unité de traitement. Les données de séquençage, qui correspondent à des données mesurées à partir de l'échantillon d'analyse, sont ainsi transmises, par liaison filaire ou sans fil, de l'unité de calcul de façon exécuter l'une des étapes 61 à 64. Le microprocesseur est relié à une mémoire comportant des instructions pour mettre en œuvre les étapes 61 à 64.
Exemple 1.
Au cours d'un premier exemple, on a vérifié queBacillus s ubtilisétait un bon candidat pour être utilisé en tant qu'espèce de contrôle pour le séquençage métagénomique d'échantillons résultant de lavages broncho-alvéolaire (BAL) pratiqués sur patients humains. On sait que ce type d'échantillon est susceptible de comporter une quantité importante d'ADN humain provenant du patient.
Le séquençage métagénomique de tels échantillons peut permettre une aide au diagnostic de pneumonies acquises en milieu hospitalier, à des fins d'aide au diagnostic. Le seuil de décision clinique est établi à 1.0 E4 CFU/mL, l'acronyme CFU signifiant Colony Forming Unit.
Afin d'éliminer l'ADN du patient, le protocole d'analyse comporte une élimination de l'ADN du patient au cours d'une lyse préalable. Au cours d'une première lyse, l'échantillon a été traité avec un agent lysant ciblant spécifiquement les cellules du patient. Un tel agent lysant est par exemple décrit dans WO2014/114896. L'ADN libéré a ensuite été éliminé par action enzymatique et lavage. L'échantillon a ensuite fait l'objet d'une deuxième lyse, mécanique et chimique de manière à extraire l'ADN bactérien.
Préalablement aux étapes de lyse, le protocole prévoit l'ajout d'une espèce de contrôle dans l'échantillon. L'espèce biologique formant l'espèce de contrôle doit être résistante à la lyse des cellules humaines, tout en étant sensible à la lyse des cellules bactériennes. Or, on sait que certaines bactéries, en particulier les bactéries de type Gram positif, sont difficiles à lyser. On a donc choisi, en guise de l'espèce de contrôle, une espèce biologique présentant une résistance à la lyse équivalente à celle d'une bactérie GRAM positif.
Par ailleurs, le séquençage métagénomique effectué vise à détecter et éventuellement quantifier environ 20 espèces biologiques d'intérêt, chaque espèce d'intérêt étant une bactérie comprise dans la liste suivante:Acinetobac ter baumannii, Citrobacter freundii, Citrobacter koseri, Ent e robacte r aerogenes, Enterobacter cloacae, Escherichia coli, Haemophilus influenzae, Hafnia alvei, Klebsiella oxytoca, Klebsiella pneumoniae, Legionella pneumophila, Morganella morganii, Proteus mirabilis, Proteus vulgaris, Providencia stuartii, Pseudomonas aeruginosa, Serratia marcescens, Staphylococcus aureus, Stenotrophomonas maltophilia, St re ptococcus pneumoniae.
L'espèce de contrôle SPC doit également pouvoir être séquencé avec une efficacité comparable aux espèces d'intérêt listées ci-dessus. Or, on sait que l'efficacité de séquençage dépend essentiellement de la taille du génome ainsi que la teneur en GC. (Guanine – Cytosine). Ainsi, dans cet exemple, l'espèce de contrôle devait présenter une taille de génome comprise entre 1.9 et 6.6 mégabases, ainsi qu'une teneur en GC comprise entre 33 % et 66 %. Par ailleurs, la concentration de l'espèce de contrôle, ajoutée dans l'échantillon, a été fixée à 1.0 E4 CFU/mL, soit une concentration comparable au seuil de décision précédemment évoqué.
L'inventeur a évalué l'intérêt des espèces biologiques suivantes pour former l'espèce de contrôle :Acinetobacter baumannii, Citrobacter freundii, Citrobacter koseri, Enterobacter aerogenes, Enterobacter cloacae, Escherichia coli, Haemophilus influenzae, Hafnia alvei, Klebsiella oxytoca, Klebsiella pneumoniae, Legionella pneumophila, Morganella morganii, Proteus mirabilis, Proteus vulgaris, Providencia stuartii, Pseudomonas aeruginosa, Serratia marcescens, Staphylococcus aureus, Stenotrophomonas maltophiliaetStreptococcus pneumoniae , Bacillus Subtilis.
Parmi ces différentes espèces, il est apparu queBacillus s ubtilisprésentait les caractéristiques requises pour être utilisé en tant qu'espèce de contrôle. La taille du génome deBacillus subtilisest de 4.12 Mb (mégabases) et présente une teneur en GC de 43.6 %. De plus,Bacillus s ubtilisest commercialement disponible sous la forme de billes de type "BioBalls" (marque déposée) – fabricant Biomérieux. Il s'agit de billes hydrosolubles contenant une concentration calibrée deBacillus s ubtilis, ce qui permet d'ajuster la concentration de l'espèce de contrôle ajoutée. La réhydratation d'un BioBall Multishot 550 dans un échantillon de 600 µL de lavage bronchoalveolaire correspond à une concentration ajoutée deBacillus Subtiliségale à à 9.2 E3 CFU/mL, ce qui est proche du seuil de décision de 1E4 CFU/mL.
On a également comparé, par PCR Temps réel, des extraits d'ADN d'échantillons comportant respectivement des cultures fraîches deBacillus s ubtilisainsi que des échantillons comportantBacillus Subtilisajouté sous la forme de billes "Bioballs". Les résultats des PCR sont comparables.
7 échantillons issus de lavage bronchopulmonaire (BAL), sans ajout préalable deBacillus s ubtilis, ont été séquencés. Sur 4 des 7 échantillons, on a constaté que le nombre de séquences assignées àBacillus s ubtilisétaient négligeables : inférieur à 5 reads par million. Ainsi, le nombre de faux positifs est négligeable. Sur les autres échantillons, des séquences sont assignées àBacillus s ubtilisdu fait d'une erreur de logiciels d'assignation de séquences, soit du fait de la présence de séquences très proches de celles deBacillus s ubtilisdans l'échantillon. Cependant, le nombre de séquences assignées àBacillus subtilisn'atteint jamais 200 reads par million : il est alors relativement faible.
46 échantillons issus de BAL ont fait l'objet d'un ajout deBacillus s ubtilisà une concentration de 1.7 E4 CFU/mL, à une incertitude près. Après séquençage, le nombre de séquences assignées àBacillus s ubtilisdépasse 1000 reads par million pour 36 des 46 échantillons
Cet exemple montre queBacillus s ubtilisest une espèce biologique pertinente pour former une espèce de contrôle, dans un d'échantillon obtenu par BAL, et avec le protocole d'analyse décrit au début de l'exemple.
Exemple 2
Cet exemple décrit la détection et la quantification deStaphylococcus a ureusdans un échantillon prélevé par lavage broncho-alvéolaire (BAL) en appliquant le protocole de double lyse décrit dans l'exemple 1 et les étapes 10 à 50 précédemment décrites.
On a utilisé une cohorte de 13 échantillons issus de BAL. Suite aux conclusions de l'exemple 1, l'espèce de contrôle utilisé étaitBacillus s ubtilis, ajouté à chaque échantillon selon une concentration proche du seuil de décision (1E4 CFU/mL). Dans cet exemple, l'espèce de contrôle a été obtenu par réhydratation d'un Bioball Multishot 10E8 -Bacillus s ubtilisATCC 19659 (Biomérieux), dans 1.1 mL de tampon PBS (Tampon Phosphate Salin). L'espèce de contrôle a été dilué à 1E6 CFU/mL dans du PBS et 10 µL sont rajoutés à 600 µL d'échantillon. On obtient ainsi une concentration ajoutée de l'espèce de contrôle de 1.7E4 CFU/mL.
Chaque échantillon a été traité dans un délai maximal de 48 heures après le prélèvement. Comme précédemment indiqué, chaque échantillon a subi une première lyse spécifique aux cellules humaines. Les cellules non lysées ont été culotées et traitées à la DNAse I. Avant extraction de l'ADN humain, la DNAse a été désactivée par chauffage et ajout d'EDTA (Éthylènediaminetétraacétique). Chaque échantillon a ensuite fait l'objet d'une deuxième lyse, en étant ajouté dans un tube de lyse contenant un mélange de billes de verre de diamètre 1 mm et de billes de Zr/Si de diamètre 0.1 mm. La lyse est obtenue par agitation durant 20 minutes. L'ADN a été extrait du lysat en utilisant la plateforme easyMAG (marque déposée) Biomérieux. L'élution a été effectuée dans un volume de 25 µL. Les extraits ont été stockés à -20°C.
Les banques de séquençage ont été préparées en paired-end 2x250 avec le kit Nextera (marque déposée) XT DNA Library preparation kit (fabriquant Illumina). Les échantillons ont été séquencés en utilisant la plateforme MiSeq (marque déposée) avec le kit "MiSeq reagent kit V3" (Illumina).
Les séquences ont été traitées avec une unité de traitement utilisant le logiciel KRAKEN V0 10.5b en utilisant une base de données de séquences interne. Cette base de données comporte, notamment, les séquences du génome humain ainsi que les séquences de 20 espèces biologiques d'intérêt décrites dans l'exemple 1. Le nombre de séquences produites sur chaque échantillon a varié entre 331 000 et 17 000 000. Les nombres de séquences associées à l'espèce biologique de contrôle (Bacillus s ubtilis) et à l'espèce biologique d'intérêt(S. Aureus)ont été normalisés en reads par million (RPM).
Par ailleurs, des mesures de référence quantitatives ont été effectuées, sur chaque échantillon, par PCR quantitative (qPCR), ciblant le gêne spA. L'amplification et la lecture temps réel du signal fluorescent ont été réalisées sur la plateforme CFX96 Touch Real-Time PCR Detection System (Biorad).
Le tableau 1 présente les résultats du séquençage pour 13 échantillons positifs à la culture. Les colonnes 1 à 7 correspondent respectivement :
  • à la référence de l'échantillon ;
  • à une quantification deS. aureuspar culture ;
  • à une quantification deS. aureuspar qPCR ;
  • à la quantité normalisée RNSPCde séquences assignées à l'espèce de contrôle (B. subtilis);
  • à la quantité normalisée RNSOIde séquences assignées à l'espèce biologique d'intérêt (S. aureus) ;
  • à une quantification, lorsque cela est possible, de la concentration CSOIde l'espèce biologique d'intérêt déterminée à partir de l'équation (1), décrite dans l'étape 61 ;
  • à une quantification, lorsque cela est possible, de la concentration CSOIde l'espèce biologique d'intérêt déterminée à partir de l'équation (1'), décrite dans l'étape 61.
Dans cet exemple, l'espèce de contrôle SPC fait office de calibrateur, au sens où elle est utilisée lors de l'étape de quantification.
SOI NA et SPC NA correspondent respectivement au fait que le nombre de séquences associées à l'espèce biologique d'intérêt SOI et à l'espèce de contrôle SPC ne sont pas suffisantes pour permettre un assemblage. NA est l'acronyme de Non Assemblé.

Échantillon
Culture
CFU/mL
qPCR
GEq/mL
RNSPC(RPM) RNSOI(RPM) CSOI(1)
GEq/mL
CSOI(1)'
GEq/mL
1 1E6 1.6E7 737 824740 2.7E7 2.0E6
2 1E3 1.9E6 187 11080 1.4E6 SPC NA
SOI NA
3 >1E5 1.8E6 48 4418 2.2E6 SPC NA
4 1E5 3.1E5 1255 98109 1.9E6 3.0E5
5 1E2 2.0E4 398 2256 1.4E5 SPC NA
6 1E5 4.2E5 3605 129716 8.7E5 2.3E5
7 >1E5 9.6E4 116 1793 3.8E5 SPC NA
8 1E5 3.3E4 0 74 Invalid Invalid
9 1E5 2.9E4 1225 4956 9.8E4 1.6E4
10 1E5 1.5E5 1681 64201 9.3E5 5.6E4
11 1E4 8.8E5 706 40714 1.4E6 9.7E4
12 1E4 4.4E3 9302 2054 5.3E3 1.0E4
13 1E2 9.5E2 272 3 2.7E2 SOI NA
Tableau 1
Les échantillons 1, 2, 3, 4, 5, 6, 7, 9, 10, 11, 12 et 13 (soit 12 échantillons sur 13) correspondent à la configuration décrite en lien avec l'étape 61, dans laquelle une quantification de l'espèce d'intérêt est possible, par exemple selon l'expression (1) et l'expression (1').
L'échantillon 8 correspond à la configuration décrite en lien avec l'étape 64 : les résultats ne sont pas interprétables. Des investigations complémentaires ont montré, pour cet échantillon, un échec de l'étape de démultiplexage des séquences. Ce cas de figure est intéressant, car il montre que la prise en compte de l'espèce de contrôle permet d'éviter la production d'un résultat "faux négatif".
Pour les échantillons "quantifiables" (1, 2, 3, 4, 5, 6, 7, 9, 10, 11, 12 et 13), on a estimé la concentration CSOIpar l'équation (1'). Cependant, les séquences associées à l'espèce de contrôle SPC ou à l'espèce biologique d'intérêt SOI ne sont parfois pas assemblables ; dans ce cas, l'espèce biologique d'intérêt n'est pas quantifiable selon ce protocole, alors qu'elle l'est en utilisant l'équation (1). C'est notamment le cas des échantillons 2 et 13, dans lesquels les quantités de séquences associées à l'espèce biologique d'intérêt ne sont pas suffisantes pour obtenir un assemblage et mesurer une profondeur de séquençage. Ainsi, la quantification basée sur l'équation (1') n'est envisageable que lorsque la quantité de séquences est suffisante. Une quantification basée sur l'équation (1) semble préférable.
La figure 2A montre une comparaison de la quantification deS.aureuspar culture (axe des abscisses) et par séquençage (axe des ordonnées). Le facteur de corrélation est faible (r² = 0.2929). Cette faible valeur s'explique par un manque de précision de la méthode de culture, ainsi qu'une différence entre la quantité de cellules viables et cultivables, détectées par la culture, et la quantité totale de génomes, détectée par le séquençage. Certains patients sur lesquels les échantillons ont été prélevés sont soumis à une antibiothérapie, ce qui tend à diminuer la proportion de bactéries viables et cultivables par rapport à la totalité des bactéries. Ainsi, la culture ne permet de disposer que d'une information quantitative partielle.
La figure 2B montre une corrélation entre les résultats de quantification par métaséquençage (équation (1) – axe des ordonnées) et par PCR quantitative (axe des abscisses). Le facteur de corrélation est plus élevé : r² = 0.9906, ce qui démontre la fiabilité de la quantification par métaséquençage.
Exemple 3
Dans cet exemple, on a testé la détection des 20 espèces d'intérêt bactériennes pathogènes, citées en lien avec l'exemple 1, sur des échantillons issus de lavages broncho-alvéolaires (BAL) ou de mini- lavages broncho-alvéolaires (mini BAL). L'espèce de contrôle SPC(B. subtilis) est obtenue de façon identique à l'exemple 2, la concentration ajoutée à chaque échantillon étant de 1.7E4 CFU/mL. Le seuil de décision est de 1E4 CFU/mL pour les prélèvements BAL, et de 1E3 CFU/mL pour les prélèvements mini BAL.
Deux cohortes d'échantillons ont été collectées : une cohorte d'apprentissage, comportant 46 échantillons (23 BAL et 23 mini-BAL) et une cohorte d'analyse, comportant 40 échantillons (33 BAL et 7 mini-BAL).
Des mesures de référence, par culture, ont été effectuées pour chacune des espèces d’intérêt pour l’ensemble des échantillons composant les cohortes d’apprentissage et d’analyse.
L'échantillon a subi une double lyse, comme décrit en lien avec l'exemple 2. Le séquençage a été effectué comme décrit dans l'exemple 2.
Pour chaque espèce d'intérêt, et pour l'espèce de contrôle, la quantité de séquences a été normalisée en reads par million de reads associés à des espèces bactériennes(RPMb), cf. étape 50.
Pour chacune des espèces biologiques d'intérêt, on a déterminé le seuil de détection DTSOIen ne considérant que les échantillons d'apprentissage pour lesquels l'espèce biologique d'intérêt est considérée comme non détectée. L’espèce d’intérêt est considérée comme non détectée dans un échantillon, lorsque le résultat de culture microbiologique de l’échantillon est négatif pour la détection du SOI considéré et négatif pour la détection de séquences marqueurs MetaPhlAn spécifiques du SOI considéré. La figure 3 représente les distributions statistiques de la quantité de séquence, normalisée, sur des échantillons d'apprentissage négatifs relativement à l'espèce d'intérêt. L'axe des abscisses correspond à chaque espèce d'intérêt, tandis que l'axe des ordonnées correspond à la quantité normalisée de séquences associées à l’espèce d’intérêt. Pour chaque espèce, on a déterminé la valeur médiane (trait inclus dans le rectangle), ainsi que les fractiles à 25% et 75 % (limites du rectangle), ce qui permet une représentation sous la forme d'une boite à moustache (ou box plot). Les extrémités de chaque ligne verticale correspondent aux fractiles à 1% et à 99%. On observe que les distributions sont très variables les unes des autres, ce qui justifie qu'un seuil de détection DTSOIsoit établi pour chaque espèce biologique d'intérêt. Pour chacune des espèces d'intérêt, un seuil de détection DTSOIa été déterminé, selon l'étape 100 précédemment décrite. Si µSOIdésigne la moyenne du nombre normalisé de séquences assignées à l’espèce d’intérêt, et σSOIest leur écart type, le seuil de détection DTSOIest obtenu "à 3 sigmas", selon l'expression :
DTSOI= µSOI+ 3 σSOI(3)
Le seuil de détection DTSPC= DT B. subtilis associé àB. subtilisa été défini. On a pris en compte 7 échantillons d'apprentissage sans ajout deB. subtilis. On a déterminé la moyenne µ B. subtilis du nombre normalisé de séquences assignées àB. subtilis, ainsi que leur écart-type σ B. subtilis . Le seuil de détection DT B. subtilis est tel que :
DT B. subtilis = µ B. subtilis + 3 σ B. subtilis (3)
Un seuil de décision (SD), dit seuil métagénomique, a été défini pour distinguer la présence normale des bactéries d’intérêt et les infections des patients par ces bactéries d’intérêt. Pour cela les résultats des cultures microbiologiques obtenues sur les échantillons composants la cohorte d’apprentissage ont été séparés en 2 populations distinctes :
  • la population « Infection » correspond aux 20 occurrences détectées par culture à des concentrations égales ou supérieures aux seuils cliniques, à savoir 1E3 CFU/mL pour les échantillons de miniBAL et 1E4 CFU/mL pour les échantillons de BAL.
  • la population « Colonisation » correspond aux 900 occurrences non détectées par culture ou détectées par culture à des concentrations inférieures aux seuils cliniques, à savoir 1E3 CFU/mL pour les échantillons de miniBAL et 1E4 CFU/mL pour les échantillons de BAL.
Dans les deux alinéas qui précèdent, les 920 occurrences correspondent aux analyses, par microculture, des 46 échantillons d'apprentissage en considérant respectivement les 20 espèces biologiques d'intérêt.
La figure 4 représente, pour différents échantillons, des quantifications d'espèces biologiques réalisées par culture (axe des abscisses) et par analyse métagénomique (axe des ordonnées). Sur la figure 4, les ronds noirs correspondent à une espèce choisie parmiAcinetobacter baumannii,Citrobacter freundii,Citrobacter koseri,Enterobacter aerogenes,Escherichia coli,Haemophilus influenzae,Hafnia alvei,Klebsiella oxytoca,Klebsiella pneumoniae,Legionella pneumophila,Morganella morganii,Proteus mirabilis,Proteus vulgaris,Providencia stuartii,Pseudomonas aeruginosa,Serratia marcescens,Stenotrophomonas maltophiliaetStreptococcus pneumoniae.Les triangles clairs correspondent àStaphylococcus aureus.
Bien qu’il ne soit parfois pas possible de corréler précisément la concentration obtenue en CFU/mL par culture et la concentration obtenue en GEq/mL par méta séquençage, comme montré dans l’exemple 2 figure 2A, la figure 4 montre que pour une espèce d'intérêt, ou pour un groupe d'espèces d'intérêt, les populations « Colonisation » et « Infection » peuvent également être différenciées à partir des résultats de quantification par séquençage en équivalent génome (GEq). Le seuil métagénomique (SD) est défini en prenant en compte le premier demi centile des concentrations mesurées sur la population « Infection », la valeur ainsi obtenue est 5,5E3 GEq/mL.
Ainsi, à partir des échantillons d'apprentissage, on peut définir, un seuil métagénomique, formant un seuil de décision SD, permettant de séparer respectivement les échantillons dont la concentration en espèce biologique d'intérêt est située au deçà ou au-delà d'une valeur critique. La valeur critique peut notamment correspondre au seuil de décision SD précédemment décrit. La concentration d'une espèce d'intérêt, déterminée par séquençage, est ensuite comparée au seuil de décision lui étant associé. On remarque que le seuil de décision dépend généralement de l'espèce biologique considérée. On peut alors établir un seuil de décision pour une espèce biologique considérée ou pour un groupes d'espèces biologiques. Deux espèces biologiques différentes peuvent être associées à deux seuils de décision différents.
Les 40 échantillons du set d'analyse ont été séquencés. Les tableaux 2A à 2C rassemblent les résultats obtenus, chaque tableau rassemblant respectivement les résultats des échantillons 1 à 13, 14 à 27 et 28 à 40. La première ligne de chaque tableau comporte les références de chaque échantillon. La deuxième ligne représente la détection (+) ou la non détection (-) de l'espèce de contrôle SPC par rapport au seuil de détection DTSPCqui lui est associé : cf. étape 60.
Dans les échantillons 3, 7, 23 et 35, l'espèce de contrôle SPC n'a pas été détectée (RNSPC< DTSPC). Lorsque l’espèce d’intérêt n’est pas détectée (RNSOI< DTSOI), cf. étape 64, ces résultats ne sont pas interprétables, ce qui correspond au code INV. On ne peut pas déterminer la concentration de l'espèce d'intérêt par rapport au seuil de décision, en l'occurrence le seuil clinique, du fait d'une concentration minimale détectable trop élevée. Lorsque l’espèce d’intérêt est détectée (RNSOI≥ DTSOI), cf. étape 62, du fait que l'espèce biologique de contrôle a été ajoutée à une concentration supérieure au seuil métagénomique (SM), égal à 5.5E3 GEq/mL, la détection de l’espèce d’intérêt SOI est considérée comme positive au-dessus du seuil de décision, qui est dans cet exemple un seuil de décision clinique. Ce résultat correspond, dans les tableaux 2A, 2B et 2C :
  • soit à TP (True Positive – Vrai Positif) lorsque l'espèce biologique d’intérêt est également détectée au-dessus du seuil clinique par la culture microbiologique ;
  • à FP ou FP+ (False Positive – faux Positif) lorsque l'espèce biologique d’intérêt n'est pas détectée au-dessus du seuil clinique par la culture microbiologique.
Dans les échantillons 1,2, 4-7, 8-22, 24-34 et 36-40 l'espèce biologique de contrôle a été détectée (RNSPC≥ DTSPC). Lorsque l’espèce d’intérêt n’est pas détectée (RNSOI< DTSOI), cf. étape 63, la concentration minimale détectable CminSOIest établie par l'équation (2). Lorsque la concentration minimale détectable CminSOIest supérieure au seuil de décision SD, ces résultats ne sont pas interprétables, ce qui correspond au code INV dans les tableaux 2A, 2B et 2C. Lorsque la concentration minimale détectable CminSOIest inférieure ou égale au seuil de décision (seuil métagénomique) SD, la détection de l’espèce biologique d’intérêt est considérée comme inférieure au seuil clinique. Ce résultat correspond, dans les tableaux 2A, 2B et 2C :
  • à FN (False Negative – Faux Négatif) lorsque l'espèce biologique d’intérêt est détectée au-dessus du seuil clinique par la culture microbiologique, mais quantifiée en dessous du seuil de décision par l'analyse métagénomique.
  • aux cases vides (vrais négatifs) lorsque l'espèce biologique d’intérêt n’est pas détectée au-dessus du seuil clinique par la culture microbiologique et par l'analyse métagénomique.
Lorsque l'espèce biologique de contrôle a été détectée (RNSPC≥ DTSPC), et que l'espèce biologique d'intérêt a été détectée (RNSOI≥ DTSOI), le nombre de séquences associées à l'espèce biologique d’intérêt est utilisé comme calibrateur pour établir la concentration CSOIde l'espèce biologique d'intérêt, en utilisant l'expression (1) décrite dans l'étape 61. Ces résultats correspondent, dans les tableaux 2A, 2B et 2C :
  • à TP (True Positive – Vrai Positif) lorsque l'espèce biologique d’intérêt est détectée au-dessus du seuil clinique par la culture microbiologique ;
  • à FP ou FP+ (False Positive – faux Positif) lorsque l'espèce biologique d’intérêt n’est pas détectée au-dessus du seuil clinique par la culture microbiologique.
Echantillon 1 2 3 4 5 6 7 8 9 10 11 12 13
SPC + + - + + + - + + + + + +
A. baumannii INV INV INV
C. freundii INV INV
C. koseri INV INV INV
E. aerogens INV INV INV INV INV
E. cloacae INV INV INV INV INV INV INV INV INV INV INV INV INV
E. coli INV INV INV INV INV
H. influenzae INV INV INV INV
H. alvei INV INV
K. oxytoca INV INV INV
K. pneumoniae INV INV INV INV INV
L. pneumophila INV INV
M. morganii INV INV
P. mirabilis INV INV
P. vulgaris INV INV INV INV INV INV INV
P. stuartii INV INV
P. aeruginosa TP FP INV
S. marcescens INV FP+ FP+
S. aureus INV INV INV INV INV TP
S. maltophilia INV INV INV
S. pneumoniae TP INV INV INV INV INV TP
Tableau 2A
Echantillon 14 15 16 17 18 19 20 21 22 23 24 25 26
SPC + + + + + + + + + - + + +
A. baumannii INV INV
C. freundii INV
C. koseri INV INV
E. aerogens INV INV
E. cloacae INV INV INV INV INV INV INV INV INV INV INV INV INV
E. coli INV INV INV
H. influenzae INV INV
H. alvei INV
K. oxytoca INV INV
K. pneumoniae INV INV
L. pneumophila INV
M. morganii INV INV
P. mirabilis INV
P. vulgaris INV INV INV INV
P. stuartii INV INV
P. aeruginosa TP INV TP
S. marcescens INV
S. aureus INV INV
S. maltophilia TP INV
S. pneumoniae FP INV INV
Tableau 2B
27 28 29 30 31 32 33 34 35 36 37 38 39 40
SPC + + + + + + + + - + + + + +
A.baumanii INV INV INV INV
C.freundii FP INV
C koseri INV INV INV
E.aerogens INV FP+ INV INV
E.cloacae INV INV INV INV INV INV INV INV INV INV INV INV INV
E.coli INV INV INV INV INV INV
H.influenzae INV INV TP INV INV
H.alvei FP INV
K.oxytoca FP FP INV INV
K.pneumoniae FP+ INV INV INV INV
L.pneumophila INV
M. morganii INV INV INV
P.mirabilis INV
P.vulgaris INV INV INV INV INV INV
P.suartii INV INV
P.aeruginosa INV INV TP TP FP
S.marcescens FP FP FP INV
S.aureus INV INV FP+ INV INV INV INV INV INV
S.maltophilia INV INV INV INV INV FP INV
S.pneumoniae INV INV INV INV INV INV
Tableau 2C
L'analyse par culture microbiologique a permis la détection de 11 occurrences au-dessus du seuil de décision (1E4 CFU/mL pour les échantillons BAL et 1E3 CFU/mL pour les échantillons mini-BAL). L'analyse métagénomique a permis la détection de 10 de ces occurrences, ce qui correspond à la notation TP (True Positive – Vrai Positif) dans les tableaux 2A à 2C. L’occurrence non détectée par la métagénomique correspond àE. cloacaedans l’échantillon 27 et s’explique par l’importante quantité de séquences associée àE. cloacaedans les échantillons dans lesquels cette bactérie est absente, cf. figure 3, ce qui entraine une valeur de seuil de détection très élevée ce qui a pour conséquence une concentration minimale détectable CminSOIfréquemment supérieure au seuil métagénomique (SM). Ce résultat a été considéré par le test métagénomique comme invalide, cf. INV dans le tableau 2C.
L'analyse métagénomique a permis une détection de 19 occurrences supplémentaires, par rapport à la culture microbiologique. Ces occurrences sont désignées par FP (False Positive – Faux Positif) ou FP+ sur les tableaux 2A à 2C. Les 5 occurrences FP+ correspondent à des détections pour lesquels des marqueurs MetaPhlAn et des alignements BLAST (acronyme de Basic Local Alignment Search Tool) permettent de confirmer la présence de l’espèce d’intérêt dans l’échantillon, malgré sa non détection par culture. Ces occurrences complémentaires sont probablement dues à une meilleure sensibilité du test métagénomique par rapport à la détection par culture microbiologique qui ne permet que la détection de la part viable et cultivable du microbiote. Les occurrences FP correspondent à des faux positifs pour lesquels le nombre de reads associes aux espèces d’intérêt sont trop faibles pour une confirmation par la recherche des marqueurs MetaPhlAn et les alignements BLAST. Ces occurrences complémentaires sont également probablement dues à une meilleure sensibilité du test métagénomique par rapport à la détection par culture microbiologique, cependant l’absence de confirmation ne permet pas d’exclure un défaut de spécificité du test métagénomique.
Le test métagénomique a généré 185 résultats invalides, INV dans les tableaux 2A, 2B et 2C. Ces résultats correspondent à la non détection de l’espèce d’intérêt SOI mais dont l’interprétation n’est pas possible car la concentration minimale détectable CminSOIest supérieure au seuil métagénomique (SM). Ce résultat se distingue particulièrement des résultats de culture microbiologique qui produit généralement des résultats négatifs sans qu’aucun dispositif ne soit utilisé pour valider individuellement la sensibilité de la détection d’une espèce bactérienne dans l’échantillon testé. Le contrôle du test métagénomique permet de limiter le risquer de faux négatifs, cette situation est clairement illustrée par la non détectiond’E. cloacaedans l’échantillon 27.
La comparaison des résultats de la détection des pathogènes d’intérêt infectant les patients auxquels sont prélevés les échantillons de BAL et mini-BAL, cf. tableau 3, montre clairement l’intérêt d’utiliser l'espèce de contrôle décrit dans cette invention. La détection de pathogènes au-dessus du seuil de décision clinique, directement à partir du nombre de reads normalisé assigné aux espèces d’intérêt produit près de 9 fois plus de résultats faux positifs. L’utilisation de l'espèce de contrôle de l’échantillon et du calibrateur présenté dans cette invention permet un gain significatif de spécificité du test métagénomique et une meilleure détection des infections sans perte de sensibilité.
Vrai positif 10
Faux positif Non confirmable 14
Confirmé par MetaPhIAn et/ou BLAST 5
Infirmé par MetaPhIAn et/ou BLAST 0
Vrai négatif 586
Faux négatif 0
Valeur prédictive positive 34.5%
Valeur prédictive négative 100.0%
Sensibilité 100.0%
Spécificité 96.9%
Tableau 3
Il a été décrit une application particulière de l’invention aux séquences dit « shotgun ». L’invention s’applique également aux séquences ciblées, par exemple aux séquences dit 16S. Dans ce cas, préalablement au séquençage, il est mis en œuvre une étape d’amplification des gènes ciblés afin de multiplier leurs copies dans l’échantillon. Les reads utilisés par l’invention sont alors les reads correspondant uniquement aux gènes ciblés.
Il a été décrit l’utilisation deBacillus s ubtilisen tant qu'espèce de contrôle lors d'une analyse métagénomique d’échantillons de type BAL ou mini-BAL. En variante, il peut être utilisé une autre espèce de contrôle, pour autant qu'elle satisfasse à tout ou partie des critères décrits en lien avec l'étape 20. Il peut par exemple s'agir d'une espèce choisie parmi :Acinetobacter baumannii, Citrobacter freundii, Citrobacter koseri, Enterobacter aerogenes, Enterobacter cloacae, Escherichia coli, Haemophilus influenzae, Hafnia alvei, Klebsiella oxytoca, Klebsiella pneumoniae, Legionella pneumophila, Morganella morganii, Proteus mirabilis, Proteus vulgaris, Providencia stuartii, Pseudomonas aeruginosa, Serratia marcescens, Staphylococcus aureus, Stenotrophomonas maltophiliaetStreptococcus pneumoniae
Il a été décrit une plusieurs espèces de contrôle sous la forme d’éléments comprenant des acides nucléiques compris ou encapsulés dans membranes (membrane bactérienne, capside, …). Cette caractéristique est utilisée pour la fonction de contrôle de conformité de l’analyse métagénomique, en particulier pour savoir si le processus d’extraction des acides nucléiques a fonctionnée comme attendu. Evidemment, lorsqu’une espèce biologique est mise en œuvre en tant que calibrateur seul, c’est-à-dire ne mettant pas en œuvre la fonction de contrôle de conformité, mais uniquement la fonction de quantification, le calibrateur peut consister en des acides nucléiques libres ajoutés à l’échantillon ou dans l'extrait d'ADN en quantité connue.
Il a été décrit l’ajout d'espèces de contrôle et de calibration en une seule fois, à savoir avant l’étape d’extraction des séquences nucléiques. Lorsque deux espèces biologiques différentes sont utilisées pour mettre en œuvre de manière distincte les fonctions de contrôle de conformité et de quantification (calibrateur), les calibrateurs peuvent être ajoutées à une étape ultérieure, préférentiellement après l’étape de lyse de l’échantillon lorsqu’il s’agit d’acides nucléiques nus afin d’éviter la destruction de ces derniers.
Le procédé selon l’invention permet notamment de doser les espèces biologiques d’intérêt dans un échantillon. De manière préférentielle, dans le cadre d’une application clinique, le procédé selon l’invention est complété d’une étape de détermination d’une antibiothérapie en fonction des espèces identifiées et dosées dans l’échantillon, et d’administration des antibiotiques déterminés au patient.
Le procédé permet une aide au diagnostic d'une contamination d'un échantillon par une espèce d'intérêt, cette dernière pouvant être une bactérie ou un champignon. Cela permet une définition d'un traitement approprié (antibiotique dans le cas d'une bactérie, antifongique dans le cas d'une levure ou d'un champignon), sur la base de l'identité de l'espèce d'intérêt, mais également sur la base d'éventuels marques de résistance aux antimicrobiens détectées dans le génome.
D'une façon plus générale, en fonction de l'application visée, lorsque la concentration de l'espèce biologique est supérieure au seuil de décision, cela peut être considéré comme signifiant l'occurrence d'une anomalie. Un traitement de remédiation approprié est décidé, visant à remédier à l'anomalie. Par exemple, dans le domaine de l'agroalimentaire, l'espèce d'intérêt peut être une bactérie. Lorsque la concentration excède un certain seuil, le traitement de remédiation peut être un retrait ou une destruction de produits alimentaires destinés à être vendus, et/ou un nettoyage d'une installation de production. Il en est de même dans lorsque l'application concerne un contrôle sanitaire, par exemple un contrôle sanitaire d'une installation, par exemple d'une partie d'un hôpital, de façon à prévenir des infections nosocomiales. La présence avérée d'une espèce biologique indésirable entraîne un traitement de remédiation de type nettoyage ou décontamination.
L'invention pourra être mise en œuvre dans le domaine de la santé, en tant qu'aide au diagnostic, ou, plus généralement, dans le domaine de l'analyse d'échantillons prélevés dans l'environnement, ou dans des procédés industriels, par exemple l'industrie agroalimentaire, l’industrie, pharmaceutique ou l'industrie des cosmétiques. Elle peut également être mise en œuvre dans le contrôle sanitaire.

Claims (18)

  1. Procédé de détection d'une espèce biologique d'intérêt (SOI) potentiellement présente dans un échantillon d'analyse, l'espèce biologique d'intérêt présentant un génome connu ou partiellement connu, l'échantillon d'analyse comportant un mélange de différentes espèces biologiques, le procédé comportant les étapes suivantes :
    • a) extraction des acides nucléiques de l'échantillon d'analyse ;
    • b) séquençage des séquences de nucléotides extraites lors de l'étape a) ;
    • c) à partir du résultat du séquençage :
      • (i) assignation des séquences résultant de l'étape b) à partir d'une base de séquences de référence ;
      • (ii) détermination d'une quantité de séquences (RSOI ,RNSOI) assignées à l'espèce biologique d'intérêt;
      • (iii) prise en compte d'un seuil de détection (DTSOI) associé à l'espèce biologique d'intérêt;
      • (iv) comparaison de la quantité résultant de la sous-étape (ii) au seuil de détection pris en compte lors de la sous-étape (iii) ;
    le procédé étant caractérisé en ce qu'il comporte, préalablement à l'étape a), l'ajout d'une espèce de contrôle, l'espèce de contrôle étant ajoutée selon une concentration connue, dans l'échantillon d'analyse, l'espèce de contrôle présentant un génome connu, et en ce que
    • l'étape c) comporte :
      • (v) détermination d'une quantité de séquences (RSPC, RNSPC) assignées à l'espèce de contrôle;
      • (vi) prise en compte d'un seuil de détection (DTSPC) associé à l'espèce de contrôle;
      • (vii) comparaison de la quantité résultant de la sous-étape (v) avec le seuil de détection pris en compte lors de la sous-étape (vi) ;
    • d) utilisation des comparaisons effectuées lors des sous-étapes (iv) et (vii) pour déterminer une présence de l'espèce biologique d'intérêt dans l'échantillon.
  2. Procédé selon la revendication 1, dans lequel lors des sous- étapes (ii) et (v) les quantités de séquence respectivement assignées à l'espèce biologique d'intérêt et à l'espèce de contrôle sont normalisées par une quantité de référence.
  3. Procédé selon la revendication 1, comportant une prise en compte d'un seuil de décision (SD), et dans lequel l'étape d) comporte, en fonction des comparaisons effectuées lors des sous-étapes iv) et vii), une confirmation ou une non confirmation de la présence de l'espèce biologique d'intérêt en dessus ou en dessous du seuil de décision.
  4. Procédé selon la revendication 3, dans lequel la quantité de référence est le nombre total de séquences produites au cours du séquençage.
  5. Procédé selon l'une quelconque des revendications précédentes dans lequel lors de l'étape d) :
    • lorsque la quantité de séquences (RNSPC) assignées à l'espèce de contrôle est supérieure au seuil de détection (DTSPC) associé à l'espèce de contrôle ;
    • et lorsque la quantité de séquences (RNSOI) assignées à l'espèce biologique d'intérêt est supérieure au seuil de détection (DTSOI) associé à l'espèce biologique d'intérêt;
    l'étape d) comporte une confirmation de la présence de l'espèce biologique d'intérêt dans l'échantillon d'analyse.
  6. Procédé selon la revendication 5, dans lequel l'étape d) comporte également une estimation d'une concentration de l'espèce biologique d'intérêt.
  7. Procédé selon la revendication 6, comportant l'ajout d'un calibrateur, à une concentration connue, dans l'échantillon, le calibrateur présentant un génome connu, et dans lequel l'estimation de la concentration de l'espèce biologique d'intérêt comporte:
    • détermination d'une quantité de séquences assignées au calibrateur ;
    • détermination d'un premier ratio, entre les quantités de séquences respectivement assignées à l'espèce biologique d'intérêt et au calibrateur ;
    • détermination d'un deuxième ratio, entre les tailles de génome respectives du calibrateur et de l'espèce biologique d'intérêt ;
    • prise en compte de la concentration du calibrateur ajoutée dans l'échantillon d'analyse.
  8. Procédé selon la revendication 7, dans lequel l'estimation de la concentration d'espèce biologique d'intérêt comporte un calcul d'un produit du premier ratio par le deuxième ratio et par la concentration du calibrateur ajouté dans l'échantillon d'analyse.
  9. Procédé selon l'une quelconque des revendications 7 ou 8, dans lequel l'espèce de contrôle (SPC) fait office de calibrateur.
  10. Procédé selon l'une quelconque des revendications 3 ou 4, dans lequel lors de l'étape d) :
    • lorsque la quantité de séquences (RNSPC) assignées à l'espèce de contrôle est supérieure au seuil de détection (DTSPC) associé à l'espèce de contrôle ;
    • et lorsque la quantité de séquences (RNSOI) assignées à l'espèce biologique d'intérêt est inférieure au seuil détection (DTSPC) associé à l'espèce biologique d'intérêt ;
    l'étape d) comporte :
    • estimation d'une concentration minimale détectable (CminSOI) de l'espèce biologique d'intérêt ;
    • comparaison de la concentration minimale de l'espèce biologique d'intérêt (CminSOI) avec le seuil de décision (SD), de telle sorte que lorsque la concentration minimale de l'espèce biologique d'intérêt est inférieure au seuil de décision, il est estimé que l'espèce biologique d'intérêt n'est pas présente dans l'échantillon d'analyse à une concentration supérieure au seuil de décision.
  11. Procédé selon la revendication 10, dans lequel l'estimation de la concentration minimale détectable (CminSOI) comporte :
    • détermination d'un premier ratio, entre le seuil de détection de l'espèce biologique d'intérêt et de la quantité de séquences assignées à l'espèce de contrôle ;
    • détermination d'un deuxième ratio de tailles, entre les tailles de génome respectives de l'espèce de contrôle et de l'espèce biologique d'intérêt ;
    • prise en compte de la concentration de l'espèce de contrôle ajoutée dans l'échantillon d'analyse.
  12. Procédé selon l'une quelconque des revendications 3 ou 4, dans lequel lors de l'étape d) :
    • lorsque la quantité de séquences (RNSPC) assignées à l'espèce de contrôle est inférieure au seuil de détection (DTSPC) associé à l'espèce de contrôle ;
    • et lorsque la quantité de séquences (RNSOI) assignées à l'espèce biologique d'intérêt est supérieure au seuil de détection (DTSOI) associé à l'espèce biologique d'intérêt;
    l'étape d) comporte une comparaison de la concentration de l'espèce de contrôle ajoutée à l'échantillon d'analyse avec le seuil de décision, de telle sorte que :
    • lorsque la concentration de l'espèce de contrôle (CSPC) ajoutée à l'échantillon d'analyse est supérieure au seuil de décision (SD), l'étape d) comporte une confirmation de la présence de l'espèce biologique d'intérêt dans l'échantillon d'analyse selon une concentration supérieure au seuil de décision ;
    • lorsque la concentration de l'espèce de contrôle (CSPC) ajoutée à l'échantillon d'analyse est inférieure au seuil de décision (SD), confirmation de la présence de l'espèce biologique d'intérêt dans l'échantillon d'analyse.
  13. Procédé selon l'une quelconque des revendications 1 à 4, dans lequel lors de l'étape d),
    • lorsque la quantité de séquences (RNSPC) assignées à l'espèce de contrôle est inférieure au seuil de détection (DTSPC) associé à l'espèce de contrôle ;
    • et lorsque la quantité de séquences (RNSOI) assignées à l'espèce biologique d'intérêt est inférieure au seuil de détection (DTSOI) associé à l'espèce biologique d'intérêt;
    aucune confirmation quant à la présence de l'espèce biologique d'intérêt ne peut être donnée.
  14. Procédé selon l'une quelconque des revendications précédentes, comportant une phase préalable de détermination du seuil de détection (DTSOI) associé à l'espèce biologique d'intérêt, en utilisant une pluralité de premiers échantillons entraînement, considérés comme ne comportant pas l'espèce biologique d'intérêt (SOI), le procédé comportant, pour chaque premier échantillon de test :
    • extraction de séquences de nucléotides ;
    • séquençage des séquences de nucléotides ainsi extraites ;
    • détermination d'une quantité de séquences d'intérêt, assignées à l'espèce biologique d'intérêt;
    • éventuellement normalisation des quantités de séquences d'intérêt assignées à l'espèce biologique d'intérêt ;
    le procédé comportant alors :
    • calcul d'un indicateur de dispersion des quantités, ou des quantités normalisées, de séquences d'intérêt déterminées pour chaque premier échantillon entraînement ;
    • détermination du seuil de détection associé à l'espèce biologique d'intérêt en fonction de l'indicateur de dispersion ainsi calculé.
  15. Procédé selon l'une quelconque des revendications précédentes, comportant une phase préalable de détermination du seuil de détection (DTSPC) associé à l'espèce de contrôle, en utilisant une pluralité de deuxièmes échantillons entraînement, considérés comme ne comportant pas l'espèce de contrôle, le procédé comportant, pour chaque deuxième échantillon de test :
    • extraction de séquences de nucléotides ;
    • séquençage des séquences de nucléotides ainsi extraites ;
    • détermination d'une quantité de séquences, assignées à l'espèce de contrôle ;
    • éventuellement normalisation des quantités de séquences assignées à l'espèce de contrôle ;
    le procédé comportant alors :
    • calcul d'un indicateur de dispersion des quantités, ou des quantités normalisées, de séquences assignées à l'espèce de contrôle, déterminées pour chaque deuxième échantillon entraînement;
    • détermination du seuil de détection associé à l'espèce de contrôle en fonction de l'indicateur de dispersion ainsi calculé.
  16. Procédé selon la revendication 15, dans lequel un deuxième échantillon entraînement est un échantillon d'analyse, sans ajout de l'espèce de contrôle.
  17. Procédé selon l'une quelconque des revendications précédentes, dans lequel les étapes c) et d) sont effectuées parallèlement respectivement pour différentes espèces biologiques d'intérêt, chaque espèce biologique d'intérêt étant considérée comme potentiellement présente dans l'échantillon.
  18. Procédé selon l'une quelconque des revendications précédentes, comportant, préalablement à l'étape a), un ajout de plusieurs espèces de contrôle, de telle sorte que pour une même espèce d'intérêt, les étapes c) et d) sont effectuées en prenant en compte plusieurs espèces de contrôle, les sous-étapes v) à vii) étant mises en œuvre, parallèlement, pour chaque espèce de contrôle.
FR1908363A 2019-07-23 2019-07-23 Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique Active FR3099182B1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
FR1908363A FR3099182B1 (fr) 2019-07-23 2019-07-23 Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique
CN202080053378.1A CN114555835A (zh) 2019-07-23 2020-07-22 通过宏基因组分析检测和定量感兴趣的生物物种的方法
JP2022504011A JP2022541596A (ja) 2019-07-23 2020-07-22 メタゲノミクス分析による標的生物種の検出および定量方法
US17/629,055 US20220275429A1 (en) 2019-07-23 2020-07-22 Method for detecting and quantifying a biological species of interest by metagenomic analysis
PCT/EP2020/070715 WO2021013900A1 (fr) 2019-07-23 2020-07-22 Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique
EP20742277.5A EP4004233A1 (fr) 2019-07-23 2020-07-22 Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1908363 2019-07-23
FR1908363A FR3099182B1 (fr) 2019-07-23 2019-07-23 Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique

Publications (2)

Publication Number Publication Date
FR3099182A1 true FR3099182A1 (fr) 2021-01-29
FR3099182B1 FR3099182B1 (fr) 2022-11-25

Family

ID=69190848

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1908363A Active FR3099182B1 (fr) 2019-07-23 2019-07-23 Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique

Country Status (6)

Country Link
US (1) US20220275429A1 (fr)
EP (1) EP4004233A1 (fr)
JP (1) JP2022541596A (fr)
CN (1) CN114555835A (fr)
FR (1) FR3099182B1 (fr)
WO (1) WO2021013900A1 (fr)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113403367B (zh) * 2021-07-01 2023-10-13 苏州赛福医学检验有限公司 一种宏基因组绝对定量的检测方法及其应用
CN113571128A (zh) * 2021-08-05 2021-10-29 深圳华大因源医药科技有限公司 一种用于宏基因组学病原体检测参考阈值建立的方法
FR3130291A1 (fr) 2021-12-15 2023-06-16 Biomerieux Procédé de détection d’une présence d’une espèce biologique d’intérêt par séquençage temps réel itératif.
CN114891868A (zh) * 2022-05-31 2022-08-12 广州市金圻睿生物科技有限责任公司 一种基于ngs平台的微生物定量方法及试剂盒
CN116312798B (zh) * 2023-02-22 2023-11-10 江苏先声医学诊断有限公司 一种宏基因组测序数据物种验证的方法及应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014114896A1 (fr) 2013-01-25 2014-07-31 Biomerieux Procédé d'isolement spécifique d'acides nucléiques d'intérêt
EP2985350A1 (fr) * 2014-08-14 2016-02-17 microBIOMix GmbH Procédé d'analyse de microbiome
WO2017053446A2 (fr) * 2015-09-21 2017-03-30 The Regents Of The University Of California Détection d'agents pathogènes utilisant un séquençage de nouvelle génération
WO2018069430A1 (fr) 2016-10-13 2018-04-19 bioMérieux Identification et caractérisation d'antibiotiques d'agents pathogènes dans un échantillon métagénomique

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014114896A1 (fr) 2013-01-25 2014-07-31 Biomerieux Procédé d'isolement spécifique d'acides nucléiques d'intérêt
EP2985350A1 (fr) * 2014-08-14 2016-02-17 microBIOMix GmbH Procédé d'analyse de microbiome
WO2017053446A2 (fr) * 2015-09-21 2017-03-30 The Regents Of The University Of California Détection d'agents pathogènes utilisant un séquençage de nouvelle génération
WO2018069430A1 (fr) 2016-10-13 2018-04-19 bioMérieux Identification et caractérisation d'antibiotiques d'agents pathogènes dans un échantillon métagénomique

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
FRANK STÄMMLER ET AL: "Adjusting microbiome profiles for differences in microbial load by spike-in bacteria", MICROBIOME, vol. 4, no. 1, 21 June 2016 (2016-06-21), XP055652333, DOI: 10.1186/s40168-016-0175-0 *
LI: "Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM", GENOMICS, 2013
ROBERT SCHLABERG ET AL: "Validation of Metagenomic Next-Generation Sequencing Tests for Universal Pathogen Detection", ARCHIVES OF PATHOLOGY & LABORATORY MEDICINE, vol. 141, no. 6, 1 June 2017 (2017-06-01), US, pages 776 - 786, XP055656086, ISSN: 0003-9985, DOI: 10.5858/arpa.2016-0539-RA *
STEVE MILLER ET AL: "Laboratory validation of a clinical metagenomic sequencing assay for pathogen detection in cerebrospinal fluid", GENOME RESEARCH, vol. 29, no. 5, 16 April 2019 (2019-04-16), US, pages 831 - 842, XP055699891, ISSN: 1088-9051, DOI: 10.1101/gr.238170.118 *
VERVIER ET AL.: "Large-scale machine learning for metagenomics sequence classification", BIOINFORMATICS, 2015
WOODSALZBERG: "Kraken: ultrafast me-tagenomic sequence classification using exact alignments", GENOME BIOLOGY, 2014

Also Published As

Publication number Publication date
JP2022541596A (ja) 2022-09-26
CN114555835A (zh) 2022-05-27
FR3099182B1 (fr) 2022-11-25
EP4004233A1 (fr) 2022-06-01
WO2021013900A1 (fr) 2021-01-28
US20220275429A1 (en) 2022-09-01

Similar Documents

Publication Publication Date Title
FR3099182A1 (fr) Procédé de détection et de quantification d&#39;une espèce biologique d&#39;intérêt par analyse métagénomique
FR3099181A1 (fr) Procédé de détection et de quantification d&#39;une espèce biologique d&#39;intérêt par analyse métagénomique, avec prise en compte d&#39;un calibrateur.
WO2010130914A1 (fr) Methode de detection d&#39;adn procaryote extrait d&#39;un echantillon de selles
Xu et al. Culture-dependent and-independent investigations of microbial diversity on urinary catheters
US11047002B2 (en) Sequencing process
Frickmann et al. Next-generation sequencing for hypothesis-free genomic detection of invasive tropical infections in poly-microbially contaminated, formalin-fixed, paraffin-embedded tissue samples–a proof-of-principle assessment
Sousa et al. A prospect of current microbial diagnosis methods
Del Chierico et al. Choice of next-generation sequencing pipelines
van den Munckhof et al. Evaluation of a stepwise approach using microbiota analysis, species-specific qPCRs and culture for the diagnosis of lower respiratory tract infections
FR3099180A1 (fr) Procédé de détection et de quantification d&#39;une espèce biologique d&#39;intérêt par analyse métagénomique, comportant l&#39;utilisation d&#39;une espèce de contrôle.
Mukhtar et al. Identification of Proteus mirabilis on banknotes using 16s rRNA gene in Khartoum State
WO2012071405A2 (fr) Trousses et essais pour l&#39;amplification de gènes de salmonella exprimés à partir du sang
Monteserin et al. Combined approach to the identification of clinically infrequent non-tuberculous mycobacteria in Argentina
FR3099183A1 (fr) Procédé de détection et de quantification d&#39;une espèce biologique d&#39;intérêt par analyse métagénomique, et détermination d&#39;un niveau de confiance associé
JP2020504605A (ja) フラッシュアンドグロー反応における検査対象の検出
WO2023111015A1 (fr) Procédé de détection d&#39;une présence d&#39;une espèce biologique d&#39;intérêt par séquençage temps réel itératif
US20220154270A1 (en) Systems and processes for distinguishing pathogenic and non-pathogenic sequences from specimens
US20240002926A1 (en) Method for identifying an infectious agents
CN110501414B (zh) 一种vim型和spm型金属酶铜绿假单胞菌的识别模型、构建方法及应用
Chudějová Development and Validation of Methods for Typing of Bacteria by MALDI-TOF Mass Spectrometry
WO2021084539A1 (fr) Procédé de détermination de la sensibilité bactérienne à des antibiotiques
US20210355526A1 (en) Molecular typing of microbes
Tofthagen Third-generation sequencing of IBD patients’ gut microbiome
Lember Sepsis-associated Escherichia coli whole-genome sequencing analysis using in-house developed pipeline and 1928 diagnostics tool
Bajpai et al. Accurate identification of urinary isolates: Integration of conventional, automated, and molecular methods

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20210129

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5