EP4004239A1 - Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique, avec prise en compte d'un calibrateur - Google Patents

Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique, avec prise en compte d'un calibrateur

Info

Publication number
EP4004239A1
EP4004239A1 EP20742278.3A EP20742278A EP4004239A1 EP 4004239 A1 EP4004239 A1 EP 4004239A1 EP 20742278 A EP20742278 A EP 20742278A EP 4004239 A1 EP4004239 A1 EP 4004239A1
Authority
EP
European Patent Office
Prior art keywords
interest
species
biological species
calibrator
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP20742278.3A
Other languages
German (de)
English (en)
Inventor
Vladimir Lazarevic
Sébastien HAUSER
Maud TOURNOUD
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biomerieux SA
Original Assignee
Biomerieux SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biomerieux SA filed Critical Biomerieux SA
Publication of EP4004239A1 publication Critical patent/EP4004239A1/fr
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/166Oligonucleotides used as internal standards, controls or normalisation probes

Definitions

  • the technical field of the invention is the identification of a biological species of interest by metagenomic analysis.
  • PCR Polymerase Chain Reaction
  • PCR allows an analysis specific to a biological species, which makes it a selective, sensitive, and possibly quantitative method. However, it assumes an a priori on the target biological species. If several biological species are sought, so-called multiplex PCRs must be carried out, which makes the process more complex.
  • RNA gene present in different target biological species.
  • this is for example the 16S RNA gene.
  • PCR analysis is then said to be broad spectrum.
  • broad-spectrum PCR is more difficult to implement, and supposes having an a priori on the target biological species to be identified.
  • the targeting of a gene is described in EP2985350 or in the publication Stâmmler F. “Adjusting microbiome profiles for differences in microbial load by spike-in bacteria”, Microbiome (2016) 4:28.
  • metagenomics makes it possible to sequence the genomes of several individuals of different biological species in a given medium. We can then determine the species actually present in the sample, as well as their relative abundances. Metagenomics sequences the genomes of several individuals of different species in a given medium, and this without a priori on the biological species in the sample, whether bacterial, viral or human. We then have an analysis of the different genomes of the species biologicals of a sample. We can then determine which species are present, as well as their relative abundances.
  • High Throughput sequencing also referred to by the acronym HTS (High Throughput Sequencing).
  • HTS High Throughput Sequencing
  • bioinformatics allowing rapid computer processing of biological information resulting from sequencing, has improved.
  • High throughput sequencing now makes it possible to generate enough sequences to obtain a representative inventory of the different species present in the sample. This is a commercially available analytical method, the use of which is becoming relatively common.
  • Document WO2018 / 069430 describes an application of metagenomic analysis for the identification of pathogens as well as markers of resistance to antibiotics.
  • the inventor proposes a method for detecting, and optionally quantifying, a biological species of interest, or even different biological species of interest, in a sample, by implementing a metagenomic analysis of the sample.
  • the method makes it possible to establish an indicator relating to the correct progress of the biological or bioinformatic steps of the metagenomic process.
  • An object of the invention is a method for detecting a biological species of interest potentially present in an analysis sample, the biological species of interest exhibiting a known or partially known genome, the analysis sample comprising a mixture of different biological species, the process comprising the following steps:
  • step b) assignment of the sequences resulting from step b) from a base of reference sequences; (ii) determining a quantity of sequences assigned to the biological species of interest; the method being characterized in that it comprises, prior to step b), the addition of a calibrator, the calibrator being a biological species added according to a known concentration, in the analysis sample, the calibrator having a known genome, and in that step c) comprises
  • the quantities of sequences respectively assigned to the biological species of interest and to the control biological species are normalized by a reference quantity.
  • the reference amount can for example be a total amount of sequences produced during sequencing.
  • the method may include taking into account a decision threshold, with which the concentration of the species of interest is intended to be compared.
  • the decision threshold is preferably expressed in a unit corresponding to a number of sequences per unit of volume (or of mass), for example in Genome Equivalent per mL.
  • the decision threshold may depend on the biological species considered.
  • the calibrator has one of the characteristics described below, taken in isolation or according to the technically feasible combinations:
  • the calibrator is such that the size of its genome is between 0.1 times to 10 times the size of the genome of the biological species of interest;
  • the calibrator has a different genome from that of endogenous organisms
  • the concentration of the calibrator is between 0.001 times and 1000 times, and preferably between 0.01 and 100 times the decision threshold taken into account;
  • the biological species of interest is a bacterium, the calibrator exhibiting an intact membrane or cell wall;
  • the biological species of interest is a virus, the calibrator having a protein envelope; the genome of the calibrator has a number of GC (Guanine-Cytosine) type bases of between 75% and 125% of the number of GC (Guanine-Cytosine) type bases of the genome of the biological species of interest.
  • GC Guanine-Cytosine
  • Step d) can include:
  • the estimation of the concentration of biological species of interest can then include a calculation of a product of the first ratio by the second ratio and by the concentration of the calibrator added to the analysis sample.
  • Step d) can include:
  • the method may comprise, following step d), a step e) of taking into account the decision threshold and of comparing the concentration resulting from step d) with the decision threshold.
  • FIG. 1 schematizes the main steps of a method according to the invention.
  • FIG. 2A shows a comparison of quantifications of a biological species of interest, in this case S. aureus, respectively by implementing the steps described below (y-axis) and a reference method (x-axis ), by cultivation.
  • FIG. 2B shows a comparison of quantifications of a biological species of interest, in this case S. aureus, respectively by implementing the steps described below (y-axis) and a reference method (x-axis ), by quantitative PCR.
  • FIG. 3 shows a statistical distribution of the normalized quantity of sequences, corresponding respectively to different biological species of interest, measured on test samples considered as not comprising said biological species of interest.
  • FIG. 4 is a figure showing a comparison between concentrations of biological species of interest respectively estimated by culture (x-axis) and by metagenomic analysis (y-axis).
  • the objective of the method is to be able to detect the presence of a biological species of SOI interest in a sample.
  • SOI stands for "Species of Interest”.
  • the method can allow absolute quantification of the species of interest SOI, so as to allow a comparison with a decision threshold SD.
  • biological species it is understood a microorganism, for example a bacterium, or a virus, a fungus, an archaeobacterium, an amoeba, a protist, a microalgae.
  • a biological species can also be a cell or any other material or entity comprising a sequenceable nucleic acid.
  • the biological species of interest When the sample is obtained from a human or animal organism, the biological species of interest may be a pathogenic species. When the sample is taken from an industrial process or from the environment, the biological species of interest may be a species considered to be a contaminant, or a species of interest having an importance in an industrial process or in the environment, and whose presence or concentration is to be controlled.
  • the species of interest has a known or partially known genome.
  • the genome, or its known portion is made up of sequences, called sequences of interest.
  • the method can simultaneously address several species of interest. Also, the term a species of interest is to be interpreted as meaning at least one species of interest.
  • the decision threshold SD is a threshold making it possible to characterize a load of the biological species of interest, for example a microorganism, as a function of the targeted application. It is for example established on the basis of a regulatory, health or industrial limit.
  • the decision threshold can be a concentration below which the presence of the bacterium corresponds to colonization, that is to say a non-pathological development, and beyond which the presence of the bacteria is considered to be pathological, corresponding for example to an infection.
  • the detection threshold corresponds to a compliance value, such that beyond the detection threshold, the sample is considered as non-compliant, and that below the detection threshold, the sample is considered to be compliant.
  • the concentration of the biological species of interest is greater than or equal to the decision threshold, it is defined as being critical. In certain applications, for example in the manufacture of products undergoing fermentation, a concentration of biological species of interest may be considered critical if it is below a decision threshold, the latter corresponding to a minimum admissible concentration of the biological species.
  • the sample is generally a sample taken from the environment or from an organism, dead or alive, or even from an agri-food or manufactured product.
  • the sample may also have been taken at an industrial facility for process control purposes.
  • the sample contains different biological species, not having the same genome.
  • the sample results from a sample from an organism, for example a human or animal organism, the sample contains a significant amount, or even a majority, of cells originating from the organism taken.
  • the genomes of human or animal organisms are 1000 to 100,000 times larger in size than the genomes of prokaryotic organisms.
  • the sample generally comprises biological species naturally present in the sample, and not likely to cause pathology or critical contamination.
  • the sample when the sample is a bronchoalveolar sample, it contains a bacterial flora naturally present in the lungs. When the sample is a stool sample, it contains bacterial flora naturally present in the digestive tract.
  • the biological species of interest when the biological species of interest is a bacterium or a virus, the nucleic acids originating from the biological species of interest may be in the minority in the sample.
  • the sample comprises so-called "matrix" species, endogenous in the sample, and capable of masking the metagenomic information relating to the biological species of interest.
  • matrix species representative of these media.
  • the matrix contains the cells making up the organism.
  • the sample undergoes extraction of nucleic acids (DNA and / or RNA), followed by a sequencing process, according to the principles of metagenomic analysis.
  • the sequencing process can be preceded by an amplification process.
  • the sequencing can be a complete sequencing of the genome, usually designated by the term “whole genome sequencing” (WGS), in particular a complete sequencing of the shotgun type.
  • WGS whole genome sequencing
  • An inventory of gene sequences of the different species constituting the sample is thus obtained.
  • All, or almost all, of the nucleic acid of the different species constituting the sample is sequenced, by a high throughput sequencing method.
  • Bioinformatic means then make it possible to identify sequences of interest associated with the biological species of interest, and to determine a quantity thereof, generally a standardized quantity, as described below.
  • the computer resources are based on a database of reference sequences, for example complete reference genomes within the framework of a WGS-type process mentioned above.
  • the database comprises at least the genomes, total or partial, of the biological species of interest potentially present in the sample. It also comprises the genome, total or partial, of a so-called control biological species, the latter being described below.
  • a genomic description of the different species constituting the sample is obtained by sequencing.
  • the sequences corresponding to the biological species of interest and those corresponding to the control species are then identified from among the inventoried genomic sequences.
  • the method comprises the steps described below, in connection with FIG. 1.
  • Step 10 sample collection.
  • the sample is taken from a living human organism, for diagnostic aid.
  • the invention is not limited to an application in the field of living organisms.
  • the sample can be taken in an industrial or hospital environment, so as to verify compliance with a decision threshold.
  • Step 20 adding a kind of control.
  • One of the objectives of the invention is to evaluate to what extent a metagenomic analysis is exploitable. In particular, this involves evaluating the compliance of all the steps from sample preparation, excluding sampling, to the bioinformatic analysis of the sequencing data.
  • SPC a species of control
  • One function of the control species is to allow control of the correct progress of the nucleic acid extraction and sequencing steps, described below.
  • the SPC control species may be a known biological species, the genome of which is also known, preferably in its entirety.
  • the SPC control species can be a naturally occurring biological species. It can also be an artificial species, for example an RNA (ribonucleic acid) packaged.
  • the SPC control species is not initially present in the collected sample, or in a negligible amount.
  • the content of SPC control species initially present in the sample that is to say present before the addition, and preferably at least 10 times lower, or preferably at least 100 or 1000 times lower than the added concentration C S PC of the SPC control species in the sample.
  • the SPC control species can for example be a bacterium. It is important that the concentration of the added control species is controlled.
  • control species can be chosen taking into account the aspects listed below:
  • control species must preferably be distinguished from the organisms naturally present in the sample, or endogenous organisms, as well as from the species of interest sought: thus, the bioinformatic tool can accurately identify the sequences resulting from the SPC sequencing.
  • control species is preferably detectable by high throughput sequencing, while not being predominant in the sample.
  • control species be such that :
  • the size of its genome is preferably similar, or at least comparable, to the size of the genome of the biological species of interest. More particularly, the size of the genome of the control species is between 0.1 times to 10 times the size of the genome of the biological species of interest.
  • the CSPC concentration of the control species can be determined based on the decision threshold.
  • the CSPC concentration of the added SPC control species may for example be between 0.001 times and 1000 times, and preferably between 0.01 and 100 times the decision threshold.
  • the nucleic acids of the control species SPC undergo a treatment similar to the nucleic acids of the species of interest during the steps of sample preparation, extraction and sequencing, and preferably:
  • the percentage of GC bases is preferably close to the percentage of GC base of the biological species of interest; By close to is meant between 75% and 125%, and preferably between 80% and 120%.
  • control biological species preferably comprises, when the biological species of interest is a bacterium, a membrane or an integral cell wall or, when the biological species of interest is a virus, an envelope protein. This condition also makes it possible to monitor the lysis steps or the extraction of nucleic acids from the biological species of interest.
  • the nucleotide sequences of the control species do not preferably contain genomic markers, such as for example markers of resistance to antibiotics, markers of virulence, so as not to distort the results of a possible antibiotic sensitivity test by the presence of such markers in the genome of the biological species of interest.
  • the nucleotide sequences of the control species do not contain any other gene of clinical or industrial interest and the presence of which can be controlled.
  • control species is preferably easy to handle, in particular:
  • control species must not form spores, or only marginally.
  • control species must exhibit a sensitivity to lysis close to that of the biological species of interest.
  • control species is present in the form of beads, each bead comprising a calibrated concentration of control biological species in lyophilized form.
  • control species can be used, or that several species of control, of different types, can be used.
  • Different biological control species can be used for the same biological species of interest.
  • the control species forms a calibrator.
  • a calibrator different from the control species, is added to the sample. The calibrator allows an estimate of the concentration of the species of interest.
  • the added CSPC concentration of the SPC control species is preferably precisely known. Indeed, it can make it possible, subject to certain conditions being met, to quantify the concentration of biological species of interest in the sample, the control species then forming a calibrator.
  • the term added concentration refers to the concentration of the control species in the sample due to the addition of the control species.
  • control species fulfills the control function quality of the steps of the metagenomic analysis, as well as the function of calibrator, allowing a quantification of the concentration of the biological species of interest.
  • step 20 there is an added concentration CSPC of the control species in the sample.
  • the added concentration C S PC can be expressed in GEq / mL (equivalent genome per mL).
  • Step 30 lysis and extraction of nucleic acids.
  • the cells of the sample and in particular the cells of the biological species of interest and of the control species, undergo lysis, to allow extraction of their DNA.
  • Different strategies can be considered:
  • lysis can be configured to preferentially target the biological species of interest; the control species must exhibit the same sensitivity to lysis as the biological species of interest, or a sensitivity to lysis considered to be equivalent.
  • the lysis can include a first lysis, intended to essentially lyse cells other than the species of interest.
  • a first lysis can for example be envisaged when the biological species of interest is very much in the minority compared to the cells of a matrix making up the sample.
  • the released nucleic acids are evacuated, then a second lysis is carried out, targeting the biological species of interest.
  • the control species is preferably resistant to the first lysis, and not resistant to the second lysis.
  • the DNA is extracted from the sample, for example according to the extraction method described in WO2014 / 114896.
  • the DNA extracted from the sample can consist essentially of the DNA of the matrix, that is to say of the environment from which the sample was taken.
  • the sample can undergo selective capture and / or amplification, mainly targeting sequences and / or specific physicochemical modifications of the genomes of the biological species of interest.
  • the control species comprises the sequences and / the physicochemical modifications targeted by the selective capture or amplification.
  • the sample may undergo depletion primarily targeting the DNA of the template. In this case, the control species does not contain sequences or physicochemical modifications which may be targeted by the depletion.
  • Step 40 Amplification and sequencing.
  • the DNA fragments optionally undergo amplification which may be of the targeted type, for example by PCR (Polymerase Chain Reaction), or non-targeted, for example by WGA (Whole Genome Amplification).
  • WGS Whole Genome Sequencing
  • SBS sequencing by synthesis
  • nanopore nanopore
  • the aim of sequencing is to provide digital sequences of nucleic acids, called reads.
  • Sequencing comprises a preparation of libraries of sequences (or library preparation), optionally followed by an amplification step, then by a sequencing step proper.
  • the amplification and the sequencing can be implemented by the MiSeq platform, marketed by the company Illumina.
  • the DNA can be chopped up at random, so as to obtain nucleic acid sequences of a targeted average length, generally an average length between 50 bases and 300 bases.
  • a targeted average length generally an average length between 50 bases and 300 bases.
  • WGS Whole Genome Sequencing
  • sequencer reads the bases of the sequenced DNA fragments, so as to obtain so-called “reads” sequences, each “read” corresponding to a sequence decoded by the sequencer.
  • sequences resulting from the sequencing are then aligned with respect to genomes stored in a database, including in particular the genome of the biological species of interest sought and the genome of the control species. Sequencing is an operation known to those skilled in the art. Details relating to the sequencing operations are given for example in the documents cited in connection with the prior art, in particular WO2018 / 069430 or in the publication Rupfug E cited above.
  • the sequencer transmits files corresponding to the measurements carried out including the "reads" to a data processing unit.
  • the latter comprises a memory, in which are stored instructions allowing the implementation of sequencing algorithms.
  • the sequencing algorithms make it possible to identify, for each sequence, the genome comprising the sequence, from among a plurality of genomes stored in a database. They also make it possible to establish the position of each sequence on the genome to which it belongs, and to carry out assemblies between the different sequences belonging to the same genome.
  • sequencing data relating to the different biological species of the sample is available. It is in particular an identification of each species and a quantity of sequences assigned to each identified species. In particular, there is a number of R S oi sequences assigned to the biological species of interest and a number of R S P C sequences assigned to the control species.
  • Step 45 Identification of the species to which the reads belong.
  • this step implemented by the data processing unit, the origin of each of the reads is identified, in terms of bacterial species.
  • This step generally known as “binning”, “taxonomic binning”, or “assignment”, comprises the comparison of each of the reads with digital sequences of nucleic acids from a reference database.
  • binning software are for example Kraken, (Wood and Salzberg, “Kraken: ultrafast metagenomic sequence classification using exact alignments", Genome Biology, 2014), or “Wowpal Wabbit” (Vervier et al., “Large-scale machine learning for metagenomics sequence classification ", Bioinformatics, 2015), or” BWA-MEM “(Li,” Aligning sequence reads, clone sequences and assembly contigs with BWA-M EM “, Genomics, 2013).
  • a read is assigned to a species of interest if it is entirely included in a genome representative of the species of interest stored in the database.
  • the amounts of sequencing data resulting from step 45 do not have the same size for each of the samples.
  • the number of sequences generated by the sequencing depends on the quality and the quantity of DNA of the different biological species composing the sample. It is therefore preferable, or even necessary, to standardize the quantity of sequences associated with a species relative to a reference quantity. Normalization depends on the type of sample analyzed and the metagenomic analysis applied.
  • the reference quantity may for example be a total number of sequences produced for the sample analyzed.
  • the standardized amount of sequences associated with each species, divided by the reference amount is usually multiplied by 1 E 6 so as to obtain a standardized amount corresponding to an amount per million of sequence (or RPM, acronym for Read Per Million).
  • the reference quantity may be, without being exhaustive:
  • a total number of sequences associated with all identified microorganisms a total number of sequences associated with an organism from which the sample is extracted: for example, when the organism is a human body, a total number of sequences associated with the human genome can be determined;
  • reference species it is meant an endogenous or exogenous species which is considered to be present constantly in different samples taken.
  • the reference species can be the control species.
  • Step 50 is carried out for the biological species of interest (or for each biological species of interest), as well as for the control species (or for each SPC control species or for each calibrator).
  • the biological species of interest SOI or for each biological species of interest
  • the control species SPC or for each control species or for each calibrator
  • N denotes the fact that the quantity is standardized.
  • the term quantity can denote a standardized quantity.
  • Step 60 Interpretation.
  • This step is an important step of the invention. It is a question of knowing to what extent the results of the sequencing are interpretable.
  • the method comprises a determination of a confidence level that can be attributed to the preceding steps, and in particular the steps 30 to 50 described above.
  • the level of confidence is assigned thanks to the type of control, and in particular thanks to the fact that the species of control has been introduced beforehand at step 30.
  • This step uses detection thresholds DTsoi and DTSPC, respectively associated with the biological species of interest SOI and with the control species SPC.
  • the detection thresholds can be established on the basis of statistical detection thresholds respectively determined for the biological species of interest and the control species.
  • the statistical detection thresholds are established beforehand, during a step 100 described later.
  • a statistical detection threshold corresponds to the most low value of an analyte concentration measured by a detection method, which is statistically different from that measured, under the same conditions, when the analyte is absent from the sample.
  • Each detection threshold can be equal to the statistical detection threshold, or be determined from the statistical detection threshold, in particular being k times equal to the statistical detection threshold, k being a non-zero real.
  • the interpretation aims to compare the standardized quantities of RN S oi and RN S P C sequences, respectively assigned to the biological species of interest SOI and to the control species SPC, with their respective detection thresholds.
  • the biological species of interest can be considered to be detected with an acceptable level of confidence when the standardized quantity of sequences assigned to the biological species of interest is greater than or equal to the detection threshold associated with it.
  • the kind of control Based on the comparison, four situations can be distinguished:
  • RNsoi 3 DTsoi and the level of confidence are considered sufficient, the respective detections of the biological species of interest and of the control species are confirmed.
  • the SOI species of interest is considered to be present in the sample, with a sufficient level of confidence. Its Csoi concentration can be estimated, from:
  • step 45 the number of sequences (or the number of normalized sequences), assigned to the biological species of interest, resulting from step 45;
  • Lsoi are respectively the genome lengths of the control species and of the biological species of interest.
  • a is a correction factor determined empirically, on the basis of training samples for which the concentration of the biological species of interest is known.
  • the concentration of the biological species of interest is also expressed in the same unit.
  • the sequencing comprises an assembly of the sequences respectively associated with the control species and with the biological species of interest, as well as a determination of a coverage rate Cov of the assemblies for each of the species.
  • concentration C S oi of the biological species of interest can then be calculated according to the following equation:
  • Covsoi are respectively the coverage rates determined for the control species and the biological species of interest.
  • the coverage rate is usually designated by the Anglo-Saxon term “Coverage” and expresses an average number of times a base is sequenced at a given position of the genome, as described in the publication Lacoste C et al. “High throughput DNA sequencing in clinical practice”, Archives de Pediatrie 2017; 24: 373- 383.
  • a 1 is a correction factor determined empirically, on the basis of training samples for which the concentration of the biological species of interest is known.
  • step 61 can be carried out with a biological species, different from the control species, and forming a calibrator.
  • a control species is used during step 60, to confirm the detection of the biological species of interest
  • step 61 that is to say the quantification
  • the characteristics of the calibrator are similar to those of the control species, and correspond to the characteristics described in connection with step 20.
  • the quantification, using the calibrator can be carried out using the expression ( 1) or the expression (). Expression (1) becomes:
  • Rc AL is the number of sequences, preferably normalized, assigned to the calibrator
  • L CAi _ is the length of the calibrator genome
  • C CA L is the concentration of calibrator added to the sample
  • a is a correction factor as described in connection with (1).
  • no control species is used.
  • a calibrator is used, and the concentration of the biological species of interest is implemented from the number of sequences, preferably normalized,
  • This step involves a comparison of the added concentration the type of control and the decision threshold SD, so that:
  • Step 63 the concentration of biological species of interest cannot be estimated, but it can be considered to be above the decision threshold. Without being able to quantify the concentration of the biological species of interest, it is possible to conclude that the decision threshold has been crossed. Step 63
  • the step comprises an estimate of a minimum detectable concentration of the biological species of interest.
  • the minimum detectable concentration Cmin S oi of the biological species of interest corresponds to the lowest concentration that can be distinguished from the background noise, It is assimilated to the concentration, in genome equivalent, corresponding to the detection threshold DTsoi of the biological species of interest.
  • the minimum detectable concentration can be determined from:
  • Lsoi are respectively the genome lengths of the control species SPC and of the biological species of interest SOL
  • a is the correction factor described in connection with equation (1).
  • Step 63 comprises a comparison of the decision threshold SD with the minimum detectable concentration Cminsoi such that:
  • the detection of the biological species of interest can be considered negative: the concentration of biological species of interest in the sample is less than or equal to the decision threshold.
  • the sample comprises at least one species at a high concentration, and generating a high number of sequences, which produces a masking effect of the other sequences of interest.
  • the confirmation of the presence of the biological species of interest, at a concentration above the decision threshold, and its possible quantification, are used as a diagnostic aid.
  • the SPC control species provides both a function of checking the conformity of the metagenomic analysis as well as a function of calibrator, allowing quantification of the biological species of interest in sample.
  • an SPC control species and a calibrator, different from the control species are added to the sample. These are for example two different bacterial species.
  • the SPC control species performs a function of checking the conformity of the metagenomic analysis.
  • the calibrator allows quantification of the biological species of interest in the sample, according to equations (1) or () or (2).
  • the calibrator preferably has the same characteristics as the control species, the latter being described in connection with step 20.
  • the SPC control species is added to a first concentration. It is assigned a detection threshold and step 60 is implemented by comparing a quantity of normalized sequences assigned to the control species, resulting from step 50, with the detection threshold associated with the control species.
  • the calibrator is also added to the sample, at a second concentration.
  • a detection threshold is assigned to it.
  • the quantification can be carried out by taking into account a standardized quantity of sequences associated with the calibrator, as well as the detection threshold associated with it.
  • the calibrator can be added prior to lysis or following lysis and prior to sequencing.
  • several calibrators are added to the sample, each calibrator being chosen for one or more species of interest.
  • groups of bacterial species may react in a significantly different way to the processes of nucleic acid extraction, for example Gram + bacteria and Gram- bacteria.
  • a calibrator consisting of a Gram + bacteria is added. when one or more species of interest are Gram + and a calibrator consisting of a Gram bacterium - when one or more species of interest are Grams -
  • the species of interest may consist of bacteria and viruses.
  • a first calibrator is bacterial and a second calibrator is viral helper is viral.
  • Step 100 Establishment of detection thresholds.
  • control species and the biological species of interest are respectively associated with detection thresholds.
  • the detection threshold is established prior to the interpretation of the results, using training samples, not including said species. These are negative samples relative to the species considered. These samples are representative of the sample analyzed. By representative, it is meant that these training samples comprise a population of biological species comparable to that of the sample analyzed, both from a qualitative and quantitative point of view. The absence of a biological species of interest and / or of the control species in each test sample can be verified by a standard method of culture and / or PCR type.
  • sequencing is carried out, preferably under the same conditions as described in connection with steps 30 to 45.
  • a quantity of sequences assigned to the species considered is determined. This amount is preferably normalized, as described in connection with step 50.
  • the detection thresholds respectively associated with the biological species of interest and with the control species by using respectively first training samples, not comprising the biological species of interest, and second training samples, not including the control species.
  • the first training samples can be confused with the second training samples, in which case the associated detection thresholds the biological species of interest and the control species are determined with the same training samples.
  • Sequencing is preferably performed on a statistically representative number of training samples. We thus obtain a statistical distribution of the normalized quantity of sequences. We then estimate a mean m of the distribution, as well as an indicator of dispersion, for example the standard deviation s or the variance s 2 .
  • the detection threshold is estimated by adding, to the average m, n times the dispersion indicator, n being a real n is typically between 2 and 4.
  • the detection thresholds respectively associated with the biological species of interest and with the control species are intended to be compared with the quantities of standardized sequences of the biological species of interest and of the control species, it is important that the normalization carried out during step 100 is similar to the normalization carried out during step 50.
  • the steps described above can be carried out by simultaneously targeting several biological species of interest. This is also a notable advantage of metagenomic analysis, which allows different biological species to be addressed simultaneously. Another advantage of metagenomic analysis is the possibility of using several control species simultaneously. Thus, one control species can be used to target one or more biological species, while another control species can be used to target other biological species of interest. This is another advantage of metagenomic analysis.
  • steps 61 to 64 can be implemented by using, for the same biological species of interest, different control species. This makes it possible to limit the risks of failure of the process, following a malfunction in the sequencing of a control species.
  • an estimate of the presence of the biological species of interest in relation to the decision threshold is available.
  • several quantifications can be obtained, according to equations (1), () in which case we can consider the mean or the median of the quantifications obtained, or the quantification considered as the most penalizing, that is to say that resulting in the highest concentration of biological species of interest or, more generally, closest to the decision threshold.
  • Steps 61 to 64 are implemented by a computing unit, for example of the microprocessor type, from the sequencing data coming from steps 40, 45 and 50 and supplied by the processing unit.
  • the sequencing data which correspond to data measured from the analysis sample, are thus transmitted, by wire or wireless connection, from the computing unit so as to execute one of steps 61 to 64.
  • the microprocessor is linked to a memory comprising instructions for implementing steps 61 to 64.
  • Bacillus subtilis was a good candidate to be used as a control species for the metagenomic sequencing of samples resulting from bronchoalveolar lavage (BAL) performed on human patients. It is known that this type of sample is likely to contain a large amount of human DNA originating from the patient.
  • BAL bronchoalveolar lavage
  • the metagenomic sequencing of such samples can help in the diagnosis of pneumonia acquired in a hospital environment, for diagnostic aid.
  • the clinical decision threshold is established at 1.0 E4 CFU / mL, the acronym CFU standing for Colony Forming Unit.
  • the analysis protocol includes removal of the DNA from the patient during a prior lysis.
  • the sample was treated with a lysing agent specifically targeting the cells of the patient.
  • a lysing agent is for example described in WO2014 / 114896.
  • the released DNA was then removed by enzymatic action and washing.
  • the sample was then subjected to a second mechanical and chemical lysis so as to extract the bacterial DNA.
  • the protocol Prior to the lysis steps, the protocol provides for the addition of a species of control in the sample.
  • the biological species forming the control species must be resistant to lysis of human cells, while being sensitive to lysis of bacterial cells.
  • certain bacteria in particular Gram-positive bacteria, are difficult to lyse.
  • the metagenomic sequencing carried out aims to detect and possibly quantify about 20 biological species of interest, each species of interest being a bacterium included in the following list: Acinetobacter baumannii, Citrobacter freundii, Citrobacter koseri, Enterobacter aerogenes, Enterobacter cloacae, Escherichia coli, Haemophilus influenzae, Hafnia alvei, Klebsiella oxytoca, Klebsiella pneumoniae, Legionella pneumophila, Morganella morganii, Proteus mirabilis, Proteus vulgaris, Providencia stuartii, Pseudomonas aeruginosa, Serratia marcescens, Staphylococcus aureus, Stenotrophomonas maltophilia, Streptococcus pneumoniae.
  • the SPC control species must also be able to be sequenced with an efficiency comparable to the species of interest listed above.
  • the sequencing efficiency depends essentially on the size of the genome as well as the GC content. (Guanine - Cytosine).
  • the control species had to have a genome size of between 1.9 and 6.6 megabases, as well as a GC content of between 33% and 66%.
  • the concentration of the control species, added to the sample was set at 1.0 E4 CFU / mL, ie a concentration comparable to the decision threshold mentioned above.
  • Bacillus subtilis exhibited the characteristics required to be used as a control species.
  • the Bacillus subtilis genome size is 4.12 Mb (megabases) and has a GC content of 43.6%.
  • Bacillus subtilis is commercially available in the form of "BioBalls" type beads (registered trademark) - Biomérieux manufacturer. These are water-soluble beads containing a calibrated concentration of Bacillus subtilis, which makes it possible to adjust the concentration of the added control species.
  • Bacillus subtilis is a relevant biological species to form a control species, in a sample obtained by BAL, and with the analysis protocol described at the beginning of the example.
  • This example describes the detection and quantification of Staphylococcus aureus in a sample taken by bronchoalveolar lavage (BAL) by applying the double lysis protocol described in Example 1 and steps 10 to 50 described above.
  • Example 2 A cohort of 13 samples from BAL was used. Following the conclusions of Example 1, the control species used was Bacillus subtilis, added to each sample at a concentration close to the decision threshold (1.0 E4 CFU / mL). In this example, the control species was obtained by rehydration of a Bioball Multishot 10 E 8 - Bacillus subtilis ATCC 19659 (Biomérieux), in 1.1 mL of PBS buffer (Saline Phosphate Buffer). The control species was diluted to 1.0 E6 CFU / mL in PBS and 10 ⁇ L are added to 600 ⁇ L of sample. An added concentration of the control species of 1.7 E4 CFU / mL is thus obtained.
  • the control species used was Bacillus subtilis, added to each sample at a concentration close to the decision threshold (1.0 E4 CFU / mL).
  • the control species was obtained by rehydration of a Bioball Multishot 10 E 8 - Bacillus subtilis ATCC 19659 (Biomérieux),
  • each sample was processed within a maximum of 48 hours after collection. As previously indicated, each sample underwent a first lysis specific to human cells. Unlyysed cells were pelletized and treated with DNAse I. Before extraction of human DNA, DNAse was deactivated by heating and adding EDTA (Ethylenediaminetetraacetic). Each sample was then subjected to a second lysis, by being added to a lysis tube containing a mixture of glass beads of 1 mm diameter and of Zr / Si beads of 0.1 mm diameter. Lysis is obtained by stirring for 20 minutes. DNA was extracted from the lysate using the easyMAG (trademark) Biomérieux platform. Elution was carried out in a volume of 25 ⁇ L. The extracts were stored at -20 ° C.
  • the sequencing libraries were prepared in 2x250 paired-end with the Nextera (registered trademark) XT DNA Library preparation kit (manufacturer Illumina).
  • the samples were sequenced using the MiSeq platform (registered trademark) with the "MiSeq reagent kit V3" kit (Illumina).
  • the sequences were processed with a processing unit using the KRAKEN VO 10.5b software using an internal sequence database.
  • This database comprises, in particular, the sequences of the human genome as well as the sequences of 20 biological species of interest described in Example 1.
  • the number of sequences produced on each sample varied between 331,000 and 17,000,000. numbers of sequences associated with the control biological species (Bacillus subtilis) and with the biological species of interest (S. Aureus) were normalized to reads per million (RPM).
  • Table 1 shows the sequencing results for 13 culture positive samples. Columns 1 to 7 correspond respectively:
  • the SPC control species acts as a calibrator, in the sense that it is used during the quantification step.
  • SOI NA and SPC NA correspond respectively to the fact that the number of sequences associated with the biological species of interest SOI and with the control species SPC are not sufficient to allow assembly.
  • NA stands for Non-Assembled.
  • Samples 1, 2, 3, 4, 5, 6, 7, 9, 10, 11, 12 and 13 correspond to the configuration described in connection with step 61, in which a quantification of the species of interest is possible, for example according to expression (1) and expression ().
  • Sample 8 corresponds to the configuration described in connection with step 64: the results cannot be interpreted. Additional investigations have shown, for this sample, a failure of the sequence demultiplexing step. This scenario is interesting because it shows that taking into account the type of control makes it possible to avoid the production of a "false negative" result.
  • concentration Csoi was estimated by equation ().
  • the sequences associated with the control species SPC or with the biological species of interest SOI are sometimes not assemblable; in this case, the biological species of interest is not quantifiable according to this protocol, whereas it is by using equation (1).
  • FIG. 2A shows a comparison of the quantification of S. aureus by culture (x-axis) and by sequencing (y-axis).
  • FIG. 2B shows a correlation between the results of quantification by metasequencing (equation (1) - y-axis) and by quantitative PCR (x-axis).
  • the detection of the 20 pathogenic bacterial species of interest was tested on samples obtained from bronchoalveolar washings (BAL) or mini bronchoalveolar washings (mini BAL). .
  • the SPC control species (B. subtilis) is obtained identically to Example 2, the concentration added to each sample being 1.7 E4 CFU / mL.
  • the decision threshold is 1.0 E4 CFU / mL for BAL samples, and 1.0 E3 CFU / mL for mini BAL samples.
  • Two sample cohorts were collected: a training cohort, comprising 46 samples (23 BAL and 23 mini-BAL) and an analysis cohort, comprising 40 samples (33 BAL and 7 mini-BAL).
  • Example 2 The sample underwent a double lysis, as described in connection with Example 2. The sequencing was carried out as described in Example 2.
  • the quantity of sequences was normalized in reads per million reads associated with bacterial species (RPMb), cf. step 50.
  • the detection threshold DTsoi was determined by considering only the training samples for which the biological species of interest is considered as not detected. The species of interest is considered as not detected in a sample, when the result of microbiological culture of the sample is negative for the detection of the SOI in question and negative for the detection of MetaPhlAn marker sequences specific for the SOI in question.
  • Figure 3 shows the statistical distributions of the amount of sequence, normalized, on negative training samples relative to the species of interest.
  • the x-axis corresponds to each species of interest, while the y-axis corresponds to the normalized quantity of sequences associated with the species of interest.
  • the median value line included in the rectangle
  • the 25% and 75% fractiles limits of the rectangle
  • the ends of each vertical line correspond to the 1% and 99% fractiles. It is observed that the distributions are very variable from one another, which justifies that a detection threshold DTsoi be established for each biological species of interest.
  • a detection threshold DTsoi was determined, according to step 100 previously described. If psoi denotes the average of the normalized number of sequences assigned to the species of interest, and s £ oi is their standard deviation, the detection threshold DTsoi is obtained "at 3 sigmas", according to the expression:
  • the detection threshold DT S P C DT S.
  • Subt m s associated with B. subtilis has been defined. We took into account 7 training samples without addition of B. subtilis. The mean p s was determined . subt m s of the normalized number of sequences assigned to B. subtilis, as well as their standard deviation s subt s The detection threshold 0 ⁇ B. subtms is such that:
  • SD decision threshold
  • the “Infection” population corresponds to the 20 occurrences detected by culture at concentrations equal to or greater than the clinical thresholds, namely 1.0 E3 CFU / mL for the miniBAL samples and 1.0 E4 CFU / mL for the BAL samples.
  • the “Colonization” population corresponds to the 900 occurrences not detected by culture or detected by culture at concentrations below the clinical thresholds, namely 1.0 E3 CFU / mL for the miniBAL samples and 1.0 E4 CFU / mL for the BAL samples
  • the 920 occurrences correspond to the analyzes, by microculture, of the 46 training samples, considering respectively the 20 biological species of interest.
  • FIG. 4 represents, for different samples, quantifications of biological species carried out by culture (abscissa axis) and by metagenomic analysis (ordinate axis).
  • the black circles correspond to a species chosen from Acinetobacter baumannii, Citrobacter freundii, Citrobacter koseri, Enterobacter aerogenes, Escherichia coli, Haemophilus influenzae, Hafnia alvei, Klebsiella oxytoca, Klebsiella pneumoniae, Legionella pneumoniaii, Legionella pneumoniaii, Legionella pneumoniaii, Morganeus mirabilisophila, Proteus vulgaris, Providencia stuartii, Pseudomonas aeruginosa, Serratia marcescens, Stenotrophomonas maltophilia and Streptococcus pneumoniae. Clear triangles correspond to Staphylococcus aureus.
  • Figure 4 shows that for a species of interest, or for a group of species of interest, the “Colonization” and “Infection” populations can also be differentiated from the results of quantification by genome equivalent sequencing (GEq).
  • the metagenomic threshold (SD) is defined by taking into account the first half percentile of the concentrations measured on the “Infection” population, the value thus obtained is 5.5 E 3 GEq / mL.
  • a metagenomic threshold forming a decision threshold SD, making it possible to separate respectively the samples whose concentration in the biological species of interest is located below or beyond a critical value.
  • the critical value can in particular correspond to the decision threshold SD described above.
  • the concentration of a species of interest, determined by sequencing, is then compared to the decision threshold associated with it.
  • the decision threshold generally depends on the biological species considered. It is then possible to establish a decision threshold for a biological species considered or for a group of biological species. Two different biological species can be associated with two different decision thresholds.
  • Tables 2A to 2C collate the results obtained, each table respectively collating the results of samples 1 to 13, 14 to 27 and 28 to 40.
  • the first line of each table contains the references of each sample.
  • the second line represents the detection (+) or non-detection (-) of the control species SPC compared to the detection threshold which is associated with it: cf. step 60.
  • TP True Positive - Vrai Positif
  • FN False Negative
  • the metagenomic analysis allowed the detection of 19 additional occurrences, compared to the microbiological culture. These occurrences are designated by FP (False Positive - False Positif) or FP + in Tables 2A to 2C.
  • the 5 FP + occurrences correspond to detections for which MetaPhlAn markers and BLAST alignments (acronym for Basic Local Alignment Search Tool) make it possible to confirm the presence of the species of interest in the sample, despite its non-detection by culture.
  • MetaPhlAn markers and BLAST alignments ascronym for Basic Local Alignment Search Tool
  • the FP occurrences correspond to false positives for which the number of reads associated with the species of interest are too low for confirmation by the search for MetaPhlAn markers and BLAST alignments. These additional occurrences are also probably due to a better sensitivity of the metagenomic test compared to detection by microbiological culture, however the absence of confirmation does not allow to exclude a defect of specificity of the metagenomic test.
  • the control of the metagenomic test makes it possible to limit the risk of false negatives, this situation is clearly illustrated by the non detection of E. cloacae in sample 27.
  • a particular application of the invention to so-called “shotgun” sequences has been described.
  • the invention also applies to targeted sequences, for example to so-called 16S sequences.
  • a step of amplifying the targeted genes is implemented in order to multiply their copies in the sample.
  • the reads used by the invention are then the reads corresponding only to the targeted genes.
  • Bacillus subtilis as a control species has been described during a metagenomic analysis of BAL or mini-BAL type samples.
  • another control species can be used, provided that it satisfies all or part of the criteria described in connection with step 20. It can for example be a species chosen from: Bacillus stearothermophilus , Synechocystis sp. PCC6803, Pelagibacter ubique, Methanocaldococcus jannaschii, Aeropyrum pernix, Kocuria rhizophila, Azospirillum lipoferum, Lactococcus lactis, Synechococcus sp. WH 7805, Schizosaccharomyces pombe, Pantoea stewartii, Phage T4, Pichia pastoris, Armored DNA Quant TM.
  • control species have been described in the form of elements comprising nucleic acids included in or encapsulated in membranes (bacterial membrane, capsid, etc.). This characteristic is used for the conformance control function of the metagenomic analysis, in particular to know if the nucleic acid extraction process has worked as expected.
  • the calibrator can consist of acids free nucleic acids added to the sample or to the DNA extract in known quantity.
  • control and calibration species all at once, namely before the step of extracting the nucleic sequences.
  • the calibrators can be added at a later stage, preferably after the sample lysis step in the case of naked nucleic acids in order to avoid the destruction of the latter.
  • the method according to the invention makes it possible in particular to assay the biological species of interest in a sample.
  • the method according to the invention is supplemented by a step of determining an antibiotic therapy according to the species identified and assayed in the sample, and of administration of the determined antibiotics. to the patient.
  • the method makes it possible to aid in the diagnosis of contamination of a sample by a species of interest, the latter possibly being a bacterium or a fungus.
  • a species of interest possibly being a bacterium or a fungus.
  • This allows a definition of an appropriate treatment (antibiotic in the case of a bacterium, antifungal in the case of a yeast or a fungus), on the basis of the identity of the species of interest, but also on the basis of any marks of antimicrobial resistance detected in the genome.
  • the concentration of the biological species when the concentration of the biological species is greater than the decision threshold, this can be considered to signify the occurrence of an anomaly.
  • Appropriate remedial treatment is decided, aimed at remedying the anomaly.
  • the species of interest in the agri-food sector, can be a bacterium.
  • the remedial treatment may be a removal or destruction of food products intended for sale, and / or cleaning of a production facility.
  • the application relates to health control, for example health control of an installation, for example part of a hospital, so as to prevent nosocomial infections.
  • the proven presence of an undesirable biological species leads to a remedial treatment such as cleaning or decontamination.
  • the invention can be implemented in the field of health, as a diagnostic aid, or, more generally, in the field of the analysis of samples taken from the environment, or in industrial processes, for example the food industry, industry, pharmaceutical or cosmetics industry. It can also be implemented in health control.

Abstract

Procédé de détection d'une espèce biologique d'intérêt (SOI) potentiellement présente dans un échantillon d'analyse, l'espèce biologique d'intérêt présentant un génome connu ou partiellement connu, l'échantillon d'analyse comportant un mélange de différentes espèces biologiques, le procédé comportant les étapes suivantes : a) extraction des acides nucléiques de l'échantillon d'analyse; b) séquençage des séquences de nucléotides extraites lors de l'étape a); c) à partir du résultat du séquençage : (i) assignation des séquences résultant de l'étape b) à partir d'une base de séquences de référence; (ii) détermination d'une quantité de séquences (RSOI, RNSOI) assignées à l'espèce biologique d'intérêt; le procédé étant caractérisé en ce qu'il comporte, préalablement à l'étape b), l'ajout d'un calibrateur, le calibrateur étant une espèce biologique ajoutée selon une concentration connue, dans l'échantillon d'analyse, le calibrateur présentant un génome connu, et en ce que l'étape c) comporte (iii) détermination d'une quantité de séquences (RCAL) assignées au calibrateur; d) à partir des quantités de séquences estimées durant les étapes (ii) et (iii), estimation d'une concentration (CSOI) de l'espèce biologique d'intérêt (SOI) dans l'échantillon.

Description

Description
Titre : Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique, avec prise en compte d'un calibrateur.
DOMAINE TECHNIQUE
Le domaine technique de l'invention est l'identification d'une espèce biologique d'intérêt par analyse métagénomique.
ART ANTERIEUR
L'amplification des acides nucléiques par PCR (Polymerase Chain Reaction) permet d'effectuer un diagnostic rapide et précoce quant à la présence de certains microorganismes dans un échantillon. La PCR est par exemple particulièrement adaptée pour détecter l'ADN (Acide Désoxyribonucléique) de bactéries difficilement cultivables, ou se développant lentement, telles que Mycobacterium tuberculosis.
Cependant, la mise en oeuvre de la PCR nécessite l'utilisation d'amorces, ciblant spécifiquement un gène présent dans une espèce biologique cible. Ainsi, la PCR permet une analyse spécifique à une espèce biologique, ce qui en fait une méthode sélective, sensible, et pouvant être quantitative. Cependant elle suppose un a priori sur l'espèce biologique ciblée. Si plusieurs espèces biologiques sont recherchées, des PCR dites multiplex doivent être réalisées, ce qui rend le processus plus complexe.
Il est également possible de cibler un gène, présent dans différentes espèces biologiques cibles. En ce qui concerne les bactéries, il s'agit par exemple du gène ARN 16S. L'analyse par PCR est alors dite à large spectre. Cependant, la PCR à large spectre est plus délicate à mettre en oeuvre, et suppose de disposer d'un a priori sur l'espèce biologique cible à identifier. Le ciblage d'un gène est décrit dans EP2985350 ou dans la publication Stâmmler F. « Adjusting microbiome profiles for différences in microbial load by spike-in bacteria », Microbiome (2016) 4 :28.
A l'inverse des techniques précédemment décrites, la métagénomique permet de séquencer des génomes de plusieurs individus d'espèces biologiques différentes dans un milieu donné. On peut alors déterminer les espèces effectivement présentes dans l'échantillon, ainsi que leurs abondances relatives. La métagénomique séquence les génomes de plusieurs individus d'espèces différentes dans un milieu donné, et cela sans a priori sur les espèces biologiques dans l'échantillon, qu'elles soient bactériennes, virales ou humaines. On dispose alors d'une analyse des différents génomes des espèces biologiques d'un échantillon. On peut alors déterminer quelles espèces sont présentes, ainsi que leurs abondances relatives.
Des progrès ont récemment été réalisés dans le domaine du séquençage, avec l'avènement des séquençages de deuxième ou de troisième génération, dits séquençage haut débit, également désignés par l'acronyme HTS (High Throughput Sequencing). Les performances de la bioinformatique, permettant un traitement informatique rapide de l'information biologique issue du séquençage, se sont améliorées. Le séquençage haut débit permet à présent de générer suffisamment de séquences pour obtenir un inventaire représentatif des différentes espèces présentes dans l'échantillon. Il s'agit d'une méthode d'analyse disponible commercialement, et dont l'utilisation devient relativement courante. Le document W02018/069430 décrit une application d'une analyse métagénomique pour l'identification d'agents pathogènes ainsi que des marqueurs de résistance à des antibiotiques.
La publication Ruppé E "Clinical metagenomics of bone and joint infections : a proof of concept study", décrit également l'application de la métagénomique pour l'identification de bactéries. Les documents WO2017/053446 ainsi que la publication Schlaberg « Validation of metagenomic next-generation sequencing tests for universal pathogen détection » décrivent des procédés d'analylse métagénomiques d'échantillons, dans lesquels un contrôle interne, formé d'une espèce biologique connue, est introduit dans l'échantillon.
L'inventeur propose un procédé de détection, et éventuellement de quantification, d'une espèce biologique d'intérêt, voire de différentes espèces biologiques d'intérêt, dans un échantillon, en mettant en oeuvre une analyse métagénomique de l'échantillon. De plus, le procédé permet d'établir un indicateur relatif au bon déroulement des étapes biologiques ou bioinformatiques du processus métagénomique.
EXPOSE DE L'INVENTION
Un objet de l'invention est un procédé de détection d'une espèce biologique d'intérêt potentiellement présente dans un échantillon d'analyse, l'espèce biologique d'intérêt présentant un génome connu ou partiellement connu, l'échantillon d'analyse comportant un mélange de différentes espèces biologiques, le procédé comportant les étapes suivantes :
a) extraction des acides nucléiques de l'échantillon d'analyse ;
b) séquençage des séquences de nucléotides extraites lors de l'étape a) ;
c) à partir du résultat du séquençage :
(i) assignation des séquences résultant de l'étape b) à partir d'une base de séquences de référence ; (ii) détermination d'une quantité de séquences assignées à l'espèce biologique d'intérêt; le procédé étant caractérisé en ce qu'il comporte, préalablement à l'étape b), l'ajout d'un calibrateur, le calibrateur étant une espèce biologique ajoutée selon une concentration connue, dans l'échantillon d'analyse, le calibrateur présentant un génome connu, et en ce que l'étape c) comporte
(iii) détermination d'une quantité de séquences assignées au calibrateur;
d) à partir des quantités de séquences estimées durant les étapes (ii) et (iii), estimation d'une concentration de l'espèce biologique d'intérêt dans l'échantillon.
De préférence, lors des sous-étapes ii) et iii), les quantités de séquences respectivement assignées à l'espèce biologique d'intérêt et à l'espèce biologique de contrôle sont normalisées par une quantité de référence. La quantité de référence peut par exemple être une quantité totale de séquences produites au cours du séquençage.
Le procédé peut comporter une prise en compte d'un seuil de décision, auquel la concentration de l'espèce d'intérêt est destinée à être comparée.
Le seuil de décision est de préférence exprimé dans une unité correspondant à un nombre de séquences par unité de volume (ou de masse), par exemple en Génome Equivalent par mL. Le seuil de décision peut dépendre de l'espèce biologique considérée.
De préférence, le calibrateur présente l'une des caractéristiques décrites ci-après, prises isolément ou selon les combinaisons techniquement réalisables :
le calibrateur est tel que la taille de son génome est comprise entre 0.1 fois à 10 fois la taille du génome de l'espèce biologique d'intérêt ;
l'échantillon comportant des organismes endogènes, le calibrateur présente un génome différent de celui des organismes endogènes;
la concentration du calibrateur est comprise entre 0,001 fois et 1000 fois, et de préférence entre 0.01 et 100 fois le seuil de décision pris en compte ;
l'espèce biologique d'intérêt est une bactérie, le calibrateur présentant une membrane ou une paroi cellulaire intègre ;
l'espèce biologique d'intérêt est un virus, le calibrateur présentant une enveloppe protéique; le génome du calibrateur présente un nombre de bases de type GC (Guanine - Cytosine) compris entre 75% et 125% du nombre de bases de type GC (Guanine-Cytosine) du génome de l'espèce biologique d'intérêt.
L'étape d) peut comporter:
- détermination d'un premier ratio, entre les quantités de séquences respectivement assignées à l'espèce biologique d'intérêt et au calibrateur ; - détermination d'un deuxième ratio, entre les tailles de génome respectives du calibrateur et de l'espèce biologique d'intérêt ;
- prise en compte de la concentration du calibrateur ajoutée dans l'échantillon d'analyse.
L'estimation de la concentration d'espèce biologique d'intérêt peut alors comporter un calcul d'un produit du premier ratio par le deuxième ratio et par la concentration du calibrateur ajouté dans l'échantillon d'analyse.
L'étape d) peut comporter :
- une détermination de taux de couverture pour l'espèce biologique d'intérêt ainsi que pour le calibrateur ;
- un calcul d'un ratio entre le taux de couverture déterminé pour l'espèce biologique d'intérêt sur le taux de couverture déterminé pour le calibrateur ;
- une multiplication du ratio ainsi calculé par la concentration de calibrateur ajoutée dans l'échantillon.
Le procédé peut comporter, suite à l'étape d), une étape e) de prise en compte du seuil de décision et de comparaison de la concentration résultant de l'étape d) avec le seuil de décision.
D'autres avantages et caractéristiques ressortiront plus clairement de la description qui va suivre de modes particuliers de réalisation de l'invention, donnés à titre d'exemples non limitatifs, et représentés sur les figures listées ci-dessous.
FIGURES
La figure 1 schématise les principales étapes d'un procédé selon l'invention.
La figure 2A montre une comparaison de quantifications d'une espèce biologique d'intérêt, en l'occurrence S.aureus, respectivement en mettant en oeuvre les étapes décrites ci-après (axe des ordonnées) et une méthode de référence (axe des abscisses), par mise en culture.
La figure 2B montre une comparaison de quantifications d'une espèce biologique d'intérêt, en l'occurrence S.aureus, respectivement en mettant en oeuvre les étapes décrites ci-après (axe des ordonnées) et une méthode de référence (axe des abscisses), par PCR quantitative.
La figure 3 montre une distribution statistique de la quantité normalisée de séquences, correspondant respectivement à différentes espèces biologiques d'intérêt, mesurées sur des échantillons de test considérés comme ne comportant pas lesdites espèces biologiques d'intérêt. La figure 4 est une figure représentant une comparaison entre des concentrations d'espèces biologiques d'intérêt respectivement estimées par culture (axe des abscisses) et par analyse métagénomique (axe des ordonnées).
EXPOSE DE MODES DE REALISATION PARTICULIERS
L'objectif du procédé est de pouvoir détecter la présence d'une espèce biologique d'intérêt SOI dans un échantillon. L'acronyme SOI signifie "Species of Interest". En cas de détection, le procédé peut permettre une quantification absolue de l'espèce d'intérêt SOI, de façon à permettre une comparaison avec un seuil de décision SD.
Par espèce biologique, il est entendu un microorganisme, par exemple une bactérie, ou un virus, un champignon, une archéobactérie, une amibe, un protiste, une microalgue. Une espèce biologique peut également être une cellule ou tout autre matériel ou entité comportant un acide nucléique séquençable.
Lorsque l'échantillon est issu d'un organisme humain ou animal, l'espèce biologique d'intérêt peut être une espèce pathogène. Lorsque l'échantillon est issu d'un prélèvement dans un procédé industriel ou dans l'environnement, l'espèce biologique d'intérêt peut être une espèce considérée comme contaminante, ou une espèce d'intérêt ayant une importance dans un processus industriel ou dans l'environnement, et dont on souhaite contrôler la présence ou la concentration.
L'espèce d'intérêt présente un génome connu, ou partiellement connu. Le génome, ou sa portion connue, est constitué de séquences, dites séquences d'intérêt.
Le procédé peut adresser simultanément plusieurs espèces d'intérêt. Aussi, le terme une espèce d'intérêt est à interpréter comme signifiant au moins une espèce d'intérêt.
Le seuil de décision SD est un seuil permettant de caractériser une charge de l'espèce biologique d'intérêt, par exemple d'un microorganisme, en fonction de l'application visée. Il est par exemple établi à partir d'une limite réglementaire, ou sanitaire ou industrielle. Par exemple, lorsque l'application est utilisée dans l'aide au diagnostic clinique, l'espèce biologique d'intérêt étant une bactérie, le seuil de décision peut être une concentration en deçà de laquelle la présence de la bactérie correspond à une colonisation, c'est-à-dire un développement non pathologique, et au-delà de laquelle la présence de la bactérie est considérée comme pathologique, correspondant par exemple à une infection. Lorsque l'invention est appliquée dans un procédé industriel, le seuil de détection correspond à une valeur de conformité, de telle sorte qu'au-delà du seuil de détection, l'échantillon est considéré comme non conforme, et qu'en deçà du seuil de détection, l'échantillon est considéré comme conforme. Quelle que soit l'application, lorsque la concentration de l'espèce biologique d'intérêt est supérieure ou égale au seuil de décision, elle est définie comme étant critique. Dans certaines applications, par exemple dans la fabrication de produits subissant une fermentation, une concentration d'espèce biologique d'intérêt peut être considérée comme critique si elle est inférieure à un seuil de décision, ce dernier correspondant à une concentration minimale admissible de l'espèce biologique.
L'échantillon est généralement un échantillon prélevé, dans l'environnement ou dans un organisme, mort ou vivant, ou encore dans un produit agroalimentaire ou manufacturé. L'échantillon peut également avoir été prélevé dans une installation industrielle à des fins de contrôle de procédé. Aussi, l'échantillon comporte différentes espèces biologiques, ne présentant pas le même génome. En particulier, lorsque l'échantillon résulte d'un prélèvement d'un organisme, par exemple un organisme humain ou animal, l'échantillon comporte une quantité significative, voire majoritaire, de cellules provenant de l'organisme prélevé. Les génomes des organismes humains ou animaux ont une taille 1000 à 100 000 fois plus importante que les génomes des organismes procaryotes. De plus, l'échantillon comporte généralement des espèces biologiques naturellement présentes dans l'échantillon, et non susceptibles d'entraîner une pathologie ou une contamination critique. Par exemple, lorsque l'échantillon est un prélèvement broncho-alvéolaire, il comporte une flore bactérienne naturellement présente dans les poumons. Lorsque l'échantillon est un prélèvement de selles, il comporte une flore bactérienne naturellement présente dans le tube digestif. En cela, lorsque l'espèce biologique d'intérêt est une bactérie ou un virus, les acides nucléiques provenant de l'espèce biologique d'intérêt peuvent être minoritaires dans l'échantillon.
L'échantillon comporte des espèces dites "de matrice", endogènes dans l'échantillon, et susceptibles de masquer l'information métagénomique relative à l'espèce biologique d'intérêt. Par exemple, lorsque l'échantillon est prélevé dans un yaourt, dans une viande ou dans un vaccin, il comporte des espèces de matrice représentatives de ces milieux. Dans le cas d'un prélèvement sur un organisme, la matrice comporte les cellules composant l'organisme.
Un aspect important de l'invention est que l'échantillon subit une extraction d'acides nucléiques (ADN et/ou ARN), suivie par un processus de séquençage, selon les principes de l'analyse métagénomique. Le processus de séquençage peut être précédé d'un processus d'amplification. Le séquençage peut être un séquençage complet du génome, usuellement désigné par le terme "whole genome sequencing" (WGS), notamment un séquençage complet de type shotgun. Un inventaire de séquences de gènes des différentes espèces constituant l'échantillon est ainsi obtenu. La totalité, ou la quasi totalité, de l'acide nucléique des différentes espèces constituant l'échantillon est séquencée, par une méthode de séquençage haut débit. Des moyens bioinformatiques permettent alors d'identifier des séquences d'intérêt, associées à l'espèce biologique d'intérêt, et d'en déterminer une quantité, généralement une quantité normalisée, comme décrit par la suite. Les moyens informatiques sont basés sur une base de données de séquences de référence, par exemple des génomes complets de référence dans le cadre d'un processus de type WGS précédemment évoqué. La base de données comporte au moins les génomes, totaux ou partiels, des espèces biologiques d'intérêt potentiellement présentes dans l'échantillon. Elle comporte également le génome, total ou partiel, d'une espèce biologique dite de contrôle, cette dernière étant décrite par la suite.
Ainsi, selon cette technique, on obtient, par séquençage, une description génomique des différentes espèces constituant l'échantillon. On identifie ensuite, parmi les séquences génomiques inventoriées, les séquences correspondant à l'espèce biologique d'intérêt et celles correspondant à l'espèce de contrôle.
Le procédé comporte les étapes décrites ci-après, en lien avec la figure 1.
Etape 10 : prélèvement de l'échantillon.
Dans cet exemple, l'échantillon est prélevé dans un organisme humain vivant, à des fins d'aide au diagnostic. Cependant, l'invention ne se limite pas à une application dans le domaine du vivant. L'échantillon peut être prélevé dans un environnement industriel ou hospitalier, de façon à vérifier une conformité à l'égard d'un seuil de décision.
Etape 20 : ajout d'une espèce de contrôle.
Un des objectifs de l'invention est d'évaluer dans quelle mesure une analyse métagénomique est exploitable. Il s'agit en particulier d'évaluer une conformité de l'ensemble des étapes depuis la préparation de l'échantillon, prélèvement exclu, jusqu'à l'analyse bioinformatique des données de séquençage. A cette fin, une espèce de contrôle, notée SPC, acronyme de Sample Processing Control, est ajoutée dans l'échantillon. Une fonction de l'espèce de contrôle est de permettre un contrôle du bon déroulement des étapes d'extraction d'acides nucléiques et de séquençage, décrites par la suite. L'espèce de contrôle SPC peut être une espèce biologique connue, dont le génome est également connu, de préférence en totalité. L'espèce de contrôle SPC peut être une espèce biologique naturelle. Il peut également s'agir d'une espèce artificielle, par exemple un ARN (acide ribonucléique) encapsidé. De préférence, l'espèce de contrôle SPC n'est pas initialement présente dans l'échantillon prélevé, ou selon une quantité négligeable. De préférence, la teneur en espèce de contrôle SPC initialement présente dans l'échantillon, c'est-à-dire présente avant l'ajout, et de préférence au moins 10 fois inférieure, ou de préférence au moins 100 ou 1000 fois inférieure à la concentration ajoutée CSPC de l'espèce de contrôle SPC dans l'échantillon. L'espèce de contrôle SPC peut par exemple être une bactérie. Il est important que la concentration de l'espèce de contrôle ajoutée soit maîtrisée.
L'espèce de contrôle peut être choisie en tenant compte des aspects listés ci-dessous :
a) L'espèce de contrôle doit de préférence se distinguer des organismes naturellement présents dans l'échantillon, ou organismes endogènes, ainsi que de l'espèce d'intérêt recherchée : ainsi, l'outil bioinformatique peut identifier avec précision les séquences issues du séquençage du SPC.
b) La quantité de séquences assignées à l'espèce de contrôle, au cours du séquençage, doit être suffisante pour pouvoir être détectée de façon correcte, sans pour autant masquer l'information utile, correspondant aux séquences de l'espèce biologique d'intérêt. En d'autres termes, l'espèce de contrôle est de préférence détectable par le séquençage haut débit, tout n'étant pas prépondérante dans l'échantillon. En particulier, lorsqu'on souhaite déterminer une positivité (concentration de l'espèce supérieure au seuil de décision) ou une négativité (concentration de l'espèce inférieure au seuil de décision), il est préférable que l'espèce de contrôle soit telle que :
o La taille de son génome est de préférence similaire, ou au moins comparable, à la taille du génome de l'espèce biologique d'intérêt. Plus particulièrement, la taille du génome de l'espèce de contrôle est comprise entre 0.1 fois à 10 fois la taille du génome de l'espèce biologique d'intérêt.
o La concentration CSPC de l'espèce de contrôle peut être déterminée en fonction du seuil de décision. La concentration CSPC de l'espèce de contrôle SPC ajoutée peut être par exemple comprise entre 0,001 fois et 1000 fois, et de préférence entre 0.01 et 100 fois le seuil de décision.
o Les acides nucléiques de l'espèce de contrôle SPC subissent un traitement similaire aux acides nucléiques de l'espèce d'intérêt lors des étapes de préparation de l'échantillon, de l'extraction et de séquençage, et de préférence :
le pourcentage de bases GC (Guanine, Cytosine) est de préférence proche du pourcentage de bases GC de l'espèce biologique d'intérêt ; Par proche de, on entend compris entre 75% et 125%, et de préférence entre 80% et 120 %.
l'espèce biologique de contrôle comporte de préférence, lorsque l'espèce biologique d'intérêt est une bactérie, une membrane ou une paroi cellulaire intègre ou, lorsque l'espèce biologique d'intérêt est un virus, une enveloppe protéique. Cette condition permet en outre un suivi des étapes de lyse ou de l'extraction des acides nucléiques de l'espèce biologique d'intérêt.
c) Les séquences de nucléotides de l'espèce de contrôle ne contiennent pas, de préférence, de marqueurs génomiques, comme par exemple des marqueurs de résistance aux antibiotiques, des marqueurs de virulence, de façon à ne pas fausser des résultats d'un éventuel test de sensibilité aux antibiotiques par la présence de tels marqueurs dans le génome de l'espèce biologique d'intérêt. De préférence, les séquences de nucléotides de l'espèce de contrôle ne contiennent pas tout autre gène présentant un intérêt clinique ou industriel et dont la présence est susceptible d'être contrôlée.
d) L'espèce de contrôle est de préférence aisément manipulable, en particulier :
o en étant inoffensive pour l'homme ou l'environnement ;
o et/ou en étant résistante à des traitements thermiques de type lyophilisation ou congélation, ce qui facilite le stockage.
e) L'espèce de contrôle ne doit pas former des spores, ou de façon marginale.
f) L'espèce de contrôle doit présenter une sensibilité à la lyse proche de celle de l'espèce biologique d'intérêt.
g) L'espèce de contrôle est présente sous la forme de billes, chaque bille comportant une concentration calibrée d'espèce biologique de contrôle sous forme lyophilisée.
Il est précisé qu'une unique espèce de contrôle SPC peut être utilisée, ou que plusieurs espèces de contrôle, de différents types, peuvent être utilisées. On peut utiliser différentes espèces biologiques de contrôle pour une même espèce biologique d'intérêt. Selon une possibilité, l'espèce de contrôle forme un calibrateur. Selon une autre variante, un calibrateur, différent de l'espèce de contrôle, est ajouté à l'échantillon. Le calibrateur permet une estimation de la concentration de l'espèce d'intérêt. Cette alternative, qui correspond à une variante de l'invention, est décrite après la description des étapes 61 à 64. Cf. paragraphe "Variante".
La concentration ajoutée CSPC de l'espèce de contrôle SPC est de préférence connue avec précision. En effet, elle peut permettre, sous réserve que certaines conditions soient remplies, de quantifier la concentration d'espèce biologique d'intérêt dans l'échantillon, l'espèce de contrôle formant alors un calibrateur. Le terme concentration ajoutée désigne la concentration de l'espèce de contrôle dans l'échantillon due à l'ajout de l'espèce de contrôle.
Dans la description des étapes 30 à 60, on se base, à titre d'exemple avantageux, sur l'ajout d'un seul type d'espèce de contrôle dans l'échantillon. L'espèce de contrôle remplit alors la fonction de contrôle qualité des étapes de l'analyse métagénomique, ainsi que la fonction de calibrateur, permettant une quantification de la concentration de l'espèce biologique d'intérêt.
A l'issue de l'étape 20, on dispose d'une concentration ajoutée CSPC de l'espèce de contrôle dans l'échantillon. La concentration ajoutée CSPC peut être exprimée en GEq/mL (génome équivalent par mL).
Etape 30 : lyse et extraction des acides nucléiques.
Au cours de cette étape, les cellules de l'échantillon, et notamment les cellules de l'espèce biologique d'intérêt et de l'espèce de contrôle, subissent une lyse, pour permettre une extraction de leur ADN. Différentes stratégies peuvent être envisagées :
la lyse peut être paramétrée pour cibler préférentiellement l'espèce biologique d'intérêt ; l'espèce de contrôle doit présenter une même sensibilité à la lyse que l'espèce biologique d'intérêt, ou une sensibilité à la lyse considérée comme équivalente.
la lyse peut inclure une première lyse, destinée à lyser essentiellement des cellules autres que l'espèce d'intérêt. Une telle première lyse peut par exemple être envisagée lorsque l'espèce biologique d'intérêt est très minoritaire par rapport aux cellules d'une matrice composant l'échantillon. A la suite de la première lyse, les acides nucléiques libérés sont évacués, puis une deuxième lyse est réalisée, visant l'espèce biologique d'intérêt. Selon un tel scénario, l'espèce de contrôle est de préférence résistante à la première lyse, et non résistante à la deuxième lyse.
Suite à la lyse, l'ADN est extrait de l'échantillon par exemple selon le procédé d'extraction décrit dans WO2014/114896.
L'ADN extrait de l'échantillon peut être composé essentiellement de l'ADN de la matrice, c'est-à-dire de l'environnement duquel a été prélevé l'échantillon. Dans ce cas, l'échantillon peut subir une capture et/ou une amplification sélective, ciblant principalement des séquences et/ou des modifications physico-chimiques spécifiques des génomes de l'espèce biologique d'intérêt. Dans ce cas, l'espèce de contrôle comporte les séquences et/les modifications physico-chimiques ciblées par la capture ou l'amplification sélective. Inversement, l'échantillon peut subir une déplétion ciblant essentiellement l'ADN de la matrice. Dans ce cas, l'espèce de contrôle ne comporte pas de séquences ou de modifications physicochimiques pouvant être visées par la déplétion.
Etape 40 Amplification et séquençage.
Suite à l'extraction d'ADN, les fragments d'ADN subissent optionnellement une amplification qui peut être de type ciblée, par exemple par PCR (Polymerase Chain Reaction), ou non ciblée, par exemple par WGA (Whole Genome Amplification). L'ADN extrait de l'échantillon, le cas échéant amplifié, subit un séquençage, de préférence un séquençage de type WGS (Whole Genome Sequencing). Il existe de nombreuses techniques de séquençage, par exemple de type séquençage par synthèse (SBS), ou par nanopore, ou par hybridation. Quelle que soit la technique employée, le but du séquençage est de fournir des séquences numériques d'acides nucléiques, dites reads. Le séquençage comporte une préparation de banques de séquences (ou library préparation), optionnellement suivie d'une étape d'amplification, puis d'une étape de séquençage proprement dite. La technique de séquençage d'acide nucléique étant bien connue, elle ne sera pas décrite dans le détail. L'amplification et le séquençage peut être mise en oeuvre par la plateforme MiSeq, commercialisée par la société Illumina.
Lors de la préparation des banques de séquences, l'ADN peut être morcelé de manière aléatoire, de façon à obtenir des séquences d'acides nucléiques d'une longueur moyenne ciblée, généralement une longueur moyenne comprise entre 50 bases et 300 bases. On parle de séquençage aléatoire, ou séquençage "shotgun", ou de séquençage de type WGS (Whole Genome Sequencing). Avec ce type de technique, les acides nucléiques, quelle que soit leur origine, sont traités de manière identique lors de la préparation de la banque de séquences.
A la suite de la préparation des banques de séquences, le séquençage haut débit est réalisé. Le séquenceur procède à la lecture des bases des fragments d'ADN séquencés, de manière à obtenir des séquences dites "reads", chaque "read" correspondant à une séquence décodée par le séquenceur. Les séquences issues du séquençage sont ensuite alignées par rapport à des génomes mémorisés dans une base de données, dont notamment le génome de l'espèce biologique d'intérêt recherchée et le génome de l'espèce de contrôle. Le séquençage est une opération connue de l'homme du métier. Des détails relatifs aux opérations de séquençage sont donnés par exemple dans les documents cités en lien avec l'art antérieur, en particulier W02018/069430 ou dans la publication Ruppé E précédemment citée.
Le séquenceur transmet des fichiers, correspondant aux mesures effectuées comportant les "reads" à une unité de traitement de données. Cette dernière comporte une mémoire, dans laquelle sont stockées des instructions permettant la mise en oeuvre d'algorithmes de séquençage. Les algorithmes de séquençage permettent d'identifier, pour chaque séquence, le génome comportant la séquence, parmi une pluralité de génomes mémorisés dans une base de données. Ils permettent également d'établir la position de chaque séquence sur le génome auquel elle appartient, et de réaliser des assemblages entre les différentes séquences appartenant à un même génome. A l'issue de l'étape 40, on dispose de données de séquençage relatives aux différentes espèces biologiques de l'échantillon. Il s'agit en particulier d'une identification de chaque espèce et d'une quantité de séquences assignées à chaque espèce identifiée. On dispose en particulier d'un nombre de séquences RSoi assignées à l'espèce biologique d'intérêt et d'un nombre de séquences RSPC assignées à l'espèce de contrôle.
Etape 45 : Identification des espèces auxquelles appartiennent les reads.
Lors de cette étape, mise en oeuvre par l'unité de traitement de données, il est identifié, en termes d'espèce bactérienne, l'origine de chacun des reads. Cette étape, généralement connue sous le nom de « binning », de « binning taxonomique », ou d'« assignment », comprend la comparaison de chacun des reads avec des séquences numériques d'acides nucléiques d'une base de données de référence. Des logiciels de binning connus sont par exemple Kraken, (Wood et Salzberg, "Kraken: ultrafast metagenomic sequence classification using exact alignments", Genome Biology, 2014), ou "Wowpal Wabbit" (Vervier et al., "Large-scale machine learning for metagenomics sequence classification", Bioinformatics, 2015), ou "BWA-MEM" (Li, "Aligning sequence reads, clone sequences and assembly contigs with BWA-M EM", Genomics, 2013). De préférence, un read est assigné à une espèce d'intérêt s'il est entièrement compris dans un génome représentatif de l'espèce d'intérêt mémorisé dans la base de données.
Etape 50 : Normalisation
Les quantités de données de séquençage résultant de l'étape 45 n'ont pas la même taille pour chacun des échantillons. En effet, le nombre de séquences générées par le séquençage dépend de la qualité et de la quantité d'ADN des différentes espèces biologiques composant l'échantillon. Il est donc préférable, voire nécessaire, de normaliser la quantité de séquences associées à une espèce par rapport à une quantité de référence. La normalisation dépend du type d'échantillon analysé et de l'analyse métagénomique appliquée. La quantité de référence peut par exemple être un nombre total de séquences produites pour l'échantillon analysé. La quantité normalisée de séquences associées à chaque espèce, divisée par la quantité de référence, est usuellement multipliée par 1E6 de façon à obtenir une quantité normalisée correspondant à une quantité par million de séquence (ou RPM, acronyme de Read Per Million).
Selon d'autres variantes, la quantité de référence peut-être, à titre non exhaustif :
un nombre total de séquences associées à tous les microorganismes identifiés ; un nombre total de séquences associées à un organisme duquel est extrait l'échantillon : par exemple, lorsque l'organisme est un corps humain, on peut déterminer un nombre total de séquences associées au génome humain ;
un nombre total de séquences associées à une espèce de référence. Par espèce de référence, il est entendu une espèce endogène ou exogène que l'on considère comme présente de façon constante dans différents échantillons prélevés. L'espèce de référence peut être l'espèce de contrôle.
un nombre total de séquences associées à une espèce prédéterminée dans un échantillon ne présentant pas l'espèce biologique d'intérêt (échantillon négatif) ou dans un tampon ne comportant pas l'échantillon.
L'étape 50 est effectuée pour l'espèce biologique d'intérêt (ou pour chaque espèce biologique d'intérêt), ainsi que pour l'espèce de contrôle (ou pour chaque espèce de contrôle SPC ou pour chaque calibrateur). On obtient ainsi une quantité normalisée RNsoi pour l'espèce biologique d'intérêt SOI (ou pour chaque espèce biologique d'intérêt) et une quantité normalisée RNSPC pour l'espèce de contrôle SPC (ou pour chaque espèce de contrôle ou pour chaque calibrateur). Dans la notation RN, la lettre N désigne le fait que la quantité est normalisée.
Par la suite, de façon non limitative, on considère qu'il n'y a qu'une seule espèce biologique d'intérêt et une seule espèce de contrôle.
Dans la suite de la description, le terme quantité peut désigner une quantité normalisée.
Etape 60 : Interprétation.
Cette étape est une étape importante de l'invention. Il s'agit de savoir dans quelle mesure les résultats du séquençage sont interprétables.
Pour cela, le procédé comporte une détermination d'un niveau de confiance que l'on peut attribuer aux étapes précédentes, et en particulier les étapes 30 à 50 précédemment décrites. Le niveau de confiance est attribué grâce à l'espèce de contrôle, et en particulier grâce au fait que l'espèce de contrôle a été introduite préalablement à l'étape 30.
Cette étape utilise des seuils de détection DTsoi et DTSPC, respectivement associés à l'espèce biologique d'intérêt SOI et à l'espèce de contrôle SPC. Les seuils de détection peuvent être établis à partir de seuils de détection statistiques respectivement déterminés pour l'espèce biologique d'intérêt et l'espèce de contrôle. Les seuils de détection statistiques sont établis préalablement, au cours d'une étape 100 décrite ultérieurement. D'une façon générale, un seuil de détection statistique correspond à la plus basse valeur d'une concentration d'analyte mesurée par une méthode de détection, qui est statistiquement différente de celle mesurée, dans les mêmes conditions, lorsque l'analyte est absent de l'échantillon. Chaque seuil de détection peut être égal au seuil de détection statistique, ou être déterminé à partir du seuil de détection statistique, en étant notamment k fois égal au seuil de détection statistique, k étant un réel non nul.
L'interprétation vise à comparer les quantités normalisées de séquences RNSoi et RNSPC, respectivement assignées à l'espèce biologique d'intérêt SOI et à l'espèce de contrôle SPC, à leurs seuils de détection respectifs. En effet, l'espèce biologique d'intérêt peut être considérée comme détectée avec un niveau de confiance acceptable lorsque la quantité normalisée de séquences assignées à l'espèce biologique d'intérêt est supérieure ou égale au seuil de détection qui lui est associé. Il en est de même de l'espèce de contrôle. En fonction de la comparaison, quatre situations peuvent être distinguées :
RNsoi ³ DTsoi et RNSPC ³ DTSPC · cf. étape 61
RNsoi ³ DTsoi ët RNSPC <DTSPC · cf. étape 62
RNsoi < DTsoi ët RNSPC ³ DTSPC · cf. étape 63
RNsoi < DTsoi ët RNSPC < DTSPC · cf. étape 64
Etape 61 Quantification
Lorsque RNsoi ³ DTsoi et le niveau de confiance est considéré comme suffisant, les détections respectives de l'espèce biologique d'intérêt et de l'espèce de contrôle sont confirmées. L'espèce d'intérêt SOI est considérée comme présente dans l'échantillon, avec un niveau de confiance suffisant. Sa concentration Csoi peut être estimée, à partir de :
la concentration ajoutée CSPC de l'espèce de contrôle SPC dans l'échantillon suite à l'étape 20 ; la quantité, éventuellement normalisée, de séquences RSPC assignées à l'espèce de contrôle SPC, résultant de l'étape 45 ;
le nombre de séquences (ou le nombre de séquences normalisé), assignées à l'espèce biologique d'intérêt, résultant de l'étape 45 ;
des données relatives à la taille du génome de l'espèce de contrôle et de l'espèce biologique d'intérêt.
On peut par exemple utiliser l'expression suivante :
où : Lsoi sont respectivement les longueurs de génome de l'espèce de contrôle et de l'espèce biologique d'intérêt.
a est un facteur de correction déterminé de façon empirique, sur la base d'échantillons d'apprentissage dont la concentration en espèce biologique d'intérêt est connue. Le facteur de correction a permet de prendre en compte des différences d'efficacité du processus de séquençage de l'espèce biologique d'intérêt et de l'espèce de contrôle. Par défaut, on peut considérer a = 1. Cette valeur unitaire permet d'obtenir une quantification absolue suffisante pour déterminer la positivité ou la négativité d'un échantillon par rapport au seuil de décision.
Lorsque la concentration ajoutée est exprimée en GEq/mL, la concentration de l'espèce biologique d'intérêt est également exprimée dans la même unité.
De façon alternative, le séquençage comporte un assemblage des séquences respectivement associées à l'espèce de contrôle et à l'espèce biologique d'intérêt, ainsi qu'une détermination d'un taux de couverture Cov des assemblages pour chacune des espèces. La concentration CSoi de l'espèce biologique d'intérêt peut alors être calculée selon l'équation suivante :
vsoi
x CSPC x a'
Cso1 CovSPC (1 où :
et Covsoi sont respectivement les taux de couverture déterminés pour l'espèce de contrôle et l'espèce biologique d'intérêt. Le taux de couverture est usuellement désigné par le terme anglosaxon "Coverage" et exprime un nombre moyen de fois où une base est séquencée à une position donnée du génome, comme décrit dans la publication Lacoste C et al. « Le séquençage d'ADN à haut débit en pratique clinique », Archives de Pédiatrie 2017 ;24 :373- 383.
a1 est un facteur de correction déterminé de façon empirique, sur la base d'échantillons d'apprentissage dont la concentration en espèce biologique d'intérêt est connue. Le facteur de correction a' permet de prendre en compte des différences d'efficacité des séquençages de l'espèce biologique d'intérêt et de l'espèce de contrôle. Par défaut, on peut considérer a'= 1. Cette valeur unitaire permet d'obtenir une quantification absolue suffisante pour déterminer la positivité ou la négativité d'un échantillon par rapport au seuil de décision.
Selon une variante décrite ci-après, l'étape 61 peut être mise en oeuvre avec une espèce biologique, différente de l'espèce de contrôle, et formant un calibrateur. Dans ce cas, une espèce de contrôle est utilisée lors de l'étape 60, pour confirmer la détection de l'espèce biologique d'intérêt, tandis que l'étape 61, c'est-à-dire la quantification, est mise en œuvre à l'aide d'un calibrateur, ce dernier n'étant utilisé que pour la quantification. De préférence, les caractéristiques du calibrateur sont similaires à celle de l'espèce de contrôle, et correspondent aux caractéristiques décrites en lien avec l'étape 20. La quantification, à l'aide du calibrateur, peut être réalisée en utilisant l'expression (1) ou l'expression ( ). L'expression (1) devient :
RcALest le nombre de séquences, de préférence normalisé, assignées au calibrateur ;
LCAi_est la longueur du génome du calibrateur ;
CCAL est la concentration de calibrateur ajoutée dans l'échantillon ;
a est un facteur de correction tel que décrit en lien avec (1).
L'expression ( ) devient :
est un taux de couverture déterminé pour le calibrateur
a' est un facteur de correction tel que décrit en lien avec ( )
Selon un mode de réalisation, on n'utilise pas d'espèce de contrôle. Selon ce mode de réalisation, on utilise un calibrateur, et la concentration de l'espèce biologique d'intérêt est mise en œuvre à partir du nombre de séquences, de préférence normalisé,
Etape 62
Lorsque RNsoi ³ DTsoi et cela signifie que l'espèce de contrôle est considérée comme non détecté tandis que l'espèce biologique d'intérêt est considérée comme détectée. Cependant, la quantification de l'espèce biologique d'intérêt ne peut pas être réalisée avec une confiance suffisante. Le niveau de confiance est considéré comme insuffisant. Cette étape comporte une comparaison de la concentration ajoutée de l'espèce de contrôle et du seuil de décision SD, de telle sorte que :
< SD, aucune information ne peut être obtenue relativement à la concentration d'espèce biologique d'intérêt relativement au seuil de décision.
³ SD, la concentration d'espèce biologique d'intérêt ne peut pas être estimée, mais elle peut être considérée comme supérieure au seuil de décision. Sans pouvoir quantifier la concentration de l'espèce biologique d'intérêt, il est possible de conclure à un franchissement du seuil de décision. Etape 63
Lorsque RNsoi < DTsoi et on peut considérer que le séquençage a fonctionné correctement. Le niveau de confiance est considéré comme suffisant. L'étape comporte une estimation d'une concentration minimale détectable de l'espèce biologique d'intérêt. La concentration minimale détectable CminSoi de l'espèce biologique d'intérêt correspond à la concentration la plus faible pouvant être distinguée du bruit de fond, Elle est assimilée à la concentration, en équivalent génome, correspondant au seuil de détection DTsoi de l'espèce biologique d'intérêt. La concentration minimale détectable peut être déterminée à partir :
de la concentration ajoutée CSPC de l'espèce de contrôle SPC dans l'échantillon suite à l'étape 20 ;
du nombre de séquences assignées à l'espèce de contrôle SPC, résultant de l'étape 45 ; du seuil de détection DTsoi associé à l'espèce biologique d'intérêt ;
des données relatives à la taille du génome de l'espèce de contrôle et de l'espèce biologique d'intérêt.
où :
et Lsoi sont respectivement les longueurs de génome de l'espèce de contrôle SPC et de l'espèce biologique d'intérêt SOL
a est le facteur de correction décrit en lien avec l'équation (1).
L'étape 63 comporte une comparaison du seuil de décision SD à la concentration minimale détectable Cminsoi de telle sorte que :
si Cminsoi £ SD, la détection de l'espèce biologique d'intérêt peut être considérée comme négative : la concentration d'espèce biologique d'intérêt dans l'échantillon est inférieure ou égale au seuil de décision.
si Cminsoi > SD, aucune information ne peut être apportée relativement à la présence de l'espèce biologique d'intérêt dans l'échantillon et sa concentration par rapport au seuil de décision.
Etape 64
Lorsque RNsoi < DTsoi et l'absence de détection de l'espèce de contrôle SPC suggère que l'analyse n'a pas atteint les performances nécessaires à la détection de l'espèce biologique d'intérêt. Le niveau de confiance est considéré comme insuffisant. Aucune interprétation de l'analyse ne peut être apportée. L'analyse peut être considérée comme invalide. Une telle situation peut se rencontrer lorsqu'une des étapes du séquençage n'a pas atteint les performances nécessaires à la détection de l'espèce biologique d'intérêt ;
et/ou lorsque l'échantillon comporte une quantité importante d'ADN du patient ou de la matrice ou de la flore microbiologique ;
et/ou lorsque l'échantillon comporte au moins une espèce à une concentration importante, et générant un nombre élevé de séquences, ce qui produit un effet de masquage des autres séquences d'intérêt.
A l'issue d'une des étapes 61 à 64, la confirmation de la présence de l'espèce biologique d'intérêt, à une concentration supérieure au seuil de décision, et son éventuelle quantification, sont utilisées en tant qu'aide au diagnostic.
Variante
Dans le mode de réalisation précédemment décrit, l'espèce de contrôle SPC assure à la fois une fonction de contrôle de la conformité de l'analyse métagénomique ainsi qu'une fonction de calibrateur, permettant une quantification de l'espèce biologique d'intérêt dans l'échantillon.
Selon une variante, une espèce de contrôle SPC et un calibrateur, différent de l'espèce de contrôle, sont ajoutées dans l'échantillon. Il s'agit par exemple de deux espèces bactériennes différentes. L'espèce de contrôle SPC assure une fonction de contrôle de la conformité de l'analyse métagénomique. Le calibrateur permet une quantification de l'espèce biologique d'intérêt dans l'échantillon, selon les équations (1) ou ( ) ou (2). Lorsqu'il est différent de l'espèce de contrôle, le calibrateur présente de préférence les mêmes caractéristiques que l'espèce de contrôle, ces dernières étant décrites en lien avec l'étape 20. L'espèce de contrôle SPC est ajoutée à une première concentration. Un seuil de détection lui est affecté et l'étape 60 est mise en oeuvre en comparant une quantité de séquences normalisées assignées à l'espèce de contrôle, résultant de l'étape 50, au seuil de détection associé à l'espèce de contrôle. Le calibrateur est également ajouté à l'échantillon, selon une deuxième concentration. Un seuil de détection lui est affecté. Lors de l'étape 61, la quantification peut être réalisée en prenant en compte une quantité normalisée de séquences associées au calibrateur, ainsi que le seuil de détection qui lui est associé.
Le calibrateur peut être ajouté préalablement à la lyse ou suite à la lyse et préalablement au séquençage. Dans une autre variante, plusieurs calibrateurs sont ajoutés dans l'échantillon, chaque calibrateur étant choisi pour une ou plusieurs espèces d'intérêt. En particulier, des groupes d'espèces bactériennes peuvent réagir de manière sensiblement différente aux processus d'extraction des acides nucléiques, par exemple les bactéries Gram + et les bactéries Gram- De manière avantageuse, il est ajouté un calibrateur consistant en une bactérie Gram + lorsqu'une ou plusieurs espèces d'intérêt sont des Gram + et un calibrateur consistant en une bactérie Gram - lorsqu'une ou plusieurs espèces d'intérêt sont des Gram- De manière similaire, les espèces d'intérêt peuvent consister en des bactéries et des virus. Dans ce cas, un premier calibrateur est bactérien et un deuxième calibrateur est viral auxiliaire est virale. D'une manière générale, il s'agit de choisir un calibrateur qui subit les étapes de préparation d'échantillon (extraction, éventuellement préparation de la banque de séquences ou l'amplification, séquençage) de manière la plus identique possible que les espèces d'intérêt qu'il calibre.
Etape 100 : Etablissement des seuils de détection.
Comme précédemment évoqué, il est nécessaire que l'espèce de contrôle et l'espèce biologique d'intérêt soient respectivement associées à des seuils de détection. Pour une espèce biologique donnée (espèce biologique de contrôle ou espèce biologique d'intérêt), le seuil de détection est établi préalablement à l'interprétation des résultats, en utilisant des échantillons d'entraînement, ne comportant pas ladite espèce. Il s'agit d'échantillons négatifs relativement à l'espèce considérée. Ces échantillons sont représentatifs de l'échantillon analysé. Par représentatif, on entend que ces échantillons d'entraînement comportent une population d'espèce biologique comparable à celle de l'échantillon analysé, tant du point de vue qualitatif que quantitatif. L'absence d'espèce biologique d'intérêt et/ou de l'espèce de contrôle dans chaque échantillon test peut être vérifiée par une méthode standard de type culture et/ou PCR.
Sur chaque échantillon d'entraînement, un séquençage est réalisé, de préférence dans les mêmes conditions que décrites en lien avec les étapes 30 à 45. Suite au séquençage, on détermine une quantité de séquences assignées à l'espèce considérée. Cette quantité est de préférence normalisée, comme décrit en lien avec l'étape 50.
Ainsi, on peut établir les seuils de détection respectivement associés à l'espèce biologique d'intérêt et à l'espèce de contrôle en utilisant respectivement des premiers échantillons d'entraînement, ne comportant pas l'espèce biologique d'intérêt, et des deuxièmes échantillons d'entraînement, ne comportant pas l'espèce de contrôle. Les premiers échantillons d'entraînement peuvent être confondus avec les deuxièmes échantillons d'entraînement, auquel cas les seuils de détection associés à l'espèce biologique d'intérêt et à l'espèce de contrôle sont déterminés avec les mêmes échantillons d'entraînement.
Le séquençage est de préférence réalisé sur un nombre statistiquement représentatif d'échantillons d' entraînement. On obtient ainsi une distribution statistique de la quantité normalisées de séquences. On estime ensuite une moyenne m de la distribution, ainsi qu'un indicateur de dispersion, par exemple l'écart type s ou la variance s2. Le seuil de détection est estimé en additionnant, à la moyenne m, n fois l'indicateur de dispersion, n étant un réel n est typiquement compris entre 2 et 4.
Les seuils de détection respectivement associés à l'espèce biologique d'intérêt et à l'espèce de contrôle étant destiné à être comparés aux quantités de séquences normalisées de l'espèce biologique d'intérêt et de l'espèce de contrôle, il est important que la normalisation effectuée lors de l'étape 100 soit similaire à la normalisation effectuée lors de l'étape 50.
Les étapes précédemment décrites peuvent être réalisées en ciblant simultanément plusieurs espèces biologiques intérêt. C'est d'ailleurs un avantage notable de l'analyse métagénomique, qui permet d'adresser simultanément différentes espèces biologiques. Un autre avantage de l'analyse métagénomique est la possibilité d'utiliser simultanément plusieurs espèces de contrôle. Ainsi, une espèce de contrôle peut être utilisée pour cibler une ou plusieurs espèces biologiques, tandis qu'une autre espèce de contrôle peut être utilisée pour cibler d'autres d'espèces biologiques d'intérêt. Il s'agit ici d'un autre avantage de l'analyse métagénomique.
Il est même envisageable d'utiliser plusieurs espèces de contrôle pour une même espèce biologique d'intérêt. Par exemple, les étapes 61 à 64 peuvent être mises en oeuvre en utilisant, pour une même espèce biologique d'intérêt, différentes espèces de contrôle. Cela permet de limiter les risques de défaillance du procédé, suite à un dysfonctionnement du séquençage d'une espèce de contrôle. On dispose, pour différents couples (espèce biologique, espèce de contrôle), d'une estimation de la présence de l'espèce biologique d'intérêt par rapport au seuil de décision. Lorsque plusieurs espèces de contrôle sont utilisées pour une même espèce biologique d'intérêt, on peut obtenir plusieurs quantifications, selon les équations (1), ( ) auquel cas on peut considérer la moyenne ou la médiane des quantifications obtenues, ou la quantification considérée comme la plus pénalisante, c'est-à-dire celle aboutissant à une concentration d'espèce biologique d'intérêt la plus élevée ou, d'une façon plus générale, la plus proche du seuil de décision.
D'une façon plus générale, le recours à l'analyse métagénomique nécessite encore des moyens informatiques lourds. En contrepartie, cela permet une certaine souplesse de fonctionnement, en adressant simultanément plusieurs espèces biologiques, (et/ou plusieurs espèces de contrôle), la seule condition étant que le génome des espèces biologiques recherchées, et celui de leurs espèces de contrôle respectives, soient connus.
Les étapes 61 à 64 sont mises en oeuvre par une unité de calcul, par exemple de type microprocesseur, à partir des données de séquençage issues des étapes 40, 45 et 50 et fournies par l'unité de traitement. Les données de séquençage, qui correspondent à des données mesurées à partir de l'échantillon d'analyse, sont ainsi transmises, par liaison filaire ou sans fil, de l'unité de calcul de façon exécuter l'une des étapes 61 à 64. Le microprocesseur est relié à une mémoire comportant des instructions pour mettre en oeuvre les étapes 61 à 64.
Exemple 1.
Au cours d'un premier exemple, on a vérifié que Bacillus subtilis était un bon candidat pour être utilisé en tant qu'espèce de contrôle pour le séquençage métagénomique d'échantillons résultant de lavages broncho-alvéolaire (BAL) pratiqués sur patients humains. On sait que ce type d'échantillon est susceptible de comporter une quantité importante d'ADN humain provenant du patient.
Le séquençage métagénomique de tels échantillons peut permettre une aide au diagnostic de pneumonies acquises en milieu hospitalier, à des fins d'aide au diagnostic. Le seuil de décision clinique est établi à 1.0 E4 CFU/mL, l'acronyme CFU signifiant Colony Forming Unit.
Afin d'éliminer l'ADN du patient, le protocole d'analyse comporte une élimination de l'ADN du patient au cours d'une lyse préalable. Au cours d'une première lyse, l'échantillon a été traité avec un agent lysant ciblant spécifiquement les cellules du patient. Un tel agent lysant est par exemple décrit dans WO2014/114896. L'ADN libéré a ensuite été éliminé par action enzymatique et lavage. L'échantillon a ensuite fait l'objet d'une deuxième lyse, mécanique et chimique de manière à extraire l'ADN bactérien.
Préalablement aux étapes de lyse, le protocole prévoit l'ajout d'une espèce de contrôle dans l'échantillon. L'espèce biologique formant l'espèce de contrôle doit être résistante à la lyse des cellules humaines, tout en étant sensible à la lyse des cellules bactériennes. Or, on sait que certaines bactéries, en particulier les bactéries de type Gram positif, sont difficiles à lyser. On a donc choisi, en guise de l'espèce de contrôle, une espèce biologique présentant une résistance à la lyse équivalente à celle d'une bactérie GRAM positif.
Par ailleurs, le séquençage métagénomique effectué vise à détecter et éventuellement quantifier environ 20 espèces biologiques d'intérêt, chaque espèce d'intérêt étant une bactérie comprise dans la liste suivante: Acinetobacter baumannii, Citrobacter freundii, Citrobacter koseri, Enterobacter aerogenes, Enterobacter cloacae, Escherichia coli, Haemophilus influenzae, Hafnia alvei, Klebsiella oxytoca, Klebsiella pneumoniae, Légionella pneumophila, Morganella morganii, Proteus mirabilis, Proteus vulgaris, Providencia stuartii, Pseudomonas aeruginosa, Serratia marcescens, Staphylococcus aureus, Stenotrophomonas maltophilia, Streptococcus pneumoniae.
L'espèce de contrôle SPC doit également pouvoir être séquencée avec une efficacité comparable aux espèces d'intérêt listées ci-dessus. Or, on sait que l'efficacité de séquençage dépend essentiellement de la taille du génome ainsi que la teneur en GC. (Guanine - Cytosine). Ainsi, dans cet exemple, l'espèce de contrôle devait présenter une taille de génome comprise entre 1.9 et 6.6 mégabases, ainsi qu'une teneur en GC comprise entre 33 % et 66 %. Par ailleurs, la concentration de l'espèce de contrôle, ajoutée dans l'échantillon, a été fixée à 1.0 E4 CFU/mL, soit une concentration comparable au seuil de décision précédemment évoqué.
L'inventeur a évalué l'intérêt des espèces biologiques suivantes pour former l'espèce de contrôle : Bacillus stearothermophilus, Synechocystis sp. PCC6803, Pelagibacter ubigue, Methanocaldococcus jannaschii, Aeropyrum pernix, Kocuria rhizophila, Azospirillum lipoferum, Lactococcus lactis, Synechococcus sp. WH 7805, Schizosaccharomyces pombe, Pantoea stewartii, Phage T4, Pichia pastoris, Armored DNA Quant™ et Bacillus subtilis.
Parmi ces différentes espèces, il est apparu que Bacillus subtilis présentait les caractéristiques requises pour être utilisé en tant qu'espèce de contrôle. La taille du génome de Bacillus subtilis est de 4.12 Mb (mégabases) et présente une teneur en GC de 43.6 %. De plus, Bacillus subtilis est commercialement disponible sous la forme de billes de type "BioBalls" (marque déposée) - fabricant Biomérieux. Il s'agit de billes hydrosolubles contenant une concentration calibrée de Bacillus subtilis, ce qui permet d'ajuster la concentration de l'espèce de contrôle ajoutée. La réhydratation d'un BioBall Multishot 550 dans un échantillon de 600 pL de lavage bronchoalveolaire correspond à une concentration ajoutée de Bacillus Subtilis égale à à 9.2 E3 CFU/mL, ce qui est proche du seuil de décision de 1.0 E4 CFU/mL.
On a également comparé, par PCR Temps réel, des extraits d'ADN d'échantillons comportant respectivement des cultures fraîches de Bacillus subtilis ainsi que des échantillons comportant Bacillus Subtilis ajouté sous la forme de billes "Bioballs". Les résultats des PCR sont comparables.
7 échantillons issus de lavage bronchopulmonaire (BAL), sans ajout préalable de Bacillus subtilis, ont été séquencés. Sur 4 des 7 échantillons, on a constaté que le nombre de séquences assignées à Bacillus subtilis étaient négligeables : inférieur à 5 reads par million. Ainsi, le nombre de faux positifs est négligeable. Sur les autres échantillons, des séquences sont assignées à Bacillus subtilis du fait d'une erreur de logiciels d'assignation de séquences, soit du fait de la présence de séquences très proches de celles de Bacillus subtilis dans l'échantillon. Cependant, le nombre de séquences assignées à Bacillus subtilis n'atteint jamais 200 reads par million : il est alors relativement faible.
46 échantillons issus de BAL ont fait l'objet d'un ajout de Bacillus subtilis à une concentration de 1.7 E4 CFU/mL, à une incertitude près. Après séquençage, le nombre de séquences assignées à Bacillus subtilis dépasse 1000 reads par million pour 36 des 46 échantillons
Cet exemple montre que Bacillus subtilis est une espèce biologique pertinente pour former une espèce de contrôle, dans un d'échantillon obtenu par BAL, et avec le protocole d'analyse décrit au début de l'exemple.
Exemple 2
Cet exemple décrit la détection et la quantification de Staphylococcus aureus dans un échantillon prélevé par lavage broncho-alvéolaire (BAL) en appliquant le protocole de double lyse décrit dans l'exemple 1 et les étapes 10 à 50 précédemment décrites.
On a utilisé une cohorte de 13 échantillons issus de BAL. Suite aux conclusions de l'exemple 1, l'espèce de contrôle utilisée était Bacillus subtilis, ajoutée à chaque échantillon selon une concentration proche du seuil de décision (1.0 E4 CFU/mL). Dans cet exemple, l'espèce de contrôle a été obtenue par réhydratation d'un Bioball Multishot 10E8 - Bacillus subtilis ATCC 19659 (Biomérieux), dans 1.1 mL de tampon PBS (Tampon Phosphate Salin). L'espèce de contrôle a été diluée à 1.0 E6 CFU/mL dans du PBS et 10 pL sont rajoutés à 600 pL d'échantillon. On obtient ainsi une concentration ajoutée de l'espèce de contrôle de 1.7 E4 CFU/mL.
Chaque échantillon a été traité dans un délai maximal de 48 heures après le prélèvement. Comme précédemment indiqué, chaque échantillon a subi une première lyse spécifique aux cellules humaines. Les cellules non lysées ont été culotées et traitées à la DNAse I. Avant extraction de l'ADN humain, la DNAse a été désactivée par chauffage et ajout d'EDTA (Éthylènediaminetétraacétique). Chaque échantillon a ensuite fait l'objet d'une deuxième lyse, en étant ajouté dans un tube de lyse contenant un mélange de billes de verre de diamètre 1 mm et de billes de Zr/Si de diamètre 0.1 mm. La lyse est obtenue par agitation durant 20 minutes. L'ADN a été extrait du lysat en utilisant la plateforme easyMAG (marque déposée) Biomérieux. L'élution a été effectuée dans un volume de 25 pL. Les extraits ont été stockés à -20°C.
Les banques de séquençage ont été préparées en paired-end 2x250 avec le kit Nextera (marque déposée) XT DNA Library préparation kit (fabriquant Illumina). Les échantillons ont été séquencés en utilisant la plateforme MiSeq (marque déposée) avec le kit "MiSeq reagent kit V3" (Illumina). Les séquences ont été traitées avec une unité de traitement utilisant le logiciel KRAKEN VO 10.5b en utilisant une base de données de séquences interne. Cette base de données comporte, notamment, les séquences du génome humain ainsi que les séquences de 20 espèces biologiques d'intérêt décrites dans l'exemple 1. Le nombre de séquences produites sur chaque échantillon a varié entre 331 000 et 17 000 000. Les nombres de séquences associées à l'espèce biologique de contrôle (Bacillus subtilis) et à l'espèce biologique d'intérêt (S. Aureus) ont été normalisés en reads par million (RPM).
Par ailleurs, des mesures de référence quantitatives ont été effectuées, sur chaque échantillon, par PCR quantitative (qPCR), ciblant le gêne spA. L'amplification et la lecture temps réel du signal fluorescent ont été réalisées sur la plateforme CFX96 Touch Real-Time PCR Détection System (Biorad).
Le tableau 1 présente les résultats du séquençage pour 13 échantillons positifs à la culture. Les colonnes 1 à 7 correspondent respectivement :
à la référence de l'échantillon ;
à une quantification de S. aureus par culture ;
à une quantification de S. aureus par qPCR ;
à la quantité normalisée RNSPC de séquences assignées à l'espèce de contrôle (B. subtilis); à la quantité normalisée RNsoi de séquences assignées à l'espèce biologique d'intérêt (S. aureus ) ;
à une quantification, lorsque cela est possible, de la concentration CSoi de l'espèce biologique d'intérêt déterminée à partir de l'équation (1), décrite dans l'étape 61 ;
à une quantification, lorsque cela est possible, de la concentration Csoi de l'espèce biologique d'intérêt déterminée à partir de l'équation ( ), décrite dans l'étape 61.
Dans cet exemple, l'espèce de contrôle SPC fait office de calibrateur, au sens où elle est utilisée lors de l'étape de quantification.
SOI NA et SPC NA correspondent respectivement au fait que le nombre de séquences associées à l'espèce biologique d'intérêt SOI et à l'espèce de contrôle SPC ne sont pas suffisantes pour permettre un assemblage. NA est l'acronyme de Non Assemblé.
Tableau 1
Les échantillons 1, 2, 3, 4, 5, 6, 7, 9, 10, 11, 12 et 13 (soit 12 échantillons sur 13) correspondent à la configuration décrite en lien avec l'étape 61, dans laquelle une quantification de l'espèce d'intérêt est possible, par exemple selon l'expression (1) et l'expression ( ).
L'échantillon 8 correspond à la configuration décrite en lien avec l'étape 64 : les résultats ne sont pas interprétables. Des investigations complémentaires ont montré, pour cet échantillon, un échec de l'étape de démultiplexage des séquences. Ce cas de figure est intéressant, car il montre que la prise en compte de l'espèce de contrôle permet d'éviter la production d'un résultat "faux négatif". Pour les échantillons "quantifiables" (1, 2, 3, 4, 5, 6, 7, 9, 10, 11, 12 et 13), on a estimé la concentration Csoi par l'équation ( ). Cependant, les séquences associées à l'espèce de contrôle SPC ou à l'espèce biologique d'intérêt SOI ne sont parfois pas assemblables ; dans ce cas, l'espèce biologique d'intérêt n'est pas quantifiable selon ce protocole, alors qu'elle l'est en utilisant l'équation (1). C'est notamment le cas des échantillons 2 et 13, dans lesquels les quantités de séquences associées à l'espèce biologique d'intérêt ne sont pas suffisantes pour obtenir un assemblage et mesurer une profondeur de séquençage. Ainsi, la quantification basée sur l'équation ( ) n'est envisageable que lorsque la quantité de séquences est suffisante. Une quantification basée sur l'équation (1) semble préférable.
La figure 2A montre une comparaison de la quantification de S.aureus par culture (axe des abscisses) et par séquençage (axe des ordonnées). Le facteur de corrélation est faible (r2 = 0.2929). Cette faible valeur s'explique par un manque de précision de la méthode de culture, ainsi qu'une différence entre la quantité de cellules viables et cultivables, détectées par la culture, et la quantité totale de génomes, détectée par le séquençage. Certains patients sur lesquels les échantillons ont été prélevés sont soumis à une antibiothérapie, ce qui tend à diminuer la proportion de bactéries viables et cultivables par rapport à la totalité des bactéries. Ainsi, la culture ne permet de disposer que d'une information quantitative partielle.
La figure 2B montre une corrélation entre les résultats de quantification par métaséquençage (équation (1) - axe des ordonnées) et par PCR quantitative (axe des abscisses). Le facteur de corrélation est plus élevé : r2 = 0.9906, ce qui démontre la fiabilité de la quantification par métaséquençage.
Exemple 3
Dans cet exemple, on a testé la détection des 20 espèces d'intérêt bactériennes pathogènes, citées en lien avec l'exemple 1, sur des échantillons issus de lavages broncho-alvéolaires (BAL) ou de mini lavages broncho-alvéolaires (mini BAL). L'espèce de contrôle SPC (B. subtilis) est obtenue de façon identique à l'exemple 2, la concentration ajoutée à chaque échantillon étant de 1.7 E4 CFU/mL. Le seuil de décision est de 1.0 E4 CFU/mL pour les prélèvements BAL, et de 1.0 E3 CFU/mL pour les prélèvements mini BAL.
Deux cohortes d'échantillons ont été collectées : une cohorte d'apprentissage, comportant 46 échantillons (23 BAL et 23 mini-BAL) et une cohorte d'analyse, comportant 40 échantillons (33 BAL et 7 mini-BAL).
Des mesures de référence, par culture, ont été effectuées pour chacune des espèces d'intérêt pour l'ensemble des échantillons composant les cohortes d'apprentissage et d'analyse.
L'échantillon a subi une double lyse, comme décrit en lien avec l'exemple 2. Le séquençage a été effectué comme décrit dans l'exemple 2.
Pour chaque espèce d'intérêt, et pour l'espèce de contrôle, la quantité de séquences a été normalisée en reads par million de reads associés à des espèces bactériennes(RPMb), cf. étape 50. Pour chacune des espèces biologiques d'intérêt, on a déterminé le seuil de détection DTsoi en ne considérant que les échantillons d'apprentissage pour lesquels l'espèce biologique d'intérêt est considérée comme non détectée. L'espèce d'intérêt est considérée comme non détectée dans un échantillon, lorsque le résultat de culture microbiologique de l'échantillon est négatif pour la détection du SOI considéré et négatif pour la détection de séquences marqueurs MetaPhlAn spécifiques du SOI considéré. La figure 3 représente les distributions statistiques de la quantité de séquence, normalisée, sur des échantillons d'apprentissage négatifs relativement à l'espèce d'intérêt. L'axe des abscisses correspond à chaque espèce d'intérêt, tandis que l'axe des ordonnées correspond à la quantité normalisée de séquences associées à l'espèce d'intérêt. Pour chaque espèce, on a déterminé la valeur médiane (trait inclus dans le rectangle), ainsi que les fractiles à 25% et 75 % (limites du rectangle), ce qui permet une représentation sous la forme d'une boite à moustache (ou box plot). Les extrémités de chaque ligne verticale correspondent aux fractiles à 1% et à 99%. On observe que les distributions sont très variables les unes des autres, ce qui justifie qu'un seuil de détection DTsoi soit établi pour chaque espèce biologique d'intérêt. Pour chacune des espèces d'intérêt, un seuil de détection DTsoi a été déterminé, selon l'étape 100 précédemment décrite. Si psoi désigne la moyenne du nombre normalisé de séquences assignées à l'espèce d'intérêt, et s£oi est leur écart type, le seuil de détection DTsoi est obtenu "à 3 sigmas", selon l'expression :
DTsoi = Psoi + 3 asoi (3)
Le seuil de détection DTSPC = DTS. Subtms associé à B. subtilis a été défini. On a pris en compte 7 échantillons d'apprentissage sans ajout de B. subtilis. On a déterminé la moyenne ps . subtms du nombre normalisé de séquences assignées à B. subtilis, ainsi que leur écart-type s subt s· Le seuil de détection 0Ύ B. subtms est tel que :
DTg. subtilis— Pg. subtilis 3 O B. subtilis (3)
Un seuil de décision (SD), dit seuil métagénomique, a été défini pour distinguer la présence normale des bactéries d'intérêt et les infections des patients par ces bactéries d'intérêt. Pour cela les résultats des cultures microbiologiques obtenues sur les échantillons composants la cohorte d'apprentissage ont été séparés en 2 populations distinctes :
la population « Infection » correspond aux 20 occurrences détectées par culture à des concentrations égales ou supérieures aux seuils cliniques, à savoir 1.0 E3 CFU/mL pour les échantillons de miniBAL et 1.0 E4 CFU/mL pour les échantillons de BAL. la population « Colonisation » correspond aux 900 occurrences non détectées par culture ou détectées par culture à des concentrations inférieures aux seuils cliniques, à savoir 1.0 E3 CFU/mL pour les échantillons de miniBAL et 1.0 E4 CFU/mL pour les échantillons de BAL
Dans les deux alinéas qui précèdent, les 920 occurrences correspondent aux analyses, par microculture, des 46 échantillons d'apprentissage en considérant respectivement les 20 espèces biologiques d'intérêt.
La figure 4 représente, pour différents échantillons, des quantifications d'espèces biologiques réalisées par culture (axe des abscisses) et par analyse métagénomique (axe des ordonnées). Sur la figure 4, les ronds noirs correspondent à une espèce choisie parmi Acinetobacter baumannii, Citrobacter freundii, Citrobacter koseri, Enterobacter aerogenes, Escherichia coli, Haemophilus influenzae, Hafnia alvei, Klebsiella oxytoca, Klebsiella pneumoniae, Légionella pneumophila, Morganella morganii, Proteus mirabilis, Proteus vulgaris, Providencia stuartii, Pseudomonas aeruginosa, Serratia marcescens, Stenotrophomonas maltophilia et Streptococcus pneumoniae. Les triangles clairs correspondent à Staphylococcus aureus.
Bien qu'il ne soit parfois pas possible de corréler précisément la concentration obtenue en CFU/mL par culture et la concentration obtenue en GEq/mL par méta séquençage, comme montré dans l'exemple 2 figure 2A, la figure 4 montre que pour une espèce d'intérêt, ou pour un groupe d'espèces d'intérêt, les populations « Colonisation » et « Infection » peuvent également être différenciées à partir des résultats de quantification par séquençage en équivalent génome (GEq). Le seuil métagénomique (SD) est défini en prenant en compte le premier demi centile des concentrations mesurées sur la population « Infection », la valeur ainsi obtenue est 5,5E3 GEq/mL.
Ainsi, à partir des échantillons d'apprentissage, on peut définir, un seuil métagénomique, formant un seuil de décision SD, permettant de séparer respectivement les échantillons dont la concentration en espèce biologique d'intérêt est située au deçà ou au-delà d'une valeur critique. La valeur critique peut notamment correspondre au seuil de décision SD précédemment décrit. La concentration d'une espèce d'intérêt, déterminée par séquençage, est ensuite comparée au seuil de décision lui étant associé. On remarque que le seuil de décision dépend généralement de l'espèce biologique considérée. On peut alors établir un seuil de décision pour une espèce biologique considérée ou pour un groupes d'espèces biologiques. Deux espèces biologiques différentes peuvent être associées à deux seuils de décision différents.
Les 40 échantillons du set d'analyse ont été séquencés. Les tableaux 2A à 2C rassemblent les résultats obtenus, chaque tableau rassemblant respectivement les résultats des échantillons 1 à 13, 14 à 27 et 28 à 40. La première ligne de chaque tableau comporte les références de chaque échantillon. La deuxième ligne représente la détection (+) ou la non détection (-) de l'espèce de contrôle SPC par rapport au seuil de détection qui lui est associé : cf. étape 60.
Dans les échantillons 3, 7, 23 et 35, l'espèce de contrôle SPC n'a pas été détectée
Lorsque l'espèce d'intérêt n'est pas détectée (RNSoi < DTsoi), cf. étape 64, ces résultats ne sont pas interprétables, ce qui correspond au code INV. On ne peut pas déterminer la concentration de l'espèce d'intérêt par rapport au seuil de décision, en l'occurrence le seuil clinique, du fait d'une concentration minimale détectable trop élevée. Lorsque l'espèce d'intérêt est détectée (RNsoi ³ DTsoi), cf. étape 62, du fait que l'espèce biologique de contrôle a été ajoutée à une concentration supérieure au seuil métagénomique (SM), égal à 5.5E3 GEq/mL, la détection de l'espèce d'intérêt SOI est considérée comme positive au-dessus du seuil de décision, qui est dans cet exemple un seuil de décision clinique. Ce résultat correspond, dans les tableaux 2A, 2B et 2C :
soit à TP (True Positive - Vrai Positif) lorsque l'espèce biologique d'intérêt est également détectée au-dessus du seuil clinique par la culture microbiologique ;
à FP ou FP+ (False Positive - faux Positif) lorsque l'espèce biologique d'intérêt n'est pas détectée au-dessus du seuil clinique par la culture microbiologique.
Dans les échantillons 1,2, 4-7, 8-22, 24-34 et 36-40 l'espèce biologique de contrôle a été détectée Lorsque l'espèce d'intérêt n'est pas détectée (RNsoi < DTsoi), cf. étape 63, la concentration minimale détectable CminSoi est établie par l'équation (2). Lorsque la concentration minimale détectable Cminsoi est supérieure au seuil de décision SD, ces résultats ne sont pas interprétables, ce qui correspond au code INV dans les tableaux 2A, 2B et 2C. Lorsque la concentration minimale détectable Cminsoi est inférieure ou égale au seuil de décision (seuil métagénomique) SD, la détection de l'espèce biologique d'intérêt est considérée comme inférieure au seuil clinique. Ce résultat correspond, dans les tableaux 2A, 2B et 2C :
à FN (False Négative - Faux Négatif) lorsque l'espèce biologique d'intérêt est détectée au- dessus du seuil clinique par la culture microbiologique, mais quantifiée en dessous du seuil de décision par l'analyse métagénomique.
aux cases vides (vrais négatifs) lorsque l'espèce biologique d'intérêt n'est pas détectée au- dessus du seuil clinique par la culture microbiologique et par l'analyse métagénomique.
Lorsque l'espèce biologique de contrôle a été détectée et que l'espèce biologique d'intérêt a été détectée (RNsoi ³ DTsoi), le nombre de séquences associées à l'espèce biologique d'intérêt est utilisé comme calibrateur pour établir la concentration CSoi de l'espèce biologique d'intérêt, en utilisant l'expression (1) décrite dans l'étape 61. Ces résultats correspondent, dans les tableaux 2A, 2B et 2C : à TP (True Positive - Vrai Positif) lorsque l'espèce biologique d'intérêt est détectée au-dessus du seuil clinique par la culture microbiologique ;
à FP ou FP+ (False Positive - faux Positif) lorsque l'espèce biologique d'intérêt n'est pas détectée au-dessus du seuil clinique par la culture microbiologique.
Tableau 2A
Tableau 2B
Tableau 2C
L'analyse par culture microbiologique a permis la détection de 11 occurrences au-dessus du seuil de décision (1E4 CFU/mL pour les échantillons BAL et 1E3 CFU/mL pour les échantillons mini-BAL). L'analyse métagénomique a permis la détection de 10 de ces occurrences, ce qui correspond à la notation TP (True Positive - Vrai Positif) dans les tableaux 2A à 2C. L'occurrence non détectée par la métagénomique correspond à E. cloacae dans l'échantillon 27 et s'explique par l'importante quantité de séquences associée à E. cloacae dans les échantillons dans lesquels cette bactérie est absente, cf. figure 3, ce qui entraîne une valeur de seuil de détection très élevée ce qui a pour conséquence une concentration minimale détectable Cminsoi fréquemment supérieure au seuil métagénomique (SM). Ce résultat a été considéré par le test métagénomique comme invalide, cf. INV dans le tableau 2C.
L'analyse métagénomique a permis une détection de 19 occurrences supplémentaires, par rapport à la culture microbiologique. Ces occurrences sont désignées par FP (False Positive - Faux Positif) ou FP+ sur les tableaux 2A à 2C. Les 5 occurrences FP+ correspondent à des détections pour lesquels des marqueurs MetaPhlAn et des alignements BLAST (acronyme de Basic Local Alignment Search Tool) permettent de confirmer la présence de l'espèce d'intérêt dans l'échantillon, malgré sa non détection par culture. Ces occurrences complémentaires sont probablement dues à une meilleure sensibilité du test métagénomique par rapport à la détection par culture microbiologique qui ne permet que la détection de la part viable et cultivable du microbiote. Les occurrences FP correspondent à des faux positifs pour lesquels le nombre de reads associes aux espèces d'intérêt sont trop faibles pour une confirmation par la recherche des marqueurs MetaPhlAn et les alignements BLAST. Ces occurrences complémentaires sont également probablement dues à une meilleure sensibilité du test métagénomique par rapport à la détection par culture microbiologique, cependant l'absence de confirmation ne permet pas d'exclure un défaut de spécificité du test métagénomique.
Le test métagénomique a généré 185 résultats invalides, INV dans les tableaux 2A, 2B et 2C. Ces résultats correspondent à la non détection de l'espèce d'intérêt SOI mais dont l'interprétation n'est pas possible car la concentration minimale détectable CminSoi est supérieure au seuil métagénomique (SM). Ce résultat se distingue particulièrement des résultats de culture microbiologique qui produit généralement des résultats négatifs sans qu'aucun dispositif ne soit utilisé pour valider individuellement la sensibilité de la détection d'une espèce bactérienne dans l'échantillon testé. Le contrôle du test métagénomique permet de limiter le risquer de faux négatifs, cette situation est clairement illustrée par la non détection d'E. cloacae dans l'échantillon 27.
La comparaison des résultats de la détection des pathogènes d'intérêt infectant les patients auxquels sont prélevés les échantillons de BAL et mini-BAL, cf. tableau 3, montre clairement l'intérêt d'utiliser l'espèce de contrôle décrit dans cette invention. La détection de pathogènes au-dessus du seuil de décision clinique, directement à partir du nombre de reads normalisé assigné aux espèces d'intérêt produit près de 9 fois plus de résultats faux positifs. L'utilisation de l'espèce de contrôle permet un gain significatif de spécificité du test métagénomique et une meilleure détection des infections sans perte de sensibilité.
Tableau 3
Il a été décrit une application particulière de l'invention aux séquences dit « shotgun ». L'invention s'applique également aux séquences ciblées, par exemple aux séquences dit 16S. Dans ce cas, préalablement au séquençage, il est mis en oeuvre une étape d'amplification des gènes ciblés afin de multiplier leurs copies dans l'échantillon. Les reads utilisés par l'invention sont alors les reads correspondant uniquement aux gènes ciblés.
Il a été décrit l'utilisation de Bacillus subtilis en tant qu'espèce de contrôle lors d'une analyse métagénomique d'échantillons de type BAL ou mini-BAL. En variante, il peut être utilisé une autre espèce de contrôle, pour autant qu'elle satisfasse à tout ou partie des critères décrits en lien avec l'étape 20. Il peut par exemple s'agir d'une espèce choisie parmi : Bacillus stearothermophilus, Synechocystis sp. PCC6803, Pelagibacter ubique, Methanocaldococcus jannaschii, Aeropyrum pernix, Kocuria rhizophila, Azospirillum lipoferum, Lactococcus lactis, Synechococcus sp. WH 7805, Schizosaccharomyces pombe, Pantoea stewartii, Phage T4, Pichia pastoris, Armored DNA Quant™.
Il a été décrit une plusieurs espèces de contrôle sous la forme d'éléments comprenant des acides nucléiques compris ou encapsulés dans membranes (membrane bactérienne, capside, ...). Cette caractéristique est utilisée pour la fonction de contrôle de conformité de l'analyse métagénomique, en particulier pour savoir si le processus d'extraction des acides nucléiques a fonctionnée comme attendu. Evidemment, lorsqu'une espèce biologique est mise en oeuvre en tant que calibrateur seul, c'est-à-dire ne mettant pas en oeuvre la fonction de contrôle de conformité, mais uniquement la fonction de quantification, le calibrateur peut consister en des acides nucléiques libres ajoutés à l'échantillon ou dans l'extrait d'ADN en quantité connue.
Il a été décrit l'ajout d'espèces de contrôle et de calibration en une seule fois, à savoir avant l'étape d'extraction des séquences nucléiques. Lorsque deux espèces biologiques différentes sont utilisées pour mettre en oeuvre de manière distincte les fonctions de contrôle de conformité et de quantification (calibrateur), les calibrateurs peuvent être ajoutées à une étape ultérieure, préférentiellement après l'étape de lyse de l'échantillon lorsqu'il s'agit d'acides nucléiques nus afin d'éviter la destruction de ces derniers.
Le procédé selon l'invention permet notamment de doser les espèces biologiques d'intérêt dans un échantillon. De manière préférentielle, dans le cadre d'une application clinique, le procédé selon l'invention est complété d'une étape de détermination d'une antibiothérapie en fonction des espèces identifiées et dosées dans l'échantillon, et d'administration des antibiotiques déterminés au patient.
Le procédé permet une aide au diagnostic d'une contamination d'un échantillon par une espèce d'intérêt, cette dernière pouvant être une bactérie ou un champignon. Cela permet une définition d'un traitement approprié (antibiotique dans le cas d'une bactérie, antifongique dans le cas d'une levure ou d'un champignon), sur la base de l'identité de l'espèce d'intérêt, mais également sur la base d'éventuels marques de résistance aux antimicrobiens détectées dans le génome.
D'une façon plus générale, en fonction de l'application visée, lorsque la concentration de l'espèce biologique est supérieure au seuil de décision, cela peut être considéré comme signifiant l'occurrence d'une anomalie. Un traitement de remédiation approprié est décidé, visant à remédier à l'anomalie. Par exemple, dans le domaine de l'agroalimentaire, l'espèce d'intérêt peut être une bactérie. Lorsque la concentration excède un certain seuil, le traitement de remédiation peut être un retrait ou une destruction de produits alimentaires destinés à être vendus, et/ou un nettoyage d'une installation de production. Il en est de même lorsque l'application concerne un contrôle sanitaire, par exemple un contrôle sanitaire d'une installation, par exemple d'une partie d'un hôpital, de façon à prévenir des infections nosocomiales. La présence avérée d'une espèce biologique indésirable entraîne un traitement de remédiation de type nettoyage ou décontamination.
L'invention pourra être mise en oeuvre dans le domaine de la santé, en tant qu'aide au diagnostic, ou, plus généralement, dans le domaine de l'analyse d'échantillons prélevés dans l'environnement, ou dans des procédés industriels, par exemple l'industrie agroalimentaire, l'industrie, pharmaceutique ou l'industrie des cosmétiques. Elle peut également être mise en oeuvre dans le contrôle sanitaire.

Claims

REVENDICATIONS
1. Procédé de détection d'une espèce biologique d'intérêt (SOI) potentiellement présente dans un échantillon d'analyse, l'espèce biologique d'intérêt présentant un génome connu ou partiellement connu, l'échantillon d'analyse comportant un mélange de différentes espèces biologiques, le procédé comportant les étapes suivantes :
a) extraction des acides nucléiques de l'échantillon d'analyse ;
b) séquençage des séquences de nucléotides extraites lors de l'étape a) ;
c) à partir du résultat du séquençage :
(i) assignation des séquences résultant de l'étape b) à partir d'une base de séquences de référence ;
(ii) détermination d'une quantité de séquences (Rsoi, RNsoi) assignées à l'espèce biologique d'intérêt;
le procédé étant caractérisé en ce qu'il comporte, préalablement à l'étape b), l'ajout d'un calibrateur, le calibrateur étant une espèce biologique ajoutée selon une concentration connue (CCAL), dans l'échantillon d'analyse, le calibrateur présentant un génome connu, et en ce que l'étape c) comporte
(iii) détermination d'une quantité de séquences (RCAL) assignées au calibrateur;
d) à partir des quantités de séquences estimées durant les étapes (ii) et (iii), et de la concentration du calibrateur (CCAL), estimation d'une concentration (Csoi) de l'espèce biologique d'intérêt (SOI) dans l'échantillon.
2. Procédé selon la revendication 1, dans lequel lors des étapes ii) et iii), les quantités de séquences respectivement assignées à l'espèce biologique d'intérêt et au calibrateur sont normalisées par une quantité de référence.
3. Procédé selon l'une quelconque des revendications 1 ou 2, comportant une prise en compte d'un seuil de décision (SD), auquel la concentration (Csoi) de l'espèce d'intérêt est destinée à être comparée.
4. Procédé selon l'une quelconque des revendications précédentes, dans lequel l'échantillon comportant des organismes endogènes, le calibrateur présente un génome différent de celui des organismes endogènes.
5. Procédé selon l'une quelconque des revendications précédentes, dans lequel le calibrateur est tel que la taille de son génome est comprise entre 0.1 fois à 10 fois la taille du génome de l'espèce biologique d'intérêt.
6. Procédé selon la revendication 3, dans lequel la concentration du calibrateur est comprise entre 0,001 fois et 1000 fois, et de préférence entre 0.01 et 100 fois le seuil de décision pris en compte.
7. Procédé selon l'une quelconque des revendications précédentes, dans lequel l'étape d) comporte:
- détermination d'un premier ratio, entre les quantités de séquences respectivement assignées à l'espèce biologique d'intérêt et au calibrateur ;
- détermination d'un deuxième ratio, entre des tailles de génome respectives du calibrateur et de l'espèce biologique d'intérêt ;
- prise en compte de la concentration du calibrateur ajouté dans l'échantillon d'analyse.
8. Procédé selon la revendication 7, dans lequel l'étape d) comporte un calcul d'un produit du premier ratio par le deuxième ratio et par la concentration du calibrateur ajouté dans l'échantillon d'analyse.
9. Procédé selon l'une quelconque des revendications 1 à 6, dans lequel l'étape d) comporte :
- une détermination de taux de couverture pour l'espèce biologique d'intérêt (Covsoi)ainsi que pour le calibrateur (COVCAL);
- un calcul d'un ratio entre le taux de couverture déterminé pour l'espèce biologique d'intérêt sur le taux de couverture déterminé pour le calibrateur ;
- une multiplication du ratio ainsi calculé par la concentration de calibrateur (CCAL) ajoutée dans l'échantillon.
10. Procédé selon la revendication 3 ou selon l'une quelconque des revendications 4 à 9, dépendant de la revendication 3, comportant également, suite à l'étape d), une étape e) de prise en compte du seuil de décision (SD) et de comparaison de la concentration résultant de l'étape d) avec le seuil de décision.
EP20742278.3A 2019-07-23 2020-07-22 Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique, avec prise en compte d'un calibrateur Pending EP4004239A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1908366A FR3099181B1 (fr) 2019-07-23 2019-07-23 Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique, avec prise en compte d'un calibrateur.
PCT/EP2020/070716 WO2021013901A1 (fr) 2019-07-23 2020-07-22 Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique, avec prise en compte d'un calibrateur.

Publications (1)

Publication Number Publication Date
EP4004239A1 true EP4004239A1 (fr) 2022-06-01

Family

ID=69190850

Family Applications (1)

Application Number Title Priority Date Filing Date
EP20742278.3A Pending EP4004239A1 (fr) 2019-07-23 2020-07-22 Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique, avec prise en compte d'un calibrateur

Country Status (6)

Country Link
US (1) US20220275430A1 (fr)
EP (1) EP4004239A1 (fr)
JP (1) JP2022550928A (fr)
CN (1) CN114787384A (fr)
FR (1) FR3099181B1 (fr)
WO (1) WO2021013901A1 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571128A (zh) * 2021-08-05 2021-10-29 深圳华大因源医药科技有限公司 一种用于宏基因组学病原体检测参考阈值建立的方法
FR3130291A1 (fr) * 2021-12-15 2023-06-16 Biomerieux Procédé de détection d’une présence d’une espèce biologique d’intérêt par séquençage temps réel itératif.
GB202213734D0 (en) * 2022-09-20 2022-11-02 Systems Biology Laboratory Uk Workflow
CN115852001A (zh) * 2022-11-23 2023-03-28 深圳海关动植物检验检疫技术中心 一种小麦病原菌检测方法及其应用

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3001464B1 (fr) 2013-01-25 2016-02-26 Biomerieux Sa Procede d'isolement specifique d'acides nucleiques d'interet
HUE048480T2 (hu) * 2013-12-24 2020-07-28 Univ Liege Minták metagenomikai elemzése
EP2985350B1 (fr) * 2014-08-14 2017-10-04 microBIOMix GmbH Procédé d'analyse de microbiome
CN105112569B (zh) * 2015-09-14 2017-11-21 中国医学科学院病原生物学研究所 基于宏基因组学的病毒感染检测及鉴定方法
CA2998381A1 (fr) * 2015-09-21 2017-03-30 The Regents Of The University Of California Detection d'agents pathogenes utilisant un sequencage de nouvelle generation
CN105224824A (zh) * 2015-09-28 2016-01-06 山东出入境检验检疫局检验检疫技术中心 基于宏基因组学的鸭坦布苏病毒非诊断性检测方法
US11749381B2 (en) * 2016-10-13 2023-09-05 bioMérieux Identification and antibiotic characterization of pathogens in metagenomic sample
CN108334750B (zh) * 2018-04-19 2019-02-12 江苏先声医学诊断有限公司 一种宏基因组数据分析方法及系统
CN108804875B (zh) * 2018-06-21 2020-11-17 中国科学院北京基因组研究所 一种利用宏基因组数据分析微生物群体功能的方法

Also Published As

Publication number Publication date
CN114787384A (zh) 2022-07-22
FR3099181B1 (fr) 2022-11-18
WO2021013901A1 (fr) 2021-01-28
FR3099181A1 (fr) 2021-01-29
US20220275430A1 (en) 2022-09-01
JP2022550928A (ja) 2022-12-06

Similar Documents

Publication Publication Date Title
WO2021013900A1 (fr) Procédé de détection et de quantification d&#39;une espèce biologique d&#39;intérêt par analyse métagénomique
EP4004239A1 (fr) Procédé de détection et de quantification d&#39;une espèce biologique d&#39;intérêt par analyse métagénomique, avec prise en compte d&#39;un calibrateur
US20220251631A1 (en) Methods of diagnosing infectious disease pathogens and their drug sensitivity
CN108368542B (zh) 用于基因组组装、单元型定相以及独立于靶标的核酸检测的方法
Bertelli et al. Rapid bacterial genome sequencing: methods and applications in clinical microbiology
EP2430192A1 (fr) Methode de detection d&#39;adn procaryote extrait d&#39;un echantillon de selles
Xu et al. Culture-dependent and-independent investigations of microbial diversity on urinary catheters
DK3146070T3 (en) Sequencing Process
Frickmann et al. Next-generation sequencing for hypothesis-free genomic detection of invasive tropical infections in poly-microbially contaminated, formalin-fixed, paraffin-embedded tissue samples–a proof-of-principle assessment
Del Chierico et al. Choice of next-generation sequencing pipelines
Andersen et al. Towards diagnostic metagenomics of Campylobacter in fecal samples
Rassoulian Barrett et al. Sensitive identification of bacterial DNA in clinical specimens by broad-range 16S rRNA gene enrichment
FR3099180A1 (fr) Procédé de détection et de quantification d&#39;une espèce biologique d&#39;intérêt par analyse métagénomique, comportant l&#39;utilisation d&#39;une espèce de contrôle.
Mukhtar et al. Identification of Proteus mirabilis on banknotes using 16s rRNA gene in Khartoum State
WO2012071405A2 (fr) Trousses et essais pour l&#39;amplification de gènes de salmonella exprimés à partir du sang
FR3099183A1 (fr) Procédé de détection et de quantification d&#39;une espèce biologique d&#39;intérêt par analyse métagénomique, et détermination d&#39;un niveau de confiance associé
JP2020504605A (ja) フラッシュアンドグロー反応における検査対象の検出
Guinane et al. Value of microbial genome sequencing for probiotic strain identification and characterization: promises and pitfalls
Kensara et al. Microbiological factors of peri-implantitis: methodologies for biofilm analysis
WO2023111015A1 (fr) Procédé de détection d&#39;une présence d&#39;une espèce biologique d&#39;intérêt par séquençage temps réel itératif
Chudějová Development and Validation of Methods for Typing of Bacteria by MALDI-TOF Mass Spectrometry
Radhakrishnan et al. Examining Microbial Ecology of Food Using NGS Techniques
US20210355526A1 (en) Molecular typing of microbes
Adetunji et al. Foodborne Pathogen Detection Using Next-Generation Sequencing
WO2023028546A1 (fr) Séquençage d&#39;adn métagénomique sans contamination

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20220121

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)