EP3830287A1 - Method for the quality control of seed lots - Google Patents

Method for the quality control of seed lots

Info

Publication number
EP3830287A1
EP3830287A1 EP19749675.5A EP19749675A EP3830287A1 EP 3830287 A1 EP3830287 A1 EP 3830287A1 EP 19749675 A EP19749675 A EP 19749675A EP 3830287 A1 EP3830287 A1 EP 3830287A1
Authority
EP
European Patent Office
Prior art keywords
seeds
interest
carried out
sequencing
sublot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP19749675.5A
Other languages
German (de)
French (fr)
Inventor
Nathalie RIVIERE
Jordi Comadran
Sandra CONTAMINE
Jean-Pierre Martinant
Guillaume Collange
Aurélien AUDES
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Limagrain Europe SA
Original Assignee
Limagrain Europe SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Limagrain Europe SA filed Critical Limagrain Europe SA
Publication of EP3830287A1 publication Critical patent/EP3830287A1/en
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/6895Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/142Toxicological screening, e.g. expression profiles which identify toxicity

Definitions

  • the invention relates to a quality control process in the field of seeds and varietal purity.
  • the marketing of seeds is subject to the control of their purity rate. This rate is specific to each species but must be 98% by weight or more (Directive 66/402 / EEC on the marketing of cereal seeds), this standard also applies to seeds which are marketed for the production of seeds of bases, pre-base, the production of certified seeds or the production of hybrids. This varietal purity is mainly controlled by field inspection, in the case of production of hybrid seeds with a sterile male parent parent, the purity rate of this parent must be even higher (99.9% for corn).
  • varietal purity rate is defined as the percentage of plants originating from a batch and which conform to the description of the variety. This percentage is expressed by weight of seeds.
  • the contaminants are seeds of the same species, but showing genetic variations at certain loci in their genome, compared to the genotype expected for the seeds of the batch considered.
  • the presence of contaminants is reduced, due to vigilance in the upstream production stages, cultural practices, purification, isolation, and the controls carried out throughout the process.
  • the contaminants being present at a generally low percentage and indeed the level tolerated in a batch so that it can be marketed must be less than 2%.
  • trait is meant the allelic form of a loci linked to a phenotypic character.
  • a similar problem relates to the fortuitous presence of GMOs or any other alteration in the genome.
  • the marketing of non-GMO plants requires proof of the absence of GMOs or the presence of a rate below a percentage determined by regulations.
  • the regulations in certain countries, for certain GMO traits, resistance against insects in particular provides that seeds containing GMOs are sold with a certain rate of seeds not having the GMO trait, so to provide refuge areas for the insect.
  • Genotyping is conventionally carried out using different technologies, by PCR (Kasp - LGC Genomics, Taqman - Life Technologies) or hybridization on DNA chips (Axiom - Life Technologies, Infinium - Illumina).
  • the Taqman quantitative PCR technology is today considered as the benchmark for the detection of the fortuitous presence of GMO plants in a mixture of non-GMO plants, it is based on the detection of a polymorphism of the presence / absence type. a given sequence, not on a polymorphism between different allelic forms of an SNP.
  • the polymorphism relates to the presence of a trait which can be amplified (amplicon) and therefore easily identifiable.
  • Application WO 2015/1 10472 proposes to analyze batches of seeds by manual or semi-automatic sampling of a determined sample volume from one or more seeds, this volume being determined to allow the analysis of at least one constituent of the seed or seeds.
  • the tissue taken from several seeds is placed in an identified and traceable well, then the said constituent is analyzed on the content of the well (s).
  • This bulk constitution method makes it possible to make varietal purity (example 6) this purity is evaluated by the Kaspar method (KBioscience) from bulks of 5 and 10 seeds, the presence of a contaminant in these bulks is characterized by the presence of a heterozygous cluster, however the authors indicate that this cluster is close to the homozygous cluster and that it is easier to identify for a bulk of 5 seeds than for a bulk of 10 seeds.
  • NGS Next Generation Sequencing
  • the depth of sequencing makes it possible to identify an allele that is poorly represented when identifying allelic forms for a group of individuals in a pool. It can also make it possible to identify a number of allelic forms greater than two for the same locus.
  • the sequencing of amplicons makes it possible to study in a targeted manner loci of interest, to identify SNPs and to characterize the allelic composition of an individual or a mixture of individuals.
  • a research application is the detection of rare mutations in a mutagenized population (TILLING, Targeting Induced Local Lésions in Genomes).
  • the objective is to detect the presence of a contaminant, to accurately estimate the rate within the seed lot from which the analyzed sample comes, and preferably to determine its genetic profile to better understand its origin. Detection can be carried out by analyzing the loci of interest, chosen by a person skilled in the art, based on their knowledge of the genetic material to be qualified and the genetic material likely to contaminate it.
  • Chen et al 2016, PLOS ONE 1 1 (6) have developed, for corn, two series of SNPs for quality control: a set of markers for rapid control, using a reduced number of SNPs (50- 100) to identify potential labeling errors in seed packets or plots, and a wider set of markers, and used for further characterization and discrimination of genetic material.
  • the sampling of 192 individuals analyzed individually would make it possible to have a probability close to 100% of detecting a contamination of 5% in a batch, but this probability becomes lower than 90% if one is interested in a 1% contamination.
  • the expected genetic purity is high, as well as the precision of estimation sought, which depends on both the number of seeds sampled (tested) and the number of seeds of the batch of basic seeds. For example, if 200 grains are analyzed and the impurity rate is 0%, the confidence interval for this value ranges from 0% to 1.49%. The workforce analyzed is therefore too small to guarantee a sufficient level of purity by analyzing only 200 grains. In contrast, when analyzing 2000 grains, a 0% impurity rate has a 0% confidence interval at
  • Genia (Montevideo, convinced) offers a method of determining genetic purity on batches of lines, and identifying contaminants, by analyzing a unique mixture of 10,000 seeds and sequencing amplicons targeting approximately 350 SNP. This company claims to determine varietal purity with a sensitivity of 0.8% and a confidence interval of 99%. This approach is similar to that developed by Gautier et al., In that it is based on a statistical model for estimating allelic frequencies on a large number (350) of SNPs, from which an estimate of the frequency is made. different genetic profiles present in the mixture. However, such an approach does not allow reliable detection of a rare allele for a given SNP, which is necessary in the search for contamination for a given trait.
  • the method presented here is based on the estimation of the purity of a seed lot from binary qualitative analysis (presence / absence of a contaminant) of several sub-lots of samples.
  • the analysis on each sub-lot consists of detecting the presence of an alternative allele to one or more loci of interest, by sequencing of amplicons.
  • the number of sublots, as well as the size of each sublot are defined according to the expected purity rate (estimated by the operator) and the precision sought, and so that there is preferably a statistical probability of finding a maximum of a contaminant in a given sublot. This means that, from a given number of seeds used for the test, at least as many sublots are formed as the number of contaminants estimated, preferably exactly as many sublots as the estimated number of contaminants.
  • the method makes it possible to distinguish a contamination by a hybrid (segregation) and a contamination by a line (no segregation), by comparing the contaminating profiles of the different sublots. .
  • this method is not limited to this binary approach, in fact the use of sequencing makes it possible not to limit the method to the identification of two allelic forms and in this context the method also makes it possible to identify contaminants in batches heterozygous seeds for the allele considered, the contaminant being heterologous to the allelic forms of this individual.
  • the invention thus relates to a method for determining the quantity of contaminants at at least one locus of interest, present in a batch of seeds of a variety of interest, characterized in that
  • the seeds of a seed lot are grouped into sublots of at least 10 seeds, the number of sublots thus obtained being greater than or equal to 10
  • a targeted sequencing of at least the genome region of the seeds containing the locus of interest is carried out for each sub-lot, c) the presence of a contaminant is determined for each sub-lot qualitative in case of detection of an alternative allele to the expected allele (s) (there may be several expected alleles at a single locus, especially if the seeds are seeds of a hybrid plant) for each genomic region sequenced (presence / absence of an alternative allele)
  • the quantity of contaminants in the overall batch is determined by the compilation of the qualitative results obtained for all of the sublots.
  • the region corresponding to the locus of interest is amplified by PCR between step a) and step b).
  • This amplification step is carried out directly on all the seeds in each sublot.
  • the sequencing of step b) is carried out on the DNA extracted from the seeds present in a sublot, the region of the genome of the seeds containing the locus of interest being optionally amplified.
  • the RNA present in the batch is also extracted of seed, a reverse transcription is carried out to obtain complementary DNA (cDNA), and optionally an amplification of loci of interest of this cDNA, and the sequencing of loci of interest (preferably amplified) is also carried out on the CDNA obtained.
  • the estimate of the impurity P of the batch is obtained according to the formula:
  • This formula is the formula proposed by Remund (2001, op. C / ' f.), which makes it possible in particular to take into account the fact that the searches for contaminants are carried out only on a sample of the seed lot and therefore to take into account the biases potentially induced by this sampling.
  • This process therefore makes it possible to calculate the percentage of contaminants in the seed lot (and therefore the purity of the seed lot: 1- P).
  • a contaminant is a seed with an allele different from the expected allele at the locus of interest given in this seed lot.
  • a maximum number of seeds is used, calculated so that at most one contaminant is present in each sample (sublot) of seeds, from a statistical point of view. .
  • a purity level higher than 99% is generally observed.
  • the methods described above are in fact used for homogeneous seed lots, that is to say for which at least 95%, preferably at least 96%, more preferably at least 97% so even more preferably at least 98%, most preferably at least 99% of the seeds have the same genotype.
  • the sublots contain a maximum of 20, or a maximum of 50, or a maximum of 80, or a maximum of 100, even a maximum of 200, or 2,000 seeds.
  • the quantity of seeds in each sublot prepared in step a is then of the order of 10, respectively 20, or between 15 and 25.
  • Step b) of the process consists of the targeted sequencing of at least one genomic region containing the locus of interest for which the presence of a contaminant is sought.
  • the DNA of the batches is prepared, for example by crushing the seeds and using the flour or isolating the DNA from this flour. These methods are known in the art. As seen above, one can also prepare cDNA.
  • This sequencing step is preferably carried out by high throughput sequencing (NGS).
  • NGS high throughput sequencing
  • Different technologies Illumina®, Roche 454, Ion torrent: Proton / PGM (ThermoFisher) or SOLiD (Applied BioSystems)).
  • this step being carried out by different approaches depending on the technology used.
  • Illumina® technology uses clonal amplification and sequencing by synthesis (SBS).
  • SBS clonal amplification and sequencing by synthesis
  • a double-stranded DNA library is generated from the sample to be analyzed by PCR amplification and addition of specific adapters at the ends, then the DNA is stranded in single strand, and the end of the single strands is fixed. randomly on the “flowcell” surface, on which a solid-phase “bridge” PCR is carried out (creation of dense groups (clusters) where the fragments are amplified).
  • the sequencing is carried out by adding the 4 labeled reversible terminators, the primers and the DNA polymerase, then the fluorescence emitted by each cluster is read, making it possible to determine the first base. We then perform several cycles in order to read the entire sequence.
  • These beads are then integrated with the amplification products in a water-oil emulsion, in order to create "microreactors" (each drop of water in oil) containing a single ball.
  • the PCR is carried out in this emulsion, the entire bank being amplified in parallel, making it possible to obtain several million copies per bead.
  • the beads are purified and the fragments are loaded onto plates such that the diameter of the wells allows the entry of only one ball at a time.
  • the sequencing enzymes are added and the individual labeled nucleotides are sent one after the other.
  • the sequence is detected by a CCD camera according to the luminescent signal.
  • the banks are prepared, the adapters are added and a PCR is carried out in an emulsion, as in method 454. Then an enrichment of the amplified beads is carried out, the 3 'end of the DNAs is modified to allow covalent attachment on a slide, and the balls are placed on the slide.
  • the sequencing is carried out by ligation: primers hybridize on the adapters present on the matrix. A set of 4 fluorescently labeled 2 base probes are associated with the primers. The specificity of the 2 base probes is carried out with the 1 st and 2 n bases of each ligation reaction. Several ligation, detection and cleavage cycles are carried out.
  • each base is detected by two independent ligation reactions by two different primers.
  • the coding system for reading on two bases allows very high fidelity in reading the results. This method makes it possible to differentiate between sequencing errors and real variants (SNP, insertions and deletions).
  • CMOS complementary metal-oxide-semiconductor
  • step c) consists in determining the absence or the presence, for a sample, of an unexpected sequence in the sequencing products. In the presence of such an unexpected sequence (corresponding to the presence of a contaminant), there is no need to quantify the quantity of unexpected sequence compared to the quantity of expected sequence (corresponding to the sequence of correct seeds from the seed lot).
  • the detection is therefore only qualitative (that is to say binary: presence / absence of a sequence of an alternative allele to the expected allele (s).
  • the fact of using sublots of seeds also allows to increase the number of seeds studied for each sequencing reaction and thus to have a sufficient sample of seeds while controlling costs.
  • This analysis is carried out for each genomic region analyzed, that is to say for each locus of interest determined beforehand by a person skilled in the art, and making it possible to characterize the batch of seeds.
  • the next step in the process is to calculate the effective percentage of contaminants in the seed lot. This is done by compiling the qualitative results obtained for all of the sublots.
  • the purity rate of the seed lot is then estimated by considering the number of contaminated sublots, the total number of sublots analyzed, and the workforce of each of the sublots. lot is obtained according to the formula:
  • step b) the targeted sequencing of several regions of the genome containing several loci of interest is carried out. This makes it possible to better guarantee the identity of the seeds present in each sample and to detect, more precisely, the presence of contaminants.
  • At least 2 preferably, at least 5, preferably, at least 10, more preferably at least 100, 50, 40, 15 loci of interest, see at least 20 loci interest. Even if there is no upper limit to the number of interest loci that can be assessed, we prefer to limit these. Indeed, it is possible to characterize a variety with a limited number of markers (specific for loci) (between 15 and 20), and to use this set of markers to discriminate plants from this variety of other plants.
  • a variety is understood as a set of plants with the same genetic background, the variety can be a commercial variety, but also a line not yet listed in the catalog, basic line, pre-base line or line undergoing propagation.
  • the optimal number of loci of interest is defined by a person skilled in the art, as a function of the plant material considered, but also by fixing the minimum number of loci discriminating any pair of given varieties.
  • the minimum number of loci discriminating any pair of varieties can be fixed at three, limiting the risk of confusing a real contamination and an experimental false positive.
  • Different algorithms are described by Rosenberg et al. (Journal of Computational Biology 12 (9), 2005, 1183-1201) to select a set of discriminating markers.
  • markers can be improved or modified to take into account other criteria such as the quality of the markers chosen (by quality means their ability to be amplified, unequivocally identified).
  • Quality means their ability to be amplified, unequivocally identified.
  • Groups or categories of markers can be identified and define a subgroup of markers which will preferably contain markers from a given group or from different groups. We can thus define a set of markers that we want to use.
  • the algorithm can also take into account the statistical quality of these markers defined as the minimum number of discriminating markers to declare a couple of individuals as different. From this criterion, the quality of discrimination of a set of markers can be assessed by the number of pairs of individuals that this set is capable of discriminating, ideally all of the individuals managed by the producer.
  • the method will preferably be implemented on loci of interest making it possible both to discriminate the variety of interest (ensuring the consistency and the concordance of the genetic background between plants) and to identify the presence or absence of other loci of interest (notably linked to traits of interest).
  • the method described here therefore makes it possible to determine the presence of contaminants in a batch of seeds, in particular to control varietal purity during an industrial production process.
  • This method can also be implemented in order to check the purity level of a trait which is sought in the homozygous state in the batch of seeds.
  • the region is preferably evaluated only of the genome containing the particular trait that one wishes to follow. Several lines can be followed simultaneously, using specific markers for each line.
  • allelic form specific to a given locus in this context this allelic form can be native, linked to a mutation identified by Tilling or Ecotilling, mutation linked to the imprint of a transposable element, mutation obtained by Gene Editing ( gene editing) or by any other method ... in this context the mutation whether it is a point mutation, an insertion or a deletion implies a limited number of bases.
  • This method can also be applied to a desired trait in the heterozygous state, the contaminant will then correspond to an alternative form to the allelic forms expected in this individual.
  • a line (which can be linked to a single allele or to several alleles) provides the plant with a phenotypic character of interest (such as drought resistance, resistance to biotic stress, resistance to lack of nitrogen, increased yield ).
  • the method can be implemented by searching for the presence of the allelic form not containing the insertion or the mutation considered.
  • the presence of this allelic form indicating that the presence of the trait linked to the mutation in a homozygous form in the seed lot is not fully guaranteed.
  • This method could be used for example when the mutation corresponds to the introgression of a DNA fragment from another species, this particular case will be encountered for example to check the purity of fertility restoring lines in rapeseed.
  • This method also makes it possible to make the search for the fortuitous presence of a trait, the trait for which one will seek the fortuitous presence could be a GMO, a mutation linked to Gene Editing or the introgression of a fragment coming from a species heterologous, this research will be done by amplification then sequencing of a specific region of T-DNA, or insertion.
  • this method can be applied to traits linked to small mutations if primers allowing specific amplification of the region when one is in the presence of the mutated allelic form can be defined.
  • the protocol can be extended to identify the presence of lines for frequencies ranging, for example up to 10% and in this context we can check for example the presence of 10% wild seeds in a batch of GMO seeds (legislation on refuge areas).
  • these applications are not limited to GMOs, the trait followed by this method can be introgression in a line of a fragment from another species, the presence of a fertility restoring locus from radish in rapeseed by example. In the same way, verification can make it possible to verify that this introgression is indeed in the homozygous state.
  • the method can be used to detect the fortuitous (unwanted) presence of GMOs or of another mutation linked to the insertion of a fragment of substantial size, in a batch of seeds.
  • This mutation can be linked to the presence of a transposable element or to an insertion obtained in particular by Gene Editing.
  • primers specific to a transgene or of the particular insertion will be used (if a particular contamination is suspected) or different generic primers making it possible to detect different transgenes without a priori.
  • steps b), c) and d) are carried out for several regions of the genome containing several loci of interest.
  • this embodiment it is preferred when a subset of several loci makes it possible to discriminate or identify a variety of interest.
  • this number of loci is variable and these loci can be determined by the skilled person in particular according to the teachings of Rosenberg (cited above).
  • it may integrate information concerning the production plan, involving specific controls and measures: isolation distances, border areas, castration, which implies that the risk of contamination will be limited and the seed lot will be a priori uncontaminated or slightly contaminated.
  • contamination will most likely come from a known contaminant, in particular from a parental line, including the parental lines involved in the production of basic and pre-basic seeds.
  • the number of markers making it possible to identify the purity of a line can be very reduced, it can in particular be 20 or less.
  • a batch is declared as containing a contaminant if an alternative allele to the allele is observed. expected for a single locus of interest.
  • a batch is declared as containing a contaminant if an alternative allele is observed to the expected allele for more than one locus of interest (in particular 2 or 3 loci).
  • At least or exactly one locus of interest is linked to a character of interest (trait). In another embodiment, it is a combination of loci which is related to a character of interest (trait).
  • At least one locus of interest is linked to a specific trait a priori not present in the seeds of the batch.
  • the method is essentially qualitative. The integration of these markers in the claimed protocol makes it possible to carry out, in a single experiment, the additional controls necessary elsewhere.
  • a lot is considered non-compliant if the frequency of the unwanted trait (s) is more than 10% in the seed lot.
  • the quantity of seeds in each sublot prepared in step a) is between 80 and 120.
  • the method described here can also be used to determine the intrinsic agronomic characteristics of the seeds present in the lot. Thus, one can determine the expression of genes that will lead to unwanted properties of seeds (for example dormancy marker genes which, if expressed, are a marker of seed non-germination). In order to determine the expression of these genes in the seeds of the batch, the RNA is extracted and reverse transcribed. Thus, the method described above can also include the following steps:
  • RNA extraction is carried out from the seeds of the sublot, and a reverse transcription of this RNA into cDNA before step b)
  • step b) sequencing of this cDNA is carried out using primers specific for dormant genes, at the same time as the sequencing of step b)
  • the presence of non-germinative seeds is qualitatively determined for each sub-lot, in the event of detection of cDNAs relating to dormant genes during the sequencing step ii) (presence / absence of l cDNA) iv) the quantity of dormant seeds in the overall lot is determined by the compilation of the qualitative results obtained for all of the sublots in iii).
  • Steps iii) and iv) are carried out in the same way as described above.
  • the seeds in the batch do not generally have the dormancy character and, by choosing the number of seeds in the over-batches adequately, the qualitative information in iii) can be used to obtain quantitative information.
  • the dormancy character case generally observed in commercial seed lots, for which at least 95% of the seeds germinate satisfactorily
  • sub- lots containing around 20 seeds between 15 and 25 seeds.
  • This dormancy problem is particularly important for sunflower, wheat and rice seeds.
  • the dormancy marker genes whose expression is evaluated by sequencing of cDNA obtained from the seed RNA are preferably chosen from the genes known in the art and some of which are described below.
  • a trait may correspond to an expression level of a marker gene.
  • the germination quality of a seed lot is an essential characteristic, and this quality can change during the conservation of seeds.
  • a state in which a seed does not germinate when it is in a favorable germination condition (temperature and humidity) is called a dormant state.
  • Dormancy reflects an adaptation of plant species to environmental conditions (ability to put itself in a latent state in the absence of favorable conditions for the development of the plant).
  • the sunflower, rice or sorghum have a dormancy whose emergence is accompanied by an improvement in germination at low temperature, while in the case of wheat, barley or oats, it is acts to improve germination at higher temperatures (Baskin and Baskin, Seed Science Research (2004) 14, 1-16).
  • This property is particularly important in the case of cultivated species, the objective being to produce and market batches of seeds capable of germinating quickly and evenly after sowing. It is therefore important to be able to characterize the dormancy level of a batch of seeds, and such analyzes are carried out routinely in factories, through germination tests, these tests use in particular Ethrel which has the ability to raise the dormancy.
  • these analyzes are long and require a large workforce, hence the advantage of being able to replace them with molecular analyzes.
  • DOG1 Delay Of Germination 1
  • the role of this gene appears to be conserved between species such as in lettuce (Huo et al., PNAS April 12 , 2016 1 13 (15) E2199-E2206) or wheat (Ashikawa et al., Transgenic Res (2014) 23: 621).
  • lettuce Huo et al., PNAS April 12 , 2016 1 13 (15) E2199-E2206
  • wheat Ashikawa et al., Transgenic Res (2014) 23: 621).
  • sunflowers Layat et al.
  • RNA associated with the polysomal fraction in dormant or non-dormant embryos analyzed the abundance of RNA associated with the polysomal fraction in dormant or non-dormant embryos, and identified genes associated with the dormant state, such as HSP ( HSP70, HSP101) as well as stress response genes or involved in the signaling pathways of abscissic acid (ABA), a hormone associated with maintaining dormancy.
  • HSP HSP70, HSP101
  • ABA abscissic acid
  • tubulin alpha are specifically expressed in non-dormant seeds (Layat et al., Op. Cit).
  • the analysis of the expression of a specific gene from the dormant state makes it possible to characterize the germinative quality of a batch of seeds.
  • the objective being to qualify batches for their germinative capacity
  • the analysis of the expression of a specific gene of the dormant state makes it possible to determine the percentage of dormant seeds in a batch not dormant, by semi-quantitative analysis.
  • the joint analysis of a specific gene from the dormant state and a specific gene from the non-dormant state would make it possible, by calculating the abundances relative of these two genes, to express a dormancy rate.
  • the appropriate marker gene can be chosen based on the timing of this sequencing test phase. These tests may be carried out, for example, shortly before the seeds are packaged for marketing. This evaluation will concern in particular the quality of the priming, the aptitude for germination, the vigor and the viability of the seeds. The aptitude for germination is described in particular in application WO 2018/015495.
  • the method described above can also be used to determine the specific purity of the seed lot, i.e. the presence or not (and the quantification) of seeds from a species other than the species of seeds from the seed lot. Such an analysis is currently carried out systematically by operators, who visually determine the presence or not of seeds of unwanted species (ISTA (International Seed Testing Association) rules chapter 4).
  • the DNA of the sublots is also sequenced using primers specific for one or more species different from those of the seeds present in the sublot, at the same time as the sequencing of step b)
  • the quantity of exogenous seeds in the overall lot is determined by the compilation of the qualitative results obtained for all of the sublots in ii).
  • Steps ii) and iii) are carried out in the same manner as described above. Seeds in the lot generally do not have many seeds from other species and, by choosing the number of seeds in the over-lots adequately, the qualitative information in iii) can be used to obtain quantitative information. Thus, if we know that at most 1% of the seeds present come from a species other than the species of interest, (case generally observed in commercial seed lots, for which at least 99% of the seeds are of the species of interest), sublots containing about 100 seeds (between 80 and 120 seeds) are used. The method described above can also be used to detect the presence of pathogens in the seed lot (contamination) (see ISTA (International Seed Testing Association) rules chapter 7). For example, the quantity of Sunflower seeds contaminated with Botrytis tolerated for the marketing of a batch of sunflower seed is 5%.
  • step b) sequencing the DNA or cDNA included in the sublots using primers specific for pathogenic species, at the same time as the sequencing of step b)
  • This method is particularly suitable for detecting the presence of Xanthomonas Campestris pv. campestris in seeds of Brassica ISTA (rules 7-019a: Detection of Xanthomonas campestris pv. campestris in Brassica spp. Seed) or Berg (Plant Pathology (2005) 54, 416 -427).
  • a PCR test for the identification of a pathogen on seed exists for the identification of downy mildew on sunflower (loos et al., Plant Pathology (2007) 56, 209-218).
  • RNA is extracted from each seed sublot and a reverse transcription of this RNA into cDNA is carried out.
  • steps i) and ii) can be carried out simultaneously, the extraction of DNAs and RNAs being able to be carried out in particular by means of the total DNA, RNA and protein isolation kit NucleoSpin® TriPrep from Macherey-Nagel.
  • step iv) is carried out by amplifying specific sequences of the genes (in particular other organisms) of which it is desired to verify the absence or the presence. We are therefore trying to determine if these other organisms are present in quantities lower than the tolerated rates for marketing. It is thus possible to detect the presence in particular of viral sequences. We can also make a non-specific amplification of the entire DNA of the genome.
  • step iv) can also be carried out by amplifying specific sequences making it possible to determine certain agronomic properties of the seeds of the sublot, at least one agronomic property of the seeds being notably chosen from the state of dormancy , in particular the quality of the priming, the aptitude for germination, the vigor and the viability of the seeds.
  • the method contains the steps:
  • RNA extraction is also carried out from the seeds of the sublot, and a reverse transcription of this RNA into cDNA before step b)
  • step b) sequencing of this cDNA is carried out using primers specific for genes linked to an agronomic property of the seeds, at the same time as the sequencing of step b) is carried out
  • the presence of seeds having the agronomic property is determined qualitatively, in the event of detection of cDNAs relating to the genes specific to the agronomic property of the seeds during the sequencing step ii) ( presence / absence of cDNA)
  • the quantity of seeds exhibiting this agronomic character in the overall lot is determined by the compilation of the qualitative results obtained for all of the sublots in iii).
  • the agronomic property of the seeds is chosen from the dormant state, in particular the quality of the priming, the aptitude for germination, the vigor and the viability of the seeds.
  • Several agronomic properties can also be sought by sequencing suitable genes.
  • the gene which marks the physiological state and the agronomic property of the seeds is chosen from the genes which are expressed, in the seeds, at the same time as the undesired agronomic character (dormancy, lack of vigor, etc.). Thus, we want an absence of expression of this gene and we generally wish that the expression of this gene is not present in more than 10% of the seeds in the seed lot.
  • varietal purity analysis can identify the contaminant (s) present in the seed lot.
  • each subsample it is possible to define a molecular profile corresponding to the compilation of data from each locus of interest.
  • the profile of each subsample can then be compared to the expected molecular profile, and a contaminating molecular profile can be deduced by subtraction.
  • a locus of interest with no alternative allele will be considered identical to the locus between the expected variety and the contaminant, while a locus with an alternative allele will be defined as potentially homozygous for the alternative allele, or heterozygote allele expected / alternative allele.
  • contaminant molecular profiles can then be compared to a reference database in order to identify the nature of the contaminant, and possibly when it entered the production cycle.
  • ii) compare the profile obtained in i) with those of a reference database.
  • a method of determining the degree of purity is considered, as defined above, characterized in that the contaminant is further identified for each sublot contaminated in
  • One or more contaminant profiles are therefore obtained for the starting seed lot, corresponding to the sum of the contaminants of each contaminated sublot.
  • the methods described above therefore make it possible to carry out a quality control of seed lots, on several different traits (varietal purity, specific purity, agronomic characteristics contamination by pathogens), in a single step, and by quantifying the presence of some of the unwanted traits or contaminants. Furthermore, these methods allow the precise determination of the nature of the contaminants present, due to the use of sequencing which gives precise information which can be easily used, as well as the determination of the presence of SNP (Single Nucleotide Polymorphism, polymorphism relating to a single nucleotide) which could not be detected by other methods (probes, amplifications, DNA chips). These methods therefore provide high precision with regard to the characterization of the batch of seeds tested.
  • the methods described make it possible to improve the precision of the control of seed batches, in particular when they are combined.
  • These same methods can also be transposed and used for the study of the conformity of plants marketed in the form of plants, species with vegetative multiplication, the material evaluated will then consist of sampling plant tissues, the amount of which will be equivalent from one plant to the other, this plant tissue could be, among other things, a leaf disc.
  • Figure 1 result of the Taqman analysis for a SNP, comprising two allelic forms detected respectively by the FAM and VIC fluorochromes, in samples of maize homozygous (A, B) or heterozygous for SNP (C).
  • A homozygous sample for the allelic form detected in FAM.
  • B homozygous sample for the allelic form detected in VIC.
  • C heterozygous sample for the allelic forms detected in FAM and VIC.
  • Figure 2 Relative frequency, in each sub-lot, of the alternative allele for SNP10. Sub-lots 3, 14 and 16 show a significant frequency of the alternative allele.
  • Figure 3 Qualitative profile (presence / absence of a contaminating allele) Profile of the presence of an alternative allele for the 17 markers (line) (16 discriminating markers and one marker associated with a trait) within the 16 sublots ( column). The presence of an alternative allele is detected for at least 3 SNPs in sub-lots 3, 14 and 16. These sub-lots are declared contaminated. The other 13 sublots are declared uncontaminated.
  • Figure 4 molecular profiles obtained on the 17 SNPs (16 discriminating markers and one marker associated with a trait) obtained on the 16 sublots analyzed.
  • the profile of the first line corresponds to the majority profile, the following profiles to the contaminated profiles observed for lots 3, 14 and 16 respectively.
  • This example evaluates the possibility of detecting a contaminating seed in a sub-batch of corn seeds, by genotyping using Taqman technology (Applied Biosystem).
  • FIG. 1 shows the result of the Taqman analysis for an SNP, comprising two allelic forms detected respectively by the fluorochromes FAM and VIC, in samples of corn homozygous or heterozygous at the SNP, and highlights the presence of signal with the FAM probe in a sample homozygous for the VIC allele (B), that is to say a non-specific signal, which does not allow a false positive signal to be distinguished from a signal linked to actual contamination in a sample.
  • B VIC allele
  • lots of 200 seeds from a line A containing 10%, 20%, 30%, 40%, and up to 90% of contaminants by a line B were produced and a sample of 15 seeds from this batch was analyzed by genotyping on an Infinium chip (Illumina), in order to assess the feasibility of identifying a contamination.
  • Illumina Infinium chip
  • Example 3 implementation of the method according to the invention on a set of markers
  • SNPs discriminating markers
  • an amplicon of 70 to 120bp was defined, and the 16 markers co-amplified by multiplex PCR.
  • a unique index (TAG) is used for each DNA sample, allowing sequencing of all the amplicons and assigning the sequences obtained to their original batch.
  • the amplicons have been sequenced by technology. Illumina on a Miniseq sequencer. Matched sequences of 75 bases were generated, assigned to the original DNAs by a demultiplexing step. After removal of the poor quality adapter and base sequences (threshold Q30), each pair of sequences is assembled into a single sequence, then aligned with the reference corn genome (RefGenV4). For each SNP, the relative allelic frequencies of the majority allele and the alternative allele were calculated, and correspond to the number of readings containing the allele of interest compared to the sum of the readings of each allele.
  • a sample is declared contaminated when it contains at least 3 SNPs for which an alternative allele is detected. Thus, it is concluded that, among these 24 sublots, 13 are considered to be contaminated and 11 to be pure.
  • the number of contaminated sublots makes it possible to estimate the varietal purity of the analyzed batch, this calculation is carried out using the Seed Cale software which uses the formulas of Remund (2001). In this example, the estimated purity is 99.22% (98.64% -99.6%), for an actual controlled purity of 99%.
  • the estimate of the impurity P of the batch is obtained according to the formula:
  • each sublot was crushed and the DNA extracted.
  • a set of 17 markers including 16 discriminating SNPs (allowing unambiguous identification of the presence of a variety other than that expected) and a marker associated with a trait, has been identified.
  • an amplicon of 70-120bp was defined, and the 17 markers were co-amplified by multiplex PCR.
  • a unique index (Tag) is used for each DNA sample, allowing sequencing of all the amplicons and assigning the sequences obtained to their original batch.
  • the amplicons were sequenced by Illumina technology on a Miniseq sequencer. Matched sequences of 75 bases were generated, assigned to the original DNAs by a demultiplexing step. After removal of the poor quality adapter and base sequences (threshold Q30), each pair of sequences is assembled into a single sequence, then aligned with the reference corn genome (RefGenV4). For each SNP, the relative allelic frequencies of the majority allele and the alternative allele were calculated, and correspond to the number of readings containing the allele of interest compared to the sum of the readings of each allele.
  • Figure 2 shows, for an SNP (SNP10), the frequency of the alternative allele in each of the sub-lots (i.e. the frequency of appearance of the sequence of the alternative allele).
  • SNP SNP
  • sublots 3, 14 and 16 show a significant presence of the alternative allele (above the background noise represented by the horizontal line).
  • Figure 3 shows the qualitative profile (presence / absence of the alternative allele) obtained for each SNP in each sublot. Confirmation of the presence of an alternative allele for at least 3 SNPs in sub-lots 3, 14 and 16.
  • These 3 sub-lots are declared contaminated.
  • the other 13 sublots are declared uncontaminated.
  • the varietal purity rate estimated with SeedCalc is 99.79% (95% confidence interval: 99.39% - 99.96%).
  • the SNP17 marker was analyzed separately and used to estimate the purity of the associated trait.
  • Figure 3 shows that sublots 3 and 16 have a significant frequency of the alternative allele. These 2 sublots are declared contaminated, leading to an estimate of the line purity of 99.87% (95% confidence interval: 99.52 - 99.98%).
  • the molecular profile identified on the uncontaminated sublots is first used to check its compliance with the expected profile for the variety analyzed (the previous step allows you to check the varietal purity of the batch, this step allows you to check that the variety identified is the one expected). Then, on sub-lots 3, 14 and 16 showing contamination, a contaminating molecular profile is deduced from the observed molecular profile, by subtraction from the expected profile. For each SNP marker showing contamination, the 2 alleles observed are reported ( Figure 4). The contaminant can thus be homozygous for the minority allele, or heterozygous.
  • Each contaminating molecular profile is then compared to a reference database in order to identify it. If this genotype corresponds to a known accession, this is proposed as a potential contaminant, otherwise the contaminating genotype is declared unidentifiable.
  • This reference database can be refined according to the production plan in particular, this database will then contain, as a priority, all of the varieties grown in the line production sector. And in this context a contaminant which will not appear in this reference base will be qualified as a contaminant linked to the post-harvest process.
  • Example 5 Implementation of the method for the simultaneous evaluation of the varietal purity and the germinative quality of a batch of seeds
  • 16 sub-lots of 100 seeds are formed, so as to evaluate the seed lot on a sample of 1600 seeds. From each sublot, the DNAs and the RNAs are co-extracted.
  • each sublot is mechanically ground in a tube by the addition of stainless steel balls, the tubes and the grinding support being previously cooled in liquid nitrogen in order to preserve the integrity of the nucleic acids, in particular RNA.
  • Co-extraction of DNA and RNA is carried out using the total DNA, RNA and protein isolation NucleoSpin® TriPrep kit from Macherey-Nagel.
  • a lysis buffer is added to the ground materials, making it possible to destroy the cellular structures as well as to inactivate enzymes such as RNases simultaneously.
  • the lysates are then deposited on columns containing a silica membrane to which the DNA and RNA molecules are attached.
  • a first elution in a specific buffer makes it possible to elute the DNAs while keeping the RNAs fixed on the silica membrane. After treatment with DNAse degrading the residual DNA, the RNAs are washed and then eluted in RNAse free water.
  • a reverse transcription is carried out, initiated with oligo-dT oligonucleotides making it possible to synthesize the double-stranded DNA complementary to the messenger RNA present in each sample.
  • a DNA mixture is then constituted for each sub-lot, composed of the genomic DNAs extracted and the cDNAs synthesized from the RNA fraction.
  • a multiplex PCR is carried out on each DNA sample in order to specifically amplify the targets of interest in the form of amplicons from 70 to 120 bp. These amplicons correspond to the genomic regions of interest for determining the molecular profile of varietal identification on the one hand (set of discriminating SNPs), and to the DOG1 gene marker of the dormant state of the seeds on the other hand.
  • a unique index (TAG) is used for each DNA sample, thus making it possible to carry out a sequencing of all the amplicons and to attribute the sequences obtained to their original sublot.
  • the amplicons are sequenced by Illumina technology, generating paired sequences of 75 bases each.
  • sequences are then assigned to the original DNAs by a demultiplexing step, then undergo different treatments consisting in the removal of the sequences of poor quality adapters and bases (threshold Q30). Each pair of sequences is finally assembled into a single sequence, then aligned with the sequence of the reference genome.
  • the relative allelic frequencies of the majority allele and the alternative allele were calculated, and correspond to the number of readings containing the allele of interest compared to the sum of the readings of each allele. It is considered that there is contamination for an SNP marker if, in a sublot, the sequence of an allelic form, which is not that of the expected allele for the variety tested, appears to be greater than the noise background.
  • a sample is declared contaminated when it contains at least 3 SNPs for which an allele alternative is detected. The number of contaminated sublots makes it possible to estimate the varietal purity of the batch analyzed. This calculation is carried out using the Seed Cale software which uses the formulas of Remund (2001).
  • a sublot is considered to contain a dormant seed if specific sequences of the transcript of this gene are detected in quantities significantly different from the background noise, the expression of this gene being negligible in seeds not dormant.
  • This significance threshold is determined beforehand using a standard range.
  • the dormancy rate is then estimated by counting the number of sublots for which expression of the DOG1 gene is detected, using the calculation method used previously.

Abstract

The invention relates to a method for the quality control of the varietal purity of seed lots by analysing sub-lots of the seeds, said control being carried out by sequencing the genes of interest.

Description

PROCÉDÉ DE CONTRÔLE QUALITÉ DE LOTS DE SEMENCES  QUALITY CONTROL PROCESS FOR SEED LOTS
L’invention concerne un procédé de contrôle-qualité dans le domaine des semences et de la pureté variétale. The invention relates to a quality control process in the field of seeds and varietal purity.
La commercialisation de semences est soumise au contrôle du taux de pureté de celles-ci. Ce taux est propre à chaque espèce mais doit être de 98% du poids ou plus (directive 66/402/CEE concernant la commercialisation des semences de céréales), cette norme s’applique également aux semences qui sont commercialisées pour la production de semences de bases, pré-base, la production de semences certifiées ou la production d’hybrides. Cette pureté variétale est principalement contrôlée par inspection sur pied, dans le cas de production de semences hybrides avec un parent géniteur male stérile, le taux de pureté de ce parent doit être encore supérieur (99,9 % pour le maïs). The marketing of seeds is subject to the control of their purity rate. This rate is specific to each species but must be 98% by weight or more (Directive 66/402 / EEC on the marketing of cereal seeds), this standard also applies to seeds which are marketed for the production of seeds of bases, pre-base, the production of certified seeds or the production of hybrids. This varietal purity is mainly controlled by field inspection, in the case of production of hybrid seeds with a sterile male parent parent, the purity rate of this parent must be even higher (99.9% for corn).
La disponibilité d’une solution de contrôle de la qualité alternative au contrôle sur pied est d’intérêt pour les sociétés semencières, notamment par la nécessité d’avoir une évaluation rapide, sans attendre le développement des plantes nécessaire à une l’évaluation phénotypique.  The availability of an alternative quality control solution to field control is of interest to seed companies, in particular by the need to have a rapid evaluation, without waiting for the development of plants necessary for a phenotypic evaluation.
Par ailleurs pour ces sociétés, le contrôle de la pureté variétale n’est pas limité aux stades cités ci-dessus, chaque étape en amont de la production de semences de base est concernée par cette exigence de pureté variétale. Il est rappelé que le taux de pureté variétale se définit comme le pourcentage de plantes provenant d'un lot et qui sont conformes à la description de la variété. Ce pourcentage s’exprime en poids de graines.  Furthermore, for these companies, the control of varietal purity is not limited to the stages mentioned above, each step upstream of the production of basic seeds is concerned by this requirement of varietal purity. It is recalled that the varietal purity rate is defined as the percentage of plants originating from a batch and which conform to the description of the variety. This percentage is expressed by weight of seeds.
En production de semences hybrides, l’amélioration de la qualité de la production de semences agricoles passe par la vérification de la pureté génétique des lots de semences de base (lignées parentales utilisées pour la production d’hybrides) utilisés dans la production des semences commerciales. Cette pureté est évaluée par la détection et l’identification de grains contaminants dans un échantillon de lot de semence des géniteurs. In hybrid seed production, improving the quality of agricultural seed production requires verifying the genetic purity of the lots of basic seeds (parental lines used for the production of hybrids) used in the production of commercial seeds . This purity is assessed by detecting and identifying contaminating grains in a sample from the broodstock.
Les contaminants sont des graines de la même espèce, mais présentant des variations génétiques à certains loci de leur génome, par rapport au génotype attendu pour les graines du lot considéré. Dans le processus de production de lots de semences, la présence de contaminants est réduite, de par la vigilance dans les étapes de production en amont, pratiques culturales, épuration, isolement, et les contrôles réalisés tout au long du procédé. Ainsi, la presque-totalité des graines du lot présente le même génotype, les contaminants étant présents à un pourcentage généralement faible et en effet le taux toléré dans un lot pour qu’il puisse être commercialisé devra être inférieur à 2%. The contaminants are seeds of the same species, but showing genetic variations at certain loci in their genome, compared to the genotype expected for the seeds of the batch considered. In the process of producing seed lots, the presence of contaminants is reduced, due to vigilance in the upstream production stages, cultural practices, purification, isolation, and the controls carried out throughout the process. Thus, almost all of the seeds in the batch have the same genotype, the contaminants being present at a generally low percentage and indeed the level tolerated in a batch so that it can be marketed must be less than 2%.
L’identification de traits génétiques d’intérêt est également importante en commercialisation de semences, en effet certains traits assurant par exemple la tolérance à un herbicide ou à un pathogène (par exemple le Mildiou en Tournesol) apportent une valeur ajoutée certaine à un lot de semence et lorsqu’une variété sera commercialisée comme porteuse de ce trait, une vérification de la présence de ce trait dans le lot de semence sera intéressante. Par trait on entend forme allélique d’un loci lié à un caractère phénotypique.  The identification of genetic traits of interest is also important in the marketing of seeds, indeed certain traits ensuring for example tolerance to a herbicide or a pathogen (for example Mildew in Sunflower) bring a certain added value to a batch of seed and when a variety is marketed as a carrier of this trait, a check of the presence of this trait in the seed lot will be interesting. By trait is meant the allelic form of a loci linked to a phenotypic character.
Une problématique similaire porte sur la présence fortuite d’OGM ou de toute autre altération dans le génome. La commercialisation de plante non OGM nécessite de faire la preuve de l’absence d’OGM ou de la présence d’un taux inférieur à un pourcentage déterminé par la règlementation. A l’opposé la réglementation dans certains pays, pour certains traits OGM, résistance à l’encontre d’insectes notamment, prévoit que les semences contenant l’OGM soient vendues avec un certain taux de semences ne possédant pas le trait OGM, de façon à assurer des zones refuges pour l’insecte.  A similar problem relates to the fortuitous presence of GMOs or any other alteration in the genome. The marketing of non-GMO plants requires proof of the absence of GMOs or the presence of a rate below a percentage determined by regulations. In contrast, the regulations in certain countries, for certain GMO traits, resistance against insects in particular, provides that seeds containing GMOs are sold with a certain rate of seeds not having the GMO trait, so to provide refuge areas for the insect.
Le développement massif de marqueurs de type SNP (Single Nucléotide Polymorphism) et des technologies de génotypage à haut débit a permis de favoriser l’essor de la sélection assistée par marqueurs. Le génotypage est classiquement réalisé au moyen de différentes technologies, par PCR (Kasp - LGC Genomics, Taqman - Life Technologies) ou hybridation sur des puces à ADN (Axiom - Life Technologies, Infinium - Illumina). The massive development of SNP (Single Nucleotide Polymorphism) markers and high throughput genotyping technologies has helped to promote the development of marker-assisted selection. Genotyping is conventionally carried out using different technologies, by PCR (Kasp - LGC Genomics, Taqman - Life Technologies) or hybridization on DNA chips (Axiom - Life Technologies, Infinium - Illumina).
Si la technologie de PCR quantitative Taqman est aujourd’hui considérée comme la référence pour la détection de présence fortuite de plantes OGM dans un mélange de plantes non OGM, celle-ci repose sur la détection d’un polymorphisme de type présence/absence d’une séquence donnée, et non sur un polymorphisme entre différentes formes alléliques d’un SNP. Ainsi, dans ce cas particulier de détection d’OGM, le polymorphisme porte sur la présence d’un trait qui pourra être amplifié (amplicon) et donc facilement identifiable.  If the Taqman quantitative PCR technology is today considered as the benchmark for the detection of the fortuitous presence of GMO plants in a mixture of non-GMO plants, it is based on the detection of a polymorphism of the presence / absence type. a given sequence, not on a polymorphism between different allelic forms of an SNP. Thus, in this particular case of GMO detection, the polymorphism relates to the presence of a trait which can be amplified (amplicon) and therefore easily identifiable.
L’estimation de la pureté de lots de graines, entendue comme l’absence de trait OGM, a été travaillée par Remund (Seed Science Research (2001 ) 1 1 , 101- 119), deux solutions ont été identifiées par ces auteurs pour limiter les ressources nécessaires à ces vérifications et notamment l’analyse en pool. Ils indiquent que cette méthode est efficace lorsque l’on recherche l’absence d’un individu particulier, par contre quand un taux de pureté est recherché il est préférable de travailler graine à graine. Ces auteurs ont élaboré un outil Seedcalc, qui permet notamment une approche quantitative en jouant sur le nombre de pools et le nombre de graines par lot, cette méthode est notamment adaptée pour de la PCR temps réel (Laffont, Seed Science Research (2005) 15, 197-204). The estimation of the purity of seed lots, understood as the absence of a GMO trait, has been worked on by Remund (Seed Science Research (2001) 1 1, 101- 119), two solutions have been identified by these authors to limit the resources necessary for these verifications and in particular the pool analysis. They indicate that this method is effective when looking for the absence of a particular individual, on the other hand when a purity rate is sought it is better to work seed by seed. These authors have developed a Seedcalc tool, which allows in particular a quantitative approach by playing on the number of pools and the number of seeds per batch, this method is particularly suitable for real-time PCR (Laffont, Seed Science Research (2005) 15 , 197-204).
Un exemple d’utilisation de pools de graine pour vérifier de la pureté variétale existe cependant. La demande WO 2015/1 10472 propose d’analyser des lots de graines par prélèvement manuel ou semi-automatique d'un volume d'échantillon déterminé à partir d’une ou plusieurs graines, ce volume étant déterminé pour permettre l'analyse d'au moins un constituant de la graine ou des graines. Le tissu prélèvé à partir de plusieurs graines est placé dans un puits identifié et traçable, puis on effectue l'analyse dudit constituant sur le contenu du ou des puits. Cette méthode de constitution de bulk permet de faire de la pureté variétale (exemple 6) cette pureté est évaluée par la méthode Kaspar (KBioscience) à partir de bulks de 5 et 10 graines, la présence d’un contaminant dans ces bulks se caractérise par la présence d’un cluster hétérozygote, cependant les auteurs indiquent que ce cluster est proche du cluster homozygote et qu’il est plus facile à identifier pour un bulk de 5 graines que pour un bulk de 10 graines.  An example of using seed pools to verify varietal purity exists, however. Application WO 2015/1 10472 proposes to analyze batches of seeds by manual or semi-automatic sampling of a determined sample volume from one or more seeds, this volume being determined to allow the analysis of at least one constituent of the seed or seeds. The tissue taken from several seeds is placed in an identified and traceable well, then the said constituent is analyzed on the content of the well (s). This bulk constitution method makes it possible to make varietal purity (example 6) this purity is evaluated by the Kaspar method (KBioscience) from bulks of 5 and 10 seeds, the presence of a contaminant in these bulks is characterized by the presence of a heterozygous cluster, however the authors indicate that this cluster is close to the homozygous cluster and that it is easier to identify for a bulk of 5 seeds than for a bulk of 10 seeds.
Le développement des technologies de séquençage à haut débit, ou NGS (Next Génération Sequencing) a révolutionné le monde de la génomique, permettant la découverte massive de marqueurs SNP entre lignées d’une espèce donnée. Ces techniques permettent un nombre important de lectures de séquences possibles en une seule expérience.  The development of high-throughput sequencing technologies, or NGS (Next Generation Sequencing) has revolutionized the world of genomics, allowing the massive discovery of SNP markers between lines of a given species. These techniques allow a large number of possible sequence readings in a single experiment.
La profondeur de séquençage, permet d’identifier un allèle faiblement représenté lors de l’identification de formes alléliques pour un ensemble d’individus en pool. Elle peut permettre par ailleurs d’identifier un nombre de formes alléliques supérieures à deux pour un même locus. Ainsi, le séquençage d’amplicons permet d’étudier de manière ciblée des loci d’intérêt, d’identifier des SNP et de caractériser la composition allélique d’un individu ou d’un mélange d’individus. Une application en recherche est la détection de mutations rares au sein d’une population mutagénéisée (TILLING, Targeting Induced Local Lésions in Genomes). Dans ces applications l’identification d’allèles rares en pool peut être combinée avec des pools d’individus en 2D ou 3D permettant une diminution du nombre de pools à analyser (Tsai et al, Plant Physiol. 201 1 Jul;156(3):1257-68 ; Taheri et al, Mol Breeding (2017) 37:40 ; Gupta et al, The Plant Journal (2017) 92, 495-508) WO2014134729, EP 2 200 424). Cette approche peut être également appliquée à l'identification de mutations par des méthodes de Gene Editing (Kumar et al, Mol Breeding (2017) 37:14). Ces approches restent toutefois qualitatives, il n’y a pas de considération quantitative. The depth of sequencing makes it possible to identify an allele that is poorly represented when identifying allelic forms for a group of individuals in a pool. It can also make it possible to identify a number of allelic forms greater than two for the same locus. Thus, the sequencing of amplicons makes it possible to study in a targeted manner loci of interest, to identify SNPs and to characterize the allelic composition of an individual or a mixture of individuals. A research application is the detection of rare mutations in a mutagenized population (TILLING, Targeting Induced Local Lésions in Genomes). In these applications the identification of rare pooled alleles can be combined with pools of individuals in 2D or 3D allowing a reduction in the number of pools to be analyzed (Tsai et al, Plant Physiol. 201 1 Jul; 156 (3): 1257-68; Taheri et al, Mol Breeding (2017) 37:40 ; Gupta et al, The Plant Journal (2017) 92, 495-508) WO2014134729, EP 2 200 424). This approach can also be applied to the identification of mutations by Gene Editing methods (Kumar et al, Mol Breeding (2017) 37:14). These approaches remain qualitative, however, there is no quantitative consideration.
La possibilité d’utiliser du génotypage par séquençage en pool a été évaluée pour l’identification de fréquences alléliques sur des populations par Gautier (Mol Ecol. 2013 Jul;22(14):3766-79). Toutefois cette approche est particulièrement adaptée à l’analyse de populations larges sur un grand nombre de SNP, et ne semble pas adaptée à la détection d’allèles rares (généralement inférieur à 5%). The possibility of using pool sequencing genotyping has been evaluated for the identification of allelic frequencies on populations by Gautier (Mol Ecol. 2013 Jul; 22 (14): 3766-79). However, this approach is particularly suitable for the analysis of large populations on a large number of SNPs, and does not seem suitable for the detection of rare alleles (generally less than 5%).
Une des difficultés liées à la recherche d’allèle rare est la fiabilité du résultat, la fréquence de l'allèle rare s’approchant du taux d’erreur de séquençage. One of the difficulties linked to finding a rare allele is the reliability of the result, the frequency of the rare allele approaching the sequencing error rate.
Dans le cas du contrôle qualité de lots de semences, l’objectif est de détecter la présence d’un contaminant, d’en estimer précisément le taux au sein du lot de semences dont est issu l’échantillon analysé, et de préférence d’en déterminer le profil génétique pour mieux en comprendre l’origine. La détection peut être réalisée par l’analyse de loci d’intérêt, choisis par l’homme du métier, en fonction de sa connaissance du matériel génétique à qualifier et du matériel génétique susceptible de le contaminer.  In the case of quality control of seed lots, the objective is to detect the presence of a contaminant, to accurately estimate the rate within the seed lot from which the analyzed sample comes, and preferably to determine its genetic profile to better understand its origin. Detection can be carried out by analyzing the loci of interest, chosen by a person skilled in the art, based on their knowledge of the genetic material to be qualified and the genetic material likely to contaminate it.
Ainsi, Chen et al (2016, PLOS ONE 1 1 (6)) ont développé, pour le maïs, deux séries de SNP pour le contrôle qualité : un set de marqueurs pour un contrôle rapide, employant un nombre réduit de SNP (50-100) pour identifier les erreurs potentielles d'étiquetage des paquets ou des parcelles de semences, et un set de marqueurs plus large, et utilisé à des fins de caractérisation et de discrimination plus fine du matériel génétique. Dans cet exemple, l'échantillonnage de 192 individus analysés individuellement permettrait d'avoir une probabilité proche de 100% de détecter une contamination de 5 % dans un lot, mais cette probabilité devient inférieure à 90% si l’on s’intéresse à une contamination de 1 %.  Thus, Chen et al (2016, PLOS ONE 1 1 (6)) have developed, for corn, two series of SNPs for quality control: a set of markers for rapid control, using a reduced number of SNPs (50- 100) to identify potential labeling errors in seed packets or plots, and a wider set of markers, and used for further characterization and discrimination of genetic material. In this example, the sampling of 192 individuals analyzed individually would make it possible to have a probability close to 100% of detecting a contamination of 5% in a batch, but this probability becomes lower than 90% if one is interested in a 1% contamination.
Dans le cas du contrôle qualité de lots de semences de base, la pureté génétique attendue est élevée, ainsi que la précision d’estimation recherchée, qui dépend à la fois du nombre de graines échantillonnées (testés) et du nombre de graines du lot de semences de bases. Par exemple, si 200 grains sont analysés et que le taux d’impureté est de 0%, l’intervalle de confiance de cette valeur s’étend de 0% à 1.49%. L’effectif analysé est donc trop faible pour garantir un taux de pureté suffisant en analysant seulement 200 grains. En revanche, lors de l’analyse de 2000 grains, un taux de 0% d’impureté a un intervalle de confiance de 0% àIn the case of quality control of batches of basic seeds, the expected genetic purity is high, as well as the precision of estimation sought, which depends on both the number of seeds sampled (tested) and the number of seeds of the batch of basic seeds. For example, if 200 grains are analyzed and the impurity rate is 0%, the confidence interval for this value ranges from 0% to 1.49%. The workforce analyzed is therefore too small to guarantee a sufficient level of purity by analyzing only 200 grains. In contrast, when analyzing 2000 grains, a 0% impurity rate has a 0% confidence interval at
0.15%. Toutefois, même si les coûts de génotypage ont considérablement baissé, un tel échantillonnage, associé à du traitement plante à plante, n’est pas économiquement viable pour du contrôle qualité. 0.15%. However, even if genotyping costs have dropped considerably, such sampling, combined with plant-to-plant processing, is not economically viable for quality control.
La société Genia (Montevideo, Uruguay) propose une méthode de détermination de la pureté génétique sur des lots de lignées, et d’identification des contaminants, par l’analyse d’un mélange unique de 10 000 graines et séquençage d’amplicons ciblant environ 350 SNP. Cette société revendique le fait de déterminer la pureté variétale avec une sensibilité de 0,8 % et un intervalle de confiance de 99%. Cette approche est similaire à celle développée par Gautier et al., en ce qu’elle repose sur un modèle statistique d’estimation des fréquences alléliques sur un nombre important (350) de SNP, à partir de laquelle est réalisée une estimation de la fréquence des différents profils génétiques présents dans le mélange. Toutefois, une telle approche ne permet pas de détecter avec fiabilité un allèle rare pour un SNP donné, ce qui est nécessaire dans la recherche d’une contamination pour un trait donné.  Genia (Montevideo, Uruguay) offers a method of determining genetic purity on batches of lines, and identifying contaminants, by analyzing a unique mixture of 10,000 seeds and sequencing amplicons targeting approximately 350 SNP. This company claims to determine varietal purity with a sensitivity of 0.8% and a confidence interval of 99%. This approach is similar to that developed by Gautier et al., In that it is based on a statistical model for estimating allelic frequencies on a large number (350) of SNPs, from which an estimate of the frequency is made. different genetic profiles present in the mixture. However, such an approach does not allow reliable detection of a rare allele for a given SNP, which is necessary in the search for contamination for a given trait.
Il convient donc de disposer d’une méthode économique, permettant l’analyse d’un nombre important d’individus, afin de déterminer précisément la pureté génétique d’un lot de semence donné et ce notamment pour des lots de semences ayant un taux de pureté élevé. It is therefore necessary to have an economic method, allowing the analysis of a large number of individuals, in order to precisely determine the genetic purity of a given seed lot and this in particular for seed lots having a rate of high purity.
La méthode présentée ici repose sur l’estimation de la pureté d’un lot de semences à partir de l’analyse qualitative binaire (présence/absence d’un contaminant) de plusieurs sous-lots d’échantillons. L’analyse sur chaque sous-lot consiste à détecter la présence d’un allèle alternatif à un ou plusieurs loci d’intérêt, par séquençage d’amplicons. Le nombre de sous-lots, ainsi que la taille de chaque sous-lot sont définis en fonction du taux de pureté attendu (estimé par l’opérateur) et de la précision recherchée, et de manière à ce que l’on ait préférentiellement une probabilité statistique de trouver au maximum un contaminant dans un sous-lot donné. Cela signifie que, à partir, d’un nombre donné de graines que l’utilise pour le test, on forme au moins autant de sous-lots que le nombre de contaminants estimé, préférentiellement exactement autant de sous-lots que le nombre de contaminants estimé. Par ailleurs, du fait de l’analyse de plusieurs sous-lots, la méthode permet de distinguer une contamination par un hybride (ségrégation) et une contamination par une lignée (pas de ségrégation), en comparant les profils contaminants des différents sous-lots. The method presented here is based on the estimation of the purity of a seed lot from binary qualitative analysis (presence / absence of a contaminant) of several sub-lots of samples. The analysis on each sub-lot consists of detecting the presence of an alternative allele to one or more loci of interest, by sequencing of amplicons. The number of sublots, as well as the size of each sublot are defined according to the expected purity rate (estimated by the operator) and the precision sought, and so that there is preferably a statistical probability of finding a maximum of a contaminant in a given sublot. This means that, from a given number of seeds used for the test, at least as many sublots are formed as the number of contaminants estimated, preferably exactly as many sublots as the estimated number of contaminants. Furthermore, due to the analysis of several sublots, the method makes it possible to distinguish a contamination by a hybrid (segregation) and a contamination by a line (no segregation), by comparing the contaminating profiles of the different sublots. .
Cependant cette méthode ne se limite pas à cette approche binaire, en effet l’utilisation du séquençage permet de ne pas limiter la méthode à l’identification de deux formes alléliques et dans ce contexte la méthode permet également d’identifier des contaminants dans des lots de semences hétérozygote pour l’allèle considéré, le contaminant étant hétérologue aux formes alléliques de cet individu.  However, this method is not limited to this binary approach, in fact the use of sequencing makes it possible not to limit the method to the identification of two allelic forms and in this context the method also makes it possible to identify contaminants in batches heterozygous seeds for the allele considered, the contaminant being heterologous to the allelic forms of this individual.
L’invention se rapporte ainsi à un procédé de détermination de la quantité de contaminants à au moins un locus d’intérêt, présents dans un lot de semences d’une variété d’intérêt, caractérisé en ce The invention thus relates to a method for determining the quantity of contaminants at at least one locus of interest, present in a batch of seeds of a variety of interest, characterized in that
a) on regroupe des graines d’un lot de semences par sous-lots d’au moins 10 graines, le nombre sous-lots ainsi obtenus étant supérieur ou égal à 10  a) the seeds of a seed lot are grouped into sublots of at least 10 seeds, the number of sublots thus obtained being greater than or equal to 10
b) on effectue, pour chaque sous-lot, un séquençage ciblé d’au moins la région du génome des graines contenant le locus d’intérêt, c) on détermine, pour chaque sous-lot, la présence d’un contaminant de façon qualitative en cas de détection d’un allèle alternatif à ou aux l’allèle(s) attendus (il peut y avoir plusieurs allèles attendus à un seul locus, notamment si les semences sont des semences d’une plante hybride) pour chaque région génomique séquencée (présence / absence d’un allèle alternatif)  b) a targeted sequencing of at least the genome region of the seeds containing the locus of interest is carried out for each sub-lot, c) the presence of a contaminant is determined for each sub-lot qualitative in case of detection of an alternative allele to the expected allele (s) (there may be several expected alleles at a single locus, especially if the seeds are seeds of a hybrid plant) for each genomic region sequenced (presence / absence of an alternative allele)
d) on détermine la quantité de contaminants dans le lot global par la compilation des résultats qualitatifs obtenus pour l’ensemble des sous- lots.  d) the quantity of contaminants in the overall batch is determined by the compilation of the qualitative results obtained for all of the sublots.
De façon optionnelle et préférentielle, et pour réaliser le séquençage, on amplifie par PCR la région correspondant au locus d’intérêt entre l’étape a) et l’étape b). Cette étape d’amplification est effectuée directement sur l’ensemble des graines dans chaque sous-lot. Alternativement, le séquençage de l’étape b) est effectué sur l’ADN extrait des semences présentes dans un sous-lot, la région du génome des graines contenant le locus d’intérêt étant optionnellement amplifiée. Dans un autre mode de réalisation, on extrait également l’ARN présent dans le lot de graine, on effectue une transcription inverse pour obtenir de l’ADN complémentaire (ADNc), et éventuellement une amplification de loci d’intérêt de cet ADNc, et on effectue également le séquençage de loci d’intérêt (préférentiellement amplifiés) sur l’ADNc obtenu. Optionally and preferably, and to carry out the sequencing, the region corresponding to the locus of interest is amplified by PCR between step a) and step b). This amplification step is carried out directly on all the seeds in each sublot. Alternatively, the sequencing of step b) is carried out on the DNA extracted from the seeds present in a sublot, the region of the genome of the seeds containing the locus of interest being optionally amplified. In another embodiment, the RNA present in the batch is also extracted of seed, a reverse transcription is carried out to obtain complementary DNA (cDNA), and optionally an amplification of loci of interest of this cDNA, and the sequencing of loci of interest (preferably amplified) is also carried out on the CDNA obtained.
L’estimation de l’impureté P du lot est obtenue suivant la formule : The estimate of the impurity P of the batch is obtained according to the formula:
dans laquelle n est le nombre de pools ; m est le nombre de grains dans un pool ; d est le nombre de pools dans lesquels un contaminant a été identifié.  where n is the number of pools; m is the number of grains in a pool; d is the number of pools in which a contaminant has been identified.
Cette formule est la formule proposée par Remund (2001 , op. c/'f. ), qui permet notamment de prendre en compte le fait que les recherches de contaminants sont effectuées uniquement sur un échantillon du lot de semences et donc de prendre en compte les biais potentiellement induits par cet échantillonnage. This formula is the formula proposed by Remund (2001, op. C / ' f.), Which makes it possible in particular to take into account the fact that the searches for contaminants are carried out only on a sample of the seed lot and therefore to take into account the biases potentially induced by this sampling.
Ce procédé permet donc de calculer le pourcentage de contaminants dans le lot de semences (et donc la pureté du lot de semences : 1- P ).  This process therefore makes it possible to calculate the percentage of contaminants in the seed lot (and therefore the purity of the seed lot: 1- P).
Un contaminant est une graine présentant un allèle différent de l’allèle attendu au locus d’intérêt donné dans ce lot de semences. Toutefois, lorsque l’on met en oeuvre la méthode sur plusieurs loci d’intérêt, on peut décider que l’on a contamination d’un lot que lorsque l’on observe, dans ce lot, des allèles non- attendus à plus d’un locus, par exemple à 2 ou 3 loci.  A contaminant is a seed with an allele different from the expected allele at the locus of interest given in this seed lot. However, when we apply the method on several loci of interest, we can decide that we have contamination of a lot only when we observe, in this lot, unexpected alleles at more than 'a locus, for example with 2 or 3 loci.
De façon préférée, à l’étape a), on utilise un nombre maximum de graines, calculé de telle sorte qu’au plus un seul contaminant soit présent dans chaque échantillon (sous-lot) de graines, d’un point de vue statistique. Dans les méthodes de production industrielles, on observe généralement un taux de pureté supérieur à 99 %. Ainsi, avec un effectif d’environ 100 graines, par exemple entre 80 et 120, l’on peut s’attendre à détecter majoritairement une graine contaminante. Les méthodes décrites ci-dessus sont en effet mises en oeuvre pour des lots de semences homogènes, c’est-à-dire pour lesquels au moins 95 %, de préférence au moins 96 %, de façon plus préférée au moins 97 % de façon encore plus préférée au moins 98 %, de façon la plus préférée au moins 99 % des semences ont le même génotype. Selon la pureté estimée du lot de semence, les sous-lots contiennent au maximum 20, ou au maximum 50, ou au maximum 80, ou au maximum 100, voire au maximum 200, ou 2000 graines. Lorsque l’on évalue un caractère pour lequel la pureté attendue est de l’ordre d’au moins 90%, respectivement d’au moins 95% (tel que le caractère germinatif des graines), la quantité de graines dans chaque sous-lot préparé à l’étape a) est alors de l’ordre de 10, respectivement de 20, soit comprise entre 15 et 25. Preferably, in step a), a maximum number of seeds is used, calculated so that at most one contaminant is present in each sample (sublot) of seeds, from a statistical point of view. . In industrial production methods, a purity level higher than 99% is generally observed. Thus, with a workforce of around 100 seeds, for example between 80 and 120, we can expect to detect a contaminating seed mainly. The methods described above are in fact used for homogeneous seed lots, that is to say for which at least 95%, preferably at least 96%, more preferably at least 97% so even more preferably at least 98%, most preferably at least 99% of the seeds have the same genotype. Depending on the estimated purity of the seed lot, the sublots contain a maximum of 20, or a maximum of 50, or a maximum of 80, or a maximum of 100, even a maximum of 200, or 2,000 seeds. When evaluating a character for which the expected purity is of the order of at least 90%, respectively at least 95% (such as the germination character of the seeds), the quantity of seeds in each sublot prepared in step a ) is then of the order of 10, respectively 20, or between 15 and 25.
L’étape b) du procédé consiste en le séquençage ciblé d’au moins une région génomique, contenant le locus d’intérêt pour lequel on cherche la présence d’un contaminant.  Step b) of the process consists of the targeted sequencing of at least one genomic region containing the locus of interest for which the presence of a contaminant is sought.
Il est clair que cette étape de séquençage est effectuée sur de l’acide nucléique. Ainsi, on prépare l’ADN des lots, par exemple en écrasant les graines et utilisant la farine ou isolant l’ADN à partir de cette farine. Ces méthodes sont connues dans l’art. Ainsi que vu plus haut, on peut aussi préparer de l’ADNc.  It is clear that this sequencing step is carried out on nucleic acid. Thus, the DNA of the batches is prepared, for example by crushing the seeds and using the flour or isolating the DNA from this flour. These methods are known in the art. As seen above, one can also prepare cDNA.
Cette étape de séquençage est préférentiellement effectuée par séquençage à haut débit (NGS). Différentes technologies (Illumina®, Roche 454, Ion torrent: Proton / PGM (ThermoFisher) ou SOLiD(Applied BioSystems)).  This sequencing step is preferably carried out by high throughput sequencing (NGS). Different technologies (Illumina®, Roche 454, Ion torrent: Proton / PGM (ThermoFisher) or SOLiD (Applied BioSystems)).
En résumé, ces technologies de NGS présentent 2 étapes communes : une étape d'amplification, par PCR  In summary, these NGS technologies have 2 common steps: an amplification step, by PCR
une étape de séquençage, cette étape étant réalisée par des approches différentes en fonction de la technologie utilisée.  a sequencing step, this step being carried out by different approaches depending on the technology used.
La technologie Illumina®, utilise l'amplification clonale et le séquençage par synthèse (SBS). On génère une banque d’ADN double brin à partir de l’échantillon à analyser par amplification PCR et ajout d’adaptateurs spécifiques aux extrémités, puis on dénature l’ADN en simple brin, et l’on fixe l’extrémité des simples brins aléatoirement à la surface du « flowcell », sur laquelle on effectue une PCR « bridge » en phase solide (création de groupes (clusters) denses où les fragments sont amplifiés). Illumina® technology uses clonal amplification and sequencing by synthesis (SBS). A double-stranded DNA library is generated from the sample to be analyzed by PCR amplification and addition of specific adapters at the ends, then the DNA is stranded in single strand, and the end of the single strands is fixed. randomly on the “flowcell” surface, on which a solid-phase “bridge” PCR is carried out (creation of dense groups (clusters) where the fragments are amplified).
Le séquençage s’effectue en ajoutant les 4 terminateurs réversibles marqués, les amorces et l’ADN polymérase, puis on lit la fluorescence émise par chaque cluster, permettant de déterminer la première base. On effectue alors plusieurs cycles afin de lire l’ensemble de la séquence.  The sequencing is carried out by adding the 4 labeled reversible terminators, the primers and the DNA polymerase, then the fluorescence emitted by each cluster is read, making it possible to determine the first base. We then perform several cycles in order to read the entire sequence.
Pour la mise en oeuvre de la technologie 454, on obtient une banque d’ADN simple brin matrice, des adaptateurs spécifiques étant ajoutés aux extrémités 3' et 5’, et chaque brin d’ADN étant immobilisé sur une bille (un fragment d’ADN = une bille). Ces billes sont ensuite intégrées avec les produits d’amplification dans une émulsion eau-huile, afin de créer des « microréacteurs » (chaque goutte d’eau dans l’huile) contenant une seule bille. La PCR est réalisé dans cette émulsion l’ensemble de la banque étant amplifiée en parallèle, permettant d’obtenir plusieurs millions de copies par bille. For the implementation of technology 454, a single-stranded template DNA bank is obtained, specific adapters being added at the 3 ′ and 5 ′ ends, and each DNA strand being immobilized on a bead (a fragment of DNA = a ball). These beads are then integrated with the amplification products in a water-oil emulsion, in order to create "microreactors" (each drop of water in oil) containing a single ball. The PCR is carried out in this emulsion, the entire bank being amplified in parallel, making it possible to obtain several million copies per bead.
Puis on purifie les billes et charge les fragments sur des plaques telles que le diamètre des puits ne permet l’entrée que d’une seule bille à la fois. On ajoute les enzymes de séquençage et on envoie les nucléotides marqués individuels les uns après les autres. La détection de la séquence est effectuée par une caméra CCD en fonction du signal luminescent.  Then the beads are purified and the fragments are loaded onto plates such that the diameter of the wells allows the entry of only one ball at a time. The sequencing enzymes are added and the individual labeled nucleotides are sent one after the other. The sequence is detected by a CCD camera according to the luminescent signal.
Pour la technologie SOLiD, on prépare les banques, ajoute les adaptateurs et effectue une PCR dans une émulsion, comme dans la méthode 454. Puis on effectue un enrichissement des billes amplifiées, on modifie l’extrémité 3’ des ADN pour permettre une fixation covalente sur une lame, et on dépose les billes sur la lame. Le séquençage est effectué par ligation : des amorces s’hybrident sur les adaptateurs présents sur la matrice. Un jeu de 4 sondes de 2 bases marquées en fluorescence sont associées aux amorces. La spécificité des sondes de 2 bases s’effectue avec les 1ere et 2ndes bases de chaque réaction de ligation. Plusieurs cycles de ligation, détection et clivages sont effectués. Dans ce processus chaque base est détectée par deux réactions de ligation indépendantes par deux différentes amorces. Le système de codage de la lecture sur deux bases permet une très grande fidélité de la lecture des résultats. Cette méthode permet de faire la différence entre les erreurs de séquençages et les variants réels (SNP, insertions et délétions). For the SOLiD technology, the banks are prepared, the adapters are added and a PCR is carried out in an emulsion, as in method 454. Then an enrichment of the amplified beads is carried out, the 3 'end of the DNAs is modified to allow covalent attachment on a slide, and the balls are placed on the slide. The sequencing is carried out by ligation: primers hybridize on the adapters present on the matrix. A set of 4 fluorescently labeled 2 base probes are associated with the primers. The specificity of the 2 base probes is carried out with the 1 st and 2 n bases of each ligation reaction. Several ligation, detection and cleavage cycles are carried out. In this process each base is detected by two independent ligation reactions by two different primers. The coding system for reading on two bases allows very high fidelity in reading the results. This method makes it possible to differentiate between sequencing errors and real variants (SNP, insertions and deletions).
Pour la technologie lonTorrent, on prépare des banques et on ajoute des adaptateurs. On effectue des PCR en émulsion. Le séquençage ne s’appuie pas sur la détection de fluorescence de nucléotides ou de leurs résidus de polymérisation par un capteur optique CCD, mais utilise un capteur CMOS qui détecte les ions H+ dégagés lors de la polymérisation de l’ADN. Le capteur CMOS mesure le pH dans chacun des puits, ce qui indique la présence d’une ou plusieurs bases qui ont été intégrées dans l’ADN en cours d’analyse. On ajoute les bases les unes après les autres pour détecter laquelle est intégrée puis on rince et on recommence. For lonTorrent technology, banks are prepared and adapters are added. Emulsion PCR is carried out. Sequencing does not rely on the detection of fluorescence of nucleotides or their polymerization residues by a CCD optical sensor, but uses a CMOS sensor which detects the H + ions released during the polymerization of DNA. The CMOS sensor measures the pH in each of the wells, which indicates the presence of one or more bases which have been integrated into the DNA under analysis. Add the bases one after the other to detect which one is integrated, then rinse and start again.
D’autres technologies de séquences existent telles que la technique Min ION de Oxford Nanopore technologies (https://nanoporetech.eom/products#minion, Mikheyev et Tin (2014). Molecular Ecology Resources. 14(6): 1097-102.) ou Pac Bio de Pacific bioscience (https://www.pacb.com/products-and-services/pacbio-systems/). Other sequence technologies exist such as the Min ION technique from Oxford Nanopore technologies (https: //nanoporetech.eom/products#minion, Mikheyev and Tin (2014). Molecular Ecology Resources. 14 (6): 1097-102.) or Pac Bio of Pacific bioscience (https://www.pacb.com / products-and-services / PacBio-systems /).
Le procédé décrit ici permet de limiter le risque de détection d’un faux- positif (on conclut par erreur à la présence de l’allèle alternatif) ou d’un faux-négatif (on conclut par erreur à l’absence de l’allèle alternatif) que ces méthodes de séquençage NGS peuvent présenter du fait du taux d’erreur de séquençage inhérent à chaque technologie. En effet, l’étape c) consiste en la détermination de l’absence ou de la présence, pour un échantillon, d’une séquence non attendue dans les produits de séquençage. En cas de présence d’une telle séquence non attendue (correspondant à la présence d’un contaminant), il n’est nul besoin de quantifier la quantité de séquence non attendue par rapport à la quantité de séquence attendue (correspondant à la séquence des graines correctes du lot de semences). La détection est donc uniquement qualitative (c’est-à-dire binaire : présence / absence d’une séquence d’un allèle alternatif à ou aux allèle(s) attendus. Le fait d’utiliser des sous-lots de graines permet également d’augmenter le nombre de graines étudiées pour chaque réaction de séquençage et ainsi d’avoir un échantillon suffisant de graines tout en maîtrisant les coûts. The method described here makes it possible to limit the risk of detection of a false-positive (one concludes by error in the presence of the alternative allele) or of a false-negative (one concludes by error in the absence of the alternative allele) that these NGS sequencing methods can present due to the sequencing error rate inherent in each technology. In fact, step c) consists in determining the absence or the presence, for a sample, of an unexpected sequence in the sequencing products. In the presence of such an unexpected sequence (corresponding to the presence of a contaminant), there is no need to quantify the quantity of unexpected sequence compared to the quantity of expected sequence (corresponding to the sequence of correct seeds from the seed lot). The detection is therefore only qualitative (that is to say binary: presence / absence of a sequence of an alternative allele to the expected allele (s). The fact of using sublots of seeds also allows to increase the number of seeds studied for each sequencing reaction and thus to have a sufficient sample of seeds while controlling costs.
La présence d’une telle séquence d’un allèle alternatif est indicatrice de la présence d’un contaminant pour cet allèle.  The presence of such a sequence of an alternative allele is indicative of the presence of a contaminant for this allele.
Cette analyse est effectuée pour chaque région génomique analysée, c’est- à-dire pour chaque locus d’intérêt préalablement déterminé par l’homme du métier, et permettant de caractériser le lot de semences.  This analysis is carried out for each genomic region analyzed, that is to say for each locus of interest determined beforehand by a person skilled in the art, and making it possible to characterize the batch of seeds.
De fait, lorsque l’on choisit le nombre de graines dans chaque sous-lot de telle sorte qu’un seul contaminant soit présent (de façon statistique) au sein de ce sous-lot, la présence d’un allèle alternatif est suffisante pour conclure à la présence d’un unique contaminant.  In fact, when the number of seeds in each sub-lot is chosen so that only one contaminant is present (statistically) within this sub-lot, the presence of an alternative allele is sufficient to conclude that a single contaminant is present.
L’étape suivante du procédé est le calcul du pourcentage effectif des contaminants dans le lot de semences. Ceci est effectué par la compilation des résultats qualitatifs obtenus pour l’ensemble des sous-lots. The next step in the process is to calculate the effective percentage of contaminants in the seed lot. This is done by compiling the qualitative results obtained for all of the sublots.
Le taux de pureté du lot de semence est alors estimé en considérant le nombre de sous-lots contaminés, le nombre total de sous-lot analysés, et l’effectif de chacun des sous-lots. lot est obtenue suivant la formule : The purity rate of the seed lot is then estimated by considering the number of contaminated sublots, the total number of sublots analyzed, and the workforce of each of the sublots. lot is obtained according to the formula:
dans laquelle n est le nombre de pools ; m est le nombre de grains dans un pool ; d est le nombre de pools dans lesquels un contaminant a été identifié.  where n is the number of pools; m is the number of grains in a pool; d is the number of pools in which a contaminant has been identified.
On peut aussi déterminer l’intervalle de confiance de cette estimation par toute méthode statistique appropriée, notamment par une distribution F, tel qu’appliqué dans l’outil SeedCal utilisé dans le cadre de l’ISTA (International Seed Test Association) et tel qu’explicité dans Remund (2001 ).  We can also determine the confidence interval of this estimate by any appropriate statistical method, in particular by an F distribution, as applied in the SeedCal tool used within the framework of the ISTA (International Seed Test Association) and such that explained in Remund (2001).
Dans un mode de réalisation préféré, on effectue, à l’étape b), le séquençage ciblé de plusieurs régions du génome contenant plusieurs loci d’intérêt. Ceci permet de mieux garantir l’identité des semences présentes dans chaque échantillon et de détecter, de façon plus fine, la présence de contaminants. In a preferred embodiment, in step b), the targeted sequencing of several regions of the genome containing several loci of interest is carried out. This makes it possible to better guarantee the identity of the seeds present in each sample and to detect, more precisely, the presence of contaminants.
Ainsi, on peut séquencer de manière ciblée, au moins 2, de préférence, au moins 5, de préférence, au moins 10, de façon plus préférée au moins 100, 50, 40, 15 loci d’intérêt, voir au moins 20 loci d’intérêt. Même s’il n’existe pas de limite supérieure au nombre de loci d’intérêt que l’on peut évaluer, on préfère limiter ceux-ci. En effet, il est possible de caractériser une variété avec un nombre de marqueurs (spécifiques de loci) limité (compris entre 15 et 20), et d’utiliser ce jeu de marqueurs pour discriminer les plantes de cette variété d’autres plantes. Une variété s’entend comme un ensemble de plantes ayant un même fond génétique, la variété peut être une variété commercialisée, mais aussi une lignée non encore inscrite au catalogue, lignée de base, de pre-base ou lignée en cours de multiplication.  Thus, it is possible to sequence in a targeted manner, at least 2, preferably, at least 5, preferably, at least 10, more preferably at least 100, 50, 40, 15 loci of interest, see at least 20 loci interest. Even if there is no upper limit to the number of interest loci that can be assessed, we prefer to limit these. Indeed, it is possible to characterize a variety with a limited number of markers (specific for loci) (between 15 and 20), and to use this set of markers to discriminate plants from this variety of other plants. A variety is understood as a set of plants with the same genetic background, the variety can be a commercial variety, but also a line not yet listed in the catalog, basic line, pre-base line or line undergoing propagation.
Le nombre optimal de loci d’intérêt est défini par l’homme du métier, en fonction du matériel végétal considéré, mais également en fixant le nombre minimal de loci discriminant toute paire de variétés donnée. Ainsi, le nombre minimal de loci discriminant toute paire de variétés peut être fixé à trois, limitant le risque de confondre une contamination réelle et un faux-positif expérimental. Différents algorithmes sont décrits par Rosenberg et al. (Journal of Computational Biology 12 (9), 2005, 1183-1201 ) pour sélectionner un jeu de marqueurs discriminants. The optimal number of loci of interest is defined by a person skilled in the art, as a function of the plant material considered, but also by fixing the minimum number of loci discriminating any pair of given varieties. Thus, the minimum number of loci discriminating any pair of varieties can be fixed at three, limiting the risk of confusing a real contamination and an experimental false positive. Different algorithms are described by Rosenberg et al. (Journal of Computational Biology 12 (9), 2005, 1183-1201) to select a set of discriminating markers.
On peut améliorer ou modifier ces algorithmes pour prendre en compte d’autres critères tels que la qualité des marqueurs choisis (par qualité on entend leur aptitude à être amplifiés, identifiés sans équivoque). Des groupes ou catégories de marqueurs pourront être identifiées et définir un sous-groupes de marqueurs qui contiendra préférentiellement des marqueurs issus d’un groupe donné ou issu de groupes différents. On peut ainsi définir un set de marqueurs que l’on souhaite utiliser.  These algorithms can be improved or modified to take into account other criteria such as the quality of the markers chosen (by quality means their ability to be amplified, unequivocally identified). Groups or categories of markers can be identified and define a subgroup of markers which will preferably contain markers from a given group or from different groups. We can thus define a set of markers that we want to use.
L’algorithme peut aussi prendre en compte la qualité statistique de ces marqueurs définie comme le nombre minimum de marqueurs discriminants pour déclarer un couple d’individus comme différents. À partir de ce critère, la qualité de discrimination d’un set de marqueurs peut être évaluée par le nombre de couples d’individus que ce set est capable de discriminer, idéalement la totalité des individus gérés par le producteur.  The algorithm can also take into account the statistical quality of these markers defined as the minimum number of discriminating markers to declare a couple of individuals as different. From this criterion, the quality of discrimination of a set of markers can be assessed by the number of pairs of individuals that this set is capable of discriminating, ideally all of the individuals managed by the producer.
Dans le contexte de la présente invention, on mettra préférentiellement en oeuvre la méthode sur des loci d’intérêt permettant à la fois de discriminer la variété d’intérêt (s’assurer de la constance et la concordance du fond génétique entre les plantes) et d’identifier la présence ou l’absence d’autres loci d’intérêt (notamment liés à des traits d’intérêt).  In the context of the present invention, the method will preferably be implemented on loci of interest making it possible both to discriminate the variety of interest (ensuring the consistency and the concordance of the genetic background between plants) and to identify the presence or absence of other loci of interest (notably linked to traits of interest).
Dans ce mode de réalisation, c’est-à-dire lorsque l’on effectue un séquençage de plusieurs régions du génome, on peut décider de considérer qu’il y a présence d’un contaminant dans un lot seulement si on observe la présence de séquences non attendues pour plus d’un locus d’intérêt dans ce lot. En d’autres termes, on peut décider que, si l’on observe, dans un lot donné, la présence d’un unique allèle alternatif (une séquence non attendue pour une seule région du génome, alors que les séquences obtenues pour les autres régions sont celles attendues), on considère que la présence d’un contaminant n’est pas avérée.  In this embodiment, that is to say when a sequencing of several regions of the genome is carried out, it may be decided to consider that there is a contaminant in a batch only if the presence is observed unexpected sequences for more than one locus of interest in this lot. In other words, we can decide that, if we observe, in a given batch, the presence of a single alternative allele (an unexpected sequence for a single region of the genome, while the sequences obtained for the others regions are those expected), it is considered that the presence of a contaminant is not proven.
La méthode décrite ici permet donc de déterminer la présence de contaminants dans un lot de semences, en particulier contrôler la pureté variétale lors d’un processus de production industriel. The method described here therefore makes it possible to determine the presence of contaminants in a batch of seeds, in particular to control varietal purity during an industrial production process.
Cette méthode peut également être mise en oeuvre afin de vérifier le taux de pureté d’un trait qui est recherché à l’état homozygote dans le lot de graines. Dans ce mode de réalisation, on évalue préférentiellement uniquement la région du génome contenant le trait particulier que l’on souhaite suivre. Plusieurs traits peuvent être suivis de façon simultanée, par utilisation de marqueurs spécifiques de chaque trait. This method can also be implemented in order to check the purity level of a trait which is sought in the homozygous state in the batch of seeds. In this embodiment, the region is preferably evaluated only of the genome containing the particular trait that one wishes to follow. Several lines can be followed simultaneously, using specific markers for each line.
Par trait on entend forme allélique spécifique à un locus donné, dans ce contexte cette forme allélique peut être native, liée à une mutation identifiée par Tilling ou Ecotilling, mutation liée à l’empreinte d’un élément transposable, mutation obtenue par Gene Editing (édition de gène) ou par n’importe quelle autre méthode... dans ce contexte la mutation qu’elle soit une mutation ponctuelle, une insertion ou une délétion implique un nombre limité de bases. Cette méthode pourra également s’appliquer sur un trait recherché à l’état hétérozygote, le contaminant correspondra alors à une forme alternative aux formes alléliques attendues chez cet individu.  By trait is meant allelic form specific to a given locus, in this context this allelic form can be native, linked to a mutation identified by Tilling or Ecotilling, mutation linked to the imprint of a transposable element, mutation obtained by Gene Editing ( gene editing) or by any other method ... in this context the mutation whether it is a point mutation, an insertion or a deletion implies a limited number of bases. This method can also be applied to a desired trait in the heterozygous state, the contaminant will then correspond to an alternative form to the allelic forms expected in this individual.
Dans un mode de réalisation préféré, un trait (qui peut être lié à un seul allèle ou à plusieurs allèles) fournit à la plante un caractère phénotypique d’intérêt (tel que résistance à la sécheresse, résistance au stress biotique, résistance au manque d’azote, augmentation du rendement...).  In a preferred embodiment, a line (which can be linked to a single allele or to several alleles) provides the plant with a phenotypic character of interest (such as drought resistance, resistance to biotic stress, resistance to lack of nitrogen, increased yield ...).
Lorsque le trait est lié à une mutation impliquant une insertion de grande taille, telle qu’un trait OGM, un mutant obtenu par insertion d’un élément transposable ou un mutant obtenu par Gene Editing, la méthode pourra être mise en oeuvre en recherchant la présence de la forme allélique ne contenant pas l’insertion ou la mutation considérée. La présence de cette forme allélique indiquant que la présence du trait lié à la mutation sous une forme homozygote dans le lot de graines n’est pas totalement garantie. Cette méthode pourra être utilisée par exemple lorsque la mutation correspond à l’introgression d’un fragment d’ADN issu d’une autre espèce, ce cas particulier se rencontrera par exemple pour vérifier la pureté de lignées restauratrices de fertilité chez le colza.  When the trait is linked to a mutation involving a large insertion, such as a GMO trait, a mutant obtained by insertion of a transposable element or a mutant obtained by Gene Editing, the method can be implemented by searching for the presence of the allelic form not containing the insertion or the mutation considered. The presence of this allelic form indicating that the presence of the trait linked to the mutation in a homozygous form in the seed lot is not fully guaranteed. This method could be used for example when the mutation corresponds to the introgression of a DNA fragment from another species, this particular case will be encountered for example to check the purity of fertility restoring lines in rapeseed.
Cette méthode permet également de faire de la recherche de présence fortuite d’un trait, le trait dont on recherchera la présence fortuite pourra être un OGM, une mutation liée à du Gene Editing ou l’introgression d’un fragment provenant d’une espèce hétérologue, cette recherche sera faite par amplification puis séquençage d’une région spécifique du T-DNA, ou de l’insertion. Par extension cette méthode peut s’appliquer à des traits liés à des mutation de faible taille si des amorces permettant s’amplifier spécifiquement la région lorsque l’on est en présence de la forme allélique mutée peuvent être définies. En adaptant le protocole nombre de lots et nombre de graines par lot le protocole peut être étendu à l’identification de la présence de traits pour des fréquences allant par exemple jusqu’à 10% et dans ce contexte on pourra vérifier par exemple la présence de 10% de graines sauvages dans un lot de graines OGM (législation sur les zones refuge). Ces applications ne sont pas limitées aux OGM, le trait suivit par cette méthode peut être l’introgression dans une lignée d’un fragment issue d’une autre espèce, la présence d’un locus restaurateur de fertilité issu du radis chez le Colza par exemple. De façon identique la vérification pourra permettre de vérifier que cette introgression est bien à l’état homozygote. This method also makes it possible to make the search for the fortuitous presence of a trait, the trait for which one will seek the fortuitous presence could be a GMO, a mutation linked to Gene Editing or the introgression of a fragment coming from a species heterologous, this research will be done by amplification then sequencing of a specific region of T-DNA, or insertion. By extension, this method can be applied to traits linked to small mutations if primers allowing specific amplification of the region when one is in the presence of the mutated allelic form can be defined. By adapting the protocol number of lots and number of seeds per lot, the protocol can be extended to identify the presence of lines for frequencies ranging, for example up to 10% and in this context we can check for example the presence of 10% wild seeds in a batch of GMO seeds (legislation on refuge areas). These applications are not limited to GMOs, the trait followed by this method can be introgression in a line of a fragment from another species, the presence of a fertility restoring locus from radish in rapeseed by example. In the same way, verification can make it possible to verify that this introgression is indeed in the homozygous state.
Dans un autre mode de réalisation, la méthode peut être utilisée pour détecter la présence fortuite (non désirée) d’OGM ou d’autre mutation liée à l’insertion d’un fragment de taille conséquente, dans un lot de semences. Cette mutation peut être liée à la présence d’un élément transposable ou à une insertion obtenue notamment par Gene Editing. Dans ce mode de réalisation, on utilisera des amorces spécifiques d’un transgène ou de l’insertion particulier (si on suspecte une contamination particulière) ou différentes amorces génériques permettant de détecter différents transgènes sans a priori.  In another embodiment, the method can be used to detect the fortuitous (unwanted) presence of GMOs or of another mutation linked to the insertion of a fragment of substantial size, in a batch of seeds. This mutation can be linked to the presence of a transposable element or to an insertion obtained in particular by Gene Editing. In this embodiment, primers specific to a transgene or of the particular insertion will be used (if a particular contamination is suspected) or different generic primers making it possible to detect different transgenes without a priori.
Dans le cas de la pureté variétale, on peut aussi ajouter des marqueurs liés à ces traits à la liste des marqueurs utilisés pour caractériser la variété.  In the case of varietal purity, one can also add markers linked to these traits to the list of markers used to characterize the variety.
Ainsi, dans un mode de réalisation préféré, on effectue, les étapes b), c) et d) pour plusieurs régions du génome contenant plusieurs loci d’intérêt. Thus, in a preferred embodiment, steps b), c) and d) are carried out for several regions of the genome containing several loci of interest.
Dans ce mode de réalisation, on préfère quand un sous-ensemble de plusieurs loci permet de discriminer ou identifier une variété d’intérêt. Ainsi que vu plus haut, ce nombre de loci est variable et ces loci peuvent être déterminés par l’homme du métier notamment selon les enseignements de Rosenberg (cité ci- dessus). Dans un mode particulier de l’invention, il pourra intégrer des informations concernant le plan de production, impliquant des contrôles et des mesures particulières : distances d’isolement, zones de bordures, castration, ce qui implique que le risque de contamination va être limité et le lot de semences sera a priori non contaminé ou faiblement contaminé. Par ailleurs de part ces mesures, une contamination sera très probablement issue d’un contaminant connu, notamment d’une lignée parentale, y compris les lignées parentales impliquées dans la production des semences de bases et pre base. Dans ce contexte particulier le nombre de marqueur permettant d’identifier la pureté d’une lignée peut être très réduit, il pourra notamment être de 20 ou moins.  In this embodiment, it is preferred when a subset of several loci makes it possible to discriminate or identify a variety of interest. As seen above, this number of loci is variable and these loci can be determined by the skilled person in particular according to the teachings of Rosenberg (cited above). In a particular embodiment of the invention, it may integrate information concerning the production plan, involving specific controls and measures: isolation distances, border areas, castration, which implies that the risk of contamination will be limited and the seed lot will be a priori uncontaminated or slightly contaminated. Furthermore, due to these measures, contamination will most likely come from a known contaminant, in particular from a parental line, including the parental lines involved in the production of basic and pre-basic seeds. In this particular context, the number of markers making it possible to identify the purity of a line can be very reduced, it can in particular be 20 or less.
Ainsi que vu plus haut, dans un mode de réalisation, on déclare un lot comme contenant un contaminant si l’on observe un allèle alternatif à l’allèle attendu pour un seul locus d’intérêt. Dans un autre mode de réalisation, on déclare un lot comme contenant un contaminant si l’on observe un allèle alternatif à l’allèle attendu pour plus d’un locus d’intérêt (notamment 2 ou 3 loci). As seen above, in one embodiment, a batch is declared as containing a contaminant if an alternative allele to the allele is observed. expected for a single locus of interest. In another embodiment, a batch is declared as containing a contaminant if an alternative allele is observed to the expected allele for more than one locus of interest (in particular 2 or 3 loci).
Dans un mode de réalisation, au moins ou exactement un locus d’intérêt est lié à un caractère d’intérêt (trait). Dans un autre mode de réalisation, c’est une combinaison de loci qui est est liée à un caractère d’intérêt (trait).  In one embodiment, at least or exactly one locus of interest is linked to a character of interest (trait). In another embodiment, it is a combination of loci which is related to a character of interest (trait).
Dans un mode de réalisation, au moins un locus d’intérêt est lié à un trait spécifique a priori non présent dans les graines du lot. Dans ce mode de réalisation, on recherche la présence fortuite de ce trait. On ajoute donc des marqueurs pour vérifier l’absence du trait. Dans ce mode de réalisation, la méthode est essentiellement qualitative. L’intégration de ces marqueurs dans le protocole revendiqué permet de faire dans une seule expérience des contrôles supplémentaires nécessaires par ailleurs.  In one embodiment, at least one locus of interest is linked to a specific trait a priori not present in the seeds of the batch. In this embodiment, we seek the fortuitous presence of this trait. We therefore add markers to verify the absence of the line. In this embodiment, the method is essentially qualitative. The integration of these markers in the claimed protocol makes it possible to carry out, in a single experiment, the additional controls necessary elsewhere.
D’une façon générale, on considère qu’un lot est non-conforme si la fréquence du (ou des) trait(s) non-désiré(s) est supérieure à 10% dans le lot de semences.  Generally, a lot is considered non-compliant if the frequency of the unwanted trait (s) is more than 10% in the seed lot.
Dans un mode de réalisation préféré, la quantité de graines dans chaque sous-lot préparé à l’étape a) est comprise entre 80 et 120.  In a preferred embodiment, the quantity of seeds in each sublot prepared in step a) is between 80 and 120.
La méthode décrite ici peut également être utilisée pour déterminer des caractères agronomiques intrinsèques des semences présentes dans le lot. Ainsi, on peut déterminer l’expression de gènes qui mèneront à des propriétés non- désirées des semences (par exemple des gènes marqueurs de dormance qui, si exprimés, sont un marqueur de la non-germination des semences). Afin de déterminer l’expression de ces gènes dans les semences du lot, on extrait l’ARN et effectue une transcription inverse. Ainsi, le procédé décrit ci-dessus peut également comprendre les étapes suivantes : The method described here can also be used to determine the intrinsic agronomic characteristics of the seeds present in the lot. Thus, one can determine the expression of genes that will lead to unwanted properties of seeds (for example dormancy marker genes which, if expressed, are a marker of seed non-germination). In order to determine the expression of these genes in the seeds of the batch, the RNA is extracted and reverse transcribed. Thus, the method described above can also include the following steps:
i) on effectue en outre une extraction d’ARN des graines du sous-lot, et une transcription inverse de cet ARN en ADNc avant l’étape b)  i) in addition, an RNA extraction is carried out from the seeds of the sublot, and a reverse transcription of this RNA into cDNA before step b)
ii) on effectue un séquençage de cet ADNc en utilisant des amorces spécifiques de gènes de dormance, en même temps que l’on effectue le séquençage de l’étape b)  ii) sequencing of this cDNA is carried out using primers specific for dormant genes, at the same time as the sequencing of step b)
iii) on détermine, pour chaque sous-lot, la présence de graines non- germinatives de façon qualitative, en cas de détection d’ADNc relatifs à des gènes de dormance lors de l’étape de séquençage ii) (présence / absence de l’ADNc) iv) on détermine la quantité de graines dormantes dans le lot global par la compilation des résultats qualitatifs obtenus pour l’ensemble des sous-lots en iii). iii) the presence of non-germinative seeds is qualitatively determined for each sub-lot, in the event of detection of cDNAs relating to dormant genes during the sequencing step ii) (presence / absence of l cDNA) iv) the quantity of dormant seeds in the overall lot is determined by the compilation of the qualitative results obtained for all of the sublots in iii).
Les étapes iii) et iv) sont effectuées de la même façon que décrit plus haut. Les semences du lot ne présentent généralement pas le caractère de dormance et, en choisissant le nombe de graines dans les sus-lots de manière adéquate, on peut utiliser l’information qualitative du iii) pour obtenir une information quantitative. Ainsi, si l’on sait qu’au plus 5% des graines présenteront le caractère de dormance (cas généralement observé dans les lots de semences commerciales, pour lesquels au moins 95% des graines germent de façon satisfaisante), on utilise des sous-lots contenant de l’ordre de 20 graines (entre 15 et 25 graines).  Steps iii) and iv) are carried out in the same way as described above. The seeds in the batch do not generally have the dormancy character and, by choosing the number of seeds in the over-batches adequately, the qualitative information in iii) can be used to obtain quantitative information. Thus, if it is known that at most 5% of the seeds will exhibit the dormancy character (case generally observed in commercial seed lots, for which at least 95% of the seeds germinate satisfactorily), sub- lots containing around 20 seeds (between 15 and 25 seeds).
Ce problème de dormance est particulièrement important pour les semences de tournesol, blé, riz.  This dormancy problem is particularly important for sunflower, wheat and rice seeds.
Les gènes marqueurs de dormance dont on évalue l’expression par séquençage d’ADNc obtenu à partir de l’ARN des semences sont préférentiellement choisis parmi les gènes connus dans l’art et dont certains sont décrits plus bas.  The dormancy marker genes whose expression is evaluated by sequencing of cDNA obtained from the seed RNA are preferably chosen from the genes known in the art and some of which are described below.
Dans un autre mode de réalisation, un trait peut correspondre à un niveau d’expression d’un gène marqueur. Par exemple, la qualité germinative d’un lot de semence est une caractéristique essentielle, et cette qualité peut évoluer au cours de la conservation des semences.  In another embodiment, a trait may correspond to an expression level of a marker gene. For example, the germination quality of a seed lot is an essential characteristic, and this quality can change during the conservation of seeds.
On qualifie d’état de dormance un état dans lequel une graine ne germe pas alors qu’elle est en condition de germination favorable (température et humidité). La dormance traduit une adaptation des espèces végétales aux conditions environnementales (faculté de se mettre dans un état latent en absence de condition favorable pour le développement de la plante). Ainsi le tournesol, le riz ou le sorgho présentent une dormance dont la levée s’accompagne d’une amélioration de la germination en température basse, tandis que dans le cas du blé, de l’orge ou de l’avoine, il s’agit d’une amélioration de la germination à des températures plus élevées (Baskin et Baskin, Seed Science Research (2004) 14, 1-16).  A state in which a seed does not germinate when it is in a favorable germination condition (temperature and humidity) is called a dormant state. Dormancy reflects an adaptation of plant species to environmental conditions (ability to put itself in a latent state in the absence of favorable conditions for the development of the plant). Thus the sunflower, rice or sorghum have a dormancy whose emergence is accompanied by an improvement in germination at low temperature, while in the case of wheat, barley or oats, it is acts to improve germination at higher temperatures (Baskin and Baskin, Seed Science Research (2004) 14, 1-16).
Cette propriété est particulièrement importante dans le cas des espèces cultivées, l’objectif étant de produire et de commercialiser des lots de semences en capacité de germer rapidement et de façon homogène après le semis. Il est donc important de pouvoir caractériser le niveau de dormance d’un lot de semences, et de telles analyses sont réalisées en routine dans les usines, au travers de tests de germination, ces tests utilisent notamment l’Ethrel qui a la faculté de lever la dormance. Toutefois, ces analyses sont longues et nécessitent une main d’œuvre importante, d’où l’intérêt de pouvoir les remplacer par des analyses moléculaires. This property is particularly important in the case of cultivated species, the objective being to produce and market batches of seeds capable of germinating quickly and evenly after sowing. It is therefore important to be able to characterize the dormancy level of a batch of seeds, and such analyzes are carried out routinely in factories, through germination tests, these tests use in particular Ethrel which has the ability to raise the dormancy. However, these analyzes are long and require a large workforce, hence the advantage of being able to replace them with molecular analyzes.
Des études réalisées chez différentes espèces ont permis d’identifier des gènes dont le niveau d’expression est corrélé à l’état de dormance ou non dormance des graines. Bassel et al. (PNAS June 7, 2011 108 (23) 9709-9714 ; T rends in Plant Science, June 2016, Vol. 21 , No. 6, 498-505) ont identifié des ensembles de gènes co-exprimés spécifiquement selon l’état de dormance ou de non dormance chez Arabidopsis thaliana. Par exemple, le gène DOG1 (Delay Of Germination 1 ) est impliqué dans le maintien de la dormance à basse température chez Arabidopsis, et le rôle de ce gène apparaît conservé entre espèces tel que dans la laitue (Huo et al., PNAS April 12, 2016 1 13 (15) E2199-E2206) ou le blé (Ashikawa et al., Transgenic Res (2014) 23: 621 ). Chez le tournesol, Layat et al. (New Phytologist (2014) 204: 864-872) ont analysé l’abondance des ARN associée à la fraction polysomale dans des embryons dormants ou non dormants, et ont identifé des gènes associés à l’état de dormance, tels que des HSP (HSP70, HSP101 ) ainsi que des gènes de réponse au stress ou impliqués dans les voies de signalisation de l’acide abscissique (ABA), hormone associée au maintien de la dormance. Inversement, d’autres gènes, tel que la tubuline alpha, sont spécifiquement exprimés dans des graines non dormantes (Layat et al., op. cit).  Studies carried out in different species have made it possible to identify genes whose level of expression is correlated with the dormant or non-dormant state of the seeds. Bassel et al. (PNAS June 7, 2011 108 (23) 9709-9714; T rends in Plant Science, June 2016, Vol. 21, No. 6, 498-505) have identified sets of genes co-expressed specifically according to the state of dormancy or non-dormancy in Arabidopsis thaliana. For example, the DOG1 (Delay Of Germination 1) gene is involved in maintaining dormancy at low temperatures in Arabidopsis, and the role of this gene appears to be conserved between species such as in lettuce (Huo et al., PNAS April 12 , 2016 1 13 (15) E2199-E2206) or wheat (Ashikawa et al., Transgenic Res (2014) 23: 621). In sunflowers, Layat et al. (New Phytologist (2014) 204: 864-872) analyzed the abundance of RNA associated with the polysomal fraction in dormant or non-dormant embryos, and identified genes associated with the dormant state, such as HSP ( HSP70, HSP101) as well as stress response genes or involved in the signaling pathways of abscissic acid (ABA), a hormone associated with maintaining dormancy. Conversely, other genes, such as tubulin alpha, are specifically expressed in non-dormant seeds (Layat et al., Op. Cit).
Ainsi, l’analyse de l’expression d’un gène spécifique de l’état dormant permet de caractériser la qualité germinative d’un lot de graines. L’objectif étant de qualifier des lots pour leur capacité germinative, l’analyse de l’expression d’un gène spécifique de l’état dormant permet de déterminer le pourcentage de graines dormantes dans un lot non dormant, par analyse semi-quantitative. Dans le cas d’un taux de dormance élevé, en particulier >1%, l’analyse conjointe d’un gène spécifique de l’état dormant et d’un gène spécifique de l’état non dormant permettrait, par le calcul des abondances relatives de ces deux gènes, d’exprimer un taux de dormance. De façon similaire, d’autres évaluations du statut physiologiques des graines pourront être effectuées et se substituer ainsi à des tests réalisés au laboratoire. On peut choisir le gène marqueur approprié en fonction du moment où est effectuée cette phase de test par séquençage. Ces tests pourront être réalisés, par exemple, peu de temps avant le conditionnement des graines en vue de leur commercialisation. Cette évaluation concernera notamment la qualité du priming, l’aptitude à la germination, la vigueur et la viabilité des graines. L’aptitude à la germination est décrite notamment dans la demande WO 2018/015495. La méthode décrite ci-dessus peut également être utilisée afin de déterminer la pureté spécifique du lot de semences, c’est-à-dire la présence ou non (et la quantification) de graines provenant d’une autre espèce que l’espèce des graines du lot de semences. Une telle analyse est actuellement effectuée systématiquement par des opérateurs, qui déterminent, visuellement, la présence ou non de graines d’espèces non désirées (ISTA (International Seed Testing Association) rules chapter 4). Thus, the analysis of the expression of a specific gene from the dormant state makes it possible to characterize the germinative quality of a batch of seeds. The objective being to qualify batches for their germinative capacity, the analysis of the expression of a specific gene of the dormant state makes it possible to determine the percentage of dormant seeds in a batch not dormant, by semi-quantitative analysis. In the case of a high dormancy rate, in particular> 1%, the joint analysis of a specific gene from the dormant state and a specific gene from the non-dormant state would make it possible, by calculating the abundances relative of these two genes, to express a dormancy rate. Similarly, other evaluations of the physiological status of the seeds may be carried out and thus replace laboratory tests. The appropriate marker gene can be chosen based on the timing of this sequencing test phase. These tests may be carried out, for example, shortly before the seeds are packaged for marketing. This evaluation will concern in particular the quality of the priming, the aptitude for germination, the vigor and the viability of the seeds. The aptitude for germination is described in particular in application WO 2018/015495. The method described above can also be used to determine the specific purity of the seed lot, i.e. the presence or not (and the quantification) of seeds from a species other than the species of seeds from the seed lot. Such an analysis is currently carried out systematically by operators, who visually determine the presence or not of seeds of unwanted species (ISTA (International Seed Testing Association) rules chapter 4).
On peut donc mettre en oeuvre un procédé tel que décrit ci-dessus, caractérisé en ce que  It is therefore possible to implement a method as described above, characterized in that
i) on effectue en outre un séquençage de l’ADN des sous-lots en utilisant des amorces spécifiques d’une ou plusieurs espèces différentes de celles des graines présentes dans le sous-lot, en même temps que l’on effectue le séquençage de l’étape b)  i) the DNA of the sublots is also sequenced using primers specific for one or more species different from those of the seeds present in the sublot, at the same time as the sequencing of step b)
ii) on détermine, pour chaque sous-lot, la présence de graines d’espèces différentes de façon qualitative, en cas de détection de gènes appartenant auxdites espèces (présence / absence des gènes spécifiques d’autres espèces)  ii) it is determined, for each sub-lot, the presence of seeds of different species qualitatively, in the event of detection of genes belonging to said species (presence / absence of genes specific for other species)
iii) on détermine la quantité de graines exogènes dans le lot global par la compilation des résultats qualitatifs obtenus pour l’ensemble des sous-lots en ii).  iii) the quantity of exogenous seeds in the overall lot is determined by the compilation of the qualitative results obtained for all of the sublots in ii).
Dans ce mode de réalisation, on recherche notamment la présence d’adventice en tant qu’espèce différente. En particulier, on recherche la présence de graines d’Aeginetia, Alectra, Orobanche et Striga. La présence de sclérotes sera également régulièrement recherchée. In this embodiment, we are looking in particular for the presence of weeds as a different species. In particular, we are looking for the presence of seeds of Aeginetia, Alectra, Orobanche and Striga. The presence of sclerotia will also be regularly checked.
Les étapes ii) et iii) sont effectuées de la même façon que décrit plus haut. Les semences du lot ne présentent généralement pas beaucoup de graines d’autres espèces et, en choisissant le nombre de graines dans les sus-lots de manière adéquate, on peut utiliser l’information qualitative du iii) pour obtenir une information quantitative. Ainsi, si l’on sait qu’au plus 1 % des graines présentes proviennent d’une autre espèce que l’espèce d’intérêt, (cas généralement observé dans les lots de semences commerciales, pour lesquels au moins 99% des graines sont de l’espèce d’intérêt), on utilise des sous-lots contenant de l’ordre de 100 graines (entre 80 et 120 graines). La méthode décrite ci-dessus peut également être utilisée pour détecter la présence d’agents pathogènes dans le lot de semence (contamination) (voir l’ISTA (International Seed Testing Association) rules chapter 7). Par exemple la quantité de graines de Tournesol contaminées par Botrytis tolérée pour la commercialisation d’un lot de semence de tournesol est de 5%. Steps ii) and iii) are carried out in the same manner as described above. Seeds in the lot generally do not have many seeds from other species and, by choosing the number of seeds in the over-lots adequately, the qualitative information in iii) can be used to obtain quantitative information. Thus, if we know that at most 1% of the seeds present come from a species other than the species of interest, (case generally observed in commercial seed lots, for which at least 99% of the seeds are of the species of interest), sublots containing about 100 seeds (between 80 and 120 seeds) are used. The method described above can also be used to detect the presence of pathogens in the seed lot (contamination) (see ISTA (International Seed Testing Association) rules chapter 7). For example, the quantity of Sunflower seeds contaminated with Botrytis tolerated for the marketing of a batch of sunflower seed is 5%.
On peut ainsi également mettre en oeuvre un procédé décrit ci-dessus, en effectuant en outre les étapes suivantes :  It is thus also possible to implement a method described above, by further carrying out the following steps:
i) on effectue un séquençage de l’ADN ou d’ADNc compris dans les sous-lots en utilisant des amorces spécifiques d’espèces pathogènes, en même temps que l’on effectue le séquençage de l’étape b)  i) sequencing the DNA or cDNA included in the sublots using primers specific for pathogenic species, at the same time as the sequencing of step b)
ii) on détermine, pour chaque sous-lot, la présence ou l’absence d’ADN des espèces pathogènes en cas de détection de séquences appartenant auxdites espèces pathogènes  ii) the presence or absence of DNA of the pathogenic species is determined for each sub-lot in the event of detection of sequences belonging to said pathogenic species
iii) on conclut quant à la contamination du lot en fonction de la présence de séquences appartenant auxdites espèces pathogènes.  iii) it is concluded as to the contamination of the batch as a function of the presence of sequences belonging to said pathogenic species.
On peut séquencer un gène de tout pathogène, tel qu’une bactérie, un champignon, un virus ou un insecte. Cette méthode est en particulier adaptée pour détecter la présence de Xanthomonas Campestris pv. campestris dans des graines de Brassica ISTA (rules 7-019a : Détection of Xanthomonas campestris pv. campestris in Brassica spp. Seed ) ou Berg (Plant Pathology(2005) 54, 416 -427). Un test PCR pour l’identification d’un pathogène sur graine existe pour l’identification du mildiou sur le tournesol (loos et al., Plant Pathology (2007) 56, 209- 218). Il présente l’avantage de détecter un pathogène sur graine alors que la présence de ce pathogène sur la graine ne provoque pas de symptôme surtout aux très faibles taux recherchés. Ce protocole indique de amorces, le fait de faire un séquençage et non une révélation sur gel permettra d’avoir une meilleure précision. L’identification de clavibacter michiganensis sur tomate peut également être réalisé (Hadas et al, Plant Pathology (2005) 54, 643-649).  You can sequence a gene from any pathogen, such as a bacteria, a fungus, a virus or an insect. This method is particularly suitable for detecting the presence of Xanthomonas Campestris pv. campestris in seeds of Brassica ISTA (rules 7-019a: Detection of Xanthomonas campestris pv. campestris in Brassica spp. Seed) or Berg (Plant Pathology (2005) 54, 416 -427). A PCR test for the identification of a pathogen on seed exists for the identification of downy mildew on sunflower (loos et al., Plant Pathology (2007) 56, 209-218). It has the advantage of detecting a pathogen on the seed while the presence of this pathogen on the seed does not cause any symptoms, especially at the very low levels sought. This protocol indicates primers, the fact of doing a sequencing and not a revelation on gel will allow better accuracy. Identification of clavibacter michiganensis on tomatoes can also be done (Hadas et al, Plant Pathology (2005) 54, 643-649).
Afin de mettre en oeuvre les procédés décrits plus haut, on peut effectuer les étapes suivantes, avant l’étape b) In order to implement the methods described above, the following steps can be carried out, before step b)
i) On extrait l’ADN de chaque sous-lot de graines  i) DNA is extracted from each seed sublot
ii) On extrait l’ARN de chaque sous-lot de graines et on effectue une transcription inverse de cet ARN en ADNc  ii) The RNA is extracted from each seed sublot and a reverse transcription of this RNA into cDNA is carried out.
iii) On mélange l’ADN extrait en i) et l’ADNc obtenu en ii) iv) Optionnellement, on effectue une amplification sur l’ADN obtenu en iii), spécifique de certains loci ou une amplification non-spécifique iii) The DNA extracted in i) and the cDNA obtained in ii) are mixed iv) Optionally, an amplification is carried out on the DNA obtained in iii), specific to certain loci or a non-specific amplification
v) On utilise l’ADN obtenu en iii) ou les produits d’amplification obtenus en iv) comme matrice pour effectuer l’étape de séquençage.  v) The DNA obtained in iii) or the amplification products obtained in iv) are used as a template for carrying out the sequencing step.
Dans un mode de réalisation, les étapes i) et ii) peuvent être faites simultanément, l’extraction des ADN et des ARN pouvant être réalisée notamment au moyen du kit total DNA, RNA and protein isolation NucleoSpin® TriPrep de Macherey-Nagel. In one embodiment, steps i) and ii) can be carried out simultaneously, the extraction of DNAs and RNAs being able to be carried out in particular by means of the total DNA, RNA and protein isolation kit NucleoSpin® TriPrep from Macherey-Nagel.
Ainsi, dans un mode de réalisation, préféré on effectue l’étape iv) en amplifiant des séquences spécifiques des gènes (notamment d’autres organismes) dont on souhaite vérifier l’absence ou la présence. On cherche ainsi à déterminer si ces autres organismes sont présents en quantité inférieure aux taux tolérés pour une commercialisation. On peut ainsi détecter la présence notamment de séquences virales. On peut aussi faire une amplification non spécifique de l’ensemble de l’ADN du génome.  Thus, in a preferred embodiment, step iv) is carried out by amplifying specific sequences of the genes (in particular other organisms) of which it is desired to verify the absence or the presence. We are therefore trying to determine if these other organisms are present in quantities lower than the tolerated rates for marketing. It is thus possible to detect the presence in particular of viral sequences. We can also make a non-specific amplification of the entire DNA of the genome.
Dans un autre mode de réalisation, on peut aussi effectuer l’étape iv) en amplifiant des séquences spécifiques permettant de déterminer certaines propriétés agronomiques des graines du sous-lot, au moins une propriété agronomique des graines étant notamment choisie parmi l’état de dormance, notamment la qualité du priming, l’aptitude à la germination, la vigueur et la viabilité des graines.  In another embodiment, step iv) can also be carried out by amplifying specific sequences making it possible to determine certain agronomic properties of the seeds of the sublot, at least one agronomic property of the seeds being notably chosen from the state of dormancy , in particular the quality of the priming, the aptitude for germination, the vigor and the viability of the seeds.
Dans un mode de réalisation, le procédé contient les étapes :  In one embodiment, the method contains the steps:
i) outre l’isolation de l’ADN, on effectue également une extraction d’ARN des graines du sous-lot, et une transcription inverse de cet ARN en ADNc avant l’étape b)  i) in addition to isolating the DNA, an RNA extraction is also carried out from the seeds of the sublot, and a reverse transcription of this RNA into cDNA before step b)
ii) on effectue un séquençage de cet ADNc en utilisant des amorces spécifiques de gènes liés à une propriété agronomique des graines, en même temps que l’on effectue le séquençage de l’étape b)  ii) sequencing of this cDNA is carried out using primers specific for genes linked to an agronomic property of the seeds, at the same time as the sequencing of step b) is carried out
iii) on détermine, pour chaque sous-lot, la présence de graines présentant la propriété agronomique de façon qualitative, en cas de détection d’ADNc relatifs aux gènes spécifiques de la propriété agronomique des graines lors de l’étape de séquençage ii) (présence / absence de l’ADNc)  iii) for each sublot, the presence of seeds having the agronomic property is determined qualitatively, in the event of detection of cDNAs relating to the genes specific to the agronomic property of the seeds during the sequencing step ii) ( presence / absence of cDNA)
iv) on détermine la quantité de graines présentant ce caractère agronomique dans le lot global par la compilation des résultats qualitatifs obtenus pour l’ensemble des sous-lots en iii). Généralement, la propriété agronomique des graines est choisie parmi l’état de dormance, notamment la qualité du priming, l’aptitude à la germination, la vigueur et la viabilité des graines. On peut également rechercher plusieurs propriétés agronomiques par séquençage de gènes adéquats. iv) the quantity of seeds exhibiting this agronomic character in the overall lot is determined by the compilation of the qualitative results obtained for all of the sublots in iii). Generally, the agronomic property of the seeds is chosen from the dormant state, in particular the quality of the priming, the aptitude for germination, the vigor and the viability of the seeds. Several agronomic properties can also be sought by sequencing suitable genes.
Le gène marqueur de l’état physiologique et de la propriété agronomique des graines est choisi parmi les gènes qui sont exprimés, dans les graines, en même temps que le caractère agronomique non désiré, (dormance, manque de vigueur...). Ainsi, on désire une absence d’expression de ce gène et on souhaite généralement que l’expression de ce gène ne soit pas présente dans plus de 10% des graines du lot de semences.  The gene which marks the physiological state and the agronomic property of the seeds is chosen from the genes which are expressed, in the seeds, at the same time as the undesired agronomic character (dormancy, lack of vigor, etc.). Thus, we want an absence of expression of this gene and we generally wish that the expression of this gene is not present in more than 10% of the seeds in the seed lot.
Dans un mode de réalisation préféré, et dans la mise en oeuvre de l’analyse de pureté variétale (les graines présentent-elles des contaminants (c’est-à-dire des allèles non désirés) à des loci d’intérêt), on peut identifier le(s) contaminant(s) présent(s) dans le lot de semence.  In a preferred embodiment, and in the implementation of varietal purity analysis (do the seeds present contaminants (i.e. unwanted alleles) at loci of interest), can identify the contaminant (s) present in the seed lot.
Pour chaque sous-échantillon, il est possible de définir un profil moléculaire correspondant à la compilation des données de chaque locus d’intérêt. Le profil de chaque sous-échantillon peut alors être comparé au profil moléculaire attendu, et un profil moléculaire contaminant peut être déduit par soustraction. Ainsi, un locus d’intérêt ne présentant pas d’allèle alternatif sera considéré identique au locus entre la variété attendue et le contaminant, tandis qu’un locus présentant un allèle alternatif sera défini comme potentiellement homozygote pour l’allèle alternatif, ou hétérozygote allèle attendu/allèle alternatif.  For each subsample, it is possible to define a molecular profile corresponding to the compilation of data from each locus of interest. The profile of each subsample can then be compared to the expected molecular profile, and a contaminating molecular profile can be deduced by subtraction. Thus, a locus of interest with no alternative allele will be considered identical to the locus between the expected variety and the contaminant, while a locus with an alternative allele will be defined as potentially homozygous for the alternative allele, or heterozygote allele expected / alternative allele.
Ces profils moléculaires contaminants peuvent alors être comparés à une base de données de référence afin d’identifier la nature du contaminant, et éventuellement le moment où il est entré dans le cycle de production.  These contaminant molecular profiles can then be compared to a reference database in order to identify the nature of the contaminant, and possibly when it entered the production cycle.
Ainsi, on envisage un procédé d’identification du contaminant, qui met en oeuvre la méthode telle que décrite ci-dessus, et qui comprend en outre les étapes consistant à Thus, a method of identifying the contaminant is envisaged, which implements the method as described above, and which further comprises the steps consisting in
i) définir le profil moléculaire du contaminant de chaque sous-lot contaminé par comparaison du profil observé dans ce sous-lot avec le profil attendu en l’absence de contaminant, et  i) define the molecular profile of the contaminant of each contaminated sublot by comparison of the profile observed in this sublot with the profile expected in the absence of contaminant, and
ii) comparer le profil obtenu en i) avec ceux d’une base de données de référence. Alternativement, on considère un procédé de détermination du degré de pureté, tel que défini ci-dessus, caractérisé en ce que l’on procède en outre à l’identification du contaminant pour chaque sous-lot contaminé en ii) compare the profile obtained in i) with those of a reference database. Alternatively, a method of determining the degree of purity is considered, as defined above, characterized in that the contaminant is further identified for each sublot contaminated in
i) déduisant le profil moléculaire du contaminant dans un sous-lot contaminé par comparaison du profil observé dans ce sous-lot avec le profil attendu en l’absence de contaminant et en  i) deducing the molecular profile of the contaminant in a contaminated sublot by comparison of the profile observed in this sublot with the profile expected in the absence of contaminant and in
ii) Comparant le profil obtenu en i) avec ceux d’une base de données de référence.  ii) Comparing the profile obtained in i) with those of a reference database.
On obtient donc un ou plusieurs profils de contaminants pour le lot de semences de départ, correspondant à la somme des contaminants de chaque sous-lot contaminé.  One or more contaminant profiles are therefore obtained for the starting seed lot, corresponding to the sum of the contaminants of each contaminated sublot.
Les méthodes décrites ci-dessus permettent donc de réaliser un contrôle qualité de lots de semences, sur plusieurs traits différents (pureté variétale, pureté spécifique, caractères agronomique contamination par des pathogènes), en une seule étape, et en quantifiant la présence de certains des traits ou contaminants non-désirés. Par ailleurs, ces méthodes permettent la détermination fine de la nature des contaminants présents, du fait de l’utilisation du séquençage qui donne des informations précises facilement utilisable, ainsi que la détermination de la présence de SNP (Single Nucléotide Polymorphism, polymorphisme portant sur un seul nucléotide) qui ne pourraient être détectés par d’autres méthodes (sondes, amplifications, puces à ADN). Ces méthodes apportent donc une forte précision quant à la caractérisation du lot de semences testées. Elles sont également rapides et aisées à mettre en oeuvre et permettent donc de gagner du temps et de réduire les coûts d’analyse des lots de semences. Ainsi, ces méthodes simplifient les analyses de pureté spécifique, aujourd’hui effectuées de façon fastidieuse par des opérateurs. Elles permettent également de tester rapidement et de révéler la présence d’un grand nombre de pathogènes (et également de caractériser leur génotype selon les gènes séquencés), ce qui est actuellement effectué par croissance potentielle des pathogènes. Le caractère agronomique du lot (et notamment tout ce qui est lié à la germination et la vigueur) peut être déterminé par la présence de l’expression de gènes défavorables, plutôt que par la mise en germination d’échantillons des semences, ce qui permet un gain de temps et de ressources. The methods described above therefore make it possible to carry out a quality control of seed lots, on several different traits (varietal purity, specific purity, agronomic characteristics contamination by pathogens), in a single step, and by quantifying the presence of some of the unwanted traits or contaminants. Furthermore, these methods allow the precise determination of the nature of the contaminants present, due to the use of sequencing which gives precise information which can be easily used, as well as the determination of the presence of SNP (Single Nucleotide Polymorphism, polymorphism relating to a single nucleotide) which could not be detected by other methods (probes, amplifications, DNA chips). These methods therefore provide high precision with regard to the characterization of the batch of seeds tested. They are also quick and easy to implement and therefore save time and reduce the costs of analyzing seed lots. Thus, these methods simplify the analyzes of specific purity, today carried out in a tedious way by operators. They also make it possible to quickly test and reveal the presence of a large number of pathogens (and also to characterize their genotype according to the genes sequenced), which is currently carried out by potential growth of the pathogens. The agronomic character of the lot (and in particular everything related to germination and vigor) can be determined by the presence of the expression of unfavorable genes, rather than by germination of seed samples, which allows saving time and resources.
Ainsi, les méthodes décrites permettent d’améliorer la précision du contrôle des lots de semences, en particulier lorsqu’elles sont combinées. Ces mêmes méthodes peuvent également être transposées et utilisées pour l’étude de la conformité de plantes commercialisées sous forme de plants, espèces à multiplication végétative , le matériel évalué sera alors constitué de prélèvement de tissus végétaux dont la quantité sera équivalente d’une plante à l’autre, ce tissu végétal pourra être entre autre un disque foliaire. Thus, the methods described make it possible to improve the precision of the control of seed batches, in particular when they are combined. These same methods can also be transposed and used for the study of the conformity of plants marketed in the form of plants, species with vegetative multiplication, the material evaluated will then consist of sampling plant tissues, the amount of which will be equivalent from one plant to the other, this plant tissue could be, among other things, a leaf disc.
DESCRIPTION DES FIGURES DESCRIPTION OF THE FIGURES
Figure 1 : résultat de l’analyse en Taqman pour un SNP, comprenant deux formes alléliques détectées respectivement par les fluorochromes FAM et VIC, dans des échantillons de maïs homozygotes (A, B) ou hétérozygote pour le SNP (C). A : échantillon homozygote pour la forme allélique détecté en FAM. B : échantillon homozygote pour la forme allélique détecté en VIC. C : échantillon hétérozygote pour les formes alléliques détectés en FAM et VIC.  Figure 1: result of the Taqman analysis for a SNP, comprising two allelic forms detected respectively by the FAM and VIC fluorochromes, in samples of maize homozygous (A, B) or heterozygous for SNP (C). A: homozygous sample for the allelic form detected in FAM. B: homozygous sample for the allelic form detected in VIC. C: heterozygous sample for the allelic forms detected in FAM and VIC.
Figure 2 : Fréquence relative, dans chaque sous-lot, de l’allèle alternatif pour le SNP10. Les sous-lots 3, 14 et 16 montrent une fréquence de l’allèle alternatif significative.  Figure 2: Relative frequency, in each sub-lot, of the alternative allele for SNP10. Sub-lots 3, 14 and 16 show a significant frequency of the alternative allele.
Figure 3 : Profil qualitatif (présence/absence d’un allèle contaminant) Profil de présence d’un allèle alternatif pour les 17 marqueurs (ligne) (16 marqueurs discriminants et un marqueur associé à un trait) au sein des 16 sous-lots (colonne). La présence d’un allèle alternatif est détectée pour au moins 3 SNP dans les sous- lots 3, 14 et 16. Ces sous-lots sont déclarés contaminés. Les 13 autres sous-lots sont déclarés non contaminés.  Figure 3: Qualitative profile (presence / absence of a contaminating allele) Profile of the presence of an alternative allele for the 17 markers (line) (16 discriminating markers and one marker associated with a trait) within the 16 sublots ( column). The presence of an alternative allele is detected for at least 3 SNPs in sub-lots 3, 14 and 16. These sub-lots are declared contaminated. The other 13 sublots are declared uncontaminated.
Figure 4 : profils moléculaires obtenus sur les 17 SNP (16 marqueurs discriminants et un marqueur associé à un trait) obtenus sur les 16 sous-lots analysés. Le profil de la première ligne correspond au profil majoritaire, les profils suivants aux profils contaminés observés pour les lots 3, 14 et 16 respectivement.  Figure 4: molecular profiles obtained on the 17 SNPs (16 discriminating markers and one marker associated with a trait) obtained on the 16 sublots analyzed. The profile of the first line corresponds to the majority profile, the following profiles to the contaminated profiles observed for lots 3, 14 and 16 respectively.
EXEMPLES EXAMPLES
Exemple 1 : Détection de contaminants par Taqman  Example 1: Detection of contaminants by Taqman
Cet exemple évalue la possibilité de détecter une graine contaminante dans un sous-lots de graines de maïs, par génotypage utilisant la technologie Taqman (Applied Biosystem).  This example evaluates the possibility of detecting a contaminating seed in a sub-batch of corn seeds, by genotyping using Taqman technology (Applied Biosystem).
La figure 1 montre le résultat de l’analyse en Taqman pour un SNP, comprenant deux formes alléliques détectées respectivement par les fluorochromes FAM et VIC, dans des échantillons de maïs homozygotes ou hétérozygote au SNP, et met en évidence la présence de signal avec la sonde FAM dans un échantillon homozygote pour l’allèle VIC (B), c’est-à-dire un signal non spécifique, ne permettant pas de distinguer un signal faux positif d’un signal lié à une contamination réelle dans un échantillon. FIG. 1 shows the result of the Taqman analysis for an SNP, comprising two allelic forms detected respectively by the fluorochromes FAM and VIC, in samples of corn homozygous or heterozygous at the SNP, and highlights the presence of signal with the FAM probe in a sample homozygous for the VIC allele (B), that is to say a non-specific signal, which does not allow a false positive signal to be distinguished from a signal linked to actual contamination in a sample.
Ces résultats montrent que la méthode Taqman ne permet pas de détecter des contaminants de façon fiable.  These results show that the Taqman method does not make it possible to detect contaminants reliably.
Exemple 2 : Détection de contaminants par génotypage sur puce Example 2: Detection of contaminants by genotyping on a chip
Dans cet exemple des lots de 200 graines issues d’une lignée A contenant 10%, 20%, 30%, 40%, et jusqu’à 90% de contaminants par une lignée B ont été élaborés et un échantillon de 15 graines issues de ce lot ont été analysées par génotypage sur une puce Infinium (Illumina), afin d’évaluer la faisabilité de l'identification d’une contamination. On arrive à détecter les contaminations supérieures à 10 %, mais les mélanges contenant 10% de contamination ne sont pas distinguables des témoins non contaminés. A fortiori, les contaminations moins importantes ne seront pas détectables. In this example, lots of 200 seeds from a line A containing 10%, 20%, 30%, 40%, and up to 90% of contaminants by a line B were produced and a sample of 15 seeds from this batch was analyzed by genotyping on an Infinium chip (Illumina), in order to assess the feasibility of identifying a contamination. We manage to detect contaminations greater than 10%, but mixtures containing 10% of contamination cannot be distinguished from uncontaminated controls. A fortiori, less significant contaminations will not be detectable.
Exemple 3 : mise en oeuyre de la méthode selon l’invention sur un set de marqueurs Example 3: implementation of the method according to the invention on a set of markers
Dans cet exemple, un set de 16 marqueurs discriminants (SNP) a été utilisé, permettant d’identifier sans ambiguïté la présence d’une variété autre que celle attendue. Ce set de 16 marqueurs a été défini à partir de données de génotypage de référence sur plusieurs milliers de marqueurs pour les variétés d’intérêt, et permet de différencier chacune d’elle par rapport aux autres grâce à au moins 3 marqueurs discriminants. Dans ce cas c’est le profil moléculaire global sur les 16 marqueurs qui détermine l’identité de chaque variété. Chaque marqueur est spécifique d’un locus d’intérêt.  In this example, a set of 16 discriminating markers (SNPs) was used, which unambiguously identify the presence of a variety other than that expected. This set of 16 markers has been defined from reference genotyping data on several thousand markers for the varieties of interest, and makes it possible to differentiate each one from the others thanks to at least 3 discriminating markers. In this case, it is the overall molecular profile of the 16 markers that determines the identity of each variety. Each marker is specific to a locus of interest.
Dans une expérience en condition de contamination contrôlée, 24 graines d’une lignée pure L1 ont été introduites dans un lot de 2376 graines d’une lignée pure L2, le lot ainsi obtenu a un taux de pureté de 99%, les graines ont été distribuées aléatoirement en vingt-quatre sous-lots de 100 grains (soit 2400 grains analysés) chaque lot de graines ainsi obtenu est broyé indépendamment et l’ADN est extrait des broyats. Ainsi, on a en moyenne 1 contaminant par lot : le nombre de sous-lots est en effet égal au nombre de contaminants présents dans le lot complet de semences. Du fait de la distribution statistique aléatoire, on sait toutefois que certains sous-lots ne contiendront pas de contaminants, et que d’autres sous-lots contiendront plusieurs contaminants, du fait de l’échantillonnage en formant les sous-lots In an experiment under controlled contamination conditions, 24 seeds of a pure L1 line were introduced into a batch of 2376 seeds of a pure L2 line, the batch thus obtained has a purity rate of 99%, the seeds were randomly distributed into twenty-four sub-lots of 100 grains (i.e. 2400 grains analyzed) each batch of seeds thus obtained is ground independently and the DNA is extracted from the ground materials. Thus, there is on average 1 contaminant per batch: the number of sublots is indeed equal to the number of contaminants present in the complete batch of seeds. Due to the random statistical distribution, we know, however, that some sub-lots will not contain contaminants, and that other sublots will contain several contaminants, due to sampling by forming the sublots
Pour chacun des 16 marqueurs, un amplicon de 70 à 120bp a été défini, et les 16 marqueurs co-amplifiés par PCR multiplex. Un index unique (TAG) est utilisé pour chaque échantillon d’ADN, permettant ainsi de faire un séquençage de l’ensemble des amplicons et d’attribuer les séquences obtenues à leur lot d’origine.  For each of the 16 markers, an amplicon of 70 to 120bp was defined, and the 16 markers co-amplified by multiplex PCR. A unique index (TAG) is used for each DNA sample, allowing sequencing of all the amplicons and assigning the sequences obtained to their original batch.
Les amplicons ont été séquencés par la technologie. Illumina sur un séquenceur Miniseq. Des séquences appariées de 75 bases ont été générées, attribuées aux ADN d’origine par une étape de démultiplexage. Après suppression des séquences des adaptateurs et des bases de mauvaise qualité (seuil Q30), chaque paire de séquences est rassemblée en une séquence unique, puis alignée sur le génome de référence du maïs (RefGenV4). Pour chaque SNP, les fréquences alléliques relatives de l’allèle majoritaire et de l'allèle alternatif ont été calculées, et correspondent au nombre de lectures contenant l'allèle d’intérêt par rapport à la somme des lectures de chaque allèle.  The amplicons have been sequenced by technology. Illumina on a Miniseq sequencer. Matched sequences of 75 bases were generated, assigned to the original DNAs by a demultiplexing step. After removal of the poor quality adapter and base sequences (threshold Q30), each pair of sequences is assembled into a single sequence, then aligned with the reference corn genome (RefGenV4). For each SNP, the relative allelic frequencies of the majority allele and the alternative allele were calculated, and correspond to the number of readings containing the allele of interest compared to the sum of the readings of each allele.
On considère qu’il y a contamination pour un marqueur SNP si, dans un sous-lot, la séquence d’une forme allélique, qui n’est pas celle de l'allèle attendu pour la variété testée, apparaît de façon supérieure au bruit de fond.  It is considered that there is contamination for an SNP marker if, in a sublot, the sequence of an allelic form, which is not that of the expected allele for the variety tested, appears to be greater than the noise background.
Un échantillon est déclaré contaminé dès lors qu’il contient au moins 3 SNP pour lesquels un allèle alternatif est détecté. Ainsi, on conclut que, parmi ces 24 sous-lots, 13 sont considérés comme contaminés et 11 comme purs.  A sample is declared contaminated when it contains at least 3 SNPs for which an alternative allele is detected. Thus, it is concluded that, among these 24 sublots, 13 are considered to be contaminated and 11 to be pure.
Le nombre de sous-lots contaminés permet d’estimer la pureté variétale du lot analysé, ce calcul est réalisé à l’aide du logiciel Seed Cale qui utilise les formules de Remund (2001 ). Dans cet exemple, la pureté estimée est de 99.22% (98.64%-99.6%), pour une pureté réelle contrôlée de 99%.  The number of contaminated sublots makes it possible to estimate the varietal purity of the analyzed batch, this calculation is carried out using the Seed Cale software which uses the formulas of Remund (2001). In this example, the estimated purity is 99.22% (98.64% -99.6%), for an actual controlled purity of 99%.
L’estimation de l’impureté P du lot est obtenue suivant la formule : The estimate of the impurity P of the batch is obtained according to the formula:
d JL  d JL
P = 1— ( 1 -)rn P = 1— (1 -) rn
 U ·
dans laquelle n est le nombre de pools ; m est le nombre de grains dans un pool ; d est le nombre de pools dans lesquels un contaminant a été identifié.  where n is the number of pools; m is the number of grains in a pool; d is the number of pools in which a contaminant has been identified.
Dans le cas ci-dessus : 1 -(1-13/24)° 01 = 1-0.9922 = 0.0078 soit une pureté de 99,22. L’intervalle de confiance est également calculé selon les procédés décrits dans Remund 2001. Exemple 4 : identification du contaminant In the above case: 1 - (1-13 / 24) ° 01 = 1-0.9922 = 0.0078 or a purity of 99.22. The confidence interval is also calculated according to the methods described in Remund 2001. Example 4: Identification of the contaminant
Dans cet exemple, des lots de semences de base de maïs ont été analysés selon la même approche que celle citée dans l’exemple 3. Pour un lot, 16 sous-lots de 100 graines ont été constitués.  In this example, lots of basic corn seeds were analyzed using the same approach as that cited in Example 3. For one lot, 16 sublots of 100 seeds were made.
Les graines de chaque sous-lot ont été broyées et l’ADN extrait. Un set de 17 marqueurs, dont 16 SNP discriminants (permettant d’identifier sans ambiguïté la présence d’une variété autre que celle attendue) et un marqueur associé à un trait, a été identifié. Pour chaque marqueur, un amplicon de 70-120bp a été défini, et les 17 marqueurs ont été co-amplifiés par PCR multiplex. Un index (Tag) unique est utilisé pour chaque échantillon d’ADN, permettant ainsi dé faire un séquençage de l’ensemble des amplicons et d’attribuer les séquences obtenues à leur lot d’origine.  The seeds of each sublot were crushed and the DNA extracted. A set of 17 markers, including 16 discriminating SNPs (allowing unambiguous identification of the presence of a variety other than that expected) and a marker associated with a trait, has been identified. For each marker, an amplicon of 70-120bp was defined, and the 17 markers were co-amplified by multiplex PCR. A unique index (Tag) is used for each DNA sample, allowing sequencing of all the amplicons and assigning the sequences obtained to their original batch.
Les amplicons ont été séquencés par la technologie Illumina sur un séquenceur Miniseq. Des séquences appariées de 75 bases ont été générées, attribuées aux ADN d’origine par une étape de démultiplexage. Après suppression des séquences des adaptateurs et des bases de mauvaise qualité (seuil Q30), chaque paire de séquences est rassemblée en une séquence unique, puis alignée sur le génome de référence du maïs (RefGenV4). Pour chaque SNP, les fréquences alléliques relatives de l’allèle majoritaire et de l’allèle alternatif ont été calculées, et correspondent au nombre de lectures contenant l’allèle d’intérêt par rapport à la somme des lectures de chaque allèle.  The amplicons were sequenced by Illumina technology on a Miniseq sequencer. Matched sequences of 75 bases were generated, assigned to the original DNAs by a demultiplexing step. After removal of the poor quality adapter and base sequences (threshold Q30), each pair of sequences is assembled into a single sequence, then aligned with the reference corn genome (RefGenV4). For each SNP, the relative allelic frequencies of the majority allele and the alternative allele were calculated, and correspond to the number of readings containing the allele of interest compared to the sum of the readings of each allele.
La figure 2 montre, pour un SNP (SNP10), la fréquence de l’allèle alternatif dans chacun des sous-lots (c’est-à-dire la fréquence d’apparition de la séquence de l’allèle alternatif). Dans cet exemple, les sous-lots 3, 14 et 16 montrent une présence significative de l’allèle alternatif (au-dessus du bruit de fond représenté par la ligne horizontale). Cette analyse est réalisée pour chaque SNP, et la figure 3 montre le profil qualitatif (présence/absence de l’allèle alternatif) obtenu pour chaque SNP dans chaque sous-lot. On confirme la présence d’un allèle alternatif pour au moins 3 SNP dans les sous-lots 3, 14 et 16. Ces 3 sous-lots sont déclarés contaminés. Les 13 autres sous-lots sont déclarés non contaminés. Le taux de pureté variétal estimé avec SeedCalc est de 99.79% (intervalle de confiance à 95% : 99.39% - 99.96%).  Figure 2 shows, for an SNP (SNP10), the frequency of the alternative allele in each of the sub-lots (i.e. the frequency of appearance of the sequence of the alternative allele). In this example, sublots 3, 14 and 16 show a significant presence of the alternative allele (above the background noise represented by the horizontal line). This analysis is performed for each SNP, and Figure 3 shows the qualitative profile (presence / absence of the alternative allele) obtained for each SNP in each sublot. Confirmation of the presence of an alternative allele for at least 3 SNPs in sub-lots 3, 14 and 16. These 3 sub-lots are declared contaminated. The other 13 sublots are declared uncontaminated. The varietal purity rate estimated with SeedCalc is 99.79% (95% confidence interval: 99.39% - 99.96%).
En parallèle, le même lot a été analysé sur 558 graines individuelles. Pour chaque graine, un fragment est prélevé en poinçonnant l’embryon à l’aide d’un emporte-pièce, puis l’ADN extrait et le génotypage réalisé avec la technologie KASP (LGC Genomics) sur 16 marqueurs discriminants. Cette analyse permet d’estimer une pureté de 99.46% (intervalle de confiance à 95% : 98.42% - 99.89%). In parallel, the same batch was analyzed on 558 individual seeds. For each seed, a fragment is taken by punching the embryo using a cookie cutter, then the extracted DNA and genotyping carried out with KASP technology (LGC Genomics) on 16 discriminating markers. This analysis allows to estimate a purity of 99.46% (95% confidence interval: 98.42% - 99.89%).
Le marqueur SNP17 a été analysé séparément et permet d’estimer la pureté du trait associé.  The SNP17 marker was analyzed separately and used to estimate the purity of the associated trait.
La figure 3 montre que les sous-lots 3 et 16 présentent une fréquence significative de l’allèle alternatif. Ces 2 sous-lots sont déclarés contaminés, conduisant à une estimation de la pureté de trait de 99.87% (intervalle de confiance à 95% : 99.52 - 99.98%). Figure 3 shows that sublots 3 and 16 have a significant frequency of the alternative allele. These 2 sublots are declared contaminated, leading to an estimate of the line purity of 99.87% (95% confidence interval: 99.52 - 99.98%).
Le profil moléculaire identifié sur les sous-lots non contaminés est dans un premier temps utilisé pour vérifier sa conformité par rapport au profil attendu pour la variété analysée (l’étape précédente permet de vérifier la pureté variétale du lot, cette étape permet de vérifier que la variété identifiée est bien celle attendue). Ensuite, sur les sous-lots 3, 14 et 16 montrant une contamination, un profil moléculaire contaminant est déduit du profil moléculaire observé, par soustraction du profil attendu. Pour chaque marqueur SNP montrant une contamination, les 2 allèles observés sont reportés (Figure 4). Le contaminant peut ainsi être homozygote pour l’allèle minoritaire, ou bien hétérozygote.  The molecular profile identified on the uncontaminated sublots is first used to check its compliance with the expected profile for the variety analyzed (the previous step allows you to check the varietal purity of the batch, this step allows you to check that the variety identified is the one expected). Then, on sub-lots 3, 14 and 16 showing contamination, a contaminating molecular profile is deduced from the observed molecular profile, by subtraction from the expected profile. For each SNP marker showing contamination, the 2 alleles observed are reported (Figure 4). The contaminant can thus be homozygous for the minority allele, or heterozygous.
Chaque profil moléculaire contaminant est ensuite comparé à une base de données de référence afin de l’identifier. Si ce génotype correspond à une accession connue, celle-ci est proposée comme contaminant potentiel, sinon le génotype contaminant est déclaré non identifiable. Each contaminating molecular profile is then compared to a reference database in order to identify it. If this genotype corresponds to a known accession, this is proposed as a potential contaminant, otherwise the contaminating genotype is declared unidentifiable.
Cette base de données de référence peut être affinée en fonction du plan de production notamment, cette base contiendra alors prioritairement l’ensemble des variétés cultivées dans le secteur de production de la lignée. Et dans ce contexte un contaminant qui ne figurera pas dans cette base de référence sera qualifié de contaminant lié au procédé post récolte.  This reference database can be refined according to the production plan in particular, this database will then contain, as a priority, all of the varieties grown in the line production sector. And in this context a contaminant which will not appear in this reference base will be qualified as a contaminant linked to the post-harvest process.
Exemple 5 : Mise en oeuyre de la méthode pour l’évaluation simultanée de la pureté variétale et la qualité germinative d’un lot de semences Example 5: Implementation of the method for the simultaneous evaluation of the varietal purity and the germinative quality of a batch of seeds
Dans cet exemple, 16 sous-lots de 100 graines sont constitués, de manière à évaluer le lot de semences sur un échantillonage de 1600 graines. A partir de chaque sous-lot, les ADN et les ARN sont co-extraits.  In this example, 16 sub-lots of 100 seeds are formed, so as to evaluate the seed lot on a sample of 1600 seeds. From each sublot, the DNAs and the RNAs are co-extracted.
Pour cela, chaque sous-lot est broyé mécaniquement en tube grâce à l’ajout de billes en inox, les tubes et le support de broyage étant préalablement refroidis dans l’azote liquide afin de préserver l’intégrité des acides nucléiques, en particulier des ARN. Une co-extraction des ADN et des ARN est réalisée au moyen du kit total DNA, RNA and protein isolation NucleoSpin® TriPrep de Macherey-Nagel. Dans une 1 ère étape, un tampon de lyse est ajouté aux broyats, permettant de détruire les structures cellulaires ainsi que d’inactiver simultanément les enzymes telles que les RNases. Les lysats sont ensuite déposés sur des colonnes contenant une membrane de silice à laquelle les molécules d’ADN et d’ARN sont fixées. Une première élution dans un tampon spécifique permet d’éluer les ADN tout en maintenant les ARN fixés sur la membrane de silice. Après un traitement à la DNAse dégradant les reliquats d’ADN, les ARN sont lavés puis élués dans de l’eau RNAse free. For this, each sublot is mechanically ground in a tube by the addition of stainless steel balls, the tubes and the grinding support being previously cooled in liquid nitrogen in order to preserve the integrity of the nucleic acids, in particular RNA. Co-extraction of DNA and RNA is carried out using the total DNA, RNA and protein isolation NucleoSpin® TriPrep kit from Macherey-Nagel. In a 1st step, a lysis buffer is added to the ground materials, making it possible to destroy the cellular structures as well as to inactivate enzymes such as RNases simultaneously. The lysates are then deposited on columns containing a silica membrane to which the DNA and RNA molecules are attached. A first elution in a specific buffer makes it possible to elute the DNAs while keeping the RNAs fixed on the silica membrane. After treatment with DNAse degrading the residual DNA, the RNAs are washed and then eluted in RNAse free water.
Pour chaque sous-lot, une transcription inverse est réalisée, amorcée avec des oligonucléotides oligo-dT permettant de synthétiser les ADN double brin complémentaires des ARN messagers présent dans chaque échantillon. Un mélange ADN est ensuite constitué pour chaque sous-lot, composé des ADN génomiques extraits et des ADNc synthétisés à partir de la fraction ARN.  For each sub-lot, a reverse transcription is carried out, initiated with oligo-dT oligonucleotides making it possible to synthesize the double-stranded DNA complementary to the messenger RNA present in each sample. A DNA mixture is then constituted for each sub-lot, composed of the genomic DNAs extracted and the cDNAs synthesized from the RNA fraction.
Une PCR multiplex est réalisée sur chaque échantillon d’ADN afin d’amplifier spécifiquement les cibles d’intérêt sous la forme d’amplicons de 70 à 120pb. Ces amplicons correspondent aux régions génomiques d’intérêt pour la détermination du profil moléculaire d’identification variétale d’une part (set de SNP discriminants), et au gène DOG1 marqueur de l’état de dormance des graines d’autre part. Un index unique (TAG) est utilisé pour chaque échantillon d’ADN, permettant ainsi de réaliser un séquençage de l’ensemble des amplicons et d’attribuer les séquences obtenues à leur sous-lot d’origine. Les amplicons sont séquencés par la technologie Illumina, générant des séquences appariées de 75 bases chacune. Ces séquences sont alors attribuées aux ADN d’origine par une étape de démultiplexage, puis subissent différents traitements consistant en la suppression des séquences des adaptateurs et des bases de mauvaise qualité (seuil Q30). Chaque paire de séquences est finalement rassemblée en une séquence unique, puis alignée sur la séquence du génome de référence.  A multiplex PCR is carried out on each DNA sample in order to specifically amplify the targets of interest in the form of amplicons from 70 to 120 bp. These amplicons correspond to the genomic regions of interest for determining the molecular profile of varietal identification on the one hand (set of discriminating SNPs), and to the DOG1 gene marker of the dormant state of the seeds on the other hand. A unique index (TAG) is used for each DNA sample, thus making it possible to carry out a sequencing of all the amplicons and to attribute the sequences obtained to their original sublot. The amplicons are sequenced by Illumina technology, generating paired sequences of 75 bases each. These sequences are then assigned to the original DNAs by a demultiplexing step, then undergo different treatments consisting in the removal of the sequences of poor quality adapters and bases (threshold Q30). Each pair of sequences is finally assembled into a single sequence, then aligned with the sequence of the reference genome.
Pour chaque SNP, les fréquences alléliques relatives de l’allèle majoritaire et de l’allèle alternatif ont été calculées, et correspondent au nombre de lectures contenant l’allèle d’intérêt par rapport à la somme des lectures de chaque allèle. On considère qu’il y a contamination pour un marqueur SNP si, dans un sous-lot, la séquence d’une forme allélique, qui n’est pas celle de l’allèle attendu pour la variété testée, apparaît de façon supérieure au bruit de fond. Un échantillon est déclaré contaminé dès lors qu’il contient au moins 3 SNP pour lesquels un allèle alternatif est détecté. Le nombre de sous-lots contaminés permet d’estimer la pureté variétale du lot analysé. Ce calcul est réalisé à l’aide du logiciel Seed Cale qui utilise les formules de Remund (2001 ). For each SNP, the relative allelic frequencies of the majority allele and the alternative allele were calculated, and correspond to the number of readings containing the allele of interest compared to the sum of the readings of each allele. It is considered that there is contamination for an SNP marker if, in a sublot, the sequence of an allelic form, which is not that of the expected allele for the variety tested, appears to be greater than the noise background. A sample is declared contaminated when it contains at least 3 SNPs for which an allele alternative is detected. The number of contaminated sublots makes it possible to estimate the varietal purity of the batch analyzed. This calculation is carried out using the Seed Cale software which uses the formulas of Remund (2001).
S’agissant du gène DOG1 , un sous-lot est considéré comme contenant une graine dormante si des séquences spécifiques du transcrit de ce gène sont détectés en quantité significativement différentes du bruit de fond, l’expression de ce gène étant négligeable dans des graines non dormantes. Ce seuil de significativité est préalablement déterminé à l’aide d’une gamme étalon. Le taux de dormance est ensuite estimé en comptabilisant le nombre de sous-lots pour lesquels une expression du gène DOG1 est détectée, en utilisant le mode de calcul utilisé précédemment.  With regard to the DOG1 gene, a sublot is considered to contain a dormant seed if specific sequences of the transcript of this gene are detected in quantities significantly different from the background noise, the expression of this gene being negligible in seeds not dormant. This significance threshold is determined beforehand using a standard range. The dormancy rate is then estimated by counting the number of sublots for which expression of the DOG1 gene is detected, using the calculation method used previously.

Claims

Revendications claims
1. Procédé de détermination de la quantité de contaminants à au moins un locus d’intérêt, présents dans un lot de semences d’une variété d’intérêt, caractérisé en ce 1. Method for determining the quantity of contaminants at at least one locus of interest, present in a seed lot of a variety of interest, characterized in that
a) on regroupe des graines d’un lot de semences par sous-lots d’au moins 10 graines, le nombre sous-lots ainsi obtenus étant supérieur ou égal à 10 b) on effectue, pour chaque sous-lot, un séquençage ciblé d’au moins la région du génome des graines, contenant le locus d’intérêt,  a) the seeds of a seed lot are grouped by sub-lots of at least 10 seeds, the number of sub-lots thus obtained being greater than or equal to 10 b) a targeted sequencing is carried out for each sub-lot at least the region of the seed genome, containing the locus of interest,
c) on détermine, pour chaque sous-lot, la présence d’un contaminant de façon qualitative, en cas de détection d’un allèle alternatif à ou aux l’allèle(s) attendus pour chaque région génomique séquencée (présence / absence de / des l’allèle(s) attendus)  c) the presence of a contaminant is qualitatively determined for each sub-lot, in the event of detection of an alternative allele to the expected allele (s) for each sequenced genomic region (presence / absence of / expected allele (s))
d) on détermine la quantité de contaminants dans le lot global par la compilation des résultats qualitatifs obtenus pour l’ensemble des sous-lots.  d) the quantity of contaminants in the overall batch is determined by the compilation of the qualitative results obtained for all of the sublots.
2. Procédé selon la revendication 1 , caractérisé en ce que le séquençage de l’étape b) est effectué sur l’ADN extrait des semences présentes dans un sous-lot, la région du génome des graines contenant le locus d’intérêt étant optionnellement amplifiée. 2. Method according to claim 1, characterized in that the sequencing of step b) is carried out on the DNA extracted from the seeds present in a sublot, the region of the genome of the seeds containing the locus of interest being optionally amplified.
3. Procédé selon la revendication 1 ou 2, caractérisé en ce que l’on effectue, les étapes b), c) et d) pour plusieurs régions du génome correspondant à plusieurs loci d’intérêt. 3. Method according to claim 1 or 2, characterized in that steps b), c) and d) are carried out for several regions of the genome corresponding to several loci of interest.
4. Procédé selon la revendication 3, caractérisé en ce qu’un sous ensemble de ces loci d’intérêt est suffisant pour permettre d’identifier la variété d’intérêt. 4. Method according to claim 3, characterized in that a subset of these loci of interest is sufficient to identify the variety of interest.
5. Procédé selon la revendication 4, caractérisé en ce que l’on déclare un lot comme contenant un contaminant si l’on observe un allèle alternatif à ou aux allèle(s) attendus pour un seul locus d’intérêt. 5. Method according to claim 4, characterized in that a batch is declared as containing a contaminant if one observes an alternative allele or allele (s) expected for a single locus of interest.
6. Procédé selon la revendication 4, caractérisé en ce que l’on déclare un lot comme contenant un contaminant si l’on observe un allèle alternatif à ou aux allèle(s) attendus pour plus d’un locus d’intérêt. 6. Method according to claim 4, characterized in that a batch is declared as containing a contaminant if one observes an alternative allele to or to the allele (s) expected for more than one locus of interest.
7. Procédé selon l’une des revendications 1 à 6, caractérisé en ce qu’au moins un locus d’intérêt est lié à un caractère d’intérêt (trait). 7. Method according to one of claims 1 to 6, characterized in that at least one locus of interest is linked to a character of interest (trait).
8. Procédé selon la revendication 3, caractérisé en ce qu’une combinaison de loci est liée à des caractères d’intérêt (trait). 8. Method according to claim 3, characterized in that a combination of loci is linked to characters of interest (line).
9. Procédé selon la revendication 3, caractérisé en ce qu’une combinaison de loci est liée à un caractère d’intérêt (trait). 9. Method according to claim 3, characterized in that a combination of loci is linked to a character of interest (trait).
10. Procédé selon l’une des revendications 1 à 9, caractérisé en que au moins un locus d’intérêt est lié à un trait spécifique a priori non présent dans les graines du lot, afin de détecter la présence fortuite de ce trait. 10. Method according to one of claims 1 to 9, characterized in that at least one locus of interest is linked to a specific trait a priori not present in the seeds of the batch, in order to detect the fortuitous presence of this trait.
1 1. Procédé selon la revendication 10, caractérisé en ce que l’on considère que le lot est non-conforme si la fréquence du trait est supérieure à 10% dans le lot de semences. 1 1. Process according to claim 10, characterized in that the batch is considered to be non-compliant if the line frequency is greater than 10% in the seed batch.
12. Procédé selon l’une des revendications 1 à 1 1 , caractérisé en ce que 12. Method according to one of claims 1 to 1 1, characterized in that
i) on effectue en outre une extraction d’ARN des graines du sous-lot, et une transcription inverse de cet ARN en ADNc avant l’étape b) ii) on effectue un séquençage de cet ADNc en utilisant des amorces spécifiques de gènes liés à une propriété agronomique des graines, en même temps que l’on effectue le séquençage de l’étape b) iii) on détermine, pour chaque sous-lot, la présence de graines présentant la propriété agronomique de façon qualitative, en cas de détection d’ADNc relatifs aux gènes spécifiques de la propriété agronomique des graines lors de l’étape de séquençage ii) (présence / absence de l’ADNc)  i) an extraction of RNA is also carried out from the seeds of the sublot, and a reverse transcription of this RNA into cDNA before step b) ii) a sequencing of this cDNA is carried out using primers specific for linked genes to an agronomic property of the seeds, at the same time as the sequencing of step b) is carried out iii) it is determined, for each sub-lot, the presence of seeds having the agronomic property qualitatively, in the event of detection of cDNAs relating to genes specific for the agronomic property of the seeds during the sequencing step ii) (presence / absence of the cDNA)
iv) on détermine la quantité de graines présentant ce caractère agronomique dans le lot global par la compilation des résultats qualitatifs obtenus pour l’ensemble des sous-lots en iii).  iv) the quantity of seeds with this agronomic character in the overall lot is determined by the compilation of the qualitative results obtained for all of the sublots in iii).
13. Procédé selon la revendication 12, caractérisé en ce que la propriété agronomique des graines est choisie parmi l’état de dormance, la qualité du priming, l’aptitude à la germination, la vigueur et la viabilité des graines. 13. Method according to claim 12, characterized in that the agronomic property of the seeds is chosen from the state of dormancy, the quality of priming, the aptitude for germination, the vigor and the viability of the seeds.
14. Procédé selon l’une des revendications 1 à 13, caractérisé en ce que i) on effectue un séquençage de l’ADN des sous-lots en utilisant des amorces spécifiques d’une ou plusieurs espèces différentes de celles des graines présentes dans le sous-lot, en même temps que l’on effectue le séquençage de l’étape b) 14. Method according to one of claims 1 to 13, characterized in that i) a DNA sequencing of the sublots is carried out using primers specific for one or more species different from those of the seeds present in the sublot, at the same time as the sequencing of step b) is carried out
ii) on détermine, pour chaque sous-lot, la présence de graines d’espèces différentes de façon qualitative, en cas de détection de gènes appartenant auxdites espèces (présence / absence des gènes spécifiques d’autres espèces)  ii) it is determined, for each sub-lot, the presence of seeds of different species qualitatively, in the event of detection of genes belonging to said species (presence / absence of genes specific for other species)
iii) on détermine la quantité de graines exogènes dans le lot global par la compilation des résultats qualitatifs obtenus pour l’ensemble des sous-lots en ii).  iii) the quantity of exogenous seeds in the overall lot is determined by the compilation of the qualitative results obtained for all of the sublots in ii).
15. Procédé selon la revendication 14, caractérisé en ce qu’au moins une 'espèce différente est une adventice. 15. Method according to claim 14, characterized in that at least one 'different species is a weed.
16. Procédé selon l’une des revendications 1 à 15, caractérisé en ce que 16. Method according to one of claims 1 to 15, characterized in that
i) on effectue un séquençage de l’ADN ou d’ADNc compris dans les sous-lots en utilisant des amorces spécifiques d’espèces pathogènes, en même temps que l’on effectue le séquençage de l’étape b)  i) sequencing the DNA or cDNA included in the sublots using primers specific for pathogenic species, at the same time as the sequencing of step b)
ii) on détermine, pour chaque sous-lot, la présence ou l’absence d’ADN des espèces pathogènes en cas de détection de séquences appartenant auxdites espèces pathogènes  ii) the presence or absence of DNA of the pathogenic species is determined for each sub-lot in the event of detection of sequences belonging to said pathogenic species
iii) on conclut quant à la contamination du lot en fonction de la présence de séquences appartenant auxdites espèces pathogènes.  iii) it is concluded as to the contamination of the batch as a function of the presence of sequences belonging to said pathogenic species.
17. Procédé selon la revendication 16, caractérisé en ce que l’espèce pathogène est une bactérie, un champignon, un virus ou un insecte. 17. Method according to claim 16, characterized in that the pathogenic species is a bacterium, a fungus, a virus or an insect.
18. Procédé selon l’une des revendications 1 à 17, caractérisé en ce que, avant l’étape b) 18. Method according to one of claims 1 to 17, characterized in that, before step b)
i) On extrait l’ADN de chaque sous-lot de graines  i) DNA is extracted from each seed sublot
ii) On extrait l’ARN de chaque sous-lot de graines et on effectue une transcription inverse de cet ARN en ADNc  ii) The RNA is extracted from each seed sublot and a reverse transcription of this RNA into cDNA is carried out.
iii) On mélange l’ADN extrait en i) et l’ADNc obtenu en ii) iv) Optionnellement, on effectue une amplification sur l’ADN obtenu en iii), spécifique de certains loci ou non-spécifique iii) The DNA extracted in i) and the cDNA obtained in ii) are mixed iv) Optionally, an amplification is carried out on the DNA obtained in iii), specific for certain loci or non-specific
v) On utilise l’ADN obtenu en iii) ou les produits d’amplification obtenus en iv) comme matrice pour effectuer l’étape de séquençage.  v) The DNA obtained in iii) or the amplification products obtained in iv) are used as a template for carrying out the sequencing step.
19. Procédé selon la revendication 18, caractérisé en ce que l’on effectue l’étape iv) en amplifiant des séquences spécifiques d’autres organismes dont on souhaite vérifier l’absence ou la présence. 19. The method of claim 18, characterized in that step iv) is carried out by amplifying specific sequences of other organisms whose absence or presence is to be verified.
20. Procédé selon la revendication 18 ou 19, caractérisé en ce que l’on effectue l’étape iv) en amplifiant des séquences spécifiques permettant de déterminer certaines propriétés agronomiques des graines du sous-lot. 20. The method of claim 18 or 19, characterized in that step iv) is carried out by amplifying specific sequences making it possible to determine certain agronomic properties of the seeds of the sublot.
21. Procédé selon la revendication 20, caractérisé en ce qu’au moins une propriété agronomique des graines est choisie parmi l’état de dormance, la qualité du priming, l’aptitude à la germination, la vigueur et la viabilité des graines. 21. Method according to claim 20, characterized in that at least one agronomic property of the seeds is chosen from the dormant state, the quality of the priming, the aptitude for germination, the vigor and the viability of the seeds.
22. Procédé selon l’une des revendications 1 à 21 , caractérisé en ce que la quantité de graines dans chaque sous-lot préparé à l’étape a) est comprise entre 80 et 120. 22. Method according to one of claims 1 to 21, characterized in that the quantity of seeds in each sublot prepared in step a) is between 80 and 120.
23. Procédé selon l’une des revendications 1 à 22, caractérisé en ce que la quantité de graines dans chaque sous-lot préparé à l’étape a) est comprise entre 15 et 25. 23. Method according to one of claims 1 to 22, characterized in that the quantity of seeds in each sublot prepared in step a) is between 15 and 25.
24. Procédé selon l’une des revendications 1 à 23, caractérisé en ce que l’on procède en outre à l’identification du contaminant pour chaque sous-lot contaminé en 24. Method according to one of claims 1 to 23, characterized in that the contaminant is further identified for each sublot contaminated with
i) déduisant le profil moléculaire du contaminant dans un sous-lot contaminé par comparaison du profil observé dans ce sous-lot avec le profil attendu en l’absence de contaminant et en  i) deducing the molecular profile of the contaminant in a contaminated sublot by comparison of the profile observed in this sublot with the profile expected in the absence of contaminant and in
ii) Comparant le profil obtenu en i) avec ceux d’une base de données de référence.  ii) Comparing the profile obtained in i) with those of a reference database.
EP19749675.5A 2018-07-30 2019-07-29 Method for the quality control of seed lots Pending EP3830287A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1857115A FR3084374B1 (en) 2018-07-30 2018-07-30 PROCESS FOR QUALITY CONTROL OF SEED LOTS
PCT/EP2019/070386 WO2020025554A1 (en) 2018-07-30 2019-07-29 Method for the quality control of seed lots

Publications (1)

Publication Number Publication Date
EP3830287A1 true EP3830287A1 (en) 2021-06-09

Family

ID=63722623

Family Applications (1)

Application Number Title Priority Date Filing Date
EP19749675.5A Pending EP3830287A1 (en) 2018-07-30 2019-07-29 Method for the quality control of seed lots

Country Status (7)

Country Link
US (1) US20210317539A1 (en)
EP (1) EP3830287A1 (en)
JP (1) JP2021532834A (en)
AU (1) AU2019312799A1 (en)
CA (1) CA3107562A1 (en)
FR (1) FR3084374B1 (en)
WO (1) WO2020025554A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3212294A1 (en) * 2021-03-02 2022-09-09 Indiana Crop Improvement Association Genetic purity estimate method by sequencing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2417476A1 (en) * 2002-01-29 2003-07-29 Third Wave Technologies, Inc. Systems and methods for analysis of agricultural products
US20040241662A1 (en) * 2003-05-30 2004-12-02 Robey W. Wade Detecting microbial contamination in grain and related products
NL1034267C2 (en) * 2007-08-17 2009-02-18 Stichting Tech Wetenschapp Method for measuring seed quality.
US8716550B2 (en) 2007-09-24 2014-05-06 Keygene N.V. Method for the selection of plants with specific mutations
US10172305B2 (en) * 2011-04-29 2019-01-08 Monsanto Technology Llc Diagnostic molecular markers for seed lot purity traits in soybeans
US20160047003A1 (en) 2013-03-08 2016-02-18 Vineland Research And Innovation Centre High throughput method of screening a population for members comprising mutation(s) in a target sequence
FR3016698B1 (en) * 2014-01-21 2020-10-30 Limagrain Europe SEED TISSUE SAMPLING PROCESS
AU2016220556B2 (en) * 2015-02-19 2017-09-21 Yeditepe Universitesi Coating formulation for seed and surface sterilization
WO2018015495A1 (en) 2016-07-20 2018-01-25 Vilmorin & Cie Method for predicting the germination ability of maize seed using nuclear magnetic resonance

Also Published As

Publication number Publication date
CA3107562A1 (en) 2020-02-06
FR3084374B1 (en) 2024-04-26
WO2020025554A1 (en) 2020-02-06
AU2019312799A1 (en) 2021-02-25
FR3084374A1 (en) 2020-01-31
US20210317539A1 (en) 2021-10-14
JP2021532834A (en) 2021-12-02

Similar Documents

Publication Publication Date Title
US10544471B2 (en) Methods for sequence-directed molecular breeding
Wright et al. Molecular population genetics and the search for adaptive evolution in plants
Eichten et al. Minimal evidence for consistent changes in maize DNA methylation patterns following environmental stress
Takasaki et al. Water pre-filtration methods to improve environmental DNA detection by real-time PCR and metabarcoding
Ho et al. Genetic characterization of mango accessions through RAPD and ISSR markers in Vietnam.
Strable et al. Microarray analysis of vegetative phase change in maize
Norton et al. A bioinformatic and transcriptomic approach to identifying positional candidate genes without fine mapping: an example using rice root-growth QTLs
EP3830287A1 (en) Method for the quality control of seed lots
Yang et al. Linkage analysis and residual heterozygotes derived near isogenic lines reveals a novel protein quantitative trait loci from a Glycine soja accession
Taliercio et al. Changes in gene expression between a soybean F1 hybrid and its parents are associated with agronomically valuable traits
TW201606084A (en) Method of predicting or determining plant phenotypes
Romay Rapid, affordable, and scalable genotyping for germplasm exploration in maize
Rubio-Piña et al. A quantitative PCR approach for determining the ribosomal DNA copy number in the genome of Agave tequila Weber
Baggett et al. De novo identification and targeted sequencing of SSRs efficiently fingerprints Sorghum bicolor sub-population identity
US20110010102A1 (en) Methods and Systems for Sequence-Directed Molecular Breeding
CA3152086A1 (en) Methods for preparing mutant plants
Usovsky et al. Loss-of-function of an α-SNAP gene confers resistance to soybean cyst nematode
Kitamura et al. Development of a simple multiple mutation detection system using seed-coat flavonoid pigments in irradiated Arabidopsis M1 plants
Mursyidin Genetic diversity and phylogenetic position of traditional rice (Oryza sativa L.) landraces: A case study of South Kalimantan in Indonesia
Priyadarshan et al. Molecular Breeding
CN114507750B (en) Primer group, kit and detection method for detecting corn transgenic line
Ghose et al. Assessment of somaclonal variation among sugarcane varieties for salt tolerance through RAPD markers.
Haas et al. RNA-seq reveals few differences in resistant and susceptible responses of barley to infection by the spot blotch pathogen Bipolaris sorokiniana
Sengar Molecular mapping techniques
Stamati et al. A quantitative genomic imbalance gene expression assay in a hexaploid species: wheat (Triticum aestivum)

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20210121

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20240306