FR3084374A1 - Procede de controle qualite de lots de semences - Google Patents
Procede de controle qualite de lots de semences Download PDFInfo
- Publication number
- FR3084374A1 FR3084374A1 FR1857115A FR1857115A FR3084374A1 FR 3084374 A1 FR3084374 A1 FR 3084374A1 FR 1857115 A FR1857115 A FR 1857115A FR 1857115 A FR1857115 A FR 1857115A FR 3084374 A1 FR3084374 A1 FR 3084374A1
- Authority
- FR
- France
- Prior art keywords
- interest
- seeds
- contaminant
- allele
- locus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000003908 quality control method Methods 0.000 title abstract description 8
- 238000012163 sequencing technique Methods 0.000 claims abstract description 29
- 239000000356 contaminant Substances 0.000 claims description 69
- 108700028369 Alleles Proteins 0.000 claims description 65
- 239000012297 crystallization seed Substances 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 abstract description 14
- 108091093088 Amplicon Proteins 0.000 abstract description 11
- 239000000523 sample Substances 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 20
- 238000011109 contamination Methods 0.000 description 19
- 108020004414 DNA Proteins 0.000 description 18
- 235000003869 genetically modified organism Nutrition 0.000 description 15
- 238000004519 manufacturing process Methods 0.000 description 15
- 230000035772 mutation Effects 0.000 description 15
- 241000196324 Embryophyta Species 0.000 description 14
- 235000013339 cereals Nutrition 0.000 description 10
- 238000013459 approach Methods 0.000 description 9
- 230000002068 genetic effect Effects 0.000 description 9
- 238000003205 genotyping method Methods 0.000 description 9
- 238000003780 insertion Methods 0.000 description 9
- 230000037431 insertion Effects 0.000 description 9
- 240000008042 Zea mays Species 0.000 description 8
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 8
- 239000012634 fragment Substances 0.000 description 8
- 239000003550 marker Substances 0.000 description 8
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 7
- 235000005822 corn Nutrition 0.000 description 7
- 230000003321 amplification Effects 0.000 description 6
- 238000010362 genome editing Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 241000894007 species Species 0.000 description 6
- 239000011324 bead Substances 0.000 description 5
- 239000012535 impurity Substances 0.000 description 5
- 238000007481 next generation sequencing Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 102000053602 DNA Human genes 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000000839 emulsion Substances 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 240000002791 Brassica napus Species 0.000 description 2
- 235000004977 Brassica sinapistrum Nutrition 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 2
- 108700019146 Transgenes Proteins 0.000 description 2
- 238000009395 breeding Methods 0.000 description 2
- 230000001488 breeding effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000035558 fertility Effects 0.000 description 2
- 235000013312 flour Nutrition 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000007403 mPCR Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 238000003753 real-time PCR Methods 0.000 description 2
- 238000005204 segregation Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012225 targeting induced local lesions in genomes Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- TWQHGBJNKVFWIU-UHFFFAOYSA-N 8-[4-(4-quinolin-2-ylpiperazin-1-yl)butyl]-8-azaspiro[4.5]decane-7,9-dione Chemical compound C1C(=O)N(CCCCN2CCN(CC2)C=2N=C3C=CC=CC3=CC=2)C(=O)CC21CCCC2 TWQHGBJNKVFWIU-UHFFFAOYSA-N 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 244000020551 Helianthus annuus Species 0.000 description 1
- 235000003222 Helianthus annuus Nutrition 0.000 description 1
- 229920006068 Minlon® Polymers 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 244000088415 Raphanus sativus Species 0.000 description 1
- 235000006140 Raphanus sativus var sativus Nutrition 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000004790 biotic stress Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000012787 harvest procedure Methods 0.000 description 1
- 230000002363 herbicidal effect Effects 0.000 description 1
- 239000004009 herbicide Substances 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 235000009973 maize Nutrition 0.000 description 1
- 210000001161 mammalian embryo Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007790 solid phase Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 239000002569 water oil cream Substances 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/6895—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/142—Toxicological screening, e.g. expression profiles which identify toxicity
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Immunology (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Genetics & Genomics (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Botany (AREA)
- Mycology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Pretreatment Of Seeds And Plants (AREA)
Abstract
L'invention se rapporte à un procédé de contrôle de qualité de pureté variétale sur de lots de semences par analyse de sous-lots de graines, le contrôle étant réalisé par séquençage d'amplicons.
Description
L’invention concerne un procédé de contrôle-qualité dans le domaine des semences et de la pureté variétale.
La commercialisation de semences est soumise au contrôle du taux de pureté de celles-ci. Ce taux est propre à chaque espèce mais doit être de 98% du poids ou plus (directive 66/402/CEE concernant la commercialisation des semences de céréales), cette norme s’applique également aux semences qui sont commercialisées pour la production de semences de bases, pré-base, la production de semences certifiées ou la production d’hybrides. Cette pureté variétale est principalement contrôlée par inspection sur pied, dans le cas de production de semences hybrides avec un parent géniteur male stérile, le taux de pureté de ce parent doit être encore supérieur (99,9 % pour le maïs).
La disponibilité d’une solution de contrôle de la qualité alternative au contrôle sur pied est d’intérêt pour les sociétés semencières, notamment par la nécessité d’avoir une évaluation rapide, sans attendre le développement des plantes nécessaire à une l’évaluation phénotypique.
Par ailleurs pour ces sociétés, le contrôle de la pureté variétale n’est pas limité aux stades cités ci-dessus, chaque étape en amont de la production de semences de base est concernée par cette exigence de pureté variétale. II est rappelé que le taux de pureté variétale se définit comme le pourcentage de plantes provenant d'un lot et qui sont conformes à la description de la variété. Ce pourcentage s’exprime en poids de graines.
En production de semences hybrides, l’amélioration de la qualité de la production de semences agricoles passe par la vérification de la pureté génétique des lots de semences de base (lignées parentales utilisées pour la production d’hybrides) utilisés dans la production des semences commerciales. Cette pureté est évaluée par la détection et l’identification de grains contaminants dans un échantillon de lot de semence des géniteurs.
Les contaminants sont des graines de la même espèce, mais présentant des variations génétiques à certains loci de leur génome, par rapport au génotype attendu pour les graines du lot considéré. Dans le processus de production de lots de semences, la présence de contaminants est réduite, de par la vigilance dans les étapes de production en amont, pratiques culturales, épuration, isolement, et les contrôles réalisés tout au long du procédé. Ainsi, la presque-totalité des graines du lot présente le même génotype, les contaminants étant présents à un pourcentage généralement faible et en effet le taux toléré dans un lot pour qu’il puisse être commercialisé devra être inférieur à 2%.
L’identification de traits génétiques d’intérêt est également importante en commercialisation de semences, en effet certains traits assurant par exemple la tolérance à un herbicide ou à un pathogène (par exemple le Mildiou en Tournesol) apportent une valeur ajoutée certaine à un lot de semence et lorsqu’une variété sera commercialisée comme porteuse de ce trait, une vérification de la présence de ce trait dans le lot de semence sera intéressante. Par trait on entend forme allélique d’un loci lié à un caractère phénotypique.
Une problématique similaire porte sur la présence fortuite d’OGM ou de toute autre altération dans le génome. La commercialisation de plante non OGM nécessite de faire la preuve de l’absence d’OGM ou de la présence d’un taux inférieur à un pourcentage déterminé par la règlementation. A l’opposé la réglementation dans certains pays, pour certains traits OGM, résistance à l’encontre d’insectes notamment, prévoit que les semences contenant l’OGM soient vendues avec un certain taux de semences ne possédant pas le trait OGM, de façon à assurer des zones refuges pour l’insecte.
Le développement massif de marqueurs de type SNP (Single Nucleotide Polymorphism) et des technologies de génotypage à haut débit a permis de favoriser l’essor de la sélection assistée par marqueurs. Le génotypage est classiquement réalisé au moyen de différentes technologies, par PCR (Kasp LGC Genomics, Taqman - Life Technologies) ou hybridation sur des puces à ADN (Axiom - Life Technologies, Infinium - Illumina).
Si la technologie de PCR quantitative Taqman est aujourd’hui considérée comme la référence pour la détection de présence fortuite de plantes OGM dans un mélange de plantes non OGM, celle-ci repose sur la détection d’un polymorphisme de type présence/absence d’une séquence donnée, et non sur un polymorphisme entre différentes formes alléliques d’un SNP. Ainsi, dans ce cas particulier de détection d’OGM, le polymorphisme porte sur la présence d’un trait qui pourra être amplifié (amplicon) et donc facilement identifiable.
L’estimation de la pureté de lots de graines, entendue comme l’absence de trait OGM, a été travaillée par Remund (Seed Science Research (2001) 11, 101
119), deux solutions ont été identifiées par ces auteurs pour limiter les ressources nécessaires à ces vérifications et notamment l’analyse en pool. Ils indiquent que cette méthode est efficace lorsque l’on recherche l’absence d’un individu particulier, par contre quand un taux de pureté est recherché il est préférable de travailler graine à graine. Ces auteurs ont élaboré un outil Seedcalc, qui permet notamment une approche quantitative en jouant sur le nombre de pools et le nombre de graines par lot, cette méthode est notamment adaptée pour de la PCR temps réel (Laffont, Seed Science Research (2005) 15, 197-204).
Un exemple d’utilisation de pools de graine pour vérifier de la pureté variétale existe cependant. La demande WO 2015/110472 propose d’analyser des lots de graines par prélèvement manuel ou semi-automatique d'un volume d'échantillon déterminé à partir d’une ou plusieurs graines, ce volume étant déterminé pour permettre l'analyse d'au moins un constituant de la graine ou des graines. Le tissu prélèvé à partir de plusieurs graines est placé dans un puits identifié et traçable, puis on effectue l'analyse dudit constituant sur le contenu du ou des puits. Cette méthode de constitution de bulk permet de faire de la pureté variétale (exemple 6) cette pureté est évaluée par la méthode Kaspar (KBioscience) à partir de bulks de 5 et 10 graines, la présence d’un contaminant dans ces bulks se caractérise par la présence d’un cluster hétérozygote, cependant les auteurs indiquent que ce cluster est proche du cluster homozygote et qu’il est plus facile à identifier pour un bulk de 5 graines que pour un bulk de 10 graines.
Le développement des technologies de séquençage à haut débit, ou NGS (Next Generation Sequencing) a révolutionné le monde de la génomique, permettant la découverte massive de marqueurs SNP entre lignées d’une espèce donnée. Ces techniques permettent un nombre important de lectures de séquences possibles en une seule expérience.
La profondeur de séquençage, permet d’identifier un allèle faiblement représenté lors de l’identification de formes alléliques pour un ensemble d’individus en pool. Elle peut permettre par ailleurs d’identifier un nombre de formes alléliques supérieures à deux pour un même locus. Ainsi, le séquençage d’amplicons permet d’étudier de manière ciblée des loci d’intérêt, d’identifier des SNP et de caractériser la composition allélique d’un individu ou d’un mélange d’individus. Une application en recherche est la détection de mutations rares au sein d’une population mutagénéisée (TILLING, Targeting Induced Local Lesions in Genomes). Dans ces applications l’identification d’allèles rares en pool peut être combinée avec des pools d’individus en 2D ou 3D permettant une diminution du nombre de pools à analyser (Tsai et al, Plant Physiol. 2011 Jul;156(3):1257-68 ; Taheri et al, Mol Breeding (2017) 37:40 ; Gupta et al, The Plant Journal (2017) 92, 495-508) WO2014134729, EP 2 200 424). Cette approche peut être également appliquée à l’identification de mutations par des méthodes de Gene Editing (Kumar et al, Mol Breeding (2017) 37:14). Ces approches restent toutefois qualitatives, il n’y a pas de considération quantitative.
La possibilité d’utiliser du génotypage par séquençage en pool a été évaluée pour l’identification de fréquences alléliques sur des populations par Gautier (Mol Ecol. 2013 Jul;22(14):3766-79). Toutefois cette approche est particulièrement adaptée à l’analyse de populations larges sur un grand nombre de SNP, et ne semble pas adaptée à la détection d’allèles rares (généralement inférieur à 5%).
Une des difficultés liées à la recherche d’allèle rare est la fiabilité du résultat, la fréquence de l’allèle rare s’approchant du taux d’erreur de séquençage.
Dans le cas du contrôle qualité de lots de semences, l’objectif est de détecter la présence d’un contaminant, d’en estimer précisément le taux au sein du lot de semences dont est issu l’échantillon analysé, et de préférence d’en déterminer le profil génétique pour mieux en comprendre l’origine. La détection peut être réalisée par l’analyse de loci d’intérêt, choisis par l’homme du métier, en fonction de sa connaissance du matériel génétique à qualifier et du matériel génétique susceptible de le contaminer.
Ainsi, Chen et al (2016, PLOS ONE 11(6)) ont développé, pour le maïs, deux séries de SNP pour le contrôle qualité : un set de marqueurs pour un contrôle rapide, employant un nombre réduit de SNP (50-100) pour identifier les erreurs potentielles d'étiquetage des paquets ou des parcelles de semences, et un set de marqueurs plus large, et utilisé à des fins de caractérisation et de discrimination plus fine du matériel génétique. Dans cet exemple, l'échantillonnage de 192 individus analysés individuellement permettrait d'avoir une probabilité proche de 100% de détecter une contamination de 5 % dans un lot, mais cette probabilité devient inférieure à 90% si l’on s’intéresse à une contamination de 1 %.
Dans le cas du contrôle qualité de lots de semences de base, la pureté génétique attendue est élevée, ainsi que la précision d’estimation recherchée, qui dépend à la fois du nombre de graines échantillonnées (testés) et du nombre de graines du lot de semences de bases. Par exemple, si 200 grains sont analysés et que le taux d’impureté est de 0%, l’intervalle de confiance de cette valeur s’étend de 0% à 1.49%. L’effectif analysé est donc trop faible pour garantir un taux de pureté suffisant en analysant seulement 200 grains. En revanche, lors de l’analyse de 2000 grains, un taux de 0% d’impureté a un intervalle de confiance de 0% à 0.15%. Toutefois, même si les coûts de génotypage ont considérablement baissé, un tel échantillonnage, associé à du traitement plante à plante, n’est pas économiquement viable pour du contrôle qualité.
La société Genia (Montevideo, Uruguay) propose une méthode de détermination de la pureté génétique sur des lots de lignées, et d’identification des contaminants, par l’analyse d’un mélange unique de 10 000 graines et séquençage d’amplicons ciblant environ 350 SNP. Cette société revendique le fait de déterminer la pureté variétale avec une sensibilité de 0,8 % et un intervalle de confiance de 99%. Cette approche est similaire à celle développée par Gautier et al., en ce qu’elle repose sur un modèle statistique d’estimation des fréquences alléliques sur un nombre important (350) de SNP, à partir de laquelle est réalisée une estimation de la fréquence des différents profils génétiques présents dans le mélange. Toutefois, une telle approche ne permet pas de détecter avec fiabilité un allèle rare pour un SNP donné, ce qui est nécessaire dans la recherche d’une contamination pour un trait donné.
Il convient donc de disposer d’une méthode économique, permettant l’analyse d’un nombre important d’individus, afin de déterminer précisément la pureté génétique d’un lot de semence donné et ce notamment pour des lots de semences ayant un taux de pureté élevé.
La méthode présentée ici repose sur l’estimation de la pureté d’un lot de semences à partir de l’analyse qualitative binaire (présence/absence d’un contaminant) de plusieurs sous-lots d’échantillons. L’analyse sur chaque sous-lot consiste à détecter la présence d’un allèle alternatif à un ou plusieurs loci d’intérêt, par séquençage d’amplicons. Le nombre de sous-lots, ainsi que la taille de chaque sous-lot sont définis en fonction du taux de pureté attendu (estimé par l’opérateur) et de la précision recherchée, et de manière à ce que l’on ait préférentiellement une probabilité statistique de trouver au maximum un contaminant dans un sous-lot donné. Cela signifie que, à partir, d’un nombre donné de graines que l’utilise pour le test, on forme au moins autant de sous-lots que le nombre de contaminants estimé, préférentiellement exactement autant de sous-lots que le nombre de contaminants estimé. Par ailleurs, du fait de l’analyse de plusieurs sous-lots, la méthode permet de distinguer une contamination par un hybride (ségrégation) et une contamination par une lignée (pas de ségrégation), en comparant les profils contaminants des différents sous-lots.
Cependant cette méthode ne se limite pas à cette approche binaire, en effet l’utilisation du séquençage permet de ne pas limiter la méthode à l’identification de deux formes alléliques et dans ce contexte la méthode permet également d’identifier des contaminants dans des lots de semences hétérozygote pour l’allèle considéré, le contaminant étant hétérologue aux formes alléliques de cet individu.
L’invention se rapporte ainsi à un procédé de détermination de la quantité de contaminants à au moins un locus d’intérêt, présents dans un lot de semences d’une variété d’intérêt, caractérisé en ce
a) on regroupe des graines d’un lot de semences par sous-lots d’au moins 10 graines, le nombre sous-lots ainsi obtenus étant supérieur ou égal à 10
b) on effectue, pour chaque sous-lot, un séquençage ciblé d’au moins la région du génome des graines contenant le locus d’intérêt,
c) on détermine, pour chaque sous-lot, la présence d’un contaminant de façon qualitative en cas de détection d’un allèle alternatif à ou aux l’allèle(s) attendus (il peut y avoir plusieurs allèles attendus à un seul locus, notamment si les semences sont des semences d’une plante hybride) pour chaque région génomique séquencée (présence / absence d’un allèle alternatif)
d) on détermine la quantité de contaminants dans le lot global par la compilation des résultats qualitatifs obtenus pour l’ensemble des souslots.
De façon optionnelle, et pour réaliser le séquençage, on amplifie par PCR la région correspondant au locus d’intérêt entre l’étape a) et l’étape b). Cette étape d’amplification est effectuée directement sur l’ensemble des graines dans chaque sous-lot.
L’estimation de l’impureté P du lot est obtenue suivant la formule :
d J_
P = 1 — (1 — —)wi w dans laquelle n est le nombre de pools ; m est le nombre de grains dans un pool ; d est le nombre de pools dans lesquels un contaminant a été identifié.
Cette formule est la formule proposée par Remund (2001, op. cit.), qui permet notamment de prendre en compte le fait que les recherches de contaminants sont effectuées uniquement sur un échantillon du lot de semences et donc de prendre en compte les biais potentiellement induits par cet échantillonnage.
Ce procédé permet donc de calculer le pourcentage de contaminants dans le lot de semences (et donc la pureté du lot de semences : 1- P ).
Un contaminant est une graine présentant un allèle différent de l’allèle attendu au locus d’intérêt donné dans ce lot de semences. Toutefois, lorsque l’on met en œuvre la méthode sur plusieurs loci d’intérêt, on peut décider que l’on a contamination d’un lot que lorsque l’on observe, dans ce lot, des allèles nonattendus à plus d’un locus, par exemple à 2 ou 3 loci.
De façon préférée, à l’étape a), on utilise un nombre maximum de graines, calculé de telle sorte qu’au plus un seul contaminant soit présent dans chaque échantillon (sous-lot) de graines, d’un point de vue statistique. Dans les méthodes de production industrielles, on observe généralement un taux de pureté supérieur à 99 %. Ainsi, avec un effectif d’environ 100 graines, par exemple entre 80 et 120, l’on peut s’attendre à détecter majoritairement une graine contaminante. Les méthodes décrites ci-dessus sont en effet mises en œuvre pour des lots de semences homogènes, c’est-à-dire pour lesquels au moins 95 %, de préférence au moins 96 %, de façon plus préférée au moins 97 % de façon encore plus préférée au moins 98 %, de façon la plus préférée au moins 99 % des semences ont le même génotype. Selon la pureté estimée du lot de semence, les sous-lots contiennent au maximum 20, ou au maximum 50, ou au maximum 80, ou au maximum 100, voire au maximum 200, ou 2000 graines.
L’étape b) du procédé consiste en le séquençage ciblé d’au moins une région génomique, contenant le locus d’intérêt pour lequel on cherche la présence d’un contaminant.
Il est clair que cette étape de séquençage est effectuée sur de l’acide nucléique. Ainsi, on prépare l’ADN des lots, par exemple en écrasant les graines et utilisant la farine ou isolant l’ADN à partir de cette farine. Ces méthodes sont connues dans l’art.
Cette étape de séquençage est préférentiellement effectuée par séquençage à haut débit (NGS). Différentes technologies (Illumina®, Roche 454, Ion torrent: Proton / PGM (ThermoFisher) ou SOLiD(Applied BioSystems)).
En résumé, ces technologies de NGS présentent 2 étapes communes :
une étape d'amplification, par PCR une étape de séquençage, cette étape étant réalisée par des approches différentes en fonction de la technologie utilisée.
La technologie Illumina®, utilise l'amplification clonale et le séquençage par synthèse (SBS). On génère une banque d’ADN double brin à partir de l’échantillon à analyser par amplification PCR et ajout d’adaptateurs spécifiques aux extrémités, puis on dénature l’ADN en simple brin, et l’on fixe l’extrémité des simples brins aléatoirement à la surface du « flowcell », sur laquelle on effectue une PCR « bridge » en phase solide (création de groupes (clusters) denses où les fragments sont amplifiés).
Le séquençage s’effectue en ajoutant les 4 terminateurs réversibles marqués, les amorces et l’ADN polymérase, puis on lit la fluorescence émise par chaque cluster, permettant de déterminer la première base. On effectue alors plusieurs cycles afin de lire l’ensemble de la séquence.
Pour la mise en œuvre de la technologie 454, on obtient une banque d’ADN simple brin matrice, des adaptateurs spécifiques étant ajoutés aux extrémités 3' et 5’, et chaque brin d’ADN étant immobilisé sur une bille (un fragment d’ADN = une bille). Ces billes sont ensuite intégrées avec les produits d’amplification dans une émulsion eau-huile, afin de créer des « microréacteurs » (chaque goutte d’eau dans l’huile) contenant une seule bille. La PCR est réalisé dans cette émulsion l’ensemble de la banque étant amplifiée en parallèle, permettant d’obtenir plusieurs millions de copies par bille.
Puis on purifie les billes et charge les fragments sur des plaques telles que le diamètre des puits ne permet l’entrée que d’une seule bille à la fois. On ajoute les enzymes de séquençage et on envoie les nucléotides marqués individuels les uns après les autres. La détection de la séquence est effectuée par une caméra CCD en fonction du signal luminescent.
Pour la technologie SOLiD, on prépare les banques, ajoute les adaptateurs et effectue une PCR dans une émulsion, comme dans la méthode 454. Puis on effectue un enrichissement des billes amplifiées, on modifie l’extrémité 3’ des ADN pour permettre une fixation covalente sur une lame, et on dépose les billes sur la lame. Le séquençage est effectué par ligation : des amorces s’hybrident sur les adaptateurs présents sur la matrice. Un jeu de 4 sondes de 2 bases marquées en fluorescence sont associées aux amorces. La spécificité des sondes de 2 bases s’effectue avec les 1ere et 2ndes bases de chaque réaction de ligation. Plusieurs cycles de ligation, détection et clivages sont effectués. Dans ce processus chaque base est détectée par deux réactions de ligation indépendantes par deux différentes amorces. Le système de codage de la lecture sur deux bases permet une très grande fidélité de la lecture des résultats. Cette méthode permet de faire la différence entre les erreurs de séquençages et les variants réels (SNP, insertions et délétions).
Pour la technologie lonTorrent, on prépare des banques et on ajoute des adaptateurs. On effectue des PCR en émulsion. Le séquençage ne s’appuie pas sur la détection de fluorescence de nucléotides ou de leurs résidus de polymérisation par un capteur optique CCD, mais utilise un capteur CMOS qui détecte les ions H+ dégagés lors de la polymérisation de l’ADN. Le capteur CMOS mesure le pH dans chacun des puits, ce qui indique la présence d’une ou plusieurs bases qui ont été intégrées dans l’ADN en cours d’analyse. On ajoute les bases les unes après les autres pour détecter laquelle est intégrée puis on rince et on recommence.
D’autres technologies de séquences existent telles que la technique MinlON de Oxford Nanopore technologies (https://nanoporetech.eom/products#minion, Mikheyev et Tin (2014). Molecular Ecology Resources. 14(6):1097-102.) ou Pac Bio de Pacifie bioscience (https://www.pacb.com/products-and-services/pacbio-systems/).
Le procédé décrit ici permet de limiter le risque de détection d’un fauxpositif (on conclue par erreur à la présence de l’allèle alternatif) ou d’un fauxnégatif (on conclue par erreur à l’absence de l’allèle alternatif) que ces méthodes de séquençage NGS peuvent présenter du fait du taux d’erreur de séquençage inhérent à chaque technologie. En effet, l’étape c) consiste en la détermination de l’absence ou de la présence, pour un échantillon, d’une séquence non attendue dans les produits de séquençage. En cas de présence d’une telle séquence non attendue (correspondant à la présence d’un contaminant), il n’est nul besoin de quantifier la quantité de séquence non attendue par rapport à la quantité de séquence attendue (correspondant à la séquence des graines correctes du lot de semences). La détection est donc uniquement qualitative (c’est-à-dire binaire : présence / absence d’une séquence d’un allèle alternatif à ou aux allèle(s) attendus. Le fait d’utiliser des sous-lots de graines permet également d’augmenter le nombre de graines étudiées pour chaque réaction de séquençage et ainsi d’avoir un échantillon suffisant de graines tout en maîtrisant les coûts.
La présence d’une telle séquence d’un allèle alternatif est indicatrice de la présence d’un contaminant pour cet allèle.
Cette analyse est effectuée pour chaque région génomique analysée, c’està-dire pour chaque locus d’intérêt préalablement déterminé par l’homme du métier, et permettant de caractériser le lot de semences.
De fait, lorsque l’on choisit le nombre de graines dans chaque sous-lot de telle sorte qu’un seul contaminant soit présent (de façon statistique) au sein de ce sous-lot, la présence d’un allèle alternatif est suffisante pour conclure à la présence d’un unique contaminant.
L’étape suivante du procédé est le calcul du pourcentage effectif des contaminants dans le lot de semences. Ceci est effectué par la compilation des résultats qualitatifs obtenus pour l’ensemble des sous-lots.
Le taux de pureté du lot de semence est alors estimé en considérant le nombre de sous-lots contaminés, le nombre total de sous-lot analysés, et l’effectif de chacun des sous-lots.
L’estimation de l’impureté P du lot est obtenue suivant la formule :
d p = 1 — (1 — n
dans laquelle n est le nombre de pools ; m est le nombre de grains dans un pool ; d est le nombre de pools dans lesquels un contaminant a été identifié.
On peut aussi déterminer l’intervalle de confiance de cette estimation par toute méthode statistique appropriée, notamment par une distribution F, tel qu’appliqué dans l’outil SeedCal utilisé dans le cadre de l’ISTA (International Seed Test Association) et tel qu’explicité dans Remund (2001).
J
I ί/ + 1 IFi i., -> J 1 / 1—t* , i-u . a_ f —rί——H (n — d ) — ( d + I )F]-(7,2(/+2,2ii-2d ,
Dans un mode de réalisation préféré, on effectue, à l’étape b), le séquençage ciblé de plusieurs régions du génome contenant plusieurs loci d’intérêt. Ceci permet de mieux garantir l’identité des semences présentes dans chaque échantillon et de détecter, de façon plus fine, la présence de contaminants.
Ainsi, on peut séquencer de manière ciblée, au moins 2, de préférence, au moins 5, de préférence, au moins 10, de façon plus préférée au moins 100, 50, 40, 15 loci d’intérêt, voir au moins 20 loci d’intérêt. Même s’il n’existe pas de limite supérieure au nombre de loci d’intérêt que l’on peut évaluer, on préfère limiter ceux-ci. En effet, il est possible de caractériser une variété avec un nombre de marqueurs (spécifiques de /oc/) limité (compris entre 15 et 20), et d’utiliser ce jeu de marqueurs pour discriminer les plantes de cette variété d’autres plantes. Une variété s’entend comme un ensemble de plantes ayant un même fond génétique, la variété peut être une variété commercialisée, mais aussi une lignée non encore inscrite au catalogue, lignée de base, de pre-base ou lignée en cours de multiplication.
Le nombre optimal de loci d’intérêt est défini par l’homme du métier, en fonction du matériel végétal considéré, mais également en fixant le nombre minimal de loci discriminant toute paire de variétés donnée. Ainsi, le nombre minimal de loci discriminant toute paire de variétés peut être fixé à trois, limitant le risque de confondre une contamination réelle et un faux-positif expérimental. Différents algorithmes sont décrits par Rosenberg et al. (Journal of Computational Biology 12 (9), 2005, 1183-1201) pour sélectionner un jeu de marqueurs discriminants.
On peut améliorer ou modifier ces algorithmes pour prendre en compte d’autres critères tels que la qualité des marqueurs choisis (par qualité on entend leur aptitude à être amplifiés, identifiés sans équivoque). Des groupes ou catégories de marqueurs pourront être identifiées et définir un sous-groupes de marqueurs qui contiendra préférentiellement des marqueurs issus d’un groupe donné ou issu de groupes différents. On peut ainsi définir un set de marqueurs que l’on souhaite utiliser.
L’algorithme peut aussi prendre en compte la qualité statistique de ces marqueurs définie comme le nombre minimum de marqueurs discriminants pour déclarer un couple d’individus comme différents. À partir de ce critère, la qualité de discrimination d’un set de marqueurs peut être évaluée par le nombre de couples d’individus que ce set est capable de discriminer, idéalement la totalité des individus gérés par le producteur.
Dans le contexte de la présente invention, on mettra préférentiellement en œuvre la méthode sur des loci d’intérêt permettant à la fois de discriminer la variété d’intérêt (s’assurer de la constance et la concordance du fond génétique entre les plantes) et d’identifier la présence ou l’absence d’autres loci d’intérêt (notamment liés à des traits d’intérêt).
Dans ce mode de réalisation, c’est-à-dire lorsque l’on effectue un séquençage de plusieurs régions du génome, on peut décider de considérer qu’il y a présence d’un contaminant dans un lot seulement si on observe la présence de séquences non attendues pour plus d’un locus d’intérêt dans ce lot. En d’autres termes, on peut décider que, si l’on observe, dans un lot donné, la présence d’un unique allèle alternatif (une séquence non attendue pour une seule région du génome, alors que les séquences obtenues pour les autres régions sont celles attendues), on considère que la présence d’un contaminant n’est pas avérée.
La méthode décrite ici permet donc de déterminer la présence de contaminants dans un lot de semences, en particulier contrôler la pureté variétale lors d’un processus de production industriel.
Cette méthode peut également être mise en œuvre afin de vérifier le taux de pureté d’un trait qui est recherché à l’état homozygote dans le lot de graines. Dans ce mode de réalisation, on évalue préférentiellement uniquement la région du génome contenant le trait particulier que l’on souhaite suivre. Plusieurs traits peuvent être suivis de façon simultanée, par utilisation de marqueurs spécifiques de chaque trait.
Par trait on entend forme allélique spécifique à un locus donné, dans ce contexte cette forme allélique peut être native, liée à une mutation identifiée par Tilling ou Ecotilling, mutation liée à l’empreinte d’un élément transposable, mutation obtenue par Gene Editing (édition de gène) ou par n’importe quelle autre méthode... dans ce contexte la mutation qu’elle soit une mutation ponctuelle, une insertion ou une délétion implique un nombre limité de bases. Cette méthode pourra également s’appliquer sur un trait recherché à l’état hétérozygote, le contaminant correspondra alors à une forme alternative aux formes alléliques attendues chez cet individu.
Dans un mode de réalisation préféré, un trait (qui peut être lié à un seul allèle ou à plusieurs allèles) fournit à la plante un caractère phénotypique d’intérêt (tel que résistance à la sécheresse, résistance au stress biotique, résistance au manque d’azote, augmentation du rendement...).
Lorsque le trait est lié à une mutation impliquant une insertion de grande taille, telle qu’un trait OGM, un mutant obtenu par insertion d’un élément transposable ou un mutant obtenu par Gene Editing, la méthode pourra être mise en œuvre en recherchant la présence de la forme allélique ne contenant pas l’insertion ou la mutation considérée. La présence de cette forme allélique indiquant que la présence du trait lié à la mutation sous une forme homozygote dans le lot de graines n’est pas totalement garantie. Cette méthode pourra être utilisée par exemple lorsque la mutation correspond à l’introgression d’un fragment d’ADN issu d’une autre espèce, ce cas particulier se rencontrera par exemple pour vérifier la pureté de lignées restauratrices de fertilité chez le colza.
Cette méthode permet également de faire de la recherche de présence fortuite d’un trait, le trait dont on recherchera la présence fortuite pourra être un OGM, une mutation liée à du Gene Editing ou l’introgression d’un fragment provenant d’une espèce hétérologue, cette recherche sera faite par amplification puis séquençage d’une région spécifique du T-DNA, ou de l’insertion. Par extension cette méthode peut s’appliquer à des traits liés à des mutation de faible taille si des amorces permettant s’amplifier spécifiquement la région lorsque l’on est en présence de la forme allélique mutée peuvent être définies. En adaptant le protocole nombre de lots et nombre de graines par lot le protocole peut être étendu à l’identification de la présence de traits pour des fréquences allant par exemple jusqu’à 10% et dans ce contexte on pourra vérifier par exemple la présence de 10% de graines sauvages dans un lot de graines OGM (législation sur les zones refuge). Ces applications ne sont pas limitées aux OGM, le trait suivit par cette méthode peut être l’introgression dans une lignée d’un fragment issue d’une autre espèce, la présence d’un locus restaurateur de fertilité issu du radis chez le Colza par exemple. De façon identique la vérification pourra permettre de vérifier que cette introgression est bien à l’état homozygote.
Dans un autre mode de réalisation, la méthode peut être utilisée pour détecter la présence fortuite (non désirée) d’OGM ou d’autre mutation liée à l’insertion d’un fragment de taille conséquente, dans un lot de semences. Cette mutation peut être liée à la présence d’un élément transposable ou à une insertion obtenue notamment par Gene Editing. Dans ce mode de réalisation, on utilisera des amorces spécifiques d’un transgène ou de l’insertion particulier (si on suspecte une contamination particulière) ou différentes amorces génériques permettant de détecter différents transgènes sans a priori.
Dans le cas de la pureté variétale, on peut aussi ajouter des marqueurs liés à ces traits à la liste des marqueurs utilisés pour caractériser la variété.
Ainsi, dans un mode de réalisation préféré, on effectue, les étapes b), c) et d) pour plusieurs régions du génome contenant plusieurs loci d’intérêt.
Dans ce mode de réalisation, on préfère quand un sous-ensemble de plusieurs loci permet de discriminer ou identifier une variété d’intérêt. Ainsi que vu plus haut, ce nombre de loci est variable et ces loci peuvent être déterminés par l’homme du métier notamment selon les enseignements de Rosenberg (cité cidessus). Dans un mode particulier de l’invention, il pourra intégrer des informations concernant le plan de production, impliquant des contrôles et des mesures particulières : distances d’isolement, zones de bordures, castration, ce qui implique que le risque de contamination va être limité et le lot de semences sera a priori non contaminé ou faiblement contaminé. Par ailleurs de part ces mesures, une contamination sera très probablement issue d’un contaminant connu, notamment d’une lignée parentale, y compris les lignées parentales impliquées dans la production des semences de bases et pre base. Dans ce contexte particulier le nombre de marqueur permettant d’identifier la pureté d’une lignée peut être très réduit, il pourra notamment être de 20 ou moins.
Ainsi que vu plus haut, dans un mode de réalisation, on déclare un lot comme contenant un contaminant si l’on observe un allèle alternatif à l’allèle attendu pour un seul locus d’intérêt. Dans un autre mode de réalisation, on déclare un lot comme contenant un contaminant si l’on observe un allèle alternatif à l’allèle attendu pour plus d’un locus d’intérêt (notamment 2 ou 3 loci).
Dans un mode de réalisation, au moins ou exactement un locus d’intérêt est lié à un caractère d’intérêt (trait). Dans un autre mode de réalisation, c’est une combinaison de loci qui est est liée à un caractère d’intérêt (trait).
Dans un mode de réalisation, au moins un locus d’intérêt est lié à un trait spécifique a priori non présent dans les graines du lot. Dans ce mode de réalisation, on recherche la présence fortuite de ce trait. On ajoute donc des marqueurs pour vérifier l’absence du trait. Dans ce mode de réalisation, la méthode est essentiellement qualitative. L’intégration de ces marqueurs dans le protocole revendiqué permet de faire dans une seule expérience des contrôles supplémentaires nécessaires par ailleurs.
Dans un mode de réalisation préféré, la quantité de graines dans chaque sous-lot préparé à l’étape a) est comprise entre 80 et 120.
Dans un mode de réalisation préféré, on peut identifier le(s) contaminant(s) présent(s) dans le lot de semence.
Pour chaque sous-échantillon, il est possible de définir un profil moléculaire correspondant à la compilation des données de chaque locus d’intérêt. Le profil de chaque sous-échantillon peut alors être comparé au profil moléculaire attendu, et un profil moléculaire contaminant peut être déduit par soustraction. Ainsi, un locus d’intérêt ne présentant pas d’allèle alternatif sera considéré identique au locus entre la variété attendue et le contaminant, tandis qu’un locus présentant un allèle alternatif sera défini comme potentiellement homozygote pour l’allèle alternatif, ou hétérozygote allèle attendu/allèle alternatif.
Ces profils moléculaires contaminants peuvent alors être comparés à une base de données de référence afin d’identifier la nature du contaminant, et éventuellement le moment où il est entré dans le cycle de production.
Ainsi, on envisage un procédé d’identification du contaminant, qui met en œuvre la méthode telle que décrite ci-dessus, et qui comprend en outre les étapes consistant à
i) définir le profil moléculaire du contaminant de chaque sous-lot contaminé par comparaison du profil observé dans ce sous-lot avec le profil attendu en l’absence de contaminant, et ii) comparer le profil obtenu en i) avec ceux d’une base de données de référence.
Alternativement, on considère un procédé de détermination du degré de pureté, tel que défini ci-dessus, caractérisé en ce que l’on procède en outre à l’identification du contaminant pour chaque sous-lot contaminé en
i) déduisant le profil moléculaire du contaminant dans un sous-lot contaminé par comparaison du profil observé dans ce sous-lot avec le profil attendu en l’absence de contaminant et en ii) Comparant le profil obtenu en i) avec ceux d’une base de données de référence.
On obtient donc un ou plusieurs profils de contaminants pour le lot de semences de départ, correspondant à la somme des contaminants de chaque sous-lot contaminé.
DESCRIPTION DES FIGURES
Figure 1 : résultat de l’analyse en Taqman pour un SNP, comprenant deux formes alléliques détectées respectivement par les fluorochromes FAM et VIC, dans des échantillons de maïs homozygotes (A, B) ou hétérozygote pour le SNP (C). A : échantillon homozygote pour la forme allélique détecté en FAM. B : échantillon homozygote pour la forme allélique détecté en VIC. C : échantillon hétérozygote pour les formes alléliques détectés en FAM et VIC.
Figure 2 : Fréquence relative, dans chaque sous-lot, de l’allèle alternatif pour le SNP10. Les sous-lots 3, 14 et 16 montrent une fréquence de l’allèle alternatif significative.
Figure 3 : Profil qualitatif (présence/absence d’un allèle contaminant) Profil de présence d’un allèle alternatif pour les 17 marqueurs (ligne) (16 marqueurs discriminants et un marqueur associé à un trait) au sein des 16 sous-lots (colonne). La présence d’un allèle alternatif est détectée pour au moins 3 SNP dans les souslots 3, 14 et 16. Ces sous-lots sont déclarés contaminés. Les 13 autres sous-lots sont déclarés non contaminés.
Figure 4 : profils moléculaires obtenus sur les 17 SNP (16 marqueurs discriminants et un marqueur associé à un trait) obtenus sur les 16 sous-lots analysés. Le profil de la première ligne correspond au profil majoritaire, les profils suivants aux profils contaminés observés pour les lots 3, 14 et 16 respectivement.
EXEMPLES
Exemple 1 : Détection de contaminants par Taqman
Cet exemple évalue la possibilité de détecter une graine contaminante dans un sous-lots de graines de maïs, par génotypage utilisant la technologie Taqman (Applied Biosystem).
La figure 1 montre le résultat de l’analyse en Taqman pour un SNP, comprenant deux formes alléliques détectées respectivement par les fluorochromes FAM et VIC, dans des échantillons de maïs homozygotes ou hétérozygote au SNP, et met en évidence la présence de signal avec la sonde FAM dans un échantillon homozygote pour l’allèle VIC (B), c’est-à-dire un signal non spécifique, ne permettant pas de distinguer un signal faux positif d’un signal lié à une contamination réelle dans un échantillon.
Ces résultats montrent que la méthode Taqman ne permet pas de détecter des contaminants de façon fiable.
Exemple 2 : Détection de contaminants par génotypage sur puce
Dans cet exemple des lots de 200 graines issues d’une lignée A contenant 10%, 20%, 30%, 40%, et jusgu’à 90% de contaminants par une lignée B ont été élaborés et un échantillon de 15 graines issues de ce lot ont été analysées par génotypage sur une puce Infinium (Illumina), afin d’évaluer la faisabilité de l’identification d’une contamination. On arrive à détecter les contaminations supérieures à 10 %, mais les mélanges contenant 10% de contamination ne sont pas distinguables des témoins non contaminés. A fortiori, les contaminations moins importantes ne seront pas détectables.
Exemple 3 : mise en œuvre de la méthode selon l’invention sur un set de margueurs
Dans cet exemple, un set de 16 margueurs discriminants (SNP) a été utilisé, permettant d’identifier sans ambiguïté la présence d’une variété autre gue celle attendue. Ce set de 16 margueurs a été défini à partir de données de génotypage de référence sur plusieurs milliers de margueurs pour les variétés d’intérêt, et permet de différencier chacune d’elle par rapport aux autres grâce à au moins 3 margueurs discriminants. Dans ce cas c’est le profil moléculaire global sur les 16 margueurs gui détermine l’identité de chague variété. Chague margueur est spécifigue d’un locus d’intérêt.
Dans une expérience en condition de contamination contrôlée, 24 graines d’une lignée pure L1 ont été introduites dans un lot de 2376 graines d’une lignée pure L2, le lot ainsi obtenu a un taux de pureté de 99%, les graines ont été distribuées aléatoirement en vingt-guatre sous-lots de 100 grains (soit 2400 grains analysés) chague lot de graines ainsi obtenu est broyé indépendamment et l’ADN est extrait des broyats. Ainsi, on a en moyenne 1 contaminant par lot : le nombre de sous-lots est en effet égal au nombre de contaminants présents dans le lot complet de semences. Du fait de la distribution statistigue aléatoire, on sait toutefois gue certains sous-lots ne contiendront pas de contaminants, et gue d’autres sous-lots contiendront plusieurs contaminants, du fait de l’échantillonnage en formant les sous-lots
Pour chacun des 16 marqueurs, un amplicon de 70 à 120bp a été défini, et les 16 marqueurs co-amplifiés par PCR multiplex. Un index unique (TAG) est utilisé pour chaque échantillon d’ADN, permettant ainsi de faire un séquençage de l’ensemble des amplicons et d’attribuer les séquences obtenues à leur lot d’origine.
Les amplicons ont été séquencés par la technologie. Illumina sur un séquenceur Miniseq. Des séquences appariées de 75 bases ont été générées, attribuées aux ADN d’origine par une étape de démultiplexage. Après suppression des séquences des adaptateurs et des bases de mauvaise qualité (seuil Q30), chaque paire de séquences est rassemblée en une séquence unique, puis alignée sur le génome de référence du maïs (RefGenV4). Pour chaque SNP, les fréquences alléliques relatives de l’allèle majoritaire et de l’allèle alternatif ont été calculées, et correspondent au nombre de lectures contenant l’allèle d’intérêt par rapport à la somme des lectures de chaque allèle.
On considère qu’il y a contamination pour un marqueur SNP si, dans un sous-lot, la séquence d’une forme allélique, qui n’est pas celle de l’allèle attendu pour la variété testée, apparaît de façon supérieure au bruit de fond.
Un échantillon est déclaré contaminé dès lors qu’il contient au moins 3 SNP pour lesquels un allèle alternatif est détecté. Ainsi, on conclut que, parmi ces 24 sous-lots, 13 sont considérés comme contaminés et 11 comme purs.
Le nombre de sous-lots contaminés permet d’estimer la pureté variétale du lot analysé, ce calcul est réalisé à l’aide du logiciel Seed Calc qui utilise les formules de Remund (2001). Dans cet exemple, la pureté estimée est de 99.22% (98.64%-99.6%), pour une pureté réelle contrôlée de 99%.
L’estimation de l’impureté P du lot est obtenue suivant la formule : d A p = 1 — ( 1 dans laquelle n est le nombre de pools ; m est le nombre de grains dans un pool ; d est le nombre de pools dans lesquels un contaminant a été identifié.
Dans le cas ci-dessus : 1-(1-13/24)° 01= 1-0.9922 = 0.0078 soit une pureté de 99,22. L’intervalle de confiance est également calculé selon les procédés décrits dans Remund 2001.
Exemple 4 : identification du contaminant
Dans cet exemple, des lots de semences de base de maïs ont été analysés selon la même approche que celle citée dans l’exemple 3. Pour un lot, 16 sous-lots de 100 graines ont été constitués.
Les graines de chaque sous-lot ont été broyées et l’ADN extrait. Un set de 17 marqueurs, dont 16 SNP discriminants (permettant d’identifier sans ambiguïté la présence d’une variété autre que celle attendue) et un marqueur associé à un trait, a été identifié. Pour chaque marqueur, un amplicon de 70-120bp a été défini, et les 17 marqueurs ont été co-amplifiés par PCR multiplex. Un index (Tag) unique est utilisé pour chaque échantillon d’ADN, permettant ainsi de faire un séquençage de l’ensemble des amplicons et d’attribuer les séquences obtenues à leur lot d’origine.
Les amplicons ont été séquencés par la technologie Illumina sur un séquenceur Miniseq. Des séquences appariées de 75 bases ont été générées, attribuées aux ADN d’origine par une étape de démultiplexage. Après suppression des séquences des adaptateurs et des bases de mauvaise qualité (seuil Q30), chaque paire de séquences est rassemblée en une séquence unique, puis alignée sur le génome de référence du maïs (RefGenV4). Pour chaque SNP, les fréquences alléliques relatives de l’allèle majoritaire et de l’allèle alternatif ont été calculées, et correspondent au nombre de lectures contenant l’allèle d’intérêt par rapport à la somme des lectures de chaque allèle.
La figure 2 montre, pour un SNP (SNP10), la fréquence de l’allèle alternatif dans chacun des sous-lots (c’est-à-dire la fréquence d’apparition de la séquence de l’allèle alternatif). Dans cet exemple, les sous-lots 3, 14 et 16 montrent une présence significative de l’allèle alternatif (au-dessus du bruit de fond représenté par la ligne horizontale). Cette analyse est réalisée pour chaque SNP, et la figure 3 montre le profil qualitatif (présence/absence de l’allèle alternatif) obtenu pour chaque SNP dans chaque sous-lot. On confirme la présence d’un allèle alternatif pour au moins 3 SNP dans les sous-lots 3, 14 et 16. Ces 3 sous-lots sont déclarés contaminés. Les 13 autres sous-lots sont déclarés non contaminés. Le taux de pureté variétal estimé avec SeedCalc est de 99.79% (intervalle de confiance à 95% : 99.39% - 99.96%).
En parallèle, le même lot a été analysé sur 558 graines individuelles. Pour chaque graine, un fragment est prélevé en poinçonnant l’embryon à l’aide d’un emporte-pièce, puis l’ADN extrait et le génotypage réalisé avec la technologie KASP (LGC Genomics) sur 16 marqueurs discriminants. Cette analyse permet d’estimer une pureté de 99.46% (intervalle de confiance à 95% : 98.42% 99.89%).
Le marqueur SNP17 a été analysé séparément et permet d’estimer la pureté du trait associé.
La figure 3 montre que les sous-lots 3 et 16 présentent une fréquence significative de l’allèle alternatif. Ces 2 sous-lots sont déclarés contaminés, conduisant à une estimation de la pureté de trait de 99.87% (intervalle de confiance à 95% : 99.52 99.98%).
Le profil moléculaire identifié sur les sous-lots non contaminés est dans un premier temps utilisé pour vérifier sa conformité par rapport au profil attendu pour la variété analysée (l’étape précédente permet de vérifier la pureté variétale du lot, cette étape permet de vérifier que la variété identifiée est bien celle attendue). Ensuite, sur les sous-lots 3, 14 et 16 montrant une contamination, un profil moléculaire contaminant est déduit du profil moléculaire observé, par soustraction du profil attendu. Pour chaque marqueur SNP montrant une contamination, les 2 allèles observés sont reportés (Figure 4). Le contaminant peut ainsi être homozygote pour l’allèle minoritaire, ou bien hétérozygote.
Chaque profil moléculaire contaminant est ensuite comparé à une base de données de référence afin de l’identifier. Si ce génotype correspond à une accession connue, celle-ci est proposée comme contaminant potentiel, sinon le génotype contaminant est déclaré non identifiable.
Cette base de données de référence peut être affinée en fonction du plan de production notamment, cette base contiendra alors prioritairement l’ensemble des variétés cultivées dans le secteur de production de la lignée. Et dans ce contexte un contaminant qui ne figurera pas dans cette base de référence sera qualifié de contaminant lié au procédé post récolte.
Claims (11)
1. Procédé de détermination de la quantité de contaminants à au moins un locus d’intérêt, présents dans un lot de semences d’une variété d’intérêt, caractérisé en ce
a) on regroupe des graines d’un lot de semences par sous-lots d’au moins 10 graines, le nombre sous-lots ainsi obtenus étant supérieur ou égal à 10
b) on effectue, pour chaque sous-lot, un séquençage ciblé d’au moins la région du génome des graines, contenant le locus d’intérêt,
c) on détermine, pour chaque sous-lot, la présence d’un contaminant de façon qualitative, en cas de détection d’un allèle alternatif à ou aux l’allèle(s) attendus pour chaque région génomique séquencée (présence / absence de / des l’allèle(s) attendus)
d) on détermine la quantité de contaminants dans le lot global par la compilation des résultats qualitatifs obtenus pour l’ensemble des sous-lots.
2. Procédé selon la revendication 1, caractérisé en ce que l’on effectue, les étapes b), c) et d) pour plusieurs régions du génome correspondant à plusieurs loci d’intérêt.
3. Procédé selon la revendication 2, caractérisé en ce qu’un sous ensemble de ces loci d’intérêt est suffisant pour permettre d’identifier la variété d’intérêt.
4. Procédé selon la revendication 3, caractérisé en ce que l’on déclare un lot comme contenant un contaminant si l’on observe un allèle alternatif à ou aux allèle(s) attendus pour un seul locus d’intérêt.
5. Procédé selon la revendication 3, caractérisé en ce que l’on déclare un lot comme contenant un contaminant si l’on observe un allèle alternatif à ou aux allèle(s) attendus pour plus d’un locus d’intérêt.
6. Procédé selon l’une des revendications 1 à 5, caractérisé en ce qu’au moins un locus d’intérêt est lié à un caractère d’intérêt (trait).
7. Procédé selon la revendication 2, caractérisé en ce qu’une combinaison de loci est liée à des caractères d’intérêt (trait).
8. Procédé selon la revendication 2, caractérisé en ce qu’une combinaison de loci est liée à un caractère d’intérêt (trait).
9. Procédé selon l’une des revendications 1 à 8, caractérisé en que au moins un locus d’intérêt est lié à un trait spécifique a priori non présent dans les graines du lot, afin de détecter la présence fortuite de ce trait.
10. Procédé selon l’une des revendications 1 à 9, caractérisé en ce que la quantité de graines dans chaque sous-lot préparé à l’étape a) est comprise entre 80 et 120.
11. Procédé selon l’une des revendications 1 à 10, caractérisé en ce que l’on procède en outre à l’identification du contaminant pour chaque sous-lot contaminé en
i) déduisant le profil moléculaire du contaminant dans un sous-lot contaminé par comparaison du profil observé dans ce sous-lot avec le profil attendu en l’absence de contaminant et en ii) Comparant le profil obtenu en i) avec ceux d’une base de données de référence.
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1857115A FR3084374B1 (fr) | 2018-07-30 | 2018-07-30 | Procede de controle qualite de lots de semences |
CA3107562A CA3107562A1 (fr) | 2018-07-30 | 2019-07-29 | Method for the quality control of seed lots |
JP2021529517A JP2021532834A (ja) | 2018-07-30 | 2019-07-29 | 種子ロットの品質管理方法 |
US17/264,427 US20210317539A1 (en) | 2018-07-30 | 2019-07-29 | Method for the quality control of seed lots |
PCT/EP2019/070386 WO2020025554A1 (fr) | 2018-07-30 | 2019-07-29 | Procédé de contrôle qualité de lots de semences |
AU2019312799A AU2019312799A1 (en) | 2018-07-30 | 2019-07-29 | Method for the quality control of seed lots |
EP19749675.5A EP3830287A1 (fr) | 2018-07-30 | 2019-07-29 | Procédé de contrôle qualité de lots de semences |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1857115A FR3084374B1 (fr) | 2018-07-30 | 2018-07-30 | Procede de controle qualite de lots de semences |
FR1857115 | 2018-07-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
FR3084374A1 true FR3084374A1 (fr) | 2020-01-31 |
FR3084374B1 FR3084374B1 (fr) | 2024-04-26 |
Family
ID=63722623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1857115A Active FR3084374B1 (fr) | 2018-07-30 | 2018-07-30 | Procede de controle qualite de lots de semences |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210317539A1 (fr) |
EP (1) | EP3830287A1 (fr) |
JP (1) | JP2021532834A (fr) |
AU (1) | AU2019312799A1 (fr) |
CA (1) | CA3107562A1 (fr) |
FR (1) | FR3084374B1 (fr) |
WO (1) | WO2020025554A1 (fr) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220282339A1 (en) * | 2021-03-02 | 2022-09-08 | Indiana Crop Improvement Association | Genetic purity estimate method by sequencing |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030219784A1 (en) * | 2002-01-29 | 2003-11-27 | Third Wave Technologies, Inc. | Systems and methods for analysis of agricultural products |
WO2015110472A1 (fr) * | 2014-01-21 | 2015-07-30 | Limagrain Europe | Procédé d'échantillonnage de tissu de graines |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002291488A (ja) * | 2000-09-22 | 2002-10-08 | Japan Tobacco Inc | 混入種籾の検出方法 |
US20040241662A1 (en) * | 2003-05-30 | 2004-12-02 | Robey W. Wade | Detecting microbial contamination in grain and related products |
NL1034267C2 (nl) * | 2007-08-17 | 2009-02-18 | Stichting Tech Wetenschapp | Werkwijze voor het meten van zaadkwaliteit. |
JP5791897B2 (ja) | 2007-09-24 | 2015-10-07 | キージーン ナムローゼ フェンノートシャップ | 特異的突然変異を有する植物を選択する方法 |
US10172305B2 (en) * | 2011-04-29 | 2019-01-08 | Monsanto Technology Llc | Diagnostic molecular markers for seed lot purity traits in soybeans |
US20160047003A1 (en) | 2013-03-08 | 2016-02-18 | Vineland Research And Innovation Centre | High throughput method of screening a population for members comprising mutation(s) in a target sequence |
EP3166403A1 (fr) * | 2015-02-19 | 2017-05-17 | Yeditepe Universitesi | Formulation de revêtement pour la stérilisation de semences et de surfaces |
WO2018015495A1 (fr) | 2016-07-20 | 2018-01-25 | Vilmorin & Cie | Procédé de prédiction de la capacité de germination d'une graine de maïs par résonance magnétique nucléaire |
-
2018
- 2018-07-30 FR FR1857115A patent/FR3084374B1/fr active Active
-
2019
- 2019-07-29 AU AU2019312799A patent/AU2019312799A1/en active Pending
- 2019-07-29 EP EP19749675.5A patent/EP3830287A1/fr active Pending
- 2019-07-29 JP JP2021529517A patent/JP2021532834A/ja active Pending
- 2019-07-29 US US17/264,427 patent/US20210317539A1/en active Pending
- 2019-07-29 WO PCT/EP2019/070386 patent/WO2020025554A1/fr unknown
- 2019-07-29 CA CA3107562A patent/CA3107562A1/fr active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030219784A1 (en) * | 2002-01-29 | 2003-11-27 | Third Wave Technologies, Inc. | Systems and methods for analysis of agricultural products |
WO2015110472A1 (fr) * | 2014-01-21 | 2015-07-30 | Limagrain Europe | Procédé d'échantillonnage de tissu de graines |
Non-Patent Citations (2)
Title |
---|
KIRK M REMUND ET AL: "Statistical considerations in seed purity testing for transgenic traits", SEED SCIENCE RESEARCH., vol. 11, no. 2, 1 June 2001 (2001-06-01), GB, pages 101 - 119, XP055527790, ISSN: 0960-2585, DOI: 10.1079/SSR200166 * |
YOON M S ET AL: "BARCSoySNP23: a panel of 23 selected SNPs for soybean cultivar identification", THEORETICAL AND APPLIED GENETICS ; INTERNATIONAL JOURNAL OF PLANT BREEDING RESEARCH, SPRINGER, BERLIN, DE, vol. 114, no. 5, 12 January 2007 (2007-01-12), pages 885 - 899, XP019487589, ISSN: 1432-2242, DOI: 10.1007/S00122-006-0487-8 * |
Also Published As
Publication number | Publication date |
---|---|
US20210317539A1 (en) | 2021-10-14 |
AU2019312799A1 (en) | 2021-02-25 |
EP3830287A1 (fr) | 2021-06-09 |
JP2021532834A (ja) | 2021-12-02 |
WO2020025554A1 (fr) | 2020-02-06 |
FR3084374B1 (fr) | 2024-04-26 |
CA3107562A1 (fr) | 2020-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10544471B2 (en) | Methods for sequence-directed molecular breeding | |
MUÑOZ‐FUENTES et al. | Hybridization between white‐headed ducks and introduced ruddy ducks in Spain | |
Brouard et al. | Low-depth genotyping-by-sequencing (GBS) in a bovine population: strategies to maximize the selection of high quality genotypes and the accuracy of imputation | |
Marrano et al. | A new genomic tool for walnut (Juglans regia L.): development and validation of the high‐density Axiom™ J. regia 700K SNP genotyping array | |
Morgil et al. | Single nucleotide polymorphisms (SNPs) in plant genetics and breeding | |
Hedges et al. | Exome sequencing of a multigenerational human pedigree | |
Pootakham et al. | Large-scale SNP discovery through RNA sequencing and SNP genotyping by targeted enrichment sequencing in cassava (Manihot esculenta Crantz) | |
Gonzaga et al. | Evaluation of SSR and SNP markers for molecular breeding in rice | |
CN110878345A (zh) | 通过分子计数提高等位基因调用的置信度 | |
Telfer et al. | A high-density exome capture genotype-by-sequencing panel for forestry breeding in Pinus radiata | |
US20150379195A1 (en) | Software haplotying of hla loci | |
EP3879537A1 (fr) | Technologie moléculaire de prédiction d'un caractère phénotypique d'une bactérie à partir de son génome | |
US11483991B2 (en) | Methods for genotyping haploid embryos | |
CN114555821B (zh) | 检测与dna靶区域独特相关的序列 | |
EP3879536A1 (fr) | Technologie moléculaire de détection d'une séquence génomique dans le génome d'une bactérie | |
Nishimura et al. | MIG-seq is an effective method for high-throughput genotyping in wheat (Triticum spp.) | |
FR3084374A1 (fr) | Procede de controle qualite de lots de semences | |
Yang et al. | Linkage analysis and residual heterozygotes derived near isogenic lines reveals a novel protein quantitative trait loci from a Glycine soja accession | |
US20110010102A1 (en) | Methods and Systems for Sequence-Directed Molecular Breeding | |
Schaerlaekens et al. | Extracting a century of preserved molecular and population demographic data from archived otoliths in the endangered European eel (Anguilla anguilla L.) | |
Giessler et al. | Capturing the population structure of microparasites: using ITS‐sequence data and a pooled DNA approach | |
WO2021152257A1 (fr) | Procede de genotypage hla simple et rapide | |
EP3063299A1 (fr) | Procédé et kit d'identification d'un chien par l'analyse d'un échantillon biologique | |
Priyadarshan et al. | Molecular Breeding | |
KR102416250B1 (ko) | 독도강치 판별용 snp 마커 및 이의 용도 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 2 |
|
PLSC | Publication of the preliminary search report |
Effective date: 20200131 |
|
PLFP | Fee payment |
Year of fee payment: 3 |
|
PLFP | Fee payment |
Year of fee payment: 4 |
|
PLFP | Fee payment |
Year of fee payment: 5 |
|
PLFP | Fee payment |
Year of fee payment: 6 |
|
PLFP | Fee payment |
Year of fee payment: 7 |