CN1849064A - Qtl“随时定位”方法 - Google Patents

Qtl“随时定位”方法 Download PDF

Info

Publication number
CN1849064A
CN1849064A CNA2004800256900A CN200480025690A CN1849064A CN 1849064 A CN1849064 A CN 1849064A CN A2004800256900 A CNA2004800256900 A CN A2004800256900A CN 200480025690 A CN200480025690 A CN 200480025690A CN 1849064 A CN1849064 A CN 1849064A
Authority
CN
China
Prior art keywords
qtl
plant
allelomorph
estimated value
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800256900A
Other languages
English (en)
Inventor
D·波德利奇
M·库珀
C·温克莱尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Hi Bred International Inc
Original Assignee
Pioneer Hi Bred International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Hi Bred International Inc filed Critical Pioneer Hi Bred International Inc
Publication of CN1849064A publication Critical patent/CN1849064A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本发明提供了用于监测QTL作用和标记辅助选择(MAS)的方法,所述方法包括:提供经过递归确定的、一种或多种标记和目标表型之间的相关性。

Description

QTL“随时定位”方法
对于相关申请的交叉引用
本申请要求提交于2003年7月7日的美国临时申请号60/485,497的优先权和利益,该临时申请的公开文本为了一切目的被包括于本文中。
技术领域
本发明涉及对植物中表型性状,例如QTL的定位。更具体地,本发明提供了一种方法,用于针对下述表型性状进行有效定位以及对植物进行选择,所述表型性状与上位性(epistasis)和基因x环境相互作用的效果相关。
背景技术
在过去60至70年间,植物育种对于农业生产率的贡献是很大的(Smith(1998) 53 rd  Annual corn and sorghum research conference,American Seed Trade Association,Washington,D.C.;Duvick(1992)Maydica 37:69)。这很大程度上是因为植物育种者已经熟练于收集和整合来自对获得自优良自交系的复交的分离后代进行的大量评价的信息。进行此类育种程序需要大量的资源。例如,一位商业玉米育种者,可能要对1,000至10,000个F3顶交后代进行评估,所述后代是从在广泛的地理区域上进行的重复田间试验中的100至200次杂交所获得的。除此类巨大的资源投入之外,还有证据表明,过去的利润难以维继目前的方法(见上文,Smith(1998))。
从植物育种者的角度来看,发展分子标记技术的主要动机是,其可能通过标记辅助选择(marker assisted selection,MAS)增加育种的效率。实现该方法的关键要素是:(i)制作分子标记的密集遗传图谱,(ii)基于标记和表型变异性之间的统计联系,探测数量性状基因座(quantitative trait loci,QTL),(iii)基于QTL分析的结果,定义一组想要的标记等位基因,以及(iv)使用和/或外推该信息至现有的育种种质(breeding germplasm)组,以使基于标记的选择决定能被做出。
时至今日,该方法对于由少量基因控制的相对简单的性状而言是有效的(例如,疾病抗性;Flint-Garcia et al.,(2003) Theor.Appl.Genet.107:1331-1336),但对于由处于上位性(基因与基因的相互作用)影响和基因与环境相互作用的影响下的很多基因控制的更为复杂的性状来说,却有效性更低(Openshaw & Frascaroli(1997) Proc.Annu.Corn Sorghum Res.Conf.52:44-53;Melchinger et al.(1998) Genetics149:383-403;Utz et al.(2000) Genetics 154:1839-1849)。
典型地,传统的定位(mapping)方法依据如下假设:假设上位性和基因型x环境相互作用是可以忽略的或不存在的情况下,QTL以加合性(additive)方式发挥作用(关于最近的综述,见Bernardo,R.(2001)What if we knew all the genes for a quantitative trait in hybrid crops?Crop Science 41:1-4)。不存在上位性的情况下,标记辅助选择对于数量性状来说相对于表型选择表型选择(即,知道所有基因对于该性状的作用)不具优势。但是,现在的理解表明,依赖周围因素(contextdependent)的因子,例如,上位性,是数量性状遗传构造(geneticarchitecture)的重要方面(见,例如,Holland,J.B.,Epistasis and PlantBreeding(2001)Plant Breeding Reviews 21:27-92)。
大量的因素增加了将基于标记的选择方案成功用于复杂性状的困难性。一个主要的问题在于,对QTL及其作用的有效探测、估计和用途。这尤其会发生于性状由“依赖周围因素”的基因作用(即,与其它基因和/或环境的相互作用)控制的情形。
人们已对分析方法进行发展,以试图解决周围因素依赖性的作用(例如,Crossa et al.(1999) Theor.Appl.Genet.99:611-625;Jannink &Jansen(2001) Trends Plant Sci.6:337-342;Nelson et al.(2001) Genome Research11:458-470;Boer et al.(2002) Genetics 162:951-960;van Eeuwijk et al.(2002)In Kang,M.S.(ed). Quantitative Genetics,Genomics and Plant Breeding.pp.245-256.CAB International,Wallingford)。例如,在上位性的情况下,Holland(2001;Plant BreedingReviews 21:27-92)概述了一种方法,所述方法基于对相互作用的基因上优选的等位基因构型进行的鉴定。其他人也已提出了类似的方法(例如,Jansen et al.(2003) Crop Sci.43:829-834;Kuhnlein et al.(2003)Poultry Science 82:876-881)。方法上的其它进展包括:在相关个体中间使用多系杂交(multiple line cross)(Jannink et al.(2001) Genetics157:445-454;Yi and Xu(2001) Genetics 157:1759-1771;Bink et al.(2002)Theor.Appl.Genet 103:1243-1253)和/或单倍型(haplotype)信息以增加精确评估QTL及其作用的能力(Meuwissen and Goddard(2000)Genetics155:421-430;Jansen et al.(2003) Crop Sci.43:829-834)。在所有情况下,分析方法都假设,在具有足以应对所有的,或者至少是重要的可能存在的周围因素依赖性的能力下,来进行定位研究(mappingstudies)。
不考虑做出了何种假设,所有QTL分析方法的共有结果是对QTL等位基因作用的评估,无论是在个别基因水平上的或是在多种相互作用的基因复合体上的(Jansen(1996) Trends in Plant Science 1:89-94)。标记定位基因的目标组合定义自这些估计值,形成了在育种程序里MAS应用中的选择的基础。MAS的更为先进的应用可以基于它们在分析中所展示的遗传变化的量来对特定标记等位基因给以权重(weight)(Lande and Thompson(1990) Genetics 124:743-756)。但是,实际上,在植物育种中MAS的方法是在相对较窄的参考种群中来发展精确的QTL作用估计值,以及将这些估计值(estimates)用于基于标记的选择的应用。该方法假设,想要的QTL等位基因一旦已被鉴定,在多个选择循环中其将会保持为相关的。这即是,当在育种过程中新的种质被造出来时,最初计算出的对QTL作用的估计值将仍会适用(例如,Peleman& Rouppe van der Voort(2003) Trends Plant Sci.8:330-334)。其它的QTL分析可以在新的种质上进行,但是此类方法的目的是:通过使其变得“更为精确”,来验证或改进最初的估计值。QTL等位基因应保持相对固定或稳定这种假设对于仅由加合性基因控制的性状来说是合适的(例如,Bernardo(2001) Crop Sci.41:1-4)。以这种方式,QTL的作用在所有或大多数种质(包括现有的和未来的)中保持一致,因此,可通过独立组合或“叠加(stacking)”想要的等位基因来进行MAS。但是,当周围因素依赖性存在时,QTL等位基因的值可根据育种程序中现有种质组(set of germplasm)的遗传结构而有所不同(Wade(2002) J.Evol.Biology 15:337-346)。这即是,由于育种程序中任何给定的时间处背景(即,依赖周围因素的)作用的变化,给定的QTL等位基因的值在选择循环中可有所变化。因此,当这些背景作用重要的时候,通过MAS对想要的等位基因的叠加就变得不够了,因为可能发生下述情况:对在随后的育种循环中增加的性状表现而言,对等位基因的最初目标组合不再是最佳目标,或者甚至不是相关的(relevant)目标。
本发明的方法提供了一种新的方法,其被命名为“随时定位(Mapping As-You-Go)”方法,其不仅适用于目标基因型可在选择之前被确定的情况,其还适用于无法在育种程序的开始就确定目标基因型的情况;对目标基因型的确定将随育种程序的每个循环而有所发展和改进。因此,对目标基因型的确定将随着时间改变,因为选择改变了育种种群的遗传结构。这些和其它特征在下文中完整描述的基础上将会变得明确。
发明内容
本发明提供了一种新颖的方法,所述方法用于在植物种群中监测QTL作用,以及在植物育种程序的范畴内进行标记辅助选择。本发明的方法被命名为“随时定位”方法,其包括:在整个育种过程中,对QTL的若干等位基因作用的估计值进行递归再评估和验证,以确保对QTL作用(即,QTL等位基因作用)的估计值在育种程序期间,对于种质来说是相当的。这些方法较之传统方法能带来效率上的显著提高,所述传统方法仅在育种程序开始时对QTL的估计值进行评价,并在育种过程的持续期间使用这些相同的估计值,即“仅在开始时定位(Mapping Start Only)”方法,所述提高尤其存在于下述情况中,其中,上位性和/或基因型x环境相互作用对于决定表型而言具有显著的作用。
因此,在第一种实施方式中,本发明提供了用于确保分子标记的至少一种等位基因和表型之间的对应关系正确的方法。典型地,所述方法包括:对一系列标记进行监测,所述标记与和目标表型或性状相关的可能的QTL相连。所述标记可以分布于植物物种的基因组上,或可对其加以选择,使其对应于与表型相关的特定染色体、区域或连锁群。所述方法包括:针对多个植物种群,包括大量双亲杂交的后代,提供经过递归确定的、对于标记的等位基因(或标记)与表型之间的相关性的估计值。关于至少一种标记的等位基因和表型之间的相关性的第一个估计值,构成了对QTL等位基因作用的第一个估计值,其会被更新,以提供新的或经过修正的关于QTL等位基因作用的估计值,这是通过用想要的标记等位基因在植物后代中对标记等位基因和表型之间的相关性进行评估来得到的。例如,对QTL等位基因作用的第一个估计值是通过对植物种群中表型和标记之间的相关性进行评估来提供的。该植物种群可以包括单次育种杂交或多次育种杂交的后代,其可以是实实在在的植物或植物衍生的物质,或计算机上对植物的代表。从相关性被建立起来的种群中或从不同种群的植物中选择出至少一种拥有标记等位基因的植物。可选地,除标记选择之外,表型信息也可被用于选择过程。然后,通过下述方法对QTL等位基因作用的第一个估计值进行更新,所述方法为:评估(重评估)标记等位基因和表型之间的相关性,这在选出的植物的后代的种群中进行,所述植物是通过自交、与另一种选出的带有标记的植物杂交获得的,或通过将选出的植物与具有另一植物品系或种群(例如,缺乏标记或不确定是否有标记的)的成员杂交获得的。这产生了QTL等位基因作用的更新的估计值。在育种程序期间,选择和重评估过程再在每个循环中重复,或在育种循环的间隔期重复。
对QTL等位基因作用估计值的更新可通过用后续植物种群中后续估计值来替代第一个或早先的估计值来进行。或者,这种更新可以通过将代表标记和表型之间的第一种相关性的数据与来自后续种群的数据组合起来来进行,以产生出关于QTL等位基因作用的组合估计值。在一些实施方式中,更新包括来自在育种程序开始时所提供的原始相关性的数据(即,用于对QTL等位基因作用的第一个估计值)。或者,可在重评估期间,对多个育种循环的选出的窗口(window)(或亚组)上的数据进行组合,以提供更新的对QTL等位基因作用的估计值,所述估计值与最初种群的表型的偏离更为不显著,因为在育种过程期间种质在选择的影响下有所发展。如果需要的话,所述窗口可以随着育种过程的每个后续循环滑动(slide)或移动。
典型地,使用至少一种统计分析来确定:通过递归确定的标记等位基因和表型之间的相关性的估计值(或者,通过递归确定的QTL等位基因作用的估计值)。此类统计分析能有利地用于:QTL(QTL标记)内部和之间的加合作用、显性作用、超显性作用、上位性和基因型x环境相互作用中的一种或多种。可用本领域已知的用于鉴定QTL标记和评估QTL作用的目的的任何统计方法来建立相关性。例如,此类统计方法包括:单点(single point)标记分析、区间定位(intervalmapping)、复合区间定位、惩罚回归(penalized regression)分析、复杂系谱分析、MCMC分析、MQM分析、HAPLO-IM+分析、HAPLO-MQM分析和HAPLO-MQM+分析、Bayesian MCMC、岭回归、后代一致性(identity-by-descent)分析、Haseman-Elston回归。典型地,统计分析在计算机辅助下进行,例如,包含用于开展相关统计分析的统计软件。
在一种示例性的实施方式中,对标记和表型之间的对应性进行监测,例如,在育种程序期间,通过提供对QTL作用的第一个估计值来进行,所述估计值展示出了大量植物中标记和表型之间的相关性。选出至少一种具有标记的植物,可选地,从相关性建立起来的植物群中。然后将选中的植物进行杂交,以产生后代种群。通过对后代种群中标记和表型之间的相关性进行评估来产生对QTL作用的第二个估计值,并通过用对QTL作用的第二个估计值来代替对QTL作用的第一个估计值,或通过组合对QTL作用的第一个和第二个估计值以产生对QTL作用的第一个经更新的估计值,来更新对QTL作用的第一个估计值。从后代种群中选出至少一种具有想要的标记的植物,本方法可选地重复一次或多次,以产生:基于后续更新的对QTL作用的估计值选出的额外的后代。
标记辅助选择(MAS)根据本发明来进行,其通过如下方法来进行:选出具有标记的植物,所述植物展示出与想要的表型之间的对应性,这是基于通过递归确定的QTL作用的相关性来判断的。典型地,通过MAS选出的一种或多种植物被杂交,以产生后代种群用于进一步的研究和育种,用于持续选择或用于产生具有想要的表型的植物。后代可通过选出的植物的自交来产生,或通过选出的植物的回交或异交来产生。根据本发明的方法选出的植物也是本发明的特征。
在另一种实施方式中,本发明提供了用于克隆或分离具有至少一个标记、处于连锁不平衡(linkage disequilibrium)状态的核酸片段的方法。此类核酸可以包括另外的标记,染色体间隔和/或包含QTL的核酸。可选地,经过分离的核酸被转化进植物,以产生转基因植物。典型地,经过分离的核酸在表达载体和表达盒中被引入到宿主植物中,其中所述核酸可操作地连接到启动子和/或另外的表达序列上,例如,增强子等。如果需要的话,转基因植物可被杂交,以产生另外的携带有引入的核酸的植物。此类转基因植物和它们的后代也是本发明的特征。
虽然本发明的方法通常可用于任何感兴趣的植物或动物物种,但是,作物类植物,包括玉米(corn)(玉米,maize)、大豆、向日葵、高粱、小麦、水稻、亚麻、棉花、粟(millet)和菜籽(canola)是特别适用的。
类似地,本发明的方法可用于基本上任何可被测量的目标表型或性状。此类表型可被直接评估,例如,通过视觉观察来进行,或者可用合适的设备对它们进行间接评估。例如,对植物而言,产量(例如,谷物产量、青贮饲料(silage)产量)、胁迫(例如,中期(mid season)胁迫、末期(teminal)胁迫、水分胁迫、热胁迫等)抗性、疾病抗性、昆虫抗性、对密度的抗性、谷粒数、谷粒大小、穗大小、穗数、荚数、每荚种子数、成熟度、开花时机、开花所需的热量单位、开花所需的天数、根倒伏抗性、茎倒伏抗性、植株高度、穗高度、谷物水分含量、测重、淀粉含量、油含量、谷物成分、淀粉成分、油成分、蛋白质成分、营养物含量等,全都是本发明范畴内的合适的表型。其它适当的表型对于本领域技术人员来说也是显而易见的。表型可以是分子表型,例如,表达状况(expression profile)。或者,表型可以是由数学关系所表示的对物理或分子表型的间接测量值。
集成系统(integrated system),包括计算机、使用者界面、数据库(包括种群数据)以及用于递归评估和更新QTL作用的指导手册也是本发明的特征。
附图说明
图1(a-c):(a)“仅在开始时定位”和(b)“随时定位”方法用于标记辅助选择的示意图。性状(表型)的表现示于垂直轴上。育种程序的循环被示于水平轴。(c)展示了每个循环和每5个循环对QTL估计值进行更新的情况。箭头表示对QTL作用的独立评估。
图2:使用(a)“仅在开始时定位”和(b)“随时定位”方法进行标记辅助选择的育种程序的基本结构的示意图。
图3:对QU-GENE软件进行操作的示意图。
图4:对MiniMin模块进行操作的示意图。
图5:条线图(bar graph),其展示了使用E(NK)系综(ensemble)方法时对于(a)加合和(b)上位性系统的基因作用的分布。基因数量(%)示于垂直轴上。基因的值被示于水平轴上。
图6:线图,其展示了所有其它参数平均(78,750轮MiniMin,其中包括全部水平的上位性、遗传率和MAS权重)的情况下,随时定位和仅在开始时定位策略的平均性能。性能被示于垂直轴。育种程序的循环被示于水平轴。
图7(a和b):线图,其展示了(a)所有参数平均的情况下;(b)对于K水平不同,遗传率和MAS权重水平平均的情况下,随时定位相对于仅在开始时定位的策略的性能。相对于仅在开始时定位的性能被示于垂直轴中。育种程序的循环被示于水平轴。
图8:线图,其展示了当遗传率水平等于(a)0.1、(b)0.5和(c)0.95的情况下,针对四种不同水平的K,随时定位相对于仅在开始时定位的策略的性能。MAS权重为50%。相对于仅在开始时定位的性能被展示于垂直轴中。育种程序的循环被展示于水平轴中。
图9:在育种程序中的第(a)5、(b)10和(c)20个循环时,随时定位方法相对于仅在开始时定位的方法的性能的瞬间图。性能是在所有遗传模型和MAS权重水平的平均情况下测量的。水平轴显示了对于全部125个遗传模型的性能,从左到右依次关于K值(1-25:K=0;26-50:K=0.5;51-75:K=1;76-100:K=2;101-125:K=3)。垂直轴显示了对于所有个别MAS权重水平(总共21种)的性能,其范围从仅有标记选择(MS=0%)到仅有表型选择(PS=100%)。性能以颜色量度表示。黄-绿表示方法进行得相等,增加的相对性能则以颜色量度朝向紫色的变化来表示。没有哪种情况下,随时定位比仅在开始时定位要差。
图10(a和b):线图,其比较了:使用在不同间隔处更新的QTL作用的情况下,随时定位策略和仅在开始时定位策略的性能。(a)结果是在所有其它参数平均的情况下取得的。(b)结果相对于所有轮次上平均应答而标准化。经过标准化的表现被示于垂直轴上(对美中更新策略而言,625,000轮MiniMin,其中包括全部水平的上位性、遗传率和MAS权重)。育种程序的循环被示于水平轴上。正值显示,应答高于平均值,而负值表示其低于平均应答。
图11(a-d):线图,其展示了仅在开始时定位的方法和对于不同K水平:(a)K=0;(b)K=1;(c)K=2;(d)K=3的情况下四种随时定位方法的经过标准化的性能。标准化的性能(%)被示于垂直轴上。育种程序的循环被示于水平轴上。性能已经相对于所有轮次上的平均应答进行了标准化。
图12(a-d):线图,其展示了对于不同MAS权重,而K和遗传率水平为平均情况下时,四种随时定位方法和仅在开始时定位的方法的经过标准化的性能,其中(a)MAS权重=0%;(b)25%;(c)50%;(d)75%。标准化的性能(%)被示于垂直轴上。育种程序的循环被示于水平轴上。性能已经相对于所有轮次上的平均应答进行了标准化。
图13(a和b):线图,其展示了遗传率水平被设置为(a)0.1和(b)0.7,K和MAS权重水平为平均情况下时,四种随时定位方法和仅在开始时定位的方法的经过标准化的性能。标准化的性能(%)被示于垂直轴上。育种程序的循环被示于水平轴上。性能已经相对于所有轮次上的平均应答进行了标准化。
图14:线图,其展示了对于三种类型的环境下,四种随时定位方法和仅在开始时定位的方法的经过标准化的性能,其中(a)严峻末期胁迫,(b)中期胁迫和(c)温和末期胁迫。相对于所有轮次上的平均应答经过标准化的性能被展示于左边的图中。对于两种方法而言,四种组成性状的基因频率的变化被展示于右边的图中。
图15(a和b):线图,其展示了三种不同环境(严峻末期胁迫(左图);中期胁迫(中图)和温和末期胁迫(右图))中,在不同水平的遗传率(a)1.0和(b)0.01下,MAS权重和QTL评估类型水平平均的情况下,四种随时定位方法和仅在开始时定位的方法的经过标准化的性能。标准化的性能(%)被示于垂直轴上。育种程序的循环被示于水平轴上。
图16(a和b):线图,其展示了三种不同环境(严峻末期胁迫(左图);中期胁迫(中图)和温和末期胁迫(右图))中,在QTL估计值通过(a)使用表型QTL评估;和(b)使用直接(explicit)QTL评估产生的情况下(MAS权重和遗传率水平为平均情况),四种随时定位方法和仅在开始时定位的方法的经过标准化的性能。标准化的性能(%)被示于垂直轴上。育种程序的循环被示于水平轴上。
图17(a-e):线图,其展示了三种不同环境(严峻末期胁迫(左图);中期胁迫(中图)和温和末期胁迫(右图))中,MAS权重水平不同的情况下:(a)0%;(b)25%;(c)50%;(d)75%;(e)100%(遗传率水平和QTL评估类型为平均情况),四种随时定位方法和仅在开始时定位的方法的经过标准化的性能。标准化的性能(%)被示于垂直轴上。育种程序的循环被示于水平轴上。
图18:仅在开始时定位和三种版本的随时定位方法的相对性能,其中,对于九类普通类型的遗传模型进行(表1);加合遗传模型:E=1,K=0;上位性作用模型:E=1,K=1、2;基因环境作用模型:K=0,E=5、10;上位性和基因环境作用模型:E=5、10,K=1、2。在所有情况下,性能被表示为:给定的育种策略和仅在开始时定位方法之间应答的差异。正值表示,该育种策略比仅在开始时定位的方法具有更高的应答,而负值表示该育种策略比仅在开始时定位的方法具有更低的应答。性能差异以经过归一化的性状值的方式表示。
图19:对于九类普通类型的遗传模型(表1)而言性能(图18)的标准差;加合遗传模型:E=1,K=0;上位性作用模型:E=1,K=1、2;基因环境作用模型:K=0,E=5、10;上位性和基因环境作用模型:E=5、10,K=1、2。
图20:在育种程序的第10个循环和20个循环处,用于MAS的仅在开始时定位和随时定位(更新=每个循环)。每个点代表育种程序中的单个遗传模型和单个轮次。所有九类遗传模型(表1)都显示了(每类250个点)。
图21:对于六类普通遗传模型而言,仅在开始时定位和随时定位方法的相对性能。在所有情况中,性能被表示为:给定的育种策略和仅在开始时定位方法之间应答的差异。性能差异以经过归一化的性状值的方式表示。每条线代表着育种程序的1,000轮上的平均性能(总共24,000轮)。所考虑的E(NK)模型的分类在表1中给出。
图22:对于两种不同的起始种群构型(标记间,低和高连锁不平衡(LD))而言,对于三类普通遗传模型(E=10;K=0、1、2),仅在开始时定位和随时定位方法的相对性能。在所有情况中,性能被表示为:给定的育种策略和仅在开始时定位方法之间应答的差异。性能差异以经过归一化的性状值的方式表示。每条线代表着育种程序的1,000轮上的平均性能(总共24,000轮)。所考虑的E(NK)模型的分类在表1中给出。
图23:用于六类普通遗传模型的五种育种策略的相对性能。在所有情况中,性能被表示为:给定的育种策略和仅在开始时定位方法之间应答的差异。正值表示,该育种策略比仅在开始时定位的方法具有更高的应答,而负值表示该育种策略比仅在开始时定位的方法具有更低的应答。性能差异以经过归一化的性状值的方式表示。每条线代表着育种程序的20,000轮上的平均性能(总共600,000轮)。所考虑的E(NK)模型的分类在表1中给出。
图24:线图表示被称为“生理上位性(physiological epistasis)”的基因型组合的作用,条线图展示了在遗传背景上基因A的平均基因型作用(垂直条;对于基因A的aa和AA基因型而言,平均基因型值的统计评估)。三种假定的遗传模型分别被展示为:(a)单个独立的加合基因(基因A);K=0,(b)二基因网络,其中基因A与基因B相互作用;K=1;和(c)三基因网络,其中基因A与基因B和C相互作用;K=2。垂直条的值显示了对于基因A的两类同源基因型的作用,这是在所述网络中所有背景基因型组合上平均的情况下得到的。
图25a:一系列条线图显示了:在10,000个独立种群中所评估的,关于基因A的等位基因作用大小的分布。图25b显示了三十种不同轮次的选择中,10个循环的选择上关于基因A的估计出的等位基因作用。正的作用大小表示,基因型种类AA是有利的,负的作用大小表示,基因型种类aa是有利的。用于构建该图的三种遗传模型是图24中所示出的那些的延伸。在所有情况中,遗传模型具有10个基因。图24中未示出的基因被定义为具有加合作用(即,相当于图24a)。例如,对于遗传模型(K=2)而言,前三个基因在图24c中被定义,剩下的7个基因则被定义为具有加合性独立作用。
发明详述
引言
本发明提供了一种用于对数量性状进行定位和选择的新颖的方法,所述方法考虑到了上位性和基因型x环境相互作用的复杂的周围因素依赖性作用,以促进想要的植物(和/或动物)变异体的产生。简言之,本发明的方法包括:应用“随时定位”策略来进行对复杂性状的分析,例如,具有农艺学兴趣的性状。随时定位策略不同于以前的定位方法,因为在育种过程期间,对QTL作用的估计值会有规律地被重新评价,以确保新的种质产生时遗传模型仍是恰当的。在传统的标记辅助选择中,仅对QTL作用进行一次评估(即,“仅在开始时”进行),而在育种过程期间进行的选择都以这些固定的估计值为基础。
实际操作中,单次评估或仅在开始时定位的方法可以基于多次定位研究的集合或单次定位研究的结果。但是,就本文所讨论的目的而言,仅在开始时定位的方法,在MAS应用中,育种程序的所有循环上都采用单组QTL估计值,以使针对固定的目标基因性的选择能进行。仅在开始时定位的方法的一个例子是所谓的“通过设计进行育种”的概念,其由Peleman and Rouppe van der Voort(2003)Trends Plant Sci.8:330-334所描述。
本发明的在育种程序期间对QTL作用的递归重评估不应与对遗传图谱分辨率的简单改进(例如,通过在建立起的图谱上放置额外的标记来进行的)或对初始种群内样品大小的增加所混淆。在传统标记辅助选择(MAS)程序中,遗传模型在育种程序持续期固定为开始值。这即是,在开始时对QTL的数量、位置和作用进行评估,这些估计值被用于在育种程序中评价、选择和intermate种质。作出的对估计值的调节的程度仅是为了增加最初的估计值的精确度的目的。
相反,在随时定位中,QTL作用被递归确定,这即是说,在育种过程期间,新种质产生时,在种群(例如植物种群)上进行评估和重评估,以确保在选择下,种质改变时,用于评价和选择的等位基因和QTL标记仍是恰当的。以这种方式,因为存在周围因素依赖性作用,QTL等位基因的评估值可在育种程序循环上发生大小变化,在极端情况下,不同的QTL等位基因可被确定为有利的。因此,在育种程序期间,对一个等位基因类型(或单倍型)施加的选择压力可被分散为对其它等位基因类型(或单倍型)施加的选择压力。
这些更新的估计值被用于修正(inform)模型(例如,通过添加或移去标记和/或改变等位基因偏好性(preference)),以及用于确定种群(例如,具有农艺学兴趣的植物或动物的种群)的哪些成员应被选出和intemate。虽然在随时定位方法的范围内,多种变体方法都是可被考虑的,但是,按照本文所述使用的关键步骤如下:
i)从最初的育种杂交组来评估QTL等位基因的作用。
ii)用来自最初的QTL分析的信息来构建标记等位基因的目标构型,在用于QTL定位研究的有代表性的种质上进行标记或标记辅助选择。
iii)在选出的品系中制造一个新的杂交组。
iv)对从新的杂交组获得的种质组中的QTL等位基因作用进行重评估。
v)更新将用于下一个选择循环的QTL作用的估计值。
vi)在更新的QTL作用的估计值的基础上,在新的杂交组中进行选择。
vii)通过在育种过程的循环上产生新的种质时,对QTL的估计值进行改动,来继续这样的循环过程。
图1(a和b)和2显示了用于标记辅助选择的传统“仅在开始时定位”方法和“随时定位”方法之间的区别。
随时定位方法还提供了对错误类型的有效处理方法,在对种群进行定位时,所述错误类型可能很容易地在对QTL作用的评估中引入。可能发生于QTL定位研究中的两类常见的错误是:(1)当事实上没有QTL存在于该连锁位置时确定下来显著的QTL作用(即,第I类错误),以及(2)对确实存在的显著QTL没有鉴定出来(即,第II类错误)。在这两种情况中,错误可以危害到对有利的标记构型的确定,因此会降低MAS的有效性。当真的QTL位置被正确鉴定出但不正确的等位基因被指为有利的等位基因时,在定位研究中可能发生第三种类型的错误(即,第III类错误)。在使用随时定位的方法时,这些类型的错误的影响被限制在育种程序的单个循环之内。这即是说,对于非QTL的任何选择压力,或对真QTL的选择压力缺乏,将仅在下一轮QTL评估开始之前有效。因此,在育种程序中,在任何给定的定位研究中产生的错误在较长的时间内将只有很小的影响。
随时定位方法是通过对一种或多种QTL标记(例如,一种或多种标记基因座的鉴定出的等位基因)与一种或多种目标表型或性状之间的关联性的评价来初始化的。例如,全面的分子标记图谱可被用于鉴定与评价过程下性状变异性相关的一种或多种多态标记(即,具有多于一种可辨识的等位基因的标记)。或者,与基因组亚组(例如,染色体、染色体区域或连锁群)相应的分子标记亚组也可以使用。展示出与目标性状具有最初的相关性的标记,即,在对目标性状的变异性进行的测量中,具有以连锁不平衡的方式分离的两个或多个等位基因的标记,被指定为QTL标记,或者简单地,标记。
在从单次育种杂交,或多次相关或非相关育种杂交产生的后代上,来评价标记和表型之间的关联性。将认识到,多态标记和目标性状之间的关联性可在种群或一种杂交的后代中观察到,而在种群或另一种杂交的后代中则可能建立不起来相关性。与QTL标记相关的基因的可被鉴定的作用是否存在,会受到育种种群中单个个体或多个个体的遗传背景,以及环境影响因素的影响。例如,在植物育种程序的情况下此类环境变数,如土壤成分、胁迫、热、干旱、日照天数、有害生物(例如,细菌、真菌或昆虫)负荷等,可能对选择过程下种群的表型属性和生长特征造成显著的影响。
遗传背景对于基因,例如QTL的表型表达的影响,被泛指为“上位性”。相反,生物的外在环境对于基因的表型表达的影响被称为“基因型x环境”相互作用。本发明提供了用于鉴定下述QTL(和QTL标记)的方法,所述QTL作用于“多因子(multi-factorial)”表型性状上的上位性和基因型x环境相互作用。虽然在上位性和基因型x环境相互作用显著的情况下,能获得相对于传统仅在开始时定位的方法性能上最为显著的进步,但是,本领域的技术人员应认识到,本文中所述的方法同样可用于上位性和基因x环境相互作用对于目标性状遗传率都没有显著影响的情况下。多个基因独立地对“多基因”表型性状的表达产生的作用通常被称为“加合性的”。
在QTL标记(或可能的QTL标记,或事实上,QTL)的一种或多种等位基因和生物群(例如,具有农艺学兴趣的植物或动物)的目标性状之间建立起关联,可以产生出对QTL作用或QTL等位基因作用的第一个估计值。如上文所讨论的,对QTL等位基因作用的估计值可以是作为样品的群或种群所特有的,或者是一系列种群所通用的。在用于QTL标记的对QTL等位基因作用的第一个估计值产生之后,具有想要的标记等位基因(即,展示出与目标表型相关的等位基因)的至少一种生物可被选出,作为后续育种杂交的受试者。植物可从同样的种群中选出,来提供用于评估QTL等位基因作用的基础,或者可从不同的群中选出,其产生自相同或不同的育种种群。事实上,确定出的生物可从种质的任何可获得的集合中选出。
可选地,在QTL标记之外,可基于表型信息对生物进行选择。使用与表型相关的额外信息在下述情况下是特别有用的,其中,上位性和/或基因-环境相互作用在表型性状的表达中发挥着显而易见的作用。虽然在随时定位分析的早期阶段,使用表型数据是最为常见的,但是应当理解到,在定位或选择过程中的任何阶段,在探测QTL标记之外,使用表型数据以取得有利的结果是可行的。
然后将选出的生物进行杂交,以产生后代种群。杂交可在选出的个体之间进行,其中,每个个体都具有目标QTL标记,或者,杂交可在选出的个体与从另一品系或种群中选出的一个或多个个体之间进行,从另一品系或种群中选出的一个或多个个体可以具有目标QTL标记,也可以不具有。可选地,可针对目标QTL标记是否存在,对此类新的品系或种群进行评价。
使用相同的或不同的分子标记图谱,可对一种或多种QTL标记(其可以以与之间被评价的QTL标记相同或不同)之间的关联进行评价,以再次产生对QTL等位基因作用的估计值,即,对QTL等位基因作用的第二个估计值。然后,对QTL等位基因作用的第二个估计值可被用于对QTL等位基因作用的第一个估计值进行更新,这可以通过替换第一个估计值,或通过组合第一个和第二个估计值以产生更新的对QTL等位基因作用的估计值来进行。然后,该被更新的对QTL等位基因作用的估计值被用于选择具有目标QTL标记的杂交后代。
用通过递归更新的对QTL等位基因作用的估计值来进行杂交和选择,提供了随时定位策略的基础,如需要的话,基于特定的一个或多个种群,以及特定的目标性状及应用,其可被持续,进行多个选择和育种的循环。
较之表型选择策略,或基于对QTL的单次估计值的标记辅助选择(MAS)策略,随时定位策略提供了更高的选择应答率。对受到上位性和/或基因型x环境相互作用影响的数量性状来说,增加的应答率特别显著。因此,在用于单个种群或用于多个相关或非相关种群的育种程序中,可以更为迅速地制造出改进的品种,例如近交体或杂交体。
随时定位策略的发展来自一系列对数量性状定位的研究,其中使用了一种模型,其明显展示出上位性和基因型x环境相互作用的影响。上述研究使用了E(NK)模型,以在QTL分析和选择过程中激发出上位性的影响和基因型x环境互相作用的影响。但是,虽然E(NK)模型特别适用于本发明的方法,考虑到上述影响的任何统计模型或方法也是适用的。此外,普通的随时定位策略可以有利地用于下述情况,其中,仅可观察到的基因作用以加合方式进行,例如,其中,上位性和基因型x环境相互作用在表型性状的表达中具有不显著或可忽略(或无法探测到或不存在)的作用。
随时定位策略与现有的方法不同,因为其它所有的QTL定位方法中,关键都在于进行单次定位研究,以评估QTL作用,以有效产生关于QTL数量、位置和作用的“快照(snap-shot)”。然后这样的相同的估计值被用于整个定位和选择过程中。如果与QTL相关的基因以加合方式发挥作用的话,这些现有的方法是有用的,因为这些作用被认为会在杂交内和杂交之间(而不用管生物所生长的环境,或生物被培养的条件)以及选择期间都保持一致。事实上,典型地,这些现有的定位方法都是基于上位性和基因型x环境相互作用不存在这一假设来预测的。但是,在存在上位性和/或基因型x环境相互作用的情况下,QTL等位基因的作用就是周围因素依赖性的了。通过对作用进行重评价以及随着周围因素的变化来更新对QTL作用的估计值,进行的与选择过程平行的随时定位策略,使得下述变为可能:应用合适的选择压力(即,基于合适的单个或多个QTL标记),而不管环境或遗传因素的变化。
定义
本文中使用的术语仅用于描述具体实施方式的目的,而非欲对本发明加以限制。除非另有清楚地指明,在本说明书和所附的权利要求书中所使用的单数形式“一个(a)”、“一个(an)”或“这/那个(the)”也包括指代物的复数形式。因此,例如,提到“一个表型”或“一个特性”时,其也包括两个或多个表型或特性的组合;提到“后代”或“种质”时,其也包括后代或种质的混合物,例如来自相同或不同的来源等的。
除非另有定义,本文中使用的所有技术和科学术语都与本发明所属领域的普通技术人员通常所理解的意义相同。虽然与本文所述的方法和材料类似或相当的任何方法和材料都可用于实施本发明,但是优选的材料和方法被描述于本文中。在描述本发明以及提出权利要求时,下述术语将被按照下面列出的定义来使用。在将本说明书作为整体来理解时,下面定义的术语将得到更为完整的定义。本说明书中提供的章节标题仅为方便之用,而非欲对本发明的多种对象和实施方式加以限制。
“相关性的估计值”是:标记等位基因或单倍型与目标标性之间的统计关系的数学表述。可用本领域已知的、用于鉴定遗传标记以及评价标记和表型之间的关联强度(例如,测定基因对表型表达的作用的大小,和/或测定影响目标表型的基因和标记之间的连锁接近程度)的任何统计方法来建立所述的相关性。“QTL作用的估计值”是:对QTL标记或单倍型与表型之间的相关性的估计值。
术语“通过递归确定的”指,例如,相关性的估计值,或QTL等位基因作用的估计值,是通过对标记或单倍型与目标表型之间的统计关系进行重复评价产生的。每次重复都是对作为样品的种群中,标记或单倍型与表型之间的相关性强度的独立分析。因此,在植物育种程序的范围内,在下述情况下,QTL等位基因作用的估计值是通过递归确定的,所述情况下,标记或单倍型与表型之间的相关性是在下述后代种群中确定的,所述后代种群选自育种过程期间连续间隔(代)处的育种种群。
术语“表型”或“表型性状”或“性状”指生物的一种或多种可观察到的性状。表型可为肉眼或本领域已知的其它设备,例如显微镜、生化分析、基因组分析等所观察到。本文中使用的术语“表型”还包括对作为数学关系表达的性状的间接测量。在一些情况下,表型受到单个基因或遗传基因座的直接控制,即“单基因性状”。在其它情况下,表型是多个基因,或“数量性状基因座(“QTL”)”共同作用的结果。此类表型通常可以以数量术语来表示,例如,高度、重量、油含量、发芽天数等,因此,其可被分配与针对表型性状的数量值相应的“表型值”。
“分子表型”是可在(一种或多种)分子群水平上探测到的表型。此类分子可以是核酸分子,最为平常地,RNA(例如,可作为粗RNA、多聚A RNA、mRNA、扩增产物、cDNA产物等被探测到)、蛋白质或代谢产物。例如,分子表型可以是对于一种或多种基因产物的表达状况,例如,在植物发育的特定阶段,应答于环境条件或胁迫等。典型地,表达状况在RNA或蛋白质水平上被予评价,例如,在核酸阵列或“芯片”上,或使用抗体或其它结合蛋白质。
“表达产物”是在细胞中从DNA(例如,从基因)转录来的或从RNA翻译来的(例如,蛋白质)。表达产物的例子包括mRNA和蛋白质。
“表达状况”是对来自细胞、组织或整个生物体的表达产物的代表性样品探测的结果,或其代表(照片、图像、数据表、数据库等)。例如,细胞或组织的很多种RNA表达产物可以在核酸阵列上被同时探测到,或者被差异显示技术或其改良型,例如Curagen’s“GeneCallingTM”技术所探测到。类似地,可用多种蛋白质探测方法来对蛋白质表达产物进行检测,例如与肽或抗体阵列杂交,或者通过对噬菌体展示文库进行筛选来检测。表达状况的“部分”或“亚部分(subportion)”,或“部分状况(partial profile)”是完全的状况所提供的数据的亚组,例如,所探测到的表达产物的总数的亚组所提供的信息。
术语“基因型”指:与可观察到的性状(表型)相对的遗传构造。术语基因型可被用于表示单个基因座或多个基因座上的个体遗传构造,或者,更为通常地,术语“基因型”可被用于表示:对其基因组中所有基因而言,个体的遗传组成。
术语“单倍型”用于更为具体地表示:在通常为连锁的多个基因座上的个体基因型。例如,单倍型可以是关于单个染色体上多个基因座或遗传标记的个体基因型。在这种情况下,或者使用术语“染色体单倍型”。类似地,可选地,用于给定的染色体区域中的多个基因座(或标记)的个体基因型被称为“区域单倍型”。
术语“数量性状基因座”或“QTL”指具有至少两个等位基因的多态遗传基因座,所述至少两个等位基因对至少一种遗传背景上(例如,至少一种育种种群中或后代样品中)的多因子或多基因表型性状(例如,多基因“数量性状”)的表达具有不同的影响。
“遗传标记”是在种群的个体之间会发生改变(多态的),并可被一种或多种分析方法,例如RFLP、AFLP、同工酶(isozyme)、SNP、SSR等探测到的基因座或DNA序列。“遗传标记”或“分子标记”指:当对遗传连锁基因座,例如QTL进行鉴定时,可被用作为参照点的遗传基因座(“标记基因座”)。此类标记还可被称为QTL标记。该术语还指代与基因组序列互补的核酸序列,例如,用作为探针的核酸。
当在本发明的范围内提到核酸(例如,遗传标记)和表型的时候,术语“与……相关”或“相关的”指以连锁不平衡的方式存在的核酸和表型性状。术语“连锁不平衡”指,遗传基因座的非随机分离。这暗示,此类基因座在染色体长度上具有足够的物理接近程度,使得它们趋向于一起分离的频率高于随机频率。
术语“遗传连锁的”指,以连锁不平衡存在,并在统计上确定为不能独立归类的遗传基因座。
当提到数量性状时,术语“加合(性)作用”或“加合(性)的”表示,该性状的各个遗传组分,即,对表型做出贡献的基因,互相独立,且独立于该植物或动物的遗传背景中的其它基因发挥作用,以及,每个做出贡献的基因的作用可被定量测量。相反,“非加合(性)作用”来自上位性和/或基因组x环境相互作用。在非加合性系统中,各个基因以互相依赖的方式发挥作用,其中,不考虑其它基因座上的等位基因的话,每个基因的贡献无法被定量探测到。
传统地,术语“上位性”指一个基因或遗传基因座能改变或掩饰第二个遗传基因座上的基因表达的能力。更为通常地,“上位性”指遗传背景或遗传环境对基因座(例如QTL)上等位基因的表达的作用。这即是说,上位性作用意味着,一个基因座上等位基因的表达或对性状的作用取决于另一个基因座上至少一种其它基因的表达或作用。术语上位性或“基因型x基因型相互作用”与词组“基因型x环境”相互作用相对,后者表示对一个或多个基因的表达造成影响的外界-基因相互作用。
“标记辅助选择”或“MAS”指,使用遗传标记,在育种种群的成员间针对想要的表型实施选择。
术语“植物种群”或“植物的种群”指一群植物,例如,从中取样进行评价(例如,评估QTL作用)和/或从中选出用于育种目的的植物的一群植物。更为通常地,术语植物种群指植物的育种种群。这是在育种程序中从中选出成员并进行杂交以产生后代的植物种群。但是,从中获得对QTL作用的估计值的种群成员无须与最终选来进行育种以获得后代植物(例如,用于分析的后续循环)的种群成员相同。在一些情况下,植物种群可以包括亲本植物以及从亲本植物获得的一种或多种后代植物。在一些情况下,植物种群获得自单一的双亲杂交,例如,在两个亲本之间进行的杂交的后代种群。或者,植物种群包括从两次获多次杂交获得的成员,其中涉及到相同的或不同的亲本植物。
在本发明的上下文中,术语“杂交的”或“杂交”表示配子的融合,例如,在述及植物的情况下,通过授粉以产生后代(即,细胞、种子或植物)。该术语包括有性杂交(一个植株对另一个的授粉),以及,在述及植物的情况下,自花授精(自花授粉,即,此时花粉和胚珠来自同样的植株)。
术语“杂交体植株”指来自遗传上不同的个体之间的杂交的植株。
术语“测试者亲本”表示,遗传上与与其杂交的一组品系不同的亲本。这种杂交用于评价顶交组合中品系间的差异。在有性杂交中使用测试者亲本,可以令技术人员能够确定环境对表型性状的影响与杂交体组合中数量性状基因座的表达之间的关联。
术语“顶交组合”和“杂交体组合”指,将单个测试者亲本与多种品系之间进行杂交的过程。进行此类杂交的目的是评价所述品系在从该品系与测试者杂交获得的杂交体后代中产生出想要的表型的能力。
术语“基因渗入(introgression)”指,遗传基因座的想要的等位基因从一种遗传背景转移到另一种中。例如,在特定基因座上的想要的等位基因的基因渗入可通过同样物种的两个亲本间的有性杂交被转移到至少一个后代中,其中,至少一个亲本在其基因组上具有想要的等位基因。或者,例如,等位基因的转移可以通过两个供体基因组之间的重组来进行,例如,在融合的原生质体中进行,其中,供体原生质体中的至少一种在其基因组上具有想要的等位基因。想要的等位基因可以是,例如,QTL或标记的选出的等位基因或转基因体。
术语“核酸”、“多核苷酸”、“多核苷酸序列”和“核酸序列”指,单链或双链的去氧核糖核酸或核糖核酸多聚体,或它们的嵌合物。本文中使用的该术语可以额外或另外包括天然存在的核苷酸的类似物,所述类似物具有天然核苷酸的必要本质,因而它们能以与天然存在的核苷酸类似的方式与单链核酸杂交(例如,肽核酸)。除非另有指明,可选地,本发明的特定核酸序列除包括明确指明的序列之外,还包括互补序列。术语“基因”被用于表示,例如,由基因组序列编码的mRNA和cDNA,以及该基因组序列。
术语“同源(的)”指,通过天然或人工方法从共同的祖先基因获得的核酸序列(例如,是同样的基因家族的成员),因此,典型地,它们具有序列相似性。典型地,同源核酸具有足够的序列相同性,使得序列中的一种或其互补体能够在选择性杂交条件下与另一种进行选择性杂交。术语“选择性杂交”包括:在严谨杂交条件下,探测到,核酸序列与特异性核酸靶序列的杂交的程度,较之其与非靶核酸序列的杂交要高(例如,至少超过背景2倍),以及对非靶核酸序列的充分排斥。选择性杂交序列具有大约至少80%的序列相同性,优选地,至少90%的序列相同性,以及最优选地,相互之间95%、97%、99%或100%的序列相同性。展示出至少一定程度上与参照核酸的同源性的核酸可以是独特的,或是与参照核酸或其互补序列相同的。
术语“经过分离的”指这样的物质(例如,核酸或蛋白质):在其天然存在的环境中通常与其相伴随或与其相互作用的成分已被部分或高度去除。可选地,经过分离的物质包含在其天然环境(例如,细胞)中不随该物质被一起发现的物质。此外,如果该物质存在于其天然环境,例如,细胞中,该物质已被放置于细胞中的某位置(例如,基因组或亚细胞器官),而该位置并非是在该环境中发现的该物质天然的位置。例如,下述情况下,天然存在的核酸(例如,启动子)可被认为是经过分离的,所述情况中,其被非天然存在的手段引入到了基因组中对该核酸来说并非天然的基因座上。本文中定义的“经过分离的”核酸,也被称为“异源”核酸。
术语“重组”表示,所述物质(例如,核酸或蛋白质)已被人为通过合成(非天然地)进行了改动。用于产生了合成物质的改动可在其天然环境或情形中在该物质上进行,或除去了其天然环境或情形的情况下进行。例如,下述情况下,天然存在的核酸能被认为是重组的核酸,所述情况下,其被人为改变,或者其从已被人为改变的DNA转录而来,所述改变例如进行于其来源的细胞上。
当提及异源的或经过分离的核酸时,术语“引入”指,将核酸包括进真核或原核细胞,其中,所述核酸可被包括进细胞的基因组(例如,染色体、质粒、质体或线粒体DNA),被转化为自主复制子,或被暂时表达(例如,转染的mRNA)。该术语包括下述核酸引入手段,如“转染”、“转化”和“转导”。
术语“宿主细胞”指含有异源核酸(例如,载体)并提供该核酸的复制和/或表达的细胞。宿主细胞可以是原核细胞,例如E.coli,或真核细胞,例如酵母、昆虫、两栖动物或哺乳动物的细胞。宿主细胞还可以包括单子叶或双子叶植物的细胞。在本发明的范围内,示例性的单子叶宿主细胞是玉米宿主细胞。示例性的双子叶宿主细胞是大豆细胞。
术语“转基因”植物或动物指,在其基因组内包含异源多核苷酸的植物或动物。通常,异源多核苷酸被稳定地整合到了基因组中,使得多核苷酸能被传递给后代。异源多核苷酸可被单独整合进基因组,或者也可作为重组表达盒的一部分整合进基因组。本文中使用“转基因”来指其基因型已经被异源核酸的存在所改变的任何细胞、细胞系、组织、部分或生物体,其包括最初已被改变的转基因生物或细胞,还包括通过来自最初的转基因生物或细胞的杂交或无性繁殖制造出的那些。本文中使用的术语“转基因”不包括通过传统育种方法(即,杂交)或通过天然存在的事件(例如,随机异体受精、非重组病毒感染、非重组细菌转化、非重组转座或自发突变)所造成的基因组(染色体或染色体外)的改变。可产生转基因生物的方法的例子见下文所述,其包括电转化、微注射、Agrobacterium介导的转化、生物弹(biolistic)法、活体转化(in planta)技术等。
术语“植物”包括任何下述物质:整个植物、植物器官(例如,叶、茎、根等)、组织、种子、植物细胞和/或它们的后代。类似地,本文中使用的“植物细胞”非限制性地包括:种子、悬浮培养液、胚胎、分生组织区域、愈伤组织、叶、根、芽、配子体、孢子体、花粉和小孢子。此外,术语“植物”包括植物的遗传构造的部分或全部的计算机表述形式。类似地,术语“动物”包括:整个动物、动物器官、组织、细胞、配子和/或后代等,以及动物的遗传构造的部分或全部的计算机表述形式。
标记辅助选择和育种
用于在具有农艺学兴趣的兴趣的物种(例如,作物和家畜及家禽)中发展QTL标记的一个显著的动机是,其可能提高通过标记辅助选择(MAS)进行的育种的效率。进行商业育种的通常的目的在于,将来自不同生物、株系、品系或种群的不同表型性状组合起来,例如,用于高产量的疾病抗性基因座和基因,以发展出改进的植物(例如,作物、家畜)品种。针对目标性状,例如疾病抗性,对大量的样品进行表型筛选是昂贵且耗时的。此外,单独的表型筛选经常是不可靠的,由于存在有上位性和非遗传(例如环境)作用对于表型的影响。MAS在野外评价过程上提供了好处,因为其可以在一年中的任何时何来进行,而不用管生长季或发育阶段,其还能协助对生长于不同地区或在不同条件下生长的生物的评价。
为清楚简明的目的而言,下述讨论仅涉及植物育种程序范畴内的本发明发明的应用。但是,本领域技术人员将能立刻意识到,本文所述的方法同样适用于动物(例如,具有农艺学重要性的家畜和家禽)育种。因此,术语“植物”的使用仅被用于举例,而非限制本发明的范围。
本发明的方法适用于具有内在(underlying)遗传成分的任何表型,即,任何可遗传的性状。因此,本发明的方法不局限于对任何特定的性状或性状组的定位和选择。事实上,希望培育出具有特定表型性状或特征,或具有选定性状的组合的植物的具有普通技术的育种者可以应用本文所述的通用方法去对植物进行选择和育种,以达到特定的标准。植物和动物中具有农艺学重要的表型中的绝大多数都是由多种遗传基因座,即通过QTL来决定的。在示例性植物育种程序的范围内,数量表型包括:产量(例如,谷物产量、青贮饲料产量)、胁迫(例如,中期胁迫、末期胁迫、水分胁迫、热胁迫等)抗性、疾病抗性、昆虫抗性、对密度的抗性、谷粒数、谷粒大小、穗大小、穗数、荚数、每荚种子数、成熟度、开花时机、开花所需的热量单位、开花所需的天数、根倒伏抗性、茎倒伏抗性、植株高度、穗高度、谷物水分含量、测重、淀粉含量、油含量、谷物成分、淀粉成分、油成分、蛋白质成分、营养物含量等。
除可通过肉眼直接进行评估的表型之外,在有或没有一种或多种人力或自动设备(包括,例如显微镜、刻度尺(scale)、直尺(ruler)、卡尺(caliper)等)的协助下,可使用生化和/或分子手段对多种表型进行评估。例如,可选地,遵循一种或多种分离或纯化步骤,使用一种或多种化学或生物化学检验方法,可对油含量、淀粉含量、蛋白质含量、营养物含量及其组成成分进行评估。分子表型,例如代谢产物状况或表达状况,在蛋白质或RNA水平上的,也可按照本发明的方法来进行评价。例如,代谢产物状况,通过代谢途径产生出了小分子代谢产物或大的生物分子,能对具有农艺学兴趣的表型提供宝贵的信息。此类代谢产物状况可通过对目标表型的直接或间接测量来进行评价。类似地,表达状况可作为表型的间接量度发挥作用,或者它们自身可以被直接用作为表型,用于针对标记相关性的目的的分析。表达状况通常在RNA表达产物的水平上被评价,例如,以阵列形式进行,但是,其还可以在蛋白质水平上被评价,其中使用抗体或其它结合蛋白质。
此外,在一些情况下,人们需要使用表型特征之间的数学关系,而非使标记信息与感兴趣的多种表型独立相关联。例如,育种程序的终极目标可能是获得能在低水量,例如干旱条件下生产出高产量的作物植物。并非独立地将关于产量和对低水条件的抗性的QTL作用相关联,而是将在水条件下的产量稳定性和产量的数学指标与QTL作用相关联。此类数学指标可以采用下述形式,其包括:通过统计方法,基于来自大量个体性状的加权值获得的指标值,或下述变量,其是多种环境条件下关于植物性状应答的作物生长和发育模型或生态生理学模型(被总称为作物生长模型)的组分。这些作物生长模型是本领域已知的,它们已被用于研究关于植物性状的遗传变化,以及用于对关于植物性状应答的QTL进行定位。见参考资料,Hammer et al.2002.European Journal of Agronomy 18:15-31,Chapman et al.2003.Agronomy Journal 95:99-113,and Reymond et al.2003.PlantPhysiology 131:664-675。
虽然本文所述的方法可被有效地用于鉴定和/或选择具有任何想要的表型的植物,而无论该性状是一个或多个基因的结果,但本发明的方法还提供了:较之传统的定位和标记辅助选择方法,当性状在遗传上是复杂的情况下,效率上最大程度的提高。此外,尽管对来自只具有纯粹加合作用的多个基因的多基因性状而言,相对于传统定位和选择方法,仅观察到了不大的效率提高,但是,在与表型相关的基因以非加合性方式发挥作用的情况下(即,周围因素依赖性作用的情况下,例如上位性和/或基因型x环境相互作用),使用本发明的方法能观察到显著的效率提高。
遗传分子等位基因,即QTL标记(或简单标记),或者,鉴定出的QTL等位基因,被用于鉴定:在一个或多个基因座上含有想要的基因型,并被预计能将所述想要的基因型随着想要的表型传递给其后代的植物。标记等位基因(或QTL等位基因)可被用于鉴定:在一个基因座,或若干非连锁或连锁的基因座上含有想要的基因型(例如,单倍型),并被预计能将所述想要的基因型随着想要的表型传递给其后代的植物。类似地,通过鉴定出缺乏想要的等位基因的植物,具有不想要的表型的植物,例如,疾病敏感型植物可被鉴定出来,以及,例如,在后续杂交中被除去。应当认识到,为着MAS的目的,术语“标记”可以包括标记和QTL基因座,因为它们二者都可被用于鉴定具有想要的表型的植物。
在想要的表型和多态染色体基因座,例如,标记基因座或QTL被确定一起分离(即,被确定处于连锁不平衡状态)之后,与想要的表型对应的等位基因被选出。简言之,在来自将被选出的植物得生物样品中,探测到了与标记核酸对应的核酸。这种探测可以采用探针核酸与标记杂交的形式,例如,用等位基因特异性杂交,Southern分析,northern分析,原位杂交,引物杂交之后接着PCR扩增出包括标记在内的产物,等。本文中描述了多种用于探测标记的方法,例如,在题为“对标记基因座的探测”一节中。在验证了生物样品中特定标记的存在(或不存在)之后,选出植物,以及,可选地,对其进行杂交以产生后代植物。
当种群针对影响一种或多种性状的多个基因座(例如,与对单种疾病的抗性相关的多个基因座,或每种涉及到对不同疾病的抗性的多个基因座)进行分离时,MAS的效率较之表型筛选就会变得甚至更高,因为来自DNA的单种样品的所有基因座可在实验室中被一起操作。因此,在育种过程中对于每种性状的标记信息的使用被促进了。
因为应用的育种程序对从多次杂交获得的大量后代进行评价,它们提供了必要的表型数据,所述数据是针对农艺学性状的广泛范围,鉴定和选择QTL上有利的等位基因所必要的。通过将QTL分析集成到现有的育种程序,可以获得与大量后代相关的能力、精度(precision)和正确度(accuracy)。此外,可从育种程序获得关于QTL的推断,而非局限于从单次杂交获得的后代的样品。将QTL鉴定集成进现有的育种程序,使得信息对于MAS来说变得远为更加宝贵,因为QTL适用于田地中农艺学的现实状况。这比包括一系列离散过程的传统策略更为有效,所述离散过程包括:从仔细选择的对比近交系产生后代,鉴定QTL,组合QTL,以及通过经过改良的回交策略,在大量的背景上对这些QTL进行独立的测试和评价。
QTL定位
虽然后续讨论中的很多与对QTL的定位相关,应当认识到,本发明的方法同样适用于对其它遗传基因座进行定位,例如,那些展示出单基因性状的。因此,甚至在为了简明清楚而排他性地提到QTL的情况下,展示出单基因性状的基因也应被理解为是可以通过基本类似的方法进行评估的。类似地,所述方法同样适用于那些连续变异的性状,例如,谷物产量、高度、油含量、对胁迫(例如,末期或中期胁迫)的应答等;或适用于计数(meristic)性状,所述性状是多分类的(multi-categorical),但如果它们连续变异也可被分析,例如,发芽所需的天数、开花或结果所需的天数;以及可适用于以非连续(不连续)或离散方式分布的性状。
已有大量的统计方法被发展用于实验性种群中的QTL定位(见,例如Jansen(1996)Trends Plant Sci 1:89),其中的任何方法都适用于鉴定QTL标记和/或评估QTL作用。例如,QTL定位的范畴中所用的并且本领域技术人员可获得的常见统计方法包括:标准线性模型(例如,ANOVA或回归),最大似然法(maximumlikelihood methods),例如最大期望算法(例如,Lander和Botstein(1989)Mapping Mendelian factors underlying quantitative traits using RFLPlinkage maps. Genetics121:185-199;Jansen(1992)A general mixture model for mappingquantitative trait loci by using molecular markers. Theor.Appl.Genet.85:252-260,Jansen(1993)Maximum likelihood in a generalized linear finite mixture model by using the EMalgorithm. Biometrics 49:227-231;Jansen(1994)Mapping of quantitative trait loci by usinggenetic markers:an overview of biometrical models.In J.W.van Ooijen和J.Jansen(eds.), Biometrics in Plant breeding:applications of molecular markers,pp.116-124.CPRO-DLO Metherlands;Jansen(1996)A general Monte Carlo method for mappingmultiple quantitative trait loci. Genetics 142:305-311;和Jansen and Stam(1994)HighResolution of quantitative trait into multiple loci via interval mapping. Genetics 136:1447-1455)。示例性的统计方法包括:单点标记分析、区间定位、复合区间定位、惩罚回归分析、复杂系谱分析、MCMC分析、MQM分析、HAPLO-IM+分析、HAPLO-MQM分析和HAPLO-MQM+分析、Bayesian MCMC、岭回归、后代一致性分析、Haseman-Elston回归,任何其中的方法都适用于本发明的范围。典型地,任何这些方法都在很大程度上用到了数学,本领域的技术人员通常可在基于计算机的系统的辅助下来进行这些方法。合适的统计软件包可从大量的公共和商业来源获得,其是本领域技术人员已知的。
事实上,关于在作物物种中对QTL进行定位的所有公开报道都基于使用双亲杂交(Lynch and Walsh(1997) Genetics and Analysis of Quantitative Traits Sinauer Associates,Sunderland)。典型地,这种实验方案包括:从两种完全不同的近交系(例如,被选出以使得品系之间具有最大的表型和分子标记差异)的单次杂交获得100至300个分离的后代。这些分离的后代在基因型上具有多个标记基因座,并且,在若干种环境中针对一种至多种数量性状对它们进行评估。然后QTL作为分离的后代中表型可变性和基因型值之间的显著统计学关联被确定出来。这种实验方案的作用来自对近亲杂交的利用,因为得到的F1亲本全部都具有同样的连锁状态。因此,在F1植物自花授精后,所有分离的后代(F2)都能提供信息,并且连锁不平衡被最大化,连锁状态已知,仅有两种QTL等位基因,并且,除了回交后代之外,每种QTL等位基因的频率为0.5。
进来的研究努力于将针对双亲实验性种群发展起来的研究方法改用于(杂交的(diallel)育种种群)(Rebai and Goffinet(1993) Theor Appl Genet 86:1014)。但是,用于双亲近交的分析方法所具有的基本原理并不足以用于育种种群,因为种群和杂交的遗传结构是不同的。与在双亲实验性种群中选择品系相反,针对育种进行的品系选择基于将农艺学应用上有用的性状的遗传可变性最大化。作为结果,杂交并不一定是在所有标记基因座和QTL上都能提供信息的,连锁不平衡存在于家族内的(F2)后代间,但并不一定存在于育种种群间。连锁状态在育种种群间并不保持一致,多种QTL等位基因存在,每种的频率都在0和1之间变化。
理论上的考虑(Soller et al.(1978) Biometrics34:47;Jansen(1994) Genetics138:871;Zeng(1994) Genetics136:1457),Monte Carlo模拟(VanOoijen(1994) Theor Appl Genet 84:517;Beavis(1994)supra;Beavis(1998)QTLAnalyses:Power,Precision and Accuracy,in  Molecular Analysis of Complex Traits,AHPaterson(ed)pp 145-161,CRC Press),和近来的实验结果(Openshaw和Frascaroli(1997) 52 nd  Annual corn and sorghum research conference,pp 44-53.AmericanSeed Trade Association,WashingtonD.C.)已经清楚地显示,在植物物种中进行的研究还不足以对大多数性状中QTL的数量、大小和分布进行评估。这些研究表明,人们几乎没有什么能力去确定与QTL相连的标记,或对它们的遗传作用进行精确地评估,除非去对大量后代进行评价。更为重要的是,关于鉴定出的QTL和评估出的它们的遗传作用的推论都只限于在实验中评估的后代样品。在推论可以延伸超过最初的育种种群的范围之前,必须要对来自其它杂交的后代样品进行额外的评价。从育种的角度来看,这是非常严重的限制。
近来,已经提出了一些方法,用于基于固定作用、随机作用和混合作用来组合植物育种种群中的多品系杂交,还提出了用于在植物育种种群中组合多品系杂交的模型(Beavis的United States PatentNumber 6,399,855,公告于2002年6月4日;和Xu(1998) Genetics148:517;Xie et al.(1998) Genetics 149:1139)。这些策略将QTL作用处理为在家族内嵌套的(nested)形式,并提供了简单且强大的工具,用于分析多个植物育种家族。
另一种简单的方法是:应用现有的针对单品系杂交发展起来的方法,并且使用计算机辅助分析,以对多个种群进行一一分析。然后对QTL似然曲线进行总结,以产生总的QTL似然。该方法非常简单,但却没有模拟出家族间的关系。关于此方法,人们可以选择使用区间定位(Lander and Botstein(1989) Genetics 121:185)、回归定位(Haleyand Knott(1992) Heredity 69:315)或MQM定位(Jansen(1994)Genetics 138:871)。见,例如,Spelman etal.(1996) Genetics 144:1799,其关于对多个奶牛家族进行的描述。
Jansen和Beavis对下述方法进行了描述,其中考虑到了育种种群中相关家族间的关系。使用分子标记信息,对种群中从亲本到后代的后代一致性(IBD)进行了评价,其中使用了HAPLO-IM+和HAPLO-MOM+和HAPLO-MQM模型(Jansen和Beavis的WO 01/49104,提交于December 21,2000,标题为“MQM Mapping using HaplotypedPutative QTL-Alleles:A Simple Approach for Mapping QTL in Plant BreedingPopulations)。
不考虑用于评价QTL数量、位置和作用的统计方法的话,上述方法以前仅用于育种程序的开始,即,这些全都是仅在开始时定位的方法。这即是说,通过这些统计方法中的任何方法,来鉴定和发现在特定的近交或在一系列相关近交中分离的标记,将其与表型的变化相关,即,作为QTL标记。在育种程序的开始,在特定的植物种群中,在单个时间点对这些标记进行评价及选择。因此,这些估计值在育种程序期间固定。在对QTL作用的估计值的精确度方面的任何进一步的改进,是通过向图谱中加入新的标记(即,以前未被定位的分子标记)或者通过对在另外的、独立的植物种群中对表型和被定位的标记之间的对应性进行评价获得的。在另外的情况下,估计值基本上是重新获得的,而不考虑以前的估计值。
例如,Jansen(1994), Genetics 138:871描述了一种通用的两步MQM方法,用于发现与QTL紧密相连的标记,以及将这些标记用作为QTL分析中的辅助因子。在该方法中,选出一组覆盖整个基因组的标记,对这些标记同时进行回归,并且进行统计淘汰方法,来发现疑似的QTL区域中的标记。此类标记是基于2%的显著性阈值通过反向淘汰方法选出的。第二,应用一种用于在标记间隔内对QTL进行精确定位的方法。在基因组范围上,5%的显著性水平上,针对特定的基因组标记间隔,对QTL的存在进行检验,同时将从第一步中选出的标记用于分析模型。因此,第一步中选出的标记在用于第二步的模型中作为辅助因子发挥作用。在研究中,位点附近的小窗口内的标记不被用作为辅助因子。可以通过前述Jansen(1994)所述的模拟(参变量步步为营法(“parametric bootstrapping”)),可以获得针对MQM定位的基因组范围上的显著性阈值。这是计算机擅长的任务。
该方法被扩展,用于考虑家族之间的信息,以及从单次双亲杂交获得的家族内关于表型和标记分离的信息。在该方法中,家族间单倍型的QTL等位基因的作用,而非家族内的等位取代的作用,在家族间被评价。后一种方法提供了可仅在家族的亚组中处理QTL分离以及在利用家族内的变化的方法,但是此外,还要考虑到家族间的变化。分离和未分离QTL的等位基因作用对家族间的差异发挥作用,但还可以存在关于变化的其它遗传或非遗传来源(例如,上位性相互作用)。Jansen和Beavis WO 01/49104所描述的HAPLO0-MOM+模型包括了对这些差异进行处理和检测的参数。
本发明不同于上述方法,因为在育种程序期间对QTL作用的估计值进行重复的重评估,而非在程序的开始时就设置好。因此,在育种程序的每个循环(此处,循环的顺序为:标记辅助选择,接着是选出的一种或多种植物的杂交,以产生后代),对标记和表型数据加以针对相关性的评价,并产生相应于循环中作为样品的种群的对QTL等位基因作用的估计值。或者,通过重评估进行的更新可在超过一个循环的间隔处进行,例如,每隔一个循环,每第五个循环,每第10个循环等处进行更新。典型地,在育种程序的每个循环都进行更新,较之传统的仅在开始时定位的方法,针对想要的表型提供了最大的效率增长。但是,因为对来自种群数据的QTL作用进行评估业带来了显著的人力消耗,在实践中,减少更新进行的频率是人们所希望的。更新最优化进行的间隔的长度将随着性状的遗传构造以及种群成员的相关性(relatedness)而变化。例如,当上位性的影响较低时,评估之间的长间隔是可被允许的,例如,每5个循环,每10个循环,或更多。相反,当上位性在对表型的确定中是显著因素的时候,在频密的间隔处进行更新,例如,每1、2或5个循环进行,将能提供更好的结果。类似地,当种群中的植物或植物家族高度相关时,较长的间隔可被使用,而不会牺牲选择的效率。而在使用从大量和/或完全不同的来源获得的种质的情况下,更频密的更新间隔是理想的。
对QTL等位基因作用的估计值可以以至少两种方法被更新,以确保在育种程序中的任何时刻它们的恰当性。可通过对种群(选出的植物的后代种群)中表型和一种或多种QTL标记的等位基因之间的对应性进行评价,以及取代QTL等位基因作用的之前的估计值以用于下一轮MAS,来更新对QTL等位基因作用的估计值。例如,当统计分析显示,之前显示出相关的等位基因或标记不再与目标表型相关联,或者,当以前没发现以与表型不平衡的情况分离的标记现在展示出了等位基因和表型之间的统计上显著的相关性时,可用新的估计值来有利地代替之前对QTL等位基因作用的估计值。或者,来自后代种群的相关性数据可与来自之前一个或多个循环的数据组合,以产生经过修正的对QTL等位基因作用的估计值,用于修正作为选择基础的模型。在更新的每个循环处,可以进行相同或不同的统计分析,例如,基于种群结构进行选择。在育种程序期间,上述方法中的一种或全部都可用于对QTL等位基因作用的估计值进行修正,其中使用了用于每个选择循环中的标记,所述标记基于对QTL等位基因作用的之前修正的估计值。该监测方法在选择效率上较之仅在开始时定位的方法取得了显著的总体提高,尤其是当上位性和/或基因型x环境相互作用在对表型的确定中发挥重要租用的情况下。
此外,可通过在育种循环的亚组(或窗口)上进行选择性更新来进行所述方法。例如,当通过组合对QTL作用的估计值来进行更新时,为了产生对QTL作用的组合估计值而包括进来的种群数据可以包括:从选定的窗口(为清楚计,用{}表示)获得的表型数据和标记的亚组。典型地,所述亚组将包括一系列连续的循环,使得当在每个循环都进行更新的情况下,来自,例如,{开始和循环1、2、3、4和5}的数据可被包括进第五个循环,来自,例如,{循环1、2、3、4、5和6}的数据可被包括进第六个循环,来自,{循环2、3、4、5、6和7}的数据可被包括进第七个循环,等。在更新以3个循环的间隔进行的情况下,窗口可以移动,例如,以下述方法移动:{开始};{开始和循环3};{开始,循环3和6};{开始,循环3、6和9};{循环3、6、9和12};{循环6、9、12和15}等。类似地,可以通过不考虑循环间隔的次序确定出窗口。这提供了两个显著的优点。在育种程序的早期阶段,例如前五个或类似的循环,在随时定位和仅在开始时定位的方法之间几乎观察不到提高,因此,在很多情况下,随时定位的额外花费可能不会被批准。第二,在育种过程期间,随着种群组成的改变,即随着种质的进化,窗口随着育种的有序循环向前滑动可以消除(或降低)在育种程序的开始所引入的对QTL作用的估计值的偏差。
使用将育种程序的数个循环上的估计值组合起来的方法,也是用于处理基因与环境相互作用的影响的有效途径。在这种情况下,随时定位方法可以积累关于在育种程序的循环上作为样品的不同类型的环境(即,年/位置组合)中QTL作用的信息。因此,将关于各个环境类型的QTL作用纳入考虑,可以更为有效地获得关于由育种程序的范围确定的目标环境组的进展。一种开展该方法的途径是:用来自之前作为样品的环境的估计值,在QTL信息的加权系数上进行选择,其中所用的权重基于环境类型在环境的目标种群中出现的频率(例如,按照Podlich et al.(1999) Plant Breeding 118:17-28所述的方法)。
对QTL作用的估计值并不必须要与作为整体的育种种群结合。例如,可在个别杂交的基础上来考虑对QTL等位基因作用的估计值,其中,每个估计值被限制到两个优良品系间的单次杂交上。然后基于从每次个别的杂交评估得来的QTL作用,在每次杂交内部分别进行MAS。当选出的品系形成了下一轮杂交的基础时,就是用新的一组估计值。
随时定位方法的上述这些变体的恰当性很大程度上取决于:上位性和基因与环境相互作用对目标性状的遗传构造造成影响的程度。既然它们可能对选择应答造成影响,用于对针对性状表型的上位性和基因与环境相互作用的重要性进行量化的经验研究,被认为对于任何MAS策略的设计和优化来说都是重要的组成部分。
本发明的用于监测QTL作用和MAS的方法适用于基本上任何植物种群或物种。优选的植物包括农艺学上和园艺上重要的物种。此类物种包括双子叶植物,例如,下述的科:豆科(Leguminosae)(包括:豌豆、豆(bean)、小扁豆、花生、西印度豆薯(yam bean)、豇豆、黎豆(velvet bean)、大豆、三叶草、紫花苜蓿、羽扁豆、野豌豆、莲、草木樨(sweet clover)、紫藤和香豌豆(sweetpea))和菊科(Compositae)(最大的维管植物的科,包括至少1,000个属,包括重要的商业作物,例如向日葵),亚麻科(Linaceae)(例如,亚麻)和十字花科(Cruciferae)(例如,Brassica napa,即油菜或“菜籽”),以及单子叶植物,包括常见的谷物,例如玉米、小麦、水稻、黑麦(rye)、黑小麦、粟、燕麦和高粱。应当认识到,列出商业上优选的植物物种仅是为了示例性之用,而非欲以任何方式来限制本发明方法的应用,其可适用于能进行有性繁殖的任何植物物种。
此外,示例性的植物,以及上面列出的那些,包括来自如下属的植物:Agrostis,Allium,Antirrhinum,Apium,Arachis,Asparagus,Atropa,Avena(例如,燕麦),Bambusa,Brassica,Bromus,Browaalia,Camellia,Cannabis,Capsicum,Cicer,Chenopodium,Chichorium,Citrus,Coffea,Coix,Cucumis,Curcubita,Cynodon,Dactylis,Datura,Daucus,Digitalis,Dioscorea,Elaeis,Eleusine,Festuca,Fragaria,Geranium,Gtycine,Helianthus,Heterocallis,Hevea,Hordeum(例如,大麦),Hyoscyamus,Ipomoea,Lactuca,Lens,Lilium,Linum,Lolium,Lotus,Lycopersicon,Majorana,Malus,Mangifera,Manihot,Medicago,Nemesia,Nicotiana,Onobrychis,Oryza(例如,水稻),Panicum,Pelargonium,Pennisetum(例如,粟),Petunia,Pisum,Phaseolus,Phleum,Poa,Prunus,Ranunculus,Raphanus,Ribes,Ricinus,Rubus,Saccharum,Salpiglossis,Secale(例如,黑麦),Senecio,Setaria,Sinapis,Solanum,Sorghum,Stenotaphrum,Theobroma,Trifolium,Trigonella,Triticum(例如,小麦),Vicia,Vigna,Vitis,Zea(例如,玉米),和Olyreae、Pharoideae和其它很多。如所提到的,Graminae科的植物是特别优选的目标植物。
是本发明的目标的常见作物植物包括:玉米、水稻、黑小麦、黑麦、棉花、大豆、高粱、小麦、燕麦、大麦、粟、向日葵、菜籽、豌豆、豆、小扁豆、花生、西印度豆薯、豇豆、黎豆、三叶草、紫花苜蓿、羽扁豆、野豌豆、莲和香豌豆。
应当认识到,可选出对本发明的标记来说呈阳性的植物,并按照于特定育种程序相关的任何育种方案对其进行杂交。因此,可通过将选出的植物与一种或多种其它植物(基于同样的标记或不同的标记,例如,用于同样的或不同的目标表型的不同的标记选出的)进行杂交,从选出的植物来产生后代。或者,选出的植物可与一种或全部两种亲本回交。回交通常是为了下述目的:将来自供体亲本的一种或若干基因座从轮回(recurrent)亲本进行基因渗入,到另外的想要的遗传背景中。回交循环进行得越多,轮回亲本对于得到的变异的遗传贡献就越大。还可对选出的植物进行异型杂交,例如,与其系谱中不存在的植物或品系杂交。此类植物可从进行了前一轮分析的种群中选出,或者可从一开始就被引入到育种程序中。对于目标标记来说呈阳性的植物还可进行自交(“自花授精”),以产生具有相同基因型的正确的育种品系。
对标记基因座的探测
虽然编码蛋白质的特定DNA序列在物种间通常很保守,但是非编码的DNA区域,或者编码缺乏关键作用的蛋白质或蛋白质部分的DNA区域,则趋向于积累突变,因此,它们在同一物种的成员之间也是可变化的。此类区域提供了用于大量分子遗传标记的基础。标记用于在基因组中鉴定变化,其可能是插入、缺失、点突变、重组事件或可转座远见的存在及序列。在人们感兴趣的植物物种中已经鉴定出了多种分子或遗传标记,它们是本领域技术人员已知的。
可通过本领域内完善建立的多种方法来探测分子标记(例如,限制性片段长度多态性、等位基因特异性杂交(ASH)、扩增的可变序列、随机扩增的多态性DNA(RAPD)、自主(self-sustained)序列复制、简单序列重复(SSR)、单核苷酸多态性(SNP)、单链构象多态性(SSCP)、扩增片段长度多态性(AFLP)和同工酶标记)。
遗传标记中的大多数都依赖于对其进行探测的核酸的一种或多种属性。例如,一些用于探测遗传标记的技术利用了探针核酸与对应于遗传标记的核酸的杂交。杂交形式包括但不限于:溶液相、固相、混合相或原位杂交试验。限制性片段长度多态性(RFLP)的标记是通过如下方法来探测的:将典型地将被探测的核酸的亚片段(或对应于亚片段的合成寡核苷酸)与限制性消化过的基因组DNA杂交。对限制性酶加以选择,以提供在不同个体上能出现至少两种不同(或多态)长度的限制性片段,限制性酶通常随着品系变化而变化。确定能产生对每次杂交而言有意义片段的(一种或多种)限制性酶是很简单的过程,其是本领域内公知的。在合适的基质(例如琼脂糖)上通过长度进行分离并转移到膜(例如,硝酸纤维素、尼龙)之后,在能使得探针与目标平衡结合的条件下用加上标签的探针进行杂交,接着通过洗涤除去过量的探针。
用于标记基因座的核酸探针可被克隆和/或合成。适合与核酸探针一起使用的可被探测到的标签包括任何可被分光、放射性同位素、光化学、生物化学、免疫化学、电学、光学或化学方法探测到的组合物。可用的标签包括:生物素(用于与加上标签的链亲合素共轭物一起染色)、磁性珠、荧光染料、放射性标签、酶和比色标签。其它标签包括:能与加上荧光团标签的抗体结合的配体、化学发光试剂和酶。向标记加上标签很容易进行,例如,通过将加上标签的PCR引物用于标记基因座来获得。
然后可对经过杂交的探针进行探测,最典型地,使用自动射线照相术或其它类似的探测技术(例如,荧光照相、液体闪烁计数仪等)。特异性杂交方案的例子是本领域内广泛可获得的,见,例如Berger,Sambrook,Ausubel,在题为“GENERAL MOLECULAR BIOLOGYREFERENCES”的章节中提到的。
扩增的可变序列指植物基因组的下述扩增的序列,其展示出同一物种的成员之间的高度的核酸残基可变性,例如微卫星序列。所有生物都具有可变的基因组序列,每种生物(克隆除外)都具有一套不同的可变序列。一旦被鉴定出来,特异性可变序列的存在可被用于预测表型性状。优选地,来自植物的DNA可作为模板用于用引物进行的扩增,所述引物处于DNA的可变序列的侧翼。扩增可变序列,然后进行测序。
随机扩增的多态性DNA(RAPD)标记是通过PCR扩增出的基因组序列,所述PCR中,在低严谨度下使用了单个短随机引物。在扩增期间,低严谨度下,大量PCR产物从基因组中的随机位置产生出来,其中一些个体之间长度(和序列)有所不同。与扩增的可变序列不一样,不需要以前的序列信息来用于鉴定RAPD标记。
体外扩增技术是本领域内公知的。足以引导技术人员进行此类体外方法的技术的例子,包括,聚合酶链式反应(PCR)、连接酶链式反应(LCR)、Qβ-复制酶扩增和其它RNA聚合酶介导的技术(例如,NASBA),可被发现于Berger,Sambrook and Ausubel as well as Mullis et al.(1987)U.S.Patent No.4,683,202;PCR Protocols,A Guide to Methods and Applications(Innis et al.,eds.)Academic PressInc.,San Diego Academic Press Inc.San Diego,CA(1990)(Innis);Arnheim & Levinson(October 1,1990) C&EN 36-47; The Journal Of NIH Research(1991)3,81-94;(Kwoh etal.(1989) Proc.Natl.Acad.Sci.USA 86,1173;Guatelli et al.(1990) Proc.Natl.Acad.Sci. USA87,1874;Lomell et al.(1989) J.Clin.Chem 35,1826;Landegren et al.,(1988)Science 241,1077-1080;Van Brunt(1990) Biotechnology 8,291-294;Wu和Wallace,(1989) Gene 4,560;Barringer et al.(1990) Gene 89,117,和Sooknanan and Malek(1995)Biotechnology 13:563-564中。Wallace et al.,U.S.Pat.No.5,426,039中描述了用于对体外扩增出的核酸进行克隆的改进方法。Cheng et al.(1994)Nature 369:684及其参考文献中描述了通过PCR来扩增大核酸的改进方法,其中产生了多达40kb的PCR扩增子。技术人员将认识到,使用逆转录酶和聚合酶,基本上任何RNA都可转化为适于进行限制性消化、PCR扩增和测序的双链DNA。见,Ausubel,Sambrook and Berger。
典型地,用作为引物的寡核苷酸(例如,在扩增反应中,一级用作为核酸序列探针)是按照Beaucage and Caruthers(1981)Tetrahedron Lett.22:1859所述的固相亚磷酰胺三酯(phosphoramiditetriester)方法通过化学方法合成的,或者可以简单地对其进行商业订购。
或者,自主序列复制可被用于鉴定遗传标记。自主序列复制指一种核酸扩增方法,其中使用了能在基本等温的条件下进行体外指数复制的目标核酸序列,通过使用逆转录病毒复制涉及到的三种酶活来进行:(1)逆转录酶,(2)Rnase H和(3)依赖DNA的RNA多聚酶(Guatelli et al.(1990) Proc Natl Acad Sci USA 87:1874)。通过使用cDNA中间产物,模拟逆转录病毒的RNA复制策略,本反应能积累原始目标的cDNA和RNA拷贝数。
扩增限制性片段多态性或扩增片段长度多态性(AFLP)也可被用作为遗传标记(Vos et al.(1995) Nucl Acids Res 23:4407)。词组“扩增限制性片段多态性”指选出的下述限制性片段,它们是在限制性内切酶切割之前或之后扩增出的。扩增步骤使得更为简单的对特异性限制性片段的探测得以进行。AFLP允许对大量多态性标记进行探测,其已被用于对植物的遗传定位(Becker et al.(1995) Mol Gen Genet 249:65和Meksem et al.(1995) Mol Gen Genet 249:74)。
等位基因特异性杂交(ASH)可被用于鉴定本发明的遗传标记。ASH技术基于:将短的单链寡核苷酸探针稳定退火到完全互补的单链目标核酸上。探测是通过与探针相连的同位素或非同位素标签进行的。
对于每种多态性而言,设计两种或多种不同的ASH探针,它们除了多态性核苷酸位点之外,具有相同的DNA序列。每种探针都与一种等位基因序列具有精确的同源性,使得探针的范围可以区分开所有已知的备选(alternative)等位基因序列。将每种探针与目标DNA杂交。利用适合的探针设计和杂交条件,探针和目标DNA之间的单碱基错配将会阻碍杂交。以这种方式,备选探针中将仅有一种能与目标样品杂交,所述样品是与某种等位基因同型或同源的。而对于两种等位基因来说异型或异源的样品将与另外两种探针杂交。
当仅一种等位基因的是否存在是由仅一种探针的杂交或缺乏杂交来确定的时候,ASH标记可被用作为显性标记。可从杂交的缺乏来推断另外的等位基因。可选地,ASH探针和目标分子是RNA或DNA;目标分子可以是任何超过与探针互补的序列的长度的核苷酸;探针被设计为能与DNA目标的任何一条链杂交;探针尺寸在一定范围内变化以适用于严谨性发生变化的杂交条件,等。
PCR使得用于ASH的目标序列可在相对小的体积中从低浓度的核酸被扩增出来。或者,用限制性内切酶对来自基因组DNA的目标序列进行消化,通过凝胶电泳来区分大小。典型地,杂交进行中使用与膜表面结合的目标序列,或者,如U.S.Patent 5,468,613所述,ASH探针序列可结合到膜上。
在一种实施方式中,通过如下方法来获得ASH数据:使用PCR从基因组DNA扩增出核酸片段(扩增子),将扩增子目标DNA以斑点印迹(dot-blot)形式转移到膜上,将加上标签的寡核苷酸探针与扩增子目标杂交,以及,通过自动射线照相术来观察杂交斑点。
单核苷酸多态性(SNP)是由具有基于单个核苷酸的差异的共有序列组成的标记。典型地,通过包含SNP的扩增子在例如丙烯酰胺凝胶上的差异移动图案(differential migration pattern)来探测这种区别。在这类情况下,标记还可被称为单链构象多态性或SSCP。但是,其它的探测模式,例如杂交,例如ASH或RFLP分析并不被排除在外。
在另一种实施方式中,在用于提供遗传连锁图谱的基础上,简单序列重复(SSR)利用了基因组中高水平的二、三或四核苷酸串联重复。已有报道称,二核苷酸重复在人类基因组中会发生多达50,000次,n在10至60或更多之间变动(Jacob et al.(1991) Cell 67:213)。在高等植物中也发现了二核苷酸重复(Condit and Hubbell(1991) Genome34:66)。
简言之,SSR数据是通过将引物与植物基因组中在SSR序列侧翼的保守区域杂交来产生的。然后用PCR来扩增引物之间的二核苷酸重复。然后对扩增得到的序列进行凝胶电泳(electorphorese),以确定其大小,以及由此获得二、三和四核苷酸重复的数量。
或者,同工酶标记可被用作为遗传标记。同工酶是酶的多种形式,它们在氨基酸上有所不同因此其核酸序列也有所不同。一些同工酶是含有稍有不同的亚基的多体(multimeric)酶。其它的同工酶可以是多体或单体的,但其是从酶原的氨基酸序列的不同位点上被切割下来的。可在蛋白质水平上对同工酶进行鉴定和分析,或者,可以鉴定出核酸水平上有所不同的同工酶。在此类情况下,本文所述的任何基于核酸的方法都可用于分析同工酶标记。
在另外的实施方式中,计算机方法可被用于探测标记基因作。例如,包含标记的核酸序列可被存储于计算机中。可使用合适的核酸搜索算法来鉴定想要的标记基因座序列或其同源物,所述算法是由,例如容易获得的程序(例如BLAST)提供的。
集成系统/计算机辅助方法
在本发明的一个方面,集成系统,例如,计算机,与本发明的统计模型对应的软件,以及与分子标记和表型值对应的数据组,能协助对表型性状,包括QTL的定位。本发明上下文中,词组“集成系统”指:一种系统,其中进入到计算机中的数据与计算机外部的物理客体或方法对应,例如,核酸序列杂交;以及一种方法,其中,在计算机内,使得输入的信号物理转化为不同的输出信号。换句话说,输入的数据,例如,在阵列的特定区域上的杂交被转化为输出数据,例如,对被杂交的序列的鉴定。计算机内的方法是一组指令,或“程序”,通过其使得阳性杂交信号得以被集成系统所识别,并作为基因型被归结到个别样品上。其它程序将个别样品与表型值关联起来,例如,本文所述的统计方法。具体而言,集成系统装备有至少一个指令组,用于对QTL作用的估计值进行递归更新,所述更新是通过用新的和/或其它将标记和表型关联起来的数据来代替或组合对QTL作用的估计值来进行的。例如,程序QTLCartographer和MapQTL特别适用于这种类型的分析,可对其进行扩展,已包括本文所述的其它统计方法,例如,HAPLO-MQM+模型。此外还有大量,例如C/C++程序用于计算,Delphi和/或Java程序用于GUI界面,以及生产力工具(productivitytools)(例如,Microsoft Excel和/或SigmaPlot)用于制作图表。在本发明的集成系统的范围内,其它有用的软件工具包括:统计软件包,例如SAS、Genstat、Matlab、Mathematica和S-Plus和遗传建模软件包,例如QU-GENE。此外,其它编程语言,例如Fortran等也适合用于本发明的集成系统。
本发明还提供了用于对样品进行操作的集成系统,包括此前有过描述的机器人设备。可选地,用于将溶液(例如植物细胞提取液)从来源转移到目的地,例如,从微滴定板转移到阵列基底的液体控制机械手(robotic liquid control armature)与数字计算机(或,与集成系统中的其它计算机)可操作地连接。用于将数据输入到数字计算机,以通过液体控制机械手来控制高通量液体转移,以及可选地,以通过机械手控制向固体支持物的转移的输入设备,通常是集成系统的一种特征。
典型地,用于本发明的分子标记分析的集成系统包括:具有一种或多种高通量液体控制软件、图像分析软件、数据阐释(datainterpretation)软件的数字计算机,用于将溶液从来源转移到目的地的、并与数字计算机可操作地连接的液体控制机械手,用于将数据输入到数字计算机以通过液体控制机械手来控制高通量液体转移的输入设备(例如,计算机键盘),以及,可选地,与数字计算机可操作地相连的、用于对经过杂交的(例如与例如固体支持物上的表达载体杂交的)、带有标签的探针的标签信号进行数字化的图像扫描仪。图像扫描仪连接图像分析软件,以提供下述测量,例如,基于对排成阵列的样品核酸群的杂交结果,差异化核酸探针标签的强度,其中,探针标签强度测量是通过数据阐释软件来阐释的,所述软件用于显示加上标签的探针是否与标签杂交,以及以何种程度杂交。然后将由此获得的数据与表型值关联起来,这是使用本发明的统计模型来进行的,从而确定出表型和关于遗传标记的基因型之间的对应性,由此,获知染色体位置,以及估计的关于QTL的作用。
可选地,光学图像,例如,通过照相机或其它记录设备(例如光学二极管和数据存储设备)观察到(以及,可选地,记录下)的杂交图案在本发明的任何实施方式中都可被进一步加工,例如,通过在计算机上对图像进行数字化和/或存储及分析所述图像。多种商业上可获得的外围设备和软件可被用于对数字化的视频或被数字化的光学图像进行数字化、存储和分析,例如,使用PC(Intel x86或Pentium芯片-兼容型的基于DOSTM、OS2TMWINDOWSTM、WINDOWS NTTM或WINDOWS95TM的机器)、基于MACINTOSHTM、LINUX或UNIX(例如,SUNTM工作站)的计算机。
QTL的定位克隆(positional cloning)
“定位基因克隆”利用了遗传标记的邻近性(proximity),以在物理上确定下述克隆的染色体片段,所述片段与用本发明的统计方法鉴定出的QTL相连。与QTL相连的核酸的克隆具有多种用途,其包括:作为遗传标记,用于在后续的标记辅助选择(MAS)应用中对其它QTL进行鉴定。与和表型性状相关的开放读码框(ORF)邻近的标记可与DNA克隆杂交,由此鉴定出ORF所处位置处的克隆。如果标记更远,可通过对克隆的连续多轮筛选和分离来鉴定出含有开放读码框的片段,所述克隆一起包含一段连续的DNA序列,“重叠群(contig)”。足以指导技术人员进行对下述克隆的分离的方案可被发现于,例如,在下文题为“普通分子生物学参考文献”的章节里提到的参考文献中,所述克隆与相连的标记相关。
例如,“定位基因克隆”利用了遗传标记的邻近性(proximity),以在物理上确定与QTL相连的、经过分离的染色体片段。可以通过此类公知的方法来产生经过分离的染色体片段,例如,用一种或多种限制性酶来消化染色体DMA,或通过在聚合酶链式反应(PCR)或其它扩增反应中扩增染色体区域来产生。典型地,将经过消化或扩增得到的片段连接到适于进行复制的载体上,例如,质粒、粘粒、噬菌体、人工染色体等,以及,可选地,表达插入片段。与和表型性状相关的开放读码框(ORF)邻近的标记可以与DNA克隆杂交,由此鉴定出ORF所处位置的克隆。如果标记更远,可通过对克隆的连续多轮筛选和分离来鉴定出含有开放读码框的片段,所述克隆一起包含一段连续的DNA序列,“重叠群(contig)”。足以指导技术人员进行对下述克隆的分离的方案可被发现于,例如,前文所述的Berger,Sambrookand Ausubel中,所述克隆与相连的标记相关。
类似地,包含下述染色体间隔的核酸也可被分离和/或克隆,所述间隔包括根据本发明的方法鉴定出来的QTL。QTL被定位于通过QTL标记确定的染色体间隔中,其中,每种标记都在QTL侧翼,并与之遗传性地相连。此类间隔可被用于鉴定同源核酸和/或可被用于产生具有想要的表型特征的转基因植物,所述表型特征是由引入的QTL赋予的。可通过前文所述的定位克隆方法,来分离,例如,克隆包含QTL的染色体间隔。染色体间隔可以含有与想要的表型性状相关的一种或多种ORF,其可被克隆到一种或多种个体载体上,例如,取决于染色体间隔的大小。
应当认识到,本领域内可以获得大量载体,用于分离和复制本发明的核酸。例如,质粒、粘粒和噬菌体载体是本领域内公知的,它们足以进行多种应用(例如,在涉及到核酸插入的应用中,所述核算在小于1至大约20千碱基(kb)的范围内)。在某些应用中,制造或克隆大核酸,对于鉴定与给定的标记离得更远的核酸,或对于分离与本文鉴定的QTL相连的、超过10-20kb(例如,多达数百千碱基对或更多)的核酸(例如,两个相连的标记之间的整段间隔,即,多达以及包括一个或多个厘摩(cM)的间隔)是有好处的。在此类情况下,能容纳大核酸的多种载体是本领域内可获得的,它们包括,酵母人工染色体(YACs)、细菌人工染色体(BACs)、植物人工染色体(PACs)等。关于通常的向作为人工染色体的YACs、BACs、PACs和MACs中的引入,见,例如,Monaco and Larin(1994) Trends Biotechnol12:280。此外,用于对与遗传标记相连的大核酸的体外扩增也是广泛可获得的(例如Cheng et al.(1994) Nature 369:684及其参考文献)。可制造或从商业途径获得克隆系统;见,例如,Stratagene Cloning Systems,Catalogs 2000(La Jolla,CA)。
载体、启动子和表达系统
本发明包括重组构建体,其中包括一种或多种上述核酸序列。此类构建体包括载体,例如,质粒、粘粒、噬菌体、病毒、细菌人工染色体(BAC)、酵母人工染色体(YAC)等,可以以正向或反向向所述载体中插入一种或多种目标多核苷酸序列(例如,QTL标记或QTL)。例如,插入的核酸可以包括染色体序列或cDNA,其中包括至少一种QTL的全部或部分,或与QTL或QTL标记相关的开放读码框(“ORF”)。在一种优选的实施方式中,所述构建体还包括调控序列,其包括,例如,与序列可操作地相连的启动子。大量合适的载体和启动子都是本领域技术人员已知的,并且可从商业途径获得。
如果需要的话,本发明的多核苷酸,例如,根据本发明所述的方法鉴定出来的QTL,可被包括进适于产生正义或反义RNA,以及可选地,多肽表达产物的一系列载体的任何一种中。此类载体包括:染色体、非染色体和合成的DNA序列,例如SV40的衍生物;细菌质粒;噬菌体DNA;杆状病毒;酵母质粒;从质粒和噬菌体DNA、病毒DNA(例如,牛痘、腺病毒、禽瘟疫病毒、伪狂犬病(pseudorabies)、腺病毒、腺相关病毒、逆病毒和其它很多)的组合获得的载体。任何能够将遗传物质引入到细胞中,以及如果需要的话,能在恰当的宿主中复制的载体都可以使用。
在表达载体或表达盒中,目标多核苷酸序列在物理上与合适的转录控制序列(启动子,以及可选地,一种或多种增强子)邻近且定向排列,以指导mRNA合成。这即是说,目标多核苷酸序列与合适的转录控制序列“可操作地相连”。此类启动子的例子包括:LTR或SV40启动子、E.coli lac或trp启动子、噬菌体lambda PL启动子以及其它已知能控制基因在原核或真核细胞或其病毒中的表达的启动子。表达载体还含有用于翻译起始的核糖体结合位点,以及转录终止子。所述载体可选地包括用于扩增表达的合适的序列。此外,所述表达载体可选地包含一种或多种选择性标记基因,以提供表型性状,用于选择经过转化的宿主细胞,例如,用于真核细胞培养物的二氢叶酸还原酶或新霉素抗性,或者例如,E.coli中的四环素或氨苄青霉素抗性。
其它表达元件
当需要包含本发明的多核苷酸序列的核酸编码的多肽的翻译时,其它翻译特异性起始信号可以提高翻译的效率。这些信号可以包括,例如,ATG起始密码子和邻近序列。在某些情况下,例如,全长cDNA分子或包括编码序列(其中包括,例如,QTL,或与QTL或QTL标记相关的ORF)的染色体片断,翻译起始密码子和相关的序列元件,与目标多核苷酸序列同时被插入到合适的表达载体中。在此类情况下,通常不需要其它的翻译控制信号,但是,在仅插入了多肽编码序列或其一部分的情况下,必须要提供外源翻译控制信号,包括ATG起始密码子。此外,起始密码子必须处于正确的读码框中,以确保目标多核苷酸序列的转录。外源转录元件和起始密码子可以是多种来源的,天然的和合成的均可。通过将适用于所用的细胞系统增强子包含进去,表达的效率可被增强(Scharf D et al.(1994)Results Probl CellDiffer 20:125-62;Bittner et al.(1987)Methods in Enzymol 153:516-544)。
转基因植物和细胞的产生
本发明还涉及已用下述核酸转化过的宿主细胞和生物,所述核酸对应于根据本发明的方法鉴定出的QTL和其它基因。例如,此类核酸包括染色体间隔、ORFs和/或cDNAs,或者对应于鉴定出的染色体间隔或ORF中包含的序列或亚序列。此外,本发明提供了通过重组技术产生与QTL对应的多肽的方法。用本发明的载体(即,包含根据本发明的方法,以及按照上文所述鉴定出的QTL或其它核酸的载体)对宿主细胞进行遗传改造(即,转导、转染或转化),所述载体是,例如,克隆载体或表达载体。除了上述的那些之外,此类载体包括,例如,农杆菌(agrobacterium)、病毒(例如植物病毒)、裸(naked)多核苷酸或与其它物质结合的(conjugated)多核苷酸。通过多种标准方法,将载体引入到植物组织、培养的植物细胞或植物原生质体中,所述标准方法包括:电转化(From et al.(1985) Proc.Natl.Acad.Sci.USA 82;5824),通过病毒载体(例如,花椰菜花叶病毒(CaMV))进行的感染(Hohn et al.(1982) Molecular Biology of Plant Tumors(AcademicPress,New York,pp.549-560);Howell U.S.Patent No.4,407,956)),通过具有核酸(可处于小珠粒或颗粒的基质内,或表面上)的小颗粒进行高速率生物弹穿透(Klein et al.(1987) Nature 327;70),使用花粉作为载体(WO85/01856),或使用携带有T-DNA质粒(其中克隆有DNA片段)的Agrobacterium tumefaciens或A.rhizogenes。通过Agrobacterium tumefaciens通过感染将T-DNA质粒转移到植物细胞中,一部分稳定整合进植物基因组(Horsch et al.(1984) Science 233;496;Fraley et al.(1983) Proc.Natl.Acad.Sci.USA 80;4803)。将本发明的核酸引入到宿主细胞中的方法对于本发明来说并不重要。因此,能将核酸有效引入到细胞或原生质体中的任何方法,例如包括但不限于上述例子的,都可以使用。
可在传统的营养培养基上对经过改造的宿主细胞进行培养,所述培养基适于进行下述活动,例如,激活启动子或选择转化子。可选地,这些细胞可被培养为转基因植物。在Evans et al.(1983)“ProtoplastIsolation and Culture,” Handbook of Plant Cell Cultures 1,124-176(MacMillan PublishingCo.,New York;Davey(1983)“Recent Developments in the Culture and Regeneration ofPlant Protoplasts,” Protoplasts,pp.12-29,(Birkhauser,Basel);Dale(1983)“ProtoplastCulture and Plant Regeneration of Cereals and Other Recalcitrant Crops,” Protoplasts pp.31-41,(Birkhauser,Basel);Binding(1985)“Regeneration of Plants,” Plant Protoplasts,pp.21-73,(CRC Press,Boca Raton,)中,对从培养的原生质体进行的植物再生进行了描述。
本发明还涉及转基因生物的产生,所述转基因生物可以是细菌、酵母、真菌或植物,其经过了核酸,例如,本发明的克隆的QTL的转导。对细菌、单细胞真核生物和细胞培养物相关技术的全面讨论可在上文列举的参考文献中找到,并在下文中对其进行了简单概括。将目标核酸引入到细菌细胞中的若干种公知方法是可获得的,其中任何一种都可用于本发明。它们包括:用含有DNA的细菌原生质体与受体细胞融合,用含有DNA的脂质体去处理细胞,电转化,射弹轰击(生物弹),碳纤维转运,以及用病毒载体去感染(进一步讨论见下文)等。细菌细胞可被用于扩增含有本发明的DNA构建体的质粒数。将细菌培养至对数期,通过本领域内已知的多种方法(见,例如,Sambrook)来分离细菌内的质粒。此外,多种试剂盒是可以从商业途径获得的,可按照厂商说明书将其用于从细菌(和其它细菌)中对质粒进行纯化。关于它们的正确用途,遵循厂商说明书(见,例如,均来自PharmaciaBiotech的EasyPrepTM、FlexiPrepTM;来自Stratagene的StrataCleanTM以及来自Qiagen的QIAprepTM)。然后对经过分离和纯化的质粒进行进一步的操作,以产生其它质粒,用于转染植物细胞或用于将相关载体包括进Agrobacterium tumefaciens,以感染植物。典型的载体含有转录和翻译终止子、转录和翻译起始序列以及用于对特定目标核酸的表达进行调控的启动子。可选地,载体包含普通(generic)表达盒,其中含有至少一种独立的终止子序列、允许所述盒在真核或原核或两者(例如,穿梭载体)中进行复制的序列以及用于原核和真核系统的选择标记。载体适于在原核、真核或优选地,两者中进行复制和整合。见Giliman & Smith(1979) Gene 8:81;Roberts et al.(1987) Nature 328:731;Schneideret al.(1995) Protein Expr.Purif.6435:10;Ausubel,Sambrook,Berger(见前文)。可用于克隆的细菌和细菌噬菌体的目录由,例如,ATCC所提供,例如,ATCC出版的 The ATCC Catalogue of Bacteria and Bacteriophage(1992)Gherna et al.(eds)。其它用于测序、克隆和分子生物学的其它方面的其它基本流程,以及基本的理论上的考虑,还可发现于Waston etal.(1992) Recombinant DNA,Second Edition,Scientific American Books,NY中。
将核酸转化进植物
本发明的实施方式涉及对包含克隆的核酸的转基因植物的生产,所述核酸例如:本发明的与QTL相关的cDNAs、染色体间隔和经过分离的ORFs。用于用核酸转化植物细胞的技术通常是可以获得的,可用编码QTL、QTL同源物、经过分离的染色体间隔等的核酸或与QTL、QTL同源物、经过分离的染色体间隔等相对应的核酸对上述技术加以改变,使其适用于本发明。除Berger,Ausubel and Sambrook(见上文)之外,可用于植物细胞克隆、培养和再生的普通参考文献包括:Jones(ed)(1995) Plant Gene Transfer and Expression Protocols-Methods in Molecular Biology,Volume 49Humana Press Towata NJ;Payne et al.(1992) Plant Cell and Tissue Culture in Liquid Systems John Wiley & Sons,Inc.New York,NY(Payne);and Gamborg and Phillips(eds)(1995) Plant Cell,Tissue and Organ Culture;Fundamental Methods Springer Lab Manual,Springer-Verlag(Berlin Heidelberg New York)(Gamborg)。在Atlas and Parks(eds)The Handbook of Microbiological Media(1993)CRC Press,Boca Raton,FL(Atlas)中描述了多种细胞培养基。其它关于植物细胞培养的信息可在很多可获得的商业文献中发现,例如来自Sigma-Aldrich,Inc(StLouis,MO)(Sigma-LSRCCC))的 Life Science Research Cell Culture Catalogue(1998)和,例如,也来自Sigma-Aldrich,Inc(St Louis,MO)(Sigma-LSRCCC))的 Plant Culture Catalog及其补充(1997)。关于植物细胞培养的其它细节可发现于Croy,(ed.)(1993) Plant Molecular Biology Bios Scientific Publishers,Oxford,U.K.。
可通过多种传统技术,在培养物或植物器官中,将本发明的核酸构建体,例如,质粒、粘粒、人工染色体、DNA和RNA多核苷酸引入到植物细胞中。在序列被表达的情况下,可选地,所述序列与转炉和翻译起始调控序列组合,所述调控序列可以指导来自外源DNA的序列在被转基因植物的目标组织中的转录或翻译。
可根据本领域已知的多种技术中的任何技术,将经过分离的核酸引入到植物中。用于对广泛的多种高等植物进行转化的技术是公知的,其被描述于技术、科学和专利文献中。见,例如,Weising et al.(1988)Ann.Rev.Genet.22:421-477。
例如,可使用对植物细胞原生质体进行微注射和电转化等技术,将质粒、粘粒、噬菌体、裸的或与不同物质结合的DNA多核苷酸(例如,与多聚赖氨酸结合的DNA、与肽结合的DNA、与脂质体结合的DNA等)或人工染色体,直接引入到植物细胞的基因组DNA中,或者,可可使用生物弹技术,例如DNA颗粒轰击将DNA构建体直接引入到植物细胞中。
用于对,例如,细胞、胚胎、愈伤组织和原生质体进行注射的微注射技术是本领域已知的,在科学和专利文献中都对其进行了很好地描述。例如,在Jones(ed)(1995) Plant Gene Transfer and Expression Protocols-Methods in Molecular Biology,Volume 49 Humana PressTowata NJ以及本文提到的其它参考文献中描述了大量的方法,所述方法还可从文献中获得。
例如,在Paszkowski et al., EMBO J.3:2717(1984)中描述了使用聚乙烯甘油沉淀法将DNA构建体引入的方法。在Fromm,et al, Proc. Nat’l.Acad.Sci.USA 82:5824(1985)中对电穿孔技术进行了描述。在Klein et al., Nature 327:70-73(1987)中对生物弹转化技术进行了描述。其它细节可发现于前述Jones(1995)和Gamborg and Phillips(1995)以及US Patent No.5,990,387中。
或者,在一些情况下,优选地,用农杆菌介导的转化来产生转基因植物。农杆菌介导的转化技术,包括解除(disarming)和使用双元载体,也被很好地描述于科学文献中。见,例如,Horsch,et al.(1984) Science233:496;和Fraley et al.(1984) Proc.Nat’l.Acad.Sci.USA 80:4803以及近来评论于Hansen和Chilton(1998) Current Topics in Microbiology 240:22和Das(1998) Subcellular Biochemistry 29:Plant Microbe Interactions pp343-363中。
DNA构建体可与合适的T-DNA侧翼区域组合,并被引入到传统的Agrobacterium tumefaciens宿主载体中。Agrobacterium tumefaciens宿主的致病性功能,能在细胞被细菌感染之时引导构建体和邻近标记插入到植物细胞DNA中。见,U.S.Patent No.5,591,616。虽然Agrobacterium主要用于双子叶植物中,但是某些单子叶植物也可被Agrobacterium转化。例如,在U.S.Patent No.5,550,318中描述了Agrobacterium对玉米的转化。
用于转染或转化的其他方法包括:(1)Agrobacterium rihizogenes介导的转化(见,例如,Lichtenstein和Fuller(1987)In: Genetic Engineering,vol.6,PWJ Rigby,Ed.,London,Academic Press;和Lichtenstein;C.P.,和Draper(1985)In: DNA Cloning,Vol.II,D.M.Glover,Ed.,Oxford,IRI Press),公开于1988年4月7日的WO88/02405,描述了A.rhizogenes菌株A4及其Ri质粒与A.tumefaciens载体pARC8或pARC16的使用,(2)脂质体介导的DNA吸收(见,例如,Freeman et al.(1984) Plant Cell Physiol.25:1353),(3)漩涡(vortexing)技术(见,例如,Kindle(1990) Proc. Natl.Acad.Sci.,(USA)87:1228)。
还可通过直接将DNA转移到花粉中来将DNA引入植物,如Zhouet al.(1983) Methods in Enzymology,101:433;D.Hess(1987)InternRev.Cytol.107:367;Luo et al.(1988) Plant Mol.Biol.Reporter 6:165所述。编码多肽的基因的表达可以通过将DNA注射到植物的繁殖器官中来获得,如Pena et al.(1987) Nature 325:274所述。还可将DNA直接注射进未成熟胚胎和重新水化的干胚胎的细胞中,如Neuhaus et al.(1987) Theor.Appl.Genet.75:30和Benbrook et al.(1986)inProceedings Bio Expo Butterworth,Stoneham,Mass.,pp.27-54所述。此外,本领域内已知有多种可被用作为载体的植物病毒,其包括花椰菜花叶病毒(CaMV)、双联病毒(geminivirus)、雀麦草花叶病毒和烟草花叶病毒。
转基因植物的再生
通过上述任何转化技术获得的经过转化的植物细胞可被培养,以再生出具有转化进的基因型以及由此带来的目标表型的完整的植物。此类再生技术依赖于在组织培养基中用某些植物激素进行操作,典型地,依赖于生物杀灭剂(biocide)和/或除草剂标记,所述标记与目标核苷酸序列一起被引入。在Evans etal.(1983) Protoplasts Isolation and Culture,Handbook of Plant Cell Culture pp.124-176,Macmillian Publishing Company,New York;和Binding(1985) Regeneration of Plants, Plant Protoplasts pp.21-73,CRC Press,Boca Raton中描述了从培养的原生质体进行的植物再生。再生还可从植物愈伤组织、外植体、体细胞胚(Dandekaret al.(1989) J.Tissue Cult.Meth.12:145;McGranahan,et al.(1990)Plant Cell Rep.8:512)、器官或其部分获得。此类再生技术通常可见于Klee et al.(1987)., Ann.Rev of Plant Phys.38:467-486中。其它细节可见于上述Payne(1992)和Jones(1995)以及Weissbach and Weissbach,eds.(1988) Methods for Plant Molecular Biology Academic Press,Inc.,San Diego,CA中。该再生和培养过程包括如下步骤:对转化子细胞和芽进行选择,令转化子的芽生根,以及在土壤中培养小植株(plantlet)。可对上述方法加以改进以适应本发明,用于生产带有根据本发明的方法分离出来的QTL和其它基因的转基因植物。
此外,可根据Horsch et al.(1985)Science 227:1229-1231所述,来获得含有本发明的、并经过Agrobacterium引入到叶片外植体细胞中的多核苷酸的植物的再生。在这种方法中,在存在选择试剂的情况下,在能诱导被转化的植物物种中芽的再生的培养基中,对转化子进行培养,如Fraley et al.(1983)Proc.Natl.Acad.Sci.(U.S.A.)80:4803所述。典型地,该方法在两至四周以内产生出芽,然后将这些转化子的芽转移到合适的能诱导根的培养基上,所述培养基含有选择性试剂和抗生素,以防止细菌生长。本发明的转基因植物可以是可繁殖的或不育的。
在对本发明的重组表达盒(其包括,例如,与QTL或QTL标记相关的ORF)的构建中,可选地,使用植物启动子片段,其能指导核酸在再生植物的任何或全部组织中的表达。组成型启动子的例子包括:花椰菜花叶病毒(CaMV)35S转录起始区域、从Agrobacteriumtumefaciens的T-DNA获得的1’或2’-启动子,和来自技术人员已知的多种植物基因的转录起始区域。或者,植物启动子可以指导本发明的多核苷酸在特定组织(组织特异性启动子)中表达,或者可在更为精确的环境控制下指导表达(诱导型启动子)。处于发育控制下的组织特异性启动子的例子包括:能在某些组织,例如果、种子或花中起始转录的启动子。
能指导在植物细胞中的表达的大量启动子中的任何启动子都可能是合适的。启动子可以是组成型或诱导型的。除上面提到的启动子外,可在植物中操作的细菌来源的启动子包括:章鱼碱合酶启动子、胭脂氨酸(nopaline)合酶启动子以及从天然Ti质粒中获得的其它启动子。见,Herrara-Estrella et al.,(1983), Nature,303:209。病毒启动子包括花椰菜花叶病毒的35S和19SRNA启动子。见,Odell et al.,(1985)Nature,313:801。其它植物启动子包括:核酮糖-1,3-二磷酸羧化酶小亚基启动子和云扁豆蛋白(phaseolin)启动子。来自E8基因和其它基因的启动子序列也可以使用。对E8启动子的分离和序列的细节见Deikman and Fischer(1988) EMBO J.7:3315所述。其它很多启动子都是目前在使用的,它们可与外源DNA序列结合,以指导核酸的表达。
如果需要表达一种多肽(包括QTL或其它基因编码的那些)的时候,典型地,编码区域3’-末端的多聚腺苷化区域被包括在内。多聚腺苷化区域可从天然基因、从大量其它植物基因或从,例如T-DNA中获得。
本发明的转基因体和包含来自编码表达产物的基因的序列(例如,启动子或编码区域)的载体典型地将包括:核酸序列,在植物细胞上赋予选择性或者可筛选性表型的标记基因。例如,所述标记可以编码生物杀灭剂耐受性,特别是抗生素耐受性,例如,对卡纳霉素、G418、博来霉素、潮霉素的耐受性,或者除草剂耐受性,例如,对氯磺隆(chlorosluforon)或草胺膦(除草剂双丙氨瞵或Basta的活性成份)的耐受性。见,例如,Padgette et al.(1996)In: Herbicide-Resistant Crops(Duke,ed.),pp 53-84,CRC Lewis Publishers,Boca Raton(“Padgette,1996”)。例如,可通过将编码来自其它生物(例如微生物)的合适的除草剂代谢酶的基因引入到作物中,来赋予对于特定除草剂的作物选择性。见,Vasil(1996)In: Herbicide-Resistant Crops(Duke,ed.),pp 85-91,CRC Lewis Publishers,Boca Raton(“Vasil”,1996)。
技术人员将认识到,当重组表达盒被稳定地包括进转基因植物并被验证为可操作的之后,可通过有性杂交将其引入到其它植物中。大量的标准育种技术中的任何技术都可使用,这取决于将被杂交的物种。在无性繁殖(vegetatively propagated)的作物中,可通过切割取样(taking of cuttings)或通过组织培养技术来繁殖成熟的转基因植物,以产生多株同样的植物。进行对目标转入基因的选择,获得新的变异体,并且进行无性繁殖用于商业用途。在种子繁殖的作物中,可将成熟的转基因植物自交,以产生纯合的近郊植物。近郊植物产生含有新近引入的异源核酸的种子。可对这些种子进行培养,以生产出能产生选出的表型的植物。从再生植物中获得的部分,例如,花、种子、叶、枝、果等,也被包括于本发明中,前提是这些部分包含有下述细胞的话,所述细胞包含本发明的经过分离的核酸。再生植物的后代和变异体以及突变体也包括在本发明的范围内,前提是这些部分包含引入的核酸序列。
可以通过,例如,标准的免疫印迹和DNA探测技术,针对本发明的核酸的转入,来对表达本发明多核苷酸的转基因植物进行筛选。可在最初确定RNA水平的表达,以对表达呈阳性的植物进行鉴定和定量。用于RNA分析的标准技术可以使用,其中包括PCR扩增试验,其中使用根据进扩增异源RNA模板的目的而设计的寡核苷酸引物,其中还包括溶液杂交试验,其中使用异源核酸特异性探针。然后可通过Western免疫印迹分析,使用本发明的具有特定活性的抗体,针对蛋白质表达对RNA呈阳性的植物进行分析。此外,可以分别使用异源核酸特异性多核苷酸探针和抗体,来进行原位杂交和免疫细胞化学,以对转基因组织内表达的位点进行定位。通常,经常针对被包括进去的核酸对大量的转基因品系进行筛选,以鉴定和选出具有最合适的表达状况的植物。
一种优选的实施方式是:对于加入的异源核酸而言纯合的植物,即,一种转基因植物,其中含有两条加入的核酸序列,位于染色体对的每条染色体的同样的基因座上的基因。纯合转基因植物可以通过下述方法来获得:对含有单条加入的异源核酸的杂合转基因植物进行有性交配(自花授精),令产生的一些种子发芽,对得到的植物的进行分析,所述分析针对本发明的多核苷酸相对于对照植物(即,天然的、非转基因的)而言的不同的表达来进行。与亲本植物的回交和与非转基因植物的远郊也可以考虑。
普通分子生物学参考文献
在本发明的上下文中,例如,关于对QTL标记和/或基因座进行鉴定、对选出的QTL标记进行监测、对ATL和其它核酸(例如,核酸和/或蛋白质)进行克隆和分离等可按照公知的分子生物学技术来进行。用于大量此类方法的详细方案被描述于,例如,Ausubel et al. Current Protocols in Molecular Biology(supplemented through 2000)JohnWiley & Sons,New York(“Ausubel”);Sambrook et al. Molecular Cloning-A Laboratory Manual(2nd Ed.),Vol.1-3,Cold Spring Harbor Laboratory,Cold Spring Harbor,NewYork,1989(“Sambrook”),和Berger和Kimmel  Guide to Molecular Cloning Techniques,Methods in Enzymology volume 152Academic Press,Inc.,San Diego,CA(“Berger”)中。
除上述参考文献外,关于可用于扩增本发明cDNA的体外扩增技术的方案,例如聚合酶链式反应(PCR)、连接酶链式反应(LCR)、Qβ-复制酶扩增以及RNA聚合酶介导的其它技术(例如,NASBA),可见于Mullis etal.(1987)U.S.Patent No.4,683,202; PCR Protocols A Guide to Methods和Applications(Innis et al.eds)Academic Press Inc.San Diego,CA(1990)(“Innis”);Arnheim andLevinson(1990) C&EN36; The Journal Of NIH Research(1991)3:81;Kwoh et al.(1989)Proc Natl Acad Sci USA 86,1173;Guatelli et al.(1990) Proc Natl Acad Sci USA 87:1874;Lomell et al.(1989) J Clin Chem 35:1826;Landegren et al.(1988) Science 241:1077;VanBrunt(1990) Biotechnology 8:291;Wu和Wallace(1989) Gene 4:560;Barringer et al.(1990) Gene 89:117,和Sooknanan和Malek(1995) Biotechnology 13:563中。可用于克隆本发明上下文中的核酸的其它方法包括Wallace et al.U.S.Pat.No.5,526,039。在Cheng et al.(1994) Nature 369:684及其参考文献中概括了通过PCR扩增大核酸的改进方法。
本发明的某些多核苷酸,例如寡核苷酸,可以用涉及到基于单核苷酸和三核苷酸的亚磷酰胺耦合化学的多种固相策略来进行合成。例如,可以通过向延伸中的多核苷酸链顺序加入活化的单体和/或三体来合成核酸序列。见,例如,Caruthers,M.H.et al.(1992) Meth Enzymol211:3。
除了对想要的序列进行合成之外,基本上任何核酸都可以从大量商业来源中的任何来源订购,例如,The Midland Certified ReagentCompany(mcrc@oligos.com),The Great American Gene Company(www.genco.com),ExpressGen,Inc.(www.expressgen.com),OperonTechnologies,Inc.(www.operon.com)和其它很多。
类似地,用于核酸和蛋白质微阵列的商业来源也是可获得的,其包括,例如,Affymetrix,Santa Clara,CA(http://www.affymetrix.com/)和Incyte,Palo Alto,CA(http://www.incyte.com)和CiphergenBiosciences,Fremont,CA(http://www.ciphergen.com/)。
高通量筛选
在本发明的一个方面,对遗传标记等位基因的确定是通过高通量筛选来进行的。高通量筛选包括:提供遗传标记的文库,例如,RFLP、AFLP、同工酶、特定等位基因和可变序列,包括SSR、RAPD等。然后针对植物基因组对此类文库进行筛选,以产生在条件下(underconsideration)对于每种植物的“指纹”。在某些情况下,包含标记的亚部分的部分指纹是在目标区域上产生的。一旦已经鉴定出了植物的遗传标记等位基因,就可以基于本发明的方法,通过统计关联性来确定出标记等位基因中的一种或多种与目标表型性状之间的对应性。
高通量筛选可以多种不同的形式进行。杂交可以以96、324或1524孔的形式进行,或者进行于硅芯片基质上或以其它形式进行。
在一种常用的形式中,打点(dot blot)装置被用于在尼龙或硝酸纤维素膜上保存经过片段化和变性的基因组或扩增DNA的样品。在通过对紫外线曝光或通过加热使核酸与膜交联之后,将膜与加上标签的杂交探针一起温育。通过本领域公知大量方法中的任何方法,都可以将标签加入到核酸探针中。对膜进行洗涤,以去除未杂交的探针,对标签与目标核酸序列之间的关联性加以测定。
已发展出了大量用于高通量筛选的公知机器人系统,特别是96孔形式的。这些系统包括:自动工作站,例如,Takeda Chemical Industrials,LTD.(Osaka,Japan)开发的自动合成装置,以及很多利用到机械手的机器人系统(Zymate II,Zymark Corporation,Hopkinton,MA.;ORCATM,Beckman Coulter,Fullerton CA)。上述任何装置都适用于本发明。对于这些装置进行的改良使得它们能按照本文所述进行操作的原理和实施对于相关领域的技术人员来说是显而易见的。
此外,高通量筛选系统本身是可以通过商业途径获得的(见,例如,Zymark Corp.,Hopkinton,MA;Air Technical Industries,Mentor,OH;Beckman Instruments,Inc.Fullerton,CA;Precision Systems,Inc.,Natick,MA等)。典型地,上述系统能自动进行整个程序,包括,所有的样品和试剂移取、液体分配(liquid dispensing)、定时温育以及最后在适用于该检验的探测器中读取微盘或膜上的数据。这些可配置的系统提供了高通量和迅速启动,以及高的灵活性和客户化程度。此类系统的制造商提供了详细的方案,所述方案用于在高通量应用中使用它们的产品。
在本发明的一种变化中,可以针对对多种多态性核苷酸的迅速且特异的探测,对固相阵列加以改变。典型地,将核酸探针与固体支持物相连,使目标核酸与探针杂交。探针或目标或两者都可被加上标签,典型地,用荧光团来进行。如果目标被加上了标签,就可以通过探测结合的荧光来对杂交进行评价。如果探针被加上了标签,典型地,通过用结合的核酸来使标签失效,从而对杂交进行探测。如果探针和目标都被加上了标签,典型地,通过对由两个结合的标签的接近性导致的颜色变化的监测,来进行对杂交的探测。
在一种实施方式中,在固体支持物上合成探针的阵列。用芯片伪装(chip masking)技术和光保护(photoprotective)化学,可能可以产生预定的核酸探针阵列。这些阵列是已知的,例如作为“DNA芯片”或作为非常大规模的固定多聚物阵列(VLSIPSTM阵列)被已知,它们可以包括:在具有大约1cm2至若干cm2的面积的基底上数百万给定的探针区域。
在另一种实施方式中,毛细电泳被用于分析多态性。当多态性是基于大小的时候,例如,AFLP和SSR,该技术进行得最好。在U.S.Patents Nos.5,534,123和5,728,282中对该技术进行了详细的描述。简言之,毛细电泳管中装有分离基质。该分离基质含有羟乙基纤维素、尿素以及可选地甲酰胺。AFLP或SSR样品被上样至毛细管中,进行电泳。因为毛细电泳仅需要少量的样品和分离基质,所以其运行时间非常之短。通过本文所述的技术,对核酸样品中存在的核苷酸的分子大小以及由此可知的数量进行探测。在高通量形势下,多种毛细管可被置于毛细电泳装置中。将样品上样到管中,同时对样品进行电泳。见,Mathies and Huang,(1992) Nature 359:167。
实施例
本文所述的模拟实施例仅为了阐述目的之用,本领域技术人员将能理解对其进行的大量改良和改变,它们也将被包括于本申请的原则和范围以及所附权利要求的范围之内。因此,提供下述事实例用于阐释,而非欲对所要求保护的发明加以限制。
模拟的结果显示,在广大范围的遗传模型和育种情况(scenario)下,随时定位方法都优于仅在开始时定位的方法。如在下述实施例中更详细的讨论,两种方法之间的性能差异在育种程序期间增加,并且,其会受到对QTL作用进行更新的频率的影响。在育种程序的每个循环都对QTL估计值进行更新的方法具有最高的应答,而更新QTL估计值次数最少的方法则具有最低的应答。多种因素会影响到两种方法之间的性能差异的大小。它们是:性状遗传构造的复杂程度、性状的遗传率以及用于选择中的MAS权重水平。最特别地,当使用加合遗传模型的情况下,两种方法间仅有极小或没有差异。当使用上位性遗传模型的情况下,两种方法检会有显著的差异。此外,选择过程中所用的环境类型也会影响到两种方法间的性能差异。例如,较之中期胁迫环境,在严峻末期胁迫和温和末期胁迫的环境下,会观察到较大的性能差异。
QU-GENE软件被用于进行下述育种和选择模拟。在QU-GENE中发展和实施E(NK)模型使得可在定位和选择中对上位性影响和基因型x环境相互作用的影响作出评价(Cooper and Podlich(2002)The E(NK)Model:Extending the NK Model to Incorporate Gene-by-EnvironmentInteractions and Epistasis for Diploid Genomes  Complexity WileyPeriodicals,Inc.,Vol.7,No.6:31-47)。在Podlich and Cooper(1998)QU-GENE:a simulation platform for quantitative analysis of geneticmodel  Bioinformatics 14:632-653中对该软件进行了完整的描述,该文献为了一切目的被包括进本文中。
简言之,QU-GENE软件由两种主要部件构成:i)引擎(engine);其被称为QUGENE,以及ii)应用模块(图3)。引擎的作用是在评价下确定系统的遗传情况。大量参数被用于确定遗传情况。它们包括:基因/QTL的数量、基因/QTL在染色体上的定位、QTL的遗传作用(包括加合、显性、上位性和基因x环境相互作用的影响)、多效性基因、分子标记、形状遗传率以及以环境的目标种群形式存在的环境信息(参见Comstock,1977;Cooper and Hammer,1996)。其它信息,参见Podlichand Cooper(1998)。
应用模块的作用是:对由引擎的参数定义的遗传系统中存在的基因型的性质进行研究。通常,应用模块编码对植物育种程序的操作。通过基于表型和基因型信息的指标,对杂交体表现进行评价,从而在育种程序中来进行MAS。用于所述指标中的表型信息基于杂交体组合在从MET采样出的十个位点上的平均表现。对基因型评价而言,根据杂交体与标记等位基因目标构型(通过QTL分析确定的)的遗传相似性,对每种杂交体组合给出分子意义上的分数。基于通过QTL分析确定的等位基因作用大小,对每个基因座的基因型分数进行给出权重。例如,基于关于杂交体表型和基因型信息的组合指标,针对每种种质群体选出前100个近交体,将其保留用于下一个育种循环。系谱育种、杂交体评价和选择的过程在超过例如30个育种程序循环上进行。对于仅在开始时定位的方法而言,在育种程序的第1个循环对QTL作用进行评估,将其用于选择过程中的全部30个循环。对于随时定位方法而言,在选定的间隔处对QTL作用进行重评估,例如,(i)育种程序的每个循环(即,更新=每个循环),(ii)育种程序的每5个循环(即,更新=5个循环)以及(iii)育种程序的每10个循环(即,更新=10个循环)。在所有情况下,较老的QTL估计值被较新的QTL估计值替换。因此,不会有信息从一次QTL定位分析被保留至下次。图3显示的应用模块代表了对若干种育种策略或育种程序的编码。这些模块中的每种都具有图2所示的基本结构(即,对基因型进行评价、选择和intermating)。应当注意到,随时定位方法可被用于上述育种策略和/或模块中的任何一种。
实施例1  模拟随时定位策略
在该模拟中,使用来自引擎和应用模块的参数的因数组合(factorial combination),运行若干次MiniMin应用模块。MiniMin模块能实现如图4所示的相互轮回(reciprocal recurrent)育种策略。所有遗传模型都具有24种独立分离的QTL(每个基因座上2种等位基因),其中每种都会影响到对其进行选择的性状。
用E(NK)记法(notation)来定义遗传作用(Cooper and Podlich,2002)。K值代表与特定基因相互作用的基因座的平均数量。例如,K=0表示,没有其它基因座会影响到特定基因的遗传作用,即,K=0对应于加合基因系统。对K=1而言,二基因网络在运行。对K=2而言,三基因网络在运行,等。较高的遗传率值对应于较低的错误水平。关于如何在QU-GENE中运用该参数的描述,见Podlich and Cooper(1998)。
在模拟中使用了一种系综方法。关于如何在QU-GENE中执行该方法的描述,见Cooper and Podlich(2002)。简言之,系综方法涉及多种遗传系统的产生,其中,从相同的基本(underlying)统计分布随机推出对于每种系统的基因作用。该方法产生了关于基因作用的连续统(continuum),使得遗传系统含有具有较大和较小作用的基因(图5)。在这种模拟中,针对每种K水平,制造了25种独立的遗传模型。这即是说,对于25种遗传系统中的每一种而言,确定出了一组新的、独立的基因作用。
用下述参数来实施所有的育种策略(见,图4):20个循环的选择,每种基础种群中200个个体,100次F1双亲杂交、每种F1具有5个Fn植物,每次杂交10个测试者,加倍的单倍体被用于Fn产生,每个循环对基础种群中的50%进行替换。每种育种策略从基因型的相同起始种群进行10次。每一轮都独立于前面的轮次。
用仅在开始时或随时更新的方法来进行QTL定位。基于QTL定位分析,计算出标记的分数。对用于评估QTL作用的一种简单方法进行更改,使得分子标记可以与和性状变异相关的QTL中的每一种都完美连锁,即,完美的标记和完全的连锁不平衡。因此,在模拟试验的每个阶段上每种基因型内,每种QTL等位基因可被标记等位基因单独鉴定。通过对含有该基因型的杂交体种群中所有个体的表型值进行平均,可以针对每种基因型(例如,AA、Aa、aa)获得评估出的QTL作用。最佳表现基因型组合被给为2分,次佳表现基因型被给出1分,最差表现基因型给0分。对系统中每种QTL进行这个过程。然后针对给出的个体植物的标记分数计算个体标记分数的总和。在育种程序的每个循环之后,重新设定QTL估计值,使得没有信息从一个循环被带到下一个。然后对比每种基因型的作用。例如,将一个基因座上AA基因型组合的所有个体的平均表现与具有Aa和aa基因型组合的所有个体相比较。对于每个基因座而言,对作用大小进行评估,鉴定出有利的基因型。
应当认识到,用于在本实验中对QTL作用进行评估的方法是多种可能可被考虑的分析方法中的一种,因其实施简易性将其选出。还应当认识到,通过在评估过程中使用大量个体以及使用QTL和标记之间完美连锁的模型,可以获得相对精确的QTL估计值及其作用。以这种方式来构建模拟过程,使得任何单次定位分析中QTL估计值是相对高质量的,以确保对MAS策略的聚焦比较(focused comparison)。在初始估计值不精确的情况下,随时定位策略具有明显的好处(即,对初始不精确的QTL估计值加以精细改进)。
通过将育种程序每个循环的表型和标记信息组合来进行选择。可用不同的方式来对表型和标记信息加以权重。在该实验中,考虑了21种不同的权重水平,其范围为0%至100%之间,每级为5%。权重为0%的表型表示仅有标记选择(MS)的情况,权重为100%的表型表示了仅有表型选择(PS)的情况,表型权重在0%至100%之间表示标记辅助选择(MAS)。
使用下述参数值。
引擎参数(遗传模型参数):
上位性水平:5种水平;K=0,K=0.5,K=1,K=2,K=3
遗传率:3种水平;H=0.05,0.5和0.95
E(NK)系综:每种模型25种参数确定(parameterizations)
遗传模型总数:375
MiniMin参数(育种策略参数)
更新频率:2种水平;仅在开始时定位;随时定位
MAS权重:21种水平;表型权重0%至100%,以5%为一级
轮次:10次;每种组合的Reps
育种策略参数总数:42
MiniMin轮次总数:375×42×10=157,500次
结果
如图6所示,平均起来随时定位方法通常优于仅在开始时定位的方法。随时定位和仅在开始时定位之间的性能差异随着增加的育种循环而增长。在前5个循环中两种方法的平均性能之间几乎没有差异(图7a)。第5个循环后,两种方法之间的性能差异在每个循环都有所增加。
类似地,虽然甚至在上位性低的时候,例如,K=0时,随时定位策略也是有效的,但是随着K值增加,其会显著优于仅在开始时定位的方法(图7b)。当K=0时,两种方法间性能几乎没有差异。这种结果表明,在育种程序开始时估计出的初始QTL作用在育种中长期有用,而随时定位方法的更新的估计值仅提供了很少的额外信息用于提高选择应答。相反,对于含有上位性的遗传模型而言(K=1、2、3),随时定位方法较之仅在开始时定位的方法获得了较高的平均水平。当上位性发挥出显著作用的时候,用随时定位方法在多个循环上进行的对QTL作用的递归评估则提供了更为有效的对于性状遗传构造的理解,使得能获得更高的应答。当更多的上位性被引入到遗传模型中时,使用随时定位方法观察到的优点会增加。
遗传率水平也会影响随时定位和仅在开始时定位方法之间的性能差异(图8)。在遗传率为最低水平的情况下,用随时定位策略能获得最为显著的较之仅在开始时定位方法的性能提高。
MAS权重水平对于两种方法间的性能差异有很大的影响(图9)。当MAS权重水平给予标记分数更多强调的时候(即,低MAS权重水平),两种方法间的性能差异会增加。这由图9下半部分中大的黑蓝负所表示(循环20)。对于更高的MAS权重水平而言,表型值被给予了更多的强调,因此QTL估计值对对于选择的应答具有更小的影响。这是由图9上半部分中较浅色的成分表示的(循环20)。
实施例2  对随时定位策略中不同循环间隔处进行更新的比较
本模拟过程对其中使用不同循环间隔以更新QTL信息的随时定位方法的能力进行了比较。QTL作用仅在开始时被评估,或者在育种程序的每个循环都更新,或者在育种程序期间间歇更新(图1c)。如上所述,针对大范围的遗传模型和育种情况来考虑应答。
如实施例1所述,使用来自引擎河应用模块的参数值的因数组合来执行MiniMin模块。如上所述,所有遗传模型具有24种独立分离的QTL(每个基因座2中等位基因),其中每种都对表型施加影响。
对上位性的多种作用加以评价:K=0(加合)表示所有基因都被确定为具有加合作用(即,对于一种基因而言基因型的值对其它基因的基因型没有周围要素依赖性,Aa基因型的表现的AA和aa表现的中间一半)。K=0(加合、显性、超显性)模型表示,基因被允许具有加合、显性和超显性作用。在该实验中,针对每种K水平,制造500种独立的遗传模型。这即是说,对500种遗传系统中的每种而言,定义出一组新的、独立的基因作用。
所有育种策略都用下述参数来执行:50个循环的选择,每种基础种群中200个个体,100次F1双亲杂交、每种F1具有5个Fn植物,每次杂交10个测试者,加倍的单倍体被用于Fn产生,每个循环对基础种群中的50%进行替换。
为比较的目的而言,仅在开始时进行QTL定位或随时对其进行更新。按照实施例1所述来计算标记分数。对于随时定位策略而言,考虑4种不同的更新速率:i)每个循环更新估计值,ii)每2个循环更新估计值,iii)每5个循环更新估计值,以及iv)每10个循环更新估计值(图1c)。
按照实施例1所述,通过对育种程序每个循环处的表型和标记信息加以组合,来进行选择.权重为0%的表型表示仅有标记选择(MS)的情况,权重为100%的表型表示了仅有表型选择(PS)的情况,表型权重在0%至100%之间表示标记辅助选择(MAS)。
每种育种策略从基因型的相同起始种群进行25次。每一轮都独立于前面的轮次。在该模拟中使用下述参数值。
引擎参数(遗传模型参数):
上位性水平:5种水平;K=0(加合),K=0(加合、显性、超显性),K=1,K=2,K=5
遗传率:2种水平;H=0.1和H=0.7
E(NK)系综:每种模型500种参数确定(parameterizations)
遗传模型总数:5000
MiniMin参数(育种策略参数)
更新频率:5;仅在开始时定位;随时定位:更新(循环):1、2、3、10
MAS权重:5种表型权重:0%(MS)、25%、50%、75%、100%(PS)
轮次:25次;每种组合的Reps
育种策略参数总数:25
MiniMin轮次总数:5000×25×25=3,125,000次
结果
随时定位方法通常优于仅在开始时定位的方法(图10)。随时定位方法的性能受进行QTL定位的频率的影响。通过在育种程序的每个循环处都更新QTL估计值(Upd=1)能够获得最高的应答。当QTL估计值更新最少的情况下(Upd=10),获得相对仅在开始时定位的最低的应答。四种随时定位方法的应答情况清楚地显示,QTL定位进行于育种程序期间的情况下,性能上尖锐的提高(图10b)。
如实施例1所述,随时定位方法的相对性能随着系统中上位性数量的增加而增加(图11)。对于K=0的遗传模型而言,仅在开始时定位和四种随时定位方法之间性能几乎没有差异。相反,对于含有上位性的遗传模型而言(K=1、2、3),随时定位方法较之仅在开始时定位的方法获得了更高的平均应答水平。
类似地,MAS权重水平对方法的性能有很大的影响(图12)。仅在开始时定位和随时定位方法之间性能的最大差异在仅使用标记选择(即,MAS权重=0%)的育种策略中观察到。对于更多强调表型值的策略而言(例如,MAS权重=75%),不同方法间的差异就较为不显著了。遗传率水平也对不同定位方法的性能有轻微的影响(图13)。
实施例3  随时定位策略在作物生长和发育模型中的应用
使用QU-GENE软件进行的计算机模拟被用于评价作物生长和发育模型中用于标记辅助选择的随时定位方法。基因与表型的关系按照Cooper et al(2002)所定义。简言之,在模拟实验之前计算出产量(yield)表型值的查找表(look-up table)。该表使用作物生长和发育模型,以整合三种普通类别的环境类型(严峻末期胁迫、中期胁迫、温和末期胁迫)中四种性状成分(呼吸效率、物候学(phenology)、渗透调节、绿色保持)的表达情况。针对四种性状成分中的每一种,确定基因数量和遗传作用。针对每种性状,将遗传作用分类为表达状态。因此,构建基因对表型的模型,使得特定基因影响特定的性状成分,并且用作物生长模型对这些性状成分加以整合,以给出对于性状产量的估计值。选择基于产量性状的表现。
在这种模拟中,所有遗传模型都具有15种独立分离的QTL(每个基因座上两种等位基因)。假设四种性状成分受到5(呼吸效率)、3(物候学)、2(渗透调节)和5(绿色保持)个基因的影响。这些性状的基因作用被定义为加合性的并且相等的。
使用Cooper et al.(2002)所述的高粱作物生长模型。在三种类型的环境中对作物生长模型加以考虑。在这些环境类型的每一种中,对针对选择的应答加以考虑。
所有的育种策略都用下述参数来执行:30个循环的选择,每种基础种群中200个个体,100次F1双亲杂交、每种F1具有5个Fn植物,每次杂交10个测试者,加倍的单倍体被用于Fn产生,每个循环对基础种群中的50%进行替换。
按照实施例1所述,在育种和选择程序的每个循环进行递归更新,或者仅在开始时进行QTL定位。不管基因会影响到何种性状,对所有基因都给出标记分数。按照实施例1所述,通过对育种过程每个循环处的表型和标记信息加以组合来进行选择。
以两种方法中的一种来产生QTL估计值:i)使用针对育种程序给定循环的环境类型中基因型的表型值(即,表型错误包括在内),或ii)使用针对育种程序给定循环的环境类型中基因型的直接(explicit)值(即,表型错误不包括在内)。
引擎参数(遗传模型参数):
遗传模型:1;高粱作物生长模型
环境类型:3;严峻末期胁迫、中期胁迫、温和末期胁迫
遗传率:2种水平;H=0.05和H=1.0
遗传模型总数:6
MiniMin参数(育种策略参数)
更新频率:2种类型;仅在开始时定位;随时定位
MAS权重:5种水平:0%(MS)、25%、50%、75%、100%(PS)
QTL估计值:2种类型;表型的、直接的
轮次:100次;每种组合的Reps
育种策略参数总数:20
MiniMin轮次总数:6×20×100=12,000次
结果
如前面的模拟一样,平均起来随时定位方法优于仅在开始时定位的方法(图4)。用于选择过程中的环境类型会影响到两种方法见的性能差异。在严峻末期胁迫和温和胁迫环境的情况下,较之中期胁迫能观察到更大的性能差异。
可通过关于性状成分的基因频率的变化,来解释两种方法之间不同的应答情况(图14;右图)。对仅在开始时定位的方法而言,在严峻末期胁迫环境中,关于保持绿色的性状的基因频率变化要比随时定位方法的慢。在中期胁迫环境中,观察到的两种方法间的性能差异是最小的,针对性状成分,两种方法中基因频率的变化也是相对相似的。例外在于:对于性状绿色保持而言,基因频率有小差异。在温和末期胁迫环境中,对于呼吸效率和渗透调节这两种性状而言,仅在开始时定位的方法中基因频率的变化要比随时定位方法中的变化慢很多。
如前述实施例一样,对于不同水平的遗传率而言,两种方法性能间有所差异(图15)。结果显示,在低遗传率水平(H=0.05)的时候性能间有较大的差异。对严峻末期胁迫和温和末期胁迫环境而言,这种差异会更大。
对于用于评估QTL作用的不同方法而言,两种方法性能间有所差异(图16)。在使用直接作用来评估QTL作用的情况下,两种方法间性能的差异较之使用表型信息来评估QTL作用的情况(即,环境错误包括在内)略小。
MAS权重水平也会影响到方法的相对性能(图17)。在仅使用标记选择的育种策略中(即,MAS权重=0%),观察到了仅在开始时定位和随时定位方法之间最大的性能差异。对于更强调表型值的策略(例如,MAS权重=75%)而言,不同方法间的差异最小。如所预计的一样,仅进行表型选择的策略中(即,MAS权重=100%),两种方法间没有差异。
实施例4  对不同水平的上位性和基因与环境相互作用而言,随时定位方法的效率
在该模拟实验中,针对不同水平的上位性和基因与环境相互作用来考虑随时定位方法的效率。对QTL作用的评估仅在开始时进行,或在育种程序的每个循环都进行更新,或在育种程序期间间歇更新。该实验是实施例1和2所述的内容的延伸。
如实施例1和2所述,用来自引擎和应用模块的参数值的因子组合来执行MiniMin模块。用E(NK)模型系综方法来产生遗传模型(Podlich and Cooper,1998;Cooper and Podlich,2002),其中,E指不同环境类型(展示出目标环境种群中基因与环境相互作用)的数量,N代表影响到性状的基因的数量,K是对上位性水平的量度。对于给定的N基因数量而言,通过改变E和K参数,可以引入不同的周围要素依赖性水平(由于基因与环境相互作用和上位性造成的)。E的水平增加表示更多的基因与环境相互作用,而更大的K值则表示更多的上位性。在该实验中,对总共9个普通组别的遗传模型进行研究(表1)。
表1:对遗传模型的概括
                        E值1                     5                     10
  K值   0   加合模型   仅有基因与环境相互作用的模型
  1 仅有上位性的模型 基因与环境以及上位性模型
  2
第一组普通遗传模型仅具有加合作用,即,E=1,K=0(经典的有限基因座加合模型)。两个普通遗传模型组具有上位性作用,但是没有基因与环境相互作用的影响,即,E=1,K=1、2。两个普通遗传模型组具有基因与环境相互作用,但是没有上位性作用,即,K=0,E=5、10。剩下的四组普通遗传模型具有基因与环境相互作用和上位性作用的组合,即,E=5、10;K=1、2的全部组合。对于每组遗传模型而言,考虑四种水平的N;N=12、24、48、96。在所有情况下,按照Cooperand Podlich(2002)所述,从基本的均匀分布随机获取关于QTL等位基因遗传作用的样品。对于每个普通的遗传模型的组而言,考虑关于E(NK)模型的总共500种不同的随机参数确定。该情况中,遗传率水平为0.1和0.7,基于单株植物。
所有的育种策略都用下述参数来执行:30个循环的选择,每种基础种群中200个个体,100次F1双亲杂交、每种F1具有5个Fn植物,每次杂交10个测试者,加倍的单倍体被用于Fn产生,每个循环对基础种群中的50%进行替换。在具有十个位置的模拟多环境试验(simulated multi-environment trial,MET)中,对每种杂交体组合进行评价。从目标环境种群中随机对每个位置所代表的环境类型取样(Comstock,1977;Cooper and Hammer,1996;Cooper and Podlich,2002)。十个位置间杂交体的表型值被用于评估QTL等位基因作用。用于本实验中的QTL分析方法与实施例1和2中所描述的一样。
通过基于表型和基因型信息指标对杂交体表现进行评价,在育种程序中进行MAS。用于该指标中的表型信息基于MET中采样的十个位置间的杂交体组合的平均表现。对于基因型评价而言,根据杂交体与标记等位基因目标构型(通过QTL分析确定的)之间的遗传相似性,对每种杂交体组合给出一个分子分数。基于通过QTL分析确定的等位基因作用的大小,对各个基因座的基因型分数给予权重。基于关于杂交体表型和基因型信息的组合指标,针对每种种质群体选出前100个近交体,将其保留用于下一个育种循环。系谱育种、杂交体评价和选择的过程在超过30个育种程序循环上进行。对于仅在开始时定位的方法而言,在育种程序的第1个循环对QTL作用进行评估,将其用于选择过程中的全部30个循环。对于随时定位方法而言,在(i)育种程序的每个循环(即,更新=每个循环),(ii)育种程序的每5个循环(即,更新=5个循环)以及(iii)育种程序的每10个循环(即,更新=10个循环),对QTL作用进行重评估。在所有情况下,较老的QTL估计值被较新的QTL估计值完全替换。因此,不会有信息从一次QTL定位分析被保留至下次。对于E(NK)模型的每种参数确定情况,MAS策略的每一种都独立重复25次。育种程序总共进行了360万次,包括10800万次选择循环。
使用下述参数值。
引擎参数(遗传模型参数):
上位性水平:3种水平;K=0,K=1,K=2
基因与环境相互作用水平:3种水平,E=1、5、10
基因数量水平:4种水平;N=12、24、48、96
遗传率水平:2种水平;H=0.1、0.7
E(NK)系综:每种模型500种参数确定
遗传模型总数:36,000
MiniMin参数(育种策略参数)
更新频率:4种水平;仅在开始时定位;
随时定位:更新的(循环):1、5、10
轮次:25次;每种组合的Reps
育种策略参数总数:4
MiniMin轮次总数:36,000×4×25=3,600,000次
结果
以育种程序每个循环处杂交体的平均表现的形式,对用于MAS的仅在开始时定位和随时定位方法的选择的发展进行评价。就所有遗传模型间的平均水平而言,对MAS而言,随时定位方法优于仅在开始时定位的方法。在最为频繁地对QTL等位基因作用进行更新(即,更新=每个循环)的策略中,观察到了最大的应答。在分别为每5和10个循环对QTL等位基因作用进行更新(更新=5和10个循环,图18)的策略中,获得了次高的应答水平。对于后两种随时定位策略而言,在对QTL等位基因进行重评估之后立刻出现了相对应答的大幅增加(例如,对更新=10个循环的情况而言,在第11个循环产生了性能上的尖锐提高,然后在第21个循环也是一样)。在所有情况下,随时定位方法优于仅在开始时定位的方法。
在九组普通的遗传模型中,仅在开始时定位和随时定位方法的相对性能有着很大的差异(图18)。对于仅存在加合作用的遗传模型组而言(即,E=1,K=0;图18中左上的一幅),不同MAS策略之间的性能差异相对地小。这种结果表示,最初对QTL作用的估计值在育种过程中长期有效,因此由随时定位方法提供的更新的估计值仅提供了很少的额外信息,以改进选择应答。相反,对于含有上位性但不合基因与环境相互作用的遗传模型的组而言(即,E=1;K=1、2;图18上方的中间和右边的图),随时定位方法比仅在开始时定位的方法具有更高水平的应答。此处,使用随时定位方法在选择循环上对QTL进行循环重评估提供了:在现有种质的范围内,对形状遗传构造的更为有效的评估,使得能在中至长期获得更高的应答。用随时定位方法观察到的优势的大小随K而增加(即,更大的周围要素依赖性),或者当QTL作用被更为频繁地更新时也会增加。对具有基因与环境相互作用但是没有上位性的遗传模型而言(即,K=0;E=5、10;图18的中间和靠下的左边的图),随时定位方法通常比仅在开始时定位的方法能获得更高的应答水平。随时定位方法具有下述想要的方面:在每次QTL分析中使用新的环境类型样品,因此优于仅在开始时定位的方法,因为基于来自目标环境种群的单种环境类型的样品,QTL估计值并非不确定地固定的。但是,应当认识到,对于仅有基因与环境相互作用的影响的遗传模型来说,在开始时仅在开始时定位的方法优于随时定位方法。这是因为如下事实:随时定位方法基于任何给定的循环中被作为样品的环境组,连续追赶移动的目标(即,“yo-yo”作用,Rathien,1994),因此导致在目标环境中群众,最初针对选择的应答较为不理想。当上位性和基因与环境相互作用的影响都存在时(即,K=1、2;E=5、10,图18中靠下的四幅图),随时定位方法平均优于仅在开始时定位的方法。
在用于不同组的遗传模型的不同育种策略之间,应答的变化也有差异(图19)。对于仅存在加合作用的遗传模型的组而言(图19,左上的一幅),仅在开始时定位的方法和随时定位方法的版本之间,应答变化保持一致。相反,当周围要素依赖性存在时(图19;除了左上之外的所有的图),关于平均应答的变化,两种方法显示出了越来越不同的情况,其中仅在开始时定位的方法具有最大的变化,尤其是在靠后的循环时。
除了图18和19所显示的随时定位方法的优点之外,也仍存在个别情况,其中仅在开始时定位的方法优于随时定位方法。例如,图20显示了仅在开始时定位和随时定位(更新=每个循环)方法中各个轮次中的表现,其中图上的每个点代表针对特定遗传模型的育种程序的个别情况(realization)。高于1∶1线的值表示,随时定位方法较之仅在开始时定位的方法具有更高的应答水平。低于1∶1线的值表示,随时定位方法较之仅在开始时定位的方法具有更低的应答水平。当从这个角度来看时,个别情况下,仅在开始时定位的方法优于随时定位方法。因此,在给定的育种过程的情况下,以及针对任何给定的遗传模型而言,仅在开始时定位和随时定位方法的相对性能不能被保证。但是,平均起来随时定位方法具有显著的优点,当考虑长期遗传收获的各种情况下,这种优点能够更稳定地获得(图20;循环10,循环20)。
实施例5  用用于QTL评估的混合模型分析模拟随时定位策略
在本实施例中,用用于QTL评估的混合模型分析来实施随时定位方法。在实施例1至4中,使用了相对简单的QTL分析。此处考虑的混合模型分析是更为先进的分析技术,其中使用了表型和基因型信息,考虑到了杂交信息之内和之间的情况。Jannink and Jansen(2001)描述了类似的方法。
在该实施例中,考虑了总共六组普通的遗传模型(表1,实施例4)。第一组普通的遗传模型仅具有加合作用,即,E=1,K=0(经典的有限基因座加合模型)。两组普通遗传模型具有上位性作用,但是没有基因与环境相互作用的影响,即,E=1,K=1、2。一组普通遗传模型具有基因与环境相互作用,但是没有上位性作用,即,K=0,E=10。剩下的两组普通遗传模型具有基因与环境相互作用和上位性作用的组合,即,E=10;K=1、2的全部组合。对于每组遗传模型而言,考虑一种水平的N(N=24)。在所有情况下,按照Cooper and Podlich(2002)所述,从基本的均匀分布随机获取关于QTL等位基因遗传作用的样品。对于每个普通的遗传模型的组而言,考虑关于E(NK)模型的总共100种不同的随机参数确定。该情况中,遗传率水平为0.1,基于单株植物。
对育种程序的执行与实施例4中所述相同。所有的育种策略都用下述参数来执行:30个循环的选择,每种基础种群中200个个体,100次F1双亲杂交、每种F1具有5个Fn植物,每次杂交10个测试者,加倍的单倍体被用于Fn产生,每个循环对基础种群中的50%进行替换。在具有十个位置的模拟多环境试验(MET)中,对每种杂交体组合进行评价。十个位置间杂交体的表型值被用于评估QTL等位基因作用。
对仅在开始时定位的方法而言,在育种程序的第1个循环对QTL作用进行评估,将其用于选择过程中的全部30个循环。对于随时定位方法而言,在(i)育种程序的每个循环(即,更新=每个循环),(ii)育种程序的每5个循环(即,更新=5个循环)以及(iii)育种程序的每10个循环(即,更新=10个循环),对QTL作用进行重评估。在所有情况下,较老的QTL估计值被较新的QTL估计值完全替换。因此,不会有信息从一次QTL定位分析被保留至下次。对于E(NK)模型的每种参数确定情况,MAS策略的每一种都独立重复10次。育种程序总共进行了24,000次,包括720,000次选择循环。
使用下述参数值。
引擎参数(遗传模型参数):
上位性水平:3种水平;K=0,K=1,K=2
基因与环境相互作用水平:2种水平,E=1、10
遗传率水平:1种水平;H=0.1
E(NK)系综:每种模型100种参数确定
遗传模型总数:600
MiniMin参数(育种策略参数)
更新频率:4种水平;仅在开始时定位;
随时定位:更新的(循环):1、5、10
轮次:10次;每种组合的Reps
育种策略参数总数:4
MiniMin轮次总数:600×4×10=24,000次
结果
在六组普通的遗传模型中,仅在开始时定位和随时定位方法的相对性能有着很大的差异(图21)。对于仅存在加合作用的遗传模型组而言(即,E=1,K=0;图21中左上的一幅),不同MAS策略之间的性能差异相对地小。相反,对于含有上位性但不含基因与环境相互作用的遗传模型的组而言(即,E=1;K=1、2;图21上方的中间和右边的图),随时定位方法比仅在开始时定位的方法具有更高水平的应答。用随时定位方法观察到的优势的大小随K而增加(即,更大的周围要素依赖性),或者当QTL作用被更为频繁地更新时也会增加。对具有基因与环境相互作用但是没有上位性的遗传模型而言(即,K=0;E=10;图21靠下的左边的图),随时定位方法通常比仅在开始时定位的方法获得更高的应答水平。当上位性和基因与环境相互作用的影响都存在时(即,K=1、2;E=10,图21中靠下的右边两幅图),随时定位方法平均优于仅在开始时定位的方法。
实施例6  用用于QTL评估的HAPLO-MQM方法的版本来模拟随时定位策略
使用用于QTL等位基因评估的HAPLO-MQM方法的版本来进行随时定位方法(Jansen et al.2003)。与前述实施例相反,构建出遗传图谱。对本实验而言,假设使用1800cM的遗传图谱,其中每隔5cM处具有标记。针对多基因单倍型组合来对作用进行评估,其中给定的单倍型被确定为跨越四个邻近的标记位置。考虑高和低的连锁不平衡状态。考虑总共三组普通的遗传模型(表1,实施例4)。一组遗传模型具有基因与环境相互作用,但是没有上位性作用,即,K=0,E=10。另外两组普通遗传模型具有基因与环境相互作用和上位性作用的组合,即,E=10;K=1、2的全部组合。对于每组遗传模型而言,考虑一种水平的N(N=24)。在所有情况下,按照Cooper and Podlich(2002)所述,从基本的均匀分布随机获取关于QTL等位基因遗传作用的样品。对于每组普通的遗传模型而言,考虑关于E(NK)模型的总共100种不同的随机参数确定。该情况中,遗传率水平为0.1,基于单株植物。
对育种程序的执行与实施例4中所述相同。所有的育种策略都用下述参数来执行:30个循环的选择,每种基础种群中200个个体,100次F1双亲杂交、每种F1具有5个Fn植物,每次杂交10个测试者,加倍的单倍体被用于Fn产生,每个循环对基础种群中的50%进行替换。在具有十个位置的模拟多环境试验(MET)中,对每种杂交体组合进行评价。十个位置间杂交体的表型值被用于评估QTL等位基因作用。
对仅在开始时定位的方法而言,在育种程序的第1个循环对QTL作用进行评估,将其用于选择过程中的全部30个循环。对于随时定位方法而言,在(i)育种程序的每个循环(即,更新=每个循环),(ii)育种程序的每5个循环(即,更新=5个循环)以及(iii)育种程序的每10个循环(即,更新=10个循环),对QTL作用进行重评估。在所有情况下,较老的QTL估计值被较新的QTL估计值完全替换。因此,不会有信息从一次QTL定位分析被保留至下次。对于E(NK)模型的每种参数确定情况,MAS策略的每一种都独立重复10次。育种程序总共进行了24,000次,包括720,000次选择循环。
使用下述参数值。
引擎参数(遗传模型参数):
上位性水平:3种水平;K=0,K=1,K=2
基因与环境相互作用水平:2种水平,E=1、10
遗传率水平:1种水平;H=0.1
E(NK)系综:每种模型100种参数确定
遗传模型总数:300
MiniMin参数(育种策略参数)
更新频率:4种水平;仅在开始时定位;
随时定位:更新的(循环):1、5、10
轮次:10次;每种组合的Reps
连锁不平衡:2种水平;LD=高和LD
育种策略参数总数:8
MiniMin轮次总数:300×8×10=24,000次
结果
本实验的结果与针对随时定位方法的其它实施情况观察到的结果一致。即,当存在周围要素依赖性时,随时定位方法优于仅在开始时定位的方法,随时定位方法所展示出的优点随着对QTL估计值进行更新的频率增加而增加(图22)。当起始种群具有低连锁不平衡性的时候,较之起始种群被构建为高度连锁不平衡的情况,观察到了更大的随时定位和仅在开始时定位的方法间的性能差异。
实施例7  对用于表型选择的随时定位方法的性能进行的比较
在该模拟中,针对表型选择对随时定位和仅在开始时定位的方法进行比较。在该实验中,考虑了总共六组普通的遗传模型(表1,实施例4)。第一组普通的遗传模型仅具有加合作用,即,E=1,K=0(经典的有限基因座加合模型)。两组普通遗传模型具有上位性作用,但是没有基因与环境相互作用的影响,即,E=1,K=1、2。一组普通遗传模型具有基因与环境相互作用,但是没有上位性作用,即,K=0,E=10。剩下的两组普通遗传模型具有基因与环境相互作用和上位性作用的组合,即,E=10;K=1、2的全部组合。对于每组遗传模型而言,考虑四种水平的N(N=12、24、48、96)。在所有情况下,按照Cooperand Podlich(2002)所述,从基本的均匀分布随机获取关于QTL等位基因遗传作用的样品。对于每个普通的遗传模型的组而言,考虑关于E(NK)模型的总共500种不同的随机参数确定。该情况中,遗传率水平为0.1,基于单株植物。
对育种程序的执行与实施例4中所述相同。所有的育种策略都用下述参数来执行:30个循环的选择,每种基础种群中200个个体,100次F1双亲杂交、每种F1具有5个Fn植物,每次杂交10个测试者,加倍的单倍体被用于Fn产生,每个循环对基础种群中的50%进行替换。在具有十个位置的模拟多环境试验(MET)中,对每种杂交体组合进行评价。十个位置间杂交体的表型值被用于评估QTL等位基因作用。对表型选择策略而言,十个位置间杂交体的平均表型表现被用于在近交体之间进行区分。
对仅在开始时定位的方法而言,在育种程序的第1个循环对QTL作用进行评估,将其用于选择过程中的全部30个循环。对于随时定位方法而言,在(i)育种程序的每个循环(即,更新=每个循环),(ii)育种程序的每5个循环(即,更新=5个循环)以及(iii)育种程序的每10个循环(即,更新=10个循环),对QTL作用进行重评估。在所有情况下,较老的QTL估计值被较新的QTL估计值完全替换。因此,不会有信息从一次QTL定位分析被保留至下次。对于E(NK)模型的每种参数确定情况,MAS策略的每一种都独立重复10次。育种程序总共进行了600,000次,包括18,000,000次选择循环。
使用下述参数值。
引擎参数(遗传模型参数):
上位性水平:3种水平;K=0,K=1,K=2
基因与环境相互作用水平:2种水平,E=1、10
基因数量水平:4种水平,N=12、24、48、96
遗传率水平:1种水平;H=0.1
E(NK)系综:每种模型500种参数确定
遗传模型总数:12000
MiniMin参数(育种策略参数)
选择策略:5种类型;仅在开始时定位;
随时定位:更新的(循环):1、5、10表型选择
轮次:10次;每种组合的Reps
育种策略参数总数:5
MiniMin轮次总数:12000×5×10=600,000次
结果
对于不具有周围要素依赖性的模型而言(图23;左上一幅),对于此处考虑的所有选择循环,两种MAS策略都优于表型选择。但是,当周围要素依赖性存在时(图23;除了左上之外的其它所有的图),MAS在前10至15个循环优于表型选择。但是,在长期上,表型选择优于仅在开始时定位的方法,在某些情况下,表型选择优于随时定位方法的版本。
实施例8  周围要素依赖性基因作用
周围要素依赖性的存在带来了若干问题:关于给定的QTL等位基因的值,具有不同等位基因组合的基因型之间的对比,以及针对性状的基因与表型的关系。例如,在上位性的情况下,QTL等位基因可能在一种遗传背景存在的情况下具有一种作用,而在另一种遗传背景存在的情况下具有不同的作用。在某些情况下,给定的遗传背景的存在可能会改变对关于QTL的有利的等位基因的确定。上位性可被描述为生理性的上位性或统计上位性。图24显示了这两方面的特征,并强调了随着由于上位性造成的周围要素依赖性的程度产生的复杂因素中的一些。此处,具有不同的周围要素依赖性程度的遗传模型被考虑:(i)基因A独立于其它所有基因(图24a),(ii)基因A与基因B相互作用(图24b)以及(iii)基因A与基因B和C相互作用(图24c)。
有多种对比可被用于研究上位性对多基因座基因型相对表现的影响。此处我们考虑了单个基因座上纯合基因型种类间的对比(即,按照前文Wade,(2002)所述,采用“(gene’s eye view)”)。在不存在周围要素依赖性的情况下(图24a),基因型AA总是具有最高的表型值,并且因此能够清楚确定有利的纯合种类。但是,在基因A与其它基因相互作用的情况下(图24b、c),基因型种类的值和对有利基因型种类的确定就相对不好被确定。例如,在图24b中,对于基因A来说,当组合BB存在于基因B中时,最高表现的组合为基因型AA,而当组合bb存在于基因B中时,基因型aa是最高表现的基因型。基因B的所有组合间平均情况下,基因型种类AA具有最高的作用(图24b;垂直的条线)。在图24c中,基因型组合AABBCC具有最高的表现(线图),但是当关于基因B和C的全部背景基因型间平均的情况下,基因型aa具有最高的值(垂直条线)。
在个体种群内,背景作用并不表现为相等,因为等位基因和基因型频率并不相同,或者甚至以Hardy-Weinberg平衡状况存在。此外,一个种群和下一个种群间,或者一代和下一代之间,基因型组合和等位基因的频率可能不同。当由于上位性的周围要素依赖性存在的情况下,针对每个种群取一个不同的组作为样品,导致不同性状表型的背景作用以及由此的QTL等位基因作用的频率会在种群间变化。因此,QTL等位基因或基因型组合是种群特异性的,因此,对QTL作用的任何估计值与给定环境中给定的个体种群相关。为展示此特点,针对图24中考虑的三种遗传模型中的每一种制造出10,000个独立的种群。针对每个种群,独立地确定出关于等位基因频率的随机的组。图25a显示了针对基因A的估计的QTL作用大小的分布,其中QTL作用被表示为基因A的纯合基因型种类的值的差异(即,AA的平均作用减去aa的平均作用)。正的作用大小表示,基因型种类AA是有利的,负的作用大小表示,基因型种类aa是有利的。对于不存在周围要素依赖性的遗传模型而言(图25a),在10,000个种群间,估计出的基因A的作用相对一致(图25a;K=0)。相反,含有周围要素依赖性的遗传模型(图24b、c)具有相对可变的关于基因A的估计值(图25a;K=1和K=2)。在这两种情况下,作用大小和对有利基因型种类的确定都在种群间变化。这些结果显示了:最高值基因型的确定以及对等位基因估计出的作用是如何在遗传背景的随机组间变化的。
在选择循环上产生的种质的遗传背景不是随机的。因此,图25a中显示的变化不一定代表着可从中取中预计出的变化,所述种质是从育种程序的连续循环产生的。作为代替,种群中等位基因频率的变化可能更具有系统性。这是由于在育种程序循环上产生的个体之间存在着同祖先或系谱关系。图25b显示了展示于图24中的每种遗传模型的这种性质。此处,在选择的10个循环上来估计基因A的作用,其中每个估计值都是独立的,其基于在当时的选择循环中可获得的种质。每条线代表独立的选择轮次。如图25a所示的情况,对于具有周围要素依赖性的遗传模型来说,QTL作用的估计值间发生变化(图25b;K=1和K=2)。在这种情况下,连续的选择轮次间的差异较之10,000个随机种群间的差异更少变化(图25a cf.图25b,关于K=1和K=2)。但是,对选择循环间的一些差异进行强调也很重要。附图显示了轮次到轮次间QTL作用大小的偏差,以及关于对有利的基因型种类的确定的间歇变化。这些结果强调了育种循环顺序上任意点处,依赖于发展的种群结构的QTL作用的存在。
虽然为了清楚和容易理解的目的,对上述发明进行了详细的描述,但是对本领域的技术人员来说,阅读本申请公开文本之后,应当清楚,对形式和细节上的多种改变可以进行,而不会背离本发明的真正范围。例如,其它遗传标记可以很容易地用于本发明的方法。此外,单个基因和数量性状基因座都适于根据本发明方法的定位。本申请中引用的所有出版物、专利、专利申请或其它文献都为了一切目的通过引用的方式被整个包括进来,它们被包括进本文的范围与每种单独出版物、专利、专利申请或其它文献为了一切目的单独通过引用被包括进来的范围相同。

Claims (41)

1.一种方法,用于确保至少一种标记和至少一种表型之间的对应性的正确性,所述方法包括:提供:在多个植物种群间至少一种标记和至少一种表型之间相关性的经过递归确定的估计值,其中植物种群集体包含多次双亲杂交的后代。
2.如权利要求1所述的方法,其中对相关性的所述经过递归确定的估计值对于所述多个植物种群来说是正确的。
3.如权利要求1所述的方法,其中所述植物种群包含后代的多个连续世代。
4.如权利要求3所述的方法,其中包含:在后代的每个连续世代处提供对QTL等位基因作用的更新的估计值。
5.如权利要求3所述的方法,其中包含:在后代的至少每两个连续世代处提供对QTL等位基因作用的更新的估计值。
6.如权利要求3所述的方法,其中包含:在后代的至少每五个连续世代处提供对QTL等位基因作用的更新的估计值。
7.如权利要求3所述的方法,其中包含:在后代的至少每十个连续世代处提供对QTL等位基因作用的更新的估计值。
8.如权利要求1所述的方法,其中,对相关性的所述经过递归确定的估计值是通过如下步骤提供的:
a)提供多种植物中至少一种标记的等位基因和所述至少一种表型之间的相关性的第一个估计值,由此提供了对QTL等位基因作用的第一个估计值;以及,
b)通过对后代种群中所述至少一种标记的所述等位基因和所述至少一种表型之间的相关性进行评估,提供更新的对QTL等位基因作用的估计值,所述后代是通过将包含所述至少一种标记的至少一种植物进行杂交获得的,由此确保所述至少一种标记与所述至少一种表型之间的所述相关性的所述正确性。
9.如权利要求8所述的方法,其中包括提供对QTL等位基因作用的更新的估计值,这是通过用对QTL等位基因作用的第二个估计值去替换对QTL等位基因的所述第一个估计值来进行的。
10.如权利要求8所述的方法,其中包括提供对QTL等位基因作用的更新的估计值,这是通过将对QTL等位基因作用的所述第一个估计值与对QTL等位基因作用的第二个估计值组合来进行的。
11.如权利要求1所述的方法,其中对相关性的所述经过递归确定的估计值是通过如下步骤提供的:
a)提供多种植物中至少一种标记的等位基因和所述至少一种表型之间的相关性的第一个估计值,由此提供了对QTL等位基因作用的第一个估计值;
b)选出至少一种植物,可选地,所述至少一种植物选自步骤a)的所述多种植物,其具有所述至少一种标记的所述等位基因;
c)通过对后代种群中所述至少一种标记的相同或不同的等位基因和所述至少一种表型之间的相关性进行评估,更新对QTL等位基因作用的所述第一个估计值,所述后代是通过将所述至少一种选出的植物进行杂交来获得的,由此产生出对QTL等位基因作用的更新的估计值;以及
d)可选地,从来自所述后代种群中选出具有所述至少一种标记的所述等位基因的至少一种植物,并且,重复c)的所述更新步骤一次或多次,以产生至少一种后续的对QTL等位基因作用的估计值。
12.如权利要求11所述的方法,其中包括:提供:从单次育种杂交获得的多种植物中,或从多次育种杂交获得的多种植物中,所述至少一种标记的所述等位基因和所述至少一种表型之间的相关性的所述第一个估计值。
13.如权利要求11所述的方法,其中包括:在步骤b)中选出具有所述至少一种标记的所述等位基因和至少一种表型的至少一种植物。
14.如权利要求11所述的方法,其中所述后代种群是通过将所述至少一种选出的植物与一种或多种第二次选出的植物杂交获得的。
15.如权利要求11所述的方法,其中所述后代种群是通过将所述至少一种选出的植物与新的植物品系或种群的代表进行杂交获得的。
16.如权利要求1所述的方法,其中包括:使用至少一种统计分析来提供关于相关性的所述经过递归确定的估计值。
17.如权利要求16所述的方法,其中所述至少一种统计分析用于加合作用、基因x环境相互作用和上位性中的一种或多种。
18.如权利要求16所述的方法,其中所述至少一种统计分析是使用下述方法中的一种或多种来进行的,所述方法选自由单点标记分析、区间定位、复合区间定位、惩罚回归分析、复杂系谱分析、MCMC分析、MQM分析、HAPLO-IM+分析、HAPLO-MQM分析和HAPLO-MQM+分析、Bayesian MCMC、岭回归、后代一致性分析、Haseman-Elston回归构成的组。
19.如权利要求16所述的方法,其中包括在计算机辅助下来进行所述统计分析。
20.如权利要求1所述的方法,其中包含提供:关于多种标记和表型之间的相关性的经过递归确定的估计值。
21.如权利要求20所述的方法,其中所述多种标记以加合形式或非加合形式发挥作用。
22.如权利要求1所述的方法,其中所述植物种群包括:多种植物的遗传构成的计算机代表形式。
23.如权利要求1所述的方法,其中对相关性的所述经过递归确定的估计值是通过如下步骤提供的:
a)提供对QTL等位基因作用得第一个估计值,所述估计值用于描述多种植物中所述至少一种标记的等位基因和所述至少一种表型之间的相关性;
b)选出至少一种植物,可选地,所述至少一种植物选自步骤a)的所述多种植物,其具有所述至少一种标记的所述等位基因;
c)将选出的植物杂交,以产生后代种群;
d)对步骤c)的所述后代种群中所述至少一种表型和相同或不同的至少一种标记的等位基因之间的相关性进行评估,由此产生对QTL等位基因作用的第二个估计值;
e)更新对QTL等位基因作用的所述第一个估计值,以产生对QTL等位基因作用的第一个更新的估计值;由此确保所述至少一种标记和所述表性之间的对应性;
f)根据所述对QTL等位基因作用的更新的估计值,从所述后代种群中选出具有至少一种标记的想要的等位基因的至少一个成员;以及
g)可选地,重复步骤c)到步骤f)的过程一次或多次,以产生至少一种后续的后代种群。
24.如权利要求1所述的方法,其还进一步包括:通过从多个植物种群中选出具有所述至少一种标记的至少一种植物,来进行标记辅助选择。
25.如权利要求23所述的方法,其还进一步包括对所述至少一种选出的植物进行杂交。
26.如权利要求25所述的方法,其中包括对所述至少一种选出的植物进行自交、回交或远交。
27.通过如权利要求25所述的方法选出的植物。
28.如权利要求1所述的方法,其还进一步包括克隆与所述至少一种标记连锁不平衡的核酸片段;以及,将所述核酸片段转导进植物中。
29.如权利要求28所述的方法,其中包括,将所述核酸片段以处于表达盒中的形式转导进植物中,所述表达盒包含与所述核酸片段可操作地连接的启动子。
30.如权利要求29所述的方法,其中所述植物与第二种植物有性杂交。
31.由如权利要求29所述的方法制造出的转基因植物。
32.如权利要求1所述的方法,其中,所述多个植物种群包含:选自由玉米、大豆、向日葵、高粱、小麦、水稻、亚麻、棉花、粟和菜籽构成的组的植物。
33.如权利要求1所述的方法,其中所述至少一种表型选自由产量、胁迫抗性、疾病抗性、昆虫抗性、对密度的抗性、谷粒数、谷粒大小、穗大小、穗数、荚数、每荚种子数、成熟度、开花时机、开花所需的热量单位、开花所需的天数、根倒伏抗性、茎倒伏抗性、植株高度、穗高度、谷物水分含量、测重、淀粉含量、油含量、谷物成分、淀粉成分、油成分、蛋白质成分、营养物含量所构成的组。
34.如权利要求1所述的方法,其中所述至少一种表型包括分子表型。
35.如权利要求34所述的方法,其中所述至少一种表型包括表达状况。
36.如权利要求1所述的方法,其中所述至少一种表型包括由数学关系所表示的对物理或分子表型的间接测量值。
37.一种在植物中进行标记辅助选择的方法,所述方法包括:
a)提供:多个植物种群间至少一种标记的等位基因和至少一种表型的相关性的经过递归确定的估计值;以及
b)选出至少一种植物,可选地,所述至少一种植物选自所述多个植物种群,其具有所述至少一种标记的所述等位基因。
38.如权利要求37所述的方法,还进一步包括对所述至少一种选出的植物进行杂交。
39.由如权利要求37所述的方法选出的植物。
40.如权利要求39所述的植物,其中所述植物选自由玉米、大豆、向日葵、高粱、小麦、水稻、亚麻、棉花、粟和菜籽所构成的组。
41.一种系统,用于检测至少一种标记和表型之间的对应性,所述系统包括:
a)使用者界面;
b)包含用于至少一种标记的种群数据的数据库;
c)计算机,包含至少一组说明书,用于对QTL等位基因作用进行递归评估和验证。
CNA2004800256900A 2003-07-07 2004-06-22 Qtl“随时定位”方法 Pending CN1849064A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US48549703P 2003-07-07 2003-07-07
US60/485,497 2003-07-07

Publications (1)

Publication Number Publication Date
CN1849064A true CN1849064A (zh) 2006-10-18

Family

ID=34135065

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800256900A Pending CN1849064A (zh) 2003-07-07 2004-06-22 Qtl“随时定位”方法

Country Status (7)

Country Link
US (1) US8039686B2 (zh)
EP (1) EP1643828A2 (zh)
CN (1) CN1849064A (zh)
AU (1) AU2004263840A1 (zh)
BR (1) BRPI0412377A (zh)
CA (1) CA2531119A1 (zh)
WO (1) WO2005014858A2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102174523A (zh) * 2011-01-18 2011-09-07 山东师范大学 调控种子大小的基因及其编码的蛋白质和应用
CN102495948A (zh) * 2011-11-21 2012-06-13 南京农业大学 基于mcmc的小麦品种特征参数估算方法
CN103632067A (zh) * 2013-11-07 2014-03-12 浙江大学 一种基于混合线性模型的种子数量性状位点定位方法
CN104735970A (zh) * 2012-07-13 2015-06-24 先锋国际良种公司 用于小麦中各种性状的分子标记及其使用方法
CN104765958A (zh) * 2015-03-27 2015-07-08 西南科技大学 一种基于连续状态空间的认知无线电接入问题新型算法模型
CN102495948B (zh) * 2011-11-21 2016-12-14 南京农业大学 基于mcmc的小麦品种特征参数估算方法

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL180275A0 (en) 2004-07-02 2007-07-04 Seminis Vegetable Seeds Inc Watermelon with improved processing qualities
US9173356B2 (en) 2004-07-02 2015-11-03 Seminis Vegetable Seeds, Inc. Watermelon with improved processing qualities
WO2006094774A2 (en) * 2005-03-03 2006-09-14 Rijk Zwaan Zaadteelt En Zaadhandel B.V. Reverse progeny mapping
CA2599796C (en) * 2005-03-03 2016-07-12 Rijk Zwaan Zaadteelt En Zaadhandel B.V. Near reverse breeding
EP1975255A2 (en) * 2006-01-11 2008-10-01 Neocodex, S.L. Method and apparatus for the determination of genetic associations
BRPI0716748A2 (pt) 2006-08-15 2013-09-17 Monsanto Technology Llc composiÇÕes e mÉtodos de procriaÇço de planta usando informaÇço de marcadores de densidade alta.
AR066922A1 (es) * 2007-06-08 2009-09-23 Monsanto Technology Llc Metodos de mejoramiento molecular del germoplasma de una planta por secuenciamiento dirigido
MX2010000745A (es) * 2007-07-16 2010-05-20 Pfizer Procedimientos para mejorar un indice de marcador genomico de animales lecheros y productos lacteos.
US20110123983A1 (en) * 2007-09-12 2011-05-26 Pfizer Inc. Methods of Using Genetic Markers and Related Epistatic Interactions
NZ584963A (en) * 2007-10-02 2012-11-30 Theranos Inc Modular Point-of-care devices as addressible assay units with tips of assay units having interior to immobilize reagents by capillary action
BRPI0820777A2 (pt) * 2007-12-17 2015-06-16 Pfizer Métodos para melhorar os perfis genéticos de animais leiteiros e produtos
CN102083303A (zh) * 2008-06-20 2011-06-01 乔治亚大学研究基金会公司 抗除草剂的草类物种的开发
US20110214196A1 (en) * 2008-06-20 2011-09-01 University Of Georgia Research Foundation Development of herbicide-resistant grass species
CN102031259B (zh) * 2010-11-22 2013-01-09 深圳华大基因科技有限公司 与谷子株高基因紧密连锁的分子标记SIsv0641
WO2012150605A1 (en) * 2011-05-02 2012-11-08 Nandan Biomatrix Limited Method of development of ricinus communis rerennial plant designated as nandan-31
WO2013033221A1 (en) 2011-08-31 2013-03-07 Monsanto Technology Llc Molecular markers associated with soybean tolerance to low iron growth conditions
HUE059863T2 (hu) 2011-08-31 2023-01-28 Seminis Vegetable Seeds Inc Eljárás és készítmények görögdinnye keménységhez
US9664702B2 (en) 2011-09-25 2017-05-30 Theranos, Inc. Fluid handling apparatus and configurations
US8475739B2 (en) 2011-09-25 2013-07-02 Theranos, Inc. Systems and methods for fluid handling
US20140170735A1 (en) 2011-09-25 2014-06-19 Elizabeth A. Holmes Systems and methods for multi-analysis
US9632102B2 (en) 2011-09-25 2017-04-25 Theranos, Inc. Systems and methods for multi-purpose analysis
US10012664B2 (en) 2011-09-25 2018-07-03 Theranos Ip Company, Llc Systems and methods for fluid and component handling
US9810704B2 (en) 2013-02-18 2017-11-07 Theranos, Inc. Systems and methods for multi-analysis
WO2014025768A2 (en) 2012-08-06 2014-02-13 Seminis Vegetable Seeds, Inc. Methods and compositions for producing watermelon plants with selected seed sizes
US10314253B2 (en) 2012-12-04 2019-06-11 Seminis Vegetable Seeds, Inc. Methods and compositions for watermelon sex expression
US10059999B2 (en) 2013-06-10 2018-08-28 Monsanto Technology Llc Molecular markers associated with soybean tolerance to low iron growth conditions
US9773211B2 (en) 2014-05-19 2017-09-26 Sas Institute Inc. Systems and methods for interactive graphs for building penalized regression models
CN107177667B (zh) * 2017-05-18 2020-09-01 四川农业大学 小麦穗密度qtl连锁的hrm分子标记及其应用
US20220154203A1 (en) 2019-03-11 2022-05-19 Pioneer Hi-Bred International, Inc. Methods for clonal plant production
CN109997684A (zh) * 2019-04-30 2019-07-12 原阳县农业科学研究所 一种水稻品种的选育及其栽培方法
CN112575103B (zh) * 2020-12-11 2022-08-26 武汉市农业科学院 控制莲子单粒质量性状的qtl、分子标记、kasp检测引物组及应用
GB2617110A (en) * 2022-03-29 2023-10-04 Puregene Ag Quantitative trait loci associated with purple color in cannabis
GB202211773D0 (en) * 2022-08-11 2022-09-28 Puregene Ag Quantitative trait locus associated with a pathogen resistance trait in cannabis

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5437697A (en) * 1992-07-07 1995-08-01 E. I. Du Pont De Nemours And Company Method to identify genetic markers that are linked to agronomically important genes
AU1927599A (en) 1997-12-22 1999-07-12 Pioneer Hi-Bred International, Inc. Qtl mapping in plant breeding populations
WO2001049104A2 (en) * 1999-12-30 2001-07-12 Pioneer Hi-Bred International, Inc. Mqm mapping using haplotyped putative qtl-alleles: a simple approach for mapping qtl's in plant breeding populations
US6368806B1 (en) 2000-10-05 2002-04-09 Pioneer Hi-Bred International, Inc. Marker assisted identification of a gene associated with a phenotypic trait

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102174523A (zh) * 2011-01-18 2011-09-07 山东师范大学 调控种子大小的基因及其编码的蛋白质和应用
CN102174523B (zh) * 2011-01-18 2012-05-23 山东师范大学 调控种子大小的基因及其编码的蛋白质和应用
CN102495948A (zh) * 2011-11-21 2012-06-13 南京农业大学 基于mcmc的小麦品种特征参数估算方法
CN102495948B (zh) * 2011-11-21 2016-12-14 南京农业大学 基于mcmc的小麦品种特征参数估算方法
CN104735970A (zh) * 2012-07-13 2015-06-24 先锋国际良种公司 用于小麦中各种性状的分子标记及其使用方法
CN103632067A (zh) * 2013-11-07 2014-03-12 浙江大学 一种基于混合线性模型的种子数量性状位点定位方法
CN103632067B (zh) * 2013-11-07 2016-08-17 浙江大学 一种基于混合线性模型的种子数量性状位点定位方法
CN104765958A (zh) * 2015-03-27 2015-07-08 西南科技大学 一种基于连续状态空间的认知无线电接入问题新型算法模型
CN104765958B (zh) * 2015-03-27 2017-07-21 西南科技大学 一种基于连续状态空间的认知无线电接入问题新型算法模型

Also Published As

Publication number Publication date
US20050015827A1 (en) 2005-01-20
EP1643828A2 (en) 2006-04-12
AU2004263840A1 (en) 2005-02-17
BRPI0412377A (pt) 2006-09-19
US8039686B2 (en) 2011-10-18
CA2531119A1 (en) 2005-02-17
WO2005014858A2 (en) 2005-02-17
WO2005014858A3 (en) 2005-12-01

Similar Documents

Publication Publication Date Title
CN1849064A (zh) Qtl“随时定位”方法
CN1933723A (zh) 玉米植株mon88017和组合物以及检测它们的方法
CA2547323C (en) High lysine maize compositions and methods for detection thereof
CN100350043C (zh) 玉米个体pv-imgt32(nk603)和用于对其检测的组合物和方法
CN1201012C (zh) 改变植物开花时间的方法
CN1753998A (zh) 棉花事件mon88913及其组合物和检测方法
WO2001049104A2 (en) Mqm mapping using haplotyped putative qtl-alleles: a simple approach for mapping qtl's in plant breeding populations
CN1690211A (zh) 杂交冬油料种子油菜及其生产方法
Bhatia et al. Marker‐assisted development of bacterial blight resistant, dwarf, and high yielding versions of two traditional Basmati rice cultivars
CN111073875B (zh) 小麦单倍体诱导基因及其应用
CN115786565A (zh) 一种与小麦小穗数qtl连锁的snp分子标记及其应用
Wang et al. Identification of QTL for barley grain size
RU2670517C2 (ru) Молекулярные маркеры низкого содержания пальмитиновой кислоты в подсолнечнике (helianthus annus) и способы их применения
CN101037695A (zh) 一种控制水稻花粉育性基因及应用
CN1351671A (zh) 一种基于转座子的新型遗传标记
CN103589805B (zh) 赋予玉米斐济病毒抗性的主要qtls
CN108064302A (zh) 与卡诺拉的抗破损性相关联的qtl和用于鉴定抗破损性的方法
Tanhuanpää et al. QTLs for important breeding characteristics in the doubled haploid oat progeny
CN1318106A (zh) 来源于拟南芥属的尿嘧啶通透酶用作除草剂靶基因
CN1898382A (zh) 基因组dna片段的筛选方法
Mursyidin Genetic diversity and phylogenetic position of traditional rice (Oryza sativa L.) landraces: a case study of South Kalimantan in Indonesia
CN1629293A (zh) 一种抗稻瘟病基因及其编码蛋白与应用
CN113801957B (zh) 与小麦粒长主效QTL连锁的SNP分子标记KASP-BE-kl-sau2及应用
Francis et al. Molecular characterization and SNP identification using genotyping-by-sequencing in high-yielding mutants of proso millet
Sinha et al. Role of molecular markers for genetic diversity analysis in floricultural crops–A review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication