CN107278873B - 一种鉴别玉米单倍体的方法 - Google Patents
一种鉴别玉米单倍体的方法 Download PDFInfo
- Publication number
- CN107278873B CN107278873B CN201710438827.4A CN201710438827A CN107278873B CN 107278873 B CN107278873 B CN 107278873B CN 201710438827 A CN201710438827 A CN 201710438827A CN 107278873 B CN107278873 B CN 107278873B
- Authority
- CN
- China
- Prior art keywords
- monoploid
- corn
- true
- diploid
- haploid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 240000008042 Zea mays Species 0.000 title claims abstract description 92
- 235000002017 Zea mays subsp mays Nutrition 0.000 title claims abstract description 92
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 title claims abstract description 86
- 235000005822 corn Nutrition 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000002235 transmission spectroscopy Methods 0.000 claims abstract description 16
- 238000010521 absorption reaction Methods 0.000 claims abstract description 12
- 230000001419 dependent effect Effects 0.000 claims abstract description 4
- 239000010977 jade Substances 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 8
- 240000007594 Oryza sativa Species 0.000 claims description 4
- 235000007164 Oryza sativa Nutrition 0.000 claims description 4
- 235000009566 rice Nutrition 0.000 claims description 4
- 238000004433 infrared transmission spectrum Methods 0.000 claims 1
- 238000009395 breeding Methods 0.000 abstract description 14
- 230000001488 breeding effect Effects 0.000 abstract description 14
- 238000010801 machine learning Methods 0.000 abstract description 8
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 abstract description 6
- 235000009973 maize Nutrition 0.000 abstract description 6
- 230000006698 induction Effects 0.000 description 27
- 238000009396 hybridization Methods 0.000 description 10
- 230000008774 maternal effect Effects 0.000 description 10
- 241000196324 Embryophyta Species 0.000 description 8
- 238000002360 preparation method Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000005856 abnormality Effects 0.000 description 7
- 235000013339 cereals Nutrition 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000002835 absorbance Methods 0.000 description 3
- 210000001161 mammalian embryo Anatomy 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000010152 pollination Effects 0.000 description 2
- 238000009738 saturating Methods 0.000 description 2
- 238000009331 sowing Methods 0.000 description 2
- 238000004566 IR spectroscopy Methods 0.000 description 1
- 244000134336 Malus baccata Species 0.000 description 1
- 235000005079 Malus baccata Nutrition 0.000 description 1
- 241000201976 Polycarpon Species 0.000 description 1
- 230000007321 biological mechanism Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000035584 blastogenesis Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 239000000411 inducer Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000003976 plant breeding Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000012113 quantitative test Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009261 transgenic effect Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A01—AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
- A01H—NEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
- A01H1/00—Processes for modifying genotypes ; Plants characterised by associated natural traits
- A01H1/02—Methods or apparatus for hybridisation; Artificial pollination ; Fertility
-
- A—HUMAN NECESSITIES
- A01—AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
- A01H—NEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
- A01H1/00—Processes for modifying genotypes ; Plants characterised by associated natural traits
- A01H1/06—Processes for producing mutations, e.g. treatment with chemicals or with radiation
- A01H1/08—Methods for producing changes in chromosome number
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Abstract
本发明公开了一种鉴别玉米单倍体的方法。本发明提供的鉴别玉米单倍体的方法,包括如下步骤:(1)以训练集各个玉米籽粒为真实单倍体还是真实二倍体为因变量,以训练集各个玉米籽粒的近红外透射光谱吸收值作为自变量,应用机器学习算法构建单倍体鉴别模型;所述训练集由若干玉米籽粒组成,其中一部分为真实单倍体,另一部分为真实二倍体;(2)取待测玉米籽粒,采集近红外透射光谱吸收值,然后输入步骤(1)建立的单倍体鉴别模型,由模型输出该待测玉米籽粒为预测单倍体或者预测二倍体的结果。本发明提供的方法可以用于自动化鉴别,对于推动玉米单倍体育种技术工程化具有重要作用。
Description
技术领域
本发明属于植物育种领域,具体涉及一种鉴别玉米单倍体的方法。
背景技术
玉米是我国种植面积最大的作物,同时也是重要的粮食作物,在国民生产和粮食安全领域具有不可替代的作用。2006年玉米种植面积2666万公顷,2009年超过水稻成为我国种植面积最大的作物。来自国家统计局网站数据显示,2016年全国玉米种植面积3676万公顷,总产2.19亿吨,玉米单产水平达到5972.7公斤/公顷。玉米单产水平的不断提升离不开种质遗传改良和优良杂交种的选育。生产上广泛应用的单交种使玉米成为杂种优势利用的典范。而优良自交系的选育是成功组配高产优质多抗广适杂交种的前提。在玉米自交系选育方面,育种家一直以来都是采用系谱法和轮回选择等传统的育种手段,经历6~7个世代才能获得稳定纯合的玉米自交系。玉米单倍体育种技术作为一项快速获得纯系的技术手段,使育种效率有了极大提高。育种家只需要经过诱导和加倍两个世代就能获得纯合的玉米自交系。该技术已经被国内外许多种业公司规模化应用,成为可与转基因技术、分子标记辅助育种技术相媲美的现代玉米育种三大核心技术之一。
玉米单倍体技术是一套易于实现工程化的育种技术,该技术包含基础材料的准确、单倍体的生产、单倍体加倍以及双单倍体(Doubled Haploid,DH)系的管理与应用等四个环节。其中单倍体的生产包括单倍体诱导和鉴别两个关键步骤。利用诱导系作为父本与基础材料杂交,后代会产生一定频率的单倍体。单倍体产生的多少受诱导率的影响。随着新型诱导系的选育,诱导率不断提高使诱导不再成为单倍体生产的限制因素。而如何从大量诱导的籽粒中快速准确鉴别单倍体则变得尤为重要。
R1-nj颜色标记系统是目前应用最广泛的成熟籽粒阶段鉴别玉米单倍体的方法。该方法由Nanda and Chase于1966年提出,根据单倍体的形成特征,由于单倍体胚中只含有母本的染色体,使得其在胚部颜色的表达跟二倍体存在差异,这样在种子阶段就可以仅通过颜色的识别来达到单倍体鉴别的目的。然而由于颜色基因的表达受C1-I等显性抑制基因的影响,R1-nj在籽粒中的表达清晰度上存在很大差异,一些欧洲硬粒种质和热带种质的材料难以通过该法进行鉴别。
在DH系生产过程中,需要产生大量的单倍体才能满足要求。传统的人工挑选受到巨大的挑战,自动化鉴别单倍体的方法在不断探索。根据单倍体与二倍体籽粒颜色差异,相继有基于机器视觉和图片信息提取的自动化方法应用于玉米单倍体鉴别中。然而,由于需要籽粒有清晰的颜色表达,这些基于视觉识别颜色来分选单倍体的系统都在适用性方面有其局限性。
发明内容
本发明的目的是提供一种鉴别玉米单倍体的方法。
本发明提供的鉴别玉米单倍体的方法,包括如下步骤:
(1)以训练集各个玉米籽粒为真实单倍体还是真实二倍体为因变量,以训练集各个玉米籽粒的近红外透射光谱吸收值作为自变量,应用机器学习算法构建单倍体鉴别模型;所述训练集由若干玉米籽粒组成,其中一部分为真实单倍体,另一部分为真实二倍体;
(2)取待测玉米籽粒,采集近红外透射光谱吸收值,然后输入步骤(1)建立的单倍体鉴别模型,由模型输出该待测玉米籽粒为预测单倍体或者预测二倍体的结果。
所述训练集中的玉米籽粒和所述待测玉米籽粒属于同一杂交群体。
所述训练集中的玉米籽粒是从所述待测玉米籽粒所在的杂交群体中抽样获得的。
所述杂交群体具体可为杂交群体A,即采用同一诱导系与m1种DH系进行杂交得到的杂交子代(籽粒)。所述杂交中,所述诱导系具体作为父本。所述诱导系具体可为诱导系CHOI3。m1为1以上的自然数,具体可为大于等于70小于等于107的自然数。所述DH系的制备方法具体如下:①玉米自交系甲(母本)和玉米自交系乙(父本)杂交,得到杂交子代(籽粒);②步骤①得到的杂交子代(植株)作为母本,和作为父本的诱导系CAU5杂交,得到杂交子代(籽粒);③从步骤②得到的杂交子代(籽粒)中选择拟单倍体,进行单倍体加倍,得到DH系。所述DH系的制备方法具体如下:①玉米自交系齐319(母本)和玉米自交系昌7-2(父本)杂交,得到杂交子代(籽粒);②步骤①得到的杂交子代(植株)作为母本,和作为父本的诱导系CAU5杂交,得到杂交子代(籽粒);③从步骤②得到的杂交子代(籽粒)中选择拟单倍体,进行单倍体加倍,得到DH系。
所述杂交群体具体可为杂交群体B,即采用同一诱导系与m2种杂交种玉米进行杂交得到的杂交子代(籽粒)。所述杂交中,所述诱导系具体作为父本。所述诱导系具体可为诱导系CHOI3。m2为1以上的自然数,具体可为大于等于1小于等于5的自然数。所述m2种杂交种玉米具体可为玉米京科968、玉米屯玉88、玉米屯玉188、玉米屯玉168和玉米屯玉4911。
所述杂交群体具体可为杂交群体C,即由杂交群体A和杂交群体B组成的杂交群体。
所述训练集具体可由将候选训练集中的所有玉米籽粒剔除异常样本后的籽粒组成。所述候选训练集中的玉米籽粒是从所述待测玉米籽粒所在的杂交群体中抽样获得的。
剔除异常样本的标准如下:计算该样本点到所有样本点中心的曼哈顿距离di,i=1,2,3,……,N;和s为d1,d2,d3,……,dN的均值和标准差;如果则该样本为需要剔除的异常样本。
所述训练集具体可由187-2393个真实单倍体籽粒和185-708个真实二倍体籽粒组成。
所述近红外透射光谱的光谱范围为900-1600nm。
所述近红外透射光谱吸收值为未经处理的近红外透射光谱吸收值原始值。
所述玉米籽粒为成熟籽粒。
所述真实单倍体是通过田间试验鉴定获得的。
所述真实二倍体是通过田间试验鉴定获得的。
本发明还保护近红外光谱仪和记载有机器算法的载体在鉴别玉米单倍体中的应用。
本发明还保护近红外光谱仪和记载有以上任一所述方法的载体在鉴别玉米单倍体中的应用。
本发明还保护近红外光谱仪、记载有机器算法的载体和记载有以上任一所述方法的载体在鉴别玉米单倍体中的应用。
本发明还保护一种用于鉴别玉米单倍体的试剂盒,包括近红外光谱仪和记载有机器算法的载体。
本发明还保护一种用于鉴别玉米单倍体的试剂盒,包括近红外光谱仪和记载有以上任一所述方法的载体。
本发明还保护一种用于鉴别玉米单倍体的试剂盒,包括近红外光谱仪、记载有机器算法的载体和记载有以上任一所述方法的载体。
以上任一所述近红外光谱仪具体可为JDSU公司生产的微型光谱仪MicroNIR1700,光谱范围950-1600nm,单次测量时间为1s。
以上任一所述机器学习算法为神经网络算法、随机森林算法、偏最小二乘法算法或支持向量机算法。
神经网络算法的参数为:神经网络隐藏层节点数size=5,模型权重值的衰减精度decay=0.03727594。
随机森林算法的参数为:随机抽样变量个数mtry=300。
偏最小二乘法算法的参数为:主成分个数ncomp=24。
支持向量机算法的参数为:支持向量参数sigma=0.04966604,惩罚系数C=1024。
本发明提供了基于近红外透射光谱并利用机器学习构建模型鉴别玉米单倍体的方法,简化了鉴别步骤,可以快速高效的鉴别出玉米单倍体,利用本方法单倍体鉴别准确率可达92%-96%,并且单倍体漏选率在0.13%-7.65%。本发明提供的方法可以用于自动化鉴别,对于推动玉米单倍体育种技术工程化具有重要作用。
附图说明
图1为单倍体的平均光谱和二倍体的平均光谱。
具体实施方式
以下的实施例便于更好地理解本发明,但并不限定本发明。下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。以下实施例中的定量试验,均设置三次重复实验,结果取平均值。玉米京科968、玉米屯玉88、玉米屯玉188、玉米屯玉168和玉米屯玉4911均为杂交种玉米。杂交子代(籽粒)长成的植株即为杂交子代(植株)。
玉米自交系齐319:在文献“叶金才.育成我国首例对玉米南方锈病免疫系齐319[J].中国农业科学,2000,(04):110.”中公开过。
玉米自交系昌7-2:在文献“张文英,华福平,申为民,王金平,张桂堂,王东彬.优良玉米自交系昌7-2的选育及其利用[J].河南职技师院学报,2001,(04):17-19.”中公开过。
诱导系CAU5(农大高诱5号):在文献“徐小炜,2013,玉米母本单倍体诱导性状的遗传与生物学机理研究,博士论文”中公开过。
诱导系CHOI3(农大高油高诱诱导系H3):在文献“Dong X,Xu X,Li L,etal.Marker-assisted selection and evaluation of high oil in vivo haploidinducers in maize[J].Molecular Breeding,2014,34(3):1147-58.”中公开过。
玉米京科968:北京屯玉种业有限公司产品。玉米屯玉88:北京屯玉种业有限公司产品。玉米屯玉188:北京屯玉种业有限公司产品。玉米屯玉168:北京屯玉种业有限公司产品。玉米屯玉4911:北京屯玉种业有限公司产品。
以诱导系CHOI3为父本的授粉方法(种植地点:海南三亚南滨农场):2015年冬,分别种植母本与父本;母本花丝吐出前,用羊皮纸袋套住雌穗进行隔离;授粉前一天下午用剪刀将母本花丝剪平,授粉当天将父本的花粉大量授予母本,并用羊皮纸袋继续套住雌穗,以防止外来花粉污染杂交后的雌穗。
鉴定拟单倍体和拟二倍体的方法:玉米果穗完成成熟后,将杂交所得的果穗进行收获,放置于干燥环境下晾干;然后根据R1-nj颜色进行拟单倍体籽粒和拟二倍体(“拟二倍体”又称“拟杂合二倍体”)籽粒的挑选,籽粒顶部紫色且胚盾片无色的为拟单倍体籽粒,籽粒顶部紫色且胚盾片紫色的为拟二倍体籽粒。
实施例1、杂交群体的制备
一、DH系的制备
1、玉米自交系齐319(母本)和玉米自交系昌7-2(父本)杂交,得到杂交子代(籽粒)。
2、步骤1得到的杂交子代(植株)作为母本,和作为父本的诱导系CAU5杂交,得到杂交子代(籽粒)。
3、从步骤2得到的杂交子代(籽粒)中选择拟单倍体,进行单倍体加倍,得到107个DH系。依次命名为DH系1至DH系107。
二、杂交群体A的制备
分别以步骤一得到的各个DH系为母本,以诱导系CHOI3为父本,进行杂交,获得杂交子代(籽粒)。从以每个DH系为母本得到的杂交子代(籽粒)中随机取30-40个拟单倍体和n1个(n1=10或0)拟二倍体。具体来说:从以DH系1为母本得到的杂交子代(籽粒)中随机取30-40个拟单倍体和n1个拟二倍体,组成杂交群体A1;……(依次类推);从以DH系107为母本得到的杂交子代(籽粒)中随机取30-40个拟单倍体和10个拟二倍体,组成杂交群体A110;DH系1至DH系70时n1=10,DH系71至DH系107时n1=0。
将杂交群体A1至杂交群体A110混合,得到杂交群体A(由3997粒籽粒组成,其中拟单倍体3297粒,拟二倍体700粒)。
三、杂交群体B的制备
以玉米京科968为母本,以诱导系CHOI3为父本,进行杂交,获得杂交子代(籽粒);从杂交子代(籽粒)中随机取50个拟单倍体和50个拟二倍体,组成杂交群体B1。
以玉米屯玉88为母本,以诱导系CHOI3为父本,进行杂交,获得杂交子代(籽粒);从杂交子代(籽粒)中随机取50个拟单倍体和50个拟二倍体,组成杂交群体B2。
以玉米屯玉188为母本,以诱导系CHOI3为父本,进行杂交,获得杂交子代(籽粒);从杂交子代(籽粒)中随机取50个拟单倍体和50个拟二倍体,组成杂交群体B3。
以玉米屯玉168为母本,以诱导系CHOI3为父本,进行杂交,获得杂交子代(籽粒);从杂交子代(籽粒)中随机取50个拟单倍体和50个拟二倍体,组成杂交群体B4。
以玉米屯玉4911为母本,以诱导系CHOI3为父本,进行杂交,获得杂交子代(籽粒);从杂交子代(籽粒)中随机取50个拟单倍体和50个拟二倍体,组成杂交群体B5。
将杂交群体B1、杂交群体B1、杂交群体B3、杂交群体B4和杂交群体B5混合,得到杂交群体B(由500粒籽粒组成,其中拟单倍体250粒,拟二倍体250粒)。
四、杂交群体C的制备
1、分别以步骤一得到的DH系1至DH系70为母本,以诱导系CHOI3为父本,进行杂交,获得杂交子代(籽粒)。从以每个DH系为母本得到的杂交子代(籽粒)中随机取8-10个拟单倍体和10个拟二倍体。共获得698个拟单倍体和700个拟二倍体。
2、将步骤1得到的所有拟单倍体和拟二倍体与步骤二得到的杂交群体B混合,得到杂交群体C(由1898粒籽粒组成,其中拟单倍体948粒,拟二倍体950粒)。
实施例2、通过采集红外光谱建立模型鉴别单倍体
一、籽粒近红外透射光谱获取
将实施例1制备的杂交群体A以及实施例1制备的杂交群体B以及实施例1制备的杂交群体C中的每个籽粒分别进行近红外透射光谱扫描(籽粒胚面朝向光源,光源距离光谱仪3cm)。光谱仪为JDSU公司生产的微型光谱仪MicroNIR1700,光谱范围950-1600nm,单次测量时间为1s。微型光谱仪MicroNIR1700在光谱范围950-1600nm之间采集125个特定波长下的近红外透射光谱吸收值。
二、拟单倍体和拟二倍体真实性鉴定
完成步骤一后,将实施例1制备的杂交群体A以及实施例1制备的杂交群体B以及实施例1制备的杂交群体C中的每个籽粒播种到田间。拟单倍体播种采用3m行长,每行30粒,株距10cm。拟二倍体播种采用5m行长,每行21粒,株距25cm。
根据籽粒萌发得到的植株拔节期的表型进行鉴定:具有“植株矮小,叶片上冲,株型紧凑”表型的为真实单倍体;具有“植株粗壮,叶片披散”表型的为真实二倍体。
杂交群体A中,真实单倍体数量为3203粒,真实二倍体为794粒。
杂交群体B中,真实单倍体数量为249粒,真实二倍体为251粒。
杂交群体C中,真实单倍体数量为940粒,真实二倍体为958粒。
三、制备杂交群体A’、杂交群体B’和杂交群体C’
基于步骤二得到的真实单倍体和真实二倍体的结果,对步骤一获得的近红外透射光谱吸收值进行检查,剔除异常样本。
剔除异常样本的标准如下:计算该样本点到所有样本点中心的曼哈顿距离di,i=1,2,3,……,N;和s为d1,d2,d3,……,dN的均值和标准差;如果则该样本为需要剔除的异常样本。
杂交群体A剔除异常样本后,为杂交群体A’。杂交群体A’中,真实单倍体数量为3190粒,真实二倍体为783粒。
杂交群体B剔除异常样本后,为杂交群体B’。杂交群体B’中,真实单倍体数量为249粒,真实二倍体为246粒。
杂交群体C剔除异常样本后,为杂交群体C’。杂交群体C’中,真实单倍体数量为916粒,真实二倍体为943粒。杂交群体C’中,所有真实单倍体的平均光谱与所有真实二倍体的平均光谱见图1。
四、应用机器学习算法进行单倍体鉴别
待测群体为:杂交群体A’、杂交群体B’或杂交群体C’。
从每个待测群体中随机抽取四分之三真实单倍体和四分之三真实二倍体组成训练集,剩余的四分之一真实单倍体和剩余的四分之一真实二倍体组成测试集。
待测群体A’相应的训练集由2981个籽粒组成(真实单倍体2393,真实二倍体588),相应的测试集由992个籽粒组成(真实单倍体797,真实二倍体195)。待测群体B’相应的训练集由372个籽粒组成(真实单倍体187,真实二倍体185),相应的测试集由123个籽粒组成(真实单倍体62,真实二倍体61)。待测群体C’相应的训练集由1395个籽粒组成(真实单倍体687,真实二倍体708),相应的测试集由464个籽粒组成(真实单倍体229,真实二倍体235)。
1、用训练集的相关数据建立模型。
以训练集各个籽粒的真实状态(即步骤二中鉴定为真实单倍体还是真实二倍体)为因变量,以训练集各个籽粒125个波长下的近红外透射光谱吸收值(未经处理的近红外透射光谱吸收值原始值)作为自变量,应用机器学习算法构建单倍体鉴别模型。采用的机器学习算法分别为:朴素贝叶斯算法(参数为:预测变量符合独立分布特征)、K近邻算法(参数为:K=5)、梯度推进机算法(参数为:决策树深度为9,决策树数目为300)、支持向量机算法(参数为:支持向量参数sigma=0.04966604,惩罚系数C=1024)、随机森林算法(参数为:随机抽样变量个数mtry=300)、神经网络算法(参数为:神经网络隐藏层节点数size=5,模型权重值的衰减精度decay=0.03727594)或偏最小二乘法算法(参数为:主成分个数ncomp=24)。上述机器学习算法中,除偏最小二乘法算法是线性判别方法外,其他算法均为非线性判别方法。
2、用测试集的相关数据评价模型。
利用步骤1建立的单倍体鉴别模型,输入测试集各个籽粒125个波长下的近红外透射光谱吸收值,得到测试集各个籽粒的预测值(预测单倍体或预测二倍体)。
将各个籽粒的预测值与步骤二获得的各个籽粒的真实值(真实单倍体或真实二倍体)进行比对,获得模型的评估参数。
模型的评估参数包括:模型准确率、单倍体鉴别准确率和单倍体漏选率。评估参数根据单倍体鉴别混淆矩阵中真实值与预测值来计算。设定单倍体为正样本,二倍体为负样本。将单倍体和二倍体预测正确分别称之为True Positive(TP)和True Negative(TN),相应的将单倍体和二倍体预测错误分别称之为False Negative(FN)和False Positive(FP)。模型准确率反映的是模型对单倍体和二倍体都预测准确的比例。单倍体鉴别准确率则是预测的单倍体中有多少是真单倍体。单倍体漏选率是指漏选单倍体所占比例。
模型准确率=(TP+TN)/(TP+FP+FN+TN)。
单倍体鉴别准确率=TP/(TP+FP)。
单倍体漏选率=FN/(TP+FN)。
待测群体分别为杂交群体A’、杂交群体B’和杂交群体C’时,利用偏最小二乘法算法建立的模型的评估参数结果见表1。对于杂交群体B’(以杂交种为母本得到的杂交群体)来说,模型准确率仅为87.98%。对于杂交群体A’(以DH系为母本得到的杂交群体)来说,模型准确率高达96.77%。对于杂交群体C’来说,模型准确率介于前述两者之间。对于杂交群体B’(以杂交种为母本得到的杂交群体)来说,单倍体鉴别准确率为92.00%。对于杂交群体A’(以DH系为母本得到的杂交群体)来说,单倍体鉴别准确率为96.72%。对于杂交群体C’来说,单倍体鉴别准确率介于前述两者之间。对于杂交群体B’(以杂交种为母本得到的杂交群体)来说,单倍体漏选率为7.26%。对于杂交群体A’(以DH系为母本得到的杂交群体)来说,单倍体漏选率为0.13%。对于杂交群体C’来说,单倍体漏选率介于前述两者之间。
表1
单倍体数 | 二倍体数 | 模型准确率 | 单倍体鉴别准确率 | 单倍体漏选率 | |
杂交群体A’ | 3190 | 783 | 96.77% | 96.72% | 0.13% |
杂交群体B’ | 249 | 246 | 87.98% | 92.00% | 7.26% |
杂交群体C’ | 916 | 943 | 92.71% | 92.81% | 0.44% |
待测群体为杂交群体C’时,采用各个机器学习算法建立的模型的评估参数结果见表2。模型准确率比较发现,神经网络算法最高(95.42%),偏最小二乘法算法次之(93.26%),朴素贝叶斯算法和K近邻法算法最低。单倍体鉴别准确率与模型准确率结果类似。单倍体漏选率比较发现,随机森林算法建立的模型的单倍体漏选率最低(1.64%),然后是神经网络算法(4.92%),朴素贝叶斯算法和K近邻算法建立的模型的单倍体漏选率均较高。
表2
模型准确率 | 单倍体鉴别准确率 | 单倍体漏选率 | |
偏最小二乘法算法 | 93.26% | 93.89% | 7.65% |
神经网络算法 | 95.42% | 95.60% | 4.92% |
K近邻算法 | 54.99% | 54.65% | 48.63% |
朴素贝叶斯算法 | 60.11% | 61.44% | 48.63% |
随机森林算法 | 92.45% | 87.80% | 1.64% |
梯度推进机算法 | 65.77% | 66.09% | 37.16% |
支持向量机算法 | 81.13% | 80.87% | 19.13% |
Claims (6)
1.一种鉴别玉米单倍体的方法,包括如下步骤:
(1)以训练集各个玉米籽粒为真实单倍体还是真实二倍体为因变量,以训练集各个玉米籽粒的近红外透射光谱吸收值作为自变量,应用神经网络算法构建单倍体鉴别模型;所述训练集由若干玉米籽粒组成,其中一部分为真实单倍体,另一部分为真实二倍体;所述近红外透射光谱吸收值为未经处理的近红外透射光谱吸收值原始值;
(2)取待测玉米籽粒,采集近红外透射光谱吸收值,然后输入步骤(1)建立的单倍体鉴别模型,由模型输出该待测玉米籽粒为预测单倍体或者预测二倍体的结果。
2.如权利要求1所述的方法,其特征在于:所述近红外透射光谱的光谱范围为900-1600nm。
3.近红外光谱仪和记载有权利要求1或2所述方法的载体在鉴别玉米单倍体中的应用。
4.近红外光谱仪、记载有机器算法的载体和记载有权利要求1或2所述方法的载体在鉴别玉米单倍体中的应用。
5.一种用于鉴别玉米单倍体的试剂盒,包括近红外光谱仪和记载有权利要求1或2所述方法的载体。
6.一种用于鉴别玉米单倍体的试剂盒,包括近红外光谱仪、记载有机器算法的载体和记载有权利要求1或2所述方法的载体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710438827.4A CN107278873B (zh) | 2017-06-12 | 2017-06-12 | 一种鉴别玉米单倍体的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710438827.4A CN107278873B (zh) | 2017-06-12 | 2017-06-12 | 一种鉴别玉米单倍体的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107278873A CN107278873A (zh) | 2017-10-24 |
CN107278873B true CN107278873B (zh) | 2019-11-01 |
Family
ID=60096377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710438827.4A Active CN107278873B (zh) | 2017-06-12 | 2017-06-12 | 一种鉴别玉米单倍体的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107278873B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110090809A (zh) * | 2018-01-31 | 2019-08-06 | 西派特(北京)科技有限公司 | 一种在线高速无损自动分拣单倍体玉米籽粒的装置 |
CN108668890B (zh) * | 2018-04-08 | 2021-06-08 | 河南农业大学 | 一种提高玉米单倍体正确识别率的方法 |
CN110246133B (zh) * | 2019-06-24 | 2021-05-07 | 中国农业科学院农业信息研究所 | 一种玉米籽粒分类方法、装置、介质及设备 |
CN111272931A (zh) * | 2020-02-17 | 2020-06-12 | 江苏一片叶高新科技有限公司 | 一种茶叶的原产地溯源方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105043998A (zh) * | 2015-05-29 | 2015-11-11 | 中国农业大学 | 一种鉴别玉米单倍体的方法 |
-
2017
- 2017-06-12 CN CN201710438827.4A patent/CN107278873B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105043998A (zh) * | 2015-05-29 | 2015-11-11 | 中国农业大学 | 一种鉴别玉米单倍体的方法 |
Non-Patent Citations (2)
Title |
---|
Identification of Haploid Maize Kernel Using NIR Spectroscopy in Reflectance and Transmittance Modes: A Comparative Study;QIN Hong等;《光谱学与光谱分析》;20160131;第36卷(第1期);第292-297页 * |
光照强度和光阑孔径对近红外漫透射光谱鉴别单倍体玉米影响研究;覃鸿等;《红外技术》;20150131;第37卷(第1期);第78-81页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107278873A (zh) | 2017-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107278873B (zh) | 一种鉴别玉米单倍体的方法 | |
McDade | Hybrids and phylogenetic systematics I. Patterns of character expression in hybrids and their implications for cladistic analysis | |
Nazco et al. | Can Mediterranean durum wheat landraces contribute to improved grain quality attributes in modern cultivars? | |
Bocianowski et al. | Genotype by environment interaction using AMMI model and estimation of additive and epistasis gene effects for 1000-kernel weight in spring barley (Hordeum vulgare L.) | |
Bedigian et al. | Patterns of morphological variation in Sesamum indicum | |
Khorami et al. | Genome size: A novel predictor of nut weight and nut size of walnut trees | |
Dodig et al. | Image-derived traits related to mid-season growth performance of maize under nitrogen and water stress | |
Volk et al. | Malus sieversii: a diverse Central Asian apple species in the USDA-ARS national plant germplasm system | |
Fonseca de Oliveira et al. | An approach using emerging optical technologies and artificial intelligence brings new markers to evaluate peanut seed quality | |
Underhill et al. | Image-based phenotyping identifies quantitative trait loci for cluster compactness in grape | |
de Castro Sant’Anna et al. | Relationships between yield and some anatomical and morphological traits in rubber tree progenies | |
Holden et al. | Know your enemy: Application of ATR-FTIR spectroscopy to invasive species control | |
de Jesus et al. | Phenotypic diversity and alternative methods for characterization and prediction of pulp yield in passion fruit (Passiflora spp.) germplasm | |
Ebersbach et al. | Exploiting high-throughput indoor phenotyping to characterize the founders of a structured B. napus breeding population | |
Fernandes et al. | Sex type determination in papaya seeds and leaves using near infrared spectroscopy combined with multivariate techniques and machine learning | |
Knight et al. | Disease responses of hexaploid spring wheat (Triticum aestivum) culms exhibiting premature senescence (dead heads) associated with Fusarium pseudograminearum crown rot | |
Wang et al. | Identification of the QTL-allele system underlying two high-throughput physiological traits in the Chinese soybean germplasm population | |
Kilic et al. | Genotype x environment interaction and phenotypic stability analysis for grain yield and several quality traits of durum wheat in the South-Eastern Anatolia region | |
Ordoñez et al. | PL-4 (CIP596131. 4): an improved potato haploid inducer | |
Khadivi-Khub et al. | The relationship of fruit size and light condition with number, activity and price of Blastophaga psenes wasp in caprifigs | |
Qian et al. | Morphological and cytological characterization of five porterweed (Stachytarpheta) selections | |
Kahriman et al. | Effects of donor x inducer interaction on the success of haploid induction and comparison of haploid seed identification methods in the in vivo maternal haploid technique in maize | |
Viana et al. | Evaluating genetic diversity and optimizing parental selections in a segregating table-grape population | |
CN108445035B (zh) | 一种基于核磁共振cpmg衰减曲线鉴别玉米单倍体籽粒的方法 | |
Pirovani et al. | New source of alleles for resistance to black spot and phoma spot in papaya (Carica papaya L.) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |