CN117437977A - 基于snp和逻辑回归模型预测甜玉米胚乳突变基因的方法 - Google Patents

基于snp和逻辑回归模型预测甜玉米胚乳突变基因的方法 Download PDF

Info

Publication number
CN117437977A
CN117437977A CN202310553539.9A CN202310553539A CN117437977A CN 117437977 A CN117437977 A CN 117437977A CN 202310553539 A CN202310553539 A CN 202310553539A CN 117437977 A CN117437977 A CN 117437977A
Authority
CN
China
Prior art keywords
snp
logistic regression
regression
endosperm
punishment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310553539.9A
Other languages
English (en)
Inventor
卢媛
王晨宇
郑洪建
王慧
胡颖雄
张超
孙萍东
关媛
卫季辉
顾炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Academy of Agricultural Sciences
Original Assignee
Shanghai Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Academy of Agricultural Sciences filed Critical Shanghai Academy of Agricultural Sciences
Priority to CN202310553539.9A priority Critical patent/CN117437977A/zh
Publication of CN117437977A publication Critical patent/CN117437977A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Analysis (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Computational Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法,其特征在于包括如下步骤:步骤1、选取su1基因和sh2基因,同时对不同SNP标记集和惩罚回归在su1和sh2胚乳突变类型预测中的性能进行比对评估,并基于筛选的SNP位点、惩罚回归和惩罚系数建立su1和sh2逻辑回归预测模型;步骤2、选取样本及DNA提取;步骤3、获取结果,并进行分析。本发明选取了su1基因和sh2基因,同时对不同SNP标记集和惩罚回归在su1和sh2胚乳突变类型预测中的性能进行了比对评估,并基于筛选的SNP位点、惩罚回归和惩罚系数建立了su1和sh2逻辑回归预测模型,建立su1和sh2预测准确性最高的逻辑回归模型,有效解决了技术需求。

Description

基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法
技术领域
本发明涉及农业领域,具体是一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法。
背景技术
甜玉米是在乳熟后期和蜡熟初期收获食用鲜穗的玉米亚品种,是受一个或多个隐性基因控制的玉米胚乳突变体,是重要的果蔬。从20世纪90年代末至今,我国甜玉米产业已步入高速发展阶段。甜到目前为止,已发现至少有14个甜玉米胚乳隐性突变基因,其中有8个胚乳突变基因(su1,sh2,bt1,bt2,ae1,du1,wx1,se1)已应用于商业化育种。大量研究表明,这些胚乳突变基因有着各自特异的基因效应。
受单隐性基因甜质sugary1(su1)控制的甜玉米类型被称为普甜玉米。James等(James,Robertson and Myers,1995)通过Mu插入技术克隆到su1的基因全长,明确su1编码淀粉分支酶中的异淀粉酶。目前研究证实Su1基因产物为79kD蛋白质,其序列与淀粉脱分支酶SDBE相似,可水解分支多糖的多余的高度分支区以外的不正确位置上形成的α-1,6-糖苷键,从其对底物的专一性表明它属于异淀粉酶。su1突变体表现出胚乳透明且种皮皱缩。Laughnan(1953)报道了一种胚乳凹陷的基因突变类型,命名为shrunkern2(sh2)。sh2是由编码ADP-葡萄糖焦磷酸化酶大亚基的基因突变而来。对sh2基因效应的研究表明,sh2突变籽粒的含糖量是普通玉米的10倍,其中大部分是蔗糖,而水溶性多糖的积累较少。sh2基因已经被克隆,sh2的表达具有组织特异性。编码大亚基的sh2基因的转录产物存在于胚及胚乳中,但是在胚乳中的含量较少。因此,了解某一材料的甜质控制基因类型,有针对性地在品质改良育种中应用具有重要意义。
发明内容
本发明的目的在于提供一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法,其特征在于包括如下步骤:
步骤1、选取su1基因和sh2基因,同时对不同SNP标记集和惩罚回归在su1和sh2胚乳突变类型预测中的性能进行比对评估,并基于筛选的SNP位点、惩罚回归和惩罚系数建立su1和sh2逻辑回归预测模型;
步骤2、选取样本及DNA提取;
步骤3、获取结果,并进行分析。
在本案中,所述步骤2选取样本及DNA提取包括如下步骤:
2.1、玉米籽粒胚乳表型的获取及分类标准;
2.2、选取样本及DNA提取;
2.3、基因分型;
2.4、逻辑回归模型构建;
2.5、逻辑回归模型建立;
2.6、模型评估。
在本案中,所述步骤3包括如下子步骤:
步骤3.1、sh2和su1所在不同遗传区间SNP标记分析;
步骤3.2、惩罚回归和SNP标记集评估;
步骤3.3、惩罚系数和SNP标记筛选;
步骤3.4、建立预测模型。
有益效果是:本发明选取了su1基因和sh2基因,同时对不同SNP标记集和惩罚回归在su1和sh2胚乳突变类型预测中的性能进行了比对评估,并基于筛选的SNP位点、惩罚回归和惩罚系数建立了su1和sh2逻辑回归预测模型,建立su1和sh2预测准确性最高的逻辑回归模型,有效解决了技术需求。
附图说明
图1为基于Elastic net回归预测sh2的特征变量筛选图;
图2为基于Lasso回归预测su1的特征变量筛选图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法,其特征在于包括如下步骤:
步骤1、选取su1基因和sh2基因,同时对不同SNP标记集和惩罚回归在su1和sh2胚乳突变类型预测中的性能进行比对评估,并基于筛选的SNP位点、惩罚回归和惩罚系数建立su1和sh2逻辑回归预测模型;
逻辑回归是一种通用的解决二分类问题的回归分析模型,通过预测概率,广泛应用于数据挖掘、疾病自动诊断、经济预测等领域。例如,Hagenaars等使用287个SNP位点建立多元逻辑回归模型,重度脱发的AUC为0.78,但轻度脱发和中度脱发的AUC仅能达到0.68和0.61。等使用305个50岁及以上的欧洲人群样本构建了20个SNP的模型,对脱发的遗传解释力为35%,AUC=0.86。
步骤2、选取样本及DNA提取;所述步骤2选取样本及DNA提取包括如下步骤:
2.1、玉米籽粒胚乳表型的获取及分类标准;
在前期研究中,我们参照(Baseggio et al.,2018)的方法,根据胚乳突变类型进行分类,将甜玉米胚乳突变型分为两组:(1)su1突变类型:籽粒褶皱、呈玻璃样透明状;(2)sh2突变类型:籽粒萎缩、呈不透明到半透明状(Boyer and Shannon,1983)。表型读取时,由3名育种家同时观看照片,并独立对每一个自交系进行评价,排除表型判断有困难的样本,保留3个育种家鉴定一致的材料组成新的数据集,作为建立逻辑回归模型的数据源。
2.2、选取样本及DNA提取;
按照2.1的表型分组标准,搜集甜玉米自交系共300份,包括糯玉米40份,su1胚乳突变基因型181份,sh2胚乳突变基因型79份,以上材料由上海市农业科学院玉米中心提供。试验材料种子种植于发芽盒中,于2叶1心期剪取幼叶置于-80℃冰箱保存至叶片DNA提取。采用改进后的CTAB法提取玉米基因组DNA(Springer,2010)。
2.3、基因分型;
2b-RAD测序在Illumina HiSeq 2500二代测序平台完成,质量控制参照卢媛等人的方案进行SNP基因型分型。通过以下指标对SNP进行质量控制,保留以下SNP位点:(1)基因型缺失值比例<20%;(2)最小等位基因频率(minor allele frequency,MAF)>0.01;(3)含有2种碱基型;(4)标签内SNP位点数=1。最终保留20333个高质量SNP位点。
2.4、逻辑回归模型构建;
逻辑回归模型假设因变量服从二项分布,模型的拟合形式为:
式中,Xj为自变量;βj为回归系数,该方程结果p为0~1的一个数字,表示某一位点(su1或sh2)纯合的概率。如果预测概率>0.5,则将其归类为一个给定位点的纯合隐性基因型,否则为非给定位点的纯合隐性基因型。
2.5、逻辑回归模型建立;
2.5.1数据预处理
将因变量的编码分为″1″(su1或sh2胚乳突变表型)和″0″(非su1或sh2胚乳突变表型)。再利用GAPIT V3(Lipka et al.,2012)对SNP基因型进行编码。
2.5.2控制变量选取与模型建立
通过R软件glmnet包(Friedman,Hastie and Tibshirani,2009)分别建立Ridgeregression、Elastic net、Lasso回归模型,从而对SNP预测因子进行最终选择和排序。根据训练集采用五折交叉验证法,找出最优模型、标记集和λ的最优值。比较预测和观察的胚乳突变类型,并计算模型的灵敏度(真阳性的比例)和特异值(真阴性的比例)。基于筛选的显著性变量因子,依次建立逻辑回归模型,选取Mc Fadden的伪r2()(Hemmert et al.,2018)评价模型预测精度。
在上述过程中,从步骤2.1获取的数据集中随机选择85%的样本建立模型。为了降低模型的偶然性,通过50次迭代来评估每个样本胚乳表型的平均概率。
2.6、模型评估。
基于上述确定的最优因子组合和1.1所获取的85%训练样本建立最终的预测模型,对剩余的15%验证样本进行二分类验证。
在本案中,所述步骤3包括如下子步骤:
步骤3.1、ssh2和su1所在不同遗传区间SNP标记分析;
参照表1,为了评估不同SNP标记集对预测模型的影响,我们分别提取了sh2和su1位点附近±100kb、±250kb、±500kb、±750kb和±1000kb区间的SNP标记,发现sh2位点±100kb区间的分子标记密度为9.45×10-3·个kb-1,高于3号染色体上SNP位点密度(1.59×10-3个·kb-1)。此外,随着遗传区间的增加,SNP位点密度也逐渐增加,sh2位点±1000kb区间的分子标记密度最大,为4.72×10-2·个kb-1。在su1位点±250kb区间的分子标记密度最低(5.90×10-3个kb-1),但已高于4号染色体上SNP位点密度(1.07×10-3个kb-1)。以上结果表明本研究筛选的SNP标记可用于胚乳突变基因型逻辑回归模型的构建。
表1
步骤3.2、惩罚回归和SNP标记集评估;
我们分别比对了sh2和su1位点±100kb、±250kb、±500kb、±750kb和±1000kb区间内SNP标记集在Ridge回归、Elastic net回归和Lasso回归模型的预测精度,发现应用Elastic net回归和sh2位点±750kb区间的SNP标记集时,sh2胚乳突变类型预测的灵敏度、特异值和值均为最大值,分别为0.95、1.00和0.93。应用Lasso回归和su1位点±500kb区间的SNP标记集时,su1胚乳突变类型预测的灵敏度、特异值和值均为最大值,分别为0.99、1.00和0.92。因此,我们选择Elastic net回归模型和sh2位点±750kb区间的SNP标记集构建预测sh2胚乳突变类型的逻辑回归模型;选择Lasso回归模型和su1位点±500kb区间的SNP标记集构建预测su1胚乳突变类型的逻辑回归模型。
表2
步骤3.3、惩罚系数和SNP标记筛选;
Elastic net和Lasso回归基于惩罚系数λ对备选因子进行筛选,图1和图2左侧虚线对应使模型估计误差最小的λ,右侧虚线对应使模型估计误差在可接受范围内的λ,根据最高效原则确定纳入模型的最优变量组合,最终筛选出56个SNP位点用于预测sh2胚乳突变类型(参照图1),7个SNP位点用于预测su1胚乳突变类型(参照图2)。
步骤3.4、建立预测模型。
根据上述筛选得到的两种SNP位点集合和惩罚回归,建立了2个预测模型。对sh2位点预测的模型包括通过Elastic net回归筛选出的56个SNP,该模型的为1.00,拟合度高;应用50%的概率阈值,预测模型灵敏度为1.00,特异值为0.97。对su1位点预测模型包括通过Lasso回归筛选出的7个SNP,该模型的为0.99,拟合度高;应用50%的概率阈值,预测模型灵敏度和特异值均为1.00。说明这两个预测模型可以用来预测su1和sh2是否存在,概率阈值为0.5。

Claims (3)

1.一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法,其特征在于包括如下步骤:
步骤1、选取su1基因和sh2基因,同时对不同SNP标记集和惩罚回归在su1和sh2胚乳突变类型预测中的性能进行比对评估,并基于筛选的SNP位点、惩罚回归和惩罚系数建立su1和sh2逻辑回归预测模型;
步骤2、选取样本及DNA提取;
步骤3、获取结果,并进行分析。
2.根据权利要求1所述的一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法,其特征在于,所述步骤2选取样本及DNA提取包括如下步骤:
2.1、玉米籽粒胚乳表型的获取及分类标准;
2.2、选取样本及DNA提取;
2.3、基因分型;
2.4、逻辑回归模型构建;
2.5、逻辑回归模型建立;
2.6、模型评估。
3.根据权利要求1所述的一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法,其特征在于,所述步骤3包括如下子步骤:步骤3.1、sh2和su1所在不同遗传区间SNP标记分析;步骤3.2、惩罚回归和SNP标记集评估;
步骤3.3、惩罚系数和SNP标记筛选;
步骤3.4、建立预测模型。
CN202310553539.9A 2023-05-17 2023-05-17 基于snp和逻辑回归模型预测甜玉米胚乳突变基因的方法 Pending CN117437977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310553539.9A CN117437977A (zh) 2023-05-17 2023-05-17 基于snp和逻辑回归模型预测甜玉米胚乳突变基因的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310553539.9A CN117437977A (zh) 2023-05-17 2023-05-17 基于snp和逻辑回归模型预测甜玉米胚乳突变基因的方法

Publications (1)

Publication Number Publication Date
CN117437977A true CN117437977A (zh) 2024-01-23

Family

ID=89557162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310553539.9A Pending CN117437977A (zh) 2023-05-17 2023-05-17 基于snp和逻辑回归模型预测甜玉米胚乳突变基因的方法

Country Status (1)

Country Link
CN (1) CN117437977A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746979A (zh) * 2024-02-21 2024-03-22 中国科学院遗传与发育生物学研究所 一种动物品种的鉴定方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746979A (zh) * 2024-02-21 2024-03-22 中国科学院遗传与发育生物学研究所 一种动物品种的鉴定方法
CN117746979B (zh) * 2024-02-21 2024-07-23 中国科学院遗传与发育生物学研究所 一种动物品种的鉴定方法

Similar Documents

Publication Publication Date Title
Zhou et al. The origin of Wxla provides new insights into the improvement of grain quality in rice
Wadl et al. Genetic diversity and population structure of the USDA sweetpotato (Ipomoea batatas) germplasm collections using GBSpoly
Yamamoto et al. A simulation-based breeding design that uses whole-genome prediction in tomato
Campitelli et al. Natural selection maintains a single‐locus leaf shape cline in Ivyleaf morning glory, I pomoea hederacea
Palmer et al. Archaeogenetic evidence of ancient Nubian barley evolution from six to two-row indicates local adaptation
Wyatt et al. An acorn squash (Cucurbita pepo ssp. ovifera) fruit and seed transcriptome as a resource for the study of fruit traits in Cucurbita
US20140170660A1 (en) Methods and compositions for predicting unobserved phenotypes (pup)
CN116917504A (zh) 东星斑抗病良种培育的基因组选择方法
Karim et al. Genetic characterization of cassava (Manihot esculenta Crantz) genotypes using agro-morphological and single nucleotide polymorphism markers
Zhang et al. Mapping the flavor contributing traits on" Fengwei melon"(Cucumis melo L.) chromosomes using parent resequencing and super bulked-segregant analysis
Minamikawa et al. Tracing founder haplotypes of Japanese apple varieties: application in genomic prediction and genome-wide association study
CN117437977A (zh) 基于snp和逻辑回归模型预测甜玉米胚乳突变基因的方法
Amanullah et al. Genetic linkage mapping and QTLs identification for morphology and fruit quality related traits of melon by SNP based CAPS markers
CN111508560A (zh) 一种构建异交物种高密度基因型图谱的方法
do Carmo et al. Genome-wide association studies for waxy starch in cassava
Phumichai et al. Genome-wide association mapping and genomic prediction of yield-related traits and starch pasting properties in cassava
Kamanda et al. Genetic diversity of provitamin-A cassava (Manihot esculenta Crantz) in Sierra Leone
Uchendu et al. Genome-wide association study of root mealiness and other texture-associated traits in cassava
Bhandari et al. Genetic architecture of fresh-market tomato yield
CN116590451A (zh) 用于检测不同甜玉米类型的kasp引物组合及其应用
CN115443907A (zh) 基于全基因组选择的高产大果花生杂交组配选择的方法
CN109566398B (zh) 一种马铃薯杂交育种亲本的选择方法
Li et al. Whole‐genome sequencing of a worldwide collection of sugarcane cultivars (Saccharum spp.) reveals the genetic basis of cultivar improvement
Li Starch biosynthesis and engineering starch yield and properties in cassava
CN1130120C (zh) 水稻种子直链淀粉含量低的水稻植株的筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination