CN117437977A

CN117437977A - 基于snp和逻辑回归模型预测甜玉米胚乳突变基因的方法

Info

Publication number: CN117437977A
Application number: CN202310553539.9A
Authority: CN
Inventors: 卢媛; 王晨宇; 郑洪建; 王慧; 胡颖雄; 张超; 孙萍东; 关媛; 卫季辉; 顾炜
Original assignee: Shanghai Academy of Agricultural Sciences
Current assignee: Shanghai Academy of Agricultural Sciences
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2024-01-23

Abstract

本发明公开一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法，其特征在于包括如下步骤：步骤1、选取su1基因和sh2基因，同时对不同SNP标记集和惩罚回归在su1和sh2胚乳突变类型预测中的性能进行比对评估，并基于筛选的SNP位点、惩罚回归和惩罚系数建立su1和sh2逻辑回归预测模型；步骤2、选取样本及DNA提取；步骤3、获取结果，并进行分析。本发明选取了su1基因和sh2基因，同时对不同SNP标记集和惩罚回归在su1和sh2胚乳突变类型预测中的性能进行了比对评估，并基于筛选的SNP位点、惩罚回归和惩罚系数建立了su1和sh2逻辑回归预测模型，建立su1和sh2预测准确性最高的逻辑回归模型，有效解决了技术需求。

Description

基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法

技术领域

本发明涉及农业领域，具体是一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法。

背景技术

甜玉米是在乳熟后期和蜡熟初期收获食用鲜穗的玉米亚品种，是受一个或多个隐性基因控制的玉米胚乳突变体，是重要的果蔬。从20世纪90年代末至今，我国甜玉米产业已步入高速发展阶段。甜到目前为止，已发现至少有14个甜玉米胚乳隐性突变基因，其中有8个胚乳突变基因(su1，sh2，bt1，bt2，ae1，du1，wx1，se1)已应用于商业化育种。大量研究表明，这些胚乳突变基因有着各自特异的基因效应。

受单隐性基因甜质sugary1(su1)控制的甜玉米类型被称为普甜玉米。James等(James，Robertson and Myers，1995)通过Mu插入技术克隆到su1的基因全长，明确su1编码淀粉分支酶中的异淀粉酶。目前研究证实Su1基因产物为79kD蛋白质，其序列与淀粉脱分支酶SDBE相似，可水解分支多糖的多余的高度分支区以外的不正确位置上形成的α-1，6-糖苷键，从其对底物的专一性表明它属于异淀粉酶。su1突变体表现出胚乳透明且种皮皱缩。Laughnan(1953)报道了一种胚乳凹陷的基因突变类型，命名为shrunkern2(sh2)。sh2是由编码ADP-葡萄糖焦磷酸化酶大亚基的基因突变而来。对sh2基因效应的研究表明，sh2突变籽粒的含糖量是普通玉米的10倍，其中大部分是蔗糖，而水溶性多糖的积累较少。sh2基因已经被克隆，sh2的表达具有组织特异性。编码大亚基的sh2基因的转录产物存在于胚及胚乳中，但是在胚乳中的含量较少。因此，了解某一材料的甜质控制基因类型，有针对性地在品质改良育种中应用具有重要意义。

发明内容

本发明的目的在于提供一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法，其特征在于包括如下步骤：

步骤1、选取su1基因和sh2基因，同时对不同SNP标记集和惩罚回归在su1和sh2胚乳突变类型预测中的性能进行比对评估，并基于筛选的SNP位点、惩罚回归和惩罚系数建立su1和sh2逻辑回归预测模型；

步骤2、选取样本及DNA提取；

步骤3、获取结果，并进行分析。

在本案中，所述步骤2选取样本及DNA提取包括如下步骤：

2.1、玉米籽粒胚乳表型的获取及分类标准；

2.2、选取样本及DNA提取；

2.3、基因分型；

2.4、逻辑回归模型构建；

2.5、逻辑回归模型建立；

2.6、模型评估。

在本案中，所述步骤3包括如下子步骤：

步骤3.1、sh2和su1所在不同遗传区间SNP标记分析；

步骤3.2、惩罚回归和SNP标记集评估；

步骤3.3、惩罚系数和SNP标记筛选；

步骤3.4、建立预测模型。

有益效果是：本发明选取了su1基因和sh2基因，同时对不同SNP标记集和惩罚回归在su1和sh2胚乳突变类型预测中的性能进行了比对评估，并基于筛选的SNP位点、惩罚回归和惩罚系数建立了su1和sh2逻辑回归预测模型，建立su1和sh2预测准确性最高的逻辑回归模型，有效解决了技术需求。

附图说明

图1为基于Elastic net回归预测sh2的特征变量筛选图；

图2为基于Lasso回归预测su1的特征变量筛选图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法，其特征在于包括如下步骤：

逻辑回归是一种通用的解决二分类问题的回归分析模型，通过预测概率，广泛应用于数据挖掘、疾病自动诊断、经济预测等领域。例如，Hagenaars等使用287个SNP位点建立多元逻辑回归模型，重度脱发的AUC为0.78，但轻度脱发和中度脱发的AUC仅能达到0.68和0.61。等使用305个50岁及以上的欧洲人群样本构建了20个SNP的模型，对脱发的遗传解释力为35％，AUC＝0.86。

步骤2、选取样本及DNA提取；所述步骤2选取样本及DNA提取包括如下步骤：

2.1、玉米籽粒胚乳表型的获取及分类标准；

在前期研究中，我们参照(Baseggio et al.，2018)的方法，根据胚乳突变类型进行分类，将甜玉米胚乳突变型分为两组：(1)su1突变类型：籽粒褶皱、呈玻璃样透明状；(2)sh2突变类型：籽粒萎缩、呈不透明到半透明状(Boyer and Shannon，1983)。表型读取时，由3名育种家同时观看照片，并独立对每一个自交系进行评价，排除表型判断有困难的样本，保留3个育种家鉴定一致的材料组成新的数据集，作为建立逻辑回归模型的数据源。

2.2、选取样本及DNA提取；

按照2.1的表型分组标准，搜集甜玉米自交系共300份，包括糯玉米40份，su1胚乳突变基因型181份，sh2胚乳突变基因型79份，以上材料由上海市农业科学院玉米中心提供。试验材料种子种植于发芽盒中，于2叶1心期剪取幼叶置于-80℃冰箱保存至叶片DNA提取。采用改进后的CTAB法提取玉米基因组DNA(Springer，2010)。

2.3、基因分型；

2b-RAD测序在Illumina HiSeq 2500二代测序平台完成，质量控制参照卢媛等人的方案进行SNP基因型分型。通过以下指标对SNP进行质量控制，保留以下SNP位点：(1)基因型缺失值比例＜20％；(2)最小等位基因频率(minor allele frequency，MAF)＞0.01；(3)含有2种碱基型；(4)标签内SNP位点数＝1。最终保留20333个高质量SNP位点。

2.4、逻辑回归模型构建；

逻辑回归模型假设因变量服从二项分布，模型的拟合形式为：

式中，X_j为自变量；β_j为回归系数，该方程结果p为0～1的一个数字，表示某一位点(su1或sh2)纯合的概率。如果预测概率＞0.5，则将其归类为一个给定位点的纯合隐性基因型，否则为非给定位点的纯合隐性基因型。

2.5、逻辑回归模型建立；

2.5.1数据预处理

将因变量的编码分为″1″(su1或sh2胚乳突变表型)和″0″(非su1或sh2胚乳突变表型)。再利用GAPIT V3(Lipka et al.，2012)对SNP基因型进行编码。

2.5.2控制变量选取与模型建立

通过R软件glmnet包(Friedman，Hastie and Tibshirani，2009)分别建立Ridgeregression、Elastic net、Lasso回归模型，从而对SNP预测因子进行最终选择和排序。根据训练集采用五折交叉验证法，找出最优模型、标记集和λ的最优值。比较预测和观察的胚乳突变类型，并计算模型的灵敏度(真阳性的比例)和特异值(真阴性的比例)。基于筛选的显著性变量因子，依次建立逻辑回归模型，选取Mc Fadden的伪r2()(Hemmert et al.，2018)评价模型预测精度。

在上述过程中，从步骤2.1获取的数据集中随机选择85％的样本建立模型。为了降低模型的偶然性，通过50次迭代来评估每个样本胚乳表型的平均概率。

2.6、模型评估。

基于上述确定的最优因子组合和1.1所获取的85％训练样本建立最终的预测模型，对剩余的15％验证样本进行二分类验证。

在本案中，所述步骤3包括如下子步骤：

步骤3.1、ssh2和su1所在不同遗传区间SNP标记分析；

参照表1，为了评估不同SNP标记集对预测模型的影响，我们分别提取了sh2和su1位点附近±100kb、±250kb、±500kb、±750kb和±1000kb区间的SNP标记，发现sh2位点±100kb区间的分子标记密度为9.45×10-3·个kb-1，高于3号染色体上SNP位点密度(1.59×10-3个·kb-1)。此外，随着遗传区间的增加，SNP位点密度也逐渐增加，sh2位点±1000kb区间的分子标记密度最大，为4.72×10-2·个kb-1。在su1位点±250kb区间的分子标记密度最低(5.90×10-3个kb-1)，但已高于4号染色体上SNP位点密度(1.07×10-3个kb-1)。以上结果表明本研究筛选的SNP标记可用于胚乳突变基因型逻辑回归模型的构建。

表1

步骤3.2、惩罚回归和SNP标记集评估；

我们分别比对了sh2和su1位点±100kb、±250kb、±500kb、±750kb和±1000kb区间内SNP标记集在Ridge回归、Elastic net回归和Lasso回归模型的预测精度，发现应用Elastic net回归和sh2位点±750kb区间的SNP标记集时，sh2胚乳突变类型预测的灵敏度、特异值和值均为最大值，分别为0.95、1.00和0.93。应用Lasso回归和su1位点±500kb区间的SNP标记集时，su1胚乳突变类型预测的灵敏度、特异值和值均为最大值，分别为0.99、1.00和0.92。因此，我们选择Elastic net回归模型和sh2位点±750kb区间的SNP标记集构建预测sh2胚乳突变类型的逻辑回归模型；选择Lasso回归模型和su1位点±500kb区间的SNP标记集构建预测su1胚乳突变类型的逻辑回归模型。

表2

步骤3.3、惩罚系数和SNP标记筛选；

Elastic net和Lasso回归基于惩罚系数λ对备选因子进行筛选，图1和图2左侧虚线对应使模型估计误差最小的λ，右侧虚线对应使模型估计误差在可接受范围内的λ，根据最高效原则确定纳入模型的最优变量组合，最终筛选出56个SNP位点用于预测sh2胚乳突变类型(参照图1)，7个SNP位点用于预测su1胚乳突变类型(参照图2)。

步骤3.4、建立预测模型。

根据上述筛选得到的两种SNP位点集合和惩罚回归，建立了2个预测模型。对sh2位点预测的模型包括通过Elastic net回归筛选出的56个SNP，该模型的为1.00，拟合度高；应用50％的概率阈值，预测模型灵敏度为1.00，特异值为0.97。对su1位点预测模型包括通过Lasso回归筛选出的7个SNP，该模型的为0.99，拟合度高；应用50％的概率阈值，预测模型灵敏度和特异值均为1.00。说明这两个预测模型可以用来预测su1和sh2是否存在，概率阈值为0.5。

Claims

1.一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法，其特征在于包括如下步骤：

步骤2、选取样本及DNA提取；

步骤3、获取结果，并进行分析。

2.根据权利要求1所述的一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法，其特征在于，所述步骤2选取样本及DNA提取包括如下步骤：

2.1、玉米籽粒胚乳表型的获取及分类标准；

2.2、选取样本及DNA提取；

2.3、基因分型；

2.4、逻辑回归模型构建；

2.5、逻辑回归模型建立；

2.6、模型评估。

3.根据权利要求1所述的一种基于SNP和逻辑回归模型预测甜玉米胚乳突变基因的方法，其特征在于，所述步骤3包括如下子步骤：步骤3.1、sh2和su1所在不同遗传区间SNP标记分析；步骤3.2、惩罚回归和SNP标记集评估；

步骤3.3、惩罚系数和SNP标记筛选；

步骤3.4、建立预测模型。