CN112102880A - 品种鉴定的方法、其预测模型的构建方法和装置 - Google Patents

品种鉴定的方法、其预测模型的构建方法和装置 Download PDF

Info

Publication number
CN112102880A
CN112102880A CN202011119585.0A CN202011119585A CN112102880A CN 112102880 A CN112102880 A CN 112102880A CN 202011119585 A CN202011119585 A CN 202011119585A CN 112102880 A CN112102880 A CN 112102880A
Authority
CN
China
Prior art keywords
snp
model
module
prediction model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011119585.0A
Other languages
English (en)
Inventor
陈志强
梁齐齐
吴俊�
曹志生
李瑞强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Novogene Technology Co ltd
Original Assignee
Beijing Novogene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Novogene Technology Co ltd filed Critical Beijing Novogene Technology Co ltd
Priority to CN202011119585.0A priority Critical patent/CN112102880A/zh
Publication of CN112102880A publication Critical patent/CN112102880A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种品种鉴定的方法、其预测模型的构建方法和装置。其中构建方法包括:获取SNP数据集;对SNP数据集进行预处理,得到SNP数据矩阵;对SNP数据矩阵进行降维处理,得到SNP缩减集;以SNP缩减集为特征值,以样本所属群体名作为目标值,进行模型训练及模型参数调节,获得初步模型;对初步模型进行评估,得到品种鉴定的预测模型。该方法采用主成分分析法等对用于建模的SNP数据集进行了降维处理,因而能够降低运算复杂度和运算量,提高运算速度,利用该方法及其建立的预测模型能够实现快速、高通量、自动化得品种鉴定。

Description

品种鉴定的方法、其预测模型的构建方法和装置
技术领域
本发明涉及品种鉴定领域,具体而言,涉及一种品种鉴定的方法、其预测模型的构建方法和装置。
背景技术
品种是指人类在一定的生态条件和经济条件下,根据人类的需要所选育的某一物种的一定群体,它具备相对稳定的遗传特性,在生物学、形态学及经济性状上具有相对一致性,与同一物种的其他群体在特征上有所区别即特异性。生物品种鉴定有着广泛和重要的应用价值。品种鉴定促进了对遗传信息的有效管理;为育种策略的制定与实施奠定良好基础;为生物品牌产品的认证提供了有效信息;更为解决食品安全问题开辟了新途径。
早前品种鉴定工作主要依赖于表型鉴定,但是随着杂交育种的推广,经过几代杂交后的群体的个体表型与亲本高度相似,因此,单纯利用表型性状进行品种鉴定不够准确、全面和科学。随后,品种鉴定工作由传统的表型鉴定发展为DNA分子标记技术,DNA分子标记的应用能够为品种鉴定提供准确、快速的渠道。早期的DNA分子标记技术使用微卫星、AFLP等标记进行品种鉴定。利用微卫星进行品种鉴定的大致过程包括:a)提取待测样本DNA;b)荧光基团修饰微卫星引物;c)降落式PCR扩增;d)读取每个样本的基因型信息,用遗传软件计算个体之的遗传距离,根据遗传距离绘制聚类图,以此进行品种鉴定。
然而,上述方法存在以下缺点:a)通用性不强,需要特定引物。由于在不同物种中微卫星侧翼序列有所不同,针对不同物种,往往需要进行费时费力的特异性引物设计。b)结果误差高。可能出现同源异型(微卫星重复序列相同,但PCR产物长度不同)或者是异源同型(微卫星重复序列不同,但PCR产物长度相同),单纯使用PCR产物片段进行研究可能得出错误结果。此外,PCR扩增受到许多因素影响,使一些等位基因无法被扩增出来,比如发生在引物3'端配对碱基的突变会严重影响PCR效率,进而影响品种鉴定结果的正确性。c)灵敏度低。由于存在较高的误差性,在两个品种间差异性较小时,检测方法的误差会掩盖两个品种间的差异。
一些学者利用不同的统计方法结合遗传信息对SNP位点进行筛选。Pfaff等人利用δ方法,以两个物种间的等位基因频率绝对差为判别标准进行分类,Weir等人利用Wright’sFST方法,依赖于预先定义的两个物种间的等位基因频率的差异最大化进行判别。但是δ和Wright’s FST只可以用于两个种群的判别,并且没有清晰的统计特性定义。为解决两个品种以上的判别,Rosenberg等人提出了一种相关性衡量的方法,使用互信息(In)描述相关性,以此来表示不同品种的FST之间的关系。然而,这些方法不仅运算量和难度较大,而且难以获得有用的SNP位点。
发明内容
本发明的主要目的在于提供一种品种鉴定的方法、其预测模型的构建方法和装置,以实现简单、高通量、自动化地对品种进行鉴定。
为了实现上述目的,根据本发明的一个方面,提供了一种品种鉴定预测模型的构建方法,该构建方法包括:获取SNP数据集;对SNP数据集进行预处理,得到SNP数据矩阵;对SNP数据矩阵进行降维处理,得到SNP缩减集;以SNP缩减集为特征值,以样本所属群体名作为目标值,进行模型训练及模型参数调节,获得初步模型;对初步模型进行评估,得到品种鉴定的预测模型。
进一步地,对SNP数据集进行预处理,得到SNP数据矩阵包括:去除SNP数据集中存在缺失和/或最小等位基因频率低于5%的SNP位点,得到有效SNP位点;将m个样本的总计n个有效SNP位点的基因型进突变纯合行数字编码转化,得到SNP数据矩阵m×n;其中,野生纯合基因型AA记为0,杂合基因型AB记为1,基因型BB记为2,m和n分别为自然数,优选为大于等于2的自然数。
进一步地,对SNP数据矩阵进行降维处理,得到SNP缩减集包括:采用主成分分析法对SNP数据矩阵进行降维处理,得到SNP缩减集;优选地,降维处理包括:计算每个SNP位点在不同样本间的协方差,形成协方差矩阵Tnxm,计算协方差矩阵的特征值和特征向量;按特征值大小排序,当第n1+1个特征值大小相比第n1个特征值大小显著下降时,保留前n1个特征值的特征向量,n1为小于n的自然数;对保留下来的每个特征值对应的特征向量里的元素值按绝对值大小进行排序,并选择每个特征值上排序靠前的预定数量个元素,每个元素未排序前的位置对应SNP位点位置,从而获得总数为n2个SNP位点的SNP缩减集,其中,n1≤n2<n。
进一步地,在进行模型训练及调节模型参数的步骤中,采用网格搜索的方法进行调节。
进一步地,对初步模型进行评估,得到品种鉴定的预测模型包括:将SNP缩减集分为训练集和测试集;通过对训练集进行五折交叉验证,并在测试集上输出AUC值的方式对初步模型进行评估;若评估结果符合预设标准,则将初步模型作为预测模型;若评估结果不符合预设标准,则返回初步模型,重复执行模型训练及模型参数调节步骤,直至评估结果符合预设标准。
进一步地,构建方法在得到品种鉴定的预测模型的同时,还包括:对预测模型导出并存储到集群路径下,同时对预测模型返回的每个SNP位点的重要度进行排序,并将每个SNP位点的重要度导出并存储到集群路径下。
根据本申请的第二个方面,提供了一种品种鉴定的方法,该方法包括:将待鉴定样本的SNP数据集依次进行预处理及降维处理,得到待鉴定样本的SNP缩减集;将待鉴定样本的SNP缩减集导入上述任一种构建方法所构建的预测模型进行预测,从而获得待鉴定样本所属群体。
进一步地,预处理按上述构建方法中的预处理步骤进行;降维处理按照上述构建方法中的降维处理步骤进行。
根据本申请的第三个方面,提供了一种品种鉴定预测模型的构建装置,该构建装置包括:SNP获取模块,用于获取SNP数据集;预处理模块,用于对SNP数据集进行预处理,得到SNP数据矩阵;降维模块,用于对SNP数据矩阵进行降维处理,得到SNP缩减集;模型训练模块,用于以SNP缩减集为特征值,以样本所属群体名作为目标值,进行模型训练及模型参数调节,获得初步模型;评估确定模块,用于对初步模型进行评估,得到品种鉴定的预测模型。
进一步地,预处理模块包括:位点筛选模块,用于去除SNP数据集中存在缺失和/或最小等位基因频率低于5%的SNP位点,得到有效SNP位点;编码转化模块,用于将m个待鉴定样本的总计n个有效SNP位点的基因型进行数字编码转化,得到SNP数据矩阵m×n;其中,野生纯合基因型AA记为0,杂合基因型AB记为1,突变纯合基因型BB记为2,m和n分别为自然数,优选为大于等于2的自然数。
进一步地,降维模块为主成分分析模块;优选地,主成分分析模块包括:计算模块,用于计算每个SNP位点在不同样本间的协方差,形成协方差矩阵Tnxm,计算协方差矩阵的特征值和特征向量;第一排序选择模块,用于按特征值大小排序,当第n1+1个特征值大小相比第n1个特征值大小显著下降时,保留前n1个特征值的特征向量,n1为小于n的自然数;第二排序选择模块,用于对保留下来的每个特征值对应的特征向量里的元素按绝对值大小进行排序,并选择每个特征值上排序靠前的预定数量个元素,每个元素未排序前的位置对应SNP位点位置,从而获得总数为n2个SNP位点的SNP缩减集,其中,n1≤n2<n。
进一步地,模型训练模块中,采用网格搜索的方法进行模型参数调节。
进一步地,评估确定模块包括:评估模块,用于将SNP缩减集分为训练集和测试集,并通过对训练集进行五折交叉验证,并在测试集上输出AUC值的方式对初步模型进行评估;第一确定模块,用于当评估结果符合预设标准时,将初步模型作为预测模型;第二确定模块,用于当评估结果不符合预设标准时,返回初步模型,重复执行模型训练及模型参数调节,直至评估结果符合预设标准。
进一步地,构建装置还包括:导出存储模块,用于对预测模型导出并存储到集群路径下,同时对预测模型返回的每个SNP位点的重要度进行排序,并将每个SNP位点的重要度导出并存储到集群路径下。
根据本申请的第四个方法,提供了一种品种鉴定的装置,该装置包括:上述任一种品种鉴定预测模型的构建装置。
根据本申请的第五个方法,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种品种鉴定预测模型的构建方法。
根据本申请的第六个方法,提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种品种鉴定预测模型的构建方法。
应用本发明的技术方案,通过对SNP数据集进行预处理后的SNP矩阵进行降维处理,从而得到数量大大减少的SNP缩减集,以该SNP缩减集进行模型训练及参数调节,从而获得初步模型,最后进一步根据训练集和测试集等对该初步模型的预测准确性进行评估和验证,从而获得符合预期标准的预测模型。该方法对用于建模的SNP数据集进行了降维处理,因而能够降低运算复杂度和运算量,提高运算速度,利用该方法及其建立的预测模型能够实现快速、高通量、自动化得品种鉴定。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的实施例1的品种鉴定预测模型的构建方法流程示意图;
图2示出了根据本发明的实施例2的品种鉴定预测模型的构建方法的详细流程示意图;
图3示出了根据本发明的实施例4的不同树的数目(即n_estimators)下预测的准确性结果;
图4示出了根据本发明的实施例4的不同组交叉验证准确性的结果;
图5示出了根据本发明的实施例4的SNP位点的重要度(重要性值)的结果展示图;
图6示出了根据本发明的实施例6的品种鉴定预测模型的构建装置结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
需要说明的是,本申请中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如背景技术所提到的,现有技术中的品种鉴定方法难以实现快速高通量自动化地对众多个品种进行鉴定,为改善这一状况,在本申请一种优选的实施例中,提供了一种品种鉴定的预测模型的构建方法,以及利用该方法对品种进行鉴定的方法。
实施例1
本实施例提供了一种品种鉴定的预测模型的构建方法,图1示出了该预测模型的构建方法的流程示意图。该构建方法包括:
步骤S101,获取SNP数据集;
步骤S102,对SNP数据集进行预处理,得到SNP数据矩阵;
步骤S103,对SNP数据矩阵进行降维处理,得到SNP缩减集;
步骤S104,以SNP缩减集为特征值,以样本所属群体名作为目标值,进行模型训练及模型参数调节,获得初步模型;
步骤S105,对初步模型进行评估,得到品种鉴定的预测模型。
通过对SNP数据集进行预处理后的SNP矩阵进行降维处理,从而得到数量大大减少的SNP缩减集,以该SNP缩减集进行模型训练及参数调节,从而获得初步模型,最后进一步根据训练集和测试集等对该初步模型的预测准确性进行评估和验证,从而获得符合预期标准的预测模型。该方法对用于建模的SNP数据集进行了降维处理,因而能够降低运算复杂度和运算量,提高运算速度,利用该方法及其建立的预测模型能够实现快速、高通量、自动化得品种鉴定。
需要说明的是,上述获取SNP数据集的步骤中,SNP数据的具体来源可以是通过全基因组重测序数据与参考基因组进行比对获得的SNP分子标记(具体步骤参见图1,首先进行基因组DNA提取,然后进行DNA测序,对测序数据进行质控后,与参考基因组比对,得到检测样本的SNP数据),也可以是通过SNP芯片获取的SNP分子标记。这些SNP数据的样本所属群体是已知的。
SNP(Single nucleotide polymorphism)是指由单核苷酸变异引起的DNA序列多态性,包括单碱基转换、颠换、插入和缺失等形式。相比于其他DNA分子标记,SNP标记以其高通量、高集成、微型化和自动化等优点被广泛应用于各类生物学相关的分析。
SNP具有以下特点:(1)SNP数目多,密度高,分布广泛。在人类基因组中,平均每1kb即存在1个SNP位点;(2)富有代表性。部分位于基因编码区的SNP有可能改变基因功能或影响基因表达,从而影响个体性状,为性状遗传研究提供一定的理论基础;(3)具有遗传稳定性。SNP的基因突变概率小,尤其编码区的SNP高度稳定,遗传分析的重复性高;(4)SNP的分型易于实现自动化。
由于在测序过程中,某些SNP位点的数据可能存在不完整,比如缺失。或者有些位点的最小等位基因频率很低,比如低于0.05,表明该位点的突变频率很低,这种位点在样本量小的情况下,很难检测到等位基因情况,因而如果含有这些位点,容易会导致统计效能降低,造成假阴性的结果。此外,不同SNP位点的基因型相同或不同,但基于建模考虑,不能用各位点的具体基因型来体现,而需要转化成数字来表征不同的基因型。不同SNP位点的基因型可能有所不同,但每个SNP的基因型都只可能是AA、AB或BB三种类型的一种,所以将基因型为一种纯合类型(比如,野生型纯合)的记为0,杂合类型的记为1,另一种纯合类型(比如,突变型纯合)的记为2,这样通过数字编码转换即可实现各基因型对品种预测的模型化。
因此,在一种优选的实施例中,上述在对SNP数据集进行预处理,得到SNP数据矩阵包括:去除SNP数据集中存在缺失和/或最小等位基因频率低于5%的SNP位点,得到有效SNP位点;将m个样本的总计n个有效SNP位点的基因型进行数字编码转化,得到SNP数据矩阵mⅹn;其中,野生纯合基因型AA记为0,杂合基因型AB记为1,突变纯合基因型BB记为2,m和n分别为自然数,优选为大于等于2的自然数。
上述SNP数据集,根据待鉴定的物种的不同,比如,水稻与小麦,其具体的数据集中SNP位点的数量存在差异。根据样本量的大小不同,SNP数据矩阵的大小也有差异。但用于建模预测的SNP数据集往往存在高维度小样本的特点,如果按照传统方法都计算等位基因频率,会大大增加计算复杂度和运算量(因为如果按一个SNP位点一个特征的话,一个训练模型会有几百万个训练特征,计算量不是一般服务器能承受的)。而本申请中,针对SNP数据集通常存在的维度高样本量小的特点,对SNP数据集进行了降维处理,这样不仅能够降低运算量,而且还能根据不同目的对SNP位点进行打分,获得有用的SNP位点。
具体地,可以采用采用主成分分析法对SNP数据矩阵进行降维处理,从而得到SNP缩减集。更具体地,该降维处理包括:计算每个SNP位点在不同样本间的协方差,形成协方差矩阵Tnxm,计算协方差矩阵的特征值和特征向量,而特征值就对应主成分的方差贡献度,特征值越大则对应主成分的方差贡献度越大;按特征值大小排序,当第n1+1个特征值大小相比第n1个特征值大小显著下降时,保留前n1个特征值的特征向量,n1为小于n的自然数;对保留下来的每个特征值对应特征向量里的元素值按绝对值大小进行排序,并选择每个特征值上排序靠前的预定数量个元素,每个元素未排序前的位置对应SNP位点位置,从而获得总数为n2个SNP位点的所述SNP缩减集,其中,n1≤n2<n。
此处的预定数量个SNP位点的具体数量,根据物种的不同而不同,也可以根据总的SNP位点数量的不同而不同。根据主成分的方差贡献度大小,对方差贡献度显著下降的成分视为对品种鉴定影响较小,因而在一定程度上可以忽略,利用对品种鉴定影响较大的主要成分进行后续的分析,这样能够减少用于后续分析的SNP位点的数目。而对各染色体的SNP位点按照特征向量里的元素的绝对值大小进行排序,并选择排序靠前的预定数量个元素,这样进一步减少了SNP位点的数目。
上述排序靠前的预定数量个元素(比如50个元素)中,元素是指特征值分解结果中的元素值。其排序过程示例如下:原来的元素值排列是:5、2、3、6、4,对应的位置就是1、2、3、4、5,排序之后的元素值排列为:6、5、4、3、2,取排名靠前的2个元素,即为6、5,这俩元素对应的未排序前的位置分别为4、1,也是对应的SNP位置。
上述n的数值大小通常是几百万,而缩减集会大大减小,以n1取100,表示100个特征,元素也取100为例,n2个缩减集中共1万个SNP位点,较几百万大大降低。
上述在进行模型训练及模型参数调节的步骤中,优选采用网格搜索的方法进行调节。
对于上述模型训练及模型参数调节后得到的初步模型进行评估,即检验该模型预测的准确性。具体的评估方法可以采用现有的模型评价方法。对模型的评价,主要分为2个角度,一个是模型的区分度或预测精度,评价的指标包括AUC、C指数或NRI等;另一个是拟合优度或校准度,评价指标包括AIC、BIC、R方等。根据实际问题的不同,对这两方面重视程度有所不同。一般来说,应先满足区分度的能力要求后,再评价校准度的表现。区分度评价的是模型预测结果准确性,即分类正确的能力。AUC:二分类问题中最常用的指标。AUC值越大,分类越好,正确率越高。
在一种优选的实施例中,上述对初步模型进行评估,得到品种鉴定的预测模型包括:将SNP缩减集分为训练集和测试集(一般训练集:测试集大小的比例是8:2,具体应用中可以根据需要调整,比如,可以为5:5,7:3或6:4等);通过对训练集进行五折交叉验证,并在测试集上输出AUC值的方式对初步模型进行评估;若评估结果符合预设标准,则将初步模型作为预测模型;若评估结果不符合预设标准,则返回初步模型,重复执行模型训练及模型参数调节步骤,直至评估结果符合预设标准。
上述预设标准根据分类样本的物种的不同而有所不同,从预测准确性角度考虑,预设标准可以是90%以上,比如是90%、93%、95%、96%、97%、98%或99%,甚至为100%。
本申请的构建方法在得到品种鉴定的预测模型的同时,还包括:对预测模型导出并存储到集群路径下,同时对预测模型返回的每个特征(此处模型中的一个SNP位点就是一个特征)的重要度(又叫重要性值,即基于随机森林模型给出的大小)进行排序,并将每个特征的重要度导出并存储到集群路径下。由于预测模型在构建时用到了不同SNP位点的方差贡献度(即基于PCA分析中的特征向量中元素值大小)及在相应染色体的得分排序,因而能够根据不同目的的需要,获得各品种相关的不同重要度的SNP位点。
实施例2
本实施例提供了一种更具体的品种鉴定预测模型的构建方法,如图2所示,详细步骤如下:
a.SNP获取,一般通过全基因组重测序跟参考基因组进行比对获得SNP分子标记,或者通过SNP芯片获取SNP分子标记。
b.SNP数据集预处理,删除有缺失、最小等位基因频率低于5%的SNP位点,然后根据SNP的基因型将数据转化成数字类型,其中基因型AA编码为0,基因型AB编码为1,基因型BB编码为2。预处理且编码后的SNP位点数据构成矩阵Xm×n,m表示待鉴定样本个数,n表示总的SNP位点个数。
c.PCA进行数据降维,每一个主成分所提取的信息量用方差来度量,其中某一个主成分方差的贡献度就等于原指标相关矩阵相应的特征值δi,则第i个主成分的方差贡献度见公式1:
Figure BDA0002731537760000081
Ti值越大,说明相应的主成分反映综合信息的能力越强。
在PCn1和PCn1+1之间,主成分的方差贡献度值有大幅度的下降,因此保留前n1个主成分,用于减少SNP位点的数目。再根据公式2:
Figure BDA0002731537760000082
计算每个SNP标记的得分。利用得分对每条染色体上的SNP位点进行排名,选择每条染色体上排名前40(当总SNP个数较大时,该值可能需要重新设定)的SNP位点,组成含有n1(相比于总SNP个数n,有明显减少)个SNP位点的缩减集。
d.模型训练及调参,选用机器学习算法中的随机森林模型,以步骤c中的缩减集作为特征X、以样本所属群体名作为目标值Y,并通过网格搜索的调参方法调节模型参数,获得初步模型;
e.模型评估与输出,通过对训练集做五折交叉验证,并在测试集上输出auc值的方式对初步模型进行评估。若结果符合预设标准则将该初步模型作为预测模型、导出并存储在集群路径下,同时对模型返回的每个特征的重要度(即重要性值)进行排序,将每个特征的重要度导出并存储到集群路径下。若结果不符合预设标准则返回d步骤,对初步模型进行再次训练及调参。
实施例3
本实施例是针对5个不同细毛羊品种的总样本数目为78个的数据集,每个数据集包括的原始SNP数据集为12543674个,经过主成分分析降维后,得到1080个SNP位点的缩减集,利用78个样本的缩减集进行模型训练和参数调节,得到初步模型。
然后采用训练集:测试集大小比例为8:2对初步模型进行评估,评估结果显示:初步模型有94%以上的准确率,符合预设标准达到90%以上的准确率。因此,该初步模型记为预测模型。
实施例4
该实施例提供了一种细毛羊的品种鉴定方法,具体方法同实施例2。其中,图3显示了不同树的数目(n_estimators)下预测的准确性结果,提示应该对不同的树按重要程度进行筛选。图4为不同重复次数进行交叉验证得到的准确性的结果,图5为SNP位点贡献度(重要性值)的结果展示(前30位)。
图3示出的是:随着树的数目n的增加,预测模型的准确率也在增加,准确率不再升高时的树的数目作为后续分析参数固定下来。
图4示出的是:多次重复交叉验证显示,准确率都维持在较高的值,说明模型训练和参数设定没有问题,可以将训练好的模型保存下来,留作后续分析用。
图5示出的是:不同的SNP位点对预测模型的重要性是不一样,重要度越高,对预测模型的贡献就越大。
实施例5
本实施例提供了一种品种鉴定的方法,该方法包括:将待鉴定样本的SNP数据集依次进行预处理及降维处理,得到待鉴定样本的SNP缩减集;将待鉴定样本的SNP缩减集导入实施例1所构建的预测模型进行预测,从而获得待鉴定样本所属群体。
上述待鉴定样本的SNP数据集的预处理方法与实施例1中作为训练集的SNP数据集的预处理操作和降维处理操作相同。
从上述描述中可以看出,上述实施例的方法具有以下优势:
1)能够实现高通量、自动化的品种鉴定流程,该方法在获得训练好模型后,能够实现大批量样本自动化品种鉴定;
2)能够发现重要SNP位点,相比其他方法,该方法在模型训练过程中能够计算每个SNP位点的贡献度,贡献度高的位点可以用作后续遗传育种相关的参考依据;
3)实现自我学习,不断提高准确率,机器学习会随着测试样本的增多,模型训练的准确度会越来越高。
实施例6
本实施例提供了一种品种鉴定预测模型的构建装置,如图6所示,该构建装置包括:SNP获取模块10、预处理模块20、降维模块30、模型训练模块40及评估确定模块50,其中,
SNP获取模块10,用于获取SNP数据集;
预处理模块20,用于对SNP数据集进行预处理,得到SNP数据矩阵;
降维模块30,用于对SNP数据矩阵进行降维处理,得到SNP缩减集;
模型训练模块40,用于以SNP缩减集为特征值,以样本所属群体名作为目标值,进行模型训练及模型参数调节,获得初步模型;
评估确定模块50,用于对初步模型进行评估,得到品种鉴定的预测模型。
优选地,预处理模块包括:位点筛选模块,用于去除SNP数据集中存在缺失和/或最小等位基因频率低于5%的SNP位点,得到有效SNP位点;编码转化模块,用于将m个待鉴定样本的总计n个有效SNP位点的基因型进行数字编码转化,得到SNP数据矩阵m×n;其中,野生纯合基因型AA记为0,杂合基因型AB记为1,突变纯合基因型BB记为2,m和n分别为自然数,优选为大于等于2的自然数。
优选地,降维模块为主成分分析模块;
优选地,主成分分析模块包括:计算模块,用于计算每个SNP位点在不同样本间的协方差,形成协方差矩阵Tnxm,计算协方差矩阵的特征值和特征向量;第一排序选择模块,用于按特征值大小排序,当第n1+1个特征值大小相比第n1个特征值大小显著下降时,保留前n1个特征值的特征向量,n1为小于n的自然数;第二排序选择模块,用于对保留下来的每个特征值对应的特征向量里的元素按绝对值大小进行排序,并选择每个特征值上排序靠前的预定数量个元素,每个元素未排序前的位置对应SNP位点位置,从而获得总数为n2个SNP位点的SNP缩减集,其中,n1<=n2<n。
优选地,模型训练模块中,采用网格搜索的方法进行模型参数调节。
优选地,评估确定模块包括:评估模块,用于将SNP缩减集分为训练集和测试集,并通过对训练集进行五折交叉验证,并在测试集上输出AUC值的方式对初步模型进行评估;第一确定模块,用于当评估结果符合预设标准时,将初步模型作为预测模型;第二确定模块,用于当评估结果不符合预设标准时,返回初步模型,重复执行模型训练及模型参数调节,直至评估结果符合预设标准。
优选地,构建装置还包括:导出存储模块,用于对预测模型导出并存储到集群路径下,同时对预测模型返回的每个SNP位点的重要度进行排序,并将每个SNP位点的重要度导出并存储到集群路径下。
实施例7
本实施例提供了一种品种鉴定的装置,该装置包括:上述品种鉴定预测模型构建装置。
本实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种品种鉴定预测模型的构建方法。
本实施例还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种品种鉴定预测模型的构建方法。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
上述本申请实施例的顺序不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。
其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (17)

1.一种品种鉴定预测模型的构建方法,其特征在于,所述构建方法包括:
获取SNP数据集;
对所述SNP数据集进行预处理,得到SNP数据矩阵;
对所述SNP数据矩阵进行降维处理,得到SNP缩减集;
以所述SNP缩减集为特征值,以样本所属群体名作为目标值,进行模型训练及模型参数调节,获得初步模型;
对所述初步模型进行评估,得到所述品种鉴定的预测模型。
2.根据权利要求1所述的构建方法,其特征在于,对所述SNP数据集进行预处理,得到SNP数据矩阵包括:
去除所述SNP数据集中存在缺失和/或最小等位基因频率低于5%的SNP位点,得到有效SNP位点;
将m个样本的总计n个所述有效SNP位点的基因型进突变纯合行数字编码转化,得到所述SNP数据矩阵m×n;
其中,野生纯合基因型AA记为0,杂合基因型AB记为1,基因型BB记为2,m和n分别为自然数,优选为大于等于2的自然数。
3.根据权利要求1所述的构建方法,其特征在于,对所述SNP数据矩阵进行降维处理,得到SNP缩减集包括:
采用主成分分析法对所述SNP数据矩阵进行降维处理,得到所述SNP缩减集;
优选地,所述降维处理包括:
计算每个SNP位点在不同样本间的协方差,形成协方差矩阵Tnxm,计算所述协方差矩阵的特征值和特征向量;
按所述特征值大小排序,当第n1+1个特征值大小相比第n1个特征值大小显著下降时,保留前n1个所述特征值的所述特征向量,n1为小于n的自然数;
对保留下来的每个所述特征值对应的所述特征向量里的元素值按绝对值大小进行排序,并选择每个所述特征值上排序靠前的预定数量个元素,每个所述元素未排序前的位置对应SNP位点位置,从而获得总数为n2个SNP位点的所述SNP缩减集,其中,n1≤n2<n。
4.根据权利要求1所述的构建方法,其特征在于,在进行模型训练及调节模型参数的步骤中,采用网格搜索的方法进行调节。
5.根据权利要求1至4中任一项所述的构建方法,其特征在于,对所述初步模型进行评估,得到所述品种鉴定的预测模型包括:
将所述SNP缩减集分为训练集和测试集;
通过对所述训练集进行五折交叉验证,并在所述测试集上输出AUC值的方式对所述初步模型进行评估;
若评估结果符合预设标准,则将所述初步模型作为所述预测模型;
若评估结果不符合所述预设标准,则返回所述初步模型,重复执行所述模型训练及模型参数调节步骤,直至所述评估结果符合所述预设标准。
6.根据权利要求5所述的构建方法,其特征在于,所述构建方法在得到所述品种鉴定的预测模型的同时,还包括:
对所述预测模型导出并存储到集群路径下,同时对所述预测模型返回的每个SNP位点的重要度进行排序,并将每个SNP位点的重要度导出并存储到所述集群路径下。
7.一种品种鉴定的方法,其特征在于,所述方法包括:
将待鉴定样本的SNP数据集依次进行预处理及降维处理,得到待鉴定样本的SNP缩减集;
将所述待鉴定样本的SNP缩减集导入权利要求1至6中任一项所述的构建方法所构建的预测模型进行预测,从而获得待鉴定样本所属群体。
8.根据权利要求7所述的方法,其特征在于,
所述预处理按照权利要求2所述的构建方法中的预处理步骤进行;
所述降维处理按照权利要求3所述的构建方法中的降维处理步骤进行。
9.一种品种鉴定预测模型的构建装置,其特征在于,所述构建装置包括:
SNP获取模块,用于获取SNP数据集;
预处理模块,用于对所述SNP数据集进行预处理,得到SNP数据矩阵;
降维模块,用于对所述SNP数据矩阵进行降维处理,得到SNP缩减集;
模型训练模块,用于以所述SNP缩减集为特征值,以样本所属群体名作为目标值,进行模型训练及模型参数调节,获得初步模型;
评估确定模块,用于对所述初步模型进行评估,得到所述品种鉴定的预测模型。
10.根据权利要求9所述的构建装置,其特征在于,所述预处理模块包括:
位点筛选模块,用于去除所述SNP数据集中存在缺失和/或最小等位基因频率低于5%的SNP位点,得到有效SNP位点;
编码转化模块,用于将m个待鉴定样本的总计n个所述有效SNP位点的基因型进行数字编码转化,得到所述SNP数据矩阵m×n;
其中,野生纯合基因型AA记为0,杂合基因型AB记为1,突变纯合基因型BB记为2,m和n分别为自然数,优选为大于等于2的自然数。
11.根据权利要求9所述的构建装置,其特征在于,所述降维模块为主成分分析模块;
优选地,所述主成分分析模块包括:
计算模块,用于计算每个SNP位点在不同样本间的协方差,形成协方差矩阵Tnxm,计算所述协方差矩阵的特征值和特征向量;
第一排序选择模块,用于按所述特征值大小排序,当第n1+1个特征值大小相比第n1个特征值大小显著下降时,保留前n1个所述特征值的所述特征向量,n1为小于n的自然数;
第二排序选择模块,用于对保留下来的每个所述特征值对应的所述特征向量里的元素按绝对值大小进行排序,并选择每个所述特征值上排序靠前的预定数量个元素,每个所述元素未排序前的位置对应SNP位点位置,从而获得总数为n2个SNP位点的所述SNP缩减集,其中,n1≤n2<n。
12.根据权利要求9所述的构建装置,其特征在于,所述模型训练模块中,采用网格搜索的方法进行模型参数调节。
13.根据权利要求9至12中任一项所述的构建装置,其特征在于,所述评估确定模块包括:
评估模块,用于将所述SNP缩减集分为训练集和测试集,并通过对所述训练集进行五折交叉验证,并在所述测试集上输出AUC值的方式对所述初步模型进行评估;
第一确定模块,用于当评估结果符合预设标准时,将所述初步模型作为所述预测模型;
第二确定模块,用于当评估结果不符合所述预设标准时,返回所述初步模型,重复执行所述模型训练及模型参数调节,直至所述评估结果符合所述预设标准。
14.根据权利要求13所述的构建装置,其特征在于,所述构建装置还包括:
导出存储模块,用于对所述预测模型导出并存储到集群路径下,同时对所述预测模型返回的每个SNP位点的重要度进行排序,并将每个SNP位点的重要度导出并存储到所述集群路径下。
15.一种品种鉴定的装置,其特征在于,所述装置包括:权利要求9至14中任一项所述的构建装置。
16.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任一项所述品种鉴定预测模型的构建方法。
17.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任一项所述的品种鉴定预测模型的构建方法。
CN202011119585.0A 2020-10-19 2020-10-19 品种鉴定的方法、其预测模型的构建方法和装置 Pending CN112102880A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011119585.0A CN112102880A (zh) 2020-10-19 2020-10-19 品种鉴定的方法、其预测模型的构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011119585.0A CN112102880A (zh) 2020-10-19 2020-10-19 品种鉴定的方法、其预测模型的构建方法和装置

Publications (1)

Publication Number Publication Date
CN112102880A true CN112102880A (zh) 2020-12-18

Family

ID=73784681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011119585.0A Pending CN112102880A (zh) 2020-10-19 2020-10-19 品种鉴定的方法、其预测模型的构建方法和装置

Country Status (1)

Country Link
CN (1) CN112102880A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117558342A (zh) * 2023-10-19 2024-02-13 上海生物芯片有限公司 基于分子遗传标记多样性的品种鉴定分析系统、方法、终端及云平台

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050095629A1 (en) * 2003-09-10 2005-05-05 Nec Corporation Representative SNP selection method
CN102334123A (zh) * 2008-12-04 2012-01-25 先正达参股股份有限公司 候选基因的统计确认
CN104615912A (zh) * 2015-03-04 2015-05-13 中国农业科学院北京畜牧兽医研究所 一种改进的基于通路的全基因组关联分析算法
CN107419000A (zh) * 2016-05-24 2017-12-01 中国农业科学院作物科学研究所 一种基于单倍型取样预测大豆农艺性状表型的全基因选择方法及其应用
CN108920893A (zh) * 2018-09-06 2018-11-30 南京医科大学 一种基于人工智能的颅颌面骨骼和软组织形态预测方法
CN111721857A (zh) * 2020-05-27 2020-09-29 广东省农业科学院果树研究所 一种运用广泛靶向代谢组学技术鉴别荔枝品种的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050095629A1 (en) * 2003-09-10 2005-05-05 Nec Corporation Representative SNP selection method
CN102334123A (zh) * 2008-12-04 2012-01-25 先正达参股股份有限公司 候选基因的统计确认
CN104615912A (zh) * 2015-03-04 2015-05-13 中国农业科学院北京畜牧兽医研究所 一种改进的基于通路的全基因组关联分析算法
CN107419000A (zh) * 2016-05-24 2017-12-01 中国农业科学院作物科学研究所 一种基于单倍型取样预测大豆农艺性状表型的全基因选择方法及其应用
CN108920893A (zh) * 2018-09-06 2018-11-30 南京医科大学 一种基于人工智能的颅颌面骨骼和软组织形态预测方法
CN111721857A (zh) * 2020-05-27 2020-09-29 广东省农业科学院果树研究所 一种运用广泛靶向代谢组学技术鉴别荔枝品种的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
C. DIMAURO等: "The impact of the rank of marker variance-covariance matrix in principal component evaluation for genomic selection applications", 《JOURNAL OF ANIMAL BREEDING AND GENETICS》, vol. 128, no. 6, pages 440 - 445 *
刘月丽 等: "PCA与随机森林相结合筛选...位点——应用于羊的品种鉴别", 《计算机工程与应用》, vol. 54, no. 16, 24 August 2017 (2017-08-24), pages 235 - 240 *
祖培福: "基于主成分分析下候选基因关联检验的数学模型", 《数学的实践与认识》, vol. 40, no. 14, pages 45 - 51 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117558342A (zh) * 2023-10-19 2024-02-13 上海生物芯片有限公司 基于分子遗传标记多样性的品种鉴定分析系统、方法、终端及云平台

Similar Documents

Publication Publication Date Title
CN109196123B (zh) 用于水稻基因分型的snp分子标记组合及其应用
CN109545278B (zh) 一种鉴定植物lncRNA与基因互作的方法
CN106446597B (zh) 多物种特征选择及鉴定未知基因的方法
KR101936933B1 (ko) 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
CN110997936A (zh) 基于低深度基因组测序进行基因分型的方法、装置及其用途
CN112233722B (zh) 品种鉴定的方法、其预测模型的构建方法和装置
CN113823356B (zh) 一种甲基化位点识别方法及装置
CN116580773A (zh) 基于集成学习的育种跨代表型预测方法与系统、电子设备
CN110444253B (zh) 一种适用于混池基因定位的方法及系统
CN114038502A (zh) 一种基于基因交互网络聚类和群稀疏学习的表达数量性状与cnv关联的方法
CN117037905A (zh) 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质
CN112102880A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
CN116246705B (zh) 全基因组测序数据的分析方法和装置
Zhang et al. Inferring historical introgression with deep learning
CN108416189A (zh) 一种基于分子标记技术的农作物品种杂种优势模式鉴定方法
JP3936851B2 (ja) クラスタリング結果評価方法及びクラスタリング結果表示方法
Beharav et al. Predictive validity of discriminant analysis for genetic data
JP7166638B2 (ja) 多型検出法
Sottile et al. Penalized classification for optimal statistical selection of markers from high-throughput genotyping: application in sheep breeds
KR101911307B1 (ko) 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술
CN111863136A (zh) 一种多组学数据集间关联分析的集成系统和方法
CN115995262B (zh) 基于随机森林及lasso回归解析玉米遗传机理的方法
CN116646010B (zh) 人源性病毒检测方法及装置、设备、存储介质
CN117789893B (zh) 基于相关性分析的育种数据预测方法
US20230352116A1 (en) Group of single nucleotide polymorphism loci and method for identifying biogeographic origins of east asian populations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination