CN114854893B

CN114854893B - 一种与谷子抽穗期性状关联的SNPs标记及其鉴定方法

Info

Publication number: CN114854893B
Application number: CN202210498462.5A
Authority: CN
Inventors: 王海岗; 穆志新; 陈宏运; 刘心
Original assignee: Agricultural Gene Resources Research Center Of Shanxi Agricultural University
Current assignee: Agricultural Gene Resources Research Center Of Shanxi Agricultural University
Priority date: 2021-12-23
Filing date: 2022-05-09
Publication date: 2023-06-20
Anticipated expiration: 2042-05-09
Also published as: CN114854893A

Abstract

本发明属于分子生物学技术领域，为了提高谷子关键农艺性状的关联代表性和显著程度，解析重要农艺性状的分子机制，提供一种与谷子抽穗期关联的SNPs标记及其鉴定方法。所述SNPs标记位于9号染色体Millet_GLEAN_10005912编码区上；该位点在1101330 bp位置标记为非同义变换变异位点。本发明基于表型多样性的谷子代表群体，作物群体大小适宜、群体结构不明显、多样的基因型，结合高深度测序基因型数据和可靠的关联分析方法，优化目前影响关联分析的各项因素，提高谷子关键农艺性状的关联代表性和显著程度，解析重要农艺性状的分子机制，为谷子优良农艺性状的关联功能基因挖掘和基因组辅助育种奠定基础。

Description

一种与谷子抽穗期性状关联的SNPs标记及其鉴定方法

技术领域

本发明属于分子生物学技术领域，具体涉及一种与谷子抽穗期性状关联的SNPs标记及其鉴定方法。

背景技术

谷子起源于我国黄河流域的粮饲兼用作物，也是世界范围内最古老的禾谷类作物之一。我国是世界谷子的主产国，产量约占全球总量的80%，同时也是谷子遗传多样性最丰富的国家。作物种质资源是种质创新和生物学研究的物质基础。近些年来，随着谷子种质资源科学化、系统化收集工作的持续推进，以及高通量测序技术的不断发展，使人们更进一步对谷子重要农艺性状的分子机制研究，寻找与重要农艺性状显著关联的分子位点变得可能。

抽穗期是禾谷类作物重要的农艺性状，是决定作物结实粒数的关键时期，属于典型数量性状，其遗传基础较为复杂，一般认为由多基因共同控制。当前，抽穗期研究在水稻中报道较多，而对谷子而言，目前仅有少量报道。专利申请号CN 201110072772.2、CN201110072416.0和CN 201110072646.7公开报道了数个与谷子抽穗期基因连锁的分子标记及标记开发方法。专利申请号CN 201810339552.3公开报道了一种与谷子抽穗期性状相关的SNP标记及其检测引物和应用，标记位于第四号染色体10989324 bp – 12555548 bp的标记内。

然而，作物群体大小、群体结构、表型多样性、基因型多样性、测序方法及深度，关联软件及方法等这些因素，都会很大程度的影响关联精度和显著性。目前已报道的关联标记和研究方法主要受限于：1、技术发展的阶段，目前谷子参考基因组已获得很大的提升和更新；2、测序方法的发展，当前测序不限于SSR标记及简并测序，可以获得更高深度及更全的基因组测序数据；3、基因型多样性发展，自然群体的多样性较之杂交家系群体更高，结合表型可以有更好的代表性和关联效果。

基于上述原因，迫切需要寻找一种新的谷子抽穗期性状关联位点及其鉴定方法。

发明内容

本发明为了解决目前存在的技术不足，为了提高谷子关键农艺性状的关联代表性和显著程度，解析重要农艺性状的分子机制，提供一种与谷子抽穗期关联的SNPs标记及其鉴定方法。

为实现上述目的，本发明提供如下技术方案：

一种与谷子抽穗期关联的SNPs标记，所述SNPs标记位于9号染色体Millet_GLEAN_10005912编码区上；该位点在该基因第9个外显子区域内1101330 bp位置标记为非同义变换变异位点。

在标记区间1101330 bp位置处发生点突变G→C，为非同义变换点突变；所述SNPs位点的点突变频率与群体的抽穗期时间长短紧密相关。

所述基因Millet_GLEAN_10005912在水稻中的同源基因为CESA5基因，命名为SiCESA5，该基因的核苷酸序列如SEQ ID NO：1所示；该基因第9个外显子区域的核苷酸序列如SEQ ID NO：2所示。

鉴定所述的一种与谷子抽穗期关联的SNPs标记的方法，包括以下步骤：

1）多份代表性谷子样品DNA材料收集与高通量建库测序，获得测序数据；

2）单份测序样品数据的过滤、比对及变异检测，获得单份样品变异元数据；

3）多份变异数据集合并、质控及过滤，获得过滤后的变异数据集；

4）结合多份样品表型和基因型进行关联分析，获得关联分析结果；

5）显著关联区域样品基因型分析与位点变异注释鉴定。

步骤（1）中所述高通量测序技术平台为DNBSEQ平台，采用全基因组重测序WGS进行测序数据生产；测序深度≥10X-15X。

步骤（2）中数据过滤采用SOAPnuke软件或Trimmomatic软件；比对采用bwa软件进行分析，用张谷Setaria italica cv. Zhang gu, version 2.3作为参考基因组；比对和变异检测流程选用GATK、Sentieon DNAseq或samtools、bcftools流程，获得每份样品的遗传变异GVCF格式元数据。

所述比对和变异检测流程选用Sentieon DNAseq 流程。

步骤（3）中变异数据集合并采用Sentieon GVCFtyper流程，并进行基因分型，获得群体样品的初始变异数据集；过滤的具体方法为：（1）初始变异数据集采用GATK软件使用常规推荐的硬过滤标准进行变异数据集质量过滤，且只保留双等位基因变异位点，包含SNPs和Indels；（2）采用BCFtools软件或VCFtools软件，针对SNPs数据集，进行DP深度位点过滤，保留DP频率分布0.5%~99.5%之间，保留SNP位点缺失率≤10%，及MAF频率在≥5%的SNPs数据集。

步骤（4）中样品表型数据去除极端异常值，若样品表型仍不符合正态分布，进行数据标准化处理；关联分析采用Plink、EMMAX、GEMMA、GAPIT、TASSEL中的一种或多种进行关联分析。

步骤（5）中基因型分析用BCFtools软件或VCFtools软件分析；变异注释用snpEff软件或ANNOVA软件进行分析。

本发明谷子的品种原则上无限制，优选为山西省境内收集的谷子地方品种种质资源。谷子DNA材料的份数要求大于150份以上，优选300份以上。谷子DNA材料为采用常规DNA制备技术和等效方案制备的DNA样品，满足常规二代高通量建库测序的样品质量要求。

与现有技术相比，本发明的有益效果是：（1）采用更新的参考基因组，改善比对准确性和完整性；（2）采用10-15X以上的全基因组重测序，较之简并测序位点更多更全；（3）采用大规模的自然群体样品，改善群体基因型多样性和表型多样性分布。本发明整体上改善了谷子抽穗期关联分析受影响的群体大小、测序数据深度和完整性、群体代表性等影响因素，可提高关联精度和显著性，补充新的谷子抽穗期关联的位点及其鉴定方法应用。

附图说明

图1为谷子抽穗期表型数据正态化分布图；图中：A为表型数据正态化处理后的QQ图；B为表型数据正态化处理后的直方图和密度分布图；C为表型数据正态化处理后的Shapiro-Wilk检验结果；

图2为基于SNPs标记对谷子抽穗期关联分析的曼哈顿图和QQ图；图中：A为曼哈顿图；B为QQ图；

图3为染色体chr9:1101330位置基因型分布统计图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，所有在此使用的技术和科学术语，和本发明所属领域内的技术人员所通常理解的意思相同，在此公开引用及他们引用的材料都将以引用的方式被并入。

本领域技术人员意识到的通过常规实验就能了解到的描述的特定实施方案的等同技术，都将包含在本申请中。

下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的仪器设备，如无特殊说明，均为实验室常规仪器设备；下述实施例中所用的实验材料，如无特殊说明，均为由常规生化试剂商店购买得到的。

与谷子抽穗期关联的SNPs标记，所述SNPs标记位于9号染色体Millet_GLEAN_10005912编码区上；该位点在1101330 bp位置属于一个非同义变换变异位点。

该基因Millet_GLEAN_10005912在水稻中的同源基因为CESA5基因，可命名为SiCESA5。

鉴定所述与谷子抽穗期关联的SNPs标记的方法，包括以下步骤：

（1）谷子DNA样品收集与测序

通过多年的科学系统收集6000余份谷子品种，构建了山西省谷子资源初选核心种质，筛选出609份代表性的地方品种和少量育成品种。所有研究材料均由山西农业大学农业基因资源研究中心系统收集，于2019年在东阳试验示范基地统一种植，观察记录各样品的抽穗时间，记录不同种质抽穗期在47~86天之间，平均抽穗期为67.6天，标准差SD为5.8天。所采用的品种来源如表1所示。

表1

采集大田栽培的嫩叶组织，通过常规CTAB法的DNA提取试剂盒制备出合格的谷子DNA样品用于测序。针对609份质控合格的谷子DNA样品，构建PE100标准化全基因组文库，并基于DNBseq^TM高通量测序平台进行全基因组测序。谷子样品共产出测序数据11.8 Tb，平均每份测序数据量为19.8Gb。谷子样品整体测序数据量和质量良好。

（2）测序数据过滤、比对及变异检测

每份样品测序下机的数据，经Trimmomatic（version 0.38）软件过滤去除接头及低质量数据。然后采用Sentieon DNAseq 流程（http://www.sentieon.com, version:sentieon-genomics-201911）比对至谷子参考基因组（Setaria italica cv. Zhang gu,version 2.3），比对数据经重新排序及去除PCR重复后，进行比对统计。采用SentieonHaplotyper分析模块进行遗传变异检测，最终获得每份样品的遗传变异GVCF数据，该数据是后续构建群体变异数据集的基础数据。

比对统计发现，所有谷子样品比对平均reads mapping 率为93.6%~98.2%，基因组覆盖率范围为94.8%~98.6%，比对深度为19 X~190X之间。

（3）变异数据集合并、质控及过滤

采用Sentieon GVCFtyper流程合并所有样品的GVCF变异数据，并进行基因分型，获得群体样品的初始变异数据集。初始变异数据集采用GATK软件 (version 4.1.2.0)使用常规推荐的硬过滤标准进行变异数据集质量过滤，且只保留Bia-alleles变异位点，获得9,907,770个 SNPs位点。进一步采用BCFtools软件（version 1.9）进行DP深度位点过滤，只保留SNP位点缺失率10%以下，及MAF频率在5%以上的SNPs数据集，共保留3,160,066个SNPs位点，用于谷子功能关联位点挖掘分析。

（4）谷子抽穗期表型处理与关联分析

收集谷子品种抽穗期的表型记录数据，去除极端异常值，及数据标准化处理后，样品抽穗期表型数据正态化分布图如图1所示，显然样品表型符合正态分布。结合前述步骤获得的约3.2M SNPs数据集，采用EMMAX软件（version 20120210）进行全基因组关联分析。

采用GCTA软件（version 1.93.0beta）进行谷子群体主成分分析，获得前10个主成分因子矩阵结果；采用EMMAX软件（version 20120210）进行群体遗传亲缘关系矩阵分析，获取aBN亲缘关系矩阵结果；使用谷子群体主成分分析的前10个主成分因子和Kinship遗传亲缘关系矩阵作为关联协变量，以Bonferroni correction定义关联显著性阈值（P=0.05/n ,n为用于关联分析的SNPs数量）。关联分析结果如图2所示，结果显示，与谷子抽穗期农艺性状关联最显著的信号峰位于在9号染色体1Mb区间附近。

5）显著关联区域样品基因型分析与位点变异注释鉴定

采用ANNOVA软件对变异位点进行了变异注释，结合显著关联信号峰区间及变异注释结果，筛选获得候选关联基因Millet_GLEAN_10005912。在该基因区间第9个外显子区域内1101330 bp位置处发生了点突变(G→C)，经注释为非同义变换点突变，该位点突变导致了氨基酸编码改变，也由赖氨酸（Lys）替换为天冬酰胺(Asn)。通过该位点的基因型分布统计，染色体chr9:1101330位置基因型分布统计结果如图3所示，结果可知，鉴定出该SNPs位点的点突变频率与群体的抽穗期时间长短呈紧密相关趋势。

本发明与现有技术相比，采用更新的参考基因组，改善比对准确性和完整性；同时，采用10-15X以上的全基因组重测序，较之简并测序位点更多更全；通过采用大规模的自然群体样品，改善群体基因型多样性和表型多样性分布。因此，本发明整体上改善了谷子抽穗期关联分析受影响的群体大小、测序数据深度和完整性、群体代表性等影响因素，可提高关联精度和显著性，补充新的谷子抽穗期关联的位点及其鉴定方法应用。

上面对本专利的较佳实施方式作了详细说明，但是本专利并不限于上述实施方式，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本专利宗旨的前提下做出各种变化。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

序列表

<110> 山西农业大学农业基因资源研究中心

<120> 一种与谷子抽穗期性状关联的SNPs标记及其鉴定方法

<150> 2021115882086

<151> 2021-12-23

<160> 2

<170> SIPOSequenceListing 1.0

<210> 1

<211> 4674

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

atggcgagcc aggggtacgt gcgcctcgcc gacctcgctg gcgggggttc cctgctctcc 60

ggcgcggggg cggtgctgat ttttgtttgt tttgctttgc agccgaagcc gatgaaccag 120

cagaacgggc aggtgtgcca gatttgcggc gacgacgtgg ggctcaaccc cgacggggaa 180

cccttcgtcg cctgcaacga gtgcgccttc cccatctgcc gggactgcta cgagtacgag 240

cgccgcgagg gcacgcagaa ctgcccccag tgcaagaccc gcttcaagcg cctcaagggc 300

aagtccctca cccgcaatgc agcaaccgat cgctcgccga ttttgccgga gtcctgtctc 360

acgtctcgcg gggattccgt tgttgttgca gggtgcgcgc gtgtcccggg ggatgaggag 420

gaggacggcg tcgatgacct ggagaacgag ttcaactggt cggacaagca cgactcgcag 480

tatgtcgccg agtccatact ccacgcccac atgagctacg gccgcggcgc cgacttcgac 540

ggcgtgccgc agcccttcca gcccatccca aatgttcccc tcctcaccaa cgggcagatg 600

gtactggaaa atcccacgcc gctgcattgc tcctcctcct cggactttgc tttacctgag 660

cgctgaattg ctttgtgctt ccaggttgat gacatcccgc cggagcagca cgcccttgtg 720

ccgtcattca tgggcggcgg ggggaagagg attcaccctc ttccatacgc ggatccgaac 780

cttcctggtg cgtattctga tcatcagcgg ctagcattca gttgccatgg tacctcctga 840

atacaatcaa ttaatagctt ctgcgacttg cagtgcaacc aaggtctatg gacccatcca 900

aggatctcgc tgcgtatggc tacgggagtg tagcatggaa ggagaggatg gagagctgga 960

agcagaagca ggagaggatg caccagatga ggaacgacgg aggtggcaac gatgatggtg 1020

atgatgcaga tctaccactg tatgaccctg aaacttagct gacctctatt agctggtacc 1080

tagctgtcat gctattttgc acagtggatt ggtcaacttt gaaattttat aatctggccc 1140

atttaaaaac taaaaaacta gtagcatatg agtttgtttt tgtgcatgtt atagaactct 1200

tccatttgct tagcaagatg aaggatggaa ttgcataaac agacactata tcatacggtt 1260

tagaaaataa atactctttt tctgtacttg tatctctgac tggatggaaa aaactgtcca 1320

tctggtattt ttttaataat agatatgttg ttctcctttt tgcaaaacat tctactggac 1380

tcaaacacca actatttctt gttttttttt ctcttaccag aatggatgaa gctaggcaac 1440

cattgtccag aaagattcca cttccttcaa gcctgatcaa cccctataga atgattataa 1500

taattcggct agtggttttg gggttcttct tccactaccg tgtgatgcat ccggtgcctg 1560

atgcattcgc tctatggctc atatctgtga tctgtgaaat atggtttgcc atgtcttgga 1620

ttcttgatca gtttccaaag tggtttccta ttgagaggga aacctatctt gaccggttga 1680

ctttgaggtt ggttactggc ttactgctgc cacctagtat tacttgcctc ctctcttctt 1740

tgctgatttt ttttggtaat ttattgtctt tctaggtttg acaaggaagg gcagccttct 1800

caactcgccc cagttgattt ctttgtcagt acggttgatc ccttgaagga acctccgttg 1860

gtcacagcaa atactgttct atctatcctg gcagtggatt atccagttga taaggtttct 1920

tgctatgttt ctgatgatgg tgctgccatg ctgacatttg aagcactgtc tgaaacatcc 1980

gaatttgcaa agaaatgggt tcctttctgc aaaaggtaca gtattgagcc tcgtgctcca 2040

gaatggtact tccaacagaa gatagactac ctgaaagata aggtggcaca gaactttgtt 2100

agggagcgga gagcaatgaa ggtgaattac tttgtatctt ttgaacccgt tgctacagtc 2160

ctttatctgg taagcgttgt gctaatttag ggcaatctta ttattttttc agagagagta 2220

tgaggagttc aaggtcagaa tcaatgcctt ggttgctaaa gcccaaaagg taccggagga 2280

aggatggaca atgcaggatg gaactccatg gcctggaaac aacgttcgtg atcatcctgg 2340

aatgattcag gtatgctttg agtgtcatgg aattaactgt acatgtgatg ggatgtttcg 2400

atggccattt tttctttcac tttcacccca ataaaaaagt ttcaattttc tcgaataggt 2460

cttccttggt caaagcggtg gccatgatgt ggaaggaaat gagctgcctc gattggttta 2520

tgtttcaaga gaaaaacggc caggctacaa ccatcataag aaggctggtg ctatgaatgc 2580

attggtaaat ataccttgat tgatgtgtct actctcactc ctctatgcat tgtagaagca 2640

taatttgggt ttcttattcc ttgttttggc tcctatgaca ggtccgagtc tctgctgtac 2700

taactaatgc accatatttg ctgaacttgg attgtgatca ctacatcaat aacagcaagg 2760

ctattaagga agcaatgtgt tttatgatgg atcctttgct aggaaagaaa gtttgctatg 2820

tgcagtttcc tcaaaggttc gatgggattg atcgtcatga tcgatacgcc aaccggaatg 2880

ttgtcttttt cgatgtaaga tccgtcatcc aaatttatat gaagttctct tgtctagctt 2940

gagacgttca acttagaatg cacatttcta acatttcatt tgtgcagatc aacatgaaag 3000

gtttggatgg tattcaaggc cccatttatg tcggtactgg atgtgtcttc agaagacagg 3060

cattatacgg ctatgatgcc cccaaaacaa agaagccacc atcgaggact tgcaactgct 3120

ggccaaagtg gtgcatctgc tgttgctgtt ttggtaacag gaaaaccaag aagaagacca 3180

agacctcaaa gcctaaattc gagaagctaa agaaactttt caagaaaaag gaaaatcaag 3240

cccctgctta tgctcttggt gaaattgacg aagctgctcc aggtatcaca taacctccaa 3300

agagaacatc atggtttttc tgtaggcatc cttaataata tctaacattg caatttcttg 3360

gcaggagcgg aaaacgaaaa ggctagtatt gtaaatcaac agaagttaga aaagaaattt 3420

ggccagtctt cagtttttgt tgcttccaca cttcttgaga atggtgggac ccttaagagt 3480

gccagtccag cttctcttct aaaggaagct atacatgtca tcagttgcgg ctacgaggac 3540

aagacaggct gggggaaaga tgtaagtctg cagcttgttt gttgtttcta tatgttggtt 3600

gaattgtcga aataatgatt acatactcaa tcatatgttt tgttacagat tggttggatt 3660

tatggatcag ttacagaaga tattcttact gggtttaaga tgcactgcca tggttggcga 3720

tcaatttact gcatacctaa acgggccgcc ttcaaaggtt ctgcacctct caatctttct 3780

gatcgtcttc accaggttct tcggtgggct cttggttcaa ttgaaatttt cttcagcaac 3840

cattgtcctc tttggtatgg gtatggtggt gggctaaaat ttctggaaag attttcctac 3900

attaactcca tcgtgtaccc ttggacatcc atcccactcc tggcctattg cacattgcct 3960

gccatctgct tgctgacagg gaaatttatt acacctgagg taaagtttga aaactgtaat 4020

tctattatat tgtgttaaac tgcggaagat tatgaacctt acgtttatca tccttttcat 4080

ctcctgcagc ttaccaatgt tgccagcctc tggttcatgt cactttttat ctgcattttt 4140

attacgggta tcctggaaat gagatggagt ggtgtaggta tcgatgattg gtggagaaat 4200

gagcagtttt gggtcattgg aggtgtgtct tcacatctct ttgccgtgtt ccaaggactt 4260

ctcaaggtca tagctggtat agacacgagc ttcactgtga catcaaaggg tggagatgat 4320

gaggagttct cagagctgta cacattcaaa tggacgaccc ttcttatacc tccaaccact 4380

ctgctcctct tgaacttcat tggagtggta gccggtattt ccaatgcgat caacaacgga 4440

tatgaatcct ggggacccct cttcgggaag ctcttctttg cattttgggt gattgtccat 4500

ctgtacccgt tcctcaaggg tttggttggg aggcagaaca ggacgccaac cattgtcatt 4560

gtctggtcca tcctcttggc ttcaatcttc tcgctgctct gggtccggat cgatcctttc 4620

cttgcgaaga acgatggtcc cctcttggag gagtgtggtt tggattgcaa ctag 4674

<210> 2

<211> 295

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

atcaacatga aaggtttgga tggtattcaa ggccccattt atgtcggtac tggatgtgtc 60

ttcagaagac aggcattata cggctatgat gcccccaaaa caaagaagcc accatcgagg 120

acttgcaact gctggccaaa gtggtgcatc tgctgttgct gttttggtaa caggaaaacc 180

aagaagaaga ccaagacctc aaagcctaaa ttcgagaagc taaagaaact tttcaagaaa 240

aaggaaaatc aagcccctgc ttatgctctt ggtgaaattg acgaagctgc tccag 295

Claims

1.一种SNPs分子标记在谷子群体抽穗期关联分析中的应用，其特征在于：所述SNPs分子标记位于9号染色体Millet_GLEAN_10005912编码区上；该位点在1101330 bp位置属于一个非同义变换变异位点；在标记区间1101330 bp位置处发生点突变G→C，为非同义变换点突变；SNPs分子标记的点突变频率与群体的抽穗期时间长短紧密相关；基因Millet_GLEAN_10005912的核苷酸序列如SEQ ID NO：1所示；该基因Millet_GLEAN_10005912在水稻中的同源基因为CESA5基因，命名为SiCESA5。

2.根据权利要求1所述的应用，其特征在于：鉴定所述SNPs分子标记的方法包括以下步骤：

5）结合多份样品表型和基因型进行关联分析，获得关联分析结果；

3）显著关联区域样品基因型分析与位点变异注释鉴定。

3.根据权利要求2所述的应用，其特征在于：步骤（1）中所述高通量测序技术平台为DNBSEQ平台，采用全基因组重测序WGS进行测序数据生产；测序深度≥10X-15X。

4.根据权利要求2所述的应用，其特征在于：步骤（2）中数据过滤采用SOAPnuke软件或Trimmomatic软件；比对采用bwa软件进行分析，用张谷Setariaitalicacv. Zhang gu,version 2.3作为参考基因组；比对和变异检测流程选用GATK、SentieonDNAseq或samtools、bcftools流程，获得每份样品的遗传变异GVCF格式元数据。

5.根据权利要求4所述的应用，其特征在于：所述比对和变异检测流程选用SentieonDNAseq流程。

6.根据权利要求2所述的应用，其特征在于：步骤（3）中变异数据集合并采用SentieonGVCFtyper流程，并进行基因分型，获得群体样品的初始变异数据集；过滤的具体方法为：（1）初始变异数据集采用GATK软件使用常规推荐的硬过滤标准进行变异数据集质量过滤，且只保留双等位基因变异位点，包含SNPs和Indels；（2）采用BCFtools软件或VCFtools软件，针对SNPs数据集，进行DP深度位点过滤，保留DP频率分布0.5%~99.5%之间，保留SNP位点缺失率≤10%，及MAF频率在≥5%的SNPs数据集。

7.根据权利要求2所述的应用，其特征在于：步骤（4）中样品表型数据去除极端异常值，若样品表型仍不符合正态分布，进行数据标准化处理；关联分析采用Plink、EMMAX、GEMMA、GAPIT、TASSEL中的一种或多种进行关联分析。

8.根据权利要求2所述的应用，其特征在于：步骤（5）中基因型分析用BCFtools软件或VCFtools软件分析；变异注释用snpEff软件或ANNOVA软件进行分析。