CN113005215B

CN113005215B - 一种与杨树木材产量相关的单体型分子标记及其应用

Info

Publication number: CN113005215B
Application number: CN202110217748.7A
Authority: CN
Inventors: 杜庆章; 吕晨飞; 李连政; 周嘉旋; 卢文杰; 张德强
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-07-26
Anticipated expiration: 2041-02-26
Also published as: CN113005215A

Abstract

本发明公开了一种与杨树木材产量相关的单体型分子标记，所述单体型分子标记由InDel1、InDel2、InDel3、InDel4和InDel5共五个标记组合而成，所述单体型分子标记包括单体型I和单体型II，所述单体型分子标记类型为I的杨树个体，相较于单体型分子标记类型为II的杨树个体，具有较大的树高、胸径和材积。本发明提供的与木材产量相关的单体型分子标记，不受杨树的生长阶段的限制，可在杨树幼苗期实现优良品种的早期选育，显著促进杨树的育种进程。本发明还公开了用于检测上述单体型分子标记的引物对、试剂盒、检测方法及应用，以及杨树育种方法，为杨树分子标记辅助选择育种提供了有效手段。

Description

一种与杨树木材产量相关的单体型分子标记及其应用

技术领域

本发明属于树木分子育种技术领域，具体涉及基于多个插入缺失位点形成的单体型预测杨树生长及提高木材产量的方法、引物组、试剂盒及其应用。

背景技术

木材作为地球最丰富的可再生资源，对人类的生产生活具有重要的工业与经济价值。随着经济的迅猛发展，对木材和纸张的产量及其质量的要求越来越高，这就需要有足够的优质木材纤维工业原料。但我国森林资源严重短缺，森林覆盖率仅为20.36％，国内所需木材原料大多依赖国外进口，木材资源的战略安全及国家林木育种工程面临严峻挑战。“林以种为本，种以质为先”，常规的杂交育种策略虽为国家的速生丰产林建设提供了大批良种，但由于树木高度杂合且育种周期长等因素，严重阻碍了林木的遗传改良进程，当前林业老品种的生产能力难以满足当今工业发展对木材产量与质量的需求。

木本植物通过光合作用可将陆地生态系统约20％的碳物质转化为有机物并贮存于次生木质部。杨树作为我国重要的用材树种，具有速生、优质、适应性强等特点，同时具有生长迅速、轮伐期短、易于进行种间杂交及无性繁殖、便于遗传操作等优点，在北半球被认为是最具有前途的纤维质能源树种。但是，杨树为多年生树种，以传统的杂交育种方式进行遗传改良耗费时间较长。利用基因组学的方法筛选出提高杨树生长、木材产量的分子标记，可以有效改善上述缺点。

单核苷酸多态性(SNP)标记是指由基因组单核苷酸变异引起的DNA序列多态性，包括碱基转换、颠换、单碱基插入或缺失等，被公认为是最新的第三代DNA分子标记。现有技术中，多采用单个分子标记为中心的关联分析方法对杨树进行遗传改良。而木材生长性能属于复杂多基因调控的数量性状，受到了多基因、多层次的协同调控作用，其遗传机制非常复杂，因此，仅对个别或少数基因进行遗传转化的研究是远远不够的。与单标记相比，插入缺失(InDel)位点对个体的调控效力更高，而单体型作为具有紧密连锁关系的线性等位位点组合，不易受基因重组的影响，在分离重组中作为一个整体单元遗传，在关联作图中具有更大的应用潜力。

目前，杨树分子育种实践中缺少功能明确的、效应显著的、可直接用于育种的稳定单体型分子标记，因此，有必要发掘与杨树生长及木材性状相关的、效应巨大的、准确的单体型分子标记，以促进杨树的遗传改良。

发明内容

为了克服上述问题，本发明人进行了锐意研究，利用WGCNA定位木材生长形成关键调控网络，在提取网络内基因后进行候选基因关联分析，大大提高了解析复杂数量性状遗传变异的分辨率和效率，同时能够快速筛选出调控木材生长的主效关键基因，并利用数个高关联信号的插入缺失位点进行单体型构建，获得了能够显著影响杨树树高、胸径和材积的功能标记。此外，还提供了用于检测所述单体型标记的引物对、试剂盒、检测方法及用途等，能够早期、快速、精准的预测杨树的木材产量，实现幼苗期的优良品种选择，从而完成了本发明。

具体来说，本发明的目的在于提供以下方面：

第一方面，提供了一种与杨树木材产量相关的单体型分子标记，所述单体型分子标记由InDel1、InDel2、InDel3、InDel4和InDel5共五个标记组合而成，

所述InDel1位点位于杨树SMT2基因上游第1538位，其多态性表现为45个碱基的插入/缺失，所述45个碱基的核苷酸序列如SEQ ID NO：1所示；

所述InDel2位点位于杨树SMT2基因上游第1488位，其多态性表现为3个碱基的插入/缺失，所述3个碱基的核苷酸序列如SEQ ID NO：2所示；

所述InDel3位点位于杨树SMT2基因上游第1449位，其多态性表现为4个碱基的插入/缺失，所述4个碱基的核苷酸序列如SEQ ID NO：3所示；

所述InDel4位点位于杨树SMT2基因上游第1438位，其多态性表现为8个碱基的插入/缺失，所述8个碱基的核苷酸序列如SEQ ID NO：4所示；

所述InDel5位点位于杨树SMT2基因上游第1427位，其多态性表现为7个碱基的插入/缺失，所述7个碱基的核苷酸序列如SEQ ID NO：5所示。

第二方面，提供了一种用于检测第一方面所述的单体型分子标记的引物对，所述引物对包括正向引物P1和反向引物P2，所述正向引物P1具有如SEQ ID NO：6所示的核苷酸序列，所述反向引物P2具有如SEQ ID NO：7所示的核苷酸序列。

第三方面，提供了一种用于检测第一方面所述的单体型分子标记的试剂盒，所述试剂盒包括第二方面所述的引物对。

第四方面，提供了第一方面所述的单体型分子标记、第二方面所述的引物对或第三方面所述的试剂盒在杨树选育中的用途。

第五方面，提供了一种第一方面所述的单体型分子标记的获得方法，所述方法包括以下步骤：

步骤1，选择群体，测定木材产量相关的表型性状；

步骤2，提取步骤1中群体的RNA，进行基因转录本表达水平定量分析；

步骤3，获得与木材形成相关的基因；

步骤4，获得与木材形成相关的所有InDel位点；

步骤5，获得与树高、胸径、材积显著关联的InDel位点及其所在的基因。

第六方面，提供了一种检测杨树木材产量的方法，所述方法包括检测杨树的第一方面所述单体型为单体型I还是单体型II的步骤。

第七方面，提供了一种杨树辅助育种的方法，所述方法包括检测杨树的第一方面所述单体型分子标记的类型，以确定待测杨树树高、胸径、材积大小，进而确定木材产量的步骤。

本发明所具有的有益效果包括：

(1)本发明提供的与杨树木材产量相关的单体型分子标记，不受杨树的生长阶段的限制，可在杨树幼苗期实现优良品种的早期选育，显著促进杨树的育种进程；

(2)本发明提供的与杨树木材产量相关的单体型分子标记，基于多个InDel位点构成，相较于单标记分子育种，育种效率更高，时间更短，更精准；

(3)本发明提供的与杨树木材产量相关的单体型分子标记的获得方法，其利用WGCNA定位木材生长形成关键调控网络，在提取网络内基因后进行候选基因关联分析，大大提高了解析复杂数量性状遗传变异的分辨率和效率；

(4)本发明提供的杨树辅助育种的方法，适用范围广，具有广阔的应用前景，能够取得优异的经济价值。

附图说明

图1示出本发明实施例1中单体型I和单体型II对毛白杨树高的单体型效应图；

图2示出本发明实施例1中单体型I和单体型II对毛白杨胸径的单体型效应图；

图3示出本发明实施例1中单体型I和单体型II对毛白杨材积的单体型效应图。

具体实施方式

下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

在林木中，传统的直接多性状选择育种在改善木材成分和结构性状方面是一种昂贵、费力和缓慢的策略，主要是因为它们的世代间隔长、数量遗传复杂和基因组杂合度高。利用分子标记辅助育种能够大大所缩短育种时间，提高育种效率。本发明人发现，对在加性、显性和上位性条件下控制木材生长的等位基因和单倍型进行测定，可以颠覆对传统多性状选择和经典分子标记辅助选择(MAS)育种的认识。与以往小效应SNP标记相比，关联分析捕获的主效应InDel和单体型标记可以可靠地检测多年生树木苗期或幼期的优良品种。

因此，本发明的第一方面，提供了一种与杨树木材产量相关的单体型分子标记，所述单体型分子标记由InDel1、InDel2、InDel3、InDel4和InDel5共五个标记组合而成。

优选地，所述木材产量包括的性状为杨树的树高、胸径和材积。

根据本发明一种优选的实施方式，所述InDel1位点位于杨树SMT2基因上游第1538位，其多态性表现为45个碱基的插入/缺失，所述45个碱基的核苷酸序列如SEQ ID NO：1所示；

其中，所述杨树SMT2基因功能类似于S-腺苷甲硫氨酸甾醇甲基转移酶(S-adenosyl-methionine-sterol-C-methyltransferase)，其拟南芥同源基因AT5G13710.1(SMT1)与植物甾醇的合成有关，并在之前研究中证实参与植物细胞分裂、胚胎发育和植物的生长发育。因此，在杨树中鉴定到该基因的同源基因并基于该基因构建用于分子育种的单体型，在筛选高产杨树育种的工作中有巨大作用。

在进一步优选的实施方式中，所述单体型分子标记包括单体型I和单体型II，

其中，所述单体型I为InDel1位点的多态性表现为SEQ ID NO：1所示的核苷酸序列的插入，InDel2位点的多态性表现为SEQ ID NO：2所示的核苷酸序列的插入，InDel3位点的多态性表现为SEQ ID NO：3所示的核苷酸序列的插入，InDel4位点的多态性表现为SEQ IDNO：4所示的核苷酸序列的插入，且InDel5位点的多态性表现为SEQ ID NO：5所示的核苷酸序列的插入；

所述单体型II为InDel 1位点的多态性表现为SEQ ID NO：1所示的核苷酸序列的缺失，InDel2位点的多态性表现为SEQ ID NO：2所示的核苷酸序列的缺失，InDel3位点的多态性表现为SEQ ID NO：3所示的核苷酸序列的缺失，InDel4位点的多态性表现为SEQ IDNO：4所示的核苷酸序列的缺失，且InDel5位点的多态性表现为SEQ ID NO：5所示的核苷酸序列的缺失。

优选地，所述单体型I为TAATTGTGCCGGTTTGTTATTGTGTTTTTCAGTTGTGTTTTTGTTG-TTAA-TATGG-AAATTATTT-ACACATTT，单体型II为T-T-T-A-A。

在更进一步优选的实施方式中，所述单体型分子标记类型为I的杨树个体，即在InDel1位点具有SEQ ID NO：1所示的核苷酸序列、在InDel2位点具有SEQ ID NO：2所示的核苷酸序列、在InDel3位点具有SEQ ID NO：3所示的核苷酸序列、在InDel4位点具有SEQ IDNO：4所示的核苷酸序列、且在InDel5位点具有SEQ ID NO：5所示的核苷酸序列的杨树个体，同时在各分子标记位点纯合的杨树个体，其树高、胸径和材积均最大；

所述单体型分子标记类型为II的杨树个体，即在InDel1位点缺失SEQ ID NO：1所示的核苷酸序列、在InDel2位点缺失SEQ ID NO：2所示的核苷酸序列、在InDel3位点缺失SEQ ID NO：3所示的核苷酸序列、在InDel4位点缺失SEQ ID NO：4所示的核苷酸序列、且在InDel5位点缺失SEQ ID NO：5所示的核苷酸序列的杨树个体，同时在各分子标记位点纯合的杨树个体，其树高、胸径和材积均最小。

本发明人研究发现，通过检测杨树基因组DNA是否具有上述分子标记，能够有效地确定其树高、胸径和材积大小。具体地，如上所述，单体型类型为I的个体，即InDel1～InDel5位点分别具有SEQ ID NO：1～SEQ ID NO：5所示的核苷酸序列且在各位点纯合的个体，其树高、胸径和材积均最大；单体型类型为II的个体，即InDel1～InDel5位点分别缺失SEQ ID NO：1～SEQ ID NO：5所示的核苷酸序列且在各位点纯合的个体，其树高、胸径和材积均最小。从而，检测到待测杨树为单体型I时，则能够确定其树高、胸径和材积较大，而当检测到待测杨树为单体型II时，则能够确定其树高、胸径和材积较小。

当采用针对上述单体型分子标记的特异性引物对待测杨树基因组DNA进行PCR扩增和凝胶电泳检测时，通过PCR产物进行测序，能够有效地确定待测杨树的树高、胸径和材积大小，具体地，当测序结果为单体型I时，可以确定待测杨树的树高、胸径和材积最大；当测序结果序列为单体型II时，可以确定待测杨树的树高、胸径和材积最小。

本发明的第二方面，提供了一种用于检测第一方面所述单体型分子标记的引物对，所述引物对包括正向引物P1和反向引物P2，所述正向引物P1具有如SEQ ID NO：6所示的核苷酸序列，所述反向引物P2具有如SEQ ID NO：7所示的核苷酸序列。

本发明人研究发现，利用上述引物对能够有效地对待测杨树上述与树高、胸径、材积性状相关的单体型分子标记所在的片段进行PCR扩增，进而通过直接测序或电泳能够有效实现对该分子标记的检测，确定待测杨树是否具有该分子标记。因此，上述用于检测分子标记的引物对，能够有效用于杨树的分子标记辅助育种，进而能够辅助早期实现短时间、低成本、高准确性地选育杨树木材产量高的优良品种。

其中，在SEQ ID NO：6和SEQ ID NO：7所示序列的5'端和3'端分别增加1～20个碱基并能得到基本相同DNA片段(上游和下游引物之间的DNA序列相同)的引物对，均包括在本发明的引物对中。

本发明的第三方面，提供了一种用于检测第一方面所述单体型分子标记的试剂盒，所述试剂盒包括第二方面所述的引物对。

优选地，所述试剂盒还包括PCR扩增试剂，所述PCR扩增试剂包括PCR缓冲液、dNTP和DNA聚合酶。

本发明所述的试剂盒，能够有效用于杨树的分子标记辅助育种，以辅助早期实现短时间、低成本、高准确性地选育杨树优良品种。

本发明的第四方面，提供了第一方面所述的单体型分子标记、第二方面所述的引物对或第三方面所述的试剂盒在杨树选育中的用途，优选在选育木材产量高的杨树品种中的用途，更优选在选育树高、胸径及材积均大的杨树品种中的用途。

本发明的第五方面，提供了一种第一方面所述的单体型分子标记的获得方法，包括以下步骤：

步骤1，选择群体，测定木材产量相关的表型性状。

在本发明中，优选选取15年生的435株毛白杨个体组成的种质资源群体作为获得分子标记的分析群体。

优选地，所述木材产量相关的表型性状包括树高、胸径和材积。

其中，树高和胸径采用皮尺进行测量，材积＝(基径/2)²×树高，材积优选按照文献“Bradshaw,H.D.,and Stettler,R.F.1995.Molecular genetics ofgrowth anddevelopment inPopulus.IV.Mapping QTLs withlarge effects on growth,form,andphenology traits inaforesttree.Genetics,139:963–973”中所述方法进行测定。

步骤2，提取步骤1中群体的RNA，进行基因转录本表达水平定量分析。

其中，步骤2包括以下子步骤：

步骤2-1，提取群体中每株个体的RNA，建立RNA单链特异性文库。

其中，采用现有技术中常用方法或试剂盒法提取个体的RNA，如TheQiagenRNAeasy kit(Qiagen China,Shanghai,China)试剂盒。

在本发明中，对建立RNA单链特异性文库的方法不做特别限定，可以采用现有技术中常用的方法进行。

例如，采用超微量分光光度计(NanoDrop 1000，ND1000)和安捷伦2100生物分析仪(Agilent Bioanalyzer 2100)对样品RNA进行评估；再利用

的

UltraTM RNA文库制备试剂盒(NEB，美国)建立RNA单链特异性文库。

步骤2-2，对RNA单链特异性文库进行重测序。

在本发明中，对RNA单链特异性文库进行重测序的方法不做特别限定，可以采用现有技术中常用的方法进行。

例如，利用Illumina Hiseq 2500对RNA单链特异性文库进行重测序，生成10-nt的双端reads(读取)，即Raw data(原始数据)；去除掉含有adapter(接头)、Ploy-N(条码，即barcode也称为index，是一段很短的寡居核酸链，用于在多个样品混合测序时，标记不同的样品)以及低质量的reads后，得到Clean data(干净数据)。

步骤2-3，进行基因转录本表达水平定量。

优选地，利用Cuffquant软件对基因转录本表达水平进行定量。

步骤3，获得与木材形成相关的基因。

优选地，采用R语言中的WGCNA软件包进行加权基因共表达网络分析，构建共表达网络。

进一步地，对每个共表达网络模块进行GO(Gene ontology)和KEGG(KyotoEncyclopedia of Genes and Genomes)分析，获得与木材形成相关功能通路，并提取通路内基因，即为与木材形成相关的基因。

根据本发明的实施例，最终获得80个与木材形成相关的基因。

步骤4，获得与木材形成相关的所有SNP位点。

在本发明中，优选采用vcftools软件对上述获得的与木材形成相关的基因进行筛选，获得与木材形成相关的所有SNP位点。根据本发明的实施例，对80个基因进行筛选得到21828个SNP。

其中，优选地，筛选的条件为：最小等位基因频率(Minor Allele Frequency，MAF)＞0.05，缺失基因型(Missing Genotype,MG)＜0.2，且连锁不平衡(r²)<0.2。

利用筛选得到的SNP集合通过Admixture v1.3.0软件进行群体结构分析，根据本发明的实施例，K(群体结构)值的范围是1-10，在K＝3时，取得最小交叉验证误差值。

步骤5，获得与树高、胸径、材积显著关联的SNP位点及其所在的基因。

在本发明中，优选采用Efficient Mixed-Model Association eXpedited(EMMAX)软件中的混合线性模型(Mixed linear model,MLM)，对步骤4获得的SNP集合与群体表型性状(树高、胸径、材积)进行关联分析，获得与树高、胸径、材积显著关联的SNP位点。

具体地，利用EMMAX软件获得亲缘关系，作为随机效应的方差-协方差矩阵，以步骤4中的群体结构作为固定效应。

根据本发明的实施例，当关联的显著性P≤0.001时，得到最显著的66个SNP，位于14个基因上。

步骤6，获得与树高、胸径、材积显著关联的插入缺失位点(InDel)。

其中，利用vcftools软件对步骤5中获得的基因提取毛白杨种质资源群体(435株个体)的InDel，并按照步骤5进行InDel关联分析。

根据本发明的实施例，对步骤5中的14个基因提取了毛白杨种质资源群体(435株个体)的955个InDel，当关联的显著性P≤0.001时，得到20个InDel。

步骤7，获得显著关联的插入缺失位点构成的稳定单体型。

在本发明中，优选利用Haploview v4.2软件，通过非线性回归估计位点之间物理距离的LD衰减，并构建单体型，检测步骤6中获得的显著关联InDel的高LD单体型块(高LD单体型块的标准是：R²>0.75；R²代表两位点间的统计相关)，得到稳定单体型及其中的插入缺失位点的具体位置。

步骤8，检验携带不同单体型的杨树表型的差异显著性。

在本发明中，优选采用F-test和Student’s t-test(P≤0.05)检验两种方法检验携带不同单体型的杨树表型的差异显著性。

根据本发明的实施例，当毛白杨个体的单体型为单体型I(TAATTGTGCCGGTTTGTTATTGTGTTTTTCAGTTGTGTTTT TGTTG-TTAA-TATGG-AAATTATTT-ACACATTT)时，树高、胸径、材积均最大；当毛白杨个体的单体型为单体型II(T-T-T-A-A)时，树高、胸径、材积均最小。

在本发明中，由于单体型类型在杨树群体中几乎全部为单体型I和单体型II两类，其余类型单体型类型的频率极低(频率＜0.05)，故不考虑其他单体型情况。

本发明提供了转录组和候选基因关联，以快速、准确筛选树高、胸径、材积大的杨树插入缺失单体型的方法，其利用WGCNA定位木材生长形成关键调控网络，在提取网络内基因后进行候选基因关联分析，大大提高了解析复杂数量性状遗传变异的分辨率和效率，同时能够快速筛选出调控木材生长的主效关键基因，并利用数个高关联信号的插入缺失位点进行单体型构建，获得了能够显著影响杨树树高、胸径和材积的功能标记。

本发明的第六方面，提供了一种检测杨树木材产量的方法，所述方法包括检测杨树的单体型为单体型I还是单体型II的步骤，

其中，单体型I的杨树的木材产量高于单体型II的杨树的木材产量。

优选地，单体型I的杨树的树高、胸径和材积均大于单体型II的杨树。

根据本发明一种优选的实施方式，所述检测杨树木材产量的方法包括以下步骤：

步骤i，以待测杨树的基因组DNA为模板，进行PCR扩增，获得扩增产物；

步骤ii，根据扩增产物，确定单体型类型；

步骤iii，根据单体型类型判定杨树的木材产量。

在进一步优选的实施方式中，步骤i中，进行PCR扩增时，采用的引物为本发明第二方面所述的引物对。

优选地，步骤ii中，确定单体型类型的方法包括但不限于测序。

在更进一步优选的实施方式中，步骤iii中，若待测杨树的单体型类型为单体型I，则其树高、胸径和材积最大；若待测杨树的单体型类型为单体型II，则其树高、胸径和材积最小。

本发明的第七方面，提供了一种杨树辅助育种的方法，所述方法包括检测杨树的单体型分子标记的类型，以确定待测杨树树高、胸径、材积大小，进而确定木材产量的步骤。

其中，利用本发明所述的杨树辅助育种方法，能够有效确定杨树的树高、胸径和材积，进而能够在杨树幼苗期快速精准地筛选高树高、胸径和材积的品种，缩短杨树育种周期。

实施例

以下通过具体实例进一步描述本发明，不过这些实例仅仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例1与木材产量相关的单体型分子标记的获得

1、试验群体

选取位于山东冠县苗圃的15年生435株毛白杨个体组成的种质资源群体作为关联分析群体，该种质群体中的个体几乎代表了毛白杨全部的自然分布区域的生态类型。

2、树高、胸径和材积的测定

树高和胸径采用皮尺进行测量，材积＝(基径/2)²×树高，材积优选按照文献“Bradshaw,H.D.,and Stettler,R.F.1995.Molecular genetics ofgrowth anddevelopment inPopulus.IV.Mapping QTLs withlarge effects on growth,form,andphenology traits inaforesttree.Genetics,139:963–973”中所述方法进行测定。

3、RNA的提取

采用试剂盒(the QiagenRNAeasy kit(Qiagen China,Shanghai,China))提取试验群体中每株个体胸径处木材组织的RNA。

4、基因转录本表达水平定量分析

采用超微量分光光度计(NanoDrop 1000，ND1000)和安捷伦2100生物分析仪(Agilent Bioanalyzer 2100)对样品RNA进行评估；再利用

的

UltraTM RNA文库制备试剂盒(NEB，美国)建立RNA单链特异性文库；利用Illumina Hiseq2500对RNA单链特异性文库进行重测序，生成10-nt的双端reads，即Raw data；去除掉含有adapter、Ploy-N以及低质量的reads后，得到Clean data；利用Cuffquant软件对基因转录本表达水平进行定量。

5、获得与木材形成相关的基因

采用R语言中的WGCNA软件包进行加权基因共表达网络分析，构建共表达网络；对每个共表达网络模块进行GO和KEGG分析，找出和木材形成相关功能的模块，并提取模块内基因，最终得到80个基因。

6、获得与木材形成相关的所有SNP位点

(6.1)利用DNeasy Plant Mini Kit(Qiagen China,Shanghai,China)试剂盒提取种质资源群体叶片组织的基因组DNA；

对种质资源群体每株个体的DNA进行重测序获得原始数据(Rawdata)，对DNA原始数据进行质量控制(Quality Control)后得到干净数据(Cleandata)；

其中，DNA重测序为双末端测序，所述测序的深度为30×；所述测序采用IlluminaGA2重测序平台；

质量控制的标准是：(i)去除掉含有≥10％未识别核苷酸的读取(reads)；(ii)去除掉碱基质量＜5的数量＞50％的reads；(iii)去除掉＞10nt比对到适配器(adapter)的reads，允许≤10％的错配；(iv)删除在文库构建过程中通过PCR扩增产生的推定PCR重复片段(两个完全相同的配对的read1和read2)；

利用Burrows-WheelerAlignerv0.7.5a-r405(默认参数)将每个样本的cleandata比对到杨树参考基因组v3.0(http://popgenie.org/)上；利用SAMtoolsv1.1过滤掉低质量reads(MQ＜20)；利用Genome Analysis Toolkit(GATK)v4.0鉴定全基因组单核苷酸多态性位点(SNP)，参数如下：SNP:QD<5.0||MQ<40.0||FS>60.0||SOR>3.0||MQRankSum<-12.5||ReadPosRankSum<-8.0；Indel:QD<5.0||FS>200.0||SOR>10.0||MQRankSum<-12.5||ReadPosRankSum<-8.0；利用Vcftools_0.1.13得到双等位SNPs。

(6.2)利用vcftools软件对80个基因进行筛选得到21828个SNP的集合，筛选的条件为：MAF>0.05，MG<0.2，连锁不平衡(r²)<0.2；利用该SNP集合通过Admixture v1.3.0软件进行群体结构分析；K值的范围是1-10，在K＝3时，取得最小交叉验证误差值。

7、获得与树高、胸径、材积显著关联的SNP位点及其所在的基因

使用Efficient Mixed-Model Association eXpedited(EMMAX)软件中的混合线性模型(Mixed linear model,MLM)，对步骤6中获得的SNP集合与435株毛白杨种质资源群体的树高、胸径、材积进行关联分析，获得与树高、胸径、材积显著关联的SNP位点。

其中，利用EMMAX软件获得亲缘关系，作为随机效应的方差-协方差矩阵，以步骤6中的群体结构作为固定效应。

当关联的显著性P≤0.001时，得到最显著的66个SNP，位于14个基因上。

8、获得与树高、胸径、材积显著关联的插入缺失位点(InDel)

利用vcftools软件对步骤7中获得的14个基因提取毛白杨种质资源群体(435株个体)的955个InDel，并按照步骤7进行InDel关联分析，当关联的显著性P≤0.001时，得到20个InDel。

9、获得显著关联的插入缺失位点构成的稳定单体型

利用Haploview v4.2软件检测步骤8中20个InDel的高LD单体型块(R²>0.75)，最终检测到由Pt-SMT.2基因上游第1538位的一个45个碱基的InDel位点、第1488位的一个3个碱基的InDel位点、第1449位的一个4个碱基的InDel位点、第1438位的一个8个碱基的InDel位点、第1427位的一个7个碱基的InDel位点构成的稳定单体型。

10、检验携带不同单体型的杨树表型的差异显著性

通过F-test和Student’s t-test(P≤0.05)检验，发现稳定单体型中的单体型I(TAATTGTGCCGGTTTGTTATTGTGTTTTTCAGTTGTGTTTTTGTTG-TTAA-TATGG-AAATTATTT-ACACATTT)相较于单体型II(T-T-T-A-A)，能够显著提高毛白杨种质资源群体中个体的树高、胸径和材积。

单体型I和单体型II对杨树树高、胸径和材积的单体型效应图分别如图1、2和3所示。

由图1～3可以看出，当毛白杨个体单体型类型为单体型I时，其树高平均值(17.440m)较单体型II的个体(13.922m)高3.518m，胸径平均值(27.642cm)较单体型II的个体(20.413cm)大7.229cm，材积平均值(1.478m³)较单体型II的个体(0.732m³)大0.746m³。

实验例

实验例1在幼龄-成熟群体分别进行传统多性状评分法育种和本发明所述的单体型育种

PCA-TOPSIS多性状评分育种法说明：

分别利用5年生幼龄毛白杨种质资源群体(435株个体)和15年生成熟毛白杨种质资源群体(435株个体)进行表型评分，查看幼龄群体排序得分前十的个体在成熟群体中排名情况，之后利用单体型育种方法，查看单体型选育出的个体在成熟群体中的评分排名情况。

由于育种的最终目的是利用成熟期个体为原料开展木材工业生产，因此成熟群体的表型综合评分应为在木材工业中优选个体的金标准。

其中，

数据正向化处理：由于本发明中3个生长性状都是正向指标，故无需正向处理；

利用SPSS软件对3个生长性状进行标准化(normalize),得到标准化矩阵Z；

PCA(principal component analysis)：利用SPSS软件对3个性状进行PCA分析，得到3个性状的权重w_p(weight)，PCA分析使用SPSS软件的标准流程即可；

TOPSIS法(Technique for Order Preference by Similarity to IdealSolution)可翻译为逼近理想解排序法，国内常简称为优劣解距离法。

TOPSIS法是一种常用的综合评价方法，其能充分利用原始数据的信息，结果能精确地反映各评价方案之间的差距(Hwang CL,Yoon K(1981)Multiple Attribute DecisionMaking-Method and Applications,A State-of-the-Art Survey.Springer-Verlag,NewYork)。

具体实施流程：

①最优(Z⁺)和最坏(Z^-)方案由Z中每一列元素的最大值或最小值组成：

最优方案

最劣方案

②计算每个候选个体3个表型值与最优/最差方案之间的加权欧式距离(

和

)：

③计算个体表型和最优方案之间的接近度(Ci)

其中，Z是表型标准化矩阵，w_p是表型权重，

i＝1,2,…,m,j＝1,2,…,n.C_i∈[0,1],C_i越接近1，表示第i个评价对象越接近最优水平。

经计算，3个性状5年生的权重w_p为：H＝0.287；DHB＝0.345；V＝0.368；

3个性状15年生的权重w_p为：H＝0.347；DHB＝0.304；V＝0.348。

计算个体表型和最优方案之间的接近度(Ci)，结果如表1所示。

表1

由上述结果可知：幼龄群体(5年生)表型评分时的前十个体，在成熟群体中只有四个(个体编号为2、6、1、9)仍排名前十；而幼龄时期三个携带单体型I的个体(个体编号为1、18、41)虽没有全部排名前十，但是在实际工业应用的15年生成熟用材群体中均排名前十。

因此我们可以得出结论：本发明所述的单体型育种在整个时期的选优效率为100％(3/3)，而传统多表型选育选优效率仅为40％(4/10)，说明本发明所提供的单体型选育显著优于传统多表型选育。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。

SEQUENCE LISTING

<110> 北京林业大学

<120> 一种与杨树木材产量相关的单体型分子标记及其应用

<130> 2021

<160> 7

<170> PatentIn version 3.5

<210> 1

<211> 45

<212> DNA

<213> Populus tomentosa

<400> 1

aattgtgccg gtttgttatt gtgtttttca gttgtgtttt tgttg 45

<210> 2

<211> 3

<212> DNA

<213> Populus tomentosa

<400> 2

taa 3

<210> 3

<211> 4

<212> DNA

<213> Populus tomentosa

<400> 3

atgg 4

<210> 4

<211> 8

<212> DNA

<213> Populus tomentosa

<400> 4

aattattt 8

<210> 5

<211> 7

<212> DNA

<213> Populus tomentosa

<400> 5

cacattt 7

<210> 6

<211> 20

<212> DNA

<213> 正向引物P1（人工序列）

<400> 6

aataacaaac cggcacaatt 20

<210> 7

<211> 20

<212> DNA

<213> 反向引物P2（人工序列）

<400> 7

tggttaaaaa aattatttta 20

Claims

1.一种与杨树木材产量相关的单体型分子标记，其特征在于，所述单体型分子标记由InDel1、InDel2、InDel3、InDel4和InDel5共五个标记组合而成，

所述InDel5位点位于杨树SMT2基因上游第1427位，其多态性表现为7个碱基的插入/缺失，所述7个碱基的核苷酸序列如SEQ ID NO：5所示；所述单体型分子标记包括单体型I和单体型II，

所述单体型I为InDel1位点的多态性表现为SEQ ID NO：1所示的核苷酸序列的插入，InDel2位点的多态性表现为SEQ ID NO：2所示的核苷酸序列的插入，InDel3位点的多态性表现为SEQ ID NO：3所示的核苷酸序列的插入，InDel4位点的多态性表现为SEQ ID NO：4所示的核苷酸序列的插入，且InDel5位点的多态性表现为SEQ ID NO：5所示的核苷酸序列的插入；

所述单体型II为InDel1位点的多态性表现为SEQ ID NO：1所示的核苷酸序列的缺失，InDel2位点的多态性表现为SEQ ID NO：2所示的核苷酸序列的缺失，InDel3位点的多态性表现为SEQ ID NO：3所示的核苷酸序列的缺失，InDel4位点的多态性表现为SEQ ID NO：4所示的核苷酸序列的缺失，且InDel5位点的多态性表现为SEQ ID NO：5所示的核苷酸序列的缺失；

所述木材产量性状为杨树的树高、胸径和材积；

所述杨树为毛白杨；

所述杨树SMT2基因为杨树参考基因组v3.0 http://popgenie.org/上的Pt-SMT.2基因。

2.根据权利要求1中所述的与木材产量相关的单体型分子标记，其特征在于，所述单体型I的杨树个体，相较于单体型II的杨树个体，具有较大的树高、胸径和材积。

3.权利要求1或2所述的单体型分子标记在杨树选育中的用途。