CN105296604A

CN105296604A - 确定棉纤维发育过程中上调基因和下调基因的方法

Info

Publication number: CN105296604A
Application number: CN201410366425.4A
Authority: CN
Inventors: 陈全家; 曲延英; 倪志勇; 李月; 刘超; 康定明
Original assignee: Xinjiang Agricultural University
Current assignee: Xinjiang Agricultural University
Priority date: 2014-07-29
Filing date: 2014-07-29
Publication date: 2016-02-03

Abstract

本发明提供了一种确定在棉花纤维发育过程中上调或者下调基因的方法，包括：分别从处于棉纤维发育第一时期和第二时期的样本中获得第一转录组和第二转录组，测序获得第一转录组测序数据和第二转录组测序数据；分别基于第一转录组测序数据和第二转录组测序数据进行一级组装，获得第一和第二一级组装数据；合并第一和第二一级组装数据，利用第一一级组装数据和第二一级组装数据中有重叠的一级基因进行二级组装，获得二级组装数据；基于二级组装数据和参考基因的重叠关系进行三级组装，获得三级组装数据；计算三级组装数据中各三级基因在两样本中的表达量，根据表达量的差异是否显著，获得差异表达基因，确定在棉纤维发育过程中的上调基因或者下调基因。

Description

确定棉纤维发育过程中上调基因和下调基因的方法

技术领域

本发明涉及植物基因及其编码蛋白，特别是棉花纤维发育过程中的差异表达基因及其编码蛋白与其在改良棉纤维产量和品质中的应用。

背景技术

棉花是我国重要的经济作物，在全球经济中起着中流砥柱作用。海岛棉(G.barbadense)和陆地棉(G.hirsutum)是目前世界上最具有商业价值的栽培棉种。陆地棉由于产量高和较强的环境适应能力而被广泛种植，占棉花产量的90％。相反，海岛棉仅占棉花产量的5～8％，且由于其在长度、强度等方面具有优良纤维品质而价格昂贵。海岛棉和陆地棉都是异源四倍体棉花栽培品种，但是它们的纤维品质和发育进程显著不同。目前对于海岛棉优异的纤维品质机理还不清楚。

棉纤维是由受精胚珠的单个表皮细胞经伸长、加厚而成的种子纤维。棉纤维是由胚珠外珠被部分表皮细胞经分化等一系列复杂的发育过程而形成的单细胞物质。棉纤维的品质好坏主要看纤维长度、强度、伸长率、马克隆值等测定值，纤维品质性状为多基因数量遗传，其遗传机制相当复杂。棉纤维细胞的分化与突起期发生在开花当天[0开花后天数，0dayspost-anthesis(DPA)]，表现为胚珠表面扩展为球状或者半球状突起。

转录组学(transcriptomics)，是一门在整体水平上研究细胞中基因转录的情况及转录调控机制的学科，主要从RNA水平研究基因表达的情况。从转录组水平上对棉纤维复杂的多基因遗传机制进行深入研究，对了解整个纤维发育的分子调控机制，并结合分子标记技术定位与纤维产量和纤维品质相关的QTLs，非常有助于分子标记辅助选择(MAS)育种和纤维品质的改良。从mRNA水平了解特定棉花组织细胞、组织或器官的基因表达模式并解释其生理属性，对人们深入了解棉花纤维发育起始、分化、成熟等机制有着极其重要的意义。

以改善棉花纤维品质为目的的基因克隆技术，是通过克隆出与棉花纤维发育过程中影响棉纤维质量优劣的关键功能基因，同时阐明其功能，可以进一步解析棉花纤维发育伸长期纤维伸长和次生壁加厚期纤维素合成的分子机理，进而通过转基因手段或者开发出相应的功能标记，有利于分子标记辅助育种，从而培育出优质纤维品质的新品种(刘进元，赵广荣.棉花纤维品质改良的分子工程[J].植物学报：英文版，2000，42(10):991-995.)，目前对陆地棉的一些已知的转录因子、棉纤维发育伸长阶段基因、棉纤维次生壁加厚相关基因和棉纤维成熟阶段基因的克隆都有些报道。

发明内容

依据本发明一方面提供的一种确定在棉花纤维发育过程中的上调或者下调基因的方法，包括以下步骤：(1)分别从处于棉纤维发育第一时期和第二时期的样本中获得第一转录组和第二转录组，对第一和第二转录组进行测序，获得第一转录组测序数据和第二转录组测序数据，第一转录组测序数据和第二转录组测序数据各自包含多个读段(reads)；(2)分别基于(1)中的第一转录组测序数据和第二转录组测序数据进行一级组装，获得第一一级组装数据和第二一级组装数据，第一一级组装数据和第二一级组装数据各自由多个一级基因构成；(3)合并获自(2)的第一一级组装数据和第二一级组装数据，利用第一一级组装数据和第二一级组装数据中有重叠的一级基因进行二级组装，获得二级组装数据，二级组装数据由多个二级基因构成；(4)基于(3)中的二级组装数据和参考基因的重叠关系进行三级组装，获得三级组装数据，三级组装数据由多个三级基因构成；(5)计算获自(4)的三级组装数据中各个三级基因在棉纤维发育第一时期样本和棉纤维发育第二时期样本中的表达量；(6)确定获自(5)的各三级基因的在棉纤维发育第一时期样本和棉纤维发育第二时期样本中的表达量的差异是否显著，以确定所说的在棉纤维发育过程中的上调基因或者下调基因。

当所述样本来源于棉花胚珠并且来源于同一棉种,棉纤维发育第一时期和第二时期胚珠样本为两个不同的时期,利用本发明这一方面提供的方法获得差异表达基因,获得同一棉种两个不同发育时期的纤维发育相关基因的表达变化，利于该棉种的纤维品质产量等特性的遗传机理研究,也可利用基于调整相关基因表达来改造该棉种或其它棉种的纤维质地。

当所述样本来源于棉花胚珠并且来源于不同棉种,棉纤维发育第一时期和第二时期为同一时期,利用本发明这一方面提供的方法获得差异表达基因,获得不同棉种同一纤维发育时期的相关基因的表达变化、共性及差异,利于了解不同棉种具有不同棉纤维特性的遗传机理发现棉纤维品质更优越的决定基因和分子机制,有利于棉纤维品质的改良。

依据本发明的另一方面提供的一种棉花转录因子基因GbMYB25，其具有的核苷酸序列为如SEQIDNO：1所示的gDNA序列，或者如SEQIDNO：2所示的CDS序列。该基因编码具有SEQIDNO：3所示的氨基酸序列的多肽。本发明的又一方面提供了一种含有GbMYB25基因的表达载体以及，含有这个表达载体的宿主细胞。本发明的再一方面提供了GbMYB25基因用于调控棉花纤维起始发育的用途，调控棉花纤维起始发育是通过调控棉花胚珠中的纤维细胞的纤维基因的表达来实现的。本发明的一方面还提供了一对扩增GbMYB25基因的引物对，所述引物对具有如SEQIDNO：5和SEQIDNO：6所示的序列。

依据本发明再一方面提供的一种油菜素甾醇(Brassinosteroids，BRs)生物合成的限速酶基因——棉花GbDET2基因，其具有SEQIDNO：4所示的序列。本发明的又一方面还提供一种含有所述GbDET2基因的表达载体和一种含有所说的表达载体的宿主细胞。本发明的再一方面提供了所述GbDET2基因在改良棉纤维的产量和品质中的用途，所说的用途是通过利用所说的GbDET2基因调控油菜素类固醇物质的合成来实现的。本发明的一方面还提供了扩增所述GbDET2基因的引物对，所述引物对具有SEQIDNO：13和SEQIDNO：14所示的序列。

附图说明

图1是本发明的一个具体实施方式中的转录组文库构建测序流程示意图；

图2是本发明的一个具体实施方式中的一级组装和二级组装过程的示意图；

图3是本发明的一个具体实施方式中的棉花二级组装结果维恩图；

图4是本发明的一个具体实施方式中的1Gb21与Gh36的0DPA纤维中的基因差异表达示意图；

图5是本发明的一个具体实施方式中的Gb21与Gh36差异表达基因统计结果示意图；

图6是本发明的一个具体实施方式中的GbMYB25蛋白的二级结构示意图，其中，最长竖代表α螺旋，中长竖代表延伸带，最短竖代表无规则卷曲

图7是本发明的一个具体实施方式中的GbMYB25蛋白的三级结构同源建模示意图；

图8是本发明的一个具体实施方式中的GbMYB25蛋白与其他相关蛋白全长氨基酸序列的系统进化树分析示意图；

图9是本发明的一个具体实施方式中的GbMYB25结构示意图，其中，黑色线方块为外显子，方块之间的细线为内含子，ATG为起始密码子，TGA为终止密码子；

图10是本发明的一个具体实施方式中的GbMYB25基因的表达模式示意图；

图11是本发明的一个具体实施方式中的GbMYB25蛋白的亚细胞定位图，其中，A和B表示GbMYB25:hGFP融合蛋白定位，C和D表示对照hGFP蛋白定位，A和C表示绿色荧光下的，B和D表示可见光下的；

图12是本发明的一个具体实施方式的植物DET2基因的系统发育树示意图，其中的线段表示进化距离；

图13是本发明的一个具体实施方式中的GbDET2基因在不同棉种中的扩增结果的电泳图，其中，M:DL2000Marker，1:新海1号，2:新海36号，3:新海21号，4:Pima90-5379；5：吉扎30，6:吉扎69，7:Pimas09353，8:Pimas-7，9:9078依，10:吉扎1号，11:C-6019，12:司-6002；

图14是本发明的一个具体实施方式中的棉花纤维不同发育时期DET2基因表达的示意图。

具体实施方式

依据本发明的一种实施方式，提供了一种确定在棉花纤维发育过程中的上调或者下调基因的方法，包括以下步骤：

步骤一：获得第一转录组测序数据和第二转录组测序数据

分别从处于棉纤维发育第一时期和第二时期的样本中获得第一转录组和第二转录组，对第一和第二转录组进行测序，获得第一转录组测序数据和第二转录组测序数据，第一转录组测序数据和第二转录组测序数据各自包含多个读段。所述的处于棉纤维发育第一时期和棉纤维发育第二时期的样本均来源于棉花胚珠。

在本发明的一个具体实施方式中，棉纤维发育第一时期和棉纤维发育第二时期分别选自0DPA、5DPA、10DPA、15DPA和25DPA中的任两个不同的时期，而且样本来源于同一棉种，比如样本来源于还未有公开基因组数据的海岛棉。

在本发明的一个具体实施方式中，棉纤维发育第一时期和棉纤维发育第二时期为选自0DPA、5DPA、10DPA、15DPA和25DPA中的任一同一时期，所述样本来源于不同棉种，比如样本分别来源于海岛棉和陆地棉。

在本发明的一个具体实施方式中，测序包括对所述第一转录组和第二转录组进行测序文库构建以及上机测序。可选用的文库构建、测序方法根据来自的测序平台包括但不限于CG(CompleteGenomics)、Illumina/Solexa、ABI/SOLiD、Roche454和单分子测序平台，依据所选测序平台进行单端或双端测序文库的制备。在本发明的一个实施例中，转录组测序(RNA-Seq)文库的构建包括步骤：a)分别从所述处于棉纤维发育第一时期的样本和处于棉纤维发育第二时期的样本中获得第一mRNA和第二mRNA；b)打断从a)中获得的第一mRNA和第二mRNA，获得第一mRNA片段和第二mRNA片段；c)分别以b)中的第一mRNA片段和第二mRNA片段为模板，反转录合成第一cDNA第一链和第二cDNA第一链；d)分别以从c)中获得的第一cDNA第一链和第二cDNA第一链为模板，获得第一双链cDNA和第二双链cDNA；e)分别对从d)中所得的第一双链cDNA和第二双链cDNA进行末端修复，加A以及连接测序接头，获得所述第一转录组测序文库和所述第二转录组测序文库；检测构建好的文库置于IlluminaHiseq2000上测序。

步骤二：一级组装

对第一转录组测序数据和第二转录组测序数据分别进行一级组装，获得第一一级组装数据和第二一级组装数据，第一一级组装数据和第二一级组装数据各自由多个一级基因构成。

在本发明的一个具体实施方式中，一级组装具体包括：a)通过分别拼接第一转录组测序数据中的有重叠关系的读段或者所述第二转录组测序数据中的有重叠关系的读段，获得第一重叠群和第二重叠群，所述第一重叠群和第二重叠群各自包含多个重叠片段(contig)；b)基于所述第一转录组测序数据中的有距离关系的读段或者所述第二转录本测序数据中的有距离关系的读段，以及所述有距离关系的读段在各自重叠群中的重叠片段上的位置，分别对所述第一重叠群或者所述第二重叠群中的重叠片段进行拼接，获得所述第一一级组装数据和第二一级组装数据，所述有距离关系的读段是指来自所述转录组测序文库两端的读段，比如通过双末端(pair-end，PE)测序获得的一对对reads，每对PEreads之间的距离大概为一个插入片段的大小即文库的大小，当有一对PEreads分别落在第一或第二重叠群中的两个重叠片段时，这两个重叠片段之间的距离也就是确定的，而当有多对这样的PEreads，其中每对reads分别落在两个不同的重叠片段上，或者一对中只有一个落在一个重叠片段上另一个落在两个重叠片段之间，利用这些第一或第二转录组数据中的PEreads及其在重叠片段上的位置就能实现重叠片段的拼接，获得第一一级组装数据和第二一级组装数据。

在本发明的一个具体实施方式中，将所述一级基因称为非重复序列基因(universalgene，unigene)。

步骤三：二级组装

合并获自步骤二的第一一级组装数据和第二一级组装数据，利用第一一级组装数据和第二一级组装数据中有重叠的一级基因进行二级组装，获得二级组装数据，二级组装数据由多个二级基因构成。

在本发明的一个具体实施方式中，在进行二级组装之前，对所述第一一级组装数据和第二一级组装数据合并后的数据去冗余。在本发明的一个具体实施方式中，第一转录组和第二转录组来源于同一棉种的不同棉纤维发育时期，两组一级基因高度重叠将第一一级组装数据和第二一级组装数据合并进行二级组装，获得二级组装数据，在该具体实施方式中，将所述二级基因也称为unigene，该步骤可理解成对获自同一棉种的多个样本的一级组装后unigene进行延伸，基于两个样本中有重叠关系的unigene，基于这些有重叠关系的unigene源自同一转录本或源自同一基因的不同转录本，这样可获得更长的转录本，利于后续对基因表达的准确定量。在本发明的另一个具体实施方式中，第一转录组和第二转录组来源于不同棉种的同一棉纤维发育时期，两组一级基因高度重叠将第一一级组装数据和第二一级组装数据合并进行二级组装，获得二级组装数据，在该具体实施方式中，将所述二级基因称为全unigene(allunigene)，该步骤可理解成对获自不同棉种同一棉纤维发育时期的多个样本的一级组装后的unigene进行延伸，基于两个样本中有重叠关系的unigene，基于这些有重叠关系的转录本源自同一基因，这样可获得更长的转录本，利于后续对基因表达的准确定量以及差异表达基因的筛选。

步骤四：三级组装

基于步骤三中的二级组装数据和参考基因的重叠关系进行三级组装，获得三级组装数据，三级组装数据由多个三级基因构成。

在本发明的一个具体实施方式中，参考基因是已知棉花的Unigene库，比如下载自http://www.leonxie.com/的已知棉花基因，根据在本发明的一个具体实施方式，将所述三级基因称为联合unigene(combinedunigene)。同一棉花物种同样在棉纤维发育阶段，有很多相同的基因，该步骤可以理解成对获自不同棉种的多个样本的二级组装后的all-unigene进行延伸，基于样本中与已知unigene中重叠的二级组装后的allunigene，基于这些有重叠关系的all-unigene源自同一转录本或者源自同一基因的不同转录本，这样可获得更长的转录本，利于后续的对基因表达的准确定量。

步骤五：基因表达量计算

计算获自步骤四的三级组装数据中各个三级基因在棉纤维发育第一时期样本和棉纤维发育第二时期样本中的表达量。

在本发明的一个具体实施方式中，进行步骤五之前包括，确定所述三级基因的编码区序列。所说的三级基因的编码区序列是通过将各个三级基因比对已知蛋白数据库来确定的。所说的已知蛋白数据库包括NR(NCBInon-redundant)、Swiss-Prot、KEGG、TrEMBL和COG的至少之一，通过blastx将Unigene序列比对到已知蛋白数据库，可设定比对e值为不大于0.00001，blastx以及e值得含义及设定的可参考已知数据库说明，比如NCBIBlast，该实施例中的设置使得序列相似性高，利于准确确定编码区序列。Nr，Swiss-prot是两个著名的蛋白数据库，其中SWISS-PROT是经过严格筛选去冗余的，COG是对基因产物进行直系同源分类的数据库，每个COG蛋白都被假定来自祖先蛋白，COG数据库是基于细菌、藻类、真核生物具有完整基因组的编码蛋白、系统进化关系进行构建的，KEGG是系统分析基因产物在细胞中的代谢途径以及这些基因产物的功能的数据库，用KEGG可以进一步研究基因在生物学上的复杂行为。在本发明的一个具体实施方式中，编码区的确定利用了上述所有的已知蛋白数据库，并对已知蛋白数据库设置比对优先级，而且结合编码区预测软件进行，具体地，确定编码区序列包括以下步骤：a)将各个三级基因序列与NR数据库进行比对，对于比对上所述NR数据库的三级基因，根据与其具有序列最高相似性的蛋白确定所述比对上NR数据库的三级基因的编码区序列；b)将在a)中没有比对上NR的三级基因与Swiss-Prot数据库比对，对于比对上Swiss-Prot数据库的三级基因，根据与其具有序列最高相似性的蛋白确定所述比对上Swiss-Prot数据库的三级基因的编码区序列；c)将在b)中没有比对上Swiss-Prot数据库的三级基因与KEGG数据库比对，对于比对上KEGG数据库的三级基因，根据与其具有序列最高相似性的蛋白确定所述比对上KEGG数据库的三级基因的编码区序列；d)将在c)中没有比对上Swiss-Prot数据库的三级基因与TrEMBL或者COG数据库比对，对于比对上TrEMBL或者COG数据库的三级基因，根据与其具有序列最高相似性的蛋白确定所述比对上TrEMBL或者COG数据库的三级基因的编码区序列；e)将在e)中没有比对上TrEMBL或COG数据库的三级基因进行编码区预测；上面所说的比对上已知蛋白数据库是指将所述三级基因与所述已知蛋白数据库进行Blastx比对时，E值不大于1.0e^-5的比对结果中显示有匹配上的蛋白序列。

在本发明的一个具体实施方式中，三级基因的表达量计算是利用RPKM法(每百万reads中来自于某基因每千碱基长度的reads数，ReadsPerKbperMillionreads)，计算公式为其中，C为唯一比对到所述三级基因的读段数，N为唯一比对到所述参考基因或者参考基因组的总读段数，L为所述三级基因的编码区的碱基数。如果一个三级基因存在多个转录本，则用该基因的最长转录本计算其表达量。

步骤六：确定棉纤维发育过程中的上调或者下调基因

确定获自步骤五的各三级基因的在棉纤维发育第一时期样本和棉纤维发育第二时期样本中的表达量的差异是否显著，以确定所说的在棉纤维发育过程中的上调基因或者下调基因。

在本发明的一个具体实施方式中，筛选表达差异基因，即判断基因在两个样本的表达是否有显著差异，是结合差异表达倍数(fold-change)和错误发现率控制(FalseDiscoveryRate，FDR)进行的，FDR值越小，差异倍数越大，则表明表达差异越显著。在本发明的一个具体实施方式中，对差异表达基因进行严格得筛选，当三级基因在所述棉纤维发育第一时期样本和在所述棉纤维发育第二时期样本中的差异表达倍数不小于2并且错误发现率不大于0.01时，或者优选地FDR不大于0.001时表明差异显著，即差异表达基因定义为FDR≤0.001且倍数差异在2倍以上的基因，接着依据样本所处发育时期的前后确定所述差异表达基因在所述棉纤维发育过程中为上调或下调基因，其中，所述表达差异表达倍数为所述三级基因在棉纤维发育第一时期样本和棉纤维第二时期样本中的较大的RPKM值除以较小的RPKM值。

前述两个基因是利用本发明一方面提供的方法发现并克隆获得的，在本发明的一个具体实施方式中，发现海岛棉GbMYB25基因在开花当天的胚珠中优势表达，在5DPA的纤维中表达量相比纤维发育其他时期表达量高，将该基因进行克隆及特性分析，说明GbMYB25基因具有调整棉纤维起始发育的功能。在本发明的另一个具体实施方式中，克隆出海岛棉的GbDET2基因，实时荧光定量PCR分析表明，GbDET2基因在纤维发育的不同时期中均有表达，在开花后5d的胚珠、10d的纤维中表达量最高。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。需要说明的是在本文中所使用的术语“第一”、“第二”和“第三”或者“一级”、“二级”和“三级”等仅用于方便描述目的，而不能理解为指示或暗示相对重要性，也不能理解为之间有先后顺序关系。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

除另有交待，以下实施例中涉及的试剂及仪器，都是常规市售产品，比如购自Illumina公司等。

实施例一：转录组文库构建及测序

1.1实验材料、RNA的提取

陆地棉新陆中36号(Gossypiumhirsutum)Gh36和海岛棉新海21号(Gossypiumbarbadense)Gb21，获自新疆阿拉尔农一师农业科学研究所。将两个品种棉花播种于大田中，分别取陆地棉和海岛棉开花当天胚珠(0DPA)，样本分别命名为xianyang_LZC和xianyang_HZB，迅速置于液氮中置于-80℃冰箱中保存备用。

陆地棉(Gossypiumhirsutum)Gh36和海岛棉(Gossypiumbarbadense)Gb21为实验材料(由新疆阿拉尔农一师农业科学研究所提供)。将两种品系棉花播种于大田中，分别摘取5、10、15、25DPA的纤维，迅速置于液氮中置于-80℃冰箱中保存备用。

采用改良的CTAB法，参照文献(胡根海，喻树迅.棉花基因克隆研究进展[J].棉花学报，2005，17(4):240-244)的方法提取棉花不同处理时间点纤维的RNA。对提取的总RNA用DNaseΙ消化。

采用Agilent2100分析仪测定总RNA浓度和纯度。在进行总RNA检测前，用RNaseFreeWater溶解总RNA样品，将总RNA样品在冰上融化，取1μL样品，在70℃水浴中变性2min，再进行检测。

所提取的RNA经由Agilent2100分析仪检测RNA的浓度和质量。检测RNA完整性(RIN值)和28S:18S比值，片段大小，样品浓度。海岛棉鲜样(xianyangHZ)总RNA的范围为668.7，浓度为419ng/μL，RNA完整性(RIN)为8.8，陆地棉鲜样(xianyangLZ)总RNA的范围为664.5，浓度为417ng/μL，RIN值为6.8，这些结果表明海岛棉和陆地棉胚珠的鲜样RNA完整性和纯度都是较好，达到了转录组测序植物样本的要求，RNA浓度≥400ng/uL、总量≥20ug，RNA样品A260/280为1.8～2.2，A260/230>1.8，且海岛棉和陆地棉的胚珠鲜样完整性良好，28S:18S>1.0，可以用于后续转录组测序试验。

1.2cDNA文库构建和测序

如图1所示，提取陆地棉和海岛棉两个棉花品系胚珠(0DPA)总RNA10g，用带有Oligo(dT)磁珠富集mRNA，定向RNA序列文库用上面富集的mRNA进行制备。提取的海岛棉和陆地棉的mRNA中加入断裂试剂，把mRNA打断成短片段，以两个棉花胚珠的mRNA为模板，合成六碱基随机引物(randomhexamers)，通过反转录PCR获得cDNA第一链，在反转录获得第一链的基础上加入缓冲液、dNTPs、RNaseH和DNApolymerase，获得第二链，用QiaquickPCR试剂盒纯化，用EB缓冲液洗脱纯化后的cDNA，纯化后的溶液进行末端修复，加poly(A)并连接通用的测序接头，用0.8％琼脂糖凝胶电泳，用试剂盒回收200-700nt片段，PCR扩增，利用扩增的产物建立测序文库。用IlluminaHiseq^TM2000对以上建好的海岛棉、陆地棉两个测序文库进行测序。

实施例二：筛选差异表达基因

——基于同一棉种不同棉纤维发育时期或者不同棉种同一棉纤维发育时期的测序数据

2.1转录组数据统计、过滤

将原始数据(rawreads或者rawdata)按照要求过滤，rawdata或rawreads是由碱基识别(basecalling)转化测序得到的原始图像数据获得的，一般将接头污染的、建库过程PCR导致的重复的、质量值很低的reads去掉，获得干净reads(Cleanreads)用于后续分析，后续分析比如经多次组装获得非冗余的基因序列Unigenes，对Unigenes用生物信息学筛选差异表达基因和/或分析差异表达基因的功能等。

表1测序产量统计

注：Totalreads、TotalNucleotides表示总reads读序数和总核苷酸数；Q20是指cleanreads中质量值大于20的碱基的百分比；Npercentage表不确定的碱基比例，GCpercentage表示碱基G和C数碱基数的比例。

通过IlluminaHiseq2000高通量测序从海岛棉和陆地棉胚珠(0DPA)进行转录组测序，如表1分别得到29,777,854和29,724,972条原始reads，去除低质量和短片段后海岛棉得到26,146,304条CleanReads，核苷酸数为2.3Gb，其中GC含量为45.09％，Q20和不确定碱基的百分含量分别为95.93％和0.00％，对原始数据过滤陆地棉获得26,065,142条CleanReads，核苷酸数为2.3Gb，GC含量为44.29％，Q20比例和碱基的比例分别是96.00％和0.00％，符合数据要求(Q20％>80％)。Npercentage均为0.00％表示不确定的碱基的比例是零，表明测序质量较好，获得的序列可靠度高。

2.2各级组装及各组装结果分析

得到海岛棉和陆地棉胚珠的干净reads(cleanreads)，从头组装获得二级基因(All-unigene)，如图2所示，先进行一级组装，可编程或者利用软件Trinity转录组组装软件(Grabherretal.,2011)首先利用末端有重叠(overlap)的reads拼接，获得重叠群(contigs)，接着将reads比对回contigs，通过PEreads能确定来自同一转录本的不同contigs以及这些contigs之间的距离，将这些contigs连在一起，得到两端不能再延长的序列，我们称为unigene，即为一级基因；接着进行二级组装，合并获得两样本的unigene，去冗余，基于重叠序列对这些unigene进行聚类拼接，得到尽可能长的非冗余unigene，在这我们称之为All-unigene，即为二级基因；进一步地，将All-unigene比对到已知棉花unigene库，比如下载http://www.leonxie.com/上的数据，利用All-unigene与同物种已知unigene的重叠，再次延长，这里称为联合unigene(combined-unigene)。上述组装过程的全部或部分可通过编码获得计算机可执行程序来实现，也可整合一些已知软件来进行，如整合Trinity和Roche公司的Tgicl组装软件来获得二级基因。

一级和二级组装结果统计分析见表2，利用组装软件Trinity对测序得到CleanReads软件进行从头拼接组装，获得Contig。从表2可知，海岛棉样品获得124,393条Contig，总长度为39,401,460nt，平均长度为317nt，N50长度509nt，陆地棉样品获得147,060条Contig，总长度为43,620,702nt，平均长度为297nt，N50长度456nt。组装序列长度是组装质量的一个评估标准。对组装出来的contig做长度分布特征分析，在两个棉花品系中，海岛棉200-500nt、600-1,000nt、1,100-1,500nt、1,600-2,000nt、2,100-2,500nt、2,600-3,000nt、>3,000nt的所占的比例分别为85.42％、8.61％、3.1％、1.52％、0.7％、0.31％、0.31％；陆地棉的比例分别为86.78％、7.95％、2.87％、1.31％、0.59％、0.24％、0.22％，两种品系的contig绝大部分分布在200-500nt之间，都超过80％。

表2一级和二级组装质量统计

注：N50：将组装序列从长到短排序，依次累加组装序列的碱基数，当累计碱基数达到全部组装序列碱基数的50％时的组装序列的长度

表3三级组装结果统计

*pubishedunigene(棉花公开unigene)来自http://www.leonxie.com/

将这些Contig连在一起，利用Tgicl软件将冗余重复的Contig去除并进行拼接，然后将这些拼接好的序列进行同源转录本聚类，最终获得海岛棉和陆地棉两个棉花0DPA胚珠的Unigene。从表2可知，用Trinity软件从海岛棉组装得到了67,450个unigene，总长度39,607,432nt，平均长度587nt，N50长度904nt；陆地棉样品组装得到79,686个unigene，总长度45,635,008nt，平均长度为573nt，N50长度880nt，共得到了69,640个All-unigene，平均长度为740nt，N50长度1,106nt。对组装出来的Unigene做长度分布特征分析显示，在两个棉花品系中，海岛棉200-500nt、600-1,000nt、1,100-1,500nt、1,600-2,000nt、2,100-2,500nt、2,600-3,000nt，大于3,000nt的contig所占的比例分别为64.25％、19.73％、8.11％、4.11％、2.05％、0.91％、0.85％；陆地棉的比例分别为64.35％、20.08％、8.29％、3.84％、1.95％、0.80％、0.67％。通过对组装后特定长度的基因进行统计表明，所拼接的unigene长度主要分布在200-500nt之间，随着组装片段长度的增加，组装的数目呈现逐渐减少的趋势，同时整个趋势是均匀的下降，说明组装效果较好，所拼接的一级基因unigene可以进行后续分析研究。

利用Trinity软件对海岛棉Gb21和陆地棉Gh36的转录组数据进行从头组装，海岛棉组装得到了67,450个unigene(N50：904)，陆地棉有79,686个unigene(N50：880)这两组unigenes高度重叠，如图3A所示，对两个转录本重叠的部分进行合并，重新组装，共获得平均长度为740bp的All-unigenes共69,640个，将这些All-unigenes和网上已知的棉花unigene库(http://www.leonxie.com/)中28,432unigenes进行比对，65％的All-unigenes都能和棉花unigene比对上，所比对上的棉花基因数目占已知棉花unigene库的92.9％，如图3B和表3所示，只有2,017个unigene没有比对上，因此从棉花胚珠转录组组装的All-unigenes可以几乎代表了已知的所有unigene。

陆地棉和海岛棉均为四倍体，含有A和D基因组。由于D基因组亲本-二倍体G.雷蒙德棉的基因组序列已经获得，因此我们把胚珠转录组组装的All-unigenes和棉雷蒙德氏棉基因组(D基因组)数据进行序列比对进行了同源比对，结果如图3C所示，75.65％的All-unigenes能比对到D基因组，G.雷蒙德棉基因与胚珠unigene的同系物占G.雷蒙德氏蛋白编码基因的90.7％，这些研究结果也与四倍体栽培棉D基因组大部分基因在受精胚珠中表达的结论相一致。

我们分别对海岛棉样品、陆地棉样品测序的reads进行组装，另外还对两种样品测序得到的reads共同进行了组装，将短片段组装成长的转录本，以系统地鉴定转录本异构体(transcriptisoform)。从网上下载已知的棉花unigene库(http://www.leonxie.com/)，我们得到的组装结果和该库数据进行比较，去重复和低质量的reads，得到的unigene和已知棉花unigene库重新组装，获得联合unigene(combined-unigene)结果，如表3。所有的unigene和已知棉花数据库比对去重复得到的All-unigene，再和棉花数据的unigene重新组装得到combinedunigene数目是71,657，其平均长度为739bp。这些组装得到的combinedunigene，可用于基因功能注释分析。

拟南芥的基因注释是目前最好的植物注释，其基因是最好的功能分类。我们把棉花71,657个combined-unigene与拟南芥28,775个基因上进行比对，结果发现47,471(66.25％)combined-unigene比对到拟南芥数据库中。组装得到71,657个combined-unigene，总共有563,847(78.69％)unigenes得到基因注释，而仍有21.31％的unigene功能没有比对到拟南芥上如表4和图3D所示。这可能主要是由以下几方面原因造成的，一方面虽然现在测序技术发展迅速，由于海岛棉和陆地棉是异源四倍体，基因组数目巨大，很难用测序的方法获得棉花全基因组数据；另一方面测序得到的序列很短，且重复性很高，因此比对结果没有意义。虽然存在一部分没有比对的序列，这说明这些序列可能是棉花新发现的转录本，同时也是棉花特有的基因，这些基因可以区别于其他物种。

表4combined-unigene与已知蛋白数据库的比对结果

2.3确定combined-unigene的编码区序列(CDS)

由于棉花现在只有雷蒙德氏棉具有全基因组序列，因此我们将前面组装得到的71,657个combined-unigene与公共数据库NR(NCBInon-redundant)、NT(NCBInucleotidedatabase)、Swiss-Prot和TrEMBL中进行比对。首先，我们按NR、Swiss-Prot、KEGG和COG的优先级顺序，将combined-unigene序列与以上蛋白库做blastx比对(E-value<1.0e-5)，如果某个Unigene序列比对上高优先级数据库中的蛋白，则不进入下一轮比对，否则自动跟下一个库做比对，如此循环直到跟所有蛋白库比对完。我们取blast比对结果中序列相似性最高的的蛋白确定为该联合Unigene的编码区序列，然后根据标准密码子表将编码区序列翻译成氨基酸序列，从而得到该Unigene编码区的核酸序列(序列方向5'->3')和氨基酸序列。最后，跟以上蛋白库皆比对不上的Unigene我们用软件ESTScan(IseliC,JongeneelCV,BucherP.ESTScan:aprogramfordetecting,evaluating,andreconstructingpotentialcodingregionsinESTsequences[J].ProcIntConfIntellSystMolBiol,1999:138-148.)预测其编码区，得到其编码区的核酸序列(序列方向5'->3')和氨基酸序列，如表4所示，结果表明组装得到的71,657个combined-unigene中有52,038个(72.62％)个unigenes在设定的E值范围内比对到NR数据库的已知功能蛋白，47,905(66.85％)unigenes比对到NT数据库中，51,871(72.39％)unigenes比对到TrEMBL数据库，仅19,050(26.59％)和35,542(49.60％)unigenes比对到COG和Swissprot数据库。进一步，对海岛棉和陆地棉两个样本之间表达量不同的基因进行差异表达分析。

通过BlastX获得52,907个CDS，通过ESTScan预测得到1,678个CDS，如表5所示，CDS的长度在1,000bp以上的序列有9,692，条，占18.3％，这部分序列较长，编码的氨基酸可能是一个完整的开放阅读框，也可能是基因的全长序列。而通过ESTScan比对得到947个CDS主要在，300bp左右，序列较短。

表5编码蛋白框(CDS)的长度分布情况

2.4combinedUnigene的表达差异分析

本研究采用RPKM法(每百万reads中来自于某基因每千碱基长度的reads数，ReadsPerKbperMillionreads)来计算基因表达量，采用这个方法能去除基因长度和测序量差异对计算基因表达的影响，这样就可以直接用于比较海岛棉和陆地棉样品间的基因表达差异，获得在不同棉种同一棉纤维发育时期相对上调基因和下调基因。计算公式为其中，C为唯一比对到所述三级基因的读段数，N为唯一比对到所述参考基因或者参考基因组的总读段数，L为所述三级基因的编码区的碱基数。如果一个三级基因存在多个转录本，则用该基因的最长转录本计算其表达量。

根据海岛棉和陆地棉两个胚珠样本获得基因的表达丰度值RPKM做基因的差异表达分析，对Gb21与Gh36的0DPA纤维的转录组数据进行差异比较分析,如图4所示红色散点部分上调基因，绿色散点部分表示下调基因，统计发现，通过fold.change方法找到差异基因13,122条，其中上调基因9,392条，下调基因3,730条，如图5所示。

2.5两种棉花中差异表达的基因-功能聚类分析

为了认识差异表达基因的功能，可进一步对差异表达基因进行功能聚类分析，使用DAVID在线平台对海岛棉和陆地棉中差异表达的基因分别进行了功能聚类分析，选取的基因是有拟南芥对应关系的unigene。DAVID的功能聚类数据库整合了Geneontology，Interpro，KEGG等基因功能数据库。结果表明，三角状五肽重复、转运肽、ATP结合域、蛋白激酶活性、转运肽、叶绿体、富含亮氨酸拉链重复等通路在海岛棉和陆地棉中都有功能富集基因，而海岛棉中特有的基因富集是线粒体、果实发育、种子发育、电子载体、细胞色素P450、ABC转运体和光刺激应答等信号通路。在陆地棉种特有的基因功能富集于信号肽、DNA聚合酶活性、核酸内切酶和外切酶等。在海岛棉中特有的果实发育和种子发育的相关通路有基因的富集，推测是海岛棉棉花纤维品质优于陆地棉的原因。

以上通过本发明一方面的方法，通过与已发表的棉花功能基因(XieF,SunG,StillerJW,etal..Genome-widefunctionalanalysisofthecottontranscriptomebycreatinganintegratedESTdatabase[J].PloSone,2011a,6(11):e26980.)和雷蒙德氏棉已注释的蛋白编码基因序列比对，这些胚珠功能基因的真实性已经彻底被证明。这两个棉花品种中胚珠功能基因，给研究栽培种转录组基因或者筛选品种特异性棉纤维品质的候选基因提供理论依据。

实施例三：海岛棉GbMYB25基因的克隆及表达分析

通过转基因的方法将海岛棉中调控纤维发育的基因转化到陆地棉中，是提高陆地棉纤维品质的一个比较有效的方法(胡根海等，2005)。克隆和鉴定海岛棉中与纤维发育相关的基因，对改良棉花纤维品质具有重要的意义。棉花中约有200多个MYB转录因子基因(WangK,WangZ,LiF,etal..ThedraftgenomeofadiploidcottonGossypiumraimondii[J].Naturegenetics,2012,44(10):1098-1103.)，然而参与调控棉花纤维发育的MYB转录因子报道还不是很多，克隆更多的棉花MYB转录因子，有助于理解MYB转录因子在棉花纤维发育中的作用。从实施例二检测分析到94个MYB转录因子，比较了它们在海岛棉和陆地棉纤维发育不同时期的表达水平，大多数MYB转录因子基因被上调在海岛棉5和10DPA，这表明高表达的MYB转录因子基因是海岛棉纤维长度和质量优于陆地棉的原因。从海岛棉中克隆了一个R2R3-MYB类转录因子基因GbMYB25，分析该基因的结构，表达模式和蛋白的亚细胞定位，为进一步通过转化模式植物和棉花验证该基因的功能奠定实验基础。

3.1试验材料

分别收集海岛棉新海21(GossypiumbarbadenseL.cv.Xinhai21)开花当天的胚珠和开花后(DPA)5d、10d、15d、25d的纤维组织，用于提取RNA。

3.2方法

3.2.1RNA的提取与cDNA第一链的合成

按TRIzol试剂盒(Invitrogen)使用说明，提取开花当天(doa)的胚珠和开花后5d、10d、15d、25d的纤维组织总RNA。使用DNaseI(Fermentas)去除基因组DNA污染。

按照AMV反转录酶(TaKaRa)反转录说明书合成cDNA第一链。

75℃5min，冰上5min

25℃10min，42℃90min，95℃5min，冰上5min。

3.2.2GbMYB25基因cDNA序列克隆和同源性分析

根据陆地棉GhMYB25基因cDNA序列设计引物，用引物GbMYB25-F(SEQIDNO：5)和GbMYB25-R(SEQIDNO：6)扩增GbMYB25的开放阅读框(ORF)，以开花后5d棉纤维cDNA为模板，扩增基因ORF序列。

94℃，5min，94℃，30s，60℃，45s，72℃，1min，35个循环；72℃，10min。

在1.2％琼脂糖中电泳PCR产物。按照凝胶回收试剂盒(TaKaRa)操作步骤回收目的片段，按pMD18-T(TaKaRa)载体说明书操作步骤将回收目的片段连接载体，按E.coliDH5α感受态细胞(TransGen)操作步骤转化，筛选阳性克隆测序。

利用Blast检索GenBank获得同源序列，用DNAMAN软件进行同源性分析。利用psort在线程序预测蛋白的亚细胞定位(http://www.psort.org/)。利用GORIV程序(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl？page＝npsa_gor4.html)和swissmodel程序(http://swissmodel.expasy.org/workspace/index.php？func＝modelling_simple1&userid＝USERID&token＝TOKEN)分别预测蛋白质的二级和三级结构。利用在线SMART软件预测蛋白的保守功能域(http://smart.embl-heidelberg.de/)。

表6引物序列

3.2.3GbMYB25基因的DNA序列克隆

按照基因组DNA试剂盒说明书(Tiangen)提取新海21叶片DNA。用GbMYB25-F/R引物进行PCR扩增、克隆并测序，方法同3.2.2，获得如SEQIDNO：1所示的基因序列。用DNAMAN软件对cDNA序列与基因序列进行分析，确定基因中内含子的插入位点和长度。

3.2.4实时定量PCR分析

利用实时定量PCR方法，以棉花开花当天(dpa)的胚珠和开花后(dpa)5d、10d、15d、25d的纤维组织反转录产物为模板，检测GbMYB25基因在胚珠和不同发育时期棉纤维中的表达情况。GbMYB25基因扩增引物为：GbMYB25-qF和GbMYB25-qR。以泛素基因(ubiquitin)作为内标基因，扩增引物为GbUBQ7-F和GbUBQ7-R，如表6所示。

使用荧光定量PCR仪ABI7000(ABIPrism)进行实时定量PCR分析，每个样品3次重复。PCR程序为95℃3min；95℃5s，59℃20s，72℃15s，共45个循环；采用2-△△CT方法对数据进行分析。实验进行3次生物学重复。

3.2.5GbMYB25植物表达载体的构建和在洋葱表皮的亚细胞定位分析

根据GbMYB25基因ORF序列和pEGAD的酶切位点设计引物，正向引物GbMYB25-NF添加EcoRI酶切位点，反向引物GbMYB25-NR添加BamHI酶切位点。按照质粒小提试剂盒操作步骤，提取pMD18-T-GbMYB25质粒。以该质粒为模板，进行PCR扩增。PCR体系与程序同3.2.2。用EcoRI和BamHI双酶切植物表达载体pEGAD和GbMYB25回收产物，用T4DNA连接酶16℃连接目的片段到植物表达载体中。构成pEGAD-GbMYB25瞬时表达载体。

按照BiolisticPDS-1000/HeParticleDeliverySystem的方法用金粉包埋DNA。按照参考文献的方法(NiZ,HuZ,JiangQ,etal..GmNFYA3,atargetgeneofmiR169,isapositiveregulatorofplanttolerancetodroughtstress[J].Plantmolecularbiology,2013,82(1-2):113-129.)制备转化质粒子弹并轰击洋葱表皮细胞，转化后暗箱培养16～24h，制片，用LeicaMicrosystem激光共聚焦显微镜观察。

3.3结果与分析

3.3.1GbMYB25基因ORF序列克隆及分析

根据陆地棉GhMYB25序列设计引物，用RT-PCR方法，从海岛棉中获得同源序列，将其命名为GbMYB25。GbMYB25编码区长930bp，编码309个氨基酸，预测分子量约为34.762kDa，等电点为8.08。GbMYB25蛋白的N端区包含2个SANT保守结构域，分别位于第13-63位和第66-114位氨基酸，该结构域为R2R3型MYB家族基因所特有的，因此该基因为R2R3型MYB转录因子。

利用GORIV程序预测蛋白质的二级结构，GbMYB25蛋白由309个氨基酸组成，其中82个氨基酸可能形成α螺旋，60个氨基酸可能形成延伸带，167个氨基酸可能形成无规卷曲。组成α螺旋、延伸带、无规卷曲的氨基酸比例分别为26.54％，19.42％和54.05％。α螺旋、延伸带、无规卷曲分布如图6所示。利用Swiss-PdbViewer(v3.7)程序在SWISS-MODEL数据库中进行GbMYB25蛋白质的三级结构分析，得到该蛋白的三级结构图，如图7所示。

同源性分析表明，海岛棉GbMYB25与陆地棉GhMYB25(Gossypiumhirsutum，ACJ07153.1)之间的氨基酸序列一致性为99.35％，相差两个氨基酸，GbMYB25与雷蒙德氏棉(Gossypiumraimondii，ADZ98880)、亚洲棉(Gossypiumarboreum，ADZ98879.1)、草棉(Gossypiumherbaceum，ADZ55318.1)、可可(Theobromacacao，XP_007046022.1)和克莱门柚(Citrusclementina，XP_006438735.1)氨基酸序列一致性分别为55.91％、55.64％、55.64％、65.8％和56.96％。这些MYB相关蛋白除N端序列的保守性较高外，其他区域一致性较低。

图8系统发生树分析表明，GbMYB25和GhMYB25归为一组，表明海岛棉和陆地棉同类基因的亲缘关系较近，而棉花雷蒙德氏棉、亚洲棉和草棉为一个分支。

3.3.2GbMYB25基因DNA序列分析

从新海21基因组DNA中克隆到了GbMYB25的基因组序列，如图9，利用DNAMAN软件分析比对基因组与cDNA序列，结果表明，GbMYB25基因全长1,084bp，由3个外显子和2个内含子组成。3个外显子的长度分别为133bp、131bp和667bp。第一个内含子的长度为84bp，第二个内含子长度为69bp，分别插入在45G氨基酸之内和88R氨基酸之内。2个内含子的左右边界均为GT-AG结构，这就保证了在RNA加工过程中内含子被正确识别和切除。

3.3.3GbMYB25基因的表达特性

为了分析GbMYB25基因的功能，采用实时定量PCR方法分析在开花当天的胚珠和不同发育阶段棉纤维中GbMYB25基因的表达。如图10所示，GbMYB25基因在开花当天的胚珠中的表达量比在不同发育时期的棉纤维中的表达量高。在发育不同阶段的棉纤维中，GbMYB25基因在5dpa的棉纤维中表达量明显高于其他发育时期的棉纤维，据此推测GbMYB25基因可能在棉纤维起始发育阶段中具有一定的功能。

3.3.4GbMYB25蛋白的亚细胞定位分析

用载体Psport分析GbMYB25基因编码蛋白的亚细胞定位，结果表明该蛋白中含有一段核定位信号区(NLS)。利用基因枪介导的方法将pEGAD-GbMYB25转化洋葱表皮后，发现GbMYB25融合蛋白则只存在于细胞核内，而hGFP对照存在于洋葱表皮细胞质和细胞核中，如图11所示，说明预测的GbMYB25蛋白的核定位信号区具有核定位的功能。

以上，海岛棉GbMYB25基因在开花当天的胚珠中优势表达，在5DPA的纤维中表达量相比纤维发育其他时期表达量高，说明GbMYB25基因可能在棉纤维发育起始阶段具有参与调控棉花纤维起始发育的功能。

实施例四：海岛棉GbDET2基因的克隆及表达分析

海岛棉(Gossypiumbarbadense)以纤维较细、结构致密、强度较高著称，在四个棉属栽培种中纤维品质最优。细胞壁松弛和液泡膨压是纤维细胞持续性伸长的重要过程，需要一些植物激素的调控(RuanYL,LlewellynDJ,FurbankRT.Thecontrolofsingle-celledcottonfiberelongationbydevelopmentallyreversiblegatingofplasmodesmataandcoordinatedexpressionofsucroseandK⁺transportersandexpansin[J].PlantCell,2001,13(1):47-60.)。本申请在转录组、表达谱分析的基础上，为了研究海岛棉纤维发育相关基因的功能，利用基因工程调控棉花中内源BRs，改良棉花纤维的产量和品质。我们以12个海岛棉品种为材料，开展了BRs生物合成的限速酶基因—类固醇5α-还原酶基因(DET2)的克隆及相关特征分析研究。并对不同发育时期棉花纤维中的表达模式进行了研究，为进一步阐明类固醇5α-还原酶调节内源BRs在棉花纤维发育进程中的作用，并为棉纤维发育和棉纤维品质形成过程中的重要功能奠定重要的理论基础。

4.1材料和方法

4.1.1实验材料

供试材料新疆品种(军海1号、新海21号和新海36号)、美国品种(pima90-5379、pimas-7和pimas09353)、埃及品种(吉扎1号、吉扎30号和吉扎69号)以及前苏联品种(9078依、C-6019和司-6002)种植于试验田，常规大田管理。在棉花盛花期中分别对棉铃挂牌标记，取开花后不同天数(0、5、10、15和25DPA)的棉铃，将胚珠立即投入液氮速冻，-80℃超低温冰箱保存。

4.1.2RNA的提取和cDNA的制备

按Trizol试剂说明书，提取不同发育时期的纤维样品总RNA，经DNaseI处理潜在的DNA污染，1.0％琼脂糖凝胶电泳检测总RNA的完整性。cDNA第一链的合成操作步骤按照TaKaRa公司M-MLV反转录试剂盒说明书进行。

4.1.3基因的克隆

针对陆地棉、葡萄、马铃薯等BRs基因序列的保守区设计特征引物，并由生工生物工程有限公司合成。以GbDET2-F(SEQIDNO：13)和GbDET2-R(SEQIDNO：14)为引物，cDNA第一链为模版进行PCR扩增。

反应程序:

94℃预变性5min；94℃变性30s；59℃退火45s；72℃延伸60s；30个循环；72℃延伸7min，于4℃保存。

PCR产物经1％的琼脂糖凝胶检测，利用天根公司凝胶回收试剂盒纯化，回收产物连接到天根公司的克隆载体pGM-T，通过转化大肠杆菌DH5α，经蓝白斑筛选挑取白斑过夜摇菌，提取质粒酶切鉴定，鉴定正确的阳性克隆由生工生物工程有限公司完成测序。

4.2基因的生物信息学分析

利用DNAMAN软件分析不同物种来源的同源基因，搜索最大开放阅读框(OpenReadingFrame，ORF)；在NCBI数据库中对推导出的氨基酸序列进行BlastP比对(http://www.ncbi.nlm.nih.gov/blast/)，分析该氨基酸序列与其他物种的同源性；利用ProtParam程序(http://web.expasy.org/protparam/)进行推导氨基酸保守结构域及性质；利用ClustalW和MEGA5.0软件输出同源比对和进化树构建结果。

4.2.1基因的表达分析

根据基因序列特征设计实时荧光定量引物GbDET2-QF和GbDET2-QR，如表7所示，以棉花泛素基因7(ubiquitin7)(UBQ7，登录号:DQ116441)作为内参基因，设计引物UBQ7-F和UBQ7-R。以不同发育时期的棉纤维cDNA为模板，采用TaKaRa公司的PrimeScriptRTreagentKit.SYBRGreen试剂盒,利用Life公司的7500FastRealPCRSystem实时荧光定量PCR仪进行扩增。分析该基因在棉纤维中的表达情况。反应程序：94℃预变性5min，94℃变性15s，60℃退火20s，72℃延伸20s，40个循环。每次实验设三个重复，实验结果按照2-ΔΔCt法进行分析。

表7引物

4.2.2GbDET2基因的克隆与序列分析

设计引物，以新海21号10DPA的纤维组织cDNA为模板，通过PCR扩增，获得的DNA片段约为800bp。经序列分析，此DNA片段包含一个777bp的ORF，编码一个258个氨基酸的蛋白质。ProtParam程序分析该蛋白分子式为C₁₄₆₃H₂₁₁₃N₃₄₇O₃₄₇S₁₀，分子量为30.43kDa，理论等电点是9.35，属于稳定类蛋白。

为了确定该序列与不同物种的类固醇5α-还原酶的同源性，将氨基酸序列在NCBI数据库中进行比对，结果表明该序列与陆地棉DET2的同源性最高，为98.45％，与拟南芥、葡萄、马铃薯等物种的DET2基因的同源性在60％～69％，该序列就是海岛棉GbDET2基因序列。

为了进一步分析GbDET2序列的特征，我们将陆地棉GhDET2(Gossypiumhirsutum，AY141136)、拟南芥AtDET2(Arabidopsisthaliana，NM_129361)、葡萄VvDET2(Vitisvinifera，XM_002277864)、大豆GmDET2(Glycinemax，XM_003530204)、水稻OsDET2(Oryzasativa，NT_079927)、马铃薯StDET2(Solanumtuberosum，XM_006363009)、牵牛花PnDET2(Pharbitisnil，AB106360)和豌豆PsDET2(Pisumsativum，AY573897)的DET2蛋白序列进行多重比较。从比对分析结果中可以看出，不同物种DET2的氨基酸残基具有较高的保守性，特别是在氨基酸序列的C-端部分，该区域是DET2的保守结构域。经MEGA5.0软件分析，所提交的序列分为两组，单子叶水稻占一组，其他双子叶植物占一组，其中陆地棉与海岛棉的亲缘关系最近，如图12所示。

4.2.3GbDET2基因在不同海岛棉品种(系)的序列分析

为了探明GbDET2基因在12个海岛棉品种中的序列结构变化和进化关系，以GbDET2-F和GbDET2-R为引物，对12个品种进行PCR扩增，得到了大小一致的目的片段，如电泳图图13所示，将测序结果进行分析，结果发现不同品种的海岛棉，DET2蛋白序列非常保守。

4.2.4GbDET2基因的表达特征分析

为了揭示海岛棉GbDET2基因在纤维生长发育过程中的表达特征，并同陆地棉GhDET2基因的表达作比较。提取0、5、10、15、25DPA的纤维总RNA并进行实时定量PCR分析。结果如图14所示，DET2基因从开花当天到开花后25天的纤维中都有表达，并且在不同发育时期基因的表达水平不同。之后随着胚珠和纤维发育开始逐渐下降。棉花纤维原始细胞是在开花当天(0DPA)从胚珠表面开始突起，GbDET2和GhDET2基因在5DPA的胚珠中快速表达，随后进入纤维细胞的伸长期，到10DPA的纤维中的相对表达水平最高；到15DPA纤维细胞的次生壁开始形成，伸长过程逐渐停止。DET2基因在纤维生长发育中的表达主要在纤维细胞伸长期。海岛棉GbDET2基因在次生壁形成期的表达，略高于陆地棉。总体而言，DET2基因在纤维的起始和伸长中具有重要作用。

以上，对海岛棉DET2基因的克隆和分析，对解析内源BRs与棉花纤维发育相互关系的分子机制提供帮助，并为将来棉花纤维的育种改良提供新的基因。

Claims

1.一种确定在棉花纤维发育过程中上调或者下调基因的方法，其特征在于，所述方法包括：

(1)分别从处于棉纤维发育第一时期和第二时期的样本中获得第一转录组和第二转录组，对所述第一和第二转录组进行测序，获得第一转录组测序数据和第二转录组测序数据，所述第一转录组测序数据和第二转录组测序数据各自包含多个读段；

(2)分别基于步骤(1)中的第一转录组测序数据和第二转录组测序数据进行一级组装，获得第一一级组装数据和第二一级组装数据，所述第一一级组装数据和第二一级组装数据各自由多个一级基因构成；

(3)合并获自步骤(2)的第一一级组装数据和第二一级组装数据，利用所述第一一级组装数据和第二一级组装数据中有重叠的一级基因进行二级组装，获得二级组装数据，所述二级组装数据由多个二级基因构成；

(4)基于步骤(3)的二级组装数据和参考基因的重叠关系进行三级组装，获得三级组装数据，所述三级组装数据由多个三级基因构成；

(5)计算所述三级组装数据中各个三级基因在所述棉纤维发育第一时期样本和所述棉纤维发育第二时期样本中的表达量；

(6)确定获自步骤(5)的各三级基因的在所述棉纤维发育第一时期样本和所述棉纤维发育第二时期样本中的表达量的差异是否显著，以确定所述在棉纤维发育过程中的上调基因或者下调基因。

2.权利要求1所述的方法，其特征在于，所述样本来源于棉花胚珠。

3.权利要求1所述的方法，其特征在于，所述棉纤维第一时期和第二时期分别选自0DPA、5DPA、10DPA、15DPA和25DPA中的任两个不同的时期，所述样本来源于同一棉种。

4.权利要求1所述的方法，其特征在于，所述棉纤维第一时期和第二时期为选自0DPA、5DPA、10DPA、15DPA和25DPA中的任一同一时期，所述样本来源于不同棉种。

5.权利要求1所述的方法，其特征在于，步骤(1)的测序包括进行所述第一转录组和第二转录组测序文库构建，所述测序文库构建包括步骤：

a)分别从所述处于棉纤维发育第一时期的样本和处于棉纤维发育第二时期的样本中获得第一mRNA和第二mRNA；

b)打断从a)中获得的第一mRNA和第二mRNA，获得第一mRNA片段和第二mRNA片段；

c)分别以b)中的第一mRNA片段和第二mRNA片段为模板，反转录合成第一cDNA第一链和第二cDNA第一链；

d)分别以从c)中获得的第一cDNA第一链和第二cDNA第一链为模板，获得第一双链cDNA和第二双链cDNA；

e)分别对从d)中所得的第一双链cDNA和第二双链cDNA进行末端修复，加A以及连接测序接头，获得所述第一转录组测序文库和所述第二转录组测序文库。

6.权利要求5所述的方法，其特征在于，于步骤e)中连接测序接头之后，进一步对连接测序接头的片段进行大小选择。

7.权利要求1所述的方法，其特征在于，步骤(2)中的一级组装包括：

a)通过分别拼接所述第一转录组测序数据中的有重叠关系的读段或者所述第二转录组测序数据中的有重叠关系的读段，获得第一重叠群和第二重叠群，所述第一重叠群和第二重叠群各自包含多个重叠片段；

b)基于所述第一转录组测序数据中的有距离关系的读段或者所述第二转录本测序数据中的有距离关系的读段，以及所述有距离关系的读段在各自重叠群中的重叠片段上的位置，分别对所述第一重叠群或者所述第二重叠群中的重叠片段进行拼接，获得所述第一一级组装数据和第二一级组装数据，所述有距离关系的读段是指来自所述转录组测序文库两端的读段。

8.权利要求1所述的方法，其特征在于，进行步骤(3)的二级组装之前，对所述第一一级组装数据和第二一级组装数据合并后的数据去冗余。

9.权利要求1所述的方法，其特征在于，步骤4)中的参考基因是已知棉花的Unigene库。

10.权利要求1所述的方法，其特征在于，进行步骤(5)之前包括，确定所述三级基因的编码区序列。

11.权利要求10所述的方法，其特征在于，所述三级基因的编码区序列是通过将所述三级基因比对已知蛋白数据库来确定的。

12.权利要求11所述的方法，其特征在于，所述已知蛋白数据库包括NR、Swiss-Prot、KEGG、TrEMBL和COG的至少之一。

13.权利要求12所述的方法，其特征在于，确定所述各个三级基因的编码区序列包括步骤：

a)将所述各个三级基因序列与NR数据库进行比对，对于比对上所述NR数据库的三级基因，根据与其具有序列最高相似性的蛋白确定所述比对上NR数据库的三级基因的编码区序列；

b)将在a)中没有比对上NR的三级基因与Swiss-Prot数据库比对，对于比对上Swiss-Prot数据库的三级基因，根据与其具有序列最高相似性的蛋白确定所述比对上Swiss-Prot数据库的三级基因的编码区序列；

c)将在b)中没有比对上Swiss-Prot数据库的三级基因与KEGG数据库比对，对于比对上KEGG数据库的三级基因，根据与其具有序列最高相似性的蛋白确定所述比对上KEGG数据库的三级基因的编码区序列；

d)将在c)中没有比对上Swiss-Prot数据库的三级基因与TrEMBL或COG数据库比对，对于比对上TrEMBL或COG数据库的三级基因，根据与其具有序列最高相似性的蛋白确定所述比对上TrEMBL或COG数据库的三级基因的编码区序列；

e)将在e)中没有比对上TrEMBL或COG数据库的三级基因进行编码区预测；

其中，所述比对上已知蛋白数据库是指将所述三级基因与所述已知蛋白数据库进行Blastx比对时，e值不大于1.0e^-5的比对结果中显示有匹配上的蛋白序列。

14.权利要求10-13任一所述的方法，其特征在于，步骤(5)中三级基因的表达量是利用RPKM法计算的，计算所述三级基因表达量的公式为其中，C为唯一比对到所述三级基因的读段数，N为唯一比对到所述参考基因的总读段数，L为所述三级基因的编码区的碱基数。

15.权利要求14所述的方法，其特征在于，在步骤(6)中，当三级基因在所述棉纤维发育第一时期样本和在所述棉纤维发育第二时期样本中的差异表达倍数不小于2并且错误发现率不大于0.01表明差异显著，确定所述三级基因为在所述棉纤维发育过程中的上调或下调基因，其中，所述差异表达倍数为所述三级基因在棉纤维发育第一时期样本和棉纤维第二时期样本中的较大的RPKM值除以较小的RPKM值。

16.棉花GbMYB25基因，其具有以下核苷酸序列之一：

(1)如SEQIDNO：1所示的gDNA序列，或(2)如SEQIDNO：2所示的编码区序列。

17.权利要求16所述的基因编码的多肽，其具有如SEQIDNO：3所示的氨基酸序列。

18.一种表达载体，其含有权利要求16所述的基因。

19.一种宿主细胞，其含有权利要求18所述的表达载体。

20.权利要求16所述的基因的用途，其用于调控棉花纤维起始发育。

21.权利要求20所述的基因的用途，所述调控棉花纤维起始发育是调控棉花胚珠中的纤维细胞的纤维基因的表达。

22.权利要求20或21所述的用途，所述棉花纤维起始发育的阶段为0-5DPA。

23.扩增权利要求16所述的基因的引物对，所述引物对具有如SEQIDNO：5和SEQIDNO：6所示的序列。

24.棉花GbDET2基因，其具有SEQIDNO：4所示的序列。

25.一种表达载体，其含有权利要求24所述的基因。

26.一种宿主细胞，其含有权利要求25所述的表达载体。

27.权利要求24所述的基因在改良棉纤维的产量和品质中的用途。

28.权利要求27所述的用途，通过所述基因调控油菜素类固醇物质来改良棉纤维的产量和品质。

29.扩增权利要求24所述的基因的引物对，所述引物对具有SEQIDNO：13和SEQIDNO：14所示的序列。