CN101365803B

CN101365803B - 采用高通量测序技术的改进的转录谱描述策略

Info

Publication number: CN101365803B
Application number: CN200680048630XA
Authority: CN
Inventors: M·J·T·范艾杰克
Original assignee: Keygene NV
Current assignee: Keygene NV
Priority date: 2005-12-22
Filing date: 2006-12-21
Publication date: 2013-03-20
Anticipated expiration: 2026-12-21
Also published as: US20090247415A1; JP5198284B2; ES2394633T3; DK1966394T3; WO2007073171A2; JP2009520500A; CN101365803A; WO2007073171A3; EP1966394A2; EP1966394B1

Abstract

描述了确定cDNA中核苷酸序列以及确定cDNA样品中核苷酸序列频率的方法，还描述了不需基因的序列信息即可(无偏)确定这些基因的相对转录水平的方法，所述方法采用复杂性降低和(高通量)测序。

Description

采用高通量测序技术的改进的转录谱描述策略

技术领域

本发明涉及分子生物学和遗传学领域。本发明涉及基于采用高通量测序技术而确定转录本序列的改进的策略。本发明还涉及用于无偏(unbiased)转录谱描述(transcript profiling)的改进策略。

背景技术

转录特征描述是现代生物技术研究中所用的基础性技术之一。转录谱描述的主要应用领域是发现复杂性状所涉及的基因。这包括多种生物现象，如发现(人类)疾病所涉及的基因以鉴定靶标用于开发对疾病的疗法(靶标发现)、阐明控制生物分子合成的生物化学途径(发酵工业)、剖析植物或动物育种中的复杂性状(基因发现)、以及很多其它现象。

第二种应用领域遵循相反的途径，即，将转录谱描述用于(所选的亚组)基因的转录谱(transcript profile)的常规诊断测定，以预测复杂的表型。该类中的例子是人乳腺癌(Van de Vijver等，2002，N.Engl.J.Med.，第347卷)25：1999-2009；van′t Veer等，2002，Breast Cancer Res.，第5卷(1)：57-8；www.agendia.com)和乳头状肾细胞癌((Yang等，2005))的分子分型、诊断和临床预后的预测。Schadt及其同事描述了鉴定相关基因的方法，该方法基于从分离的群体中收集的转录谱描述数据(2005，Sci.STKE，第296卷：pe40)。简言之，转录谱描述在生命科学研究中极其重要。

过去十年中，快速发展了用于转录谱描述的技术。直到九十年代早期(在PCR广泛可用后不久)，(一直)用RNA印迹分析或RNA酶保护实验来进行转录谱描述。虽然这些技术相当特异和灵敏(尤其是RNA酶保护实验)，这些技术的限制在于当时只能分析一个或少数几个基因(低通量)，而其操作冗长乏味又耗时。此外，这两种方法都需要使用对健康有害的放射性标记技术。

随着1992年差异展示(DD)技术(Liang & Pardee，1992，Science，第257卷(5072)：967-71)的出现和DD的很多改进和完善(例如，有序差异展示(OrderedDifferential Display)，Matz等，1997，Nucl.Acids.Res.，第25卷(12)：2541-2)，迈出了通向多路(multiplexed)转录谱描述的第一步。DD的特征在于，通过随机设计的PCR引物和待分析cDNA样品的低严紧性退火而靶定随机亚组的基因，导致含有与所用PCR引物高同源性的序列的表达转录本的优选扩增。然后，用测序凝胶分辨扩增的产物，产生指纹图谱，其代表了被转录的基因亚组。虽然相对于RNA印迹和RNA酶保护实验，DD方法具有较高的通量，但限制在于这些技术的可重现性/耐用性(robustness)相当低。这部分是因为所用随机PCR引物的非特异性退火。因此，用不同的随机引物产生的指纹图谱没有系统性地靶定不同(互补)的转录本亚组。另一个缺点是DD方法需要制备板凝胶(slab-gel)或用毛细管凝胶电泳检测。还有另外一个限制是指纹图谱中观察到的条带的基因来源是未知的，需要切胶、稀释、重新扩增和DNA测序才能发现；其它基于指纹图谱的转录谱描述方法也存在后一种限制。最后，由于在每个凝胶泳道或毛细管轨迹上检测50-100个片段，使该技术具有中等的多路性(multiplexed)。

cDNA-AFLP方法(Bachem等，1996，Plant J.，第9卷(5)：745-53)解决了DD技术的主要限制中的两种，即可重现性/耐用性()和从用不同PCR引物产生的指纹中获得信息的互补性。因为采用选择性

(关键基因股份有限公司(Keygene N.V.)，荷兰；见，例如，EP 0534858和Vos P.，等(1995).AFLP：一种用于DNA指纹的新技术(AFLP：a new technique for DNAfingerprinting.)，Nucleic Acids Research，第23卷，No.21，p.4407-4414)引物在高严紧性条件下发生接头连接的限制性片段的扩增，产生重现性高的指纹图谱，因此cDNA-AFLP的有效性和可重现性很高。此外，使用具有不同的选择性核苷酸的选择性AFLP引物能确保获得含有互补信息的指纹。因此，cDNA-AFLP技术使得能够对转录组(transcriptome)亚组进行可重复的取样(sampling)。(cDNA-)AFLP(以及DD)的另一个优势是事先不需要知道序列信息，因此，该技术可应用于多种生物体。cDNA-AFLP的限制是每个泳道/轨迹上多路性水平中等，并且不能直接知道各条带的基因来源(也参见DD)。

SAGE(基因表达系列分析()；Velculescu等，1995，Science，第270卷(5235)：484-7)和大规模平行信号特征测序(Massively Parallel SignatureSequencing)(MPSS：Brenner等，2000，Nature Biotechnology，第18卷(6)：630-4；Meyers等，2004，Nature Biotechnology，第22卷(8)：1006-11)均解决了上述转录谱描述方法中多路性水平的限制。像cDNA-AFLP一样，这两种方法均采用IIS型限制性酶切割样品cDNA，然后用接头连接。

SAGE中，接下来连接接头一连接的片段并用桑格(Sanger)测序法测序。从桑格测序轨迹中提取短的、14-20bp的序列标签，提供被转录基因的定量信息(“数字化Northern”)。通过比较各样品间标签的频率，获得研究的各样品间相对表达水平的信息，而不需事先知道序列信息。虽然这可(精确)测定不同样品中的相对转录丰度，但除非已获得了被研究生物体的大量EST库或全基因组序列，或者可对标签序列进行同源性搜索如BLAST(基础本地比对搜索工具(BasicLocal Alignment Search Tool))分析，否则对于获得的短序列标签，很难评价从哪些基因衍生了这些标签。因此，虽然SAGE具有高度多路性、可重现性和耐用性，但其价值限于基因组已测序的生物体。另外一种限制是由于大规模桑格测序的成本，该方法不是很适于处理大量样品(低通量)。

与SAGE不同，MPSS基于固相测序反应。然而，MPSS基本上与SAGE受到同样的限制，即，获得了很短的序列标签(约20bp)，这严重限制了在可利用的(基因组)序列有限的生物体中对感兴趣序列标签的进一步跟进(基因鉴定/试验转换)。总之，虽然SAGE和MPSS是有效的(robust)、高度多路性的转录谱描述技术，它们不需要使用事先已知的序列信息，但实际应用中它们的价值限于全基因组序列已确定或大量EST库已可用的生物体，以将序列标签与基因相联系。这两种方法均是低通量的，并且技术上较复杂。

概念上很强的观点是，这两种方法均依赖于转录本库的统计抽样(产生“数字化Northerns”)和精确的序列测定，其同时提供很多基因的(相对)转录水平的无偏评估，以及转录谱描述不受与固体支持物上探针的交叉杂交限制这一事实。

1995年，引入了基因表达微阵列(Schena等，1995，Science，卷270(5235)：467-70)，其代表了转录谱描述领域的一种典范性的(paradigm)转换。虽然一开始时使用了含有EST-衍生的PCR产物作为探针的所谓“点状”微阵列，但接下来很多年中，焦点转移到寡核苷酸DNA芯片上(Pease等，1994，Proc.Nat.Ac.Sci.USA，卷91(11)：5022-6)，因为它们具有更高的耐用性和缩放灵活性(scaling flexibility)。当前，转录谱描述市场上占优势的是各供应商(例如昂飞(Affymetrix)、宁博根(Nimblegen)、安捷伦(Agilent)，等)提供的寡核苷酸DNA芯片。DNA芯片的能力在于大量DNA序列可结合在其表面上或在其表面上合成，从而能够进行大规模平行转录谱描述，允许对例如所有已知人类基因的转录谱描述(＝基因的高度多路水平)。此外，芯片制做和杂交的过程可为自动化和可控制，从而分别允许高通量和高耐用性。因此，DNA芯片是伊斯兰教纪元(anno)2005年转录谱描述的技术状态。然而，虽然多路能力、通量和耐用性是DNA芯片非常重要的优势，但基于芯片的转录谱描述有非常重要的两个限制，即，需要序列信息从而能够建立芯片、高度同源性序列(如衍生自重复的基因家族的成员序列)之间的交叉杂交可能会影响结果的准确性。后一种限制很难监测/排除，因为它是基于杂交的检测方法的内在特征。因为这些事实，很难将用不同供应商提供的DNA芯片(反映不同的潜在(underlying)生产技术和应用程序)获得的结果进行比较(Yauk等，2005，Nucleic AcidsResearch，卷32(15)：e124)。在一个平台中，需要用独立的方法例如实时PCR试验(例如泰克曼，英瓦德(TaqMan，Invader))来验证获得的结果。因此，DNA芯片提供的数据不适合数字化Northern的概念，但是当对所有样品采用同一平台时，DNA对于测定相对表达水平是有用的。

理想地，转录谱描述技术是高度多路性的(即，可同时研究很多基因)、高通量、非常耐用和可重现、高度精确(不受限于交叉杂交)并且其应用不需要事先知道序列信息。下文描述的发明提供了适合这些标准的方法。

发明概述

本发明的发明人现已发现，可用一种不同的策略解决所述问题，可在转录谱描述中有效地使用高通量测序技术。

本发明包括采用优选将转录组分成可重现的亚组的技术。对这些亚组进行测序并装配成对应于各个转录本的毗连群(contig)。重复该步骤，从而提供不同的可重现的亚组，获得不同组的毗连群。这些不同的毗连群用于装配转录本的草拟(draft)序列。本发明不需要序列的任何信息，并可用于任何复杂性的转录本。本发明还可用于转录本的组合，例如，从相同生物体的不同组织或不同生物体衍生的转录本组合。本发明提供一种获得感兴趣的任何转录本的更迅速、可信和更快的方法，因此提供了对转录本更快速的分析。

本发明还涉及不需要基因的序列信息而(无偏)测定基因的相对转录水平。在这方面，通过对某cDNA样品复杂性减低的文库进行测序，并进行序列比对以确定该文库中所述序列被鉴定到的次数，从而确定该cDNA样品中所述序列的(出现)频率。可对第二个cDNA样品重复上述操作，如果需要，可标准化两个cDNA样品的频率并进行比较以确定相对转录水平。

定义

下文描述和实施例中用到了一些术语。为了提供对说明书和权利要求(包括这些术语限定的范围)的清楚、一致的理解，提供了以下定义。除非本文另有定义，所用所有技术和科学术语具有与本发明所属技术领域普通技术人员常规理解相同的含义。通过参考，整体引入所有出版物、专利申请、专利和其它参考文献的内容。

核酸：根据本发明，核酸可包括嘌呤和嘧啶碱基(优选分别是胞嘧啶、胸腺嘧啶、尿嘧啶、腺嘌呤和鸟嘌呤)的任何多聚体或寡聚体(见Albert L.Lehninger，生物化学原理(Principles of Biochemistry)，793-800(沃斯出版社，Worth Pub.1982)，通过参考整体引入本文用于所有目的)。本发明考虑任何脱氧核糖核苷酸、核糖核苷酸或肽核酸成分，及其任何化学变体，如这些碱基的甲基化、羟甲基化、或糖基化形式，等。这些多聚体或寡聚体在组成上可以是异质或同质的，可从天然来源分离得到，或通过人工或合成生产。此外，核酸可以是DNA或RNA，或其组合，可以单链或双链形式(包括同源双链、异源双链或杂交状态)永久或瞬时存在。

复杂性降低法(complexity reduction)：术语复杂性降低法用于表示一种方法，其中通过产生样品的亚组来降低核酸样品(如基因组DNA)的复杂性。所述亚组可代表整个(即，复杂的)样品，并且优选是可重现的亚组。该上下文中的可重现(reproducible)表示当用同样的方法降低同样的样品的复杂性时，获得同样的、或至少是相当的亚组。用于复杂性降低法的方法可以是本领域已知用于复杂性降低法的任何方法。用于复杂性降低法的方法的非限制性例子包括(关键基因股份有限公司，荷兰；见，例如EP 0534858)，Dong描述的方法(见，例如WO 03/012118、WO 00/24939)，索引连接(indexed linking)(Unrau，等，1994，Gene，145：163-169)，US 2005/260628、WO 03/010328、US 2004/10153中所述的方法，基因组分部(port ioning)(见，例如WO 2004/022758)，基因表达的系列分析(SAGE；见，例如Velculescu等，1995，见上，和Matsumura等，1999，The Plant Journal，卷20(6)：719-726)和SAGE的改动形式(见，例如Powell，1998，Nucleic Acids Research，卷26(14)：3445-3446；Kenzelmann和Muhlemann，1999，Nucleic Acids Research，卷27(3)：917-918)，微SAGE(见，例如Datson等，1999，Nucleic Acids Research，卷27(5)：1300-1307)，大规模平行信号特征测序(MPSS；见，例如Brenner等，2000，Nature Biotechnology，卷18：630-634和Brenner等，2000，PNAS，卷97(4)：16651670)，自我差减(self-subtracted)cDNA文库(Laveder等，2002，Nucleic Acids Research，卷30(9)：e38)，实时多路连接依赖性探针扩增(RT-MLPA；见，例如Eldering等，2003，卷31(23)：e153)，高覆盖性表达谱(HiCEP；见，例如Fukumura等，2003，Nucleic Acids Research，卷31(16)：e94)，Roth等，2004，Nature Biotechnology，卷22(4)：418-426描述的通用微阵列系统，转录组差减方法(见，例如Li等，Nucleic AcidsResearch，第33卷(16)：e136)，和片段展示(见，例如Metsis等，2004，Nucleic Acids Research，卷32(16)：e127)。本发明中所用复杂性降低法有一个共同点，即它们是可重现的。这种意义上可重现的意思是当用同样的方式降低同样的样品的复杂性时，获得该样品的同样的亚组，这与更具随机性的复杂性降低法相反，更具随机性的复杂性降低法例如()代表在所选组织中转录的一部分基因组的mRNA(cDNA)(其可重现性依赖于组织的选择、分离的时间等)或显微切割(microdissection)。

加标签：术语“加标签”指将标签加到核酸样品以使其能够与第二种或其它核酸样品区分。加标签可例如通过在复杂性降低法的过程中加入序列识别子来进行或通过本领域已知的任何其它手段进行。这些序列识别子可例如是独特的碱基序列，其独特地用于鉴定特定核酸样品并具有可变但确定的长度。其典型例子为例如ZIP序列。利用这种标签，可通过进一步处理来确定样品的来源。如果将来自不同核酸样品的经处理的产物混合在一起，则需要用不同的标签来鉴定不同的核酸样品。

加标签的文库：术语“加标签的文库”指加标签核酸的文库。

测序：术语“测序”指确定核酸样品(例如DNA或RNA)中核苷酸(碱基序列)的顺序。

做比对或比对：术语“做比对”和“比对”指基于两个或多个核苷酸序列存在短或长的相同或类似核苷酸节段而对这两个或多个核苷酸序列进行比较。本领域已知比对核苷酸序列的几种方法，下文也将进一步解释。有时术语“装配”(‘assembling’)或聚类(‘clustering’)用作同义词，虽然这些术语在技术上是不同的。比对是基于对最大同源性的比较，而装配指基于重叠而制备毗连群。

高通量筛选：高通量筛选常常缩写为HTS，是一种与生物和化学领域尤为相关的科学实验方法。通过现代机器人技术和其它专门的实验室硬件的组合，这种方法允许研究者同时有效地筛选大量样品。

高通量测序：用高通量技术确定核苷酸序列的序列。

限制性内切酶：限制性内切酶或限制性酶指识别双链DNA分子中特定的核苷酸序列(靶位点)并在各靶位点切割DNA分子的两条链的酶。

限制性片段：用限制性内切酶消化而产生的DNA分子称为限制性片段。任何给定基因组(或核酸，不管其来源)都可被特定的限制性内切酶消化成不连续的限制性片段组。限制性内切酶切割产生的DNA片段可进一步用于多种技术，可通过例如凝胶电泳来检测。

凝胶电泳：为了检测限制性片段，可需要基于大小对双链DNA分子分级的分析方法。实现这种分级的最常用技术是(毛细管)凝胶电泳。DNA片段在这种凝胶中移动的速率取决于它们的分子量；因此，随着片段长度增加，移动的距离减少。如果电泳图谱中包括的片段数目足够小，可用染色方法，例如银染或溴化乙锭染色，直接观察用凝胶电泳分级的DNA片段。或者，DNA片段的进一步处理中可在片段中掺入可检测的标记，例如荧光团或放射性标记。

连接：由连接酶催化的、将两条双链DNA分子共价结合在一起的酶反应称为连接。一般，两条DNA链共价结合在一起，但也可能通过对两个链末端中的一个进行化学或酶学修饰而阻止两条链中的一条发生连接。这种情况下，两条DNA链中只有一条发生共价结合。

合成的寡核苷酸：可化学合成的、优选具有约10-50个碱基的单链DNA分子称为合成的寡核苷酸。一般，设计这些合成的DNA分子使其具有独特的或所需的核苷酸序列，但也有可能合成具有相关序列但在核苷酸序列的特定位置具有不同核苷酸组成的分子家族。术语合成的寡核苷酸用于指具有设计的或所需的核苷酸序列的DNA分子。

接头：具有有限数目的碱基对(例如长度约10-30个碱基对)的短、双链DNA分子，经设计可连接于限制性片段末端。接头通常由两个合成的寡核苷酸组成，这两个合成的寡核苷酸具有彼此部分互补的核苷酸序列。合适条件下在溶液中混合这两个合成的寡核苷酸时，它们彼此退火，形成双链结构。退火后，设计接头分子的一端使其与限制性片段的末端相容并能与其连接；可设计接头的另一端使其不能连接，但不一定必需这样(双连接接头)。

接头连接的限制性片段：已经通过连接反应而端接有接头的限制性片段。

引物：一般，术语引物指可引发DNA合成的DNA链。DNA聚合酶不能在没有引物的情况下从头合成DNA：它只能延伸反应中已存在的DNA链，该反应中将互补链用作模板，指导待装配的核苷酸顺序。我们将用于聚合酶链式反应(PCR)中的合成寡核苷酸分子称为引物。

DNA扩增：术语DNA扩增通常用于指用PCR体外合成双链DNA分子。注意，存在其它扩增方法，它们可用于本发明中而不脱离本发明的本质。

发明详述

本发明提供一种确定cDNA核苷酸序列的方法，所述方法包括步骤：

(a)提供cDNA；

(b)对所述cDNA的至少一部分施用复杂性降低法，以获得包含cDNA片段的第一cDNA文库；

(c)用高通量测序确定所述第一文库中cDNA片段的至少部分核苷酸序列；

(d)比对步骤d)中所述第一文库的cDNA片段的核苷酸序列，以产生所述第一文库的毗连群；和

(e)确定cDNA的核苷酸序列。

迄今，在测序技术领域，还没有公开或暗示将cDNA的高通量测序与这种复杂性降低法相结合来描述转录本的用途。

在该方法的步骤(a)中，提供cDNA。本领域公知如何制备cDNA。下文描述了一种制备方法。然而，可采用任何制备cDNA的方法。

通常用反转录酶从mRNA制备cDNA(互补DNA)。这种情况下，如果提供与RNA碱基配对并含有游离3′-Oh基团的引物，则反转录酶合成与该RNA模板互补的DNA链。该引物可例如是与大多数真核mRNA分子3′末端的聚一A序列配对的寡聚-dT引物。然后可在四种三磷酸脱氧核糖核甙存在下合成cDNA链的其余部分。然后，通过例如提高pH，水解所得RNA-DNA链中的RNA链。与RNA不同，DNA耐碱性水解，因此DNA链保持完整。另一种可选的引物是随机引物。当反转录酶不能完全转录mRNA模板或如果存在二级结构，则cDNA的随机引发可能是有利的。另一种可选的引物可以是序列特异性引物。

分子生物学领域熟知从生物体的组织细胞或从生物体本身分离RNA的方法。而且，可购得用于cDNA合成的很多商业化试剂盒，例如可购自，AB基因(ABgene)、安比恩(Ambion)、应用生物系统(Applied Biosystems)、生物链(BioChain)、生物辐射(Bio-Rad)、克隆技术(Clontech)、GE健康护理(GEHealthcare)、基因选择(GeneChoice)、英杰(Invitrogen)、诺华根(Novagen)、恰根(Qiagen)、罗氏应用科学(Roche Applied Science)，层基因(Stratagene)，等.这些方法描述于，例如，Sambrook等(Sambrook，J.，Fritsch，E.F.，和Maniatis，T.，分子克隆：实验室手册.冷泉港实验室出版社，纽约，卷1，2，3(1989))。可从几种来源(例如细胞培养物、组织等)分离RNA。

在本发明方法的步骤(b)中，对所述cDNA的至少一部分进行复杂性降低法，以获得包含cDNA片段的第一cDNA文库。如定义部分所述，本领域已知很多用于复杂性降低法的方法。

在本发明一种实施方式中，核酸样品的复杂性降低法的步骤包括：酶学切割核酸样品成为限制性片段，分离所述限制性片段和选择限制性片段的特定的库。任选地，然后将所选片段连接于含有PCR引物模板/结合序列的接头序列。

在复杂性降低法的一种实施方式中，用IIs型内切酶消化核酸样品，将限制性片段选择性连接到接头序列。接头序列在待连接的凸出部分可含有各种核苷酸，只有在凸出部分具有相配核苷酸组的接头才被连接到所述片段并随后扩增。本领域将这种技术描述为“索引连接”。这种原理的例子可见例如Unrau和Deugau(1994)Gene 145：163-169。

在一种实施方式中，复杂性降低法利用具有不同靶位点和频率的限制性内切酶和两种不同接头序列来提供接头连接的限制性片段，如在AFLP中。

在本发明一种实施方式中，复杂性降低法的步骤包括在样品中进行任意引发PCR(Arbitrarily Primed PCR)。

在本发明一种实施方式中，复杂性降低法的步骤包括通过DNA变性和重新退火然后去除双链物来去除重复序列。

在本发明某些实施方式中，复杂性降低法的步骤包括将核酸样品与磁珠杂交，所述磁珠结合到含有所需序列的寡核苷酸探针。该实施方式还可包括使杂交的样品接触单链DNA核酸酶以去除单链DNA，连接含有IIs型限制酶的接头序列以释放磁珠。该实施方式可包括或不包括分离的DNA序列的扩增。而且，接头序列可用作或不用作PCR寡核苷酸引物的模板。该实施方式中，接头序列可包含或不包含序列识别子或标签。

在本发明某些实施方式中，复杂性降低法利用差异展示技术或READS(基因逻辑(Gene Logic))技术。

在本发明某些实施方式中，复杂性降低法包括使DNA样品接触错配结合蛋白，先用3′-5′核酸外切酶、然后用单链核酸酶消化样品。该实施方式可包括或不包括使用结合于所述错配结合蛋白的磁珠。

在本发明一种实施方式中，复杂性降低法包括本文另有描述的CHIP方法，或设计针对例如以下保守基序的PCR引物：例如SSRs、NBS区(核苷酸滞留区(nucleotide biding regions))、启动子/增强子序列、端粒(telomer)共有序列、MADS盒基因、ATP-酶基因家族和其它基因家族。

步骤(c)中，用高通量测序确定所述第一文库中cDNA片段的至少部分核苷酸序列。高通量测序方法的非限制性例子描述于WO 03/004690、WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007和WO 2005/003375(均在454公司名下(454Corporation))，Seo等(2004)Proc.Natl.Acad.Sci.USA 101：5488-93，以及太阳神(Helios)，索莱萨(Solexa)，美国基因组学(USGenomics)公司等的技术，均通过参考引入本文。最优选采用WO 03/004690、WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007和WO2005/003375(均在454公司名下(454Corporation))中所描述(纳入本文作为参考)的设备和/或方法来进行测序。所述技术允许单次运行中对4千万个碱基测序，比基于桑格测序和现有的毛细管电泳仪器如MegaBACE(GE健康护理)或ABI3700(xl)(应用生物系统)便宜并且快100倍。该测序技术大致由4个步骤组成：1)DNA断裂和将特定接头连接到单链DNA(ssDNA)文库；2)ssDNA退火到珠子上，珠子在油包水微反应器中乳化；3)将载有DNA的珠子置于

和(4)通过产生焦磷酸盐光信号(pyrophosphate lightsignal)对多孔同时测序。下文将更详细地解释该方法。

步骤(d)中，比对步骤(d)第一文库中的cDNA片段核苷酸序列以产生第一文库的毗连群。

通过由序列产生毗连群，装配过程从计算角度讲复杂性要更低，因此执行更快。通过比对文库中的序列，对于各引物组合，可建立限制性片段组中各限制性片段的毗连群。这产生一组毗连群，各对应特定的限制性片段。因此，现在，cDNA被至少一个限制性核酸内切酶限制性(切割)获得的各片段具有确定的(毗连群)序列。

本领域熟知用于比较目的的序列比对方法。多种非限制性程序和比对算法描述于Smith和Waterman(1981)，Adv.Appl.Math.2：482；Needleman和Wunsch(1970)J.MoI.Biol.48：443；Pearson和Lipman(1988)Proc.Natl.Acad.Sci.USA 85：2444；Higgins和Sharp(1988)Gene 73：237-244；Higgins和Sharp(1989)CABIOS 5：151-153；Corpet等(1988)Nucl.Acids Res.16：10881-90；Huang等(1992)Computer Appl.in the Biosci.8：155-65；以及Pearson等(1994)Meth.Mol.Biol.24：307-31，通过参考纳入本文。Altschul等(1994)Nature Genet.6：119-29(通过参考纳入本文)提供了关于序列比对方法和同源性计算的更详细信息。

可从几个来源包括国家生物信息中心(NCBI，Bethesda，Md.)以及因特网上获得NCBI基础本地比对搜索工具(BLAST)(Altschul等，1990)，可与序列分析程序blastp、blastn、blastx、tblastn、和tblastx联合运用。可由<http://www.ncbi.nlm.nih.gov/BLAST/>获得。可在<http://www.ncbi.nlm.nih.gov/BLAST/blast_help.html>获得如何用该程序确定序列同一性的描述。另一个应用可在小卫星发掘(microsatellite mining)(见Varshney等.(2005)Trends in Biotechn.23(1)：48-55)中。

在一种实施方式中，在已对接头/引物和/或识别子调整过但具有重新构建的限制性酶识别序列的序列数据上进行了比对，即，仅采用得自来源为所述cDNA的片段的序列信息。通常，获得的序列信息用于鉴定片段的来源(即来自哪个样品)，从数据中去除衍生自接头和/或识别子的序列，在经调整的组上进行比对。

在步骤(e)中，通过例如装配序列来确定cDNA的核苷酸序列。

所述方法例如可用于确定cDNA或所述cDNA复杂性降低的部分中存在的不同序列的数目，或者发现某些基因的表达。

在一种实施方式中，步骤(a)包括步骤：i)提供生物样品；ii)从所述生物样品分离总RNA或mRNA；iii)从总RNA或mRNA合成cDNA。

在一种实施方式中，在固体支持物例如珠子上进行高通量测序(见，例如WO03/004690，WO 03/054142，WO 2004/069849，WO 2004/070005，WO2004/070007，和WO 2005/003375(均在454公司名下，通过参考纳入本文)。此类测序方法尤其适于既便宜又高效地同时测序很多样品。

在另一种实施方式中，高通量测序基于“通过合成测序(Sequencing-by-Synthesis)”，优选焦磷酸测序(Pyrosequencing)。焦磷酸测序是本领域已知的，描述于例如www.biotagebio.com；ww.pyrosequencing.com/sectiontechnology。该技术进一步应用于例如WO 03/004690，WO 03/054142，WO2004/069849，WO 2004/070005，WO 2004/070007，和WO 2005/003375(均在454生命科学(454 Life Sciences)名下，通过参考纳入本文。这是一种尤其适于高通量测序的快速、高可重现性的技术。

在优选实施方式中，高通量测序包括步骤：

(c1)将测序接头连接到片段；

(c2)使测序接头连接的片段与珠子退火，各珠子与一个片段退火；

(c3)在油包水微反应器中乳化珠子，各油包水微反应器含有一个珠子；

(c4)进行乳剂PCR，以在珠子表面上扩增所述测序接头连接的片段；

(c5)选择/富集含有扩增的测序接头连接片段的珠子；

(c6)将珠子加载到孔中，各孔含有一个珠子；和

(c7)产生焦磷酸盐信号。

步骤c1)中，将测序接头连接到文库中的片段。所述测序接头至少包括用于与珠子退火的“关键”区、测序引物区和PCR引物区。因此，获得了加有接头的(adapted)片段。

步骤c2)中，使测序接头连接的片段与珠子退火，各珠子与一个片段退火。向测序接头连接的片段的库中加入过量的珠子以保证大多数珠子中的每一个均与单个加有接头的片段退火(泊松分布)。

步骤c3)中，在油包水微反应器中乳化珠子，各油包水微反应器含有一个珠子。

步骤c4)中，进行乳剂PCR，以在珠子表面上扩增所述测序接头连接的片段。PCR试剂存在于油包水微反应器中，允许PCR反应在微反应器中发生。

步骤c5)中，选择/富集含有扩增的测序接头连接片段的珠子。

步骤c6)中，将珠子加载到孔中，各孔含有一个珠子。所述孔优选是允许同时测序大量片段的PicoTiter^TM板的一部分。加入载有酶的珠子后，用焦磷酸测序确定片段序列。

步骤c7)中，产生焦磷酸盐信号。后续步骤中，PicoTiter^TM板、珠子和珠子中的酶在常规测序试剂存在下接触(subjected to)不同的脱氧核糖核苷酸，掺入脱氧核糖核苷酸后，产生光信号并记录。掺入正确的核苷酸将产生可用本领域已知方法检测到的焦磷酸测序信号。

在本发明方法的优选实施方式中，复杂性降低法通过包括以下步骤的方法进行：

i)用至少一种限制性核酸内切酶消化cDNA使其断裂成限制性片段；ii)将所述限制性片段与至少一个双链合成寡核苷酸接头连接，以产生接头连接的限制性片段，所述接头一端与限制性片段的一端或两端相容；iii)在杂交条件下，将所述接头连接的(片段)与一个或多个寡核苷酸引物接触，所述一个或多个寡核苷酸引物的引物序列包括与至少一个接头的一部分互补或与限制性核酸内切酶识别序列其余部分的一部分互补的核苷酸序列节段；和

iv)通过延伸所述杂交的一个或多个寡核苷酸引物来扩增所述接头连接的限制性片段。

用于复杂性降低法的上述方法也称为(关键基因股份有限公司(Keygene N.V.)，荷兰；见，例如，EP 0534858和Vos等(1995).AFLP：一种用于DNA指纹的新技术(AFLP：a new technique for DNA fingerprinting.)，Nucleic Acids Research，第23卷，No.21，4407-4414，通过参考全文纳入本文)。AFLP是一种用于复杂性降低法的可重现性很高的方法，因此特别适用于本发明方法。AFLP是一种用于选择性限制性片段扩增的方法。AFLP不需要事先知道任何序列信息，可在任何起始cDNA上进行。

因此，AFLP提供了接头连接的片段的可重现性亚组。AFLP技术的一种有用变化形式采用非选择性核苷酸(即，+0/+0引物)，有时称为连接子(linker)-PCR。其也提供了一种合适的复杂性降低法，尤其是对于转录本和由此获得的cDNA。

步骤i)中，用至少一种限制性核酸内切酶消化cDNA以将其断裂成限制性片段。在某些实施方式中，使用至少两种限制性核酸内切酶。在其它实施方式中，采用三种或多种限制性核酸内切酶。限制性核酸内切酶可以是频繁切割的酶，(即，通常是4和5切割的酶，即，识别序列分别是4或5个核苷酸的限制性核酸内切酶)，或是较少切割的酶(即，通常其识别位点分别有6个或更多核苷酸)，或其组合。在某些实施方式中，可采用较少切割和频繁切割的酶的组合。限制性核酸内切酶可以是任何类型，包括切割识别序列之外的cDNA的IIs和IISa型，它们可在识别序列一侧或两侧切割。

步骤ii)中，将所述限制性片段与至少一个双链合成寡核苷酸接头连接，以产生接头连接的限制性片段，所述接头一端与限制性片段的一端或两端相容。优选所述接头在接头连接后不恢复核酸内切酶识别位点。如果步骤i)中使用两种或多种限制性核酸内切酶，则还可能使用两种或多种不同的接头。该连接步骤产生接头连接的限制性片段。接头可以是钝端的或可含有凸出部分，这取决于步骤i)中所用的限制性核酸内切酶。

在一些实施方式中，接头可以是已知为索引连接子的一组接头(Unrau等，1994，Gene，145：163-169)。

步骤iii)中，在杂交条件下将所述接头连接的限制性片段与一个或多个寡核苷酸引物接触。所述一个或多个寡核苷酸引物的引物序列包括与至少一个接头的一部分或限制性核酸内切酶识别序列其余部分的一部分互补的核苷酸序列节段。

标准杂交条件是用于选择性杂交的条件。选择性杂交涉及在严紧性杂交条件下，相对于与非靶核酸序列杂交，核酸序列与特定核酸靶序列杂交的程度高至可检测的程度(例如，至少高于背景2倍)，这种杂交基本排除了非靶核酸。术语“严紧性条件”或“严紧性杂交条件”包括指在这种条件下探针与其靶序列的杂交相对于其它序列高至可检测的水平(例如，至少高于背景2倍)。严紧性条件是序列-依赖性的，在不同环境下严紧性条件也不同。通过控制杂交和/或洗涤条件的严紧性，可鉴定与探针100％互补的靶序列(同源性探测)。或者，可调整严紧性条件以允许序列中有一些错配，从而检测到较低程度的相似性(异源探测)。一般，探针长度小于约100个核苷酸，优选不多于50或25个核苷酸。通常，在严紧性条件中，pH7.0-8.3时，盐浓度小于约1.5M Na离子，通常为约0.01-1.0M Na离子浓度(或其它盐)，对于短探针(例如10-50个核苷酸)温度至少约30℃，对于长探针温度至少约60℃(例如，大于50个核苷酸)。也可通过加入去稳定剂(如甲酰胺)来获得严紧性条件。示例性低严紧性条件包括在37℃下、以下缓冲溶液中杂交：30-35％甲酰胺，1M NaCl，1％SDS(十二烷基硫酸钠)，，在50-55℃、1x-2x SSC(20xSSC＝3.0M NaCl/0.3M柠檬酸三钠)条件下洗涤。示例性中等严紧性条件包括在37℃、以下缓冲溶液中杂交：40-45％甲酰胺，1M NaCl，1％SDS，，在55-60℃、0.5x-1x SSC中洗涤。示例性高严紧性条件包括在37℃、以下缓冲溶液中杂交：50％甲酰胺，1M NaCl，1％SDS，，在60-65℃、0.1xSSC中洗涤。特异性通常是杂交后洗涤(条件)的函数，关键因子是最终洗涤溶液的离子强度和温度。对于DNA-DNA杂合体，Tm可由Meinkoth和Wahl，Anal.Biochem.，138：267-284(1984)所述方程估算：Tm＝81.5℃+16.6(log M)+0.41(％GC)-0.61(％甲酰胺)-500/L；其中，M是单价阳离子的摩尔浓度，％GC是DNA中鸟嘌呤和胞嘧啶核苷酸的百分数，％甲酰胺是杂交溶液中甲酰胺的百分数，L是杂合体的碱基长度。Tm表示温度(在确定的离子强度和pH下)，在该温度下50％的互补靶序列与完全配对的探针杂交。每1％的错配将使Tm降低约1℃；因此，可调节Tm、杂交和/或洗涤条件以调节杂交于具有所需同一性的序列。例如，如果搜寻＞90％同一性的序列，Tm可降低10℃。一般，选择严紧性条件使其比具体序列在确定的离子强度和pH下与其互补物的热解链温度(Tm)低5℃。然而，极严紧的条件可在比热解链温度(Tm)低1、2、3或4℃的温度下杂交和/或洗涤；中等严紧性条件可在比热解链温度(Tm)低6、7、8、9或10℃的温度下杂交和/或洗涤；低严紧性条件可在比热解链温度(Tm)低11、12、13、14、15或20℃的温度下杂交和/或洗涤。利用所述方程，杂交和洗涤组合，和所需的Tm，本领域普通技术人员将理解，内在描述了杂交和/或洗涤溶液严紧性的各种变化。如果所需的错配程度使Tm低于45℃(水溶液)或32℃(甲酰胺溶液)，优选增加SSC浓度以能够使用更高的温度。可在以下文献中找到关于核酸杂交的详细指南：Tijssen，《生物化学和分子生物学的实验室技术一与核酸探针杂交》(Laboratory Techniques in Biochemistry andMolecular Biology-Hybridization with Nucleic Acid Probes)，第一部分，第2章，“杂交原理和核酸探针试验策略综述”(“Overview of principl es ofhybridization and the strategy of nucleic acid probe assays”)，爱儿斯威尔(Elsevier)，纽约.(1993)；和《分子生物学现代技术》(CurrentProtocols in Molecular Biology)，第2章，Ausubel，等主编，格林出版和威勒-英特科学出版公司(Greene Publishing and Wiley-Interscience)，纽约(1995)。

当采用两种或多种限制性核酸内切酶时，步骤iii)中有可能使用两种或多种寡核苷酸引物，这取决于核酸内切酶的识别位点。一种或多种寡核苷酸引物的序列包括与至少一个接头、或限制性核酸内切酶识别序列其余部分的一部分(可任选加上限制性核酸内切酶的识别序列的其余部分)互补的核苷酸序列节段，这在EP 0534858和Vos等((1995).AFLP：一种用于DNA指纹的新技术，Nucleic Acids Research，第23卷，No.21，4407-4414)中有更详细的解释。通常，识别序列的部分是序列经限制性核酸内切酶的限制性消化后剩余的部分。所以，总而言之，引物至少与接头连接的限制性片段的已知部分互补。

步骤iv)中，通过使杂交的一个或多个寡核苷酸引物延伸来扩增所述接头连接的限制性片段。优选用PCR进行扩增，其是本领域公知的技术。

在本发明一种优选实施方式中，引物还含有在引物序列3’末端的所选序列，该所选序列含有1-10个选择性核苷酸，所述核苷酸与限制性核酸内切酶识别序列的其余部分恰好毗连的节段互补。通常，识别序列的部分是序列经限制性核酸内切酶的限制性消化后剩余的部分。引物的3’末端优选含有所选序列。所述所选序列含有预先选择的一组1-10个核苷酸，优选1-8个所选核苷酸，优选1-5个，更优选1-3个。示例性引物可含有以下示例性结构(对于2个选择性核苷酸(AC))“5’-接头特异性区-限制性序列特异性区-AC-3’”。因此，该示例性引物含有两个选择性核苷酸AC，其仅扩增含有互补的TG的接头连接的片段，所述TG是接在接头连接的限制性片段的已知部分之后的头两个核苷酸，即在限制性核酸内切酶识别位点的其余部分之后。

关于AFLP的进一步描述、其优点、实施方式以及其中所用的技术、酶、接头、引物和其它化合物和工具，可参考US 6,045,994、EP-B-0534858、EP 976835和EP974672、WO01/88189和Vos等Nucleic Acids Research，1995，23，4407-4414，均全文纳入本文。

在一种实施方式中，所述接头还包含识别子序列。这种识别子序列可以是例如用于说明复杂性降低法获得的文库的来源的长度不同的、独特的碱基序列。

本发明还涉及一种确定核苷酸序列出现频率的方法，包括步骤：

a)提供cDNA；

b)对所述cDNA的至少一部分运用复杂性降低法，以获得包含cDNA片段的第一cDNA文库；

(c)测序确定所述第一文库中cDNA片段的至少部分核苷酸序列；和

(d)确定核苷酸序列的出现频率。

该方法的步骤(a)中，提供cDNA。本领域公知如何制备cDNA，上文提供了合适的方法。可从任何来源获得cDNA，上文也已描述。

该方法的步骤(b)中，对所述cDNA的至少一部分进行复杂性降低，以获得包含cDNA片段的第一cDNA文库。可用本领域已知的任何方法进行复杂性降低法，如上文所述。

根据本发明方法的步骤(c)中，测序确定所述第一文库中cDNA片段的至少部分核苷酸序列。可用本领域已知的任何方法进行测序，包括公知的桑格(双脱氧)方法。在优选实施方式中，用高通量测序法测序，其允许同时对多个样品测序。上文描述了高通量测序的优选方法。

在本发明方法的步骤(d)中，确定核苷酸序列的出现频率。核苷酸序列的出现频率可通过例如下述方法来确定。可利用cDNA片段的核苷酸序列比对来收集从相同的转录基因衍生的核苷酸序列，并计数这些核苷酸序列。仍然用序列之间的同源性来确立核苷酸序列是否衍生自相同的转录基因。用于本发明的目的，当核苷酸序列在至少10，优选至少15，更优选至少20，再更优选至少25、30、40、50、100、150、200个核苷酸的长度上至少95％、96％、97％、98％、99％或100％同源时，推定这些核苷酸序列衍生自相同的转录基因。可通过统计学释义(如T-测验)协助所述方法，以证明统计上不同的频率。还有可能基于鉴定到的序列数目来进行简单的分级。假设在样品1中，(未知)基因“X”的核苷酸序列被检测到10次(10是具有例如98％同源性的核苷酸序列的数目)，样品2中同样的序列被检测到20次。这种情况下，如果样品1和样品2被测定的序列总数相同，则有可能基因X在样品2中的转录水平是在样品1中的两倍；因此，精确的转录谱描述可能需要在样品之间进行标准化(normalization)或者比较源自基因“X”序列的出现频率和称为持家基因的出现频率，假定认为持家基因的相对转录水平在多个样品中是恒定的。与样品的表型特征相关联地对样品间相对转录谱进行分级，提供了哪个基因影响不同表型发生的信息。术语表型包括生物体所有类型的特征，例如，疾病状态等。

对于每个基因中核苷酸序列数目的统计学评价(即数字化Northern)，确保cDNA片段的冗余(redundant)测序是很重要的。因此，在进行实验之前确立序列文库复杂性和调整获得足够的序列所需的序列读出数可能是有用的。例如，通常cDNA样品含有8,000-16,000个不同的转录本。如果采用+0/+1 cDNA-AFLP，假定使用的两种限制性核酸内切酶识别4核苷酸的序列，其靶向转录本总数的约80％，则复杂性降低的样品含有约1,600-3,200个转录本。当使用20倍的冗余测序时，这对应于每个样品需要32,000-64,000次读出。这也足够用于确定相对低水平表达的基因的转录水平。

一种非常适合用于确定序列文库复杂性的方法描述于WO 03/010328，纳入本文作为参考。

本发明还涉及一种用于确定cDNA样品中核苷酸序列的相对转录水平的方法，包括步骤：

a)通过在第一cDNA样品上进行如权利要求2所述的方法，确定所述第一cDNA样品中核苷酸序列的出现频率；

b)通过在第二和/或其它cDNA样品上进行如权利要求2所述的方法，确定所述第二和/或其它cDNA样品中相同核苷酸序列的出现频率；和

c)将所述核苷酸序列在所述第一cDNA样品中的出现频率和相同核苷酸序列在所述第二和/或其它cDNA样品中的出现频率进行比较，以获得该核苷酸序列的相对转录水平。

本方法的步骤(a)中，通过在第一cDNA样品上进行如权利要求2所述的方法，确定所述第一cDNA样品中核苷酸序列的出现频率。

本方法的步骤(b)中，通过在第二和/或其它cDNA样品上进行如权利要求2所述的方法，确定所述第二和/或其它cDNA样品中相同核苷酸序列的出现频率。

本方法的步骤(c)中，将所述核苷酸序列在所述第一cDNA样品中的出现频率和相同核苷酸序列在所述第二和/或其它cDNA样品中的出现频率进行比较，以获得该核苷酸序列的相对转录水平。

如上所述，对这种相对转录水平的了解可能对于确立对某些表型很重要的转录本来说是很重要的。

a)提供第一cDNA样品；

b)在所述第一cDNA样品上运用复杂性降低法，以获得第一文库；

c)给所述第一文库加标签，以获得加标签的第一文库；

d)用第二和/或其它cDNA样品顺序或同时进行步骤(a)和(b)，优选对各cDNA样品用不同的标签，以获得加标签的第二和/或其它文库；

e)将所述加标签的第一文库和加标签的第二和/或其它文库混合，以获得混合文库；

f)通过测序确定所述混合文库的至少部分核苷酸序列；

g)确定所述第一cDNA样品和第二和/或其它DNA样品中核苷酸序列的出现频率；和

h)将所述核苷酸序列在所述第一cDNA样品中的出现频率和所述核苷酸序列在所述第二和/或其它cDNA样品中的出现频率进行比较，以获得cDNA样品中该核苷酸序列的相对转录水平。

步骤(a)中，提供第一cDNA样品。可如上所述获得cDNA样品。

步骤(b)中，在所述第一cDNA样品上运用复杂性降低法，以获得第一文库。可用任何技术进行复杂性降低法，但优选用关键基因公司的AFLP

技术。

步骤(c)中，给所述第一文库加标签，以获得加标签的第一文库。加标签可以和步骤(b)的复杂性降低法同时进行。可例如通过AFLP、采用包含对于各样品独特的(核苷酸)识别子的接头来实现这种同时加标签。

当两个或多个cDNA样品的两个或多个复杂性降低文库被混合以获得混合文库时，加标签是为了区分不同来源例如来自不同植物品系的样品。因此，制备加标签的第一cDNA样品文库和第二或其它cDNA样品文库时，优选使用不同的标签。当例如使用五种核酸样品时，预期获得五种加有不同标签的文库，五种不同标签代表各个来源的样品。

标签可以是本领域已知用于区分核酸序列的任何标签，但优选短的识别子序列。这种识别子序列可例如是不同长度的独特碱基序列，用于说明提供复杂性降低法获得的文库的来源。因为不需要额外的步骤来给文库加标签，因此将寡核苷酸标签掺入接头或引物是很方便的。这类识别子序列的长度可不同，取决于待比较的核酸样品数目。约4个碱基的长度(4⁴＝256种可能的不同标签序列)足够区分有限数目的样品来源(至多256种)，但优选标签序列在待区分的样品之间相差多于1个碱基。可根据需要相应调整标签序列的长度。

步骤(d)中，用第二和/或其它cDNA样品顺序或同时进行步骤(a)和(b)，优选对各cDNA样品用不同的标签，以获得加标签的第二和/或其它文库。cDNA样品可获自例如不同来源，例如不同的植物品系，从而可比较这些植物品系的转录谱。或者，cDNA样品可获自同一植物品系的不同发育阶段，以比较植物发育过程中的转录谱。为了提高效率，也有可能在完全不相关的cDNA样品上进行本发明的方法。

步骤(e)中，将所述加标签的第一文库和加标签的第二和/或其它文库混合，以获得混合文库。可对该混合文库进行同时测序，以提供高效的过程。

步骤(f)中，通过测序，优选高通量测序(优选如上所述)，确定所述混合文库的至少部分核苷酸序列。

步骤(g)中，确定所述第一cDNA样品和第二和/或其它DNA样品中核苷酸序列的出现频率。通过使用标签，可区分第一文库的核苷酸序列和第二和/或其它文库的核苷酸序列。这种情况下，可在已针对仅具有重建的限制性酶识别序列的、已调整过接头/引物和/或识别子的序列信息上进行比对，即，仅采用得自来源为所述cDNA的片段的序列信息。通常，获得的序列信息用于鉴定片段的来源(即来自哪个样品)，从数据中去除衍生自接头和/或识别子的序列，在经调整的序列数据组上进行比对。

步骤(h)中，将所述核苷酸序列在所述第一cDNA样品中的出现频率和所述核苷酸序列在所述第二和/或其它cDNA样品中的出现频率进行比较，以获得cDNA样品中该核苷酸序列的相对转录水平。

由于所用的加标签策略，可同时确定不同cDNA样品中核苷酸序列的转录水平，这是非常有利的。如上所述，该方法非常适于快速鉴定某表型性状中涉及的转录本。

在优选实施方式中，用不同的标签对第一文库和第二或其它文库加标签。如上所述，优选各cDNA样品文库通过它自己的标签来鉴定。

附图简述

图1：从胡椒品系PSP11和PI201234中获得的、加标签的(A/C)cDNA-AFLP产物。来自两个品系的两个样品各一式两份加载在1％的琼脂糖凝胶上。

M：100bp标记物

1：cDNA-AFLP PSP11样品1

2：cDNA-AFLP PSP11样品1

3：cDNA-AFLP PSP11样品2

4：cDNA-AFLP PSP11样品2

5：cDNA-AFLP PI 201234-样品1

6：cDNA-AFLP PI 201234-样品1

7：cDNA-AFLP PI 201234-样品2

8：cDNA-AFLP PI 201234-样品2

图2：图示为用含有4bp的5引发(5prime)标签序列的AFLP引物扩增后的胡椒AFLP+1/+1扩增产物

扩增3：序列文库制备的流程。

扩增4：13次序列读出的示例性输出。

扩增5：Blast结果。

扩增6：显示上调的原始数据。

扩增7：显示上调的原始数据。

实施例

利用例如RNA杂交或DNA微阵列表达应用等方法已累积了关于高等植物中基因表达的时空调控的大量实例。后一种技术允许同时监测上千种基因的表达。与这些分析方法不同，可直接用高通量测序技术对加标签的转录本测序来实现基因表达谱的数字化分析。从某样品的具体转录本中获得的序列数目反映了该特定序列的转录水平。在多个样品间比较这些数目，同时计入测序深度，使得可精确检测这些样品间的转录水平。该技术似乎是发现与某些表达谱相关的新的、未知特性(quality)标记物的强大工具。

本文描述了cDNA的高通量测序，所述cDNA衍生自两种胡椒品系的mRNA部分，其中已用AFLP技术降低了所述cDNA的复杂性。通过对加标签的cDNA片段直接测序，可产生表达谱。

方法

分离总RNA/聚(A) ⁺ RNA

用RNeasy小试剂盒(商品号：74104)和恰根Rneasy植物小抽提方案(QIAGEN’s Rneasy Plant Mini Protocol)从胡椒品系PSP11and PI201234的叶片材料中分离总RNA。作为起始材料(as input)，每个样品使用了100mg叶片材料。

按照所述方案，每个样品获得了2.5-3μg总RNA的产率。然后，用恰根Oligotex mRNA小试剂盒(商品号：70022)从1μg总RNA样品中分离聚(A)⁺RNA部分。获得了150-200ng聚(A)⁺RNA的产率。这些样品的浓度是5-10ng/ul。总RNA和聚(A)⁺RNA均在琼脂糖凝胶上分析以检查RNA质量。

cDNA合成

按照以下方案产生cDNA：

第一链cDNA合成

将以下物质加在一起：

10μl聚(A)⁺RNA(50-100ng)

5μl寡聚-dT25(70ng/ul)

然后加入：

5ul 5x第一链缓冲液(加有Superscript II RT)

2.5ul 0.1M DTT

1ul 10mM dNTP

0.5ul SuperscriptII(200U/ul)

1ul MQ-水，至总体积25ul

42℃温育2小时

第二链cDNA合成

将以下物质加在一起：

25ul第一链反应混合物

8ul 10x第二链缓冲液

1.5ul 10mM dNTP

7.5单位的大肠杆菌DNA连接酶

25单位的大肠杆菌多聚酶

0.8单位的RNA酶H(1U/ul)

加MQ-水至总体积为80ul。

12℃温育1小时

22℃温育1小时

然后，用恰根Qiaquick PCR膜纯化试剂盒(商品号：28104)纯化cDNA样品。用30μl洗脱缓冲液(5mM Tri s-HCl，pH8.5)洗脱。

用加标签的AFLP引物制备cDNA-AFLP模板

如Zabeau & Vos，1993：选择性限制性片段扩增；DNA指纹的一般方法(Selective restriction fragment amplification；a general method for DNAfingerprinting)、EP 0534858-A1，B1；美国专利6045994)和Vos等(Vos，P.，Hogers，R.，Bleeker，M.，Reijans，M.，van de Lee，T.，Hornes，M.，Frijters，A.，Pot，J.，Peleman，J.，Kuiper，M.等(1995)AFLP：一种用于DNA指纹的新技术，Nucl.Acids Res.，21，4407-4414)所述，用限制性核酸内切酶组合TaqI/MseI制备所产生的胡椒母系PSP11和PI-201234()cDNA的AFLP模板。

cDNA的限制性(消化)和连接过程

通过两个步骤进行消化；第一步用TaqI消化(最高的温育温度)，然后用MseI消化(最低的温育温度)。

如下所述用TaqI和MseI限制性消化cDNA：

DNA的限制性消化

将以下物质加在一起：

250ng cDNA

10单位的TaqI

8μl 5xRL缓冲液，5xRL缓冲液是50mM Tris-HAc、50mM MgAc、250mM KAc、25mM DTT、250ng/μl BSA；pH 7.5)，

加MQ水至终浓度为40μl

65℃温育2小时。

用TaqI限制性消化后，

加入：

10单位的MseI

2μl 5xRL缓冲液

加MQ水至终浓度为50μl

37℃温育2小时。

接头连接

向消化混合物中加入以下组分：

1μl 10mM ATP

1μl T4DNA连接酶

1μl TaqI接头(50pmol/μl)

CTCGTAGACTGCGTAC/CGGTACGCAGTCT

1μl MseI接头(50pmol/μl)

GACGATGAGTCCTGAG/TACTCAGGAACTCAT

2μl 5xRL缓冲液

加MQ水至终浓度为60μl

37℃温育3小时。

cDNA-AFLP扩增

限制性消化-连接后，将该限制性消化/连接反应产物用作非选择性扩增步骤中的模板。然后，将这些非选择性AFLP产物用作选择性扩增(+1/+1)中的模板。通过进行+2/+3选择性扩增来检查+1/+1产物的质量。在4.5％测序凝胶上检查后一次扩增的产物。

如下所述进行非选择性cDNA-AFLP扩增：

5μl未稀释的限制性(消化)-连接混合物

1.5μl TagI-引物(50ng/μl)(CTCGTAGACTGCGTACCGA)

1.5μl MseI-引物(50ng/μl)(GATGAGTCCTGAGTAA)

2μl 5mM dNTP

1单位的Taq.多聚酶

5μl 10XPCR缓冲液

加MQ水至终体积为50μl

用具有金或银区块(block)的PE9700进行PCR扩增，条件如下：30个循环的(94℃30秒，56℃60秒，72℃120秒)。

如下所述用标签序列进行选择性cDNA-AFLP扩增：

对于从胡椒品系PSP11得到的非选择性cDNA-AFLP产物

5ul 600x稀释的非选择性产物

1.5ul Tr01ACAC引物(+A)*(50ng/μg)(ACACGTAGACTGCGTACCGAA)

1.5ul M02ACAC引物(+C)*(50ng/μg)(ACACGATGAGTCCTGAGTAAC)

2ul 5mM dNTP

1.5单位的AmpliTaq-Gold多聚酶

5ul 10x PCR缓冲液

加MQ水至终体积为50u l

对于从胡椒品系PI201234获得的非选择性cDNA-AFLP 0/0产物

5ul 600x稀释的非选择性产物

1.5ul Tr01AGCT引物(+A)*(50ng/μg)(AGCTGTAGACTGCGTACCGAA)

1.5ul M02AGCT引物(+C)*(50ng/μg)(AGCTGATGAGTCCTGAGTAAC)

2ul 5mM dNTP

1.5单位AmpliTaq-Gold多聚酶

5ul 10x PCR缓冲液

加MQ水至终体积为50ul

用具有金区块的PE9700进行PCR扩增，条件如下：94℃，12分钟，1个循环(热启动)，94℃30秒，65℃30秒，72℃60秒；23个循环-在12个循环中，每个循环降低退火温度0.7℃-13个循环的降落(touch down)阶段-94℃30秒，56℃30秒，72℃60秒。在1％琼脂糖凝胶上检查所产生的+1/+1产物的质量，用100碱基的分子梯(ladder)检查片段长度分布(见图1)。

选择性引物在5引发端含有4bp的标签(上文加下划线的)，以在测序结束时区分从各个胡椒品系来源的扩增产物。图2显示了根据该方法产生加标签的cDNA-AFLP PCR产物的方案。

测序文库的制备和高通量测序

如Margul ies等，(Margulies等，Nature 437，376-380页以及在线补充材料)所述，用454生命科学公司/罗氏GS20测序技术对来自两个胡椒品系的加标签的cDNA AFLP产物进行高通量测序。首先将加标签的cDNA AFLP PCR产物纯化并连接到经修饰的接头(CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAGT/CTGAGACAGGGAGGGAACAGATGG和BI0-TEG-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAGT/P-CTGAGACACGCAACAGGGGATAGGCAAGGCACACAGGGGATAGG)以有助于乳剂-PCR扩增(emulsion-PCR)和随后的片段测序，如Margulies及其同事所述。乳剂PCR引物、测序引物和测序反应条件均如Margulies及其同事所述。图3显示了测序文库的制备步骤。在荷兰瓦格宁根(Wageningen)的关键基因股份有限公司的实验室中进行高通量GS20测序。

GS20测序数据处理

用生物信息学流水线(pipeline)(关键基因股份有限公司)处理从一半GS20测序(即可从GS20 PicoTiterPlate上获得的两个通路中的一个)中获得的序列数据。具体说，将原始的基础(basecalled)测序读出转换为FASTA形式，然后用BLAST算法检查加标签的AFLP接头序列的存在。经与已知的加标签AFLP引物序列进行高置信度匹配之后，调整序列，恢复限制性核酸内切酶位点并分配给合适的标签。然后，用megaBLAST程序基于总体序列同源性，将大于33个碱基的所有经调整的序列集簇。接下来，用CAP3多重比对算法将这些簇装配成一个或多个毗连群/簇。

13次序列读出(read)输出的实施例：

簇387

用粗体表示样品2ID标签(AGTC)。样品1 ID标签(ACAC)加下划线。见图4。

表1示出了测序反应的整体统计学分析：

表1：cDNA-AFLP的整体统计学分析

具有经鉴定样品的序列片段	174421
		读出样品1(PSP11)	50599
读出样品2(PI201234)	123822

样品比率(样品2/样品1)	2.45
		集簇	6712
样品1和样品2中均出现的簇	1433

解释：

步骤1)“样品测序深度标准化系数”是2.45，定义为从样品2获得的总读出除以从样品1获得的总读出(123822/50599＝2.45)。将每个毗连群中样品2衍生的读出数目除以2.45，以将其转录水平同样品1比较。

步骤2)通过确定作为内参的“持家”基因的“表达”来进行第二步的“持家基因标准化”。为此，选择了番茄精氨酸脱羧酶基因。将番茄精氨酸脱羧酶序列相对用CAP3多重比对方法获得的毗连群序列进行BLAST，以确定样品1和样品2中胡椒精氨酸脱羧酶基因转录本的出现频率。然后，在首先应用“样品测序深度标准化系数”(步骤1)之后，计算样品l和2中观察到的这些转录本的比率。该实施例中，样品1/样品2的比率(＝持家基因标准化系数)是17/14＝1.2。(表1)。

持家基因(番茄精氨酸脱羧酶)相对毗连群库进行BLAST搜索的实施例。

参考：Altschul，Stephen F.，Thomas L.Madden，Ale jandro A.Schaffer，Jinghui Zhang，Zheng Zhang，Webb Miller，和David J.Lipman(1997)，“间隙BLAST和PSI-BLAST：新一代蛋白质数据库搜索程序”(″Gapped BLAST andPSI-BLAST：a new generation of protein database search programs″)，Nucleic Acids Res.25：3389-3402.

询问(Query)＝gi|295349|gb|L16582.1|TOMARGDECA番茄精氨酸脱羧酶mRNA，全长cds(2060个字母)

数据库：taggedReads.fna

174,421个序列；15,408,192个总字母。结果见图5。

表2基于番茄精氨酸脱羧酶基因的胡椒同源物丰度计算持家基因标准化系数1.2(样品1/样品2)。

标准持家基因	毗连群读出样品1	毗连群读出样品2样品测序深度标准化之前/之后	比率样品1/样品2(持家基因标准化系数)
				gi\|295349\|gb\|L16582.1\|TOMARGDECA番茄精氨酸脱羧酶mRNA	17	35/14	1.2(17/14)

步骤3)对于实际的表达谱描述，仅考虑含有大于10个读出的毗连群。选择每个毗连群最低水平为10个读出，以避免由于测序深度不够而导致转录特征描述不准确。表2显示在上述三步法过程之后(获得的)PSP11(样品1)与PI 201234(样品2)相比中差异表达的两个转录本的相对mRNA表达水平。具体说，簇2215代表样品1中的转录上调，簇847代表样品1中的转录下调；表3显示了这些转录本相对转录水平的计算。最后，表4综述了基于上述方案在整个数据组中差异转录的基因的数目。

实施例样品1上调-原始数据.簇2215。

粗体表示样品2ID标签(AGTC)。图6中，样品1ID标签(ACAC)加下划线。

实施例样品1下调-原始数据.集簇847。

粗体表示样品2ID标签(AGTC)。图7中，样品1ID标签(ACAC)加下划线。

表3样品测序深度标准化(步骤1)和持家基因标准化(步骤)之后，簇2215和847所代表的转录本相对转录水平的计算。

簇编号：	2215	847
			读出样品1-原始数据	44	11
读出样品2-原始数据	26	101
			读出样品1-样品测序深度标准化	44	11
读出样品2-样品测序深度标准化	10.6(26/2.45)	41.2(101/2.45)
			读出样品1-持家基因标准化	37(44/1.2)	9(11/1.2)
读出样品2-持家基因标准化	10.6	41.2
			样品1vs.样品2的表达比率	3.5(37/10.6)	0.2(9/41.2)

表4.从PSP11和/或PI201234测序得到的、存在于含有10个或更多序列的毗连群中的转录本的相对转录水平总结

	两种样品读出的最小值
			读出＞10
含有样品1和/或样品2读出的毗连群总数	113
		下调的基因(表达水平比率＜0.5)	20
上调的基因(表达水平比率2)	17
		同等表达的基因(表达水平比率＞0.5并＜2)	76

Claims

1.一种用于确定cDNA样品中核苷酸序列的相对转录水平的方法，所述方法包括步骤：

(a)提供第一cDNA样品；

(b)在所述第一cDNA样品上运用复杂性降低法，以获得第一文库，所述复杂性降低法包括：

用至少一种限制性核酸内切酶消化cDNA使其断裂成限制性片段；

将所述限制性片段与至少一个双链合成寡核苷酸接头连接，以产生接头连接的限制性片段，所述接头一端与限制性片段的一端或两端相容；

在杂交条件下，将所述接头连接的限制性片段与一个或多个寡核苷酸引物接触，所述一个或多个寡核苷酸引物的引物序列包括与至少一个接头的一部分互补的核苷酸序列节段；和

通过延伸所述杂交的一个或多个寡核苷酸引物来扩增所述接头连接的限制性片段；

(c)通过在接头和/或引物中加入序列识别子而用序列识别子给所述第一文库加标签，以获得加标签的第一文库；

(d)用第二和/或其它cDNA样品顺序或同时进行步骤(a)和(b)，对各cDNA样品使用不同的标签，以获得加标签的第二和/或其它文库；

(e)将所述加标签的第一文库和加标签的第二和/或其它文库混合，以获得混合文库；

(f)通过高通量测序确定所述混合文库的至少部分核苷酸序列；

(g)确定所述第一cDNA样品和第二和/或其它cDNA样品中核苷酸序列的出现频率；和

(h)将所述核苷酸序列在所述第一cDNA样品中的出现频率和所述核苷酸序列在所述第二和/或其它cDNA样品中的出现频率进行比较，以获得所述cDNA样品中该核苷酸序列的相对转录水平。

2.如权利要求1所述的方法，其特征在于，在固体支持物上进行所述高通量测序。

3.如权利要求1所述的方法，其特征在于，所述高通量测序基于通过合成测序。

4.如权利要求1-3中任一项所述的方法，其特征在于，所述高通量测序包括步骤：

(f1)将测序接头连接到片段；

(f2)使测序接头连接的片段与珠子退火，各珠子与一个片段退火；

(f3)在油包水微反应器中乳化珠子，各油包水微反应器含有一个珠子；

(f4)进行乳剂PCR，以在珠子表面上扩增所述测序接头连接的片段；

(f5)选择/富集含有扩增的测序接头连接的片段的珠子；

(f6)将珠子加载到孔中，各孔含有一个珠子；和

(f7)产生焦磷酸盐信号。

5.如权利要求1所述的方法，其特征在于，所述引物还含有在引物序列3’末端的所选序列，该所选序列含有1-10个选择性核苷酸，所述核苷酸与和限制性核酸内切酶识别序列的其余部分恰好毗连的节段互补。

6.如权利要求1或5所述的方法，其特征在于，引物序列3’末端的所选序列包含1-8个选择性核苷酸。

7.如权利要求1所述的方法，其特征在于，所述接头还包含识别子序列。

8.如权利要求1所述的方法，其特征在于，所述标签是识别子序列。

9.如权利要求6所述的方法，其特征在于，引物序列3’末端的所选序列包含1-5个选择性核苷酸。

10.如权利要求6所述的方法，其特征在于，引物序列3’末端的所选序列包含1-3个选择性核苷酸。