CN101680872A - 序列比较分析方法和系统 - Google Patents

序列比较分析方法和系统 Download PDF

Info

Publication number
CN101680872A
CN101680872A CN200880016476A CN200880016476A CN101680872A CN 101680872 A CN101680872 A CN 101680872A CN 200880016476 A CN200880016476 A CN 200880016476A CN 200880016476 A CN200880016476 A CN 200880016476A CN 101680872 A CN101680872 A CN 101680872A
Authority
CN
China
Prior art keywords
peak
group
sample
sequence
intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880016476A
Other languages
English (en)
Other versions
CN101680872B (zh
Inventor
陈永庆
克里斯蒂亚内·霍尼施
迪尔克·J·范登博姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bioscience Acquisition Co.
Agena Bioscience Inc
Original Assignee
Sequenom Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sequenom Inc filed Critical Sequenom Inc
Publication of CN101680872A publication Critical patent/CN101680872A/zh
Application granted granted Critical
Publication of CN101680872B publication Critical patent/CN101680872B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6872Methods for sequencing involving mass spectrometry
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6865Promoter-based amplification, e.g. nucleic acid sequence amplification [NASBA], self-sustained sequence replication [3SR] or transcription-based amplification system [TAS]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本文提供通过比较样本核酸序列信息与参考核酸序列信息或从参考样本获得的信息来快速鉴别或确定样本核酸中的序列信息的方法。本文还提供进行序列比较分析的自动化系统。

Description

序列比较分析方法和系统
相关申请案
本专利申请案主张2007年4月13日申请的题为“序列比较分析方法和系统(Comparative sequence analysis processes and systems)”并署名霍尼施(Honisch)等人的美国临时专利申请案第60/911,845号的权益,所述专利全文以引用的方式并入本文中。
技术领域
本发明部分涉及分析生物分子序列的序列信息和模式信息的方法。本发明部分涉及样本中生物分子序列信息的检测和鉴别。
背景技术
所有活有机体(例如动物、植物和微生物)的遗传信息以及如病毒等其它形式的复制遗传信息都是以脱氧核糖核酸(DNA)或核糖核酸(RNA)编码。遗传信息是核苷酸或其修饰体的排列顺序,表示真实或假设DNA/RNA分子或者能够携带信息的链的一级结构。对于人类,完整基因组含有约30.000个基因,位于24个染色体上(人类基因组(The Human Genome),T.斯特拉坎(T.Strachan),BIOS科技出版社(BIOS ScientificPublishers),1992)。各基因编码特定蛋白质,经由转录和翻译而表达后,在活细胞内履行特定生物化学功能。
遗传密码的改变或变异可引起mRNA序列或表达水平的改变,并可能导致由所述mRNA编码的蛋白质的改变。这些改变有时是多态性或是突变,可引起对所编码的RNA或蛋白质的修饰,并由此导致显著不利影响,有时会引起疾病。
人们已知许多由遗传变异引起的疾病,这些疾病包括血友病、地中海贫血、杜兴氏肌肉萎缩症(Duchenne Muscular Dystrophy,DMD)、亨廷顿氏病(Huntington′s Disease,HD)、阿兹海默氏病(Alzheimer′s Disease)和囊性纤维化(CF)(人类基因组突变(HumanGenome Mutations),D.N.库博(D.N.Cooper)和M.克拉夫恰克(M.Krawczak),BIOS出版社,1993)。诸如所述疾病等遗传疾病可由形成特定基因的脱氧核酸(DNA)中单个核苷酸的单个添加、取代或缺失而引起。某些出生缺陷为染色体异常所致,诸如21三体(唐氏综合征(Down′s Syndrome))、13三体(帕陶综合征(Patau Syndrome))、18三体(爱德华兹综合征(Edward′s Syndrome))、X单染色体(特纳综合征(Turner′sSyndrome))和其它性染色体非整倍体(诸如克兰费尔特综合征(Klinefelter′s Syndrome))(XXY)。此外,越来越多的证据表明,一些DNA序列会使个体易患诸如糖尿病、动脉硬化、肥胖症、各种自身免疫疾病和癌症(例如结肠直肠癌、乳腺癌、卵巢癌、肺癌)等多种疾病中任一种。
同一物种(例如人类)不止一个个体的基因组之间单个核苷酸的改变引起个体间的遗传性变异,称为“单核苷酸多态性”(SNP)。并不是所有的SNP都导致疾病。SNP的影响视其位置和发生频率而定,并且可以从无害到致死。人们认为某些多态性易使一些个体患病,或与某些疾病的发病水平有关。动脉粥样硬化、肥胖症、糖尿病、自身免疫病症和癌症是被认为与多态性有关的少数几种疾病。除与疾病有关外,人们还认为SNP在患者对用于治疗疾病的治疗剂的反应中起到作用。举例来说,认为SNP在患者对药物、放射疗法和其它形式治疗的反应能力方面起到作用。
通过鉴别遗传方差(genetic variance)能更好地了解特定疾病,并可能产生对所述疾病更有效的疗法。建立在患者的经鉴别遗传方差基础上的个体化疗法方案可产生挽救生命的医疗干预。在鉴别出特定方差后,即可发现与这一方差的产物相互作用的新颖药物或化合物。也可在鉴别遗传特征(signature)和方差的基础上,实现包括病毒、细菌、朊病毒和真菌在内的感染性有机体的鉴别,并且可产生适当的靶向治疗剂和对感染与治疗的监测。感染性有机体中序列特征的鉴别和/或分组也可产生疾病爆发或有机体分布的流行病学特征(characterization)。
发明内容
本文提供快速而准确地进行序列或合成序列(composition sequence)检测以及鉴别和分组的方法和系统。所述方法和系统可应用于多种序列比较分析中,并且可用于例如快速检测和/或鉴别样本或混合物中一个或多个靶生物分子的存在与否;鉴别样本或混合物中生物分子的频率;测定样本或混合物中的常见序列模式;以及制备适用于前景分析的参考序列模式。本文所提供的方法和系统可用于基础研究、临床研究、诊断和医疗程序中;可应用于多种有机体(例如哺乳动物,尤其人类)中的生物分子序列分析;并且可用于多种分析方法中,包括(但不限于)疾病标志物的鉴别(例如癌症标志物的鉴别)、HLA分型、突变检测、法医学、疫苗控制、载体特性、种群研究、微生物鉴别等。
因此,本文提供确定样本中是否存在靶生物分子序列的方法,其包含:(a)鉴别(i)一组源自使样本中的生物分子与特异性裂解剂接触而产生的裂解产物的样本信号与(ii)一组源自接触或虚拟接触特异性裂解剂的参考生物分子所产生的裂解产物的参考信号之间的匹配峰型,并进行评分;(b)根据评分,选择出样本信号组与参考信号组之间匹配峰型的最高等级亚组;(c)对亚组中的匹配峰型进行迭代重复评分,并鉴别一个或多个最高等级匹配峰型;和(d)由所述一个或多个最高等级匹配峰型之间的匹配,确定样本中是否存在靶生物分子序列或序列组合或组合物混合物。在某些实施例中,所述方法可包含:鉴别参考组和/或样本组中具有所述一个或多个最高等级匹配峰型的生物分子序列中的一个或多个潜在序列变异(例如突变)。在一些实施例中,所述方法还可包含:对所述一个或多个最高等级匹配峰型之间的匹配赋予置信度值。
还提供确定样本中是否存在靶生物分子序列的方法,其包含:鉴别(i)一组源自使样本中的生物分子与特异性裂解剂接触而产生的裂解产物的样本信号与(ii)一组源自接触或虚拟接触特异性裂解剂的参考生物分子所产生的裂解产物的参考信号之间的匹配峰型;其中所述参考峰型通过以下步骤确定:将一个组内的所有参考峰按质量排列;利用峰强度表示各参考峰;计算参考组内各峰强度之间的距离;和对参考峰进行聚类以产生最小裂解反应组。峰强度通过以下步骤确定:采集质谱亚组并过滤;将一组或多组峰集合为一个群组;使用所述群组中各峰的高度和质量计算群组的强度;和将群组强度归一化。聚类通过以下步骤确定:鉴别在一个参考组中存在但在其它组中不存在的峰;进行子聚类,直到各群集仅具有一个序列或具有一组难区分的序列;计算子群集中各峰强度的总和;和评估子群集之间的差异。质谱亚组通过以下步骤来选择:从参考峰型中选出10-20个锚定峰组;以各锚定峰组中的一个或多个峰代表所有参考峰;通过应用利用高斯核(Gaussian kernel)的宽度可变滤波器过滤峰;将一个或一组峰集合为一个群组,并确定所述群组的原始光谱的共同基线;和调整所述峰群组的原始光谱的基线数据点以拟合至高斯曲线,从而确定峰强度和信噪比。由质谱的高度和宽度计算峰强度。由质谱的高度和宽度计算信噪比。对具有低信噪比的峰进行评估来确定阈值,并从最终峰清单中去除所述峰。随后,将峰强度归一化而处在2000-4000Da的范围内。
还提供确定样本中是否存在靶生物分子序列的方法,其包含:鉴别(i)一组源自使样本中的生物分子与特异性裂解剂接触而产生的裂解产物的样本信号与(ii)一组源自接触或虚拟接触特异性裂解剂的参考生物分子所产生的裂解产物的参考信号之间的匹配峰型,其中样本匹配峰型通过以下步骤来校准:将样本峰与某一质量窗口(masswindow)内的参考峰匹配;通过评估总体偏差模式(overall deviation pattern)去除超出界限(outliner)的样本峰;选择在整个质量范围内均匀分布的高强度峰作为锚定峰;和比较与从参考峰型预先选择的一组峰或数组锚定峰匹配的数量的峰。峰强度通过以下步骤来调整:将峰强度拟合至不同质量范围的标准曲线;将所述曲线的中心质量区拟合至高斯曲线;和通过所述调整修正所有检测峰的强度。锚定峰通过其质量和光谱质量进行校准。
还提供确定样本中是否存在靶生物分子序列的方法,其包含:(a)鉴别(i)一组源自使样本中的生物分子与特异性裂解剂接触而产生的裂解产物的样本信号与(ii)一组源自接触或虚拟接触特异性裂解剂的参考生物分子所产生的裂解产物的参考信号之间的匹配峰型,并进行评分;其中所述评分基于一个或多个选自由位图得分、区别性特征匹配得分、距离得分、峰型一致性得分和相邻改变(adjChange)得分组成的群组的标准;(b)鉴别出一个或多个最高等级匹配峰型;和(c)由所述一个或多个最高等级匹配峰型之间的匹配,确定样本中是否存在靶生物分子序列。在一些实施例中,可测定位图得分和峰型一致性得分的平均值或“最终得分”,其可用于例如不同样本中序列的比较以及样本之间序列的比较。在某些实施例中,所述一个或多个最高等级匹配峰型通过对样本信号组与参考信号组之间的最高等级匹配峰型亚组中的匹配峰型进行迭代重复评分来鉴别。在一些实施例中,所述方法包含:鉴别参考组和/或样本组中具有所述一个或多个最高等级匹配峰型的生物分子序列中的潜在序列变异(例如突变)以及其发生概率。在某些实施例中,所述方法还可包含:对所述一个或多个最高等级匹配峰型之间的匹配赋予置信度值。序列变异发生的可能性可根据某一概率模型赋值。
还提供确定样本中是否存在靶生物分子序列、或基因组中多个区域的混合物、或某一群体(例如共有序列)中多个靶的混合物、或序列组合物的方法,其包含:(a)鉴别(i)一组源自使样本中的生物分子与特异性裂解剂接触而产生的裂解产物的样本信号与(ii)一组源自接触或虚拟接触特异性裂解剂的参考生物分子所产生的裂解产物的参考信号之间的匹配峰型,并进行评分;其中所述评分基于一个或多个选自由位图得分、区别性特征匹配得分、距离得分、峰型一致性得分和相邻改变得分组成的群组的标准;(b)鉴别出一个或多个最高等级匹配峰型;其中所述一个或多个最高等级匹配峰型通过对样本信号组与参考信号组之间的最高等级匹配峰型亚组中的匹配峰型进行迭代重复评分来鉴别;(c)鉴别参考组和/或样本组中具有所述一个或多个最高等级匹配峰型的生物分子序列中的潜在序列变异;(d)由所述一个或多个最高等级匹配峰型之间的匹配,确定样本中是否存在靶生物分子序列;和(e)对所述一个或多个最高等级匹配峰型之间的匹配赋予置信度值;(f)应用概率模型来确定发生任何序列变异的可能性。
还提供通过比较经参考峰强度加权的所检测的和个别参考峰型的强度来计算位图得分的方法。区别性特征匹配得分可通过评估使一个特征模式区别于另一个特征模式或使一组模式区别于另一组模式的特征亚组来计算。距离得分可根据所鉴别的特征向量与所有参考特征向量的距离来计算。而所述距离可为欧氏距离(Euclidian distance)。峰型一致性得分可由匹配峰强度、丢失和额外峰强度、沉默丢失峰(silent missing peak)强度与沉默额外峰强度的总和来计算。最高等级匹配峰型通过对匹配峰型进行迭代重复评分约5次或5次以上、约10次或10次以上、约50次或50次以上或者约100次或100次以上循环来鉴别。使样本质量信号组经历一种或多种信号处理方法,所述方法选自由峰检测、校准、归一化、光谱质量、强度标度和复合体调整滤波器(compomer adjustmentfilter)组成的群组。参考质量信号组可源自虚拟接触特异性裂解剂的参考核酸所产生的裂解产物。参考质量信号组可经历聚类。聚类可基于峰质量和峰强度。上述任一方法都可具有两组或两组以上参考质量信号,其各源自接触或虚拟接触特异性裂解剂的参考核酸所产生的裂解产物。上述方法可含有将各参考组与样本组相比较的步骤,或将参考组混合并作为单一组与样本组比较的步骤,或将参考组混合并作为单一组与混合样本组比较的步骤,或将参考样本混合并作为单一组与混合样本组比较的步骤,或将参考样本作为单一组与混合样本组比较的步骤。
还提供参考质量信号组是源自接触或虚拟接触特异性裂解剂的微生物或病毒或载体或真核或原核参考核酸所产生的裂解产物的方法。所述微生物可为细菌、真菌或病毒。上述任一方法的各样本组和各参考组都可源自以下中的一种或多种:(i)接触或虚拟接触第一特异性裂解剂的第一引物产物;(ii)接触或虚拟接触第一裂解剂的第二引物产物;(iii)接触或虚拟接触第二特异性裂解剂的所述第一引物产物;(iv)接触或虚拟接触第二裂解剂的所述第二引物产物。第一引物产物可为正向引物产物。第二引物产物可为反向引物产物。第一引物产物可为反向引物产物。第二引物产物可为正向引物产物。第一引物产物可为T7引物产物。第二引物产物可为SP6引物产物。对于上述任一方法,样本都可从有机体获得;样本都可从人类获得。
在上述任一方法中,可通过具有以下步骤的方法来制备一组质量信号:使样本DNA与引物接触;延伸引物以形成引物产物;转录引物产物以形成引物产物RNA;使引物产物RNA与特异性裂解剂接触,以形成裂解产物;和由裂解产物制备一组质量信号。可通过扩增法延伸引物,并制备出扩增的引物产物。扩增法可为聚合酶链反应法(PCR)。可通过质谱分析制备质量信号组。质谱分析可为MALDI-TOF MS。
在上述任一方法中,可通过具有以下步骤的方法来制备一组质量信号:使样本DNA与第一引物和第二引物接触;通过扩增法延伸第一引物和第二引物以形成扩增的第一引物产物和扩增的第二引物产物;转录第一引物产物和第二引物产物以形成第一引物产物RNA和第二引物产物RNA;使第一引物产物RNA和第二引物产物RNA与第一特异性裂解剂接触,以形成第一片段组和第二片段组;使第一引物产物RNA和第二引物产物RNA与第二特异性裂解剂接触,以形成第三片段组和第四片段组;和制备各片段组的质量信号组。
还提供聚类序列分析方法的输入信息。聚类法通常包括根据所鉴别的特征对样本进行分组。分组可与一个或多个模拟参考物相比较而言,例如,其可与参考物无关和/或其可能只需要一个参考组。其可在一个采集实验中或多个实验之间通过对一个或多个数据库进行数据库查询来进行。分组也可例如利用混合物或级联(concatenated)特征(诸如区域或裂解反应)来进行。可通过学习算法和所属领域技术人员已知的其它方法增强聚类。例如在某些实施例中,可利用距离测量/聚类法将样本、参考物、样本组和/或参考组以及其混合物中的序列信号分组。聚类分析允许在对样本或参考物的序列无任何了解的情况下,根据裂解产物的信号模式组织样本或参考物。聚类分析适用于多种应用,包括(但不限于)系统发生分析、流行病学分析(例如微生物种群随时间的变化;一个样本中与另一个样本中微生物品系的比较)、药物作用监测(例如投药后,微生物种群随时间的变化)、监视治疗监测、宿主-病原体相互作用、任一类标志物的筛选和监测(例如癌症标志物、抗生素抗性标志物)、法医学突变筛选、线粒体重测序和HLA分型。
由此,本文中提供将一个或多个序列或序列信号分组的聚类方法,其包含:(a)比较(i)一组源自使样本中的生物分子与特异性裂解剂或裂解剂混合物接触而产生的裂解产物的样本信号与(ii)一组源自接触或虚拟接触特异性裂解剂的参考生物分子所产生的裂解产物的参考信号的峰型;(b)鉴别信号的聚类模式;和(c)根据(b)中的聚类模式,将信号分组。
一些聚类实施例包括根据特定特征(例如质量和强度),将样本(例如样本组)或参考物(例如参考组)或者样本与参考物的组合(例如样本组和参考组)分组或分类。在某些实施例中,序列或序列信号可源自样本中的生物分子。可利用所属领域技术人员已知的任何适用的聚类方法,包括(但不限于)不加权对群法分析(unweighted pair groupmethod analysis)、邻接法分析(neighbor joining analysis)、最大似然法分析(maximumlikelihood analysis)、监督/无监督分析(supervised/unsupervised analysis)、阶层式/非阶层式分析(hierachical/non-hierachical analysis)等。在一些实施例中,聚类模式可由峰位置阵列结合转换成整数的信号强度确定。在相关实施例中,(a)(ii)可具有两组或两组以上参考信号,其各源自接触或虚拟接触特异性裂解剂的参考生物分子所产生的裂解产物。可通过学习算法和所属领域技术人员已知的其它方法增强聚类法。在一些实施例中,可通过不加权对群法分析确定聚类模式。在某些实施例中,聚类模式是由峰位置阵列结合转换成整数的信号强度而确定。在某些实例中,将多个样本组或参考序列组混合(例如多重化)并作为单一组与个别样本组相比较。在一些实施例中,样本组可源自个别样本或可源自混合所得的多个样本。无论是否混合,无论是来自一个还是多个裂解反应并且无论是模拟还是检测,来自不同区域或有机体(例如一个群体中的多个类型)的峰型在聚类之前都可以级联。
本文所提供的方法可使用样本混合物和/或参考物混合物或者二者的混合物进行。举例来说,在某些实施例中,可将参考组分组并与一个样本组相比较。所述后种实施例适用于例如确定特定样本是具有参考组混合物中所存在的一个或多个信号模式,还是具有样本混合物的先前采集模式。
对于本文中任一适用实施例,生物分子可为任何聚合生物分子。生物分子序列的实例包括例如核酸序列,诸如DNA和RNA以及其衍生物;和氨基酸序列,诸如肽、多肽和蛋白质序列。序列变异可为生物分子序列中的任一类型变异,包括(但不限于)一个或多个核苷酸的取代、单核苷酸多态性、一个或多个核苷酸的插入或者一个或多个核苷酸的缺失。生物分子也可为例如非蛋白质和非核酸分子,诸如脂质和碳水化合物。对于非氨基酸和非核苷酸分子,确定一个序列是否存在一般涉及分析由所述分子或其裂解产物或片段产生的信号(例如对应于脂质分子或其部分的质量信号和/或强度)。
信号可为可由所属领域技术人员测量的代表生物分子片段序列的任一类型信号。信号包括(但不限于)凝胶电泳信号、毛细管电泳信号、荧光信号和质谱信号(例如,由MALDI-TOF或其它质谱法产生的信号)。质谱信号可为质量信号,并且可表示为质荷比。质谱信号或其它信号的强度可视信号所代表的特定裂解产物的拷贝数或量而定。在某些实施例中,靶生物分子序列可为(但不限于)单个序列、序列混合物、不同序列区的混合物或不同裂解反应的混合物。靶生物分子序列可为样本生物分子序列或参考生物分子序列的一个或多个序列特征。序列可为序列中的一连串核酸或者数段DNA或RNA的任何组合物。
在某些实施例中,通过比较经参考峰强度加权的所检测的和个别参考峰型的强度,来计算位图得分。可通过评估使一个特征模式区别于另一个特征模式或使一组模式区别于另一组模式的特征亚组,来计算区别性特征匹配得分。距离得分可基于所属领域技术人员所选择的任一类型适当距离,诸如欧氏距离。距离得分可根据所鉴别的特征向量与所有参考特征向量的距离来计算。在某些实施例中,峰型一致性得分可由匹配峰强度、丢失和额外峰强度、沉默丢失峰强度与沉默额外峰强度的总和来计算。在一些实施例中,通过对上述实施例的(b)中的匹配峰型进行迭代重复评分约5次或5次以上、约10次或10次以上、约50次或50次以上或者约100次或100次以上或者约1000次或1000次以上循环,来鉴别最高等级匹配峰型。
在某些实施例中,使样本质量信号组经历一种或多种信号处理方法,所述方法选自由峰检测、校准、归一化、光谱质量、强度标度和复合体调整滤波器组成的群组。复合体为具有特定核苷酸组成的裂解产物,如下文更为详细地描述。在一些实施例中,鉴别基于由生物化学与所应用的数据采集工具结合得到的加合物(例如盐、基质、双电荷分子、简并引物信号、无效循环产物)的信号(不涉及参考物特征),并加以解释。这些产物也可称为例如副产物、化学噪声或杂质。在某些实施例中,参考质量信号组是源自虚拟接触特异性裂解剂的参考生物分子所产生的裂解产物。在一些实施例中,参考质量信号组经历聚类。在某些实施例中,聚类可基于峰质量和峰强度,或可基于一个或多个本文所述的信号组分。
在一些实施例中,相邻改变得分可为相邻丢失(adjMissing)、相邻错配(adjMismatch)与相邻附加(adjExtra)得分的总和。相邻丢失得分可为经反应加权的丢失峰强度的总和。相邻错配得分可为经反应加权的错配峰强度的总和。错配为参考组所预期、但特定样本参考物未预期的信号。相邻附加得分为经所进行的反应加权的额外峰强度的总和。附加信号为参考组未预期的信号。
在某些实施例中,(a)(ii)可具有两组或两组以上参考质量信号,其各源自接触或虚拟接触特异性裂解剂的参考生物分子所产生的裂解产物。在相关实施例中,可将各参考组与样本组相比较。在一些实施例中,可将参考组混合并作为单一组与样本组相比较。相应地,可由例如单个参考物、不同来源(例如样本)或不同区域或不同裂解反应的参考物的混合物得到参考质量信号组。在某些实施例中,参考信号组可源自由各种类型的序列来源得到的裂解产物,所述序列来源包括(但不限于)诸如真核或原核有机体(例如微生物(细菌)、真菌有机体、健康(非病原性)或不健康(病原性)有机体、死或活有机体)和病毒等有机体(哺乳动物、动物、植物或单细胞生物)的基因组特征区。在某些实施例中,也可由其它来源,诸如癌症和法医学样本,来制备混合物。在一些实施例中,可通过与参考组相比较来分辨混合样本组。参考组可为个别序列或其混合物和衍生物(例如级联序列、具有不同经修饰核苷酸的序列、共有序列)。
在一些实施例中,样本组和/或参考组是源自以下中的一种或多种:(i)接触或虚拟接触第一特异性裂解剂的第一引物产物;(ii)接触或虚拟接触第一特异性裂解剂的第二引物产物;(iii)接触或虚拟接触第二特异性裂解剂的第一引物产物;(iv)接触或虚拟接触第二特异性裂解剂的第二引物产物。可利用任何有用数量的特异性裂解剂,并且在一些实施例中,可分析使用1、2、3、4、5、6、7、8、9、10或10种以上特异性裂解剂产生的信号。在一些实施例中,第一引物产物可为正向引物产物,第二引物产物可为反向引物产物,第一引物产物可为T7引物产物,并且第二引物产物可为SP6引物产物。或者相反,第一引物产物可为反向引物产物,第二引物产物可为正向引物产物,第一引物产物可为SP6引物产物,并且第二引物产物可为T7引物产物。作为一种选择,可利用T7正向产物和相应不可转录标签(tag)以及T7反向引物和相应不可转录标签来扩增两种PCR引物产物。这同样适用于SP6。也可利用所属领域技术人员已知和所选择的其它RNA或RNA/DNA聚合酶启动子。在一些实施例中,可利用突变聚合酶的启动子,诸如可利用经修饰(非天然)核苷酸延伸的聚合酶的启动子。
在某些实施例中,可通过包含以下步骤的方法制备一组质量信号:(a)使样本DNA与引物接触;(b)延伸引物以形成引物产物;(c)转录引物产物以形成引物产物RNA;(d)使引物产物RNA与特异性裂解剂接触以形成裂解产物;和(e)由裂解产物制备一组质量信号。可通过扩增法延伸引物,并制备出扩增的引物产物(例如使用线性或指数扩增)。在某些实施例中,扩增法为聚合酶链反应法(PCR)或所属领域技术人员已知的任何其它适用的指数扩增法。在一些实施例中,可通过质谱分析制备出质量信号组,有时所述质谱分析为MALDI-TOF、ESI或O-TOF。
在一些实施例中,可通过包含以下步骤的方法制备一组质量信号:(a)使样本DNA与第一引物和第二引物接触;(b)通过扩增法延伸第一引物和第二引物以形成扩增的第一引物产物和扩增的第二引物产物;(c)转录第一引物产物和第二引物产物以形成第一引物产物RNA和第二引物产物RNA;(d)使第一引物产物RNA和第二引物产物RNA与第一特异性裂解剂接触,以形成第一裂解产物组和第二裂解产物组;(e)使第一引物产物RNA和第二引物产物RNA与第二特异性裂解剂接触,以形成第三裂解产物组和第四裂解产物组;和(f)制备各裂解产物组的质量信号组。如上文所述,可利用任何有用数量的裂解剂(例如1到10种特异性裂解剂)进行本文所述的方法,并且可分析来自各特异性裂解反应产物组的裂解产物组。此外,如本文所述,可利用任何类型的有用裂解剂(例如RNA酶T1、RNA酶A或其它裂解剂)。
样本可从任何适用来源获得,诸如有机体(例如病原体、微生物、病毒、动物(例如哺乳动物、人类样本)、农业样本(例如植物样本)或环境样本(例如土壤样本、建筑物样本))。在某些实施例中,样本可例如来自确诊疾病(例如癌症)或微生物感染的个体;可来自个体作为法医学分析的一部分;并且可来自处于妊娠任何阶段(例如第一个三个月内、第二个三个月内、第三个三个月内)的怀孕女性作为产前检查的一部分。
可对由产生靶序列片段的扩增法所产生的核酸片段进行本文所述的方法。扩增法为使用活有机体、酶、酶系统或者任何生物化学或化学试剂产生单链或双链DNA或RNA或者其片段的多个拷贝的所有方法。因此,可利用通过所述扩增法产生的片段代替由靶序列的特异性裂解产生的裂解产物来确定峰型。所述扩增法的实例包括(不限于)线性和指数扩增法(例如引物延伸法、PCR、连接酶链反应、体外(in vitro)转录、克隆、RNA扩增法)。
还提供用于计算机中的程序产品,所述计算机执行记录于计算机可读媒体中的程序指令以确定样本中靶生物分子序列的存在,所述程序产品包含:可记录媒体;和所述可记录媒体上的多个计算机可读程序指令,其可由计算机执行以进行任一前述实施例的方法。
还提供确定样本中靶生物分子序列的存在的基于计算机的方法,其可包含本文所述任何方法的要素。举例来说,一种基于计算机的方法可包含例如:(a)鉴别(i)一组输入计算机中的源自使样本中的生物分子与特异性裂解剂接触而产生的裂解产物的样本信号与(ii)一组输入计算机中的源自接触或虚拟接触特异性裂解剂的参考生物分子所产生的裂解产物的参考信号之间的匹配峰型,并进行评分;其中所述评分基于一个或多个选自由位图得分、区别性特征匹配得分、距离得分、峰型一致性得分和相邻改变得分组成的群组的标准;(b)鉴别出一个或多个最高等级匹配峰型;其中所述一个或多个最高等级匹配峰型通过对样本信号组与参考信号组之间的最高等级匹配峰型亚组中的匹配峰型进行迭代重复评分来鉴别;(c)鉴别参考组中具有所述一个或多个最高等级匹配峰型的生物分子序列中的潜在序列变异(例如突变);(d)由所述一个或多个最高等级匹配峰型之间的匹配,确定样本中是否存在靶生物分子序列或靶生物分子序列的身份;和(e)对所述一个或多个最高等级匹配峰型之间的匹配赋予置信度值;(f)对任何其它序列变异可能性赋予概率值。在某些实施例中,步骤(a)(i)可包括使用参考样本组鉴别匹配峰型并进行评分。
还提供确定样本中靶生物分子序列的存在或鉴别样本中的靶生物分子序列的高通量自动分析系统,其包含:处理站,其将生物分子裂解(例如利用一种或多种特异性裂解剂);机器人系统,其将所得来自处理站的裂解产物(例如片段或裂解产物)运送或转移到测量站,在测量站中测定一个或多个分析物特异性测量值(例如通过质谱法测定质量和/或长度);和数据分析系统,其通过进行本文所述任一实施例的基于计算机的方法处理来自测量站的数据,从而鉴别样本中靶生物分子序列的存在。所述系统中可包括供样本跟踪的条码系统(barcoding system)。
本文所述的分析可为定性和定量分析。举例来说,可测定样本中特定靶序列的量或特定信号的相对量,或不同靶序列的相对量或绝对量。可在本文所述的方法中利用内对照,这可适用于定量分析。在某些实施例中,内对照为已知量的已知序列,并且内对照可为参考组的一部分。内对照可例如由质量修饰过的核苷酸、以化学或酶方式修饰过的核苷酸产生。内对照也可为甲基化核酸或脱甲基核酸。其可为经修饰或未经修饰的氨基酸,或脂肪酸或糖,或其序列。其可为使可检测裂解产物与任何内对照(无论是可裂解还是不可裂解)之间形成质量差异的任何修饰体。
所属领域技术人员可鉴别不同参数组,例如当预期样本除少数点突变外能与参考组中的一个序列匹配时,使用常规参数组。为了峰匹配质量的锚定峰选自参考序列组的模拟峰型,以致对于任一参考序列,都能发现各锚定峰组的至少一个峰。通过将源于峰强度和峰信噪比(SNR)的贡献(contribution)与源于锚定峰匹配的贡献以33%和67%比率相结合,来计算光谱质量。
当预期样本与参考组(例如只具有一个已知序列的参考组)中的已知参考序列远远不同时,使用松弛参数组。为了峰匹配质量的锚定峰选自参考序列组的模拟峰型,以致对于任一参考序列,都能发现各锚定峰组的至少两个峰。通过将源于峰强度和峰SNR的贡献与源于锚定峰匹配的贡献以90%和10%比率相结合,来计算光谱质量。
还提供用于进行本文所述方法的试剂盒。在以下描述和权利要求书中将更为详细地描述本发明的实施例和特征。
附图说明
图1:通过PCR、体外转录、碱基特异性裂解和MALDI-TOF MS进行的序列比较分析中所涉及的工序步骤的流程图。步骤1:将参考物(例如序列或模式)输入系统数据库中;步骤2:PCR和PCR后生物化学(包括适当净化步骤);步骤3:MALDI-TOFMS样本特异性指纹和峰型比较;步骤4:鉴别(例如分型)结果列表,包括进行概率和置信度赋值的序列变异。
图2:序列比较分析的结果屏幕。显示各样本的最佳匹配参考信号(例如序列)、置信度值、偏差和变异概率。细节窗口(Details window)展现质谱数据和匹配得分以及计算机模拟(in silico)带型。
图3:使用概率模型计算概率的流程图。
图4:分析选项
图5:96个可分型脑膜炎奈瑟菌(N.meningitidis)样本的MALDI-TOF MS多基因座序列分型(MLST)统计学。对于97.6%的样本等位基因,软件自动指定正确的最高匹配参考序列,对于1.8%,在一组得分相等的最高匹配参考序列中列出正确的匹配参考序列,而对于0.6%,提供错误的参考序列。
图6:基于碱基特异性裂解和MALDI-TOF MS在等位基因aroE9的位置443发现C突变成T。突出显示与最佳匹配参考序列aroE9的模拟带型相比较的突变特异性变化。(A)正向RNA转录物的T特异性裂解反应的质谱与在7343.5Da和8957.9Da处具有突变特异性信号变化的计算机模拟裂解的带型的叠加图。(B)反向RNA转录物的T特异性裂解反应的质谱与在3120.0Da和3136.0Da处具有突变特异性信号变化的计算机模拟裂解的带型的叠加图。(C)正向RNA转录物的C特异性裂解反应的质谱与在2010.0Da处具有突变特异性信号变化的计算机模拟裂解的带型的叠加图。
图7:(A)碱基特异性裂解和MALDI-TOF MS图的不加权对群法(UPGMA)树与(B)源于同一样本组的一级序列的UPGMA树的比较。样本以等位基因和样本编号(x_y)标示。ED 2.8为相同样本之间光谱相似程度的截止值。星号(*)突出显示由一种树而非另一种树确定的分化枝。
图8绘示涉及重测序的质谱序列比较分析实施例的一般示意图。
图9绘示涉及质谱信号的复合体分析的裂解法一般图示。
图10为合成质量信号组的实施例的一般描述。
图11为峰处理实施例的一般描述。
图12描述峰型匹配分析实施例。
图13为迭代峰型匹配和评分实施例的一般描述。
图14绘示某些序列比较分析实施例的流程图,所述实施例涉及使用特征序列鉴别分析来比较样本信号组与一个或多个参考信号组。
图15描述某些序列比较分析实施例的流程图,所述实施例涉及使用聚类分析来比较样本质量信号组。
图16绘示计算置信度值的方法实施例的流程图。
图17绘示序列比较分析的系统实施例。
图18绘示基于计算机的方法实施例。
具体实施方式
本世纪伊始,基因组研究就取得了极大进展。实现了如人类基因组和许多其它物种的完整测序等重要事件,并通过对变异的系统性发现加以补充。多个公共和私有数据库提供序列比较分析和变异分析的全面参考组。其中所含信息的有效比较是当今生物学、进化和医学关注的焦点之一。因此,目前,测序应用大多集中在比较测序-即一组特定的基因组区域或完整基因组(可能时)上多个个体的并行测序,以探知群体内的变异并由此确定新的信息DNA标志物组。
基因组计划的不断发展为鉴别大型DNA标志物组、多段多态性核苷酸序列提供了基础。其有用于评定种间和种内特异性变异,并且有助于理解遗传对有机体表型表达的贡献。DNA标志物被广泛用于多种应用,包括犯罪嫌疑人鉴别、连锁分析、药理基因组学或日常临床诊断,并且对于将来改进治疗监测和提供个体化医疗越来越重要。
多种进化物种的基因组序列的比较(种内和种间比较)已经成为鉴别功能重要的基因组元件和理解生物路径的有力工具。
基于基因组的诊断方法的发展、评估和应用对于检测感染原、预测疾病易感性、预测药物反应、对疾病进行准确分子分类十分重要。此外,不仅需要基于基因组的方法预测疾病易感性和药物反应、进行早期疾病检测和疾病状态的分子分类,还需要鉴别有助于良好健康和疾病抗性或在微生物情况下的抗生素抗性的基因变异体。
为了表征而在微生物基因组中的序列比较分析是在属、种或品系特异性水平上以及来源分类上对微生物进行的具体鉴别和判别。这些是在临床环境和医药生产环境中识别和监测微生物爆发的重要方面。
对于感染性疾病的全球性监视,全基因组比较测序的新技术相当昂贵并且使用不方便,以致无法在自动化高通量情况下比较大量分离株。全基因组DNA微阵列以及其在流行病学中的常规应用也存在相同的问题。未来的使用仍然需要每反应的成本降低;集中在确立的遗传方差区域的稳固而简化的形式;和与其它分子方法相比较的充分评估。对于与平行同源基因(paralogous gene)杂交和交叉杂交的比率的模糊解释是此项技术的重要限制。此外,PCR产物微阵列一般不具有检测较少缺失和点突变的分辨能力(加拉泽(Garaizar)等人,2006)。
因此,基于多个经PCR扩增的DNA标志物区和核苷酸序列分析的分型方法,如双脱氧测序或通过MALDI-TOF MS进行的序列比较分析,是重要替代方法。利用部分遗传特征探测多个微生物分离株大型集合将为这些基于序列的分型方法提供框架(范贝尔科姆(van Belkum)2003)。PCR技术使得能轻易地实现多个分子标志物区的分析,甚至对于微量物质、未经培养的物种或临床样本也能实现。所得DNA序列允许构建可以访问的电子遗传数据库,这极适用于前瞻性流行病学监视工作并且允许在各中心之间进行数据传输(普法勒(Pfaller)1999)。
在过去的十年里,为了利用序列比较分析的微生物表征,已确立如16S或23S rDNA的多个微生物标志物区(例如参看伍斯(Woese)(1997)核酸研究(Nucleic AcidResearch),25(1),109-11),以及如多基因座序列分型(MLST)的信息分型方法。多基因座序列分型是在1998年作为一种比较测序方法提出,用于评定细菌分离株的群体结构。MLST使用有限数量的看家基因(housekeeping gene)的双脱氧测序,在种间和种内水平上阐明基因组间相关性。使用多基因座对于实现提供各菌株之间有意义的关系所需的分辨能力至关重要。跟踪随着年龄变化因突变或重组事件引起的克隆的多样性具有重要性(麦登(Maiden)2006;麦登等人,1998;尤文(Urwin)和麦登,2003)。
MLST可由临床物质(例如脑脊髓液或血液)通过PCR扩增获得,并且可对分离株进行准确表征,即使它们无法培养(恩莱特(Enright)和斯帕特(Spratt)1999)。数据是明确的,并且可以容易地经由互联网与大型中央数据库中的数据进行比较。到目前为止,不断扩大的MLST数据库覆盖了18个物种。其它方案也在稳定发展中,并且可包括如已知例如MAST分型或淋病奈瑟菌(N.gonorrhoeae)的抗原区,以及抗生素抗性区。
临床研究环境中现有特征序列(例如MLST或16S和23S rDNA基因座)的标准化应用和新信息标志物组的鉴别需要液体处理机器人系统(liquid handling robotics)、标准化协议和自动分析平台。
碱基特异性核酸内切酶消化RNA,随后进行MALDI-TOF MS,为核酸质量指纹分析和序列比较分析提供了解决方案。使PCR扩增的遗传特征序列经历体外转录和碱基特异性RNA裂解。随后,采集所得裂解产物(RNA复合体的混合物)的特定质量信号模式,并提供样本指纹。由于已知RNA复合体中各碱基的确切质量,故使用由MALDI-TOFMS获得的高精确度推导出各信号的碱基组成。可能的碱基组成的清单受所述复合体3′端已知裂解碱基的单一表示所限制。
在数据评注和校准后,将所检测到的实验复合体质量的清单与由计算机模拟消化(insilico digest)系统数据库中的一组参考序列而得到的经计算分子量清单相比较。参考组的这些模拟模式通过最佳匹配参考序列来鉴别样本并在最佳拟合情况下产生同源性的比较性测量。
最佳匹配参考序列与样本序列之间的微不均一性(microheterogeneity)(诸如单碱基偏差)会影响复合体混合物的一种或多种裂解产物,并以计算机模拟与所检测到的样本光谱之间的偏差显露出来。时间高效算法利用这些检测出的偏差来鉴别和定位小到单碱基对改变的序列差异(波克(Bocker)2003;斯坦森(Stanssens)等人,2004)并且鉴别新颖序列。
所属领域技术人员可将本文所述的方法和系统用于多种用途。所述方法和系统可用于例如:(a)快速确定特定靶序列是否存在于样本中;(b)进行混合物分析,例如鉴别混合物和/或其组成,或确定混合物(例如混合群落(mixed community)、准种(quasispecies))中靶序列的频率;(c)制备参数组;(d)检测样本中的序列变异(例如突变、单核苷酸多态性);(e)进行单倍型测定;(f)进行病原体分型;(g)检测样本中是否存在病毒或细菌靶序列;(h)绘制抗生素谱、绘制抗生素抗性谱;(i)鉴别疾病标志物;(j)检测微卫星(microsatellite);(k)鉴别短串联重复序列;(l)鉴别一种或多种有机体;(m)检测等位基因变异;(n)测定等位基因频率;(o)测定甲基化模式;(p)进行表观遗传测定(epigenetic determination);(q)生物分子某一区域的重测序;(r)进行多重分析(multiplex analysis);(s)人类临床研究和医学(例如癌症标志物检测、序列变异检测、对特定药物投与有利与否的序列特征的检测);(t)HLA分型;(u)法医学;(v)疫苗质量控制;(w)治疗监测;(x)载体特性;(y)进行疫苗或生产菌株质量控制(QC);(z)检测突变体,例如疾病突变体;(aa)测试菌株特性;和(ab)检测一般在直接或间接测量的任何情况下作为鉴别标签的核酸序列段的特性。
定义
除非另作定义,否则本文所使用的所有科技术语具有与本发明所属领域技术人员通常所了解相同的含义。在本文中术语具有多种定义的情况下,以本节的定义为准。在提及URL或其它此类标识符或地址的情况下,应了解,所述标识符可变化并且互联网上的特定信息也是易变的,但通过搜索互联网,仍能发现等同的信息。对于这些信息的参考证实所述信息的可用性和公共传播。
如本文所使用,分子是指任何分子实体,并且包括(但不限于)生物聚合物、生物分子、大分子或者其组分或前体,诸如肽、蛋白质、有机化合物、寡核苷酸或肽的单体单元、有机物、核酸、经修饰核酸和其它大分子。单体单元是指构成所得化合物的一种成分。因此,单体单元包括核苷酸、氨基酸和药效团(pharmacophore)(其能合成小有机分子)。
如本文所使用,生物分子为自然界中存在的任何分子,或其衍生物。生物分子包括生物聚合物和大分子,以及可从活有机体和病毒分离的所有分子,所述活有机体和病毒包括(但不限于)细胞、组织、朊病毒、哺乳动物、动物、植物、病毒、细菌、朊病毒和其它有机体。生物分子还包括(但不限于)寡核苷酸、寡核苷、核糖核苷酸、核糖核苷、蛋白质、肽、氨基酸、脂质、类固醇、肽核酸(PNA)、寡糖和单糖,有机分子(诸如酶辅因子)、金属络合物(诸如血红素(heme))、铁硫群集、卟啉和其金属络合物、金属(诸如铜、钼、锌)等。生物分子也可为用作标识符的标签。
如本文所使用,大分子是指分子量达数百到数百万的任何分子。大分子包括(但不限于)肽、蛋白质、核苷酸、核酸、碳水化合物,和一般由生物有机体合成但也可经合成制备或使用重组分子生物学方法制备的其它此类分子。
如本文所使用,生物聚合物是指由两个或两个以上单体亚单位构成的生物分子(包括大分子)或其衍生物,所述单体亚单位通过键或大分子连接。生物聚合物可例如为多核苷酸、多肽、碳水化合物或脂质,或其衍生物或组合,例如含有肽核酸部分的核酸分子或糖蛋白。
如本文所使用,“核酸”是指多核苷酸,诸如脱氧核糖核酸(DNA)和核糖核酸(RNA)或二者的组合,以及其任何化学或酶修饰体(例如甲基化DNA、经修饰核苷酸的DNA)。所述术语也应理解为包括由核苷酸类似物形成的RNA或DNA的等效物、衍生物、变异体和类似物;单链(有义链或反义链)和双链多核苷酸。脱氧核糖核苷酸包括脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷。对于RNA,尿嘧啶碱基为尿苷。
称为“多核苷酸”的核酸是以其广义使用,意指由共价键连接的两个或两个以上核苷酸或核苷酸类似物,包括单链或双链分子。术语“寡核苷酸”在本文中也用于指由共价键连接的两个或两个以上核苷酸或核苷酸类似物,但所属领域技术人员将理解,诸如PCR引物等寡核苷酸的长度一般为小于约50个核苷酸到100个核苷酸。术语“扩增”关于核酸使用时,意指利用特异性或非特异性方式重复拷贝DNA序列或RNA序列,从而使待拷贝的特定DNA或RNA序列的量增加。
如本文所使用,“核苷酸”包括(但不限于)天然存在的核苷单-、二-和三磷酸:脱氧腺苷单-、二-和三磷酸;脱氧鸟苷单-、二-和三磷酸;脱氧胸苷单-、二-和三磷酸;和脱氧胞苷单-、二-和三磷酸(在本文中分别称为dA、dG、dT和dC或A、G、T和C)。核苷酸还包括(但不限于)经修饰核苷酸和核苷酸类似物,诸如脱氮嘌呤核苷酸,例如7-脱氮-脱氧鸟苷(7-脱氮-dG)和7-脱氮-脱氮腺苷(7-脱氮-dA)单-、二-和三磷酸;氘-脱氧胸苷(氘-dT)单-、二-和三磷酸;甲基化核苷酸,例如5-甲基脱氧胞苷三磷酸;13C/15N标记的核苷酸;和脱氧肌苷单-、二-和三磷酸。所属领域技术人员将了解,可使用官能团和连接位置的各种组合,来获得经修饰核苷酸;同位素富集、同位素贫化或同位素标记的核苷酸;和核苷酸类似物。
如本文所使用,短语“链延长核苷酸”根据其所属领域公认的含义使用。举例来说,对于DNA,链延长核苷酸包括2′脱氧核糖核苷酸(例如dATP、dCTP、dGTP和dTTP),并且链终止核苷酸包括2′,3′-双脱氧核糖核苷酸(例如ddATP、ddCTP、ddGTP、ddTTP)。对于RNA,链延长核苷酸包括核糖核苷酸(例如ATP、CTP、GTP和UTP),并且链终止核苷酸包括3′-脱氧核糖核苷酸(例如3′dA、3′dC、3′dG和3′dU)和2′,3′-双脱氧核糖核苷酸(例如ddATP、ddCTP、ddGTP、ddTTP)。一组完整的链延长核苷酸是指:对于DNA的dATP、dCTP、dGTP和dTTP;或对于RNA的ATP、CTP、GTP和UTP。术语“核苷酸”也是所属领域众所周知的。
如本文所使用,术语“核苷酸终止子”或“链终止核苷酸”是指在DNA或RNA模板进行测序或复制的过程期间,终止核酸聚合物(链)延伸的核苷酸类似物。标准链终止核苷酸(即核苷酸终止子)包括2′,3′-双脱氧核苷酸(ddATP、ddGTP、ddCTP和ddTTP,在本文中也称为双脱氧核苷酸终止子)。如本文所使用,双脱氧核苷酸终止子还包括标准双脱氧核苷酸终止子的类似物,例如5-溴-双脱氧尿苷、5-甲基-双脱氧胞苷和双脱氧肌苷,其分别为ddTTP、ddCTP和ddGTP、无环核苷酸的类似物。
如本文所使用,术语“多肽”意指由肽键(可为经修饰肽键)连接的至少两个氨基酸,或氨基酸衍生物,包括质量修饰的氨基酸。多肽可从作为编码序列的至少一部分的核苷酸序列翻译得到,或从例如因在阅读框而非编码框中或者为内含子序列、3′或5′非翻译序列或调控序列(诸如启动子)而自然地不被翻译的核苷酸序列翻译得到。多肽还可以化学方式合成,并且可在翻译或化学合成后经化学或酶法修饰。当提及经翻译核酸(例如基因产物)时,术语“蛋白质”、“多肽”和“肽”在本文中可互换使用。
如本文所使用,生物分子片段(诸如生物聚合物片段)是比整体小的部分。片段可含有一种成分到不足全部成分。通常当裂解时,片段将具有多种不同的尺寸,以致大多将含有超过两种成分,诸如组成单体。
如本文所使用,术语“裂解产物”是指由生物分子特异性裂解产生的产物。可选择和利用所属领域技术人员已知的任何已知特异性裂解剂或方法,并且其实例包括(不限于)生物分子的特异性物理、化学或酶促裂解。裂解产物在本文中有时称为“裂解片段”或“片段”。如本文所使用,“靶核酸的裂解产物”是指由所述靶核酸的特异性物理、化学或酶促裂解产生的裂解产物。如本文所使用,由特异性裂解获得的特异性裂解产物或片段是指基于下述在靶核酸的特定位置裂解得到的裂解产物或片段:裂解剂的碱基/序列特异性(例如A、G、C、T或U,或者经修饰碱基或核苷酸的识别);或靶核酸的某些特征/基元(例如序列特异性基元,例如限制性酶)或结构的识别;或物理过程,诸如在质谱分析过程中由碰撞诱导的解离引起的电离;或其组合。片段可含有一个到不足全部的靶核酸分子组成核苷酸。由所述裂解得到的片段的集合含有多种不同尺寸的寡核苷酸和核苷酸。片段的尺寸可变化,并且适当核酸片段通常小于约2000个核苷酸。适当核酸片段可在数个尺寸范围内,包括(但不限于):小于约1000个碱基、介于约100个碱基到约500个碱基之间、约25个碱基到约200个碱基、约3个碱基到约50个碱基、约2个碱基到约30个碱基或约4个碱基到约30个碱基之间。在一些方面中,由特异性裂解获得的产物组中可存在具有约1个核苷酸的片段。
如本文所使用,靶核酸是指样本中的任何相关核酸。其可含有一个或多个核苷酸。靶核苷酸序列是指靶核酸分子中的特定核苷酸序列。所述序列的检测和鉴别引起对靶的检测,并且可指示特定突变、序列变异(突变或多态性)的存在与否。类似地,如本文所使用,靶多肽是指任何相关多肽,其质量例如通过使用质谱法分析,以确定至少一部分多肽的氨基酸序列,或确定例如通过用一种或多种肽链内切酶处理靶多肽而产生的多肽的肽片段模式。术语“靶多肽”是指任何相关多肽,其经历质谱分析以达到本文所揭示的目的,例如为了鉴别多态性或突变的存在。靶多肽含有至少2个氨基酸,一般至少3或4个氨基酸,且尤其至少5个氨基酸,但也可更长。靶多肽可由编码可与特定疾病或病况有关的蛋白质或蛋白质的一部分的核苷酸序列编码。靶多肽也可由通常不编码经翻译多肽的核苷酸序列编码。靶多肽可由例如可能存在于染色体核酸(例如基因的编码或非编码区,例如染色体的端粒区)中的二核苷酸重复序列或三核苷酸重复序列等序列编码。如本文所使用,短语“靶序列”是指靶核酸序列,或靶多肽或蛋白质序列,或小RNA(microRNA)。
本文所揭示的方法还提供一种通过对靶多肽的肽片段的质谱分析来鉴别靶多肽的方式。如本文所使用,术语“靶多肽的肽片段”是指由多肽的特异性化学或酶促降解产生的裂解片段。由于化学和酶促裂解是以序列特异性的方式发生,故靶多肽的肽片段的产生由多肽的一级氨基酸序列限定。可例如通过使固定于固体支撑物上的靶多肽与化学试剂(诸如,溴化氰,其在甲硫氨酸残基处裂解多肽;或高pH值下的羟胺,其可裂解Asp-Gly肽键)或与肽链内切酶(诸如胰蛋白酶,其在Lys或Arg残基处裂解多肽)接触,来产生多肽的肽片段。
可通过将靶多肽的分子质量或序列与参考或已知多肽的分子质量或序列相比较,来确定靶多肽的特性。举例来说,可比较靶多肽与已知多肽的质谱。
如本文所使用,术语“相应或已知多肽或核酸”是一般用作对照物或参考物以确定例如靶多肽或核酸是否为相应已知多肽或核酸的等位基因变异体或用于靶多肽或核酸的鉴别的已知多肽或核酸。应了解,相应已知蛋白质或核酸的氨基酸或碱基序列可与靶多肽实质上相同,或可实质上不同。举例来说,当靶多肽为与相应已知蛋白质具有单个氨基酸差异的等位基因变异体时,所述多肽的氨基酸序列除存在单个氨基酸差异外其余都相同。当编码靶多肽的核酸中的突变改变,例如编码核酸的阅读框引入或缺失终止密码子(STOP codon)时,靶多肽的序列可与相应已知多肽的序列实质上不同。
如本文所使用,参考生物分子是指一般(但非必需)用于与靶生物分子相比较的生物分子。因此,举例来说,参考核酸是与靶核酸相比较的核酸,比较的目的在于鉴别靶核酸中相对于参考核酸的潜在或实际序列变异。参考核酸通常具有已知序列或具有可确定的序列。其可为一种序列或仅为一种模式。
如本文所使用,参考多肽是与靶多肽相比较的多肽,比较的目的在于在不涉及靶多肽测序的方法中鉴别靶多肽。参考多肽通常为已知多肽。如本文所使用,参考序列是指参考核酸或者参考多肽或蛋白质序列。
如本文所使用,基于转录的方法包括“体外转录系统”,其是指含有RNA聚合酶以及转录可操作地连接启动子(其特异性结合RNA聚合酶)的DNA分子所需的其它因子和试剂的无细胞系统。体外转录系统可为细胞提取物,例如真核细胞提取物。如本文所使用,术语“转录”一般指基于DNA模板起始、延长和终止RNA分子产生的过程。此外,“反转录”的方法是所属领域众所周知,认为其涵盖于如本文所使用术语“转录”的含义内。转录是一种由DNA依赖性或RNA依赖性RNA聚合酶催化的聚合反应。RNA聚合酶的实例包括细菌RNA聚合酶、SP6RNA聚合酶、SP6RNA和DNA聚合酶、T3RNA聚合酶、T3RNA聚合酶、T7RNA聚合酶以及T7RNA和DNA聚合酶,以及其任何突变变异体。
如本文所使用,术语“翻译”描述基于RNA模板起始、延长和终止多肽产生的过程。对于待由DNA产生的多肽,须将DNA转录成RNA,随后由于各种细胞组分的相互作用而将RNA翻译成多肽。在原核细胞中,转录与翻译是“偶联”的,意思是在将DNA转录成RNA的期间,将RNA翻译成多肽。在真核细胞(包括植物和动物细胞)中,在细胞核中将DNA转录成RNA,随后将RNA加工成mRNA,将其转运到细胞质中,在这里将mRNA翻译成多肽。
如本文关于核酸(包括DNA和RNA)所使用,术语“经分离”是指与在自然状态下通常与所述核酸缔合的其它大分子实质上分开的核酸分子。经分离核酸分子与在细胞中通常与其缔合的细胞物质实质上分开,或相关地,可与细菌或病毒物质实质上分开;或当由重组DNA技术产生时与培养基实质上分开;或当以化学方式合成核酸时与化学前体或其它化学物质实质上分开。一般来说,经分离核酸分子相对于其自然状态为至少约50%富集,并且一般为约70%到约80%富集,尤其为约90%或95%或更高富集。优选经分离核酸占含有所述核酸的样本的至少约50%,并且可为样本中所述物质的至少约70%或80%,尤其为所述样本的至少约90%到95%或更高。经分离核酸可为自然界中不存在的核酸分子,并因此在自然状态下不可见。
术语“经分离”在本文中也指与在自然状态下通常与多肽缔合的其它大分子实质上分开的多肽。可根据多肽相对于自然状态下与其缔合的物质的富集程度、或在含有所述多肽的样本中所占分率达到与上文关于“经分离”核酸所定义相同的程度(即,相对于其自然状态富集至少约50%,或在含有多肽的样本中占至少约50%),来鉴别经分离多肽。经分离多肽例如可从通常表达所述多肽的细胞纯化,或可使用重组DNA方法产生。
如本文所使用,核酸的“结构”包括(但不限于)由非沃森-克里克碱基配对(non-Watson-Crick base pairing)产生的二级结构(例如参看F.西拉(Seela,F.)和A.科尼(A.Kehne)(1987)生物化学(Biochemistry),26,2232-2238);和由核酸中碱基配对与非碱基配对或错配碱基的组合形成的结构,诸如发夹(hairpin)、环(loop)和泡(bubble)结构。
如本文所使用,表观遗传改变是指靶序列中相对于参考序列(例如突变型序列相对于野生型序列)的变异,所述变异不依赖于天然碱基(A、G、C、T/U)或20种天然氨基酸特性的改变。所述变异包括(但不限于)例如靶核酸序列与参考核酸序列之间有关经修饰碱基或甲基化碱基的存在的差异。表观遗传改变是指基因功能的有丝分裂和/或减数分裂的可遗传改变或无法通过核酸序列的改变解释的高级核酸结构的改变。经历表观遗传变异或改变的系统的实例包括(但不限于)动物的DNA甲基化模式、组蛋白修饰和多梳-三胸家族(Polycomb-trithorax group,Pc-G/tx)蛋白质复合物。表观遗传改变通常(但非必需)导致一般(但非必需)不可遗传的基因表达改变。
如本文所使用,“引物”是指适于杂交、链延伸、扩增和测序的寡核苷酸。类似地,探针是用于杂交的引物。引物是指具有足够低的质量(通常具有约介于约3个与200个之间的核苷酸,一般具有约70个核苷酸或低于70个核苷酸)并且具有足够尺寸以便利地用于本文所提供的扩增方法以及检测和测序方法中的核酸。这些引物包括(但不限于)供核酸检测、扩增、转录起始和测序的引物,其需要足够数量的核苷酸(通常约6到30个核苷酸、约10到25个核苷酸和/或约12到20个核苷酸)来形成稳定双链体(duplex)。因此,出于本文的目的,引物为含有任何适当长度的核苷酸的序列,视引物的序列和应用而定,其通常含有约6个到70个核苷酸、12个到70个核苷酸或者大于约14个到约70个核苷酸的上限。引物可包括一个或多个便利一种方法(例如体外转录)的标签。
如本文所使用,提及质谱法涵盖所属领域技术人员已知的任何适当的质谱形式。所述形式包括(但不限于)基质辅助激光解吸/电离飞行时间(Matrix-Assisted LaserDesorption/Ionization-Time-of-Flight,MALDI-TOF)、电喷雾(ES)、IR-MALDI(例如参看公开的国际PCT申请案第99/57318号和美国专利第5,118,937号)、傅里叶变换离子回旋共振(Ion Cyclotron Resonance,ICR)和其组合。MALDI形式,尤其UV和IR、正交飞行时间(OTOF)是进行本文所述方法的有用形式。
如本文所使用,质谱是指利用质谱法分析生物聚合物片段或其裂解产物而获得的以图形表示或数字编码的数据显示。
如本文所使用,关于质谱或质谱分析的模式或裂解模式或断裂模式或断裂光谱是指信号(诸如峰或其数字表示)的特征分布和数量。一般来说,如本文所使用,裂解模式是指由生物分子(诸如(但不限于)核酸和蛋白质)的特异性裂解产生的一组裂解产物。
如本文所使用,在质谱或测量质量和进行其分析的任何其它方法的情况下,信号、质量信号或输出信号是指输出数据,其为具有特定质量的分子的数量或相对数量。信号包括“峰”和其数字表示。
如本文所使用,术语“峰”是指自质谱仪光谱(“质谱”)的基线信号明显的向上突出之物,其对应于裂解产物的质量和强度。可通过人工或自动“峰找出(peakfinding)”过程从质谱中提取峰。
如本文所使用,质谱中峰的质量是指由“峰找出”过程计算的质量。
如本文所使用,质谱中峰的强度是指由“峰找出”过程计算的强度,其取决于以下参数:包括(但不限于)质谱中峰的高度和其信噪比。
如本文所使用,“分析”是指测定单个寡核苷酸或多肽或者寡核苷酸或多肽的混合物的某些特性。这些特性包括(但不限于)核苷酸或氨基酸组成和完整序列、不止一个寡核苷酸或多肽之间单个核苷酸多态性和其它突变或序列变异的存在、寡核苷酸或多肽的质量和长度,以及样本中某一分子或某一分子内的序列或者所述分子上任何修饰的存在。
如本文所使用,“多重化”是指在单一质谱法或其它质量测量(即,单一质谱或其它阅读序列的方法)中同时测定不止一个寡核苷酸或多肽分子,或同时分析不止一个寡核苷酸或寡肽。多重化有时是同时检测来自以下的裂解产物:利用(a)应用于不同产物的相同裂解剂或(b)应用于同一产物(例如基因组区)的不同裂解剂或其组合的多种裂解反应。多重化也可指分析一个相对多个反应的组合中的多个基因组或蛋白质组区。多重化或较佳的汇集(better pooling)也可指分析相同反应中的样本池(pool)。
如本文所使用,扩增是指增加生物聚合物、尤其核酸的量的方式。根据所选5′和3′引物,扩增也用于限制和限定经历分析的基因组区。扩增可通过所属领域技术人员已知的任何方式进行,包括使用聚合酶链反应(PCR)等。当例如打算测定多态性的频率时,可定量进行扩增,例如PCR。
如本文所使用,“多态性”是指基因或其部分的不止一种形式的共存。基因中存在至少两种不同形式(即,两种不同的核苷酸序列)的一部分称为“基因的多态性区域”。多态性区域可为单个核苷酸,其特性在不同等位基因中不同。多态性区域也可为数个长度不同的核苷酸。因此,多态性(例如遗传变异)是指一个群体中的基因组中基因序列的变异,诸如等位基因变异和出现的或观察到的其它变异。由此,多态性是指一个群体中两个或两个以上遗传决定的替代序列或等位基因的出现。这些差异可发生在基因组的编码部分和非编码部分中,并且可表现或检测为核酸序列、基因表达(包括例如转录、加工、翻译、转运、蛋白质加工、运输、DNA合成、所表达的蛋白质、其它基因产物或者生物化学路径或翻译后修饰的产物)的差异,和群体的成员之间所表现的任何其它差异。单核苷酸多态性(SNP)是指由单个碱基改变(诸如碱基插入、缺失或改变(取代))引起的多态性。
多态性标志物或位点是出现分歧的基因座。所述位点可小到一个碱基对(SNP)。多态性标志物包括(但不限于)限制性片段长度多态性、可变数量串联重复序列(VNTR)、高变区、小卫星、二核苷酸重复序列、三核苷酸重复序列、四核苷酸重复序列和其它重复模式、简单重复序列和插入元件(诸如Alu)。多态性形式也表现为基因的不同孟德尔等位基因(Mendelian allele)。可通过蛋白质、蛋白质修饰、RNA表达修饰、DNA和RNA甲基化、改变基因表达和DNA复制的调控因子以及基因组核酸或细胞器核酸改变的任何其它表现的差异来观察多态性。
如本文所使用,“多态性基因”是指具有至少一个多态性区域的基因。
如本文所使用,“等位基因”在本文中可与“等位基因变异体”互换使用,其指基因组区(例如基因或其部分)的替代形式。等位基因在同源染色体上占据相同基因座或位置。当个体的一个基因具有两个相同等位基因或仅一个等位基因时,认为所述个体就所述基因或等位基因而言是纯合的。当个体的一个基因具有至少两个不同等位基因时,认为所述个体就所述基因而言是杂合的。特定基因的等位基因彼此可存在单个核苷酸或数个核苷酸的差异,并且可包括核苷酸的取代、缺失和插入。基因的等位基因也可为含有突变的基因的形式。
如本文所使用,“优势等位基因(predominant allele)”是指就既定群体而言以最高频率呈现的等位基因。以较低频率存在的一个或多个等位基因称为等位基因变异体。
如本文所使用,称为突变的核酸序列改变可导致蛋白质生物化学活性的改变或在一些情况下甚至是生物化学活性的丧失;而这又可引起遗传性疾病。突变包括核苷酸缺失、插入或改变/取代(即,点突变)。点突变可为导致蛋白质的氨基酸序列改变的“错义”突变,或编码终止密码子并由此产生截短蛋白的“无义”突变。
如本文所使用,序列变异含有当与参考核酸或蛋白质序列比较时靶核酸或蛋白质序列中所不同的一个或多个核苷酸或氨基酸。序列变异包括(但不限于)突变、多态性或属于不同有机体的靶序列与参考序列之间的序列差异。序列变异一般(但并不总是)含有完整核苷酸、氨基酸或靶序列与参考序列之间其它生物聚合物单体单元差异组的亚组。
如本文所使用,额外或丢失的峰或信号是相对于在相同裂解反应条件下由实际或模拟裂解参考序列或参考样本所获得的片段,分别对应于存在或不存在的靶序列片段的峰或信号。除丢失或额外信号外,靶片段与参考片段之间的差异还可表现为其它差异,包括(但不限于)信号的峰强度(高度、面积、信噪比或其组合)的差异。
如本文所使用,不同裂解产物是相对于在相同裂解反应条件下由实际或模拟裂解参考序列或样本所获得的裂解产物而言,所不同的靶序列裂解产物。不同裂解产物可为相对于参考裂解模式,靶片段模式中丢失的裂解产物;或相对于参考断裂模式,靶断裂模式中额外存在的裂解产物。除丢失或额外信号外,不同信号也可为靶裂解模式与参考裂解模式之间定性和定量的差异,包括(但不限于)导致对应于不同片段的信号的峰强度(高度、面积、信噪比或其组合)不同的差界。
如本文所使用,术语“复合体”是指就其单体组分单元而言,序列裂解产物的组合物。对于核酸,复合体是指单体单元为碱基的裂解产物的碱基组合物;各类型碱基的数量可由Bn(即:AaCcGgTt,其中A0C0G0T0表示“空”复合体或不含碱基的复合体)表示。天然复合体是所有组分单体单元(例如核酸的碱基和蛋白质的氨基酸)大于或等于0的复合体。然而,为了比较各序列以确定序列变异,在本文所述的方法中,可能由算法产生含有负数个数单体单元的“非天然”复合体(例如WO 2004/050839,D.范德波姆(D.van den Boom)等人)。对于多肽,复合体是指多肽片段的氨基酸组合物,其中各类型氨基酸的数量以类似方式表示。如果可增加某一序列中碱基的数量和类型来获得某一复合体的组合物,则所述复合体对应于所述序列。举例来说,复合体A2G3对应于序列AGGAG。一般来说,存在对应于一个序列的唯一复合体,但不止一个序列可对应于同一复合体。举例来说,序列AGGAG、AAGGG、GGAGA等都对应于同一复合体A2G3,但对于各所述序列,相应复合体是唯一的,即A2G3
如本文所使用,证据复合体(witness compomer)或复合体证据(compomer witness)是指相对于相同参考裂解反应,质量与靶裂解反应中产生的各不同片段的实际质量的差异值小于或等于一个足够小的质量差异的所有可能复合体。必要时,足够小的质量差异可凭经验确定,并且其一般是质量测量的分辨率。举例来说,对于质谱法测量值,足够小的质量差异值由以下参数确定:包括(但不限于)对应于证据复合体的不同片段的质量(如通过其信号所测量);质量相差单个核苷酸类型或长度的各片段之间的峰分离;和质谱仪的绝对分辨率。可使用对四种核酸碱基(对于RNA,A、G、C、T或U,或其修饰体)或者20种氨基酸或其修饰体中的一种或多种具特异性的裂解反应,来产生含有各不同片段的可能证据复合体的数据集,以致所述可能的证据复合体的质量与所测量到的各不同片段实际质量相差一个小于或等于足够小质量差异的值,或等于所测量到的各不同片段实际质量。
如本文所使用,如果对于一个特异性裂解反应,靶序列与参考序列之间的裂解模式差异并非表示靶序列中各序列变异的差异的简单加和,则认为,靶序列相对于参考序列的两个或两个以上序列变异彼此相互作用。对于彼此不相互作用的靶序列的序列变异,沿靶序列的序列变异之间的间隔(距离)足以使各序列变异在一个特异性裂解反应中产生截然不同的产物(相对于参考序列而言的靶序列的不同产物),靶序列相对于参考序列的裂解模式的差异表示靶序列相对于参考序列的所有序列变异的总和。
如本文所使用,足够小的质量差异是所鉴别的不同片段的经测量质量与复合体的质量之间的最大质量差异,以致所述复合体可视为所述所鉴别不同片段的证据复合体。必要时,足够小的质量差异可凭经验确定,并且其一般是质量测量的分辨率。举例来说,对于质谱法测量值,足够小的质量差异值由以下参数确定:包括(但不限于)对应于证据复合体的不同片段的质量(如通过其信号所测量);质量相差单个核苷酸类型或长度的各片段之间的峰分离;和质谱仪的绝对分辨率。
如本文所使用,子字符串或子序列s[i,j]表示字符串s的裂解产物,字符串s表示全长核酸或蛋白质序列。如本文所使用,i和j是表示子字符串的开始和结束位置的整数。举例来说,对于核酸子字符串,i和j可分别表示核酸序列中子字符串开始和结束的碱基位置。如本文所使用,c[i,j]是指对应于s[i,]的复合体。
如本文所使用,序列变异级数(sequence variation order)k是指由本文所提供的技术构建的靶序列的序列变异候选物,其中所述序列变异候选物含有至多k个突变、多态性或其它序列变异,包括(但不限于)有机体之间的序列变异,相对于参考序列而言靶序列中的插入、缺失和取代。k值取决于多个参数,包括(但不限于)所预期的参考序列与靶序列之间序列变异的类型和数量,例如序列变异是单个碱基还是多个碱基;相对于参考序列,序列变异是存在于靶序列上一个位置还是不止一个位置;或靶序列中序列变异是否彼此相互作用。举例来说,对于SNP的检测,k值通常(但非必需)为1或2。另举一例来说,对于突变的检测以及在重测序时,k值通常(但非必需)为3或更高。
如本文所使用,假设字符串s中碱基、氨基酸或由裂解剂所识别的其它特征X的特异性裂解反应,则子字符串s[i,j]或相应复合体c[i,j]的边界b[i,j]是指示字符串s的裂解是否不是紧接着子字符串s[i,j]的外侧发生的标志物集合。可能的标志物为L,指示是否“s不是正好在i前裂解”;和R,指示是否“s不是正好在j后裂解”。因此,b[i,j]是集合{L,R}的子集,当且仅当X存在于字符串s的i-1位时,其含有L;并且,当且仅当X存在于字符串s的j+1位时,其含有R。#b表示集合b中元素的数量,视子字符串s[i,j]在两个紧密邻接的位置(即,i-1位和j+1位)、在一个紧密邻接的位置(即,i-1位或j+1位)还是在非紧密邻接的位置(即,不是i-1位和j+1位)特异性裂解而定,所述数量可为0、1或2。
如本文所使用,复合体边界或边界b是集合{L,R}的子集,如上文关于b[i,j]所定义。B的可能值为空集{},即b中元素的数量(#b)为0;{L}、{R},即#b为1;以及{L,R},即#b为2。
如本文所使用,有界复合体(bounded compomer)是指对应于参考序列的子序列集合的所有复合体的集合c,其边界指示裂解位点是否在各子序列的两端。可将有界复合体的集合与可能的复合体证据相比较,以构建靶序列相对于参考序列的所有可能序列变异。举例来说,(c,b)是指含有复合体c和边界b的“有界复合体”。
如本文所使用,C是指字符串s内所有有界复合体的集合;即对于所有可能的子字符串s[i,j],发现有界复合体(c[i,j],b[i,j])并且其将属于集合C。C可表示为C:={(c[i,j],b[i,j]):1≤i≤j≤s的长度}。
如本文所使用,ord[i,j]是指子字符串s[i,j]将在特定裂解反应中裂解的次数。
如本文所使用,假设复合体c,c′对应于片段f,f′,则d(c,c′)是确定将c转换为c′所需的序列变异、多态性或突变(插入、缺失、取代)的最小数量的函数,接收对应于复合体c,c′的所有潜在裂解产物f,f′,其中c为参考生物分子的裂解产物的复合体,并且c′为由s裂解的序列变异产生的靶生物分子的裂解产物s′的复合体。如本文所使用,d(c,c′)等价于d(c′,c)。
对于由集合C构建的有界复合体(c,b),函数D(c′,c,b)度量产生复合体证据c′所需的相对于参考序列的序列变异的最小数量。D(c′,c,b)可表示为D(c′,c,b):=d(c′,c)+#b。如本文所使用,D(c′,c,b)等价于D(c,c′,b)。
如本文所使用,Ck为C的子集,因此集合C中将排除含有超过k个截取字符串(cutstring)序列变异的子字符串的复合体。由此,如果存在含有至多k个插入、缺失和取代的序列变异,并且如果c′是对应于此序列变异的峰证据的复合体,则Ck中存在有界复合体(c,b),以致D(c′,c,b)≤k。Ck可表示为Ck:={(c[i,j],b[i,j]):1≤i≤j≤s的长度,以及ord[i,j]+#b[i,j]≤k}。本文所提供的算法基于对应于可能序列变异的这一缩小复合体集合。
如本文所使用,LDELTA或L_.DELTA.表示对应于相对于相同参考裂解反应而言靶裂解反应中所不同的裂解产物的峰或信号清单。差异包括(但不限于)相对于参考裂解信号,靶裂解信号中存在或不存在的信号;以及靶裂解信号与参考裂解信号之间强度不同的信号。
如本文所使用,序列变异候选物是指含有一个或多个序列变异的靶序列的潜在序列。序列变异候选物成为含有一个或多个序列变异的靶生物分子的实际序列的概率是由得分度量。
如本文所使用,缩小的序列变异候选物组是指在特异性裂解靶序列后,靶序列中将产生既定信号组的所有可能序列变异的亚组。可通过由在特定特异性裂解反应中可产生特定裂解模式(如通过测量裂解产物的质量所检测)的靶序列的所有可能序列变异组来产生仅含有某些序列变异的亚组,而获得缩小的序列变异候选物组,所述某些序列变异可产生与由在相同特异性裂解反应中实际或模拟裂解参考序列所产生的裂解产物不同的靶序列裂解产物。
如本文所使用,与靶分子中特定序列变异一致的裂解产物是指通过使用不止一种裂解剂,在不止一个反应中裂解靶分子而获得的不同裂解产物,当根据本文所提供的方法分析时,其特征(包括(但不限于)质量、强度或信噪比)指示靶分子中相同序列变异的存在。
如本文所使用,评分或得分是指特定序列变异候选物实际存在于靶核酸或蛋白质序列中的概率的计算。得分值用于确定对应于实际靶序列的序列变异候选物。通常,在具有靶序列的样本组中,最高得分表示靶分子中最可能出现的序列变异,但也可以使用其它选择准则,诸如当存在单个靶序列时,检测正得分。
如本文所使用,模拟是指根据核酸或蛋白质的序列以及就特定特异性裂解剂而言所预测的所述核酸或蛋白质序列中的裂解位点来计算裂解模式。模拟裂解在本文中也称为生物分子序列的“虚拟”裂解。可将裂解模式模拟为数量表或阵列(例如,对应于参考生物分子的裂解产物的质量信号的峰清单)、质谱、凝胶谱带模式或测量质量分布的任何技术的表示形式。在大部分情况下,模拟都可由计算机程序进行。
如本文所使用,模拟裂解是指虚拟裂解靶分子或参考分子的计算机模拟方法。如本文所使用,计算机模拟是指使用计算机进行的研究和实验。计算机模拟法包括(但不限于)分子建模研究、生物分子对接实验和分子结构和/或过程(诸如分子相互作用)的虚拟表示。
如本文所使用,个体包括(但不限于)动物(例如人类)、植物、细菌、病毒、真菌、寄生生物和具有核酸的任何其它有机体或实体。哺乳动物是个体之一,优选(但非必需)人类。患者是指患有疾病或病症的个体。
如本文所使用,表型是指包括有机体任何可区分性状的一组参数。表型可为物理性状,并且在个体为动物的情况下,表型可为心理性状,诸如情感性状。
如本文所使用,“赋值”是指核酸或蛋白质片段的位置指示特定分子量和特定末端核苷酸或氨基酸的一种测定法。
如本文所使用,“一”是指一个或多个。
如本文所使用,“多个”是指两个或两个以上多核苷酸或多肽,其各具有不同序列。所述差异可归因于序列间天然存在变异,例如核苷酸或编码的氨基酸中的等位基因变异;或可归因于各个序列中特定修饰的引入,例如多种核酸或蛋白质中的各核酸或蛋白质中质量修饰过的核苷酸的有差别并入。
如本文所使用,阵列是指由三个或三个以上项目(诸如固体支撑物上的三个或三个以上基因组)产生的模式。阵列也可用于向量和矩阵中,其中向量是一维阵列,而矩阵是二维阵列。本文所述的方法可操纵一维或多维阵列。
如本文所使用,“明确的”是指靶分子中对应于特定序列变异(诸如突变)的峰或信号的唯一赋值,并且在分子或突变的数量为多重化的情况下,可将代表特定序列变异的峰唯一地指定给各突变或各分子。术语“明确的”也可指样本模式与参考模式的正确匹配。
如本文所使用,数据处理例行程序是指可嵌入软件中并测定所采集数据的生物学意义(即,检定的最终结果)的方法。举例来说,数据处理例行程序可根据所收集的数据测定基因型。在本文中的系统和方法中,数据处理例行程序还根据所测定的结果控制仪器和/或数据收集例行程序。将数据处理例行程序与数据收集例行程序整合,并提供反馈以利用仪器操作数据采集,并因此提供本文所提供的基于检定的判断法。
如本文所使用,多个基因包括至少2个、5个、10个、25个、50个、100个、250个、500个、1000个、2,500个、5,000个、10,000个、100,000个、1,000,000个或更多个基因。多个基因可包括一个有机体或甚至多个有机体的完整或部分基因组。有机体类型的选择决定从中选择基因调控区的基因组。供基因筛选的示范性有机体包括动物,诸如哺乳动物,包括人类和啮齿动物(诸如小鼠);昆虫;酵母;细菌;病毒;寄生生物;真菌;和植物。
如本文所使用,“特异性杂交”是指相对于非靶序列,探针或引物优先仅与靶序列杂交。所属领域技术人员熟知影响杂交的参数,诸如温度、探针或引物的长度和组成、缓冲液组成和盐浓度,并且可以容易地调整这些参数以实现核酸与靶序列的特异性杂交。
如本文所使用,“样本”是指含有待检测物质的组合物。样本可从例如有机体、矿物或地质地点(例如土壤、岩石、矿床、化石)或法医学地点(例如犯罪现场、违禁品或怀疑违禁品)收集。在优选实施例中,样本为“生物样本”。术语“生物样本”是指从活来源或原先活来源(例如动物,诸如人类或其它哺乳动物;植物;细菌;真菌;原生生物;或病毒)获得的任何物质。生物样本可为任何形式,包括固体物质,诸如组织、细胞、细胞团块、细胞提取物或活组织检查切片;或生物流体,诸如尿液、血液、唾液、羊水、来自感染或发炎区域的渗出液,或含有颊粘膜细胞(buccal cell)的漱口液、尿液、脑脊髓液和滑液;和器官。优选地,固体物质与流体混合。在本文中的某些实施例中,样本中的分析物可指用于质谱分析的基质与诸如核酸等生物物质的混合物。“源自”意指可诸如通过核酸分子的纯化或分离和/或扩增来处理样本。如本文所使用,“样本的(ofa sample)”是指在样本中或在样本外部确定或鉴别的生物分子序列或序列模式。举例来说,可从样本中分离出生物分子,随后断裂,接着分析片段以在样本外部确定特定序列或序列模式是否存在。
如本文所使用,组合物是指任何混合物。其可为溶液、悬浮液、液体、粉末、糊状物、水性溶液、非水性溶液或其任何组合。
如本文所使用,组合是指两个或两个以上项目之间的任何联合。
如本文所使用,术语“11/4切割酶(11/4-cutter)”是指识别并裂解核酸中的2碱基段的限制性酶,其中一个碱基位置的身份固定,而另一碱基位置的身份为四个天然存在碱基中的任意3个。
如本文所使用,术语“11/2切割酶”是指识别并裂解核酸中的2碱基段的限制性酶,其中一个碱基位置的身份固定,而另一碱基位置的身份为四个天然存在碱基中的任意2个。
如本文所使用,术语“2切割酶”是指识别并裂解2个碱基长的特定核酸位点的限制性酶。
如本文所使用,术语“AFLP”是指扩增片段长度多态性,并且术语“RFLP”是指限制性片段长度多态性。
如本文所使用,术语“扩增子”是指可进行复制的核酸(DNA或RNA)区。
如本文所使用,术语“完全裂解”或“全部裂解”是指特定裂解剂所识别的所有裂解位点都切割完全的裂解反应。
如本文所使用,术语“假阳性”是指来自背景噪声而不是由核酸或蛋白质的实际或模拟特异性裂解所产生的质量信号。
如本文所使用,术语“假阴性”是指实际断裂/裂解光谱中丢失但可在相应模拟光谱中检测到的实际质量信号。
如本文所使用,术语“部分裂解”是指仅一部分特定裂解剂裂解位点经所述裂解剂实际切割的反应。本文所述的裂解产物可由部分裂解产生。
如本文所使用,裂解意指将一个或多个核酸或蛋白质分子切割成较小段的方式。裂解识别位点可为1个、2个或2个以上碱基长。裂解方式包括物理裂解、酶促裂解、化学裂解和产生较小核酸段的任何其它方式。
如本文所使用,裂解条件或裂解反应条件是指用于进行实际或模拟裂解反应的一种或多种裂解剂与其它反应参数(包括(但不限于)时间、温度、pH值或缓冲剂的选择)的组。
如本文所使用,未裂解的裂解位点意指为一种裂解剂的已知识别位点但在反应条件(例如时间、温度,或裂解识别位点处为阻止被所述试剂裂解的碱基修饰)下未被所述裂解剂切割的裂解位点。
如本文所使用,互补裂解反应(complementary cleavage reaction)是指使用不同裂解剂,或通过改变相同裂解剂的裂解特异性,在相同靶或参考核酸或蛋白质上进行裂解或模拟裂解,以致产生相同靶或参考核酸或蛋白质的替代裂解模式的裂解反应。
如本文所使用,组合是指两个或两个以上项目或要素之间的任何联合。
如本文所使用,组合物是指任何混合物。其可为溶液、悬浮液、液体、粉末、糊状物、水性溶液、非水性溶液或其任何组合。
如本文所使用,流体是指可流动的任何组合物。因此,流体涵盖呈半固体、糊状物、溶液、水性混合物、凝胶、洗液、乳膏和其它此类组合物形式的组合物。
如本文所使用,细胞提取物是指由溶解或破裂细胞得到的制剂或分离部分。
如本文所使用,试剂盒是将各组分任选与使用说明书和/或组合使用的试剂和器具一起包装的组合。
如本文所使用,系统是指带有软件的各元件与控制和引导本文所提供方法的任何其它元件的组合。
如本文所使用,软件是指计算机可读程序指令,当由计算机执行时,其进行计算机操作。通常,软件是提供于含有记录于计算机可读媒体上的程序指令的程序产品上,所述计算机可读媒体诸如(但不限于)磁性媒体,包括软盘、硬盘和磁带;和光学媒体,包括CD-ROM光盘、DVD光盘、磁光盘,和上面可记录程序指令的其它此类媒体。
如本文所使用,“混合物”是指例如样本混合物、来自一个或多个样本的样本序列和/或序列信号的混合物、来自一个或多个参考序列的参考序列和/或参考序列信号的混合物,或来自一个或多个样本和一个或多个参考序列的序列和/或序列信号的混合物。
如本文所使用,“序列信号”是指由序列(例如氨基酸序列或核酸序列)产生的任何可检测的信号。序列信号可为由核酸或多肽片段产生的信号,并且可通过例如质谱法或电泳法鉴别。在某些实施例中,可通过可检测的指示剂,诸如连接生物分子或其片段的指示标签(例如荧光标签),来鉴别序列信号。通过质谱法鉴别的序列信号包括(但不限于)例如质量信号、质荷比信号和强度信号(例如峰强度信号)。
序列比较分析方法实施例
在一些序列比较分析实施例中,比较源自样本信号模式和参考信号模式的序列或模式信息。参考数据可包括由特异性裂解断裂的核酸样本制得的信号模式,或由计算机模拟的核酸序列模拟裂解制得的信号模式(例如,如图14(1b)和(1c)部分中所示)。参考数据可来自任何适当来源,诸如源自计算机模拟的来自序列数据库的一个或多个核酸序列或其混合物的模拟裂解(即,虚拟裂解)的信号(例如图9)。参考数据还可包含源自一个或多个特异性裂解和分析的样本核酸或其混合物的信号。或源自多个样本的共有序列。
在某些参考序列比较实施例中,一般不就最小和最大长度来限制序列长度,并且核酸序列的长度可在200到800bp之间的范围内。靶序列有时侧接有保守序列段,这些保守序列段决定靶扩增的引物区。在保守区中可允许错配(诸如简并引物)。引物5′或3′端的开始和结束标签通常标记有核苷酸序列段,这些核苷酸序列段促进体外转录。序列引物的实例如下(例如图10):
T7引物
转录启动子            8bp标签
5′-cagtaatacgactcactataggg agaaggct-基因特异性引物部分
SP6引物
转录启动子        8bp标签
5′-cgatttaggtgacactatagaa gagaggct-基因特异性引物部分。
可采用计算机模拟来模拟核酸序列(包括转录后的标签序列)的碱基特异性裂解模式。各序列可通过四个或四个以上可能峰的清单表示。四个峰的清单可能对应于正向RNA转录物和反向转录物的T特异性裂解,以及正向RNA和反向转录物的C特异性裂解,但不限于此。
在某些实施例中,可获得模拟参考数据或采集数据的距离。聚类法是已知的,并且可由所属领域技术人员容易选择。有时,使用区别性特征对相关核酸序列组的碱基特异性裂解模式进行聚类。区别性特征可为(但不限于)峰质量和强度或序列长度。为区分两个序列,可使用在一个序列中存在但在另一个中不存在的区别性特征。对于两个以上序列,方法可为根据区别性特征(对各群集是唯一的)将模拟峰质量模式分成多个群集。这些群集彼此可区分,并且在迭代过程中,可将各群集再分成子群集,直到能分辨出个别峰的清单。在每一聚类水平上,可存在多个解。一般选择具有最优量的区别性特征并同时含有最大群集数量的解。可利用所属领域技术人员已知并选择的任何聚类方法,包括(但不限于)如邻接法、UPGMA、最大似然法的聚类方法以及数据挖掘中的任何聚类方法。
在一些实施例中,将得自不同来源的参考信号组混合,并随后与样本信号组比较。举例来说,可分别以计算机模拟或在体外裂解来自数据库序列的参考数据或病毒株的样本序列,可检测裂解产物并对所得检测信号进行处理。信号的处理可任选包括聚类技术,使用所属领域技术人员已知和选择的技术。
可特异性裂解靶分子并通过检测法检测裂解产物。所属领域技术人员可选择适当的选择法,其包括(但不限于)例如凝胶电泳、毛细管电泳和质谱法(例如MALDI-TOF质谱法)。可使用所属领域技术人员已知和选择的一种或多种信号处理技术,来处理由检测法得到的信号数据(例如图9)。信号处理技术包括(但不限于)峰检测、校准、归一化、光谱质量、强度标度、复合体调整、加合物信号(adduct signal)的鉴别等。图12展示分析样本序列信号模式的特定实施例。
在某些峰检测实施例中,通过宽度可变(随质量调整)的高斯滤波器来过滤光谱。可由过滤后光谱中的局部最大值鉴别峰。一般选择满足最小宽度和信噪比的峰。可由预期无分析产物相关信号的沉默窗口(silent window)近似得出噪声水平。
当由质谱法获得的光谱提供强度分布与技术相关的信号模式时,可以应用强度标度法。在某些强度标度实施例中,可对原始峰强度进行标度以校正这一质量依赖性变化。可通过在一个检测范围内或多个检测范围内将峰强度拟合至标准曲线来获得标度因子。可将这些曲线连接成一条覆盖整个检测范围的曲线。可由最终曲线内推出(例如线性地)任一特定数据点(例如质量)的标度因子,并且可对所有检测信号的修正强度进行计算,以产生修正强度。此方法有时称为“质量依赖性峰标度”。在涉及MALDI-TOF质谱法的实施例中,可将在1100-2500Da范围内的峰拟合至具有正二阶系数并且在1100Da处具有固定最小值的抛物线。可将质量范围为2000-4000Da的峰拟合至具有负二阶系数的抛物线。可将高于4500Da的峰拟合至指数衰减曲线(exponential decay)。
在某些实施例中,可将复合体调整法应用于信号。除裂解产物混合物的组成外,信号强度还随个别分析物片段的核酸碱基组成而变化,它们影响分析物片段在质谱仪中的飞行行为,并由此影响其所得强度(例如富T片段)。在质量依赖性峰标度后,可使用裂解产物组成(A%、T%、C%、G%)与所得信号强度之间的经验关系对峰强度进行标度,由此得到调整过的峰强度。可使用所述方法鉴别基于由所应用的生物化学与所应用的数据采集工具结合得到的加合物(例如盐、基质、双电荷、简并引物信号、无效循环产物)的信号(不涉及参考组的模拟特征),并加以解释。
通常在处理信号后,可将参考信号模式与样本信号模式相互比较,以鉴别是否存在共同序列(例如图14)。在某些实施例中,以迭代方法对信号模式匹配进行评分,以鉴别样本数据组与参考数据组之间的一个或多个最佳匹配信号,如例如图13和14中所示。如本文所使用,术语“迭代”是指重复一个过程(诸如匹配和评分过程)2次或2次以上循环,诸如约2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1000次或更多次循环。在某些实施例中,对一组匹配信号进行评分,并在一次特定循环中选出最高匹配信号亚组,并且在随后的一次循环中,对在前一次循环中选出的亚组的信号进行匹配和评分,并选出较小的最佳匹配信号亚组。
在包括迭代鉴别的某些模式匹配实施例中,可通过将由质谱法(例如MALDI-TOFMS)获得的碱基特异性裂解产物的峰型与一个或多个计算机模拟碱基特异性裂解模式相比较,来鉴别靶。可通过迭代并组合全部的特征模式匹配和区别性特征匹配,来完成靶鉴别。
一些评分实施例包括不同得分:1.位图得分;2.区别性特征匹配得分;3.距离得分;4.PPIdentity;5.相邻改变得分;和6.总得分。位图得分可通过比较所检测的和个别参考峰型来计算。对于各匹配峰,可通过比较经参考强度(在模拟(1)中获得)加权的强度来计算得分。所述得分可为对于序列鉴别极为重要的峰强度间较小差异的度量。可通过评估使一个特征模式区别于另一个特征模式或使一组模式区别于另一组模式的特征亚组,来计算区别性特征匹配得分。距离得分根据例如所鉴别的特征向量与所有参考特征向量之间的欧氏距离计算。PPIdentity是峰型一致性得分,其可由匹配峰的强度、丢失和额外峰的强度与沉默丢失和沉默额外峰的强度的总和计算得到。沉默峰可为由多个具有相同特征(例如质量)的裂解产物形成的峰。沉默峰可降低或增加强度,而额外峰仅使强度从0强度开始增加,而丢失信号使强度从所检测强度降低到0。得分一般忽略由实验变化引起的峰强度间的较小差异。相邻改变得分可计算为相邻丢失、相邻错配与相邻附加得分的总和。相邻丢失得分可为经反应加权的丢失峰强度的总和。相邻错配得分可为经反应加权的错配峰强度的总和。错配为参考组所预期、但特定样本参考物未预期的信号。相邻附加得分为经所进行的反应加权的额外峰强度的总和。附加信号为参考组未预期的信号。总得分为位图得分与峰型一致性得分的组合(例如平均值)。
在迭代期间,通常根据整个参考组的参考特征对所检测的特征模式进行标度。可将得分赋予所有匹配事件。随后一般选出一组最佳匹配。接着,可基于所述亚组对所检测的特征进行再标度,并再次计算得分以找出甚至更小的最佳匹配组。进行此迭代过程,直到一个参考物或具有相近得分的数个参考物大大优于剩余参考物。在一些实施例中,可针对不仅一个而且数个不同的参考组(例如扩大的组,或基于序列和基于特征的组)比较靶。
在某些实施例中,可使用所属领域技术人员已知的技术以最佳匹配信号(例如参考信号和/或样本信号)检测序列变异(例如突变)。序列变异可为例如突变、单核苷酸缺失、插入或取代(例如单核苷酸多态性),或者两个或两个以上连续核苷酸的缺失、插入或取代(例如微卫星、插入重复序列)。对于质谱信号,可利用质量峰位置和强度确定是否存在序列修饰,例如,如2005年5月26日公开的美国专利申请公开案2005/0112590(波姆(Boom)等人)中所述。所述方法可允许进行下至单碱基差异的靶区别和鉴别。
在一些实施例中,如例如图16中所示,可对最高匹配信号的匹配赋予置信度值。可利用任何适用的置信度评定法,并且可由所属领域技术人员选择。置信度评估可提供最高得分序列为不存在序列变异的正确匹配的可能性,换句话说,具有检测不到的序列变异的概率。在某些实施例中,可使用蒙特卡罗模拟(Monte Carlo simulation)计算代表置信度的p值(J.萨姆雷森(J.Samuelsson),″高通量肽质量指纹分析的模、脚本和自动分析工具(Modular,scriptable and automated analysis tool for high-throughput peptidemass fingerprinting)″,生物信息学(Bioinformatics),第20卷第18期,2004年)。作为一种选择,可模拟参考组中各序列的各位置中的单核苷酸改变。所检测的峰型与所有所模拟的参考序列的匹配以及所得得分(相邻改变和总得分)的作图将提供频率分布。可使用这些分布来鉴别得分或相应p值的范围,其为当限定α误差(例如1%或5%)时的结果。参数可包括(但不限于)以下一个或多个:
相邻丢失:经反应加权的丢失峰强度的总和。
相邻错配:经反应加权的错配峰强度的总和。错配为参考组所预期、但特定序列未预期的信号。
相邻附加:经反应加权的额外峰强度的总和。相邻附加为参考组未预期的信号。
相邻改变:相邻丢失、相邻错配和相邻附加的总和
沉默丢失:经反应加权的部分峰强度的总和,其中所检测的强度实质上低于参考强度。
沉默添加:经反应加权的部分峰强度的总和,其中所检测的强度实质上高于参考强度。
合计改变(totChange):相邻改变、沉默丢失和沉默添加的总和。
图16展示确定置信度值的实施例。在所述方法中,使用模拟突变,绘制数据集中一些得分(诸如总得分和相邻改变)的分布图。所述分布与高斯曲线接近并且可如此建模。可预先确定一组标准参数,随后可就各得分计算样本的序列变异(例如突变)概率并组合。标准参数可包括(但不限于)以下一个或多个:
位图得分:可通过比较所检测的和参考个别峰型来计算位图得分(对于各匹配峰,通过比较强度计算得分并用参考强度加权)。此得分可度量对于序列鉴别极为重要的峰强度间较小差异。
峰型一致性得分:峰型一致性得分可由匹配峰的强度、丢失和额外峰的强度与沉默丢失和沉默额外峰的强度的总和计算得到。此得分忽略可能由实验偏差引起的峰强度间较小差异。
总得分:总得分为位图得分与峰型一致性得分的组合(例如平均值)。
相邻丢失:此得分可为经反应加权的丢失峰强度的总和。
相邻错配:此得分可为经反应加权的错配峰强度的总和(参考组所预期、但特定序列未预期)。
相邻附加:此得分可为经反应加权的额外峰强度的总和(参考组未预期)。
相邻改变:此得分为相邻丢失、相邻错配和相邻附加的总和。
沉默丢失:此得分为经反应加权的部分峰强度的总和,其中所检测的强度实质上比参考强度弱。
沉默添加:此得分为经反应加权的部分峰强度的总和,其中所检测的强度实质上比参考强度强。
合计改变:此得分为相邻改变、沉默丢失和沉默添加的总和。
对所述标准参数加以选择以致良好匹配一般具有低于5%或如用户限定的p值。
归因于序列内容和实验条件,标准参数并不总是很精确。一种补偿偏差的方式是进行鉴别后聚类分析。假设一个参考序列组,则找出在某一范围内具有最佳得分的样本(假定其具有较低的突变几率,否则,SNP发现算法应已检测出突变)。这些样本的平均得分将用于精化数据集的标准参数。这些精化参数将用于计算所有样本的置信度。
可比较样本信号数据(任选与参考信号数据组合),并通过聚类技术加以处理。可通过公开聚类算法对阵列格式的模拟数据和采集数据进行聚类,以反映样本和/或参考组的关系。在基于峰型的实施例中,由参考样本的采集数据建立峰型数据库。这些峰型可作为计算机模拟碱基特异性裂解模式的替代方式,用于靶鉴别。在某些实施例中,可级联一个或多个特征区域的峰型,并根据适当距离计算(例如加权欧氏距离或任何其它已知的距离度量)对其进行聚类。在一些实施例中,可从鉴别和即时再分析(promptreanalysis)中手动排除所检测的信号。图15展示聚类技术的代表性实施例。
可根据参考组或参考样本组的复杂性,利用不同参数设置来产生序列比较分析方法的输出。序列比较分析方法的输出可包括以下中的一种或多种:鉴别结果、序列变异(例如突变)、信号清单、参考组(扩大的)、失败的反应、每样本所鉴别的序列和重叠扩增子、距离矩阵(群集)和输出(其将提供数据库查询的输入(例如MLST等位基因谱报告))等。
产生片段的方法
核酸裂解
所属领域中已知核酸的裂解并且能以多种方式实现。举例来说,可以物理、化学或酶促方式裂解由DNA、RNA、DNA和RNA的类似物或其组合构成的多核苷酸,只要通过在靶核酸的特定位点裂解获得所述裂解即可。断裂一般是指在质谱仪中有机分子的物理断裂。可根据(i)裂解剂的碱基特异性(例如A、G、C、T或U,或经修饰碱基或核苷酸的识别),或(ii)靶核酸的结构,或(iii)二者的组合,在靶核酸序列的特定位置裂解分子,其是由靶核酸序列产生。在另一实施例中,裂解发生在多个碱基组合处以提取例如均聚物段。裂解产物和片段的尺寸可变化,并且适当片段有时小于约2000个核酸,但也可视所选方法而较长。适当片段可在数个尺寸范围内,包括(但不限于):小于约1000个碱基、介于约100个到约500个碱基之间、约25个到约200个碱基或约4个到约30个碱基。在一些方面中,需要约一个核酸的裂解产物或片段(裂解碱基)。
可通过化学反应裂解多核苷酸,包括例如水解反应,包括碱和酸水解。可使用碱性条件来裂解包含RNA的多核苷酸,这是因为RNA在碱性条件下不稳定。例如参看诺德霍夫(Nordhoff)等人,(1993)基质辅助红外激光解吸/电离质谱中核酸的离子稳定性(Ionstability of nucleic acids in infrared matrix-assisted laser desorption/ionization massspectrometry),核酸研究(Nucl.Acids Res.),21(15):3347-57。DNA可在酸(通常为强酸,诸如6M HCl)存在下水解。温度可高于室温以促进水解。视所述条件和反应时间长度而定,可将多核苷酸裂解成各种尺寸,包括单碱基产物。水解可在严格条件下破坏磷酸酯键和脱氧核糖与嘌呤和嘧啶碱基之间的N-糖苷键二者。
产生多核苷酸产物的示范性酸/碱水解方案描述于萨基特(Sargent)等人,(1988)酶学方法(Methods Enzymol.),152:432中。简单说来,将1g DNA溶解于50mL 0.1N NaOH中。添加1.5mL浓HCl,并迅速混合溶液。DNA将立即沉淀,并且不应搅拌超过数秒,以防形成较大聚集体。在室温下将样本培育20分钟以使DNA部分脱嘌呤。随后,添加2mL 10N NaOH(OH-浓度为0.1N)并搅拌样本,直到DNA完全再溶解。随后,在65摄氏度下将样本培育30分钟,以水解DNA。典型尺寸范围为约250-1000个核苷酸,但可视水解条件而变得更短或更长。
另一种以碱基特异性方式化学裂解核酸分子的方法提供于A.M.马克西姆(A.M.Maxam)和W.吉尔伯特(W.Gilbert),美国国家科学院院刊(Proc.Natl.Acad.Sci.USA)74:560-64,1977中,并且所述文献以引用的方式并入本文中。个别反应被设计成优先在鸟嘌呤、腺嘌呤、胞嘧啶和胸腺嘧啶以及仅在胞嘧啶处裂解。
多核苷酸也可经由烷基化裂解,尤其硫代磷酸酯修饰的多核苷酸。K.A.鲍温(K.A.Browne)(2002)金属离子催化的核酸烷基化和断裂(Metal ion-catalyzed nucleic Acidalkylation and fragmentation.),美国化学会志(J.Am.Chem.Soc.)124(27):7950-62。在硫代磷酸酯修饰处烷基化使得多核苷酸易于在修饰位点裂解。I.G.加特(I.G.Gut)和S.柏克(S.Beck)描述将DNA烷基化以便以质谱法进行检测的方法。I.G.加特(I.G.Gut)和S.柏克(S.Beck)(1995),选择性DNA烷基化和质谱检测的程序(A procedure forselective DNA alkylation and detection by mass spectrometry.),核酸研究(Nucleic AcidsRes.),23(8):1367-73。另一方法使用含P3′-N5′-氨基磷酸酯DNA的酸不稳定性(施奇普诺夫(Shchepinov)等人,“含P3′-N5′-氨基磷酸酯DNA的基质诱导断裂:基因组序列多态性的高通量MALDI-TOF分析(Matrix-induced fragmentation ofP3′-N5′-phosphoroamidate-containing DNA:high-throughput MALDI-TOF analysis ofgenomic sequence polymorphisms),”核酸研究(Nucleic Acids Res.),25:3864-3872(2001))。将dCTP或dTTP用其类似物P-N修饰的核苷三磷酸置换,并通过PCR后的引物延伸反应将其引入靶序列中。接下来的酸性反应条件产生碱基特异性裂解产物。为了使腺嘌呤和鸟嘌呤残基在所需酸性裂解条件下脱嘌呤减到最少,可使用dA和dG的7-脱氮类似物。
DNA异源双链体中的单个核苷酸错配可利用四氧化锇和哌啶裂解,从而提供一种检测单碱基取代的替代性策略,遗传学上称为“错配化学裂解”(MCC)(古格斯(Gogos)等人,核酸研究(Nucl.Acids Res.),18:6807-6817[1990])。
也可通过照射多核苷酸实现多核苷酸的断裂。通常,诸如γ或x射线辐射等辐射将足以断裂多核苷酸。可通过调整辐射暴露的强度和持续时间来调整片段的尺寸。也可使用紫外辐射。还可调整暴露的强度和持续时间以使辐射对多核苷酸的不当影响减到最小。使多核苷酸沸腾也可产生片段。通常,在恒定搅动下,使多核苷酸溶液沸腾数小时。可得到约500bp的片段。片段的尺寸可随沸腾持续时间而变化。
多核苷酸产物可由单链或多链多核苷酸的酶促裂解产生。多链多核苷酸包括包含不止一条链的多核苷酸的多核苷酸复合物,包括例如双链和三链多核苷酸。视所使用的酶而定,可非特异性地或在特定核苷酸序列处切割多核苷酸。可使用能够裂解多核苷酸的任何酶,包括(但不限于)核酸内切酶、核酸外切酶、核酶和DNA酶。所属领域中已知适用于裂解多核苷酸的酶并且在市面上有售。例如参看J.萨布鲁克(Sambrook,J.),D.W.卢萨尔(Russell,D.W.),分子克隆:实验室指南(Molecular Cloning:A LaboratoryManual),第3版,冷泉港实验室出版社(Cold Spring Harbor Laboratory Press),纽约冷泉港(Cold Spring Harbor,N.Y.),2001,其以引用的方式并入本文中。还可使用酶将较大多核苷酸降解成较小片段。
核酸内切酶是一类适用于裂解多核苷酸的示范性酶。核酸内切酶能够裂解多核苷酸链内的键。核酸内切酶可对双链或单链多核苷酸具有特异性。裂解可在多核苷酸内随机发生,或在特定序列处裂解。随机裂解双链多核苷酸的核酸内切酶通常与多核苷酸的主链相互作用。可使用一种或多种酶,通过依次反应或同时反应,实现多核苷酸的特异性裂解。可裂解同源或异源多核苷酸。可通过用由各种来源提供的核酸酶处理来实现裂解,包括裂解酶TM(Cleavase.TM.enzyme)、Taq DNA聚合酶、大肠杆菌DNA聚合酶I和真核结构特异性核酸内切酶、鼠类FEN-1核酸内切酶[哈利顿(Harrington)和雷纳(Liener),(1994)基因与发育(Genes and Develop.)8:1344]和小牛胸腺5′到3′核酸外切酶[R.S.木伦特(Murante,R.S.)等人,(1994)生物化学杂志(J.Biol.Chem.)269:1191]。此外,具有3′核酸酶活性的酶(诸如DNA修复核酸内切酶家族成员,例如来自黑腹果蝇(Drosophila melanogaster)的Rrp1酶、酵母RAD1/RAD10复合物和大肠杆菌Exo III)也可用于酶促裂解。
限制性核酸内切酶是识别双链多核苷酸内的特定序列并且通常裂解识别序列内或邻近识别序列的两条链的核酸内切酶亚类。DNA分析中的一种常用酶为HaeIII,其在序列5′-GGCC-3′处切割DNA。其它示范性限制性核酸内切酶包括Acc I、Afl III、Alu I、Alw44 I、Apa I、Asn I、Ava I、Ava II、BamH I、Ban II、Bcl I、Bgl I、Bgl II、Bln I、Bsm I、BssH II、BstE II、Cfo I、Cla I、Dde I、Dpn I、Dra I、EclX I、EcoR I、EcoR I、EcoR II、EcoR V、Hae II、Hae II、Hind II、Hind III、Hpa I、Hpa II、Kpn I、Ksp I、Mlu I、MluN I、Msp I、Nci I、Nco I、Nde I、Nde II、Nhe I、Not I、Nru I、Nsi I、Pst I、Pvu I、Pvu II、Rsa I、Sac I、Sal I、Sau3 AI、Sca I、ScrF I、Sfi I、Sma I、Spe I、Sph I、Ssp I、Stu I、Sty I、Swa I、Taq I、Xba I、Xho I等。所属领域中已知这些酶的裂解位点。
限制性酶分为I、II和III类。I类和II类酶在相同蛋白质中进行修饰和ATP依赖性裂解。III类酶在识别位点处切割DNA,随后自DNA解离。I类酶裂解DNA内的随机位点。任一类限制性核酸内切酶都可用于断裂多核苷酸。视所使用的酶而定,多核苷酸的切割可使一条链突出另一条链,也称为“粘性”端。BamHI产生粘性5′突出端。KpnI产生粘性3′突出端。或者,切割可产生不具有突出端的“平”端。DraI裂解产生平端。必要时,可通过例如甲基化来掩蔽裂解识别位点。许多已知的限制性核酸内切酶具有4到6个碱基对的识别序列(埃克斯坦(Eckstein)和利雷(Lilley)(编),核酸和分子生物学(Nucleic Acids and Molecular Biology),第2卷,施普林格出版社(Springer-Verlag),海德堡(Heidelberg)[1988]),包括例如肌苷碱基处的裂解位点。
已分离出具有8碱基对的特异性的少量切点罕见限制性酶(rare-cutting restrictionenzyme),并且这些酶被广泛用于遗传定位,但这些酶的数量很少,局限于识别富含G+C的序列并且裂解倾向于高度聚类的位点(巴罗(Barlow)和里拉奇(Lehrach),遗传学趋势(Trends Genet.),3:167[1987])。近来,已发现由I型内含子编码的核酸内切酶,其可能具有超过12个碱基对的特异性(珀尔曼(Perlman)和布托(Butow),科学(Science)246:1106[1989])。
可使用限制性核酸内切酶产生多种多核苷酸片段尺寸。举例来说,CviJ1是一种识别介于2个与3个之间个数的碱基的DNA序列的限制性核酸内切酶。利用CviJ1进行的完全消化可产生平均16到64个核苷酸长的DNA片段。因此,利用CviJ1进行的部分消化可以类似于剪切或超声波处理的“伪”随机方式断裂DNA。CviJ1通常在G与C之间裂解RGCY位点,留下易于克隆的平端,其中R是任何嘌呤而Y是任何嘧啶。在1mM ATP和20%二甲亚砜存在下,裂解特异性会松弛,并且CviJ1也裂解RGCN和YGCY位点。在这些“星级(star)”条件下,CviJ1裂解产生伪随机消化。此时可选择经消化或剪切DNA的尺寸。
使用限制性核酸内切酶断裂多核苷酸的方法为所属领域中众所周知。在一个示范性方案中,制备含有以下各物的20-50μl反应混合物:DNA 1-3μg;限制性酶缓冲液1倍;和对于1.μg DNA,2个单位的限制性核酸内切酶。所属领域中也已知适当缓冲液,并且包括适当离子强度、辅因子和任选使用的pH值缓冲液以提供适于酶促活性的最佳条件。特定酶可能需要特定缓冲液,其一般购自所述酶的商业供应商。示范性缓冲液为谷氨酸钾缓冲液(KGB)。J.汉尼西(Hannish,J.)和M.麦克莱伦(M.McClelland.)(1988).谷氨酸钾缓冲液KGB中DNA修饰和限制性酶的活性(Activity of DNA modification andrestriction enzymes in KGB,a potassium glutamate buffer).基因分析技术(Gene Anal.Tech.),5:105;M.麦克莱伦等人(1988),用于所有限制性核酸内切酶的单一缓冲液(Asingle buffer for all restriction endonucleases).核酸研究(Nucleic Acid Res.)16:364。在37摄氏度下将反应混合物培育1小时或产生所需尺寸或尺寸范围的片段所需的任何时间段。可通过在65摄氏度或80摄氏度(必要时)下加热混合物来终止反应。或者,可通过用例如EDTA螯合诸如Mg2+等二价阳离子来终止反应。
可使用不止一种酶来裂解多核苷酸。可将多种酶用于依序反应或同一反应中,只要所述酶在类似条件(诸如离子强度、温度或pH值)下具有活性。通常,多种酶和诸如KGB等标准缓冲液一起使用。多核苷酸可部分或完全消化。部分消化意指仅裂解限制性位点亚组。完全消化意指裂解所有限制性位点。
核酸内切酶可对某些类型的多核苷酸具有特异性。举例来说,核酸内切酶可对DNA或RNA具有特异性。核糖核酸酶H是特异性降解RNA-DNA杂交体中的RNA链的核糖核酸内切酶。核糖核酸酶A是特异性攻击单链RNA的C和U残基的核糖核酸内切酶。核糖核酸酶A催化裂解核苷酸5′-核糖与连接至相邻嘧啶核苷酸的3′-核糖的磷酸酯基团之间的磷酸二酯键。所得2′,3′-环磷酸酯可水解成相应3′-核苷磷酸。RNA酶T1仅在G核糖核苷酸处消化RNA,并且RNA酶U2仅在A核糖核苷酸处消化RNA。使用诸如RNA酶T1(G特异性)和RNA酶U2(A特异性)等单特异性RNA酶已成为常规(多尼斯-凯勒(Donis-Keller)等人,核酸研究(Nucleic Acids Res.)4:2527-2537(1977);古帕塔(Gupta)和兰德斯(Randerath),核酸研究(Nucleic Acids Res.)4:1957-1978(1977);库奇诺(Kuchino)和西村(Nishimura),酶学方法(Methods Enzymol.)180:154-163(1989);和哈娜(Hahner)等人,核酸研究(Nucleic Acids Res.)25(10):1957-1964(1997))。据报导,另一种酶鸡肝核糖核酸酶(RNA酶CL3)能优先裂解胞苷,但据报导所述酶对此碱基的倾向受反应条件影响(博古斯基(Boguski)等人,生物化学杂志(J.Biol.Chem.)255:2160-2163(1980))。近期的报导还提出另一种核糖核酸酶黄瓜酶(cusativin)(从黄瓜(Cucumis sativus L)的干种子分离得到)的胞苷特异性(罗优(Rojo)等人,植物学(Planta)194:328-338(1994))。另外,已证实利用RNA酶PhyM(A和U特异性)(多尼斯-凯勒(Donis-Keller)等人,核酸研究(Nucleic Acids Res.)8:3133-3142(1980))和RNA酶A(C和U特异性)(斯摩斯特(Simoncsits)等人,自然(Nature)269:833-836(1977);古帕塔(Gupta)和兰德斯(Randerath),核酸研究(Nucleic Acids Res.)4:1957-1978(1977))进行嘧啶残基的鉴别。为降低序列测定的模糊性,可进行额外的有限碱水解。由于在这些条件下每一磷酸二酯键都可能裂解,故可以此方式获得有关省略的和/或非特异性裂解的信息(多尼斯-凯勒(Donis-Keller)等人,核酸研究(Nucleic Acids Res.)4:2527-2537(1977))。Benzonase.TM.、核酸酶P1和磷酸二酯酶I是适于产生范围为200个或更少碱基对的多核苷酸片段的非特异性核酸内切酶。Benzonase.TM.是一种基因工程核酸内切酶,其降解多种形式的DNA和RNA链二者,并且描述于美国专利第5,173,418号中,所述专利以引用的方式并入本文中。
DNA糖基化酶从既定DNA片段中特异性去除某一类型的核碱基(nucleobase)。由此,这些酶可产生无碱基位点,其可由在无碱基位点处特异性裂解暴露的磷酸酯主链并产生一组指示所述序列的核碱基特异性片段的另一裂解酶,或通过诸如碱性溶液和或热等化学方式识别。使用DNA糖基化酶与其靶核苷酸的一个组合将足以产生任何既定靶区的碱基特异性模式。
已知多种DNA糖基化酶。举例来说,DNA糖基化酶可为尿嘧啶-DNA糖基化酶(UDG)、3-甲基腺嘌呤DNA糖基化酶、3-甲基腺嘌呤DNA糖基化酶II、嘧啶水合物-DNA糖基化酶、FaPy-DNA糖基化酶、胸腺嘧啶错配-DNA糖基化酶、次黄嘌呤-DNA糖基化酶、5-羟甲基尿嘧啶DNA糖基化酶(HmUDG)、5-羟甲基胞嘧啶DNA糖基化酶或1,N6-亚乙烯-腺嘌呤DNA糖基化酶(例如参看美国专利第5,536,649号、第5,888,795号、第5,952,176号、第6,099,553号和第6,190,865B1号;国际PCT申请案第WO 97/03210号、第WO 99/54501号;还参看埃弗特德(Eftedal)等人(1993)核酸研究(Nucleic Acids Res)21:2095-2101;比杰伦(Bjelland)和西博格(Seeberg)(1987)核酸研究(Nucleic AcidsRes)15:2787-2801;萨帕贝夫(Saparbaev)等人(1995)核酸研究(Nucleic Acids Res)23:3750-3755;贝斯湖(Bessho)(1999)核酸研究(Nucleic Acids Res)27:979-983),其对应于酶的经修饰核苷酸或核苷酸类似物靶。
举例来说,可通过在标准DNA前体核苷酸(例如dCTP、dATP和dGTP)和dUTP存在下扩增DNA,将尿嘧啶并入扩增的DNA分子中。当用UDG处理扩增产物时,尿嘧啶残基裂解。随后,化学处理由UDG反应得到的产物,引起磷酸酯主链裂解和核碱基特异性片段产生。此外,在糖基化酶处理前分离扩增产物的互补链使得产生互补断裂模式。因此,使用dUTP和尿嘧啶DNA糖基化酶允许产生互补链的T特异性片段,由此提供有关既定序列内T以及A位置的信息。如果分开分析两条扩增链的断裂模式,则在两条(互补)链上的C特异性反应(即,利用C特异性糖基化酶)得到有关既定序列内C以及G位置的信息。利用糖基化酶法和质谱法,可分析一系列完整的A、C、G和T特异性断裂模式。
存在数种方法,通过用特定化学试剂处理DNA来修饰现有碱基,以致所述碱基能被特定DNA糖基化酶识别。举例来说,用诸如甲基亚硝基脲等烷化剂处理DNA,将产生数种烷基化碱基,包括N3-甲基腺嘌呤和N3-甲基鸟嘌呤,其可由烷基嘌呤DNA-糖基化酶识别和裂解。用亚硫酸氢钠处理DNA引起DNA中的胞嘧啶残基脱胺,从而在DNA中形成尿嘧啶残基,其可由尿嘧啶N-糖基化酶(也称为尿嘧啶DNA-糖基化酶)裂解。化学试剂也可将鸟嘌呤转变成其氧化形式8-羟基鸟嘌呤,其可由甲酰胺基嘧啶DNA N-糖基化酶(FPG蛋白)裂解(常(Chung)等人,“从DNA中特异性去除8-羟基鸟嘌呤残基的大肠杆菌的核酸内切酶活性(An endonuclease activity of Escherichia coli thatspecifically removes 8-hydroxyguanine residues from DNA),”突变研究(MutationResearch)254:1-12(1991))。据报导,使用错配核苷酸糖基化酶能使多核苷酸在错配核苷酸位点裂解以便检测点突变(鲁A-L(Lu,A-L)和苏I-C(Hsu,I-C),基因组学(Genomics)(1992)14,249-255;和苏I-C(Hsu,I-C)等人,癌症发生(Carcinogenesis)(1994)14,1657-1662)。所用糖基化酶包括大肠杆菌Mut Y基因产物,其有效释放A/G错配中错误配对的腺嘌呤,但不太有效地释放A/C错配;和人胸苷DNA糖基化酶,其裂解Gfr错配。通过糖基化酶处理和随后裂解无碱基位点,产生裂解产物。
本文所提供的方法中的核酸裂解也可通过二核苷酸(“2切割酶”)或松弛的二核苷酸(例如“1和1/2切割酶”)裂解特异性实现。所属领域技术人员众所周知二核苷酸特异性裂解剂并以引用的方式并入本文中(例如参看WO 94/21663;坎尼斯特罗(Cannistraro)等人,欧洲生物化学杂志(Eur.J.Biochem.),181:363-370,1989;史蒂文斯(Stevens)等人,细菌学杂志(J.Bacterid.),164:57-62,1985;马洛塔(Marotta)等人,生物化学(Biochemistry),12:2901-2904,1973)。严格或松弛二核苷酸特异性裂解也可经由靶核酸的酶和化学修饰进行工程改造。举例来说,可利用常规和α-硫代-底物的混合物合成相关靶核酸的转录物,并随后可通过使用诸如烷基卤化物(例如碘乙酰胺、碘乙醇)或2,3-环氧基-1-丙醇等试剂烷基化来修饰硫代磷酸酯核苷间键联。预期由所述修饰形成的磷酸三酯键并非RNA酶的底物。使用此过程,视何种底物用于靶制备的α-硫代形式而定,可使诸如RNA酶T1等单特异性RNA酶裂解四种可能的GpN键中的任意三种、两种或一种。可通过使用其它RNA酶(诸如RNA酶U2和RNA酶A),进一步扩大有用的二核苷酸特异性裂解剂谱。举例来说,在RNA酶A的情况下,视所需裂解特异性而定,可通过酶促并入2′-修饰形式的适当核苷酸,将裂解特异性局限于CpN或UpN二核苷酸。因此,为了使RNA酶A对CpG核苷酸具特异性,通过并入αS-dUTP、αS-ATP、αS-CTP和GTP核苷酸来制备转录物(靶分子)。也可使用这些选择性修饰策略,通过选择性修饰均聚物段(homopolymer tract)内的某些核苷酸以使经修饰核苷酸对裂解具有较低抗性或较高抗性,来防止在均聚物段的每一碱基裂解。
DNA酶也可用于产生多核苷酸片段。S.安德森(Anderson,S.)(1981)使用克隆的DNA酶I产生的片段进行DNA鸟枪法测序(Shotgun DNA sequencing using cloned DNasel-generated fragments).核酸研究(Nucleic Acids Res.)9:3015-3027。DNA酶I(脱氧核糖核酸酶I)是一种将双链和单链DNA消化成多核苷酸和单核苷酸的核酸内切酶。这种酶能够作用于单链以及双链DNA和染色质。
II类脱氧核糖核酸酶被用于核酸研究中的众多应用,包括DNA测序和在酸性pH值下消化。来自猪脾的脱氧核糖核酸酶II的分子量为38,000道尔顿(dalton)。这种酶是具有二聚体结构的糖蛋白核酸内切酶。在0.15M离子强度下,最佳pH值范围为4.5-5.0。脱氧核糖核酸酶II水解天然和变性DNA中的脱氧核糖核苷酸键联,产生具有3′-磷酸酯的产物。在pH 5.6-5.9下,其也作用于对硝基苯基磷酸二酯。S.D.埃尔利奇(Ehrlich,S.D.)等人(1971)有关酸脱氧核糖核酸酶IX-从小牛胸腺脱氧核糖核酸获得的寡核苷酸的5′-羟基末端和倒数第二个核苷酸的研究(Studies on acid deoxyribonuclease.IX.5′-Hydroxy-terminal and penultimate nucleotides of oligonucleotides obtained from calfthymus deoxyribonucleic acid).生物化学(Biochemistry.)10(11):2000-9。
可使用从多核苷酸的末端去除各种长度碱基的核酸酶,将大的单链多核苷酸断裂成小的多核苷酸。去除单链多核苷酸的末端的示范性核酸酶包括(但不限于)S1、Bal 31和绿豆核酸酶。举例来说,绿豆核酸酶将单链DNA降解成在5′末端具有磷酸酯基团的单核苷酸或多核苷酸。当将双链核酸暴露于很大量的这种酶时,其可被完全消化。
核酸外切酶是也从多核苷酸(例如DNA分子)的末端裂解核苷酸的蛋白质。存在5′核酸外切酶(从DNA链的5′端裂解DNA)和3′核酸外切酶(从链的3′端裂解DNA)。不同的核酸外切酶可水解单链或双链DNA。举例来说,核酸外切酶III是3′到5′核酸外切酶,从DNA链的3′端释放5′-单核苷酸;其为DNA 3′-磷酸酯酶,水解3′-末端磷酸单酯;并且其为AP核酸内切酶,裂解无嘌呤或无嘧啶位点的磷酸二酯键,产生5′-末端,其为无碱基脱氧核糖5′-磷酸酯残基。此外,这种酶具有RNA酶H活性,其将优先降解DNA-RNA杂交双链体中的RNA链(可能通过核酸外切方式)。在哺乳动物细胞中,主要的DNA 3′-核酸外切酶为DNA酶III(也称为TREX-1)。因此,可通过使用核酸外切酶降解多核苷酸的末端来形成片段。
所属领域中已知催化性DNA和RNA,并且可用于裂解多核苷酸,而产生多核苷酸片段。S.W.萨托罗(Santoro,S.W.)和G.F.乔伊斯(Joyce,G.F.)(1997)多用途的裂解RNA的DNA酶(A general purpose RNA-cleaving DNA enzyme.),美国国家科学院院刊(Proc.Natl.Acad.Sci.USA)94:4262-4266。单链分子形式的DNA可折叠成与RNA类似的三维结构,并且2′-羟基对于催化作用并不重要。通过选择,也可使DNA酶依赖于辅因子而成为核酶。这已就组氨酸依赖性DNA酶用于RNA水解而加以证实。美国专利第6,326,174号和第6,194,180号中揭示能够裂解核酸序列或分子、尤其RNA的脱氧核糖核酸酶-催化性或酶活性DNA分子。美国专利第6,265,167号、第6,096,715号、第5,646,020号揭示核酶组合物和方法,并且其以引用的方式并入本文中。
DNA切口酶或DNA酶可用于识别和裂解DNA双链体的一条链。已知多种切口酶。举例来说,其中有NY2A切口酶和NYS1切口酶(兆碱基(Megabase)),其具有以下裂解位点:
1  NY2A:5′...R AG...3′3′...Y TC...5′(其中R=A或G且Y=C或T)NYS1:5′...CC[A/G/T]...3′3′...GG[T/C/A]...5′。
随后,化学处理由切口酶反应得到的产物,引起磷酸酯主链裂解和片段产生。
Fen-1断裂法涉及Fen-1酶,其为位点特异性核酸酶,称为“瓣状(flap)”核酸内切酶(美国专利第5,843,669号、第5,874,283号和第6,090,606号)。此酶识别和裂解由与靶DNA链杂交的两个寡核苷酸的重叠产生的DNA“瓣”。此裂解具有高度特异性,并且能识别单碱基对突变,从而允许检测来自一个相关SNP的个别杂合体的单一同源物,并随后对所述片段内出现的其它SNP处的所述同源物进行基因分型。Fen-1酶可为类Fen-1核酸酶,例如人类、鼠类和爪蟾类XPG酶和酵母RAD2核酸酶,或来自例如詹氏甲烷球菌(M.jannaschii)、极端嗜热菌(P.furiosus)和乌兹炽热球菌(P.woesei)的Fen-1核酸内切酶。
可使用正在开发的作为检测结核分枝杆菌(M.tuberculosis)的存在的诊断工具的另一项技术,来裂解DNA嵌合体。将三联DNA-RNA-DNA探针与靶核酸(诸如结核分枝杆菌特异性序列)杂交。添加RNA酶H后,嵌合探针的RNA部分降解,释放出DNA部分[优勒(Yule),生物技术(Bio/Technology)12:1335(1994)]。
也可使用任何裂解方法组合和任何酶组合来形成片段。可将产生特异性裂解产物的方法与产生随机裂解产物的方法组合。此外,在特定位点裂解多核苷酸的一种或多种酶可与在不同位点特异性裂解多核苷酸的一种或多种酶组合使用。在另一实例中,裂解特定类型多核苷酸的酶可组合使用,例如RNA酶与DNA酶组合。在又一实例中,随机裂解多核苷酸的酶可与特异性裂解多核苷酸的酶组合使用。组合使用意思是先后或同时对多核苷酸进行一种或多种方法。
肽断裂/裂解
随着蛋白质组学研究领域越来越引起关注,已开发出多种蛋白质断裂技术以用于蛋白质测序。其中有化学和酶促水解,以及通过电离能断裂。
所属领域众所周知蛋白质N-末端的依序裂解,并且可使用埃德曼降解法(Edmandegradation)实现。在此方法中,使N-末端氨基酸与异硫氰酸苯酯反应形成PTC-蛋白质,而当与三氟乙酸接触时,形成中间物苯胺基噻唑啉酮。将所述中间物裂解并转变成苯乙内酰硫脲形式,随后分离,并通过与标准品比较进行鉴别。为促进蛋白质裂解,可将蛋白质还原,并用乙烯基吡啶或碘乙酰胺烷基化。
所属领域中众所周知使用溴化氰的蛋白质化学裂解(尼克丹(Nikodem)和弗雷斯科(Fresco),分析生物化学(Anal.Biochem.)97:382-386(1979);加能(Jahnen)等人,生物化学与生物物理学研究学会(Biochem.Biophys.Res.Commun.)166:139-145(1990))。溴化氰(CNBr)是起始蛋白质裂解的一种最好方法。CNBr使蛋白质在甲硫氨酰基残基的C末端裂解。由于蛋白质中甲硫氨酰基残基的数量通常很少,故CNBr通常产生少数较大片段。所述反应通常是在70%甲酸或50%三氟乙酸中用相对于甲硫氨酸50倍到100倍摩尔过量的溴化氰进行。裂解通常在10-12小时内定量发生,但通常使反应进行24小时。一些Met-Thr键不裂解,并且可通过氧化甲硫氨酸来防止裂解。
还可使用部分酸水解法去除单个末端氨基酸,来裂解蛋白质(范弗勒特恩(Vanfleteren)等人,生物技术(BioTechniques)12:550-557(1992))。含有天冬氨酸酯残基的肽键特别易于在天冬氨酸酯残基的任一侧酸裂解,但通常需要相当苛刻的条件。通常在高温下于密封试管中的浓盐酸或恒沸盐酸中进行水解,持续2到18小时的各种时间间隔。Asp-Pro键可在37度下由88%甲酸裂解。已发现,Asp-Pro键在其它含Asp键相当稳定的条件下易受影响。适当条件为在40摄氏度下于经吡啶调到pH 2.5的10%乙酸中将蛋白质(约5mg/ml)培育2到5天。
曾使用酸性介质中的溴化剂来裂解多肽链。诸如N-溴代琥珀酰亚胺等试剂将使多肽在各种位点处裂解,包括色氨酸、酪氨酸和组氨酸,但通常发生产生不溶产物的副反应。BNPS-粪臭素(BNPS-skatole)[2-(2-硝基苯硫基)-3-甲基吲哚]是一种温和氧化剂和溴化剂,其使多肽在色氨酸残基的C末端侧裂解。
尽管可发生与酪氨酸和组氨酸的反应,但可通过在反应混合物中包括酪氨酸而大大降低这些副反应。通常,将约10mg/ml蛋白质溶解于75%乙酸中,并且添加BNPS-粪臭素与酪氨酸的混合物(以提供分别相对于色氨酸和蛋白质酪氨酸的100倍过量)并培育18小时。通过离心获得含肽上清液。
除温和酸裂解Asp-Pro键的问题(这在BNPS-粪臭素处理条件下也有遇到)外,另一潜在问题为:任何甲硫氨酸残基都被转变成甲硫氨酸亚砜,其无法随后由溴化氰裂解。如果需要CNBr裂解由BNPS-粪臭素裂解获得的肽,则可通过在30摄氏度下与15%巯基乙醇一起培育72小时来再生甲硫氨酸残基。
在相当温和的条件下,用邻亚碘酰基苯甲酸处理蛋白质,将裂解色氨酸-X键。将在含有4M盐酸胍的80%乙酸中的蛋白质与碘苯甲酸(每毫升蛋白质约2mg)一起培育,所述碘苯甲酸已与对甲酚在室温下于暗处预先培育24小时。可通过添加二硫赤藓糖醇来终止反应。由于污染物邻碘酰基苯甲酸会裂解酪氨酸-X键并且可能裂解组氨酸-X键,故须小心使用纯的邻亚碘酰基苯甲酸。反应混合物中对甲酚的作用是充当残余邻碘酰基苯甲酸的清除剂,并改进裂解的选择性。
有两种试剂可用来裂解含有半胱氨酸残基的肽。这些试剂为(2-甲基)N-1-苯磺酰基-N-4-(溴乙酰基)喹啉醌二酰亚胺(另称为Cyssor,参看“有机试剂进行的半胱氨酸特异性切断”)和2-硝基-5-氰硫基苯甲酸(NTCB)。在两种情况下,裂解都是发生在半胱氨酸的氨基末端侧。
蛋白质与羟胺一起培育将导致多肽主链裂解(萨瑞斯(Saris)等人,分析生物化学(Anal.Biochem.)132:54-67(1983))。羟胺解(Hydroxylaminolysis)引起任何天冬酰胺酰基-甘氨酸键裂解。反应通过以下步骤发生:在6M盐酸胍、20mM乙酸钠+1%巯基乙醇(pH 5.4)中培育浓度为约4到5mg/ml的蛋白质,并添加等体积的2M羟胺于6M盐酸胍中的溶液(pH 9.0)。通过添加0.1N NaOH使所得反应混合物的pH值保持在9.0,并使反应在45摄氏度下进行各种时间间隔;可通过添加0.1体积乙酸来终止反应。在无羟胺的情况下,可能发生碱催化的环状酰亚胺中间物重排,得到α-天冬氨酰基甘氨酸与β-天冬氨酰基甘氨酸的混合物,而无肽裂解。
所属领域中已知多种利用蛋白水解酶水解蛋白质的方法(克里维兰(Cleveland)等人,生物化学杂志(J.Biol.Chem.)252:1102-1106(1977))。所有肽酶或蛋白酶都是水解酶,其作用于蛋白质或其部分水解产物而分解肽键。天然蛋白质是蛋白酶的不良底物,并且通常在酶促裂解前经脲处理而变性。现有技术揭示大量展现肽酶、氨基肽酶和其它酶活性的酶,并且这些酶可源自多种有机体,包括脊椎动物、细菌、真菌、植物、反转录病毒和一些植物病毒。蛋白酶已用于例如分离重组蛋白。例如参看美国专利第5,387,518号、第5,391,490号和第5,427,927号,其描述各种蛋白酶和其在从融合蛋白中分离所需组分的用途。
蛋白酶可分为两类。外肽酶,包括羧基肽酶和氨基肽酶,其从多肽中取出一个或多个氨基末端残基。内肽酶,其在多肽序列内裂解,在蛋白质序列中的特定残基之间裂解。各种酶都展现对于最佳活性的不同要求,包括离子强度、温度、时间和pH值。存在中性内切蛋白酶(诸如Neutrase.TM.)和碱性内切蛋白酶(诸如Alcalase.TM.和Esperase.TM.),以及耐酸性羧基肽酶(诸如羧基肽酶P)。
已对蛋白酶进行广泛研究以改进其活性并扩大其底物特异性(例如参看美国专利第5,427,927号、第5,252,478号和第6,331,427B1号)。一种扩大蛋白酶的靶的方法是将蛋白酶所需的裂解序列插入靶蛋白中。近来,已揭示一种制备并选择能够裂解蛋白质中用户限定识别序列的位点特异性蛋白酶(“设计者蛋白酶(designer protease)”)的方法(参看美国专利第6,383,775号)。
不同内肽酶使蛋白质在多种选择的裂解位点处裂解。举例来说,内肽酶肾素(renin)使以下序列在亮氨酸残基之间裂解:Pro-Phe-His-Leu-Leu-Val-Tyr(SEQ ID NO:1)(M.L.哈弗雷(Haffey,M.L.)等人,DNA 6:565(1987))。Xa因子蛋白酶使以下序列在Arg后裂解:Ile-Glu-Gly-Arg-X;Ile-Asp-Gly-Arg-X;和Ala-Glu-Gly-Arg-X,其中X为除脯氨酸或精氨酸外的任何氨基酸(分别为SEQ ID NO:2-4)(K.永井(Nagai,K.)和H.C托格森(Thogersen,H.C),自然(Nature)309:810(1984);D.B.施密斯(Smith,D.B.)和K.S.琼森(Johnson,K.S.),基因(Gene)67:31(1988))。胶原酶使以下序列在X和Y残基后裂解:-Pro-X-Gly-Pro-Y-(其中X和Y为任何氨基酸)(SEQ ID NO:5)(J.吉米诺(Germino J.)和D.贝梯斯(Bastis,D.),美国国家科学院院刊(Proc.Natl.Acad.Sci.USA)81:4692(1984))。来自金黄色葡萄球菌(S.aureus)的谷氨酸内肽酶V8是一种丝氨酸蛋白酶,其在酸性条件或谷氨酸碱性条件下特异性裂解天冬氨酸羧基侧的肽键。
胰蛋白酶特异性裂解精氨酸、赖氨酸和S-氨基乙基-半胱氨酸残基的羧基侧,但极少裂解或不裂解精氨酰基-脯氨酸或赖氨酰基-脯氨酸键。胃蛋白酶优先裂解苯丙氨酸、亮氨酸和谷氨酸的C末端,但其不裂解缬氨酸、丙氨酸或甘氨酸。糜蛋白酶裂解苯丙氨酸、酪氨酸、色氨酸和亮氨酸的C末端侧。氨基肽酶P是负责释放与脯氨酸残基相邻的任何N末端氨基酸的酶。脯氨酸二肽酶(脯肽酶(prolidase))切开羧基末端位置中具有脯氨酰基残基的二肽。
肽或核酸的电离断裂裂解
在质谱分析期间,通过在质谱仪(MS)的电离区使用较高电压来断裂;通过串联MS使用离子阱中碰撞诱导的解离,来实现蛋白质或核酸的电离断裂。(例如参看拜尔曼(Bieman),酶学方法(Methods in Enzymology),193:455-479(1990))。由在所述肽或核酸的所得MS断裂模式中所观察到的分子量差异,使用与MS中个别氨基酸残基或核苷酸残基相关的公开质量,推导出氨基酸或碱基序列。
通过在沿肽主链的几乎每一残基处裂解肽来实现蛋白质的完全测序。当碱性残基位于N末端和/或C末端时,由于正电荷一般定位于碱性位点,故在碰撞诱导解离(CID)光谱中所产生的大部分离子将含有所述残基(参看J.兹亚(Zaia,J.),质谱法分析蛋白质和肽(Protein and Peptide Analysis by Mass Spectrometry),J.R.查普曼(J.R.Chapman)编,第29-41页,胡曼纳出版社(Humana Press),新泽西州托托瓦(Totowa,N.J.),1996;和R.S.琼森(Johnson,R.S.)等人,质谱学与离子过程(Mass Spectrom.Ion Processes),86:137-154(1988))。由于碱性位点引导断裂成有限系列的特定子离子(daughter ion),故碱性残基的存在通常会简化所得光谱。缺少碱性残基的肽倾向于断裂成较为复杂的片段离子混合物,这将使序列测定更加困难。这可通过将强正电荷连接到N末端来克服。参看R.S.琼森(Johnson,R.S.)等人,质谱法与离子过程(Mass Spectrom.Ion Processes),86:137-154(1988);J.E.瓦斯(Vath,J.E.)等人,Fresnius Z分析化学(Fresnius Z Anal.Chem.),331:248-252(1988);J.T.斯图尔特(Stults,J.T.)等人,分析化学(Anal.Chem.),65:1703-1708(1993);J.载雅(Zaia,J.)等人,美国质谱学会志(J Am.Soc.Mass Spectrom.),6:423-436(1995);D.S.瓦格纳(Wagner,D.S.)等人,生物质谱学(Biol.Mass Spectrom.),20:419-425(1991);和Z.-H.黄(Huang,Z.-H.)等人,分析生物化学(Anal.Biochem.),268:305-317(1999)。还可通过化学方式修饰蛋白质以使其包括改变其分子量的标记,由此使由电离断裂产生的质量片段相区别。所属领域中已知用各种试剂标记蛋白质,并且多种适用于实践本文方法的标记试剂和技术对所属领域技术人员来说方便可用。例如参看明斯(Means)等人,蛋白质的化学修饰(Chemical Modification ofP roteins),圣弗朗西斯克霍尔顿日(Holden-Day,San Francisco),1971;弗雷(Feeney)等人,蛋白质修饰:食品、营养和药理学方面(Modification of Proteins:Food,Nutritional andPharmacological Aspects),化学进展丛书(Advances in Chemistry Series),第198卷,美国化学协会(American Chemical Society),华盛顿(Washington,D.C.),1982。
本文所述的方法可用于分析通过特异性裂解获得的靶核酸或肽裂解产物,如上文所提供,以用于各种目的,包括(但不限于)鉴别、多态性检测、SNP扫描、细菌和病毒分型、病原体检测、鉴别和表征、抗生素谱分析、有机体鉴别、疾病标志物鉴别、甲基化分析、微卫星分析、单体分型、基因分型、等位基因频率测定、多重分析以及核苷酸测序和重测序。
生物分子片段的序列信息的检测和鉴别
由于基于统计学,约16个核苷酸的序列是人类基因组所特有的,故可使用相对较短的核酸序列来检测高级有机体中的正常和缺陷型基因,并检测感染性微生物(例如细菌、真菌、原生生物和酵母)和病毒。DNA序列可用作检测相同物种内不同个体的指纹(参看J.S.托普森(Thompson,J.S.)和M.W.托普森(M.W.Thompson)编,医学遗传学(Genetics in Medicine),W.B.桑德斯公司(W.B.Saunders Co.),宾夕法尼亚州费城(Philadelphia,Pa.)(1991))。
目前使用数种检测DNA的方法。举例来说,通过利用凝胶电泳比较扩增核酸分子与已知标准品的迁移率,或用与待鉴别的序列互补的探针杂交,来鉴别核酸序列。然而,鉴别只能在核酸分子标记有灵敏报告功能(例如放射性(32P、35S)、荧光或化学发光)的情况下实现。放射性标记存在危险,并且其产生的信号会随着时间衰减。非同位素标记(例如荧光标记)缺乏灵敏性,并且当使用高强度激光时,信号衰落。此外,进行标记、电泳以及随后的检测是耗费人力、时间并且容易出错的过程。电泳特别容易出错,这是因为核酸的尺寸或分子量不能与在凝胶基质中的迁移率直接相关。我们知道,序列特异性效应、二级结构和与凝胶基质的相互作用会引起假象(artifact)。此外,由凝胶电泳获得的分子量信息是诸如在凝胶基质中的迁移率等相关参数的间接测量结果。
已报导质谱法在生物科学中的应用(参看酶学方法(Meth.Enzymol.),第193卷,质谱法(Mass Spectrometry)(麦克柯罗斯奇(McCloskey)编;纽约学术出版社(AcademicPress,NY)1990);麦克拉斐(McLaffery)等人,化学研究报告(Ace.Chem.Res.)27:297-386(1994);查特(Chait)和肯特(Kent),科学(Science)257:1885-1894(1992);苏扎克(Siuzdak),美国国家科学院院刊(Proc.Natl.Acad.Sci.,USA)91:11290-11297(1994)),包括生物聚合物质谱分析方法(参看海伦坎普(Hillenkamp)等人(1991)分析化学(Anal.Chem.)63:1193A-1202A)和产生与分析梯形生物聚合物的方法(参看国际公开案WO96/36732;美国专利第5,792,664号)。应用于生物分子的质谱技术包括(但不限于)基质辅助激光解吸/电离飞行时间(MALDI-TOF)、电喷雾(ES)、IR-MALDI(例如参看公开的国际PCT申请案第99/57318号和美国专利第5,118,937号)、傅里叶变换离子回旋共振(ICR)和其组合。
MALDI-MS一般涉及分析基质中的生物分子,并且已对混合于固体(即,结晶)基质中的多肽和核酸进行所述方法。在这些方法中,使用激光来撞击在探针针尖上结晶的生物聚合物/基质混合物,由此实现生物聚合物的解吸和电离。此外,已使用水合水(waterof hydration)(即冰)或甘油作为基质对多肽进行MALDI-MS。当将水合水用作基质时,在进行MALDI-MS之前,需要首先将蛋白质冻干或风干(波肯坎普(Berkenkamp)等人(1996)美国国家科学院院刊(Proc.Natl.Acad.Sci.USA)93:7003-7007)。据报导,此方法的质量上限为30kDa,其灵敏性有限(即,需要至少10pmol蛋白质)。
MALDI-TOF质谱法已与常规桑格测序法(Sanger sequencing)或基于引物延伸的类似方法结合使用来获得序列信息,包括检测SNP(例如参看美国专利第5,547,835号、第6,194,144号、第6,225,450号、第5,691,141号和第6,238,871号;H.柯斯特瑞(H.Kosteretal.),自然-生物技术(Nature BiotechnoL),14:1123-1128,1996;WO 96/29431、WO 98/20166、WO 98/12355、美国专利第5,869,242号、WO 97/33000、WO 98/54571;A.布罗恩(A.Braun)等人,基因组学(Genomics),46:18,1997;D.P.里特(D.P.Little)等人,自然-医学(Nat.Med.),3:1413,1997;L.哈夫(L.Haff)等人,基因组研究(GenomeRes.),7:378,1997;P.罗斯(P.Ross)等人,自然-生物技术(Nature BiotechnoL),16:1347,1998;K.唐(K.Tang)等人,美国国家科学院院刊(Proc.Natl.Acad.Sci.USA),96:10016,1999)。由于DNA中的四种天然存在的核苷酸碱基dC、dT、dA和dG(也称为C、T、A和G)各具有不同的分子量:MC=289.2;MT=304.2;MA=313.2;MG=329.2;其中MC、MT、MA、MG分别为核苷酸碱基脱氧胞苷、胸苷、脱氧腺苷和脱氧鸟苷的平均分子量(在天然同位素分布之下)(单位:道尔顿),故可能在单一质谱中读出完整序列。如果使用单一光谱来分析常规桑格测序反应的产物,在通过并入双脱氧核苷酸实现每一碱基位置的链终止的情况下,则可通过计算相邻峰之间的质量差异来确定碱基序列。对于SNP检测,在靶核酸分子中紧邻多态性SNP或序列变异位点进行等位基因或其它序列变异(例如插入、缺失)、变异体特异性引物延伸。延伸产物的质量和延伸产物与未延伸产物之间的质量差异指示等位基因、SNP或其它序列变异的类型。
美国专利第5,622,824号描述基于质谱检测的DNA测序方法。为此,借助于保护、酶促活性特异性或固定,经由核酸外切酶消化以逐步方式将DNA单侧降解,并通过质谱法检测核苷酸或衍生物。在酶促降解之前,可产生数组跨越一个克隆的DNA序列的有序缺失。以此方式,可使用核酸外切酶与DNA/RNA聚合酶的组合,并入质量修饰过的核苷酸。这允许进行多重质谱检测,或调节核酸外切酶活性以同步进行降解过程。
美国专利第5,605,798号和第5,547,835号提供检测生物样本中特定核酸序列的方法。视所检测的序列而定,所述方法可例如用于诊断方法中。
已开发出在工业规模上应用MALDI-TOF质谱法来分析遗传变异(诸如微卫星、插入和/或缺失突变以及单核苷酸多态性(SNP))的技术。这些技术可用于大量个别样本或汇集的样本,以研究个体群体中或异源性肿瘤样本中的等位基因频率或SNP频率。可在基于芯片的格式上进行分析,在所述基于芯片的格式中,靶核酸或引物(优选以阵列形式)连接到固体支撑物(诸如硅或涂硅衬底)上(例如参看K.唐(K.Tang)等人,美国国家科学院院刊(Proc.Natl.Acad.Sci.USA),96:10016,1999)。一般说来,当使用质谱法、尤其是MALDI进行分析时,将少量纳升体积的样本装载到衬底上,以使所得斑点约等于或小于激光光斑的尺寸。已发现,当这实现时,由质谱分析得到的结果是定量的。所得质谱中信号下面积与浓度成正比(当针对背景进行归一化和校正时)。所述芯片的制备和使用方法描述于美国专利第6,024,925号、共同未决的美国申请案第08/786,988号、第09/364,774号、第09/371,150号和第09/297,575号中;也参看美国申请案第PCT/US97/20195号,其以WO 98/20020公开。进行这些分析的芯片和试剂盒是购自赛克诺姆公司(SEQUENOM,INC.),商标为MassARRAY.TM.。MassARRAY.TM.依靠质谱分析与小型化阵列和MALDI-TOF(基质辅助激光解吸电离-飞行时间)质谱法组合来迅速产生结果。其在无标签的情况下准确地区分一定尺寸DNA片段中与遗传变异体有关的单碱基改变。
尽管使用MALDI来获得核酸序列信息(尤其如上文所述从DNA片段中获得)因脱离固体表面的高速信号采集和自动分析而提供高通量的优点,但其应用也存在限制。当SNP或突变或其它序列变异未知时,须就不含序列变异的参考序列的每一可能序列改变来模拟变异体质谱或其它质量指示物,诸如在凝胶电泳情况下的迁移率。随后,须将对应于一个特定序列变异或一组序列变异的每一模拟变异体光谱与实际变异体光谱相匹配,以确定产生变异体光谱的一种或多种最大可能序列改变。这种单纯基于模拟的方法耗费时间。举例来说,假设一个参考序列具有1000个碱基,则存在约9000个潜在的单碱基序列变异。对于每一个这样的潜在序列变异,都须模拟预期光谱,并将其与实验测量的光谱相匹配。当存在多个碱基变异或多个序列变异而不仅是单碱基或单序列变异时,问题进一步复杂化。
序列比较分析实施例
序列比较分析将由样本产生的峰型与通过计算机模拟碱基特异性裂解由至少一个或一组已知参考核酸序列产生的峰型或由已知样本(称为参考物)产生的参考峰型相匹配。针对组中的所有参考物计算各样本的得分,并且将具有最高得分的一个或多个参考物选作各样本的潜在匹配物。随后建立变异和置信度值,并针对最佳匹配参考物评估各样本。
在本方法中,第一步是产生参考峰型。在已知一些参考核酸序列的情况下,可通过模拟例如RNA酶A裂解反应或任何其它化学裂解反应(包括碱基特异性裂解反应和部分裂解反应),由参考序列或由共有序列获得峰型。也可通过测量参考样本(纯样本或混合样本)的裂解反应产物获得峰型。为模拟混合物的峰型,可组合两个或两个以上来自纯样本或参考核酸序列的峰型。可产生各参考物的一个或多个峰的清单,例如对应于T正向、C正向、T反向和C反向裂解反应的峰清单。对于各反应,按质量排列组中参考物的所有峰,并随后可利用代表峰强度的n维向量(0代表无所述峰)表示各参考物。维度n是在特定反应的指定质量范围内,组中所有参考峰的模拟质量数。因此,各参考物可由一个或多个向量表示。
可根据这些向量计算距离矩阵:
Di,j=∑rk[(|Vi,r,k-Vj,r,k|)^3/(Vi,r,k+Vj,r,k)]
其中Vi,r,k是关于序列i、反应r和峰k的强度,Vj,r,k是关于序列j、反应r和峰k的强度,∑k是对反应r中所有峰求和,∑r是对所有模拟反应求和,并且Di,j是序列i与j之间的距离。距离矩阵可用作其它软件的输入(诸如PHYLIP软件包或其它软件包中的neighbor.exe),以对参考物进行聚类。
参考峰清单和经排列的峰型可用于评定需要何种裂解反应和需要多少反应来区分一个组中的所有参考物。首先,通过找出在一组参考物中存在但在其它组参考物中不存在的峰,根据区别性特征将参考物分成数个群集。随后将数个群集分成子群集,直到各群集仅具有一个序列或一组难区分的序列。通过加和所有区别性特征的强度来计算区别力(discriminating power),所述所有区别性特征是仅存在于本群集中的独特峰以及强度与其它群集不同的峰。需要设置区别力阈值(通常设为2)以在良好置信度下区分一个参考物与另一个参考物。通过评估所有参考物的区别力,可确定最小裂解反应组。如果参考物实质上彼此不同,则一个反应即足以区分所有。
为确保所采集光谱质量,在采集期间,通过将所检测的峰型与一组选自参考峰型的锚定峰相比较来评估光谱。锚定峰组的选择方式为使得各锚定峰组中的一个或多个峰能表示所有参考物。通常从参考峰型中选出10-20组锚定峰。在所检测的样本峰型实质上偏离组中一个或多个参考物的情况下,例如仅一个或几个参考物已知,而待检测的样本可能与已知参考物相当不同时,将组合数组锚定峰,以使所有样本都得到有意义的质量判断。
在采集到光谱后,下一步是提取所有有意义的峰。首先通过应用利用高斯核的宽度可变滤波器来过滤光谱。通过找出经过滤光谱中的局部最大值来鉴别峰的初始位置。视峰分离而定,将一个或一组峰集合为一个群组并确定群组的原始光谱的共同基线。将来自峰群组的原始光谱的基线校正过的数据点拟合至高斯曲线:
Intensity=∑Ai*exp{-[(mass-massi)/width]^2}
其中Ai和massi是群组中各峰的高度和质量,width是群组的共同峰宽,并且求和是针对所有峰。随后由高度和宽度计算峰强度和信噪比(SNR)。对具有较低SNR的峰进行评估,以获得化学噪声峰的截止值,并将其从最终的峰清单中去除。随后将峰强度归一化,其归一化方式使得质量范围为2000-4000Da的所检测强度与参考峰的强度一致。这些强度称为归一化原始峰强度。
在采集数据之前,通常通过用质量为1479.0、3004.0、5044.4和8486.6或适当质量的校准物进行外部校准,来校准质谱仪。在整个过程中所采集的所有光谱都具有相同质量校准。然而,归因于样本位置的变化,各光谱中的实际质量可能不同于初始校准,有时大到影响鉴别。因此,下一步通过内部校准来校准峰质量。首先,将所有检测峰与某一质量窗口内的参考峰相匹配,并通过评估所检测的质量相对于参考质量的总体偏差模式,来去除超出界限的峰。在鉴别所有匹配的峰后,将在整个质量范围内均匀分布的高强度峰选为锚定峰。随后,将锚定峰的质量拟合至以下方程:
MASS=A*[sqrt(B*INDEX+C)-1]^2
其中MASS为锚定峰的质量,INDEX为峰质量指数,并且A、B和C为质量校准系数。通常执行数轮拟合。在每一轮后,去除最差拟合锚定峰,并再执行拟合,直到拟合优度(goodness of fit)达到某标准,例如质量偏差小于0.3,或锚定峰的数量达到最小值(诸如5)。随后通过确保利用两组系数计算的不同质量区的质量接近,例如最低质量范围的质量相差小于0.5道尔顿并且最高质量范围的质量相差小于5道尔顿,来验证最终校准系数。随后,将新的校准应用于所有峰。
通过组合两个部分(一个来自检定和参考物非依赖性参数,而另一个来自检定和参考物依赖性参数),来评估光谱质量。检定和参考物非依赖性质量Qpeak通过考虑平均归一化峰强度和峰SNR获得:
Qsnr=1.0-exp[(2-avesnr)/10
Qintens=0.5*{1.0/[1.0+exp((0.3-aveintens)*10.0)]+exp[-0.25/(ratioaveltoCN^2)]}
Qpeak=(Qintens+Qsnr)/2
其中avesnr为光谱中最高的10到15个峰的平均SNR,aveintens为光谱中最高的10到15个峰的平均强度,并且ratioaveltoCN为aveintens与化学噪声峰平均强度的比率。化学噪声峰是未由任何复合体指定(即,由特异性裂解反应产生的核酸组合物)所解释的峰。Qpeak是光谱中峰质量的较佳度量,不管是否对其指定正确的参考物。检定和参考物依赖性质量通过比较与从参考峰型预先选择的一组峰(数组锚定峰)匹配的数量的峰而获得:
Qmatch=Intensmatch/(Intensmatch+Intensmissing)
其中Intensmatch为匹配的参考锚定峰强度的总和,并且Intensmissing为丢失的参考锚定峰强度的总和。Qmatch为反应是否发生的较佳度量。它还能够告知用户是否对所述反应指定错误的反应或错误的参考物。然而,如果样本未由组中的参考物表示,或对于一组不同的样本仅一个参考物可用,则Qmatch可实质上随样本不同而变化。总体光谱质量为以下两项的加权组合:
Qspec=Qpeak*(1-weight)+Qmatch*weight
其中weight可设置为介于0与0.667之间,并且对于与参考物匹配的样本可采用默认设置0.667。视特定实验环境而定,可调整对两种质量的加权,以获得最有意义的光谱质量。
原始峰强度在由MALDI-TOF质谱仪采集的光谱的不同质量范围内变化。对于调到质量范围介于例如1100Da到11000Da之间的MassARRAY小型分析仪(compactanalyser)(赛克诺姆公司),峰的最高强度介于2000Da与4000Da之间。利用为各光谱计算的标度曲线来校正质量依赖性变化。视质谱仪而定,替代性拟合可能较佳。对于赛克诺姆公司的MassARRAY小型分析仪(赛克诺姆),通过将峰强度拟合至最多三个不同质量范围(可能的中心区2000-5000Da,较低质量区1100-2500Da和较高质量区高于4500Da)内的标准曲线,来获得标度曲线。可介于2000到5000Da之间的中心质量区是最重要的区域并且一般具有大部分峰。将此区域中的峰拟合至高斯曲线:
Intens=A*exp{-[(log(m)-B)/C]^2}
其中m和Intens分别为峰质量和强度,并且A、B和C为高斯系数;将较低质量范围(例如1100-2500Da)中的峰拟合至指数增长曲线:
Intensity=A*exp(B*mass)
其中系数A和B应始终为正值。将较高质量范围(例如高于4500Da)中的峰拟合至指数衰减曲线:
Intensity=A*exp(-B*mass)
其中系数A和B也应为正值。将三条曲线平滑连接成全质量范围的一条曲线,以形成最终质量标度因子,其表示当参考强度为1时所预期的在给定质量下检测的峰强度。随后,使用此曲线来计算所有检测峰的修正强度:
Irevised=Iraw/Fscaling
其中Irevised和Iraw分别为所检测峰的修正强度和原始强度,并且Fscaling为在所述峰质量下的标度因子。
随后,就副峰(side peak)(污染物和副产物)来筛选所检测峰清单,所述副峰为诸如盐加合物峰、基质加合物峰、双电荷峰和无效循环峰。汇集由仅一类副锋解释的峰,并计算这些峰与其母峰的平均比率。随后使用所述比率来调整与副锋和参考峰或新峰都匹配的其它峰的峰强度:
Iadj=Irev-Rside*Isideparent
其中Iadj和Irev分别为经调整峰强度和经修正峰强度,Rside为与母峰的比率,并且Isideparent为母峰针对副峰的修正强度。如果经调整强度低于最小峰强度,则将所述峰指定为副峰,并且从得分计算中排除。在下文所述的鉴别和置信度评估期间,将所检测峰的经调整强度用于所有评分过程中。
已观察到,具有不同组合物(例如核酸组合物)的峰在从MALDI-TOF MS或替代性质谱仪中获得的光谱中具有不同强度,尤其对于当应用RNA酶A裂解时C裂解反应中的富T片段更是如此。富T主峰的强度可低于非富T峰的加合物峰的强度。为了更好地鉴别和评估各峰,已建立经调整峰强度与C裂解产物的碱基组成之间的经验关系。也可对来自其它裂解反应(例如,使用RNA酶A的T裂解反应)的产物建立类似关系。
对于训练集(training set)中的所有数据,首先如前一节中所述对峰强度进行标度,以去除质量依赖性。对具有相同核酸组合物的峰取平均值。由于质量依赖性峰强度标度的精确度取决于经调整参考峰强度,而经调整峰强度的计算视质量依赖性峰强度标度而定,故须进行数个周期的建模以达到收敛(convergence)。对于至多10个核苷酸的较短核酸组合物,将所有训练集的平均值用于各核酸组合物。举例来说,预期强度为:A2CG2的1.29;ACG2T的0.69;CG2T2的0.36,但CT4仅0.09。
对于超过10个核苷酸的核酸组合物,使用强度随T%和A%变化的经验模型:
如果T%高于0.75,则adjustedlntensity=0.17;
否则adjustedlntensity=T%*(-0.5545*T%-1.143)+1.341
当T%小于0.37时,利用A%进一步调节经调整强度:
adjustedlntensity=1.098*exp{-[(A%-0.6786)/1.139]^2}
随后将经调整峰强度用于峰检测、峰标度、得分计算和峰类型评估中。
在从光谱中提取出所检测的样本峰后,下一步是鉴别具有最佳匹配峰型的一个或多个参考物。这可通过为各序列赋予总得分来进行。在鉴别过程中,通过组合三种不同得分来计算总得分:位图得分、区别性特征匹配得分和距离得分。
位图得分(scorebitmap)通过将模拟中产生的所有参考峰与所检测的峰相比较而计算得到。对于各参考峰,如果不存在匹配的检测峰,则得分为0。否则,通过评估检测峰与参考峰的强度比来计算得分。对于在0.7-1.5内的比率,赋予1.0分;对于0.5-0.7或1.5-2.0,赋予0.75分;对于0.3-0.5或2.0-3.0,赋予0.5分;对于0.2-0.3或高于3.0,赋予0.25分;对于0.1-0.2,赋予0.1分;如果比率小于0.1,则得分为0。随后通过将经参考强度和先前所述质量标度因子加权的所有参考峰的得分平均,来计算位图得分。具有富T核酸组合物的峰,或有时因强度低而未检测到的在低质量范围和高质量范围内的峰,对得分的影响不大。
以类似方式,但仅评估使一个参考物区别于另一个参考物或使一组参考物区别于另一组参考物的峰亚组,来计算区别性特征匹配得分(scoredisc)。此得分在挑出对于区分不同参考物极为重要的峰强度间较小差异上较为灵敏。所有区别性峰的强度总和称为区别力。区别力越高,则区别性特征匹配得分对总得分的贡献将越高。
距离得分(scoredist)是根据所检测峰的样本向量与所有参考向量的欧氏距离计算得到。其包括所有检测峰的贡献,所述检测峰是针对参考组所预期的,不管其是否存在于特定参考物中。在计算样本与所有参考物的距离后,即计算基础得分:
baseScore=exp[-(minDist+offset)/200.0]
其中minDist为最小距离,并且offset为考虑到所选最高匹配序列的数量、良好反应(例如裂解反应)的数量和不在位图向量中的额外峰的距离偏移。随后计算距离得分:
scoredist=baseScore*(1/{1+exp[(dist-minDist)/(offset+aveDist-minDist)-1]*3})
其中dist为样本与参考物的欧氏距离,并且aveDist为所选最高匹配参考序列的平均距离。
总得分为所有三种得分的动态组合:
overallScore=[Scorebitmap*(1-wdisc)+scoredisc]*(1-wdist)+scoredist*wdist
其中wdisc为在0到0.5范围内的区别性特征得分或视区别力而定的替代性值的权重,并且wdist为也在0到0.3范围内的距离得分或视峰型匹配而定的替代性值的权重。
在鉴别期间,利用总得分对所有参考物进行分类,并选出一部分得分最高的序列。随后使用序列亚组来精化所检测峰清单的强度。再计算此序列亚组的总得分。继续此过程,直到对于各样本,找出大大优于其余序列的一个序列或具有相近得分的数个序列,并将其选作一个或多个最高匹配,如图11中所述。
在找出一个或多个最佳匹配参考物后,针对最高匹配参考物再评估所检测的峰清单,以获得各个峰的最佳解释。还计算各样本的总体光谱质量,其将主要来自Qspec的贡献,而且还有其它特性(诸如峰强度匹配、额外峰、未知峰和盐加合物峰的量)的贡献。
通过计算匹配峰的强度总和与总强度总和的比率来评估峰型一致性(PPIdentity)得分,其中所述匹配峰的强度总和是特定参考序列的所有参考峰的强度总和减去丢失峰和沉默丢失峰(比参考峰弱得多的检测峰)的强度而得,并且所述总强度总和为特定参考物的所有参考峰的强度总和加上额外峰和沉默额外峰(所预期的但比参考峰强得多的检测峰)的强度而得。此得分忽略峰强度之间的较小差异,但包括参考物未预期的新峰的贡献。
最终得分为PPIdentity得分和位图得分的平均值,并对组中所有参考物进行计算。
针对所有参考物评估各样本的另一个重要参数是经调整峰改变,其为经总体光谱质量加权并利用未知峰和加合物峰调整的丢失峰和额外峰的强度总和。较大的经调整峰改变是样本相对于参考物具有变化的良好指示物。
所述方法中的下一步是比较最高匹配参考序列的检测峰与参考峰,以使用下一节将讨论的SNP发现算法(US 2005/0112590)找出是否存在任何模式或序列变异。在检测到变异后,对丢失峰和额外峰进行再评估。重新计算最高匹配参考序列的最终得分和经调整峰改变。
序列比较分析方法中的最后一步是评估鉴别结果的置信度,即,所选参考物与样本的匹配度有多高以及是否存在额外变异。常用方法是计算概率值(p值),其估算随机序列的得分比所选序列高的概率。然而,为得到合理精确的p值,取样区间(sampling space)须足够大以致其在计算上不可行。因此,本文所述的方法基于经验模型,并且假定至少一个样本与最高匹配参考序列匹配(存在或不存在经分辨的变异)。所述模型基于训练数据集而建立。首先,鉴别训练集中的所有样本。随后对于各样本,模拟最高匹配参考物中的所有突变,并计算所有突变序列的最终得分和经调整峰改变。对于单碱基改变突变,可模拟最高匹配参考物中的所有可能突变。对于两个或两个以上突变,可进行5000-20000次随机取样。最后,绘制得分的密度分布和经调整峰改变的图形。对于模拟的所有样本,得分的密度分布和经调整峰改变都可通过高斯分布描述。或者,也可使用诸如泊松分布(Poisson distribution)等其它分布来描述密度分布。对于实际得分和经调整峰改变,来自两个或两个以上突变的密度贡献通常是来自单个突变密度贡献的10分之一到100分之一,并且其可忽略不计。因此,使用由单个突变建模的得分密度分布和经调整峰改变来估算额外突变的概率。二者都可由以下函数估计:
φ ( x ) = 1 2 π e - ( x - x 0 ) 2 2 σ 2
其中x0为中心,并且σ为高斯分布的标准偏差。
对于各分析,得分或经调整峰改变的x0和σ都通过经验模型测定。在选出最佳匹配参考序列并应用突变检测后,根据各样本的得分和经调整峰改变来评估初步置信度。收集展示低突变机率的样本,并计算得分(modescore)和峰改变(modepeakchange)模式。
对于所述得分,初始σ(σscore)设为标准值0.02,并且初始截止值(cutoffscore)设为1-1.5*σscore减去σ和(1-modescore)中较小者的一半。随后,根据modescore调整σ和cutoffscore如下:
modeToCutoff=modescore-cutoffscore
If modeToCutoff<2*σscore Then
     cutoffscore-=modeToCutoff/2
     If modeToCutoff>σscore Then σscore+=(modeToCutoff-σscore)/4
Else
     cutoffscore-=σscore
     σscore+=σscore/4+(modeToCutoff-2*σscore)/6
Endif
最后通过将截止值移动2个σ而获得密度分布的中心:
x0score=cutoffscore-2*σscore
对于经调整峰改变,初始σ(σpeakchange)设为标准值0.4,并且初始截止值(cutoffpeakchange)设为σpeakchange加上σ和最小峰改变中较小者的一半。随后通过modepeakchange调整σ和cutoffpeakchange如下:
modeToCutoff=modepeakChange-cutoffpeakchange
If modeToCutoff<2*σpeakchangeThen
     cutoffpeakchange+=modeToCutoff/2
     If modeToCutoff>σpeakchange Then σpeakchange+=(modeToCutoff-σpeakchange)/4
Else
     cutoffpeakchange+=σpeakChange
     σpeakChange+=σpeakChange/4+(modeToCutoff-2*σpeakChange)/6
Endif
最后通过将截止值移动2个σ而获得经调整峰改变的密度分布的中心:
x0peakChange=cutoffpeakChangee+2*σpeakChange
由得分和峰改变贡献的概率可通过加和适当密度计算得到:
pscore=∫s0 1Φscore(X)
PpeakChange=∫0 pc0ΦpeakChange(X)
其中s0为最终得分并且pc0为样本的经调整峰改变。
最终总突变概率为以下两者的组合:
Pmutation=1.0-(1.0-Pscore)*(1.0-PpeakChange)
Pmutation为样本具有相对于最高匹配参考物的额外变异的概率估算值。
如果使用替代性密度分布(例如泊松分布),则还可建立一个或多个类似经验模型。
在鉴别所有样本并定案后,可根据所检测的峰型对其进行聚类。可根据与用于限制性位点的峰相类似的峰存在与否,来计算距离矩阵(J.费尔斯坦(Felsenstein,J.)1992.源于限制性位点的系统发育,一种最大似然法(Phylogenies from restriction sites,a maximumlikelihood approach.)进化(Evolution)46:159-173)。其也可以考虑峰强度而使用欧氏距离计算得到。用于计算欧氏距离的算法与用于计算与参考峰型的距离的算法相同:
Di,j=∑rk[(Vi,r,k-Vj,r,k)^3/(Vi,r,k+Vj,r,k)]
其中Vi,r.k为关于样本i、反应r和峰k的经修正强度,Vj,r,k为关于样本j、反应r和峰k的经修正强度,∑k为对反应r中所有峰求和,∑r为对所有反应求和,并且Di,j为样本i与j之间的距离。
可使用样本距离矩阵对样本进行聚类,甚至在样本并不总是与已知参考物匹配的实验条件下。所述基于所检测峰的聚类提供一种将样本分组的快速而有效的方式。也可不必分辨个别序列而对混合样本进行聚类。
生物分子序列变异的检测
本文所述的序列比较分析方法可包括确定给定序列(例如参考序列或样本序列)中是否存在序列改变。所属领域技术人员已知增加相对于参考序列检测靶序列中的突变、多态性或其它序列变异的速度的技术。确定给定序列中是否存在序列改变有时是在进行过上述序列测定方法之后进行。在某些实施例中,序列测定方法与确定序列改变的方法是一起提供。
一种途径是减少给定靶序列中可能的序列变异的数量,所述可能序列变异的裂解模式被模拟并与由裂解靶序列产生的实际裂解模式相比较。在本文所提供的方法中,使用一种算法,仅输出最有可能产生了靶序列的实际裂解光谱的序列变异候选物。随后,第二种算法仅模拟此序列变异候选物亚组,以便与实际靶序列裂解光谱相比较。因此,模拟分析的序列变异数量急剧减少。
在第一步中,鉴别对应于靶序列与参考序列之间的信号差异的裂解产物,其为靶序列的实际裂解相对于相同条件下参考序列的实际或模拟裂解而获得的绝对(相对于参考光谱,靶光谱中信号的存在与否)或定量(信号强度或信噪比的差异)差异,并且测定这些“不同”靶核酸裂解产物的质量。在测定不同裂解产物的质量后,即鉴别一个或多个核酸碱基组合物(复合体),其质量与各不同裂解产物的实际测量质量相差一个值,这个值小于或等于一个足够小的质量差异。将这些复合体称为证据复合体。所述足够小的质量差异值是由以下参数确定:诸如质量相差相当于单个核苷酸类型或长度的裂解产物之间的峰分离,和质谱仪的绝对分辨率。可使用对四种核酸碱基(对于RNA,A、G、C、T或U,或其修饰体;或对于蛋白质,氨基酸或其修饰体)的一种或多种具特异性的裂解反应,来产生包含各特异性裂解产物的可能证据复合体的数据集,所述可能证据复合体与所测量的各不同裂解产物质量相差一个小于或等于足够小质量差异的值,或等于所测量的各不同裂解产物质量。
所述技术可由对应于靶核酸相对于参考核酸的裂解产物间差异的可能证据复合体重新构建靶序列变异。
算法1:找出序列变异候选物
这是用于分析靶核酸序列的一个或多个特异性裂解反应的结果的基本技术。第一步是鉴别相对于相同参考核酸裂解反应,质量与在靶核酸裂解反应中产生的各不同片段的实际质量的差异值小于或等于一个足够小质量差异的所有可能复合体。这些复合体是“复合体证据”。举例来说,假设不同片段峰是在2501.3Da下检测到。在2502.6Da下,质量在例如+-.2Da峰质量区间内的仅有天然复合体为A1C4G2T1。在不去除裂解位点的识别碱基(在本文中为T)的裂解反应情况下,(例如,UDG将去除裂解的碱基,但RNA酶A不去除)去掉识别碱基,产生复合体A1C4G2。以此方式检测的每一复合体都称为复合体证据。
随后所述基本技术将确定可变换成具有至多k个突变、多态性或其它序列变异(包括(但不限于)有机体之间的序列变异)的各复合体证据c′的所有复合体。k值(序列变异级数)是由用户预定义,并且视多个参数而定,包括(但不限于)所预期的参考序列与靶序列之间序列变异的类型和数量,例如序列变异是单个碱基还是多个碱基;相对于参考序列,序列变异是存在于靶序列上一个位置还是不止一个位置;或靶序列中的序列变异是否彼此相互作用。举例来说,对于SNP的检测,k值通常(但非必需)为1或2。另举一例来说,对于突变的检测以及在重测序时,k值通常(但非必需)为3或更高。
构建一组有界复合体,其是指对应于参考序列的子序列集合的所有复合体的集合c,其边界b指示裂解位点是否在各子序列的两端。可将有界复合体组与可能的复合体证据相比较,以构建靶序列相对于参考序列的所有可能序列变异。接着所述算法使用所构建的复合体证据和有界复合体对,构建所有序列变异候选物,这些序列变异候选物将导致所获得的在相同裂解条件下靶序列相对于参考序列的裂解模式差异。
相对于模拟每一可能序列(其为参考序列变异)的裂解模式并将模拟的模式与靶核酸序列的实际裂解模式相比较的先前方法,序列变异候选物的测定明显减小为测定靶序列中的实际序列变异而分析的序列变异样本集。
两个函数d+、d-定义如下:
d+(c):=.SIGMAb,b在{A,C,G,T}c(b)中且c(b)>0
d-(c):=.SIGMAb,b在{A,C,G,T}c(b)中且c(b)<0
并且函数d(c)定义为d(c):=max{d+(c),d-(c)}且d(c,c′):=d(c-c′)。这是一个度量函数(metric function),其提供使一个片段(例如参考片段)突变成另一片段(例如靶片段)所需的插入、缺失、取代和其它序列变异的数量的下边界。如果f、f′为片段并且c、c′为相应复合体,则需要至少d(c,c′)个序列变异来将f变换成f′。
字符串s(全长序列)的子字符串(片段)表示为s[i,j],其中i,j为满足1≤i≤j≤s的长度的子字符串的开始和结束位置。
复合体边界或边界为集合{L,R}的子集。b的可能值为{}(空集)、{L}、{R}、{L,R}。对于边界b,#b表示b中元素数量,即0、1或2。有界复合体(c,b)含有复合体c和边界b。有界复合体是指对应于参考序列的子序列集合的所有复合体的集合c,其边界指示裂解位点是否在各子序列的两端。可将有界复合体组与可能的复合体证据相比较,以构建靶序列相对于参考序列的所有可能序列变异。
复合体c′与有界复合体(c,b)之间的距离定义为:
D(c′,c,b):=d(c′,c)+#b
函数D(c′,c,b)度量产生复合体证据c′所需的相对于参考序列的最小序列变异数量。
假设字符串s中碱基、氨基酸或由裂解剂所识别的其它特征X的特异性裂解反应,则子字符串s[i,j]或相应复合体c[i,j]的边界b[i,j]是指指示字符串s的裂解是否不是紧接着子字符串s[i,j]的外侧发生的标志物集合。可能的标志物为L,指示是否“s不是正好在i前裂解”;和R,指示是否“s不是正好在j后裂解”。因此,b[i,j]为集合{L,R}的子集,当且仅当X存在于字符串s的i-1位时,其含有L;并且,当且仅当X存在于字符串s的j+1位时,其含有R。#b表示集合b中元素的数量,视子字符串s[i,j]在两个紧密邻接的位置(即,i-1位和j+1位)、在一个紧密邻接的位置(即,i-1位或j+1位)还是在非紧密邻接的位置(即,不是i-1位和j+1位)特异性裂解而定,所述数量可为0、1或2。b[i,j]为集合{L,R}的子集,并且表示s[i,j]的边界,如以下所定义:
如果s不是正好在i之前和j之后裂解,则b[i,j]:={L,R}
如果s正好在i之前但不在j之后裂解,则b[i,j]:={R}
如果s正好在j之后但不在i之前裂解,则b[i,j]:={L}
如果s正好在i之前和j之后裂解,则b[i,j]:={}
#b[i,j]表示集合b[i,j]中元素的数量。
s的所有有界复合体的集合定义为:
C:={(c[i,j],b[i,j]):1≤i≤j≤s的长度},其中对应于s的子字符串s[i,j]的复合体表示为c[i,j]。
如果靶序列的序列变异含有至多k个突变、多态性或其它序列变异(包括(但不限于)有机体之间的序列变异、插入、缺失和取代)(通常,对于核酸,k表示序列变异中单碱基变异的数量),并且如果c′为此序列变异的复合体证据,则C中存在有界复合体(c,b),以致D(c′,c,b)≤k。换句话说,如果含有至多k个突变、多态性或其它序列变异(包括(但不限于)有机体之间的序列变异、插入、缺失和取代)(通常,对于核酸,k表示序列变异中单碱基变异的数量)的靶序列的每一序列变异产生对应于靶序列中相对于参考序列所不同的信号的不同片段并对应于复合体证据c′,则C中存在有界复合体(c,b),并且特性D(c′,c,b)≤k。因此,可将所考虑中的片段数量减少到刚好含有至多k个裂解点的片段数量:
Ck:={(c[i,j],b[i,j]):1≤i≤j≤s的长度,且ord[i,j]+#b[i,j]≤k},其中ord[i,j]为片段s[i,j]将裂解的次数。
算法1:找出序列变异候选物
输入:多个参考序列(或不止一个参考序列);裂解反应的描述;是否将经修饰核苷酸或氨基酸并入全部或部分序列中;对应于不同裂解产物的峰的清单(相对于参考序列,靶序列中的丢失信号或额外信号或定性差异);最大序列变异级数k。
输出:含有至多k个插入、缺失和取代并且具有不同峰作为证据的序列变异的清单。
假设参考序列s和特异性裂解反应,计算Ck中所有有界复合体(c[i,j],b[i,j]),并将其以索引i,j存储在一起。这通常与含有所分析的靶序列的样本无关,并且通常进行一次。
对于每一不同峰,找出质量与峰质量仅相差一个足够小质量差异的所有复合体,并将其存储作为复合体证据。
对于每一复合体证据c′,找出Ck中的所有有界复合体(c,b),以致D(c′,c,b)≤k。
对于每一具有索引i,j的所述有界复合体(c,b),计算s使用至多k个插入、缺失和取代而成为新参考序列s′的所有序列变异,以致:
如果L在b中,则正好在i位前插入/取代裂解碱基或氨基酸;
如果R在b中,则正好在j位后插入/取代裂解碱基或氨基酸;
使用至多k-#b个插入、缺失和插入,其将具有相应复合体c的片段f=s[i,j]变换成具有相应复合体c′的s′的一些片断f′。
输出每一所述序列变异。
US2005/0112590中的图1为描述利用计算机系统进行的操作的流程图,所述计算机系统进行数据分析以确定满足上述标准的那些序列变异候选物。在第一个操作(由方框102表示)中,利用所属领域技术人员众所周知以及本文描述的技术,使用一种或多种裂解剂将靶分子裂解成数个片段。在接下来的操作(由方框104表示)中,使用相同的一种或多种裂解剂将参考分子实际或虚拟(通过模拟)裂解成数个裂解产物。从由裂解反应产生的裂解产物产生数据,诸如靶序列和参考序列的质谱。可使用所产生的数据,来提取对应于表示靶序列与参考序列之间的差异的片段的序列数据的峰清单。
下一个操作是根据所鉴别的不同片段,确定缩小的序列变异候选物组。此操作由方框106描述。随后对序列变异候选物进行评分(方框108),并根据得分值,鉴别对应于靶序列中的实际序列变异的序列变异候选物。通常,在具有靶序列的样本组中,最高得分表示靶分子中最可能出现的序列变异,但也可以使用其它选择准则,诸如当存在单个靶序列时,检测正得分。
由裂解反应产生的数据包含用于分析分子信息的常规实验室设备的输出。所述输出可以用各种数字数据格式方便得到,诸如纯文本,或按照文字处理格式,或按照专有的计算机数据表示。
如上文所述,根据所鉴别的不同片段确定缩小的序列变异候选物组的方法优选是利用编程计算机进行。US2005/0112590中的图2为描述由计算机系统执行的确定所述缩小的序列变异候选物组的操作的流程图。
在第一个操作(由方框202表示)中,对上述反应数据进行处理,以根据参考序列s和上述特异性裂解反应数据,计算出Ck中的所有有界复合体(c[i,j],b[i,j]),并以索引i,j存储在一起。接下来的操作(由方框204表示)是针对每一不同峰,找出质量与峰质量相差一个足够小的质量差异而合理地接近于所述峰质量的所有复合体。所述足够小的质量差异值是由多个参数确定,包括(但不限于)质量相差单个核苷酸类型或长度的裂解产物之间的峰分离,和质谱仪的绝对分辨率。存储这些复合体作为复合体证据。在鉴别复合体证据后,下一个操作是针对由方框204所鉴别的每一复合体证据c′,找出Ck中的所有有界复合体(c,b),以致D(c′,c,b)≤k。有界复合体操作由方框206表示。方框208表示的操作涉及计算s使用至多k个插入、缺失和取代而成为新参考序列s′的所有序列变异,以致:
如果L在b中,则正好在i位前插入/取代裂解碱基或氨基酸;
如果R在b中,则正好在j位后插入/取代裂解碱基或氨基酸;
使用至多k-#b个插入、缺失和插入,其将具有相应复合体c的片段f=s[i,j]变换成具有相应复合体c′的s′的一些片断f′。
最后一个操作由方框210表示,是产生由方框208计算的每一所述序列变异作为系统输出。此处,d(c,c′)为确定将c转变成c′所需序列变异、多态性或突变(插入、缺失、取代)的最小数量的如本文所定义的函数,其中c为参考分子的一个片段的复合体,并且c′为由c片段突变产生的靶分子的复合体。
字符串s(全长序列)的子字符串(片段)表示为s[i,j],其中i,j为子字符串的开始和结束位置。假设字符串s中碱基、氨基酸或由裂解剂所识别的其它特征X的特异性裂解反应,则子字符串s[i,j]或相应复合体c[i,j]的边界b[i,j]是指指示字符串s的裂解是否不是紧接着子字符串s[i,j]的外侧发生的标志物集合。可能的标志物为L,指示是否“s不是正好在i前裂解”;和R,指示是否“s不是正好在j后裂解”。因此,b[i,j]为集合{L,R}的子集,当且仅当X存在于字符串s的i-1位时,其含有L;并且,当且仅当X存在于字符串s的j+1位时,其含有R。#b表示集合b中元素的数量,视子字符串s[i,j]在两个紧密邻接的位置(即,i-1位和j+1位)、在一个紧密邻接的位置(即,i-1位或j+1位)还是在非紧密邻接的位置(即,不是i-1位和j+1位)特异性裂解而定,所述数量可为0、1或2。b[i,j]为集合{L,R}的子集,并且表示s[i,j]的边界,如以下所定义:
如果s不是正好在i之前和j之后裂解,则b[i,j]:={L,R}
如果s正好在i之前但不在j之后裂解,则b[i,j]:={R}
如果s正好在j之后但不在i之前裂解,则b[i,j]:={L}
如果s正好在i之前和j之后裂解,则b[i,j]:={}
#b[i,j]表示集合b[i,j]中元素的数量。
ord[i,j]是指s[i,j]将在特定裂解反应中裂解的次数;即,s[i,j]中存在的切割字符串数量。
D(c′,c,b):=d(c,c′)+#b是指复合体′c与有界复合体(c,b)′之间的距离;即,由具有复合体c的片段产生具有复合体c′的片段所需的改变(必要时,包括产生切割字符串的子字符串s[i,j]的边界的序列变异)的最小总数。
C:={(c[i,j],b[i,j]):1≤i≤j≤s的长度}是指字符串s内所有有界复合体的集合;即,针对所有可能的子字符串s[i,j],找出有界复合体(c[i,j],b[i,j]),并且其属于集合C。
Ck:={(c[i,j],b[i,j]):1≤i≤j≤s的长度,且ord[i,j]+#b[i,j]≤k}与上述C相同,但将含有超过k个数量的切割字符串序列变异的子字符串的复合体从集合中排除,即,Ck为C的子集。可证实,如果存在含有至多k个插入、缺失和取代的序列变异,并且如果c′为对应于此序列变异的峰证据的复合体,则Ck中存在(c,b),以致D(c′,c,b)≤k。所述算法基于对应于复合体证据的这一缩小的可能序列变异组。
以此方式构建的每一序列变异都将导致产生至少一个在输入的不同峰的清单之外的不同峰。此外,不是由所述算法构建的含有至多k个插入、缺失和插入的每一序列变异,要么是所构建的一个或多个序列变异的并集的超集,要么就不会导致产生在用作算法输入的不同峰的清单之外的任何不同峰。
算法1可重复,不止一种特异性裂解剂相对于一个参考裂解模式产生不止一个靶裂解模式,以及不止一个复合体证据清单。在一个实施例中,最终的输出含有序列变异候选物的集合,其为各裂解反应的各序列变异候选物集合的并集。
算法2:
可使用第二算法来生成各所计算的输出序列变异候选物的模拟光谱。使用下文所述的第三(评分)算法,应用参考序列的参考光谱,针对实际靶光谱,对各序列变异候选物的模拟光谱进行评分。随后可使用得分值(得分越高,匹配越好,并且最高得分通常是最有可能存在的序列变异),确定实际存在于靶核酸序列中的序列变异候选物。
下文提供示范性算法,其中待检测的序列变异为SNP。可以类似方式实施用于检测其它类型序列变异(包括纯合或杂合等位基因变异)的算法。
a)对于各裂解反应,生成来自算法1的给定序列变异候选物的模拟光谱。
b)针对实际靶光谱,对模拟光谱进行评分。
c)将来自给定靶序列的所有裂解反应(优选互补裂解反应)的得分相加。不止一个特异性裂解反应的使用将改进鉴别特定序列变异的精确度。
d)在计算出所有序列变异的所有得分后,根据得分将序列变异分类。
算法2:找出SNP
输入:多个参考序列;一个或多个裂解反应;对于每一裂解反应,一个模拟或实际参考裂解光谱;对于每一裂解反应,在相应样本光谱中所见的峰清单;最大序列变异级数k。
输出:所有SNP候选物的清单,其对应于含有至多k个插入、缺失和取代并且具有不同峰作为证据的序列变异;以及每一所述SNP候选物的得分。
对于每一裂解反应,通过将样本光谱与模拟参考光谱相比较,来提取不同峰的清单。
对于每一裂解反应,利用输入s、当前裂解反应、相应的不同峰的清单和k使用FINDSEQUENCEVARIATIONCANDIDATES(算法1)。
将由FINDSEQUENCEVARIATIONCANDIDATES返回的多个序列变异候选物清单合并成单个清单,去除重复。
对于每一序列变异候选物:
应用序列变异候选物,产生序列s′。
对于每一裂解反应,模拟在给定裂解反应下s′的参考光谱。
利用对应于s,s′的光谱的峰清单以及所测量的样本光谱的峰清单作为输入,使用SCORESNP(算法3),来计算所述裂解反应的序列变异(或SNP)候选物的得分(杂合和纯合)。
将所有裂解反应的得分相加,保持杂合与纯合变异的得分分开。
存储含有序列变异候选物的SNP候选物和其得分;SNP候选物的总得分为其杂合得分和纯合得分的最大值。
根据得分,将SNP候选物分类。
输出SNP候选物和其得分。
评分算法SCORESNP的示范性实施方案如下:
算法3:SNP评分
输入:对应于参考序列s的峰清单(表示为L)、对应于经修饰参考序列s′的峰清单(表示为L′)和对应于样本光谱的峰清单(表示为Ls)。
输出:杂合得分、纯合得分。
将两种得分设为0。
计算强度改变的清单(表示为LDELTA),其包括对应于s,s′的清单中显示差异的那些峰:
如果峰存在于L而非L′中,则将此峰添加到LDELTA中,并将其标为野生型。
如果峰存在于L′而非L中,则将此峰添加到LDELTA中,并将其标为突变型。
如果峰在L和L′中具有不同的预期强度,则将此峰连同从L到L′的预期强度改变而添加到LDELTA中。
对于LDELTA中每一标为突变型且也在Ls中找出的峰,对两种得分加+1。
对于LDELTA中每一标为突变型且在Ls中未找出的峰,对两种得分加-1。
对于LDELTA中每一标为野生型且在Ls中未找出的峰,对纯合得分加+1。
对于LDELTA中每一标为野生型且也在Ls中找出的峰,对纯合得分加-1。
输出两种得分。
所属领域技术人员将显而易见评分函数的其它实施方案。举例来说,一个实施方案将利用不是区分为突变型或野生型的峰。除此之外或作为一个单独特征,另一个实施方案可能考虑L、LDELTA和Ls中的强度。其它示范性参数包括使用称为“野生型”的峰来修改杂合得分;或并入基于实际(所测量)靶序列裂解光谱的置信度的加权函数。优选的实施方案可使用对数似然法(logarithmic likelihood approach)来计算得分。
在一个实施例中,可将预期含有或实际含有相同SNP的不止一个靶序列的得分汇合,而不是使用直接由算法2输出的各潜在SNP的得分。当针对同一参考序列同时分析不止一个靶序列时,可将不同靶序列中所有得分相同的序列变异的得分汇合来计算SNP的汇合得分,而不是独立报告各靶序列的SNP得分。可通过将一种函数应用于得分集来计算汇合得分,所述函数可包括(但不限于)得分最大值、得分总和或其组合。
在计算出所有SNP或其它序列变异候选物和其得分后,可确定得分阈值以便只报告得分等于或高于得分阈值(并因此具有真实的合理机率,即,对应于靶序列中实际序列变异的机率)的那些SNP或序列变异。一般说来,具有最高得分的序列变异将对应于靶序列中的实际序列变异。随后可使用被视为真实的序列变异来修改初始参考峰清单L。接着可使用修改过的峰清单,使用SCORESNP算法对所有其它潜在序列变异或SNP进行再评估(评分),或者在纯合SNP的情况下甚至搜索新的证据。这产生SNP或其它序列变异检测的迭代方法。举例来说,在检测靶序列中不止一个序列变异的迭代方法中,将具有最高得分的序列变异视为实际序列变异,并将对应于此序列变异的信号或峰添加到参考片段光谱中,以生成更新的(updated)参考裂解光谱。随后针对此更新的参考片段光谱对所有剩余的序列变异候选物进行评分,以输出具有次最高得分的序列变异候选物。此第二序列变异候选物也可代表靶序列中的第二实际序列变异。因此,可将对应于第二序列变异的峰添加到参考片段光谱中,以生成第二次更新的参考光谱,可针对此参考光谱,根据得分检测第三序列变异。可重复此迭代过程,直到不再鉴别出代表靶序列中实际序列变异的序列变异候选物。
所述方法可用于任何类型和数量的完全裂解反应,包括2-、11/2-或11/4-碱基切割酶。在另一个实施例中,此方法可用于部分裂解实验。
此方法并不限于SNP和突变检测,而且可用于检测任何类型的序列变异,包括多态性、突变和测序误差。
由于所述算法能够处理纯合样本,故所属领域技术人员将显而易见,其用途可扩展到分析杂合样本或样本混合物。所述“样本混合物”通常包含极低频率的含有序列变异或突变或多态性的靶核酸,而野生型序列高度过量。举例来说,在肿瘤中,引起肿瘤的突变通常存在于肿瘤样本中所存在核酸的不到5-10%之中,所述核酸是不止一种组织类型或细胞类型的异质混合物。类似地,在个体群体中,具有决定例如疾病状态或病态倾向的功能性结果的大部分多态性都以不到5%的低等位基因频率发生。本文提供的方法可以检测高频率序列变异,或可用于检测在不到约5-10%范围内存在的低频率突变、序列变异、等位基因或多态性。
应用
1.微生物鉴别
本文提供一种鉴别微生物和病毒的属、种、品系、克隆或亚型的过程或方法。微生物和病毒选自多种有机体,包括(但不限于)细菌、真菌、原生动物、纤毛虫和病毒。微生物不限于特定属、种、品系、亚型或血清型,或者任何其它类别。可通过相对于一个或多个参考序列或样本测定靶微生物序列中的序列变异,来鉴别微生物和病毒。参考序列可从例如以下来源获得:相同或不同属、种、品系或血清型或者任何其它类别的其它微生物;或宿主原核或真核有机体或任何混合群体。
病原体(例如细菌或病毒)的鉴别和分型对于感染性疾病的临床管理至关重要。使用微生物的确切特性不仅能使疾病状态与健康状态相区分,而且还是确定感染来源和其传播以及确定是否使用抗生素或其它抗微生物疗法进行治疗和使用何种抗生素或其它抗微生物疗法最适于治疗的基础。此外,还可监测治疗。传统的病原体分型方法使用了各种表型特征来鉴别微生物(例如细菌),包括生长特征、颜色、细胞或菌落形态、抗生素敏感性、染色、气味、血清分型和与特定抗体的反应性。所有这些方法都需要培养可疑病原体,而这存在多个严重缺点,包括高材料成本和人力成本、工作人员暴露的危险、由误操作引起的假阳性,和由活细胞数量少或由许多病原体的苛刻培养要求引起的假阴性。此外,培养方法需要相对较长的时间来完成诊断,并且由于所述感染可能危及生命,致使通常在获得结果之前就开始抗微生物疗法。一些有机体无法在培养物中维持,或展现极慢的生长速率(例如对于结核分枝杆菌(Mycobacterium tuberculosis),长达6-8周)。
在许多情况下,病原体存在微量和/或与构成正常菌群的有机体极为类似,并且利用上文引用的方法无法将其与无害菌株相区分。在这些情况下,确定病原菌株的存在会需要本文所提供分子分型方法提供的更高分辨率。举例来说,PCR扩增靶核酸序列,随后通过特异性裂解(例如碱基特异性)进行碱基特异性裂解,接着进行基质辅助激光解吸/电离飞行时间质谱,随后如本文所提供就序列变异进行筛选,能够可靠地区别仅有一个核苷酸不同的序列,并且将所产生序列信息的区别力与MALDI-TOF MS的速度相结合。
2.序列变异检测
提供用于鉴别疾病的基因组学基础和其标志物的改进方法。由本文所提供的方法鉴别的序列变异候选物包括含有多态性序列变异的序列。多态性包括天然存在的体细胞序列变异和由突变引起的序列变异二者。多态性包括(但不限于):局部区域中的一个或多个核苷酸随个体不同而不同的序列微变异体;尺寸可从一个核苷酸到数百万碱基不等的插入和缺失;和重复序列数量不等的微卫星或核苷酸重复序列。核苷酸重复序列包括相同序列重复多次的同源重复,诸如二核苷酸、三核苷酸、四核苷酸或更大重复序列;以及其中发现序列基元重复的异源核苷酸重复序列。对于给定基因座,核苷酸重复序列的数量可视个体而变化。
多态性标志物或位点是出现分歧的基因座。所述位点可小到一个碱基对(SNP)。多态性标志物包括(但不限于)限制性片段长度多态性(RFLP)、可变数量串联重复序列(VNTR)、高变区、小卫星、二核苷酸重复序列、三核苷酸重复序列、四核苷酸重复序列和其它重复模式、简单重复序列和插入元件(诸如Alu)。多态性形式也表现为基因的不同孟德尔等位基因。可通过蛋白质、蛋白质修饰、RNA表达修饰、DNA和RNA甲基化、改变基因表达和DNA复制的调控因子以及基因组核酸或细胞器核酸改变的任何其它表现的差异来观察多态性。
此外,多种基因具有多个多态性区域。由于个体在一个多态性区域中有数个等位基因变异体中的任一个,故可根据基因多态性区域中等位基因变异体的类型鉴别个体。这可用于例如法医学目的。在其它情况下,了解个体所具有的等位基因变异体的身份极为重要。举例来说,骨髓移植中的移植物排斥或移植物抗宿主疾病涉及某些基因(例如主要组织相容性复合物(major histocompatibility complex,MHC)基因)中的等位基因差异。因此,非常需要开发快速、灵敏而准确地确定基因或遗传损害的多态性区域中等位基因变异体的身份的方法。可使用本文所提供的方法或试剂盒,通过确定个体的一个或多个基因或染色体的一个或多个多态性区域中一个或多个等位基因变异体的身份,来对所述个体进行基因分型。使用本文所提供的方法对个体进行基因分型可用于法医学或身份测试目的,并且多态性区域可存在于线粒体基因中,或可为短串联重复序列。
单核苷酸多态性(SNP)一般为双等位基因系统,即,对于任何特定标志物,个体可具有两个等位基因。这意味着当与可具有超过10个等位基因的微卫星标志物相比较时,每一SNP标志物的信息量相对较少。SNP还倾向于具有极高群体特异性;在一个群体中具多态性的标志物可能在另一群体中不具有高多态性。SNP(发现约每千碱基一次)(参看王(Wang)等人(1998)科学(Science)280:1077-1082)提供产生极高密度遗传图谱的潜力,这将特别有用于开发基因或相关区域的单体分型系统,并且由于SNP的性质,致使其事实上可能为与正在研究的疾病表型相关联的多态性。SNP的低突变率也使其成为研究复杂遗传性状的优良标志物。
基因组学的大部分注意力都集中在SNP的鉴别,其重要性是出于多种原因。SNP允许进行间接测试(单倍体关联性)和直接测试(功能性变异体)。SNP是最丰富和稳定的遗传标志物。利用常见遗传改变能很好地解释常见疾病,并且人群中的自然变异能帮助理解疾病、疗法和环境相互作用。
3.检测指示感染的病毒或细菌核酸序列的存在
可使用本文提供的方法,通过相对于一个或多个参考序列鉴别病毒或细菌核酸序列中存在的序列变异,来确定指示感染的病毒或细菌核酸序列的存在。参考序列可包括(但不限于)由相关非感染性有机体获得的序列,或来自宿主有机体的序列。
病毒、细菌、真菌和其它感染性有机体含有截然不同的核酸序列,包括序列变异体,其不同于宿主细胞中所含的序列。靶DNA序列可为外来基因序列(诸如入侵微生物的基因组,所述入侵微生物包括例如细菌和其噬菌体、病毒、真菌、原生动物等)的一部分。本文提供的方法尤其适用于区分微生物的不同变异体或品系(例如病原性、低病原性、抗性与非抗性等),以便例如选择适当的治疗干预。感染人类和动物并且能通过所揭示的方法检测的致病性病毒的实例包括(但不限于)反转录病毒科(Retroviridae)(例如人类免疫缺陷病毒,诸如HIV-1(也称为HTLV-III、LAV或HTLV-III/LAV;雷特纳(Ratner)等人,自然(Nature),313:227-284(1985);莱恩霍伯森(Wain Hobson)等人,细胞(Cell),40:9-17(1985))、HIV-2(谷雅德(Guyader)等人,自然(Nature),328:662-669(1987);欧洲专利公开案第0269520号;查克拉巴提(Chakrabarti)等人,自然(Nature),328:543-547(1987);欧洲专利申请案第0655501号)和其它分离株,诸如HIV-LP(国际公开案第WO 94/00562号));小核糖核酸病毒科(Picornaviridae)(例如脊髓灰质炎病毒(poliovirus)、甲型肝炎病毒(古斯特(Gust)等人,国际病毒学(Intervirology),20:1-7(1983))、肠病毒(enterovirus)、人类柯萨奇病毒(human coxsackie virus)、鼻病毒(rhinovirus)、埃可病毒(echovirus));杯状病毒科(Calcivirdae)(例如引起肠胃炎的病毒株);披膜病毒科(Togaviridae)(例如马脑炎病毒(equine encephalitis virus)、风疹病毒(rubella virus));黄病毒科(Flaviridae)(例如登革病毒(dengue virus)、脑炎病毒(encephalitis virus)、黄热病毒(yellow fever virus));冠状病毒科(Coronaviridae)(例如冠状病毒(coronavirus));弹状病毒科(Rhabdoviridae)(例如水泡口炎病毒(vesicular stomatitis virus)、狂犬病病毒(rabies virus));丝状病毒科(Filoviridae)(例如埃博拉病毒(ebola virus));副粘病毒科(Paramyxoviridae)(例如副流感病毒(parainfluenza virus)、腮腺炎病毒(mumps virus)、麻疹病毒(measles virus)、呼吸道合胞病毒(respiratory syncytial virus));正粘病毒科(Orthomyxoviridae)(例如流感病毒);布尼亚病毒科(Bungaviridae)(例如汉滩病毒(Hantaan virus)、布尼亚病毒(bungavirus)、白蛉热病毒(phlebovirus)和内罗病毒(Nairo virus));沙粒病毒科(Arenaviridae)(出血热病毒(hemorrhagic fever virus));呼肠孤病毒科(Reoviridae)(例如呼肠弧病毒(reovirus)、环状病毒(orbivirus)和轮状病毒(rotavirus));双RNA病毒科(Birnaviridae);嗜肝DNA病毒科(Hepadnaviridae)(乙型肝炎病毒);细小病毒科(Parvoviridae)(细小病毒(parvovirus));乳多空病毒科(Papovaviridae);嗜肝DNA病毒科(乙型肝炎病毒);细小病毒科(大部分腺病毒);乳多空病毒科(乳头状瘤病毒(papilloma virus)、多瘤病毒(polyoma virus));腺病毒科(Adenoviridae)(大部分腺病毒);疱疹病毒科(Herpesviridae)(1型单纯疱疹病毒(herpes simplex virus type 1,HSV-1)和HSV-2、带状疱疹病毒(varicella zoster virus)、巨细胞病毒(cytomegalovirus)、疱疹病毒(herpesvirus));痘病毒科(Poxviridae)(天花病毒(variola virus)、牛痘病毒(vaccinia virus)、痘病毒(pox virus));虹彩病毒科(Iridoviridae)(例如非洲猪瘟病毒(African swine fevervirus));和未分类病毒(例如海绵状脑病(Spongiform encephalopathy)的病原体;丁型肝炎(delta hepatitis)的病原体(被认为是乙型肝炎病毒的缺陷型卫星);非甲型、非乙型肝炎的病原体(1类=内部传播;2类=肠道外传播,即,丙型肝炎));诺瓦克病毒(Norwalk)和相关病毒;以及星状病毒(astrovirus)。
感染性细菌的实例包括(但不限于)幽门螺旋杆菌(Helicobacter pyloris)、伯氏疏螺旋菌(Borelia burgdorferi)、嗜肺军团菌(Legionella pneumophilia)、分枝杆菌属(Mycobacteria sp.)(例如结核分枝杆菌(M.tuberculosis)、鸟分枝杆菌(M.avium)、胞内分枝杆菌(M.intracellulare)、堪萨斯分枝杆菌(M.kansaii)、戈登分枝杆菌(M.gordonae))、沙门菌(Salmonella)、金黄色葡萄球菌(Staphylococcus aureus)、淋病奈瑟菌(Neisseria gonorrheae)、脑膜炎奈瑟菌(Neisseria meningitidis)、单核细胞增生李斯特氏菌(Listeria monocytogenes)、化脓性链球菌(Streptococcus pyogene)(A群链球菌)、无乳链球菌(Streptococcus agalactiae)(B群链球菌)、链球菌属(草绿色群(viridansgroup))、粪链球菌(Streptococcus faecalis)、牛链球菌(Streptococcus bovis)、链球菌属(厌氧菌种)、肺炎链球菌(Streptococcus pneumoniae)、病原性弯曲杆菌属(pathogenicCampylobacter sp.)、肠球菌属(Enterococcus sp.)、流感嗜血杆菌(Haemophilusinfluenzae)、炭疽杆菌(Bacillus antracis)、白喉杆菌(Corynebacterium diphtheriae)、棒状杆菌属(Corynebacterium sp.)、红斑丹毒丝菌(Erysipelothrix rhusiopathiae)、产气荚膜梭菌(Clostridium perfringens)、破伤风梭菌(Clostridium tetani)、大肠杆菌(Escherichia coli)、产气肠杆菌(Enterobacter aerogenes)、肺炎克氏杆菌(Klebsiellapneumoniae)、多杀性巴氏杆菌(Pasturella multocida)、拟杆菌属(Bacteroides sp.)、具核梭杆菌(Fusobacterium nucleatum)、念珠状链杆菌(Streptobacillus moniliformis)、梅毒密螺旋菌(Treponema pallidium)、细弱密螺旋菌(Treponema pertenue)、钩端螺旋菌(Leptospira)以及伊氏放线菌(Actinomyces israelii)和任何变异体,包括抗生素抗性变异体。
感染性真菌的实例包括(但不限于)新型隐球菌(Cryptococcus neoformans)、荚膜组织胞浆菌(Histoplasma capsulatum)、粗球孢子菌(Coccidioides immitis)、皮炎芽生菌(Blastomyces dermatitidis)、砂眼披衣菌(Chlamydia trachomatis)、白色念珠菌(Candidaalbicans)。其它感染性有机体包括原生生物,诸如恶性疟原虫(Plasmodium falciparum)和弓形虫(Toxoplasma gondii)。
4.抗生素谱分析(Antibiotic Profiling)
本文所提供的特异性裂解模式的分析可改进抗药性(包括抗生素抗性)所涉及的核苷酸改变的检测速度和准确性。已鉴别出异烟肼(isoniazid)、利福平(rifampin)、链霉素(streptomycin)、氟喹诺酮类(fluoroquinolones)和乙硫异烟胺(ethionamide)抗性所涉及的遗传基因座[赫姆(Heym)等人,柳叶刀(Lancet)344:293(1994);和莫里斯(Morris)等人,感染性疾病杂志(J.Infect.Dis.)171:954(1995)]。异烟肼(inh)和利福平(rif)连同吡嗪酰胺(pyrazinamide)和乙胺丁醇(ethambutol)或链霉素的组合常被用作针对结核分枝杆菌确认病例的第一线攻击[班杰伊(Banerjee)等人,科学(Science)263:227(1994)]。所述抗性菌株发生率的增加需要开发快速检定法来检测它们,并借此降低费用和实行无效且可能有害治疗所带来的公众健康危害。抗药性所涉及的一些遗传基因座的鉴别促进了突变检测技术的采用,以快速筛选导致抗药性的核苷酸改变。此外,所述技术可促进治疗监测和跟踪,或治疗期间的微生物群体结构以及监视监测。此外,可进行混合群体的相关性和监视监测。
5.鉴别疾病标志物
本文提供快速而准确地鉴别作为疾病的遗传标志物的序列变异的方法,其可用于诊断疾病或确定疾病的预后。以遗传标志物为特征的疾病可包括(但不限于)动脉粥样硬化、肥胖症、糖尿病、自身免疫病症和癌症。所有有机体中的疾病(无论是遗传的,还是由身体对诸如病毒和毒素等环境压力的反应而引起)都具有遗传成分。正在进行的基因组研究最终目标是使用此信息来开发鉴别、治疗和可能治愈这些疾病的新方式。第一步一直是筛选患病组织,并在个别样本的水平上鉴别基因组改变。这些“疾病”标志物的鉴别依赖于检测基因组标志物的改变以便鉴别不定基因(errant gene)或序列变异体的能力。基因组标志物(所有遗传基因座,包括单核苷酸多态性(SNP)、微卫星和其它非编码基因组区域、串联重复序列、内含子和外显子)可用于鉴别所有有机体,包括人类。这些标志物提供一种不仅能鉴别群体而且还允许根据其对疾病的反应、药物治疗、环境因素抗性和其它因素进行群体分层的方式。
6.单体分型(Haplotyping)
本文提供的方法可用于检测单倍体。在任何二倍体细胞中,在任一基因或其它染色体区段上存在含有至少一个可区分方差的两个单倍体。在许多充分研究的遗传系统中,单倍体与表型的相关性比单核苷酸变异强大。因此,测定单倍体对于了解多种表型的遗传基础很有价值,所述表型包括病态倾向或疾病易感性、对治疗干预的反应,以及医学、畜牧业和农业中的其它相关表型。
本文所提供的单体分型工序允许从个体的两个同源染色体中的一个中选出一部分序列,并对所述部分序列上的连锁SNP进行基因分型。直接分辨单倍体可使信息量增加,从而改进任何连锁疾病基因的诊断,或鉴别与所述疾病的联系。
7.微卫星
本文提供的基于裂解的方法允许快速、明确地检测微卫星序列变异。微卫星(有时称为可变数量串联重复序列或VNTR)是具有1到7个或更多个碱基的短串联重复核苷酸单元,其中最突出的是二、三和四核苷酸重复序列。基因组DNA中每100,000bp存在一个微卫星(J.L.维博(J.L.Weber)和P.E.肯(P.E.Can),美国人类遗传学杂志(Am.J.Hum.Genet.)44,388(1989);J.维森贝奇(J.Weissenbach)等人,自然(Nature)359,794(1992))。举例来说,CA二核苷酸重复序列占人类线粒体外基因组约0.5%;CT和AG重复序列共占约0.2%。CG重复序列很罕见,这最可能归因于CpG岛的调控功能。微卫星就长度来说具有高多态性,并且广泛分布于整个基因组中(其中在非编码序列中含量丰富),但其在基因组内的功能仍未知。
由于一个群体会保持作为这一群体的特征并且与未进行品种间杂交的其它群体截然不同的多个微卫星,因此微卫星对于法医学应用很重要。
微卫星内的许多改变可为沉默的,但一些会导致基因产物或表达水平的明显改变。举例来说,在一些肿瘤中,基因编码区中所见的三核苷酸重复序列受到影响(C.T.卡斯奇(C.T.Caskey)等人,科学(Science)256,784(1992)),并且微卫星的改变可导致遗传不稳定性,而这又会引起患癌症的倾向(P.J.米奇曼(P.J.McKinnen),人类遗传学(Hum.Genet.)175,197(1987);J.杰曼(J.German)等人,临床遗传学(Clin.Genet.)35,57(1989))。
8.短串联重复序列
可使用本文提供的方法,相对于例如人类基因组中不含短串联重复序列(STR)区域的参考序列,鉴别人类基因组中一些靶序列中的STR区域。STR区域是与任何疾病或病况无关的多态性区域。人类基因组中的许多基因座都含有多态性短串联重复序列(STR)区域。STR基因座含有3到7个碱基对长的短重复序列元件。据估计,存在200,000个预期的三聚体和四聚体STR,其在人类基因组中的存在频率达每15kb一个(例如参看国际PCT申请案第WO 9213969A1号;爱德华兹(Edwards)等人,核酸研究(Nucl.Acids Res.)19:4791(1991);贝克曼(Beckmann)等人(1992)基因组学(Genomics)12:627-631)。这些STR基因座中几乎一半都具有多态性,从而提供丰富的遗传标志物来源。特定基因座处重复单元数量的变化引起所观察的序列变异,就像可变核苷酸串联重复序列(VNTR)基因座(中村(Nakamura)等人(1987)科学(Science)235:1616-1622);和小卫星基因座(杰夫雷(Jeffreys)等人(1985)自然(Nature)314:67-73),其含有较长重复单元;和微卫星或二核苷酸重复序列基因座(鲁提(Luty)等人(1991)核酸研究(Nucleic Acids Res.)19:4308;利特(Litt)等人(1990)核酸研究(Nucleic Acids Res.)18:4301;利特(Litt)等人(1990)核酸研究(Nucleic Acids Res.)18:5921;鲁提(Luty)等人(1990)美国人类遗传学杂志(Am.J.Hum.Genet.)46:776-783;陶兹(Tautz)(1989)核酸研究(Nucleic Acids Res.)17:6463-6471;维博(Weber)等人(1989)美国人类遗传学杂志(Am.J.Hum.Genet.)44:388-396;贝克曼(Beckmann)等人(1992)基因组学(Genomics)12:627-631)。VNTR分型是进行微生物分型(例如结核分枝杆菌)的完善工具。
STR基因座的实例包括(但不限于)人类CD4基因座中的五核苷酸重复序列(爱德华兹(Edwards)等人,核酸研究(Nucleic Acids Res.)19:4791(1991));人类芳香酶细胞色素P-450基因中的四核苷酸重复序列(CYP19;波利摩罗普洛斯(Polymeropoulos)等人,核酸研究(Nucleic Acids Res.)19:195(1991));人类凝血因子XIII A亚基基因中的四核苷酸重复序列(F13A1;波利摩罗普洛斯(Polymeropoulos)等人,核酸研究(NucleicAcids Res.)19:4306(1991));F13B基因座中的四核苷酸重复序列(西村(Nishimura)等人,核酸研究(Nucleic Acids Res.)20:1167(1992));人类c-les/fps原癌基因中的四核苷酸重复序列(FES;波利摩罗普洛斯(Polymeropoulos)等人,核酸研究(Nucleic AcidsRes.)19:4018(1991));LFL基因中的四核苷酸重复序列(祖莱尼(Zuliani)等人,核酸研究(Nucleic Acids Res.)18:4958(1990));人类胰磷酯酶A2基因处的三核苷酸重复序列变异(PLA2;波利摩罗普洛斯(Polymeropoulos)等人,核酸研究(Nucleic Acids Res.)18:7468(1990));VWF基因中的四核苷酸重复序列变异(普洛斯(Ploos)等人,核酸研究(Nucleic Acids Res.)18:4957(1990));和人类甲状腺过氧化物酶(hTPO)基因座中的四核苷酸重复序列(安柯(Anker)等人,人类分子遗传学(Hum.Mol.Genet.)1:137(1992))。
9.有机体鉴别
多态性STR基因座和基因的其它多态性区域是用于以下的极有用标志物的序列变异:人类鉴别、亲子鉴定和母亲身份鉴定、遗传定位、移民纠纷和继承纠纷、双生子卵型鉴定、人类近亲繁殖的测试、人类培养细胞的质量控制、尸骸鉴别以及精液样本、血斑、微生物和法医学其它材料的测试。所述基因座也是商业动物育种和系谱分析以及商业植物育种的有用标志物。可使用多态性DNA标志物,通过连锁分析来鉴别农作物和动物中具有经济价值的性状。本文提供有效而准确地确定所述基因座身份的方法。
10.检测等位基因变异
本文提供的方法允许高通量、快速而准确地检测等位基因变异体。等位基因变异的研究不仅涉及复杂背景中特定序列的检测,而且还涉及具有少量或单个核苷酸差异的序列之间的区别。一种通过PCR检测等位基因特异性变异体的方法基于以下事实:当模板链与引物3′端之间存在错配时,Taq聚合酶难以合成DNA链。可利用只与一个可能的等位基因完美匹配的引物来检测等位基因特异性变异体;与另一等位基因的错配可阻止引物延伸,从而阻止所述序列的扩增。本方法有一个相当大的局限性,即,错配的碱基组合物会影响阻止跨过错配而延伸的能力,并且某些错配不阻止延伸,或只具有极小影响(考沃克(Kwok)等人,核酸研究(Nucl.Acids Res.),18:999[1990]))。本文提供的基于裂解的方法克服了引物延伸法的局限性。
11.测定等位基因频率
本文所述的方法对于鉴别一个或多个在群体内频率随年龄、种族、性别或一些其它标准而改变的遗传标志物具有价值。举例来说,所属领域中已知ApoE基因型的年龄依赖性分布(参看斯奇特(Schchter)等人(1994)自然-遗传学(Nature Genetics)6:29-32)。已知在一定程度上与疾病相关的序列变异的频率还可用于检测或监测疾病状态的进展。举例来说,脂蛋白脂酶基因的N291S多态性(N291S)(其导致氨基酸密码子291处的精氨酸被丝氨酸取代)引起高密度脂蛋白胆固醇(HDL-C)的含量降低,这与男性动脉硬化并且尤其是心肌梗塞的风险增加相关(参看雷默(Reymer)等人(1995)自然-遗传学(Nature Genetics)10:28-34)。此外,确定等位基因频率的改变能够鉴别先前未知的序列变异以及最终涉及疾病发作和进展的基因或路径。
12.表观遗传学
本文提供的方法可用于研究相对于参考核酸或蛋白质,靶核酸或蛋白质中并非基于序列(例如作为所述核酸或蛋白质的天然存在单体单元的碱基或氨基酸的身份)的变异。举例来说,本文提供的方法中所使用的特异性裂解剂可识别序列非依赖性特征(诸如甲基化模式、经修饰碱基或氨基酸的存在,或靶分子与参考分子之间高级结构的差异)的差异,产生在序列非依赖性位点裂解的片段。表观遗传学基于基因表达差异而非基因序列差异的信息遗传性的研究。表观遗传改变是指基因功能的有丝分裂和/或减数分裂的可遗传改变或无法由核酸序列的改变解释的高级核酸结构的改变。经历表观遗传变异或改变的特征的实例包括(但不限于)动物的DNA甲基化模式、组蛋白修饰和多梳-三胸家族(Pc-G/tx)蛋白质复合物(例如参看A.波德(Bird,A.),基因与发育(Genes Dev.),16:6-21(2002))。
表观遗传改变通常(但非必需)导致一般(但非必需)可遗传的基因表达改变。举例来说,如下文进一步论述,甲基化模式的改变是癌症以及其它疾病发展和进展的早期事件。在许多癌症中,某些基因由于异常甲基化而不适当地关闭或开启。甲基化模式阻遏或活化转录的能力可遗传。Pc-G/trx蛋白质复合物(如甲基化)可以可遗传的方式阻遏转录。Pc-G/trx多蛋白组装体靶向基因组的特定区域,在那里有效固定一种基因的胚胎基因表达状态(无论所述基因有无活性),并通过发育使所述状态稳定繁殖。Pc-G/trx家族的蛋白质靶向和结合基因组的能力只影响基因组中所含基因的表达水平,而不影响基因产物的特性。本文提供的方法可与特异性裂解剂一起使用,所述裂解剂鉴别相对于参考序列,靶序列中基于序列非依赖性改变(诸如表观遗传改变)的变异。
13.甲基化模式
本文所提供的方法可用于检测靶序列中作为表观遗传改变(诸如靶序列中甲基化模式的改变)的序列变异。细胞甲基化的分析是一门新兴的研究学科。甲基到半胱氨酸的共价加成主要存在于CpG二核苷酸(微卫星)处。尽管不在启动子区中的CpG岛的功能仍有待研究,但在启动子区中的CpG岛特别引人注目,这是因为其甲基化状态调控相关基因的转录和表达。启动子区的甲基化引起基因表达的沉默。此沉默是持久的,并且持续有丝分裂的整个过程。由于DNA甲基化在基因表达中的重要作用,其可影响发育过程、印记(imprinting)和X染色体失活以及肿瘤发生、老化和对寄生DNA的抑制。人们认为甲基化涉及诸如肺癌、乳腺癌和结肠癌、淋巴瘤等许多广泛分布的肿瘤的癌发生。甲基化与蛋白质功能障碍(长Q-T综合征)或代谢疾病(新生儿暂时性糖尿病,2型糖尿病)之间也存在联系。
可利用基因组DNA的亚硫酸氢盐处理来分析DNA内甲基化胞嘧啶残基的位置。用亚硫酸氢盐处理核酸,会使胞嘧啶残基脱胺成为尿嘧啶残基,而甲基化胞嘧啶仍保持未修饰。因此,通过在本文所提供的方法中比较未经亚硫酸氢盐处理的靶核酸的序列与经亚硫酸氢盐处理的所述核酸的序列,可推导出核酸甲基化的程度以及胞嘧啶甲基化的位置。
使用具有甲基化特异性识别位点的限制性酶(诸如HpaII和MSPI),使得可能经由限制性核酸内切酶反应进行甲基化分析。基本原理为:识别序列中的甲基化胞嘧啶会阻断某些酶。在完成此区别后,即可使用本文提供的方法进行所得片段的后续分析。
这些方法可与亚硫酸氢盐限制性分析(COBRA)一起组合使用。用亚硫酸氢盐处理引起扩增PCR产物中BstUI识别位点的损失,与未经处理的样本相比,其产生新的可检测片段出现在分析上。本文提供的基于裂解的方法可与甲基化位点的特异性裂解结合使用,以提供有关靶核酸序列中甲基化模式的快速、可靠的信息。
14.重测序
各种有机体中可用基因组序列信息量的急剧增多,增加了对于能够进行大规模序列比较分析以将序列信息与功能、表型或特性相关联的技术的需要。所述序列比较分析技术的应用广泛,包括SNP发现和病原体的序列特异性鉴别。因此,重测序和高通量突变筛选技术对于鉴别致病性突变以及引起差别药物反应的遗传变异性至关重要。
为了满足这些要求,人们开发出了数种方法。当前的高通量DNA测序技术包括使用电泳和激光诱导荧光检测的DNA测序仪。基于电泳的测序方法在检测杂合子方面具有固有局限性,并且受到GC压缩的不利影响。因此,在不使用电泳的情况下产生数字数据的DNA测序平台将克服这些问题。基质辅助激光解吸/电离飞行时间质谱(MALDI-TOF MS)利用数字数据输出来测量DNA片段。本文提供的特异性裂解断裂分析方法允许高通量、高速且高准确性地检测相对于参考序列的序列变异。此方法使得可能常规使用MALDI-TOF MS测序进行准确突变检测,诸如就BRCA1和BRCA2中与乳腺癌的发展有关的始创突变(founder mutation)进行筛选。
15.多重化
本文提供的方法允许相对于一个或多个参考序列,高通量检测或发现多个靶序列中的序列。多重化是指同时检测不止一个序列、多态性或序列变异。已知进行多重反应、尤其结合质谱法进行多重反应的方法(例如参看美国专利第6,043,031号、第5,547,835号;和国际PCT申请案第WO 97/37041号)。
例如,可使用本文提供的不同互补特异性裂解反应对同一靶核酸序列进行多重化,或者对不同靶核酸序列进行多重化,并且又可针对多个参考核酸序列分析裂解模式。也可使用本文提供的方法,在一个靶序列上同时检测数个突变或序列变异,其中相对于参考核酸序列的裂解模式,各序列变异对应于不同裂解产物。多重化提供的优势在于,与须对每一个别序列变异进行单独质谱分析相比较,可以少到单个质量光谱来鉴别多个序列变异。本文提供的方法使其参与高速而准确地分析序列变异的高通量、高度自动化过程。还提供检测群体中序列变异的混合群体分析。
16.疾病爆发监测
在全球运输和旅行的今天,致病性地方病的爆发需要密切监测以防其全球蔓延并能够加以控制。通过高通量技术进行的基于DNA的分型使得能视爆发情况的需要(例如医院环境、预警系统的监测),在相对较短的时间内实现快速样本通量(rapid samplethroughput)。监测与所用微生物标志物区域有关,但能便利属、种、品系或亚型特异性水平上的监测。增加生物防御应用、宏基因组学(metagenomics)中的应用(例如肠道菌群的分析)。所述治疗进展或失败的监测描述于美国专利第7,255,992号、美国专利第7,217,510号、美国专利第7,226,739号和美国专利第7,108,974号中,所述专利以引用的方式并入本文中。
17.疫苗质量控制和生产克隆(production clone)质量控制
本技术可用于控制重组生产克隆的特性,所述克隆可为疫苗,或例如胰岛素或任何其它生产克隆或者生物或医药产品。
18.制药中生产控制和质量控制(QC)的微生物监测
系统和软件
还提供使用经编程来实行本文所述的序列比较分析的计算机自动进行序列比较方法的系统。所述方法可例如利用以下计算机系统,并使用以下计算、系统和方法来实施。
示范性自动测试系统含有核酸工作站,其包括分析仪器,诸如凝胶电泳设备或质谱仪,或测定样本中核酸分子的质量的其它仪器;和用于裂解数据分析的计算机,其能够与分析仪器通信(例如参看美国专利申请案第09/285,481号、第09/663,968号和第09/836,629号;有关自动化系统的实例,还参看国际申请案第WO 00/60361号)。在一个实施例中,所述计算机为台式计算机系统,诸如在微软公司(Microsoft Corporation)的“Microsoft Windows”操作系统或苹果计算机公司(Apple Computer,Inc.)的“Macintosh”操作系统控制下操作的计算机,其与使用已知通信标准的仪器(诸如并行接口或串行接口)通信。
举例来说,提供分析核酸样本的系统。所述系统包括处理站,其实行本文所述的碱基特异性或其它特异性裂解反应;机器人系统,其将所得裂解片段从处理站运送到质量测量站,在质量测量站中测定反应的产物的质量;和数据分析系统,诸如经编程来使用裂解数据鉴别靶核酸序列中的序列变异的计算机,所述数据分析系统处理来自质量测量站的数据以鉴别一个样本或多个样本中的一个或多个核苷酸。所述系统还可包括控制系统,其确定在各站的处理何时完成并作出响应而将样本移到下一测试站,并连续一个接一个处理样本,直到控制系统接收到停止指令。
图17为实行样本处理和实行本文所述的操作的系统的方块图。系统300包括核酸工作站302和分析计算机304。在核酸工作站,接收一个或多个分子样本305,并准备在处理站306进行分析,在处理站306中将发生上述裂解反应。随后样本移到质量测量站308,诸如质谱仪,在其中进行进一步样本处理。样本优选通过计算机控制的机器人装置310从样本处理站306移到质量测量站308。
机器人装置可包括确保在两个处理站306、308之间移动的子系统,其将保持样本305的完整性并确保有效的测试结果。所述子系统可例如包括机械升降装置或臂,其可从样本处理站306拾取样本,移到质量测量站308,随后放下处理过的样本以进行质量测量操作。随后,机器人装置310可再移动测量过的样本,并采取适当行动,从处理站306移出下一处理过的样本。样本制备可整合到样本运送工具中或测量站中,并且在所述实施例中,可任选使用升降装置或臂。在某些实施例中,可在机器人装置上或其中处理样本,并且在一些实施例中,完整系统是一个完全整合式平台。
质量测量站308产生鉴别和定量所测量的样本305的分子组成的数据。所属领域技术人员将熟知可用于产生测量数据的分子测量系统,诸如质谱仪。通过将测量结果手工录入分析计算机304,或通过质量测量站308与分析计算机304之间的通信,将数据从质量测量站提供到分析计算机。举例来说,质量测量站308与分析计算机304可经由网络312互连,以致可通过分析计算机获得由质量测量站产生的数据。网络312可包含局域网(local area network,LAN),或无线通信信道,或适于计算机与计算机间的数据交换的任何其它通信信道。
分析计算机304的测量处理功能和核酸工作站302的控制功能可视需要并入单个计算机装置中。例如,利用所述配置,可使用单个通用计算机控制机器人装置310并实行数据分析计算机304的数据处理。类似地,可在单个计算机的控制下,实行质量测量站的处理操作和样本处理站306的样本处理操作。
因此,如果计算装置具有与任何适当子系统(诸如机器人装置310的机械臂)的合适接口,并且具有合适的处理能力来控制所述系统并实行数据处理,则可利用多种计算装置实行所述工作站和计算机302、304、306、308、310的处理和分析功能。
数据分析计算机304可为分析仪器或另一系统组件的一部分,或其可在远端位置。计算机系统可例如通过广域网络或局域通信网络或其它合适的通信网络与所述仪器通信。所述利用计算机的系统经编程而自动实行本文方法的各个步骤和必要的计算。对于使用基于所用裂解剂和经修饰碱基或氨基酸的预测裂解模式(参考或靶序列)的实施例,用户输入序列或测量参考样本,以获得由所述系统产生的预测裂解产物的质量。用户可通过键盘,或通过由网络连接所链接的其它计算机或计算机系统,或在可移动存储媒体(诸如数据CD、小型磁盘(MD)、DVD、软盘或其它合适的存储媒体)上,直接输入这些数据。接下来,用户起动操作所述系统的执行软件,其中将鉴别靶核酸序列与参考核酸序列之间的裂解产物差异。
多个所述系统可网络化,并且可输入全球数据库。
图18为图17的系统300中的计算机的方块图,描述计算机中所包括的硬件组件,其可提供所述工作站和计算机302、304、306、308的功能。所属领域技术人员将了解,图17中所述的工作站和计算机可都具有类似计算机构造,或可具有与本文所述的能力和相应功能一致的替代构造。图18的构造特别适于图17中所述的数据分析计算机304。
图18展示示范性计算机400,诸如其可能包含控制工作站和分析计算机302、304、306、308中任一者的操作的计算机。各计算机400都是在中央处理单元(central processorunit,CPU)402(诸如“奔腾(Pentium)”微处理器)和相关集成电路芯片(可自美国加州圣克拉拉的英特尔公司(Intel Corporation of Santa Clara,Calif.,USA)购得)的控制下操作。计算机用户可通过键盘和计算机鼠标404输入命令和数据,并且可在显示器406中查看输入和计算机输出。所述显示器通常为视频监测器或平板显示器。计算机400还包括直接存取存储装置(direct access storage device,DASD)408,诸如硬盘驱动器。计算机包括存储器410,其通常包含挥发性半导体随机存取存储器(RAM)。各计算机优选包括程序产品读取器412,其接受程序产品存储装置414,所述程序产品读取器可从所述存储装置读取数据(并且其可任选写入数据)。程序产品读取器可包含例如磁盘驱动器,并且程序产品存储装置可包含可移动存储媒体,诸如软磁盘、CD-R光盘、CD-RW光盘或DVD光盘。
各计算机400可通过网络接口418经由计算机网络420(诸如局域网312或互联网或内联网)与图17的其它系统通信,所述网络接口418使得网络420与计算机之间能够经由连接422进行通信。网络接口418通常包含例如网络接口卡(NIC),其允许经由多种网络连同相关网络接入子系统(诸如调制解调器)进行通信。
CPU 402在暂时存储于计算机400的存储器410中的编程指令的控制下操作。当执行编程指令时,计算机实行其功能。因此,编程指令实施相应工作站或处理器的功能。可从DASD 408、通过程序产品存储装置414或通过网络连接422,接收编程指令。程序产品存储驱动器412可接收程序产品414,读取其上记录的编程指令,并将所述编程指令传送到存储器410中,以供CPU 402执行。如上文所述,程序产品存储装置可包含记录有计算机可读指令的多种可移动媒体中的任一种,包括软磁盘和CD-ROM存储光盘。其它合适的程序产品存储装置可包括磁带和半导体存储芯片。以此方式,可在程序产品上将根据本文的方法和揭示内容操作所需的处理指令具体化。
或者,可经由网络420将程序指令接收到操作存储器410中。在网络方法中,在利用所属领域技术人员了解的众所周知的方法(不再进一步解释),经由网络连接422建立网络通信后,计算机400通过网络接口418将数据(包括程序指令)接收到存储器410中。随后由CPU 402执行程序指令,由此包含计算机处理。
应了解,图17中所述系统300的所有工作站和计算机都可具有与图18中所示类似的构造,以致关于图18的计算机400所述的细节应理解为适用于系统300的所有计算机。应了解,任何通信站和计算机都可具有替代构造,只要其可与图17中所述的其它通信站和计算机进行通信并能支持本文所述的功能即可。举例来说,如果一个工作站将不会从程序产品装置接收程序指令,则这个工作站就不必包括这一能力,并且这个工作站也将不必具有图18中所述的与这一能力相关的元件。
实例
以下实例描述本发明,但不对其构成限制。
感染性病原体的准确表征对于例如流行病学监视和公共卫生决策,诸如爆发识别、病原体交叉传播(cross-transmission)的检测、感染源的确定、特强毒株的识别和监测接种程序必不可少。尽管惯常利用诸如形态学和生理学特性等表型特征来表征微生物,但核酸分析技术为现代分型方法奠定了基础。表型标志物经历遗传调控并对诸如培养、次培养和保存条件等环境刺激起反应,而基于适当核酸的表征方法可提供稳定的样本指纹,这对于全球可比性和系统发生分析很重要。
近来,基于微生物DNA的鉴别和分型不断发展和盛行。多种应用通常在本质上是高通量的,并且适当分型方法需要准确性、再现性和实验室自动化(克拉克(Clarke)2002)。
常用核酸分析工具基于凝胶电泳或指纹分析,并且依赖电泳迁移率。脉冲场凝胶电泳(Pulse-field gel electrophoresis,PFGE)因具有区别相关与不相关分离株的能力,而成为使用最广泛的方法。已建立世界范围的标准化方案和参考数据库,但对于经典指纹分析,此技术的问题仍然存在。这些问题涵盖模糊谱带的人工评分、可变信号强度、电泳图谱的背景噪声、高分子量和低分子量谱带的不同迁移率、具有相等尺寸的两个谱带遗传特性的不确定性以及凝胶之间的扭曲。结果和数据可移植性(portability)的数字格式也面临挑战,并且在全球基础上不易获得。长达3天的处理时间降低分析大量样本的能力(奥利文(Olive)和本恩(Bean)1999)。全基因组比较测序的新技术(诸如全基因组DNA微阵列)相当昂贵,并且使用不方便,以致无法在自动化高通量情况下比较大量分离株。
已对大量基于DNA的其它技术就其在流行病学中的适用性进行研究。这些技术包括单核苷酸多态性(SNP)检测、核糖分型(ribotyping)、插入序列(IS)图谱、可变数量串联重复序列(VNTR)分析,或其组合。已描述通过电喷雾质谱法进行的短扩增产物(例如约100bp PCR产物)的核苷酸组成分析,其中使用所检测的产物质量来确定有限的核苷酸组成的清单,以供微生物鉴别。可检测序列变异,但不能对其进行定位或将其转变成新序列(M.N.范恩特(Van Ert,M.N.),S.A.霍夫泰德(Hofstadler,S.A.),Y.蒋(Jiang Y.),J.D.布奇(Busch,J.D.),D.M.瓦格纳(Wagner,D.M.),J.J.德拉德(DraderJ.J.),D.J.埃克(Ecker,D.J.),J.C.翰尼斯(Hannis,J.C),L.Y.黄(Huynh,L.Y.),J.M.斯奇普(Schupp,J.M.)等人(2004),生物技术(Biotechniques)37,642-644;R.萨帕斯(Sampath,R.),S.A.霍斯泰德勒(Hofstadler,S.A.),L.B.比利恩(Blyn,L.B.),M.W.埃斯霍(Eshoo,M.W.),T.A.霍尔(Hall,T.A.),C.马塞尔(Massire,C),H.M.利文尼(Levene,H.M.),J.C.翰尼斯(Hannis,J.C),P.M.哈瑞尔(Harrell,P.M.),B.纽曼(Neuman,B.)等人(2005)新兴感染性疾病(Emerg Infect Dis)11,373-379;J.A.埃克尔(Ecker,J.A.),C.马塞尔(Massire,C),T.A.霍尔(Hall,T.A.),R.雷肯(Ranken,R.),T.T.潘尼拉(Pennella,T.T.),C.阿格斯诺埃维(Agasino Ivy,C),L.B.比利恩(Blyn,L.B.),S.A.霍斯泰德勒(Hofstadler,S.A.),T.P.安迪(Endy,T.P.),P.T.斯科特(Scott,P.T.)等人(2006)临床微生物学杂志(J Clin Microbiol)44,2921-2932)。
传统的表征病原微生物并监测其全球传播的微生物分型技术通常很难标准化,移植性不良并且缺乏使用方便性、高通量和自动化。
为克服这些问题,此处引入一种利用MALDI-TOF(基质辅助激光解吸电离飞行时间)质谱的序列比较分析方法来进行基于高通量分子的自动微生物分析。由公共MLST数据库(万维网URL“pubmlst.org/neisseria/”)得到的多基因座序列数据建立了模拟峰型的参考数据集。使用模型病原体脑膜炎奈瑟菌来验证所述技术并研究其作为双脱氧测序的替代的适用性。通过将标准MLST基因座的MALDI-TOF MS指纹与公共MLST数据库中可得的参考序列相比较,来对100个脑膜炎奈瑟菌样本进行分型。鉴别结果与经典的双脱氧测序相符。所述数据库中提供89个样本的序列类型(ST),7个样本揭示新的ST(包括三个新的等位基因),并且4个样本含有具有多种ST的混合群体。所述方法显示实验室间再现性,并且允许交流质谱指纹以便研究流行性脑膜炎奈瑟菌株或临床上重要的其它微生物的地域传播。
基于参考序列的MALDI-TOF MS分型是一种通用方法,其便利进行序列比较分析,以及鉴别具有跨微生物学和流行病学领域的广泛应用的任何微生物类群。
本文报告用于鉴别细菌病原体脑膜炎奈瑟菌谱系的基于碱基特异性裂解和MALDI-TOF MS的MLST的验证。所述研究以盲法研究进行,目标为有关万维网(WorldWide Web,WWW)URL“pubmlst.org/neisseria/”的数据库的100个分离株的正确序列类型指定。先前曾将针对16S rDNA基因区中可变区内的特征而高水平区别个别微生物类群的基于MALDI-TOF MS特征序列的分型法用于区别分枝杆菌属和鲍特菌属(Bordetella)(勒夫曼(Lefmann)等人,2004;范范维兹杰德(von Wintzingerode)等人,2002)。相比之下,MLST基于表征具有数个基因座的序列的变异,这些变异是在一个微生物群体内缓慢积累的。因此,MLST需要根据单核苷酸偏差来区分参考序列,这一研究是对利用碱基特异性裂解和MALDI-TOF MS进行比较测序法的挑战。
实例1:材料和方法
菌株
总计100个各种血清群的脑膜炎奈瑟菌是由英国曼彻斯特的国家脑膜炎参考实验室(National Meningitidis Reference Laboratory,Manchester,UK)和英国伦敦的国家菌种保藏中心(National Collection of Type Cultures,London,UK)供应。在37摄氏度下10%CO2中,使所有菌株在巧克力琼脂(Chocolate Agar)(培养基开发公司(Media Dept.),Cfl)生长24小时。将分离株保存在MicrobankTM塑料保存小珠(plastic storage bead)(Pro-Lab诊断品公司(Pro-Lab Diagnostics))上于80摄氏度下长期保存。
使用斯雷查&斯奇勒公司的DNA国际标准码保存纸(Schleicher&Schuell DNAIso-Code storage paper),进行DNA提取。简单来说,将2份1微升的循环生长物(loopsof growth)再悬浮于100微升蒸馏水(dH2O)中,并在零下30摄氏度下冷冻过夜,进行细胞溶解。将50微升样本点样于所述纸的各个点上。使用2个3mm的纸打孔机(paperpunch),以随后在1毫升蒸馏水中洗脱DNA。将50微升等分的样本在95摄氏度下加热20分钟,以获得拟用于PCR的DNA。
利用双脱氧测序的MLST
脑膜炎奈瑟菌的MLST方案使用7个看家基因的内部片段:abcZ(推定的ABC转运蛋白)、adk(腺苷酸激酶)、aroE(莽草酸脱氢酶)、fumC(延胡索酸水合酶)、gdh(葡萄糖-6-磷酸脱氢酶)、pdhC(丙酮酸脱氢酶亚基)和pgm(葡萄糖磷酸变位酶)。由100个脑膜炎奈瑟菌株的染色体DNA扩增这些基因座,并如关于标准MLST PCR和测序方案(万维网URL地址“pubmlst.org/neisseria/mlst-info/nmeningitidis/nmeningitidis-info.shtml”)所述对两条链进行测序。对于利用MALDI-TOF MS和双脱氧测序的逐一比较(head-to headcomparison)序列比较分析,根据制造商的方案,使用贝克曼考特CEQ自动测序仪(Beckman Coulter CEQ automated sequencer)(贝克曼考特公司(Beckman Coulter)),获得两条链的序列。
利用MALDI-TOF MS的MLST
参考序列组
使用公开(万维网URL地址“pubmlst.org/neisseria/,”10/18/2004更新)的7个脑膜炎奈瑟菌特异性基因座的参考序列组,来建立MALDI-TOF MS分析的输入文件。通过添加正向以及反向引物的基因特异性引物区和一段填充引物序列与经修剪的公开参考序列之间的间隙的共有序列,来修改所述组。
对于aroE,利用脑膜炎奈瑟菌血清群B菌株MC58(基因库登录号NC_003112)的相应序列段,而对于其余基因座,使用脑膜炎奈瑟菌血清群A菌株Z2491(基因库登录号NC_003116)的相应序列区。
扩增子设计
利用标准MLST测序引物进行PCR。所有引物都标记有T7-RNA启动子序列以及独特的10bp序列标签(补充表2)。两组PCR引物允许转录有义链或反义链,且因此允许进行两条DNA链的碱基特异性分析。
PCR、碱基特异性裂解和MALDI-TOF MS
在384孔微量滴定盘中,利用96通道自动移液管(96-channel automated pipetter)(赛克诺姆公司(Sequenom))并行处理各样本。在5-10微升的PCR反应中扩增相关基因座。反应含有1x PCR缓冲液[Tris-HCl、KCl、(NH4)2SO4、MgCl2,pH 8.7;最终浓度1.5mM]、200μM各dNTP、0.1U HotStar Taq聚合酶(凯杰公司(QIAGEN))、1pmol各引物和1-5ng DNA。在95摄氏度下初始Taq聚合酶活化10分钟后,进行45个PCR循环:在95摄氏度下20秒的变性步骤;在62摄氏度下30秒的退火步骤;和在72摄氏度下1分钟的延伸步骤。
未添加DNA模板的阴性对照用于诊断交叉污染以及引物二聚体形成,并且每一基因座和每一盘并入一个负对照。为了优化PCR条件,包括利用已知MLST进行模板DNA的阳性对照反应。
根据MassCLEAVETM TM方案(赛克诺姆公司)进行标准PCR后处理。在四个反应中,于对应于四个碱基中每一个的位置裂解靶区。简单来说,在37摄氏度下用0.3U虾碱性磷酸酶处理PCR反应20分钟,随后在85摄氏度下使酶失活5分钟。随后,利用每PCR反应2个体外转录反应(体积为4微升)来介导C和T特异性裂解。在各反应中,在37摄氏度下,将2微升SAP处理过的PCR产物与0.22微升C或T特异性转录混合物、5mM DTT和0.4微升T7RNA&DNA聚合酶一起培育2小时,随后添加0.05微升RNA酶A并在37摄氏度下培育1小时。用21微升水稀释样本,并在室温下利用6毫克SpectroCLEAN树脂(赛克诺姆公司)脱盐,持续10分钟。在标准化转移到384SpectroCHIP(赛克诺姆公司)上后,在MALDI线型飞行时间质谱仪(小型分析仪,赛克诺姆公司)上,使分析物经历MS分析。所述仪器装备有20Hz氮激光器。使用赛克诺姆公司的RT-Workstation 3.4软件包,在质谱仪上进行自动化操作。使用离子延时引出(delayed ion extraction),收集质量范围为1100-10,000Da的光谱曲线。
利用每光谱10次击打(shot),专门分析阳离子。使用实时光谱质量判断和选择,积累每样本5个光谱。由5点寡核苷酸校准混合物(five point oligonucleotide calibrantmix)(赛克诺姆公司)校准每一次芯片运行,同时利用独特锚定信号组对各光谱进行内部校准。
采集总计100个脑膜炎奈瑟菌样本的所有四个裂解反应的光谱,并存储于数据库中。
特征序列鉴别软件
使用本文所述的方法,利用专有软件包(特征序列鉴别软件,原型模式(Prototype),赛克诺姆公司,最新的iSEQTM 1.0版)进行数据分析。关于计算机裂解模式模拟的参考序列组和关于PCR扩增的引物序列是由用户以fasta或适当文本格式提供,并上传到上文所述的系统数据库中,同时通过接口设置分析特异性参数。采集至多4个MassCLEAVE反应的样本光谱,并与万维网URL地址“pubmlst.org/neisseria/database”的经修饰序列相匹配。
聚类分析
使用PHYLIP(系统发生学推论包(Phylogeny Inference Package))3.6版进行利用不加权对群法匹配的聚类分析。由程序设计者发布(西雅图华盛顿大学遗传学系(Department of Genetics,University of Washington,Seattle),1993)。
实例2:利用病原体参考组的序列比较分析
脑膜炎奈瑟菌通常引起严重的流行性脑脊髓膜炎(meningococcal meningiditis)和败血病,最常见于幼童,但也可能定殖于人的鼻咽,而不会有疾病发作。各种规模一直到全球流行病的暴发流行都需要复杂的基因分型来鉴别各病例群。据发现,MLST是了解流行病传播的最有效而同时也很简便的方法,并且已鉴别出毒力明显增加的特定克隆(菲沃斯(Feavers)等人,1999;乔雷(Jolley)等人,2000;莫菲(Murphy)等人,2003;苏利文(Sullivan)等人,2005)。MLST现被认为是对脑膜炎奈瑟菌进行基因分型的黄金标准标志物组。
脑膜炎奈瑟菌的MLST概括了在7种看家基因(abcZ、adk、aroE、fumC、gdh、pdhC和pgm)内部片段的450-500bp序列中检测到的序列变异的性质。所述物质内存在的不同序列指定为给定数量的截然不同等位基因。对于每个样本,鉴别7个基因座中每一个处的等位基因,并确定其等位基因谱或序列类型(ST)。根据这一系列7个整数(7个数字的代码),专门分析ST只相差一个或两个等位基因的主要克隆复合物,同时忽略等位基因之间的核苷酸数量差异(恩莱特(Enright)和斯帕特(Spratt)1999;斯帕特,1999)。已显示,一些克隆复合物与疾病相关,而另一些与有机体的载运有关(亚赞达克汉(Yazdankhah)等人,2004)。
利用碱基特异性裂解和MALDI-TOF MS的MLST
为了评估利用MALDI-TOF MS进行的自动微生物分型,使用MLST,根据脑膜炎奈瑟菌PubMLST等位基因序列数据库(万维网URL地址“pubmlst.org/neisseria/”,10/18/2004更新),对100个脑膜炎奈瑟菌分离株进行分型。所述数据库含有一组代表脑膜炎奈瑟菌种的已知总体多样性(约5,300个不同的ST并且正在进行编写)的分离株的数据。每基因座209个与344个之间的公开等位基因用作基于MALDI-TOF MS的分型的参考序列组。然而,一般说来,基于参考序列的峰型分析的概念适用于基于核酸的分型以及单倍体有机体的序列比较分析。这包括多种微生物菌剂、病原性和非病原性菌种和品系类型以及抗生素易感性和毒力。
基于MALDI-TOF MS的自动分型的四个步骤示于图1中。将包括基因特异性引物序列在内的参考序列组输入系统数据库中,以产生计算机模拟峰型(图1步骤1)。DNA样本处理是遵循标准MLST方案(万维网URL地址“pubmlst.org/neisseria”),利用测序引物组进行,以扩增7种看家基因的内部片段。各测序引物组都标记有T7启动子序列和10mer标签,产生2组PCR引物。或者,用T7和SP6启动子序列标记引物,并使其进行一次PCR。标记T7的正向引物和标记T7的反向引物或标记T7和SP6的引物的PCR产物允许体外转录有义和反义链。使所得RNA在C和U处经历碱基特异性裂解,产生所有四个裂解碱基C、U、“G”和“A”的虚拟裂解反应的代表性复合体混合物。所得四个质谱指纹允许结果的最大冗余度(图1步骤2)。
由于此方法依赖PCR扩增,故其灵敏度可高达反应小瓶中存在的一个基因组拷贝等效物(丁(Ding)和坎特(Cantor),2003)。PCR和转录的扩增增益足以产生可测量的产物。
对于MALDI-TOF MS测量,通过阴离子交换树脂处理使样本脱盐,并将其分配到矩阵解码芯片上(图1步骤3)。由于剩余PCR引物缺乏双链转录启动子区且因此无法经历转录和碱基特异性裂解,故无需对PCR和随后的产物进一步纯化。
利用特征序列鉴别软件工具(赛克诺姆公司)自动指定最终分型结果和序列偏差(图1步骤4)。
在利用碱基特异性裂解和MALDI-TOF MS分析的100个脑膜炎奈瑟菌分离株中,有89个样本被自动指定等位基因,并产生数据库中存在的ST。3个样本的一个等位基因产生具有新序列的ST;另两种ST是由已知的但未列于数据库中的等位基因确定,并且4个样本显露不可分型的混合群体。所有样本的等位基因、ST和克隆复合物列于表1中。96个可分型样本提供11个克隆复合物的38种已知ST和5种新ST。
表1展示100个脑膜炎奈瑟菌样本的碱基特异性裂解和MALDI-TOF MS分型结果。列出ST以及相应克隆复合物和等位基因。2个样本具有未确定的ST,3个样本显露数据库中未列出的新等位基因,并且4个样本鉴别为不可分辨的混合群体。
表1
  样本数量   abcZ   adk   aroE   fumC   gdh   pdhC   pgm   ST   克隆复合物
  19   2   3   4   3   8   4   6   11   ST-11复合物/ET-37复合物
  7   4   10   2   5   38   11   9   275   ST-269复合物
  7   3   6   9   5   9   6   9   41   ST-41/44复合物/谱系3
  5   4   10   15   9   8   11   269   ST-269复合物
  5   3   6   9   5   11   6   9   154   ST-41/44复合物,谱系3
  4   4   10   5   4   5   3   2   74   ST-32复合物/ET-5复合物
  3   17   5   19   17   3   26   2   60
  3   2   3   4   3   8   4   6   4   ST-11复合物/ET-37复合物
  2   11   5   18   8   11   24   21   22   ST-22复合物
  3   8   10   5   4   5   3   8   34   ST-32复合物/ET-5复合物
  2   2   3   4   3   8   26   6   1236   ST-11复合物/ET-37复合物
  2   4   10   5   40   6   3   8   259   ST-32复合物/ET-5复合物
  2   12   3   15   5   58   21   20
  1   2   7   6   17   16   18   8   167
  1   20   6   63   9   9   11   2   284
  1   2   18   15   55   24   11   10   1220
  1   13   5   6   5   24   8   8   2728
  1   15   5   9   13   8   15   15   2875
  1   1   3   1   1   1   1   3   1   ST-1复合物/亚群I/II
  1   7   3   4   3   8   4   6   52   ST-11复合物/ET-37复合物
  1   11   5   18   15   11   24   21   1158   ST-22复合物
  1   2   5   18   8   11   24   21   3915   ST-22复合物
  1   4   10   15   17   8   11   9   1049   ST-269复合物
  1   4   10   15   9   8   11   6   1095   ST-269复合物
  1   4   10   15   9   8   5   9   1195   ST-269复合物
  1   4   10   5   4   6   3   8   32   ST-32复合物/ET-5复合物
  1   8   10   5   4   6   3   8   33   ST-32复合物/ET-5复合物
  1   4   10   12   4   6   3   8   1100   ST-32复合物/ET-5复合物
  1   4   10   5   4   3   3   8   1130   ST-32复合物/ET-5复合物
  1   4   10   5   4   8   3   8   2489   ST-32复合物/ET-5复合物
  1   4   10   5   4   11   3   8   2493   ST-32复合物/ET-5复合物
  1   4   10   5   4   5   3   8   2506   ST-32复合物/ET-5复合物
  1   12   6   9   17   9   6   9   206   ST-41/44复合物/谱系3
  1   9   6   9   9   9   6   9   44   ST-41/44复合物/谱系3
  1   12   2   9   9   9   6   10   1216   ST-41/44复合物/谱系3
  1   9   6   36   9   9   6   2   1282   ST-41/44复合物/谱系3
  1   1   1   2   1   3   2   19   5   ST-5复合物/亚群III
  1   8   7   6   124   26   78   2   6   ST-549复合物
  1   8   5   6   17   26   68   2   432   ST-549复合物
  1   2   3   7   90   8   5   2   1094   ST-8复合物/群集A4
  1   4   10   5   60   9   3   8   ST-32复合物/ET-5复合物
  1   4   10   11   9   8   10   2   ST-35复合物
  1   新等位基因   29   2   26   26   21   20
  1   7   18   9   9   3   新等位基因   13
  1   7   5   新等位基因   13   3   128   15
  4   混合群体
96×7=672个可分型等位基因的基于MALDI-TOF MS和双脱氧测序的MLST之间的一致性为98.9%,表示有665个相同鉴别等位基因。差异的详细分析揭示,四个样本的gdh等位基因因两个转录和裂解反应的失败或存在未确定的额外信号,而被光谱分析软件错误鉴别,但经标记进行人工分析并通过用户呼叫(user call)得以恢复。3个不同样本中的3个新等位基因(包括abcZ、aroE和pdhC等位基因)由MALDI-TOF MS鉴别并通过双脱氧测序确认。所述序列展示与相应最佳匹配数据库参考物abcZ285、aroE9和pdhC207(其对应于3、2和1个碱基对偏差)的99.4%、99.8%和99.6%的一致性。
全组100个样本的MLST MALDI-TOF MS数据采集是在总共4个小时内实现,这表明,所述方法能够在相对较短的时间内分析大量样本。操作员变量(operator variable)主要通过液体处理和自动数据采集去除。可在7小时内以96个的次序处理样本和基因座,或交错处理以增加通量并提供足够速度以跟踪正在流行的流行病。完整组每样本7个基因座的数据采集和分析可在2.5分钟内于一个384芯片的28个矩阵点(matrix patch)上获得。一个384芯片允许分析12个样本中的7个基因座和阴性对照。考虑到要分析每基因座4个裂解反应和500-800bp的平均扩增子长度,故数据采集速度为4.5秒/反应的单个质谱仪每天可扫描约两百万个碱基对,这比标准双脱氧测序设备有利(克莱格(Kling)2003)。
特征序列鉴别软件工具(iSEQTM软件1.0版)
利用特征序列鉴别软件(赛克诺姆公司)进行数据处理,所述软件是特别开发用于与给定参考序列组(在本发明的情况下为脑膜炎奈瑟菌7个MLST看家基因的参考序列组)比较,来分析碱基特异性裂解模式。
软件的模拟模块对所输入的参考序列组实行计算机模拟的裂解反应。根据独特峰型,对所得模拟裂解模式进行聚类,其聚类方式使得所得群集能唯一地被鉴别并与其它群集相区分。对于脑膜炎奈瑟菌,在此模拟中,7个参考序列组内的所有序列都不同。这表明利用MALDI-TOF MS的MLST与双脱氧测序黄金标准方法的区别力相当。
采集每样本4个裂解反应的光谱,并针对一组源于参考序列组的独特校准峰进行再校准。
理论上,可通过简单地找出所检测的峰型与参考序列组模拟峰型的最佳匹配,来鉴别样本。然而,归因于各种因素(诸如样本光谱强度的变化),致使峰型匹配需要额外评分,尤其对于通常密切相关的大型参考序列组(诸如本研究中所用的参考序列组)更是如此。因此,峰型匹配的判断是三种得分基本模式匹配得分、区别性峰匹配得分和距离得分的动态组合。区别性峰匹配得分通过评估仅模拟产生的独特参考特异性标识信号(identifier signal)亚组计算得到,而距离得分是根据欧氏距离确定。
为进一步增加稳固性,通过迭代法进行鉴别。最初,计算所有参考序列的得分,并选出一组最佳匹配的参考序列。针对此亚组再评估所检测的峰型,并且再计算得分以再评估所述亚组并找出甚至更小的最佳匹配序列组。继续此过程,直到对于各样本,找出大大优于其余序列的一个序列或具有相近得分的数个序列。最后,评估最高匹配参考序列的潜在突变,并根据光谱质量、丢失和额外信号以及未知信号(其未获得任何复合体或加合物赋值)赋予置信度。
特征序列鉴别软件(赛克诺姆公司)的图形用户界面自动在报告表中显示分型结果、置信度和序列偏差(图2)。互动式细节窗口(interactive details window)可用于各样本的人工分析。数种报告功能(如模拟和采集的数据的新参考序列或距离矩阵的FASTA输出)允许进行系统发生分析和数据的进一步评估。
将数据存储于数据库中,并且可通过本地访问或远程访问来进行分析。因此,利用碱基特异性和MALDI-TOF MS的分子分型服从核苷酸数据或相应质量峰型的标准化、全球数据可比性和电子数据可移植性。
图3描述用于鉴别和概率赋值的方法的实例。将所采集的光谱(每反应至多4个)与源于由用户确定的输入参考序列组的理论峰型相关联。使用评分流程测量相似度。根据计算出的得分,对匹配参考序列排序。选出具有最高得分的参考序列进行进一步统计学分析。序列变异概率选取最高匹配参考模式与样本模式之间的匹配质量,并且表示所选最佳匹配参考序列中出现任何无法解释的序列变异的可能性。
图4描述利用不同参数组的不同分析选项的实例。第一选项鉴别如存在于参考组中的所有样本,第二分析选项包括SNP分析,并且第三选项使用聚类分析和样本分组(松弛参数)。
关于96个可分型脑膜炎奈瑟菌样本的分析软件的分型统计学概述于图5中。对于总共672个等位基因中97.6%的基因,软件自动鉴别与双脱氧测序相符的正确最高匹配参考序列。其中91.7%的等位基因是唯一地鉴别,5.5%列为一组同源参考物中的最高匹配参考物,并且0.4%鉴别为扩大现有参考组的新序列。对于1.8%的等位基因,列出一组最高匹配参考物中的正确匹配参考物,并且分型需要人工选择最佳匹配。这主要是因为四个裂解反应中有一个失败。仅0.6%的等位基因,即总共672个等位基因中的4个gdh等位基因,被指定为错误序列,但如上文所述,通过用户呼叫得到正确鉴别。
单碱基对突变检测
通过鉴别算法与MALDI-TOF MS特异性SNP发现算法组合鉴别新等位基因(伯克(Bocker),2003,专利号)。指定的最接近匹配序列与正确样本序列之间的单碱基对差异会影响裂解反应中复合体混合物的一个或多个裂解产物,并且显现为计算机模拟得到的光谱与所检测的样本光谱之间的偏差。SNP发现算法将鉴别这些峰型改变,并利用观察结果来检测、鉴别和定位单碱基对改变。
图6举例说明在443位具有C变为T的单碱基偏差的新颖aroE9修饰体的检测。源自参考序列的带型用于描述计算机模拟的aroE9模式与所检测的样本模式之间的差异。与带型相比较,正向RNA转录物的T特异性反应(图6A)展现在8957.9Da处的丢失信号。所述信号代表位于扩增子的439位的裂解产物,其组成为A8C10G9T1。新信号出现在7343.5Da,其组成为A8C8G6T1。可通过在443位用T取代C并在此位置引入裂解碱基(其产生在7343.5Da处检测到的复合体和在1650.0Da处的复合体C1G3T1),来解释丢失与额外复合体之间的偏差(数据未图示)。所述额外复合体被检测为无信息沉默信号,其与源自参考物中其它某处序列段的具有相同核苷酸组成的两个复合体一致。反向RNA转录物的T裂解反应确认所述观察结果(图6B)。在3136.0Da处的相应复合体A1C5G3T1丢失,而通过G变为A的互补事件,在3120.0Da处组成为A2C5G2T1的额外信号反映了所观察到的C到T的改变。由在2010.0Da处组成为C1G4T1的额外信号,进一步确认了正向RNA转录物的C特异性裂解反应。所述信号是由因C变为T而引起的432位复合体C1G3的C裂解位点丧失产生。两个组合片段的相应丢失信号是沉默信号并且低于检测的质量范围。由于受影响复合体GC的相应质量<1000Da且因此超出了检测的质量范围,故反向RNA转录物的C特异性裂解反应不会添加任何额外信息。低质量范围信号是由经基质污染物覆盖并因此丢弃的核酸单、二和三聚体产生。
总的说来,利用MALDI-TOF MS(冗余度为两个丢失信号和三个额外信号),检测到最佳匹配参考序列aroE9与样本序列之间的C变为T的错配。
此外,SNP发现算法还鉴别共用序列段的偏差,其用于MLST测序引物与可用参考序列之间的丢失序列信息。与基于标准双脱氧测序的MLST(其中引物区后的前5-10个碱基对未分辨出来,并且在数据库查询之前,序列读取结果需要修剪)不同,碱基特异性裂解和MALDI-TOF MS MLST从T7聚合酶的ggg转录起点和SP6聚合酶的gga转录起点开始,分析全长转录物。因此,所述分析中包括正向和反向引物的基因特异性引物区以及用于经修剪序列区的丢失信息的共有序列的序列信息。
通过由计算机模拟分析得到的预期峰型与所检测的样本光谱之间的峰型偏差,再次鉴别共用区域中的等位基因序列差异。通过双脱氧测序确认结果,并且可在补充表1中获得。鉴别出的序列偏差显示等位基因内的100%的同源性,并且保持各等位基因之间的区别。
模拟
数值模拟工具系统性地引入给定MLST参考序列组的各序列中所有可能的单核苷酸突变,并根据检测所述突变的能力,使用四碱基特异性裂解反应和SNP发现算法,将所得序列变异分类。考虑范围在1100-8000Da内的质量信号,并假定质量分辨率为600(m/□m),利用MALDI-TOF MS按常规获得各值。表2中概述的结果表明,对于本研究总共7个参考序列组来说,99.0%的所有可能单核苷酸改变可通过碱基特异性裂解和MALDI-TOF MS检测。当与缺失(98.9%)和插入(98.7%)的检测率比较时,取代(99.4%)的检测率总体略高,它们很可能发生在看家基因区的分型方法(如MLST)中。这可通过以下事实解释:取代可引起多达10个观察结果(5个丢失信号和5个额外信号),而插入/缺失可在样本光谱中引起最多9个观察结果。
表2展示对于脑膜炎奈瑟菌MLST参考序列组,利用碱基特异性裂解和MALDI-TOFMS得到的模拟单碱基对突变检测率。
表2
Figure G2008800164767D00911
聚类分析
可使用所检测的四个裂解反应的质量信号,将样本的确定指纹表征为峰位置与转变成整数的信号强度组合的阵列。这允许质谱指纹显示为基于谱带的模式。整数的集合可描述为矩阵。可通过欧氏距离(ED)分析相应样本的联系,并显示为系统树图。将含有类似指纹并因此具有类似峰位置和强度的光谱清单描述为一个群集,其显示组内各对象之间的相似性,而无需指定已知参考序列。在仅有限量的参考序列可用(如鉴别新信息标志物组所需)时,质量峰型的聚类分析允许快速高通量分析较大样本组。
图7A中描述针对89个样本中15个fumC等位基因的4种裂解反应的MALDI-TOFMS指纹,进行使用不加权对群法(UPGMA)的聚类分析。此系统树图与由一级序列的直接比较所产生的系统树图一致(图7B)。这表明样本组的相等分辨率。已发现,ED 2.8为具有100%序列一致性的样本的相似性截止值。所有样本都在其相应等位基因内进行分组。所述等位基因的光谱模式和一级序列属于相同分化枝的两个主要群组,其中等位基因1、5、8、9、13、15、40、55和60在一个分化枝中,并且等位基因3、4、17、26、90和124形成另一分化枝。由在一个树中存在但在另一树中不存在的部分的计数,获得为10的对称差(symmetry difference)。在第一个分化枝群组中发现差异,而在第二个中不存在差异。
碱基特异性裂解质量信号模式的总体聚类分析展现明显可区分的群集,反映了等位基因与其通过一级序列分析进行的分组之间的差异。(图7)
再现性
选择一组随机23个代表12种ST的样本,在监察中心的两台质谱仪上评定基于MALDI-TOF MS的分型的再现性。根据标准方案,在不同时间,将各样本的处理运行4次。在赛克诺姆公司(圣迭亚哥(San Diego))采集4次运行中3次的数据,而在健康保护署(Health Protection Agency)(英国伦敦)采集4次运行中1次的数据。644个预期数据点的集合的结果概述于表3中。有638个产物成功扩增,转录和裂解。6个反应无法进行PCR或PCR后处理,其中4个在处理第二天退出,而1个在第三天和第四天推出,留下99.1%(638/644)的数据用于再现性分析。其中有99.1%(632/638)的数据被指定正确等位基因。6个数据点经多个匹配等位基因(包括利用正确人工用户呼叫的选项的正确等位基因)模糊鉴别。其中,一个样本鉴别为两个abcZ等位基因的混合物,导致四个重复数据点指定两个等位基因。
总计98.1%(152/155)的重复分型事件是可再现的。这反映了在所获得的MALDI-TOF MS模式的特异性中所表现的分子分型方法的稳定性。
所述系统能够基于参考序列自动鉴别和表征DNA或RNA序列,并且适于根据需要在多相方法或MLST中并行筛选多个基因座。所得数字数据具有高准确性和可移植性。与分析PCR扩增子的传统方法(包括凝胶电泳和双脱氧测序)比较,质谱法将用于PCR和PCR后处理的384孔液体处理机器人系统与MALDI-TOF MS分析仪的质量准确性和速度相结合。自动数据分析避免了耗时的痕量分析和序列排列。与双脱氧测序相反,由序列中单核苷酸重复序列引起的谱带压缩失真不再是问题,并且不会引起序列的错读。
结论
在实现全球运输的今天,可再现地大规模监测微生物、尤其人类病原体(包括有毒菌株、新兴菌株和抗生素抗性菌株)变得越来越重要,并且需要能提供低劳动密集型且较快的自动化替代技术来替代传统的流行病学分型方法。本文所述的基于基因型MALDI-TOF MS的分型工具提供一种用于微生物鉴别和表征的标准化、准确、自动化、高通量替代技术。通过处理和分析100个脑膜炎奈瑟菌分离株中的一组稳定MLST标志物来验证系统,展示了所述系统的分型能力、可再现性和一致性,以及与标准双脱氧测序相当的区别力。所述技术能够分型任何病原体或微生物且具有同样的使用和数据解释简便性,只要能获得至少一个稳定的500-800bp参考序列。由于微生物基因组测序计划使临床上相关的微生物的全基因组序列的可用性不断增加,并且引发所选特征序列的比较以开发出改进的诊断分型分析,故本技术极为重要。
此外,维持微生物分子特征数据库也是一个正在进行的工作。新分离株可能会随着时间推移而发展,或者在所述数据库中,分离株可能不存在或数据较少。相应数据库中所提供的物种越好,则分析中所涉及的人工步骤越少,这使诊断参考实验室中用于自动化样本表征的系统的价值明显加强。
反应盘的稳定性允许其保存和装运到中央MALDI-TOF MS设施。所述方法使得能在不交换菌株的情况下,进行不同参考实验室间处理盘的比较和数据的移植。从理想上来说,本技术适用于对多个区域进行微生物测试,从而支持MLST分型流程和多相分类方法。
所引用的文献
S.波克(Bocker,S.)2003.使用碱基特异性裂解和MALDI-TOF质谱法的SNP和突变发现(SNP and mutation discovery using base-specific cleavage and MALDI-TOF massspectrometry).生物信息学(Bioinformatics)19(增刊1):i44-53。
S.C.克拉克(Clarke,S.C.)2002.基于核苷酸序列的细菌分型和自动化影响(Nucleotide sequence-based typing of bacteria and the impact of automation).生物分析(Bioessays)24:858-862。
C.丁(Ding,C.)和C.R.坎特(C.R.Cantor.)2003.利用M1-PCR的长距离基因组DNA的直接分子单体分型(Direct molecular haplotyping of long-range genomic DNA withM1-PCR).美国国家科学院院刊(Proc Natl Acad Sci U S A)100:7449-7453。
M.C.恩莱特(Enright,M.C.)和B.G.斯帕特(B.G.Spratt.)1999.多基因座序列分型(Multilocus sequence typing).微生物学趋势(Trends Microbiol)7:482-487。
I.M.费文斯(Feavers,I.M.),S.J.格雷(S.J.Gray),R.尤文(R.Urwin),J.E.罗塞尔(J.E.Russell),J.A.拜格文斯(J.A.Bygraves),E.B.卡兹马斯基(E.B.Kaczmarski)和M.C.麦登(M.C.Maiden.)1999.脑膜炎球菌病爆发研究中的多基因座序列分型和抗原基因测序(Multilocus sequence typing and antigen gene sequencing in the investigation of ameningococcal disease outbreak).临床微生物学杂志(J Clin Microbiol)37:3883-3887。
J.加拉泽(Garaizar,J.),A.雷蒙特(A.Rementeria)和S.保罗沃克(S.Porwollik.)2006.DNA微阵列技术:细菌病原体流行病学分型的新工具?(DNA microarraytechnology:a new tool for the epidemiological typing of bacterial pathogens?)FEMS免疫学和医学微生物学(FEMS Immunol Med Microbiol)47:178-189。
K.A.乔雷(Jolley,K.A.),J.卡姆索瓦(J.Kalmusova),E.J.费尔(E.J.Feil),S.古帕塔(S.Gupta),M.姆斯雷克(M.Musilek),P.克雷兹(P.Kriz)和M.C.麦登(M.C.Maiden.)2000.捷克共和国脑膜炎奈瑟菌带菌调查:多种重组群体(Carried meningococci in theCzech Republic:a diverse recombining population.)临床微生物学杂志(J Clin Microbiol)38:4492-4498。
J.克林(Kling,J.)2003.超快DNA测序(Ultrafast DNA sequencing.)自然-生物技术(Nat Biotechnol)21:1425-1427。
M.勒夫曼(Lefmann,M.),C.霍尼斯奇(C.Honisch),S.波克(S.Bocker),N.斯托姆(N.Storm),F.范维兹杰德(F.von Wintzingerode),C.斯奇特伯格(C.Schlotelburg),A.莫特(A.Moter),D.范波姆(D.van den Boom)和U.B.古贝尔(U.B.Gobel.)2004.用于分枝杆菌基因型鉴别的基于质谱法的新颖工具(Novel mass spectrometry-based tool forgenotypic identification of mycobacteria.)临床微生物学杂志(J Clin Microbiol)42:339-346。
M.C.麦登(Maiden,M.C.)2006.细菌的多基因座序列分型(Multilocus SequenceTyping of Bacteria.)微生物学评述(Annu Rev Microbiol)。
M.C麦登(Maiden,M.C),J.A.拜格维斯(J.A.Bygraves),E.费尔(E.Feil),G.莫瑞里(G.Morelli),J.E.卢塞尔(J.E.Russell),R.尤文(R.Urwin),Q.张(Q.Zhang),J.周(J.Zhou),K.泽斯(K.Zurth),D.A.考恩特(D.A.Caugant),I.M.费文斯(I.M.Feavers),M.阿奇特曼(M.Achtman)和B.G.斯帕特(B.G.Spratt.)1998.多基因座序列分型:鉴别病原微生物群体内的克隆的简便方法(Multilocus sequence typing:a portable approachto the identification of clones within populations of pathogenic microorganisms.)美国国家科学院院刊(Proc Natl Acad Sci U S A)95:3140-3145。
K.M.莫菲(Murphy,K.M.),K.A.奥登奈尔(K.A.O′Donnell),A.B.海金斯(A.B.Higgins),C.奥尼尔(C.O′Neill)和M.T.卡福克(M.T.Cafferkey.)2003.脑膜炎奈瑟菌爱尔兰株:使用多基因座序列分型表征(Irish strains of Neisseria meningitidis:characterisation using multilocus sequence typing.)英国生物医学科学杂志(Br J BiomedSci)60:204-209。
D.M.奥利文(Olive,D.M.)和P.本恩(P.Bean.)1999.基于DNA的微生物分型的方法的原理和应用(Principles and applications of methods for DNA-based typing ofmicrobial organisms.)临床微生物学杂志(J Clin Microbiol)37:1661-1669。
M.A.普法勒(Pfaller,M.A.)1999.患者护理中的分子流行病学(Molecularepidemiology in the care of patients.)病理学和实验室医学档案(Arch Pathol Lab Med)123:1007-1010。
B.G.斯帕特(Spratt,B.G.)1999.多基因座序列分型:快速DNA测序和互联网络时代的细菌病原体分子分型(Multilocus sequence typing:molecular typing of bacterialpathogens in an era of rapid DNA sequencing and the internet.)当前微生物学观点(CurrOpin Microbiol)2:312-316。
P.斯坦森(Stanssens,P.),M.泽布鲁(M.Zabeau),G.米瑟曼(G.Meersseman),G.雷姆斯(G.Remes),Y.格瑟曼斯(Y.Gansemans),N.斯托姆(N.Storm),R.哈特门(R.Hartmer),C.霍尼斯奇(C.Honisch),C.P.罗迪(C.P.Rodi),S.波克(S.Bocker)和D.范德伯姆(D.van den Boom.)2004.基因序列多态性的高通量MALDI-TOF发现(High-throughput MALDI-TOF discovery of genomic sequence polymorphisms.)基因组研究(Genome Res)14:126-133。
C.B.苏利文(Sullivan,C.B.),M.A.迪基尔(M.A.Diggle)和S.C.克拉克(S.C.Clarke.)2005.多基因座序列分型:临床微生物学和公共健康的数据分析(Multilocus sequencetyping:Data analysis in clinical microbiology and public health.)分子生物技术(MolBiotechnol)29:245-254。
R.尤文(Urwin,R.)和M.C.麦登(M.C.Maiden.)2003.多基因座序列分型:全球流行病学的工具(Multi-locus sequence typing:a tool for global epidemiology.)微生物学趋势(Trends Microbiol)11:479-487。
A.范贝柯姆(van Belkum,A.)2003.临床微生物学中的高通量流行病学分型(High-throughput epidemiologic typing in clinical microbiology.)临床微生物学和感染(Clin Microbiol Infect)9:86-100。
F.范维特捷罗德(von Wintzingerode,F.),S.波克(S.Bocker),C.斯奇特伯格(C.Schlotelburg),N.H.赵(N.H.Chiu),N.斯托姆(N.Storm),C.杰尼克(C.Jurinke),C.R.卡特(C.R.Cantor),U.B.古贝尔(U.B.Gobel)和D.范德伯姆(D.van den Boom.)2002.利用质谱法分析的扩增16S rRNA基因的碱基特异性断裂:快速细菌鉴别的工具(Base-specific fragmentation of amplified 16S rRNA genes analyzed by mass spectrometry:a tool for rapid bacterial identification.)美国国家科学院院刊(Proc Natl Acad Sci U S A)99:7039-7044。
S.P.亚赞达克汉(Yazdankhah,S.P.),P.克雷兹(P.Kriz),G.坦卡奇(G.Tzanakaki),J.克雷曼提诺(J.Kremastinou),J.卡姆索瓦(J.Kalmusova),M.姆斯雷克(M.Musilek),T.阿瓦斯德(T.Alvestad),K.A.乔雷(K.A.Jolley),D.J.维尔森(D.J.Wilson),N.D.麦克卡锡(N.D.McCarthy),D.A.考杰特(D.A.Caugant)和M.C.麦登(M.C.Maiden.)2004.捷克共和国、希腊和挪威中脑膜炎奈瑟菌的疾病相关和携带株的血清群和基因型分布(Distribution of serogroups and genotypes among disease-associated and carried isolates ofNeisseria meningitidis from the Czech Republic,Greece,and Norway.)临床微生物学杂志(J Clin Microbiol)42:5146-5153。
                      *          *           *
本文引用的各专利、专利申请案、公开案和文献的完整内容都以引用的方式并入本文中。上述专利、专利申请案、公开案和文献的引用并非认可任一上述为相关背景技术,其也不构成关于这些公开案或文献的内容或日期的任何认可。举例来说,2005年5月26日公开的美国专利申请公开案US2005/0112590(伯姆等人)的内容是以全文引用的方式并入本文中。
在不偏离本发明的基本观点的情况下,可对上述进行修改。尽管已参考一个或多个特定实施例实质上详细地描述本发明,但所属领域技术人员将认识到,可对本申请案中具体揭示的实施例进行更改,而这些修改和改进也在本发明的范围和精神内。
可在不存在任何本发明未具体揭示的要素的情况下,实践本文说明性描述的本发明。因此,举例来说,在本文的各情况中,术语“包含”、“基本上由...组成”和“由...组成”中的任一个都可经其它两个术语替换。已使用的术语和表述用作对术语的描述而非限制,并且所述术语和表述的使用不排除所示和所述特征的任何等效物或其部分,并且各种修饰都可能在所主张的本发明的范围内。除非上下文明确指出术语“一”描述一个要素或不止一个要素,否则所述术语可指其所修饰的多个要素中的一个(例如“一装置”可指一个或多个装置)。如本文所使用,术语“约”是指有时在基础参数的10%内(即,加或减10%)的值、有时在基础参数的5%内(即,加或减5%)的值、有时在基础参数的2.5%内(即,加或减2.5%)的值或有时在基础参数的1%内(即,加或减1%)的值,并且有时是指无变化的参数。举例来说,“约100克”的重量可包括介于90克与110克之间的重量。因此,应了解,尽管已通过代表性实施例和任选特征具体揭示本发明,但所属领域技术人员可对本文所揭示的概念进行修改和变更,并且所述修改和变更被视为在本发明的范围内。
本发明的实施例陈述于随附权利要求书中。

Claims (74)

1.一种鉴别或确定样本中是否存在靶核苷酸序列的方法,其包含:
a.鉴别(i)一组源自使所述样本中的核酸与特异性裂解剂接触而产生的裂解产物的样本质量信号与(ii)一组源自接触或虚拟接触所述特异性裂解剂的参考核酸所产生的裂解产物的参考质量信号之间的匹配峰型,并进行评分;
b.根据所述评分,选择所述样本质量信号组与所述参考质量信号组之间的最高等级匹配峰型亚组;
c.对所述亚组中的匹配峰型进行迭代重复评分,并鉴别一个或多个最高等级匹配峰型;和
d.由所述一个或多个最高等级匹配峰型之间的匹配,确定所述样本中是否存在所述靶核苷酸序列。
2.根据权利要求1所述的方法,其中所述参考峰型通过以下步骤确定:
将一组内的所有参考峰按质量排列;
用峰强度表示各参考峰;
计算所述参考组内各峰强度之间的距离;和
对参考峰进行聚类以产生最小裂解反应组。
3.根据权利要求2所述的方法,其中所述峰强度通过以下步骤确定:
采集质谱亚组并过滤;
将一组或多组峰集合为一个群组;
使用所述群组中各峰的高度和质量计算所述群组的强度;和
将所述群组强度归一化。
4.根据权利要求2所述的方法,其中所述聚类通过以下步骤确定:
鉴别在一个参考组中存在但在其它组中不存在的峰;
进行子聚类,直到各群集仅具有一个序列或具有一组难区分的序列;
计算所述子群集中各峰强度的总和;和
评估各子群集之间的差异。
5.根据权利要求1所述的方法,其中所述样本匹配峰型通过以下步骤校准:
将所述样本峰与某一质量窗口内的参考峰匹配;
通过评估总体偏差模式去除超出界限的样本峰;
选择在整个质量范围内均匀分布的高强度峰作为锚定峰;和
比较与从所述参考峰型预先选择的一组峰或数组锚定峰匹配的数量的峰。
6.根据权利要求5所述的方法,其中所述峰强度通过以下步骤调整:
将峰强度拟合至不同质量范围的标准曲线;
将所述曲线的中心质量区拟合至高斯曲线(Gaussian curve);和
通过所述调整修正所有检测峰的强度。
7.根据权利要求5所述的方法,其中所述锚定峰通过其质量和光谱质量进行校准。
8.根据权利要求1所述的方法,其包含鉴别所述参考组和/或所述样本组中具有所述一个或多个最高等级匹配峰型的核苷酸序列的潜在序列变异。
9.根据权利要求1或8所述的方法,其包含对所述一个或多个最高等级匹配峰型之间的匹配赋予置信度值。
10.一种确定样本中是否存在靶核苷酸序列的方法,其包含:
a.鉴别(i)一组源自使所述样本中的核酸与特异性裂解剂接触而产生的裂解产物的样本质量信号与(ii)一组源自接触或虚拟接触所述特异性裂解剂的参考核酸所产生的裂解产物的参考质量信号之间的匹配峰型,并进行评分;
其中所述评分基于一个或多个选自由位图得分、区别性特征匹配得分、距离得分和峰型一致性得分组成的群组的标准;
b.鉴别一个或多个最高等级匹配峰型;
c.由所述一个或多个最高等级匹配峰型之间的匹配,确定所述样本中是否存在所述靶核苷酸序列。
11.根据权利要求10所述的方法,其中所述参考峰型通过以下步骤确定:
将一组内的所有参考峰按质量排列;
用峰强度表示各参考峰;
计算所述参考组内各峰强度之间的距离;和
对参考峰进行聚类以产生最小裂解反应组。
12.根据权利要求11所述的方法,其中所述峰强度通过以下步骤确定:
采集质谱亚组并过滤;
将一组或多组峰集合为一个群组;
使用所述群组中各峰的高度和质量计算所述群组的强度;和
将所述群组强度归一化。
13.根据权利要求11所述的方法,其中所述聚类通过以下步骤确定:
鉴别在一个参考组中存在但在其它组中不存在的峰;
进行子聚类,直到各群集仅具有一个序列或具有一组难区分的序列;
计算所述子群集中各峰强度的总和;和
评估各子群集之间的差异。
14.根据权利要求10所述的方法,其中所述样本匹配峰型通过以下步骤校准:
将所述样本峰与某一质量窗口内的参考峰匹配;
通过评估总体偏差模式去除超出界限的样本峰;
选择在整个质量范围内均匀分布的高强度峰作为锚定峰;和
比较与从所述参考峰型预先选择的一组峰或数组锚定峰匹配的数量的峰。
15.根据权利要求14所述的方法,其中所述峰强度通过以下步骤调整:
将峰强度拟合至不同质量范围的标准曲线;
将所述曲线的中心质量区拟合至高斯曲线;和
通过所述调整修正所有检测峰的强度。
16.根据权利要求14所述的方法,其中所述锚定峰通过其质量和光谱质量进行校准。
17.根据权利要求10所述的方法,其中所述一个或多个最高等级匹配峰型通过对所述样本质量信号组与所述参考质量信号组之间的最高等级匹配峰型亚组中的匹配峰型进行迭代重复评分来鉴别。
18.根据权利要求10或17所述的方法,其包含鉴别所述参考组和/或所述样本组中具有所述一个或多个最高等级匹配峰型的核苷酸序列的潜在序列变异。
19.根据权利要求1、或8至10、或17或18中任一权利要求所述的方法,其包含对所述一个或多个最高等级匹配峰型之间的匹配赋予置信度值。
20.一种确定样本中是否存在靶核苷酸序列的方法,其包含:
a.鉴别(i)一组源自使所述样本中的核酸与特异性裂解剂接触而产生的裂解产物的样本质量信号与(ii)一组源自接触或虚拟接触所述特异性裂解剂的参考核酸所产生的裂解产物的参考质量信号之间的匹配峰型,并进行评分;
其中所述评分基于一个或多个选自由位图得分、区别性特征匹配得分、距离得分和峰型一致性得分组成的群组的标准;
b.鉴别一个或多个最高等级匹配峰型;
其中所述一个或多个最高等级匹配峰型通过对所述样本质量信号组与所述参考质量信号组之间的最高等级匹配峰型亚组中的匹配峰型进行迭代重复评分来鉴别;
c.鉴别所述参考组和/或所述样本组中具有所述一个或多个最高等级匹配峰型的核苷酸序列的潜在序列变异;
d.由所述一个或多个最高等级匹配峰型之间的匹配,确定所述样本中是否存在所述靶核苷酸序列;和
e.对所述一个或多个最高等级匹配峰型之间的匹配赋予置信度值。
21.根据权利要求20所述的方法,其中所述参考峰型通过以下步骤确定:
将一组内的所有参考峰按质量排列;
用峰强度表示各参考峰;
计算所述参考组内各峰强度之间的距离;和
对参考峰进行聚类以产生最小裂解反应组。
22.根据权利要求21所述的方法,其中所述峰强度通过以下步骤确定:
采集质谱亚组并过滤;
将一组或多组峰集合为一个群组;
使用所述群组中各峰的高度和质量计算所述群组的强度;和
将所述群组强度归一化。
23.根据权利要求21所述的方法,其中所述聚类通过以下步骤确定:
鉴别在一个参考组中存在但在其它组中不存在的峰;
进行子聚类,直到各群集仅具有一个序列或具有一组难区分的序列;
计算所述子群集中各峰强度的总和;和
评估各子群集之间的差异。
24.根据权利要求20所述的方法,其中所述样本匹配峰型通过以下步骤校准:
将所述样本峰与某一质量窗口内的参考峰匹配;
通过评估总体偏差模式去除超出界限的样本峰;
选择在整个质量范围内均匀分布的高强度峰作为锚定峰;和
比较与从所述参考峰型预先选择的一组峰或数组锚定峰匹配的数量的峰。
25.根据权利要求24所述的方法,其中所述峰强度通过以下步骤调整:
将峰强度拟合至不同质量范围的标准曲线;
将所述曲线的中心质量区拟合至高斯曲线;和
通过所述调整修正所有检测峰的强度。
26.根据权利要求24所述的方法,其中所述锚定峰通过其质量和光谱质量进行校准。
27.根据权利要求20所述的方法,其中所述位图得分通过比较经参考峰强度加权的所检测的和个别参考峰型的强度来计算。
28.根据权利要求20或27所述的方法,其中所述区别性特征匹配得分通过评估使一个特征模式区别于另一个特征模式或使一组模式区别于另一组模式的特征亚组来计算。
29.根据权利要求1、或8至10、或17至20、或27至28中任一权利要求所述的方法,其中所述距离得分根据所述经鉴别特征向量与所有参考特征向量之间的距离计算。
30.根据权利要求11所述的方法,其中所述距离为欧氏距离(Euclidian distance)。
31.根据权利要求1、或8至10、或17至20、或27至30中任一权利要求所述的方法,其中所述峰型一致性得分是由匹配峰强度、丢失和额外峰强度、沉默丢失峰强度与沉默额外峰强度的总和而计算。
32.根据权利要求1、或8至10、或17至20、或27至31中任一权利要求所述的方法,其中最高等级匹配峰型通过对根据权利要求1、10或20中任一权利要求的(b)中的匹配峰型进行迭代重复评分约5次或5次以上、约10次或10次以上、约50次或50次以上或约100次或100次以上循环来鉴别。
33.根据权利要求1、或8至10、或17至20、或27至32中任一权利要求所述的方法,其中所述样本质量信号组经历一种或多种信号处理方法,所述信号处理方法选自由峰检测、校准、归一化、光谱质量、强度标度和复合体调整滤波器组成的群组。
34.根据权利要求1、或8至10、或17至20、或27至33中任一权利要求所述的方法,其中所述参考质量信号组源自虚拟接触所述特异性裂解剂的参考核酸所产生的裂解产物。
35.根据权利要求34所述的方法,其中所述参考质量信号组经历聚类。
36.根据权利要求35所述的方法,其中所述聚类基于峰质量和峰强度。
37.根据权利要求1、或8至10、或17至20、或27至36中任一权利要求所述的方法,其中(ii)为两组或两组以上参考质量信号,其各源自接触或虚拟接触所述特异性裂解剂的参考核酸所产生的裂解产物。
38.根据权利要求37所述的方法,其中将各所述参考组与所述样本组比较。
39.根据权利要求37所述的方法,其中将所述参考组混合并作为单一组与所述样本组比较。
40.根据权利要求37所述的方法,其中将所述参考组混合并作为单一组与混合样本组比较。
41.根据权利要求37所述的方法,其中将所述参考样本混合并作为单一组与混合样本组比较。
42.根据权利要求37所述的方法,其中将所述参考样本作为单一组与混合样本组比较。
43.根据权利要求39所述的方法,其中所述参考质量信号组源自接触或虚拟接触所述特异性裂解剂的微生物或病毒或载体或真核或原核参考核酸所产生的裂解产物。
44.根据权利要求43所述的方法,其中所述微生物为细菌、真菌或病毒。
45.根据权利要求1、或8至10、或17至20、或27至44中任一权利要求所述的方法,其中各样本组和各参考组都源自以下中的一种或多种:(i)接触或虚拟接触第一特异性裂解剂的第一引物产物;(ii)接触或虚拟接触第一裂解剂的第二引物产物;(iii)接触或虚拟接触第二特异性裂解剂的所述第一引物产物;(iv)接触或虚拟接触第二裂解剂的所述第二引物产物。
46.根据权利要求45所述的方法,其中所述第一引物产物为正向引物产物。
47.根据权利要求45所述的方法,其中所述第二引物产物为反向引物产物。
48.根据权利要求45所述的方法,其中所述第一引物产物为反向引物产物。
49.根据权利要求45所述的方法,其中所述第二引物产物为正向引物产物。
50.根据权利要求45所述的方法,其中所述第一引物产物为T7引物产物。
51.根据权利要求45所述的方法,其中所述第二引物产物为SP6引物产物。
52.根据权利要求1、或8至10、或17至20、或27至51中任一权利要求所述的方法,其中所述样本是从有机体获得。
53.根据权利要求52所述的方法,其中所述样本是从人类获得。
54.根据权利要求1、或8至10、或17至20、或27至53中任一权利要求所述的方法,其中一组质量信号通过包含以下步骤的方法制备:
a.使样本DNA与引物接触;
b.延伸所述引物以形成引物产物;
c.转录所述引物产物以形成引物产物RNA;
d.使所述引物产物RNA与特异性裂解剂接触,以形成裂解产物;和
e.由所述裂解产物制备一组质量信号。
55.根据权利要求54所述的方法,其中所述引物通过扩增法延伸并且制备出扩增的引物产物。
56.根据权利要求55所述的方法,其中所述扩增法为聚合酶链反应法(PCR)。
57.根据权利要求54所述的方法,其中所述质量信号组通过质谱分析制备。
58.根据权利要求57所述的方法,其中所述质谱分析为MALDI-TOF MS。
59.根据权利要求1、或8至10、或17至20、或27至58中任一权利要求所述的方法,其中一组质量信号通过包含以下步骤的方法制备:
a.使样本DNA与第一引物和第二引物接触;
b.通过扩增法延伸所述第一引物和所述第二引物,以形成扩增的第一引物产物和扩增的第二引物产物;
c.转录所述第一引物产物和所述第二引物产物,以形成第一引物产物RNA和第二引物产物RNA;
d.使所述第一引物产物RNA和所述第二引物产物RNA与第一特异性裂解剂接触,以形成第一片段组和第二片段组;
e.使所述第一引物产物RNA和所述第二引物产物RNA与第二特异性裂解剂接触,以形成第三片段组和第四片段组;和
f.制备各片段组的质量信号组。
60.一种将一个或多个序列或序列信号分组的方法,其包含:
(a)比较(i)一组源自使样本中的生物分子与特异性裂解剂接触而产生的裂解产物的样本信号与(ii)一组源自接触或虚拟接触所述特异性裂解剂的参考生物分子所产生的裂解产物的参考信号的峰型;
(b)鉴别所述信号的聚类模式;和
(c)根据(b)中的所述聚类模式,将所述信号分组。
61.根据权利要求60所述的方法,其中所述参考峰型通过以下步骤确定:
将一组内的所有参考峰按质量排列;
用峰强度表示各参考峰;
计算所述参考组内各峰强度之间的距离;和
对参考峰进行聚类以产生最小裂解反应组。
62.根据权利要求61所述的方法,其中所述峰强度通过以下步骤确定:
采集质谱亚组并过滤;
将一组或多组峰集合为一个群组;
使用所述群组中各峰的高度和质量计算所述群组的强度;和
将所述群组强度归一化。
63.根据权利要求61所述的方法,其中所述聚类通过以下步骤确定:
鉴别在一个参考组中存在但在其它组中不存在的峰;
进行子聚类,直到各群集仅具有一个序列或具有一组难区分的序列;
计算所述子群集中各峰强度的总和;和
评估各子群集之间的差异。
64.根据权利要求60所述的方法,其中所述样本匹配峰型通过以下步骤校准:
将所述样本峰与某一质量窗口内的参考峰匹配;
通过评估总体偏差模式去除超出界限的样本峰;
选择在整个质量范围内均匀分布的高强度峰作为锚定峰;和
比较与从所述参考峰型预先选择的一组峰或数组锚定峰匹配的数量的峰。
65.根据权利要求64所述的方法,其中所述峰强度通过以下步骤调整:
将峰强度拟合至不同质量范围的标准曲线;
将所述曲线的中心质量区拟合至高斯曲线;和
通过所述调整修正所有检测峰的强度。
66.根据权利要求64所述的方法,其中所述锚定峰通过其质量和光谱质量进行校准。
67.根据权利要求60所述的方法,其中所述聚类模式通过不加权对群法分析来确定。
68.根据权利要求60所述的方法,其中所述聚类模式由峰位置阵列结合转换成整数的所述信号的强度来确定。
69.根据权利要求60或67至68中任一权利要求所述的方法,其中(a)(ii)为两组或两组以上参考质量信号,其各源自接触或虚拟接触所述特异性裂解剂的参考核酸所产生的裂解产物。
70.根据权利要求69所述的方法,其中将各所述参考组与所述样本组比较。
71.根据权利要求69所述的方法,其中将所述参考组混合并作为单一组与所述样本组或人工混合物或参考样本混合物比较。
72.一种用于计算机中的程序产品,所述计算机执行记录于计算机可读媒体中的程序指令以确定样本中是否存在靶核苷酸序列,所述程序产品包含:
可记录媒体;和
在所述可记录媒体上的多个计算机可读程序指令,其可由所述计算机执行以进行根据前述权利要求中任一权利要求所述的方法。
73.一种确定样本中是否存在靶核苷酸序列的基于计算机的方法,其包含:
a.鉴别(i)一组输入所述计算机中的源自使所述样本中的核酸与特异性裂解剂接触而产生的裂解产物的样本质量信号与(ii)一组输入所述计算机中的源自接触或虚拟接触所述特异性裂解剂的参考核酸所产生的裂解产物的参考质量信号之间的匹配峰型,并进行评分;
其中所述评分基于一个或多个选自由位图得分、区别性特征匹配得分、距离得分和峰型一致性得分组成的群组的标准;
b.鉴别一个或多个最高等级匹配峰型;
其中所述一个或多个最高等级匹配峰型通过对所述样本质量信号组与所述参考质量信号组之间的最高等级匹配峰型亚组中的匹配峰型进行迭代重复评分来鉴别;
c.鉴别所述参考组中具有所述一个或多个最高等级匹配峰型的核苷酸序列的潜在序列变异;
d.由所述一个或多个最高等级匹配峰型之间的匹配,确定所述样本中是否存在所述靶核苷酸序列;和
e.对所述一个或多个最高等级匹配峰型之间的匹配赋予置信度值。
74.一种高通量分析系统,其用于确定样本中是否存在靶核苷酸序列,所述系统包含:
处理站,其在一种或多种特异性裂解剂的存在下断裂样本核酸;
机器人系统,其将所得裂解产物从所述处理站运送到质量测量站,其中测定所述反应的各产物质量;和
数据分析系统,其通过进行根据前述权利要求中任一权利要求所述的基于计算机的方法处理来自所述质量测量站的数据,以鉴别所述样本中是否存在所述靶核苷酸序列。
CN200880016476.7A 2007-04-13 2008-04-11 序列比较分析方法和系统 Expired - Fee Related CN101680872B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US91184507P 2007-04-13 2007-04-13
US60/911,845 2007-04-13
PCT/US2008/060125 WO2008128111A1 (en) 2007-04-13 2008-04-11 Comparative sequence analysis processes and systems

Publications (2)

Publication Number Publication Date
CN101680872A true CN101680872A (zh) 2010-03-24
CN101680872B CN101680872B (zh) 2015-05-13

Family

ID=39864352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880016476.7A Expired - Fee Related CN101680872B (zh) 2007-04-13 2008-04-11 序列比较分析方法和系统

Country Status (7)

Country Link
US (2) US20090006002A1 (zh)
EP (1) EP2145180B1 (zh)
CN (1) CN101680872B (zh)
AU (1) AU2008240143B2 (zh)
CA (1) CA2684217C (zh)
HK (1) HK1140264A1 (zh)
WO (1) WO2008128111A1 (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950326A (zh) * 2010-09-10 2011-01-19 重庆大学 基于Hurst指数的DNA序列相似性检测方法
CN102576389A (zh) * 2009-10-21 2012-07-11 皇家飞利浦电子股份有限公司 用于扩增反应的分析工具
CN103389335A (zh) * 2012-05-11 2013-11-13 中国科学院大连化学物理研究所 一种鉴定生物大分子的分析装置和方法
CN104053787A (zh) * 2012-05-23 2014-09-17 深圳华大基因医学有限公司 鉴定双胞胎类型的方法和系统
CN104239748A (zh) * 2013-06-19 2014-12-24 三星Sds株式会社 考虑失配的碱基序列对准系统及方法
WO2015003531A1 (zh) * 2013-07-09 2015-01-15 旦华科技有限公司 利用核酸裂解后片段分子量进行物种鉴定的方法
CN104871164A (zh) * 2012-10-24 2015-08-26 考利达基因组股份有限公司 处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统
CN104951667A (zh) * 2014-03-28 2015-09-30 国际商业机器公司 一种用于分析蛋白质序列的性质的方法和装置
CN106845155A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置
CN107688727A (zh) * 2016-08-05 2018-02-13 深圳华大基因股份有限公司 生物序列聚类和全长转录组中转录本亚型识别方法和装置
CN107710206A (zh) * 2015-06-02 2018-02-16 皇家飞利浦有限公司 用于根据生物学数据的亚群检测的方法、系统和装置
CN108348166A (zh) * 2015-09-09 2018-07-31 优比欧迈公司 用于与抗生素使用相关的感染性疾病及其它健康状况的源自微生物群系的诊断及治疗方法和系统
CN108918928A (zh) * 2018-09-11 2018-11-30 广东石油化工学院 一种负荷分解中功率信号自适应重构方法
CN109283238A (zh) * 2017-07-21 2019-01-29 日本株式会社日立高新技术科学 质量分析装置和质量分析方法
CN110431400A (zh) * 2016-08-22 2019-11-08 高地创新公司 利用基质辅助激光解吸/离子化飞行时间质谱仪进行数据库管理
CN112437814A (zh) * 2018-07-19 2021-03-02 牛津纳米孔科技公司 多核苷酸合成方法、试剂盒和系统
CN113223618A (zh) * 2021-05-26 2021-08-06 予果生物科技(北京)有限公司 基于宏基因组的临床重要致病菌毒力基因检测的方法及系统
CN113409891A (zh) * 2021-05-25 2021-09-17 电子科技大学长三角研究院(衢州) DNA6mA修饰类别的预测方法、装置、设备和存储介质
WO2021196358A1 (zh) * 2020-04-02 2021-10-07 上海之江生物科技股份有限公司 微生物目标片段中特异性区域的识别方法、装置及应用
CN113887251A (zh) * 2021-09-29 2022-01-04 内蒙古工业大学 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法
US12037636B2 (en) 2018-07-19 2024-07-16 Oxford Nanopore Technologies Plc Polynucleotide synthesis method, kit and system

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090709B2 (en) * 2007-06-28 2012-01-03 Microsoft Corporation Representing queries and determining similarity based on an ARIMA model
US8290921B2 (en) * 2007-06-28 2012-10-16 Microsoft Corporation Identification of similar queries based on overall and partial similarity of time series
US8285719B1 (en) 2008-08-08 2012-10-09 The Research Foundation Of State University Of New York System and method for probabilistic relational clustering
WO2010093943A1 (en) 2009-02-12 2010-08-19 Ibis Biosciences, Inc. Ionization probe assemblies
US9085798B2 (en) 2009-04-30 2015-07-21 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
US10013641B2 (en) * 2009-09-28 2018-07-03 Oracle International Corporation Interactive dendrogram controls
US10552710B2 (en) 2009-09-28 2020-02-04 Oracle International Corporation Hierarchical sequential clustering
US20110091882A1 (en) * 2009-10-02 2011-04-21 Ibis Biosciences, Inc. Determination of methylation status of polynucleotides
WO2011059285A2 (ko) * 2009-11-16 2011-05-19 (주)지노믹트리 지노타이핑 방법
US20190300945A1 (en) 2010-04-05 2019-10-03 Prognosys Biosciences, Inc. Spatially Encoded Biological Assays
US10787701B2 (en) 2010-04-05 2020-09-29 Prognosys Biosciences, Inc. Spatially encoded biological assays
PT2556171E (pt) 2010-04-05 2015-12-21 Prognosys Biosciences Inc Ensaios biológicos codificados espacialmente
US20110295902A1 (en) * 2010-05-26 2011-12-01 Tata Consultancy Service Limited Taxonomic classification of metagenomic sequences
US10488377B2 (en) * 2011-03-11 2019-11-26 Leco Corporation Systems and methods to process data in chromatographic systems
GB201106254D0 (en) 2011-04-13 2011-05-25 Frisen Jonas Method and product
JP5750676B2 (ja) * 2011-10-18 2015-07-22 株式会社島津製作所 細胞識別装置及びプログラム
US9893163B2 (en) * 2011-11-04 2018-02-13 Taiwan Semiconductor Manufacturing Company, Ltd. 3D capacitor and method of manufacturing same
US8812243B2 (en) 2012-05-09 2014-08-19 International Business Machines Corporation Transmission and compression of genetic data
US10353869B2 (en) 2012-05-18 2019-07-16 International Business Machines Corporation Minimization of surprisal data through application of hierarchy filter pattern
US8855938B2 (en) 2012-05-18 2014-10-07 International Business Machines Corporation Minimization of surprisal data through application of hierarchy of reference genomes
US9002888B2 (en) * 2012-06-29 2015-04-07 International Business Machines Corporation Minimization of epigenetic surprisal data of epigenetic data within a time series
US8972406B2 (en) 2012-06-29 2015-03-03 International Business Machines Corporation Generating epigenetic cohorts through clustering of epigenetic surprisal data based on parameters
US9659145B2 (en) 2012-07-30 2017-05-23 Nutech Ventures Classification of nucleotide sequences by latent semantic analysis
USRE50065E1 (en) 2012-10-17 2024-07-30 10X Genomics Sweden Ab Methods and product for optimising localised or spatial detection of gene expression in a tissue sample
US20140278133A1 (en) * 2013-03-15 2014-09-18 Advanced Throughput, Inc. Systems and methods for disease associated human genomic variant analysis and reporting
DK3013984T3 (da) 2013-06-25 2023-06-06 Prognosys Biosciences Inc Metode til bestemmelse af spatiale mønstre i biologiske targets i en prøve
US10001410B2 (en) * 2013-07-17 2018-06-19 University Of Central Florida Research Foundation, Inc. Quantitative elemental profiling in optical emission spectroscopy
WO2016007544A1 (en) * 2014-07-11 2016-01-14 Matatu, Inc. Use of a gut microbiome as a predictor of animal growth or health
US10957421B2 (en) * 2014-12-03 2021-03-23 Syracuse University System and method for inter-species DNA mixture interpretation
FI3901281T3 (fi) 2015-04-10 2023-01-31 Biologisten näytteiden spatiaalisesti eroteltu moninkertainen nukleiinihappoanalyysi
US20190228837A1 (en) * 2016-05-24 2019-07-25 The Regents Of The University Of California Rapid Genome Identification and Surveillance Systems
JP2019525896A (ja) * 2016-06-06 2019-09-12 マックス−プランク−ゲゼルシャフト・ツア・フェルデルング・デア・ヴィッセンシャフテン・エー・ファオ プロテアソーム阻害薬
EP3794597A4 (en) 2018-06-11 2022-02-23 Merck Sharp & Dohme Corp. COMPLEX MOLECULE SUBSTRUCTURE IDENTIFICATION SYSTEMS, APPARATUS AND METHODS
US11519033B2 (en) 2018-08-28 2022-12-06 10X Genomics, Inc. Method for transposase-mediated spatial tagging and analyzing genomic DNA in a biological sample
US11649485B2 (en) 2019-01-06 2023-05-16 10X Genomics, Inc. Generating capture probes for spatial analysis
US11926867B2 (en) 2019-01-06 2024-03-12 10X Genomics, Inc. Generating capture probes for spatial analysis
WO2020243579A1 (en) 2019-05-30 2020-12-03 10X Genomics, Inc. Methods of detecting spatial heterogeneity of a biological sample
WO2021091611A1 (en) 2019-11-08 2021-05-14 10X Genomics, Inc. Spatially-tagged analyte capture agents for analyte multiplexing
EP4025711A2 (en) 2019-11-08 2022-07-13 10X Genomics, Inc. Enhancing specificity of analyte binding
WO2021133842A1 (en) 2019-12-23 2021-07-01 10X Genomics, Inc. Compositions and methods for using fixed biological samples in partition-based assays
EP4424843A3 (en) 2019-12-23 2024-09-25 10X Genomics, Inc. Methods for spatial analysis using rna-templated ligation
US11732299B2 (en) 2020-01-21 2023-08-22 10X Genomics, Inc. Spatial assays with perturbed cells
US11702693B2 (en) 2020-01-21 2023-07-18 10X Genomics, Inc. Methods for printing cells and generating arrays of barcoded cells
US11821035B1 (en) 2020-01-29 2023-11-21 10X Genomics, Inc. Compositions and methods of making gene expression libraries
US12076701B2 (en) 2020-01-31 2024-09-03 10X Genomics, Inc. Capturing oligonucleotides in spatial transcriptomics
US11898205B2 (en) 2020-02-03 2024-02-13 10X Genomics, Inc. Increasing capture efficiency of spatial assays
US12110541B2 (en) 2020-02-03 2024-10-08 10X Genomics, Inc. Methods for preparing high-resolution spatial arrays
US11732300B2 (en) 2020-02-05 2023-08-22 10X Genomics, Inc. Increasing efficiency of spatial analysis in a biological sample
CN111325121B (zh) * 2020-02-10 2024-02-20 浙江迪谱诊断技术有限公司 一种核酸质谱数值处理方法
US11835462B2 (en) 2020-02-11 2023-12-05 10X Genomics, Inc. Methods and compositions for partitioning a biological sample
US11891654B2 (en) 2020-02-24 2024-02-06 10X Genomics, Inc. Methods of making gene expression libraries
US11926863B1 (en) 2020-02-27 2024-03-12 10X Genomics, Inc. Solid state single cell method for analyzing fixed biological cells
US11768175B1 (en) 2020-03-04 2023-09-26 10X Genomics, Inc. Electrophoretic methods for spatial analysis
CN115916999A (zh) 2020-04-22 2023-04-04 10X基因组学有限公司 用于使用靶向rna耗竭进行空间分析的方法
US20210333251A1 (en) * 2020-04-24 2021-10-28 Waters Technologies Ireland Limited Methods, mediums, and systems to compare data within and between cohorts
AU2021275906A1 (en) 2020-05-22 2022-12-22 10X Genomics, Inc. Spatial analysis to detect sequence variants
EP4414459A3 (en) 2020-05-22 2024-09-18 10X Genomics, Inc. Simultaneous spatio-temporal measurement of gene expression and cellular activity
WO2021242834A1 (en) 2020-05-26 2021-12-02 10X Genomics, Inc. Method for resetting an array
EP4025692A2 (en) 2020-06-02 2022-07-13 10X Genomics, Inc. Nucleic acid library methods
AU2021283184A1 (en) 2020-06-02 2023-01-05 10X Genomics, Inc. Spatial transcriptomics for antigen-receptors
US12031177B1 (en) 2020-06-04 2024-07-09 10X Genomics, Inc. Methods of enhancing spatial resolution of transcripts
WO2021252499A1 (en) 2020-06-08 2021-12-16 10X Genomics, Inc. Methods of determining a surgical margin and methods of use thereof
EP4165207B1 (en) 2020-06-10 2024-09-25 10X Genomics, Inc. Methods for determining a location of an analyte in a biological sample
EP4450639A2 (en) 2020-06-25 2024-10-23 10X Genomics, Inc. Spatial analysis of dna methylation
US11981960B1 (en) 2020-07-06 2024-05-14 10X Genomics, Inc. Spatial analysis utilizing degradable hydrogels
US11761038B1 (en) 2020-07-06 2023-09-19 10X Genomics, Inc. Methods for identifying a location of an RNA in a biological sample
US11981958B1 (en) 2020-08-20 2024-05-14 10X Genomics, Inc. Methods for spatial analysis using DNA capture
US11926822B1 (en) 2020-09-23 2024-03-12 10X Genomics, Inc. Three-dimensional spatial analysis
US11827935B1 (en) 2020-11-19 2023-11-28 10X Genomics, Inc. Methods for spatial analysis using rolling circle amplification and detection probes
AU2021409136A1 (en) 2020-12-21 2023-06-29 10X Genomics, Inc. Methods, compositions, and systems for capturing probes and/or barcodes
CN113005188A (zh) * 2020-12-29 2021-06-22 阅尔基因技术(苏州)有限公司 用一代测序评估样本dna中碱基损伤、错配和变异的方法
WO2022178267A2 (en) 2021-02-19 2022-08-25 10X Genomics, Inc. Modular assay support devices
EP4301870A1 (en) 2021-03-18 2024-01-10 10X Genomics, Inc. Multiplex capture of gene and protein expression from a biological sample
WO2022225802A1 (en) * 2021-04-20 2022-10-27 Purdue Research Foundation Multiplexed electrospray ionization sources using orthogonal injection into an electrodynamic ion funnel
EP4347879A1 (en) 2021-06-03 2024-04-10 10X Genomics, Inc. Methods, compositions, kits, and systems for enhancing analyte capture for spatial analysis
EP4377676A1 (en) * 2021-07-28 2024-06-05 John Wiley & Sons, Inc. Adaptive search mass spectrometer spectral analysis
EP4196605A1 (en) 2021-09-01 2023-06-21 10X Genomics, Inc. Methods, compositions, and kits for blocking a capture probe on a spatial array
CN114755289B (zh) * 2022-03-25 2024-08-16 浙江迪谱诊断技术有限公司 一种核酸质谱盐离子干扰评价方法
CN115078519A (zh) * 2022-05-06 2022-09-20 天津国科医工科技发展有限公司 基于迭代算法的谱峰识别方法、设备、介质及产品

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5173418A (en) * 1985-05-10 1992-12-22 Benzon Pharma, A/S Production in Escherichia coli of extracellular Serratia spp. hydrolases
GB2236186B (en) * 1989-08-22 1994-01-05 Finnigan Mat Gmbh Process and device for laser desorption of analyte molecular ions, especially of biomolecules
NZ236819A (en) * 1990-02-03 1993-07-27 Max Planck Gesellschaft Enzymatic cleavage of fusion proteins; fusion proteins; recombinant dna and pharmaceutical compositions
IT1239733B (it) * 1990-02-23 1993-11-15 Eniricerche Spa Mutanti della proteasi neutra termostabili e mezzi e metodi per la loro preparazione
WO1991017245A1 (en) * 1990-05-09 1991-11-14 Massachusetts Institute Of Technology Ubiquitin-specific protease
CA2066556A1 (en) * 1991-04-26 1992-10-27 Toyoji Sawayanagi Alkaline protease, method for producing the same, use thereof and microorganism producing the same
US5846717A (en) * 1996-01-24 1998-12-08 Third Wave Technologies, Inc. Detection of nucleic acid sequences by invader-directed cleavage
US5646020A (en) * 1992-05-14 1997-07-08 Ribozyme Pharmaceuticals, Inc. Hammerhead ribozymes for preferred targets
US5792664A (en) * 1992-05-29 1998-08-11 The Rockefeller University Methods for producing and analyzing biopolymer ladders
US5605798A (en) * 1993-01-07 1997-02-25 Sequenom, Inc. DNA diagnostic based on mass spectrometry
US5547835A (en) * 1993-01-07 1996-08-20 Sequenom, Inc. DNA sequencing by mass spectrometry
AU687801B2 (en) * 1993-03-19 1998-03-05 Sequenom, Inc. DNA sequencing by mass spectrometry via exonuclease degradation
CA2122203C (en) * 1993-05-11 2001-12-18 Melinda S. Fraiser Decontamination of nucleic acid amplification reactions
US5874283A (en) * 1995-05-30 1999-02-23 John Joseph Harrington Mammalian flap-specific endonuclease
AU708821B2 (en) * 1995-07-11 1999-08-12 Forfas Glycosylase mediated detection of nucleotide sequences at candidate loci
US6024925A (en) * 1997-01-23 2000-02-15 Sequenom, Inc. Systems and methods for preparing low volume analyte array elements
US5888795A (en) * 1997-09-09 1999-03-30 Becton, Dickinson And Company Thermostable uracil DNA glycosylase and methods of use
US20020009394A1 (en) 1999-04-02 2002-01-24 Hubert Koster Automated process line
IL153189A0 (en) * 2000-06-19 2003-06-24 Correlogic Systems Inc Heuristic method of classification
JP2002214196A (ja) * 2001-01-18 2002-07-31 Hitachi Ltd Dna解析システム
WO2003066882A2 (en) * 2002-02-06 2003-08-14 Tethys Bioscience, Inc. Method and apparatus for validating dna sequences without sequencing
US20050026173A1 (en) * 2003-02-27 2005-02-03 Methexis Genomics, N.V. Genetic diagnosis using multiple sequence variant analysis combined with mass spectrometry
JP2004259119A (ja) * 2003-02-27 2004-09-16 Internatl Business Mach Corp <Ibm> 塩基配列のスクリーニングを行うためのコンピュータ・システム、そのための方法、該方法をコンピュータに対して実行させるためのプログラムおよび該プログラムを記憶したコンピュータ可読な記録媒体
US9394565B2 (en) * 2003-09-05 2016-07-19 Agena Bioscience, Inc. Allele-specific sequence variation analysis
US20050186588A1 (en) * 2003-10-16 2005-08-25 Third Wave Technologies, Inc. Direct nucleic acid detection in bodily fluids
US9249456B2 (en) * 2004-03-26 2016-02-02 Agena Bioscience, Inc. Base specific cleavage of methylation-specific amplification products in combination with mass analysis
AU2005233598B2 (en) * 2004-04-09 2010-09-30 Trustees Of Boston University Method for De novo detection of sequences in nucleic acids:target sequencing by fragmentation
CN1661101A (zh) * 2004-12-16 2005-08-31 上海交通大学 与计算机杂合的dna表面计算用寡核苷酸芯片的制备方法
KR100673811B1 (ko) * 2005-05-11 2007-01-24 한국표준과학연구원 유전자 내 메틸 시토신의 정량 분석방법 및 이의 사용용도
US8849576B2 (en) * 2006-04-28 2014-09-30 Hakima Amri Phylogenetic analysis of mass spectrometry or gene array data for the diagnosis of physiological conditions
US7991223B2 (en) * 2006-09-05 2011-08-02 Bruker Daltonik Gmbh Method for training of supervised prototype neural gas networks and their use in mass spectrometry

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102576389A (zh) * 2009-10-21 2012-07-11 皇家飞利浦电子股份有限公司 用于扩增反应的分析工具
CN102576389B (zh) * 2009-10-21 2016-08-03 皇家飞利浦电子股份有限公司 用于扩增反应的分析工具
CN101950326B (zh) * 2010-09-10 2015-10-21 重庆大学 基于Hurst指数的DNA序列相似性检测方法
CN101950326A (zh) * 2010-09-10 2011-01-19 重庆大学 基于Hurst指数的DNA序列相似性检测方法
CN103389335A (zh) * 2012-05-11 2013-11-13 中国科学院大连化学物理研究所 一种鉴定生物大分子的分析装置和方法
CN104053787A (zh) * 2012-05-23 2014-09-17 深圳华大基因医学有限公司 鉴定双胞胎类型的方法和系统
CN104871164B (zh) * 2012-10-24 2019-02-05 南托米克斯有限责任公司 处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统
CN104871164A (zh) * 2012-10-24 2015-08-26 考利达基因组股份有限公司 处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统
CN104239748A (zh) * 2013-06-19 2014-12-24 三星Sds株式会社 考虑失配的碱基序列对准系统及方法
CN105358974A (zh) * 2013-07-09 2016-02-24 旦华科技有限公司 利用核酸裂解后片段分子量进行物种鉴定的方法
WO2015003531A1 (zh) * 2013-07-09 2015-01-15 旦华科技有限公司 利用核酸裂解后片段分子量进行物种鉴定的方法
CN105358974B (zh) * 2013-07-09 2018-04-03 旦华科技有限公司 利用核酸裂解后片段分子量进行物种鉴定的方法
CN104951667A (zh) * 2014-03-28 2015-09-30 国际商业机器公司 一种用于分析蛋白质序列的性质的方法和装置
CN104951667B (zh) * 2014-03-28 2018-04-17 国际商业机器公司 一种用于分析蛋白质序列的性质的方法和装置
CN107710206B (zh) * 2015-06-02 2022-08-02 皇家飞利浦有限公司 用于根据生物学数据的亚群检测的方法、系统和装置
CN107710206A (zh) * 2015-06-02 2018-02-16 皇家飞利浦有限公司 用于根据生物学数据的亚群检测的方法、系统和装置
CN108348166A (zh) * 2015-09-09 2018-07-31 优比欧迈公司 用于与抗生素使用相关的感染性疾病及其它健康状况的源自微生物群系的诊断及治疗方法和系统
CN108348166B (zh) * 2015-09-09 2022-06-03 普梭梅根公司 用于与抗生素使用相关的感染性疾病及其它健康状况的源自微生物群系的诊断及治疗方法和系统
US11773455B2 (en) 2015-09-09 2023-10-03 Psomagen, Inc. Method and system for microbiome-derived diagnostics and therapeutics infectious disease and other health conditions associated with antibiotic usage
CN107688727A (zh) * 2016-08-05 2018-02-13 深圳华大基因股份有限公司 生物序列聚类和全长转录组中转录本亚型识别方法和装置
CN110431400A (zh) * 2016-08-22 2019-11-08 高地创新公司 利用基质辅助激光解吸/离子化飞行时间质谱仪进行数据库管理
CN106845155A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置
CN106845155B (zh) * 2016-12-29 2021-11-16 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置
CN109283238A (zh) * 2017-07-21 2019-01-29 日本株式会社日立高新技术科学 质量分析装置和质量分析方法
CN109283238B (zh) * 2017-07-21 2023-02-28 日本株式会社日立高新技术科学 质量分析装置和质量分析方法
US12037636B2 (en) 2018-07-19 2024-07-16 Oxford Nanopore Technologies Plc Polynucleotide synthesis method, kit and system
CN112437814A (zh) * 2018-07-19 2021-03-02 牛津纳米孔科技公司 多核苷酸合成方法、试剂盒和系统
CN108918928B (zh) * 2018-09-11 2020-11-10 广东石油化工学院 一种负荷分解中功率信号自适应重构方法
CN108918928A (zh) * 2018-09-11 2018-11-30 广东石油化工学院 一种负荷分解中功率信号自适应重构方法
WO2021196358A1 (zh) * 2020-04-02 2021-10-07 上海之江生物科技股份有限公司 微生物目标片段中特异性区域的识别方法、装置及应用
CN113409891A (zh) * 2021-05-25 2021-09-17 电子科技大学长三角研究院(衢州) DNA6mA修饰类别的预测方法、装置、设备和存储介质
CN113223618A (zh) * 2021-05-26 2021-08-06 予果生物科技(北京)有限公司 基于宏基因组的临床重要致病菌毒力基因检测的方法及系统
CN113887251A (zh) * 2021-09-29 2022-01-04 内蒙古工业大学 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法
CN113887251B (zh) * 2021-09-29 2024-07-05 内蒙古工业大学 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法

Also Published As

Publication number Publication date
EP2145180B1 (en) 2013-12-04
HK1140264A1 (zh) 2010-10-08
US20130337456A1 (en) 2013-12-19
AU2008240143A1 (en) 2008-10-23
CA2684217A1 (en) 2008-10-23
EP2145180A4 (en) 2011-11-16
AU2008240143B2 (en) 2013-10-03
CA2684217C (en) 2016-12-13
WO2008128111A1 (en) 2008-10-23
EP2145180A1 (en) 2010-01-20
CN101680872B (zh) 2015-05-13
US20090006002A1 (en) 2009-01-01

Similar Documents

Publication Publication Date Title
CN101680872B (zh) 序列比较分析方法和系统
CN1774511B (zh) 用于序列变异检测和发现的基于断裂的方法和系统
US8551738B2 (en) Systems and methods for rapid identification of nucleic acid variants
AU2004235331B2 (en) Fragmentation-based methods and systems for De Novo sequencing
AU776811C (en) Methods for generating databases and databases for identifying polymorphic genetic markers
US20150005194A1 (en) Methods for generating databases and databases for identifying polymorphic genetic markers
JP2010503399A (ja) 病原体の同定のための標的全ゲノム増幅方法
JP2019083820A (ja) 少量の対立遺伝子および多型の同定ならびに定量のためのマルチプレックス法
WO2005024068A2 (en) Allele-specific sequence variation analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: California, USA

Patentee after: Agena Bioscience, Inc.

Address before: California, USA

Patentee before: Bioscience Acquisition Co.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20190521

Address after: California, USA

Patentee after: Bioscience Acquisition Co.

Address before: California, USA

Patentee before: SEQUENOM, Inc.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150513

Termination date: 20200411

CF01 Termination of patent right due to non-payment of annual fee