CN105408908A - 用于局部序列比对的方法和系统 - Google Patents

用于局部序列比对的方法和系统 Download PDF

Info

Publication number
CN105408908A
CN105408908A CN201480025707.6A CN201480025707A CN105408908A CN 105408908 A CN105408908 A CN 105408908A CN 201480025707 A CN201480025707 A CN 201480025707A CN 105408908 A CN105408908 A CN 105408908A
Authority
CN
China
Prior art keywords
point penalty
group
comparison
sequence
template polynucleotide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480025707.6A
Other languages
English (en)
Inventor
C·科勒
Z·张
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Life Technologies Corp
Original Assignee
Life Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Life Technologies Corp filed Critical Life Technologies Corp
Publication of CN105408908A publication Critical patent/CN105408908A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

一种核酸测序的方法包括:(a)将多个模板多核苷酸链安置在于传感器阵列上安置的多个限定空间中,所述模板多核苷酸链中的至少一些具有测序引物和与所述引物可操作地结合的聚合酶;(b)使具有所述测序引物和与所述引物可操作地结合的聚合酶的所述模板多核苷酸链暴露于根据预定排序流动的一系列核苷酸物质流;(c)基于所述核苷酸物质流测定所述限定空间中的多个所述模板多核苷酸链的序列信息以产生对应于所述模板多核苷酸链的多个测序读数;以及(d)使用包含基于序列的生物变化的第一组比对准则或罚分和基于测序错误模式的第二组比对准则或罚分的比对方法比对所述多个测序读数。

Description

用于局部序列比对的方法和系统
技术领域
本发明总体上涉及包括用于局部序列比对的系统和方法的核酸测序领域。
相关申请
本申请涉及2013年3月12日提交的美国临时申请第61/778,130号,其以全文引用的方式并入本文中。
背景技术
在完成人类基因组项目(HumanGenomeProject)后,测序行业的一个焦点已转移到发现较高通量和/或较低成本核酸测序技术,有时称为“下一代”测序(NGS)技术。在使得测序通量更高和/或更便宜中,目标是使得技术更可获得。这些目标可以通过使用对具有显著复杂度的样品提供样品制备、并行地对较大数目的样品测序(例如通过使用条码和多重分析)和/或有效处理大量信息并且以及时方式完成分析的测序平台和方法达到。进化形成各种方法,如合成测序、杂交测序以及连接测序来满足这些挑战。
并入NGS技术的超高通量核酸测序系统通常产生大量短序列读数。序列处理方法应合意地快速并且有效地装配和/或映射大量读数,以使得计算资源的使用最小化。举例来说,由对哺乳动物基因组测序产生的数据可以产生数千万或数亿读数,所述读数通常需要在其可以进一步经分析以确定其生物、诊断和/或治疗相关性之前经装配。
NGS技术的示例性应用包括(但不限于):基因组变异体检测,如插入/缺失、拷贝数变异、单核苷酸多态性等;基因组重测序;基因表达分析;以及基因组剖析。
因此,需要可以有效地处理并且分析大量与核酸序列分析相关的数据并且更具体地说,比对或映射各种长度的核酸片段或序列的其它数据分析方法和系统。另外,需要可以有效地处理指示电子检测化学反应(例如核苷酸并入事件)的数据和信号并且将这些信号转变成其它数据和信息(例如碱基识别和核酸序列信息和读数,其然后可例如针对参考基因组比对)的新颖数据分析方法和系统。
发明内容
根据前文,本发明教示提供用于核酸序列分析的新颖和改进的方法和系统,其可以处理并且分析反映与核苷酸并入事件相关的电子检测化学标靶和/或反应副产物的数据而不需要外源标签或染料来使相关核酸序列表征。在各种实施例中,本发明教示描述可以处理这类数据和其各种形式(包括核苷酸流动次序)以比对或映射相关核酸片段的方法和系统。这些方法也可以应用到常规测序技术并且确切地说,合成测序技术。
在各种实施例中,本发明教示描述一种针对候选参考核酸序列比对样品核酸模板或其补体的推定核酸序列或片段的方法。
本发明教示的许多实施例包括一种具有存储在其上的计算机可读指令以便由处理器执行来进行本文所描述的各种方法的计算机可用媒体。
所述方法还可以包括发送、显示、存储或印刷;或输出涉及比对和与比对相关的信息(如样品核酸模板、信号、限定空间、基质以及其等效物)中的一个或多个的信息到用户接口装置、计算机可读存储媒体、局部计算机系统或远程计算机系统。
本发明教示还包括一种具有存储在其上的计算机可读指令以便由处理器执行来进行本发明教示的方法的不同实施例的计算机可用媒体。应理解除非从论述的上下文另外理解,否则本文所描述的信号一般指非暂时性信号,例如电子信号。
在用于核酸序列分析的本发明教示的系统的各种实施例中,校准器模块可以经配置以实践和/或进行如本文所描述并且如所属领域的技术人员所理解的本发明和/或教示的各种方法。
应理解,以上一般描述和以下详细描述均仅是示例性和解释性的并且并不打算限制本发明教示的范围。
附图说明
为了更完整地理解本文所公开的原理和其优点,现在参考下文结合附图进行的描述,其中:
图1是说明根据各种实施例的示例性计算机系统的框图。
图2是根据各种实施例重构核酸序列的例示性系统的示意图。
图3是根据各种实施例的示例性基因分析系统的示意图。
图4是说明根据各种实施例的鉴别拷贝数变异的示例性方法的流程图。
应理解,图式不一定按比例绘制,图式中的物件也不一定关于彼此按比例绘制。图式是打算使得对本文所公开的设备、系统以及方法的各种实施例明晰和理解的描绘。在可能的情况下,将贯穿图式使用相同的参考数字来指代相同或类似的部分。此外,应了解,附图并不打算以任何方式限制本发明教示的范围。
具体实施方式
本文描述用于映射和比对序列读数并且鉴别序列变异体的系统和方法的实施例。
本文所用的章节标题仅用于组织目的并且不应理解为以任何方式限制所描述的主题。
在各种实施例的这一详细描述中,出于解释的目的,阐述许多特定细节以提供所公开的实施例的透彻理解。然而,所属领域的技术人员将了解,这些各种实施例可以在具有或不具有这些特定细节的情况下实践。在其它情况下,结构和装置以框图形式展示。此外,所属领域的技术人员可以容易地了解的是呈现和进行方法的特定顺序是说明性的并且预期顺序可以改变并且仍保持在本文所公开的各种实施例的精神和范围内。
本申请中引用的所有文献和类似材料(包括(但不限于)专利、专利申请、文章、书籍、论文以及因特网网页)出于任何目的明确以全文引用的方式并入。除非另外描述,否则本文所用的所有技术和科学术语具有与本文所描述的各种实施例所属的领域的一般技术人员通常所了解相同的含义。
在本发明的各种方面中,核酸测序的方法可以包括(a)将多个模板多核苷酸链安置在于传感器阵列上安置的多个限定空间中,所述模板多核苷酸链中的至少一些具有测序引物和与所述引物可操作地结合的聚合酶;(b)使具有测序引物和与所述引物可操作地结合的聚合酶的模板多核苷酸链暴露于根据预定排序流动的一系列核苷酸物质流;以及(c)基于核苷酸物质流测定限定空间中的多个模板多核苷酸链的序列信息以产生对应于模板多核苷酸链的多个测序读数。所述方法可以进一步包括(d)使用包含基于序列的生物变化的第一组比对准则或罚分和基于测序错误模式的第二组比对准则或罚分的比对方法比对多个测序读数。
在本发明的各种方面中,非暂时性机器可读存储媒体可以包含在由处理器执行时可以致使处理器进行包括以下的核酸测序方法的指令:(a)将多个模板多核苷酸链安置在于传感器阵列上安置的多个限定空间中,所述模板多核苷酸链中的至少一些具有测序引物和与所述引物可操作地结合的聚合酶;(b)使具有测序引物和与所述引物可操作地结合的聚合酶的模板多核苷酸链暴露于根据预定排序流动的一系列核苷酸物质流;以及(c)基于核苷酸物质流测定限定空间中的多个模板多核苷酸链的序列信息以产生对应于模板多核苷酸链的多个测序读数。所述方法可以进一步包括(d)使用包含基于序列的生物变化的第一组比对准则或罚分和基于测序错误模式的第二组比对准则或罚分的比对方法比对多个测序读数。
在本发明的各种方面中,系统可以包括机器可读存储器和处理器。处理器可以经配置以执行当由处理器执行时可以致使系统进行包括以下的核酸测序方法的机器可读指令:(a)将多个模板多核苷酸链安置在于传感器阵列上安置的多个限定空间中,所述模板多核苷酸链中的至少一些具有测序引物和与所述引物可操作地结合的聚合酶;(b)使具有测序引物和与所述引物可操作地结合的聚合酶的模板多核苷酸链暴露于根据预定排序流动的一系列核苷酸物质流;以及(c)基于核苷酸物质流测定限定空间中的多个模板多核苷酸链的序列信息以产生对应于模板多核苷酸链的多个测序读数。所述方法可以进一步包括(d)使用包含基于序列的生物变化的第一组比对准则或罚分和基于测序错误模式的第二组比对准则或罚分的比对方法比对多个测序读数。
在各种实施例中,第一组比对准则或罚分可以包括对匹配碱基用记分并且对插入、缺失或失配碱基用罚分的准则。在各种实施例中,第一组比对准则或罚分包含可以在每一碱基水平上指派的准则。在各种实施例中,第一组比对准则或罚分可以包括指派给单核苷酸置换的与插入或缺失不同的罚分。在各种实施例中,第一组比对准则或罚分可以包括使用的仿射空位罚分,其中对空位的存在施加较大罚分并且对空位长度增加的每个碱基施加较小罚分。
在各种实施例中,第二组比对准则或罚分包含随均聚物长度而减少的罚分。在各种实施例中,第二组比对准则或罚分可以包括取决于两种均聚物的长度的绝对差的罚分。在各种实施例中,第二组比对准则或罚分可以包括取决于两种均聚物的长度的相对差的罚分。在各种实施例中,第二组比对准则或罚分可以包括针对如下序列变化减小的罚分,所述序列变化不改变鉴于预定排序随后均聚物并入的流。
应了解,在本发明教示中论述的温度、浓度、时间、碱基数目、覆盖度等之前存在隐含的“约”,使得略微和非实质偏差在本发明教示的范围内。在本申请中,除非另外明确陈述,否则单数的使用包括复数。此外,“包含(comprise/comprises/comprising)”、“含有(contain/contains/containing)”以及“包括(include/includes/including)”的使用并不打算是限制性的。应理解,以上一般描述和以下详细描述均仅是示例性和解释性的并且并不限制本发明教示。
如本文所用,“一(a/an)”也可指“至少一”或“一或多”。此外,“或”的使用是包括性的,使得当“A”真实、“B”真实,或“A”和“B”都真实时,短语“A或B”真实。
此外,除非上下文另外需要,否则单数术语应包括复数并且复数术语应包括单数。一般来说,本文所描述的与细胞和组织培养、分子生物学以及蛋白质和寡核苷酸或多核苷酸化学和杂交结合使用的命名法和技术为所属领域中众所周知并且常用的命名法和技术。标准技术用于例如核酸纯化和制备、化学分析、重组核酸以及寡核苷酸合成。酶促反应和纯化技术根据制造商的说明书或如所属领域中通常所实现或如本文所描述来进行。本文所描述的技术和程序一般根据所属领域中众所周知和如本发明的说明书通篇中所引用和论述的各种一般性和较特定的参考文献中所描述的常规方法来执行。参看例如萨姆布鲁克(Sambrook)等人,《分子克隆实验指南》(MolecularCloning:ALaboratoryManual)(第三版,冷泉港实验室出版社(ColdSpringHarborLaboratoryPress),纽约州冷泉港(ColdSpringHarbor,N.Y.)2000)。结合本文所描述的实验室程序和技术使用的命名法是所属领域中众所周知并且常用的命名法。
阐述一组组分的“系统”(真实或抽象)包含一个整体,其中每一组分与整体内的至少一个其它组分相互作用或与其相关。
“生物分子”可以指通过生物有机体产生的任何分子,包括大聚合分子,如蛋白质、多糖、脂质和核酸(DNA和RNA)以及小分子,如初级代谢物、次级代谢物以及其它天然产物。
短语“下一代测序”或NGS是指相比于传统的基于桑格(Sanger)和毛细电泳法的方法具有增加的通量,例如具有一次产生数十万相对较小序列读数的能力的测序技术。下一代测序技术的一些实例包括(但不限于)合成测序、连接测序以及杂交测序。更确切地说,生命技术公司(LifeTechnologiesCorp.)的个人基因组机器(PersonalGenomeMachine;PGM)提供具有增强的精确性的大规模平行测序。PGM系统和相关工作流、方案、化学反应等更详细地描述于美国专利申请公开第2009/0127589号和第2009/0026082号中,这些申请中的每一个的全部内容以引用的方式并入本文中。
短语“测序运行”是指经进行以确定与至少一个生物分子(例如核酸分子)相关的一些信息的测序实验的任何步骤或部分。
相“碱基空间”是指核苷酸序列的表示。相“流动空间”是指特定核苷酸流动的并入事件或非并入事件的表示。举例来说,流动空间可以是表示特定核苷酸流动的核苷酸并入事件(如一,“1”)或非并入事件(如零,“0”)的一系列值。具有非并入事件的核苷酸流动可以称为空流,并且具有核苷酸并入事件的核苷酸流动可以称为正流。应理解,零和一是非并入事件和核苷酸并入事件的方便表示;然而,任何其它符号或标识可以替代地用于表示和/或鉴别这些事件和非事件。确切地说,当多个核苷酸在给定位置并入时,如对于均聚物拉伸,值可以与核苷酸并入事件数目因此因此与均聚物拉伸长度成比例。
DNA(脱氧核糖核酸)是由4种类型的核苷酸组成的核苷酸链;A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)以及G(鸟嘌呤),并且RNA(核糖核酸)由4种类型的核苷酸组成;A、U(尿嘧啶)、G以及C。某些对的核苷酸以互补方式特定地彼此结合(称作互补碱基配对)。也就是说,腺嘌呤(A)与胸腺嘧啶(T)配对(然而,在RNA的情况下,腺嘌呤(A)与尿嘧啶(U)配对),并且胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链结合到由与第一链中的核苷酸互补的核苷酸组成的第二核酸链时,两个链结合以形成双链。如本文所用,“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”或“片段序列”或“核酸测序读数”表示指示核苷酸碱基(例如腺嘌呤、鸟嘌呤、胞嘧啶以及胸腺嘧啶/尿嘧啶)在DNA或RNA分子(例如全基因组、全转录组、外显子组、寡核苷酸、多核苷酸、片段等)中的排序的任何信息或数据。应理解,本发明教示涵盖使用包括(但不限于)以下的所有可用种类的技巧、平台或技术获得的序列信息:毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统等。
“多核苷酸”、“核酸”或“寡核苷酸”是指通过核苷间键接合的核苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。通常,多核苷酸包含至少三个核苷。通常,寡核苷酸的大小在几个单体单元,例如3-4个到几百个单体单元范围内。每当多核苷酸(如寡核苷酸)由一连串字母,如“ATGCCTG”表示时,应了解,除非另外指出,否则核苷酸按从左到右的5'->3'次序并且“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,并且“T”表示胸苷。如在所属领域中标准的,字母A、C、G以及T可用于指碱基本身、核苷或包含碱基的核苷酸。
如本文所用,“体细胞变异”或“体细胞突变”可以指由出现于非生殖系细胞中的突变产生的基因序列的变异。变异可以通过有丝分裂传递到子细胞。这可以产生与有机体的其余细胞具有基因差异的一组细胞。另外,由于变异不出现于生殖系细胞中,突变可能不被后代有机体继承。
计算机实施系统
图1是说明计算机系统100的框图,本发明教示的实施例可以在所述系统上实施。在各种实施例中,计算机系统100可以包括总线102或其它传达信息的通信机构,和与总线102耦合用于处理信息的处理器104。在各种实施例中,计算机系统100也可以包括存储器106,其可以是随机存取存储器(RAM)或其它动态存储装置,耦合到总线102以确定基础呼叫,和被处理器104执行的指令。存储器106也可用于在执行被处理器104执行的指令期间存储暂时变量或其它中间信息。在各种实施例中,计算机系统100可以进一步包括耦合到总线102以存储用于处理器104的静态信息和指令的只读存储器(ROM)108或其它静态存储装置。存储装置110(如磁盘或光盘)可以被提供并且耦合到总线102以存储信息和指令。
在各种实施例中,处理器104可以包括多个逻辑门。逻辑门可以包括“与”门(ANDgate)、“或”门(ORgate)、“非”门(NOTgate)、“与非”门(NANDgate)、“或非”门(NORgate)、“异或”门(EXORgate)、“异非”门(EXNORgate)或其任何组合。“与”门仅当所有输入较高时才产生高输出。如果输入中的一个或多个高,那么“或”门产生高输出。“非”门可以产生输入与输出的倒版,如当输入低时输出高值。“与非”门(NAND/NOT-ANDgate)可以产生逆与输出,使得输出将在任何输入低时高。“或非”(NOR/NOT-OR)门可以产生逆或输出,使得“或非”门输出在任何输入高时低。“异或”(EXOR/Exclusive-OR)门可以在任一输入,但并非两个输入高时产生高输出。“异非”(EXNOR/Exclusive-NOR)门可以产生逆异或输出,使得输出在任一输入,但并非两个输入高时低。
表1:逻辑门真值表
所属领域的技术人员将了解,逻辑门可以各种组合使用以进行比较、运算操作等。另外,所属领域的技术人员将了解如何对使用逻辑门的各种组合排序以进行复杂方法,如本文所描述的方法。
在一个实例中,可以使用“同或”门(XNORgate)进行1位二进制比较,因为结果仅在两个输入相同时高。两个多位值的比较可以通过使用多个“同或”门比较每对位,并且组合“同或”门使用和“与”门的输出,使得结果仅在每对位具有相同值时真实来进行。如果任何对的位不具有相同值,那么对应“同或”门的结果可能低,并且接收低输入的“与”门的输出可能低。
在另一个实例中,1位加法器可以使用“与”门和“异或”门的组合实施。确切地说,1位加法器可以接收三个输入,两个待相加的位(A和B)和进位位(Cin),和两个输出,总和(S)和进位输出位(Cout)。Cin位可以对于两个一位值的相加设定为0,或可用于将多个1位加法器耦合在一起以通过从较低阶加法器接收Cout将两个多位值相加。在一个示例性实施例中,S可以通过将A和B输入应用到“异或”门,并且随后将结果和Cin应用到另一个“异或”门实施。Cout可以通过将A和B输入应用到“与”门,将来自总和的A-BXOR的结果和Cin应用到另一个AND,并且将“与”门的输入应用到“异或”门来实施。
表2:1位加法器真值表
在各种实施例中,计算机系统100可以经由总线102耦合到显示器112,如阴极射线管(CRT)或液晶显示器(LCD)以将信息显示到计算机用户。包括字母数字键和其它键的输入装置114可以耦合到总线102以传达信息和命令选择到处理器104。另一类型的用户输入装置是光标控制器116,如鼠标、跟踪球或光标方向键,其用于传达方向信息和命令选择到处理器104和控制显示器112上的光标移动。这一输入装置通常具有在两个轴,第一轴(即x)和第二轴(即y)中的两个自由度,允许装置在平面中指定位置。
计算机系统100可以执行本发明教示。与本发明教示的某些实施方案一致,结果可以响应于处理器104执行存储器106中含有的一个或多个指令的一个或多个序列而由计算机系统100提供。这类指令可以从另一个计算机可读媒体,如存储装置110读取到存储器106中。执行存储器106中含有的指令序列可以使得处理器104进行本文所描述的方法。在各种实施例中,存储器中的指令可以对处理器内可用的逻辑门的各种组合的使用排序以进行本文描述的方法。或者,可以使用硬连线电路代替或结合软件指令以实施本发明教示。在各种实施例中,硬连线电路可以包括所需逻辑门,其以所需顺序操作以进行本文所描述的方法。因此,本发明教示的实施方案不限于硬件电路和软件的任何特定组合。
如本文所用的术语“计算机可读媒体”是指参与将指令提供到处理器104以供执行的任何媒体。这类媒体可以呈许多形式,包括(但不限于)非易失性媒体、易失性媒体以及传输媒体。非易失性媒体的实例可以包括(但不限于)光盘或磁盘,如存储装置110。易失性媒体的实例可以包括(但不限于)动态存储器,如存储器106。传输媒体的实例可以包括(但不限于)同轴电缆、铜线以及光纤,包括包含总线102的导线。
非暂时性计算机可读媒体的常见形式包括(例如)软盘、软磁盘、硬盘、磁带、或任何其它磁性媒体、CD-ROM、任何其它光学媒体、穿孔卡片、纸带、具有孔洞图案的任何其它物理媒体、RAM、PROM和EPROM、闪存EEPROM、任何其它存储器芯片或盒带或计算机可以读取的任何其它有形媒体。
根据各种实施例,经配置以被处理器执行以进行方法的指令存储在计算机可读媒体上。计算机可读媒体可以是存储数字信息的装置。举例来说,计算机可读媒体包括用于存储软件的如所属领域中已知的只读光盘(CD-ROM)。计算机可读媒体被适合于执行经配置以被执行的指令的处理器访问。
核酸测序平台
核酸序列数据可以使用包括(但不限于)以下的各种技巧、平台或技术产生:毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统等。
核酸测序平台的各种实施例,如核酸测序仪可以包括如图2的框图中显示的组件。根据各种实施例,测序仪器200可以包括射流递送和控制单元202、样品处理单元204、信号检测单元206以及数据采集、分析和控制单元208。用于下一代测序的仪器、试剂、库以及方法的各种实施例描述于美国专利第7,948,015号、美国专利申请公开第2010/0137143号、第2009/0026082号以及2010/0282617号中,其都以全文引用的方式并入本文中。仪器200的各种实施例可以提供可用于并行地,如实质上同时从多个序列收集序列信息的自动化测序。
在各种实施例中,射流递送和控制单元202可以包括试剂递送系统。试剂递送系统可以包括用于各种试剂的存储的试剂储集器。试剂可以包括基于RNA的引物、正向/反向DNA引物、用于连接测序的寡核苷酸混合物、用于合成测序的核苷酸混合物、任选的ECC寡核苷酸混合物、缓冲剂、洗涤试剂、阻断试剂、汽提试剂等。另外,试剂递送系统可以包括移液系统或连续流动系统,其连接样品处理单元与试剂储集器。
在各种实施例中,样品处理单元204可以包括样品室,如流槽、基质、微阵列、多孔盘等。样品处理单元204可以包括多个通道、多个槽道、多个孔或其它实质上同时处理多个样品集的手段。另外,样品处理单元可以包括多个样品室以使得能够同时处理多个运行。在特定实施例中,系统可以对一个样品室进行信号检测,并实质上同时处理另一个样品室。另外,样品处理单元可以包括用于移动或操控样品室的自动化系统。
在各种实施例中,信号检测单元206可以包括成像或检测传感器。举例来说,成像或检测传感器可以包括CCD、CMOS、离子或化学传感器,如覆盖CMOS或FET的离子敏感层、电流或电压检测器等。信号检测单元206可以包括励磁系统以引起探针,如荧光染料发射信号。励磁系统可以包括照明源,如弧光灯、激光、发光二极管(LED)等。在特定实施例中,信号检测单元206可以包括用于将光从照明源传输到样品或从样品传输到成像或检测传感器的光学系统。或者,信号检测单元206可以提供基于电子或非光子的检测方法并且因此不包括照明源。在各种实施例中,基于电子的信号检测可以在测序反应期间产生可检测信号或物质时进行。举例来说,信号可以通过与离子或化学敏感层相互作用的释放副产物或部分,如释放离子,如氢离子的相互作用产生。在其它实施例中,可检测信号可以由于如用于焦磷酸测序(参见例如美国专利申请公开第2009/0325145号,其全部内容以引用的方式并入本文中)中的酶促级联产生,其中焦磷酸酯通过聚合酶的碱基并入产生,所述聚合酶进一步与ATP硫酸化酶在腺苷5′磷酰硫酸存在下反应来产生ATP,其中产生的ATP可以在荧光素酶介导的反应中耗尽来产生化学发光信号。在另一个实例中,电流的变化可以在核酸穿过纳米孔时在不需要照明源的情况下检测。
在各种实施例中,数据获取分析和控制单元208可以监视各种系统参数。系统参数可以包括仪器200的各部分,如样品处理单元或试剂储集器的温度;各种试剂的体积;各种系统子组件,如操控器、步进式电机、泵等的状态;或其任何组合。
所属领域的技术人员应了解,仪器200的各种实施例可用于实践多种测序方法,包括基于连接的方法、合成测序、单分子方法、纳米孔测序以及其它测序技术。
在各种实施例中,测序仪器200可以测定核酸,如多核苷酸或寡核苷酸的序列。核酸可以包括DNA或RNA,并且可以是单链的,如ssDNA和RNA,或双链的,如dsDNA或RNA/cDNA对。在各种实施例中,核酸可以包括或衍生自片段库、配对库、ChIP片段等。在特定实施例中,测序仪器200可以从单一核酸分子或从实质上相同的核酸分子的群组获得序列信息。
在各种实施例中,测序仪器200可以包括(但不限于)以下的多种不同输出数据文件类型/格式输出核酸测序读取数据:*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。
鉴别序列变异的系统和方法
图3是根据各种实施例的用于鉴别变异体的系统的示意图。
如本文所描绘,变异体分析系统300可以包括核酸序列分析装置304(例如核酸测序仪、实时/数字/定量PCR仪器、微阵列扫描仪等)、分析学计算服务器/节点/装置302以及显示器310和/或客户端装置终端308。
在各种实施例中,分析学计算隔断/节点/装置302可以经由网络连接324通信连接到核酸序列分析装置304和客户端装置终端308,所述网络连接可以是“硬连线”物理网络连接(例如因特网、LAN、WAN、VPN等)或无线网络连接(例如Wi-Fi、WLAN等)。
在各种实施例中,分析学计算装置/服务器/节点302可以是工作站、主机计算机、分布式计算节点(“云端计算”或分布式网络系统的一部分)、个人计算机、移动装置等。在各种实施例中,核酸序列分析装置304可以是核酸测序仪、实时/数字/定量PCR仪器、微阵列扫描仪等。然而,应理解,核酸序列分析装置304基本上可以是任何类型的可以从获自个体的样品产生核酸序列数据的仪器。
分析学计算服务器/节点/装置302可以经配置以主控任选的预处理模块312、映射模块314以及变异体识别模块316。
预处理模块312可以经配置以从核酸序列分析装置304接收并且进行处理步骤,如从流动空间转化到碱基空间,测定识别质量值,准备读取数据以便映射模块314使用等等。
映射模块314可以经配置以将核酸序列读数比对(即映射)到参考序列。一般来说,序列读数的长度实质上小于参考序列的长度。在参考序列映射/比对中,序列读数相对于现有骨干序列(例如参考序列等)装配以建立与骨干序列类似但不一定相同的序列。一旦对于有机体发现骨干序列,比较测序或再测序可用于表征有机体物种内或紧密相关物种之间的基因多样性。在各种实施例中,参考序列可以是全/部分基因组、全/部分外显子组等。与本发明相关的比对特征可以包含一种或多种描述于荷马(Homer),美国专利申请公开第2012/0197623号和尤蒂拉默鲁(Utiramerur)等人,美国专利申请第13/787,221号中的特征,所述专利申请都以全文引用的方式并入本文中。
在各种实施例中,序列读数和参考序列可以表示为碱基空间中的一连串核苷酸碱基符号。在各种实施例中,序列读数和参考序列可以表示为颜色空间中的一种或多种颜色。在各种实施例中,序列读数和参考序列可以表示为在流动空间中具有信号或数值定量分量的核苷酸碱基符号。
在各种实施例中,序列片段和参考序列的比对可以包括包含序列片段的碱基与包含参考序列的碱基之间有限数目的失配。一般来说,序列片段可以与一部分参考序列比对以使序列片段与参考序列之间的失配数目最小化。
变异体识别模块316可以包括再比对引擎318、变异体识别引擎320以及任选的后处理引擎322。在各种实施例中,变异体识别模块316可以与映射模块314通信。也就是说,变异体识别模块316可以从映射模块314请求并且接收数据和信息(通过例如数据流、数据文件、文本文件等)。在各种实施例中,变异体识别模块316可以经配置来以*.vcf、*.gff或*.hdf数据文件形式传达针对样品基因组识别的变异体。然而,应理解所识别的变异体可以使用任何文件格式传达,只要所识别的变异体信息可以解析和/或抽取用于随后处理/分析。
再比对引擎318可以经配置以从映射模块314接收映射读数,再比对流动空间中的映射读数,并且提供流动空间比对到变异体识别引擎320。在各种实施例中,映射读数可以使用局部序列比对方法,例如史密斯-沃特曼算法(参见例如史密斯和沃特曼(SmithandWaterman),《分子生物学杂志》(JournalofMolecularBiology)147(10:195-197(1981))与参考序列再比对。可以聚集所得比对以确定最佳映射或拟合优度。在具体实施例中,再比对可以针对空位和失配利用情况依赖性罚分。
变异体识别引擎320可以经配置以从再比对引擎318接收流动空间信息并且鉴别比对读数与参考序列之间的差异。在各种实施例中,变异体识别引擎可以评估潜在变异体以确定变异体是真实的并且不是测序错误的结果的可能性。评估可以涉及再评估比对到潜在变异体证据的位置的读数的流动空间信息,从比对到同一位置的多个读数统计分析变异体的载体,等等。
后处理引擎322可以经配置以接收由变异体识别引擎320鉴别的变异体并且进行额外处理步骤,如从流动空间转化到碱基空间,过滤邻近变异体,并且格式化变异体数据以便在显示器310上显示或被客户端装置308使用。后处理引擎322可以应用的过滤的实例包括最小得分临界值、包括变异体的读数的最小数目、包括变异体的读数的最小频率、最低映射质量、链机率以及区域过滤。
客户端装置308可以是瘦客户端或厚客户端计算装置。在各种实施例中,客户端终端308可以具有网页浏览器(例如INTERNETEXPLORERTM、FIREFOXTM、SAFARITM等),其可用于传达信息到使用浏览器的预处理模块312、映射模块314、再比对引擎318、变异体识别引擎320以及后处理引擎322和/或控制所述组件的操作以控制其功能。举例来说,取决于特定应用的需要,客户端终端308可以用于配置各种模块的操作参数(例如匹配评分参数、注释参数、过滤参数、数据安全和保留参数等)。类似地,客户端终端308也可以经配置以显示由变异体识别模块316和核酸测序仪304进行的分析的结果。
应理解,公开为系统300的一部分的各种数据存储可以表示基于硬件的存储装置(例如硬盘驱动器、快闪存储器、RAM、ROM、网络连接存储等)或存储在独立或联网计算装置上的数据库的实例化。
还应了解,取决于特定应用或系统架构的需要,显示为系统300的一部分的各种数据存储器和模块/引擎可以组合或折叠为单一模块/引擎/数据存储器。此外,在各种实施例中,如特定应用或系统架构所需要,系统300可以包含额外模块、引擎、组件或数据存储器。
在各种实施例中,系统300可以经配置以在颜色空间中处理核酸读数。在各种实施例中,系统300可以经配置以在碱基空间中处理核酸读数。在各种实施例中,系统300可以经配置以在流动空间中处理核酸序列读数。与本发明相关的数据分析方面(例如处理测量值、识别碱基等)可以包含一种或多种描述于戴维(Davey)等人,美国专利申请公开第2012/0109598号和西科拉(Sikora)等人,美国专利申请第13/588,408号和13/645,058号中的特征,所述专利申请都以全文全部引用的方式并入本文中。然而,应理解,本文所公开的系统300可以任何模式或格式处理或分析核酸序列数据,只要所述模式或格式可以表达核酸序列的碱基标识和位置。
图4是展示根据各种实施例的明显变异体源的示例性图。参考序列可以在方框402处说明。由方框404表示的生物变化可以产生由方框404表示序列变化。生物变化可以包括单核苷酸和多核苷酸多态性、插入、缺失、重排以及其它变化。已知各种生物机制造成生物变化,包括复制错误、易位、插入突变等。在测序方法期间,由方框408表示的测序错误可以引入到由方框410表示的读数中。此处错误可以由于测序数据中的噪音,或错误由于错误并入。一般来说,生物变化可以在许多读数中观察到,而测序错误可以分离到少数读数。
图5是展示根据各种实施例将序列读数与参考序列比对的方法500的示例性流程图。在402,可以将模板多核苷酸链应用到传感器阵列。在各种实施例中,模板链可以应用到传感器阵列的限定空间。一个或多个模板链可以应用到限定空间,并且一般来说,限定空间内的模板链可以具有实质上相同的核苷酸序列。另外,测序引物和核酸聚合酶可以应用到限定空间。在各种实施例中,模板链、测序引物以及核酸聚合酶可以形成核酸合成复合物。
在404,模板支架和核酸合成复合物可以预定次序暴露于一系列核苷酸物质流。与本发明相关的流动排序方面可以包含一种或多种描述于哈贝尔(Hubbell)等人,美国专利申请公开第2012/0264621号中的特征,所述美国专利申请公开以全文引用的方式并入本文中。在各种实施例中,核酸合成复合物可以并入来自匹配合成互补链中需要的下一碱基的核苷酸流的核苷酸。在具体实施例中,并入可以引起可以由传感器检测的氢离子或其它离去基的释放。可由传感器检测的离去基的量可以与并入的数目成比例,如当并入两种连续相同核苷酸时,离去基的量可以是当仅仅并入单核苷酸时离去基的量的两倍。当核苷酸流不匹配合成互补链需要的下一核苷酸时,可能不并入核苷酸并且因此不释放离去基供传感器检测。
在506,可以测定模板多核苷酸支架的测序信息以产生模板支架的序列读数。测序信息可以包括流动信息,如针对预定义核苷酸流中的每一个的多核苷酸支架记录的信号、模板或互补支架的推定碱基序列或其任何组合。
在508,序列读数可以与参考序列比对。在各种实施例中,比对方法可以包括一组基于生物变化的比对准则或罚分和一组基于测序错误模式的比对准则或罚分。与本发明相关的比对特征可以包含一种或多种描述于荷马,美国专利申请公开第2012/0197623号和尤蒂拉默鲁等人,美国专利申请第13/787,221号中的特征,所述专利申请都以全文引用的方式并入本文中。
在各种实施例中,比对方法可以涉及动态编程算法,如史密斯-沃特曼算法。所述算法可以对匹配碱基应用记分并且对插入、缺失或失配碱基应用罚分。在各种实施例中,准则或罚分可以在每一碱基水平上。罚分可以包括起始空位(插入或缺失)和延长空位的罚分。起始空位的罚分(存在空位的罚分)可能大于针对空位中的每个额外碱基引入的罚分。另外,指派给失配的罚分可能不同于指派给插入或缺失的罚分。
另外,与测序错误相关的罚分可以包括读数与参考之间的均聚物长度差的罚分。均聚物长度罚分可以随均聚物长度而减小,以使得二聚体(均聚物长度是2)的均聚物长度差可能大于当均聚物长度是7时的罚分。均聚物长度罚分可以取决于读数和参考中均聚物的长度的绝对差,或罚分可以取决于相对差。另外,与测序错误相关的罚分可以包括针对如下测序变化的减小罚分,所述测序变化不改变鉴于预定排序随后均聚物并入的流。错误识别(测序错误)可能不影响并入随后碱基的流。举例来说,T均聚物的错误识别可能不改变并入子序列碱基的流。相反,将A并入在两个T之间的生物变化可能改变并入子序列碱基的流。
在各种实施例中,应用于序列中给定位置处的不匹配的罚分可以取决于不匹配(插入/缺失与交替碱基)的类型以及序列或流动空间情况。
图6是展示根据各种实施例基于多个序列读数比对鉴别变异体的方法600的示例性流程图。在602,可以获得序列信息。在604,读数可以映射到参考序列。可以使用所属领域中已知的各种映射算法映射读数。在606,读数可以与参考序列再比对。确切地说,相较于可经优化以发现最接近匹配位置而非在特定位置处的最佳比对的映射算法,先前描述的比对算法可以优化在局部参考序列上操作的读数与参考的比对。在各种实施例中,映射算法可以鉴别在一个位置处的部分比对,并且再比对算法可以鉴别读数与参考序列的延长比对。在各种实施例中,再比对可以用于其中读数与参考之间存在大量失配或其中存在具有多个错误的比对序列的拉伸的读数上。在其它实施例中,再比对算法可以应用到所有读数。
在608,标靶序列与参考序列之间的变异体可以通过比较在参考序列的同一位置处比对的多个读数来鉴别。一般来说,含有变异体的多个读数提供比含有变异体的单一读数更强的真实变异体证据。与本发明相关的变异体鉴别特征可以包含一种或多种描述于海兰(Hyland)等人,专利申请公开第2013/0073214号;尤蒂拉默鲁等人,专利申请公开第2014/0052381号;以及布林佐(Brinza)等人,专利申请公开第2013/0345066号中的特征,所述专利申请公开都以全文引用的方式并入本文中。
在各种实施例中,本发明教示的方法可以在以如C、C++等的常规编程语言编写的软件程序和应用中实施。
虽然结合各种实施例来描述本发明教示,但是并不打算将本发明教示限制于这类实施例。相反地,如所属领域的技术人员应了解,本发明教示涵盖各种替代方案、修改以及等效物。
另外,在描述各种实施例中,说明书可能将方法和/或过程呈现为特定顺序的步骤。然而,在方法或过程不依赖于本文阐述的步骤的特定次序的程度上,方法或过程不应限于所描述的步骤的特定顺序。如所属领域的一般技术人员将了解,步骤的其它顺序可以是可能的。因此,在说明书中阐述的步骤的特定次序不应理解为对权利要求书的限制。另外,针对方法和/或过程的权利要求书不应限于以书写的次序进行其步骤,并且所属领域的技术人员可以易于了解的是顺序可以变化并且仍保持在各种实施例的精神和范围内。
本文所描述的实施例可以用包括以下的其它计算机系统配置实践:手持式装置、微处理器系统、基于微处理器或可编程消费型电子装置、微型计算机、大型主机计算机等。实施例也可以在任务通过经网络连接的远程处理装置进行的分布式计算环境中实践。
还应了解,本文所描述的实施例可以采用涉及存储在计算机系统中的数据的各种计算机实施操作。这些操作是需要物理量的物理操控的操作。通常(尽管未必),这些量呈能够被存储、转移、组合、比较以及以其它方式操控的电或磁信号的形式。另外,进行的操控通常以如产生、鉴别、确定或比较的术语提及。
形成本文所描述的实施例的一部分的操作中的任一个是适用的机器操作。本文所描述的实施例也涉及进行这些操作的装置或设备。本文所描述的系统和方法可以出于所需目的专门构建或其可以是通过存储在计算机中的计算机程序选择性地激活或配置的通用计算机。确切地说,各种通用机器可以与根据本文中的教示编写的计算机程序一起使用,或可能更方便的是构建更专门设备以进行所需操作。
某些实施例也可以体现为计算机可读媒体上的计算机可读代码。计算机可读媒体是可以存储此后可以通过计算机系统读取的数据的任何数据存储装置。计算机可读媒体的实例包括硬盘驱动器、网络连接存储(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带以及其它光学和非光学数据存储装置。计算机可读媒体也可以分布在网络耦合的计算机系统上,以使得计算机可读代码以分布方式存储和执行。

Claims (15)

1.一种核酸测序的方法,其包含:
(a)将多个模板多核苷酸链安置在于传感器阵列上安置的多个限定空间中,所述模板多核苷酸链中的至少一些具有测序引物和与所述引物可操作地结合的聚合酶;
(b)使具有所述测序引物和与所述引物可操作地结合的聚合酶的所述模板多核苷酸链暴露于根据预定排序流动的一系列核苷酸物质流;
(c)基于所述核苷酸物质流测定所述限定空间中的多个所述模板多核苷酸链的序列信息以产生对应于所述模板多核苷酸链的多个测序读数;以及
(d)使用包含基于序列的生物变化的第一组比对准则或罚分和基于测序错误模式的第二组比对准则或罚分的比对方法比对所述多个测序读数。
2.根据权利要求1所述的方法,其中所述第一组比对准则或罚分包含对匹配碱基用记分并且对插入、缺失或失配碱基用罚分的准则。
3.根据权利要求1所述的方法,其中所述第一组比对准则或罚分包含指派给单核苷酸置换的与插入或缺失不同的罚分。
4.根据权利要求1所述的方法,其中所述第一组比对准则或罚分包含使用的仿射空位罚分,其中对空位的存在施加较大罚分并且对所述空位在长度上增加的每个碱基施加较小罚分。
5.根据权利要求1所述的方法,其中所述第二组比对准则或罚分包含随均聚物长度而减小的罚分。
6.根据权利要求1所述的方法,其中所述第二组比对准则或罚分包含取决于两种均聚物的长度的绝对差的罚分。
7.根据权利要求1所述的方法,其中所述第二组比对准则或罚分包含取决于两种均聚物的长度的相对差的罚分。
8.根据权利要求1所述的方法,其中所述第二组比对准则或罚分包含针对如下序列变化减小的罚分,所述序列变化不改变鉴于所述预定排序随后均聚物并入的流。
9.一种非暂时性机器可读存储媒体,其包含在由处理器执行时致使处理器进行包含以下的核酸测序方法的指令:
(a)使安置在于传感器阵列上安置的多个限定空间中的多个模板多核苷酸暴露于根据预定排序流动的一系列核苷酸物质流,所述模板多核苷酸链中的至少一些具有测序引物和与所述引物可操作地结合的聚合酶;
(b)基于所述核苷酸物质流测定所述限定空间中的多个所述模板多核苷酸链的序列信息以产生对应于所述模板多核苷酸链的多个测序读数;以及
(c)使用包含基于序列的生物变化的第一组比对准则或罚分和基于测序错误模式的第二组比对准则或罚分的比对方法比对所述多个测序读数。
10.根据权利要求9所述的非暂时性机器可读存储媒体,其中所述第二组比对准则或罚分包含针对如下序列变化减小的罚分,所述序列变化不改变鉴于所述预定排序随后均聚物并入的流。
11.一种系统,其包括:
机器可读存储器;和
经配置以执行机器可读指令的处理器,所述指令当由所述处理器执行时致使所述系统进行包含以下的核酸测序方法:
(a)使安置在于传感器阵列上安置的多个限定空间中的多个模板多核苷酸暴露于根据预定排序流动的一系列核苷酸物质流,所述模板多核苷酸链中的至少一些具有测序引物和与所述引物可操作地结合的聚合酶;
(b)基于所述核苷酸物质流测定所述限定空间中的多个所述模板多核苷酸链的序列信息以产生对应于所述模板多核苷酸链的多个测序读数;以及
(c)使用包含基于序列的生物变化的第一组比对准则或罚分和基于测序错误模式的第二组比对准则或罚分的比对方法比对所述多个测序读数。
12.根据权利要求16所述的系统,其中所述第一组比对准则或罚分包含指派给单核苷酸置换的与插入或缺失不同的罚分。
13.根据权利要求16所述的系统,其中所述第一组比对准则或罚分包含使用的仿射空位罚分,其中对空位的存在施加较大罚分并且对所述空位在长度上增加的每个碱基施加较小罚分。
14.根据权利要求16所述的系统,其中所述第二组比对准则或罚分包含随均聚物长度而减小的罚分。
15.根据权利要求16所述的系统,其中所述第二组比对准则或罚分包含针对如下序列变化减小的罚分,所述序列变化不改变鉴于所述预定排序随后均聚物并入的流。
CN201480025707.6A 2013-03-12 2014-03-12 用于局部序列比对的方法和系统 Pending CN105408908A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361778130P 2013-03-12 2013-03-12
US61/778,130 2013-03-12
PCT/US2014/023918 WO2014159495A1 (en) 2013-03-12 2014-03-12 Methods and systems for local sequence alignment

Publications (1)

Publication Number Publication Date
CN105408908A true CN105408908A (zh) 2016-03-16

Family

ID=50442678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480025707.6A Pending CN105408908A (zh) 2013-03-12 2014-03-12 用于局部序列比对的方法和系统

Country Status (4)

Country Link
US (1) US20140274733A1 (zh)
EP (1) EP2973133A1 (zh)
CN (1) CN105408908A (zh)
WO (1) WO2014159495A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109790578A (zh) * 2016-10-05 2019-05-21 豪夫迈·罗氏有限公司 使用纳米晶体管的核酸测序
CN110268473A (zh) * 2017-02-08 2019-09-20 微软技术许可有限责任公司 用于所存储的多核苷酸的取回的引物设计
CN110914911A (zh) * 2017-05-16 2020-03-24 生命科技股份有限公司 压缩分子标记的核酸序列数据的方法
CN111492436A (zh) * 2017-11-08 2020-08-04 皇家飞利浦有限公司 使用k聚体在没有比对的情况下进行测序数据的快速质量控制
CN111699531A (zh) * 2018-01-12 2020-09-22 生命科技股份有限公司 通过神经网络进行流空间质量得分预测的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078577A2 (en) * 2000-04-17 2001-10-25 Vivometrics, Inc. Systems and methods for ambulatory monitoring of physiological signs
US20070200565A1 (en) * 2003-04-15 2007-08-30 Honeywell International Inc. Semiconductor Device and Magneto-Resistive Sensor Integration
US20090127589A1 (en) * 2006-12-14 2009-05-21 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes using large scale FET arrays
US20090280538A1 (en) * 2008-03-28 2009-11-12 Pacific Biosciences Of California, Inc. Methods and compositions for nucleic acid sample preparation
US20090298702A1 (en) * 2008-06-02 2009-12-03 Xing Su Nucleic acid sequencing using a compacted coding technique
CN102084001A (zh) * 2008-03-28 2011-06-01 加利福尼亚太平洋生物科学股份有限公司 用于核酸测序的组合物和方法
US20120197623A1 (en) * 2011-02-01 2012-08-02 Life Technologies Corporation Methods and systems for nucleic acid sequence analysis

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2463389A1 (en) 2006-10-20 2012-06-13 Innogenetics N.V. Methodology for analysis of sequence variations within the HCV NS5B genomic region
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US20130073214A1 (en) 2011-09-20 2013-03-21 Life Technologies Corporation Systems and methods for identifying sequence variation
US20130345066A1 (en) 2012-05-09 2013-12-26 Life Technologies Corporation Systems and methods for identifying sequence variation
US20140052381A1 (en) 2012-08-14 2014-02-20 Life Technologies Corporation Systems and Methods for Detecting Homopolymer Insertions/Deletions

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078577A2 (en) * 2000-04-17 2001-10-25 Vivometrics, Inc. Systems and methods for ambulatory monitoring of physiological signs
EP1296591A2 (en) * 2000-04-17 2003-04-02 Vivometrics, Inc. Systems and methods for ambulatory monitoring of physiological signs
US20070200565A1 (en) * 2003-04-15 2007-08-30 Honeywell International Inc. Semiconductor Device and Magneto-Resistive Sensor Integration
US20090127589A1 (en) * 2006-12-14 2009-05-21 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes using large scale FET arrays
CN101669026A (zh) * 2006-12-14 2010-03-10 离子流系统有限公司 利用大规模fet阵列测量分析物的方法和装置
US20090280538A1 (en) * 2008-03-28 2009-11-12 Pacific Biosciences Of California, Inc. Methods and compositions for nucleic acid sample preparation
CN102084001A (zh) * 2008-03-28 2011-06-01 加利福尼亚太平洋生物科学股份有限公司 用于核酸测序的组合物和方法
US20090298702A1 (en) * 2008-06-02 2009-12-03 Xing Su Nucleic acid sequencing using a compacted coding technique
US20120197623A1 (en) * 2011-02-01 2012-08-02 Life Technologies Corporation Methods and systems for nucleic acid sequence analysis

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109790578A (zh) * 2016-10-05 2019-05-21 豪夫迈·罗氏有限公司 使用纳米晶体管的核酸测序
CN109790578B (zh) * 2016-10-05 2024-04-09 豪夫迈·罗氏有限公司 使用纳米晶体管的核酸测序
CN110268473A (zh) * 2017-02-08 2019-09-20 微软技术许可有限责任公司 用于所存储的多核苷酸的取回的引物设计
CN110268473B (zh) * 2017-02-08 2023-11-07 微软技术许可有限责任公司 用于所存储的多核苷酸的取回的引物设计
CN110914911A (zh) * 2017-05-16 2020-03-24 生命科技股份有限公司 压缩分子标记的核酸序列数据的方法
CN110914911B (zh) * 2017-05-16 2023-09-22 生命科技股份有限公司 压缩分子标记的核酸序列数据的方法
CN111492436A (zh) * 2017-11-08 2020-08-04 皇家飞利浦有限公司 使用k聚体在没有比对的情况下进行测序数据的快速质量控制
CN111699531A (zh) * 2018-01-12 2020-09-22 生命科技股份有限公司 通过神经网络进行流空间质量得分预测的方法

Also Published As

Publication number Publication date
EP2973133A1 (en) 2016-01-20
US20140274733A1 (en) 2014-09-18
WO2014159495A1 (en) 2014-10-02

Similar Documents

Publication Publication Date Title
US20210292831A1 (en) Systems and methods to detect copy number variation
CN105359151B (zh) 用于确定拷贝数变异的系统和方法
Heumos et al. Best practices for single-cell analysis across modalities
US10984887B2 (en) Systems and methods for detecting structural variants
US20230410946A1 (en) Systems and methods for sequence data alignment quality assessment
US20180068061A1 (en) Systems and methods for detecting homopolymer insertions/deletions
CN107075571B (zh) 用于检测结构变异体的系统和方法
US11887699B2 (en) Methods for compression of molecular tagged nucleic acid sequence data
US20120102054A1 (en) Systems and Methods for Annotating Biomolecule Data
CN105408908A (zh) 用于局部序列比对的方法和系统
CN107111692A (zh) 用于计算经校正扩增子覆盖度的方法、系统及计算机可读媒体
US20230083827A1 (en) Systems and methods for identifying somatic mutations
Fazzini et al. Analyzing low-level MtDNA heteroplasmy—Pitfalls and challenges from bench to benchmarking
US20140088880A1 (en) Systems and Methods for Versioning Hosted Software
US11021734B2 (en) Systems and methods for validation of sequencing results
Chong et al. SeqControl: process control for DNA sequencing
US20170206313A1 (en) Using Flow Space Alignment to Distinguish Duplicate Reads
US11566281B2 (en) Systems and methods for paired end sequencing
Blaber et al. GL4HS Bioinformatics Manual

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160316

WD01 Invention patent application deemed withdrawn after publication