CN105359151B - 用于确定拷贝数变异的系统和方法 - Google Patents
用于确定拷贝数变异的系统和方法 Download PDFInfo
- Publication number
- CN105359151B CN105359151B CN201480023468.0A CN201480023468A CN105359151B CN 105359151 B CN105359151 B CN 105359151B CN 201480023468 A CN201480023468 A CN 201480023468A CN 105359151 B CN105359151 B CN 105359151B
- Authority
- CN
- China
- Prior art keywords
- coverage
- target area
- sample
- group
- ploidy state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6874—Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种鉴别拷贝数变异读数的方法包括将读数映射到参考基因组,对于多个图像块计算覆盖度,和基于跨越所述多个图像块的覆盖众数对于图像块正规化所述覆盖度。所述方法进一步包括对于在多个倍性状态下的所述多个图像块确定评分,跨越所述图像块和贯通所述倍性状态确定最大评分路径,和基于所述最大评分路径提供拷贝数确定值。
Description
技术领域
本发明总体上涉及包括用于确定拷贝数变异的系统和方法的核酸测序领域。
相关申请
本申请涉及2013年3月6日提交的美国临时申请第61/773,584号,其以全文引用的方式并入本文中。
背景技术
在完成人类基因组项目(Human Genome Project)后,测序行业的一个焦点已转移到发现较高通量和/或较低成本核酸测序技术,有时称为“下一代”测序(NGS)技术。在使得测序通量更高和/或更便宜中,目标为使得技术更可获得。这些目标可以通过使用对具有显著复杂度的样品提供样品制备、并行地对较大数目的样品测序(例如通过使用条码和多重分析)和/或有效处理大量信息且以及时方式完成分析的测序平台和方法达到。进化形成各种方法,如合成测序、杂交测序和连接测序来迎接这些挑战。
并入NGS技术的超高通量核酸测序系统通常产生大量短序列读数。序列处理方法应合意地快速且有效地装配和/或映射大量读数,以使得使用的计算资源最小化。举例来说,由对哺乳动物基因组测序产生的数据可以产生数千万或数亿读数,所述读数通常需要在其可以另外经分析以确定其生物、诊断和/或治疗相关性之前经装配。
NGS技术的示例性应用包括(但不限于):基因组变异体检测,如插入/缺失、拷贝数变异、单核苷酸多态性等;基因组重测序;基因表达分析;和基因组剖析。
拷贝数变异(CNV)可以指示大规模染色体重排,如大型插入或缺失,其可以通常发现于癌组织中。在一些情况下,整个染色体可以损失或复制(非整倍体),其为基因病症,如唐氏综合症(Down syndrome)(第21对染色体三体症)、猫眼综合症(第22对染色体三体症)、威廉姆斯综合症(Williams syndrome)(第7对染色体单体症)和各种其它病症的常见病因。鉴别拷贝数变异可以帮助理解和判断癌症和非整倍体基因病症。
从前文应了解的是需要可以确定拷贝数变异的系统和方法。
附图说明
为了更完整地理解本文所公开的原理和其优点,现在参考下文结合附图进行的描述,其中:
图1为说明根据各种实施例的示例性计算机系统的框图。
图2为根据各种实施例重构核酸序列的例示性系统的示意图。
图3为根据各种实施例的示例性基因分析系统的示意图。
图4为说明根据各种实施例的鉴别拷贝数变异的示例性方法的流程图。
应理解,图式不一定按比例绘制,图式中的物件也不一定关于彼此按比例绘制。图式为打算使得对本文所公开的设备、系统和方法的各种实施例明晰和理解的描绘。在可能的情况下,将在整个附图中使用相同的参考数字来指代相同或类似的部分。此外,应了解,附图并不打算以任何方式限制本发明教示的范围。
具体实施方式
用于检测低频变异体的系统和方法的实施例描述于本文中。
在各种实施例中,鉴别拷贝数变异读数的方法可以包括将读数映射到参考基因组、对于多个图像块计算覆盖度和基于跨越所述多个图像块的覆盖众数对于图像块正规化覆盖度。所述方法可以进一步包括对于在多个倍性状态下的所述多个图像块确定评分、跨越图像块和贯通倍性状态确定最大评分路径以及基于最大似然路径提供拷贝数确定值。
在各种实施例中,覆盖众数可以关于GC偏移校正。在各种实施例中,倍性状态下的图像块的评分可以基于正规化覆盖度与调整到探索倍性状态的按比例缩放基线覆盖度之间的差异。
在各种实施例中,评分可以是似然函数。似然性可以使用方程式L=N(S-C,0,Sd)确定,其中S为图像块的正规化样品覆盖度,C为图像块的按比例缩放基线覆盖度,且Sd为覆盖度差异的标准差。
在各种实施例中,最大评分路径可以使用动态编程算法确定。在各种实施例中,所述方法可以进一步包括确定最大评分路径与预期倍性状态的评分比率。在各种实施例中,所述方法可以进一步包括确定最大评分路径与最可能相邻状态的评分比率。
在各种实施例中,鉴别重复读数的系统可以包括映射引擎和拷贝数分析模块。映射引擎可以可操作以将读数映射到参考基因组以确定基因组起始位置和流动终点位置。拷贝数分析模块可以包括处理引擎和拷贝数变异体主叫。处理引擎可操作以确定图像块的覆盖度且基于覆盖众数和GC含量偏移正规化覆盖度。拷贝数变异体主叫可操作以确定以多个倍性状态存在的图像块的评分,且跨越图像块、贯通倍性状态确定最大评分路径。
在各种实施例中,评分可以是似然函数。倍性状态下的图像块的似然性可以基于正规化覆盖度与按比例缩放到倍性状态的按比例缩放基线覆盖度之间的差异。似然性可以使用方程式L=N(S-C,0,Sd)确定,其中S为图像块的正规化样品覆盖度,C为图像块的按比例缩放基线覆盖度,且Sd为覆盖度差异的标准差。
在各种实施例中,最大评分路径使用动态编程算法确定。在各种实施例中,拷贝数分析模块可以进一步包括可操作以确定最大评分路径与预期倍性状态的评分比率的后处理模块。在各种实施例中,拷贝数分析模块可以进一步包括可操作以确定最大评分路径与最可能相邻倍性状态的评分比率的后处理模块。
在各种实施例中,鉴别拷贝数变异读数的方法可以包括对样品进行多个扩增来产生一组样品扩增子,和对匹配对照物进行多重扩增来产生一组对照扩增子。所述方法可以进一步包括将具有第一条码序列的衔接子接合到样品扩增子以创建样品库,将具有第二条码序列的衔接子接合到对照扩增子以创建对照库,和实质上同时对样品和对照库测序以避免运行内测序变异来产生多个读数。另外,该方法可包括基于第一或第二条码序列的存在将读数鉴别为样品读数或对照读数,和将样品读数和对照读数映射到参考基因组。另外,该方法可包括基于映射到图像块的样品读数对于多个图像块计算样品覆盖度,基于映射到图像块的对照读数对于图像块计算基线覆盖度,和基于跨越所述多个图像块的样品覆盖众数或对照覆盖众数对于图像块正规化样品覆盖度和基线覆盖度。在各种实施例中,样品覆盖众数和对照覆盖众数可以关于GC偏移校正。所述方法可以进一步包括基于图像块的正规化样品覆盖度和基线覆盖度确定多个倍性状态下的所述多个图像块的评分,跨越图像块和贯通倍性状态确定最大似然路径;和基于最大似然路径提供拷贝数确定值。
在各种实施例中,倍性状态下的图像块的评分是基于正规化覆盖度与调整到探索倍性状态的按比例缩放基线覆盖度之间的差异。评分为似然函数。似然性使用方程式L=N(S-C,0,Sd)确定,其中S为图像块的正规化样品覆盖度,C为图像块的按比例缩放基线覆盖度,且Sd为覆盖度差异的标准差。
在各种实施例中,所述方法可以进一步包括确定最大评分路径与预期倍性状态的评分比率。在各种实施例中,所述方法可以进一步包括确定最大评分路径与最可能相邻状态的评分比率。
本文中所用的章节标题仅用于组织目的并且不应理解为以任何方式限制所描述的主题。
在各种实施例的此详细描述中,出于解释的目的,阐述许多特定细节以提供所公开的实施例的透彻理解。但是,所属领域的技术人员将了解,这些各种实施例可以在具有或不具有这些特定细节的情况下实践。在其它情况下,结构和装置以框图形式显示。此外,所属领域的技术人员可以容易地了解的是呈现和进行方法的特定顺序为说明性的且预期顺序可以改变且仍保持在本文所公开的各种实施例的精神和范围内。
本申请中引用的所有文献和类似材料(包括(但不限于)专利、专利申请、文章、书籍、论文和因特网网页)出于任何目的明确以全文引用的方式并入。除非另外描述,否则本文中所用的所有技术和科学术语具有与本文所描述的各种实施例所属领域的一般技术人员通常所了解相同的含义。
应了解,在本发明教示中论述的温度、浓度、时间、碱基数目、覆盖度等之前存在隐含的“约”,使得略微和非实质偏差在本发明教示的范围内。在本申请中,除非另外明确陈述,否则单数的使用包括复数。此外,“包含(comprise/comprises/comprising)”、“含有(contain/contains/containing)”和“包括(include/includes/including)”的使用并不打算是限制性的。应理解,以上一般描述和以下详细描述均仅是示例性和解释性的并且并不限制本发明教示。
如本文所用,“一(a/an)”也可指“至少一”或“一或多”。另外,使用的“或(or)”为包含性的,使得当“A”真实、“B”真实,或“A”和“B”两者真实时,短语“A或B”真实。
此外,除非上下文另外需要,否则单数术语应包括复数并且复数术语应包括单数。一般来说,本文中所述的与细胞和组织培养、分子生物学以及蛋白质和寡核苷酸或聚核苷酸化学和杂交结合使用的命名法和技术为所属领域中众所周知并常用的命名法和技术。标准技术用于例如核酸纯化和制备、化学分析、重组核酸和寡核苷酸合成。酶促反应和纯化技术根据制造商的说明书或如所属领域中通常所实现或如本文中所述来执行。本文中所述的技术和程序通常根据所属领域中众所周知以及如本发明的说明书通篇中所引用和论述的各种一般性和较特定的参考文献中所述的常规方法来执行。参看例如萨姆布鲁克(Sambrook)等人,《分子克隆实验指南》(Molecular Cloning:A Laboratory Manual)(第三版,冷泉港实验室出版社(Cold Spring Harbor Laboratory Press),纽约州冷泉港(ColdSpring Harbor,N.Y.)2000)。结合本文中所述的实验室程序和技术使用的命名法是所属领域中众所周知并且常用的命名法。
阐述一组组分的“系统”(真实或抽象)包含一个整体,其中每一组分与整体内的至少一个其它组分相互作用或与其相关。
“生物分子”可指通过生物有机体产生的任何分子,包括大聚合分子,如蛋白质、多糖、脂质和核酸(DNA和RNA)以及小分子,如初级代谢物、次级代谢物和其它天然产物。
短语“下一代测序”或NGS是指相比于传统的基于桑格(Sanger)和毛细电泳法的方法具有增加的通量,例如具有一次产生数十万相对较小序列读数的能力的测序技术。下一代测序技术的一些实例包括(但不限于)合成测序、连接测序和杂交测序。更确切地说,生命技术公司(Life Technologies Corp.)的个人基因组机器(Personal Genome Machine;PGM)提供具有增强的精确性的大规模平行测序。PGM系统和相关工作流、方案、化学反应等更详细地描述于美国专利申请公开案第2009/0127589号和第2009/0026082号中,这些申请中的每一者的全部内容以引用的方式并入本文中。
短语“运行”是指经进行以确定与至少一个生物分子(例如核酸分子)相关的一些信息的测序实验的任何步骤或部分。
相“碱基空间”是指核苷酸序列的表示。相“流动空间”是指特定核苷酸流动的并入事件或非并入事件的表示。举例来说,流动空间可以是表示特定核苷酸流动的核苷酸并入事件(如一,“1”)或非并入事件(如零,“0”)的一系列值。具有非并入事件的核苷酸流动可以称为空流,且具有核苷酸并入事件的核苷酸流动可以称为正流。应理解,零和一为非并入事件和核苷酸并入事件的方便表示;但是,任何其它符号或标识可以替代地用于表示和/或鉴别这些事件和非事件。确切地说,当多个核苷酸在给定位置并入时,如对于均聚物拉伸,值可以与核苷酸并入事件数目且因此与均聚物拉伸长度成比例。
DNA(脱氧核糖核酸)为由4种类型的核苷酸组成的核苷酸链;A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤),且RNA(核糖核酸)由4种类型的核苷酸组成;A、U(尿嘧啶)、G和C。某些对的核苷酸以互补方式特定地彼此结合(称作互补碱基配对)。也就是说,腺嘌呤(A)与胸腺嘧啶(T)配对(但是,在RNA的情况下,腺嘌呤(A)与尿嘧啶(U)配对),且胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链结合到由与第一链中的核苷酸互补的核苷酸组成的第二核酸链时,两个链结合以形成双链。如本文所用,“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”或“片段序列”或“核酸测序读数”表示指示核苷酸碱基(例如腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶/尿嘧啶)在DNA或RNA分子(例如全基因组、全转录组、外显子组、寡核苷酸、聚核苷酸、片段等)中的排序的任何信息或数据。应理解,本发明教示涵盖使用包括(但不限于)以下的所有可用种类的技巧、平台或技术获得的序列信息:毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统等。
“聚核苷酸”、“核酸”或“寡核苷酸”是指通过核苷间键接合的核苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。通常,聚核苷酸包含至少三个核苷。通常,寡核苷酸的大小在几个单体单元,例如3-4个到几百个单体单元范围内。每当聚核苷酸(如寡核苷酸)由一连串字母表示时,如“ATGCCTG”,应了解,除非另外指出,否则核苷酸按从左到右的5'->3'次序且“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,且“T”表示胸苷。如在所述领域中标准的,字母A、C、G和T可用于指碱基本身、核苷或包含碱基的核苷酸。
如本文所用,“体细胞变异”或“体细胞突变”可以指由出现于非生殖系细胞中的突变产生的基因序列的变异。变异可以通过有丝分裂传递到子细胞。这可以产生与有机体的其余细胞具有基因差异的一组细胞。另外,由于变异不出现于生殖系细胞中,突变可能不被后代有机体继承。
如本文中所定义,“多重扩增”是指样品内的两种或更多种目标序列使用至少一种目标特异性引物的选择性并且非随机的扩增。在一些实施例中,多重扩增经执行,使得目标序列中的一些或全部在单一反应容器内扩增。给定多重扩增的“重数”或“重”通常是指在所述单一多重扩增期间扩增的不同目标特异性序列的数目。在一些实施例中,重数可以是约12重、24重、48重、96重、192重、384重、768重、1536重、3072重、6144重或更多重。
多重扩增方法:
在各种实施例中,可以对由扩增来自核酸分子群体的多个目标特异性序列产生的目标核酸测序。在一些实施例中,扩增可以包括将一个或多个目标特异性引物对杂交到目标序列,延伸引物对的第一引物,使来自核酸分子群体的延伸第一引物产物变性,将引物对的第二引物杂交到延伸第一引物产物,延伸第二引物以形成双链产物,和远离双链产物消化目标特异性引物对来产生多个扩增目标序列。在一些实施例中,扩增目标序列可以连接到一个或多个衔接子。在一些实施例中,衔接子可以包括一个或多个DNA条码或标记序列。在一些实施例中,扩增目标序列一旦连接到接附子,可以经历切口平移反应和/或进一步扩增来产生衔接子连接的扩增目标序列库。多重扩增的示例性方法描述于2012年11月12日提交且标题为“多重PCR的方法和组合物(Methods and Compositions for Multiplex PCR)”的美国申请第13/458,739号中,
在各种实施例中,进行多重PCR扩增的方法包括使具有正向和反向引物的多个目标特异性引物对与目标序列群体接触以形成多个模板/引物双螺旋;持续足够时间且在足够温度下添加DNA聚合酶和dNTP的混合物到所述多个模板/引物双螺旋以经由模板依赖性合成延伸每一目标特异性引物对中的正向或反向引物(或两者),进而产生多个延伸引物产物/模板双螺旋;使延伸引物产物/模板双螺旋变性;将来自目标特异性引物对的互补引物结合到延伸引物产物;以及在DNA聚合酶和dNTP存在下延伸结合引物以形成多个目标特异性双链核酸分子。
衔接子接合方法:
在一些实施例中,本发明教示涉及制备聚核苷酸构筑体库的方法,其可以包括接附子接合步骤。在一些实施例中,多个聚核苷酸片段可以包括至少两个通过杂交(例如在具有或不具有引物延伸反应的情况下)或酶促连接(例如连接酶反应)接合到一个或多个核酸衔接子来产生衔接子-片段构筑体的聚核苷酸片段。在一些实施例中,聚核苷酸片段的一端或两端可以接合到至少一种类型的衔接子。聚核苷酸片段的一端或两端可以接合到至少一个核酸衔接子,包括带条码的衔接子、测序引物衔接子、扩增引物衔接子、通用衔接子、阻断寡核苷酸衔接子和/或其它。
在一些实施例中,衔接子可以包括与测序引物(例如P1、P2和/或A)、扩增引物、通用序列和/或条码序列互补的核苷酸序列。举例来说,释放的配对构筑体可以在每一末端接合到不同测序衔接子以制备用于经SOLiDTM测序反应测序(WO 2006/084131)或经离子敏感测序反应测序(例如来自生命技术公司的离子激流PGMTM和ProtonTM测序仪,参见例如美国专利公开案第2010/0301398号、第2010/0300895号、第2010/0300559号、第2010/0197507号、第2010/0137143号、第2009/0127589号;和第2009/0026082号,其以全文引用的方式并入)的核酸库。
带条码的衔接子序列
在一些实施例中,本发明教示涉及制备聚核苷酸构筑体库的方法,其可以包括将多个聚核苷酸片段的至少一个末端接合到具有条码序列的衔接子。条码序列可以是用以鉴别聚核苷酸链和/或将其与其它聚核苷酸链(例如含有不同相关目标序列的聚核苷酸链)区分开的聚核苷酸链中的核苷酸碱基(例如腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶、肌苷或其类似物)的选择序列。在一些实施例中,条码衔接子可以包括单一鉴别序列(例如条码序列)。条码序列可以用于各种目的,如追踪、分选和/或鉴别样品。
由于不同条码序列可以与不同聚核苷酸链相关,这些条码序列可以适用于不同样品的多重测序。在一些实施例中,条码衔接子可以用于构筑多重核酸库。在一些实施例中,一个或多个条码序列可以允许在具有不同条码序列的不同衔接子的混合物之中鉴别特定衔接子。举例来说,混合物可以包括2个、3个、4个、5个、6个、7-10个、10-50个、50-100个、100-200个、200-500个、500-1000个或更多个具有单一条码序列的不同衔接子。各种具有条码序列的衔接子的实例可以发现于PCT/US2011/054053中,其以全文引用的方式并入。
在各种高通量DNA测序技术(如合成测序)中,需要准许对汇集在一起用于同步分析的不同样品测序(有时称为多重测序)。
当进行多重测序时,一般需要鉴别每一样品的来源,且这可能需要测序数据对于每一样品去卷积。确切地说,可能需要单一地鉴别衍生自多重样品的序列数据的来源(例如以鉴别与不同样品群体相关的特定核酸种类)。促进样品鉴别的一种方法为使用单一核酸标识符序列(条码衔接子),所述序列嵌入样品构筑体内以使得测序数据可以恰当地鉴别或与其源样品相关联。
计算机实施系统
图1为说明计算机系统100的框图,本发明教示的实施例可以在所述系统上实施。在各种实施例中,计算机系统100可以包括总线102或其它传达信息的通信机构,和与总线102耦合用于处理信息的处理器104。在各种实施例中,计算机系统100也可以包括存储器106,其可以是随机存取存储器(RAM)或其它动态存储装置,耦合到总线102以确定基础呼叫,和被处理器104执行的指令。存储器106也可用于在执行被处理器104执行的指令期间存储临时变量或其它中间信息。在各种实施例中,计算机系统100可以进一步包括耦接到总线102以存储用于处理器104的静态信息和指令的只读存储器(ROM)108或其它静态存储装置。可以提供存储装置110(如磁盘或光盘)且耦接到总线102以存储信息和指令。
在各种实施例中,处理器104可以包括多个逻辑门。逻辑门可以包括“与”门(ANDgate)、“或”门(OR gate)、“非”门(NOT gate)、“与非”门(NAND gate)、“或非”门(NORgate)、“异或”门(EXOR gate)、“异非”门(EXNOR gate)或其任何组合。“与”门仅当所有输入较高时才可以产生高输出。如果输入中的一个或多个高,那么“或”门可以产生高输出。“非”门可以产生输入与输出的倒版,如当输入低时输出高值。“与非”(NAND/NOT-AND)门可以产生逆与输出,使得输出将在任何输入低时高。“或非”(NOR/NOT-OR)门可以产生逆或输出,使得“或非”门输出在任何输入高时低。“异或”(EXOR/Exclusive-OR)门可以在任一输入,但并非两个输入高时产生高输出。“异非”(EXNOR/Exclusive-NOR)门可以产生逆异或输出,使得输出在任一输入,但并非两个输入高时低。
表1:逻辑门真值表
所属领域的技术人员将了解,逻辑门可以各种组合使用以进行比较、运算、操作等。另外,所属领域的技术人员将了解如何对使用逻辑门的各种组合排序以进行复杂方法,如本文所描述的方法。
在一个实例中,可以使用“同或”门(XNOR gate)进行1位二进制比较,因为结果仅在两个输入相同时高。两个多位值的比较可以通过使用多个“同或”门比较每对位,且组合“同或”门使用和“与”门的输出,使得结果仅在每对位具有相同值时真实来进行。如果任何对的位不具有相同值,那么对应“同或”门的结果可能低,且接收低输入的“与”门的输出可能低。
在另一个实例中,1位加法器可以使用“与”门和“异或”门的组合建构。确切地说,1位加法器可以接收三个输入,两个待相加的位(A和B)和进位位(Cin),和两个输出,总和(S)和进位输出位(Cout)。Cin位可以对于两个一位值的相加设定为0,或可用于将多个1位加法器耦合在一起以通过从较低阶加法器接收Cout将两个多位值相加。在示例性实施例中,S可以通过将A和B输入应用到“异或”门,且随后将结果和Cin应用到另一“异或”门建构。Cout可以通过将A和B输入应用到“与”门,将来自总和的A-B“异或”门的结果和Cin应用到另一“与”门,且将“与”门的输入应用到“异或”门。
表2:1位加法器真值表
在各种实施例中,计算机系统100可以经由总线102耦合到显示器112,如阴极射线管(CRT)或液晶显示器(LCD)以将信息显示到计算机用户。包括字母数字键和其它键的输入装置114可以耦合到总线102以传达信息和命令选择到处理器104。另一类型的用户输入装置为光标控制器116,如鼠标、轨迹球或光标方向键,其用于传达方向信息和命令选择到处理器104和控制显示器112上的光标移动。此输入装置通常具有在两个轴,第一轴(即x)和第二轴(即y)中的两个自由度,允许装置在平面中指定位置。
计算机系统100可以执行本发明教示。与本发明教示的某些实施方案一致,结果可以回应于处理器104执行包含于存储器106中的一个或多个指令的一个或多个序列而由计算机系统100提供。此类指令可以从另一计算机可读媒体,如存储装置110读取到存储器106中。执行包含于存储器106中的指令序列可以使得处理器104进行本文所描述的方法。在各种实施例中,存储器中的指令可以对使用处理器内可用的逻辑门的各种组合排序以进行本文中描述的方法。或者,可以使用硬连线电路替代或结合软件指令以实现本发明教示。在各种实施例中,硬连线电路可以包括所需逻辑门,其以所需顺序操作以进行本文所描述的方法。因此,本发明教示的实施方案不限于硬件电路和软件的任何特定组合。
如本文所用的术语“计算机可读媒体”是指参与将指令提供到处理器104以供执行的任何媒体。此类媒体可以呈许多形式,包括(但不限于)非易失性媒体、易失性媒体和传输媒体。非易失性媒体的实例可以包括(但不限于)光盘或磁盘,如存储装置110。易失性媒体的实例可以包括(但不限于)动态存储器,如存储器106。传输媒体的实例可以包括(但不限于)同轴电缆、铜线和光纤,包括包含总线102的导线。
非暂时性计算机可读媒体的常见形式包括(例如)软盘、软磁盘、硬盘、磁带、或任何其它磁性媒体、CD-ROM、任何其它光学媒体、穿孔卡片、纸带、具有孔洞图案的任何其它物理媒体、RAM、PROM和EPROM、闪存EEPROM、任何其它存储器芯片或盒带或计算机可以读取的任何其它有形媒体。
根据各种实施例,被配置成被处理器执行以进行方法的指令存储在计算机可读媒体上。计算机可读媒体可以是存储数字信息的装置。举例来说,计算机可读媒体包括用于存储软件的如所属领域中已知的只读光盘(CD-ROM)。计算机可读媒体被适合于执行被配置成被执行的指令的处理器访问。
核酸测序平台
核酸序列数据可以使用包括(但不限于)以下的各种技巧、平台或技术产生:毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统等。
核酸测序平台的各种实施例,如核酸测序仪可以包括如图2的框图中显示的组件。根据各种实施例,测序仪器200可以包括射流传递和控制单元202、样品处理单元204、信号检测单元206和数据获取、分析和控制单元208。用于下一代测序的仪表、试剂、库和方法的各种实施例描述于美国专利申请公开案第2009/0127589号和第2009/0026082号中,其以引用的方式并入本文中。仪器200的各种实施例可以提供可用于并行地,如实质上同时从多个序列收集序列信息的自动化测序。
在各种实施例中,射流传递和控制单元202可以包括试剂传递系统。试剂传递系统可以包括用于各种试剂的试剂储集器。试剂可以包括基于RNA的引物、正向/反向DNA引物、用于连接测序的寡核苷酸混合物、用于合成测序生物核苷酸混合物、任选的ECC寡核苷酸混合物、缓冲剂、洗涤试剂、阻断试剂、汽提试剂等。另外,试剂传递系统可以包括移液系统或连续流动系统,其连接样品处理单元与试剂储集器。
在各种实施例中,样品处理单元204可以包括样品室,如流槽、基质、微阵列、多孔盘等。样品处理单元204可以包括多个通道、多个槽道、多个孔或其它实质上同时处理多个样品集的手段。另外,样品处理单元可以包括多个样品室以使得能够同时处理多个运行。在特定实施例中,系统可以对一个样品室进行信号检测,并实质上同时处理另一样品室。另外,样品处理单元可以包括用于移动或操纵样品室的自动化系统。
在各种实施例中,信号检测单元206可以包括成像或检测传感器。举例来说,成像或检测传感器可以包括CCD、CMOS、离子或化学传感器,如覆盖CMOS或FET的离子敏感层、电流或电压检测器等。信号检测单元206可以包括励磁系统以引起探针,如荧光染料发射信号。励磁系统可以包括照明源,如弧光灯、激光、发光二极管(LED)等。在特定实施例中,信号检测单元206可以包括用于将光从照明源传输到样品或从样品传输到成像或检测传感器的光学系统。或者,信号检测单元206可以提供基于电子或非光子的检测方法且因此不包括照明源。在各种实施例中,基于电子的信号检测可以在测序反应期间产生可检测信号或物质时进行。举例来说,信号可以通过与离子或化学敏感层相互作用的释放副产物或部分,如释放离子,如氢离子的相互作用产生。在其他实施例中,可检测信号可以由于如用于焦磷酸测序(参见例如美国专利申请公开案第2009/0325145号,其全部内容以引用的方式并入本文中)中的酶促级联产生,其中焦磷酸酯通过聚合酶的碱基并入产生,所述聚合酶另外与ATP硫酸化酶在腺苷5′磷酰硫酸存在下反应来产生ATP,其中产生的ATP可以在荧光素酶介导的反应中耗尽来产生化学发光信号。在另一个实例中,电流的变化可以在核酸穿过纳米孔时在不需要照明源的情况下检测。
在各种实施例中,数据获取分析和控制单元208可以监视各种系统参数。系统参数可以包括仪器200的各部分,如样品处理单元或试剂储集器的温度;各种试剂的体积;各种系统子组件,如操纵器、步进式电机、泵等的状态;或其任何组合。
所属领域的技术人员应了解,仪器200的各种实施例可用于实践多种测序方法,包括基于连接的方法、合成测序、单分子方法、纳米孔测序和其它测序技术。
在各种实施例中,测序仪器200可以测定核酸,如聚核苷酸或寡核苷酸的序列。核酸可以包括DNA或RNA,且可以是单链的,如ssDNA和RNA,或双链的,如dsDNA或RNA/cDNA对。在各种实施例中,核酸可以包括或衍生自片段库、配对库、ChIP片段等。在特定实施例中,测序仪器200可以从单一核酸分子或从实质上相同的核酸分子的群组获得序列信息。
在各种实施例中,测序仪器200可以包括(但不限于)以下的多种不同输出数据文件类型/格式输出核酸测序读取数据:*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。
鉴别序列变异的系统和方法
图3为根据各种实施例的一种用于鉴别变异体的系统的示意图。
如本文中所描绘,变异体分析系统300可以包括核酸序列分析装置304(例如核酸测序仪、实时/数字/定量PCR仪器、微阵列扫描仪等)、分析学计算服务器/节点/装置302和显示器310和/或客户端装置终端308。
在各种实施例中,分析学计算隔断/节点/装置302可以经由网络连接324通信连接到核酸序列分析装置304和客户端装置终端308,所述网络连接可以是“硬连线”物理网络连接(例如因特网、LAN、WAN、VPN等)或无线网络连接(例如Wi-Fi、WLAN等)。
在各种实施例中,分析学计算装置/服务器/节点302可以是工作站、主机计算机、分布式计算节点(如“云端计算”或分布式网络系统的一部分)、个人计算机、移动装置等。在各种实施例中,核酸序列分析装置304可以是核酸测序仪、实时/数字/定量PCR仪器、微阵列扫描仪等。但是,应理解,核酸序列分析装置304基本上可以是任何类型的可以从获自个体的样品产生核酸序列数据的仪器。
分析学计算服务器/节点/装置302可以被配置成主控任选的预处理模块312、映射模块314和拷贝数分析模块316。
预处理模块312可以被配置成从核酸序列分析装置304接收和进行处理步骤,如从颜色空间到碱基空间或从流动空间到碱基空间的转化,确定呼叫质量值,通过映射模块314制备供使用的读取数据等。
映射模块314可以被配置成将核酸序列读数比对(即映射)到参考序列。一般来说,序列读数的长度实质上小于参考序列的长度。在参考序列映射/比对中,序列读数相对于现有骨干序列(例如参考序列等)装配以建立与骨干序列类似但不一定相同的序列。一旦对于有机体发现骨干序列,比较测序或再测序可用于表征有机体物种内或紧密相关物种之间的基因多样性。在各种实施例中,参考序列可以是全/部分基因组、全/部分外显子组等。
在各种实施例中,序列读数和参考序列可以表示为碱基空间中的一连串核苷酸碱基符号。在各种实施例中,序列读数和参考序列可以表示为颜色空间中的一种或多种颜色。在各种实施例中,序列读数和参考序列可以表示为在流动空间中具有信号或数值定量分量的核苷酸碱基符号。
在各种实施例中,序列片段和参考序列的比对可以包括包含序列片段的碱基与包含参考序列的碱基之间有限数目的失配。一般来说,序列片段可以比对到一部分参考序列以使序列片段与参考序列之间的失配数目最小化。
拷贝数分析模块316可以包括处理引擎318、拷贝数变异体主叫320和任选的后处理引擎322。在各种实施例中,拷贝数分析模块316可以与映射模块314通信。也就是说,拷贝数分析模块316可以从映射模块314请求和接收数据和信息(通过例如数据流、数据文件、文本文件等)。
处理引擎318可以被配置成从映射模块314接收映射读数,对于基因组的不重叠目标区域(图像块)确定覆盖度,和基于跨越图像块的平均值或覆盖众数和GC含量正规化图像块覆盖度。在各种实施例中,处理引擎318可以对于样品和对照物两者确定正规化覆盖度。
CNV主叫320可以被配置成从处理引擎318接收正规化覆盖度,对于以各种倍性状态存在的图像块确定评分,如似然性,跨越图像块、贯通倍性状态确定最大评分路径,和计算最大评分路径与预期倍性状态和最接近计分相邻倍性状态的评分比率,如对数似然比。另外,CNV主叫320可以基于可以克服预设倍性过渡惩罚的最大评分倍性状态鉴别拷贝数变异体。过渡惩罚可以经调整以实现算法的所需灵敏度或特异性。
后处理引擎322可以被配置成接收通过CNV主叫320确定的拷贝数变异体和对数似然比以及进行额外处理步骤,如过滤拷贝数变异体,和格式化读取数据以在显示器310上显示或被客户端装置308使用。
客户端装置308可以是瘦客户端或厚客户端计算装置。在各种实施例中,客户端终端308可以具有网页浏览器(例如INTERNET EXPLORERTM、FIREFOXTM、SAFARITM等),其可用于传达信息到使用浏览器的预处理模块312、映射模块314、再对准引擎318、变异体呼叫引擎320和后处理引擎322和/或控制所述组件的操作以控制其功能。举例来说,取决于特定应用的要求,客户端终端308可用于配置各种模组的操作参数(例如匹配评分参数、注释参数、过滤参数、数据安全和保留参数等)。类似地,客户端终端308也可以经配置以显示由变异体呼叫模块316和核酸测序仪304进行的分析的结果。
应理解,公开为系统300的一部分的各种数据存储器可以表示基于硬件的存储装置(例如硬盘驱动器、快闪存储器、RAM、ROM、网络连接存储等)或存储在独立或联网计算装置上的数据库的实例化。
还应了解,取决于特定应用或系统架构,显示为系统300的一部分的各种数据存储器和模块/引擎可以组合或折叠为单一模块/引擎/数据存储器。此外,在各种实施例中,如特定应用或系统架构所需要,系统300可以包含额外模块、引擎、组件或数据存储器。
在各种实施例中,系统300可以被配置成在颜色空间中处理核酸读数。在各种实施例中,系统300可以被配置成在碱基空间中处理核酸读数。在各种实施例中,系统300可以被配置成在流动空间中处理核酸序列读数。但是,应理解,本文所公开的系统300可以任何模式或格式处理或分析核酸序列数据,只要所述模式或格式可以表达核酸序列的碱基标识和位置。
图4为显示根据各种实施例的一种用于鉴别拷贝数变异体的方法400的示例性流程图。
在402处,来自样品的读数可以经映射。在404处,目标区域域可以分成图像块,且可以确定那些图像块的覆盖度。在各种实施例中,覆盖度可以基于映射到图像块的读数数目和其重叠中的碱基数目确定。在406处,可以基于跨越具有假定单一倍性状态的序列部分的图像块覆盖度确定图像块覆盖度分布的众数。众数将为倍性状态的代表性覆盖度。在各种实施例中,此类代表性覆盖度也可以确定为图像块覆盖度的平均值或比分位数(如中值)。
在各种实施例中,覆盖众数可以基于GC偏移校正覆盖度确定。举例来说,可以计算多个GC含量区间(图像块的GC含量)的平均覆盖度。在各种实施例中,GC偏移分布可以经平滑化,如使用LOESS(局部回归)或LOWESS(局部加权散点平滑)算法。GC区间的覆盖度比例因子可以通过总平均覆盖度除以GC区间的平均覆盖度而确定。图像块的图像块覆盖度可以乘以来自具有对应GC含量的区间的GC偏移修正系数以获得图像块的GC偏移校正覆盖度。GC偏移校正覆盖度可以用于计算覆盖众数。
在各种实施例中,可以在每条染色体基础上确定图像块、覆盖度和众数。举例来说,染色体1的目标区域可以分成第一组图像块且染色体2可以分成第二组图像块。第一组图像块的覆盖度和覆盖众数可以与第二组图像块的覆盖度和覆盖众数分开确定。
在各种实施例中,目标区域可以在多个多重PCR反应中扩增。举例来说,第一组目标区域可以在第一PCR反应器中扩增,且第二组目标区域可以在第二PCR反应器中扩增。覆盖度和覆盖众数可以对于每一PCR反应器确定,使得第一组目标区域可以分配到第一组图像块且第二组目标区域可以分配到第二组图像块。第一组图像块的覆盖度和覆盖众数可以与第二组图像块的覆盖度和覆盖众数分开确定。如果一些图像块横跨属于若干PCR池的目标区域,那么这些组的图像块可以重叠。算法可以分配每一读数到特定PCR池,如通过发现具有与读数的最大重叠的目标区域。
任选地,在408处,对照读数可以映射到参考基因组。在410处,目标区域域可以分成图像块,且可以确定对照的那些图像块的覆盖度。在各种实施例中,覆盖度可以基于映射到图像块的对照读数数目和与图像块重叠的碱基数目确定。在412处,可以产生基线,且在414处,可以基于跨越基线的覆盖度确定基线覆盖众数。基线可以产生自单一对照样品,但是,在一些实施例中,基线可以通过添加来自多个对照样品的覆盖度和通过覆盖度的已知倍性信息调节覆盖度产生。在各种实施例中,对照样品目标区域可以在多个多重PCR反应中扩增且可以按逐个PCR池确定复合基线覆盖度和其覆盖众数。
在416处,覆盖度可以经正规化以使得覆盖度在样品与基线之间等效。在各种实施例中,等效性可以通过缩放样品和基线两者的覆盖度以使得覆盖众数变为2实现。由于众数对应于二倍状态的代表性覆盖度,正规化覆盖度近似于倍性值。具有关于样品和基线的共同覆盖度比例允许在计算评分,如任何特定倍性状态下的样品的似然性时直接比较样品和基线覆盖度。
在418处,可以计算各种倍性状态下的图像块的评分。评分可以是可以在真实与其它倍性状态之间辨别的函数或临时规则。在各种实施例中,评分可以对于倍性状态范围,如1到10的倍性范围计算。在示例性实施例中,倍性状态的评分可以使用方程式L=N(S-C,0,Sd)计算为似然性,其中S为图像块的正规化样品覆盖度,C为探索倍性状态下的图像块的按比例缩放基线覆盖度,且Sd为覆盖度的标准差。标准差可以取决于样品和对照覆盖度制得且使用技术样品复本的定序预定。在各种实施例中,按比例缩放基线覆盖度可以通过将正规化基线按比例缩放探索倍性状态确定。举例来说,二倍区的正规化基线覆盖度可以是大致2,且当探索3的倍性状态(三倍)时,正规化基线覆盖度可以乘以3/2,使得按比例缩放基线覆盖度为大致3。因此,对于样品中的三倍区中的图像块,相比于对3的倍性状态评分时,正规化样品覆盖度与按比例缩放基线覆盖度之间的差异可能在对2或4的倍性状态评分时更大。
在各种实施例中,如当对于来自癌性肿瘤的样品确定拷贝数变异时,细胞的多个亚群可能存在于样品中。举例来说,来自癌症活检的样品可以包括正常细胞以及癌细胞且具有表示正常细胞和癌细胞的倍性状态的加权平均值的有效倍性状态。为了对于此类样品中的特定基因鉴别拷贝数变化,可以对于非整数倍性状态计算评分。举例来说,可以经步长为十分之一的一系列值,如2.0、2.1、2.2、2.3等计算评分。
在420处,可以确定每一图像块贯通倍性状态的最大评分路径。在各种实施例中,路径的评分可以包括沿路径的每一倍性状态的评分的求和和倍性状态变化的每对相邻图像块的过渡惩罚。最大评分路径可以随后使用动态编程算法,如实现隐马尔可夫模型(Hideen Markov Model)中的维特比算法(Viterbi algorithm)确定。在示例性实施例中,最大评分路径可以是通过对沿路径的倍性状态和过渡惩罚的对数似然性求和计算的最大似然路径。
过渡惩罚可以是改变小片段的拷贝数状态的制止物,除非存在将比过渡惩罚更重要的来自片段中的图像块的状态似然性的压倒一切的支持。在各种实施例中,过渡惩罚可以是任何给定随机图像块的拷贝数状态改变的几率的对数的函数。使得过渡几率较小将导致仅呼叫较大CNV片段,或仅呼叫对于改变状态具有较大支持(拷贝数的较大差异)的片段。因此,过渡惩罚可以经调整以实现所需灵敏度或特异性。
过渡机率可以对于图像块之间的较大间隙增加。这些间隙可以由算法中可以跳过的基因组的未扩增(未测序)部分引起。在足够大间隙之后,在间隙之前的图像块的拷贝数状态可能不具有关于在间隙之后的图像块的拷贝数状态的信息。因此,过渡机率可以在间隙之后变得对于所有拷贝数状态相等。此全等机率的增加可以是指数的并且因此可以通过对数空间中的线性增加估计。
在各种实施例中,替代通过多个倍性状态确定最大似然路径,拷贝数可以通过经基因组的一部分的正规化样品与基线覆盖度的平均比率确定。举例来说,为了检测基因的复制或缺失,比率可以从基因内的每一图像块平均化。
在422处,可以计算最大似然路径与预期倍性状态的评分比率,如对数似然比。举例来说,染色体1上的区域可以预期具有2的倍性且X和Y染色体上的区域可以分别具有就雄性来说1和1,以及就雌性来说2和0的倍性。在各种实施例中,可以提供目标区域的预期倍性状态。此评分比率可以充当存在具有不同于预期倍性状态的倍性的CNV片段的置信量度。
在424处,可以计算最大似然路径与最可能相邻状态的评分比率,如对数似然比。相邻状态,+1和-1倍性的评分可以相比于对于CNV片段鉴别最可能相邻状态,且评分比率可以关于最可能相邻状态路径确定。此类比率将决定指定倍性数目的精确性程度。
在各种实施例中,中值绝对成对差异(MAPD)可以关于每对相邻图像块的正规化样品覆盖度与基线的比率计算。差异可以经基因组区域,如对于一个基因平均化。或者,差异可以经基因组、基因组的测序部分或均一倍性状态区域平均化。低MAPD值可以指示在单一值周围紧密地丛集的连续图像块的拷贝数数据。高MAPD值可以指示连续图像块的拷贝数数据中的显著变异性,且因此指示拷贝数呼叫中的较低可信度。
在426处,可以提供倍性状态和评分比率。评分比率可以用作图像块的拷贝数呼叫中的可信度的量度。
在各种实施例中,对照物可以与样品实质上同时测序,如在相同运行中测序对照物和样品。在示例性实施例中,可以基于在测序之前附接到片段的条码或其它已知序列鉴别对照读数和样品读数以区分对照物与样品。
或者,可以基于通过组合来自多个测序运行的数据计算的信息基线或合成对照确定似然性。举例来说,已知拷贝数的一个或多个样品可以根据用于对样品测序的相同程序测序,且基线计算可以基于来自已知拷贝数的样品的数据进行。
在各种实施例中,可以对样品进行大规模、低通测序。举例来说,样品可以是全基因组和外显子组等。大规模、低通测序可以在相对低覆盖度下产生读数。举例来说,平均覆盖度可以是至少约0.00001×,如大于约0.0001×,甚至大于约0.001×。在特定实施例中,覆盖度可以在不足以确保基因组的完整覆盖度的水平,如小于约10×,如小于约1×,甚至小于约0.1×。拷贝数的确定可以在大图像块尺寸,如约2兆碱基下进行。一般来说,图像块尺寸应足以具有每图像块至少约100读数的平均值。另外,似然性可以基于信息基线确定。举例来说,信息基线可以通过组合来自多个测序运行的数据(来自具有已知拷贝数概况的相同样品或多个样品)预先计算。使用大图像块尺寸和低通测序可以检测染色体的损益且可以提供大规模染色体重排的信息。
在各种实施例中,可以对样品进行选择性测序。举例来说,基因组的选择区域可以使用PCR,如多个PCR扩增且基因组可以经片段化且来自选择区域的片段可以经分离,如通过结合到探针阵列。可以与样品相同的方式制备匹配对照物,且样品和匹配对照物可以分开或在相同测序运行期间测序。选择性测序可以导致选择部分的相对高覆盖度。因此,可以使用较小图像块尺寸,如约100个碱基。似然性可以从计算自匹配对照物的基线确定。具有较小图像块尺寸的较高覆盖度测序可以检测高或低拷贝数的较小区,如基因复制。
在各种实施例中,替代将基因组分成离散相同尺寸化图像块,分析可以对每一扩增区域进行。扩增区域的覆盖度可以基于来自所述区域的扩增子的读数数目确定。尽管扩增区可以部分重叠,重叠区域将总体上在分离PCR池中扩增且可以基于读数的不重叠部分的序列区分。
在各种实施例中,本发明教示的方法可以在以如C、C++等的常规编程语言编写的软件程序和应用中建构。
虽然结合各种实施例来描述本发明教示,但是并不打算将本发明教示限制于此类实施例。相反地,如所属领域的技术人员应了解,本发明教示涵盖各种替代方案、修改和等效物。
另外,在描述各种实施例中,说明书可能将方法和/或过程呈现为特定顺序的步骤。但是,在方法或过程不依赖于本文中阐述的步骤的特定次序的程度上,方法或过程不应限于描述的步骤的特定顺序。如所属领域的一般技术人员将了解,步骤的其它顺序可以是可能的。因此,在说明书中阐述的步骤的特定次序不应理解为对权利要求书的限制。另外,针对方法和/或过程的权利要求书不应限于以书写的次序进行其步骤,且所属领域的技术人员可以易于了解的是顺序可以变化且仍保持在各种实施例的精神和范围内。
本文所述的实施例可以用包括以下的其它计算机系统配置实践:手持式装置、微处理器系统、基于微处理器或可编程消费型电子装置、微型计算机、大型主机计算机等。实施例也可以在任务通过经网络连接的远程处理装置进行的分配计算环境中实践。
还应了解,本文所述的实施例可以采用涉及存储在计算机系统中的数据的各种计算机实施操作。这些操作为需要物理量的物理操纵的操作。通常(尽管未必),这些量呈能够被存储、转移、组合、比较和以其它方式操纵的电或磁性信号的形式。另外,进行的操控通常以如产生、鉴别、确定或比较的术语提及。
形成本文所述的实施例的一部分的操作中的任一个为有用的机器操作。本文所述的实施例也涉及进行这些操作的装置或设备。本文所述的系统和方法可以出于所需目的专门构建或其可以是通过存储在计算机中的计算机程序选择性地激活或配置的通用计算机。确切地说,各种通用机器可以与根据本文中的教示编写的计算机程序一起使用,或可能更方便的是构建更专门设备以进行所需操作。
某些实施例也可以体现为计算机可读媒体上的计算机可读代码。计算机可读媒体是可以存储此后可以通过计算机系统读取的数据的任何数据存储装置。计算机可读媒体的实例包括硬盘驱动器、网络连接存储(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带以及其它光学和非光学数据存储装置。计算机可读媒体也可以分布在网路耦合的计算机系统上,以使得计算机可读代码以分布方式存储和执行。
Claims (22)
1.一种鉴别拷贝数变异的方法,其包含:
将读数映射到参考序列;
对于参考序列的多个不重叠目标区域中的每一个计算覆盖度,其中每个目标区域的覆盖度是使用映射到该目标区域的读数数目和其重叠中的碱基数目确定的,其中目标区域在多个多重PCR反应中扩增,在第一PCR反应器中扩增的第一组目标区域被分配到第一组图像块,且在第二PCR反应器中扩增的第二组目标区域被分配到第二组图像块,其中计算覆盖度包括分开地确定第一组图像块的覆盖度以及第二组图像块的覆盖度;
使用代表覆盖度分布的值对于每个目标区域正规化所述覆盖度,其中代表覆盖度分布的所述值是跨越具有假定单一倍性状态的参考序列部分的覆盖度分布的众数、平均值或中值;
确定每个目标区域的评分函数,其中所述评分函数确定一组探索倍性状态中的每一个倍性状态的评分;
跨越所述目标区域和贯通所述一组探索倍性状态确定最大评分路径;以及
基于所述最大评分路径提供拷贝数确定值。
2.根据权利要求1所述的方法,其中代表覆盖度分布的所述值关于GC偏移校正。
3.根据权利要求1所述的方法,其中每个目标区域的评分函数是基于所述正规化覆盖度与调整到探索倍性状态的按比例缩放基线覆盖度之间的差异。
4.根据权利要求1所述的方法,其中所述评分函数为针对所述一组探索倍性状态中的每一个倍性状态确定似然性的似然函数。
5.根据权利要求4所述的方法,其中所述似然函数使用方程式L=N(S-C,0,Sd)确定,其中S为所述目标区域的所述正规化样品覆盖度,C为所述目标区域的按比例缩放基线覆盖度,且Sd为所述覆盖度差异的标准差。
6.根据权利要求1所述的方法,其进一步包含确定所述最大评分路径与预期倍性状态的评分比率。
7.根据权利要求1所述的方法,其进一步包含确定所述最大评分路径与最可能相邻状态的评分比率。
8.根据权利要求1所述的方法,其中所述最大评分路径使用动态编程算法确定。
9.一种鉴别拷贝数变异读数的方法,其包含:
对样品进行多重扩增来产生一组样品扩增子;
对匹配对照物进行多重扩增来产生一组对照扩增子;
将具有第一条码序列的衔接子接合到所述样品扩增子以创建样品库;
将具有第二条码序列的衔接子接合到所述对照扩增子以创建对照库;
实质上同时对所述样品和对照库测序以避免运行内测序变异来产生多个读数;
基于所述第一或第二条码序列的存在将读数鉴别为样品读数或对照读数;
将所述样品读数和对照读数映射到参考基因组;
基于映射到多个目标区域的所述样品读数对于所述目标区域计算样品覆盖度;
基于映射到所述目标区域的所述对照读数对于所述目标区域计算基线覆盖度;
基于跨越所述多个目标区域的样品覆盖众数或对照覆盖众数对于目标区域正规化所述样品覆盖度和基线覆盖度;
基于所述目标区域的所述正规化样品覆盖度和所述基线覆盖度确定每个目标区域的评分函数,其中所述评分函数确定一组探索倍性状态中的每一个倍性状态的评分;
跨越所述目标区域和贯通所述一组探索倍性状态确定最大评分路径;以及
基于所述最大评分路径提供拷贝数确定值。
10.根据权利要求9所述的方法,其中所述样品覆盖众数和所述对照覆盖众数关于GC偏移校正。
11.根据权利要求9所述的方法,其中每个目标区域的评分函数是基于所述正规化覆盖度与调整到探索倍性状态的按比例缩放基线覆盖度之间的差异。
12.根据权利要求9所述的方法,其中所述评分函数为针对所述一组探索倍性状态中的每一个倍性状态确定似然性的似然函数。
13.根据权利要求12所述的方法,其中所述似然函数使用方程式L=N(S-C,0,Sd)确定,其中S为所述目标区域的所述正规化样品覆盖度,C为所述目标区域的按比例缩放基线覆盖度,且Sd为所述覆盖度差异的标准差。
14.根据权利要求9所述的方法,其进一步包含确定所述最大评分路径与预期倍性状态的评分比率。
15.根据权利要求9所述的方法,其进一步包含确定所述最大评分路径与最可能相邻状态的评分比率。
16.一种用于鉴别重复读数的系统,其包含:
可操作以将读数映射到参考基因组以确定基因组起始位置和流动终点位置的映射引擎;和
包含以下各者的拷贝数分析模块:
可操作以对于参考基因组的多个不重叠目标区域中的每一个,使用映射到该目标区域的读数数目和其重叠中的碱基数目确定覆盖度且基于覆盖众数和GC含量偏移正规化所述覆盖度的处理引擎,其中目标区域在多个多重PCR反应中扩增,在第一PCR反应器中扩增的第一组目标区域被分配到第一组图像块,且在第二PCR反应器中扩增的第二组目标区域被分配到第二组图像块,其中处理引擎可操作以分开地确定第一组图像块的覆盖度以及第二组图像块的覆盖度;和
可操作以确定以多个倍性状态存在的目标区域的评分,且跨越所述目标区域、贯通所述倍性状态确定最大评分路径的拷贝数变异体主叫。
17.根据权利要求16所述的系统,其中所述评分为似然函数。
18.根据权利要求17所述的系统,其中倍性状态下的目标区域的所述似然性是基于所述正规化覆盖度与按比例缩放到所述倍性状态的按比例缩放基线覆盖度之间的差异。
19.根据权利要求18所述的系统,其中所述似然性使用方程式L=N(S-C,0,Sd)确定,其中S为所述目标区域的所述正规化样品覆盖度,C为所述目标区域的所述按比例缩放基线覆盖度,且Sd为所述覆盖度差异的标准差。
20.根据权利要求16所述的系统,其中所述最大评分路径使用动态编程算法确定。
21.根据权利要求16所述的系统,其中所述拷贝数分析模块进一步包括可操作以确定所述最大评分路径与预期倍性状态的评分比率的后处理模块。
22.根据权利要求16所述的系统,其中所述拷贝数分析模块进一步包括可操作以确定所述最大评分路径与最可能相邻倍性状态的评分比率的后处理模块。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361773584P | 2013-03-06 | 2013-03-06 | |
US61/773,584 | 2013-03-06 | ||
PCT/US2014/020516 WO2014138153A1 (en) | 2013-03-06 | 2014-03-05 | Systems and methods for determining copy number variation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105359151A CN105359151A (zh) | 2016-02-24 |
CN105359151B true CN105359151B (zh) | 2019-04-05 |
Family
ID=50442606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480023468.0A Active CN105359151B (zh) | 2013-03-06 | 2014-03-05 | 用于确定拷贝数变异的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US20140256571A1 (zh) |
EP (1) | EP2984598A1 (zh) |
CN (1) | CN105359151B (zh) |
WO (1) | WO2014138153A1 (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11094398B2 (en) | 2014-10-10 | 2021-08-17 | Life Technologies Corporation | Methods for calculating corrected amplicon coverages |
US10767220B2 (en) | 2015-05-21 | 2020-09-08 | Becton, Dickinson And Company | Methods of amplifying nucleic acids and compositions for practicing the same |
ITUA20162640A1 (it) * | 2016-04-15 | 2017-10-15 | Menarini Silicon Biosystems Spa | Metodo e kit per la generazione di librerie di dna per sequenziamento massivo parallelo |
PT3488443T (pt) | 2016-07-20 | 2021-09-24 | BioNTech SE | Seleção de neoepítopos como alvos específicos da doença para terapia com eficácia melhorada |
CN106372459B (zh) * | 2016-08-30 | 2019-03-15 | 天津诺禾致源生物信息科技有限公司 | 一种基于扩增子二代测序拷贝数变异检测的方法及装置 |
US11141709B2 (en) | 2016-11-04 | 2021-10-12 | Washington University | Automated exposition of known and novel multiple myeloma genomic variants using a single sequencing platform |
WO2018119438A1 (en) * | 2016-12-22 | 2018-06-28 | Grail, Inc. | Base coverage normalization and use thereof in detecting copy number variation |
CN106709385A (zh) * | 2016-12-27 | 2017-05-24 | 上海阳明汽车部件有限公司 | 以SD/MicroSD存储卡为载体的软件复制系统 |
CA3057589A1 (en) * | 2017-03-24 | 2018-09-27 | Counsyl, Inc. | Copy number variant caller |
US20180340234A1 (en) | 2017-05-26 | 2018-11-29 | Life Technologies Corporation | Methods and systems to detect large rearrangements in brca1/2 |
EP3431611A1 (en) * | 2017-07-21 | 2019-01-23 | Menarini Silicon Biosystems S.p.A. | Improved method and kit for the generation of dna libraries for massively parallel sequencing |
CN108256289B (zh) * | 2018-01-17 | 2020-10-16 | 湖南大地同年生物科技有限公司 | 一种基于目标区域捕获测序基因组拷贝数变异的方法 |
CA3122109A1 (en) * | 2018-12-21 | 2020-06-25 | Grail, Inc. | Systems and methods for using fragment lengths as a predictor of cancer |
CN109698976A (zh) * | 2019-01-14 | 2019-04-30 | 全玲 | 基于音频特征提取的快进快退播放方法、装置和播放器 |
CN111755066B (zh) * | 2019-03-27 | 2022-10-18 | 欧蒙医学诊断(中国)有限公司 | 一种拷贝数变异的检测方法和实施该方法的设备 |
US20200407711A1 (en) * | 2019-06-28 | 2020-12-31 | Advanced Molecular Diagnostics, LLC | Systems and methods for scoring results of identification processes used to identify a biological sequence |
CN114223035A (zh) | 2019-08-20 | 2022-03-22 | 生命科技股份有限公司 | 用于控制测序装置的方法 |
CN114514328A (zh) | 2019-08-21 | 2022-05-17 | 生命技术公司 | 用于测序的系统和方法 |
EP4244388A1 (en) | 2020-11-14 | 2023-09-20 | Life Technologies Corporation | System and method for automated repeat sequencing |
WO2022104272A1 (en) | 2020-11-16 | 2022-05-19 | Life Technologies Corporation | System and method for sequencing |
CN116724128A (zh) | 2020-12-31 | 2023-09-08 | 生命技术公司 | 用于控制测序过程的系统和方法 |
CN113409885B (zh) * | 2021-06-21 | 2022-09-20 | 天津金域医学检验实验室有限公司 | 一种自动化数据处理以及作图方法及系统 |
WO2024006878A1 (en) | 2022-06-30 | 2024-01-04 | Life Technologies Corporation | Methods for assessing genomic instability |
WO2024163553A1 (en) | 2023-01-31 | 2024-08-08 | Life Technologies Corporation | Methods for detecting gene level copy number variation in brca1 and brca2 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567654A (zh) * | 2010-10-08 | 2012-07-11 | 霍夫曼-拉罗奇有限公司 | 阵列数据波校正的方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006084131A2 (en) | 2005-02-01 | 2006-08-10 | The Government Of The United States Of America, As Represented By The Secretary, Department Of Health And Human Services | Furin inhibitors and alpha-defensins for the treatment or prevention of papillomavirus infection |
US20090325145A1 (en) | 2006-10-20 | 2009-12-31 | Erwin Sablon | Methodology for analysis of sequence variations within the hcv ns5b genomic region |
US8262900B2 (en) | 2006-12-14 | 2012-09-11 | Life Technologies Corporation | Methods and apparatus for measuring analytes using large scale FET arrays |
EP2653861B1 (en) | 2006-12-14 | 2014-08-13 | Life Technologies Corporation | Method for sequencing a nucleic acid using large-scale FET arrays |
US20100301398A1 (en) | 2009-05-29 | 2010-12-02 | Ion Torrent Systems Incorporated | Methods and apparatus for measuring analytes |
US20100137143A1 (en) | 2008-10-22 | 2010-06-03 | Ion Torrent Systems Incorporated | Methods and apparatus for measuring analytes |
US8546128B2 (en) | 2008-10-22 | 2013-10-01 | Life Technologies Corporation | Fluidics system for sequential delivery of reagents |
US8673627B2 (en) | 2009-05-29 | 2014-03-18 | Life Technologies Corporation | Apparatus and methods for performing electrochemical reactions |
AU2011207561B2 (en) * | 2010-01-19 | 2014-02-20 | Verinata Health, Inc. | Partition defined detection methods |
US20120046877A1 (en) * | 2010-07-06 | 2012-02-23 | Life Technologies Corporation | Systems and methods to detect copy number variation |
US8725422B2 (en) * | 2010-10-13 | 2014-05-13 | Complete Genomics, Inc. | Methods for estimating genome-wide copy number variations |
WO2012088348A2 (en) * | 2010-12-23 | 2012-06-28 | Sequenom, Inc. | Fetal genetic variation detection |
-
2014
- 2014-03-05 WO PCT/US2014/020516 patent/WO2014138153A1/en active Application Filing
- 2014-03-05 EP EP14716060.0A patent/EP2984598A1/en active Pending
- 2014-03-05 CN CN201480023468.0A patent/CN105359151B/zh active Active
- 2014-03-05 US US14/197,346 patent/US20140256571A1/en not_active Abandoned
-
2019
- 2019-06-12 US US16/438,757 patent/US20190362810A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567654A (zh) * | 2010-10-08 | 2012-07-11 | 霍夫曼-拉罗奇有限公司 | 阵列数据波校正的方法 |
Also Published As
Publication number | Publication date |
---|---|
US20190362810A1 (en) | 2019-11-28 |
CN105359151A (zh) | 2016-02-24 |
EP2984598A1 (en) | 2016-02-17 |
WO2014138153A1 (en) | 2014-09-12 |
US20140256571A1 (en) | 2014-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105359151B (zh) | 用于确定拷贝数变异的系统和方法 | |
US20210292831A1 (en) | Systems and methods to detect copy number variation | |
Sethna et al. | OLGA: fast computation of generation probabilities of B-and T-cell receptor amino acid sequences and motifs | |
Al’Khafaji et al. | High-throughput RNA isoform sequencing using programmed cDNA concatenation | |
US20230410946A1 (en) | Systems and methods for sequence data alignment quality assessment | |
US20210210164A1 (en) | Systems and methods for mapping sequence reads | |
CN106068330A (zh) | 将已知等位基因用于读数映射中的系统和方法 | |
CN107075571A (zh) | 用于检测结构变异体的系统和方法 | |
CN105849276A (zh) | 用于检测结构变异体的系统和方法 | |
CN107111692A (zh) | 用于计算经校正扩增子覆盖度的方法、系统及计算机可读媒体 | |
Masoudi-Nejad et al. | Next generation sequencing and sequence assembly: methodologies and algorithms | |
CN111108218A (zh) | 使用压缩的分子标记的核酸序列数据检测融合的方法 | |
US20230083827A1 (en) | Systems and methods for identifying somatic mutations | |
US20140274733A1 (en) | Methods and Systems for Local Sequence Alignment | |
US20170199734A1 (en) | Systems and methods for versioning hosted software | |
CN106661613A (zh) | 用于验证测序结果的系统和方法 | |
US20170206313A1 (en) | Using Flow Space Alignment to Distinguish Duplicate Reads | |
US20220284986A1 (en) | Systems and methods for identifying exon junctions from single reads | |
US11566281B2 (en) | Systems and methods for paired end sequencing | |
Zhao et al. | Calling small variants with universality and Bayesian-frequentist hybridism | |
Bolognini | Unraveling tandem repeat variation in personal genomes with long reads | |
Quan | Accurate alignment of sequencing reads from various genomic origins | |
Hilker | Development of a read mapping analysis software and computational pan genome analysis of 20 Pseudomonas aeruginosa strains | |
Berg | qPCR & NGS 2013 Proceedings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |