CN110872617A - 检测稀有突变和拷贝数变异的系统和方法 - Google Patents

检测稀有突变和拷贝数变异的系统和方法 Download PDF

Info

Publication number
CN110872617A
CN110872617A CN201910977280.4A CN201910977280A CN110872617A CN 110872617 A CN110872617 A CN 110872617A CN 201910977280 A CN201910977280 A CN 201910977280A CN 110872617 A CN110872617 A CN 110872617A
Authority
CN
China
Prior art keywords
polynucleotides
sequence
sequencing
polynucleotide
reads
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910977280.4A
Other languages
English (en)
Inventor
阿米尔阿里·塔拉萨兹
埃尔米·埃尔图凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guardant Health Inc
Original Assignee
Guardant Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=50237580&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN110872617(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Guardant Health Inc filed Critical Guardant Health Inc
Publication of CN110872617A publication Critical patent/CN110872617A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2545/00Reactions characterised by their quantitative nature
    • C12Q2545/10Reactions characterised by their quantitative nature the purpose being quantitative analysis
    • C12Q2545/114Reactions characterised by their quantitative nature the purpose being quantitative analysis involving a quantitation step
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays

Abstract

本发明提供了用于检测无细胞多核苷酸中的稀有突变和拷贝数变异的系统和方法。通常,该系统和方法包括样品制备或从体液中提取和分离无细胞多核苷酸序列;随后通过本领域已知的技术对无细胞多核苷酸进行测序;以及应用生物信息学工具与参考相比检测稀有突变和拷贝数变异。该系统和方法还可包含不同疾病的不同稀有突变或拷贝数变异谱的数据库或集合,其将作为附加参考用于帮助疾病的稀有突变的检测、拷贝数变异谱分析或普通遗传谱分析。

Description

检测稀有突变和拷贝数变异的系统和方法
本申请是2013年09月04日提交的发明名称为“检测稀有突变和拷贝数变异的系统和方法”的第201380057641.4号(国际申请号PCT/US2013/058061)中国专利申请的分案申请。
交叉引用
本申请要求2012年9月4日提交的美国临时专利申请号61/696,734、2012年9月21日提交的美国临时专利申请号61/704,400、2013年3月15日提交的美国临时专利申请号61/793,997和2013年7月13日提交的美国临时专利申请号61/845,987的优先权,上述各个专利申请均为所有目的通过引用而整体并入本文。
背景技术
多核苷酸的检测和定量对于分子生物学和医学应用如诊断学是重要的。遗传检测特别可用于许多诊断方法。例如,由稀有遗传改变(例如,序列变异体)或外遗传标记物的改变引起的病症,如癌症和部分或完全的非整倍性,可以用DNA序列信息进行检测或更准确地表征。
遗传性疾病如癌症的早期检测和监测在疾病的成功治疗或管理中通常是有用的或需要的。一种方法可以包括监测来源于无细胞的核酸的样品,其为可在不同类型的体液中发现的多核苷酸群体。在一些情况下,可以基于检测遗传异常,如一个或多个核酸序列的拷贝数变异和/或序列变异的变化,或其它某些稀有遗传改变的发展,来表征或检测疾病。无细胞的DNA(“cfDNA”)几十年来已为本领域所知,并且可以包含与特定疾病相关的遗传异常。随着测序和操纵核酸的技术的改进,本领域中存在对使用无细胞的DNA来检测和监测疾病的改进方法和系统的需求。
发明内容
本公开内容提供了一种用于检测拷贝数变异的方法,该方法包括:a)对来自受试者的身体样品的细胞外多核苷酸进行测序,其中该细胞外多核苷酸中的每一个任选地附接至独特条形码;b)过滤掉未能满足所设定的阈值的阅读值;c)将由步骤(a)获得的序列阅读值定位(mapping)至参考序列;d)对在所述参考序列的两个或更多个预定义区域中定位的阅读值进行定量/计数;e)通过下列步骤确定在一个或多个预定义区域中的拷贝数变异:(i)将预定义区域中的阅读值的数目相对于彼此进行归一化,和/或将预定义区域中的独特条形码的数目相对于彼此进行归一化;和(ii)将从步骤(i)中获得的归一化的数目与从对照样品获得的归一化的数目进行比较。
本公开内容还提供了一种用于检测从受试者获得的无细胞的或基本无细胞的样品中的稀有突变的方法,该方法包括:a)对来自受试者的身体样品的细胞外多核苷酸进行测序,其中所述细胞外多核苷酸中的每一个生成多个测序阅读值;b)对来自受试者的身体样品的细胞外多核苷酸进行测序,其中所述细胞外多核苷酸中的每一个生成多个测序阅读值;对来自受试者的身体样品的细胞外多核苷酸进行测序,其中所述细胞外多核苷酸中的每一个生成多个测序阅读值;c)过滤掉未能满足所设定的阈值的阅读值;d)将从测序得到的序列阅读值定位至参考序列上;e)鉴别在各个可定位的碱基位置处与参考序列的变异体对准的被定位序列阅读值的亚组;f)对各个可定位的碱基位置,计算出(a)与参考序列相比包含变异体的被定位序列阅读值的数目与(b)各个可定位碱基位置的序列阅读值总数的比值;g)将各个可定位碱基位置的变异的比值或频率进行归一化并确定潜在的稀有变异体或突变;h)以及将具有潜在的稀有变异体或突变的各个区域的所得数目与从参考样品类似地得到的数目进行比较。
另外,本公开内容还提供了一种用于表征受试者中的异常状况的异质性的方法,该方法包括生成受试者的细胞外多核苷酸的遗传谱(genetic profile),其中所述遗传谱包含由拷贝数变异和/或其它稀有突变(例如,遗传改变)分析得到的多个数据。
在一些实施方案中,同时报告和定量在受试者中鉴别的各个稀有变异体的出现率(prevalence)/浓度。在其它实施方案中,报告关于受试者中稀有变异体的出现率/浓度的置信得分(confidence score)。
在一些实施方案中,细胞外多核苷酸包含DNA。在其它实施方案中,细胞外多核苷酸包含RNA。多核苷酸可以是片段或在分离后被片段化。此外,本公开内容提供了用于循环核酸分离和提取的方法。
在一些实施方案中,从身体样品分离细胞外多核苷酸,该身体样品可选自血液、血浆、血清、尿液、唾液、粘膜分泌物、痰、粪便和泪液。
在一些实施方案中,本公开内容的方法还包括确定在所述身体样品中具有拷贝数变异或其它稀有遗传改变(例如,序列变异体)的序列的百分比的步骤。
在一些实施方案中,通过计算所具有的多核苷酸的量高于或低于预定阈值的预定义区域的百分比,来确定在所述身体样品中具有拷贝数变异的序列的百分比。
在一些实施方案中,体液从疑似具有异常状况的受试者抽取,该异常状况可选自突变、稀有突变、单核苷酸变异体、插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常变化、外遗传模式的异常变化、核酸甲基化的异常变化、感染和癌症。
在一些实施方案中,受试者可以是妊娠的女性,其中异常状况可以是选自单核苷酸变异体、插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常变化、外遗传模式的异常变化、核酸甲基化的异常变化、感染和癌症的胎儿异常。
在一些实施方案中,该方法可以包括在测序前将一个或多个条形码附接至细胞外多核苷酸或其片段,其中包含的条形码是独特的。在其它实施方案中,在测序前附接至细胞外多核苷酸或其片段的条形码不是独特的。
在一些实施方案中,本公开内容的方法可以包括在测序前从受试者的基因组或转录组选择性地富集区域。在其它实施方案中,本公开内容的方法包括在测序前从受试者的基因组或转录组选择性地富集区域。在其它实施方案中,本公开内容的方法包括在测序前从受试者的基因组或转录组非选择性地富集区域。
此外,本公开内容的方法包括在任何扩增或富集步骤前,将一个或多个条形码附接至细胞外多核苷酸或其片段。
在一些实施方案中,所述条形码是多核苷酸,其可以进一步包含随机序列或固定的或半随机的一组寡核苷酸,该寡核苷酸与从选定区域测序的分子的多样性组合能够鉴别独特的分子并且为至少3、5、10、15、20、25、30、35、40、45或50聚物碱基对的长度。
在一些实施方案中,可以扩增细胞外多核苷酸或其片段。在一些实施方案中,扩增包括全局扩增或全基因组扩增。
在一些实施方案中,可以基于在序列阅读值的开始(启动)或结束(终止)区域处的序列信息和序列阅读值的长度来检测独特身份的序列阅读值。在其它实施方案中,可以基于在序列阅读值的开始(启动)或结束(终止)区域处的序列信息、序列阅读值的长度和条形码的附接来检测独特身份的序列分子。
在一些实施方案中,扩增包括选择性扩增、非选择性扩增、抑制扩增或消减富集。
在一些实施方案中,本公开内容的方法包括在对阅读值进行定量或计数前从进一步的分析中除去所述阅读值的亚组。
在一些实施方案中,该方法可包括过滤掉准确度或质量得分小于阈值例如90%、99%、99.9%或99.99%和/或定位得分小于阈值例如90%、99%、99.9%或99.99%的阅读值。在其它实施方案中,本公开内容的方法包括过滤质量得分小于所设定的阈值的阅读值。
在一些实施方案中,预定义区域在大小上是均匀的或基本均匀的,大小为约10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb或100kb。在一些实施方案中,分析至少50、100、200、500、1000、2000、5000、10,000、20,000或50,000个区域。
在一些实施方案中,遗传变异体、稀有突变或拷贝数变异发生在选自基因融合、基因复制、基因缺失、基因易位、微卫星区域、基因片段或其组合的基因组区域中。在其它实施方案中,遗传变异体、稀有突变或拷贝数变异发生在选自基因、癌基因、肿瘤抑制基因、启动子、调节序列元件或其组合的基因组区域中。在一些实施方案中,该变异体是1、2、3、4、5、6、7、8、9、10、15或20个核苷酸长度的核苷酸变异体、单碱基置换、或小插入缺失、颠换、易位、倒位、缺失、截短或基因截短。
在一些实施方案中,该方法包括使用条形码或单个阅读值的独特性质来校正/归一化/调整所定位的阅读值的量。
在一些实施方案中,通过对各个预定义区域中的独特条形码进行计数并将这些数目在所测序的预定义区域的至少一个亚组中进行归一化来对阅读值进行计数。在一些实施方案中,分析以连续的时间间隔来自相同受试者的样品并将其与以前的样品结果进行比较。本公开内容的方法可以进一步包括在扩增附接有条形码的细胞外多核苷酸后确定部分拷贝数变异频率、杂合性的丢失、基因表达分析、外遗传分析和过度甲基化分析。
在一些实施方案中,使用多重测序在从受试者获得的无细胞或基本无细胞的样品中确定拷贝数变异和稀有突变分析,该多重测序包括进行超过10,000个测序反应;同时对至少10,000个不同的阅读值进行测序;或者在整个基因组中对至少10,000个不同的阅读值进行数据分析。该方法可以包括多重测序,该多重测序包括在整个基因组中对至少10,000个不同的阅读值进行数据分析。该方法可进一步包括对可独特鉴别的测序阅读值进行计数。
在一些实施方案中,本公开内容的方法包括使用隐马尔可夫(hidden markov)、动态编程、支持向量机、贝叶斯网络、网格解码、维特比解码、期望最大化、卡尔曼过滤或者神经网络方法中的一个或多个进行归一化和检测。
在一些实施方案中,本公开内容的方法包括基于所发现的变异体监测疾病进展、监测残留疾病、监测疗法、诊断状况、状况预后或者选择疗法。
在一些实施方案中,基于最近的样品分析来修改疗法。此外,本公开内容的方法包括推断肿瘤、感染或其它组织异常的遗传谱。在一些实施方案中,监测肿瘤、感染或其它组织异常的生长、缓解或演变。在一些实施方案中,在单一情况下或随时间推移分析和监测受试者的免疫系统。
在一些实施方案中,本公开内容的方法包括通过成像测试(例如,CT、PET-CT、MRI、X射线、超声波)追踪的变异体的鉴别,以便定位疑似引起所鉴别的变异体的组织异常。
在一些实施方案中,本公开内容的方法包括使用从来自相同患者的组织或肿瘤活检获得的遗传数据。在一些实施方案中,由此推断肿瘤、感染或其它组织异常的系统发生学。
在一些实施方案中,本公开内容的方法包括对低置信区域进行基于群体的非判定(no-calling)和鉴别。在一些实施方案中,获得序列覆盖度的测量数据包括测量基因组的每个位置处的序列覆盖深度。在一些实施方案中,针对序列覆盖偏倚校正测量数据包括计算窗口平均的覆盖度。在一些实施方案中,针对序列覆盖偏倚校正测量数据包括进行调整以应对在文库构建和测序过程中的GC偏倚。在一些实施方案中,针对序列覆盖偏倚校正测量数据包括基于与个体定位相关联的附加加权因子进行调整,以补偿偏倚。
在一些实施方案中,本公开内容的方法包含源自病变细胞来源的细胞外多核苷酸。在一些实施方案中,细胞外多核苷酸源自健康细胞来源。
本公开内容还提供了一种包含计算机可读介质的系统,该计算机可读介质用于执行以下步骤:选择基因组中的预定义区域;对所述预定义区域中的序列阅读值的数目进行计数;对所述预定义区域上的序列阅读值的数目进行归一化;以及确定所述预定义区域中的拷贝数变异的百分比。在一些实施方案中,分析整个基因组或基因组的至少10%、20%、30%、40%、50%、60%、70%、80%或90%。在一些实施方案中,计算机可读介质将关于血浆或血清中的癌症DNA或RNA百分比的数据提供给最终用户。
在一些实施方案中,分析遗传变异如多态性或因果变异体(causal variant)的量。在一些实施方案中,检测遗传改变的存在与否存在与否。
本公开内容还提供了一种用于在从受试者获得的无细胞或基本无细胞的样品中检测稀有突变的方法,该方法包括:a)对来自受试者的身体样品的细胞外多核苷酸进行测序,其中所述细胞外多核苷酸中的每一个产生多个测序阅读值;b)过滤掉未能满足所设定的质量阈值的阅读值;c)将从测序得到的序列阅读值定位至参考序列上;d)鉴别在各个可定位的碱基位置处与该参考序列的变异体对准的被定位序列阅读值的亚组;e)对于各个可定位的碱基位置,计算出(a)与该参考序列相比包含变异体的被定位序列阅读值的数目与(b)各个可定位碱基位置的序列阅读值总数的比值;f)将各个可定位碱基位置的变异的比值或频率进行归一化,并确定潜在的稀有变异体或其它遗传改变;以及g)比较各个区域的所得数目。
本公开内容还提供了一种方法,该方法包括:a.提供至少一组标记的亲本多核苷酸,并且对于各组标记的亲本多核苷酸;b.扩增该组中的标记的亲本多核苷酸,以产生相应的一组扩增的子代多核苷酸;c.对该组扩增的子代多核苷酸的亚组(包括真亚组(propersubset))进行测序,以产生一组测序阅读值;以及d.使该组测序阅读值分解(collapsing),以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸。在某些实施方案中,该方法还包括:e.针对每组标记的亲本分子对该组共有序列进行分析。
在一些实施方案中,一组中的各个多核苷酸可定位至参考序列。
在一些实施方案中,该方法包括提供多组标记的亲本多核苷酸,其中各组可定位至不同的参考序列。
在一些实施方案中,该方法还包括将初始起始遗传材料转换成标记的亲本多核苷酸。
在一些实施方案中,初始起始遗传材料包含不超过100ng的多核苷酸。
在一些实施方案中,该方法包括在转换前瓶颈化(bottlenecking)初始起始遗传材料。
在一些实施方案中,该方法包括以至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少80%或至少90%的转换效率将初始起始遗传材料转换成标记的亲本多核苷酸。
在一些实施方案中,转换包括平端连接、粘端连接、分子倒位探针、PCR、基于连接的PCR、单链连接和单链环化中的任何方法。
在一些实施方案中,初始起始遗传材料是无细胞的核酸。
在一些实施方案中,多个参考序列来自相同的基因组。
在一些实施方案中,该组中的各个标记的亲本多核苷酸是独特地标记的。
在一些实施方案中,标签是非独特的。
在一些实施方案中,共有序列的生成基于来自标签的信息和/或在序列阅读值的开始(启动)区域、序列阅读值的结束(终止)区域的序列信息和序列阅读值的长度中的至少一个。
在一些实施方案中,该方法包括对该组扩增的子代多核苷酸的亚组进行测序,该测序足以对至少一个子代产生序列阅读值,该子代来自该组标记的亲本多核苷酸中的独特多核苷酸的至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、至少98%、至少99%、至少99.9%或至少99.99%中的每一个。
在一些实施方案中,所述至少一个子代是多个子代,例如,至少2个、至少5个或至少10个子代。
在一些实施方案中,该组序列阅读值中的序列阅读值的数目大于该组标记的亲本多核苷酸中的独特标记的亲本多核苷酸的数目。
在一些实施方案中,被测序的该组扩增的子代多核苷酸的亚组具有足够的大小,以使得以与所用测序平台的每碱基测序错误率百分比相同的百分比在该组标记的亲本多核苷酸中呈现的任何核苷酸序列有至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、至少98%、至少99%、至少99.9%或至少99.99%的机会在该组共有序列之间呈现。
在一些实施方案中,该方法包括通过以下步骤,针对定位至一个或多个选定参考序列的多核苷酸,富集该组扩增的子代多核苷酸:(i)来自已转换成标记的亲本多核苷酸的初始起始遗传材料的序列的选择性扩增;(ii)标记的亲本多核苷酸的选择性扩增;(iii)扩增的子代多核苷酸的选择性序列捕获;或(iv)初始起始遗传材料的选择性序列捕获。
在一些实施方案中,分析包括将从一组共有序列获得的度量(measure)(例如,数目)相对于从来自对照样品的一组共有序列获得的度量进行归一化。
在一些实施方案中,分析包括检测突变、稀有突变、单核苷酸变异体、插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常变化、外遗传模式的异常变化、核酸甲基化的异常变化、感染或癌症。
在一些实施方案中,所述多核苷酸包含DNA、RNA、这两者的组合或DNA加RNA衍生的cDNA。
在一些实施方案中,针对或基于碱基对的多核苷酸长度从多核苷酸的初始组或从扩增的多核苷酸中选择或富集多核苷酸的某个亚组。
在一些实施方案中,分析进一步包括检测和监测个体内的异常或疾病,例如,感染和/或癌症。
在一些实施方案中,该方法与免疫组库谱分析(immune repertoire profiling)组合进行。
在一些实施方案中,从由血液、血浆、血清、尿液、唾液、粘膜分泌物、痰、粪便和泪液组成的组中提取多核苷酸。
在一些实施方案中,分解包括检测和/或校正在标记的亲本多核苷酸或扩增的子代多核苷酸的有义或反义链中存在的错误、切口或损伤。
本公开内容还提供了一种方法,该方法包括以至少5%、至少1%、至少0.5%、至少0.1%或至少0.05%的灵敏度检测在初始起始遗传材料中的遗传变异。在一些实施方案中,初始起始遗传材料以小于100ng的核酸的量来提供,该遗传变异是拷贝数/杂合性变异,并且检测在亚染色体分辨率下进行;例如,至少100兆碱基分辨率、至少10兆碱基分辨率、至少1兆碱基分辨率、至少100千碱基分辨率、至少10千碱基分辨率或至少1千碱基分辨率。在另一个实施方案中,该方法包括提供多组标记的亲本多核苷酸,其中各组可定位至不同参考序列。在另一个实施方案中,参考序列是肿瘤标志物的基因座,并且分析包括检测该组共有序列中的肿瘤标志物。在另一个实施方案中,肿瘤标志物以小于在扩增步骤中引入的错误率的频率存在于该组共有序列中。在另一个实施方案中,所述至少一组是多组,并且参考序列包含多个参考序列,其中各个参考序列是肿瘤标志物的基因座。在另一个实施方案中,分析包括检测在至少两组亲本多核苷酸间的共有序列的拷贝数变异。在另一个实施方案中,分析包括检测与参考序列相比序列变异的存在。在另一个实施方案中,分析包括检测与参考序列相比序列变异的存在并检测在至少两组亲本多核苷酸间的共有序列的拷贝数变异。在另一个实施方案中,分解包括:i.将从扩增的子代多核苷酸测序的序列阅读值分组成家族,各个家族从相同的标记的亲本多核苷酸扩增;以及ii.基于家族中的序列阅读值确定共有序列。
本公开内容还提供了一种包含计算机可读介质的系统,该计算机可读介质用于执行以下步骤:a.提供至少一组标记的亲本多核苷酸,并且对于各组标记的亲本多核苷酸;b.扩增该组中的标记的亲本多核苷酸,以产生相应的一组扩增的子代多核苷酸;c.对该组扩增的子代多核苷酸的亚组(包括真亚组)进行测序,以产生一组测序阅读值;以及d.分解该组测序阅读值,以生成一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸间的独特多核苷酸,以及任选地e.针对各组标记的亲本分子对该组共有序列进行分析。
本公开内容还提供了一种方法,该方法包括:a.提供至少一组标记的亲本多核苷酸,并且对于各组标记的亲本多核苷酸;b.扩增该组中的标记的亲本多核苷酸,以产生相应的一组扩增的子代多核苷酸;c.对该组扩增的子代多核苷酸的亚组(包括真亚组)进行测序,以产生一组测序阅读值;d.分解该组测序阅读值,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸间的独特多核苷酸,以及e.从共有序列中过滤掉那些未满足质量阈值的共有序列。在一个实施方案中,该质量阈值考虑来自已分解成共有序列的扩增子代多核苷酸的序列阅读值的数目。在另一个实施方案中,该质量阈值考虑来自已分解成共有序列的扩增子代多核苷酸的序列阅读值的数目。本公开内容还提供了一种包含用于执行上述方法的计算机可读介质的系统。
本公开内容还提供了一种方法,该方法包括:a.提供至少一组标记的亲本多核苷酸,其中各组定位至一个或多个基因组中的不同参考序列,并且对于各组标记的亲本多核苷酸;i.扩增第一多核苷酸,以产生一组扩增的多核苷酸;ii.对该组扩增的多核苷酸的亚组进行测序,以产生一组测序阅读值;以及iii.通过以下步骤分解该序列阅读值:1.将从扩增的子代多核苷酸测序的序列阅读值分组成家族,各个家族从相同的标记的亲本多核苷酸扩增。在一个实施方案中,分解进一步包括:2.确定各个家族中序列阅读值的定量度量。在另一个实施方案中,该方法还包括(包括a):b.确定独特家族的定量度量;以及c.基于(1)独特家族的定量度量,和(2)各组中的序列阅读值的定量度量,推断在该组中的独特标记亲本多核苷酸的度量。在另一个实施方案中,使用统计或概率模型进行推断。在另一个实施方案中,其中所述至少一个组是多个组。在另一个实施方案中,该方法进一步包括校正两组之间的扩增或呈现偏倚。在另一个实施方案中,该方法进一步包括使用对照或一组对照样品来校正两组之间的扩增或呈现偏倚。在另一个实施方案中,该方法进一步包括确定组间的拷贝数变异。在另一个实施方案中,该方法进一步包括(包括a、b、c):d.确定家族之间的多态性形式的定量度量;以及e.基于所确定的多态性形式的定量度量,来推断在推断的独特标记亲本多核苷酸的数目上的多态性形式的定量度量。在另一个实施方案中,其中多态性形式包括但不限于:置换、插入、缺失、倒位、微卫星改变、颠换、易位、融合、甲基化、过度甲基化、羟甲基化、乙酰化、外遗传变异体、与调节相关的变异体或蛋白质结合位点。在其中所述组源自共同的样品的另一个实施方案中,所述方法进一步包括:a.基于定位至多个参考序列中每一个的各组中标记亲本多核苷酸的推断数目的比较,来推断所述多个组的拷贝数变异。在另一个实施方案中,进一步推断在各组中的多核苷酸的原始数目。本公开内容还提供了一种包含用于执行上述方法的计算机可读介质的系统。
本公开内容还提供了一种确定在包含多核苷酸的样品中的拷贝数变异的方法,该方法包括:a.提供至少两组第一多核苷酸,其中各组定位至基因组中的不同参考序列,以及对于各组第一多核苷酸;i.扩增该多核苷酸,以产生一组扩增的多核苷酸;ii.对该组扩增的多核苷酸的亚组进行测序,以产生一组测序阅读值;iii.将从扩增的多核苷酸测序的序列阅读值分组成家族,各个家族从所述组中的相同的第一多核苷酸扩增;iv.推断该组中的家族的定量度量;b.通过比较各组中的家族的定量度量来确定拷贝数变异。本公开内容还提供了一种包含用于执行上述方法的计算机可读介质的系统。
本公开内容还提供了一种推断多核苷酸样品中的序列判定频率的方法,该方法包括:a.提供至少一组第一多核苷酸,其中各组定位至一个或多个基因组中的不同参考序列,并且对于各组第一多核苷酸;i.扩增第一多核苷酸,以产生一组扩增的多核苷酸;ii.对该组扩增的多核苷酸的亚组进行测序,以产生一组测序阅读值;iii.将该序列阅读值分组成家族,各个家族包含从相同的第一多核苷酸扩增的扩增多核苷酸的序列阅读值;b.对于各组第一多核苷酸,推断对在该组第一多核苷酸中的一个或多个碱基的判定频率,其中推断包括:i.针对各个家族,对多个判定中的每一个判定分配置信得分,该置信得分考虑家族成员之间的判定频率;以及ii.考虑分配给每个家族的一个或多个判定的置信得分,来估算一个或多个判定的频率。本公开内容还提供了一种包含用于执行上述方法的计算机可读介质的系统。
本公开内容还提供了一种将关于至少一个单个多核苷酸分子的序列信息进行通信的方法,该方法包括:a.提供至少一个单个多核苷酸分子;b.编码所述至少一个单个多核苷酸分子中的序列信息,以产生信号;c.使该信号的至少一部分通过通道,以产生包含关于所述至少一个单个多核苷酸分子的核苷酸序列信息的接收信号,其中所述接收信号包含噪声和/或畸变;d.解码该接收信号,以产生包含关于所述至少一个单个多核苷酸分子的序列信息的消息,其中解码减少了该消息中的噪声和/或畸变;以及e.将该消息提供给接收者。在一个实施方案中,所述噪声包含不正确的核苷酸判定。在另一个实施方案中,畸变包含单个多核苷酸分子与其它单个多核苷酸分子相比的不均匀扩增。在另一个实施方案中,畸变是由扩增或测序偏倚导致的。在另一个实施方案中,所述至少一个单个多核苷酸分子是多个单个多核苷酸分子,并且解码产生关于所述多个分子中的每一个分子的消息。在另一个实施方案中,编码包括扩增已经任选地标记的至少单个多核苷酸分子,其中所述信号包含扩增的分子的集合。在另一个实施方案中,所述通道包括多核苷酸测序仪且所述接收信号包括从所述至少一个单个多核苷酸分子扩增的多个多核苷酸的序列阅读值。在另一个实施方案中,解码包括将从所述至少一个单个多核苷酸分子中的每一个扩增的扩增分子的序列阅读值进行分组。在另一个实施方案中,解码由过滤所生成的序列信号的概率或统计方法组成。本公开内容还提供了一种包含用于执行上述方法的计算机可读介质的系统。
在另一个实施方案中,多核苷酸源自肿瘤基因组DNA或RNA。在另一个实施方案中,多核苷酸源自无细胞多核苷酸、核外(exosomal)多核苷酸、细菌多核苷酸或病毒多核苷酸。在另一个实施方案中,进一步包括受影响的分子通路的检测和/或关联。在另一个实施方案中,进一步包括连续监测个体的健康或疾病状态。在另一个实施方案中,由此推断个体内与疾病相关的基因组的种系发生。在另一个实施方案中,进一步包括疾病的诊断、监测或治疗。在另一个实施方案中,基于所检测到的多态性形式或CNV或相关的通路来选择或修改治疗方案。在另一个实施方案中,治疗包括联合疗法。
本公开内容还提供了一种非暂时性、有形形式的计算机可读介质,其包含配置成执行以下步骤的可执行代码:选择在基因组中的预定义区域;访问序列阅读值并对预定义区域中的序列阅读值数目进行计数;将预定义区域上的序列阅读值的数目进行归一化;以及确定在预定义区域中的拷贝数变异的百分比。
本公开内容还提供了一种非暂时性、有形形式的计算机可读介质,其包含配置成执行以下步骤的可执行代码:a.访问包含多个测序阅读值的数据文件;b.过滤掉未能满足所设定的阈值的阅读值;c.将从测序得到的序列阅读值定位至参考序列;d.鉴别在各个可定位碱基位置处与参考序列的变异体对准的被定位序列阅读值的亚组;e.对于各个可定位碱基位置,计算出(a)与参考序列相比包含变异体的被定位序列阅读值的数目与(b)各个可定位碱基位置的序列阅读值总数的比值;f.将各个可定位碱基位置的变异的比值或频率进行归一化并确定潜在的稀有变异体或其它遗传改变;以及g.将具有潜在的稀有变异体或突变的各个区域的所得数目与从参考样品类似地得到的数目进行比较。
本公开内容还提供了一种非暂时性、有形形式的计算机可读介质,其包含配置成执行以下步骤的可执行代码:a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;b.分解该组测序阅读值,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸。
本公开内容还提供了一种非暂时性、有形形式的计算机可读介质,其包含配置成执行以下步骤的可执行代码:a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;b.分解该组测序阅读值,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸;c.从共有序列中过滤掉那些未满足质量阈值的共有序列。
本公开内容还提供了一种非暂时性、有形形式的计算机可读介质,其包含配置成执行以下步骤的可执行代码:a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;以及i.通过以下步骤分解该序列阅读值:1.将从扩增的子代多核苷酸测序的序列阅读值分组成家族,各个家族从相同的标记亲本多核苷酸扩增,以及任选地2.确定各个家族中序列阅读值的定量度量。在某些实施方案中,所述可执行代码进一步执行以下步骤:b.确定独特家族的定量度量;c.基于(1)独特家族的定量度量和(2)各组中的序列阅读值的定量度量,来推断在该组中的独特标记亲本多核苷酸的度量。在某些实施方案中,所述可执行代码进一步执行以下步骤:d.确定家族之间的多态性形式的定量度量;以及e.基于所确定的多态性形式的定量度量,来推断在推断的独特标记亲本多核苷酸的数目上的多态性形式的定量度量。
本公开内容还提供了一种非暂时性、有形形式的计算机可读介质,其包含配置成执行以下步骤的可执行代码:a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;将从扩增的多核苷酸测序的序列阅读值分组成家族,各个家族从所述组中的相同的第一多核苷酸扩增;b.推断该组中的家族的定量度量;c.通过比较各组中的家族的定量度量来确定拷贝数变异。
本公开内容还提供了一种非暂时性、有形形式的计算机可读介质,其包含被配置成执行以下步骤的可执行代码:a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;将序列阅读值分组成家族,各个家族包含从相同的第一多核苷酸扩增的扩增多核苷酸的序列阅读值;b.对于各组第一多核苷酸,推断对在该组第一多核苷酸中的一个或多个碱基的判定频率,其中推断包括:c.针对各个家族,对多个判定中的每一个判定分配置信得分,该置信得分考虑家族成员之间的判定频率;以及d.考虑分配给每个家族的一个或多个判定的置信得分,来估算一个或多个判定的频率。
本公开内容还提供了一种非暂时性、有形形式的计算机可读介质,其包含配置成执行以下步骤的可执行代码:a.访问包含接收信号的数据文件,该接收信号包含来自至少一个单个多核苷酸分子的编码的(endoded)序列信息,其中所述接收信号包含噪声和/或畸变;b.解码所述接收信号,以产生包含关于所述至少一个单个多核苷酸分子的序列信息的消息,其中解码减少了该消息中关于各个单个多核苷酸的噪声和/或畸变;以及c.将包含关于所述至少一个单个多核苷酸分子的序列信息的消息写入计算机文件。
本公开内容还提供了一种非暂时性、有形形式的计算机可读介质,其包含配置成执行以下步骤的可执行代码:a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;b.分解该组测序阅读值,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸;c.从共有序列中过滤掉那些未满足质量阈值的共有序列。
本公开内容还提供了一种非暂时性、有形形式的计算机可读介质,其包含配置成执行以下步骤的可执行代码:a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;以及b.通过以下步骤分解该序列阅读值:i.将从扩增的子代多核苷酸测序的序列阅读值分组成家族,各个家族从相同的标记亲本多核苷酸扩增;以及ii.任选地,确定各个家族中序列阅读值的定量度量。在某些实施方案中,所述可执行代码进一步执行以下步骤:c.确定独特家族的定量度量;d.基于(1)独特家族的定量度量和(2)各组中的序列阅读值的定量度量,来推断在该组中的独特标记亲本多核苷酸的度量。在某些实施方案中,所述可执行代码进一步执行以下步骤:e.确定家族之间的多态性形式的定量度量;以及f.基于所确定的多态性形式的定量度量,来推断在推断的独特标记亲本多核苷酸的数目上的多态性形式的定量度量。在某些实施方案中,所述可执行代码进一步执行以下步骤:e.基于与定位至多个参考序列中每一个的各组中标记亲本多核苷酸的推断数目的比较,来推断所述多个组的拷贝数变异。
本公开内容还提供了一种非暂时性、有形形式的计算机可读介质,其包含配置成执行以下步骤的可执行代码:a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;b.将从扩增的多核苷酸测序的序列阅读值分组成家族,各个家族从所述组中的相同的第一多核苷酸扩增;c.推断该组中的家族的定量度量;d.通过比较各组中的家族的定量度量来确定拷贝数变异。
本公开内容还提供了一种非暂时性、有形形式的计算机可读介质,其包含配制成执行以下步骤的可执行代码:a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;将序列阅读值分组成家族,各个家族包含从相同的第一多核苷酸扩增的扩增多核苷酸的序列阅读值;以及b.对于各组第一多核苷酸,推断对在该组第一多核苷酸中的一个或多个碱基的判定频率,其中推断包括:i.针对各个家族,对多个判定中的每一个判定分配置信得分,该置信得分考虑家族成员之间的判定频率;以及ii.考虑分配给每个家族的一个或多个判定的置信得分,来估算一个或多个判定的频率。
本公开内容还提供了一种方法,该方法包括:a.提供包含100至100,000个单倍体人基因组当量(haploid human genome equivalent)的无细胞DNA(cfDNA)多核苷酸的样品;以及b.用2至1,000,000个独特标识符标记所述多核苷酸。在某些实施方案中,独特标识符的数目为至少3个、至少5个、至少10个、至少15个或至少25个和至多100个、至多1000个或至多10,000个。在某些实施方案中,独特标识符的数目为至多100个、至多1000个、至多10,000个、至多100,000个。
本公开内容还提供了一种方法,该方法包括:a.提供包含多个人单倍体基因组当量的片段化多核苷酸的样品;b.确定z,其中z是在基因组中任何位置开始的重复多核苷酸的预期数目的居中趋势度量(例如,平均值、中位数或众数),其中重复多核苷酸具有相同的启动和终止位置;以及c.用n个独特标识符标记样品中的多核苷酸,其中n是2至100,000*z、2至10,000*z、2至1,000*z或2至100*z。
本公开内容还提供了一种方法,该方法包括:a.提供至少一组标记的亲本多核苷酸,以及对于各组标记的亲本多核苷酸;b.对该组中的各个标记的亲本多核苷酸产生多个序列阅读值,以产生一组测序阅读值;以及c.分解该组测序阅读值,以生成一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸。
本公开内容提供了一种用于检测拷贝数变异的方法,该方法包括:a)对来自受试者的身体样品的细胞外多核苷酸进行测序,其中细胞外多核苷中的每一个生成多个测序阅读值;b)过滤掉未能满足所设定的阈值的阅读值;c)在过滤掉阅读值后,将由步骤(a)获得的序列阅读值定位至参考序列;d)对在所述参考序列的两个或更多个预定义区域中定位的阅读值进行定量或计数;以及e)通过下列步骤确定在一个或多个预定义区域中的拷贝数变异:(i)将预定义区域中的阅读值的数目相对于彼此进行归一化,和/或将预定义区域中的独特序列阅读值的数目相对于彼此进行归一化;(ii)将从步骤(i)中获得的归一化的数目与从对照样品获得的归一化的数目进行比较。
本公开内容还提供了一种用于检测从受试者获得的无细胞或基本无细胞的样品中的稀有突变的方法,该方法包括:a)对来自受试者的身体样品的细胞外多核苷酸进行测序,其中细胞外多核苷酸的每一个生成多个测序阅读值;b)如果未进行富集,则进行区域上的多重测序或全基因组测序;c)过滤掉未能满足所设定的阈值的阅读值;d)将由测序得到的序列阅读值定位至参考序列上;e)鉴别在各个可定位的碱基位置处与参考序列的变异体对准的被定位序列阅读值的亚组;f)对各个可定位的碱基位置,计算出(a)与参考序列相比包含变异体的被定位序列阅读值的数目与(b)各个可定位的碱基位置的序列阅读值总数的比值;g)将各个可定位碱基位置的变异的比值或频率进行归一化并确定潜在的稀有变异体或突变;以及h)将具有潜在的稀有变异体或突变的各个区域的所得数目与从参考样品类似地得到的数目进行比较。
本公开内容还提供了一种用于表征受试者中的异常状况的异质性的方法,该方法包括产生受试者的细胞外多核苷酸的遗传谱,其中所述遗传谱包含由拷贝数变异和稀有突变分析得到的多个数据。
在一些实施方案中,同时报告和定量在受试者中鉴别的各个稀有变异体的出现率/浓度。在一些实施方案中,报告关于受试者中稀有变异体的出现率/浓度的置信得分。
在一些实施方案中,细胞外多核苷酸包含DNA。在一些实施方案中,细胞外多核苷酸包含RNA。
在一些实施方案中,该方法进一步包括从身体样品分离细胞外多核苷酸。在一些实施方案中,该分离包括用于循环核酸分离和提取的方法。在一些实施方案中,该方法进一步包括对所述分离的细胞外多核苷酸进行片段化。在一些实施方案中,所述身体样品选自血液、血浆、血清、尿液、唾液、粘膜分泌物、痰、粪便和泪液。
在一些实施方案中,该方法进一步包括确定在所述身体样品中具有拷贝数变异或稀有突变或变异体的序列的百分比。在一些实施方案中,所述确定包括计算具有高于或低于预定阈值的多核苷酸量的预定义区域的百分比。
在一些实施方案中,所述受试者疑似具有异常状况。在一些实施方案中,该异常状况选自突变、稀有突变、插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常变化、外遗传模式的异常变化、核酸甲基化的异常变化、感染和癌症。
在一些实施方案中,所述受试者是妊娠的女性。在一些实施方案中,拷贝数变异或稀有突变或遗传变异体指示胎儿异常。在一些实施方案中,该胎儿异常选自突变、稀有突变、插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常变化、外遗传模式的异常变化、核酸甲基化的异常变化、感染和癌症。
在一些实施方案中,该方法进一步包括在测序前将一个或多个条形码附接至细胞外多核苷酸或其片段。在一些实施方案中,在测序前附接至细胞外多核苷酸或其片段的各个条形码是独特的。在一些实施方案中,在测序前附接至细胞外多核苷酸或其片段的各个条形码不是独特的。
在一些实施方案中,该方法进一步包括在测序前从受试者的基因组或转录组选择性地富集区域。在一些实施方案中,该方法进一步包括在测序前从受试者的基因组或转录组非选择性地富集区域。
在一些实施方案中,该方法进一步包括在任何扩增或富集步骤前,将一个或多个条形码附接至细胞外多核苷酸或其片段。在一些实施方案中,该条形码是多核苷酸。在一些实施方案中,该条形码包含随机序列。在一些实施方案中,该条形码包含固定的或半随机的一组寡核苷酸,该寡核苷酸与从选定区域测序的分子的多样性相组合能够鉴别独特的分子。在一些实施方案中,该条形码包含长度至少为3、5、10、15、20、25、30、35、40、45或50聚物碱基对的寡核苷酸。
在一些实施方案中,该方法进一步包括扩增细胞外多核苷酸或其片段。在一实施方案中,该扩增包括全局扩增或全基因组扩增。在一些实施方案中,该扩增包括选择性扩增。在一些实施方案中,该扩增包括非选择性扩增。在一些实施方案中,进行抑制扩增或消减富集。
在一些实施方案中,基于在序列阅读值的开始(启动)和结束(终止)区域的序列信息和序列阅读值的长度来检测独特身份的序列阅读值。在一些实施方案中,基于在序列阅读值的开始(启动)和结束(终止)区域的序列信息、序列阅读值的长度和条形码的附接来检测独特身份的序列阅读值。
在一些实施方案中,该方法进一步包括在对阅读值进行定量或计数前从进一步的分析中除去阅读值的亚组。在一些实施方案中,除去包括过滤掉准确度或质量得分小于阈值例如90%、99%、99.9%或99.99%和/或定位得分小于阈值例如90%、99%、99.9%或99.99%的阅读值。在一些实施方案中,该方法进一步包括过滤质量得分小于所设定的阈值的阅读值。
在一些实施方案中,预定义区域在大小上是均匀或基本均匀的。在一些实施方案中,预定义区域的大小是至少约10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb或100kb。
在一些实施方案中,分析至少50、100、200、500、1000、2000、5000、10,000、20,000或50,000个区域。
在一些实施方案中,变异体发生在选自基因融合、基因复制、基因缺失、基因易位、微卫星区域、基因片段或其组合的基因组区域中。在一些实施方案中,变异体发生在选自基因、癌基因、肿瘤抑制基因、启动子、调节序列元件或其组合的基因组区域中。在一些实施方案中,变异体是1、2、3、4、5、6、7、8、9、10、15或20个核苷酸长度的核苷酸变异体、单碱基置换、小插入缺失、颠换、易位、倒位、缺失、截短或基因截短。
在一些实施方案中,该方法进一步包括使用条形码或单个阅读值的独特性质来校正/归一化/调整被定位的阅读值的量。在一些实施方案中,通过在各个预定义区域中的独特条形码的计数和对在所测序的预定义区域的至少一个亚组中的这些数目进行归一化来对阅读值进行计数。
在一些实施方案中,分析以连续的时间间隔来自相同受试者的样品并将其与以前的样品结果进行比较。在一些实施方案中,该方法进一步包括扩增附接有条形码的细胞外多核苷酸。在一些实施方案中,该方法进一步包括确定部分拷贝数变异频率、确定杂合性的丢失、进行基因表达分析、进行外遗传分析和/或进行过度甲基化分析。
本公开内容还提供了一种方法,该方法包括使用多重测序在从受试者获得的无细胞或基本无细胞的样品中确定拷贝数变异或进行稀有突变分析。
在一些实施方案中,所述多重测序包括进行超过10,000个测序反应。在一些实施方案中,所述多重测序包括同时对至少10,000个不同的阅读值进行测序。在一些实施方案中,所述多重测序包括在整个基因组中对至少10,000个不同的阅读值进行数据分析。在一些实施方案中,使用隐马尔可夫、动态编程、支持向量机、贝叶斯或概率建模、网格解码、维特比解码、期望最大化、卡尔曼过滤或者神经网络方法中的一个或多个进行归一化和检测。在一些实施方案中,该方法进一步包括基于所发现的变异体对受试者监测疾病进展、监测残留疾病、监测疗法、诊断状况、状况预后或者选择疗法。在一些实施方案中,基于最近的样品分析来修改疗法。在一些实施方案中,推断肿瘤、感染或其它组织异常的遗传谱。
在一些实施方案中,监测肿瘤、感染或其它组织异常的生长、缓解或演变。在一些实施方案中,在单一情况下或随时间推移分析和监测与受试者的免疫系统相关的序列。在一些实施方案中,通过成像测试(例如,CT、PET-CT、MRI、X射线、超声)追踪变异体的鉴别,以便定位疑似引起所鉴别的变异体的组织异常。在一些实施方案中,该分析进一步包括使用从来自同一患者的组织或肿瘤活检获得的遗传数据。在一些实施方案中,推断肿瘤、感染或其它组织异常的系统发生学。在一些实施方案中,该方法进一步包括对低置信区域进行基于群体的非判定和鉴别。在一些实施方案中,获得序列覆盖度的测量数据包括测量基因组的每个位置处的序列覆盖深度。在一些实施方案中,针对序列覆盖偏倚校正测量数据包括计算窗口平均的覆盖度。在一些实施方案中,针对序列覆盖偏倚校正测量数据包括进行调整以应对在文库构建和测序过程中的GC偏倚。在一些实施方案中,针对序列覆盖偏倚校正测量数据包括基于与个体定位相关联的附加加权因子进行调整,以补偿偏倚。
在一些实施方案中,细胞外多核苷酸源自病变细胞来源。在一些实施方案中,细胞外多核苷酸源自健康细胞来源。
本公开内容还提供了一种包含计算机可读介质的系统,该计算机可读介质用于执行以下步骤:选择在基因组中的预定义区域;对预定义区域中的序列阅读值的数目进行计数;对预定义区域上的序列阅读值的数目进行归一化并且确定在预定义区域中的拷贝数变异的百分比。
在一些实施方案中,分析整个基因组或基因组的至少85%。在一些实施方案中,计算机可读介质向最终用户提供关于血浆或血清中的癌症DNA或RNA百分比的数据。在一些实施方案中,由于样品中的异质性,因此鉴别的拷贝数变异是分数(即非整数水平)。在一些实施方案中,对选定的区域进行富集。在一些实施方案中,根据本文所述的方法同时提取拷贝数变异信息。在一些实施方案中,该方法包括瓶颈化多核苷酸以限制样品中的多核苷酸的起始初始拷贝或多样性的数目的初始步骤。
本公开内容还提供了一种用于检测在从受试者获得的无细胞或基本无细胞的样品中的稀有突变的方法,该方法包括:a)对来自受试者的身体样品的细胞外多核苷酸进行测序,其中细胞外多核苷酸中的每一个产生多个测序阅读值;b)过滤掉未能满足所设定的质量阈值的阅读值;c)将从测序得到的序列阅读值定位至参考序列上;d)鉴别在各个可定位的碱基位置处与参考序列的变异体对准的被定位的序列阅读值的亚组;e)对于各个可定位的碱基位置,计算出(a)与参考序列相比包含变异体的被定位序列阅读值的数目与(b)各个可定位碱基位置的序列阅读值总数的比值;f)将各个可定位碱基位置的变异的比值或频率进行归一化并确定潜在的稀有变异体或其它遗传改变;以及g)将具有潜在的稀有变异体或突变的各个区域的所得数目与从参考样品类似地得到的数目进行比较。
本公开内容还提供了一种方法,该方法包括:a)提供至少一组标记的亲本多核苷酸,并且对于各组标记的亲本多核苷酸;b)扩增该组中的标记的亲本多核苷酸,以产生相应的一组扩增的子代多核苷酸;c)对该组扩增的子代多核苷酸的亚组(包括真亚组)进行测序,以产生一组测序阅读值;以及d)使该组测序阅读值分解,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸。
在一些实施方案中,一组中的各个多核苷酸可定位至参考序列。在一些实施方案中,该方法包括提供多组标记的亲本多核苷酸,其中各组可定位至参考序列中的不同的可定位位置。在一些实施方案中,该方法还包括:e)分开地或组合地针对每组标记的亲本分子对该组共有序列进行分析。在一些实施方案中,该方法进一步包括将初始起始遗传材料转换成标记的亲本多核苷酸。在一些实施方案中,初始起始遗传材料包含不超过100ng的多核苷酸。在一些实施方案中,该方法包括在转换之前瓶颈化初始起始遗传材料。在一些实施方案中,该方法包括以至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少80%或至少90%的转换效率将初始起始遗传材料转换成标记的亲本多核苷酸。在一些实施方案中,该转换包括平端连接、粘端连接、分子倒位探针、PCR、基于连接的PCR、单链连接和单链环化中任何方法。在一些实施方案中,初始起始遗传材料是无细胞的核酸。在一些实施方案中,多个组定位至在来自相同基因组的参考序列中的不同可定位位置。
在一些实施方案中,所述组中的各个标记的亲本多核苷酸是独特地标记的。在一些实施方案中,各组亲本多核苷酸可定位至参考序列中的位置,并且各组中的多核苷酸不是独特地标记的。在一些实施方案中,共有序列的生成基于来自标签的信息和/或(i)序列阅读值的开始(启动)区域的序列信息、(ii)序列阅读值的结束(终止)区域的序列信息和(iii)序列阅读值的长度中的至少一种。
在一些实施方案中,该方法包括对该组扩增的子代多核苷酸的亚组进行测序,该测序足以对至少一个子代产生序列阅读值,该子代来自该组标记的亲本多核苷酸中的独特多核苷酸的至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、至少98%、至少99%、至少99.9%或至少99.99%中的每一个。在一些实施方案中,所述至少一个子代是多个子代,例如,至少2个、至少5个或至少10个子代。在一些实施方案中,该组序列阅读值中的序列阅读值的数目大于该组标记的亲本多核苷酸中的独特标记的亲本多核苷酸的数目。在一些实施方案中,被测序的该组扩增的子代多核苷酸的亚组具有足够的大小,以使得以与所用测序平台的每碱基测序错误率百分比相同的百分比在该组标记的亲本多核苷酸中呈现的任何核苷酸序列有至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、至少98%、至少99%、至少99.9%或至少99.99%的机会在该组共有序列之间呈现。
在一些实施方案中,该方法包括通过以下步骤,针对定位至参考序列中的一个或多个选定可定位位置的多核苷酸,富集该组扩增的子代多核苷酸:(i)来自已转换成标记的亲本多核苷酸的初始起始遗传材料的序列的选择性扩增;(ii)标记的亲本多核苷酸的选择性扩增;(iii)扩增的子代多核苷酸的选择性序列捕获;或(iv)初始起始遗传材料的选择性序列捕获。
在一些实施方案中,分析包括将从一组共有序列获得的度量(例如,数目)相对于从来自对照样品的一组共有序列获得的度量进行归一化。在一些实施方案中,分析包括检测突变、稀有突变、插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常变化、外遗传模式的异常变化、核酸甲基化的异常变化、感染或癌症。
在一些实施方案中,多核苷酸包含DNA、RNA、这两者的组合或DNA加RNA衍生的cDNA。在一些实施方案中,针对或基于碱基对的多核苷酸长度从多核苷酸的初始组或从扩增的多核苷酸中选择或富集多核苷酸的某个亚组。在一些实施方案中,分析进一步包括检测和监测个体内的异常或疾病,例如,感染和/或癌症。在一些实施方案中,该方法与免疫组库谱分析组合进行。在一些实施方案中,从选自血液、血浆、血清、尿液、唾液、粘膜分泌物、痰、粪便和泪液的样品中提取多核苷酸。在一些实施方案中,分解包括检测和/或校正在标记的亲本多核苷酸或扩增的子代多核苷酸的有义或反义链中存在的错误、切口或损伤。
本公开内容还提供了一种方法,该方法包括以至少5%、至少1%、至少0.5%、至少0.1%或至少0.05%的灵敏度检测在未独特标记的初始起始遗传材料中的遗传变异。
在一些实施方案中,初始起始遗传材料以小于100ng的核酸的量来提供,该遗传变异是拷贝数/杂合性变异,并且检测在亚染色体分辨率下进行;例如,至少100兆碱基分辨率、至少10兆碱基分辨率、至少1兆碱基分辨率、至少100千碱基分辨率、至少10千碱基分辨率或至少1千碱基分辨率。在一些实施方案中,该方法包括提供多组标记的亲本多核苷酸,其中各组可定位至参考序列中的不同的可定位位置。在一些实施方案中,参考序列中的可定位位置是肿瘤标志物的基因座,并且分析包括检测该组共有序列中的肿瘤标志物。
在一些实施方案中,肿瘤标志物以小于在扩增步骤中引入的错误率的频率存在于该组共有序列中。在一些实施方案中,所述至少一组是多个组,并且参考序列的可定位位置包含参考序列中的多个可定位位置,其中各个可定位位置是肿瘤标志物的基因座。在一些实施方案中,分析包括检测在至少两组亲本多核苷酸间的共有序列的拷贝数变异。在一些实施方案中,分析包括检测与参考序列相比序列变异的存在。
在一些实施方案中,分析包括检测与参考序列相比序列变异的存在并且检测在至少两组亲本多核苷酸间的共有序列的拷贝数变异。在一些实施方案中,分解包括:(i)将从扩增的子代多核苷酸测序的序列阅读值分组成家族,各个家族从相同的标记亲本多核苷酸扩增;以及(ii)基于家族中的序列阅读值确定共有序列。
本公开内容还提供了一种包含计算机可读介质的系统,该计算机可读介质用于执行以下步骤:a)接受至少一组标记的亲本多核苷酸,并且对于各组标记的亲本多核苷酸;b)扩增该组中的标记的亲本多核苷酸,以产生相应的一组扩增的子代多核苷酸;c)对该组扩增的子代多核苷酸的亚组(包括真亚组)进行测序,以产生一组测序阅读值;d)分解该组测序阅读值,以生成一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸间的独特多核苷酸;以及任选地e)针对各组标记的亲本分子对该组共有序列进行分析。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少10%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少20%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少30%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少40%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少50%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少60%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少70%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少80%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少90%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少10%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少20%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少30%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少40%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少50%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少60%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少70%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少80%进行测序。
本公开内容还提供了一种方法,该方法包括检测个体中的遗传改变的存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少90%进行测序。
在一些实施方案中,所述遗传改变是拷贝数变异或一种或多种稀有突变。在一些实施方案中,所述遗传变异包含一种或多种因果变异体和一种或多种多态性。在一些实施方案中,个体中的遗传改变和/或遗传变异的量可以与一个或多个患有已知疾病的个体中的遗传改变和/或遗传变异的量相比较。在一些实施方案中,个体中的遗传改变和/或遗传变异的量可以与一个或多个未患有疾病的个体中的遗传改变和/或遗传变异的量相比较。在一些实施方案中,所述无细胞核酸是DNA。在一些实施方案中,所述无细胞核酸是RNA。在一些实施方案中,所述无细胞核酸是DNA和RNA。在一些实施方案中,所述疾病是癌症或癌前期。在一些实施方案中,该方法进一步包括疾病的诊断或治疗。
本公开内容还提供了一种方法,该方法包括:a)提供至少一组标记的亲本多核苷酸,并且对于各组标记的亲本多核苷酸;b)扩增该组中的标记的亲本多核苷酸,以产生相应的一组扩增的子代多核苷酸;c)对该组扩增的子代多核苷酸的亚组(包括真亚组)进行测序,以产生一组测序阅读值;d)分解该组测序阅读值,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸;以及e)从共有序列中过滤掉那些未满足质量阈值的共有序列。
在一些实施方案中,所述质量阈值考虑来自分解成共有序列的扩增子代多核苷酸的序列阅读值的数目。在一些实施方案中,所述质量阈值考虑来自分解成共有序列的扩增子代多核苷酸的序列阅读值的数目。
本公开内容还提供了一种包含用于执行本文所述方法的计算机可读介质的系统。
本公开内容还提供了一种方法,该方法包括:a)提供至少一组标记的亲本多核苷酸,其中各组定位至一个或多个基因组中的参考序列的不同可定位位置,并且对于各组标记的亲本多核苷酸;i)扩增第一多核苷酸,以产生一组扩增的多核苷酸;ii)对该组扩增的多核苷酸的亚组进行测序,以产生一组测序阅读值;以及iii)通过以下步骤分解该测序阅读值:(1)将从扩增的子代多核苷酸测序的序列阅读值分组成家族,各个家族从相同的标记亲本多核苷酸扩增。
在一些实施方案中,分解进一步包括确定在各个家族中的序列阅读值的定量度量。在一些实施方案中,该方法进一步包括:a)确定独特家族的定量度量;以及b)基于(1)独特家族的定量度量和(2)各组中的序列阅读值的定量度量,推断在该组中的独特标记的亲本多核苷酸的度量。在一些实施方案中,使用统计或概率模型进行推断。在一些实施方案中,所述至少一组是多个组。在一些实施方案中,该方法进一步包括校正两组之间的扩增或呈现偏倚。在一些实施方案中,该方法进一步包括使用对照或一组对照样品校正两组之间的扩增或呈现偏倚。在一些实施方案中,该方法进一步包括确定组间的拷贝数变异。
在一些实施方案中,该方法还包括:d)确定所述家族之间的多态性形式的定量度量;以及e)基于所确定的多态性形式的定量度量,推断在推断的独特标记亲本多核苷酸的数目上的多态性形式的定量度量。在一些实施方案中,多态性形式包括但不限于:置换、插入、缺失、倒位、微卫星改变、颠换、易位、融合、甲基化、过度甲基化、羟甲基化、乙酰化、外遗传变异体、与调节相关的变异体或蛋白质结合位点。
在一些实施方案中,所述组源自共同的样品,并且该方法进一步包括:d)基于定位至参考序列中的多个可定位位置中每一个的各组中标记亲本多核苷酸的推断数目的比较,推断所述多个组的拷贝数变异。在一些实施方案中,进一步推断各组中的多核苷酸的原始数目。在一些实施方案中,各组中的标记亲本多核苷酸中的至少一个亚组为非独特地标记的。
本公开内容还提供了一种确定包含多核苷酸的样品中的拷贝数变异的方法,该方法包括:a)提供至少两组第一多核苷酸,其中各组定位至基因组中的参考序列的不同可定位位置,并且对于各组第一多核苷酸;(i)扩增所述多核苷酸,以产生一组扩增的多核苷酸;(ii)对该组扩增的多核苷酸的亚组进行测序,以产生一组测序阅读值;(iii)将从扩增的多核苷酸测序的序列阅读值分组成家族,各个家族从所述组中的相同的第一多核苷酸扩增;(iv)推断该组中的家族的定量度量;以及b)通过比较各组中的家族的定量度量来确定拷贝数变异。
本公开内容还提供了一种推断多核苷酸样品中的序列判定频率的方法,该方法包括:a)提供至少一组第一多核苷酸,其中各组定位至一个或多个基因组中的参考序列的不同可定位位置,并且对于各组第一多核苷酸;(i)扩增第一多核苷酸,以产生一组扩增的多核苷酸;(ii)对该组扩增的多核苷酸的亚组进行测序,以产生一组测序阅读值;(iii)将该序列阅读值分组成家族,各个家族包含从相同的第一多核苷酸扩增的扩增多核苷酸的序列阅读值;b)对于各组第一多核苷酸,推断对在该组第一多核苷酸中的一个或多个碱基的判定频率,其中推断包括:(i)针对各个家族,对多个判定中的每一个判定分配置信得分,该置信得分考虑家族成员之间的判定频率;以及(ii)考虑分配给每个家族的一个或多个判定的置信得分,来估算一个或多个判定的频率。
本公开内容还提供了一种对关于至少一个单个多核苷酸分子的序列信息进行通信的方法,该方法包括:a)提供至少一个单个多核苷酸分子;b)编码至少一个单个多核苷酸分子中的序列信息,以产生信号;c)使该信号的至少一部分通过通道,以产生包含关于所述至少一个单个多核苷酸分子的核苷酸序列信息的接收信号,其中该接收信号包含噪声和/或畸变;d)解码该接收信号,以产生包含关于所述至少一个单个多核苷酸分子的序列信息的消息,其中解码减少了该消息中关于各个单个多核苷酸的噪声和/或畸变;以及e)将包含关于所述至少一个单个多核苷酸分子的序列信息的消息提供至接收者。
在一些实施方案中,所述噪声包含不正确的核苷酸判定。在一些实施方案中,畸变包含单个多核苷酸分子与其它单个多核苷酸分子相比的不均匀扩增。在一些实施方案中,畸变是由扩增或测序偏倚导致的。在一些实施方案中,所述至少一个单个多核苷酸分子是多个单个多核苷酸分子,并且解码产生关于所述多个分子中的每一个分子的消息。在一些实施方案中,编码包括扩增已经任选地标记的所述至少一个单个多核苷酸分子,其中所述信号包括扩增的分子的集合。在一些实施方案中,所述通道包括多核苷酸测序仪且所述接收信号包括从至少一个单个多核苷酸扩增的多个多核苷酸的序列阅读值。在一些实施方案中,解码包括将从所述至少一个单个多核苷酸分子中的每一个扩增的扩增分子的序列阅读值进行分组。在一些实施方案中,解码由过滤所生成的序列信号的概率或统计方法组成。
在一些实施方案中,多核苷酸源自肿瘤基因组DNA或RNA。在一些实施方案中,多核苷酸源自无细胞的多核苷酸、核外多核苷酸、细菌多核苷酸或病毒多核苷酸。在任何本文所述方法的一些实施方案中,该方法进一步包括受影响的分子通路的检测和/或关联。在任何本文所述方法的一些实施方案中,该方法进一步包括连续监测个体的健康或疾病状态。在一些实施方案中,推断个体内与疾病相关的基因组的种系发生。在一些实施方案中,任何本文所述方法进一步包括疾病的诊断、监测或治疗。在一些实施方案中,基于检测到的多态性形式或CNV或相关的通路来选择或修改治疗方案。在一些实施方案中,治疗包括联合疗法。在一些实施方案中,诊断进一步包括使用诸如CT-扫描、PET-CT、MRI、超声、微泡超声等放射线照相技术定位疾病。
本公开内容还提供了一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:选择在基因组中的预定义区域;访问序列阅读值并对预定义区域中的序列阅读值的数目进行计数;对预定义区域上的序列阅读值的数目进行归一化;以及确定在预定义区域中的拷贝数变异的百分比。
本公开内容还提供了一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:访问包含多个测序阅读值的数据文件;过滤掉未能满足所设定的阈值的阅读值;将从测序得到的序列阅读值定位至参考序列上;鉴别在各个可定位的碱基位置处与参考序列的变异体对准的被定位序列阅读值的亚组;对于各个可定位的碱基位置,计算出(a)与参考序列相比包含变异体的被定位序列阅读值的数目与(b)各个可定位碱基位置的序列阅读值总数的比值;将各个可定位碱基位置的变异的比值或频率进行归一化并确定潜在的稀有变异体或其它遗传改变;以及将具有潜在的稀有变异体或突变的各个区域的所得数目与从参考样品类似地得到的数目进行比较。
本公开内容还提供了一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:a)访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;以及b)分解该组测序阅读值,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸。
本公开内容还提供了一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:a)访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;b)分解该组测序阅读值,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸;c)从共有序列中过滤掉那些未满足质量阈值的共有序列。
一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:a)访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;以及i)通过以下步骤分解该序列阅读值:(1)将从扩增的子代多核苷酸测序的序列阅读值分组成家族,各个家族从相同的标记亲本多核苷酸扩增,以及任选地(2)确定各个家族中序列阅读值的定量度量。
在一些实施方案中,可执行代码在被计算机处理器执行时进一步执行以下步骤:b)确定独特家族的定量度量;以及c)基于(1)独特家族的定量度量和(2)各组中的序列阅读值的定量度量,推断在该组中的独特标记的亲本多核苷酸的度量。
在一些实施方案中,可执行代码在被计算机处理器执行时进一步执行以下步骤:d)确定家族之间的多态性形式的定量度量;以及e)基于所确定的多态性形式的定量度量,推断在推断的独特标记亲本多核苷酸的数目上的多态性形式的定量度量。
本公开内容还提供了一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:a)访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;将从扩增的多核苷酸测序的序列阅读值分组成家族,各个家族从所述组中的相同的第一多核苷酸扩增;b)推断该组中的家族的定量度量;以及c)通过比较各组中的家族的定量度量来确定拷贝数变异。
本公开内容还提供了一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:a)访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;将该序列阅读值分组成家族,各个家族包含从相同的第一多核苷酸扩增的扩增多核苷酸的序列阅读值;b)对于各组第一多核苷酸,推断对在该组第一多核苷酸中的一个或多个碱基的判定频率,其中推断包括:c)针对各个家族,对多个判定中的每一个判定分配置信得分,该置信得分考虑家族成员之间的判定频率;以及d)考虑分配给每个家族的一个或多个判定的置信得分,来估算一个或多个判定的频率。
本公开内容还提供了一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:a)访问包含接收信号的数据文件,该接收信号包含来自至少一个单个多核苷酸分子的编码的序列信息,其中所述接收信号包含噪声和/或畸变;b)解码所述接收信号,以产生包含关于所述至少一个单个多核苷酸分子的序列信息的消息,其中解码减少了该消息中关于各个单个多核苷酸的噪声和/或畸变;以及c)将包含关于所述至少一个单个多核苷酸分子的序列信息的消息写入计算机文件。
本公开内容还提供了一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:a)访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;b)分解该组测序阅读值,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸;以及c)从共有序列中过滤掉那些未满足质量阈值的共有序列。
本公开内容还提供了一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:a)访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;以及b)通过以下步骤分解该序列阅读值:(i)将从扩增的子代多核苷酸测序的序列阅读值分组成家族,各个家族从相同的标记亲本多核苷酸扩增;以及(ii)任选地确定各个家族中序列阅读值的定量度量。
在一些实施方案中,可执行代码在被计算机处理器执行时进一步执行以下步骤:d)确定独特家族的定量度量;e)基于(1)独特家族的定量度量和(2)各组中的序列阅读值的定量度量,推断在该组中的独特标记亲本多核苷酸的度量。
在一些实施方案中,可执行代码在被计算机处理器执行时进一步执行以下步骤:e)确定家族之间的多态性形式的定量度量;以及f)基于所确定的多态性形式的定量度量,推断在推断的独特标记亲本多核苷酸的数目上的多态性形式的定量度量。
在一些实施方案中,可执行代码在被计算机处理器执行时进一步执行以下步骤:e)基于定位至多个参考序列中的每一个的各组中的标记亲本多核苷酸的推断数目的比较,来推断所述多个组的拷贝数变异。
本公开内容还提供了一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:a)访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;b)将从扩增的多核苷酸测序的序列阅读值分组成家族,各个家族从所述组中的相同的第一多核苷酸扩增;c)推断该组中的家族的定量度量;d)通过比较各组中的家族的定量度量来确定拷贝数变异。
本公开内容还提供了一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;将从扩增的多核苷酸测序的序列阅读值分组成家族,各个家族包含从相同的第一多核苷酸扩增的扩增多核苷酸的序列阅读值;以及对于各组第一多核苷酸,推断对在该组第一多核苷酸中的一个或多个碱基的判定频率,其中推断包括:(i)针对各个家族,对多个判定中的每一个判定分配置信得分,该置信得分考虑家族成员之间的判定频率;以及(ii)考虑分配给每个家族的一个或多个判定的置信得分,来估算一个或多个判定的频率。
本公开内容还提供了一种组合物,其包含100至100,000个人单倍体基因组当量的cfDNA多核苷酸,其中所述多核苷酸用2至1,000,000个独特标识符标记。
在一些实施方案中,所述组合物包含1000至50,000个单倍体人基因组当量的cfDNA多核苷酸,其中所述多核苷酸用2至1,000个独特标识符标记。在一些实施方案中,该独特标识符包含核苷酸条形码。本公开内容还提供了一种方法,该方法包括:a)提供包含100至100,000个单倍体人基因组当量的cfDNA多核苷酸的样品;以及b)用2至1,000,000个独特标识符标记所述多核苷酸。
本公开内容还提供了一种方法,该方法包括:a)提供包含多个人单倍体基因组当量的片段化多核苷酸的样品;b)确定z,其中z是在基因组中任何位置开始的重复多核苷酸的预期数目的居中趋势度量(例如,平均值、中位数或众数),其中重复多核苷酸具有相同的启动和终止位置;以及c)用n个独特标识符标记样品中的多核苷酸,其中n是2至100,000*z、2至10,000*z、2至1,000*z或2至100*z。本公开内容还提供了一种方法,该方法包括:a)提供至少一组标记的亲本多核苷酸,并且对于各组标记的亲本多核苷酸;b)对该组中的各个标记的亲本多核苷酸产生多个序列阅读值,以产生一组测序阅读值;以及c)分解该组测序阅读值,以生成一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸。
本公开内容还提供了一种包含计算机可读介质的系统,该计算机可读介质包含本文所述的机器可执行代码。本公开内容还提供了一种包含计算机可读介质的系统,该计算机可读介质包含机器可执行代码,该机器可执行代码在被计算机处理器执行时实现本文所述的方法。
通过下列详细描述,本公开内容的其它方面和优点对本领域技术人员而言将会变得显而易见,详细描述中仅示出和描述了本发明的说明性实施方案。如将会意识到的,本公开内容能够具有其它和不同的实施方案,并且其若干细节能够在各种明显的方面进行修改,所有这些都不脱离本公开内容。因此,附图和说明书本质上将被视为说明性的而不是限制性的。
援引并入
本说明书中提及的所有出版物、专利和专利申请均通过引用以相同的程度并入本文,犹如特别地和单独地指出每个单独的出版物、专利或专利申请均通过引用而并入。
具体而言,本发明涉及:
1.一种用于检测拷贝数变异的方法,所述方法包括:
a.对来自受试者的身体样品的细胞外多核苷酸进行测序,其中所述细胞外多核苷酸中的每一个产生多个测序阅读值;
b.过滤掉未能满足所设定的阈值的阅读值;
c.在过滤掉阅读值后,将由步骤(a)获得的所述序列阅读值定位至参考序列;
d.对在所述参考序列的两个或更多个预定义区域中定位的阅读值进行定量或计数;以及
e.通过下列步骤确定在一个或多个所述预定义区域中的拷贝数变异:
i.将所述预定义区域中的阅读值的数目相对于彼此进行归一化,和/或将所述预定义区域中的独特序列阅读值的数目相对于彼此进行归一化;
ii.将从步骤(i)中获得的归一化的数目与从对照样品获得的归一化的数目进行比较。
2.一种用于检测从受试者获得的无细胞的或基本无细胞的样品中的稀有突变的方法,所述方法包括:
a.对来自受试者的身体样品的细胞外多核苷酸进行测序,其中所述细胞外多核苷酸中的每一个生成多个测序阅读值;
b.如果未进行富集,则进行区域上的多重测序或全基因组测序;
c.过滤掉未能满足所设定的阈值的阅读值;
d.将从所述测序得到的序列阅读值定位至参考序列上;
e.鉴别在各个可定位的碱基位置处与所述参考序列的变异体对准的被定位序列阅读值的亚组;
f.对各个可定位的碱基位置,计算出(a)与所述参考序列相比包含变异体的被定位序列阅读值的数目与(b)各个可定位碱基位置的序列阅读值总数的比值;
g.将各个可定位碱基位置的变异的所述比值或频率进行归一化并确定潜在的稀有变异体或突变;以及
h.将具有潜在的稀有变异体或突变的各个区域的所得数目与从参考样品类似地得到的数目进行比较。
3.一种表征受试者中的异常状况的异质性的方法,所述方法包括生成所述受试者的细胞外多核苷酸的遗传谱,其中所述遗传谱包含由拷贝数变异和稀有突变分析得到的多个数据。
4.根据段1、2或3所述的方法,其中同时报告和定量在所述受试者中鉴别的各个稀有变异体的出现率/浓度。
5.根据段1、2或3所述的方法,其中报告关于所述受试者中稀有变异体的出现率/浓度的置信得分。
6.根据段1、2或3所述的方法,其中所述细胞外多核苷酸包含DNA。
7.根据段1、2或3所述的方法,其中所述细胞外多核苷酸包含RNA。
8.根据段1、2或3所述的方法,其进一步包括从所述身体样品中分离细胞外多核苷酸。
9.根据段1、2或3所述的方法,其中所述分离包括用于循环核酸分离和提取的方法。
10.根据段1、2或3所述的方法,其进一步包括对所述分离的细胞外多核苷酸进行片段化。
11.根据段8所述的方法,其中所述身体样品选自血液、血浆、血清、尿液、唾液、粘膜分泌物、痰、粪便和泪液。
12.根据段1、2或3所述的方法,其进一步包括确定在所述身体样品中具有拷贝数变异或稀有突变或变异体的序列的百分比的步骤。
13.根据段12所述的方法,其中所述确定包括计算所具有的多核苷酸的量高于或低于预定阈值的预定义区域的百分比。
14.根据段1、2或3所述的方法,其中所述受试者疑似具有异常状况。
15.根据段14所述的方法,其中所述异常状况选自突变、稀有突变、插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常变化、外遗传模式的异常变化、核酸甲基化的异常变化、感染和癌症。
16.根据段1、2或3所述的方法,其中所述受试者是妊娠的女性。
17.根据段1或2所述的方法,其中所述拷贝数变异或稀有突变或遗传变异体指示胎儿异常。
18.根据段17所述的方法,其中所述胎儿异常选自突变、稀有突变、插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常变化、外遗传模式的异常变化、核酸甲基化的异常变化、感染和癌症。
19.根据段1、2或3所述的方法,其进一步包括在测序前将一个或多个条形码附接至所述细胞外多核苷酸或其片段。
20.根据段19所述的方法,其中在测序前附接至细胞外多核苷酸或其片段的各个条形码是独特的。
21.根据段19所述的方法,其中在测序前附接至细胞外多核苷酸或其片段的各个条形码不是独特的。
22.根据段1、2或3所述的方法,其进一步包括在测序前从所述受试者的基因组或转录组选择性地富集区域。
23.根据段1、2或3所述的方法,其进一步包括在测序前从所述受试者的基因组或转录组非选择性地富集区域。
24.根据段1、2或3所述的方法,其进一步包括在任何扩增或富集步骤前,将一个或多个条形码附接至所述细胞外多核苷酸或其片段。
25.根据段19所述的方法,其中所述条形码是多核苷酸。
26.根据段19所述的方法,其中所述条形码包含随机序列。
27.根据段19所述的方法,其中所述条形码包含固定的或半随机的一组寡核苷酸,该寡核苷酸与从选定区域测序的分子的多样性组合能够鉴别独特的分子。
28.根据段19所述的方法,其中所述条形码包含长度至少为3、5、10、15、20、25、30、35、40、45或50聚物碱基对的寡核苷酸。
29.根据段1、2或3所述的方法,其进一步包括扩增所述细胞外多核苷酸或其片段。
30.根据段29所述的方法,其中所述扩增包括全局扩增或全基因组扩增。
31.根据段1、2或3所述的方法,其中基于在所述序列阅读值的开始(启动)和结束(终止)区域处的序列信息和所述序列阅读值的长度来检测独特身份的序列阅读值。
32.根据段31所述的方法,其中基于在所述序列阅读值的开始(启动)和结束(终止)区域处的序列信息、所述序列阅读值的长度和条形码的附接来检测独特身份的序列分子。
33.根据段30所述的方法,其中所述扩增包括选择性扩增。
34.根据段33所述的方法,其中所述扩增包括非选择性扩增。
35.根据段1、2或3所述的方法,其中进行抑制扩增或消减富集。
36.根据段1、2或3所述的方法,其进一步包括在对阅读值进行定量或计数前从进一步的分析中除去所述阅读值的亚组。
37.根据段36所述的方法,其中所述除去包括过滤掉准确度或质量得分小于阈值例如90%、99%、99.9%或99.99%和/或定位得分小于阈值例如90%、99%、99.9%或99.99%的阅读值。
38.根据段1、2或3所述的方法,其进一步包括过滤质量得分小于所设定的阈值的阅读值。
39.根据段1所述的方法,其中所述预定义区域在大小上是均匀的或基本均匀的。
40.根据段39所述的方法,其中所述预定义区域的大小是至少约10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb或100kb。
41.根据段1、2或3所述的方法,其中分析至少50、100、200、500、1000、2000、5000、10,000、20,000或50,000个区域。
42.根据段1、2或3所述的方法,其中所述变异体发生在选自基因融合、基因复制、基因缺失、基因易位、微卫星区域、基因片段或其组合的基因组区域中。
43.根据段1、2或3所述的方法,其中所述变异体发生在选自基因、癌基因、肿瘤抑制基因、启动子、调节序列元件或其组合的基因组区域中。
44.根据段2所述的方法,其中所述变异体是1、2、3、4、5、6、7、8、9、10、15或20个核苷酸长度的核苷酸变异体、单碱基置换、小插入缺失、颠换、易位、倒位、缺失、截短或基因截短。
45.根据段1、2或3所述的方法,其进一步包括使用所述条形码或单个阅读值的独特性质来校正/归一化/调整所定位的阅读值的量。
46.根据段1或2所述的方法,其中通过对各个所述预定义区域中的独特条形码进行计数并将这些数目在所测序的预定义区域的至少一个亚组中进行归一化,来对所述阅读值进行计数。
47.根据段1、2或3所述的方法,其中分析以连续的时间间隔来自相同受试者的样品并将其与以前的样品结果进行比较。
48.根据段45所述的方法,其中所述方法进一步包括扩增所述附接有条形码的细胞外多核苷酸。
49.根据段1、2或3所述的方法,其进一步包括确定部分拷贝数变异频率、确定杂合性的丢失、进行基因表达分析、进行外遗传分析和/或进行过度甲基化分析。
50.一种方法,该方法包括:使用多重测序在从受试者获得的无细胞或基本无细胞的样品中确定拷贝数变异或进行稀有突变分析。
51.根据段50所述的方法,其中所述多重测序包括进行超过10,000个测序反应。
52.根据段50所述的方法,其中所述多重测序包括同时对至少10,000个不同的阅读值进行测序。
53.根据段50所述的方法,其中所述多重测序包括在整个基因组上对至少10,000个不同的阅读值进行数据分析。
54.根据段1或2所述的方法,其中使用隐马尔可夫、动态编程、支持向量机、贝叶斯或概率建模、网格解码、维特比解码、期望最大化、卡尔曼过滤或神经网络方法中的一个或多个进行所述归一化和检测。
55.根据段1、2或3所述的方法,其进一步包括基于所发现的变异体对所述受试者监测疾病进展、监测残留疾病、监测疗法、诊断状况、状况预后或者选择疗法。
56.根据段55所述的方法,其中基于最近的样品分析来修改疗法。
57.根据段1、2或3所述的方法,其中推断肿瘤、感染或其它组织异常的遗传谱。
58.根据段1、2或3所述的方法,其中监测肿瘤、感染或其它组织异常的生长、缓解或演变。
59.根据段1、2或3所述的方法,其中在单一情况下或随时间推移分析和监测与所述受试者的免疫系统相关的序列。
60.根据段1、2或3所述的方法,其中通过成像测试(例如,CT、PET-CT、MRI、X射线、超声波)追踪变异体的鉴别,以便定位疑似引起所鉴别的变异体的组织异常。
61.根据段1、2或3所述的方法,其中所述分析进一步包括使用从来自相同患者的组织或肿瘤活检获得的遗传数据。
62.根据段1、2或3所述的方法,其中推断肿瘤、感染或其它组织异常的系统发生学。
63.根据段1或2所述的方法,其中所述方法进一步包括对低置信区域进行基于群体的非判定和鉴别。
64.根据段1或2所述的方法,其中获得序列覆盖度的测量数据包括测量基因组的每个位置处的序列覆盖深度。
65.根据段64所述的方法,其中针对序列覆盖偏倚校正测量数据包括计算窗口平均的覆盖度。
66.根据段64所述的方法,其中针对序列覆盖偏倚校正测量数据包括进行调整以应对在文库构建和测序过程中的GC偏倚。
67.根据段64所述的方法,其中针对序列覆盖偏倚校正测量数据包括基于与个体定位相关联的附加加权因子进行调整,以补偿偏倚。
68.根据段1、2或3所述的方法,其中细胞外多核苷酸源自病变细胞来源。
69.根据段1、2或3所述的方法,其中细胞外多核苷酸源自健康细胞来源。
70.一种包含计算机可读介质的系统,该计算机可读介质用于执行以下步骤:选择基因组中的预定义区域;对所述预定义区域中的序列阅读值的数目进行计数;对所述预定义区域上的序列阅读值的数目进行归一化;以及确定所述预定义区域中的拷贝数变异的百分比。
71.根据段70所述的方法,其中分析整个基因组或基因组的至少85%。
72.根据段70所述的方法,其中所述计算机可读介质将关于血浆或血清中的癌症DNA或RNA百分比的数据提供给最终用户。
73.根据段1所述的方法,其中由于样品的异质性,所鉴别的拷贝数变异体是分数(即,非整数水平)。
74.根据段1所述的方法,由此进行选定的区域的富集。
75.根据段1所述的方法,由此基于段1、64、65、66和67所述的方法同时提取拷贝数变异信息。
76.根据段1或2所述的方法,其与瓶颈化多核苷酸以限制样品中的多核苷酸的起始初始拷贝数或多样性的初始步骤一起使用。
77.一种用于在从受试者获得的无细胞或基本无细胞的样品中检测稀有突变的方法,该方法包括:
a.对来自受试者的身体样品的细胞外多核苷酸进行测序,其中所述细胞外多核苷酸中的每一个产生多个测序阅读值;
b.过滤掉未能满足所设定的质量阈值的阅读值;
c.将从所述测序得到的序列阅读值定位至参考序列上;
d.鉴别在各个可定位的碱基位置处与所述参考序列的变异体对准的被定位序列阅读值的亚组;
e.对于各个可定位的碱基位置,计算出(a)与所述参考序列相比包含变异体的被定位序列阅读值的数目与(b)各个可定位碱基位置的序列阅读值总数的比值;
f.将各个可定位碱基位置的变异的比值或频率进行归一化,并确定潜在的稀有变异体或其它遗传改变;以及
g.将具有潜在的稀有变异体或突变的各个区域的所得数目与从参考样品类似地得到的数目进行比较。
78.一种方法,该方法包括:
a.提供至少一组标记的亲本多核苷酸,并且对于各组标记的亲本多核苷酸;
b.扩增该组中的标记的亲本多核苷酸,以产生相应的一组扩增的子代多核苷酸;
c.对该组扩增的子代多核苷酸的亚组(包括真亚组)进行测序,以产生一组测序阅读值;以及
d.使该组测序阅读值分解,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸。
79.根据段78所述的方法,其中一组中的各个多核苷酸可定位至参考序列。
80.根据段78所述的方法,其包括提供多组标记的亲本多核苷酸,其中各组可定位至所述参考序列中不同的可定位位置。
81.根据段78所述的方法,其进一步包括:e.分开地或组合地针对每组标记的亲本分子对该组共有序列进行分析。
82.根据段78所述的方法,其进一步包括将初始起始遗传材料转换成标记的亲本多核苷酸。
83.根据段82所述的方法,其中所述初始起始遗传材料包含不超过100ng的多核苷酸。
84.根据段82所述的方法,其包括在转换前瓶颈化所述初始起始遗传材料。
85.根据段82所述的方法,其包括以至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少80%或至少90%的转换效率将所述初始起始遗传材料转换成标记的亲本多核苷酸。
86.根据段82所述的方法,其中转换包括平端连接、粘端连接、分子倒位探针、PCR、基于连接的PCR、单链连接和单链环化中的任何方法。
87.根据段82所述的方法,其中所述初始起始遗传材料是无细胞的核酸。
88.根据段79所述的方法,其中多个所述组定位至来自相同基因组的参考序列中的不同可定位位置。
89.根据段78所述的方法,其中所述组中的各个标记的亲本多核苷酸是独特地标记的。
90.根据段78所述的方法,其中各组亲本多核苷酸可定位至参考序列中的位置,并且各组中的多核苷酸不是独特地标记的。
91.根据段78所述的方法,其中共有序列的生成基于来自标签的信息和/或以下至少一个:(i)在所述序列阅读值的开始(启动)区域的序列信息、(ii)在所述序列阅读值的结束(终止)区域的序列信息和(iii)所述序列阅读值的长度。
92.根据段78所述的方法,其包括对该组扩增的子代多核苷酸的亚组进行测序,该测序足以对至少一个子代产生序列阅读值,该子代来自该组标记的亲本多核苷酸中的独特多核苷酸的至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、至少98%、至少99%、至少99.9%或至少99.99%中的每一个。
93.根据段92所述的方法,其中所述至少一个子代是多个子代,例如,至少2个、至少5个或至少10个子代。
94.根据段78所述的方法,其中该组序列阅读值中的序列阅读值的数目大于该组标记的亲本多核苷酸中的独特标记的亲本多核苷酸的数目。
95.根据段78所述的方法,其中被测序的该组扩增的子代多核苷酸的亚组具有足够的大小,以使得以与所用测序平台的每碱基测序错误率百分比相同的百分比在该组标记的亲本多核苷酸中呈现的任何核苷酸序列有至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、至少98%、至少99%、至少99.9%或至少99.99%的机会在该组共有序列之间呈现。
96.根据段78所述的方法,其包括通过以下步骤,针对定位至参考序列中一个或多个选定的可定位位置的多核苷酸,富集该组扩增的子代多核苷酸:(i)来自已转换成标记的亲本多核苷酸的初始起始遗传材料的序列的选择性扩增;(ii)标记的亲本多核苷酸的选择性扩增;(iii)扩增的子代多核苷酸的选择性序列捕获;或(iv)初始起始遗传材料的选择性序列捕获。
97.根据段81所述的方法,其中分析包括将从一组共有序列获得的度量(例如,数目)相对于从来自对照样品的一组共有序列获得的度量进行归一化。
98.根据段81所述的方法,其中分析包括检测突变、稀有突变、单核苷酸变异体、插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常变化、外遗传模式的异常变化、核酸甲基化的异常变化、感染或癌症。
99.根据段78所述的方法,其中所述多核苷酸包含DNA、RNA、这两者的组合或DNA加RNA衍生的cDNA。
100.根据段82所述的方法,其中针对或基于碱基对的多核苷酸长度从多核苷酸的初始组或从扩增的多核苷酸中选择或富集多核苷酸的某个亚组。
101.根据段82所述的方法,其中分析进一步包括检测和监测个体内的异常或疾病,例如,感染和/或癌症。
102.根据段101所述的方法,其与免疫组库谱分析组合进行。
103.根据段78所述的方法,其中所述多核苷酸从选自血液、血浆、血清、尿液、唾液、粘膜分泌物、痰、粪便和泪液的样品中提取。
104.根据段78所述的方法,其中分解包括检测和/或校正在标记的亲本多核苷酸或扩增的子代多核苷酸的有义或反义链中存在的错误、切口或损伤。
105.一种方法,其包括以至少5%、至少1%、至少0.5%、至少0.1%或至少0.05%的灵敏度检测非独特标记的初始起始遗传材料中的遗传变异。
106.根据段105所述的方法,其中所述初始起始遗传材料以小于100ng的核酸的量来提供,该遗传变异是拷贝数/杂合性变异,并且检测在亚染色体分辨率下进行;例如,至少100兆碱基分辨率、至少10兆碱基分辨率、至少1兆碱基分辨率、至少100千碱基分辨率、至少10千碱基分辨率或至少1千碱基分辨率。
107.根据段81所述的方法,其包括提供多组标记的亲本多核苷酸,其中各组可定位至参考序列中不同的可定位位置。
108.根据段107所述的方法,其中所述参考序列中的可定位位置是肿瘤标志物的基因座,并且分析包括检测该组共有序列中的肿瘤标志物。
109.根据段108所述的方法,其中所述肿瘤标志物以小于在扩增步骤中引入的错误率的频率存在于该组共有序列中。
110.根据段107所述的方法,其中所述至少一组是多个组,并且所述参考序列的可定位位置包含该参考序列中的多个可定位位置,其中各个可定位位置是肿瘤标志物的基因座。
111.根据段107所述的方法,其中分析包括检测在至少两组亲本多核苷酸间的共有序列的拷贝数变异。
112.根据段107所述的方法,其中分析包括检测与参考序列相比序列变异的存在。
113.根据段107所述的方法,其中分析包括检测与参考序列相比序列变异的存在并检测在至少两组亲本多核苷酸间的共有序列的拷贝数变异。
114.根据段78所述的方法,其中分解包括:
i.将从扩增的子代多核苷酸测序的序列阅读值分组成家族,各个家族从相同的标记的亲本多核苷酸扩增;以及
ii.基于家族中的序列阅读值确定共有序列。
115.一种包含计算机可读介质的系统,该计算机可读介质用于执行以下步骤:
a.接受至少一组标记的亲本多核苷酸,并且对于各组标记的亲本多核苷酸;
b.扩增该组中的标记的亲本多核苷酸,以产生相应的一组扩增的子代多核苷酸;
c.对该组扩增的子代多核苷酸的亚组(包括真亚组)进行测序,以产生一组测序阅读值;以及
d.分解该组测序阅读值,以生成一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸间的独特多核苷酸,以及任选地
e.针对各组标记的亲本分子对该组共有序列进行分析。
116.一种方法,其包括检测个体中的遗传改变的存在与否存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少10%进行测序。
117.一种方法,其包括检测个体中的遗传改变的存在与否存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少20%进行测序。
118.一种方法,其包括检测个体中的遗传改变的存在与否存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少30%进行测序。
119.一种方法,其包括检测个体中的遗传改变的存在与否存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少40%进行测序。
120.一种方法,其包括检测个体中的遗传改变的存在与否存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少50%进行测序。
121.一种方法,其包括检测个体中的遗传改变的存在与否存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少60%进行测序。
122.一种方法,其包括检测个体中的遗传改变的存在与否存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少70%进行测序。
123.一种方法,其包括检测个体中的遗传改变的存在与否存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少80%进行测序。
124.一种方法,其包括检测个体中的遗传改变的存在与否存在与否或遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少90%进行测序。
125.一种方法,其包括检测个体中的遗传改变的存在与否存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少10%进行测序。
126.一种方法,其包括检测个体中的遗传改变的存在与否存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少20%进行测序。
127.一种方法,其包括检测个体中的遗传改变的存在与否存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少30%进行测序。
128.一种方法,其包括检测个体中的遗传改变的存在与否存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少40%进行测序。
129.一种方法,其包括检测个体中的遗传改变的存在与否存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少50%进行测序。
130.一种方法,其包括检测个体中的遗传改变的存在与否存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少60%进行测序。
131.一种方法,其包括检测个体中的遗传改变的存在与否存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少70%进行测序。
132.一种方法,其包括检测个体中的遗传改变的存在与否存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少80%进行测序。
133.一种方法,其包括检测个体中的遗传改变的存在与否存在与否和遗传变异的量,其中所述检测在无细胞核酸的测序的辅助下进行,其中对个体的基因组的至少90%进行测序。
134.根据段116-133所述的方法,其中所述遗传改变是拷贝数变异或一种或多种稀有突变。
135.根据段116-133所述的方法,其中所述遗传变异包含一种或多种因果变异体和一种或多种多态性。
136.根据段116-133所述的方法,其中所述个体中的遗传改变和/或遗传变异的量可以与一个或多个患有已知疾病的个体中的遗传改变和/或遗传变异的量相比较。
137.根据段116-133所述的方法,其中所述个体中的遗传改变和/或遗传变异的量可以与一个或多个未患有疾病的个体中的遗传改变和/或遗传变异的量相比较。
138.根据段116-133所述的方法,其中所述无细胞核酸是DNA。
139.根据段116-133所述的方法,其中所述无细胞核酸是RNA。
140.根据段116-133所述的方法,其中所述无细胞核酸是DNA和RNA。
141.根据段136所述的方法,其中所述疾病是癌症或癌前期。
142.根据段116-133所述的方法,该方法进一步包括疾病的诊断或治疗。
143.一种方法,其包括:
a)提供至少一组标记的亲本多核苷酸,并且对于各组标记的亲本多核苷酸;
b)扩增该组中的标记的亲本多核苷酸,以产生相应的一组扩增的子代多核苷酸;
c)对该组扩增的子代多核苷酸的亚组(包括真亚组)进行测序,以产生一组测序阅读值;
d)分解该组测序阅读值,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸;以及
e)从所述共有序列中过滤掉那些未满足质量阈值的共有序列。
144.根据段143所述的方法,其中所述质量阈值考虑来自分解成共有序列的扩增子代多核苷酸的序列阅读值的数目。
145.根据段143所述的方法,其中所述质量阈值考虑来自分解成共有序列的扩增子代多核苷酸的序列阅读值的数目。
146.一种包含计算机可读介质的系统,该计算机可读介质用于执行段143-145中任一项的方法。
147.一种方法,其包括:
a)提供至少一组标记的亲本多核苷酸,其中各组定位至一个或多个基因组中的参考序列的不同可定位位置,并且对于各组标记的亲本多核苷酸;
i.扩增第一多核苷酸,以产生一组扩增的多核苷酸;
ii.对该组扩增的多核苷酸的亚组进行测序,以产生一组测序阅读值;以及
iii.通过以下步骤分解所述测序阅读值:
1.将从扩增的子代多核苷酸测序的序列阅读值分组成家族,各个家族从相同的标记亲本多核苷酸扩增。
148.根据段147所述的方法,其中分解进一步包括:
2.确定在各个家族中的序列阅读值的定量度量。
149.根据段148所述的方法,其进一步包括:
b.确定独特家族的定量度量;以及
c.基于(1)独特家族的定量度量和(2)各组中的序列阅读值的定量度量,推断在该组中的独特标记亲本多核苷酸的度量。
150.根据段149所述的方法,其中使用统计或概率模型进行推断。
151.根据段149所述的方法,其中所述至少一组是多个组。
152.根据段151所述的方法,其进一步包括校正两组之间的扩增或呈现偏倚。
153.根据段152所述的方法,其进一步包括使用对照或一组对照样品校正两组之间的扩增或呈现偏倚。
154.根据段151所述的方法,其进一步包括确定所述组之间的拷贝数变异。
155.根据段149所述的方法,其进一步包括:
d.确定所述家族之间的多态性形式的定量度量;以及
e.基于所确定的多态性形式的定量度量,推断在推断的独特标记亲本多核苷酸的数目上的多态性形式的定量度量。
156.根据段155所述的方法,其中多态性形式包括但不限于:置换、插入、缺失、倒位、微卫星改变、颠换、易位、融合、甲基化、过度甲基化、羟甲基化、乙酰化、外遗传变异体、与调节相关的变异体或蛋白质结合位点。
157.根据段149所述的方法,其中所述组源自共同的样品,并且该方法进一步包括:
d.基于定位至参考序列中的多个可定位位置中每一个的各组中标记亲本多核苷酸的推断数目的比较,推断所述多个组的拷贝数变异。
158.根据段157所述的方法,其中进一步推断各组中的多核苷酸的原始数目。
159.根据段147所述的方法,其中各组中的标记亲本多核苷酸中的至少一个亚组为非独特地标记的。
160.一种包含计算机可读介质的系统,该计算机可读介质包含机器可执行代码,该机器可执行代码在被计算机处理器执行时实现段147-158中任一项的方法。
161.一种确定包含多核苷酸的样品中的拷贝数变异的方法,该方法包括:
a.提供至少两组第一多核苷酸,其中各组定位至基因组中的参考序列的不同可定位位置,并且对于各组第一多核苷酸;
i.扩增所述多核苷酸,以产生一组扩增的多核苷酸;
ii.对该组扩增的多核苷酸的亚组进行测序,以产生一组测序阅读值;
iii.将从扩增的多核苷酸测序的序列阅读值分组成家族,各个家族从所述组中的相同的第一多核苷酸扩增;
iv.推断所述组中的家族的定量度量;以及
b.通过比较各组中的家族的定量度量来确定拷贝数变异。
162.一种包含计算机可读介质的系统,该计算机可读介质包含机器可执行代码,该机器可执行代码在被计算机处理器执行时实现段161的方法。
163.一种推断多核苷酸样品中的序列判定频率的方法,该方法包括:
a.提供至少一组第一多核苷酸,其中各组定位至一个或多个基因组中的参考序列的不同可定位位置,并且对于各组第一多核苷酸;
i.扩增第一多核苷酸,以产生一组扩增的多核苷酸;
ii.对该组扩增的多核苷酸的亚组进行测序,以产生一组测序阅读值;
iii.将所述序列阅读值分组成家族,各个家族包含从相同的第一多核苷酸扩增的扩增多核苷酸的序列阅读值;
b.对于各组第一多核苷酸,推断对在该组第一多核苷酸中的一个或多个碱基的判定频率,其中推断包括:
i.针对各个家族,对多个判定中的每一个判定分配置信得分,该置信得分考虑该家族的成员之间的判定频率;以及
ii.考虑分配给每个家族的一个或多个判定的置信得分,来估算一个或多个判定的频率。
164.一种包含计算机可读介质的系统,该计算机可读介质包含机器可执行代码,该机器可执行代码在被计算机处理器执行时实现段163的方法。
165.一种对关于至少一个单个多核苷酸分子的序列信息进行通信的方法,该方法包括:
a.提供至少一个单个多核苷酸分子;
b.编码所述至少一个单个多核苷酸分子中的序列信息,以产生信号;
c.使该信号的至少一部分通过通道,以产生包含关于所述至少一个单个多核苷酸分子的核苷酸序列信息的接收信号,其中该接收信号包含噪声和/或畸变;
d.解码该接收信号,以产生包含关于所述至少一个单个多核苷酸分子的序列信息的消息,其中解码减少了该消息中关于各个单个多核苷酸的噪声和/或畸变;以及
e.将包含关于所述至少一个单个多核苷酸分子的序列信息的消息提供至接收者。
166.根据段165所述的方法,其中所述噪声包含不正确的核苷酸判定。
167.根据段165所述的方法,其中畸变包含所述单个多核苷酸分子与其它单个多核苷酸分子相比的不均匀扩增。
168.根据段167所述的方法,其中畸变是由扩增或测序偏倚导致的。
169.根据段165所述的方法,其中所述至少一个单个多核苷酸分子是多个单个多核苷酸分子,并且解码产生关于所述多个分子中的每一个分子的消息。
170.根据段165所述的方法,其中编码包括扩增已经任选地标记的所述至少一个单个多核苷酸分子,其中所述信号包括扩增的分子的集合。
171.根据段165所述的方法,其中所述通道包括多核苷酸测序仪且所述接收信号包括从所述至少一个单个多核苷酸扩增的多个多核苷酸的序列阅读值。
172.根据段165所述的方法,其中解码包括将从至少一个单个多核苷酸分子中的每一个扩增的扩增分子的序列阅读值进行分组。
173.根据段169所述的方法,其中解码由过滤所生成的序列信号的概率或统计方法组成。
174.一种包含计算机可读介质的系统,该计算机可读介质包含机器可执行代码,该机器可执行代码在被计算机处理器执行时实现段165-173中任一项的方法。
175.根据段143-145、147-159和161中任一项所述的方法,其中所述多核苷酸源自肿瘤基因组DNA或RNA。
176.根据段143-175中任一项所述的方法,其中所述多核苷酸源自无细胞的多核苷酸、核外多核苷酸、细菌多核苷酸或病毒多核苷酸。
177.根据段1-3或143-175中任一项所述的方法,其进一步包括受影响的分子通路的检测和/或关联。
178.根据段1-3或143-175中任一项所述的方法,其进一步包括连续监测个体的健康或疾病状态。
179.根据段1-3或143-175中任一项所述的方法,由此推断个体内与疾病相关的基因组的种系发生。
180.根据段1-3或143-175中任一项所述的方法,其进一步包括疾病的诊断、监测或治疗。
181.根据段180所述的方法,其中基于检测到的多态性形式或CNV或相关的通路来选择或修改治疗方案。
182.根据段180或181所述的方法,其中所述治疗包括联合疗法。
183.根据段179所述的方法,其中所述诊断进一步包括使用诸如CT-扫描、PET-CT、MRI、超声、微泡超声等放射线照相技术定位疾病。
184.一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:
选择在基因组中的预定义区域;
访问序列阅读值并对该预定义区域中的序列阅读值数目进行计数:
对在该预定义区域上的序列阅读值的数目进行归一化;以及
确定在该预定义区域中的拷贝数变异的百分比。
185.一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:
a.访问包含多个测序阅读值的数据文件;
b.过滤掉未能满足所设定的阈值的阅读值;
c.将从测序得到的序列阅读值定位至参考序列上;
d.鉴别在各个可定位的碱基位置处与参考序列的变异体对准的被定位序列阅读值的亚组;
e.对于各个可定位的碱基位置,计算出(a)与参考序列相比包含变异体的被定位序列阅读值的数目与(b)各个可定位碱基位置的序列阅读值总数的比值;
f.将各个可定位碱基位置的变异的比值或频率进行归一化并确定潜在的稀有变异体或其它遗传改变;以及
g.将具有潜在的稀有变异体或突变的各个区域的所得数目与从参考样品类似地得到的数目进行比较。
186.一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:
a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;以及
b.分解该组测序阅读值,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸。
187.一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:
a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;
b.分解该组测序阅读值,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸;
c.从所述共有序列中过滤掉那些未满足质量阈值的共有序列。
188.一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:
a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;以及
i.通过以下步骤分解所述序列阅读值:
1.将从扩增的子代多核苷酸测序的序列阅读值分组成家族,各个家族从相同的标记亲本多核苷酸扩增,以及任选地,
2.确定各个家族中序列阅读值的定量度量。
189.根据段188所述的计算机可读介质,其中所述可执行代码在被计算机处理器执行时进一步执行以下步骤:
b.确定独特家族的定量度量;
c.基于(1)独特家族的定量度量和(2)各组中的序列阅读值的定量度量,推断在该组中的独特标记的亲本多核苷酸的度量。
190.根据段189所述的计算机可读介质,其中所述可执行代码在被计算机处理器执行时进一步执行以下步骤:
d.确定所述家族之间的多态性形式的定量度量;以及
e.基于所确定的多态性形式的定量度量,推断在推断的独特标记亲本多核苷酸的数目上的多态性形式的定量度量。
191.一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:
a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;将从扩增的多核苷酸测序的序列阅读值分组成家族,各个家族从所述组中的相同的第一多核苷酸扩增;
b.推断该组中的家族的定量度量;
c.通过比较各组中的家族的定量度量来确定拷贝数变异。
192.一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:
a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;将所述序列阅读值分组成家族,各个家族包含从相同的第一多核苷酸扩增的扩增多核苷酸的序列阅读值;
b.对于各组第一多核苷酸,推断对在该组第一多核苷酸中的一个或多个碱基的判定频率,其中推断包括:
c.针对各个家族,对多个判定中的每一个判定分配置信得分,该置信得分考虑该家族的成员之间的判定频率;以及
d.考虑分配给每个家族的一个或多个判定的置信得分,来估算一个或多个判定的频率。
193.一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:
a.访问包含接收信号的数据文件,该接收信号包含来自至少一个单个多核苷酸分子的编码的序列信息,其中所述接收信号包含噪声和/或畸变;
b.解码所述接收信号,以产生包含关于所述至少一个单个多核苷酸分子的序列信息的消息,其中解码减少了该消息中关于各个单个多核苷酸的噪声和/或畸变;以及
c.将包含关于所述至少一个单个多核苷酸分子的序列信息的消息写入计算机文件。
194.一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:
a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;
b.分解该组测序阅读值,以产生一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸;以及
c.从所述共有序列中过滤掉那些未满足质量阈值的共有序列。
195.一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:
a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;以及
b.通过以下步骤分解该序列阅读值:
i.将从扩增的子代多核苷酸测序的序列阅读值分组成家族,各个家族从相同的标记亲本多核苷酸扩增;以及
ii.任选地确定各个家族中序列阅读值的定量度量。
196.根据段195所述的计算机可读介质,其中所述可执行代码在被计算机处理器执行时进一步执行以下步骤:
c.确定独特家族的定量度量;
d.基于(1)独特家族的定量度量和(2)各组中的序列阅读值的定量度量,推断在该组中的独特标记亲本多核苷酸的度量。
197.根据段196所述的计算机可读介质,其中所述可执行代码在被计算机处理器执行时进一步执行以下步骤:
e.确定所述家族之间的多态性形式的定量度量;以及
f.基于所确定的多态性形式的定量度量,推断在推断的独特标记亲本多核苷酸的数目上的多态性形式的定量度量。
198.根据段196所述的计算机可读介质,其中所述可执行代码在被计算机处理器执行时进一步执行以下步骤:
e.基于定位至多个参考序列中的每一个的各组中的标记亲本多核苷酸的推断数目的比较,来推断所述多个组的拷贝数变异。
199.一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:
a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;
b.将从扩增的多核苷酸测序的序列阅读值分组成家族,各个家族从所述组中的相同的第一多核苷酸扩增;
c.推断该组中的家族的定量度量;以及
d.通过比较各组中的家族的定量度量来确定拷贝数变异。
200.一种包含非暂时性机器可执行代码的计算机可读介质,该非暂时性机器可执行代码在被计算机处理器执行时实现一种方法,该方法包括:
a.访问包含多个测序阅读值的数据文件,其中所述序列阅读值源自从至少一组标记的亲本多核苷酸扩增的一组子代多核苷酸;将从所述序列阅读值分组成家族,各个家族包含从相同的第一多核苷酸扩增的扩增多核苷酸的序列阅读值;以及
b.对于各组第一多核苷酸,推断对在该组第一多核苷酸中的一个或多个碱基的判定频率,其中推断包括:
i.针对各个家族,对多个判定中的每一个判定分配置信得分,该置信得分考虑家族成员之间的判定频率;以及
ii.考虑分配给每个家族的一个或多个判定的置信得分,来估算一个或多个判定的频率。
201.一种组合物,其包含100至100,000个人单倍体基因组当量的cfDNA多核苷酸,其中所述多核苷酸用2至1,000,000个独特标识符标记。
202.根据段201所述的组合物,其包含1000至50,000个单倍体人基因组当量的cfDNA多核苷酸,其中所述多核苷酸用2至1,000个独特标识符标记。
203.根据段201所述的组合物,其中所述独特标识符包含核苷酸条形码。
204.一种方法,其包括:
a.提供包含100至100,000个单倍体人基因组当量的cfDNA多核苷酸的样品;以及
b.用2至1,000,000个独特标识符标记所述多核苷酸。
205.一种方法,其包括:
a.提供包含多个人单倍体基因组当量的片段化多核苷酸的样品;
b.确定z,其中z是在基因组中任何位置开始的重复多核苷酸的预期数目的居中趋势度量(例如,平均值、中位数或众数),其中重复多核苷酸具有相同的启动和终止位置;以及
c.用n个独特标识符标记样品中的多核苷酸,其中n是2至100,000*z、2至10,000*z、2至1,000*z或2至100*z。
206.一种方法,其包括:
a.提供至少一组标记的亲本多核苷酸,并且对于各组标记的亲本多核苷酸;
b.对该组中的各个标记的亲本多核苷酸产生多个序列阅读值,以产生一组测序阅读值;以及
c.分解该组测序阅读值,以生成一组共有序列,各个共有序列对应于该组标记的亲本多核苷酸之间的独特多核苷酸。
附图说明
本发明的系统和方法的新颖特征特别地在所附权利要求中阐述。通过参考以下对其中利用了本发明系统和方法的原理的说明性实施方案加以阐述的发明详述及其附图,将会获得对本公开内容的特征和优势的更好的理解,在附图中:
图1是使用单一样品检测拷贝数变异的方法的流程图图示。
图2是使用成对样品检测拷贝数变异的方法的流程图图示。
图3是检测稀有突变(例如,单核苷酸变异体)的方法的流程图图示。
图4A是由正常的、非癌变受试者生成的图形化拷贝数变异检测报告。
图4B是由患有前列腺癌的受试者生成的图形化拷贝数变异检测报告。
图4C是经因特网访问由患有前列腺癌的受试者的拷贝数变异分析生成的报告的示意图。
图5A是由具有前列腺癌缓解的受试者生成的图形化拷贝数变异检测报告。
图5B是由具有前列腺癌复发的受试者生成的图形化拷贝数变异检测报告。
图6A是使用含有MET和TP53的野生型及突变型拷贝的DNA样品从多种混合实验生成的图形化检测报告(例如,针对单核苷酸变异体)。
图6B是(例如,单核苷酸变异体)检测结果的对数图示。对于使用含有MET、HRAS和TP53的野生型及突变型拷贝的DNA样品的多种混合实验,显示了观察的对比预期的%癌症测量。
图7A是患有前列腺癌的受试者与参考(对照)相比,在两种基因PIK3CA和TP53中的两种(例如,单核苷酸变异体)的百分比的图形报告。
图7B是经因特网访问由患有前列腺癌的受试者的(例如,单核苷酸变异体)分析生成的报告的示意图。
图8是一种分析遗传材料的方法的流程图图示。
图9是一种方法的流程图图示,该方法用于解码一组序列阅读值中的信息以在降低的噪声和/或畸变下产生一组标记的亲本多核苷酸中的信息的呈现。
图10是一种在从一组序列阅读值确定CNV中减少畸变的方法的流程图图示。
图11是一种方法的流程图图示,该方法用于从一组序列阅读值估算在标记的亲本多核苷酸群体中的基因座处的碱基或碱基序列的频率。
图12示出了一种对序列信息进行通信的方法。
图13示出了使用标准测序和数字测序工作流程在0.3%LNCaP cfDNA滴定中在整个70kb组中检测到的次要等位基因频率。标准“模拟”测序(图13A)尽管经过Q30过滤,仍因PCR和测序错误而在巨大噪声中掩盖了全部真阳性稀有变异。数字测序(图13B)消除了所有PCR和测序噪声,揭示出真正的突变而没有假阳性:绿色圆圈是在正常cfDNA中的SNP点,而红色圆圈是检测到的LNCaP突变。
图14:显示了LNCap cfDNA的滴定。
图15示出了一种被编程为或以其它方式配置成实现本发明的各种方法的计算机系统。
发明详述
I.一般概述
本公开内容提供了一种用于检测无细胞多核苷酸中的稀有突变(例如,单或多核苷酸变异)和拷贝数变异的系统和方法。通常,该系统和方法包括样品制备或者从体液中提取和分离无细胞多核苷酸序列;随后通过本领域已知的技术对无细胞多核苷酸进行测序;以及使用生物信息学工具来与参考相比检测稀有突变和拷贝数变异。该系统和方法还可以包含不同疾病的不同稀有突变或拷贝数变异谱的数据库或集合,以便用作附加的参考来辅助疾病的稀有突变检测(例如,单核苷酸变异谱分析)、拷贝数变异谱分析或普通遗传谱分析。
该系统和方法可特别适用于无细胞DNA的分析。在一些情况下,无细胞DNA从容易获得的体液如血液中提取和分离。例如,无细胞DNA可以使用本领域中已知的多种方法进行提取,包括但不限于异丙醇沉淀和/或基于二氧化硅的纯化。无细胞DNA可以从任何数目的受试者中提取,诸如未患有癌症的受试者、具有患癌风险的受试者或已知患有癌症的受试者(例如,通过其它手段)。
在分离/提取步骤后,可对无细胞多核苷酸样品进行许多不同测序操作中任何操作。样品在测序前可用一种或多种试剂(例如,酶、独特标识符(例如,条形码)、探针等)进行处理。在一些情况下,如果用独特标识符诸如条形码处理样品,则可用独特标识符单独地或成亚组地(in subsets)标记该样品或该样品的片段。标记的样品随后可用于下游应用,如测序反应,通过该下游应用可将单个分子追踪至亲本分子。
在收集无细胞多核苷酸序列的测序数据后,可对该序列数据应用一个或多个生物信息学过程,以检测遗传特征或异常,诸如拷贝数变异、稀有突变(例如,单或多核苷酸变异)或外遗传标记物的改变,包括但不限于甲基化谱。在其中需要拷贝数变异分析的一些情况下,序列数据可以:1)与参考基因组进行比对;2)过滤和定位;3)分割成序列窗口或箱元(bin);4)对各个窗口的覆盖阅读值进行计数;5)然后可以使用随机或统计建模算法对覆盖阅读值进行归一化;6)以及可以生成输出文件,其反映在基因组中的各位置处的离散的拷贝数状态。在其中需要稀有突变分析的其它情况下,序列数据可以1)与参考基因组进行比对;2)过滤和定位;3)基于该特定碱基的覆盖阅读值而计算变异碱基的频率;4)使用随机、统计或概率建模算法来对变异碱基频率进行归一化;5)以及可以生成输出文件,其反映在基因组中的各位置处的突变状态。
多种不同的反应和/操作可在本文公开的系统和方法中发生,包括但不限于:核酸测序、核酸定量、测序优化、检测基因表达、基因表达定量、基因组谱分析、癌症谱分析或表达的标记物的分析。此外,该系统和方法具有许多医学应用。例如,它可用于各种遗传性和非遗传性疾病和病症(包括癌症)的鉴定、检测、诊断、治疗、分期或风险预测。它可以用于评估受试者对所述遗传性和非遗传性疾病的不同治疗的响应,或提供关于疾病进展和预后的信息。
多核苷酸测序可以与通信理论中的问题进行比较。最初的单个多核苷酸或成组多核苷酸被认为是原始消息。标记和/或扩增可被认为是将原始消息编码成信号。测序可以被认为是通信通道。测序仪的输出,例如序列阅读值,可以被认为是接收的信号。生物信息学处理可以被认为是解码接收信号以产生发送的消息(例如,一个或多个核苷酸序列)的接收器。接收的信号可以包括伪像,诸如噪声和畸变。噪声可以被认为是信号的不希望的随机增加。畸变可以被认为是信号或信号一部分的幅值变化。
噪声可通过在拷贝和/或读取多核苷酸中的错误而引入。例如,在测序过程中,单个多核苷酸可以首先经历扩增。扩增可引入错误,从而使扩增的多核苷酸的亚组可以在特定的基因座处包含与在该基因座处的原始碱基不同的碱基。此外,在读取过程中,在任何特定基因座处的碱基可能被不正确地读取。因此,序列阅读值的集合可包含一定百分比的在基因座处与原始碱基不同的碱基判定。在典型的测序技术中,这种错误率可以是个位数,例如,2%-3%。当对全部假定为具有相同序列的分子集合进行测序时,这样的噪声是足够小,使得人们可以高可靠性地鉴别原始碱基。
然而,如果亲本多核苷酸的集合包括在特定基因座处具有序列变异体的多核苷酸亚组,则噪声可能是一个显著的问题。例如,当无细胞DNA不仅包括种系DNA还包括来自另一来源的DNA诸如胎儿DNA或来自癌细胞的DNA时,情况可能是这样。在这种情况下,如果具有序列变异体的分子的频率与通过测序过程引入的错误的频率在相同的范围内,则真序列变异体可能无法与噪声区别。这可能会干扰例如样品中的序列变异体的检测。
畸变可以在测序过程表现为由在相同频率下的亲本群体中的分子产生的信号强度的差异,例如序列阅读值的总数。例如,可以通过扩增偏倚、GC偏倚或测序偏倚引入畸变。这可能会干扰样品中的拷贝数变异的检测。GC偏倚导致了在序列读取中GC含量丰富或贫乏区域的不均匀呈现。
本发明提供了减少多核苷酸测序过程中的测序伪像如噪声和/或畸变的方法。将序列阅读值分组成源自原始单个分子的家族可减少来自单个个体分子或来自成组分子的噪声和/或畸变。关于单个分子,将阅读值分组成家族通过例如指出许多序列阅读值实际上代表单个分子而非许多不同的分子而减少了畸变。将序列阅读值分解成共有序列是一种减少从一个分子接收到的消息中的噪声的方式。使用转换接收到的频率的概率函数是另一种方式。关于成组分子,将阅读值分组成家族并确定家族的定量度量减少了例如在多个不同基因座中的每一个基因座处的分子的量的畸变。再者,将不同家族的序列阅读值分解成共有序列消除了由扩增和/或测序错误引入的错误。此外,基于由家族信息得出的概率来确定碱基判定的频率也减少了从成组分子接收到的消息中的噪声。
减少来自测序过程的噪声和/或畸变的方法是已知的。这些方法包括,例如过滤序列,例如,要求它们满足质量阈值或降低GC偏倚。这样的方法通常在作为测序仪的输出的序列阅读值集合上进行,并可以以逐个序列阅读值的方式进行,而无需考虑家族结构(来源于一个原始亲本分子的序列的子集)。本发明的某些方法通过减少序列阅读值的家族内的噪声和/或畸变来减少噪声和畸变,即在分组成来源于单个亲本多核苷酸分子的家族的序列阅读值上运行。家族水平上的信号伪像的减少可以在提供的最终消息中产生比在逐个序列阅读值水平上或在作为整体的测序仪输出上进行的伪像减少显著较少的噪声和畸变。
本公开内容进一步提供了用于高灵敏度地检测在初始遗传材料的样品中的遗传变异的方法和系统。该方法包括使用下列工具中的一个或两个:第一,将初始遗传材料的样品中的单个多核苷酸有效转换成测序就绪的标记的亲本多核苷酸,以便增加初始遗传材料的样品中的单个多核苷酸将在测序就绪的样品中呈现的概率。这可以产生关于初始样品中的更多多核苷酸的序列信息。第二,通过从标记的亲本多核苷酸扩增的子代多核苷酸的高速率采样,以及将生成的序列阅读值分解成呈现亲本标记的多核苷酸的序列的共有序列,来高产量地生成标记的亲本多核苷酸的共有序列。这可以减少由扩增偏倚和/或测序错误引入的噪声并且可以提高检测的灵敏度。分解在由扩增的分子的阅读值生成或由单个分子的多个阅读值生成的多个序列阅读值上进行。
测序方法通常包括样品制备,对所制成样品中的多核苷酸进行测序以产生序列阅读值,以及对序列阅读值进行生物信息学操作以产生关于样品的定量和/或定性的遗传信息。样品制备一般包括将样品中的多核苷酸转换成与所用测序平台兼容的形式。这种转换可以涉及标记多核苷酸。在本发明的某些实施方案中,标签包括多核苷酸序列标签。在测序中使用的转换方法可能不是100%有效的。例如,以约1-5%的转换效率来转换样品中的多核苷酸并不少见,也就是说,样品中的约1-5%的多核苷酸被转换成标记的多核苷酸。未转化成标记的分子的多核苷酸没有在用于测序的标记的文库中呈现。因此,具有在初始遗传材料中以低频率呈现的遗传变异体的多核苷酸可能未在标记的文库中呈现,因此可能不被测序或检测。通过提高转换效率,在初始遗传材料中的稀有多核苷酸将在标记的文库中呈现且因此通过测序检测出来的概率得到增加。此外,并非直接解决文库制备的转换效率低的问题,迄今为止的大多数方案要求大于1微克的DNA作为输入材料。然而,当输入样品材料受到限制或需要检测低呈现度的多核苷酸时,高转换效率可以有效地对样品进行测序和/或充分地检测此类多核苷酸。
本公开内容提供了以至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少80%或至少90%的转换效率将初始多核苷酸转换成标记的多核苷酸的方法。该方法涉及,例如,使用平端连接、粘端连接、分子倒位探针、PCR、基于连接的PCR、多重PCR、单链连接和单链环化中的任何方式。该方法还可以涉及限定初始遗传材料的量。例如,初始遗传材料的量可以小于1μg、小于100ng或小于10ng。这些方法在本文中更详细地描述。
获得关于标记文库中的多核苷酸的准确定量和定性信息可导致对初始遗传材料的更灵敏的表征。通常,扩增在标记的文库中的多核苷酸并对所得扩增分子进行测序。根据所用测序平台的通量,在扩增的文库中的分子仅有其亚组产生序列阅读值。因此,例如,为测序而采样的扩增分子的数目可以仅为标记的文库中的独特多核苷酸的约50%。此外,扩增可被偏置为有利于或不利于标记的文库的某些序列或某些成员。这可能会使标记文库中的序列的定量测量发生畸变。此外,测序平台可以在测序中引入错误。例如,序列可以具有0.5-1%的每碱基错误率。扩增偏倚和测序错误将噪声引入至最终测序产物中。这种噪声可以降低检测的灵敏度。例如,在标记的群体中的频率比测序错误率低的序列变异体可以被误认为是噪声。此外,通过以比它们在群体中的实际数目更大或更小的量提供序列阅读值,扩增偏倚可以使拷贝数变异的测量发生畸变。或者,可以不经扩增而产生来自单一多核苷酸的多个序列阅读值。例如,这可以用纳米孔方法实现。
本公开内容提供了准确地检测和读取标记的集合体中的独特多核苷酸的方法。在某些实施方案中,本公开内容提供了序列标记的多核苷酸,该序列标记的多核苷酸当被扩增和测序时或者当被多次测序以产生多个序列阅读值时,提供了允许将子代多核苷酸追溯至或分解成独特标记的亲本多核苷酸分子的信息。分解扩增的子代多核苷酸的家族通过提供关于原始独特亲本分子的信息而降低扩增偏倚。分解也通过从测序数据中消除子代分子的突变序列而减少测序错误。
检测和读取标记的文库中的独特多核苷酸可以涉及两种策略。在一种策略中,对扩增的子代多核苷酸集合体的足够大的亚组进行测序,使得对于该组标记的亲本多核苷酸中的高百分比的独特标记的亲本多核苷酸,存在针对在由独特标记的亲本多核苷酸产生的家族中的至少一个扩增的子代多核苷酸而产生的序列阅读值。在第二个策略中,以一定的水平对扩增的子代多核苷酸组进行采样测序,以便由来源于独特亲本多核苷酸的家族的多个子代成员产生序列阅读值。由家族的多个子代成员生成序列阅读值允许将序列分解成共有亲本序列。
因此,例如,从该组扩增的子代多核苷酸中采样与该组标记的亲本多核苷酸中的独特标记的亲本多核苷酸的数目(特别是当该数目为至少10,000时)相等数目的扩增的子代多核苷酸,将在统计学上产生针对该组中约68%的标记的亲本多核苷酸的子代中的至少一个的序列阅读值,且在原始组中的约40%的独特标记的亲本多核苷酸将由至少2个子代序列阅读值呈现。在某些实施方案中,充分地对扩增的子代多核苷酸组进行采样,以便针对每个家族产生平均五到十个序列阅读值。从扩增的子代组采样多达独特标记的亲本多核苷酸的数目的10倍的分子,将在统计学上产生关于99.995%的家族的序列信息,其中,总家族的99.95%将被多个序列阅读值覆盖。共有序列可以由每个家族中的子代多核苷酸构建,从而将错误率从标称的每碱基测序错误率显著地减低至可能低几个数量级的错误率。例如,如果测序仪具有1%的随机每碱基错误率且所选择的家族有10个阅读值,则由这10个阅读值建立的共有序列将具有低于0.0001%的错误率。因此,可以选择待测序的扩增子代的采样大小,以确保样品中具有一定频率(即不大于标称的每碱基测序错误率到所用测序平台的错误率)的序列有至少99%的机会被至少一个阅读值呈现。
在另一个实施方案中,该组扩增的子代多核苷酸以一定的水平采样,以产生在该组标记的亲本多核苷酸中以约等于所用测序平台的每碱基测序错误率的频率呈现的序列被至少一个序列阅读值覆盖且优选地被多个序列阅读值所覆盖的高概率,例如至少90%。因此,例如,如果测序平台具有0.2%的每碱基错误率,序列或一组序列在该组标记的亲本多核苷酸中以约0.2%的频率呈现,则在所测序的扩增子代集合体中多核苷酸的数目可以为在该组标记的亲本多核苷酸中的独特分子的数目的约X倍。
这些方法可以与任何所述的噪声减少方法相组合。包括,例如,使序列阅读值有资格包含在用于产生共有序列的序列集合体中。
该信息现在可用于定性和定量分析。例如,对于定量分析,确定定位至参考序列的标记亲本分子的量的度量,例如计数。这种度量可以与定位至不同基因组区域的标记亲本分子的度量进行比较。也就是说,定位至参考序列(如人类基因组)中的第一位置或可定位位置的标记亲本分子的量可以与定位至参考序列中的第二位置或可定位位置的标记亲本分子的度量相比较。这种比较可以揭示,例如,定位至各个区域的亲本分子的相对量。进而,这提供了定位至特定区域的分子的拷贝数变异的指示。例如,如果定位至第一参考序列的多核苷酸的度量大于定位至第二参考序列的多核苷酸的度量,则这可能表明亲本群体和(引申开来)原始样品包括来自表现出非整倍性的细胞的多核苷酸。这种度量可相对于对照样品进行归一化,从而消除各种偏倚。定量度量可以包括,例如数字、计数、频率(无论是相对的、推断的还是绝对的)。
参考基因组可以包括任何感兴趣的物种的基因组。可用作参考的人类基因组序列可以包括hgl9组装体或任何以前的或可用的hg组装体。这样的序列可以使用在genome.ucsc.edu/index.html上可得的基因组浏览器进行查询。其它物种基因组包括,例如PanTro2(黑猩猩)和mm9(小鼠)。
对于定性分析,可以针对变异体序列分析来自定位至参照序列的一组标记的多核苷酸的序列,并且可以测量它们在标记的亲本多核苷酸的群体中的频率。
II.样品制备
A.多核苷酸分离和提取
本发明的系统和方法在无细胞多核苷酸的操作、制备、鉴别和/或定量中可以具有广泛用途。多核苷酸的实例包括但不限于:DNA、RNA、扩增子、cDNA、dsDNA、ssDNA、质粒DNA、粘粒DNA、高分子量(MW)DNA、染色体DNA、基因组DNA、病毒DNA、细菌DNA、mtDNA(线粒体DNA)、mRNA、rRNA、tRNA、nRNA、siRNA、snRNA、snoRNA、scaRNA、微RNA、dsRNA、核酶、核糖开关和病毒RNA(例如,逆转录病毒RNA)。
无细胞多核苷酸可以来源于多种来源,包括人、哺乳动物、非人哺乳动物、猿、猴、黑猩猩、爬行类动物、两栖动物或禽类来源。此外,样品可以提取自多种包含无细胞序列的动物流体,包括但不限于血液、血清、血浆、玻璃质、痰、尿液、泪液、汗液、唾液、精液、粘膜分泌物、粘液、脊髓液、羊水、淋巴液等。无细胞多核苷酸可以是胎儿来源的(通过取自妊娠受试者的流体),或可以得自受试者自身的组织。
无细胞多核苷酸的分离和提取可以通过使用多种技术采集体液进行。在一些情况中,采集可以包括使用注射器从受试者抽吸体液。在其它情况中,采集可以包括移液或直接采集流体到采集容器中。
在采集体液后,可以使用本领域已知的多种技术分离和提取无细胞多核苷酸。在一些情况中,可以使用商业可得试剂盒例如Qiagen
Figure BDA0002233324790000731
Circulating Nucleic AcidKit规程分离、提取和制备无细胞DNA。在其它实例中,可以使用Qiagen QubitTM dsDNA HSAssay试剂盒规程、AgilentTM DNA 1000试剂盒或TruSeqTM Sequencing LibraryPreparation;Low-Throughput(LT)规程。
一般地,通过分割步骤(partitioning step)从体液中提取和分离无细胞多核苷酸,在该分割步骤中,如在溶液中发现的无细胞DNA与细胞和体液的其它不可溶组分分离。分割可以包括但不限于诸如离心或过滤的技术。在其它情况中,细胞并非首先与无细胞DNA分割,而是经裂解。在该实例中,完整细胞的基因组DNA通过选择性沉淀来分割。包括DNA在内的无细胞多核苷酸可以保持可溶性并可以与不可溶性基因组DNA分离并提取。通常,在添加不同试剂盒特定的缓冲液和其它洗涤步骤后,可以使用异丙醇沉淀来沉淀DNA。可以使用进一步的清洁步骤例如基于二氧化硅的柱以去除污染物或盐。可以针对特定应用优化一般步骤。例如,可以贯穿反应添加非特异性批量(bulk)载体多核苷酸以优化该程序的特定方面例如收率。
无细胞DNA的分离和纯化可以使用任意手段实现,所述手段包括但不限于使用由例如Sigma Aldrich、Life Technologies、Promega、Affymetrix、IBI等公司提供的商业试剂盒和规程。试剂盒和规程还可以是非商业可得的。
在分离后,在一些情况中,无细胞多核苷酸在测序前与一种或多种附加材料例如一种或多种试剂(例如,连接酶、蛋白酶、聚合酶)预混合。
一种提高转化效率的方法涉及使用针对在单链DNA上的最佳反应性而工程构建的连接酶,例如ThermoPhage ssDNA连接酶衍生物。此类连接酶绕过文库制备中末端修复和A加尾的传统步骤——该步骤由于中间清洁步骤而可能具有较差的效率和/或累积的损失,并使得有义或反义起始多核苷酸转化为适当地标记的多核苷酸的概率加倍。其还可以转化可具有突出端的双链多核苷酸,该突出端可能无法通过典型的末端修复反应充分地平端化。此ssDNA反应的最佳反应条件是:1x反应缓冲液(50mM MOPS(pH 7.5),1mM DTT,5mMMgCl2,10mM KCl)。50mM ATP、25mg/ml BSA、2.5mM MnCl2、200pmol 85nt ssDNA寡聚物和5UssDNA连接酶在65℃下温育1小时。使用PCR的后续扩增可进一步将标记的单链文库转化为双链文库并产生远高于20%的总转化效率。将转化率提高至例如大于10%的其它方法包括例如单独的或组合的下列中的任意方法:退火优化的分子倒位探针、具有良好控制的多核苷酸大小范围的平端连接、粘端连接或者使用或不使用融合引物的预先(upfront)多重扩增步骤。
B.无细胞多核苷酸的分子条形码编码
本发明的系统和方法还可以使无细胞多核苷酸能够被标记或追踪以允许随后对特定多核苷酸的鉴别和起源确定。这一特征与使用合并的或多重的反应且仅提供作为多个样品的平均值的测量或分析的其它方法不同。在此,将标识符分配至多核苷酸的个体或亚组可以允许将独特的身份(identity)分配给单个序列或序列的片段。这可以允许从单个样品获取数据而不限于样品的平均值。
在一些实例中,来源于同一链的核酸或其它分子可以共享共同的标签或标识符并因此可以随后被鉴别为来源于该链。类似地,来自核酸的同一链的所有片段可以用相同的标识符或标签来标记,由此允许随后鉴别来自该亲本链的片段。在其它情况中,可以标记基因表达产物(例如,mRNA)以对表达进行定量,借此可以对条形码或对条形码与其所附接的序列的组合进行计数。在又另一些情况中,可以使用该系统和方法作为PCR扩增控制。在此类情况中,得自PCR反应的多个扩增产物可以用相同的标签或标识符进行标记。如果该产物随后被测序并证明有序列差异,则在具有相同标识符的产物之间的差异可归因于PCR错误。
另外,可以基于阅读值的序列数据自身的特征鉴别单个序列。例如,在单个测序阅读值的开始(起始)和结束(终止)部分的独特序列数据的检测可以单独地使用,或与各个序列阅读值独特序列的长度或碱基对数目相组合地使用,以将独特的身份分配给单个分子。来自已经分配了独特身份的核酸同一链的片段可以由此允许随后鉴别来自该亲本链的片段。这可以与瓶颈化初始起始遗传材料一起使用以限制多样性。
此外,使用在单个测序阅读值的开始(起始)和结束(终止)部分的独特序列数据和测序阅读值长度可以单独地使用或与条形码的使用相组合地使用。在一些情况中,条形码可以如本文所述是独特的。在另一些情况中,条形码自身可以不是独特的。在此情况中,非独特条形码与在单个测序阅读值的开始(起始)和结束(终止)部分的序列数据以及测序阅读值长度相组合的使用,可以允许将独特的身份分配给单个序列。类似地,来自已经分配了独特身份的核酸单链的片段可以由此允许随后鉴别来自亲本链的片段。
通常,本文提供的方法和系统对于准备无细胞多核苷酸序列以用于下游应用测序反应是有用的。通常,测序方法是经典的Sanger测序。测序方法可以包括但不限于:高通量测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Digital Gene Expression)(Helicos)、新一代测序、单分子合成测序(Single Molecule Sequencing by Synthesis)(SMSS)(Helicos)、大规模并行测序、克隆单分子阵列(Clonal Single Molecule Array)(Solexa)、鸟枪法测序、Maxim-Gilbert测序、引物步移法和本领域中已知的任何其它测序方法。
C.向无细胞多核苷酸序列分配条形码
本文公开的系统和方法可用于涉及将独特或非独特标识符或分子条形码分配至无细胞多核苷酸的应用。通常,标识符是用于标记多核苷酸的条形码寡核苷酸;但在一些情况中,使用不同的独特标识符。例如,在一些情况中,独特标识符是杂交探针。在其它情况中,独特标识符是染料,在此情况中,附接可以包括染料嵌入到分析物分子中(例如嵌入到DNA或RNA中)或结合至用染料标记的探针。在又一些其它情况中,该独特标识符可以是核酸寡核苷酸,在此情况中,与多核苷酸序列的附接可以包括在寡核苷酸和序列之间的连接反应或通过PCR的并入。在其它情况中,该反应可以包括金属同位素直接向分析物的添加或通过用同位素标记的探针的添加。通常,在本发明的反应中独特或非独特标识符或分子条形码的分配可以依循由例如美国专利申请20010053519、20030152490、20110160078和美国专利US 6,582,908所述的方法和系统。
通常,该方法包括通过包括但不限于连接反应的酶反应将寡核苷酸条形码附接至核酸分析物。例如,连接酶可以将DNA条形码共价附接到片段化的DNA(例如,高分子量DNA)。在条形码附接后,分子可以进行测序反应。
但是,也可以使用其它反应。例如,可以在DNA模板分析物的扩增反应(例如,PCR、qPCR、逆转录酶PCR、数字PCR等)中使用包含条形码序列的寡核苷酸引物,由此产生标记的分析物。在将条形码分配给单个无细胞多核苷酸序列后,可以对分子的集合体进行测序。
在一些情况中,PCR可以用于无细胞多核苷酸序列的全局扩增。这可以包括使用衔接子序列,该衔接子序列可以首先连接至不同的分子,然后使用通用引物进行PCR扩增。用于测序的PCR可以使用任何手段进行,该手段包括但不限于使用由Nugen(WGA试剂盒)、LifeTechnologies、Affymetrix、Promega、Qiagen等提供的商业试剂盒。在其它情况中,可以仅扩增在无细胞多核苷酸分子群体中的特定靶分子。特定的引物,可以与衔接子连接一起,可以用于选择性扩增用于下游测序的特定靶标。
可以将独特标识符(例如,寡核苷酸条形码、抗体、探针等)随机地或非随机地引入至无细胞多核苷酸序列。在一些情况中,它们以独特标识符比微孔的预期比值引入。例如,可以加载独特标识符以使每个基因组样品加载超过大约1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000或1,000,000,000个独特标识符。在一些情况中,可以加载独特标识符以使每个基因组样品加载少于大约2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000或1,000,000,000个独特标识符。在一些情况中,每个样品基因组加载的独特标识符的平均数为每个基因组样品小于或大于大约1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000或1,000,000,000个独特标识符。
在一些情况中,独特标识符可以是多种长度,使得各个条形码是至少大约1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000个碱基对。在其它情况中,条形码可以包含少于1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000个碱基对。
在一些情况中,独特标识符可以是预确定的或随机的或半随机的序列寡核苷酸。在其它情况中,可以使用多个条形码以使条形码在所述多个条形码中相对于彼此不一定是独特的。在此实例中,条形码可以连接至单个分子,使得条形码和其可以连接的序列的组合产生可以单独追踪的独特序列。如本文所述,非独特条形码的检测与测序阅读值的开始(起始)和结束(终止)部分的序列数据相组合可以允许将独特身份分配给特定分子。单个序列阅读值的长度或碱基对数目还可以用于将独特身份分配给这样的分子。如本文所述,来自已经分配了独特身份的核酸的同一链的片段可以由此允许随后鉴别来自该亲本链的片段。以此方法,样品中的多核苷酸可以独特地或基本独特地得到标记。
独特标识符可以用于标记宽范围的分析物,包括但不限于RNA或DNA分子。例如,独特标识符(例如,条形码寡核苷酸)可以附接至核酸的整条链或附接至核酸的片段(例如,片段化的基因组DNA、片段化的RNA)。独特标识符(例如,寡核苷酸)还可以结合至基因表达产物、基因组DNA、线粒体DNA、RNA、mRNA等。
在许多应用中,确定单个无细胞多核苷酸序列是否各自接受不同的独特标识符(例如,寡核苷酸条形码)可能是重要的。如果引入系统和方法的独特标识符群体不是显著不同的,则可以用相同的标识符标记不同的分析物。在本文中公开的系统和方法可以使得能够检测用相同标识符标记的无细胞多核苷酸序列。在一些情况中,参考序列可以与待分析的无细胞多核苷酸序列群体一同包含在内。参考序列可以是例如具有已知序列和已知量的核酸。如果独特标识符是寡核苷酸条形码且分析物是核酸,则可以随后对标记的分析物进行测序和定量。这些方法可以指示是否一个或多个片段和/或分析物可能已经分配有相同的条形码。
在本文中公开的方法可以包括使用对于将条形码分配给分析物来说所必需的试剂。在连接反应的情况中,可以将包括但不限于连接酶、缓冲液、衔接子寡核苷酸、多个独特标识符DNA条形码等的试剂加载到系统和方法中。在富集的情况中,包括但不限于多个PCR引物、包含独特的标识序列的寡核苷酸、或条形码序列、DNA聚合酶、DNTP和缓冲液等的试剂可以在测序准备中使用。
通常,本发明的方法和系统可在使用分子条形码对分子或分析物进行计数时采用美国专利US 7,537,897的方法。
在包含来自多个基因组的片段化基因组DNA例如无细胞DNA(cfDNA)的样品中,存在一定的如下可能性:来自不同的基因组的多于一个多核苷酸具有相同的起始和终止位置(“复制物”或“同源物”)。在任意位置开始的复制物的可能数目是样品中单倍体基因组当量的数目和片段大小的分布的函数。例如,cfDNA具有大约160个核苷酸的片段峰,且在此峰中的大部分片段为大约140个核苷酸至180个核苷酸。因此,来自具有大约30亿个碱基的基因组(例如,人类基因组)的cfDNA可以包含几乎2千万(2x107)个多核苷酸片段。具有大约30ngDNA的样品可以包含大约10,000个单倍体人基因组当量。(类似地,具有大约100ng的DNA的样品可以包含大约30,000个单倍体人基因组当量。)包含大约10,000(104)个单倍体基因组当量的此DNA的样品可以具有大约2000亿(2x1011)个单个多核苷酸分子。已经根据经验确定,在具有大约10,000个单倍体基因组当量的人DNA的样品中,在任意给定位置开始存在大约3个复制多核苷酸。因此,这样的收集可包含大约6x1010至8x1010(大约600亿至800亿,例如,大约700亿(7x1010))个序列不同的多核苷酸分子的多样性。
正确鉴别分子的可能性取决于基因组当量的初始数目、所测序的分子的长度分布、序列均一性和标签的数目。当标签计数等于1时,即等同于不具有独特的标签或未标记。下表列出了假定有如上的典型无细胞大小分布,正确地将分子鉴别为独特的概率。
标签计数 正确地独特鉴别的标签%
1000个人单倍体基因组当量
1 96.9643
4 99.2290
9 99.6539
16 99.8064
25 99.8741
100 99.9685
3000个人单倍体基因组当量
1 91.7233
4 97.8178
9 99.0198
16 99.4424
25 99.6412
100 99.9107
在此情况中,经对基因组DNA进行测序,也许不能确定哪些序列阅读值来自哪些亲本分子。这个问题可以通过以下方式来消除:用足够数目的独特标识符标记亲本分子(例如,标签计数),使得存在两个复制分子(即,具有相同起始和终止位置的分子)带有不同的独特标识符的可能性,以使序列阅读值可追溯至特定的亲本分子。此问题的一个解决方法就是独特地标记样品中的每一个或几乎每一个不同的亲本分子。但是,取决于单倍体基因当量的数目和样品中的片段大小的分布,这可能需要数十亿不同的独特标识符。
此方法可能是繁琐和昂贵的。本发明提供了其中用n个不同的独特标识符标记在片段化基因组DNA的样品中的多核苷酸群体的方法和组合物,其中n至少为2且不大于100,000*z,其中z是具有相同起始和终止位置的复制分子的预期数目的居中趋势度量(例如,平均值、中值、众数)。在特定的实施方案中,n至少是2*z、3*z、4*z、5*z、6*z、7*z、8*z、9*z、10*z、11*z、12*z、13*z、14*z、15*z、16*z、17*z、18*z、19*z或20*z中的任一个(例如,下限)。在另一些实施方案中,n不大于100,000*z、10,000*z、1000*z或100*z(例如,上限)。因此,n的范围可以在这些下限和上限的任意组合之间。在特定的实施方案中,n在5*z和15*z之间、8*z和12*z之间或为大约10*z。例如,单倍体人基因组当量具有大约3皮克的DNA。具有大约1微克的DNA的样品包含大约300,000个单倍体人基因组当量。数字n可以为15-45、24-36或大约30。只要至少部分的复制或同源多核苷酸带有独特标识符,即带有不同的标签,就可以实现测序的改进。但是,在特定的实施方案中,选择所用的标签的数目,以使所有在任意一个位置起始的复制分子带有独特标识符的机会至少为95%。例如,包含大约10,000个单倍体人基因组当量的cfDNA的样品可以用大约36个独特标识符标记。该独特标识符可以包含6个独特DNA条形码。通过将它们附接到多核苷酸的两端,产生了36个可能的独特标识符。以此方式标记的样品可以是这样的样品:其具有范围为大约10ng至大约100ng、大约1μg、大约10μg中的任一个的片段化多核苷酸,例如基因组DNA,例如cfDNA。
因此,本发明还提供了标记的多核苷酸的组合物。该多核苷酸可以包含片段化的DNA,例如cfDNA。定位至基因组中的可定位碱基位置的组合物中的一组多核苷酸可以被非独特地标记,即不同标识符的数目可以是至少2且小于定位至可定位碱基位置的多核苷酸的数目。大约10ng至大约10μg(例如,大约10ng-1μg、大约10ng-100ng、大约100ng-10μg、大约100ng-1μg、大约1μg-10μg中的任一个)的组合物可以带有2、5、10、50或100中的任一个至100、1000、10,000或100,000中的任一个的不同标识符。例如,5至100个不同的标识符可以用于标记此组合物中的多核苷酸。
III.核酸测序平台
在从体液提取和分离无细胞多核苷酸后,可以对无细胞序列进行测序。通常,测序方法是经典的Sanger测序。测序方法可以包括但不限于:高通量测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Digital Gene Expression)(Helicos)、新一代测序、单分子合成测序(SMSS)(Helicos)、大规模并行测序、克隆单分子阵列(Solexa)、鸟枪法测序、Maxim-Gilbert测序、引物步移法、使用PacBio、SOLiD、Ion Torrent或纳米孔(Nanopore)平台的测序和本领域中已知的任何其它测序方法。
在一些情况下,本文所述的各种类型的测序反应可包含多种样品处理单元。样品处理单元可包括但不限于多个泳道、多个通道、多个孔或基本上同时处理多个样品组的其它装置。另外,样品处理单元可以包含多个样品腔室,以能够同时处理多个运行。
在一些实例中,可以使用多重测序进行同时测序反应。在一些情况下,无细胞多核苷酸可以用至少1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000个测序反应进行测序。在其它情况下,无细胞多聚核苷酸可以用少于1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000个测序反应进行测序。测序反应可以顺序或同时进行。随后的数据分析可以对所有或部分测序反应进行。在一些情况下,数据分析可以对至少1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000个测序反应进行。在其它情况下,数据分析可以对少于1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000个测序反应进行。
在其它实例中,测序反应数可提供不同量的基因组的覆盖度。在一些情况下,基因组的序列覆盖度可以为至少5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%或100%。在其它情况下,基因组的序列覆盖度可以为小于5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%或100%。
在一些实例中,可对可能包含多种不同类型的核酸的无细胞多核苷酸进行测序。核酸可以是多核苷酸或寡核苷酸。核酸包括但不限于单链或双链的DNA或RNA,或RNA/cDNA对。
IV.多核苷酸分析策略
图8是框图,800,示出了用于分析初始遗传材料样品中的多核苷酸的策略。在步骤802中,提供了含有初始遗传材料的样品。该样品可以包含低丰度的靶核酸。例如,来自正常或野生型基因组(例如,种系基因组)的核酸可以在样品中占绝大多数,该样品还包括不超过20%、不超过10%、不超过5%、不超过1%、不超过0.5%或不超过0.1%的来自含有遗传变异的至少一个其它基因组(例如,癌症基因组或胎儿基因组或来自另一个物种的基因组)的核酸。该样品可以包含,例如无细胞核酸或含有核酸的细胞。初始遗传材料可构成不大于100ng的核酸。这可以促进测序或遗传分析过程对原始多核苷酸的适当的过采样。可替代地,可以对样品进行人工加帽或瓶颈化以使核酸的量降低至不大于100ng,或进行选择性富集以仅分析感兴趣的序列。可以修改该样品,以选择性地产生定位至参考序列中一个或多个选定位置中的每一个的分子的序列阅读值。100ng核酸的样品可以含有约30,000个人单倍体基因组当量,即,一起提供人类基因组的30,000倍覆盖度的分子。
在步骤804中,将初始遗传材料转换成一组标记的亲本多核苷酸。标记可包括:将测序标签附接至初始遗传材料中的分子。可以选择测序标签,以使定位至参考序列中的相同位置的所有独特多核苷酸具有独特的标识标签。转换可以在高效率,例如至少50%下进行。
在步骤806中,扩增该组标记的亲本多核苷酸,以产生一组扩增的子代多核苷酸。扩增可以是,例如1000倍扩增。
在步骤808中,对该组扩增的子代多核苷酸进行采样以用于测序。选择采样率,使得产生的序列阅读值既(1)覆盖该组标记的亲本多核苷酸中的目标数目的独特分子,又(2)以目标覆盖倍数(例如,亲本多核苷酸的5至10倍覆盖度)覆盖该组标记的亲本多核苷酸中的独特分子。
在步骤810中,分解该组序列阅读值,以产生对应于独特标记的亲本多核苷酸的一组共有序列。可审查序列阅读值包含在分析中的资格。例如,未能满足质量控制得分的序列阅读值可以从集合体中移除。序列阅读值可被分类成代表由特定独特亲本分子衍生的子代分子的阅读值的家族。例如,扩增的子代多核苷酸的家族可以构成由单个亲本多核苷酸衍生的那些扩增的分子。通过比较家族中的子代的序列,可以推断原始亲本多核苷酸的共有序列。这产生代表标记的集合体中的独特亲本多核苷酸的一组共有序列。
在步骤812中,使用本文所述的任何分析方法对该组共有序列进行分析。例如,可以分析定位至特定参考序列位置的共有序列,以检测遗传变异的情况。可以测量定位至特定参考序列的共有序列并且相对于对照样品进行归一化。定位至参考序列的分子的度量可以在整个基因组上进行比较,以鉴别基因组中拷贝数变化或杂合性丢失的区域。
图9是一个框图,其示出了从由序列阅读值集合呈现的信号中提取信息的更通用的方法。在该方法中,对扩增的子代多核苷酸进行测序之后,将该序列阅读值分组成从独特身份的分子扩增的分子的家族(910)。这种分组可以是用于解读该序列中的信息的方法的起点,以具有较高保真度(例如,较少噪声和/或畸变)地确定标记亲本多核苷酸的含量。
对序列阅读值集合的分析允许人们作出关于产生序列阅读值的亲本多核苷酸群体的推论。此类推论可以是有用的,因为测序一般涉及仅读取整个总扩增的多核苷酸的部分亚组。因此,人们不能确定每一个亲本多核苷酸都将由序列阅读值集合中的至少一个序列阅读值来呈现。
一种这样的推论是在原始集合体中的独特亲本多核苷酸的数目。可以基于序列阅读值可分组成的独特家族的数目和各个家族中的序列阅读值的数目而作出这样的推论。在这种情况下,家族是指可追溯至原始亲本多核苷酸的序列阅读值的集合。该推论可以使用公知的统计方法来作出。例如,如果分组产生多个家族且每个家族由一个或几个子代呈现,那么人们可以推断:原始群体包括更多未测序的独特亲本多核苷酸。另一方面,如果分组仅产生很少的家族且每个家族由许多子代呈现,那么人们可以推断:亲本群体中的大多数独特多核苷酸由分组成该家族的至少一个序列阅读值呈现。
另一种这样的推论是在多核苷酸的原始集合体中的特定基因座处碱基或碱基序列的频率。可以基于序列阅读值可分组成的独特家族的数目和各个家族中的序列阅读值的数目来作出这样的推论。通过分析在序列阅读值家族中的基因座处的碱基判定,将置信得分分配给各个特定碱基判定或序列。继而,考虑在多个家族中的各个碱基判定的置信得分,确定在基因座处的各个碱基或序列的频率。
V.拷贝数变异检测
A.使用单一样品的拷贝数变异检测
图1是框图,100,示出了用于检测单个受试者中的拷贝数变异的策略。如本文所示,拷贝数变异检测方法可以如下实现。在步骤102中的无细胞多核苷酸的提取和分离后,在步骤104中可以通过本领域中已知的核酸测序平台对单个独特的样品进行测序。这一步骤产生多个基因组片段的序列阅读值。在一些情况下,这些序列阅读值可能包含条形码信息。在其它实例中,不采用条形码。测序后,对阅读值分配质量得分。质量得分可以是阅读值的表示,其基于阈值表明这些阅读值是否可用于随后的分析。在一些情况下,一些阅读值不具有足够的质量或长度来执行后续的定位步骤。具有至少90%、95%、99%、99.9%、99.99%或99.999%的质量得分的测序阅读值可以从数据中过滤掉。在其它情况下,分配有小于90%、95%、99%、99.9%、99.99%或99.999%的质量得分的测序阅读值可以从数据集中过滤掉。在步骤106中,将满足规定的质量得分阈值的基因组片段阅读值定位至参考基因组或者已知不包含拷贝数变异的模板序列。定位对准后,对序列阅读值分配定位得分。定位得分可以是定位回参考序列的表示或阅读值,表明各个位置是或者不是独特地可定位的。在一些情况中,阅读值可能是与拷贝数变异分析无关的序列。例如,一些序列阅读值可以来源于污染物多核苷酸。具有至少90%、95%、99%、99.9%、99.99%或99.999%的定位得分的测序阅读值可以从数据集中过滤掉。在其它情况下,分配有小于90%、95%、99%、99.9%、99.99%或99.999%的定位得分的测序阅读值可以从数据集中过滤掉。
数据过滤和定位后,多个序列阅读值产生覆盖的染色体区域。在步骤108中,可以将这些染色体区域分成可变长度的窗口或箱元。窗口或箱元可以是至少5kb、10、kb、25kb、30kb、35kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb或1000kb。窗口或箱元也可以具有多达5kb、10kb、25kb、30kb、35kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb或1000kb的碱基。窗口或箱元也可以是约5kb、10kb、25kb、30kb、35kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb或1000kb。
对于在步骤110中的覆盖度归一化,选择各个窗口或箱元,以包含大约相同数目的可定位碱基。在一些情况下,在染色体区域中的各个窗口或箱元可以含有确切数目的可定位碱基。在其它情况下,各个窗口或箱元可以含有不同数目的可定位碱基。此外,各个窗口或箱元可以与相邻的窗口或箱元不重叠。在其它情况下,窗口或箱元可以与另一相邻的窗口或箱元重叠。在一些情况下,窗口或箱元可重叠至少1bp、2bp、3bp、4bp、5bp、10bp、20bp、25bp、50bp、100bp、200bp、250bp、500bp或1000bp。在其它情况下,窗口或箱元可重叠多达1bp、2bp、3bp、4bp、5bp、10bp、20bp、25bp、50bp、100bp、200bp、250bp、500bp或1000bp。在一些情况下,窗口或箱元可重叠约1bp、2、bp、3bp、4bp、5bp、10bp、20bp、25bp、50bp、100bp、200bp、250bp、500bp或1000bp。
在一些情况下,可设置各个窗口区域的大小,使得它们含有大约相同数目的独特可定位碱基。确定构成窗口区域的各个碱基的可定位性(mappability),并且将其用于产生可定位性文件,该文件包含来自参考的阅读值的呈现,该阅读值被定位回每个文件的参考。该可定位性文件包含一行/每个位置,表明各个位置是否是或者不是独特地可定位的。
此外,在整个基因组中已知难以测序或含有相当高GC偏倚的预定窗口可从数据集中过滤掉。例如,已知落入邻近染色体的着丝粒(即,着丝粒DNA)的区域已知包含可产生假阳性结果的高度重复序列。可过滤掉这些区域。基因组的其它区域,例如含有异常高浓度的其它高度重复序列如微卫星DNA的区域,可以从数据集中过滤掉。
所分析的窗口数也可以不同。在一些情况下,分析至少10、20、30、40、50、100、200、500、1000、2000、5,000、10,000、20,000、50,000或100,000个窗口。在其它情况下,所分析的窗口数为多达10、20、30、40、50、100、200、500、1000、2000、5,000、10,000、20,000、50,000或100,000个窗口。
对于来自无细胞多核苷酸序列的示例性基因组,下一个步骤包括确定各个窗口区域的阅读值覆盖度。这可以使用具有条形码的阅读值或不使用条形码来进行。在不使用条形码的情况下,先前的定位步骤将提供不同碱基位置的覆盖度。可以对具有足够的定位和质量得分并落入未过滤掉的染色体窗口内的序列阅读值进行计数。可按照各个可定位位置给覆盖阅读值的数目分配得分。在涉及条形码的情况下,具有相同条形码、物理性质或二者组合的所有序列可分解成一个阅读值,因为它们都源自样品亲本分子。这个步骤降低了可能在任何前面的步骤中,例如涉及扩增的步骤期间已引入的偏倚。例如,如果一个分子被扩增10倍但另一个被扩增1000倍,则每个分子在分解后仅被呈现一次,从而消除了不均匀扩增的效果。对各个可定位位置可以仅对具有独特条形码的阅读值进行计数并且这些阅读值影响所分配的得分。
可以通过本领域中已知的任何方法从序列阅读值的家族产生共有序列。这样的方法包括,例如,由数字通信理论、信息论或生物信息学衍生的构建共有序列的线性或非线性方法(例如,选举、平均、统计、最大后验概率或最大似然检测、动态编程、贝叶斯、隐马尔可夫或支持向量机方法等)。
在已经确定序列阅读值覆盖度之后,使用随机建模算法将各个窗口区域的归一化的核酸序列阅读值覆盖度转换成离散的拷贝数状态。在一些情况下,这种算法可包括下列中的一个或多个:隐马尔可夫模型、动态编程、支持向量机、贝叶斯网络、网格解码、维特比解码、期望最大化、卡尔曼过滤方法和神经网络。
在步骤112中,各个窗口区域的离散拷贝数状态可以用于鉴别在染色体区域中的拷贝数变异。在一些情况下,具有相同拷贝数的所有相邻窗口区域可以合并成一个区段,以报告拷贝数变异状态的存在与否。在一些情况下,各个窗口可以在它们与其它区段合并前被过滤。
在步骤114中,拷贝数变异可以报告为图表,指示基因组中的各个位置以及在各个相应位置处拷贝数变异的相应增加或减少或维持。另外,拷贝数变异可用于报告百分比得分,表明在无细胞多核苷酸样品中存在多少疾病材料(或具有拷贝数变异的核酸)。
一种确定拷贝数变异的方法示于图10中。在该方法中,将序列阅读值分组成由单一亲本多核苷酸产生的家族(1010)后,例如通过确定定位至多个不同参考序列位置中的每一个的家族的数目来对家族进行定量。可直接通过比较在多个不同基因座中的每一个处的家族的定量度量来确定CNV(1016b)。可替代地,人们可以使用家族的定量度量和各个家族中的家族成员的定量度量,例如如上所讨论的,来推断在标记的亲本多核苷酸群体中的家族的定量度量。然后,可以通过比较在多个基因座处的量的推断度量来确定CNV。在其它实施方案中,可以采取混合方法,借此可以在测序过程中的呈现偏倚如GC偏倚等的归一化后进行原始量的类似推断。
B.使用成对样品的拷贝数变异检测
成对样品拷贝数变异检测与本文所述的单样品方法共有多个步骤和参数。然而,如图2的200中所示,使用成对样品的拷贝数变异检测需要将序列覆盖度与对照样品进行比较,而非将其与基因组的预期的可定位性相比较。这种方法可有助于在整个窗口上的归一化。
图2是框图,200,示出了一种用于检测成对受试者中的拷贝数变异的策略。如本文所示,拷贝数变异检测方法可以如下实现。在步骤204中,在步骤202中的样品的提取和分离后,单个独特样品可通过本领域中已知的核酸测序平台进行测序。这一步骤生成多个基因组片段序列阅读值。此外,从另一个受试者中采集样品或对照样品。在一些情况下,对照受试者可以是已知未患有疾病的受试者,而其他受试者可以患有特定疾病或处于患该疾病的风险中。在一些情况下,这些序列阅读值可包含条形码信息。在其它实例中,不采用条形码。测序后,对阅读值分配质量得分。在一些情况下,一些阅读值不具有足够的质量或长度来执行后续的定位步骤。具有至少90%、95%、99%、99.9%、99.99%或99.999%的质量得分的测序阅读值可以从数据集中过滤掉。在其它情况下,分配有小于90%、95%、99%、99.9%、99.99%或99.999%的质量得分的测序阅读值可以从数据集中过滤掉。在步骤206中,将满足规定的质量得分阈值的基因组片段阅读值定位至参考基因组或者已知不包含拷贝数变异的模板序列。定位对准后,对序列阅读值分配定位得分。在一些实例中,阅读值可以是与拷贝数变异分析无关的序列。例如,一些序列阅读值可以来源于污染物多核苷酸。具有至少90%、95%、99%、99.9%、99.99%或99.999%的定位得分的测序阅读值可以从数据集中过滤掉。在其它情况下,分配有小于90%、95%、99%、99.9%、99.99%或99.999%的定位得分的测序阅读值可以从数据集中过滤掉。
数据过滤和定位后,多个序列阅读值产生针对各个测试和对照受试者的覆盖的染色体区域。在步骤208中,这些染色体区域可以分成可变长度的窗口或箱元。窗口或箱元可以是至少5kb、10kb、25kb、30kb、35kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb或1000kb。窗口或箱元也可以小于5kb、10kb、25kb、30kb、35kb、40kb、50kb、60kb、75kb、100kb、150kb、200kb、500kb或1000kb。
对于在步骤210中的覆盖度归一化,针对各个测试或对照受试者,选择各个窗口或箱元,以包含大约相同数目的可定位碱基。在一些情况下,在染色体区域中的各个窗口或箱元可以含有确切数目的可定位碱基。在其它情况下,各个窗口或箱元可以含有不同数目的可定位碱基。此外,各个窗口或箱元可以与相邻窗口或箱元不重叠。在其它情况下,窗口或箱元可与另一相邻窗口或箱元重叠。在一些情况下,窗口或箱元可重叠至少1bp、2、bp、3bp、4bp、5bp、10bp、20bp、25bp、50bp、100bp、200bp、250bp、500bp或1000bp。在其它情况下,窗口或箱元可重叠小于1bp、2、bp、3bp、4bp、5bp、10bp、20bp、25bp、50bp、100bp、200bp、250bp、500bp或1000bp。
在一些情况下,针对各个测试和对照受试者,设置各个窗口区域的大小,使得它们包含大约相同数目的独特地可定位的碱基。确定构成窗口区域的各个碱基的可定位性,并且将其用于产生可定位性文件,该文件包含来自参考的阅读值的呈现,该阅读值被定位回每个文件的参考。该可定位性文件包含一行/每个位置,表明各个位置是否是或者不是独特地可定位的。
此外,在整个基因组中已知难以测序或含有相当高GC偏倚的预定义窗口可从数据集中过滤掉。例如,已知落入邻近染色体的着丝粒(即,着丝粒DNA)的区域已知包含可产生假阳性结果的高度重复序列。可过滤掉这些区域。基因组的其它区域,例如含有异常高浓度的其它高度重复序列如微卫星DNA的区域,可以从数据集中过滤掉。
所分析的窗口数目也可以变化。在一些情况下,分析至少10、20、30、40、50、100、200、500、1000、2000、5,000、10,000、20,000、50,000或100,000个窗口。在另一些情况下,分析少于10、20、30、40、50、100、200、500、1000、2000、5,000、10,000、20,000、50,000或100,000个窗口。
对于源自无细胞多核苷酸序列的示例性基因组,下一个步骤包括针对各个测试和对照受试者确定各个窗口区域的阅读值覆盖度。这可以使用具有条形码的阅读值或不使用条形码来进行。在不使用条形码的情况下,先前的定位步骤将提供不同碱基位置的覆盖度。可以对具有足够的定位和质量得分并落入未过滤掉的染色体窗口内的序列阅读值进行计数。可按照各个可定位位置对覆盖阅读值的数目分配得分。在涉及条形码的情况下,具有相同条形码的所有序列可分解成一个阅读值,因为它们都源自样品亲本分子。这个步骤降低了可能在任何前面的步骤,例如涉及扩增的步骤期间已引入的偏倚。对各个可定位位置可以仅对具有独特条形码的阅读值进行计数并且其影响所分配的得分。出于这个原因,条形码连接步骤以为了产生最低量的偏倚而优化的方式来进行是重要的。
在确定各个窗口的核酸阅读值覆盖度时,各个窗口的覆盖度可以用该样品的平均覆盖度进行归一化。使用这样的方法,可能期望在类似条件下对测试受试者和对照进行测序。各个窗口的阅读值覆盖度于是可以表示为类似窗口中的比值。
可以通过将测试样品的各个窗口区域的阅读值覆盖度除以对照样品的相应窗口区域的阅读值覆盖度,来确定测试受试者的各个窗口的核酸阅读值覆盖度比值。
在已经确定序列阅读值覆盖度比值之后,使用随机建模算法将各个窗口区域的归一化比值转换成离散的拷贝数状态。在一些情况下,这种算法可包括隐马尔可夫模型。在其它情况下,该随机模型可包括动态编程、支持向量机、贝叶斯建模、概率建模、网格解码、维特比解码、期望最大化、卡尔曼过滤方法和神经网络。
在步骤212中,可以采用各个窗口区域的离散拷贝数状态来鉴别在染色体区域中的拷贝数变异。在一些情况下,具有相同拷贝数的所有相邻窗口区域可以合并成一个区段,以报告拷贝数变异状态的存在与否。在一些情况下,各个窗口可以在它们与其它区段合并前被过滤。
在步骤214中,拷贝数变异可以报告为图表,指示基因组中的各个位置以及在各个相应位置处拷贝数变异的相应增加或减少或维持。另外,拷贝数变异可用于报告百分比得分,表明在无细胞多核苷酸样品中存在多少疾病材料。
VI.稀有突变的检测
稀有突变检测与两种拷贝数变异方法共有类似的特征。然而,如图3中的300所示,稀有突变检测采用序列覆盖度与对照样品或参考序列的比较,而非将其与基因组的相对可定位性相比较。这种方法可有助于在整个窗口上的归一化。
通常,稀有突变检测可以在步骤302中纯化和分离的基因组或转录组的选择性富集区域上进行。如本文所述,可从无细胞多核苷酸的总群体中选择性地扩增特定区域,该特定区域可以包括但不限于:基因、癌基因、肿瘤抑制基因、启动子、调节序列元件、非编码区、miRNA、snRNA等。这可如本文所述来进行。在一个实例中,在使用或不使用针对单个多核苷酸序列的条形码标记物下,可以使用多重测序。在其它实例中,可以使用本领域中已知的任何核酸测序平台进行测序。这一步骤生成多个基因组片段序列阅读值,如在步骤304中所示。另外,从取自另一个受试者的对照样品获得参考序列。在一些情况下,对照受试者可以是已知不具有已知遗传异常或疾病的受试者。在一些情况下,这些序列阅读值可包含条形码信息。在其它实例中,不采用条形码。测序后,对阅读值分配质量得分。质量得分可以是阅读值的表示,其表明这些阅读值是否可基于阈值而用于随后的分析。在一些情况下,一些阅读值不具有足够的质量或长度来执行后续的定位步骤。具有至少90%、95%、99%、99.9%、99.99%或99.999%的质量得分的测序阅读值可以从数据集中过滤掉。在其它情况下,分配有至少90%、95%、99%、99.9%、99.99%或99.999%的质量得分的测序阅读值可以从数据集中过滤掉。在步骤306中,将满足规定的质量得分阈值的基因组片段阅读值定位至已知不包含稀有突变的参考基因组或者参考序列。定位对准后,对序列阅读值分配定位得分。定位得分可以是定位回参考序列的表示或阅读值,表明各个位置是否是或不是独特地可定位的。在一些实例中,阅读值可以是与稀有突变分析无关的序列。例如,一些序列阅读值可以来源于污染物多核苷酸。具有至少90%、95%、99%、99.9%、99.99%或99.999%的定位得分的测序阅读值可以从数据集中过滤掉。在其它情况下,分配有小于90%、95%、99%、99.9%、99.99%或99.999%的定位得分的测序阅读值可以从数据集中过滤掉。
对于各个可定位的碱基,未满足可定位性的最小阈值的碱基或低质量碱基可以被替换为如在参考序列中发现的相应碱基。
数据过滤和定位之后,分析了在从受试者获得的序列阅读值与参考序列之间发现的变异碱基。
对于由无细胞多核苷酸序列得到的示例性基因组,下一个步骤包括针对各个可定位碱基位置确定阅读值覆盖度。这可以使用具有条形码的阅读值或者不使用条形码来执行。在不使用条形码的情况下,先前的定位步骤将提供不同碱基位置的覆盖度。可以对具有足够的定位和质量得分的序列阅读值进行计数。可按照各个可定位位置对覆盖阅读值的数目分配得分。在涉及条形码的情况下,具有相同条形码的所有序列可分解成一个共有阅读值,因为它们都源自样品亲本分子。将针对各个碱基的序列对准为该特定位置的最主要的核苷酸阅读值。而且,可以在各个位置对独特分子的数目进行计数,以获得在各个位置的同时定量。这个步骤降低了可能在任何前面的步骤,例如涉及扩增的步骤期间已引入的偏倚。对各个可定位位置可以仅对具有独特条形码的阅读值进行计数并且这些阅读值影响所分配的得分。
一旦可以确定阅读值覆盖度并鉴别了在各个阅读值中相对于对照序列的变异碱基,就可以通过将含有变异体的阅读值的数目除以阅读值的总数来计算变异碱基的频率。这可以表示为在基因组中的各个可定位位置的比值。
对于各个碱基位置,所有四种核苷酸即胞嘧啶、鸟嘌呤、胸腺嘧啶、腺嘌呤的频率在与参考序列的比较下进行分析。使用随机或统计建模算法转换各个可定位位置的归一化比值,以反映各个碱基变异体的频率状态。在一些情况下,该算法可包括下列中的一个或多个:隐马尔可夫模型、动态编程、支持向量机、贝叶斯或概率建模、网格解码、维特比解码、期望最大化、卡尔曼过滤方法和神经网络。
在步骤312中,可以采用各个碱基位置的离散稀有突变状态来鉴别与参考序列的基线相比具有高变异频率的碱基变异体。在一些情况下,基线可能表示至少0.0001%、0.001%、0.01%、0.1%、1.0%、2.0%、3.0%、4.0%、5.0%、10%或25%的频率。在其它情况下,基线可能表示至少0.0001%、0.001%、0.01%、0.1%、1.0%、2.0%、3.0%、4.0%、5.0%、10%或25%的频率。在一些情况下,具有碱基变异体或突变的所有相邻碱基位置可合并成一个区段,以报告稀有突变的存在与否。在一些情况下,各个位置可以在它们与其它区段合并前被过滤。
在计算各个碱基位置的变异频率后,来自受试者的序列中的特定位置与参考序列相比具有最大偏倚的变异体被鉴别为稀有突变。在一些情况下,稀有突变可以是癌症突变。在另一些情况下,稀有突变可能与疾病状态相关。
稀有突变或变异体可包含遗传异常,该遗传异常包括但不限于:单碱基置换或小插入缺失、颠换、易位、倒位、缺失、截短或基因截短。在一些情况下,稀有突变可以是至多1、2、3、4、5、6、7、8、9、10、15或20个核苷酸的长度。在其它情况下,稀有突变可以是至少1、2、3、4、5、6、7、8、9、10、15或20个核苷酸的长度。
在步骤314中,突变的存在与否可以以图形形式反映,指示基因组中的多个位置和在各个相应位置上的突变频率的相应增加或降低或维持。此外,稀有突变可用于报告百分比得分,表明在无细胞多核苷酸样品中存在多少疾病材料。鉴于在非疾病参考序列中报告的位置处的典型变异的统计数据已知,置信得分可以伴随各个检测到的突变。突变还可以按照在受试者中的丰度的顺序排序或按照临床可发挥作用的(actionable)重要性排序。
图11示出了一种推断多核苷酸群体中在特定基因座处的碱基或碱基序列的频率的方法。将序列阅读值分组成由原始标记的多核苷酸生成的家族(1110)。对于各个家族,给基因座处的一个或多个碱基各自分配置信得分。置信得分可通过多种已知统计方法中的任何方法来分配,并且可以至少部分地基于在属于该家族的序列阅读值中出现碱基的频率(1112)。例如,该置信得分可以是在序列阅读值中出现碱基的频率。作为另一个实例,对于各个家族,可建立隐马尔可夫模型,使得可以基于单个家族中的特定碱基的频率或发生率来作出最大似然或最大后验概率决定。作为该模型的一部分,也可以输出特定决定的误差概率和所得的置信得分。碱基在原始群体中的频率继而可以基于家族之间的置信得分来分配(1114)。
VII.应用
A.癌症的早期检测
使用本文所述的方法和系统可检测多种癌症。癌细胞,如大部分细胞一样,其特征可以是更新率,其中旧细胞死亡并被较新的细胞所取代。通常,与给定受试者中的脉管系统相接触的死细胞可将DNA或DNA片段释放至血流中。在疾病不同阶段中的癌细胞也是如此。根据疾病的阶段,癌细胞的特征还可以是各种遗传异常,如拷贝数变异以及稀有突变。这种现象可以用于使用本文所述的方法和系统检测癌症个体的存在与否。
例如,可以从具有患癌风险的受试者抽取血液并如本文所述制备以产生无细胞多核苷酸群体。在一个实例中,这可以是无细胞的DNA。本发明的系统和方法可用于检测可存在于某些现有癌症中的稀有突变或拷贝数变异。该方法可以帮助检测体内癌细胞的存在,即使不存在疾病的症状或其它标志。
可检测到的癌症的类型和数目可包括但不限于:血癌、脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、实体肿瘤、异质肿瘤、均质肿瘤等。
在癌症的早期检测中,可使用本文所述的任何系统或方法(包括稀有突变检测或拷贝数变异检测)来检测癌症。这些系统和方法可用于检测任何数目的可能导致或起因于癌症的遗传异常。这些可包括但不限于:突变、稀有突变、插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常变化、外遗传模式的异常变化、核酸甲基化的异常变化、感染和癌症。
此外,本文所述的系统和方法还可以用于帮助表征某些癌症。从本发明的系统和方法产生的遗传数据可以帮助执业医生更好地表征癌症的具体形式。很多时候,癌症在组成和分期上是异质的。遗传谱数据可以允许表征癌症的具体亚型,该表征在该具体亚型的诊断或治疗中可能是重要的。此信息还可以向受试者或执业医生提供关于癌症具体类型的预后的线索。
B.癌症的监测和预后
本文提供的系统和方法可用于监测特定受试者中已知的癌症或其它疾病。这可以允许受试者或执业医生根据疾病的进展调整治疗选项。在该实例中,本文所述的系统和方法可用于构建疾病进程中特定受试者的遗传谱。在一些情况下,癌症可以进展,成为更具侵袭性和遗传学上不稳定性。在其它实例中,癌症可以保持为良性的、非活动的、休眠的或缓解的。本发明的系统和方法可用于确定疾病进展、缓解或复发。
此外,本文所述的系统和方法可用于确定特定治疗选项的功效。在一个实例中,如果治疗成功,则成功的治疗选项可实际上增加在受试者血液中检测到的拷贝数变异或稀有突变的量,因为癌可能死亡并释放DNA。在其它实例中,这可能不会发生。在另一个实例中,也许某些治疗选项可能与癌症随时间推移的遗传谱相关联。这种相关性可用于选择疗法。此外,如果观察到癌症在治疗后缓解,则本文所述的系统和方法可用于监测残留疾病或疾病的复发。
例如,在以阈值水平开始的频率范围内发生的突变可从来自受试者例如患者的样品中的DNA来确定。该突变可以是,例如癌症相关的突变。该频率的范围可以是从例如至少0.1%、至少1%或至少5%至100%。所述样品可以是,例如无细胞的DNA或肿瘤样品。可以基于在该频率范围内发生的任何或全部突变,包括例如它们的频率,开出疗程。可在任何后续时间从受试者采集样品。可以确定在原始频率范围内或不同频率范围内发生的突变。疗程可基于后续测量来调整。
C.其它疾病或疾病状态的早期检测和监测
本文所述的方法和系统可以不限于仅与癌症相关的稀有突变和拷贝数变异的检测。各种其它疾病和感染可导致其它类型的可适合早期检测和监测的状况。例如,在某些情况下,遗传性病症或传染性疾病可在受试者中导致某些遗传镶嵌(genetic mosaicism)。这种遗传镶嵌可导致可观察到的拷贝数变异和稀有突变。在另一实例中,本发明的系统和方法也可用于监测体内免疫细胞的基因组。免疫细胞,如B细胞,当存在某些疾病时可经历快速克隆扩增。使用拷贝数变异检测可监测克隆扩增并可监测某些免疫状态。在本实例中,拷贝数变异分析可随时间推移而进行,以产生特定疾病可能如何进展的谱。
此外,本发明的系统和方法还可以用于监测自身的系统性感染,其可以由病原体诸如细菌或病毒引起。拷贝数变异乃至稀有突变的检测可用于确定病原体群体在感染过程中是如何变化的。这在慢性感染如HIV/AIDS或肝炎感染中可能特别重要,由此病毒可在感染过程中改变生命周期状态和/或突变成毒力更强的形式。
可以使用本发明的系统和方法的又一个实例是移植受试者的监测。通常,移植组织在移植后经历一定程度的身体排斥。当免疫细胞试图破坏移植组织时,本发明的方法可以用于确定或概况分析宿主体的排斥活动。这可用于监测移植组织的状态以及改变排斥的治疗或预防过程。
此外,本发明的方法可用于表征受试者的异常状况的异质性,所述方法包括产生受试者中的细胞外多核苷酸的遗传谱,其中该遗传谱包含由拷贝数变异和稀有突变分析得到的多个数据。在一些情况下,包括但不限于癌症,疾病可以是异质的。疾病细胞可能不相同。在癌症的实例中,一些肿瘤已知包含不同类型的肿瘤细胞、在癌症不同阶段的一些细胞。在其它实例中,异质性可以包括疾病的多个病灶。再次,在癌症的实例中,可存在多个肿瘤病灶,或许其中一个或多个病灶是已从原发部位扩散的转移的结果。
本发明的方法可用于生成或概况分析数据指纹或数据集,该数据指纹或数据集是由异质性疾病中的不同细胞得到的遗传信息的总和。这种数据集可包含单独的或组合的拷贝数变异和稀有突变分析。
D.胎儿来源的其它疾病或疾病状态的早期检测和监测
此外,本发明的系统和方法可用于诊断、预后、监测或观察胎儿来源的癌症或其它疾病。也就是说,这些方法可用于妊娠的受试者,以诊断、预后、监测或观察未出生受试者的癌症或其它疾病,未出生受试者的DNA和其它多核苷酸可与母体分子共循环。
VIII.术语
本文所用的术语仅用于描述特定实施方案的目的而非旨在限制本发明的系统和方法。如本文所用,单数形式“一种”、“一个”和“该”也意图包括复数形式,除非上下文另外明确指出。此外,在术语“包含”、“包括”、“具有”、“有”、“带有”或其变化形式在发明详述和/或权利要求书中使用的情况下,这样的术语旨在以类似于术语“包含”的方式为包含性的。
上文参考用于说明的示例应用描述了本发明的系统和方法的多个方面。应当理解,阐述许多具体细节、关系和方法是为了提供对系统和方法的全面了解。然而,相关领域的普通技术人员将会容易地认识到:可在没有一个或多个所述具体细节或在具有其它方法的情况下实施系统和方法。本公开内容不受动作或事件的所示顺序的限制,因为一些动作可以按不同顺序发生和/或与其它动作或事件同时发生。此外,并不是所有示出的动作或事件都是根据本发明内容来实施方法所需要的。
范围在本文中可表示为从“约”一个特定值和/或至“约”另一个特定值。当表示这样的范围时,另一个实施方案包括从一个特定值和/或到另一个特定值。类似地,当数值表示为近似值时,通过使用先行词“约”,将会理解该特定值形成另一个实施方案。应当进一步理解,每个范围的端点在与另一端点相关以及独立于另一端点时都是有意义的。如本文所用的术语“约”是指从特定使用的上下文中的规定数值加或减15%的范围。例如,约10将包括从8.5到11.5的范围。
计算机系统
本发明的方法可使用计算机系统或在其帮助下来实现。图15示出了被编程或以其它方式配置成实现本发明的方法的计算机系统1501。该计算机系统1501可以调节样品制备、测序和/或分析等各个方面。在一些实例中,计算机系统1501配置成执行样品制备和样品分析,包括核酸测序。
计算机系统1501包括中央处理单元(CPU,本文也称为“处理器”和“计算机处理器”)1505,其可以是单核或多核处理器,或用于并行处理的多个处理器。计算机系统1501还包括存储器或存储器位置1510(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元1515(例如,硬盘)、用于与一个或多个其它系统通信的通信接口1520(例如,网络适配器)和外围装置1525,如高速缓冲存储器、其它存储器、数据存储和/或电子显示适配器。存储器1510、存储单元1515、接口1520和外围装置1525通过通信总线(实线)如主板来与CPU1505通信。存储单元1515可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统1501可以在通信接口1520的辅助下可操作地耦合至计算机网络(“网络”)1530。网络1530可以是因特网、互联网和/或外联网、或与因特网通信的内联网和/或外联网。在一些情况下,网络1530是电信和/或数据网络。网络1530可以包括一个或多个计算机服务器,这可以支持分布式计算,例如云计算。在一些情况下,在计算机系统1501的辅助下,网络1530可以实现对等网络,其可以使耦合至计算机系统1501的装置能够作为客户端或服务器运行。
CPU 1505可以执行一系列的机器可读指令,该机器可读指令可以体现在程序或软件中。指令可存储于存储器位置,如存储器1510中。由CPU 1505执行的操作的实例可包括读取、解码、执行和写回。
存储单元1515可存储文件,如驱动程序、库和保存的程序。存储单元1515可存储由用户和记录的会话所生成的程序以及与程序相关的输出。存储单元1515可存储用户数据,例如用户偏好和用户程序。在一些情况下,计算机系统1501可以包括一个或多个附加的数据存储单元,该数据存储单元在计算机系统1501的外部,诸如位于通过内联网或因特网而与计算机系统1501通信的远程服务器上。
计算机系统1501可通过网络1530与一个或多个远程计算机系统进行通信。例如,计算机系统1501可以与用户(例如,操作者)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(如便携式PC)、板型或平板PC(例如
Figure BDA0002233324790000991
iPad、
Figure BDA0002233324790000992
Galaxy Tab)、电话、智能电话(例如
Figure BDA0002233324790000993
iPhone、Android支持的装置、
Figure BDA0002233324790000994
)或个人数字助理。用户可以通过网络1530访问计算机系统1501。
如本文所述的方法可通过机器(例如,计算机处理器)可执行代码来实现,该机器可执行代码存储于计算机系统1501的电子存储位置,诸如存储器1510或电子存储单元1515上。该机器可执行代码或机器可读代码可以以软件的形式提供。在使用过程中,该代码可以由处理器1505执行。在一些情况下,代码可以从存储单元1515检索并存储到存储器1510中,以备由处理器1505访问。在一些情况下,可排除电子存储单元1515,而将机器可执行指令存储于存储器1510中。
代码可以被预编译并配置成用于与具有适用于执行该代码的处理器的机器一起使用,或者可以在运行时间过程中编译。代码可提供于编程语言中,可选择该编程语言以使代码能够以预编译或按编译原样的方式来执行。
本文所提供的系统和方法的各方面,如计算机系统1501,可以在编程中体现。该技术的各个方面可以被认为是“产品”或“制造物品”,通常为在机器可读介质类型中执行或体现的机器(或处理器)可执行代码和/或相关数据的形式。机器可执行代码可存储于电子存储单元,例如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的任何或所有有形存储器,或其相关模块,如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可以在任何时间为软件编程提供非暂时性存储。该软件的全部或部分有时可以通过因特网或各种其它电信网络进行通信。例如,此类通信可使软件能够从一台计算机或处理器加载到另一台中,例如,从管理服务器或主计算机加载至应用程序服务器的计算机平台。因此,能够承载软件元件的另一种类型的介质包括光波、电波和电磁波,如跨本地设备之间的物理接口、通过有线和光纤陆线网络以及在各种空中链路上使用的光波、电波和电磁波。携载此类波的物理元件,诸如有线或无线链路、光链路等,也可以被认为是承载软件的介质。如本文所用,除非限制于非暂时性的、有形“存储”介质,诸如计算机或机器“可读介质”等术语是指参与将指令提供给处理器以供执行的任何介质。
因此,机器可读介质,诸如计算机可执行代码,可以采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括,例如光盘或磁盘,诸如在任何计算机等中的任何存储设备,例如可用于实现如附图所示的数据库等。易失性存储介质包括动态存储器,诸如这样的计算机平台的主存储器。有形传输介质包括同轴电缆、铜线和光纤,包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,如在射频(RF)和红外(IR)数据通信期间生成的那些。因此,计算机可读介质的常见形式包括,例如:软盘、柔性盘、硬盘、磁带、任何其它磁介质、CD-ROM、DVD或DVD-ROM、任何其它光学介质、穿孔卡片纸带、其它任何具有孔洞图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其它存储器芯片或盒、载波传输数据或指令、传送此类载波的缆线或链路,或者任何可让计算机从中读取编程代码和/或数据的其它介质。这些计算机可读介质的形式中的许多形式可参与向处理器传送一个或多个序列的一个或多个指令以供执行。
计算机系统1501可包括电子显示器或与电子显示器进行通信,该电子显示器包括用于提供例如样品分析的一个或多个结果的用户界面(UI)。UI的实例包括但不限于:图形用户界面(GUI)和基于网络的用户界面。
实施例
实施例1-前列腺癌的预后和治疗
从一名前列腺癌受试者中获取血液样品。先前,肿瘤科医生确定了该受试者具有II期前列腺癌并建议治疗。在初步诊断后,每6个月提取、分离、测序并分析无细胞的DNA。
使用Qiagen Qubit试剂盒规程从血液中提取并分离无细胞的DNA。加入载体DNA,以提高收率。使用PCR和通用引物扩增DNA。采用Illumina MiSeq个人测序仪,使用大规模并行测序方法对10ng的DNA进行测序。通过对无细胞DNA的测序而覆盖该受试者的基因组的90%。
将序列数据组装起来并分析其拷贝数变异。定位序列阅读值并将其与健康个体(对照)进行比较。基于序列阅读值的数目,将染色体区域分成50kb的非重叠区域。将序列阅读值彼此进行比较,并且为各个可定位位置确定一个比值。
使用隐马尔可夫模型将拷贝数转换成各个窗口的离散状态。
生成报告,定位基因组位置和拷贝数变异示于图4A(健康个体)和图4B(患有癌症的受试者)中。
与具有已知结果的受试者的其它谱相比较,这些报告表明这种特定的癌症是侵袭性的并且对治疗具有抗性。无细胞肿瘤负荷为21%。对受试者监测18个月。在第18月,拷贝数变异谱开始急剧增加,无细胞肿瘤负荷从21%升至30%。与其它前列腺受试者的遗传谱进行比较。确定拷贝数变异的这种增加指示前列腺癌从II期进展到III期。所开出的原治疗方案不再能够治疗该癌症。开出新的治疗。
此外,这些报告经由因特网以电子方式进行提交和访问。在除受试者的位置外的地点进行序列数据的分析。生成报告并发送到受试者的位置。通过支持因特网的计算机,受试者访问反映其肿瘤负荷的报告(图4C)。
实施例2-前列腺癌的缓解和复发
从一名前列腺癌幸存者获取血液样品。该受试者先前曾接受了多轮化疗和放疗。在测试时该受试者没有出现与癌症相关的症状或健康问题。标准扫描和分析显示该受试者没有癌症。
使用Qiagen TruSeq试剂盒规程从血液中提取并分离无细胞的DNA。加入载体DNA,以提高收率。使用PCR和通用引物扩增DNA。采用Illumina MiSeq个人测序仪,使用大规模并行测序方法对10ng的DNA进行测序。使用连接方法将12聚物条形码加至单个分子上。
将序列数据组装起来并分析其拷贝数变异。定位序列阅读值并将其与健康个体(对照)进行比较。基于序列阅读值的数目,将染色体区域分成40kb的非重叠区域。将序列阅读值彼此进行比较,并且为各个可定位位置确定一个比值。
将非独特条形码编码的序列分解成单个阅读值,以帮助对来自扩增的偏倚进行归一化。
使用隐马尔可夫模型将拷贝数转换成各个窗口的离散状态。
生成报告,定位基因组位置和拷贝数变异示于图5A(处于缓解期的癌症受试者)和图5B(处于复发期的癌症受试者)中。
与具有已知结果的受试者的其它谱相比较,该报告表明,在第18个月,在5%的无细胞肿瘤负荷下检测到对拷贝数变异的稀有突变分析。肿瘤科医生再次开出治疗。
实施例3-甲状腺癌和治疗
一名受试者已知患有IV期甲状腺癌并经受标准治疗,包括使用I-131的放射疗法。CT扫描对该放射疗法是否正在破坏癌性团块没有结论。在最近的放射期之前和之后抽取血液。
使用Qiagen Qubit试剂盒规程从血液中提取并分离无细胞的DNA。将非特异性批量DNA的样品加入到样品制备反应中,以提高收率。
众所周知,在这种甲状腺癌中,BRAF基因可以在氨基酸位置600处突变。使用对该基因具有特异性的引物从无细胞DNA群体选择性地扩增BRAF DNA。将20聚物条形码加到亲本分子上作为用于阅读值计数的对照。
采用Illumina MiSeq个人测序仪,使用大规模并行测序方法对10ng的DNA进行测序。
将序列数据组装起来并分析其拷贝数变异检测。定位序列阅读值并将其与健康个体(对照)进行比较。基于序列阅读值的数目,如通过条形码序列计数所确定的,将染色体区域分成50kb的非重叠区域。将序列阅读值彼此进行比较,并且为各个可定位位置确定一个比值。
使用隐马尔可夫模型将拷贝数转换成各个窗口的离散状态。
生成报告,定位基因组位置和拷贝数变异。
对治疗之前和之后生成的报告进行比较。在放射期之后,肿瘤细胞负荷百分比从30%猛增至60%。肿瘤负荷的猛增被确定为由治疗引起的癌组织相比于正常组织的坏死的增加。肿瘤科医生建议受试者继续遵医嘱治疗。
实施例4-稀有突变检测的灵敏度
为了确定存在于DNA群体中的稀有突变的检测范围,进行混合实验。DNA的序列以不同的比例混合在一起,其中一些包含基因TP53、HRAS和MET的野生型拷贝,而另一些包含在相同基因中具有稀有突变的拷贝。制备DNA混合物,使得突变DNA与野生型DNA的比例或百分比的范围是从100%到0.01%。
对于各个混合实验,采用Illumina MiSeq个人测序仪,使用大规模并行测序方法对10ng的DNA进行测序。
将序列数据组装起来并分析其稀有突变检测。定位序列阅读值并将其与参考序列(对照)进行比较。基于序列阅读值的数目,确定各个可定位位置的变异频率。
使用隐马尔可夫模型将各个可定位位置的变异频率转换成碱基位置的离散状态。
生成报告,定位基因组碱基位置和在由参考序列确定的基线以上的稀有突变的检测百分比(图6A)。
范围从0.1%到100%的各种混合实验的结果示于对数标度图中,其中具有稀有突变的DNA的所测得的百分比作为具有稀有突变的DNA的实际百分比的函数来作图(图6B)。示出了TP53、HRAS和MET这三种基因。在测量的和期望的稀有突变群体之间发现了很强的线性相关性。此外,经这些实验发现了在非突变DNA群体中约0.1%的具有稀有突变的DNA的较低灵敏度阈值(图6B)。
实施例5-在前列腺癌受试者中的稀有突变检测
一名受试者被认为患有早期前列腺癌。其它临床试验没有提供确定的结果。从该受试者抽取血液并提取、分离、制备和测序无细胞的DNA。
选择一组不同的癌基因和肿瘤抑制基因,以供使用
Figure BDA0002233324790001051
PCR试剂盒(Invitrogen)、使用基因特异性引物进行选择性扩增。被扩增的DNA区域包括含有PIK3CA和TP53基因的DNA。
采用Illumina MiSeq个人测序仪,使用大规模并行测序方法对10ng的DNA进行测序。
将序列数据组装起来并分析其稀有突变检测。定位序列阅读值并将其与参考序列(对照)进行比较。基于序列阅读值的数目,确定各个可定位位置的变异频率。
使用隐马尔可夫模型将各个可定位位置的变异频率转换成各个碱基位置的离散状态。
生成报告,定位基因组碱基位置和在由参考序列确定的基线以上的稀有突变的检测百分比(图7A)。稀有突变以5%的发生率分别出现在两种基因PIK3CA和TP53中,表明该受试者具有早期癌症。开始治疗。
此外,这些报告经由因特网以电子方式进行提交和访问。在除受试者的位置外的地点进行序列数据的分析。生成报告并发送到受试者的位置。通过支持因特网的计算机,受试者访问反映其肿瘤负荷的报告(图7B)。
实施例6-在结肠直肠癌受试者中的稀有突变检测
一名受试者被认为患有中期结直肠癌。其它临床试验没有提供确定的结果。从受试者抽取血液并提取无细胞的DNA。
使用10ng从一管血浆中提取的无细胞遗传材料。将初始遗传材料转换成一组标记的亲本多核苷酸。该标记包括:将测序所需的标签以及用于追踪子代分子的非独特标识符附接到亲本核酸上。通过如上文所述的优化的连接反应进行该转换并且通过观察连接后分子的大小谱来确定转化率。转化率被测量为在两端连接有标签的起始初始分子的百分比。使用这种方法的转换以高效率例如至少50%进行。
对标记的文库进行PCR扩增并针对与结直肠癌最相关的基因(例如,KRAS、APC、TP53等)进行富集,并且采用Illumina MiSeq个人测序仪使用大规模并行测序方法对所得DNA进行测序。
将序列数据组装起来并分析其稀有突变检测。将序列阅读值分解成属于亲本分子的家族组(以及在分解时错误校正)并使用参考序列(对照)进行定位。基于序列阅读值的数目,确定各个可定位位置的拷贝数和杂合性(适当的时候)的稀有变异(置换、插入、缺失等)和变异的频率。
生成报告,定位基因组碱基位置和在由参考序列确定的基线以上的稀有突变的检测百分比。稀有突变以0.3-0.4%的发生率分别出现在两种基因KRAS和FBXW7中,表明该受试者具有残留的癌症。开始治疗。
此外,这些报告经由因特网以电子方式进行提交和访问。在除受试者的位置外的地点进行序列数据的分析。生成报告并发送到受试者的位置。通过支持因特网的计算机,受试者访问反映其肿瘤负荷的报告。
实施例7-数字测序技术
肿瘤释放的核酸的浓度通常非常低,使得当前的新一代测序技术只能偶然地或在具有终末高肿瘤负荷的患者中检测到这类信号。主要原因是,这些技术受到错误率和偏倚的困扰,其错误率和偏倚可能比在循环DNA中可靠地检测出与癌症相关的从头(de novo)遗传改变所需要的高几个数量级。本文显示了一种新的测序方法,即数字测序技术(DST),其使得在种系片段之间检测和定量罕见肿瘤来源的核酸的灵敏度和特异性提高了至少1-2个数量级。
DST架构受到最先进的数字通信系统的启发,该数字通信系统克服由现代通信信道引起的高噪声和畸变并能够以非常高的数据速率完美无缺地传输数字信息。同样,当前的新一代工作流程受到非常高的噪声和畸变(由于样品准备、基于PCR的扩增和测序)的困扰。数字测序能够消除由这些过程产生的错误和畸变并产生所有稀有变异体(包括CNV)的近乎完美的呈现。
高多样性文库的准备
传统的测序文库制备规程使大多数提取的循环DNA片段由于低效文库转化而丢失,与之不同,我们的数字测序技术工作流程使绝大多数起始分子能够得到转换和测序。这对于稀有变异体的检测极为重要,因为在10mL管的一整管血液中可能仅存在少量体细胞突变的分子。所开发的高效分子生物学转化过程使得稀有变异体的检测能够具有最高的可能的灵敏度。
全面的可发挥作用的癌基因组(Panel)
围绕DST平台设计的工作流程是灵活和高度可调的,因为所针对的区域可以与单一外显子一样小或与整个外显子组(或甚至整个基因组)一样宽。标准组由15种可发挥作用的癌症相关基因的所有外显子碱基和另外36种癌基因/肿瘤抑制基因的“热点”外显子(例如,含有COSMIC中的至少一个或多个所报告的体细胞突变的外显子)的覆盖范围组成。
实施例8:分析性研究
为了研究我们的技术的性能,评估了其对分析性样品的灵敏度。我们将不同量的LNCaP癌细胞系DNA掺入至正常cfDNA的背景中并能够以低至0.1%的灵敏度成功地检测到体细胞突变(参见图13)。
临床前研究
在小鼠中的人异种移植模型中研究了循环DNA与肿瘤gDNA的一致性。在分别荷有两种不同人乳腺癌肿瘤之一的7只CTC阴性小鼠中,使用DST,在肿瘤gDNA中检测到的所有体细胞突变也在小鼠血液cfDNA中检测到,进一步验证了cfDNA对于非侵入性肿瘤遗传谱分析的效用。
先期临床研究
肿瘤活检与循环DNA体细胞突变的相关性
用不同肿瘤类型的人类样品开始先期研究。研究了由循环无细胞DNA得到的肿瘤突变谱与由匹配的肿瘤活检样品得到的肿瘤突变谱的一致性。在14名患者中,在结直肠癌和黑素瘤癌症中均发现了肿瘤与cfDNA体细胞突变谱之间有高于93%的一致性(表1)。
表1
Figure BDA0002233324790001081
Figure BDA0002233324790001091
根据以上所述应当理解,虽然已示出和描述了特定实施方案,但可对其作出各种修改并且这些修改是本发明所预期的。并不打算以本说明书中所提供的具体实施例限制本发明。虽然已经参考上述说明书描述了本发明,但本文优选实施方案的描述和例示并不意味着以限制性的意义来解释。此外,应当理解,本发明的所有方面不限于本文阐述的取决于各种条件和变量的具体描述、配置或相对比例。本发明实施方案的形式和细节的各种修改对本领域技术人员而言将是显而易见的。因此,可以预期,本发明也应涵盖任何此类修改、变化和等同物。

Claims (5)

1.一种多核苷酸组合物,其包含100至100,000个单倍体人基因组当量的cfDNA多核苷酸,其中所述cfDNA多核苷酸用5至1,000个不同的寡核苷酸条形码标记。
2.权利要求1的组合物,其包含1,000至50,000个单倍体人基因组当量的cfDNA多核苷酸。
3.权利要求1或2的组合物,其中所述不同的寡核苷酸条形码的数目为:
a.至少10且至多1,000;
b.至少15且至多1,000;
c.至少25且至多1,000;或
d.至少5且至多100。
4.上述权利要求任一项的组合物,其中衔接子寡核苷酸包含所述寡核苷酸条形码。
5.上述权利要求任一项的组合物,其中所述cfDNA多核苷酸在两末端均用所述寡核苷酸条形码标记。
CN201910977280.4A 2012-09-04 2013-09-04 检测稀有突变和拷贝数变异的系统和方法 Pending CN110872617A (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201261696734P 2012-09-04 2012-09-04
US61/696,734 2012-09-04
US201261704400P 2012-09-21 2012-09-21
US61/704,400 2012-09-21
US201361793997P 2013-03-15 2013-03-15
US61/793,997 2013-03-15
US201361845987P 2013-07-13 2013-07-13
US61/845,987 2013-07-13
CN201380057641.4A CN104781421B (zh) 2012-09-04 2013-09-04 检测稀有突变和拷贝数变异的系统和方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201380057641.4A Division CN104781421B (zh) 2012-09-04 2013-09-04 检测稀有突变和拷贝数变异的系统和方法

Publications (1)

Publication Number Publication Date
CN110872617A true CN110872617A (zh) 2020-03-10

Family

ID=50237580

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910977280.4A Pending CN110872617A (zh) 2012-09-04 2013-09-04 检测稀有突变和拷贝数变异的系统和方法
CN201380057641.4A Active CN104781421B (zh) 2012-09-04 2013-09-04 检测稀有突变和拷贝数变异的系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201380057641.4A Active CN104781421B (zh) 2012-09-04 2013-09-04 检测稀有突变和拷贝数变异的系统和方法

Country Status (18)

Country Link
US (25) US10041127B2 (zh)
EP (5) EP2893040B1 (zh)
JP (5) JP6275145B2 (zh)
KR (5) KR102028375B1 (zh)
CN (2) CN110872617A (zh)
BR (1) BR112015004847A2 (zh)
CA (2) CA2883901C (zh)
DE (1) DE202013012824U1 (zh)
DK (1) DK2893040T5 (zh)
ES (3) ES2711635T3 (zh)
GB (1) GB2533006B (zh)
HK (3) HK1201080A1 (zh)
IL (3) IL305303A (zh)
MX (1) MX367963B (zh)
PL (2) PL3591073T3 (zh)
PT (1) PT2893040T (zh)
SG (2) SG10202000486VA (zh)
WO (1) WO2014039556A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908411A (zh) * 2021-01-12 2021-06-04 广州市金域转化医学研究院有限公司 一种线粒体变异位点数据库及其建立方法和应用

Families Citing this family (266)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111544B2 (en) * 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
EP2473638B1 (en) 2009-09-30 2017-08-09 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
WO2011146632A1 (en) 2010-05-18 2011-11-24 Gene Security Network Inc. Methods for non-invasive prenatal ploidy calling
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
JP6328934B2 (ja) 2010-12-22 2018-05-23 ナテラ, インコーポレイテッド 非侵襲性出生前親子鑑定法
AU2011352070A1 (en) 2010-12-30 2013-07-18 Foundation Medicine, Inc. Optimization of multigene analysis of tumor samples
AU2011358564B9 (en) 2011-02-09 2017-07-13 Natera, Inc Methods for non-invasive prenatal ploidy calling
WO2012129363A2 (en) 2011-03-24 2012-09-27 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
EP3246416A1 (en) 2011-04-15 2017-11-22 The Johns Hopkins University Safe sequencing system
WO2012177792A2 (en) 2011-06-24 2012-12-27 Sequenom, Inc. Methods and processes for non-invasive assessment of a genetic variation
US20130079241A1 (en) 2011-09-15 2013-03-28 Jianhua Luo Methods for Diagnosing Prostate Cancer and Predicting Prostate Cancer Relapse
WO2013052907A2 (en) 2011-10-06 2013-04-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
ES2929923T3 (es) 2012-01-20 2022-12-02 Sequenom Inc Procesos de diagnóstico que condicionan las condiciones experimentales
DK3363901T3 (da) 2012-02-17 2021-02-22 Hutchinson Fred Cancer Res Sammensætninger og fremgangsmåder til præcis identificering af mutationer
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
ES2828661T3 (es) 2012-03-20 2021-05-27 Univ Washington Through Its Center For Commercialization Métodos para reducir la tasa de error de la secuenciación de ADN masiva en paralelo mediante el uso de la secuenciación de secuencia consenso bicatenaria
EP2844771A4 (en) * 2012-05-04 2015-12-02 Complete Genomics Inc METHOD FOR DETERMINING THE ABSOLUTE GENOME-WIDE COPY COUNTER CHANGES OF COMPLEX TUMORS
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20150011396A1 (en) 2012-07-09 2015-01-08 Benjamin G. Schroeder Methods for creating directional bisulfite-converted nucleic acid libraries for next generation sequencing
WO2014149134A2 (en) 2013-03-15 2014-09-25 Guardant Health Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
KR102028375B1 (ko) 2012-09-04 2019-10-04 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2912468B1 (en) 2012-10-29 2018-09-12 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
US9218450B2 (en) * 2012-11-29 2015-12-22 Roche Molecular Systems, Inc. Accurate and fast mapping of reads to genome
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2971130A4 (en) 2013-03-15 2016-10-05 Nugen Technologies Inc SEQUENTIAL SEQUENCING
ES2939547T3 (es) 2013-04-03 2023-04-24 Sequenom Inc Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
WO2014190286A2 (en) 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
ES2721051T3 (es) 2013-06-21 2019-07-26 Sequenom Inc Método para la evaluación no invasiva de variaciones genéticas
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
BR112016007401B1 (pt) 2013-10-04 2023-04-11 Sequenom, Inc. Método para determinar a presença ou ausência de uma aneuploidia cromossômica em uma amostra
US10438691B2 (en) 2013-10-07 2019-10-08 Sequenom, Inc. Non-invasive assessment of chromosome alterations using change in subsequence mappability
EP4227947A1 (en) 2013-10-21 2023-08-16 Verinata Health, Inc. Method for improving the sensitivity of detection in determining copy number variations
IL285106B (en) 2013-11-07 2022-09-01 Univ Leland Stanford Junior Clean nucleic acids are suitable for analyzing the human microbiome and its parts
WO2015073711A1 (en) 2013-11-13 2015-05-21 Nugen Technologies, Inc. Compositions and methods for identification of a duplicate sequencing read
AU2014369841B2 (en) 2013-12-28 2019-01-24 Guardant Health, Inc. Methods and systems for detecting genetic variants
CA2935216C (en) 2013-12-30 2021-11-09 University Of Pittsburgh - Of The Commonwealth System Of Higher Education Fusion genes associated with progressive prostate cancer
CN113774132A (zh) 2014-04-21 2021-12-10 纳特拉公司 检测染色体片段中的突变和倍性
ES2844229T3 (es) 2014-05-13 2021-07-21 Univ Texas Mutaciones génicas y alteraciones en el número de copias de EGFR, KRAS y MET
WO2015181718A1 (en) * 2014-05-26 2015-12-03 Ebios Futura S.R.L. Method of prenatal diagnosis
EP3598452B1 (en) * 2014-05-30 2023-07-26 Sequenom, Inc. Chromosome representation determinations
US10318704B2 (en) 2014-05-30 2019-06-11 Verinata Health, Inc. Detecting fetal sub-chromosomal aneuploidies
EP3193944B1 (en) 2014-07-17 2021-04-07 University of Pittsburgh - Of the Commonwealth System of Higher Education Methods of treating cells containing fusion genes
TWI813141B (zh) 2014-07-18 2023-08-21 香港中文大學 Dna混合物中之組織甲基化模式分析
GB201412834D0 (en) 2014-07-18 2014-09-03 Cancer Rec Tech Ltd A method for detecting a genetic variant
WO2016015058A2 (en) 2014-07-25 2016-01-28 University Of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
US11783911B2 (en) 2014-07-30 2023-10-10 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations
CN107075581B (zh) * 2014-08-06 2022-03-18 纽亘技术公司 由靶向测序进行数字测量
CA2967447A1 (en) 2014-12-05 2016-06-09 Foundation Medicine, Inc. Multigene analysis of tumor samples
CN107075564A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 确定肿瘤核酸浓度的方法和装置
MA40939A (fr) 2014-12-12 2017-10-18 Verinata Health Inc Utilisation de la taille de fragments d'adn acellulaire pour déterminer les variations du nombre de copies
WO2016095093A1 (zh) * 2014-12-15 2016-06-23 天津华大基因科技有限公司 肿瘤筛查方法、目标区域变异检测方法和装置
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
EP3235010A4 (en) 2014-12-18 2018-08-29 Agilome, Inc. Chemically-sensitive field effect transistor
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US20160188793A1 (en) * 2014-12-29 2016-06-30 Counsyl, Inc. Method For Determining Genotypes in Regions of High Homology
EP3766986B1 (en) 2014-12-31 2022-06-01 Guardant Health, Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
US10364467B2 (en) * 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
PT3256605T (pt) * 2015-02-10 2022-03-17 Univ Hong Kong Chinese Deteção de mutações para rastreio de cancro e análise fetal
JP6995625B2 (ja) 2015-05-01 2022-01-14 ガーダント ヘルス, インコーポレイテッド 診断方法
US11479812B2 (en) 2015-05-11 2022-10-25 Natera, Inc. Methods and compositions for determining ploidy
EP3298169A4 (en) 2015-05-18 2018-10-24 Karius Inc. Compositions and methods for enriching populations of nucleic acids
US10395759B2 (en) * 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
EP3307908B1 (en) * 2015-06-09 2019-09-11 Life Technologies Corporation Methods for molecular tagging
KR101828052B1 (ko) * 2015-06-24 2018-02-09 사회복지법인 삼성생명공익재단 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
WO2017007903A1 (en) * 2015-07-07 2017-01-12 Farsight Genome Systems, Inc. Methods and systems for sequencing-based variant detection
WO2017009372A2 (en) * 2015-07-13 2017-01-19 Cartagenia Nv System and methodology for the analysis of genomic data obtained from a subject
CA2993019A1 (en) 2015-07-21 2017-01-26 Guardant Health, Inc. Locked nucleic acids for capturing fusion genes
TWI730973B (zh) * 2015-07-23 2021-06-21 香港中文大學 游離dna(cell-free dna)之片段化模式分析
EP3608420B1 (en) 2015-07-29 2021-05-19 Progenity, Inc. Nucleic acids and methods for detecting chromosomal abnormalities
CN108138220A (zh) * 2015-07-29 2018-06-08 普罗格尼迪公司 遗传分析的系统和方法
EP3332037B1 (en) * 2015-08-07 2021-02-24 University of Pittsburgh- Of the Commonwealth System of Higher Education Methods for predicting prostate cancer relapse
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
US11302416B2 (en) 2015-09-02 2022-04-12 Guardant Health Machine learning for somatic single nucleotide variant detection in cell-free tumor nucleic acid sequencing applications
EP3347466B1 (en) * 2015-09-08 2024-01-03 Cold Spring Harbor Laboratory Genetic copy number determination using high throughput multiplex sequencing of smashed nucleotides
CN108474040B (zh) 2015-10-09 2023-05-16 夸登特健康公司 使用无细胞dna的基于群体的治疗推荐
KR101848438B1 (ko) 2015-10-29 2018-04-13 바이오코아 주식회사 디지털 pcr을 이용한 산전진단 방법
US10822638B2 (en) 2015-10-30 2020-11-03 Exact Sciences Development Company, Llc Isolation and detection of DNA from plasma
JP6913089B2 (ja) 2015-11-11 2021-08-04 レゾリューション バイオサイエンス, インコーポレイテッド Dnaライブラリーの高効率構築
US20180330050A1 (en) * 2015-11-16 2018-11-15 Mayo Foundation For Medical Education And Research Detecting copy number variations
CN109072294A (zh) 2015-12-08 2018-12-21 特温斯特兰德生物科学有限公司 用于双重测序的改良衔接子、方法和组合物
SG11201805119QA (en) * 2015-12-17 2018-07-30 Guardant Health Inc Methods to determine tumor gene copy number by analysis of cell-free dna
CN108603229A (zh) * 2016-01-22 2018-09-28 格瑞尔公司 用于高保真测序的方法和系统
CN109072309B (zh) 2016-02-02 2023-05-16 夸登特健康公司 癌症进化检测和诊断
US10095831B2 (en) 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
US11479878B2 (en) 2016-03-16 2022-10-25 Dana-Farber Cancer Institute, Inc. Methods for genome characterization
CA3014070C (en) 2016-03-25 2023-03-14 Karius, Inc. Synthetic nucleic acid spike-ins
WO2017181146A1 (en) 2016-04-14 2017-10-19 Guardant Health, Inc. Methods for early detection of cancer
US11384382B2 (en) 2016-04-14 2022-07-12 Guardant Health, Inc. Methods of attaching adapters to sample nucleic acids
ITUA20162640A1 (it) * 2016-04-15 2017-10-15 Menarini Silicon Biosystems Spa Metodo e kit per la generazione di librerie di dna per sequenziamento massivo parallelo
EP3458586B1 (en) 2016-05-16 2022-12-28 Accuragen Holdings Limited Method of improved sequencing by strand identification
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
CN110168099A (zh) * 2016-06-07 2019-08-23 加利福尼亚大学董事会 用于疾病和病症分析的无细胞dna甲基化模式
EP3831958B1 (en) 2016-06-30 2023-09-06 Grail, LLC Differential tagging of rna for preparation of a cell-free dna/rna sequencing library
CN107577917A (zh) * 2016-07-05 2018-01-12 魏霖静 一种生物信息学高性能信息化管理系统及数据处理方法
WO2018009723A1 (en) 2016-07-06 2018-01-11 Guardant Health, Inc. Methods for fragmentome profiling of cell-free nucleic acids
AU2017295717B2 (en) 2016-07-15 2021-06-24 The Regents Of The University Of California Methods of producing nucleic acid libraries
WO2018022890A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Genetic copy number alteration classifications
RU2019108294A (ru) 2016-08-25 2020-09-25 Резолюшн Байосайенс, Инк. Способы обнаружения изменений количества геномных копий в образцах днк
CN117352050A (zh) * 2016-09-22 2024-01-05 Illumina公司 体细胞拷贝数变化检测
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
CA3027919C (en) 2016-09-30 2023-02-28 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
WO2018067517A1 (en) 2016-10-04 2018-04-12 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
EP3526350A4 (en) 2016-10-12 2020-06-17 Bellwether Bio, Inc. DETERMINATION OF THE CELLULAR ORIGIN OF CIRCULATING ACELLULAR DNA WITH MOLECULAR COUNTING
CN110100013A (zh) 2016-10-24 2019-08-06 香港中文大学 用于肿瘤检测的方法和系统
WO2018081465A1 (en) * 2016-10-26 2018-05-03 Pathway Genomics Corporation Systems and methods for characterizing nucleic acid in a biological sample
CN106566877A (zh) * 2016-10-31 2017-04-19 天津诺禾致源生物信息科技有限公司 检测基因突变的方法和装置
JP2020503003A (ja) 2016-11-30 2020-01-30 ザ チャイニーズ ユニバーシティ オブ ホンコン 尿および他のサンプルにおける無細胞dnaの分析
US10011870B2 (en) * 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
US11101019B2 (en) * 2016-12-08 2021-08-24 Life Technologies Corporation Methods for detecting mutation load from a tumor sample
US20180166170A1 (en) * 2016-12-12 2018-06-14 Konstantinos Theofilatos Generalized computational framework and system for integrative prediction of biomarkers
BR112019012958A2 (pt) * 2016-12-22 2019-11-26 Guardant Health Inc métodos e sistemas para análise de moléculas de ácido nucleico
CN106701956A (zh) * 2017-01-11 2017-05-24 上海思路迪生物医学科技有限公司 ctDNA的数字化深度测序技术
CA3049682C (en) 2017-01-20 2023-06-27 Sequenom, Inc. Methods for non-invasive assessment of genetic alterations
CA3207879A1 (en) 2017-01-24 2018-08-02 Sequenom, Inc. Methods and processes for assessment of genetic variations
EP3574108A4 (en) * 2017-01-25 2020-12-23 The Chinese University Of Hong Kong DIAGNOSTIC APPLICATIONS WITH THE USE OF NUCLEIC ACID FRAGMENTS
CA3049139A1 (en) 2017-02-21 2018-08-30 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
CN106755547A (zh) * 2017-03-15 2017-05-31 上海亿康医学检验所有限公司 一种膀胱癌的无创检测及其复发监测方法
US11584958B2 (en) 2017-03-31 2023-02-21 Grail, Llc Library preparation and use thereof for sequencing based error correction and/or variant identification
US10697008B2 (en) 2017-04-12 2020-06-30 Karius, Inc. Sample preparation methods, systems and compositions
US11342047B2 (en) 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant
US11535896B2 (en) * 2017-05-15 2022-12-27 Katholieke Universiteit Leuven Method for analysing cell-free nucleic acids
WO2018213235A1 (en) * 2017-05-16 2018-11-22 Life Technologies Corporation Methods for compression of molecular tagged nucleic acid sequence data
CN110914450A (zh) * 2017-05-16 2020-03-24 夸登特健康公司 无细胞dna的体细胞来源或种系来源的鉴定
KR102145417B1 (ko) * 2017-05-24 2020-08-19 지니너스 주식회사 무세포 핵산으로부터 수득된 서열 분석 데이터에 대한 배경 대립인자의 빈도 분포를 생성하는 방법 및 이를 이용하여 무세포 핵산으로부터 변이를 검출하는 방법
EP3635133A4 (en) * 2017-06-09 2021-03-03 Bellwether Bio, Inc. DETERMINATION OF THE TYPE OF CANCER IN A SUBJECT BY PROBABILISTIC MODELING OF END POINTS OF CIRCULATING NUCLEIC ACID FRAGMENT
KR102487135B1 (ko) * 2017-06-20 2023-01-10 일루미나, 인코포레이티드 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템
EP3431611A1 (en) * 2017-07-21 2019-01-23 Menarini Silicon Biosystems S.p.A. Improved method and kit for the generation of dna libraries for massively parallel sequencing
AU2018305609B2 (en) * 2017-07-26 2023-01-19 The Chinese University Of Hong Kong Enhancement of cancer screening using cell-free viral nucleic acids
CN111051511A (zh) 2017-08-04 2020-04-21 十亿至一公司 用于与生物靶相关的表征的靶相关分子
US11519024B2 (en) 2017-08-04 2022-12-06 Billiontoone, Inc. Homologous genomic regions for characterization associated with biological targets
US11430543B2 (en) 2017-08-04 2022-08-30 Billiontoone, Inc. Sequencing output determination and analysis with target-associated molecules in quantification associated with biological targets
SG11202002381TA (en) 2017-09-20 2020-04-29 Guardant Health Inc Methods and systems for differentiating somatic and germline variants
CN107688726B (zh) * 2017-09-21 2021-09-07 深圳市易基因科技有限公司 基于液相捕获技术判定单基因病相关拷贝数缺失的方法
US11099202B2 (en) 2017-10-20 2021-08-24 Tecan Genomics, Inc. Reagent delivery system
CN111566225A (zh) 2017-11-03 2020-08-21 夸登特健康公司 归一化肿瘤突变负荷
JP7304852B2 (ja) 2017-11-03 2023-07-07 ガーダント ヘルス, インコーポレイテッド 脱アミノ化に誘導される配列エラーの補正
AU2018366213A1 (en) 2017-11-08 2020-05-14 Twinstrand Biosciences, Inc. Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
JP7054133B2 (ja) 2017-11-09 2022-04-13 国立研究開発法人国立がん研究センター 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体
CA3080170A1 (en) * 2017-11-28 2019-06-06 Grail, Inc. Models for targeted sequencing
KR20200093438A (ko) * 2017-12-01 2020-08-05 일루미나, 인코포레이티드 체성 돌연변이 클론형성능을 결정하기 위한 방법 및 시스템
CN108197428B (zh) * 2017-12-25 2020-06-19 西安交通大学 一种并行动态规划的下一代测序技术拷贝数变异检测方法
CN112365927B (zh) * 2017-12-28 2023-08-25 安诺优达基因科技(北京)有限公司 Cnv检测装置
EP3735470B1 (en) 2018-01-05 2023-11-22 BillionToOne, Inc. Quality control templates for ensuring validity of sequencing-based assays
JP7296969B2 (ja) 2018-01-12 2023-06-23 クラレット バイオサイエンス, エルエルシー 核酸を解析するための方法および組成物
NZ759659A (en) * 2018-01-15 2022-07-01 Illumina Inc Deep learning-based variant classifier
CN108268752B (zh) * 2018-01-18 2019-02-01 东莞博奥木华基因科技有限公司 一种染色体异常检测装置
KR102036609B1 (ko) * 2018-02-12 2019-10-28 바이오코아 주식회사 디지털 pcr을 이용한 산전진단 방법
EP3781713A4 (en) * 2018-04-16 2022-01-12 Memorial Sloan-Kettering Cancer Center SYSTEMS AND METHODS FOR DETECTING CANCER THROUGH CFDNA SCREENING
US20210180112A1 (en) 2018-04-20 2021-06-17 Biofire Diagnostics, Llc Methods for normalization and quantification of sequencing data
CA3097992A1 (en) * 2018-04-24 2019-10-31 Grail, Inc. Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
CN112888459B (zh) 2018-06-01 2023-05-23 格里尔公司 卷积神经网络系统及数据分类方法
WO2019236478A1 (en) 2018-06-04 2019-12-12 Guardant Health, Inc. Methods and systems for determining the cellular origin of cell-free nucleic acids
AU2019280712A1 (en) 2018-06-06 2021-01-07 The Regents Of The University Of California Methods of producing nucleic acid libraries and compositions and kits for practicing same
CN109192246B (zh) * 2018-06-22 2020-10-16 深圳市达仁基因科技有限公司 检测染色体拷贝数异常的方法、装置和存储介质
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
RU2745733C1 (ru) * 2018-07-11 2021-03-31 Иллюмина, Инк. Фреймворк на основе глубокого обучения для идентификации паттернов последовательности, которые вызывают последовательность-специфичные ошибки (sse)
US20210269873A1 (en) 2018-07-12 2021-09-02 Twinstrand Biosciences, Inc. Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications
SG11202100344WA (en) 2018-07-23 2021-02-25 Guardant Health Inc Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage
WO2020021119A1 (en) * 2018-07-27 2020-01-30 F. Hoffmann-La Roche Ag Method of monitoring effectiveness of immunotherapy of cancer patients
CN113574602A (zh) * 2018-08-22 2021-10-29 加利福尼亚大学董事会 从循环无细胞核酸中灵敏地检测拷贝数变异(cnv)
US20200071754A1 (en) 2018-08-30 2020-03-05 Guardant Health, Inc. Methods and systems for detecting contamination between samples
SG11202101400UA (en) 2018-08-31 2021-03-30 Guardant Health Inc Microsatellite instability detection in cell-free dna
US20200075123A1 (en) 2018-08-31 2020-03-05 Guardant Health, Inc. Genetic variant detection based on merged and unmerged reads
US20200075124A1 (en) 2018-09-04 2020-03-05 Guardant Health, Inc. Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
WO2020056302A1 (en) * 2018-09-14 2020-03-19 The Jackson Laboratory Method and apparatus for detecting copy number variations in a genome
AU2019351130A1 (en) 2018-09-27 2021-04-08 Grail, Llc Methylation markers and targeted methylation probe panel
WO2020076772A1 (en) * 2018-10-08 2020-04-16 Freenome Holdings, Inc. Transcription factor profiling
CN109523520B (zh) * 2018-10-25 2020-12-18 北京大学第三医院 一种基于深度学习的染色体自动计数方法
CA3116176A1 (en) 2018-10-31 2020-05-07 Guardant Health, Inc. Methods, compositions and systems for calibrating epigenetic partitioning assays
CN109584961A (zh) * 2018-12-03 2019-04-05 元码基因科技(北京)股份有限公司 基于二代测序技术检测血液微卫星不稳定的方法
US11581062B2 (en) 2018-12-10 2023-02-14 Grail, Llc Systems and methods for classifying patients with respect to multiple cancer classes
US20200202975A1 (en) * 2018-12-19 2020-06-25 AiOnco, Inc. Genetic information processing system with mutation analysis mechanism and method of operation thereof
JP2022514010A (ja) 2018-12-20 2022-02-09 ガーダント ヘルス, インコーポレイテッド 核酸分子の回収率を改善するための方法、組成物、およびシステム
CN109712671B (zh) * 2018-12-20 2020-06-26 北京优迅医学检验实验室有限公司 基于ctDNA的基因检测装置、存储介质及计算机系统
CN111383714B (zh) * 2018-12-29 2023-07-28 安诺优达基因科技(北京)有限公司 模拟目标疾病仿真测序文库的方法及其应用
AU2020216438A1 (en) 2019-01-31 2021-07-29 Guardant Health, Inc. Compositions and methods for isolating cell-free DNA
CN109841265B (zh) * 2019-02-22 2021-09-21 清华大学 使用片段化模式确定血浆游离核酸分子组织来源的方法和系统及应用
WO2020176659A1 (en) 2019-02-27 2020-09-03 Guardant Health, Inc. Methods and systems for determining the cellular origin of cell-free dna
US20200273538A1 (en) 2019-02-27 2020-08-27 Guardant Health, Inc. Computational modeling of loss of function based on allelic frequency
CN111755075B (zh) * 2019-03-28 2023-09-29 深圳华大生命科学研究院 对免疫组库高通量测序样本间序列污染进行过滤的方法
WO2020206170A1 (en) 2019-04-02 2020-10-08 Progenity, Inc. Methods, systems, and compositions for counting nucleic acid molecules
CN110299185B (zh) * 2019-05-08 2023-07-04 西安电子科技大学 一种基于新一代测序数据的插入变异检测方法及系统
US11939636B2 (en) 2019-05-31 2024-03-26 Guardant Health, Inc. Methods and systems for improving patient monitoring after surgery
WO2020252387A2 (en) * 2019-06-12 2020-12-17 Ultima Genomics, Inc. Methods for accurate base calling using molecular barcodes
CN114616343A (zh) 2019-09-30 2022-06-10 夸登特健康公司 用于在甲基化分区测定中分析无细胞dna的组合物和方法
JP2023502317A (ja) * 2019-10-10 2023-01-24 カールスバーグ アグシャセルスガーブ 変異体植物の調製方法
CN110578002A (zh) * 2019-10-10 2019-12-17 广州燃石医学检验所有限公司 用于检测循环肿瘤dna突变的质控品及其制备方法
WO2021077411A1 (zh) * 2019-10-25 2021-04-29 苏州宏元生物科技有限公司 染色体不稳定性检测方法、系统及试剂盒
US11447819B2 (en) 2019-10-25 2022-09-20 Guardant Health, Inc. Methods for 3′ overhang repair
GB2595193B (en) 2019-11-06 2022-10-12 Univ Leland Stanford Junior Methods and systems for analyzing nucleic acid molecules
EP4065725A1 (en) 2019-11-26 2022-10-05 Guardant Health, Inc. Methods, compositions and systems for improving the binding of methylated polynucleotides
KR102184277B1 (ko) * 2020-01-16 2020-11-30 성균관대학교산학협력단 초음파 진단 및 dna 검사 일체형 ai 자가 건강 관리 장치 및 이를 이용한 원격 의료 진단 방법
JP2023512239A (ja) 2020-01-31 2023-03-24 ガーダント ヘルス, インコーポレイテッド 標的バリアントがクローンレベルで存在しないことの有意性モデリング
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
EP4118653A1 (en) 2020-03-11 2023-01-18 Guardant Health, Inc. Methods for classifying genetic mutations detected in cell-free nucleic acids as tumor or non-tumor origin
CN111445950B (zh) * 2020-03-19 2022-10-25 西安交通大学 一种基于滤波策略的高容错基因组复杂结构变异检测方法
CN113436679A (zh) * 2020-03-23 2021-09-24 北京合生基因科技有限公司 确定待测核酸样本变异率的方法和系统
EP4143338A1 (en) 2020-04-30 2023-03-08 Guardant Health, Inc. Methods for sequence determination using partitioned nucleic acids
EP4150113A1 (en) 2020-05-14 2023-03-22 Guardant Health, Inc. Homologous recombination repair deficiency detection
WO2021231862A1 (en) * 2020-05-14 2021-11-18 Georgia Tech Research Corporation Methods of detecting the efficacy of anticancer agents
WO2023282916A1 (en) 2021-07-09 2023-01-12 Guardant Health, Inc. Methods of detecting genomic rearrangements using cell free nucleic acids
US11946044B2 (en) 2020-07-30 2024-04-02 Guardant Health, Inc. Methods for isolating cell-free DNA
WO2022046947A1 (en) 2020-08-25 2022-03-03 Guardant Health, Inc. Methods and systems for predicting an origin of a variant
CA3190719A1 (en) 2020-08-25 2022-03-03 Daniel Hornburg Compositions and methods for assaying proteins and nucleic acids
US20220068433A1 (en) 2020-08-27 2022-03-03 Guardant Health, Inc. Computational detection of copy number variation at a locus in the absence of direct measurement of the locus
JP2023544721A (ja) 2020-09-30 2023-10-25 ガーダント ヘルス, インコーポレイテッド 分配およびメチル化依存性ヌクレアーゼを使用してdnaを解析するための組成物および方法
CA3195797A1 (en) 2020-10-23 2022-04-28 Andrew Kennedy Compositions and methods for analyzing dna using partitioning and base conversion
EP4251765A1 (en) 2020-11-30 2023-10-04 Guardant Health, Inc. Compositions and methods for enriching methylated polynucleotides
WO2022140629A1 (en) 2020-12-23 2022-06-30 Guardant Health, Inc. Methods and systems for analyzing methylated polynucleotides
CN112735516A (zh) * 2020-12-29 2021-04-30 上海派森诺生物科技股份有限公司 一种无参考基因组的群体变异检测分析方法
WO2022174109A1 (en) 2021-02-12 2022-08-18 Guardant Health, Inc. Methods and compositions for detecting nucleic acid variants
CA3210101A1 (en) 2021-03-05 2022-09-09 Katie Julia QUINN Methods and related aspects for analyzing molecular response
US20220344004A1 (en) 2021-03-09 2022-10-27 Guardant Health, Inc. Detecting the presence of a tumor based on off-target polynucleotide sequencing data
EP4314329A1 (en) 2021-03-25 2024-02-07 Guardant Health, Inc. Methods and compositions for quantifying immune cell dna
CN113130005B (zh) * 2021-04-12 2022-11-22 中国科学院东北地理与农业生态研究所 一种基于m2群体的候选因果突变位点基因定位的方法
US11783912B2 (en) 2021-05-05 2023-10-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
WO2022251655A1 (en) 2021-05-28 2022-12-01 Guardant Health, Inc. Compositions and methods for assaying circulating molecules
CN113284555B (zh) * 2021-06-11 2023-08-22 中山大学 一种基因突变网络的构建方法、装置、设备及存储介质
EP4359562A1 (en) 2021-06-21 2024-05-01 Guardant Health, Inc. Methods and compositions for copy-number informed tissue-of-origin analysis
WO2023283551A1 (en) * 2021-07-06 2023-01-12 Switch Therapeutics Inc. Methods of designing conditional-activatable small interfering rna sensors
WO2023018791A1 (en) * 2021-08-10 2023-02-16 Cornell University Ultra-sensitive liquid biopsy through deep learning empowered whole genome sequencing of plasma
WO2023056065A1 (en) 2021-09-30 2023-04-06 Guardant Health, Inc. Compositions and methods for synthesis and use of probes targeting nucleic acid rearrangements
WO2023056884A1 (en) * 2021-10-04 2023-04-13 The Chinese University Of Hong Kong Sequencing of viral dna for predicting disease relapse
WO2023081722A2 (en) 2021-11-02 2023-05-11 Guardant Health, Inc. Quality control method
WO2023097325A2 (en) * 2021-11-29 2023-06-01 Mammoth Biosciences, Inc. Systems and methods for identifying genetic phenotypes using programmable nucleases
CN114703263B (zh) * 2021-12-20 2023-09-22 北京科迅生物技术有限公司 一种群组染色体拷贝数变异检测方法及装置
WO2023122623A1 (en) 2021-12-21 2023-06-29 Guardant Health, Inc. Methods and systems for combinatorial chromatin-ip sequencing
WO2023122740A1 (en) 2021-12-23 2023-06-29 Guardant Health, Inc. Compositions and methods for detection of metastasis
WO2023197004A1 (en) 2022-04-07 2023-10-12 Guardant Health, Inc. Detecting the presence of a tumor based on methylation status of cell-free nucleic acid molecules
CN114724628B (zh) * 2022-04-24 2022-11-08 华中农业大学 一种对多物种进行多核苷酸变异鉴定和注释的方法
WO2023220602A1 (en) 2022-05-09 2023-11-16 Guardant Health, Inc. Detecting degradation based on strand bias
WO2024006908A1 (en) 2022-06-30 2024-01-04 Guardant Health, Inc. Enrichment of aberrantly methylated dna
WO2024020573A1 (en) 2022-07-21 2024-01-25 Guardant Health, Inc. Methods for detection and reduction of sample preparation-induced methylation artifacts
WO2024059840A1 (en) 2022-09-16 2024-03-21 Guardant Health, Inc. Compositions and methods for analyzing soluble proteins
WO2024073508A2 (en) 2022-09-27 2024-04-04 Guardant Health, Inc. Methods and compositions for quantifying immune cell dna
CN115798580B (zh) * 2023-02-10 2023-11-07 北京中仪康卫医疗器械有限公司 基于基因型填补和低深度测序的一体化基因组分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011142836A2 (en) * 2010-05-14 2011-11-17 Fluidigm Corporation Assays for the detection of genotype, mutations, and/or aneuploidy
US20120100548A1 (en) * 2010-10-26 2012-04-26 Verinata Health, Inc. Method for determining copy number variations
US20120184449A1 (en) * 2010-12-23 2012-07-19 Sequenom, Inc. Fetal genetic variation detection
WO2012106559A1 (en) * 2011-02-02 2012-08-09 Translational Genomics Research Institute Biomarkers and methods of use thereof

Family Cites Families (269)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US604804A (en) * 1898-05-31 Shuttle for looms
US4725536A (en) 1985-09-19 1988-02-16 Genetics Institute, Inc. Reagent polynucleotide complex with multiple target binding regions, and kit and methods
US6150517A (en) 1986-11-24 2000-11-21 Gen-Probe Methods for making oligonucleotide probes for the detection and/or quantitation of non-viral organisms
US4942124A (en) 1987-08-11 1990-07-17 President And Fellows Of Harvard College Multiplex sequencing
US5149625A (en) 1987-08-11 1992-09-22 President And Fellows Of Harvard College Multiplex analysis of DNA
US5656731A (en) 1987-10-15 1997-08-12 Chiron Corporation Nucleic acid-amplified immunoassay probes
US5124246A (en) 1987-10-15 1992-06-23 Chiron Corporation Nucleic acid multimers and amplified nucleic acid hybridization assays using same
US6040138A (en) 1995-09-15 2000-03-21 Affymetrix, Inc. Expression monitoring by hybridization to high density oligonucleotide arrays
US5744101A (en) 1989-06-07 1998-04-28 Affymax Technologies N.V. Photolabile nucleoside protecting groups
US6309822B1 (en) 1989-06-07 2001-10-30 Affymetrix, Inc. Method for comparing copy number of nucleic acid sequences
US6551784B2 (en) 1989-06-07 2003-04-22 Affymetrix Inc Method of comparing nucleic acid sequences
US5925525A (en) 1989-06-07 1999-07-20 Affymetrix, Inc. Method of identifying nucleotide differences
US5800992A (en) 1989-06-07 1998-09-01 Fodor; Stephen P.A. Method of detecting nucleic acids
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5871928A (en) 1989-06-07 1999-02-16 Fodor; Stephen P. A. Methods for nucleic acid analysis
US5424186A (en) 1989-06-07 1995-06-13 Affymax Technologies N.V. Very large scale immobilized polymer synthesis
US5200314A (en) 1990-03-23 1993-04-06 Chiron Corporation Polynucleotide capture assay employing in vitro amplification
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
DE69132843T2 (de) 1990-12-06 2002-09-12 Affymetrix Inc N D Ges D Staat Identifizierung von Nukleinsäuren in Proben
US5981179A (en) 1991-11-14 1999-11-09 Digene Diagnostics, Inc. Continuous amplification reaction
US5424413A (en) 1992-01-22 1995-06-13 Gen-Probe Incorporated Branched nucleic acid probes
US5573905A (en) 1992-03-30 1996-11-12 The Scripps Research Institute Encoded combinatorial chemical libraries
US6020124A (en) 1992-04-27 2000-02-01 Trustees Of Dartmouth College Detection of soluble gene sequences in biological fluids
US5981176A (en) 1992-06-17 1999-11-09 City Of Hope Method of detecting and discriminating between nucleic acid sequences
DE69431719T2 (de) 1993-06-25 2003-09-18 Affymetrix Inc N D Ges D Staat Hybridisierung und sequenzierung von nukleinsäuren
US5500356A (en) 1993-08-10 1996-03-19 Life Technologies, Inc. Method of nucleic acid sequence selection
US6309823B1 (en) 1993-10-26 2001-10-30 Affymetrix, Inc. Arrays of nucleic acid probes for analyzing biotransformation genes and methods of using the same
US5681697A (en) 1993-12-08 1997-10-28 Chiron Corporation Solution phase nucleic acid sandwich assays having reduced background noise and kits therefor
CH686982A5 (fr) 1993-12-16 1996-08-15 Maurice Stroun Méthode pour le diagnostic de cancers.
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
US5714330A (en) 1994-04-04 1998-02-03 Lynx Therapeutics, Inc. DNA sequencing by stepwise ligation and cleavage
US5604097A (en) 1994-10-13 1997-02-18 Spectragen, Inc. Methods for sorting polynucleotides using oligonucleotide tags
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5695934A (en) 1994-10-13 1997-12-09 Lynx Therapeutics, Inc. Massively parallel sequencing of sorted polynucleotides
US6013445A (en) 1996-06-06 2000-01-11 Lynx Therapeutics, Inc. Massively parallel signature sequencing by ligation of encoded adaptors
US6600996B2 (en) 1994-10-21 2003-07-29 Affymetrix, Inc. Computer-aided techniques for analyzing biological sequences
EP0709466B1 (en) 1994-10-28 2006-09-27 Gen-Probe Incorporated Compositions and methods for the simultaneous detection and quantification of multiple specific nucleic acid sequences
US5648245A (en) 1995-05-09 1997-07-15 Carnegie Institution Of Washington Method for constructing an oligonucleotide concatamer library by rolling circle replication
US5968740A (en) 1995-07-24 1999-10-19 Affymetrix, Inc. Method of Identifying a Base in a Nucleic Acid
GB9516636D0 (en) 1995-08-14 1995-10-18 Univ London In-situ nucleic acid amplification and detection
US5763175A (en) 1995-11-17 1998-06-09 Lynx Therapeutics, Inc. Simultaneous sequencing of tagged polynucleotides
US5854033A (en) 1995-11-21 1998-12-29 Yale University Rolling circle replication reporter systems
CA2248981C (en) 1996-03-15 2009-11-24 The Penn State Research Foundation Detection of extracellular tumor-associated nucleic acid in blood plasma or serum using nucleic acid amplification assays
PT938320E (pt) 1996-03-26 2010-09-22 Michael S Kopreski Método que permite a utilização de arn extracelular extraído de plasma ou de soro para detectar, monitorizar ou avaliar o cancro
US6458530B1 (en) 1996-04-04 2002-10-01 Affymetrix Inc. Selecting tag nucleic acids
US6300077B1 (en) 1996-08-14 2001-10-09 Exact Sciences Corporation Methods for the detection of nucleic acids
US5935793A (en) 1996-09-27 1999-08-10 The Chinese University Of Hong Kong Parallel polynucleotide sequencing method using tagged primers
US6124092A (en) 1996-10-04 2000-09-26 The Perkin-Elmer Corporation Multiplex polynucleotide capture methods and compositions
US6117631A (en) 1996-10-29 2000-09-12 Polyprobe, Inc. Detection of antigens via oligonucleotide antibody conjugates
US6046005A (en) 1997-01-15 2000-04-04 Incyte Pharmaceuticals, Inc. Nucleic acid sequencing with solid phase capturable terminators comprising a cleavable linking group
CA2291180A1 (en) 1997-05-23 1998-11-26 Lynx Therapeutics, Inc. System and apparatus for sequential processing of analytes
AU1603199A (en) 1997-12-03 1999-06-16 Curagen Corporation Methods and devices for measuring differential gene expression
AU5584999A (en) 1998-08-28 2000-03-21 Invitrogen Corporation System for the rapid manipulation of nucleic acid sequences
WO2000014282A1 (en) 1998-09-04 2000-03-16 Lynx Therapeutics, Inc. Method of screening for genetic polymorphism
US6503718B2 (en) 1999-01-10 2003-01-07 Exact Sciences Corporation Methods for detecting mutations using primer extension for detecting disease
WO2000046402A1 (en) 1999-02-05 2000-08-10 Amersham Pharmacia Biotech Uk Limited Genomic analysis method
US6629040B1 (en) 1999-03-19 2003-09-30 University Of Washington Isotope distribution encoded tags for protein identification
EP1165839A2 (en) 1999-03-26 2002-01-02 Whitehead Institute For Biomedical Research Universal arrays
EP1169479B1 (en) 1999-04-09 2006-06-28 EXACT Sciences Corporation Methods for detecting nucleic acids indicative of cancer
DE60045059D1 (de) 1999-04-20 2010-11-18 Nat Inst Of Advanced Ind Scien Verfahren und Sonden zur Bestimmung der Konzentration von Nukleinsäure-Molekülen und Verfahren zur Analyse der gewonnenen Daten
US6355431B1 (en) 1999-04-20 2002-03-12 Illumina, Inc. Detection of nucleic acid amplification reactions using bead arrays
US6242186B1 (en) 1999-06-01 2001-06-05 Oy Jurilab Ltd. Method for detecting a risk of cancer and coronary heart disease and kit therefor
US6326148B1 (en) 1999-07-12 2001-12-04 The Regents Of The University Of California Detection of copy number changes in colon cancer
US6440706B1 (en) 1999-08-02 2002-08-27 Johns Hopkins University Digital amplification
US6586177B1 (en) 1999-09-08 2003-07-01 Exact Sciences Corporation Methods for disease detection
US6849403B1 (en) 1999-09-08 2005-02-01 Exact Sciences Corporation Apparatus and method for drug screening
ATE458831T1 (de) 1999-12-07 2010-03-15 Exact Sciences Corp Verfahren zum nachweis von lungenneoplasmen in fäkalen proben
US6489114B2 (en) 1999-12-17 2002-12-03 Bio Merieux Process for labeling a ribonucleic acid, and labeled RNA fragments which are obtained thereby
JP2003521252A (ja) 2000-02-07 2003-07-15 イルミナ インコーポレイテッド ユニバーサルプライミングを用いる核酸検出方法
US20020072058A1 (en) 2000-03-24 2002-06-13 Voelker Leroy L. Method for amplifying quinolone-resistance-determining-regions and identifying polymorphic variants thereof
US20030207300A1 (en) 2000-04-28 2003-11-06 Matray Tracy J. Multiplex analytical platform using molecular tags
EP1158055A1 (fr) 2000-05-26 2001-11-28 Xu Qi University of Teaxs Laboratoire de Leucémie Chen Méthode pour le diagnostic de cancers
ATE380883T1 (de) 2000-10-24 2007-12-15 Univ Leland Stanford Junior Direkte multiplex charakterisierung von genomischer dna
US20020142345A1 (en) 2000-12-22 2002-10-03 Nelsen Anita J. Methods for encoding and decoding complex mixtures in arrayed assays
US20030049616A1 (en) 2001-01-08 2003-03-13 Sydney Brenner Enzymatic synthesis of oligonucleotide tags
CA2344599C (en) 2001-05-07 2011-07-12 Bioneer Corporation Selective polymerase chain reaction of dna of which base sequence is completely unknown
US7406385B2 (en) 2001-10-25 2008-07-29 Applera Corporation System and method for consensus-calling with per-base quality values for sample assemblies
ES2253461T3 (es) 2002-03-05 2006-06-01 Epigenomics Ag Procedimiento y dispositivo para la determinacion de la especificidad del tejido y del adn que flota libre en tejidos corporales.
US20030186251A1 (en) 2002-04-01 2003-10-02 Brookhaven Science Associates, Llc Genome sequence tags
US7727720B2 (en) 2002-05-08 2010-06-01 Ravgen, Inc. Methods for detection of genetic disorders
US10229244B2 (en) 2002-11-11 2019-03-12 Affymetrix, Inc. Methods for identifying DNA copy number changes using hidden markov model based estimations
JP2006519977A (ja) 2002-11-11 2006-08-31 アフィメトリックス インコーポレイテッド Dnaコピー数変化を同定するための方法
US7822555B2 (en) 2002-11-11 2010-10-26 Affymetrix, Inc. Methods for identifying DNA copy number changes
US7704687B2 (en) 2002-11-15 2010-04-27 The Johns Hopkins University Digital karyotyping
EP1606417A2 (en) 2003-03-07 2005-12-21 Rubicon Genomics Inc. In vitro dna immortalization and whole genome amplification using libraries generated from randomly fragmented dna
US20040259118A1 (en) 2003-06-23 2004-12-23 Macevicz Stephen C. Methods and compositions for nucleic acid sequence analysis
WO2005010145A2 (en) 2003-07-05 2005-02-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
ATE435301T1 (de) 2003-10-16 2009-07-15 Sequenom Inc Nicht invasiver nachweis fötaler genetischer merkmale
DE10348407A1 (de) 2003-10-17 2005-05-19 Widschwendter, Martin, Prof. Prognostische und diagnostische Marker für Zell-proliferative Erkrankungen von Brustgeweben
US20070111233A1 (en) 2003-10-30 2007-05-17 Bianchi Diana W Prenatal diagnosis using cell-free fetal DNA in amniotic fluid
EP1709203A2 (en) 2004-01-23 2006-10-11 Lingvitae AS Improving polynucleotide ligation reactions
DE602005018166D1 (de) 2004-02-12 2010-01-21 Population Genetics Technologi Genetische analyse mittels sequenzspezifischem sortieren
US20060046258A1 (en) 2004-02-27 2006-03-02 Lapidus Stanley N Applications of single molecule sequencing
US20100216153A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
WO2005111242A2 (en) 2004-05-10 2005-11-24 Parallele Bioscience, Inc. Digital profiling of polynucleotide populations
US7276720B2 (en) 2004-07-19 2007-10-02 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060035258A1 (en) 2004-08-06 2006-02-16 Affymetrix, Inc. Methods for identifying DNA copy number changes
US7937225B2 (en) 2004-09-03 2011-05-03 New York University Systems, methods and software arrangements for detection of genome copy number variation
US20060073506A1 (en) 2004-09-17 2006-04-06 Affymetrix, Inc. Methods for identifying biological samples
WO2006047787A2 (en) 2004-10-27 2006-05-04 Exact Sciences Corporation Method for monitoring disease progression or recurrence
US7424371B2 (en) 2004-12-21 2008-09-09 Helicos Biosciences Corporation Nucleic acid analysis
US7393665B2 (en) 2005-02-10 2008-07-01 Population Genetics Technologies Ltd Methods and compositions for tagging and identifying polynucleotides
ITRM20050068A1 (it) 2005-02-17 2006-08-18 Istituto Naz Per Le Malattie I Metodo per la rivelazione di acidi nucleici di agenti patogeni batterici o di parassiti nelle urine.
EP1856293A2 (en) 2005-03-16 2007-11-21 Compass Genetics, Llc Methods and compositions for assay readouts on multiple analytical platforms
EP1861512A4 (en) 2005-03-18 2009-12-09 Fluidigm Corp THERMAL REACTION DEVICE AND USE METHOD THEREFOR
ES2313143T3 (es) 2005-04-06 2009-03-01 Maurice Stroun Metodo para el diagnostico de cancer mediante la deteccion de adn y arn circulantes.
US20070020640A1 (en) 2005-07-21 2007-01-25 Mccloskey Megan L Molecular encoding of nucleic acid templates for PCR and other forms of sequence analysis
US7666593B2 (en) 2005-08-26 2010-02-23 Helicos Biosciences Corporation Single molecule sequencing of captured nucleic acids
CA2910861C (en) 2005-09-29 2018-08-07 Michael Josephus Theresia Van Eijk High throughput screening of mutagenized populations
US7537897B2 (en) 2006-01-23 2009-05-26 Population Genetics Technologies, Ltd. Molecular counting
US20070172839A1 (en) 2006-01-24 2007-07-26 Smith Douglas R Asymmetrical adapters and methods of use thereof
US8383338B2 (en) 2006-04-24 2013-02-26 Roche Nimblegen, Inc. Methods and systems for uniform enrichment of genomic regions
US7702468B2 (en) 2006-05-03 2010-04-20 Population Diagnostics, Inc. Evaluating genetic disorders
IL282783B2 (en) 2006-05-18 2023-09-01 Caris Mpi Inc A system and method for determining a personalized medical intervention for a disease stage
WO2008111990A1 (en) 2006-06-14 2008-09-18 Cellpoint Diagnostics, Inc. Rare cell analysis using sample splitting and dna tags
FR2904833A1 (fr) 2006-08-11 2008-02-15 Bioquanta Sarl Procede de dosage d'acide nuclieque par fluorescence
CA2958994C (en) 2006-11-15 2019-05-07 Biospherex Llc Kit for multiplex sequencing and ecogenomics analysis
US20110014607A1 (en) 2006-12-06 2011-01-20 Jirtle Randy L Imprinted genes and disease
US9090693B2 (en) 2007-01-25 2015-07-28 Dana-Farber Cancer Institute Use of anti-EGFR antibodies in treatment of EGFR mutant mediated disease
DK2121989T4 (da) 2007-03-13 2022-06-20 Amgen Inc K-ras-mutationer og anti-EGFR-antistofbehandling
WO2008148072A2 (en) 2007-05-24 2008-12-04 The Brigham And Women's Hospital, Inc. Disease-associated genetic variations and methods for obtaining and using same
WO2008150432A1 (en) 2007-06-01 2008-12-11 454 Life Sciences Corporation System and meth0d for identification of individual samples from a multiplex mixture
US8182993B2 (en) * 2007-06-06 2012-05-22 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
PT2557517T (pt) 2007-07-23 2023-01-04 Univ Hong Kong Chinese Determinação de um desequilíbrio de sequências de ácido nucleico
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
US20090053719A1 (en) 2007-08-03 2009-02-26 The Chinese University Of Hong Kong Analysis of nucleic acids by digital pcr
WO2009033178A1 (en) 2007-09-07 2009-03-12 Fluidigm Corporation Copy number variation determination, methods and systems
US20100173294A1 (en) 2007-09-11 2010-07-08 Roche Molecular Systems, Inc. Diagnostic test for susceptibility to b-raf kinase inhibitors
ES2694573T3 (es) 2007-11-21 2018-12-21 Cosmosid Inc. Sistema de identificación de genomas
CN101999003A (zh) 2008-02-12 2011-03-30 诺瓦蒂斯公司 分离无细胞凋亡或胎儿核酸的方法
US8216789B2 (en) 2008-02-27 2012-07-10 University Of Washington Diagnostic panel of cancer antibodies and methods for use
US20110003701A1 (en) 2008-02-27 2011-01-06 454 Life Sciences Corporation System and method for improved processing of nucleic acids for production of sequencable libraries
US8206926B2 (en) 2008-03-26 2012-06-26 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
CA2991818C (en) 2008-03-28 2022-10-11 Pacific Biosciences Of California, Inc. Compositions and methods for nucleic acid sequencing
US20110160290A1 (en) 2008-05-21 2011-06-30 Muneesh Tewari Use of extracellular rna to measure disease
DE102008025656B4 (de) 2008-05-28 2016-07-28 Genxpro Gmbh Verfahren zur quantitativen Analyse von Nukleinsäuren, Marker dafür und deren Verwendung
US20090298709A1 (en) 2008-05-28 2009-12-03 Affymetrix, Inc. Assays for determining telomere length and repeated sequence copy number
CN102165073A (zh) 2008-07-10 2011-08-24 骆树恩 用于核酸作图和鉴定核酸中的精细结构变化的方法
US20100041048A1 (en) 2008-07-31 2010-02-18 The Johns Hopkins University Circulating Mutant DNA to Assess Tumor Dynamics
US20100062494A1 (en) 2008-08-08 2010-03-11 President And Fellows Of Harvard College Enzymatic oligonucleotide pre-adenylation
US20100069250A1 (en) 2008-08-16 2010-03-18 The Board Of Trustees Of The Leland Stanford Junior University Digital PCR Calibration for High Throughput Sequencing
WO2010028288A2 (en) 2008-09-05 2010-03-11 Aueon, Inc. Methods for stratifying and annotating cancer drug treatment options
US8383345B2 (en) 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
SI2334812T1 (sl) 2008-09-20 2017-05-31 The Board of Trustees of the Leland Stanford Junior University Office of the General Counsel Building 170 Neinvazivna diagnoza fetalne anevploidije s sekvenciranjem
EP2379748A4 (en) 2008-12-23 2012-08-29 Illumina Inc MULTIBASE RELEASE FOR LONG READINGS IN SEQUENCING BY SYNTHESIS PROTOCOLS
JP2012514977A (ja) 2009-01-13 2012-07-05 キージーン・エン・フェー 新規ゲノム配列決定戦略
US20100323348A1 (en) 2009-01-31 2010-12-23 The Regents Of The University Of Colorado, A Body Corporate Methods and Compositions for Using Error-Detecting and/or Error-Correcting Barcodes in Nucleic Acid Amplification Process
WO2010127186A1 (en) * 2009-04-30 2010-11-04 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
US20120165202A1 (en) 2009-04-30 2012-06-28 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
US20130143747A1 (en) 2011-12-05 2013-06-06 Myriad Genetics, Incorporated Methods of detecting cancer
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
US20100330571A1 (en) 2009-06-25 2010-12-30 Robins Harlan S Method of measuring adaptive immunity
WO2011011426A2 (en) 2009-07-20 2011-01-27 Bar Harbor Biotechnology, Inc. Methods for assessing disease risk
ES2564656T3 (es) 2009-10-26 2016-03-28 Lifecodexx Ag Medios y métodos para el diagnóstico no invasivo de la aneuploidía cromosómica
CN102597272A (zh) 2009-11-12 2012-07-18 艾索特里克斯遗传实验室有限责任公司 基因座的拷贝数分析
US20110237444A1 (en) * 2009-11-20 2011-09-29 Life Technologies Corporation Methods of mapping genomic methylation patterns
US9023769B2 (en) 2009-11-30 2015-05-05 Complete Genomics, Inc. cDNA library for nucleic acid sequencing
US9752187B2 (en) 2009-12-11 2017-09-05 Nucleix Categorization of DNA samples
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US9315857B2 (en) 2009-12-15 2016-04-19 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse label-tags
WO2011087760A2 (en) 2009-12-22 2011-07-21 Sequenom, Inc. Processes and kits for identifying aneuploidy
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
US20110177512A1 (en) 2010-01-19 2011-07-21 Predictive Biosciences, Inc. Method for assuring amplification of an abnormal nucleic acid in a sample
WO2011090556A1 (en) * 2010-01-19 2011-07-28 Verinata Health, Inc. Methods for determining fraction of fetal nucleic acid in maternal samples
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
WO2011091046A1 (en) 2010-01-19 2011-07-28 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing
EP2366031B1 (en) 2010-01-19 2015-01-21 Verinata Health, Inc Sequencing methods in prenatal diagnoses
EP2536854B1 (en) 2010-02-18 2017-07-19 The Johns Hopkins University Personalized tumor biomarkers
EP2547698B1 (en) 2010-03-14 2015-07-29 The Translational Genomics Research Institute Methods of determining susceptibility of tumors to tyrosine kinase inhibitors
CN101967517B (zh) 2010-03-19 2012-11-07 黄乐群 一种无需借助pcr的基因检测方法
WO2011130751A1 (en) 2010-04-16 2011-10-20 Chronix Biomedical Breast cancer associated circulating nucleic acid biomarkers
WO2011140510A2 (en) 2010-05-06 2011-11-10 Bioo Scientific Corporation Oligonucleotide ligation, barcoding and methods and compositions for improving data quality and throughput using massively parallel sequencing
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
ES2647612T3 (es) 2010-06-04 2017-12-22 Chronix Biomedical Biomarcadores de ácidos nucleicos en circulación asociados al cáncer de próstata
ES2960184T3 (es) 2010-06-09 2024-03-01 Keygene Nv Códigos de barras de secuencias combinatorias para el cribado de alto rendimiento
EP2400035A1 (en) 2010-06-28 2011-12-28 Technische Universität München Methods and compositions for diagnosing gastrointestinal stromal tumors
US20120046877A1 (en) * 2010-07-06 2012-02-23 Life Technologies Corporation Systems and methods to detect copy number variation
US20120053073A1 (en) 2010-07-23 2012-03-01 President And Fellows Of Harvard College Methods for Detecting Signatures of Disease or Conditions in Bodily Fluids
SG187646A1 (en) 2010-07-29 2013-03-28 Toto Ltd Photocatalyst coated body and photocatalyst coating liquid
WO2012018387A2 (en) 2010-08-02 2012-02-09 Population Diagnotics, Inc. Compositions and methods for discovery of causative mutations in genetic disorders
US20120034603A1 (en) 2010-08-06 2012-02-09 Tandem Diagnostics, Inc. Ligation-based detection of genetic variants
US11031095B2 (en) * 2010-08-06 2021-06-08 Ariosa Diagnostics, Inc. Assay systems for determination of fetal copy number variation
EP2426217A1 (en) 2010-09-03 2012-03-07 Centre National de la Recherche Scientifique (CNRS) Analytical methods for cell free nucleic acids and applications
EP3211421A1 (en) 2010-09-09 2017-08-30 Traxxsson, LLC Combination methods of diagnosing cancer in a patient
DK2623613T3 (en) 2010-09-21 2016-10-03 Population Genetics Tech Ltd Increasing the reliability of the allele-indications by molecular counting
EP3572528A1 (en) 2010-09-24 2019-11-27 The Board of Trustees of the Leland Stanford Junior University Direct capture, amplification and sequencing of target dna using immobilized primers
WO2012042374A2 (en) 2010-10-01 2012-04-05 Anssi Jussi Nikolai Taipale Method of determining number or concentration of molecules
DK2625320T3 (da) 2010-10-08 2019-07-01 Harvard College High-throughput enkeltcellestregkodning
US8725422B2 (en) 2010-10-13 2014-05-13 Complete Genomics, Inc. Methods for estimating genome-wide copy number variations
EP3461914A1 (en) 2010-10-22 2019-04-03 Cold Spring Harbor Laboratory Varietal counting of nucleic acids for obtaining genomic copy number information
WO2012066451A1 (en) 2010-11-15 2012-05-24 Pfizer Inc. Prognostic and predictive gene signature for colon cancer
KR102040307B1 (ko) 2010-11-30 2019-11-27 더 차이니즈 유니버시티 오브 홍콩 암과 연관된 유전적 또는 분자적 이상들의 검출
JP6328934B2 (ja) 2010-12-22 2018-05-23 ナテラ, インコーポレイテッド 非侵襲性出生前親子鑑定法
US9163281B2 (en) 2010-12-23 2015-10-20 Good Start Genetics, Inc. Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
AU2011352070A1 (en) 2010-12-30 2013-07-18 Foundation Medicine, Inc. Optimization of multigene analysis of tumor samples
US20140011694A1 (en) 2011-01-11 2014-01-09 Via Genomes, Inc. Methods, systems, databases, kits and arrays for screening for and predicting the risk of an identifying the presence of tumors and cancers
WO2012103031A2 (en) 2011-01-25 2012-08-02 Ariosa Diagnostics, Inc. Detection of genetic abnormalities
AU2011358564B9 (en) 2011-02-09 2017-07-13 Natera, Inc Methods for non-invasive prenatal ploidy calling
US20120238464A1 (en) 2011-03-18 2012-09-20 Baylor Research Institute Biomarkers for Predicting the Recurrence of Colorectal Cancer Metastasis
WO2012129363A2 (en) 2011-03-24 2012-09-27 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
AU2012236200B2 (en) 2011-03-30 2015-05-14 Verinata Health, Inc. Method for verifying bioassay samples
EP3246416A1 (en) 2011-04-15 2017-11-22 The Johns Hopkins University Safe sequencing system
US9411937B2 (en) 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation
EP3789498A1 (en) 2011-04-25 2021-03-10 Bio-rad Laboratories, Inc. Methods for nucleic acid analysis
WO2013022504A1 (en) 2011-05-06 2013-02-14 New England Biolabs, Inc. Ligation enhancement
SG10201605049QA (en) 2011-05-20 2016-07-28 Fluidigm Corp Nucleic acid encoding reactions
US9752176B2 (en) 2011-06-15 2017-09-05 Ginkgo Bioworks, Inc. Methods for preparative in vitro cloning
US9340826B2 (en) 2011-08-01 2016-05-17 Celemics, Inc. Method of preparing nucleic acid molecules
US10704164B2 (en) 2011-08-31 2020-07-07 Life Technologies Corporation Methods, systems, computer readable media, and kits for sample identification
WO2013033721A1 (en) 2011-09-02 2013-03-07 Atreca, Inc. Dna barcodes for multiplexed sequencing
US8712697B2 (en) 2011-09-07 2014-04-29 Ariosa Diagnostics, Inc. Determination of copy number variations using binomial probability calculations
US20130079241A1 (en) 2011-09-15 2013-03-28 Jianhua Luo Methods for Diagnosing Prostate Cancer and Predicting Prostate Cancer Relapse
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013052907A2 (en) 2011-10-06 2013-04-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130102485A1 (en) 2011-10-19 2013-04-25 Inhan Lee Method of Determining a Diseased State in a Subject
NO3051026T3 (zh) 2011-10-21 2018-07-28
PL2768985T3 (pl) 2011-10-21 2019-10-31 Chronix Biomedical Biomarkery będące krążącymi kwasami nukleinowymi związane z rakiem jelita grubego
US20130122499A1 (en) 2011-11-14 2013-05-16 Viomics, Inc. System and method of detecting local copy number variation in dna samples
US10214775B2 (en) 2011-12-07 2019-02-26 Chronix Biomedical Prostate cancer associated circulating nucleic acid biomarkers
KR101768652B1 (ko) 2011-12-08 2017-08-16 파이브3 제노믹스, 엘엘씨 Mdm2-포함 이중 소염색체들 및 그의 방법들
EP3434789A1 (en) 2012-01-13 2019-01-30 Data2Bio Genotyping by next-generation sequencing
DK3363901T3 (da) 2012-02-17 2021-02-22 Hutchinson Fred Cancer Res Sammensætninger og fremgangsmåder til præcis identificering af mutationer
JP6375230B2 (ja) 2012-02-27 2018-08-15 セルラー リサーチ, インコーポレイテッド 分子計数のための組成物およびキット
ES2776673T3 (es) 2012-02-27 2020-07-31 Univ North Carolina Chapel Hill Métodos y usos para etiquetas moleculares
WO2013128281A1 (en) 2012-02-28 2013-09-06 Population Genetics Technologies Ltd Method for attaching a counter sequence to a nucleic acid sample
US9890429B2 (en) 2012-02-29 2018-02-13 Dana-Farber Cancer Institute, Inc. Compositions, kits, and methods for the identification, assessment, prevention, and therapy of cancer
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
EP2825675B1 (en) 2012-03-13 2017-12-27 Patel, Abhijit Ajit Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing
ES2828661T3 (es) 2012-03-20 2021-05-27 Univ Washington Through Its Center For Commercialization Métodos para reducir la tasa de error de la secuenciación de ADN masiva en paralelo mediante el uso de la secuenciación de secuencia consenso bicatenaria
WO2013142213A1 (en) 2012-03-20 2013-09-26 Wake Forest University Health Sciences Methods, systems, and computer readable media for tracking and verifying receipt of contents of a delivery within an organization
EP4239081A3 (en) 2012-03-26 2023-11-08 The Johns Hopkins University Rapid aneuploidy detection
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
WO2013159035A2 (en) 2012-04-19 2013-10-24 Medical College Of Wisconsin, Inc. Highly sensitive surveillance using detection of cell free dna
EP2850211B1 (en) * 2012-05-14 2021-09-08 iRepertoire, Inc. Method for increasing accuracy in quantitative detection of polynucleotides
WO2013181170A1 (en) 2012-05-31 2013-12-05 Board Of Regents, The University Of Texas System Method for accurate sequencing of dna
SG11201407888RA (en) 2012-06-11 2014-12-30 Sequenta Inc Method of sequence determination using sequence tags
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
WO2014004726A1 (en) 2012-06-26 2014-01-03 Caifu Chen Methods, compositions and kits for the diagnosis, prognosis and monitoring of cancer
AU2013204615A1 (en) 2012-07-20 2014-02-06 Verinata Health, Inc. Detecting and classifying copy number variation in a fetal genome
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014149134A2 (en) * 2013-03-15 2014-09-25 Guardant Health Inc. Systems and methods to detect rare mutations and copy number variation
KR102028375B1 (ko) 2012-09-04 2019-10-04 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US9932576B2 (en) 2012-12-10 2018-04-03 Resolution Bioscience, Inc. Methods for targeted genomic analysis
EP2941753A4 (en) 2013-01-05 2016-08-17 Foundation Medicine Inc SYSTEM AND METHOD FOR MONITORING AND ANALYZING RESULTS
CA3150658A1 (en) 2013-01-18 2014-07-24 Foundation Medicine, Inc. Methods of treating cholangiocarcinoma
US20160034638A1 (en) 2013-03-14 2016-02-04 University Of Rochester System and Method for Detecting Population Variation from Nucleic Acid Sequencing Data
CA2905410A1 (en) 2013-03-15 2014-09-25 Abbott Molecular Inc. Systems and methods for detection of genomic copy number changes
ES2946689T3 (es) 2013-03-15 2023-07-24 Univ Leland Stanford Junior Identificación y uso de marcadores tumorales de ácido nucleico circulante
US10017807B2 (en) 2013-03-15 2018-07-10 Verinata Health, Inc. Generating cell-free DNA libraries directly from blood
GB2584364A (en) * 2013-03-15 2020-12-02 Abvitro Llc Single cell bar-coding for antibody discovery
SG11201507739TA (en) 2013-03-19 2015-10-29 Toppan Printing Co Ltd Method for predicting sensitivity to egfr inhibitor
JP6618894B2 (ja) 2013-05-23 2019-12-11 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 個別的エピゲノミクスのための天然クロマチンへの転移
JP2015096049A (ja) 2013-11-15 2015-05-21 凸版印刷株式会社 Vegf阻害剤長期奏功性予測方法
AU2014369841B2 (en) 2013-12-28 2019-01-24 Guardant Health, Inc. Methods and systems for detecting genetic variants
EP3643795B1 (en) 2014-04-14 2022-03-30 Yissum Research and Development Company of the Hebrew University of Jerusalem Ltd. A method for determining the death of cells or tissue by dna methylation analysis
ES2844229T3 (es) 2014-05-13 2021-07-21 Univ Texas Mutaciones génicas y alteraciones en el número de copias de EGFR, KRAS y MET
US20180082012A1 (en) 2014-07-25 2018-03-22 Bgi Genomics Co., Ltd. Method and device for determining fraction of cell-free nucleic acids in biological sample and use thereof
WO2016015058A2 (en) 2014-07-25 2016-01-28 University Of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
US20160053301A1 (en) 2014-08-22 2016-02-25 Clearfork Bioscience, Inc. Methods for quantitative genetic analysis of cell free dna
CN106716425A (zh) 2014-09-10 2017-05-24 百思威基因公司 健康和保健管理方法及用于其实践的系统
ES2925014T3 (es) 2014-09-12 2022-10-13 Univ Leland Stanford Junior Identificación y uso de ácidos nucleicos circulantes
PT3256605T (pt) 2015-02-10 2022-03-17 Univ Hong Kong Chinese Deteção de mutações para rastreio de cancro e análise fetal
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
CN109072294A (zh) 2015-12-08 2018-12-21 特温斯特兰德生物科学有限公司 用于双重测序的改良衔接子、方法和组合物
WO2017181146A1 (en) 2016-04-14 2017-10-19 Guardant Health, Inc. Methods for early detection of cancer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011142836A2 (en) * 2010-05-14 2011-11-17 Fluidigm Corporation Assays for the detection of genotype, mutations, and/or aneuploidy
US20120100548A1 (en) * 2010-10-26 2012-04-26 Verinata Health, Inc. Method for determining copy number variations
US20120184449A1 (en) * 2010-12-23 2012-07-19 Sequenom, Inc. Fetal genetic variation detection
WO2012106559A1 (en) * 2011-02-02 2012-08-09 Translational Genomics Research Institute Biomarkers and methods of use thereof

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ISAAC ET AL: "Detection and quantification of rare mutations with massively parallel sequencing" *
MICHAEL ET AL.: "Detection of ultra-rare mutations by next-generation sequencing" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908411A (zh) * 2021-01-12 2021-06-04 广州市金域转化医学研究院有限公司 一种线粒体变异位点数据库及其建立方法和应用

Also Published As

Publication number Publication date
US20220205051A1 (en) 2022-06-30
SG11201501662TA (en) 2015-05-28
US10961592B2 (en) 2021-03-30
US10793916B2 (en) 2020-10-06
EP3470533A1 (en) 2019-04-17
DE202013012824U1 (de) 2020-03-10
EP3470533B1 (en) 2019-11-06
US20230151435A1 (en) 2023-05-18
JP6664025B2 (ja) 2020-03-13
KR102210852B1 (ko) 2021-02-01
US10501808B2 (en) 2019-12-10
GB201509071D0 (en) 2015-07-08
EP4036247A1 (en) 2022-08-03
US20190185940A1 (en) 2019-06-20
SG10202000486VA (en) 2020-03-30
US11001899B1 (en) 2021-05-11
HK1201080A1 (zh) 2015-08-21
US20190177802A1 (en) 2019-06-13
US10738364B2 (en) 2020-08-11
US11319598B2 (en) 2022-05-03
US20190185941A1 (en) 2019-06-20
US9840743B2 (en) 2017-12-12
MX2015002769A (es) 2015-08-14
US20170218460A1 (en) 2017-08-03
US20170218459A1 (en) 2017-08-03
JP2022169566A (ja) 2022-11-09
US20200087736A1 (en) 2020-03-19
CA2883901C (en) 2023-04-11
US20210032707A1 (en) 2021-02-04
EP3591073A1 (en) 2020-01-08
ES2769241T3 (es) 2020-06-25
PT2893040T (pt) 2019-04-01
EP2893040B1 (en) 2019-01-02
US20180327862A1 (en) 2018-11-15
CA2883901A1 (en) 2014-03-13
US9834822B2 (en) 2017-12-05
PL2893040T3 (pl) 2019-05-31
US10837063B2 (en) 2020-11-17
PL3591073T3 (pl) 2022-03-28
ES2769241T5 (es) 2023-05-30
US10494678B2 (en) 2019-12-03
US11773453B2 (en) 2023-10-03
BR112015004847A2 (pt) 2020-04-22
EP4036247B1 (en) 2024-04-10
KR102028375B1 (ko) 2019-10-04
ES2711635T3 (es) 2019-05-06
IL269097B1 (en) 2023-09-01
IL269097B2 (en) 2024-01-01
US10995376B1 (en) 2021-05-04
EP2893040A4 (en) 2016-04-27
JP2020103298A (ja) 2020-07-09
EP2893040A1 (en) 2015-07-15
US20210130912A1 (en) 2021-05-06
US10947600B2 (en) 2021-03-16
US20210139998A1 (en) 2021-05-13
US20200087735A1 (en) 2020-03-19
EP3842551C0 (en) 2023-11-01
EP3591073B1 (en) 2021-12-01
KR20220061271A (ko) 2022-05-12
US20180171415A1 (en) 2018-06-21
GB2533006B (en) 2017-06-07
EP3842551A1 (en) 2021-06-30
WO2014039556A1 (en) 2014-03-13
KR102393608B1 (ko) 2022-05-03
US20180223374A1 (en) 2018-08-09
US10457995B2 (en) 2019-10-29
GB2533006A (en) 2016-06-08
US9598731B2 (en) 2017-03-21
IL237480A0 (en) 2015-04-30
US11319597B2 (en) 2022-05-03
CN104781421A (zh) 2015-07-15
US11879158B2 (en) 2024-01-23
CN104781421B (zh) 2020-06-05
IL305303A (en) 2023-10-01
US20200299785A1 (en) 2020-09-24
US10822663B2 (en) 2020-11-03
US20150368708A1 (en) 2015-12-24
US10876171B2 (en) 2020-12-29
US20220042104A1 (en) 2022-02-10
JP6275145B2 (ja) 2018-02-07
US20190177803A1 (en) 2019-06-13
JP2018027096A (ja) 2018-02-22
US20150299812A1 (en) 2015-10-22
MX367963B (es) 2019-09-11
KR20190112843A (ko) 2019-10-07
US10501810B2 (en) 2019-12-10
CA3190199A1 (en) 2014-03-13
US10041127B2 (en) 2018-08-07
KR20210013317A (ko) 2021-02-03
JP2020000237A (ja) 2020-01-09
IL237480B (en) 2019-10-31
US20200248270A1 (en) 2020-08-06
KR20240007774A (ko) 2024-01-16
KR20150067161A (ko) 2015-06-17
JP7119014B2 (ja) 2022-08-16
DK2893040T5 (en) 2019-03-18
IL269097A (en) 2019-11-28
ES2906714T3 (es) 2022-04-20
US20230323477A1 (en) 2023-10-12
US20200291487A1 (en) 2020-09-17
HK1225416B (zh) 2017-09-08
EP3842551B1 (en) 2023-11-01
US20210340632A1 (en) 2021-11-04
HK1212396A1 (zh) 2016-06-10
US10683556B2 (en) 2020-06-16
EP3470533B2 (en) 2023-01-18
DK2893040T3 (en) 2019-03-11
US20210355549A1 (en) 2021-11-18
JP2015535681A (ja) 2015-12-17
US10876172B2 (en) 2020-12-29

Similar Documents

Publication Publication Date Title
US11091796B2 (en) Systems and methods to detect rare mutations and copy number variation
US10876172B2 (en) Systems and methods to detect rare mutations and copy number variation
US10894974B2 (en) Systems and methods to detect rare mutations and copy number variation
CN114574581A (zh) 检测稀有突变和拷贝数变异的系统和方法
US11913065B2 (en) Systems and methods to detect rare mutations and copy number variation
US20220389489A1 (en) Systems and methods to detect rare mutations and copy number variation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40023280

Country of ref document: HK