CN112789352A - 用于处理样品的方法和系统 - Google Patents
用于处理样品的方法和系统 Download PDFInfo
- Publication number
- CN112789352A CN112789352A CN201980059603.XA CN201980059603A CN112789352A CN 112789352 A CN112789352 A CN 112789352A CN 201980059603 A CN201980059603 A CN 201980059603A CN 112789352 A CN112789352 A CN 112789352A
- Authority
- CN
- China
- Prior art keywords
- sequencing library
- polymorphisms
- rna
- dna
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012545 processing Methods 0.000 title abstract description 12
- 102000054765 polymorphisms of proteins Human genes 0.000 claims abstract description 67
- 238000003559 RNA-seq method Methods 0.000 claims description 62
- 238000001712 DNA sequencing Methods 0.000 claims description 55
- 102000054766 genetic haplotypes Human genes 0.000 claims description 27
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 15
- 239000002773 nucleotide Substances 0.000 claims description 10
- 125000003729 nucleotide group Chemical group 0.000 claims description 10
- 244000052769 pathogen Species 0.000 claims description 10
- 210000001124 body fluid Anatomy 0.000 claims description 9
- 201000010099 disease Diseases 0.000 claims description 9
- 230000001717 pathogenic effect Effects 0.000 claims description 7
- 208000035475 disorder Diseases 0.000 claims description 6
- 239000008280 blood Substances 0.000 claims description 5
- 210000004369 blood Anatomy 0.000 claims description 5
- 238000007672 fourth generation sequencing Methods 0.000 claims description 5
- 210000003296 saliva Anatomy 0.000 claims description 5
- 210000004243 sweat Anatomy 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 210000002700 urine Anatomy 0.000 claims description 5
- 230000002934 lysing effect Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 abstract description 34
- 108020004707 nucleic acids Proteins 0.000 abstract description 9
- 102000039446 nucleic acids Human genes 0.000 abstract description 9
- 150000007523 nucleic acids Chemical class 0.000 abstract description 9
- 239000000523 sample Substances 0.000 description 40
- 229920002477 rna polymer Polymers 0.000 description 25
- 230000015654 memory Effects 0.000 description 19
- 238000003860 storage Methods 0.000 description 18
- 241000282414 Homo sapiens Species 0.000 description 14
- 239000013610 patient sample Substances 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 210000004027 cell Anatomy 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 238000007481 next generation sequencing Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 108020004414 DNA Proteins 0.000 description 4
- 102000053602 DNA Human genes 0.000 description 4
- 238000003556 assay Methods 0.000 description 4
- 238000003205 genotyping method Methods 0.000 description 4
- 230000002438 mitochondrial effect Effects 0.000 description 4
- 108700028369 Alleles Proteins 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 108020004635 Complementary DNA Proteins 0.000 description 2
- 108020005196 Mitochondrial DNA Proteins 0.000 description 2
- 238000010804 cDNA synthesis Methods 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 244000005700 microbiome Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 108020004418 ribosomal RNA Proteins 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 241000736262 Microbiota Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010205 computational analysis Methods 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 208000012268 mitochondrial disease Diseases 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Organic Chemistry (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本公开提供了用于处理包含核酸分子的样品的方法和系统。所述方法可包括鉴定多个测序文库中的多态性,并使用所述多态性将所述多个测序文库鉴定为与相同样品相关联。
Description
交叉引用
本申请要求于2018年7月11日提交的第62/696,783号美国临时专利申请的权益,该临时申请通过引用整体并入本文。
背景技术
可以出于各种目的来分析样品,包括检测样品中诸如核酸分子的靶标的存在或量。包含一个或多个核酸分子的样品的分析可涉及对核酸分子或其部分或衍生物进行测序。测序可以促进鉴定样品内的污染物和/或可能感兴趣的物质。例如,可以利用测序来鉴定样品内的微生物或病原体。
发明内容
在此认识到需要改进对患者样品中的病原体的诊断试验。诊断试验可能涉及从患者样品中提取核糖核酸(RNA)和脱氧核糖核酸(DNA)分子,并制备(例如,独立制备)RNA(例如,转化为互补DNA(cDNA)的RNA)和DNA分子的测序文库。除了代表可能包括样品中存在的病原体和正常微生物群的微生物外,这些测序文库还包含患者的人类序列。可以使用同一仪器同时和/或彼此接近地分析多个样品。尽管训练有素的技术人员会按照旨在确保正确的样品和文库身份的标准操作程序进行文库制备,但在RNA文库并非与DNA文库来自同一患者样品的情况下,始终存在样品误分配的微小可能性。
因此,本公开提供了用于处理和鉴定包含核酸分子或其衍生物(例如,测序读取)的样品的方法和系统。可以分开处理包含多个RNA分子和多个DNA分子的样品,以提供RNA测序文库和DNA测序文库。可以鉴定在RNA和DNA文库之间共有的标志物,并用其将文库鉴定为衍生自相同患者样品。例如,可以对人类序列中的多态性进行基因型分型,然后进行匹配。人类多态性的两个容易应用的类别是1)单核苷酸多态性(SNP),和2)线粒体DNA(mtDNA)中的单倍群(haplogroup)。对于SNP,可以选择约一百个基因座的一小部分进行基因型分型,这些基因座位于表达的区域中,并且在多种多样的种族中具有高度多态性。这种方法类似于被称为祖先信息标志物(AIM)的多态性SNP的子集,AIM可用于多种基因组应用,从人类学到人类疾病的分层病例对照关联研究。类似地,可以利用能鉴定出单倍群的mtDNA基因型分型来研究人类多样性和全球迁徙。
在一方面,本公开提供了一种鉴定多态性的方法,其包括:(a)提供核糖核酸(RNA)测序文库和脱氧核糖核酸(DNA)测序文库,其中所述RNA测序文库和所述DNA测序文库衍生自相同样品;(b)鉴定所述RNA测序文库中的一个或多个多态性和所述DNA测序文库中的一个或多个多态性;以及(c)将所述RNA测序文库的多态性和所述DNA测序文库的多态性鉴定为相同的。
在一些实施方案中,所述方法进一步包括,在(c)之前,为所述RNA测序文库的所述一个或多个多态性和所述DNA测序文库的所述一个或多个多态性的每个多态性分配随机索引,其中分配给所述RNA测序文库的给定多态性的随机索引与分配给所述DNA测序文库的给定多态性的随机索引相同。在一些实施方案中,所述随机索引包括哈希(hashes)、数字和/或整数。
在一些实施方案中,所述RNA测序文库的所述一个或多个多态性和所述DNA测序文库的所述一个或多个多态性选自单核苷酸多态性和单倍群。在一些实施方案中,所述RNA测序文库的所述一个或多个多态性和所述DNA测序文库的所述一个或多个多态性是单核苷酸多态性。
在一些实施方案中,所述方法可以进一步包括生成所述RNA测序文库和所述DNA测序文库。在一些实施方案中,生成所述RNA测序文库包括提供包含多个RNA分子和多个DNA分子的样品。在一些实施方案中,所述多个RNA分子和所述多个DNA分子是分开的。在一些实施方案中,所述RNA测序文库和所述DNA测序文库同时制备。在一些实施方案中,生成所述RNA测序文库和/或所述DNA测序文库包括合成测序或纳米孔测序。在一些实施方案中,生成所述RNA测序文库包括反转录所述多个RNA分子。
在一些实施方案中,所述样品包含一个或多个细胞。在一些实施方案中,所述方法进一步包括裂解所述一个或多个细胞。
在一些实施方案中,所述RNA测序文库和所述DNA测序文库衍生自体液。在一些实施方案中,所述体液选自血液、尿液、唾液和汗液。
在一些实施方案中,所述样品来源于患者。在一些实施方案中,所述患者患有或被怀疑患有疾病或病症。在一些实施方案中,所述患者已经暴露于或被怀疑已经暴露于病原体。
在另一方面,本公开提供了一种鉴定多态性的方法,其包括:(A)提供核糖核酸(RNA)测序文库和脱氧核糖核酸(DNA)测序文库,其中所述RNA测序文库和所述DNA测序文库衍生自相同样品;(b)鉴定所述RNA测序文库的一个或多个多态性和所述DNA测序文库的一个或多个多态性;(c)模糊化(obfuscating)所述RNA测序文库中的所述一个或多个多态性和所述DNA测序文库中的所述一个或多个多态性;以及(d)将所述RNA测序文库的多态性和所述DNA测序文库的多态性鉴定为相同的。
在一些实施方案中,基于(d),将所述RNA测序文库和所述DNA测序文库鉴定为衍生自相同样品。
在一些实施方案中,所述方法进一步包括,在(c)之前,为所述RNA测序文库的所述一个或多个多态性和所述DNA测序文库的所述一个或多个多态性的每个多态性分配随机索引,其中分配给所述RNA测序文库的给定多态性的随机索引与分配给所述DNA测序文库的给定多态性的随机索引相同。在一些实施方案中,所述随机索引包括哈希(hashes)、数字和/或整数。
在一些实施方案中,所述RNA测序文库的所述一个或多个多态性和所述DNA测序文库的所述一个或多个多态性选自单核苷酸多态性和单倍群。在一些实施方案中,所述RNA测序文库的所述一个或多个多态性和所述DNA测序文库的所述一个或多个多态性是单核苷酸多态性。
在一些实施方案中,所述方法可以进一步包括生成所述RNA测序文库和所述DNA测序文库。在一些实施方案中,生成所述RNA测序文库包括提供包含多个RNA分子和多个DNA分子的样品。在一些实施方案中,所述多个RNA分子和所述多个DNA分子是分开的。在一些实施方案中,所述RNA测序文库和所述DNA测序文库同时制备。在一些实施方案中,生成所述RNA测序文库和/或所述DNA测序文库包括合成测序或纳米孔测序。在一些实施方案中,生成所述RNA测序文库包括反转录所述多个RNA分子。
在一些实施方案中,所述样品包含一个或多个细胞。在一些实施方案中,所述方法进一步包括裂解所述一个或多个细胞。
在一些实施方案中,所述RNA测序文库和所述DNA测序文库衍生自体液。在一些实施方案中,所述体液选自血液、尿液、唾液和汗液。
在一些实施方案中,所述样品来源于患者。在一些实施方案中,所述患者患有或被怀疑患有疾病或病症。在一些实施方案中,所述患者已经暴露于或被怀疑已经暴露于病原体。
基于仅示出并描述了本公开的说明性实施方案的以下详细描述,本公开的其他方面和优点对本领域技术人员而言将变得显而易见。应当认识到,本公开能够具有其他不同的实施方案,并且其若干细节能够在各个明显的方面进行修改,所有这些都不脱离本公开内容。因此,附图和说明书在本质上将被视为说明性的,而非限制性的。
援引并入
本说明书中所提及的所有出版物、专利和专利申请均通过引用并入本文,其程度犹如具体地且单独地指出每个单独的出版物、专利或专利申请均通过引用而并入。如果通过引用而并入的出版物和专利或专利申请与本说明书中包含的公开内容存在矛盾,则本说明书旨在取代和/或优先于任何这样的矛盾材料。
附图说明
本发明的新颖特征在所附权利要求书中具体阐述。通过参考以下对利用本发明原理的说明性实施方案加以阐述的详细描述以及附图(在本文中也称为“图”),将会对本发明的特征和优点获得更好的理解,在这些附图中:
图1显示了样品工作流程,其中材料正确地与同一患者相关联;
图2显示了样品工作流程,其中材料错误地与同一患者相关联;并且
图3显示了被编程或以其他方式配置用于实现此处本公开的方法的计算机系统。
具体实施方式
尽管已经在本文中显示并描述了本发明的多个实施方案,但是对本领域技术人员显而易见的是这些实施方案仅作为实例提供。在不偏离本发明的情况下,本领域技术人员可以想到许多改变、变化和替换。应当理解,可以使用本文所述发明的实施方案的各种替代方案。
在将值描述为范围的情况下,应当理解,这样的公开包括公开了在这类范围内的所有可能的子范围以及落入这类范围内的具体数值,而无论明确记载的是具体数值还是具体子范围。
本公开提供了鉴定测序文库中的多态性的方法。该方法可包括提供与样品相关的多个测序文库(例如,RNA测序文库和DNA测序文库),鉴定所述多个测序文库中的一个或多个多态性,以及将与所述多个测序文库的第一测序文库相关的多态性和与所述多个测序文库的第二测序文库相关的多态性鉴定为相同的。在一些情况下,将多态性鉴定为相同的可以将与之相关联的测序文库鉴定为衍生自相同样品,例如衍生自来自患者的相同样品。
多个测序文库可以与相同样品相关联。样品可来源于患者(例如人类患者)。样品所来源的患者可能患有或被怀疑患有疾病或病症。在一些情况下,样品所来源的患者可能患有或被怀疑患有与病原体(例如细菌、真菌或病毒)相关的疾病或病症。在一些情况下,样品所来源的患者可能已经暴露于或被怀疑已经暴露于病原体。
样品可包括体液,如血液、尿液、唾液或汗液。样品可包含一个或多个细胞,并且/或者可包含无细胞的核酸分子。可以裂解样品的细胞,以提供对其中多个核酸分子的接近。
可以提供测序文库以用于分析和处理。测序文库可以从样品(例如,来自患者的样品)的多个核酸分子(例如,多个RNA分子和多个DNA分子)生成。生成测序文库可包括合成测序、纳米孔测序、连接测序、杂交测序或另一种方法。在一些情况下,生成测序文库可包括使用例如Illumina NGS平台的下一代测序(NGS)。可以分开和/或同时生成用于不同核酸分子群体的测序文库。例如,可以分开制备DNA测序文库和RNA测序文库。生成RNA测序文库可包括反转录多个RNA分子,以提供多个互补DNA(cDNA)分子。测序读取可以以例如fastq文件格式提供。
通过将测序读取与参考物进行比对并应用概率模型,可以在测序数据(例如,使用下一代测序,例如从Illumina平台产生的数据)中检测多态性,如单核苷酸多态性(SNP)和线粒体脱氧核糖核酸(mtDNA)单倍群。对于SNP,参考物可以是人类基因组构建物(build),而mtDNA的参考物可以是重建的智人参考序列(Reconstructed Sapiens ReferenceSequence,RSRS)。SNP基因型分型可包括使用软件应用程序,如GATK或FreeBayes。可以使用相同或不同的软件来鉴定mtDNA单倍群。在一些情况下,鉴定mtDNA单倍群可包括使用软件应用程序,如MToolBox或mitoMap。
确定SNP基因型和mtDNA单倍群可能会间接暴露患者受保护的健康信息(PHI)。某些SNP基因座可通过连锁不平衡来指示人类疾病,这是病例对照关联研究的基础。用于确定mtDNA单倍群的多态性可与线粒体疾病相关。尽管在实践中这种与疾病的关联可能非常罕见,但SNP基因型分型和mtDNA单倍群可以揭示患者的种族,以及患者母亲的种族。为了避免这种不必要的PHI暴露,将模糊化SNP基因型和mtDNA单倍群。基因型和单倍群的准确性可能不是必需的;对于该应用而言,最重要的是以所需的精确度检测多态性,以匹配RNA和DNA测序文库。
SNP基因型和mtDNA单倍群的模糊化可能依赖于随机哈希的使用。对于SNP,哈希表可以为大约100个基因座中的每个基因座分配随机索引(如唯一整数)。基因座的基因组位置可能是隐藏的;而随机索引可确保对于每个患者样品,基因型可以以不同的顺序输出。对于mtDNA单倍群,线粒体系统发生树中的进化枝用字母表示,子进化枝用整数(例如C4)表示;哈希表可以将随机唯一字母重新分配给进化枝,并且将随机唯一整数重新分配给后续的子进化枝。较低级别的单倍群,如C4a1中的“a1”,也可以重新分配字母和整数。由于RNA和DNA文库都可以使用相同的哈希,因此在单倍群判定(call)之间的比较中可以保留单倍群的深度(树中的分支)。
在一些情况下,文库之间SNP基因型的比较可能因杂合基因型而变得复杂。由于多种原因,如等位基因特异性表达或低读取覆盖度,真正的杂合基因型可能被错误判定为纯合的。可以开发一种考虑这种类型的错误判定的频率的概率模型,以测量在大约一百个选定SNP处的基因型判定集之间匹配的置信度。来自例如RNASeq的数据(例如现有数据)可用于选择表达的区域中的SNP,并与来自例如DNASeq数据的基因型进行比较,以帮助构建该模型。
在一些情况下,由于RNA和DNA文库之间单倍群判定的深度不同,mtDNA单倍群的比较可能会复杂化。如果读取覆盖度低,则单倍群判定可能会很浅(更靠近主进化枝)。像表达的SNP位点一样,RNASeq中的读取覆盖度取决于患者线粒体中的表达水平;而且,DNASeq的读取覆盖度可能因DNA提取和人类消耗过程的变化而发生变化。各种低读取覆盖度的数据(例如,现有数据)可以帮助创建将单倍群判定深度与真实文库匹配相关联的模型。
在一些情况下,可以对患者样品进行多次分析。例如,用户可能希望验证分析的结果,特别是在第一次分析不满足测序过程和/或样品文库制备的所有质量控制标准时。当在随后的实验中重新分析同一患者样品时,也可以使用在分析中使用人类多态性对RNA和DNA测序文库进行匹配的相同方法来匹配整个实验(例如,运行)中的文库。
在当前方法如GATK和MToolBox中将读取与参考序列进行比对的过程可能非常耗时。相反,Taxonomer软件(Flygare 2016,DOI:10.1186/s13059-016-0969-1)允许计算高效的序列比较,其将读取分解为多个k-聚体,这些k-聚体可与衍生自已知序列的参考数据库的索引化k-聚体相匹配。Taxonomer软件的Binner组件可用来快速分离对应于目的SNP基因座和mtDNA的测序读取。为了减少SNP处的偏倚,Binner参考物可包含大约一百个选定多态性的所有已知等位基因。这种等位基因平衡的Binner参考物可以通过使用来自1000基因组计划(1000Genomes Project)的可公开获得数据进行广泛测试,该数据包含来自代表多个种族的人类个体的NGS Illumina平台数据。类似地,为了减少mtDNA中的偏倚,可以使用GenBank中全部超过15,000条人类线粒体基因组记录作为Binner参考物。在搜索人类多态性时,使用Taxonomer Binner软件可以大大缩短计算分析时间,这将与对病原体的主搜索高度互补。
图1显示了样品工作流程,其中材料正确地与同一患者相关联,而图2显示了样品工作流程,其中材料错误地与同一患者相关联。在每张附图中,左图包括对两个假定的患者样品进行处理和测序的流程图,而右图显示线粒体单倍群以及如何使用哈希函数来模糊化单倍群判定,这可能与受保护的健康信息(PHI)相关,因为它们可能会反映祖先信息。
计算机系统
本公开提供了计算机系统,其被编程用于实现本公开的方法。图3显示了计算机系统301,其被编程或以其他方式配置用于处理和/或测定样品。计算机系统301可以调节本公开的样品处理和测定的各个方面,例如,激活阀或泵以将试剂或样品从一个腔室转移到另一个腔室,或对样品施加热(例如,在扩增反应期间)。计算机系统301可以是用户的电子设备,或者是相对于该电子设备位于远程的计算机系统。该电子设备可以是移动电子设备。
计算机系统301包括中央处理单元(CPU,本文也称为“处理器”和“计算机处理器”)305,该中央处理单元可以是单核或多核处理器,或者是用于并行处理的多个处理器。计算机系统301还包括存储器或存储器位置310(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元315(例如,硬盘)、用于与一个或多个其他系统通信的通信接口320(例如,网络适配器)和外围设备325,如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器310、存储单元315、接口320和外围设备325通过诸如主板的通信总线(实线)与CPU 305通信。存储单元315可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统301可以借助于通信接口320可操作地耦合至计算机网络(“网络”)330。网络330可以是因特网、互联网和/或外联网,或者与因特网通信的内联网和/或外联网。网络330在一些情况下是电信和/或数据网络。网络330可包括能够实现分布式计算如云计算的一个或多个计算机服务器。在一些情况下,网络330借助于计算机系统301可以实现对等网络,这可以使得耦合至计算机系统301的设备能够起到客户端或服务器的作用。
CPU 305可以执行一系列可以在程序或软件中体现的机器可读指令。所述指令可以存储在诸如存储器310的存储器位置中。所述指令可被导向CPU 305,其随后可对CPU 305进行编程或以其他方式进行配置,以实现本公开的方法。由CPU 305执行的操作的实例可包括获取、解码、执行和写回。
CPU 305可以是电路如集成电路的一部分。系统301中的一个或多个其他组件可被包括在该电路中。在一些情况下,该电路是专用集成电路(ASIC)。
存储单元315可以存储文件,如驱动程序、文库和保存的程序。存储单元315可以存储用户数据,例如,用户偏好和用户程序。在一些情况下,计算机系统301可包括位于计算机系统301外部(诸如位于通过内联网或因特网与计算机系统301通信的远程服务器上)的一个或多个附加数据存储单元。
计算机系统301可通过网络330与一个或多个远程计算机系统通信。例如,计算机系统301可与用户的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如,便携式PC)、平板或平板PC(例如,iPad、Galaxy Tab)、电话、智能电话(例如,iPhone、支持Android的设备、)或个人数字助理。用户可以通过网络330访问计算机系统301。
如本文所述的方法可通过存储在计算机系统301的电子存储位置上(例如存储器310或电子存储单元315上)的机器(例如,计算机处理器)可执行代码来实现。该机器可执行代码或机器可读代码可以以软件的形式提供。在使用过程中,该代码可以由处理器305执行。在一些情况下,该代码可从存储单元315中检索到,并存储在存储器310上,以备由处理器305访问。在一些情况下,可以不包括电子存储单元315,而将机器可执行指令存储在存储器310上。
可将该代码预编译并配置用于与具有适于执行该代码的处理器的机器一起使用,或者可以在运行过程中对其进行编译。该代码可以以编程语言的形式提供,该编程语言可以被选择为使得该代码能够以预编译或实时编译的方式执行。
本文提供的系统和方法的各方面,如计算机系统301,可以在编程中体现。该技术的各个方面可以被认为是“产品”或“制品”,其一般为在某种类型的机器可读介质中携带或体现的机器(或处理器)可执行代码和/或关联数据的形式。机器可执行代码可以存储在电子存储单元如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的任何或全部有形存储器,或其相关模块,如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可以随时为软件编程提供非暂时性存储。软件的全部或部分可以不时地通过因特网或各种其他电信网络进行通信。例如,这样的通信可以使软件能够从一台计算机或处理器加载到另一台计算机或处理器,例如,从管理服务器或主机加载到应用服务器的计算机平台。因此,可以承载软件元件的另一类型的介质包括光波、电波和电磁波,诸如跨越本地设备之间的物理接口、通过有线和光学陆线网络以及经由各种空中链路所使用的。携带这类波的物理元件,如有线或无线链路、光学链路等,也可以被认为是承载软件的介质。除非局限于非暂时性有形“存储”介质,否则如本文所用的诸如计算机或机器“可读介质”等术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质,如计算机可执行代码,可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括,例如,光盘或磁盘,如任何计算机中的任何存储设备等,例如可用来实现附图中所示的数据库等。易失性存储介质包括动态存储器,如这样的计算机平台的主存储器。有形传输介质包括同轴电缆、铜线和光纤,包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,诸如在射频(RF)和红外线(IR)数据通信期间生成的那些信号或波。因此,计算机可读介质的常见形式包括,例如:软盘、柔性盘、硬盘、磁带、其他任何磁性介质、CD-ROM、DVD或DVD-ROM、其他任何光学介质、穿孔卡片纸带、其他任何具有孔洞图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、其他任何存储器芯片或匣盒、传输数据或指令的载波、传输这类载波的线缆或链路,或者计算机可以从中读取编程代码和/或数据的其他任何介质。这些计算机可读介质形式中的许多形式可以参与将一个或多个指令的一个或多个序列运载到处理器以供执行。
计算机系统301可包括电子显示器335或与之通信,电子显示器335包括用户界面(UI)340,以提供例如样品处理或测定的当前阶段(例如,正在进行的特定操作,如裂解操作)。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
本公开的方法和系统可以通过一个或多个算法来实现。算法可以通过软件在由中央处理单元305执行时实现。
实施例
实施例1.概念验证
从患者样品制备了三个测序文库。其中两个文库是RNA文库,并测试了使用RiboZero消耗核糖体RNA的效果;第三个文库是DNA文库。将这些文库在Illumina MiSeq上测序;并在MToolBox中处理fastq数据,以确定mtDNA单倍群。结果总结在下表中。
mtDNA单倍群判定在三个文库之间是一致的,这充分证实了它们衍生自同一患者样品。在此,单倍群判定没有被模糊化。注意:Ribo Zero(第一RNA文库“RZ”)似乎除了消耗核糖体RNA外,还降低了线粒体转录物。
参考用于说明的示例应用对几个方面进行了描述。除非另有说明,否则任何实施方案可与其他任何实施方案相组合。应当理解,阐述许多具体细节、关系和方法是为了提供对本文所述特征的全面了解。然而,技术人员将会容易地认识到,本文所述的特征可以在不存在一个或多个所述具体细节或采用其他方法的情况下来实施。本文所述的特征不受所阐述的行为或事件排序的限制,因为一些行为可能以不同顺序发生和/或与其他行为或事件同时发生。此外,实施依照本文所述特征的方法并非需要全部所阐述的行为或事件。
本文的一些发明实施方案涉及数值范围。当存在范围时,该范围包括范围的端点。另外,在该范围内的每个子范围和值如同明确写出那样存在。术语“约”或“大约”可意指在本领域普通技术人员测定的特定值的可接受误差范围内,该可接受误差范围将部分取决于该值如何测量或测定,例如,测量系统的局限性。例如,根据本领域中的实践,“约”可指在1个或大于1个标准偏差内。或者,“约”可指给定值的最多20%、最多10%、最多5%或最多1%的范围。或者,特别是对于生物系统或过程,该术语可指在数值的数量级内,在5倍以内,或在2倍以内。在本申请和权利要求书中描述特定值的情况下,除非另有说明,否则可推定术语“约”意指在该特定值的可接受误差范围内。
虽然本文已经显示并描述了本发明的优选实施方案,但是对于本领域技术人员显而易见的是,这些实施方案仅以示例的方式提供。并非打算用本说明书中提供的具体实例来限制本发明。尽管已经参照上述说明书对本发明进行了描述,但并不意味着对本文实施方案的描述和说明以限制性的意义来解释。在不脱离本发明的情况下,本领域技术人员现将想到许多变化、改变和替换。此外,应当理解,本发明的所有方面均不限于本文所阐述的具体描述、配置或相对比例,其取决于多种条件和变量。应当理解,在实施本发明的过程中可以采用本文所述的本发明实施方案的各种替代方案。因此可以预期,本发明还应涵盖任何这类替代、改变、变化或等同物。旨在以所附权利要求书限定本发明的范围,由此涵盖在这些权利要求范围内的方法和结构及其等同物。
Claims (37)
1.一种鉴定多态性的方法,其包括:
(a)提供RNA测序文库和DNA测序文库,其中所述RNA测序文库和所述DNA测序文库衍生自相同样品;
(b)鉴定所述RNA测序文库中的一个或多个多态性和所述DNA测序文库中的一个或多个多态性;以及
(c)将所述RNA测序文库的多态性和所述DNA测序文库的多态性鉴定为相同的。
2.根据权利要求1所述的方法,其进一步包括,在(c)之前,为所述RNA测序文库的所述一个或多个多态性和所述DNA测序文库的所述一个或多个多态性的每个多态性分配随机索引,其中分配给所述RNA测序文库的给定多态性的随机索引与分配给所述DNA测序文库的给定多态性的随机索引相同。
3.根据权利要求2所述的方法,其中所述随机索引包括哈希、数字和/或整数。
4.根据权利要求1-3中任一项所述的方法,其中所述RNA测序文库的所述一个或多个多态性和所述DNA测序文库的所述一个或多个多态性选自单核苷酸多态性和单倍群。
5.根据权利要求4所述的方法,其中所述RNA测序文库的所述一个或多个多态性和所述DNA测序文库的所述一个或多个多态性是单核苷酸多态性。
6.根据权利要求1-5中任一项所述的方法,其进一步包括生成所述RNA测序文库和所述DNA测序文库。
7.根据权利要求6所述的方法,其中生成所述RNA测序文库包括提供包含多个RNA分子和多个DNA分子的样品。
8.根据权利要求7所述的方法,其中所述多个RNA分子和所述多个DNA分子是分开的。
9.根据权利要求6-8中任一项所述的方法,其中所述RNA测序文库和所述DNA测序文库同时制备。
10.根据权利要求6-9中任一项所述的方法,其中生成所述RNA测序文库和/或所述DNA测序文库包括合成测序或纳米孔测序。
11.根据权利要求6-10中任一项所述的方法,其中生成所述RNA测序文库包括反转录多个RNA分子。
12.根据权利要求1-11中任一项所述的方法,其中所述样品包含一个或多个细胞。
13.根据权利要求12所述的方法,其进一步包括裂解所述一个或多个细胞。
14.根据权利要求1-13中任一项所述的方法,其中所述RNA测序文库和所述DNA测序文库衍生自体液。
15.根据权利要求14所述的方法,其中所述体液选自血液、尿液、唾液和汗液。
16.根据权利要求1-15中任一项所述的方法,其中所述样品来源于患者。
17.根据权利要求16所述的方法,其中所述患者患有或被怀疑患有疾病或病症。
18.根据权利要求16所述的方法,其中所述患者已经暴露于或被怀疑已经暴露于病原体。
19.一种鉴定多态性的方法,其包括:
(a)提供RNA测序文库和DNA测序文库,其中所述RNA测序文库和所述DNA测序文库衍生自相同样品;
(b)鉴定所述RNA测序文库的一个或多个多态性和所述DNA测序文库的一个或多个多态性;
(c)模糊化所述RNA测序文库中的所述一个或多个多态性和所述DNA测序文库中的所述一个或多个多态性;以及
(d)将所述RNA测序文库的多态性和所述DNA测序文库的多态性鉴定为相同的。
20.根据权利要求19所述的方法,其中,基于(d),将所述RNA测序文库和所述DNA测序文库鉴定为衍生自相同样品。
21.根据权利要求19或20所述的方法,其进一步包括,在(c)之前,为所述RNA测序文库的所述一个或多个多态性和所述DNA测序文库的所述一个或多个多态性的每个多态性分配随机索引,其中分配给所述RNA测序文库的给定多态性的随机索引与分配给所述DNA测序文库的给定多态性的随机索引相同。
22.根据权利要求21所述的方法,其中所述随机索引包括哈希、数字和/或整数。
23.根据权利要求19-22中任一项所述的方法,其中所述RNA测序文库的所述一个或多个多态性和所述DNA测序文库的所述一个或多个多态性选自单核苷酸多态性和单倍群。
24.根据权利要求23所述的方法,其中所述RNA测序文库的所述一个或多个多态性和所述DNA测序文库的所述一个或多个多态性是单核苷酸多态性。
25.根据权利要求19-24中任一项所述的方法,其进一步包括生成所述RNA测序文库和所述DNA测序文库。
26.根据权利要求25所述的方法,其中生成所述RNA测序文库包括提供包含多个RNA分子和多个DNA分子的样品。
27.根据权利要求26所述的方法,其中所述多个RNA分子和所述多个DNA分子是分开的。
28.根据权利要求25-27中任一项所述的方法,其中所述RNA测序文库和所述DNA测序文库同时制备。
29.根据权利要求25-28中任一项所述的方法,其中生成所述RNA测序文库和/或所述DNA测序文库包括合成测序或纳米孔测序。
30.根据权利要求25-29中任一项所述的方法,其中生成所述RNA测序文库包括反转录多个RNA分子。
31.根据权利要求19-30中任一项所述的方法,其中所述样品包含一个或多个细胞。
32.根据权利要求31所述的方法,其进一步包括裂解所述一个或多个细胞。
33.根据权利要求19-32中任一项所述的方法,其中所述RNA测序文库和所述DNA测序文库衍生自体液。
34.根据权利要求33所述的方法,其中所述体液选自血液、尿液、唾液和汗液。
35.根据权利要求19-34中任一项所述的方法,其中所述样品来源于患者。
36.根据权利要求35所述的方法,其中所述患者患有或被怀疑患有疾病或病症。
37.根据权利要求35所述的方法,其中所述患者已经暴露于或被怀疑已经暴露于病原体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862696783P | 2018-07-11 | 2018-07-11 | |
US62/696,783 | 2018-07-11 | ||
PCT/US2019/041447 WO2020014509A1 (en) | 2018-07-11 | 2019-07-11 | Methods and systems for processing samples |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112789352A true CN112789352A (zh) | 2021-05-11 |
Family
ID=69141817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980059603.XA Pending CN112789352A (zh) | 2018-07-11 | 2019-07-11 | 用于处理样品的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230132199A1 (zh) |
EP (1) | EP3821009A4 (zh) |
CN (1) | CN112789352A (zh) |
WO (1) | WO2020014509A1 (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180002749A1 (en) * | 2016-06-30 | 2018-01-04 | Grail, Inc. | Differential tagging of rna for preparation of a cell-free dna/rna sequencing library |
US20180080021A1 (en) * | 2016-09-17 | 2018-03-22 | The Board Of Trustees Of The Leland Stanford Junior University | Simultaneous sequencing of rna and dna from the same sample |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11149305B2 (en) * | 2015-01-23 | 2021-10-19 | Washington University | Detection of rare sequence variants, methods and compositions therefor |
US11396676B2 (en) * | 2016-10-21 | 2022-07-26 | Exosome Diagnostics, Inc. | Sequencing and analysis of exosome associated nucleic acids |
-
2019
- 2019-07-11 WO PCT/US2019/041447 patent/WO2020014509A1/en unknown
- 2019-07-11 US US17/259,518 patent/US20230132199A1/en active Pending
- 2019-07-11 EP EP19833669.5A patent/EP3821009A4/en active Pending
- 2019-07-11 CN CN201980059603.XA patent/CN112789352A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180002749A1 (en) * | 2016-06-30 | 2018-01-04 | Grail, Inc. | Differential tagging of rna for preparation of a cell-free dna/rna sequencing library |
US20180080021A1 (en) * | 2016-09-17 | 2018-03-22 | The Board Of Trustees Of The Leland Stanford Junior University | Simultaneous sequencing of rna and dna from the same sample |
Non-Patent Citations (1)
Title |
---|
ADIDA B ET AL.: "GenePING: secure, scalable management of personal genomic data", 《BMC GENOMICS》, vol. 7, no. 1, pages 1 - 2 * |
Also Published As
Publication number | Publication date |
---|---|
EP3821009A4 (en) | 2022-04-06 |
WO2020014509A1 (en) | 2020-01-16 |
EP3821009A1 (en) | 2021-05-19 |
US20230132199A1 (en) | 2023-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | Advanced applications of RNA sequencing and challenges | |
Harvey et al. | QuASAR: quantitative allele-specific analysis of reads | |
Bravo et al. | Model-based quality assessment and base-calling for second-generation sequencing data | |
O’Fallon et al. | A support vector machine for identification of single-nucleotide polymorphisms from next-generation sequencing data | |
AU2013312355A1 (en) | Using haplotypes to infer ancestral origins for recently admixed individuals | |
Pajuste et al. | FastGT: an alignment-free method for calling common SNVs directly from raw sequencing reads | |
Sahl et al. | Phylogenetically typing bacterial strains from partial SNP genotypes observed from direct sequencing of clinical specimen metagenomic data | |
EP3552128A1 (en) | Methods for detecting mutation load from a tumor sample | |
Brozynska et al. | Direct chloroplast sequencing: comparison of sequencing platforms and analysis tools for whole chloroplast barcoding | |
Wang et al. | Tool evaluation for the detection of variably sized indels from next generation whole genome and targeted sequencing data | |
Gong et al. | Analysis and performance assessment of the whole genome bisulfite sequencing data workflow: currently available tools and a practical guide to advance DNA methylation studies | |
de Sá et al. | Next-generation sequencing and data analysis: strategies, tools, pipelines and protocols | |
SoRelle et al. | Assembling and validating bioinformatic pipelines for next-generation sequencing clinical assays | |
JP2024056939A (ja) | 生体試料のフィンガープリンティングのための方法 | |
JP2021101629A5 (zh) | ||
Lescai et al. | Identification and validation of loss of function variants in clinical contexts | |
EP3588506B1 (en) | Systems and methods for genomic and genetic analysis | |
Jiang et al. | DRAMS: A tool to detect and re-align mixed-up samples for integrative studies of multi-omics data | |
Cook et al. | A deep-learning-based RNA-seq germline variant caller | |
KR20190126930A (ko) | 다중-염기서열 파일을 위한 서명-해시 (signature-hash for multi-sequence files) | |
CN112789352A (zh) | 用于处理样品的方法和系统 | |
Kim et al. | A Universal Analysis Pipeline for Hybrid Capture-Based Targeted Sequencing Data with Unique Molecular Indexes | |
Pavlovich et al. | Sequences to Differences in Gene Expression: Analysis of RNA-Seq Data | |
JP2023526441A (ja) | 複合遺伝子バリアントの検出およびフェージングのための方法およびシステム | |
Novák et al. | DANTE and DANTE_LTR: lineage-centric annotation pipelines for long terminal repeat retrotransposons in plant genomes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240508 Address after: California, USA Applicant after: ILLUMINA, Inc. Country or region after: U.S.A. Address before: California, USA Applicant before: Aidianai Technology Co.,Ltd. Country or region before: U.S.A. |
|
TA01 | Transfer of patent application right |