CN108603190B - 使用经破碎的核苷酸的高通量多重测序确定基因拷贝数 - Google Patents
使用经破碎的核苷酸的高通量多重测序确定基因拷贝数 Download PDFInfo
- Publication number
- CN108603190B CN108603190B CN201680063882.3A CN201680063882A CN108603190B CN 108603190 B CN108603190 B CN 108603190B CN 201680063882 A CN201680063882 A CN 201680063882A CN 108603190 B CN108603190 B CN 108603190B
- Authority
- CN
- China
- Prior art keywords
- nucleic acid
- genomic nucleic
- fragments
- mixture
- genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012163 sequencing technique Methods 0.000 title claims description 68
- 239000002773 nucleotide Substances 0.000 title description 14
- 125000003729 nucleotide group Chemical group 0.000 title description 14
- 108090000623 proteins and genes Proteins 0.000 title description 2
- 150000007523 nucleic acids Chemical group 0.000 claims abstract description 133
- 239000012634 fragment Substances 0.000 claims abstract description 77
- 238000013507 mapping Methods 0.000 claims abstract description 73
- 239000000203 mixture Substances 0.000 claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 65
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 56
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 56
- 238000006062 fragmentation reaction Methods 0.000 claims abstract description 20
- 238000013467 fragmentation Methods 0.000 claims abstract description 19
- 108020004414 DNA Proteins 0.000 claims description 100
- 239000000523 sample Substances 0.000 claims description 31
- 239000011324 bead Substances 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 18
- 238000000746 purification Methods 0.000 claims description 16
- 238000007481 next generation sequencing Methods 0.000 claims description 15
- 206010028980 Neoplasm Diseases 0.000 claims description 13
- 108091008146 restriction endonucleases Proteins 0.000 claims description 12
- 230000003321 amplification Effects 0.000 claims description 11
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 11
- 102000053602 DNA Human genes 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 7
- 239000008280 blood Substances 0.000 claims description 6
- 210000004369 blood Anatomy 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 239000013074 reference sample Substances 0.000 claims description 5
- 230000006862 enzymatic digestion Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000010008 shearing Methods 0.000 claims description 2
- 238000004513 sizing Methods 0.000 claims description 2
- 238000009210 therapy by ultrasound Methods 0.000 claims 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 59
- 238000003752 polymerase chain reaction Methods 0.000 description 16
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 14
- 210000004027 cell Anatomy 0.000 description 13
- 210000000349 chromosome Anatomy 0.000 description 13
- 238000005406 washing Methods 0.000 description 11
- 238000000527 sonication Methods 0.000 description 9
- 108090000790 Enzymes Proteins 0.000 description 8
- 102000004190 Enzymes Human genes 0.000 description 8
- 201000011510 cancer Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 210000001766 X chromosome Anatomy 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000002360 preparation method Methods 0.000 description 6
- 230000008439 repair process Effects 0.000 description 6
- 239000006228 supernatant Substances 0.000 description 6
- 108091028043 Nucleic acid sequence Proteins 0.000 description 5
- 208000029560 autism spectrum disease Diseases 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 238000000137 annealing Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000004925 denaturation Methods 0.000 description 4
- 230000036425 denaturation Effects 0.000 description 4
- 238000011534 incubation Methods 0.000 description 4
- 239000011541 reaction mixture Substances 0.000 description 4
- 208000002330 Congenital Heart Defects Diseases 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 238000003776 cleavage reaction Methods 0.000 description 3
- 239000002299 complementary DNA Substances 0.000 description 3
- 208000028831 congenital heart disease Diseases 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 208000035475 disorder Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002255 enzymatic effect Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 201000000980 schizophrenia Diseases 0.000 description 3
- 230000007017 scission Effects 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 102000004594 DNA Polymerase I Human genes 0.000 description 2
- 108010017826 DNA Polymerase I Proteins 0.000 description 2
- 208000026350 Inborn Genetic disease Diseases 0.000 description 2
- 230000006154 adenylylation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 208000016361 genetic disease Diseases 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 208000011580 syndromic disease Diseases 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- 239000005711 Benzoic acid Substances 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 108010021757 Polynucleotide 5'-Hydroxyl-Kinase Proteins 0.000 description 1
- 102000008422 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 description 1
- KDCGOANMDULRCW-UHFFFAOYSA-N Purine Natural products N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000007605 air drying Methods 0.000 description 1
- 230000001363 autoimmune Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000005549 deoxyribonucleoside Substances 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 239000000539 dimer Substances 0.000 description 1
- 208000022602 disease susceptibility Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 238000001976 enzyme digestion Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- -1 genomic DNA Chemical class 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000010208 microarray analysis Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- IGFXRKMLLMBKSA-UHFFFAOYSA-N purine Chemical compound N1=C[N]C2=NC=NC2=C1 IGFXRKMLLMBKSA-UHFFFAOYSA-N 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 239000001226 triphosphate Substances 0.000 description 1
- 235000011178 triphosphate Nutrition 0.000 description 1
- 125000002264 triphosphate group Chemical class [H]OP(=O)(O[H])OP(=O)(O[H])OP(=O)(O[H])O* 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1065—Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1093—General methods of preparing gene libraries, not provided for in other subgroups
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6809—Methods for determination or identification of nucleic acids involving differential detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6853—Nucleic acid amplification reactions using modified primers or templates
- C12Q1/6855—Ligating adaptors
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2535/00—Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
- C12Q2535/122—Massive parallel sequencing
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Immunology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Plant Pathology (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了SMASH(短多重聚合序列同源性),其是一种设计用于将多个独立的映射包含在每个读段中的技术。具体而言,本发明涉及一种组合物,所述组合物包含不同嵌合基因组核酸片段的第一混合物,其中所述混合物中的不同片段各自包含随机连接的DNA区段,其中片段中的每个DNA区段是长度为至少27个碱基对的核酸分子,由单个基因组的随机片段化产生。本发明还涉及产生所述组合物的方法和所述组合物用于获得诸如拷贝数变异的基因组信息的用途。
Description
本申请要求于2016年2月5日提交的第62/292,151号美国临时申请、于2015年11月3日提交的第62/250,405号美国临时申请以及于2015年9月8日提交的第62/215,540号美国临时申请的优先权,它们的内容通过引用并入本文。
在本申请全文中,引用了各种出版物,包括在括号中引用的那些。对在括号中引用的出版物的完整引用可以在权利要求书之前的说明书末尾找到。所有引用的出版物的公开内容全部通过引用并入到本申请中,以更全面地描述本发明所属领域的状态。
背景技术
在基因组尺度上分析拷贝数变异体(CNV)可用于评估癌症进展和鉴定先天性遗传异常。CNV通常通过微阵列杂交鉴定,但也可以通过下一代测序(NGS)检测(Alkan等,2009;Sudmant等,2010)。这通常使用测量映射(mapping)到特定区域的序列读段(reads)的数量的算法来完成。因此,基于序列的拷贝数方法的分辨率在很大程度上取决于独立映射的数量。
下一代测序技术目前的趋势是增加每单位成本读取的碱基数量。这通过增加流动池中每条泳道的序列读段总数以及增加每个读段中的碱基数来完成。由于拷贝数测定方法的准确性是由独立读段的数量决定的,增加的序列读段长度不会提高拷贝数分析的分辨率。大部分基因组被短的读段很好地映射,短的读段大约25-30个碱基对(bp)。目前,高通量测序仪正在产生约150bp的读段长度,远远超过了满足唯一映射所需的读段长度。
发明内容
为了利用不断增加的读段长度,SMASH(短多重聚合序列同源性,Short MultiplyAggregated Sequence Homologies)被开发为优化用于将多个独立映射包含在每个读段中的技术。这是通过将基因组DNA破碎成小但仍可映射的区段来实现的,区段平均长度为约40bp。将这些小的区段组合成长度适合于产生NGS文库(300-700bp)的DNA嵌合片段。
使用具有时效性的内存密集型映射算法处理由SMASH产生的嵌合序列读段,该算法将长的片段读段保守划分为组成型区段映射序列(map)。在下游拷贝数分析中以与使用读段映射序列相同的方式使用该区段映射序列。对于150-bp双末端读段,目前为止最具成本效益的测序平台的全基因组测序(WGS)平均数小于每读段对一个映射序列,而SMASH平均数>4。SMASH映射序列的质量,即由样品制备、序列仪和映射偏差引入的不一致性,与WGS映射所观察到的不一致性具有相同的数量级。使用对WGS数据最有利的修正和测试方案时,基于映射的SMASH被证明能以WGS几分之一的成本产生与WGS具有几乎同等质量的拷贝数据。
附图说明
图1.SMASH方法和尺寸分析的示意图。
A)以黑色、白色和方格框显示的三种代表性的基因组DNA分子来源于不同染色体或同一染色体相隔较远的区域。B)通过超声处理和限制酶切割,这些分子被片段化成平均长度为40-50bp的短双链DNA区段,如右侧的生物分析仪结果所示。C)然后将这些短的DNA区段部分地末端修复并组合成长度为50bp-7kb的更长的DNA片段。因此,每个所得的嵌合DNA片段含有来自不同位置的短DNA区段(如上述不同的框类型所示)。D)将这些DNA片段连接到含有样品条形码的测序接头上,所述测序接头以虚线和垂直条纹框表示,“条形码”框指示样品条形码。E)进行尺寸选择以富集尺寸为250-700bp的DNA片段,这在生物分析仪中得到证实。F)在最终的PCR后,文库准备好用于测序。
图2.SMASH信息管线。
图A显示将读段对分解成一组最大唯一可映射区段。与箭头所示的映射序列相比,其他映射序列满足“20,4”规则(请参见正文)并且被视为可计数的映射序列。图B显示一段染色体5,其中选择了分箱边界以使每个分箱的精确匹配数与来自参考基因组所有50-聚体(50-mer)的精确匹配数相同。将重复读段排除在外,每个分箱中存在的“20,4”可映射区段的数量在图C中计数。针对样品特有的GC偏好,使用LOESS归一化来调整分箱计数(图D)。最后,在图E中,使用对GC归一化的数据进行的循环二进制分段(CBS)分割数据。
图3.SSCquad的SMASH和WGS拷贝数f分布图(profile)。
图A显示家族中四个成员的全基因组图(常染色体和X染色体)。点显示WGS和SMASH的参考物和GC归一化的比率值。类似地,重叠线显示WBS和SMASH中通过CBS(循环二进制分段)进行的拷贝数分割。黑框突出显示在B图中放大示出的染色体5上的缺失。通过两种方法鉴定的缺失发生在父亲中并且被传递给家族中的兄弟姐妹。图C显示来自WGS和SMASH的父亲的归一化比率值的分箱比较。暗点和亮点显示数据点中越来越稀疏的子样品。
图4.SKBR3的SMASH和WGS拷贝数分布图。
SKBR3乳腺癌细胞系具有复杂的拷贝数模式。图A以对数标度显示带有拷贝数的全基因组视图。点显示WGS和SMASH的GC归一化的比率值,而重叠线显示WGS和SMASH的拷贝数分割。图B以线性标度放大14号染色体。整数拷贝数状态分割和区段平均值的分散在WGS和SMASH之间存在很强的一致性。图C显示用于分箱比较来自WGS和SMASH的归一化的比率值的分箱。暗点和亮点显示数据点中越来越稀疏的子样品以说明密度。
图5.使用独立样品的SMASH方案的生物分析仪结果。
按照图1的右图,我们示出了使用独立样品的SMASH方案的生物分析仪结果。用箭头表示下部(35bp)和上部标记(10.38kb)。在每个图中,十条曲线中的两条(蓝色和深绿色)显示质量差的DNA样品的结果。剩下的曲线质量很好。(A)DNA片段化后DNA分子的尺寸分布。蓝色和深绿色曲线显示比其余样品更宽的长度范围和更长的DNA区段平均长度。(B)随机连接DNA区段后,来自好样品的曲线显示DNA多联体的宽长度范围。(C)对于最终的DNA文库,来自好样品的曲线显示250bp-700bp的长度范围,非常适合测序。失败的文库主要显示测序接头二聚体,用星号突出显示。
图6.替代的SMASH方法的示意图(左图)和生物分析仪结果(右图)。
在生物分析仪结果中,x轴表示DNA区段的长度。(A)以黑色、白色和方格框显示的三种基因组DNA分子来自不同染色体或同一染色体的不同位置。(B)通过dsDNA片段化酶(fragmentase)切割,将这些DNA分子片段化成短的双链区段,平均长度为约35bp,如右图中的生物分析仪结果所示。(C)然后将这些短的DNA区段部分地末端修复并随机连接成长度为50bp-7kb的更长的DNA片段。因此,如上所述,每个DNA片段含有以上述的不同框类型示出的来自不同位置/染色体的几个短DNA区段。(D)将这些DNA片段与含有样品条形码的测序接头连接,以与以空心框表示的“条形码”连接的虚线和垂直条纹框表示。E)进行尺寸选择以获得具有250-700bp的合适尺寸的DNA片段,这在最终DNA文库的生物分析仪结果中得到证实。F)在最终通过测序接头进行的PCR之后,文库准备好用于测序。
图7.在SKBR3上比较SMASH2与WGS和SMASH。
类似于图4,图A和B,显示新的SMASH方案与WGS和先前的SMASH方案的一致性。这三种方法之间有很好的一致性。
具体实施方式
SMASH将基因组DNA减小为小但仍然唯一可映射的区段,并将它们随机连接成长度适合于生成下一代测序(NGS)文库(400-500bp)的DNA嵌合片段。对这些文库进行测序得到可通过模板分析检测CNV的模式(Levy和Wigler,2014)。其重要性的关键在于其效率:SMASH可以在普通的NGS仪器上运行,并且产生为“标准”全基因组测序(WGS)的6倍或更多倍的映射序列。在能产生3亿个150-bp双末端读段的机器上,SMASH可以以约10kb的分辨率每个样品获得6000万个映射序列。
具体而言,通过超声处理和/或酶促活性将基因组DNA切割(“破碎”)成小但可映射的区段,平均长度为约40bp,然后将区段连接成更长的DNA嵌合片段。第二个片段化步骤消除长的(>1kb)嵌合分子,并且纯化适于生成NGS文库的片段(例如400-500bp)。添加条形码测序接头以生成可在单个测序通道上多重测序的文库,这大大降低了每个患者的成本。为了从嵌合读段中获得映射信息,我们应用了算法和一组启发式方法。使用从sparseMEM改编的后缀数组(Khan等,2009)来确定NGS读段和参考基因组之间的“最大几乎唯一匹配”(MAM)。读段对内的映射为每个读段提供独特的签名,使得能够辨别和删除PCR重复。CNV检测基于映射序列-计数方法,采用具有预期的相同密度的分箱(Navin等,2011)。对于每个样品,我们计数每个分箱内的映射序列数量,然后通过LOESS归一化针对GC偏好调整分箱计数。利用模板分析(Levy和Wigler,2014年)来克服不同模式的系统噪音,所述系统噪音超出了GC调整的总体修正,其是WGS和SMASH读段所固有的。这些测量的结果能够与WGS同等地检测CNV。
本发明提供了包含不同嵌合基因组核酸片段的第一混合物的组合物,其中混合物中的每个不同片段包含随机连接的DNA区段,其中片段中的每个DNA区段是长度为至少27个碱基对的核酸分子,由对单个基因组进行随机片段化产生。
在一些实施方案中,其中区段彼此直接连接以形成片段。
在一些实施方案中,其中DNA区段的长度为约30-50个碱基对。
在一些实施方案中,其中片段中至少50%的区段的长度为约30-50个碱基对。
在一些实施方案中,富集长度小于约1000个碱基对的嵌合基因组核酸片段。
在一些实施方案中,富集长度约250至约700个碱基对、优选400-500个碱基对的嵌合基因组核酸片段。
在一些实施方案中,其中混合物中至少50%的嵌合基因组核酸片段的长度为约250至约700个碱基对,优选400-500个碱基对。
在一些实施方案中,其中不同嵌合基因组核酸片段的混合物包含至少1,000个不同的片段。
在一些实施方案中,其中不同嵌合基因组核酸片段的混合物包含至少10,000个不同的片段。
在一些实施方案中,其中不同嵌合基因组核酸片段的混合物包含至少100,000个不同的片段。
在一些实施方案中,其中不同嵌合基因组核酸片段的混合物包含由奇数个区段组成的片段。
在一些实施方案中,其中嵌合基因组核酸片段的混合物包含连接的区段,所述连接的区段的两个连接点形成除限制性酶识别位点之外的序列。
在一些实施方案中,还包含连接至嵌合基因组核酸片段末端的接头序列。
在一些实施方案中,连接到嵌合基因组核酸片段末端的接头序列包含鉴别片段的基因组来源的条形码。
在一些实施方案中,连接至嵌合基因组核酸片段末端的接头序列包含用于扩增的引物结合位点。
在一些实施方案中,富集长度为约250至约700个碱基对、优选400至500个碱基对的连接有接头序列的嵌合基因组核酸片段。
在一些实施方案中,包含扩增的连接有接头序列的嵌合基因组核酸片段。这种扩增可以通过诸如PCR的方法来完成。用于完成该扩增步骤的引物结合可以位于连接的测序接头上。
在一些实施方案中,还包含不同嵌合基因组核酸片段的第二混合物,其中片段的第二混合物从不同于第一混合物的基因组获得。
在一些实施方案中,包含不同嵌合基因组核酸片段的多种混合物的集合,其中所述集合中片段的每种混合物获自不同于该集合中任何其他混合物的基因组。
在一些实施方案中,其中嵌合基因组核酸片段的每种混合物包含具有测序接头的片段,所述测序接头含有仅连接到该种混合物内的片段的独特条形码,使得可以多元化混合物的集合。
在一些实施方案中,其中基因组核酸是从细胞、组织、肿瘤、细胞系或血液中提取的。
在一些实施方案中,获得来自单个基因组的不同嵌合基因组核酸片段的混合物的方法,所述方法包括:
i)对单个基因组进行随机片段化以获得来自所述基因组的随机区段;和
ii)对来自步骤(i)的区段进行连接以产生不同嵌合基因组核酸片段,
由此获得来自单个基因组的不同基因组核酸片段的混合物。
在一些实施方案中,还包括在连接之前按尺寸选择长度约30-50个碱基对的区段的子集。
在一些实施方案中,使用珠纯化来选择区段的所述子集。
在一些实施方案中,其中在步骤(i)中机械剪切基因组核酸以获得随机片段化的DNA区段。
在一些实施方案,其中所述机械剪切是通过超声处理进行的。
在一些实施方案,还包括对基因组核酸的区段进行酶促消化。
在一些实施方案,对基因组核酸的区段进行酶促消化通过限制酶CvikI-1和NlaIII进行。
在一些实施方案中,其中在步骤(i)中,基因组核酸通过以下步骤被酶促片段化:
a)在基因组中产生随机DNA切口;和
b)切割切口对面的DNA链,
从而在基因组核酸中产生dsDNA断裂,得到DNA区段。
在一些实施方案中,其中所得DNA区段在基因组片段化后直接被末端修复。
在一些实施方案中,其中嵌合基因组核酸片段在通过随机的区段连接形成后被末端修复。
在一些实施方案中,还包括减小嵌合基因组核酸片段的尺寸。
在一些实施方案中,还包括选择长度约250至约700个碱基对的片段。
在一些实施方案中,还包括纯化嵌合基因组核酸片段,任选地通过珠纯化。
权利要求20-32中任一项所述的方法,还包括将嵌合基因组核酸片段的3'末端腺苷酸化。
在一些实施方案中,还包括将测序接头连接至嵌合基因组核酸片段。
在一些实施方案中,还包括任选地通过纯化来纯化连接有接头序列的基因组核酸片段。
在一些实施方案中,还包括选择长度约250至约700个碱基对的连接有接头序列的基因组核酸片段。
在一些实施方案中,还包括扩增按尺寸选择的连接有接头序列的基因组核酸片段。
在一些实施方案中,还包括将独特的条形码接头连接至来自相同基因组的嵌合基因组核酸片段的混合物,使得在合并来自不同基因组的多种混合物后可以进行多重测序。
在一些实施方案中,其中所述基因组核酸的初始量为约200ng、500ng或1μg。
在一些实施方案中,其中基因组核酸是从细胞、组织、肿瘤、细胞系或血液中提取的。
在一些实施方案中,其中使用下一代测序平台从嵌合基因组核酸片段的混合物中获得序列。
在一些实施方案中,获得上述组合物中不同嵌合基因组核酸片段的核酸序列或获得通过上述方法产生不同嵌合基因组核酸片段的核酸序列的方法,所述方法包括(i)获得片段,和(ii)测序片段,以获得不同嵌合基因组核酸片段的核酸序列。
在一些实施方案中,通过上述方法获得的核酸序列信息。
在一些实施方案中,从基因组获得基因组拷贝数信息的方法,包括:
i)获得上述组合物中不同嵌合基因组核酸片段的核酸序列,或获得通过上述方法产生的不同嵌合基因组核酸片段的核酸序列;
ii)鉴定经测序的嵌合基因组核酸片段内的每个最大几乎唯一匹配(MAM)并将其映射到基因组中;以及
iii)对分箱的基因组内映射的MAM的数量进行计数,从而获得基因组拷贝数信息。
在一些实施方案中,其中在步骤(ii)中,使用longMEM软件包鉴定MAM。
在一些实施方案中,其中步骤(ii)还包括通过丢弃小于二十个碱基对并且不比唯一性所需的碱基对长至少四个碱基对的MAM来过滤MAM。
在一些实施方案中,其中步骤(ii)还包括通过丢弃在读段对图谱中距离彼此在10,000个碱基对之内的MAM来过滤MAM。
在一些实施方案中,其中在步骤(iii)中,在基因组分箱尺寸中计数映射的读段的数量,对于参考样品而言,所述基因组分箱尺寸产生相同的映射序列计数。
在一些实施方案中,其中在步骤(iii)中,在凭经验确定的基因组分箱中计数映射的读段的数量,所述凭经验确定的基因组分箱具有相同的参照物观察结果。
在一些实施方案中,其中在步骤(iii)中,在具有预期的相同密度的基因组分箱中计数映射的读段的数量。
在一些实施方案中,其中在步骤(iii)中,针对GC偏好通过LOESS归一化调整每个分箱中映射读段的数量。
在一些实施方案中,其中在步骤(iii)中,利用模板分析来降低经GC调整的分箱计数数据中的系统噪声。
在一些实施方案中,其中在步骤(iii)中,通过将经GC调整的分箱比率除以标准样品分箱比率来将参考物归一化应用于分箱计数数据。
在一些实施方案中,其中在步骤(iii)中,通过循环二进制分割分析参考物归一化的经GC调整的分箱计数数据。
在一些实施方案中,其中在步骤(iii)中,参考物映射序列的总数与样品映射序列的总数相匹配。
在一些实施方案中,通过任一种上述的方法获得的基因组拷贝数信息。
在一些实施方案中,一种诊断、预测表现出产前障碍、儿童障碍、发育障碍、心理障碍、自身免疫障碍、癌症、先天性心脏病、精神分裂、自闭症谱系障碍或患者对治疗的反应的可能性或确定遗传上产前障碍、儿童障碍、发育障碍、心理障碍、自身免疫障碍、癌症、先天性心脏病、精神分裂、自闭症谱系障碍或患者对治疗的反应的可能性的方法,包括获得患者的基因组拷贝数信息。
在一些实施方案中,一种治疗患者的方法,包括获得患者的基因组拷贝数信息,并且根据患者的基因组拷贝数信息治疗患者。
本发明还提供根据本发明获得的患者的基因组拷贝数信息在根据所述患者的基因组拷贝数信息治疗所述患者或开发用于所述患者的治疗中的用途。
本发明还提供根据本发明获得的患者的基因组拷贝数信息,其用于根据所述患者的基因组拷贝数信息治疗所述患者或开发用于所述患者的治疗。
本文公开的每个实施方案被视为适用于其他公开实施方案中的每一个。因此,本文描述的各种要素的所有组合都在本发明的范围内。
术语
除非另外定义,否则本文使用的所有技术术语和科学术语的含义都与本发明所属领域的普通技术人员所通常理解的含义相同。
如本文所用,除非另有说明或上下文另有要求,否则以下术语中的每一个应具有如下所述的定义。
如本文所用,在数值或范围的上下文中的“约”是指所记载或要求保护的数值或范围的±10%,除非上下文需要更窄的范围。
术语“核酸分子”和“序列”在本文中不可互换使用。“序列”是指“核酸分子”的序列信息。
术语“模板”、“核酸”和“核酸分子”在本文中可互换使用,并且各自指脱氧核糖核苷酸和/或核糖核苷酸的聚合物。“核酸”应意指任何核酸,包括但不限于DNA、RNA及它们的杂合体。形成核酸分子的核酸碱基可以是碱基A、C、G、T和U以及它们的衍生物。“基因组核酸”是指源自基因组的DNA,其可以从例如细胞、组织、肿瘤或血液中提取。
如本文所用,术语“嵌合”是指由以随机顺序重新连接的核酸分子组成,所述核酸分子获自基因组内的随机基因座。在SMASH中,片段被认为是嵌合的,因为它是由随机连接的基因组区段组成的。
如本文所用,术语“片段化”是指将大的核酸例如基因组DNA破碎成较小的核苷酸段(stretches)。片段化可以通过多种方法完成,包括但不限于超声处理和酶促活性。
如本文所用,“重叠群”和“连续的”是指一组重叠的序列或序列读段。
如本文所用,术语“扩增”是指合成与模板核酸的一条或两条链互补的核酸分子的过程。扩增核酸分子通常包括使模板核酸变性,在低于引物解链温度的温度下将引物退火至模板核酸,并从引物开始酶促延伸以产生扩增产物。变性、退火和延伸步骤均可以进行一次。然而,通常多次进行变性、退火和延伸步骤(例如聚合酶链式反应(PCR)),使得扩增产物的量不断增加,通常按指数规律倍增,尽管本方法不需要指数扩增。扩增通常需要存在脱氧核糖核苷三磷酸、DNA聚合酶和用以获得聚合酶的最佳活性的合适缓冲液和/或辅因子。术语“扩增的核酸分子”是指从扩增过程产生的核酸分子。
如本文所用,术语“映射”是指鉴定基因组或cDNA文库上具有与查询序列基本上相同或基本上完全互补的序列的唯一位置。包含能够被映射的序列的核酸分子被认为是“可映射的”。核酸分子可以是但不限于以下:基因组材料的区段、cDNA、mRNA或cDNA的区段。
如本文所用,术语“读段”或“序列读段”是指已通过任何测序方法产生的核酸的核苷酸或碱基序列信息。因此读段对应于从核酸片段的一条链获得的序列信息。例如,在单个反应中从一条链产生序列的DNA片段将产生单个读段。然而,如果测序项目中存在该DNA片段的多个拷贝,或者该链已被多次测序,则可以产生相同DNA链的多个读段。因此读段对应于特定测序反应的嘌呤或嘧啶碱基识别或序列测定。
如本文所用,术语“测序”或“获得序列”是指足以鉴定或表征核酸分子的核苷酸序列信息,并且可以是核酸分子的全长序列信息或仅部分序列。
如本文所用,术语“参考基因组”是指与正在被分析的序列信息未知的基因组具有相同物种的基因组。
如本文所用,术语“基因组区域”是指包含多个离散位置的连续基因组序列。
如本文所用,术语“样品标签”是指具有不超过1000个核苷酸以及不少于两个核苷酸(其可以共价连接至多个标记的核酸分子或标记的试剂分子中的每个成员)的序列的核酸。“样品标签”可以包括“标签”部分。
如本文所用,术语基因组材料的“区段”是指由基因组DNA的随机片段化产生的可映射核酸分子。SMASH片段中的区段的长度为约30-50个碱基对,例如可以具有27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个碱基对的长度。
如本文所用,术语“片段”是指由多个DNA区段连接产生的嵌合DNA分子。因此,如本文所用,“片段”包含至少一个且通常多于一个的“区段”,优选2、3、4、5、6、7、8、9或10个区段。尽管本文描述的方法提供具有高度一致的长度的区段,但片段可包含长度在优选的30-50个碱基对范围之外的区段。
如本文所用,术语“测序文库”是指包含来自单一生物体的全基因组DNA的DNA片段混合物,其用于测序。下一代测序文库通常是按尺寸选择的,并且在测序之前连接至测序接头。下一代测序文库制备步骤可包括片段化、末端修复、腺苷酸化、测序接头连接和PCR富集。也可以在下一代测序文库制备的整个过程中进行多个纯化和尺寸选择步骤。具体而言,“SMASH文库”是指一类测序文库,其由来自单一生物体的基因组DNA片段的混合物组成,其中所述片段是嵌合核酸分子,所述嵌合核酸分子由较小的、可映射的、随机连接的基因组DNA区段构成。
如本文所用,术语“连接”是指两个核酸分子的酶促连接。具体而言,SMASH片段由随机连接的DNA区段组成。在这种情况下,随机连接意味着任一区段与任一其他区段直接连接的概率相等。
如本文所用,术语“测序接头”是指在测序文库中与每个DNA片段的5’和3’末端结合的寡核苷酸。接头含有允许扩增片段的平台依赖性序列以及引发测序反应的序列。接头还可包含独一无二的序列,称为条形码或索引,其用于识别每个片段的样品来源。接头可包含用作其他酶促反应(例如通过PCR扩增)的引物结合位点的区域。
如本文所用,术语“条形码”,也称为“索引”是指测序接头内用于识别每个片段的样品来源的独一无二的DNA序列。
如本文所用,术语“多重”是指将条形码分配给来自单个基因组来源的片段的每种混合物,合并或以其他方式混合多种片段混合物,在单次测序运行中对整个混合物集合进行测序,随后通过读段的条形码分类并鉴定每个序列读段的基因组来源。
如本文所用,“基本上相同”的序列分别与核苷酸序列具有至少约80%的序列同一性或互补性。基本上相同的序列或者可以分别具有至少约95%、96%、97%、98%、99%或100%的序列同一性或互补性。
如本文所用,术语“基本上独一无二的引物”是指多个引物,其中每个引物包含标签,并且其中多个引物中至少50%的标签是独一无二的。优选地,标签是至少60%、70%、80%、90%或100%独一无二的标签。
如本文所用,术语“基本上独一无二的标签”是指多个标签中的标签,其中多个标签中的至少50%的标签对于所述多个标签而言是独一无二的。优选地,基本上独一无二的标签是至少60%、70%、80%、90%或100%独一无二的标签。
如本文所用,术语“标签”是指具有不超过1000个核苷酸以及不小于2个核苷酸(其可以共价连接至核酸分子或试剂分子)的序列的核酸。标签可以包含接头或引物的一部分。
如本文所用,“标记的核酸分子”是指共价连接至“标签”的核酸分子。
在提供数值范围的情况下,应该理解的是,除非上下文另有明确规定,否则在该范围的上限和下限之间的每个中间值,至下限单位的十分之一,以及在所描述的范围内的任何其他设定值或中间值,均包含在本发明内。这些较小范围的上限和下限可以独立地包含在较小的范围内,并且也包含在本发明内,而且受限于所描述的范围内任何特别排除的限值。在所描述的范围包括一个或两个限值的情况下,将那些被包含的限值中的一个或两个排除在外的范围也包含在本发明中。
本文提及的所有出版物和其他参考文献通过引用整体并入本文,就如同具体地和单独地指明每个单独的出版物或参考文献通过引用并入本文一样。并不承认本文引用的出版物和参考文献为现有技术。
通过参考下面的实验细节将会更好地理解本发明,但是本领域技术人员将容易地认识到,所详细描述的具体实验仅仅是对在随后的权利要求中限定的本发明的说明。
实验细节
下面提供了一些实施例以便于更全面地理解本发明。以下实施例举例说明了完成和实践本发明的示例性模式。然而,本发明的范围不限于这些实施例中公开的具体实施方案,这些实施例仅用于说明的目的。
方法-DNA材料
本实施例中使用的DNA样品来自两个来源。基因组DNA的一个来源提取自人乳腺癌细胞系SKBR3。另一个来源提取自两个家族的血液,所述两个家族来自Simons SimplexCollection(SSC),样品和数据来自母亲、父亲、先证者和未患病的兄弟姐妹(Fischbach和Lord,2010)。
方法-SMASH方案
SMASH所需的基因组DNA的数量是灵活的。对三种不同的基因组DNA输入-200ng、500ng和lμg-进行了测试,并在所有三种条件下成功构建了高质量文库。在该实施例中,1μgDNA被用作所有样品的起始材料。将DNA在1xTris缓冲液(10mM Tris-Cl,pH8.5)中稀释至75μl的终体积,并转移至微管(Covaris)。根据制造商的手册,使用Covaris E210 AFA仪器(Covaris)将基因组DNA剪切成平均长度为100bp的区段。在以90μl终体积在1×CutSmart缓冲液中用CvikI-1(NEB)和NlaIII(NEB)进一步切割DNA区段,将DNA区段在37℃下孵育1小时。酶消化后,用Savant SpeedVac(Thermo Scientific)将溶液体积减小至约30μl。如下移除长于100bp的DNA区段:加入2.5×体积的AMPureXP珠子(Beckman Coulter),充分混合,在室温(RT)下孵育5分钟,并收集上清液。按照制造商的说明书,通过QIAquick核苷酸去除试剂盒(Qiagen)纯化上清液。DNA区段在30μlH2O中洗脱。通过生物分析仪2100(AgilentTechnologies)测定,DNA区段的平均长度为40-50bp。通过T4DNA聚合酶(NEB)、DNA聚合酶I(大Klenow片段,NEB)和T4多核苷酸激酶(NEB)在室温下对这些DNA区段进行末端修复,持续30分钟。将修饰的DNA区段通过QIAquick核苷酸去除试剂盒(Qiagen)纯化,用30μlH2O洗脱。使用快速连接试剂盒(NEB)在室温下将短的DNA区段随机连接15分钟以形成更长的嵌合DNA片段。使用1.6×AMPureXP珠纯化长的DNA嵌合片段,并如前所述进行末端修复。用Klenow片段(3’→5’外切,NEB)在37℃下将单个“A”核苷酸添加至修饰的DNA区段的3’末端,持续30分钟。用1.6×AMPure XP珠子进行纯化之后,通过快速连接将带有条形码的测序接头[Iossifov等人,2012,Neuron]连接至DNA片段。这允许在测序通道上使用多重样品。通过1.6×AMPure XP珠子再次纯化DNA片段,并在50μl H2O中洗脱。进行尺寸选择步骤以富集在理想的Illumina测序长度范围300-700bp内的DNA片段。首先,将0.6×(30μl)AMPure XP珠子加入到50μl纯化的DNA中。在室温下孵育5分钟后,收集上清液。加入8μl(0.16×初始50μl)的AMPure XP珠子,并与上清液充分混合。该混合物在室温下孵育5分钟。用180μl 80%乙醇洗涤2次后,将DNA片段在30μl H2O中洗脱。使用Illumina测序接头在具有HF缓冲液(NEB)的高保真PCR Master Mix中对该DNA进行最后的8个循环的PCR扩增。DNA文库在生物分析仪上定量并稀释至10nM的浓度。对于从SSC家族制备的文库,在HiSeq2000(双末端100bp,Illumina)上进行测序,对于从SKBR3细胞系制备的文库,在NextSeq500(双末端150bp,Illumina)上进行测序。
方法-测定映射序列
将WGS和SMASH数据映射至GATKb37基因组。对于WGS,将读段1缩短至76bp,使用Bowtiel进行映射,然后使用Samtool过滤掉重复。对于SMASH(在下面描述的映射过程之后),利用每个读段对的多个-MAM签名过滤掉重复。对于这两种方法,只有至染色体1-22、X和Y的唯一映射才被分箱计数。
为了准备映射SMASH数据,修改sparseMEM包(Khan等,2009)以将最大基因组尺寸从2.147×109个碱基增加至基本上无限的值,并且去除稀疏(sparse)功能以提高程序速度并降低复杂性。添加特征以1)将各种后缀数组索引结构保存到磁盘;2)将其读入以使用内存映射进行后续的运行;3)将读段分配至并行查询线程以避免对输入的多次解析;和4)并行读取多个查询文件。还添加了选项以读取来自FASTQ和SAM文件的输入数据,以SAM和自定义二进制格式输出映射和非映射读段,并同时映射至基因组及其反向互补物以避免最大精确匹配(MEM)修剪步骤。最终的软件包被称为longMEM,因为它能够处理更长的基因组。
我们使用longMEM搜索最大几乎唯一匹配(MAM),它们是查询读段中最大程度延伸的子序列,这些子序列在参考物及其反向补充物中唯一匹配,但可能在查询中重复。对于长度为Q的查询读段和长度为R的参考物,我们使用参考物、后缀数组、其倒数和LCP(最长共同前缀)表在O(Q*(Q+log(R)))时间内发现查询中的所有MAM。
组成SMASH读段的大多数区段产生适用于拷贝数分析的MAM。例外的是由于阻塞读取错误或突变而不存在于参考物中的区段,以及那些因为太短而无法唯一映射至其原点的区段。除了可接受的MAM之外,SMASH中相邻区段之间的连接有时会导致发现一个或多个MEM。如果这些MAM在参考物中是唯一的,则它们被报告为错误MAM。
MAM通过丢弃小于20bp并且不比唯一性所需的长度长至少4个碱基的MAM而进行过滤。假定为随机基因组并且忽略限制酶的使用,这理想地将错误MAM污染降低至1/44。由于基因组中最小可映射长度的模式为18bp,平均长度为29bp,并且区段长度通常为40bp,因此认为过滤器并不会大大减少所报告的真实MAM的数量。另外的过滤器通过确保读段对图谱中没有一个保留的MAM距另一个MAM10,000bp内而将我们的MAM转变为MUM,这避免了对包含插入缺失标记或SNP的区段以及来自短嵌合片段两端的MAM读段的重复计数。
方法-分箱、归一化和拷贝数
如下将染色体1-22、X和Y分别划分为50,000、100,000和500,000个WGS优化的分箱:使用Bowtiel对参考物中的每个50-聚体进行映射并调整分箱边界,使得每个分箱具有相同数目的分配给其的唯一映射读段(±1)。
从SSCWGS和SMASH数据分配相同数量的映射至分箱,并在每个总数上增加一个计数。计数被归一化以将所有常染色体分箱的平均值设为1,然后在归一化的常染色体上进行LOESS以修正GC位点密度。在样品之间进行二进制求和后,根据向上偏离染色体中值的拷贝数偏差(该偏差超出基于MAD的限值),使用为0.05的Bonferroni修正的p值选择坏的分箱。
将SSC和SKBR3映射以每个分箱20、50、100和多达1,000个(如果可用的话)映射取样,并且将它们分配给分箱,在这种情况下,排除标记为坏的的分箱。将基于全分箱(bin-wise)在每分箱低映射序列数下的样品计数除以使用每分箱最高映射序列数的非相关雄性参考样品。将比率数据归一化并进行GC校正,然后使用CBS分割,其中最小区段长度和α参数分别设置为3和0.02。通过改变总规模和预期范围内的偏移来调整分割的图谱从而找到最佳量子拟合。
方法-WGS和SMASH量化和比较
对于SMASH和WGS,将SSC样品信噪比定义为常染色体减去X染色体中值非量化比率,除以其使用雌性参考样品(当执行参考物归一化时)时测量的雄性样品的基于MAD的噪声。我们还计数了不同于2的量化和圆形分割常染色体分箱值,以便设立偏离SSC二倍体期望值的上限值。对于SSC和SKBR3数据,通过以直方图绘制相差超过0.2的未量化分割比率的分箱运行的长度来评估WGS和SMASH一致性(concordance)。
实施例1.SMASH概述
SMASH的方案(参见上文的“方法-Smash方案”)如图1所示。为了获得SMASH标签,首先通过超声处理机械剪切第一基因组DNA,然后用两种限制性核酸内切酶切割。使用珠纯化(也参见上文“方法-Smash方案”)获得理想尺寸级分,从而富集40bp的目标尺寸(图1)。为了产生长的嵌合DNA,SMASH标签在末端修复后连接。可以任选地进行第二个片段化步骤以消除长的(>1kb)嵌合分子,并且纯化合适尺寸(300-700bp)的DNA片段。然后将带有条形码的测序接头连接到分子上,产生可以在单个测序泳道上多元化的文库。或者,如下形成长的嵌合DNA:连接末端修复的SMASH区段,随后将带有条形码的测序接头连接至片段,并最终通过珠纯化选择具有用于测序的最佳尺寸(300-700bp)的DNA片段。该方案是可靠和可重复的,通常生成具有几乎相同的区段和片段长度分布的文库(图5)。尽管SMASH文库可能包含少量在所需尺寸范围外的区段和片段,但这些污染物是无关紧要的,并且不会以任何方式影响拷贝数变异测定。
为了从嵌合读段中获得映射信息,应用了在此处简要描述的算法和一组启发式方法(参见图2和方法的其他细节)。使用了sparseMEM(Khan等人,2009),其是使用后缀数组来快速确定NGS读段和参考基因组之间的所有最大几乎唯一匹配(或MAM)的程序。读段对的映射为每个SMASH读段提供了一个独一无二的签名,使得能够轻松识别并删除PCR重复。使用了一种启发式方法,该方法识别读取对范围内的不同明确匹配(或“映射序列”)。启发式方法的参数已被校准以通过平衡每读段映射序列的数量与映射序列分配的质量来使拷贝数数据的质量最大化。
本发明的拷贝数检测方案基于映射序列-计数方法,并且它要求首先确定分箱边界以分割基因组。采用“具有预期的相同密度的分箱”,其最先用于单细胞基因组拷贝数测定(Navin等,2011)。选择边界以使得当对具有详尽说明和完美读段的参考基因组进行测序时,每个分箱都包含相同预期数量的映射序列。由于映射序列长度的变化,SMASH和WGS具有不同的预期映射序列密度分布。分箱边界被选择为适合于WGS,并且使用最前面的76bp以单末端模式映射WGS读段。对于每个样品,计数落入每个分箱内的映射序列的数量并通过LOESS归一化针对GC偏好调整分箱计数。
WGS和SMASH都具有不同的系统噪声模式,所述系统噪声超出了GC调整的总体修正。独立样品之间的强相关性证明了这一点。此外,这种系统噪声是时下流行的,这导致高自相关,因此可能引发假阳性拷贝数事件。此错误通过选择一个样品作为参考物,然后将所有剩余的样品数据除以该参考物来纠正。所得的拷贝数分割通常导致区段均值为低整数分数,反映样品中的拷贝数。在样品足够(并使用多个参考样品)的情况下,可以确定绝对拷贝数。为了分析分箱计数数据,使用了循环二进制分割的标准方法(Olshen等,2004)。
实施例2.优化管线参数
为了精确地测量性能并选择用于管线处理的参数,将雄性个体中X染色体上分箱中的信号与常染色体上的那些进行比较。还计算了1)用于衡量噪声大小的分箱的中值平均偏差(MAD),以及2)用于衡量数据中的趋势的自相关,其是分段错误的一个重要风险因素。信噪比(“S/N”)计算为常染色体和X染色体中值的差值除以MAD平方和的平方根。这些统计数据用于评估参考物归一化和映射算法,然后用于比较WGS和SMASH(表1)。
首先,考虑应用参考物归一化(“refnorm”,表1)的效用。用经GC调整的分箱比率除以标准样品分箱比率大大地改善了WGS和SMASH(第1-4行)的性能。即,参考物归一化将“自相关”降低多达10倍,同时提高“信噪比”。
表1
表1.参考物归一化和映射规则
在表1中的自相关中,计算了雄性常染色体和X染色体的中值和中值绝对偏差(MAD)以及由此得到的信噪比。前四项分别比较具有相同分箱分辨率(100,000)和相同的每分箱平均映射序列数(50)的WGS和SMASH。示出了有以及没有用参考样品进行归一化的结果。SMASH和WGS具有相似的性能,并且这两种方法均通过参考物归一化来减少自相关,同时保持信噪比。下面的三项比较使用不同的规则选择有效映射序列的SMASH性能(参见正文)。每个SMASH实例用相同的读段数操作,其中最松弛的规则(20,0)生成每个分箱117个映射序列,最严格的规则(20,8)生成每个分箱53个映射序列。用20,4规则获得最好的信噪比。
接下来,我们建立了一个两部分、两参数(L,K)规则,用于接收来自SMASH读段的子串至参考基因组的映射序列(参见图2,图A)。首先,发现读段中的所有子串仅在参考基因组中发生一次,使得不能延长匹配。这些最大几乎唯一的匹配称为“MAM”(还参见“方法-测定映射序列”)。作为第一参数的最小匹配长度L是必需的。对于此处显示的数据,L是20bp。为了避免由嵌合现象引起的假的映射序列,需要第二规则,即长度为M的MAM包含长度为M-K的子串,其唯一地映射至基因组。检测了L和K的许多组合,使用固定的分箱边界,用相同的一组SMASH读段测量它们的性能。仅显示规则20:0、20:4和20:8的结果(表1第5-7行)。尽管20:4规则具有少得多的映射序列(“每分箱映射序列”),但是以“信噪比”来判断,20:4规则优于20:0规则。许多20:0映射序列一定是假的。这种假的映射可以归因于片段边界处的嵌合现象。另一方面,20:4的规则优于20:8的规则,如通过略微降低的信噪比所判断的,所述略微降低的信噪比可归因于由覆盖度降低而导致的采样错误增加。因此,自始至终采用20:4规则。
实施例3.在优化的管线参数下比较WGS和SMASH曲线(profile)。
如上所述,使用常染色体和X染色体比较WGS和SMASH的性能。除其他因素外,考虑了不同的分箱总数(从50,000到500,000)、不同的每分箱平均映射序列数(20、50和100)、收集信噪比和自相关的统计数据。这两种方法具有非常相似的性能特征(表2)。就映射序列而言,WGS略胜过SMASH。当选择分箱边界使得参考样品在每个分箱中具有相同数量的映射序列时,SMASH和WGS的信噪比均得到改善,并且它们之间的差异显著变窄(补充表1)。
表2
表2.WGS和SMASH的分箱数和映射序列数
表2中计算了与表1中相同的性能统计数据,所述性能统计数据比较在一系列分辨率(50K、100K和500K)和覆盖度(每分箱20、50和100个映射序列)下的SMASH和WGS。
补充表1
补充表1.凭经验确定的分箱边界
重复表2中的计算,但不是使用具有相同预期值的分箱,而是使用具有参考物的相同观察结果的分箱。分箱边界是凭经验定义的:建立映射序列数与凭经验确定的映射序列数相同的分箱。与表2中的结果(“来自表2的“信噪比”)相比,信噪比得到了改善,而自相关的变化很小。
请注意,随着分箱数的增加,信噪比逐渐降低:SMASH从50K分箱下的5.6降低至500K分箱下的4.0。WGS发生了信号的类似劣化。据推测,这是由于使用相同的参考映射序列总数进行归一化,与分箱数无关。因此,随着分箱数的增加,每个分箱的参考映射序列数减少,这增加了归一化的比率的方差。为了测试是否这就是原因,进行了参考物归一化-这次使参考映射序列的总数与样品映射序列的总数相匹配。随着分箱数的增加,信噪比几乎没有下降(补充表2)。
补充表2
补充表2.使参考物和样品覆盖度匹配
计算如表2所示的性能统计数据。然而,在该表中,对于分箱分辨率的每个选择(50K、100K、500K)以及对于每个映射序列覆盖度(每分箱20、50和100个读段),使用用于样品和参考物两者的相同的映射序列数。当样品与参考物之间映射序列数相等时,对于WGS和SMASH两者而言,信噪比对分箱分辨率基本上不敏感,并且强烈依赖于映射序列覆盖度,这表明只有覆盖深度限制分辨率。
最后,比较使用SMASH和WGS的样品的实际分布图。使用了针对WGS进行了优化的分箱和上面讨论的映射序列选择规则。分析使用参考物归一化的来自两个家族的基因组DNA(图3)和没有进行参考物归一化的来自一个癌细胞系的基因组DNA(图4)(图4)。为了进行比较,WGS和SMASH都被下采样为相同数量的映射序列。在所有的基因组分辨率范围内-无论是查看归一化的分箱计数还是分段数据-来自这两种方法的分布图看起来非常相似。在这两幅图中,显示了分布在10万个分箱中的1000万个映射序列。亲本传播模式大多似乎是孟德尔式遗传(图3A)。在图3B中清楚地表明此点,图3B放大以显示缺失从父亲传播至未患病的兄弟姐妹。虽然由SMASH和WGS生成的总分段模式并不完全相同,但其中的大部分变化都与分段本身有关。当考虑分箱一致性时,WGS和SMASH是非常相似的(图3C)。
对于癌细胞系SKBR3,WGS和SMASH都产生了大约相同的为整数值的拷贝数分布图(图4A)。拷贝数分布图与整数状态很好地匹配。为了说明数据之间的一致性,更详细地显示了具有广泛基因组拷贝数变异的染色体(图4B)。同样,基于分箱的LOESS调整的比率是大体一致的(图4C)。
实施例4.SMASH的替代加分级方案
以上所有数据均来自将超声处理和限制性内切酶(RE)切割相结合的SMASH版本。需要一种版本,该版本不依赖于这两种基因组片段化方法中的任一种并且可能更容易实现理想的区段长度分布和SMASH映射序列的随机性的版本。为此目的,使用NEBNextdsDNA片段化酶(NEB)。NEBNextdsDNA片段化酶(NEB)是在dsDNA上随机产生缺口,然后切割缺口对面的DNA链以产生dsDNA断裂的酶的组合。使用推荐的条件,容易获得具有更紧凑的尺寸分布并比通过超声处理和RE切割获得的区段长度稍短的区段长度。区段的连接和按尺寸选择具有测序最佳长度的片段是容易完成的(图6)。然后使用来自癌细胞系SKBR3的基因组DNA(没有进行归一化),将该方法与我们的初始方案进行比较。这两种方法产生的拷贝数分布图实际上是相同的(图7)。使用片段化酶方法,每个读段的平均映射序列数从多于四个增加至多于六个。这种改进很可能是由于本方案中更精确的尺寸。下面概述了使用替代方案的详细的SMASH文库制备:
步骤1-dsDNA片段化
如下设置片段化反应:
将管在热循环仪中在37℃下孵育10分钟,然后将管放在冰上。
步骤2-末端修复
将下述试剂添加到如步骤1的相同管中:
将样品在热循环仪中在20℃下孵育30分钟。用AMPureXP珠子(2.5×)进行尺寸选择,充分混合,在室温孵育5分钟,收集上清液,通过核苷酸去除试剂盒(Qiagen)纯化,并用30μlH2O洗脱。取1μl等分试样用于生物分析仪。
步骤3-自随机连接
在新的0.2mlPCR管中制备以下反应混合物:
将样品在热循环仪中在25℃下孵育15分钟。用AMPureXP珠子(1.6×,92.8μl珠子)纯化,用180μl80%乙醇洗涤两次,空气干燥,用25μlH2O洗脱,加入至新的PCR管。取1μl等分试样用于生物分析仪。
步骤4-第二次末端修复
在新的0.2ml无核酸酶PCR管中制备以下反应混合物:
将样品在热循环仪中在20℃下孵育30分钟。用AMPureXP珠子(1.6×,48μl)纯化,在RT孵育10min,用180μl80%乙醇洗涤两次,用21μlH2O洗脱。
步骤5-将3’末端腺苷酸化
在新的0.2ml无核酸酶PCR管中制备以下反应混合物:
将样品在热循环仪中在37℃下孵育30分钟。用AMPureXP珠子(1.6×,40μl)纯化,在RT孵育10min,用180μl80%乙醇洗涤两次×2,用14μlH2O洗脱。
步骤6-与接头连接以及使用AMPureXP珠子进行尺寸选择
在新的0.2ml无核酸酶PCR管中制备以下反应混合物:
在25℃下孵育10分钟。用AMPure珠子(1.6×,48μl)纯化,用80%乙醇洗涤两次,用50μlH2O洗脱。用AMPure珠(0.6×,30ul)进行尺寸选择,充分混合并在室温孵育10min,收集上清液,加入AMPure珠(0.16X,8μl),充分混合并在室温孵育10min,用180μll80%乙醇洗涤两次,用16μlH2O洗脱。
步骤7-富集PCR
如下设置PCR反应:
在下列条件下扩增:在98℃变性30秒;进行8个循环(在98℃变性5秒,在65℃引物退火数秒,在72℃模板延伸30秒);最后在72℃延伸10分钟。用AMPure珠子(0.9×,36μl)纯化,用180μl80%乙醇洗涤两次,用20μlH2O洗脱。通过Nanodrop测量浓度,取等分试样并稀释至10ng/μl用于生物分析仪。SMASHDNA文库现在为测序做好了准备。
因此,在一般方案中超声处理和限制酶消化两个步骤在替代方案中已经被用dsDNA片段化酶(NEB)进行片段化这一个步骤所取代。因此,第一次末端修复反应恰好在片段化步骤之后-在这两个步骤之间不再需要进行纯化。此外,在替代方案中已经略去了所有加热使酶失活的步骤,因为酶通过珠纯化被充分去除。最终,使用替代方案将SMASH文库准备的总时间要求减少了大约一个小时。
讨论
拷贝数变异体(CNV)构成了大量遗传多样性和疾病的基础。例如,自闭症谱系障碍(ASD)受遗传因素的高度影响(Muhle等,2004;Rosenberg等,2009),并且CNV构成了这些诊断中的很大一部分的基础。除ASD外,拷贝数变异体已显示在多种疾病中发挥作用,包括先天性心脏病(Warburton等,2014)、癌症(Stadler等,2012;Lockwood等,2007;Lu等,2011;Shlien和Malkin,2009)、精神分裂症(Szatkiewicz等,2014;Rees等,2014),甚至在患者对特定疗法的反应(Willyard,2015)中发挥作用。CNV可以通过许多方法检测,包括染色体微阵列分析(CMA)和全基因组测序(WGS),但这些方法受限于有限的分辨率(CMA)或者它们对于常规筛查(CMA和WGS)而言是非常昂贵的。
在从高通量测序中获取拷贝数信息时,SMASH与标准WGS相比具有明显的优势。每个读段都包含多个独立的映射,这增加了每个读段的信息密度并由此降低每个样品的成本。就映射序列而言,SMASH在拷贝数分布方面在质量上与WGS相当。当然,在WGS数据中存在的大量附加结构信息在SMASH中是缺失的,例如拷贝数事件的断点、小规模插入缺失标记或倒置,这是由更长的读段造成的。但是,WGS发现此类结构事件通常需要比拷贝数测定所需的覆盖度高得多的覆盖度。为了检测数kb和更大的CNV,选择应该由成本决定。
在优化SMASH方案和算法的设计方面,投入了大量精力。这些包括选择限制酶和超声处理条件,从SMASH读段中选择映射序列的启发式方法和参考样品归一化。所得到的是一种可靠的方法,该方法可以在映射序列方面与WGS势均力敌。其他改变可进一步增加每个读段中有用SMASH映射序列的数量-片段化方案目前设置的中位数为约40bp区段,这是使用现有映射算法的最佳选择。然而,区段长度的变化是有问题的,通过调整片段化条件和实施更严格的尺寸选择可以减轻这种变化。为此目的,已经探索使用DNAse产生平均35bp的随机区段以解决区段长度变化的问题。通过这个稍微简化的方案,在初步实验中,在映射序列的基础上,获得了更高的每读段映射序列数以及相当的分辨率。
对于映射序列的大部分分析,使用为WGS确定的分箱边界,以便SMASH可以与WGS进行直接比较。然而,最佳的分箱边界被证明是凭经验推导出可产生相同映射序列计数的那些(补充表2)。此外,很显然,提高参考物覆盖度可以改善所有样品的信噪比。尚未确定可以获得的分辨率的下限。
可降低每个碱基对的单位成本的测序技术进步,可能由增加读段长度驱动。对于来自全基因组测序的拷贝数推断,这意味着每碱基的映射序列数持续下降。然而,即使使用现有的测序仪,SMASH也可以产生为标准WGS的4-6倍的映射序列。在一台用1500美元能产生3亿150-bp双末端读段的机器上,对于30个样品,可以以约10kb的分辨率获得每个样品6000万个映射序列,单位成本为50美元/样品,不包括文库的制备成本。然而,使用相同的SMASH文库时,分辨率和成本大致与读段数成线性关系。因此,SMASH可以降低检测产前遗传病、儿童遗传病和癌症遗传学的成本,使更多的患者能够以较低的成本进行检测,并将节省下来的费用给研究人员和护理人员。
最终,基因组拷贝数信息可用于检测产前、儿童、发育、心理和自身免疫疾病以及疾病易感性。可以使用基因组拷贝数信息进行检测的障碍和疾病的实例包括但不限于自闭症谱系障碍、精神分裂症、癌症和先天性心脏病。除了检测和诊断之外,拷贝数信息还可以用于预测表现出疾病、综合征或障碍的可能性或遗传上疾病、综合征或障碍的可能性。最后,在临床外,SMASH也可被证明是确定农业重要植物和作物中拷贝数变异的有用工具。
参考文献
1.Alkan C,Kidd JM,Marques-Bonet T,Aksay G,Antonacci F,Hormozdiari F,Kitzman JO,Baker C,Malig M,Mutlu o,Sahinalp SC,Gibbs RA,EichlerEE.Personalized copy number and segmental duplication maps using next-generation sequencing.Nature genetics.2009;41(10):1061-7.doi:10.1038/ng.437.PubMed PMID:19718026;PubMed Central PMCID:PMC2875196.
2.Fishbach GD,Lord C.The Simens Simplex Collection:a resource foridentification of autsim genetic risk factors.Neuron.2010;68:192-195.
3.Khan Z,Bloom JS,Kruglyak L,Singh M.A practical algorithm forfinding maximal exact matches in large sequence datasets using sparse suffixarrays.Bioinformatics.2009;25(13):1609-l6.doi:10.1093/bioinformatics/btp275.PubMed PMID:19389736;PubMed Central PMCID:PMC2732316.
4.Levy D,Wigler M.Facilitated sequence counting and assembly bytemplate mutagenesis.Proceedingsof the National Academy of Sciences of theUnited States of America.2014;111(43):E4632-7.doi:10.1073/pnas.1416204111.PubMed PMID:25313059;PubMed Central PMCID:PMC4217440.
5.Lockwood WW,Coe BP,Williams AC,MacAulay C,Lam WL.Whole genometiling path array CGH analysisof segmental copy number alterations incervical cancer cell lines.International journal of cancer Journalinternational du cancer.2007;120(2):436-43.doi:10.1002/ijc.22335.PubMed PMID:17096350.
6.Lu TP,Lai LC,Tsai MH,Chen PC,Hsu CP,Lee JM,Hsiao CK,ChuangEY.Integrated snalyses of copy number variations and gene expression in lungadenocarcinoma.PloS one.2011;6(9):e24829.doi:10.1371/journal.pone.0024829.PubMed PMID:21935476;PubMed Central PMCID:PMC3173487.
7.Muhle R,Trentacoste SV,Rapin I.The genetics ofautism.Pediatrics.2004;113(5):e472-86.PubMed PMID:15121991.
8.Navin N,Kendall J,Troge J,Andrews P,Rodgers L,McIndco J,Ccok K,Stepansky A,Levy D,Esposito D,Muthuswamy L,Krasnitz A,McCombie WR,Hicks J,Wigler M.Tumour evolutioninferred by single-cell sequencing.Nature.2011;472(7341):90-4.doi:10.1038/nature09807.PubMed PMID:21399628;PubMed CentralPMCID:PMC4504184.
9.Olshen AB,Venkatraman ES,Lucito R,Wigler M.Circular binarysegmentation for the analysis of array-based DNA copy nubmerdata.Biostatistics.2004;5:557-572.
10.Rees E,Walters JT,Georgieva L,Isles AR,Chambert KD,Richards AL,Mahoney-Davies G,Legge SE,Moran JL,McCarroll SA,O′Donovan MC,Owen MJ,KirovG.Analysis of copy number variations at 15schizophrenia-asscciated loci.TheBritish journal of psychiatry:the journal of mental science.2014;204(2):108-14.doi:10.1192/bjp.bp.113.131052.PubMed PMID:24311552;PubMed Central PMCID:PMC3909838.
11.Roaenberg RE,Law JK,Yenokyan G,McGready J,Kaufmann WE,LawPA.Characteristics and concordance of autism spectrum disorders among 277twin pairs.Archives of pediatrics&adolescent medicine.2009;163(10):907-14.doi:10.1001/archpediatrics.2009.98.PubMed PMID:19805709.
12.Shlien A and Malkin D.Copy number variaticns and cancer.GenomeMedicine.2009;1(6):62.doi:10.1186/gm62.PMID:19566914.PMCID:PMC2703871.
13.stadler zK,EspositoD,Shah S,Vijai J,Yamrom B,Levy D,Lee YH,KendallJ,Leotta A,Ronemus M,Hansen N,Sarrel K,Rau-Murthy R,Schrader K,Kauff N,KleinRJ,Lipkin SM,Murali R,Robson M,Sheinfeld J,Feldmsn D,Bosl G,Norton L,WiglerM,offit K.Rare de novo germline copy-number variation in testicularcancer.American journalof human genetics.2012;91(2):379-83.doi:10.1016/j.ajhg.2012.06.019.PubMed PMID:22863192;PubMed central PMCID:PMC3415553.
14.Sudmant PH,Kitzman JO,Antonacci F,Alkan C,Malig M,Tsalenko A,Sampas N,Bruhn L,Shendure J,Genomes p,Eichler EE.Diversity of human copynumber variation and multicopy genes.Science.2010;330(6004):641-6.doi:10.1126/science.1197005.PubMed PMID:21030649;PubMed Central PMCID:PMC3020103.
15.Szatkiewicz JP,O′Dushlaine C,Chen G,Chambert K,Moran JL,Neale BM,Fromer M,Ruderfer D,Akterin S,Bergen SE,Kahler A,Magnusson PK,Kim Y,CrowleyJJ,Rees E,Kirov G,O′Donovan MC,Owen MJ,Walters J,Scolnick E,Sklar P,PurcellS,Hultman CM,McCarroll SA,Sullivan PF.Copy number variation in schizophreniain Sweden.Molecular psychiatry.2014;19(7):762-73.doi:10.1038/mp.2014.40·PubMed PMID:24776740;PubMed Central PMCrD:PMC4271733.
16.Warburton D,Ronemus M,Kline J,Jobanputra V,Williams I,Anyane-YeboaK,Chung W,Yu L,Wong N,Awad D,Yu CY,Leotta A,Kendall J,Yamrom B,Lee YH,WiglerM,Levy D.The contribution of de novo and rare inherited copy number changesto congenital heart disease in an unselected sample of children withconotruncal defects or hypoplastic left heart disease.Human genetics.2014;133(1):11-27.doi:10.1007/s00439-013-1353-9.PubMed PMID:23979609; PubMed CentralPMCID:PMC3880624.
17.Willyard C.Copy number variations′effect on drug response stilloverlooked.Nature medicine.2015;21(3):206.doi:10.1038/nm0315-206.PubMed PMID:25742449.
Claims (28)
1.测序文库组合物,其包含至少100000个不同嵌合基因组核酸片段的第一混合物,其中在所述混合物中至少50%的嵌合基因组核酸片段的长度为250至700个碱基对,其中所述混合物中的每个不同片段包含随机连接的DNA区段,其中片段中的每个DNA区段是长度为至少27个碱基对的核酸分子,由单个基因组的随机片段化产生,其中在所述至少100000个不同的片段中至少50%的所述区段的长度为30-50个碱基对。
2.根据权利要求1所述的测序文库组合物,其中在所述混合物中至少50%的嵌合基因组核酸片段的长度为400至500个碱基对。
3.根据权利要求1-2中任一项所述的测序文库组合物,其中不同嵌合基因组核酸片段的所述混合物包含由奇数个区段组成的片段,和/或
其中嵌合基因组核酸片段的所述混合物包含连接的区段,所述连接的区段的两个连接点形成除限制酶识别位点外的序列。
4.根据权利要求1-2中任一项所述的测序文库组合物,所述测序文库组合物还包含被连接至嵌合基因组核酸片段的末端的接头序列,和/或
包含用于扩增的引物结合位点。
5.根据权利要求4所述的测序文库组合物,其中被连接至嵌合基因组核酸片段的末端的接头序列包含条形码,所述条形码鉴别所述片段的基因组来源。
6.根据权利要求1-2中任一项所述的测序文库组合物,所述测序文库组合物包含经扩增的连接有接头序列的嵌合基因组核酸片段。
7.根据权利要求1-2中任一项所述的测序文库组合物,所述测序文库组合物还包含不同嵌合基因组核酸片段的第二混合物,其中片段的第二混合物从与第一混合物不同的基因组获得,
其中嵌合基因组核酸片段的每种混合物包含具有测序接头的片段,所述测序接头包含仅连接至该种混合物内的片段的独特条形码,使得可以多元化混合物的集合。
8.根据权利要求1-2中任一项所述的测序文库组合物,所述测序文库组合物还包含不同嵌合基因组核酸片段的多种混合物的集合,其中所述集合中片段的每种混合物获自不同于集合中任何其他混合物的基因组,
其中嵌合基因组核酸片段的每种混合物包含具有测序接头的片段,所述测序接头包含仅连接至该种混合物内的片段的独特条形码,使得可以多元化混合物的集合。
9.根据权利要求1-2中任一项所述的测序文库组合物,其中基因组核酸是从细胞、组织或血液中提取的。
10.根据权利要求1-2中任一项所述的测序文库组合物,其中基因组核酸是从肿瘤中提取的。
11.根据权利要求1-2中任一项所述的测序文库组合物,其中基因组核酸是从细胞系中提取的。
12.获得权利要求1所述的测序文库组合物的方法,所述方法包括
i)对单个基因组进行随机片段化以获得来自所述基因组的随机区段;
ii)按尺寸选择长度30-50个碱基对的区段的子集;
iii)对来自步骤ii)的区段进行连接以产生不同嵌合基因组核酸片段。
13.根据权利要求12所述的方法,其中使用珠纯化来选择区段的子集。
14.根据权利要求12所述的方法,其中在步骤i)中机械剪切基因组核酸以获得随机片段化的DNA区段,和/或
所述方法还包括对基因组核酸的区段进行酶促消化。
15.根据权利要求14所述的方法,其中所述机械剪切是通过超声处理进行的。
16.根据权利要求14所述的方法,所述方法包括对基因组核酸的区段进行酶促消化,其中所述酶促消化通过限制酶CvikI-1和NlaIII进行。
17.根据权利要求12所述的方法,其中在步骤i)中,通过以下操作酶促片段化基因组核酸:
a)在基因组中产生随机DNA切口;和
b)切割切口对面的DNA链,
从而在基因组核酸中产生dsDNA断裂,得到DNA区段。
18.根据权利要求12所述的方法,其中所得DNA区段在基因组片段化后直接被末端修复,和/或其中嵌合基因组核酸片段在通过随机的区段连接形成后被末端修复。
19.根据权利要求12-18中任一项所述的方法,所述方法还包括以下步骤中的一个或多个:
a) 减小嵌合基因组核酸片段的尺寸,
b) 选择长度为250至700个碱基对的片段,
c) 纯化嵌合基因组核酸片段,
d) 将嵌合基因组核酸片段的3'末端腺苷酸化,
e) 将测序接头连接至嵌合基因组核酸片段,
f) 纯化连接有接头序列的基因组核酸片段,
g) 选择长度为250至700个碱基对的连接有接头序列的基因组核酸片段,
h) 扩增经尺寸选择的连接有接头序列的基因组核酸片段,和
i) 将独特的条形码接头连接至来自相同基因组的嵌合基因组核酸片段的混合物,使得在合并来自不同基因组的多种混合物后可以进行多重测序。
20.根据权利要求12-18中任一项所述的方法,其中基因组核酸的初始量为200ng、500ng或1μg。
21.根据权利要求12-18中任一项所述的方法,其中基因组核酸是从细胞、组织或血液中提取的。
22.根据权利要求12-18中任一项所述的方法,其中基因组核酸是从肿瘤中提取的。
23.根据权利要求12-18中任一项所述的方法,其中基因组核酸是从细胞系中提取的。
24.根据权利要求12-18中任一项所述的方法,其中使用下一代测序平台从嵌合基因组核酸片段的混合物中获得序列。
25.获得权利要求1-2中任一项所述的测序文库组合物中不同嵌合基因组核酸片段的核酸序列或获得通过权利要求12-18中任一项所述的方法产生的不同嵌合基因组核酸片段的核酸序列的方法,所述方法包括(i)获得所述片段,和(ii)对所述片段进行测序,以获得所述不同嵌合基因组核酸片段的核酸序列。
26.从基因组获得基因组拷贝数信息的方法,所述方法包括:
i)获得权利要求1-2中任一项所述的测序文库组合物中不同嵌合基因组核酸片段的核酸序列,或获得通过权利要求12-18中任一项所述的方法产生的不同嵌合基因组核酸片段的核酸序列;
ii)鉴定经测序的嵌合基因组核酸片段内的每个最大几乎唯一匹配并将其映射至基因组中;以及
iii)对分箱的基因组内映射的最大几乎唯一匹配的数量进行计数,从而获得基因组拷贝数信息。
27.根据权利要求26所述的方法,其中在步骤ii)中,使用longMEM软件包鉴定最大几乎唯一匹配,
其中步骤ii)还包括通过丢弃小于二十个碱基对并且不比唯一性所需的碱基对长至少四个碱基对的最大几乎唯一匹配来过滤最大几乎唯一匹配,和/或
其中步骤ii)还包括通过丢弃在读段对图谱中距离彼此在10000个碱基对之内的最大几乎唯一匹配来过滤最大几乎唯一匹配。
28.根据权利要求26-27中任一项所述的方法,其中在步骤iii)中,在基因组分箱尺寸中计数映射的读段的数量,对于参考样品而言,所述基因组分箱尺寸产生相同的映射序列计数,
其中在步骤iii)中,在具有预期的相同密度的基因组分箱中计数映射的读段的数量,
其中在步骤iii)中,针对GC偏好通过LOESS归一化调整每个分箱中映射读段的数量,
其中在步骤iii)中,利用模板分析来降低经GC调整的分箱计数数据中的系统噪声,
其中在步骤iii)中,通过将经GC调整的分箱比率除以标准样品分箱比率来将参考物归一化应用于分箱计数数据,
其中在步骤iii)中,通过循环二元分段分析参考物归一化的经GC调整的分箱计数数据,和/或
其中在步骤iii)中,参考物映射序列的总数与样品映射序列的总数相匹配。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562215540P | 2015-09-08 | 2015-09-08 | |
US62/215,540 | 2015-09-08 | ||
US201562250405P | 2015-11-03 | 2015-11-03 | |
US62/250,405 | 2015-11-03 | ||
US201662292151P | 2016-02-05 | 2016-02-05 | |
US62/292,151 | 2016-02-05 | ||
PCT/US2016/050750 WO2017044609A1 (en) | 2015-09-08 | 2016-09-08 | Genetic copy number determination using high throughput multiplex sequencing of smashed nucleotides |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108603190A CN108603190A (zh) | 2018-09-28 |
CN108603190B true CN108603190B (zh) | 2023-05-23 |
Family
ID=58239986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680063882.3A Active CN108603190B (zh) | 2015-09-08 | 2016-09-08 | 使用经破碎的核苷酸的高通量多重测序确定基因拷贝数 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10731149B2 (zh) |
EP (1) | EP3347466B9 (zh) |
CN (1) | CN108603190B (zh) |
AU (1) | AU2016321204B2 (zh) |
CA (1) | CA2997929A1 (zh) |
WO (1) | WO2017044609A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2016321204B2 (en) | 2015-09-08 | 2022-12-01 | Cold Spring Harbor Laboratory | Genetic copy number determination using high throughput multiplex sequencing of smashed nucleotides |
US11031092B2 (en) | 2017-11-01 | 2021-06-08 | International Business Machines Corporation | Taxonomic annotation of variable length metagenomic patterns |
CN109797436B (zh) * | 2018-12-29 | 2021-10-08 | 阅尔基因技术(苏州)有限公司 | 一种测序文库构建方法 |
CN109920480B (zh) * | 2019-03-14 | 2020-02-21 | 深圳市海普洛斯生物科技有限公司 | 一种校正高通量测序数据的方法和装置 |
CN111445952B (zh) * | 2020-03-25 | 2024-01-26 | 山东大学 | 超长基因序列的相似性快速比对方法及系统 |
CN112309500B (zh) * | 2020-10-30 | 2024-08-30 | 广州序科码生物技术有限责任公司 | 一种基于单细胞测序数据唯一片段序列捕获方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060228714A1 (en) * | 2004-02-17 | 2006-10-12 | Dana Farber Cancer Institute | Nucleic acid representations utilizing type IIB restriction endonuclease cleavage products |
CN103797486A (zh) * | 2011-06-06 | 2014-05-14 | 皇家飞利浦有限公司 | 用于组装核酸序列数据的方法 |
CN104781421A (zh) * | 2012-09-04 | 2015-07-15 | 夸登特健康公司 | 检测稀有突变和拷贝数变异的系统和方法 |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5605793A (en) | 1994-02-17 | 1997-02-25 | Affymax Technologies N.V. | Methods for in vitro recombination |
US5866330A (en) | 1995-09-12 | 1999-02-02 | The Johns Hopkins University School Of Medicine | Method for serial analysis of gene expression |
WO2001029211A2 (en) | 1999-10-19 | 2001-04-26 | Enchira Biotechnology Corporation | Method for directed evolution by random chimeragenesis on transient templates |
AU2001273559A1 (en) | 2000-07-18 | 2002-01-30 | Enchira Biotechnology Corporation | Methods of ligation mediated chimeragenesis utilizing populations of scaffold and donor nucleic acids |
US6498013B1 (en) | 2000-07-28 | 2002-12-24 | The Johns Hopkins University | Serial analysis of transcript expression using MmeI and long tags |
US7807408B2 (en) | 2001-03-19 | 2010-10-05 | President & Fellows Of Harvard College | Directed evolution of proteins |
US8428882B2 (en) | 2005-06-14 | 2013-04-23 | Agency For Science, Technology And Research | Method of processing and/or genome mapping of diTag sequences |
US7932029B1 (en) | 2006-01-04 | 2011-04-26 | Si Lok | Methods for nucleic acid mapping and identification of fine-structural-variations in nucleic acids and utilities |
US20090137402A1 (en) | 2006-10-11 | 2009-05-28 | San Ming Wang | Ditag genome scanning technology |
EP3770275A1 (en) | 2007-07-23 | 2021-01-27 | The Chinese University of Hong Kong | Determining a fetal aneuploidy |
WO2010093465A1 (en) | 2009-02-11 | 2010-08-19 | Caris Mpi, Inc. | Molecular profiling of tumors |
US9524369B2 (en) | 2009-06-15 | 2016-12-20 | Complete Genomics, Inc. | Processing and analysis of complex nucleic acid sequence data |
US20130123120A1 (en) | 2010-05-18 | 2013-05-16 | Natera, Inc. | Highly Multiplex PCR Methods and Compositions |
ES2595433T3 (es) | 2010-09-21 | 2016-12-30 | Population Genetics Technologies Ltd. | Aumento de la confianza en las identificaciones de alelos con el recuento molecular |
DK2630263T4 (da) | 2010-10-22 | 2022-02-14 | Cold Spring Harbor Laboratory | Varital tælling af nucleinsyrer for at opnå information om antal genomiske kopier |
JP6017458B2 (ja) | 2011-02-02 | 2016-11-02 | ユニヴァーシティ・オブ・ワシントン・スルー・イッツ・センター・フォー・コマーシャリゼーション | 大量並列連続性マッピング |
AU2011365507A1 (en) | 2011-04-14 | 2013-05-02 | Verinata Health, Inc. | Normalizing chromosomes for the determination and verification of common and rare chromosomal aneuploidies |
US20150344938A1 (en) | 2011-04-28 | 2015-12-03 | Life Technologies Corporation | Multiplex transcriptome analysis |
JP5998203B2 (ja) | 2011-04-28 | 2016-09-28 | ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー | 試料に関連するポリヌクレオチドの同定 |
EP2563937A1 (en) | 2011-07-26 | 2013-03-06 | Verinata Health, Inc | Method for determining the presence or absence of different aneuploidies in a sample |
CA3067612A1 (en) | 2011-09-22 | 2013-03-28 | Lineage Biosciences, Inc. | Compositions and methods for analyzing heterogeneous samples |
CA2851388C (en) | 2011-10-10 | 2023-11-21 | The Hospital For Sick Children | Methods and compositions for screening and treating developmental disorders |
DK2773779T3 (da) | 2011-11-04 | 2020-11-23 | Population Bio Inc | Fremgangsmåder og sammensætninger til diagnosticering, prognose og forebyggelse af neurologiske tilstande |
EP4372084A3 (en) | 2012-01-26 | 2024-08-14 | Tecan Genomics, Inc. | Compositions and methods for targeted nucleic acid sequence enrichment and high efficiency library generation |
CN103374518B (zh) | 2012-04-12 | 2018-03-27 | 维里纳塔健康公司 | 拷贝数变异的检测和分类 |
CA2874413A1 (en) | 2012-05-21 | 2013-11-28 | The Scripps Research Institute | Methods of sample preparation |
WO2014008447A1 (en) | 2012-07-03 | 2014-01-09 | Integrated Dna Technologies, Inc. | Tm-enhanced blocking oligonucleotides and baits for improved target enrichment and reduced off-target selection |
EP3388533A1 (en) | 2012-07-13 | 2018-10-17 | Life Technologies Corporation | Human identification using a panel of snps |
EP2900835A4 (en) | 2012-09-27 | 2016-05-11 | Population Diagnotics Inc | METHODS AND COMPOSITIONS FOR DETECTING AND TREATING DEVELOPMENTAL DISORDERS |
CN103725773B (zh) | 2012-10-10 | 2015-11-25 | 杭州普望生物技术有限公司 | 鉴定宿主基因组中hbv基因整合位点和重复靶基因 |
US20150286773A1 (en) | 2012-11-15 | 2015-10-08 | The General Hospital Corporation | Methods and systems for diagnosing prenatal abnormalities |
EP2929350A4 (en) | 2012-12-04 | 2016-11-16 | Caris Mpi Inc | MOLECULAR PROFILING FOR CANCER |
US10643738B2 (en) | 2013-01-10 | 2020-05-05 | The Chinese University Of Hong Kong | Noninvasive prenatal molecular karyotyping from maternal plasma |
CN105074007A (zh) | 2013-03-12 | 2015-11-18 | 考希尔股份有限公司 | 用于产前遗传分析的系统和方法 |
CN105408496A (zh) * | 2013-03-15 | 2016-03-16 | 夸登特健康公司 | 检测稀有突变和拷贝数变异的系统和方法 |
WO2014191976A1 (en) | 2013-05-31 | 2014-12-04 | Si Lok | Molecular identity tags and uses thereof in identifying intermolecular ligation products |
CA2914367A1 (en) | 2013-06-07 | 2014-12-11 | Athena Diagnostics, Inc. | Molecular barcoding for multiplex sequencing |
LT3027771T (lt) | 2013-07-30 | 2019-04-25 | Gen9, Inc. | Ilgos kloninės sekos verifikuotų nukleorūgščių konstruktų gamybos būdas |
US9416414B2 (en) | 2013-10-24 | 2016-08-16 | Pacific Biosciences Of California, Inc. | Delaying real-time sequencing |
US10767222B2 (en) | 2013-12-11 | 2020-09-08 | Accuragen Holdings Limited | Compositions and methods for detecting rare sequence variants |
US10273538B2 (en) | 2014-02-05 | 2019-04-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Error-free sequencing of DNA |
US10318704B2 (en) | 2014-05-30 | 2019-06-11 | Verinata Health, Inc. | Detecting fetal sub-chromosomal aneuploidies |
US9758780B2 (en) | 2014-06-02 | 2017-09-12 | Drexel University | Whole genome mapping by DNA sequencing with linked-paired-end library |
GB2541904B (en) * | 2015-09-02 | 2020-09-02 | Oxford Nanopore Tech Ltd | Method of identifying sequence variants using concatenation |
AU2016321204B2 (en) | 2015-09-08 | 2022-12-01 | Cold Spring Harbor Laboratory | Genetic copy number determination using high throughput multiplex sequencing of smashed nucleotides |
-
2016
- 2016-09-08 AU AU2016321204A patent/AU2016321204B2/en active Active
- 2016-09-08 WO PCT/US2016/050750 patent/WO2017044609A1/en active Application Filing
- 2016-09-08 CA CA2997929A patent/CA2997929A1/en active Pending
- 2016-09-08 CN CN201680063882.3A patent/CN108603190B/zh active Active
- 2016-09-08 EP EP16845040.1A patent/EP3347466B9/en active Active
-
2017
- 2017-01-30 US US15/419,878 patent/US10731149B2/en active Active
-
2019
- 2019-05-03 US US16/403,420 patent/US11739315B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060228714A1 (en) * | 2004-02-17 | 2006-10-12 | Dana Farber Cancer Institute | Nucleic acid representations utilizing type IIB restriction endonuclease cleavage products |
CN103797486A (zh) * | 2011-06-06 | 2014-05-14 | 皇家飞利浦有限公司 | 用于组装核酸序列数据的方法 |
CN104781421A (zh) * | 2012-09-04 | 2015-07-15 | 夸登特健康公司 | 检测稀有突变和拷贝数变异的系统和方法 |
Non-Patent Citations (2)
Title |
---|
Identification of genetic variants using bar-coded multiplexed sequencing;Identification of genetic variants using bar-coded multiplexed s;《NATURE METHODS》;20081031;第887页第二栏第3段,补充方法部分 * |
Samuel Myllykangas et al..Chapter2:Overview of Sequencing Technology Platforms.《Bioinformatics for HighThroughput Sequencing》.2012, * |
Also Published As
Publication number | Publication date |
---|---|
AU2016321204B2 (en) | 2022-12-01 |
US20190360023A1 (en) | 2019-11-28 |
CA2997929A1 (en) | 2017-03-16 |
US11739315B2 (en) | 2023-08-29 |
US10731149B2 (en) | 2020-08-04 |
EP3347466A1 (en) | 2018-07-18 |
WO2017044609A1 (en) | 2017-03-16 |
EP3347466B9 (en) | 2024-06-26 |
EP3347466A4 (en) | 2019-03-20 |
CN108603190A (zh) | 2018-09-28 |
AU2016321204A1 (en) | 2018-04-12 |
US20170152548A1 (en) | 2017-06-01 |
EP3347466B1 (en) | 2024-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108603190B (zh) | 使用经破碎的核苷酸的高通量多重测序确定基因拷贝数 | |
AU2018266377B2 (en) | Universal short adapters for indexing of polynucleotide samples | |
CN110997937B (zh) | 具有可变长度非随机独特分子标识符的通用短衔接子 | |
ES2555389T3 (es) | Análisis de expresión génica en células individuales | |
KR102393608B1 (ko) | 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법 | |
CN110546272B (zh) | 将衔接子附接至样品核酸的方法 | |
US8697607B2 (en) | Generation and application of standardized universal libraries | |
CN111321202A (zh) | 基因融合变异文库构建方法、检测方法、装置、设备及存储介质 | |
JP2018527928A (ja) | 次世代シークエンシングのための高分子量dnaサンプル追跡タグ | |
EP3198063A1 (en) | Rna stitch sequencing: an assay for direct mapping of rna : rna interactions in cells | |
JP2023523002A (ja) | 染色体近接実験における構造的変異検出 | |
Wang et al. | SMASH, a fragmentation and sequencing method for genomic copy number analysis | |
Yang et al. | A genome-phenome association study in native microbiomes identifies a mechanism for cytosine modification in DNA and RNA | |
US20240301466A1 (en) | Efficient duplex sequencing using high fidelity next generation sequencing reads | |
JP2022548504A (ja) | 低頻度バリアントの検出およびレポートを容易にするためのdnaライブラリー生成方法 | |
Chen et al. | scCircle-seq unveils the diversity and complexity of circular DNAs in single cells | |
CN108304693B (zh) | 利用高通量测序数据分析基因融合的方法 | |
CN111542616A (zh) | 脱氨引起的序列错误的纠正 | |
US20240052339A1 (en) | Rna probe for mutation profiling and use thereof | |
CN114144188B (zh) | 放大及检测核糖核酸(rna)片段的方法 | |
Yao et al. | Human cells contain myriad excised linear intron RNAs with links to gene regulation and potential utility as biomarkers | |
US20220145368A1 (en) | Methods for noninvasive prenatal testing of fetal abnormalities | |
Fontanez et al. | Intrinsic molecular identifiers enable robust molecular counting in single-cell sequencing | |
WO2023020688A1 (en) | Method for cdna library construction and analysis from transfer rna | |
Conceição | Differential DNA Methylation in Aging: in Silico Exploration Using High-Throughput Datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |