CN112771174A - 用于循环微米粒子分析的方法 - Google Patents
用于循环微米粒子分析的方法 Download PDFInfo
- Publication number
- CN112771174A CN112771174A CN201880096851.7A CN201880096851A CN112771174A CN 112771174 A CN112771174 A CN 112771174A CN 201880096851 A CN201880096851 A CN 201880096851A CN 112771174 A CN112771174 A CN 112771174A
- Authority
- CN
- China
- Prior art keywords
- nucleic acid
- barcoded
- sequence
- target
- barcode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011859 microparticle Substances 0.000 title claims abstract description 697
- 238000000034 method Methods 0.000 title claims abstract description 511
- 238000004458 analytical method Methods 0.000 title description 20
- 125000004122 cyclic group Chemical group 0.000 title description 12
- 239000000523 sample Substances 0.000 claims abstract description 471
- 108090000765 processed proteins & peptides Proteins 0.000 claims abstract description 95
- 102000004196 processed proteins & peptides Human genes 0.000 claims abstract description 94
- 229920001184 polypeptide Polymers 0.000 claims abstract description 93
- 239000012634 fragment Substances 0.000 claims description 522
- 108091034117 Oligonucleotide Proteins 0.000 claims description 366
- 108020004414 DNA Proteins 0.000 claims description 337
- 125000003729 nucleotide group Chemical group 0.000 claims description 166
- 238000012163 sequencing technique Methods 0.000 claims description 143
- 239000002773 nucleotide Substances 0.000 claims description 140
- 238000009739 binding Methods 0.000 claims description 106
- 230000027455 binding Effects 0.000 claims description 104
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 claims description 66
- 238000005259 measurement Methods 0.000 claims description 35
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical group CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 claims description 33
- 238000001943 fluorescence-activated cell sorting Methods 0.000 claims description 17
- 125000000539 amino acid group Chemical group 0.000 claims description 7
- 230000004481 post-translational protein modification Effects 0.000 claims description 5
- 238000000684 flow cytometry Methods 0.000 claims description 4
- 125000003275 alpha amino acid group Chemical group 0.000 claims 1
- 150000007523 nucleic acids Chemical class 0.000 abstract description 616
- 102000039446 nucleic acids Human genes 0.000 abstract description 558
- 108020004707 nucleic acids Proteins 0.000 abstract description 558
- 239000003153 chemical reaction reagent Substances 0.000 abstract description 168
- 210000004369 blood Anatomy 0.000 abstract description 39
- 239000008280 blood Substances 0.000 abstract description 39
- 102000053602 DNA Human genes 0.000 description 309
- 238000005192 partition Methods 0.000 description 264
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 174
- 230000008878 coupling Effects 0.000 description 160
- 238000010168 coupling process Methods 0.000 description 160
- 238000005859 coupling reaction Methods 0.000 description 160
- 238000006243 chemical reaction Methods 0.000 description 93
- 210000004027 cell Anatomy 0.000 description 79
- 230000000875 corresponding effect Effects 0.000 description 67
- 108091028043 Nucleic acid sequence Proteins 0.000 description 65
- 230000008569 process Effects 0.000 description 60
- 210000001519 tissue Anatomy 0.000 description 54
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 45
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 45
- 239000011541 reaction mixture Substances 0.000 description 38
- 238000004132 cross linking Methods 0.000 description 36
- -1 genomic DNA) Chemical class 0.000 description 36
- 108090000623 proteins and genes Proteins 0.000 description 36
- 230000003321 amplification Effects 0.000 description 32
- 125000005647 linker group Chemical group 0.000 description 32
- 238000003199 nucleic acid amplification method Methods 0.000 description 32
- 102000004169 proteins and genes Human genes 0.000 description 32
- 235000018102 proteins Nutrition 0.000 description 31
- 239000000243 solution Substances 0.000 description 31
- 108091023037 Aptamer Proteins 0.000 description 28
- 229920001223 polyethylene glycol Polymers 0.000 description 27
- 239000011324 bead Substances 0.000 description 25
- 230000004049 epigenetic modification Effects 0.000 description 25
- 230000000295 complement effect Effects 0.000 description 24
- 238000003752 polymerase chain reaction Methods 0.000 description 24
- 206010028980 Neoplasm Diseases 0.000 description 23
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 22
- 230000003287 optical effect Effects 0.000 description 21
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical group N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 18
- 239000000499 gel Substances 0.000 description 18
- 201000011510 cancer Diseases 0.000 description 16
- 230000001351 cycling effect Effects 0.000 description 16
- 239000012528 membrane Substances 0.000 description 16
- 238000000638 solvent extraction Methods 0.000 description 16
- 108010033040 Histones Proteins 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 14
- 125000006850 spacer group Chemical group 0.000 description 14
- 239000000969 carrier Substances 0.000 description 13
- 108020004999 messenger RNA Proteins 0.000 description 13
- 239000000126 substance Substances 0.000 description 13
- 102000035195 Peptidases Human genes 0.000 description 12
- 108091005804 Peptidases Proteins 0.000 description 12
- 239000004365 Protease Substances 0.000 description 12
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 12
- 230000029087 digestion Effects 0.000 description 12
- 238000006073 displacement reaction Methods 0.000 description 12
- 230000001605 fetal effect Effects 0.000 description 12
- 235000019419 proteases Nutrition 0.000 description 12
- 229960002685 biotin Drugs 0.000 description 11
- 239000011616 biotin Substances 0.000 description 11
- 238000005119 centrifugation Methods 0.000 description 11
- 239000000203 mixture Substances 0.000 description 11
- 230000008823 permeabilization Effects 0.000 description 11
- 108091008146 restriction endonucleases Proteins 0.000 description 11
- 239000007787 solid Substances 0.000 description 11
- LYCAIKOWRPUZTN-UHFFFAOYSA-N Ethylene glycol Chemical compound OCCO LYCAIKOWRPUZTN-UHFFFAOYSA-N 0.000 description 10
- 102100027893 Homeobox protein Nkx-2.1 Human genes 0.000 description 10
- 238000010382 chemical cross-linking Methods 0.000 description 10
- 239000003431 cross linking reagent Substances 0.000 description 10
- 229920002521 macromolecule Polymers 0.000 description 10
- 230000037452 priming Effects 0.000 description 10
- 108010090804 Streptavidin Proteins 0.000 description 9
- 235000020958 biotin Nutrition 0.000 description 9
- 101710114425 Homeobox protein Nkx-2.1 Proteins 0.000 description 8
- 101710088547 Thyroid transcription factor 1 Proteins 0.000 description 8
- 101710159262 Transcription termination factor 1 Proteins 0.000 description 8
- 230000001640 apoptogenic effect Effects 0.000 description 8
- 239000000839 emulsion Substances 0.000 description 8
- 238000009396 hybridization Methods 0.000 description 8
- 238000007901 in situ hybridization Methods 0.000 description 8
- 238000011534 incubation Methods 0.000 description 8
- 238000005304 joining Methods 0.000 description 8
- 239000004094 surface-active agent Substances 0.000 description 8
- 102000004190 Enzymes Human genes 0.000 description 7
- 108090000790 Enzymes Proteins 0.000 description 7
- 108091092584 GDNA Proteins 0.000 description 7
- 108020005187 Oligonucleotide Probes Proteins 0.000 description 7
- DBMJMQXJHONAFJ-UHFFFAOYSA-M Sodium laurylsulphate Chemical compound [Na+].CCCCCCCCCCCCOS([O-])(=O)=O DBMJMQXJHONAFJ-UHFFFAOYSA-M 0.000 description 7
- 229940088598 enzyme Drugs 0.000 description 7
- 210000001808 exosome Anatomy 0.000 description 7
- 238000000338 in vitro Methods 0.000 description 7
- 238000011065 in-situ storage Methods 0.000 description 7
- 230000008774 maternal effect Effects 0.000 description 7
- 239000002751 oligonucleotide probe Substances 0.000 description 7
- 210000002381 plasma Anatomy 0.000 description 7
- 238000005199 ultracentrifugation Methods 0.000 description 7
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 6
- 108010067770 Endopeptidase K Proteins 0.000 description 6
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 6
- 238000000862 absorption spectrum Methods 0.000 description 6
- 229960005305 adenosine Drugs 0.000 description 6
- 210000000349 chromosome Anatomy 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000000295 emission spectrum Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 150000002632 lipids Chemical class 0.000 description 6
- 239000002245 particle Substances 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 6
- 108091093088 Amplicon Proteins 0.000 description 5
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 5
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 5
- 102100033636 Histone H3.2 Human genes 0.000 description 5
- HMNZFMSWFCAGGW-XPWSMXQVSA-N [3-[hydroxy(2-hydroxyethoxy)phosphoryl]oxy-2-[(e)-octadec-9-enoyl]oxypropyl] (e)-octadec-9-enoate Chemical compound CCCCCCCC\C=C\CCCCCCCC(=O)OCC(COP(O)(=O)OCCO)OC(=O)CCCCCCC\C=C\CCCCCCCC HMNZFMSWFCAGGW-XPWSMXQVSA-N 0.000 description 5
- 230000002759 chromosomal effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 108091070501 miRNA Proteins 0.000 description 5
- 210000002966 serum Anatomy 0.000 description 5
- QLHLYJHNOCILIT-UHFFFAOYSA-N 4-o-(2,5-dioxopyrrolidin-1-yl) 1-o-[2-[4-(2,5-dioxopyrrolidin-1-yl)oxy-4-oxobutanoyl]oxyethyl] butanedioate Chemical compound O=C1CCC(=O)N1OC(=O)CCC(=O)OCCOC(=O)CCC(=O)ON1C(=O)CCC1=O QLHLYJHNOCILIT-UHFFFAOYSA-N 0.000 description 4
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 4
- 102000010792 Chromogranin A Human genes 0.000 description 4
- 108010038447 Chromogranin A Proteins 0.000 description 4
- SXRSQZLOMIGNAQ-UHFFFAOYSA-N Glutaraldehyde Chemical compound O=CCCCC=O SXRSQZLOMIGNAQ-UHFFFAOYSA-N 0.000 description 4
- 239000004472 Lysine Substances 0.000 description 4
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 4
- 108020005196 Mitochondrial DNA Proteins 0.000 description 4
- 229930040373 Paraformaldehyde Natural products 0.000 description 4
- 239000013504 Triton X-100 Substances 0.000 description 4
- 229920004890 Triton X-100 Polymers 0.000 description 4
- 238000007792 addition Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 229920001222 biopolymer Polymers 0.000 description 4
- LNQHREYHFRFJAU-UHFFFAOYSA-N bis(2,5-dioxopyrrolidin-1-yl) pentanedioate Chemical compound O=C1CCC(=O)N1OC(=O)CCCC(=O)ON1C(=O)CCC1=O LNQHREYHFRFJAU-UHFFFAOYSA-N 0.000 description 4
- 229910052799 carbon Inorganic materials 0.000 description 4
- 125000002091 cationic group Chemical group 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 239000005547 deoxyribonucleotide Substances 0.000 description 4
- 125000001495 ethyl group Chemical group [H]C([H])([H])C([H])([H])* 0.000 description 4
- 210000002865 immune cell Anatomy 0.000 description 4
- WSFSSNUMVMOOMR-NJFSPNSNSA-N methanone Chemical compound O=[14CH2] WSFSSNUMVMOOMR-NJFSPNSNSA-N 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 229920002866 paraformaldehyde Polymers 0.000 description 4
- 238000010791 quenching Methods 0.000 description 4
- 238000003753 real-time PCR Methods 0.000 description 4
- 238000010839 reverse transcription Methods 0.000 description 4
- 238000001542 size-exclusion chromatography Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 229920001059 synthetic polymer Polymers 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 230000017105 transposition Effects 0.000 description 4
- 229920000936 Agarose Polymers 0.000 description 3
- 108010074708 B7-H1 Antigen Proteins 0.000 description 3
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 3
- 208000031404 Chromosome Aberrations Diseases 0.000 description 3
- 102100033215 DNA nucleotidylexotransferase Human genes 0.000 description 3
- 108010008286 DNA nucleotidylexotransferase Proteins 0.000 description 3
- 102000001301 EGF receptor Human genes 0.000 description 3
- 108060006698 EGF receptor Proteins 0.000 description 3
- 239000004471 Glycine Substances 0.000 description 3
- 239000000232 Lipid Bilayer Substances 0.000 description 3
- 206010025323 Lymphomas Diseases 0.000 description 3
- 108091092878 Microsatellite Proteins 0.000 description 3
- 102100024216 Programmed cell death 1 ligand 1 Human genes 0.000 description 3
- 108010072866 Prostate-Specific Antigen Proteins 0.000 description 3
- 102100038358 Prostate-specific antigen Human genes 0.000 description 3
- 108020004682 Single-Stranded DNA Proteins 0.000 description 3
- 208000037280 Trisomy Diseases 0.000 description 3
- 239000011543 agarose gel Substances 0.000 description 3
- 150000001413 amino acids Chemical group 0.000 description 3
- 210000005013 brain tissue Anatomy 0.000 description 3
- 230000004087 circulation Effects 0.000 description 3
- 239000002299 complementary DNA Substances 0.000 description 3
- 239000000412 dendrimer Substances 0.000 description 3
- 229920000736 dendritic polymer Polymers 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001973 epigenetic effect Effects 0.000 description 3
- 210000003754 fetus Anatomy 0.000 description 3
- 239000007850 fluorescent dye Substances 0.000 description 3
- IIRDTKBZINWQAW-UHFFFAOYSA-N hexaethylene glycol Chemical compound OCCOCCOCCOCCOCCOCCO IIRDTKBZINWQAW-UHFFFAOYSA-N 0.000 description 3
- 229920001519 homopolymer Polymers 0.000 description 3
- 239000000017 hydrogel Substances 0.000 description 3
- 208000032839 leukemia Diseases 0.000 description 3
- 238000011068 loading method Methods 0.000 description 3
- 230000002934 lysing effect Effects 0.000 description 3
- 230000003211 malignant effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 201000001441 melanoma Diseases 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- JLFNLZLINWHATN-UHFFFAOYSA-N pentaethylene glycol Chemical group OCCOCCOCCOCCOCCO JLFNLZLINWHATN-UHFFFAOYSA-N 0.000 description 3
- 229920002401 polyacrylamide Polymers 0.000 description 3
- 229920000058 polyacrylate Polymers 0.000 description 3
- 102000035123 post-translationally modified proteins Human genes 0.000 description 3
- 108091005626 post-translationally modified proteins Proteins 0.000 description 3
- 210000002307 prostate Anatomy 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 229940113082 thymine Drugs 0.000 description 3
- 102000005666 Apolipoprotein A-I Human genes 0.000 description 2
- 108010059886 Apolipoprotein A-I Proteins 0.000 description 2
- 102100021569 Apoptosis regulator Bcl-2 Human genes 0.000 description 2
- 108090001008 Avidin Proteins 0.000 description 2
- 102100022005 B-lymphocyte antigen CD20 Human genes 0.000 description 2
- 108091012583 BCL2 Proteins 0.000 description 2
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 2
- 108010074051 C-Reactive Protein Proteins 0.000 description 2
- 102100032752 C-reactive protein Human genes 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 2
- 102100040836 Claudin-1 Human genes 0.000 description 2
- 108090000600 Claudin-1 Proteins 0.000 description 2
- 108010060385 Cyclin B1 Proteins 0.000 description 2
- 102000012410 DNA Ligases Human genes 0.000 description 2
- 108010061982 DNA Ligases Proteins 0.000 description 2
- 102000052510 DNA-Binding Proteins Human genes 0.000 description 2
- 230000004568 DNA-binding Effects 0.000 description 2
- 101710096438 DNA-binding protein Proteins 0.000 description 2
- QRLVDLBMBULFAL-UHFFFAOYSA-N Digitonin Natural products CC1CCC2(OC1)OC3C(O)C4C5CCC6CC(OC7OC(CO)C(OC8OC(CO)C(O)C(OC9OCC(O)C(O)C9OC%10OC(CO)C(O)C(OC%11OC(CO)C(O)C(O)C%11O)C%10O)C8O)C(O)C7O)C(O)CC6(C)C5CCC4(C)C3C2C QRLVDLBMBULFAL-UHFFFAOYSA-N 0.000 description 2
- 108010066687 Epithelial Cell Adhesion Molecule Proteins 0.000 description 2
- 102100031940 Epithelial cell adhesion molecule Human genes 0.000 description 2
- 102100038595 Estrogen receptor Human genes 0.000 description 2
- 102100032340 G2/mitotic-specific cyclin-B1 Human genes 0.000 description 2
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 2
- 102000003886 Glycoproteins Human genes 0.000 description 2
- 108090000288 Glycoproteins Proteins 0.000 description 2
- 102000006947 Histones Human genes 0.000 description 2
- 101000897405 Homo sapiens B-lymphocyte antigen CD20 Proteins 0.000 description 2
- 108010021625 Immunoglobulin Fragments Proteins 0.000 description 2
- 102000008394 Immunoglobulin Fragments Human genes 0.000 description 2
- 102100033421 Keratin, type I cytoskeletal 18 Human genes 0.000 description 2
- 102100023972 Keratin, type II cytoskeletal 8 Human genes 0.000 description 2
- 108090001030 Lipoproteins Proteins 0.000 description 2
- 102000004895 Lipoproteins Human genes 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 206010064912 Malignant transformation Diseases 0.000 description 2
- 102100027754 Mast/stem cell growth factor receptor Kit Human genes 0.000 description 2
- 102000018697 Membrane Proteins Human genes 0.000 description 2
- 108010052285 Membrane Proteins Proteins 0.000 description 2
- XOJVVFBFDXDTEG-UHFFFAOYSA-N Norphytane Natural products CC(C)CCCC(C)CCCC(C)CCCC(C)C XOJVVFBFDXDTEG-UHFFFAOYSA-N 0.000 description 2
- 108091008606 PDGF receptors Proteins 0.000 description 2
- 102000010752 Plasminogen Inactivators Human genes 0.000 description 2
- 108010077971 Plasminogen Inactivators Proteins 0.000 description 2
- 102000011653 Platelet-Derived Growth Factor Receptors Human genes 0.000 description 2
- 229920001213 Polysorbate 20 Polymers 0.000 description 2
- 208000002787 Pregnancy Complications Diseases 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 102100036011 T-cell surface glycoprotein CD4 Human genes 0.000 description 2
- 102100034922 T-cell surface glycoprotein CD8 alpha chain Human genes 0.000 description 2
- 108010057966 Thyroid Nuclear Factor 1 Proteins 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 108091008605 VEGF receptors Proteins 0.000 description 2
- 102000009484 Vascular Endothelial Growth Factor Receptors Human genes 0.000 description 2
- 150000001336 alkenes Chemical class 0.000 description 2
- 150000001345 alkine derivatives Chemical group 0.000 description 2
- 102000013529 alpha-Fetoproteins Human genes 0.000 description 2
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 239000007864 aqueous solution Substances 0.000 description 2
- 238000010461 azide-alkyne cycloaddition reaction Methods 0.000 description 2
- 102000015736 beta 2-Microglobulin Human genes 0.000 description 2
- 108010081355 beta 2-Microglobulin Proteins 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 210000005068 bladder tissue Anatomy 0.000 description 2
- 210000004958 brain cell Anatomy 0.000 description 2
- 210000000481 breast Anatomy 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 150000001720 carbohydrates Chemical class 0.000 description 2
- 210000000170 cell membrane Anatomy 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 108091006090 chromatin-associated proteins Proteins 0.000 description 2
- 230000021615 conjugation Effects 0.000 description 2
- 230000000779 depleting effect Effects 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- UVYVLBIGDKGWPX-KUAJCENISA-N digitonin Chemical compound O([C@@H]1[C@@H]([C@]2(CC[C@@H]3[C@@]4(C)C[C@@H](O)[C@H](O[C@H]5[C@@H]([C@@H](O)[C@@H](O[C@H]6[C@@H]([C@@H](O[C@H]7[C@@H]([C@@H](O)[C@H](O)CO7)O)[C@H](O)[C@@H](CO)O6)O[C@H]6[C@@H]([C@@H](O[C@H]7[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O7)O)[C@@H](O)[C@@H](CO)O6)O)[C@@H](CO)O5)O)C[C@@H]4CC[C@H]3[C@@H]2[C@@H]1O)C)[C@@H]1C)[C@]11CC[C@@H](C)CO1 UVYVLBIGDKGWPX-KUAJCENISA-N 0.000 description 2
- UVYVLBIGDKGWPX-UHFFFAOYSA-N digitonine Natural products CC1C(C2(CCC3C4(C)CC(O)C(OC5C(C(O)C(OC6C(C(OC7C(C(O)C(O)CO7)O)C(O)C(CO)O6)OC6C(C(OC7C(C(O)C(O)C(CO)O7)O)C(O)C(CO)O6)O)C(CO)O5)O)CC4CCC3C2C2O)C)C2OC11CCC(C)CO1 UVYVLBIGDKGWPX-UHFFFAOYSA-N 0.000 description 2
- 238000010790 dilution Methods 0.000 description 2
- 239000012895 dilution Substances 0.000 description 2
- 108010038795 estrogen receptors Proteins 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000706 filtrate Substances 0.000 description 2
- 238000000799 fluorescence microscopy Methods 0.000 description 2
- 238000002509 fluorescent in situ hybridization Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006195 histone acetylation Effects 0.000 description 2
- 239000012133 immunoprecipitate Substances 0.000 description 2
- 239000002502 liposome Substances 0.000 description 2
- 210000005228 liver tissue Anatomy 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 210000005265 lung cell Anatomy 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 210000004698 lymphocyte Anatomy 0.000 description 2
- 230000036212 malign transformation Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000001404 mediated effect Effects 0.000 description 2
- 239000002207 metabolite Substances 0.000 description 2
- 239000000693 micelle Substances 0.000 description 2
- 230000009826 neoplastic cell growth Effects 0.000 description 2
- 238000001821 nucleic acid purification Methods 0.000 description 2
- 210000001672 ovary Anatomy 0.000 description 2
- 210000004923 pancreatic tissue Anatomy 0.000 description 2
- 230000008775 paternal effect Effects 0.000 description 2
- 150000003904 phospholipids Chemical class 0.000 description 2
- 239000002797 plasminogen activator inhibitor Substances 0.000 description 2
- 210000004623 platelet-rich plasma Anatomy 0.000 description 2
- 102000040430 polynucleotide Human genes 0.000 description 2
- 108091033319 polynucleotide Proteins 0.000 description 2
- 239000002157 polynucleotide Substances 0.000 description 2
- 239000000256 polyoxyethylene sorbitan monolaurate Substances 0.000 description 2
- 235000010486 polyoxyethylene sorbitan monolaurate Nutrition 0.000 description 2
- 235000010482 polyoxyethylene sorbitan monooleate Nutrition 0.000 description 2
- 229920000053 polysorbate 80 Polymers 0.000 description 2
- 229920006327 polystyrene foam Polymers 0.000 description 2
- 230000035935 pregnancy Effects 0.000 description 2
- 208000012113 pregnancy disease Diseases 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004850 protein–protein interaction Effects 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 230000000171 quenching effect Effects 0.000 description 2
- 239000001397 quillaja saponaria molina bark Substances 0.000 description 2
- 230000003362 replicative effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000007480 sanger sequencing Methods 0.000 description 2
- 229930182490 saponin Natural products 0.000 description 2
- 150000007949 saponins Chemical class 0.000 description 2
- 235000017709 saponins Nutrition 0.000 description 2
- 210000003491 skin Anatomy 0.000 description 2
- KZNICNPSHKQLFF-UHFFFAOYSA-N succinimide Chemical group O=C1CCC(=O)N1 KZNICNPSHKQLFF-UHFFFAOYSA-N 0.000 description 2
- 230000010741 sumoylation Effects 0.000 description 2
- 210000004291 uterus Anatomy 0.000 description 2
- 230000002792 vascular Effects 0.000 description 2
- 229940124676 vascular endothelial growth factor receptor Drugs 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 108090000672 Annexin A5 Proteins 0.000 description 1
- 102000004121 Annexin A5 Human genes 0.000 description 1
- 208000003950 B-cell lymphoma Diseases 0.000 description 1
- 102100024222 B-lymphocyte antigen CD19 Human genes 0.000 description 1
- 102100021663 Baculoviral IAP repeat-containing protein 5 Human genes 0.000 description 1
- 206010004593 Bile duct cancer Diseases 0.000 description 1
- 206010005003 Bladder cancer Diseases 0.000 description 1
- 102000004506 Blood Proteins Human genes 0.000 description 1
- 108010017384 Blood Proteins Proteins 0.000 description 1
- 208000003174 Brain Neoplasms Diseases 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- ZUHQCDZJPTXVCU-UHFFFAOYSA-N C1#CCCC2=CC=CC=C2C2=CC=CC=C21 Chemical group C1#CCCC2=CC=CC=C2C2=CC=CC=C21 ZUHQCDZJPTXVCU-UHFFFAOYSA-N 0.000 description 1
- 102000017420 CD3 protein, epsilon/gamma/delta subunit Human genes 0.000 description 1
- 108050005493 CD3 protein, epsilon/gamma/delta subunit Proteins 0.000 description 1
- 102100029761 Cadherin-5 Human genes 0.000 description 1
- 102000055006 Calcitonin Human genes 0.000 description 1
- 108060001064 Calcitonin Proteins 0.000 description 1
- 208000031229 Cardiomyopathies Diseases 0.000 description 1
- 102100023126 Cell surface glycoprotein MUC18 Human genes 0.000 description 1
- 102000020313 Cell-Penetrating Peptides Human genes 0.000 description 1
- 108010051109 Cell-Penetrating Peptides Proteins 0.000 description 1
- 108020004638 Circular DNA Proteins 0.000 description 1
- 108091028075 Circular RNA Proteins 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- VMQMZMRVKUZKQL-UHFFFAOYSA-N Cu+ Chemical compound [Cu+] VMQMZMRVKUZKQL-UHFFFAOYSA-N 0.000 description 1
- 108091008102 DNA aptamers Proteins 0.000 description 1
- 230000007018 DNA scission Effects 0.000 description 1
- AHCYMLUZIRLXAA-SHYZEUOFSA-N Deoxyuridine 5'-triphosphate Chemical class O1[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C[C@@H]1N1C(=O)NC(=O)C=C1 AHCYMLUZIRLXAA-SHYZEUOFSA-N 0.000 description 1
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 1
- LLQPHQFNMLZJMP-UHFFFAOYSA-N Fentrazamide Chemical compound N1=NN(C=2C(=CC=CC=2)Cl)C(=O)N1C(=O)N(CC)C1CCCCC1 LLQPHQFNMLZJMP-UHFFFAOYSA-N 0.000 description 1
- 101710113436 GTPase KRas Proteins 0.000 description 1
- 102100039788 GTPase NRas Human genes 0.000 description 1
- 108700007698 Genetic Terminator Regions Proteins 0.000 description 1
- 102100035716 Glycophorin-A Human genes 0.000 description 1
- 108050005231 Histone H2A Proteins 0.000 description 1
- 102000017286 Histone H2A Human genes 0.000 description 1
- 101710103773 Histone H2B Proteins 0.000 description 1
- 102100021639 Histone H2B type 1-K Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000980825 Homo sapiens B-lymphocyte antigen CD19 Proteins 0.000 description 1
- 101000623903 Homo sapiens Cell surface glycoprotein MUC18 Proteins 0.000 description 1
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 description 1
- 101001074244 Homo sapiens Glycophorin-A Proteins 0.000 description 1
- 101001078143 Homo sapiens Integrin alpha-IIb Proteins 0.000 description 1
- 101001015004 Homo sapiens Integrin beta-3 Proteins 0.000 description 1
- 101000958332 Homo sapiens Lymphocyte antigen 6 complex locus protein G6d Proteins 0.000 description 1
- 101000958312 Homo sapiens Lymphocyte antigen 6 complex locus protein G6f Proteins 0.000 description 1
- 101000622137 Homo sapiens P-selectin Proteins 0.000 description 1
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 1
- 101000738771 Homo sapiens Receptor-type tyrosine-protein phosphatase C Proteins 0.000 description 1
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 1
- 101000716102 Homo sapiens T-cell surface glycoprotein CD4 Proteins 0.000 description 1
- 101000946843 Homo sapiens T-cell surface glycoprotein CD8 alpha chain Proteins 0.000 description 1
- 108060003951 Immunoglobulin Proteins 0.000 description 1
- 102100025306 Integrin alpha-IIb Human genes 0.000 description 1
- 102100032999 Integrin beta-3 Human genes 0.000 description 1
- 108010066327 Keratin-18 Proteins 0.000 description 1
- 108010070511 Keratin-8 Proteins 0.000 description 1
- 102000011782 Keratins Human genes 0.000 description 1
- 108010076876 Keratins Proteins 0.000 description 1
- 208000008839 Kidney Neoplasms Diseases 0.000 description 1
- 102000003855 L-lactate dehydrogenase Human genes 0.000 description 1
- 108700023483 L-lactate dehydrogenases Proteins 0.000 description 1
- 108091026898 Leader sequence (mRNA) Proteins 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 102100038210 Lymphocyte antigen 6 complex locus protein G6d Human genes 0.000 description 1
- 108091007773 MIR100 Proteins 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108700011259 MicroRNAs Proteins 0.000 description 1
- 108091028066 Mir-126 Proteins 0.000 description 1
- 108091028076 Mir-127 Proteins 0.000 description 1
- 108091027766 Mir-143 Proteins 0.000 description 1
- 108091028684 Mir-145 Proteins 0.000 description 1
- 108091062170 Mir-22 Proteins 0.000 description 1
- 208000003445 Mouth Neoplasms Diseases 0.000 description 1
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 1
- 101710135898 Myc proto-oncogene protein Proteins 0.000 description 1
- 208000009525 Myocarditis Diseases 0.000 description 1
- 102100036961 Nuclear mitotic apparatus protein 1 Human genes 0.000 description 1
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 102100023472 P-selectin Human genes 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 208000009565 Pharyngeal Neoplasms Diseases 0.000 description 1
- 206010034811 Pharyngeal cancer Diseases 0.000 description 1
- 102000012288 Phosphopyruvate Hydratase Human genes 0.000 description 1
- 108010022181 Phosphopyruvate Hydratase Proteins 0.000 description 1
- 102100024616 Platelet endothelial cell adhesion molecule Human genes 0.000 description 1
- 108091036407 Polyadenylation Proteins 0.000 description 1
- 229920002565 Polyethylene Glycol 400 Polymers 0.000 description 1
- 229920001030 Polyethylene Glycol 4000 Polymers 0.000 description 1
- 229920002594 Polyethylene Glycol 8000 Polymers 0.000 description 1
- 108010076039 Polyproteins Proteins 0.000 description 1
- 102100025803 Progesterone receptor Human genes 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 108010029485 Protein Isoforms Proteins 0.000 description 1
- 102000001708 Protein Isoforms Human genes 0.000 description 1
- 108091034057 RNA (poly(A)) Proteins 0.000 description 1
- 108091008103 RNA aptamers Proteins 0.000 description 1
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 1
- 102100037422 Receptor-type tyrosine-protein phosphatase C Human genes 0.000 description 1
- 206010038389 Renal cancer Diseases 0.000 description 1
- 108091006725 SLCO1C1 Proteins 0.000 description 1
- 239000012506 Sephacryl® Substances 0.000 description 1
- 229920005654 Sephadex Polymers 0.000 description 1
- 239000012507 Sephadex™ Substances 0.000 description 1
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 1
- 208000000453 Skin Neoplasms Diseases 0.000 description 1
- 102100027229 Solute carrier organic anion transporter family member 1C1 Human genes 0.000 description 1
- 108010002687 Survivin Proteins 0.000 description 1
- 101710137500 T7 RNA polymerase Proteins 0.000 description 1
- DPOPAJRDYZGTIR-UHFFFAOYSA-N Tetrazine Chemical group C1=CN=NN=N1 DPOPAJRDYZGTIR-UHFFFAOYSA-N 0.000 description 1
- 241000589499 Thermus thermophilus Species 0.000 description 1
- 108091036066 Three prime untranslated region Proteins 0.000 description 1
- 108010034949 Thyroglobulin Proteins 0.000 description 1
- 102000009843 Thyroglobulin Human genes 0.000 description 1
- 102000008233 Toll-Like Receptor 4 Human genes 0.000 description 1
- 108010060804 Toll-Like Receptor 4 Proteins 0.000 description 1
- 102000002689 Toll-like receptor Human genes 0.000 description 1
- 108020000411 Toll-like receptor Proteins 0.000 description 1
- 101710120037 Toxin CcdB Proteins 0.000 description 1
- 101710150448 Transcriptional regulator Myc Proteins 0.000 description 1
- 102000008579 Transposases Human genes 0.000 description 1
- 108010020764 Transposases Proteins 0.000 description 1
- 102000006943 Uracil-DNA Glycosidase Human genes 0.000 description 1
- 108010072685 Uracil-DNA Glycosidase Proteins 0.000 description 1
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 1
- 102000003990 Urokinase-type plasminogen activator Human genes 0.000 description 1
- 108090000435 Urokinase-type plasminogen activator Proteins 0.000 description 1
- 208000002495 Uterine Neoplasms Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000021736 acetylation Effects 0.000 description 1
- 238000006640 acetylation reaction Methods 0.000 description 1
- NIXOWILDQLNWCW-UHFFFAOYSA-M acrylate group Chemical group C(C=C)(=O)[O-] NIXOWILDQLNWCW-UHFFFAOYSA-M 0.000 description 1
- 125000000217 alkyl group Chemical group 0.000 description 1
- 150000001412 amines Chemical group 0.000 description 1
- 125000003277 amino group Chemical group 0.000 description 1
- 208000036878 aneuploidy Diseases 0.000 description 1
- 231100001075 aneuploidy Toxicity 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000003143 atherosclerotic effect Effects 0.000 description 1
- IVRMZWNICZWHMI-UHFFFAOYSA-N azide group Chemical group [N-]=[N+]=[N-] IVRMZWNICZWHMI-UHFFFAOYSA-N 0.000 description 1
- 125000000852 azido group Chemical group *N=[N+]=[N-] 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 208000026900 bile duct neoplasm Diseases 0.000 description 1
- 238000005460 biophysical method Methods 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000003443 bladder cell Anatomy 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- BBBFJLBPOGFECG-VJVYQDLKSA-N calcitonin Chemical compound N([C@H](C(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC=1NC=NC=1)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)NCC(=O)N[C@@H](CO)C(=O)NCC(=O)N[C@@H]([C@@H](C)O)C(=O)N1[C@@H](CCC1)C(N)=O)C(C)C)C(=O)[C@@H]1CSSC[C@H](N)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(=O)N[C@@H]([C@@H](C)O)C(=O)N1 BBBFJLBPOGFECG-VJVYQDLKSA-N 0.000 description 1
- 229960004015 calcitonin Drugs 0.000 description 1
- 230000023549 cell-cell signaling Effects 0.000 description 1
- 230000002490 cerebral effect Effects 0.000 description 1
- 208000006990 cholangiocarcinoma Diseases 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 229910052804 chromium Inorganic materials 0.000 description 1
- 239000011651 chromium Substances 0.000 description 1
- 238000012650 click reaction Methods 0.000 description 1
- 230000008045 co-localization Effects 0.000 description 1
- 230000000536 complexating effect Effects 0.000 description 1
- 230000001268 conjugating effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000006352 cycloaddition reaction Methods 0.000 description 1
- 210000003674 cytoplasmic vesicle Anatomy 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- MXHRCPNRJAMMIM-UHFFFAOYSA-N desoxyuridine Natural products C1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 MXHRCPNRJAMMIM-UHFFFAOYSA-N 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- MTHSVFCYNBDYFN-UHFFFAOYSA-N diethylene glycol Chemical compound OCCOCCO MTHSVFCYNBDYFN-UHFFFAOYSA-N 0.000 description 1
- 238000001085 differential centrifugation Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003073 embolic effect Effects 0.000 description 1
- 206010014665 endocarditis Diseases 0.000 description 1
- 210000002889 endothelial cell Anatomy 0.000 description 1
- 230000006862 enzymatic digestion Effects 0.000 description 1
- 210000002919 epithelial cell Anatomy 0.000 description 1
- 201000004101 esophageal cancer Diseases 0.000 description 1
- 230000028023 exocytosis Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 239000008098 formaldehyde solution Substances 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000002064 heart cell Anatomy 0.000 description 1
- 210000005003 heart tissue Anatomy 0.000 description 1
- 201000005787 hematologic cancer Diseases 0.000 description 1
- 229940084986 human chorionic gonadotropin Drugs 0.000 description 1
- 102000018358 immunoglobulin Human genes 0.000 description 1
- 229940072221 immunoglobulins Drugs 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 201000010982 kidney cancer Diseases 0.000 description 1
- 210000003292 kidney cell Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 108091063986 let-7f stem-loop Proteins 0.000 description 1
- 208000012987 lip and oral cavity carcinoma Diseases 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 210000005229 liver cell Anatomy 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 230000006216 lysine-methylation Effects 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 108091028606 miR-1 stem-loop Proteins 0.000 description 1
- 108091079012 miR-133a Proteins 0.000 description 1
- 108091024038 miR-133a stem-loop Proteins 0.000 description 1
- 108091079016 miR-133b Proteins 0.000 description 1
- 108091043162 miR-133b stem-loop Proteins 0.000 description 1
- 108091025686 miR-199a stem-loop Proteins 0.000 description 1
- 108091037787 miR-19b stem-loop Proteins 0.000 description 1
- 108091062762 miR-21 stem-loop Proteins 0.000 description 1
- 108091041631 miR-21-1 stem-loop Proteins 0.000 description 1
- 108091044442 miR-21-2 stem-loop Proteins 0.000 description 1
- 108091048308 miR-210 stem-loop Proteins 0.000 description 1
- 108091007432 miR-29b Proteins 0.000 description 1
- 108091034121 miR-92a stem-loop Proteins 0.000 description 1
- 108091041519 miR-92a-3 stem-loop Proteins 0.000 description 1
- 108091076732 miR-99a stem-loop Proteins 0.000 description 1
- 108091064318 miR-99a-1 stem-loop Proteins 0.000 description 1
- 108091086202 miR-99a-2 stem-loop Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 239000011259 mixed solution Substances 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000002086 nanomaterial Substances 0.000 description 1
- 108010087904 neutravidin Proteins 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 108010036112 nuclear matrix protein 22 Proteins 0.000 description 1
- 238000007899 nucleic acid hybridization Methods 0.000 description 1
- 230000002611 ovarian Effects 0.000 description 1
- 230000001590 oxidative effect Effects 0.000 description 1
- 210000000496 pancreas Anatomy 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 230000003169 placental effect Effects 0.000 description 1
- 210000005059 placental tissue Anatomy 0.000 description 1
- 229920002523 polyethylene Glycol 1000 Polymers 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 150000003141 primary amines Chemical class 0.000 description 1
- 108090000468 progesterone receptors Proteins 0.000 description 1
- 210000005267 prostate cell Anatomy 0.000 description 1
- 235000004252 protein component Nutrition 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 108010014186 ras Proteins Proteins 0.000 description 1
- 102000016914 ras Proteins Human genes 0.000 description 1
- 239000000376 reactant Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
- 238000004062 sedimentation Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000377 silicon dioxide Substances 0.000 description 1
- 201000000849 skin cancer Diseases 0.000 description 1
- 210000004927 skin cell Anatomy 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 229960002317 succinimide Drugs 0.000 description 1
- QAOWNCQODCNURD-UHFFFAOYSA-L sulfate group Chemical group S(=O)(=O)([O-])[O-] QAOWNCQODCNURD-UHFFFAOYSA-L 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 101150047061 tag-72 gene Proteins 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 150000003536 tetrazoles Chemical class 0.000 description 1
- 230000001732 thrombotic effect Effects 0.000 description 1
- 229960002175 thyroglobulin Drugs 0.000 description 1
- URYYVOIYTNXXBN-OWOJBTEDSA-N trans-cyclooctene Chemical group C1CCC\C=C\CC1 URYYVOIYTNXXBN-OWOJBTEDSA-N 0.000 description 1
- 238000001890 transfection Methods 0.000 description 1
- 239000012096 transfection reagent Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000034512 ubiquitination Effects 0.000 description 1
- 238000010798 ubiquitination Methods 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 201000005112 urinary bladder cancer Diseases 0.000 description 1
- 206010046766 uterine cancer Diseases 0.000 description 1
- 238000003260 vortexing Methods 0.000 description 1
- 239000007762 w/o emulsion Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/5005—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells
- G01N33/5008—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells for testing or evaluating the effect of chemical or biological compounds, e.g. drugs, cosmetics
- G01N33/5076—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells for testing or evaluating the effect of chemical or biological compounds, e.g. drugs, cosmetics involving cell organelles, e.g. Golgi complex, endoplasmic reticulum
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6816—Hybridisation assays characterised by the detection means
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/686—Polymerase chain reaction [PCR]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2525/00—Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
- C12Q2525/10—Modifications characterised by
- C12Q2525/161—Modifications characterised by incorporating target specific and non-target specific sites
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2525/00—Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
- C12Q2525/10—Modifications characterised by
- C12Q2525/191—Modifications characterised by incorporating an adaptor
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2533/00—Reactions characterised by the enzymatic reaction principle used
- C12Q2533/10—Reactions characterised by the enzymatic reaction principle used the purpose being to increase the length of an oligonucleotide strand
- C12Q2533/101—Primer extension
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2533/00—Reactions characterised by the enzymatic reaction principle used
- C12Q2533/10—Reactions characterised by the enzymatic reaction principle used the purpose being to increase the length of an oligonucleotide strand
- C12Q2533/107—Probe or oligonucleotide ligation
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2535/00—Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
- C12Q2535/122—Massive parallel sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2563/00—Nucleic acid detection characterized by the use of physical, structural and functional properties
- C12Q2563/149—Particles, e.g. beads
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2563/00—Nucleic acid detection characterized by the use of physical, structural and functional properties
- C12Q2563/179—Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2565/00—Nucleic acid analysis characterised by mode or means of detection
- C12Q2565/50—Detection characterised by immobilisation to a surface
- C12Q2565/514—Detection characterised by immobilisation to a surface characterised by the use of the arrayed oligonucleotides as identifier tags, e.g. universal addressable array, anti-tag or tag complement array
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Biochemistry (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Microbiology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Hematology (AREA)
- Urology & Nephrology (AREA)
- Tropical Medicine & Parasitology (AREA)
- Cell Biology (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Toxicology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
Abstract
提供了用于分析循环微米粒子(即,源自血液的微米粒子)的游离生物分子(例如游离核酸分子和游离多肽)的试剂和方法。所述方法包含分析包含循环微米粒子的样品或衍生自循环微米粒子的样品。所述方法包括测量至少两个连接信号的方法,每个信号对应于循环微米粒子的生物分子的存在、不存在和/或水平。所述方法还包括使用带条形码的亲和探针来确定循环微米粒子的生物分子的存在、不存在和/或水平的方法。在某些方法中,将循环微米粒子的核酸生物分子和非核酸生物分子一起进行分析。还提供了用于所述方法的试剂。
Description
技术领域
本发明涉及游离生物分子(例如游离核酸分子和游离多肽)的分析。确切地说,其涉及包含在循环微米粒子内或衍生自循环微米粒子的游离生物分子的分析。提供了用于分析循环微米粒子的生物分子的试剂和方法,包括用于分析单个循环微米粒子的生物分子的试剂和方法。
背景技术
循环中的游离DNA(cfDNA)通常会被片段化(长度通常在100-200个碱基对的范围内),且因此cfDNA分析的方法传统上集中在可以用这些短DNA片段发现的生物信号上。例如,检测单个分子内的单核苷酸变体,或对大量测序片段进行‘分子计数’,以间接推断是否存在大规模染色体异常,例如测试胎儿染色体三体性以评估母体循环内的胎儿DNA(一种所谓的‘非侵入性产前检查’,或NIPT)。
先前已经描述了多种分析循环游离DNA的方法。取决于特定的应用领域,这些分析可对一组广泛相似的样品类型和技术方法采用不同的术语,例如循环肿瘤DNA(ctDNA)、游离胎儿DNA(cffDNA)和/或液体活检,或非侵入性产前检查。通常,这些方法包含准备用于测序的循环游离DNA样品的实验室方案、测序反应本身且接着是信息框架,以分析所得序列以检测相关的生物信号。所述方法包括在测序之前进行DNA纯化和分离的步骤,这意味着后续分析必须仅依赖于DNA本身包含的信息。测序后,此类方法通常采用一个或多个信息或统计框架来分析序列数据的各个方面,例如检测其中的特定突变和/或检测特定染色体或亚染色体区域的选择性富集或选择性消耗(例如,这可能表明发育中的胎儿的染色体非整倍性)。
这些方法中有许多可用于NIPT(例如,美国专利6258540 B1、8296076 B2、8318430B2、8195415 B2、9447453 B2和8442774 B2)。执行非侵入性产前检查以检测胎儿染色体异常(例如三体性和/或亚染色体异常(例如微缺失))的最常用方法包括对大量cfDNA分子进行测序,并将所得序列映射到基因组(即确定序列源自哪个染色体和/或给定染色体的哪个部分),且接着对于一个或多个此类染色体或亚染色体区域,确定与其对应的序列的数量(例如以绝对读段数或相对读段数),且接着将其与一个或多个正常或异常阈值或截止值进行比较,和/或执行统计测试,以确定所述区域是否可能在序列数量上被过度表示(例如可能对应于染色体三体性)和/或所述区域是否在序列数量上可能表示不足(例如可能对应于微缺失)。
还已经描述了使用来自未连接的单个分子的数据来分析游离DNA的多种其它或改进的方法(例如,WO2016094853 A1、US2015344970 A1和US20150105267 A1)。
尽管存在如此广泛的方法,但仍需要分析cfDNA的新方法,所述方法将允许可靠地检测远程遗传信息(例如定相),并且还需要灵敏度更高的方法。例如,在NIPT的情况下,胎儿cfDNA仅占孕妇个体的总cfDNA的一小部分(循环DNA的大部分为正常母体DNA)。因此,NIPT面临的一项重大技术挑战是围绕区分胎儿cfDNA和母体DNA。类似地,在癌症患者中,cfDNA仅占整个循环DNA的一小部分。因此,关于使用cfDNA分析诊断或监测癌症,存在类似的技术挑战。
另外,还描述了通过荧光激活细胞分选(FACS)分离细胞类型特异性凋亡小体的方法(Atkin-Smith等人,2017.《科学报告(Scientific Reports)》7,39846)和允许在单个细胞外囊泡中对蛋白质标记物进行多重分析的方法(Lee等人,2018.《美国化学学会——纳米材料(ACS Nano.)》23,12(1),494-503)。
发明内容
本发明提供了用于分析包含循环微米粒子的样品(或衍生自循环微米粒子的样品),例如凋亡小体的方法。本发明基于包含在单个循环微米粒子中或衍生自单个循环微米粒子的不同类型生物分子的多参数测量。特别地,本发明允许测量与相同循环微米粒子中的两种或更多种类型的靶生物分子的存在、不存在和/或水平对应的连接信号。如图30中所示,可产生对应于基因组DNA的片段水平的信号(例如,通过分配、条形码和测序),且可产生对应于靶多肽水平的信号(例如,使用带条形码的亲和探针)。另外,可产生对应于修饰的核苷酸(例如,包含5-甲基胞嘧啶的核苷酸)水平的信号(例如,通过基于亲和力的富集方法,例如使用特异于或优先结合基因组DNA的片段中的5-甲基胞嘧啶的富集探针的方法)。这些测量和相关技术因此产生了一系列与循环微米粒子的物理和生物状态对应的连接信号。
本文提供的多参数方法为发明人在PCT/GB2017/053820、PCT/GB2017/053812和PCT/GB2017/053816中提供的较早发明增加了额外的信息层。
在PCT/GB2017/053820中,发明人先前提供了用于分析循环微米粒子(或源自血液的微米粒子)中的核酸片段的方法。所述发明基于连接片段方法,其中来自单个微米粒子的核酸片段连接在一起。这种连接使得能够产生与来自单个微米粒子的片段的序列对应的连接序列读段的集合(即,连接信号的集合)。
连接片段方法提供了高度敏感的cfDNA分析,并且还可以检测远程遗传信息。所述方法是基于洞察的组合。首先,所述方法利用了以下洞察:单个循环微米粒子(例如,单个循环凋亡小体)将含有许多基因组DNA的片段,所述片段是从已经历了凋亡的相同单个细胞(体内的某个地方)产生。其次,个别微米粒子内的一部分此类基因组DNA的片段将优先包含来自一个或多个特定染色体区域的序列。累积地,循环微米粒子因此充当数据丰富且多特征的‘分子听诊器’,以观察在身体某处有限的体细胞组织空间中可能发生的非常复杂的遗传事件;重要的是,由于此类微米粒子在清除或新陈代谢之前大部分进入循环,因此可以非侵入性地对其进行检测。本发明描述了使用这些‘听诊器’的实验和信息方法,即一组连接的片段和连接序列读段(以单个的个别微米粒子的形式,或者在许多实施例中,以包含大量单个循环微米粒子的复杂样品的形式)来执行分析和诊断任务。
本发明通过利用例如单个循环微米粒子中的非核酸分子(例如靶多肽)与核酸分子(例如基因组DNA的片段)的共定位所提供的数据来推进‘分子听诊器’的概念。此推进是基于以下发现:循环中包含的许多生物分子在生物物理上被保留在循环微米粒子中,而不是在血液中单一且可自由扩散。本发明通过测量与循环微米粒子的多个靶生物分子的存在、不存在和/或水平对应的信号来利用这种丰富的信息源,以针对循环微米粒子产生(信息)连接信号集。另外,通过在此集合中包括对应于特定细胞或组织类型所特有的一个或多个靶生物分子的一个或多个信号,可确定衍生自单个循环微米粒子的特定连接信号集的细胞起源。与当前可用的方法相比,这为具有‘细胞环境’的连接信号集提供了丰富得多的信息源。这样做,本发明提供了具有高精确度、灵敏度和精密度的分析方法。此类方法在包括癌症诊断和监测以及NIPT的广泛诊断和监测应用中具有明确的应用。
发明人先前已经提供了与条形码有关的试剂和方法。在WO2016/207639中,发明人提供了用于分子条形码的多种试剂、试剂盒和方法,包括多聚条形码试剂。在PCT/GB2017/053812中,发明人提供了用于分子条形码的其它方法和试剂。在PCT/GB2017/053816中,发明人提供了用于单细胞的核酸的分子条形码的试剂和方法。
WO2016/207639、PCT/GB2017/053812、PCT/GB2017/053816和PCT/GB2017/053820的全部以引用的方式并入本文中。
本发明提供了一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述循环微米粒子包含至少两个靶分子,其中所述至少两个靶分子是生物分子,且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号,以针对循环微米粒子产生至少两个(信息)连接信号的集合,其中至少一个连接信号对应于样品中的第一生物分子的存在、不存在和/或水平,且至少一个连接信号对应于样品中的第二生物分子的存在、不存在和/或水平。
本发明提供了一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述循环微米粒子包含至少两个靶分子,其中所述至少两个靶分子是生物分子,且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号,以产生循环微米粒子的单个信号,其中所述单个信号对应于样品中的生物分子的存在、不存在和/或水平。
第一生物分子可以是靶核酸的片段(例如基因组DNA的片段),且第二生物分子可以是靶(或预定义的)非核酸生物分子(例如靶多肽)。任选地,靶核酸的片段可包含至少一个修饰的核苷酸或核碱基。
靶分子可包含靶核酸(例如基因组DNA)的至少一个或优选至少两个片段。
第一生物分子可以是多肽,且第二靶生物分子可以是包含表观遗传修饰(例如5-羟甲基胞嘧啶DNA或5-甲基胞嘧啶DNA)的靶核酸(例如基因组DNA)的片段。
第一生物分子可以是5-羟甲基胞嘧啶DNA,且第二靶生物分子可以是RNA的片段。
第一生物分子可以是5-甲基胞嘧啶DNA,且第二靶生物分子可以是RNA的片段。
第一生物分子可以是5-羟甲基胞嘧啶DNA,且第二靶生物分子可以是选自生物分子组1的生物分子。
第一生物分子可以是5-甲基胞嘧啶DNA,且第二靶生物分子可以是选自生物分子组1的生物分子。
第一和第二生物分子可选自生物分子组1。
本发明提供一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述循环微米粒子包含至少三个靶分子,其中至少两个所述靶分子是基因组DNA的片段且至少一个所述靶分子是RNA片段,且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号,以针对循环微米粒子产生至少两个(信息)连接信号的集合,其中至少一个连接信号对应于样品中的基因组DNA的片段的存在、不存在和/或水平,且至少一个连接信号对应于样品中的RNA片段的存在、不存在和/或水平。
本发明提供了一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述循环微米粒子包含至少三个靶分子,其中至少两个靶分子是基因组DNA的片段且至少一个靶分子是RNA片段,且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号,以针对循环微米粒子产生单个信号,其中所述单个信号对应于样品中的基因组DNA的片段和RNA片段的存在、不存在和/或水平。
本发明提供了一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中循环微米粒子包含至少三个靶分子,其中至少两个靶分子是靶核酸(例如基因组DNA)的片段且至少一个靶分子是靶生物分子(例如靶多肽),且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号,以产生循环微米粒子的至少三个(信息)连接信号的集合,其中至少两个连接信号中的每一个对应于样品中的靶核酸(例如基因组DNA)的一个片段的存在、不存在和/或水平,且至少一个连接信号对应于样品中的靶生物分子(例如靶多肽)的存在、不存在和/或水平。
本发明提供了一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中循环微米粒子包含至少三个靶分子,其中至少两个靶分子是靶核酸(例如基因组DNA)的片段且至少一个靶分子是靶生物分子(例如靶多肽),且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号,以产生循环微米粒子的至少两个(信息)连接信号的集合,其中至少一个连接信号对应于样品中的靶核酸(例如基因组DNA)的片段的存在、不存在和/或水平,且至少一个连接信号对应于样品中的靶生物分子(例如靶多肽)的存在、不存在和/或水平。
本发明提供了一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述循环微米粒子包含至少三个靶分子,其中至少两个靶分子是靶核酸(例如基因组DNA)的片段且至少一个靶分子是靶生物分子(例如靶多肽),且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号,以针对循环微米粒子产生单个信号,其中所述单个信号对应于样品中的靶核酸(例如基因组DNA)的片段和靶生物分子(例如靶多肽)的存在、不存在和/或水平。
靶核酸(例如基因组DNA)的片段可包含核苷酸的特定序列和/或靶核酸(例如基因组DNA)的片段可包含至少一个修饰的核苷酸或核碱基。靶核酸的片段可不包含核苷酸的特定序列。靶核酸的片段可包含未靶向和/或未知和/或随机选择和/或随机采样的核苷酸序列。例如,修饰的核苷酸或核碱基可以是5-甲基胞嘧啶或5-羟甲基胞嘧啶。靶核酸(例如基因组DNA)的片段可包含一个或多个微卫星序列和/或微卫星基因组区域(即短串联重复序列)。
靶多肽可包含特定氨基酸序列和/或靶多肽可包含翻译后修饰。例如,靶多肽可包含乙酰化氨基酸残基和/或甲基化氨基酸残基(例如,特定多肽上/内的特定乙酰化氨基酸残基和/或特定多肽上/内的特定甲基化氨基酸残基)。
所述方法包含测量与循环微米粒子的每个靶分子的存在、不存在和/或水平对应的信号,以针对循环微米粒子产生至少三个(信息)连接信号的集合,其中一个连接信号对应于循环微米粒子的第一靶核酸(例如基因组DNA)片段的存在、不存在和/或水平,一个连接信号对应于循环微米粒子的第二靶核酸(例如基因组DNA)片段的存在、不存在和/或水平,且一个连接信号对应于循环微米粒子的靶生物分子(例如靶多肽)的存在、不存在和/或水平。
测量与靶核酸(例如基因组DNA)的片段的存在、不存在和/或水平对应的信号的步骤可包含分析靶核酸(例如基因组DNA)的至少两个片段中的至少两个中的每一个的序列,任选地,其中测量与靶核酸(例如基因组DNA)的片段的存在、不存在和/或水平对应的信号的步骤包含对靶核酸(例如基因组DNA)的至少两个片段中的至少两个中的每一个的至少一部分进行测序以产生至少两个(信息)连接序列读段。
测量与靶核酸(例如基因组DNA)的片段的存在、不存在和/或水平对应的信号的步骤可包含:(a)连接靶核酸(例如基因组DNA)的至少两个片段中的至少两个以产生靶核酸(例如基因组DNA)的至少两个连接片段的集合;和任选地,(b)分析集合中的至少两个连接片段中的每一个的序列。步骤(b)可包含对集合中的至少两个连接片段中的每一个的至少一部分测序,以产生至少两个连接序列读段。
测量与靶核酸(例如基因组DNA)片段的存在、不存在和/或水平对应的信号的步骤可包含:(a)将循环微米粒子的靶核酸(例如基因组DNA)的至少两个片段中的至少两个中的每一个附接至条形码序列,以产生靶核酸(例如基因组DNA)的连接片段的集合;和任选地,(b)分析集合中的至少两个连接片段中的每一个的序列。步骤(b)可包含对集合中的至少两个连接片段中的每一个的至少一部分进行测序以产生至少两个(信息)连接序列读段,其中所述至少两个连接序列读段通过条形码序列连接。任选地,靶核酸的至少两个片段中的至少两个中的每一个可包含相同的条形码序列。
测量与靶核酸(例如基因组DNA)的片段的存在、不存在和/或水平对应的信号的步骤可包含:(a)将循环微米粒子的靶核酸(例如基因组DNA)的至少两个片段中的至少两个中的每一个附接至条形码序列集合中的不同条形码序列,以产生靶核酸(例如基因组DNA)的连接片段的集合;和任选地,(b)分析集合中的至少两个连接片段中的每一个的序列。步骤(b)可包含对集合中的至少两个连接片段中的每一个的至少一部分测序,以产生至少两个连接序列读段。至少两个连接序列读段可通过条形码序列的集合连接(即,附接至靶核酸的第一片段的条形码序列和附接至靶核酸的第二片段的条形码序列通过存在于条形码序列的同一集合内而将两个序列读段彼此连接)。
测量与靶核酸(例如基因组DNA)的片段的存在、不存在和/或水平对应的信号的步骤可包含:(a)将第一条形码序列附接至靶核酸(例如,基因组DNA)的第一片段以产生第一带条形码的靶核酸分子,且将第二条形码序列附接至靶核酸(例如基因组DNA)的第二片段以产生第二带条形码的靶核酸分子,其中第一和第二条形码序列各自包含相同条形码序列,或各自包含条形码序列集合中的不同条形码序列;和任选地,(b)分析第一和第二带条形码的靶核酸分子中的每一个的序列。步骤(b)可包含对第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序以产生至少两个(信息)连接序列读段。至少两个连接序列读段可通过相同条形码序列或条形码序列集合进行连接。步骤(b)可包含对附接至靶核酸的第一和第二片段的第一和第二条形码序列中的每一个的全部或至少一部分进行测序。
测量与靶核酸(例如基因组DNA)的片段的存在、不存在和/或水平对应的信号的步骤可包含:(a)将第一带条形码的寡核苷酸附接(例如粘接或连接)至靶核酸(例如基因组DNA)的第一片段以产生第一带条形码的靶核酸分子,且将第二带条形码的寡核苷酸附接(例如粘接或连接)至靶核酸(例如基因组DNA)的第二片段以产生第二带条形码的靶核酸分子,其中第一和第二带条形码的寡核苷酸各自包含相同条形码序列,或各自包含条形码序列集合中的不同条形码序列;和任选地,(b)分析第一和第二带条形码的靶核酸分子中的每一个的序列。步骤(b)可包含对第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序以产生至少两个(信息)连接序列读段。至少两个连接序列读段可通过相同条形码序列或条形码序列集合进行连接。骤(b)可包含对附接至靶核酸的第一和第二片段的第一和第二带条形码的寡核苷酸中的每一个的全部或至少一部分进行测序。
测量与靶核酸(例如基因组DNA)的片段的存在、不存在和/或水平对应的信号的步骤可包含:(a)使样品与多聚条形码试剂接触,其中多聚条形码试剂包含连接在一起的第一和第二条形码区域,其中每个条形码区域包含核酸序列;和(b)将条形码序列附接至微米粒子的靶核酸的第一和第二片段中的每一个,以针对微米粒子产生第一和第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第一条形码区域的核酸序列且第二带条形码的靶核酸分子包含第二条形码区域的核酸序列。第一和第二条形码区域可各自包含相同条形码序列,或者第一和第二条形码区域可包含条形码序列集合中的不同条形码序列。方法可进一步包含(c)分析第一和第二带条形码的靶核酸分子中的每一个的序列。步骤(c)可包含对第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序以产生至少两个(信息)连接序列读段。至少两个连接序列读段可通过相同条形码序列或通过条形码序列集合进行连接。
测量与靶核酸(例如基因组DNA)的片段的存在、不存在和/或水平对应的信号的步骤可包含:(a)使样品与多聚条形码试剂接触,其中多聚条形码试剂包含连接在一起的第一和第二带条形码的寡核苷酸,且其中带条形码的寡核苷酸各自包含条形码区域;和(b)将第一和第二带条形码的寡核苷酸附接(例如粘接或连接)至微米粒子的靶核酸的第一和第二片段,以产生第一和第二带条形码的靶核酸分子。第一和第二带条形码的寡核苷酸的条形码区域可各自包含相同条形码序列,或者第一和第二带条形码的寡核苷酸的条形码区域可各自包含条形码序列集合中的不同条形码序列。方法可进一步包含(c)分析第一和第二带条形码的靶核酸分子中的每一个的序列。步骤(c)可包含对第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序以产生至少两个(信息)连接序列读段。至少两个连接序列读段可通过相同条形码序列或条形码序列集合进行连接。
靶核酸(例如基因组DNA)的片段可包含至少一种表观遗传修饰(例如修饰的核苷酸或核碱基),且测量与靶核酸(例如基因组DNA)的片段的存在、不存在和/或水平对应的信号的步骤可包含测量与靶核酸(例如基因组DNA)的片段的表观遗传修饰(例如修饰的核苷酸或核碱基)的存在、不存在和/或水平对应的信号。例如,修饰的核苷酸或核碱基可包含5-甲基胞嘧啶或5-羟甲基胞嘧啶。
本发明提供了一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中循环微米粒子包含至少两个靶分子,其中至少一个靶分子是包含表观遗传修饰的靶核酸(例如基因组DNA)的片段且至少一个靶分子是靶生物分子(例如靶多肽),且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号,以产生循环微米粒子的至少两个(信息)连接信号的集合,其中至少一个连接信号对应于样品中的表观遗传修饰的存在、不存在和/或水平,且至少一个连接信号对应于样品中的靶生物分子(例如靶多肽)的存在、不存在和/或水平。
本发明提供了一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述循环微米粒子包含至少两个靶分子,其中至少一个靶分子是包含表观遗传修饰的靶核酸(例如基因组DNA)的片段且至少一个靶分子是靶生物分子(例如靶多肽),且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号,以针对循环微米粒子产生单个信号,其中所述单个信号对应于样品中的表观遗传修饰的片段和靶生物分子(例如靶多肽)的存在、不存在和/或水平。
方法可包含分析包含表观遗传修饰的靶核酸(例如基因组DNA)的序列的步骤。或者,方法可不包含分析包含表观遗传修饰的靶核酸(例如基因组DNA)的序列的步骤。
表观遗传修饰可包含修饰的核苷酸,例如修饰的gDNA核苷酸或修饰的RNA核苷酸。修饰的核苷酸可包含修饰的碱基。修饰的碱基可以是甲基化的碱基,例如5-甲基胞嘧啶或5-羟甲基胞嘧啶。包含表观遗传修饰的靶核酸(例如基因组DNA)的片段可包含5-甲基胞嘧啶DNA或5-羟甲基胞嘧啶DNA。
可使用带条形码的亲和探针测量与表观遗传修饰(例如修饰的DNA或RNA核苷酸)的存在、不存在和/或水平对应的信号。带条形码的亲和探针可包含与带条形码的寡核苷酸连接的至少一个亲和部分,其中带条形码的寡核苷酸包含至少一个核苷酸(即其中带条形码的寡核苷酸包含长度为至少一个核苷酸的核苷酸序列),且其中所述亲和部分能够与靶生物分子结合(即能够与表观遗传修饰结合)。可通过确定带条形码的亲和探针的带条形码的寡核苷酸的存在、不存在和/或水平(例如通过测序或PCR)来测量信号。
可通过流式细胞测量术和/或荧光激活细胞分选,使用光学标记的亲和探针和/或荧光标记的亲和探针来测量与表观遗传修饰(例如修饰的DNA或RNA核苷酸)的存在、不存在和/或水平对应的信号。光学标记的亲和探针和/或荧光标记的亲和探针可使用光学显微镜和/或荧光显微镜可视化来测量和/或检测。例如,使用荧光显微镜,和/或使用基于荧光激光的检测,和/或使用荧光激活细胞分选(FACS)仪器。光学标记的亲和探针和/或荧光标记的亲和探针可使用分选方法,例如使用荧光激活细胞分选(FACS)来测量和/或检测。
可使用包含分子转化步骤的方法来测量与表观遗传修饰(例如,修饰的DNA或RNA核苷酸)的存在、不存在和/或水平对应的信号。在修饰的核苷酸(即包含修饰的碱基,例如5-甲基胞嘧啶或5-羟甲基胞嘧啶的核苷酸)的情况下,可进行分子转化步骤以将所述修饰的碱基转化为可侦测(例如使用PCR或测序)的不同的修饰或未修饰的核苷酸,以提供与表观遗传修饰的存在、不存在和/或水平对应的信号。此转化步骤可包含亚硫酸氢盐转化步骤、氧化亚硫酸氢盐转化步骤或任何其它分子转化步骤。方法可用于测量循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶。
方法可进一步包含一个或多个划分包含一个或多个循环微米粒子的样品(或衍生自一个或多个循环微米粒子的样品)的步骤。另外或替代地,所述方法可进一步包含将任何一个或多个条形码序列和/或分区条形码序列和/或带条形码的寡核苷酸附接至靶核酸的一个或多个片段的一个或多个步骤。一个或多个条形码序列和/或带条形码的寡核苷酸可由如本文所述的一种或多种多聚条形码试剂提供和/或包含在其中。
可使用带条形码的亲和探针来测量与非核酸生物分子(例如靶多肽)的存在、不存在和/或水平对应的信号。带条形码的亲和探针可包含与带条形码的寡核苷酸连接的至少一个亲和部分,其中带条形码的寡核苷酸包含至少一个核苷酸(即其中带条形码的寡核苷酸包含长度为至少一个核苷酸的核苷酸序列),且其中所述亲和部分能够与靶生物分子(即靶非核酸生物分子(例如靶多肽))结合。可通过确定带条形码的亲和探针的带条形码的寡核苷酸的存在、不存在和/或水平(例如通过测序或PCR)来测量信号。
可通过流式细胞测量术和/或荧光激活细胞分选,使用光学标记的亲和探针和/或荧光标记的亲和探针来测量与非核酸生物分子(例如靶多肽)的存在、不存在和/或水平对应的信号。光学标记的亲和探针和/或荧光标记的亲和探针可使用光学显微镜和/或荧光显微镜可视化来测量和/或检测。例如,使用荧光显微镜,和/或使用基于荧光激光的检测,和/或使用荧光激活细胞分选(FACS)仪器。光学标记的亲和探针和/或荧光标记的亲和探针可使用分选方法,例如使用荧光激活细胞分选(FACS)来测量和/或检测。
可通过用亲和探针标记的载体来测量与非核酸生物分子(例如靶多肽)的存在、不存在和/或水平对应的信号。用亲和探针标记的载体可包含用亲和探针标记,例如用对靶多肽具有特异性的抗体标记的珠粒(例如磁珠)。非核酸生物分子(例如循环微米粒子中的靶多肽)的存在、不存在和/或水平可通过在所述载体上将所述非核酸生物分子与所述亲和探针一起培育和/或结合来测量,任选地,其中进一步分离和/或处理(例如划分和/或加条形码和/或通过核酸测序进行分析)与载体结合的部分(即包含所述非核酸生物分子和/或包含高水平的所述非核酸生物分子的微米粒子),并且任选地,其中进一步分离和/或处理(例如划分和/或加条形码和/或通过核酸测序进行分析)未与载体结合的部分(即不包含和/或包含低水平的所述非核酸生物分子的微米粒子)。
可分开测量与非核酸生物分子(例如靶多肽)的存在、不存在和/或水平对应的信号和与核酸生物分子的存在、不存在和/或水平对应的信号。例如,可通过FACS测量与非核酸生物分子(例如靶多肽)的存在、不存在和/或水平对应的信号,且可测量测序来测量与核酸生物分子的存在、不存在和/或水平对应的信号。
在所述方法中,可针对(或针对每个)循环微米粒子测量连接信号的集合,所述连接信号的集合对应于靶核酸(例如基因组DNA)片段、表观遗传修饰(例如修饰的核苷酸,例如包含5-甲基胞嘧啶和/或5-羟甲基胞嘧啶的修饰的核苷酸)和靶非核酸生物分子(例如靶多肽)的存在、不存在和/或水平。
例如,在所述方法中,循环微米粒子的靶分子可包含靶核酸(例如基因组DNA)的至少2个(不同)片段、包含表观遗传修饰的靶核酸(例如基因组DNA)的至少一个片段和至少一个靶非核酸生物分子(例如靶多肽)。方法可包含测量与每个靶分子的存在、不存在和/或水平对应的信号,以循环微米粒子产生连接信号的集合。所述方法可为每个靶分子提供(不同)连接信号。在所述方法中,至少两个连接信号中的每一个可对应于靶核酸(例如基因组DNA)的一个片段的存在、不存在和/或水平;至少一个连接信号可对应于表观遗传修饰的存在、不存在和/或水平(例如修饰的核苷酸,例如包含5-甲基胞嘧啶和/或5-羟甲基胞嘧啶的修饰的核苷酸);且至少一个连接信号可对应于靶非核酸生物分子(例如靶多肽)的存在、不存在和/或水平。
循环微米粒子可包含至少3个、至少4个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少5000个、至少10,000个、至少100,000个或至少1,000,000个(不同)靶分子,且任选地,其中所述方法包含产生至少3个、至少4个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少5000个、至少10,000个、至少100,000个或至少1,000,000个用于循环微米粒子的(不同)连接信号(即,用于循环微米粒子的每个靶分子的(不同)连接信号)。
循环微米粒子的靶分子可包含靶核酸(例如基因组DNA)的至少2个、至少3个、至少4个、至少9个、至少49个、至少99个、至少499个、至少999个、至少4999个、至少9999个、至少99,999个或至少999,999个(不同)片段和至少一个靶非核酸生物分子(例如靶多肽),任选地,其中所述方法包含产生至少3个、至少4个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少5000个、至少10,000个、至少100,000个或至少1,000,000个用于循环微米粒子的(不同)连接信号(即,用于循环微米粒子的每个靶分子的(不同)连接信号)。
循环微米粒子的靶分子可包含至少2个、至少3个、至少4个、至少9个、至少49个、至少99个、至少499个、至少999个、至少4999个、至少9999个、至少99,999个或至少999,999个(不同)靶多肽和靶核酸(例如基因组DNA)的至少一个片段,任选地,其中所述方法包含产生至少至少3个、至少4个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少5000个、至少10,000个、至少100,000个或至少1,000,000个用于循环微米粒子的(不同)连接信号(即,用于循环微米粒子的每个靶分子的(不同)连接信号)。
样品可包含第一和第二循环微米粒子,其中每个循环微米粒子包含靶分子(例如至少2个或至少3个靶分子),且其中所述方法包含执行测量步骤(如本文所述)以针对第一循环微米粒子产生连接信号的集合,和执行如本文所述的测量步骤以产生用于第二循环微米粒子的连接信号的集合。
例如,测量与靶核酸(例如基因组DNA)的片段的存在、不存在和/或水平对应的信号的步骤可包含:(a)使样品与包含至少两种多聚条形码试剂的库接触,其中每种多聚条形码试剂包含连接在一起的第一和第二条形码区域,其中每个条形码区域包含核酸序列,且其中库中的第一多聚条形码试剂的第一和第二条形码区域不同于第二多聚条形码试剂的第一和第二条形码区域;和(b)将条形码序列附接至第一微米粒子的靶核酸的第一和第二片段中的每一个,以针对第一微米粒子产生第一和第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第一多聚条形码试剂的第一条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第一多聚条形码试剂的第二条形码区域的核酸序列,以及将条形码序列附接至第二微米粒子的靶核酸的第一和第二片段中的每一个,以针对第二微米粒子产生第一和第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第二多聚条形码试剂的第一条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第二多聚条形码试剂的第二条形码区域的核酸序列。
例如,测量与靶核酸(例如基因组DNA)的片段的存在、不存在和/或水平对应的信号的步骤可包含:(a)使样品与包含至少两种多聚条形码试剂的库接触,其中每种多聚条形码试剂包含连接在一起的第一和第二带条形码的寡核苷酸,其中所述带条形码的寡核苷酸各自包含条形码区域,且其中所述库的第一多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域不同于所述库的第二多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域;和(b)将第一多聚条形码试剂的第一和第二带条形码的寡核苷酸附接(例如粘接或连接)至第一微米粒子的靶核酸的第一和第二片段,以产生第一和第二带条形码的靶核酸分子,以及将第二多聚条形码试剂的第一和第二带条形码的寡核苷酸附接(例如粘接或连接)至第二微米粒子的靶核酸的第一和第二片段,以产生第一和第二带条形码的靶核酸分子。
样品可包含n个循环微米粒子,其中每个循环微米粒子包含靶分子(例如至少2个或至少3个靶分子),且其中方法包含执行测量步骤(如本文所述)以针对每个循环微米粒子产生连接信号的集合,其中n至少为3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000或至少100,000,000个循环微米粒子。
方法可进一步包含确定得到连接信号的集合的靶生物分子的起源细胞和/或起源组织的身份标识的步骤。确定起源细胞和/或起源组织的身份标识的步骤可包含在连接信号的集合中识别一个或多个签名信号。签名信号可以是与签名靶生物分子的存在、不存在和/或水平对应的信号,其中签名靶生物分子是作为特定细胞和/或组织的特征的靶生物分子。
签名信号可以是组合签名信号,其对应于任何两个或更多个签名靶生物分子的存在、不存在和/或水平,其中所述签名靶生物分子是作为特定细胞和/或组织的特征的靶生物分子(例如,其中所述靶生物分子在一起作为特定细胞和/或组织的特征)。例如,组合签名信号可对应于来自生物分子组1的任何两个或更多个生物分子的存在、不存在和/或水平;任选地,组合签名信号可对应于来自生物分子组1的任何两个或更多个生物分子、以及任何一个或多个参考序列、以及任何一个或多个表观遗传信号(例如对应于5-甲基胞嘧啶的一个或多个信号和/或对应于5-羟甲基胞嘧啶的一个或多个信号)的存在、不存在和/或水平。签名信号可以是组合签名信号,其对应于任何数目的签名靶生物分子,例如至少3、至少4、至少5、至少10、至少20、至少30或至少50个签名靶生物分子(和/或其列表或组,例如参考序列的列表或组,和/或对应于5-甲基胞嘧啶和/或5-羟甲基胞嘧啶的列表或组)的存在、不存在和/或水平。
起源细胞可来自特定受试者(例如胎儿细胞、母体细胞或父体细胞)。起源细胞可以是肺细胞、肝细胞、卵巢细胞、肾细胞、胰腺细胞、子宫细胞、皮肤细胞、上皮细胞、内皮细胞、脑细胞、膀胱细胞、血细胞、淋巴细胞、前列腺细胞、乳腺细胞、结肠直肠细胞、脑细胞、子宫细胞、心脏细胞、血管细胞(例如动脉细胞或静脉细胞)和/或任何其它类型的细胞。
起源细胞可以是癌细胞或恶性细胞。起源细胞可以是肺癌细胞、乳腺癌细胞、卵巢癌细胞、前列腺癌细胞、肾癌细胞、肝癌细胞、血液癌细胞、白血病细胞、淋巴瘤细胞、结肠直肠癌细胞、胰腺癌细胞、脑癌细胞、子宫癌细胞、胆管癌细胞、皮肤癌细胞、黑色素瘤细胞、膀胱癌细胞、食道癌细胞、口腔癌细胞、咽癌细胞和/或任何其它类型的癌细胞。
起源组织可来自特定受试者(例如胎儿组织、母体组织或父体组织)。起源组织可以是肺组织、肝组织、卵巢组织、心脏组织、血管组织、血管内组织、血管内斑块组织,稳定的血管内斑块组织、不稳定和/或易碎的血管内斑块组织、动脉粥样硬化组织、血栓形成组织、栓塞组织、脑血管组织、心内膜炎组织、心肌炎组织、外周动脉组织、脑组织、心肌病组织和/或任何其它组织。
起源组织可以是癌性组织或恶性组织。起源组织可以是癌性肺组织、癌性肝组织、癌性卵巢组织、癌性乳房组织、癌性前列腺组织、癌性血液组织、癌性白血病组织、癌性淋巴瘤组织、癌性结肠直肠组织、癌性胰腺组织、癌性脑组织、癌性皮肤组织、癌性黑色素瘤组织、癌性膀胱组织、
癌性食道组织和/或任何其它癌性组织。
签名信号可包含与第一签名生物分子的存在、不存在和/或水平对应的信号和与第二签名生物分子的存在、不存在和/或水平对应的信号。第一和第二签名生物分子可采取本文所述的靶生物分子的任何形式。例如,签名信号可包含与生物分子组1中列出的任何一个或多个生物分子的存在、不存在和/或水平对应的信号。
签名生物分子可以是仅在特定细胞类型或组织类型(例如癌细胞或胎儿细胞)中表达的多肽。签名生物分子可以是在特定细胞类型或组织类型(例如癌细胞或胎儿细胞)中优先表达的多肽。签名生物分子可以是仅在特定细胞类型或组织类型(例如癌细胞或胎儿细胞,或血管内组织,例如血管内斑块)中表达(或优先表达)的核酸(例如mRNA分子或微小RNA分子)。例如,签名生物分子可包含生物分子组1中列出的任何一个或多个生物分子。
签名生物分子可以是表观遗传修饰,例如包含5-羟甲基胞嘧啶的基因组DNA片段。包含5-羟甲基胞嘧啶的基因组DNA片段可为癌性和/或恶性细胞或组织提供签名信号。
签名生物分子可以是多肽或编码所述多肽的RNA,例如TTF-1(也称为NK2同源盒1)或TTF-1 RNA。TTF-1(或TTF-1 RNA)可为肺细胞和/或组织提供签名信号。
可通过测量与包含5-羟甲基胞嘧啶的基因组DNA片段(第一签名生物分子)的存在、不存在和/或水平对应的信号以及与TTF-1或TTF-1 RNA(作为第二签名生物分子)的存在、不存在和/或水平对应的信号来提供肺癌的签名信号。
本发明提供了一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,且其中方法包含:(a)使样品与带条形码的亲和探针接触,其中所述带条形码的亲和探针包含连接至带条形码的寡核苷酸的至少一个亲和部分,其中所述带条形码的寡核苷酸包含至少一个核苷酸(即,其中所述带条形码的寡核苷酸包含长度为至少一个核苷酸的核苷酸序列),且其中亲和部分能够结合靶生物分子;(b)形成反应混合物,其中形成反应混合物的步骤包含将亲和部分与靶分子(如果存在)结合,以形成包含带条形码的亲和探针和靶生物分子的带条形码的生物分子复合物;和(c)通过测量反应混合物中带条形码的寡核苷酸的存在、不存在和/或水平来确定样品中靶生物分子的存在、不存在和/或水平。
本发明提供了一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述循环微米粒子包含靶生物分子,且其中所述方法包含:(a)使样品与带条形码的亲和探针接触,其中所述带条形码的亲和探针包含连接至带条形码的寡核苷酸的至少一个亲和部分,其中所述带条形码的寡核苷酸包含至少一个核苷酸(即,其中所述带条形码的寡核苷酸包含长度为至少一个核苷酸的核苷酸序列),且其中亲和部分能够结合靶生物分子;(b)形成反应混合物,其中形成反应混合物的步骤包含将亲和部分与靶分子结合,以形成包含带条形码的亲和探针和靶生物分子的带条形码的生物分子复合物;和(c)通过测量反应混合物中带条形码的寡核苷酸的水平来确定样品中靶生物分子的水平。
本发明提供了一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,且其中所述方法包含:(a)使样品与至少一个亲和部分接触,且其中所述亲和部分能够结合至靶生物分子;(b)形成反应混合物,其中形成反应混合物的步骤包含(i)将亲和部分结合至靶生物分子(如果存在),和(ii)使样品与带条形码的寡核苷酸接触且将带条形码的寡核苷酸连接至亲和部分以形成包含带条形码的亲和探针和靶生物分子的带条形码的生物分子复合物,其中带条形码的亲和探针包含至少一个与带条形码的寡核苷酸连接的亲和部分,且其中带条形码的寡核苷酸包含至少一个核苷酸(即,其中带条形码的寡核苷酸包含长度为至少一个核苷酸的核苷酸序列);和(c)通过测量反应混合物中带条形码的寡核苷酸的存在、不存在和/或水平来确定样品中靶生物分子的存在、不存在和/或水平。
本发明提供了一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述循环微米粒子包含靶生物分子,且其中所述方法包含:(a)使样品与至少一个亲和部分接触,且其中所述亲和部分能够结合至靶生物分子;(b)形成反应混合物,其中形成反应混合物的步骤包含(i)将亲和部分结合至靶生物分子上,和(ii)使样品与带条形码的寡核苷酸接触且将带条形码的寡核苷酸与亲和部分连接以形成包含带条形码的亲和探针和靶生物分子的带条形码的生物分子复合物,其中带条形码的亲和探针包含至少一个与带条形码的寡核苷酸连接的亲和部分,且其中带条形码的寡核苷酸包含至少一个核苷酸(即,其中所述带条形码的寡核苷酸包含长度为至少一个核苷酸的核苷酸序列);和(c)通过测量反应混合物中带条形码的寡核苷酸的水平来确定样品中靶生物分子的水平。
形成反应混合物的步骤可包含在适合于亲和部分与靶生物分子结合的条件下培育试剂。
在测量样品中带条形码的寡核苷酸的存在、不存在和/或水平的步骤之前,方法可包含去除或耗尽不是带条形码的生物分子复合物的一部分的带条形码的亲和探针和/或带条形码的寡核苷酸。
测量反应混合物中带条形码的寡核苷酸的水平可包含定量反应混合物中带条形码的寡核苷酸的水平。
条形码的寡核苷酸可直接或间接(例如,经由一个或多个连接分子)与亲和部分连接。带条形码的寡核苷酸可经由连接分子与亲和部分连接,其中所述连接分子与至少一个亲和部分和至少一个带条形码的寡核苷酸附接和/或连接和/或结合(共价或非共价)。带条形码的寡核苷酸可通过一个或多个共价键(或键)(例如,通过由Innova Biosciences的抗体标记试剂盒产生的共价键,例如键)、一个或多个非共价键(或键)(例如蛋白质-蛋白质相互作用或抗生蛋白链菌素-生物素键,例如亲和部分可包含抗生蛋白链菌素域,且带条形码的寡核苷酸可包含生物素部分)或核酸杂交键连接至任何亲和部分。任何一个或多个连接分子可以是生物聚合物(例如核酸分子)或合成聚合物。任何一个或多个连接分子可包含一个或多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。任何一个或多个连接分子可包含一个或多个乙基,例如一个或多个C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。
样品可与至少2种、至少3种、至少5种、至少10种、至少20种或至少30种不同的带条形码的亲和探针的库接触。
带条形码的亲和探针可包含适体,任选地,其中带条形码的亲和探针是适体。适体可提供带条形码的亲和探针的亲和部分和带条形码的寡核苷酸。
适体可包含与带条形码的寡核苷酸连接的至少一个亲和部分,其中带条形码的寡核苷酸包含至少一个核苷酸,且其中亲和部分能够结合至靶生物分子。适体可包含条形码序列。适体的任何或全部核酸序列可与适体的亲和部分缔合,和/或用于识别适体的亲和部分,和/或识别适体的亲和部分能够结合的靶生物分子。
亲和部分可能能够结合至靶生物分子。亲和部分可能能够特异性结合至靶生物分子。亲和部分可结合至靶生物分子。亲和部分可特异性结合至靶生物分子。亲和部分可对靶生物分子具有高亲和力。
亲和部分可包含以下中的一种或多种:抗体、抗体片段、轻链抗体片段、单链可变片段(scFv)、肽、细胞穿透肽、适体、DNA适体和/或RNA适体。
亲和部分可包含抗体或其片段,且靶分子可以是多肽。
亲和部分可包含抗体或其片段,且靶分子可以是核酸的片段。
亲和部分可包含抗体或其片段,且靶分子可以是包含表观遗传修饰,例如5-甲基胞嘧啶或5-羟甲基胞嘧啶的核酸的片段。
亲和部分可包含适体,且靶分子可以是多肽。
亲和部分可包含适体,且靶分子可以是核酸的片段。
亲和部分可包含适体,且靶分子可以是包含表观遗传修饰,例如5-甲基胞嘧啶或5-羟甲基胞嘧啶的核酸的片段。
带条形码的亲和探针可包含适体,其中所述适体包含在亲和寡核苷酸内的适体序列内。带条形码的亲和探针可包含适体,其中所述适体包含在亲和寡核苷酸内的适体序列内,其中所述亲和寡核苷酸包含条形码序列。带条形码的亲和探针可包含适体,其中所述适体包含在亲和寡核苷酸内的适体序列内,其中所述亲和寡核苷酸包含条形码序列,其中全部或部分的所述条形码序列部分或完全由所述适体序列构成。适体和/或适体序列和/或亲和寡核苷酸和/或条形码序列可包含一个或多个DNA核苷酸。任选地,任何所述适体和/或适体序列和/或亲和寡核苷酸和/或条形码序列可包含一个或多个RNA核苷酸。
带条形码的亲和探针可包含至少两个亲和部分。带条形码的亲和探针可包含至少第一和第二亲和部分,其中所述第一亲和部分能够结合至第一靶生物分子,且其中所述第二亲和部分能够结合至第二靶生物分子,其中所述第一和第二探针靶生物分子是不同的。
带条形码的亲和探针可包含至少3个、至少4个、至少5个或至少10个不同的亲和部分。任选地,每个亲和部分能够结合至不同的靶生物分子。
带条形码的亲和探针可包含至少两个直接或间接连接的亲和部分。带条形码的亲和探针的至少两个亲和部分可与载体(例如固体载体)、分子载体或大分子载体连接。
带条形码的亲和探针可包含至少两个亲和部分。每个亲和部分可包含适体。带条形码的亲和探针的至少两个亲和部分可包含在单个适体中。带条形码的亲和探针的至少两个亲和部分可包含在单个连续核酸序列(例如DNA序列和/或RNA序列)内。
带条形码的亲和探针可包含至少两个不同的带条形码的寡核苷酸。
带条形码的寡核苷酸包含至少一个核苷酸。带条形码的寡核苷酸可包含条形码序列。带条形码的寡核苷酸包含至少2个、至少3个、至少5个、至少10个、至少20个或至少30个核苷酸的条形码序列。
带条形码的寡核苷酸可包含与其所连接的亲和部分缔合和/或识别所述亲和部分的条形码序列。与相同亲和部分(例如,对相同蛋白质靶标具有特异性的相同抗体)连接的每个带条形码的寡核苷酸可包含相同序列(例如,相同条形码序列)。与相同亲和部分连接的每个带条形码的寡核苷酸包含不同的序列(例如两个或更多个不同条形码序列)。任选地,与不同亲和部分连接的每个带条形码的寡核苷酸可包含不同序列(例如两个或更多个不同条形码序列)。
带条形码的寡核苷酸可包含衔接子和/或偶联序列,其中所述序列的长度为至少1、至少2、至少3、至少5、至少10、至少20或至少30个核苷酸。带条形码的寡核苷酸的衔接子和/或偶联序列可包含与任何多聚条形码试剂和/或其库中所包含的带条形码的寡核苷酸的靶区域互补的序列。带条形码的寡核苷酸的衔接子和/或偶联序列可包含长度为2个或更多个核苷酸的poly(A)序列。带条形码的寡核苷酸内的衔接子和/或偶联序列可包含在所述带条形码的寡核苷酸的3′端和/或5′端内。
带条形码的亲和探针可包含一个或多个二级带条形码的寡核苷酸,其中所述二级带条形码的寡核苷酸包含与一个或多个(非二级)带条形码的寡核苷酸的全部或部分至少部分互补的序列。二级带条形码的寡核苷酸可与任何一个或多个(非二级)带条形码的寡核苷酸完全或部分粘接(即杂交)。二级带条形码的寡核苷酸可在二级带条形码的寡核苷酸粘接反应中与任何一个或多个(非二级)带条形码的寡核苷酸完全或部分粘接(即杂交)。二级带条形码的寡核苷酸粘接反应可以在步骤(a)、(b)或(c)中的任一个之前,和/或之后,和/或期间进行。二级带条形码的寡核苷酸可包含条形码序列的一个或多个核苷酸,其中所述条形码序列与在带条形码的亲和探针内其所连接的亲和部分缔合和/或识别所述亲和部分。
带条形码的亲和探针可包含一个或多个亲和部分,和一个或多个一级带条形码的寡核苷酸,和一个或多个二级带条形码的寡核苷酸。
样品可包含一个或多个循环微米粒子和/或样品可衍生自一个或多个循环微米粒子。
生物分子可以是多肽(例如蛋白质)、碳水化合物、脂质或核酸。生物分子可以是代谢物。
样品可包含第一循环微米粒子和第二循环微米粒子,或其中样品衍生自第一循环微米粒子和第二循环微米粒子,其中步骤(b)包含形成至少一种包含第一循环微米粒子的带条形码的亲和探针和靶生物分子的带条形码的生物分子复合物,和形成至少一种包含第二循环微米粒子的带条形码的亲和探针和靶生物分子的带条形码的生物分子复合物。样品可以进一步包含第一循环微米粒子的靶核酸的片段和第二循环微米粒子的靶核酸的片段。
在步骤(a)、(b)和/或(c)中,带条形码的亲和探针可处于任何浓度,例如浓度为至少100纳摩尔、至少10纳摩尔、至少1纳摩尔、至少100皮摩尔、至少10皮摩尔、至少1皮摩尔、至少100飞摩尔、至少10飞摩尔或至少1飞摩尔。浓度可为1皮摩尔至100纳摩尔、10皮摩尔至10纳摩尔或100皮摩尔至1纳摩尔。
任选地,在任何方法的任何一个或多个步骤(例如,附接偶联序列和/或偶联分子的任何步骤,附接条形码序列的任何步骤,例如附接和/或连接和/或联接带条形码的寡核苷酸的任何步骤(例如,附接/连接/联接带条形码的寡核苷酸中包含的条形码序列的任何步骤)中,可在高粘度溶液中执行步骤和/或方法。任选地,此类高-溶液可由聚(乙二醇)(PEG)溶液构成,例如以下中的一种或多种:PEG 400、PEG 1000、PEG 2000、PEG 4000、PEG5000、PEG 8000、PEG 10000和/或PEG 20,000。任选地,这样的溶液可包含按重量或体积计的至少5%聚(乙二醇),至少10%聚(乙二醇),至少20%聚(乙二醇),至少25%聚(乙二醇),至少30%聚(乙二醇),至少40%聚(乙二醇)或至少50%聚(乙二醇);任选地,这样的溶液可包含任何两个或更多个PEG分子,其中每个这样的两个或更多个PEG分子以按重量或体积计的这些所述浓度之一存在。任选地,这样的高粘度溶液可包含在将带条形码的寡核苷酸粘接至靶核酸的任何步骤中采用的溶液。任选地,这样的高粘度溶液的动态粘度可为至少1.0厘泊,至少1.1厘泊,至少1.2厘泊,至少1.5厘泊,至少2.0厘泊,至少5.0厘泊,至少10.0厘泊,至少20.0厘泊,至少50.0厘泊,至少100.0厘泊或至少200.0厘泊(例如,在25摄氏度下在标准海平面压力下)。优选地,这样的高粘度溶液将具有至少1.5厘泊的动态粘度。高粘度溶液的使用可减慢试剂(例如带条形码的寡核苷酸和/或多聚条形码试剂)的扩散,以防止或延缓扩散远离其靶分子,例如靶核酸。
任选地,在任何方法的任何一个或多个步骤(例如,附接偶联序列和/或偶联分子的任何步骤,附接条形码序列的任何步骤,例如附接和/或连接和/或联接带条形码的寡核苷酸的任何步骤(例如,附接/连接/联接带条形码的寡核苷酸中包含的条形码序列的任何步骤))中,可在包含一种或多种分子拥挤试剂的溶液中执行步骤和/或方法,即,其中所述分子拥挤试剂具有在所述步骤中增加靶分子和/或带条形码的寡核苷酸和/或多聚条形码试剂和/或其它成分的有效浓度的作用。任选地,任何一种或多种分子拥挤试剂可包含珠粒和/或任何尺寸的其它固体载体,例如微米级珠粒(例如直径至少为1.0、至少2.0、至少3.0、至少5.0、至少10、至少20、至少50或至少100微米的珠粒),和/或纳米级珠粒(例如直径至少为1.0、至少2.0、至少3.0、至少5.0、至少10、至少20、至少50或至少100纳米的珠粒)。
可在将一个或多个带条形码的亲和探针与来自任何一个或多个循环微米粒子的一个或多个生物分子结合的任何步骤期间和/或之后,执行去除和/或耗尽未结合的带条形码的亲和探针的一个或多个步骤。
任选地,从循环微米粒子中测量生物分子的任何方法可包含用单个带条形码的亲和探针进行测量。任选地,从循环微米粒子中测量生物分子的任何方法可包含用单个带条形码的亲和探针进行测量,其中所述单个带条形码的亲和探针包含长度至少为单个核苷酸的寡核苷酸。
任选地,长度为至少单个核苷酸的任何核苷酸和/或寡核苷酸序列可被视为带条形码的亲和探针内的条形码和/或条形码序列(和/或带条形码的寡核苷酸)。长度为至少单个核苷酸的所述核苷酸和/或寡核苷酸序列不需要与所述带条形码的亲和探针内的任何其它核苷酸和/或寡核苷酸序列和/或与任何其它带条形码的亲和探针内的任何其它核苷酸和/或寡核苷酸序列不同。
方法的步骤(c)可包含通过分析带条形码的寡核苷酸的核苷酸序列来测量带条形码的寡核苷酸的存在、不存在和/或水平,任选地,其中通过测序(其中带条形码的寡核苷酸的至少一部分被测序)或PCR(其中带条形码的寡核苷酸的至少一部分被扩增)来分析所述序列。
步骤(c)可包含通过引物延伸和/或PCR反应和/或定量或半定量PCR反应(例如实时PCR反应)来测量带条形码的寡核苷酸的存在、不存在和/或水平。
步骤(c)可包含通过引物延伸和/或PCR反应和/或定量或半定量PCR反应(例如实时PCR反应)来测量带条形码的寡核苷酸的存在、不存在和/或水平,其中反应中的至少一种引物对所述带条形码的寡核苷酸的至少一部分具有特异性和/或与其至少部分互补(和/或与其至少部分相同)。
在所述方法中,步骤(b)或步骤(c)可包含将第一循环微米粒子的至少两种带条形码的生物分子复合物连接在一起,以及将第二循环微米粒子的至少两种带条形码的生物分子复合物连接在一起。
包含一个或多个循环微米粒子的样品可以被化学交联(例如,用甲醛)。循环微米粒子可在步骤(a)、(b)和/或(c)之前被化学交联。
包含一个或多个循环微米粒子的样品可以被透化(例如,用化学表面活性剂)。循环微米粒子可在步骤(a)和/或(b)之前被透化。
在步骤(a)和/或(b)之前,包含一个或多个循环微米粒子的样品可被化学交联(例如,用甲醛),且接着被透化(例如,用化学表面活性剂)。
方法可(任选地作为步骤(c)的一部分)包含:(i)使反应混合物与多聚条形码试剂接触,其中多聚条形码试剂包含连接在一起的第一和第二条形码区域,其中每个条形码区域包含核酸序列;(ii)将多聚条形码试剂的条形码区域的条形码序列附接至循环微米粒子的至少一种带条形码的生物分子复合物的带条形码的寡核苷酸上;和(iii)通过分析多聚条形码试剂的条形码区域的附接条形码序列来测量反应混合物中带条形码的寡核苷酸的存在、不存在和/或水平。
反应混合物可进一步包含循环微米粒子的靶核酸的片段,且其中方法:(i)使反应混合物与多聚条形码试剂接触,其中多聚条形码试剂包含连接在一起的第一和第二条形码区域,其中每个条形码区域包含核酸序列;(ii)将多聚条形码试剂的第一条形码区域的条形码序列附接至循环微米粒子的至少一种带条形码的生物分子复合物的带条形码的寡核苷酸(即,靶核酸的第一片段)以产生第一带条形码的靶核酸分子,且将多聚条形码试剂的第二条形码区域的条形码序列附接至靶核酸的片段(即,靶核酸的第二片段)以产生第二带条形码的靶核酸分子;和(iii)分析第一和第二带条形码的靶核酸分子中的每一个的序列。
可通过对第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序来执行分析第一和第二带条形码的靶核酸分子中的每一个的序列的步骤。
方法可进一步包含对第一循环微米粒子的第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序。方法可包含产生针对第一带条形码的靶核酸分子的序列读段,其中序列读段包含多聚条形码试剂的第一条形码区域的序列的至少一部分和循环微米粒子的靶核酸的第一片段的序列的至少一部分。方法可包含产生针对第二带条形码的靶核酸分子的序列读段,其中序列读段包含多聚条形码试剂的第二条形码区域的序列的至少一部分和循环微米粒子的靶核酸的第二片段的序列的至少一部分。
方法可(任选地作为步骤(c)的一部分)包含将反应混合物分成至少第一和第二分区,且分析第一和第二分区中的每一个中的带条形码的生物分子复合物的带条形码的寡核苷酸的核苷酸序列。
方法可包含将反应混合物分成至少3、至少4、至少5、至少10、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000或至少1,000,000,000个分区。优选地,方法包含将反应混合物分成至少1000个分区。
靶核酸分子可包含循环微米粒子的带条形码的生物分子复合物的带条形码的寡核苷酸。循环微米粒子的带条形码的生物分子复合物的带条形码的寡核苷酸可存在于带条形码的生物分子复合物中或衍生自带条形码的生物分子复合物。
两个或更多个靶核酸分子可包含微米粒子的靶核酸的片段以及循环微米粒子的带条形码的生物分子复合物的带条形码的寡核苷酸。
两个或更多个靶核酸分子可包含微米粒子的靶核酸(例如基因组DNA)的片段以及循环微米粒子的带条形码的生物分子复合物的带条形码的寡核苷酸。
两个或更多个靶核酸分子可包含微米粒子的靶核酸(例如RNA)的片段以及循环微米粒子的带条形码的生物分子复合物的带条形码的寡核苷酸。
分析带条形码的生物分子复合物的带条形码的寡核苷酸的核苷酸序列的步骤可包含将第一分区条形码序列附接到至少一个带条形码的寡核苷酸(第一分区的靶核酸的第一片段),所述寡核苷酸被分成所述第一分区(以产生第一分区的第一带条形码的靶核酸分子),其中被分成所述第一分区的至少一个带条形码的寡核苷酸包含在带条形码的生物分子复合物中或由其衍生,且将第二分区条形码序列附接到至少一个带条形码的寡核苷酸(第二分区的靶核酸的第一片段),所述寡核苷酸被分成所述第二分区(以产生第二分区的第一带条形码的靶核酸分子),其中被分成所述第一分区的至少一个带条形码的寡核苷酸包含在带条形码的生物分子复合物中或由其衍生。优选地,第一和第二分区各自包含带条形码的寡核苷酸,所述带条形码的寡核苷酸包含在带条形码的生物分子复合物中或由其衍生。
第一和第二分区条形码序列可以不同。第一分区条形码序列可包含在分区条形码序列的第一集合中,且第二分区条形码序列可包含在分区条形码序列的第二集合中,其中分区条形码序列的所述第一和第二集合是不同的。第一分区条形码序列可以是第一多聚条形码试剂的条形码区域的核酸序列,且第二分区条形码序列可以是第二多聚条形码试剂的核酸序列,其中第一和第二多聚条形码试剂各自包含连接在一起的两个或更多个条形码区域;
分析带条形码的生物分子复合物的带条形码的寡核苷酸的核苷酸序列的步骤可进一步包含分析来自所述第一和第二分区中的每一个的附接的分区条形码序列。
来自循环微米粒子的靶核酸(例如gDNA或RNA)的片段(第一分区的靶核酸的第二片段)还可附接至所述第一分区的所述第一分区条形码序列(以产生第一分区的第二带条形码的靶核酸分子),和/或来自不同循环微米粒子的靶核酸(例如gDNA或RNA)的片段(第二分区的靶核酸的第二片段)还可附接至所述第二分区的所述第二分区条形码序列(以产生所述第二分区的第二带条形码的靶核酸分子)。
可通过对第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序来执行分析第一和第二带条形码的靶核酸分子中的每一个的序列的步骤。
方法可进一步包含分析第一分区的第一和第二带条形码的靶核酸分子中的每一个的序列,以及分析第二分区的第一和第二带条形码的靶核酸分子中的每一个的序列。任选地,通过对第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序来执行分析序列的步骤。
方法可进一步包含对第一分区的第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序。方法可包含产生针对第一带条形码的靶核酸分子的序列读段,其中序列读段包含第一分区条形码的序列的至少一部分和第一分区的靶核酸的第一片段的序列的至少一部分。方法可包含产生针对第二带条形码的靶核酸分子的序列读段,其中序列读段包含第一分区条形码的序列的至少一部分和第一分区的靶核酸的第二片段的序列的至少一部分。
方法可进一步包含对第二分区的第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序。方法可包含产生针对第一带条形码的靶核酸分子的序列读段,其中序列读段包含第二分区条形码的序列的至少一部分和第二分区的靶核酸的第一片段的序列的至少一部分。方法可包含产生针对第二带条形码的靶核酸分子的序列读段,其中序列读段包含第二分区条形码的序列的至少一部分和第二分区的靶核酸的第二片段的序列的至少一部分。
序列读段可包含至少5、至少10、至少25、至少50、至少100、至少250、至少500、至少1000、至少2000、至少5000或至少10,000个来自靶核酸(例如基因组DNA)的核苷酸。优选地,每个序列读段包含至少5个来自靶核酸的核苷酸。本文中的“序列的至少一部分”意指相关序列的至少2个、至少3个、至少4个、至少5个、至少10个、至少25个、至少50个、至少100个、至少250个、至少500个、至少1000个、至少2000个或至少5000个核苷酸。优选地,本文中的“序列的至少一部分”意指相关序列的至少2个核苷酸。
方法可包含扩增来自一个或多个带条形码的亲和探针的信号的步骤(即信号扩增步骤或过程)。信号扩增过程可包含一个或多个股置换扩增反应和/或一个或多个多置换扩增反应。信号扩增过程可包含体外转录反应。信号扩增过程可包含以下步骤:将一个或多个二级带条形码的寡核苷酸附接和/或结合和/或粘接(即杂交)至所述带条形码的亲和探针,例如带条形码的亲和探针内的(非二级)带条形码的寡核苷酸。信号扩增过程可包含将一个或多个二级亲和部分附接和/或结合至所述带条形码的亲和探针的步骤(例如,将二级抗体结合至带条形码的亲和探针内的(非二级)抗体。任选地,可将任何数目的至少2个、至少3个、至少5个或至少10个二级带条形码的寡核苷酸和/或二级亲和部分附接和/或结合和/或粘接至任何带条形码的亲和探针。将2个或更多个二级带条形码的寡核苷酸和/或二级亲和部分附接和/或粘接和/或结合至带条形码的亲和探针的方法可在对其各自进行附接和/或粘接和/或结合的单独顺序步骤中执行,或可在单个并行步骤中执行。
带条形码的寡核苷酸和/或二级带条形码的寡核苷酸可包含用于体外转录反应的模板。带条形码的寡核苷酸和/或二级带条形码的寡核苷酸可包含用于体外转录反应的启动子区域,例如T7 RNA聚合酶的启动子。
带条形码的寡核苷酸和/或二级带条形码的寡核苷酸可包含环状的(例如,环化的)寡核苷酸(例如环状的DNA寡核苷酸或环状的RNA寡核苷酸)。环状的带条形码的寡核苷酸可包含一个或多个长度为至少一个核苷酸的互补引物寡核苷酸,其中将所述互补引物寡核苷酸粘接至所述环状带条形码的寡核苷酸内的一个(或多个)序列。环状的带条形码的寡核苷酸可用作一种或多种股置换扩增反应和/或一种或多种多置换扩增反应的模板,例如使用股置换聚合酶,例如phi29 DNA聚合酶的反应(任选地,其中一个或更多个互补的引物寡核苷酸用作此类扩增反应的引物)。股置换扩增反应和/或多置换扩增反应可在将任何一个或多个带条形码的亲和探针与样品中的任何靶生物分子结合的任何步骤之前和/或之后和/或期间进行。任何一种或多种所述股置换扩增反应和/或一种或多种所述多置换扩增反应的产物可包含用于本文所述的任何方法的靶核酸分子。任何一种或多种所述股置换扩增反应和/或一种或多种所述多置换扩增反应的产物可附接至任何条形码序列(例如任何分区条形码序列、任何带条形码的寡核苷酸、任何多聚条形码试剂中包含的任何条形码序列和/或带条形码的寡核苷酸)。
方法可(任选地作为步骤(c)的一部分)包含:(i)使反应混合物与包含至少两种多聚条形码试剂的库接触,其中每种多聚条形码试剂包含连接在一起的第一和第二条形码区域,其中每个条形码区域包含核酸序列,且其中所述库的第一多聚条形码试剂的第一和第二条形码区域不同于第二多聚条形码试剂的第一和第二条形码区域;和(ii)将条形码序列附接至第一微米粒子的靶核酸的第一片段和靶核酸的第二片段中的每一个,以针对第一微米粒子产生第一和第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第一多聚条形码试剂的第一条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第一多聚条形码试剂的第二条形码区域的核酸序列,以及将条形码序列附接至第二微米粒子的靶核酸的第一片段和靶核酸的第二片段中的每一个,以针对第二微米粒子产生第一和第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第二多聚条形码试剂的第一条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第二多聚条形码试剂的第二条形码区域的核酸序列。
第一微米粒子的靶核酸的第一片段可以是第一循环微米粒子的至少一种带条形码的生物分子复合物的带条形码的寡核苷酸,且其中第二微米粒子的靶核酸的第一片段可以是第二循环微米粒子的至少一种带条形码的生物分子复合物的带条形码的寡核苷酸。
反应混合物可进一步包含第一循环微米粒子的靶核酸的片段,且其中第一循环微米粒子的靶核酸的第二片段是第一循环微米粒子的靶核酸的片段。
反应混合物可进一步包含第二循环微米粒子的靶核酸的片段,且其中第二循环微米粒子的靶核酸的第二片段是第二循环微米粒子的靶核酸的片段。
使反应混合物与多聚条形码试剂的库接触的步骤可在单个连续含水体积中进行。步骤(c)可在单个连续含水体积中进行,任选地,其中步骤(b)和(c)在单个连续含水体积中进行,任选地,其中步骤(a)、(b)和(c)在单个连续含水体积中进行。
方法可进一步包含分析第一循环微米粒子的第一和第二带条形码的靶核酸分子中的每一个的序列,以及分析第二循环微米粒子的第一和第二带条形码的靶核酸分子中的每一个的序列。任选地,通过对第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序来执行分析序列的步骤。
方法可进一步包含对第一循环微米粒子的第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序。方法可包含产生针对第一带条形码的靶核酸分子的序列读段,其中序列读段包含第一多聚条形码试剂的第一条形码区域的序列的至少一部分和第一循环微米粒子的靶核酸的第一片段的序列的至少一部分。方法可包含产生针对第二带条形码的靶核酸分子的序列读段,其中序列读段包含第一多聚条形码试剂的第二条形码区域的序列的至少一部分和第一循环微米粒子的靶核酸的第二片段的序列的至少一部分。
方法可进一步包含对第二循环微米粒子的第一和第二带条形码的靶核酸分子中的每一个的至少一部分进行测序。方法可包含产生针对第一带条形码的靶核酸分子的序列读段,其中序列读段包含第二多聚条形码试剂的第一条形码区域的序列的至少一部分和第二循环微米粒子的靶核酸的第一片段的序列的至少一部分。方法可包含产生针对第二带条形码的靶核酸分子的序列读段,其中序列读段包含第二多聚条形码试剂的第二条形码区域的序列的至少一部分和第二循环微米粒子的靶核酸的第二片段的序列的至少一部分。
序列读段可包含至少5、至少10、至少25、至少50、至少100、至少250、至少500、至少1000、至少2000、至少5000或至少10,000个来自靶核酸(例如基因组DNA)的核苷酸。优选地,每个序列读段包含至少5个来自靶核酸的核苷酸。本文中的“序列的至少一部分”意指相关序列的至少2个、至少3个、至少4个、至少5个、至少10个、至少25个、至少50个、至少100个、至少250个、至少500个、至少1000个、至少2000个或至少5000个核苷酸。优选地,本文中的“序列的至少一部分”意指相关序列的至少2个核苷酸。
方法进一步包含将样品或反应混合物划分为至少第一和第二分区,且分析第一和第二分区中的每一个中的带条形码的寡核苷酸的核苷酸序列,其中第一分区含有包含在第一循环微米粒子的至少一种带条形码的生物分子复合物中或衍生自所述复合物的至少一个带条形码的寡核苷酸,且其中第二分区含有包含在第二循环微米粒子的至少一种带条形码的生物分子复合物中或衍生自所述复合物的至少一个带条形码的寡核苷酸。划分步骤可在步骤(a)之前、步骤(b)之前和/或步骤(c)之前执行。
方法可包含将样品分成至少3、至少4、至少5、至少10、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000或至少1,000,000,000个分区。优选地,方法包含将样品分成至少1000个分区。
分析带条形码的生物分子复合物的带条形码的寡核苷酸的核苷酸序列的步骤可包含:(i)将第一分区条形码序列附接至第一分区的至少一个带条形码的寡核苷酸上;和(ii)将第二分区条形码序列附接至第二分区的至少一个带条形码的寡核苷酸上。
第一和第二分区条形码序列可以不同。
第一分区条形码序列可来自分区条形码序列的第一集合,且第二分区条形码序列可来自分区条形码序列的第二集合,且其中分区条形码序列的第一和第二集合不同。
第一分区条形码序列可以是第一多聚条形码试剂的条形码区域的核酸序列,且第二分区条形码序列可以是第二多聚条形码试剂的条形码区域的核酸序列,且其中第一和第二多聚条形码试剂各自包含连接在一起的两个或更多个条形码区域。
第一分区可进一步包含第一循环微米粒子的靶核酸的片段,且其中第二分区可进一步包含第二循环微米粒子的靶核酸的片段。
分析带条形码的生物分子复合物的带条形码的寡核苷酸的核苷酸序列的步骤可包含:(i)将第一分区条形码序列附接至第一分区的至少一个条形码化寡核苷酸,且将第一分区条形码序列附接至第一循环微米粒子的靶核酸的至少一个片段;(ii)将第二分区条形码序列附接至第二分区的至少一个带条形码的寡核苷酸,且将第二分区条形码序列附接至第二循环微米粒子的靶核酸的至少一个片段;且其中所述第一和第二分区条形码序列不同。
分析带条形码的生物分子复合物的带条形码的寡核苷酸的核苷酸序列的步骤可包含:(i)将分区条形码序列的第一集合的第一分区条形码序列附接至第一分区的至少一个带条形码的寡核苷酸,且将分区条形码序列的第一集合的第二分区条形码序列附接至第一循环微米粒子的靶核酸的至少一个片段;和(ii)将分区条形码序列的第二集合的第一分区条形码序列附接至第二分区的至少一个带条形码的寡核苷酸,且将分区条形码序列的第二集合的第二分区条形码序列附接至第二循环微米粒子的靶核酸的靶核酸的至少一个片段;且其中分区条形码序列的第一和第二集合不同。
分区条形码序列的第一集合的第一和第二分区条形码序列可以是第一多聚条形码试剂的第一和第二条形码区域的核酸序列,且其中分区条形码序列的第二集合的第一和第二分区条形码序列可以是第二多聚条形码试剂的第一和第二条形码区域的核酸序列,且其中第一和第二多聚条形码试剂各自包含连接在一起的两个或更多个条形码区域。
第一分区可进一步包含靶核酸的片段,且其中第二分区可进一步包含靶核酸的片段,且其中分析带条形码的生物分子复合物的带条形码的寡核苷酸的核苷酸序列的步骤包含:(i)将第一分区条形码序列附接至第一分区的至少一个带条形码的寡核苷酸,且将第一分区条形码序列附接至第一分区的靶核酸的至少一个片段;(ii)将第二分区条形码序列附接至第二分区的至少一个带条形码的寡核苷酸,且将第二分区条形码序列附接至第二分区的靶核酸的至少一个片段;其中所述第一和第二分区条形码序列不同。或者,分析带条形码的生物分子复合物的带条形码的寡核苷酸的核苷酸序列的步骤包含:(i)将分区条形码序列的第一集合的第一分区条形码序列附接至第一分区的至少一个带条形码的寡核苷酸,且将分区条形码序列的第一集合的第二分区条形码序列附接至第一分区的靶核酸的至少一个片段;和(ii)将分区条形码序列的第二集合的第一分区条形码序列附接至第二分区的至少一个带条形码的寡核苷酸,且将分区条形码序列的第二集合的第二分区条形码序列附接至第二分区的靶核酸的靶核酸的至少一个片段;其中分区条形码序列的第一和第二集合不同。
分区条形码序列的第一集合的第一和第二分区条形码序列可以是第一多聚条形码试剂的第一和第二条形码区域的核酸序列,且其中分区条形码序列的第二集合的第一和第二分区条形码序列可以是第二多聚条形码试剂的第一和第二条形码区域的核酸序列,且其中第一和第二多聚条形码试剂各自包含连接在一起的两个或更多个条形码区域。
本发明提供带条形码的亲和探针在确定循环微米粒子或由其衍生的样品中的靶生物分子的存在、不存在和/或水平的用途,其中所述带条形码的亲和探针包含至少一个与带条形码的寡核苷酸连接的亲和部分,其中带条形码的寡核苷酸包含至少一个核苷酸,且其中亲和部分能够结合靶生物分子。
本发明提供一种用于确定靶生物分子的存在、不存在和/或水平的带条形码的亲和探针,其中所述带条形码的亲和探针包含至少一个与带条形码的寡核苷酸连接的亲和部分,其中带条形码的寡核苷酸包含至少一个核苷酸,且其中亲和部分能够结合靶生物分子。
带条形码的亲和探针、靶生物分子、亲和部分和带条形码的寡核苷酸可采取本文所述的任何形式。确切地说,其可采取与方法有关的本文所述的任何形式。
本发明提供一种用于确定至少两个靶生物分子的存在、不存在和/或水平的带条形码的亲和探针库,其中所述库包含:(i)第一带条形码的亲和探针,其包含至少一个与带条形码的寡核苷酸连接的亲和部分,其中带条形码的寡核苷酸包含至少一个核苷酸,且其中亲和部分能够结合至第一靶生物分子;和(ii)第二带条形码的亲和探针,其包含连接至带条形码的寡核苷酸的至少一个亲和部分,其中所述带条形码的寡核苷酸包含至少一个核苷酸,且其中所述亲和部分能够结合第二靶生物分子;且其中第一靶生物分子和第二靶生物分子不同。
带条形码的亲和探针的库、带条形码的亲和探针、靶生物分子、亲和部分和带条形码的寡核苷酸可采取本文所述的任何形式。确切地说,其可采取与方法有关的本文所述的任何形式。
第一靶生物分子可以是多肽,且第二靶生物分子可以是带条形码的寡核苷酸或靶核酸(例如基因组DNA)的片段。
第一靶生物分子可以是多肽,且第二靶生物分子可以是包含表观遗传修饰(例如5-羟甲基胞嘧啶DNA或5-甲基胞嘧啶DNA)的靶核酸(例如基因组DNA)的片段。
第一靶生物分子可以是5-羟甲基胞嘧啶DNA,且第二靶生物分子可以是选自生物分子组1的生物分子。
第一靶生物分子可以是5-甲基胞嘧啶DNA,且第二靶生物分子可以是选自生物分子组1的生物分子。
第一和第二靶生物分子可选自生物分子组1。
任选地,两个或更多个带条形码的亲和探针的任何库可含有包含所述两个或更多个带条形码的亲和探针的单一混合溶液。任选地,两个或更多个带条形码的亲和探针的任何库可包含两种或更多种单独的溶液,其中每种溶液包含所述两个或更多个带条形码的亲和探针之一的溶液。任选地,可以试剂盒的形式提供两个或更多个带条形码的亲和探针的任何库,其中所述试剂盒由两种或更多种单独的溶液组成,其中每种溶液包含所述两个或更多个带条形码的亲和探针之一的溶液。
样品可与至少2种、至少3种、至少5种、至少10种、至少20种或至少30种不同的带条形码的亲和探针的库接触。优选地,库包含至少2个不同的带条形码的亲和探针。每个带条形码的亲和探针可包含连接至带条形码的寡核苷酸的至少一个亲和部分,其中带条形码的寡核苷酸包含至少一个核苷酸,且其中所述亲和部分能够结合至靶生物分子。库中的每个不同的带条形码的亲和探针的亲和部分可能能够与不同的靶生物分子结合。带条形码的亲和探针的库可能能够与至少2个、至少3个、至少5个、至少10个、至少20个或至少30个不同的靶生物分子结合。优选地,带条形码的亲和探针的库能够结合至少2个不同的靶生物分子。
任选地,在两个或更多个带条形码的亲和探针的任何库中,包含相同亲和部分(和/或包含能够结合至相同靶生物分子的亲和部分)的带条形码的亲和探针可包含相同的带条形码的寡核苷酸。任选地,在带条形码的亲和探针的任何库中,包含相同亲和部分(和/或包含对相同靶生物分子具有亲和力的亲和部分)的带条形码的亲和探针可包含不同的带条形码的寡核苷酸或不同的条形码序列,所述条形码序列来自两个或更多个不同的条形码序列的集合,和/或来自至少10个不同的条形码序列的集合,和/或来自至少100个不同的条形码序列的集合,和/或来自至少1000个不同的条形码序列的集合,和/或来自至少10,000个不同的条形码序列的集合,和/或来自至少1,000,000个不同的条形码序列的集合。
任选地,在两个或更多个不同的带条形码的亲和探针的任何库中,每个带条形码的亲和探针可包含两个或更多个不同的亲和部分的集合(例如,每个条形码的亲和探针可包含两个或更多个不同的亲和部分,各自能够结合不同的靶生物分子)。任选地,在带条形码的亲和探针的任何库中,包含两个或更多个不同的亲和部分的相同集合(和/或包含能够结合至相同靶生物分子的亲和部分的集合)的带条形码的亲和探针可包含相同的带条形码的寡核苷酸。任选地,在带条形码的亲和探针的任何库中,包含两个或更多个不同的亲和部分的相同集合(和/或包含能够结合至相同靶生物分子的亲和部分的集合)的带条形码的亲和探针可包含不同的条形码序列,或来自两个或更多个不同的条形码序列的集合,和/或来自至少10个不同的条形码序列的集合,和/或来自至少100个不同的条形码序列的集合,和/或来自至少1000个不同的条形码序列的集合,和/或来自至少10,000个不同的条形码序列的集合,和/或来自至少1,000,000个不同的条形码序列的集合的不同的条形码序列。
两个或更多个不同的带条形码的亲和探针的库可包含各自包含一个或多个亲和部分的带条形码的亲和探针,以及一个或多个一级带条形码的寡核苷酸和一个或多个二级带条形码的寡核苷酸,其中所述库中的每个一级带条形码的寡核苷酸包含相同的序列,且其中所述库中的每个二级带条形码的寡核苷酸包含不同的序列。
提供了一种光学标记和/或荧光标记的亲和探针,其中所述光学标记和/或荧光标记的亲和探针包含至少一个对选自生物分子组1的任何一个或多个生物分子(或靶生物分子)具有亲和力和/或特异性的亲和部分。提供了一种光学标记和/或荧光标记的亲和探针,其中所述光学标记和/或荧光标记的亲和探针包含至少一个对选自生物分子组1的任何一个或多个生物分子(或靶生物分子)具有亲和力和/或特异性的亲和部分,且包含至少一个光学和/或荧光标记。
提供了两个或更多个光学标记和/或荧光标记的亲和探针的库,其包含用于选自生物分子组1的至少第一和第二生物分子(或靶生物分子)的至少第一和第二亲和探针,其中每个光学标记和/或荧光标记的亲和探针包含至少一个光学和/或荧光标记。提供了两个或更多个光学标记和/或荧光标记的亲和探针的库,其包含对5-甲基胞嘧啶DNA或5-羟甲基胞嘧啶DNA具有亲和力和/或特异性的第一光学标记和/或荧光标记的亲和探针,和对选自生物分子组1的任何一个或多个生物分子(或靶生物分子)具有亲和力和/或特异性的至少第二光学标记和/或荧光标记的亲和探针。
提供了一种或多种寡核苷酸,其中所述寡核苷酸包含与生物分子组1的任何生物分子的任何DNA和/或RNA序列相同和/或互补的序列。提供了一种或多种引物,其中所述引物包含与生物分子组1的任何生物分子的任何DNA和/或RNA序列相同和/或互补的序列。提供了一种或多种用于原位杂交(ISH)方法的寡核苷酸探针,其中所述寡核苷酸探针包含与生物分子组1的任何生物分子的任何DNA和/或RNA序列相同和/或互补的序列。提供了一种或多种用于荧光原位杂交(FISH)方法的寡核苷酸探针,其中所述寡核苷酸探针包含与生物分子组1的任何生物分子的任何DNA和/或RNA序列相同和/或互补的序列。任选地,任何所述寡核苷酸和/或引物和/或寡核苷酸探针可包含光学和/或荧光标记。任选地,任何所述寡核苷酸和/或引物和/或寡核苷酸探针可包含衔接子序列和/或偶联序列。任选地,任何所述寡核苷酸和/或引物和/或寡核苷酸探针可用于逆转录方法,和/或引物延伸方法;和/或PCR方法,和/或原位杂交(ISH)方法,和/或荧光原位杂交(FISH)方法。提供了两个或更多个寡核苷酸的库,其中每个所述寡核苷酸包含与生物分子组1的任何生物分子的任何DNA和/或RNA序列相同和/或互补的序列。
在所述方法中,循环微米粒子可含有靶核酸的至少两个片段,且其中所述方法包含:(a)制备用于测序的样品,其包含将靶核酸的至少两个片段中的至少两个连接,以产生靶核酸的至少两个连接片段的集合;和(b)对集合中的至少两个连接片段进行测序,以产生至少两个(信息)连接序列读段。
在所述方法中,循环微米粒子可含有靶核酸的至少两个片段,且其中所述方法包含:(a)制备用于测序的样品,其包含将靶核酸的至少两个片段中的至少两个连接,以产生靶核酸的至少两个连接片段的集合;和(b)对集合中的至少两个连接片段进行测序,以产生至少两个(信息)连接序列读段。
在所述方法中,循环微米粒子含有基因组DNA的至少两个片段,且其中所述方法包含:(a)制备用于测序的样品,其包含将基因组DNA的至少两个片段中的至少两个连接,以产生基因组DNA的至少两个连接片段的集合;和(b)对集合中的至少两个连接片段进行测序以产生至少两个连接序列读段。
在所述方法中,循环微米粒子可含有至少两个基因组DNA的片段,且其中所述方法包含:(a)制备用于测序的样品,其包含将至少两个基因组DNA的片段中的至少两个连接,以产生至少两个基因组DNA的连接片段的集合;和(b)对集合中的至少两个连接片段进行测序以产生至少两个连接序列读段。
在所述方法中,微米粒子的靶核酸的至少3、至少4、至少5、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少100,000或至少1,000,000个片段可连接为集合,且接着进行测序以产生至少3、至少4、至少5、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少100,000或至少1,000,000个连接序列读段。优选地,微米粒子的靶核酸的至少5个片段可连接为集合,且接着进行测序以产生至少5个连接序列读段。
在所述方法中,每个连接序列读段可提供连接片段的至少1个核苷酸、至少5个核苷酸、至少10个核苷酸、至少20个核苷酸、至少30个核苷酸、至少50个核苷酸、至少100个核苷酸、至少200个核苷酸、至少500个核苷酸、至少1000个核苷酸或至少10,000个核苷酸的序列。优选地,每个连接序列读段可提供连接片段的至少20个核苷酸的序列。
在所述方法中,总共可产生至少2、至少10、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000、至少100,000,000,000或至少1,000,000,000,000个序列读段。优选地,总共产生至少500,000个序列读段。
序列读段可包含至少5、至少10、至少25、至少50、至少100、至少250、至少500、至少1000、至少2000、至少5000或至少10,000个来自靶核酸(例如基因组DNA)的核苷酸。优选地,每个序列读段包含至少5个来自靶核酸的核苷酸。
序列读段可包含从测序仪器产生的其一部分的原始序列读段,例如从Illumina序列仪器产生的长度为50个核苷酸的序列原始序列读段。序列读段可包含来自成对末端测序运行的两个读段的合并序列,例如来自在Illumina测序仪器上运行的成对末端测序的第一和第二读段的串联或合并序列。序列读段可包含由测序仪器产生的原始序列读段的一部分,例如由Illumina测序仪器产生的150个核苷酸的原始序列读段中的20个连续核苷酸。单个原始序列读段可包含通过本发明的方法产生的至少两个连接序列读段。
序列读段可通过本领域已知的任何方法产生。例如,通过链终止或桑格测序(Sanger sequencing)。优选地,如下地进行测序:通过下一代测序方法,例如合成测序、使用可逆终止子的合成测序(例如Illumina测序)、焦磷酸测序(例如454测序)、连接测序(例如SOLiD测序)、单分子测序(例如单分子、实时(SMRT)测序,Pacific Biosciences)或通过纳米孔测序(例如在Minion或Promethion平台上,Oxford Nanopore Technologies)。最优选地,通过使用可逆终止子的合成测序(例如Illumina测序)来产生序列读段。
方法可包含将每个连接序列读段映射至参考基因组序列的另一步骤。连接序列读段可包含映射至参考基因组序列的相同染色体的序列或映射至参考基因组序列的两个或更多个不同染色体的序列。
微米粒子的直径可为至少100nm,至少110nm,至少125nm,至少150nm,至少175nm,至少200nm,至少250nm或至少500nm。优选地,微米粒子的直径为至少200nm。微米粒子的直径可为100-5000nm。微米粒子的直径可为10-10,000nm(例如100-10,000nm、110-10,000nm)、50-5000nm、75-5,000nm、100-3,000nm。微米粒子的直径可为10-90nm、50-100nm、90-200nm、100-200nm、100-500nm、100-1000nm、1000-2000nm、90-5000nm或2000-10,000nm。优选地,微米粒子直径为100至5000nm。最优选地,微米粒子的直径为200至5000nm。样品可包括至少两种不同尺寸,或至少三种不同尺寸,或一系列不同尺寸的微米粒子。
基因组DNA的连接片段可源自单个基因组DNA分子。
方法可进一步包含估计或确定基因组DNA的连接片段的基因组序列长度的步骤。任选地,此步骤可通过对连接片段的基本上整个序列(即,从其大约5′端至其大约3′端)进行测序且计数其中测序的核苷酸的数目来进行。任选地,这可以如下地执行:通过在连接片段的序列的5′端测序足够数量的核苷酸以将所述5′端映射至参考基因组序列(例如人类基因组序列)内的基因座,且同样在连接片段的3′端测序足够数量的核苷酸以将所述3′端映射至参考基因组序列内的基因座,且接着使用参考基因组序列确定连接片段的基因组序列长度(即,在连接片段的3′端测序的核苷酸的数目+在连接片段的5′端测序的核苷酸的数目+参考基因组中这些序列之间的核苷酸(即未测序部分)的数目)。
在所述方法中,样品可包含第一和第二循环微米粒子,其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含执行步骤(a)以产生针对第一微米粒子的靶核酸的连接片段的第一集合和针对第二微米粒子的靶核酸的连接片段的第二集合,以及执行步骤(b)以产生针对第一微米粒子的连接序列读段的第一集合(即,连接信号的集合)和针对第二微米粒子的连接序列读段的第二集合(即,连接信号的集合)。
在所述方法中,针对第一微米粒子产生的连接序列读段的集合(即,连接信号的集合)可与针对第二微米粒子产生的连接序列读段的集合(即,连接信号的集合)区分开。
在所述方法中,样品可包含n个源自血液的微米粒子,其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含执行步骤(a)以产生靶核酸的n个连接片段集,n个微米粒子中的每一个产生一个集,以及执行步骤(b)以产生n个连接序列读段集(即,连接信号集),n个微米粒子中的每一个产生一个集。
在所述方法中,n可为至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000或至少100,000,000,000。优选地,n为至少100,000个微米粒子。
在所述方法中,样品可包含至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000或至少100,000,000,000个微米粒子(和/或衍生自至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000的、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000或至少100,000,000,000个微米粒子的样品),其中所述微米粒子(和/或从其衍生的样品)在所述方法的任何步骤(例如,使样品与多聚条形码试剂的库接触的任何步骤,和/或将条形码序列(例如带条形码的寡核苷酸)附接和/或连接和/或联接至靶核酸的任何步骤,和/或将偶联序列附接至靶核酸的任何步骤,和/或将偶联分子附接和/或连接和/或联接至靶核酸或其它靶生物分子的任何步骤,和/或交联或透化的任何步骤)中包含于单个连续水性体积内。
针对每个微米粒子产生的连接序列读段的集合(即,连接信号的集合)可与针对其它微米粒子产生的连接序列读段的集合区分开。
所述方法可进一步包含在步骤(a)之前,将样品划分成至少两个不同反应体积的步骤。
在本发明中,两个序列或序列读段(例如,由测序反应确定的序列)可通过任何方式进行信息连接,所述方式允许在计算机系统内、在算法内或在数据集内以任何方式使这样的序列彼此关联或相互关联。这样的连接可由离散的识别连接,或由共享的属性,或由连接、相互关联或关联两个或更多个这样的序列的任何间接方法构成,和/或由其建立,和/或由其表示。
连接可由测序反应本身内的序列构成和/或由其建立和/或由其表示(例如,以通过测序反应确定的条形码序列的形式,或以共同包含第一和第二连接序列的单个确定的序列的两个不同部分或片段的形式),或独立于此类序列而建立、包含或表示(例如凭借包含在相同流通池内,或在流通池的相同通道内,或在测序仪器的相同隔室或区域内而建立,或包含在测序仪器的同一测序运行中,或在生物样品内一定程度的空间接近度下包含,和/或在测序仪器或测序流通池内一定程度的空间接近度下包含。连接可由与测序仪器内的物理位置或分区对应的量度或参数构成,和/或由其建立和/或由其表示,例如,图像和/或多像素相机或多像素电荷耦合装置内的像素或像素位置,和/或例如纳米孔或纳米孔在纳米孔测序仪器或纳米孔膜内的位置。
连接可以是绝对的(即,两个序列是连接的或未连接的,除此之外没有任何定量、半定量或定性/分类关系)。连接也可以是相对的,概率的,或关于连接的程度、概率或范围而建立、包含或表示的,例如相对于可容纳一系列定量、半定量或定性/分类值中的一个的一个或多个参数(或由其表示)。例如,两个(或更多个)序列可通过定量、半定量或定性/分类参数信息连接,所述参数表示、包含、估计或体现所述两个(或更多个)序列在测序仪器内的接近度,或所述两个(或更多个)序列在生物样品内的接近度。
对于涉及通过任何这样的方式进行信息连接的两个或更多个序列的任何分析,连接的存在(或不存在)可用作任何分析或评估步骤或任何执行所述步骤的算法中的参数。对于涉及通过任何这样的方式进行信息连接的两个或更多个序列的任何分析,连接的程度、概率或范围可用作任何分析或评估步骤或任何执行所述步骤的算法中的参数。
在这样的连接的一种形式中,两个或更多个连接序列的给定集合可以与特定标识符,例如字母数字标识符,或条形码,或条形码序列相关联。在另一种形式中,两个或更多个连接序列的给定集合可与条形码或条形码序列相关联,其中所述条形码或条形码序列包含在由测序反应确定的序列内。例如,在测序反应中确定的每个序列可包含条形码序列和对应于基因组DNA序列的序列。任选地,某些序列或连接序列可由两个或更多个条形码或标识符表示或与其相关联。
在连接的另一种形式中,两个或更多个连接序列可保存在计算机或计算机网络内,硬盘驱动器或任何种类的存储介质或任何其它存储序列数据的装置内的离散分区内。任选地,某些序列或连接序列可保存在此类计算机或数据介质内的两个或更多个分区中。
信息连接的序列可包含信息连接序列的一个或多个集合。连接序列的集合中的序列都可共享相同的连接功能或其表示;例如,连接集合内的所有序列可与相同条形码或相同标识符相关联,或者可包含在计存算机或存储介质的相同分区内;所有序列可以共享任何其它形式的连接、相互关系和/或相关性。连接集合中的一个或多个序列可以是所述集合中的排他成员,且因此不是任何其它集合中的成员。或者,连接集合中的一个或多个序列可以是所述集合的非排他性成员,且因此,所述序列可由两个或更多个不同的连接序列集合表示和/或与其相关联。
本发明提供一种分析包含至少两个循环微米粒子的样品或衍生自至少两个循环微米粒子的样品的方法,其中所述方法包含:(i)将所述样品分成至少两个分区,其中每个分区平均包含小于n个循环微米粒子;和(ii)确定在至少两个分区中的至少两个中的每一个中的至少两个靶生物分子的存在、不存在和/或水平。任选地,其中n为1000、500、200、100、50、40、30、20、10、5、4、3、2、1、0.5、0.4、0.3、0.2、0.1、0.05、0.04、0.03、0.02,0.01、0.005、0.001、0.0005或0.0001。优选地,其中n为0.5。任选地,其中步骤(i)包含将样品分成至少3个分区,至少5个分区,至少10个分区,至少100个分区,至少1000个分区,至少10,000个分区,至少100,000个分区,至少1,000,000个分区,至少10,000,000个分区,至少100,000,000个分区或至少1,000,000,000个分区。优选地,其中步骤(i)包含将样品分成至少1000个分区。
(ii)确定至少两个靶生物分子的存在、不存在和/或水平的步骤可通过分析包含循环微米粒子的样品(即,分区中的样品)或衍生自循环微米粒子的样品的方法对至少两个分区中的至少两个中的每一个进行,其中循环微米粒子包含至少两个靶分子,其中所述至少两个靶分子是生物分子,且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号以针对循环微米粒子产生至少两个(信息)连接信号的集合(即,针对分区的至少两个(信息)连接信号的集合),其中至少一个连接信号对应于样品(即,分区中的样品)中第一生物分子的存在、不存在和/或水平,且至少一个连接信号对应于样品(即,分区中的样品)中第二生物分子的存在、不存在和/或水平。方法可通过本文提供的任何方法来执行,所述方法包含产生微米粒子的至少两个连接信号的集合。方法可针对至少两个分区中的至少两个中的每一个产生至少两个连接信号的集合。
本发明提供了一种分析包含至少两个循环微米粒子的样品或衍生自至少两个循环微米粒子的样品的方法,其中所述方法包含:(i)将所述样品分成至少两个分区,其中第一分区至少包含第一循环微米粒子的第一和第二靶生物分子,且第二分区至少包含第二循环微米粒子的第一和第二靶生物分子,且其中至少两个分区中的至少两个中的每个分区平均包含DNA总质量的小于[X];和(ii)确定在至少两个分区中的至少两个中的每一个中的至少两个靶生物分子的存在、不存在和/或水平。任选地,其中[x]为1.0阿克的DNA、10阿克的DNA、100阿克的DNA、1.0飞克的DNA、10飞克的DNA、100飞克的DNA、1.0皮克的DNA、10皮克的DNA、100皮克的DNA或1.0纳克的DNA。优选地,其中[X]为100飞克的DNA。
(ii)确定至少两个靶生物分子的存在、不存在和/或水平的步骤可通过分析包含循环微米粒子的样品(即,分区中的样品)或衍生自循环微米粒子的样品的方法对至少两个分区中的至少两个中的每一个进行,其中循环微米粒子包含至少两个靶分子,其中所述至少两个靶分子是生物分子,且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号以针对循环微米粒子产生至少两个(信息)连接信号的集合(即,针对分区的至少两个(信息)连接信号的集合),其中至少一个连接信号对应于样品(即,分区中的样品)中第一生物分子的存在、不存在和/或水平,且至少一个连接信号对应于样品(即,分区中的样品)中第二生物分子的存在、不存在和/或水平。方法可通过本文提供的任何方法来执行,所述方法包含产生微米粒子的至少两个连接信号的集合。方法可针对至少两个分区中的至少两个中的每一个产生至少两个连接信号的集合。
本发明提供了一种分析包含至少两个循环微米粒子的样品或衍生自至少两个循环微米粒子的样品的方法,其中所述方法包含:(i)将所述样品分成至少两个分区,其中第一分区至少包含第一循环微米粒子的第一和第二靶生物分子,且第二分区至少包含第二循环微米粒子的第一和第二靶生物分子,且其中至少两个分区中的至少两个中的每个分区平均包含多肽总质量的小于[Y];和(ii)确定在至少两个分区中的至少两个中的每一个中的至少两个靶生物分子的存在、不存在和/或水平。任选地,其中[Y]为1.0阿克的多肽、10阿克的多肽、100阿克的多肽、1.0飞克的多肽、10飞克的多肽、100飞克的多肽、1.0皮克的多肽、10皮克的多肽、100皮克的多肽或1.0纳克的多肽。优选地,其中[Y]为100飞克的多肽。
(ii)确定至少两个靶生物分子的存在、不存在和/或水平的步骤可通过分析包含循环微米粒子的样品(即,分区中的样品)或衍生自循环微米粒子的样品的方法对至少两个分区中的至少两个中的每一个进行,其中循环微米粒子包含至少两个靶分子,其中所述至少两个靶分子是生物分子,且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号以针对循环微米粒子产生至少两个(信息)连接信号的集合(即,针对分区的至少两个(信息)连接信号的集合),其中至少一个连接信号对应于样品(即,分区中的样品)中第一生物分子的存在、不存在和/或水平,且至少一个连接信号对应于样品(即,分区中的样品)中第二生物分子的存在、不存在和/或水平。方法可通过本文提供的任何方法来执行,所述方法包含产生微米粒子的至少两个连接信号的集合。方法可针对至少两个分区中的至少两个中的每一个产生至少两个连接信号的集合。
方法可进一步包含分析已经被分成所述第一和第二分区的每一个的至少两个靶核酸分子的序列。
方法可包含将样品分成至少3、至少4、至少5、至少10、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000分区或至少1,000,000,000个分区。优选地,方法包含将样品分成至少1000个分区。
第一靶生物分子可以是多肽,且第二靶生物分子可以是带条形码的寡核苷酸或靶核酸(例如基因组DNA)的片段。
第一靶生物分子可以是多肽,且第二靶生物分子可以是包含表观遗传修饰(例如5-羟甲基胞嘧啶DNA或5-甲基胞嘧啶DNA)的靶核酸(例如基因组DNA)的片段。
第一靶生物分子可以是5-羟甲基胞嘧啶DNA,且第二靶生物分子可以是选自生物分子组1的生物分子。
第一靶生物分子可以是5-甲基胞嘧啶DNA,且第二靶生物分子可以是选自生物分子组1的生物分子。
第一和第二靶生物分子可选自生物分子组1。
确定(或测量)靶生物分子的存在、不存在和/或水平(或测量与靶生物分子的存在、不存在和/或水平对应的信号)的任何一个或多个步骤可使用一个或多个带条形码的亲和探针(如本文所提供),例如通过将带条形码的亲和探针与靶生物分子结合来进行。确定(或测量)靶生物分子的存在、不存在和/或水平(或测量与靶生物分子的存在、不存在和/或水平对应的信号)的任何一个或多个步骤可根据包含使样品与带条形码的亲和探针(如本文所提供)接触的任何方法来进行。任选地,方法包含将至少一个带条形码的亲和探针与靶生物分子结合,其中来自多聚条形码试剂的条形码序列附接至带条形码的亲和探针的带条形码的寡核苷酸。任选地,其中通过分析多聚条形码试剂的条形码序列和/或通过分析来自带条形码的亲和探针的带条形码的寡核苷酸的条形码序列进行测量。
确定(或测量)靶生物分子的存在、不存在和/或水平(或测量与靶生物分子的存在、不存在和/或水平对应的信号)的任何一个或多个步骤可使用一种或多种光学和/或荧光(fluorescent)/荧光(fluorescence)测量方法,例如使用一种或多种光学标记和/或荧光标记的亲和探针来执行。例如,可使用一种或多种光学标记和/或荧光标记的亲和探针来执行测量步骤,其中至少一种光学标记和/或荧光标记的亲和探针与靶生物分子结合,且其中使用至少一个光学测量步骤或至少一个荧光检测步骤进行所述测量(例如,其中通过测量来自所述光学标记和/或荧光标记的亲和探针的光学和/或荧光信号来进行所述测量)。
任选地,任何一种或多种光学和/或荧光/荧光测量过程可包含对样品进行光学和/或荧光测量,所述样品包含一个或多个循环微米粒子和/或包含来自一个或多个循环微米粒子的生物分子,其中所述样品包含在水性体积和/或水性液滴(例如使用荧光激活细胞分选(FACS)仪器分析的液滴)中。任选地,任何这样的光学和/或荧光测量过程可进一步包含分选和/或选择过程,例如其中循环微米粒子的任何一种或多种光学和/或荧光测量被用于分选和/或选择任何给定的循环微米粒子和/或两个或更多个循环微米粒子的任何组和/或子集(例如,将包含循环微米粒子的样品分选为展现高水平的特定靶生物分子的循环微米粒子的第一子集,和展现高水平的所述特定靶生物分子的循环微米粒子的第二子集)。
任选地,任何一种或多种光学和/或荧光/荧光测量过程可包含对样品进行光学和/或荧光测量,所述样品包含一个或多个循环微米粒子和/或包含来自一个或多个循环微米粒子的生物分子,其中所述样品包含在平坦表面上(例如平坦玻璃表面,例如显微镜载玻片,或任何其它平坦表面)。任选地,任何一种或多种光学和/或荧光/荧光测量过程可包含对样品进行光学和/或荧光测量,所述样品包含一个或多个循环微米粒子和/或包含来自一个或多个循环微米粒子的生物分子,其中所述样品用光学显微镜和/或荧光显微镜可视化。
任选地,任何一个或多个荧光标记的亲和探针可包含具有特定吸收光谱和/或发射光谱的荧光团。任选地,包含在两个或更多个荧光标记的亲和探针的池和/或库和/或集合内的任何一个或多个荧光标记的亲和探针可包含荧光团,所述荧光团具有不同于所述池和/或库和/或集合内的至少一个和/或至少两个其它荧光标记的亲和探针的吸收光谱和/或发射光谱。
任选地,对包含在两个或更多个荧光标记的亲和探针的池和/或库和/或集合内的相同靶生物分子具有亲和力的所有荧光标记的亲和探针可包含具有相同吸收光谱和/或发射光谱的荧光团。任选地,对包含在两个或更多个荧光标记的亲和探针的池和/或库和/或集合内的相同靶生物分子具有亲和力的所有荧光标记的亲和探针可包含相同荧光团。任选地,对包含在两个或更多个荧光标记的亲和探针的池和/或库和/或集合内的相同靶生物分子具有亲和力的荧光标记的亲和探针可包含两个或更多个不同荧光团(例如两个或更多个包含两个或更多个不同吸收光谱和/或发射光谱的不同荧光团)。任选地,两个或更多个荧光标记的亲和探针的池和/或库和/或集合内的荧光标记的亲和探针可各自包含来自两个或更多个不同荧光团(例如,包含两个或更多个不同吸收光谱和/或发射光谱的两个或更多个不同荧光团)的集合的荧光团,其中所有对相同靶生物分子具有亲和力的所述荧光标记的亲和探针共享相同的荧光团,任选地,其中每个荧光团识别所述荧光标记的亲和探针的靶生物分子和/或与其缔合。任选地,在两个或更多个荧光标记的亲和探针的任何池和/或库和/或集合中,可使用多个不同的荧光团(例如,包含不同吸收光谱和/或发射光谱的任何数目的不同荧光团),例如至少2个,至少3个,至少4个,至少5个,至少10个,至少15个,至少20个或至少50个。
任选地,在分析包含至少一个循环微米粒子的样品的任何方法中,在所述方法的任何一个或多个步骤期间和/或之前和/或之后,任何样品,和/或溶液,和/或反应物或反应混合物,和/或水性体积,和/或包含任何数目或浓度的循环微米粒子的混合物,和/或来自一个或多个循环微米粒子的任何数目或浓度的生物分子,和/或任何数目或浓度的(相同或不同)条形码,和/或任何数目或浓度的(相同或不同)条形码分子,和/或任何数目或浓度的(相同或不同)条形码序列,和/或任何数目或浓度的(相同或不同)带条形码的寡核苷酸,和/或任何数目或浓度的(相同或不同)多聚条形码试剂,和/或任何数目或浓度的(相同或不同)亲和部分,和/或任何数目或浓度的(相同或不同)带条形码的亲和探针,和/或任何数目或浓度的(相同或不同)的衔接子寡核苷酸,和/或任何数目或浓度的(相同或不同)偶联序列,和/或任何数目或浓度的(相同或不同)富集探针,和/或任何数目或浓度的(相同或不同)引物,和/或任何数目或浓度的(相同或不同)杂交探针,和/或任何数目或浓度的(相同或不同)荧光原位杂交探针可包含在单个分区,或至少第一和第二分区(例如,划分或分割为第一和第二分区)中,或包含在(例如,划分或分割为)任何数目的分区中,例如至少3个分区,至少4个分区,至少5个分区,至少10个分区,至少100个分区,至少1000个分区,至少10,000个分区,至少100,000个分区,至少1,000,000个分区,至少10,000,000个分区,至少100,000,000个分区或至少1,000,000,000个分区。
任选地,在任何方法中,可通过光学测量和/或光学定量的方法来测量和/或分析任何一个或多个靶生物分子。任选地,在任何方法中,可用光学标记和/或荧光标记的亲和探针来测量和/或分析任何一个或多个靶生物分子,其中所述亲和探针对所述靶生物分子具有亲和力和/或特异性。
任选地,任何测量和/或分析生物分子的方法可包含一个或多个直接检测步骤。任选地,任何测量和/或分析生物分子的方法可包含一个或多个间接检测步骤。
为了避免疑问,在本发明和本文的任何方法中,提及任何一个或多个生物分子‘在’循环微米粒子‘中’和/或‘在’循环微米粒子‘内’,和/或‘属于’微米粒子,和/或‘来自’循环微米粒子,和/或‘包含在’循环微米粒子‘中’,和/或‘包含在’循环微米粒子‘内’的任何术语广义上是指所述生物分子完全或部分发现(和/或潜在发现)于所述循环微米粒子的任何形式或位置内(包括完全或部分封闭在膜内,和/或完全或部分在膜的外表面和/或内表面上,和/或完全或部分嵌入膜内)。
任选地,在任何方法中,分析一个或多个靶核酸分子的序列的任何步骤可通过引物延伸反应来进行。任选地,在任何方法中,分析一个或多个靶核酸分子的序列的任何步骤可通过聚合酶链反应(PCR)进行,任选地使用提供特定靶序列(例如特定DNA、RNA或cDNA靶序列)的扩增(且因此提供测量和检测)的引物集。任选地,在任何方法中,分析一个或多个靶核酸分子的序列的任何步骤可通过逆转录反应进行,任选地具有一个或多个后续引物延伸或PCR步骤。
任选地,在任何方法中,分析一个或多个靶核酸分子的序列的任何步骤可通过原位杂交(ISH)方法,例如荧光原位杂交(FISH)方法进行。
本发明的方法可以是确定性的(例如,一个条形码序列可用于识别来自单个微米粒子的序列读段)或概率性的(例如一个条形码序列可用于识别可能来自单个微米粒子的序列读段)。作为另一实例,在所述方法中,分区步骤可旨在实现每个分区平均只有1个循环微米粒子。但是,这是一个固有的统计过程,其不能保证每个分区将仅含有来自单个微米粒子的生物分子;因此,其不能保证对应于来自特定分区的生物分子的连接信号的集合将对应于来自单个微米粒子的生物分子。例如,如果特定分区含有两个不同的微米粒子,则连接信号的集合可对应于所述两个微米粒子。
本发明进一步包含用于分析包含一个或多个循环微米粒子的样品(或两个或更多个此类样品,例如各自包含一个或多个循环微米粒子)的系统和装置。任选地,这样的系统可包含至少一个算法或算法和/或计算机程序的一部分(例如,包含在计算机系统内和/或包含在基于网络或互联网的计算机存储系统内的算法或算法和/或计算机程序的一部分),用于分析从至少一个循环微米粒子的测量得出的连接信号的一个或多个集合(例如,从至少一个循环微米粒子的测量得出的连接序列的一个或多个集合)(例如任何一个或多个算法和/或计算机程序,其被配置成计算任何一个或多个参数值,例如本文所述的任何参数值),和/或至少一个参考序列和/或参考序列的集合(例如包含在计算机系统和/或计算机数据存储系统,例如服务器和/或硬盘内的一个或多个参考序列),和/或至少一个带条形码的寡核苷酸的集合,和/或至少一种多聚条形码试剂和/或其库,和/或至少一个包含一个或多个分区的物理设备(例如一个或多个管,各自包含一个分区;和/或一个或多个包含孔的板,其中每个孔包含分区;和/或一个或多个包含两个或更多个分区的装置,其中每个这样的分区包含液滴,例如包含或能够产生微流体液滴的微流体装置(例如由10X Genomics提供的Chromium系统),或在上面包含一个或多个液滴的平坦表面),和/或至少一种能够将条形码序列附接至靶核酸的酶或酶溶液(例如任何连接酶、聚合酶和/或转座酶),和/或至少一种算法和/或计算机程序,其被配置成向医师和/或其它医护人员和/或患者报告本文中的任何一个或多个分析的结果(例如,基于对来自包含一个或多个循环微米粒子的样品的两个或更多个连接信号的分析进行的任何一种或多种诊断方法和/或诊断测试的结果)。例如,用于分析包含一个或多个循环微米粒子的样品的系统可包含至少一种算法或其一部分,用于分析从至少一个循环微米粒子的测量得出的连接信号的一个或多个集合,和带条形码的寡核苷酸的至少一个集合(配置成附接至包含在循环微米粒子中或由其衍生的靶生物分子),以及至少一个包含一个或多个分区的物理设备;或者,这种系统可包含至少一种算法或其一部分,用于分析从至少一个循环微米粒子的测量得出的连接信号的一个或多个集合,和至少一个多聚条形码试剂的库;或者,这种系统可包含至少一种算法或其一部分,用于分析从至少一个循环微米粒子的测量得出的连接信号的一个或多个集合,和至少一个多聚条形码试剂的库,以及至少一个包含一个或多个分区的物理装置;或者,这种系统可包含至少一种算法或其一部分,用于分析从至少一个循环微米粒子的测量得出的连接信号的一个或多个集合,和带条形码的寡核苷酸的至少一个集合(配置成附接至包含在循环微米粒子中或由其衍生的靶生物分子),和至少一种算法和/或计算机程序,其被配置成报告本文中的任何一个或多个分析的结果。
1.循环微米粒子样品
用于本发明方法的样品可包含至少一个循环微米粒子(即,源自血液(例如人血)的微米粒子)和/或用于本发明方法的样品可衍生自至少一个循环微米粒子。微米粒子可源自母体血液。微米粒子可源自患有疾病(例如癌症)的患者的血液。样品可以是例如血液样品、血浆样品或血清样品。样品可以是哺乳动物样品。优选地,样品是人类样品。
循环微米粒子可以是已在人类和/或其它动物的血液、血浆和/或血清中发现的多种游离微米粒子中的一种或多种(Orozco等人,《细胞测量术A辑(Cytometry Part A)》(2010).77A:502 514,2010)。“游离”是指此类微米粒子不是细胞的事实。相反,微米粒子例如通过分泌或在细胞凋亡后衍生自细胞。这些微米粒子在其起源的组织和细胞中,以及在作为其形成基础的生物物理学方法,以及其各自的尺寸和分子结构和组成中不同。微米粒子可包含一种或多种来自细胞膜的组分(例如掺入磷脂组分)和一种或多种细胞内和/或细胞核组分。微米粒子可选自外泌体、凋亡小体(也称为凋亡囊泡)和/或细胞外微囊泡中的一种或多种。
微米粒子可被定义为含有至少两个靶核酸(例如基因组DNA)片段的膜状囊泡。微米粒子的直径可为100-5000nm。优选地,微米粒子的直径为100-3000纳米。
外泌体是最小的循环微米粒子,直径通常在50至100纳米的范围内,并且被认为来源于完整的活细胞的细胞膜,且含有外部磷脂成分中所含的蛋白质和RNA成分(包括mRNA分子和/或降解的mRNA分子,以及小调节RNA分子,如微小RNA分子)。外泌体被认为是由胞质多泡体的胞吐作用形成的(Gyorgy等人,《细胞与分子生命科学(Cell.Mol.Life Sci.)》(2011)68:2667-2688)。外泌体被认为在细胞-细胞信号传导以及细胞外功能中起不同作用(Kanada等人,《美国国家科学院院刊(PNAS)》(2015)1418401112)。先前已描述用于定量或测序外泌体中发现的微小RNA和/或mRNA分子的技术(例如美国专利申请13/456,121,欧洲申请EP2626433 A1)。
微米粒子还包括凋亡小体(也称为凋亡囊泡)和细胞外微囊泡,其总直径范围可达1微米甚至2至5微米,且通常被认为直径大于100纳米(Lichtenstein等人,《纽约科学院年鉴(Ann N Y Acad Sci.)》(2001);945:239-49)。认为所有类别的循环微米粒子都是由体内大量和多种的细胞产生的(Thierry等人,《癌症和转移评论(Cancer Metastasis Rev)》35(3),347-376.9(2016)/s10555-016-9629-x)。
优选地,微米粒子不是外泌体,例如,微米粒子是直径大于外泌体的任何微米粒子。
用于所述方法的样品可包括包含至少一个循环微米粒子的样品以及衍生自至少一个循环微米粒子的样品。例如,可在包含至少一个完整的循环微米粒子的样品上执行测量信号或测量试剂(例如带条形码的寡核苷酸)的步骤(例如,其中样品或反应混合物在测量信号或测量试剂时包含完整的循环微米粒子)。或者,可在包含衍生自循环微米粒子的生物分子(例如,从循环微米粒子纯化和/或加工和/或分级和/或分离的生物分子)的样品上执行测量信号或测量试剂(例如带条形码的寡核苷酸)的步骤。在测量信号或测量试剂时,样品可能不包含完整的循环微米粒子。
样品可包含至少2、至少3、至少4、至少5、至少7、至少10、至少15、至少20、至少30、至少40、至少50、至少100、至少200、至少500、至少1000、至少5000、至少10,000、至少20,000、至少50,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000或至少100,000,000,000个不同的靶生物分子和/或靶表位。优选地,样品包含至少100个靶生物分子和/或靶表位。
在样品中,核酸(例如基因组DNA)片段的浓度可为小于1.0皮克DNA/微升,小于10皮克DNA/微升,小于100皮克DNA/微升,小于1.0纳克DNA/微升,小于10纳克DNA/微升,小于100纳克DNA/微升,或小于1000纳克DNA/微升。
样品可包含(或衍生自)至少2、至少3、至少4、至少5、至少7、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少50,000、至少100,000、至少1,000,000、至少10,000,000或至少100,000,000个循环微米粒子。优选地,样品包含(或衍生自)至少100个循环微米粒子。
在样品中,微米粒子的浓度可为小于0.001个微米粒子/微升、小于0.01个微米粒子/微升、小于0.1个微米粒子/微升、小于1.0个微米粒子/微升、小于10个微米粒子/微升、小于100个微米粒子/微升、小于1000个微米粒子/微升、小于10,000个微米粒子/微升、小于100,000个微米粒子/微升、小于1,000,000个微米粒子/微升、小于10,000,000个微米粒子/微升或小于100,000,000个微米粒子/微升。
循环微米粒子可包含至少2、至少3、至少4、至少5、至少7、至少10、至少15、至少20、至少30、至少40、至少50、至少100、至少200、至少500、至少1000、至少5000、至少10,000、至少20,000、至少100,000、至少500,000、至少1,000,000或至少10,000,000个不同靶生物分子和/或靶表位。优选地,循环微米粒子包含至少10个靶生物分子和/或靶表位。
在本发明的方法中,可测量和/或分析任何数目的一种或多种不同靶生物分子和/或靶表位。任选地,在任何方法中,可测量和/或分析一组至少2、至少3、至少4、至少5、至少7、至少10、至少15、至少20、至少30、至少40、至少50、至少100、至少200、至少500、至少1000、至少5000、至少10,000或至少20,000个不同靶生物分子和/或靶表位。优选地,测量和/或分析一组至少3个不同靶生物分子和/或靶表位。
在所述方法中,可针对样品内的所有循环微米粒子(或分区)测量和/或分析相同的靶生物分子(和/或靶表位)和/或同一组的2个或更多个靶生物分子(和/或靶表位)。任选地,在任何方法中,可针对样品内的循环微米粒子的子集测量和/或分析特定靶生物分子(和/或靶表位)和/或特定组的2个或更多个靶生物分子(和/或靶表位)。任选地,在任何方法中,循环微米粒子的样品可分为任何数目的两个或更多个子样品,其中可针对每个所述子样品测量和/或分析不同的特定靶生物分子(和/或靶表位),和/或不同特定组的2个或更多个靶生物分子(和/或靶表位)。
任选地,在任何方法中,可测量和/或分析同一生物分子的两个或更多个不同的靶表位。例如,对靶生物分子(例如靶蛋白)内的两个或多个不同表位具有亲和力或特异性的两个或更多个不同的亲和探针(例如两个或更多个不同的抗体)可用于测量或分析所述靶生物分子。
生物分子(在本文中也称为靶生物分子)可以是存在于循环微米粒子中或衍生自循环微米粒子的化学或分子物质。生物分子可以是大分子。生物分子可以是大分子。生物分子可以是多肽(例如蛋白质)、碳水化合物分子、脂质分子或核酸分子。生物分子可以是代谢物。优选地,生物分子是人类生物分子。
靶生物分子可具有预定的(或预定义的)序列,例如靶多肽可具有预定的(或预定义的)氨基酸序列或表位。类似地,靶核酸的片段可具有预定的(或预定义的)核苷酸序列。所述方法可包含使用靶标特异性试剂,例如带条形码的亲和探针或亲和探针来测量与预定的(或预定义的)序列或表位的存在、不存在和/或水平对应的信号。
生物分子可为核酸生物分子或非核酸生物分子。
如本文所用,术语“多肽”包括通过肽键、肽和蛋白质,例如翻译后修饰的蛋白质,例如糖蛋白连接的至少两个氨基酸单体的链。一个或多个生物分子可为一种或多种蛋白质同工型。
生物分子可包含存在于循环微米粒子中或衍生自循环微米粒子的抗原的表位。例如,表位可为多肽或蛋白质的表位。生物分子可包含特异性表位,例如特异性蛋白质表位和/或通过蛋白质的翻译后修饰(例如赖氨酸甲基化修饰)产生的特异性表位。生物分子可包含特异性核酸表位,例如特异性核酸修饰(例如5-甲基胞嘧啶DNA表位和/或5-羟甲基胞嘧啶DNA表位)。生物分子可包含被一个或多个亲和探针(例如,带条形码的亲和探针)识别的特异性表位,例如被抗体识别的特异性表位。
生物分子可包含并非核酸表位的表位。生物分子可能不是5-甲基胞嘧啶DNA分子(即生物分子可能是并非5-甲基胞嘧啶DNA表位的表位)和/或生物分子可能不是5-羟甲基胞嘧啶DNA分子(即生物分子可能是并非5-羟甲基胞嘧啶DNA表位的表位)。
所述生物分子可以是DNA结合蛋白。任选地,生物分子不是DNA结合蛋白。
生物分子可以是组蛋白(例如组蛋白H1、组蛋白H2A、组蛋白H2B、组蛋白H3和/或组蛋白H4和/或任何组蛋白变体)。组蛋白可以是翻译后修饰的组蛋白(例如组蛋白H3赖氨酸4三甲基化、组蛋白H3赖氨酸27三甲基化和/或任何组蛋白乙酰化修饰)。任选地,生物分子不是组蛋白。
生物分子可以是染色质蛋白。任选地,生物分子不是染色质蛋白。
生物分子可以是膜蛋白或多肽。任选地,生物分子不是膜蛋白或多肽。生物分子可以是与DNA免疫沉淀的多肽或蛋白质。任选地,生物分子不是与DNA免疫沉淀的多肽或蛋白质。
生物分子可以是结合DNA的生物分子。任选地,生物分子不是结合DNA的生物分子。生物分子可以是膜生物分子或膜相关生物分子。任选地,生物分子不是膜生物分子或膜相关生物分子。生物分子可以是与DNA免疫沉淀的生物分子。任选地,生物分子不是与DNA免疫沉淀的生物分子。
生物分子可完全或部分包含在循环微米粒子的膜(如循环微米粒子的脂质双层膜)的内表面和/或外表面上。生物分子可完全或部分封闭在循环微米粒子的膜内(例如封闭在循环微米粒子的脂质双层内)。生物分子可包含在循环微米粒子的膜内和/或跨膜和/或其任何组合。生物分子可完全或部分包埋在循环微米粒子的膜内(例如完全或部分包埋在循环微米粒子的脂质双层膜内)。
生物分子可衍生自循环微米粒子的内表面和/或外表面上,和/或衍生自循环微米粒子内(例如衍生自循环微米粒子的膜内),和/或衍生自循环微米粒子的膜内和/或跨膜,和/或其任何组合。
生物分子可为DNA(例如双股DNA(dsDNA)或单股DNA(ssDNA))、RNA(例如双股RNA(dsRNA)或单股RNA(ssRNA))或其片段。生物分子可为基因组DNA或RNA(例如mRNA)或其片段。
一个或多个生物分子(或靶生物分子)可为选自(或编码)生物分子组1的DNA片段、RNA片段和/或多肽,其包含:
●癌症和/或癌症侵袭性的基于血浆的蛋白质标记,包括前列腺特异性抗原(PSA)和CA-125;
●细胞表面和免疫细胞型标记,包括CD3、CD4、CD8、CD19、CD20、CD20、CD41、CD45、CD61、CD62、CD146、CD235a和CD326;
●涉及瘤形成和恶性转化的基因和蛋白质,以及用作评估癌细胞类型和亚型的免疫细胞化学标记的基因,包括抗原KI-67(Ki-67)、NK2同源盒1(TTF-1)、B细胞淋巴瘤2(BCL2)、BRAF、C-kit/CD117、c-Myc、c-Raf、Ras、存活素、血管内皮生长因子受体(VEGFR)、肿瘤相关糖蛋白72(TAG-72)、表皮生长因子受体(EGFR)、雌激素受体、程序性死亡配体1(PD-L1)、细胞周期蛋白B1、上皮细胞粘附分子(EpCAM)、HER2/Neu、孕酮受体、K-ras、NRAS、β-2微球蛋白(B2M)、降钙素、CA19-9、CA15-3/CA27.29、嗜铬粒蛋白A(CgA)、神经元特异性烯醇酶、乳酸脱氢酶、甲状腺球蛋白、紧密连接蛋白-1(CLDN1)、HE4、血小板源性生长因子受体(PDGF-R)、核基质蛋白22、细胞角蛋白8(CK-8)、细胞角蛋白18(CK-18)、细胞角蛋白片段21-1和OVX1;
●与妊娠相关的标记(即,血浆蛋白标记)(例如胎儿标记或胎盘标记)或与妊娠并发症相关的标记,包括α-胎蛋白(AFP)、β-人绒毛膜促性腺激素(β-nCG)和Toll样受体4(TLR4);
●与循环脂蛋白颗粒和/或血管内斑块相关的蛋白质,包括膜联蛋白V、载脂蛋白A1(Apo A-1)、纤维蛋白溶酶原活化物抑制剂(PAI-1)、CD31、CD144和尿激酶纤维蛋白溶酶原活化剂(uPA);
●与血管内斑块相关(和/或在其中差异表达)的微小RNA分子(miRNA),包括miR-1、miR-19b、miR-21、miR-22、miR-29b、miR-92a、miR-99a、miR-100、miR-126、miR-127、miR-133a、miR-133b、miR-143、miR-145、miR-199a、miR-210和let-7f;
●淋巴细胞和/或其它免疫细胞的标记,包括LY6G6D和免疫球蛋白;和
●以及其它靶生物分子,包括甲状腺素转运蛋白、C-反应蛋白(CRP)和肌钙蛋白。
上文提供的生物分子(或靶生物分子)在本文中统称为“生物分子组1”。
此类DNA片段可包括一个或多个蛋白质编码基因的DNA序列(例如,基因组序列、外显子区域序列、内含子区域序列、启动子区域序列和/或终止子区域序列)的全部或部分。此类RNA片段可包括一个或多个蛋白质编码基因的RNA序列(例如,外显子RNA序列、内含子RNA序列、5′非翻译区序列和/或3′非翻译区序列)的全部或部分。此类多肽可包括一种或多种蛋白质的全部或部分。此类多肽可包括所述多肽的一种或多种翻译后修饰形式(例如,其中所述多肽在任何一个或多个氨基酸残基处被乙酰化或甲基化)。优选地,生物分子是人类生物分子(例如人类Ki-67)。
生物分子可包含表观遗传修饰。表观遗传修饰可包含修饰的核苷酸,例如修饰的gDNA核苷酸或修饰的RNA核苷酸。修饰的核苷酸可包含修饰的碱基。修饰的碱基可以是甲基化的碱基,例如5-甲基胞嘧啶或5-羟甲基胞嘧啶。生物分子(例如靶核酸(例如基因组DNA)的片段)可包含5-甲基胞嘧啶(即,可包含5-甲基胞嘧啶DNA和/或可包含5-甲基胞嘧啶DNA核苷酸)。生物分子(如靶核酸(例如基因组DNA)的片段)可包含5-羟甲基胞嘧啶(即,可包含5-羟甲基胞嘧啶DNA和/或可包含5-羟甲基胞嘧啶DNA核苷酸)。表观遗传修饰可包含蛋白质的翻译后修饰。翻译后修饰可以是甲基化、磷酸化、乙酰化、泛素化和/或苏素化(sumoylation)。翻译后修饰的多肽可以是组蛋白。例如,翻译后修饰的组蛋白(例如,组蛋白H3赖氨酸4三甲基化、组蛋白H3赖氨酸27三甲基化和/或任何组蛋白乙酰化修饰)。
生物分子可包含外源性给予的分子,例如外源性给予的多肽(例如外源性给予的抗体),和/或外源性给予的核酸(例如外源性给予的寡核苷酸,例如外源性给予的条形码序列,例如带条形码的寡核苷酸)。
生物分子可包含带条形码的亲和探针的带条形码的寡核苷酸(或其条形码序列)。
循环微米粒子的至少两个生物分子可以是靶核酸的片段(例如片段化基因组DNA的分子)。这些片段化基因组DNA分子和/或包含在这些片段化基因组DNA分子内的序列可通过本文所述的任何方法连接。
靶核酸的片段可以是DNA的片段(例如,片段化基因组DNA的分子)或RNA的片段(例如,mRNA的片段)。优选地,靶核酸的片段是基因组DNA的片段。
DNA的片段可以是线粒体DNA的片段。DNA的片段可以是来自母体细胞或组织的线粒体DNA的片段。DNA的片段可以是来自胎儿或胎盘组织的线粒体DNA的片段。DNA的片段可以是来自患病和/或癌症组织的线粒体DNA的片段。
微米粒子可包含血小板。微米粒子可包含肿瘤培养的血小板。靶核酸可包含血小板RNA(例如,血小板RNA的片段和/或肿瘤培养的血小板RNA的片段)。包含一个或多个血小板的样品可包含富血小板血浆(例如,包含肿瘤培养的血小板的富血小板血浆)。
靶核酸的片段可包含双股或单股核酸。基因组DNA的片段可包含双股DNA或单股DNA。靶核酸的片段可包含部分双股核酸。基因组DNA的片段可包含部分双股DNA。
靶核酸的片段可以是源自单个核酸分子的片段,或源自两个或更多个核酸分子的片段。例如,基因组DNA的片段可源自单个基因组DNA分子。
如本领域技术人员将理解的,如本文所用,术语靶核酸的片段是指存在于微米粒子中的原始片段以及其拷贝或扩增子。例如,术语gDNA片段是指存在于微米粒子中的原始gDNA片段,并且例如是指可通过引物延伸反应从原始基因组DNA片段制备的DNA分子。作为另一个实例,术语mRNA片段是指存在于微米粒子中的原始mRNA片段,并且例如是指可通过逆转录从原始mRNA片段制备的cDNA分子。
靶核酸(例如基因组DNA)的片段可以是至少10个核苷酸,至少15个核苷酸,至少20个核苷酸,至少25个核苷酸或至少50个核苷酸。靶核酸(例如基因组DNA)的片段可以是15至100,000个核苷酸,20至50,000个核苷酸,25至25,000个核苷酸,30至10,000个核苷酸,35至5,000个核苷酸,40至1000个核苷酸或50至500个核苷酸。靶核酸(例如基因组DNA)的片段的长度可为20至200个核苷酸,长度为100至200个核苷酸,长度为200至1000个核苷酸,长度为50至250个核苷酸,长度为1000至10,000个核苷酸,长度为10,000至100,000个核苷酸,或长度为50至100,000个核苷酸。优选地,片段化基因组DNA的分子的长度为50至500个核苷酸。
任选地,任何分析包含一个或多个循环微米粒子的样品(和/或衍生自一个或多个循环微米粒子的样品)的方法可包含组合测量(例如,测量存在、不存在和/或水平),其包含测量任何两种或更多种不同生物分子(例如任何两种或更多种不同靶生物分子)的任何组合。例如,任何此类方法可包含测量基因组DNA的连接片段(例如通过条形码和/或测序),任选地,其中基因组DNA的连接片段的测量进一步包含测量和/或估计所述基因组DNA的片段的基因组或核苷酸序列长度,并且任选地,其中基因组DNA连接片段的测量进一步包含测量和/或估计基因组DNA的连接片段的3′端和/或5′端的基因坐标(或基因组位置),以及一种或多种修饰的核苷酸或核碱基(例如测量5-甲基胞嘧啶,和测量5-羟甲基胞嘧啶),以及测量一种或多种多肽生物分子(例如测量来自生物分子组1的任何一种或多种生物分子)。任选地,任何此类组合测量可(进一步)包含测量一种或多种关于癌症和/或癌症侵袭性的基于血浆的蛋白质标记,以及一种或多种细胞表面或免疫细胞型标记,以及一种或多种参与瘤形成和恶性转化的蛋白质或用于评估癌细胞类型和细胞类型的免疫细胞化学标记,以及与妊娠相关或与妊娠并发症相关的一种或多种标记,以及与循环脂蛋白颗粒和/或血管内斑块相关的一种或多种蛋白质,以及一种或多种微小RNA分子(例如生物分子组1内所含的列表中提供的任何此类标记)。例如,组合测量可包含测量基因组DNA的连接片段,任选地,其中基因组DNA的连接片段的测量进一步包含测量和/或估计所述基因组DNA的片段的基因组或核苷酸序列长度,并且任选地,其中基因组DNA的连接片段的测量进一步包含测量和/或估计基因组DNA的连接片段的3′端和/或5′端的基因坐标(或基因组位置),以及测量一种或多种修饰的核苷酸或核碱基(例如,测量5-甲基胞嘧啶,和测量5-羟甲基胞嘧啶),以及测量PSA,和CA-125,和CD4,和CD8,和Ki-67,和BCL2,和EGFR;任选地,此类组合测量可进一步包含测量TTF-1和/或Ras和/或c-Myc和/或PD-L1和/或雌激素受体和/或细胞周期蛋白B1。
任选地,任何组合测量可包含对来自单个个体(例如,单个患者)的两个或更多个样品的单独的这种组合测量,其中所述两个或更多个样品是从同一个体获取/制成的,但相隔一个或多个持续时间(例如至少1个月、至少3个月、至少6个月、至少12个月、至少18个月、至少2年、至少3年、至少4年、至少5年和/或至少10年,和/或任何其它持续时间)。例如,特定的组合测量(本文中描述的任何种类)可对从个体获取的第一样品执行,并且在稍后的时间段单独对从所述个体获取的第二样品执行。可如此分析来自个体的任何数目的此类顺序(时间上分开的)样品,例如至少3、至少4、至少5、至少6、至少8、至少10、至少15、至少20、至少25或至少30个,或任何更大或类似数目的顺序样品。
2.分离循环微米粒子的样品
先前已描述了用于分离循环微米粒子(和/或循环微米粒子的特定子集、类别或部分)的大量方法。欧洲专利ES2540255(B1)和美国专利9005888B2描述了基于离心程序来分离特定循环微米粒子(例如凋亡小体)的方法。先前已充分描述和开发了通过离心、超速离心和其它技术来分离不同类型的游离微米粒子的大量方法(Gyorgy等人,《细胞与分子生命科学》(2011)68:2667-2688)。
所述方法可进一步包含从血液、血浆或血清中分离包含一个或多个循环微米粒子的样品。可从血液、血浆或血清中分离出微米粒子。方法可进一步包含从血液、血浆或血清中分离微米粒子的步骤。
可通过离心、尺寸排阻色谱和/或过滤来分离微米粒子。
分离步骤可包含离心。可通过以离心步骤和/或超速离心步骤,或以两种或更多种不同的速度的一系列的两个或更多个离心步骤和/或超速离心步骤进行沉淀来分离微米粒子,其中来自一个离心/超速离心步骤的沉淀和/或上清液在第二个离心/超速离心步骤和/或差速离心过程中进一步处理。
离心或超速离心步骤可以100-500,000G、100-1000G、1000-10,000G、10,000-100,000G、500-100,000G或100,000-500,000G的速度进行。可在至少5秒、至少10秒、至少30秒、至少60秒、至少5分钟、至少10分钟、至少30分钟、至少60分钟或至少3小时的持续时间内执行离心或超速离心步骤。
分离步骤可包含尺寸排阻色谱,例如基于柱的尺寸排阻色谱法,例如包括包含基于琼脂糖的基质或基于丙烯葡聚糖凝胶(sephacryl)的基质的柱的色谱法。
尺寸排阻色谱可包含使用基质或过滤器,其使用尺寸或直径为至少50纳米、至少100纳米、至少200纳米、至少500纳米、至少1.0微米、至少2.0微米或至少5.0微米的孔径。
分离步骤可包含过滤样品。滤液可提供在方法中分析的微米粒子。任选地,过滤器用于分离低于某一尺寸的微米粒子,且其中过滤器优先或完全去除尺寸大于100纳米、尺寸大于200纳米、尺寸大于300纳米、尺寸大于500纳米、尺寸大于1.0微米、尺寸大于2.0微米、尺寸大于3.0微米、尺寸大于5.0微米或尺寸大于10.0微米的颗粒。任选地,可以使用具有相同尺寸过滤参数或具有不同尺寸过滤参数的过滤器来执行两个或更多个此类过滤步骤。任选地,一个或多个过滤步骤的滤液包含微米粒子,并由此产生连接序列读段。
3.制备用于分析的循环微米粒子样品
在所述方法中,可在循环微米粒子完整时测量和/或分析任何一个或多个靶生物分子。任选地,可在循环微米粒子不完整时(即,在从循环微米粒子中释放出一个或多个生物分子之后)测量和/或分析任何一个或多个靶生物分子。
包含一个或多个循环微米粒子的样品可以被化学交联(例如,用甲醛)。包含一个或多个循环微米粒子的样品可以被透化(例如,用化学表面活性剂)。包含一个或多个循环微米粒子的样品可以被化学交联(例如,用甲醛)。化学交联和/或透化步骤可在测量和/或分析一个或多个循环微米粒子的靶生物分子之前进行。
交联步骤可以用化学交联剂,例如甲醛、多聚甲醛、戊二醛、戊二酸二丁二酰亚胺酯、乙二醇双(丁二酸丁二酰亚胺酯)、同双官能交联剂或异双官能交联剂进行。任何此类交联步骤可进一步通过淬灭步骤结束,例如通过与甘氨酸溶液混合来淬灭甲醛交联步骤。可以在方案的特定后续步骤之前(例如在引物延伸、PCR或核酸纯化步骤之前)去除任何此类交联。通过化学交联剂进行交联的步骤的目的是使每个微米粒子内的生物分子(例如基因组DNA和/或多肽的片段)保持彼此在物理上接近,从而可在保持微米粒子的基本结构性质的同时(即,在使基因组DNA片段和/或衍生自相同微米粒子的多肽保持在物理上接近的同时)对样品进行操作和处理。
可用培育步骤使微米粒子透化。可在化学表面活性剂(例如Triton X-100(C14H22O(C2H4O)n(n=9-10))、NP-40、Tween 20、Tween 80、皂苷、毛地黄皂苷或十二烷基硫酸钠)存在下执行培育步骤。可在至少20摄氏度、至少30摄氏度、至少37摄氏度、至少45摄氏度、至少50摄氏度、至少60摄氏度、至少65摄氏度、至少70摄氏度或至少80摄氏度的温度下执行培育步骤。培育步骤可为至少1秒长,至少5秒长,至少10秒长,至少30秒长,至少1分钟长,至少5分钟长,至少10分钟长,至少30分钟长,至少60分钟长或至少3小时长。
在将本文所述的任何一种或多种试剂(例如,带条形码的寡核苷酸、多聚条形码试剂、亲和探针、带条形码的亲和探针等)转移到一个或多个微米粒子中的步骤之后,可测量和/或分析任何一个或多个靶生物分子。所述方法可包含将本文所述的任何一种或多种试剂(例如,带条形码的寡核苷酸、多聚条形码试剂、亲和探针、带条形码的亲和探针等)转移到一个或多个循环微米粒子中的步骤。
在所述方法中,本文所述的任何一种或多种试剂可通过与转染试剂或脂质载体(例如脂质体或胶束)复合而转移至一个或多个循环微米粒子中。转染试剂可以是脂质转染试剂,例如阳离子脂质转染试剂。任选地,所述阳离子脂质转染试剂包含至少两个烷基链。任选地,所述阳离子脂质转染试剂可以是可商购的阳离子脂质转染试剂,例如脂染胺。
在所述方法中,用于分析第一循环微米粒子的试剂可包含在第一脂质载体中,且用于分析第二循环微米粒子的试剂可包含在第二脂质载体中。脂质载体可以是脂质体或胶束。
在转移步骤之前,所述方法可包含使微米粒子中的生物分子(例如基因组DNA和/或靶多肽的片段)交联的步骤。在转移步骤之前,以及任选地在交联步骤之后,所述方法可进一步包含使微米粒子透化的步骤。
在从一个或多个循环微米粒子中释放靶生物分子的步骤之后,可测量和/或分析任何一个或多个靶生物分子。可通过溶解、透化和/或裂解循环微米粒子的步骤从循环微米粒子中释放一个或多个靶生物分子。本发明的方法可包含从一个或多个循环微米粒子释放靶生物分子(例如通过溶解、透化和/或裂解一个或多个循环微米粒子)。此释放步骤可通过高温培育步骤,和/或通过与分子溶剂或化学表面活性剂一起培育来进行。
在从一个或多个循环微米粒子中纯化和/或分离和/或处理任何一个或多个靶生物分子的步骤之后,可测量和/或分析任何一个或多个靶生物分子。本发明的方法可包含在分析所述样品的任何步骤之前,和/或期间,和/或之后处理、纯化、分级和/或分离所述循环微米粒子的任何或所有靶生物分子和/或其它成分的一个或多个步骤。所述方法可包含纯化和/或分离核酸(例如DNA分子和/或RNA分子)的步骤。所述方法可包含纯化和/或分离多肽(例如蛋白质和/或翻译后修饰的蛋白质)的步骤。
可在将任何一个或多个所述靶生物分子和/或靶核酸分子结合和/或附接至载体,例如固体载体,和/或半固体载体和/或凝胶载体的步骤之后测量和/或分析任何一个或多个靶生物分子。
所述方法可包含将一个或多个分子(例如任何一个或多个核酸分子,例如DNA分子和/或RNA分子,和/或任何多肽分子,例如蛋白质或翻译后修饰的蛋白质)附接至载体的步骤。包含一个或多个循环微米粒子的样品的任何数目或分数的此类分子可附接至一个或多个载体;任选地,至少0.01%、至少0.1%、至少1%、至少10%、至少50%或100%的此类分子可附接至一个或多个载体。
任何一个或多个此类分子可连接至任何形式的载体(例如大分子、固体载体或半固体载体或树枝状聚合物)。任何载体可为珠粒(例如凝胶珠粒、琼脂糖珠粒、二氧化硅珠粒、聚苯乙烯泡沫珠粒、凝胶珠粒(例如可从10x购得的那些)、抗体结合珠粒、oligo-dT结合珠粒、抗生蛋白链菌素珠粒或磁性珠粒(例如超顺磁珠粒)。任何珠粒可具有任何尺寸和/或分子结构(例如直径为10纳米至100微米、直径为100纳米至10微米或直径为1微米至5微米)。分子可直接或间接(例如经由连接分子)连接至载体。分子可通过结合到载体和/或通过结合或粘接到与载体结合的连接分子而连接。分子可通过共价键、非共价键(例如蛋白质-蛋白质相互作用或抗生蛋白链菌素-生物素键)或核酸杂交与载体(或与连接分子)结合。连接分子可为生物聚合物(例如核酸分子)或合成聚合物。连接分子可包含一个或多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。连接分子可包含一个或多个乙基,如C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。任何载体可经官能化以使得能够连接两个或更多个分子。可通过添加化学部分(例如羧化基团、炔烃、叠氮基、丙烯酸酯基、氨基、硫酸酯基或丁二酰亚胺基)和/或基于蛋白质的部分(例如抗生蛋白链菌素、抗生物素蛋白或蛋白G)来实现这种官能化。
分子可以通过与大分子结合和/或通过与大分子粘接而通过大分子连接。大分子可以是包含两个或更多个各自能够结合至条形码分子的核苷酸的核酸。另外或替代地,核酸可包含两个或更多个各自能够与条形码分子杂交的区域。大分子可以是合成聚合物(例如树枝状聚合物)或生物聚合物,例如核酸(例如单股核酸,例如单股DNA)、肽、多肽或蛋白质(例如多聚蛋白质)。树枝状聚合物可包含至少2、至少3、至少5或至少10代。
所述方法可包含通过以下方法将一个或多个循环微米粒子附接至载体,所述方法包含:(a)通过任何方法将包含一个或多个生物素部分的偶联分子附接至靶分子(例如靶核酸分子或靶多肽分子),和/或将生物素结合的亲和探针附接至靶分子,以产生生物素结合的靶分子,以及(b)将所述生物素结合的靶分子附接至一个或多个抗生蛋白链菌素结合的载体(例如一个或多个抗生蛋白链菌素结合的珠粒)。任选地,在步骤(b)之前和/或期间,将所述生物素结合的靶分子划分为两个或更多个分区。
在将样品划分为两个或更多个分区的步骤之后,可测量和/或分析任何一个或多个靶生物分子。所述方法可包含将样品划分为两个或更多个分区。任选地,每个分区可包含一个或多个载体,其中来自被分至每个分区中的微米粒子的分子分别附接至相同分隔物内所包含的载体。任选地,可通过这种方法附接包含任何数目的微米粒子(例如至少1000个微米粒子,至少1,000,000个微米粒子,或至少100,000,000个微米粒子)的样品。任选地,可将任何数目和/或平均数目的微米粒子划分至每个分区中(例如,可将平均小于100、小于10、小于1、小于0.5、小于0.2、小于0.1、小于0.05、小于0.01、小于0.001、小于0.0001、小于0.00001或小于0.000001个微米粒子划分至每个分区中)。每个分区可含有或平均含有任何数目的载体,例如平均0.1个载体,平均0.5个载体,平均1个载体,平均2个载体,平均5个载体,平均10个载体,或平均100个载体。任选地,在将来自包含两个或更多个循环微米粒子的样品的分子附接至分区内的载体的任何方法之后,可将包含在任何部分和/或所有分区内的全部或任何部分的溶液合并在一起以形成单个解除分区的附接有载体的反应混合物,其中所述解除分区的附接有载体的反应混合物包含已如此附接了来自样品的分子的载体。任选地,所述解除分区的附接有载体的反应混合物可接着用于分析包含两个或更多个循环微米粒子的样品的任何方法,例如任何测量基因组DNA的片段的方法,任何测量修饰的核苷酸或核碱基的方法,和/或任何测量一个或多个靶多肽的方法。任选地,附接至解除分区的附接有载体的反应混合物内的载体的两个或更多个靶分子(例如,来自同一循环微米粒子的两个或更多个分子,例如两个或更多个基因组DNA的片段,和/或两个或更多个与带条形码的亲和探针结合的多肽)可附接至同一条形码序列或一组条形码序列中的不同条形码序列,以连接所述两个或更多个靶分子。任选地,附接条形码序列的任何所述方法可包含将来自多聚条形码试剂的两个或更多个带条形码的寡核苷酸附接至两个或更多个靶分子,所述两个或更多个靶分子附接至解除分区的附接有载体的反应混合物内的相同载体。任选地,附接条形码序列的任何所述方法可包含使解除分区的附接有载体的反应混合物与至少2、至少100、至少1000、至少10,000、至少1,000,000、至少10,000,000或至少1,000,000,000种多聚条形码试剂接触,且将包含在所述多聚条形码试剂内的带条形码的寡核苷酸附接至靶分子,所述靶分子已附接至所述解除分区的附接有载体的反应混合物内的载体。任何一种或多种解除分区的附接有载体的反应混合物可包含衍生自一个或多个循环微米粒子的样品,以用于本文所述的任何一种或多种方法。任选地,对于任何此类方法,可使用任何数目的分区(例如至少10、至少1000、至少1,000,000个或至少1,000,000,000个分区)、任何类型的分区(例如反应管,或水性液滴,或乳液内的水性液滴)和/或任何体积的分区(例如小于或大于100飞升,小于或大于1.0、10.0或100.0皮升,小于或大于1.0、10.0或100.0纳升,或小于或大于1.0、10.0或100.0微升),例如本文和/或内容以引用的方式并入本文中的PCT/GB2017/053820中所述的任何分区数目、类型或体积。
4.通过条形码连接
本发明提供了一种制备用于测序的样品的方法,其中所述样品包含循环微米粒子(或源自血液的微米粒子),其中所述微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含将微米粒子的靶核酸的至少两个片段附接至条形码序列或条形码序列集合中的不同条形码序列,以产生靶核酸的连接片段集。
本发明提供了一种制备用于测序的样品的方法,其中所述样品包含循环微米粒子,其中所述循环微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含将循环微米粒子的靶核酸的至少两个片段附接至条形码序列,或附接至条形码序列集合中的不同条形码序列,以产生靶核酸的连接片段集。
在将微米粒子的靶核酸的至少两个片段附接至条形码序列或附接至条形码序列集合中的不同条形码序列的步骤之前,所述方法可包含将偶联序列附接至微米粒子的靶核酸(例如基因组DNA)的每个片段,其中接着将偶联序列附接至条形码序列或附接至条形码序列集合中的不同条形码序列,以产生靶核酸的连接片段集。
在所述方法中,样品可包含源自血液的第一和第二微米粒子,其中每个微米粒子包含靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法可包含将第一微米粒子的靶核酸的至少两个片段附接至第一条形码序列或附接至第一条形码序列集合中的不同条形码序列,以产生靶核酸的第一连接片段集,且将第二微米粒子的靶核酸的至少两个片段附接至第二条形码序列或附接至第二条形码序列集合中的不同条形码序列,以产生靶核酸的第二连接片段集。
第一条形码序列可不同于第二条形码序列。第一条形码序列集合中的条形码序列可不同于第二条形码序列集合中的条形码序列。
在所述方法中,样品可包含n个源自血液的微米粒子,其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含执行步骤(a)以产生靶核酸的n个连接片段集,n个微米粒子中的每一个产生一个集。
在所述方法中,n可为至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000或至少100,000,000,000。优选地,n为至少100,000个微米粒子。
优选地,每个连接序列读段集(即,连接信号集)通过不同的条形码序列或不同的条形码序列集合连接。条形码序列集合中的每个条形码序列可与库中的至少1、至少4、至少9、至少49、至少99、至少999、至少9,999、至少99,999、至少999,999、至少9,999,999、至少99,999,999、至少999,999,999、至少9,999,999,999、至少99,999,999,999或至少999,999,999,999个其它条形码序列集合中的条形码序列不同。条形码序列集合中的每个条形码序列可与库中的所有其它条形码序列集合中的条形码序列不同。优选地,条形码序列中的每个条形码序列与库中的至少9个其它条形码序列集合中的条形码序列不同。
本发明提供了一种分析样品的方法,所述样品包含源自血液的微米粒子,其中微米粒子含有靶核酸的至少两个片段,且其中方法包含:(a)制备用于测序的样品,其包含将微米粒子的靶核酸(例如基因组DNA)的至少两个片段附接至条形码序列,以产生靶核酸的连接片段集;和(b)对所述集中的每个连接片段进行测序以产生至少两个连接序列读段,其中所述至少两个连接序列读段通过条形码序列连接。
条形码序列可含有独特序列。每个条形码序列可包含至少5、至少10、至少15、至少20、至少25、至少50或至少100个核苷酸。优选地,每个条形码序列包含至少5个核苷酸。优选地,每个条形码序列包含脱氧核糖核苷酸,任选地,条形码序列中的所有核苷酸都是脱氧核糖核苷酸。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。条形码序列可包含一个或多个简并核苷酸或序列。条形码序列可不包含任何简并核苷酸或序列。
在所述方法中,在将微米粒子的靶核酸的至少两个片段附接至条形码序列的步骤之前,所述方法可包含将偶联序列附接至微米粒子的核酸的每个片段,其中然后将偶联序列附接至条形码序列以产生连接片段集。
在所述方法中,样品可包含源自血液的第一和第二微米粒子,其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含执行步骤(a)以对于第一微米粒子产生靶核酸的第一连接片段集且对于第二微米粒子产生靶核酸的第二连接片段集,以及执行步骤(b)以对于第一微米粒子产生第一连接序列读段集(即,连接信号集)且对于第二微米粒子产生第二连接序列读段集(即连接信号集),其中第一微米粒子的至少两个连接序列读段通过不同的条形码序列连接至第二微米粒子的至少两个连接序列读段。
第一连接片段集可通过不同的条形码序列连接至第二连接片段集。
在所述方法中,样品可包含n个源自血液的微米粒子,其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含执行步骤(a)以产生靶核酸的n个连接片段集,n个微米粒子中的每一个产生一个集,以及执行步骤(b)以产生n个连接序列读段集(即,连接信号集),n个微米粒子中的每一个产生一个集。
在所述方法中,n可为至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000或至少100,000,000,000。优选地,n为至少100,000个微米粒子。
优选地,每个连接序列读段集(即,连接信号集)通过不同的条形码序列连接。
在所述方法中,可将不同的条形码序列提供为条形码序列的库。所述方法中所用的库可包含至少2、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000、至少100,000,000,000或至少1,000,000,000,000个不同的条形码序列。优选地,所述方法中所用的库包含至少1,000,000个不同的条形码序列。
在所述方法中,库中的每个条形码序列仅可附接至单个微米粒子的片段。
所述方法可以是确定性的,即一个条形码序列可用于识别来自单个微米粒子的序列读段,或者可以是概率性的,即一个条形码序列可用于识别可能来自单个微米粒子的序列读段。在某些实施例中,一个条形码序列可附接至来自两个或更多个微米粒子的基因组DNA的片段。
所述方法可包含:(a)制备用于测序的样品,其包含将微米粒子的靶核酸(例如基因组DNA)的至少两个片段中的每一个附接至条形码序列集合中的不同条形码序列,以产生靶核酸的连接片段集;和(b)对所述集中的每个连接片段进行测序以产生至少两个连接序列读段,其中所述至少两个连接序列读段通过条形码序列集合连接。
在所述方法中,在将微米粒子的靶核酸的至少两个片段中的每一个附接至不同条形码序列的步骤之前,所述方法可包含将偶联序列附接至微米粒子的靶核酸的每个片段,其中微米粒子的靶核酸的至少两个片段中的每一个通过其偶联序列附接至条形码序列集合中的不同条形码序列。
在所述方法中,样品可包含源自血液的第一和第二微米粒子,其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法可包含执行步骤(a)以对于第一微米粒子产生靶核酸的第一连接片段集且对于第二微米粒子产生靶核酸的第二连接片段集,以及执行步骤(b)以对于第一微米粒子产生第一连接序列读段集(即,连接信号集)且对于第二微米粒子产生第二连接序列读段集(即连接信号集),其中第一连接序列读段集通过不同的条形码序列集合连接至第二连接序列读段集。
在所述方法中,样品可包含n个源自血液的微米粒子,其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法可包含执行步骤(a)以产生靶核酸的n个连接片段集,n个微米粒子中的每一个产生一个集,以及执行步骤(b)以产生n个连接序列读段集(即,连接信号集),n个微米粒子中的每一个产生一个集。
在所述方法中,n可为至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000或至少100,000,000,000。优选地,n为至少100,000个微米粒子。
优选地,每个连接序列读段集(即,连接信号集)通过不同的条形码序列集合连接。
在所述方法中,可将不同的条形码序列集合提供为条形码序列集合的库。所述方法中所用的库可包含至少2、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000、至少100,000,000,000或至少1,000,000,000,000个不同的条形码序列集合。优选地,所述方法中所用的库包含至少1,000,000个不同的条形码序列集合。
条形码序列集合中的每个条形码序列可与库中的至少1、至少4、至少9、至少49、至少99、至少999、至少9,999、至少99,999、至少999,999、至少9,999,999、至少99,999,999、至少999,999,999、至少9,999,999,999、至少99,999,999,999或至少999,999,999,999个其它条形码序列集合中的条形码序列不同。条形码序列集合中的每个条形码序列可与库中的所有其它条形码序列集合中的条形码序列不同。优选地,条形码序列中的每个条形码序列与库中的至少9个其它条形码序列集合中的条形码序列不同。
在所述方法中,来自库的一个条形码序列集合的条形码序列可仅附接至来自单个微米粒子的片段。
所述方法可以是确定性的,即一个条形码序列集合可用于识别来自单个微米粒子的序列读段,或者可以是概率性的,即一个条形码序列集合可用于识别可能来自单个微米粒子的序列读段。
所述方法可包含制备用于测序的第一和第二样品,其中每个样品包含至少一个源自血液的微米粒子,其中每个微米粒子包含靶核酸(例如基因组DNA)的至少两个片段,且其中条形码序列各自包含样品标识符区域,且其中方法包含:(i)对每个样品执行步骤(a),其中附接至来自第一样品的靶核酸片段的条形码序列具有与附接至来自第二样品的靶核酸片段的条形码序列不同的样品标识符区域;(ii)对每个样品执行步骤(b),其中每个连接序列读段包含样品标识符区域的序列;和(iii)通过样品标识符区域确定获得每个连接序列读段的样品。
在所述方法中,在附接条形码序列和/或偶联序列的步骤之前、期间和/或之后,所述方法可包含使微米粒子中的基因组DNA的片段交联的步骤。
在所述方法中,在附接条形码序列和/或偶联序列的步骤之前、期间和/或之后,和/或任选地在使微米粒子中的基因组DNA的片段交联的步骤之后,所述方法可包含使微米粒子透化的步骤。在转移步骤之前,以及任选地在交联步骤之后,所述方法包含使微米粒子透化。
条形码序列可包含在带条形码的寡核苷酸溶液中的带条形码的寡核苷酸内;例如,此类带条形码的寡核苷酸可以是单股双股的,或具有一个或多个双股区域的单股。带条形码的寡核苷酸可在单股或双股连接反应中与靶核酸的片段连接。带条形码的寡核苷酸可包含能够连接至靶核酸的片段的单股5′或3′区域。可在单股连接反应中将每个带条形码的寡核苷酸连接至靶核酸的片段。或者,带条形码的寡核苷酸可包含能够与靶核酸的片段连接的钝的、凹入的或突出的5′或3′区域。可在双股连接反应中将每个带条形码的寡核苷酸连接至靶核酸的片段。
在某些方法中,靶核酸的片段的末端可在钝化反应中转化为钝的双股末端,且带条形码的寡核苷酸可包含钝的双股末端。可在钝末端连接反应中将每个带条形码的寡核苷酸连接至靶核酸的片段。在某些方法中,靶核酸的片段的末端可在钝化反应中将其末端转化为钝的双股末端,且接着将其末端转化为具有单个3′腺苷突出端的形式,且其中带条形码的寡核苷酸包含具有单个3′胸腺嘧啶突出端的双股末端,所述突出端能够粘接至靶核酸的片段的单个3′腺苷突出端。可在双股A/T连接反应中将每个带条形码的寡核苷酸连接至靶核酸的片段。
在某些方法中,带条形码的寡核苷酸在其3′或5′端上包含能够粘接至靶核酸和/或偶联序列中的靶区域的靶区域,且条形码序列可通过将带条形码的寡核苷酸粘接至所述靶核酸和/或偶联序列,且任选地将带条形码的寡核苷酸延伸和/或连接至核酸靶标和/或偶联序列而附接至靶核酸。
在某些方法中,可在附接带条形码的寡核苷酸之前将偶联序列附接至基因组DNA的片段。
所述方法可以在附接步骤之前包括将核酸样品划分成至少两个不同反应体积的步骤。
5.使用多聚条形码试剂通过条形码连接
本发明提供了制备用于测序的样品的方法,其中所述样品包含循环微米粒子(即源自血液的微米粒子),且其中所述微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含以下步骤:(a)使样品与多聚条形码试剂接触,其中多聚条形码试剂包含连接在一起的第一和第二条形码区域,其中每个条形码区域包含核酸序列;和(b)将条形码序列附接至微米粒子的靶核酸的第一和第二片段中的每一个,以针对微米粒子产生第一和第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第一条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第二条形码区域的核酸序列。
本发明提供了制备用于测序的样品的方法,其中所述样品包含源自血液的微米粒子,且其中所述微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含以下步骤:(a)使样品与多聚条形码试剂接触,其中多聚条形码试剂包含连接在一起的第一和第二带条形码的寡核苷酸,且其中带条形码的寡核苷酸各自包含条形码区域;和(b)将第一和第二带条形码的寡核苷酸粘接或连接至微米粒子的靶核酸的第一和第二片段,以产生第一和第二带条形码的靶核酸分子。
本发明提供了制备用于测序的样品的方法,其中所述样品包含源自血液的第一和第二微米粒子,且其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含以下步骤:(a)使样品与包含至少两种多聚条形码试剂的库接触,其中每种多聚条形码试剂包含连接在一起的第一和第二条形码区域,其中每个条形码区域包含核酸序列,且其中所述库的第一多聚条形码试剂的第一和第二条形码区域不同于第二多聚条形码试剂的第一和第二条形码区域;和(b)将条形码序列附接至第一微米粒子的靶核酸的第一和第二片段中的每一个,以针对第一微米粒子产生第一和第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第一多聚条形码试剂的第一条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第一多聚条形码试剂的第二条形码区域的核酸序列,以及将条形码序列附接至第一微米粒子的靶核酸的第一和第二片段中的每一个,以针对第二微米粒子产生第一和第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第二多聚条形码试剂的第一条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第二多聚条形码试剂的第二条形码区域的核酸序列。
本发明提供了制备用于测序的样品的方法,其中所述样品包含源自血液的第一和第二微米粒子,且其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含以下步骤:(a)使样品与包含至少两种多聚条形码试剂的库接触,其中每种多聚条形码试剂包含连接在一起的第一和第二带条形码的寡核苷酸,其中带条形码的寡核苷酸各自包含条形码区域,且其中所述库的第一多聚条形码试剂的第一和第二带条形码的寡核苷酸不同于所述库的第二多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域;和(b)将第一多聚条形码试剂的第一和第二带条形码的寡核苷酸粘接或连接至第一微米粒子的靶核酸的第一和第二片段,以产生第一和第二带条形码的靶核酸分子,以及将第二多聚条形码试剂的第一和第二带条形码的寡核苷酸粘接或连接至第二微米粒子的靶核酸的第一和第二片段,以产生第一和第二带条形码的靶核酸分子。
带条形码的寡核苷酸可在单股或双股连接反应中与靶核酸的片段连接。
在所述方法中,带条形码的寡核苷酸可包含能够连接至靶核酸的片段的单股5′或3′区域。可在单股连接反应中将每个带条形码的寡核苷酸连接至靶核酸的片段。
在所述方法中,带条形码的寡核苷酸可包含能够与靶核酸的片段连接的钝的、凹入的或突出的5′或3′区域。可在双股连接反应中将每个带条形码的寡核苷酸连接至靶核酸的片段。
在所述方法中,靶核酸的片段的末端可在钝化反应中转化为钝的双股末端,且带条形码的寡核苷酸可包含钝的双股末端。可在钝末端连接反应中将每个带条形码的寡核苷酸连接至靶核酸的片段。
在所述方法中,靶核酸的片段的末端可在钝化反应中将其末端转化为钝的双股末端,且接着将其末端转化为具有单个3′腺苷突出端的形式,且其中带条形码的寡核苷酸包含具有单个3′胸腺嘧啶突出端的双股末端,所述突出端能够粘接至靶核酸的片段的单个3′腺苷突出端。可在双股A/T连接反应中将每个带条形码的寡核苷酸连接至靶核酸的片段。
在所述方法中,靶核酸的片段的末端可与限制酶接触,其中限制酶在限制位点处消化每个片段以在这些限制位点处产生连接接合部,且其中带条形码的寡核苷酸包含与这些连接接合部相容的末端。可在双股连接反应中在所述连接接合部处将每个带条形码的寡核苷酸连接至靶核酸的片段。任选地,所述限制酶可以是EcoRI、HindIII或BglII。
在所述方法中,在将第一和第二带条形码的寡核苷酸粘接或连接至靶核酸的第一和第二片段的步骤之前,所述方法可包含将偶联序列附接至靶核酸的每个片段,其中然后将第一和第二带条形码的寡核苷酸粘接或连接至靶核酸的第一和第二片段的偶联序列。
在所述方法中,步骤(b)可包含:(i)将第一多聚条形码试剂的第一和第二带条形码的寡核苷酸粘接至第一微米粒子的靶核酸的第一和第二片段,且将第二多聚条形码试剂的第一和第二带条形码的寡核苷酸粘接至第二微米粒子的靶核酸的第一和第二片段;和
(ii)延伸第一多聚条形码试剂的第一和第二带条形码的寡核苷酸以产生第一和第二不同带条形码的靶核酸分子,且延伸第二多聚条形码试剂的第一和第二带条形码的寡核苷酸以产生第一和第二不同带条形码的靶核酸分子,其中每个带条形码的靶核酸分子包含从作为模板的靶核酸的片段合成的至少一个核苷酸。
所述方法可包含:(a)使样品与包含至少两种多聚条形码试剂的库接触,其中每种多聚条形码试剂包含连接在一起的第一和第二带条形码的寡核苷酸,其中带条形码的寡核苷酸各自在5′至3′方向上包含靶区域和条形码区域,其中所述库的第一多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域不同于所述库的第二多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域,且其中样品进一步与每种多聚条形码试剂的第一和第二靶引物接触;和(b)对每个微米粒子执行以下步骤:(i)将第一带条形码的寡核苷酸的靶区域粘接至微米粒子的靶核酸(例如基因组DNA)的第一片段的第一子序列,且将第二带条形码的寡核苷酸的靶区域粘接至微米粒子的靶核酸(例如基因组DNA)的第二片段的第一子序列,(ii)将第一靶引物粘接至微米粒子的靶核酸的第一片段的第二子序列,其中第二子序列在第一子序列的3′,且将第二靶引物粘接至微米粒子的靶核酸的第二片段的第二子序列,其中第二子序列在第一子序列的3′,(iii)使用微米粒子的靶核酸的第一片段作为模板延伸第一靶引物,直到其到达第一子序列以产生第一延伸靶引物,且使用微米粒子的靶核酸的第二片段延伸第二靶引物,直到其到达第一子序列以产生第二延伸靶引物,和(iv)将第一延伸靶引物的3′端连接至第一带条形码的寡核苷酸的5′端以产生第一带条形码的靶核酸分子,且将第二延伸靶引物的3′端连接至第二带条形码的寡核苷酸的5′端以产生第二带条形码的靶核酸分子,其中第一和第二带条形码的靶核酸分子是不同的,且各自包含从作为模板的靶核酸合成的至少一个核苷酸。
多聚条形码试剂可各自包含:(i)连接在一起的第一和第二杂交分子,其中每个杂交分子含有包含杂交区域的核酸序列;和(ii)第一和第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸粘接至第一杂交分子的杂交区域,且其中第二带条形码的寡核苷酸粘接至第二杂交分子的杂交区域。
多聚条形码试剂可各自包含:(i)连接在一起的第一和第二条形码分子,其中每个条形码分子含有包含条形码区域的核酸序列;和(ii)第一和第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸包含粘接至第一条形码分子的条形码区的条形码区域,且其中第二带条形码的寡核苷酸包含粘接至第二条形码分子的条形码区域的条形码区域。
本发明提供了制备用于测序的样品的方法,其中所述样品包含至少两个源自血液的微米粒子,其中每个微米粒子包含靶核酸的至少两个片段,且其中所述方法包含以下步骤:(a)使样品与包含第一和第二多聚条形码试剂的库接触,其中每种多聚条形码试剂包含连接在一起的第一和第二条形码分子,其中每个条形码分子包含核酸序列,所述核酸序列任选地在5′至3′方向上包含条形码区域和衔接子区域;
(b)将偶联序列附接至第一和第二微米粒子的靶核酸(例如基因组DNA)的第一和第二片段;(c)对于每种多聚条形码试剂,将第一片段的偶联序列粘接至第一条形码分子的衔接子区域,且将第二片段的偶联序列粘接至第二条形码分子的衔接子区域;和(d)对于每种多聚条形码试剂,将条形码序列附接至微米粒子的靶核酸的至少两个片段中的每一个上,以产生第一和第二不同的带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第一条形码分子的条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第二条形码分子的条形码区域的核酸序列。
在所述方法中,每个条形码分子可包含在5′至3′方向上包含条形码区域和衔接子区域的核酸序列,且其中对于每种多聚条形码试剂,步骤(d)包含:使用第一条形码分子的条形码区域作为模板来延伸第一片段的偶联序列,以产生第一带条形码的靶核酸分子,和使用第二条形码分子的条形码区域作为模板来延伸第二片段的偶联序列,以产生第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含与第一条形码分子的条形码区域互补的序列,且第二带条形码的靶核酸分子包含与第二条形码分子的条形码区域互补的序列。
在所述方法中,每个条形码分子可包含一个核酸序列,所述核酸序列在5′至3′方向上包含衔接子区域和条形码区域,其中对于每种多聚条形码试剂,步骤(d)包含:(i)使用第一条形码分子的条形码区域作为模板来粘接和延伸第一延伸引物,以产生第一带条形码的寡核苷酸,且使用第二条形码分子的条形码区域作为模板来粘接和延伸第二延伸引物,以产生第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸包含与第一条形码分子的条形码区域互补的序列,且第二带条形码的寡核苷酸包含与第二条形码分子的条形码区域互补的序列,
(ii)将第一带条形码的寡核苷酸的3′端连接至第一片段的偶联序列的5′端以产生第一带条形码的靶核酸分子,且将第二带条形码的寡核苷酸的3′端连接至第二片段的偶联序列的5′端以产生第二带条形码的靶核酸分子。
在所述方法中,每个条形码分子可包含核酸序列,所述核酸序列在5′至3′方向上包含衔接子区域、条形码区域和引发区域,其中对于每种多聚条形码试剂,步骤(d)包含:(i)将第一延伸引物粘接至第一条形码分子的引发区域,且使用第一条形码分子的条形码区域作为模板来延伸第一延伸引物,以产生第一带条形码的寡核苷酸,以及将第二延伸引物粘接至第二条形码分子的引发区域,且使用第二条形码分子的条形码区域作为模板来延伸第二延伸引物,以产生第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸包含与第一条形码分子的条形码区域互补的序列,且第二带条形码的寡核苷酸包含与第二条形码分子的条形码区域互补的序列,和(ii)将第一带条形码的寡核苷酸的3′端连接至第一片段的偶联序列的5′端以产生第一带条形码的靶核酸分子,且将第二带条形码的寡核苷酸的3′端连接至第二片段的偶联序列的5′端以产生第二带条形码的靶核酸分子。
所述方法可包含:(a)使样品与包含第一和第二多聚条形码试剂的库接触,其中每种多聚条形码试剂包含连接在一起的第一和第二条形码分子,其中每个条形码分子包含核酸序列,所述核酸序列在5′至3′方向上包含条形码区域和衔接子区域,其中样品进一步与每种多聚条形码试剂的第一和第二衔接子寡核苷酸接触,其中第一和第二衔接子寡核苷酸各自包含衔接子区域,和(b)将用于第一多聚条形码试剂的第一和第二衔接子寡核苷酸连接至第一微米粒子的靶核酸的第一和第二片段,且将用于第二多聚条形码试剂的第一和第二衔接子寡核苷酸连接至第二微米粒子的靶核酸的第一和第二片段;(c)对于每种多聚条形码试剂,将第一衔接子寡核苷酸的衔接子区域粘接至第一条形码分子的衔接子区域,且将第二衔接子寡核苷酸的衔接子区域粘接至第二条形码分子的衔接子区域;和(d)对于每种多聚条形码试剂,使用第一条形码分子的条形码区域作为模板来延伸第一衔接子寡核苷酸,以产生第一带条形码的靶核酸分子,且使用第二条形码分子的条形码区域作为模板来延伸第二衔接子寡核苷酸,以产生第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含与第一条形码分子的条形码区域互补的序列,且第二带条形码的靶核酸分子包含与第二条形码分子的条形码区域互补的序列。
所述方法可包含以下步骤:(a)使样品与包含第一和第二多聚条形码试剂的库接触,其中每种多聚条形码试剂包含:(i)连接在一起的第一和第二条形码分子,其中每个条形码分子包括核酸序列,所述核酸序列任选地在5′至3′方向上包含衔接子区域和条形码区域,和(ii)第一和第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸包含粘接至第一条形码分子的条形码区域的条形码区域,其中第二带条形码的寡核苷酸包含粘接至第二条形码分子的条形码区域的条形码区域,且其中所述库的第一多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域不同于所述库的第二多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域;其中所述样品进一步与每种多聚条形码试剂的第一和第二衔接子寡核苷酸接触,其中第一和第二衔接子寡核苷酸各自包含衔接子区域;(b)将用于第一多聚条形码试剂的第一和第二衔接子寡核苷酸粘接或连接至第一微米粒子的靶核酸(例如基因组DNA)的第一和第二片段,且将用于第二多聚条形码试剂的第一和第二衔接子寡核苷酸粘接或连接至第二微米粒子的靶核酸(例如基因组DNA)的第一和第二片段;(c)对于每种多聚条形码试剂,将第一衔接子寡核苷酸的衔接子区域粘接至第一条形码分子的衔接子区域,且将第二衔接子寡核苷酸的衔接子区域粘接至第二条形码分子的衔接子区域;和(d)对于每种多聚条形码试剂,将第一带条形码的寡核苷酸的3′端连接至第一衔接子寡核苷酸的5′端,以产生第一带条形码的靶核酸分子,且将第二带条形码的寡核苷酸的3′端连接至第二衔接子寡核苷酸的5′端,以产生第二带条形码的靶核酸分子。
在所述方法中,步骤(b)可包含将第一多聚条形码试剂的第一和第二衔接子寡核苷酸粘接至第一微米粒子的靶核酸(例如基因组DNA)的第一和第二片段,且将第二多聚条形码试剂的第一和第二衔接子寡核苷酸粘接至第二微米粒子的靶核酸(例如基因组DNA)的第一和第二片段,且其中:(i)对于每种多聚条形码试剂,步骤(d)包含将第一带条形码的寡核苷酸的3′端连接至第一衔接子寡核苷酸的5′端以产生第一带条形码的衔接子寡核苷酸,和将第二带条形码的寡核苷酸的3′端连接至第二衔接子寡核苷酸的5′端以产生第二带条形码的衔接子寡核苷酸,且延伸第一和第二带条形码的衔接子寡核苷酸以产生第一和第二不同的带条形码的靶核酸分子,所述靶核酸分子各自包含从靶核酸的片段合成的至少一个核苷酸作为模板,或(ii)对于每种多聚条形码试剂,在步骤(d)之前,所述方法包含延伸第一和第二衔接子寡核苷酸以产生第一和第二不同的靶核酸分子,所述靶核酸分子各自包含从靶核酸的片段合成的至少一个核苷酸作为模板。
在所述方法中,在将第一和第二衔接子寡核苷酸粘接或连接至靶核酸的第一和第二片段的步骤之前,所述方法可包含将偶联序列附接至靶核酸的每个片段,其中然后将第一和第二衔接子寡核苷酸粘接或连接至靶核酸的第一和第二片段的偶联序列。
在本文所述的任何方法中,方法可包含使微米粒子中的靶核酸(例如基因组DNA)的片段交联的步骤。所述步骤可以用化学交联剂,例如甲醛、多聚甲醛、戊二醛、戊二酸二丁二酰亚胺酯、乙二醇双(丁二酸丁二酰亚胺酯)、同双官能交联剂或异双官能交联剂进行。此步骤可如下地进行:在任何透化步骤之前、在任何透化步骤之后、在任何划分步骤之前、在任何附接偶联序列的步骤之前、在任何附接偶联序列的步骤之后、在任何附接条形码序列的步骤之前(例如在步骤(b)之前)、在任何附接条形码序列的步骤之后(例如在步骤(d)之后)、在附接条形码序列的同时,或其任何组合。例如,在使包含微米粒子的样品与两种或更多种多聚条形码试剂的库接触之前,可使包含微米粒子的样品交联。任何此类交联步骤可进一步通过淬灭步骤结束,例如通过与甘氨酸溶液混合来淬灭甲醛交联步骤。可以在方案的特定后续步骤之前(例如在引物延伸、PCR或核酸纯化步骤之前)去除任何此类交联。
在所述方法中,在步骤(b)、(c)和/或(d)(即,附接条形码序列的步骤)期间,靶核酸的微米粒子和/或片段可包含在以下各者中:凝胶或水凝胶,例如琼脂糖凝胶、聚丙烯酰胺凝胶或任何共价交联的凝胶,例如共价交联的聚(乙二醇)凝胶,或包含硫醇官能化聚(乙二醇)和丙烯酸酯官能化聚(乙二醇)的混合物的共价交联的凝胶。
在本文所述的任何方法中,任选地在任何交联步骤之后,方法可包含使微米粒子透化。可用培育步骤使微米粒子透化。培育步骤可在化学表面活性剂存在下进行。任选地,此透化步骤可在附接条形码序列之前(例如,在步骤(b)之前),在附接条形码序列之后(例如,在步骤(d)之后),或在附接条形码序列之前以及之后进行。可在至少20摄氏度、至少30摄氏度、至少37摄氏度、至少45摄氏度、至少50摄氏度、至少60摄氏度、至少65摄氏度、至少70摄氏度或至少80摄氏度的温度下执行培育步骤。培育步骤可为至少1秒长,至少5秒长,至少10秒长,至少30秒长,至少1分钟长,至少5分钟长,至少10分钟长,至少30分钟长,至少60分钟长或至少3小时长。此步骤可如下地进行:在任何交联步骤之后、在任何透化步骤之前、在任何透化步骤之后、在任何划分步骤之前、在任何附接偶联序列的步骤之前、在任何附接偶联序列的步骤之后、在任何附接条形码序列的步骤之前(例如在步骤(b)之前)、在任何附接条形码序列的步骤之后(例如在步骤(d)之后)、在附接条形码序列的同时,或其任何组合。例如,在使包含微米粒子的样品与两种或更多种多聚条形码试剂的库接触之前,可使包含微米粒子的样品交联,且接着在化学表面活性剂存在下透化。
在本文所述的任何方法中,微米粒子样品可用蛋白酶消化步骤消化,例如用蛋白酶K酶消化。任选地,此蛋白酶消化步骤可为至少10秒长,至少30秒长,至少60秒长,至少5分钟长,至少10分钟长,至少30分钟长,至少60分钟长,至少3小时长,至少6小时长,至少12小时长或至少24小时长。此步骤可如下地进行:在任何交联步骤之后、在任何透化步骤之前、在任何透化步骤之后、在任何划分步骤之前、在任何附接偶联序列的步骤之前、在任何附接偶联序列的步骤之后、在任何附接条形码序列的步骤之前(例如在步骤(b)之前)、在任何附接条形码序列的步骤之后(例如在步骤(d)之后)、在附接条形码序列的同时,或其任何组合。例如,在使包含微米粒子的样品与两种或更多种多聚条形码试剂的库接触之前,可使包含微米粒子的样品交联,且接着用蛋白酶K消化步骤部分消化。
在所述方法中,步骤(a)和(b),以及任选地(c)和(d)可在单个反应体积中对至少两个微米粒子进行。
所述方法可进一步包含在步骤(b)之前,将核酸样品划分成至少两个不同反应体积的步骤。
本发明提供了一种分析样品的方法,所述样品包含源自血液的微米粒子,其中所述微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含:(a)制备用于测序的样品,其包含:(i)使样品与包含连接在一起的第一和第二条形码区域的多聚条形码试剂接触,其中每个条形码区域包含核酸序列,和(ii)将条形码序列附接至微米粒子的靶核酸的至少两个片段中的每一个以产生第一和第二不同的带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第一条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第二条形码区域的核酸序列;和(b)对每个带条形码的靶核酸分子进行测序以产生至少两个连接序列读段。
在所述方法中,在将条形码序列附接至微米粒子的基因组DNA的至少两个片段中的每一个之前,所述方法可包含将偶联序列附接至微米粒子的基因组DNA的每个片段中,其中然后将条形码序列附接至微米粒子的基因组DNA的至少两个片段中的每一个的偶联序列上,以产生第一和第二不同的带条形码的靶核酸分子。
在步骤(a)期间,靶核酸的微米粒子和/或片段可包含在以下各者中:凝胶或水凝胶,例如琼脂糖凝胶、聚丙烯酰胺凝胶或任何共价交联的凝胶,例如共价交联的聚(乙二醇)凝胶,或包含硫醇官能化聚(乙二醇)和丙烯酸酯官能化聚(乙二醇)的混合物的共价交联的凝胶。
微米粒子样品可用蛋白酶消化步骤消化,例如用蛋白酶K酶消化。任选地,此蛋白酶消化步骤可为至少10秒长,至少30秒长,至少60秒长,至少5分钟长,至少10分钟长,至少30分钟长,至少60分钟长,至少3小时长,至少6小时长,至少12小时长或至少24小时长。此步骤可如下地进行:在透化之前、在透化之后、在附接条形码序列之前(例如,在步骤(a)(ii)之前)、在附接条形码序列之后(例如,在步骤(a)(ii)之后)、在附接条形码序列的同时,或其任何组合。
方法的步骤(a)可通过本文所述的制备用于测序的样品(或核酸样品)的任何方法来进行。
所述方法可包含制备用于测序的第一和第二样品,其中每个样品包含至少一个源自血液的微米粒子,其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中条形码序列各自包含样品标识符区域,且其中方法包含:(i)对每个样品执行步骤(a),其中附接至来自第一样品的靶核酸片段的条形码序列具有与附接至来自第二样品的靶核酸片段的条形码序列不同的样品标识符区域;(ii)对每个样品执行步骤(b),其中每个连接序列读段包含样品标识符区域的序列;和(iii)通过样品标识符区域确定获得每个连接序列读段的样品。所述方法可包含制备用于测序的第一和第二样品,其中每个样品包含至少一个源自血液的微米粒子,其中每个微米粒子包含靶核酸(例如基因组DNA)的至少两个片段,且其中条形码序列各自包含样品标识符区域,且其中方法包含:(i)对每个样品执行步骤(a),其中附接至来自第一样品的靶核酸片段的条形码序列具有与附接至来自第二样品的靶核酸片段的条形码序列不同的样品标识符区域;(ii)对每个样品执行步骤(b),其中每个序列读段包含样品标识符区域的序列;和(iii)通过样品标识符区域确定获得每个连接序列读段的样品。
所述方法可包含分析包含至少两个源自血液的微米粒子的样品,其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含以下步骤:(a)制备用于测序的样品,其包含:(i)使样品与多聚条形码试剂的库接触,所述库包含用于两个或更多个微米粒子中的每一个的多聚条形码试剂,其中每种多聚条形码试剂如本文所定义;和(ii)将条形码序列附接至每个微米粒子的靶核酸的至少两个片段中的每一个,其中从至少两个微米粒子中的每一个产生至少两个带条形码的靶核酸分子,且其中从单个微米粒子产生的至少两个带条形码的靶核酸分子各自包含来自同一多聚条形码试剂的条形码区域的核酸序列;和(b)对每个带条形码的靶核酸分子进行测序,以对于每个微米粒子产生至少两个连接序列读段。
条形码序列可在单个反应体积中附接至微米粒子的基因组DNA的片段上,即方法的步骤(a)可在单个反应体积中进行。
在附接步骤(步骤(a)(ii))之前,方法可进一步包含将样品分成至少两个不同反应体积的步骤。
在任何方法中,在附接条形码序列的步骤之前,多聚条形码试剂可分离、分级或溶解为两个或更多个组成部分,例如释放带条形码的寡核苷酸。
在任何方法中,多聚条形码试剂的浓度可为小于1.0飞摩尔,小于10飞摩尔,小于100飞摩尔,小于1.0皮摩尔,小于10皮摩尔,小于100皮摩尔,小于1纳摩尔,小于10纳摩尔,小于100纳摩尔或小于1.0微摩尔。
6.通过将片段连接在一起进行连接
本发明提供了一种分析样品的方法,所述样品包含源自血液的微米粒子,其中微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中方法包含:(a)制备用于测序的样品,其包含将微米粒子的靶核酸的至少两个片段连接在一起以产生包含靶核酸的至少两个片段的序列的单个核酸分子;和(b)对单个核酸分子中的每个片段进行测序以产生至少两个连接序列读段。
靶核酸(例如基因组DNA)的至少两个片段可在单个核酸分子中为连续的。
可以在单个原始序列读段内提供至少两个连接序列读段。
所述方法可包含在连接步骤之前,将偶联序列附接至靶核酸(例如基因组DNA)的至少一个片段,且接着通过偶联将靶核酸的至少两个片段连接在一起。
靶核酸(例如基因组DNA)的片段可通过固体载体连接在一起,其中两个或更多个片段与相同的固体载体连接(直接或间接,例如通过偶联序列)。任选地,固体载体为珠粒,例如聚苯乙烯泡沫珠粒、超顺磁珠粒或琼脂糖珠粒。
靶核酸(例如基因组DNA)的片段可通过连接反应,例如双股连接反应或单股连接反应连接在一起。
靶核酸的片段的末端可在钝化反应中转化为钝的可连接双股末端,且该方法可包含通过钝末端连接反应将两个或更多个片段彼此连接。
靶核酸的片段的末端可与限制酶接触,其中限制酶在限制位点消化所述片段以在这些限制位点处产生连接接合部,且其中所述方法可包含通过在连接接合部处的连接反应将两个或更多个所述片段彼此连接。任何靶核酸均可与限制酶接触,其中所述限制酶在限制位点消化片段以在这些限制位点处产生连接接合部,且其中所述方法可包含通过连接接合部处的连接反应使两个或更多个片段彼此连接。任选地,所述限制酶可以是EcoRI、HindIII或BglII。
在将片段连接在一起之前,可将偶联序列附接至靶核酸的两个或更多个片段。任选地,将两个或更多个不同的偶联序列附接至靶核酸的片段群。
偶联序列可在至少一个末端上包含连接接合部,且其中第一偶联序列附接至靶核酸的第一片段,且其中第二偶联序列附接至靶核酸的第二片段,且其中两个偶联序列彼此连接,从而将靶核酸的两个片段连接在一起。
偶联序列可在至少一个3′端上包含粘接区域,且其中第一偶联序列附接至靶核酸的第一片段,且其中第二偶联序列附接至靶核酸的第二片段,且其中两个偶联序列沿长度为至少一个核苷酸的区段彼此互补且粘接,且其中DNA聚合酶用于将至少一个核苷酸的第一偶联序列的3′端中的至少一个延伸至靶核酸的第二片段的序列,从而将靶核酸(例如基因组DNA)的两个片段连接在一起。
在将至少两个片段连接在一起之前,方法可进一步包含例如用化学交联剂使微米粒子交联的步骤,所述化学交联剂例如甲醛、多聚甲醛、戊二醛、戊二酸二丁二酰亚胺酯、乙二醇双(丁二酸丁二酰亚胺酯)、同双官能交联剂或异双官能交联剂。
在将至少两个片段连接在一起之前,方法可可进一步包含将微米粒子分成两个或更多个分区。
方法可进一步包含在培育步骤中使微米粒子透化。此步骤可以在分区(如果执行)之前,在分区(如果执行)之后,在将片段连接在一起之前和/或在将片段连接在一起之后执行。
可在化学表面活性剂,例如Triton X-100(C14H22O(C2H4O)n(n=9-10))、NP-40、Tween 20、Tween 80、皂苷、毛地黄皂苷或十二烷基硫酸钠存在下执行培育步骤。
在至少20摄氏度、至少30摄氏度、至少37摄氏度、至少45摄氏度、至少50摄氏度、至少60摄氏度、至少65摄氏度、至少70摄氏度、至少80摄氏度、至少90摄氏度或至少95摄氏度的温度下执行培育步骤。
培育步骤可为至少1秒长,至少5秒长,至少10秒长,至少30秒长,至少1分钟长,至少5分钟长,至少10分钟长,至少30分钟长,至少60分钟长或至少3小时长。
方法可包含用蛋白酶消化步骤,例如蛋白酶K酶消化来消化微米粒子样品。任选地,此蛋白酶消化步骤可为至少10秒长,至少30秒长,至少60秒长,至少5分钟长,至少10分钟长,至少30分钟长,至少60分钟长,至少3小时长,至少6小时长,至少12小时长或至少24小时长。此步骤可以在分区(如果执行)之前,在分区(如果执行)之后,在将片段连接在一起之前和/或在将片段连接在一起之后执行。
方法可包含扩增靶核酸的(原始)片段,且接着将两个或更多个所得核酸分子连接在一起。
将片段连接在一起的步骤可产生多联体化核酸分子,其包含已彼此附接成单个连续核酸分子的至少3、至少5、至少10、至少50、至少100、至少500或至少1000个核酸分子。
方法可用于产生至少3个微米粒子、至少5个微米粒子、至少10个微米粒子、至少50个微米粒子、至少100个微米粒子、至少1000个微米粒子、至少10,000个微米粒子、至少100,000个微米粒子、至少1,000,000个微米粒子、至少10,000,000个微米粒子、至少100,000,000个微米粒子、至少1,000,000,000个微米粒子、至少10,000,000,000个微米粒子或至少100,000,000,000个微米粒子的连接序列读段。
样品可包含至少两个源自血液的微米粒子,其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中方法包含执行步骤(a)以对于每个微米粒子产生包含靶核酸的至少两个片段的序列的单个核酸分子,以及执行步骤(b)以对于每个微米粒子产生连接序列读段。
在将靶核酸(例如基因组DNA)的至少两个片段连接在一起的步骤之前、期间和/或之后,方法可包含将微米粒子中的靶核酸的片段交联的步骤。交联步骤可以用化学交联剂,例如甲醛、多聚甲醛、戊二醛、戊二酸二丁二酰亚胺酯、乙二醇双(丁二酸丁二酰亚胺酯)、同双官能交联剂或异双官能交联剂进行。
在将靶核酸(例如基因组DNA)的至少两个片段连接在一起的步骤之前、期间和/或之后,和/或任选地在使微米粒子中的靶核酸的片段交联的步骤之后,所述方法包含使微米粒子透化的步骤。
在步骤(a)之前,方法可进一步包含将核酸样品划分成至少两个不同反应体积的步骤。
在将循环微米粒子的靶核酸的至少两个片段连接在一起以产生包含靶核酸的至少两个片段的序列的单个核酸分子的方法的一个实施例中,包含至少一个循环微米粒子的样品(例如其中通过本文公开的任何方法获得和/或纯化所述样品)在室温下在1%甲醛溶液中交联10分钟,且接着用甘氨酸淬灭甲醛交联步骤。通过离心步骤(例如在3000xG下离心5分钟)使微米粒子沉淀,且将其再悬浮于含1.0%十二烷基硫酸钠(SDS)的1×NEBuffer 2(New England Biolabs)中,且在45摄氏度下培育10分钟以使微米粒子透化。通过添加Triton X-100将SDS淬灭,且将溶液与AluI(新英格兰生物实验室)一起在37摄氏度下培育过夜,以产生钝的可连接末端。通过添加SDS至最终浓度1.0%使酶失活,且在65摄氏度下培育15分钟。通过添加Triton X-100将SDS淬灭,且将溶液在1×T4 DNA连接酶缓冲液中稀释至少10倍,且使DNA的总浓度至多为1.0纳克DNA/微升。将稀释的溶液与T4 DNA连接酶一起在16摄氏度下培育过夜,以将来自循环微米粒子的片段连接在一起。然后将交联反转,且通过在蛋白酶K的溶液中于65摄氏度下培育过夜来降解蛋白质成分。然后纯化连接的DNA(例如,使用Qiagen离心柱PCR纯化试剂盒,和/或Ampure XP珠粒)。然后将Illumina测序衔接子序列与Nextera体外转座方法(Illumina;按照制造商的规程)一起附接,进行适当数量的PCR循环以扩增连接的物质;且接着在Illumina测序仪(例如Illumina NextSeq 500或MiSeq)上对扩增和纯化的大小合适的DNA进行测序,成对末端读段各为至少为50个碱基。成对末端序列的每个末端独立地映射至参考人类基因组以阐明连接序列读段(例如其中两个末端包含来自单个循环微米粒子的基因组DNA的不同片段的序列的读段)。
将微米粒子的靶核酸的至少两个片段连接在一起以产生包含靶核酸的至少两个片段的序列的单个核酸分子的方法可具有多种独特的特性和特征,使其成为连接来自一个或多个循环微米粒子的序列的所需方法。一方面,此类方法无需复杂的仪器(例如,用于基于分区的方法的微流体)即可将来自循环微米粒子的序列连接起来。此外,方法(广泛地)能够在单个、单独的反应中进行,所述反应可包含大量循环微米粒子(例如数百个,数千个或更大数目),且因此能够处理大量循环微米粒子而无需例如在组合索引方法中可能另外需要的多个反应。此外,由于所述方法不一定需要使用条形码和/或多聚条形码试剂,因此不受条形码库(和/或多聚条形码试剂库)的大小限制,以实现对来自循环微米粒子的连接序列进行有用的分子测量。
7.通过分区连接
可对包含至少两个已被分成至少两个不同的反应体积(或分区)的微米粒子的核酸样品执行所述方法。
在任何方法中,可将包含至少两个微米粒子的核酸样品分成至少两个不同的反应体积(或分区)。不同的反应体积(或分区)可由不同的反应容器(或不同的物理反应容器)提供。可通过不同的水性液滴,例如乳液内的不同水性液滴或固体载体(例如载玻片)上的不同水性液滴来提供不同的反应体积(或分区)。
例如,可在将条形码序列附接至微米粒子的靶核酸的片段之前对核酸样品进行分区。或者,可在将微米粒子的靶核酸的至少两个片段连接在一起之前对核酸样品进行分区。
对于涉及分区步骤的任何方法,可在每个分区上独立地执行所述分区步骤之后的方法的任何步骤,例如附接条形码序列或附接偶联序列的任何步骤,或连接、粘接、引物延伸或PCR的任何步骤。可将试剂(例如寡核苷酸、酶和缓冲液)直接添加至每个分区中。在其中分区包含乳液中的水性液滴的方法中,此类添加步骤可经由将乳液中的水性液滴合并的过程来进行,例如使用微流体液滴合并导管,并且任选地使用机械或热混合步骤。
分区在乳液内包含水溶液的不同液滴,且其中乳液是油包水乳液,且其中液滴是通过物理摇动或涡旋步骤产生的,或者其中液滴是通过在微流体导管或接头内合并水溶液与油溶液产生的。
对于其中分区在乳液内包含水性液滴的方法,此类油包水乳液可通过本领域已知的任何方法或工具来产生。任选地,这可能包括市售的微流体系统,例如Chromium系统或其它可从10X Genomics Inc.获得的系统,来自Raindance Technologies或Bio-Rad的数字液滴生成器,以及用于微流体生成和操作的基于组件的系统,例如Drop-Seq(Macosko等人,2015,《细胞》161,1202-1214)和inDrop(Klein等人,2015,《细胞》161,1187-1201)。
分区可在凝胶或水凝胶内包含不同的物理上不重叠的空间体积,所述凝胶或水凝胶例如琼脂糖凝胶、聚丙烯酰胺凝胶或任何共价交联的凝胶,例如共价交联的聚(乙二醇)凝胶,或包含硫醇官能化聚(乙二醇)和丙烯酸酯官能化聚(乙二醇)的混合物的共价交联的凝胶。
微米粒子样品可以被分成总共至少10、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000或至少1,000,000,000个分区。优选地,微米粒子溶液被分成总共至少1000个分区。
微米粒子样品可以被分成多个分区,以使得每个分区存在平均少于0.0001个微米粒子,少于0.001个微米粒子,少于0.01个微米粒子,少于0.1个微米粒子,少于1.0个微米粒子,少于10个微米粒子,少于100个微米粒子,少于1000个微米粒子,少于10,000个微米粒子,少于100,000个微米粒子,少于1,000,000个微米粒子,少于10,000,000个微米粒子或少于100,000,000个微米粒子。优选地,每个分区存在平均少于1.0个微米粒子。
微米粒子溶液可被分成多个分区,以使得每个分区存在平均小于1.0阿克DNA,小于10阿克DNA,小于100阿克DNA,小于1.0飞克DNA,小于10飞克DNA,小于100飞克DNA,小于1.0皮克DNA,小于10皮克DNA,小于100皮克DNA,或小于1.0纳克DNA。优选地,每个分区存在小于10皮克DNA。
分区的体积可为小于100飞升,小于1.0皮升,小于10皮升,小于100皮升,小于1.0纳升,小于10纳升,小于100纳升,小于1.0微升,小于10微升,小于100微升,或小于1.0毫升。
可在每个分区中提供条形码序列。对于包含条形码序列的两个或更多个分区中的每一个,包含在其中的条形码序列可包含相同条形码序列的多个拷贝,或包含来自相同条形码序列集合的不同条形码序列。
在将微米粒子分成两个或更多个分区之后,可通过本文所述的任何方法用培育步骤使微米粒子透化。
微米粒子样品可用蛋白酶消化步骤消化,例如用蛋白酶K酶消化。任选地,此蛋白酶消化步骤可为至少10秒长,至少30秒长,至少60秒长,至少5分钟长,至少10分钟长,至少30分钟长,至少60分钟长,至少3小时长,至少6小时长,至少12小时长或至少24小时长。可在分区之前、在分区之后、在附接条形码序列之前、在附接条形码序列之后和/或在附接条形码序列的同时执行此步骤。
通过组合条形码过程附接序列
附接条形码序列的方法可包含组合条形码过程的至少两个步骤,其中执行第一条形码步骤,其中微米粒子样品被分成两个或更多个分区,其中每个分区包含不同的条形码序列或不同的条形码序列集合,接着将其附接至来自所述分区内包含的微米粒子的靶核酸(例如基因组DNA)片段的序列,且其中将至少两个分区的带条形码的核酸分子合并成第二样品混合物,且其中接着将此第二样品混合物分成两个或更多个新分区,其中每个新分区包含不同的条形码序列或不同的条形码序列集合,接着将其附接至来自两个或更多个新分区内包含的微米粒子的靶核酸(例如基因组DNA)片段的序列。
任选地,组合条形码过程可包含第一条形码步骤,其中:A)包含至少第一和第二循环微米粒子的第一样品混合物被分成至少第一和第二原始分区(例如,其中来自样品的至少第一循环微米粒子被分成第一原始分区,且其中来自样品的至少第二循环微米粒子被分成第二原始分区),其中第一原始分区包含与第二原始分区内包含的条形码序列(或条形码序列集合)不同的条形码序列(或条形码序列集合),且其中第一原始分区内包含的条形码序列(或来自条形码序列集合的条形码序列)附接至第一循环微米粒子的靶核酸的至少第一和第二片段,且其中第二原始分区内包含的条形码序列(或来自条形码序列集合的条形码序列)附接至第二循环微米粒子的靶核酸的至少第一和第二片段;且其中将第一原始分区内包含的至少一个循环微米粒子和第二原始分区内包含的至少一个循环微米粒子合并以产生第二样品混合物,和第二条形码步骤,其中:B)第二样品内包含的微米粒子被分成至少第一和第二新分区(例如,其中来自第二样品混合物的至少第一循环微米粒子被分成第一新分区,且其中来自第二样品混合物的至少第二循环微米粒子被分成第二新分区),其中第一新分区包含与第二新分区内包含的条形码序列(或条形码序列集合)不同的条形码序列(或条形码序列集合),且其中第一新分区内包含的条形码序列(或来自条形码序列集合的条形码序列)附接至第一循环微米粒子的靶核酸的至少第一和第二片段,且其中第二新分区内包含的条形码序列(或来自条形码序列集合的条形码序列)附接至第二循环微米粒子的靶核酸的至少第一和第二片段。
组合条形码过程的替代过程描述于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,在任何组合条形码过程中,可在任何组合条形码过程中的任何步骤之前和/或之后进行一个或多个化学交联步骤。
任选地,在任何组合条形码过程中,在化学交联步骤之后的步骤中,可使交联的微米粒子透化。其它细节提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,在任何组合条形码过程中,在化学交联步骤之后的任何一个或多个步骤中,交联可部分或完全反转。其它细节提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,在任何组合条形码过程中,条形码序列可通过本文所述的任何一种或多种方法附接(例如单股连接、双股连接、平末端连接、A尾连接、粘性末端介导的连接、杂交、杂交和延伸、杂交和延伸和连接和/或转座)。
任选地,在任何组合条形码过程的任何步骤中,至少2、至少3、至少5、至少10、至少20、至少50、至少100、至少200、至少500、至少1000、至少2000、至少5000、至少10,000、至少50,000、至少100,000、至少500,000或至少1,000,000个循环微米粒子可包含在一个分区内(和/或至少第一和第二分区中的每一个内;和/或任何更大数目的分区内)。优选地,至少50个循环微米粒子可包含在一个分区内(和/或至少第一和第二分区中的每一个内;和/或任何更大数目的分区内)。
任选地,在任何组合条形码过程的任何步骤中,可采用至少2、至少3、至少5、至少10、至少20、至少50、至少100、至少200、至少500、至少1000、至少2000、至少5000、至少10,000、至少50,000、至少100,000、至少500,000、至少1,000,000、至少10,000,000或至少100,000,000个分区(例如循环微米粒子可被分成所述数目的分区)。优选地,在任何组合条形码过程的任何步骤中,可采用至少24个分区(例如循环微米粒子可被分成所述数目的分区)。
任选地,在任何组合条形码过程的任何步骤中,微米粒子样品可以被分成多个分区,以使得每个分区存在平均少于0.0001个微米粒子,少于0.001个微米粒子,少于0.01个微米粒子,少于0.1个微米粒子,少于1.0个微米粒子,少于10个微米粒子,少于100个微米粒子,少于1000个微米粒子,少于10,000个微米粒子,少于100,000个微米粒子,少于1,000,000个微米粒子,少于10,000,000个微米粒子或少于100,000,000个微米粒子。优选地,每个分区存在平均少于1.0个微米粒子。
任选地,在任何组合条形码过程的任何步骤中,微米粒子溶液可被分成多个分区,以使得每个分区存在平均小于1.0阿克DNA,小于10阿克DNA,小于100阿克DNA,小于1.0飞克DNA,小于10飞克DNA,小于100飞克DNA,小于1.0皮克DNA,小于10皮克DNA,小于100皮克DNA,或小于1.0纳克DNA。优选地,每个分区存在小于10皮克DNA。
任选地,在任何组合条形码过程的任何步骤中,分区的体积可为小于100飞升,小于1.0皮升,小于10皮升,小于100皮升,小于1.0纳升,小于10纳升,小于100纳升,小于1.0微升,小于10微升,小于100微升,或小于1.0毫升。
任选地,任何组合条形码过程可包含至少2、至少3、至少4、至少5、至少10、至少20、至少30、至少40、至少50、至少100、至少500或至少1000个不同条形码步骤。每个条形码步骤可以如本文针对第一和第二条形码步骤所描述的。
任选地,在任何组合条形码过程中,任何一个或多个分配步骤可包含随机特征-例如,可将估计数目(而不是精确或精密数目)的循环微米粒子划分为一个或多个分区;即,每个分区的所述循环微米粒子的数目可能受到统计或概率不确定性的影响(例如,受泊松载荷和/或分布统计的影响)。
任选地,在任何组合条形码过程中,附接至特定序列的条形码集合(例如,附接至基因组DNA的片段的序列;例如,包含在第一条形码步骤期间附接至所述序列的第一条形码和在第二条形码步骤期间附接至所述序列的第二条形码的集合)可用于连接来自单个微米粒子的序列和/或连接来自两个或更多个微米粒子的集合的序列。任选地,在任何组合条形码过程中,可将两个(或大于两个)条形码的相同集合附接至来自两个或更多个循环微米粒子的特定序列(例如附接至基因组DNA的片段的序列)(例如其中所述两个或更多个循环微米粒子分别在第一和第二条形码步骤期间被分成相同系列的第一和第二分区)。任选地,在任何组合条形码过程中,可将两个(或大于两个)条形码的相同集合附接至仅来自一个循环微米粒子的特定序列(例如附接至基因组DNA的片段的序列)(例如,其中仅一个循环微米粒子分别在第一和第二条形码步骤期间被分成特定系列的第一和第二分区)。
任选地,在任何组合条形码过程中,在任何一个或多个条形码步骤中采用的分区的数目,和不同条形码步骤的数目可以组合方式合并,使得平均而言,两个(或更多个)条形码的每个集合被附接至仅来自一个循环微米粒子的序列。其它细节提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
组合条形码过程可提供优于替代条形码过程的优势,形式为减少对精密和/或复杂设备的需求,以获得大量潜在的识别条形码集合,以便将条形码附接至来自循环微米粒子的序列(例如,来自基因组DNA的片段)。例如,跨越两个不同的条形码步骤使用96个不同的分区(例如,在分子生物学中广泛使用的标准96孔板的情况下将容易实施)的组合条形码过程可获得净值为(96×96=)9216的不同条形码集;与替代的非组合方法相比,这大大减少了执行这种索引所需的分区的量。通过增加条形码步骤的数目和/或增加在一个或多个这样的条形码步骤中采用的分区的数目,可另外实现显著更高水平的组合索引分辨率。此外,组合条形码过程可免除对用于替代条形码方法的复杂仪器(例如微流体仪器(例如10XGenomics Chromium系统))的需求。
8.通过空间测序或原位测序或原位库构建进行连接
本发明提供了一种制备用于测序的样品的方法,其中所述样品包含源自血液的微米粒子,且其中所述微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含:(a)准备用于测序的样品,其中微米粒子的靶核酸的至少两个片段通过其在测序装置上的彼此接近度而连接,以产生靶核酸的至少两个连接片段的集合;和(b)使用测序装置对靶核酸的每个连接片段进行测序,以产生至少两个连接序列读段。
核酸样品可包含至少两个源自血液的微米粒子,其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中该方法包含执行步骤(a)以针对每个微米粒子产生靶核酸的连接片段的集合,且其中每个微米粒子的靶核酸的片段在测序装置上在空间上是独特的,和执行步骤(b)以针对每个微米粒子产生连接序列读段。
来自微米粒子的至少两个片段可在测序装置本身之内或之上保持彼此的物理接近度,且其中此物理接近度是已知的,或可通过测序装置或通过其操作或在其操作期间确定或观察到,且其中物理接近度的此量度用于连接至少两个序列。
方法可包含使用原位库构建过程的测序。在所述方法中,可将来自样品的完整或部分完整的微米粒子放在测序仪上,且其中将靶核酸(例如基因组DNA)的两个或更多个片段加工成可在测序仪内进行测序的模板,即使用原位库构建过程的测序。原位库构建描述于Schwartz等人(2012)《美国国家科学院院刊(PNAS)》109(46):18749-54)中。
方法可包含原位测序。在所述方法中,样品可保持完整(例如大部分或部分完整),且可直接对微米粒子内的靶核酸(例如基因组DNA)的片段进行测序,例如使用如Lee等人.(2014)《科学(Science)》,343,6177,1360-1363中所述的‘FISSEQ’荧光原位测序技术方法。
任选地,可用化学交联剂使微米粒子样品交联,且接着将其放置在测序设备内或测序设备上,且接着保持彼此物理接近。任选地,来自放置在测序装置内或测序设备上的微米粒子的靶核酸(例如基因组DNA)的两个或更多个片段可接着通过测序过程来确定其全部或部分序列。任选地,可通过荧光原位测序技术对此类片段进行测序,其中所述片段的序列通过光学测序过程来确定。任选地,可将一个或多个偶联序列、衔接子序列或扩增序列附接至靶核酸的所述片段。任选地,可在扩增过程中扩增所述片段,其中扩增产物与扩增其的片段保持物理接近或物理接触。任选地,接着通过光学测序过程对这些扩增产物进行测序。任选地,将所述扩增产物附接于平坦表面,例如测序流通池。任选地,由单个片段产生的所述扩增产物各自构成流通池内的单个簇。任选地,在任何上述方法中,任何两个或更多个测序分子之间的距离通过测序设备内的配置是先验已知的,或可在测序过程中确定或观察到。任选地,每个测序分子被映射在簇的区域内或像素阵列内,其中任何两个或更多个测序分子之间的距离由所述簇或像素之间的距离确定。任选地,可使用距离或接近度的任何量度或估计来连接任何两个或更多个确定的序列。
任选地,可进一步评估通过上述任何方法确定的序列,其中将两个或更多个测序分子之间的距离或接近度的量度与一个或多个截止值或阈值进行比较,且仅将在特定范围内,或高于或低于特定阈值或截止值的分子确定为信息连接的。任选地,可采用两个或更多个这样的截止值或阈值或其范围的集合,使得可确定针对任何两个或更多个测序分子的不同程度和/或分类和/或类别的连接。
9.通过单独的测序过程进行连接
本发明提供了一种制备用于测序的样品的方法,其中所述样品包含源自血液的微米粒子,且其中所述微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且其中所述方法包含:(a)制备用于测序的样品,其中每个微米粒子的靶核酸(例如基因组DNA)的至少两个片段通过加载到单独的测序过程中进行连接,以产生靶核酸的至少两个连接片段的集合;和(b)使用测序设备对靶核酸的每个连接片段进行测序,以产生至少两个连接序列读段的集合(即,至少两个连接信号的集合)。
样品可包含至少两个源自血液的微米粒子,其中每个微米粒子含有靶核酸(例如基因组DNA)的至少两个片段,且方法可包含执行步骤(a)以产生每个微米粒子的靶核酸的连接片段,其中每个微米粒子的靶核酸的至少两个片段通过加载到单独的测序过程中进行连接,以及对每个测序过程执行步骤(b),以产生每个微米粒子的连接序列读段。
在所述方法中,可独立于其它微米粒子的片段对第一单个微米粒子(或微米粒子组)的片段进行测序,且将所得序列读段进行信息连接;独立于第一微米粒子或微米粒子组对第二单个微米粒子(或微米粒子组)中包含的片段进行测序,且将所得序列读段进行信息连接。
任选地,(所有测序过程中的)第一和第二测序过程用不同的测序仪器进行,和/或用相同的测序仪器,但在两个不同的时间或在两个不同的测序过程中进行。任选地,第一和第二测序过程用相同的测序仪器进行,但在测序仪器的两个不同区域、分区、隔室、导管、流通池、通道、纳米孔、微支架、微支架阵列或集成电路中进行。任选地,可通过上述方法连接3个或更多个、10个或更多个、1000个或更多个、1,000,000个或更多个或1,000,000,000个或更多个微米粒子或微米粒子组。
10.在连接之前扩增原始片段
如技术人员将理解的,如本文所用,术语‘片段’(例如‘基因组DNA的片段’或‘靶核酸的片段’或‘属于/来自微米粒子的基因组DNA的片段’)是指到存在于微米粒子中的原始片段以及其部分、拷贝或扩增子,包括原始片段的仅一部分的拷贝(例如其扩增子),以及修饰的片段或拷贝(例如已附接了一个偶联序列的片段)。例如,术语基因组DNA的片段是指存在于微米粒子中的原始基因组DNA片段,并且例如是指可通过引物延伸反应从原始基因组DNA的片段制备的DNA分子。作为另一个实例,术语mRNA片段是指存在于微米粒子中的原始mRNA片段,并且例如是指可通过逆转录从原始mRNA片段制备的cDNA分子。如本文所用,‘靶核酸的片段’还指带条形码的寡核苷酸(例如带条形码的亲和探针的带条形码的寡核苷酸)和本文所述的其它核酸试剂。
方法可在附接条形码序列的步骤之前,进一步包含例如通过引物延伸步骤或聚合酶链反应步骤来扩增微米粒子的靶核酸的原始片段的步骤。可接着使用本文所述的任何方法将条形码序列附接至靶核酸的原始片段的扩增子或拷贝。
引物延伸步骤或聚合酶链反应步骤可使用一种或多种含有一个或多个简并碱基的片段的引物来进行。
引物延伸步骤或聚合酶链反应步骤可使用对特定靶核酸序列(例如特定靶基因组DNA序列)具有特异性的一种或多种引物来进行。
扩增步骤可通过股置换聚合酶,例如Phi29DNA聚合酶,或Bst聚合酶或Bsm聚合酶,或phi29、Bst或Bsm聚合酶的修饰衍生物来进行。扩增可通过多置换扩增反应和含有一个或多个简并碱基的区域的引物集来进行。任选地,使用随机六聚体、随机七聚体、随机八聚体、随机九聚体或随机十聚体引物。
扩增步骤可包含通过DNA聚合酶延伸原始靶核酸片段中的单股切口。切口可通过具有单股DNA裂解行为的酶或序列特异性切口限制性核酸内切酶来产生。
扩增步骤可包含将至少一个或多个dUTP核苷酸掺入DNA股中,所述DNA股通过DNA聚合酶复制或扩增基因组DNA的一个或多个片段的至少一部分而合成,且其中通过尿嘧啶切除酶,例如尿嘧啶DNA糖基化酶来产生切口。
扩增步骤可包含在包含基因组DNA的片段的核酸上产生引发序列,其中引发序列是由引物酶,例如嗜热栖热菌(Thermus Thermophilus)PrimPol聚合酶或TthPrimPol聚合酶产生的,且其中DNA聚合酶是用于使用此引发序列作为引物来复制基因组DNA的片段的序列的至少一个核苷酸。
扩增步骤可通过线性扩增反应,例如通过体外转录过程进行的RNA扩增过程来进行。
扩增步骤可通过引物延伸步骤或聚合酶链反应步骤进行,且其中使用的一个或多个引物是对应于一个或多个通用引发序列的通用引物。通用引发序列可通过连接反应、通过引物延伸或聚合酶链反应或通过体外转座反应附接至基因组DNA的片段。
11.在连接之前将偶联序列附接至片段
在任何方法中,条形码序列可直接或间接(例如通过粘接或连接)附接至微米粒子的靶核酸(例如gDNA)的片段上。条形码序列可附接至被附接至片段的偶联序列(例如合成序列)。
在包含将微米粒子的靶核酸的至少两个片段连接在一起以产生单个核酸分子的方法中,可首先将偶联序列附接到至少两个片段中的每一个,且可接着通过偶联序列将所述片段连接在一起。
可将偶联序列附接至微米粒子的靶核酸的原始片段或其拷贝或扩增子。
可将偶联序列添加至核酸样品的两个或更多个片段的5′端或3′端。在此方法中,(带条形码的寡核苷酸的)靶区域可包含与偶联序列互补的序列。
偶联序列可包含在双股偶联寡核苷酸内或单股偶联寡核苷酸内。可通过双股连接反应或单股连接反应将偶联寡核苷酸附接至靶核酸。偶联寡核苷酸可包含能够与靶核酸连接的单股5′或3′区域,且可通过单股连接反应将偶联序列附接至靶核酸。
偶联寡核苷酸可包含能够连接至靶核酸的钝的、凹入的或突出的5′或3′区域,且偶联序列可通过双股连接反应附接至靶核酸。
靶核酸的末端可在钝化反应中转化为钝的双股末端,且偶联寡核苷酸可包含钝的双股末端,且其中偶联寡核苷酸可在钝末端连接反应中连接至靶核酸。
靶核酸的一个或多个末端可在钝化反应中转化为钝的双股末端,且接着转化为具有一个或多个单3′腺苷突出端的形式,且其中偶联寡核苷酸可包含具有单3′胸腺嘧啶突出端的双股末端,所述突出端能够粘接至靶核酸的单3′腺苷突出端,且其中偶联寡核苷酸在双股A/T连接反应中连接至靶核酸。
靶核酸可与限制酶接触,其中限制酶在限制位点消化靶核酸以在限制位点处产生一个或多个连接接合部,且其中偶联寡核苷酸包含与连接接合部相容的末端,且其中接着在双股连接反应中将偶联寡核苷酸连接至靶核酸。
可通过引物延伸或聚合酶链反应步骤附接偶联寡核苷酸。
可通过引物延伸或聚合酶链反应步骤,使用一个或多个包含引发区段的寡核苷酸来附接偶联寡核苷酸,所述引发片段包含一个或多个简并碱基。
可通过引物延伸或聚合酶链反应步骤,使用一个或多个寡核苷酸来附接偶联寡核苷酸,所述一个或多个寡核苷酸进一步包含对特定靶核酸序列具有特异性的引发或杂交区段。
可通过多核苷酸拖尾反应添加偶联序列。可通过末端转移酶(例如末端脱氧核苷酸转移酶)添加偶联序列。可通过用末端脱氧核苷酸转移酶进行的多核苷酸拖尾反应来附接偶联序列,且其中偶联序列包含均聚序列的至少两个连续核苷酸。
偶联序列可包含均聚3′尾(例如poly(A)尾)。任选地,在此类方法中,(带条形码的寡核苷酸的)靶区域包含互补的均聚3′尾(例如poly(T)尾)。
偶联序列可包含在合成转座体中,且可通过体外转座反应附接。
可将偶联序列附接至靶核酸,且其中通过至少一个引物延伸步骤或聚合酶链反应步骤将条形码寡核苷酸附接至靶核酸,且其中所述条形码寡核苷酸包含与所述偶联序列互补的长度为至少一个核苷酸的区域。任选地,此互补性区域在条形码寡核苷酸的3′端。任选地,此互补区域的长度为至少2个核苷酸,长度为至少5个核苷酸,长度为至少10个核苷酸,长度为至少20个核苷酸,或长度为至少50个核苷酸。
12.偶联分子和使用偶联分子进行微米粒子分析的方法
所述方法可包含:(a)将一个或多个偶联分子附接至属于或来自所述循环微米粒子的一个或多个靶生物分子以产生一个或多个附接的偶联分子,和(b)将一个或多个条形码序列连接至所述附接的偶联分子以产生一个或多个带条形码的附接的偶联分子。任选地,将一个或多个条形码序列连接至所述附接的偶联分子的任何此类步骤可包含将一个或多个带条形码的寡核苷酸附接至所述附接的偶联分子,任选地,其中所述带条形码的寡核苷酸包含在一种或多种多聚条形码试剂(例如两种或多种多聚条形码试剂的库)中。
所述方法可包含:(a)执行使所述样品交联的一个或多个步骤,(b)执行将一个或多个偶联分子附接至属于或来自所述循环微米粒子的一个或多个靶生物分子,以产生一个或多个附接的偶联分子的一个或多个步骤,和(c)将一个或多个条形码序列(例如带条形码的寡核苷酸,例如一种或多种多聚条形码试剂中包含的带条形码的寡核苷酸)连接至所述附接的偶联分子,以产生一个或多个带条形码的附接的偶联分子。任选地,在任何交联步骤之后,可执行使样品和/或微米粒子透化的一个或多个步骤。任选地,在任何交联步骤之后,可执行部分或完全反转交联的一个或多个步骤。任选地,在任何交联步骤之后,可执行部分或完全蛋白酶消化样品的一个或多个步骤。
任选地,在产生一个或多个带条形码的附接的偶联分子的任何一个或多个步骤之后,方法可任选地进一步包含一个或多个条形码连接步骤,其中将一个或多个条形码序列附接至一个或多个靶核酸分子。任选地,任何这样的一个或多个条形码连接步骤可包含将一个或多个带条形码的附接的偶联分子中的一个或多个条形码序列粘接和/或连接至所述带条形码的附接的偶联分子中的一个或多个靶核酸分子的过程。任选地,任何一个或多个条形码连接步骤可在使一个或多个微米粒子的样品交联的一个或多个步骤之后执行,和/或在部分或完全反转交联的一个或多个步骤之后执行,和/或在部分或完全蛋白酶消化的一个或多个步骤之后执行。
方法可包含:(a)执行使所述样品交联的一个或多个步骤,和(任选地)接着执行使所述样品透化的一个或多个步骤,(b)将一个或多个偶联分子附接至属于或来自所述循环微米粒子的一个或多个靶生物分子,以产生一个或多个(单和/或双和/或多)附接的偶联分子的一个或多个步骤,其中一个或多个此类靶生物分子包含靶核酸分子,(c)将至少一个条形码序列连接至所述附接的偶联分子以产生一个或多个带条形码的附接的偶联分子的一个或多个步骤(例如将至少一个带条形码的寡核苷酸,例如一种或多种多聚条形码试剂中包含的至少一个带条形码的寡核苷酸连接至所述附接的偶联分子以产生一个或多个带条形码的附接的偶联分子的一个或多个步骤),和(d)执行一个或多个条形码连接步骤,其中带条形码的附接的偶联分子中的条形码序列附接至所述带条形码的附接的偶联分子中的靶核酸分子,任选地,其中在执行一个或多个条形码连接步骤的步骤(d)之前和/或在期间执行逆转交联的一个或多个步骤和/或蛋白酶消化的一个或多个步骤,且任选地,其中一个或多个所述条形码连接步骤包含将带条形码的附接的偶联分子中的一个或多个条形码序列粘接和/或连接至所述带条形码的附接的偶联分子中的一个或多个靶核酸分子的一个或多个步骤。
方法可包含将一个或多个偶联分子附接至属于或来自所述循环微米粒子的一个或多个靶生物分子,以产生一个或多个附接的偶联分子的两个或更多个步骤。方法可包含将两个或更多个偶联分子附接至属于或来自所述循环微米粒子的一个或多个靶生物分子中的每一个,以产生一个或多个多重附接的偶联分子(即,一个或多个附接的偶联分子)的一个或多个步骤。方法可包含将第一偶联分子附接至属于或来自所述循环微米粒子的一个或多个靶生物分子中的每一个,以产生一个或多个单附接的偶联分子的第一步骤,且接着是将第二偶联分子附接至每个所述单附接的偶联分子,以产生一个或多个双附接的偶联分子(即,一个或多个附接的偶联分子)的第二步骤。可执行将偶联分子附接至单附接和/或双附接和/或多附接的偶联分子的任何数目的(依序或同时)步骤,以产生一个或多个多附接的偶联分子(即,一个或多个附接的偶联分子),任选地接着执行一个或多个反转交联的步骤,和/或任选地接着执行任何一个或多个条形码连接步骤。附接偶联分子的任何步骤可包含将偶联分子直接或间接附接至附接的偶联分子。
方法可包含稀释样品和/或衍生的样品和/或任何溶液和/或反应混合物的一个或多个步骤,其中样品中的核酸(例如DNA和/或RNA)的浓度和/或多肽的浓度被降至一定浓度或降至低于一定浓度,例如每微升少于1.0皮克的DNA(和/或RNA和/或蛋白质)、每微升少于10皮克的DNA(和/或RNA和/或蛋白质)、每微升少于100皮克的DNA(和/或RNA和/或蛋白质)、每微升少于1.0纳克的DNA(和/或RNA和/或蛋白质)、每微升少于10纳克的DNA(和/或RNA和/或蛋白质)、每微升少于100纳克的DNA(和/或RNA和/或蛋白质)或每微升少于1000纳克的DNA(和/或RNA和//或蛋白质)的浓度。任选地,可在分析包含一个或多个循环微米粒子的样品和/或衍生自一个或多个循环微米粒子的样品的任何方法期间,在任何一个或多个步骤和/或过程之前和/或期间和/或之后执行任何这样的稀释步骤。任选地,可在部分或完全反转交联的任何一个或多个步骤之后,和/或在蛋白酶消化的任何一个或多个步骤之后,和/或在任何一个或多个条形码连接步骤之前执行任何这样的稀释步骤。
将一个或多个偶联分子附接至属于或来自所述循环微米粒子的一个或多个靶生物分子和/或一个或多个(单和/或双和/或多重附接的)偶联分子的任何步骤可对一个,或两个,或大于两个,或所有,或任何数目和/或分数和/或部分的所述靶生物分子和/或所述(单和/或双和/或多重附接的)偶联分子进行。将一个或多个条形码序列与任何一个或多个附接的偶联分子连接的任何步骤可对一个,或两个,或大于两个,或所有,或任何数目和/或分数和/或部分的所述附接的偶联分子进行。任何条形码连接步骤(其中一个或多个条形码序列附接至一个或多个靶核酸分子)可对一个,或两个,或大于两个,或所有,或任何数目和/或分数和/或部分的所述靶核酸分子进行。任何条形码连接步骤(其中一个或多个带条形码的附接的偶联分子内的一个或多个条形码序列粘接和/或附接至所述带条形码的附接的偶联分子内的一个或多个靶核酸分子)可对一个,或两个,或大于两个,或所有,或任何数目和/或分数和/或部分的所述带条形码的附接的偶联分子进行。
在任何附接偶联分子的方法中,任何一个或多个靶生物分子可包含任何类型的靶核酸分子,例如基因组DNA的片段、mRNA分子或其片段、微小RNA分子、和/或带条形码的寡核苷酸(例如带条形码的亲和探针内的带条形码的寡核苷酸)和/或任何其它类型的靶核酸分子。任选地,在任何附接偶联分子的方法中,一个或多个靶生物分子可包含基因组DNA的一个或多个片段,以及附接至亲和部分的一个或多个寡核苷酸(即,带条形码的亲和探针内的一个或多个带条形码的寡核苷酸)。
任选地,在分析包含一个或多个循环微米粒子的样品和/或衍生自一个或多个循环微米粒子的样品的任何方法期间产生的任何一个或多个带条形码的附接的偶联分子可包含:一个或多个靶生物分子(例如靶核酸序列),附接至所述靶生物分子的一个或多个(第一)偶联分子(任选地,其中所述第一偶联分子可各自包含一个或多个偶联序列)),附接至所述(第一)偶联分子的一个或多个第二或其它偶联分子(任选地,其中所述第二或其它偶联分子可各自包含一个或多个偶联序列),任选地包含在一个或多个偶联分子中的每一个内的一个或多个连接部分(和/或连接分子),任选地包含在一个或多个偶联分子中的每一个内的一个或多个结合部分(和/或连接分子),和连接至任何一个或多个第一、第二和/或其它偶联分子的一个或多个条形码序列(例如一个或多个带条形码的寡核苷酸)。
任选地,任何一个或多个偶联分子可包含一个或多个偶联序列。
任选地,任何一个或多个偶联分子可包含一个或多个结合部分。
任选地,任何一个或多个偶联分子可包含一个或多个连接分子和/或连接部分(例如,安置于偶联序列与结合部分之间,或安置于两个不同的偶联序列之间,或安置于两个不同的结合部分之间的任何一个或多个连接分子)。任选地,任何一个或多个偶联分子可包含一个或多个衔接子序列。任选地,任何一个或多个偶联分子可包含一个或多个条形码序列。任选地,任何一个或多个偶联分子可包含一个或多个带条形码的寡核苷酸。任何连接分子和/或连接部分可包含生物聚合物(例如核酸分子)或合成聚合物。任何连接分子和/或连接部分可包含一个或多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。任何连接分子和/或连接部分可包含一个或多个乙基,如C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。任何连接分子可包含两个或更多个串联的连接部分,例如两个或更多个聚(乙二醇)连接部分,或两个或更多个C12或C18间隔基的序列或链(如串联和/或线性分子序列或链);任选地,任何连接分子可在链和/或线性序列中包含至少3个、至少4个、至少5个、至少10个或至少20个连接部分。
任选地,任何一个或多个偶联分子可包含一个或多个偶联序列,且进一步包含一个或多个结合部分,且进一步包含一个或多个连接分子和/或连接部分。
任选地,任何一个或多个偶联分子可包含至少第一和第二偶联序列,其中所述第一和第二偶联序列通过一个或多个连接分子彼此连接。
任选地,在任何方法中,任何一个或多个靶生物分子(例如任何一个或多个靶核酸分子)可具有至少1、至少2、至少3、至少5、至少10、至少50、至少100或至少1000个偶联分子,所述偶联分子直接和/或间接、按线性顺序和/或在所述靶生物分子内所包含的多个位点处与其附接和/或连接,且任选地涉及一种包含将偶联分子彼此附接/连接的多个连续和/或独立步骤(例如将第二偶联分子附接/连接至一个或多个先前附接/连接的第一偶联分子的至少2、至少5或至少10个连续步骤)的方法。
任选地,偶联分子可包含寡核苷酸序列(例如偶联序列)和结合部分,其中所述寡核苷酸序列和结合部分共价或非共价连接。任选地,偶联分子可包含寡核苷酸序列和结合部分,其中所述寡核苷酸序列和结合部分通过连接部分(例如,连接分子)连接。任选地,偶联分子可包含第一寡核苷酸序列,其按物理顺序连接至连接部分,且接着按后续物理顺序连接至结合部分。任选地,偶联分子可包含第一结合部分,其按物理顺序连接至连接部分,且接着按后续物理顺序连接至第二结合部分。
任选地,偶联分子可包含至少第一寡核苷酸序列和第二寡核苷酸序列,其中所述至少第一和第二寡核苷酸序列通过连接部分连接。任选地,偶联分子可包含寡核苷酸序列和两个或更多个结合部分,其中所述寡核苷酸序列和结合部分通过分支连接部分(例如包含两个或更多个乙基,例如两个或更多个间隔基部分,例如两个或更多个C3(三碳)间隔基,和/或C6间隔基,和/或C12间隔基,和/或C18间隔基的分支连接分子连接。任选地,偶联分子可包含三个或更多个结合部分,其中所述结合部分和结合部分通过分支或多分支的连接部分连接。
任选地,附接和/或连接的任何步骤(例如,附接偶联分子的任何步骤,和/或附接条形码序列的任何步骤)可通过连接和/或结合的任何方法来执行,例如共价或非共价结合的任何方法,粘接或杂交的任何方法(例如将两个互补寡核苷酸序列彼此粘接,例如将第一偶联序列粘接至第二偶联序列,或将带条形码的寡核苷酸内包含的序列粘接至偶联序列和/或衔接子序列的任何方法),任何连接方法(例如单股连接或双股连接,例如钝端或突出端介导的双股连接),或将生物素部分结合至抗生蛋白链菌素部分或抗生蛋白链菌素相关部分的任何方法,或将亲和部分与其具有亲和力的部分结合的任何方法(例如,将抗体与其靶表位结合的任何方法),或与点击化学有关的任何方法(例如任何铜(I)催化的叠氮化物-炔烃环加成(CuAC)反应、应变促进的叠氮化物-炔烃环加成(SPAAC)反应、应变促进的炔烃-硝酮环加成(SPANC)反应,或烯烃与四唑的光点击反应。
任何一个或多个结合部分可包含如下的任何分子和/或一类分子和/或大分子(和或其任何一个或多个部分,例如分子和/或大分子的任何一个或多个部分):能够结合至任何一个或多个其它分子或其部分(例如任何其它结合部分,或任何其它结合部分的任何部分),和/或具有结合至其和/或与其结合的优先和/或热力学和/或化学势。
任何一个或多个结合部分可包含以下中的任一个:生物素部分,抗生蛋白链菌素部分(和/或包含抗生蛋白链菌素的衍生物,例如中性抗生物素蛋白或抗生物素蛋白的任何部分),叠氮化物部分,炔烃部分,胺部分(例如伯胺),烯烃部分,反式-环辛烯部分,二苯并环辛炔部分,四嗪部分,半抗原部分(例如小分子半抗原部分,例如洋地黄毒苷),亲和部分的任何形式(例如抗体、抗体片段、适体(例如DNA适体或RNA适体),和/或任何亲和部分对其具有I-Linker(来自Integrated DNA Technologies)的亲和力和/或优先亲和力的任何表位,和/或丙烯酸酯(acrydite)部分。
13.方法的任选的其它步骤
方法可包含确定来自包含一个或多个循环微米粒子的样品的基因组DNA的一个或多个片段中至少一个修饰的核苷酸或核碱基的存在或不存在。方法可包含测量循环微米粒子的基因组DNA的片段中的修饰的核苷酸或核碱基(例如,测量修饰的核苷酸或核碱基)。测量值可以是循环微米粒子的分析的基因组DNA的片段(即,基因组DNA的连接片段)的总值,和/或测量值可以是每个分析的基因组DNA的片段的值。修饰的核苷酸或核碱基可以是5-甲基胞嘧啶或5-羟甲基胞嘧啶。
对来自循环微米粒子的基因组DNA的一个或多个片段中的一个或多个修饰的核苷酸或核碱基的测量使得能够进行各种分子和信息学分析,从而可补充所述片段本身的序列的测量。在一方面,对来自循环微米粒子的基因组DNA的片段内的所谓的‘表观遗传’标记的测量(即,‘表观基因组’的测量)使得能够与参考表观遗传序列和/或参考表观遗传序列的列表进行比较(和/或针对其进行映射)。与仅测量标准的4个(未修饰的)碱基和/或其传统的‘遗传’序列相比,这使得能够对来自循环微米粒子的基因组DNA的片段的序列进行‘正交’形式的分析。此外,测量修饰的核苷酸和/或核碱基可使得能够更精确地确定和/或估计已经产生一个或多个循环微米粒子的细胞和/或组织的类型。由于体内的不同细胞类型表现出不同的表观遗传特征,因此对来自循环微米粒子的基因组DNA的片段的表观基因组进行测量可使这种微米粒子到细胞类型的映射更精确。在所述方法中,可将来自循环微米粒子的基因组DNA的片段的表观遗传测量值与对应于特定的特异性组织内的甲基化和/或羟甲基化的参考表观遗传序列的一个(或多个)列表进行比较(例如映射)。这可使得能够阐明和/或富集来自特定组织类型和/或特定健康和/或患病组织(例如癌症组织)的微米粒子(例如,来自特定微米粒子的连接序列的集合)。例如,对循环微米粒子的基因组DNA的片段中修饰的核苷酸或核碱基的测量可使得能够识别源自癌细胞的基因组DNA的片段的连接序列(或连接序列读段)。在另一实例中,对循环微米粒子的基因组DNA的片段中的修饰的核苷酸或核碱基的测量可使得能够识别源自胎儿细胞的基因组DNA的片段的连接序列(或连接序列读段)。特定的修饰的核苷酸或核碱基的绝对量可与特定组织内的健康和/或疾病相关。例如,与正常健康组织相比,癌组织中的5-羟甲基胞嘧啶水平发生了很大变化;因此,对来自循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶进行测量可以更精确地检测和/或分析源自癌细胞的循环微米粒子。
方法可包含测量循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶(例如,测量循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶)。方法可包含测量循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶(例如,测量循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶)。
方法可包含测量循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶(例如,测量循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶),其中所述测量是使用与其它修饰或未修饰的碱基相比,对基因组DNA的片段中的5-甲基胞嘧啶具有特异性或优先结合所述5-甲基胞嘧啶的富集探针来进行的。方法可包含测量循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶(例如,测量循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶),其中所述测量是使用与其它修饰或未修饰的碱基相比,对基因组DNA的片段中的5-羟甲基胞嘧啶具有特异性或优先结合所述5-羟甲基胞嘧啶的富集探针来进行的。
方法可包含测量两个或更多个循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶(例如,测量第一循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶,和测量第二循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶)。方法可包含测量两个或更多个循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶(例如,测量第一循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶,和测量第二循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶)。
方法可包含测量两个或更多个循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶(例如,测量第一循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶和测量第二循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶),其中所述测量是使用与其它修饰或未修饰的碱基相比,对基因组DNA的片段中的5-甲基胞嘧啶具有特异性或优先结合所述5-甲基胞嘧啶的富集探针进行的。方法可包含测量两个或更多个循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶(例如,测量第一循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶和测量第二循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶),其中所述测量是使用与其它修饰或未修饰的碱基相比,对基因组DNA的片段中的5-羟甲基胞嘧啶具有特异性或优先结合所述5-羟甲基胞嘧啶的富集探针进行的。
方法可包含测量循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶(例如,测量循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶),其中所述测量是使用亚硫酸氢盐转化过程或氧化亚硫酸氢盐转化过程进行的。方法可包含测量循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶(例如,测量循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶),其中所述测量是使用亚硫酸氢盐转化过程或氧化亚硫酸氢盐转化过程进行的。
方法可包含测量两个或更多个循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶(例如,测量第一循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶和测量第二循环微米粒子的基因组DNA的片段中的5-甲基胞嘧啶),其中所述测量是使用亚硫酸氢盐转化过程或氧化亚硫酸氢盐转化过程进行的。方法可包含测量两个或更多个循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶(例如,测量第一循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶和测量第二循环微米粒子的基因组DNA的片段中的5-羟甲基胞嘧啶),其中所述测量是使用亚硫酸氢盐转化过程或氧化亚硫酸氢盐转化过程进行的。
任选地,来自包含一个或多个循环微米粒子的样品的两个或更多个组成部分的序列可以被确定为涉及确定来自所述样品的基因组DNA的一个或多个片段中存在或不存在至少一个修饰的核苷酸或核碱基。例如,可执行富集步骤以在含有修饰的碱基(例如5-甲基胞嘧啶或5-羟甲基胞嘧啶)的样品内富集基因组DNA的片段,其中可对包含已通过所述富集步骤富集的基因组DNA的片段的样品的第一组分部分进行测序,且还可对包含尚未通过所述富集步骤富集的基因组DNA的片段的样品的第二组分部分进行测序(例如,在单独的测序反应中测序)。任选地,样品的所述第二组成部分可包含在富集过程中产生的未富集的和/或上清液级分(例如,在富集过程中未与富集探针或亲和探针结合的级分)。任选地,原始样品可分为第一和第二子样品,其中第一子样品用于进行富集步骤以产生样品的第一组成部分,且其中样品的所述第二组成部分可包含第二非富集子样品。可对样品的两个或更多个富集和/或未富集和/或转化(例如,亚硫酸氢盐转化和/或氧化亚硫酸氢盐转化)和/或未转化的组成部分的任何组合进行测序。例如,包含一个或多个循环微米粒子的样品可用于产生三个组成部分,例如富集了5-甲基胞嘧啶DNA的组成部分(或者,已进行亚硫酸氢盐转化的组成部分)、富集了5-羟甲基胞嘧啶的组分部分(或者,已进行氧化亚硫酸氢盐转化的组成部分)和未富集(和/或未转化)的组成部分。任选地,样品的任何这样的两个或更多个组成部分可在单独的测序反应中单独测序(例如在单独的流通池内,或在单个流通池的独立通道内)。任选地,可将样品的任何两个或更多个这样的部分附接至识别条形码序列(例如,其将给定序列识别为在样品的富集或未富集的组成部分内),且接着在相同的测序过程内(例如在相同的流通池或流通池通道内)测序。
任选地,如本文所述的连接序列的任何方法(例如,通过附接条形码序列,例如通过附接来自多聚条形码试剂的条形码序列或通过附接来自两种或更多种多聚条形码试剂的库的条形码序列)可在任何此类富集和/或分子转化步骤之前执行(例如,其中对包含至少一个循环微米粒子或至少两个循环微米粒子的原始样品执行此类连接过程,其中接着将连接的序列用作富集或分子转化过程的输入序列)。
例如,可将包含两个或更多个循环微米粒子的样品附接至来自两种或更多种多聚条形码试剂的库的条形码序列,其中将来自第一多聚条形码试剂的第一和第二条形码序列附接至来自第一循环微米粒子的基因组DNA的第一和第二片段,且其中将来自第二多聚条形码试剂的第一和第二条形码序列附接至来自第二循环微米粒子的基因组DNA的第一和第二片段,且其中所得的附接有条形码的基因组DNA的片段富集了5-甲基胞嘧啶(和/或5-羟甲基胞嘧啶),且其中接着对富集的基因组DNA的片段进行测序,其中接着使用条形码序列来确定哪些富集的片段附接至来自相同多聚条形码试剂的条形码,且由此预测(或确定)在相同循环微米粒子中包含哪些富集片段。在此实例中,还可对未富集的基因组DNA的片段执行第二测序反应(例如,通过对富集步骤的上清液级分(即未捕获、未富集的级分)中的基因组DNA的片段进行测序,其中接着使用条形码序列来确定哪些未富集的片段附接至来自相同多聚条形码试剂的条形码,且由此预测(或确定)相同循环微米粒子中包含哪些未富集的片段。在此实例中,如果基因组DNA的富集和未富集的片段都如此进行了测序,则可因此预测(或确定)哪些富集的片段和哪些未富集的片段附接至来自相同多聚条形码试剂的条形码,且由此成为预测(或确定)哪些富集的片段和哪些未富集的片段包含在相同循环微米粒子中。也可以采用类似于此实例的方法,例如通过采用一种或多种分子转化方法,和/或例如通过制备、分析或测序样品的三个或多个组成部分(例如,富集了5-甲基胞嘧啶的组分部分、富集了5-羟甲基胞嘧啶的组成部分和未富集的组成部分)。
任选地,可在任何这样的富集和/或分子转化步骤之后执行如本文所述的连接序列的任何方法(例如,通过附接条形码序列,例如通过附接来自多聚条形码试剂或两种或更多种多聚条形码试剂的库的条形码序列)(例如,其中进行富集步骤以富集含有5-甲基胞嘧啶或含有5-羟甲基胞嘧啶的基因组DNA的片段,且其中接着通过本文所述的任何方法来连接经由此过程富集的基因组DNA的片段)。
方法可包含确定基因组DNA的片段中存在或不存在至少一种修饰的核苷酸或核碱基,其中执行富集步骤以富集含有所述修饰的碱基的基因组DNA的片段。此类修饰的碱基可包含5-甲基胞嘧啶或5-羟甲基胞嘧啶或任何其它修饰的碱基中的一种或多种。此类富集步骤可通过富集探针,例如抗体、酶、酶片段、或其它蛋白质、或适体、或任何其它探针执行,与其它修饰或未修饰的碱基相比,所述探针对所述修饰的碱基具有特异性或优先与所述修饰的碱基结合。此类富集步骤可通过能够对含有修饰的碱基的DNA分子进行酶修饰的酶来进行,所述酶例如葡糖基转移酶,例如5-羟甲基胞嘧啶葡糖基转移酶。任选地,可用5-羟甲基胞嘧啶葡糖基转移酶来确定基因组DNA的片段中5-羟甲基胞嘧啶的存在,其中5-羟甲基胞嘧啶葡糖基转移酶用于将葡萄糖部分从尿苷二磷酸葡萄糖转移至基因组DNA的片段中的修饰的碱基以产生葡糖基-5-羟甲基胞嘧啶碱基,任选地,其中接着检测所述葡糖基-5-羟甲基胞嘧啶碱基,例如用葡糖基-5-羟甲基胞嘧啶敏感性限制酶进行检测,其中抵抗被所述葡糖基-5-羟甲基胞嘧啶敏感性限制酶消化的基因组DNA的片段被视为含有修饰的5-羟甲基胞嘧啶碱基;任选地,可通过本文所述的任何方法对所述抵抗消化的基因组DNA的片段进行测序以确定其序列。任选地,如果附接了条形码序列,则此富集步骤可在附接条形码序列的步骤之前或在附接条形码序列的步骤之后执行。任选地,如果来自微米粒子的基因组DNA的片段的两个或更多个序列彼此附接,则此富集步骤可在将此类序列彼此附接的步骤之前或在将此类序列彼此附接的步骤之后执行。使用富集探针来测量基因组DNA的片段中的至少一个修饰的核苷酸或核碱基的任何方法可使用市售的富集探针或其它产品,例如市售的抗体,例如抗5-羟甲基胞嘧啶抗体ab178771(Abcam)或抗5-甲基胞嘧啶抗体ab10805(Abcam)来执行。此外,市售的产品和/或试剂盒也可用于此类方法的其它步骤,例如用于结合、回收和加工/洗涤结合的抗体和/或片段的蛋白A或蛋白G戴诺珠粒(ThermoFisher)。
方法可包含确定基因组DNA的片段中存在或不存在至少一个修饰的核苷酸或核碱基,其中执行分子转化步骤以将所述修饰的碱基转化为可在确定核酸序列的过程中检测到的不同的修饰或未修饰的核苷酸。此转化步骤可包含亚硫酸氢盐转化步骤、氧化亚硫酸氢盐转化步骤或任何其它分子转化步骤。任选地,如果附接了条形码序列,则此富集步骤可在附接条形码序列的步骤之前或在附接条形码序列的步骤之后执行。任选地,如果来自微米粒子的基因组DNA的片段的两个或更多个序列彼此附接,则此富集步骤可在将此类序列彼此附接的步骤之前或在将此类序列彼此附接的步骤之后执行。使用分子转化步骤来测量基因组DNA的片段中至少一个修饰的核苷酸或核碱基的任何方法可使用市售的分子转化试剂盒进行,例如EpiMark亚硫酸盐转化试剂盒(New England Biolabs),或TruMethyl SeqOxidative亚硫酸氢盐测序试剂盒(Cambridge Epigenetix)。
在执行分子转化步骤的任何方法中,可在分子转化过程之后将一个或多个衔接子寡核苷酸附接至基因组DNA的片段(和/或样品中的基因组DNA的片段的集合)的一个或两个末端。例如,可将单股衔接子寡核苷酸(例如,包含用于扩增(例如通过PCR扩增)的引物的结合位点)与单股连接酶连接至转化的基因组DNA的片段(和/或样品中的基因组DNA的片段的集合)的一个或两个末端。任选地,在分子转化步骤之前,可将条形码序列和/或衔接子序列(例如在带条形码的寡核苷酸内)附接至基因组DNA的片段(和/或样品中的基因组DNA的片段的集合)的一个末端,且接着在分子转化过程之后,可将衔接子寡核苷酸附接至基因组DNA的片段的第二末端。任选地,所述第二末端可包含在分子转化过程中产生的末端(即,其中基因组DNA的片段已经历了片段化过程,因此相对于其相应的原始片段产生了所述片段的一个或多个新末端。此类附接衔接子寡核苷酸的方法可具有允许进一步扩增和/或分析和/或测序在分子转化过程中已被片段化和/或降解的基因组DNA的片段的益处。
在执行分子转化步骤的任何方法中,任何衔接子寡核苷酸,和/或带条形码的寡核苷酸,和/或条形码序列,和/或任何偶联序列,和/或任何偶联寡核苷酸可包含一个或多个合成的5-甲基胞嘧啶核苷酸。任选地,任何衔接子寡核苷酸,和/或带条形码的寡核苷酸,和/或条形码序列,和/或任何偶联序列,和/或任何偶联寡核苷酸可被配置成使得其中包含的任何或所有胞嘧啶核苷酸是合成的5-甲基胞嘧啶核苷酸。任选地,可在分子转化步骤之前将包含一个或多个合成的5-甲基胞嘧啶核苷酸的任何衔接子寡核苷酸,和/或带条形码的寡核苷酸,和/或条形码序列,和/或任何偶联序列,和/或任何偶联寡核苷酸附接至基因组DNA的片段;替代地和/或另外,其可在分子转化步骤之后附接至基因组DNA的片段。所述衔接子和/或寡核苷酸和/或序列中的此类合成的5-甲基胞嘧啶核苷酸可具有减少或最小化其在分子转化过程(例如亚硫酸氢盐转化过程)中的降解和/或片段化的益处,因为其在此类过程中抵抗降解。
方法可包含确定基因组DNA的片段中存在或不存在至少一个修饰的核苷酸或核碱基,其中所述修饰的核苷酸或核碱基(例如5-甲基胞嘧啶或5-羟甲基胞嘧啶)是通过测序反应确定或检测的。任选地,所述测序反应可通过基于纳米孔的测序仪器,例如由OxfordNanopore Technologies生产的Minion、Gridion X5、Promethion和/或Smidgion测序仪器执行,其中在基因组DNA的片段通过测序仪器内的纳米孔易位的过程中,且通过分析在基因组DNA的片段的所述易位期间通过纳米孔设备的电流信号,确定了修饰的核苷酸或核碱基的存在。任选地,所述测序反应可通过基于零模波导的测序仪,例如由PacificBiosciences生产的Sequel或RSII测序仪器来执行,其中在测序仪器内的零模波导中合成基因组DNA的片段的至少一部分的拷贝的过程中,且通过分析在拷贝基因组DNA的片段的至少一部分的所述过程中从所述零模波导获得的光信号,确定了修饰的核苷酸或核碱基的存在。
在执行富集步骤和/或分子转化步骤的任何方法中,所述富集和/或转化可能是不完全的和/或效率小于100%。例如,可执行分子转化过程,使得少于100%的特定类别的靶向的修饰核苷酸(例如5-甲基胞嘧啶或5-羟甲基胞嘧啶)通过分子转化过程(例如亚硫酸氢盐转化或氧化亚硫酸氢盐转化)进行转化。例如,大约99%,或大约95%,或大约90%,或大约80%,或大约70%,或大约60%,或大约50%,或大约40%,或大约25%,或大约10%的此类靶向的修饰核苷酸可在此类分子转化过程中被转化。此不完全分子转化过程可通过限制进行分子转化过程的持续时间来执行(例如,通过使所述持续时间短于实现分子转化过程的完全或接近完全效率所采用的标准时间),从而平均实现所述目标转化效率。此类不完全分子转化过程可具有减少样品降解/碎片化和/或样品损失的量的益处,例如,这是许多分子转化过程(如亚硫酸氢盐转化)的特征。
类似地,在执行富集步骤的任何方法中,所述富集可以是不完全的和/或效率小于100%。例如,可执行5-甲基胞嘧啶(和/或5-羟甲基胞嘧啶)的富集步骤,其中在富集步骤(例如,使用亲和探针,例如对所述靶向的修饰核苷酸具有特异性的抗体的富集步骤)中捕获并回收约99%,或约95%,或约90%,或约80%,或约70%,或约60%,或约50%,或约40%,或约25%,或约10%的含有此类靶向的修饰核苷酸的基因组DNA的片段。任选地,可通过限制和/或减少在富集过程中使用的亲和探针的量和/或浓度来执行所述不完全富集(例如,通过使用不同量和/或浓度的所述亲和探针,以及任选地通过使用包含已知修饰核苷酸谱的DNA序列作为所述经验测试的评估指标来凭经验测试此类捕获的效率)。任选地,所述不完全富集可通过限制和/或减少在富集过程中亲和探针用于结合和/或捕获基因组DNA的靶片段的持续时间来执行(即,通过使用不同的培育时间,其中亲和探针能够与样品中的基因组DNA的潜在靶片段相互作用);例如,通过使用不同的培育持续时间,以及任选地通过使用包含已知修饰的核苷酸谱的DNA序列作为所述经验测试的评估指标来凭经验测试此类捕获的效率)。此类不完全富集可具有减少假阳性分子信号的益处(例如,其中在富集过程中捕获基因组DNA的片段,但其中所述片段不具有所需的靶修饰核苷酸)。另外,所述不完全富集可具有降低富集过程本身的成本和复杂性的益处。
方法可包含执行序列富集或序列捕获步骤,其中从基因组DNA的片段富集一个或多个特定基因组DNA序列。此步骤可通过任何执行序列富集的方法来进行,例如使用与所述序列互补的DNA寡核苷酸或与所述序列互补的RNA寡核苷酸,或通过采用引物延伸靶标富集步骤的步骤,或通过采用分子倒置探针组的步骤,或通过采用挂锁探针组的步骤。任选地,如果附接了条形码序列,则此富集步骤可在附接条形码序列的步骤之前或在附接条形码序列的步骤之后执行。任选地,如果来自微米粒子的基因组DNA的片段的两个或更多个序列彼此附接,则此富集步骤可在将此类序列彼此附接的步骤之前或在将此类序列彼此附接的步骤之后执行。
方法可包含执行序列耗尽或序列去除步骤,其中从基因组DNA的片段(和/或从RNA的片段或分子)耗尽和/或去除一个或多个特定基因组DNA序列(和/或特定RNA序列)。此步骤可通过任何执行序列耗尽或去除的方法来执行,例如使用与所述序列互补的DNA寡核苷酸或与所述序列互补的RNA寡核苷酸。任选地,任何此类去除和/或去除步骤可包含耗尽或去除核糖体RNA序列。
方法可包含富集至少1、至少5、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少100,000、至少1,000,000或至少10,000,000个不同的基因组DNA的片段。
在所述方法中,每个独特的输入分子可在测序反应中平均进行测序至少1.0次,平均至少1.5次,平均至少2.0次,平均至少3.0次,平均至少5.0次,平均至少10.0次,平均至少20.0次,平均至少50.0次,或平均至少100次。任选地,在测序反应中至少测序两次(即,用至少两个序列读段进行冗余测序)的独特输入分子被用于检测和/或去除由测序反应所致的所述至少两个序列读段之间的测序误差或不一致。
在执行测序反应之前和/或在执行扩增反应之前,可执行核苷酸修复反应,其中损坏和/或切除的碱基或寡核苷酸被去除和/或修复。任选地,所述修复反应可在以下中的一种或多种的存在下进行:水生栖热菌DNA连接酶、大肠杆菌核酸内切酶IV、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)DNA聚合酶、大肠杆菌甲酰胺基嘧啶[fapy]-DNA糖基化酶、大肠杆菌尿嘧啶DNA糖基化酶、T4核酸内切酶V和大肠杆菌核酸内切酶VIII。
在所述方法中,可在测序步骤之前和/或在例如PCR扩增步骤的扩增步骤之前附接通用衔接子序列(例如一个或两个通用衔接子序列)。任选地,可如下地添加一个或多个此类通用衔接子序列:通过随机引发或基因特异性引物延伸步骤、通过体外转座反应(其中一个或多个所述通用衔接子序列包含在合成转座体中)、通过双股或单股连接反应(有或没有前面的片段化步骤,例如化学片段化步骤、声音或机械片段化步骤或酶促片段化步骤;以及任选地有或没有钝化和/或3′A-拖尾步骤)。
包含酶促产生的拷贝或酶促产生的互补序列的条形码序列
一个或多个条形码序列可包含在寡核苷酸内(例如包含在带条形码的寡核苷酸内),所述寡核苷酸包含条形码序列的酶促产生的拷贝或酶促产生的互补序列。
任选地,一个或多个条形码序列可包含在带条形码的寡核苷酸内,其中所述带条形码的寡核苷酸的条形码区域包含条形码序列的酶促产生的拷贝或酶促产生的互补序列。任选地,一个或多个条形码序列可包含在带条形码的寡核苷酸内,其中所述带条形码的寡核苷酸的条形码区域包含条形码分子内包含的条形码序列的酶促产生的互补序列。任选地,一个或多个条形码序列可包含在带条形码的寡核苷酸内,其中所述带条形码的寡核苷酸的条形码区域包含条形码分子内包含的条形码序列的酶促产生的拷贝。
任选地,一个或多个条形码序列可包含在带条形码的寡核苷酸内,其中所述带条形码的寡核苷酸的条形码区域包含多聚条形码分子内包含的条形码序列的酶促产生的互补序列。任选地,一个或多个条形码序列可包含在带条形码的寡核苷酸内,其中所述带条形码的寡核苷酸的条形码区域包含多聚条形码分子内包含的条形码序列的酶促产生的拷贝。
任选地,一个或多个条形码序列可包含在第一带条形码的寡核苷酸内,其中所述带条形码的寡核苷酸的条形码区域包含第二带条形码的寡核苷酸内包含的条形码序列的酶促产生的互补序列。任选地,一个或多个条形码序列可包含在第一带条形码的寡核苷酸内,其中所述带条形码的寡核苷酸的条形码区域包含第二带条形码的寡核苷酸内包含的条形码序列的酶促产生的拷贝。
用于拷贝、复制和/或合成核酸序列的任何酶促过程都可用于产生条形码序列的酶促产生的拷贝或酶促产生的互补序列。任选地,可采用引物延伸过程。任选地,可采用引物延伸过程,其中在引物延伸步骤中拷贝包含在条形码分子内(和/或包含在多聚条形码分子内,和/或包含在带条形码的寡核苷酸内)的条形码序列,且其中引物延伸步骤的所得引物延伸产物包含条形码序列的全部或部分(例如包含带条形码的寡核苷酸的全部或部分),接着将其附接至来自循环微米粒子的核酸的序列(例如,附接至来自循环微米粒子的基因组DNA的片段的序列)。
任选地,可采用聚合酶链反应(PCR)过程。任选地,可采用聚合酶链反应(PCR)过程,其中在PCR延伸步骤中拷贝包含在条形码分子内(和/或包含在多聚条形码分子内,和/或包含在带条形码的寡核苷酸内)的条形码序列,且其中PCR延伸步骤的所得延伸产物包含条形码序列的全部或部分(例如,包含带条形码的寡核苷酸的全部或部分),接着将其附接至来自循环微米粒子的核酸的序列(例如,附接至来自循环微米粒子的基因组DNA的片段的序列)。任选地,可采用聚合酶链反应(PCR)过程,其中在至少两个连续PCR延伸步骤中拷贝包含在条形码分子内(和/或包含在多聚条形码分子内,和/或包含在带条形码的寡核苷酸内)的条形码序列(例如在至少第一PCR循环中,且接着在第二PCR循环中进行拷贝),且其中至少两种所得PCR延伸产物各自包含条形码序列的全部或部分(例如,包含带条形码的寡核苷酸的全部或部分),接着将其附接至来自循环微米粒子的核酸的序列(例如,附接至来自循环微米粒子的基因组DNA的片段的序列)。
任选地,可采用滚环扩增(RCA)过程。任选地,可采用滚环扩增(RCA)过程,其中在滚环扩增步骤中拷贝包含在条形码分子内(和/或包含在多聚条形码分子内,和/或包含在带条形码的寡核苷酸内)的条形码序列。例如,如图7中所示。此类方法的其它细节提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何此类过程可在单个反应体积中执行。任选地,产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何此类过程可在两个或更多个不同反应体积中执行(即,在两个或更多个不同分区中执行)。任选地,产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何此类过程可在至少3、至少5、至少10、至少50、至少100、至少500、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000或至少100,000,000个不同反应体积(和/或分区)中执行。
任选地,产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何此类过程可在包含来自一个或多个循环微米粒子的核酸序列的反应体积中(例如在包含一个或多个循环微米粒子的反应体积中)执行。任选地,产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的过程可在包含来自样品的第一循环微米粒子的核酸序列(例如包含来自样品的第一循环微米粒子的基因组DNA的片段,和/或包含来自样品的第一循环微米粒子)的第一反应体积中执行,且在包含来自样品的第二循环微米粒子的核酸序列(例如包含来自样品的第二循环微米粒子的基因组DNA的片段,和/或包含来自样品的第二循环微米粒子)的第二反应体积中执行。
任选地,产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的过程可在N个不同反应体积中执行,其中每个此类反应体积包含至少一个条形码序列并且进一步包含来自样品的循环微米粒子的核酸序列(例如进一步包含来自样品的循环微米粒子的基因组DNA的片段,和/或进一步包含来自样品的循环微米粒子),其中N为至少2、至少3、至少5、至少10、至少50、至少100、至少500、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000或至少100,000,000。任选地、跨越N个不同反应体积的条形码序列可在一起包含至少2个、至少3个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少10,000个、至少100,000、至少1,000,000、至少10,000,000或至少100,000,000个不同的条形码序列。
任选地,产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的过程可在包含第一条形码序列且进一步包含样品的第一循环微米粒子的核酸序列(例如进一步包含来自样品的第一循环微米粒子的基因组DNA的片段,和/或进一步包含来自样品的第一循环微米粒子)的第一反应体积中执行,以及在包含第二条形码序列且进一步包含样品的第二循环微米粒子的核酸序列(例如,进一步包含来自样品的第二循环微米粒子的基因组DNA的片段,和/或进一步包含来自样品的第二循环微米粒子)的第二反应体积中执行,其中第一条形码序列不同于第二条形码序列。
任选地,产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的过程可在包含样品的第一循环微米粒子的核酸序列(例如,包含样品的第一循环微米粒子的基因组DNA的片段)的第一反应体积中执行,其中至少来自第一反应体积的条形码序列的第一和第二酶促产生的拷贝和酶促产生的条形码序列的互补序列被附接至样品的第一循环微米粒子的核酸序列,以及在包含样品的第二循环微米粒子的核酸序列(例如,包含样品的第二循环微米粒子的基因组DNA的片段)的第二反应体积中执行,其中至少来自第二反应体积的条形码序列的第一和第二酶促产生的拷贝和酶促产生的条形码序列的互补序列被附接至样品的第二循环微米粒子的核酸序列。
任选地,可对包含两个或更多个条形码序列的库执行(和/或在其上执行或用其执行)产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何过程。任选地,可对包含两个或更多个条形码分子的库执行(和/或在其上执行或用其执行)产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何过程。任选地,可对包含两个或更多个多聚条形码分子的库执行(和/或在其上执行或用其执行)产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何过程。任选地,可对包含两种或更多种多聚条形码试剂的库执行(和/或在其上执行或用其执行)产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何过程。任选地,可对包含两个或更多个带条形码的寡核苷酸的库执行(和/或在其上执行或用其执行)产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何过程。
任选地,产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何过程可进一步包含在附接步骤中将条形码序列的任何一个或多个酶促产生的拷贝或酶促产生的互补序列附接至循环微米粒子的一个或多个核酸序列中的每一个(例如,附接至循环微米粒子的基因组DNA的片段)。任选地,任何一个或多个此类附接步骤可包含杂交步骤(例如,将带条形码的寡核苷酸与核酸序列杂交的步骤)、杂交和延伸杂交的步骤(例如,将带条形码的寡核苷酸与核酸序列杂交且接着用聚合酶延伸杂交的带条形码的寡核苷酸的步骤),和/或连接步骤(例如,将带条形码的寡核苷酸连接至核酸序列的步骤)。在任何一个或多个此类附接步骤之后,包含条形码序列和来自所述条形码序列已附接的循环微米粒子的核酸的序列的核酸序列可接着进行测序步骤。
任选地,产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何过程可进一步包含将条形码序列的任何一个或多个酶促产生的拷贝或酶促产生的互补序列附接至循环微米粒子的一个或多个核酸序列中的每一个(例如,附接至循环微米粒子的基因组DNA的片段),其中所述循环微米粒子的核酸序列进一步包含偶联序列。可采用本文所述的任何偶联序列和/或附接偶联序列的方法,和/或将条形码序列附接至偶联序列(和/或包含偶联序列的寡核苷酸)的方法。
任选地,产生条形码序列的酶促产生的拷贝或酶促产生的互补序列,且进一步包含将条形码序列的任何一个或多个酶促产生的拷贝或酶促产生的互补序列附接至循环微米粒子的核酸序列的任何过程可进一步包含使循环微米粒子化学交联(和/或使包含两个或更多个循环微米粒子的样品化学交联)的步骤。任选地,所述化学交联步骤可在将循环微米粒子和/或条形码分子划分为两个或更多个不同的分区的步骤之前和/或之后进行。任选地,在所述化学交联步骤之后可以是例如通过高温热培育步骤来逆转所述交联的步骤。任选地,产生条形码序列的酶促产生的拷贝或酶促产生的互补序列,且进一步包含将条形码序列的任何一个或多个酶促产生的拷贝或酶促产生的互补序列附接至循环微米粒子的核酸序列的任何过程可进一步包含例如用高温培育步骤和/或用化学表面活性剂使所述循环微米粒子透化的步骤。
任选地,可用本文所述的任何数目和/或类型和/或体积的分区来执行产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何过程。任选地,在一个或多个分区中产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何过程可包含一个或多个分区,其包含任何数目的本文所述的循环微米粒子。任选地,在一个或多个分区中产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何过程可包含一个或多个分区,其包含任何数目(或平均数目)的本文所述的循环微米粒子。任选地,在一个或多个分区中产生条形码序列的酶促产生的拷贝或酶促产生的互补序列的任何过程可包含一个或多个分区,其包含任何质量(或平均质量)的来自本文所述的循环微米粒子的核酸(例如任何质量的基因组DNA的片段)。
为了分析来自循环微米粒子的连接序列,产生酶促产生的条形码序列的拷贝和/或酶促产生的条形码序列的互补序列的方法可具有多种所需的特性和特征。在第一种情况下,产生条形码序列的酶促产生的拷贝和/或酶促产生的互补序列使得能够仅使用少量起始条形码序列材料即可产生较大绝对质量的条形码序列(例如,较大绝对质量的条形码分子或带条形码的寡核苷酸)(例如,PCR和RCA处理可产生输入材料的巨大指数扩增,以供后续使用和操作)。
此外,产生条形码序列的酶促产生的拷贝和/或酶促产生的互补序列,其中此类条形码序列包含在库内(例如包含在条形码分子的库、多聚条形码分子的库、多聚条形码试剂的库和/或带条形码的寡核苷酸的库内),使得能够产生定义的序列特征的大绝对质量的条形码序列(例如,其中大绝对质量的条形码序列包含来自先前建立的和/或先前表征的一个或多个库的序列)。
此外,许多酶促拷贝和扩增过程(例如通过phi29聚合酶进行的滚环扩增,以及通过热稳定聚合酶(例如Phusion聚合酶)进行的引物延伸和/或PCR扩增)在所述复制期间显示出高分子精确度(就新拷贝的序列内的误差产生率来说),且因此与非酶法相比(例如与标准化学寡核苷酸合成程序,例如胺基磷酸酯寡核苷酸合成相比),显示出有利的所得条形码序列(例如所得条形码分子、多聚条形码分子和/或带条形码的寡核苷酸)的精确度分布。
此外,酶促拷贝和扩增过程(例如引物延伸和PCR过程)高度适合于所述序列的修饰、加工和官能化的后续步骤,这还可能具有其自身可以相对简单的方式在大绝对质量的底物上实现的益处。例如,引物延伸产物易于配置和/或可配置用于随后的连接过程(例如,在引物延伸和连接过程中,例如可进行以产生带条形码的寡核苷酸和/或多聚条形码试剂)。并且进一步举例来说,酶促拷贝过程的直接产物本身(例如,其中条形码序列的互补序列/拷贝粘接至条形码序列本身)可具有所需的功能和/或结构特性。例如,通过酶促引物延伸过程产生的带条形码的寡核苷酸在单个大分子复合物中保持结构性系拴(通过粘接的核苷酸序列)至条形码分子(例如多聚条形码分子),所述带条形码的寡核苷酸沿所述条形码分子产生,所述复合物可接着进一步处理和/或官能化为溶液中的单一完整试剂。
14.多聚条形码试剂的一般特性
使用多聚条形码试剂表现出多种适用于连接来自循环微米粒子的序列的特征和功能。在第一种情况下,此类试剂(和/或其库)可包含定义非常明确、特征明确的条形码集合,其可为后续生物信息学分析提供信息且增强所述分析(例如,涉及已知和/或凭经验确定的序列的多聚条形码分子和/或多聚条形码试剂的使用)。此外,此类试剂使得能够立即极容易地对多个条形码序列进行分区和/或进行其它分子或生物物理过程(即,由于每种此类试剂中都包含多个条形码序列,因此其在溶液中以及在液体处理和/或加工步骤过程中自动‘一起移动’)。此外,此类试剂本身的多个条形码序列之间的接近性可实现新的功能分析形式,例如使循环微米粒子交联,且接着将来自此类多聚试剂的序列附接至其中包含的基因组DNA的片段(包括例如在其溶液相反应中,即在单个分区中有两个或更多个微米粒子)。
本发明提供了用于标记一种或多种靶核酸的多聚条形码试剂。多聚条形码试剂包含连接在一起(直接或间接)的两个或更多个条形码区域。
每个条形码区域包含核酸序列。核酸序列可以是单股DNA、双股DNA或具有一个或多个双股区域的单股DNA。
每个条形码区域可包含识别多聚条形码试剂的序列。例如,此序列可以是由单一多聚条形码试剂的所有条形码区域共享的恒定区。每个条形码区域可包含在其它区域中不存在的独特序列,因此可用来独特地识别每个条形码区域。每个条形码区域可包含至少5、至少10、至少15、至少20、至少25、至少50或至少100个核苷酸。优选地,每个条形码区域包含至少5个核苷酸。优选地,每个条形码区域包含脱氧核糖核苷酸,任选地,条形码区域中的所有核苷酸都是脱氧核糖核苷酸。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。条形码区域可包含一个或多个简并核苷酸或序列。条形码区域可不包含任何简并核苷酸或序列。
多聚条形码试剂可包含至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000或至少10,000个条形码区域。优选地,多聚条形码试剂包含至少5个条形码区域。
多聚条形码试剂可包含至少2、至少3、至少4、至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000、至少104、至少105或至少106个独特或不同的条形码区域。优选地,多聚条形码试剂包含至少5个独特或不同的条形码区域。
多聚条形码试剂可包含:连接在一起的第一和第二条形码分子(即,多聚条形码分子),其中每个条形码分子含有包含条形码区域的核酸序列。
可将多聚条形码分子的条形码分子连接在核酸分子上。多聚条形码分子的条形码分子可包含在(单个)核酸分子内。多聚条形码分子可含有包含两个或更多个条形码分子的单个连续核酸序列。多聚条形码分子可以是单股核酸分子(例如单股DNA)、双股核酸分子或包含一个或多个双股区域的单股分子。多聚条形码分子可包含一个或多个能够与其它核酸分子的3′端连接的磷酸化5′端。多聚条形码分子和多聚条形码试剂的其它细节提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
条形码分子可通过载体,例如大分子、固体载体或半固体载体连接。连接至每个载体的条形码分子的序列可为已知的。条形码分子可直接或间接(例如经由连接分子)连接至载体。条形码分子可通过结合到载体和/或通过结合或粘接到与载体结合的连接分子而连接。条形码分子可通过共价键、非共价键(例如蛋白质-蛋白质相互作用或抗生蛋白链菌素-生物素键)或核酸杂交与载体(或连接分子)结合。连接分子可为生物聚合物(例如核酸分子)或合成聚合物。连接分子可包含一个或多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。连接分子可包含一个或多个乙基,如C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。连接分子可包含任何单个连接子的至少2、至少3、至少4、至少5、至少10或至少20个连续重复单元(例如至少2、至少5或至少10个C12间隔基或C18间隔基的连续线性系列)。连接分子可包含分支连接分子,其中2个或更多个条形码分子通过单个连接分子连接至载体。
条形码分子可通过与大分子结合和/或通过与大分子粘接而通过大分子连接。
条形码分子可直接或间接(例如经由连接分子)连接至大分子。条形码分子可通过结合到大分子和/或通过结合或粘接到与大分子结合的连接分子而连接。条形码分子可通过共价键、非共价键(例如蛋白质-蛋白质相互作用或抗生蛋白链菌素-生物素键)或核酸杂交与大分子(或连接分子)结合。连接分子可为生物聚合物(例如核酸分子)或合成聚合物。连接分子可包含一个或多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。连接分子可包含一个或多个乙基,如C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。
大分子可以是合成聚合物(例如树枝状聚合物)或生物聚合物,例如核酸(例如单股核酸,例如单股DNA)、肽、多肽或蛋白质(例如多聚蛋白质)。
树枝状聚合物可包含至少2、至少3、至少5或至少10代。
大分子可以是包含两个或更多个各自能够结合至条形码分子的核苷酸的核酸。另外或替代地,核酸可包含两个或更多个各自能够与条形码分子杂交的区域。
核酸可包含第一修饰的核苷酸和第二修饰的核苷酸,其中每个修饰的核苷酸包含能够与条形码分子结合的结合部分(例如生物素部分,或可用于点击化学反应的炔烃部分)。任选地,第一和第二修饰的核苷酸可由至少一个、至少两个、至少5个或至少10个核苷酸的中间核酸序列分开。
核酸可包含第一杂交区域和第二杂交区域,其中每个杂交区域包含与条形码分子内的至少一个核苷酸的序列互补且能够与其杂交的序列。互补序列可以是至少5、至少10、至少15、至少20、至少25或至少50个连续核苷酸。优选地,互补序列是至少10个连续核苷酸。任选地,第一和第二杂交区可被至少一个、至少两个、至少5个或至少10个核苷酸的中间核酸序列隔开。
大分子可以是蛋白质,例如多聚蛋白质,例如同聚蛋白质或异聚蛋白质。例如,蛋白质可包含抗生蛋白链菌素,例如四聚抗生蛋白链菌素。
载体可以是固体载体或半固体载体。载体可包含平坦表面。载体可以是载片,例如载玻片。载片可以是用于测序的流通池。如果载体是载片,则第一和第二条形码分子可被固定在载片上的离散区域中。任选地,将库中的每种多聚条形码试剂的条形码分子在载片上的不同离散区域中固定至库中的其它多聚条形码试剂的条形码分子。载体可以是包含孔的板,任选地,其中第一和第二条形码分子固定在相同孔中。任选地,将库中的每种多聚条形码试剂的条形码分子在板的不同孔中固定至库中的其它多聚条形码试剂的条形码分子。
优选地,载体是珠粒(例如凝胶珠粒)。珠粒可以是琼脂糖珠粒、二氧化硅珠粒、聚苯乙烯泡沫珠粒、凝胶珠粒(例如可从10x购得的那些)、抗体结合珠粒、oligo-dT结合珠粒、抗生蛋白链菌素珠粒或磁性珠粒(例如超顺磁珠粒)。珠粒可具有任何尺寸和/或分子结构。例如,珠粒的直径可为10纳米至100微米,直径为100纳米至10微米,或直径为1微米至5微米。任选地,珠粒的直径为约10纳米,直径为约100纳米,直径为约1微米,直径为约10微米或直径为约100微米。珠粒可以是实心的,或者珠粒可以是中空的或部分中空的或多孔的。对于某些条形码方法,某些尺寸的珠粒可能是最优选的。例如,小于5.0微米或小于1.0微米的珠粒对于条形码编码单个细胞内的核酸靶标可能是最有用的。优选地,库中的每种多聚条形码试剂的条形码分子在不同的珠粒上与库中的其它多聚条形码试剂的条形码分子连接在一起。
载体可经官能化以使得能够连接两个或更多个条形码分子。可通过添加化学部分(例如羧化基团、炔烃、叠氮基、丙烯酸酯基、氨基、硫酸酯基或丁二酰亚胺基)和/或基于蛋白质的部分(例如抗生蛋白链菌素、抗生物素蛋白或蛋白G)来实现这种官能化。条形码分子可直接或间接(例如经由连接分子)连接至所述部分。
可在促进两个或更多个条形码分子连接至溶液中的每个珠粒(产生多聚条形码试剂)的条件下使官能化载体(例如珠粒)与条形码分子的溶液接触。
在多聚条形码试剂的库中,库中的每种多聚条形码试剂的条形码分子可在不同的载体上与库中的其它多聚条形码试剂的条形码分子连接在一起。
多聚条形码试剂可包含:连接在一起的至少2、至少3、至少4、至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000、至少104、至少105或至少106个条形码分子,其中每个条形码分子如本文所定义;以及与每个条形码分子粘接的带条形码的寡核苷酸,其中每个带条形码的寡核苷酸如本文所定义。优选地,多聚条形码试剂包含连接在一起的至少5个条形码分子,其中每个条形码分子如本文所定义;以及与每个条形码分子粘接的带条形码的寡核苷酸,其中每个带条形码的寡核苷酸如本文所定义。
多聚条形码试剂可包含:连接在一起的至少2、至少3、至少4、至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000、至少104、至少105或至少106个独特或不同的条形码分子,其中每个条形码分子如本文所定义;以及与每个条形码分子粘接的带条形码的寡核苷酸,其中每个带条形码的寡核苷酸如本文所定义。优选地,多聚条形码试剂包含连接在一起的至少5个独特或不同的条形码分子,其中每个条形码分子如本文所定义;以及与每个条形码分子粘接的带条形码的寡核苷酸,其中每个带条形码的寡核苷酸如本文所定义。
多聚条形码试剂可包含两个或更多个如本文所定义的带条形码的寡核苷酸,其中带条形码的寡核苷酸各自包含条形码区域。多聚条形码试剂可包含:至少2、至少3、至少4、至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000、至少10,000、至少100,000或至少1,000,000个独特或不同的带条形码的寡核苷酸。优选地,多聚条形码试剂包含至少5个独特或不同的带条形码的寡核苷酸。
多聚条形码试剂的带条形码的寡核苷酸连接在一起(直接或间接)。如本文所述,多聚条形码试剂的带条形码的寡核苷酸通过载体,例如大分子、固体载体或半固体载体连接在一起。多聚条形码试剂可包含一种或多种与带条形码的寡核苷酸粘接或连接的聚合物。例如,可将多聚条形码试剂的带条形码的寡核苷酸粘接至多聚杂交分子,例如多聚条形码分子。或者,多聚条形码试剂的带条形码的寡核苷酸可通过大分子(例如合成聚合物,例如树枝状聚合物,或生物聚合物,例如蛋白质)或载体(例如固体载体或半固体载体,例如凝胶珠粒)连接在一起。另外或替代地,(单个)多聚条形码编码剂的带条形码的寡核苷酸可通过包含在(单个)脂质载体(例如脂质体或胶束)内而连接在一起。
多聚条形码试剂的带条形码的寡核苷酸可包含:第一带条形码的寡核苷酸,其任选地在5′至3′方向上包含条形码区域和能够粘接或连接至靶核酸的第一片段的靶区域;和第二带条形码的寡核苷酸,其任选地在5′至3′方向上包含条形码区域和能够粘接或连接至靶核酸的第二片段的靶区域。
多聚条形码试剂的带条形码的寡核苷酸可包含:第一带条形码的寡核苷酸,其包含条形码区域和能够与靶核酸的第一片段连接的靶区域;和第二带条形码的寡核苷酸,其包含条形码区域和能够与靶核酸的第二片段连接的靶区域。
多聚条形码试剂的带条形码的寡核苷酸可包含:第一带条形码的寡核苷酸,其在5′至3′方向上包含条形码区域和能够粘接至靶核酸的第一片段的靶区域;和第二带条形码的寡核苷酸,其在5′至3′方向上包含条码区域和能够粘接至靶核酸的第二片段的靶区域。
15.带条形码的寡核苷酸的一般特性
带条形码的寡核苷酸包含条形码区域。带条形码的寡核苷酸可任选地在5′至3′方向上包含条形码区域和靶区域。靶区域能够粘接或连接至靶核酸的片段。或者,带条形码的寡核苷酸可基本上由条形码区域组成或由条形码区域组成。
带条形码的寡核苷酸的5′端可被磷酸化。这可使得带条形码的寡核苷酸的5′端能够连接至靶核酸的3′端。或者,带条形码的寡核苷酸的5′端可被磷酸化。
带条形码的寡核苷酸可以是单股核酸分子(例如单股DNA)。带条形码的寡核苷酸可包含一个或多个双股区。带条形码的寡核苷酸可以是双股核酸分子(例如双股DNA)。
带条形码的寡核苷酸可包含脱氧核糖核苷酸或由其组成。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。带条形码的寡核苷酸可包含一个或多个简并核苷酸或序列。带条形码的寡核苷酸可不包含任何简并核苷酸或序列。
每个带条形码的寡核苷酸的条形码区可包含不同序列。每个条形码区域可包含识别多聚条形码试剂的序列。例如,此序列可以是由单一多聚条形码试剂的所有条形码区域共享的恒定区。每个带条形码的寡核苷酸的条形码区域可包含在其它带条形码的寡核苷酸中不存在的独特序列,且因此可用于独特地识别每个带条形码的寡核苷酸。每个条形码区域可包含至少5、至少10、至少15、至少20、至少25、至少50或至少100个核苷酸。优选地,每个条形码区域包含至少5个核苷酸。优选地,每个条形码区域包含脱氧核糖核苷酸,任选地,条形码区域中的所有核苷酸都是脱氧核糖核苷酸。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。条形码区域可包含一个或多个简并核苷酸或序列。条形码区域可不包含任何简并核苷酸或序列。
每个带条形码的寡核苷酸的靶区域可包含不同序列。每个靶区域可包含能够仅粘接至核酸样品内的靶核酸的单个片段的序列(即靶特异性序列)。每个靶区域可包含一个或多个随机序列,或一个或多个简并序列,以使靶区域能够粘接至靶核酸的超过一个片段。每个靶区域可包含至少5、至少10、至少15、至少20、至少25、至少50或至少100个核苷酸。优选地,每个靶区域包含至少5个核苷酸。每个靶区域可包含5至100个核苷酸,5至10个核苷酸,10至20个核苷酸,20至30个核苷酸,30至50个核苷酸,50至100个核苷酸,10至90个核苷酸,20至80个核苷酸,30至70个核苷酸或50至60个核苷酸。优选地,每个靶区域包含30至70个核苷酸。优选地,每个靶区域包含脱氧核糖核苷酸,任选地,靶区域中的所有核苷酸均为脱氧核糖核苷酸。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。每个靶区域可包含一个或多个通用碱基(例如肌苷)、一个或修饰的核苷酸和/或一个或多个核苷酸类似物。
靶区域可用于将带条形码的寡核苷酸与靶核酸的片段粘接,且接着可用作引物延伸反应或扩增反应(例如聚合酶链反应)的引物。或者,靶区域可用于将带条形码的寡核苷酸连接至靶核酸的片段。靶区域可在带条形码的寡核苷酸的5′端处。此类靶区域可以被磷酸化。这可使靶区域的5′端能够与靶核酸的片段的3′端连接。
带条形码的寡核苷酸可进一步包含一个或多个衔接子区域。衔接子区域可在条形码区域与靶区域之间。带条形码的寡核苷酸可例如包含在条形码区域的5′的衔接子区域(5′衔接子区域)和/或在条形码区域的3′的衔接子区域(3′衔接子区域)。任选地,带条形码的寡核苷酸在5′至3′方向上包含条形码区域、衔接子区域和靶区域。
带条形码的寡核苷酸的衔接子区域可包含与多聚条形码分子的衔接子区域互补的序列或与多聚杂交分子的杂交区域互补的序列。带条形码的寡核苷酸的衔接子区域可使得带条形码的寡核苷酸能够与大分子或载体(例如珠粒)连接。衔接子区域可用于操纵、纯化、检索、扩增或检测带条形码的寡核苷酸和/或可与其粘接或连接的靶核酸。
每个带条形码的寡核苷酸的衔接子区域可包含恒定区。任选地,每种多聚条形码试剂的带条形码的寡核苷酸的所有衔接子区域基本相同。衔接子区域可包含至少1、至少2、至少3、至少4、至少5、至少6、至少8、至少10、至少15、至少20、至少25、至少50、至少100或至少250个核苷酸。优选地,衔接子区域包含至少4个核苷酸。优选地,每个衔接子区域包含脱氧核糖核苷酸,任选地,衔接子区域中的所有核苷酸均为脱氧核糖核苷酸。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。每个衔接子区域可包含一个或多个通用碱基(例如肌苷)、一个或修饰的核苷酸和/或一个或多个核苷酸类似物。
任选地,带条形码的寡核苷酸可包含一个或多个结合部分和/或一个或多个连接部分(例如多聚条形码试剂中包含的任何带条形码的寡核苷酸)。任选地,可将任何带条形码的寡核苷酸连接和/或附接至任何一个或多个偶联分子。
带条形码的寡核苷酸可通过化学寡核苷酸合成过程来合成。带条形码的寡核苷酸的合成过程可包括酶促产生过程、酶促扩增过程或酶促修饰程序,例如体外转录过程、逆转录过程、引物延伸过程或聚合酶链反应过程的一个或多个步骤。
带条形码的寡核苷酸的这些一般特性适用于本文所述的任何多聚条形码试剂。
16.多聚条形码试剂的库的一般特性
本发明提供了包含如本文定义的第一和第二多聚条形码试剂的多聚条形码试剂的库,其中所述第一多聚条形码试剂的条形码区域不同于所述第二多聚条形码试剂的条形码区域。
多聚条形码试剂的库可包含至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108或至少109种如本文所定义的多聚条形码试剂。优选地,库包含至少10种如本文所定义的多聚条形码试剂。优选地,每种多聚条形码试剂的第一和第二条形码区域与库中的至少9种其它多聚条形码试剂的条形码区域不同。
每种多聚条形码试剂的第一和第二条形码区域可与库中的至少4、至少9、至少19、至少24、至少49、至少74、至少99、至少249、至少499、至少999(即,103-1)、至少104-1、至少105-1、至少106-1、至少107-1、至少108-1或至少109-1种其它多聚条形码试剂的条形码区域不同。每种多聚条形码试剂的第一和第二条形码区域可与库中所有其它多聚条形码试剂的条形码区域不同。优选地,每种多聚条形码试剂的第一和第二条形码区域与库中的至少9种其它多聚条形码试剂的条形码区域不同。
每种多聚条形码试剂的条形码区域可与库中的至少4、至少9、至少19、至少24、至少49、至少74、至少99、至少249、至少499、至少999(即,103-1)、至少104-1、至少105-1、至少106-1、至少107-1、至少108-1或至少109-1种其它多聚条形码试剂的条形码区域不同。每种多聚条形码试剂的条形码区域可与库中所有其它多聚条形码试剂的条形码区域不同。优选地,每种多聚条形码试剂的条形码区域与库中的至少9种其它多聚条形码试剂的条形码区域不同。
本发明提供了包含如本文定义的第一和第二多聚条形码试剂的多聚条形码试剂的库,其中第一多聚条形码试剂的带条形码的寡核苷酸的条形码区域与第二多聚条形码试剂的带条形码的寡核苷酸的条形码区域不同。
多聚条形码试剂的库中的不同多聚条形码试剂可包含不同数目的带条形码的寡核苷酸。
多聚条形码试剂的库可包含至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108或至少109种如本文所定义的多聚条形码试剂。优选地,库包含至少10种如本文所定义的多聚条形码试剂。优选地,每种多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域不同于库中至少9种其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域。
每种多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域可与库中的至少4、至少9、至少19、至少24、至少49、至少74、至少99、至少249、至少499、至少999(即,103-1)、至少104-1、至少105-1、至少106-1、至少107-1、至少108-1或至少109-1种其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域不同。每种多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域可与库中所有其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域不同。优选地,每种多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域不同于库中至少9种其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域。
每种多聚条形码试剂的带条形码的寡核苷酸的条形码区域可与库中的至少4、至少9、至少19、至少24、至少49、至少74、至少99、至少249、至少499、至少999(即,103-1)、至少104-1、至少105-1、至少106-1、至少107-1、至少108-1或至少109-1种其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域不同。每种多聚条形码试剂的带条形码的寡核苷酸的条形码区域可与库中所有其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域不同。优选地,每种多聚条形码试剂的带条形码的寡核苷酸的条形码区域不同于库中至少9种其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域。
多聚条形码试剂的库的这些一般特性适用于本文所述的任何多聚条形码试剂。
17.包含粘接至多聚条形码分子的带条形码的寡核苷酸的多聚条形码试剂
本发明提供了一种用于标记靶核酸的多聚条形码试剂,其中所述试剂包含:连接在一起的第一和第二条形码分子(即,多聚条形码分子),其中每个条形码分子含有包含条形码区域的核酸序列;以及第一和第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸任选地在5′至3′方向上包含粘接至第一条形码分子的条形码区域的条形码区域和能够粘接或连接至靶核酸的第一片段的靶区域,且其中第二带条形码的寡核苷酸任选地在5′至3′方向上包含粘接至第二条形码分子的条形码区域的条形码区域和能够粘接或连接至靶核酸的第二片段的靶区域。
本发明提供了一种用于标记靶核酸的多聚条形码试剂,其中所述试剂包含:连接在一起的第一和第二条形码分子(即,多聚条形码分子),其中每个条形码分子含有包含条形码区域的核酸序列;以及第一和第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸包含粘接至第一条形码分子的条形码区域的条形码区域和能够与靶核酸的第一片段连接的靶区域,且其中第二带条形码的寡核苷酸包含粘接至第二条形码分子的条形码区域的条形码区域和能够与靶核酸的第二片段连接的靶区域。
本发明提供了一种用于标记靶核酸的多聚条形码试剂,其中所述试剂包含:连接在一起的第一和第二条形码分子(即,多聚条形码分子),其中每个条形码分子含有包含条形码区域的核酸序列;以及第一和第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸在5′至3′方向上包含粘接至第一条形码分子的条形码区域的条形码区域和能够粘接至靶核酸的第一片段的靶区域,且其中第二带条形码的寡核苷酸在5′至3′方向上包含粘接至第二条形码分子的条形码区域的条形码区域和能够粘接至靶核酸的第二片段的靶区域。
本发明提供了一种用于标记靶核酸的多聚条形码试剂,其中所述试剂包含:连接在一起的第一和第二条形码分子(即,多聚条形码分子),其中每个条形码分子含有包含条形码区域的核酸序列;以及第一和第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸包含粘接至第一条形码分子的条形码区域且能够与靶核酸的第一片段连接的条形码区域,且其中第二带条形码的寡核苷酸包含粘接至第二条形码分子的条形码区域且能够与靶核酸的第二片段连接的条形码区域。
每个带条形码的寡核苷酸可基本上由条形码区域组成或由条形码区域组成。
优选地,条形码分子包含脱氧核糖核苷酸或由其组成。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。条形码分子可包含一个或多个简并核苷酸或序列。条形码分子可不包含任何简并核苷酸或序列。
条形码区域可独特地识别每个条形码分子。每个条形码区域可包含识别多聚条形码试剂的序列。例如,此序列可以是由单一多聚条形码试剂的所有条形码区域共享的恒定区。每个条形码区域可包含至少5、至少10、至少15、至少20、至少25、至少50或至少100个核苷酸。优选地,每个条形码区域包含至少5个核苷酸。优选地,每个条形码区域包含脱氧核糖核苷酸,任选地,条形码区域中的所有核苷酸都是脱氧核糖核苷酸。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。条形码区域可包含一个或多个简并核苷酸或序列。条形码区域可不包含任何简并核苷酸或序列。
优选地,第一带条形码的寡核苷酸的条形码区域包含与第一条形码分子的条形码区域互补且粘接的序列,且第二带条形码的寡核苷酸的条形码区域包含与第二条形码分子的条形码区域互补且粘接的序列。每个带条形码的寡核苷酸的互补序列可以是至少5、至少10、至少15、至少20、至少25、至少50或至少100个连续核苷酸。
带条形码的寡核苷酸的靶区域(其未粘接至多聚条形码分子)可与多聚条形码分子不互补。
带条形码的寡核苷酸可在条形码区域与靶区域之间包含连接区域。连接区域可包含一个或多个不与多聚条形码分子粘接且不与靶核酸的片段互补的连续核苷酸。连接子可包含1至100、5至75、10至50、15至30或20至25个非互补核苷酸。优选地,连接子包含15至30个非互补核苷酸。此类连接区域的使用提高了使用多聚条形码试剂进行的条形码反应的效率。
条形码分子可进一步包含与带条形码的寡核苷酸的条形码区域不互补的一个或多个核酸序列。例如,条形码分子可包含一个或多个衔接子区域。条形码分子可例如包含在条形码区域的5′的衔接子区域(5′衔接子区域)和/或在条形码区域的3′的衔接子区域(3′衔接子区域)。衔接子区域(和/或衔接子区域的一个或多个部分)可与寡核苷酸,例如带条形码的寡核苷酸的衔接子区域互补且粘接。或者,条形码分子的一个或多个衔接子区域(和/或衔接子区域的一个或多个部分)可与带条形码的寡核苷酸的序列不互补。衔接子区域可用于操纵、纯化、检索、扩增和/或检测条形码分子。
可配置多聚条形码试剂以使得:每个条形码分子包含在5′至3′方向上包含衔接子区域和条形码区域的核酸序列;第一带条形码的寡核苷酸任选地在5′至3′方向上包含粘接至第一条形码分子的条形码区域的条形码区域、粘接至第一条形码分子的衔接子区域的衔接子区域和能够粘接至靶核酸的第一片段的靶区域;且第二带条形码的寡核苷酸任选地在5′至3′方向上包含粘接至第二条形码分子的条形码区域的条形码区域、粘接至第二条形码分子的衔接子区域的衔接子区域和能够粘接至靶核酸的第二片段的靶区域。
每个条形码分子的衔接子区域可包含恒定区。任选地,多聚条形码试剂的所有衔接子区域基本相同。衔接子区域可包含至少1、至少2、至少3、至少4、至少5、至少6、至少8、至少10、至少15、至少20、至少25、至少50、至少100或至少250个核苷酸。优选地,衔接子区域包含至少4个核苷酸。优选地,每个衔接子区域包含脱氧核糖核苷酸,任选地,衔接子区域中的所有核苷酸均为脱氧核糖核苷酸。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。每个衔接子区域可包含一个或多个通用碱基(例如肌苷)、一个或修饰的核苷酸和/或一个或多个核苷酸类似物。
带条形码的寡核苷酸可在衔接子区域与靶区域之间包含连接区域。连接区域可包含一个或多个不与多聚条形码分子粘接且不与靶核酸的片段互补的连续核苷酸。连接子可包含1至100、5至75、10至50、15至30或20至25个非互补核苷酸。优选地,连接子包含15至30个非互补核苷酸。此类连接区域的使用提高了使用多聚条形码试剂进行的条形码反应的效率。
可将多聚条形码分子的条形码分子连接在核酸分子上。此类核酸分子可提供骨架,单股带条形码的寡核苷酸可粘接至所述骨架。或者,多聚条形码分子的条形码分子可通过本文所述的任何其它方式连接在一起。
多聚条形码试剂可包含:连接在一起的至少2、至少3、至少4、至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000或至少10,000个条形码分子,其中每个条形码分子如本文所定义;和与每个条形码分子粘接的带条形码的寡核苷酸,其中每个带条形码的寡核苷酸如本文所定义。优选地,多聚条形码试剂包含连接在一起的至少5个条形码分子,其中每个条形码分子如本文所定义;以及与每个条形码分子粘接的带条形码的寡核苷酸,其中每个带条形码的寡核苷酸如本文所定义。
多聚条形码试剂可包含:连接在一起的至少2、至少3、至少4、至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000、至少104、至少105或至少106个独特或不同的条形码分子,其中每个条形码分子如本文所定义;以及与每个条形码分子粘接的带条形码的寡核苷酸,其中每个带条形码的寡核苷酸如本文所定义。优选地,多聚条形码试剂包含连接在一起的至少5个独特或不同的条形码分子,其中每个条形码分子如本文所定义;以及与每个条形码分子粘接的带条形码的寡核苷酸,其中每个带条形码的寡核苷酸如本文所定义。
多聚条形码试剂可包含:至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000或至少10,000个条形码区域,其中每个条形码区域如本文所定义;和与每个条形码区域粘接的带条形码的寡核苷酸,其中每个带条形码的寡核苷酸如本文所定义。优选地,多聚条形码试剂包含至少5个条形码区域,其中每个条形码区域如本文所定义;以及与每个条形码区域粘接的带条形码的寡核苷酸,其中每个带条形码的寡核苷酸如本文所定义。
多聚条形码试剂可包含:至少2、至少3、至少4、至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000、至少104、至少105或至少106个独特或不同的条形码区域,其中每个条形码区域如本文所定义;和与每个条形码区域粘接的带条形码的寡核苷酸,其中每个带条形码的寡核苷酸如本文所定义。优选地,多聚条形码试剂包含至少5个独特或不同的条形码区域,其中每个条形码区域如本文所定义;以及与每个条形码区域粘接的带条形码的寡核苷酸,其中每个带条形码的寡核苷酸如本文所定义。
图1展示了一种多聚条形码试剂,包括第一(D1、E1和F1)和第二(D2、E2和F2)条形码分子,其各自包括一个包含条形码区域(E1和E2)的核酸序列。这些第一和第二条形码分子例如通过连接核酸序列(S)连接在一起。多聚条形码试剂还包含第一(A1、B1、C1和G1)和第二(A2、B2、C2和G2)带条形码的寡核苷酸。这些带条形码的寡核苷酸各自包含条形码区域(B1和B2)和靶区域(G1和G2)。
带条形码的寡核苷酸内的条形码区可各自包含在其它带条形码的寡核苷酸中不存在的独特序列,且因此可用于独特地识别每个此类条形码分子。靶区域可用于将带条形码的寡核苷酸与靶核酸的片段粘接,且接着可用作引物延伸反应或扩增反应(例如聚合酶链反应)的引物。
每个条形码分子还可任选地包括5′衔接子区域(F1和F2)。带条形码的寡核苷酸接着还可包括与条形码分子的5′衔接子区域互补的3′衔接子区域(C1和C2)。
每个条形码分子还可任选地包括3′区域(D1和D2),其可由每个条形码分子内的相同序列构成。带条形码的寡核苷酸接着还可包括与条形码分子的3′区域互补的5′区域(A1和A2)。这些3′区域可用于操纵或扩增核酸序列,例如通过用带条形码的寡核苷酸标记核酸靶标而产生的序列。3′区域可包含至少4、至少5、至少6、至少8、至少10、至少15、至少20、至少25、至少50、至少100或至少250个核苷酸。优选地,3′区域包含至少4个核苷酸。优选地,每个3′区域包含脱氧核糖核苷酸,任选地,3′区域中的所有核苷酸均为脱氧核糖核苷酸。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。每个3′区域可包含一个或多个通用碱基(例如肌苷)、一个或修饰的核苷酸和/或一个或多个核苷酸类似物。
本发明提供了一种多聚条形码试剂的库,其包含至少10种用于标记靶核酸以进行测序的多聚条形码试剂,其中每种多聚条形码试剂包含:(单个)核酸分子内包含的第一和第二条形码分子,其中每个条形码分子含有包含条形码区域的核酸序列;以及第一和第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸任选地在5′至3′方向上包含与第一条形码分子的条形码区域互补且粘接的条形码区域以及能够粘接或连接至靶核酸的第一片段的靶区域,且其中第二带条形码的寡核苷酸任选地在5′至3′方向上包含与第二条形码分子的条形码区域互补且粘接的条形码区域以及能够粘接或连接至靶核酸的第二片段的靶区域。优选地,每种多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域不同于库中至少9种其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域。
18.包含通过大分子连接的带条形码的寡核苷酸的多聚条形码试剂
本发明提供了用于标记靶核酸的多聚条形码试剂,其中所述试剂包含通过大分子连接在一起的第一和第二带条形码的寡核苷酸,且其中带条形码的寡核苷酸各自包含条形码区域。
带条形码的寡核苷酸的其它细节提供于在PCT/GB2017/053820中,其以引用的方式并入本文中。
带条形码的寡核苷酸可以通过与大分子结合和/或通过与大分子粘接而通过大分子连接。
带条形码的寡核苷酸可直接或间接(例如经由连接分子)连接至大分子。带条形码的寡核苷酸可通过结合到大分子和/或通过结合或粘接到与大分子结合的连接分子而连接。带条形码的寡核苷酸可通过共价键、非共价键(例如蛋白质-蛋白质相互作用或抗生蛋白链菌素-生物素键)或核酸杂交与大分子(或与连接分子)结合。连接分子可为生物聚合物(例如核酸分子)或合成聚合物。连接分子可包含一个或多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。连接分子可包含一个或多个乙基,如C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。
大分子可以是合成聚合物(例如树枝状聚合物)或生物聚合物,例如核酸(例如单股核酸,例如单股DNA)、肽、多肽或蛋白质(例如多聚蛋白质)。
树枝状聚合物可包含至少2、至少3、至少5或至少10代。
大分子可以是包含两个或更多个各自能够与带条形码的寡核苷酸结合的核苷酸的核酸。另外或替代地,核酸可包含两个或更多个各自能够与带条形码的寡核苷酸杂交的区域。
核酸可包含第一修饰的核苷酸和第二修饰的核苷酸,其中每个修饰的核苷酸包含能够与带条形码的寡核苷酸结合的结合部分(例如,生物素部分,或可用于点击化学反应的炔烃部分)。任选地,第一和第二修饰的核苷酸可由至少一个、至少两个、至少5个或至少10个核苷酸的中间核酸序列分开。
核酸可包含第一杂交区域和第二杂交区域,其中每个杂交区域包含与带条形码的寡核苷酸内的至少一个核苷酸的序列互补且能够与其杂交的序列。互补序列可以至少是5、至少10、至少15、至少20、至少25或至少50个连续核苷酸。任选地,第一和第二杂交区可被至少一个、至少两个、至少5个或至少10个核苷酸的中间核酸序列隔开。
大分子可以是蛋白质,例如多聚蛋白质,例如同聚蛋白质或异聚蛋白质。例如,蛋白质可包含抗生蛋白链菌素,例如四聚抗生蛋白链菌素。
还提供包含通过大分子连接的带条形码的寡核苷酸的多聚条形码试剂的库。此类库可基于本文所述的多聚条形码试剂的库的一般特性。在库中,每种多聚条形码试剂可包含不同的大分子。
19.包含通过固相载体或半固相载体连接的带条形码的寡核苷酸的多聚条形码试剂
本发明提供了用于标记靶核酸的多聚条形码试剂,其中所述试剂包含通过固体载体或半固体载体连接在一起的第一和第二带条形码的寡核苷酸,且其中带条形码的寡核苷酸各自包含条形码区域。
第一带条形码的寡核苷酸可进一步包含能够粘接或连接至靶核酸的第一片段的靶区域,且第二带条形码的寡核苷酸可进一步包含能够粘接或连接至靶核酸的第二片段的靶区域。
第一带条形码的寡核苷酸可在5′-3′方向上包含条形码区域和能够粘接至靶核酸的第一片段的靶区域,且第二带条形码的寡核苷酸可在5′-3′方向上包含条形码区域和能够粘接至靶核酸的第二片段的靶区域。
带条形码的寡核苷酸可进一步包含本文所述的任何特征。
带条形码的寡核苷酸可通过固体载体或半固体载体连接。带条形码的寡核苷酸可直接或间接(例如经由连接分子)连接至载体。带条形码的寡核苷酸可通过结合到载体和/或通过结合或粘接到与载体结合的连接分子而连接。带条形码的寡核苷酸可通过共价键、非共价键(例如蛋白质-蛋白质相互作用或抗生蛋白链菌素-生物素键)或核酸杂交与载体(或与连接分子)结合。连接分子可为生物聚合物(例如核酸分子)或合成聚合物。连接分子可包含一个或多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。连接分子可包含一个或多个乙基,如C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。连接分子可包含任何单个连接子的至少2、至少3、至少4、至少5、至少10或至少20个连续重复单元(例如至少2、至少5或至少10个C12间隔基或C18间隔基的连续线性系列)。连接分子可包含分支连接分子,其中2个或更多个条形码分子通过单个连接分子连接至载体。
载体可包含平坦表面。载体可以是载片,例如载玻片。载片可以是用于测序的流通池。如果载体是载片,则第一和第二带条形码的寡核苷酸可被固定在载片上的离散区域中。任选地,将库中的每种多聚条形码试剂的带条形码的寡核苷酸在载片上的不同离散区域中固定至库中的其它多聚条形码试剂的带条形码的寡核苷酸。载体可以是包含孔的板,任选地,其中第一和第二带条形码的寡核苷酸固定在相同孔中。任选地,将库中的每种多聚条形码试剂的带条形码的寡核苷酸在板的不同孔中固定至库中的其它多聚条形码试剂的带条形码的寡核苷酸。
优选地,载体是珠粒(例如凝胶珠粒)。珠粒可以是琼脂糖珠粒、二氧化硅珠粒、聚苯乙烯泡沫珠粒、凝胶珠粒(例如可从10x购得的那些)、抗体结合珠粒、oligo-dT结合珠粒、抗生蛋白链菌素珠粒或磁性珠粒(例如超顺磁珠粒)。珠粒可具有任何尺寸和/或分子结构。例如,珠粒的直径可为10纳米至100微米,直径为100纳米至10微米,或直径为1微米至5微米。任选地,珠粒的直径为约10纳米,直径为约100纳米,直径为约1微米,直径为约10微米或直径为约100微米。珠粒可以是实心的,或者珠粒可以是中空的或部分中空的或多孔的。对于某些条形码方法,某些尺寸的珠粒可能是最优选的。例如,小于5.0微米或小于1.0微米的珠粒对于条形码编码单个细胞内的核酸靶标可能是最有用的。优选地,库中的每种多聚条形码试剂的带条形码的寡核苷酸在不同的珠粒上与库中的其它多聚条形码试剂的带条形码的寡核苷酸连接在一起。
载体可经官能化以使得能够连接两个或更多个带条形码的寡核苷酸。可通过添加化学部分(例如羧化基团、炔烃、叠氮基、丙烯酸酯基、氨基、硫酸酯基或丁二酰亚胺基)和/或基于蛋白质的部分(例如抗生蛋白链菌素、抗生物素蛋白或蛋白G)来实现这种官能化。带条形码的寡核苷酸可直接或间接(例如经由连接分子)连接至所述部分。
可在促进两个或更多个带条形码的寡核苷酸连接至溶液中的每个珠粒(产生多聚条形码试剂)的条件下使官能化载体(例如珠粒)与带条形码的寡核苷酸的溶液接触。
还提供包含通过载体连接的带条形码的寡核苷酸的多聚条形码试剂的库。此类库可基于本文所述的多聚条形码试剂的库的一般特性。在库中,每种多聚条形码试剂可包含不同的载体(例如不同标记的珠粒)。在多聚条形码试剂的库中,库中的每种多聚条形码试剂的带条形码的寡核苷酸可在不同的载体上与库中的其它多聚条形码试剂的带条形码的寡核苷酸连接在一起。
20.制备用于测序的核酸样品的方法
制备用于测序的核酸样品的方法可包含(i)使核酸样品与包含连接在一起的第一和第二条形码区域的多聚条形码试剂接触,其中每个条形码区域包含核酸序列,和
(ii)将条形码序列附接至靶核酸的第一和第二片段以产生第一和第二不同的带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第一条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第二条形码区域的核酸序列。
在其中多聚条形码试剂包含连接在一起的第一和第二带条形码的寡核苷酸的方法中,条形码序列可通过本文所述的任何方法附接至靶核酸的第一和第二片段。
可将第一和第二带条形码的寡核苷酸连接至靶核酸的第一和第二片段,以产生第一和第二不同的带条形码的靶核酸分子。任选地,在连接步骤之前,方法包含将第一和第二偶联序列附接至靶核酸,其中第一和第二偶联序列是第一和第二带条形码的寡核苷酸所连接的靶核酸的第一和第二片段。
第一和第二带条形码的寡核苷酸可与延伸的靶核酸的第一和第二片段粘接以产生第一和第二不同的带条形码的靶核酸分子。任选地,在粘接步骤之前,方法包含将第一和第二偶联序列附接至靶核酸,其中第一和第二偶联序列是第一和第二带条形码的寡核苷酸所粘接的靶核酸的第一和第二片段。
第一和第二带条形码的寡核苷酸可在其5′端处与靶核酸的第一和第二子序列粘接,且第一和第二靶引物可分别与靶核酸的第三和第四子序列粘接,其中第三子序列在第一子序列的3′,且其中第四子序列在第二子序列的3′。所述方法进一步包含使用靶核酸作为模板延伸第一靶引物,直到其到达第一子序列以产生第一延伸靶引物,以及使用靶核酸作为模板延伸第二靶引物,直到其到达第二子序列以产生第二延伸靶引物,且将第一延伸靶引物的3′端连接至第一带条形码的寡核苷酸的5′端,以产生第一带条形码的靶核酸分子,且将第二延伸靶引物的3′端连接至第二带条形码的寡核苷酸的5′端,以产生第二带条形码的靶核酸分子,其中第一和第二带条形码的靶核酸分子是不同的,且各自包含至少一个由作为模板的靶核酸合成的核苷酸。任选地,在一个或两个粘接步骤之前,方法包含将第一和第二和/或第三和第四偶联序列附接至靶核酸,其中第一和第二偶联序列是与第一和第二带条形码的寡核苷酸粘接的靶核酸的第一和第二子序列,和/或其中第三和第四偶联序列是与第一和第二靶引物粘接的靶核酸的第三和第四子序列。
如本文所述,在将多聚杂交分子、多聚条形码分子、带条形码的寡核苷酸、衔接子寡核苷酸或靶引物粘接或连接至靶核酸之前,可将偶联序列附接至靶核酸。接着可将多聚杂交分子、多聚条形码分子、带条形码的寡核苷酸、衔接子寡核苷酸或靶引物粘接或连接至偶联序列。
可将偶联序列添加至核酸样品的两个或更多个靶核酸的5′端或3′端。在此方法中,(带条形码的寡核苷酸的)靶区域可包含与偶联序列互补的序列。
偶联序列可包含在双股偶联寡核苷酸内或单股偶联寡核苷酸内。可通过双股连接反应或单股连接反应将偶联寡核苷酸附接至靶核酸。偶联寡核苷酸可包含能够与靶核酸连接的单股5′或3′区域,且可通过单股连接反应将偶联序列附接至靶核酸。
偶联寡核苷酸可包含能够连接至靶核酸的钝的、凹入的或突出的5′或3′区域,且偶联序列可通过双股连接反应附接至靶核酸。
靶核酸的末端可在钝化反应中转化为钝的双股末端,且偶联寡核苷酸可包含钝的双股末端,且其中偶联寡核苷酸可在钝末端连接反应中连接至靶核酸。
靶核酸的一个或多个末端可在钝化反应中转化为钝的双股末端,且接着转化为具有一个或多个单3′腺苷突出端的形式,且其中偶联寡核苷酸可包含具有单3′胸腺嘧啶突出端的双股末端,所述突出端能够粘接至靶核酸的单3′腺苷突出端,且其中偶联寡核苷酸在双股A/T连接反应中连接至靶核酸。
靶核酸可与限制酶接触,其中限制酶在限制位点消化靶核酸以在限制位点处产生一个或多个连接接合部,且其中偶联寡核苷酸包含与连接接合部相容的末端,且其中接着在双股连接反应中将偶联寡核苷酸连接至靶核酸。
可通过引物延伸或聚合酶链反应步骤附接偶联寡核苷酸。
可通过引物延伸或聚合酶链反应步骤,使用一个或多个包含引发区段的寡核苷酸来附接偶联寡核苷酸,所述引发片段包含一个或多个简并碱基。
可通过引物延伸或聚合酶链反应步骤,使用一个或多个寡核苷酸来附接偶联寡核苷酸,所述一个或多个寡核苷酸进一步包含对特定靶核酸序列具有特异性的引发或杂交区段。
可通过多核苷酸拖尾反应添加偶联序列。可通过末端转移酶(例如末端脱氧核苷酸转移酶)添加偶联序列。可通过用末端脱氧核苷酸转移酶进行的多核苷酸拖尾反应来附接偶联序列,且其中偶联序列包含均聚序列的至少两个连续核苷酸。
偶联序列可包含均聚3′尾(例如poly(A)尾)。任选地,在此类方法中,(带条形码的寡核苷酸的)靶区域包含互补的均聚3′尾(例如poly(T)尾)。
偶联序列可包含在合成转座体中,且可通过体外转座反应附接。
可将偶联序列附接至靶核酸,且其中通过至少一个引物延伸步骤或聚合酶链反应步骤将条形码寡核苷酸附接至靶核酸,且其中所述条形码寡核苷酸包含与所述偶联序列互补的长度为至少一个核苷酸的区域。任选地,此互补性区域在条形码寡核苷酸的3′端。任选地,此互补区域的长度为至少2个核苷酸,长度为至少5个核苷酸,长度为至少10个核苷酸,长度为至少20个核苷酸,或长度为至少50个核苷酸。
在其中将衔接子寡核苷酸附接(例如连接或粘接)至靶核酸的方法中,衔接子寡核苷酸的衔接子区域提供能够与多聚杂交分子或多聚条形码分子的衔接子区域杂交的偶联序列。
本发明提供了制备用于测序的核酸样品的方法,其包含以下步骤:(a)将偶联序列附接至靶核酸的第一和第二片段;(b)使核酸样品与包含连接在一起的第一和第二条形码分子的多聚条形码试剂接触,其中每个条形码分子包含核酸序列,所述核酸序列包含(在5′至3′或3′至5′方向上)条形码区域和衔接子区域;(c)粘接第一片段的偶联序列与第一条形码分子的衔接子区域,且粘接第二片段的偶联序列与第二条形码分子的衔接子区域;以及(d)将条形码序列附接至靶核酸的至少两个片段中的每一个,以产生第一和第二不同的带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第一条形码分子的条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第二条形码分子的条形码区域的核酸序列。
在所述方法中,每个条形码分子可包含在5′至3′方向上包含条形码区域和衔接子区域的核酸序列,且步骤(d)可包含使用第一条形码分子的条形码区域作为模板来延伸靶核酸的第一片段的偶联序列,以产生第一带条形码的靶核酸分子,和使用第二条形码分子的条形码区域作为模板来延伸靶核酸的第二片段的偶联序列,以产生第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含与第一条形码分子的条形码区域互补的序列,且第二带条形码的靶核酸分子包含与第二条形码分子的条形码区域互补的序列。
在所述方法中,每个条形码分子可包含在5′至3′方向上包含衔接子区域和条形码区域的核酸序列,且步骤(d)可包含
(i)使用第一条形码分子的条形码区域作为模板来粘接和延伸第一延伸引物以产生第一带条形码的寡核苷酸,以及使用第二条形码分子的条形码区域作为模板来粘接和延伸第二延伸引物以产生第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸包含与第一条形码分子的条形码区域互补的序列,且第二带条形码的寡核苷酸包含与第二条形码分子的条形码区域互补的序列,(ii)连接第一带条形码的寡核苷酸的3′端与靶核酸的第一片段的偶联序列的5′端以产生第一带条形码的靶核酸分子,且连接第二带条形码的寡核苷酸的3′端与靶核酸的第二片段的偶联序列的5′端以产生第二带条形码的靶核酸分子。
在所述方法中,每个条形码分子可包含核酸序列,所述核酸序列在5′至3′方向上包含衔接子区域、条形码区域和引发区域,其中步骤(d)包含(i)将第一延伸引物粘接至第一条形码分子的引发区域,且使用第一条形码分子的条形码区域作为模板来延伸第一延伸引物,以产生第一带条形码的寡核苷酸,以及将第二延伸引物粘接至第二条形码分子的引发区域,且使用第二条形码分子的条形码区域作为模板来延伸第二延伸引物,以产生第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸包含与第一条形码分子的条形码区域互补的序列,且第二带条形码的寡核苷酸包含与第二条形码分子的条形码区域互补的序列,(ii)将第一带条形码的寡核苷酸的3′端连接至第一片段的偶联序列的5′端以产生第一带条形码的靶核酸分子,且将第二带条形码的寡核苷酸的3′端连接至第二片段的偶联序列的5′端以产生第二带条形码的靶核酸分子。
制备用于测序的核酸样品的方法可用于制备一系列不同的用于测序的核酸样品。靶核酸可以是DNA分子(例如基因组DNA分子)或RNA分子(例如mRNA分子)。靶核酸可以来自任何样品。例如,单个细胞(或多个细胞)、组织、体液(例如血液、血浆和/或血清)、活检或福尔马林固定石蜡包埋(FFPE)样品。
样品可包含至少10、至少100、或至少103、至少104、至少105、至少106、至少107、至少108或至少109个靶核酸。
方法可包含产生至少2、至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108或至少109个不同的带条形码的靶核酸分子。优选地,方法包含产生至少5个不同的带条形码的靶核酸分子。
每个带条形码的靶核酸分子可包含至少1、至少5、至少10、至少25、至少50、至少100、至少250、至少500、至少1000、至少2000、至少5000或至少10,000个从作为模板的靶核酸合成的核苷酸。优选地,每个带条形码的靶核酸分子包含至少20个从作为模板的靶核酸合成的核苷酸。
或者,每个带条形码的靶核酸分子可包含靶核酸的至少5、至少10、至少25、至少50、至少100、至少250、至少500、至少1000、至少2000、至少5000或至少10,000个核苷酸。优选地,每个带条形码的靶核酸分子包含靶核酸的至少5个核苷酸。
可将通用引发序列添加至带条形码的靶核酸分子上。此序列可使得能够使用一个正向引物和一个反向引物后续扩增至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108或至少109个不同的带条形码的靶核酸分子。
任选地,在分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的任何方法中,其中方法包含将多聚条形码试剂中包含的条形码序列附接和/或连接和/或联接至靶分子,例如靶核酸分子(例如,其中方法包含将多聚条形码试剂中包含的带条形码的寡核苷酸附接和/或连接和/或联接至靶分子,例如靶核酸分子),可如此添加和/或连接和/或联接来自任何数目的不同多聚条形码试剂或包含在其中的条形码序列(例如带条形码的寡核苷酸)。例如,可将来自至少2、至少3、至少5、至少10、至少50、至少100或至少1000种不同多聚条形码试剂的带条形码的寡核苷酸附接和/或连接和/或联接至包含在单个循环微米粒子中或由其衍生的靶核酸分子;任选地,对于循环微米粒子样品中的任何或所有循环微米粒子,平均每个循环微米粒子的多聚条形码试剂的此类比率可以是真实的。任选地,在任何方法中,其中将来自2种或更多种多聚条形码试剂的带条形码的寡核苷酸附接和/或连接和/或联接至包含在单个循环微米粒子中或由其衍生的靶核酸分子,来自任何第一此类多聚条形码试剂的任何数目的一个或多个条形码序列可附接至来自任何第二此类多聚条形码试剂的任何数目的一个或多个条形码序列中(‘交叉条形码反应’),以此方式使得可通过测序反应对所得的条形码至条形码附接分子进行测序,以此方式使得可将所述2种或更多种多聚条形码试剂识别为彼此参与了‘交叉条形码反应’且因此共定位(例如,占据物理上接近的空间接近度和/或占据溶液中的邻近或重叠的(或部分重叠的)物理体积)和共标记(即,共条形码化)相同的(物理上接近或邻近的)单个循环微米粒子(或其中包含和/或由其衍生的样品或靶生物分子);任选地,可认为或发现附接至包含在参与‘交叉条形码反应’的任何第一多聚条形码试剂中的条形码序列(例如带条形码的寡核苷酸)的任何或所有靶核酸分子与附接至包含在参与相同‘交叉条形码反应’的任何第二多聚条形码试剂中的条形码序列(例如带条形码的寡核苷酸)的任何或所有靶核酸分子连接;任选地,此‘交叉条形码反应’方法可用于本文所述的任何方法中的任何或所有循环微米粒子和/或任何或所有多聚条形码试剂和/或任何或所有靶核酸分子。
任选地,在任何方法中,其中将来自2种或更多种多聚条形码试剂的带条形码的寡核苷酸附接和/或连接和/或联接至包含在单个循环微米粒子中或由其衍生的靶核酸分子,将来自第一和第二(或更多种)此类多聚条形码试剂中的每一种的任何数目的1个或多个条形码序列(例如包含在带条形码的寡核苷酸中)可附接至包含在单个合成DNA模板(例如单股合成DNA模板)中的分子标识符序列,以产生‘条形码到分子标识符序列’分子,其中所述合成DNA模板包含分子标识符序列的至少2个拷贝(例如,至少2个串联重复的拷贝),其中所述分子标识符序列包含长度为至少1个核苷酸(或长度为至少2、至少5、至少10、至少15、至少20、至少30或至少50个核苷酸)的标识符序列,且其中对于一个(和/或每个)单个合成DNA模板中的所有分子标识符序列,所述标识符序列是相同的(即,序列上相同)(且任选地,其中所述标识符序列在两个或更多个不同的合成DNA模板中的每一个之间是不同的)。
任选地,每个这样的分子标识符序列可包含(在5′端和/或在3′端)一个或多个衔接子序列(所述一个或多个衔接子序列可具有任何长度);任选地,对于所有分子标识符序列和/或合成DNA模板(例如在不同合成DNA模板的库内),任何一个或多个这样的衔接子序列可以是相同的。任选地,任何一个或多个这样的衔接子序列可与带条形码的寡核苷酸(例如,多聚条形码试剂的库中的带条形码的寡核苷酸)中的任何靶序列部分或完全互补。任选地,可采用2个或更多个不同的合成DNA模板的库,其中对于单个合成DNA模板内的所有分子标识符序列,标识符序列是相同的(即,序列上相同),但其中2个或更多不同的单个合成DNA模板之间的分子标识符序列是不同的。任选地,合成DNA模板的库可包含至少10、至少100、至少1000、至少1,000,0000、至少10,000,000、至少100,000,000、至少1,000,000,000或至少100,000,000,000个不同的合成DNA模板(例如其中所述库中的每个合成DNA模板包含不同的标识符序列)。任选地,每个这样的单独的(不同的)合成DNA模板可以任何浓度(例如2个或更多个拷贝)存在于库和/或溶液中。本文的方法5、6和7中描述了合成和使用合成DNA模板和/或其库的方法。
任选地,可将包含或衍生自一个或多个循环微米粒子(如本文所述的任何种类,和任何浓度)的样品与多聚条形码试剂(如本文所述的任何种类,和任何浓度)的库以及2个或更多个合成DNA模板(如本文所述的任何种类,和任何浓度)的库组合以形成溶液(例如,在连续的含水体积内),且可接着将来自所述多聚条形码试剂的条形码序列(例如条形码的寡核苷酸)附接和/或连接和/或联接(通过本文中描述的任何一种或多种方法)至靶核酸分子,所述靶核酸分子包含在所述循环微米粒子内或由其衍生,并且还附接和/或连接和/或联接(通过本文中描述的任何一种或多种方法)至包含在所述合成DNA模板的库中的分子标识符序列(任选地,其中所有此类附接和/或连接和/或联接都在单个和/或同时步骤中发生),任选地,以此方式使得可将来自任何2种或更多种不同的多聚条形码试剂的条形码分子(例如,来自任何2种或更多种多聚条形码试剂的带条形码的寡核苷酸)附接至单个合成DNA模板中包含的分子标识符序列(例如,附接至与所述溶液内的所述多聚条形码试剂物理接近的单个合成DNA模板),且任选地,其中接着通过测序反应对所得的条形码到分子标识符序列分子进行测序,以此方式使得来自附接至相同分子标识符序列(即,单个合成DNA模板中包含的分子标识符序列)的任何2种或更多种不同多聚条形码试剂的条形码分子可被识别为彼此参与了‘交叉条形码反应’,且因此被识别为具有来自相同单个循环微米粒子(或由其衍生的样品)的共定位和共标记的(即共条形码化的)靶分子;任选地,可认为或发现与已参与此类‘交叉条形码反应’的任何多聚条形码试剂中包含的条形码序列附接的任何或所有靶核酸分子连接至已参与所述‘交叉条形码反应’的任何其它多聚条形码试剂(例如,将一个或多个组成条形码序列附接至相同分子标识符序列的其它多聚条形码试剂)中包含的条形码序列附接的任何或所有靶核酸分子。任选地,任何数目或总数的‘条形码到分子标识符序列’分子(例如,如从测序反应确定的)可以被计数和/或定量(例如,通过计数读段的数目,和/或计数由测序反应产生的独特读段的数目,其中每个读段包含以下的任何给定配对:1)来自多聚条形码试剂的条形码序列/带条形码的寡核苷酸序列(或其互补序列)的全部或部分,以及2)来自合成DNA模板的分子标识符序列(或其互补序列)的全部或部分;任选地,包含来自第一多聚条形码试剂(即,在多聚条形码试剂的库中)的任何条形码序列/带条形码的寡核苷酸序列(或其互补序列)的全部或部分并且还包含来自合成DNA模板的特定的单个分子标识符序列(或其互补序列)的全部或部分的由任何这样的测序反应产生的读段(和/或独特读段)的总数可被计数以产生第一标记计数,且包含来自第二多聚条形码试剂(即,在多聚条形码试剂的库中)的任何条形码序列/带条形码的寡核苷酸序列(或其互补序列)的全部或部分并且还包含来自所述合成DNA模板的所述特定的单个分子标识符序列(或其互补序列)的全部或部分的由所述测序反应产生的读段(和/或独特读段)的总数可被计数以产生第二标记读段计数。任选地,所述第一和第二标记读段计数的总和可被视为加权值,以确定所述第一和第二多聚条形码试剂之间的联接度和/或连接度和/或物理接近度和/或连接概率。任选地,可将所述第一和第二标记读段计数中的每一个与计数截止值或阈值进行比较,以使得在其中第一和第二标记读段计数均等于或大于所述计数截止值或阈值的反应中,所述第一第二和第二多聚条形码试剂可被认为连接的(并且通过延伸,任何靶生物分子,例如由来自所述第一或第二多聚条形码试剂中的所述一个的条形码序列/带条形码的寡核苷酸标记的靶核酸分子也可被视为连接的)。潜在的此类计数截止值或阈值包括1、2、3、4、5、6、7、8、9、10、15、20、30、50、100、200、500或1000个读段。任选地,可针对多聚条形码试剂的库中的两种不同多聚条形码试剂的任何或所有成对比较来执行任何这样的标记读段计数和/或其分析。任选地,可针对包含多聚条形码试剂的库中的三种或更多种不同多聚条形码试剂的集合(例如,至少5、至少10、至少20、至少50、至少100或至少1000种不同的多聚条形码试剂的集合)的高阶比较执行任何此类标记读段计数和/或其分析;任选地,如果不同多聚条形码试剂的任何此类集合中对应于任何单个、特定分子标识符序列的每种多聚条形码试剂的标记读取计数等于或大于任何特定计数截止值或阈值,则可将所述集合中的所有多聚条形码试剂视为彼此连接(即,视为已参与‘交叉条形码反应’)。任选地,可将特定多聚条形码试剂的任何标记读段计数除以测序反应中的读段(和/或独特读段)的总数,所述测序反应包含(全部或部分)来自所述多聚条形码试剂的任何条形码序列/带条形码的寡核苷酸序列,以计算标准化的标记读段计数;任选地,可接着将所述标准化的标记读段计数与标准化的计数截止值或阈值进行比较,使得如果所述集合内对应于任何单个特定分子标识符序列的每种多聚条形码试剂的标记读段计数等于或大于任何特定标准化的计数截止值或阈值,则可认为在不同多聚条形码试剂的任何集合内的所有多聚条形码试剂彼此连接。潜在的此类标准化的计数截止值或阈值包括0.00000001、0.0000001、0.000001、0.00001、0.0001、0.001、0.002、0.003、0.004、0.005、0.0075、0.01、0.015、0.02、0.03、0.04、0.05、0.075、0.10、0.15、0.20、0.25或0.30。
任选地,在将条形码序列附接和/或连接和/或联接至合成DNA模板的库中包含的靶核酸分子和/或分子标识符序列的任何步骤之前和/或期间,所述合成DNA模板的库中的合成DNA模板可溶解(例如自由漂浮和可扩散)在溶液内(即,反应溶液和/或连续含水体积内)。任选地,在将条形码序列附接和/或连接和/或联接至合成DNA模板的库中包含的靶核酸分子和/或分子标识符序列的任何步骤之前和/或期间,所述合成DNA模板的库中的合成DNA模板可附接至包含在所述循环微米粒子之内或之上的一个或多个循环微米粒子和/或分子(例如,在包含一个或多个循环微米粒子的样品内或来自所述样品);任选地,所述合成DNA模板可包含与一个或多个偶联序列和/或衔接子序列(例如偶联分子内的偶联序列)互补的一个或多个序列,其中所述偶联序列首先附接至所述循环微米粒子内的靶生物分子(例如靶核酸)),且其中所述合成DNA模板接着附接至所述偶联序列内的互补序列;任选地,将合成DNA模板附接至包含在所述循环微米粒子之内或之上的一个或多个循环微米粒子和/或分子的任何步骤可进一步包含将多聚条形码试剂附接至包含在所述循环微米粒子之内或之上的所述循环微米粒子和/或分子的另一步骤或同时步骤(例如,其中所述多聚条形码试剂内的带条形码的寡核苷酸包含与偶联序列互补的序列(例如其靶区域内的序列),所述偶联序列首先附接至所述循环微米粒子内包含的靶生物分子,例如靶核酸)。任选地,任何合成DNA模板可包含在任何偶联分子内(即,包含其一部分)。
任选地,在将来自多聚条形码试剂的库的条形码序列附接和/或连接和/或联接至合成DNA模板的库中包含的靶核酸分子和/或分子标识符序列的任何步骤之前和/或期间,所述多聚条形码试剂的库中的多聚条形码试剂可溶解(例如自由漂浮和可扩散)在溶液内(即,反应溶液和/或连续含水体积内)。任选地,在将条形码序列附接和/或连接和/或联接至合成DNA模板的库中包含的靶核酸分子和/或分子标识符序列的任何步骤之前和/或期间,可通过‘多聚条形码试剂结合步骤’将多聚条形码试剂结合至包含在所述循环微米粒子之内或之上的一个或多个循环微米粒子和/或分子(例如,在包含一个或多个循环微米粒子的样品内或来自所述样品);任选地,所述多聚条形码试剂可包含与一个或多个偶联序列和/或衔接子序列(例如偶联分子内的偶联序列)互补的一个或多个序列(例如,包含在其组成性带条形码的寡核苷酸内),其中首先将所述偶联序列附接至所述循环微米粒子内的靶生物分子(例如靶核酸),且其中接着将所述多聚条形码试剂粘接至所述偶联序列内的互补序列。任选地,任何‘多聚条形码试剂结合步骤’(例如
将多聚条形码试剂粘接至包含在所述循环微米粒子之内或之上的一个或多个循环微米粒子和/或分子内的偶联序列的任何过程)可先于将条形码序列附接至靶生物分子的任何后续过程(例如本文所述的任何过程)。任选地,任何‘多聚条形码试剂结合步骤’可先于任何后续解离过程,其中所述解离过程包含在解离过程中将带条形码的寡核苷酸从与其粘接的条形码分子解离,例如通过热变性(即,双螺旋解链)步骤和/或本文所述的任何其它类型的解离过程;任选地,可接着在任何这样的解离过程之后跟随附接条形码序列的任何过程或方法(例如通过粘接过程附接条形码序列和/或带条形码的寡核苷酸)。
任选地,在将条形码序列(呈带条形码的寡核苷酸的形式)附接和/或连接和/或联接至靶核酸分子的任何步骤(例如任何‘交叉条形码反应’过程和/或步骤)之前和/或期间,带条形码的寡核苷酸可在解离过程中从与其粘接的条形码分子解离,例如通过热变性(即双螺旋解链)步骤;任选地,此类解离过程可以是至少1秒长,至少5秒长,至少10秒长,至少15秒长,至少20秒长,至少30秒长,至少45秒长,至少60秒长,至少90秒长,至少2分钟长,至少3分钟长,至少5分钟长或至少10分钟长;任选地,可在例如至少45摄氏度、至少50摄氏度、至少55摄氏度、至少60摄氏度、至少65摄氏度、至少70摄氏度或至少70摄氏度的任何温度下进行此类解离过程;任选地,此类解离过程可在核酸变性剂(例如DMSO和/或甜菜碱)的存在下进行,任选地,其中所述核酸变性剂的浓度为按重量或体积计至少5%,按重量或体积计至少10%,按重量或体积计至少15%,按重量或体积计至少20%,按重量或体积计至少25%,按重量或体积计至少30%,按重量或体积计至少35%,按重量或体积计至少40%,或按重量或体积计至少50%;任选地,此类解离过程和/或热变性步骤之后可立即进行粘接过程,其中将带条形码的寡核苷酸粘接至靶核酸,任选地,其中所述粘接过程包含将溶液的温度降至有利于所述粘接的温度的过程;任选地,可在高粘度溶液(例如本文所述的任何高粘度溶液)中执行任何此类解离过程和/或粘接步骤。
任选地,在将条形码序列(例如呈带条形码的寡核苷酸的形式,例如呈多聚条形码试剂中包含的带条形码的寡核苷酸的形式)附接和/或连接和/或联接至靶核酸分子的任何步骤之前和/或期间和/或之后,和/或在蛋白酶消化的任何步骤,和/或交联逆转的任何步骤(例如甲醛交联的逆转),和/或纯化条形码的靶核酸分子的任何步骤之前和/或期间和/或之后,来自两个或更多个不同样品(例如来自两个或更多个不同患者的样品)和/或包含在其中和/或衍生自其的带条形码的核酸分子可合并(即,合并在一起)成‘合并的样品溶液’。任选地,任何此类合并的样品溶液可以任何方式进一步处理,例如进一步制备和/或修饰和/或扩增以用于高通量测序,和/或在任何富集步骤中进行处理,例如包含富集修饰的核苷酸,例如5-甲基胞嘧啶或5-羟甲基胞嘧啶的任何富集过程(例如其中使用相比于其它修饰或未修饰的碱基,对基因组DNA的片段中的5-甲基胞嘧啶或5-羟甲基胞嘧啶具有特异性或优先结合其的富集探针来执行所述富集;任选地,可接着执行一个或多个测序过程以分析所述富集的(即,与富集探针结合的)带条形码的核酸和/或所得的修饰核苷酸耗尽的(即,不与富集探针结合的)带条形码的核酸。
方法可包含制备两个或更多个独立的用于测序的核酸样品,其中每个核酸样品是使用不同的多聚条形码试剂库(或不同的多聚条形码分子库)制备的,且其中每个多聚条形码试剂(或多聚条形码分子)库的条形码区域包含与其它多聚条形码试剂(或多聚条形码分子)库的条形码区域不同的序列。在分别制备用于测序的每个样品之后,可将由不同样品制备的带条形码的靶核酸分子合并且一起测序。针对每个带条形码的靶核酸分子产生的序列读段可用于鉴别在其制备中使用的多聚条形码试剂(或多聚条形码分子)库,且由此鉴别制备其的核酸样品。
在制备用于测序的核酸样品的任何方法中,靶核酸分子可以特定浓度存在于核酸样品内,例如以至少100纳摩尔、至少10纳摩尔、至少1纳摩尔、至少100皮摩尔、至少10皮摩尔、至少1皮摩尔、至少100飞摩尔、至少10飞摩尔或至少1飞摩尔的浓度。浓度可为1皮摩尔至100纳摩尔、10皮摩尔至10纳摩尔或100皮摩尔至1纳摩尔。优选地,浓度为10皮摩尔至1纳摩尔。
在制备用于测序的核酸样品的任何方法中,多聚条形码试剂可以特定浓度存在于核酸样品内,例如以至少100纳摩尔、至少10纳摩尔、至少1纳摩尔、至少100皮摩尔、至少10皮摩尔、至少1皮摩尔、至少100飞摩尔、至少10飞摩尔或至少1飞摩尔的浓度。浓度可为1皮摩尔至100纳摩尔、10皮摩尔至10纳摩尔或100皮摩尔至1纳摩尔。优选地,浓度为1皮摩尔至100皮摩尔。
在制备用于测序的核酸样品的任何方法中,多聚条形码分子可以特定浓度存在于核酸样品内,例如以至少100纳摩尔、至少10纳摩尔、至少1纳摩尔、至少100皮摩尔、至少10皮摩尔、至少1皮摩尔、至少100飞摩尔、至少10飞摩尔或至少1飞摩尔的浓度。浓度可为1皮摩尔至100纳摩尔、10皮摩尔至10纳摩尔或100皮摩尔至1纳摩尔。优选地,浓度为1皮摩尔至100皮摩尔。
在制备用于测序的核酸样品的任何方法中,带条形码的寡核苷酸可以特定浓度存在于核酸样品内,例如以至少100纳摩尔、至少10纳摩尔、至少1纳摩尔、至少100皮摩尔、至少10皮摩尔、至少1皮摩尔、至少100飞摩尔、至少10飞摩尔或至少1飞摩尔的浓度。浓度可为1皮摩尔至100纳摩尔、10皮摩尔至10纳摩尔或100皮摩尔至1纳摩尔。优选地,浓度为100皮摩尔至100纳摩尔。
21.使用多聚条形码试剂制备用于测序的核酸样品的方法
本发明提供了制备用于测序的核酸样品的方法,其中所述方法包含以下步骤:使核酸样品与本文定义的多聚条形码试剂接触;将第一带条形码的寡核苷酸的靶区域粘接至靶核酸的第一片段,且将第二带条形码的寡核苷酸的靶区域粘接至靶核酸的第二片段;以及延伸第一和第二带条形码的寡核苷酸以产生第一和第二不同的带条形码的靶核酸分子,其中每个带条形码的靶核酸分子包含至少一个从作为模板的靶核酸合成的核苷酸。
在制备用于测序的核酸样品的任何方法中,核酸样品中的核酸分子和/或多聚条形码试剂可以特定的浓度存在于溶液体积内,例如以至少100纳摩尔、至少10纳摩尔、至少1纳摩尔、至少100皮摩尔、至少10皮摩尔或至少1皮摩尔的浓度存在。浓度可为1皮摩尔至100纳摩尔、10皮摩尔至10纳摩尔或100皮摩尔至1纳摩尔。还可使用替代的更高或更低的浓度。
制备用于测序的核酸样品的方法可包含使核酸样品与如本文定义的多聚条形码试剂的库接触,且其中:第一多聚条形码试剂的带条形码的寡核苷酸粘接至第一靶核酸的片段且产生第一和第二不同的带条形码的靶核酸分子,其中每个带条形码的靶核酸分子包含从作为模板的第一靶核酸合成的至少一个核苷酸;且第二多聚条形码试剂的带条形码的寡核苷酸粘接至第二靶核酸的片段且产生第一和第二不同的带条形码的靶核酸分子,其中每个带条形码的靶核酸分子包含从作为模板的第二靶核酸合成的至少一个核苷酸。
在所述方法中,可在粘接至靶核酸的片段之后且在产生带条形码的靶核酸分子之前,从核酸样品中分离带条形码的寡核苷酸。任选地,经由抗生蛋白链菌素-生物素相互作用,通过在固体载体上捕获来分离带条形码的寡核苷酸。
另外或替代地,可从核酸样品中分离带条形码的靶核酸分子。任选地,经由抗生蛋白链菌素-生物素相互作用,通过在固体载体上捕获来分离带条形码的靶核酸分子。
延伸带条形码的寡核苷酸的步骤可在带条形码的寡核苷酸粘接至条形码分子时执行。
图3展示了制备用于测序的核酸样品的方法,其中本文所定义的多聚条形码试剂(例如,如图1所示)用于标记和延伸核酸样品中的两个或更多个核酸子序列。在此方法中,合成了一种多聚条形码试剂,所述多聚条形码试剂至少掺入第一(A1、B1、C1和G1)和第二(A2、B2、C2和G2)带条形码的寡核苷酸,其各自包含条形码区域(B1和B2)和靶区域(分别为G1和G2)。
使包含靶核酸的核酸样品与多聚条形码试剂接触或混合,且使两个或更多个带条形码的寡核苷酸的靶区域(G1和G2)粘接至靶核酸内的两个或更多个对应子序列(H1和H2)。在粘接步骤之后,将第一和第二带条形码的寡核苷酸延伸(例如,以靶区域作为聚合酶的引物)至靶核酸的序列中,从而将子序列的至少一个核苷酸掺入至每个带条形码的寡核苷酸的延伸的3′端。此方法产生带条形码的靶核酸分子,其中来自靶核酸的两个或更多个子序列被带条形码的寡核苷酸标记。
或者,方法可进一步包含在将带条形码的寡核苷酸的靶区域粘接至靶核酸的子序列之前,将带条形码的寡核苷酸与条形码分子解离的步骤。
图4展示了制备用于测序的核酸样品的方法,其中本文所述的多聚条形码试剂(例如,如图1所示)用于标记和延伸核酸样品中的两个或更多个核酸子序列,但其中来自多聚条形码试剂的带条形码的寡核苷酸在粘接至(和延伸)靶核酸序列之前与条形码分子解离。在此方法中,合成了一种多聚条形码试剂,所述试剂掺入至少第一(A1、B1、C1和G1)和第二(A2、B2、C2和G2)带条形码的寡核苷酸,其各自包含条形码区域(B1和B2)和靶区域(G1和G2),其能够粘接至靶核酸(H1和H2)内的子序列。图4的方法详细描述于PCT/GB2017/053820中,其以引用的方式并入本文中。
可将通用引发序列添加至带条形码的靶核酸分子上。此序列可使得能够使用一个正向引物和一个反向引物后续扩增至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108或至少109个不同的带条形码的靶核酸分子。
在使核酸样品与本文定义的多聚条形码试剂或多聚条形码试剂的库接触之前,可将偶联序列添加至核酸样品的两个或更多个靶核酸的5′端或3′端。在此方法中,靶区域可包含与偶联序列互补的序列。偶联序列可包含均聚3′尾(例如poly(A)尾)。可通过末端转移酶添加偶联序列。在偶联序列包含poly(A)尾的方法中,靶区域可包含poly(T)序列。可在核酸样品的高温培育之后添加此类偶联序列,以在添加偶联序列之前使其中包含的核酸变性。
或者,可通过用限制酶消化靶核酸样品来添加偶联序列,在这种情况下,偶联序列可由限制酶识别序列的一个或多个核苷酸构成。在这种情况下,偶联序列可以是至少部分双股的,且可包含平末端双股DNA序列,或具有1个或多个核苷酸的5′突出区域的序列,或具有1个或多个核苷酸的3′突出区域的序列。在这些情况下,多聚条形码试剂中的靶区域可接着包含双股和平末端序列(从而能够连接至平末端限制消化产物),或靶区域可含有1个或多个核苷酸的5′或3′突出端序列,使其与所述限制消化产物具有内聚力(且因此能够粘接和连接)。
方法可包含制备两个或更多个独立的用于测序的核酸样品,其中每个核酸样品是使用不同的多聚条形码试剂库(或不同的多聚条形码分子库)制备的,且其中每个多聚条形码试剂(或多聚条形码分子)库的条形码区域包含与其它多聚条形码试剂(或多聚条形码分子)库的条形码区域不同的序列。在分别制备用于测序的每个样品之后,可将由不同样品制备的带条形码的靶核酸分子合并且一起测序。针对每个带条形码的靶核酸分子产生的序列读段可用于鉴别在其制备中使用的多聚条形码试剂(或多聚条形码分子)库,且由此鉴别制备其的核酸样品。
本发明提供了制备用于测序的核酸样品的方法,其中所述方法包含以下步骤:(a)使核酸样品与多聚条形码试剂接触,其中每个带条形码的寡核苷酸在5′至3′方向上包含靶区域和条形码区域,以及第一和第二靶引物;(b)将第一带条形码的寡核苷酸的靶区域粘接至靶核酸的第一子序列,且将第二带条形码的寡核苷酸的靶区域粘接至靶核酸的第二子序列;(c)将第一靶引物粘接至靶核酸的第三子序列,其中第三子序列在第一子序列的3′,且将第二靶引物粘接至靶核酸的第四子序列,其中第四子序列在第二子序列的3′;(d)使用靶核酸作为模板来延伸第一靶引物,直至其到达第一子序列以产生第一延伸靶引物,且使用靶核酸作为模板来延伸第二靶引物,直至其到达第二子序列以产生第二延伸靶引物;以及(e)将第一延伸靶引物的3′端连接至第一带条形码的寡核苷酸的5′端以产生第一带条形码的靶核酸分子,且将第二延伸靶引物的3′端连接至第二带条形码的寡核苷酸的5′端以产生第二带条形码的靶核酸分子,其中第一和第二带条形码的靶核酸分子是不同的,且其中每个带条形码的靶核酸分子包含至少一个从作为模板的靶核酸合成的核苷酸。
在所述方法中,可同时执行步骤(b)和(c)。
22.使用多聚条形码试剂和衔接子寡核苷酸制备用于测序的核酸样品的方法
以下提供的方法可用本文定义的任何试剂盒进行。
本发明进一步提供了制备用于测序的核酸样品的方法,其中所述方法包含以下步骤:(a)使核酸样品与本文定义的第一和第二衔接子寡核苷酸接触;(b)将第一衔接子寡核苷酸粘接或连接至靶核酸的第一片段,且将第二衔接子寡核苷酸粘接或连接至靶核酸的第二片段;(c)使核酸样品与本文定义的多聚条形码试剂接触;(d)将第一衔接子寡核苷酸的衔接子区域粘接至第一条形码分子的衔接子区域,且将第二衔接子寡核苷酸的衔接子区域粘接至第二条形码分子的衔接子区域;以及(e)将第一带条形码的寡核苷酸的3′端连接至第一衔接子寡核苷酸的5′端以产生第一带条形码的衔接子寡核苷酸,且将第二带条形码的寡核苷酸的3′端连接至第二衔接子寡核苷酸的5′端以产生第二带条形码的衔接子寡核苷酸。
本发明进一步提供了制备用于测序的核酸样品的方法,其中所述方法包含以下步骤:(a)使核酸样品与本文定义的第一和第二衔接子寡核苷酸接触;(b)将第一衔接子寡核苷酸至靶核酸的第一片段,且将第二衔接子寡核苷酸连接至靶核酸的第二片段;(c)使核酸样品与本文定义的多聚条形码试剂接触;(d)将第一衔接子寡核苷酸的衔接子区域粘接至第一条形码分子的衔接子区域,且将第二衔接子寡核苷酸的衔接子区域粘接至第二条形码分子的衔接子区域;以及(e)使用第一条形码分子的条形码区域作为模板来延伸第一衔接子寡核苷酸以产生第一带条形码的靶核酸分子,且使用第二条形码分子的条形码区域作为模板来延伸第二衔接子寡核苷酸以产生第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含与第一条形码分子的条形码区域互补的序列,且第二带条形码的靶核酸分子包含与第二条形码分子的条形码区域互补的序列。
本发明进一步提供了制备用于测序的核酸样品的方法,其中所述方法包含以下步骤:(a)使核酸样品与本文定义的第一和第二衔接子寡核苷酸接触;(b)将第一衔接子寡核苷酸的靶区域粘接至靶核酸的第一片段,且将第二衔接子寡核苷酸的靶区域粘接至靶核酸的第二片段;(c)使核酸样品与本文定义的多聚条形码试剂接触;(d)将第一衔接子寡核苷酸的衔接子区域粘接至第一条形码分子的衔接子区域,且将第二衔接子寡核苷酸的衔接子区域粘接至第二条形码分子的衔接子区域;以及(e)将第一带条形码的寡核苷酸的3′端连接至第一衔接子寡核苷酸的5′端以产生第一带条形码的衔接子寡核苷酸,且将第二带条形码的寡核苷酸的3′端连接至第二衔接子寡核苷酸的5′端以产生第二带条形码的衔接子寡核苷酸。
在所述方法中,可延伸第一和第二带条形码的衔接子寡核苷酸以产生第一和第二不同的带条形码的靶核酸分子,其中的每一个包含至少一个从作为模板的靶核酸合成的核苷酸。
或者,可延伸第一和第二衔接子寡核苷酸以产生第一和第二不同的靶核酸分子,其中的每一个包含至少一个从作为模板的靶核酸合成的核苷酸。在此方法中,步骤(f)产生第一带条形码的靶核酸分子(即,连接至延伸的第一衔接子寡核苷酸的第一带条形码的寡核苷酸)和第二带条形码的靶核酸分子(即,连接至延伸的第二衔接子寡核苷酸的第二带条形码的寡核苷酸)。
延伸衔接子寡核苷酸的步骤可在步骤(c)之前、步骤(d)之前和/或步骤(e)之前进行,且第一和第二衔接子寡核苷酸可保持与第一和第二条形码分子粘接直到步骤(e)之后。
可使用本文定义的多聚条形码试剂的库和本文定义的用于每种多聚条形码试剂的衔接子寡核苷酸来执行所述方法。优选地,产生与第一靶核酸的片段以及第一和第二不同的带条形码的靶核酸分子粘接的第一多聚条形码试剂的带条形码的衔接子寡核苷酸,其中每个带条形码的靶核酸分子包含至少一个从作为模板的第一靶核酸合成的核苷酸;且产生与第二靶核酸的片段以及第一和第二不同的带条形码的靶核酸分子粘接的第二多聚条形码试剂的带条形码的衔接子寡核苷酸,其中每个带条形码的靶核酸分子包含至少一个从作为模板的第二靶核酸合成的核苷酸。
可使用本文定义的多聚条形码试剂的库和本文定义的用于每种多聚条形码试剂的衔接子寡核苷酸来执行所述方法。优选地,产生与第一靶核酸的片段以及第一和第二不同的靶核酸分子粘接的第一多聚条形码试剂的衔接子寡核苷酸,其中每个靶核酸分子包含至少一个从作为模板的第一靶核酸合成的核苷酸;且产生与第二靶核酸的片段以及第一和第二不同的靶核酸分子粘接的第二多聚条形码试剂的衔接子寡核苷酸,其中每个靶核酸分子包含至少一个从作为模板的第二靶核酸合成的核苷酸。
在粘接至靶核酸的片段之后且在产生带条形码的靶核酸分子之前,带条形码的衔接子寡核苷酸可从核酸样品中分离。任选地,经由抗生蛋白链菌素-生物素相互作用,通过在固体载体上捕获来分离带条形码的衔接子寡核苷酸。
带条形码的靶核酸分子可从核酸样品中分离。任选地,经由抗生蛋白链菌素-生物素相互作用,通过在固体载体上捕获来分离带条形码的靶核酸分子。
图5展示了使用多聚条形码试剂来制备用于测序的核酸样品的方法。在所述方法中,将第一(C1和G1)和第二(C2和G2)衔接子寡核苷酸粘接至核酸样品中的靶核酸,且接着用于引物延伸反应。每个衔接子寡核苷酸由衔接子区域(C1和C2)构成,所述衔接子区域与条形码分子(F1和F2)的5′衔接子区域互补且因此能够与其粘接。每个衔接子寡核苷酸还由靶区域(G1和G2)构成,所述靶区域可用于将带条形码的寡核苷酸粘接至靶核酸,且接着可用作引物延伸反应或聚合酶链反应的引物。可合成这些衔接子寡核苷酸以包括5′-末端磷酸基。
接着使每个已被延伸以包括靶核酸序列的衔接子寡核苷酸与多聚条形码试剂接触,所述多聚条形码试剂包含第一(D1、E1和F1)和第二(D2、E2和F2)条形码分子的,以及第一(A1和B1)和第二(A2和B2)带条形码的寡核苷酸(其各自包含条形码区域(B1和B2)),以及5′区域(A1和A2)。第一和第二条形码分子各自包含条形码区域(E1和E2)、衔接子区域(F1和F2)和3′区域(D1和D2),且在此实施例中通过连接核酸序列(S)连接在一起。
在使引物延伸的核酸样品与多聚条形码试剂接触后,每个衔接子寡核苷酸的5′衔接子区域(C1和C2)能够粘接至与每个带条形码的寡核苷酸的3′端相邻的′连接接合部′(J1和J2)。接着将延伸的衔接子寡核苷酸的5′端连接至多聚条形码试剂中的带条形码的寡核苷酸的3′端,从而在连接接合部先前所位于的位置产生连接碱基对(K1和K2)。溶液可随后被进一步处理或扩增,且用于测序反应。
类似于图3和图4所示的方法,此方法产生带条形码的靶核酸分子,其中来自核酸样品的两个或更多个片段被带条形码的寡核苷酸标记。在此方法中,对于将靶区域粘接至靶核酸片段的步骤,或使用聚合酶延伸粘接的靶区域的步骤,不需要存在多聚条形码试剂。此特征在某些应用中可能具有优势,例如,其中有大量受关注的靶序列,且当靶区域不受多聚条形码试剂的分子限制时,靶区域能够与靶核酸更快地杂交。
23.使用多聚条形码试剂、衔接子寡核苷酸和延伸引物制备用于测序的核酸样品的方法
使用多聚条形码试剂、衔接子寡核苷酸和延伸引物制备用于测序的核酸样品的方法描述于PCT/GB2017/053820中,其以引用的方式并入本文中。
24.使用多聚条形码试剂、衔接子寡核苷酸和靶引物制备用于测序的核酸样品的方法
使用多聚条形码试剂、衔接子寡核苷酸和靶引物制备用于测序的核酸样品的方法描述于PCT/GB2017/053820中,其以引用的方式并入本文中。图6示出了可执行此方法的一种方式。在此方法中,靶核酸为基因组DNA。应理解,靶核酸可以是另一类型的核酸,例如RNA分子,例如mRNA分子。
25.使用多聚条形码试剂和靶引物制备用于测序的核酸样品的方法
使用多聚条形码试剂和靶引物制备用于测序的核酸样品的方法描述于PCT/GB2017/053820中,其以引用的方式并入本文中。
26.合成多聚条形码试剂的方法
本发明进一步提供了合成用于标记靶核酸的多聚条形码试剂的方法,所述方法包含:(a)使第一和第二条形码分子与第一和第二延伸引物接触,其中每个条形码分子包含单股核酸,所述单股核酸在5′至3′方向上包含衔接子区域、条形码区域和引发区域;(b)将第一延伸引物粘接至第一条形码分子的引发区域,且将第二延伸引物粘接至第二条形码分子的引发区域;以及(c)通过延伸第一延伸引物来合成第一带条形码的延伸产物,且通过延伸第二延伸引物来合成第二带条形码的延伸产物,其中第一带条形码的延伸产物包含与第一条形码分子的条形码区域互补的序列,且第二带条形码的延伸产物包含与第二条形码分子的条形码区域互补的序列,且其中第一带条形码的延伸产物不包含与第一条形码分子的衔接子区域互补的序列,且第二带条形码的延伸产物不包含与第二条形码分子的衔接子区域互补的序列;且其中第一和第二条形码分子连接在一起。
方法可在合成第一和第二带条形码的延伸产物的步骤之前进一步包含以下步骤:(a)使第一和第二条形码分子与第一和第二封闭引物接触;和(b)将第一封闭引物粘接至第一条形码分子的衔接子区域,且将第二封闭引物粘接至第二条形码分子的衔接子区域;且其中所述方法进一步包含在合成带条形码的延伸产物的步骤之后,将封闭引物与条形码分子解离的步骤。
在所述方法中,可执行延伸步骤,或在延伸产物的合成之后执行的第二延伸步骤,其中将四个标准脱氧核糖核苷酸中的一个或多个排除在延伸反应之外,使得第二延伸步骤终止在衔接子区序列之前的位置处,其中所述位置包含与排除的脱氧核糖核苷酸互补的核苷酸。此延伸步骤可用缺乏3′至5′核酸外切酶活性的聚合酶执行。
条形码分子可由本文定义的单股多聚条形码分子提供。
条形码分子可通过本文定义的任何方法合成。条形码区域可独特地识别每个条形码分子。条形码分子可连接在核酸分子上。条形码分子可在连接反应中连接在一起。条形码分子可通过另一步骤连接在一起,所述步骤包含将条形码分子附接至固体载体。
第一和第二条形码分子可在上文定义的步骤(a)(即,使第一和第二条形码分子与第一和第二延伸引物接触)之前通过本文定义的任何方法组装为双股多聚条形码分子。双股多聚条形码分子可被解离以产生用于上文定义的步骤(a)(即,使第一和第二条形码分子与第一和第二延伸引物接触)的单股多聚条形码分子。
方法可进一步包含以下步骤:(a)将第一衔接子寡核苷酸的衔接子区域粘接至第一条形码分子的衔接子区域,且将第二衔接子寡核苷酸的衔接子区域粘接至第二条形码分子的衔接子区域,其中第一衔接子寡核苷酸进一步包含能够粘接至靶核酸的第一子序列的靶区域,且第二衔接子寡核苷酸进一步包含能够粘接至靶核酸的第二子序列的靶区域;和(b)将第一带条形码的延伸产物的3′端连接至第一衔接子寡核苷酸的5′端以产生第一带条形码的寡核苷酸,且将第二带条形码的延伸产物的3′端连接至第二衔接子寡核苷酸的5′端以产生第二带条形码的寡核苷酸。任选地,粘接步骤(a)可在合成第一和第二带条形码的延伸的产物的步骤之前执行,且其中合成第一和第二带条形码的延伸的产物的步骤在执行连接步骤(b)的连接酶的存在下进行。连接酶可以是热稳定的连接酶。延伸和连接反应可在超过37℃、超过45℃或超过50℃下进行。
靶区域可包含不同的序列。每个靶区域可包含能够仅粘接至核酸样品内的靶核酸的单个子序列的序列。每个靶区域可包含一个或多个随机序列,或一个或多个简并序列,以使得靶区域能够粘接至靶核酸的超过一个子序列。每个靶区域可包含至少5、至少10、至少15、至少20、至少25、至少50或至少100个核苷酸。优选地,每个靶区域包含至少5个核苷酸。每个靶区域可包含5至100个核苷酸,5至10个核苷酸,10至20个核苷酸,20至30个核苷酸,30至50个核苷酸,50至100个核苷酸,10至90个核苷酸,20至80个核苷酸,30至70个核苷酸或50至60个核苷酸。优选地,每个靶区域包含30至70个核苷酸。优选地,每个靶区域包含脱氧核糖核苷酸,任选地,靶区域中的所有核苷酸均为脱氧核糖核苷酸。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。每个靶区域可包含一个或多个通用碱基(例如肌苷)、一个或修饰的核苷酸和/或一个或多个核苷酸类似物。
每个衔接子寡核苷酸的衔接子区域可包含恒定区。任选地,与单一多聚条形码试剂粘接的衔接子寡核苷酸的所有衔接子区域基本相同。衔接子区域可包含至少4、至少5、至少6、至少8、至少10、至少15、至少20、至少25、至少50、至少100或至少250个核苷酸。优选地,衔接子区域包含至少4个核苷酸。优选地,每个衔接子区域包含脱氧核糖核苷酸,任选地,衔接子区域中的所有核苷酸均为脱氧核糖核苷酸。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。每个衔接子区域可包含一个或多个通用碱基(例如肌苷)、一个或修饰的核苷酸和/或一个或多个核苷酸类似物。
对于涉及衔接子寡核苷酸的任何方法,衔接子寡核苷酸的3′端可包括例如在靶区域的3′末端核苷酸处的可逆终止子部分或可逆终止子核苷酸(例如3′-O-封端的核苷酸)。当用于延伸和/或延伸和连接反应时,可防止这些衔接子寡核苷酸的3′端引发任何延伸事件。这可使带条形码的寡核苷酸生产过程中的错误引发或其它杂散延伸事件最小化。在使用组装的多聚条形码试剂之前,可通过化学或其它方式去除可逆终止子的终止子部分,从而使靶区域沿着与其粘接的靶核酸模板延伸。
类似地,对于涉及衔接子寡核苷酸的任何方法,在延伸和/或延伸和连接反应期间可采用与靶区域内的一个或多个序列互补的一个或多个封闭寡核苷酸。封闭寡核苷酸可在其3′和/或5′端上包含终止子和/或其它部分,使其不能被聚合酶延伸。可设计封闭寡核苷酸,以使其粘接至与一个或多个靶区域完全或部分互补的序列,且在延伸和/或延伸和连接反应之前粘接至所述靶区域。封闭引物的使用可防止靶区域粘接至溶液中不需要此类粘接的序列(例如条形码分子本身内的序列特征),且潜在地沿着所述序列错误引发。可设计封闭寡核苷酸以获得特定的粘接和/或解链温度。在使用组装的多聚条形码试剂之前,可接着通过例如热变性且接着通过大小选择性清除或其它方式来去除封闭寡核苷酸。封闭寡核苷酸的去除可允许靶区域沿着与其粘接的靶核酸模板延伸。
方法可包含合成包含至少5、至少10、至少20、至少25、至少50、至少75或至少100个条形码分子的多聚条形码试剂,且其中:(a)每个条形码分子如本文所定义;(b)根据本文定义的任何方法从每个条形码分子合成带条形码的延伸产物;以及任选地,(c)根据本文定义的任何方法,将衔接子寡核苷酸连接至每个带条形码的延伸产物,以产生带条形码的寡核苷酸。
本发明进一步提供了一种合成多聚条形码试剂的库的方法,其中方法包含重复本文定义的任何方法的步骤以合成两种或更多种多聚条形码试剂。任选地,方法包含合成至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、至少109或至少1010种如本文所定义的多聚条形码试剂的库。优选地,库包含至少5种如本文所定义的多聚条形码试剂。优选地,每种多聚条形码试剂的条形码区域可不同于其它多聚条形码试剂的条形码区域。
图8示出了合成用于标记靶核酸的多聚条形码试剂的方法。在此方法中,第一(D1、E1和F1)和第二(D2、E2和F2)条形码分子被变性成单股形式,所述条形码分子各自包括包含条形码区域(E1和E2)的核酸序列,且通过连接核酸序列(S)进行连接。对于这些单股条形码分子,将第一和第二延伸引物(A1和A2)粘接至第一和第二条形码分子的3′区域(D1和D2),且将第一和第二封闭引物(R1和R2)粘接至第一和第二条形码分子的5′衔接子区域(F1和F2)。这些封闭引物(R1和R2)可在3′端上经修饰,以使其不能充当聚合酶的引发位点。
接着使用聚合酶进行引物延伸反应,其中延伸引物被延伸以形成条形码分子的条形码区域(E1和E2)的拷贝(B1和B2)。进行此引物延伸反应,使得延伸产物例如通过使用缺乏股置换或5′-3′核酸外切酶活性的聚合酶而与封闭引物序列紧邻地终止。然后例如通过高温变性去除封闭引物(R1和R2)。
因此,此方法产生了多聚条形码试剂,其含有与单股衔接子区域(F1和F2)相邻的第一和第二连接接合部(J1和J2)。此多聚条形码试剂可用于图5中所示的方法。
方法可进一步包含以下步骤:将通过引物延伸步骤产生的第一和第二带条形码的寡核苷酸的3′端(B1和B2的3′端)连接至第一(C1和G1)和第二(C2和G2)衔接子寡核苷酸,其中每个衔接子寡核苷酸包含与条形码分子的衔接子区域(F1和F2)互补且因此能够与其粘接的衔接子区域(C1和C2)。可合成衔接子寡核苷酸以包括5′-末端磷酸基。
每个衔接子寡核苷酸还可包含靶区域(G1和G2),其可用于将带条形码的寡核苷酸粘接至靶核酸,且可单独或随后用作引物延伸反应或聚合酶链反应的引物。将第一和第二带条形码的寡核苷酸连接至衔接子寡核苷酸的步骤产生如图1所示的多聚条形码试剂,所述试剂可用于图3和/或图4所示的方法中。
图9展示了合成用于标记靶核酸的多聚条形码试剂(如图1所示)的方法。在此方法中,第一(D1、E1和F1)和第二(D2、E2和F2)条形码分子被变性成单股形式,所述条形码分子各自包括包含条形码区域(E1和E2)的核酸序列,且通过连接核酸序列(S)进行连接。对于这些单股条形码分子,将第一和第二延伸引物(A1和A2)粘接至第一和第二条形码分子的3′区域(D1和D2),且将第一(C1和G1)和第二(C2和G2)衔接子寡核苷酸的衔接子区域(C1和C2)粘接至第一和第二条形码分子的5′衔接子区域(F1和F2)。可合成这些衔接子寡核苷酸以包括5′-末端磷酸基。
接着使用聚合酶进行引物延伸反应,其中延伸引物被延伸以形成条形码分子的条形码区域(E1和E2)的拷贝(B1和B2)。进行此引物延伸反应,使得延伸产物例如通过使用缺乏股置换或5′-3′核酸外切酶活性的聚合酶而紧邻衔接子区域(C1和C2)序列终止。
接着使用连接酶将衔接子寡核苷酸的5′端连接至对应延伸产物的相邻3′端。在替代实施例中,聚合酶可以在一个反应中包括连接酶,所述反应同时实现引物延伸和所得产物与衔接子寡核苷酸的连接。通过这种方法,所得的带条形码的寡核苷酸可随后用作引物延伸反应或聚合酶链反应的引物,例如在图3和/或图4所示的方法中。
27.测序和/或处理测序数据的方法
本发明提供了一种对循环微米粒子的靶核酸进行测序的方法,其中循环微米粒子含有靶核酸的至少两个片段,且其中所述方法包含:(a)制备用于测序的样品,其包含将靶核酸的至少两个片段中的至少两个连接,以产生靶核酸的至少两个连接片段的集合;和(b)对集合中的每个连接片段进行测序,以产生至少两个(信息)连接序列读段。
本发明提供了一种对循环微米粒子的基因组DNA进行测序的方法,其中循环微米粒子含有基因组DNA的至少两个片段,且其中所述方法包含:(a)制备用于测序的样品,其包含将基因组DNA的至少两个片段中的至少两个连接,以产生基因组DNA的至少两个连接片段的集合;和(b)对集合中的每个连接片段进行测序,以产生至少两个(信息)连接序列读段。
本发明提供了一种对循环微米粒子的靶核酸进行测序的方法,所述方法包含:(a)将来自(单个)循环微米粒子的靶核酸的至少两个片段连接,以产生靶核酸的至少两个连接片段的集合;和(b)对集合中的每个连接片段进行测序,以产生至少两个(信息)连接序列读段。
本发明提供了一种对循环微米粒子基因组DNA进行测序的方法,所述方法包含:(a)将来自(单个)循环微米粒子的基因组DNA的至少两个片段连接,以产生循环微米粒子基因组DNA的至少两个连接片段的集合;和(b)对集合中的每个连接片段进行测序,以产生至少两个(信息)连接序列读段。
本发明进一步提供了一种对样品进行测序的方法,其中所述样品已通过本文所定义的制备用于测序的核酸样品的任何一种方法来制备。对样品进行测序的方法包含以下步骤:分离带条形码的靶核酸分子,且从每个带条形码的靶核酸分子产生序列读段,所述靶核酸分子包含条形码区域、靶区域和来自靶核酸的至少一个额外核苷酸。每个序列读段可包含至少5、至少10、至少25、至少50、至少100、至少250、至少500、至少1000、至少2000、至少5000或至少10,000个来自靶核酸的核苷酸。优选地,每个序列读段包含至少5个来自靶核酸的核苷酸。
方法可从一个或多个带条形码的靶核酸分子产生序列读段,所述靶核酸分子由至少10、至少100、或至少103、至少104、至少105、至少106、至少107、至少108或至少109个不同靶核酸产生。
测序可通过本领域中已知的任何方法执行。例如,通过链终止或桑格测序。优选地,如下地进行测序:通过下一代测序方法,例如合成测序、使用可逆终止子的合成测序(例如Illumina测序)、焦磷酸测序(例如454测序)、连接测序(例如SOLiD测序)、单分子测序(例如单分子、实时(SMRT)测序,Pacific Biosciences)或通过纳米孔测序(例如在Minion或Promethion平台上,Oxford Nanopore Technologies)。
本发明进一步提供了一种用于处理通过本文定义的任何方法获得的测序数据的方法。用于处理序列数据的方法包含以下步骤:(a)针对每个序列读段识别条形码区域的序列和来自靶核酸的序列;和(b)使用步骤(a)中的信息确定来自靶核酸的一组序列,所述序列被来自相同多聚条形码试剂的条形码区域标记。
方法可进一步包含通过分析序列组以识别连续序列来确定靶核酸的序列的步骤,其中靶核酸的序列包含来自至少两个序列读段的核苷酸。
本发明进一步提供了一种用于处理(或分析)通过本文定义的任何方法获得的测序数据的算法。算法可被配置成执行用于处理本文定义的测序数据的任何方法。算法可以用于检测每个序列读段内的条形码区域的序列,且还可用于检测衍生自靶核酸的序列读段内的序列,且将其分成两个相关的数据集。
本发明进一步提供了一种从靶核酸产生合成长读段的方法,所述方法包含以下步骤:(a)根据本文定义的任何方法制备用于测序的核酸样品;(b)对样品进行测序,任选地,其中通过本文定义的任何方法对样品进行测序;以及(c)处理通过步骤(b)获得的序列数据,任选地,其中所述序列数据是根据本文定义的任何方法处理的;其中步骤(c)产生合成长读段,其包含来自至少两个序列读段中的每一个的至少一个核苷酸。
方法可使得能够对靶核酸分子的靶序列进行定相,即,可使得能够确定所述序列位于染色体的哪个拷贝(即父本或母本)上。靶序列可包含特定靶突变、易位、缺失或扩增,且方法可用于将突变、易位、缺失或扩增分配至特定染色体。对两个或更多个靶序列进行定相也可使得能够检测非整倍性。
合成长读段可包含至少50、至少100、至少250、至少500、至少750、至少1000、至少2000、至少104、至少105、至少106、至少107或至少108个核苷酸。优选地,合成长读段包含至少50个核苷酸。
本发明进一步提供了对两个或更多个共定位靶核酸进行测序的方法,其包含以下步骤:(a)根据本文定义的任何方法制备用于测序的核酸样品;(b)对样品进行测序,任选地,其中通过本文定义的任何方法对样品进行测序;以及(c)处理通过步骤(b)获得的序列数据,任选地,其中所述序列数据是根据本文定义的任何方法处理的;其中步骤(c)识别至少两个序列读段,所述序列读段包含来自样品中共定位的至少两个靶核酸的核苷酸。
通过测序分析带条形码的或连接的核酸分子的任何方法可包含冗余测序反应,其中靶核酸分子(例如,已在条形码反应中带条形码的靶核酸分子)在测序反应中被测序两次或更多次。任选地,从样品制备的每个这样的分子平均可被测序至少两次,至少3次,至少5次,至少10次,至少20次,至少50次或至少100次。
在通过测序分析带条形码的核酸分子的任何方法中,可采用误差校正过程。此过程可包含以下步骤:(i)从包含相同条形码序列的测序数据集中确定两个或更多个序列读段,和(ii)将来自所述两个或更多个序列读段的序列彼此比对。任选地,此误差校正过程可进一步包含以下步骤:(iii)确定序列读段内的每个位置和/或靶核酸分子的序列内的每个位置处的大多数和/或最常见和/或最可能的核苷酸。此步骤可任选地包含通过误差校正、误差消除、误差检测、误差计数或统计误差消除的任何过程建立每个靶核酸序列的共同序列。此步骤可进一步包含以下步骤:将包含相同条形码序列的多个序列读段折叠为包含单个校正误差的读段的表示。任选地,从包含相同条形码序列的测序数据集确定两个或更多个序列读段的任何步骤可包含确定包含具有至少一定程度的相同核苷酸和/或序列相似性,例如至少70%、至少80%、至少90%或至少95%序列相似性(例如,在条形码序列之间的任何点处允许错配和/或插入或缺失)的条形码序列的序列读段。
在使用通过测序分析带条形码的核酸分子的任何方法中,可采用替代的误差校正过程,其包含以下步骤:(i)从包含相同靶核酸序列的测序数据集中确定两个或更多个序列读段,其中所述两个或更多个序列读段进一步包含两个或更多个不同的条形码序列,其中所述条形码序列来自相同的多聚条形码分子和/或多聚条形码试剂,和(ii)使来自所述两个或更多个序列读段的序列彼此比对。任选地,此误差校正过程可进一步包含以下步骤:(iii)确定靶核酸分子的序列内的每个位置处的大多数和/或最常见和/或最可能的核苷酸。此步骤可任选地包含通过误差校正、误差消除、误差检测、误差计数或统计误差消除的任何过程建立靶核酸分子的共同序列。此步骤可进一步包含以下步骤:将包含相同靶核酸分子的多个序列读段折叠为包含单个校正误差的读数的表示。靶核酸分子可包含例如基因组DNA序列。任选地,比较两个条形码序列,和/或比较测序的条形码序列与参考条形码序列的任何步骤可包含确定包含至少一定程度的相同核苷酸和/或序列相似性,例如至少70%、至少80%、至少90%或至少95%序列相似性(例如,在条形码序列之间的任何点处允许错配和/或插入或缺失)的序列。
28.用于确定和分析来自微米粒子的连接序列读段集(即连接信号集)的方法
本发明提供了一种确定来自单个微米粒子的靶核酸(例如基因组DNA)的片段的连接序列读段的集合(即,连接信号的集合)的方法,其中所述方法包含:(a)根据本文所描述的任何方法分析样品;和(b)确定两个或更多个连接序列读段的组。
可通过识别包含相同条形码序列的序列读段来确定两个或更多个连接序列读段的组。
可通过识别包含来自同一组条形码序列的不同条形码序列的序列读段来确定两个或更多个连接序列读段的组。
可通过识别包含来自同一多聚条形码试剂的条形码区域的条形码序列的序列读段来确定两个或更多个连接序列读段的组。
可通过识别包含在同一测序分子的两个或更多个不重叠区段中的序列读段来确定两个或更多个连接序列读段。
可通过识别两个或更多个连接序序列读段在用于其测序的测序仪器内的空间接近性来确定两个或更多个连接序序列读段的组。任选地,此空间接近性通过使用截止值或阈值来确定,或通过非随机或高于平均的接近性来确定。任选地,此空间接近性表示为与测序仪器内不同程度的空间接近性对应的定量、半定量或分类值。
方法可包含确定至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000组连接序列读段(即,连接信号集)。
本发明提供了一种确定序列数据集内的连接序列读段集(即,连接信号集)的总数的方法,所述方法包含:(a)根据本文所述的任何方法分析样品;和(b)确定连接序列读段集的数目。
可通过对包含不同条形码序列的序列读段的数目进行计数来确定连接序列读段集(即,连接信号集)的数目。
可通过对在序列读段中具有条形码序列的条形码序列集合进行计数来确定连接序列读段集(即,连接信号集)的数目。
可通过对具有条形码序列处于序列读段中的条形码区域的多聚条形码试剂的数目进行计数来确定连接序列读段集(即,连接信号集)的数目。
任选地,这些计数过程中仅包括在序列数据集内代表至少2次、至少3次、至少5次、至少10次、至少20次、至少50次或至少100次的条形码序列。任选地,在所述计数过程之前,通过纠错过程来处理序列读段和/或条形码序列。任选地,在所述计数过程之前,在去除重复过程中,将在整个序列数据集中代表超过一次的技术重复读段折叠成单个去除重复的读段。
所述方法可包含计数或估计连接序列读段集(即,连接信号集)的总数,其中将包含来自微米粒子的靶核酸(例如基因组DNA)的片段的两个或更多个核酸序列在包含所述序列数据集的序列内附接至彼此,且对来自包含靶核酸的至少两个不同区段的所述序列数据集的序列读段的数目进行计数,从而确定序列数据集内的连接序列读段集的数目。任选地,对所述序列数据集内的测序分子的总数进行计数,从而确定序列数据集内的连接序列读段集的数目。任选地,仅对包含靶核酸的至少3个不同区段、包含靶核酸的至少5个不同区段、包含靶核酸的至少10个不同区段或包含靶核酸的至少50个不同区段的测序分子进行计数。
所述方法可包含计数或估计连接序列读段集(即,连接信号集)的总数,其中序列组通过测序仪器内的空间接近度进行信息连接,且其中对所述序列数据集内的测序分子的总数进行计数,从而确定序列数据集内的连接序列读段集的数目。任选地,对所述序列数据集内的测序分子的总数进行计数,且接着除以不变的归一化因子,从而确定序列数据集内的连接序列读段集的数目。
本发明提供了一种从连接序列读段的集合(即,连接信号的集合)确定参数值的方法,其中所述方法包含:(a)根据本文所述的任何方法确定连接序列读段的集合;和(b)将连接序列组的每个序列(的至少一部分)定位到一个或多个参考核苷酸序列;以及(c)通过计数或识别连接序列读段集中的一个或多个参考核苷酸序列的存在来确定参数值。
任选地,此参考序列可包含整个基因组、整个染色体、染色体的一部分、基因、基因的一部分、基因组的任何其它一个或多个部分,或任何其它合成或实际序列。参考序列可包含转录物、转录物的一部分、转录物同工型或转录物同工型的一部分;参考序列可包含转录物的剪接点。参考序列可来自人类基因组。参考序列可来自一个或多个不同参考人类基因组序列,例如来自两个或更多个不同参考人类基因组序列库,或来自两个或更多个不同单倍型定相的参考人类基因组序列库的不同参考序列(例如,来自国际单倍型图计划(International HapMap Project)和/或100个基因组计划(100 Genomes Project)的不同基因组序列)。
参考序列的其它选择在PCT/GB2017/053820中描述,其以引用的方式并入本文中。
任选地,一个或多个参考序列可包含在特定组织(即特定细胞类型)和/或特定的特异性患病组织组内排他地存在,或优先发现,或以高水平和/或高于平均水平发现的序列。任选地,一个或多个参考序列可在非母本和/或父本组织内排他地存在,或优先发现,或以高水平和/或高于平均水平发现。任选地,一个或多个参考序列可在母本组织内排他地存在,或优先发现,或以高水平和/或高于平均水平发现。任选地,一个或多个参考序列可在一种或多种特定组织类型(例如肺组织,或胰腺组织,或淋巴细胞)内排他地存在,或优先发现,或以高水平和/或高于平均水平发现。任选地,一个或多个参考序列可在特定类型的患病组织(如癌组织,如肺癌组织或结肠直肠癌组织,或来自非癌患病组织,如梗塞的心肌组织,或患病的脑血管组织,或经历子痫或先兆子痫的胎盘组织)内排他地存在,或优先发现,或以高水平和/或高于平均水平发现。任选地,一个或多个参考序列可在特定类型的组织(例如肺组织,或胰腺组织,或淋巴细胞)内排他地存在,或优先发现,或以高水平和/或高于平均水平发现。任选地,一个或多个参考序列可在特定类型的健康组织(如健康的肺组织,或健康的胰腺组织,或健康的淋巴细胞)内排他地存在,或优先发现,或以高水平和/或高于平均水平发现。
任选地,可通过经验测量和/或评估方法来建立包含如下的序列的任何一个或多个参考序列:在特定组织(即,特定细胞类型)和/或特定的特异性患病组织内排他地存在,或优先发现,或以高水平和/或高于平均水平发现。其它选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,一个或多个参考序列可包含带条形码的亲和探针中包含的序列,其中所述带条形码的亲和探针的靶分子(例如,所述带条形码的亲和探针对其具有亲和力的蛋白质)在特定组织(即,特定细胞类型)和/或特定的特异性患病组织内排他地存在,或优先发现,或以高水平和/或高于平均水平发现。任选地,一个或多个参考序列可包含带条形码的亲和探针中包含的序列,其中所述带条形码的亲和探针的靶分子(例如,所述带条形码的亲和探针对其具有亲和力的蛋白质)在特定组织(即,特定细胞类型)和/或特定的特异性患病组织内不存在,或优先不存在,或以低水平和/或低于平均水平发现。
参考核苷酸序列可包含对应于染色体或染色体的一部分的序列。任选地,此序列的长度为至少1个核苷酸,长度为至少10个核苷酸,长度为至少100个核苷酸,长度为至少1000个核苷酸,长度为至少10,000个核苷酸,长度为至少100,000个核苷酸,长度为至少1,000,000个核苷酸,长度为至少10,000,000个核苷酸,或长度为至少100,000,000个核苷酸。
参考核苷酸序列可包含对应于两个或更多个染色体的两个或更多个序列,或对应于一个或多个染色体的两个或更多个部分的序列。任选地,这些序列的长度各自为至少1个核苷酸,长度为至少10个核苷酸,长度为至少100个核苷酸,长度为至少1000个核苷酸,长度为至少10,000个核苷酸,长度为至少100,000个核苷酸,长度为至少1,000,000个核苷酸,长度为至少10,000,000个核苷酸,或长度为至少100,000,000个核苷酸。任选地,此参考序列可包含整个基因组序列。
参考核苷酸序列可包含一个或多个滑动窗口,其中每个窗口包含有限长度的基因组区域的跨度,且其中两个或更多个窗口沿所述基因组区域偏移一定有限数量的核苷酸。任选地,这些滑动窗口可以是部分重叠的,彼此紧邻的,或被一定数量的核苷酸的跨度间隔开。
参考核苷酸序列可包含重复序列。任选地,此重复序列包含二核苷酸重复、三核苷酸重复、四核苷酸重复或五核苷酸重复。任选地,参考核苷酸序列包含相同重复单元的一系列两个或更多个紧邻的拷贝,例如2个紧邻的拷贝,5个紧邻的拷贝,8个紧邻的拷贝,10个紧邻的拷贝,15个紧邻的拷贝,20个紧邻的拷贝,30个紧邻的拷贝,40个紧邻的拷贝,50个紧邻的拷贝或100个紧邻的拷贝。
任选地,可采用任何一个或多个参考序列来分析通过本文所述的任何方法确定的序列。可使用任何一个或多个参考序列来分析基因组DNA的片段的序列。可使用任何一个或多个参考序列来分析RNA的序列。可使用任何一个或多个参考序列来分析基因组DNA的片段的序列,其中对一个或多个所述基因组DNA的片段进行修饰的核苷酸或核碱基的测量(作为一个这样的实例,任何一个或多个参考序列可用于分析已通过富集过程富集修饰的核苷酸,如5-甲基胞嘧啶或5-羟甲基胞嘧啶的基因组DNA的片段的序列;作为另一个这样的实例,任何一个或多个参考序列可用于分析基因组DNA的片段的序列,所述基因组DNA的片段中所含的至少一个核苷酸通过分子转化过程,如亚硫酸氢盐转化过程或氧化亚硫酸氢盐转化过程进行转化,其中所述转化过程用于检测一个或多个修饰的核苷酸,如5-甲基胞嘧啶或5-羟甲基胞嘧啶)。
任选地,任何一个或多个参考序列可包含一个或多个差异甲基化区域(DMR)(例如长度为至少20、至少30、至少50、至少80、至少100、至少120、至少150、至少200、至少300或至少500个核苷酸的DMR),例如在任何两种细胞类型和/或组织类型之间差异甲基化的DMR,和/或在一个或多个特定组织类型和/或细胞类型和/或患病组织类型中优先甲基化(或优先去甲基化)的DMR。
任选地,可使用任何一个或多个参考序列来分析基因组DNA的片段的序列,其中基因组DNA的任何此类片段的最5′和/或最3′核苷酸(和/或接近核苷酸最5′和/或最3′的核苷酸,例如在最5′和/或最3′核苷酸的最近的2、3、4或5个核苷酸内的核苷酸)被映射到所述参考序列。另外的选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。任选地,参考序列和/或其列表可包含染色质可及性和/或染色质开放性的序列(例如,通过ATAC-seq分析和/或DNAse可及性分析测量)(例如,在任何一个或多个特定组织和/或患病组织和/或健康组织中),任选地,其中对应于每个此类参考序列的染色质可及性和/或染色质开放性的程度和/或可能性,生成与每个此类参考序列对应的加权值(例如在任何一个或多个特定组织和/或患病组织和/或健康组织中)。
参数值可为定量的或半定量的值,且通过对序列组内的序列读段的数目进行计数来确定,所述序列被确定为包含源自所述一个或多个参考核苷酸序列的序列。另外的选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
参数值可为二进制值,且可通过检测序列读段集中的至少一个序列读段是否包含源自所述一个或多个参考核苷酸序列的序列来确定。另外的选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,两个或更多个参考序列的列表和/或组内的每个参考序列可与加权值和/或关联值相关。任选地,此加权值和/或关联值可对应于给定序列是非母本或父本的可能性或概率,或者对应于给定序列是母本的可能性或概率。任选地,此加权值和/或关联值可对应于给定序列来自特定组织类型(例如,肺组织,或胰腺组织,或淋巴细胞)的可能性或概率。任选地,此加权值和/或关联值可对应于给定序列来自特定类型的患病组织(如癌组织,如肺癌组织或结肠直肠癌组织,或来自非癌患病组织,如梗塞的心肌组织,或患病的脑血管组织,或经历子痫或先兆子痫的胎盘组织)的可能性或概率。
任选地,可通过经验测量和/或评估方法来建立任何一个或多个参考序列的任何此类加权值和/或关联值。任选地,可通过测量两种或更多种不同组织类型(例如,患病组织和健康组织)中的两种或更多种转录物的表达(例如RNA水平)来确立任何一个或多个参考序列的加权值和/或关联值,且接着可凭经验确立第一和第二组织类型内的所述两种或更多种转录物的绝对和/或相对表达水平,分别作为所述第一和第二组织类型的所述加权值和/或关联值。任选地,可通过测量两种或更多种不同组织类型(例如,患病组织和健康组织)中的两个或更多个基因组区域(例如两个或更多个基因,或两个或更多个基因启动子区)的5-甲基胞嘧啶(或类似地,5-羟甲基胞嘧啶)的水平来确立任何一个或多个参考序列的加权值和/或关联值,且接着可凭经验确立第一和第二组织类型内的所述两个或更多个基因(或启动子)的绝对和/或相对5-甲基胞嘧啶水平,分别作为所述第一和第二组织类型的所述加权值和/或关联值。另外的选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,可通过经验测量和/或评估方法来确立任何一个或多个参考序列的任何此类加权值和/或关联值,其中所述经验测量和/或评估方法采用包含一个或多个循环微米粒子的一个或多个样品作为用于所述经验测量和/或评估方法的输入样品(例如,其中来自循环微米粒子的基因组DNA的片段的第一和第二序列被连接,例如通过本文所述的任何一种或多种方法)。任选地,任何所述一个或多个循环微米粒子各自包含基因组DNA的至少第一和第二片段。任选地,包含一个或多个循环微米粒子的任何所述一个或多个样品可从患有一种或多种特定疾病的患者获得,所述一种或多种特定疾病例如癌症(例如肺癌或胰腺癌),或例如特定分期的癌症(例如I期、II期、III期、IV期),或具有特定临床特征的癌症(例如良性癌,例如恶性癌,例如局部癌,例如转移癌,或例如难治性癌)。任选地,包含一个或多个循环微米粒子的所述一个或多个样品可来自没有任何一种或多种特定疾病的患者。任选地,包含一个或多个循环微米粒子的所述一个或多个样品可来自被视为健康的患者。任选地,包含一个或多个循环微米粒子的任何所述一个或多个样品可包含来自同一个体的至少第一和第二样品,其中第一样品在较早的时间从所述个体制得,且第二样品在较晚的时间从所述个体制得,由第一样品与第二样品之间的持续时间(例如一小时,或一天,或一周,或一个月,或3个月,或6个月,或12个月,或2年,或3年,或5年,或10年)分隔开。任选地,可通过经验测量和/或评估方法来确立任何一个或多个参考序列的任何此类加权值和/或关联值,其中,所述经验测量和/或评估方法采用至少一个来自患有疾病的患者的样品(包含一个或多个循环微米粒子),和至少一个来自未患所述疾病的个人的样品(包含一个或多个循环微米粒子)(例如,其中将对应于来自患有所述疾病的个人的样品中的所述参考序列的数量和/或信号与对应于来自未患所述疾病的个人的样品中的所述参考序列的数量和/或信号进行比较,例如,其中采用所述两个测量值的比作为所述加权值和/或关联值)。任选地,可通过经验测量和/或评估方法确立任何一个或多个参考序列的任何此类加权值和/或关联值,其中所述经验测量和/或评估方法采用来自患有疾病的一组至少两个患者的样品(包含一个或多个循环微米粒子),和来自未患所述疾病的一组至少两个人的样品(包含一个或多个循环微米粒子)。任选地,任何所述患有疾病的患者组(或未患所述疾病的个人组)可各自包含至少3、至少5、至少10、至少20、至少50、至少100、至少200、至少500、至少1000、至少2000、至少10,000、至少20,000、至少50,000、至少100,000、至少500,000、至少1,000,000或至少10,000,000个个体。任选地,所述患有疾病的患者组中的任何患者(或所述未患所述疾病的个人组中的任何个人)可各自提供两个或更多个包含循环微米粒子的样品,其中在不同的时间点(例如相隔至少一天、至少一周、至少一个月、至少2个月、至少6个月、至少一年、至少2年或至少5年的时间点)获得每个样品。
任选地,在其中将包含一个或多个循环微米粒子的一个或多个样品用作输入样品,以通过经验测量和/或评估方法为任何一个或多个参考序列确立任何加权值和/或缔合值的任何方法中,所述加权值和/或关联值可能与5-甲基胞嘧啶水平有关(例如,其可能与特定健康组织或特定患病组织内的5-甲基胞嘧啶水平有关),或任选地可能与5-羟甲基胞嘧啶水平有关(例如,其可能与特定健康组织或特定患病组织内的5-羟甲基胞嘧啶水平有关)。另外的选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,所述方法可包含在连接序列读段的集合(即,连接信号的集合)中,从一个或多个参考序列列表中计数参考序列的数目。任选地,可对样品或其任何一个或多个子集中的所有连接序列读段集进行此计数方法。任选地,每个参考序列可与加权值和/或关联值相关,使得计数方法包含加权计数方法,其中确定了连接序列读段的集合内的参考序列的加权和。任选地,此加权值可对应于给定序列是非母本或父本的可能性或概率,或对应于给定序列是母本的可能性或概率,或对应于给定序列来自特定起源组织(例如肺组织,或胰腺组织,或淋巴细胞)的可能性或概率,或对应于给定序列来自特定健康起源组织(例如健康肺组织,或健康胰腺组织,或健康淋巴细胞)的可能性或概率),或对应于给定序列来自特定患病起源组织(例如疾病的肺组织,或患病的胰腺组织,或患病的淋巴细胞)的可能性或概率,或对应于给定序列来自特定癌性起源组织(例如癌性肺组织,或癌性胰腺组织,或癌性淋巴细胞)的可能性或概率。
任选地,可将来自连接序列读段的集合的参考序列的任何总和或加权总和与一个或多个阈值进行比较,且其中包含大于所述阈值参考序列数目的连接序列读段集(即,连接信号集)被确定和/或怀疑来自特定起源组织。任选地,可针对样品中的所有连接序列读段集和/或其任何一个或多个子集执行确定任何此类所述总和且与一个或多个阈值进行比较的任何方法。另外的选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,任何一个或多个连接序列组(或例如样品中的所有连接序列读段集(即,连接信号集))可通过两个或更多个不同的参考序列列表进行分析和/或与所述列表进行比较。任选地,样品中的连接序列读段集可用对应于第一特定组织类型的参考序列的第一列表来分析,且还可用对应于第二特定组织类型的参考序列的第二列表来分析。任选地,样品中的连接序列读段集可用对应于特定健康组织类型的参考序列的第一列表来分析,且还可用对应于特定患病组织类型的参考序列的第二列表来分析。任选地,样品中的连接序列读段集可用对应于特定健康组织类型的参考序列的第一列表来分析,且还可用对应于相同组织类型的癌性组织的参考序列的第二列表来分析。另外的选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
来自连接序列读段集(即连接信号集)的序列读段可映射至对应于一个或多个相同基因组区域的两个或更多个参考核苷酸序列,其中每个参考核苷酸序列包含所述一个或多个基因组区域内的不同突变等位基因或不同突变等位基因组,且所述参数值可通过在所述连接序列读段集内存在一个或多个参考核苷酸序列来确定。
可确定或估计靶核酸(例如基因组DNA)的所述片段的长度,且参数可包含所述确定或估计的长度的平均值、中值、众数、最大值、最小值或任何其它单个代表性值。任选地,通过对基因组DNA的片段的基本上整个序列进行测序(即,从其大约5′端至其大约3′端)并计数其中测序的核苷酸数目,来确定每个测序片段内的基因组DNA序列的长度。任选地,这是如下进行的:通过在片段化基因组DNA的序列的5′端处测序足够数量的核苷酸以将所述5′端映射到参考人类基因组序列内的基因座,且同样地在片段化基因组DNA的序列的3′端处测序足够数量的核苷酸以将所述3′端映射到参考人类基因组序列内的基因座,且到那时计算包含参考人类基因组序列内的所述5′区段、参考人类基因组序列内的所述3′区段以及两个测序部分之间包含的任何未测序的人类基因组序列的核苷酸的总跨度。
可针对至少2、至少10、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000或至少1,000,000,000个连接序列读段集(即,连接信号集)确定参数值。
可针对至少2个连接序列读段集(即,连接信号集)确定参数值,且可如下地评估参数值:通过确定其中参数值等于特定参数值、等于一组两个或更多个参数值中的一个、小于特定参数值、大于特定参数值,或在所述参数的至少一个值范围内,或在所述参数的两个或更多个值范围中的一个内的连接序列读段集的数目。任选地,确定了所有评估的连接序列读段集中被确定为满足以上条件中的一个或多个的连接序列读段集的分数或比例。任选地,确定了至少2个连接序列读段集的参数值,且确定了跨越参数值组的均值、平均值、众数或中值参数值。
针对至少2个连接序列读段集(即,连接信号集)的组确定参数值,且可通过比较所述组的参数值与第二组参数值来评估参数值。任选地,所述第二组参数值可对应于参数值的预期正态分布,或对应于参数值的预期非正态分布。任选地,这些参数值可从合成数据、随机数据或由代表一个或多个正常或异常条件的循环微米粒子的一个或多个独立样品产生的实验数据中得出。任选地,可另外确定至少1、至少10、至少100、至少1000、至少10,000、至少100,000或至少1,000,000组参数值,且另外与第一组参数值相比。另外的选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
可针对连接序列读段集(即连接信号集)确定至少两个不同的参数值。任选地,确定至少3、至少10、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000或至少100,000,000个不同的参数值。
本发明提供一种确定一组连接序列读段的集合(即,连接信号的集合)的方法,所述方法包含:(a)针对两个或更多个连接序列读段的集合中的每一个确定参数值,其中根据本文所述的任何方法确定每个连接序列读段的集合的参数值;和(b)比较连接序列读段集的参数值,以识别一组的两个或更多个连接序列读段的集合。
可通过识别参数值等于特定参数值、等于两个或更多个参数值的集合中的一个、小于特定参数值、大于特定参数值、或在所述参数值的至少一个值范围内、或在所述参数值的两个或更多个值范围中的一个内的连接序列读段的集合来确定所述一组连接序列读段的集合(即,连接信号的集合)。任选地,确定所述组内的连接序列读段的集合的数目,从而确定组的大小。
方法可包含进一步评估一组连接序列读段的集合(即,连接信号的集合),其中所述一组连接序列读段的集合通过第二分析步骤进行进一步分析。任选地,此第二分析步骤包含确定和/或评估所述一组连接序列读段的集合的第二参数值。任选地,此第二分析步骤包含确定在所述一组连接序列读段的集合中包含的序列中特定等位基因的存在或不存在。任选地,此第二分析步骤包含确定存在或不存在染色体异常,例如一个或多个非整倍性、或微缺失、或拷贝数变异、或杂合性丧失、或重排或易位事件、单核苷酸变异、从头突变或任何其它基因组特征或突变。
方法可包含通过第二分析步骤进一步评估所述一组连接序列读段的集合(即,连接信号的集合),其中第二分析步骤包含确定映射至一个或多个参考核苷酸序列的所述一组连接序列读段的集合中的每个连接序列读段的集合中的序列读段的数目。任选地,此一个或多个参考序列可包含整个基因组、整个染色体、染色体的一部分、基因、基因的一部分、基因组的任何其它一个或多个部分,或任何其它合成或实际序列。任选地,此第二分析步骤包含对在参考序列内映射的组内的序列读段的总数进行计数,且接着此该序列读段数除以组内的集合总数,以估计每个集合的参考序列内的序列读段的相对数目。因此,这可以形成在对应于所述一组连接序列读段的集合的微米粒子的原始样品内每个微米粒子的参考序列内的序列读段的相对数目的估计。任选地,此第二分析步骤可进一步包含以下步骤:将此估计的相对数目与阈值进行比较,其中,估计的相对数目大于所述阈值,或者,估计的相对数目小于所述阈值可指示存在或不存在特定的医学或遗传病况,例如染色体非整倍性或微缺失。
29.确定和分析来自微米粒子的连接信号集的方法
任选地,对于本文所述的任何方法,可确定和/或计算和/或估计任何数目的一个或多个参数值(且接着任选地,进一步分析和/或评估和/或与任何方法和/或参考值和/或控制参数进行比较),其中任何一个或多个参数值是从任何信号的任何测量和/或任何信号本身(例如,来自至少两个连接信号的集合的任何信号,例如来自循环微米粒子的测量的至少两个连接信号的集合)得出和/或与其相关和/或与其关联,其中所述测量和/或信号是从任何类型的分子和/或生物分子和/或靶分子和/或靶生物分子得出和/或与其相关和/或与其关联,例如任何一个或多个基因组DNA的片段,任何一个或多个RNA序列和/或RNA分子,任何一个或多个修饰的核苷酸和/或修饰的核碱基,任何一种或多种多肽(例如任何一种或多种蛋白质和/或靶蛋白和/或任何一种或多种翻译后修饰的蛋白质),例如任何一个或多个此类分子和/或生物分子的任何水平和/或任何存在和/或任何不存在。任选地,可将任何此类参数值与一个或多个控制参数值进行比较,任选地,其中一个或多个此类控制参数值是从一个或多个第二和/或不同信号(例如从来自连接信号的第二、不同集合的一个或多个信号,例如从来自第二、不同循环微米粒子的测量的连接信号的第二集合)确定的。可针对连接信号的至少2、至少10、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000或至少1,000,000,000个集合确定任何参数值和/或控制参数值。可针对连接信号的任何集合确定至少两个不同的参数值。任选地,可确定至少3、至少10、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000或至少100,000,000个不同的参数值。涉及和有关于任何此类参数值和/或控制参数值的计算、推导、建立、分析和/或使用的方法的选项提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,对应于任何分子和/或生物分子和/或靶分子和/或靶生物分子(例如任何水平的修饰的核苷酸和/或修饰的核碱基,或任何水平的靶多肽或靶翻译后修饰的多肽)的水平(和/或任何估计水平和/或预测水平和/或测量水平)的任何数目的一个或多个信号可包含参数值和/或控制参数值。涉及和有关于任何此类参数值和/或控制参数值的方法的选项提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,对应于任何分子和/或生物分子和/或靶分子和/或靶生物分子(例如任何水平的修饰的核苷酸和/或修饰的核碱基,或任何水平的靶多肽或靶翻译后修饰的多肽)的存在,和/或包含不存在(和/或任何预测或测量的存在或不存在)的任何数目的一个或多个信号可包含参数值和/或控制参数值,例如定性或分类参数值和/或控制参数值。涉及和有关于任何此类参数值和/或控制参数值的方法的选项提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,在任何方法中,其中将包含循环微米粒子的样品(和/或衍生自循环微米粒子的样品)分为至少两个子集和/或子群(例如,分为循环微米粒子的第一子集和循环微米粒子的第二子集,例如其中样品被分选(例如FACS分选)为展现高水平的特定靶生物分子的循环微米粒子的第一子集,和展现低水平的所述特定靶生物分子的循环微米粒子的第二子集),循环微米粒子的任何一个或多个子集和/或子群内的成员资格可包含参数值,例如定性和/或分类值。
任选地,在涉及使用一个或多个带条形码的亲和探针的任何方法中,任何一个或多个参考序列(例如,用于分析连接序列和/或连接序列读段和/或连接信号的一个或多个集合和/或组的任何参考序列)可包含所述一个或多个带条形码的亲和探针中包含的一个或多个寡核苷酸序列(例如,任何一个或多个参考序列可包含任何一个或多个带条形码的亲和探针中包含的寡核苷酸序列,例如带条形码的寡核苷酸的序列)。任选地,在涉及使用一个或多个带条形码的亲和探针的任何方法中,其中所述带条形码的亲和探针对人类基因组中编码的多肽具有亲和力,来自包含带条形码的亲和探针内的序列的任何一个或多个连接序列读段集的每个序列都可被视为(例如,可在信息上被视为)映射(例如,以合成或人工方式映射)到参考序列,所述参考序列包含与每个所述带条形码的亲和探针具有亲和力的蛋白质的基因对应的人类基因组序列的全部或部分。任选地,涉及与参考序列有关的参数值的产生、预测、计算和/或分析的任何方法都可采用以任何方式与任何一个或多个带条形码的亲和探针相关联的参考序列。任何这样的一个或多个参考序列可与加权值和/或关联值相关,任选地,其中任何这样的加权值和/或关联值可通过任何经验性测量和/或评估过程来建立(例如,通过涉及来自一个或多个个体或个体组(例如健康个体组和/或患有一种或多种疾病或状况的个体组)的一个或多个样品的任何经验性测量和/或评估过程;任选地,其中所述样品可包含循环微米粒子,和/或任选地,其中所述样品可包含其它样品,例如组织和/或活检样品)。涉及和有关于任何此类参考序列和/或参数值和/或值和/或加权和/或关联值和/或经验测量和/或评估过程的方法的选项提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
对于涉及通过任何此类方式进行信息连接的两个或更多个信号的任何分析,可在任何分析或评估步骤或执行所述步骤的任何算法中将连接的存在(或不存在)用作参数(例如参数值和/或控制参数值)。对于涉及通过任何这样的方式进行信息连接的两个或更多个信号的任何分析,连接的程度、概率、范围或水平可用作任何分析或评估步骤或任何执行所述步骤的算法中的参数。
本发明提供了一种从连接信号的集合中确定参数值的方法,其中所述方法包含:(a)根据本文所述的任何方法确定连接信号的集合;和(b)通过计数或鉴别连接信号的集合中一个或多个参考核苷酸序列的存在来确定参数值。
任何参数值可以是定量或半定量值,且可通过对连接序列的集合中的序列读段数目进行计数来确定,所述连接序列被确定为包含源自任何一个或多个参考核苷酸序列的序列。其它选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
可对于至少2个连接信号集确定任何参数值和/或控制参数值,且可通过确定参数值等于特定(例如控制)参数值、等于两个或更多个参数值的集合中的一个、小于特定参数值、大于特定参数值、或在所述参数的值的至少一个值范围内、或在所述参数的两个或更多个值范围之一内的连接信号集的数目来评估参数值。任选地,确定了所有评估的连接信号集中被确定为满足以上条件中的一个或多个的连接信号集的分数或比例。任选地,确定了至少2个连接信号集的参数值,且确定了跨越参数值组的均值、平均值、众数或中值参数值。
30.通过算法转换连接序列读段数据以进行分析的方法
本发明提供了将连接序列数据转换为其代表性形式的方法,所述形式可通过分析或统计工具更容易或更全面地分析。特别重要的是,所述方法可用于分析循环微米粒子的特定样品中是否存在结构异常(例如,易位或大规模拷贝数变异),但其中所述结构异常的特定性质、基因组位置或大小以前是未知的,且此外,其中此类因素对于特定的生物测量可能并不直接重要。
来自微米粒子的序列可用于检测结构异常的存在,所述结构异常可指示衍生样品的人体内癌症的存在。一定数目的结构异常的存在和/或负担本身可能指示癌症(或指示其风险),但此类潜在异常的基因组位置可能既不是前瞻性已知的,也不是与癌症风险评估相关的;因此,将连接微米粒子序列数据转换为更容易使用信息或统计工具进行分析的形式可提高此方法的灵敏度和特异性。特别重要的是,转换方法可使得能够使用特定的数字工具系列对此类微米粒子连接序列数据进行分析,所述数字工具通常需要对数据进行某种转换以进行有效的分析,例如深度学习和/或机器学习方法,以及神经网络/递归神经网络方法。
本发明提供了一种转换由微米粒子样品产生的连接序列数据的方法,其中从第一循环微米粒子的靶核酸的片段产生连接序列读段的第一集合(即连接信号的第一集合),且其中从第二循环微米粒子的靶核酸的片段产生连接序列读段的第二集合(即连接信号的第二集合)。
可将连接序列读段的第一和第二集合(即,连接信号的集合)映射至参考基因组序列,且其中将每个序列读段转换成包含其所映射到的染色体和索引函数的表示,其中所述索引函数包含其与来自连接序列读段的同一集合的另外至少1个序列的连接。任选地,所述索引函数可以是独特标识符,其鉴别对应的连接序列读段的集合。
31.确定基因组重排、易位、结构变异或基因组连接的方法
本发明提供了一种确定来自单个微米粒子的靶核酸(例如基因组DNA)片段的连接序列读段的集合(即,连接信号的集合)中基因组重排或结构变的存在的方法,其中所述方法包含:(a)根据本文所述的任何方法确定连接序列读段的集合;和(b)将连接序列读段的集合中的每个序列(的至少一部分)映射至包含第一基因组区域的第一参考核苷酸序列,且将连接序列读段的集合中的每个序列(的至少一部分)映射至包含第二基因组区域的第二参考核苷酸序列;以及(c)计数来自被发现在第一基因组区域内映射的连接序列读段的集合的序列读段的数目,且计数来自被发现在第二基因组区域内映射的连接序列读段的集合的序列读段的数目。
基因组重排或结构变异可以是任何类型的基因组结构现象,例如基因组拷贝数变异(包括拷贝数增加或拷贝数损失)、微缺失或任何种类的重排(例如倒置)、易位,例如染色体易位(例如染色体内易位或染色体间易位)。
在所述方法中,计数的序列读段数可接着用于进一步的评估步骤或统计分析,以确定在第一基因组区域与第二基因组区域之间是否可能存在基因组连接(即,沿着同一条染色体的连接)。所述方法可针对单个连接序列读段的集合(即,连接信号的集合)进行,且其也可针对一组两个或更多个连接序列读段的集合进行,以及针对微米粒子样品或其子组中的所有连接序列读段的集合进行。
任选地,还确定了连接序列读段的集合(即,连接信号的集合)内的序列读段的总数。第一和第二基因组区域可位于同一染色体内,并且如果这样,则可彼此紧邻或可被任何数目的核苷酸分隔。或者,第一和第二基因组区域可位于两个不同的染色体内。第一和第二基因组区域的长度可以是任何数目的核苷酸,从1个核苷酸到染色体臂或整个染色体的长度。
任选地,进行一种评估,其中将第一基因组区域内的序列读段的数目与第一阈值进行比较,并且将第二基因组区域内的序列读段的数目与第二阈值进行比较,其中第一数目等于或大于第一阈值且第二数目等于或大于第二阈值确定或指示了存在第一基因组区域与第二基因组区域之间的基因组连接和/或存在涉及第一和第二基因组区域的重排或易位事件。
另外的选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
32.变体或变异等位基因的定相方法
本发明提供用于定相分布在染色体区域上的等位基因的方法。这些分析可以针对任何应用或任务,其中在相同染色体上或在两个不同染色体上的两个核酸变体的存在可能具有生物学或医学意义。例如,当在单个基因中可发现两个不同的变异位点时(化合物杂合性的情况),可能高度相关的是第一位点中的突变是否与第二位点中的突变位于个体基因组中相同的基因拷贝内,或者相反,其是否各自位于个体基因组内两个不同的基因拷贝之一上-例如,如果两个突变是失活突变,则其位于相同的基因拷贝上仍将允许一个活跃、起作用的基因拷贝,而如果两个失活突变各自位于两个基因拷贝之一上,则两个基因拷贝都将不活跃。
本发明提供了定相两个变异等位基因的方法,其中第一变异等位基因包含在第一基因组区域内,且其中第二变异等位基因包含在第二基因组区域内,且其中每个变异等位基因具有至少两个变体或潜在变体,其中所述方法包含:(a)根据本文所述的任何方法确定连接序列读段的集合(即,连接信号的集合);和(b)确定在连接序列读段的集合中是否存在包含来自第一变异等位基因的每个潜在变体的序列,且确定在连接序列读段的同一集合中是否存在包含来自第二变异等位基因的每个潜在变体的序列。
变异等位基因可包含单个核苷酸,或两个或更多个核苷酸的区域,或一个或多个核苷酸的插入和/或缺失。任选地,执行另一评估步骤,其中检测到第一等位基因的第一变体的存在,且其中检测到第二等位基因的第一变体的存在,且其中这两个等位基因发现于同一连接序列读段的集合(即,连接信号的集合)中指示或估计两个等位基因彼此处于相同的染色体相,和/或沿着相同的染色体或单倍型或单倍型区段连接的概率。
可针对两对或更多对变异等位基因,包含任何潜在的变异等位基因,以及等位基因或变异等位基因位点内的任何潜在变体,以及任何两个或更多个不同的此类变异等位基因的任何组合重复所述方法。
方法可对单个来自微米粒子的连接序列读段的集合(即,连接信号的集合)执行,或其可对一组两个或更多个连接序列读段的集合执行。其还可对来自特定样品的所有连接序列读段的集合进行,且其还可对连接序列读段的集合的一个或多个特定组执行。另外的选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,方法可用于定相三个或更多个变异等位基因。任选地,这可以通过在单个步骤中同时定相所有所述三个或更多个变异等位基因来执行,或可以通过两个或更多个顺序步骤的序列来执行。
任选地,方法可用于定相跨越基因组跨度的变异等位基因(例如至少2、至少5、至少10、至少25、至少50、至少100、至少500、至少1000、至少10,000或至少100,000个变异等位基因)。基因组跨度可以是至少100千碱基、至少1兆碱基、至少10兆碱基或整个染色体臂或整个染色体。另外的选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
变异等位基因可以是任何种类的遗传变异,包括单核苷酸变异或单核苷酸多态性、长度为两个或更多个核苷酸的变异、一个或多个核苷酸的插入或缺失、从头突变、杂合性丢失、重排或易位事件、拷贝数变异或任何其它基因组特征或突变。
方法可包含或扩展为包含遗传插补过程。任选地,确定来自微米粒子的连接序列读段的集合(即,连接信号的集合)的一个或多个等位基因或变异等位基因的列表,以执行遗传插补过程;任选地,此列表可以从一组两个或更多个连接序列读段的集合确定,或者从连接序列读段的集合的特定子组确定。可执行遗传插补过程,其中将一个或多个这样的列表与人类群体中的一个或多个先前已知的单倍型或单倍型块进行比较,以定相或估计所述列表中等位基因或变异等位基因的相位,或确定或估计衍生所述序列的基因组部分的单倍型或单倍型块。任选地,在执行遗传插补过程之前,可对两个或更多个等位基因或变异等位基因进行定相。任选地,可通过如上所述的任何过程来执行这样的两个或更多个等位基因或变异等位基因的定相。任选地,可执行定相和/或遗传插补和/或单倍型估计的组合和/或迭代过程,其中任何这样的步骤或成分可以重复一次、两次或更多次。
可采用任何工具和/或方法和/或信息方法来执行遗传插补和/或单倍型估计和/或定相和/或变异估计。任选地,可采用SHAPEIT2、MaCH、Minimac、IMPUTE2和/或Beagle。
任选地,遗传插补过程可用来产生一个或多个参考序列(例如,产生一个或多个参考序列列表)。任选地,遗传插补过程可与单倍型估计过程同时和/或一起采用。遗传插补过程的其它选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,遗传插补过程可采用序列和/或等位基因的输入列表(例如,单核苷酸多态性列表),其中所述输入列表由来自循环微米粒子的基因组DNA的片段的序列得出。任选地,所述输入列表可由来自循环微米粒子的基因组DNA的片段的连接序列得出。所述输入列表的其它选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。任选地,所述输入列表可由来自循环微米粒子的基因组DNA的片段的(连接或未连接)序列的子集得出,其中所述序列的子集含有包含在,和/或可能包含在,和/或富集在,和/或疑似富集在癌症基因组内的序列。
序列和/或等位基因的任何输入列表(例如单核苷酸多态性列表)和/或任何一个或多个参考序列(例如一个或多个参考序列列表)和/或其任何子集可通过本文所述的任何方法产生。
任选地,遗传插补过程可用来产生、确定或估计基因组的一部分的单倍型或单倍型块。遗传插补过程的其它选择提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
任选地,遗传插补过程可采用来自人类群体的两个或更多个先前已知(和/或先前预测或创建的)单倍型或单倍型块的目录。任选地,单倍型或单倍型块可以涉及长度为至少2个核苷酸、至少10、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000或至少100,000,000个核苷酸的基因组区域;任选地,单倍型或单倍型块可涉及染色体臂、完整染色体和/或完整基因组。
任选地,遗传插补过程可采用至少2、至少3、至少5、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少50,000、至少100,000、至少500,000或至少1,000,000个先前已知(和/或先前预测或创建的)单倍型或单倍型块的目录。
所述方法可针对单个连接序列读段的集合(即,连接信号的集合)进行,且其也可针对一组两个或更多个连接序列读段的集合进行,以及针对微米粒子样品或其子组中的所有连接序列读段的集合进行。
33.确定和分析胎儿来源的连接序列读段的方法
本发明提供了用于分析连接序列数据的方法,其中所述数据是从怀孕女性的样品中产生的(因此所述样品可包含母体来源的微米粒子(即来自正常体细胞母体组织)和胎儿(和/或胎盘)来源的微米粒子的混合物)。方法可用于检测胎儿染色体异常的存在,例如胎儿三体性或胎儿染色体微缺失。可在同一组胎儿序列上执行若干种此类方法,因此使得能够对胎儿遗传状况进行多重且灵敏的检测。
本发明提供了一种确定胎儿来源的连接序列读段的集合(即,连接信号的集合)的方法,其中方法包含:(a)根据本文所述的任何方法确定连接序列读段的集合,其中样品包含源自母体血液的微米粒子;和(b)将连接序列读段的集合中的每个序列读段(的至少一部分)与胎儿基因组中存在的序列的参考列表进行比较;以及(c)通过在连接序列读段的集合中的一个或多个序列读段内存在来自参考列表的一个或多个序列来识别胎儿来源的连接序列读段的集合。
胎儿来源的连接序列读段的集合(即,连接信号的集合)可包含源自胎儿的靶核酸的片段的序列读段、由其组成或基本上由其组成。任选地,胎儿来源的连接序列读段的集合可包含源自胎儿的靶核酸的片段的序列读段或由其组成,并且还包含源自一个或多个母体组织和/或母体细胞的靶核酸的片段的序列读段或由其组成。
胎儿基因组中存在的序列(或序列变体)的参考列表可包含胎儿基因组中富集的序列、由其组成或基本上由其组成。胎儿基因组中存在的序列的参考列表可包含胎儿基因组中富集的序列(相比于母体基因组)、由其组成或基本上由其组成。胎儿基因组中存在的序列的参考列表的其它选择进一步提供于PCT/GB2017/053820中,其以引用的方式并入本文中。
微米粒子可源自怀孕个体的母体血液。任选地,微米粒子可源自怀孕个体的母体血液,其中所述个体怀有至少两个发育中的胎儿(例如,所述个体怀有双胞胎,或三胞胎,或任何更多数量的发育中的胎儿)。任选地,微米粒子可源自怀孕个体的母体血液,其中怀孕是通过体外受精产生的。任选地,任何体外受精过程可进一步包含植入前遗传筛选、植入前遗传诊断、植入前胚胎评估和/或植入前胚胎选择的任何步骤。
34.诊断和监测方法
本发明提供了基于本文描述的任何方法的诊断和监测方法。
本发明提供了一种诊断受试者中的疾病或状况的方法,其中,所述方法包含:(a)确定从来自受试者的测试样品中确定的连接序列读段的第一集合(即,连接信号的集合)的参数值,其中参数值是根据本文所述的任何方法确定的;和(b)将从测试样品确定的连接序列读段的集合的参数值与控制参数值进行比较。
可从连接序列读段的第二集合(即,连接信号的集合)确定控制参数值,所述集合从来自受试者的测试样品确定,其中根据本文所述的任何方法确定控制参数值。
可从连接序列读段的集合(即,连接信号的集合)确定控制参数值,所述集合从对照样品确定,其中根据本文所述的任何方法确定控制参数值。
疾病或病况可以是癌症、染色体非整倍性或染色体微缺失、基因组拷贝数变异(例如拷贝数增加或拷贝数丢失)、杂合性丢失、重排或易位事件、单核苷酸变异或从头突变。
本发明提供了一种监测受试者的疾病或病况的方法,其中方法包含:(a)确定从来自受试者的测试样品中确定的连接序列读段的(集合中的)第一集合的参数值,其中根据本文所述的任何方法确定参数值;和(b)将连接序列读段的集合(即,连接信号的集合)的参数值与控制参数值进行比较。
可从在比测试样品更早的时间点从从相同受试者获得的对照样品确定的连接序列读段的第二集合(即,连接信号的集合)确定控制参数值。获得的对照样品和测试样品之间的时间间隔可以是至少1天,至少1周,至少1个月或至少1年。
确定参数值和/或执行本文所述的第二分析步骤的任何方法可独立地对来自两个或更多个不同样品的连接序列的集合执行,所述样品来自受试者,由时间间隔分开,其中两个或更多个不同样品来自相同受试者,其中所述时间间隔为至少1天,至少1周,至少1个月,至少1年,至少2年或至少3年。可在任何两个或更多个此类不同样品之间比较任何此类参数值和/或第二分析步骤的结果。此类参数值和/或第二分析步骤的结果之间的绝对或相对差可通过此类比较步骤来确定。任选地,可将此类绝对或相对差标准化和/或除以两个样品之间的时间间隔的长度。任选地,可将此类绝对或相对差和/或相关的标准化值与一个或多个阈值进行比较,其中高于此类阈值的值可指示疾病或病况,例如癌症或癌症发生的风险增加。
疾病或病况可以是癌症。
本发明提供了一种诊断受试者的疾病或病况的方法,其中所述方法包含:(a)根据本文所述的任何方法确定连接序列读段的集合(即,连接信号的集合),其中所述样品包含源自血液的微米粒子;和(b)将连接序列读段的集合中的每个序列读段(的至少一部分)与疾病细胞中存在的序列的参考列表进行比较,其中在连接序列读段的集合中的一个或多个序列读段内存在来自所述参考列表的一个或多个序列表明所述疾病的存在。
疾病或病况可以是癌症。
本发明提供了一种确定患病细胞(例如肿瘤细胞)来源的连接序列读段的集合(即,连接信号的集合)的方法,其中方法包含:(a)根据本文所述的任何方法确定连接序列读段的集合,其中所述样品包含源自血液的微米粒子;和(b)将连接序列读段的集合中的每个序列读段(的至少一部分)与疾病细胞(例如肿瘤细胞)中存在的序列的参考列表进行比较;以及(c)通过在连接序列读段的集合中的一个或多个序列读段内存在来自参考列表的一个或多个序列来识别患病细胞(例如肿瘤细胞)来源的连接序列读段的集合。
本发明提供了一种确定肿瘤基因型的方法,所述方法包含:(a)根据本文所述的任何方法确定肿瘤起源的连接序列读段的集合(即,连接信号的集合);和(b)从肿瘤起源的连接序列读段的集合确定肿瘤基因型。
样品可包含源自诊断患有疾病(例如癌症)的患者的血液的微米粒子(或多个微米粒子)。样品可包含源自怀疑患有疾病(例如癌症)的患者的血液的微米粒子(或两个或更多个微米粒子)。
任选地,在诊断任何一种或多种疾病和/或病况和/或估计或预测其风险和/或对其进行监测的任何方法中,方法可包含另一步骤(即,结果传达步骤),其中方法的任何一个或多个结果(例如,任何一个或多个诊断结果和/或读数,和/或任何一个或多个预后结果和/或读数,和/或任何一个或多个风险分层结果和/或读数,和/或任何一个或多个风险评估结果和/或读数和/或量度)被传达给患者(即,被传达给一种或多种包含一个或多个循环微米粒子的样品所源自的患者),和/或所述患者的代表和/或家庭成员,和/或任何一个或多个医师、护士和/或任何其它向所述患者提供保健服务的保健提供者和/或机构或组织。任选地,任何结果传达步骤可包含本文所述的任何方法的最后一个步骤。任选地,任何结果传达步骤可包含如下地传达任何此类结果:经由电子媒体,例如电子邮件,基于因特网的通信和/或基于因特网的接口和/或任何电子消息传送系统和/或任何基于电话的方法,例如打电话和/或发短信;和/或任何基于纸的方法,例如邮政;和/或任何面对面的方法,例如面对面的交谈和/或披露。任选地,在任何此类结果传达步骤中,可传达至少一个此类结果,和/或可传达任何两个或更多个此类结果,和/或可传达所有此类结果,和/或可传达任何分数或数目的所有此类结果。
35.基于微米粒子和基于非微米粒子的组合分析
分析包含一个或多个循环微米粒子的样品和/或衍生自一个或多个循环微米粒子的样品的方法(例如,诊断和/或监测和/或预测任何疾病和/或病况,和或遗传序列,和/或遗传突变,和/或遗传状态或染色体或结构异常的方法)可进一步包含测量和/或考虑从获取和/或获得所述循环微米粒子的相同个体测量和/或与所述个体相关的一个或多个非微米粒子量度或因素,以执行基于微米粒子和基于非微米粒子的组合分析。
分析包含一个或多个循环微米粒子的样品和/或衍生自一个或多个循环微米粒子的样品的方法可与相同个体的一种或多种非微米粒子因素(例如个人因素、人口统计学因素、临床/医学因素、分子或生物化学因素、遗传因素和/或任何其它形式的健康相关或健康史相关因素)组合,例如体重、身体质量指数(BMI)、肥胖状况、性别、年龄、种族和/或种族背景、当前和/或先前和/或历史吸烟状况、糖尿病状况(例如I型糖尿病状况和/或II型糖尿病状况)、一次或多次先前中风的病史、一次或多次先前短暂性脑缺血发作的病史、一次或多次先前的妊娠史、任何形式的疾病的家族史(例如任何形式的心脏病,和/或心血管疾病,和/或癌症,和/或任何特定的癌症类型(例如乳腺癌和/或卵巢癌),任何血液、血浆和/或血清测试或测量的结果(例如任何血细胞计数,例如全血细胞计数(CBC),和/或例如前列腺特异性抗原(PSA))水平和/或PSA速度(在几个月和/或几年的时段内,和/或CA-125水平和/或CA-125速度,和/或任何代谢物测量值(例如基本代谢小组(BMP)),和/或收缩和/或舒张血压,和/或血液胆固醇水平和/或高胆固醇水平状态,和/或C反应蛋白水平,和/或任何一个或多个心电图(ECG)测试的结果和/或解释结果,和/或任何一种或多种组织活检或组织抽吸物(例如肺活检、心脏活检、肝活检和/或肾脏活检的结果和/或解释结果,任选地,其中任何此类活检材料可如下地进行评估:通过任何分子病理学过程或技术,例如任何免疫组织化学技术,例如任何原位杂交技术(以分析DNA和/或RNA分子)和/或任何基于细胞或基于形态学的技术,和/或存在任何一种或多种先前存在的疾病(例如任何肺病、任何心脏病、任何肝病、任何肾病、任何神经系统疾病和/或任何心理或精神疾病或病况),任何一项或多项医学成像测试(例如任何计算机断层扫描、任何螺旋计算机断层扫描、任何低剂量计算机断层扫描、任何磁共振成像扫描、任何正电子发射断层扫描、任何超声扫描和/或任何光学相干断层扫描)的结果和/或解释结果,和/或存在或不存在任何一个或多个单基因风险等位基因(例如任何乳腺癌或卵巢癌易感性或易感基因)和/或任何多基因风险评分或风险估计,和/或任何前述和/或其它测量,其中随时间推移纵向地进行和/或跟踪所述测量(例如每月或每年,任选地,其中进行至少两次这样的纵向测量,或进行至少3次,或至少5次,或至少10次,或至少20次,或至少100次纵向测量)。任选地,可测量和/或确定两种或更多种此类非微米粒子因素的任何组合(例如PSA水平和CA-125水平),且接着与本文所述的分析包含一个或多个循环微米粒子的样品(和/或衍生自一个或多个循环微米粒子的样品)的任何方法结合进行分析;任选地,可从一种或多种患者血液样品中测量和/或确定任何两个或更多个此类非微米粒子因素,其中所述患者血液样品还提供包含一个或多个循环微米粒子的所述样品。任选地,可将任何一种或多种非微米粒子因素与任何一个或多个截止值和/或阈值和/或正常(即,健康)范围和/或患病(即,不健康)范围进行比较,例如其中任何此类非微米粒子因素高于任何此类阈值、低于任何此类阈值、在任何此类范围内和/或在任何此类范围外可指示健康状况(即,指示所述患者的特定疾病或病况的健康状况,即‘健康状况读数’),和/或可指示特定疾病或病况的疾病状况(即,指示疾病的存在或风险,即‘疾病状况读数’);任选地,分析一个或多个循环微米粒子(和/或衍生自一个或多个循环微米粒子的样品)的任何方法可与任何数目的(一个或多个)‘健康状况读数’和/或‘疾病状况读数’结合进行分析,以创建组合的诊断,和/或预后,和/或风险分层和/或风险估计读出和/或测量;任选地,任何此类组合的诊断,和/或预后,和/或风险分层和/或风险估计读出和/或测量可进一步包含通过算法和/或计算机程序(即,软件)进行分析,例如以生成和/或计算一个或多个分类评分或结果(例如高分或低分,或阳性结果或阴性结果),和/或一个或多个定量或数字评分(例如1、2或3,或在1到10或1到100规模上的数字,或百分比或风险或可能性评级),其中所述评分可任选地相关于或指示任何疾病、病况或综合症的诊断、预后、风险估计或可能性和/或风险因子和/或风险类别。
36.诊断、预后和/或风险分层或风险估计的方法和用途
本发明的方法可包含通过一种或多种算法(例如,手动算法和/或自动化算法,例如基于计算机和/或定量算法)或与之结合的分析步骤,且任选地或进一步可用于产生或估计任何诊断,和/或预后,和/或风险分层和/或风险估计读数和/或测量结果。任何一种或多种此类诊断,和/或预后,和/或风险分层和/或风险估计读数和/或测量结果可包含一个或多个分类评分或结果(例如高分或低分,或一个阳性结果或阴性结果),和/或一个或多个定量或数字(例如1、2或3,或在1到10或1到100规模上的数字,或百分比或风险或可能性评级),其中所述评分可任选地相关于或指示任何疾病、病况或综合症的诊断、预后、风险估计或可能性和/或风险因子和/或风险类别。
任选地,任何此类疾病、病况或综合症可包含任何一种或多种癌症或癌前病况(例如任何肺癌,或任何乳腺癌,或任何卵巢癌,或任何前列腺癌,或任何肾癌,或任何肝癌,或任何血液癌,或任何白血病,或任何淋巴瘤,或任何结直肠癌,或任何胰腺癌,或任何脑癌,或任何子宫癌,或任何胆管癌,或任何皮肤癌,或任何黑色素瘤,或任何膀胱癌,或任何食道癌,或任何口腔癌,或任何咽癌)。任选地,任何此类癌症或癌前病况可进一步包含对癌症或癌前分期和/或等级(例如第1、2、3或4期)的诊断或估计,和/或侵袭性的任何测量,和/或转移或转移潜能的任何测量或预测或预后。
任选地,任何此类疾病、病况或综合症可包含任何一种或多种心脏或血管疾病和/或病况,例如心肌梗塞、动脉粥样硬化、心肌病(例如肥厚性心肌病或扩张型心肌病)、心力衰竭、静脉血栓形成、深部静脉血栓形成、栓塞、血栓形成、中风(例如缺血性中风或出血性中风)、冠状动脉疾病、脑血管疾病、外周动脉疾病、血管内斑块、稳定的血管内斑块、不稳定或易碎的血管内斑块、瓣膜性心脏病、动脉瘤、心内膜炎或心肌炎。
任选地,任何此类疾病、病况或综合症可包含与妊娠相关的任何一种或多种疾病或病况或并发症,例如先兆子痫、子痫、妊娠糖尿病、早产、高血压、深静脉血栓形成、异位妊娠或任何胎儿遗传和/或染色体异常,例如一种或多种非整倍性,或微缺失,或拷贝数变异,或杂合性丢失,或重排或易位事件、单核苷酸变异、从头突变或任何其它基因组特征或突变。任选地,任何此类疾病、病况或综合症可包含发育中的胎儿的21号染色体三体症(即,唐氏综合症(Down Syndrome)),和/或发育中的胎儿的13号染色体三体症(即,帕陶氏综合症(Patau Syndrome)),和/或发育中的胎儿的18号染色体三体症(例如爱德华氏综合症(Edwards Syndrome)),和/或发育中的胎儿的9号染色体三体症,和/或发育中的胎儿的8号染色体三体症,和/或三X染色体综合症(Triple X Syndrome),和/或克氏综合症(Klinefelter Syndrome)。任选地,任何此类疾病、病况或综合症可包含基因组微缺失,例如微缺失综合症,例如迪乔治综合症(DiGeorge Syndrome)和/或普拉德-威利综合症(Prader-Willi Syndrome),和/或安格尔曼综合症(Angelman Syndrome),和/或I型和/或II型神经纤维瘤病,和/或威廉姆斯综合症(Williams Syndrome),和/或米勒-迪克综合症(Miller-Dieker Syndrome)。
任选地,任何此类疾病、病况或综合症可包含任何单基因疾病或单基因疾病易感性,例如表现出显性遗传模式的任何单基因疾病或单基因疾病易感性,和/或表现出隐性遗传模式的任何单基因疾病或单基因疾病易感性,和/或任何表现出X连锁遗传模式的单基因疾病或单基因疾病易感性。任选地,任何这样的单基因疾病或单基因疾病易感性可包含地中海贫血病,和/或镰状细胞性贫血,和/或血友病,和/或泰萨病(Tay Sachs disease),和/或囊性纤维化,和/或亨廷顿氏病(Huntington′s disease),和/或脆性X综合症。任选地,任何这样的单基因疾病或单基因疾病易感性可包含胎儿这样的单基因疾病或单基因疾病易感性(即,存在于胎儿基因组中,例如存在于怀孕的母体血液样品中包含的胎儿核酸中)。
任选地,分析包含一个或多个循环微米粒子的样品(和/或衍生自一个或多个循环微米粒子的样品)的任何方法可包含针对任何两种或多种疾病、病况或综合症(例如本文所述的两种或多种疾病、病况或综合症的任何组合)的组合疾病集合的诊断,和/或预后,和/或风险分层和/或风险估计读数和/或测量结果。例如,任何此类方法可包含针对组合疾病集合中的每个成员的诊断,和/或预后,和/或风险分层和/或风险估计读数和/或测量结果,组合疾病集合例如包含以下各者的组合疾病集合:肺癌和乳腺癌;或包含以下各者的组合疾病集合:肺癌和前列腺癌;或包含以下疾病的组合疾病集合:肺癌和乳腺癌和结肠直肠癌;或包含以下各者的组合疾病集合:肺癌和前列腺癌和结肠直肠癌;或包含以下各者的组合疾病集合:肺癌和前列腺癌和结肠直肠癌和胰腺癌;或包含以下各者的组合疾病集合:肺癌和乳腺癌和结肠直肠癌和胰腺癌;或包含以下各者的组合疾病集合:肺癌和乳腺癌和结肠直肠癌和胰腺癌和卵巢癌;或包含以下各者的组合疾病集合:肺癌和乳腺癌和结肠直肠癌和胰腺癌和卵巢癌和子宫癌;或包含以下各者的组合疾病集合:前列腺癌和结肠直肠癌和胰腺癌;或包含以下各者的组合疾病集合:乳腺癌和结肠直肠癌和胰腺癌和卵巢癌;或包含以下各者的组合疾病集合:结肠直肠癌和胰腺癌;或包含以下各者的组合疾病集合:结肠直肠癌和胰腺癌和卵巢癌;或包含以下各者的组合疾病集合:结肠直肠癌和胰腺癌和卵巢癌和子宫癌;任选地,任何先前的组合疾病集合可进一步包含针对任何癌症的诊断,和/或预后,和/或风险分层和/或风险估计读数和/或测量结果(即,针对任何类型和/或任何阶段的任何癌症(和/或包含任何两种或更多种癌症的任何组合疾病集合)的诊断,和/或预后,和/或风险分层和/或风险估计读数和/或测量结果,其中特定癌症(即,特定癌症类型,例如组合疾病集合中的特定癌症类型)是未知的和/或未被诊断的)。
任选地,分析包含一个或多个循环微米粒子的样品(和/或衍生自一个或多个循环微米粒子的样品)的任何方法可包含针对任何一种或多种癌症或癌前病况(例如包含任何两种或多种癌症的任何组合疾病集合)的诊断,和/或预后,和/或风险分层和/或风险估计读数和/或测量结果,其中所述诊断,和/或预后,和/或风险分层和/或风险估计读数和/或测量结果包含癌症或癌前分期和/或等级(例如第1、2、3或4期)的估计,和/或侵袭性的测量,和/或转移(和/或转移的风险或可能性)或转移潜能的测量或预测或预后。
任选地,分析包含一个或多个循环微米粒子的样品(和/或衍生自一个或多个循环微米粒子的样品)的任何方法包含针对任何类型和/或任何阶段的任何癌症(和/或包含任何两种或更多种癌症的任何组合疾病集合)的诊断,和/或预后,和/或风险分层和/或风险估计读数和/或测量结果,其中特定癌症(即,特定癌症类型)是未知的和/或未被诊断的,可进一步包含‘癌症排序’过程,其中所述排序过程包含创建包含在合并疾病集合(例如包含以下各者的合并疾病集合:肺癌和前列腺癌和结肠直肠癌和胰腺癌;或包含以下各者的合并疾病集合:肺癌和乳腺癌和结肠直肠癌和胰腺癌;或包含以下各者的合并疾病集合:肺癌和乳腺癌和结肠直肠癌和胰腺癌和卵巢癌)中的个体疾病的有序列表。任选地,所述排序过程可包含这样的过程,其中,基于一种或多种成对比较(即,个体疾病与个体疾病的比较)对所述个体疾病进行排序,其中,每个这种更成对的比较评估了两种个体疾病中的哪一种更有可能和/或更严重(例如,基于所述分析包含一个或多个循环微米粒子的样品(和/或衍生自一个或多个循环微米粒子的样品))。
任选地,包含诊断,和/或预后,和/或风险分层和/或风险估计读数和/或测量结果的分析包含一个或多个循环微米粒子的样品(和/或衍生自一个或多个循环微米粒子的样品)的任何方法可包含针对任何一种或多种疾病的死亡可能性的估计和/或读出(例如针对任何癌症,和/或任何特定癌症,和/或来自任何两种或多种不同特定癌症(例如,在包含两种或多种不同特定癌症的任何组合疾病集合中包含的任何两种或多种不同特定癌症)(中的一种)的死亡可能性的估计和/或读出);任选地,任何产生死亡可能性的此类估计和/或读出的方法可被配置成估计和/或读出从所述样品获自个人的时间起的特定时间段内的死亡可能性;任选地,此类特定时间段可包含以下中的任何一个或多个:3个月、6个月、9个月、12个月、18个月、2年、3年、4年、5年、6年、8年、10年、12年、15年、20年、25年、30年、35年、40年和/或50年;任选地,生成死亡可能性(例如在特定时间段内)的此类估计和/或读出的任何方法可被配置成估计和/或读出在相关疾病(即,提供死亡可能性的相关疾病)仍未得到治疗(即,其中患者未用针对所述疾病的疗法和/或手术进行治疗)的情况下的死亡可能性;任选地,生成死亡可能性(例如在特定时间段内)的此类估计和/或读出的任何方法可被配置成估计和/或读出在相关疾病(即,提供死亡可能性的相关疾病)得到治疗(即,其中患者用针对所述疾病的疗法和/或手术进行治疗)的情况下的死亡可能性;任选地,可将基于接受针对所述疾病的治疗的患者所计算出的任何疾病死亡可能性与基于未接受针对所述疾病的治疗的患者所计算出的所述疾病的相关死亡可能性进行比较(例如,所述可能性可除以一个或另一个,例如在患者针对所述疾病进行治疗的情况下,计算或估计预期或潜在的生存益处)。
任何组合疾病集合可包含组合胎儿遗传疾病集合,例如包含以下各者的组合胎儿遗传疾病集合:发育中的胎儿的唐氏综合症和帕陶氏综合症;或包含以下各者的组合胎儿遗传疾病集合:发育中的胎儿的唐氏综合症和爱德华氏综合症;或包含以下各者的组合胎儿遗传疾病集合:发育中的胎儿的唐氏综合症和帕陶氏综合症和爱德华氏综合症;或包含以下各者的组合胎儿遗传疾病集合:发育中的胎儿的唐氏综合症和帕陶氏综合症和爱德华氏综合症和9号染色体三体症;或包含以下各者的组合胎儿遗传疾病集合:发育中的胎儿的唐氏综合症和帕陶氏综合症和爱德华氏综合症和9号染色体三体症和一种或多种微缺失综合症;或包含以下各者的组合胎儿遗传疾病集合:发育中的胎儿的唐氏综合症和帕陶氏综合症和爱德华氏综合症和9号染色体三体症和一种或多种微缺失综合症和一种或多种胎儿单基因疾病或胎儿单基因疾病易感性(例如地中海贫血,和/或镰状细胞性贫血,和/或血友病,和/或泰萨病,和/或囊性纤维化,和/或亨廷顿氏病,和/或脆性X综合症,和/或其至少两个、至少三个或至少四个成员的任何组合)。
任选地,在分析包含一个或多个循环微米粒子的样品(和/或衍生自一个或多个循环微米粒子的样品)的任何方法中,对来自任何循环微米粒子的任何两个或更多个生物分子的任何测量,和/或与任何此类测量对应的任何两个或更多个连接信号可用于鉴别和/或预测循环微米粒子(和/或相关于和/或衍生自任何此类循环微米粒子的两个或更多个连接信号的任何集合),其衍生自与先前和/或本文公开的任何一种或多种病况和/或疾病和/或组织类型相关的组织和/或细胞。任选地,在分析包含一个或多个循环微米粒子的样品(和/或衍生自一个或多个循环微米粒子的样品)的任何方法中,一个或多个参数值可用于鉴别和/或预测循环微米粒子,所述循环微米粒子衍生自与先前和/或本文所公开的任何一种或多种病况和/或疾病和/或组织类型相关的组织和/或细胞;例如,可将任何一个或多个参数值与一个或多个控制参数值进行比较,其中任何此类参数高于特定的控制参数值、低于特定的控制参数值、在控制参数值的特定范围内和/或在控制参数值的特定范围外指示和/或预测和/或估计了衍生相关的循环微米粒子(和/或相关于和/或衍生自此类循环微米粒子的两个或更多个连接信号的相关集合)的组织和/或细胞类型。任选地,鉴别与循环微米粒子相关和/或与连接信号集相关的组织和/或细胞类型的任何此类方法可进一步包含计算被鉴别和/或预测为衍生自任何(和/或所有)特定组织和/或细胞类型的所有连接信号集的总数(和/或比例)(和/或循环微米粒子的总数);任选地,可在一个或多个阈值数字和/或范围内比较所述总数(和/或所述比例),其中任何此类总数(和/或比例)高于特定阈值数字、低于特定阈值数字、在阈值数字的特定范围内和/或在阈值数字的特定范围外指示和/或预测和/或估计和/或提供针对任何疾病、病况或综合症的诊断、预后、风险估计或可能性和/或风险因子和/或风险类别。
37.用于执行本发明方法的库和试剂盒
本发明还提供了包含本文定义的一种或多种试剂的库。本发明还提供了特别适于执行本文定义的任何方法的库。
本发明还提供了包含一种或多种本文定义的组分的试剂盒。本发明还提供了特别适于执行本文定义的任何方法的试剂盒。
用于标记靶核酸的试剂盒描述于PCT/GB2017/053820中,其以引用的方式并入本文中。
本发明还提供了用于标记靶核酸分子和靶生物分子的试剂盒,其中所述试剂盒包含本文定义的多聚条形码试剂和本文定义的带条形码的亲和探针。优选地,靶生物分子是非核酸靶生物分子(例如靶多肽)。
本发明还提供了用于标记靶核酸分子和靶生物分子的试剂盒,其中所述试剂盒包含:(a)多聚条形码试剂,其中所述多聚条形码试剂包含连接在一起的第一和第二条形码区域,其中每个条形码区域包含核酸序列;和(b)带条形码的亲和探针,其中所述带条形码的亲和探针包含连接至带条形码的寡核苷酸的至少一个亲和部分,其中所述带条形码的寡核苷酸包含至少一个核苷酸,且其中亲和部分能够结合至靶生物分子。
本发明还提供了用于标记靶核酸和靶生物分子的试剂盒,其中所述试剂盒包含:(a)多聚条形码试剂,其包含(i)连接在一起的第一和第二条形码分子(即多聚条形码分子),其中每个条形码分子包含核酸序列,所述核酸序列任选地在5′至3′方向上包含衔接子区域和条形码区域,以及(ii)第一和第二带条形码的寡核苷酸,其中第一带条形码的寡核苷酸包含粘接至第一条形码分子的条形码区域的条形码区域,且其中第二带条形码的寡核苷酸包含粘接至第二条形码分子的条形码区域的条形码区域;和(b)第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸任选地在5′至3′方向上包含能够粘接至第一条形码分子的衔接子区域的衔接子区域和能够粘接或连接至靶核酸的第一片段的靶区域,且其中第二衔接子寡核苷酸任选地在5′至3′方向上包含能够粘接至第二条形码分子的衔接子区域的衔接子区域和能够粘接或连接至靶核酸的第二片段的靶区域;以及(c)带条形码的亲和探针,其中所述带条形码的亲和探针包含连接至带条形码的寡核苷酸的至少一个亲和部分,其中带条形码的寡核苷酸包含至少一个核苷酸,且其中亲和部分能够结合至靶生物分子。
试剂盒可包含亲和探针,而不是(或外加)带条形码的亲和探针。亲和探针可采取本文所述的任何形式。亲和探针可包含至少一个亲和部分,其中所述亲和部分能够结合至靶生物分子。
每个衔接子寡核苷酸的靶区域可包含不同的序列。每个靶区域可包含能够仅粘接至核酸样品内的靶核酸的单个片段的序列。每个靶区域可包含一个或多个随机序列,或一个或多个简并序列,以使靶区域能够粘接至靶核酸的超过一个片段。每个靶区域可包含至少5、至少10、至少15、至少20、至少25、至少50或至少100个核苷酸。优选地,每个靶区域包含至少5个核苷酸。每个靶区域可包含5至100个核苷酸,5至10个核苷酸,10至20个核苷酸,20至30个核苷酸,30至50个核苷酸,50至100个核苷酸,10至90个核苷酸,20至80个核苷酸,30至70个核苷酸或50至60个核苷酸。优选地,每个靶区域包含30至70个核苷酸。优选地,每个靶区域包含脱氧核糖核苷酸,任选地,靶区域中的所有核苷酸均为脱氧核糖核苷酸。一种或多种脱氧核糖核苷酸可为修饰的脱氧核糖核苷酸(例如,用生物素部分或脱氧尿嘧啶核苷酸修饰的脱氧核糖核苷酸)。每个靶区域可包含一个或多个通用碱基(例如肌苷)、一个或修饰的核苷酸和/或一个或多个核苷酸类似物。
靶区域可用于使衔接子寡核苷酸与靶核酸的片段粘接,且接着可用作引物延伸反应或扩增反应(例如聚合酶链反应)的引物。或者,靶区域可用于将衔接子寡核苷酸连接至靶核酸的片段。靶区域可在衔接子寡核苷酸的5′端处。此类靶区域可以被磷酸化。这可使靶区域的5′端能够与靶核酸的片段的3′端连接。
衔接子寡核苷酸可在衔接子区域与靶区域之间包含连接区域。连接区域可包含一个或多个不与第一和第二条形码分子(即多聚条形码分子)粘接并且不与靶核酸的片段互补的连续核苷酸。连接子可包含1至100、5至75、10至50、15至30或20至25个非互补核苷酸。优选地,连接子包含15至30个非互补核苷酸。此类连接区域的使用提高了使用本文所述的试剂盒进行的条形码反应的效率。
试剂盒的每种组分都可采取本文定义的任何形式。
所述组分可作为物理上分离的组分在试剂盒中提供。
所述试剂盒可包含:(a)多聚条形码试剂,其包含连接在一起的至少5、至少10、至少20、至少25、至少50、至少75或至少100个条形码分子,其中每个条形码分子如本文所定义;和(b)能够与每个条形码分子粘接的衔接子寡核苷酸,其中每个衔接子寡核苷酸如本文所定义。
图2展示了试剂盒,其包含多聚条形码试剂和衔接子寡核苷酸,用于标记靶核酸。更详细地说,所述试剂盒包含第一(D1、E1和F1)和第二(D2、E2和F2)条形码分子,每个均并有一个条形码区域(E1和E2)以及一个5′衔接子区域(F1和E2)。在此实施例中,这些第一和第二条形码分子通过连接核酸序列(S)连接在一起。
所述试剂盒进一步包含第一(A1和B1)和第二(A2和B2)带条形码的寡核苷酸,其各自包含条形码区域(B1和B2)以及5′区域(A1和A2)。每个带条形码的寡核苷酸的5′区域与条形码分子(D1和D2)的3′区域互补,且因此可粘接至所述区域。条形码区域(B1和B2)与条形码分子的条形码区域(E1和E2)互补,因此可粘接至所述区域。
试剂盒进一步包含第一(C1和G1)和第二(C2和G2)衔接子寡核苷酸,其中每个衔接子寡核苷酸包含衔接子区域(C1和C2),其与条形码分子的5′衔接子区域(F1和F2)互补且因此能够粘接至所述区域。可合成这些衔接子寡核苷酸以包括5′-末端磷酸基。每个衔接子寡核苷酸还包含一个靶区域(G1和G2),其可用于将带条形码的衔接子寡核苷酸(A1、B1、C1和G1,以及A2、B2、C2和G2)粘接至靶核酸,且接着可用作引物延伸反应或聚合酶链反应的引物。
试剂盒可包含两个或更多个多聚条形码试剂的库,其中每个多聚条形码试剂如本文所定义,以及用于每个多聚条形码试剂的衔接子寡核苷酸,其中每个衔接寡核苷酸如本文所定义。第一多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域不同于第二多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域。
试剂盒可包含库,所述库包含至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108或至少109种如本文所定义的多聚条形码试剂。优选地,试剂盒包含库,所述库包含至少10种如本文所定义的多聚条形码试剂。试剂盒可进一步包含用于每种多聚条形码试剂的衔接子寡核苷酸,其中每种衔接子寡核苷酸可采取本文定义的任何衔接子寡核苷酸的形式。优选地,每种多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域不同于库中至少9种其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域。
每种多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域可与库中的至少4、至少9、至少19、至少24、至少49、至少74、至少99、至少249、至少499、至少999(即,103-1)、至少104-1、至少105-1、至少106-1、至少107-1、至少108-1或至少109-1种其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域不同。每种多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域可与库中所有其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域不同。优选地,每种多聚条形码试剂的第一和第二带条形码的寡核苷酸的条形码区域不同于库中至少9种其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域。
每种多聚条形码试剂的带条形码的寡核苷酸的条形码区域可与库中的至少4、至少9、至少19、至少24、至少49、至少74、至少99、至少249、至少499、至少999(即,103-1)、至少104-1、至少105-1、至少106-1、至少107-1、至少108-1或至少109-1种其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域不同。每种多聚条形码试剂的带条形码的寡核苷酸的条形码区域可与库中所有其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域不同。优选地,每种多聚条形码试剂的带条形码的寡核苷酸的条形码区域不同于库中至少9种其它多聚条形码试剂的带条形码的寡核苷酸的条形码区域。
优选地,试剂盒包含至少两种不同的带条形码的亲和探针,其中至少两种不同的带条形码的亲和探针中的至少两种中的每一种能够结合至不同的靶生物分子。
在以下一组编号的项中进一步定义了本发明:
1.一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述方法包含:
(a)使样品与带条形码的亲和探针接触,其中所述带条形码的亲和探针包含至少一个连接至带条形码的寡核苷酸的亲和部分,其中所述带条形码的寡核苷酸包含至少一个核苷酸,且其中亲和部分能够结合至靶生物分子;
(b)形成反应混合物,其中形成反应混合物的步骤包含将亲和部分与靶分子(如果存在)结合,以形成包含带条形码的亲和探针和靶生物分子的带条形码的生物分子复合物;和
(c)通过测量反应混合物中带条形码的化寡核苷酸的存在、不存在和/或水平,来确定样品中靶生物分子的存在、不存在和/或水平。
2.一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述循环微米粒子包含靶生物分子,且其中所述方法包含:
(a)使样品与带条形码的亲和探针接触,其中所述带条形码的亲和探针包含至少一个连接至带条形码的寡核苷酸的亲和部分,其中所述带条形码的寡核苷酸包含至少一个核苷酸,且其中亲和部分能够结合至靶生物分子;
(b)形成反应混合物,其中形成反应混合物的步骤包含将亲和部分与靶生物分子结合,以形成包含带条形码的亲和探针和靶生物分子的带条形码的生物分子复合物;和
(c)通过测量反应混合物中带条形码的寡核苷酸的水平来确定样品中靶生物分子的水平。
3.一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述方法包含:
(a)使样品与至少一个亲和部分接触,且其中所述亲和部分能够结合靶生物分子;
(b)形成反应混合物,其中形成反应混合物的步骤包含(i)将亲和部分与靶生物分子(如果存在)结合,和(ii)使样品与带条形码的寡核苷酸接触且将带条形码的寡核苷酸与亲和部分连接以形成包含带条形码的亲和探针和靶生物分子的带条形码的生物分子复合物,其中所述带条形码的亲和探针包含至少一个与所述带条形码的寡核苷酸连接的亲和部分,且其中所述带条形码的寡核苷酸包含至少一个核苷酸;和
(c)通过测量反应混合物中带条形码的化寡核苷酸的存在、不存在和/或水平,来确定样品中靶生物分子的存在、不存在和/或水平。
4.一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述循环微米粒子包含靶生物分子,且其中所述方法包含:
(a)使样品与至少一个亲和部分接触,且其中所述亲和部分能够结合靶生物分子;
(b)形成反应混合物,其中形成反应混合物的步骤包含(i)将亲和部分与靶生物分子结合,和(ii)使样品与带条形码的寡核苷酸接触且将带条形码的寡核苷酸与亲和部分连接以形成包含带条形码的亲和探针和靶生物分子的带条形码的生物分子复合物,其中所述带条形码的亲和探针包含至少一个与所述带条形码的寡核苷酸连接的亲和部分,且其中所述带条形码的寡核苷酸包含至少一个核苷酸;和
(c)通过测量反应混合物中带条形码的寡核苷酸的水平来确定样品中靶生物分子的水平。
5.根据第1-4项中任一项所述的方法,其中所述样品与至少两种不同的带条形码的亲和探针接触。
6.根据第1-5项中任一项所述的方法,其中所述带条形码的亲和探针包含适体,任选地其中所述带条形码的亲和探针是适体。
7.根据第1-5项中任一项所述的方法,其中亲和部分是抗体或适体。
8.根据第1-7项中任一项所述的方法,其中带条形码的亲和探针包含至少两个亲和部分。
9.根据第1-8项中任一项所述的方法,其中带条形码的亲和探针包含至少两种不同的带条形码的寡核苷酸。
10.根据第1-9项中任一项所述的方法,其中带条形码的寡核苷酸包含与其连接的亲和部分相关和/或识别所述亲和部分的条形码序列。
11.根据第1-10项中任一项所述的方法,其中带条形码的寡核苷酸包含至少2、至少3、至少5、至少10、至少20或至少30个核苷酸的条形码序列。
12.根据第1-11项中任一项所述的方法,其中步骤(c)包含分析带条形码的寡核苷酸的核苷酸序列,任选地,其中所述序列通过测序或PCR进行分析。
13.根据第1-12项中任一项所述的方法,其中步骤(b)或步骤(c)包含将第一循环微米粒子的至少两个带条形码的生物分子复合物连接在一起,以及将第二循环微米粒子的至少两个带条形码的生物分子复合物连接在一起。
14.根据第1-13项中任一项所述的方法,其中靶生物分子是靶核酸的多肽或片段。
15.根据第1-14项中任一项所述的方法,其中样品进一步包含微米粒子的靶核酸的片段。
16.根据第1-15项中任一项所述的方法,其中样品包含第一循环微米粒子和第二循环微米粒子,或其中所述样品衍生自第一循环微米粒子和第二循环微米粒子,其中步骤(b)包含形成至少一种包含第一循环微米粒子的带条形码的亲和探针和靶生物分子的带条形码的生物分子复合物,和形成至少一种包含第二循环微米粒子的带条形码的亲和探针和靶生物分子的带条形码的生物分子复合物。
17.根据第1-16项中任一项所述的方法,其中样品进一步包含第一循环微米粒子的靶核酸的片段和第二循环微米粒子的靶核酸的片段。
18.根据第16项或第17项所述的方法,其中步骤(c)包含:(i)使反应混合物与包含至少两种多聚条形码试剂的库接触,其中每个多聚条形码试剂包含连接在一起的第一和第二条形码区域,其中每个条形码区域包含核酸序列且其中第一多聚条形码试剂的第一和第二条形码区域不同于库的第二多聚条形码试剂的第一和第二条形码区域;和(ii)将条形码序列附接至第一微米粒子的靶核酸的第一片段和靶核酸的第二片段中的每一个上,以针对第一微米粒子产生第一和第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第一多聚条形码试剂的第一条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第一多聚条形码试剂的第二条形码区域的核酸序列,且将条形码序列附接至第二微米粒子的靶核酸的第一片段和靶核酸的第二片段中的每一个以针对第二微米粒子产生第一和第二带条形码的靶核酸分子,其中第一带条形码的靶核酸分子包含第二多聚条形码试剂的第一条形码区域的核酸序列,且第二带条形码的靶核酸分子包含第二多聚条形码试剂的第二条形码区域的核酸序列。
19.根据第18项所述的方法,其中第一微米粒子的靶核酸的第一片段是第一循环微米粒子的至少一种带条形码的生物分子复合物的带条形码的寡核苷酸,且其中第二微米粒子的靶核酸的第一片段是第二循环微米粒子的至少一种带条形码的生物分子复合物的带条形码的寡核苷酸。
20.根据第18项或第19项所述的方法,其中反应混合物进一步包含第一循环微米粒子的靶核酸的片段,且其中第一循环微米粒子的靶核酸的第二片段是第一循环微米粒子的靶核酸的片段。
21.根据第18-20项中任一项所述的方法,其中反应混合物进一步包含第二循环微米粒子的靶核酸的片段,且其中第二循环微米粒子的靶核酸的第二片段是第二循环微米粒子的靶核酸的片段。
22.根据第18-21项中任一项所述的方法,其中使反应混合物与多聚条形码试剂库接触的步骤在单个连续的水体积中进行。
23.根据第18-22项中任一项所述的方法,其中步骤(c)在单个连续的水体积中进行,任选地,其中步骤(b)和(c)在单个连续的水体积中进行,任选地,其中步骤(a)、(b)和(c)在单个连续的水体积中进行。
24.根据第16项或第17项所述的方法,其中所述方法进一步包含将样品或反应混合物划分为至少第一和第二分区,且分析第一和第二分区中的每一个中的带条形码的寡核苷酸的核苷酸序列,其中第一分区含有包含在第一循环微米粒子的至少一种带条形码的生物分子复合物中或衍生自所述复合物的至少一个带条形码的寡核苷酸,且其中第二分区含有包含在第二循环微米粒子的至少一种带条形码的生物分子复合物中或衍生自所述复合物的至少一个带条形码的寡核苷酸。
25.根据第24项所述的方法,其中分析带条形码的生物分子复合物的带条形码的寡核苷酸的核苷酸序列的步骤包含:(i)将第一分区条形码序列附接至第一分区的至少一个带条形码的寡核苷酸上;(ii)将第二分区条形码序列附接至第二分区的至少一个带条形码的寡核苷酸上。
26.根据第25项所述的方法,其中所述第一和第二分区条形码序列不同。
27.根据第25项所述的方法,其中第一分区条形码序列来自分区条形码序列的第一集合,且第二分区条形码序列来自分区条形码序列的第二集合,且其中分区条形码序列的第一和第二集合不同。
28.根据第25-27项中任一项所述的方法,其中所述第一分区条形码序列是第一多聚条形码试剂的条形码区域的核酸序列,且所述第二分区条形码序列是第二多聚条形码试剂的核酸序列,且其中第一和第二多聚条形码试剂各自包含两个或更多个连接在一起的条形码区域。
29.根据第25-28项中任一项所述的方法,其中第一分区进一步包含第一循环微米粒子的靶核酸的片段,且其中第二分区进一步包含第二循环微米粒子的靶核酸的片段。
30.根据第29项所述的方法,其中分析带条形码的生物分子复合物的带条形码的寡核苷酸的核苷酸序列的步骤包含:(i)将第一分区条形码序列附接至第一分区的至少一个带条形码的寡核苷酸,且将第一分区条形码序列附接至第一循环微米粒子的靶核酸的至少一个片段;(ii)将第二分区条形码序列附接至第二分区的至少一个带条形码的寡核苷酸,且将第二分区条形码序列附接至第二循环微米粒子的靶核酸的至少一个片段;且其中所述第一和第二分区条形码序列不同。
31.根据第29项所述的方法,其中分析带条形码的生物分子复合物的带条形码的寡核苷酸的核苷酸序列的步骤包含:(i)将分区条形码序列的第一集合的第一分区条形码序列附接至第一分区的至少一个带条形码的寡核苷酸,且将分区条形码序列的第一集合的第二分区条形码序列附接至第一循环微米粒子的靶核酸的至少一个片段;和(ii)将分区条形码序列的第二集合的第一分区条形码序列附接至第二分区的至少一个带条形码的寡核苷酸,且将分区条形码序列的第二集合的第二分区条形码序列附接至第二循环微米粒子的靶核酸的靶核酸的至少一个片段;且其中分区条形码序列的第一和第二集合不同。
32.根据第31项所述的方法,其中分区条形码序列的第一集合的第一和第二分区条形码序列是第一多聚条形码试剂的第一和第二条形码区域的核酸序列,且其中分区条形码序列的第二集合的第一和第二分区条形码序列是第二多聚条形码试剂的第一和第二条形码区域的核酸序列,且其中第一和第二多聚条形码试剂各自包含连接在一起的两个或更多个条形码区域。
33.带条形码的亲和探针用于确定循环微米粒子或由其衍生的样品中的靶生物分子的存在、不存在和/或水平的用途,其中所述带条形码的亲和探针包含至少一个与带条形码的寡核苷酸连接的亲和部分,其中带条形码的寡核苷酸包含至少一个核苷酸,且其中亲和部分能够结合靶生物分子。
34.用于确定靶生物分子的存在、不存在和/或水平的带条形码的亲和探针,其中所述带条形码的亲和探针包含至少一个与带条形码的寡核苷酸连接的亲和部分,其中带条形码的寡核苷酸包含至少一个核苷酸,且其中亲和部分能够结合靶生物分子。
35.用于确定至少两个靶生物分子的存在、不存在和/或水平的带条形码的亲和探针库,其中所述库包含:(i)第一带条形码的亲和探针,其包含至少一个与带条形码的寡核苷酸连接的亲和部分,其中带条形码的寡核苷酸包含至少一个核苷酸,且其中亲和部分能够结合至第一靶生物分子;和(ii)第二带条形码的亲和探针,其包含连接至带条形码的寡核苷酸的至少一个亲和部分,其中所述带条形码的寡核苷酸包含至少一个核苷酸,且其中所述亲和部分能够结合第二靶生物分子;且其中第一靶生物分子和第二靶生物分子不同。
36.一种分析包含至少两个循环微米粒子的样品或衍生自至少两个循环微米粒子的样品的方法,其中所述方法包含:(i)将所述样品分成至少两个分区,其中每个分区平均包含小于n个循环微米粒子;和(ii)确定在至少两个分区中的至少两个中的每一个中的至少两个靶生物分子的存在、不存在和/或水平。任选地,其中n为1000、500、200、100、50、40、30、20、10、5、4、3、2、1、0.5、0.4、0.3、0.2、0.1、0.05、0.04、0.03、0.02、0.01、0.005、0.001、0.0005或0.0001。
37.一种分析包含至少两个循环微米粒子的样品或衍生自至少两个循环微米粒子的样品的方法,其中所述方法包含:(i)将所述样品分成至少两个分区,其中第一分区至少包含第一循环微米粒子的第一和第二靶生物分子,且第二分区至少包含第二循环微米粒子的第一和第二靶生物分子,且其中每个分区平均包含DNA总质量的小于[X];和(ii)确定在至少两个分区中的至少两个中的每一个中的至少两个靶生物分子的存在、不存在和/或水平。任选地,其中[x]为1.0阿克的DNA、10阿克的DNA、100阿克的DNA、1.0飞克的DNA、10飞克的DNA、100飞克的DNA、1.0皮克的DNA、10皮克的DNA、100皮克的DNA或1.0纳克的DNA。
38.一种分析包含至少两个循环微米粒子的样品或衍生自至少两个循环微米粒子的样品的方法,其中所述方法包含:(i)将所述样品分成至少两个分区,其中第一分区至少包含第一循环微米粒子的第一和第二靶生物分子,且第二分区至少包含第二循环微米粒子的第一和第二靶生物分子,且其中每个分区平均包含蛋白质总质量的小于[Y];和(ii)确定在至少两个分区中的至少两个中的每一个中的至少两个靶生物分子的存在、不存在和/或水平。任选地,其中[Y]为1.0阿克的蛋白质、10阿克的蛋白质、100阿克的蛋白质、1.0飞克的蛋白质、10飞克的蛋白质、100飞克的蛋白质、1.0皮克的蛋白质、10皮克的蛋白质、100皮克的蛋白质或1.0纳克的蛋白质。
39.根据第36-38项中任一项所述的方法,其中所述方法进一步包含分析已被分成所述第一和第二分区中的每一个的至少两个靶核酸分子的序列。
在以下一组编号的项中进一步定义了本发明:
1.一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述循环微米粒子包含至少三个靶分子,其中至少两个所述靶分子是基因组DNA的片段且至少一个所述靶分子是靶多肽,且其中所述方法包含测量与每个靶分子的存在、不存在和/或水平对应的信号,以针对循环微米粒子产生至少两个连接信号的集合,其中至少一个连接信号对应于样品中的基因组DNA的片段的存在、不存在和/或水平,且至少一个连接信号对应于样品中的靶多肽的存在、不存在和/或水平。
2.根据第1项所述的方法,其中基因组DNA的片段包含核苷酸的特定序列,和/或其中基因组DNA的片段包含至少一个修饰的核苷酸或核碱基,任选地,其中修饰的核苷酸或核碱基是5-甲基胞嘧啶或5-羟甲基胞嘧啶。
3.根据第1项或第2项所述的方法,其中所述靶多肽包含特定氨基酸序列,和/或其中所述靶多肽包含翻译后修饰,任选地,其中所述靶多肽包含乙酰化氨基酸残基和/或甲基化氨基酸残基。
4.根据第1-3项中任一项所述的方法,其中所述方法包含测量与循环微米粒子的每个靶分子的存在、不存在和/或水平对应的信号,以针对循环微米粒子产生至少三个连接信号的集合,其中一个连接信号对应于循环微米粒子的第一基因组DNA的片段的存在、不存在和/或水平,一个连接信号对应于循环微米粒子的第二基因组DNA的片段的存在、不存在和/或水平,且一个连接信号对应于循环微米粒子的靶多肽的存在、不存在和/或水平。
5.根据第1-4项中任一项所述的方法,其中测量与基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含分析至少两个基因组DNA的片段中的至少两个中的每一个的序列,任选地,其中测量与基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含对至少两个基因组DNA的片段中的至少两个中的每一个的至少一部分进行测序。
6.根据第1-5项中任一项所述的方法,其中测量与基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含:
(a)连接至少两个基因组DNA的片段中的至少两个,以产生至少两个基因组DNA的连接片段的集合;和任选地,
(b)对组中的至少两个连接片段的每一个的至少一部分进行测序,以产生至少两个连接序列读段。
7.根据第1-6项中任一项所述的方法,其中测量与基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含:
(a)将循环微米粒子的至少两个基因组DNA的片段中的至少两个中的每一个附接至条形码序列,以产生基因组DNA的连接片段的集合;和任选地,
(b)对集合中的至少两个连接片段中的每一个的至少一部分进行测序以产生至少两个连接序列读段,其中所述至少两个连接序列读段通过条形码序列连接。
8.根据第1-6项中任一项所述的方法,其中测量与基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含:
(a)将循环微米粒子的至少两个基因组DNA的片段中的至少两个中的每一个附接至条形码序列的集合中的不同条形码序列,以产生基因组DNA的连接片段的集合;和任选地,
(b)对集合中的至少两个连接片段中的每一个的至少一部分进行测序以产生至少两个连接序列读段,其中所述至少两个连接序列读段通过条形码序列的集合连接。
9.根据第1-8项中任一项所述的方法,其中基因组DNA的片段包含至少一个修饰的核苷酸或核碱基,且其中测量与基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含测量与基因组DNA的片段的修饰的核苷酸或核碱基的存在、不存在和/或水平对应的信号,任选地,其中修饰的核苷酸或核碱基是5-甲基胞嘧啶或5-羟甲基胞嘧啶。
10.根据第9项所述的方法,其中如下地测量与修饰的核苷酸或核碱基的存在、不存在和/或水平对应的信号:使用(i)带条形码的亲和探针,其中所述带条形码的亲和探针包含至少一个与带条形码的寡核苷酸连接的亲和部分,其中所述带条形码的寡核苷酸包含至少一个核苷酸,且其中所述亲和部分能够结合到修饰的核苷酸或核碱基,任选地,其中通过测序确定带条形码的寡核苷酸的存在、不存在和/或水平来测量信号;和/或(ii)光学标记的亲和探针和/或荧光标记的亲和探针,任选地,其中通过流式细胞测量术和/或荧光激活细胞分选来测量信号。
11.根据第1-10项中任一项所述的方法,其中如下地测量与靶多肽的存在、不存在和/或水平对应的信号:使用(i)带条形码的亲和探针,其中所述带条形码的亲和探针包含至少一个与带条形码的寡核苷酸连接的亲和部分,其中所述带条形码的寡核苷酸包含至少一个核苷酸,且其中所述亲和部分能够结合到靶多肽,任选地,其中通过测序确定带条形码的寡核苷酸的存在、不存在和/或水平来测量信号;和/或(ii)光学标记的亲和探针和/或荧光标记的亲和探针,任选地,其中通过流式细胞测量术和/或荧光激活细胞分选来测量信号。
12.根据第1-11项中任一项所述的方法,其中循环微米粒子包含至少3、至少4、至少5、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少100,000或至少1,000,000个靶分子,且其中方法包含针对循环微米粒子产生至少3、至少4、至少5、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少100,000或至少1,000,000个连接信号的集合。
13.根据第1-12项中任一项所述的方法,其中靶分子包含至少2、至少3、至少4、至少9、至少49、至少99、至少499、至少999、至少4999、至少9,999、至少99,999或至少999,999个基因组DNA的片段,且任选地,其中方法包含针对循环微米粒子产生至少3、至少4、至少5、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少100,000或至少1,000,000个连接信号的集合。
14.根据第1-13项中任一项所述的方法,其中靶分子包含至少2、至少3、至少4、至少9、至少49、至少99、至少499、至少999、至少4999、至少9,999、至少99,999或至少999,999个靶多肽,且任选地,其中方法包含针对循环微米粒子产生至少至少3、至少4、至少5、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少100,000或至少1,000,000个连接信号的集合。
15.根据第1-14项中任一项所述的方法,其中样品包含第一和第二循环微米粒子,其中每个循环微米粒子包含至少三个如第1-14项中任一项所定义的靶分子,且其中所述方法包含根据第1-14项中任一项所述执行测量步骤以针对第一循环微米粒子产生连接信号的集合,和根据第1-14项中任一项所述执行测量步骤以针对第二循环微米粒子产生连接信号的集合;任选地,其中样品包含n个循环微米粒子,其中每个循环微米粒子包含至少三个如第1-14项中任一项所定义的靶分子,且其中所述方法包含针对每个循环微米粒子,根据第1-14项中任一项所述执行测量步骤以针对每个循环微米粒子产生连接信号的集合,任选地,其中n为至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000或至少100,000,000个循环微米粒子。
附图说明
通过参考与附图结合在一起的本说明书,可以最好地理解本发明以及其另外的目的和优点,其中:
图1示出了可用于图3或图4中所示的方法的多聚条形码试剂。
图2示出了试剂盒,其包含多聚条形码试剂和衔接子寡核苷酸,用于标记靶核酸。
图3示出了使用多聚条形码试剂来制备用于测序的核酸样品的第一方法。
图4示出了使用多聚条形码试剂来制备用于测序的核酸样品的第二方法。
图5示出了使用多聚条形码试剂和衔接子寡核苷酸来制备用于测序的核酸样品的方法。
图6示出了使用多聚条形码试剂、衔接子寡核苷酸和靶寡核苷酸来制备用于测序的核酸样品的方法。
图7示出了使用滚环扩增过程组装多聚条形码分子的方法。
图8示出了合成用于标记靶核酸的多聚条形码试剂的方法,所述试剂可用于图3、图4和/或图5所示的方法中。
图9示出了合成用于标记靶核酸的多聚条形码试剂(如图1所示)的替代方法,所述试剂可用于图3和/或图4所示的方法中。
图10是展示每个条形码序列内的核苷酸的总数的图。
图11是展示每个测序的多聚条形码分子中的独特条形码分子的总数的图。
图12展示了由分析脚本检测到的代表性多聚条形码分子。
图13是展示在用含有带条形码的寡核苷酸的多聚条形码试剂对已知序列的合成DNA模板编条形码之后,每个分子序列标识符的独特条形码的数目相对于分子序列标识符的数目的图。
图14是展示在用多聚条形码试剂和分离的衔接子寡核苷酸对已知序列的合成DNA模板编条形码之后,每个分子序列标识符的独特条形码的数目相对于分子序列标识符的数目的图。
图15是展示用含有带条形码的寡核苷酸的多聚条形码试剂对三种人类基因(BRCA1、HLA-A和DQB1)的基因组DNA基因座编条形码的结果的表。
图16是用含有带条形码的寡核苷酸的多聚条形码试剂从条形码基因组DNA基因座获得的序列读段的示意性图示。
图17是展示来自在相同合成模板分子上标记序列的相同多聚条形码试剂的条形码的数目相对于合成模板分子的数目的图。
图18示出了一种方法,其中确定了来自微米粒子的两个或更多个序列且进行了信息连接。
图19示出了一种方法,其中来自特定微米粒子的序列通过共享标识符连接。
图20示出了一种方法,其中将分子条形码附接至已被划分的微米粒子内的基因组DNA的片段,且其中所述条形码在衍生自相同微米粒子的序列之间提供连接。
图21示出了一种具体方法,其中通过多聚条形码试剂将分子条形码附接至微米粒子内的基因组DNA的片段,且其中所述条形码在衍生自相同微米粒子的序列之间提供连接。
图22示出了一种方法,其中将单个微米粒子内的基因组DNA的片段彼此附接,且其中对所得分子进行测序,使得从相同测序分子确定来自相同微米粒子的两个或更多个基因组DNA的片段的序列,由此在相同微米粒子内的片段之间建立连接。
图23示出了一种方法,其中在两个或更多个独立的个别测序反应中对来自大微米粒子样品的个别微米粒子(和/或小微米粒子群体)进行测序,且由此将从每个这样的测序反应确定的序列确定为信息连接,且因此预测为衍生自相同的个别微米粒子(和/或小微米粒子群体)。
图24示出了一种具体方法,其中在测序之前将个别微米粒子内的基因组DNA的片段附接至测序流通池的离散区域,且其中在所述流通池上测序的片段的接近性提供了衍生自相同微米粒子的序列之间的连接。
图25示出了如通过附接带条形码的寡核苷酸的方法产生的循环微米粒子内的基因组DNA的片段的序列的连接(来自示例方案的‘变体A’版本)。展示的是人类基因组中的所有染色体上的序列读段密度,在单个染色体区段中具有明显的读段簇聚。
图26示出了如通过附接带条形码的寡核苷酸的方法产生的循环微米粒子内的基因组DNA的片段的序列的连接(来自示例方案的‘变体B’版本)。展示的是人类基因组中的所有染色体上的序列读段密度,在单个染色体区段中具有明显的读段簇聚。
图27示出了如通过附接带条形码的寡核苷酸的方法产生的循环微米粒子内的基因组DNA的片段的序列的连接(来自示例方案的‘变体B’版本)。展示的是在特定染色体区段内放大的序列读段的密度,以展示这些连接读段的聚焦、高密度性质。
图28示出了如通过附接带条形码的寡核苷酸的方法产生的循环微米粒子内的基因组DNA的片段序列的连接(来自示例方案的‘变体C’版本)。展示的是人类基因组中所有染色体上的序列读段的密度,在单个染色体区段中具有明显的读段簇聚,尽管此类区段的染色体跨度大于其它变体方法(由于与变体A或B相比,较大的微米粒子在变体C中被沉淀)。
图29示出了阴性对照实验,其中在将基因组DNA的片段附接至带条形码的寡核苷酸之前将其纯化(即,因此是未连接的)。完全没有观察到读段簇聚,证实了循环微米粒子包含来自聚焦、连续基因组区域的基因组DNA的片段。
图30示出了单个循环微米粒子的靶分子的多参数测量的概念。
图31示出了一种方法,其中使用带条形码的亲和探针和划分步骤来测量靶生物分子。
图32示出了一种方法,其中使用带条形码的亲和探针和多聚条形码试剂来测量靶生物分子。
图33示出了分析包含循环微米粒子的样品的方法(和相关的实验结果),其中循环微米粒子包含基因组DNA的片段和蛋白质,且其中方法包含使用基于抗体结合的珠粒的方法来测量蛋白质,以及随后对基因组DNA的片段进行编条形码和测序。
图34示出了分析包含循环微米粒子的样品的方法(和相关的实验结果),其中循环微米粒子包含基因组DNA的片段和蛋白质,且其中方法包含使用基于抗体结合的珠粒的方法来测量蛋白质,且其中还进行测量修饰的核碱基的步骤,且接着对基因组DNA的片段进行后续编条形码和测序。
图35示出了分析包含循环微米粒子的样品的方法(和相关的实验结果),其中循环微米粒子包含基因组DNA的片段以及第一蛋白质和第二蛋白质,且其中方法包含使用基于抗体结合的珠粒的方法测量第一蛋白质,且使用带条形码的亲和探针测量第二蛋白质,以及随后对基因组DNA的片段和来自带条形码的亲和探针的序列进行编条形码和测序。
下面提供了图18-35中的每一个的详细描述。
图18示出了一种方法,其中确定了来自微米粒子的两个或更多个序列且进行了信息连接。在所述方法中,包含在血液、血浆或血清样品中或由其衍生的微米粒子包含两个或更多个基因组DNA的片段。确定了这些基因组DNA的片段的至少一部分的序列;且另外,通过一种或多种方法,建立了信息连接,使得来自微米粒子的第一和第二序列被连接。
这种连接可采取任何形式,例如共享标识符(其可例如从共享条形码中获得,所述条形码可在分子条形码过程中附接至所述第一和第二基因组DNA序列);任何其它共享属性也可用于连接两个序列;包含序列本身的数据可包含在共享电子存储介质或其分区中。此外,所述连接可包含非二元或相对值,例如代表两个片段在空间计量测序反应中的物理接近度,或代表两个序列可能源自包含在相同微米粒子中的基因组DNA的片段的估计可能性或概率。
图19示出了一种方法,其中来自特定微米粒子的序列通过共享标识符连接。在所述方法中,例如通过核酸测序反应来确定来自包含在两个不同微米粒子(例如,衍生自单一血液、血浆或血清样品的两个不同微米粒子)中的基因组DNA的片段的许多序列。将对应于来自第一微米粒子的基因组DNA的片段的序列各自分配至相同的信息标识符(此处为标识符‘0001’),且将对应于来自第二微米粒子的基因组DNA的片段的序列各自分配至相同的不同信息标识符(此处为标识符‘0002’)。因此,序列和对应标识符的此信息包含在衍生自相同微米粒子的序列之间的信息连接,其中不同标识符的集合起信息连接的作用。
图20示出了一种方法,其中将分子条形码附接至已被划分的微米粒子内的基因组DNA的片段,且其中所述条形码在衍生自相同微米粒子的序列之间提供连接。在所述方法中,将来自微米粒子样品的微米粒子分成两个或更多个分区,且接着将微米粒子内的基因组DNA的片段在分区内编条形码,且接着确定序列,以这样的方式使得条形码鉴别序列衍生自哪个分区,且由此连接来自个别微米粒子的不同序列。
在第一步中,将微米粒子分成两个或更多个分区(其可例如包含不同的物理反应容器,或乳液中的不同液滴)。接着从每个分区内的微米粒子中释放基因组DNA的片段(即,使所述片段在物理上可接近,以便接着可对其编条形码)。此释放步骤可通过高温培育步骤,和/或通过与分子溶剂或化学表面活性剂一起培育来进行。任选地(但此处未示出),可在附接条形码序列之前在此时执行扩增步骤,以使基因组DNA的片段的全部或部分至少复制一次(例如,在PCR反应中),且接着条形码序列可随后附接至所得的复制产物。
接着将条形码序列附接至基因组DNA的片段。条形码序列可采用任何形式,例如包含条形码区域的引物,或多聚条形码试剂内的带条形码的寡核苷酸,或多聚条形码分子内的条形码分子。条形码序列也可通过任何方式附接,例如通过引物延伸和/或PCR反应,或单股或双股连接反应,或通过体外转座。在任何情况下,附接条形码序列的过程在每个分区内产生分子溶液,其中每个这样的分子包含条形码序列,且接着是与来自被分至所述分区的微米粒子的基因组DNA的片段对应的序列的全部或部分。
接着将来自不同分区的含条形码的分子合并在一起成为单一反应物,且接着对所得分子执行测序反应,以确定基因组DNA的序列以及其所附接的条形码序列。接着将相关的条形码序列用于鉴别衍生每个序列的分区,且由此连接在测序反应中确定的序列,所述序列衍生自相同微米粒子或微米粒子组中包含的基因组DNA的片段。
图21示出了一种具体方法,其中通过多聚条形码试剂将分子条形码附接至微米粒子内的基因组DNA的片段,且其中所述条形码在衍生自相同微米粒子的序列之间提供连接。在所述方法中,将来自微米粒子样品的微米粒子交联且接着透化,且接着通过多聚条形码试剂对微米粒子内包含的基因组DNA的片段编条形码,且接着确定序列,以这样的方式使得条形码鉴别每个序列通过哪种多聚条形码试剂来编条形码,且由此连接来自个别微米粒子的不同序列。
在第一步中,通过化学交联剂使来自微米粒子样品的微米粒子交联。此步骤用于将基因组DNA的片段保持在每个微米粒子内彼此物理接近的目的,使得可在保持微米粒子的基本结构性质的同时(即,在保持衍生自相同微米粒子的基因组DNA片段的物理接近性的同时)操作和处理样品。在第二步中,使交联的微米粒子透化(即,使基因组DNA的片段在物理上可接近,以便接着可在编条形码步骤中对其编条形码);此透化可例如通过与化学表面活性剂(如非离子清洁剂)一起培育来执行。
接着将条形码序列附接至基因组DNA的片段,其中将包含在多聚条形码试剂(和/或多聚条形码分子)内的条形码序列附接至相同的交联微米粒子内的片段。条形码序列可通过任何方式附接,例如通过引物延伸反应,或通过单股或双股连接反应。进行附接条形码序列的过程,以便在稀释条件下使用许多多聚条形码试剂(和/或多聚条形码分子)的库将序列附接至包含许多交联微米粒子的样品中,以使每种多聚条形码试剂(和/或多聚条形码分子)通常只会对包含在单个微米粒子内的序列编条形码。
接着对所得分子执行测序反应,以确定基因组DNA的序列以及其所附的条形码序列。然后,将相关的条形码序列用于鉴别对每个序列编条形码的多聚条形码试剂(和/或多聚条形码分子),且由此将测序反应中确定的、衍生自相同微米粒子内包含的基因组DNA的片段的序列连接起来。
图22示出了一种方法,其中将单个微米粒子内的基因组DNA的片段彼此附接,且其中对所得分子进行测序,使得从相同测序分子确定来自相同微米粒子的两个或更多个基因组DNA的片段的序列,由此在相同微米粒子内的片段之间建立连接。在所述方法中,个别微米粒子内的基因组DNA的片段彼此交联,且接着钝化,且接着将所得的钝化的基因组DNA的片段彼此连接成连续的多部分序列。接着对所得分子进行测序,以使得因此将来自相同测序分子内包含的两个或更多个基因组DNA的片段的序列确定为如同衍生自相同微米粒子一般连接。
在第一步中,通过化学交联剂使来自微米粒子样品的微米粒子交联。此步骤用于将基因组DNA的片段保持在每个微米粒子内彼此物理接近的目的,使得可在保持微米粒子的基本结构性质的同时(即,在保持衍生自相同微米粒子的基因组DNA片段的物理接近性的同时)操作和处理样品。在第二步中,使交联的微米粒子透化(即,使基因组DNA的片段在物理上可接近,以便接着可在编条形码步骤中对其编条形码);此透化可例如通过与化学表面活性剂(如非离子清洁剂)一起培育来执行。
在下一步中,将每个微米粒子内的基因组DNA的片段的末端钝化(即,除去任何突出部分和/或填充末端),以使末端能够在双股连接反应中彼此附接。接着执行双股连接反应(例如,用T4 DNA连接酶),其中将包含在相同微米粒子内的分子的钝端彼此连接成连续的多部分双股序列。此连接反应(或任何其它步骤)可在稀释条件下进行,以使两个或更多个不同微米粒子内包含的序列之间的假连接产物最小化。
接着对所得分子执行测序反应,以确定每个多部分分子内的基因组DNA序列。接着评估所得分子,以使得因此将来自相同测序分子内包含的两个或更多个基因组DNA的片段的序列确定为如同衍生自相同微米粒子一般连接。
图23示出了一种方法,其中在两个或更多个独立的个别测序反应中对来自大微米粒子样品的个别微米粒子(和/或小微米粒子群体)进行测序,且由此将从每个这样的测序反应确定的序列确定为信息连接,且因此预测为衍生自相同的个别微米粒子(和/或小微米粒子群体)。在所述方法中,将来自微米粒子样品的微米粒子分成两个或更多个独立的微米粒子子样品。每个子样品可包含一个或多个个别微米粒子,但在任何情况下将仅包含原始微米粒子样品的一部分。
接着释放每个子样品内的基因组DNA的片段,且将其加工成可对其进行测序的形式(例如,可将其附接至例如Illumina测序衔接子的测序衔接子,且任选地扩增和纯化以用于测序)。此方法可包含或可不包含附接条形码序列的步骤;任选地,测序分子不包含任何条形码序列。
接着在单独的独立测序反应中对来自每个个别子样品的基因组DNA的片段(和/或其复制拷贝)进行测序。例如,来自每个子样品的分子可在单独的测序流通池上测序,或可在流通池的不同通道内测序,或可在纳米孔测序仪的不同端口或流通池内测序。
接着评估所得的测序分子,以使得因此将来自相同的个别测序反应的序列确定为如同衍生自相同微米粒子(和/或相同的微米粒子小组)一般连接。
图24示出了一种具体方法,其中在测序之前将个别微米粒子内的基因组DNA的片段附接至测序流通池的离散区域,且其中在所述流通池上测序的片段的接近性包含衍生自相同微米粒子的序列之间的连接。在所述方法中,将来自微米粒子样品的微米粒子交联且接着透化,且接着将个别微米粒子内包含的基因组DNA的片段附接至测序流通池,从而将来自相同个别微米粒子的两个或更多个片段附接至流通池的相同区域。接着对附接的分子进行测序,且所得序列在流通池上的接近度包含一个连接值,其中可预测在流通池上紧邻的序列衍生自原始样品内的相同个别微米粒子。
在第一步中,通过化学交联剂使来自微米粒子样品的微米粒子交联。此步骤用于将基因组DNA的片段保持在每个微米粒子内彼此物理接近的目的,使得可在保持微米粒子的基本结构性质的同时(即,在保持衍生自相同微米粒子的基因组DNA片段的物理接近性的同时)操作和处理样品。在第二步中,使交联的微米粒子透化(即,使基因组DNA的片段在物理上可接近,以便接着可将其附接至流通池);此透化可例如通过与化学表面活性剂(如非离子清洁剂)一起培育来执行。
在下一步中,接着将来自微米粒子的基因组DNA的片段附接至测序设备的流通池,使得在相同微米粒子内交联的两个或更多个片段附接至流通池的相同离散区域。这可在涉及衔接分子的多部分反应中进行;例如,衔接分子可附接至微米粒子内的基因组DNA的片段上,且所述衔接分子可包含与流通池上的单股引物互补的单股部分。接着可使来自交联微米粒子的序列扩散且粘接至流通池的相同区域内的不同引物。
接着对所得测序分子进行测序,以使所得序列在流通池上的接近度提供一个连接值,其中可预测在流通池上紧邻(例如,在某个离散区域和/或接近值内)的序列衍生自原始样品内的相同个别微米粒子。
仅举例而言,可参考在NIPT和癌症检测中的可能应用来说明本发明的优点:
举例而言,在肿瘤学领域中,本发明可实现强大的新框架来筛选癌症的早期检测。几个小组正在寻求开发cfDNA检定,其可在转移转化之前从早期肿瘤中检测低水平的循环DNA(所谓的‘循环肿瘤DNA’或ctDNA)。从非癌标本中划定癌变的主要方法之一是通过检测‘结构变异’(基因扩增、缺失或易位),所述结构变异是恶性肿瘤的普遍特征;但是,通过当前的‘分子计数’框架检测此类大规模遗传事件需要对cfDNA进行超深度测序,以实现具有统计意义的检测,并且即使这样,还需要血浆中存在足够量的ctDNA才能产生足够的绝对分子信号,即使假设测序深度不受限制也是如此。
相比之下,本发明可对具有潜在的单分子灵敏度的结构变异进行直接分子评估:可通过此方法直接检测到包括‘重排位点’(例如,一条染色体上已与之易位且因此连接至另一染色体的点,或单个染色体内的基因或其它染色体区段已被扩增或缺失的点)的任何结构变异,因为含有重排DNA的循环微米粒子可包括侧接重排位点本身两侧的DNA片段群体,接着可通过这种方法彼此连接,以信息方式推断出重排本身的位置以及两个参与的基因组位点在其每一端的界限。
为了概念化这可以如何提高通用癌症筛检的成本效益和绝对分析灵敏度,可给出假设的单个循环微米粒子的实例,其含有早期癌细胞的染色体易位,且含有总共1兆碱基跨越此易位的左右两半的DNA,其中此DNA片段化为10,000个不同的100个核苷酸长的个别片段,累计跨越整个1兆碱基区段。为了使用当前的仅未连接片段的方法来检测此易位事件的存在,将需要对本身含有精确易位位点的单个100个碱基对的片段进行测序,且在其全长上进行测序以检测实际的易位位点本身。因此,此测试方法将需要满足以下两者:1)将所有10,000个片段有效地转换为可在测序仪上读取的格式(即,必须成功处理10,000个片段中的大部分,并将其保留在整个DNA纯化和测序样品制备过程中),且接着2)必须通过DNA测序过程对所有10,000个片段进行至少一次测序,以可靠地对包括易位位点的片段进行测序(即,即使执行至少1兆碱基的测序,即使假设对测序步骤中的所有输入分子均进行了理论均匀采样也是如此)。因此,将需要执行1兆碱基的测序来检测易位事件。
相比之下,为了以高度的统计置信度但使用连接片段方法来检测易位的存在,则仅需要对易位位点本身每一侧的少量输入片段进行测序(以将‘置信’易位事件与例如统计噪声或误映射错误区分开)。为了提供高度的统计置信度,可对易位每一侧的约10个片段进行测序;且由于仅需将其映射到基因组中的某个位置,而不需要对其全长进行测序即可观察到实际的易位本身,每个片段仅需测序约50个碱基对即可。综上所述,这将产生1000个碱基对的总测序要求,以检测是否存在易位-与当前最新技术所需的1,000,000个碱基对相比,减少了1000倍。
除了相对测序通量和成本方面的可观收益外,连接读取方法还可提高这些癌症筛检测试的绝对可达到的灵敏度。由于对于早期(且因此可能可治愈)的癌症,循环中的肿瘤DNA的绝对量很低,因此即使在理论上无限制的测序深度下,在用于测序的样品处理和制备过程中样品DNA的损失也可能显著阻碍测试功效。与以上实例保持一致,使用当前方法,将需要保留含有易位位点本身的单个DNA片段,且在整个样品收集、处理和测序准备方案中成功地对其进行处理,且接着成功地进行测序。但是,所有这些步骤都会导致一定比例的‘输入’分子从处理的样品中物理丢失(例如,在离心或清除步骤中),或者根本无法成功地处理/修饰以用于后续步骤(例如,在放入DNA测序仪之前未成功地扩增)。相比之下,由于本发明的连接读取方法仅涉及对一小部分实际‘输入’分子进行测序,因此这种类型的样品损失可能对最终分析的最终灵敏度产生显著降低的影响。
除了在肿瘤学和癌症筛检中的应用之外,本发明还可在非侵入性产前检查(NIPT)领域中实现相当多的新工具。发育中的胎儿(以及容纳其的胎盘)使片段化的DNA脱落进入母体循环中,其中的一部分包含在循环微米粒子中。与从ctDNA进行癌症筛检的问题类似,循环的胎儿DNA仅占孕妇个体的总循环DNA的一小部分(循环DNA的大部分是正常母体DNA)。NIPT面临的一项重大技术挑战是围绕区分实际的胎儿DNA与母体DNA片段(它们将共享相同的核苷酸序列,因为它们是一半胎儿基因组的遗传来源)。NIPT面临的另一项技术挑战涉及从循环中存在的胎儿DNA的短片段中检测远程基因组序列(或突变)。
对源自相同个别循环微米粒子的连接片段的分析为基本解决NIPT面临的这两个技术挑战提供了一个强大的框架。由于(大约)一半的胎儿基因组将与发育中的胎儿已遗传的(大约)一半母体基因组在序列上相同,因此很难区分是否已通过正常母体组织,或者通过发育中的胎儿组织产生了具有母体序列的给定测序片段。相比之下,对于(大约)一半已父本遗传(遗传自父亲)的胎儿基因组,序列变体(例如单核苷酸变体或其它变体)存在于父本基因组中,但不存在于母体基因组中用作鉴别这些父本遗传的胎儿片段的分子标记(因为循环中唯一的父本DNA序列将是来自妊娠本身的那些)。
因此,对来自碰巧包含母本以及父本序列(例如,来自一个特定的母本遗传的胎儿染色体的序列,以及来自已经父本遗传的第二个胎儿染色体的序列)的单个循环胎儿微米粒子的多个片段进行测序的能力提供了一种方法,所述方法用于直接识别哪些母体序列已被发育中的胎儿所遗传:被发现共定位于还包含父本序列的微米粒子内的母本序列可被预测为胎儿遗传的母本序列,且相反,未被发现与父本序列共定位的母本序列可被预测为代表未由胎儿遗传的母本序列。通过这种技术,可将由正常的母体DNA构成的绝大部分循环DNA特定地从处理后的序列数据集中过滤掉,且可仅在信息上分离出被证明是真正的胎儿序列的序列,以进行进一步分析。
由于用于NIPT分析的‘胎儿分数’(由胎儿本身产生的所有循环DNA的分数)通常低于10%,且对于某些临床标本介于1%与5%之间,且由于这种父本序列衍生的‘信息门控’步骤可产生100%的‘有效胎儿分数’(假设最小的误映射误差),这种连接片段方法具有将NIPT测试的信噪比提高一到两个数量级的潜力。因此,本发明具有以下潜力:改善NIPT测试的整体分析灵敏度和特异性,以及显著减少所述过程所需的测序量,以及使得NIPT测试能够在妊娠早期(胎儿分数足够低,以至于当前的测试具有不可接受的假阳性率和假阴性率的时间点)执行。
重要的是,本发明以信息连接序列的形式在来自循环DNA的序列数据中提供了一种新颖的正交维度,在其上可以直接执行分析算法、计算和/或统计测试,以产生显著更灵敏和特异的遗传测量结果。例如,并非评估整个样品中两个染色体之间的序列的总量来测量胎儿染色体的非整倍性,而是可以直接评估连接序列(和/或其集合或子集)以检查例如映射到特定染色体或染色体部分的每个信息连接集的序列的数目。可进行比较和/或统计测试以比较不同的推测细胞起源的连接序列集(例如,胎儿序列与母体序列之间,或推测的健康组织与推测的癌性或恶性组织之间的比较),或评估序列特征或仅在连接序列集的水平上存在(或在个别未连接的序列的水平上不存在)的数字特征,例如特定的染色体分布模式或特定序列或序列集的累积富集。
除了应用于检测胎儿微米粒子序列之外,此方法还具有检测胎儿基因组中存在的远程遗传序列或序列突变的潜力。与针对癌症基因组重排所描述的方式大体相同,如果对胎儿微米粒子中跨越和/或侧接基因组重排位点(例如易位或扩增或缺失)的几个DNA片段进行了测序,那么这些重排类别可以信息方式被检测到,即使没有直接对重排位点本身进行测序也如此。另外,除了基因组重排事件之外,此方法还具有检测个别基因组区域内‘定相’信息的潜力。例如,如果在特定基因内的不同点处发现两个单核苷酸变体,但相距几千个碱基的基因组距离,则此方法可评估这两个单核苷酸变体是否位于胎儿基因组中的基因的相同单拷贝上,或其是否各自位于胎儿基因组中存在的基因的两个拷贝中的不同拷贝上(即,其是否位于相同的单倍型内)。此功能对于胎儿基因组中从头进行的单核苷酸突变的遗传评估和预后可能具有特定的临床效用,所述胎儿基因组包含了大部分具有遗传病因的主要发育障碍。
图31示出了一种方法,其中使用带条形码的亲和探针和分配步骤来测量靶生物分子。在所述方法中,将带条形码的亲和探针与来自微米粒子样品的微米粒子一起培育,且使其与所述微米粒子内或所述微米粒子上的靶多肽(即,靶生物分子)结合。带条形码的亲和探针包含能够与靶多肽结合的亲和部分和鉴别带条形码的亲和探针的带条形码的寡核苷酸。接着将微米粒子分成两个或更多个分区,且接着将微米粒子内的基因组DNA的片段和来自结合的带条形码的亲和探针的带条形码的寡核苷酸在分区内编条形码,且接着确定序列,以这样的方式使得条形码鉴别序列衍生自哪个分区,且由此连接来自个别微米粒子的不同序列。
在将带条形码的亲和探针与靶多肽结合的步骤之后,将微米粒子分成两个或更多个分区(其可包含例如不同的物理反应容器,或乳液内的不同液滴)。接着从每个分区内的微米粒子中释放基因组DNA的片段和来自带条形码的亲和探针的带条形码的寡核苷酸(即,使所述片段在物理上可接近,以便接着可对其编条形码)。此释放步骤可通过高温培育步骤,和/或通过与分子溶剂或化学表面活性剂一起培育来进行。任选地(但此处未示出),可在附接条形码序列之前在此时执行扩增步骤,以使基因组DNA的片段的全部或部分至少复制一次(例如,在PCR反应中),且接着条形码序列可随后附接至所得的复制产物。
接着将条形码序列附接至基因组DNA的片段(或其扩增产物)和来自带条形码的亲和探针的带条形码的寡核苷酸(或其扩增子)(即,将条形码序列附接至“靶核酸分子”。条形码序列可采用任何形式,例如包含条形码区域的引物,或多聚条形码试剂内的带条形码的寡核苷酸,或多聚条形码分子内的条形码分子。条形码序列也可通过任何方式附接,例如通过引物延伸和/或PCR反应,或单股或双股连接反应,或通过体外转座。在任何情况下,附接条形码序列的过程均在每个分区内产生分子溶液,其中每个此类分子均包含条形码序列,且接着是对应于基因组DNA的片段或来自带条形码的亲和探针的带条形码的寡核苷酸的序列的全部或部分,所述亲和探针来自被分至所述分区的微米粒子。
接着将来自不同分区的含条形码的分子合并在一起成为单一反应物,且接着对所得分子执行测序反应,以确定基因组DNA的序列和/或来自带条形码的亲和探针的序列以及其所附接的条形码序列。接着将相关的条形码序列用于鉴别衍生每个序列的分区,且由此连接在测序反应中确定的序列,所述序列衍生自相同微米粒子或微米粒子组中包含的靶生物分子。带条形码的寡核苷酸的序列鉴别了连接的亲和部分,且由此鉴别了亲和部分所结合的靶多肽。因此,测序数据鉴别了基因组DNA片段和一种或多种靶多肽,其可能已经共定位在相同循环微米粒子内。
图32示出了一种方法,其中使用带条形码的亲和探针和多聚条形码试剂来测量靶生物分子。在所述方法中,将带条形码的亲和探针与来自微米粒子样品的微米粒子一起培育,且使其与所述微米粒子内或所述微米粒子上的靶多肽(即,靶生物分子)结合。带条形码的亲和探针包含能够与靶多肽结合的亲和部分和鉴别带条形码的亲和探针的带条形码的寡核苷酸。接着将来自微米粒子样品的微米粒子交联且接着透化,且接着通过多聚条形码试剂对靶核酸分子(即,微米粒子内包含的基因组DNA的片段和来自带条形码的亲和探针的带条形码的寡核苷酸)编条形码,且接着确定序列,以这样的方式使得条形码鉴别每个序列通过哪种多聚条形码试剂来编条形码,且由此连接来自个别微米粒子的不同序列。
在将带条形码的亲和探针与靶多肽结合的步骤之后,通过化学交联剂使来自微米粒子样品的微米粒子交联。此步骤的目的是使每个微米粒子中的基因组DNA的片段和来自带条形码的亲和探针的带条形码的寡核苷酸彼此保持物理接近,从而可对样品进行操作和处理,同时保留微米粒子的基本结构性质(即,保留基因组DNA片段和来自衍生自相同微米粒子的带条形码的亲和探针的带条形码的寡核苷酸的物理接近性)。在第二步中,使交联的微米粒子透化(即,使基因组DNA的片段在物理上可接近,以便接着可在编条形码步骤中对其编条形码);此透化可例如通过与化学表面活性剂(如非离子清洁剂)一起培育来执行。任选地,可在任何这样的交联步骤之后,和/或在任何这样的透化步骤之后,执行将带条形码的亲和探针与靶多肽结合的(第一或第二)步骤。
接着将条形码序列附接至基因组DNA的片段和包含在带条形码的亲和探针中的带条形码的寡核苷酸,其中将包含在多聚条形码试剂(和/或多聚条形码分子)中的条形码序列附接至在相同交联微米粒子内或与相同交联微米粒子结合的片段。条形码序列可通过任何方式附接,例如通过引物延伸反应,或通过单股或双股连接反应。进行附接条形码序列的过程,以便在稀释条件下使用许多多聚条形码试剂(和/或多聚条形码分子)的库将序列附接至包含许多交联微米粒子的样品中,以使每种多聚条形码试剂(和/或多聚条形码分子)通常只会对包含在单个微米粒子内的靶核酸分子编条形码。任选地,可在附接条形码序列的任何步骤之前和/或期间,执行将一个或多个偶联分子附接至靶核酸分子(例如,附接至基因组DNA的片段和/或来自带条形码的亲和探针的带条形码的寡核苷酸)的任何方法,且接着(任选地)可将来自多聚条形码试剂的条形码序列与所述偶联分子连接,任选地通过后续条形码连接步骤,其中所述条形码序列附接至所述靶核酸分子。
接着对所得分子执行测序反应,以确定基因组DNA序列和来自带条形码的亲和探针的带条形码的寡核苷酸以及其所附接的条形码序列。相关的条形码序列接着用于鉴别每个序列是通过哪种多聚条形码试剂(和/或多聚条形码分子)编条形码的,且由此连接在测序反应中确定的序列,所述序列衍生自基因组DNA的片段和来自包含在相同微米粒子内或与其结合的带条形码的亲和探针的带条形码的寡核苷酸。带条形码的寡核苷酸的序列鉴别了连接的亲和部分,且由此鉴别了亲和部分所结合的靶多肽。因此,测序数据鉴别了基因组DNA片段和一种或多种靶多肽,其可能已经共定位在相同循环微米粒子内。
实例
实例1
材料和方法
方法1-合成核酸条形码分子库
合成双股子条形码分子库
在PCR管中,将10微升的10微摩尔BC_MX3(SEQ ID NO:18至269中所有序列的等摩尔混合物)添加至10微升的10微摩尔BC_ADD_TP1(SEQ ID NO:1),加上10微升的10×CutSmart缓冲液(New England Biolabs)加1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen)加68微升H2O,直至最终体积为99微升。将PCR管置于热循环仪上,且在75℃下培育5分钟,接着缓慢退火至4℃,接着保持4℃,接着置于冰上。将1.0微升Klenow聚合酶片段(New England Biolabs;5U/μL)添加至溶液中且混合。将PCR管再次置于热循环仪上且在25℃下培育15分钟,接着保持在4℃下。接着将溶液用纯化柱(核苷酸去除试剂盒(Nucleotide Removal Kit);Qiagen)纯化,在50微升H2O中洗脱,且以分光光度法定量。
合成双股下游衔接分子
在PCR管中,将0.5微升的100微摩尔BC_ANC_TP1(SEQ ID NO:2)添加至0.5微升的100微摩尔BC_ANC_BT1(SEQ ID NO:3),加上20微升的10×CutSmart缓冲液(New EnglandBiolabs)加178微升H2O,直至最终体积为200微升。将PCR管置于热循环仪上,且在95℃下培育5分钟,接着缓慢退火至4℃,接着保持在4℃,接着置于冰上,接着在-20℃下储存。
双股子条形码分子库与双股下游衔接分子的连接
在1.5毫升的微量离心管(Eppendorf tube)中,将1.0微升的双股下游衔接分子溶液添加至2.5微升的双股子条形码分子库,加上2.0微升的10×T4 DNA连接酶缓冲液和13.5微升的H2O,直至最终体积为19微升。将1.0微升T4 DNA连接酶(New England Biolabs;高浓度)添加至溶液中且混合。将管在室温下培育60分钟,接着用1.8×体积(34微升)的AmpureXP Beads(Agencourt;根据制造商说明书)纯化,且在40微升H2O中洗脱。
连接库(Ligated Library)的PCR扩增
在PCR管中,将2.0微升的连接库添加至2.0微升的50微摩尔BC_FWD_PR1(SEQ IDNO:4),加上2.0微升的50微摩尔BC_REV_PR1(SEQ ID NO:5),加上10微升的10×Taq PCR缓冲液(Qiagen)加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen)加81.5微升H2O,加上0.5微升Qiagen Taq聚合酶(5U/μL),直至最终体积为100微升。将PCR管置于热循环仪上,且扩增如下的15个循环:95℃持续30秒,接着59℃持续30秒,接着72℃持续30秒;接着保持在4℃。接着将溶液用1.8×体积(180微升)的Ampure XP Beads(Agencourt;根据制造商说明书)纯化,且在50微升H2O中洗脱。
尿嘧啶糖基化酶消化
向微量离心管中添加15微升洗脱的PCR扩增液,1.0微升H2O,加上2.0微升10×CutSmart缓冲液(New England Biolabs),加上2.0微升USER酶溶液(New EnglandBiolabs)且混合。将管在37℃下培育60分钟,接着用1.8×体积(34微升)的Ampure XPBeads(Agencourt;根据制造商说明书)纯化,且在34微升H2O中洗脱。
MlyI限制性酶裂解
向来自上一(糖基化酶消化)步骤的洗脱液中添加4.0微升10×CutSmart缓冲液(New England Biolabs),加上2.0微升MlyI酶(New England Biolabs,5U/μL)且混合。将管在37℃下培育60分钟,接着用1.8×体积(72微升)的Ampure XP Beads(Agencourt;根据制造商说明书)纯化,且在40微升H2O中洗脱。
子条形码库与MlyI裂解液的连接
在1.5毫升的微量离心管中,将10微升的MlyI裂解液溶液添加至2.5微升的双股子条形码分子库中,加上2.0微升的10×T4 DNA连接酶缓冲液和4.5微升的H2O,直至最终体积为19微升。将1.0微升T4 DNA连接酶(New England Biolabs;高浓度)添加至溶液中且混合。将管在室温下培育60分钟,接着用1.8×体积(34微升)的Ampure XP Beads(Agencourt;根据制造商说明书)纯化,且在40微升H2O中洗脱。
子条形码添加的重复循环
依序重复以下实验步骤:1)将子条形码库连接至MlyI裂解液,2)PCR扩增连接库,3)尿嘧啶糖基化酶消化,和4)MlyI限制酶裂解,总共五个循环。
合成双股上游衔接分子
在PCR管中,将1.0微升的100微摩尔BC_USO_TP1(SEQ ID NO:6)添加至1.0微升的100微摩尔BC_USO_BT1(SEQ ID NO:7),加上20微升的10×CutSmart缓冲液(New EnglandBiolabs)加178微升H2O,直至最终体积为200微升。将PCR管置于热循环仪上,且在95℃下培育60秒,接着缓慢退火至4℃,接着保持在4℃,接着置于冰上,接着在-20℃下储存。
双股上游衔接分子的连接
在1.5毫升的微量离心管中,将3.0微升的上游衔接子溶液添加至10.0微升的最终(在第五循环之后)MlyI裂解溶液,加上2.0微升的10×T4 DNA连接酶缓冲液和5.0微升的H2O,直至最终体积为19微升。将1.0微升T4 DNA连接酶(New England Biolabs;高浓度)添加至溶液中且混合。将管在室温下培育60分钟,接着用1.8×体积(34微升)的Ampure XPBeads(Agencourt;根据制造商说明书)纯化,且在40微升H2O中洗脱。
上游衔接子-连接库的PCR扩增
在PCR管中,将6.0微升的上游衔接子-连接库添加至1.0微升的100微摩尔BC_CS_PCR_FWD1(SEQ ID NO:8),加上1.0微升的100微摩尔BC_CS_PCR_REV1(SEQ ID NO:9),加上10微升的10×Taq PCR缓冲液(Qiagen)加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen)加73.5微升H2O,加上0.5微升Qiagen Taq聚合酶(5U/μL),直至最终体积为100微升。将PCR管置于热循环仪上,且扩增15个循环:95℃持续30秒,接着61℃持续30秒,接着72℃持续30秒;接着保持在4℃。接着将含有扩增的核酸条形码分子库的溶液用1.8×体积(180微升)的Ampure XP Beads(Agencourt;根据制造商说明书)纯化。接着将扩增的核酸条形码分子库在40微升H2O中洗脱。
接着将通过上述方法合成的扩增的核酸条形码分子库用于如下所述地组装多聚条形码分子库。
方法2-组装多聚条形码分子库
使用根据方法1的方法合成的核酸条形码分子库来组装多聚条形码分子库。
用正向终止引物和正向夹板引物进行的引物延伸
在PCR管中,将5.0微升的扩增的核酸条形码分子库添加至1.0微升的100微摩尔CS_SPLT_FWD1(SEQ ID NO:10),加上1.0微升的5微摩尔CS_TERM_FWD1(SEQ ID NO:11),加上10微升的10×Thermopol缓冲液(NEB)加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen)加80.0微升H2O,加上1.0微升Vent Exo-Minus聚合酶(New EnglandBiolabs,2U/μL),直至最终体积为100微升。将PCR管置于热循环仪上且扩增如下的1个循环:95℃持续30秒,接着53℃持续30秒,接着72℃持续60秒,接着扩增如下的1个循环:95℃持续30秒,接着50℃持续30秒,接着72℃持续60秒,接着保持在4℃。接着将溶液用PCR纯化柱(Qiagen)纯化,且在85.0微升H2O中洗脱。
用反向终止引物和反向夹板引物进行的引物延伸
在PCR管中,将85.0微升的正向延伸引物延伸产物添加至1.0微升的100微摩尔CS_SPLT_REV1(SEQ ID NO:12),加上1.0微升的5微摩尔CS_TERM_REV1(SEQ ID NO:13),加上10微升的10×Thermopol缓冲液(NEB)加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加上1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),直至最终体积为100微升。将PCR管置于热循环仪上且扩增如下的1个循环:95℃持续30秒,接着53℃持续30秒,接着72℃持续60秒,接着扩增如下的1个循环:95℃持续30秒,接着50℃持续30秒,接着72℃持续60秒,接着保持在4℃。接着将溶液用PCR纯化柱(Qiagen)纯化,且在43.0微升H2O中洗脱。
将引物延伸产物与重叠延伸PCR连接
在PCR管中添加43.0微升反向延伸引物延伸产物,加上5.0微升的10×Thermopol缓冲液(NEB)加1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加上1.0微升的Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),直至最终体积为50微升。将PCR管置于热循环仪上且扩增如下的5个循环:95℃持续30秒,接着60℃持续60秒,接着72℃持续2分钟;接着扩增如下的5个循环:95℃持续30秒,接着60℃持续60秒,接着72℃持续5分钟;接着扩增如下的5个循环:95℃持续30秒,接着60℃持续60秒,接着72℃持续10分钟;接着保持在4℃。接着将溶液用0.8×体积(80微升)的Ampure XP Beads(Agencourt;根据制造商说明书)纯化,且在40微升H2O中洗脱。
重叠延伸产物的扩增
在PCR管中,添加2.0微升的重叠延伸PCR溶液,加上1.0微升的100微摩尔CS_PCR_FWD1(SEQ ID NO:14),加上1.0微升的100微摩尔CS_PCR_REV1(SEQ ID NO:15),加上10微升的10×Thermopol缓冲液(NEB)加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加上1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加上83.0微升H2O,直至最终体积为100微升。将PCR管置于热循环仪上,且扩增如下的15个循环:95℃持续30秒,接着58℃持续30秒,接着72℃持续10分钟;接着保持在4℃。接着将溶液用0.8×体积(80微升)的Ampure XP Beads(Agencourt根据制造商说明书)纯化,且在50微升H2O中洗脱,且以分光光度法定量。
基于凝胶的扩增重叠延伸产物的大小选择
加载约250纳克的扩增重叠延伸产物,且在0.9%琼脂糖凝胶上运行,且接着用溴化乙锭染色和显现。切下与1000个核苷酸大小(加减100个核苷酸)对应的条带,且用凝胶提取柱(Gel Extraction Kit,Qiagen)纯化,且在50微升H2O中洗脱。
重叠延伸产物的扩增
在PCR管中,添加10.0微升的凝胶尺寸选择溶液,加上1.0微升的100微摩尔CS_PCR_FWD1(SEQ ID NO:14),加上1.0微升的100微摩尔CS_PCR_REV1(SEQ ID NO:15),加上10微升的10×Thermopol缓冲液(NEB)加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加上1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)加75.0微升H2O,直至最终体积为100微升。将PCR管置于热循环仪上,且扩增如下的15个循环:95℃持续30秒,接着58℃持续30秒,接着72℃持续4分钟;接着保持在4℃。接着将溶液用0.8×体积(80微升)的Ampure XP Beads(Agencourt;根据制造商说明书)纯化,且在50微升H2O中洗脱,且以分光光度法定量。
定量已知数目的多聚条形码分子的选择和扩增
将扩增的凝胶提取溶液稀释至每微升1皮克的浓度,且接着向PCR管中添加2.0微升的此稀释液(约2百万个单个分子),加上0.1微升的100微摩尔CS_PCR_FWD1(SEQ ID NO:14),加上0.1微升的100微摩尔CS_PCR_REV1(SEQ ID NO:15),加上1.0微升的10×Thermopol缓冲液(NEB)加0.2微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加上0.1微升的Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)加6.5微升H2O,直至最终体积为10微升。将PCR管置于热循环仪上,且扩增如下的11个循环:95℃持续30秒,接着57℃持续30秒,接着72℃持续4分钟;接着保持在4℃。
向PCR管中添加1.0微升的100微摩尔CS_PCR_FWD1(SEQ ID NO:14),加上1.0微升的100微摩尔CS_PCR_REV1(SEQ ID NO:15),加上9.0微升的10×Thermopol缓冲液(NEB)加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加上1.0微升VentExo-Minus聚合酶(New England Biolabs,2U/μL)加76.0微升H2O,直至最终体积为100微升。将PCR管置于热循环仪上,且扩增如下的10个循环:95℃持续30秒,接着57℃持续30秒,接着72℃持续4分钟;接着保持在4℃。接着将溶液用0.8×体积(80微升)的Ampure XPBeads(Agencourt;根据制造商说明书)纯化,且在50微升H2O中洗脱,且以分光光度法定量。
方法3:通过体外转录和cDNA合成来产生单股多聚条形码分子
此方法描述了产生单股DNA股的一系列步骤,寡核苷酸可粘接至所述单股DNA股,且接着沿其编条形码。此方法从并行进行的四个相同反应开始,其中使用重叠延伸PCR扩增反应将T7RNA聚合酶的启动子位点附接至多聚条形码分子库的5′端。并行进行四个相同反应,且接着合并以增加可用的此产物的定量数量和浓度。在四个相同的PCR管中的每一个中,将约500皮克的大小选择和PCR扩增的多聚条形码分子(如方法2的‘定量已知数目的多聚条形码分子的选择和扩增’步骤中产生的)与以下各者混合:2.0微升的100微摩尔CS_PCR_FWD1_T7(SEQ ID NO.270)和2.0微升的100微摩尔CS_PCR_REV4(SEQ ID NO.271),加上20.0微升的10×Thermopol PCR缓冲液,加上4.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,和2.0微升的Vent Exo Minus聚合酶(每微升5个单位)加水,直至总体积为200微升。将PCR管置于热循环仪上,且扩增如下的22个循环:95℃持续60秒,接着60℃持续30秒,接着72℃持续3分钟;接着保持在4℃。接着将来自所有四个反应的溶液用凝胶萃取柱(GelExtraction Kit,Qiagen)纯化,且在52微升H2O中洗脱。
将五十(50)微升的洗脱液与10微升的10×NEBuffer 2(NEB),加上0.5微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,和1.0微升Vent Exo Minus聚合酶(每微升5个单位)加水混合,直至总体积为100微升。将反应物在室温下培育15分钟,接着用0.8×体积(80微升)的Ampure XP Beads(Agencourt;根据制造商说明书)纯化,且在40微升H2O中洗脱,且以分光光度法定量。
接着执行转录步骤,其中将含有T7 RNA聚合酶启动子位点的PCR扩增模板的库(如在先前步骤中产生的)用作T7 RNA聚合酶的模板。这包含扩增步骤,以产生与多聚条形码分子库对应的大量基于RNA的核酸(因为每个输入PCR分子都可用作产生大量同源RNA分子的模板)。在后续步骤中,接着将这些RNA分子逆转录,以产生所需的单股多聚条形码分子。将十(10)微升的洗脱液与20微升的5×转录缓冲液(Promega),加上2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加上10微升的0.1毫摩尔DTT,加上4.0微升SuperAseIn(Ambion)和4.0微升Promega T7 RNA聚合酶(每微升20个单位)加水混合,直至总体积为100微升。将反应物在37℃下培育4小时,接着用RNEasy Mini Kit(Qiagen)纯化,且在50微升H2O中洗脱,且添加至6.0微升SuperAseIn(Ambion)中。
接着将在先前的体外转录步骤中产生的RNA溶液逆转录(使用对RNA分子的3′端具有特异性的引物),且接着用RNAse H消化以产生对应于多聚条形码分子的单股DNA分子,寡核苷酸可粘接至所述单股DNA分子,且接着沿其编条形码。。在两个相同的复制管中,将23.5微升的洗脱液与5.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加上3.0微升SuperAseIn(Ambion)和10.0微升的2.0微摩尔CS_PCR_REV1(SEQ ID NO.272)加水混合,直至最终体积为73.5微升。将反应物在热循环仪上在65℃下培育5分钟,接着在50℃下培育60秒;接着保持在4℃。向管中添加20微升5×逆转录缓冲液(Invitrogen),加上5.0微升的0.1毫摩尔DTT和1.75微升的Superscript III逆转录酶(Invitrogen)。将反应物在在55℃下培育45分钟,接着在60℃下培育5分钟;接着在70℃下培育15分钟,接着保持在4℃,接着用PCRCleanup柱(Qiagen)纯化,且在40微升H2O中洗脱。
将六十(60)微升洗脱液与7.0微升10×RNAse H缓冲液(Promega),加上4.0微升RNAse H(Promega混合。将反应物在37℃下培育12小时,接着在95℃下培育10分钟,接着保持在4℃,接着用0.7×体积(49微升)的Ampure XP Beads(Agencourt;根据制造商说明书)纯化,且在30微升H2O中洗脱,且以分光光度法定量。
方法4:产生含有条形码的寡核苷酸的多聚条形码试剂
此方法描述了由单股多聚条形码分子(如方法3中产生的)以及适当的延伸引物和衔接子寡核苷酸产生多聚条形码试剂的步骤。
在PCR管中,将约45纳克的单股RNAse H消化的多聚条形码分子(如在方法3的最后一步中产生的)与0.25微升的10微摩尔DS_ST_05(SEQ ID NO.273,衔接子寡核苷酸)和0.25微升的10微摩尔US_PCR_Prm_Only_03(SEQ ID NO.274,延伸引物),加上5.0微升的5×等温延伸/连接缓冲液,加上水混合,直至最终体积为19.7微升。为了将衔接子寡核苷酸和延伸引物粘接至多聚条形码分子,在热循环仪中,将管在98℃下培育60秒,接着缓慢退火至55℃,接着在55℃保持60秒,接着缓慢退火至50℃,接着在50℃保持60秒,接着以0.1℃/秒缓慢退火至20℃,接着保持在4℃。向管中添加0.3微升(0.625U)Phusion聚合酶(NEB;2U/μL)、2.5微升(100U)Taq DNA连接酶(NEB;40U/μL);和2.5微升的100毫摩尔DTT。为了使延伸引物延伸跨越每个多聚条形码分子的相邻条形码区域,且接着将此延伸产物连接至与其下游粘接的衔接子寡核苷酸的磷酸化5′端,接着将管在50℃培育3分钟,接着保持在4℃。接着将反应物用PCR Cleanup柱(Qiagen)纯化,且在30微升H2O中洗脱,且以分光光度法定量。
方法5:产生已知序列的合成DNA模板
此方法描述了一种技术,其通过将含有所述分子序列标识符的寡核苷酸环化,且接着串联扩增(使用进行性、股置换聚合酶)来产生具有大量串联重复的、共线性分子序列标识符的合成DNA模板。可接着将此试剂用于评估和测量本文所述的多聚条形码试剂。
在PCR中加入0.4微升的1.0微摩尔Syn_Temp_01(SEQ ID NO.275)和0.4微升的1.0微摩尔ST_Splint_02(SEQ ID NO.276)和10.0微升的10×NEB CutSmart缓冲液。在热循环仪上,将管在95℃下培育60秒,接着在75℃保持5分钟,接着缓慢退火至20℃,接着在20℃保持60秒,接着保持在4℃。为了通过分子内连接反应使分子环化,接着向试管中加入10.0微升核糖-ATP和5.0微升T4 DNA连接酶(NEB;高浓度)。接着将管在室温下培育30分钟,接着在65℃下培育10分钟,接着缓慢退火至20℃,接着在20℃保持60秒,接着保持在4℃。接着向每个管中添加10×NEB CutSmart缓冲液、4.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物和1.5微升稀释的phi29 DNA聚合酶(NEB;在1×CutSmart缓冲液中以1∶20稀释)加水,直至总体积为200微升。将反应物在30℃下培育5分钟,接着保持在4℃,接着用0.7×体积(140微升)的Ampure XP Beads(Agencourt;根据制造商说明书)纯化,且在30微升H2O中洗脱,且以分光光度法定量。
方法6:使用含有带条形码的寡核苷酸的多聚条形码试剂对已知序列的合成DNA模板编条形码
在PCR管中添加10.0微升的5×Phusion HF缓冲液(NEB),加上1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加上2.0微升(10纳克)的5.0纳克/微升已知序列的合成DNA模板(由方法5产生),加上水,直至最终体积为42.5微升。接着将管在98℃下培育60秒,接着保持在20℃。向管中添加5.0微升的5.0皮克/微升含有带条形码的寡核苷酸的多聚条形码试剂(由方法4产生)。接着将反应物在70℃下培育60秒,接着缓慢退火至60℃,接着在60℃持续五分钟,接着缓慢退火至55℃,接着在55℃持续五分钟,接着缓慢退火至50℃,接着在50℃持续五分钟,接着保持在4℃。向反应物中添加0.5微升Phusion聚合酶(NEB),加上2.0微升的10μM SynTemp_PE2_B1_Short1(SEQ ID NO.277,其为与部分的延伸产物互补的引物,所述延伸产物通过沿方法5产生的合成DNA模板粘接和延伸方法4产生的多聚条形码试剂而产生,用作在此方法中描述的引物延伸和随后的PCR反应的引物)。在此反应中,将5.0微升的体积添加至新PCR管中,接着将其在在55℃下培育30秒,在60℃下培育30秒,且在72℃下培育30秒,接着为如下的10个循环:98℃,接着为65℃,接着为72℃,各持续30秒,接着保持在4℃。接着向每个管中添加9.0微升5×Phusion缓冲液,加上1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加上1.75微升的10μM SynTemp_PE2_B1_Short1(SEQ IDNO.277),加上1.75微升的10μM US_PCR_Prm_Only_02(SEQ ID NO.278,其为与用于根据方法4产生多聚条形码试剂的延伸引物部分互补的引物,且在此PCR扩增反应中充当‘正向’引物),加上0.5微升Phusion聚合酶(NEB),加上水,直至最终体积为50微升。将PCR管置于热循环仪上,且扩增24个循环:98℃持续30秒,接着72℃持续30秒;接着保持在4℃,接着用1.2×体积(60微升)的Ampure XP Beads(Agencourt;根据制造商说明书)进行纯化,且在30微升H2O中洗脱,且以分光光度法定量。
接着对所得库编条形码,以通过基于PCR的方法进行样品鉴别,扩增且通过标准方法使用150个循环的中等输出NextSeq流通池(Illumina)进行测序,且进行信息多路分解,以进行进一步分析。
方法7:用多聚条形码试剂和单独的衔接子寡核苷酸对已知序列的合成DNA模板编条形码
为了使衔接子寡核苷酸沿着合成DNA模板粘接和延伸,在PCR管中添加了10.0微升的5×Phusion HF缓冲(NEB),加上1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加上5.0微升(25毫微克)的5.0纳克/微升已知序列的合成DNA模板(由方法5产生),加上0.25微升的10微摩尔DS_ST_05(SEQ ID NO.273,衔接子寡核苷酸),加上水,直至最终体积为49.7微升。在热循环仪上,将管在98℃下培育2分钟,接着在63℃下培育1分钟,接着缓慢退火至60℃,接着在60°2}C下保持1分钟,接着缓慢退火至57℃,接着在57℃下保持1分钟,接着缓慢退火至54℃,接着在54℃下保持1分钟,接着缓慢退火至50℃,接着在50℃下保持1分钟,接着缓慢退火至45℃,接着在45℃下保持1分钟,接着缓慢退火至40℃,接着在40℃下保持1分钟,接着保持在4℃。向管中添加0.3微升的Phusion聚合酶(NEB),且将反应物在45℃下培育20秒,接着在50℃下培育20秒,接着在55℃下培育20秒,在60℃下培育20秒,接着在72℃下培育20秒,接着保持在4℃;接着将反应物用0.8×体积(40微升)的Ampure XP珠粒(Agencourt;根据制造商说明书)纯化,且在30微升H2O中洗脱,且以分光光度法定量。
为了使衔接子寡核苷酸粘接(如同上一步,沿合成DNA模板粘接和延伸)至多聚条形码分子,且接着跨越每个多聚条形码分子的相邻条形码区域粘接且接着延伸,且接着将此延伸产物连接至与其下游粘接的衔接子寡核苷酸的磷酸化5′端,且向PCR管中添加10微升来自上一步的洗脱液(含有合成DNA模板,衔接子寡核苷酸沿其粘接和延伸),加上3.0微升的50.0纳摩尔RNA酶H消化的多聚条形码分子的溶液(在方法3的最后一步中产生),加上6.0微升的5×等温延伸/连接缓冲液,加上水,直至26.6微升的最终体积。在热循环仪上,将管在70℃下培育60秒,接着缓慢退火至60℃,接着在60℃保持5分钟,接着缓慢退火至55℃,接着在55℃保持5分钟,接着以0.1℃/s缓慢退火至50℃,接着在50℃保持30分钟,接着保持在4℃。向管中添加0.6微升的10μM US_PCR_Prm_Only_02(SEQ ID NO:278延伸引物),且将反应物在50℃下培育10分钟,接着保持在4℃。向管中添加0.3微升(0.625U)Phusion聚合酶(NEB;2U/μL),2.5微升(100U)Taq DNA连接酶(NEB;40U/μL);和2.5微升的100毫摩尔DTT。接着将管在50℃下培育5分钟,接着保持在4℃。接着将反应物用0.7×体积(21微升)的AmpureXP Beads(Agencourt;根据制造商说明书)纯化,且在30微升H2O中洗脱,且以分光光度法定量。
向新PCR管中添加25.0微升洗脱液,加上10.0微升的5×Phusion HF缓冲液(NEB),加上1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加上2.0微升10μM SynTemp_PE2_B1_Short1(SEQ ID NO:277;与由以上步骤产生的延伸产物的一部分互补的引物;用作本文所述的引物延伸和随后的PCR反应的引物),加上0.5μL Phusion聚合酶(NEB),加上水,直至最终体积为49.7微升。在此反应中,将5.0微升的体积添加至新PCR管中,接着将其在在55℃下培育30秒,在60℃下培育30秒,且在72℃下培育30秒,接着为如下的10个循环:98℃,接着是65℃,接着是72℃,各持续30秒,接着保持在4℃。接着向每个管中添加9.0微升的5×Phusion缓冲液,加上1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加上1.75微升的10μM SynTemp_PE2_B1_Short1(SEQ ID NO:277),外加1.75微升的10μM US_PCR_Prm_Only_02(SEQ ID NO:278),加上0.5微升的Phusion聚合酶(NEB),加上水,直至最终体积为50微升。将PCR管置于热循环仪上,且扩增24个循环:98℃持续30秒,接着72℃持续30秒;接着保持在4℃,接着用1.2×体积(60微升)的Ampure XP Beads(Agencourt;根据制造商说明书)进行纯化,且在30微升H2O中洗脱,且以分光光度法定量。
接着对所得库编条形码,以通过基于PCR的方法进行样品鉴别,扩增且通过标准方法使用150个循环的中等输出NextSeq流通池(Illumina)进行测序,且进行信息多路分解,以进行进一步分析。
方法9:用含有带条形码的寡核苷酸的多聚条形码试剂对基因组DNA位点编条形码
此方法描述了使用含有带条形码的寡核苷酸的多聚条形码试剂对特定基因组位点内的靶标编条形码(例如对特定基因内的多个外显子编条形码)的框架。首先,通过体外转录和eDNA合成来产生多聚条形码分子的溶液(如方法3中所述)。然后,如方法4中所述地产生含有带条形码的寡核苷酸的多聚条形码试剂的溶液,且进行修饰,使得代替使用靶向合成DNA模板的衔接子寡核苷酸(即,DS_ST_05,SEQ ID NO:273,如方法4中所用),在所述步骤中包括靶向特定基因组位点的衔接子寡核苷酸。具体来说,针对三种不同的人类基因分别生产了含有适当的带条形码的寡核苷酸的多聚条形码试剂的溶液:BRCA1(含有7个衔接子寡核苷酸,SEQ ID NO 279-285)、HLA-A(含有3个衔接子寡核苷酸,SEQ ID NO 286-288)和DQB1(含有2个衔接子寡核苷酸,SEQ ID NO 289-290)。如上所述,针对这三种溶液中的每一种进行方法4的过程。接着将这三种溶液等体积合并在一起,且稀释至最终总浓度,所有带条形码的寡核苷酸约为50纳摩尔。
在PCR管中加上2.0微升的5×Phusion HF缓冲液(NEB),加上1.0微升的100纳克/微升人类基因组DNA(来自Coriell Institute的NA12878),直至最终体积为9.0微升。在此方案的某些变化型式中,在高温98℃培育之前,还在此步骤中添加了多聚条形码试剂(含有带条形码的寡核苷酸)。将反应物在98℃下培育120秒,接着保持在4℃。向管中添加1.0微升的上述50纳摩尔多聚条形码试剂溶液,且接着将反应物在55℃下培育10分钟,接着在50℃下培育1小时,接着在45℃下培育1小时,接着保持在4℃。(应注意,对于某些样品,此最后的粘接过程延长至进行过夜,每个温度步骤总计约4小时)。
为了向每个扩增子序列添加一个反向通用引发序列(且因此使得仅使用一个正向和一个反向扩增引物即可立即对整个库进行后续扩增),将反应物以1∶100稀释,且在新PCR管中将1.0微升所得溶液添加至20.0微升的5×Phusion HF缓冲液(NEB),加上2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加上1.0微升反向引物混合物(等摩尔浓度的SEQID No 291-303,每个引物浓度为5微摩尔),加上1.0μL Phusion聚合酶(NEB),加上水,直至最终体积为100微升。将反应物在2}53℃下培育30秒,在72℃下培育45秒,在98℃下培育90秒,接着在68℃下培育30秒,接着在64℃下培育30秒,接着在72℃下培育30秒;接着保持在4℃。接着将反应物用0.8×体积(80微升)的Ampure XP Beads(Agencourt;根据制造商说明书)纯化,且在30微升H2O中洗脱,且以分光光度法定量。
接着对所得库编条形码,以通过基于PCR的方法进行样品鉴别,扩增且通过标准方法使用150个循环的中等输出NextSeq流通池(Illumina)进行测序,且进行信息多路分解,以进行进一步分析。
方法10-对多聚条形码分子库进行测序
制备用于高通量测序评估的扩增选择分子
向PCR管中添加1.0微升的扩增选择分子溶液,加上1.0微升的100微摩尔CS_SQ_AMP_REV1(SEQ ID NO:16),加上1.0微升的100微摩尔US_PCR_Prm_Only_02(SEQ ID NO:17),加上10微升的10×Thermopol缓冲液(NEB)加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加上1.0微升的Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)加84.0微升H2O,直至终体积为100微升。将PCR管置于热循环仪上,且扩增如下的3个循环:95℃持续30秒,接着56℃持续30秒,接着72℃持续3分钟;接着保持在4℃。接着将溶液用0.8×体积(80微升)的Ampure XP Beads(Agencourt;根据制造商说明书)纯化,且在85微升H2O中洗脱。
接着将此溶液添加至新PCR试管中,加上1.0微升的100微摩尔Illumina_PE1,加上1.0微升的100微摩尔Illumina_PE2,加上10微升的10×Thermopol缓冲液(NEB)加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加上1.0微升的Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),直至最终体积为100微升。将PCR管置于热循环仪上且扩增如下的4个循环:95℃持续30秒,接着64℃持续30秒,接着72℃持续3分钟;接着扩增如下的18个循环:95℃持续30秒,接着67℃持续30秒,接着72℃持续3分钟;接着保持在4℃。接着将溶液用0.8×体积(80微升)的Ampure XP Beads(Agencourt;根据制造商说明书)纯化,且在40微升H2O中洗脱。
然后使用具有成对末端、250个循环的V2测序化学的MiSeq测序仪对此样品执行高通量Illumina测序。
方法11-评估沿单个合成模板DNA分子粘接和延伸的条形码的多聚性质
使用如方法3和方法4中一般所述的方案产生的多聚条形码试剂溶液,且使用如方法5中所述的合成DNA模板溶液,且使用如方法6中所述的实验室方案,创建了带条形码的合成DNA模板库;接着对所得库编条形码,以通过基于PCR的方法进行样品鉴别,扩增且通过标准方法使用150个循环的中等输出NextSeq流通池(Illumina)进行测序,且进行信息多路分解,以进行进一步分析。然后将此方法的DNA测序结果与方法10产生的数据进行信息比较,以评估合成DNA模板的多聚条形码与个别多聚条形码试剂上所述条形码的排列之间的重叠程度(结果展示于图17中)。
结果
每个序列多聚条形码试剂分子的结构和预期序列含量
制备了如方法1-3中所述合成的多聚条形码分子库以用于高通量测序,其中测序的每个分子包括特定多聚条形码分子的连续跨度(包括一个或多个条形码序列以及一个或多个相关上游衔接子序列和/或下游衔接子序列),在测序的分子内全部共线。接着在如所描述的MiSeq测序仪(Illumina)上用成对末端的250个核苷酸读段对此库进行测序。这产生了从所述库测序的大约1350万个总分子,每一端测序了一次,总共大约2700万个序列读段。
预期每个正向读取均以六个核苷酸序列开头,对应于上游衔接子的3′端:TGACCT
此正向读段之后是分子内的第一条形码序列(预期为20nt长)。
此条形码之后接着是‘条形码内序列’(在这种情况下,以‘正向’方向进行测序(所述序列为82个核苷酸,包括串联的下游衔接子序列和上游衔接子序列):
在250个核苷酸的正向读段内,这之后将接着是第二条形码、另一条形码内序列,且接着是第三条形码,且接着是另一条形码内序列的一部分。
预期每个反向读段从对应于下游衔接子序列的序列开始:GCTCAACTGACGAGCAGTCAGAGGTAT
此反向读段之后接着是从分子的相反端进入的第一条形码(长度也是20个核苷酸,但从分子的相反股开始测序,且因此方向与通过正向读段所测序的那些相反)
此条形码之后接着是‘条形码内序列’,但方向相反(因为其在相反股上):
同样,此250个核苷酸的反向读段之后将接着是第二条形码、另一条形码内序列,且接着是第三条形码,且接着是另一条形码内序列的一部分。
序列提取与分析
使用Python编写脚本,将每个相关的条形码对以及侧接的上游衔接子和下游衔接子序列分离,接着将每个条形码分子的每个单独的条形码序列分离,且将在同一分子内测序的每个条形码序列都注释为属于多聚条形码分子库中的相同多聚条形码分子。通过检查跨不同测序分子的条形码-条形码对的重叠,使用简单的分析脚本(Networkx;Python)来确定总体的多聚条形码分子条形码组。对此数据进行了若干量度,包括条形码长度、序列内容以及跨多聚条形码分子库的多聚条形码分子的大小和复杂性。
每个条形码序列中核苷酸的数目
分离包含在每个Illumina测序分子中的每个条形码分子的每个单独的条形码序列,且通过计数上游衔接分子序列与下游衔接分子序列之间的核苷酸数目来确定每个此类条形码的总长度。结果展示于图10中。
绝大多数条形码为20个核苷酸长,这对应于从我们的双股子条形码库五次添加我们的四个核苷酸长的子条形码分子。因此,这是预期和期望的结果,且指示以下每个‘循环’:将子条形码库连接至MlyI裂解液、对连接库进行PCR扩增、尿嘧啶糖基化酶消化和MlyI限制酶裂解是成功的且能够在每个循环中高效添加新的四核苷酸子条形码分子,且接着能够成功地扩增且携带这些分子通过所述方案以继续进行进一步的处理,包括通过总共五个子条形码添加循环,以制备最终的上游衔接子连接库。
我们还使用这种序列分析方法对所有已测序的多聚条形码分子中总计的独特条形码总数进行了定量:这总计为总共19,953,626个独特条形码,与我们预期的2000万个条形码(考虑到我们合成了200万个多聚条形码分子,每个分子具有大约10个单独的条形码分子)基本相同。
总之,此数据和分析因此展示,从子条形码序列产生复杂的组合条形码的方法对于合成多聚条形码分子的目的是有效和有用的。
每个多聚条形码分子中的独特条形码分子的总数
图11展示了每个测序的多聚条形码分子中的独特条形码分子总数的定量结果(由其各自的条形码序列确定)。如上所述,为此,在第一种情况下,我们检查了在测序仪上测序的相同个别分子中存在和检测到的条形码序列。接着,我们进一步采用了对条形码序列进行聚类的额外步骤,其中,我们采用了一个简单的网络分析脚本(Networkx),其可基于连接的显性知识来确定个别条形码序列之间的连接(其中,条形码发现于相同、连续的已测序分子中),且还可确定‘隐式’连接,其中两个或更多个未在相同已测序分子中进行测序的条形码替代地共享一个与共同的第三条形码序列的直接连接(此共享的共同连接因此规定:实际上,前两个条形码序列位于相同多聚条形码分子上)。
此图展示在我们的反应中测序的大部分多聚条形码分子中都包含两个或更多个独特的条形码,因此展示,通过我们的重叠延伸PCR连接过程,我们能够将多个条形码分子连接在一起成为多聚条形码分子。虽然我们希望看到更多的多聚条形码分子展示出更接近条形码分子的预期数目(10),但我们希望这种观察到的效果是由于测序深度不够高,且在测序分子数目更大的情况下,我们将能够观察到个别条形码分子之间更大比例的真实连接。然而,此数据表明我们在此描述的基本合成程序对于预期目的是有效的。
代表性多聚条形码分子
图12展示了由我们的分析脚本检测到的代表性多聚条形码分子。在此图中,每个‘节点’是单个条形码分子(来自其关联的条形码序列),每行是在相同已测序分子中至少已测序一次的两个条形码分子之间的‘直接连接’,且每个节点簇是个别的多聚条形码分子,既含有具有直接连接的条形码,又含有隐式、间接连接内的条形码,如由我们的分析脚本所确定。插图包括一个单一的多聚条形码分子,以及其中所含的其组成条形码分子的序列。
此图说明了我们的多聚条形码分子合成程序:我们能够从子条形码分子库构建条形码分子,我们能够通过重叠延伸PCR反应连接多个条形码分子,我们能够分离出定量已知数目的个别多聚条形码分子,以及我们能够对其进行扩增且对其进行下游分析和使用。
使用(i)含有带条形码的寡核苷酸的多聚条形码试剂和(ii)多聚条形码试剂和单独的衔接子寡核苷酸对已知序列的合成DNA模板编条形码
序列提取与分析
在Python中编写脚本且在Amazon Web Services(AWS)框架中实施,对于样品多路分解之后每个序列读段,将来自给定多聚条形码试剂的每个条形码区域与其侧接的上游衔接子和下游衔接子序列分离。同样,来自给定合成DNA模板分子的每个分子序列标识符区域均与其侧接的上游和下游序列分离。对样品库中的每个分子重复此过程;执行单个过滤步骤,其中从数据检查了仅存在于单个读段中(因此可能表示测序误差或酶促样品制备过程中的误差)的个别条形码和分子序列标识符。对于每个分子序列标识符,对在单个序列读段中发现与其相关联的独特(即,具有不同序列)条形码区域的总数进行定量。接着创建直方图,以可视化此数目在库中所有分子序列标识符上的分布。
论述
图13展示了针对方法6(使用含有带条形码的寡核苷酸的多聚条形码试剂对已知序列的合成DNA模板编条形码)的此分析的结果。此图清楚地表明,大部分多聚条形码试剂能够成功标记与其相关的每个分子序列标识符的两个或更多个串联重复的拷贝。观察到1至大约5或6个‘标记事件’的分布,表明此系统可能发生一定程度的随机相互作用,可能是由不完全的酶促反应,或条形码试剂/合成模板界面处的位阻,或其它因素所致。
图14展示了使用方法7(使用多聚条形码分子和单独的衔接子寡核苷酸对已知序列的寡核苷酸合成DNA模板编条形码)进行的此相同分析的结果。此图还清楚地表明,大部分多聚条形码试剂能够成功标记与其相关的每个分子序列标识符的两个或更多个串联重复的拷贝,其中分布与先前分析所观察到的相似。
这两个图在一起展示,这种用于多聚分子条形码的框架是一个有效的框架,且此外,所述框架可以不同的方法学方式进行配置。图13展示了基于方法的结果,其中将框架配置成使得多聚条形码试剂在与靶标(合成)DNA模板接触之前已含有带条形码的寡核苷酸。相比之下,图14展示了基于替代方法的结果,其中衔接子寡核苷酸首先与合成DNA模板接触,且接着在后续步骤中,通过与多聚条形码试剂接触而对衔接子寡核苷酸编条形码。这些图在一起展现了这些试剂的多聚条形码能力,以及其在不同关键实验室方案中的多功能性。
为了分析个别多聚条形码试剂是否以及在多大程度上成功标记了相同合成DNA模板的两个或更多个子序列,将库中的每种个别多聚条形码试剂上的不同条形码的组(从前述段落中所述且如图12所示的Networkx分析进行预测)与沿着单个合成DNA模板粘接且延伸的条形码进行了比较(如方法11中所述)。在个别多聚条形码试剂上发现的每组条形码都被给予一个数字‘试剂标识符标签’。对于在方法11的测序数据中由两个或更多个条形码表示的每个合成DNA模板分子序列标识符(即,对于每个个别合成DNA模板分子)(即,其中合成模板分子的两个或更多个子序列通过带条形码的寡核苷酸进行粘接和延伸),确定了对应的‘试剂标识符标签’。对于每个这样的合成模板分子,接着计算来自相同的单一多聚条形码试剂的多聚条形码的总数(即,计算合成模板分子中被不同带条形码的寡核苷酸标记,但来自相同的单一多聚条形码试剂的不同子序列的数目)。接着重复此分析,且与‘阴性对照’条件进行比较,其中分配至每个‘试剂标识符标签’的条形码是随机的(即,数据中仍存在相同的条形码序列,但其不再对应于不同条形码序列跨越多条形码条形码试剂库的实际分子连接)。
针对实际实验数据和带有随机条形码分配的对照数据,在图17中示出来自此分析的数据(注意纵轴的对数刻度)。如图所示,尽管每个靶合成DNA模板分子的独特条形码事件的数目较小,但其与个别多聚条形码试剂的已知条形码含量几乎完全重叠。也就是说,当与随机条形码数据(其基本上不包含看起来像是‘多价编条形码’的模板分子)相比时,实际实验中绝大多数(超过99.9%)似乎被来自相同的个别多聚条形码试剂的多个带条形码的寡核苷酸标记的模板分子实际上被溶液中相同的单一试剂多重标记。相比之下,如果标记个别合成DNA模板的不同条形码之间不存在非随机关联(也就是说,如果图17在实际实验数据与随机数据之间未展示差异),则这将表明编条形码未如多聚条形码试剂所指示地以空间上受限的方式发生。但是,如上文所解释,数据令人信服地表明确实发生了所需的编条形码反应,其中在单个合成DNA模板上发现的子序列仅与单一、个别的多聚条形码试剂相互作用(且接着被其编条形码)。
用含有带条形码的寡核苷酸的多聚条形码试剂对基因组DNA位点编条形码
序列提取与分析
与其它分析一样,在Python中编写脚本,且在Amazon Web Services(AWS)框架中实施。对于在样品多路分解之后的每个序列读段,将来自给定多聚条形码试剂的每个条形码区域与其侧接的上游衔接子和下游衔接子序列分离,且独立地记录以进行进一步分析。同样,分离在下游区域的3′端的每个序列(代表含有带条形码的寡核苷酸的序列,以及在实验方案期间寡核苷酸沿着引发的任何序列),以进行进一步分析。关于预期的衔接子寡核苷酸序列(即,来自对应于寡核苷酸所针对的三个基因之一的引物)和相关的其它下游序列的存在对每个读段的每个下游序列进行分析。接着将每个读段记录为‘中靶(on-target)’(其中序列与预期的靶序列之一对应)或‘脱靶(off-target)’。此外,对于每个靶区域,计算了独特多聚条形码(即,将相同但重复的条形码合并为单拷贝表示法)的总数。在图16中示出了每个预期的序列读段和其组成部分的示意图。
论述
图15展示了针对四个不同独立样品的此方法的此分析的结果。这四个样品代表一种方法,其中进行粘接多聚条形码试剂的过程持续3小时或过夜(约12小时)。此外,对于这两个条件中的每一个,所述方法使用原始合成时保持完整的多聚条形码试剂来执行,或使用修改的方案来执行,其中带条形码的寡核苷酸首先从条形码分子本身变性(通过高温熔融步骤)。每行代表所指示的不同扩增子靶标,且每个单元格代表在四个样品中的每一个中发现与每个扩增子相关的独特条形码的总数。还列出了对于每个样品,在加在一起的所有靶标中的中靶读段的总比例。
如在图中可见,所有样品中的大部分读段为中靶的;然而,可见对于每个扩增子靶标观察到的独特条形码分子的数目的范围很大。不同扩增子中的这些趋势在不同实验条件下似乎是一致的,且可能是由不同寡核苷酸的不同引发(或错误引发)效率、不同的扩增效率或不同的映射效率,以及独立或组合起作用的潜在的其它因素所致。此外,很明显,对于粘接时间更长的样品观察到大量条形码,可能是由于多聚试剂与其同源基因组靶标的更完全的整体粘接。而且,首先从条形码分子变性的带条形码的寡核苷酸的样品展示较少的独特条形码总数,可能是由于亲合效应,其中完全组装的条形码分子可以更有效地将引物簇粘接至相同基因座处的邻近基因组靶标。无论如何,总而言之,此图说明了多聚试剂跨越大量分子同时标记基因组DNA分子的能力,且无论带条形码的寡核苷酸是否仍结合在多聚条形码试剂上或无论其是否已变性都可以做到这一点,且因此潜在地能够更容易地在溶液中扩散。
实例2
用于连接来自微米粒子的序列的材料和方法
所有实验步骤均在污染受控的实验室环境中进行,包括使用标准的物理实验室分离(例如PCR前和PCR后实验室)。
分离微米粒子标本的方案
从受试者获取标准血液样品(例如,总共5-15mL),且使用含EDTA的试管,通过血液分级分离方法进行处理,以使用800×G离心持续10分钟分离血浆部分。接着小心地分离细胞血浆部分,且以800×G离心10分钟,以使剩余的完整细胞沉淀。接着小心地分离上清液以进行进一步处理。接着将上清液以3000×G离心30分钟以沉淀出微米粒子部分(持续30分钟的20,000×G高速离心模式用于沉淀出更高浓度的微米粒子标本);接着小心地去除所得上清液,且将沉淀再悬浮于适当的缓冲液中,以用于后续处理步骤。从再悬浮的沉淀中取出等分试样,且用于定量再悬浮的沉淀中DNA的浓度(例如,使用标准的荧光核酸染色方法,例如PicoGreen,ThermoFisher Scientific)。调节标本的体积以达到适用于后续处理步骤的浓度。
分区和PCR扩增的方案
在如上的分离微米粒子标本的过程后,将沉淀再悬浮于PCR缓冲液中,所述缓冲液包含1×PCR缓冲液、PCR聚合酶、dNTP和一组引物对的完整溶液;使用适合于直接PCR的聚合酶和PCR缓冲液。执行此再悬浮步骤,使得每5微升再悬浮溶液含有约0.1皮克来自微米粒子标本本身的DNA。使用多重PCR设计算法(例如PrimerPlex;PREMIER Biosoft)设计一组5-10个覆盖一个或多个基因靶标的引物对(较大数目用于较大扩增子组),以最小化交叉引发且实现跨越所有引物大致相等的粘接温度;每个扩增子长度锁定在70至120个核苷酸之间;每个正向引物在其5′端具有恒定的正向衔接子序列,且每个反向引物在其5′端具有恒定的反向衔接子序列,且引物以等摩尔浓度包括于聚合酶反应中。接着将再悬浮的样品分散在一组PCR管中(或384孔板形式的个别孔中),每个管/孔中包括5.0微升反应溶液;如微米粒子标本中的DNA总量所允许,最多可执行384个或更多的个别反应;执行10-15个PCR循环,以便随后用带条形码的寡核苷酸编条形码;执行22-28个PCR循环,以便随后用多聚条形码试剂编条形码。
用带条形码的寡核苷酸编条形码的方案
按照上述PCR扩增方案,将带条形码的寡核苷酸添加至每个孔中,其中使用了在3′端包含正向衔接子序列、在5′端包含正向(读段1)Illumina测序引物序列且在两者之间包含6个核苷酸的条形码序列的每个正向带条形码的寡核苷酸;在5′端含有反向(读段2)Illumina扩增序列且在3′端含有反向衔接子序列的反向引物。每个孔使用不同的单个带条形码的寡核苷酸(即,含有不同的条形码序列)。将PCR反应体积调节至50微升以稀释靶标特异性引物,且执行8-12个PCR循环以将条形码序列附接至每个管/孔内的序列。使用SPRI清除/大小选择步骤(Agencourt Ampure XP,Beckman-Coulter Genomics)纯化来自每个孔的扩增产物,且将来自所有孔的所得纯化产物合并为单一溶液。使用全长Illumina扩增引物(PE PCR Primer 1.0/2.0)的最终PCR反应被执行7-12个循环,以将合并的产物扩增至适当的浓度,以上样到Illumina流通池上,且对所得反应物进行SPRI纯化/大小选择且定量。
用多聚条形码试剂编条形码的方案
为了向条形码序列附接多聚条形码试剂,在如上的PCR扩增过程之后,通过SPRI纯化步骤纯化来自个别孔的PCR扩增产物,且接着将其在不合并或交叉污染来自不同孔的样品的情况下再悬浮于个别孔中的1×PCR反应缓冲液(含dNTP)中。接着从至少一千万种不同的多聚条形码试剂的库中,将含有约5种多聚条形码试剂的等分试样添加至每个孔,其中每种多聚条形码试剂是由10-30个个别条形码分子组成的连续多聚条形码分子,其中每个条形码分子包含具有与其它条形码分子不同的序列的条形码区域,且其中带条形码的寡核苷酸与每个条形码分子粘接。每个带条形码的寡核苷酸在其5′端包含一个正向(读段1)Illumina测序引物序列,且在其3′端包含一个正向衔接子序列(也包含在正向PCR引物中),其条形码序列位于中间部分内。反应混合物中还包括反向引物,所述反向引物在其5′端包含反向(读段2)Illumina扩增序列,且在其3′端包含反向衔接子序列。热启动聚合酶用于此条形码附接反应。聚合酶首先在其活化温度下活化,且接着执行5-10个PCR循环,其中在正向/反向衔接子粘接温度下执行粘接步骤,以使带条形码的寡核苷酸沿着PCR扩增产物延伸,且将反向Illumina扩增序列延伸至这些引物延伸产物。使用SPRI清除/大小选择纯化来自每个孔的所得产物,且将来自所有孔的所得纯化产物合并为单一溶液。使用全长Illumina扩增引物(PE PCR Primer 1.0/2.0)的最终PCR反应被执行7-12个循环,以将合并的产物扩增至适当的浓度,以上样到Illumina流通池上,且对所得反应物进行SPRI纯化/大小选择且定量。
测序和信息分析的方案
在编条形码和扩增方案之后,对扩增的样品进行定量且在Illumina测序仪(例如HiSeq 2500)上进行测序。在上样之前,将样品与可用于测序仪的phiX基因组DNA库合并,以使phiX分子占合并库的最终摩尔分数的50-70%。接着将合并的样品各自以推荐的浓度上样到流通池的一个或多个通道上,以进行簇聚。使用成对末端2×100测序循环,将样品测序到一个读段深度,其中每个个别带条形码的序列平均由5-10个读段进行测序。接着对原始序列进行质量修剪和长度修剪,将恒定的衔接子/引物序列修剪掉,且对来自每个保留的序列读段的基因组DNA序列和条形码序列进行信息分离。通过检测附接至相同条形码序列或附接至来自条形码序列的相同集合(即,来自相同多聚条形码试剂)的不同条形码序列的基因组DNA序列来确定连接序列。
使用带条形码的寡核苷酸对基因组DNA的片段编条形码的方案
为了从全血中分离循环微米粒子,将1.0毫升全人类血液(用K2 EDTA管收集)添加到两个1.5毫升Eppendorf DNA Lo-Bind管中的每一个中,且在台式微量离心机中以500×G离心5分钟;接着将所得的顶部(上清液)层(每管约400微升)添加至新的1.5毫升EppendorfDNA Lo-Bind管中,且再次在台式微量离心机中以500×G离心5分钟;接着将所得的顶部(上清液)层(每管约300微升)添加至新的1.5毫升Eppendorf DNA Lo-Bind管中,且在台式微量离心机中以3000×G离心15分钟;完全且小心地吸出所得的上清液层,且将每个管中的沉淀再悬浮于10微升磷酸盐缓冲盐水(PBS)中,且接着将两个10微升的再悬浮样品合并为单个20微升的样品(产生用于本发明方法的‘变体A’的样品)。
在方法的相关变体(′变体C′)中,将此原始20微升样品的等分试样转移至新的1.5毫升Eppendorf DNA Lo-Bind管中,且以1500×G离心5分钟,接着将所得沉淀再悬浮于PBS中且等分至如下所述的低浓度溶液中。
在附接带条形码的寡核苷酸之前,将前述20微升样品内(和/或来自再悬浮的‘变体C’样品)的循环微米粒子进行分配。为了每个分区分配少量的循环微米粒子,将20微升样品等分至含有较低微米粒子浓度的溶液中;使用了8种不同浓度的溶液,其中第一种是原始的(未稀释的)20微升样品,且随后的7种溶液中的每一种的微米粒子浓度(在PBS中)都比前一种溶液低2.5倍。接着将每种溶液的0.5微升等分试样添加至200微升PCR管(平盖;来自Axygen)中的9.5微升含1.22בNEBNext Ultra II End Prep Reaction Buffer’(NewEngland Biolabs)的H2O中且轻轻混合。为了使微米粒子透化,将管在带有加热盖的热循环仪上于65℃下加热30分钟。向每个管中添加0.5微升‘NEBNext Ultra II End Prep EnzymeMix’且轻轻混合;将溶液在热循环仪上在20℃下培育30分钟,且接着在65℃下培育30分钟。
向每个管中添加5.0微升‘NEBNext Ultra II Ligation Master Mix’,和0.33微升0.5×(在H2O中)‘NEBNext Ligation Enhancer’和0.42微升0.04×(在0.1×NEBuffer 3中)′NEBNext Adapter′,且将溶液轻轻混合;接着将溶液在关闭加热盖的热循环仪上于20℃下培育15分钟(或在此方法的“变体B”中培育2小时)。向每个管中添加0.5微升‘NEBNextUSER Enzyme’,且将溶液轻轻混合;接着将溶液在设定为50℃的带有加热盖的热循环仪上于20℃下培育20分钟,于37℃下培育30分钟,且接着保持在4℃。接着将每个反应物用1.1×体积的Ampure XP SPRI珠粒(Agencourt;根据制造商说明书)纯化,且在21.0微升H2O中洗脱。将‘NEBNext衔接子’序列与来自分配的循环微米粒子的基因组DNA的片段连接的此过程提供了将偶联序列附接至所述片段的过程(其中包含部分双股和部分单股序列的‘NEBNext衔接子’本身包含所述偶联序列,其中附接偶联序列的过程通过连接反应来执行)。在过程的后续步骤中,通过粘接和延伸过程(通过PCR反应执行),将带条形码的寡核苷酸附接至来自分配的循环微米粒子的基因组DNA的片段。
在此方法的‘变体B’中,在以上USER酶步骤之后但在Ampure XP纯化之前,将USER消化的样品添加至50.0微升的‘NEBNext Ultra II Q5 Master Mix’,和2.5微升的‘Universal PCR Primer for Illumina’,和2.5微升的特定‘NEBNext Index Primer’[来自NEBNext Multiplex Oligos Index Primers Set 1或Index Primers Set 2],和28.2微升的H2O,且将溶液轻轻混合,且接着通过热循环仪中5个循环的PCR进行扩增,其中每个循环为:98℃持续20秒,和65℃持续3分钟。接着将每个反应物用0.95×体积的Ampure XPSPRI珠粒(Agencourt;根据制造商说明书)纯化,且在21.0微升H2O中洗脱。
接着将Ampure XP纯化的溶液(在USER消化之后,或对于方法的‘变体B’,在初始PCR扩增过程之后)(各20.0微升)添加至25.0微升的‘NEBNext Ultra II Q5 Master Mix’,和2.5微升的‘Universal PCR Primer for Illumina’,和2.5微升的特定‘NEBNext IndexPrimer’,且将溶液轻轻混合,且接着在热循环仪中以28个循环(或对于变体B为26个循环)的PCR进行扩增,其中每个循环为:98℃持续10秒,和65℃持续75秒;最后一个延伸步骤是在75℃下持续5分钟。接着将每个反应物用0.9×体积的Ampure XP SPRI珠粒(Agencourt;根据制造商说明书)纯化,且在25.0微升H2O中洗脱。PCR的这些步骤将条形码序列附接至来自循环微米粒子的基因组DNA的片段的序列,其中条形码序列包含在带条形码的寡核苷酸内(即,包含在每个PCR反应中采用的特定‘NEBNext Index Primer’内)。在PCR反应的每个引物结合和延伸步骤中,带条形码的寡核苷酸与偶联序列(例如′NEBNext Adapter′内的序列)杂交,且接着用于引发延伸步骤,其中带条形码的寡核苷酸的3′端被延伸以产生包含条形码序列以及来自循环微米粒子的基因组DNA的片段的序列的序列。每个PCR反应使用一个带条形码的寡核苷酸(且因此使用一个条形码序列),其中不同的条形码序列用于每个不同的PCR反应。因此,来自每个分区中的循环微米粒子的基因组DNA的片段的序列附接至单个条形码序列,所述条形码序列连接来自所述分区的序列的集合。每个分区中的序列的集合通过不同的条形码序列连接。
为了产生阴性对照样品,如上文第一段所述地制备独立的20微升循环微米粒子样品,但接着分离了其中的基因组DNA的片段且用Qiagen DNEasy纯化试剂盒(根据Qiagen制造商说明书使用离心柱和离心方案)进行了纯化,且在50微升H2O中洗脱,且接着用如上所述的NEBNext End Prep、Ligation、USER和PCR处理步骤进行处理。此阴性对照样品用于分析测序信号和读数,其中分析了来自极大量循环微米粒子的基因组DNA的片段(即,未执行来自一个或少量循环微米粒子的序列的连接)。
在离心和分配循环微米粒子,且接着附接偶联序列、附接条形码序列以及PCR扩增和纯化的上述步骤之后,接着合并了几个带条形码的库,所述库包含来自循环微米粒子的基因组DNA的片段的序列,且在中等输出Illumina NextSeq 500流通池上用成对末端读段(100×50),加上独立的(正向)索引读段(以确定附接有条形码的寡核苷酸的条形码序列)执行了150个循环的测序。通常,每个流通池合并6至12个带条形码的库(即,每个库包含一个带条形码的连接序列的集合),且进行测序;每个带条形码的库实现了至少几百万个总读段的覆盖度。根据索引读段中的条形码对序列读段进行多路分解,将每个带条形码的分区中的序列用Bowtie2映射到参考人类基因组序列(hg38),且接着将映射(和去重复)的序列导入Seqmonk(1.39.0版)以进行可视化、定量和分析。在典型的代表性分析中,将读段映射到沿着每个人类染色体的500Kb滑动窗口中,且接着对每个此类窗口中的读段总数进行定量和可视化。
这些带条形码的寡核苷酸方法的关键实验结果展示于图25-29中,且在此处进一步地详细描述:
图25示出了如通过附接带条形码的寡核苷酸的方法产生的代表性循环微米粒子内的基因组DNA的片段的序列的连接(来自示例方案的‘变体A’版本)。展示的是在每个染色体上平铺的500千碱基(Kb)滑动窗口内,人类基因组中所有染色体上的序列读段的密度。观察到两个清晰的、独立的读段簇,总跨度分别约为200Kb和500Kb。值得注意的是,两个读取簇均位于同一染色体上,且另外来自同一染色体臂的附近部分(在14号染色体上),因此证实了如下的怀疑:实际上,多个分子内染色体结构可能被包装为单个循环微米粒子,由此衍生的基因组DNA的片段接着在人类脉管系统中循环。
图26也示出了在循环微米粒子内,但如通过附接带条形码的寡核苷酸的变异方法产生的的基因组DNA的片段的序列的连接(来自示例方案的‘变体B’版本),其中连接的持续时间相对于‘变体A’增加。再次展示的是人类基因组中的所有染色体上的序列读段密度,在单个染色体区段中(分别在染色体1和染色体12上)具有明显的读段簇聚。此实验中采用的分区可能包含两个不同的微米粒子,在这种情况下,可能从每个微米粒子产生一个读段簇;或者,单个微米粒子有可能包含来自1号和12号染色体中的每一个的读段簇,因此将证明分子间染色体结构也可以包装成单个循环微米粒子,接着通过血液循环。
图27示出了如通过附接带条形码的寡核苷酸的方法产生的循环微米粒子内的基因组DNA的片段的序列的连接(来自示例方案的‘变体B’版本)。展示的是(来自图26中的染色体12的读段簇的)实际序列读段,其在一个大的,且接着在一个小的染色体区段内放大,以显示这些连接读段的聚焦、高密度性质,且证明了如下的事实:读段簇包含来自单个细胞的个别染色体分子的清晰、连续的序列簇,即使低至展现出紧邻、不重叠、核小体定位的片段的水平也如此。
图28示出了如通过附接带条形码的寡核苷酸的方法产生的循环微米粒子内的基因组DNA的片段序列的连接(来自示例方案的‘变体C’版本)。与变体A和变体B相比,此变体C实验采用了低速离心过程,以相比于其它两个变体相比分离出不同的、更大数量的循环微米粒子。展示的是人类基因组中的所有染色体上的序列读段密度,从这个实验再次在单个染色体片段中观测到清晰的读段簇聚。但是,此类区段的染色体跨度显然比其它变体方法大(因为与变体A或B相比,变体C中有较大的微米粒子被沉淀)。
图29示出了阴性对照实验,其中在将基因组DNA的片段附接至带条形码的寡核苷酸(如同‘变体A’方案中)之前将其用清除试剂盒(Qiagen DNEasy Spin Column Kit)纯化(即,因此是未连接的)。正如鉴于未连接读段的输入样品所预期的那样,根本没有观察到读段的簇聚(相反,确实存在的读段随机且基本上均匀地分散在基因组的所有染色体区域中),证实了循环微米粒子包含来自个别染色体内的聚焦、连续基因组区域的基因组片段。即使对来自所述对照库的读段进行了进一步的随机采样/二次采样,也没有观察到读段簇。
实例3
从靶生物分子测量连接信号的集合的材料和方法
CD2蛋白测量和选择的方案
为了测量循环微米粒子上的CD2蛋白水平,如上所述地将微米粒子分离且再悬浮于磷酸盐缓冲盐水(PBS)中,且接着与10μL洗涤过的CD2戴诺珠粒(Invitrogen,目录号11159D)一起在4℃下培育20分钟。在珠粒样品培育和结合后,反应混合物与磁体结合,且将含有‘CD2阴性’循环微米粒子的所得上清液(未结合珠粒)相吸出且转移至新管中,且将具有结合的‘CD2阳性’循环微米粒子的珠粒从磁体释放且再悬浮于PBS中。接着将CD2阴性物和CD2阳性物划分且等分至如上所述的低浓度溶液中,且接着对个别等分试样编条形码,且准备用于如上文所述地用NEBNext样品制备试剂盒进行测序;接着还将一部分CD2阴性物进一步处理,以如下所述地进行甲基化和PMCA测量。
测量和富集5-甲基胞嘧啶修饰的DNA的方案
为了测量循环微米粒子中的基因组DNA的片段中的5-甲基胞嘧啶修饰的DNA,如上所述地分离CD2阴性微米粒子,且接着如上所述地进行划分和等分,且接着如上所述地通过在65℃下培育30分钟而将来自等分和划分的微米粒子的基因组DNA的片段从所述微米粒子释放,且接着如上所述地对基因组DNA的片段的末端进行末端修复,A尾修饰,连接至衔接子,且接着用NEB样品制备试剂盒的USER酶消化,且接着将样品在1×CutSmart缓冲液(NewEngland Biolabs)中按体积稀释5倍,且接着在37℃下用1.0μL HpaII酶(New EnglandBiolabs)消化30分钟,所述酶可消化CCGG位点处的未甲基化的DNA,但被甲基化的CCGG位点抑制了消化,因此与未甲基化的CCGG序列相比富集了包含甲基化的CCGG序列的DNA片段。接着使用‘NEBNext Ultra II Q5 Master Mix’和‘NEBNext Index Primers’通过分区条形码对所得的样品进行PCR扩增,且接着如先前所描述地用Ampure XP珠粒进行清理。在V2 2×25碱基对MiSeq流通池(Illumina)上对所得带条形码和扩增的样品进行定量、合并和测序,以使得每个个别带条形码的样品产生约100万个总序列读段;使用Bowtie2(在基于Galaxycloud的信息学套件中)将数据映射到人类参考序列,且在SeqMonk基因组学软件中进行进一步分析,如先前所描述。
带条形码的亲和探针的合成
为了合成针对PMCA(质膜钙ATP酶蛋白)的带条形码的亲和探针,合成了两个互补的寡核苷酸(Integrated DNA Technologies的PolyT_5AM_3dT_1和PolyT_5AM_3dT_COMPL1),其各自包含NEBNext Index引物的外部正向和反向序列以及内部合成条形码序列,且各自在3′端被反向dT碱基封闭,且其中PolyT_5AM_3dT_1包含5′C12氨基改性剂(用于活化和结合至抗体)。寡核苷酸在热循环仪上使用缓慢的引物粘接循环彼此粘接,用2.8×Ampure XP珠粒清理,且再悬浮于H2O中,且接着使用ThunderLink PLUS OligoConjugation System(Expedeon,目录号425-0300)根据制造商的说明将100微升的42微摩尔纯化、粘接的寡核苷酸与100微克抗人类PMCA蛋白的亲和纯化单克隆抗体(ab2783,Abcam)结合,其中将活化的寡核苷酸材料以1∶2的体积比与活化的抗体材料结合,且接着在PBS中以1∶400稀释,且接着用作带条形码的亲和探针,如下地进行PMCA测量。
PolyT_5AM_3dT_1:
/5AmMC12/TTCCCTACACGACGCTCTTCCGATCTCAGTTAGATACAACGTGACCTGAGCAGTCTTAGCG AGATCGGAAGAGCACACGTCTGAACT*C*/3InvdT/
PolyT_5AM_3dT_COMPL1:
G*A*GTTCAGACGTGTGCTCTTCCGATCTCGCTAAGACTGCTCAGGTCACGTTGTATCTAACTGAGATCGGAAGAGCGTCGTGTAGGGA*A*/3InvdT/
在以上序列中:
* =硫代磷酸酯键
/5AmMC12/ =具有C12连接子的5′末端氨基改性剂
/3InvdT/ =3′末端反向dT碱基
PMCA蛋白测量方案
为了测量循环微米粒子上的PMCA蛋白水平,如上所述地分离CD2阴性微米粒子,且接着将20微升CD2阴性微米粒子与1.0微升针对PMCA的1∶400稀释的带条形码的亲和探针一起在4℃下培育30分钟。接着将样品在室温下以3000xG离心15分钟,吸出上清液(注意不要干扰沉淀),且将沉淀用300微升PBS洗涤,且接着再次在室温下以3000xG离心15分钟,再次吸出上清液(再次小心不要干扰沉淀),且将所得洗涤的、带条形码的亲和探针结合的微米粒子样品再悬浮于25微升PBS中。接着将所得的微米粒子样品划分且等分至如上所述的低浓度溶液中,且接着对个别等分试样编条形码,且准备用于如上文所述地用NEBNext样品制备试剂盒进行测序。接着使用‘NEBNext Ultra II Q5 Master Mix’和‘NEBNext IndexPrimers’通过分区条形码对所得的样品进行PCR扩增,且接着如先前所描述地用Ampure XP珠粒进行清理。在V2 2×25碱基对MiSeq流通池(Illumina)上对所得带条形码和扩增的样品进行定量、合并和测序,以使得每个个别带条形码的样品产生约100万个总序列读段;使用Bowtie 2(在基于Galaxy cloud的信息学套件中)将数据映射到人类参考序列,且在SeqMonk基因组学软件中进行进一步分析,如先前所描述。对于每个带条形码的库,分别检测、定量和分析了包含来自PMCA带条形码的亲和探针的内部合成条形码序列的读段。
在图33中,在图的顶部展示了一种实验方法的示意图,其中生成了循环微米粒子样品,且接着与珠粒溶液一起培育,其中珠粒与CD2蛋白(其发现于一个子集的免疫细胞的膜上以及将由其衍生的微米粒子上)的抗体结合。在允许CD2阳性微米粒子(即,在其表面上具有高浓度的CD2蛋白的微米粒子)与抗CD2珠粒结合的过程之后,使用磁体收集珠粒和与其结合的微米粒子(从而执行珠粒上包含的CD2蛋白的测量和选择)。接着将上清液(包含CD2阴性微米粒子)和珠粒结合的部分(包含CD2阳性微米粒子)稀释且划分成分区,且将每个分区中包含的核酸内容物(即,基因组DNA的片段)附接至分区相关的条形码,且接着将跨越若干个分区的带条形码的核酸合并且测序。
在图的底部展示了两个代表性循环微米粒子分区内的基因组DNA的片段的序列,如通过附接带条形码的寡核苷酸的方法产生,且取自CD2阳性池(左)和CD2阴性池。展示的是在每个染色体上平铺的2个兆碱基(Mb)滑动窗口内,人类基因组中所有染色体上的序列读段的密度。观察到大小改变但较大的清晰、独立的读段簇,展示通过这些实验方法可实现对循环微米粒子中靶多肽(在此实例中为CD2)的测量,以及对许多基因组DNA的连接片段的测量。
在图34中,在图的顶部展示了一种实验方法的示意图,其中生成了循环微米粒子样品,且接着与珠粒溶液一起培育,其中珠粒与CD2蛋白(其发现于一个子集的免疫细胞的膜上以及将由其衍生的微米粒子上)的抗体结合。在允许CD2阳性微米粒子(即,在其表面上具有高浓度的CD2蛋白的微米粒子)与抗CD2珠粒结合的过程之后,使用磁体收集珠粒和与其结合的微米粒子(从而执行珠粒上包含的CD2蛋白的测量和选择)。接着将上清液(包含CD2阴性微米粒子)部分稀释且划分成分区,且接着用5-甲基胞嘧啶敏感性限制酶(HpaII,其在未甲基化的CCGG DNA位点处消化,但被胞嘧啶甲基化抑制)消化每个分区中包含的核酸内容物(即,基因组DNA的片段),从而富集在CCGG位点处未甲基化的基因组DNA的片段(从而执行5-甲基胞嘧啶修饰的DNA的测量)。接着将所得的未消化的、未甲基化的富集DNA片段附接至分区相关的条形码,且接着将跨越若干个分区的带条形码的核酸合并且测序。
图的左下方展示了代表性循环微米粒子分区内的基因组DNA的片段的序列,如通过附接带条形码的寡核苷酸的方法产生,且在通过HpaII消化而耗尽未甲基化的DNA片段后取自CD2阴性池。展示的是在每个染色体上平铺的2个兆碱基(Mb)滑动窗口内,人类基因组中所有染色体上的序列读段的密度。右侧是在4个对照(未消化)库和4个HpaII消化的库(富集了甲基化CCGG DNA)中含有CCGG序列的序列读段的百分比的图。如所预期,消化的库在库中部分地展现小但清晰的CCGG序列耗尽,其将对应于HpaII样品中未甲基化的含有CCGG的片段的分子耗尽,因此展示所述方法累积地能够测量多肽,以及来自循环微米粒子的基因组DNA的片段和修饰的DNA核苷酸。
在图35中,在图的顶部展示了一种实验方法的示意图,其中生成了循环微米粒子样品,且接着与珠粒溶液一起培育,其中珠粒与CD2蛋白(其发现于一个子集的免疫细胞的膜上以及将由其衍生的微米粒子上)的抗体结合。在允许CD2阳性微米粒子(即,在其表面上具有高浓度的CD2蛋白的微米粒子)与抗CD2珠粒结合的过程之后,使用磁体收集珠粒和与其结合的微米粒子(从而执行珠粒上包含的CD2蛋白的测量和选择)。接着将上清液(包含CD2阴性微米粒子)部分与带条形码的亲和探针的溶液一起培育,所述探针包含针对PMCA(质膜钙ATP酶)蛋白的抗体和带条形码的寡核苷酸。接着通过离心步骤将所得的与带条形码的亲和探针结合的微米粒子沉淀,且用PBS洗涤以去除未结合的带条形码的亲和探针。接着将得到的与带条形码的亲和探针结合的微米粒子再悬浮于PBS中,且稀释且划分成分区,且接着将每个分区中包含的核酸内容物(即,基因组DNA的片段和带条形码的亲和探针的序列)附接至分区相关的条形码,且接着将跨越若干个分区的带条形码的核酸合并且测序。
图的左下方展示了代表性循环微米粒子分区内的基因组DNA的片段的序列,如通过附接带条形码的寡核苷酸的方法产生,且取自CD2阴性池,且接着将PMCA的测量与带条形码的亲和探针结合。展示的是在每个染色体上平铺的2个兆碱基(Mb)滑动窗口内,人类基因组中所有染色体上的序列读段的密度。右侧展示了在用PMCA靶向的带条形码的亲和探针进行标记的过程之后,在4个对照样品(无带条形码的亲和探针标记)和2个样品(即,循环微米粒子分区)中的每一个中的序列读段数。在对照样品中没有发现来自带条形码的亲和探针的序列读段,但在每个阳性样品中都观察到了来自带条形码的亲和探针的大量序列。累积地,这些结果说明所述方法能够测量多种多肽(包括通过使用带条形码的亲和探针)和来自循环微米粒子的基因组DNA的片段。
本文引用了各种出版物,其公开内容以全文引用的方式并入。
Claims (15)
1.一种分析包含循环微米粒子的样品或衍生自循环微米粒子的样品的方法,其中所述循环微米粒子为膜状囊泡,其中所述循环微米粒子包含至少三个靶分子,其中至少两个所述靶分子是基因组DNA的片段且至少一个所述靶分子是靶多肽,且其中所述方法包含测量与每个所述靶分子的存在、不存在和/或水平对应的信号,以针对所述循环微米粒子产生至少两个连接信号的集合,其中至少一个所述连接信号对应于所述样品中的所述基因组DNA的片段的存在、不存在和/或水平,且至少一个所述连接信号对应于所述样品中的所述靶多肽的存在、不存在和/或水平,且其中测量与所述基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含连接至少两个基因组DNA的片段中的至少两个以产生至少两个基因组DNA的连接片段的集合。
2.根据权利要求1所述的方法,其中所述基因组DNA的片段包含核苷酸的特定序列,和/或其中所述基因组DNA的片段包含至少一个修饰的核苷酸或核碱基,任选地,其中所述修饰的核苷酸或核碱基是5-甲基胞嘧啶或5-羟甲基胞嘧啶。
3.根据权利要求1或2所述的方法,其中所述靶多肽包含特定氨基酸序列,和/或其中所述靶多肽包含翻译后修饰,任选地,其中所述靶多肽包含乙酰化氨基酸残基和/或甲基化氨基酸残基。
4.根据权利要求1至3中任一项所述的方法,其中所述方法包含测量与所述循环微米粒子的每个所述靶分子的存在、不存在和/或水平对应的信号,以针对所述循环微米粒子产生至少三个连接信号的集合,其中一个所述连接信号对应于所述循环微米粒子的第一基因组DNA的片段的存在、不存在和/或水平,一个所述连接信号对应于所述循环微米粒子的第二基因组DNA的片段的存在、不存在和/或水平,且一个所述连接信号对应于所述循环微米粒子的所述靶多肽的存在、不存在和/或水平。
5.根据权利要求1至4中任一项所述的方法,其中测量与所述基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含分析至少两个基因组DNA的片段中的至少两个中的每一个的序列,任选地,其中测量与所述基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含对所述至少两个基因组DNA的片段中的至少两个中的每一个的至少一部分进行测序。
6.根据权利要求1至5中任一项所述的方法,其中测量与所述基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含对所述集合中的至少两个所述连接片段中的每一个的至少一部分进行测序,以产生至少两个连接序列读段。
7.根据权利要求1至6中任一项所述的方法,其中测量与所述基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含:
(a)将所述循环微米粒子的所述至少两个基因组DNA的片段中的至少两个中的每一个附接至条形码序列,以产生基因组DNA的连接片段的集合;和任选地,
(b)对所述集合中的至少两个所述连接片段中的每一个的至少一部分进行测序以产生至少两个连接序列读段,其中所述至少两个连接序列读段通过所述条形码序列连接。
8.根据权利要求1至6中任一项所述的方法,其中测量与所述基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含:
(a)将所述循环微米粒子的所述至少两个基因组DNA的片段中的至少两个中的每一个附接至条形码序列的集合中的不同条形码序列,以产生基因组DNA的连接片段的集合;和任选地,
(b)对所述集合中的至少两个所述连接片段中的每一个的至少一部分进行测序以产生至少两个连接序列读段,其中所述至少两个连接序列读段通过所述条形码序列的集合连接。
9.根据权利要求1至8中任一项所述的方法,其中所述基因组DNA的片段包含至少一个修饰的核苷酸或核碱基,且其中测量与所述基因组DNA的片段的存在、不存在和/或水平对应的信号的步骤包含测量与所述基因组DNA的片段的所述修饰的核苷酸或核碱基的存在、不存在和/或水平对应的信号,任选地,其中所述修饰的核苷酸或核碱基是5-甲基胞嘧啶或5-羟甲基胞嘧啶。
10.根据权利要求9所述的方法,其中如下地测量与所述修饰的核苷酸或核碱基的存在、不存在和/或水平对应的信号:使用(i)带条形码的亲和探针,其中所述带条形码的亲和探针包含至少一个与带条形码的寡核苷酸连接的亲和部分,其中所述带条形码的寡核苷酸包含至少一个核苷酸,且其中所述亲和部分能够结合至所述修饰的核苷酸或核碱基,任选地,其中通过测序确定所述带条形码的寡核苷酸的存在、不存在和/或水平来测量所述信号;和/或(ii)光学标记的亲和探针和/或荧光标记的亲和探针,任选地,其中通过流式细胞测量术和/或荧光活化细胞分选来测量所述信号。
11.根据权利要求1至10中任一项所述的方法,其中如下地测量与所述靶多肽的存在、不存在和/或水平对应的信号:使用(i)带条形码的亲和探针,其中所述带条形码的亲和探针包含至少一个与带条形码的寡核苷酸连接的亲和部分,其中所述带条形码的寡核苷酸包含至少一个核苷酸,且其中所述亲和部分能够结合至所述靶多肽,任选地,其中通过测序确定所述带条形码的寡核苷酸的存在、不存在和/或水平来测量所述信号;和/或(ii)光学标记的亲和探针和/或荧光标记的亲和探针,任选地,其中通过流式细胞测量术和/或荧光活化细胞分选来测量所述信号。
12.根据权利要求1至11中任一项所述的方法,其中所述循环微米粒子包含至少3、至少4、至少5、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少100,000或至少1,000,000个靶分子,且其中所述方法包含针对所述循环微米粒子产生至少3、至少4、至少5、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少100,000或至少1,000,000个连接信号的集合。
13.根据权利要求1至12中任一项所述的方法,其中所述靶分子包含至少2、至少3、至少4、至少9、至少49、至少99、至少499、至少999、至少4999、至少9,999、至少99,999或至少999,999个基因组DNA的片段,且任选地,其中所述方法包含针对所述循环微米粒子产生至少3、至少4、至少5、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少100,000或至少1,000,000个连接信号的集合。
14.根据权利要求1至13中任一项所述的方法,其中所述靶分子包含至少2、至少3、至少4、至少9、至少49、至少99、至少499、至少999、至少4999、至少9,999、至少99,999或至少999,999个靶多肽,且任选地,其中所述方法包含针对所述循环微米粒子产生至少至少3、至少4、至少5、至少10、至少50、至少100、至少500、至少1000、至少5000、至少10,000、至少100,000或至少1,000,000个连接信号的集合。
15.根据权利要求1至14中任一项所述的方法,其中所述样品包含第一和第二循环微米粒子,其中每个循环微米粒子包含至少三个根据权利要求1至14中任一项所述的靶分子,且其中所述方法包含根据权利要求1至14中任一项所述执行测量步骤以针对所述第一循环微米粒子产生连接信号的集合,和根据权利要求1至14中任一项所述执行测量步骤以针对所述第二循环微米粒子产生连接信号的集合;任选地,其中所述样品包含n个循环微米粒子,其中每个循环微米粒子包含至少三个根据权利要求1至14中任一项所述的靶分子,且其中所述方法包含针对每个循环微米粒子,根据权利要求1至14中任一项所述执行测量步骤以针对每个循环微米粒子产生连接信号的集合,任选地,其中n为至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000或至少100,000,000个循环微米粒子。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB1810571.8A GB201810571D0 (en) | 2018-06-27 | 2018-06-27 | Reagents and methods for the analysis of circulating microparticles |
GB1810571.8 | 2018-06-27 | ||
EP18180259.6 | 2018-06-28 | ||
EP18180259.6A EP3587589B1 (en) | 2018-06-27 | 2018-06-28 | Reagents and methods for the analysis of circulating microparticles |
PCT/GB2018/053753 WO2020002862A1 (en) | 2018-06-27 | 2018-12-21 | Methods for the analysis of circulating microparticles |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112771174A true CN112771174A (zh) | 2021-05-07 |
Family
ID=62814927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880096851.7A Pending CN112771174A (zh) | 2018-06-27 | 2018-12-21 | 用于循环微米粒子分析的方法 |
Country Status (11)
Country | Link |
---|---|
US (1) | US20210254136A1 (zh) |
EP (2) | EP3587589B1 (zh) |
JP (1) | JP2021528994A (zh) |
KR (1) | KR20210043560A (zh) |
CN (1) | CN112771174A (zh) |
AU (1) | AU2018429361A1 (zh) |
CA (1) | CA3104403A1 (zh) |
GB (1) | GB201810571D0 (zh) |
IL (1) | IL279806A (zh) |
SG (1) | SG11202013012WA (zh) |
WO (1) | WO2020002862A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023066271A1 (zh) * | 2021-10-20 | 2023-04-27 | 北京大学 | 一种基因修饰检测方法及其应用 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4162075A4 (en) * | 2020-06-08 | 2024-06-26 | The Broad Institute, Inc. | COMBINATORY SINGLE-CELL INDICATION OF AMPLIFIED NUCLEIC ACIDS |
US20220033810A1 (en) * | 2020-07-31 | 2022-02-03 | Becton, Dickinson And Company | Single cell assay for transposase-accessible chromatin |
EP4355898A1 (en) | 2021-06-18 | 2024-04-24 | CS Genetics Limited | Reagents and methods for molecular barcoding |
WO2022271857A1 (en) * | 2021-06-23 | 2022-12-29 | Accuragen Holdings Limited | Gene expression and cell-free dna methods and systems for disease detection |
WO2023049941A1 (en) * | 2021-09-27 | 2023-03-30 | Myome, Inc. | Methods to simulate prospective embryo genotypes and approximate disease occurence risk |
WO2023104812A1 (en) * | 2021-12-09 | 2023-06-15 | F. Hoffmann-La Roche Ag | Mass based detection of pcr amplicons |
WO2023159427A1 (zh) * | 2022-02-24 | 2023-08-31 | 青岛华赛伯曼医学细胞生物有限公司 | 共表达CD45和EpCAM的细胞群的检测和分离方法及其用途 |
US20230383343A1 (en) * | 2022-05-30 | 2023-11-30 | Miltenyi Biotec B.V. & Co. KG | Method Combining In Situ Target Amplification and Spatial Unique Molecular Identifier (SUMI) Identification Using RT-PCR |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090075266A1 (en) * | 2007-09-14 | 2009-03-19 | Predictive Biosciences Corporation | Multiple analyte diagnostic readout |
US20150004618A1 (en) * | 2012-02-09 | 2015-01-01 | Max-Planck Gesellschaft Zur Foerderung Der Wissenschaften E.V. | Method for linking and characterising linked nucleic acids, e.g. antibody encoding nucleic acids, in a composition |
US20160319361A1 (en) * | 2013-08-28 | 2016-11-03 | Caris Life Sciences Switzerland Holdings Gmbh | Oligonucleotide probes and uses thereof |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9704444D0 (en) | 1997-03-04 | 1997-04-23 | Isis Innovation | Non-invasive prenatal diagnosis |
US20100112590A1 (en) | 2007-07-23 | 2010-05-06 | The Chinese University Of Hong Kong | Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment |
CA2694820C (en) * | 2007-07-30 | 2015-06-16 | F. Hoffman-La Roche Ag | Methods of identification using methylation of cpg |
CA2709632A1 (en) * | 2007-12-20 | 2009-07-02 | Human Genetic Signatures Pty Ltd | Elimination of contaminants associated with nucleic acid amplification |
PT2334812T (pt) | 2008-09-20 | 2017-03-29 | Univ Leland Stanford Junior | ¿diagnóstico não invasivo de aneuploidia fetal por sequenciação |
CA2755668A1 (en) * | 2009-03-15 | 2010-09-23 | Ribomed Biotechnologies, Inc. | Abscription based molecular detection |
US20110312503A1 (en) | 2010-01-23 | 2011-12-22 | Artemis Health, Inc. | Methods of fetal abnormality detection |
WO2011103236A2 (en) | 2010-02-18 | 2011-08-25 | The Johns Hopkins University | Personalized tumor biomarkers |
PL3456844T3 (pl) | 2011-04-12 | 2020-11-16 | Verinata Health, Inc. | Rozdzielanie frakcji genomowych z wykorzystaniem zliczeń polimorfizmów |
WO2012149042A2 (en) * | 2011-04-25 | 2012-11-01 | Bio-Rad Laboratories, Inc. | Methods and compositions for nucleic acid analysis |
WO2013177581A2 (en) | 2012-05-24 | 2013-11-28 | University Of Washington Through Its Center For Commercialization | Whole genome sequencing of a human fetus |
US9005888B2 (en) | 2012-06-14 | 2015-04-14 | System Biosciences, Llc | Methods for microvesicle isolation and selective removal |
US20150376609A1 (en) * | 2014-06-26 | 2015-12-31 | 10X Genomics, Inc. | Methods of Analyzing Nucleic Acids from Individual Cells or Cell Populations |
ES2540255B1 (es) | 2013-11-19 | 2016-05-12 | Tomás SEGURA MARTÍN | Método de aislamiento de cuerpos apoptóticos |
EP3567120B1 (en) | 2014-12-12 | 2020-08-19 | Verinata Health, Inc. | Using cell-free dna fragment size to determine copy number variations |
CN107922971A (zh) * | 2015-05-18 | 2018-04-17 | 凯锐思公司 | 用于富集核酸群体的组合物和方法 |
GB2539675B (en) | 2015-06-23 | 2017-11-22 | Cs Genetics Ltd | Libraries of multimeric barcoding reagents and kits thereof for labelling nucleic acids for sequencing |
EP3516400B1 (en) * | 2016-09-26 | 2023-08-16 | Becton, Dickinson and Company | Measurement of protein expression using reagents with barcoded oligonucleotide sequences |
-
2018
- 2018-06-27 GB GBGB1810571.8A patent/GB201810571D0/en not_active Ceased
- 2018-06-28 EP EP18180259.6A patent/EP3587589B1/en active Active
- 2018-12-21 KR KR1020217001774A patent/KR20210043560A/ko active Search and Examination
- 2018-12-21 CN CN201880096851.7A patent/CN112771174A/zh active Pending
- 2018-12-21 AU AU2018429361A patent/AU2018429361A1/en active Pending
- 2018-12-21 WO PCT/GB2018/053753 patent/WO2020002862A1/en unknown
- 2018-12-21 JP JP2020573510A patent/JP2021528994A/ja active Pending
- 2018-12-21 US US17/254,153 patent/US20210254136A1/en active Pending
- 2018-12-21 CA CA3104403A patent/CA3104403A1/en active Pending
- 2018-12-21 SG SG11202013012WA patent/SG11202013012WA/en unknown
- 2018-12-21 EP EP18830292.1A patent/EP3814526A1/en active Pending
-
2020
- 2020-12-27 IL IL279806A patent/IL279806A/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090075266A1 (en) * | 2007-09-14 | 2009-03-19 | Predictive Biosciences Corporation | Multiple analyte diagnostic readout |
US20150004618A1 (en) * | 2012-02-09 | 2015-01-01 | Max-Planck Gesellschaft Zur Foerderung Der Wissenschaften E.V. | Method for linking and characterising linked nucleic acids, e.g. antibody encoding nucleic acids, in a composition |
US20160319361A1 (en) * | 2013-08-28 | 2016-11-03 | Caris Life Sciences Switzerland Holdings Gmbh | Oligonucleotide probes and uses thereof |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023066271A1 (zh) * | 2021-10-20 | 2023-04-27 | 北京大学 | 一种基因修饰检测方法及其应用 |
Also Published As
Publication number | Publication date |
---|---|
KR20210043560A (ko) | 2021-04-21 |
GB201810571D0 (en) | 2018-08-15 |
US20210254136A1 (en) | 2021-08-19 |
AU2018429361A1 (en) | 2021-02-18 |
EP3587589A1 (en) | 2020-01-01 |
WO2020002862A1 (en) | 2020-01-02 |
JP2021528994A (ja) | 2021-10-28 |
EP3587589B1 (en) | 2023-09-13 |
EP3814526A1 (en) | 2021-05-05 |
IL279806A (en) | 2021-03-01 |
SG11202013012WA (en) | 2021-01-28 |
CA3104403A1 (en) | 2020-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110536967B (zh) | 用于分析相联系核酸的试剂和方法 | |
US20220315984A1 (en) | Reagents and Methods for the Analysis of Microparticles | |
EP3587589B1 (en) | Reagents and methods for the analysis of circulating microparticles | |
JP6905934B2 (ja) | 腫瘍試料の多重遺伝子分析 | |
US20220154288A1 (en) | Combined analysis of cell-free nucleic acids and single cells for oncology diagnostics | |
KR102354422B1 (ko) | 대량 평행 서열분석을 위한 dna 라이브러리의 생성 방법 및 이를 위한 키트 | |
CN111712580A (zh) | 用于扩增双链dna的方法和试剂盒 | |
KR20210035167A (ko) | 게놈 변경을 평가하기 위한 조성물 및 방법 | |
WO2017193044A1 (en) | Noninvasive prenatal diagnostic | |
WO2019197541A1 (en) | Detection method of somatic genetic anomalies, combination of capture probes and kit of detection | |
JPWO2016159111A1 (ja) | 胎児の遺伝子状態を判定する方法 | |
US20210403994A1 (en) | Methods for rapid dna extraction from tissue and library preparation for nanopore-based sequencing | |
EP3696279A1 (en) | Methods for noninvasive prenatal testing of fetal abnormalities | |
CA3220457A1 (en) | Multi-omic analysis of extracellular vesicles in monodisperse droplets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40050395 Country of ref document: HK |